作者:IT168 胡磊 来源:IT168 酷勤网收集 2008-08-30
今天做客的是Semantra公司的奠基人,也是该公司R&D的副主席Marvin Elder先生。Semantra是一家专注于将自然语言和语义学应用于数据库的一家公司。
主持人:什么是 “会话式分析学(conversational analytics)”?
ME: 会话式分析学是一种方法,这种方法能让非技术终端用户用他们熟悉的商业术语,通过普通的话语请求就能从数据库获得需要的信息。
要想获得技术含量更高更精准的答案,需要明确在自然语言处理(NLP)领域中会话式分析学所处的地位。为了说明这个观点,将自然语言处理(NLP)分解成各部分来研究,最后就会落脚到研究会话式分析学。从更广阔的认知上看,历来自然语言处理(NLP)与结构化查询查询联系在一起,它不适用于非结构化数据:文档、电子邮件、RSS等。“语义学”是自然语言处理(NLP)的一个新兴的学科,是计算语言学和概念实体论的联姻。
自然语言数据库查询(NLDQ)是自然语言处理(NLP)的子领域,处理自然语言查询。自然语言数据库查询(NLDQ)本质特点就是将自然语言请求转化为SQL或者一些其他数据库查询语言。因此,语义学和关系数据库理论和并在一起,二者合璧,分析语境的请求,将一些形成的概念转化为目前使用成熟的数据库查询,将准确的信息返回给用户。
许多分析员总想将自然语言数据库查询(NLDQ)和“特别的BI工具”等同起来,但是我们不相信有一个工具这么“特别”,除非有一个具有数据库头脑的分析师来辅助。让特别的BI工具变得有用,那么准非技术终端用户必须能够得到自己的报表和图表,而不需要借助于IT人士。很遗憾,普通用户缺少推理能力的现实阻止了这种工具服务于商业的推广。
会话式语义分析学要胜过特别的BI工具,因为它可以给用户输送“可控信息”,这些用户想要或需要基于既定的事情做出商业决策。用户考虑这么一个查询问题:“在休斯敦有哪个批发商的门市部,截至3/31/08营业收入额达$100,000?”这个时候数据库系统就要有重新定义商业行话和缩语的能力,处理非技术用户和企业数据之间的真实会话。这个能力正是Semantra软件的开发目标。
主持人:因此你的产品实际上是服务于自然语言数据库查询,而不是非结构数据的自然语言处理。既然这么些年来进行了许多次的尝试,过去的研究对于现在的成功有哪些帮助?出现了更好的算法?
ME: 当然有帮助!在探寻对话式分析突破口的道路上,Semantra公司坚信有更好的算法,将语义学、关系导航和用户会话成功的融合,产生新的技术,这种新的技术会消除与现存查询产品兼容的复杂度。
自然语言数据库查询系统自1970年以来就开始尝试。从人工智能实验室出来了少数几个“原型系统”,这些实验室的系统还是能够从数据库信息中推测出事实来的(其中一个叫PLANES,1975年在伊利诺斯大学开发出来)。
在80年代,我现在的公司,Software Automation为终端用户开发了一个4GL,叫Salvo,该系统里面内置了自然语言功能,将自然语言请求转化为Salvo 4GL代码。1984年9月,PC Magazine将Salvo列为“年度最好9大数据库产品”之一。
在80年代后期,English Wizard以产品诞生,但是它的自然语言查询算法只能和非常小的数据库一起工作,并且随着时间的推移,证明该产品是不具备现实企业数据库的伸缩性。
在90年代早期,微软引入了English Query,使用一种称之为“向导导航(guided navigation)”式的自然语言,这个语言也试图用于其它商业的自然语言产品。在安装的过程中,向导导航(guided navigation)系统需要一名公司的分析师或者IT人员来命名数据库表之间的关系:如“销售代表命名订单,订单包括订单细节,产品进行了产品分类。”
使用向导导航(guided navigation)式的方法,用户要求通过实体(表格)之间的关系,描绘出正确的“导航路径”。因此如果一个用户询问“那个销售代表卖出了零售产品?”他事实上不能以会话式的形式来问这个问题。相反地,用户将会敲入语句进行查询: "list SalesReps who place Orders having Order Items associated with Products characterized as Product Category having category name 'Retail'."
向导导航(guided navigation)式的自然语言查询算法确实可以检索出正确的结果,但Semantra使用这种方法查询更有效率。用户会逐渐开始停止学习新的指定的、非对话式的方法来查询,这就是为什么Semantra选择采用更为直观,更为互动的方法。不仅仅Semantra用户能够明白他们的查询时如何解析的,他们还能看见其他可能查询到的语境内容,并且甚至能够逐步增加或者减少他们请求查询的范围。
主持人:似乎听起来自然语言数据库查询系统和它所连接的数据库功能一样好。这种数据库必须要有特别的功能吗?或是说现存的数据库(Oracle、MySQL等)已经具备这些功能了?
ME: Semantra搜索引擎设计的目的就是和任何的关系数据库系统一起工作的。我们支持商业的关系数据库系统,包括:Oracle、 Microsoft SQL Server、 IBM DB2,也支持开源的关系数据库管理系统,如MySql。
主持人:既然你的查询产品能够适用于多种数据库产品,你能和我们的读者分享你所选择的商业策略吗?首先进入哪个市场?
ME: 我们对市场的定位考虑了很多,肯定是要和我们最初提供的产品服务取向一致。从用户需求的角度来说,我们研究的技术就是让我们进入CRM、ERP这些产品市场。目前CRM、ERP这些应用程序通常会给用户强加一个特殊的定义术语,而这些定义的术语和用户自己行业的术语不一致。举个例子,用户在旅游咨询行业或许涉及的是“代理商”和 “代办处”,而CRM应用程序更多的通用实体称呼则是“账户”和“销售员”。
使用语义学,可以让用户用他们熟悉的商业术语来表达他们的查询,这些商业术语随后会自动和CRM或者ERP应用程序的概念相对应起来。一个对话式分析学的产品,如Semantra的产品能够让企业的用户很容易获得数据,而不用像今天“特别查询”工具那样需要很长的学习曲线。
主持人:没有网站能够让读者了解更多的信息?
ME::有的,他们能够访问www.semantra.com网站,来更加深入了解对话式分析学。

