热词世界杯

语义分析或成中文搜索下一个出路?

2008-05-14 09:45 出处:pconline 作者:PConline 责任编辑:liyi

  中文处理,简单之美

  中文之纷繁复杂,构成了中文本身之优美、深邃。我们至今津津乐道唐诗宋词之意境深邃,遗憾那些古诗雅韵西语实难比拟。然而,信息时代,要让计算机来理解中文,具有挑战性的技术却是要化繁为简,使之具备能够从多重选择中锁定目标的能力,实际上也就是消解“语言模糊”。中文模糊主要表现为:

  1、歧义识别

  歧义是指同样的一句话,可能有两种或者更多的切分方法。例如:表面的,因为“表面”和“面的”都是词,那么这个短语就可以分成“表面 的”和“表面的”。再比如“和服”的 “化妆和服装”可以分成“化妆 和 服装”或者“化妆 和服 装”。由于没有人的知识去理解,计算机很难知道到底哪个方案正确。

  2、新词识别

  新词,专业术语称为未登录词。也就是那些在字典中都没有收录过,但又确实能称为词的那些词。最典型的是人名,人可以很容易理解句子“王军虎去广州了”中,“王军虎”是个词,因为是一个人的名字,但要是让计算机去识别就困难了。如果把“王军虎”做为一个词收录到字典中去,全世界有那么多名字,而且每时每刻都有新增的人名,收录这些人名本身就是一项巨大的工程。即使这项工作可以完成,还是会存在问题,例如:在句子“王军虎头虎脑的”中,“王军虎”还能不能算词?

  新词中除了人名以外,还有机构名、地名、产品名、商标名、简称、省略语等都是很难处理的问题,而且这些又正好是人们经常使用的词,因此对于中文自然语言处理来说来说,分词系统中的新词识别十分重要。

  消解模糊的能力成为中文自然语言处理的关键,以此获得对其准确性、智能性的评定。

  语义分析  创新之美

  有关专家已经意识到按照国内外普遍采用的语法分析、语法语义分析、语料统计等传统的技术路线继续搞下去,计算机永远不可能理解人类的语言。

  在这样的背景下,黄先生经过8个春秋,艰苦奋斗创立了HNC(概念层次网络)理论。该理论吸收菲尔墨(fillmore)、山克(schank)等人的有益思想的,建立了一个模拟人类语言感知过程的理论模式,具有扩散性的求异思维,鲜明的反思传统的特征,是目前中文信息处理三大流派之一。

  HNC理论彻底摆脱了传统自然语言分析模式解决问题的套路,用电脑模拟人脑感知语言的过程,从逻辑思维角度对语义进行判断,从领域、情景、背景三方面分析得到结果,也就是说使电脑建立起人脑的概念,通过概念入手完成对语言的认知,依靠上下文、篇章来判断语言本身的含义,而非从语法、句式分析来生硬的对语言进行理解。跳出了完全采用语法和词汇原则来理解文字信息的死循环,成功实现了计算机消除自然语言模糊特性的技术革新,建立了从语句→句群→篇章的语义描述体系,依托概念、语言、常识及专业三大知识库,用户使用日常语言输入问题后,计算机就能够立刻对信息进行理解甄别→加工提纯→挖掘,在浩瀚的互联网数据库中,寻找到匹配度最高的内容,给出最具价值的答案。

  它的问世将使自然语言处理领域中的很多问题取得突破性进展,使机器翻译、电话翻译、人机交互、智能检索、自动文摘等各个应用领域获得实质性的重大进展。

  目前,HNC理论对中文信息处理已经非常成熟,担当该理论研发与实践的北京大正研究院已经成功将其应用在了农业信息检索、机器翻译、政府机密过滤等领域。大正研究院董事长陈小盟说“在个别领域突破后,推向大规模的应用也只是个时间问题。”

  未来,这种创新的基于“语义分析”技术是否成为中文搜索下一步出路呢?

键盘也能翻页,试试“← →”键
分享到: QQ空间 新浪微博 腾讯微博 更多