热词世界杯

语义分析或成中文搜索下一个出路?

2008-05-14 09:45 出处:pconline 作者:PConline 责任编辑:liyi

 

  “人肉搜索”与“垂直搜索”使热门的搜索引擎话题更加“热门”。热衷于此的人们一边为“人肉搜索”因着草根带来的巨大威力而欢呼,一边试图将“人肉搜索”由网友自发行为转变为“集体有意识”的人海战术,希望籍此弥补电脑所不能达到的“精准”;这是人面对浩瀚信息的几分不得已?还是搜索技术已经图穷匕现的另类解读呢?

  与“人肉搜索”在广泛领域中的勃勃雄心不同,“垂直搜索”将视野缩小到狭窄领域,力图达到“小的就是美的”境界,通过对“关键词”的进一步细分,实现某些领域内的“精准”与“实用”,所依赖的仍然是人工分拣,比如时下流行的“酷讯”与“爱帮网”。

  是否搜索引擎已经发展到必须依靠人工才能实现精准化的的地步?人工干预能否达到理想效果呢?一位名叫蒂姆西·李的国外专家指出,用户的搜索以及搜索结果的数量浩如烟海,根本不可能有足够的人力来编辑这些修改结果,有限的人力面对无限的搜索结果列表,显然无法应对。

  搜索结果与海量信息之间“瓶颈”如何来解决呢?从事中文信息处理多年,我国863项目专家,HNC理论创始人黄曾阳先生指出,中文搜索只有依靠“语义分析”才能走出目前的困境。

  中文,丰富之美

  据黄先生介绍,目前,我国中文自然语言处理普遍采用西基于拉丁语系的“关键词”技术,以此来分析理解中文。然而,中文本身的特点决定它与西语之间巨大的区别。我国著名的语言信息处理专家陈力为院士就曾指出:“世界的五种主要语言中,形态最丰富的是俄语,其次是德语-法语-英语-汉语(汉语是无形态语言)。从这个顺序来看,汉语是自然语言中最高层次的语言。层次越高越要依靠语义和语域。要解决计算机处理汉语的问题,必须在语义研究上下一番功夫。从汉语信息处理的需要看,当前急迫需要突破的是语义问题。

  中文与西语不同决定我们无法采用西语的架构体系来处理中文,具体区别在于:

  一、西语词间有间隔,汉语词间无间隔。众所周知,英文是以词为单位的,词和词之间是靠空格隔开,而中文是以字为单位,句子中所有的字连起来才能描述一个意思。例如,英文句子I am a student,用中文则为:“我是一个学生”。计算机可以很简单通过空格知道student是一个单词,但是不能很容易明白“学”、“生”两个字合起来才表示一个词。把中文的汉字序列切分成有意义的词,就是中文分词,有些人也称为切词。我是一个学生,分词的结果是:我是 一个 学生。中文分词就成了计算机处理的难题。

  二、汉语形态不发达,句尾没有形态标记。英语动词、名词很清楚,加上词尾可以是副词;西语有时态,过去式、现在式等等非常清楚,中文则依靠词语或者依靠自己的判断来确定时态。

  三、同音字多 增加了机器识别的难度。

  四、汉语语义灵活,由于形态不发达,所以语序无规律。在一次学术会议上,一位著名的人工智能专家说:“按‘主-谓-宾’或‘名-动-名’这一规则,计算机可显出‘牛吃草’,也可显出‘草吃牛’。从语法格式上看,‘草吃牛’也不错,但这句话是说不通的。人依靠自己的经验可以判断,机器如何来判断呢?

键盘也能翻页,试试“← →”键
分享到: QQ空间 新浪微博 腾讯微博 更多