浅谈分词中的歧义问题 倪 鹏 (长春工业大学,吉林 长春130012) 摘 要:随着Internet的发展,数字化、信息化迅速增加,人们对中文信息也越来越关注,随之而来计算机自动分词的处理能力变成现代汉语信息处理的重要组成部分。衡量一个分词算法的优劣主要在于分词的正确率和速度。其中,分词的正确率尤为重要。我们认为歧义切分问题成为影响分词正确率的主要因素之一。 关键词:歧义;交集型;组合型;确定分法; 中图分类号:TP311.5 文献标识码:A 文章编号:1008-7508(2009)05-0059-03 在解决歧义的问题上,主要采用解决交集型歧义的方法,此方法是根据词的属性,利用词法搭配规则进行消除歧义,对于组合型歧义我们对各种经常出现的词性分别做了相应的解决办法,如果这些方法未能生效,则采用统计分析的方法进行处理。最后对未登录词采用统计分析的方法进行处理,主要用到了统计学中的概率的知识和算法,这样可以随时的更新词库,以便得到更丰富的词条信息。
一、歧义产生
汉语句子的表达形式相同,但意义不同,这种同形异义的句子称为歧义句。这里所谓的“句子”,实际上包含了若干个句子。造成句子歧义的因素很多,它包括词汇、语法、语义及语用等多方面,消除句子歧义的办法相应也有好多种。这里主要讨论关于歧义的消解。分词过程中歧义产生的根源可归结为以下三类: 1、由自然语言的二义性所引起的歧义,称为第一类歧义。如:“乒乓球拍卖完了”可切分为“乒乓球/ 拍卖/ 完了”又可以切分为“乒乓球拍/ 卖/ 完了”。这两种切分形式无论在语法上还是语义上都是正确的,就是人工分词也会产生歧义,只有结合上下文才能给出正确的切分。 2、由机器自动分词产生的特有歧义,称为第二类歧义。如:“在这种环境下工作是太可怕了”用机器切分,可以切分为“在/ 这种/ 环境/ 下工/ 作/ 是/ 太/ 可怕/ 了”,也可以切分为“在/这种/ 环境/ 下/ 工作/ 是/ 太/ 可怕/ 了”。对本句来说,只有第二种切分是正确的,用人工分词是不可能产生歧义的,歧义是由于机器机械切分产生的。 3、由于分词词典的大小而引起的歧义,称为第三种歧义。如:“王小二是一个农民”用机器切分被分为“王/ 小/ 二/ 是/ 一个/ 农民”,这里“王小二”是一个人名,在汉语中应是一个词,所以这个切分是错误的。由于机器自动切分是依据分词词典进行的,故词典中没有的词,就不可能被正确切分,分词词典不可能也没有必要包括所有的词(如人名、地名)。
二、歧义字段的定义
歧义字段从构成形式上可分为交集型歧义字段和组合型歧义字段两类。分别描述如下: 交集型歧义字段:在字段AJB 中,AJ ∈W并且JB ∈W,则称AJB 为交集型歧义字段。其中A、J 、B 为字串,W为词表。歧义字段的构成形式除上述AJB 外还可能有多种结构。 组合型歧义字段:在字段AB 中AB ∈W,A ∈W,B ∈W,W为词表,则称AB 为组合型歧义字段。 此外,组合型歧义字段除AB 型外,还可能有ABC 型或ABCD 型。歧义切分字段还可能有其他混合交叉形式出现,在研究切分技术时,也应该引起注意。 例如在句子“在这种情况下工作是不可想象的”中的交集字段“下工作”,只能唯一地切分成“下/工作”。再如“把手举起来”中组合歧义字段“把手”只能切分成“把/手”。因而,在这个短句中它们都具有固定的切分形式。属于第一类情况。又如“研究生会采取行动”中的歧义的字段“研究生会”,既可以切分成“研究生/会”又可以切割成“研究生会/”。这两种切分方法在语法上、语义上在此短句上都是正确的,仅根据次短句不能确定哪种分词形式是正确的,因而它属于第二类歧义切分的字段。①
三、消除歧义的主要技术
歧义切分处理是自动分词系统设计中的核心问题之一。目前,研究工作者对歧义字段切分提出了多种方法,取得了一定的成效。选择消歧方法的目的在于选择有效的方法,以获得有助于确定词义的上下文特征或者知识。根据获取知识的方法消歧的方法可以分四类:② 1、基于词典的消歧:机读词典和义类词典提供了有关词汇用法及词义的丰富知识是词义消歧的主要知识来源于从Amsler等人的研究开始,机读词典为研究者们所重视。并成为八十年代词义消歧工作的主要知识源。基于机读词典的典型方法是:利用单词在词典中不同义项的定义,计算歧义词的各词义的定义和上下文词汇的词义定义覆盖量,选择覆盖量最大者作为当前词义。遗憾的是,这种方法的正确率大约为50-70%,主要原因在于:(一)传统基于机读词典的方法没有充分利用词典中的短语、示例等信息;(二)读词典中词义定义语句一般较短,以至于很多情况下,无论歧义的哪一种词义的定义与上下文单词的定义覆盖值均为零。(三)在实际应用中,不可避免的组合爆炸也限制了方法的使用。 2、基于规则的消歧。依据语言专家的语言知识,构造规则库描述语言知识,分析歧义词及其上下文,选择满足规则条件的词义。规则通常描述限制歧义词修饰的成分或修饰歧义词的成分。 在大规模真实语料库中,通过对大量歧义字段的提取和分析,把它们按某种指标或属性进行分类,然后给出每类歧义字段的切分规则,组成歧义切分规则库。因此,规则方法处理歧义字段的效果,将取决于对歧义字段分类的合理性和切分规则的普适性上。 3、基于语料库的方法。它的出现开辟了自然语言处理的新纪元。近年来逐步占据主导地位,目前的词义消歧研究已经离不开语料库的支持。从语料标注的角度看,分为有指导的方法和无指导的方法。前者从含有词义标注的熟语料中收集消歧知识,后者从无词义标注的生语料中收集消歧知识。基于语料库方法以语料库作为知识源,核心是从语料库自动或半自动学习决定单词词义的上下文,从方法上看,可分为基于统计和基于实例两类方法。基于统计的方法从标注或未标注的语料中统计支持歧义词用作不同词义时的上下文证据,这些证据用来对新输入句子的歧义词消歧。③ 4、基于知识库的歧义处理方法的出发点在于:大规模真实语料库统计表明,在所有歧义字段中伪歧义字段的数量达到很高的值,还有一些真歧义字段,只需要少量的上下文信息也能正确切分。把这些歧义字段的正确切分方式整理成知识库,库中每一条记录为一个三元组,这样,根据事先整理的切分知识库,对这类歧义字段几乎可以做到无错切分,而且时间空间代价小、效率高,这无疑是歧义处理中一种非常简单有效的方法。 经过多年尝试,越来越多的研究者们倾向于综合多种方法以消歧。该方法组合多种知识和多种方法,获得更好的消歧性能。知识源的组合扩展了消歧可能用到的知识;多种方法的组合可以有针对性地解决不同的歧义现象。基于马尔可夫模型的统计方法结合消解歧义。消歧正确率在92%左右,恰当地引入机器学习算法也将改善词义消歧效果。例如,苟恩东使用以消歧矩阵为计算背景的核心算法选择译文。
注 释: ①孙茂松,左正平,邹嘉彦.消解中文三字长交集型分词歧义的算法[J].清华大学学报,1999.39(5):101-103. ②詹卫东,俞士汶.汉语短语结构定界歧义类型分析及分布统计[J].中文信息学报,1999,(3). ③王晓龙,关毅.计算机自然语言处理[M].清华大学出版社,2005-4. 参考文献: [1] 刘禹孜.汉语自动分词中排除歧义字段算法的研究[J].南昌大学学报,2002,(2). [2] 陈小荷.自动分词中未登录词问题的一揽子解决方案[J].浙江教育学院学报,2001,(5). [3] 徐辉.书面汉语自动分词专家系统的实现[J].中文信息学报,1991,(3). [4] 梁南元.汉语计算机自动分词知识[J].中文信息学报,1990,(2).
收稿日期:2009-06-28 作者简介:倪鹏(1980—),吉林长春人,长春工业大学软件职业技术学院教师,硕士。
|