CN103324626A

CN103324626A - 一种建立多粒度词典的方法、分词的方法及其装置

Info

Publication number: CN103324626A
Application number: CN2012100764340A
Authority: CN
Inventors: 何径舟; 王丽杰
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2012-03-21
Filing date: 2012-03-21
Publication date: 2013-09-25
Anticipated expiration: 2032-03-21
Also published as: CN103324626B

Abstract

本发明提供了一种建立多粒度词典的方法、分词的方法及其装置，其中建立多粒度词典的方法包括：A.收集原始词表；B.从原始词表中识别出基本词及词组词，分别形成基本词表和词组词表；C.确定与各词组词分别对应的从属词及子词组词，以将各词组词分别对应的从属词及子词组词作为与该词组词相关联的内部成分；D.将基本词及词组词存为词典词条，并将与各词组词相关联的内部成分存为对应词典词条的内部成分，得到多粒度词典。通过上述方式，能够建立统一的分词词典，以为各种应用提供支持。

Description

一种建立多粒度词典的方法、分词的方法及其装置

【技术领域】

本发明涉及自然语言处理技术，特别涉及一种建立多粒度词典的方法、分词的方法及其装置。

【背景技术】

分词在自然语言处理相关的应用中非常重要，分词的结果将直接影响到具体应用的效果。不同的应用，对分词粒度有不同的要求，例如机器翻译的应用，为了使翻译的结果准确，最好以大粒度分词，这样能够将人名、地名、机构名等固有名词识别出来，提高翻译的准确度，而对于语音识别的应用来说，小粒度分词就可以满足需求。此外，对搜索引擎而言，以小粒度词语建立索引库，可以提高搜索引擎的召回率，同时以大粒度方式对用户的查询进行切分，能够减少搜索引擎查询的次数，提高效率。可见，不同的应用对分词粒度的需求不同，而分词粒度取决于分词时使用的词典。以往，根据不同应用的需要，可以分别人工整理出各个粒度下的词典作为分词的依据，但是人工得到的词典很难保证粒度的一致性，从而影响到具体应用的效果。

另一方面，分词过程中还存在一定的歧义现象。歧义指的是在分词过程中存在多种切分选择的情况，如“新华医疗器械”既可以切分为“新华医疗/器械”，也可以切分为“新华/医疗器械”，在分词过程中如果出现歧义，现有技术中单一粒度的词典难以为消除歧义提供依据。

【发明内容】

本发明所要解决的技术问题是提供一种建立多粒度词典的方法及装置、一种分词的方法及装置，以实现为各种与分词相关的应用建立统一的分词词典，以及对分词过程中存在的歧义进行消解的目的。

本发明为解决技术问题而采用的技术方案是提供一种建立多粒度词典的方法，包括：A.收集原始词表；B.从原始词表中识别出基本词及词组词，分别形成基本词表和词组词表，其中基本词是仅包含一个表意单位的词，词组词是至少包含两个表意单位的词；C.确定与各词组词分别对应的从属词及子词组词，以将各词组词分别对应的从属词及子词组词作为与该词组词相关联的内部成分，其中从属词是与基本词表中的词相匹配的词，子词组词是由多个从属词构成、且与词组词表中的词相匹配的词；D.将基本词及词组词存为词典词条，并将与各词组词相关联的内部成分存为对应词典词条的内部成分，得到多粒度词典。

根据本发明之一优选实施例，所述步骤C包括：针对各词组词，根据基本词表以基于规则的分词方法对该词组词进行切分，将各切分词作为与该词组词对应的第一类从属词，并在该词组词中提取由连续的第一类从属词构成的、且与词组词表中的词相匹配的片段作为与该词组词对应的第一类子词组词。

根据本发明之一优选实施例，所述步骤C进一步包括：针对各词组词，基于字的统计概率模型的分词方法对该词组词进行切分，从各切分词中选取置信度满足预设要求、且不同于与该词组词对应的第一类从属词的切分词作为与该词组词对应的第二类从属词，从各切分词中选取置信度满足预设要求、且不同于与该词组词对应的第一类子词组词的切分词作为与该词组词对应的第二类子词组词。

根据本发明之一优选实施例，所述步骤C进一步包括：从与各词组词对应的第二类从属词中，过滤掉与基本词表中的词不匹配的词语，以及，从与各词组词对应的第二类子词组词中，过滤掉与词组词表中的词不匹配的词语。

根据本发明之一优选实施例，所述步骤C进一步包括：针对各词组词，根据词语的语言学特征，将与该词组词对应的第一类从属词中的缩略词补充完整，并将补充完整的词作为与该词组词对应的第三类从属词，以及，在该词组词中提取由非连续的第一类从属词构成的、且与词组词表中的词相匹配的片段作为与该词组词对应的第三类子词组词。

根据本发明之一优选实施例，所述步骤C进一步包括：验证各第三类从属词和该第三类从属词对应的缩略词之间的语义相似度，以及，验证各第三类子词组词和该第三类子词组词对应的词组词之间的语义相似度，将语义相似度不符合要求的第三类从属词及第三类子词组词过滤掉。

根据本发明之一优选实施例，所述步骤C进一步包括：针对各词组词，提取与该词组词对应的第一类从属词所包含的词素，以将提取的词素作为与该词组词相关联的内部成分，其中词素是能够表达该词素所属的第一类从属词的主要含义的单字。

本发明还提供了一种分词方法，包括：G.将输入词串作为待切分词串；H.依据前文所述建立多粒度词典的方法建立的多粒度词典中的词典词条，采用最大正向匹配的方法对待切分词串进行切分，并利用所述多粒度词典的词组词的内部成分消除在切分过程中存在的歧义，得到最终的分词结果。

根据本发明之一优选实施例，所述步骤H包括：H1.依据前文所述建立多粒度词典的方法建立的多粒度词典中的词典词条，采用最大正向匹配的方法对待切分词串进行切分，得到首个切分词X；H2.利用所述多粒度词典中的词组词的内部成分判断X是否存在歧义，如果是，则确定与X相关的歧义片段的正确划分，将划分结果放入分词结果并将输入词串尚未加入到分词结果的部分作为待切分词串，返回所述H1，否则将X放入分词结果并将输入词串尚未加入到分词结果的部分作为待切分词串，返回所述H1。

根据本发明之一优选实施例，判断X是否存在歧义的步骤包括：S1.判断X在所述多粒度词典中是否存在内部成分，如果没有，则确定X不存在歧义，否则执行步骤S2；S2.确定X的内部成分中以X的首字开始的最长词条Y，并采用与所述步骤H1相同的方法对待切分词串除Y以外部分进行切分，得到首个切分词Z，判断Y与Z的长度之和是否小于或等于X，如果是，则确定X没有歧义，否则确定X存在歧义。

根据本发明之一优选实施例，确定与X相关的歧义片段的正确划分的步骤包括：采用与所述步骤H1相同的方法对待切分词串除X以外的部分进行切分，得到首个切分词W，分别统计X和W在大规模语料中的词频之和f₁，以及，Y和Z在大规模语料中的词频之和f₂，将f₁及f₂之中的较大值对应的片段作为与X相关的歧义片段，并将f₁及f₂之中的较大值对应的切分方式作为该歧义片段的正确划分。

本发明还提供了一种建立多粒度词典的装置，包括：收集单元，用于收集原始词表；识别单元，用于从原始词表中识别出基本词及词组词，分别形成基本词表和词组词表，其中基本词是仅包含一个表意单位的词，词组词是包含有多个表意单位的词；确定单元，用于确定各词组词分别对应的从属词及子词组词，以将各词组词分别对应的从属词及子词组词作为与该词组词相关联的内部成分，其中从属词是与基本词表中的词相匹配的词，子词组词是由多个从属词构成的且与词组词表中的词相匹配的词；存储单元，用于将基本词及词组词存为词典词条，并将各词组词的内部成分存为对应词典词条的内部成分，得到多粒度词典。

根据本发明之一优选实施例，所述确定单元包括：第一切分单元，用于针对各个词组词，根据基本词表以基于规则的分词方法对该词组词进行切分，将各切分词作为与该词组词对应的第一类从属词，并在该词组词中提取由连续的第一类从属词构成的、且与词组词表中的词相匹配的片段作为该词组词对应的第一类子词组词。

根据本发明之一优选实施例，所述确定单元进一步包括：第二切分单元，用于针对各词组词，基于字的统计概率模型的分词方法对该词组词进行切分，从各切分词中选取置信度满足预设要求、且不同于与该词组词对应的第一类从属词的切分词作为与该词组词对应的第二类从属词，从各切分词中选取置信度满足预设要求、且不同于与该词组词对应的第一类子词组词的切分词作为与该词组词对应的第二类子词组词。

根据本发明之一优选实施例，所述确定单元进一步包括：过滤单元，用于从与各词组词对应的第二类从属词中过滤掉与基本词表中的词不匹配的词语，以及，从与各词组词对应的第二类子词组词中过滤掉与词组词表中的词不匹配的词语。

根据本发明之一优选实施例，所述确定单元进一步包括：补充生成单元，用于针对各个词组词，根据词语的语言学特征，将与该词组词对应的第一类从属词中的缩略词补充完整，并将补充完整的词作为与该词组词对应的第三类从属词，以及，在该词组词中提取由非连续的第一类从属词构成的，且与词组词表中的词相匹配的片段作为与该词组词对应的第三类子词组词。

根据本发明之一优选实施例，所述确定单元进一步包括：验证单元，用于验证各第三类从属词和该第三类从属词对应的缩略词之间的语义相似度，以及，验证各第三类子词组词和该第三类子词组词对应的词组词之间的语义相似度，将语义相似度不符合要求的第三类从属词及第三类子词组词过滤掉。

根据本发明之一优选实施例，所述确定单元进一步包括：词素提取单元，用于针对各词组词，提取与该词组词对应的第一类从属词所包含的词素，以将提取的词素作为与该词组词相关联的内部成分，其中词素是能够表达与该词素所属的第一类从属词的主要含义的单字。

本发明还提供了一种分词装置，包括：输入单元，用于将输入词串作为待切分词串；切分单元，用于依据前文所述建立多粒度词典的装置建立的多粒度词典中的词典词条，采用最大正向匹配的方法对待切分词串进行切分，并利用所述多粒度词典的词组词的内部成分消除在切分过程中存在的歧义，得到最终的分词结果。

根据本发明之一优选实施例，所述切分单元包括：第一切分子单元，用于依据前文所述建立多粒度词典的装置建立的多粒度词典中的词典词条，采用最大正向匹配的方法对待切分词串进行切分得到首个切分词X；判断子单元，用于利用所述多粒度词典中的词组词的内部成分判断X是否存在歧义，如果是，则触发确定子单元运行，否则触发第一添加单元运行；第一添加子单元，用于将X放入分词结果并将输入词串中尚未加入到分词结果的部分作为待切分词串并触发所述第一切分子单元运行；确定子单元，用于确定与X相关的歧义片段的正确划分并触发第二添加子单元运行；第二添加子单元，用于将所述确定子单元的划分结果放入分词结果并将输入词串尚未加入到分词结果的部分作为待切分词串，触发所述第一切分子单元运行。

根据本发明之一优选实施例，所述判断子单元包括：第一判断子单元，用于判断X在所述多粒度词典中是否存在内部成分，如果没有，则确定X不存在歧义，触发所述第一添加子单元运行，否则触发第二切分子单元运行；第二切分子单元，用于确定X的内部成分中以X的首字开始的最长词条Y，并采用与所述第一切分子单元相同的方法对待切分词串除Y以外部分进行切分，得到首个切分词Z，触发第二判断子单元运行；第二判断子单元，用于判断Y与Z的长度之和是否小于或等于X，如果是，则确定X没有歧义，触发所述第一添加子单元运行，否则确定X存在歧义，触发所述确定子单元运行。

根据本发明之一优选实施例，所述确定子单元包括：第三切分子单元，用于采用与第一切分子单元相同的方法对待切分词串除X以外的部分进行切分，得到首个切分词W；比较子单元，用于分别统计X和W在大规模语料中的词频之和f₁，以及，Y和Z在大规模语料中的词频之和f₂，将f₁及f₂之中的较大值对应的片段作为与X相关的歧义片段，并将f₁及f₂之中的较大值对应的切分方式作为该歧义片段的正确划分，触发所述第二添加子单元运行。

由以上技术方案可以看出，通过本发明中对原始词条的划分，以及对划分结果中的词组词进行的分析，可以建立起一个多粒度的词典，该词典中的词组词及其内部成分包含的从属词及子词组词体现了词语的不同粒度划分，可以为各种与分词有关的应用提供支持，同时该多粒度词典应用在分词中，还可以很好地对分词过程中存在的歧义进行消解。

【附图说明】

图1为本发明中建立多粒度词典的方法的流程示意图；

图2为本发明中分词方法的流程示意图；

图3为本发明中建立多粒度词典的装置的结构示意框图；

图4为本发明中分词装置的实施例的结构示意框图；

图5为本发明中切分单元的实施例的结构示意框图；

图6为本发明中判断子单元的实施例的结构示意框图；

图7为本发明中确定子单元的实施例的结构示意框图。

【具体实施方式】

为了使本发明的目的、技术方案和优点更加清楚，下面结合附图和具体实施例对本发明进行详细描述。

本发明中建立多粒度词典的过程，实际上就是将收集的原始词表整理成具有多个级别的复合词典的过程。其中复合词典包含的词条结构如下表所示：

表1

下面将通过对建立上述词典过程的说明对上述词条结构中的每个部分进行相应的介绍。请参考图1，图1为本发明中建立多粒度词典的方法的流程示意图。如图1所示，建立多粒度词典的过程主要包括以下步骤：

步骤S101：收集原始词表。

原始词表是建立本发明中的多粒度词典的基础，收集原始词表可以通过人工的手段，或者各种数据采集和挖掘技术进行，如通过网络上已有的在线词典提取关键词作为原始词条，或者通过网站定向挖掘关键词作为原始词条，或者根据用户的搜索行为挖掘关键词作为原始词条等。

步骤S102：从原始词表中识别基本词及词组词，分别形成基本词表和词组词表。基本词指的是仅包含一个表意单位的词，而词组词是至少包含两个表意单位的词，如“苹果”就是一个基本词，而“苹果电脑”就可以作为一个词组词。

从原始词表中识别基本词及词组词，一种最基本的实施方式是进行人工标注，但是这种方式的代价很高，很难通过人工的方式从数以百万计的词条中区分出所有的基本词及词组词。

作为优选的实施方式，可以以人工的方式在收集到的原始词表中标注部分基本词及词组词作为训练语料，并以词语的长度、词语的首字、词语的尾字等作为分类特征，使用支持向量机(SVM)、最大熵(MEM)等机器学习算法建立起自动分类模型，以对原始词表中未进行标注的其他词条进行分类，从而区分出原始词表中的基本词及词组词。

步骤S103：确定与各词组词分别对应的从属词及子词组词，以将各词组词分别对应的从属词及子词组词作为与该词组词相关联的内部成分。从属词是词组词包含的与基本词表中的词相匹配的词，子词组词是由多个从属词构成的且与词组词表中的词相匹配的词。例如，基本词表中的词有“中华”、“人民”、“共和国”，词组词表中的词有：“中华人民共和国”、“中华人民”、“人民共和国”，则词组词“中华人民共和国”包含的从属词有“中华”、“人民”、“共和国”，包含的子词组词有“中华人民”、“人民共和国”。

在本发明提供的一个优选实施例中，从属词包括第一类从属词、第二类从属词及第三类从属词，子词组词包括第一类子词组词、第二类子词组词及第三类子词组词，下面对这三类从属词及子词组词的获取方式分别进行介绍。

1、第一类从属词及第一类子词组词是通过基于规则的分词方法对词组词进行切分后得到的。

基于规则的分词方法包括最大正向匹配法、最大逆向匹配法等分词方法，下面以最大正向匹配法为例说明确定词组词包含的第一类从属词及第一类子词组词的过程。

假设基本词表中包含的基本词有：“减毒”、“毒性”、“疫苗”、“进口”、“出口”、“公司”，词组词表中包含的词组词有“减毒性”、“减毒性疫苗”、“进出口”、“进出口公司”、“减毒性疫苗进出口公司”，则根据基本词表中的基本词对词组词“减毒性疫苗进出口公司”采用最大正向匹配法进行切分，可以得到切分结果为“减毒/性/疫苗/进/出口/公司”，则“减毒性疫苗进出口公司”这个词组词包含的第一类从属词如下表2所示：

表2

词组词	减毒性疫苗进出口公司
		第一类从属词	减毒、性、疫苗、进、出口、公司

其中第一类从属词就是上述各个切分词，而第一类子词组词是由连续的第一类从属词构成的、且与词组词表中的词相匹配的片段。采用遍历的方式顺次连接相邻两个或更多个第一类从属词并查找词组词表，即可从词组词中提取相应的第一类子词组词。例如上述的词组词“减毒性疫苗进出口公司”，从中提取第一类子词组词，可以得到下表3：

表3

2、第二类从属词及第二类子词组词是采用基于字的统计概率模型进行分词的方法得到的。

基于字的统计概率模型进行分词，具体地，包括隐马尔可夫模型(HMM)、最大熵隐马模型(MEMM)及条件随机场模型(CRF)等，由于使用CRF模型进行序列标注，得到的模型能够实现在全局上最优，因此本实施例基于字的CRF模型对词组词进行切分，从切分结果中得到第二类从属词及第二类子词组词。

基于字的统计概率模型的分词方法，首先需要通过标注语料训练出模型，然后利用训练好的模型实现对待切分语料的切分。基于字对语料进行标注，可以参见下面这个例子：

“喜/B羊/M羊/E与/S灰/B太/M狼/E”，其中B、M、E、S分别表示字在词的开头、中间、结尾、及单独成词。在使用训练好的模型对未知语料进行标注后，得到的标注结果与上述例子类似，在字母B与E之间的文字和标为S的文字就成为了一个词。

基于统计模型的分词方法可以切分出不同于基于规则分词方法得到的切分词，使用统计模型的分词方法分词时，对切分结果中的每个词，都有一个置信度，通过置信度就可以对切分结果中的词进行选取，由于第二类从属词及第二类子词组词没有必要与第一类从属词及第一类子词组词重复(导致重复存储浪费资源)，因此，在确定第二类从属词时，应该从各切分词中选取置信度满足预设要求、且不同于第一类从属词的切分词作为第二类从属词，第二类子词组词选取的方法与之类似。

作为优选的，为了保证通过统计概率模型进行分词时得到的第二类从属词及第二类子词组词的可靠性，还可以用收集来的原始词表进行过滤处理，即：从与各词组词对应的第二类从属词中过滤掉与基本词表中的词不匹配的词语，以及，从与各词组词对应的第二类子词组词中过滤掉与词组词表中的词不匹配的词语。上述所举例子中的词组词“减毒性疫苗进出口公司”通过基于字的统计概率模型的分词方式进行切分后，可以得到第二类从属词“毒性”。

3、第三类从属词及第三类子词组词是通过对词组词进行分析后得到的其含义能被词组词覆盖而又区别于第一类、第二类从属词和第一类、第二类子词组词的补充从属词及补充子词组词。

具体地，第三类从属词是根据词语的语言学特征，将第一类从属词中的缩略词补充完整后得来。例如前面所举例子的词组词“减毒性疫苗进出口公司”中包含的第一类从属词“进”与后继的第一类从属词“出口”，能够满足前一从属词与后一从属词中的部分内容组合后形成与后一从属词同属类别的词这一语言学特征，因此可以根据这一特征将缩略词“进”补充为完整的“进口”，同样的道理，对于“牛羊肉”，假如被切分为“牛/羊肉”，也可以根据上述语言学特征将缩略词“牛”补充为“牛肉”。第三类子词组词，是以在词组词中提取由非连续的第一类从属词构成的、且与词组词表中的词相匹配的片段的方式得到的。例如对于词组词“百度深圳分公司”，以第一类从属词构成的切分为“百度/深圳/分/公司”，第一类从属词“百度”和“公司”并不连续，在获取第一类子词组词时不会得到“百度公司”这个词条，但是如果词组词表中有“百度公司”这个词条，通过提取第三类子词组词，就可以将“百度公司”提取出来。

进一步地，为了保证得到的第三类从属词与第三类子词组词的可靠性，还可以对第三类从属词和第三类子词组词进行验证，具体地包括：验证各第三类从属词和该第三类从属词对应的缩略词之间的语义相似度，以及各第三类子词组词和该第三类子词组词对应的词组词之间的语义相似度，将语义相似度不符合要求的第三类从属词及第三类子词组词过滤掉。以上文所举例子来说，即通过验证“牛肉”与“牛”之间的语义相似度，或者“百度公司”与“百度深圳分公司”之间的语义相似度来确定“牛肉”和“百度公司”是否需要过滤。验证两个词之间的语义相似度，可采用各种现有的手段进行。例如：采用人工的方式进行验证，或者采用同义词词典进行匹配验证，或者将待验证的两个词语输入搜索引擎，利用搜索引擎返回的结果中相同结果所占比例来判断这两个词语之间的语义相似度等，在此不再赘述。

通过上述方式，可以确定与各词组词分别对应的从属词及子词组词，此外，本发明还可以针对各词组词，提取与该词组词对应的第一类从属词所包含的词素，以将提取的词素作为与该词组词相关联的内部成分，其中词素指的是能够表达该词素所属的第一类从属词的主要含义的单字。例如第一类从属词有“清洗”、“绿茶”、“疫苗”，可以理解，“洗”能够表达与“清洗”相同的含义，“茶”可以表达“绿茶”的主要含义，而“疫苗”中的“疫”和“苗”都难以表达“疫苗”的主要含义，所以“洗”和“茶”就可以提取出来作为对应词组词的内部成分。以上面所举的词组词“减毒性疫苗进出口公司”为例，从第一类从属词“减毒”和“毒性”可以提取出“毒”这个词素。判断词素是否能够表达对应的第一类从属词的主要含义，也可以采用前文所述的利用检索结果中的相同(或类似)的结果所占比例的方式进行，或其他本领域技术人员能够实现的其他方式，本发明不做限定。

本领域技术人员应该理解，上述获取从属词及子词组词的实施例，是以最优实施例的方式来介绍的，在最优实施例当中，从属词及子词组词由于涵盖了第一类、第二类及第三类从属词和子词组词，所以具有充分的完备性。实际上在其他实施例中，从属词及子词组词也可以仅包括第一类从属词和第一类子词组词，或者，按照前面介绍的方法，以本领域技术人员可以实现的方式将第一类、第二类、第三类从属词及子词组词的获取方式进行任意合理的组合以得到本发明中的从属词及子词组词，本说明书不再展开论述。

在得到与各词组词相关联内部成分以后，执行本发明的步骤S104即可得到最终的多粒度词典。

步骤S104：将基本词及词组词存为词典词条，并将与各词组词相关联的内部成分存为对应词典词条的内部成分，得到多粒度词典。

为了方便理解，下面表4列出了通过本发明介绍的方法得到的词组词“减毒性疫苗进出口公司”的各种内部成分。

表4

基于本发明的方法得到的多粒度词典，由于采用了多种方式获取从属词及子词组词，因此具备完备的词条内部信息，有助于各种与自然语言处理相关的应用取得更为准确的结果。对采用大粒度的分词结果即可满足需要的应用来说，直接将词组词作为最终的切分结果即可，如机器翻译的应用；对需要更细粒度的分词结果才可满足需要的应用而言，可以将词组词按照内部成分展开(以子词组词展开或者以从属词展开)，如语音识别的应用。此外，对于搜索引擎的应用而言，可以将词组词按照内部成分展开，以细粒度建立索引库，这样做可以提升搜索结果的召回率，同时在用户搜索时，对用户的搜索词按照大粒度进行切分，这样可以减少检索时的查询次数，从而达到提高效率和准确率的双重目的。

利用本发明的多粒度词典所具有的完备性这一特点，还可以得到一种能较好地解决分词中存在歧义的问题的分词方法。下面对这种分词方法进行介绍。

请参考图2，图2为本发明中分词方法的流程示意图。如图2所示，该方法包括：

步骤S201：将输入词串作为待切分词串。

步骤S202：依据前文所述建立多粒度词典的方法建立的多粒度词典中词典词条，采用最大正向匹配的方法对待切分词串进行切分，并利用多粒度词典的词组词的内部成分消除在切分过程中存在的歧义，得到最终的分词结果。

下面结合一个具体的实例对上述步骤进行介绍。假设多粒度词典中包含的词条有：“北京”、“北京西”、“西安”、“安国”、“国际”、“机场”、“国际机场”，其中“北京西”作为词组词具有内部成分“北京”和“西”，“国际机场”作为词组词具有内部成分“国际”和“机场”。

对于“北京西安国际机场”这个词组词而言，步骤S202具体地包括：

步骤S2021：依据多粒度词典中的词典词条，采用最大正向匹配的方法对待切分词串进行切分，得到首个切分词X。如“北京西安国际机场”切出首个切分词X为“北京西”。

步骤S2022：利用多粒度词典中的词组词的内部成分判断X是否存在歧义，如果是，则确定与X相关的歧义片段的正确划分，将划分结果放入分词结果并将输入词串尚未加入到分词结果的部分作为待切分词串，返回步骤S2021，否则将X放入分词结果并将输入词串尚未加入到分词结果的部分作为待切分词串，返回步骤S2021。

其中，判断X是否存在歧义的步骤包括：

S2022_1：判断X在多粒度词典中是否存在内部成分，如果没有，则确定X不存在歧义，否则执行步骤S2022_2。

步骤S2022_2：确定X的内部成分中以X的首字开始的最长词条Y，并采用步骤S2021中相同的方法对待切分词串除Y以外的部分进行切分，得到首个切分词Z，判断Y与Z的长度之和是否小于或等于X，如果是，则确定X没有歧义，否则确定X存在歧义。

如切分词X(北京西)，由于含有内部成分，则从内部成分中确定从第一个字(北)开始的最长词条Y是“北京”(在其他的例子中，对内部成分中既有从属词又有子词组词的词组词，最长词条Y应该是子词组词中长度最长的那个)，输入词串(北京西安国际机场)除Y(北京)以外的部分为“西安国际机场”，切分其可得到首个切分词Z(西安)，由于Y(北京)和Z(西安)的长度之和大于X(北京西)，因此认为X(北京西)存在歧义。

如果X存在歧义，则步骤S2022中还需要确定与X相关歧义的片段的正确划分，具体地包括：

采用与步骤S2021相同的方法对待切分词串除X以外的部分进行切分，得到首个切分词W，分别统计X和W在大规模语料中的词频之和f₁，以及Y和Z在大规模语料中的词频f₂，将f₁及f₂之中的较大值对应的片段作为与X相关的歧义片段，并将f₁及f₂之中的较大值对应的切分方式作为该歧义片段的正确划分。

例如上面的例子中，对输入词串(北京西安国际机场)除X(北京西)之外的部分进行切分得到的首个切分词W为“安国”，可以理解，通过大规模语料进行统计，“北京”和“西安”的词频之和f₂应远大于“北京西”和“安国”的词频之和f₁，因此“北京西安”就是与X(北京西)相关的歧义片段，该片段的切分方式应该是“北京/西安”。

对词组词“北京西安国际机场”而言，这时尚未加入到分词结果的部分就是“国际机场”，重复上述流程可以知道“国际机场”可以作为整体切出，不存在歧义，因此“北京西安国际机场”的最终切分结果为“北京/西安/国际机场”。

请参考图3，图3为本发明中建立多粒度词典的装置的结构示意框图。如图3所示，该装置包括：收集单元301、识别单元302、确定单元303及存储单元304。

其中收集单元301，用于收集原始词表。

识别单元302，用于从原始词表中识别出基本词及词组词，分别形成基本词表和词组词表，其中基本词是仅包含一个表意单位的词，词组词是包含有多个表意单位的词。

确定单元303，用于确定各词组词分别对应的从属词及子词组词，以将各词组词分别对应的从属词及子词组词作为与该词组词相关联的内部成分，其中从属词是与基本词表中的词相匹配的词，子词组词是有多个从属词构成的且与词组词表中的词相匹配的词。

存储单元304，用于将基本词及词组词存为词典词条，并将与各词组词相关联的内部成分存为对应词典词条的内部成分，得到多粒度词典。

其中确定单元303包括第一切分单元3031、第二切分单元3032、过滤单元3033、补充生成单元3034、验证单元3035及词素提取单元3036。

其中第一切分单元3031，用于针对各个词组词，根据基本词表以基于规则的分词方法对该词组词进行切分，将各切分词作为与该词组词对应的第一类从属词，并在该词组词中提取由连续的第一类从属词构成的，且与词组词表中的词相匹配的片段作为该词组词对应的第一类子词组词。

第二切分单元3032，用于针对各词组词，基于字的统计概率模型的分词方法对该词组词进行切分，从各切分词中选取置信度满足预设要求且不同于与该词组词对应的第一类从属词的切分词作为与该词组词对应的第二类从属词，从各切分词中选取置信度满足预设要求且不同于与该词组词对应的第一类子词组词的切分词作为与该词组词对应的第二类子词组词。

过滤单元3033，用于从与各词组词对应的第二类从属词中过滤掉不能与基本词表中的词相匹配的词语，以及，从与各词组词对应的第二类子词组词中过滤掉不能与词组词表中的词相匹配的词语。

补充生成单元3034，用于针对各个词组词，根据词语的语言学特征，将与该词组词对应的第一类从属词中的缩略词补充完整，并将补充完整的词作为与该词组词对应的第三类从属词，以及，在该词组词中提取由非连续的第一类从属词构成的，且与词组词表中的词相匹配的片段作为与该词组词对应的第三类子词组词。

验证单元3035，用于验证各第三类从属词和该第三类从属词对应的缩略词之间的语义相似度，以及，各第三类子词组词和该第三类子词组词对应的词组词之间的语义相似度，将语义相似度不符合要求的第三类从属词及第三类子词组词过滤掉。

词素提取单元3036，用于针对各词组词，提取与该词组词对应的第一类从属词包含的词素，以将提取的词素作为与该词组词相关联的内部成分，其中词素是能够表达与该词素所属的第一类从属词的主要含义的单字。

本领域技术人员应该理解，上述确定单元303的实施例是为了实现多粒度词典在各个粒度下均具有充分的完备性而采用的最佳实施例，该实施例不应成为对确定单元303的实施方式的限制，实际上，确定单元303也可仅包含第一切分单元3031，或者，在本领域技术人员可以想到的方式下，确定单元303由第一切分单元3031、第二切分单元3032、过滤单元3033、补充生成单元3034、验证单元3035及词素提取单元3036进行任意合理的组合后得到。

请参考图4，图4为本发明中分词装置的实施例的结构示意框图。如图4所示，该装置包括：输入单元401及切分单元402。

其中输入单元401，用于将输入词串作为待切分词串。

切分单元402，用于依据前文所述装置建立的多粒度词典中的词典词条，采用最大正向匹配的方法对待切分词串进行切分，并利用多粒度词典的词组词的内部成分消除在切分过程中存在的歧义，得到最终的分词结果。

请参考图5，图5为本发明中切分单元的实施例的结构示意框图。如图5所示，切分单元402包括第一切分子单元4021、判断子单元4022、第一添加子单元4023、确定子单元4024、第二添加子单元4025。

第一切分子单元4021，用于依据前文所述建立多粒度词典的装置建立的多粒度词典中的词典词条，采用最大正向匹配的方法对待切分词串进行切分得到首个切分词X。

判断子单元4022，用于利用多粒度词典中的词组词的内部成分判断X是否存在歧义，如果是，则触发确定子单元4024运行，否则触发第一添加单元4023运行。

第一添加子单元4023，用于将X放入分词结果并将输入词串中尚未加入到分词结果的部分作为待切分词串并触发第一切分单元4021运行。

确定子单元4024，用于确定与X相关的歧义片段的正确划分并触发第二添加子单元4025运行。

第二添加子单元4025，用于将确定子单元4024的划分结果放入分词结果并将输入词串尚未加入到分词结果的部分作为待切分词串，触发第一切分子单元4021运行。

下面通过具体的实施例对判断子单元4022和确定子单元4024进行介绍。请参考图6，图6为本发明中判断子单元的实施例的结构示意框图。如图6所示，判断子单元4022包括：第一判断子单元4022_1、第二切分子单元4022_2、第二判断子单元4022_3。

第一判断子单元4022_1，用于判断X在多粒度词典中是否存在内部成分，如果没有，则确定X不存在歧义，触发第一添加子单元4023运行，否则触发第二切分子单元4022_2运行。

第二切分子单元4022_2，用于确定X的内部成分中以X的首字开始的最长词条Y，并采用与第一切分子单元相同的方法对待切分词串除Y以外的部分进行切分，得到首个切分词Z，触发第二判断子单元4022_3运行。

第二判断子单元4022_3，用于判断Y与Z的长度之和是否小于或等于X，如果是，则确定X没有歧义，触发第一添加子单元4023运行，否则确定X存在歧义，触发确定子单元4024运行。

请参考图7，图7为本发明中确定子单元的实施例的结构示意框图。如图7所示，确定子单元4024包括第三切分子单元4024_1和比较子单元4024_2。

其中第三切分子单元4024_1，用于采用与第一切分子单元相同的方法对待切分词串除X以外的部分进行切分，得到首个切分词W。比较子单元4024_2，用于分别统计X和W在大规模语料中的词频之和f₁，以及，Y和Z在大规模语料中的词频之和f₂，将f₁及f₂之中的较大值对应的片段作为与X相关的歧义片段，并将f₁及f₂之中的较大值对应的切分方式作为该歧义片段的正确划分，触发第二添加子单元4025运行。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。

Claims

1.一种建立多粒度词典的方法，包括：

A.收集原始词表；

B.从原始词表中识别出基本词及词组词，分别形成基本词表和词组词表，其中基本词是仅包含一个表意单位的词，词组词是至少包含两个表意单位的词；

C.确定与各词组词分别对应的从属词及子词组词，以将各词组词分别对应的从属词及子词组词作为与该词组词相关联的内部成分，其中从属词是与基本词表中的词相匹配的词，子词组词是由多个从属词构成、且与词组词表中的词相匹配的词；

D.将基本词及词组词存为词典词条，并将与各词组词相关联的内部成分存为对应词典词条的内部成分，得到多粒度词典。

2.根据权利要求1所述的方法，其特征在于，所述步骤C包括：

针对各词组词，根据基本词表以基于规则的分词方法对该词组词进行切分，将各切分词作为与该词组词对应的第一类从属词，并在该词组词中提取由连续的第一类从属词构成的、且与词组词表中的词相匹配的片段作为与该词组词对应的第一类子词组词。

3.根据权利要求2所述的方法，其特征在于，所述步骤C进一步包括：

针对各词组词，基于字的统计概率模型的分词方法对该词组词进行切分，从各切分词中选取置信度满足预设要求、且不同于与该词组词对应的第一类从属词的切分词作为与该词组词对应的第二类从属词，从各切分词中选取置信度满足预设要求、且不同于与该词组词对应的第一类子词组词的切分词作为与该词组词对应的第二类子词组词。

4.根据权利要求3所述的方法，其特征在于，所述步骤C进一步包括：

从与各词组词对应的第二类从属词中，过滤掉与基本词表中的词不匹配的词语，以及，从与各词组词对应的第二类子词组词中，过滤掉与词组词表中的词不匹配的词语。

5.根据权利要求2所述的方法，其特征在于，所述步骤C进一步包括：

针对各词组词，根据词语的语言学特征，将与该词组词对应的第一类从属词中的缩略词补充完整，并将补充完整的词作为与该词组词对应的第三类从属词，以及，在该词组词中提取由非连续的第一类从属词构成的、且与词组词表中的词相匹配的片段作为与该词组词对应的第三类子词组词。

6.根据权利要求5所述的方法，其特征在于，所述步骤C进一步包括：

验证各第三类从属词和该第三类从属词对应的缩略词之间的语义相似度，以及，验证各第三类子词组词和该第三类子词组词对应的词组词之间的语义相似度，将语义相似度不符合要求的第三类从属词及第三类子词组词过滤掉。

7.根据权利要求2所述的方法，其特征在于，所述步骤C进一步包括：

针对各词组词，提取与该词组词对应的第一类从属词所包含的词素，以将提取的词素作为与该词组词相关联的内部成分，其中词素是能够表达该词素所属的第一类从属词的主要含义的单字。

8.一种分词方法，包括：

G.将输入词串作为待切分词串；

H.依据权利要求1至7中任一权项所述建立多粒度词典的方法建立的多粒度词典中的词典词条，采用最大正向匹配的方法对待切分词串进行切分，并利用所述多粒度词典的词组词的内部成分消除在切分过程中存在的歧义，得到最终的分词结果。

9.根据权利要求8所述的方法，其特征在于，所述步骤H包括：

H1.依据权利要求1至7中任一权项所述建立多粒度词典的方法建立的多粒度词典中的词典词条，采用最大正向匹配的方法对待切分词串进行切分，得到首个切分词X；

H2.利用所述多粒度词典中的词组词的内部成分判断X是否存在歧义，如果是，则确定与X相关的歧义片段的正确划分，将划分结果放入分词结果并将输入词串尚未加入到分词结果的部分作为待切分词串，返回所述H1，否则将X放入分词结果并将输入词串尚未加入到分词结果的部分作为待切分词串，返回所述H1。

10.根据权利要求9所述的方法，其特征在于，判断X是否存在歧义的步骤包括：

S1.判断X在所述多粒度词典中是否存在内部成分，如果没有，则确定X不存在歧义，否则执行步骤S2；

S2.确定X的内部成分中以X的首字开始的最长词条Y，并采用与所述步骤H1相同的方法对待切分词串除Y以外部分进行切分，得到首个切分词Z，判断Y与Z的长度之和是否小于或等于X，如果是，则确定X没有歧义，否则确定X存在歧义。

11.根据权利要求10所述的方法，其特征在于，确定与X相关的歧义片段的正确划分的步骤包括：

采用与所述步骤H1相同的方法对待切分词串除X以外的部分进行切分，得到首个切分词W，分别统计X和W在大规模语料中的词频之和f₁，以及，Y和Z在大规模语料中的词频之和f₂，将f₁及f₂之中的较大值对应的片段作为与X相关的歧义片段，并将f₁及f₂之中的较大值对应的切分方式作为该歧义片段的正确划分。

12.一种建立多粒度词典的装置，包括：

收集单元，用于收集原始词表；

识别单元，用于从原始词表中识别出基本词及词组词，分别形成基本词表和词组词表，其中基本词是仅包含一个表意单位的词，词组词是包含有多个表意单位的词；

确定单元，用于确定各词组词分别对应的从属词及子词组词，以将各词组词分别对应的从属词及子词组词作为与该词组词相关联的内部成分，其中从属词是与基本词表中的词相匹配的词，子词组词是由多个从属词构成的且与词组词表中的词相匹配的词；

存储单元，用于将基本词及词组词存为词典词条，并将各词组词的内部成分存为对应词典词条的内部成分，得到多粒度词典。

13.根据权利要求12所述的装置，其特征在于，所述确定单元包括：

第一切分单元，用于针对各个词组词，根据基本词表以基于规则的分词方法对该词组词进行切分，将各切分词作为与该词组词对应的第一类从属词，并在该词组词中提取由连续的第一类从属词构成的、且与词组词表中的词相匹配的片段作为该词组词对应的第一类子词组词。

14.根据权利要求13所述的装置，其特征在于，所述确定单元进一步包括：

第二切分单元，用于针对各词组词，基于字的统计概率模型的分词方法对该词组词进行切分，从各切分词中选取置信度满足预设要求、且不同于与该词组词对应的第一类从属词的切分词作为与该词组词对应的第二类从属词，从各切分词中选取置信度满足预设要求、且不同于与该词组词对应的第一类子词组词的切分词作为与该词组词对应的第二类子词组词。

15.根据权利要求14所述的装置，其特征在于，所述确定单元进一步包括：

过滤单元，用于从与各词组词对应的第二类从属词中过滤掉与基本词表中的词不匹配的词语，以及，从与各词组词对应的第二类子词组词中过滤掉与词组词表中的词不匹配的词语。

16.根据权利要求13所述的装置，其特征在于，所述确定单元进一步包括：

补充生成单元，用于针对各个词组词，根据词语的语言学特征，将与该词组词对应的第一类从属词中的缩略词补充完整，并将补充完整的词作为与该词组词对应的第三类从属词，以及，在该词组词中提取由非连续的第一类从属词构成的，且与词组词表中的词相匹配的片段作为与该词组词对应的第三类子词组词。

17.根据权利要求16所述的装置，其特征在于，所述确定单元进一步包括：

验证单元，用于验证各第三类从属词和该第三类从属词对应的缩略词之间的语义相似度，以及，验证各第三类子词组词和该第三类子词组词对应的词组词之间的语义相似度，将语义相似度不符合要求的第三类从属词及第三类子词组词过滤掉。

18.根据权利要求13所述的装置，其特征在于，所述确定单元进一步包括：

词素提取单元，用于针对各词组词，提取与该词组词对应的第一类从属词所包含的词素，以将提取的词素作为与该词组词相关联的内部成分，其中词素是能够表达与该词素所属的第一类从属词的主要含义的单字。

19.一种分词装置，包括：

输入单元，用于将输入词串作为待切分词串；

切分单元，用于依据权利要求12至18中任一权项所述建立多粒度词典的装置建立的多粒度词典中的词典词条，采用最大正向匹配的方法对待切分词串进行切分，并利用所述多粒度词典的词组词的内部成分消除在切分过程中存在的歧义，得到最终的分词结果。

20.根据权利要求19所述的装置，其特征在于，所述切分单元包括：

第一切分子单元，用于依据权利要求12至18中任一权项所述建立多粒度词典的装置建立的多粒度词典中的词典词条，采用最大正向匹配的方法对待切分词串进行切分得到首个切分词X；

判断子单元，用于利用所述多粒度词典中的词组词的内部成分判断X是否存在歧义，如果是，则触发确定子单元运行，否则触发第一添加单元运行；

第一添加子单元，用于将X放入分词结果并将输入词串中尚未加入到分词结果的部分作为待切分词串并触发所述第一切分子单元运行；

确定子单元，用于确定与X相关的歧义片段的正确划分并触发第二添加子单元运行；

第二添加子单元，用于将所述确定子单元的划分结果放入分词结果并将输入词串尚未加入到分词结果的部分作为待切分词串，触发所述第一切分子单元运行。

21.根据权利要求20所述的装置，其特征在于，所述判断子单元包括：

第一判断子单元，用于判断X在所述多粒度词典中是否存在内部成分，如果没有，则确定X不存在歧义，触发所述第一添加子单元运行，否则触发第二切分子单元运行；

第二切分子单元，用于确定X的内部成分中以X的首字开始的最长词条Y，并采用与所述第一切分子单元相同的方法对待切分词串除Y以外部分进行切分，得到首个切分词Z，触发第二判断子单元运行；

第二判断子单元，用于判断Y与Z的长度之和是否小于或等于X，如果是，则确定X没有歧义，触发所述第一添加子单元运行，否则确定X存在歧义，触发所述确定子单元运行。

22.根据权利要求21所述的装置，其特征在于，所述确定子单元包括：

第三切分子单元，用于采用与第一切分子单元相同的方法对待切分词串除X以外的部分进行切分，得到首个切分词W；

比较子单元，用于分别统计X和W在大规模语料中的词频之和f₁，以及，Y和Z在大规模语料中的词频之和f₂，将f₁及f₂之中的较大值对应的片段作为与X相关的歧义片段，并将f₁及f₂之中的较大值对应的切分方式作为该歧义片段的正确划分，触发所述第二添加子单元运行。