CN102314415A

CN102314415A - 利用成语知识的判别式分词***及方法

Info

Publication number: CN102314415A
Application number: CN2010102216290A
Authority: CN
Inventors: 毛新年
Original assignee: Shengle Information Technolpogy Shanghai Co Ltd
Current assignee: Shanghai Guoke Electronic Co., Ltd.
Priority date: 2010-07-08
Filing date: 2010-07-08
Publication date: 2012-01-11

Abstract

本发明公开了一种利用成语知识的判别式分词方法，包括如下步骤：第一步，分词知识库的训练，包括：步骤1，对人工分词的文本抽取基本特征；步骤2，对人工分词的文本抽取成语特征；步骤3，对抽取的特征进行训练，得到分词用的知识库；第二步，从待切分的原始文本中获取基本特征；第三步，从待切分的原始文本中获取成语特征；第四步，利用第一步训练得到的分词知识库对待切分的原始文本进行分词。此外，本发明还公开了一种利用成语知识的判别式分词***。本发明在不提高计算复杂性的情况下，可以显著改善长词的分词性能，提高分词算法中对于长词切分的准确率。

Description

利用成语知识的判别式分词***及方法

技术领域

本发明涉及一种汉语分词***，尤其涉及一种判别式分词***，具体涉及一种利用成语知识的判别式分词***；此外，本发明还涉及一种利用成语知识的判别式分词方法。

背景技术

目前汉语分词***中常用的判别式分词***，基于判别式机器学习的分词技术在长词识别上性能不足，这些长词主要是成语和仿词(时间、日期等)。在目前已有的判别式分词***中，对于长词的处理仅仅考虑到带有固定模式的仿词(时间、日期等)，没有考虑到成语、惯用语作为一种常见的长词的特殊处理，现有的方法利用若干窗口的字特征进行分词，不能抓住长距离，对于成语这样的长词切分精度往往不高。

现有判别式分词方法主要依靠指定窗口大小的字特征来实现分词，这种方法在长词切分上性能不佳，这种方法要提高长词的切分性能只能通过扩大窗口的范围，但是扩大窗口范围会带来计算量的巨大提高。

因此，需要一种新的方法来改善分词中的长词切分准确率。

发明内容

本发明要解决的技术问题是提供一种利用成语知识的判别式分词***及方法，其在不提高计算复杂性的情况下，可以显著改善长词的分词性能，提高分词算法中对于长词切分的准确率。

为解决上述技术问题，本发明提供一种利用成语知识的判别式分词方法，包括如下步骤：

第一步，分词知识库的训练，包括：

步骤1，对人工分词的文本抽取基本特征；

步骤2，对人工分词的文本抽取成语特征；

步骤3，对抽取的特征进行训练，得到分词用的知识库；

第二步，从待切分的原始文本中获取基本特征；

第三步，从待切分的原始文本中获取成语特征；

第四步，利用第一步训练得到的分词知识库对待切分的原始文本进行分词。

第一步的步骤1中，所述对人工分词的文本抽取基本特征主要是抽取若干窗口的字特征。

第一步的步骤2中，采用从成语词典中抽取成语特征。

第三步中，采用从成语词典中获取成语特征。

所述成语特征通过成语词典与待切分的原始文本进行匹配，如果某些文字被成功匹配，这些文字就被赋以如下特征：

该字是成功匹配的成语的首字：B-Idiom；

该字是成功匹配的成语的中间字：I-Idiom；

该字是成功匹配的成语的尾字：E-Idiom；

其他没有被匹配成功的文字被赋以：Other。

所述成语词典与待切分的原始文本进行匹配采用正向最大匹配或者逆向最大匹配。

此外，本发明还提供一种利用成语知识的判别式分词***，包括分词知识库训练模块、获取基本特征模块、获取成语特征模块和分词模块；所述分词知识库训练模块包括抽取基本特征模块、抽取成语特征模块和训练模块；

该抽取基本特征模块用于对人工分词的文本抽取基本特征；该抽取成语特征模块用于对人工分词的文本抽取成语特征；该训练模块用于对上述抽取的特征进行训练，得到分词知识库；该获取基本特征模块用于从待切分的原始文本中获取基本特征；该抽取成语特征模块用于从待切分的原始文本中获取成语特征；该分词模块用于利用分词知识库训练模块得到的分词知识库对待切分的原始文本进行分词。

所述抽取成语特征模块和所述获取成语特征模块通过成语词典与待切分的原始文本进行匹配，赋以成语特征。

本发明的有益效果在于：本发明方法利用成语词典作为知识源，将成语词典与待切分的原始文本自动匹配结果作为判别式机器学习算法中的切分特征，利用这些加强的特征来提高分词算法中对于成语切分的准确率。本发明方法利用成语词典知识作为一种增强特征，与原有字特征结合使用，在不提高计算复杂性的情况下，可以显著改善长词的分词性能。

附图说明

图1是本发明方法中模型分词知识库的训练过程示意图；

图2是本发明方法中利用分词知识库进行分词的过程示意图；

图3是本发明***的模块结构示意图。

具体实施方式

本发明方法利用成语词典作为知识源，将成语词典与待切分的原始文本自动匹配结果作为判别式机器学习算法中的切分特征，利用这些加强的特征来提高分词算法中对于成语切分的准确率。

本发明一种利用成语知识的判别式分词方法的具体流程见图1和图2。图1是模型分词知识库的训练过程，图2是利用分词知识库进行分词的过程。

如图1所示，本发明方法中模型分词知识库的训练过程包括如下步骤：

步骤1：对人工分词的文本(人工切分的分词语料)抽取基本特征，主要是抽取若干窗口的字特征，目前已有的分词训练模块也具备这一步骤；

步骤2：对人工分词的文本抽取成语特征，这是目前分析训练模块都没有的步骤；可以通过改变成语特征的获取方式来获取其他形式的成语特征，例如，可以从成语词典中获取成语特征(见图1)，也可以通过来源于网络的“成语大全”获取成语特征，等等；

步骤3：对抽取的特征进行训练，得到分词用的知识库。

如图2所示，本发明方法中利用分词知识库对待切分的原始文本进行分词的过程包括如下步骤：

步骤1：从待切分的原始文本中获取基本特征；

步骤2：从待切分的原始文本中获取成语特征；可以通过改变成语特征的获取方式来获取其他形式的成语特征，例如，可以从成语词典中获取成语特征(见图2)，也可以通过来源于网络的“成语大全”获取成语特征，等等；

步骤3：利用图1中步骤训练得到的分词知识库对待切分的原始文本进行分词。

上述图1和图2中的成语特征可以按如下方法获得：

成语特征通过一部成语词典与待切分的原始文本进行匹配(正向最大匹配或者逆向最大匹配)，如果某些文字被成功匹配，这些文字就被赋以如下特征：

该字是成功匹配的成语的首字：B-Idiom；

该字是成功匹配的成语的中间字：I-Idiom；

该字是成功匹配的成语的尾字：E-Idiom；

其他没有被匹配成功的文字被赋以：Other。

正向(逆向)最大匹配指：设定词典中最长的词的字数N，将句子从左到右(正向)或者从右到左(逆向)以N个字进行匹配，如果匹配不成功，则去掉最后一个字，直到在词典中匹配成功了M个字的词组，前移M，再次取N个字进行匹配，直至句子结束，例如：

假设词典为：

内塔尼亚胡

胡说

的

的确

确实

实在

在理

并且假定最长词为5个字；

正向匹配“内塔尼亚胡说的确实在理”的匹配结果为“内塔尼亚胡说的确实在理”；

逆向匹配“内塔尼亚胡说的确实在理”的匹配结果为“内塔尼亚胡说的确实在理”。

如图3所示，本发明一种利用成语知识的判别式分词***，包括：分词知识库训练模块、获取基本特征模块、获取成语特征模块和分词模块；分词知识库训练模块中包括抽取基本特征模块、抽取成语特征模块和训练模块。该抽取基本特征模块用于对人工分词的文本抽取基本特征；该抽取成语特征模块用于对人工分词的文本抽取成语特征；该训练模块用于对上述抽取基本特征模块和抽取成语特征模块抽取的特征进行训练，得到分词知识库；该获取基本特征模块用于从待切分的原始文本中获取基本特征；该抽取成语特征模块用于从待切分的原始文本中获取成语特征；该分词模块用于利用分词知识库训练模块得到的分词知识库对待切分的原始文本进行分词。

该抽取成语特征模块和该获取成语特征模块通过成语词典与待切分的原始文本进行匹配，赋以成语特征。

Claims

1.一种利用成语知识的判别式分词方法，其特征在于，包括如下步骤：

第一步，分词知识库的训练，包括：

步骤1，对人工分词的文本抽取基本特征；

步骤2，对人工分词的文本抽取成语特征；

步骤3，对抽取的特征进行训练，得到分词用的知识库；

第二步，从待切分的原始文本中获取基本特征；

第三步，从待切分的原始文本中获取成语特征；

2.如权利要求1所述的利用成语知识的判别式分词方法，其特征在于，第一步的步骤1中，所述对人工分词的文本抽取基本特征主要是抽取若干窗口的字特征。

3.如权利要求1所述的利用成语知识的判别式分词方法，其特征在于，第一步的步骤2中，采用从成语词典中抽取成语特征。

4.如权利要求1所述的利用成语知识的判别式分词方法，其特征在于，第三步中，采用从成语词典中获取成语特征。

5.如权利要求3或4所述的利用成语知识的判别式分词方法，其特征在于，所述成语特征通过成语词典与待切分的原始文本进行匹配，如果某些文字被成功匹配，这些文字就被赋以如下特征：

该字是成功匹配的成语的首字：B-Idiom；

该字是成功匹配的成语的中间字：I-Idiom；

该字是成功匹配的成语的尾字：E-Idiom；

其他没有被匹配成功的文字被赋以：Other。

6.如权利要求5所述的利用成语知识的判别式分词方法，其特征在于，所述成语词典与待切分的原始文本进行匹配采用正向最大匹配或者逆向最大匹配。

7.一种利用成语知识的判别式分词***，其特征在于，包括分词知识库训练模块、获取基本特征模块、获取成语特征模块和分词模块；所述分词知识库训练模块包括抽取基本特征模块、抽取成语特征模块和训练模块；

8.如权利要求7所述的利用成语知识的判别式分词***，其特征在于，所述抽取成语特征模块和所述获取成语特征模块通过成语词典与待切分的原始文本进行匹配，赋以成语特征。