CN106610937A

CN106610937A - 一种基于信息论的中文自动分词算法

Info

Publication number: CN106610937A
Application number: CN201610831711.2A
Authority: CN
Inventors: 金平艳; 胡成华
Original assignee: Sichuan Yonglian Information Technology Co Ltd
Current assignee: Sichuan Yonglian Information Technology Co Ltd
Priority date: 2016-09-19
Filing date: 2016-09-19
Publication date: 2017-05-03

Abstract

一种基于信息论的中文自动分词算法，将待分词句子和已经初始化成功的语料库中的词进行对比匹配，根据概率统计学，将待分词句子拆分为网状结构，利用信息论方法求解网状结构中每条边的权值，权重最大的一条路径，即为待分词句子的分词结果，利用准确率可召回率判定分词效果。本发明中中文预处理的速度较基于分词词典的方法快；较基于分词词典的方法精度更高；较基于统计学方法有更好的准确度；实用性更大，更符合经验值；为后续自然语言处理技术提供了极大的应用价值。

Description

一种基于信息论的中文自动分词算法

技术领域

本发明涉及中文语义网络技术领域，具体涉及一种基于信息论的中文自动分词算法。

背景技术

现阶段基于理解的中文分词算法目前还处于试验阶段，基于分词词典和基于概率统计的方法成为当前中文自动分词技术的主流。基于分词词典的方法移植简单、无需考虑不同领域间移植的自适应性问题；但是这类方法对自动分词过程中所产生的歧义分析以及命名实体识别等问题的处理还相对欠缺。基于统计的方法依托于强大的数学统计模型，在分词性能方面有了很大的提高，但是在跨领域方面效果不好，对训练语料的依赖性比较大，需要针对不同的领域，准备不同的训练语料来训练不同的领域统计分词模型。这样导致在领域变换后，必须为它们提供相应领域的分词训练语料。然而，进行分词训练所需要的标注语料的建立和维护需要大量的人力和物力，相比之下，基于分词词典的方法在领域自适应方面存在着一定优势。当目标分词领域改变时，基于词典的方法只需要加入相应领域的词典即可，领域词典的获取相比训练语料而言也要容易很多，因此将分词词典和概率统计的方法结合使用成为当前分词的主流。为了实现中文自动分词功能以及提高分词结果的准确度，本发明提出了一种基于信息论的中文自动分词算法。

发明内容

为实现中文自动分词功能以及针对分词结果的准确性不高问题，本发明提供了一种基于信息论的中文自动分词算法。

为了解决上述问题，本发明是通过以下技术方案实现的：

步骤1：初始化训练模型，可以是《分词词典》或相关领域的语料库，或是两者结合模型。

步骤2：根据《分词词典》找到待分词句子中与词典中匹配的词。

步骤3：依据概率统计学，将待分词句子拆分为网状结构，即得n个可能组合的句子结构，把此结构每条顺序节点依次规定为SM₁M₂M₃M₄M₅E。

步骤4：基于信息论方法，给上述网状结构每条边赋予一定的权值。

步骤5：找到权值最大的一条路径，即为待分词句子的分词结果。

步骤6：验证此分词结果的准确率和召回率。

本发明有益效果是：

1、中文预处理的速度较基于分词词典的方法快。

2、此方法较基于分词词典的方法有更好的精度。

3、此方法较基于统计学方法有更好的准确度。

4、此方法实用性更大，更符合经验值。

5、此方法为后续自然语言处理技术提供了极大地应用价值。

附图说明

图1 一种基于信息论的中文自动分词算法结构流程图

图2 n元语法分词算法图解

具体实施方式

为了提高中文自动分词的准确性，结合图1-图2对本发明进行了详细说明，其具体实施步骤如下：

步骤2：根据《分词词典》找到待分词句子中与词典中匹配的词，其具体描述如下：

把待分词的汉字串完整的扫描一遍，在***的词典里进行查找匹配，遇到字典里有的词就标识出来；如果词典中不存在相关匹配，就简单地分割出单字作为词；直到汉字串为空。

步骤3：依据概率统计学，将待分词句子拆分为网状结构，即得n个可能组合的句子结构，把此结构每条顺序节点依次规定为SM₁M₂M₃M₄M₅E，其结构图如图2所示。

步骤4：基于信息论方法，给上述网状结构每条边赋予一定的权值，其具体计算过程如下：

根据《分词词典》匹配出的字典词与未匹配的单个词，第i条路径包含词的个数为n_i。即n条路径词的个数集合为(n₁，n₂，…，n_n)。

得min()＝min(n₁，n₂，…，n_n)

在上述留下的剩下的(n-m)路径中，求解每条相邻路径的权重大小。

在统计语料库中，计算每个词的信息量X(C_i)，再求解路径相邻词的共现信

息量X(C_i，C_i+1)。既有下式：

X(C_i)＝|x(C_i)₁-x(C_i)₂|

上式x(C_i)₁为文本语料库中词C_i的信息量，x(C_i)₂为含词C_i的文本信息量。

x(C_i)₁＝-p(C_i)₁lnp(C_i)₁

上式p(C_i)₁为C_i在文本语料库中的概率，n为含词C_i的文本语料库的个数。

x(C_i)₂＝-p(C_i)₂lnp(C_i)₂

上式p(C_i)₂为含词C_i的文本数概率值，N为统计语料库中文本总数。

同理X(C_i，C_i+1)＝|x(C_i，C_i+1)₁-x(C_i，C_i+1)₂|

x(C_i，C_i+1)₁为在文本语料库中词(C_i，C_i+1)的共现信息量，x(C_i，C_i+1)₂为相邻词(C_i，C_i+1)共现的文本信息量。

同理x(C_i，C_i+1)₁＝-p(C_i，C_i+1)₁lnp(C_i，C_i+1)₁

上式p(C_i，C_i+1)₁为在文本语料库中词(C_i，C_i+1)的共现概率，m为在文本库中词(C_i，C_i+1)共现的文本数量。

x(C_i，C_i+1)₂＝-p(C_i，C_i+1)₂lnp(C_i，C_i+1)₂

p(C_i，C_i+1)₂为文本库中相邻词(C_i，C_i+1)共现的文本数概率。

综上可得每条相邻路径的权值为

w(C_i，C_i+1)＝X(C_i)+X(C_i+1)-2X(C_i，C_i+1)

步骤5：找到权值最大的一条路径，即为待分词句子的分词结果，其具体计算过程如下：

有n条路径，每条路径长度不一样，假设路径长度集合为(L₁，L₂，…，L_n)。

假设经过取路径中词的数量最少操作，排除了m条路径，m<n。即剩下(n-m)路径，设其路径长度集合为

则每条路径权重为:

上式分别为第1,2到路径边的权重值，根据步骤4可以一一计算得出，为剩下(n-m)路径中第S_j条路径的长度。

权值最大的一条路径:

步骤6：验证此分词结果的准确率和召回率。

准确率：

上式n_识为《分词词典》识别待分词句子中字典词的个数，n_z为此方法正确分词词的个数。

召回率：

上式n_总为待分词句子中词的总个数。

最后综合考虑这两个因子，判定此***分词结果的正确性。

即d＝|zhaorate-rate|≤ε

ε为一个很小的阈值，这个由专家给定。当d满足上述条件，则分词效果比较理想。

Claims

1.一种基于信息论的中文自动分词算法，本发明涉及中文语义网络技术领域，具体涉及一种基于信息论的中文自动分词算法，其特征是，包括如下步骤：

步骤1：初始化训练模型，可以是《分词词典》或相关领域的语料库，或是两者结合模型

步骤2：根据《分词词典》找到待分词句子中与词典中匹配的词

步骤3：依据概率统计学，将待分词句子拆分为网状结构，即得n个可能组合的句子结构，把此结构每条顺序节点依次规定为

步骤4：基于信息论方法，给上述网状结构每条边赋予一定的权值

步骤5：找到权值最大的一条路径，即为待分词句子的分词结果

步骤6：验证此分词结果的准确率和召回率

准确率：

上式为《分词词典》识别待分词句子中字典词的个数，为此方法正确分词词的个数

召回率：

上式为待分词句子中词的总个数

最后综合考虑这两个因子，判定此***分词结果的正确性

即

为一个很小的阈值，这个由专家给定，当d满足上述条件，则分词效果比较理想。

2.根据权利要求1中所述的一种基于信息论的中文自动分词算法，其特征是，以上所述步骤4中具体计算过程如下：

根据《分词词典》匹配出的字典词与未匹配的单个词，第i条路径包含词的个数为，即n条路径词的个数集合为

得

在上述留下的剩下的(n-m)路径中，求解每条相邻路径的权重大小

在统计语料库中，计算每个词的信息量，再求解路径相邻词的共现信息量，既有下式：

上式为文本语料库中词的信息量，为含词文本信息量

上式为在文本语料库中的概率，n为含词的文本语料库的个数

上式为含词的文本数概率值，N为统计语料库中文本总数

同理

为在文本语料库中词的共现信息量，为相邻词共现的文本信息量

同理

上式为在文本语料库中词的共现概率，m为在文本库中词共现的文本数量

为文本库中相邻词共现的文本数概率

综上可得每条相邻路径的权值为

。

3.根据权利要求1中所述的一种基于信息论的中文自动分词算法，其特征是，以上所述步骤5中具体计算过程如下：

有n条路径，每条路径长度不一样，假设路径长度集合为

假设经过取路径中词的数量最少操作，排除了m条路径，m<n，即剩下(n-m)路径，设其路径长度集合为

则每条路径权重为:

上式分别为第1,2到路径边的权重值，根据步骤4可以一一计算得出，为剩下(n-m)路径中第条路径的长度权值最大的一条路径:

。