CN106611041A

CN106611041A - 一种新的文本相似度求解方法

Info

Publication number: CN106611041A
Application number: CN201610863609.0A
Authority: CN
Inventors: 金平艳
Original assignee: Sichuan Yonglian Information Technology Co Ltd
Current assignee: Sichuan Yonglian Information Technology Co Ltd
Priority date: 2016-09-29
Filing date: 2016-09-29
Publication date: 2017-05-03

Abstract

一种新的文本相似度求解方法，先对两文本进行分词和去停用词处理，基于信息论方法，计算词汇在文本中权重值，再对其进行归一化处理，根据词汇位置信息和词频计算词汇的权重，综合上述所有因子，构造文本中的特征值目标函数，提取文本中的特征值，最后，根据皮尔森相关系数求解文本相似度。本发明比传统文本相似度计算方法准确度更高，适用性更广，具有更大的应用价值，计算不同词汇对文本思想的贡献度具有更高的精确度，同时为后续的文本聚类提供良好的理论基础。

Description

一种新的文本相似度求解方法

技术领域

本发明涉及语义网络技术领域，具体涉及一种新的文本相似度求解方法。

背景技术

文本语义相似度计算是知识产权保护、文本分类、机器翻译、自然语言处理、复制检测、自动问答和信息检索等领域的核心技术。现有的文本相似度计算方法大致可以归纳为两类，第一类是基于文本特征统计的方法，第二类则是基于文本语义理解的方法。基于文本特征统计的方法在长文本等大粒度实体的相似度计算方面取得了较好的效果，其中最具代表性的就是向量空间模型，简称VSM和广义向量空间模型，简称GVSM。GVSM在VSM的基础上利用文本特征项的共现信息，对VSM模型中特征项正交的假设进行了改进。基于语义理解的方法，通常以某种知识库作为依据实现词语之间或者句子之间相似度的计算。基于统计的方法简单高效，但是缺乏语义，没有考虑到文本中特征词汇中不同词汇对文本重要程度的差异问题。而基于语义理解的方法往往计算比较复杂，不适合大规模的文本处理。为了满足上述需求，本发明提供了一种新的文本相似度求解方法。

发明内容

针对于文本中特征词汇中不同词汇对文本的重要程度的差异问题以及计算文本相似度问题，本发明提供了一种新的文本相似度求解方法。

为了解决上述问题，本发明是通过以下技术方案实现的：

步骤1：初始化文本语料库模块，对待比较文本(W₁，W₂)的进行预处理。

步骤2：基于信息论方法，计算词汇在文本中权重值W_I。

步骤3：根据词汇位置信息，计算词汇在文本中的权重值

步骤4：综合考虑上述两因子，构造提取文本(W₁，W₂)中的特征值目标函数分别提取文本(W₁，W₂)中的特征值。

步骤5：根据皮尔森相关系数求解待比较文本(W₁，W₂)间的文本相似度sim(W₁，W₂)。

本发明有益效果是：

1、此方法比传统的文本相似度计算方法得到的结果具有更高的准确性，更符合人工提取的结果。

2、此方法在信息检索、机器翻译、自动问答***等领域都具有更好的适用性。

3、此算法具有更大的利用价值。

4、此方法粗略计算了特征词汇中不同词汇对文本思想的贡献度。

5、计算特征词汇中不同词汇对文本思想的贡献度具有更高的精确度。

6、为后续的文本聚类提供良好的理论基础。

附图说明

图1一种新的文本相似度求解方法的结构流程图

图2 n元语法分词算法图

具体实施方式

为了解决文本中特征词汇中不同词汇对文本的重要程度的差异和计算文本间的相似度，结合图1对本发明进行了详细说明，其具体实施步骤如下：

步骤1：初始化文本语料库模块，对待比较文本(W₁，W₂)的进行预处理，其具体描述过程如下：

利用停用表对文本(W₁，W₂)进行分词和去停用词处理。

这里分词方法利用一种基于信息论中文自动分词算法，其具体分词和去停用词步骤如下：

步骤1.1：利用停用表分别对文本(W₁，W₂)进行去停用词处理。

步骤1.2：根据《分词词典》找到待分词句子中与词典中匹配的词，其具体描述如下：

把待分词的汉字串完整的扫描一遍，在***的词典里进行查找匹配，遇到字典里有的词就标识出来；如果词典中不存在相关匹配，就简单地分割出单字作为词；直到汉字串为空。

步骤1.3：依据概率统计学，将待分词句子拆分为网状结构，即得n个可能组合的句子结构，把此结构每条顺序节点依次规定为SM₁M₂M₃M₄M₅E，其结构图如图2所示。

步骤1.4：基于信息论方法，给上述网状结构每条边赋予一定的权值，其具体计算过程如下：

根据《分词词典》匹配出的字典词与未匹配的单个词，第i条路径包含词的个数为n_i。即n条路径词的个数集合为(n₁，n₂，…，n_n)。

得min()＝min(n₁，n₂，…，n_n)

在上述留下的剩下的(n-m)路径中，求解每条相邻路径的权重大小。

在统计语料库中，计算每个词的信息量X(C_i)，再求解路径相邻词的共现信

息量X(C_i，C_i+1)。既有下式：

X(C_i)＝|x(C_i)₁-x(C_i)₂|

上式x(C_i)₁为文本语料库中词C_i的信息量，x(C_i)₂为含词C_i的文本信息量。

x(C_i)₁＝-p(C_i)₁lnp(C_i)₁

上式p(C_i)₁为C_i在文本语料库中的概率，n为含词C_i的文本语料库的个数。

x(C_i)₂＝-p(C_i)₂lnp(C_i)₂

上式p(C_i)₂为含词C_i的文本数概率值，N为统计语料库中文本总数。

同理X(C_i，C_i+1)＝|x(C_i，C_i+1)₁-x(C_i，C_i+1)₂|

x(C_i，C_i+1)₁为在文本语料库中词(C_i，C_i+1)的共现信息量，x(C_i，C_i+1)₂为相邻词(C_i，C_i+1)共现的文本信息量。

同理x(C_i，C_i+1)₁＝-p(C_i，C_i+1)₁lnp(C_i，C_i+1)₁

上式p(C_i，C_i+1)₁为在文本语料库中词(C_i，C_i+1)的共现概率，m为在文本库中词(C_i，C_i+1)共现的文本数量。

X(C_i，C_i+1)₂＝-P(C_i，C_i+1)₂lnp(C_i，C_i+1)₂

p(C_i，C_i+1)₂为文本库中相邻词(C_i，C_i+1)共现的文本数概率。

综上可得每条相邻路径的权值为

w(C_i，C_i+1)＝X(C_i)+X(C_i+1)-2X(C_i，C_i+1)

步骤1.5：找到权值最大的一条路径，即为待分词句子的分词结果，其具体计算过程如下：

有n条路径，每条路径长度不一样，假设路径长度集合为(L₁，L₂，…，L_n)。

假设经过取路径中词的数量最少操作，排除了m条路径，m<n。即剩下(n-m)路径，设其路径长度集合为

则每条路径权重为:

上式w(C₁，C₂)，w(C₂，C₃)，…，分别为第1,2到路径边的权重值，根据步骤1.4可以一一计算得出，为剩下(n-m)路径中第S_j条路径的长度。

权值最大的一条路径:

步骤2：基于信息论方法，计算词汇在文本中权重值W_I，其具体计算过程如下：

基于信息论词频的计算公式有：

上式为词汇关于词频在文档中所具有的信息量，p(c_1，2)分别为词c₁、c₂在文本中的概率值。

基于信息论文档频率的计算公式有：

为词汇关于文档频率在文档库中所具有的信息量，为分别含有c₁、c₂的文档数，N为文档库中文档的总个数。

综上所述，有基于信息论计算词汇权重的函数，归一化后，如下式：

步骤3：根据词汇位置信息，计算词汇在文本中的权重值其具体计算过程如下：

根据调研资料显示，特征词越在文本靠前位置，越能代表文本的中心思想，特征词在文本中出现的次数越多，越具有文本含义的代表性。通过步骤2得到词汇在文本的权重值，取前20个特征词汇。对这些词汇进行位置权重划分。

在文本中每个特征词至少出现一次,文本特征词c_(1，2)i构成的位置向量，如下：

则每个特征词位置权重函数为：

上式k为特征词c_i出现在文本中的段落数，q_h为含有特征词c_i的第h段对文本思想的贡献值，q_h值由相应文本领域专家经过调研可以得出。n_h为特征词c_i在第h段出现的次数。

步骤4:综合考虑上述两因子，构造提取文本(W₁，W₂)中的特征值目标函数分别提取文本(W₁，W₂)中的特征值，其具体计算过程如下：

提取文本(W₁，W₂)中的特征值目标函数为：

上式α、β分别为W_I、对特征提取影响的权重系数，α+β＝1，一般α＞β，即基于信息论得到的词频与文档频率的权重函数对文本(W₁，W₂)中特征提取的影响更大，其值可以根据实验测试出来。

步骤5：根据皮尔森相关系数求解待比较文本(W₁，W₂)间的文本相似度sim(W₁，W₂)，其具体计算过程如下：

根据步骤4计算得出的特征词汇权重值，相关领域专家选取前m位关键词，这里m<20，既分别有文本(W₁，W₂)对应的特征词向量。

文本W₁对应的特征词的平均权重函数为

同理，文本W₂对应特征词的平均权重函数为

根据皮尔森相关系数，即可得文本(W₁，W₂)间的文本相似度sim(W₁，W₂)，有下式：

一种新的文本相似度求解方法,其伪代码计算过程：

输入：待比较待比较文本(W₁，W₂)。

输出：文本(W₁，W₂)间的相似度sim(W₁，W₂)。

Claims

1.一种新的文本相似度求解方法，本发明涉及语义网络技术领域，具体涉及一种新的文本相似度求解方法，其特征是，包括如下步骤：

步骤1：初始化文本语料库模块，对待比较文本的进行预处理，其具体处理过程如下：

利用停用表对文本进行分词和去停用词处理

步骤1.1：利用停用表分别对文本进行去停用词处理

把待分词的汉字串完整的扫描一遍，在***的词典里进行查找匹配，遇到字典里有的词就标识出来；如果词典中不存在相关匹配，就简单地分割出单字作为词；直到汉字串为空

步骤1.3：依据概率统计学，将待分词句子拆分为网状结构，即得n个可能组合的句子结构，把此结构每条顺序节点依次规定为，其结构图如图2所示

根据《分词词典》匹配出的字典词与未匹配的单个词，第i条路径包含词的个数为，即n条路径词的个数集合为

得

在上述留下的剩下的(n-m)路径中，求解每条相邻路径的权重大小

在统计语料库中，计算每个词的信息量，再求解路径相邻词的共现信息量，既有下式：

上式为文本语料库中词的信息量，为含词的文本信息量

上式为在文本语料库中的概率，n为含词的文本语料库的个数

上式为含词的文本数概率值，N为统计语料库中文本总数

同理

为在文本语料库中词的共现信息量，为相邻词共现的文本信息量

同理

上式为在文本语料库中词的共现概率，m为在文本库中词共现的文本数量

为文本库中相邻词共现的文本数概率

综上可得每条相邻路径的权值为

有n条路径，每条路径长度不一样，假设路径长度集合为

假设经过取路径中词的数量最少操作，排除了m条路径，m<n，即剩下(n-m)路径，设其路径长度集合为

则每条路径权重为:

上式分别为第1,2到路径边的权重值，根据步骤1.4可以一一计算得出，为剩下(n-m)路径中第条路径的长度

权值最大的一条路径:

步骤2：基于信息论方法，计算词汇在文本中权重值

步骤3：根据词汇位置信息，计算词汇在文本中的权重值

步骤4：综合考虑上述两因子，构造提取文本中的特征值目标函数，分别提取文本中的特征值

步骤5：根据皮尔森相关系数求解待比较文本间的文本相似度。

2.根据权利要求1中所述的一种新的文本相似度求解方法，其特征是，以上所述步骤2中的具体计算过程如下：

步骤2：基于信息论方法，计算词汇在文本中权重值，其具体计算过程如下：

基于信息论词频的计算公式有：

上式为词汇关于词频在文档中所具有的信息量，分别为词、在文本中的概率值

基于信息论文档频率的计算公式有：

为词汇关于文档频率在文档库中所具有的信息量，为分别含有、的文档数，N为文档库中文档的总个数

。

3.根据权利要求1中所述的一种新的文本相似度求解方法，其特征是，以上所述步骤3中的具体计算过程如下：

步骤3：根据词汇位置信息，计算词汇在文本中的权重值，其具体计算过程如下：

根据调研资料显示，特征词越在文本靠前位置，越能代表文本的中心思想，特征词在文本中出现的次数越多，越具有文本含义的代表性，通过步骤2得到词汇在文本的权重值，取前20个特征词汇，对这些词汇进行位置权重划分

在文本中每个特征词至少出现一次,文本特征词构成的位置向量，如下：

则每个特征词位置权重函数为：

上式k为特征词出现在文本中的段落数，为含有特征词的第h段对文本思想的贡献值，值由相应文本领域专家经过调研可以得出，为特征词在第h段出现的次数。

4.根据权利要求1中所述的一种新的文本相似度求解方法，其特征是，以上所述步骤4中的具体计算过程如下：

步骤4:综合考虑上述两因子，构造提取文本中的特征值目标函数，分别提取文本中的特征值，其具体计算过程如下：

提取文本中的特征值目标函数为：

上式、分别为、对特征提取影响的权重系数，，一般，即基于信息论得到的词频与文档频率的权重函数对文本中特征提取的影响更大，其值可以根据实验测试出来。

5.根据权利要求1中所述的一种新的文本相似度求解方法，其特征是，以上所述步骤5中的具体计算过程如下：

步骤5：根据皮尔森相关系数求解待比较文本间的文本相似度，其具体计算过程如下：

根据步骤4计算得出的特征词汇权重值，相关领域专家选取前m位关键词，这里m<20，既分别有文本对应的特征词向量

文本对应的特征词的平均权重函数为：

同理，文本对应特征词的平均权重函数为：

根据皮尔森相关系数，即可得文本间的文本相似度，有下式：

。