CN106610951A

CN106610951A - 改进的基于语义分析的文本相似度求解算法

Info

Publication number: CN106610951A
Application number: CN201610864853.9A
Authority: CN
Inventors: 金平艳
Original assignee: Sichuan Yonglian Information Technology Co Ltd
Current assignee: Sichuan Yonglian Information Technology Co Ltd
Priority date: 2016-09-29
Filing date: 2016-09-29
Publication date: 2017-05-03

Abstract

改进的基于语义分析的文本相似度求解算法，先对两文本进行分词和去停用词处理，基于改进的信息论方法，计算词汇在文本中权重，根据词汇位置信息和词性，得到词汇位置和词性的权重，综合上述三因子，构造提取文本词汇的目标函数，最后，根据语义相似度分别对上述两特征词汇实施进一步降维处理得到两特征词汇向量，再根据皮尔森相关系数求解文本间的文本相似度。本发明比传统文本相似度计算方法准确度更高，适用性更广，具有更大的应用价值，可以精确计算不同词汇对文本思想的贡献度，解决了“一词多义”与“一义多词”的问题，更符合经验值，同时为后续的文本聚类提供良好的理论基础。

Description

改进的基于语义分析的文本相似度求解算法

技术领域

本发明涉及语义网络技术领域，具体涉及一种改进的基于语义分析的文本相似度求解算法。

背景技术

目前，常用的计算文本相似度方法主要有两种：一种是基于数理统计的方法，另外一种是基于语义分析的方法。基于数理统计的方法是根据词形和词频进行计算，而语义分析则是利用文本内部词汇的内在语义联系进行计算。向量空间模型(Vector Space Model简称VSM)是计算文本相似度的经典方法，该方法没有考虑词汇的语义信息和词汇之间的语义联系，因此不能真实的反应文本之间的相似情况，此外VSM没有考虑词汇在文本中的语义地位和对文本中心思想表达所作出的贡献大小，所以用向量空间模型来计算文本相似度是有缺陷的。为了提高文本相似度计算的准确性和解决“一词多义”与“一义多词”等现象，本发明提供了改进的基于语义分析的文本相似度求解算法。

发明内容

针对于文本中特征词汇中不同词汇对文本的重要程度的差异问题、“一词多义”与“一义多词”问题以及提高文本相似度计算的准确性问题，本发明提供了改进的基于语义分析的文本相似度求解算法。

为了解决上述问题，本发明是通过以下技术方案实现的：

步骤1：初始化文本语料库模块，对待比较文本(W₁，W₂)的进行预处理。

步骤2：基于信息论方法，计算词汇在文本中权重值W_I。

步骤3：根据词汇位置信息和词性，计算词汇在文本中的权重值

步骤4:综合考虑上述三因子，构造提取文本(W₁，W₂)中的特征值目标函数分别提取文本(W₁，W₂)中的特征值。

步骤5：利用词汇语义相似度sim(c_1i，c_1i+1)对上述得到的特征词汇集合进行降维处理

步骤6：根据皮尔森相关系数求解待比较文本(W₁，W₂)间的文本相似度sim(W₁，W₂)。

本发明有益效果是：

1、此方法比传统的文本相似度计算方法得到的结果具有更高的准确性，更符合人工提取的结果。

2、此方法在信息检索、机器翻译、自动问答***等领域都具有更好的适用性。

3、此算法具有更大的利用价值。

4、此方法精确地计算了特征词汇中不同词汇对文本思想的贡献度。

5、计算特征词汇中不同词汇对文本思想的贡献度具有更高的精确度。

6、为后续的文本聚类提供良好的理论基础。

7、此方法处理了“一词多义”与“一义多词”的问题

8、此方法着重在语义分析的角度来计算两文本间的相似度，更符合人们的经验值。

附图说明

图1改进的基于语义分析的文本相似度求解算法的结构流程图

图2中文文本预处理过程流程图

图3 n元语法分词算法图

具体实施方式

为了解决文本中特征词汇中不同词汇对文本的重要程度的差异问题、“一词多义”与“一义多词”问题以及提高文本相似度计算的准确性问题，结合图1-图3对本发明进行了详细说明，其具体实施步骤如下：

步骤1：初始化文本语料库模块，对待比较文本(W₁，W₂)的进行预处理，其具体描述过程如下：

综合分词和删除停用词技术,中文文本预处理过程流程图如图2。

这里分词方法利用一种基于信息论中文自动分词算法，其具体分词和去停用词处理步骤如下：

步骤1.1：利用停用表分别对文本(W₁，W₂)进行去停用词处理。

步骤1.2：根据《分词词典》找到待分词句子中与词典中匹配的词，其具体描述如下：

把待分词的汉字串完整的扫描一遍，在***的词典里进行查找匹配，遇到字典里有的词就标识出来；如果词典中不存在相关匹配，就简单地分割出单字作为词；直到汉字串为空。

步骤1.3：依据概率统计学，将待分词句子拆分为网状结构，即得n个可能组合的句子结构，把此结构每条顺序节点依次规定为SM₁M₂M₃M₄M₅E，其结构图如图3所示。

步骤1.4：基于信息论方法，给上述网状结构每条边赋予一定的权值，其具体计算过程如下：

根据《分词词典》匹配出的字典词与未匹配的单个词，第i条路径包含词的个数为n_i。即n条路径词的个数集合为(n₁，n₂，…，n_n)。

得min()＝min(n₁，n₂，…，n_n)

在上述留下的剩下的(n-m)路径中，求解每条相邻路径的权重大小。

在统计语料库中，计算每个词的信息量X(C_i)，再求解路径相邻词的共现信

息量X(C_i，C_i+1)。既有下式：

X(C_i)＝|x(C_i)₁-x(C_i)₂|

上式x(C_i)₁为文本语料库中词C_i的信息量，x(C_i)₂为含词C_i的文本信息量。

x(C_i)₁＝-P(C_i)₁lnp(C_i)₁

上式p(C_i)₁为C_i在文本语料库中的概率，n为含词C_i的文本语料库的个数。

x(C_i)₂＝-p(C_i)₂lnp(C_i)₂

上式p(C_i)₂为含词C_i的文本数概率值，N为统计语料库中文本总数。

同理X(C_i，C_i+1)＝|x(C_i，C_i+1)₁-x(C_i，C_i+1)₂|

x(C_i，C_i+1)₁为在文本语料库中词(C_i，C_i+1)的共现信息量，x(C_i，C_i+1)₂为相邻词(C_i，C_i+1)共现的文本信息量。

同理x(C_i，C_i+1)₁＝-p(C_i，C_i+1)₁lnp(C_i，C_i+1)₁

上式p(C_i，C_i+1)₁为在文本语料库中词(C_i，C_i+1)的共现概率，m为在文本库中词(C_i，C_i+1)共现的文本数量。

x(C_i，C_i+1)₂＝-P(C_hC_i+1)₂lnp(C_i，C_i+1)₂

p(C_i，C_i+1)₂为文本库中相邻词(C_i，C_i+1)共现的文本数概率。

综上可得每条相邻路径的权值为

w(C_i，C_i+1)＝X(C_i)+X(C_i+1)-2X(C_i，C_i+1)

步骤1.5：找到权值最大的一条路径，即为待分词句子的分词结果，其具体计算过程如下：

有n条路径，每条路径长度不一样，假设路径长度集合为(L₁，L₂，…，L_n)。

假设经过取路径中词的数量最少操作，排除了m条路径，m<n。即剩下(n-m)路径，设其路径长度集合为

则每条路径权重为:

上式分别为第1,2到路径边的权重值，根据步骤1.4可以一一计算得出，为剩下(n-m)路径中第S_j条路径的长度。

权值最大的一条路径:

步骤2：基于信息论方法，计算词汇在文本中权重值W_I，其具体计算过程如下：

基于信息论词频的计算公式有：

上式为词汇关于词频在文档中所具有的信息量，p(c_1，2)分别为词c₁、c₂在文本中的概率值。

基于信息论文档频率的计算公式有：

为词汇关于文档频率在文档库中所具有的信息量，为分别含有c₁、c₂的文档数，N为文档库中文档的总个数。

综上所述，有基于信息论计算词汇权重的函数，归一化后，如下式：

步骤3：根据词汇位置信息和词性，计算词汇在文本中的权重值其具体计算过程如下：

根据调研资料显示，特征词越在文本靠前位置，越能代表文本的中心思想，特征词在文本中出现的次数越多，越具有文本含义的代表性。通过步骤2得到词汇在文本的权重值，取前n个特征词汇。对这些词汇进行位置权重划分。

在文本中每个特征词至少出现一次,文本特征词c_(1，2)i构成的位置向量，如下：

从词性的角度看，名词一般担当主语和宾语的角色，动词一般担当谓语的角色，形容词和副词一般担当定语的角色。词性的不同，造成了它们对文本或者句子的表示内容的能力的不一样。经过相关领域专家调查可得，名词、动词、形容词、副词等词性在文本中的权重系数a_i。

则综合考虑每个特征词位置与词性的权重函数为：

上式k为特征词c_i出现在文本中的段落数，q_h为含有特征词c_i的第h段对文本思想的贡献值，a_i为词性对文本思想的贡献值，a_i、q_h值由相应文本领域专家经过调研可以得出。n_h为特征词c_i在第h段出现的次数。

步骤4:综合考虑上述三因子，构造提取文本(W₁，W₂)中的特征词目标函数分别提取文本(W₁，W₂)中的特征词，其具体计算过程如下：

提取文本(W₁，W₂)中特征词汇的目标函数为：

步骤5：利用词汇语义相似度sim(c_1i，c_1i+1)对上述得到的特征词汇集合进行降维处理，需先计算概念间的相似度sim(g₁，g₂)，其具体计算过程如下：

利用《知网》数据库，假设特征词汇(c_1i，c_(1i+1))对应的概念集合分别为对此概念进行两两比较，找到相似度最大的两概念，即为特征词汇(c_1i，c_1i+1)间的相似度sim(c_1i，c_1i+1)。

步骤5.1)基于信息论的方法计算概念间的相似度sim(g₁，g₂)

基于信息内容的计算相似度方法主要是通过衡量概念所包含的信息量来计算相似度。概念是对其祖先节点的继承，是祖先节点的又一次细化，所以可通过祖先节点包含的信息量来衡量两个概念的共享信息。

求解其共同父节点在树状层次结构中的信息量值I(pr)

根据图2，得出两本体概念(g₁，g₂)共同父节点在树状层次结构中每层出现的概率值p(pr)

p(pr)＝(p₁(pr)，p₂(pr)，…，p_k(pr))

上式k为两本体概念(g₁，g₂)共同父节点在树状层次结构中的层数。

E[p(pr)]为两本体概念(g₁，g₂)共同父节点在树状层次结构中的概率均值。

分别求解两本体概念(g₁，g₂)在树状层次结构中的信息量值I(g₁)、I(g₂)，其具体求解过程如下：

求解两本体概念的在树状层次结构中的信息量值I(g₁)、I(g₂)

同理，根据图2，得出两本体概念(g₁，g₂)在树状层次结构中每层的概率值p(g₁)、p(g₂)

p(g₁)＝(p₁(g₁)，p₂(g₁)，...，p_i(g₁))

P(g₂)＝(p₁(g₂)，p₂(g₂)，…，p_j(g₂))

上式i为本体概念g₁在树状层次结构中的层数，同理，j为本体概念g₂在树状层次结构中的层数。

上式E[p(g₁)]、E[p(g₂)]分别为两本体概念(g₁，g₂)在树状层次结构中的概率均值。

由此可得两本体概念的在树状层次结构中的信息量值I(g₁)、I(g₂)

基于信息量，可以得出两本体概念间的语义相似度sim(g₁，g₂),其具体计算过程如下：

两本体概念(g₁，g₂)的共同父节点包含的信息量仅仅只能表示两概念包含的相同信息。根据经验可得两本体概念(g₁，g₂)间的语义相似度sim(g₁，g₂)。

步骤5.2)根据步骤5.1可以得出概念相似度矩阵，如下：

即

对特征词汇集合进行降维处理，有下式

sim(c_1i，c_1i+1)≥α

当特征词汇两两间相似度满足设定好的阈值α，则合并为一词，即相似度最大的两词汇之一，其权重值需重新分配，即为：

同理，即可得文本2中特征词汇集合的降维向量。

步骤:6：根据皮尔森相关系数求解待比较文本(W₁，W₂)间的文本相似度sim(W₁，W₂)。

根据步骤4计算得出的特征词汇权重值，相关领域专家选取前m位关键词，这里m<20，既分别有文本(W₁，W₂)对应的特征词向量。

文本W₁对应的特征词的平均权重函数为

同理，文本W₂对应特征词的平均权重函数为

根据皮尔森相关系数，即可得文本(W₁，W₂)间的文本相似度sim(W₁，W₂)，有下式：

改进的基于语义分析的文本相似度求解算法,其伪代码计算过程：

输入：待比较文本(W₁，W₂)。

输出：文本(W₁，W₂)间的相似度sim(W₁，W₂)。

Claims

1.改进的基于语义分析的文本相似度求解算法，本发明涉及语义网络技术领域，具体涉及一种改进的基于语义分析的文本相似度求解算法，其特征是，包括如下步骤：

步骤1：初始化文本语料库模块，对待比较文本的进行预处理，其具体处理过程如下：

综合分词和删除停用词技术,中文文本预处理过程流程图如图2

步骤1.1：利用停用表分别对文本进行去停用词处理

把待分词的汉字串完整的扫描一遍，在***的词典里进行查找匹配，遇到字典里有的词就标识出来；如果词典中不存在相关匹配，就简单地分割出单字作为词；直到汉字串为空

步骤1.3：依据概率统计学，将待分词句子拆分为网状结构，即得n个可能组合的句子结构，把此结构每条顺序节点依次规定为，其结构图如图3所示

根据《分词词典》匹配出的字典词与未匹配的单个词，第i条路径包含词的个数为，即n条路径词的个数集合为

得

在上述留下的剩下的(n-m)路径中，求解每条相邻路径的权重大小

在统计语料库中，计算每个词的信息量，再求解路径相邻词的共现信息量，既有下式：

上式为文本语料库中词的信息量，为含词的文本信息量

上式为在文本语料库中的概率，n为含词的文本语料库的个数

上式为含词的文本数概率值，N为统计语料库中文本总数

同理

为在文本语料库中词的共现信息量，为相邻词共现的文本信息量

同理

上式为在文本语料库中词的共现概率，m为在文本库中词共现的文本数量

为文本库中相邻词共现的文本数概率

综上可得每条相邻路径的权值为

有n条路径，每条路径长度不一样，假设路径长度集合为

假设经过取路径中词的数量最少操作，排除了m条路径，m<n，即剩下(n-m)路径，设其路径长度集合为

则每条路径权重为:

上式分别为第1,2到路径边的权重值，根据步骤1.4可以一一计算得出，为剩下(n-m)路径中第条路径的长度

权值最大的一条路径:

步骤2：基于信息论方法，计算词汇在文本中权重值，其具体计算过程如下：

基于信息论词频的计算公式有：

上式为词汇关于词频在文档中所具有的信息量，分别为词、在文本中的概率值

基于信息论文档频率的计算公式有：

为词汇关于文档频率在文档库中所具有的信息量，为分别含有、的文档数，N为文档库中文档的总个数

步骤4:综合考虑上述三因子，构造提取文本中的特征值目标函数，分别提取文本中的特征值

步骤5：利用词汇语义相似度对上述得到的特征词汇集合进行降维处理

步骤6：根据皮尔森相关系数求解待比较文本间的文本相似度，其具体计算过程如下：

根据步骤4计算得出的特征词汇权重值，相关领域专家选取前m位关键词，这里m<20，既分别有文本对应的特征词向量

文本对应的特征词的平均权重函数为：

同理，文本对应特征词的平均权重函数为：

根据皮尔森相关系数，即可得文本间的文本相似度，有下式：

。

2.根据权利要求1中所述的改进的基于语义分析的文本相似度求解算法，其特征是，以上所述步骤3中的具体计算过程如下：

步骤3：根据词汇位置信息和词性，计算词汇在文本中的权重值，其具体计算过程如下：

根据调研资料显示，特征词越在文本靠前位置，越能代表文本的中心思想，特征词在文本中出现的次数越多，越具有文本含义的代表性，通过步骤2得到词汇在文本的权重值，取前n个特征词汇，对这些词汇进行位置权重划分

在文本中每个特征词至少出现一次,文本特征词构成的位置向量，如下：

从词性的角度看，名词一般担当主语和宾语的角色，动词一般担当谓语的角色，形容词和副词一般担当定语的角色，词性的不同，造成了它们对文本或者句子的表示内容的能力的不一样，经过相关领域专家调查可得，名词、动词、形容词、副词等词性在文本中的权重系数

则综合考虑每个特征词位置与词性的权重函数为：

上式k为特征词出现在文本中的段落数，为含有特征词的第h段对文本思想的贡献值，为词性对文本思想的贡献值，、值由相应文本领域专家经过调研可以得出，为特征词在第h段出现的次数。

3.根据权利要求1中所述的改进的基于语义分析的文本相似度求解算法，其特征是，以上所述步骤4中的具体计算过程如下：

步骤4:综合考虑上述三因子，构造提取文本中的特征词目标函数，分别提取文本中的特征词，其具体计算过程如下：

提取文本中特征词汇的目标函数为：

。

4.根据权利要求1中所述的改进的基于语义分析的文本相似度求解算法，其特征是，以上所述步骤5中的具体计算过程如下：

步骤5：利用词汇语义相似度对上述得到的特征词汇集合进行降维处理，需先计算概念间的相似度，其具体计算过程如下：

利用《知网》数据库，假设特征词汇对应的概念集合分别为、，对此概念进行两两比较，找到相似度最大的两概念，即为特征词汇间的相似度

步骤5.1）基于信息论的方法计算概念间的相似度

基于信息内容的计算相似度方法主要是通过衡量概念所包含的信息量来计算相似度，概念是对其祖先节点的继承，是祖先节点的又一次细化，所以可通过祖先节点包含的信息量来衡量两个概念的共享信息

求解其共同父节点在树状层次结构中的信息量值

根据图2，得出两本体概念共同父节点在树状层次结构中每层出现的概率值

上式k为两本体概念共同父节点在树状层次结构中的层数

为两本体概念共同父节点在树状层次结构中的概率均值

分别求解两本体概念在树状层次结构中的信息量值、，其具体求解过程如下：

求解两本体概念的在树状层次结构中的信息量值、

同理，根据图2，得出两本体概念在树状层次结构中每层的概率值、

上式i为本体概念在树状层次结构中的层数，同理，j为本体概念在树状层次结构中的层数

上式、分别为两本体概念在树状层次结构中的概率均值

由此可得两本体概念的在树状层次结构中的信息量值、

基于信息量，可以得出两本体概念间的语义相似度，其具体计算过程如下：

两本体概念的共同父节点包含的信息量仅仅只能表示两概念包含的相同信息，根据经验可得两本体概念间的语义相似度

步骤5.2）根据步骤5.1可以得出概念相似度矩阵，如下：

即

对特征词汇集合进行降维处理，有下式

当特征词汇两两间相似度满足设定好的阈值，则合并为一词，即相似度最大的两词汇之一，其权重值需重新分配，即为：

同理，即可得文本2中特征词汇集合的降维向量。