CN108549634A

CN108549634A - 一种中文专利文本相似度计算方法

Info

Publication number: CN108549634A
Application number: CN201810310198.1A
Authority: CN
Inventors: 吕学强; 董志安
Original assignee: Beijing Information Science and Technology University
Current assignee: Beijing Information Science and Technology University
Priority date: 2018-04-09
Filing date: 2018-04-09
Publication date: 2018-09-18

Abstract

本发明涉及一种中文专利文本相似度计算方法，包括：对文本进行分词；对分词结果计算TF‑IDF值，抽取TF‑IDF值较高的作为关键词，定位关键词所在的句子作为关键句，并将关键句中关键词最大的权值作为关键句的权值，得到每个文本的关键句集合；计算每个关键句的对文本的权重，依次选取待对比文本和对比文本的关键句，基于关键句的句子相似度计算文本的相似度。本发明利用已有的专利领域本体，分析专利文本中的语义关系，利用向量空间模型和领域本体来进行专利文本相似度的计算，计算结果的正确率和召回率较高，能够更准确地描述专利之间的相似程度，能够加快专利审查的速度，可以很好地满足实际应用的需要。

Description

一种中文专利文本相似度计算方法

技术领域

本发明属于文本信息处理技术领域，具体涉及一种中文专利文本相似度计算方法。

背景技术

当今互联网时代，专利作为记录人类成果的载体，包含了大量的科技成果和创新技术。科学技术的快速发展使得每年的专利申请量急剧增加。传统的检索方式通过检索词进行匹配返回的结果，一般是以检索词出现的数量作为专利的相关性，并没有考虑到专利本身所包含的语义信息。专利审查的本质是审查专利相似度高的相关专利，这其中，最重要的一点就是计算专利文本相似度。文本相似度，一般计算方法是利用向量空间模型对文本表示，之后直接在向量空间中计算向量相似度作为文本相似度。近些年，本体，作为一种新的知识表示和描述形式，被广泛应用到语义网、信息检索等各方面，越来越多的研究者开始重视使用本体来进行语义分析。

文本相似度方法主要可以分为两类：一种是利用向量空间模型将文本转化成向量的形式，再进行计算，一种是利用语义词典法表示不同长短文本之间的联系，通过关键词匹配数量来反映文本间的相似度。现有技术的计算中文专利文本的相似度的方法存在语义信息丢失的问题，且现有技术对中文文本相似度的计算不准确，计算结果的正确率和召回率较低，不能准确反映专利文本的相似度，不能满足实际应用的需要。

发明内容

针对上述现有技术中存在的问题，本发明的目的在于提供一种可避免出现上述技术缺陷的中文专利文本相似度计算方法。

为了实现上述发明目的，本发明提供的技术方案如下：

一种中文专利文本相似度计算方法，包括计算句子相似度的步骤。

进一步地，所述计算方法包括：

对文本进行分词；对分词结果计算TF-IDF值，抽取TF-IDF值较高的作为关键词，定位关键词所在的句子作为关键句，并将关键句中关键词最大的权值作为关键句的权值，得到每个文本的关键句集合；计算每个关键句的对文本的权重，依次选取待对比文本和对比文本的关键句。

进一步地，将词语相似度转化为概念在本体中的相似度来计算；概念在本体中的相似度计算公式为：

其中w₁和w₂表示两个词语，dis(w₁，w₂)表示w₁和w₂在领域本体中的语义距离。

进一步地，加入最小公共父节点位置和节点局部密度，概念在本体中的相似度计算公式为：

其中r表示树的根节点，com表示w₁和w₂的最小公共父节点，dis(r，com)表示最小公共父节点的深度，num(w₁)表示w₁节点的兄弟节点个数。

进一步地，基于word2vec计算词语相似度，CBOW模型的输入层为当前词的前后n个词向量，通过中间的隐层对这2n个词向量进行累加得到W_x；输出层为一个Huffman树，是由语料库中的词作为叶子节点，各词的频次作为权值来构建的；通过随机梯度算法对W_x进行预测，使得p(w|context(w))值最大化， context(w)指w的前后的n个词；通过word2vec对语料进行训练，得到所有词的词向量；计算词语之间的相似度就转化为计算词语对应词向量的相似度，计算公式为：

其中w₁和w₂分别为两个词语经过训练后得到的词向量；x_1i和x_2i分别表示两个词语的词向量对应的在向量空间中第i维的值。

进一步地，利用本体和word2vec分别计算出两种词语相似度sim_ow(w₁，w₂)和 sim_rw(w₁，w₂)，结合得到词语相似度，公式为：

其中S表示本体中的概念集合，如果两个词语中有一个不属于本体概念集合，则将利用word2vec得到的相似度作为词语相似度，若两者均属于本体概念集合，则取本体词语相似度和word2vec词语相似度平均值作为最终的词语相似度。

进一步地，句子相似度计算方法如下：

假设有两个句子分别为S₁＝(w₁₁，w₁₂，...，w_1n)和S₂＝(w₂₁，w₂₂，...，w_2m)，其中w₁₁，w₁₂，w₂₁，w₂₂为句子经过分词并去停用词后得到的实词，定义(w_1i，w_2j)为句子S₁和S₂词的一个映射，如果对于任意k、l，sim_w(w_1i，w_2j)＞sim_w(w_1k，w_2l)恒成立，那么就认为在两个句子中w_1i和w_2j是语义关系最为相近的词对，得到一组语义关系最为相近的词对后，分别从两个句子中去除该词，并重新计算，直到其中一个句子词表中不存在词语，其计算公式为：

sim_ws(S₁，S₂)表示S₂相对于S₁所得的实体词相似度。

进一步地，利用专利领域本体的非分类关系为基础计算句子中的关系相似度，步骤如下：

对两个句子进行词性标注，利用停用词表去除停用词，去除其他词性，仅保留动词词性、名词词性的词语，得到两个句子的有序词表，定义第一个句子的有序词表为S₁(w₁₁：pos₁₁，w₁₂：pos₁₂，...，w_1n：pos_1n)，将另一个句子的有序词表定义为S₂(w₂₁：pos₂₁，w₂₂：pos₂₂，...，w_2m：pos_2m)；对每一个句子的词表，选取其中的动词和在其前后的名词构成SAO结构词组P(n₁，v，n₂)；将每个句子的有序词表转化为词组集合S₁＝(P₁₁，P₁₂，...，P_1n)和S₂＝(P₂₁，P₂₂，...，P_2m)，得到非分类关系集合，假设已有的非分类关系集合为NR(r₁，r₂，...，r_l)，r_l为非分类集合中的一个具有SAO结构的词组；通过计算两个句子词组集合在非分类关系集合NR中出现的次数计算句子的非分类关系相似度，其计算公式为：

其中，num(S₁)表示S₁集合中的词组属于非分类关系集合NR的个数， com(S₁，S₂)表示句子词组集合S₁和S₂的交集，表示S₁和S₂的共有词组集合。

句子之间总体相似度的计算公式为

sim_s(S₁，S₂)＝βsim_ws(S₁，S₂)+(1-β)sim_ps(S₁，S₂)，

其中β表示实体词相似度在句子相似度中所占的比重，sim_s(S₁，S₂)表示S₂相对于S₁的句子相似度。

进一步地，在已有的词语相似度和句子相似度的基础上计算文本相似度，步骤为：

首先对文本进行分词，之后对分词结果计算TF-IDF值，抽取TF-IDF值较高的作为关键词，定位关键词所在的句子作为关键句；计算每个关键句的对文本的权重；选取关键句所包含的关键词集合中TF-IDF值最大的关键词，并将该词的权值作为关键句的权重w(S)，最后得到两个文本的句子集合，令

D₁(S₁₁：w(S₁₁)，S₁₂：w(S₁₂)，...，S_1n：w(S_1n))表示文本D₁的句子集合， D₂(S₂₁：w(S₂₁)，S₂₂：w(S₂₂)，...，S_2m：w(S_2m))表示D₂的句子集合；

定义(S_1i，S_2j)为两个文本中的一组句子对应，若对于任意的l、k， sim_s(S_1i，S_2j)≥sim_s(S_1l，S_2k)恒成立，则认为S_1i和S_2j是两个文本中关系最为紧密的句子，其中sim_s(S_1i，S_2j)通过句子相似度进行计算得出。

进一步地，两个文本D₁和D₂的相似度计算公式为：

其中，sim_s(S_1i，S_1j)代表句子词组集合S_1i与句子词组集合S_1j之间的总体相似度，w(S_1i)代表句子词组集合S_1i的关键句的权重，w(S_1j)代表句子词组集合 S_1j的关键句的权重。

本发明提供的中文专利文本相似度计算方法，提出了一种层次化计算文本相似度的方法，将文本相似度的计算分为词语、句子、文本三个层面，从下向上进行计算，该方法以句子为粒度对文本相似度进行计算，利用已有领域本体和word2vec结合计算词语相似度，并在计算句子相似度时加入了根据非分类关系得到的关系相似度，最后根据不同句子的权重来计算文本相似度；本发明利用已有的专利领域本体，分析专利文本中的语义关系，利用向量空间模型和领域本体来进行专利文本相似度的计算，计算结果准确，计算结果的正确率和召回率较高，能够更准确地描述专利之间的相似程度，能够加快专利审查的速度，同时对用户来说也能够更加有效地对专利资源进行分析，可以很好地满足实际应用的需要。

附图说明

图1为CBOW模型图；

图2为Skip-gram模型图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，下面结合附图和具体实施例对本发明做进一步说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

词语相似度是指词语之间语义相似性的一种度量。词语在领域本体中以概念的方式呈现出来，词语的相似度计算就可以转化为概念在本体中的相似度计算。采用已有的领域本体，为了避免领域本体中不包含的词语无法计算相似度的问题，引入word2vec与本体相结合计算词语的相似度。

(1)基于本体计算词语相似度

领域本体中包含的概念通过上下位的分类关系构成了一个树状的层次结构，概念间的相似度可以通过计算概念在本体树中的语义距离得到。寻找两个概念的最小公共父节点，计算其最小公共父节点到两个概念之间的距离之和作为概念在本体中的语义距离。

相似度计算公式为：

词语间的相似度，不仅仅与概念间语义距离有关，还与其最小公共父节点在领域本体构建的树中的位置和概念周围兄弟节点个数有关。在概念间语义距离相同的情况下，其最小公共父节点在树中的层次越深，词语的相似度就越大。同样地，词语对应的概念周围的兄弟节点越多，局部密度越大，那么说明该概念节点细化程度越大，词语的相似度就越大。加入最小公共父节点位置和节点局部密度后计算公式如下：

(2)基于word2vec计算词语相似度

word2vec是Google的一款能够将词语转化为实数值向量的开源工具，其利用深度学习的思想，可以通过训练，把词语简化为K维向量空间中的一个向量，这样词语语义上的相似度就可以转化为词向量的运算。

word2vec使用的是Hinton在1986年提出的Distributed representation的词向量表示方式，其基本思想是利用训练模型将词语映射到一个K维的向量空间，每个词语都可以由一个K维的向量表示。K是超参数，需要提前指定。将词语转化为向量表示后，就可以利用计算向量间的距离来表示词语之间的语义相似度。word2vec有CBOW模型(ContinuousBag-of-Words Model)和Skip-gram 模型，两种模型结构如图1和图2所示。其中CBOW模型利用当前词的上下文中的2n个词(图1中n为2)去预测当前词，Skip-gram模型则是利用当前词预测其上下文中的2n个词(图2中n为2)。

CBOW模型的输入层为当前词的前后n个词向量，通过中间的隐层对这2n 个词向量进行累加得到W_x。输出层为一个Huffman树，是由语料库中的词作为叶子节点，各词的频次作为权值来构建的。通过随机梯度算法对W_x进行预测，使得p(w|context(w))值最大化，context(w)指w的前后的n个词。当训练完成时，便可以得到所有的词的词向量w。Skip-gram模型的训练过程与CBOW模型训练过程类似。

通过word2vec对语料进行训练，得到所有词的词向量。计算词语之间的相似度就转化为计算词语对应词向量的相似度。一般对于空间向量相似度的计算可以采用余弦相似度算法，具体算法如下：

其中w₁和w₂分别为两个词语经过训练后得到的词向量。x_1i和x_2i分别表示两个词语的词向量对应的在向量空间中第i维的值。

(3)词语相似度

利用本体和word2vec分别计算出两种词语相似度sim_ow(w₁，w₂)和 sim_rw(w₁，w₂)，结合得到词语相似度，公式如下：

句子相似度计算，一般以文本中有意义的实词为主，通过计算实词间的词语相似度得到句子相似度。在本发明中以公式(4)描述的词语相似度与专利领域本体的非分类关系为基础来计算句子相似度。

假设有两个句子分别为S₁＝(w₁₁，w₁₂，...，w_1n)和S₂＝(w₂₁，w₂₂，...，w_2m)。其中w₁₁，w₁₂，w₂₁，w₂₂为句子经过分词并去停用词后得到的实词。定义(w_1i，w_2j)为句子S₁和S₂词的一个映射，如果对于任意k、l，sim_w(w_1i，w_2j)＞sim_w(w_1k，w_2l)恒成立， sim_w(w_1i，w_2j)由公式(4)计算得到。那么就认为在两个句子中w_1i和w_2j是语义关系最为相近的词对，得到一组语义关系最为相近的词对后，分别从两个句子中去除该词，并重新计算，直到其中一个句子词表中不存在词语，其计算公式如下：

由于句子的长短不同，两个句子共有的相近词对组对于每个句子的相似度是不同的，本发明以sim_ws(S₁，S₂)表示S₂相对于S₁所得的实体词相似度。

上式只关注了两个句子中最为相近的实体词的相似度，但并没有考虑句子中语义相近的词组的相似度。利用专利领域本体的非分类关系为基础，计算句子中的关系相似度。

对两个句子进行词性标注，利用停用词表去除停用词，去除其他词性，仅保留动词词性，名词词性的词语。得到两个句子的有序词表，定义第一个句子的有序词表为S₁(w₁₁：pos₁₁，w₁₂：pos₁₂，...，w_1n：pos_1n)，同样地，将另一个句子的有序词表定义为S₂(w₂₁：pos₂₁，w₂₂：pos₂₂，...，w_2m：pos_2m)。对每一个句子的词表，选取其中的动词和在其前后的名词构成SAO结构词组 P(n₁，v，n₂)。将每个句子的有序词表转化为词组集合S₁＝(P₁₁，P₁₂，...，P_1n)和 S₂＝(P₂₁，P₂₂，...，P_2m)。得到非分类关系集合，假设已有的非分类关系集合为 NR(r₁，r₂，...，r_l)，r_l为非分类集合中的一个具有SAO结构的词组。通过计算两个句子词组集合在非分类关系集合NR中出现的次数计算句子的非分类关系相似度。其计算公式如下：

根据公式(5)得到的实体词相似度和公式(6)得到的非分类关系相似度，得到句子之间总体相似度，计算方法如公式(7)所示。

sim_s(S₁，S₂)＝βsim_ws(S₁，S₂)+(1-β)sim_ps(S₁，S₂) (7)，

在已有的词语相似度和句子相似度的基础上计算文本相似度。对于文本来说，并不是所有的词语和句子都与文本表达的主要含义相关，关键词和关键词所在的关键句子更能够表达文本的含义，其他的主要起到连接的功能。在计算文本相似度的过程中，通过计算关键词和关键句的相似度得到的结果，与两个文档本身表达的含义有极其密切的联系，能够更加准确地表示文本间的相似性。

选取文本中的关键词时，需要计算文本中每一个词对与文本的重要程度，一般采用词频-逆文档频率(Term frequency-Inverse document frequency)，即 TF-IDF计算方法，该方法计算相对较为简单且有较高的正确率和召回率，在计算权重中被广泛使用。在一个文本中某个词语出现的频率越高，该词在其他文本中出现的频率越低，那么该词就越能代表这个文本中的主题，对这个文本的重要程度就越高。

计算文本相似度时，首先对文本进行分词，之后对分词结果计算TF-IDF值，抽取TF-IDF值较高的作为关键词，定位关键词所在的句子作为关键句。不同的关键句包含不同的关键词，由于包含关键词的数量和权重本身的不同，每个关键句对文本的重要程度也不一样，需要计算每个关键句的对文本的权重。每个关键句对于文本的重要程度主要依赖于其包含的关键词，选取关键句所包含的关键词集合中TF-IDF值最大的关键词，并将该词的权值作为关键句的权重 w(S)。最后得到两个文本的句子集合，令

D₁(S₁₁：w(S₁₁)，S₁₂：w(S₁₂)，...，S_1n：w(S_1n))表示文本D₁的句子集合，D₂(S₂₁：w(S₂₁)，S₂₂：w(S₂₂)，...，S_2m：w(S_2m))表示D₂的句子集合。

与句子相似度计算相似，由于两个文本的句子数目不同，计算两个文本中相似度最相近的句子对集合对于不同的文本所得到的相似度是不同的，以 sim(D₁，D₂)表示以D₁为基准，D₂相对于D₁的文本相似度。

两个文本的相似度计算公式如下所示：

上式不仅涉及两个文本中所有的关键句，还考虑了关键句对于整个文档的一个重要程度，能够很好地反映文本之间的相似度。

本实施例采用已有的新能源汽车领域本体，采用的语料是新能源汽车领域中文专利同一类别下的50篇专利文本。

选取其中一篇专利作为待对比文本N，其他所有专利作为对比文本D，利用本发明的中文专利文本相似度计算方法，计算中文专利文本相似度，具体步骤如下：

1)对所有专利文本进行分句处理；

2)通过Hanlp工具，加入新能源领域汽车领域词典，对分句后的结果进行分词，并保留每个词语的词性，利用停用词表去除停用词；

3)计算所有专利文本的TF-IDF值并将其由大到小排列，取排前20名的词语作为关键词，并根据关键词，标记关键词所在的关键句，并将关键句中关键词最大的权值作为关键句的权值，得到每个文本的关键句集合 D(S₁：w(S₁)，S₂：w(S₂)，...，S_n：w(S_n))；

4)依次选取待对比文本N和对比文本D的关键句，并依照句子相似度算法和词语相似度算法计算实体词相似度和关系相似度；

5)利用已有的两个文本N和D的句子相似度计算两个文本的相似度。

对于文本相似度计算方法的性能评价一般采用正确率(P)、召回率(R)和F值作为性能评价指标。定义T(t)表示标注值为t的数量，C(t)表示计算的文本相似度的值在t所表示的范围的数量，TC(t)表示标注值为t且计算值在t表示范围内的数量。具体的评价指标定义如下：

正确率P：

召回率R：

F值：

通过本发明的方法得到的中文专利文本相似度计算结果的正确率、召回率和F值都很高，远高于现有技术的计算结果的正确率、召回率和F值。

本发明提供的中文专利文本相似度计算方法，提出了一种层次化计算文本相似度的方法，将文本相似度的计算分为词语、句子、文本三个层面，从下向上进行计算，该方法以句子为粒度对文本相似度进行计算，利用已有领域本体和word2vec结合计算词语相似度，并在计算句子相似度时加入了根据非分类关系得到的关系相似度，最后根据不同句子的权重来计算文本相似度；本发明利用已有的专利领域本体，分析专利文本中的语义关系，利用向量空间模型和领域本体来进行专利文本相似度的计算，计算结果准确，计算结果的正确率和召回率较高，使得文本间相关性的描述更加准确，能够更准确地描述专利之间的相似程度，能够加快专利审查的速度，同时对用户来说也能够更加有效地对专利资源进行分析，可以很好地满足实际应用的需要。

以上所述实施例仅表达了本发明的实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种中文专利文本相似度计算方法，其特征在于，包括计算句子相似度的步骤。

2.根据权利要求1所述的中文专利文本相似度计算方法，其特征在于，所述计算方法包括：

3.根据权利要求1-2所述的中文专利文本相似度计算方法，其特征在于，将词语相似度转化为概念在本体中的相似度来计算；概念在本体中的相似度计算公式为：

4.根据权利要求1-3所述的中文专利文本相似度计算方法，其特征在于，加入最小公共父节点位置和节点局部密度，概念在本体中的相似度计算公式为：

5.根据权利要求1-4所述的中文专利文本相似度计算方法，其特征在于，基于word2vec计算词语相似度，CBOW模型的输入层为当前词的前后n个词向量，通过中间的隐层对这2n个词向量进行累加得到W_x；输出层为一个Huffman树，是由语料库中的词作为叶子节点，各词的频次作为权值来构建的；通过随机梯度算法对W_x进行预测，使得p(w|context(w))值最大化，context(w)指w的前后的n个词；通过word2vec对语料进行训练，得到所有词的词向量；计算词语之间的相似度就转化为计算词语对应词向量的相似度，计算公式为：

6.根据权利要求1-5所述的中文专利文本相似度计算方法，其特征在于，利用本体和word2vec分别计算出两种词语相似度sim_ow(w₁，w₂)和sim_rw(w₁，w₂)，结合得到词语相似度，公式为：

7.根据权利要求1-6所述的中文专利文本相似度计算方法，其特征在于，句子相似度计算方法如下：

sim_ws(S₁，S₂)表示S₂相对于S₁所得的实体词相似度。

8.根据权利要求1-7所述的中文专利文本相似度计算方法，其特征在于，利用专利领域本体的非分类关系为基础计算句子中的关系相似度，步骤如下：

其中，num(S₁)表示S₁集合中的词组属于非分类关系集合NR的个数，com(S₁，S₂)表示句子词组集合S₁和S₂的交集，表示S₁和S₂的共有词组集合。

句子之间总体相似度的计算公式为

sim_s(S₁，S₂)＝βsim_ws(S₁，S₂)+(1-β)sim_ps(S₁，S₂)，

9.根据权利要求1-8所述的中文专利文本相似度计算方法，其特征在于，在已有的词语相似度和句子相似度的基础上计算文本相似度，步骤为：

D₁(S₁₁：w(S₁₁)，S₁₂：w(S₁₂)，...，S_1n：w(S_1n))表示文本D₁的句子集合，D₂(S₂₁：w(S₂₁)，S₂₂：w(S₂₂)，...，S_2m：w(S_2m))表示D₂的句子集合；

定义(S_1i，S_2j)为两个文本中的一组句子对应，若对于任意的l、k，sim_s(S_1i，S_2j)≥sim_s(S_1l，S_2k)恒成立，则认为S_1i和S_2j是两个文本中关系最为紧密的句子，其中sim_s(S_1i，S_2j)通过句子相似度进行计算得出。

10.根据权利要求1-9所述的中文专利文本相似度计算方法，其特征在于，两个文本D₁和D₂的相似度计算公式为：

其中，sim_s(S_1i，S_1j)代表句子词组集合S_1i与句子词组集合S_1j之间的总体相似度，w(S_1i)代表句子词组集合S_1i的关键句的权重，w(S_1j)代表句子词组集合S_1j的关键句的权重。