CN103049569A

CN103049569A - 基于向量空间模型的文本相似性匹配方法

Info

Publication number: CN103049569A
Application number: CN2012105931481A
Authority: CN
Inventors: 江潮
Original assignee: WUHAN TRANSN INFORMATION TECHNOLOGY Co Ltd
Current assignee: WUHAN TRANSN INFORMATION TECHNOLOGY Co Ltd
Priority date: 2012-12-31
Filing date: 2012-12-31
Publication date: 2013-04-17

Abstract

本发明公开了一种基于向量空间模型的文本相似性匹配方法，包括：提取文本的关键词，对所有关键词进行聚类，生成关键词概念树；根据构建的待翻译文本中关键词的关键词概念树计算文本的相似性，按相似性的大小得到在翻译参考文献库中匹配的文本。本发明技术方案相对准确反映了文本之间的联系，这样可以更加充分地反映文本的相似度。

Description

基于向量空间模型的文本相似性匹配方法

技术领域

本发明涉及一种计算机技术，具体说，涉及一种基于向量空间模型的文本相似性匹配方法。

背景技术

现在一些常用的文本检索模型，包括基于文字的检索模型和基于结构的检索模型。基于文本的检索模型又包括：向量空间模型、近似模型、概率模型和统计语言检索模型；基于结构的文本检索模型又包括:内部结构检索模型、外部结构检索模型。

文本的相似度，即两篇文本之间相似程度的数值度量，取两篇文本D1、D2，若（D1∩D2）/（D1∪D2）越接近1表示两篇文本的相似度越高，反之相反。在文本检索技术中，相似度计算主要用于衡量文本对象之间的相似程度，在数据挖掘、自然语言处理中是一个基础性计算。其中的关键技术主要是两个部分，对象的特征表示和特征集合之间的相似关系。在信息检索、网页判重、推荐***等，都涉及到对象之间或者对象和对象集合的相似性的计算。针对不同的应用场景，受限于数据规模、时空开销等的限制，相似度计算方法的选择又会有所区别和不同。

通常使用的计算相似度的方法是VSM（向量空间模型）。这种模型通过对文本提取关键词，然后进行权值赋值，将文本表示成由权重不同的关键词构成的向量，通过计算两个文本的向量距离从而得到文本的相似度。

由于关键词很可能存在同义词、一词多义等现象，所以用传统的向量空间模型方法得到的相似度计算结果精度不高，结果往往并不令人满意；关键词加权算法仅仅是寻求文本和关键词之间的关系，不能横向地联系不同文本间关键词之间的关系，给文本检索带来了如下问题：

（1）关键词不能准确表达用户需求。

用户很难选择准确的关键词来进行搜索，因为其中涉及到查询和概念之间的语义映射问题。用户给出的查询关键词不能很好地反映用户的意图。

（2）关键词不能反映文本内容。

如果关键词外延太大，就很难或者无法检索到相关文本。

（3）一词多义现象。

由于关键词匹配技术很难解决一词多义现象，往往会检索出大量无关信息。

（4）关键词以同义方式在文中出现。

用户的查询关键词有时并不在文中直接出现，而是以同义词、近义词或者关键词的其他构词方式出现，这样，文本就不能检索到。当查询关键词与文本主题词构成概念上下位关系时，则更加难以检索到。

发明内容

本发明所解决的技术问题是提供一种基于向量空间模型的文本相似性匹配方法，相对准确反映了文本之间的联系，这样可以更加充分地反映文本的相似度。

技术方案如下：

一种基于向量空间模型的文本相似性匹配方法，包括：

提取文本的关键词，对所有关键词进行聚类，生成关键词概念树；

根据构建的待翻译文本中关键词的关键词概念树计算文本的相似性，按相似性的大小得到在翻译参考文献库中匹配的文本。

进一步，所述生成关键词概念树的步骤包括：

提取待分类文档和参考库中的所有关键词，得到关键词集合；

对关键词集合中的关键词进行聚类，把相同概念的关键词聚合为一个概念类集合，根据所述概念类集合生成所述关键词概念树。

进一步，若关键词k_i出现的概率p（k_i）>P1；且有，在出现k_i的该文本中也出现关键词k_j的条件概率p（k_j|k_i）>P2，则认为关键词k_j和k_i表达相同概念，P1和P2为设定概率阀值。

进一步，生成所述关键词概念树的过程具体步骤包括：

提取待分类文档和参考库中的所有关键词，得到关键词集合C={k1，k2，…，kn}，计算C中每个关键词k在参考库中出现的概率p（k），即出现关键词k的文本数和集合中文本总数之比；

根据设定阀值过滤关键词，取p_min<p（k）<p_max的关键词，将其作为待合并的集合项，设符合条件的关键词个数为m个，其中p_max和p_min为设定好的高低限阀值；

对过滤后得到的关键词按p（k）进行降序排序，并将每一个关键词作为一个集合，这样得到初始的m个待合并集合，记为{k₁}，{k₂}，….，{k_m}；

在这m个关键词中，计算在关键词k_i出现的文本中关键词k_j也出现的概率，记为p（k_j|k_i），共计

个条件概率，（1≤i，j≤m；i≠j）；p（k_j|k_i）=p（k_jk_i）/p（k_i），p（k_jk_i）为k_j和k_i同时出现在同一篇文本中的概率；

合并待合并集合，生成根节点为关键词集合C的关键词概念树。

进一步，对于待合并的两个关键词集合C1和C2，合并条件为：存在k_i属于C1，k_j属于C2，且p（k_i）>P1，p（k_j|k_i）>P2，当p（k_i）和p（k_j|k_i）大于所述设定阀值时，关键词k_i和k_j表达相同概念，满足其所在的集合的合并条件之一；在合并后的集合中任给一个关键词k_i，其与集合中一半以上关键词都满足条件p（k_j|k_i）>P2；若两个集合满足以上两个条件，则概念具有很大相似性，属于可合并的集合，合并后生成上一层概念类集合。

进一步，在参考库中查找匹配的文本的过程包括：提取参考库内所有文档的关键词，组成关键词集合；根据所述关键词概念树的结构，通过改进的文本相似度计算公式，计算待分类文本与参考库中每个文本的相似性，按照相似度降序返回结果文本。

进一步，在翻译参考文献库中查找匹配的文本的过程具体步骤包括：

定义H为生成的概念树的高度，定义depth（k）为节点k在树中的深度，即为从根节点到该节点所经历的边数；

定义com（k_i，k_j）为离节点k_i和k_j最近的共同父节点，任两个节点必有一个共同的父节点即根节点；

任两个关键词的积的计算公式：k_i×k_j=depth（com（k_i，k_j））/H；

设向量A={a₁，a₂，…，a_n}，B={b₁，b₂，…，b_n}，定义向量计算：

A * B = Σ_{i = 1}^{n} Σ_{j = 1}^{n} (a_{i} \times b_{j});

文本的相似度计算公式为：

Sim (d 1, d 2) = \frac{d 1 * d 2}{\sqrt{d 1 * d 1} \sqrt{d 2 * d 2}},

d1和d2表示文本向量。

与现有技术相比，技术效果包括：

现有技术中，在用向量空间模型方法对文本进行相似度计算时，若两个文本的向量表示为d1={k1，k2，k3}，d2={k4，k5，k6}，由于这两个文本向量垂直，所以其相似度为0。由于两个文本进行比较的关键词可能存在的同义关系、概念上下位关系等，只采用相同关键词进行匹配的计算方式不能有效地体现文本之间的关系。

因此，本发明中，通过对关键词进行概念聚类，将概念相似的关键词聚合在一起，通过一种改进的向量余弦计算法，互相垂直的向量的相似度就可能不为0，相对准确反映了文本之间的联系，较之传统的向量空间法，这样可以更加充分地反映文本的相似度。

附图说明

图1是本发明中构建的一个4层的概念树示意图；

具体实施方式

本发明主要涉及技术为文本检索技术中的文本相似度技术。文本检索是一项交叉学科，从大学科上来看，横跨了计算机、情报、数理统计等学科，从具体研究方向上来看，包含文本检索、自然语言处理、数据挖掘、机器学习等技术。

翻译参考文献库（简称参考库）是一个有海量文本的庞大的资源库，采用复杂的相似性检索的方法，对待翻译的文本在其中进行相似性检索，从而找到相似参考文本集合的操作，速度很慢，难以做到快速检索。然而采用相对简单的VSN向量空间法进行相似性检索，其精度非常低，本方法利用一种改进的VSM方法，在保持VSM方法检索速度的前提下可以较大的提高检索精度，得到一个相对精确的相似参考文档集合。

本发明中，给出一种基于向量空间模型的文本相似度计算方法。

步骤1：提取待分类文本的所有关键词，提取参考库内所有文档的关键词，组成关键词集合，对所有关键词进行聚类，生成关键词概念树；

本发明技术方案给出了一个合适的聚类算法，并对关键词概念树的生成进行了详细的描述。

步骤11：提取待分类文本和参考库中的所有关键词，得到关键词集合C={k1，k2，…，kn}；

步骤12：对关键词集合中的关键词进行聚类，把相同概念的关键词聚合为同一个概念集合；

如果两个关键词经常在一篇文本中同时出现，即它们同时出现在同一篇文本中的概率大于某一阀值的时候，我们认为其表达相同概念，属于可以合并的概念。即，若关键词k_i在文本集中出现的概率p（k_i）>P1；且有，在出现k_i的该文本中也出现关键词k_j的条件概率p（k_j|k_i）>P2，则认为关键词k_j、k_i表达相同概念，合并之（P1和P2为设定好的概率阀值)。

同理对于待合并的两个关键词集合C1、C2，若满足如下两个条件：

条件1：存在k_i属于C1，k_j属于C2，且p（k_i）>P1，p（k_j|k_i）>P2；

当p（k_i）和p（k_j|k_i）大于相应阀值时，我们认为关键词k_i和k_j表达相同概念，满足其所在的集合的合并条件之一。

条件2：在合并后的集合中任给一个关键词k_i，其与集合中一半以上关键词都满足以下条件：p（k_j|k_i）>P2。

如果同时满足条件1和条件2，则我们认为这两个集合的概念具有满足一定的相似性，属于可以合并的集合，合并后生成上一层概念类集合。

当剩余的任两个关键词集合合并时，都不满足上面的条件，合并终止，剩余的集合的父节点为由所有关键词构成的集合C。

关键词聚类的步骤如下：

步骤121：提取所有关键词，得到关键词集合C={k1，k2，…，kn}；

计算C中每个关键词k在出现的概率，即为出现关键词k的文本数和文本总数之比，记为p（k）。

步骤122：根据设定阀值过滤关键词；

取p_min<p（k）<p_max的关键词，将其作为待合并的集合项，设符合条件的关键词个数为m个（p_max、p_min为设定好的高低限阀值,用来去除极高频词和极低频词）。

步骤123：对过滤后得到的关键词按p（k）进行降序排序，并将每一个关键词作为一个集合，这样得到初始的m个待合并集合，记为{k₁}，{k₂}，…，{k_m}；

步骤124：在这m个关键词中，计算在关键词k_i出现的文本中，关键词k_j也出现的概率，记为p（k_j|k_i），共计个条件概率，（1≤i，j≤m；i≠j）；

p（k_j|k_i）的计算方法：p（k_j|k_i）=p（k_jk_i）/p（k_i），p（k_j k_i）为k_j、k_i同时出现在同一篇文本中的概率。

步骤125：合并集合I和J，（I，J为待合并集合）；

当同时满足以下两个条件时合并：

i.满足p（k_i）>P1，p（k_j|k_i）>P2；

ii.

满足|{k_j∈I UJ|p（k_j|k_i）>P2}|>（|I|+|J|）/2，|X|表示集合X中元素的个数。

步骤126：当任两个集合都不符合这两个条件的时合并结束。同时得到第一层聚类关键词集合C={C1，C2，…，Cq}；

步骤127：对C={C1，C2，…，Cq}，取阈值P3<P2，用上述步骤11至17再次进行聚类（步骤125和126），生成上一层概念集合。

重复此过程，直到聚类集合无法再聚类为止，这些无法再聚类的概念集合为根节点C的子节点，这样就生成一颗根节点为关键词集合C的关键词概念树。

如图1所示，是本发明中构建的一个4层的概念树示意图。

步骤2：根据构建的待翻译文本中关键词的关键词概念树，在翻译参考文献库中查找匹配的文本。

本发明定义了一种基于关键词概念树的向量余弦的计算方法，即一种新的文本相似度计算的方法。

步骤21：根据关键词概念树的结构，采用改进的方法计算不同关键词的相似度；

步骤22：采用改进的余弦相似性方法，计算待译文本和参考译文库中文本的相似度；

在VSM向量空间模型中，任意两个关键词k_i、k_j是完全垂直的，其积为0。而在本发明的概念树中，任意两个概念k_i、k_j并不一定是垂直的，而是由它们共同的父节点离根节点的距离决定。例如在图1中k₁、k₂共同的最近父节点为C11，其离根节点的距离为2，树的高度为3，所以k₁×k₂=2/3。

1.定义H为生成的概念树的高度。

2.定义depth（k）为节点k在树中的深度，即为从根节点到该节点所经历的边数；

3.定义com（k_i，k_j）为离节点k_i和k_j最近的共同父节点，任两个节点必有一个共同的父节点即根节点；

4.任两个关键词的积的计算公式：k_i×k_j=depth（com（k_i，k_j））/H；

5.设向量A={a₁，a₂，…，a_n}，B={b₁，b₂，…，b_n}，定义向量计算：

A * B = Σ_{i = 1}^{n} Σ_{j = 1}^{n} (a_{i} \times b_{j});

6.文本的相似度计算公式为：

Sim (d 1, d 2) = \frac{d 1 * d 2}{\sqrt{d 1 * d 1} \sqrt{d 2 * d 2}},

d1和d2表示文本向量。

步骤23：按照相似度降序返回结果文本。

下面按照本发明技术方案，对具体应用进行说明。

应用一：采用译员成果文档内容相似性匹配的方法优化译员检索

每个译员都有很多自己翻译过的文档，这些翻译过的文档构成了该译员的文档库，众多译员的文档库构成一个庞大的“译员成果文档库”；当一篇待翻译的文档要寻找合适的译员进行翻译，可以将此文档在“译员成果文档库”中进行相似性匹配，从库中匹配出相似度高的文档，这些相似度高的文档对应的译员，就是合适的译员，按照相似度排序就是译员合适度的排序。由于译员曾经翻译过类似的文档，翻译起来就可以做到又快又好。

应用二：采用分类文档库相似性匹配实现文档自动化分类

建立一个按照既定分类标准分类的标准文档库，其中每个分类都有一定数量的样例文档，用尚未分类的文档，通过相似性匹配，匹配出在分类文档库中的相似度超过预定值的所有文档，将这些相似文档的分类情况进行汇总统计和带入计算模型进行加权计算，计算出该文档的分类情况得分，得分最高的分类就是该文档最可能的分类。得分第二的分类得分如果与第一的得分相差不多，可以作为辅助分类。

应用三：采用学科领域划分与相似性检索结合的稿件碎片化策略

在进行大的文档翻译任务时，将大的翻译稿件打碎成多个较小的翻译碎片稿件，是促进分工提高翻译效率的常用方法，但是如何将稿件“打碎”的策略就成为关键环节。这里采用的方法是将稿件的内容不按照单纯的段落章节来进行打碎，而是根据关键词判断段落内容的学科领域，按照学科领域对稿件的内容进行初步的划分，然后再用划分的碎片稿件在历史成果文档库中进行相似性检索，得出这些碎片稿件适合的译员，再按照译员来进行碎片的整合：将适合于同一个或者同一类译员翻译的碎片稿件进行合并或者部分合并，这样最终得到稿件碎片化的结果就是理想的，非常便于安排任务和有利于保障翻译质量。

Claims

1.一种基于向量空间模型的文本相似性匹配方法，包括：

2.如权利要求1所述的基于向量空间模型的文本相似性匹配方法，其特征在于，所述生成关键词概念树的步骤包括：

3.如权利要求2所述的基于向量空间模型的文本相似性匹配方法，其特征在于，若关键词k_i出现的概率p（k_i）>P1；且有，在出现k_i的该文本中也出现关键词k_j的条件概率p（k_j|k_i）>P2，则认为关键词k_j和k_i表达相同概念，P1和P2为设定概率阀值。

4.如权利要求3所述的基于向量空间模型的文本相似性匹配方法，其特征在于，生成所述关键词概念树的过程具体步骤包括：

提取待分类文档和参考库中的所有关键词，得到关键词集合C={k1，k2，…，kn}，计算C中每个关键词k在出现的概率，出现关键词k的文本数和文本总数之比记为p（k）；

对过滤后得到的关键词按p（k）进行降序排序，并将每一个关键词作为一个集合，这样得到初始的m个待合并集合，记为{k₁}，{k₂}，…，{k_m}；

在这m个关键词中，计算在关键词k_i出现的文本中关键词k_j出现的概率，记为p（k_j|k_i），共计

5.如权利要求4所述的基于向量空间模型的文本相似性匹配方法，其特征在于，对于待合并的两个关键词集合C1和C2，合并条件为：存在k_i属于C1，k_j属于C2，且p（k_i）>P1，p（k_j|k_i）>P2，当p（k_i）和p（k_j|k_i）大于所述设定阀值时，关键词k_i和k_j表达相同概念，满足其所在的集合的合并条件之一；在合并后的集合中任给一个关键词k_i，其与集合中一半以上关键词都满足条件p（k_j|k_i）>P2；若两个集合满足以上两个条件，则概念具有很大相似性，属于可合并的集合，合并后生成上一层概念类集合。

6.如权利要求1所述的基于向量空间模型的文本相似性匹配方法，其特征在于，在翻译参考文献库中查找匹配的文本的过程包括：提取翻译参考文献库内所有文档的关键词，组成关键词集合；根据所述关键词概念树的结构，通过改进的文本相似度计算公式，计算待分类文本与参考库合中每个文本的相似性，按照相似度降序返回结果文本。

7.如权利要求6所述的基于向量空间模型的文本相似性匹配方法，其特征在于，在翻译参考文献库中查找匹配的文本的过程具体步骤包括：

A * B = Σ_{i = 1}^{n} Σ_{j = 1}^{n} (a_{i} \times b_{j});

文本的相似度计算公式为：

Sim (d 1, d 2) = \frac{d 1 * d 2}{\sqrt{d 1 * d 1} \sqrt{d 2 * d 2}},

d1和d2表示文本向量。