CN106650803A

CN106650803A - 一种计算字符串间相似度的方法及装置

Info

Publication number: CN106650803A
Application number: CN201611130125.1A
Authority: CN
Inventors: 韦强申; 刘鹏
Original assignee: Beijing Ruian Technology Co Ltd
Current assignee: Beijing Ruian Technology Co Ltd
Priority date: 2016-12-09
Filing date: 2016-12-09
Publication date: 2017-05-10
Anticipated expiration: 2036-12-09
Also published as: CN106650803B

Abstract

本发明实施例公开了一种计算字符串间相似度的方法及装置。该方法包括：获取至少两个字符串的核心词汇的权重；获取所述至少两个字符串的最大公共序列，并根据所述最大公共序列的长度和词汇确定所述最大公共序列的权重；根据预设常用词汇的权重表获取所述至少两个字符串中的常用词汇的权重；根据所述核心词汇的权重、所述最大公共序列的权重和所述常用词汇的权重获取所述至少两个字符串的相似度。本发明加入了句子结构的分析，还加入了词汇权重信息，作为字符串相似度计算的调和值，由于分词工具的准确率，分词结果会产生一些误差，句子结构分析也会有一定的误差，经过词频权重调和后，计算结果更加准确。

Description

一种计算字符串间相似度的方法及装置

技术领域

本发明实施例涉及计算机的技术领域，尤其涉及一种计算字符串间相似度的方法及装置。

背景技术

对于中文字符串相似度的计算方法，一般采用英文的字符串相似度计算方法，就是计算两个字符串中相同字符的个数。采用的方法有：Levenshtein方法即编辑距离计算方法、Jaccard系数计算方法、余弦相似度计算方法、以及Ngram计算方法。

编辑距离计算方法，是计算两个字符串之间通过将一个字符替换成另一个字符，***一个字符，删除一个字符的编辑操作，所需最小的编辑次数，衡量两个字符串的相似度。编辑距离计算方法的缺点是：不同的语法表示形式，对编辑距离的计算影响较大，计算两个字符串相似度误差较大。

Jaccard系数计算方法，是首先对两个字符串依据一定的规则拆分为多个子串，计算多个子串的交集与并集的比值，衡量两个字符串的相似度。Jaccard系数计算方法的缺点是：因字符串的切分方法不同，计算字符串的相似度误差较大。

余弦相似度计算方法，首先对两个字符串依据一定的规则拆分为多个子串，形成一个子串集合，再依据子串集合将两个句子转化为向量，计算两个向量间的余弦值，衡量两个字符串的相似度。余弦相似度计算方法的缺点是：因字符串的切分方法不同，计算字符串的相似度误差较大。

Ngram计算方法，是将两个字符串拆分为N元组，计算两个字符串中相同的N元组，衡量两个字符串的相似度。Ngram计算方法的缺点是：元组的先后顺序会影响相似度的计算，计算字符串相似度误差较大。

发明内容

本发明实施例的目的在于提出一种计算字符串间相似度的方法及装置，旨在解决如何提高中文字符串相似度计算的准确率。

为达此目的，本发明实施例采用以下技术方案：

第一方面，一种计算字符串间相似度的方法，所述方法包括：

获取至少两个字符串的核心词汇的权重；

获取所述至少两个字符串的最大公共序列，并根据所述最大公共序列的长度和词汇确定所述最大公共序列的权重；

根据预设常用词汇的权重表获取所述至少两个字符串中的常用词汇的权重；

根据所述核心词汇的权重、所述最大公共序列的权重和所述常用词汇的权重获取所述至少两个字符串的相似度。

优选地，所述获取至少两个字符串的核心词汇的权重，包括：

根据分词结果的词性以及词汇间的语义关系，获取至少两个字符串的词汇序列中的核心词汇，所述核心词汇包括主语人名、机构名、名词宾语、动词和地名；

根据预设核心词汇权重表获取所述核心词汇的权重。

优选地，所述获取所述至少两个字符串的最大公共序列，包括：

获取所述至少两个字符串的分词结果序列，去除所述分词结果序列中的标点符号，合并所述分词结果序列中相同的子序列，得到所述至少两个字符串的最大公共序列。

优选地，所述根据预设常用词汇的权重表获取所述至少两个字符串中的常用词汇的权重，包括：

根据常用词汇TF-IDF权重表获取所述至少两个字符串中的常用词汇的权重。

优选地，所述根据所述核心词汇的权重、所述最大公共序列的权重和所述常用词汇的权重获取所述至少两个字符串的相似度，包括：

所述至少两个字符串的相似度为

其中，所述w1为所述核心词汇权重，所述w2为所述最大公共序列的权重，所述w3为常用词汇的权重，所述L为所述至少两个字符串的最大长度。

第二方面，一种计算字符串间相似度的装置，所述装置包括：

第一获取模块，用于获取至少两个字符串的核心词汇的权重；

第二获取模块，用于获取所述至少两个字符串的最大公共序列，并根据所述最大公共序列的长度和词汇确定所述最大公共序列的权重；

第三获取模块，用于根据预设常用词汇的权重表获取所述至少两个字符串中的常用词汇的权重；

第四获取模块，用于根据所述核心词汇的权重、所述最大公共序列的权重和所述常用词汇的权重获取所述至少两个字符串的相似度。

优选地，所述第一获取模块，具体用于：

根据预设核心词汇权重表获取所述核心词汇的权重。

优选地，所述第二获取模块，具体用于：

优选地，所述第三获取模块，具体用于：

优选地，所述第四获取模块，具体用于：

所述至少两个字符串的相似度为

本发明实施例提供的一种计算字符串间相似度的方法及装置，获取至少两个字符串的核心词汇的权重；获取所述至少两个字符串的最大公共序列，并根据所述最大公共序列的长度和词汇确定所述最大公共序列的权重；根据预设常用词汇的权重表获取所述至少两个字符串中的常用词汇的权重；根据所述核心词汇的权重、所述最大公共序列的权重和所述常用词汇的权重获取所述至少两个字符串的相似度。本发明加入了句子结构的分析，可以提高字符串相似度计算的准确度；另外，本发明还加入了词汇权重信息，作为字符串相似度计算的调和值，由于分词工具的准确率，分词结果会产生一些误差，句子结构分析也会有一定的误差，经过词频权重调和后，计算结果更加准确。

附图说明

图1是本发明实施例提供的一种计算字符串间相似度的方法的流程示意图；

图2是本发明实施例提供的一种分词结果的示意图；

图3是本发明实施例提供的一种计算字符串间相似度的装置的功能模块示意图。

具体实施方式

下面结合附图和实施例对本发明实施例作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明实施例，而非对本发明实施例的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明实施例相关的部分而非全部结构。

参考图1，图1是本发明实施例提供的一种计算字符串间相似度的方法的流程示意图。

如图1所示，所述计算字符串间相似度的方法包括：

步骤101，获取至少两个字符串的核心词汇的权重；

根据预设核心词汇权重表获取所述核心词汇的权重。

具体的，输入中文字符串s1，s2依据分词工具实现字符串分词，词性分词以及依存语法分析。得到如图2所示分词结果。分析分词结果中人名、地名、机构名等信息。依据词汇的词性以及不同词性权重信息表对词汇赋值。

步骤102，获取所述至少两个字符串的最大公共序列，并根据所述最大公共序列的长度和词汇确定所述最大公共序列的权重；

具体的，两个中文字符串的最大公共子串越长，说明两个字符串越相似。依据分词结果序列，去除结果中的标点符号，词汇拼接得到最大公共子串。

步骤103，根据预设常用词汇的权重表获取所述至少两个字符串中的常用词汇的权重；

具体的，常用词汇TF-IDF(term frequency–inverse document frequency)权重表。不同词汇对字符串相似度有不同的影响，常用的词汇例如，“的”，“年、月、日”,“现在”等。依据词汇TF-IDF权重信息表，可以给不同的词汇赋予不同的权重值。

步骤104，根据所述核心词汇的权重、所述最大公共序列的权重和所述常用词汇的权重获取所述至少两个字符串的相似度。

所述至少两个字符串的相似度为

本发明实施例提供的一种计算字符串间相似度的方法，获取至少两个字符串的核心词汇的权重；获取所述至少两个字符串的最大公共序列，并根据所述最大公共序列的长度和词汇确定所述最大公共序列的权重；根据预设常用词汇的权重表获取所述至少两个字符串中的常用词汇的权重；根据所述核心词汇的权重、所述最大公共序列的权重和所述常用词汇的权重获取所述至少两个字符串的相似度。本发明加入了句子结构的分析，可以提高字符串相似度计算的准确度；另外，本发明还加入了词汇权重信息，作为字符串相似度计算的调和值，由于分词工具的准确率，分词结果会产生一些误差，句子结构分析也会有一定的误差，经过词频权重调和后，计算结果更加准确。

参考图3，图3是本发明实施例提供的一种计算字符串间相似度的装置的功能模块示意图。

如图3所示，所述装置包括：

第一获取模块301，用于获取至少两个字符串的核心词汇的权重；

优选地，所述第一获取模块301，具体用于：

根据预设核心词汇权重表获取所述核心词汇的权重。

第二获取模块302，用于获取所述至少两个字符串的最大公共序列，并根据所述最大公共序列的长度和词汇确定所述最大公共序列的权重；

优选地，所述第二获取模块302，具体用于：

第三获取模块303，用于根据预设常用词汇的权重表获取所述至少两个字符串中的常用词汇的权重；

优选地，所述第三获取模块303，具体用于：

第四获取模块304，用于根据所述核心词汇的权重、所述最大公共序列的权重和所述常用词汇的权重获取所述至少两个字符串的相似度。

优选地，所述第四获取模块304，具体用于：

所述至少两个字符串的相似度为

本发明实施例提供的一种计算字符串间相似度的装置，获取至少两个字符串的核心词汇的权重；获取所述至少两个字符串的最大公共序列，并根据所述最大公共序列的长度和词汇确定所述最大公共序列的权重；根据预设常用词汇的权重表获取所述至少两个字符串中的常用词汇的权重；根据所述核心词汇的权重、所述最大公共序列的权重和所述常用词汇的权重获取所述至少两个字符串的相似度。本发明加入了句子结构的分析，可以提高字符串相似度计算的准确度；另外，本发明还加入了词汇权重信息，作为字符串相似度计算的调和值，由于分词工具的准确率，分词结果会产生一些误差，句子结构分析也会有一定的误差，经过词频权重调和后，计算结果更加准确。

以上结合具体实施例描述了本发明实施例的技术原理。这些描述只是为了解释本发明实施例的原理，而不能以任何方式解释为对本发明实施例保护范围的限制。基于此处的解释，本领域的技术人员不需要付出创造性的劳动即可联想到本发明实施例的其它具体实施方式，这些方式都将落入本发明实施例的保护范围之内。

Claims

1.一种计算字符串间相似度的方法，其特征在于，所述方法包括：

获取至少两个字符串的核心词汇的权重；

2.根据权利要求1所述的方法，其特征在于，所述获取至少两个字符串的核心词汇的权重，包括：

根据预设核心词汇权重表获取所述核心词汇的权重。

3.根据权利要求1所述的方法，其特征在于，所述获取所述至少两个字符串的最大公共序列，包括：

4.根据权利要求1所述的方法，其特征在于，所述根据预设常用词汇的权重表获取所述至少两个字符串中的常用词汇的权重，包括：

5.根据权利要求1至4任意一项所述的方法，其特征在于，所述根据所述核心词汇的权重、所述最大公共序列的权重和所述常用词汇的权重获取所述至少两个字符串的相似度，包括：

所述至少两个字符串的相似度为

6.一种计算字符串间相似度的装置，其特征在于，所述装置包括：

7.根据权利要求6所述的装置，其特征在于，所述第一获取模块，具体用于：

根据预设核心词汇权重表获取所述核心词汇的权重。

8.根据权利要求6所述的装置，其特征在于，所述第二获取模块，具体用于：

9.根据权利要求6所述的装置，其特征在于，所述第三获取模块，具体用于：

10.根据权利要求6至9任意一项所述的装置，其特征在于，所述第四获取模块，具体用于：

所述至少两个字符串的相似度为