CN104778171A

CN104778171A - 字符串匹配***及方法

Info

Publication number: CN104778171A
Application number: CN201410011078.3A
Authority: CN
Inventors: 叶亚明; 王威振
Original assignee: Ctrip Computer Technology Shanghai Co Ltd
Current assignee: Shanghai Ctrip Business Co Ltd
Priority date: 2014-01-10
Filing date: 2014-01-10
Publication date: 2015-07-15

Abstract

本发明提供一种字符串匹配***及方法，字符串匹配***存储有若干关键维度和若干非关键维度，每一关键维度和非关键维度均对应有权重值，字符串匹配***包括输入模块、分词模块、标注模块、比较模块、计算模块和输出模块；输入模块用于接收两个字符串的输入；分词模块用于将两个字符串分词为词组；标注模块用于标注每一词组对应的关键维度或非关键维度；比较模块用于比较两个字符串中的词组，若任一关键维度上的两个词组不相同则调用输出模块输出一字符串不匹配信息，否则调用计算模块用于通过公式计算两个字符串之间的匹配度，并调用输出模块输出匹配度。本发明能够快速灵活、准确的计算出字符串之间的匹配度。

Description

字符串匹配***及方法

技术领域

本发明涉及一种字符串匹配***及字符串匹配方法。

背景技术

由于自然语言灵活多变的特性和命名风格的不同，对于同一个事物会有不同的描述方式，在计算机看来，就是两个不同的字符串。如何快速的判断出两个字符串描述的是否是同一个事物，也就成为了一个具有现实意义的技术问题。

现有的字符串关联度计算方法要么比较机械的计算字符串之间的联系，要么陷入语义分析的繁杂的计算中，无法快速灵活、准确的计算出字符串之间的相似度。

发明内容

本发明要解决的技术问题是为了克服现有技术中无法快速灵活、准确的计算出字符串之间的相似度的缺陷，提供一种能够快速灵活、准确的计算出字符串之间的相似度的字符串匹配***及方法。

本发明是通过下述技术方案来解决上述技术问题的：

本发明提供一种字符串匹配***，其特点在于，其存储有若干关键维度和若干非关键维度，每一关键维度和非关键维度均对应有权重值，该字符串匹配***包括一输入模块、一分词模块、一标注模块、一比较模块、一计算模块和一输出模块；

该输入模块用于接收两个字符串的输入；

该分词模块用于将该两个字符串分词为词组；

该标注模块用于标注每一词组对应的关键维度或非关键维度；

该比较模块用于比较该两个字符串中的词组，若任一关键维度上的两个词组不相同则调用该输出模块输出一字符串不匹配信息，否则（具体指任一关键维度上的两个词组均相同或所有匹配上的关键维度上的两个词组相同但某一字符串缺少某一或某些关键维度上的词组）调用该计算模块，其中，“两个词组相同”指的是两个词组所表达的意思相同，而并不局限于两个词组所包含的所有字符严格一致；同样地，“两个词组不相同”指的是两个词组所表达的意思不相同；

该计算模块用于通过公式计算该两个字符串之间的匹配度，并调用该输出模块输出该匹配度；其中P表示该两个字符串之间的匹配度，n表示该两个字符串中词组相同的个数，a_i为该两个字符串中第i个相同的词组对应的权重值的两倍，B为该两个字符串中每一词组对应的权重值的累加之和。

较佳地，该字符串匹配***还包括一处理模块，该处理模块用于去除该两个字符串中的停止词、纠正该两个字符串中的错别字以及将该两个字符串中的拼音更换为汉字。

较佳地，该字符串匹配***存储一包含多个词语的词库，该分词模块包括一划分模块和一匹配模块；

该划分模块用于对该两个字符串进行划分；

该匹配模块用于将划分出的词语与该词库中的所有词语进行匹配，若匹配成功则将该划分出的词语作为该词组。

较佳地，该些关键维度和非关键维度按照领域自定义设置。

本发明还提供一种字符串匹配方法，其特点在于，其存储有若干关键维度和若干非关键维度，每一关键维度和非关键维度均对应有权重值，该字符串匹配方法包括以下步骤：

S₁、接收两个字符串的输入；

S₂、将该两个字符串分词为词组；

S₃、标注每一词组对应的关键维度或非关键维度；

S₄、比较该两个字符串中的词组，若任一关键维度上的两个词组不相同则进入步骤S₅，否则进入步骤S₆；

S₅、输出一字符串不匹配信息，结束流程；

S₆、通过公式计算该两个字符串之间的匹配度，并输出该匹配度，结束流程；其中n表示该两个字符串中词组相同的个数，a_i为该两个字符串中第i个相同的词组对应的权重值的两倍，B为该两个字符串中每一词组对应的权重值的累加和。

较佳地，步骤S₁和步骤S₂之间包括以下步骤：

去除该两个字符串中的停止词、纠正该两个字符串中的错别字以及将该两个字符串中的拼音更换为汉字。

较佳地，该字符串匹配方法存储一包含多个词语的词库，步骤S₂包括以下步骤：

S₂₁、对该两个字符串进行划分；

S₂₂、将划分出的词语与该词库中的所有词语进行匹配，若匹配成功则将该划分出的词语作为该词组。

较佳地，该些关键维度和非关键维度按照领域自定义设置。

在符合本领域常识的基础上，上述各优选条件，可任意组合，即得本发明各较佳实例。

本发明的积极进步效果在于：

本发明提供一种字符串匹配***及方法，通过对划分出的每一词组进行标注，通过比较关键维度上的词组，并采用“不同否定”优先方式在任一关键维度上的两个词组不相同时输出字符串不匹配信息，否则具体计算出两个字符串之间的匹配度。本发明能够快速灵活、准确的计算出两个字符串之间的匹配度。

附图说明

图1为本发明较佳实施例的字符串匹配***的结构框图。

图2为本发明较佳实施例的字符串匹配方法的流程图。

具体实施方式

下面通过实施例的方式进一步说明本发明，但并不因此将本发明限制在所述的实施例范围之中。

如图1所示，本实施例提供一种字符串匹配***，其存储有若干关键维度和若干非关键维度，该些关键维度和非关键维度可按照领域自定义设置，每一关键维度和非关键维度均对应有权重值，该字符串匹配***包括一输入模块1、一处理模块2、一分词模块3、一标注模块4、一比较模块5、一计算模块6和一输出模块7。

上述介绍了该字符串匹配***包括的部件，下面具体介绍每一部件实现的功能：

该输入模块1用于接收两个字符串的输入；

该处理模块2用于去除该两个字符串中的停止词、纠正该两个字符串中的错别字以及将该两个字符串中的拼音更换为汉字；

该分词模块3用于将该两个字符串分词为词组；

该标注模块4用于标注每一词组对应的关键维度或非关键维度；

该比较模块5用于比较该两个字符串中的词组，若任一关键维度上的两个词组不相同则调用该输出模块7输出一字符串不匹配信息，否则调用该计算模块6；

该计算模块6用于通过公式计算该两个字符串之间的匹配度，并调用该输出模块7输出该匹配度；其中P表示两个字符串之间的匹配度，n表示该两个字符串中词组相同的个数，a_i为该两个字符串中第i个相同的词组对应的权重值的两倍，B为该两个字符串中每一词组对应的权重值的累加和。

其中，进一步地该分词模块3包括一划分模块31和一匹配模块32，该字符串匹配***存储一包含多个词语的词库，该划分模块31用于对该两个字符串进行划分，该匹配模块32用于将划分出的词语与该词库中的所有词语进行匹配，若匹配成功则将该划分出的词语作为该词组。

如图2所示，本实施例还提供了一种字符串匹配方法，其存储有若干关键维度和若干非关键维度，每一关键维度和非关键维度均对应有权重值，该字符串匹配方法包括以下步骤：

步骤101、接收两个字符串的输入；

步骤102、去除该两个字符串中的停止词、纠正该两个字符串中的错别字以及将该两个字符串中的拼音更换为汉字；

步骤103、将该两个字符串分词为词组，进一步地，该步骤包括下面两个步骤：对该两个字符串进行划分；将划分出的词语与该词库中的所有词语进行匹配，若匹配成功则将该划分出的词语作为该词组；

步骤104、标注每一词组对应的关键维度或非关键维度；

步骤105、比较该两个字符串中的词组，若任一关键维度上的两个词组不相同则进入步骤106，否则进入步骤107；

步骤106、输出一字符串不匹配信息，结束流程；

步骤107、通过公式计算该两个字符串之间的匹配度，并输出该匹配度，结束流程；其中n表示该两个字符串中词组相同的个数，a_i为该两个字符串中第i个相同的词组对应的权重值的两倍，B为该两个字符串中每一词组对应的权重值的累加和。

下面举一具体的例子即以输入的两个酒店名称之间的匹配度来进行说明字符串匹配***及方法，以使得本领域技术人员更好地理解本发明，但本发明并不局限于只能应用于计算酒店名称之间的匹配度，本发明可应用于计算各领域中两个字符串之间的匹配度。

不同的领域、不同的应用场景所设定的维度不同，其中抽取的关键维度也不同。在本例中，对于酒店领域来说，其可能有的维度有“城市”、“酒店品牌”、“子品牌”、“酒店名称描述词”、“区域”以及“无意义词”等，其中的关键维度为“城市”、“酒店品牌”、“子品牌”和“区域”，非关键维度为“酒店名称描述词”和“无意义词”。在关键维度中，“城市”对应的权重值为5，“区域”对应的权重值为5，“酒店品牌”对应的权重值为10，“子品牌”对应的权重值为8。在非关键维度中，“酒店名称描述词”对应的权重值为1，“无意义词”对应的权重值为0。

词库包括通用词库和专用词库，通用词库是不区分行业的最广泛、最普通的词库，为业界通用，包含如行政区域词库、自然语言词库等；专用词库是按照特定行业组织的一系列较小但是更加专业的词库，其数据量远不如通用词库，但是在特定领域上比通用词库具有更高的权威性，其采纳概率更高。在本例的酒店领域中，其采用的是专用词库，通过对专用词库的检索，按照标准的分词算法，可以得到一系列具有语义标签的词组成的集合。

该输入模块1接收两个字符串的输入，第一个字符串为“上海徐家汇的ru家快捷酒店”，第二个字符串为“宜必思徐家汇店中国”。该处理模块2进行常规的处理，去除第一个字符串中的“的”，将第一个字符串中的拼音“ru”更换为汉字“如”。

该划分模块31对这两个字符串进行划分，即将第一个字符串划分为“上海”、“徐家汇”、“如家”和“快捷酒店”，将第二个字符串划分为“宜必思”、“徐家汇”和“中国”，该匹配模块32将划分出的词语“上海”、“徐家汇”、“如家”、“快捷酒店”“宜必思”和“中国”与上述专用词库中的所有词语进行匹配，匹配成功后则将该划分出的词语“上海”、“徐家汇”、“如家”、“快捷酒店”“宜必思”和“中国”作为词组。

该标注模块4标注每一个词组对应的关键维度或非关键维度，即标注第一个字符串中的词组对应的关键维度或非关键维度“上海（城市）”、“徐家汇（区域）”、“如家（酒店品牌）”和“快捷酒店（酒店名称描述词）”，第二个字符串中的词组对应的关键维度或非关键维度“宜必思（酒店品牌）”、“徐家汇（区域）”和“中国（无意义词）”。

该比较模块5比较该两个字符串中的词组，关键维度“区域”上的第一个字符串中的词组“徐家汇”与第二个字符串中的词组“徐家汇”相同，关键维度“酒店品牌”上的第一个字符串中的词组“如家”与第二个字符串中的词组“宜必思”相同（这里的“相同”指的是在酒店领域的品牌方面商业品牌相同，即商业品牌“如家”和“宜必思”为同一个商业品牌），第一个字符串中存在关键维度“城市”上的词组而第二个字符串中缺少关键维度“城市”上的词组，则不进行比较关键维度“城市”上的词组，通过上述比较过程，要么是所有匹配上的关键维度上的两个词组相同要么是第二字符串缺少关键维度“城市”上的词组，进而计算模块6计算该两个字符串之间的匹配度。

计算模块6通过公式计算该两个字符串之间的匹配度的具体过程为：

该两个字符串中词组相同的个数为2个，a1为第一个字符串中的词组“徐家汇”对应的权重值5与第二个字符串中的词组“徐家汇”对应的权重值5之和10，a2为第一个字符串中的词组“如家”对应的权重值10与第二个字符串中的词组“宜必思”对应的权重值10之和20；B为该两个字符串中每一词组对应的权重值的累加和，即第一个字符串中的词组“上海”对应的权重值5加上第一个字符串中的词组“徐家汇”对应的权重值5加上第一个字符串中的词组“如家”对应的权重值10加上第一个字符串中的词组“快捷酒店”对应的权重值1加上第二个字符串中的词组“宜必思”对应的权重值10加上第二个字符串中的词组“徐家汇”对应的权重值5加上第二个字符串中的词组“中国”对应的权重值0。

则该两个字符串之间的匹配度P=（10+20）/（5+5+10+1+10+5+0）=83.33%，并调用该输出模块7输出该匹配度83.33%。

该字符串匹配***每次的匹配结果均被记录下来进行人工审核，人工审核该字符串匹配***的匹配结果是否正确，并将审核结果反馈给该字符串匹配***，该字符串匹配***对反馈的审核结果进行匹配错误个数和类型统计，并将统计结果显示出来。大多数情况下是由于词库中没有一些特殊的词组，使得分词出的词组不正确，进而导致匹配结果也不正确。所以，审核人员可以人工地对词库进行补充及完善，进一步增加该字符串匹配***的匹配结果的准确度，而且如果同一种类型的错误量累计到一定的阈值，或者认为输出的匹配度不合理，则审核人员可以人工地调节权重分配，比如对某一关键维度或非关键维度进行权重的调节。

对于本实施例的酒店名称的匹配，通过人工对大量实际用例的验证，可以看到该字符串匹配***在初始情况下的字符串匹配结果的准确率大约有92%，经过一段时间的人工审核与调节之后，该字符串匹配***的字符串匹配结果的准确率提高到97%左右，而利用普通比较算法（如最短编辑距离算法为核心的文本串比较算法）获得的准确率75%左右，从上述可看出，本发明的匹配结果的准确率远远高于普通比较算法的准确率。

同样，将该字符串匹配***应用至房型名称的匹配，虽然房型名称的字符串长度较短，匹配难度较大，但通过人工对大量实际用例的验证，可以看到该字符串匹配***在初始情况下的字符串匹配结果的准确率大约有88.3%，经过一段时间的人工审核与调节之后，该字符串匹配***的字符串匹配结果的准确率提高到94.4%左右，而利用普通比较算法（如最短编辑距离算法为核心的文本串比较算法）获得的准确率70%左右，从上述同样可看出，本发明的匹配结果的准确率远远高于普通比较算法的准确率。

本实施例通过对划分出的每一词组进行标注，通过比较关键维度上的词组，并采用“不同否定”优先方式在任一关键维度上的两个词组不相同时输出字符串不匹配信息，否则具体计算出两个字符串之间的匹配度。本发明能够快速灵活、准确的计算出两个字符串之间的匹配度。

本发明中的各个功能模块均能够在现有的硬件条件下结合现有的软件编程手段加以实现，故在此对其具体实现方法均不做赘述。

虽然以上描述了本发明的具体实施方式，但是本领域的技术人员应当理解，这些仅是举例说明，本发明的保护范围是由所附权利要求书限定的。本领域的技术人员在不背离本发明的原理和实质的前提下，可以对这些实施方式做出多种变更或修改，但这些变更和修改均落入本发明的保护范围。

Claims

1.一种字符串匹配***，其特征在于，其存储有若干关键维度和若干非关键维度，每一关键维度和非关键维度均对应有权重值，该字符串匹配***包括一输入模块、一分词模块、一标注模块、一比较模块、一计算模块和一输出模块；

该输入模块用于接收两个字符串的输入；

该分词模块用于将该两个字符串分词为词组；

该比较模块用于比较该两个字符串中的词组，若任一关键维度上的两个词组不相同则调用该输出模块输出一字符串不匹配信息，否则调用该计算模块；

该计算模块用于通过公式计算该两个字符串之间的匹配度，并调用该输出模块输出该匹配度；其中n表示该两个字符串中词组相同的个数，a_i为该两个字符串中第i个相同的词组对应的权重值的两倍，B为该两个字符串中每一词组对应的权重值的累加和。

2.如权利要求1所述的字符串匹配***，其特征在于，该字符串匹配***还包括一处理模块，该处理模块用于去除该两个字符串中的停止词、纠正该两个字符串中的错别字以及将该两个字符串中的拼音更换为汉字。

3.如权利要求1所述的字符串匹配***，其特征在于，该字符串匹配***存储一包含多个词语的词库，该分词模块包括一划分模块和一匹配模块；

该划分模块用于对该两个字符串进行划分；

4.如权利要求1-3中任意一项所述的字符串匹配***，其特征在于，该些关键维度和非关键维度按照领域自定义设置。

5.一种字符串匹配方法，其特征在于，其存储有若干关键维度和若干非关键维度，每一关键维度和非关键维度均对应有权重值，该字符串匹配方法包括以下步骤：

S₁、接收两个字符串的输入；

S₂、将该两个字符串分词为词组；

S₃、标注每一词组对应的关键维度或非关键维度；

S₅、输出一字符串不匹配信息，结束流程；

6.如权利要求5所述的字符串匹配方法，其特征在于，步骤S₁和步骤S₂之间包括以下步骤：

7.如权利要求5所述的字符串匹配方法，其特征在于，该字符串匹配方法存储一包含多个词语的词库，步骤S₂包括以下步骤：

S₂₁、对该两个字符串进行划分；

8.如权利要求5-7中任意一项所述的字符串匹配方法，其特征在于，该些关键维度和非关键维度按照领域自定义设置。