CN100452042C

CN100452042C - 数字串模糊匹配的方法

Info

Publication number: CN100452042C
Application number: CNB200610036119XA
Authority: CN
Inventors: 谭文彪
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Shenzhen Tencent Computer Systems Co Ltd
Priority date: 2006-06-23
Filing date: 2006-06-23
Publication date: 2009-01-14
Anticipated expiration: 2026-06-23
Also published as: CN101079032A

Abstract

本发明涉及一种数字串模糊匹配的方法，可应用于即时通信中，包括以下步骤：a.将用户输入的数字串进行分词；b.根据所述分词得到的新词与号码库里的词进行模糊匹配；c.根据所述模糊匹配得到的号码包含所述新词中数字的数量，对所述模糊匹配得到的号码进行排序，并将其返回给所述用户。本发明在号码库没有用户输入的号码时，找出最相似的号码推荐给用户，避免了用户重复查找号码。同时，也减少了用户对查询号码的请求次数，减轻了***压力。

Description

数字串模糊匹配的方法

技术领域

本发明涉及计算机模糊搜索技术，更具体地说，涉及一种数字串模糊匹配的方法。

背景技术

目前的主要搜索引擎的模式都是，用户输入一些关键字或者句子，无论是那种，搜索引擎都会首先对用户的输入进行分词，这样可以增加搜索结果的准确性，这是和普通数据库搜索的不同点(普通的数据库搜索，只是简单的用like％关键字％)，然后搜索引擎去海量的索引库去查找这些和用户输入相关的信息，显示的结果会包含网页的相关摘要。

中文搜索引擎相关的技术包含：网络蜘蛛，中文分词，索引库，网页摘要的提取，网页相似度，信息的分类。

众所周知，英文是以词为单位的，词和词之间是靠空格隔开，而中文是以字为单位，句子中所有的字连起来才能描述一个意思。例如，英文句子I am astudent，用中文则为：“我是一个学生”。计算机可以很简单通过空格知道student是一个单词，但是不能很容易明白“学”、“生”两个字合起来才表示一个词。把中文的汉字序列切分成有意义的词，就是中文分词(或称为切词)。我是一个学生，分词的结果是：我是一个学生。中文分词的准确与否，常常直接影响到对搜索结果的相关度排序。

现有的搜索引擎一般使用分词算法，实际应用的统计分词***都要使用一部基本的分词词典(常用词词典)进行串匹配分词。这种分词方法是通过让计算机模拟人对句子的理解，达到识别词的效果。其基本思想就是在分词的同时进行句法、语义分析，利用句法信息和语义信息来处理歧义现象。

但是，现有的分词技术，一般是针对中文的，而没有专门针对数字串的“分词”的匹配算法；而且，现有的分词技术需要通过查找词典进行分词，速度较慢；另外，现有的分词技术没有考虑每个词之间的顺序关系，而是分割成相互之间比较独立的词，没有保存原材料的词顺序关系。

发明内容

本发明要解决的技术问题在于，针对现有技术的上述现有的分词技术缺陷，提供一种数字串模糊匹配的方法，可以对数字串进行分词并进行模糊匹配。

本发明解决其技术问题所采用的技术方案是：构造一种数字串模糊匹配的方法，应用于即时通信中，包括以下步骤：

a.对号码库里的号码按照预设长度进行移位分词；

b.将用户输入的数字串按照预设长度进行移位分词，所述用户输入的数字串进行移位分词的预设长度与所述号码库里的号码分词的长度一样；

c.根据用户输入的数字串分词得到的新词与号码库里的号码分词得到的词进行模糊匹配；

d.根据所述模糊匹配得到的号码包含所述新词中数字串的数量，对所述模糊匹配得到的号码进行排序，并将其返回给所述用户。

本发明所述的方法中，所述移位分词的方法具体包括：从用户输入的数字串的第一位开始，按照预设长度进行移位分割，生成多个新词。

本发明所述的方法中，所述步骤c进一步包括：将用户输入的数字串分词得到的新词加上不同的系数，用于在排序时作为权重。

本发明所述的方法中，所述步骤d中，所述排序的方法具体包括：若所述模糊匹配得到的号码包含所述新词中数字串的数量越多，则所述模糊匹配得到的号码的排序则越靠前。

本发明所述的方法中，所述步骤d进一步包括：将所述模糊匹配得到的号码按照排序的先后，选取预设个号码返回给所述用户。

本发明的有益效果是，在号码库没有用户输入的号码时，找出最相似的号码推荐给用户，避免了用户重复查找号码。同时，也减少了用户对查询号码的请求次数，减轻了***压力。

附图说明

下面将结合附图及实施例对本发明作进一步说明，附图中：

图1是本发明的数字串模糊匹配的流程图。

具体实施方式

为使本发明的目的、技术方案及优点更加清楚明白，以下通过具体实施例并参见附图，对本发明进行详细说明。

本发明中，通过将用户输入的数字串按照长度进行分割，根据分割出来的词所处位置加上不同系数，在排序的时候当作权重，排序不同的词具有不同的权重，一般来说，排序越靠前的，权重越高。

然后，根据分词得到的词与号码库里的词进行匹配，选出包含分割出来的词的数量最多的号码并将其进行排序。

下面参照图1示出的数字串模糊匹配的流程图为例进行说明，包括以下步骤：

步骤S100：用户输入数字串，如用户输入即时通信的ID号码。

步骤S105：对用户输入的数字串进行分词。如将用户输入的即时通信ID号码进行分割，从用户输入的数字串的第一位开始，按照预设长度进行移位分割，生成多个新词。若用户输入的号码为1345679，则可以将其按照长度为5(也可以为其它长度，这个长度可以由***预先设定，也可以由用户预先设定)进行分割，如分割为：13456、34567、45679三个新词。

对用户输入的号码进行分割时，可以根据分割出来的词所处位置加上不同系数，在排序的时候当作权重。如开头的词权重较高。该系数可以根据业务特点制定。例如，一般认为：如果分割出来的词的首、尾数字匹配，应该就更好，则系数就会比较高。例如，可以将号码1234567分割出来的词：12345和34567的系数设置为3，而23456的系数设置为2。

步骤S110：根据步骤S105分词得到的词与号码库里的词进行匹配。但是，预先要将号码库(如即时通信的所有ID库，一般存在服务器上)里的所有号码按照长度为5(也可以为其它长度，这个长度是预先设定的，但是要跟上述对用户的输入的分词长度一样)进行分割，如将1234567分割为：12345、23456、34567三个新词，构成上述号码库里的词。

步骤S115：按照包含用户输入的词数量(相似系数)对号码进行排序。如前面所述的1345679和1234567有相同的词34567，因此这两个ID的相似系数是3。由于前后分割的词是有比较多重合的，因此，分出来的词已经充分考虑了词与词之间的顺序关系。一般来说，跟用户输入数字串最大匹配长度越长的(即相似***越高)，排序就会越靠前。

步骤120：选出包含用户输入的词数量最多的号码返回给用户。也就是将相似系数最高的号码返回给用户。例如，假设用户输入的数字串(即号码)包含5个新词W1～W5，其中W1的系数是3，W2~W5的系数是2。号码库里的号码Q1包含了词W1、W3；号码库里的号码Q2包含了词W2、W4。则号码Q1跟用户输入的数字串相似系数是5(即3+2＝5)，而号码Q2是4(即2+2＝4)。因此号码Q1相似系数较高，则返回号码Q1给用户。

返回给用户的号码个数可以预先设定，例如可以预设设定返回给用户号码的个数为10个，那么***就会将与用户输入的数字串最相似的前10个号码返回给用户。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均包含在本发明的保护范围之内。

Claims

1、一种数字串模糊匹配的方法，应用于即时通信中，其特征在于，包括以下步骤：

a.对号码库里的号码按照预设长度进行移位分词；

b.对用户输入的数字串按照预设长度进行移位分词，所述用户输入的数字串进行移位分词的预设长度与所述号码库里的号码分词的长度一样；

c.根据用户输入的数字串分词得到的新词与号码库里号码分词得到的词进行模糊匹配；

2、根据权利要求1所述的方法，其特征在于，所述移位分词的方法具体包括：从用户输入的数字串的第一位开始，按照预设长度进行移位分割，生成多个新词。

3、根据权利要求1所述的方法，其特征在于，所述步骤c进一步包括：将用户输入的数字串分词得到的新词加上不同的系数，用于在排序时作为权重。

4、根据权利要求1所述的方法，其特征在于，所述步骤d中，所述排序的方法具体包括：若所述模糊匹配得到的号码包含所述新词中数字串的数量越多，则所述模糊匹配得到的号码的排序则越靠前。

5、根据权利要求1所述的方法，其特征在于，所述步骤d进一步包括：将所述模糊匹配得到的号码按照排序的先后，选取预设个号码返回给所述用户。