CN100452042C - 数字串模糊匹配的方法 - Google Patents

数字串模糊匹配的方法 Download PDF

Info

Publication number
CN100452042C
CN100452042C CNB200610036119XA CN200610036119A CN100452042C CN 100452042 C CN100452042 C CN 100452042C CN B200610036119X A CNB200610036119X A CN B200610036119XA CN 200610036119 A CN200610036119 A CN 200610036119A CN 100452042 C CN100452042 C CN 100452042C
Authority
CN
China
Prior art keywords
participle
numeric string
user
fuzzy matching
neologisms
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CNB200610036119XA
Other languages
English (en)
Other versions
CN101079032A (zh
Inventor
谭文彪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Tencent Computer Systems Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CNB200610036119XA priority Critical patent/CN100452042C/zh
Publication of CN101079032A publication Critical patent/CN101079032A/zh
Application granted granted Critical
Publication of CN100452042C publication Critical patent/CN100452042C/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及一种数字串模糊匹配的方法,可应用于即时通信中,包括以下步骤:a.将用户输入的数字串进行分词;b.根据所述分词得到的新词与号码库里的词进行模糊匹配;c.根据所述模糊匹配得到的号码包含所述新词中数字的数量,对所述模糊匹配得到的号码进行排序,并将其返回给所述用户。本发明在号码库没有用户输入的号码时,找出最相似的号码推荐给用户,避免了用户重复查找号码。同时,也减少了用户对查询号码的请求次数,减轻了***压力。

Description

数字串模糊匹配的方法
技术领域
本发明涉及计算机模糊搜索技术,更具体地说,涉及一种数字串模糊匹配的方法。
背景技术
目前的主要搜索引擎的模式都是,用户输入一些关键字或者句子,无论是那种,搜索引擎都会首先对用户的输入进行分词,这样可以增加搜索结果的准确性,这是和普通数据库搜索的不同点(普通的数据库搜索,只是简单的用like%关键字%),然后搜索引擎去海量的索引库去查找这些和用户输入相关的信息,显示的结果会包含网页的相关摘要。
中文搜索引擎相关的技术包含:网络蜘蛛,中文分词,索引库,网页摘要的提取,网页相似度,信息的分类。
众所周知,英文是以词为单位的,词和词之间是靠空格隔开,而中文是以字为单位,句子中所有的字连起来才能描述一个意思。例如,英文句子I am astudent,用中文则为:“我是一个学生”。计算机可以很简单通过空格知道student是一个单词,但是不能很容易明白“学”、“生”两个字合起来才表示一个词。把中文的汉字序列切分成有意义的词,就是中文分词(或称为切词)。我是一个学生,分词的结果是:我是一个学生。中文分词的准确与否,常常直接影响到对搜索结果的相关度排序。
现有的搜索引擎一般使用分词算法,实际应用的统计分词***都要使用一部基本的分词词典(常用词词典)进行串匹配分词。这种分词方法是通过让计算机模拟人对句子的理解,达到识别词的效果。其基本思想就是在分词的同时进行句法、语义分析,利用句法信息和语义信息来处理歧义现象。
但是,现有的分词技术,一般是针对中文的,而没有专门针对数字串的“分词”的匹配算法;而且,现有的分词技术需要通过查找词典进行分词,速度较慢;另外,现有的分词技术没有考虑每个词之间的顺序关系,而是分割成相互之间比较独立的词,没有保存原材料的词顺序关系。
发明内容
本发明要解决的技术问题在于,针对现有技术的上述现有的分词技术缺陷,提供一种数字串模糊匹配的方法,可以对数字串进行分词并进行模糊匹配。
本发明解决其技术问题所采用的技术方案是:构造一种数字串模糊匹配的方法,应用于即时通信中,包括以下步骤:
a.对号码库里的号码按照预设长度进行移位分词;
b.将用户输入的数字串按照预设长度进行移位分词,所述用户输入的数字串进行移位分词的预设长度与所述号码库里的号码分词的长度一样;
c.根据用户输入的数字串分词得到的新词与号码库里的号码分词得到的词进行模糊匹配;
d.根据所述模糊匹配得到的号码包含所述新词中数字串的数量,对所述模糊匹配得到的号码进行排序,并将其返回给所述用户。
本发明所述的方法中,所述移位分词的方法具体包括:从用户输入的数字串的第一位开始,按照预设长度进行移位分割,生成多个新词。
本发明所述的方法中,所述步骤c进一步包括:将用户输入的数字串分词得到的新词加上不同的系数,用于在排序时作为权重。
本发明所述的方法中,所述步骤d中,所述排序的方法具体包括:若所述模糊匹配得到的号码包含所述新词中数字串的数量越多,则所述模糊匹配得到的号码的排序则越靠前。
本发明所述的方法中,所述步骤d进一步包括:将所述模糊匹配得到的号码按照排序的先后,选取预设个号码返回给所述用户。
本发明的有益效果是,在号码库没有用户输入的号码时,找出最相似的号码推荐给用户,避免了用户重复查找号码。同时,也减少了用户对查询号码的请求次数,减轻了***压力。
附图说明
下面将结合附图及实施例对本发明作进一步说明,附图中:
图1是本发明的数字串模糊匹配的流程图。
具体实施方式
为使本发明的目的、技术方案及优点更加清楚明白,以下通过具体实施例并参见附图,对本发明进行详细说明。
本发明中,通过将用户输入的数字串按照长度进行分割,根据分割出来的词所处位置加上不同系数,在排序的时候当作权重,排序不同的词具有不同的权重,一般来说,排序越靠前的,权重越高。
然后,根据分词得到的词与号码库里的词进行匹配,选出包含分割出来的词的数量最多的号码并将其进行排序。
下面参照图1示出的数字串模糊匹配的流程图为例进行说明,包括以下步骤:
步骤S100:用户输入数字串,如用户输入即时通信的ID号码。
步骤S105:对用户输入的数字串进行分词。如将用户输入的即时通信ID号码进行分割,从用户输入的数字串的第一位开始,按照预设长度进行移位分割,生成多个新词。若用户输入的号码为1345679,则可以将其按照长度为5(也可以为其它长度,这个长度可以由***预先设定,也可以由用户预先设定)进行分割,如分割为:13456、34567、45679三个新词。
对用户输入的号码进行分割时,可以根据分割出来的词所处位置加上不同系数,在排序的时候当作权重。如开头的词权重较高。该系数可以根据业务特点制定。例如,一般认为:如果分割出来的词的首、尾数字匹配,应该就更好,则系数就会比较高。例如,可以将号码1234567分割出来的词:12345和34567的系数设置为3,而23456的系数设置为2。
步骤S110:根据步骤S105分词得到的词与号码库里的词进行匹配。但是,预先要将号码库(如即时通信的所有ID库,一般存在服务器上)里的所有号码按照长度为5(也可以为其它长度,这个长度是预先设定的,但是要跟上述对用户的输入的分词长度一样)进行分割,如将1234567分割为:12345、23456、34567三个新词,构成上述号码库里的词。
步骤S115:按照包含用户输入的词数量(相似系数)对号码进行排序。如前面所述的1345679和1234567有相同的词34567,因此这两个ID的相似系数是3。由于前后分割的词是有比较多重合的,因此,分出来的词已经充分考虑了词与词之间的顺序关系。一般来说,跟用户输入数字串最大匹配长度越长的(即相似***越高),排序就会越靠前。
步骤120:选出包含用户输入的词数量最多的号码返回给用户。也就是将相似系数最高的号码返回给用户。例如,假设用户输入的数字串(即号码)包含5个新词W1~W5,其中W1的系数是3,W2~W5的系数是2。号码库里的号码Q1包含了词W1、W3;号码库里的号码Q2包含了词W2、W4。则号码Q1跟用户输入的数字串相似系数是5(即3+2=5),而号码Q2是4(即2+2=4)。因此号码Q1相似系数较高,则返回号码Q1给用户。
返回给用户的号码个数可以预先设定,例如可以预设设定返回给用户号码的个数为10个,那么***就会将与用户输入的数字串最相似的前10个号码返回给用户。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均包含在本发明的保护范围之内。

Claims (5)

1、一种数字串模糊匹配的方法,应用于即时通信中,其特征在于,包括以下步骤:
a.对号码库里的号码按照预设长度进行移位分词;
b.对用户输入的数字串按照预设长度进行移位分词,所述用户输入的数字串进行移位分词的预设长度与所述号码库里的号码分词的长度一样;
c.根据用户输入的数字串分词得到的新词与号码库里号码分词得到的词进行模糊匹配;
d.根据所述模糊匹配得到的号码包含所述新词中数字串的数量,对所述模糊匹配得到的号码进行排序,并将其返回给所述用户。
2、根据权利要求1所述的方法,其特征在于,所述移位分词的方法具体包括:从用户输入的数字串的第一位开始,按照预设长度进行移位分割,生成多个新词。
3、根据权利要求1所述的方法,其特征在于,所述步骤c进一步包括:将用户输入的数字串分词得到的新词加上不同的系数,用于在排序时作为权重。
4、根据权利要求1所述的方法,其特征在于,所述步骤d中,所述排序的方法具体包括:若所述模糊匹配得到的号码包含所述新词中数字串的数量越多,则所述模糊匹配得到的号码的排序则越靠前。
5、根据权利要求1所述的方法,其特征在于,所述步骤d进一步包括:将所述模糊匹配得到的号码按照排序的先后,选取预设个号码返回给所述用户。
CNB200610036119XA 2006-06-23 2006-06-23 数字串模糊匹配的方法 Active CN100452042C (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CNB200610036119XA CN100452042C (zh) 2006-06-23 2006-06-23 数字串模糊匹配的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CNB200610036119XA CN100452042C (zh) 2006-06-23 2006-06-23 数字串模糊匹配的方法

Publications (2)

Publication Number Publication Date
CN101079032A CN101079032A (zh) 2007-11-28
CN100452042C true CN100452042C (zh) 2009-01-14

Family

ID=38906511

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB200610036119XA Active CN100452042C (zh) 2006-06-23 2006-06-23 数字串模糊匹配的方法

Country Status (1)

Country Link
CN (1) CN100452042C (zh)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101082936A (zh) * 2007-06-29 2007-12-05 中兴通讯股份有限公司 数据查询***及方法
CN103064847A (zh) * 2011-10-20 2013-04-24 北京中搜网络技术股份有限公司 索引装置、索引方法、检索装置、检索方法和检索***
CN102890719B (zh) * 2012-10-12 2015-12-16 浙江宇视科技有限公司 一种对车牌号进行模糊搜索的方法及装置
CN103309991A (zh) * 2013-06-19 2013-09-18 南京邮电大学 一种基于高校危险品仓库管理程序中的查询方法
CN103544277A (zh) * 2013-10-22 2014-01-29 深圳市捷顺科技实业股份有限公司 一种查询目标文本的方法及装置
CN104881503A (zh) * 2015-06-24 2015-09-02 郑州悉知信息技术有限公司 一种数据处理方法和装置
CN108632212B (zh) * 2017-03-20 2021-07-23 展讯通信(上海)有限公司 多方通话中通话状态的更新方法、装置及多通终端
CN106980686A (zh) * 2017-03-31 2017-07-25 努比亚技术有限公司 一种搜索词的分词方法及终端
CN109255283B (zh) * 2017-07-14 2021-06-04 杭州海康威视数字技术股份有限公司 一种基于多帧的车牌号码确定方法、装置及电子设备
CN108629174B (zh) * 2018-05-08 2022-06-07 创新先进技术有限公司 字符串校验的方法及装置
CN110889769B (zh) * 2018-08-21 2022-09-20 湖南共睹互联网科技有限责任公司 交易保障关联方法、计算机装置及计算机可读存储介质
US11921770B2 (en) 2018-12-28 2024-03-05 Shenzhen Sekorm Component Network Co., Ltd Electronic element supporting data inquiry method, storage medium and terminal
CN109840294B (zh) * 2018-12-28 2023-04-18 深圳市世强元件网络有限公司 电子元件配套资料查询方法、存储介质及终端
CN111860657A (zh) * 2020-07-23 2020-10-30 中国建设银行股份有限公司 一种图像分类方法、装置、电子设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1098504C (zh) * 1994-10-28 2003-01-08 惠普公司 进行串匹配的方法
US20030154075A1 (en) * 1998-12-29 2003-08-14 Thomas B. Schalk Knowledge-based strategies applied to n-best lists in automatic speech recognition systems
CN1645408A (zh) * 2005-01-25 2005-07-27 邮政科学上海研究所 邮政编码数字串识别方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1098504C (zh) * 1994-10-28 2003-01-08 惠普公司 进行串匹配的方法
US20030154075A1 (en) * 1998-12-29 2003-08-14 Thomas B. Schalk Knowledge-based strategies applied to n-best lists in automatic speech recognition systems
CN1645408A (zh) * 2005-01-25 2005-07-27 邮政科学上海研究所 邮政编码数字串识别方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
串频统计和词形匹配相结合的汉语自动分词***. 刘挺,吴岩,王开涛.中文信息学报,第12卷第1期. 1998
串频统计和词形匹配相结合的汉语自动分词***. 刘挺,吴岩,王开涛.中文信息学报,第12卷第1期. 1998 *

Also Published As

Publication number Publication date
CN101079032A (zh) 2007-11-28

Similar Documents

Publication Publication Date Title
CN100452042C (zh) 数字串模糊匹配的方法
CN101876981B (zh) 一种构建知识库的方法及装置
CN101950284B (zh) 中文分词方法及***
CN101416179B (zh) 用来向每个用户提供调整推荐字的***和方法
CN101593200B (zh) 基于关键词频度分析的中文网页分类方法
CN101055585B (zh) 文档聚类***和方法
US20060206306A1 (en) Text mining apparatus and associated methods
CN105159998A (zh) 一种基于文档聚类关键词计算方法
CN103076892A (zh) 一种用于提供输入字符串所对应的输入候选项的方法与设备
CN104063387A (zh) 在文本中抽取关键词的装置和方法
CN103678576A (zh) 基于动态语义分析的全文检索***
CN101840397A (zh) 词义消歧方法和***
CN101794307A (zh) 基于互联网分词思想的车载导航poi搜索引擎
Chen et al. Template detection for large scale search engines
CN103218364A (zh) 一种搜索方法和***
CN103617174A (zh) 一种基于云计算的分布式搜索方法
Wick et al. A unified approach for schema matching, coreference and canonicalization
CN104462061B (zh) 词语提取方法及提取装置
CN103076894A (zh) 一种用于根据对象标识信息构建输入词条的方法与设备
CN110059253A (zh) 一种基于自然语言分析的排序方法和***以及设备
US20140081982A1 (en) Method and Computer for Indexing and Searching Structures
CN113139558A (zh) 确定物品的多级分类标签的方法和装置
CN114491232B (zh) 信息查询方法、装置、电子设备和存储介质
WO2021196470A1 (zh) 信息推送方法、装置、设备及存储介质
CN114817498A (zh) 用户意图识别方法、装置、设备及存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
C41 Transfer of patent application or patent right or utility model
TR01 Transfer of patent right

Effective date of registration: 20160106

Address after: The South Road in Guangdong province Shenzhen city Fiyta building 518057 floor 5-10 Nanshan District high tech Zone

Patentee after: Shenzhen Tencent Computer System Co., Ltd.

Address before: 518057 Guangdong city of Shenzhen province high tech Park high-tech South Road Fiyta high-tech building 5-10

Patentee before: Tencent Technology (Shenzhen) Co., Ltd.