CN100452042C - 数字串模糊匹配的方法 - Google Patents
数字串模糊匹配的方法 Download PDFInfo
- Publication number
- CN100452042C CN100452042C CNB200610036119XA CN200610036119A CN100452042C CN 100452042 C CN100452042 C CN 100452042C CN B200610036119X A CNB200610036119X A CN B200610036119XA CN 200610036119 A CN200610036119 A CN 200610036119A CN 100452042 C CN100452042 C CN 100452042C
- Authority
- CN
- China
- Prior art keywords
- participle
- numeric string
- user
- fuzzy matching
- neologisms
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明涉及一种数字串模糊匹配的方法,可应用于即时通信中,包括以下步骤:a.将用户输入的数字串进行分词;b.根据所述分词得到的新词与号码库里的词进行模糊匹配;c.根据所述模糊匹配得到的号码包含所述新词中数字的数量,对所述模糊匹配得到的号码进行排序,并将其返回给所述用户。本发明在号码库没有用户输入的号码时,找出最相似的号码推荐给用户,避免了用户重复查找号码。同时,也减少了用户对查询号码的请求次数,减轻了***压力。
Description
技术领域
本发明涉及计算机模糊搜索技术,更具体地说,涉及一种数字串模糊匹配的方法。
背景技术
目前的主要搜索引擎的模式都是,用户输入一些关键字或者句子,无论是那种,搜索引擎都会首先对用户的输入进行分词,这样可以增加搜索结果的准确性,这是和普通数据库搜索的不同点(普通的数据库搜索,只是简单的用like%关键字%),然后搜索引擎去海量的索引库去查找这些和用户输入相关的信息,显示的结果会包含网页的相关摘要。
中文搜索引擎相关的技术包含:网络蜘蛛,中文分词,索引库,网页摘要的提取,网页相似度,信息的分类。
众所周知,英文是以词为单位的,词和词之间是靠空格隔开,而中文是以字为单位,句子中所有的字连起来才能描述一个意思。例如,英文句子I am astudent,用中文则为:“我是一个学生”。计算机可以很简单通过空格知道student是一个单词,但是不能很容易明白“学”、“生”两个字合起来才表示一个词。把中文的汉字序列切分成有意义的词,就是中文分词(或称为切词)。我是一个学生,分词的结果是:我是一个学生。中文分词的准确与否,常常直接影响到对搜索结果的相关度排序。
现有的搜索引擎一般使用分词算法,实际应用的统计分词***都要使用一部基本的分词词典(常用词词典)进行串匹配分词。这种分词方法是通过让计算机模拟人对句子的理解,达到识别词的效果。其基本思想就是在分词的同时进行句法、语义分析,利用句法信息和语义信息来处理歧义现象。
但是,现有的分词技术,一般是针对中文的,而没有专门针对数字串的“分词”的匹配算法;而且,现有的分词技术需要通过查找词典进行分词,速度较慢;另外,现有的分词技术没有考虑每个词之间的顺序关系,而是分割成相互之间比较独立的词,没有保存原材料的词顺序关系。
发明内容
本发明要解决的技术问题在于,针对现有技术的上述现有的分词技术缺陷,提供一种数字串模糊匹配的方法,可以对数字串进行分词并进行模糊匹配。
本发明解决其技术问题所采用的技术方案是:构造一种数字串模糊匹配的方法,应用于即时通信中,包括以下步骤:
a.对号码库里的号码按照预设长度进行移位分词;
b.将用户输入的数字串按照预设长度进行移位分词,所述用户输入的数字串进行移位分词的预设长度与所述号码库里的号码分词的长度一样;
c.根据用户输入的数字串分词得到的新词与号码库里的号码分词得到的词进行模糊匹配;
d.根据所述模糊匹配得到的号码包含所述新词中数字串的数量,对所述模糊匹配得到的号码进行排序,并将其返回给所述用户。
本发明所述的方法中,所述移位分词的方法具体包括:从用户输入的数字串的第一位开始,按照预设长度进行移位分割,生成多个新词。
本发明所述的方法中,所述步骤c进一步包括:将用户输入的数字串分词得到的新词加上不同的系数,用于在排序时作为权重。
本发明所述的方法中,所述步骤d中,所述排序的方法具体包括:若所述模糊匹配得到的号码包含所述新词中数字串的数量越多,则所述模糊匹配得到的号码的排序则越靠前。
本发明所述的方法中,所述步骤d进一步包括:将所述模糊匹配得到的号码按照排序的先后,选取预设个号码返回给所述用户。
本发明的有益效果是,在号码库没有用户输入的号码时,找出最相似的号码推荐给用户,避免了用户重复查找号码。同时,也减少了用户对查询号码的请求次数,减轻了***压力。
附图说明
下面将结合附图及实施例对本发明作进一步说明,附图中:
图1是本发明的数字串模糊匹配的流程图。
具体实施方式
为使本发明的目的、技术方案及优点更加清楚明白,以下通过具体实施例并参见附图,对本发明进行详细说明。
本发明中,通过将用户输入的数字串按照长度进行分割,根据分割出来的词所处位置加上不同系数,在排序的时候当作权重,排序不同的词具有不同的权重,一般来说,排序越靠前的,权重越高。
然后,根据分词得到的词与号码库里的词进行匹配,选出包含分割出来的词的数量最多的号码并将其进行排序。
下面参照图1示出的数字串模糊匹配的流程图为例进行说明,包括以下步骤:
步骤S100:用户输入数字串,如用户输入即时通信的ID号码。
步骤S105:对用户输入的数字串进行分词。如将用户输入的即时通信ID号码进行分割,从用户输入的数字串的第一位开始,按照预设长度进行移位分割,生成多个新词。若用户输入的号码为1345679,则可以将其按照长度为5(也可以为其它长度,这个长度可以由***预先设定,也可以由用户预先设定)进行分割,如分割为:13456、34567、45679三个新词。
对用户输入的号码进行分割时,可以根据分割出来的词所处位置加上不同系数,在排序的时候当作权重。如开头的词权重较高。该系数可以根据业务特点制定。例如,一般认为:如果分割出来的词的首、尾数字匹配,应该就更好,则系数就会比较高。例如,可以将号码1234567分割出来的词:12345和34567的系数设置为3,而23456的系数设置为2。
步骤S110:根据步骤S105分词得到的词与号码库里的词进行匹配。但是,预先要将号码库(如即时通信的所有ID库,一般存在服务器上)里的所有号码按照长度为5(也可以为其它长度,这个长度是预先设定的,但是要跟上述对用户的输入的分词长度一样)进行分割,如将1234567分割为:12345、23456、34567三个新词,构成上述号码库里的词。
步骤S115:按照包含用户输入的词数量(相似系数)对号码进行排序。如前面所述的1345679和1234567有相同的词34567,因此这两个ID的相似系数是3。由于前后分割的词是有比较多重合的,因此,分出来的词已经充分考虑了词与词之间的顺序关系。一般来说,跟用户输入数字串最大匹配长度越长的(即相似***越高),排序就会越靠前。
步骤120:选出包含用户输入的词数量最多的号码返回给用户。也就是将相似系数最高的号码返回给用户。例如,假设用户输入的数字串(即号码)包含5个新词W1~W5,其中W1的系数是3,W2~W5的系数是2。号码库里的号码Q1包含了词W1、W3;号码库里的号码Q2包含了词W2、W4。则号码Q1跟用户输入的数字串相似系数是5(即3+2=5),而号码Q2是4(即2+2=4)。因此号码Q1相似系数较高,则返回号码Q1给用户。
返回给用户的号码个数可以预先设定,例如可以预设设定返回给用户号码的个数为10个,那么***就会将与用户输入的数字串最相似的前10个号码返回给用户。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均包含在本发明的保护范围之内。
Claims (5)
1、一种数字串模糊匹配的方法,应用于即时通信中,其特征在于,包括以下步骤:
a.对号码库里的号码按照预设长度进行移位分词;
b.对用户输入的数字串按照预设长度进行移位分词,所述用户输入的数字串进行移位分词的预设长度与所述号码库里的号码分词的长度一样;
c.根据用户输入的数字串分词得到的新词与号码库里号码分词得到的词进行模糊匹配;
d.根据所述模糊匹配得到的号码包含所述新词中数字串的数量,对所述模糊匹配得到的号码进行排序,并将其返回给所述用户。
2、根据权利要求1所述的方法,其特征在于,所述移位分词的方法具体包括:从用户输入的数字串的第一位开始,按照预设长度进行移位分割,生成多个新词。
3、根据权利要求1所述的方法,其特征在于,所述步骤c进一步包括:将用户输入的数字串分词得到的新词加上不同的系数,用于在排序时作为权重。
4、根据权利要求1所述的方法,其特征在于,所述步骤d中,所述排序的方法具体包括:若所述模糊匹配得到的号码包含所述新词中数字串的数量越多,则所述模糊匹配得到的号码的排序则越靠前。
5、根据权利要求1所述的方法,其特征在于,所述步骤d进一步包括:将所述模糊匹配得到的号码按照排序的先后,选取预设个号码返回给所述用户。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CNB200610036119XA CN100452042C (zh) | 2006-06-23 | 2006-06-23 | 数字串模糊匹配的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CNB200610036119XA CN100452042C (zh) | 2006-06-23 | 2006-06-23 | 数字串模糊匹配的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN101079032A CN101079032A (zh) | 2007-11-28 |
CN100452042C true CN100452042C (zh) | 2009-01-14 |
Family
ID=38906511
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CNB200610036119XA Active CN100452042C (zh) | 2006-06-23 | 2006-06-23 | 数字串模糊匹配的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN100452042C (zh) |
Families Citing this family (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101082936A (zh) * | 2007-06-29 | 2007-12-05 | 中兴通讯股份有限公司 | 数据查询***及方法 |
CN103064847A (zh) * | 2011-10-20 | 2013-04-24 | 北京中搜网络技术股份有限公司 | 索引装置、索引方法、检索装置、检索方法和检索*** |
CN102890719B (zh) * | 2012-10-12 | 2015-12-16 | 浙江宇视科技有限公司 | 一种对车牌号进行模糊搜索的方法及装置 |
CN103309991A (zh) * | 2013-06-19 | 2013-09-18 | 南京邮电大学 | 一种基于高校危险品仓库管理程序中的查询方法 |
CN103544277A (zh) * | 2013-10-22 | 2014-01-29 | 深圳市捷顺科技实业股份有限公司 | 一种查询目标文本的方法及装置 |
CN104881503A (zh) * | 2015-06-24 | 2015-09-02 | 郑州悉知信息技术有限公司 | 一种数据处理方法和装置 |
CN108632212B (zh) * | 2017-03-20 | 2021-07-23 | 展讯通信(上海)有限公司 | 多方通话中通话状态的更新方法、装置及多通终端 |
CN106980686A (zh) * | 2017-03-31 | 2017-07-25 | 努比亚技术有限公司 | 一种搜索词的分词方法及终端 |
CN109255283B (zh) * | 2017-07-14 | 2021-06-04 | 杭州海康威视数字技术股份有限公司 | 一种基于多帧的车牌号码确定方法、装置及电子设备 |
CN108629174B (zh) * | 2018-05-08 | 2022-06-07 | 创新先进技术有限公司 | 字符串校验的方法及装置 |
CN110889769B (zh) * | 2018-08-21 | 2022-09-20 | 湖南共睹互联网科技有限责任公司 | 交易保障关联方法、计算机装置及计算机可读存储介质 |
US11921770B2 (en) | 2018-12-28 | 2024-03-05 | Shenzhen Sekorm Component Network Co., Ltd | Electronic element supporting data inquiry method, storage medium and terminal |
CN109840294B (zh) * | 2018-12-28 | 2023-04-18 | 深圳市世强元件网络有限公司 | 电子元件配套资料查询方法、存储介质及终端 |
CN111860657A (zh) * | 2020-07-23 | 2020-10-30 | 中国建设银行股份有限公司 | 一种图像分类方法、装置、电子设备及存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1098504C (zh) * | 1994-10-28 | 2003-01-08 | 惠普公司 | 进行串匹配的方法 |
US20030154075A1 (en) * | 1998-12-29 | 2003-08-14 | Thomas B. Schalk | Knowledge-based strategies applied to n-best lists in automatic speech recognition systems |
CN1645408A (zh) * | 2005-01-25 | 2005-07-27 | 邮政科学上海研究所 | 邮政编码数字串识别方法 |
-
2006
- 2006-06-23 CN CNB200610036119XA patent/CN100452042C/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1098504C (zh) * | 1994-10-28 | 2003-01-08 | 惠普公司 | 进行串匹配的方法 |
US20030154075A1 (en) * | 1998-12-29 | 2003-08-14 | Thomas B. Schalk | Knowledge-based strategies applied to n-best lists in automatic speech recognition systems |
CN1645408A (zh) * | 2005-01-25 | 2005-07-27 | 邮政科学上海研究所 | 邮政编码数字串识别方法 |
Non-Patent Citations (2)
Title |
---|
串频统计和词形匹配相结合的汉语自动分词***. 刘挺,吴岩,王开涛.中文信息学报,第12卷第1期. 1998 |
串频统计和词形匹配相结合的汉语自动分词***. 刘挺,吴岩,王开涛.中文信息学报,第12卷第1期. 1998 * |
Also Published As
Publication number | Publication date |
---|---|
CN101079032A (zh) | 2007-11-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN100452042C (zh) | 数字串模糊匹配的方法 | |
CN101876981B (zh) | 一种构建知识库的方法及装置 | |
CN101950284B (zh) | 中文分词方法及*** | |
CN101416179B (zh) | 用来向每个用户提供调整推荐字的***和方法 | |
CN101593200B (zh) | 基于关键词频度分析的中文网页分类方法 | |
CN101055585B (zh) | 文档聚类***和方法 | |
US20060206306A1 (en) | Text mining apparatus and associated methods | |
CN105159998A (zh) | 一种基于文档聚类关键词计算方法 | |
CN103076892A (zh) | 一种用于提供输入字符串所对应的输入候选项的方法与设备 | |
CN104063387A (zh) | 在文本中抽取关键词的装置和方法 | |
CN103678576A (zh) | 基于动态语义分析的全文检索*** | |
CN101840397A (zh) | 词义消歧方法和*** | |
CN101794307A (zh) | 基于互联网分词思想的车载导航poi搜索引擎 | |
Chen et al. | Template detection for large scale search engines | |
CN103218364A (zh) | 一种搜索方法和*** | |
CN103617174A (zh) | 一种基于云计算的分布式搜索方法 | |
Wick et al. | A unified approach for schema matching, coreference and canonicalization | |
CN104462061B (zh) | 词语提取方法及提取装置 | |
CN103076894A (zh) | 一种用于根据对象标识信息构建输入词条的方法与设备 | |
CN110059253A (zh) | 一种基于自然语言分析的排序方法和***以及设备 | |
US20140081982A1 (en) | Method and Computer for Indexing and Searching Structures | |
CN113139558A (zh) | 确定物品的多级分类标签的方法和装置 | |
CN114491232B (zh) | 信息查询方法、装置、电子设备和存储介质 | |
WO2021196470A1 (zh) | 信息推送方法、装置、设备及存储介质 | |
CN114817498A (zh) | 用户意图识别方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
C41 | Transfer of patent application or patent right or utility model | ||
TR01 | Transfer of patent right |
Effective date of registration: 20160106 Address after: The South Road in Guangdong province Shenzhen city Fiyta building 518057 floor 5-10 Nanshan District high tech Zone Patentee after: Shenzhen Tencent Computer System Co., Ltd. Address before: 518057 Guangdong city of Shenzhen province high tech Park high-tech South Road Fiyta high-tech building 5-10 Patentee before: Tencent Technology (Shenzhen) Co., Ltd. |