CN112015865A - 基于分词的全称匹配搜索方法、装置、设备及存储介质 - Google Patents

基于分词的全称匹配搜索方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN112015865A
CN112015865A CN202010873177.8A CN202010873177A CN112015865A CN 112015865 A CN112015865 A CN 112015865A CN 202010873177 A CN202010873177 A CN 202010873177A CN 112015865 A CN112015865 A CN 112015865A
Authority
CN
China
Prior art keywords
preset
target
full
participle
participles
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010873177.8A
Other languages
English (en)
Other versions
CN112015865B (zh
Inventor
高昊江
孙刚
桂冠
赵龙虎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Northking Information Technology Co ltd
Original Assignee
Northking Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Northking Information Technology Co ltd filed Critical Northking Information Technology Co ltd
Priority to CN202010873177.8A priority Critical patent/CN112015865B/zh
Publication of CN112015865A publication Critical patent/CN112015865A/zh
Application granted granted Critical
Publication of CN112015865B publication Critical patent/CN112015865B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/338Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例公开了一种基于分词的全称匹配搜索方法、装置、设备及存储介质,其中,基于分词的全称匹配搜索方法包括:根据预设分词确定规则,确定获取到的搜索关键字对应的目标分词集合;基于预设分词与预设全称之间的对应关系,确定与所述目标分词集合匹配的候选全称集合;根据预设排序规则,对所述候选全称集合进行排序,并展示排序结果。本发明实施例的技术方案能够快速精准的检索到与目标关键词对应的全称,并且能够以合理的优先级显示检索到的全称。

Description

基于分词的全称匹配搜索方法、装置、设备及存储介质
技术领域
本发明实施例涉及检索技术领域,尤其涉及一种基于分词的全称匹配搜索方法、装置、设备及存储介质。
背景技术
在利用关键字进行与关键字相关的标准全称检索(例如在金融***中,利用用户输入的关键字检索银行的标准全称,或者在地名检索***中,利用用户输入的关键字检索地名的标准全称等)时,通常采用模糊搜索技术,通过在用户输入的关键字中的每个字之间加模糊搜索符“%”,之后在数据库中进行模糊匹配,搜出多条标准全称,供用户下拉选择。该方法存在响应时间长,检索结果不够精确,返回的多条标准全称显示优先级不合理,需要用户再次进行选择等问题。在一些金融***中,还可以基于分词检索银行的标准全称,在基于固定的分词进行查询时,必须输入银行标准全称中的完整分词,若输入的分词不准确或者输入的分词不合理时,可能会查询不到想要的银行全称,或者查询结果排序不合理,而且此方法不支持简称查询和别名查询;在基于单个字的分析进行查询时,随着搜索关键字字符的增多,搜索效率会大大降低。
发明内容
本发明实施例提供一种基于分词的全称匹配搜索方法、装置、设备及存储介质,能够快速精准的检索到与目标关键词对应的全称,并且能够以合理的优先级显示检索到的全称。
第一方面,本发明实施例提供了一种基于分词的全称匹配搜索方法,所述基于分词的全称匹配搜索方法包括:
根据预设分词确定规则,确定获取到的搜索关键字对应的目标分词集合;
基于预设分词与预设全称之间的对应关系,确定与所述目标分词集合匹配的候选全称集合;
根据预设排序规则,对所述候选全称集合进行排序,并展示排序结果。
第二方面,本发明实施例还提供了一种基于分词的全称匹配搜索装置,所述基于分词的全称匹配搜索装置包括:
目标分词集合确定模块,用于根据预设分词确定规则,确定获取到的搜索关键字对应的目标分词集合;
候选全称集合确定模块,用于基于预设分词与预设全称之间的对应关系,确定与所述目标分词集合匹配的候选全称集合;
排序展示模块,用于根据预设排序规则,对所述候选全称集合进行排序,并展示排序结果。
第三方面,本发明实施例还提供了一种计算机设备,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如上所述的基于分词的全称匹配搜索方法。
第四方面,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上所述的基于分词的全称匹配搜索方法。
本发明实施例通过根据预设分词确定规则,确定获取到的搜索关键字对应的目标分词集合;基于预设分词与预设全称之间的对应关系,确定与目标分词集合匹配的候选全称集合;根据预设排序规则,对候选全称集合进行排序,并展示排序结果,通过对搜索关键字进行分词,能够快速精准的检索到与目标关键词对应的全称,并且能够以合理的优先级显示检索到的全称。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图做一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例一中的一种基于分词的全称匹配搜索方法的流程图;
图2是本发明实施例二中的一种基于分词的全称匹配搜索方法的流程图;
图3是本发明实施例三中的一种基于分词的全称匹配搜索方法的流程图;
图4是本发明实施例四中的一种基于分词的全称匹配搜索装置的结构示意图;
图5是本发明实施例五中的一种基于分词的全称匹配搜索***的结构示意图;
图6是本发明实施例六中的一种计算机设备的结构示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
实施例一
图1为本发明实施例一提供的一种基于分词的全称匹配搜索方法的流程图,本实施例可适用于检索并对检索结果进行合理排序的情况,该方法可以由排序装置来执行,该装置可以采用软件和/或硬件的方式实现,该装置可以配置于计算机设备中。如图1所示,该方法可以包括如下步骤:
S110、根据预设分词确定规则,确定获取到的搜索关键字对应的目标分词集合。
搜索关键字为用户输入的用于检索相应目标全称的关键字,示例性的,搜索关键字可以为与银行全称相对应的关键字,相应的,目标全称为银行全称。示例性的,搜索关键字为与详细地址相对应的关键字,相应的,目标全称为地址全称等。搜索关键字可以包括汉字,英文单词,英文字母、拼音以及拼音首字母中的至少一项。例如,搜索关键字为“建行翠微”,也可以为“jhcw”等。
分词为对搜索关键字中的字进行拆分和/或临近字组合后形成的词。目标分词集合中包括至少一个目标分词,其中,目标分词为根据预设分词确定规则,从搜索关键字中提取出来的分词。
示例性的,预设分词确定规则可以是将搜索关键字中的每个字作为一个目标分词,构成目标分词集合。例如,搜索关键字为“建行翠微”,则根据预设分词确定规则确定的目标分词集合包括{建,行,翠,微}。预设分词确定规则可以是将搜索关键字中的每相邻两个字作为一个目标分词,构成目标分词集合。例如,搜索关键字为“建行翠微”,则根据预设分词确定规则确定的目标分词集合包括{建行,行翠,翠微}。预设分词确定规则可以将搜索关键字中的每相邻三个字作为一个目标分词,构成目标分词集合。例如,搜索关键字为“建行翠微”,则根据预设分词确定规则确定的目标分词集合包括{建行翠,行翠微}。以此类推,预设分词确定规则可以将搜索关键字中的所有字作为一个目标分词,构成目标分词集合。例如,搜索关键字为“建行翠微”,则根据预设分词确定规则确定的目标分词集合包括{建行翠微}。
示例性的,预设分词确定规则也可以是将上述确定目标分词的方法进行组合,得到搜索关键字对应的目标分词,构成目标分词集合,例如可以将搜索关键字中的每个字作为一个目标分词和每两个字作为一个目标分词,构成目标分词集合。仍以搜索关键字为“建行翠微”为例,根据预设分词确定规则确定的目标分词集合包括{建,行,翠,微,建行,行翠,翠微}。也可以是将搜索关键字中的每个字作为一个目标分词、每两个字作为一个目标分词、每三个字作为一个目标分词、……以及将搜索关键字中的所有字作为一个目标分词,构成目标分词集合。仍以搜索关键字为“建行翠微”为例,根据预设分词确定规则确定的目标分词集合包括{建,行,翠,微,建行,行翠,翠微,建行翠,行翠微,建行翠微}。
示例性的,预设分词确定规则还可以是在上述各预设分词确定规则的基础上,基于预设分词集合,确定预设分词集合与目标分词集合的交集,并将该交集作为目标分词集合。例如,利用上述预设分词确定规则确定的目标分词集合包括{建,行,翠,微,建行,行翠,翠微,建行翠,行翠微,建行翠微},预设分词集合为{建,行,翠,微,建行,翠微,建行翠微,中,中国银行,中银},则可以确定目标分词集合与预设分词集合的交集为{建,行,翠,微,建行,翠微,建行翠微},则将集合{建,行,翠,微,建行,翠微,建行翠微}作为目标分词集合。
S120、基于预设分词与预设全称之间的对应关系,确定与目标分词集合匹配的候选全称集合。
优选的,在确定与目标分词集合匹配的候选全称集合之前,可以预先建立预设分词与预设全称之间的对应关系。其中,预设全称可以是相应技术领域内所包括的全称,例如技术领域为金融技术领域,则预设全称可以是银行全称。预设分词则可以是基于预设全称,根据上述任一预设分词确定规则确定的分词。一般的,预设分词与预设全称之间的对应关系是多对多关系,即一个预设分词可以对应多个预设全称,一个预设全称对应多个预设分词。当预设分词具有一个或者多个别名分词时,将预设分词与其别名分词作为一个整体预设分词集合,对应多个预设全称(该多个预设全称是预设分词对应多个预设全称与每个别名分词对应对个预设全称的全集)。
本实施例中,目标分词集合对应的候选全称集合为目标分词集合中的每个目标分词对应的候选全称组成的集合。该候选全称集合即为搜索关键字匹配到的候选全称集合。
S130、根据预设排序规则,对候选全称集合进行排序,并展示排序结果。
示例性的,预设排序规则可以是将确定候选全称集合中的每个候选全称与搜索关键字之间的相似度,并按照相似度的大小对候选全称进行降序排列。相似度的确定方法可以是将候选全称与搜索关键字作为一对输入,输入到预先训练好的相似度确定模型中,输出的相似度值越高,则可以确定候选全称与搜索关键字之间的相似度越高。也可以是将候选全称与搜索关键字进行逐字比对,确定候选全称与搜索关键字之间相同字符对应的相同字符数目,相同字符数目越多,则可以确定候选全称与搜索关键字之间的相似度越高,相同字符数目越少,则可以确定候选全称与搜索关键字之间的相似度越低。还可以是将相同字符数目作为第一相似度优先级,在确定相同字符数目之后,确定候选全称中去除相同字符以及可忽略分词之后,剩余字符对应的剩余字符数目,并将剩余字符数目作为第二相似度优先级。当利用第一相似度优先级无法确定候选全称的先后顺序时,可以基于第二相似度优先级确定,即剩余字符数目越少,则可以确定候选全称与搜索关键字之间的相似度越高,剩余字符数目越多,则可以确定候选全称与搜索关键字之间的相似度越低。
优选的,展示排序结果可以是按照排序先后顺序,将排序后的候选全称集合全部展示出来,也可以是按照排序先后顺序,将排序后的候选全称集合中前预设数目个候选全称展示出来等。其中,候选全称集合中的每个候选全称可以包括全称以及全称对应的唯一标识信息。示例性的,候选全称为候选银行全称,则候选全称集合中的每个候选全称包括银行全称以及联行号等。其中,联行号,又称银行行号,是一个地区银行的唯一识别标志,用于中国人民银行所建设运行的大、小额支付***/城市商业银行银行汇票处理***/全国支票影像***等***的跨区域现代化支付结算业务。银行行号由12位组成:3位银行代码+4位城市代码+4位银行编号+1位校验位。目前,全国的联行号数据有近20万条。
本实施例提供的一种基于分词的全称匹配搜索方法,根据预设分词确定规则,确定获取到的搜索关键字对应的目标分词集合;基于预设分词与预设全称之间的对应关系,确定与目标分词集合匹配的候选全称集合;根据预设排序规则,对候选全称集合进行排序,并展示排序结果。通过对搜索关键字进行分词,能够快速精准的检索到与目标关键词对应的全称,并且能够以合理的优先级显示检索到的全称。
实施例二
图2为本发明实施例二提供的一种基于分词的全称匹配搜索方法的流程图。本实施例可以与上述一个或者多个实施例中各个可选方案结合,在本实施例中,所述目标分词集合包括当前字目标分词,根据预设分词确定规则,确定获取到的搜索关键字对应的目标分词集合,包括:
依次确定以所述搜索关键字的当前字为起点、字符数不小于二且字符数递增的当前字关键词,得到当前字关键词集合;
每得到一个当前字关键词,则确定当前字关键词是否存在于预设分词集合中;
当第一次确定存在当前字关键词,且所述当前字关键词存在于所述预设分词集合中时,将所述当前字关键词作为当前字目标分词,并停止确定所述当前字的后续当前字关键词;
将从所述当前字开始,与所述当前字距离第一字符长度的字作为下一个当前字,并继续确定下一个当前字的当前字关键词,所述第一字符长度为所述当前字目标分词的字符长度;
若确定所有当前字关键词均不存在于所述预设分词集合中,则确定预设分词集合中是否包括所述当前字;
若包括,则将所述当前字作为当前字目标分词,并将所述当前字的下一个字作为下一个当前字;
若不包括,则确定不存在所述当前字对应的当前字目标分词,并将所述当前字的下一个字作为下一个当前字。
如图2所示,该方法可以包括如下步骤:
S210、依次确定以搜索关键字的当前字为起点、字符数不小于二且字符数递增的当前字关键词。
S220、每得到一个当前字关键词,则判断当前字关键词是否存在于预设分词集合中,若存在,则执行S230;若不存在,则执行S250。
S230、当第一次确定存在当前字关键词,且所述当前字关键词存在于所述预设分词集合中时,将所述当前字关键词作为当前字目标分词,并停止确定所述当前字的后续当前字关键词。
S240、将从所述当前字开始,与所述当前字距离第一字符长度的字作为下一个当前字,并继续确定下一个当前字的当前字关键词,所述第一字符长度为所述当前字目标分词的字符长度。
S250、若确定所有当前字关键词均不存在于所述预设分词集合中,则判断预设分词集合中是否包括所述当前字,若包括,则执行S260;若不包括,则执行S270。
S260、将所述当前字作为当前字目标分词,并将所述当前字的下一个字作为下一个当前字。
S270、确定不存在所述当前字对应的当前字目标分词,并将所述当前字的下一个字作为下一个当前字。
下面以搜索关键字为“建行翠微”,预设分词集合中包括“中国建设银行”、“建行”、“翠”和“微”等四个预设分词为例,对上述S220-S270进行具体说明:
例如,当前字为“建”,首先确定以当前字“建”为起点,字符数为2的当前字关键词为“建行”。在得到当前字关键词“建行”之后,判断当前字关键词“建行”是否存在于预设分词集合中,由于预设分词集合包括预设分词“建行”,因此,可以第一次确定当前字关键词“建行”存在于预设分词集合中,此时,就可以将当前字关键词作为当前字“建”的当前字目标分词,并停止确定当前字“建”的后续当前字关键词(即当前字“建”的后续当前字关键词为以当前字“建”为起点,字符数为3的当前字关键词“建行翠”以及以当前字“建”为起点,字符数为4的当前字关键词“建行翠微”)。
之后,将从当前字“建”开始,与当前字“建”距离第一字符长度的字作为下一个当前字,第一字符长度为当前字目标分词“建行”的字符长度2,可以确定下一个当前字为“翠”。
针对下一个当前字“翠”,首先确定以当前字“翠”为起点,字符数为2的当前字关键词为“翠微”。在得到当前字关键词“翠微”之后,判断当前字关键词“翠微”是否存在于预设分词集合中。由于预设分词集合中不包括预设分词“翠微”,因此可以确定当前字关键词“翠微”不存在于预设分词集合中。之后确定以当前字“翠”为起点,字符数为3的当前字关键词,由于翠微后面没有第三个字符,因此不存在字符数为3的当前字关键词,此时,可以确定当前字“翠”对应的所有当前字关键词均不存在于预设分词集合中。
接下来确定预设分词集合中是否包括当前字“翠”,由于预设分词集合中包括预设分词“翠”,则可以确定预设分词集合中包括当前字“翠”,此时,可以将当前字“翠”作为当前字“翠”的当前字目标分词,并将当前字“翠”的下一个字“微”作为下一个当前字。
若在另一个示例中,预设分词集合中不包括当前字“翠”,则确定不存在当前字“翠”对应的当前字目标分词,将当前字“翠”的下一个字“微”作为下一个当前字。
针对下一个当前字“微”,首先确定以当前字“微”为起点,字符数为2的当前字关键词,由于微后面没有其他字符,因此不存在字符数为2的当前字关键词,由于当前字“微”没有对应的当前字关键词,因此,可以确定当前字“微”对应的所有当前字关键词均不存在于预设分词集合中。
接下来确定预设分词集合中是否包括当前字“微”,由于预设分词集合中包括预设分词“微”,则可以确定预设分词集合中包括当前字“微”,此时,可以将当前字“微”作为当前字“微”的当前字目标分词。
由于“微”后面没有其他字符,因此确定搜索关键词对应的目标分词集合步骤结束,则根据预设分词确定规则,确定获取到的搜索关键字“建行翠微”对应的目标分词集合为{建行,翠,微}。
S280、基于预设分词与预设全称之间的对应关系,确定与目标分词集合匹配的候选全称集合。
S290、根据预设排序规则,对候选全称集合进行排序,并展示排序结果。
本实施例提供的一种基于分词的全称匹配搜索方法,依次确定以所述搜索关键字的当前字为起点、字符数不小于二且字符数递增的当前字关键词;每得到一个当前字关键词,则确定当前字关键词是否存在于预设分词集合中;当第一次确定存在当前字关键词,且所述当前字关键词存在于所述预设分词集合中时,将所述当前字关键词作为当前字目标分词,并停止确定所述当前字的后续当前字关键词;将从所述当前字开始,与所述当前字距离第一字符长度的字作为下一个当前字,并继续确定下一个当前字的当前字关键词,所述第一字符长度为所述当前字目标分词的字符长度;若确定所有当前字关键词均不存在于所述预设分词集合中,则确定预设分词集合中是否包括所述当前字;若包括,则将所述当前字作为当前字目标分词,并将所述当前字的下一个字作为下一个当前字;若不包括,则确定不存在所述当前字对应的当前字目标分词,并将所述当前字的下一个字作为下一个当前字;基于预设分词与预设全称之间的对应关系,确定与目标分词集合匹配的候选全称集合;根据预设排序规则,对候选全称集合进行排序,并展示排序结果,在能够快速精准的检索到与目标关键词对应的全称,并且能够以合理的优先级显示检索到的全称的前提下,能够对目标关键词进行合理分词且有效减少目标分词的数目。
优选的,在确定当前字关键词是否存在于预设分词集合中之前,还包括:将第一部分预设分词预先加载到内存中,形成所述预设分词集合;其中所述预设分词集合中的第一部分预设分词至少包括本名分词、别名分词和可忽略分词,其中,所述别名分词为所述本名分词的别名,所述可忽略分词为在全称搜索匹配过程中,可以直接忽略的分词;将每个预设全称中的每个字确定为第二部分预设分词,所述预设全称为预先加载到内存中的预设全称;将不存在于所述预设分词集合中的第二部分预设分词添加到所述预设分词集合中;确定每个所述预设全称与其他预设全称之间是否存在连续相同的字,其中,所述连续相同的字的长度不小于二;若存在,则将所述连续相同的字作为相同分词,得到相同分词集合;将相同分词集合中的各相同分词按照字符长度进行升序排列,得到升序相同分词集合;按照所述根据预设分词确定规则,确定获取到的搜索关键字对应的目标分词集合的方法,确定所述升序相同分词集合中的每个相同分词对应的中间目标预设分词,得到每个相同分词对应的中间目标预设分词集合;删除每个所述中间目标预设分词集合中字符长度等于一的中间目标预设分词,得到更新后的每个所述中间目标预设分词集合;确定同时存在于每个相同分词和其相应中间目标预设分词集合中的交集分词,并将相应相同分词中的交集分词替换为空格,得到空格化相同分词;将除空格外,字符长度不小于二的每个空格化相同分词按空格拆分为至少一个子相同分词,得到子相同分词集合;将子相同分词集合中,字符长度不小于二的子相同分词确定为第三部分预设分词;将不存在于所述预设分词集合中的第三部分预设分词添加到所述预设分词集合中,更新所述预设分词集合。
其中,第一部分预设分词可以是在***启动或需要初始化数据的时候,从数据库或预设路径处的数据文件中加载到内存中的预设分词信息,这些分词信息可以包括地名分词(如省份名称、地市名称、道路名称等)和别名分词。如果预设全称为银行全称,则对应的别名分词可以包括银行的简称和/或别名等,如“建行”是“中国建设银行”的简称、“邮储”是“中国邮政储蓄银行”的简称或别名。本实施例中的预设全称也可以是在***启动或需要初始化数据时,从相应预设存储路径中加载到***内存中的。
优选的,在将每个预设全称中的每个字确定为第二部分预设分词之前,优选可以先去除每个预设全称中的可忽略分词,得到相应的剩余预设全称;之后再确定每个剩余预设全称对应的字符数为一的第二部分预设分词。
其中,可忽略分词优选为预先设置的对检索没有实质意义的分词,示例性的,如果用户需要检索的内容为搜索关键字对应的银行全称,则可忽略分词可以包括“银行”、“支行”、“股份有限公司”等。
在此需要说明的是,如果预设全称为中文,则还可以将其每个汉字的拼音首字母连接起来作为预设拼音全称,并采用上述步骤将预设拼音全称对应的第二部分预设分词和第三部分预设分词更新到预设分词集合中。本实施例中的预设分词支持单个字分词,使得客户不用完整输入整个名称,只输入个别关键字就可以检索出所需全称。
示例性的,第三部分预设分词的确定步骤如下:假设预设分词集合中包括“中行”、“建行”、“北京”、“支行”、“微”,现有两个全称为“中行北京翠微路支行”、“建行北京翠微支行”,这两个全称连续重复的字包括“行北京翠微”、“支行”2个,“支行”存在于预设分词集合中,直接舍弃;“行北京翠微”中“北京”存在于预设分词集合中那么替换“北京”为1个空格,变为“行翠微”,按空格拆分为2个词“行”、“翠微”,前者长度小于2,舍弃,只留下“翠微”这个词加入预设分词集合中。
优选的,在基于预设分词与预设全称之间的对应关系,确定与所述目标分词集合匹配的候选全称集合之前,还包括;确定预设分词集合中每个预设分词对应的目标预设全称;
示例性的,预设全称中包括预设分词,就可以将该预设全称作为相应预设分词对应的目标预设全称。
对第一目标预设全称和第二目标预设全称进行合并处理,得到合并预设全称,其中,第一目标预设全称为预设本名分词对应的预设全称,第二目标预设全称为相应的预设别名分词对应的预设全称。
将所述合并预设全称分别与所述预设本名分词和所述预设别名分词相对应,得到所述预设分词与预设全称之间的对应关系。
示例性的,在预设分词与预设全称之间的对应关系中,存在预设本名分词“中国邮政储蓄银行”,“中国邮政储蓄银行”对应的目标预设全称为第一目标预设全称。在预设分词与预设全称之间的对应关系中,还存在预设别名分词“邮储”,“邮储”对应的目标预设全称为第二目标预设全称。则可以将“中国邮政储蓄银行”对应的第一目标预设全称和“邮储”对应的第二目标预设全称进行合并处理,得到合并处理后的合并预设全称。之后将合并预设全称分别与“中国邮政储蓄银行”和“邮储”相对应(即将合并预设全称分别作为“中国邮政储蓄银行”和“邮储”的预设全称),得到预设分词与预设全称之间的对应关系。
例如,“中国邮政储蓄银行”对应10万条第一目标预设全称,“邮储”对应5条第二目标预设全称,已知“邮储”为“中国邮政储蓄银行”的别名分词,则对第一目标预设全称和第二目标预设全称进行合并处理得到10万+5条合并预设全称,之后,将10万+5条合并预设全称分别作为“中国邮政储蓄银行”和“邮储”的预设全称,得到预设分词与预设全称之间的对应关系。上述过程的实质为将预设本名分词“中国邮政储蓄银行”与预设别名“邮储”对应5条第二目标预设全称建立关联关系,将预设别名“邮储”与预设本名“中国邮政储蓄银行”对应10万条第一目标预设全称建立关联关系。在建立完关联关系之后,优选的,还可以对第一目标预设全称和第二目标预设全称进行去重等处理,得到去重处理后的预设分词与预设全称之间的对应关系。
本实施例中通过支持别名分词,能够使得***更加灵活、用户录入内容更加简化,例如,将“邮储”设为“中国邮政储蓄银行”的别名,那么用户输入“邮储”两个字就会准确命中“中国邮政储蓄银行”,将“建行”设为“中国建设银行”的别名,用户输入“建行”就能准确命中“中国建设银行”。上述步骤大大简化了用户输入内容,提高了录入效率,通过使用别名,简化了用户录入,还提高了后台计算效率,例如,在确定搜索关键字“邮储银行”时,不需要将“邮”、“储”两个字单独分开计算,节省了一半的工作量。
优选的,在对第一目标预设全称和第二目标预设全称进行合并处理,得到预设分词与预设全称之间的对应关系之后,还包括:
将预设分词与预设全称之间的对应关系,存储在内存中的预设分词哈希表中的每个预设分词程序对象内。
本实施例中,哈希表的键为预设分词字符串,哈希表的值为程序对象,该程序对象表示预设分词相对应的预设全称哈希表。示例性的,预设分词哈希表包括“建行”、“中国建设银行”、“北京”等键以及各个键对应的值,以键为“建行”为例,其对应的值表示的是与“建行”对应的预设全程哈希表,该预设全称哈希表可以包括“建行北京分行”、“建行上海分行”以及“建行广州分行”等上万条对象,其中,预设全称哈希表的键可以为全称对应的唯一标识信息,值为全称。示例性的,预设全称哈希表对应的是预设银行全称,则预设全称哈希表的键为预设银行全称对应的联行号,预设全称哈希表的值为预设银行全称。
本实施例中的检索匹配不再基于数据库,而是改为基于计算机内存进行检索。并且分词在内存中并不是采用普通列表进行存储的,而是采用哈希表存储的。基于哈希表可以直接根据分词名称命中对应的分词,而不需要遍历所有分词列表,提高了分词的查询效率。
实施例三
图3为本发明实施例三提供的一种基于分词的全称匹配搜索方法的流程图。本实施例可以与上述一个或者多个实施例中各个可选方案结合,在本实施例中,基于预设分词与预设全称之间的对应关系,确定与所述目标分词集合匹配的候选全称集合,包括:基于预设分词与预设全称之间的对应关系,确定与所述目标分词集合中的每个目标分词匹配的预设全称集合;根据每个目标分词匹配的预设全称的数目大小,对目标分词进行升序排列,得到升序目标分词集合;若存在目标分词对应的预设全称的数目不小于预设集合拆分全称数目阈值,且目标分词的数目不小于预设拆分分词个数阈值,则将所述升序目标分词集合拆分为第一目标分词集合和第二目标分词集合;其中,所述第一目标分词集合包括第一类目标分词和第二类目标分词,所述第一类目标分词为在所述升序目标分词集合中的前预设第一集合分词个数阈值个目标分词,所述第二类目标分词为在所述升序目标分词集合中,除所述第一类目标分词之外且对应的目标预设全称的数目小于所述预设集合拆分全称数目阈值的目标分词;所述第二目标分词集合包括所述升序目标分词集合中,除第一类目标分词和第二类目标分词之外的目标分词;确定第一目标分词集合对应的第一预设全称集合与第二目标分词集合对应的第二预设全称集合的预设全称交集,并将所述预设全称交集作为所述候选全称集合。
若目标分词对应的预设全称的数目均小于预设集合拆分全称数目阈值,或目标分词的数目小于预设拆分分词个数阈值,则合并所述目标分词集合中的每个目标分词所对应的预设全称集合,并去重,得到所述候选全称集合。
以及,根据预设排序规则,对所述候选全称集合进行排序,包括:确定所述候选全称集合中每个候选全称与所述搜索关键字之间的匹配字符以及匹配字符数目;根据匹配字符数目的大小,对所述候选全称集合中的候选全称进行降序排列;若存在匹配字符数目相等的候选全称,则确定每个候选全称对应的剩余字符数目,所述剩余字符数目为去除所述匹配字符和可忽略分词之后,候选全称剩余的字符数目;根据剩余字符数目的大小,对候选全称进行升序排列。
如图3所示,该方法可以包括如下步骤:
S310、根据预设分词确定规则,确定获取到的搜索关键字对应的目标分词集合。
S320、基于预设分词与预设全称之间的对应关系,确定与目标分词集合中的每个目标分词对应的预设全称集合。
基于预设分词与预设全称之间的对应关系,查找到目标分词,进而确定目标分词对应的预设全称集合。若存在目标分词对应的预设全称的数目为0的情况,则舍弃该目标分词。
示例性的,目标分词集合中包括四个目标分词a、b、c和d,其中目标分词d对应的预设全称的数目为0,目标分词a对应的预设全称的数目为10,目标分词b对应的预设全称的数目为6以及目标分词c对应的预设全称的数目为20,则舍弃目标分词集合中的目标分词d。
S330、根据每个目标分词对应的预设全称的数目大小,对目标分词进行升序排列,得到升序目标分词集合。
示例性的,根据每个目标分词对应的预设全称的数目大小,对目标分词集合中的目标分词a、b和c进行升序排列,得到升序目标分词集合为{b,a,c}。
S340、若存在目标分词对应的预设全称的数目不小于预设集合拆分全称数目阈值,且目标分词的数目不小于预设拆分分词个数阈值,则将所述升序目标分词集合拆分为第一目标分词集合和第二目标分词集合。
其中,所述第一目标分词集合包括第一类目标分词和第二类目标分词,所述第一类目标分词为在所述升序目标分词集合中,前预设第一集合分词个数阈值个目标分词,所述第二类目标分词为在所述升序目标分词集合中,除所述第一类目标分词之外且对应的目标预设全称的数目小于所述预设集合拆分全称数目阈值的目标分词;所述第二目标分词集合包括所述升序目标分词集合中,除第一类目标分词和第二类目标分词之外的目标分词。
示例性的,若预设集合拆分全称数目阈值为15,预设拆分分词个数阈值为3,预设第一集合分词个数阈值为2,升序目标分词集合{b,a,c}中的目标分词c对应的预设全称的数目20不小于预设集合拆分全称数目阈值15,且目标分词的数目3不小于预设拆分分词个数阈值3,因此,可以对升序目标分词集合{b,a,c}进行拆分处理。
具体拆分过程为将升序目标分词集合拆分为第一目标分词集合A和第二目标分词集合B。其中,目标分词a和b为在升序目标分词集合中,前预设第一集合分词个数阈值2个目标分词,则目标分词a和b属于第一目标分词集合A中的第一类目标分词,由于目标分词c对应的预设全称的数目20不小于预设集合拆分全称数目阈值15,则可以确定第一目标分词集合A中不存在第二类目标分词。因此,目标分词c属于第二目标分词集合B。
S350、确定第一目标分词集合对应的第一预设全称集合与第二目标分词集合对应的第二预设全称集合的预设全称交集,并将所述预设全称交集作为所述候选全称集合。
继续以升序目标分词集合{b,a,c},预设集合拆分全称数目阈值为15,预设拆分分词个数阈值为3为例进行说明,第一目标分词集合A包括目标分词a和b,第二目标分词集合B包括目标分词c,则第一目标分词集合对应的第一预设全称集合为目标分词a对应的10个预设全称,以及目标分词b对应的6个预设全称组成的集合;第二目标分词集合对应的第二预设全称集合为目标分词c对应的20个预设全称组成的集合。确定第一预设全称集合与第二预设全称集合的交集,将得到的交集作为候选全称集合。
S360、若目标分词对应的预设全称的数目均小于预设集合拆分全称数目阈值,或目标分词的数目小于预设拆分分词个数阈值,则合并所述目标分词集合中的每个目标分词所对应的预设全称集合,并去重,得到所述候选全称集合。
若预设集合拆分全称数目阈值为25,预设拆分分词个数阈值为3,则目标分词a、b和c对应的预设全称的数据均小于25,不满足集合拆分条件,此时,合并目标分词a、b和c对应的预设全称集合,并去重,得到候选全称集合。
或者,若预设集合拆分全称数目阈值为15,预设拆分分词个数阈值为4,由于目标分词集合中只包括三个目标分词a、b和c,不满足集合拆分条件,此时,合并目标分词a、b和c对应的预设全称集合,并去重,得到候选全称集合。
将目标分词集合拆分为两个集合,可以在查询结果集较大时,减少不必要的计算,大幅提高了处理效率。例如,***将“建行”设为了“中国建设银行”的别名,当用户输入“建行京苏”时,***会拆分出3个目标分词,分别是“建行”、“京”和“苏”,目标分词“建行”关联了“中国建设银行”全部的网点,有几万条,“京”和“苏”两个目标分词关联的银行条数就比较少,少于3000条。则可以将“京”和“苏”两个目标分词存入第一目标分词集合A中,将“建行”这个词存入第二目标分词集合B中。检索遍历的是第一目标分词集合A中所有目标分词关联的银行全称,就只有不到3000条,数量大幅减少,计算效率大幅提升。而且由于“建行”这个目标分词关联的银行名称特别多,被放入了分词集合B,也就成了必须要匹配命中的一个词,比较符合用户查询的初衷。假如查出的一个银行名称中,只包含“京”和“苏”两个目标分词,而不包括“建行”,则不是用户想要的。这种在结果集过大时将目标分词拆分为两个集合的做法,还使得***计算效率基本不受用户输入字数影响,输入3个字的查询效率和用户输入6个字的查询效率几乎是一样的。
S370、确定候选全称集合中每个候选全称与搜索关键字之间的匹配字符以及匹配字符数目;根据匹配字符数目的大小,对候选全称集合中的候选全称进行降序排列。
例如,当用户输入“建行翠微”进行检索时,候选全称“中国建设银行北京翠微路支行”的匹配字符数为4,候选全称“中国工商银行北京翠微路支行”的匹配字符数为3,则可以将候选全称“中国建设银行北京翠微路支行”排列在候选全称“中国工商银行北京翠微路支行”之前。
优选的,在匹配字符数目小于预设字符数目时,舍弃候选全称,并对保留的候选全称进行排序。示例性的,预设字符数目可以是2,例如,当用户输入“建行翠微”进行检索时,候选全称“中国建设银行北京支行”的匹配字符数为2,则舍弃该候选全称,并对保留的候选全称进行排序。
S380、若存在匹配字符数目相等的候选全称,则确定每个候选全称对应的剩余字符数目,所述剩余字符数目为去除所述匹配字符和可忽略分词之后,候选全称剩余的字符数目;根据剩余字符数目的大小,对候选全称进行升序排列。
若两个候选全称p和q对应的匹配字符数均为4,而p对应的剩余字符数目为2,q对应的剩余字符数目为1,则将候选全称q排列在候选全称p之前。采用匹配字符数降序、剩余字符数升序的排序算法使得最接近输入关键字的行名优先被匹配。其中,剩余字符数优选可以是剔除已命中分词以及预先设定的可忽略分词后剩余的字符数。
本发明实施例的技术方案检索到的行名匹配准确,而且检索匹配速度非常快,在20多万条行名行号中检索匹配一个行名平均用时在50毫秒以下。检索效率不受用户输入字数多少影响,用户输入汉字很多时检索效率也不会明显下降。
本实施例提供的一种基于分词的全称匹配搜索方法,在上述各实施例的基础上,在能够快速精准的检索到与目标关键词对应的全称,并且能够以合理的优先级显示检索到的全称,展示的第一个全称通常就是用户要查找的全称,能够对目标关键词进行合理分词且有效减少目标分词的数目的前提下,可以在查询结果集较大时,减少不必要的计算,大幅提高了处理效率,使得***计算效率基本不受用户输入字数影响。
实施例四
图4是本发明实施例四中的一种排序装置的结构示意图。如图4所示,排序装置包括:
目标分词集合确定模块410,用于根据预设分词确定规则,确定获取到的搜索关键字对应的目标分词集合;
候选全称集合确定模块420,用于基于预设分词与预设全称之间的对应关系,确定与所述目标分词集合匹配的候选全称集合;
排序展示模块430,用于根据预设排序规则,对所述候选全称集合进行排序,并展示排序结果。
本实施例提供的一种排序装置,通过利用目标分词集合确定模块根据预设分词确定规则,确定获取到的搜索关键字对应的目标分词集合;利用候选全称集合确定模块基于预设分词与预设全称之间的对应关系,确定与目标分词集合匹配的候选全称集合;利用排序展示模块根据预设排序规则,对候选全称集合进行排序,并展示排序结果,通过对搜索关键字进行分词,能够快速精准的检索到与目标关键词对应的全称,并且能够以合理的优先级显示检索到的全称。
在上述技术方案的基础上,进一步的,所述目标分词集合包括当前字目标分词,目标分词集合确定模块410具体可以包括:
当前字关键词集合确定单元,用于依次确定以所述搜索关键字的当前字为起点、字符数不小于二且字符数递增的当前字关键词。
当前字目标分词确定单元,用于每得到一个当前字关键词,则确定当前字关键词是否存在于预设分词集合中;当第一次确定存在当前字关键词,且所述当前字关键词存在于所述预设分词集合中时,将所述当前字关键词作为当前字目标分词,并停止确定所述当前字的后续当前字关键词;若确定所有当前字关键词均不存在于所述预设分词集合中,则确定预设分词集合中是否包括所述当前字;若包括,则将所述当前字作为当前字目标分词;
下一个当前字确定单元,用于将从所述当前字开始,与所述当前字距离第一字符长度的字作为下一个当前字,并继续确定下一个当前字的当前字关键词,所述第一字符长度为所述当前字目标分词的字符长度;若确定所有当前字关键词均不存在于所述预设分词集合中,预设分词集合中不包括所述当前字,则将所述当前字的下一个字作为下一个当前字。
在上述技术方案的基础上,进一步的,排序装置还可以包括预设分词集合确定模块,预设分词集合确定模块具体可以包括:
第一部分预设分词确定单元,用于确定第一部分预设分词,其中所述第一部分预设分词至少包括本名分词、别名分词和可忽略分词,其中,所述别名分词为所述本名分词的别名,所述可忽略分词为在全称搜索匹配过程中,可以直接忽略的分词;
第二部分预设分词确定单元,用于将每个所述预设全称中的每个字确定为第二部分预设分词,所述预设全称为预先加载到内存中的预设全称;
第三部分预设分词确定单元,用于确定每个所述预设全称与其他预设全称之间是否存在连续相同的字,其中,所述连续相同的字的长度不小于二;若存在,则将所述连续相同的字作为相同分词,得到相同分词集合;将相同分词集合中的各相同分词按照字符长度进行升序排列,得到升序相同分词集合;按照所述根据预设分词确定规则,确定获取到的搜索关键字对应的目标分词集合的方法,确定所述升序相同分词集合中的每个相同分词对应的中间目标预设分词,得到每个相同分词对应的中间目标预设分词集合;删除每个所述中间目标预设分词集合中字符长度等于一的中间目标预设分词,得到更新后的每个所述中间目标预设分词集合;确定同时存在于每个相同分词和其相应中间目标预设分词集合中的交集分词,并将相应相同分词中的交集分词替换为空格,得到空格化相同分词;将除空格外,字符长度不小于二的每个空格化相同分词按空格拆分为至少一个子相同分词,得到子相同分词集合;将子相同分词集合中,字符长度不小于二的子相同分词确定为第三部分预设分词;
预设分词集合确定单元,用于将第一部分预设分词预先加载到内存中,形成所述预设分词集合;将不存在于所述预设分词集合中的第二部分预设分词添加到所述预设分词集合中;将不存在于所述预设分词集合中的第三部分预设分词添加到所述预设分词集合中,更新所述预设分词集合。
需要说明的是,预设分词集合确定单元在更新所述预设分词集合时,可以在***初始化时更新,还可以固定在某一时间进行,例如,每天批量定时更新,比如夜间批量更新。
在上述技术方案的基础上,进一步的,排序装置还可以包括预设分词与预设全称之间的对应关系确定模块,该模块具体可以包括:
目标预设全称确定单元,用于在基于预设分词与预设全称之间的对应关系,确定与所述目标分词集合匹配的候选全称集合之前,确定预设分词集合中每个预设分词对应的目标预设全称;
合并预设全称确定单元,用于对第一目标预设全称和第二目标预设全称进行合并处理,得到合并预设全称;其中,第一目标预设全称为预设本名分词对应的预设全称,第二目标预设全称为相应的预设别名分词对应的预设全称;
对应关系确定单元,用于将所述合并预设全称分别与所述预设本名分词和所述预设别名分词相对应,确定所述预设分词与预设全称之间的对应关系。
需要说明的是,对应关系确定单元在更新所述预设分词与所述预设全称之间的对应关系时,可以在***初始化时更新,还可以固定在某一时间进行,例如,每天批量定时更新,比如夜间批量更新。在上述技术方案的基础上,进一步的,预设分词与预设全称之间的对应关系确定模块还可以包括预设全称哈希表确定单元,用于在对第一目标预设全称和第二目标预设全称进行合并处理,得到所述预设分词与预设全称之间的对应关系之后,将所述预设分词与预设全称之间的对应关系,存储在内存中的预设分词哈希表中的每个预设分词程序对象内。
在上述技术方案的基础上,进一步的,候选全称集合确定模块420具体可以包括:
预设全称集合确定单元,用于基于预设分词与预设全称之间的对应关系,确定与所述目标分词集合中的每个目标分词对应的预设全称集合;
升序目标分词集合确定单元,用于根据每个目标分词对应的预设全称的数目大小,对目标分词进行升序排列,得到升序目标分词集合;
第一目标分词集合和第二目标分词集合拆分单元,用于若存在目标分词对应的预设全称的数目不小于预设集合拆分全称数目阈值,且目标分词的数目不小于预设拆分分词个数阈值,则将所述升序目标分词集合拆分为第一目标分词集合和第二目标分词集合;其中,所述第一目标分词集合包括第一类目标分词和第二类目标分词,所述第一类目标分词为在所述升序目标分词集合中,前预设第一集合分词个数阈值个目标分词,所述第二类目标分词为在所述升序目标分词集合中,除所述第一类目标分词之外且对应的目标预设全称的数目小于所述预设集合拆分全称数目阈值的目标分词;所述第二目标分词集合包括所述升序目标分词集合中,除第一类目标分词和第二类目标分词之外的目标分词;
候选全称集合确定单元,用于确定第一目标分词集合对应的第一预设全称集合与第二目标分词集合对应的第二预设全称集合的预设全称交集,并将所述预设全称交集作为所述候选全称集合;若目标分词对应的预设全称的数目均小于预设集合拆分全称数目阈值,或目标分词的数目小于预设拆分分词个数阈值,则合并所述目标分词集合中的每个目标分词所对应的预设全称集合,并去重,得到所述候选全称集合。
在上述技术方案的基础上,进一步的,排序展示模块430具体可以包括:
匹配字符以及匹配字符数目确定单元,用于确定所述候选全称集合中每个候选全称与所述搜索关键字之间的匹配字符以及匹配字符数目;
降序排列单元,用于根据匹配字符数目的大小,对所述候选全称集合中的候选全称进行降序排列;
升序排列单元,用于若存在匹配字符数目相等的候选全称,则确定每个候选全称对应的剩余字符数目,所述剩余字符数目为去除所述匹配字符和可忽略分词之后,候选全称剩余的字符数目;根据剩余字符数目的大小,对候选全称进行升序排列。
本发明实施例所提供的排序装置可执行本发明任意实施例所提供的基于分词的全称匹配搜索方法,具备执行方法相应的功能模块和有益效果。
实施例五
图5是本发明实施例五提供的一种行名行号搜索***的结构示意图,该行名行号搜索***可以执行本发明任一实施例所提供的基于分词的全称匹配搜索方法,本实施例在上述各实施例的基础上,提供了一种优选实施例,本优选实施例中将应用场景具体化为利用行名(银行名称)关键字检索行名行号(银行名称和联行号)。如图5所示,行名行号搜索***由如下模块组成:行名行号检索匹配请求接收装置501、分词确定器502、分词器503、匹配行名排序器504、检索匹配结果输出器505、分词缓存器506、分词及标准行名加载器507。
行名行号检索匹配请求接收装置501,简称检索请求接收装置,其与分词确定器502通信连接,用于接收来自客户端的“根据行名匹配联行号”的请求,并从该请求中提取出用户输入的行名关键字信息,例如用户输入的是“建行翠微”;则提取出行名关键字为“建行翠微”,然后将“建行翠微”输入到分词确定器502中。
分词确定器502分别与分词器503和匹配行名排序器504通信连接,分词确定器502通过调用分词器503来从输入的行名关键字信息中提取出一到多个分词,得到分词列表。其中,每个分词里面包含其关联的联行号列表。
针对分词列表,剔除关联联行号个数为0的分词,然后将剩下的分词按关联的联行号个数从小到大排序,得到排序后的分词列表,排序后的分词列表称为命中分词列表。如果存在某个分词其关联的联行号个数大于或等于预先设定的集合拆分联行号个数阈值,而且命中分词列表中的分词个数大于或等于预先设定的拆分分词个数阈值(默认值为3),那么可以将命中分词列表拆分为2个集合A和B,首先将排在前面的预先设定的第一集合分词个数阈值(默认值为2)个分词放入集合A。针对其他分词,可以根据关联的联行号是否大于或等于所述集合拆分联行号个数阈值确定最终放入的集合,具体的,将大于或等于集合拆分联行号个数阈值的分词放入集合B,否则放入集合A。若不存在大于或等于集合拆分联行号个数阈值的分词,则命中分词列表只对应集合A。
分词器503与分词缓存器506通信连接,用于根据输入的行名关键字信息,从第一个字开始遍历,截取2个字形成一个分词;然后查询分词缓存器中是否存在该分词,如果存在,则将该分词放入分词列表,并将该分词称作“当前字分词”,当前字处理结束;如果不存在,则再截取3个字形成一个分词,再到分词缓存器中查询是否存在该分词,依次类推,截取的字符数最多不能超过预先设定的截取字数阈值;如果以当前字开头截取的分词都不存在于分词缓存器中,则将当前字作为“当前字分词”,并在分词缓存器中查询,若分词缓存器中存在该分词,则将该分词放入分词列表;最后,向后移动“当前字分词”的长度个字符,继续判断行名关键字信息中后面的字。利用分词器503最终能够得到提取的分词列表。
例如行名关键字信息为“建行翠微”,分词缓存器中存在4个分词“中国建设银行”、“建行”、“翠”、“微”,行名关键字信息“建行翠微”的分词提取过程如下:
当前字为“建”字时,提取2个字,得到分词“建行”,在分词缓存器查询,发现存在该分词,那么将分词“建行”存入分词列表。分词“建行”的长度是2,所以,向后移动2位,当前字变为“翠”字,再提取2个字,得到分词“翠微”查询分词缓存器,发现不存在该分词,然后以当前字“翠”作为分词,查询分词缓存器,发现存在,那么将分词“翠”存入分词列表。分词“翠”的长度是1,所以,向后移动1位,当前字变为“微”字,由于是最后一个字,只能以当前字“微”作为分词,查询分词缓存器发现存在,那么将分词“微”存入分词列表。最终分词列表中的分词包括“建行”、“翠”、“微”3个。
匹配行名排序器504与检索匹配结果输出器505通信连接,该匹配行名排序器504用于遍历命中分词集合A中的每个分词,针对每个分词,提取出其关联的联行号清单,针对每个联行号,若B集合存在且B集合中的分词关联的联行号中不包括此联行号,则忽略此联行号,否则将此联行号放入命中联行号哈希表中,得到命中联行号哈希表。并计算命中联行号哈希表中命中联行号的匹配程度。
具体的,遍历命中联行号哈希表,计算每个联行号对应的标准行名中包含的用户输入的行名关键字信息的字符个数,称作匹配字符数,作为排序第1维度,按匹配字符数从大到小对联行号进行排序。例如,当用户输入“建行翠微”检索时,标准行名“中国建设银行北京翠微路支行”的匹配字符数为4,标准行名“中国工商银行北京翠微路支行”的匹配字符数为3。若匹配字符数相同,则从标准行名中剔除命中分词列表中的每个分词以及可忽略分词,计算剩余字符的个数,作为排序第2维度,并按剩余字符数从小到大对匹配字符数相同的联行号进行排序,得到最终命中联行号列表。
检索匹配结果输出器505用于将命中联行号列表中的联行号信息作为结果输出,当返回条数较多时,可以只返回预先设定的最多返回条数的联行号信息。所述联行号信息,至少包括联行号和标准银行名称。
分词缓存器506在计算机内存中以哈希表形式存储分词信息,哈希表的键为分词字符串内容,值为该分词关联的联行号清单信息,每条联行号信息至少包括联行号和标准银行名称(简称行名)2项属性。
分词及标准行名加载器507分别与分词器503和分词缓存器506通信连接,用于预设分词加载、标准行名与分词关联关系加载两种功能。
在***启动或定期需要更新预设分词数据的时候,将存储在数据库或数据文件中的第一部分预设分词信息加载到分词缓存器506,这些分词包括地名分词(如省份名称、地市名称、道路名称等)、别名分词和可忽略分词,别名分词包括银行的简称、别名等,如“建行”是“中国建设银行”的简称、“邮储”是“中国邮政储蓄银行”的简称/别名。
分词及标准行名加载器507会在***启动或定期需要更新预设分词数据时,加载联行号标准行名到***内存中,针对每个标准行名,按照前述分词器503步骤中的方法计算命中了哪些分词,同时把去除可忽略分词后的标准行名中的每个字作为一个命中分词(称为第二部分预设分词),形成命中分词清单。检查这些命中分词在分词缓存器506是否存在,如果不存在,就在分词缓存器506创建该分词。然后,将此联行号信息存入这些命中分词的关联银行清单中去。如果标准行名为中文,那么将其每个汉字的拼音首字母连接起来作为拼音行名,也采用此步骤所述方法加载到分词缓存器506中。
分词及标准行名加载器507在加载联行号标准行名后,会进一步确定每个所述联行号信息与其他联行号信息之间是否存在连续相同的字,其中,所述连续相同的字的长度不小于二;若存在,则将所述连续相同的字作为相同分词,得到相同分词集合;将相同分词集合中的各相同分词按照字符长度进行升序排列,得到升序相同分词集合;按照所述根据预设分词确定规则,确定获取到的搜索关键字对应的目标分词集合的方法,确定所述升序相同分词集合中的每个相同分词对应的中间目标预设分词,得到每个相同分词对应的中间目标预设分词集合;删除每个所述中间目标预设分词集合中字符长度等于一的中间目标预设分词,得到更新后的每个所述中间目标预设分词集合;确定同时存在于每个相同分词和其相应中间目标预设分词集合中的交集分词,并将相应相同分词中的交集分词替换为空格,得到空格化相同分词;将除空格外,字符长度不小于二的每个空格化相同分词按空格拆分为至少一个子相同分词,得到子相同分词集合;将子相同分词集合中,字符长度不小于二的子相同分词确定为第三部分预设分词;将不存在于所述分词缓存器506中的第三部分预设分词添加到所述分词缓存器506中。
所述第二部分预设分词以及所述第三部分预设分词都是本名分词。
最后,将别名分词和其对应的本名分词中的关联银行清单进行合并处理。
实施例六
图6为本发明实施例六提供的一种计算机设备的结构示意图。图6示出了适于用来实现本发明实施方式的示例性计算机设备612的框图。图6显示的计算机设备612仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图6所示,计算机设备612以通用计算设备的形式表现。计算机设备612的组件可以包括但不限于:一个或者多个处理器616,存储器628,连接不同***组件(包括存储器628和处理器616)的总线618。
总线618表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,***总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(ISA)总线,微通道体系结构(MAC)总线,增强型ISA总线、视频电子标准协会(VESA)局域总线以及***组件互连(PCI)总线。
计算机设备612典型地包括多种计算机***可读介质。这些介质可以是任何能够被计算机设备612访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
存储器628可以包括易失性存储器形式的计算机***可读介质,例如随机存取存储器(RAM)630和/或高速缓存存储器632。计算机设备612可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机***存储介质。仅作为举例,存储装置634可以用于读写不可移动的、非易失性磁介质(图6未显示,通常称为“硬盘驱动器”)。尽管图6中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线618相连。存储器628可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本发明各实施例的功能。
具有一组(至少一个)程序模块642的程序/实用工具640,可以存储在例如存储器628中,这样的程序模块642包括但不限于操作***、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块642通常执行本发明所描述的实施例中的功能和/或方法。
计算机设备612也可以与一个或多个外部设备614(例如键盘、指向设备、显示器624等,其中,显示器624可根据实际需要决定是否配置)通信,还可与一个或者多个使得用户能与该计算机设备612交互的设备通信,和/或与使得该计算机设备612能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口622进行。并且,计算机设备612还可以通过网络适配器620与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器620通过总线618与计算机设备612的其它模块通信。应当明白,尽管图6中未示出,可以结合计算机设备612使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID***、磁带驱动器以及数据备份存储装置等。
处理器616通过运行存储在存储器628中的程序,从而执行各种功能应用以及数据处理,例如实现本发明实施例所提供的基于分词的全称匹配搜索方法。
实施例七
本发明实施例七提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本发明实施例所提供的基于分词的全称匹配搜索方法,包括:
根据预设分词确定规则,确定获取到的搜索关键字对应的目标分词集合;
基于预设分词与预设全称之间的对应关系,确定与所述目标分词集合匹配的候选全称集合;
根据预设排序规则,对所述候选全称集合进行排序,并展示排序结果。
当然,本发明实施例所提供的计算机可读存储介质,其上存储的计算机程序不限于执行如上所述的方法操作,还可以执行本发明任意实施例所提供的基于计算机设备的基于分词的全称匹配搜索方法中的相关操作。
本发明实施例的计算机存储介质,可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的***、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行***、装置或者器件使用或者与其结合使用。
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行***、装置或者器件使用或者与其结合使用的程序。
计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括——但不限于无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如”C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

Claims (10)

1.一种基于分词的全称匹配搜索方法,其特征在于,包括:
根据预设分词确定规则,确定获取到的搜索关键字对应的目标分词集合;
基于预设分词与预设全称之间的对应关系,确定与所述目标分词集合匹配的候选全称集合;
根据预设排序规则,对所述候选全称集合进行排序,并展示排序结果。
2.根据权利要求1所述的方法,其特征在于,根据预设分词确定规则,确定获取到的搜索关键字对应的目标分词集合,包括:
依次确定以所述搜索关键字的当前字为起点、字符数不小于二且字符数递增的当前字关键词;
每得到一个当前字关键词,则确定当前字关键词是否存在于预设分词集合中;
当第一次确定存在当前字关键词,且所述当前字关键词存在于所述预设分词集合中时,将所述当前字关键词作为当前字目标分词,并停止确定所述当前字的后续当前字关键词;
将从所述当前字开始,与所述当前字距离第一字符长度的字作为下一个当前字,并继续确定下一个当前字的当前字关键词,所述第一字符长度为所述当前字目标分词的字符长度;
若确定所有当前字关键词均不存在于所述预设分词集合中,则确定预设分词集合中是否包括所述当前字;
若包括,则将所述当前字作为当前字目标分词,并将所述当前字的下一个字作为下一个当前字;
若不包括,则确定不存在所述当前字对应的当前字目标分词,并将所述当前字的下一个字作为下一个当前字。
3.根据权利要求2所述的方法,其特征在于,在确定当前字关键词是否存在于预设分词集合中之前,还包括:
将第一部分预设分词预先加载到内存中,形成所述预设分词集合;其中所述预设分词集合中的第一部分预设分词至少包括本名分词、别名分词和可忽略分词,其中,所述别名分词为所述本名分词的别名,所述可忽略分词为在全称搜索匹配过程中,可以直接忽略的分词;
将每个预设全称中的每个字确定为第二部分预设分词,所述预设全称为预先加载到内存中的预设全称;
将不存在于所述预设分词集合中的第二部分预设分词添加到所述预设分词集合中;
确定每个所述预设全称与其他预设全称之间是否存在连续相同的字,其中,所述连续相同的字的长度不小于二;
若存在,则将所述连续相同的字作为相同分词,得到相同分词集合;
将相同分词集合中的各相同分词按照字符长度进行升序排列,得到升序相同分词集合;
按照所述根据预设分词确定规则,确定获取到的搜索关键字对应的目标分词集合的方法,确定所述升序相同分词集合中的每个相同分词对应的中间目标预设分词,得到每个相同分词对应的中间目标预设分词集合;
删除每个所述中间目标预设分词集合中字符长度等于一的中间目标预设分词,得到更新后的每个所述中间目标预设分词集合;
确定同时存在于每个相同分词和其相应中间目标预设分词集合中的交集分词,并将相应相同分词中的交集分词替换为空格,得到空格化相同分词;
将除空格外,字符长度不小于二的每个空格化相同分词按空格拆分为至少一个子相同分词,得到子相同分词集合;
将子相同分词集合中,字符长度不小于二的子相同分词确定为第三部分预设分词;
将不存在于所述预设分词集合中的第三部分预设分词添加到所述预设分词集合中,更新所述预设分词集合。
4.根据权利要求1-3任一所述的方法,其特征在于,在基于预设分词与预设全称之间的对应关系,确定与所述目标分词集合匹配的候选全称集合之前,还包括;
确定预设分词集合中每个预设分词对应的目标预设全称;
对第一目标预设全称和第二目标预设全称进行合并处理,得到合并预设全称;其中,第一目标预设全称为预设本名分词对应的预设全称,第二目标预设全称为相应的预设别名分词对应的预设全称;
将所述合并预设全称分别与所述预设本名分词和所述预设别名分词相对应,得到所述预设分词与预设全称之间的对应关系。
5.根据权利要求4所述的方法,其特征在于,在对第一目标预设全称和第二目标预设全称进行合并处理,得到所述预设分词与预设全称之间的对应关系之后,还包括:
将所述预设分词与预设全称之间的对应关系,存储在内存中的预设分词哈希表中的每个预设分词程序对象内。
6.根据权利要求4所述的方法,其特征在于,基于预设分词与预设全称之间的对应关系,确定与所述目标分词集合匹配的候选全称集合,包括:
基于预设分词与预设全称之间的对应关系,确定与所述目标分词集合中的每个目标分词对应的预设全称集合;
根据每个目标分词对应的预设全称的数目大小,对目标分词进行升序排列,得到升序目标分词集合;
若存在目标分词对应的预设全称的数目不小于预设集合拆分全称数目阈值,且目标分词的数目不小于预设拆分分词个数阈值,则将所述升序目标分词集合拆分为第一目标分词集合和第二目标分词集合;
其中,所述第一目标分词集合包括第一类目标分词和第二类目标分词,所述第一类目标分词为在所述升序目标分词集合中,前预设第一集合分词个数阈值个目标分词,所述第二类目标分词为在所述升序目标分词集合中,除所述第一类目标分词之外且对应的目标预设全称的数目小于所述预设集合拆分全称数目阈值的目标分词;所述第二目标分词集合包括所述升序目标分词集合中,除第一类目标分词和第二类目标分词之外的目标分词;
确定第一目标分词集合对应的第一预设全称集合与第二目标分词集合对应的第二预设全称集合的预设全称交集,并将所述预设全称交集作为所述候选全称集合;
若目标分词对应的预设全称的数目均小于预设集合拆分全称数目阈值,或目标分词的数目小于预设拆分分词个数阈值,则合并所述目标分词集合中的每个目标分词所对应的预设全称集合,并去重,得到所述候选全称集合。
7.根据权利要求1所述的方法,其特征在于,根据预设排序规则,对所述候选全称集合进行排序,包括:
确定所述候选全称集合中每个候选全称与所述搜索关键字之间的匹配字符以及匹配字符数目;
根据匹配字符数目的大小,对所述候选全称集合中的候选全称进行降序排列;
若存在匹配字符数目相等的候选全称,则确定每个候选全称对应的剩余字符数目,所述剩余字符数目为去除所述匹配字符和可忽略分词之后,候选全称剩余的字符数目;根据剩余字符数目的大小,对候选全称进行升序排列。
8.一种基于分词的全称匹配搜索装置,其特征在于,包括:
目标分词集合确定模块,用于根据预设分词确定规则,确定获取到的搜索关键字对应的目标分词集合;
候选全称集合确定模块,用于基于预设分词与预设全称之间的对应关系,确定与所述目标分词集合匹配的候选全称集合;
排序展示模块,用于根据预设排序规则,对所述候选全称集合进行排序,并展示排序结果。
9.一种计算机设备,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-7中任一所述的基于分词的全称匹配搜索方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-7中任一所述的基于分词的全称匹配搜索方法。
CN202010873177.8A 2020-08-26 2020-08-26 基于分词的全称匹配搜索方法、装置、设备及存储介质 Active CN112015865B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010873177.8A CN112015865B (zh) 2020-08-26 2020-08-26 基于分词的全称匹配搜索方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010873177.8A CN112015865B (zh) 2020-08-26 2020-08-26 基于分词的全称匹配搜索方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN112015865A true CN112015865A (zh) 2020-12-01
CN112015865B CN112015865B (zh) 2023-09-26

Family

ID=73502564

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010873177.8A Active CN112015865B (zh) 2020-08-26 2020-08-26 基于分词的全称匹配搜索方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN112015865B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113312523A (zh) * 2021-07-30 2021-08-27 北京达佳互联信息技术有限公司 字典生成、搜索关键字推荐方法、装置和服务器
CN113688628A (zh) * 2021-07-28 2021-11-23 上海携宁计算机科技股份有限公司 文本识别方法、电子设备和计算机可读存储介质

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101840406A (zh) * 2009-03-20 2010-09-22 富士通株式会社 地名搜索装置和***
CN104281702A (zh) * 2014-10-22 2015-01-14 国家电网公司 基于电力关键词分词的数据检索方法及装置
WO2015185019A1 (zh) * 2014-06-06 2015-12-10 北京搜狗科技发展有限公司 一种基于语义理解的表情输入方法和装置
CN105956148A (zh) * 2016-05-12 2016-09-21 北京奇艺世纪科技有限公司 资源信息的推荐方法和装置
CA2985257A1 (en) * 2015-05-22 2016-12-01 Coveo Solutions Inc. System and method for ranking search results
WO2016202101A1 (zh) * 2015-06-16 2016-12-22 北京奇虎科技有限公司 一种基于输入法的展示候选项的方法和装置
US20180060419A1 (en) * 2016-08-31 2018-03-01 Alibaba Group Holding Limited Generating Prompting Keyword and Establishing Index Relationship
CN107992523A (zh) * 2017-11-07 2018-05-04 中国平安人寿保险股份有限公司 移动应用的功能选项查找方法及终端设备
CN108073655A (zh) * 2016-11-15 2018-05-25 南京途牛科技有限公司 一种数据查询方法及装置
CN108460014A (zh) * 2018-02-07 2018-08-28 百度在线网络技术(北京)有限公司 企业实体的识别方法、装置、计算机设备及存储介质
US20190005121A1 (en) * 2017-06-29 2019-01-03 Beijing Baidu Netcom Science And Technology Co., Ltd. Method and apparatus for pushing information
CN109902200A (zh) * 2019-02-22 2019-06-18 网宿科技股份有限公司 一种视频搜索排序的方法、装置及服务器
CN110069604A (zh) * 2019-04-23 2019-07-30 北京字节跳动网络技术有限公司 文本搜索方法、装置和计算机可读存储介质

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101840406A (zh) * 2009-03-20 2010-09-22 富士通株式会社 地名搜索装置和***
WO2015185019A1 (zh) * 2014-06-06 2015-12-10 北京搜狗科技发展有限公司 一种基于语义理解的表情输入方法和装置
CN104281702A (zh) * 2014-10-22 2015-01-14 国家电网公司 基于电力关键词分词的数据检索方法及装置
CA2985257A1 (en) * 2015-05-22 2016-12-01 Coveo Solutions Inc. System and method for ranking search results
WO2016202101A1 (zh) * 2015-06-16 2016-12-22 北京奇虎科技有限公司 一种基于输入法的展示候选项的方法和装置
CN105956148A (zh) * 2016-05-12 2016-09-21 北京奇艺世纪科技有限公司 资源信息的推荐方法和装置
US20180060419A1 (en) * 2016-08-31 2018-03-01 Alibaba Group Holding Limited Generating Prompting Keyword and Establishing Index Relationship
CN108073655A (zh) * 2016-11-15 2018-05-25 南京途牛科技有限公司 一种数据查询方法及装置
US20190005121A1 (en) * 2017-06-29 2019-01-03 Beijing Baidu Netcom Science And Technology Co., Ltd. Method and apparatus for pushing information
CN107992523A (zh) * 2017-11-07 2018-05-04 中国平安人寿保险股份有限公司 移动应用的功能选项查找方法及终端设备
CN108460014A (zh) * 2018-02-07 2018-08-28 百度在线网络技术(北京)有限公司 企业实体的识别方法、装置、计算机设备及存储介质
CN109902200A (zh) * 2019-02-22 2019-06-18 网宿科技股份有限公司 一种视频搜索排序的方法、装置及服务器
CN110069604A (zh) * 2019-04-23 2019-07-30 北京字节跳动网络技术有限公司 文本搜索方法、装置和计算机可读存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
ZHONG-WEN QIAN;JIAN-SON ZHANG;XIANG WU;XIAO-MING JU: "Research on Search Method Based on Data Segmentation of Related Attributes", DESTECH TRANSACTIONS ON COMPUTER SCIENCE AND ENGINEERING *
孙亚夫;陈文斌: "基于分词的地址匹配技术", 中国地理信息***协会第四次会员***暨第十一届年会, pages 119 - 130 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113688628A (zh) * 2021-07-28 2021-11-23 上海携宁计算机科技股份有限公司 文本识别方法、电子设备和计算机可读存储介质
CN113688628B (zh) * 2021-07-28 2023-09-22 上海携宁计算机科技股份有限公司 文本识别方法、电子设备和计算机可读存储介质
CN113312523A (zh) * 2021-07-30 2021-08-27 北京达佳互联信息技术有限公司 字典生成、搜索关键字推荐方法、装置和服务器

Also Published As

Publication number Publication date
CN112015865B (zh) 2023-09-26

Similar Documents

Publication Publication Date Title
CN108573045B (zh) 一种基于多阶指纹的比对矩阵相似度检索方法
JP3041268B2 (ja) 中国語誤り検査(cec)システム
KR20100106464A (ko) 데이터 클러스터와 유의어의 탐색과 수정에 대한 방법 및 시스템
CN100562713C (zh) 电子导航***的信息检索方法及装置
CN112015865B (zh) 基于分词的全称匹配搜索方法、装置、设备及存储介质
CN113408660B (zh) 图书聚类方法、装置、设备和存储介质
CN111079386B (zh) 地址识别方法、装置、设备及存储介质
CN112380847A (zh) 兴趣点处理方法、装置、电子设备及存储介质
CN109885641A (zh) 一种数据库中文全文检索的方法及***
CN113760839A (zh) 日志数据压缩处理方法、装置、电子设备和存储介质
EP3955256A1 (en) Non-redundant gene clustering method and system, and electronic device
CN114706894A (zh) 信息处理方法、装置、设备、存储介质及程序产品
CN112287657B (zh) 基于文本相似度的信息匹配***
CN112699237B (zh) 标签确定方法、设备和存储介质
CN114328808A (zh) 地址模糊匹配方法、地址处理方法、装置和电子设备
CN111737315B (zh) 地址模糊匹配方法及装置
CN113139558A (zh) 确定物品的多级分类标签的方法和装置
CN109815475B (zh) 文本匹配方法、装置、计算设备及***
CN115577269A (zh) 一种基于字符串文本特征相似度的黑名单模糊匹配方法
CN115292008A (zh) 用于分布式***的事务处理方法、装置、设备及介质
CN114036414A (zh) 兴趣点的处理方法、装置、电子设备、介质及程序产品
CN112328630A (zh) 数据查询方法、装置、设备及存储介质
CN113901214B (zh) 表格信息的提取方法、装置、电子设备及存储介质
CN111767722A (zh) 一种分词方法和装置
US9009200B1 (en) Method of searching text based on two computer hardware processing properties: indirect memory addressing and ASCII encoding

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant