CN113268986B - 一种基于模糊匹配算法的单位名称匹配、查找方法及装置 - Google Patents
一种基于模糊匹配算法的单位名称匹配、查找方法及装置 Download PDFInfo
- Publication number
- CN113268986B CN113268986B CN202110566536.XA CN202110566536A CN113268986B CN 113268986 B CN113268986 B CN 113268986B CN 202110566536 A CN202110566536 A CN 202110566536A CN 113268986 B CN113268986 B CN 113268986B
- Authority
- CN
- China
- Prior art keywords
- unit
- word
- fuzzy matching
- word segmentation
- names
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 43
- 238000004422 calculation algorithm Methods 0.000 title claims abstract description 31
- 230000011218 segmentation Effects 0.000 claims abstract description 92
- 238000004364 calculation method Methods 0.000 claims description 16
- 238000004590 computer program Methods 0.000 claims description 12
- 238000001914 filtration Methods 0.000 claims description 6
- 238000007781 pre-processing Methods 0.000 claims description 4
- 238000010606 normalization Methods 0.000 claims description 2
- 238000005516 engineering process Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 238000005065 mining Methods 0.000 description 2
- 238000007405 data analysis Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/335—Filtering based on additional data, e.g. user or group profiles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及一种基于模糊匹配算法的单位名称匹配、查找方法及装置。对于待匹配的两个单位名称进行自定义分词处理获取相应的自定义分词,所述的自定义分词包括三类,分别为属性词、区域词和别名词;进而基于自定义分词结果计算两个单位名称中各类自定义分词的模糊匹配分值,进而将各类自定义分词的模糊匹配分值进行加权处理获取两个单位名称的模糊匹配分值。与现有技术相比,本发明具有单位名称匹配、查找精准等优点。
Description
技术领域
本发明涉及一种单位名称匹配、查找方法及装置,尤其是涉及一种基于模糊匹配算法的单位名称匹配、查找方法及装置。
背景技术
当今信息技术时代背景下,各行业特别是金融行业对于客户信息的挖掘要求越来越迫切,需要客户信息更加精准,并且挖掘速度更加快捷。为了满足这个需求,引入了ES数据库,ES作为一个分布式的数据库,提供了可扩展的搜索,具有接近实时的搜索能力,并且支持大量数据的精准查询和模糊查询处理。
ES模糊查询,是基于Elasticsearch自带分词方法实现的快速模糊匹配的查询方法。Elasticsearch是一个分布式的数据库,它提供了一个分布式多用户能力的全文搜索引擎,通过HTTP使用JSON进行数据索引。ES可被用作全文检索,结构化搜索,以及数据分析。通过ES自带的字典库以及分词方法,可实现快速查询库表内的相似数据。
但是由于原生的分词方法较为单一,应用场景也较为单一,无法满足对多个单位名称模糊匹配并且获取相似度的业务场景。而且原生的ES模糊查询方法依赖于词库,所以无法达到对单位名称这种模糊匹配要求较高的数据精准匹配。现有技术中对单位名称查找是直接通过Elasticsearch的IK分词,对需要模糊匹配的单位名称进行分词。应用在调用ES原生的模糊匹配方法时,通过给ES数据库发送HTTP的JSON报文实现模糊匹配和查询。但是该技术仅局限于把输入的单位名称进行IK分词,分成不同的索引,然后根据索引定位到数据库内匹配到的名称。这样的匹配方法较为简单,对于一些特定规则的单位,会存在错误匹配的情况,具体体现为:
1、单位名称里面存在简称,ES无法直接识别出简称;
2、单位名称内包含了区域名称,但是ES无法识别出这是个区域,会筛选出非本区域的其他单位名称;
3、单位名称内包含别名字段,但是ES无法直接筛选出别名的单位名称;
4、用户输入的不确定性导致单位名称里面会包含很多无效的字符,比如括号,点等,ES无法识别出来;
5、没有权重概念,ES每个匹配到的分词索引的权重都是一样的,没有办法动态调控不同分词的权重。
发明内容
本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种基于模糊匹配算法的单位名称匹配、查找方法及装置。
本发明的目的可以通过以下技术方案来实现:
一种基于模糊匹配算法的单位名称匹配方法,该方法包括如下步骤:
S1、获取待匹配的两个单位名称,判定是否互相包含或者完全匹配,若是则直接输出模糊匹配分值为100,否则执行步骤S2;
S2、对两个单位名称分别进行预处理,包括标准化处理和过滤处理;
S3、对两个单位名称分别进行自定义分词处理获取相应的自定义分词,所述的自定义分词包括三类,分别为属性词、区域词和别名词;
S4、基于自定义分词结果判定能否直接进行模糊匹配计算,若是则执行步骤S6,否则执行步骤S5;
S5、对两个单位名称进行模糊匹配直接判定,若满足模糊匹配直接判定条件,则直接输出模糊匹配分值为100,否则执行步骤S6;
S6、基于自定义分词结果计算两个单位名称中各类自定义分词的模糊匹配分值,进而将各类自定义分词的模糊匹配分值进行加权处理获取两个单位名称的模糊匹配分值。
优选地,步骤S2中标准化处理包括:基于简称词库将单位名称中的简称词替换为标准词。
优选地,步骤S2中过滤处理包括:删除单位名称中无意义的字符,基于无效词库删除单位名称中的无效词。
优选地,步骤S4判定能够直接进行模糊匹配计算的条件包括其中任意一个:
两个单位名称的分词结果中均包含区域词,且区域词不相同;
其中一个单位名称的分词结果中包含别名词,另一个单位名称的分词结果中不包含别名词。
优选地,步骤S5模糊匹配直接判定的具体判定包括:
S51、若两个单位名称的分词结果中均包含别名词,且别名词不相同,则执行步骤S52,否则执行步骤S53;
S52、ES分词判定:利用ES词库自带的IK分词方法对两个单位名称分别进行ES分词得到两个分词结合,将较短的分词集合记作Aset,较长的分词集合记作Bset,若Aset内的所有分词都包含在Bset中,则直接输出模糊匹配分值为100,否则对两个分词集合中的重复分词进行计数记作Cnt,同时记Aset中的分词总数为Cnaset,若Cnaset≥esLen且Cnt/Cnaset≥esPct,则直接输出模糊匹配分值为100,否则执行步骤S53,其中,esLen、esPct为设置阈值;
S53、公共词判定:将字符数较少的单位名称记作A,字符数较多的单位名称记作B,将A中每个字符依次遍历到B中,取得一个最长的匹配到的字符串集合,称作公共词C,若公共词与其中一个单位名称完全匹配且公共词长度超过3位,则直接输出模糊匹配分值为100,否则:将公共词C与单位名称B重新进行自定义分词,若B和C的分词结果中属性词相同,并且别名词为空则直接输出模糊匹配分值为100,否则执行步骤S54;
S54、子集合判定:对步骤S2预处理后的单位名称进行子集判定,若两者互相包含,则直接输出模糊匹配分值为100,否则执行步骤S55;
S55、自定义分词判定:若两个单位名称分词结果中两个区域词集合非空并且相等并且两个别名词集合非空并且相等,则直接输出模糊匹配分值为100,否则执行步骤S6。
优选地,步骤S6中各类自定义分词的模糊匹配分值通过如下方式获得:
记两个公司名称为A和B,对于i类别的自定义分词,将两个公司名称对应的该类别的自定义分词的集合通过最长公共子序列长度计算方法,计算得到i类别自定义分词的最长公共子序列长度maxSubSeq(A,B)imaxSubSeq(A,B),然后通过下式计算i类别自定义分词的模糊匹配分值scorei:
其中,|A|i表示A中i类别的自定义分词长度,|B|i表示B中i类别的自定义分词长度,i对应属性词、区域词和别名词三个类别。
优选地,两个单位名称的模糊匹配分值通过下式获得:
其中,mathScore表示两个单位名称的模糊匹配分值,表示取2为小数计算,wi为i类别的自定义分词的权重。
一种基于模糊匹配算法的单位名称查找方法,该方法包括:
获取待查找的单位名称,通过ES模糊匹配确定单位名称词库中匹配度最高的待匹配名称;
将待查找的单位名称与待匹配名称采用权利要求1~7任意一项所述的基于模糊匹配算法的单位名称匹配方法进行匹配确定单位名称词库中待匹配名称与待查找的单位名称的模糊匹配分值。
一种基于模糊匹配算法的单位名称匹配装置,该装置包括存储器和处理器,所述存储器用于存储计算机程序,所述处理器用于当执行所述的计算机程序时实现所述的基于模糊匹配算法的单位名称匹配方法。
一种基于模糊匹配算法的单位名称查找装置,该装置包括存储器和处理器,所述存储器用于存储计算机程序,所述处理器用于当执行所述的计算机程序时实现所述的基于模糊匹配算法的单位名称查找方法。
与现有技术相比,本发明具有如下优点:本发明匹配/查找方法更加精细,匹配/查找结果更加精准可靠,具体表现为:
(1)单位名称里面存在简称,本发明可识别并且匹配到有简称的单位名称;
(2)单位名称内包含了区域名称,本发明可以区别出需要匹配的单位名称里面的区域名,并且根据真实的区域名称进行匹配;
(3)单位名称内包含别名字段,本发明可以识别出别名并且做匹配;
(4)本发明会筛选掉无用词再进行匹配,提高了匹配的精确度;
(5)本发明对需要匹配的单位名称进行划分,划分为,区域,属性,别名。并且不同的分类可以独立设置匹配的权重,配置更为灵活。
附图说明
图1为本发明一种基于模糊匹配算法的单位名称匹配方法的流程框图;
图2为本发明一种基于模糊匹配算法的单位名称查找方法的流程框图。
具体实施方式
下面结合附图和具体实施例对本发明进行详细说明。注意,以下的实施方式的说明只是实质上的例示,本发明并不意在对其适用物或其用途进行限定,且本发明并不限定于以下的实施方式。
实施例1
本实施例1提供一种基于模糊匹配算法的单位名称匹配方法,该方法实现了一对一的模糊匹配,该方法包括如下步骤:
S1、获取待匹配的两个单位名称,分别记作A和B,判定是否互相包含或者完全匹配,若是则直接输出模糊匹配分值为100,否则执行步骤S2。
S2、对两个单位名称分别进行预处理,包括标准化处理和过滤处理,其中,标准化处理包括:基于简称词库将单位名称中的简称词替换为标准词;过滤处理包括:删除单位名称中无意义的字符,如:“!\%\$\#\&\*\'\《\》\:\:\+\,\。\,\”等无意义的字符,基于无效词库删除单位名称中的无效词。
S3、对两个单位名称分别进行自定义分词处理获取相应的自定义分词,自定义分词包括三类,分别为属性词、区域词和别名词,区域词表征单位名称中所表示的区域,属性词表征单位所代表的行业类型,如属于证券公司,电力公司等,除属性词、区域词以外其他的词则为别名词。其中区域词在分词前首先要恢复区域简称,补齐“省”,“市”字样,再做区域词提取,最终提取出[省,市,县]的区域分词集。
S4、基于自定义分词结果判定能否直接进行模糊匹配计算,若是则执行步骤S6,否则执行步骤S5,具体地,此步骤判定能够直接进行模糊匹配计算的条件包括其中任意一个:两个单位名称的分词结果中均包含区域词,且区域词不相同;其中一个单位名称的分词结果中包含别名词,另一个单位名称的分词结果中不包含别名词。
S5、对两个单位名称进行模糊匹配直接判定,若满足模糊匹配直接判定条件,则直接输出模糊匹配分值为100,否则执行步骤S6,此步骤S5具体为:
S51、若两个单位名称的分词结果中均包含别名词,且别名词不相同,则执行步骤S52,否则执行步骤S53;
S52、ES分词判定:利用ES词库自带的IK分词方法对两个单位名称分别进行ES分词得到两个分词结合,将较短的分词集合记作Aset,较长的分词集合记作Bset,若Aset内的所有分词都包含在Bset中,则直接输出模糊匹配分值为100,否则对两个分词集合中的重复分词进行计数记作Cnt,同时记Aset中的分词总数为Cnaset,若Cnaset≥esLen且Cnt/Cnaset≥esPct,则直接输出模糊匹配分值为100,否则执行步骤S53,其中,esLen、esPct为设置阈值;
S53、公共词判定:将字符数较少的单位名称记作A,字符数较多的单位名称记作B,将A中每个字符依次遍历到B中,取得一个最长的匹配到的字符串集合,称作公共词C,若公共词与其中一个单位名称完全匹配且公共词长度超过3位,则直接输出模糊匹配分值为100,否则:将公共词C与单位名称B重新进行自定义分词,若B和C的分词结果中属性词相同,并且别名词为空则直接输出模糊匹配分值为100,否则执行步骤S54;
S54、子集合判定:对步骤S2预处理后的单位名称进行子集判定,若两者互相包含,则直接输出模糊匹配分值为100,否则执行步骤S55;
S55、自定义分词判定:若两个单位名称分词结果中两个区域词集合非空并且相等并且两个别名词集合非空并且相等,则直接输出模糊匹配分值为100,否则执行步骤S6。
S6、基于自定义分词结果计算两个单位名称中各类自定义分词的模糊匹配分值,进而将各类自定义分词的模糊匹配分值进行加权处理获取两个单位名称的模糊匹配分值,模糊匹配分值的大小表征两个单位名称的匹配程度,模糊匹配分值越大,两个单位名称的匹配程度越高,反之,模糊匹配分值越小,两个单位名称的匹配程度越低。
步骤S6中各类自定义分词的模糊匹配分值通过如下方式获得:
对于i类别的自定义分词,将两个公司名称对应的该类别的自定义分词的集合通过最长公共子序列长度计算方法,计算得到i类别自定义分词的最长公共子序列长度maxSubSeq(A,B)imaxSubSeq(A,B),然后通过下式计算i类别自定义分词的模糊匹配分值scorei:
其中,|A|i表示A中i类别的自定义分词长度,|B|i表示B中i类别的自定义分词长度,i对应属性词、区域词和别名词三个类别。
两个单位名称的模糊匹配分值通过下式获得:
其中,mathScore表示两个单位名称的模糊匹配分值,表示取2为小数计算,wi为i类别的自定义分词的权重。
根据业务场景和个人权重比重,初始化区域词,属性词,别名词的权重,本实施例中权重设置为:区域词权重=0.3,属性词权重=0.15,别名词权重=0.55(此处可按个人情况进行调整初始权重);之后根据A和B分词得到的分词集合,分别调整初始化权重,比如,A和B获取到的没有别名分词,那么把别名权重的0.55初始值分别赋予区域和属性权重,区域权重修改为0.3+0.55/2=0.575,属性权重修改为0.15+0.55/2=0.425。
本实施例中以“华泰联合证券有限责任公司广州体育东路证券”和“华泰期货有限公司”为例来具体说明:
分别对两个公司名称进行分词,自定义分词结果分别为:
“华泰联合证券有限责任公司广州体育东路证券”的自定义分词结果为:([广东省,广州市],[体育,证券],[华泰联合东路]),其中,[广东省,广州市]为区域词集合,[体育,证券]为属性词集合,[华泰联合东路]为别名词集合;
“华泰期货有限公司”的自定义分词结果为:([],[期货],[华泰]),其中,区域词集合为空,[期货]为属性词集合,[华泰]为别名词集合;
提取区域后得到:
([广东省],[体育,证券],[华泰联合东路])
([],[期货],[华泰]);
经过步骤S4判定不能直接进行模糊匹配计算,进入步骤S5依次进行公共词判定、子集合判定、自定义分词判定,均无法直接输出模糊匹配分值,进而进入步骤S6进行模糊匹配分值计算,得到:
由于“华泰期货有限公司”中区域词集合为空,因此,两者区域词的模糊匹配得分:0;
[华泰联合东路],[华泰],别名词的模糊匹配分值得分:0.6666665;
[体育证券],[期货],属性词的模糊匹配分值得分:0;
权重值:区域词权重=0.3,别名词权重=0.55,属性词权重=0.15;
两个单位名称的模糊匹配分值=round(0.55*0.6666665*100,2)=37。
实施例2
如图2所示,本实施例一种基于模糊匹配算法的单位名称查找方法,该方法包括:
获取待查找的单位名称,通过ES模糊匹配确定单位名称词库中匹配度最高的待匹配名称;
将待查找的单位名称与待匹配名称采用权利要求1~7任意一项所述的基于模糊匹配算法的单位名称匹配方法进行匹配确定单位名称词库中待匹配名称与待查找的单位名称的模糊匹配分值。
此实施例中,基于模糊匹配算法的单位名称匹配方法与实施例1完全一致,在该实施例中不再赘述。
以下进行具体实例说明:
待查找的单位名称:江西省广电总局;
单位名称词库事先设置名称字段类型为keyword(精确查询),通过ES关键词精确查询匹配后获取到匹配分数最高的一个名称,再进行一对一匹配相似度计算,得到如下匹配到的单位名称和相似度分数:
江西省广播电视局(es匹配得分:18.56986),黑龙江省广播电视局山东省广播电视局(es匹配得分:14.986288),江西省总工会(es匹配得分:14.648104),广东省西江流域管理局(es匹配得分:13.420963),江西省水电工程局有限公司(es匹配得分:12.696965)
筛选出最高得分的匹配名称:江西省广播电视局,对“江西省广电总局”和关键词匹配命中的“江西省广播电视局”进行一对一匹配计算相似度,得到相似度100分。
以上可见,该查找方法实现了一对多的匹配,实现待查找的单位名称在单位名称词库中的匹配查找。
实施例3
本实施例基于实施例1提供一种基于模糊匹配算法的单位名称匹配装置,该装置包括存储器和处理器,所述存储器用于存储计算机程序,处理器用于当执行计算机程序时实现实施例1中基于模糊匹配算法的单位名称匹配方法。
实施例4
本实施例基于实施例2提供一种基于模糊匹配算法的单位名称查找装置,该装置包括存储器和处理器,所述存储器用于存储计算机程序,处理器用于当执行计算机程序时实现实施例2中基于模糊匹配算法的单位名称查找方法。
本发明通过自定义模糊匹配技术,提高了银行优质客群单位匹配的精确度。而且适用于输入单个单位名称匹配,以及输入两个单位名称互相匹配的业务场景。使模糊匹配场景更为灵活,模糊匹配结果更为精确。而且提供了区域,属性,别名的自定义分词技术,对每个种类的分词提供分值和权重,权重可以自定义调整,增加了业务主观能动性。
上述实施方式仅为例举,不表示对本发明范围的限定。这些实施方式还能以其它各种方式来实施,且能在不脱离本发明技术思想的范围内作各种省略、置换、变更。
Claims (6)
1.一种基于模糊匹配算法的单位名称匹配方法,其特征在于,该方法包括如下步骤:
S1、获取待匹配的两个单位名称,判定是否互相包含或者完全匹配,若是则直接输出模糊匹配分值为100,否则执行步骤S2;
S2、对两个单位名称分别进行预处理,包括标准化处理和过滤处理;
S3、对两个单位名称分别进行自定义分词处理获取相应的自定义分词,所述的自定义分词包括三类,分别为属性词、区域词和别名词;
S4、基于自定义分词结果判定能否直接进行模糊匹配计算,若是则执行步骤S6,否则执行步骤S5;
S5、对两个单位名称进行模糊匹配直接判定,若满足模糊匹配直接判定条件,则直接输出模糊匹配分值为100,否则执行步骤S6;
S6、基于自定义分词结果计算两个单位名称中各类自定义分词的模糊匹配分值,进而将各类自定义分词的模糊匹配分值进行加权处理获取两个单位名称的模糊匹配分值;
步骤S4判定能够直接进行模糊匹配计算的条件包括其中任意一个:
两个单位名称的分词结果中均包含区域词,且区域词不相同;
其中一个单位名称的分词结果中包含别名词,另一个单位名称的分词结果中不包含别名词;
步骤S5模糊匹配直接判定的具体判定包括:
S51、若两个单位名称的分词结果中均包含别名词,且别名词不相同,则执行步骤S52,否则执行步骤S53;
S52、ES分词判定:利用ES词库自带的IK分词方法对两个单位名称分别进行ES分词得到两个分词结合,将较短的分词集合记作Aset,较长的分词集合记作Bset,若Aset内的所有分词都包含在Bset中,则直接输出模糊匹配分值为100,否则对两个分词集合中的重复分词进行计数记作Cnt,同时记Aset中的分词总数为Cnaset,若Cnaset≥esLen且Cnt/Cnaset≥esPct,则直接输出模糊匹配分值为100,否则执行步骤S53,其中,esLen、esPct为设置阈值;
S53、公共词判定:将字符数较少的单位名称记作A,字符数较多的单位名称记作B,将A中每个字符依次遍历到B中,取得一个最长的匹配到的字符串集合,称作公共词C,若公共词与其中一个单位名称完全匹配且公共词长度超过3位,则直接输出模糊匹配分值为100,否则:将公共词C与单位名称B重新进行自定义分词,若B和C的分词结果中属性词相同,并且别名词为空则直接输出模糊匹配分值为100,否则执行步骤S54;
S54、子集合判定:对步骤S2预处理后的单位名称进行子集判定,若两者互相包含,则直接输出模糊匹配分值为100,否则执行步骤S55;
S55、自定义分词判定:若两个单位名称分词结果中两个区域词集合非空并且相等并且两个别名词集合非空并且相等,则直接输出模糊匹配分值为100,否则执行步骤S6;
步骤S6中各类自定义分词的模糊匹配分值通过如下方式获得:
记两个公司名称为A和B,对于i类别的自定义分词,将两个公司名称对应的该类别的自定义分词的集合通过最长公共子序列长度计算方法,计算得到i类别自定义分词的最长公共子序列长度maxSubSeq(A,B)imaxSubSeq(A,B),然后通过下式计算i类别自定义分词的模糊匹配分值scorei:
其中,|A|i表示A中i类别的自定义分词长度,|B|i表示B中i类别的自定义分词长度,i对应属性词、区域词和别名词三个类别;
两个单位名称的模糊匹配分值通过下式获得:
其中,mathScore表示两个单位名称的模糊匹配分值,表示取2为小数计算,wi为i类别的自定义分词的权重。
2.根据权利要求1所述的一种基于模糊匹配算法的单位名称匹配方法,其特征在于,步骤S2中标准化处理包括:基于简称词库将单位名称中的简称词替换为标准词。
3.根据权利要求1所述的一种基于模糊匹配算法的单位名称匹配方法,其特征在于,步骤S2中过滤处理包括:删除单位名称中无意义的字符,基于无效词库删除单位名称中的无效词。
4.一种基于模糊匹配算法的单位名称查找方法,其特征在于,该方法包括:
获取待查找的单位名称,通过ES模糊匹配确定单位名称词库中匹配度最高的待匹配名称;
将待查找的单位名称与待匹配名称采用权利要求1~3任意一项所述的基于模糊匹配算法的单位名称匹配方法进行匹配确定单位名称词库中待匹配名称与待查找的单位名称的模糊匹配分值。
5.一种基于模糊匹配算法的单位名称匹配装置,其特征在于,该装置包括存储器和处理器,所述存储器用于存储计算机程序,所述处理器用于当执行所述的计算机程序时实现如权利要求1~3任一项所述的基于模糊匹配算法的单位名称匹配方法。
6.一种基于模糊匹配算法的单位名称查找装置,其特征在于,该装置包括存储器和处理器,所述存储器用于存储计算机程序,所述处理器用于当执行所述的计算机程序时实现如权利要求4所述的基于模糊匹配算法的单位名称查找方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110566536.XA CN113268986B (zh) | 2021-05-24 | 2021-05-24 | 一种基于模糊匹配算法的单位名称匹配、查找方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110566536.XA CN113268986B (zh) | 2021-05-24 | 2021-05-24 | 一种基于模糊匹配算法的单位名称匹配、查找方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113268986A CN113268986A (zh) | 2021-08-17 |
CN113268986B true CN113268986B (zh) | 2024-05-24 |
Family
ID=77232606
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110566536.XA Active CN113268986B (zh) | 2021-05-24 | 2021-05-24 | 一种基于模糊匹配算法的单位名称匹配、查找方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113268986B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115905473B (zh) * | 2022-12-20 | 2024-03-05 | 无锡锡银金科信息技术有限责任公司 | 全名词模糊匹配方法、装置及存储介质 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102651013A (zh) * | 2012-03-23 | 2012-08-29 | 上海安捷力信息***有限公司 | 一种从企业名称数据中提取区域信息的方法及*** |
CN107644010A (zh) * | 2016-07-20 | 2018-01-30 | 阿里巴巴集团控股有限公司 | 一种文本相似度计算方法及装置 |
CN108829661A (zh) * | 2018-05-09 | 2018-11-16 | 成都信息工程大学 | 一种基于模糊匹配的新闻主体名称提取方法 |
CN109657213A (zh) * | 2018-12-21 | 2019-04-19 | 北京金山安全软件有限公司 | 文本相似度检测方法、装置和电子设备 |
CN110046341A (zh) * | 2018-12-29 | 2019-07-23 | ***股份有限公司 | 用于对信息进行匹配的方法和*** |
CN110309504A (zh) * | 2019-05-23 | 2019-10-08 | 平安科技(深圳)有限公司 | 基于分词的文本处理方法、装置、设备及存储介质 |
CN111104795A (zh) * | 2019-11-19 | 2020-05-05 | 平安金融管理学院(中国·深圳) | 公司名称的匹配方法、装置、计算机设备及存储介质 |
CN111859042A (zh) * | 2020-07-30 | 2020-10-30 | 上海妙一生物科技有限公司 | 一种检索方法、装置及电子设备 |
CN112364635A (zh) * | 2020-11-30 | 2021-02-12 | 中国银行股份有限公司 | 企业名称查重方法及装置 |
CN112749255A (zh) * | 2020-12-30 | 2021-05-04 | 科大国创云网科技有限公司 | 一种基于es的人机交互用语义识别意图匹配方法及*** |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB2520878A (en) * | 2012-08-17 | 2015-06-03 | Opera Solutions Llc | System and method for matching data using probabilistic modeling techniques |
CN108108373B (zh) * | 2016-11-25 | 2020-09-25 | 阿里巴巴集团控股有限公司 | 一种名称匹配方法及装置 |
US11232111B2 (en) * | 2019-04-14 | 2022-01-25 | Zoominfo Apollo Llc | Automated company matching |
US20210089562A1 (en) * | 2019-09-20 | 2021-03-25 | Jpmorgan Chase Bank, N.A. | System and method for generating and implementing context weighted words |
-
2021
- 2021-05-24 CN CN202110566536.XA patent/CN113268986B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102651013A (zh) * | 2012-03-23 | 2012-08-29 | 上海安捷力信息***有限公司 | 一种从企业名称数据中提取区域信息的方法及*** |
CN107644010A (zh) * | 2016-07-20 | 2018-01-30 | 阿里巴巴集团控股有限公司 | 一种文本相似度计算方法及装置 |
CN108829661A (zh) * | 2018-05-09 | 2018-11-16 | 成都信息工程大学 | 一种基于模糊匹配的新闻主体名称提取方法 |
CN109657213A (zh) * | 2018-12-21 | 2019-04-19 | 北京金山安全软件有限公司 | 文本相似度检测方法、装置和电子设备 |
CN110046341A (zh) * | 2018-12-29 | 2019-07-23 | ***股份有限公司 | 用于对信息进行匹配的方法和*** |
CN110309504A (zh) * | 2019-05-23 | 2019-10-08 | 平安科技(深圳)有限公司 | 基于分词的文本处理方法、装置、设备及存储介质 |
CN111104795A (zh) * | 2019-11-19 | 2020-05-05 | 平安金融管理学院(中国·深圳) | 公司名称的匹配方法、装置、计算机设备及存储介质 |
CN111859042A (zh) * | 2020-07-30 | 2020-10-30 | 上海妙一生物科技有限公司 | 一种检索方法、装置及电子设备 |
CN112364635A (zh) * | 2020-11-30 | 2021-02-12 | 中国银行股份有限公司 | 企业名称查重方法及装置 |
CN112749255A (zh) * | 2020-12-30 | 2021-05-04 | 科大国创云网科技有限公司 | 一种基于es的人机交互用语义识别意图匹配方法及*** |
Non-Patent Citations (4)
Title |
---|
乔世权 ; 戴继勇 ; .基于文本相似度的智能查号引擎研究.河北科技大学学报.2018,第39卷(第3期),第282-288页. * |
段晨迪.基于ElasticSearch面向M00C的垂直搜索引擎设计与实现.《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》.2020,(第1期),第1138-2507页. * |
连誉舜.中文组织机构名检索***的设计与实现.《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》.2016,(第4期),第I138-1519页. * |
钟良伍,郑 方.基于中文机构名简称的检索方法研究.中文信息学报.2007,第21卷(第1期),第38-42页. * |
Also Published As
Publication number | Publication date |
---|---|
CN113268986A (zh) | 2021-08-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111783419B (zh) | 地址相似度计算方法、装置、设备和存储介质 | |
CN110929125B (zh) | 搜索召回方法、装置、设备及其存储介质 | |
US8316041B1 (en) | Generation and processing of numerical identifiers | |
CN107844559A (zh) | 一种文件分类方法、装置及电子设备 | |
Paul et al. | Lesicin: A heterogeneous graph-based approach for automatic legal statute identification from indian legal documents | |
CN112347223B (zh) | 文档检索方法、设备及计算机可读存储介质 | |
CN108038099B (zh) | 基于词聚类的低频关键词识别方法 | |
CN113254643B (zh) | 文本分类方法、装置、电子设备和 | |
CN110413998B (zh) | 一种面向电力行业的自适应中文分词方法及其***、介质 | |
CN102428467A (zh) | 用于分类的基于相似度的特征集补充 | |
CN107526721B (zh) | 一种对电商产品评论词汇的歧义消除方法及装置 | |
CN111985228A (zh) | 文本关键词提取方法、装置、计算机设备和存储介质 | |
CN110287329A (zh) | 一种基于商品文本分类的电商类目属性挖掘方法 | |
CN111090994A (zh) | 一种面向中文网络论坛文本的事件地点归属省份识别方法 | |
CN106844482B (zh) | 一种基于搜索引擎的检索信息匹配方法及装置 | |
CN112559747A (zh) | 事件分类处理方法、装置、电子设备和存储介质 | |
CN110781333A (zh) | 一种基于机器学习的斜拉桥非结构化监测数据处理方法 | |
CN110910175A (zh) | 一种旅游门票产品画像生成方法 | |
CN113268986B (zh) | 一种基于模糊匹配算法的单位名称匹配、查找方法及装置 | |
CN109214445A (zh) | 一种基于人工智能的多标签分类方法 | |
Sun et al. | Learning deep semantic attributes for user video summarization | |
CN113515939B (zh) | 一种勘察报告文本关键信息提取***和提取方法 | |
CN112579781A (zh) | 文本归类方法、装置、电子设备及介质 | |
CN117494711A (zh) | 一种基于语义的用电地址相似度匹配的方法 | |
CN111831819B (zh) | 一种文本更新方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |