CN112035621A - 一种基于统计学的企业名名称相似度检测方法 - Google Patents

一种基于统计学的企业名名称相似度检测方法 Download PDF

Info

Publication number
CN112035621A
CN112035621A CN202010916792.2A CN202010916792A CN112035621A CN 112035621 A CN112035621 A CN 112035621A CN 202010916792 A CN202010916792 A CN 202010916792A CN 112035621 A CN112035621 A CN 112035621A
Authority
CN
China
Prior art keywords
name
word
enterprise
similarity
segmentation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010916792.2A
Other languages
English (en)
Inventor
宋兵
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangsu Institute of Economic and Trade Technology
Original Assignee
Jiangsu Institute of Economic and Trade Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangsu Institute of Economic and Trade Technology filed Critical Jiangsu Institute of Economic and Trade Technology
Priority to CN202010916792.2A priority Critical patent/CN112035621A/zh
Publication of CN112035621A publication Critical patent/CN112035621A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3334Selection or weighting of terms from queries, including natural language queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3335Syntactic pre-processing, e.g. stopword elimination, stemming
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于统计学的企业名名称相似度检测方法,包括如下步骤:对企业名称进行中文分词;统计全网企业名称热词,建立停用词库;将分词结果遍历停用词库,剔除遍历过程中匹配到停用词库中热词的分词,得到关键词;将关键词与全网企业名称进行匹配,将匹配对应的企业名称进行统计,建立待对比名称库;对企业名称和待检验名称库内各名称进行相似度计算。通过建立停用词库,将检测的企业名称分词结果与停用词库进行对比剔除,得到企业名称中的关键字,避免大量热词对检测过程造成干扰,减免人工删选和补充工作量,根据关键词与全网数据进行匹配,得到待对比相似度的名称集,并进行相似度计算,从而快速检测处相似度结果,提高计算精度。

Description

一种基于统计学的企业名名称相似度检测方法
技术领域
本发明涉及企业名称检测技术领域,具体为一种基于统计学的企业名名称相似度检测方法。
背景技术
企业名称是一个企业的头面,一个企业区别于其他企业的文字符号,依次由企业所在地的行政区划、字号、行业或者经营特点、组织形式等四部分组成,字号是区别不同企业的主要标志,一个企业能够被人们快速记住并防止与其他企业进行混淆是一个成功的企业名称所需要具备的特性,因此企业名称确立时需要与其他现有企业名称进行对比,确立相似度,避免过于相似导致的混淆和侵权问题,企业名称相似度检测中大量行政区划、行业或者经营特点、组织形式等数据都是出现频率非常高的热词,给相似度检测工作带来了大量干扰和误差,且需要通过人工去甄别、补充,导致企业名称相似度检测效率和精度较低,为此我们提出一种基于统计学的企业名名称相似度检测方法用于解决上述问题。
发明内容
本发明的目的在于提供一种基于统计学的企业名名称相似度检测方法,以解决上述背景技术中提出的问题。
为实现上述目的,本发明提供如下技术方案:一种基于统计学的企业名名称相似度检测方法,包括如下步骤:
S1、对企业名称进行中文分词,得到分词结果;
S2、统计全网企业名称热词,从而建立停用词库;
S3、将所述分词结果遍历所述停用词库,剔除遍历过程中匹配到所述停用词库中热词的分词,从而得到关键词;
S4、将所述关键词与全网企业名称进行匹配,并将匹配对应的企业名称进行统计,建立待对比名称库;
S5、对企业名称和待检验名称库内各名称进行相似度计算。
优选的一种实施案例,步骤S1中,所述中文分词通过IKAnalyzer分词器、word分词器、Ansj分词器或Stanford分词器中的一种进行中文分词处理。
优选的一种实施案例,步骤S2中,全网企业名称热词的确定方法包括:
S201、从全网企业名称中随机抽取样本集;
S202、对样本集内各名称进行分词处理;
S203、对S202中分词处理的各分词进行词频分析;
S204、设立热词阀值,保留出现词频高于阈值的分词并构成停用词库。
优选的一种实施案例,所述词频分析方法采用TF-DF值进行确定,其中,所述TF分词出现数量/总分词数量,所述DF=包含分词的名称数/样本总数,则每个分词的TF-DF值为TF*DF*100%,并取TF-DF值大于热词阈值的分词建立停用词库。
优选的一种实施案例,得到关键词的剔除方法将企业名称分词遍历停用词库,当遍历中匹配车成功后对此分词进行替空操作,未匹配成功的分词自动保存,对企业名称分词依次进行,从而最终得到关键词。
优选的一种实施案例,步骤S5中,所述相似度计算采用Dice系数法,其计算公式为
Figure BDA0002665307260000021
其中,X表示需要检测的企业名称,Y表示待对比名称库内任意名称,|X∩Y|表示X和Y中相同关键词字符个数,|X|和|Y|分别表示X和Y的整体字符串长度。
优选的一种实施案例,步骤S5计算出相似度后,设立相似度阀值,将所述待对比名称库内超过相似度阀值的名称进行提取,并按照名称-相似度格式进行检测结果输出。
与现有技术相比,本发明的有益效果是:通过从全网企业名称选取大量名称样本,通过对名称样本进行分词根据统计原理得出企业名称中大量出现的一些热词,并将热词进行整合形成停用词库,再对需要检测的企业名称进行分词,将分词结果与停用词库进行对比剔除,从而得到企业名称中的关键字,避免大量热词对检测过程造成干扰,减免人工删选和补充工作量,根据关键词与全网数据进行匹配,得到待对比相似度的名称集,依据Dice系数将待检测的企业名称与待对比的名称集内各名称进行相似度计算,从而快速检测处相似度结果,提高计算精度,并根据阀值将结果按名称-相似度格式进行检测结果输出,便于查看。
具体实施方式
下面将对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明提供一种技术方案:一种基于统计学的企业名名称相似度检测方法,包括如下步骤:
S1、对企业名称进行中文分词,得到分词结果;
S2、统计全网企业名称热词,从而建立停用词库,具体步骤如下:
S201、从全网企业名称中随机抽取样本集;
S202、对样本集内各名称进行分词处理;
S203、对S202中分词处理的各分词计算TF-DF值,从而进行词频分析;
S204、设立热词阀值,保留出现词频高于阈值的分词并构成停用词库;
S3、将分词结果遍历停用词库,剔除遍历过程中匹配到停用词库中热词的分词,从而得到关键词;
S4、将关键词与全网企业名称进行匹配,并将匹配对应的企业名称进行统计,建立待对比名称库;
S5、对企业名称和待检验名称库内各名称进行相似度计算;
S501、计算出相似度后,设立相似度阀值,将待对比名称库内超过相似度阀值的名称进行提取,并按照名称-相似度格式进行检测结果输出
进一步的,步骤S1中,中文分词通过IKAnalyzer分词器、word分词器、Ansj分词器或Stanford分词器中的一种进行中文分词处理。
进一步的,词频分析方法采用TF-DF值进行确定,其中,TF分词出现数量/总分词数量,DF=包含分词的名称数/样本总数,则每个分词的TF-DF值为TF*DF*100%,并取TF-DF值大于热词阈值的分词建立停用词库。
进一步的,得到关键词的剔除方法将企业名称分词遍历停用词库,当遍历中匹配车成功后对此分词进行替空操作,未匹配成功的分词自动保存,对企业名称分词依次进行,从而最终得到关键词,如此实现了企业名称中大量出现的行政区划、行业或者经营特点、组织形式等干扰词语进行剔除,得到字号等关键词,而字号是区别不同企业的主要标志,从而使得相似度检测依据字号进行,减小后续人工筛选和补充的工作量,提高结果精度。
优选的一种实施案例,步骤S5中,相似度计算采用Dice系数法,其计算公式为
Figure BDA0002665307260000041
其中,X表示需要检测的企业名称,Y表示待对比名称库内任意名称,|X∩Y|表示X和Y中相同关键词字符个数,|X|和|Y|分别表示X和Y的整体字符串长度。
综上所述,本发明通过从全网企业名称选取大量名称样本,通过对名称样本进行分词根据统计原理得出企业名称中大量出现的一些热词,并将热词进行整合形成停用词库,再对需要检测的企业名称进行分词,将分词结果与停用词库进行对比剔除,从而得到企业名称中的关键字,避免大量热词对检测过程造成干扰,减免人工删选和补充工作量,根据关键词与全网数据进行匹配,得到待对比相似度的名称集,依据Dice系数将待检测的企业名称与待对比的名称集内各名称进行相似度计算,从而快速检测处相似度结果,提高计算精度,并根据阀值将结果按名称-相似度格式进行检测结果输出,便于查看。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。

Claims (7)

1.一种基于统计学的企业名名称相似度检测方法,其特征在于,包括如下步骤:
S1、对企业名称进行中文分词,得到分词结果;
S2、统计全网企业名称热词,从而建立停用词库;
S3、将所述分词结果遍历所述停用词库,剔除遍历过程中匹配到所述停用词库中热词的分词,从而得到关键词;
S4、将所述关键词与全网企业名称进行匹配,并将匹配对应的企业名称进行统计,建立待对比名称库;
S5、对企业名称和待检验名称库内各名称进行相似度计算。
2.根据权利要求1所述的一种基于统计学的企业名名称相似度检测方法,其特征在于:步骤S1中,所述中文分词通过IKAnalyzer分词器、word分词器、Ansj分词器或Stanford分词器中的一种进行中文分词处理。
3.根据权利要求1所述的一种基于统计学的企业名名称相似度检测方法,其特征在于:步骤S2中,全网企业名称热词的确定方法包括:
S201、从全网企业名称中随机抽取样本集;
S202、对样本集内各名称进行分词处理;
S203、对S202中分词处理的各分词进行词频分析;
S204、设立热词阀值,保留出现词频高于阈值的分词并构成停用词库。
4.根据权利要求3所述的一种基于统计学的企业名名称相似度检测方法,其特征在于:所述词频分析方法采用TF-DF值进行确定,其中,所述TF分词出现数量/总分词数量,所述DF=包含分词的名称数/样本总数,则每个分词的TF-DF值为TF*DF*100%,并取TF-DF值大于热词阈值的分词建立停用词库。
5.根据权利要求1所述的一种基于统计学的企业名名称相似度检测方法,其特征在于:步骤S3中,得到关键词的剔除方法将企业名称分词遍历停用词库,当遍历中匹配车成功后对此分词进行替空操作,未匹配成功的分词自动保存,对企业名称分词依次进行,从而最终得到关键词。
6.根据权利要求1所述的一种基于统计学的企业名名称相似度检测方法,其特征在于:步骤S5中,所述相似度计算采用Dice系数法,其计算公式为
Figure FDA0002665307250000021
其中,X表示需要检测的企业名称,Y表示待对比名称库内任意名称,|X∩Y|表示X和Y中相同关键词字符个数,|X|和|Y|分别表示X和Y的整体字符串长度。
7.根据权利要求1所述的一种基于统计学的企业名名称相似度检测方法,其特征在于:步骤S5计算出相似度后,设立相似度阀值,将所述待对比名称库内超过相似度阀值的名称进行提取,并按照名称-相似度格式进行检测结果输出。
CN202010916792.2A 2020-09-03 2020-09-03 一种基于统计学的企业名名称相似度检测方法 Pending CN112035621A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010916792.2A CN112035621A (zh) 2020-09-03 2020-09-03 一种基于统计学的企业名名称相似度检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010916792.2A CN112035621A (zh) 2020-09-03 2020-09-03 一种基于统计学的企业名名称相似度检测方法

Publications (1)

Publication Number Publication Date
CN112035621A true CN112035621A (zh) 2020-12-04

Family

ID=73591964

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010916792.2A Pending CN112035621A (zh) 2020-09-03 2020-09-03 一种基于统计学的企业名名称相似度检测方法

Country Status (1)

Country Link
CN (1) CN112035621A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112733928A (zh) * 2021-01-06 2021-04-30 安徽易测评信息技术有限公司 一种基于文明城市测评项目对测评标准进行标准化拆分匹配的智能算法
CN113011174A (zh) * 2020-12-07 2021-06-22 红塔烟草(集团)有限责任公司 一种基于文本分析的围标串标识别方法
CN116226213A (zh) * 2023-02-22 2023-06-06 广州集联信息技术有限公司 一种基于大数据的信息推荐***及方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103123618A (zh) * 2011-11-21 2013-05-29 北京新媒传信科技有限公司 文本相似度获取方法和装置
CN103885937A (zh) * 2014-04-14 2014-06-25 焦点科技股份有限公司 基于核心词相似度判断企业中文名称重复的方法
CN104199972A (zh) * 2013-09-22 2014-12-10 中科嘉速(北京)并行软件有限公司 一种基于深度学习的命名实体关系抽取与构建方法
CN106598940A (zh) * 2016-11-01 2017-04-26 四川用联信息技术有限公司 基于全局优化关键词质量的文本相似度求解算法
CN107748745A (zh) * 2017-11-08 2018-03-02 厦门美亚商鼎信息科技有限公司 一种企业名称关键字提取方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103123618A (zh) * 2011-11-21 2013-05-29 北京新媒传信科技有限公司 文本相似度获取方法和装置
CN104199972A (zh) * 2013-09-22 2014-12-10 中科嘉速(北京)并行软件有限公司 一种基于深度学习的命名实体关系抽取与构建方法
CN103885937A (zh) * 2014-04-14 2014-06-25 焦点科技股份有限公司 基于核心词相似度判断企业中文名称重复的方法
CN106598940A (zh) * 2016-11-01 2017-04-26 四川用联信息技术有限公司 基于全局优化关键词质量的文本相似度求解算法
CN107748745A (zh) * 2017-11-08 2018-03-02 厦门美亚商鼎信息科技有限公司 一种企业名称关键字提取方法

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113011174A (zh) * 2020-12-07 2021-06-22 红塔烟草(集团)有限责任公司 一种基于文本分析的围标串标识别方法
CN113011174B (zh) * 2020-12-07 2023-08-11 红塔烟草(集团)有限责任公司 一种基于文本分析的围标串标识别方法
CN112733928A (zh) * 2021-01-06 2021-04-30 安徽易测评信息技术有限公司 一种基于文明城市测评项目对测评标准进行标准化拆分匹配的智能算法
CN112733928B (zh) * 2021-01-06 2024-04-02 安徽易测评信息技术有限公司 一种基于文明城市测评项目对测评标准进行标准化拆分匹配的智能方法
CN116226213A (zh) * 2023-02-22 2023-06-06 广州集联信息技术有限公司 一种基于大数据的信息推荐***及方法
CN116226213B (zh) * 2023-02-22 2023-11-10 广州集联信息技术有限公司 一种基于大数据的信息推荐***及方法

Similar Documents

Publication Publication Date Title
CN112035621A (zh) 一种基于统计学的企业名名称相似度检测方法
CN103885937B (zh) 基于核心词相似度判断企业中文名称重复的方法
CN106815203B (zh) 一种裁判文书中的金额解析方法及装置
CN110807102B (zh) 知识融合方法、装置、计算机设备和存储介质
CN111324784A (zh) 一种字符串处理方法及装置
CN104750852B (zh) 中文地址数据的发现与分类方法
CN106708798B (zh) 一种字符串切分方法及装置
CN110110325B (zh) 一种重复案件查找方法和装置、计算机可读存储介质
CN113761880B (zh) 一种用于文本校验的数据处理方法、电子设备及存储介质
CN113033185B (zh) 标准文本纠错方法、装置、电子设备和存储介质
CN112651296A (zh) 一种无先验知识数据质量问题自动探查方法及***
CN108153728A (zh) 一种关键词确定方法及装置
CN110909532B (zh) 用户名称匹配方法、装置、计算机设备和存储介质
CN112612810A (zh) 慢sql语句识别方法及***
CN112926577B (zh) 一种医疗票据图像结构化方法和装置、计算机可读介质
CN115376152A (zh) 一种流程图的查重方法
CN113420564B (zh) 一种基于混合匹配的电力铭牌语义结构化方法及***
CN113569005B (zh) 一种基于数据内容的大规模数据特征智能化提取方法
CN110688835B (zh) 一种基于词语特征值的法律专有领域词发现方法及装置
CN113268986A (zh) 一种基于模糊匹配算法的单位名称匹配、查找方法及装置
CN109299456B (zh) 一种地名识别方法
CN113011174A (zh) 一种基于文本分析的围标串标识别方法
CN114218610B (zh) 一种基于Possion分布的多密集块检测与提取方法
CN110765263B (zh) 一种检索案件的显示方法及装置
CN114285601B (zh) 一种大数据的多密集块检测与提取方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination