CN112035621A

CN112035621A - 一种基于统计学的企业名名称相似度检测方法

Info

Publication number: CN112035621A
Application number: CN202010916792.2A
Authority: CN
Inventors: 宋兵
Original assignee: Jiangsu Institute of Economic and Trade Technology
Current assignee: Jiangsu Institute of Economic and Trade Technology
Priority date: 2020-09-03
Filing date: 2020-09-03
Publication date: 2020-12-04

Abstract

本发明公开了一种基于统计学的企业名名称相似度检测方法，包括如下步骤：对企业名称进行中文分词；统计全网企业名称热词，建立停用词库；将分词结果遍历停用词库，剔除遍历过程中匹配到停用词库中热词的分词，得到关键词；将关键词与全网企业名称进行匹配，将匹配对应的企业名称进行统计，建立待对比名称库；对企业名称和待检验名称库内各名称进行相似度计算。通过建立停用词库，将检测的企业名称分词结果与停用词库进行对比剔除，得到企业名称中的关键字，避免大量热词对检测过程造成干扰，减免人工删选和补充工作量，根据关键词与全网数据进行匹配，得到待对比相似度的名称集，并进行相似度计算，从而快速检测处相似度结果，提高计算精度。

Description

一种基于统计学的企业名名称相似度检测方法

技术领域

本发明涉及企业名称检测技术领域，具体为一种基于统计学的企业名名称相似度检测方法。

背景技术

企业名称是一个企业的头面，一个企业区别于其他企业的文字符号，依次由企业所在地的行政区划、字号、行业或者经营特点、组织形式等四部分组成，字号是区别不同企业的主要标志，一个企业能够被人们快速记住并防止与其他企业进行混淆是一个成功的企业名称所需要具备的特性，因此企业名称确立时需要与其他现有企业名称进行对比，确立相似度，避免过于相似导致的混淆和侵权问题，企业名称相似度检测中大量行政区划、行业或者经营特点、组织形式等数据都是出现频率非常高的热词，给相似度检测工作带来了大量干扰和误差，且需要通过人工去甄别、补充，导致企业名称相似度检测效率和精度较低，为此我们提出一种基于统计学的企业名名称相似度检测方法用于解决上述问题。

发明内容

本发明的目的在于提供一种基于统计学的企业名名称相似度检测方法，以解决上述背景技术中提出的问题。

为实现上述目的，本发明提供如下技术方案：一种基于统计学的企业名名称相似度检测方法，包括如下步骤：

S1、对企业名称进行中文分词，得到分词结果；

S2、统计全网企业名称热词，从而建立停用词库；

S3、将所述分词结果遍历所述停用词库，剔除遍历过程中匹配到所述停用词库中热词的分词，从而得到关键词；

S4、将所述关键词与全网企业名称进行匹配，并将匹配对应的企业名称进行统计，建立待对比名称库；

S5、对企业名称和待检验名称库内各名称进行相似度计算。

优选的一种实施案例，步骤S1中，所述中文分词通过IKAnalyzer分词器、word分词器、Ansj分词器或Stanford分词器中的一种进行中文分词处理。

优选的一种实施案例，步骤S2中，全网企业名称热词的确定方法包括：

S201、从全网企业名称中随机抽取样本集；

S202、对样本集内各名称进行分词处理；

S203、对S202中分词处理的各分词进行词频分析；

S204、设立热词阀值，保留出现词频高于阈值的分词并构成停用词库。

优选的一种实施案例，所述词频分析方法采用TF-DF值进行确定，其中，所述TF分词出现数量/总分词数量，所述DF＝包含分词的名称数/样本总数，则每个分词的TF-DF值为TF*DF*100％，并取TF-DF值大于热词阈值的分词建立停用词库。

优选的一种实施案例，得到关键词的剔除方法将企业名称分词遍历停用词库，当遍历中匹配车成功后对此分词进行替空操作，未匹配成功的分词自动保存，对企业名称分词依次进行，从而最终得到关键词。

优选的一种实施案例，步骤S5中，所述相似度计算采用Dice系数法，其计算公式为

其中，X表示需要检测的企业名称，Y表示待对比名称库内任意名称，|X∩Y|表示X和Y中相同关键词字符个数，|X|和|Y|分别表示X和Y的整体字符串长度。

优选的一种实施案例，步骤S5计算出相似度后，设立相似度阀值，将所述待对比名称库内超过相似度阀值的名称进行提取，并按照名称-相似度格式进行检测结果输出。

与现有技术相比，本发明的有益效果是：通过从全网企业名称选取大量名称样本，通过对名称样本进行分词根据统计原理得出企业名称中大量出现的一些热词，并将热词进行整合形成停用词库，再对需要检测的企业名称进行分词，将分词结果与停用词库进行对比剔除，从而得到企业名称中的关键字，避免大量热词对检测过程造成干扰，减免人工删选和补充工作量，根据关键词与全网数据进行匹配，得到待对比相似度的名称集，依据Dice系数将待检测的企业名称与待对比的名称集内各名称进行相似度计算，从而快速检测处相似度结果，提高计算精度，并根据阀值将结果按名称-相似度格式进行检测结果输出，便于查看。

具体实施方式

下面将对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明提供一种技术方案：一种基于统计学的企业名名称相似度检测方法，包括如下步骤：

S1、对企业名称进行中文分词，得到分词结果；

S2、统计全网企业名称热词，从而建立停用词库，具体步骤如下：

S201、从全网企业名称中随机抽取样本集；

S202、对样本集内各名称进行分词处理；

S203、对S202中分词处理的各分词计算TF-DF值，从而进行词频分析；

S204、设立热词阀值，保留出现词频高于阈值的分词并构成停用词库；

S3、将分词结果遍历停用词库，剔除遍历过程中匹配到停用词库中热词的分词，从而得到关键词；

S4、将关键词与全网企业名称进行匹配，并将匹配对应的企业名称进行统计，建立待对比名称库；

S5、对企业名称和待检验名称库内各名称进行相似度计算；

S501、计算出相似度后，设立相似度阀值，将待对比名称库内超过相似度阀值的名称进行提取，并按照名称-相似度格式进行检测结果输出

进一步的，步骤S1中，中文分词通过IKAnalyzer分词器、word分词器、Ansj分词器或Stanford分词器中的一种进行中文分词处理。

进一步的，词频分析方法采用TF-DF值进行确定，其中，TF分词出现数量/总分词数量，DF＝包含分词的名称数/样本总数，则每个分词的TF-DF值为TF*DF*100％，并取TF-DF值大于热词阈值的分词建立停用词库。

进一步的，得到关键词的剔除方法将企业名称分词遍历停用词库，当遍历中匹配车成功后对此分词进行替空操作，未匹配成功的分词自动保存，对企业名称分词依次进行，从而最终得到关键词，如此实现了企业名称中大量出现的行政区划、行业或者经营特点、组织形式等干扰词语进行剔除，得到字号等关键词，而字号是区别不同企业的主要标志，从而使得相似度检测依据字号进行，减小后续人工筛选和补充的工作量，提高结果精度。

优选的一种实施案例，步骤S5中，相似度计算采用Dice系数法，其计算公式为

综上所述，本发明通过从全网企业名称选取大量名称样本，通过对名称样本进行分词根据统计原理得出企业名称中大量出现的一些热词，并将热词进行整合形成停用词库，再对需要检测的企业名称进行分词，将分词结果与停用词库进行对比剔除，从而得到企业名称中的关键字，避免大量热词对检测过程造成干扰，减免人工删选和补充工作量，根据关键词与全网数据进行匹配，得到待对比相似度的名称集，依据Dice系数将待检测的企业名称与待对比的名称集内各名称进行相似度计算，从而快速检测处相似度结果，提高计算精度，并根据阀值将结果按名称-相似度格式进行检测结果输出，便于查看。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.一种基于统计学的企业名名称相似度检测方法，其特征在于，包括如下步骤：

S1、对企业名称进行中文分词，得到分词结果；

S2、统计全网企业名称热词，从而建立停用词库；

S5、对企业名称和待检验名称库内各名称进行相似度计算。

2.根据权利要求1所述的一种基于统计学的企业名名称相似度检测方法，其特征在于：步骤S1中，所述中文分词通过IKAnalyzer分词器、word分词器、Ansj分词器或Stanford分词器中的一种进行中文分词处理。

3.根据权利要求1所述的一种基于统计学的企业名名称相似度检测方法，其特征在于：步骤S2中，全网企业名称热词的确定方法包括：

S201、从全网企业名称中随机抽取样本集；

S202、对样本集内各名称进行分词处理；

S203、对S202中分词处理的各分词进行词频分析；

4.根据权利要求3所述的一种基于统计学的企业名名称相似度检测方法，其特征在于：所述词频分析方法采用TF-DF值进行确定，其中，所述TF分词出现数量/总分词数量，所述DF＝包含分词的名称数/样本总数，则每个分词的TF-DF值为TF*DF*100％，并取TF-DF值大于热词阈值的分词建立停用词库。

5.根据权利要求1所述的一种基于统计学的企业名名称相似度检测方法，其特征在于：步骤S3中，得到关键词的剔除方法将企业名称分词遍历停用词库，当遍历中匹配车成功后对此分词进行替空操作，未匹配成功的分词自动保存，对企业名称分词依次进行，从而最终得到关键词。

6.根据权利要求1所述的一种基于统计学的企业名名称相似度检测方法，其特征在于：步骤S5中，所述相似度计算采用Dice系数法，其计算公式为

7.根据权利要求1所述的一种基于统计学的企业名名称相似度检测方法，其特征在于：步骤S5计算出相似度后，设立相似度阀值，将所述待对比名称库内超过相似度阀值的名称进行提取，并按照名称-相似度格式进行检测结果输出。