CN117648581A

CN117648581A - 一种企业相似度评估方法、装置、终端及介质

Info

Publication number: CN117648581A
Application number: CN202311520663.1A
Authority: CN
Inventors: 陈旺旸; 卢盛羽; 廖顺意; 冯磊; 杨宗和; 蔡冠方
Original assignee: Guangdong Provincial Investment And Credit Center; Guangzhou Urban Planning Survey And Design Research Institute Co ltd
Current assignee: Guangdong Provincial Investment And Credit Center; Guangzhou Urban Planning Survey And Design Research Institute Co ltd
Priority date: 2023-11-14
Filing date: 2023-11-14
Publication date: 2024-03-05

Abstract

本发明公开了一种企业相似度评估方法、装置、终端及介质，所述方法包括获取企业相关的原始数据，并对所述原始数据进行预处理，得到企业专利数据库和企业政府招投标数据库，构建标准化专利特征库；根据所述专利特征库，计算多维度企业相似度；根据专利规模置信度和市场规模置信度，调整所述多维度企业相似度，得到企业总体相似度，以评估企业相似度。因此，本发明实施例能够综合考虑专利和市场两个方面共六个维度的企业相似度，通过基于置信度的内部权重调整，更全面、准确地评估企业相似度，提高企业相似度评估结果的准确性和可靠性。

Description

一种企业相似度评估方法、装置、终端及介质

技术领域

本发明涉及企业评估技术领域，尤其涉及一种企业相似度评估方法、装置、终端及介质。

背景技术

在现代市场经济体制下，企业的招投标、专利信息往往可以反映其市场布局、生产经营及技术研发情况。随着企业数量的迅速增长，评估企业相似度成为广泛需求。企业专利相似度评估不仅可以帮助企业了解同业市场和技术竞争态势，识别潜在的合作伙伴或供应商，还能帮助地方政府针对当地产业链的空白或薄弱环节，精确引进具备相应生产或技术能力的经营主体，进一步促进当地产业链的健康发展与转型升级。

企业相似度大体可分为专利和市场相似度两部分。现有企业专利相似度的评估方法主要从专利文本或专利分类(技术领域)中的单一维度相似度入手。基于文本的专利相似度评估通过专利文本关键词匹配和语义相似度计算等方式，得到两家企业所拥有专利两两之间的相似度矩阵，再求均值得到企业间的总体相似度。基于专利分类的相似度评估则利用企业专利分类代码的计数向量表征企业技术领域的分布情况，再通过余弦相似度等指标来度量企业专利的相似度。现有企业市场相似度评估则主要基于企业经营范围的文本相似性，通过关键词匹配、TF-IDF的等技术方法，衡量企业间经营范围的相似度。

现有技术企业相似度评估方法缺乏对其产出企业相似度结果的置信度评估机制，没有反映评估所用数据数量规模对结果可信度的影响，导致用户难以衡量结果的合理性和可用性；缺乏能综合多维度并自动优化调整各维度内部权重的机制；企业相似性评估维度不全面；没有考虑在不同应用场景下各企业相似度维度的重要性差异，无法根据实际需求对不同维度权重进行灵活调整，导致评估结果缺乏实用性。

发明内容

本发明提供一种企业相似度评估方法、装置、终端及介质，引入专利规模置信度和市场规模置信度概念，用于表征相似度结果的可信度，综合考虑专利和市场两个方面共六个维度的企业相似度，更全面、准确地评估企业相似度，提高评估结果的准确性和可靠性。

为了实现上述目的，第一方面，本发明实施例提供了一种企业相似度评估方法，包括：

获取企业相关的原始数据，并对所述原始数据进行预处理，得到企业专利数据库和企业政府招投标数据库；所述原始数据包括专利数据库、政府招投标数据库和工商注册数据库；

基于所述企业专利数据库和企业政府招投标数据库，构建标准化专利特征库；所述专利特征库包括企业专利总量库、企业专利细分数量向量库、企业专利文本语义向量库、企业市场规模库、企业市场细分规模向量库和企业名称/经营范围关键词库；

根据所述专利特征库，计算多维度企业相似度；所述多维度企业相似度包括专利规模相似度、专利细分相似度、专利语义相似度、市场规模相似度、市场细分相似度和经营范围相似度；

根据专利规模置信度和市场规模置信度，调整所述多维度企业相似度，得到企业总体相似度，以评估企业相似度。

作为上述方案的改进，所述获取企业相关的原始数据，并对所述原始数据进行预处理，得到企业专利数据库和企业政府招投标数据库，具体包括：

获取企业相关的原始数据，清洗所述原始数据中缺失企业名称信息的数据，通过与企业工商注册数据库中记录的现用名和曾用名进行匹配，将所述原始数据中所有涉及企业名称的数据替换为标准的现用名；

保留所述原始数据的重复数据项中更新时间最新的数据；所述企业工商注册数据库保留当前处于正常经营状态的企业的数据；

对所述专利数据库的专利申请人名称进行标准化，根据已标准化的专利申请人名称与所述企业工商注册数据库中的企业名称以及关联人员表进行匹配，将所述专利数据库的每个专利与所述企业工商注册数据库的企业进行链接，得到企业专利数据库；

对所述政府招投标数据库中的主要标的物按照财政部颁布的《政府采购品目分类目录(2022年印发)》进行重新归类，分别将标的数量、标的金额和合同金额转换为统一的计量单位，得到企业政府招投标数据库。

作为上述方案的改进，所述基于所述企业专利数据库和企业政府招投标数据库，构建标准化专利特征库，具体包括：

基于所述企业专利数据库，统计各企业拥有的所有专利的总数、各类型专利的总量，得到企业专利总量库；

按照类型、法律状态、专利分类号统计各企业的专利数量，得到企业专利细分数量向量库；

把所述企业专利数据库的摘要作为专利文本的语义表征，对所述摘要进行分词处理，构建专利摘要词库和专利摘要文本库，分别统计各专利的摘要词频，计算所述摘要的词汇的TF-IDF值；基于所述专利摘要文本库，训练Word2Vec模型，将所述摘要的词汇映射为100维的词向量，得到企业专利文本语义向量库；

基于所述企业政府招投标数据库，统计各企业招投标累计合同金额和合同数量，得到企业市场规模库；

统计各企业分标的物类型的累计合同金额和合同数量并进行拼接，得到企业市场细分规模向量库；

提取所述企业名称和所述企业工商注册数据库中的企业经营范围进行分词处理，得到企业名称词组和企业经营范围词组；剔除所述企业名称词组中的地名和常用词；剔除所述企业经营范围词组中名词、动词和形容词外的其他词汇，对所述企业名称词组和企业经营范围词组中剩余词汇进行去重处理，得到企业名称/经营范围关键词库。

作为上述方案的改进，所述根据所述标准化专利特征库，计算多维度企业相似度，具体为：

根据所述标准化专利特征库，提取所述企业专利总量库中两个目标企业的发明/实用新型/外观设计专利总量，分别计算每种类型专利的规模相似度，得到所述两个目标企业的专利规模相似度；

提取所述企业专利细分数量向量库中所述两个目标企业的专利细分数量向量，通过余弦相似度计算所述两个目标企业的专利细分相似度；

提取所述企业专利总量库中所述两个目标企业的专利总量，查找每个专利在所述企业专利文本语义向量库中对应的100维的词向量，所述两个目标企业的专利两两配对构成词向量专利对，计算所述词向量专利对的余弦相似度并取均值，得到所述两个目标企业的专利语义相似度；

获取所述企业市场规模库中所述两个目标企业的合同金额和合同数量，分别计算所述合同金额和合同数量的相似度，得到所述两个目标企业的市场规模相似度；

提取所述企业市场细分规模向量库中所述两个目标企业的市场细分向量，通过余弦相似度计算所述两个目标企业的市场细分相似度；

获取所述企业名称/经营范围关键词库中所述两个目标企业的企业名称和经营范围关键词，采用Jaccard相似度的分别计算所述企业名称和经营范围关键词的相似度，得到所述两个目标企业的经营范围相似度。

作为上述方案的改进，所述专利规模相似度的计算公式为：

式中，S_sp(A,B)代表企业A和企业B的专利规模相似度；k＝1,2,3分别代表所述企业A和企业B的发明/实用新型/外观设计专利；表示所述企业A的k类型的专利总量；/>表示所述企业B的k类型的专利总量；N_min为最小置信专利数；

所述专利细分相似度的计算公式为：

S_cls(A,B)＝Cosine Similarity(v_A,v_B)，

式中，S_cls(A,B)代表所述企业A和企业B的专利细分相似度；v_A表示所述企业A的专利细分数量向量；v_B表示所述企业B的专利细分数量向量；

所述专利语义相似度的计算公式为：

式中，S_sem(A,B)代表所述企业A和企业B的专利语义相似度；NA表示所述企业A的专利总量；N_B表示所述企业B的专利总量；v_i表示所述企业A的第i个专利的100维的词向量；v_j表示所述企业B的第j个专利的100维的词向量；(v_i,v_j)所述企业A的第i个专利和所述企业B的第j个专利配对构成的词向量专利对；

所述市场规模相似度的计算公式为：

式中，S_sm(A,B)代表所述企业A和企业B的市场规模相似度；代表所述企业A和企业B的合同金额相似度；/>分别代表所述企业A和企业B的合同金额；代表所述企业A和企业B的合同数量相似度；/>分别代表所述企业A和企业B的合同数量；/>为最小置信合同金额；/>为最小置信合同数量；

所述市场细分相似度的计算公式为：

S_mar(A,B)＝Cosine Similarity(u_A,u_B)，

式中，S_mar(A,B)代表所述企业A和企业B的市场细分相似度；u_A表示所述企业A的市场细分向量；u_B表示所述企业B的市场细分向量；

所述经营范围相似度的计算公式为：

式中，S_sco(A,B)代表所述企业A和企业B的经营范围相似度；J_name、J_scope分别代表所述企业A和企业B的企业名称相似度和经营范围相似度。

作为上述方案的改进，所述根据专利规模置信度和市场规模置信度，调整所述多维度企业相似度，得到企业总体相似度，以评估企业相似度，具体为：

当专利规模置信度大于等于第一阈值时，缩减所述专利语义相似度的权重；当所述专利规模置信度小于第一阈值时，缩减所述专利细分相似度的权重；所述第一阈值定义为判断所述专利规模相似度是否可信的界限；

当市场规模置信度大于等于第二阈值时，缩减所述市场细分相似度的权重；当所述市场规模置信度小于第二阈值时，缩减经营范围相似度的权重；所述第二阈值定义为判断所述市场规模相似度是否可信的界限；；

整合所述多维度企业相似度的权重，得到企业总体相似度，以评估企业相似度；

其中，所述专利规模置信度的计算公式为：

式中，p_N(A,B)代表所述企业A和企业B的专利规模置信度；

所述市场规模置信度的计算公式为：

式中，p_M(A,B)代表所述企业A和企业B的市场规模置信度；

所述企业总体相似度的计算公式为：

式中，S_overall代表两个目标企业的企业总体相似度；S_sp、S_cls和S_sem分别代表所述两个目标企业的专利规模相似度、专利细分相似度和专利语义相似度；S_sm、S_mar和S_sco分别代表所述两个目标企业的市场规模相似度、市场细分相似度和经营范围相似度；W_sp、W_cls和W_sem分别代表所述两个目标企业的专利规模相似度、专利细分相似度和专利语义相似度对应的权重；W_sm、W_mar和W_sco分别代表所述两个目标企业的市场规模相似度、市场细分相似度和经营范围相似度对应的权重。

作为上述方案的改进，所述的企业相似度评估方法，还包括：设置应用场景的预设权重，所述应用场景主要包括政府端和企业端；

所述政府端的专利规模相似度、专利分类相似度、专利语义相似度、市场规模相似度、市场细分相识度、经营范围相似度的预设权重分别为1:2:3:2:1:1；

所述企业端的专利规模相似度、专利分类相似度、专利语义相似度、市场规模相似度、市场细分相识度、经营范围相似度的预设权重分别为1:3:2:1:2:1。

第二方面，本发明实施例提供了一种企业相似度评估装置，包括：

数据预处理模块，用于获取企业相关的原始数据，并对所述原始数据进行预处理，得到企业专利数据库和企业政府招投标数据库；所述原始数据包括专利数据库、政府招投标数据库和工商注册数据库；

专利特征库模块，用于基于所述企业专利数据库和企业政府招投标数据库，构建标准化专利特征库；所述专利特征库包括企业专利总量库、企业专利细分数量向量库、企业专利文本语义向量库、企业市场规模库、企业市场细分规模向量库和企业名称/经营范围关键词库；

多维相似度模块，用于根据所述专利特征库，计算多维度企业相似度；所述多维度企业相似度包括专利规模相似度、专利细分相似度、专利语义相似度、市场规模相似度、市场细分相似度和经营范围相似度；

总体相似度模块，用于根据专利规模置信度和市场规模置信度，调整所述多维度企业相似度，得到企业总体相似度，以评估企业相似度。

第三方面，本发明实施例对应提供了一种终端设备，包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序，所述处理器执行所述计算机程序时实现上述企业相似度评估方法。

此外，本发明实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质包括存储的计算机程序，其中，在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行上述企业相似度评估方法。

与现有技术相比，本发明实施例公开的一种企业相似度评估方法、装置、终端及介质，通过获取企业相关的原始数据，并对所述原始数据进行预处理，得到企业专利数据库和企业政府招投标数据库；所述原始数据包括专利数据库、政府招投标数据库和工商注册数据库；基于所述企业专利数据库和企业政府招投标数据库，构建标准化专利特征库；所述专利特征库包括企业专利总量库、企业专利细分数量向量库、企业专利文本语义向量库、企业市场规模库、企业市场细分规模向量库和企业名称/经营范围关键词库；根据所述专利特征库，计算多维度企业相似度；所述多维度企业相似度包括专利规模相似度、专利细分相似度、专利语义相似度、市场规模相似度、市场细分相似度和经营范围相似度；根据专利规模置信度和市场规模置信度，调整所述多维度企业相似度，得到企业总体相似度，以评估企业相似度。因此，本发明实施例通过专利规模置信度和市场规模置信度的计算方法，用于衡量给定数据规模下相似度结果的可信度和可用性；充分利用政府招投标数据度量企业的真实市场行为的相似性并提出专利规模相似度、市场规模相似度、市场细分相似度三个全新的企业相似度指标，这些新指标丰富了企业相似度评估的维度，也是置信度计算和内部权重调整的重要一环；优化了专利细分相识度、经营范围相似度的计算方法，提高了企业相似度评估结果的客观性和准确性；能够综合考虑专利和市场两个方面共六个维度的企业相似度，通过基于置信度的内部权重调整，克服了各单一维度在不同场景下存在的评估误差问题，从而更全面、准确地评估企业相似度，提高评估结果的准确性和可靠性。

附图说明

图1是本发明实施例提供的一种企业相似度评估方法的流程示意图；

图2是本发明实施例提供的一种企业相似度评估装置的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，本发明的术语“包括”和“具体”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

请参阅图1，图1是本发明实施例提供的一种企业相似度评估方法的流程示意图，该企业相似度评估方法，包括步骤S11至S14：

S11：获取企业相关的原始数据，并对所述原始数据进行预处理，得到企业专利数据库和企业政府招投标数据库；所述原始数据包括专利数据库、政府招投标数据库和工商注册数据库；

S12：基于所述企业专利数据库和企业政府招投标数据库，构建标准化专利特征库；所述专利特征库包括企业专利总量库、企业专利细分数量向量库、企业专利文本语义向量库、企业市场规模库、企业市场细分规模向量库和企业名称/经营范围关键词库；

S13：根据所述专利特征库，计算多维度企业相似度；所述多维度企业相似度包括专利规模相似度、专利细分相似度、专利语义相似度、市场规模相似度、市场细分相似度和经营范围相似度；

S14：根据专利规模置信度和市场规模置信度，调整所述多维度企业相似度，得到企业总体相似度，以评估企业相似度。

具体的，所述步骤S11中，具体包括：

示例的，如果专利申请人为个人的专利，先尝试通过企业工商注册关联人员表匹配相关企业，未能匹配的部分再予以删除。对多个申请人联合申请的专利，应将该专利条目复制多份，对每一申请人均予以链接，并标注申请人主次关系，通过以上步骤成功匹配的专利以企业名称为主键存入企业专利数据库。

对主要标的物按照财政部颁布的《政府采购品目分类目录(2022年印发)》进行重新归类，分别将标的数量、标的金额和合同金额转换为统一的计量单位，得到企业政府招投标数据库。

需要说明的是，本发明使用的数据库主要包括专利数据库、政府招投标数据库和工商注册数据库。专利数据库主要包括专利公开号、名称、类别、摘要、分类号、法律状态等信息。政府招投标数据库包括项目名称、采购人名称、供应商名称、标的名称、标的数量、标的金额等信息。工商注册数据库主要包括在国内工商注册企业的统一信用代码、企业名称(含曾用名)、所属行业、经营范围等信息。

具体的，所述步骤S12中，具体包括：

需要说明的是，在实际情况中，基于企业专利数据库，统计各企业拥有的所有专利的总数、各类型(发明专利/实用新型/外观设计)专利的总量；统计各企业分类型、分法律状态、分专利分类号专利数量，得到专利细分向量；分类采用叠加模式，最细统计节点表示为专利类型(发明专利/实用新型/外观设计)-法律状态(有效/审中/无效)-专利分类号(IPC小组)，例如：发明专利-有效-A01B33/08。此分类统计方法能最大限度反映企业专利分布特征。考虑到得到的企业专利细分数量向量维度较高，向量结果采用稀疏存储方式，即不储存零值。

为减少重复冗余的语义信息、降低计算成本，以专利摘要作为专利文本的语义表征。具体步骤为：对专利摘要做分词处理，移除标点符号、停止词后，仅保留名词、动词、形容词。利用所有专利摘要构建专利摘要词库和专利摘要文本库，分别统计各专利摘要词频，计算各个词汇的TF-IDF值。基于专利摘要文本库，训练Word2Vec模型，将词汇映射为100维的词向量。对任意专利，其文本语义向量的计算方式为以各词汇TF-IDF值为权重的词向量加权平均，结果为100维向量。

基于政府招投标数据库，统计各企业分标的类型的累计合同金额和合同数量，两者拼接后得到市场细分向量，采用稀疏方式存储。提取企业名称和企业工商注册中记录的经营范围的关键词表征企业经营范围特征。首先对企业名称和企业经营范围文本做分词处理。剔除企业名称词组中的地名(包括各省市区名)、“公司”、“有限公司”、“集团”等常用词；企业经营范围词组应剔除名词、动词和形容词外的其他词汇，剩余词汇去重后作为企业名称/经营范围关键词库。

具体的，所述步骤S13中，具体包括：

更具体的，所述专利规模相似度的计算公式为：

所述专利细分相似度的计算公式为：

S_cls(A,B)＝Cosine Similarity(v_A,v_B)，

所述专利语义相似度的计算公式为：

式中，S_sem(A,B)代表所述企业A和企业B的专利语义相似度；N_A表示所述企业A的专利总量；N_B表示所述企业B的专利总量；v_i表示所述企业A的第i个专利的100维的词向量；v_j表示所述企业B的第j个专利的100维的词向量；(v_i,v_j)所述企业A的第i个专利和所述企业B的第j个专利配对构成的词向量专利对；

所述市场规模相似度的计算公式为：

所述市场细分相似度的计算公式为：

S_mar(A,B)＝Cosine Similarity(u_A,u_B)，

所述经营范围相似度的计算公式为：

示例的，给定企业A和企业B，从企业专利总量库中分别提取二者的发明/实用新型/外观设计专利总量，分别计算每一专利类型的规模相似度。计算方法为二者规模的较小值与较大值的左移自然对数比值。较小值与较大值之比保证范围取值范围在[0,1]；对专利规模取对数能缩小两个企业专利数量均较多时的规模差异；左移设计则能缩小两个企业专利数量均较小时的规模差异，其中左移距离等于提出的“最小置信专利数”，记为N_min，本发明中取值为10；当企业专利数量大于最小置信专利数时，认为得出的相似度结果是可信的；当专利数量小于最小置信专利数时，认为得出的结果存疑；置信度随专利数量减少而递减，企业间三类专利的规模相似度均值即为总体专利规模相似度，专利规模相似度取值范围为[0,1]。

专利细分相似度计算方法为两企业专利细分向量的余弦相似度。得益于采用的稀疏存储方式，余弦相似度分子点积部分计算可简化为两企业向量不为零项交集部分的余弦相似度，分母向量模乘积部分则为两企业向量非零项平方和根之积，专利细分相似度取值范围为[0,1]。

两个企业专利两两配对构成N_A×N_B个词向量专利对(v_i,v_j)，计算各专利对的余弦相似度，所有余弦相似度的均值即为企业A与企业B的专利语义相似度，取值范围为[0,1]。

从企业市场规模库中分别提取二者的合同金额和合同数量/> 分别定义“最小置信合同金额”和“最小置信合同数量”，记为/>和/>本发明中取值为10个和100万元。合同金额相似度/>和合同数量相似度/>计算方法均为两企业规模中较小值与较大值的左移自然对数比值，市场规模相似度取以上两者的较大值，取值范围为[0,1]。

市场细分相似度计算方法为两企业市场细分向量的余弦相似度，取值范围为[0,1]。

企业名称/经营范围关键词库为不重复的词汇表，采用Jaccard相似度的方法分别计算两企业名称相似度J_name和经营范围相似度J_scope，取值范围均为[0,1]。由于经营范围内容涉及较广且描述主观差异性较强，相似企业的经营范围往往也存在差异，导致经营范围相似度数值整体不高。因此，本发明实施例提出当企业名称或经营范围相似度超过某一阈值时，就可认为经营范围相似度已具有较高水平。具体地，规定当J_name≥0.5或J_scope≥0.25时，经营范围相似度直接取1.0；否则，经营范围相似度等于(J_scope/0.25)²，取值范围为[0,1]。

具体的，所述步骤S14中，具体包括：

当市场规模置信度大于等于第二阈值时，缩减所述市场细分相似度的权重；当所述市场规模置信度小于第二阈值时，缩减经营范围相似度的权重；所述第二阈值定义为判断所述市场规模相似度是否可信的界限；

其中，所述专利规模置信度的计算公式为：

式中，p_N(A,B)代表所述企业A和企业B的专利规模置信度；

所述市场规模置信度的计算公式为：

式中，p_M(A,B)代表所述企业A和企业B的市场规模置信度；

所述企业总体相似度的计算公式为：

需要说明的是，本发明实施例提出的专利规模置信度，用于衡量在给定的专利规模条件下得到的企业专利相似度结果的可信度，其计算方法为：给定企业A和企业B，分别对应的专利规模为N_A、N_B，给定最小置信专利数N_min(本发明实施例中取值为10个)。专利规模置信度的取值范围设计为[0,1]，取值越大表示结果越可信，综合考虑两企业的专利规模大小和专利规模相似度两个方面。专利规模方面，评估涉及专利数量越多，结果的不确定性越小进而越可信。因此，两个专利规模中的较小值min{N_A,N_B}决定最终的置信度。考虑到专利规模为正整数，我们使用tanh函数将专利规模映射为取值范围在[0,1]的置信度。此外，在将min{N_A,N_B}代入tanh函数前，先让其除以最小置信专利数N_min，这样可以使得当min{N_A,N_B}恰好等于N_min时，专利规模置信度取值接近0.75，该取值(0.75)也被定义为判断相似度是否可信的界限，即第一阈值。专利规模相似度方面，当两个企业专利规模相似较大时，评估结果更加可靠，置信度取值应较大；反之，企业专利规模相似较小时，置信度也应取值较小。由于企业专利规模相似本身取值范围也为[0,1]，我们直接将其作为专利规模置信度的度量指标之一。最终，企业A和企业B之间的专利规模置信度为基于专利规模和专利规模相似度得到的置信度中的较小者。

本发明实施例提出的市场规模置信度，用于衡量在给定的市场规模条件下得到的企业市场相似度结果的可信度，其计算方法为：给定企业A和企业B，分别对应合同金额合同数量/>最小置信合同金额/>和最小置信合同数量/>(本发明实施例中取值分别为10个和100万元)。类似于专利规模置信度，企业A和企业B之间的市场规模置信度为基于市场规模(包含合同金额和合同数量两部分)和市场规模相似度得到的置信度中的较小者，同样以0.75作为判断相似度是否可信的界限，即第二阈值。

规模置信度不仅能衡量相似度结果的可信度，还可结合各相似度维度的特性调整对应的内部权重，以提高整体相似度结果的可靠性和科学性。

专利方面，专利语义相似度可以在企业专利规模较小时精确捕捉专利内容间差异，但当专利规模较大时难以把握企业间总体相似度；而专利细分相似度在专利规模较大时能反映企业间的总体技术布局的相似程度，当专利规模较小时存在较大不确定性。因此，当专利规模置信度大等于0.75时，缩减专利语义相似权重。考虑到置信度较高时，专利语义相似度仍具有一定的参考意义，故缩减乘数取定值0.75。当专利规模置信度小于0.75时，缩减专利细分相似权重。考虑到置信度越低，专利细分相似度越不可信，故缩减乘数取为专利规模置信度，不设下限。基于这种方法，实现专利相似度内部维度在不同专利规模置信度条件下的权重自调整。

市场方面，市场细分相似度在企业市场规模较小时可以反映企业的重点经营内容，但当市场规模较大时可能丧失全面性。相反地，市场经营范围相似度在企业市场规模较大时能反映企业经营的市场布局，但在市场规模较小时难以区分企业真实的业务重点。因此，当市场规模置信度大等于0.75时，缩减市场细分相似权重。考虑到置信度较高时，经营范围相似度仍具有一定的参考意义，故缩减乘数取定值0.75。当市场规模置信度小于0.75时，缩减经营范围相似权重。考虑到置信度越低，市场细分相似度越不可信，故缩减乘数取为市场规模置信度，不设下限。基于这种方法，实现市场相似度内部维度在不同市场规模置信度条件下的权重自调整。

选择初始维度权重后，基于专利规模置信度和市场规模置信度调整内部权重。维度权重经过调整确定后，企业间专利总体相似度为各维度专利相似度的加权几何平均数，取值范围为[0,1]。

进一步的，所述的企业相似度评估方法，还包括：设置应用场景的预设权重，所述应用场景主要包括政府端和企业端；

需要说明的是，本发明实施例针对常见的应用场景提供了预设权重，主要包括政府端和企业端。政府端专利规模相似度、专利分类相似度、专利语义相似度、市场规模相似度、市场细分相识度、经营范围相似度权重分别为1:2:3:2:1:1，重视技术分布领域和市场总体规模，主要用于产业链安全评估、产业链关键企业识别等；企业端权重则为1:3:2:1:2:1，重视专利内容和分布领域情况，关注市场份额分布情况，主要用于判别同业竞争态势，寻找潜在的合作伙伴或供应商。除使用预设权重外，用户可也自行运用层次分析法模块实现定制化赋权。

图2是本发明实施例提供的一种企业相似度评估装置的结构示意图，该企业相似度评估装置，包括：

数据预处理模块21，用于获取企业相关的原始数据，并对所述原始数据进行预处理，得到企业专利数据库和企业政府招投标数据库；所述原始数据包括专利数据库、政府招投标数据库和工商注册数据库；

专利特征库模块22，用于基于所述企业专利数据库和企业政府招投标数据库，构建标准化专利特征库；所述专利特征库包括企业专利总量库、企业专利细分数量向量库、企业专利文本语义向量库、企业市场规模库、企业市场细分规模向量库和企业名称/经营范围关键词库；

多维相似度模块23，用于根据所述专利特征库，计算多维度企业相似度；所述多维度企业相似度包括专利规模相似度、专利细分相似度、专利语义相似度、市场规模相似度、市场细分相似度和经营范围相似度；

总体相似度模块24，用于根据专利规模置信度和市场规模置信度，调整所述多维度企业相似度，得到企业总体相似度，以评估企业相似度。

进一步的，所述的企业相似度评估装置，还包括：应用场景权重模块，用于设置应用场景的预设权重，所述应用场景主要包括政府端和企业端；

本发明实施例所提供的一种企业相似度评估装置能够实现上述实施例的企业相似度评估方法的所有流程，装置中的各个模块的作用以及实现的技术效果分别与上述实施例的企业相似度评估方法的作用以及实现的技术效果对应相同，这里不再赘述。

本发明实施例对应提供的一种终端设备，所述终端设备包括：处理器、存储器以及存储在所述存储器中并可在所述处理器上运行的计算机程序。所述处理器执行所述计算机程序时实现上述企业相似度评估方法实施例中的步骤。或者，所述处理器执行所述计算机程序时实现上述企业相似度评估装置实施例中各模块的功能。

所述终端设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述终端设备可包括，但不仅限于，处理器、存储器。本领域技术人员可以理解，所述示意图仅仅是终端设备的示例，并不构成对终端设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如所述终端设备还可以包括输入输出设备、网络接入设备、总线等。

所述处理器可以是中央处理单元，还可以是其他通用处理器、数字信号处理器、专用集成电路、现场可编程门阵列或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等，所述处理器是所述终端设备的控制中心，利用各种接口和线路连接整个终端设备的各个部分。

存储器可用于存储所述计算机程序和/或模块，所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块，以及调用存储在存储器内的数据，实现所述终端设备的各种功能。存储器可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作***、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器可以包括高速随机存取存储器，还可以包括非易失性存储器，例如硬盘、内存、插接式硬盘，智能存储卡、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

需说明的是，以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

本发明实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质包括存储的计算机程序，其中，在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如上述实施例的企业相似度评估方法。

综上所述，本发明实施例公开的一种企业相似度评估方法、装置、终端及介质，通过获取企业相关的原始数据，并对所述原始数据进行预处理，得到企业专利数据库和企业政府招投标数据库；所述原始数据包括专利数据库、政府招投标数据库和工商注册数据库；基于所述企业专利数据库和企业政府招投标数据库，构建标准化专利特征库；所述专利特征库包括企业专利总量库、企业专利细分数量向量库、企业专利文本语义向量库、企业市场规模库、企业市场细分规模向量库和企业名称/经营范围关键词库；根据所述专利特征库，计算多维度企业相似度；所述多维度企业相似度包括专利规模相似度、专利细分相似度、专利语义相似度、市场规模相似度、市场细分相似度和经营范围相似度；根据专利规模置信度和市场规模置信度，调整所述多维度企业相似度，得到企业总体相似度，以评估企业相似度。因此，本发明实施例通过专利规模置信度和市场规模置信度的计算方法，用于衡量给定数据规模下相似度结果的可信度和可用性；充分利用政府招投标数据度量企业的真实市场行为的相似性并提出专利规模相似度、市场规模相似度、市场细分相似度三个全新的企业相似度指标，这些新指标丰富了企业相似度评估的维度，也是置信度计算和内部权重调整的重要一环；优化了专利细分相识度、经营范围相似度的计算方法，提高了企业相似度评估结果的客观性和准确性；能够综合考虑专利和市场两个方面共六个维度的企业相似度，通过基于置信度的内部权重调整，克服了各单一维度在不同场景下存在的评估误差问题，从而更全面、准确地评估企业相似度，提高评估结果的准确性和可靠性。

以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也视为本发明的保护范围。

Claims

1.一种企业相似度评估方法，其特征在于，包括：

2.如权利要求1所述的企业相似度评估方法，其特征在于，所述获取企业相关的原始数据，并对所述原始数据进行预处理，得到企业专利数据库和企业政府招投标数据库，具体包括：

3.如权利要求1所述的企业相似度评估方法，其特征在于，所述基于所述企业专利数据库和企业政府招投标数据库，构建标准化专利特征库，具体包括：

4.如权利要求1所述的企业相似度评估方法，其特征在于，所述根据所述标准化专利特征库，计算多维度企业相似度，具体为：

5.如权利要求4所述的企业相似度评估方法，其特征在于，所述专利规模相似度的计算公式为：

所述专利细分相似度的计算公式为：

S_cls(A,B)＝Cosine Similarity(v_A,v_B)，

所述专利语义相似度的计算公式为：

所述市场规模相似度的计算公式为：

式中，S_sm(A,B)代表所述企业A和企业B的市场规模相似度；代表所述企业A和企业B的合同金额相似度；/>分别代表所述企业A和企业B的合同金额；/>代表所述企业A和企业B的合同数量相似度；/>分别代表所述企业A和企业B的合同数量；/>为最小置信合同金额；/>为最小置信合同数量；

所述市场细分相似度的计算公式为：

S_mar(A,B)＝Cosine Similarity(u_A,u_B)，

所述经营范围相似度的计算公式为：

6.如权利要求1所述的企业相似度评估方法，其特征在于，所述根据专利规模置信度和市场规模置信度，调整所述多维度企业相似度，得到企业总体相似度，以评估企业相似度，具体为：

其中，所述专利规模置信度的计算公式为：

式中，p_N(A,B)代表所述企业A和企业B的专利规模置信度；

所述市场规模置信度的计算公式为：

式中，p_M(A,B)代表所述企业A和企业B的市场规模置信度；

所述企业总体相似度的计算公式为：

7.如权利要求1所述的企业相似度评估方法，其特征在于，还包括：设置应用场景的预设权重，所述应用场景主要包括政府端和企业端；

所述政府端的专利规模相似度、专利分类相似度、专利语义相似度、市场规模相似度、市场细分相识度、经营范围相似度的预设权重分别为1∶2∶3∶2∶1∶1；

所述企业端的专利规模相似度、专利分类相似度、专利语义相似度、市场规模相似度、市场细分相识度、经营范围相似度的预设权重分别为1∶3∶2∶1∶2∶1。

8.一种企业相似度评估装置，其特征在于，包括：

9.一种终端设备，其特征在于，包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序，所述处理器执行所述计算机程序时实现如权利要求1-7中任意一项所述的企业相似度评估方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质包括存储的计算机程序，其中，在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如权利要求1-7中任意一项所述的企业相似度评估方法。