CN109558481B

CN109558481B - 专利与企业相关性测度方法、装置、设备及可读存储介质

Info

Publication number: CN109558481B
Application number: CN201811466764.4A
Authority: CN
Inventors: 高影繁; 刘志辉; 姚长青; 李岩; 崔笛; 郑明�
Original assignee: Institute Of Scientific And Technical Information Of China
Current assignee: Institute Of Scientific And Technical Information Of China
Priority date: 2018-12-03
Filing date: 2018-12-03
Publication date: 2022-05-24
Anticipated expiration: 2038-12-03
Also published as: CN109558481A

Abstract

本申请实施例提供了一种专利与企业相关性测度方法、装置、设备及可读存储介质。该方法包括：获取企业专利文本中的专利特征词；确定各专利特征词在企业专利文本中的权重值；根据企业专利文本所属企业的企业描述文本，以及专利特征词，确定各专利特征词与企业的关联频次；基于各专利特征词在企业专利文本中的权重值以及各专利特征词与企业的关联频次，确定企业专利文本与企业的相关性。通过本申请的方案确定企业专利文本与企业的相关性，能够避免人工判断的弊端，极大的提高专利与企业相关性判断的准确性与效率。

Description

专利与企业相关性测度方法、装置、设备及可读存储介质

技术领域

本申请涉及信息处理技术领域，具体而言，本申请涉及一种专利与企业相关性测度方法、装置、设备及可读存储介质。

背景技术

专利已成为企业核心技术与核心竞争力的体现，专利的实施对企业的发展有着越来越重要的作用，而专利权的竞争也成为一个企业、地区乃至国家的有效竞争力之一。在此背景下，企业逐渐看重专利的申请，而我国每年的专利申请量也逐渐上升。然而，在专利数量日渐增加的同时，专利的质量问题逐渐显露：一方面，国家为专利申请制定了扶持与鼓励政策，而企业为了争取该政策奖励而胡乱申报专利，专利数量增加，但是专利质量与领域影响力并不高，对于企业发展与利润提升并无积极影响，且与企业主营产品(服务)并无直接作用。另一方面，国家为高新技术企业提供一系列税收优惠政策，而有些企业为了得到该优惠政策，通过购买专利或者其他方式申请与公司关联度不大的专利，导致“伪高新”现象频繁发生。对于企业与审核机构而言，准确判断专利有效性能够提高专利申请效率、降低审核错误率，而判断专利有效性的一个重要因素为专利与企业的相关性。

目前，关于专利与企业主要产品(服务)的直接相关性判断通常由领域专家进行人工判断。这种判断方法的弊端日益凸显：一方面，专利数量的激增使得专利质量更加鱼龙混杂，需要投入更多人力与时间进行判断；另一方面，不同专家具有不同的主观认识，会在判断时产生一定的判断误差。因此，如何进行快速、有效、批量化的专利与企业相关性判断逐渐成为一个亟待解决的问题。

发明内容

本申请的目的旨在至少能解决上述的技术缺陷之一。本申请所采用的技术方案如下：

第一方面，本申请提供了一种专利与企业相关性测度方法的方法，该方法包括：

获取企业专利文本中的专利特征词；

确定各专利特征词在企业专利文本中的权重值；

根据企业专利文本所属企业的企业描述文本，以及专利特征词，确定各专利特征词与企业的关联频次；

基于各专利特征词在企业专利文本中的权重值以及各专利特征词与企业的关联频次，确定企业专利文本与企业的相关性。

可选地，专利特征词包括基础特征词以及基础特征词对应的扩展词。

可选地，企业专利文本包括：企业所持专利的专利文本、企业更名前所持专利的专利文本、以及企业的分支机构所持专利的专利文本。

可选地，确定各专利特征词在企业专利文本中的权重值，包括：

根据各专利特征词在专利文本文件中的频率，和/或，各专利特征词在企业发表的企业论文中的频率，确定各专利特征词在企业专利文本中的权重值。

可选地，根据各专利特征词在专利文本文件中的频率和各专利特征词在企业的企业论文中的频率，确定各专利特征词在企业专利文本中的权重值，包括：

通过以下公式，确定各专利特征词在企业专利文本中的权重值：

w_i＝idf_i*(p_tf_i+c_tf_i)

其中，w_i表示第i个专利特征词在企业专利文本中的权重值，idf_i表示第i个专利特征词的逆向文件频率，p_tf_i表示第i个专利特征词在企业专利文本中的频率，c_tf_i表示第i个专利特征词在企业论文中的频率。

可选地，企业论文包括：企业所发表的企业论文、企业更名前所发表企业论文、以及企业的分支机构所发表的企业论文。

可选地，该方法还包括：

根据各专利特征词在企业论文的第一指定字段中的出现次数，以及企业论文中各第一指定字段的权重，确定各专利特征词在企业论文中的频率。

可选地，根据各专利特征词在企业论文的第一指定字段中的出现次数，以及企业论文中各第一指定字段的权重，确定各专利特征词在企业论文中的频率，包括：

通过以下公式，确定各专利特征词在企业论文中的频率：

其中，c_tf_i表示第i个专利特征词在企业论文中的频率，I表示企业论文中第一指定字段的集合，j表示I中的第j个第一指定字段，c_tf_i(j)表示第i个专利特征词在企业论文中第j个第一指定字段中的出现次数，c_weight(j)表示企业论文中第j个第一指定字段的权重。

可选地，第一指定字段包括以下至少一项：

企业论文的论文标题、企业论文的摘要、以及企业论文的关键词。

可选地，根据企业专利文本所属企业的企业描述文本，以及专利特征词，确定各专利特征词与企业的关联频次，包括：

根据各专利特征词在企业描述文本的第二指定字段中的出现次数，以及企业描述文本的各第二指定字段的权重，确定各专利特征词与企业的关联频次。

可选地，根据各专利特征词在企业描述文本的第二指定字段中的出现次数，以及企业描述文本的各第二指定字段的权重，确定各专利特征词与企业的关联频次，包括：

基于以下公式，确定各专利特征词与企业的关联频次：

其中，r_tf_i表示第i个专利特征词与企业的关联频次，J表示企业描述文本中第二指定字段的集合，l表示J中的第l个第二指定字段，r_tf_i(l)表示第i个专利特征词在企业描述文本中第l个第二指定字段中的出现次数，r_weight(l)表示企业描述文本中第l个第二指定字段的权重。

可选地，第二指定字段包括以下至少一项：

企业董事会讨论、研发项目重点、行业技术_关键技术、核心竞争力、主要产品、经营范围、风险字段、人员结构、以及企业基本信息。

可选地，基于各专利特征词在企业专利文本中的权重值以及各专利特征词与企业的关联频次，确定企业专利文本与企业的相关性，包括：

基于以下公式，确定企业专利文本与企业的相关性值：

其中，r表示企业专利文本与企业的相关性值，K表示专利特征词的集合，w(k_i)表示第k_i个专利特征词在企业专利文本中的权重值；r_tf(k_i)表示第k_i个专利特征词与企业的关联频次；

企业专利文本与企业的相关性值，用于表征企业专利文本与企业的相关性。

第二方面，本申请提供了一种专利与企业相关性测度的装置，该装置包括：

专利特征词获取模块，用于获取企业专利文本中的专利特征词；

权重值确定模块，用于确定各专利特征词在企业专利文本中的权重值；

关联频次确定模块，用于根据企业专利文本所属企业的企业描述文本，以及专利特征词，确定各专利特征词与企业的关联频次；

相关性确定模块，用于基于各专利特征词在企业专利文本中的权重值以及各专利特征词与企业的关联频次，确定企业专利文本与企业的相关性。

第三方面，本申请提供了一种电子设备，该电子设备包括：处理器和存储器；

存储器，用于存储操作指令；

处理器，用于通过调用操作指令，执行如本申请的第一方面的任一实施方式中所示的专利与企业相关性测度方法。

第四方面，本申请提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现本申请的第一方面的任一实施方式中所示的专利与企业相关性测度的方法。

本申请实施例提供的技术方案带来的有益效果是：

本申请实施例的方案，在企业专利文本提取出能够表征企业专利文本的专利特征词，并根据专利特征词以及企业描述文本确定各专利特征词与企业的关联频次，基于各专利特征词在企业专利文本中的权重值，以及各专利特征词与企业的关联频次，确定企业专利文本与企业的相关性，通过该方案，在确定企业专利文本与企业的相关性时，能够有效避免人工判断的弊端，极大的提高专利与企业相关性判断的准确性与效率。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对本申请实施例描述中所需要使用的附图作简单地介绍。

图1为本申请实施例提供的一种专利与企业相关性测度方法的流程示意图；

图2为本申请实施例提供的一种企业专利文本与企业的相关性的计算方法的设计流程图；

图3为本申请实施例提供的一种专利与企业相关性测度装置的结构示意图；

图4为本申请实施例提供的一种的电子设备的结构示意图。

具体实施方式

下面详细描述本申请的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本申请，而不能解释为对本发明的限制。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本申请的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解，当我们称元件被“连接”或“耦接”到另一元件时，它可以直接连接或耦接到其他元件，或者也可以存在中间元件。此外，这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。

下面以具体地实施例对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图，对本申请的实施例进行描述。

本申请实施例提供了一种专利与企业相关性测度方法，如图1所示，该方法主要可以包括：

步骤S110：获取企业专利文本中的专利特征词；

步骤S120：确定各专利特征词在企业专利文本中的权重值。

本申请实施例中，专利特征词可以为从企业专利文本的标题以及摘要中获取的专业性词汇，用于表征企业专利文本，所获取的专利特征词的个数可以根据实际需要进行设定。

步骤S130：根据企业专利文本所属企业的企业描述文本，以及专利特征词，确定各专利特征词与企业的关联频次。

本申请实施例中，专利特征词与企业的关联频次用于表征专利特征词与企业描述文本的相关性，可以基于专利特征词在企业描述文本或者在企业描述文本中的指定字段的出现次数来确定。

具体而言，企业描述文本中可以选择包含了企业的主要产品、主营业务、核心技术等的文本，例如，企业年报文本。

本申请实施例中，专利特征词在企业描述文本中出现，即专利特征词与企业描述文本产生了关联，因此，可以根据专利特征词以及企业描述文本确定各专利特征词与企业的关联频次。

本申请实施例可以选取企业年报文本作为企业描述文本。根据***《公开发行证券的公司信息披露内容与格式准则第2号——年度报告的内容与格式》规定，企业需根据准则对企业信息进行披露，除财务信息外，需对报告期内公司所从事的主要业务、主要产品及其用途、经营模式、主要的业绩驱动因素等内容，以及公司所属行业、核心竞争力等信息进行详细报告。因此，企业年报文本中包含着企业的巨大信息。

步骤S140：基于各专利特征词在企业专利文本中的权重值以及各专利特征词与企业的关联频次，确定企业专利文本与企业的相关性。

本申请实施例中，企业专利文本与企业的相关性是指企业专利文本与企业的主要产品、主营业务、核心技术等的相关程度，可以通过企业描述文本获取企业的主要产品、主营业务、核心技术等信息。

本申请实施例提供的方法，在企业专利文本提取出能够表征企业专利文本的专利特征词，并根据专利特征词以及企业描述文本确定各专利特征词与企业的关联频次，基于各专利特征词在企业专利文本中的权重值，以及各专利特征词与企业的关联频次，确定企业专利文本与企业的相关性，能够避免人工判断的弊端，极大的提高专利与企业相关性判断的准确性与效率。

本申请实施例中，上述的专利特征词包括基础特征词以及基础特征词对应的扩展词。

在实际使用中，可以从企业专利文本的标题以及摘要中直接获取基础特征词，但是企业专利文本的标题和摘要的篇幅较短，从中抽取出的能够表征企业专利文本专业性的基础特征词的数量极为有限，可能不足以表征企业专利文本的文本特征词频的统计特性。因此可以通过对获取到的各个基础特征词分别进行扩展，得到各基础特征词的扩展词，能够极大扩充抽取到的能够表征企业专利文本的专业性词汇的数量，有效提高表征企业专利文本的文本特征词频的统计特性。

具体而言，可以通过TextRank算法确定企业专利文本的基础特征词。

TextRank算法是一种用于文本的基于图的排序算法，其基本思想来源于谷歌的PageRank算法，通过把文本分割成若干组成单元(例如单词、句子)并建立图模型，利用投票机制对文本中的重要成分进行排序，仅利用单篇文档本身的信息即可实现关键词提取。和LDA(Latent Dirichlet Allocation，文档主题生成模型)、HMM(Hidden Markov Model，隐马尔可夫模型)等模型不同，TextRank不需要事先对多篇文档进行学习训练，因其简洁有效而得到广泛应用。TextRank算法是利用局部词汇之间关系(共现窗口)对后续关键词进行排序，直接从文本本身抽取。

进一步地，通过TextRank算法，确定企业专利文本的基础特征词，包括如下步骤：

1)把给定的企业专利文本按照完整句子进行分割；

2)对于每个句子，进行分词和词性标注处理，并过滤掉停用词，只保留指定词性的单词，如名词、动词、形容词等，即为保留后的候选关键词；

3)构建候选关键词图G＝(V，E)，其中V为节点集合，E为边的集合。由2)生成的候选关键词组成，然后采用共现关系构造任两点之间的边，两个节点之间存在边的情况是指该两个节点所对应的词汇在长度为K的窗口中共现，K表示窗口大小，即最多共现K个单词；

4)根据上面公式G＝(V，E)，迭代传播各节点的权重，直至收敛；

5)对节点权重进行倒序排序，从而得到最重要的T个单词，作为候选关键词，即本申请实施例中的基础特征词；

6)将5)得到的最重要的T个单词，在原始文本中进行标记，若形成相邻词组，则组合成多词关键词。

对于本申请实施例，采用TextRank算法来抽取企业专利文本的基础特征词，不仅具有更强的专业性，而且不需要事先对多篇文档进行学习训练，因而更简便快捷。

在确定了企业专利文本的基础特征词后，可以基于训练后的文本词向量库，对基础特征词分别进行扩展，得到基础特征词对应的扩展词。

对基础特征词分别进行扩展，得到基础特征词对应的扩展词可以包括以下步骤：

通过查询训练后的文本词向量库，获取任一基础特征词的第一词向量；

计算第一词向量与第二词向量间的余弦相似度值，第二词向量为训练后的文本词向量库中除第一词向量外的词向量；

确定余弦相似度值大于第一预设阈值的预设个数的第二词向量分别对应的词，并将其作为任一基础特征词的扩展词。

具体地，本申请实施例采用深度学习技术对基础特征词进行扩展，方法步骤如下：

1)利用Word2Vec(词向量)方法训练文本词向量库

用词向量表达文本中的词语是将深度学习算法引入自然语言处理的一个核心技术。Word2vec是谷歌在2013年开源的一款优秀的用于获取词向量的模型工具，主要采用CBOW(Continuous Bag-Of-Words，连续词袋模型)以及Skip-gram(连续跳跃元语法)模型。其中，本申请实施例采用效率更高的CBOW神经网络模型，对预设数据库中的文本进行训练，得到训练后的文本词向量库。

示例的，当文本为专利文本时，本申请实施例在约10G的2000万条专利文本上进行训练，得到训练后的专利词向量库，其中，专利文本包含专利标题和摘要等文本字段，生成的词向量维度为100，训练后的专利词向量库约有100万词汇，大小约990M。

2)基于训练后的文本词向量库对基础特征词进行扩展

具体地，当目标文本为专利文本时，对每个专利文本提取出来的基础特征词进行扩展的方法，就是将上述通过TextRank算法得到的第一预设个数的基础特征词，逐一查询专利词向量库，得到每个基础特征词的词向量(即上述的第一词向量)，接着进行余弦相似度计算过程，其中余弦相似度计算过程为：计算任一基础特征词的词向量与专利词向量库中除该基础特征词的词向量外的其他词向量(即上述的第二词向量)间的余弦相似度值，根据余弦相似度值与第一预设阈值的比较以及预设个数，确定出该基础特征词的扩展词。

进一步地，对于确定出的每个基础特征词，均执行上述的余弦相似度值计算过程，从而确定出每个基础特征词的扩展词。

示例的，当基础特征词为“安装程序”、“低廉”、“水回用”、“去污”、“高速铁路”及“偏倒”，且第二预设个数为6时，可以得到各基础特征词的扩展词如表1所示：

表1基础特征词及其对应的扩展词

对于本申请实施例，给出了基于训练后的文本词向量库，确定各基础特征词的扩展词的具体过程及操作步骤，使得本领域技术人员能够根据本申请实施例中的步骤，快速准确地完成基础特征词的扩展，极大扩充抽取到的能够表征企业专利文本的专业性词汇的数量，有效提高表征企业专利文本的文本特征词频的统计特性。

具体地，得到各基础特征词分别对应的扩展词后，需要对得到的扩展词进一步过滤，其中，可以根据需要只滤除其中的停用词，也可以只滤除其中的逆向文本频率小于第二预设阈值的词，还可以同时滤除其中的停用词及逆向文本频率小于第二预设阈值的词，通过对得到的扩展词进行过滤，使得扩展词能够更好的表征目标文本。

本申请实施例中，上述的企业专利文本可以包括：企业所持专利的专利文本、企业更名前所持专利的专利文本、以及企业的分支机构所持专利的专利文本。

在实际应用中，可以通过对企业专利进行全面、完整的收集，来提高专利与企业相关性判定的准确度与可信度，具体而言，可以考虑企业的更名历史，将在当前名称下企业所持专利、以及更名前企业所持专利进行收集，并且可以考虑企业的分支机构，将企业的子企业、联营企业、合营企业等所持有的专利进行收集。

本申请实施例中以企业为单位来衡量某个企业所持有各个专利与企业的相关程度，因此需要获取整个企业所持有的全部专利。在获取企业专利时，需要考虑母公司现有名称所持的专利、考虑企业的更名历史，并将子公司、联营企业、合营企业等分支机构所持有的专利纳入母公司。这种较为全面和完整的专利收集方案可以提高本方法的准确度和可信度。

本申请实施例中，上述的确定各专利特征词在企业专利文本中的权重值，可以包括：

本申请实施例中，如果一个专利特征词在企业专利文本文件中的频率较高，则可以认为该专利特征词在企业专利文本被提及较多，能更多的在技术上表征企业专利文本，因此可以对该专利特征词确定较高的权重值。

在实际使用中，还可以综合考虑企业论文来确定专利特征词在企业专利文本中的权重值。

本申请实施例中企业论文可以为以企业为作者单位，在期刊上发表的论文。企业论文以及企业专利文本均能够从一定程度上反映企业的技术，如果一个专利特征词存在于专利文本文件中的同时，还存在于企业论文中，可以认为该专利特征词更能在技术上表征该企业，因此可以结合专利特征词在企业论文中频率，对在专利文本文件中的频率较高、且在企业论文中频率较高的专利特征词确定较高的权重值。

本申请实施例中，根据各专利特征词在专利文本文件中的频率和各专利特征词在企业的企业论文中的频率，确定各专利特征词在企业专利文本中的权重值，可以包括：

w_i＝idf_i*(p_tf_i+c_tf_i) (1)

其中，w_i表示第i个专利特征词在企业专利文本中的权重值，idf_i表示第i个专利特征词的逆向文件频率，p_tf_i表示第i个专利特征词在企业专利文本中的频率，c_tf_i表示第i个专利特征词在企业论文中的频率，其中，1≤i≤N，N表示专利特征词的总个数。

其中，p_tf_i的计算方式可以为：(该专利特征词在企业专利文本的标题与摘要中的出现次数+1)/(专利特征词总词数+1)，对于在专利标题与专利摘要中没有出现的词，加1可以起到平滑作用。

基于上述公式(1)，可以计算从企业专利文本中确定出的各专利特征词(包括基础特征词以及扩展词)的权重值：w₁,w₂,…w_i,…w_N，便于通过各权重值进行后续计算。

本申请实施例中，企业论文可以包括：企业所发表的企业论文、企业更名前所发表企业论文、以及企业的分支机构所发表的企业论文。

在实际应用中，为了对企业论文进行全面、完整的收集，可以考虑企业的更名历史，将在当前企业名下企业所发表的论文、以及曾用名下企业所发表的论文进行收集，并且可以考虑企业的分支机构，将企业的子企业、联营企业、合营企业等所发表的论文进行收集。

本申请实施例中，上述方法还包括：

具体而言，通过以下公式，确定各专利特征词在企业论文中的频率：

c_tf_i＝∑_j∈Ic_tf_i(j)*c_weight(j) (2)

其中，c_tf_i表示第i个专利特征词在企业论文中的频率，I表示企业论文中第一指定字段的集合，j表示I中的第j个第一指定字段，c_tf_i(j)表示第i个专利特征词在企业论文中第j个第一指定字段中的出现次数，c_weight(j)表示企业论文中第j个第一指定字段的权重，其中，1≤j≤n，n表示第一指定字段的总段数，即集合I中字段的总数。

第一指定字段可以在企业论文的字段中指定；第一指定字段的集合I，包括：第1个第一指定字段，第2个第一指定字段……第j个第一指定字段……第n个第一指定字段。

第i个专利特征词在企业论文中各个第一指定字段中的出现次数为：c_tf_i(1)，c_tf_i(2)…c_tf_i(j)…_tf_i(n).

上述的各第一指定字段中可以包括以下至少一项：

同时可以对应设置上述各第一指定字段的相应权重：c_weight(1)，c_weight(2)…c_weight(j)…c_weight(n)。

例如：企业论文的论文标题、企业论文的关键词权重为3，企业论文的摘要权重为2。

基于上述公式(2)，可以计算出各专利特征词(包括基础特征词以及扩展词)在企业论文中的频率：c_tf₁，c_tf₂…c_tf_i…c_tf_n，便于进一步计算各专利特征词在企业专利文本中的权重值。

本申请实施例中，上述根据企业专利文本所属企业的企业描述文本，以及专利特征词，确定各专利特征词与企业的关联频次，包括：

具体而言，根据各专利特征词在企业描述文本的第二指定字段中的出现次数，以及企业描述文本的各第二指定字段的权重，确定各专利特征词与企业的关联频次，包括：

基于以下公式，确定各专利特征词与企业的关联频次：

r_tf_i＝∑_l∈Jr_tf_i(l)*r_weight(l) (3)

其中，r_tf_i表示第i个专利特征词与企业的关联频次，J表示企业描述文本中第二指定字段的集合，l表示J中的第l个第二指定字段，r_tf_i(l)表示第i个专利特征词在企业描述文本中第l个第二指定字段中的出现次数，r_weight(l)表示企业描述文本中第l个第二指定字段的权重其中，1≤l≤m，m表示第二指定字段的总段数，即集合J中字段的总数。

第二指定字段可以在企业描述文本的字段中指定，第二指定字段的集合J，包括：第1个字段，第二个字段……第l个字段……第m个字段。

企业描述文本选用企业年报文本时，上述的各字段中可以包括以下至少一项：

本申请实施例中，将企业年报文本中的信息进行了提取分类，主要包含企业董事会讨论、研发项目重点、行业技术_关键技术、核心竞争力、主要产品、经营范围、风险字段、人员结构、企业基本信息等字段。选取年报中的研发项目重点、行业技术_关键技术、核心竞争力、董事会讨论、主要产品、经营范围、风险字段等7个字段构建企业描述文本。并且根据对各个字段的分析，为不同字段赋予不同的权重，数值越高，其权重越大。

本申请实施例中对权重的设置采用简单排序编码法：先依据字段的重要性进行排序。具体而言，研发项目重点、行业技术_关键技术、核心竞争力、主要产品四个字段为企业自身主营产品(服务)、关键技术等的直接描述，用词专业、领域性强，重要性最高；经营范围字段是本公司经营业务的总体介绍，范围较大、用词较为笼统，风险字段从市场、技术、政策等方面描述企业所面临的风险，经营范围字段与风险字段两个字段的重要性次之，；董事会讨论字段是管理层对于本企业过去经营状况的评价分析以及对企业未来发展趋势的前瞻性判断，其中包含对企业财务报表中所描述的财务状况和经营成果的解释，重要性最低。然后根据各字段的重要性程度，按照自然数顺序大小对其分配初始权重，多个重要性相同的字段可以分配同一自然数作为初始权重。具体而言，将研发项目重点、行业技术_关键技术、核心竞争力、主要产品四个字段的初始权重设置为3；将经营范围字段与风险字段两个字段的初始权重设置为2；将董事会讨论字段的初始权重设置为1。最后将各字段的初始权重进行归一化处理，得到归一化结果，具体归一化结果如下：研发项目重点、行业技术_关键技术、核心竞争力以及主要产品四个字段的归一化结果均为0.18；经营范围字段与风险字段的归一化结果均为0.12；董事会讨论字段的归一化结果均为0.04。

上述的公式(3)中最终计算所采用的权重为各字段的初始权重的归一化结果。

表2中示出了本申请一示例中各第二指定字段的初始权重的设置结果以及归一化结果。

其中，上述各字段均为对企业技术的描述，例如，行业技术_关键技术字段是用于描述企业的关键技术的字段。可以理解的是，在实际应用中，上述各字段的描述方式可能会不完全相同，仍以行业技术_关键技术字段为例，该字段可以描述为行业技术字段、关键技术字段、主要技术字段等等。

表2第二指定字段初始权重设置以及归一化结果

字段	初始权重	归一化结果
			研发项目重点	3	0.18
行业技术_关键技术	3	0.18
			核心竞争力	3	0.18
主要产品	3	0.18
			经营范围	2	0.12
风险字段	2	0.12
			董事会讨论	1	0.04

第i个专利特征词在企业描述文本中各第二指定字段中的出现次数为：r_tf_i(1)，r_tf_i(2)…r_tf_i(l)…c_tf_i(m)。

同时可以对应设置上述各第二指定字段的相应权重：c_weight(1)，c_weight(2)…c_weight(l)…c_weight(m)。

基于上述公式(3)，可以计算出确定第i个专利特征词与企业的关联频次r_tf_i，便于进一步企业专利文本与企业描述文本的相关性。

本申请实施例中，上述的基于各专利特征词在企业专利文本中的权重值以及各专利特征词与企业的关联频次，确定企业专利文本与企业的相关性，包括：

基于以下公式，确定企业专利文本与企业的相关性值：

其中，r表示企业专利文本与企业的相关性值，K表示专利特征词的集合，w(k_i)表示第k_i个专利特征词在企业专利文本中的权重值；r_tf(k_i)表示第k_i个专利特征词与企业的关联频次。

其中，w(k_i)具体可以是由公式(1)计算得到的，r_tf(k_i)具体可以是由公式(1)计算得到的。

企业专利文本与企业的相关性值，用于表征企业专利文本与企业的相关性，相关性值越大则企业专利文本与企业的相关性越强。

上述公式(4)中，基于从企业专利文本中确定出的各专利特征词(包括基础特征词以及扩展词)的权重值：w(k₁)，w(k₂)…w(k_i)…w(k_N)，以及各专利特征词与企业的关联频次：r_tf(k₁)，r_tf(k₂)…r_tf(k_i)…r_tf(k_N)，能够确定出述企业专利文本与企业的相关性值r。

本申请实施例在完成所有专利与企业的相关性值计算后，可以依据相关性值进行相关性强弱的判定，具体可采用如下方式：对相关性值的计算结果进行归一化处理，然后依据四分位数方法，将专利与企业相关性强度分为“强相关”、“中相关”、“弱相关”、“不相关”四个等级，并对相关专利进行标记。其中，各等级之间的划分可以根据实际需要设置，例如，当相关性为0或者相关性不大于0.01时，确定专利与企业相关性强度为“不相关”。在实际使用中，可以将相关性测度结果即不同企业专利文本与企业的相关性值采用列表展示的方式示出，具体的，可以对每条专利按照相关性值排序，如根据相关性值由高到低的方式展示，使得用户能够容易的分辨出企业各专利与企业的相关性程度。

图2示出了本申请实施例提供的一种企业专利文本与企业的相关性的计算方法的设计流程图。由图2中所示的内容以及前文的描述可知，本申请实施例所提供的一种方法主要可以包括企业专利文本获取，专利特征词的抽取与扩展，基于企业专利文本、企业论文以及企业描述文本，确定专利特征词在企业专利文本中的权重值以及确定专利特征词与企业的关联频次(图2中所示的专利特征词权重值及专利特征词与企业关联频次测度)，最后基于专利特征词权重值以及企业关联频次进行企业专利文本与企业的相关性计算等几个方面。

基于与图1中所示的方法相同的原理，本申请实施例还提供了一种专利与企业相关性测度装置20，如图3所示，该专利与企业相关性测度装置20包括：

专利特征词获取模块210，用于获取企业专利文本中的专利特征词；

权重值确定模块220，用于确定各专利特征词在企业专利文本中的权重值；

关联频次确定模块230，用于根据企业专利文本所属企业的企业描述文本，以及专利特征词，确定各专利特征词与企业的关联频次；

相关性确定模块240，用于基于各专利特征词在企业专利文本中的权重值以及各专利特征词与企业的关联频次，确定企业专利文本与企业的相关性。

本申请实施例的提供的专利与企业相关性测度装置，在企业专利文本提取出能够表征企业专利文本的专利特征词，并根据专利特征词以及企业描述文本确定各专利特征词与企业的关联频次，基于各专利特征词在企业专利文本中的权重值，以及各专利特征词与企业的关联频次，确定企业专利文本与企业的相关性，能够避免人工判断的弊端，极大的提高专利与企业相关性判断的准确性与效率。

可选地，权重值确定模块，具体用于：

可选地，权重值确定模块在根据各专利特征词在专利文本文件中的频率和各专利特征词在企业的企业论文中的频率，确定各专利特征词在企业专利文本中的权重值时，具体用于：

w_i＝idf_i*(p_tf_i+c_tf_i)

可选地，该装置还包括：

频率确定模块，根据各专利特征词在企业论文的第一指定字段中的出现次数，以及企业论文中各第一指定字段的权重，确定各专利特征词在企业论文中的频率。

可选地，频率确定模块具体用于：

通过以下公式，确定各专利特征词在企业论文中的频率：

可选地，企业论文中预设定字段包括以下至少一项：

可选地，关联频次确定模块，具体用于：

根据各专利特征词在企业描述文本的第二指定字段中的出现次数，以及企业描述文本的各第二指定字段的权重，确定专利特征词与企业的关联频次。

可选地，关联频次确定模块，具体用于：

基于以下公式，确定企业专利文本与企业的关联频次：

可选地，第二指定字段包括以下至少一项：

可选地，相关性确定模块具体用于：

基于以下公式，确定企业专利文本与企业的相关性值：

可以理解的是，本实施例中的专利与企业相关性测度装置的上述各模块具有实现图1中所示的实施例中的专利与企业相关性测度方法相应步骤的功能。该功能可以通过硬件实现，也可以通过硬件执行相应的软件实现。该硬件或软件包括一个或多个与上述功能相对应的模块。上述模块可以是软件和/或硬件，上述各模块可以单独实现，也可以多个模块集成实现。对于上述专利与企业相关性测度装置的各模块的功能描述具体可以参见图1中所示实施例中的专利与企业相关性测度方法的对应描述，在此不再赘述。

本申请实施例提供了一种电子设备，如图4所示，图4所示的电子设备2000包括：处理器2001和存储器2003。其中，处理器2001和存储器2003相连，如通过总线2002相连。可选的，电子设备2000还可以包括收发器2004。需要说明的是，实际应用中收发器2004不限于一个，该电子设备2000的结构并不构成对本申请实施例的限定。

其中，处理器2001应用于本申请实施例中，用于实现上述方法实施例所示的方法。收发器2004可以包括接收机和发射机，收发器2004应用于本申请实施例中，用于执行时实现本申请实施例的电子设备与其他设备通信的功能。

处理器2001可以是CPU，通用处理器，DSP，ASIC，FPGA或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框，模块和电路。处理器2001也可以是实现计算功能的组合，例如包含一个或多个微处理器组合，DSP和微处理器的组合等。

总线2002可包括一通路，在上述组件之间传送信息。总线2002可以是PCI总线或EISA总线等。总线2002可以分为地址总线、数据总线、控制总线等。为便于表示，图4中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

存储器2003可以是ROM或可存储静态信息和指令的其他类型的静态存储设备，RAM或者可存储信息和指令的其他类型的动态存储设备，也可以是EEPROM、CD-ROM或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。

可选的，存储器2003用于存储执行本申请方案的应用程序代码，并由处理器2001来控制执行。处理器2001用于执行存储器2003中存储的应用程序代码，以实现上述方法实施例所示的专利与企业相关性测度方法。

本申请实施例提供的电子设备，适用于上述方法任一实施例，在此不再赘述。

本申请实施例提供了一种电子设备，与现有技术相比，在企业专利文本提取出能够表征企业专利文本的专利特征词，并根据专利特征词以及企业描述文本确定各专利特征词与企业的关联频次，基于各专利特征词在企业专利文本中的权重值，以及各专利特征词与企业的关联频次，确定企业专利文本与企业的相关性，能够避免人工判断的弊端，极大的提高专利与企业相关性判断的准确性与效率。

本申请实施例提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该程序被处理器执行时实现上述方法实施例所示的专利与企业相关性测度方法。

本申请实施例提供的计算机可读存储介质，适用于上述方法任一实施例，在此不再赘述。

本申请实施例提供了一种计算机可读存储质，与现有技术相比，在企业专利文本提取出能够表征企业专利文本的专利特征词，并根据专利特征词以及企业描述文本确定各专利特征词与企业的关联频次，基于各专利特征词在企业专利文本中的权重值，以及各专利特征词与企业的关联频次，确定企业专利文本与企业的相关性，能够避免人工判断的弊端，极大的提高专利与企业相关性判断的准确性与效率。

应该理解的是，虽然附图的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，其可以以其他的顺序执行。而且，附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，其执行顺序也不必然是依次进行，而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

以上所述仅是本发明的部分实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种专利与企业相关性测度方法，其特征在于，包括：

获取企业专利文本中的专利特征词；

确定各所述专利特征词在所述企业专利文本中的权重值；

根据所述企业专利文本所属企业的企业描述文本，以及所述专利特征词，确定各所述专利特征词与所述企业的关联频次；

基于各所述专利特征词在所述企业专利文本中的权重值以及各所述专利特征词与所述企业的关联频次，确定所述企业专利文本与所述企业的相关性；

所述确定各所述专利特征词在所述企业专利文本中的权重值，包括：

根据各所述专利特征词在专利文本文件中的频率，和/或，各所述专利特征词在所述企业发表的企业论文中的频率，确定各所述专利特征词在所述企业专利文本中的权重值；

所述基于各所述专利特征词在所述企业专利文本中的权重值以及各所述专利特征词与所述企业的关联频次，确定所述企业专利文本与所述企业的相关性，包括：

基于以下公式，确定所述企业专利文本与所述企业的相关性值：

其中，r表示所述企业专利文本与所述企业的相关性值，K表示所述专利特征词的集合，w(k_i)表示第k_i个所述专利特征词在企业专利文本中的权重值；r_tf(k_i)表示第k_i个所述专利特征词与所述企业的关联频次；

所述企业专利文本与所述企业的相关性值，用于表征所述企业专利文本与所述企业的相关性。

2.根据权利要求1所述的专利与企业相关性测度方法，其特征在于，所述专利特征词包括基础特征词以及所述基础特征词对应的扩展词。

3.根据权利要求1所述的专利与企业相关性测度方法，其特征在于，所述企业专利文本包括：所述企业所持专利的专利文本、所述企业更名前所持专利的专利文本、以及所述企业的分支机构所持专利的专利文本。

4.根据权利要求1所述的专利与企业相关性测度方法，其特征在于，根据各所述专利特征词在所述专利文本文件中的频率和各所述专利特征词在所述企业的企业论文中的频率，确定各所述专利特征词在所述企业专利文本中的权重值，包括：

通过以下公式，确定各所述专利特征词在所述企业专利文本中的权重值：

w_i＝idf_i*(p_tf_i+c_tf_i)

其中，w_i表示第i个所述专利特征词在所述企业专利文本中的权重值，idf_i表示第i个所述专利特征词的逆向文件频率，p_tf_i表示第i个所述专利特征词在所述企业专利文本中的频率，c_tf_i表示第i个所述专利特征词在企业论文中的频率。

5.根据权利要求1所述的专利与企业相关性测度方法，其特征在于，所述企业论文包括：所述企业所发表的企业论文、所述企业更名前所发表企业论文、以及所述企业的分支机构所发表的企业论文。

6.根据权利要求4所述的专利与企业相关性测度方法，其特征在于，还包括：

根据各所述专利特征词在企业论文的第一指定字段中的出现次数，以及所述企业论文中各所述第一指定字段的权重，确定各所述专利特征词在所述企业论文中的频率。

7.根据权利要求6所述的专利与企业相关性测度方法，其特征在于，所述根据各所述专利特征词在企业论文的第一指定字段中的出现次数，以及所述企业论文中各所述第一指定字段的权重，确定各所述专利特征词在所述企业论文中的频率，包括：

通过以下公式，确定各所述专利特征词在所述企业论文中的频率：

其中，c_tf_i表示第i个所述专利特征词在企业论文中的频率，I表示所述企业论文中所述第一指定字段的集合，j表示I中的第j个第一指定字段，c_tf_i(j)表示第i个所述专利特征词在所述企业论文中第j个第一指定字段中的出现次数，c_weight(j)表示所述企业论文中第j个第一指定字段的权重。

8.根据权利要求6所述的专利与企业相关性测度方法，其特征在于，所述第一指定字段包括以下至少一项：

9.根据权利要求1所述的专利与企业相关性测度方法，其特征在于，所述根据所述企业专利文本所属企业的企业描述文本，以及所述专利特征词，确定各所述专利特征词与所述企业的关联频次，包括：

根据各所述专利特征词在企业描述文本的第二指定字段中的出现次数，以及所述企业描述文本的各所述第二指定字段的权重，确定各所述专利特征词与所述企业的关联频次。

10.根据权利要求9所述的专利与企业相关性测度方法，其特征在于，所述根据各所述专利特征词在企业描述文本的第二指定字段中的出现次数，以及所述企业描述文本的各所述第二指定字段的权重，确定各所述专利特征词与所述企业的关联频次，包括：

基于以下公式，确定各所述专利特征词与所述企业的关联频次：

其中，r_tf_i表示第i个所述专利特征词与所述企业的关联频次，J表示所述企业描述文本中所述第二指定字段的集合，l表示J中的第l个第二指定字段，r_tf_i(l)表示第i个所述专利特征词在所述企业描述文本中第l个第二指定字段中的出现次数，r_weight(l)表示所述企业描述文本中第l个第二指定字段的权重。

11.根据权利要求10所述的专利与企业相关性测度方法，其特征在于，所述第二指定字段包括以下至少一项：

12.一种专利与企业相关性测度装置，其特征在于，包括：

权重值确定模块，用于确定各所述专利特征词在所述企业专利文本中的权重值；

关联频次确定模块，用于根据所述企业专利文本所属企业的企业描述文本，以及所述专利特征词，确定各所述专利特征词与所述企业的关联频次；

相关性确定模块，用于基于各所述专利特征词在所述企业专利文本中的权重值以及各所述专利特征词与所述企业的关联频次，确定所述企业专利文本与所述企业的相关性；

所述权重值确定模块，具体用于根据各所述专利特征词在专利文本文件中的频率，和/或，各所述专利特征词在所述企业发表的企业论文中的频率，确定各所述专利特征词在所述企业专利文本中的权重值；

所述相关性确定模块，具体用于基于以下公式，确定所述企业专利文本与所述企业的相关性值：

13.一种电子设备，其特征在于，其包括处理器和存储器；

所述存储器，用于存储操作指令；

所述处理器，用于通过调用所述操作指令，执行上述权利要求1-11中任一项所述的专利与企业相关性测度方法。

14.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现上述权利要求1-11中任一项所述的专利与企业相关性测度方法。