CN114090753A

CN114090753A - 一种检索专利和文献中关键技术的方法与***

Info

Publication number: CN114090753A
Application number: CN202111385733.8A
Authority: CN
Inventors: 谢育林; 王丽明; 王海洲; 王红霞; 米兰; 智瑾; 杜婷
Original assignee: Inner Mongolia Boyan Zhicheng Metal Mineral Resources Comprehensive Utilization Engineering Research Co ltd; Baotou Steel Group Mining Research Institute LLC
Current assignee: Inner Mongolia Boyan Zhicheng Metal Mineral Resources Comprehensive Utilization Engineering Research Co ltd; Baotou Steel Group Mining Research Institute LLC
Priority date: 2021-11-22
Filing date: 2021-11-22
Publication date: 2022-02-25

Abstract

本发明提供了一种检索专利和文献中关键技术的方法与***，其中该方法包括：获取待检索的专业类别；根据专业类别对文献和专利数据库进行主题提取得到文献主题群和专利主题群；对专利主题群中每个主题进行专利强度判断得到每个专利主题的分数；对文献主题群中每个主题进行文献强度判断得到每个文献主题的分数；根据每个专利主题的分数和每个文献主题的分数确定专业类别下的关键技术。本发明通过对文献和专利同时进行分析，并基于专利和文献主题的分数确定专业类别下的关键技术，可以更全面、更准确地找到一个领域的关键技术，大幅减少了人工寻找的时间。

Description

一种检索专利和文献中关键技术的方法与***

技术领域

本发明涉及数据检索技术领域，特别是涉及一种检索专利和文献中关键技术的方法与***。

背景技术

科研人员或者科技工作者想要了解一个领域的关键技术时，需要检索大量专利和文献，然后再从文献和专利的数据中提取有用的信息，但是这样往往会花费大量的时间。申请号为KR1020180094337的专利提供了一种专利分析***，包括：专利数据采集器，用于采集目标技术领域的专利数据；评价指标计算单元，用于从所收集的专利数据计算专利评价指标(专利指标)；SOM生成单元，用于从所收集的专利数据生成自组织化映射(SOM)；以及可视化单元，用于可视化所述自组织化映射。申请号为CN202011351495.4的专利涉及一种基于数据挖掘的专利信息预测***，包括依次电连接的数据筛选模块、数据挖掘模块、数据分析模块和结果上传模块。其中：数据筛选模块从海量大数据中筛选出与关键词需求相关联的关键数据信息，数据挖掘模块基于预定规则，对关键数据信息进行数据挖掘，数据分析模块对挖掘结果进行分析，以得到关键词需求分析结果，结果上传模块将分析结果上传给服务平台以进行显示。

由此可知，现有的专利检索方法只对专利数据库进行检索，具有检索不全面，检索精度低的问题。

发明内容

针对现有技术的不足，本发明的目的是提供一种检索专利和文献中关键技术的方法与***以解决现有的专利检索方法检索精度低的问题。

为实现上述目的，本发明提供了如下方案：

一种检索专利和文献中关键技术的方法，包括：

获取待检索的专业类别；

根据所述专业类别对文献和专利数据库进行主题提取得到文献主题群和专利主题群；

对所述专利主题群中每个主题进行专利强度判断得到每个专利主题的分数；

对所述文献主题群中每个主题进行文献强度判断得到每个文献主题的分数；

根据所述每个专利主题的分数和所述每个文献主题的分数确定所述专业类别下的关键技术。

优选的，所述对所述专利主题群中每个主题进行专利强度判断得到每个专利主题的分数，包括：

将所述专利主题群中每个主题中包含的专利数量相加得到每个主题中含有的专利总数；

计算所有主题中所有专利的首项权利要求的字数平均值，将每个主题中每个专利的首项权利要求的字数高于所述字数平均值的相应专利数量求和得到第一总数；

计算所有主题中所有专利的公开日减去申请日的数值平均值，将每个主题中每个专利的公开日减去申请日的数值高于所述数值平均值的相应专利数量求和得到第二总数；

计算所有主题中所有专利的同族专利的数量的第一平均值，将每个主题中每个专利的同族专利的数量高于所述第一平均值的相应专利数量求和得到第三总数；

计算所有主题中所有专利的被引证专利的数量的第二平均值，将每个主题中每个专利的被引证专利的数量高于所述第二数量平均值的相应专利数量求和得到第四总数；

计算所有主题中所有专利的家族专利被引证的数量的第三平均值，将每个主题中每个专利的家族专利被引证的数量高于所述第三平均值的相应专利数量求和得到第五总数；

计算所有主题中所有专利的有效性的维持年限平均值，将每个主题中每个专利的有效性的维持年限高于所述维持年限平均值的相应专利数量求和得到第六总数；

获取每个主题中每篇专利的有效性，将每个主题中每篇有效的专利数量求和得到第七总数；

根据每个主题中相应的专利总数、第一总数、第二总数、第三总数、第四总数、第五总数、第六总数和第七总数得到每个专利主题的分数。

优选的，所述对所述文献主题群中每个主题进行文献强度判断得到每个文献主题的分数，包括：

将每个主题中所有文献的总数进行加和得到每个主题中含有文献的总数；

计算所有主题中所有文献单位数量的第四平均值，将所有主题中每个文献单位数量高于所述第四平均值的相应文献单位数量求和得到第八总数；

计算所有主题中所有文献的来源期刊的综合影响因子的第五平均值，将所有主题中每个文献的来源期刊的综合影响因子高于所述第五平均值的相应文献数量求和得到第九总数；

采用专业性词典对文献的每个主题中每篇文献的关键词进行筛选得到保留下来的关键词的数量的第六平均值，将所有主题中每个文献保留下来的关键词数量高于所述第六平均值的相应文献数量求和得到第十总数；

根据每个主题中相应的文献的总数、第八总数、第九总数和第十总数得到每个文献主题的分数。

优选的，所述根据所述每个专利主题的分数和所述每个文献主题的分数确定所述专业类别下的关键技术，包括：

按照分数从大到小的顺序对每个专利主题和每个文献主题进行排列；

选取专利和文献排名前预设数值的主题得到筛选后的专利和文献；

分别对筛选后的专利和文献的主题中相同的关键词的概率相加，不同的关键词保留相应概率；

根据关键词的概率绘制主题热度图；

根据所述主题热度图确定所述专业类别下的关键技术。

优选的，所述根据每个主题中相应的专利总数、第一总数、第二总数、第三总数、第四总数、第五总数、第六总数和第七总数得到每个专利主题的分数，包括：

将每个主题中相应的专利总数、第一总数、第二总数、第三总数、第四总数、第五总数、第六总数和第七总数与预设的权重系数相乘并求和得到每个专利主题的分数。

优选的，所述根据每个主题中相应的文献的总数、第八总数、第九总数和第十总数得到每个文献主题的分数，包括：

将每个主题中相应的文献的总数、第八总数、第九总数和第十总数与预设的权重系数相乘并求和得到每个文献主题的分数。

本发明还提供了一种检索专利和文献中关键技术的***，其特征在于，包括：

检索词获取模块，用于获取待检索的专业类别；

主题提取模块，用于根据所述专业类别对文献和专利数据库进行主题提取得到文献主题群和专利主题群；

专利强度判断模块，用于对所述专利主题群中每个主题进行专利强度判断得到每个专利主题的分数；

文献强度判断模块，用于对所述文献主题群中每个主题进行文献强度判断得到每个文献主题的分数；

关键技术确定模块，用于根据所述每个专利主题的分数和所述每个文献主题的分数确定所述专业类别下的关键技术。

根据本发明提供的具体实施例，本发明公开了以下技术效果：

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明提供的一种检索专利和文献中关键技术的方法流程图；

图2为本发明提供的一种检索专利和文献中关键技术的装置原理图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的目的是提供一种检索专利和文献中关键技术的方法与***以解决现有的专利检索方法检索精度低的问题。

为实现上述目的，本发明提供了如下方案：

请参阅图1，一种检索专利和文献中关键技术的方法，包括：

步骤100：获取待检索的专业类别；

步骤200：根据所述专业类别对文献和专利数据库进行主题提取得到文献主题群和专利主题群；

在实际应用中，本发明对文献和专利数据分别进行大数据主题提取，得到文献和专利数据对应的困惑度曲线和一致性曲线，从困惑度曲线和一致性曲线分别得到文献和专利对应的最佳主题数量，然后根据选定的最佳主题数量，分别对文献和专利数据再进行大数据主题提取，得到文献和专利数据对应的主题群，最后根据待检索的专业类别，对与分析专业无关的主题进行过滤，得到最终的文献主题群和专利主题群。

步骤300：对所述专利主题群中每个主题进行专利强度判断得到每个专利主题的分数；进一步的步骤300包括：

具体的，将每个主题中相应的专利总数、第一总数、第二总数、第三总数、第四总数、第五总数、第六总数和第七总数与预设的权重系数相乘并求和得到每个专利主题的分数。

需要说明的是，本发明也可根据专利总数、第一总数、第二总数、第三总数、第四总数、第五总数、第六总数和第七总数之中的任意一种或者多种得到每个专利主题的分数。

步骤400：对所述文献主题群中每个主题进行文献强度判断得到每个文献主题的分数；进一步的，步骤400包括：

具体的，将每个主题中相应的文献的总数、第八总数、第九总数和第十总数与预设的权重系数相乘并求和得到每个文献主题的分数。

需要说明的是，本发明也可根据文献的总数、第八总数、第九总数和第十总数任意一种或者多种得到每个文献主题的分数。

步骤500：根据所述每个专利主题的分数和所述每个文献主题的分数确定所述专业类别下的关键技术。

进一步的，步骤500包括：

根据关键词的概率绘制主题热度图；

根据所述主题热度图确定所述专业类别下的关键技术。

本发明通过对文献和专利同时进行分析，并基于专利和文献主题的分数确定专业类别下的关键技术，可以更全面、更准确地找到一个领域的关键技术，大幅减少了人工寻找的时间。

检索词获取模块，用于获取待检索的专业类别；

请参阅图2，本发明还提供了一种检索专利和文献中关键技术的装置，包括同期文献和专利数据库、数据预处理***、大数据处理***、文献和专利主题分析***和关键技术分析***。

下面结合具体的实施例对本发明的检索专利和文献中关键技术的装置做进一步的说明：

本发明首先需要建立中文专利数据库和中文文献数据库，其中，专利数据库的数据类型包括专利的序号、标题、摘要、申请人、公开号、公开日、申请号、申请日、专利类型、公开国别、首项权利要求、权利要求数量、首项权利要求的字数、引证专利、被引证专利、家族引证、家族被引证、专利有效性。中文文献数据库的数据类型包括来源库、题名、作者、单位、文献来源、关键词、摘要、时间、年份。

数据预处理***，用于对所建立的文献和专利数据库进行数据预处理。其具体的功能如下：

①建立含有与所要查询关键技术对应专业或者技术关键词的专业性词典。

②对文献数据和专利数据的摘要进行中文分词处理。

③建立去停词的词典。

大数据处理***，用于对进行完数据预处理的文献和专利数据进行大数据处理。其具体的功能如下：

①将处理好后的文献和专利数据分别进行大数据主题提取，得到文献和专利数据对应的困惑度曲线和一致性曲线，从困惑度曲线和一致性曲线分别得到文献和专利对应的最佳主题数量。

②根据选定的最佳主题数量，分别对文献和专利数据再进行大数据主题提取，分别得到文献和专利数据对应的主题群。

③对与分析专业无关的主题进行过滤。

主题分析***，用于对专利和文献进行对应的专利强度判断。

专利数据的每个主题中专利的数量，将每个主题中专利的总数进行加和，得到每个主题中含有专利的总数a。

专利数据的每个主题中每篇专利首项权利要求的字数，将所有主题中所有专利首项权利要求的字数平均，高于平均数的记为0，低于平均数的记为1，之后将每个主题中所有专利首项权利要求的字数为1的求和，得到一个总数b。

专利数据的每个主题中每篇专利的公开日减去专利的申请日的数值，将所有主题中所有专利公开日减去专利的申请日的数值平均，高于平均数的记为1，低于平均数的记为0，之后将每个主题中所有专利公开日减去专利的申请日的数值为1的求和，得到一个总数c。

专利数据的每个主题中每篇专利的同族专利的数量，将所有主题中所有专利的同族专利的数量平均，高于平均数的记为1，低于平均数的记为0，之后将每个主题中所有专利的同族专利的数量数值为1的求和，得到一个总数d。

专利数据的每个主题中每篇专利的被引证专利的数量，将所有主题中所有专利的被引证专利的数量平均，高于平均数的记为1，低于平均数的记为0，之后将每个主题中所有专利的被引证专利的数量为1的求和，得到一个总数e。

专利数据的每个主题中每篇专利的家族专利被引证的数量，将所有主题中所有专利的家族专利被引证的数量平均，高于平均数的记为1，低于平均数的记为0，之后将每个主题中所有专利的家族专利被引证的数量为1的求和，得到一个总数f。

专利数据的每个主题中每篇专利的有效性，专利有效记为1，无效记为0，之后统计每个主题中每篇专利的有效性为1的总数h。

专利数据的每个主题中每篇专利有效性的维持年限，将所有主题中所有专利的有效性的维持年限平均，高于平均数的记为1，低于平均数的记为0，之后将每个主题中所有专利的有效性的维持年限为1的求和，得到一个总数g。

将上述a、b、c、d、e、f、g、h的参数分别给予不同的权重，之后将上述参数乘以权重系数并求和得到每个主题的最终分数，将每个主题按最终分数由高到低排序。在本发明中，专利数据的权重系数如下表：

序号	参数	权重系数
			1	a	0.1
2	b	0.1
			3	c	0.1
4	d	0.2
			5	e	0.2
6	f	0.1
			7	g	0.2

关于对文献数据主题对应的文献强度判断

文献数据的每个主题中文献的数量，将每个主题中文献的总数进行加和，得到每个主题中含有论文文献的总数a。

文献数据的每个主题中每篇文献的文献单位数量，将所有主题中所有文献单位数量平均，高于平均数的记为1，低于平均数的记为0，之后将每个主题中所有文献单位数值为1的求和，得到一个总数b。

文献数据的每个主题中每篇文献来源期刊的综合影响因子，将所有主题中所有文献来源期刊的综合影响因子平均，高于平均数的记为1，低于平均数的记为0，之后将每个主题中所有文献来源期刊的综合影响因子数值为1的求和，得到一个总数c。

根据上述数据预处理***中的专业性词典对文献数据的每个主题中每篇文献的关键词进行筛选，保留专业性词典中的关键词并统计保留下来的关键词的数量，将所有主题中所有文献保留专业性词典中的关键词并统计保留下来的关键词的数量平均，高于平均数的记为1，低于平均数的记为0，之后将每个主题中所有文献保留专业性词典中的关键词并统计保留下来的关键词的数值为1的求和，得到一个总数d。

将上述a、b、c、d的参数分别给予不同的权重，之后将上述参数乘以权重系数，得到每个主题的最终分数，将每个主题按最终分数由高到低排序。本发明中，文献数据的权重系数如下表所示。

文献数据的权重系数表

序号	参数	权重系数
			1	a	0.3
2	b	0.1
			3	c	0.3
4	d	0.3

关键技术分析***，用于找出专业类别下的关键技术。其具体的功能如下：

①对筛选出的高强度专利和文献的主题进行统计，文献和专利的主题强度按照由高到低的顺序排列。

②对上述主题进行热度值计算并绘制主题热度图，选取专利和文献排名前10的主题，分别对专利和文献主题中相同的关键词的概率相加，不同的关键词保留其概率，通过关键词的概率绘制主题热度图。

③根据主题热度图找出专利和文献中主题相似或相同的主题，该主题或该多个主题就是对应的该专业类别下的关键技术。

本发明采用大数据的方法，通过建立文献和专利同期的数据库、数据预处理***、大数据处理***、文献和专利主题分析***和关键技术分析***，将文献和专利的有用信息转化为量化的指标，再通过量化的指标找到文献和专利中关键的技术，从而在大量的文献和专利数据中快速找到该领域或者专业对应的关键技术或关键技术群，使得科研人员或者相关领域的人员快速了解该领域的研究方向、研究方法。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。

本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种检索专利和文献中关键技术的方法，其特征在于，包括：

获取待检索的专业类别；

2.根据权利要求1所述的一种检索专利和文献中关键技术的方法，其特征在于，所述对所述专利主题群中每个主题进行专利强度判断得到每个专利主题的分数，包括：

3.根据权利要求2所述的一种检索专利和文献中关键技术的方法，其特征在于，所述对所述文献主题群中每个主题进行文献强度判断得到每个文献主题的分数，包括：

4.根据权利要求1所述的一种检索专利和文献中关键技术的方法，其特征在于，所述根据所述每个专利主题的分数和所述每个文献主题的分数确定所述专业类别下的关键技术，包括：

根据关键词的概率绘制主题热度图；

根据所述主题热度图确定所述专业类别下的关键技术。

5.根据权利要求2所述的一种检索专利和文献中关键技术的方法，其特征在于，所述根据每个主题中相应的专利总数、第一总数、第二总数、第三总数、第四总数、第五总数、第六总数和第七总数得到每个专利主题的分数，包括：

6.根据权利要求3所述的一种检索专利和文献中关键技术的方法，其特征在于，所述根据每个主题中相应的文献的总数、第八总数、第九总数和第十总数得到每个文献主题的分数，包括：

7.一种检索专利和文献中关键技术的***，其特征在于，包括：

检索词获取模块，用于获取待检索的专业类别；