CN112559668A

CN112559668A - 一种基于聚类的专利地图制作与表示方法

Info

Publication number: CN112559668A
Application number: CN202011365759.1A
Authority: CN
Inventors: 陈宇飞; 黄柏如; 柳先辉; 赵卫东
Original assignee: Tongji University
Current assignee: Tongji University
Priority date: 2020-08-23
Filing date: 2020-11-29
Publication date: 2021-03-26

Abstract

本发明提出了一种基于聚类的专利地图制作与表示方法，采用文本挖掘技术提取特征并将非结构化的专利文本信息映射到低维空间中，采用CFSFDP算法进行聚类，结合非结构化信息对同一聚类中的专利文本的特征进行分析，从而得到以有向图表示的专利地图，得到的结果能够更为真实准确地反映目标技术领域的技术发展过程。

Description

一种基于聚类的专利地图制作与表示方法

技术领域

本发明涉及专利地图制作领域，具体涉及一种基于聚类算法的专利地图制作与表示技术。

背景技术

专利地图是一种呈现和总结各种专利相关资讯和信息的形式，即对目标领域的专利信息进行统计分析与剖析整理，将结果制作成具有类似地图指向功能的图表信息。与其他专利管理分析方法相比，专利地图更具综合性，其表现形式也使其更为直观全面，从分析与利用上来说也更为便捷高效。专利地图能够为企业指明技术发展方向，帮助企业分析总结技术的分布态势以及使用情况,从而帮助企业及时进行有效的知识产权管理和进行技术创新。

专利地图起源于上世纪60年代的日本，在日本得到了广泛而有效的运用。随后这一技术也传入了韩国、美国、新加坡等地，得到了普遍的应用，而我国对其研究与应用均较少，不利于我国专利技术和产业的发展。造成这种情况的原因一方面在于对其重视程度不够，另一方面也是因为专利地图的制作技术难度。

专利地图涉及到的信息量巨大，整理分析制作异常繁琐，对于普通企业而言这样的任务难以完成。

本领域，目前的专利地图制作方法主要为，先根据需要进行专利分析的项目领域制定相关搜索策略，通过该策略对专利管理图、专利技术图、专利权限图等资料进行地毯式检索、比对、排查，最终汇总为专利地图，依赖于人工，耗时耗力；此外专利地图的制作过程与表现形式上均未充分利用结构化项目与非结构化项目，只通过其中一种制作专利地图，没有使用另一种或只在完成的专利地图上添注另一种信息。为此，本发明提出基于文本挖掘与聚类的方法，智能化地分析专利文本信息，并结合结构化信息构建更准确更丰富地专利地图。

发明内容

鉴于现有的专利地图制作方式对非结构信息的利用依赖于人工分析，缺少智能化、自动化分析手段；专利地图可视化呈现形式局限，无法同时充分利用结构化信息与非结构化信息。本发明提出一种基于聚类的专利地图制作与表示方法。本发明的目的是提出一种专利地图制作与表现方式，通过文本挖掘的方法利用专利文本信息构建专利向量空间模型，通过CFSFDP聚类算法得到具有相似关键词组成的一系列专利，并通过分析同一聚类内的专利关键词异同，结合非结构化项目构建以有向图表示的专利地图。

技术方案：

一种基于聚类的专利地图制作与表示方法，其特征在于，为实现上述过程本发明的具体步骤为：

步骤1，获得目标领域专利文本数据：

确定目标发展领域，制定相关检索策略，举例而非限定，例如关键词、检索领域范围等进行检索，获得相应的专利文本资料。

步骤2，专利文本关键词提取:

根据步骤1中检索得到的专利文本，通过计算TF-IDF(term frequency-inversedocument frequency)特征提取关键词，并得到每个关键词对于各专利文本的重要程度。

步骤3，专利向量空间模型与距离定义:

根据步骤2中提取得到的专利文本关键词及其与各专利文本间的关系，构建以关键词表示的专利文本向量空间，并定义该空间中的距离度量，以衡量专利文本间的相似程度。

步骤4，CFSFDP算法聚类：

通过CFSFDP聚类算法，对步骤3中得到空间模型中的专利文本向量进行聚类中心选取与聚类划分，使具有相似的专利技术、创新方向等的专利文本聚在同一类。

步骤5，构建以有向图表示的专利地图：

根据步骤4中得到的同一聚类内各专利文本关键词信息的异同，结合结构化的专利申请时间信息，构建能够表述技术发展与创新方向的专利地图。

本发明的有益效果：

本发明通过文本挖掘方法智能化地从非结构化的专利文本中提取关键词信息，针对专利文本在构建的向量空间中的分布特点，选取了适合的CFSFDP聚类算法进行聚类，制作过程中同时利用了专利文本间的语义关联与结构化信息，在专利地图的表达方式进行了创新，以不同于传统图表的更为自由、包含更多信息的形式呈现。

附图说明

图1是本发明方法的总流程图。

具体实施方式

下面结合附图和具体实施方式对本发明进行详细说明。

总流程如图1所示。

以下对各个重要步骤进行详细介绍。

1.获得目标领域专利文本数据。

确定目标发展领域，制定相关检索策略，如关键词、检索领域范围等进行检索，获得相应的非结构化专利文本资料作为目标专利文本库，以及对应的专利申请人、申请时间等结构化信息。

2.专利文本关键词提取:

记步骤1中得到的目标专利文本库为D＝{d_i},其中

为文本库中一篇具体的专利文本，由若干词t组成，其中词t_i在专利文本d_j中出现的次数记为N_i,j，据此计算每篇专利文本中每个词的词频(term frequency，TF)与逆文本频率(inversedocument frequency，IDF)，并得到最终的TF-IDF值：

词t_k在专利文本d_j中出现的次数记为N_k,j,对于所有的词t_i，按其对所有文件的TF-IDF最大值，即

进行降序排序，取前n个词作为关键词，记为keyword_i,i＝1,2,…,n。这n个词包含了整个专利文本库中的重要关键词，包括专利关键技术、专利创新针对的主体等等，用于步骤3中的模型定义。

3.专利向量空间模型与距离定义:

根据步骤2中得到的n个关键词以及对应的TF-IDF值，将各专利文本映射为n维空间中的向量，对于每篇专利文本d_j，以如下的n维向量表示

D_j＝(x_j1，x_j2，...，x_jn)

其中

x_jk＝TF-IDF_i，j，i满足keyword_k＝t_i

定义两篇专利文本间的距离为其向量表示的欧氏距离。在考虑文本间的距离关系时，只考虑文本中各关键词的分布情况，因此需先将其归一化：

从而专利d_i与d_j间的距离定义为：

该距离定义用于步骤4中的聚类。

4.CFSFDP算法聚类

在步骤3所定义的空间以及该空间中的距离下，对专利向量使用CFSFDP算法进行聚类：

对于每个专利向量D′_i计算其两个数值特征：局部密度ρ_i和到最近的更高局部密度的点的距离δ_i。

其中，

表示空集；d_c为一预设值，

为局部密度小于D′_i的点集，即：

选择ρ与δ均大于阈值的点作为类簇中心。与密度大于自身的点距离较远同时局部密度又较小的点认为是孤立点，看作是由单个点组成的类簇。剩余其他点可按局部密度自大至小排序，依次将每个点划分至已聚类的最近邻，根据向量聚类结果得到m个聚类R_r，r＝1，2，...，m，每个聚类包含若干专利文本向量对应的文本d_i。小r指聚类R的编号。聚类结果用于步骤5中专利地图的构建。

5.构建以有向图表示的专利地图

根据步骤4中的聚类结果，以及步骤1中得到的结构化信息(专利申请人、专利申请时间)，构建以有向图表示的专利地图：

初始的专利地图包括n个节点，即提取的关键词t_i，i＝1，..，n，两个节点t_i，t_j间存在边当且仅当

q∈[1，n]，r∈[1，m]

s.t.t_i∈d_p∩d_q，

|t；t∈d_p∩d_q|≥K

t_j∈d_p，

d_p，d_q∈R_r

T_p＞T_q

式中r表示聚类的编号；m为聚类数量；p、q都表示专利文本的编号，表示为专利文本d_q和专利文本d_p；T_p表示专利d_p的申请时间；Rr表示第r个聚类集R，Rr中包括若干专利文本。即当同一聚类R_r中的两篇专利文本具有至少K个相同关键词t_i，且申请时间较晚的专利文本中存在独有的关键词t_j，那么可以认为从关键技术t_i发展出了关键技术t_j，即由t_i向t_j引一有向边，并为该边标记申请时间较晚的专利的申请时间。若存在多次标记，则取最早的申请时间。

Claims

1.一种基于聚类的专利地图制作与表示方法，其特征在于，步骤为：

步骤1，获得目标领域专利文本数据：

制定检索策略进行检索，获得相应的专利文本资料；

步骤2，专利文本关键词提取:

根据步骤1中检索得到的专利文本，通过计算TF-IDF(term frequency-inversedocument frequency)特征提取关键词，并得到每个关键词对于各专利文本的重要程度；

步骤3，专利向量空间模型与距离定义:

根据步骤2中提取得到的专利文本关键词及其与各专利文本间的关系，构建以关键词表示的专利文本向量空间，并定义该空间中的距离度量，以衡量专利文本间的相似程度；

步骤4，CFSFDP算法聚类：

通过CFSFDP聚类算法，对步骤3中得到空间模型中的专利文本向量进行聚类中心选取与聚类划分，使具有相似专利文本聚在同一类；

步骤5，构建以有向图表示的专利地图：

2.如权利要求1所述的方法，其特征在于，

记步骤1中得到的目标专利文本库为D＝{d_i},其中

为文本库中一篇具体的专利文本，由若干词t组成，其中词t_i在专利文本d_j中出现的次数记为N_i,j，据此计算每篇专利文本中每个词的词频(term frequency，TF)与逆文本频率(inverse documentfrequency，IDF)，并得到最终的TF-IDF值：

进行降序排序，取前n个词作为关键词，记为keyword_i,i＝1,2,…,n；这n个词包含了整个专利文本库中的重要关键词，用于步骤3中的模型定义。

3.如权利要求1所述的方法，其特征在于，步骤3中专利向量空间模型与距离定义:

D_j＝(x_j1，x_j2，…，x_jn)

其中

x_jk＝TF-IDF_i,j，i满足keyword_k＝t_i

定义两篇专利文本间的距离为其向量表示的欧氏距离；在考虑文本间的距离关系时，只考虑文本中各关键词的分布情况，先将其归一化：

从而专利文本d_i与d_j间的距离定义为：

该距离定义用于步骤4中的聚类。

4.如权利要求3所述的方法，其特征在于，在步骤3所定义的空间以及该空间中的距离下，对专利向量使用CFSFDP算法进行聚类：

对于每个专利向量D′_i计算其两个数值特征：局部密度ρ_i和到最近的更高局部密度的点的距离δ_i；

其中，

表示空集；d_c为一预设值，

为局部密度小于D′_i的点集，即:

选择ρ与δ均大于阈值的点作为类簇中心；与密度大于自身的点距离较远同时局部密度又较小的点认为是孤立点，看作是由单个点组成的类簇；剩余其他点可按局部密度自大至小排序，依次将每个点划分至已聚类的最近邻，根据向量聚类结果得到m个聚类R_r,r＝1,2,…,m,每个聚类包含若干专利文本向量对应的文本d_i；聚类结果用于步骤5中专利地图的构建。

5.如权利要求4所述的方法，其特征在于，构建以有向图表示的专利地图：

根据步骤4中的聚类结果，以及步骤1中得到的结构化信息专利申请人、专利申请时间，构建以有向图表示的专利地图：

初始的专利地图包括n个节点，即提取的关键词t_i，i＝1,..,n，两个节点t_i，t_j间存在边当且仅当

s.t.t_i∈d_p∩d_q,

|t；t∈d_p∩d_q|≥K

t_j∈d_p，

d_p，d_q∈R_r

T_p>T_q

式中m为聚类数量；专利文本d_q和专利文本d_p；T_p表示专利d_p的申请时间；第r个聚类集Rr；当同一聚类R_r中的两篇专利文本具有至少K个相同关键词t_i，且申请时间较晚的专利文本中存在独有的关键词t_j，那么可以认为从关键技术t_i发展出了关键技术t_j，即由t_i向t_j引一有向边，并为该边标记申请时间较晚的专利的申请时间；若存在多次标记，则取最早的申请时间。