CN112559668A - 一种基于聚类的专利地图制作与表示方法 - Google Patents

一种基于聚类的专利地图制作与表示方法 Download PDF

Info

Publication number
CN112559668A
CN112559668A CN202011365759.1A CN202011365759A CN112559668A CN 112559668 A CN112559668 A CN 112559668A CN 202011365759 A CN202011365759 A CN 202011365759A CN 112559668 A CN112559668 A CN 112559668A
Authority
CN
China
Prior art keywords
text
patent text
keywords
clustering
texts
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011365759.1A
Other languages
English (en)
Inventor
陈宇飞
黄柏如
柳先辉
赵卫东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tongji University
Original Assignee
Tongji University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tongji University filed Critical Tongji University
Publication of CN112559668A publication Critical patent/CN112559668A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/29Geographical information databases

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提出了一种基于聚类的专利地图制作与表示方法,采用文本挖掘技术提取特征并将非结构化的专利文本信息映射到低维空间中,采用CFSFDP算法进行聚类,结合非结构化信息对同一聚类中的专利文本的特征进行分析,从而得到以有向图表示的专利地图,得到的结果能够更为真实准确地反映目标技术领域的技术发展过程。

Description

一种基于聚类的专利地图制作与表示方法
技术领域
本发明涉及专利地图制作领域,具体涉及一种基于聚类算法的专利地图制作与表示技术。
背景技术
专利地图是一种呈现和总结各种专利相关资讯和信息的形式,即对目标领域的专利信息进行统计分析与剖析整理,将结果制作成具有类似地图指向功能的图表信息。与其他专利管理分析方法相比,专利地图更具综合性,其表现形式也使其更为直观全面,从分析与利用上来说也更为便捷高效。专利地图能够为企业指明技术发展方向,帮助企业分析总结技术的分布态势以及使用情况,从而帮助企业及时进行有效的知识产权管理和进行技术创新。
专利地图起源于上世纪60年代的日本,在日本得到了广泛而有效的运用。随后这一技术也传入了韩国、美国、新加坡等地,得到了普遍的应用,而我国对其研究与应用均较少,不利于我国专利技术和产业的发展。造成这种情况的原因一方面在于对其重视程度不够,另一方面也是因为专利地图的制作技术难度。
专利地图涉及到的信息量巨大,整理分析制作异常繁琐,对于普通企业而言这样的任务难以完成。
本领域,目前的专利地图制作方法主要为,先根据需要进行专利分析的项目领域制定相关搜索策略,通过该策略对专利管理图、专利技术图、专利权限图等资料进行地毯式检索、比对、排查,最终汇总为专利地图,依赖于人工,耗时耗力;此外专利地图的制作过程与表现形式上均未充分利用结构化项目与非结构化项目,只通过其中一种制作专利地图,没有使用另一种或只在完成的专利地图上添注另一种信息。为此,本发明提出基于文本挖掘与聚类的方法,智能化地分析专利文本信息,并结合结构化信息构建更准确更丰富地专利地图。
发明内容
鉴于现有的专利地图制作方式对非结构信息的利用依赖于人工分析,缺少智能化、自动化分析手段;专利地图可视化呈现形式局限,无法同时充分利用结构化信息与非结构化信息。本发明提出一种基于聚类的专利地图制作与表示方法。本发明的目的是提出一种专利地图制作与表现方式,通过文本挖掘的方法利用专利文本信息构建专利向量空间模型,通过CFSFDP聚类算法得到具有相似关键词组成的一系列专利,并通过分析同一聚类内的专利关键词异同,结合非结构化项目构建以有向图表示的专利地图。
技术方案:
一种基于聚类的专利地图制作与表示方法,其特征在于,为实现上述过程本发明的具体步骤为:
步骤1,获得目标领域专利文本数据:
确定目标发展领域,制定相关检索策略,举例而非限定,例如关键词、检索领域范围等进行检索,获得相应的专利文本资料。
步骤2,专利文本关键词提取:
根据步骤1中检索得到的专利文本,通过计算TF-IDF(term frequency-inversedocument frequency)特征提取关键词,并得到每个关键词对于各专利文本的重要程度。
步骤3,专利向量空间模型与距离定义:
根据步骤2中提取得到的专利文本关键词及其与各专利文本间的关系,构建以关键词表示的专利文本向量空间,并定义该空间中的距离度量,以衡量专利文本间的相似程度。
步骤4,CFSFDP算法聚类:
通过CFSFDP聚类算法,对步骤3中得到空间模型中的专利文本向量进行聚类中心选取与聚类划分,使具有相似的专利技术、创新方向等的专利文本聚在同一类。
步骤5,构建以有向图表示的专利地图:
根据步骤4中得到的同一聚类内各专利文本关键词信息的异同,结合结构化的专利申请时间信息,构建能够表述技术发展与创新方向的专利地图。
本发明的有益效果:
本发明通过文本挖掘方法智能化地从非结构化的专利文本中提取关键词信息,针对专利文本在构建的向量空间中的分布特点,选取了适合的CFSFDP聚类算法进行聚类,制作过程中同时利用了专利文本间的语义关联与结构化信息,在专利地图的表达方式进行了创新,以不同于传统图表的更为自由、包含更多信息的形式呈现。
附图说明
图1是本发明方法的总流程图。
具体实施方式
下面结合附图和具体实施方式对本发明进行详细说明。
总流程如图1所示。
以下对各个重要步骤进行详细介绍。
1.获得目标领域专利文本数据。
确定目标发展领域,制定相关检索策略,如关键词、检索领域范围等进行检索,获得相应的非结构化专利文本资料作为目标专利文本库,以及对应的专利申请人、申请时间等结构化信息。
2.专利文本关键词提取:
记步骤1中得到的目标专利文本库为D={di},其中
Figure BDA0002805381370000045
为文本库中一篇具体的专利文本,由若干词t组成,其中词ti在专利文本dj中出现的次数记为Ni,j,据此计算每篇专利文本中每个词的词频(term frequency,TF)与逆文本频率(inversedocument frequency,IDF),并得到最终的TF-IDF值:
Figure BDA0002805381370000041
Figure BDA0002805381370000042
Figure BDA0002805381370000043
词tk在专利文本dj中出现的次数记为Nk,j,对于所有的词ti,按其对所有文件的TF-IDF最大值,即
Figure BDA0002805381370000044
进行降序排序,取前n个词作为关键词,记为keywordi,i=1,2,…,n。这n个词包含了整个专利文本库中的重要关键词,包括专利关键技术、专利创新针对的主体等等,用于步骤3中的模型定义。
3.专利向量空间模型与距离定义:
根据步骤2中得到的n个关键词以及对应的TF-IDF值,将各专利文本映射为n维空间中的向量,对于每篇专利文本dj,以如下的n维向量表示
Dj=(xj1,xj2,...,xjn)
其中
xjk=TF-IDFi,j,i满足keywordk=ti
定义两篇专利文本间的距离为其向量表示的欧氏距离。在考虑文本间的距离关系时,只考虑文本中各关键词的分布情况,因此需先将其归一化:
Figure BDA0002805381370000051
从而专利di与dj间的距离定义为:
Figure BDA0002805381370000052
该距离定义用于步骤4中的聚类。
4.CFSFDP算法聚类
在步骤3所定义的空间以及该空间中的距离下,对专利向量使用CFSFDP算法进行聚类:
对于每个专利向量D′i计算其两个数值特征:局部密度ρi和到最近的更高局部密度的点的距离δi
Figure BDA0002805381370000053
Figure BDA0002805381370000054
其中,
Figure BDA0002805381370000055
表示空集;dc为一预设值,
Figure BDA0002805381370000056
为局部密度小于D′i的点集,即:
Figure BDA0002805381370000057
选择ρ与δ均大于阈值的点作为类簇中心。与密度大于自身的点距离较远同时局部密度又较小的点认为是孤立点,看作是由单个点组成的类簇。剩余其他点可按局部密度自大至小排序,依次将每个点划分至已聚类的最近邻,根据向量聚类结果得到m个聚类Rr,r=1,2,...,m,每个聚类包含若干专利文本向量对应的文本di。小r指聚类R的编号。聚类结果用于步骤5中专利地图的构建。
5.构建以有向图表示的专利地图
根据步骤4中的聚类结果,以及步骤1中得到的结构化信息(专利申请人、专利申请时间),构建以有向图表示的专利地图:
初始的专利地图包括n个节点,即提取的关键词ti,i=1,..,n,两个节点ti,tj间存在边当且仅当
Figure BDA0002805381370000062
q∈[1,n],r∈[1,m]
s.t.ti∈dp∩dq
|t;t∈dp∩dq|≥K
tj∈dp
Figure BDA0002805381370000061
dp,dq∈Rr
Tp>Tq
式中r表示聚类的编号;m为聚类数量;p、q都表示专利文本的编号,表示为专利文本dq和专利文本dp;Tp表示专利dp的申请时间;Rr表示第r个聚类集R,Rr中包括若干专利文本。即当同一聚类Rr中的两篇专利文本具有至少K个相同关键词ti,且申请时间较晚的专利文本中存在独有的关键词tj,那么可以认为从关键技术ti发展出了关键技术tj,即由ti向tj引一有向边,并为该边标记申请时间较晚的专利的申请时间。若存在多次标记,则取最早的申请时间。

Claims (5)

1.一种基于聚类的专利地图制作与表示方法,其特征在于,步骤为:
步骤1,获得目标领域专利文本数据:
制定检索策略进行检索,获得相应的专利文本资料;
步骤2,专利文本关键词提取:
根据步骤1中检索得到的专利文本,通过计算TF-IDF(term frequency-inversedocument frequency)特征提取关键词,并得到每个关键词对于各专利文本的重要程度;
步骤3,专利向量空间模型与距离定义:
根据步骤2中提取得到的专利文本关键词及其与各专利文本间的关系,构建以关键词表示的专利文本向量空间,并定义该空间中的距离度量,以衡量专利文本间的相似程度;
步骤4,CFSFDP算法聚类:
通过CFSFDP聚类算法,对步骤3中得到空间模型中的专利文本向量进行聚类中心选取与聚类划分,使具有相似专利文本聚在同一类;
步骤5,构建以有向图表示的专利地图:
根据步骤4中得到的同一聚类内各专利文本关键词信息的异同,结合结构化的专利申请时间信息,构建能够表述技术发展与创新方向的专利地图。
2.如权利要求1所述的方法,其特征在于,
记步骤1中得到的目标专利文本库为D={di},其中
Figure FDA0002805381360000011
为文本库中一篇具体的专利文本,由若干词t组成,其中词ti在专利文本dj中出现的次数记为Ni,j,据此计算每篇专利文本中每个词的词频(term frequency,TF)与逆文本频率(inverse documentfrequency,IDF),并得到最终的TF-IDF值:
Figure FDA0002805381360000021
Figure FDA0002805381360000022
Figure FDA0002805381360000023
词tk在专利文本dj中出现的次数记为Nk,j,对于所有的词ti,按其对所有文件的TF-IDF最大值,即
Figure FDA0002805381360000024
进行降序排序,取前n个词作为关键词,记为keywordi,i=1,2,…,n;这n个词包含了整个专利文本库中的重要关键词,用于步骤3中的模型定义。
3.如权利要求1所述的方法,其特征在于,步骤3中专利向量空间模型与距离定义:
根据步骤2中得到的n个关键词以及对应的TF-IDF值,将各专利文本映射为n维空间中的向量,对于每篇专利文本dj,以如下的n维向量表示
Dj=(xj1,xj2,…,xjn)
其中
xjk=TF-IDFi,j,i满足keywordk=ti
定义两篇专利文本间的距离为其向量表示的欧氏距离;在考虑文本间的距离关系时,只考虑文本中各关键词的分布情况,先将其归一化:
Figure FDA0002805381360000025
从而专利文本di与dj间的距离定义为:
Figure FDA0002805381360000026
该距离定义用于步骤4中的聚类。
4.如权利要求3所述的方法,其特征在于,在步骤3所定义的空间以及该空间中的距离下,对专利向量使用CFSFDP算法进行聚类:
对于每个专利向量D′i计算其两个数值特征:局部密度ρi和到最近的更高局部密度的点的距离δi
Figure FDA0002805381360000031
Figure FDA0002805381360000032
其中,
Figure FDA0002805381360000033
表示空集;dc为一预设值,
Figure FDA0002805381360000034
为局部密度小于D′i的点集,即:
Figure FDA0002805381360000035
选择ρ与δ均大于阈值的点作为类簇中心;与密度大于自身的点距离较远同时局部密度又较小的点认为是孤立点,看作是由单个点组成的类簇;剩余其他点可按局部密度自大至小排序,依次将每个点划分至已聚类的最近邻,根据向量聚类结果得到m个聚类Rr,r=1,2,…,m,每个聚类包含若干专利文本向量对应的文本di;聚类结果用于步骤5中专利地图的构建。
5.如权利要求4所述的方法,其特征在于,构建以有向图表示的专利地图:
根据步骤4中的聚类结果,以及步骤1中得到的结构化信息专利申请人、专利申请时间,构建以有向图表示的专利地图:
初始的专利地图包括n个节点,即提取的关键词ti,i=1,..,n,两个节点ti,tj间存在边当且仅当
Figure FDA0002805381360000036
s.t.ti∈dp∩dq,
|t;t∈dp∩dq|≥K
tj∈dp
Figure FDA0002805381360000041
dp,dq∈Rr
Tp>Tq
式中m为聚类数量;专利文本dq和专利文本dp;Tp表示专利dp的申请时间;第r个聚类集Rr;当同一聚类Rr中的两篇专利文本具有至少K个相同关键词ti,且申请时间较晚的专利文本中存在独有的关键词tj,那么可以认为从关键技术ti发展出了关键技术tj,即由ti向tj引一有向边,并为该边标记申请时间较晚的专利的申请时间;若存在多次标记,则取最早的申请时间。
CN202011365759.1A 2020-08-23 2020-11-29 一种基于聚类的专利地图制作与表示方法 Pending CN112559668A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN2020108556124 2020-08-23
CN202010855612 2020-08-23

Publications (1)

Publication Number Publication Date
CN112559668A true CN112559668A (zh) 2021-03-26

Family

ID=75046622

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011365759.1A Pending CN112559668A (zh) 2020-08-23 2020-11-29 一种基于聚类的专利地图制作与表示方法

Country Status (1)

Country Link
CN (1) CN112559668A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113129180A (zh) * 2021-05-13 2021-07-16 贵阳业勤中小企业促进中心有限公司 一种搭建知识产权数据分析***的方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106372051A (zh) * 2016-10-20 2017-02-01 长城计算机软件与***有限公司 一种专利地图的可视化方法和***
CN106940726A (zh) * 2017-03-22 2017-07-11 山东大学 一种基于知识网络的创意自动生成方法与终端
CN107247780A (zh) * 2017-06-12 2017-10-13 北京理工大学 一种基于知识本体的专利文献相似性度量方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106372051A (zh) * 2016-10-20 2017-02-01 长城计算机软件与***有限公司 一种专利地图的可视化方法和***
CN106940726A (zh) * 2017-03-22 2017-07-11 山东大学 一种基于知识网络的创意自动生成方法与终端
CN107247780A (zh) * 2017-06-12 2017-10-13 北京理工大学 一种基于知识本体的专利文献相似性度量方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
黄柏如 等: ""基于密度峰值聚类的专利地图制作方法"", 《科技管理研究》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113129180A (zh) * 2021-05-13 2021-07-16 贵阳业勤中小企业促进中心有限公司 一种搭建知识产权数据分析***的方法

Similar Documents

Publication Publication Date Title
CN110851645B (zh) 一种基于深度度量学习下相似性保持的图像检索方法
Wang et al. Feature Selection.
CN102201001B (zh) 基于倒排技术的快速检索方法
Äyrämö et al. Introduction to partitioning-based clustering methods with a robust example
US20180341686A1 (en) System and method for data search based on top-to-bottom similarity analysis
CN115270738B (zh) 一种研报生成方法、***及计算机存储介质
CN114117213A (zh) 一种推荐模型训练、推荐方法、装置、介质和设备
CN110909785B (zh) 基于语义层级的多任务Triplet损失函数学习方法
Reas et al. SuperPart: Supervised graph partitioning for record linkage
Fahad et al. Review on semantic document clustering
CN106611016A (zh) 一种基于可分解词包模型的图像检索方法
CN111753067A (zh) 一种技术交底文本创新性评估方法、装置和设备
CN112559668A (zh) 一种基于聚类的专利地图制作与表示方法
KR20090069874A (ko) 지식맵 분석을 위한 키워드 선정 및 유사도계수 선정 방법및 그 시스템과 그 방법에 대한 컴퓨터 프로그램을 저장한기록매체
CN112836008B (zh) 基于去中心化存储数据的索引建立方法
CN112417082B (zh) 一种科研成果数据消歧归档存储方法
Li et al. Noise control in document classification based on fuzzy formal concept analysis
Mueller et al. Recognizing variables from their data via deep embeddings of distributions
TW201243627A (en) Multi-label text categorization based on fuzzy similarity and k nearest neighbors
CN114511027B (zh) 通过大数据网络进行英语远程数据提取方法
CN106202116B (zh) 一种基于粗糙集与knn的文本分类方法及***
Tian et al. Automatic image annotation with real-world community contributed data set
CN108287902B (zh) 一种基于数据非随机缺失机制的推荐***方法
Li et al. A novel approach to remote sensing image retrieval with multi-feature VP-tree indexing and online feature selection
Chen et al. Efficient similarity search in nonmetric spaces with local constant embedding

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20210326

WD01 Invention patent application deemed withdrawn after publication