CN103164540B - 一种专利热点发现与趋势分析方法 - Google Patents

一种专利热点发现与趋势分析方法 Download PDF

Info

Publication number
CN103164540B
CN103164540B CN201310129380.4A CN201310129380A CN103164540B CN 103164540 B CN103164540 B CN 103164540B CN 201310129380 A CN201310129380 A CN 201310129380A CN 103164540 B CN103164540 B CN 103164540B
Authority
CN
China
Prior art keywords
technology
patent file
phrase
sigma
bunch
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201310129380.4A
Other languages
English (en)
Other versions
CN103164540A (zh
Inventor
彭智勇
陈旭
万鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan University WHU
Original Assignee
Wuhan University WHU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan University WHU filed Critical Wuhan University WHU
Priority to CN201310129380.4A priority Critical patent/CN103164540B/zh
Publication of CN103164540A publication Critical patent/CN103164540A/zh
Application granted granted Critical
Publication of CN103164540B publication Critical patent/CN103164540B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种专利热点发现与趋势分析方法。在专利热点发现过程中,首先,进行分词,并计算专利文档之间的相似度,根据相似度进行聚类。然后,对每个簇中的短语进行合并,使结果更加简洁、直观。接着,通过热点计算方法发现热点技术,并分析每项热点技术的热点程度。最后,根据历史数据进行曲线拟合,借助Logistic回归曲线判断某项技术当前所处的技术生命周期,从而分析该技术的发展状况及潜在的研究价值。同时,对热点技术进行有效的趋势分析,给出这项技术未来的发展趋势。本方法能从大量珍贵的专利数据中挖掘出有效的信息情报,具有广泛的实用性和较高的市场价值。

Description

一种专利热点发现与趋势分析方法
技术领域
本发明涉及一种专利热点发现与趋势分析方法,尤其是涉及一种从专利集合中发现热点技术并对热点技术进行趋势分析的方法。
背景技术
专利文献涉及所有技术领域最新、最活跃的创新技术信息。专利文献的报导比其他文献早1-3年,而且一项新技术的诞生到推广应用有个过程,存在一个“时间差”,少则几个月,多则几十年。因此从专利文献中可以了解科技发展的最新动态。
研究显示:利用专利文献指导技术创新,可以有效节约40%的研究经费和60%的研究时间。欧洲专利局的一项研究结果表明,在十几个欧洲专利条约成员国中,在应用技术的研究开发中,由于利用了专利文献指导技术创新,每年可节约300亿马克的研究开发经费。
迄今,全球已有超过8500万件专利,且全世界现每年新增100多万件专利文献。
面对如此海量珍贵的专利数据,如何从中挖掘出有效的信息情报是目前工业界关注的热点。
对于专利审查员来说,他可能需要了解:竞争对手的研究重点和技术优势是什么;哪些技术现在被广泛研究;如果要做某个主题的研究,需要重点掌握哪些技术,应当遵循怎样的技术路线;某项技术的研究价值是高还是低。
目前对市场的需求分析和技术预测主要依靠专家智慧,如采用专家调查法、德尔菲法等。采用这样的方法能集合行业/领域专家的智慧,具有较强的实用性、科学性,但同时它也不可避免地存在一些缺陷:
(1)定性分析为主,定量分析较少;
(2)缺少对于技术本身发展和创新的考虑;
(3)该过程耗时、耗力、成本高昂。
目前被广泛使用的专利数据服务平台,如Soopat、51Patent、CNIPR等,它们所提供的服务限于基于专利外部特征项的一些分类、检索、统计等功能,而对于专利的热点发现研究,目前还处于起步阶段。
发明内容
本发明基于以上的技术背景,提出了一种专利热点发现和趋势分析方法,能够从一堆专利文档集合中挖掘出研究主题和各个主题下所重点关注的技术,并能对每项技术的发展趋势做出有效的预测。
本发明的技术方案包含如下步骤:一种专利热点发现与趋势分析方法,其特征在于,包括以下步骤:
步骤1:专利文档采集,构建专利文档集合;
步骤2:将所述的专利文档向量化;
步骤3:根据所述专利文档向量化后的空间向量表示,计算所述的专利文档中两两专利文档之间的相似度;
步骤4:根据所述的专利文档之间的相似度对所述的专利文档集合进行聚类分析,形成专利文档簇;
步骤5:对所述的每个专利文档簇进行主题命名;
步骤6:通过热点计算方法对所述的每个主题进行技术研究热点分析;
步骤7:对所述的每个技术研究热点进行趋势分析,分析所述的技术所处的生命周期阶段,并对所述的技术的发展趋势做出预测。
作为优选,所述的步骤2中将所述的专利文档向量化,具体实现方法为:
定义所述的专利文档的集合为D={d1,d2,…,dn},对于所述的专利文档集合D={d1,d2,…,dn}中的任意一条专利di,利用一组关键词的空间向量来表示。其过程为,首先采用现有的分词***对所述的所有专利文档进行中文分词,得到词项;然后根据自定义或公用的停用词词库去除所述的专利文档中的停用词词项,其中停用词词项为没有实际含义的功能词词项;接着对于移除停用词词项后的词项,计算每个词项在所述的专利文档中的权重,其计算公式为:
w ( t j , d i ) = t f ( t j , d i ) × l o g ( N / n t j + 0.01 ) Σ t j ∈ D [ t f ( t j , d i ) × 1 o g ( N / n t j ) + 0.01 ] 2
其中,1≤i≤n,di表示第个i专利的文档内容;
其中,w(tj,di)为词项tj在专利文档di中的权重,也记作wij。而tf(tj,di)为词项tj在专利文档di中的词频,N为专利文档集合D中专利的总数,N=n,为专利文档集合D出现词项tj的专利文档数,分母 Σ t j ∈ D [ t f ( t j , d i ) × l o g ( N / n t j ) + 0.01 ] 2 为归一化因子;
最后,将所述的词项向量化,表示为用所述的各个词项对应的空间向量表示每一篇所述的专利文档,其中wij为词项tj在专利文档di中的权重。
作为优选,所述的步骤3中计算所述的专利文档中两两专利文档之间的相似度,包括以下步骤:
步骤3.1:对所述的任意两条专利文档di和dj,使用其对应的向量之间的夹角余弦来度量两者的相似度,其公式为:
sim 0 ( d i , d j ) = Σ k = 1 n w k ( d i ) × w k ( d j ) ( Σ k = 1 n w k 2 ( d i ) ) × ( Σ k = 1 n w k 2 ( d j ) ) * α
其中wk(di)为第k个词项在文档di中的权重,wk(dj)为第k个词项在文档dj中的权重,α为所述的专利文档内容相似度在所述的相似度计算中所占的权重因子;
步骤3.2:计算所述的专利文档的国际专利分类号ipc相似度:
sim 1 ( d i , d j ) = l e n g t h ( i p c ( d i ) ∩ i p c ( d j ) ) m a x ( l e n g t h ( i p c ( d i ) , l e n g t h ( i p c ( d j ) ) ) ) * β
其中β为ipc在相似度计算中所占的权重因子,ipc(di)为专利文档i的ipc,ipc(dj)为专利文档j的ipc,length(ipc)为ipc所占的字符长度;
步骤3.3:计算所述的专利文档的专利引用reference相似度计算公式如下:
sim2(di,dj)=nref(di,dj)*δ1+nrefed(di,dj)*δ2
其中,nref(di,dj)表示专利文档i,j同时引用了其他专利文献的次数,nrefed(di,dj)表示专利i,j同时被其他文献引用的次数,δ1为同时引用其他专利的影响因子,δ2为同时被其他专利引用的影响因子;
步骤3.4:计算所述的专利文档中两两专利文档之间的相似度为:
sim(di,dj)=sim0(di,dj)+sim1(di,dj)+sim2(di,dj)。
作为优选,所述的步骤4中根据所述的专利文档之间的相似度对所述的专利文档集合进行聚类分析,形成专利文档簇,具体实现方法为:
根据所述的专利文档之间的相似度,使用K-means聚类算法进行所述的专利文档聚类。聚类后,得到的是一个一个的簇,每个簇由若干相似度较大的专利文档组成,同时每个簇由所述的专利文档所包含的一组关键词短语来表示,定义簇C={T1,T2,…,Tm},其中Ti为簇C中包含的第i个短语,且1≤i≤m。
作为优选,步骤5中所述的对所述的每个专利文档簇进行主题命名,包括以下步骤:
步骤5.1:寻找候选短语集合,具体实现方法如下:
对于簇Ci中所包含的短语集合M={T1,T2,…,Tn},如果frq(Tj,Ci)/docs(Ci)>ξ,那么将短语Tj作为候选短语;
其中1≤j≤n,frq(Tj,Ci)为短语Tj在簇Ci中出现的频率,docs(Ci)为簇Ci中包含的专利文档总数,ξ为定义的阀值;
步骤5.2:同类短语合并,具体实现方法如下:
如果T1∩T2∩…∩Tn=Ts,那么(T1,T2,…,Tn)→Ts
即如果短语T1,T2,…,Tn中都出现了Ts这个子短语,则将T1,T2,…,Tn这n个短语合并为一个短语Ts
步骤5.3:寻找最小覆盖集,具体实现方法如下:
P ( T i ∩ T j ) P ( T i ∪ T j ) > δ
其中,P(Ti∩Tj)表示同时包含Ti、Tj这两个词的文档数,P(Ti∪Tj)表示包含Ti或Tj中的任意一个词的文档数。如果Ti、Tj两个词同时出现在同一篇专利文档中的次数与这两个词在所有文档集合中出现的次数的比值大于某个阀值δ,那么Ti、Tj两个词中任意去掉一个,不会太影响簇的召回率;
经过主题命名后,原始簇Ci所包含的短语集合M={T1,T2,…,Tn}被精简为M={Ti,Tj,…,Tk},其中1≤i<j<…<k≤n。
作为优选,步骤6中通过热点计算方法对所述的每个主题进行技术研究热点分析,具体实现方法为:通过对专利技术热点的特征分析和量化,对所述的专利技术热点进行判断,其热度衡量公式为:
如果:freq(Ti)>δ1and app(Ti)>δ2and &Sigma; t = t 0 t 1 e 1 t 1 + 1 - t * f r e q ( t ) - &Sigma; t = t 0 t 1 f r e q ( t ) &Sigma; t = t 0 t 1 f r e q ( t ) > &delta; 3 ,
那么h(Ti)=1,否则h(Ti)=0;
其中Ti为技术短语i,freq(Ti)为短语Ti出现的频率,app(Ti)为专利申请中包含技术短语Ti的专利申请人数目,freq(t)为第t年总的词频数,δ1、δ2、δ3为预先设置的三个阀值。h(Ti)=1表明技术短语Ti是一个热点技术;h(Ti)=0表明技术短语Ti不是热点技术。作为热点技术短语,其热度的计算公式为:
h o t s p o t ( T i ) = ( 1 + l n f r e q ( T i ) &delta; 1 ) * ( 1 + l n a p p ( T i ) &delta; 2 ) * &Sigma; t = t 0 t 1 e 1 t 1 + 1 - t * f r e q ( t ) - &Sigma; t = t 0 t 1 f r e q ( t ) &Sigma; t = t 0 t 1 f r e t q ( t ) .
作为优选,步骤7中对所述的每个技术研究热点进行趋势分析,分析所述的技术所处的生命周期阶段,并对所述的技术的发展趋势做出预测,包括以下步骤:
步骤7.1:根据所述的每个技术研究热点中的某个热点技术短语所出现的情况,得到该项技术申请在不同年份的申请数量;
Ti→(y1,n1),(y2,n2),(y3,n3),……,(yk,nk)
其中,(yi,ni)表示在第yi年申请的专利数量为ni条;
步骤7.2:根据历史数据进行Logistic曲线拟合,找到一条满项该项技术申请分布情况的Logistic曲线;
Logistic曲线为: Y t = K 1 + e - a ( t - b )
所述的Logistic曲线拟合的包括如下步骤:
首先,进行如下变换:
y t = l n ( Y t K - Y t ) = - a b + a t ,
y ^ t = a &prime; + b &prime; t ,
得到a=b′and
然后根据历史数据,使用最小二乘法计算a′、b′的值:
yi=b′·xi+a′;
b &prime; = n &CenterDot; &Sigma;x i y j - &Sigma;x i &CenterDot; &Sigma;y j n &CenterDot; &Sigma;x i 2 - ( &Sigma;x i ) 2 ;
a &prime; = &Sigma;y j n - b &prime; &CenterDot; &Sigma;x i n ;
其中,xi,yj为历史数据,xi为第(x0+i)年,yi为在xi年申请的专利数目,n为历史数据的总条数,得到a′和b′后,根据a=b′和b=-a′/b′计算出a和b的值;
步骤7.3:通过拟合得到的曲线,对现有技术进行技术发展状况分析和趋势预测。具体实现方法如下:
通过Logistic曲线生长过程速度函数的一阶和二阶导数,可以得到Logistic曲线增长或生长过程的始盛期、高峰期、盛末期分别为:
period=渐增期,if(t≥0 and);
period=快增期,if( t > ln a - 1.317 b and t &le; ln a + 1.317 b );
period=缓增期,if ( t > ln a + 1.317 b ) ;
根据所述的Logistic曲线,判断该项技术所处的技术生命周期,所述的技术生命周期包括:技术引入期、技术成长期、技术成熟期、技术饱和期,从而判断该项技术是否有继续研究的价值;
根据所述的Logistic曲线,预测该技术在多少年后会被淘汰,以及预测在未来该项技术的申请情况会是什么样,从而帮助专利审查员及时做出有利的战略决策。
本发明的技术方案创造性地提出一种专利热点发现与趋势分析方法。因此,本发明具有如下优点:
1.解决了基于文本重叠的方式计算出的相似度很低的问题,使得聚类后的簇更加紧密;
2.用尽可能简洁的词语来表示一个主题,结果更加直观;
3.能有效地发现专利文档集合中的热点技术,并能分析该项技术当前的发展状况;
4.能对热点技术未来的发展趋势做出有效的预测,帮助专利审查员进行战略决策。
附图说明
图1:为本发明的总体框架图。
图2:为发明的相似度计算的流程图。
图3:为发明的主题命名的流程图。
图4:为发明的热点计算的流程图。
图5:为发明的热点技术趋势分析的流程图。
具体实施方式
下面通过实施例,并结合附图,对本发明的技术方案作进一步具体的说明。
本发明的一种基于专利热点发现与趋势分析方法,能够从一堆专利文档集合中挖掘出研究主题和各个主题下所重点关注的技术,并能对每项技术的发展趋势做出有效的预测。其基于定义:专利文档的集合D={d1,d2,…,dn},对应的专利发表时间集合T={T1,T2,…,Tn}。其中,1≤i≤n,di表示专利i的文档内容;Ti表示专利i的申请时间。
本发明拟通过聚类的方法挖掘出专利文档集合中主要的研究对象是什么、研究的热点技术是什么。首先需要对专利文档集进行相似度计算。传统的文档相似度方法包括余弦相似度、jaccard系数、基于HowNet的相似度计算方法,本发明拟以余弦相似度为例进行专利文档的相似度计算,并结合专利文献的特点,引入一些新的因素作为专利相似度计算的指标。
请见图1-5,本发明的技术方案包含如下步骤:一种专利热点发现与趋势分析方法,包括以下步骤:
步骤1:专利文档采集,构建专利文档集合D={d1,d2,…,dn};
步骤2:将专利文档向量化;
对于专利文档集合D={d1,d2,…,dn}中的任意一条专利di,可以用一组关键词的空间向量来表示。其过程为:
首先采用现有的分词***,如中科院分词软件NLPIR对所有的专利文档进行中文分词,得到词项;
然后根据自定义或公用的停用词词库去除所述的专利文档中的停用词词项,其中停用词词项为没有实际含义的功能词词项;接着对于移除停用词词项后的词项,计算每个词项在所述的专利文档中的权重,其计算公式为:
w ( t j , d i ) = t f ( t j , d i ) &times; l o g ( N / n t j + 0.01 ) &Sigma; t j &Element; D &lsqb; t f ( t j , d i ) &times; 1 o g ( N / n t j ) + 0.01 &rsqb; 2
其中,1≤i≤n,di表示第个i专利的文档内容;
其中,w(tj,di)为词项tj在文本di中的权重,也记作wij,而tf(tj,di)为词tj在文本di中的词频,N为专利集合D中专利的总数,N=n,为专利集合D出现词项tj的专利文档数,分母 &Sigma; t j &Element; D &lsqb; t f ( t j , d i ) &times; l o g ( N / n t j ) + 0.01 &rsqb; 2 为归一化因子;
最后,用各个词项对应的空间向量表示每一篇专利文档,表示为其中wij为词项tj在专利文档di中的权重。
步骤3:根据所述专利文档向量化后的空间向量表示,计算专利文档中两两专利文档之间的相似度,包括以下步骤:
步骤3.1:对任意两条专利文档di和dj,使用其对应的向量之间的夹角余弦来度量两者的相似度,其公式为:
sim 0 ( d i , d j ) = &Sigma; k = 1 n w k ( d i ) &times; w k ( d j ) ( &Sigma; k = 1 n w k 2 ( d i ) ) &times; ( &Sigma; k = 1 n w k 2 ( d j ) ) * &alpha; ;
其中wk(di)为第k个词项在文档di中的权重,wk(dj)为第k个词项在文档dj中的权重,α为文本内容相似度在专利相似度计算中所占的权重因子。
步骤3.2:计算利文档的国际专利分类号ipc相似度;
由于在撰写专利时,专利申请人为了保证自己商业机密不被泄露,往往会故意掩蔽一些技术细节,这直接导致基于文本重叠的方法计算出来的专利之间的相似度非常小;
因此,除了基于专利的非结构化信息来计算专利之间的相似度,还需要借助专利本身的结构化信息来提高专利之间的关联程度,从而使聚类后的簇更加紧密。我们需要借助的结构化属性信息包括:
(1)ipc(国际专利分类号):如果专利di和dj的ipc相同或者相似,那么这两项专利所针对的技术领域也是相同或相似的,它们之间的相似程度也会越高。当然,这里还涉及到ipc相似的粒度问题。
国际专利分类***的体系结构如下:国际专利分类***按照技术主题设立类目,把整个技术领域分为5个不同等级:部、大类、小类、大组、小组。两项专利之间的ipc相似程度取决于它们在哪个技术等级上是相同的。如果它们只是按部相同,那么这两条专利ipc的相似程度就较低;反之,如果它们按部、按大类、按小类、按大组、按小组都是相同的,那么这两条专利ipc的相似程度就很高。
(2)reference(专利引用):如果两条专利引用了其他相同的文章,且它们同时引用相同专利的次数越多,那么这两条专利的相似程度就越高;同理,如果两条专利被同一篇其他的专利所引用,且同时被引用的次数越多,那么它们的相似程度越高。
其中:两条专利的ipc相似度计算公式如下:
sim 1 ( d i , d j ) = l e n g t h ( i p c ( d i ) &cap; i p c ( d j ) ) max ( l e n g t h ( i p c ( d i ) , l e n g t h ( i p c ( d j ) ) ) ) * &beta;
其中β为ipc在相似度计算中所占的权重因子,ipc(di)为专利i的ipc,ipc(dj)为专利j的ipc,length(ipc)为ipc所占的字符长度;
步骤3.3:计算专利文档的专利引用reference相似度计算公式如下:
sim2(di,dj)=nref(di,dj)*δ1+nrefed(di,dj)*δ2
其中,nref(di,dj)表示专利i,j同时引用了其他专利文献的次数,nrefed(di,dj)表示专利i,j同时被其他文献引用的次数,δ1为同时引用其他专利的影响因子,δ2为同时被其他专利引用的影响因子。
步骤3.4:计算专利文档中两两专利文档之间的相似度为:专利i、j的相似度表示为:
sim(di,dj)=sim0(di,dj)+sim1(di,dj)+sim2(di,dj)。
步骤4:根据专利文档之间的相似度对专利文档集合进行聚类分析,形成专利文档簇;
根据专利文档之间的相似度,使用K-means聚类算法进行专利文档聚类。聚类后,得到的是一个一个的簇,每个簇由若干相似度较大的专利文档组成,同时每个簇由这些专利文档所包含的一组关键词短语来表示,定义簇C={T1,T2,…,Tm},其中Ti为簇C中包含的第i个短语,且1≤i≤m。这些处于同一个簇中的专利所针对的技术主题往往是相同或相似的。接下来,需要考虑如何用较直观的方法来表示每个簇的研究主题。
步骤5:对每个专利文档簇进行主题命名,包括以下步骤:
步骤5.1:寻找候选短语集合,具体实现方法如下:
对于簇Ci中所包含的短语集合M={T1,T2,…,Tn},如果frq(Tj,Ci)/docs(Ci)>ξ,那么将短语Tj作为候选短语;
其中1≤j≤n,frq(Tj,Ci)为短语Tj在簇Ci中出现的频率,docs(Ci)为簇Ci中包含的专利文档总数,ξ为定义的阀值;
步骤5.2:同类短语合并,具体实现方法如下:
如果T1∩T2∩…∩Tn=Ts,那么(T1,T2,…,Tn)→Ts
即如果短语T1,T2,…,Tn中都出现了Ts这个子短语,则将T1,T2,…,Tn这n个短语合并为一个短语Ts;如关键词组“燃料汽车”、“电动汽车”、“小型汽车”,事实上,它们的研究主题都是汽车,它们都包含“汽车”这个子短语,因此将它们合并成“汽车”;
步骤5.3:寻找最小覆盖集,具体实现方法如下:
P ( T i &cap; T j ) P ( T i &cup; T j ) > &delta;
其中,P(Ti∩Tj)表示同时包含Ti、Tj这两个词的文档数,P(Ti∪Tj)表示包含Ti或Tj中的任意一个词的文档数。如果Ti、Tj两个词同时出现在同一篇专利文档中的次数与这两个词在所有文档集合中出现的次数的比值大于某个阀值δ,那么Ti、Tj两个词中任意去掉一个,不会太影响簇的召回率(Recall),如“电脑”和“计算机”这两个词表示的是同一个事物,它们同时出现在同一篇专利中的概率很大,去除电脑和计算机中任意一个词不影响簇的召回率;
经过主题命名后,原始簇Ci所包含的短语集合M={T1,T2,…,Tn}被精简为M={Ti,Tj,…,Tk},其中1≤i<j<…<k≤n。以更加简洁的方式来表示一个簇的研究主题,使得展示出来的效果更加直观。
步骤6:通过热点计算方法对每个主题进行技术研究热点分析;
通过对专利技术热点的特征分析和量化,得到了一个可以衡量技术热度的公式,这样可以从众多的技术中识别出哪些是热点技术。本发明对技术热点的度量来自如下几个方面:
(1)申请数量
一项技术要想成为热点,首先需要从数量上进行保证,如果有关的申请数量太少,它的受关注度太低,那么在这段时间内是不可能成为热点技术的;
(2)申请速度
一项热点技术应该具有较高的申请速度。如果一项技术的申请数目总体很多,但是分散在很长的时间段内,平均到每天的相关数目很少,那么就不能成为热点技术。例如,在1年内有2000条相关的专利申请要比在1个月内有1000条相关专利申请的热度低很多;
(3)专利权人数目
由于一项热点技术在广泛发展期间会引起很多同行的关注,所以专利权人的数量可以成为技术热度的一个指标;
所以,本发明综合专利申请数量、申请速度和专利权人的数量这三项指标对专利热度的影响,对专利技术热点进行判断,其热度衡量公式为:
提出了如下热度衡量公式:
如果:freq(Ti)>δ1and app(Ti)>δ2and &Sigma; t = t 0 t 1 e 1 t 1 + 1 - t * f r e q ( t ) - &Sigma; t = t 0 t 1 f r e q ( t ) &Sigma; t = t 0 t 1 f r e q ( t ) > &delta; 3 ,
那么h(Ti)=1,否则h(Ti)=0;
其中Ti为技术短语i,freq(Ti)为短语Ti出现的频率,app(Ti)为专利申请中包含技术短语Ti的专利申请人数目,freq(t)为第t年总的词频数,δ1、δ2、δ3为预先设置的三个阀值。H(Ti)=1表明技术短语Ti是一个热点技术;h(Ti)=0表明技术短语Ti不是热点技术。作为热点技术短语,其热度的计算公式为:
h o t s p o t ( T i ) = ( 1 + l n f r e q ( T i ) &delta; 1 ) * ( 1 + l n a p p ( T i ) &delta; 2 ) * &Sigma; t = t 0 t 1 e 1 t 1 + 1 - t * f r e q ( t ) - &Sigma; t = t 0 t 1 f r e q ( t ) &Sigma; t = t 0 t 1 f r e t q ( t ) .
从以上公式可看出,如果一项技术的专利申请频率越高、专利申请人分布越广泛、并在一定时间范围内所增长的幅度越大,则该技术的热点程度越高。
步骤7:对每个技术研究热点进行趋势分析,分析技术所处的生命周期阶段,并对技术的发展趋势做出预测,包括以下步骤:
步骤7.1:根据所述的每个技术研究热点中的某个热点技术短语所出现的情况,得到该项技术申请在不同年份的申请数量;
Ti→(y1,n1),(y2,n2),(y3,n3),……,(yk,nk)
其中,(yi,ni)表示在第yi年申请的专利数量为ni条;
步骤7.2:根据历史数据进行Logistic曲线拟合,找到一条满项该项技术申请分布情况的Logistic曲线,Logistic分布是个具有较大实用价值的连续型分布;
Logistic曲线为: Y t = K 1 + e - a ( t - b )
所述的Logistic曲线拟合的包括如下步骤:
首先,进行如下变换:
y t = l n ( Y t K - Y t ) = - a b + a t ,
y ^ t = a &prime; + b &prime; t ,
得到a=b′and
然后根据历史数据,使用最小二乘法计算a′、b′的值:
yi=b′·xi+a′;
b &prime; = n &CenterDot; &Sigma;x i y j - &Sigma;x i &CenterDot; &Sigma;y j n &CenterDot; &Sigma;x i 2 - ( &Sigma;x i ) 2 ;
a &prime; = &Sigma;y j n - b &prime; &CenterDot; &Sigma;x i n ;
其中,xi,yj为历史数据,xi为第(x0+i)年,yi为在xi年申请的专利数目,n为历史数据的总条数,得到a′和b′后,根据a=b′和b=-a′/b′计算出a和b的值;
步骤7.3:通过拟合得到的曲线,对现有技术进行技术发展状况分析和趋势预测。具体实现方法如下:
通过Logistic曲线生长过程速度函数的一阶和二阶导数,可以得到Logistic曲线增长或生长过程的始盛期、高峰期、盛末期分别为:
period=渐增期,if(t≥0 and);
period=快增期,if( t > ln a - 1.317 b and t &le; ln a + 1.317 b );
period=缓增期,if ( t > ln a + 1.317 b ) ;
据Logistic曲线,判断该项技术所处的技术生命周期(技术引入期、技术成长期、技术成熟期、技术饱和期),从而判断该项技术是否有继续研究的价值;
同时,可以根据得到的Logistic曲线,预测该技术在多少年后会被淘汰,以及预测在未来该项技术的申请情况会是什么样(如在明年该项技术预计会有多少条专利申请,在后年该项技术预计会有多少条专利申请,预计会在什么时候达到技术饱和状态等等),从而帮助专利审查员及时做出有利的战略决策。
以上所述实施例仅是为充分说明本发明而所举的较佳的实施例,本发明的保护范围不限于此。本技术领域的技术人员在本发明基础上所作的等同替代或变换,均在本发明的保护范围之内。本发明的保护范围以权利要求书为准。

Claims (6)

1.一种专利热点发现与趋势分析方法,其特征在于,包括以下步骤:
步骤1:专利文档采集,构建专利文档集合;
步骤2:将所述的专利文档向量化;具体实现方法为:
定义所述的专利文档的集合为D={d1,d2,…,dn},对于所述的专利文档集合D={d1,d2,…,dn}中的任意一条专利di,利用一组关键词的空间向量来表示;其过程为,首先采用现有的分词***对所述的所有专利文档进行中文分词,得到词项;然后根据自定义或公用的停用词词库去除所述的专利文档中的停用词词项,其中停用词词项为没有实际含义的功能词词项;接着对于移除停用词词项后的词项,计算每个词项在所述的专利文档中的权重,其计算公式为:
w ( t j , d i ) = t f ( t j , d i ) &times; l o g ( N / n t j + 0.01 ) &Sigma; t j &Element; D &lsqb; t f ( t j , d i ) &times; log ( N / n t j ) + 0.01 &rsqb; 2
其中,1≤i≤n,di表示第个i专利的文档内容;
其中,w(tj,di)为词项tj在专利文档di中的权重,也记作wij;而tf(tj,di)为词项tj在专利文档di中的词频,N为专利文档集合D中专利的总数,为专利文档集合D出现词项tj的专利文档数,分母为归一化因子;
最后,将所述的词项向量化,表示为用所述的各个词项对应的空间向量表示每一篇所述的专利文档,其中wij为词项tj在专利文档di中的权重;
步骤3:根据所述专利文档向量化后的空间向量表示,计算所述的专利文档中两两专利文档之间的相似度;
步骤4:根据所述的专利文档之间的相似度对所述的专利文档集合进行聚类分析,形成专利文档簇;
步骤5:对所述的每个专利文档簇进行主题命名;
步骤6:通过热点计算方法对所述的每个主题进行技术研究热点分析;
步骤7:对所述的每个技术研究热点进行趋势分析,分析所述的技术所处的生命周期阶段,并对所述的技术的发展趋势做出预测。
2.根据权利要求1所述的专利热点发现与趋势分析方法,其特征在于:所述的步骤3中计算所述的专利文档中两两专利文档之间的相似度,包括以下步骤:
步骤3.1:对所述的任意两条专利文档di和dj,使用其对应的向量之间的夹角余弦来度量两者的相似度,其公式为:
sim 0 ( d i , d j ) = &Sigma; k = 1 n w k ( d i ) &times; w k ( d j ) ( &Sigma; k = 1 n w k 2 ( d i ) ) &times; ( &Sigma; k = 1 n w k 2 ( d j ) ) * &alpha;
其中wk(di)为第k个词项在文档di中的权重,wk(dj)为第k个词项在文档dj中的权重,α为所述的专利文档内容相似度在所述的相似度计算中所占的权重因子;
步骤3.2:计算所述的专利文档的国际专利分类号ipc相似度:
sim 1 ( d i , d j ) = l e n g t h ( i p c ( d i ) &cap; i p c ( d j ) ) m a x ( l e n g t h ( i p c ( d i ) ) , l e n g t h ( i p c ( d j ) ) ) * &beta;
其中β为ipc在相似度计算中所占的权重因子,ipc(di)为专利文档i的ipc,ipc(dj)为专利文档j的ipc,ipc(di)∩ipc(dj)表示第i个专利的ipc分类号和第j个专利的ipc分类号相同的部分,length(ipc)为ipc所占的字符长度;
步骤3.3:计算所述的专利文档的专利引用reference相似度计算公式如下:
sim2(di,dj)=nref(di,dj)*δ1+nrefed(di,dj)*δ2
其中,nref(di,dj)表示专利文档i,j同时引用了其他专利文献的次数,nrefed(di,dj)表示专利i,j同时被其他文献引用的次数,δ1为同时引用其他专利的影响因子,δ2为同时被其他专利引用的影响因子;
步骤3.4:计算所述的专利文档中两两专利文档之间的相似度为:
sim(di,dj)=sim0(di,dj)+sim1(di,dj)+sim2(di,dj)。
3.根据权利要求1所述的专利热点发现与趋势分析方法,其特征在于:所述的步骤4中根据所述的专利文档之间的相似度对所述的专利文档集合进行聚类分析,形成专利文档簇,具体实现方法为:
根据所述的专利文档之间的相似度,使用K-means聚类算法进行所述的专利文档聚类;聚类后,得到的是一个一个的簇,每个簇由若干相似度较大的专利文档组成,同时每个簇由所述的专利文档所包含的一组关键词短语来表示,定义簇C={T1,T2,…,Tm},其中Ti为簇C中包含的第i个短语,且1≤i≤m。
4.根据权利要求1所述的专利热点发现与趋势分析方法,其特征在于:步骤5中所述的对所述的每个专利文档簇进行主题命名,包括以下步骤:
步骤5.1:寻找候选短语集合,具体实现方法如下:
对于簇Ci中所包含的短语集合M={T1,T2,…,Tn},如果frq(Tj,Ci)/docs(Ci)>ξ,那么将短语Tj作为候选短语;
其中1≤j≤n,frq(Tj,Ci)为短语Tj在簇Ci中出现的频率,docs(Ci)为簇Ci中包含的专利文档总数,ξ为定义的阀值;
步骤5.2:同类短语合并,具体实现方法如下:
如果T1∩T2∩…∩Tn=Ts,那么(T1,T2,…,Tn)→Ts
即如果短语T1,T2,…,Tn中都出现了Ts这个子短语,则将T1,T2,…,Tn这n个短语合并为一个短语Ts
步骤5.3:寻找最小覆盖集,具体实现方法如下:
P ( T i &cap; T j ) P ( T i &cup; T j ) > &delta;
其中,P(Ti∩Tj)表示同时包含Ti、Tj这两个词的文档数,P(Ti∪Tj)表示包含Ti或Tj中的任意一个词的文档数;如果Ti、Tj两个词同时出现在同一篇专利文档中的次数与这两个词在所有文档集合中出现的次数的比值大于某个阀值δ,那么Ti、Tj两个词中任意去掉一个,不会太影响簇的召回率;
经过主题命名后,原始簇Ci所包含的短语集合M={T1,T2,…,Tn}被精简为M={Ti,Tj,…,Tk},其中1≤i<j<…<k≤n。
5.根据权利要求1所述的专利热点发现与趋势分析方法,其特征在于:步骤6中通过热点计算方法对所述的每个主题进行技术研究热点分析,具体实现方法为:通过对专利技术热点的特征分析和量化,对所述的专利技术热点进行判断,其热度衡量公式为:
如果:
那么h(Ti)=1,否则h(Ti)=0;
其中,Ti为技术短语i,freq(Ti)为短语Ti出现的频率,app(Ti)为专利申请中包含技术短语Ti的专利申请人数目,freq(t)为第t年总的词频数,δ1、δ2、δ3为预先设置的三个阀值;h(Ti)=1表明技术短语Ti是一个热点技术;h(Ti)=0表明技术短语Ti不是热点技术;作为热点技术短语,其热度的计算公式为:
h o t s p o t ( T i ) = ( 1 + ln f r e q ( T i ) &delta; 1 ) * ( 1 + ln a p p ( T i ) &delta; 2 ) * &Sigma; t = t 0 t 1 e 1 t 1 + 1 - t * f r e q ( t ) - &Sigma; t = t 0 t 1 f r e q ( t ) &Sigma; t = t 0 t 1 f r e q ( t ) .
6.根据权利要求1所述的专利热点发现与趋势分析方法,其特征在于:步骤7中对所述的每个技术研究热点进行趋势分析,分析所述的技术所处的生命周期阶段,并对所述的技术的发展趋势做出预测,包括以下步骤:
步骤7.1:根据所述的每个技术研究热点中的某个热点技术短语所出现的情况,得到该项技术申请在不同年份的申请数量;
Ti→(y1,n1),(y2,n2),(y3,n3),……,(yk,nk)
其中,(yi,ni)表示在第yi年申请的专利数量为ni条;
步骤7.2:根据历史数据进行Logistic曲线拟合,找到一条满项该项技术申请分布情况的Logistic曲线;
Logistic曲线为:
所述的Logistic曲线拟合的包括如下步骤:
首先,进行如下变换:
y t = l n ( Y t K - Y t ) = - a b + a t ,
得到
然后根据历史数据,使用最小二乘法计算a′、b′的值:
yi=b′·xi+a′;
b &prime; = n &CenterDot; &Sigma;x i y j - &Sigma;x i &CenterDot; &Sigma;y j n &CenterDot; &Sigma;x i 2 - ( &Sigma;x i ) 2 ;
a &prime; = &Sigma;y j n - b &prime; &CenterDot; &Sigma;x i n ;
其中,xi,yj为历史数据,xi为第(x0+i)年,yi为在xi年申请的专利数目,n为历史数据的总条数,得到a′和b′后,根据a=b′和b=-a′/b′计算出a和b的值;
步骤7.3:通过拟合得到的曲线,对现有技术进行技术发展状况分析和趋势预测;具体实现方法如下:
通过Logistic曲线生长过程速度函数的一阶和二阶导数,可以得到Logistic曲线增长或生长过程的始盛期、高峰期、盛末期分别为:
period=渐增期,
period=快增期,
period=缓增期,
根据所述的Logistic曲线,判断该项技术所处的技术生命周期,所述的技术生命周期包括:技术引入期、技术成长期、技术成熟期、技术饱和期,从而判断该项技术是否有继续研究的价值;
根据所述的Logistic曲线,预测该技术在多少年后会被淘汰,以及预测在未来该项技术的申请情况会是什么样,从而帮助专利审查员及时做出有利的战略决策。
CN201310129380.4A 2013-04-15 2013-04-15 一种专利热点发现与趋势分析方法 Active CN103164540B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310129380.4A CN103164540B (zh) 2013-04-15 2013-04-15 一种专利热点发现与趋势分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310129380.4A CN103164540B (zh) 2013-04-15 2013-04-15 一种专利热点发现与趋势分析方法

Publications (2)

Publication Number Publication Date
CN103164540A CN103164540A (zh) 2013-06-19
CN103164540B true CN103164540B (zh) 2016-08-17

Family

ID=48587627

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310129380.4A Active CN103164540B (zh) 2013-04-15 2013-04-15 一种专利热点发现与趋势分析方法

Country Status (1)

Country Link
CN (1) CN103164540B (zh)

Families Citing this family (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104063411B (zh) * 2013-09-12 2016-05-25 江苏金鸽网络科技有限公司 基于波特五力模型的企业情报收集方法
CN103714132B (zh) * 2013-12-17 2017-12-26 北京本果信息技术有限公司 一种用于基于地域和行业进行热点事件挖掘的方法和设备
CN103824161A (zh) * 2014-02-28 2014-05-28 惠州学院 一种云计算可专利技术导航***及方法
CN104391939B (zh) * 2014-11-24 2018-01-30 北京锐安科技有限公司 行业特征词确定方法和装置及行业文本聚类方法和服务器
CN104933188B (zh) * 2015-07-07 2018-03-13 武汉大学 一种专利个性化库的数据同步***及方法
CN105677907A (zh) * 2016-02-16 2016-06-15 大连理工大学 一种专利技术演化分析方法及***
CN106776672A (zh) * 2016-08-30 2017-05-31 程传旭 技术发展脉络图确定方法
CN106126758B (zh) * 2016-08-30 2021-01-05 西安航空学院 用于信息处理和信息评估的云***
CN108062319A (zh) * 2016-11-08 2018-05-22 北京国双科技有限公司 一种新主题的实时检测方法及装置
CN109213869B (zh) * 2017-06-29 2021-08-13 中国科学技术大学 基于多源数据的热点技术预测方法
CN107908616B (zh) * 2017-10-18 2022-01-28 北京京东尚科信息技术有限公司 预测趋势词的方法和装置
CN108304502B (zh) * 2018-01-17 2020-10-02 中国科学院自动化研究所 基于海量新闻数据的快速热点检测方法及***
CN108536677A (zh) * 2018-04-09 2018-09-14 北京信息科技大学 一种专利文本相似度计算方法
CN109446319A (zh) * 2018-09-29 2019-03-08 昆明理工大学 一种基于K-means的生物医药专利聚类分析方法
CN109783526A (zh) * 2018-12-28 2019-05-21 华南理工大学 一种基于专家论文大数据的研究热点分析方法
CN109902168B (zh) * 2019-01-25 2022-02-11 北京创新者信息技术有限公司 一种专利评价方法和***
CN110717016A (zh) * 2019-10-10 2020-01-21 华夏幸福产业投资有限公司 一种融合技术领域确定方法、装置、设备及存储介质
CN112650847B (zh) * 2019-10-11 2023-05-09 中国农业科学院农业信息研究所 一种科技研究热点主题预测方法
CN112508743B (zh) * 2020-12-18 2021-09-10 上海恒慧知识产权服务有限公司 技术转移办公室通用信息交互方法、终端及介质
CN112559531B (zh) * 2020-12-22 2023-07-25 平安银行股份有限公司 数据收集方法、装置、电子设备及存储介质
CN113239071B (zh) * 2021-07-08 2022-02-11 北京邮电大学 面向科技资源学科及研究主题信息的检索查询方法及***
CN114090753A (zh) * 2021-11-22 2022-02-25 包钢集团矿山研究院(有限责任公司) 一种检索专利和文献中关键技术的方法与***
CN116542238B (zh) * 2023-07-07 2024-03-15 和元达信息科技有限公司 一种基于小程序的事件热度趋势确定方法及***

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101055585A (zh) * 2006-04-13 2007-10-17 Lg电子株式会社 文档聚类***和方法
CN101714150A (zh) * 2009-05-31 2010-05-26 上海汉光知识产权数据科技有限公司 专利分析中技术热点与空白点的分析***及方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101055585A (zh) * 2006-04-13 2007-10-17 Lg电子株式会社 文档聚类***和方法
CN101714150A (zh) * 2009-05-31 2010-05-26 上海汉光知识产权数据科技有限公司 专利分析中技术热点与空白点的分析***及方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
"我国失效专利研究现状及热点与趋势分析";韩兵兵等;《图书情报研究》;20101231;第3卷(第3期);第33-37页 *

Also Published As

Publication number Publication date
CN103164540A (zh) 2013-06-19

Similar Documents

Publication Publication Date Title
CN103164540B (zh) 一种专利热点发现与趋势分析方法
US10410138B2 (en) System and method for automatic generation of features from datasets for use in an automated machine learning process
CN103823896B (zh) 一种学科特征值算法及基于其的项目评审专家推荐算法
CN103605665B (zh) 一种基于关键词的评审专家智能检索与推荐方法
CN104199857B (zh) 一种基于多标签分类的税务文档层次分类方法
CN103020213B (zh) 具有明显类别划分的非结构化电子文档的检索方法和***
CN104598611B (zh) 对搜索条目进行排序的方法及***
CN107193797A (zh) 中文微博的热点话题检测及趋势预测方法
CN106599181A (zh) 一种基于主题模型的新闻热点检测方法
CN106156272A (zh) 一种基于多源语义分析的信息检索方法
US10459996B2 (en) Big data based cross-domain recommendation method and apparatus
CN104834747A (zh) 基于卷积神经网络的短文本分类方法
CN105653706A (zh) 一种基于文献内容知识图谱的多层引文推荐方法
CN104636325B (zh) 一种基于极大似然估计确定文档相似度的方法
CN103310003A (zh) 一种基于点击日志的新广告点击率预测方法及***
CN106294863A (zh) 一种针对海量文本快速理解的文摘方法
CN105843796A (zh) 一种微博情感倾向分析方法及装置
CN107291895B (zh) 一种快速的层次化文档查询方法
CN105975455A (zh) 基于双向递归神经网络的信息分析***
CN106547864A (zh) 一种基于查询扩展的个性化信息检索方法
CN105389505A (zh) 基于栈式稀疏自编码器的托攻击检测方法
CN105678590A (zh) 一种面向社交网络基于云模型的topN推荐方法
Arminarahmah et al. Performance analysis and model determination for forecasting aluminum imports using the Powell-Beale algorithm
CN102156728A (zh) 一种改进的基于用户兴趣模型的个性化摘要***
Codina et al. Semantically-enhanced pre-filtering for context-aware recommender systems

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant