CN103164540B

CN103164540B - 一种专利热点发现与趋势分析方法

Info

Publication number: CN103164540B
Application number: CN201310129380.4A
Authority: CN
Inventors: 彭智勇; 陈旭; 万鹏
Original assignee: Wuhan University WHU
Current assignee: Wuhan University WHU
Priority date: 2013-04-15
Filing date: 2013-04-15
Publication date: 2016-08-17
Anticipated expiration: 2033-04-15
Also published as: CN103164540A

Abstract

本发明公开了一种专利热点发现与趋势分析方法。在专利热点发现过程中，首先，进行分词，并计算专利文档之间的相似度，根据相似度进行聚类。然后，对每个簇中的短语进行合并，使结果更加简洁、直观。接着，通过热点计算方法发现热点技术，并分析每项热点技术的热点程度。最后，根据历史数据进行曲线拟合，借助Logistic回归曲线判断某项技术当前所处的技术生命周期，从而分析该技术的发展状况及潜在的研究价值。同时，对热点技术进行有效的趋势分析，给出这项技术未来的发展趋势。本方法能从大量珍贵的专利数据中挖掘出有效的信息情报，具有广泛的实用性和较高的市场价值。

Description

一种专利热点发现与趋势分析方法

技术领域

本发明涉及一种专利热点发现与趋势分析方法，尤其是涉及一种从专利集合中发现热点技术并对热点技术进行趋势分析的方法。

背景技术

专利文献涉及所有技术领域最新、最活跃的创新技术信息。专利文献的报导比其他文献早1-3年，而且一项新技术的诞生到推广应用有个过程，存在一个“时间差”，少则几个月，多则几十年。因此从专利文献中可以了解科技发展的最新动态。

研究显示：利用专利文献指导技术创新，可以有效节约40％的研究经费和60％的研究时间。欧洲专利局的一项研究结果表明，在十几个欧洲专利条约成员国中，在应用技术的研究开发中，由于利用了专利文献指导技术创新，每年可节约300亿马克的研究开发经费。

迄今，全球已有超过8500万件专利，且全世界现每年新增100多万件专利文献。

面对如此海量珍贵的专利数据，如何从中挖掘出有效的信息情报是目前工业界关注的热点。

对于专利审查员来说，他可能需要了解：竞争对手的研究重点和技术优势是什么；哪些技术现在被广泛研究；如果要做某个主题的研究，需要重点掌握哪些技术，应当遵循怎样的技术路线；某项技术的研究价值是高还是低。

目前对市场的需求分析和技术预测主要依靠专家智慧，如采用专家调查法、德尔菲法等。采用这样的方法能集合行业/领域专家的智慧，具有较强的实用性、科学性，但同时它也不可避免地存在一些缺陷：

(1)定性分析为主，定量分析较少；

(2)缺少对于技术本身发展和创新的考虑；

(3)该过程耗时、耗力、成本高昂。

目前被广泛使用的专利数据服务平台，如Soopat、51Patent、CNIPR等，它们所提供的服务限于基于专利外部特征项的一些分类、检索、统计等功能，而对于专利的热点发现研究，目前还处于起步阶段。

发明内容

本发明基于以上的技术背景，提出了一种专利热点发现和趋势分析方法，能够从一堆专利文档集合中挖掘出研究主题和各个主题下所重点关注的技术，并能对每项技术的发展趋势做出有效的预测。

本发明的技术方案包含如下步骤：一种专利热点发现与趋势分析方法，其特征在于，包括以下步骤：

步骤1：专利文档采集，构建专利文档集合；

步骤2：将所述的专利文档向量化；

步骤3：根据所述专利文档向量化后的空间向量表示，计算所述的专利文档中两两专利文档之间的相似度；

步骤4：根据所述的专利文档之间的相似度对所述的专利文档集合进行聚类分析，形成专利文档簇；

步骤5：对所述的每个专利文档簇进行主题命名；

步骤6：通过热点计算方法对所述的每个主题进行技术研究热点分析；

步骤7：对所述的每个技术研究热点进行趋势分析，分析所述的技术所处的生命周期阶段，并对所述的技术的发展趋势做出预测。

作为优选，所述的步骤2中将所述的专利文档向量化，具体实现方法为：

定义所述的专利文档的集合为D＝{d₁,d₂,…,d_n}，对于所述的专利文档集合D＝{d₁,d₂,…,d_n}中的任意一条专利d_i，利用一组关键词的空间向量来表示。其过程为，首先采用现有的分词***对所述的所有专利文档进行中文分词，得到词项；然后根据自定义或公用的停用词词库去除所述的专利文档中的停用词词项，其中停用词词项为没有实际含义的功能词词项；接着对于移除停用词词项后的词项，计算每个词项在所述的专利文档中的权重，其计算公式为：

w (t_{j}, d_{i}) = \frac{t f (t_{j}, d_{i}) \times l o g (N / n_{t_{j}} + 0.01)}{\sqrt{Σ_{t_{j} &Element; D} {[t f (t_{j}, d_{i}) \times 1 o g (N / n_{t_{j}}) + 0.01]}^{2}}}

其中，1≤i≤n，d_i表示第个i专利的文档内容；

其中，w(t_j,d_i)为词项t_j在专利文档d_i中的权重，也记作w_ij。而tf(t_j,d_i)为词项t_j在专利文档d_i中的词频，N为专利文档集合D中专利的总数，N＝n，为专利文档集合D出现词项t_j的专利文档数，分母

\sqrt{Σ_{t_{j} &Element; D} {[t f (t_{j}, d_{i}) \times l o g (N / n_{t_{j}}) + 0.01]}^{2}}

为归一化因子；

最后，将所述的词项向量化，表示为用所述的各个词项对应的空间向量表示每一篇所述的专利文档，其中w_ij为词项t_j在专利文档d_i中的权重。

作为优选，所述的步骤3中计算所述的专利文档中两两专利文档之间的相似度，包括以下步骤：

步骤3.1：对所述的任意两条专利文档d_i和d_j，使用其对应的向量之间的夹角余弦来度量两者的相似度，其公式为：

{sim}_{0} (d_{i}, d_{j}) = \frac{Σ_{k = 1}^{n} w_{k} (d_{i}) \times w_{k} (d_{j})}{\sqrt{(Σ_{k = 1}^{n} w_{k}^{2} (d_{i})) \times (Σ_{k = 1}^{n} w_{k}^{2} (d_{j}))}} * α

其中w_k(d_i)为第k个词项在文档d_i中的权重，w_k(d_j)为第k个词项在文档d_j中的权重，α为所述的专利文档内容相似度在所述的相似度计算中所占的权重因子；

步骤3.2：计算所述的专利文档的国际专利分类号ipc相似度：

{sim}_{1} (d_{i}, d_{j}) = \frac{l e n g t h (i p c (d_{i}) \cap i p c (d_{j}))}{m a x (l e n g t h (i p c (d_{i}), l e n g t h (i p c (d_{j}))))} * β

其中β为ipc在相似度计算中所占的权重因子,ipc(d_i)为专利文档i的ipc，ipc(d_j)为专利文档j的ipc，length(ipc)为ipc所占的字符长度；

步骤3.3：计算所述的专利文档的专利引用reference相似度计算公式如下：

sim₂(d_i,d_j)＝n_ref(d_i,d_j)*δ₁+n_refed(d_i,d_j)*δ₂

其中，n_ref(d_i,d_j)表示专利文档i，j同时引用了其他专利文献的次数，n_refed(d_i,d_j)表示专利i，j同时被其他文献引用的次数，δ₁为同时引用其他专利的影响因子，δ₂为同时被其他专利引用的影响因子；

步骤3.4：计算所述的专利文档中两两专利文档之间的相似度为：

sim(d_i,d_j)＝sim₀(d_i,d_j)+sim₁(d_i,d_j)+sim₂(d_i,d_j)。

作为优选，所述的步骤4中根据所述的专利文档之间的相似度对所述的专利文档集合进行聚类分析，形成专利文档簇，具体实现方法为：

根据所述的专利文档之间的相似度，使用K-means聚类算法进行所述的专利文档聚类。聚类后，得到的是一个一个的簇，每个簇由若干相似度较大的专利文档组成，同时每个簇由所述的专利文档所包含的一组关键词短语来表示，定义簇C＝{T₁,T₂,…,T_m}，其中T_i为簇C中包含的第i个短语，且1≤i≤m。

作为优选，步骤5中所述的对所述的每个专利文档簇进行主题命名，包括以下步骤：

步骤5.1：寻找候选短语集合，具体实现方法如下：

对于簇C_i中所包含的短语集合M＝{T₁,T₂,…,T_n}，如果frq(T_j，C_i)/docs(C_i)>ξ，那么将短语T_j作为候选短语；

其中1≤j≤n，frq(T_j，C_i)为短语T_j在簇C_i中出现的频率，docs(C_i)为簇C_i中包含的专利文档总数，ξ为定义的阀值；

步骤5.2：同类短语合并，具体实现方法如下：

如果T₁∩T₂∩…∩T_n＝T_s,那么(T₁,T₂,…,T_n)→T_s；

即如果短语T₁,T₂,…,T_n中都出现了T_s这个子短语，则将T₁,T₂,…,T_n这n个短语合并为一个短语T_s；

步骤5.3：寻找最小覆盖集，具体实现方法如下：

\frac{P (T_{i} \cap T_{j})}{P (T_{i} \cup T_{j})} > δ

其中，P(T_i∩T_j)表示同时包含T_i、T_j这两个词的文档数，P(T_i∪T_j)表示包含T_i或T_j中的任意一个词的文档数。如果T_i、T_j两个词同时出现在同一篇专利文档中的次数与这两个词在所有文档集合中出现的次数的比值大于某个阀值δ，那么T_i、T_j两个词中任意去掉一个，不会太影响簇的召回率；

经过主题命名后，原始簇C_i所包含的短语集合M＝{T₁,T₂,…,T_n}被精简为M＝{T_i,T_j,…,T_k}，其中1≤i<j<…<k≤n。

作为优选，步骤6中通过热点计算方法对所述的每个主题进行技术研究热点分析，具体实现方法为：通过对专利技术热点的特征分析和量化，对所述的专利技术热点进行判断，其热度衡量公式为：

如果：freq(T_i)＞δ₁and app(T_i)＞δ₂and

\frac{Σ_{t = t_{0}}^{t_{1}} e^{\frac{1}{t_{1} + 1 - t}} * f r e q (t) - Σ_{t = t_{0}}^{t_{1}} f r e q (t)}{Σ_{t = t_{0}}^{t_{1}} f r e q (t)} > δ_{3},

那么h(T_i)＝1，否则h(T_i)＝0；

其中T_i为技术短语i，freq(T_i)为短语T_i出现的频率，app(T_i)为专利申请中包含技术短语T_i的专利申请人数目，freq(t)为第t年总的词频数，δ₁、δ₂、δ₃为预先设置的三个阀值。h(T_i)＝1表明技术短语T_i是一个热点技术；h(T_i)＝0表明技术短语T_i不是热点技术。作为热点技术短语，其热度的计算公式为：

h o t s p o t (T_{i}) = (1 + l n \frac{f r e q (T_{i})}{δ_{1}}) * (1 + l n \frac{a p p (T_{i})}{δ_{2}}) * \frac{Σ_{t = t_{0}}^{t_{1}} e^{\frac{1}{t_{1} + 1 - t}} * f r e q (t) - Σ_{t = t_{0}}^{t_{1}} f r e q (t)}{Σ_{t = t_{0}}^{t_{1}} f r e t q (t)} .

作为优选，步骤7中对所述的每个技术研究热点进行趋势分析，分析所述的技术所处的生命周期阶段，并对所述的技术的发展趋势做出预测，包括以下步骤：

步骤7.1：根据所述的每个技术研究热点中的某个热点技术短语所出现的情况，得到该项技术申请在不同年份的申请数量；

T_i→(y₁,n₁)，(y₂,n₂)，(y₃,n₃)，……，(y_k,n_k)

其中，(y_i,n_i)表示在第y_i年申请的专利数量为n_i条；

步骤7.2：根据历史数据进行Logistic曲线拟合，找到一条满项该项技术申请分布情况的Logistic曲线；

Logistic曲线为：

Y_{t} = \frac{K}{1 + e^{- a (t - b)}}

所述的Logistic曲线拟合的包括如下步骤：

首先，进行如下变换：

y_{t} = l n (\frac{Y_{t}}{K - Y_{t}}) = - a b + a t,

令

{\hat{y}}_{t} = a^{'} + b^{'} t,

得到a＝b′and

然后根据历史数据，使用最小二乘法计算a′、b′的值：

y_i＝b′·x_i+a′；

b^{'} = \frac{n \cdot {Σx}_{i} y_{j} - {Σx}_{i} \cdot {Σy}_{j}}{n \cdot {Σx}_{i}^{2} - {({Σx}_{i})}^{2}};

a^{'} = \frac{{Σy}_{j}}{n} - b^{'} \cdot \frac{{Σx}_{i}}{n};

其中，x_i，y_j为历史数据，x_i为第(x₀+i)年，y_i为在x_i年申请的专利数目，n为历史数据的总条数，得到a′和b′后，根据a＝b′和b＝-a′/b′计算出a和b的值；

步骤7.3：通过拟合得到的曲线，对现有技术进行技术发展状况分析和趋势预测。具体实现方法如下：

通过Logistic曲线生长过程速度函数的一阶和二阶导数，可以得到Logistic曲线增长或生长过程的始盛期、高峰期、盛末期分别为：

period＝渐增期，if(t≥0 and)；

period＝快增期，if(

t > \frac{\ln a - 1.317}{b}

and

t \leq \frac{\ln a + 1.317}{b}

)；

period＝缓增期，if

(t > \frac{\ln a + 1.317}{b});

根据所述的Logistic曲线，判断该项技术所处的技术生命周期，所述的技术生命周期包括：技术引入期、技术成长期、技术成熟期、技术饱和期，从而判断该项技术是否有继续研究的价值；

根据所述的Logistic曲线，预测该技术在多少年后会被淘汰，以及预测在未来该项技术的申请情况会是什么样，从而帮助专利审查员及时做出有利的战略决策。

本发明的技术方案创造性地提出一种专利热点发现与趋势分析方法。因此，本发明具有如下优点：

1.解决了基于文本重叠的方式计算出的相似度很低的问题，使得聚类后的簇更加紧密；

2.用尽可能简洁的词语来表示一个主题，结果更加直观；

3.能有效地发现专利文档集合中的热点技术，并能分析该项技术当前的发展状况；

4.能对热点技术未来的发展趋势做出有效的预测，帮助专利审查员进行战略决策。

附图说明

图1：为本发明的总体框架图。

图2：为发明的相似度计算的流程图。

图3：为发明的主题命名的流程图。

图4：为发明的热点计算的流程图。

图5：为发明的热点技术趋势分析的流程图。

具体实施方式

下面通过实施例，并结合附图，对本发明的技术方案作进一步具体的说明。

本发明的一种基于专利热点发现与趋势分析方法，能够从一堆专利文档集合中挖掘出研究主题和各个主题下所重点关注的技术，并能对每项技术的发展趋势做出有效的预测。其基于定义：专利文档的集合D＝{d₁,d₂,…,d_n}，对应的专利发表时间集合T＝{T₁,T₂,…,T_n}。其中，1≤i≤n，d_i表示专利i的文档内容；T_i表示专利i的申请时间。

本发明拟通过聚类的方法挖掘出专利文档集合中主要的研究对象是什么、研究的热点技术是什么。首先需要对专利文档集进行相似度计算。传统的文档相似度方法包括余弦相似度、jaccard系数、基于HowNet的相似度计算方法，本发明拟以余弦相似度为例进行专利文档的相似度计算，并结合专利文献的特点，引入一些新的因素作为专利相似度计算的指标。

请见图1-5，本发明的技术方案包含如下步骤：一种专利热点发现与趋势分析方法，包括以下步骤：

步骤1：专利文档采集，构建专利文档集合D＝{d₁,d₂,…,d_n}；

步骤2：将专利文档向量化；

对于专利文档集合D＝{d₁,d₂,…,d_n}中的任意一条专利d_i，可以用一组关键词的空间向量来表示。其过程为：

首先采用现有的分词***，如中科院分词软件NLPIR对所有的专利文档进行中文分词，得到词项；

然后根据自定义或公用的停用词词库去除所述的专利文档中的停用词词项，其中停用词词项为没有实际含义的功能词词项；接着对于移除停用词词项后的词项，计算每个词项在所述的专利文档中的权重，其计算公式为：

w (t_{j}, d_{i}) = \frac{t f (t_{j}, d_{i}) \times l o g (N / n_{t_{j}} + 0.01)}{\sqrt{Σ_{t_{j} &Element; D} {[t f (t_{j}, d_{i}) \times 1 o g (N / n_{t_{j}}) + 0.01]}^{2}}}

其中，1≤i≤n，d_i表示第个i专利的文档内容；

其中，w(t_j,d_i)为词项t_j在文本d_i中的权重，也记作w_ij，而tf(t_j,d_i)为词t_j在文本d_i中的词频，N为专利集合D中专利的总数，N＝n，为专利集合D出现词项t_j的专利文档数，分母

\sqrt{Σ_{t_{j} &Element; D} {[t f (t_{j}, d_{i}) \times l o g (N / n_{t_{j}}) + 0.01]}^{2}}

为归一化因子；

最后，用各个词项对应的空间向量表示每一篇专利文档，表示为其中w_ij为词项t_j在专利文档d_i中的权重。

步骤3：根据所述专利文档向量化后的空间向量表示，计算专利文档中两两专利文档之间的相似度，包括以下步骤：

步骤3.1：对任意两条专利文档d_i和d_j，使用其对应的向量之间的夹角余弦来度量两者的相似度，其公式为：

{sim}_{0} (d_{i}, d_{j}) = \frac{Σ_{k = 1}^{n} w_{k} (d_{i}) \times w_{k} (d_{j})}{\sqrt{(Σ_{k = 1}^{n} w_{k}^{2} (d_{i})) \times (Σ_{k = 1}^{n} w_{k}^{2} (d_{j}))}} * α;

其中w_k(d_i)为第k个词项在文档d_i中的权重，w_k(d_j)为第k个词项在文档d_j中的权重，α为文本内容相似度在专利相似度计算中所占的权重因子。

步骤3.2：计算利文档的国际专利分类号ipc相似度；

由于在撰写专利时，专利申请人为了保证自己商业机密不被泄露，往往会故意掩蔽一些技术细节，这直接导致基于文本重叠的方法计算出来的专利之间的相似度非常小；

因此，除了基于专利的非结构化信息来计算专利之间的相似度，还需要借助专利本身的结构化信息来提高专利之间的关联程度，从而使聚类后的簇更加紧密。我们需要借助的结构化属性信息包括：

(1)ipc(国际专利分类号)：如果专利d_i和d_j的ipc相同或者相似，那么这两项专利所针对的技术领域也是相同或相似的，它们之间的相似程度也会越高。当然，这里还涉及到ipc相似的粒度问题。

国际专利分类***的体系结构如下：国际专利分类***按照技术主题设立类目，把整个技术领域分为5个不同等级：部、大类、小类、大组、小组。两项专利之间的ipc相似程度取决于它们在哪个技术等级上是相同的。如果它们只是按部相同，那么这两条专利ipc的相似程度就较低；反之，如果它们按部、按大类、按小类、按大组、按小组都是相同的，那么这两条专利ipc的相似程度就很高。

(2)reference(专利引用)：如果两条专利引用了其他相同的文章，且它们同时引用相同专利的次数越多，那么这两条专利的相似程度就越高；同理，如果两条专利被同一篇其他的专利所引用，且同时被引用的次数越多，那么它们的相似程度越高。

其中：两条专利的ipc相似度计算公式如下：

{sim}_{1} (d_{i}, d_{j}) = \frac{l e n g t h (i p c (d_{i}) \cap i p c (d_{j}))}{\max (l e n g t h (i p c (d_{i}), l e n g t h (i p c (d_{j}))))} * β

其中β为ipc在相似度计算中所占的权重因子,ipc(d_i)为专利i的ipc，ipc(d_j)为专利j的ipc，length(ipc)为ipc所占的字符长度；

步骤3.3：计算专利文档的专利引用reference相似度计算公式如下：

sim₂(d_i,d_j)＝n_ref(d_i,d_j)*δ₁+n_refed(d_i,d_j)*δ₂

其中，n_ref(d_i,d_j)表示专利i，j同时引用了其他专利文献的次数，n_refed(d_i,d_j)表示专利i，j同时被其他文献引用的次数，δ₁为同时引用其他专利的影响因子，δ₂为同时被其他专利引用的影响因子。

步骤3.4：计算专利文档中两两专利文档之间的相似度为：专利i、j的相似度表示为：

sim(d_i,d_j)＝sim₀(d_i,d_j)+sim₁(d_i,d_j)+sim₂(d_i,d_j)。

步骤4：根据专利文档之间的相似度对专利文档集合进行聚类分析，形成专利文档簇；

根据专利文档之间的相似度，使用K-means聚类算法进行专利文档聚类。聚类后，得到的是一个一个的簇，每个簇由若干相似度较大的专利文档组成，同时每个簇由这些专利文档所包含的一组关键词短语来表示，定义簇C＝{T₁,T₂,…,T_m}，其中T_i为簇C中包含的第i个短语，且1≤i≤m。这些处于同一个簇中的专利所针对的技术主题往往是相同或相似的。接下来，需要考虑如何用较直观的方法来表示每个簇的研究主题。

步骤5：对每个专利文档簇进行主题命名，包括以下步骤：

步骤5.1：寻找候选短语集合，具体实现方法如下：

步骤5.2：同类短语合并，具体实现方法如下：

如果T₁∩T₂∩…∩T_n＝T_s,那么(T₁,T₂,…,T_n)→T_s；

即如果短语T₁,T₂,…,T_n中都出现了T_s这个子短语，则将T₁,T₂,…,T_n这n个短语合并为一个短语T_s；如关键词组“燃料汽车”、“电动汽车”、“小型汽车”，事实上，它们的研究主题都是汽车，它们都包含“汽车”这个子短语，因此将它们合并成“汽车”；

步骤5.3：寻找最小覆盖集，具体实现方法如下：

\frac{P (T_{i} \cap T_{j})}{P (T_{i} \cup T_{j})} > δ

其中，P(T_i∩T_j)表示同时包含T_i、T_j这两个词的文档数，P(T_i∪T_j)表示包含T_i或T_j中的任意一个词的文档数。如果T_i、T_j两个词同时出现在同一篇专利文档中的次数与这两个词在所有文档集合中出现的次数的比值大于某个阀值δ，那么T_i、T_j两个词中任意去掉一个，不会太影响簇的召回率(Recall)，如“电脑”和“计算机”这两个词表示的是同一个事物，它们同时出现在同一篇专利中的概率很大，去除电脑和计算机中任意一个词不影响簇的召回率；

经过主题命名后，原始簇C_i所包含的短语集合M＝{T₁,T₂,…,T_n}被精简为M＝{T_i,T_j,…,T_k}，其中1≤i<j<…<k≤n。以更加简洁的方式来表示一个簇的研究主题，使得展示出来的效果更加直观。

步骤6：通过热点计算方法对每个主题进行技术研究热点分析；

通过对专利技术热点的特征分析和量化，得到了一个可以衡量技术热度的公式，这样可以从众多的技术中识别出哪些是热点技术。本发明对技术热点的度量来自如下几个方面：

(1)申请数量

一项技术要想成为热点，首先需要从数量上进行保证，如果有关的申请数量太少，它的受关注度太低，那么在这段时间内是不可能成为热点技术的；

(2)申请速度

一项热点技术应该具有较高的申请速度。如果一项技术的申请数目总体很多，但是分散在很长的时间段内，平均到每天的相关数目很少，那么就不能成为热点技术。例如，在1年内有2000条相关的专利申请要比在1个月内有1000条相关专利申请的热度低很多；

(3)专利权人数目

由于一项热点技术在广泛发展期间会引起很多同行的关注，所以专利权人的数量可以成为技术热度的一个指标；

所以，本发明综合专利申请数量、申请速度和专利权人的数量这三项指标对专利热度的影响，对专利技术热点进行判断，其热度衡量公式为：

提出了如下热度衡量公式：

如果：freq(T_i)＞δ₁and app(T_i)＞δ₂and

\frac{Σ_{t = t_{0}}^{t_{1}} e^{\frac{1}{t_{1} + 1 - t}} * f r e q (t) - Σ_{t = t_{0}}^{t_{1}} f r e q (t)}{Σ_{t = t_{0}}^{t_{1}} f r e q (t)} > δ_{3},

那么h(T_i)＝1，否则h(T_i)＝0；

h o t s p o t (T_{i}) = (1 + l n \frac{f r e q (T_{i})}{δ_{1}}) * (1 + l n \frac{a p p (T_{i})}{δ_{2}}) * \frac{Σ_{t = t_{0}}^{t_{1}} e^{\frac{1}{t_{1} + 1 - t}} * f r e q (t) - Σ_{t = t_{0}}^{t_{1}} f r e q (t)}{Σ_{t = t_{0}}^{t_{1}} f r e t q (t)} .

从以上公式可看出，如果一项技术的专利申请频率越高、专利申请人分布越广泛、并在一定时间范围内所增长的幅度越大，则该技术的热点程度越高。

步骤7：对每个技术研究热点进行趋势分析，分析技术所处的生命周期阶段，并对技术的发展趋势做出预测，包括以下步骤：

T_i→(y₁,n₁)，(y₂,n₂)，(y₃,n₃)，……，(y_k,n_k)

其中，(y_i,n_i)表示在第y_i年申请的专利数量为n_i条；

步骤7.2：根据历史数据进行Logistic曲线拟合，找到一条满项该项技术申请分布情况的Logistic曲线，Logistic分布是个具有较大实用价值的连续型分布；

Logistic曲线为：

Y_{t} = \frac{K}{1 + e^{- a (t - b)}}

所述的Logistic曲线拟合的包括如下步骤：

首先，进行如下变换：

y_{t} = l n (\frac{Y_{t}}{K - Y_{t}}) = - a b + a t,

令

{\hat{y}}_{t} = a^{'} + b^{'} t,

得到a＝b′and

然后根据历史数据，使用最小二乘法计算a′、b′的值：

y_i＝b′·x_i+a′；

b^{'} = \frac{n \cdot {Σx}_{i} y_{j} - {Σx}_{i} \cdot {Σy}_{j}}{n \cdot {Σx}_{i}^{2} - {({Σx}_{i})}^{2}};

a^{'} = \frac{{Σy}_{j}}{n} - b^{'} \cdot \frac{{Σx}_{i}}{n};

period＝渐增期，if(t≥0 and)；

period＝快增期，if(

t > \frac{\ln a - 1.317}{b}

and

t \leq \frac{\ln a + 1.317}{b}

)；

period＝缓增期，if

(t > \frac{\ln a + 1.317}{b});

据Logistic曲线，判断该项技术所处的技术生命周期(技术引入期、技术成长期、技术成熟期、技术饱和期)，从而判断该项技术是否有继续研究的价值；

同时，可以根据得到的Logistic曲线，预测该技术在多少年后会被淘汰，以及预测在未来该项技术的申请情况会是什么样(如在明年该项技术预计会有多少条专利申请，在后年该项技术预计会有多少条专利申请，预计会在什么时候达到技术饱和状态等等)，从而帮助专利审查员及时做出有利的战略决策。

以上所述实施例仅是为充分说明本发明而所举的较佳的实施例，本发明的保护范围不限于此。本技术领域的技术人员在本发明基础上所作的等同替代或变换，均在本发明的保护范围之内。本发明的保护范围以权利要求书为准。

Claims

1.一种专利热点发现与趋势分析方法，其特征在于，包括以下步骤：

步骤1：专利文档采集，构建专利文档集合；

步骤2：将所述的专利文档向量化；具体实现方法为：

定义所述的专利文档的集合为D＝{d₁,d₂,…,d_n}，对于所述的专利文档集合D＝{d₁,d₂,…,d_n}中的任意一条专利d_i，利用一组关键词的空间向量来表示；其过程为，首先采用现有的分词***对所述的所有专利文档进行中文分词，得到词项；然后根据自定义或公用的停用词词库去除所述的专利文档中的停用词词项，其中停用词词项为没有实际含义的功能词词项；接着对于移除停用词词项后的词项，计算每个词项在所述的专利文档中的权重，其计算公式为：

w (t_{j}, d_{i}) = \frac{t f (t_{j}, d_{i}) \times l o g (N / n_{t_{j}} + 0.01)}{\sqrt{Σ_{t_{j} &Element; D} {[t f (t_{j}, d_{i}) \times \log (N / n_{t_{j}}) + 0.01]}^{2}}}

其中，1≤i≤n，d_i表示第个i专利的文档内容；

其中，w(t_j,d_i)为词项t_j在专利文档d_i中的权重，也记作w_ij；而tf(t_j,d_i)为词项t_j在专利文档d_i中的词频，N为专利文档集合D中专利的总数，为专利文档集合D出现词项t_j的专利文档数，分母为归一化因子；

最后，将所述的词项向量化，表示为用所述的各个词项对应的空间向量表示每一篇所述的专利文档，其中w_ij为词项t_j在专利文档d_i中的权重；

步骤5：对所述的每个专利文档簇进行主题命名；

2.根据权利要求1所述的专利热点发现与趋势分析方法，其特征在于：所述的步骤3中计算所述的专利文档中两两专利文档之间的相似度，包括以下步骤：

{sim}_{0} (d_{i}, d_{j}) = \frac{Σ_{k = 1}^{n} w_{k} (d_{i}) \times w_{k} (d_{j})}{\sqrt{(Σ_{k = 1}^{n} w_{k}^{2} (d_{i})) \times (Σ_{k = 1}^{n} w_{k}^{2} (d_{j}))}} * α

步骤3.2：计算所述的专利文档的国际专利分类号ipc相似度：

{sim}_{1} (d_{i}, d_{j}) = \frac{l e n g t h (i p c (d_{i}) \cap i p c (d_{j}))}{m a x (l e n g t h (i p c (d_{i})), l e n g t h (i p c (d_{j})))} * β

其中β为ipc在相似度计算中所占的权重因子,ipc(d_i)为专利文档i的ipc，ipc(d_j)为专利文档j的ipc，ipc(d_i)∩ipc(d_j)表示第i个专利的ipc分类号和第j个专利的ipc分类号相同的部分，length(ipc)为ipc所占的字符长度；

sim₂(d_i,d_j)＝n_ref(d_i,d_j)*δ₁+n_refed(d_i,d_j)*δ₂

sim(d_i,d_j)＝sim₀(d_i,d_j)+sim₁(d_i,d_j)+sim₂(d_i,d_j)。

3.根据权利要求1所述的专利热点发现与趋势分析方法，其特征在于：所述的步骤4中根据所述的专利文档之间的相似度对所述的专利文档集合进行聚类分析，形成专利文档簇，具体实现方法为：

根据所述的专利文档之间的相似度，使用K-means聚类算法进行所述的专利文档聚类；聚类后，得到的是一个一个的簇，每个簇由若干相似度较大的专利文档组成，同时每个簇由所述的专利文档所包含的一组关键词短语来表示，定义簇C＝{T₁,T₂,…,T_m}，其中T_i为簇C中包含的第i个短语，且1≤i≤m。

4.根据权利要求1所述的专利热点发现与趋势分析方法，其特征在于：步骤5中所述的对所述的每个专利文档簇进行主题命名，包括以下步骤：

步骤5.1：寻找候选短语集合，具体实现方法如下：

步骤5.2：同类短语合并，具体实现方法如下：

如果T₁∩T₂∩…∩T_n＝T_s,那么(T₁,T₂,…,T_n)→T_s；

步骤5.3：寻找最小覆盖集，具体实现方法如下：

\frac{P (T_{i} \cap T_{j})}{P (T_{i} \cup T_{j})} > δ

其中，P(T_i∩T_j)表示同时包含T_i、T_j这两个词的文档数，P(T_i∪T_j)表示包含T_i或T_j中的任意一个词的文档数；如果T_i、T_j两个词同时出现在同一篇专利文档中的次数与这两个词在所有文档集合中出现的次数的比值大于某个阀值δ，那么T_i、T_j两个词中任意去掉一个，不会太影响簇的召回率；

5.根据权利要求1所述的专利热点发现与趋势分析方法，其特征在于：步骤6中通过热点计算方法对所述的每个主题进行技术研究热点分析，具体实现方法为：通过对专利技术热点的特征分析和量化，对所述的专利技术热点进行判断，其热度衡量公式为：

如果：

那么h(T_i)＝1，否则h(T_i)＝0；

其中，T_i为技术短语i，freq(T_i)为短语T_i出现的频率，app(T_i)为专利申请中包含技术短语T_i的专利申请人数目，freq(t)为第t年总的词频数，δ₁、δ₂、δ₃为预先设置的三个阀值；h(T_i)＝1表明技术短语T_i是一个热点技术；h(T_i)＝0表明技术短语T_i不是热点技术；作为热点技术短语，其热度的计算公式为：

h o t s p o t (T_{i}) = (1 + \ln \frac{f r e q (T_{i})}{δ_{1}}) * (1 + \ln \frac{a p p (T_{i})}{δ_{2}}) * \frac{Σ_{t = t_{0}}^{t_{1}} e^{\frac{1}{t_{1} + 1 - t}} * f r e q (t) - Σ_{t = t_{0}}^{t_{1}} f r e q (t)}{Σ_{t = t_{0}}^{t_{1}} f r e q (t)} .

6.根据权利要求1所述的专利热点发现与趋势分析方法，其特征在于：步骤7中对所述的每个技术研究热点进行趋势分析，分析所述的技术所处的生命周期阶段，并对所述的技术的发展趋势做出预测，包括以下步骤：

T_i→(y₁,n₁)，(y₂,n₂)，(y₃,n₃)，……，(y_k,n_k)

其中，(y_i,n_i)表示在第y_i年申请的专利数量为n_i条；

Logistic曲线为：

所述的Logistic曲线拟合的包括如下步骤：

首先，进行如下变换：

y_{t} = l n (\frac{Y_{t}}{K - Y_{t}}) = - a b + a t,

令

得到

然后根据历史数据，使用最小二乘法计算a′、b′的值：

y_i＝b′·x_i+a′；

b^{'} = \frac{n \cdot {Σx}_{i} y_{j} - {Σx}_{i} \cdot {Σy}_{j}}{n \cdot {Σx}_{i}^{2} - {({Σx}_{i})}^{2}};

a^{'} = \frac{{Σy}_{j}}{n} - b^{'} \cdot \frac{{Σx}_{i}}{n};

步骤7.3：通过拟合得到的曲线，对现有技术进行技术发展状况分析和趋势预测；具体实现方法如下：

period＝渐增期，

period＝快增期，

period＝缓增期，