CN108776706A

CN108776706A - 一种基于本体的专利技术主题聚类方法

Info

Publication number: CN108776706A
Application number: CN201810610749.6A
Authority: CN
Inventors: 吕学强; 董志安
Original assignee: Beijing Information Science and Technology University
Current assignee: Beijing Information Science and Technology University
Priority date: 2018-06-13
Filing date: 2018-06-13
Publication date: 2018-11-09

Abstract

本发明涉及一种基于本体的专利技术主题聚类方法，包括：将专利技术主题中的词语与领域本体中的概念术语建立映射关系；计算概念术语之间的相似度；利用概念术语之间的相似度来计算专利技术主题之间的相似度；根据专利技术主题之间的相似度以矩阵的形式输入AP聚类算法中，输出专利技术主题聚成的若干个簇以及每个簇相对应的主题。本发明提供的基于本体的专利技术主题聚类方法，在相似度计算的基础上对抽取的关键技术主题词语进行聚类，将语义相似的词语聚成一个簇，选取最能代表该簇的词语作为簇中的技术主题，聚类结果的准确率、召回率和综合评价指标的值均较高，可以很好地满足实际应用的需要。

Description

一种基于本体的专利技术主题聚类方法

技术领域

本发明属于文本信息处理技术领域，具体涉及一种基于本体的专利技术主题聚类方法。

背景技术

知识产权是现代化生产保护和促进科技进步的重要手段。在全球化的背景下，知识产权的竞争决定着未来国际市场的竞争。知识产权代表了国家和企业的技术地位和核心竞争力。专利文献作为知识产权的重要载体，其蕴含着大量的技术、商业和法律方面的信息，是一座知识挖掘的富矿。在国际竞争日益激烈的今天，各个国家和地区不断加快信息化、智能化社会的步伐，因此衡量一个国家和地区知识产权指标的意义日益凸显。

专利信息具有重要的科技和经济参考价值，根据世界知识产权统计，专利中蕴含了90％以上的发明成果，科学有效地挖掘和利用专利信息，能够缩短60％以上的研发时间，节省40％的研发经费。专利文献是国家和企业获取和挖掘技术、商业和法律知识的重要优质信息源之一。将专利挖掘和专利分析技术有机地结合起来，符合专利资源信息化的总体趋势，能为国家的知识产权战略提供应对方案，充分发挥专利制度在我国经济、贸易中的促进作用。可以说，技术挖掘与技术分析相结合是促进我国经济和科技协调发展，确保创新型国家顺利实现的重要保证。然而当创新活动不断发展，专利信息数量也在不断地增加，信息过载问题变得更加严重。企业面对海量繁杂的专利信息，无法及时找到合适的专利发展及应对战略，更无法对相应领域的专利趋势做出预测和判断。可见，对海量的专利信息做出精准地分析，具有重要的经济和社会意义。专利信息分析是专利信息工作和情报信息工作的结合，目前流行的专利信息分析方法有：定性分析法、定量分析法、拟定量分析法、图表分析法等。专利技术功效矩阵是专利图表分析和专利拟定量分析方法结合，能够分析专利文献中技术手段和功效之间的关系，能够较为直观地反映相应领域的发展状况，专利技术主题抽取是专利技术功效矩阵分析的前提，专利技术主题是专利文献揭露的技术内容的核心，对其进行分析，可以获得技术主题的演变过程、预测技术发展趋势和发现新兴技术主题等。然而在专利技术功效矩阵构建的过程中，如果把抽取出来的关键技术直接拿来构建技术功效矩阵，容易造成矩阵维度大、数据稀疏的问题。因此，需要对抽取出来的技术主题进行聚类操作，在词聚类方面，现有技术存在的缺陷有：基于词形的相似度计算并不能在中文语料上取得很好的效果，因此不适用于专利中的技术主题抽取；在计算词间复杂度时，根据两个词中的字的共现程度计算词语的相似性的方法过于粗暴，没有考虑词间的语义信息。上述缺陷导致现有技术的专利技术主题聚类结果的准确率、召回率和综合评价指标的值均不高。

发明内容

针对上述现有技术中存在的问题，本发明的目的在于提供一种可避免出现上述技术缺陷的基于本体的专利技术主题聚类方法。

为了实现上述发明目的，本发明提供的技术方案如下：

一种基于本体的专利技术主题聚类方法，包括计算概念术语之间的相似度以及聚类的步骤。

进一步地，所述专利技术主题聚类方法具体包括：

步骤1)将专利技术主题中的词语与领域本体中的概念术语建立映射关系；

步骤2)计算概念术语之间的相似度；

步骤3)利用概念术语之间的相似度来计算专利技术主题之间的相似度；

步骤4)根据专利技术主题之间的相似度以矩阵的形式输入AP聚类算法中，输出专利技术主题聚成的若干个簇以及每个簇相对应的主题。

进一步地，所述步骤2)中，概念术语之间的相似度计算公式为：

Dis(c₁，c₂)是概念c₁和概念c₂的上下位相似度，dl(c₁)和dl(c₂)分别是概念c₁和概念c₂所处的层次，sp(c₁，c₂)是概念c₁和概念c₂之间的本体概念树中最短路径， Maxdl是指本体概念树的最大深度，概念树根节点是第1层，α是一个可调节参数。

进一步地，所述步骤3)的计算公式为：

技术主题w₁中含有m个树中概念术语w₁＝{c_{1_1}，c_{1_2}，...c_{1_m}}，技术主题w₂中含有n个树中的概念术语w₂＝{c_{2_1}，c_{2_2}，...c_{2_n}}；c_{1_i}表示技术主题w₁中的第i个概念术语，c_{2_(j→i)}表示技术主题w₂中与c_1li相似度最大的概念术语，R(w₁，c_{1_i})表示c_{1_i}在 w₁中的位置，μ为调节因子。

进一步地，所述步骤4)包括：

步骤(1)输入N个技术主题词的相似度矩阵S_n×n，其中对角线上的数据是经过处理的预设参数p；

步骤(2)初始化矩阵，A_n×n＝0；

步骤(3)迭代执行步骤(3.1)-步骤(3.3)直到所有簇的中心点保持不变或者已经达到迭代最大次数；

步骤(3.1)更新R矩阵的每一个值r(i，k)：

r(i，k)＝s(i，k)-max{a(i，k′)+s(i，k′)}；

步骤(3.2)更新A矩阵的每一个值a(i，k)：

步骤(3.3)对于任意一个点i，使得r(i，k)+a(i，k)最大的点k即为点i的簇点；

步骤(4)每一个技术主题都找到其聚类簇点，具有相同簇的技术主题即为聚类结果的一个簇，返回所有的簇以及对应簇的主题。

进一步地，在AP聚类算法中，将数据点间的相似度矩阵作为输入，令S是样本数据点之间的相似度矩阵，S(i，j)＞S(i，k)表示i与j的相似性程度要大于i与 k之间的相似性；AP聚类算法根据矩阵中对角线上的值来判断数据点能否成为一个聚类中心，对于每一个数据点，S(k，k)越大，表明该数据点成为聚类簇中心的可能性越大，把对角线上的值称为参考度P；P的大小影响AP算法的聚类个数，初始时，当每个数据点成为簇中心的可能性相同时，矩阵对角线上的值取相同值，若不同的数据点成为聚类簇中心的大小不一，那么取不同的P值。

进一步地，在AP聚类算法中，开始时，初始化A矩阵为0，那么R矩阵为：

r(i，k)＝s(i，k)-max{a(i，k′)+s(i，k′)} (k′≠k) ；

R消息更新完后，更新A消息：

通过A消息和R消息来确定聚类中心，对于样本i来说，令r(i，k)+a(i，k)最大的k样本即为聚类中心点；当迭代次数超过设定值或者r(i，k)+a(i，k)值的改变小于某个阈值时，算法更新停止。

进一步地，AP聚类算法在信息更新时引入了衰减系数λ∈[0，1]来避免数值震荡情况出现，当每条信息被设置为它上次迭代的值的λ倍加上本次信息更新值的λ-1倍，即第t+1次迭代时，r(i，k)和a(i，k)的值分别为：

r_t+1(i，k)＝(1-λ)r_t+1(i，k)+λr_t(i，k) ；

a_t+1(i，k)＝(1-λ)a_t+1(i，k)+λa_t(i，k) 。

本发明提供的基于本体的专利技术主题聚类方法，基于领域本体的语义相似度计算方法，在相似度计算的基础上对抽取的关键技术主题词语进行聚类，将语义相似的词语聚成一个簇，选取最能代表该簇的词语作为簇中的技术主题，聚类结果的准确率、召回率和综合评价指标的值均较高，可以很好地满足实际应用的需要。

附图说明

图1为概念树状结构图；

图2为AP聚类算法中数据点间的消息传递示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，下面结合附图和具体实施例对本发明做进一步说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

一种基于本体的专利技术主题聚类方法，基于领域本体的语义相似度计算方法，在相似度计算的基础上对抽取的关键技术主题词语进行聚类，将语义相似的词语聚成一个簇，选取最能代表该簇的词语作为簇中的技术主题。

本体的定义为：本体是对概念化(即通常所称的概念模型)的确定规范说明。本体可以形式化的表示为O：＝{C，R，H^C，Rel，A^O}。其中，C(Concept)是本体中概念的集合；R(Relation)表示关系集合，其中概念集合C和关系集合R没有交集；H^C(Hierarchy)表示概念间的分类关系(Taxonomy Relation)，Rel表示概念间的非分类关系(Non-TaxonomyRelation)即除了分类关系之外的所有关系；A^O(Axiom)表示本体中的公理集合。

语义相似度衡量了两个词语在句子表达上的距离关系，其数值范围是0到 1之间。一个技术主题中可以蕴含多个概念术语，这些概念术语在本体中具有上下位关系，本发明将技术主题间语义相似度的计算转化为概念间的相似度计算问题，利用概念在领域本体中概念之间的上下位关系来辅助计算技术主题词语之间的语义相似度。

本体中具有上下位关系的概念可以转化为一种树状结构，树中结点代表概念，两个结点之间的边代表概念之间符合上下位关系。其中父节点是子节点的上位概念，子节点是父节点的下位概念。概念树状结构如图1所示。

通过分析本体概念结构发现，影响概念间语义相似度计算的因素有以下两种：

(1)语义距离。概念术语间的语义距离越近，代表术语间的语义相似度越高。这里的语义距离是指在树状结构中连接两个概念的最短路径。

(2)概念层次。越靠近树状结构底层的概念术语描述信息越具体，越靠近根节点的概念术语描述信息越抽象。两个概念相差的层次越少相似度越高，反之则越低。对于两个距离相同的概念来说，其相似度随着它们所处层次和的增加而增加，随着它们层次差的增加而减少。

为了合理地利用概念的这种组织结构，定义如下公式来计算概念之间相似度：

其中Dis(c₁，c₂)是概念c₁和概念c₂的上下位相似度，dl(c₁)和dl(c₂)分别是概念c₁和概念c₂所处的层次，sp(c₁，c₂)是概念c₁和概念c₂之间的本体概念树中最短路径，Maxdl是指本体概念树的最大深度，概念树根节点是第1层，α是一个可调节参数，一般大于0，用于方便结果归一化处理。

对于专利中的技术主题间的相似度计算问题，首先要先将技术主题中的词语与树中的概念术语建立映射关系，设技术主题w₁中含有m个树中概念术语w₁＝{c_{1_1}，c_{1_2}，...c_{1_m}}，技术主题w₂中含有n个树中的概念术语w₂＝{c_{2_1}，c_{2_2}，...c_{2_n}}。则w₁和w₂的相似度计算公式定义如下：

公式(2)中，c_{1_i}表示技术主题w₁中的第i个概念术语，c_{2_(j→i)}表示技术主题 w₂中与c_{1_i}相似度最大的概念术语，R(w₁，c_{1_i})表示c_{1_i}在w₁中的位置，μ为调节因子。

AP聚类算法不需要事先定义聚类的个数，在迭代的过程中，通过不断搜索和计算，实现聚类中心点的自动识别。算法开始时把所有的样本数据点作为聚类中心，通过样本点间的“信息传递”来实现聚类过程。

AP算法将数据点间的相似度矩阵作为输入，令S是样本数据点之间的相似度矩阵，当S(i，j)＞S(i，k)表示i与j的相似性程度要大于i与k之间的相似性。算法根据矩阵中对角线上的值来判断数据点能否成为一个聚类中心，对于每一个数据点，S(k，k)越大，表明该数据点成为聚类簇中心的可能性越大，一般把对角线上的值称为参考度P。P的大小影响AP算法的聚类个数，初始时，当每个数据点成为簇中心的可能性相同时，那么矩阵对角线上的值可以取相同值，若不同的数据点成为聚类簇中心的大小不一，那么可以取不同的P值。

AP算法中定义了代表矩阵[r(i，k)](responsibility)和适选矩阵 [a(i，k)](availability)来表示数据点间的消息传递，消息传递过程如图2所示，其中r(i，k)是从数据点i指向数据点k，它表示数据点k能够作为i的聚类中心的累积程度，r(i，k)消息的大小表明了i与候选聚类中心点k的一个亲和程度，值越大，亲和度越强，表明i成为k簇内的数据点的可能性越强；a(i，k)是从数据点k 指向数据点i，它表示i选择k作为聚类中心的累积程度，a(i，k)消息的大小表明 k成为数据点聚类中心的可能性，该值越大，表明k越能够成为数据点聚类中心的可能性越大。AP算法不断地迭代更新r(i，k)和a(i，k)，当迭代次数超过设定值或者r(i，k)+a(i，k)值的改变小于某个设定阈值时，算法结束。

算法开始时，初始化A矩阵为0，那么R矩阵为：

r(i，k)＝s(i，k)-max{a(i，k′)+s(i，k′)} (k′≠k) (3)

R消息更新完后，更新A消息：

在算法的执行过程中，可以通过A消息和R消息来确定聚类中心，对于样本i来说，令r(i，k)+a(i，k)最大的k样本即为聚类中心点。当迭代次数超过设定值或者r(i，k)+a(i，k)值的改变小于某个阈值时，算法更新停止。AP算法在信息更新时引入了衰减系数λ∈[0，1]来避免数值震荡情况出现，当每条信息被设置为它上次迭代的值的λ倍加上本次信息更新值的λ-1倍，即第t+1次迭代时，r(i，k)和 a(i，k)的值分别为：

r_t+1(i，k)＝(1-λ)r_t+1(i，k)+λr_t(i，k) (5)；

a_t+1(i，k)＝(1-λ)a_t+1(i，k)+λa_t(i，k) (6)；

t代表迭代次数。

根据词间相似度的计算方法，计算每个关键技术主题与其他关键技术主题的相似度距离，构成相似矩阵，并结合技术主题的分布特点调整技术主题的自相似度，将相似度矩阵作为AP聚类算法的输入，输出为技术主题聚成的若干个簇以及每个簇相对应的主题。具体的实现执行过程如下：

输入：N个技术主题词的相似度矩阵S_n×n，其中对角线上的数据是经过处理的预设参数p。

输出：由N个技术主题词划分成的若干个簇以及每个簇的主题。

执行步骤：

1、初始化矩阵，A_n×n＝0；

2、迭代执行2.1-2.3直到所有簇的中心点保持不变或者已经达到迭代最大次数；

2.1、更新R矩阵的每一个值r(i，k)：

r(i，k)＝s(i，k)-max{a(i，k′)+s(i，k′)}

2.2、更新A矩阵的每一个值a(i，k)：

2.3、对于任意一个点i，使得r(i，k)+a(i，k)最大的点k即为点i的簇点；

3、每一个技术主题都找到其聚类簇点，具有相同簇的技术主题即为聚类结果的一个簇，返回所有的簇以及对应簇的主题。

本实施例采用的本体为新能源汽车领域的专利领域本体，该本体中主要包括领域中的概念集合，概念之间的语义关系集合以及公理集合。其中，概念之间的语义关系主要是概念之间的上下位关系，上下位关系是概念间分类关系中最典型的一种，通过上下位关系可以识别概念之间的语义层次关系。

本实施例通过将领域本体中术语概念和概念之间的关系转化为树状结构，利用技术主题中术语的相似度间接计算技术主题的相似度。将经过处理的相似度以矩阵的形式输入到AP聚类算法中，进行迭代更新，最终输出聚类结果。

在AP算法中，迭代次数和聚类个数受参考度P和阻尼系数λ影响，参考度 P为输入相似度矩阵的自相似度，即矩阵中对角线上的值，一般情况下所有的自相似度都为1，即表示所有数据点成为聚类中心的可能性相等，在本实验中，考虑到出现在专利标题中的技术主题更能体现专利的主题性和领域性，因此在参考度设置时，加大在专利标题中出现的技术主题的自相似度值，使得在算法迭代中，这些技术主题成为聚类簇的中心的可能性变大。阻尼系数λ为算法迭代中的调节因子，能够调节迭代次数和数据稳定幅度，当设定阻尼系数为0.8、迭代次数为33次时，数据震荡幅度相对稳定，得到的聚类结果最佳。本实施例中定义μ的值为0.35。

本实施例中提出了基于本体概念语义相似度的技术主题词聚类算法，将新能源汽车领域本体中概念及概念关系以概念树结构组织起来，利用技术主题中术语在概念树中的层次及距离计算技术主题之间的相似度，将技术主题之间的相似度组织成相似度矩阵的形式，并调整矩阵中技术主题的自相似度值，将经过处理的相似度矩阵输入到AP聚类算法中，算法在迭代过程中通过消息传递，最终得到最佳的聚类结果，并输出聚类结果中每个簇的技术主题集合及相应的技术主题代表。

以上所述实施例仅表达了本发明的实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种基于本体的专利技术主题聚类方法，其特征在于，包括计算概念术语之间的相似度以及聚类的步骤。

2.根据权利要求1所述的专利技术主题聚类方法，其特征在于，所述专利技术主题聚类方法具体包括：

步骤2)计算概念术语之间的相似度；

3.根据权利要求1-2所述的专利技术主题聚类方法，其特征在于，所述步骤2)中，概念术语之间的相似度计算公式为：

Dis(c₁，c₂)是概念c₁和概念c₂的上下位相似度，dl(c₁)和dl(c₂)分别是概念c₁和概念c₂所处的层次，sp(c₁，c₂)是概念c₁和概念c₂之间的本体概念树中最短路径，Maxdl是指本体概念树的最大深度，概念树根节点是第1层，α是一个可调节参数。

4.根据权利要求1-3所述的专利技术主题聚类方法，其特征在于，所述步骤3)的计算公式为：

技术主题w₁中含有m个树中概念术语w₁＝{c_{1_1}，c_{1_2}，...c_{1_m}}，技术主题w₂中含有n个树中的概念术语w₂＝{c_{2_1}，c_{2_2}，...c_{2_n}}；c_{1_i}表示技术主题w₁中的第i个概念术语，c_{2_(j→i)}表示技术主题w₂中与c_{1_i}相似度最大的概念术语，R(w₁，c_{1_i})表示c_{1_i}在w₁中的位置，μ为调节因子。

5.根据权利要求1-4所述的专利技术主题聚类方法，其特征在于，所述步骤4)包括：

步骤(2)初始化矩阵，A_n×n＝0；

步骤(3.1)更新R矩阵的每一个值r(i，k)：

r(i，k)＝s(i，k)-max{a(i，k′)+s(i，k′)}；

步骤(3.2)更新A矩阵的每一个值a(i，k)：

6.根据权利要求1-5所述的专利技术主题聚类方法，其特征在于，在AP聚类算法中，将数据点间的相似度矩阵作为输入，令S是样本数据点之间的相似度矩阵，S(i，j)＞S(i，k)表示i与j的相似性程度要大于i与k之间的相似性；AP聚类算法根据矩阵中对角线上的值来判断数据点能否成为一个聚类中心，对于每一个数据点，S(k，k)越大，表明该数据点成为聚类簇中心的可能性越大，把对角线上的值称为参考度P；P的大小影响AP算法的聚类个数，初始时，当每个数据点成为簇中心的可能性相同时，矩阵对角线上的值取相同值，若不同的数据点成为聚类簇中心的大小不一，那么取不同的P值。

7.根据权利要求1-6所述的专利技术主题聚类方法，其特征在于，在AP聚类算法中，开始时，初始化A矩阵为0，那么R矩阵为：

r(i，k)＝s(i，k)-max{a(i，k′)+s(i，k′)}(k′≠k)；

R消息更新完后，更新A消息：

8.根据权利要求1-7所述的专利技术主题聚类方法，其特征在于，AP聚类算法在信息更新时引入了衰减系数λ∈[0，1]来避免数值震荡情况出现，当每条信息被设置为它上次迭代的值的λ倍加上本次信息更新值的λ-1倍，即第t+1次迭代时，r(i，k)和a(i，k)的值分别为：

r_t+1(i，k)＝(1-λ)r_t+1(i，k)+λr_t(i，k)；

a_t+1(i，k)＝(1-λ)a_t+1(i，k)+λa_t(i，k)。