CN108776706A - 一种基于本体的专利技术主题聚类方法 - Google Patents

一种基于本体的专利技术主题聚类方法 Download PDF

Info

Publication number
CN108776706A
CN108776706A CN201810610749.6A CN201810610749A CN108776706A CN 108776706 A CN108776706 A CN 108776706A CN 201810610749 A CN201810610749 A CN 201810610749A CN 108776706 A CN108776706 A CN 108776706A
Authority
CN
China
Prior art keywords
cluster
concept
similarity
theme
patented technology
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810610749.6A
Other languages
English (en)
Inventor
吕学强
董志安
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Information Science and Technology University
Original Assignee
Beijing Information Science and Technology University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Information Science and Technology University filed Critical Beijing Information Science and Technology University
Priority to CN201810610749.6A priority Critical patent/CN108776706A/zh
Publication of CN108776706A publication Critical patent/CN108776706A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种基于本体的专利技术主题聚类方法,包括:将专利技术主题中的词语与领域本体中的概念术语建立映射关系;计算概念术语之间的相似度;利用概念术语之间的相似度来计算专利技术主题之间的相似度;根据专利技术主题之间的相似度以矩阵的形式输入AP聚类算法中,输出专利技术主题聚成的若干个簇以及每个簇相对应的主题。本发明提供的基于本体的专利技术主题聚类方法,在相似度计算的基础上对抽取的关键技术主题词语进行聚类,将语义相似的词语聚成一个簇,选取最能代表该簇的词语作为簇中的技术主题,聚类结果的准确率、召回率和综合评价指标的值均较高,可以很好地满足实际应用的需要。

Description

一种基于本体的专利技术主题聚类方法
技术领域
本发明属于文本信息处理技术领域,具体涉及一种基于本体的专利技术主 题聚类方法。
背景技术
知识产权是现代化生产保护和促进科技进步的重要手段。在全球化的背景 下,知识产权的竞争决定着未来国际市场的竞争。知识产权代表了国家和企业 的技术地位和核心竞争力。专利文献作为知识产权的重要载体,其蕴含着大量 的技术、商业和法律方面的信息,是一座知识挖掘的富矿。在国际竞争日益激 烈的今天,各个国家和地区不断加快信息化、智能化社会的步伐,因此衡量一 个国家和地区知识产权指标的意义日益凸显。
专利信息具有重要的科技和经济参考价值,根据世界知识产权统计,专利 中蕴含了90%以上的发明成果,科学有效地挖掘和利用专利信息,能够缩短60% 以上的研发时间,节省40%的研发经费。专利文献是国家和企业获取和挖掘技 术、商业和法律知识的重要优质信息源之一。将专利挖掘和专利分析技术有机 地结合起来,符合专利资源信息化的总体趋势,能为国家的知识产权战略提供 应对方案,充分发挥专利制度在我国经济、贸易中的促进作用。可以说,技术 挖掘与技术分析相结合是促进我国经济和科技协调发展,确保创新型国家顺利 实现的重要保证。然而当创新活动不断发展,专利信息数量也在不断地增加, 信息过载问题变得更加严重。企业面对海量繁杂的专利信息,无法及时找到合 适的专利发展及应对战略,更无法对相应领域的专利趋势做出预测和判断。可 见,对海量的专利信息做出精准地分析,具有重要的经济和社会意义。专利信 息分析是专利信息工作和情报信息工作的结合,目前流行的专利信息分析方法 有:定性分析法、定量分析法、拟定量分析法、图表分析法等。专利技术功效 矩阵是专利图表分析和专利拟定量分析方法结合,能够分析专利文献中技术手 段和功效之间的关系,能够较为直观地反映相应领域的发展状况,专利技术主 题抽取是专利技术功效矩阵分析的前提,专利技术主题是专利文献揭露的技术 内容的核心,对其进行分析,可以获得技术主题的演变过程、预测技术发展趋 势和发现新兴技术主题等。然而在专利技术功效矩阵构建的过程中,如果把抽 取出来的关键技术直接拿来构建技术功效矩阵,容易造成矩阵维度大、数据稀 疏的问题。因此,需要对抽取出来的技术主题进行聚类操作,在词聚类方面, 现有技术存在的缺陷有:基于词形的相似度计算并不能在中文语料上取得很好 的效果,因此不适用于专利中的技术主题抽取;在计算词间复杂度时,根据两 个词中的字的共现程度计算词语的相似性的方法过于粗暴,没有考虑词间的语 义信息。上述缺陷导致现有技术的专利技术主题聚类结果的准确率、召回率和综合评价指标的值均不高。
发明内容
针对上述现有技术中存在的问题,本发明的目的在于提供一种可避免出现 上述技术缺陷的基于本体的专利技术主题聚类方法。
为了实现上述发明目的,本发明提供的技术方案如下:
一种基于本体的专利技术主题聚类方法,包括计算概念术语之间的相似度 以及聚类的步骤。
进一步地,所述专利技术主题聚类方法具体包括:
步骤1)将专利技术主题中的词语与领域本体中的概念术语建立映射关系;
步骤2)计算概念术语之间的相似度;
步骤3)利用概念术语之间的相似度来计算专利技术主题之间的相似度;
步骤4)根据专利技术主题之间的相似度以矩阵的形式输入AP聚类算法 中,输出专利技术主题聚成的若干个簇以及每个簇相对应的主题。
进一步地,所述步骤2)中,概念术语之间的相似度计算公式为:
Dis(c1,c2)是概念c1和概念c2的上下位相似度,dl(c1)和dl(c2)分别是概念c1和概念c2所处的层次,sp(c1,c2)是概念c1和概念c2之间的本体概念树中最短路径, Maxdl是指本体概念树的最大深度,概念树根节点是第1层,α是一个可调节参 数。
进一步地,所述步骤3)的计算公式为:
技术主题w1中含有m个树中概念术语w1={c1_1,c1_2,...c1_m},技术主题w2中含 有n个树中的概念术语w2={c2_1,c2_2,...c2_n};c1_i表示技术主题w1中的第i个概念 术语,c2_(j→i)表示技术主题w2中与c1li相似度最大的概念术语,R(w1,c1_i)表示c1_i在 w1中的位置,μ为调节因子。
进一步地,所述步骤4)包括:
步骤(1)输入N个技术主题词的相似度矩阵Sn×n,其中对角线上的数据 是经过处理的预设参数p;
步骤(2)初始化矩阵,An×n=0;
步骤(3)迭代执行步骤(3.1)-步骤(3.3)直到所有簇的中心点保持不变 或者已经达到迭代最大次数;
步骤(3.1)更新R矩阵的每一个值r(i,k):
r(i,k)=s(i,k)-max{a(i,k′)+s(i,k′)};
步骤(3.2)更新A矩阵的每一个值a(i,k):
步骤(3.3)对于任意一个点i,使得r(i,k)+a(i,k)最大的点k即为点i的簇 点;
步骤(4)每一个技术主题都找到其聚类簇点,具有相同簇的技术主题即为 聚类结果的一个簇,返回所有的簇以及对应簇的主题。
进一步地,在AP聚类算法中,将数据点间的相似度矩阵作为输入,令S是 样本数据点之间的相似度矩阵,S(i,j)>S(i,k)表示i与j的相似性程度要大于i与 k之间的相似性;AP聚类算法根据矩阵中对角线上的值来判断数据点能否成为 一个聚类中心,对于每一个数据点,S(k,k)越大,表明该数据点成为聚类簇中 心的可能性越大,把对角线上的值称为参考度P;P的大小影响AP算法的聚 类个数,初始时,当每个数据点成为簇中心的可能性相同时,矩阵对角线上的 值取相同值,若不同的数据点成为聚类簇中心的大小不一,那么取不同的P值。
进一步地,在AP聚类算法中,开始时,初始化A矩阵为0,那么R矩阵 为:
r(i,k)=s(i,k)-max{a(i,k′)+s(i,k′)} (k′≠k) ;
R消息更新完后,更新A消息:
通过A消息和R消息来确定聚类中心,对于样本i来说,令r(i,k)+a(i,k)最大 的k样本即为聚类中心点;当迭代次数超过设定值或者r(i,k)+a(i,k)值的改变小 于某个阈值时,算法更新停止。
进一步地,AP聚类算法在信息更新时引入了衰减系数λ∈[0,1]来避免数值 震荡情况出现,当每条信息被设置为它上次迭代的值的λ倍加上本次信息更新 值的λ-1倍,即第t+1次迭代时,r(i,k)和a(i,k)的值分别为:
rt+1(i,k)=(1-λ)rt+1(i,k)+λrt(i,k) ;
at+1(i,k)=(1-λ)at+1(i,k)+λat(i,k) 。
本发明提供的基于本体的专利技术主题聚类方法,基于领域本体的语义相 似度计算方法,在相似度计算的基础上对抽取的关键技术主题词语进行聚类, 将语义相似的词语聚成一个簇,选取最能代表该簇的词语作为簇中的技术主题, 聚类结果的准确率、召回率和综合评价指标的值均较高,可以很好地满足实际 应用的需要。
附图说明
图1为概念树状结构图;
图2为AP聚类算法中数据点间的消息传递示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,下面结合附图和具 体实施例对本发明做进一步说明。应当理解,此处所描述的具体实施例仅用以 解释本发明,并不用于限定本发明。基于本发明中的实施例,本领域普通技术 人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保 护的范围。
一种基于本体的专利技术主题聚类方法,基于领域本体的语义相似度计算 方法,在相似度计算的基础上对抽取的关键技术主题词语进行聚类,将语义相 似的词语聚成一个簇,选取最能代表该簇的词语作为簇中的技术主题。
本体的定义为:本体是对概念化(即通常所称的概念模型)的确定规范说 明。本体可以形式化的表示为O:={C,R,HC,Rel,AO}。其中,C(Concept)是本体中 概念的集合;R(Relation)表示关系集合,其中概念集合C和关系集合R没有 交集;HC(Hierarchy)表示概念间的分类关系(Taxonomy Relation),Rel表示 概念间的非分类关系(Non-TaxonomyRelation)即除了分类关系之外的所有关 系;AO(Axiom)表示本体中的公理集合。
语义相似度衡量了两个词语在句子表达上的距离关系,其数值范围是0到 1之间。一个技术主题中可以蕴含多个概念术语,这些概念术语在本体中具有 上下位关系,本发明将技术主题间语义相似度的计算转化为概念间的相似度计 算问题,利用概念在领域本体中概念之间的上下位关系来辅助计算技术主题词 语之间的语义相似度。
本体中具有上下位关系的概念可以转化为一种树状结构,树中结点代表概 念,两个结点之间的边代表概念之间符合上下位关系。其中父节点是子节点的 上位概念,子节点是父节点的下位概念。概念树状结构如图1所示。
通过分析本体概念结构发现,影响概念间语义相似度计算的因素有以下两 种:
(1)语义距离。概念术语间的语义距离越近,代表术语间的语义相似度越 高。这里的语义距离是指在树状结构中连接两个概念的最短路径。
(2)概念层次。越靠近树状结构底层的概念术语描述信息越具体,越靠近 根节点的概念术语描述信息越抽象。两个概念相差的层次越少相似度越高,反 之则越低。对于两个距离相同的概念来说,其相似度随着它们所处层次和的增 加而增加,随着它们层次差的增加而减少。
为了合理地利用概念的这种组织结构,定义如下公式来计算概念之间相似 度:
其中Dis(c1,c2)是概念c1和概念c2的上下位相似度,dl(c1)和dl(c2)分别是概念c1和概念c2所处的层次,sp(c1,c2)是概念c1和概念c2之间的本体概念树中最短路 径,Maxdl是指本体概念树的最大深度,概念树根节点是第1层,α是一个可调 节参数,一般大于0,用于方便结果归一化处理。
对于专利中的技术主题间的相似度计算问题,首先要先将技术主题中的词 语与树中的概念术语建立映射关系,设技术主题w1中含有m个树中概念术语w1={c1_1,c1_2,...c1_m},技术主题w2中含有n个树中的概念术语w2={c2_1,c2_2,...c2_n}。 则w1和w2的相似度计算公式定义如下:
公式(2)中,c1_i表示技术主题w1中的第i个概念术语,c2_(j→i)表示技术主题 w2中与c1_i相似度最大的概念术语,R(w1,c1_i)表示c1_i在w1中的位置,μ为调节因 子。
AP聚类算法不需要事先定义聚类的个数,在迭代的过程中,通过不断搜 索和计算,实现聚类中心点的自动识别。算法开始时把所有的样本数据点作为 聚类中心,通过样本点间的“信息传递”来实现聚类过程。
AP算法将数据点间的相似度矩阵作为输入,令S是样本数据点之间的相似 度矩阵,当S(i,j)>S(i,k)表示i与j的相似性程度要大于i与k之间的相似性。算 法根据矩阵中对角线上的值来判断数据点能否成为一个聚类中心,对于每一个 数据点,S(k,k)越大,表明该数据点成为聚类簇中心的可能性越大,一般把对 角线上的值称为参考度P。P的大小影响AP算法的聚类个数,初始时,当每 个数据点成为簇中心的可能性相同时,那么矩阵对角线上的值可以取相同值, 若不同的数据点成为聚类簇中心的大小不一,那么可以取不同的P值。
AP算法中定义了代表矩阵[r(i,k)](responsibility)和适选矩阵 [a(i,k)](availability)来表示数据点间的消息传递,消息传递过程如图2所示,其 中r(i,k)是从数据点i指向数据点k,它表示数据点k能够作为i的聚类中心的累 积程度,r(i,k)消息的大小表明了i与候选聚类中心点k的一个亲和程度,值越 大,亲和度越强,表明i成为k簇内的数据点的可能性越强;a(i,k)是从数据点k 指向数据点i,它表示i选择k作为聚类中心的累积程度,a(i,k)消息的大小表明 k成为数据点聚类中心的可能性,该值越大,表明k越能够成为数据点聚类中心 的可能性越大。AP算法不断地迭代更新r(i,k)和a(i,k),当迭代次数超过设定值 或者r(i,k)+a(i,k)值的改变小于某个设定阈值时,算法结束。
算法开始时,初始化A矩阵为0,那么R矩阵为:
r(i,k)=s(i,k)-max{a(i,k′)+s(i,k′)} (k′≠k) (3)
R消息更新完后,更新A消息:
在算法的执行过程中,可以通过A消息和R消息来确定聚类中心,对于样 本i来说,令r(i,k)+a(i,k)最大的k样本即为聚类中心点。当迭代次数超过设定值 或者r(i,k)+a(i,k)值的改变小于某个阈值时,算法更新停止。AP算法在信息更 新时引入了衰减系数λ∈[0,1]来避免数值震荡情况出现,当每条信息被设置为它 上次迭代的值的λ倍加上本次信息更新值的λ-1倍,即第t+1次迭代时,r(i,k)和 a(i,k)的值分别为:
rt+1(i,k)=(1-λ)rt+1(i,k)+λrt(i,k) (5);
at+1(i,k)=(1-λ)at+1(i,k)+λat(i,k) (6);
t代表迭代次数。
根据词间相似度的计算方法,计算每个关键技术主题与其他关键技术主题 的相似度距离,构成相似矩阵,并结合技术主题的分布特点调整技术主题的自 相似度,将相似度矩阵作为AP聚类算法的输入,输出为技术主题聚成的若干 个簇以及每个簇相对应的主题。具体的实现执行过程如下:
输入:N个技术主题词的相似度矩阵Sn×n,其中对角线上的数据是经过处 理的预设参数p。
输出:由N个技术主题词划分成的若干个簇以及每个簇的主题。
执行步骤:
1、初始化矩阵,An×n=0;
2、迭代执行2.1-2.3直到所有簇的中心点保持不变或者已经达到迭代最大 次数;
2.1、更新R矩阵的每一个值r(i,k):
r(i,k)=s(i,k)-max{a(i,k′)+s(i,k′)}
2.2、更新A矩阵的每一个值a(i,k):
2.3、对于任意一个点i,使得r(i,k)+a(i,k)最大的点k即为点i的簇点;
3、每一个技术主题都找到其聚类簇点,具有相同簇的技术主题即为聚类结 果的一个簇,返回所有的簇以及对应簇的主题。
本实施例采用的本体为新能源汽车领域的专利领域本体,该本体中主要包 括领域中的概念集合,概念之间的语义关系集合以及公理集合。其中,概念之 间的语义关系主要是概念之间的上下位关系,上下位关系是概念间分类关系中 最典型的一种,通过上下位关系可以识别概念之间的语义层次关系。
本实施例通过将领域本体中术语概念和概念之间的关系转化为树状结构, 利用技术主题中术语的相似度间接计算技术主题的相似度。将经过处理的相似 度以矩阵的形式输入到AP聚类算法中,进行迭代更新,最终输出聚类结果。
在AP算法中,迭代次数和聚类个数受参考度P和阻尼系数λ影响,参考度 P为输入相似度矩阵的自相似度,即矩阵中对角线上的值,一般情况下所有的 自相似度都为1,即表示所有数据点成为聚类中心的可能性相等,在本实验中, 考虑到出现在专利标题中的技术主题更能体现专利的主题性和领域性,因此在 参考度设置时,加大在专利标题中出现的技术主题的自相似度值,使得在算法 迭代中,这些技术主题成为聚类簇的中心的可能性变大。阻尼系数λ为算法迭 代中的调节因子,能够调节迭代次数和数据稳定幅度,当设定阻尼系数为0.8、 迭代次数为33次时,数据震荡幅度相对稳定,得到的聚类结果最佳。本实施例中定义μ的值为0.35。
本实施例中提出了基于本体概念语义相似度的技术主题词聚类算法,将新 能源汽车领域本体中概念及概念关系以概念树结构组织起来,利用技术主题中 术语在概念树中的层次及距离计算技术主题之间的相似度,将技术主题之间的 相似度组织成相似度矩阵的形式,并调整矩阵中技术主题的自相似度值,将经 过处理的相似度矩阵输入到AP聚类算法中,算法在迭代过程中通过消息传递, 最终得到最佳的聚类结果,并输出聚类结果中每个簇的技术主题集合及相应的 技术主题代表。
以上所述实施例仅表达了本发明的实施方式,其描述较为具体和详细,但 并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的 普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改 进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权 利要求为准。

Claims (8)

1.一种基于本体的专利技术主题聚类方法,其特征在于,包括计算概念术语之间的相似度以及聚类的步骤。
2.根据权利要求1所述的专利技术主题聚类方法,其特征在于,所述专利技术主题聚类方法具体包括:
步骤1)将专利技术主题中的词语与领域本体中的概念术语建立映射关系;
步骤2)计算概念术语之间的相似度;
步骤3)利用概念术语之间的相似度来计算专利技术主题之间的相似度;
步骤4)根据专利技术主题之间的相似度以矩阵的形式输入AP聚类算法中,输出专利技术主题聚成的若干个簇以及每个簇相对应的主题。
3.根据权利要求1-2所述的专利技术主题聚类方法,其特征在于,所述步骤2)中,概念术语之间的相似度计算公式为:
Dis(c1,c2)是概念c1和概念c2的上下位相似度,dl(c1)和dl(c2)分别是概念c1和概念c2所处的层次,sp(c1,c2)是概念c1和概念c2之间的本体概念树中最短路径,Maxdl是指本体概念树的最大深度,概念树根节点是第1层,α是一个可调节参数。
4.根据权利要求1-3所述的专利技术主题聚类方法,其特征在于,所述步骤3)的计算公式为:
技术主题w1中含有m个树中概念术语w1={c1_1,c1_2,...c1_m},技术主题w2中含有n个树中的概念术语w2={c2_1,c2_2,...c2_n};c1_i表示技术主题w1中的第i个概念术语,c2_(j→i)表示技术主题w2中与c1_i相似度最大的概念术语,R(w1,c1_i)表示c1_i在w1中的位置,μ为调节因子。
5.根据权利要求1-4所述的专利技术主题聚类方法,其特征在于,所述步骤4)包括:
步骤(1)输入N个技术主题词的相似度矩阵Sn×n,其中对角线上的数据是经过处理的预设参数p;
步骤(2)初始化矩阵,An×n=0;
步骤(3)迭代执行步骤(3.1)-步骤(3.3)直到所有簇的中心点保持不变或者已经达到迭代最大次数;
步骤(3.1)更新R矩阵的每一个值r(i,k):
r(i,k)=s(i,k)-max{a(i,k′)+s(i,k′)};
步骤(3.2)更新A矩阵的每一个值a(i,k):
步骤(3.3)对于任意一个点i,使得r(i,k)+a(i,k)最大的点k即为点i的簇点;
步骤(4)每一个技术主题都找到其聚类簇点,具有相同簇的技术主题即为聚类结果的一个簇,返回所有的簇以及对应簇的主题。
6.根据权利要求1-5所述的专利技术主题聚类方法,其特征在于,在AP聚类算法中,将数据点间的相似度矩阵作为输入,令S是样本数据点之间的相似度矩阵,S(i,j)>S(i,k)表示i与j的相似性程度要大于i与k之间的相似性;AP聚类算法根据矩阵中对角线上的值来判断数据点能否成为一个聚类中心,对于每一个数据点,S(k,k)越大,表明该数据点成为聚类簇中心的可能性越大,把对角线上的值称为参考度P;P的大小影响AP算法的聚类个数,初始时,当每个数据点成为簇中心的可能性相同时,矩阵对角线上的值取相同值,若不同的数据点成为聚类簇中心的大小不一,那么取不同的P值。
7.根据权利要求1-6所述的专利技术主题聚类方法,其特征在于,在AP聚类算法中,开始时,初始化A矩阵为0,那么R矩阵为:
r(i,k)=s(i,k)-max{a(i,k′)+s(i,k′)}(k′≠k);
R消息更新完后,更新A消息:
通过A消息和R消息来确定聚类中心,对于样本i来说,令r(i,k)+a(i,k)最大的k样本即为聚类中心点;当迭代次数超过设定值或者r(i,k)+a(i,k)值的改变小于某个阈值时,算法更新停止。
8.根据权利要求1-7所述的专利技术主题聚类方法,其特征在于,AP聚类算法在信息更新时引入了衰减系数λ∈[0,1]来避免数值震荡情况出现,当每条信息被设置为它上次迭代的值的λ倍加上本次信息更新值的λ-1倍,即第t+1次迭代时,r(i,k)和a(i,k)的值分别为:
rt+1(i,k)=(1-λ)rt+1(i,k)+λrt(i,k);
at+1(i,k)=(1-λ)at+1(i,k)+λat(i,k)。
CN201810610749.6A 2018-06-13 2018-06-13 一种基于本体的专利技术主题聚类方法 Pending CN108776706A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810610749.6A CN108776706A (zh) 2018-06-13 2018-06-13 一种基于本体的专利技术主题聚类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810610749.6A CN108776706A (zh) 2018-06-13 2018-06-13 一种基于本体的专利技术主题聚类方法

Publications (1)

Publication Number Publication Date
CN108776706A true CN108776706A (zh) 2018-11-09

Family

ID=64026063

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810610749.6A Pending CN108776706A (zh) 2018-06-13 2018-06-13 一种基于本体的专利技术主题聚类方法

Country Status (1)

Country Link
CN (1) CN108776706A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111274400A (zh) * 2020-01-20 2020-06-12 医惠科技有限公司 一种医学术语***的构建方法、装置、设备及存储介质
CN112269878A (zh) * 2020-11-02 2021-01-26 成都纬创立科技有限公司 可解释法律判决预测方法、装置、电子设备及存储介质
CN113222018A (zh) * 2021-05-13 2021-08-06 郑州大学 一种图像分类方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005122510A (ja) * 2003-10-17 2005-05-12 Nippon Telegr & Teleph Corp <Ntt> 話題構造抽出方法及び装置及び話題構造抽出プログラム及び話題構造抽出プログラムを記録したコンピュータ読み取り可能な記憶媒体
CN103207856A (zh) * 2013-04-03 2013-07-17 同济大学 一种本体概念及层次关系生成方法
CN104008090A (zh) * 2014-04-29 2014-08-27 河海大学 一种基于概念向量模型的多主题提取方法
CN106610944A (zh) * 2016-08-09 2017-05-03 四川用联信息技术有限公司 基于本体概念求解语义相似度的混合方法
CN106610939A (zh) * 2016-08-03 2017-05-03 四川用联信息技术有限公司 一种改进的本体概念词汇语义相似度求解方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005122510A (ja) * 2003-10-17 2005-05-12 Nippon Telegr & Teleph Corp <Ntt> 話題構造抽出方法及び装置及び話題構造抽出プログラム及び話題構造抽出プログラムを記録したコンピュータ読み取り可能な記憶媒体
CN103207856A (zh) * 2013-04-03 2013-07-17 同济大学 一种本体概念及层次关系生成方法
CN104008090A (zh) * 2014-04-29 2014-08-27 河海大学 一种基于概念向量模型的多主题提取方法
CN106610939A (zh) * 2016-08-03 2017-05-03 四川用联信息技术有限公司 一种改进的本体概念词汇语义相似度求解方法
CN106610944A (zh) * 2016-08-09 2017-05-03 四川用联信息技术有限公司 基于本体概念求解语义相似度的混合方法

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111274400A (zh) * 2020-01-20 2020-06-12 医惠科技有限公司 一种医学术语***的构建方法、装置、设备及存储介质
CN111274400B (zh) * 2020-01-20 2021-02-12 医惠科技有限公司 一种医学术语***的构建方法、装置、设备及存储介质
CN112269878A (zh) * 2020-11-02 2021-01-26 成都纬创立科技有限公司 可解释法律判决预测方法、装置、电子设备及存储介质
CN112269878B (zh) * 2020-11-02 2024-03-26 成都纬创立科技有限公司 可解释法律判决预测方法、装置、电子设备及存储介质
CN113222018A (zh) * 2021-05-13 2021-08-06 郑州大学 一种图像分类方法
CN113222018B (zh) * 2021-05-13 2022-06-28 郑州大学 一种图像分类方法

Similar Documents

Publication Publication Date Title
US11416867B2 (en) Machine learning system for transaction reconciliation
CN113537271B (zh) 基于人工智能的大数据挖掘方法、***及云端服务中心
CN101763404B (zh) 基于模糊聚类的网络文本数据检测方法
CN105373606A (zh) 一种改进c4.5决策树算法下的不平衡数据抽样方法
CN106202518A (zh) 基于chi和分类别关联规则算法的短文本分类方法
CN108776706A (zh) 一种基于本体的专利技术主题聚类方法
CN110826618A (zh) 一种基于随机森林的个人信用风险评估方法
CN108154198A (zh) 知识库实体归一方法、***、终端和计算机可读存储介质
CN109766911A (zh) 一种行为预测方法
CN108647800A (zh) 一种基于节点嵌入的在线社交网络用户缺失属性预测方法
CN112491891B (zh) 物联网环境下基于混合深度学习的网络攻击检测方法
CN111444956A (zh) 低负载信息预测方法、装置、计算机***及可读存储介质
CN112907358A (zh) 贷款用户信用评分方法、装置、计算机设备和存储介质
CN107169523A (zh) 自动确定机构的所属行业类别的方法、存储设备及终端
CN106782510A (zh) 基于连续混合高斯hmm模型的地名语音信号识别方法
CN107679209A (zh) 分类表达式生成方法和装置
Mei et al. An efficient graph clustering algorithm by exploiting k-core decomposition and motifs
CN110084376B (zh) 对数据自动分箱的方法及装置
CN111612583B (zh) 一种基于聚类的个性化导购***
Deng et al. Research on C4. 5 Algorithm Optimization for User Churn
CN115600818A (zh) 多维评分方法、装置、电子设备和存储介质
CN112306730B (zh) 基于历史项目伪标签生成的缺陷报告严重程度预测方法
CN115048531A (zh) 一种城市体检知识的知识管理方法、装置以及***
CN112199287B (zh) 基于强化混合专家模型的跨项目软件缺陷预测方法
CN115204179A (zh) 基于电网公共数据模型的实体关系预测的方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20181109

WD01 Invention patent application deemed withdrawn after publication