CN103678499A

CN103678499A - 一种基于多源异构专利数据语义集成的数据挖掘方法

Info

Publication number: CN103678499A
Application number: CN201310578175.6A
Authority: CN
Inventors: 肖冬梅; 程戈; 吕宁; 杨萍; 林政均; 方舟之
Original assignee: Individual
Current assignee: Individual
Priority date: 2013-11-19
Filing date: 2013-11-19
Publication date: 2014-03-26

Abstract

一种基于多源异构专利数据语义集成的数据挖掘方法，依次包括以下步骤：(1)以全球专利数据和互译字典作为数据源，进行本体学习构造专利全局本体；(2)依据相应的属性构建各数据源中用于判断个体信息相似程度的函数；(3)根据构建的相似程度的函数以及在专利全局本体的指导下计算出的不同数据源中个体的相似度信息；(4)根据相似度信息进行数据挖掘。本方法实现大大提高了对概念和概念关系的提取精准度，专利全局本体的学习，并极大的提高了数据挖掘效率和准确度。

Description

一种基于多源异构专利数据语义集成的数据挖掘方法

技术领域

本法明涉及计算机领域，特别涉及一种基于多源异构专利数据语义集成的数据挖掘方法。

背景技术

本体作为共享概念模型的明确形式化规范说明，在建立对不同信息的共同理解方面具有较大的优势。因此本广泛应用于语义集成相关领域。事实上本体在众多领域的应用都是在构建本体的基础之上实现的，本体的构建依然是一件一项繁琐而辛苦的却又至关重要的任务。

公开于2009年的北京邮电大学题名为《基于语义技术的智能搜索引擎》的硕士论文就公开了一种通过构建本体用于实现语义检索的智能***。其中，披露的技术方案中的本体是通过领域专家手工建立的。市场上已经存在有大量用于辅助本体构建的软件，像Cyc和Wordnet等***，通过使用人工为本体输入大量的知识，然后***使用其庞大的知识库进行推理或是获取新的知识。但这样构建的本体容易导致知识获取瓶颈，无法保持本体的更新。因为本体中的知识是变化的，它总是在不断地发展和更新。而且手工方式构建的本体需要耗费大量的人力和时间。这就决定需要自动化方式来构建本体，是为本体学习。

为实现自动化构建本体，人们提出了不少技术方案。于2007年在《计算机科学》第2期杂志上《面向文本的本体学习研究概述》一文披露理面向文本的本体学习技术方案，特别是披露的一种“基于统计的方法”构建本的技术方案，通过计算术语的频率来提取概念以及概念间的关系，但这种方法却存在产生数据稀疏的缺点。

公开于2010年第1期《计算机应用研究》杂志《基于上下文的领域本体概念和关系的提取》一文披露了一种结合领域相关度及领域一致度来提取概念的基础上，利用词汇上下文计算计算概念间的相似度，过滤掉无关概念以及冗余关系对，从而提高概念以及关系提取的准确度。

本发明正是利用此此种基于上下文的对领域本体概念和关系的提取技术，并以已有国内外专利数据和专业词典作为数据来源构建专利全局本体，并创造性的利用该本体实现对非机构化数据进行数据挖掘。

发明内容

本法明所要解决的技术问题是提供一种以已有的半结构化的全球专利数据和互译字典作为数据源，自动构建本体，并根据该本体实现对其它非机构化数据进行挖掘方法。

为解决上述问题，提供如下技术方案：

一种基于多源异构专利数据语义集成的数据挖掘方法，其特征在于，依次包括以下步骤：

(1)以全球专利数据和互译字典作为数据源，进行本体学习构造专利全局本体；

(2)依据相应的属性构建各数据源中用于判断个体信息相似程度的函数；

(3)根据构建的相似程度的函数以及在专利全局本体的指导下计算出的不同数据源中个体的相似度信息；和

(4)根据相似度信息进行数据挖掘。

优选的，所述步骤(2)之前还包括对多源数据消除表示异构预处理的步骤。

优选的，步骤(1)中所述的自动进行本体学习包括概念自动提取和关系自动提取。本体的结构包括概念以及概念间的关系。

优选的，所述概念自动提取包括以下步骤：

①对领域语料以及过滤语料分别进行分词和词性标注；

②选择领域名词作为候选概念集合；

③计算候选概念的领域相关度以及领域一致度；

④根据候选概念的领域相关度以及领域一致度计算词汇的重要度量值，选取度量值大的词汇作为领域概念集合，计算公式如下：

TW_t，k=αDR_t，k+βDC_t，k

TW_t，k为候选术语t对领域k的重要程度，DR_t，k为候选术语t对于领域k的领域相关度，DC_t，k为候选术语t对于领域k的领域一致度，α，β∈(0，1)；

所述的候选术语是候选概念的同意表达。

⑤对领域文本以句为单位进行分词和词性标注，剔除句中无意义的虚词，选用实词如名词、动词、形容词、副词等作为核心词上下文词汇，计算各上下文词汇的词频，形成关于该核心词汇的上下文向量，格式如下：

Si=〈(C1，W1)，(C2，W2)，...(Cn，Wn)〉

Si为中心词，Ci表示上下文词汇，Wi表示Ci的词频；

⑥提取的任意两个词汇向量，采用余弦法计算相似度，得到词汇间的相似度，余弦法计算相似度公式如下：

Sim (Si, Sj) = \cos (Si, Sj) = \frac{Σ_{w 1 &Element; si, w 2 &Element; sj} w_{1} w_{2}}{\sqrt{Σ_{w 2 &Element; si} w_{i}^{2}} \sqrt{Σ_{w 2 &Element; sj} w_{j}^{2}}}

⑦以支持度、置信度以及相似度为度量标准，过滤掉概念相似度小的概念。

优选的，所述关系的自动提取包括以下步骤：

①对领域语料以及过滤语料分别进行分词和词性标注；

②选择领域名词作为候选概念集合；

③计算候选概念的领域相关度以及领域一致度，并由此计算词汇的重要度量值，选取度量值大的词汇作为领域概念；

④对概念集合中的每个概念获取概念上下文向量，并计算得到概念相似度矩阵；

⑤当两个概念间的相似度小于最小相似度时，认为这两个概念无关；过滤掉与绝大多数概念无关的概念，得到过滤后的概念集合；

⑥以文本为事务单位，采用Aprior算法，以支持度、置信度以及相似度为度量标准，提取频繁概念二项集，认为这两个概念之间存在关系，得到改进后的关系对。

优选的，步骤(2)中所述的相似程度的函数通过互信息和/或频率和/或相关度和/或一致度方法构建。

优选的，所述步骤(2)中，依据属性在个体识别中的重要程度为每个属性的相似度设置权值。

优选的，所述的个体相似度是根据属性的相似程度和权值综合计算，并设置置信度进行判断。

优选的，所述步骤(4)中的数据挖掘是指自动聚类和/或进行关联度性和/或进行分类分析。

与现有技术相比，本发明通过采用已有的全球专利数据和互译字典作为数据源，利用了专利文献半结构化的特点实现了专利全局本体的学习；通过采用了基于上下文与统计相结合的方法大大提高了对概念和概念关系的提取精准度，并利用自动构建的全局专利本体指导非结构化的数据的挖掘，极大的提高了数据挖掘效率和挖掘准确度。

附图说明

图1本发明的本体学习流程图。

具体实施方式

下面结合具附图对本发明做进一步的说明。

一种基于多源异构专利数据语义集成的数据挖掘方法，依次包括以下步骤：

第一步，以球国专利数据和互译字典作为数据源，自动进行本体学习构造专利全局本体。专利数据库中专利文献为结构化信息，通过结合专业词典、互译字典，可以使用词频统计方法完成专利主体识别。

第二步，依据相应的属性构建各数据源中用于判断个体信息相似程度的函数。不同的数据源中的个体数据有其相应的独特的属性，通过采用互信息、频率、相关度和一致度等方法构建用来判断不同数据源中个体信息的各个对应属性的相似程度的函数。

第三步，根据构建的相似程度的函数以及在专利全局本体的指导下计算出的不同数据源中个体的相似度信息。在本体的帮助下，判断这个非结构化文档是不是一个主体的个体，并依据建的相似程度的函数判断不同数据源中个体的相似度信息。

第四步，根据相似度信息进行数据挖掘。可以利用计算出的不同数据源中个体的相似度信息，进行数据挖掘的任务有关联分析、聚类分析、分类分析等数据挖掘。

一种优选的方式是在所述第二步骤前还包括对多源数据消除表示异构预处理。消除例如时间，货币符号等表示异构。

在第一步中所述的进行本体学习构造专利全局本体，本体学习主要在于对概念以及关系的获取。通过提取概念以及各概念间的关系就可以构成本体的内容。

如图1所示，对概念提取的方法包括以下步骤：

①对领域语料以及过滤语料分别进行分词和词性标注；

对语料分词可以采用有成熟的技术。词性标注是指对进行分词后得到的词汇标注其词的性，如名词、动词、助词等。

②选择领域名词作为候选概念集合；

③计算候选概念的领域相关度以及领域一致度；

领域相关度反映概念与领域的相关程度。领域集合set={D1，...Dk}为一系列的领域，则候选概念t对于某领域而言的领域相关度可表示为公式(1)：

{DR}_{t, k} = \frac{P (t | Dk)}{\max \underset{l \leq j \leq n}{P} (t | D_{t})} - - - (1)

其中：条件概率P(t|Dk)可以用如下公式(2)来估算：

E (P (t | Dk)) = \frac{f_{t, k}}{Σ f_{t^{'}, k}} - - - (2)

领域一致度反映概念在领域文集中的分布情况。候选概念对于某个领域Dk的领域一致可以用下列公式(3)来表达：

DC (t, Dk) = H (P (t, dj)) = \underset{dj &Element; Dk}{Σ} (P (t, dj)) \log \frac{1}{P (t, d)} - - - (3)

④根据候选概念的领域相关度以及领域一致度计算词汇的重要度量值，选取度量值大的词汇作为领域概念集合，计算公式(4)如下：

TW_t，k=αDR_t，k+βDC_t，k (4)

TW_t，k为候选术语t对领域k的重要程度，DR_t，k为候选术语t对于领域k的领域相关度，DR_t，k为候选术语t对于领域k的领域一致度，α，β∈(0，1)。候选术语是候选概念的同义表达。实践证明，现α值取0.9左右，β值取0.25～0.35效果最好。

Si=〈(C1，W1)，(C2，W2)，...(C n，W n)〉

Si为中心词，Ci表示上下文词汇，Wi表示Ci的词频

⑥提取的任意两个词汇向量(即前一步形成的上下文向量)，采用余弦法计算相似度，得到词汇间的相似度，余弦法计算相似度公式(5)如下：

Sim (Si, Sj) = \cos (Si, Sj) = \frac{Σ_{w 1 &Element; si, w 2 &Element; sj} w_{1} w_{2}}{\sqrt{Σ_{w 2 &Element; si} w_{i}^{2}} \sqrt{Σ_{w 2 &Element; sj} w_{j}^{2}}} - - - (5)

⑦以支持度、置信度以及相似度为度量标准，过滤掉概念相似度小的概念；

对概念提取的方法包括以下步骤：

①对领域语料以及过滤语料分别进行分词和词性标注；

②选择领域名词作为候选概念集合；

③计算候选概念的领域相关度(采用公式1和2)以及领域一致度(采用公式3)，并由此计算词汇的重要度量值(采用用公式4)，选取度量值大的词汇作为领域概念；

④对概念集合中的每个概念获取概念上下文向量，并依据公式(5)计算相似性得到概念相似度矩阵；

⑤当两个概念间的相似度小于最小相似度时，认为这两个概念无关；过滤掉与绝大多数概念无关的概念，得到过滤后的概念集合。

第二步中所述的相似程度的函数通过互信息和频率和相关度和一致度方法构建。并且，依据属性在个体识别中的重要程度为每个属性的相似度设置权值。

所述个体相似度是根据属性的相似程度和权值综合计算，并设置置信度进行判断。

Claims

1.一种基于多源异构专利数据语义集成的数据挖掘方法，其特征在于，依次包括以下步骤：

(3)根据构建的相似程度的函数以及在专利全局本体的指导下计算出的不同数据源中个体的相似度信息；

(4)根据相似度信息进行数据挖掘。

2.根据权利要求1所述的基于多源异构专利数据语义集成的数据挖掘方法，其特征在于，所述步骤(2)之前还包括对多源数据消除表示异构预处理的步骤。

3.根据权利要求1或2所述的基于多源异构专利数据语义集成的数据挖掘方法，其特征在于，步骤(1)中所述的自动进行本体学习包括概念自动提取和关系自动提取。

4.根据权利要求1-3中任何一项所述的基于多源异构专利数据语义集成的数据挖掘方法，其特征在于，所述概念自动提取包括以下步骤：

①对领域语料以及过滤语料分别进行分词和词性标注；

②选择领域名词作为候选概念集合；

③计算候选概念的领域相关度以及领域一致度；

TW_t，k=αDR_t，k+βDC_t，k

Si=〈(C1，W1)，(C2，W2)，...(Cn，Wn)〉

Si为中心词，Ci表示上下文词汇，Wi表示Ci的词频；

Sim (Si, Sj) = \cos (Si, Sj) = \frac{Σ_{w 1 &Element; si, w 2 &Element; sj} w_{1} w_{2}}{\sqrt{Σ_{w 2 &Element; si} w_{i}^{2}} \sqrt{Σ_{w 2 &Element; sj} w_{j}^{2}}}

5.根据权利要求1-4中任何一项所述的基于多源异构专利数据语义集成的数据挖掘方法，其特征在于，所述关系的自动提取包括以下步骤：

①对领域语料以及过滤语料分别进行分词和词性标注；

②选择领域名词作为候选概念集合；

6.根据权利要求1-5中任何一项所述的基于多源异构专利数据语义集成的数据挖掘方法，其特征在于，步骤(2)中所述的相似程度的函数通过互信息和/或频率和/或相关度和/或一致度方法构建。

7.根据权利要求1-6中任何一项所述的基于多源异构专利数据语义集成的数据挖掘方法，其特征在于，所述步骤(2)中，依据属性在个体识别中的重要程度为每个属性的相似度设置权值。

8.根据权利要求1-7中任何一项所述的基于多源异构专利数据语义集成的数据挖掘方法，其特征在于，个体相似度是根据属性的相似程度和权值综合计算，并设置置信度进行判断。

9.根据权利要求1-8中任何一项所述的基于多源异构专利数据语义集成的数据挖掘方法，其特征在于，所述步骤(4)中的数据挖掘是指自动聚类和/或进行关联度性和/或进行分类分析。