CN103678499A - 一种基于多源异构专利数据语义集成的数据挖掘方法 - Google Patents
一种基于多源异构专利数据语义集成的数据挖掘方法 Download PDFInfo
- Publication number
- CN103678499A CN103678499A CN201310578175.6A CN201310578175A CN103678499A CN 103678499 A CN103678499 A CN 103678499A CN 201310578175 A CN201310578175 A CN 201310578175A CN 103678499 A CN103678499 A CN 103678499A
- Authority
- CN
- China
- Prior art keywords
- concept
- similarity
- data
- degree
- field
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/374—Thesaurus
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/335—Filtering based on additional data, e.g. user or group profiles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/80—Information retrieval; Database structures therefor; File system structures therefor of semi-structured data, e.g. markup language structured data such as SGML, XML or HTML
- G06F16/83—Querying
- G06F16/835—Query processing
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
一种基于多源异构专利数据语义集成的数据挖掘方法,依次包括以下步骤:(1)以全球专利数据和互译字典作为数据源,进行本体学习构造专利全局本体;(2)依据相应的属性构建各数据源中用于判断个体信息相似程度的函数;(3)根据构建的相似程度的函数以及在专利全局本体的指导下计算出的不同数据源中个体的相似度信息;(4)根据相似度信息进行数据挖掘。本方法实现大大提高了对概念和概念关系的提取精准度,专利全局本体的学习,并极大的提高了数据挖掘效率和准确度。
Description
技术领域
本法明涉及计算机领域,特别涉及一种基于多源异构专利数据语义集成的数据挖掘方法。
背景技术
本体作为共享概念模型的明确形式化规范说明,在建立对不同信息的共同理解方面具有较大的优势。因此本广泛应用于语义集成相关领域。事实上本体在众多领域的应用都是在构建本体的基础之上实现的,本体的构建依然是一件一项繁琐而辛苦的却又至关重要的任务。
公开于2009年的北京邮电大学题名为《基于语义技术的智能搜索引擎》的硕士论文就公开了一种通过构建本体用于实现语义检索的智能***。其中,披露的技术方案中的本体是通过领域专家手工建立的。市场上已经存在有大量用于辅助本体构建的软件,像Cyc和Wordnet等***,通过使用人工为本体输入大量的知识,然后***使用其庞大的知识库进行推理或是获取新的知识。但这样构建的本体容易导致知识获取瓶颈,无法保持本体的更新。因为本体中的知识是变化的,它总是在不断地发展和更新。而且手工方式构建的本体需要耗费大量的人力和时间。这就决定需要自动化方式来构建本体,是为本体学习。
为实现自动化构建本体,人们提出了不少技术方案。于2007年在《计算机科学》第2期杂志上《面向文本的本体学习研究概述》一文披露理面向文本的本体学习技术方案,特别是披露的一种“基于统计的方法”构建本的技术方案,通过计算术语的频率来提取概念以及概念间的关系,但这种方法却存在产生数据稀疏的缺点。
公开于2010年第1期《计算机应用研究》杂志《基于上下文的领域本体概念和关系的提取》一文披露了一种结合领域相关度及领域一致度来提取概念的基础上,利用词汇上下文计算计算概念间的相似度,过滤掉无关概念以及冗余关系对,从而提高概念以及关系提取的准确度。
本发明正是利用此此种基于上下文的对领域本体概念和关系的提取技术,并以已有国内外专利数据和专业词典作为数据来源构建专利全局本体,并创造性的利用该本体实现对非机构化数据进行数据挖掘。
发明内容
本法明所要解决的技术问题是提供一种以已有的半结构化的全球专利数据和互译字典作为数据源,自动构建本体,并根据该本体实现对其它非机构化数据进行挖掘方法。
为解决上述问题,提供如下技术方案:
一种基于多源异构专利数据语义集成的数据挖掘方法,其特征在于,依次包括以下步骤:
(1)以全球专利数据和互译字典作为数据源,进行本体学习构造专利全局本体;
(2)依据相应的属性构建各数据源中用于判断个体信息相似程度的函数;
(3)根据构建的相似程度的函数以及在专利全局本体的指导下计算出的不同数据源中个体的相似度信息;和
(4)根据相似度信息进行数据挖掘。
优选的,所述步骤(2)之前还包括对多源数据消除表示异构预处理的步骤。
优选的,步骤(1)中所述的自动进行本体学习包括概念自动提取和关系自动提取。本体的结构包括概念以及概念间的关系。
优选的,所述概念自动提取包括以下步骤:
①对领域语料以及过滤语料分别进行分词和词性标注;
②选择领域名词作为候选概念集合;
③计算候选概念的领域相关度以及领域一致度;
④根据候选概念的领域相关度以及领域一致度计算词汇的重要度量值,选取度量值大的词汇作为领域概念集合,计算公式如下:
TWt,k=αDRt,k+βDCt,k
TWt,k为候选术语t对领域k的重要程度,DRt,k为候选术语t对于领域k的领域相关度,DCt,k为候选术语t对于领域k的领域一致度,α,β∈(0,1);
所述的候选术语是候选概念的同意表达。
⑤对领域文本以句为单位进行分词和词性标注,剔除句中无意义的虚词,选用实词如名词、动词、形容词、副词等作为核心词上下文词汇,计算各上下文词汇的词频,形成关于该核心词汇的上下文向量,格式如下:
Si=〈(C1,W1),(C2,W2),...(Cn,Wn)〉
Si为中心词,Ci表示上下文词汇,Wi表示Ci的词频;
⑥提取的任意两个词汇向量,采用余弦法计算相似度,得到词汇间的相似度,余弦法计算相似度公式如下:
⑦以支持度、置信度以及相似度为度量标准,过滤掉概念相似度小的概念。
优选的,所述关系的自动提取包括以下步骤:
①对领域语料以及过滤语料分别进行分词和词性标注;
②选择领域名词作为候选概念集合;
③计算候选概念的领域相关度以及领域一致度,并由此计算词汇的重要度量值,选取度量值大的词汇作为领域概念;
④对概念集合中的每个概念获取概念上下文向量,并计算得到概念相似度矩阵;
⑤当两个概念间的相似度小于最小相似度时,认为这两个概念无关;过滤掉与绝大多数概念无关的概念,得到过滤后的概念集合;
⑥以文本为事务单位,采用Aprior算法,以支持度、置信度以及相似度为度量标准,提取频繁概念二项集,认为这两个概念之间存在关系,得到改进后的关系对。
优选的,步骤(2)中所述的相似程度的函数通过互信息和/或频率和/或相关度和/或一致度方法构建。
优选的,所述步骤(2)中,依据属性在个体识别中的重要程度为每个属性的相似度设置权值。
优选的,所述的个体相似度是根据属性的相似程度和权值综合计算,并设置置信度进行判断。
优选的,所述步骤(4)中的数据挖掘是指自动聚类和/或进行关联度性和/或进行分类分析。
与现有技术相比,本发明通过采用已有的全球专利数据和互译字典作为数据源,利用了专利文献半结构化的特点实现了专利全局本体的学习;通过采用了基于上下文与统计相结合的方法大大提高了对概念和概念关系的提取精准度,并利用自动构建的全局专利本体指导非结构化的数据的挖掘,极大的提高了数据挖掘效率和挖掘准确度。
附图说明
图1本发明的本体学习流程图。
具体实施方式
下面结合具附图对本发明做进一步的说明。
一种基于多源异构专利数据语义集成的数据挖掘方法,依次包括以下步骤:
第一步,以球国专利数据和互译字典作为数据源,自动进行本体学习构造专利全局本体。专利数据库中专利文献为结构化信息,通过结合专业词典、互译字典,可以使用词频统计方法完成专利主体识别。
第二步,依据相应的属性构建各数据源中用于判断个体信息相似程度的函数。不同的数据源中的个体数据有其相应的独特的属性,通过采用互信息、频率、相关度和一致度等方法构建用来判断不同数据源中个体信息的各个对应属性的相似程度的函数。
第三步,根据构建的相似程度的函数以及在专利全局本体的指导下计算出的不同数据源中个体的相似度信息。在本体的帮助下,判断这个非结构化文档是不是一个主体的个体,并依据建的相似程度的函数判断不同数据源中个体的相似度信息。
第四步,根据相似度信息进行数据挖掘。可以利用计算出的不同数据源中个体的相似度信息,进行数据挖掘的任务有关联分析、聚类分析、分类分析等数据挖掘。
一种优选的方式是在所述第二步骤前还包括对多源数据消除表示异构预处理。消除例如时间,货币符号等表示异构。
在第一步中所述的进行本体学习构造专利全局本体,本体学习主要在于对概念以及关系的获取。通过提取概念以及各概念间的关系就可以构成本体的内容。
如图1所示,对概念提取的方法包括以下步骤:
①对领域语料以及过滤语料分别进行分词和词性标注;
对语料分词可以采用有成熟的技术。词性标注是指对进行分词后得到的词汇标注其词的性,如名词、动词、助词等。
②选择领域名词作为候选概念集合;
③计算候选概念的领域相关度以及领域一致度;
领域相关度反映概念与领域的相关程度。领域集合set={D1,...Dk}为一系列的领域,则候选概念t对于某领域而言的领域相关度可表示为公式(1):
其中:条件概率P(t|Dk)可以用如下公式(2)来估算:
领域一致度反映概念在领域文集中的分布情况。候选概念对于某个领域Dk的领域一致可以用下列公式(3)来表达:
④根据候选概念的领域相关度以及领域一致度计算词汇的重要度量值,选取度量值大的词汇作为领域概念集合,计算公式(4)如下:
TWt,k=αDRt,k+βDCt,k (4)
TWt,k为候选术语t对领域k的重要程度,DRt,k为候选术语t对于领域k的领域相关度,DRt,k为候选术语t对于领域k的领域一致度,α,β∈(0,1)。候选术语是候选概念的同义表达。实践证明,现α值取0.9左右,β值取0.25~0.35效果最好。
⑤对领域文本以句为单位进行分词和词性标注,剔除句中无意义的虚词,选用实词如名词、动词、形容词、副词等作为核心词上下文词汇,计算各上下文词汇的词频,形成关于该核心词汇的上下文向量,格式如下:
Si=〈(C1,W1),(C2,W2),...(C n,W n)〉
Si为中心词,Ci表示上下文词汇,Wi表示Ci的词频
⑥提取的任意两个词汇向量(即前一步形成的上下文向量),采用余弦法计算相似度,得到词汇间的相似度,余弦法计算相似度公式(5)如下:
⑦以支持度、置信度以及相似度为度量标准,过滤掉概念相似度小的概念;
对概念提取的方法包括以下步骤:
①对领域语料以及过滤语料分别进行分词和词性标注;
②选择领域名词作为候选概念集合;
③计算候选概念的领域相关度(采用公式1和2)以及领域一致度(采用公式3),并由此计算词汇的重要度量值(采用用公式4),选取度量值大的词汇作为领域概念;
④对概念集合中的每个概念获取概念上下文向量,并依据公式(5)计算相似性得到概念相似度矩阵;
⑤当两个概念间的相似度小于最小相似度时,认为这两个概念无关;过滤掉与绝大多数概念无关的概念,得到过滤后的概念集合。
⑥以文本为事务单位,采用Aprior算法,以支持度、置信度以及相似度为度量标准,提取频繁概念二项集,认为这两个概念之间存在关系,得到改进后的关系对。
第二步中所述的相似程度的函数通过互信息和频率和相关度和一致度方法构建。并且,依据属性在个体识别中的重要程度为每个属性的相似度设置权值。
所述个体相似度是根据属性的相似程度和权值综合计算,并设置置信度进行判断。
Claims (9)
1.一种基于多源异构专利数据语义集成的数据挖掘方法,其特征在于,依次包括以下步骤:
(1)以全球专利数据和互译字典作为数据源,进行本体学习构造专利全局本体;
(2)依据相应的属性构建各数据源中用于判断个体信息相似程度的函数;
(3)根据构建的相似程度的函数以及在专利全局本体的指导下计算出的不同数据源中个体的相似度信息;
(4)根据相似度信息进行数据挖掘。
2.根据权利要求1所述的基于多源异构专利数据语义集成的数据挖掘方法,其特征在于,所述步骤(2)之前还包括对多源数据消除表示异构预处理的步骤。
3.根据权利要求1或2所述的基于多源异构专利数据语义集成的数据挖掘方法,其特征在于,步骤(1)中所述的自动进行本体学习包括概念自动提取和关系自动提取。
4.根据权利要求1-3中任何一项所述的基于多源异构专利数据语义集成的数据挖掘方法,其特征在于,所述概念自动提取包括以下步骤:
①对领域语料以及过滤语料分别进行分词和词性标注;
②选择领域名词作为候选概念集合;
③计算候选概念的领域相关度以及领域一致度;
④根据候选概念的领域相关度以及领域一致度计算词汇的重要度量值,选取度量值大的词汇作为领域概念集合,计算公式如下:
TWt,k=αDRt,k+βDCt,k
TWt,k为候选术语t对领域k的重要程度,DRt,k为候选术语t对于领域k的领域相关度,DCt,k为候选术语t对于领域k的领域一致度,α,β∈(0,1);
⑤对领域文本以句为单位进行分词和词性标注,剔除句中无意义的虚词,选用实词如名词、动词、形容词、副词等作为核心词上下文词汇,计算各上下文词汇的词频,形成关于该核心词汇的上下文向量,格式如下:
Si=〈(C1,W1),(C2,W2),...(Cn,Wn)〉
Si为中心词,Ci表示上下文词汇,Wi表示Ci的词频;
⑥提取的任意两个词汇向量,采用余弦法计算相似度,得到词汇间的相似度,余弦法计算相似度公式如下:
⑦以支持度、置信度以及相似度为度量标准,过滤掉概念相似度小的概念。
5.根据权利要求1-4中任何一项所述的基于多源异构专利数据语义集成的数据挖掘方法,其特征在于,所述关系的自动提取包括以下步骤:
①对领域语料以及过滤语料分别进行分词和词性标注;
②选择领域名词作为候选概念集合;
③计算候选概念的领域相关度以及领域一致度,并由此计算词汇的重要度量值,选取度量值大的词汇作为领域概念;
④对概念集合中的每个概念获取概念上下文向量,并计算得到概念相似度矩阵;
⑤当两个概念间的相似度小于最小相似度时,认为这两个概念无关;过滤掉与绝大多数概念无关的概念,得到过滤后的概念集合;
⑥以文本为事务单位,采用Aprior算法,以支持度、置信度以及相似度为度量标准,提取频繁概念二项集,认为这两个概念之间存在关系,得到改进后的关系对。
6.根据权利要求1-5中任何一项所述的基于多源异构专利数据语义集成的数据挖掘方法,其特征在于,步骤(2)中所述的相似程度的函数通过互信息和/或频率和/或相关度和/或一致度方法构建。
7.根据权利要求1-6中任何一项所述的基于多源异构专利数据语义集成的数据挖掘方法,其特征在于,所述步骤(2)中,依据属性在个体识别中的重要程度为每个属性的相似度设置权值。
8.根据权利要求1-7中任何一项所述的基于多源异构专利数据语义集成的数据挖掘方法,其特征在于,个体相似度是根据属性的相似程度和权值综合计算,并设置置信度进行判断。
9.根据权利要求1-8中任何一项所述的基于多源异构专利数据语义集成的数据挖掘方法,其特征在于,所述步骤(4)中的数据挖掘是指自动聚类和/或进行关联度性和/或进行分类分析。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310578175.6A CN103678499A (zh) | 2013-11-19 | 2013-11-19 | 一种基于多源异构专利数据语义集成的数据挖掘方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310578175.6A CN103678499A (zh) | 2013-11-19 | 2013-11-19 | 一种基于多源异构专利数据语义集成的数据挖掘方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN103678499A true CN103678499A (zh) | 2014-03-26 |
Family
ID=50316044
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201310578175.6A Pending CN103678499A (zh) | 2013-11-19 | 2013-11-19 | 一种基于多源异构专利数据语义集成的数据挖掘方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103678499A (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104317794A (zh) * | 2014-08-27 | 2015-01-28 | 广西教育学院 | 基于动态项权值的中文特征词关联模式挖掘方法及其*** |
CN104679823A (zh) * | 2014-12-31 | 2015-06-03 | 智慧城市信息技术有限公司 | 基于语义标注的异构数据关联方法及*** |
CN106156035A (zh) * | 2015-02-28 | 2016-11-23 | 南京网感至察信息科技有限公司 | 一种通用文本挖掘方法和*** |
CN107436955A (zh) * | 2017-08-17 | 2017-12-05 | 齐鲁工业大学 | 一种基于Wikipedia概念向量的英文词语相关度计算方法和装置 |
CN107491524A (zh) * | 2017-08-17 | 2017-12-19 | 齐鲁工业大学 | 一种基于Wikipedia概念向量的中文词语相关度计算方法和装置 |
CN107808001A (zh) * | 2017-11-13 | 2018-03-16 | 哈尔滨工业大学 | 面向海量异构数据的模式集成方法及装置 |
CN109063217A (zh) * | 2018-10-29 | 2018-12-21 | 广州供电局有限公司 | 电力营销***中的工单分类方法、装置及其相关设备 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102591988A (zh) * | 2012-01-16 | 2012-07-18 | 宋胜利 | 基于语义图的短文本分类方法 |
-
2013
- 2013-11-19 CN CN201310578175.6A patent/CN103678499A/zh active Pending
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102591988A (zh) * | 2012-01-16 | 2012-07-18 | 宋胜利 | 基于语义图的短文本分类方法 |
Non-Patent Citations (3)
Title |
---|
唐晓波等: "基于领域本体和语义相似度的数据挖掘模型", 《情报科学》 * |
张玉芳等: "基于上下文的领域本体概念和关系的提取", 《计算机应用研究》 * |
闻中慧: "数据挖掘中的本体应用研究综述", 《软件导刊》 * |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104317794A (zh) * | 2014-08-27 | 2015-01-28 | 广西教育学院 | 基于动态项权值的中文特征词关联模式挖掘方法及其*** |
CN104317794B (zh) * | 2014-08-27 | 2017-10-24 | 广西财经学院 | 基于动态项权值的中文特征词关联模式挖掘方法及其*** |
CN104679823A (zh) * | 2014-12-31 | 2015-06-03 | 智慧城市信息技术有限公司 | 基于语义标注的异构数据关联方法及*** |
CN106156035A (zh) * | 2015-02-28 | 2016-11-23 | 南京网感至察信息科技有限公司 | 一种通用文本挖掘方法和*** |
CN107436955A (zh) * | 2017-08-17 | 2017-12-05 | 齐鲁工业大学 | 一种基于Wikipedia概念向量的英文词语相关度计算方法和装置 |
CN107491524A (zh) * | 2017-08-17 | 2017-12-19 | 齐鲁工业大学 | 一种基于Wikipedia概念向量的中文词语相关度计算方法和装置 |
CN107808001A (zh) * | 2017-11-13 | 2018-03-16 | 哈尔滨工业大学 | 面向海量异构数据的模式集成方法及装置 |
CN107808001B (zh) * | 2017-11-13 | 2019-12-06 | 哈尔滨工业大学 | 面向海量异构数据的模式集成方法及装置 |
CN109063217A (zh) * | 2018-10-29 | 2018-12-21 | 广州供电局有限公司 | 电力营销***中的工单分类方法、装置及其相关设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111159223B (zh) | 一种基于结构化嵌入的交互式代码搜索方法及装置 | |
CN103678499A (zh) | 一种基于多源异构专利数据语义集成的数据挖掘方法 | |
CN106844658B (zh) | 一种中文文本知识图谱自动构建方法及*** | |
CN109710932A (zh) | 一种基于特征融合的医疗实体关系抽取方法 | |
CN107832229A (zh) | 一种基于nlp的***测试用例自动生成方法 | |
CN105426539A (zh) | 一种基于词典的lucene中文分词方法 | |
CN104462053A (zh) | 一种文本内的基于语义特征的人称代词指代消解方法 | |
CN104391942A (zh) | 基于语义图谱的短文本特征扩展方法 | |
CN103810218A (zh) | 一种基于问题簇的自动问答方法和装置 | |
CN103544255A (zh) | 基于文本语义相关的网络舆情信息分析方法 | |
CN103544242A (zh) | 面向微博的情感实体搜索*** | |
CN107562919B (zh) | 一种基于信息检索的多索引集成软件构件检索方法及*** | |
CN104008106A (zh) | 一种获取热点话题的方法及装置 | |
CN111708899B (zh) | 一种基于自然语言和知识图谱工程信息智能搜索方法 | |
CN106446162A (zh) | 一种面向领域的本体知识库文本检索方法 | |
CN103440287A (zh) | 一种基于产品信息结构化的Web问答检索*** | |
CN103324700A (zh) | 一种基于Web信息的本体概念属性学习方法 | |
CN110188359B (zh) | 一种文本实体抽取方法 | |
CN113946684A (zh) | 电力基建知识图谱构建方法 | |
CN105160046A (zh) | 基于文本的数据检索方法 | |
CN113779190B (zh) | 事件因果关系识别方法、装置、电子设备与存储介质 | |
Li et al. | Neural factoid geospatial question answering | |
CN109657052A (zh) | 一种论文摘要蕴含细粒度知识元的抽取方法及装置 | |
CN112732969A (zh) | 图像语义分析方法、装置、存储介质及电子设备 | |
CN111143457A (zh) | 一种基于多种来源数据集的学者同名排歧方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20140326 |