CN110390022A - 一种自动化的专业知识图谱构建方法 - Google Patents

一种自动化的专业知识图谱构建方法 Download PDF

Info

Publication number
CN110390022A
CN110390022A CN201910542202.1A CN201910542202A CN110390022A CN 110390022 A CN110390022 A CN 110390022A CN 201910542202 A CN201910542202 A CN 201910542202A CN 110390022 A CN110390022 A CN 110390022A
Authority
CN
China
Prior art keywords
professional knowledge
semantic
text
label
knowledge map
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910542202.1A
Other languages
English (en)
Inventor
刘家祥
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Central Mdt Infotech Ltd Of United States Of Xiamen
Original Assignee
Central Mdt Infotech Ltd Of United States Of Xiamen
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Central Mdt Infotech Ltd Of United States Of Xiamen filed Critical Central Mdt Infotech Ltd Of United States Of Xiamen
Priority to CN201910542202.1A priority Critical patent/CN110390022A/zh
Publication of CN110390022A publication Critical patent/CN110390022A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Machine Translation (AREA)

Abstract

一种自动化的专业知识图谱构建方法,包括以下步骤:获取专业知识文本;对专业知识文本进行分词并去除分词文本中的停用词;将每条文本转换成若干词语集合;通过词性标注得到词性标签,通过依存分析得到依存标签和依存树;基于词性标签和依存标签进行名词短语检测、动词短语检测、候选关系检测;对候选关系中的词语进行语义标注,得到候选语义关系模式;对得到的候选语义关系模式进行聚类,得到一组最终的语义关系模式;利用语义词典和语义关系模式得到专业知识数据;将数据写成owl文件并导入到protege中。本发明进行了优化和扩展,构建专业知识图谱的效率高,成本较低,省时省力,并且所构建的专业知识图谱准确性高。

Description

一种自动化的专业知识图谱构建方法
技术领域
本发明涉及知识图谱构建技术领域,尤其涉及一种自动化的专业知识图谱构建方法。
背景技术
知识服务是专业数字出版领域最近一段时间追捧的热点,国家在这方面大量的资金投入也加快了知识服务在出版单位落地的时间,但是目前国内建设的知识服务***一般来说仍然是传统的文献级别的知识服务,提供传统的全文检索方式,资源关联方面也只是文献与参考文献之间的关联方式,为了实现真正的知识检索,构建作为知识检索基础支撑的各种类型的知识体系就成了关键,目前部分在知识体系构建方面领先的专业出版社在领域主题词表方面已经有了一定的积累,但是对于知识检索来说,构建领域本体以及知识图谱才是最理想的目标;
然而,对于专业知识领域来说,需要对本专业十分了解的专家手动构建知识图谱,投入了大量的人力和时间,构建知识图谱的效率太低,成本太高,准确率还不好保证。
发明内容
(一)发明目的
为解决背景技术中存在的技术问题,本发明提出一种自动化的专业知识图谱构建方法,进行了优化和扩展,构建专业知识图谱的效率高,成本较低,省时省力,并且所构建的专业知识图谱准确性高。
(二)技术方案
为解决上述问题,本发明提出了一种自动化的专业知识图谱构建方法,包括以下步骤:
S1、利用网络爬虫技术获取专业知识文本;
S2、利用jieba工具对获取的专业知识文本进行分词;
S3、利用stopwords工具去除分词文本中的停用词;
S4、进行n-gram处理,将每条文本转换成若干词语集合;
S5、通过词性标注得到词性标签,通过依存分析得到依存标签和依存树;
S6、基于词性标签和依存标签进行名词短语检测、动词短语检测、候选关系检测;
S7、结合语义词典,对候选关系中的词语进行语义标注,得到候选语义关系模式;
S8、对得到的候选语义关系模式进行聚类,得到一组最终的语义关系模式;
S9、利用语义词典和语义关系模式得到专业知识数据;
S10、利用jena工具将数据写成owl文件,将owl文件导入到protege中;
S11、生成最终的专业知识图谱。
优选的,S2的具体步骤如下:将每条目标文本分割成多个句子;对每个句子分词并得到词的序列。
优选的,在S4中,还包括如下步骤:利用Shingling算法计算任意两条文本之间的相似度,并将相似度大于阈值的所有文本放入同一个文本簇;对每个文本簇进行分类,并得到个文本簇所属类别。
优选的,S5的具体步骤如下:对每个词语集合进行词性标注得到其词性标签;对每个词语集合进行依存分析,对存在语法依赖关系的两个词得到依存标签;所有词语的依存标签构成了依存树。
优选的,在S6中,名词短语为包含名词的多个连续的词组成的短语;动词短语为依存树上有动宾关系的短语。
优选的,在S6中,候选关系检测主要用于得到名词短语后,计算每两个名词短语之间是否存在关系。
优选的,在S7中,语义标注是通过在语义词典中查找词语,得到对应的语义类型,并结合词语的词性进行判断;将词法关系模式中每个词进行语义标注之后,得到对应的语义关系模式。
优选的,在S7中,对于有多个语义类型的词语,在整个文本集合上对所有抽取到的语义关系模式进行统计,从中寻找匹配的模式;若匹配不到语义关系模式,把多元的语义关系模式转化成多个二元模式,再进行匹配。
本发明的上述技术方案具有如下有益的技术效果:
本发明进行了优化和扩展,构建专业知识图谱的效率高,成本较低,省时省力,构建的专业知识图谱的准确性高。
附图说明
图1为本发明提出的一种自动化的专业知识图谱构建方法的流程图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明了,下面结合具体实施方式并参照附图,对本发明进一步详细说明。应该理解,这些描述只是示例性的,而并非要限制本发明的范围。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本发明的概念。
如图1所示,本发明提出的一种自动化的专业知识图谱构建方法,包括以下步骤:
S1、利用网络爬虫技术获取专业知识文本;
S2、利用jieba工具对获取的专业知识文本进行分词;
S3、利用stopwords工具去除分词文本中的停用词;
S4、进行n-gram处理,将每条文本转换成若干词语集合;
S5、通过词性标注得到词性标签,通过依存分析得到依存标签和依存树;
S6、基于词性标签和依存标签进行名词短语检测、动词短语检测、候选关系检测;
S7、结合语义词典,对候选关系中的词语进行语义标注,得到候选语义关系模式;
S8、对得到的候选语义关系模式进行聚类,得到一组最终的语义关系模式;
S9、利用语义词典和语义关系模式得到专业知识数据;
S10、利用jena工具将数据写成owl文件,将owl文件导入到protege中;
S11、生成最终的专业知识图谱。
在一个可选的实施例中,S2的具体步骤如下:将每条目标文本分割成多个句子;对每个句子分词并得到词的序列。
在一个可选的实施例中,在S4中,还包括如下步骤:利用Shingling算法计算任意两条文本之间的相似度,并将相似度大于阈值的所有文本放入同一个文本簇;对每个文本簇进行分类,并得到个文本簇所属类别。
在一个可选的实施例中,S5的具体步骤如下:对每个词语集合进行词性标注得到其词性标签;对每个词语集合进行依存分析,对存在语法依赖关系的两个词得到依存标签;所有词语的依存标签构成了依存树。
在一个可选的实施例中,在S6中,名词短语为包含名词的多个连续的词组成的短语;动词短语为依存树上有动宾关系的短语。
在一个可选的实施例中,在S6中,候选关系检测主要用于得到名词短语后,计算每两个名词短语之间是否存在关系。
在一个可选的实施例中,在S7中,语义标注是通过在语义词典中查找词语,得到对应的语义类型,并结合词语的词性进行判断;将词法关系模式中每个词进行语义标注之后,得到对应的语义关系模式。
在一个可选的实施例中,在S7中,对于有多个语义类型的词语,在整个文本集合上对所有抽取到的语义关系模式进行统计,从中寻找匹配的模式;若匹配不到语义关系模式,把多元的语义关系模式转化成多个二元模式,再进行匹配。
本发明中,首先利用网络爬虫技术获取专业知识文本;然后利用jieba工具对获取的专业知识文本进行分词,并利用stopwords工具去除分词文本中的停用词;然后进行n-gram处理,将每条文本转换成若干词语集合;之后通过词性标注得到词性标签,通过依存分析得到依存标签和依存树,基于词性标签和依存标签进行名词短语检测、动词短语检测、候选关系检测,并结合语义词典,对候选关系中的词语进行语义标注,得到候选语义关系模式;然后对得到的候选语义关系模式进行聚类,得到一组最终的语义关系模式,并利用语义词典和语义关系模式得到专业知识数据;最后利用jena工具将数据写成owl文件,将 owl文件导入到protege中,生成最终的专业知识图谱;
本发明进行了优化和扩展,构建专业知识图谱的效率高,成本较低,省时省力,构建的专业知识图谱的准确性高。
应当理解的是,本发明的上述具体实施方式仅仅用于示例性说明或解释本发明的原理,而不构成对本发明的限制。因此,在不偏离本发明的精神和范围的情况下所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。此外,本发明所附权利要求旨在涵盖落入所附权利要求范围和边界、或者这种范围和边界的等同形式内的全部变化和修改例。

Claims (8)

1.一种自动化的专业知识图谱构建方法,其特征在于,包括以下步骤:
S1、利用网络爬虫技术获取专业知识文本;
S2、利用jieba工具对获取的专业知识文本进行分词;
S3、利用stopwords工具去除分词文本中的停用词;
S4、进行n-gram处理,将每条文本转换成若干词语集合;
S5、通过词性标注得到词性标签,通过依存分析得到依存标签和依存树;
S6、基于词性标签和依存标签进行名词短语检测、动词短语检测、候选关系检测;
S7、结合语义词典,对候选关系中的词语进行语义标注,得到候选语义关系模式;
S8、对得到的候选语义关系模式进行聚类,得到一组最终的语义关系模式;
S9、利用语义词典和语义关系模式得到专业知识数据;
S10、利用jena工具将数据写成owl文件,将owl文件导入到protege中;
S11、生成最终的专业知识图谱。
2.根据权利要求1所述的一种自动化的专业知识图谱构建方法,其特征在于,S2的具体步骤如下:
将每条目标文本分割成多个句子;
对每个句子分词并得到词的序列。
3.根据权利要求1所述的一种自动化的专业知识图谱构建方法,其特征在于,在S4中,还包括如下步骤:
利用Shingling算法计算任意两条文本之间的相似度,并将相似度大于阈值的所有文本放入同一个文本簇;
对每个文本簇进行分类,并得到个文本簇所属类别。
4.根据权利要求1所述的一种自动化的专业知识图谱构建方法,其特征在于,S5的具体步骤如下:
对每个词语集合进行词性标注得到其词性标签;
对每个词语集合进行依存分析,对存在语法依赖关系的两个词得到依存标签;
所有词语的依存标签构成了依存树。
5.根据权利要求1所述的一种自动化的专业知识图谱构建方法,其特征在于,在S6中,名词短语为包含名词的多个连续的词组成的短语;动词短语为依存树上有动宾关系的短语。
6.根据权利要求1所述的一种自动化的专业知识图谱构建方法,其特征在于,在S6中,候选关系检测主要用于得到名词短语后,计算每两个名词短语之间是否存在关系。
7.根据权利要求1所述的一种自动化的专业知识图谱构建方法,其特征在于,在S7中,语义标注是通过在语义词典中查找词语,得到对应的语义类型,并结合词语的词性进行判断;
将词法关系模式中每个词进行语义标注之后,得到对应的语义关系模式。
8.根据权利要求1所述的一种自动化的专业知识图谱构建方法,其特征在于,在S7中,对于有多个语义类型的词语,在整个文本集合上对所有抽取到的语义关系模式进行统计,从中寻找匹配的模式;
若匹配不到语义关系模式,把多元的语义关系模式转化成多个二元模式,再进行匹配。
CN201910542202.1A 2019-06-21 2019-06-21 一种自动化的专业知识图谱构建方法 Pending CN110390022A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910542202.1A CN110390022A (zh) 2019-06-21 2019-06-21 一种自动化的专业知识图谱构建方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910542202.1A CN110390022A (zh) 2019-06-21 2019-06-21 一种自动化的专业知识图谱构建方法

Publications (1)

Publication Number Publication Date
CN110390022A true CN110390022A (zh) 2019-10-29

Family

ID=68285661

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910542202.1A Pending CN110390022A (zh) 2019-06-21 2019-06-21 一种自动化的专业知识图谱构建方法

Country Status (1)

Country Link
CN (1) CN110390022A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110888991A (zh) * 2019-11-28 2020-03-17 哈尔滨工程大学 一种弱标注环境下的分段式语义标注方法
CN110910168A (zh) * 2019-11-05 2020-03-24 北京洪泰文旅科技股份有限公司 一种文旅行业获客方法及设备
CN111488741A (zh) * 2020-04-14 2020-08-04 税友软件集团股份有限公司 一种税收知识数据语义标注方法及相关装置
CN111737400A (zh) * 2020-06-15 2020-10-02 上海理想信息产业(集团)有限公司 一种基于知识推理的大数据业务标签的扩展方法及***
CN112149427A (zh) * 2020-10-12 2020-12-29 腾讯科技(深圳)有限公司 动词短语蕴含图谱的构建方法及相关设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102184569A (zh) * 2011-06-11 2011-09-14 福州大学 一种领域本体驱动的单株木建模方法
CN107633044A (zh) * 2017-09-14 2018-01-26 国家计算机网络与信息安全管理中心 一种基于热点事件的舆情知识图谱构建方法
CN109522418A (zh) * 2018-11-08 2019-03-26 杭州费尔斯通科技有限公司 一种半自动的知识图谱构建方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102184569A (zh) * 2011-06-11 2011-09-14 福州大学 一种领域本体驱动的单株木建模方法
CN107633044A (zh) * 2017-09-14 2018-01-26 国家计算机网络与信息安全管理中心 一种基于热点事件的舆情知识图谱构建方法
CN109522418A (zh) * 2018-11-08 2019-03-26 杭州费尔斯通科技有限公司 一种半自动的知识图谱构建方法

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110910168A (zh) * 2019-11-05 2020-03-24 北京洪泰文旅科技股份有限公司 一种文旅行业获客方法及设备
CN110888991A (zh) * 2019-11-28 2020-03-17 哈尔滨工程大学 一种弱标注环境下的分段式语义标注方法
CN110888991B (zh) * 2019-11-28 2023-12-01 哈尔滨工程大学 一种弱标注环境下的分段式语义标注方法
CN111488741A (zh) * 2020-04-14 2020-08-04 税友软件集团股份有限公司 一种税收知识数据语义标注方法及相关装置
CN111737400A (zh) * 2020-06-15 2020-10-02 上海理想信息产业(集团)有限公司 一种基于知识推理的大数据业务标签的扩展方法及***
CN111737400B (zh) * 2020-06-15 2023-06-20 上海理想信息产业(集团)有限公司 一种基于知识推理的大数据业务标签的扩展方法及***
CN112149427A (zh) * 2020-10-12 2020-12-29 腾讯科技(深圳)有限公司 动词短语蕴含图谱的构建方法及相关设备
CN112149427B (zh) * 2020-10-12 2024-02-02 腾讯科技(深圳)有限公司 动词短语蕴含图谱的构建方法及相关设备

Similar Documents

Publication Publication Date Title
CN110390022A (zh) 一种自动化的专业知识图谱构建方法
CN109190117B (zh) 一种基于词向量的短文本语义相似度计算方法
Alzahrani et al. Fuzzy semantic-based string similarity for extrinsic plagiarism detection
CN109241538A (zh) 基于关键词和动词依存的中文实体关系抽取方法
CN105824933A (zh) 基于主述位的自动问答***及其实现方法
US20100161655A1 (en) System for string matching based on segmentation method and method thereof
Pourvali et al. Automated text summarization base on lexicales chain and graph using of wordnet and wikipedia knowledge base
CN109522418A (zh) 一种半自动的知识图谱构建方法
Falk et al. Classifying French verbs using French and English lexical resources
CN109614620B (zh) 一种基于HowNet的图模型词义消歧方法和***
CN109376352A (zh) 一种基于word2vec和语义相似度的专利文本建模方法
Chen et al. A boundary assembling method for Chinese entity-mention recognition
CN105912522A (zh) 基于成分分析的英语语料自动提取方法和提取器
CN111191464A (zh) 基于组合距离的语义相似度计算方法
Bougouin et al. Keyphrase annotation with graph co-ranking
CN101539906A (zh) 一种专利文本自动分析的***及方法
Kessler et al. Extraction of terminology in the field of construction
Watrin et al. An N-gram frequency database reference to handle MWE extraction in NLP applications
Guisado-Gámez et al. Massive query expansion by exploiting graph knowledge bases for image retrieval
Rosset et al. The LIMSI participation in the QAst track
CN101576876B (zh) 一种自动拆分英文复合词组的***和方法
Pourvali A new graph based text segmentation using Wikipedia for automatic text summarization
Maheswari et al. Rule based morphological variation removable stemming algorithm
Souza et al. Extraction of keywords from texts: an exploratory study using Noun Phrases
Tufiş et al. Revealing Translators' Knowledge: Statistical Methods in Constructing Practical Translation Lexicons for Language and Speech Processing

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20191029