CN111209412A

CN111209412A - 一种循环更新迭代的期刊文献知识图谱构建方法

Info

Publication number: CN111209412A
Application number: CN202010084144.5A
Authority: CN
Inventors: 吕强; 段飞虎; 蔡陨; 谢一鸣; 胡磊; 冯自强; ***
Original assignee: Tongfang Knowledge Network Digital Publishing Technology Co ltd; Tongfang Knowledge Network Beijing Technology Co ltd
Current assignee: Tongfang Knowledge Network Digital Publishing Technology Co ltd
Priority date: 2020-02-10
Filing date: 2020-02-10
Publication date: 2020-05-29
Anticipated expiration: 2040-02-10
Also published as: CN111209412B

Abstract

本发明公开了一种循环更新迭代的期刊文献知识图谱构建方法，包括概念模型设计，定义期刊文献知识图谱的本体结构，包括定义本体、本体的关系属性和本体内部的数据属性；管理词表和语料，词表分为主题词表和关系词表，语料库分为文本库和语句库并涉及多个来源的语料；基于深度学习的标注、训练、识别、校准实体关系抽取模型，采用深度学习实体关系抽取技术结合词典和语料，进行实体抽取和关系抽取，并更新迭代；通过概念设计定义的本体结构并引入模板进行语料属性抽取；对实体识别和关系抽取的结果进行审核和消歧，对于属性抽取的结果进行实体消歧；识别结果存入知识图谱，并不定时更新主题词典、关系词典和训练模型，以新的词典和模型再对语料进行识别达到循环迭代更新构建知识图谱。

Description

一种循环更新迭代的期刊文献知识图谱构建方法

技术领域

本发明涉及自然语言处理和计算机信息处理技术领域，尤其涉及一种循环更新迭代的期刊文献知识图谱构建方法。

背景技术

现有知识图谱是以“语义网络”为骨架构建起来的巨型、网络化的知识***，旨在描述客观世界的概念、实体、事件及其之间的关系。其中，概念是指人们在认识世界过程中形成对客观事物的概念化表示。知识图谱的关键技术涉及自然语言处理、数据挖掘和信息检索等多个领域，主要分为知识驱动和数据驱动两类，随着大数据的发展到了广泛应用，如法律、社交网络、医疗知识图谱等。

知识图谱构建的关键技术包括包括实体及关系抽取技术、知识融合技术、实体链接技术和知识推理技术，知识图谱构建包含从数据来源到应用等各个环节的相关技术。然而当前知识图谱构建主要侧重点在于实体关系抽取、语义分析等丰富和优化图谱内容环节，并没有在构建流程上进行深入探索。尤其是对于知识图谱的更新迭代和校准没有一个***的规范，使其达到一个闭环，真正实现构建知识图谱智能化和自动化。

发明内容

为解决上述技术问题，本发明的目的是提供一种循环更新迭代的期刊文献知识图谱构建方法，该方法从自动化构建知识图谱的角度出发，以知网期刊文献库为数据来源，将概念设计、词典管理、语料管理、模型训练、知识元抽取、实体消歧等多个知识图谱构建模块有机结合，通过更新迭代和不断优化知识图谱和训练的准确性从而形成闭环真正实现智能化循环更新迭代构建期刊文献知识图谱。

本发明的目的通过以下的技术方案来实现：

一种循环更新迭代的期刊文献知识图谱构建方法，包括：

A概念模型设计，定义期刊文献知识图谱的本体结构，包括定义本体、本体的关系属性和本体内部的数据属性；

B管理词表和语料，词表分为主题词表和关系词表，语料库分为文本库和语句库并涉及多个来源的语料；

C基于深度学习的标注、训练、识别、校准实体关系抽取模型，采用深度学习实体关系抽取技术结合词典和语料，进行实体抽取和关系抽取，并更新迭代；

D通过概念设计定义的本体结构并引入模板进行语料属性抽取；

E对实体识别和关系抽取的结果进行审核和消歧，对于属性抽取的结果进行实体消歧；

F识别结果存入知识图谱，并不定时更新主题词典、关系词典和训练模型，以新的词典和模型再对语料进行识别达到循环迭代更新构建知识图谱。

与现有技术相比，本发明的一个或多个实施例可以具有如下优点：

本发明对构建知识图谱提供一个规范流程参考，使构建知识图谱真正面向智能化，相对减少人力资源的浪费，提高知识图谱的易用性和实用性。

附图说明

图1是循环更新迭代的期刊文献知识图谱构建方法流程图；

图2是主题词表结构图；

图3是文本数据库结构图；

图4是语句数据库结构图；

图5是循环更新迭代的期刊文献知识图谱构建方法流程图；

图6是实体识别更新迭代模型流程图；

图7是关系识别更新迭代模型流程图；

图8是属性抽取模型流程图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合实施例及附图对本发明作进一步详细的描述。

如图1所示，为循环更新迭代的期刊文献知识图谱构建方法，包括步骤10概念模型设计，对知识图谱定义本体、数据属性和关系属性的规范。

本体模型参考复用CIDOC CRM、EDM、FOAF、EVENT、FRBR等国际上应用较为广泛的本体模型或数据标准，并根据自身业务特征进行扩展和自定义，提高本体模型的可复用性与国际化程度。

所述期刊文献知识图谱的本体构建包含了对期刊文献知识图谱的本体与数据模型层进行定义，其中包含以下：定义本体、定义本体的关系属性、定义本体内部的数据属性。

所述的本体为对象或对象的集合，例如：文本、作者和机构等信息。本体的关系属性主要定义本体之间的关联关系，例如：作者和作者之间有合作关系、作者和机构之间有从属关系等。本体内部的数据属性是本体自身的特征不存在关联关系，例如：作者姓名、年龄和籍贯等。

本发明为知识图谱定义了三元组规范：(E₁,R,E₂)，(E,P,V)其中E代表本体，R代表关系属性，P代表数据属性，V代表属性值。在实体-关系-实体的联系中，实体的值域是本体。

定义的期刊文献部分本体结构如下表：

表1

标识	本体
		E1	文本
E2	作者
		E3	机构
E4	时间
		E5	关系类型
E6	领域实体
		E7	地区

定义的期刊文献部分关系属性如下表：

表2

步骤20管理词表和语料，词表分为主题词表和关系词表，语料库分为文本库和语句库并涉及多个来源的语料；

期刊文献知识图谱的词表和语料库采用中图分类法的形式分成多个领域的数据。在词表在形式上分为主题词表和关系词表，主题词表定义了实体词的来源、领域、子领域等属性，关系词表定义了主题词表实体词之间的关系，在文献期刊中对词关系定义了上下位、相似、反义、相关等10种关系。

语料库分为文本库和语句库，文本库是网络期刊文献和本地资源的集合库，主要存储文献数据。为了便于进行文本深度挖掘，对文本库的期刊文献进行了预处理，并形成了语句库。其中语句库包含了来自期刊文献的语句以及主题词表中实体词所在语句的位置。其中，主题词表结构如图2所示。

其中content为实体词，English为英文翻译，catalog为中图分类，domain为词的来源等。

关系词表如表3：

表3

其中orgid和tarid为实体词所在主题词表的索引id，reltype为词关系id。语料库中文本库和语句库如图3和图4所示。

步骤30基于深度学习的标注、训练、识别、校准实体关系抽取模型，采用深度学习实体关系抽取技术结合词典和语料，进行实体抽取和关系抽取，并更新迭代。

实体抽取的更新迭代：

1、使用词典对语料集进行标注，对在语料中出现的实体词标注标签。

2、选取实体识别算法对标注集进行训练。实体识别的算法由机器学习到深度学习经历了一个更新迭代的过程，例如：HMM，CRF，BILSTM+CRF，Bert+BILSTM+CRF等。本发明采取Bert+BILSTM+CRF的算法进行实体识别。

3、使用训练好的标注模型继续对语料进行识别，并将识别结果进行校准将主题词典中未出现的新词保存到主题词典中。

4、再次用更新后的词典进行标注，并再次训练更新模型和词典。

实体抽取过程通过加入主题词典并以循环标注语料和训练模型的形式形成了更新迭代的闭环。使模型能够不断优化以提高实体识别的准确性。

关系抽取的更新迭代：

1、使用关系词典和已有的关系抽取模板对语句集进行标注，并形成训练模型。关系抽取涉及领域较广，传统的深度学习模型很难在关系抽取的训练上有较好的表现。因此，传统关系抽取设计了大量的模板包含了词性和语法特征。本发明通过模板和关系词库两种模式对语句集进行标注并形成训练样本。

2、选取关系抽取算法对标注集进行训练，关系抽取模型选取PCNN+Attention算法。使用使用CNN/PCNN作为sentence encoder,并使用句子级别的attention机制。

3、使用训练模型对新的语料进行关系识别，并将识别结果保存到数据库中通过人工审核进行纠正并保存到关系词典和语句集中，为新的训练样本进行语料储备。

4、使用新的训练样本再次识别语料并做循环迭代。

关系识别与实体识别采取同样的循环迭代流程，同时结合以往大量经验形成的模板提高识别的准确性。

循环更新迭代的期刊文献知识图谱构建方法流程图如图5所示，本地数据和期刊文献数据经过统一映射整理到文本库，文本库数据经过预处理形成语句库。文本库和语句库的数据为实体抽取模型和关系识别模型的输入语聊，词表中的主题词和关系词也伴随语料输入模型，属性抽取模型同时引入概念模型。实体抽取和关系识别模型的输出分别是识别的实体和新的关系词组，属性抽取模型输出是实体属性三元组。实体消歧之后进行校准并更新词表数据库和期刊文献知识图谱。新的词表再结合新的语料进行模型训练书输出的数据再次更新词表和知识图谱，由此过程实现更新迭代并不断修正模型和词表和知识图谱提高准确率和易用性，形成有机的智能的循环更新迭代机制。

如图6为实体识别更新迭代模型，通过词表对语料进行实体标注并将标注样本输入模型进行训练。训练出的模型对语料进行实体识别，识别结果再次更新词表和知识图谱从而形成实体识别的更新迭代模型。

同时关系识别更新迭代模型流程图如图7所示。

步骤40通过概念设计定义的本体结构并引入模板进行语料属性抽取。

属性抽取采用了依存句法分析模型，属性抽取过程如下：

1、结合概念设计中定义的本体结构和数据属性，形成实体属性模板并在语句集中遍历实体与存在相关属性的语句。

2、采用CRF算法对语句进行词性标注，实体词往往具有其固定词性，词性标注的难点在于对未登陆词判定词性和对词组词汇词性的判断。词性标注的结果对句法分析有很大影响。因此，使用CRF进行词性标注能够学习更多的实体特征并利于更新迭代。

3、将标注结果代入句法分析器进行句法分析，句法分析器采用依存算法，该算法的核心基于arc-standard***，使用分类器根据从配置信息中提取的特征来预测正确的转换操作，计算效率非常高

4、通过匹配语法模板来分析句法结果并抽取属性，例如主谓宾结构等。

如图8所示为属性抽取模型，概念模型和主题词典作为输入从语句库抽取语句当做样本模型。样本模型通过CRF做词性标注并将标注结果进行依存句法分析，分析出带有语法特征的语句结果，通过语法模板进行属性抽取并形成实体属性三元组存入知识图谱中。属性抽取模型的更新迭代主要通过循环训练CRF模型校准词性标注的准确率。

步骤50实体消歧和审核，对实体识别和关系抽取的结果进行审核和消歧，对于属性抽取的结果进行实体消歧。

实体消歧主要解决自然语言存在的一词多义和多词一义的现象。实体消歧分为两步，第一步在实体识别和关系识别之前上进行深度学习的消歧；第二主要采用关系词典和主题词典进行匹配消歧。将实体识别、关系识别和属性抽取的结果进行消歧。

步骤60识别结果存入知识图谱，并不定时更新主题词典、关系词典和训练模型。以新的词典和模型再对语料进行识别达到循环迭代更新构建知识图谱。

虽然本发明所揭露的实施方式如上，但所述的内容只是为了便于理解本发明而采用的实施方式，并非用以限定本发明。任何本发明所属技术领域内的技术人员，在不脱离本发明所揭露的精神和范围的前提下，可以在实施的形式上及细节上作任何的修改与变化，但本发明的专利保护范围，仍须以所附的权利要求书所界定的范围为准。

Claims

1.一种循环更新迭代的期刊文献知识图谱构建方法，其特征在于，所述方法包括：

2.如权利要求1所述的循环更新迭代的期刊文献知识图谱构建方法，其特征在于，所述步骤A中：

本体为对象或对象的集合；

本体的关系属性用于定义本体之间的关联关系；

本体内部的数据属性是本体自身的特征不存在关联关系。

3.如权利要求1所述的循环更新迭代的期刊文献知识图谱构建方法，其特征在于，所述步骤B中：

主题词表定义了实体词的来源、领域与子领域属性；

关系词表定义了主题词表实体词之间的关系，并在文献期刊中对词关系定义了上下位、相似、反义与相关关系；

文本库是网络期刊文献和本地资源的集合库，主要存储文献数据；对文本库的期刊文献进行了预处理，形成了语句库；所述语句库中包含来自期刊文献的语句以及主题词表中实体词所在语句的位置。

4.如权利要求1所述的循环更新迭代的期刊文献知识图谱构建方法，其特征在于，所述步骤C中实体抽取的更新迭代包括：

使用词典对语料集进行标注，对在语料中出现的实体词标注标签；

选取实体识别算法对标注集进行训练；

使用训练好的标注模型继续对语料进行识别，并将识别结果进行校准将主题词典中未出现的新词保存到主题词典中；

再次用更新后的词典进行标注，并再次训练更新模型和词典。

5.如权利要求1所述的循环更新迭代的期刊文献知识图谱构建方法，其特征在于，所述步骤C中关系抽取的更新迭代包括：

使用关系词典和已有的关系抽取模板对语句集进行标注，并形成训练模型；

选取关系抽取算法对标注集进行训练，关系抽取模型选取PCNN+Attention算法；

使用训练模型对新的语料进行关系识别，并将识别结果保存到数据库中通过人工审核进行纠正并保存到关系词典和语句集中，为新的训练样本进行语料储备；

使用新的训练样本再次识别语料并做循环迭代。

6.如权利要求1所述的循环更新迭代的期刊文献知识图谱构建方法，其特征在于，所述步骤D中属性抽取采用了依存句法分析模型，属性抽取过程如下：

结合概念设计中定义的本体结构和数据属性，形成实体属性模板并在语句集中遍历实体与存在相关属性的语句；

采用CRF算法对语句进行词性标注；

将标注结果代入句法分析器进行句法分析；

通过匹配语法模板来分析句法结果并抽取属性。