CN106776711B

CN106776711B - 一种基于深度学习的中文医学知识图谱构建方法

Info

Publication number: CN106776711B
Application number: CN201611017724.2A
Authority: CN
Inventors: 郑小林; 王维维; 扈中凯; 黄嘉伟
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2016-11-14
Filing date: 2016-11-14
Publication date: 2020-04-07
Anticipated expiration: 2036-11-14
Also published as: CN106776711A

Abstract

本发明涉及知识图谱技术，旨在提供一种基于深度学习的中文医学知识图谱构建方法。包括：从数据源获取医疗领域相关数据；使用分词工具对非结构化数据进行分词，使用RNN完成序列标注任务以识别医疗相关的实体，实现知识单元的抽取；对实体进行特征向量的构建，使用RNN进行序列标注并完成知识单元间关系的识别；进行实体对齐后，利用提取的实体以及实体之间的关系构建知识图谱。本发明巧妙地将循环神经网络用于知识单元抽取和知识单元间关系识别，能很好地完成对非结构化数据的处理。本发明提出适用于医学领域的特征来进行网络的训练任务，相对于通用特征而言更能够代表医学实体，使得抽取出的知识单元和知识单元间的关系更加准确、全面。

Description

一种基于深度学习的中文医学知识图谱构建方法

技术领域

本发明涉及知识图谱技术，特别涉及一种基于深度学习的中文医学知识图谱构建方法。

背景技术

随着越来越多的语义万维网数据在互联网上开放，国内外各个互联网搜索引擎公司开始以此为基础构建知识图谱从而提升服务质量，如Google知识图谱(GoogleKnowledge Graph)，百度“知心”等。知识图谱(Knowledge Graph)的本质上是一种语义网络。其结点代表实体(entity)或者概念(concept)，边代表实体或概念之间的各种语义关系。它是一种知识管理的服务模式，能够将各个领域琐碎、零散的知识相互连接，从而组成一个以“语义网络”为骨架构建起来的巨型、网络化的知识***。现在，人们已经开始将知识图谱应用在综合性知识检索以及问答、决策支持等智能***中。

然而，虽然搜索引擎利用通用的大型知识图谱能够为用户提供高质量的检索、推荐等服务，但是当用户需要进行某一特定领域(如医学领域)的检索时，搜索引擎提供的结果常常看似相关度高，但实际上不能满足用户需求。因此垂直搜索引擎应运而生。就医学领域而言，当用户需要查询某些症状对应的可能疾病、疾病对应的症状和治疗方法、药物的治疗功能以及特性等信息时，医学垂直搜索引擎利用针对于医学领域构建的知识图谱在这些方面返回的结果往往比通用搜索更加专注、具体和深入。

目前国内外还没有成熟的中文医学知识图谱构建案例，而现有的知识图谱对中文的支持也不够。因此，本发明要解决的技术问题是如何从全网的各种结构化、半结构化以及非结构化数据中通过深度学习提取出医学领域的实体、实体之间的关系，并且通过这些提取出的知识构建出医学领域的知识图谱，这样可以提高垂直于医学领域的搜索引擎的检索的精确性与实用性。

知识图谱旨在描述真实世界中存在的各种实体、实体的属性以及实体之间的关系，构建知识图谱的主要工作流程包括：获取数据、构建知识单元、构建单元关系、知识图谱的结构化展示。然而通用的知识图谱覆盖的信息规模太大，因此在使用过程中会露出一些问题，比如缺少细节，时效性差，关系过于死板等等，于是出现了一些更加智能化、个性化和专业化的垂直知识图谱。

垂直知识图谱针对特定领域，专注于自己的特长，保证了对该领域信息的完全收录与及时更新。与通用的知识图谱不同，垂直知识图谱的实体以及实体的属性只限定在该领域，而实体间关系除了来自通用的关系，还会针对特定领域添加更加详细和全面的与该领域相关的关系。因为本发明是面向医疗领域的，因此牵涉的关系和实体不像通用知识图谱那么多，但都是与领域密切相关的，在关系方面更加细致和深入。

在知识图谱的构建过程中，最为关键的两个步骤就是知识单元抽取以及知识单元的关系抽取，也就是实体识别以及实体之间的关系抽取。以垂直于医学领域的知识图谱为例，实体识别就是在非结构化数据中识别出症状、药品以及疾病等医学相关的名词，而实体关系抽取则是抽取出这些识别出的实体之间的关系，包括疾病对应的症状、疾病对应的相关药品等关系。以往在进行实体识别以及实体关系抽取时，人们主要使用支持向量机(SVM)以及条件随机场(CRF)之类的浅层学习方法，***还需要融入大量适用于特定学习任务的人工特征，从而会导致部分特征的丢失。本发明则尝试使用深度学习中的循环神经网络(RNN)来完成这一任务，通过综合多种高维度的特征向量，形成越来越抽象的深层表示，从而在实体识别和关系抽取的任务上达到更高的准确率和召回率。

与本发明最相近似的实现方案有下面几种，中国发明专利申请：“一种面向图书的阅读领域知识图谱构建方法”(申请号：2013104203759)、“基于结构化数据的知识图谱构建方法和装置”(申请号：2014108044667)、“一种基于深度学习的命名实体关系抽取与构建方法”(申请号：2014104880477)。

发明1(一种面向图书的阅读领域知识图谱构建方法)为一种面向图书的阅读领域知识图谱构建方法。该方法分为三个部分：通用知识图谱构建、领域知识图谱构建和智能阅读推荐。即：获取互联网上的知识，集成通用知识图谱；结合通用知识图谱利用迭代的方式扩展书籍相关的概念和实体，结合实体Infobox表和传统关系抽取实体关系；按照实体由长到短标注电子书籍中的核心实体，并建立实体与书籍知识图谱的链接，以实现智能知识推荐。该发明通过建立面向书籍的阅读领域知识图谱，对书籍中的实体进行解释或知识推荐，增加了知识的深度，实现了电子阅读的便捷化、智能化和人性化，具有更好的用户体验。

发明2(基于结构化数据的知识图谱构建方法和装置)为一种基于结构化数据的知识图谱构建方法和装置，该方法包括：获取一条或多条包含实体名称及对应实体属性信息的结构化数据；提取所述结构化数据中包含的实体名称及其属性信息的映射关系，生成对应的数据结构对；将所述生成的数据结构对作为知识图谱数据项进行存储。本发明基于结构化数据的结构性特点构建知识图谱，使得知识图谱中数据项的架构包括实体名称及对应实体属性信息，基于知识图谱结构化数据对外提供搜索服务时，能够直观、精确地将实体属性信息作为搜索结果提供给用户。

发明3(一种基于深度学习的命名实体关系抽取与构建方法)为一种基于深度学习的命名实体关系抽取与构建方法，用于互联网信息技术领域。该方法针对某一特定领域，在垂直网站上抓取领域内的新闻数据，对获取的新闻数据进行预处理；新闻数据分词，抽取关键词，生成行业词库，利用行业词库对新闻数据重新分词；抽取种子词库；无监督构建实体关系网络，从新闻数据中抽取包含两个以上实体的句子，抽取句子中的动词以及对应的文档，对抽取的文档建立基于深度学习的词聚类模型，根据动词描述的词之间的关系，构建实体关系网络；定义实体关系类别，对实体关系网络中的每个实体对，进行关系分类。

发明1和发明2虽然也完成了知识图谱的构建，但是要把它们的方法直接应用到医学领域，就会存在以下的不足：

●依赖于传统的实体关系提取算法。但在医学领域中实体和实体关系比图书阅读领域更加繁多，因此在高维度的特征向量以及上下文强相关的前提下，这种方法缺乏对上下文的联系、并且效率较低，并不适合医学领域的分类。

●过度依赖结构化数据。在医学领域中，大部分数据都是半结构化或非结构化的，如果过于依赖结构化数据，那么得到的知识图谱覆盖范围则不全面。

发明3(一种基于深度学习的命名实体关系抽取与构建方法)通过深度学习中的词聚类模型从爬取的非结构化新闻数据中提取除了实体之间的关系并对这些关系进行分类并构架关系网络。发明3虽然使用深度学习的词聚类模型完成了实体关系的抽取任务，但是只是针对新闻领域，相对来说实体关系较少。对于实体以及实体关系繁多的医学领域，在上下文关系的处理上也有所欠缺，这种模型就不适用了。

发明内容

本发明要解决的技术问题是，克服现有技术中的不足，提供一种基于深度学习的中文医学知识图谱构建方法。

为解决技术问题，本发明的解决方案是：

提供一种基于深度学习的中文医学知识图谱构建方法，是从全网提取与医学领域相关的结构化、半结构化与非结构化的数据，并利用深度学习技术从中抽取出相关信息，最终完成垂直医疗领域的知识图谱构建任务；

该方法具体包括以下步骤：

(1)从数据源获取医疗领域相关数据

获得包括百科类站点、医疗领域类站点和医疗专业名词库的数据；其中，对结构化数据直接存储以作为后续的训练集，对于非结构化数据在存储后用于后续的知识单元抽取；

(2)知识单元抽取

使用分词工具对非结构化数据进行分词，然后使用循环神经网络完成序列标注任务，根据序列标注的结果识别出医疗相关的实体，实现知识单元的抽取；

(3)知识单元间关系识别

对知识单元抽取过程中得到的实体进行特征向量的构建，然后使用循环神经网络进行序列标注，并根据序列标注的结果完成知识单元间关系的识别；

(4)实体对齐

查找具有不同标识实体但代表同一对象的实体，并将其归并为具有全局唯一标识的实体对象添加到知识图谱中；

(5)知识图谱的构建

利用提取的实体以及实体之间的关系构建知识图谱。

本发明中，从数据源获取医疗领域相关数据时，若缺少结构化数据，则直接提取其中所有的内容作为非结构化数据存储；若为半结构化数据，则按照小标题名、属性名和相关链接名的关系进行存储。

本发明中，在知识单元抽取这一步骤中，先训练出适用的神经网络以用于序列标注；具体包括：

(1)通过对实体的体征进行构造，得到实体的特征向量；

(2)结合已收集的结构化数据对训练集进行标注；

(3)训练神经网络，得到一个能对非结构化数据分词结果进行标注的循环神经网络；

所述对实体的体征进行构造，是指针对医疗领域的实体特点来定义特征，并构造特征向量；所述特征是指基于上下文的特征、基于语义标签的特征或基于医学词典的词向量特征中的任意一种。

本发明中，在知识单元间关系识别这一步骤中，先训练出适用的神经网络以用于序列标注；具体包括：

(1)根据知识单元抽取步骤中获得的实体识别结果，提取语料中所有的实体对；通过对实体对的体征进行构造，得到实体对的特征向量；

(2)结合已收集的结构化数据构成的语义关系网络进行自动标注，其余的实体则按照多数原则进行标注；

(3)将已标注的数据集的70％作为训练集进行循环神经网络的网络训练，在训练收敛后，用剩下的30％进行测试，并根据测试结果来调整网络结构或训练参数；训练完成后，再利用循环神经网络结合收集到的非结构化数据对知识单元抽取出来的实体进行关系标注；

本发明中，所述基于上下文的特征是指：

文本中单词的含义与这个单词在文本中出现位置前后的单词有很大关联，在对医学领域实体进行识别时，以目标词为中心，前后的若干个单词为该词的上下文，并将其作为该词的特征使用；

对于任意文档d以及文档d中的每一个词w，定义上下文窗口context＝[-t,+t]，应用上下文特征集合提取算法得到每一个w对应的上下文特征f_ctx(w)；

将语料库corpus中所有文档中的每个词w对应的上下文特征f_ctx(w)汇总，即可得到该语料库的全部特征集合F_ctx(corpus)。

对所有文档重复上述操作，即得到所有w的全部特征集合F_ctx(corpus)；

由于每次抽取多个单词组成一个特征导致特征的稀疏程度较大，而多数文档仅包含几个特征并且每个特征仅出现一次，故采用二元值{0,1}而非特征的频率定义特征在向量中的分量值；

设语料库中全部文档抽取得到全部特征的集合为F_ctx(corpus)，则对于该语料库下述公式将特征集合f_ctx(w)转化为特征向量v_ctx(w)：

其中i＝1,…,|F_ctx(corpus)|(表示特征的总个数)；V_ctx(w)为单词w的上下文特征向量；

为V_ctx(w)的第i个分量；fⁱ为特征向量第i个分量对应的特征。

本发明中，所述基于语义标签的特征是指：

单词在文本中的语义类别和文档中单词间的依赖关系能提供关于单词更多的信息，因此在医学实体识别的过程中以目标词为中心词，检查相关的语义类别和依赖关系；

在分词阶段使用语法解析工具Stanford Parser(由斯坦福大学自然语言研究小组推出)作为分词工具，以分词结果中的POS标签作为语义类别，以结果中的依赖列表作为依赖关系，相似的语义标签归为一类；

定义一个窗口大小为t的窗口[-t,+t]，在这个窗口中，在目标词w之前的单词的标签作为目标词的前缀prefix，在目标词之后的单词的标签作为目标词w的后缀suffix，具体如下式所示：

prefix＝{(POS_prefix,POS_w)}

suffix＝{(POS_w,POS_prefix)}

利用语义标签特征集合提取算法得到每个单词的语义标签特征，对所有文档进行如上的操作即可得到所有w的全部特征集合F_pos(corpus)；

所述语义标签特征集合提取算法是指：在选取了语料库corpus以及从语料库中提取出prefix与suffix语义标签集合之后，利用如下的步骤得到最终每个目标词w对应的语义标签特征集合f_pos(w)：

(1)设置f_pos(w)为空集；

(2)对语料库的每个文档中的单词进行遍历，设定当前单词为w_k；

(3)对于处于[k-t,k-1]这个窗口中的单词w_prefix，如果w_prefix对应的语义标签POS_prefix以及当前单词w_k所对应的语义标签POS_k的组合属于prefix语义标签集合，则将(POS_prefix,w_k)添加至f_pos(w)；

(4)对于处于[k+1,k+t]这个窗口中的单词w_suffix，如果w_suffix对应的语义标签POS_suffix以及当前单词w_k所对应的语义标签POS_k的组合属于suffix语义标签集合，则将(w_k,POS_suffix)添加至f_pos(w)；

采用二元值{0,1}来定义特征在向量中的分量值，设语料库中全部文档抽取得到全部特征的集合为F_pos(corpus)，则通过这个特征集合将每个目标词所对应的特征集合f_pos(w)转化为特征向量v_pos(w)。

本发明中，所述基于医学词典的词向量特征是指：利用国际疾病分类词典ICD10中所收录的医学词汇，结合word2vec软件来构造与疾病相关的医学名词所对应的特征向量。

本发明中，在实体识别过程中，通过使用长短时记忆模型(LSTM)或者门控循环单元(GRU)来替循环神经网络(RNN)中的隐层单元，以用于长距离依赖的场景。

与现有同类技术相比，本发明的有益效果在于：

1、在现有的知识图谱构建过程中，从非结构化数据抽取知识单元以及识别知识单元之间的关系一直都是一个技术难点，现有的技术往往使用传统的语言模型，最好的技术也只是将深度学习用于简单的词聚类任务，对于高维度的特征、繁多的知识单元以及关系、较长的上下文联系处理都有所欠缺。本发明巧妙地将循环神经网络用于上述两个任务(还可以结合长短时记忆模型)，能够很好地完成对非结构化数据的处理。

2、本发明是垂直于医学领域的，提出了适用于医学领域的特征来进行网络的训练任务，相对于通用的特征而言更能够代表医学实体，从而使得抽取出的知识单元和知识单元间的关系更加准确和全面。

附图说明

图1为本发明实现流程示意图；

图2为上下文特征提取算法示意图；

图3为语义标签特征集合提取算法示意图；

图4为中文医学知识图谱模式层实例展示。

具体实施方式

部分术语解释：

知识图谱：知识图谱(Knowledge Graph)本质上是一种语义网络。其结点代表实体(entity)或者概念(concept)，边代表实体或概念之间的各种语义关系。它是一种知识管理与服务模式，能够将各个领域琐碎、零散的知识相互连接、从而组成一个以“语义网络”为骨架构建起来的巨型、网络化的知识***。

知识单元(命名实体)：知识单元是指构成整个知识图谱的最基本单元形态。在医学领域的知识图谱中，知识单元通常是指疾病、药品、症状、治疗方法等这样的医学名词。在本发明中，知识单元与命名实体含义相同。

命名实体识别(知识单元抽取)：命名实体识别是指在非结构化文本数据中识别具有特定意义的实体。在本发明中，具体是指从医学领域的描述文本中抽取出疾病、药品、症状、治疗方法等这样的医学名词。这些医学名词与知识单元一一对应，因此这个过程也可以被叫做知识单元抽取。

实体关系抽取(知识单元关系抽取)：实体关系抽取是指从非结构化文本数据中抽取出各个实体之间的关系。在此发明中具体是指从医学领域的描述文本中抽取出疾病、药品、症状、治疗方法之间的对应关系。

本发明为解决技术问题，提出一种基于深度学习的中文医学知识图谱构建方法，具体包括四个步骤：获取数据、知识单元抽取、知识单元关系识别、知识图谱构建。

●获取数据

首先要做的工作就是收集中文医学知识的数据，本发明主要收集了百科站点的非结构化数据，医疗领域站点的结构化数据以及国际采用的一体化医学语言***的名词库数据。

(一)获取百科类站点的数据

(1)从全网中的各类百科类站点(包括***，中文有互动百科，百度百科)中爬取与医疗相关的词条

(2)若缺少结构化数据，则直接提取其中所有的内容，作为非结构化数据存储，若为半结构化数据，则按照一定的关系(小标题名、属性名、相关链接名)进行存储

(二)获取医疗领域类站点的数据

(1)从全网中人工搜索医疗相关的网站

(2)针对不同站点编写不同的爬虫程序

(3)医疗领域站点的数多数是结构化数据，如疾病与症状的关联、疾病与药品的关联等，因此可以将这些关系直接存储，作为后续的训练集

(4)关于疾病和症状的简介，其中同样包含着大量在结构化数据中不存在的信息，因此也需要将这些信息作为非结构化数据存储

(三)获取医疗专业名词库数据

国际疾病分类(international Classification of diseases，ICD)是依据疾病的病因、病理、临床表现和解剖位置等特性，将疾病分门别类，并用编码的方法来表示的***。目前全世界通用的是第10次修订本《疾病和有关健康问题的国际统计分类》，仍保留了ICD的简称，并被统称为ICD-10。ICD-10的中文版本中涵盖绝大多数医学领域的疾病词汇，因此可以用于与疾病相关的医学名词的特征提取过程。可以通过从ICD-10的疾病分类词典获取大量的疾病名词库和分类信息，直接作为已知分类的疾病实体进行存储，为后续的实体识别以及实体关系抽取任务做准备。随着该词典的中文版本的更新及内容不断扩充，其在本发明中的应用范围也将随之得到扩展。

●知识单元抽取

在获得中文医学知识数据以后，主要对非结构化数据进行知识单元的抽取。知识单元抽取可以映射为命名实体识别。就医学领域而言，就是把症状、疾病以及药品等与医疗相关的概念识别出来。这属于自然语言处理问题，而绝大多数的自然语言处理问题都可以转化为序列标注问题，也就是是对线性序列中每个元素根据上下文内容进行分类的问题。而本发明使用的是这种思路，先使用分词工具对非结构化数据进行分词，接着使用RNN进行序列标注任务，在根据序列标注的结果识别出医疗相关的实体。

要利用循环神经网络完成标注任务，就得训练出适用的神经网络。第一，通过对实体的体征进行构造，得到实体的特征向量；第二，结合已收集的结构化数据对训练集进行标注；第三，训练神经网络。完成上述步骤，就能得到一个可以对非结构化数据分词得到的词进行标注的循环神经网络。

(一)构造特征向量

首先需要针对医疗领域的实体特点，定义适当的特征，并构造特征向量。

在本发明中使用了如下三种特征：

(1)基于上下文的特征

文本中单词的含义与这个单词在文本中出现位置前后的单词有很大关联。医学领域实体识别时，以目标词为中心，前后的若干个单词为该词的上下文，并将其作为该词的特征使用。对于任意文档d以及文档d中的每一个词w，定义上下文窗口context＝[-t,+t]，应用上下文特征集合提取算法得到每一个w对应的上下文特征f_ctx(w)。将语料库(corpus)中所有文档中的每个词w对应的上下文特征f_ctx(w)汇总，即可得到该语料库的全部特征集合F_ctx(corpus)。(上下文特征集合提取算法属于现有技术，本文并未做任何特别改进，因此不再赘述。)

对所有文档进行如上的操作即可得到所有w的全部特征集合F_ctx(corpus)

由于每次抽取多个单词组成一个特征导致特征的稀疏程度较大，多数文档仅包含几个特征并且每个特征仅出现一次。因此采用二元值{0,1}而非特征的频率定义特征在向量中的分量值。设语料库中全部文档抽取得到全部特征的集合为F_ctx(corpus)。

则对于该语料库可以使用公式1以及公式2将特征集合f_ctx(w)转化为特征向量v_ctx(w)。

(2)基于语义标签的特征

单词在文本中的语义类别和文档中单词间的依赖关系可以提供关于单词更多的信息。因此在医学实体识别的过程中，可以以目标词为中心词，检查相关的语义类别和依赖关系。本发明在分词阶段使用语法解析工具Stanford Parser(由斯坦福大学自然语言研究小组推出)作为分词工具，以分词结果中的POS标签作为语义类别，以结果中的依赖列表作为依赖关系。其中，一些相似的语义标签可以归为一类，具体的归类方案如下表。

POS标签类别	POS标签
		J	JJ,JJR,JJS
N	NN,NNS,NNP,NNPS
		V	VB,VBD,VBG,VBN,VBP,VBZ
R	RB,RBR,RBS
		O	其他

表1语义标签归类表

同样地，定义一个窗口大小为t的窗口[-t,+t]，在这个窗口中，在目标词w之前的单词的标签作为目标词的前缀prefix，在目标词之后的单词的标签作为目标词w的后缀suffix，具体如下式所示。

prefix＝{(POS_prefix,POS_w)}

suffix＝{(POS_w,POS_prefix)}

利用如图3所示的语义标签特征集合提取算法，可以得到每个单词的语义标签特征。对所有文档进行如上的操作即可得到所有w的全部特征集合F_pos(corpus)。与上下文特征向量构造时相同，仍然采用二元值{0,1}来定义特征在向量中的分量值。设语料库中全部文档抽取得到全部特征的集合为F_pos(corpus)，则通过这个特征集合可以将每个目标词所对应的特征集合f_pos(w)转化为特征向量v_pos(w)。

(1)设置f_pos(w)为空集；

(3)基于医学词典的词向量特征

国际疾病分类词典ICD10中所收录的医学词汇可以直接用于医学领域词向量的构建。因此，对于语料库中的每个单词，都可以根据这个词典结合word2vec来构造对应的特征向量。

(二)标注训练集

RNN的训练是有监督训练，因此需要对训练集进行标注。首先结合国际疾病分类词典ICD10以及来自结构化数据构成的词典来进行自动标注，余下的则按照多数原则进行标注。这里的标注是为了提高训练集的质量和扩大训练集容量，尽可能地减少噪点，采用多数原则可以极大地消除因主观能动性引起的影响。

(三)RNN网络训练

循环神经网络(RNN)包含输入单元(Input units)，输入集标记为{x0,x1,...,xt,xt+1,...}，而输出单元(Output units)的输出集则被标记为{y0,y1,...,yt,yt+1.,..}。RNN还包含隐藏单元(Hidden units)，将其输出集标记为{s0,s1,...,st,st+1,...}，这些隐藏单元完成了最为主要的工作。与传统的神经网络不同的是，RNN会引导信息从输出单元返回隐藏单元，并且隐藏层的输入还包括上一隐藏层的状态，即隐藏层内的节点可以自连也可以互连。在实体识别中，还可以使用长短时记忆模型(LSTM)或者门控循环单元(GRU)来替RNN中的隐层单元对于解决长距离依赖的场景明显要优于RNN本身。

将已标注的数据集的70％作为训练集进行RNN的网络训练，在训练收敛后，用剩下的30％进行测试，并根据测试结果来调整网络结构或训练参数。

训练完成后，利用训练好的循环神经网络对知识实体进行识别，即序列标注任务，即可完成知识单元抽取。

●知识单元关系识别

知识单元抽取完成后，需要进行实体关系的识别，同样，需要采用构造一个循环神经网络来对实体关系进行识别。

知识单元间关系可以映射为命名实体的关系识别，在命名实体识别部分识别出来的医学实体，在实体关系识别中，希望能将这些实体对应起来，如将疾病与相关症状对应上，将疾病与相关药品对应上。这个任务同样也可以转化为序列标注问题。在使用分词工具对非结构化数据进行分词后，结合知识单元抽取任务中抽取出的实体进行特征向量的构建，接着使用RNN进行序列标注任务，最后根据序列标注的结果完成知识单元间关系的识别。以下是构造循环神经网络的过程：

(一)构造特征向量

这里使用的特征向量与实体识别过程中的特征向量基本一致，唯一的不同之处在于，在构造特征向量之前，首先需要根据实体识别的结果提取语料中所有的实体对，即每一个句子中出现的任意两个实体都标为一个实体对。接下来的特征则是针对这个实体对来进行提取并构造特征向量的。

(二)标注训练集

标注训练集的方法与在实体识别中的方法基本一致，首先结合国际疾病分类词典ICD10以及来自结构化数据构成的语义关系网络来进行自动标注，余下的则按照多数原则进行标注。这里的标注是为了提高训练集的质量和扩大训练集容量，尽可能地减少噪点，采用多数原则可以极大地消除因主观能动性引起的影响。

(三)RNN网络训练

训练完成后，再利用RNN结合收集到的非结构化数据对知识单元抽取出来的实体进行关系标注。

●实体对齐

在通过深度学习从各种半结构化和非结构化数据种抽取出相关实体以及实体之间的关系之后，还需要进行实体对齐任务。

实体对齐旨在发现具有不同标识实体但却代表真实世界中同一对象的那些实体，并将这些实体归并为一个具有全局唯一标识的实体对象添加到知识图谱中。在医学领域，具体表现在很多疾病都有别称，实体对齐的任务就是要求所有对应同一种疾病的别称都对齐到同一个疾病实体上。在实体对齐过程中，可以使用一定的规则帮助程序自动对齐，如具有相同属性-值的实体也可能代表相同对象(属性相似)；具有相同邻居的实体可能指向同一个对象(结构相似)。除此之外，还可以根据现有的词典以及人工的方式进行对齐。

●知识图谱构建

在完成上述任务之后，就可以开始构建知识图谱了。模式是对知识的提炼，为知识图谱构建模式(schema)相当于为其建立本体(Ontology)。最基本的本体包括概念、概念层次、属性、属性值类型、关系、关系定义域(Domain)概念集以及关系值域(Range)概念集。在此基础上，可以额外添加规则(Rules)或公理(Axioms)来表示模式层更复杂的约束关系。本发明的模式层构建依赖于从百科站点以及医疗站点的结构化数据得到的高质量知识中所提取的模式信息，相对于通用知识图谱而言更加准确和领域相关。附图4是针对医疗领域设计的知识图谱的模式层部分。附图4所示的是由一个疾病“大肠癌”展开的知识图谱，其中圆形代表实体，这里的实体是通过对收集到的数据进行分词，再利用循环神经网络进行标注得到的实体；虚线代表实体间的关系，这些关系是由人工定义的(如这里用到的“有…症状”，“功能主治”，“可采用…手术”等)，再通过对抽取出的实体单元进行关系标注，即可得到图示。

Claims

1.一种基于深度学习的中文医学知识图谱构建方法，其特征在于，从全网提取与医学领域相关的结构化、半结构化与非结构化的数据，并利用深度学习技术从中抽取出相关信息，最终完成垂直医疗领域的知识图谱构建任务；

该方法具体包括以下步骤：

(1)从数据源获取医疗领域相关数据

(2)知识单元抽取

在该步骤中，先训练出适用的神经网络以用于序列标注；具体包括：

(2.1)通过对实体的特征进行构造，得到实体的特征向量；

(2.2)结合已收集的结构化数据对训练集进行标注；

(2.3)训练神经网络，得到一个能对非结构化数据分词结果进行标注的循环神经网络；

(3)知识单元间关系识别

(3.1)根据知识单元抽取步骤中获得的实体识别结果，提取语料中所有的实体；通过对实体的特征进行构造，得到实体的特征向量；

(3.2)结合已收集的结构化数据构成的语义关系网络进行自动标注，其余的实体则按照多数原则进行标注；

(3.3)将已标注的数据集的70％作为训练集进行循环神经网络的网络训练，在训练收敛后，用剩下的30％进行测试，并根据测试结果来调整网络结构或训练参数；训练完成后，再利用循环神经网络结合收集到的非结构化数据对知识单元抽取出来的实体进行关系标注；

(4)实体对齐

(5)知识图谱的构建

利用提取的实体以及实体之间的关系构建知识图谱；

在步骤(2.1)和步骤(3.1)中，所述对实体的特征进行构造是指，针对医疗领域的实体特点来定义特征，并构造特征向量；所述特征是指基于上下文的特征、基于语义标签的特征或基于医学词典的词向量特征中的任意一种；其中，

所述基于上下文的特征是指：

对于任意文档d以及文档d中的每一个词w，定义上下文窗口context＝[-t，+t]，应用上下文特征提取算法得到每一个w对应的上下文特征f_ctx(w)；

将语料库corpus中所有文档中的每个词w对应的上下文特征f_ctx(w)汇总，即可得到该语料库的全部上下文特征集合F_ctx(corpus)；

由于每次抽取多个单词组成一个特征导致特征的稀疏程度较大，而多数文档仅包含几个特征并且每个特征仅出现一次，故采用二元值{0，1}而非特征的频率定义特征在向量中的分量值；

设语料库中全部文档抽取得到全部上下文特征集合为F_ctx(corpus)，则对于该语料库下述公式将上下文特征f_ctx(w)转化为特征向量v_ctx(w)：

其中i＝1，...，|F_ctx(corpus)|，表示特征的总个数；V_ctx(w)为单词w的上下文特征向量；

2.根据权利要求1所述的方法，其特征在于，从数据源获取医疗领域相关数据时，若缺少结构化数据，则直接提取其中所有的内容作为非结构化数据存储；若为半结构化数据，则按照小标题名、属性名和相关链接名的关系进行存储。

3.根据权利要求1所述的方法，其特征在于，所述基于语义标签的特征是指：

在分词阶段使用语法解析工具Stanford Parser作为分词工具，以分词结果中的POS标签作为语义类别，以结果中的依赖列表作为依赖关系，相似的语义标签归为一类；

定义一个窗口大小为t的窗口[-t，+t]，在这个窗口中，在目标词w之前的单词的标签作为目标词的前缀prefix，在目标词之后的单词的标签作为目标词w的后缀suffix，具体如下式所示：

prefix＝{(POS_prefix，POS_w)}

suffix＝{(POS_w，POS_suffix)}

利用语义标签特征集合提取算法得到每个单词的语义标签特征，对所有文档进行如上的操作即可得到所有w的全部语义标签特征集合F_POS(corpus)；

(1)设置f_pos(w)为空集；

(3)对于处于[k-t，k-1]这个窗口中的单词w_prefix，如果w_prefix对应的语义标签POS_prefix以及当前单词w_k所对应的语义标签POS_k的组合属于prefix语义标签集合，则将(POS_prefix，w_k)添加至f_pos(w)；

(4)对于处于[k+1，k+t]这个窗口中的单词w_suffix，如果w_suffix对应的语义标签POS_suffix以及当前单词w_k所对应的语义标签POS_k的组合属于suffix语义标签集合，则将(w_k，POS_suffix)添加至f_pos(w)；

采用二元值{0，1}来定义特征在向量中的分量值，设语料库中全部文档抽取得到全部语义标签特征集合为F_POS(corpus)，则通过这个特征集合将每个目标词所对应的特征集合f_pos(w)转化为特征向量v_pos(w)。

4.根据权利要求1所述的方法，其特征在于，所述基于医学词典的词向量特征是指：利用国际疾病分类词典《疾病和有关健康问题的国际统计分类》中所收录的医学领域的疾病词汇，结合word2vec软件来构造与疾病相关的医学名词所对应的特征向量。

5.根据权利要求1所述的方法，其特征在于，在实体识别过程中，通过使用长短时记忆模型或者门控循环单元来替循环神经网络中的隐层单元，以用于长距离依赖的场景。