CN106446526B

CN106446526B - 电子病历实体关系抽取方法及装置

Info

Publication number: CN106446526B
Application number: CN201610798932.4A
Authority: CN
Inventors: 黄亦谦
Original assignee: Beijing Kilo-Ampere Wise Man Information Technology Co Ltd
Current assignee: Beijing Kilo-Ampere Wise Man Information Technology Co Ltd
Priority date: 2016-08-31
Filing date: 2016-08-31
Publication date: 2019-11-15
Anticipated expiration: 2036-08-31
Also published as: CN106446526A

Abstract

本公开公开一种电子病历实体关系抽取方法及装置，属于医疗数据挖掘领域。该方法包括：通过卷积神经网络模型和词向量化表示，获取电子病历自然语句映射后的矩阵；将测试的电子病历自然语句输入至已训练的卷积神经网络模型，得到特征向量；将特征向量输入至已训练的分类器，抽取所述测试的电子病历自然语句的实体关系。这样，利用了卷积神经网络模型的优势，挖掘出电子病历自然语言中实体之间的关系，为自动学习电子病历信息提供了技术途径。

Description

电子病历实体关系抽取方法及装置

技术领域

本公开涉及医疗数据挖掘领域，具体地，涉及一种电子病历实体关系抽取方法及装置。

背景技术

随着信息时代数据量的***式增长，临床医疗数据也展现出其容量大、增速快、形式多样和潜在价值高的特点。而在临床医疗领域，以自然语言文本形式存在的电子病历数据占有重要地位。在这种背景下，使用计算机从非结构化的电子病历文本数据中自动抽取出结构化的信息，即信息抽取技术，受到了广泛的关注，具有重要的应用价值。电子病历实体关系抽取是其信息提取的核心任务。

目前，用于文本实体关系抽取主要是有监督方法，这类方法将实体关系抽取视为一个分类问题，将句子中实体之间的关系划分到预先定义好的类别中，从而完成关系抽取任务。这类方法有两个主流研究方向：(a)人工提取特征，如词性、语义角色、依存句法树等，然后使用支持向量机或者最大熵等分类器进行分类；(b)基于核函数的方法，计算输入字符的核函数，根据核函数的相似度来判定关系类型。但是，由于这些方法的分类性能很大程度上依赖于基础自然语言处理工具，如词性标注、语法分析等，至少存在以下缺陷：

(1)这些基础工具都存在错误；

(2)特征集的选择依靠经验和专家知识；

(3)有些语言没有完善的基础处理工具。

发明内容

本公开的目的是提供一种电子病历实体关系抽取方法及装置，能够挖掘出电子病历中实体之间的关系。

为了实现上述目的，本公开提供一种电子病历实体关系抽取方法，所述方法包括：通过卷积神经网络模型和词向量化表示，获取电子病历自然语句映射后的矩阵；将测试的电子病历自然语句输入至已训练的卷积神经网络模型，得到特征向量；将所述特征向量输入至已训练的分类器，抽取所述测试的电子病历自然语句的实体关系。

可选地，所述通过卷积神经网络模型和词向量化表示，获取电子病历自然语句映射后的矩阵的步骤包括：分割每条电子病历自然语句的词；将每个词映射为一个m维的向量；将映射后的所述每条电子病历自然语句表示为n×m的矩阵，其中，矩阵的列维数为m，行维数为所述词的个数n。

可选地，在所述将测试的电子病历自然语句输入至已训练的卷积神经网络模型，得到特征向量的步骤之前，所述方法还包括：滑动卷积核，得到与映射后的所述电子病历自然语句的矩阵的卷积结果；根据所述卷积结果，经过最大池化层得到所述电子病历自然语句的特征；利用已有的电子病历训练集数据和所述特征，对所述卷积神经网络模型进行训练，得到卷积核参数和分类器参数。

可选地，在所述滑动卷积核，得到与映射后的所述电子病历自然语句的矩阵的卷积结果的步骤之前，所述方法还包括：设置所述电子病历自然语句中多个相邻词的行维数的卷积核的值为随机值。

可选地，所述利用已有的电子病历训练集数据和所述特征，对所述卷积神经网络模型进行训练，得到卷积核参数和分类器参数的步骤包括：选取已有的电子病历训练集数据，将所述已有的电子病历训练集数据的实体关系进行分类标注；根据所述分类标注和经过最大池化层得到的特征，训练所述卷积神经网络模型，得到卷积核参数和分类器参数。

此外，为实现上述目的，本公开还提供一种电子病历实体关系抽取装置，所述装置包括：矩阵获取模块，用于通过卷积神经网络模型和词向量化表示，获取电子病历自然语句映射后的矩阵；计算模块，用于将测试的电子病历自然语句输入至已训练的卷积神经网络模型，得到特征向量；抽取模块，用于将所述特征向量输入至已训练的分类器，抽取所述测试的电子病历自然语句的实体关系。

可选地，所述矩阵获取模块包括：分割子模块，用于分割每条电子病历自然语句的词；映射子模块，用于将每个词映射为一个m维的向量；矩阵输出子模块，用于将映射后的所述每条电子病历自然语句表示为n×m的矩阵，其中，矩阵的列维数为m，行维数为所述词的个数n。

可选地，所述装置还包括：卷积模块，用于滑动卷积核，得到与映射后的所述电子病历自然语句的矩阵的卷积结果；特征计算模块，用于根据所述卷积结果，经过最大池化层得到所述电子病历自然语句的特征；参数计算模块，用于利用已有的电子病历训练集数据和所述特征，对所述卷积神经网络模型进行训练，得到卷积核参数和分类器参数。

可选地，所述装置还包括：设置模块，用于设置所述电子病历自然语句中多个相邻词的行维数的卷积核的值为随机值。

可选地，所述参数计算模块包括：分类标注子模块，用于选取已有的电子病历训练集数据，将所述已有的电子病历训练集数据的实体关系进行分类标注；参数计算子模块，用于根据所述分类标注和经过最大池化层得到的特征，训练所述卷积神经网络模型，得到卷积核参数和分类器参数。

通过上述技术方案，通过卷积神经网络模型和词向量化表示，获取电子病历自然语句映射后的矩阵，将测试的电子病历自然语句输入至已训练的卷积神经网络模型，得到特征向量，将特征向量输入至已训练的分类器，抽取所述测试的电子病历自然语句的实体关系。这样，利用了卷积神经网络模型的优势，挖掘出电子病历自然语言中实体之间的关系，为自动学习电子病历信息提供了技术途径。

本公开的其他特征和优点将在随后的具体实施方式部分予以详细说明。

附图说明

附图是用来提供对本公开的进一步理解，并且构成说明书的一部分，与下面的具体实施方式一起用于解释本公开，但并不构成对本公开的限制。在附图中：

图1是本公开一实施例提供的电子病历实体关系抽取方法的流程示意图；

图2是本公开一实施例提供的获取电子病历自然语句映射后的矩阵的流程示意图；

图3是本公开另一实施例提供的电子病历实体关系抽取方法的流程示意图；

图4是本公开一实施例提供的对所述卷积神经网络模型进行训练的流程示意图；

图5是本公开一实施例提供的电子病历实体关系抽取装置的框图；

图6是本公开一实施例提供的矩阵获取模块的框图；

图7是本公开另一实施例提供的电子病历实体关系抽取装置的框图；

图8是本公开一实施例提供的参数计算模块的框图。

具体实施方式

以下结合附图对本公开的具体实施方式进行详细说明。应当理解的是，此处所描述的具体实施方式仅用于说明和解释本公开，并不用于限制本公开。

本公开提出的电子病历实体关系抽取方法及装置是基于卷积神经网络。所谓卷积神经网是一种特殊的深层神经网络，也是第一个成功应用的深层网络模型。卷积神经网利用空间相对关系减少参数数目，成为当今很多计算机视觉***，如图像识别、自动驾驶等的核心部分。

卷积的概念来自于数字信号处理，一维形式的卷积定义如下：

公式(1)的物理含义是一个信号通过一个***后的输出形式，数学形式上是求信号的加权平均值。

二维形式的卷积定义如下：

二维卷积常用于图像处理，在公式(2)中，f(x,y)是图像上点的灰度值，w(x,y)则是卷积核，也称为滤波器。卷积操作就相当于将图像通过滤波器进行滤波。在卷积神经网络中，并不是所有上下层神经元都能直接相连，而是通过“卷积核”作为中介，同一个卷积核在所有图像内是共享的。

卷积神经网络每层都由特征提取层和其后用来求局部平均与二次提取的计算层，这种特有的两层特征提取结构使网络在识别时有较高的畸变容忍能力。卷积神经网有三个主要优点：一是通过权值共享机制，减少了网络参数；二是卷积的操作非常快；三是通过下采样机制，使得提取的特征具有旋转不变性和平移不变性。卷积神经网几乎覆盖所有识别和检测任务。

图1是本公开一实施例提供的电子病历实体关系抽取方法的流程示意图。请参照图1，所述方法可以包括以下步骤。

在步骤S110中，通过卷积神经网络模型和词向量化表示，获取电子病历自然语句映射后的矩阵。

具体地，在卷积神经网络模型中，使用词向量将电子病历自然语句进行映射，每条语句表示为矩阵。

示例性地，使用词向量模型工具将每条电子病历自然语句的词映射为一个400维的向量，每条语句表示为矩阵。其中，矩阵列维数为400，行维数为该语句中词的个数。

图2是本公开一实施例提供的获取电子病历自然语句映射后的矩阵的流程示意图。请参照图2，通过卷积神经网络模型和词向量化表示，获取电子病历自然语句映射后的矩阵的步骤(步骤S110)可以包括以下步骤。

在步骤S210中，分割每条电子病历自然语句的词。

具体地，将每条电子病历自然语句的词都独立分割出来，可表示为：

W_n＝{w₁,w₂,w₃,…,w_n} (3)

在公式(3)，W_n表示一条语句分割后的词向量表达式，n表示语句中词的个数。

在步骤S220中，将每个词映射为一个m维的向量。

具体地，利用词向量模型工具将每个词映射为一个m维的向量，可表示为：

在公式(4)中，表示词w_i经过词向量模型工具映射后的词向量，D表示词向量模型工具的字典函数。

可选地，所述的词向量模型工具至少包括谷歌的开源词向量训练工具Word2vec和斯坦福大学的GloVe。

示例性地，取m为400，即：将每个词映射为一个维数为400的向量。

在步骤S230中，将映射后的所述每条电子病历自然语句表示为n×m的矩阵，其中，矩阵的列维数为m，行维数为所述词的个数n。

示例性地，取矩阵的列维数m为400，行维数为所述词的个数n，则每条映射后的电子病历自然语句表示为矩阵V_n×400。

返回图1，在步骤S120中，将测试的电子病历自然语句输入至已训练的卷积神经网络模型，得到特征向量。

具体地，将电子病历自然语句映射后的矩阵经过卷积层和最大池化层，再进行非线性映射，得到特征，输入测试的电子病历自然语句，利用训练好的卷积神经网络模型得到该自然语句的特征向量。

在训练的时候，对连续n个词的窗口进行打分f(w_t-n+1,…,w_t-1，w_t)，分数越高则这句话越正常。在此假设条件下，卷积神经网络模型的最小化目标函数为：

在公式(5)中，χ是训练语料中所有连续n元短语，D是包含所有单词的词典。第一个求和使用训练语料中全部的n元短语作为正样本。第二个求和通过对词典中词的替换获取负样本。x^(w)是将短语x中最中间的词，随机替换成w。在绝大部分情况下，用随机的一个词替换正常的一段短语中的词，这段短语将变得不再合理，所以x^(w)构成了负样本。

在步骤S130中，将所述特征向量输入至已训练的分类器，抽取所述测试的电子病历自然语句的实体关系。

具体地，将特征向量输入到已训练的分类器，根据最大概率原则抽取测试的电子病历自然语句的实体关系。

可选地，所述分类器可以是Softmax分类器。

本实施例提供的电子病历实体关系抽取方法，通过卷积神经网络模型和词向量化表示，获取电子病历自然语句映射后的矩阵，将测试的电子病历自然语句输入至已训练的卷积神经网络模型，得到特征向量，将特征向量输入至已训练的分类器，抽取所述测试的电子病历自然语句的实体关系，从而利用了卷积神经网络模型的优势，挖掘出电子病历自然语言中实体之间的关系，为自动学习电子病历信息提供了技术途径。

图3是本公开另一实施例提供的电子病历实体关系抽取方法的流程示意图。参照图3，在图1的基础上，在所述将测试的电子病历自然语句输入至已训练的卷积神经网络模型，得到特征向量的步骤(步骤S120)之前，所述方法还包括以下步骤。

步骤S310，滑动卷积核，得到与映射后的所述电子病历自然语句的矩阵的卷积结果。

具体地，纵向滑动卷积核，得到与映射后的电子病历自然语句矩阵V_n×400的卷积结果，可表示为：

C＝{c₁,c₂,…,c_n-h+1} (7)

在公式(6)中，V_n×400代表每条映射后的电子病历自然语句的矩阵，L代表卷积核，C代表卷积结果。在公式(7)中，C的维数为n-h+1，n为语句中词的个数，h为卷积核的行维数。

在步骤S320中，根据所述卷积结果，经过最大池化层得到所述电子病历自然语句的特征。

具体地，根据每个卷积核得到的多个卷积结果，经过最大池化层得到电子病历自然语句的特征。

在步骤S330中，利用已有的电子病历训练集数据和所述特征，对所述卷积神经网络模型进行训练，得到卷积核参数和分类器参数。

在本公开的一实施例中，在图3的基础上，滑动卷积核，得到与映射后的所述电子病历自然语句的矩阵的卷积结果的步骤(步骤S310)之前，所述方法还可以包括：设置所述电子病历自然语句中多个相邻词的行维数的卷积核的值为随机值。

示例性地，在电子病历自然语句中，选择多个相邻词的行维数分别为3、4、5的卷积核各100个，所有卷积核的列维数为400，卷积核的值为随机值，则三种卷积核分别表示为L_3×400、L_4×400、L_5×400。

图4是本公开一实施例提供的对所述卷积神经网络模型进行训练的流程示意图。请参照图4，在图3的基础上，利用已有的电子病历训练集数据和所述特征，对所述卷积神经网络模型进行训练，得到卷积核参数和分类器参数的步骤(步骤S330)可以包括以下步骤。

在步骤S410中，选取已有的电子病历训练集数据，将所述已有的电子病历训练集数据的实体关系进行分类标注。

在步骤S420中，根据所述分类标注和经过最大池化层得到的特征，训练所述卷积神经网络模型，得到卷积核参数和分类器参数。

具体地，根据梯度下降方法对卷积神经网络模型进行训练，得到卷积核参数和分类器参数。

进一步地，上述参数可以表示为：θ＝(F,S)，其中，F代表卷积核参数，S代表分类器参数。

可选地，分类器为Softmax分类器。

本实施例的电子病历实体关系抽取方法，使用浅层网络，网络的输入层由词向量将自然语句映射后构成一个矩阵，该矩阵经过卷积层和池化层之后，得到特征，使用Softmax分类器，输出分类后的类别标签，从而利用卷积神经网络模型，挖掘出电子病历中实体之间的关系，为自动学习电子病历信息提供了技术途径。

图5是本公开一实施例提供的电子病历实体关系抽取装置的框图。请参照图5，所述电子病历实体关系抽取装置500可以包括矩阵获取模块510、计算模块520和抽取模块530。

矩阵获取模块510，用于通过卷积神经网络模型和词向量化表示，获取电子病历自然语句映射后的矩阵。

具体地，在卷积神经网络模型中，矩阵获取模块510使用词向量将电子病历自然语句进行映射，每条语句表示为矩阵。

示例性地，使用词向量模型工具将每条电子病历自然语句的词映射为一个400维的向量，每条语句表示为矩阵，其中，矩阵列维数为400，行维数为该语句中词的个数。

图6是本公开一实施例提供的矩阵获取模块510的框图。请参照图6，矩阵获取模块510可以包括分割子模块610、映射子模块620和矩阵输出子模块630。

分割子模块610用于分割每条电子病历自然语句的词。

具体地，分割子模块610将每条电子病历自然语句的词都独立分割出来，可表示为：

W_n＝{w₁,w₂,w₃,…,w_n} (3)

在公式(3)中，W_n表示一条语句分割后的词向量表达式，n表示语句中词的个数。

映射子模块620用于将每个词映射为一个m维的向量。

具体地，映射子模块620利用词向量模型工具将每个词映射为一个m维的向量，可表示为：

矩阵输出子模块630用于将映射后的所述每条电子病历自然语句表示为n×m的矩阵，其中，矩阵的列维数为m，行维数为所述词的个数n。

示例性地，取矩阵的列维数m为400，行维数为所述词的个数n，则矩阵输出子模块630将每条映射后的电子病历自然语句表示为矩阵V_n×400。

返回图5，计算模块520用于将测试的电子病历自然语句输入至已训练的卷积神经网络模型，得到特征向量。

具体地，计算模块520将电子病历自然语句映射后的矩阵经过卷积层和最大池化层，再进行非线性映射，得到特征，输入测试的电子病历自然语句，计算模块520利用训练好的卷积神经网络模型得到该自然语句的特征向量。

抽取模块530,用于将所述特征向量输入至已训练的分类器，抽取所述测试的电子病历自然语句的实体关系。

具体地，将特征向量输入到已训练的分类器，抽取模块530根据最大概率原则抽取测试的电子病历自然语句的实体关系。

可选地，所述分类器可以是Softmax分类器。

本实施例提供的电子病历实体关系抽取装置，矩阵获取模块510通过卷积神经网络模型和词向量化表示，获取电子病历自然语句映射后的矩阵，计算模块520将测试的电子病历自然语句输入至已训练的卷积神经网络模型，得到特征向量，抽取模块530将特征向量输入至已训练的分类器，抽取所述测试的电子病历自然语句的实体关系，从而利用了卷积神经网络模型的优势，挖掘出电子病历自然语言中实体之间的关系，为自动学习电子病历信息提供了技术途径。

图7是本公开另一实施例提供的电子病历实体关系抽取装置的框图。请参照图7，在图5的基础上，所述装置还包括卷积模块710、特征计算模块720、参数计算模块730。

卷积模块710用于滑动卷积核，得到与映射后的所述电子病历自然语句的矩阵的卷积结果。

具体地，纵向滑动卷积核，卷积模块710得到与映射后的电子病历自然语句矩阵V_n×400的卷积结果，可表示为：

C＝{c₁,c₂,…,c_n-h+1} (7)

特征计算模块720用于根据所述卷积结果，经过最大池化层得到所述电子病历自然语句的特征。

具体地，特征计算模块730根据每个卷积核得到的多个卷积结果，经过最大池化层得到电子病历自然语句的特征。

参数计算模块730用于利用已有的电子病历训练集数据和所述特征，对所述卷积神经网络模型进行训练，得到卷积核参数和分类器参数。

可选地，在图7的基础上，所述装置还可以包括设置模块。

设置模块用于设置所述电子病历自然语句中多个相邻词的行维数的卷积核的值为随机值。

示例性地，在电子病历自然语句中，设置模块选择多个相邻词的行维数分别为3、4、5的卷积核各100个，所有卷积核的列维数为400，卷积核的值为随机值，则三种卷积核分别表示为L_3×400、L_4×400、L_5×400。

图8是本公开一实施例提供的参数计算模块730的框图。请参照图8，参数计算模块730可以包括分类标注子模块810和参数计算子模块820。

分类标注子模块810用于选取已有的电子病历训练集数据，将所述已有的电子病历训练集数据的实体关系进行分类标注。

参数计算子模块820用于根据所述分类标注和经过最大池化层得到的特征，训练所述卷积神经网络模型，得到卷积核参数和分类器参数。

具体地，参数计算子模块820根据梯度下降方法对卷积神经网络模型进行训练，得到卷积核参数和分类器参数。

可选地，分类器为Softmax分类器。

本实施例的电子病历实体关系抽取装置，使用浅层网络，网络的输入层由词向量将自然语句映射后构成一个矩阵，该矩阵经过卷积层和池化层之后，得到特征，使用Softmax分类器，输出分类后的类别标签，从而利用卷积神经网络模型，挖掘出电子病历中实体之间的关系，为自动学习电子病历信息提供了技术途径。

以上结合附图详细描述了本公开的优选实施方式，但是，本公开并不限于上述实施方式中的具体细节，在本公开的技术构思范围内，可以对本公开的技术方案进行多种简单变型，这些简单变型均属于本公开的保护范围。

另外需要说明的是，在上述具体实施方式中所描述的各个具体技术特征，在不矛盾的情况下，可以通过任何合适的方式进行组合，为了避免不必要的重复，本公开对各种可能的组合方式不再另行说明。

此外，本公开的各种不同的实施方式之间也可以进行任意组合，只要其不违背本公开的思想，其同样应当视为本公开所公开的内容。

Claims

1.一种电子病历实体关系抽取方法，其特征在于，所述方法包括：

将每条电子病历自然语句的词都独立分割出来：

W_n＝{w₁,w₂,w₃,…,w_n}

其中，W_n表示一条语句分割后的词向量，n表示语句中词的个数；

将每个词映射为一个m维的向量；

将映射后的所述每条电子病历自然语句表示为n×m的矩阵，其中，矩阵的列维数为m，行维数为所述词的个数n；

将测试的电子病历自然语句输入至已训练的卷积神经网络模型，得到特征向量，在训练所述卷积神经网络模型时，对连续n个词的窗口进行打分f(w_t-n+1,…,w_t-1，w_t)，所述卷积神经网络模型的最小化目标函数为：

其中，χ为训练语料中所有连续n元短语，D为包含所有单词的词典，x^(w)表示将短语x中最中间的词随机替换成w；

将所述特征向量输入至已训练的分类器，抽取所述测试的电子病历自然语句的实体关系，

其中，在所述将测试的电子病历自然语句输入至已训练的卷积神经网络模型，得到特征向量的步骤之前，所述方法还包括：

滑动卷积核，得到与映射后的所述电子病历自然语句的矩阵的卷积结果；

根据所述卷积结果，经过最大池化层得到所述电子病历自然语句的特征；

利用已有的电子病历训练集数据和所述特征，对所述卷积神经网络模型进行训练，得到卷积核参数和分类器参数，

其中，所述利用已有的电子病历训练集数据和所述特征，对所述卷积神经网络模型进行训练，得到卷积核参数和分类器参数的步骤包括：

选取已有的电子病历训练集数据，将所述已有的电子病历训练集数据的实体关系进行分类标注；

根据所述分类标注和经过最大池化层得到的特征，训练所述卷积神经网络模型，得到卷积核参数和分类器参数。

2.根据权利要求1所述的方法，其特征在于，在所述滑动卷积核，得到与映射后的所述电子病历自然语句的矩阵的卷积结果的步骤之前，所述方法还包括：

设置所述电子病历自然语句中多个相邻词的行维数的卷积核的值为随机值。

3.一种电子病历实体关系抽取装置，其特征在于，所述装置包括：

矩阵获取模块，用于通过卷积神经网络模型和词向量化表示，获取电子病历自然语句映射后的矩阵；

计算模块，用于将测试的电子病历自然语句输入至已训练的卷积神经网络模型，得到特征向量，在训练所述卷积神经网络模型时，对连续n个词的窗口进行打分f(w_t-n+1,…,w_t-1，w_t)，所述卷积神经网络模型的最小化目标函数为：

抽取模块，用于将所述特征向量输入至已训练的分类器，抽取所述测试的电子病历自然语句的实体关系，

其中，所述装置还包括：

卷积模块，用于滑动卷积核，得到与映射后的所述电子病历自然语句的矩阵的卷积结果；

特征计算模块，用于根据所述卷积结果，经过最大池化层得到所述电子病历自然语句的特征；

参数计算模块，用于利用已有的电子病历训练集数据和所述特征，对所述卷积神经网络模型进行训练，得到卷积核参数和分类器参数，

其中，所述参数计算模块包括：

分类标注子模块，用于选取已有的电子病历训练集数据，将所述已有的电子病历训练集数据的实体关系进行分类标注；

参数计算子模块，用于根据所述分类标注和经过最大池化层得到的特征，训练所述卷积神经网络模型，得到卷积核参数和分类器参数，

其中，所述矩阵获取模块包括：

分割子模块，用于将每条电子病历自然语句的词都独立分割出来：

W_n＝{w₁,w₂,w₃,…,w_n}

映射子模块，用于将每个词映射为一个m维的向量；

矩阵输出子模块，用于将映射后的所述每条电子病历自然语句表示为n×m的矩阵，其中，矩阵的列维数为m，行维数为所述词的个数n。

4.根据权利要求3所述的装置，其特征在于，所述装置还包括：

设置模块，用于设置所述电子病历自然语句中多个相邻词的行维数的卷积核的值为随机值。