CN109388807B

CN109388807B - 电子病历命名实体识别的方法、装置及存储介质

Info

Publication number: CN109388807B
Application number: CN201811282557.3A
Authority: CN
Inventors: 任江涛; 殷明旺
Original assignee: Sun Yat Sen University
Current assignee: Sun Yat Sen University
Priority date: 2018-10-30
Filing date: 2018-10-30
Publication date: 2021-09-21
Anticipated expiration: 2038-10-30
Also published as: CN109388807A

Abstract

本发明公开了一种电子病历命名实体识别的方法，包括：生成待识别命名实体的电子病历的字符序列对应的字向量矩阵和偏旁向量矩阵，将所述偏旁向量矩阵输入到卷积神经网络层进行处理，得到所述字符序列对应的偏旁卷积向量矩阵，根据所述字向量矩阵和偏旁卷积向量矩阵生成字特征向量矩阵，将所述字特征向量矩阵输入到双向长短期记忆网络中进行处理，得到所述电子病历的命名实体识别结果。本发明还公开了一种电子病历命名实体识别装置和存储介质。本发明通过提取电子病历字符内部的形态特征，将字符本身的特征和字符内部的形态特征依次输入到深度神经网络中对字符标签进行预测，提供了一种识别准确率高的电子病历命名实体识别的方法。

Description

电子病历命名实体识别的方法、装置及存储介质

技术领域

本发明涉及计算机技术领域，尤其涉及一种电子病历命名实体识别的方法、电子病历命名实体识别装置及计算机存储介质。

背景技术

随着我国社会经济的蓬勃发展及人民生活水平的日益提高，人们健康意识的也日益增强，如何利用大量的医疗数据来构建智能医疗体系是目前社会的迫切需求。电子病历是医疗数据里数量最多，包含信息也最多的医疗数据文本，其具有其独特的专业性，针对患者并且由专业医生书写，详细记录了出入院过程中的各种症状、医生诊断的疾病及相应的治疗手段，还有各类检查报告的结果等，包含了大量的医学信息。因此很多的智能医疗信息***都是基于电子病历的信息来构建。在构建智能医疗信息***和体系的过程中，命名实体识别是对大量的医疗数据进行信息抽取的重要任务的基础，对各种医疗领域的信息处理和管理***十分重要。

现有技术中已经有面向医疗领域基于深度学习的命名实体识别方法，利用神经网络模型来提取字或词之间的上下文信息，输出一个实体类别的概率分布。但是由于字或词的信息表示不全，只依靠字向量或词向量，没有考虑到字或词内部隐藏的深层信息，识别效果不佳。

上述内容仅用于辅助理解本发明的技术方案，并不代表承认上述内容是现有技术。

发明内容

本发明的主要目的在于提供一种电子病历命名实体识别的方法、电子病历命名实体识别装置、电子病历命名实体识别设备和计算机存储介质，旨在解决现有技术所采取基于深度学习的实现方法中只依靠字向量或词向量，没有考虑到字或词内部隐藏的深层信息，识别效果不佳的技术问题。

为实现上述目的，本发明提供一种电子病历命名实体识别的方法，所述电子病历命名实体识别的方法包括如下步骤：

生成待识别命名实体的电子病历的字符序列对应的字向量矩阵；

生成所述字符序列对应的偏旁向量矩阵；

将所述偏旁向量矩阵输入到第一神经网络进行处理，得到所述字符序列对应的偏旁卷积向量矩阵，其中，所述第一神经网络包括卷积神经网络层；

根据所述字向量矩阵和所述偏旁卷积向量矩阵生成字特征向量矩阵；

将所述字特征向量矩阵输入到第二神经网络中进行处理，得到所述电子病历的命名实体识别结果，其中，所述第二神经网络包括双向长短期记忆网络层；

其中，所述第一神经网络和所述第二神经网络的参数根据已识别命名实体的电子病历训练得到。

优选地，所述生成所述字符序列对应的偏旁向量矩阵的步骤包括：

获取所述字符序列中各个字符的汉字部件；

根据所述汉字部件生成各个所述字符的偏旁向量；

根据各个所述字符的偏旁向量生成所述字符序列对应的偏旁向量矩阵。

优选地，所述第二神经网络还包括全连接层，所述将所述字特征向量矩阵输入到第二神经网络中进行处理，得到所述电子病历的命名实体识别结果的步骤包括：

将所述字特征向量矩阵输入到所述双向长短期记忆网络进行处理，得到所述字符序列对应的隐向量矩阵；

将所述隐向量矩阵输入所述全连接层进行处理，得到所述电子病历的命名实体识别结果。

优选地，所述第二神经网络还包括自注意机制层，所述将所述字特征向量矩阵输入到第二神经网络中进行处理，得到所述电子病历的命名实体识别结果的步骤包括：

将所述隐向量矩阵输入到自注意机制层进行处理，得到所述电子病历的命名实体识别结果。

优选地，所述第二神经网络还包括自注意机制层和条件随机场模型，所述将所述字特征向量矩阵输入到第二神经网络中进行处理，得到所述电子病历的命名实体识别结果的步骤包括：

将所述隐向量矩阵输入到自注意机制层进行处理，得到所述字符序列对应的预测矩阵；

将所述预测矩阵输入所述条件随机场模型进行处理，得到所述电子病历的命名实体识别结果。

优选地，所述自注意机制层包括全连接层，所述将所述隐向量矩阵输入到自注意机制层进行处理，得到所述字符序列对应的预测矩阵的步骤包括：

计算所述隐向量矩阵中隐向量的注意力权重；

根据所述注意力权重和所述隐向量生成注意力向量矩阵；

根据所述隐向量矩阵和所述注意力向量矩阵生成注意力隐向量矩阵；

将所述注意力隐向量矩阵输入所述全连接层进行处理，得到所述字符序列对应的预测矩阵。

优选地，所述计算所述隐向量矩阵中隐向量的注意力权重步骤包括：

根据下述公式计算所述隐向量矩阵中隐向量之间的依赖关系：

f_t,t′＝σ(w_a tanh(w_th_t+w_t′h_t′))，

其中，t和t'表示不同的时间步，w_a，w_t，w_t′为权重向量，σ为sigmoid函数，h_t为和h_t′为不同时间步的隐向量；

根据下述公式为所示隐向量矩阵中各个隐向量h_k计算对应的注意力权重

其中，e为指数函数，N为所述隐向量的数目，

优选地，所述第二神经网络还包括条件随机场模型，所述将所述字特征向量矩阵输入到第二神经网络中进行处理，得到所述电子病历的命名实体识别结果的步骤包括：

将所述隐向量矩阵输入到条件随机场模型进行处理，得到所述电子病历的命名实体识别结果。

此外，为实现上述目的，本发明还提供所述电子病历命名实体识别装置，该装置包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的电子病历命名实体识别处理程序，所述电子病历命名实体识别处理程序被所述处理器执行时实现如上所述的电子病历命名实体识别的方法的步骤。

此外，为实现上述目的，本发明还提出一种计算机存储介质，其特征在于，所述计算机存储介质上存储有电子病历命名实体识别的处理程序，所述电子病历命名实体识别的处理程序被处理器执行时实现如上所述电子病历命名实体识别的方法的步骤。

本发明实施例提出的电子病历命名实体识别的方法、电子病历命名实体识别装置和计算机存储介质，生成待识别命名实体的电子病历的字符序列对应的字向量矩阵和偏旁向量矩阵，将所述偏旁向量矩阵输入到卷积神经网络层进行处理，得到所述字符序列对应的偏旁卷积向量矩阵，根据所述字向量矩阵和偏旁卷积向量矩阵生成字特征向量矩阵，将所述字特征向量矩阵输入到双向长短期记忆网络中进行处理，得到所述电子病历的命名实体识别结果。本发明通过提取电子病历字符内部的形态特征，将字符本身的特征和字符内部的形态特征依次输入到深度神经网络中对字符标签进行预测，提供了一种识别准确率高的电子病历命名实体识别的方法。

附图说明

图1是本发明实施例方案涉及的硬件运行环境的装置结构示意图；

图2为本发明电子病历命名实体识别方法第一实施例的流程示意图；

图3为本发明电子病历命名实体识别方法第一实施例的卷积神经网络处理过程示意图；

图4为本发明电子病历命名实体识别方法第一实施例的神经网络***处理过程示意图；

图5为本发明电子病历命名实体识别方法第二实施例的流程示意图；

图6为本发明电子病历命名实体识别方法第二实施例的神经网络***处理过程示意图；

图7为本发明电子病历命名实体识别方法第三实施例的流程示意图；

图8为本发明电子病历命名实体识别方法第三实施例的神经网络***处理过程示意图；

图9为本发明电子病历命名实体识别方法第四实施例的流程示意图；

图10为本发明电子病历命名实体识别方法第四实施例的神经网络***处理过程示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

如图1所示，图1是本发明实施例方案涉及的硬件运行环境的终端结构示意图。

本发明实施例终端可以是PC，也可以是智能手机、平板电脑、电子书阅读器、MP3(Moving Picture Experts Group Audio Layer III，动态影像专家压缩标准音频层面3)播放器、MP4(Moving Picture Experts Group Audio Layer IV，动态影像专家压缩标准音频层面3)播放器、便携计算机等具有显示功能的可移动式终端设备。

如图1所示，该终端可以包括：处理器1001，例如CPU，网络接口1004，用户接口1003，存储器1005，通信总线1002。其中，通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard)，可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器，也可以是稳定的存储器(non-volatile memory)，例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。

可选地，终端还可以包括摄像头、RF(Radio Frequency，射频)电路，传感器、音频电路、WiFi模块等等。其中，传感器比如光传感器、运动传感器以及其他传感器。具体地，光传感器可包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示屏的亮度，接近传感器可在移动终端移动到耳边时，关闭显示屏和/或背光。作为运动传感器的一种，重力加速度传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别移动终端姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等；当然，移动终端还可配置陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器，在此不再赘述。

本领域技术人员可以理解，图1中示出的终端结构并不构成对终端的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

如图1所示，作为一种计算机存储介质的存储器1005中可以包括操作***、网络通信模块、用户接口模块以及电子病历命名实体识别处理程序。

在图1所示的终端中，网络接口1004主要用于连接后台服务器，与后台服务器进行数据通信；用户接口1003主要用于连接客户端(用户端)，与客户端进行数据通信；而处理器1001可以用于调用存储器1005中存储的电子病历命名实体识别处理程序，并执行所述电子病历命名实体识别方法的步骤。

参照图2，本发明第一实施例提供一种电子病历命名实体识别的方法，所述方法包括：

步骤S10，生成待识别命名实体的电子病历的字符序列对应的字向量矩阵。

首先先获取待识别命名实体的电子病历的现病史内容中的字符序列。由于本实施例提供的电子病历命名实体识别方法是通过结合卷积网络模型(CNN)和双向长短期记忆网络模型(Bi-LSTM)来实现，而这些网络模型只能处理数值类型的输入，所以在获取到待识别命名实体的电子病历的字符序列时，需要将其转换成向量的形式。

通常可以使用预先训练好的字向量获取字符序列对应的字向量，比如采用Google的word2vec向量表示方法，该方法可将字符投影到低维空间中，在该低维空间中语意相近的字或词的距离都比较近。例如，“中国”和“广州”，“中国”和“计算机”两组词，前者在这个低维空间中的距离远小于后者之间的距离。

为了在采用word2vec向量表示方法得到准确的词向量，使用10000份电子病历来作为语料训练字向量，并采用word2vec中的Skip-Gram模型来训练。虽然在训练时Skip-Gram模型比CBOW模型要慢，但是Skip-Gram模型在包含稀有字符的语料上表现要比CBOW要好，所得到的字向量和电子病历的字符序列的匹配度更高。

具体地，在用word2vec向量表示方法来获取字符序列对应的词向量时，可用索引的方式实现。例如，若电子病历的字符序列为C(C1,C2…Cn)，n表示输入的字符序列长度，根据字符在序列中的位置生成字符索引。在获得预先训练好的字向量后，通过字符索引查表即可获得字符对应的字向量，即得到字向量序列x(x1,x2…xn)，x∈R^n×d，d为字向量空间维度。

步骤S20，生成所述字符序列对应的偏旁向量矩阵。

在常用的基于神经网络的命名实体识别方法中，通常会将待识别文本对应的词向量或字向量输入到神经网络模型进行标签预测，但是字或词所表达的信息量有限，只依靠字向量或词向量，命名实体识别的准确率提高有限。

基于上述提出的现有技术中的缺陷，从深入挖掘字或词内部可能存在的更深层次的信息的角度形成本发明的发明构思。由于中文字符是由象形文字发展而来，很多文字还保存着其原始意义，很多形相似的文字其意思也相近，例如“病”和“疾”，“痛”和“疼”等，因此考虑到可将字符的形态信息也作为神经网络的输入，用神经网络对其进行特征提取，为之后的标签预测提供字或词内部存在的更深层次的信息。

直观来看，字符的部件构成在一定程度上反映了字符的形态，因此可以获取字符的汉字部件构成信息作为字符形态信息，如获取“和”字的汉字部件构成“禾、口”作为“和”字的字符形态信息。

具体地，在获取到字符的汉字部件构成时，将每一个汉字部件视为该字符的一个独立的偏旁，例如“禾”与“口”分别是“和”字的左偏旁和右偏旁，为每一个偏旁生成一个对应的偏旁向量，该字符的包含多个偏旁的偏旁序列对应有偏旁向量序列，偏旁向量序列等同于二维偏旁向量矩阵。对于待识别命名实体的字符序列，多个字符的二维偏旁向量矩阵一起可形成该字符序列对应的三维偏旁向量矩阵。

步骤S30，将所述偏旁向量矩阵输入到第一神经网络进行处理，得到所述字符序列对应的偏旁卷积向量矩阵，其中，所述第一神经网络包括卷积神经网络层。

在本实施例中采用CNN卷积神经网络进行特征提取。如图3给出了卷积神经网络处理过程示意图，例如待识别字符“痛”字的偏旁序列如图3中所示，由于处理时为偏旁序列分配的内存为固定长度，该字符序列包括偏旁填充。在得到待识别字符的偏旁序列的偏旁向量后，将偏旁向量矩阵输入到第一神经网络中的CNN卷积神经网络层中，分别经过卷积层的卷积处理、池化层的池化处理和全连接层的处理，输出包含字符内部形态信息的偏旁卷积向量矩阵。需要说明的是，CNN卷积神经网络可包括多个卷积层、多个池化层和多个全连接层，本实施例不对此结构进行限定。

可以理解地，偏旁向量可以不使用训练好的向量，先随机初始化，把偏旁向量也当作参数在第一神经网络中训练。

步骤S40，根据所述字向量矩阵和所述偏旁卷积向量矩阵生成字特征向量矩阵。

待识别命名实体的电子病历中的字符序列经过上述步骤的处理得到对应的字向量矩阵和偏旁卷积向量矩阵，由于这两个向量矩阵中都包含待识别命名实体的字符序列的特征信息，所以需要根据这两个向量矩阵生成总体的字特征向量矩阵。

具体地，是将字向量矩阵中的向量和字符形态信息向量矩阵中的向量进行向量的拼接。例如，对于字符序列C(C1,C2…Cn)分别对应有字向量矩阵X(X1,X2…Xn)和偏旁卷积向量矩阵Y(Y1,Y2…Yn)，其中X1、X2…Xn和Y1、Y2…Yn均为向量，字符序列C中的Ci字符对应的字向量和偏旁卷积向量分别为Xi和Yi，将Xi和Yi进行向量拼接得到新的向量Zi，将字符序列C中的所有字符对应的字向量和偏旁向量拼接得到的新的向量，进一步可得到对应的字特征向量矩阵Z(Z1,Z2…Zn)。

步骤S50，将所述字特征向量矩阵输入到第二神经网络中进行处理，得到所述电子病历的命名实体识别结果，其中，所述第二神经网络包括双向长短期记忆网络层。

因为命名实体识别是序列标注问题，所以本实施例中的第二神经网络采用双向长短期记忆网络(Bi-LSTM)来提取序列的上下文信息，长短期记忆网络(LSTM)是RNN的一类网络，LSTM解决了RNN中存在的梯度消失/***问题，还解决了RNN不能捕获序列的长时依赖问题。

本实施例中所采用的Bi-LSTM包含前向和后向这两个方向的LSTM网络。根据字向量矩阵和偏旁卷积向量矩阵生成的上述字特征向量矩阵Z(Z1,Z2…Zn)包含了字符序列中n个字符的特征向量，将这n个字符的特征向量从左往右依次输入到前向LSTM网络，依次输出和每个字符的特征向量对应的隐向量

同样地，将这n个字符的特征向量从右到左依次输入到后向LSTM网络，依次输出和每个字符的特征向量对应的另一个隐向量

可以理解地，将n个字符的特征向量经过双向长短期记忆网络的处理，可以获取到序列的前后文信息，相比于单向的长短期记忆网络捕获到的信息更全面。将每个字符的特征向量对应的两个隐向量拼接得到双向隐向量

并将所有字符的特征向量对应的双向隐向量放到同一个矩阵中，以生成总的隐向量矩阵。

进一步地，第二神经网络还包括全连接层，用于处理双向长短期记忆网络输出的总的隐向量矩阵，最终得到待识别命名实体的字符序列对应的概率矩阵。接下来说明如何根据概率矩阵得到最终的命名实体识别结果。

命名实体识别又称作专名识别，是指识别文本中具有特定意义的实体，对于本实施例中需要识别的电子病历而言，为身体部位、检验检查，疾病、症状、治疗等。

命名实体识别通常需要解决两个问题：一是实体边界识别，即分词；二是确定实体类别。这两个问题的解决可以通过将已标注标签的数据用于训练神经网络、在神经网络中对待识别命名实体的字符进行标签预测来实现，其中，可采用多种标签标注方法，例如IOB标签标注法或BIOES标签标注法。

在本实施例中，当对电子病历的命名实体识别过程中采用BIOSE标签标注法时，所定义的标签有15种：B-BodyPart,I-BodyPart,E-BodyPart，B-Check,I-Check,E-Check,B-Disease,I-Disease,E-Disease,B-Symptom,I-Symptom,E-Symptom,B-Treatment,I-Treatment，I-Treatment，其中，B-BodyPart标签表示“身体部位”实体的开始，I-BodyPart标签表示“身体部位”实体的内部，E-BodyPart标签表示“身体部位”实体的结束，B-Check标签表示“检验检查”实体的开始，I-Check标签表示“检验检查”实体的内部，E-Check标签表示“检验检查”实体的结束，B-Disease标签表示“疾病”实体的开始，I-Disease标签表示“疾病”实体的内部，E-Disease标签表示“疾病”实体的结束，B-Symptom标签表示“症状”实体的开始,I-Symptom标签表示“症状”实体的内部,E-Symptom标签表示“症状”实体的结束,B-Treatment标签表示“治疗”实体的开始,I-Treatment标签表示“治疗”实体的内部，E-Treatment标签表示“治疗”实体的结束。

在上述步骤中得到的概率矩阵中的概率值为字符序列预测的标签分类概率，例如当定义了上述15种标签时，字符序列中的每一个字符对应有15个概率值，即该字符预测为每种标签的概率值，选择概率值最高的为该字符的预测标签结果。在确定了字符序列中每个字符的预测标签后，根据标签的含义即可对字符序列进行分词和实体类别的确定，完成命名实体识别。

可以理解地，需要采用反向传播和梯度下降算法，根据已识别命名实体的电子病历对第一神经网络和第二神经网络的参数进行训练，获得较优的参数，以提高命名实体识别的正确率。

其中，已识别命名实体的电子病历的字符序列获取，包括但不限于：运行脚本程序抽取电子病历中的现病史部分并转化为xml文件；将xml文件导入标注工具，由专业医生先对其中一部分xml文件进行数据标注；对数据标注结果进行一致性检测；如果检测结果符合预期阈值，由专业医生标注剩余的文件；运行脚本程序将标注好命名实体的文件转化为神经网络需要的训练文本。

为了对本实施例的识别电子病历命名实体的方法做进一步的说明，图4中给出了本实施例的一种神经网络***处理过程的示意。如图4所示，该神经网络***包括字符嵌入层、包含卷积网络层的第一神经网络，包括前向长短期记忆网络层、后向长短期记忆网络层的第二神经网络，该***识别电子病历命名实体的过程为：

1、获取电子病历文本，每次以10个句子为一组输入字符嵌入层进行处理。将句子长度设置为10个句子中的最大句子长度K，字符偏旁序列大小固定为10，预训练好的字向量维度为100维，偏旁向量维度设为50维，因此一组10个句子经过字符嵌入层的处理后形成10×K×100的字向量矩阵和10×K×10×50的字偏旁向量矩阵。

2、把在1中得到偏旁向量矩阵输入卷积网络层处理，卷积核窗口大小为3，卷积核数量为30，池化窗口为2，经过卷积网络层处理得到的数据为10×K×30的偏旁卷积向量矩阵，即提取出的每个字符的内部形态信息用一个30维的偏旁向量表示，将偏旁向量矩阵中的偏旁向量和字向量矩阵中的字向量拼接后得到10×K×130的字特征向量矩阵。

3、把2中得到字特征向量先经过丢弃层(dropout)的处理，以防止模型过拟合，dropout的比重设置为0.5，然后再输入到前向长短期记忆网络和后向长短期记忆网络中，设长短期记忆网络的隐藏单元大小为64，把前向长短期记忆网络和后向长短期记忆网络的每个时间步的输出拼接起来，得到一个10×K×128的隐向量矩阵。

4、把3中得到隐向量矩阵向量经过一个全连接层，全连接层的大小为训练样本中的标签数量N，然后得到一个10×K×N的概率矩阵。

5、由于输出的10×K×N矩阵表示的都是一个字符被标记为N个标签的概率，所以选择N个概率中概率最高概率的一个标签作为字符的标签即可。例如图4中的字符序列“颈、部、疼、痛”被判定的标签依次为“B-BodyPart(对应图中的B-BOD)、I-BodyPart(对应图中的I-BOD)、B-Symptom(对应图中的B-SYM)、I-Symptom(对应图中的I-SYM)”。

在本实施例中，通过提取电子病历字符内部的形态特征，将字符本身的特征和字符内部的形态特征依次输入到深度神经网络中对字符标签进行预测，提供了一种识别准确率高的电子病历命名实体识别的方法。

进一步的，参照图5，本发明第二实施例基于第一实施例提供一种电子病历命名实体识别的方法，本实施例在步骤S50包括：

步骤S60，将所述字特征向量矩阵输入到所述双向长短期记忆网络进行处理，得到所述字符序列对应的隐向量矩阵。

步骤S70，将所述隐向量矩阵输入到自注意机制层进行处理，得到所述字符序列对应的预测矩阵。

在对电子病历命名实体识别方法的研究中发现，有的实体间存在着依赖关系，例如电子病历中的这段文本：“10年来上述症状反复出现并逐年加重，冬春季节及受凉后出现，至当地医院就诊，诊断为慢性支气管炎，反复出现咳嗽、咳痰。”文本中的“冬春季节、受凉”表示诱因类实体，“慢性支气管炎”表示疾病类实体，“咳嗽、咳痰”表示症状类实体。很明显，“冬春季节”在一般句子是表示时间的，但是在本实施例中作为神经网络的训练样本的病历中，它表示诱因，因为冬春季节的到来诱发了季节性疾病的复发，专业的医生把它标注为诱因，所以神经网络在决定“冬春季节”的实体类型时，神经网络应该主要使用“慢性支气管炎”及“咳嗽”，“咳痰”的信息。因此，在本实施例中采用自注意机制来忽略实体间的距离，直接计算它们之间的依赖关系。

根据下述公式计算所述隐向量矩阵中的隐向量之间的依赖关系：

f_t,t′＝σ(w_a tanh(w_th_t+w_t′h_t′))，

根据下述公式为每个隐向量h_k计算对应的注意力权重

其中，e为指数函数，N为所述隐向量的数目，

下面结合图6对注意力权重的计算进行详细的说明。

如图6中所示，若本次处理的字符序列为{颈，部，疼，痛}，那么字符序列长度为4，输入到自注意机制层的隐向量有h1、h2、h3、h4，对应公式中的N取值为4。

由于字符序列是按照时间顺序依次输入到神经网络***中进行处理的，所以字符序列中的每个字符依次对应着连续的不同的时间步，例如可以在本例中将“颈、部、疼、痛”这四个字符对应的时间步标注为t1、t2、t3、t4，同时每个字符对应的隐向量也和这些时间步一一对应。

对于字符序列中待识别的每一个字符而言，有与其时间步对应输出的隐向量，同时需要对应计算出除本时间步以外的以其他时间步为标识的注意力权重向量。例如在t1时刻输入“颈”字，有与t1时刻对应输出的隐向量h1，本时间步以外的时间步包括t2、t3、t4，根据预先设定的规则

需要计算的权重向量为

此时计算注意力权重的公式变换为下式，其中，k取值范围包括t2、t3、t4。

根据下面的公式用得到的注意力权重乘上对应的隐向量得到最后的注意力向量

最后将多个隐向量对应的注意力向量形成注意力向量矩阵。

由于隐向量矩阵和注意力向量矩阵中都包含待识别命名实体的字符序列的预测信息，所以需要根据这两个向量矩阵生成包括总体的信息的注意力隐向量矩阵。

具体地，是将隐向量矩阵中的隐向量和注意力向量矩阵中的注意力向量按照下面的公式进行向量的拼接。

例如，有隐向量矩阵H(H₁,H₂…H_n)和注意力向量矩阵

其中H₁、H₂…H_n和

均为向量，将H_i和

进行向量拼接得到新的向量H′_i，将所有隐向量和注意力向量拼接得到的新的向量并得到对应的注意力隐向量矩阵H′(H′₁,H′₂…H′_n)。

将得到的注意力隐向量矩阵输入所述全连接层进行处理，得到字符序列对应的预测矩阵。

步骤S80，将所述预测矩阵输入所述条件随机场模型进行处理，得到所述电子病历的命名实体识别结果。

如果直接使用Bi-LSTM网络层或自注意机制层得到的隐向量来单独的预测字符标签，没有考虑标签之间的依赖关系，在提升预测结果正确率时可能会遇到瓶颈。例如I-symptom后边标签可能会是I-disease，很明显这种标签序列是错误的。通常在命名实体识别任务中，标签之间有很强的依赖关系，例如B-symptom的下一个标签不能是I-disease，或者B-symptom后边只能出现I-symptom。

因此，为了进一步提高命名实体识别的正确率，在本实施例中使用条件随机场(CRF)模型来进行最终的字符标签预测。CRF模型克服了隐马尔可夫模型(Hidden MarkovModel)独立性假设缺点，并解决了最大熵马尔可夫模型(Maximum Entropy Markov Model)的标记偏置问题，下面对CRF模型的作用原理进行说明。

对一个输入序列x(x1,x2…xn)，设P为经自注意力网络后得到的矩阵，P∈R^n×s,s为标签数量，P_ij表示输入序列中第i个字符预测为第j个标签得分。对于一个预测序列y(y1,y2…yn)，定义它的得分为：

A表示转移矩阵，A∈R^s+2×s+2，A_ij表示从标签i转移到标签j的概率(得分)，然后在所有可能的标签序列上应用softmax产生序列y的概率：

在训练过程中最大化正确标签序列的对数概率：

Yx表示所有可能的标签序列，包括那些不满足BIOES标注方案约束的错误序列。在解码时，预测输出序列得到的最大分数为：

对于CRF模型，可以通过采用维特比算法有效地训练和解码。

最后结合图6对本实施例的识别电子病历命名实体的方法做进一步的说明。图6中给出了本实施例的一种神经网络***结构示意，该神经网络***包括字符嵌入层、包含偏旁CNN卷积层的第一神经网络，包括双向LSTM层、自注意机制层和条件随机场模型的第二神经网络，该***识别电子病历命名实体的过程为：

2、把在1中得到偏旁向量矩阵输入偏旁CNN卷积网络层处理，卷积核窗口大小为3，卷积核数量为30，池化窗口为2，经过偏旁CNN卷积网络层处理得到的数据为10×K×30的偏旁卷积向量矩阵，即提取出的每个字符的内部形态信息用一个30维的偏旁向量表示，将偏旁向量矩阵中的偏旁向量和字向量矩阵中的字向量拼接后得到10×K×130的字特征向量矩阵。

3、把2中得到字特征向量先经过丢弃层(dropout)的处理，以防止模型过拟合，dropout的比重设置为0.5，然后再输入到双向的LSTM网络中，设LSTM网络的隐藏单元大小为64，把双向的LSTM每个时间步的输出拼接起来，得到一个10×K×128的隐向量矩阵。

4、把3中得到隐向量矩阵向量依次经过自注意机制层、条件随机场模型的处理，得到一个10×K×N的预测概率矩阵。

5、由于输出的10×K×N矩阵表示的都是一个字符被标记为N个标签的概率，所以选择N个概率中概率最高概率的一个标签作为字符的标签即可。

在本实施例中，通过提取电子病历字符内部的形态特征，将字符本身的特征和字符内部的形态特征依次输入到深度神经网络中对字符标签进行预测，提供了一种识别准确率高的电子病历命名实体识别方法。

进一步的，参照图7，本发明第三实施例基于第一实施例提供一种电子病历命名实体识别的方法，本实施例在步骤S50包括：

步骤S90，将所述字特征向量矩阵输入到所述双向长短期记忆网络进行处理，得到所述字符序列对应的隐向量矩阵。

步骤S100，将所述隐向量矩阵输入到自注意机制层进行处理，得到所述电子病历的命名实体识别结果。

可以理解的，基于第一实施例，出于不同应用场景或者处理资源的考虑，和第二实施例有所区别的是，如图8所示，本实施例中的第二神经网络只包括自注意机制层，不包括条件随机场模型。

双向长短期记忆网络输出的隐向量矩阵输入到自注意机制层后，先计算隐向量矩阵中的隐向量的注意力权重，再根据注意力权重和隐向量生成注意力向量矩阵，接着根据隐向量矩阵和注意力向量矩阵生成注意力隐向量矩阵，，最后将注意力隐向量矩阵输入全连接层进行处理，得到待识别字符序列对应的预测概率矩阵。

在上述步骤中得到的预测概率矩阵中的概率值为待识别字符序列预测的标签分类概率，选择概率值最高的为对应字符的预测标签结果。在确定了字符序列中每个字符的预测标签后，根据标签的含义即可对字符序列进行分词和实体类别的确定，完成命名实体识别。

在本实施例中，通过卷积神经网络提取电子病历字符内部的形态特征，将字符本身的特征和字符内部的形态特征依次输入到深度神经网络中的双向长短期记忆网络层和自注意机制层对字符标签进行预测，提供了一种准确高效的电子病历命名实体识别方法。

进一步的，参照图9，本发明第四实施例基于第一实施例提供一种电子病历命名实体识别的方法，本实施例在步骤S50包括：

步骤S110，将所述字特征向量矩阵输入到双向长短期记忆网络进行处理，得到所述字符序列对应的隐向量矩阵。

步骤S120，将所述隐向量矩阵输入到条件随机场模型进行处理，得到所述电子病历的命名实体识别结果。

可以理解的，基于第一实施例，出于不同应用场景或者处理资源的考虑，和第二实施例有所区别的是，如图10所示，本实施例中的第二神经网络只包括条件随机场模型，不包括自注意机制层。

双向长短期记忆网络输出的隐向量矩阵输入到条件随机场模型后，经处理得到待识别字符序列对应的预测概率矩阵。

在本实施例中，通过卷积神经网络提取电子病历字符内部的形态特征，将字符本身的特征和字符内部的形态特征依次输入到深度神经网络中的双向长短期记忆网络层和条件随机场模型对字符标签进行预测，提供了一种准确高效的电子病历命名实体识别方法。

本发明还提供一种电子病历命名实体识别装置，该电子病历命名实体识别装置包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的电子病历命名实体识别处理程序，所述电子病历命名实体识别处理程序被所述处理器执行时实现所述的电子病历命名实体识别的方法的步骤。

此外，本发明实施例还提出一种计算机可读存储介质，所述计算机可读存储介质上存储有电子病历命名实体识别处理程序，所述电子病历命名实体识别处理程序被处理器执行时实现所述的电子病历命名实体识别的方法的步骤。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者***不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者***所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者***中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种电子病历命名实体识别的方法，其特征在于，所述电子病历命名实体识别的方法包括以下步骤：

生成所述字符序列对应的偏旁向量矩阵；

将所述字向量矩阵中的字向量与所述偏旁卷积向量矩阵中的偏旁卷积向量拼接，得到对应的字特征向量，并基于所述字特征向量生成字特征向量矩阵；

2.如权利要求1所述的电子病历命名实体识别的方法，其特征在于，所述生成所述字符序列对应的偏旁向量矩阵的步骤包括：

获取所述字符序列中各个字符的汉字部件；

根据所述汉字部件生成各个所述字符的偏旁向量；

3.如权利要求2所述的电子病历命名实体识别的方法，其特征在于，所述第二神经网络还包括全连接层，所述将所述字特征向量矩阵输入到第二神经网络中进行处理，得到所述电子病历的命名实体识别结果的步骤包括：

4.如权利要求2所述的电子病历命名实体识别的方法，其特征在于，所述第二神经网络还包括自注意机制层，所述将所述字特征向量矩阵输入到第二神经网络中进行处理，得到所述电子病历的命名实体识别结果的步骤包括：

5.如权利要求2所述的电子病历命名实体识别的方法，其特征在于，所述第二神经网络还包括自注意机制层和条件随机场模型，所述将所述字特征向量矩阵输入到第二神经网络中进行处理，得到所述电子病历的命名实体识别结果的步骤包括：

6.如权利要求5所述的电子病历命名实体识别的方法，其特征在于，所述自注意机制层包括全连接层，所述将所述隐向量矩阵输入到自注意机制层进行处理，得到所述字符序列对应的预测矩阵的步骤包括：

计算所述隐向量矩阵中隐向量的注意力权重；

根据所述注意力权重和所述隐向量生成注意力向量矩阵；

7.如权利要求6所述的电子病历命名实体识别的方法，其特征在于，所述计算所述隐向量矩阵中隐向量的注意力权重步骤包括：

f_t,t'＝σ(w_atanh(w_th_t+w_t'h_t'))，

其中，t和t'表示不同的时间步，w_a，w_t，w_t'为权重向量，σ为sigmoid函数，h_t为和h_t'为不同时间步的隐向量；

其中，e为指数函数，N为所述隐向量的数目，

8.如权利要求2所述的电子病历命名实体识别的方法，其特征在于，所述第二神经网络还包括条件随机场模型，所述将所述字特征向量矩阵输入到第二神经网络中进行处理，得到所述电子病历的命名实体识别结果的步骤包括：

9.一种电子病历命名实体识别装置，其特征在于，所述电子病历命名实体识别装置包括：存储器、处理器、摄像头及存储在所述存储器上并可在所述处理器上运行的电子病历命名实体识别的处理程序，所述电子病历命名实体识别的处理程序被所述处理器执行时实现如权利要求1至8中任一项所述的电子病历命名实体识别的方法的步骤。

10.一种存储介质，其特征在于，所述存储介质上存储有电子病历命名实体识别的处理程序，所述电子病历命名实体识别的处理程序被处理器执行时实现如权利要求1至8中任一项所述的电子病历命名实体识别的方法的步骤。