CN109697285A

CN109697285A - 增强语义表示的层次BiLSTM中文电子病历疾病编码标注方法

Info

Publication number: CN109697285A
Application number: CN201811523661.7A
Authority: CN
Inventors: 王建新; 余颖; 李敏
Original assignee: Central South University
Current assignee: Central South University
Priority date: 2018-12-13
Filing date: 2018-12-13
Publication date: 2019-04-30
Anticipated expiration: 2038-12-13
Also published as: CN109697285B

Abstract

本发明公开了一种增强语义表示的层次BiLSTM中文电子病历疾病编码标注方法，对输入的电子病历文本进行预处理后，考虑中文词语构成中，单个汉字包含具体语义，利用引入关注机制的BiLSTM提取字符级特征向量表示，获得单个汉字的语义及构词特征；将字符级词向量表示与利用word2vec训练得到的词语级别的向量表示进行拼接，得到字符特征增强的词语向量表示；以特征词向量表示的文本序列作为输入，再次利用BiLSTM学习整个电子病历中的上下文特征，并采用关注机制，计算各个特征词的贡献度，得到上下文特征加权的文本向量表示，提高了预测效果。本发明的方法适用于基于中文电子病历文本的疾病标签分类任务，并有效提高了分类效果。

Description

增强语义表示的层次BiLSTM中文电子病历疾病编码标注方法

技术领域

本发明涉及医学信息学领域，特别是一种增强语义表示的层次BiLSTM中文电子病历疾病编码标注方法。

背景技术

电子健康病历(Electronic Health Records，EHRs，简称电子病历)已成为医学临床研究的重要数据资源之一。它将病人就医过程中的各种信息以数字化的数据进行存储，方便我们利用计算机来对临床数据进行分析和处理。对于一份电子病历，需要有描述病人疾病状况的统一标签规范，从而有利于将患者信息进行合理的分类以帮助临床决策。由世界卫生组织发布并持续更新的国际疾病分类编码(International Classification ofDiseases，ICD)是国际通用的疾病编码方案，它常被作为临床记录的标签，用于标识症状、体征、疾病、异常发现或操作等。目前，新修订的ICD编码第10版已被广泛应用于我国的医院信息***中。

为电子病历标注ICD编码是利用电子病历的一项重要并且基础的工作。电子病历中诊断名称与ICD编码的缺失，不利于我们对临床数据的分析研究。通常，ICD编码的标注工作由各医院病案室的医务人员根据医生给出的临床诊断描述来进行人工判别。人工编码不仅要求编码人员掌握一定的医学知识、编码规则和医学术语，而且费时费力。因此，利用计算机来进行自动编码可以为编码标注工作提供有效的辅助，提高ICD编码的标注效率。

目前大部分的疾病编码自动标注工作都基于临床文本数据来进行,如放射科的报告、死亡证明、出院小结等。但是，绝大部分的研究工作集中在英文语料上，在中文临床文本上的疾病编码预测工作较少，且主要的方法是基于诊断名称的字符串语义比对。语义相似性的比较对诊断名称描述的质量要求较高，且在诊断名称缺失的情况下无法进行自动编码标注。目前还没有相关研究工作将神经网络模型用于中文电子病历的疾病编码标注任务。

中文电子病历文本的处理有两个特点：一是电子病历文本较长，长文本的上下文信息获取较难；二是中文汉字不同于英文，单个汉字也具有语义，尤其在医学用语中，诸如方位、身体部位等都是一个汉字来描述，因此，包含字符特征的语义表示能更好的表达词的语义。

发明内容

本发明所要解决的技术问题是，针对现有技术不足，提供一种增强语义表示的层次BiLSTM中文电子病历疾病编码标注方法，以端到端的方式完成自动标注，提高预测效果。

为解决上述技术问题，本发明所采用的技术方案是：

一种增强语义表示的层次BiLSTM中文电子病历疾病编码标注方法，包括以下步骤：

1)利用中文分词工具，引入用户自定义医学临床用语词典进行分词，去除停用词，并根据词频筛选出特征词；

2)对特征词分别进行字符级别和词语级别的向量化表示，拼接字符级向量与词语级向量，构建词语的字符增强特征向量表示；

3)利用拼接后的特征词得到整个文本的上下文特征，并采用关注机制，计算各个特征词的贡献度，获得整个文本的上下文特征加权向量表示。

步骤1)中，根据以下规则选取所述特征词：其中S_fw表示特征词集合，表示词w_i的频率，N_d表示电子病历样本总数。

步骤2)中，利用融合关注机制的双向LSTM训练特征词的字符级特征向量表示，利用基于词分布式表示的词向量表示方法word2vec得到特征词的词语级向量表示形式。

双向长短期记忆网络训练的输出方式为：其中表示前向LSTM在第t个单元或t时刻的隐层输出，则为后向LSTM在第t个单元的隐层输出。

关注机制的计算方式为：

u_ij＝tanh(W_ch_ij+b_c)；

h_ij为第i个词的第j个字符在BiLSTM训练后的隐层输出，W_c为权值矩阵，b_c为偏置向量，u_c为随机初始化字符级的上下文特征向量，α_ij为利用softmax函数计算得到的第j个字符对于第i个词的权重大小，为第i个词的上下文加权特征向量表示。

步骤3)中，计算整个文本的上下文特征加权向量的方法包括：将拼接后的特征词向量表示的文本输入第二层双向长短期记忆网络，学习得到整个文本的上下文特征，并采用关注机制，计算各个特征词的权重，得到上下文信息加权的文本特征向量。

关注机制的计算方式为：

u_i＝tanh(Wh_i+b_w)；

v＝∑_iα_ih_i；

h_i是文本序列第i个词的字符加强特征向量经BiLSTM训练后得到的隐层的输出，W为权值矩阵，b_w为偏置向量，在应用关注机制时，相应引入并随机初始化一个词语级别的文档上下文特征向量u_w来完成权值的计算，α_i为每个词对应的权重，v为整个文本的上下文加权特征向量表示，将该向量输入全连接层，由sigmoid函数计算得到每个疾病编码的出现概率。

与现有技术相比，本发明所具有的有益效果为：本发明针对中文自身特点，将单个汉字的语义特征融入词的特征向量表示，并结合关注机制，对输入序列中真正有贡献的特征词进行了加权，提高了疾病编码的预测效果；该方法适用于中文临床文本数据，利用神经网络模型自动提取文本特征，以端到端的方式完成自动标注。

附图说明

图1本发明的流程图；

图2融合关注机制的层次BiLSTM特征学习模型；

图3关注机制的计算；(a)将h_ij变成u_ij；(b)利用上下文特征向量计算每个u_ij的权重；(c)h_ij的加权求和得到应用关注机制的特征向量表示；

图4为本发明实施实验结果图。

具体实施方式

一、临床文本数据的预处理

利用中文分词工具“结巴”和用户自定义的医学词库，对输入的出院小结文本进行分词后，去除停用词，统计有效词的词频，基于词频从大到小排序后选择特征词，按以下规则选取：其中S_fw表示特征词集合，表示词w_i的频率，N_d表示电子病历总数。

二、特征词的词向量表示

1)基于字符的词向量表示

首先，为每个字符初始化一个向量表示，然后输入融合关注机制的BiLSTM，训练得到每个特征词的字符级词向量表示，BiLSTM中的每个神经单元状态值c_t和输出值h_t具体计算过程为(t＝1,2,...,n，t表示网络中的第t个神经单元或者t时刻的神经单元)：

i_t＝sigmoid(W_i[x_t；h_t-1]+b_i) (1)

f_t＝sigmoid(W_f[x_t；h_t-1]+b_f) (2)

g_t＝tanh(W_g[x_t；h_t-1]+b_g) (3)

o_t＝sigmoid(W_o[x_t；h_t-1]+b_o) (4)

c_t＝f_t*c_t-1+i_t*g_t (5)

h_t＝o_t*tanh(c_t) (6)

每个神经单元包含一个输入门i，一个输出门o，一个遗忘门f，一个存储单元g，一个保存状态的单元c和一个隐藏状态h，它们均为向量，W_i,W_f,W_g,W_o为权值矩阵，b_i,b_f,b_g,b_o为偏置向量，“；”表示连接运算，“*”表示元素点乘，sigmoid函数的计算为tanh函数的计算为BiLSTM的输出方式为

2)注意力机制的应用

关注机制计算方法为：

u_ij＝tanh(W_ch_ij+b_c) (7)

h_ij为第i个词的第j个字符在BiLSTM训练后的隐层输出，W_c为权值矩阵，b_c为偏置向量，u_c为随机初始化字符级的上下文特征向量，α_ij即为利用softmax函数计算得到的第j个字符对于第i个词的权重大小，即为第i个词的上下文加权特征向量表示。

3)将训练得到的字符级词向量与使用word2vec生成的词向量进行拼接，得到字符级上下文特征加强的词特征向量。

三、上下文特征提取

将字符加强的特征向量序列输入第二层融合关注机制的BiLSTM，提取文本上下文信息特征，BiLSTM神经单元的计算和上下文特征加权的计算，与字符级词向量表示时的相同，具体的计算公式如下：

u_i＝tanh(Wh_i+b_w) (10)

v＝∑_iα_ih_i (12)

四、实验验证

1)实验过程

为了验证本方法的有效性，我们在真实的中文电子病历临床数据上进行了实验验证。该数据集包含7732个出院记录，共涉及1177个ICD-10疾病编码标签，ICD-10编码是由字母和数字组成的点分六位编码，以字母开头，前三位编码为一级编码，指明疾病类目。出院小结的平均长度为610个词语，平均每个出院小结对应3.6个疾病编码。

实验在一台服务器上完成，该服务器包含256GB内存和NVIDIA GeForce Titan XPascal CUDA GPU处理器。我们将数据集按照9:1的比例分为训练集和测试集，并通过十次随机打乱数据进行了验证。评价指标选择了微平均的精确度(P)、召回率(R)和两者综合的指标F1值，以及从样本的角度评价误报情况的Hamming损失值。F1值越高、Hamming损失值越低说明模型性能越好。

2)实验结果

因相关研究工作已指出了深度学习方法优于传统的机器学习方法，我们主要与其他常见的神经网络模型进行了对比实验，结果如表1所示，MA-BiLSTM表示我们的模型，D2V+CNN为相关研究工作中的方法，该方法在公开的英文数据集MIMIC III上取得目前最好效果。实验结果表明MA-BiLSTM在各项评价指标上均优于其他神经网络模型，说明结合关注机制的BiLSTM能够有效捕获长文本的上下文信息特征，并提高预测效果。

表1对比实验结果

Model	Micro_P(CI:95％)	Micro_R(CI:95％)	Micro_F1(CI:95％)	hLoss(CI:95％)
					CBOW	0.614(±6.43e-03)	0.522(±5.30e-03)	0.564(±4.52e-03)	0.00248(±3.14e-05)
CNN	0.647(±6.67e-03)	0.509(±6.51e-03)	0.569(±4.71e-03)	0.00237(±3.52e-05)
					D2V+CNN	0.661(±9.57e-03)	0.514(±8.74e-03)	0.579(±7.14e-03)	0.00231(±3.70e-05)
MA-BiLSTM	0.704(±1.13e-02)	0.586(±5.84e-03)	0.639(±4.45e-03)	0.00204(±3.47e-05)

为分析模型各个模块的发挥的作用，我们设计了消融实验进行分析，结果如表2所示。从实验结果看，仅有词向量或字符向量表示文本中词语的特征，预测结果都发生了下降，因此，字符向量加强的词向量表示确实带来了更好的文本特征表示。关注机制在模型中起到了重要作用，去掉了关注机制，模型的性能下降明显。

在ICD-10全编码和一级编码上均进行了预测，7732个样本，对应一级编码为488个。实验结果如图4所示。一级编码上的预测结果在精确度上达到了80.5％，能较好的辅助病案室医务人员的疾病编码标注工作。

表2模型消融实验结果

Claims

1.一种增强语义表示的层次BiLSTM中文电子病历疾病编码标注方法，其特征在于，包括以下步骤：

3)利用拼接后的特征词得到整个文本的词向量表示序列，并采用关注机制，计算各个特征词的贡献度，获得整个文本的上下文特征加权向量表示。

2.根据权利要求1所述的增强语义表示的层次BiLSTM中文电子病历疾病编码标注方法，其特征在于，步骤1)中，根据以下规则选取所述特征词：其中S_fw表示特征词集合，表示词w_i的频率，N_d表示电子病历样本总数。

3.根据权利要求1所述的增强语义表示的层次BiLSTM中文电子病历疾病编码标注方法，其特征在于，步骤2)中，利用融合关注机制的BiLSTM训练特征词的字符级特征向量表示，利用基于词分布式表示的词向量表示方法word2vec得到特征词的词语级向量表示形式。

4.根据权利要求3所述的增强语义表示的层次BiLSTM中文电子病历疾病编码标注方法，其特征在于，BiLSTM的输出方式为：其中表示前向LSTM在第t个单元或t时刻的隐层输出，则为后向LSTM在第t个单元的隐层输出。

5.根据权利要求3所述的增强语义表示的层次BiLSTM中文电子病历疾病编码标注方法，其特征在于，关注机制的计算方式为：

u_ij＝tanh(W_ch_ij+b_c)；

6.根据权利要求1所述的增强语义表示的层次BiLSTM中文电子病历疾病编码标注方法，其特征在于，步骤3)中，计算整个文本的上下文特征加权向量的方法包括：将拼接后的特征词向量表示的文本输入第二层双向长短期记忆网络，学习得到整个文本的上下文特征，并采用关注机制，计算各个特征词的权重，得到上下文信息加权的文本特征向量。

7.根据权利要求6所述的增强语义表示的层次BiLSTM中文电子病历疾病编码标注方法，其特征在于，关注机制的计算方式为：

u_i＝tanh(Wh_i+b_w)；

v＝∑_iα_ih_i；