CN108563725A

CN108563725A - 一种中文症状体征构成识别方法

Info

Publication number: CN108563725A
Application number: CN201810292579.1A
Authority: CN
Inventors: 叶琪; 阮彤; 王祺; 曾露; 翟洁
Original assignee: East China University of Science and Technology
Current assignee: East China University of Science and Technology
Priority date: 2018-04-04
Filing date: 2018-04-04
Publication date: 2018-09-21

Abstract

本发明提供了一种中文症状体征构成识别方法。该方法包括：将中文症状体征分解为11种症状体征的构成成分；根据症状体征的构成成分为中文症状体征中的每个汉字标注，得到每个汉字表示症状体征的构成情况的标签序列；对中文症状体征数据进行数据预处理，得到汉字特征向量和对应的词性特征向量；将所述汉字特征向量和词性特征向量利用双向LSTM神经网络来训练得到输入症状体征的特征向量；将所述症状体征的特征向量利用条件随机场来对每个汉字进行标注，得到症状体征的标签序列；在神经网络的训练过程中，利用已有的类型‑成分词典生成人工数据帮助训练。相比于现有技术，本发明能够很好的识别中文症状，识别正确率得到很大的提高。

Description

一种中文症状体征构成识别方法

技术领域

本发明涉及中文文本标注技术领域，更为具体地，尤其涉及一种中文症状体征构成识别方法。

背景技术

电子病历***目前在国内外得到了广泛的应用，而要实现医疗信息的电子化，进而在其上进行数据挖掘，医疗文本的结构化便显得尤为重要。中文症状构成的识别有助于更精确地把握症状所表达的含义。

中文症状体征构成识别旨在识别出症状体征中的构成成分，其本质上是自然语言处理中的分词与词性识别。目前分词与词性识别通常使用机器学习方法求解，常见的方法包括：最大熵模型、隐马尔科夫模型、条件随机场模型、深度神经网络等。然而，当前中文症状体征构成识别在实际应用中的效果不尽如人意，一方面是由于不同领域对识别的要求各不相同，对于中文症状体征需要进行专门的构成分析，单纯用常规的分词及词性标注方法对症状进行切分，并不能完全满足需要；另一方面是由于中文症状体征的描述丰富多样，其构成元素复杂多变，因而需要大规模的训练语料进行学习，而训练语料的构造往往需要很高的人力成本。

本发明寻求一种能够解决上述问题的方法，将症状按字进行分割，将预处理得到汉字特征向量和对应的词性特征向量，传入到LSTM神经网络，利用双向LSTM神经网络来训练得到输入症状体征的特征向量，利用条件随机场(CRF)来对每个汉字进行标注，得到症状体征的标签序列。

发明内容

针对现有技术中的缺陷，本发明提供了一种基于词典和Bi-LSTM-CRF的中文症状体征构成识别方法。

依据本发明的一个方面，提供了一种中文症状体征构成识别方法，包括：

将中文症状体征分解为11种症状体征的构成成分，包括：原子症状、部位词、中心词、连接词、否定词、程度词、情景限定词、方位词、感觉词、特征词、其它修饰词；

根据症状体征的构成成分为中文症状体征中的每个汉字标注，得到每个汉字表示症状体征的构成情况的标签序列；

对中文症状体征数据进行数据预处理，得到汉字特征向量和对应的词性特征向量；

将所述汉字特征向量和词性特征向量传入到LSTM神经网络，利用双向LSTM神经网络来训练得到输入症状体征的特征向量；

将所述症状体征的特征向量利用条件随机场来对每个汉字进行标注，得到症状体征的标签序列；

在神经网络的训练过程中，利用已有的类型-成分词典生成人工数据帮助训练。

其中，利用训练语料或者已有词典收集症状和体征的构成成分构建类型-成分词典。人工数据是使用类型-成分词典，对训练语料中的每一个症状或体征，将其中的构成成分替换成词典中相同类型的其它构成成分，并将新的症状体征加入到训练集中。

汉字特征向量和词性特征向量是：预训练的汉字特征向量和词性特征向量或者随机初始化并且由神经网络训练出的汉字特征向量和词性特征向量。词性特征包括：位置无关词性特征和位置有关词性特征。词性特征的表示方式包括：独热编码或分布式表示。

在其中的一实施例，根据症状体征的构成成分为中文症状体征中的每个汉字标注，得到每个汉字表示症状体征的构成情况的标签序列包括如下步骤：

令标签分类为B_C、I_C、E_C、S_C，其中“_”是某个任意的分隔符，“B”、“I”、“E”、“S”代表对应汉字在构成成分中所处的位置，“B”是某个任意的代表构成成分的开头汉字的符号，“I”是某个任意的代表构成成分的为非开头汉字和结尾汉字的中间汉字的符号，“E”是某个任意的代表构成成分的结尾汉字的符号；“S”是某个任意的代表一个字就是一个构成成分的符号，“C”一般有多个符号来表示，分别代表某个构成成分类别；

根据所述标签分类为中文症状体征中的每个汉字标注，得到表示症状体征的构成情况的标签序列。

在其中的一实施例，中文症状体征数据进行数据预处理过程包括步骤：

将中文症状体征按汉字进行分割；

对分割后的汉字进行统计，形成汉字表；

对于出现次数少于所设阈值的汉字，将其从汉字表中剔除，并用某个未在汉字表中出现过的字符<OOV>来代替这些被剔除的汉字，将<OOV>加入汉字表；

为汉字表中的每个汉字分别分配一个专属的向量，作为汉字在神经网络中的输入。

在其中的一实施例，利用双向LSTM神经网络来训练得到输入症状体征的信息特征包括步骤：

(1)定义x_t为t时刻的输入字符特征向量，h_t是t时刻隐藏层的输出状态向量，i_t是t时刻的输入门，f_t是t时刻的遗忘门，O_t是t时刻的输出门，W_i、W_f、W_c、W_o为隐藏层输出向量h_t的权重矩阵，U_i、U_f、U_c、U_o为不同状态下针对输入x_t的权重矩阵，b_i、b_f、b_c、b_o为偏置向量，n为x_t的维数，σ是sigmoid函数；

(2)t时刻的遗忘门计算如公式(1)所示：

f_t＝σ(W_fx_t+U_fh_t-1+b_f) (1)

(3)t时刻更新h_t-1中存储的信息，计算公式如(2)、(3)所示：

i_t＝σ(W_ix_t+U_ih_t-1+b_i) (2)

其中，为t时刻可被加入到cell state的向量；

(4)在t时刻将t-1时刻存储的信息更新为t时刻的存储信息，计算

公式为(4)：

其中，为t时刻cell state的向量；

(5)在t时刻的输出如式(5)所示，并更新ht，计算公式如式(6)：

O_t＝σ(W_ox_t+U_oh_t-1+b_o) (5)

h_t＝O_t*tanh(C_t) (6)

其中，O_t为t时刻的输出门。

在其中的一实施例，利用条件随机场来对每个汉字进行标注，得到症状体征的构成信息包括步骤：

(1)定义标签转移矩阵A，A_i,j代表从标签i转移到标签j的得分，θ为Bi-LSTM学习参数，为模型要学习的所有参数，为症状汉字序列，T为症状体征长度，[fθ]_i,t表示第t个词的第i个标签的Bi-LSTM的输出分值；

(2)给定标签序列总得分计算公式如式(7)：

(3)计算的真实标签序列真实概率计算公式如式(8)：

其中，是真实标签序列，表示所有可能的标签序列；

(4)条件随机场(CRF)训练阶段，使用最大似然估计方法训练模型参数，计算公式如式(9)：

(5)在标签序列中找到最高条件概率来对序列进行标签标注，计算公式如式(10)：

本发明实验结果显示，症状和构成识别的准确率达到92.77％和94.34％。相比于基本模型结果提高了20.72％和14.42％。

根据下面参考附图对示例性实施例的详细说明，本发明的其它特征及方面将变得清楚。

附图说明

读者在参照附图阅读了本发明的具体实施方式以后，将会更清楚地了解本发明的各个方面。其中，

图1示出依据本发明的一实施方式，中文症状体征构成识别方法的关键步骤工作流程图。

图2示出基于Bi-LSTM-CRF的神经网络模型的示意图。

具体实施方式

为了使本申请所揭示的技术内容更加详尽与完备，可参照附图以及本发明的下述各种具体实施例，附图中相同的标记代表相同或相似的组件。然而，本领域的普通技术人员应当理解，下文中所提供的实施例并非用来限制本发明所涵盖的范围。此外，附图仅仅用于示意性地加以说明，并未依照其原尺寸进行绘制。

图1示出依据本发明的一实施方式，中文症状体征构成识别方法的工作流程图。依据本发明的一个方面，提供了一种中文症状体征构成识别方法，包括：

其中，11种症状体征的构成成分如表1所示。

表1症状体征的构成成分

本发明将症状汉字序列送入嵌入层，得到字向量序列其中T是上位词的长度。然后，将E送入Bi-LSTM中。最后，使用线性链CRF以获得全局最优的标注信息。

图2给出基于Bi-LSTM-CRF的神经网络模型的示意图。在其中的一实施例，其特征在于对中文症状体征数据进行数据预处理，得到汉字特征向量和对应的词性特征向量包括步骤：

(1)将中文症状体征按汉字进行分割；

(2)对分割后的汉字进行统计，形成汉字表；

(3)对于出现次数少于所设阈值的汉字，将其从汉字表中剔除，并用某个未在汉字表中出现过的字符<OOV>来代替这些被剔除的汉字，将<OOV>加入汉字表；

(4)为汉字表中的每个汉字分别分配一个专属的向量，作为汉字在神经网络中的输入。

在其中的一实施例，(1)类型-成分词典可从训练语料中收集，也可以从诸如《人体解剖学名词(第二版)》等词典中收集构成成分。

在其中的一实施例，训练语料还可以使用构成成分替换的方法建立。如症状“足部疼痛”，替换部位词“足部”，可以得到“头部疼痛”、“背部疼痛”、“腿部疼痛”等各种不同的症状。为了生成更多训练语料，包括：(1)首先收集症状和疾病的构成成分，构建了一个类型-成分词典；(2)使用类型-成分词典，对训练语料中的每一个症状或体征，将其中的构成成分替换成词典中相同类型的其它构成成分，并将新的症状体征加入到训练集中。

在其中的一实施例，所述汉字特征向量和词性特征向量包括：预训练的汉字特征向量和词性特征向量，随机初始化并且由神经网络训练出的汉字特征向量和词性特征向量。

在其中的一实施例，利用双向LSTM神经网络来训练得到输入症状体征的信息特征，包括步骤：

(2)t时刻的遗忘门计算如公式(1)所示：

f_t＝σ(W_fx_t+U_fh_t-1+b_f) (1)

(3)t时刻更新h_t-1中存储的信息，计算公式如(2)、(3)所示：

i_t＝σ(W_ix_t+U_ih_t-1+b_i) (2)

其中，为t时刻可被加入到cell state的向量；

(4)在t时刻将t-1时刻存储的信息更新为t时刻的存储信息，计算公式为(4)：

其中，为t时刻cell state的向量；

(5)在t时刻的输出如式(5)所示，并更新h_t，计算公式如式(6)：

O_t＝σ(W_ox_t+U_oh_t-1+b_o) (5)

h_t＝O_t*tanh(C_t) (6)

其中，O_t为t时刻的输出门。

本发明用正向LSTM的最后一个输出来编码E的正序信息，用逆向LSTM的最后一个输出来编码E的逆序信息，并用和的拼合来编码E的上下文信息。

(1)定义标签转移矩阵A，A_i,j代表从标签i转移到标签j的得分，θ为Bi-LSTM学习参数，为模型要学习的所有参数，为症状汉字序列，T为症状体征长度，[f_θ]_i,t表示第t个词的第i个标签的Bi-LSTM的输出分值；

(2)给定标签序列总得分计算公式如式(7)：

(3)计算的真实标签序列真实概率计算公式如式(8)：

其中，是真实标签序列，表示所有可能的标签序列；

本发明以字为单位进行序列标注，然而只有词语才有词性。本发明提出两种词性特征：(1)位置无关词性；(2)位置有关词性。其中，位置无关词性是以汉字所在词语的词性作为该字的词性特征。如表2所示的第1、2行，词语“明显”的词性是形容词(记作“a”)，故以“a”为汉字“明”和“显”的位置无关词性特征。

但是，位置无关词性仅仅考虑汉字所在词语的词性，而没有考虑汉字在词语中所处的位置。位置有关词性同时考虑汉字所在词语的词性以及汉字在词语中所处的位置：若一个汉字就是一个词语，则在相应词性前加一个位置标记“S”，否则，若汉字位于词语的开头，则在相应词性前加一个位置标记“B”；若汉字位于词语的结尾，则在相应词性前加一个位置标记“E”；若汉字位于词语的中间，则在相应词性前加一个位置标记“I”。如下表第1、3行，词语“明显”的词性是形容词(记作“a”)，故以“B-a”为汉字“明”的位置有关词性特征，以“E-a”为汉字“显”的位置有关词性特征。

本发明词性特征采用两种表示方式：独热编码与分布式表示。

表2成分构成序列和对应的特征、标签序列表

上文中，参照附图描述了本发明的具体实施方式。但是，本领域中的普通技术人员能够理解，在不偏离本发明的精神和范围的情况下，还可以对本发明的具体实施方式作各种变更和替换。这些变更和替换都落在本发明权利要求书所限定的范围内。

Claims

1.一种中文症状体征构成识别方法，其特征在于，包括：

(1)将中文症状体征分解为11种症状体征的构成成分，包括：原子症状、部位词、中心词、连接词、否定词、程度词、情景限定词、方位词、感觉词、特征词、其它修饰词；

(2)根据症状体征的构成成分为中文症状体征中的每个汉字标注，得到每个汉字表示症状体征的构成情况的标签序列；

(3)对中文症状体征数据进行数据预处理，得到汉字特征向量和对应的词性特征向量；

(4)将所述汉字特征向量和词性特征向量传入到LSTM神经网络，利用双向LSTM神经网络来训练得到输入症状体征的特征向量；

(5)将所述症状体征的特征向量利用条件随机场来对每个汉字进行标注，得到症状体征的标签序列；

(6)在神经网络的训练过程中，利用已有的类型-成分词典生成人工数据帮助训练。

2.如权利要求1所述的一种中文症状体征构成识别方法，其特征在于，根据症状体征的构成成分为中文症状体征中的每个汉字标注，得到每个汉字表示症状体征的构成情况的标签序列包括：

(1)令标签分类为B_C、I_C、E_C、S_C，其中“_”是分隔符，“B”、“I”、“E”、“S”代表对应汉字在构成成分中所处的位置，“B”是代表构成成分的开头汉字的符号，“I”是代表构成成分的非开头汉字和结尾汉字的中间汉字的符号，“E”是代表构成成分的结尾汉字的符号；“S”是代表单个字是一个构成成分的符号，“C”有多个符号来表示，分别代表构成成分的类别；

(2)根据所述标签分类为中文症状体征中的每个汉字标注，得到表示症状体征的构成情况的标签序列。

3.如权利要求1所述的一种中文症状体征构成识别方法，其特征在于，对中文症状体征数据进行数据预处理，得到汉字特征向量和对应的词性特征向量包括：

(1)将中文症状体征按汉字进行分割；

(2)对分割后的汉字进行统计，形成汉字表；

(3)对于出现次数少于所设阈值的汉字，将其从汉字表中剔除，并用一个未在汉字表中出现过的字符<OOV>来替换被剔除的汉字，将<OOV>加入汉字表；

(4)为汉字表中的每个汉字分别分配一个专属的汉字特征向量和词性特征向量，作为神经网络中的输入。

4.如权利要求1所述的中文症状体征构成识别方法，其特征在于，利用训练语料或者已有词典收集症状和体征的构成成分构建所述的类型-成分词典。

5.如权利要求1所述的中文症状体征构成识别方法，其特征在于，所述人工数据是使用所述类型-成分词典，对训练语料中的每一个症状或体征，将其中的构成成分替换成词典中相同类型的其它构成成分，并将新的症状体征加入到训练集中。

6.如权利要求1所述的中文症状体征构成识别方法，其特征在于，所述汉字特征向量和词性特征向量包括：预训练的汉字特征向量和词性特征向量或者随机初始化并且由神经网络训练出的汉字特征向量和词性特征向量。

7.如权利要求1所述的中文症状体征构成识别方法，其特征在于，所述词性特征包括：位置无关词性特征和位置有关词性特征。

8.如权利要求1所述的中文症状体征构成识别方法，其特征在于，所述词性特征的表示方式包括：独热编码或分布式表示。

9.如权利要求1所述的中文症状体征构成识别方法，其特征在于，将所述汉字特征向量传入到LSTM神经网络，利用双向LSTM神经网络来训练得到输入症状体征的信息特征包括步骤：

(2)t时刻的遗忘门计算如公式(1)所示：

f_t＝σ(W_fx_t+U_fh_t-1+b_f) (1)

(3)t时刻更新h_t-1中存储的信息，计算公式如(2)、(3)所示：

i_t＝σ(W_ix_t+U_ih_t-1+b_i) (2)

其中，为t时刻可被加入到cell state的向量；

其中，为t时刻cell state的向量；

(5)在t时刻的输出如式(5)所示，并更新h_t，计算公式如式(6)：

O_t＝σ(W_ox_t+U_oh_t-1+b_o) (5)

h_t＝O_t*tanh(C_t) (6)

其中，O_t为t时刻的输出门。

10.如权利要求1所述的中文症状体征构成识别方法，其特征在于，利用条件随机场来对每个汉字进行标注，得到症状体征的构成信息包括：

(2)给定标签序列总得分计算公式如式(7)：

(3)计算的真实标签序列真实概率计算公式如式(8)：

其中，是真实标签序列，表示所有可能的标签序列；