CN113779993A

CN113779993A - 一种基于多粒度文本嵌入的医学实体识别方法

Info

Publication number: CN113779993A
Application number: CN202110890112.9A
Authority: CN
Inventors: 道捷; 张春霞; 彭成; 薛晓军; 王瞳; 徐天祥; 郭贵锁
Original assignee: Beijing Institute of Technology BIT
Current assignee: Beijing Institute of Technology BIT
Priority date: 2021-06-09
Filing date: 2021-08-04
Publication date: 2021-12-10
Anticipated expiration: 2041-08-04
Also published as: CN113779993B

Abstract

本发明涉及一种基于多粒度文本嵌入的医学实体识别方法，属于信息抽取和知识图谱构建技术领域。所述医学实体识别方法，包括：构建多粒度文本嵌入：通过预训练语言模型，构建多粒度文本嵌入，多粒度文本嵌入包括字符嵌入、词嵌入、词性嵌入、子串嵌入及短语嵌入；生成模式权重：根据医学术语构成模式，生成中文句子中所有字符的模式权重；结点嵌入表示学习：使用图注意力网络和模式强化注意力机制，进行结点嵌入表示学习；输出医学文本实体识别结果：采用条件随机场生成医学文本的实体类别标签，输出医学实体识别结果。所述方法解决了医学实体识别中图表示信息利用不足、文本分布式表示的嵌入粒度单一的问题，提高了医学实体识别的性能。

Description

一种基于多粒度文本嵌入的医学实体识别方法

技术领域

本发明涉及一种基于多粒度文本嵌入的医学实体识别方法，属于信息抽取和知识图谱构建技术领域。

背景技术

医学实体识别是信息抽取和医学知识图谱构建领域的重要研究课题。医学实体识别是指从非结构化的医学文本中识别医学领域的实体或术语。医学实体识别技术能够为医学领域问答***、医疗辅助诊断以及精准医学知识服务等领域提供技术和知识支撑。

医学实体识别方法主要包括基于规则的方法、基于统计机器学习的方法，以及基于深度学习的方法等。基于规则的医学识别方法的基本思想是，根据构建的医学实体构成规则从非结构化文本中识别医学实体，规则的构成要素包括关键字和词语类别等。

基于统计机器学习的医学实体识别方法主要包括采用最大熵、隐马尔科夫模型，条件随机场，以及支持向量机等模型来识别医学实体。该类方法是指将医学实体识别转化为分类问题或序列标注问题。例如，一种基于条件随机场和规则相结合的方法进行中文电子病历命名实体识别。首先，根据语言符号特征、后缀特征、关键词特征、词典特征和长度特征，采用条件随机场识别；然后，利用规则进行优化识别结果。

基于深度学习的医学实体识别方法包括对非结构化的输入文本的分布式表示或嵌入编码、语境或上下文语义编码，以及标签解码。输入文本的嵌入编码主要包括字符嵌入和词语嵌入。上下文语义编码模型包括卷积神经网络、双向长短期记忆网络，循环神经网络等。例如，一种方法是基于双向长短期记忆网络和条件随机场模型进行中文电子病历的医学实体识别。首先，生成每个词语的低维向量表示；然后，采用带有注意力机制的双向长短期记忆网络和条件随机场模型进行医学实体识别。

图注意力网络是在图卷积神经网络基础上，引入了注意力机制。图注意力网络已应用于问答***的答案抽取、信息推荐和关系抽取等。

现有医学实体识别方法主要存在如下问题：第一，目前医学实体识别方法主要构建了文本的字符嵌入、词语嵌入和词性嵌入，较少引入短语嵌入和子串嵌入。第二，目前方法较少通过图注意力网络对医学文本建模进行实体识别。第三，目前方法较少融合基于模式或规则的方法和基于深度学习的方法，以充分有效集成这两种方法的优点。基于模式或规则的方法的性能较高，基于深度学习的方法不需要耗时耗力的特征工程，能够实现端到端的非线性学习。

发明内容

本发明的目的是为了解决医学实体识别中图表示信息利用不足、文本分布式表示的嵌入粒度单一，提出了一种基于多粒度文本嵌入的医学实体识别方法，该方法首先构建多粒度文本嵌入，包括字符嵌入、词嵌入、词性嵌入、子串嵌入以及短语嵌入，实现对医学文本的字符、词语、词性、短语和子串层面的多粒度的文本嵌入表示学习；然后，采用图注意力网络、模式强化注意力机制以及条件随机场进行医学文本实体识别，具体为：第一，利用图注意力网络模型，实现对医学文本的图嵌入表示的构建，第二，将模式强化注意力机制引入到图注意力网络中增强结点的注意力权重，从而提高医学实体识别性能。

为了达到上述目的，本发明采取如下技术方案：

所述基于多粒度文本嵌入的医学实体识别方法，包括以下步骤：

步骤1：通过预训练语言模型构建多粒度文本嵌入，包括如下步骤：

步骤1.1：对于非结构化的中文医学文本，构建多粒度文本嵌入；

步骤1.1.1：利用预训练语言模型MC-Bert进行符号嵌入、分割嵌入和遮盖嵌入的学习，生成非结构化的中文医学文本的字符嵌入；

MC-Bert是根据中文医学数据训练生成的预训练模型；

对于非结构化的中文医学文本，预训练语言模型MC-Bert的输入由三种嵌入组成，分别是符号嵌入、分割嵌入和遮盖嵌入；

其中，符号嵌入是指每个词语的向量表示；分割嵌入用于区分两个自然语言句子，医学实体识别任务以句子为单位进行识别实体，因此每个词语具有相同的分割嵌入；遮盖嵌入中，若当前位置为输入句子的字符，则赋值为1；若当前位置为0，即不是输入句子的字符，则赋值为0；

对于中文句子CS，CS＝(cc₁,cc₂,...,cc_n)，cc₁,cc₂,...,cc_n为字符，采用预训练语言模型MC-Bert，生成句子CS的字符嵌入表示E_cc如(1)所示：

E_cc＝(e_cc1,e_cc2,....,e_ccn)，E_cc∈R^n×m (1)

其中，n为句子长度，即句子中字符的数目，若字符数目不到n，则填充0；m为预训练模型MC-Bert设置的维度；e_cci(i＝1,2,...,n)为字符cc_i的嵌入；字符嵌入表示E_cc为的维度为n行m列；R^n×m表示n行m列的实数矩阵；

步骤1.1.2：生成中文医学文本的词嵌入、词性嵌入以及短语嵌入；

首先，对于中文医学文本，使用jieba分词工具获得中文医学文本的词语，利用词性标注器Stanford postagger获得中文医学文本的词语的词性标记，利用句法分析器Stanford parser获得中文医学文本的短语标记；

然后，利用word2vec工具生成词嵌入、词性嵌入以及短语嵌入；

对于中文句子CS，CS＝(cc₁,cc₂,...,cc_n)，cc₁,cc₂,...,cc_n为字符，词嵌入，具体为：基于jieba分词工具获得中文医学文本的词语，利用word2vec获取所隶属词语的词嵌入；词性嵌入，具体为：基于获得中文医学文本的词语的词性标记，利用word2vec获取所隶属词语的词性嵌入；短语嵌入，具体为：基于获得中文医学文本的短语标记，利用word2vec获取所隶属短语的类型嵌入；

其中，词嵌入为E_cw＝(e_cw1,e_cw2,....,e_cwn)，其中，字符cc₁,cc₂,...,cc_n所隶属的词语依次为cw₁,cw₂,...,cw_n；e_cwi(i＝1,2,...,n)为词语cw_i的嵌入；

词性嵌入为E_cpos＝(e_cpo1,e_cpo2,....,e_cpon)，其中，词语cw₁,cw₂,...,cw_n的词性依次为cpo₁,cpo₂,...,cpo_n；e_cpoi(i＝1,2,...,n)为词性cpo_i的嵌入；

短语嵌入为E_cph＝(e_cph1,e_cph2,....,e_cphn)，其中，字符cc₁,cc₂,...,cc_n所隶属的短语类型依次为cph₁,cph₂,...,cph_n；e_cphi(i＝1,2,...,n)为短语类型cph_i的嵌入；

步骤1.1.3：对于非结构化的中文医学文本，利用word2vec工具生成子串嵌入，具体为：

首先，采集医学术语词典，构建医学术语子串集合，具体为：对于任意两个术语，提取两个术语的最长公共子串，添加到医学术语子串集合；若两个术语有多个相同长度的最长公共子串，则取第一个最长公共子串，添加到医学术语子串集合；

其次，对医学术语子串集合中的子串，利用word2vec工具生成所有子串的嵌入表示；

然后，对于每个词语cw_i(i＝1,2,...,n)，判断该词语cw_i是否包含医学术语子串集合中的子串；对于中文句子CS，CS＝(cc₁,cc₂,...,cc_n)，cc₁,cc₂,...,cc_n为字符，cc₁,cc₂,...,cc_n所隶属的词语依次为：cw₁,cw₂,...,cw_n；设词语cw_i包含医学术语子串集合中的子串csubs₁,csubs₂,...,csubs_p，子串csubs₁,csubs₂,...,csubs_p的嵌入表示分别为e_cs1,e_cs2,....,e_csp，则词语cw_i的子串嵌入表示e_cssi为：对e_cs1,e_cs2,....,e_csp相加求和，然后除以子串个数p的结果；若词语cw_i不包含医学术语子串集合中的任何子串，则输出为自定义值；

最后，对于句子CS中的每个字符cc_i(i＝1,2,...,n)，按照以上步骤生成其对应的子串嵌入；句子CS的子串嵌入为E_css＝(e_css1,e_css2,....,e_cssn)；

步骤1.1.4：将中文医学文本的字符嵌入、词嵌入、词性嵌入、短语嵌入以及子串嵌入进行拼接，构建多粒度文本嵌入，具体为：

对于中文句子CS，CS＝(cc₁,cc₂,...,cc_n)，cc₁,cc₂,...,cc_n为字符，构建字符cc_i(i＝1,2,...,n)的多粒度文本嵌入，即拼接句子CS的字符嵌入E_cc、词嵌入E_cw、词性嵌入E_cpos、短语嵌入E_cph以及子串嵌入E_css，构建句子CS的多粒度文本嵌入，如(2)所示：

E_cme＝Concate(E_cc,E_cw,E_cpos,E_cph,E_css) (2)

其中，Concate表示拼接操作；另外，E_cme的维度＝E_cc的维度+E_cw的维度+E_cpos的维度+E_cph的维度+E_css的维度；

至此，从步骤1.1.1到步骤1.1.4，构建好了中文字符cc_i(i＝1,2,...,n)的多粒度文本嵌入为E_cme；

步骤1.2：对于非结构化的英文医学文本，构建多粒度文本嵌入，包括以下步骤：

步骤1.2.1：利用预训练语言模型BioBert进行符号嵌入、分割嵌入和遮盖嵌入的学习，生成非结构化的英文医学文本的单词嵌入；

BioBert是根据英文医学数据训练生成的预训练模型；

对于英文句子ES，ES＝(ew₁,ew₂,...,ew_n)，ew₁,ew₂,...,ew_n为单词，利用预训练语言模型BioBert，生成句子ES的词嵌入表示，如(3)所示：

E_ew＝(e_ew1,e_ew2,....,e_ewn)，E_ew∈R^n×m (3)

其中，n为句子长度，即句子中单词的数目，若单词数目不到n，则填充0；m为预训练模型BioBert设置的维度；e_ewi(i＝1,2,...,n)为单词ew_i的嵌入；

步骤1.2.2：生成英文医学文本的字符嵌入、词性嵌入以及短语嵌入；

对于英文医学文本，利用word2vec工具生成字符嵌入、词性嵌入、短语嵌入；

对于英文句子ES，ES＝(ew₁,ew₂,...,ew_n)，ew₁,ew₂,...,ew_n为单词，ew_i(i＝1,2,...,n)的字符嵌入为构成ew_i的所有字符嵌入求和取平均值，词性嵌入为ew_i的词性的嵌入，短语嵌入为所隶属短语的类型的嵌入；

其中，字符嵌入为E_ec＝(e_ec1,e_ec2,....,e_ecn)，其中，e_eci(i＝1,2,...,n)为单词ew_i的字符嵌入；

词性嵌入为E_epos＝(e_epo1,e_epo2,....,e_epon)，其中，单词ew₁,ew₂,...,ew_n的词性依次为epo₁,epo₂,...,epo_n；e_epoi(i＝1,2,...,n)为词性epo_i的嵌入；

短语嵌入为E_eph＝(e_eph1,e_eph2,....,e_ephn)，其中，单词ew₁,ew₂,...,ew_n所隶属的短语类型依次为eph₁,eph₂,...,eph_n；e_ephi(i＝1,2,...,n)为短语类型eph_i的嵌入；

步骤1.2.3：对于非结构化的英文医学文本，利用word2vec工具生成子串嵌入；

首先，采集英文医学术语词典，构建医学术语子串集合；对于任意两个术语，提取两个术语的最长公共子串，添加到医学术语子串集合；若两个术语有多个相同长度的最长公共子串，则取第一个最长公共子串，添加到医学术语子串集合；

其次，利用word2vec工具生成所有子串的嵌入表示；

然后，对于英文文句子ES，ES＝(ew₁,ew₂,...,ew_n)，ew₁,ew₂,...,ew_n为单词，对于每个单词ew_i(i＝1,2,...,n)，判断单词ew_i是否包含医学术语子串集合中的子串；设单词ew_i包含医学术语子串集合中的子串esubs₁,esubs₂,...,esubs_q，子串esubs₁,esubs₂,...,esubs_q的嵌入表示为e_es1,e_es2,....,e_esq，则单词ew_i的子串嵌入表示e_essi为：对e_es1,e_es2,....,e_esq相加求和，然后除以子串个数q的结果；若单词ew_i不包含医学术语子串集合中的任何子串，则输出为自定义值；

最后，对于句子ES中的每个字符ew_i(i＝1,2,...,n)，按照以上步骤生成其对应的子串嵌入；句子ES的子串嵌入为E_ess＝(e_ess1,e_ess2,....,e_essn)；

步骤1.2.4：将英文医学文本的字符嵌入、词嵌入、词性嵌入、短语嵌入以及子串嵌入进行拼接，构建多粒度文本嵌入，具体为：

对于英文句子ES，ES＝(ew₁,ew₂,...,ew_n)，ew₁,ew₂,...,ew_n为单词，构建ew_i(i＝1,2,...,n)的多粒度文本嵌入，即拼接句子ES的字符嵌入E_ec、词嵌入E_ew、词性嵌入E_epos、短语嵌入E_eph，以及子串嵌入E_ess，构建句子ES的多粒度文本嵌入，如(4)所示；

E_eme＝Concate(E_ec,E_ew,E_epos,E_eph,E_ess) (4)

其中，Concate表示拼接操作；另外，E_eme的维度＝E_ec的维度+E_ew的维度+E-_epos的维度+E_eph的维度+2E_ess的维度；

至此，从步骤1.2.1到步骤1.2.4，构建好了英文单词ew_i(i＝1,2,...,n)的多粒度文本嵌入为E_eme；

步骤2：根据医学实体构成模式，生成中文句子中所有字符的模式权重，包括如下步骤：

步骤2.1：构建中文医学实体构成模式；

医学实体构成模式的构成形式为：“Y₁+Y₂+Y₃+...+Y_k”；

其中，Y₁,Y₂,Y₃,...,Y_k表示词语的类别，“+”表示字符串的链接操作；

词语的类别包括否定词、临床表现、解剖部位、修饰词、疾病名称、体格检查、数值、量词以及药品；

步骤2.2：生成中文句子中字符的模式权重；

对于中文句子CS，CS＝(cc₁,cc₂,...,cc_n)，cc₁,cc₂,...,cc_n为字符，判断中文句子CS是否匹配医学实体构成模式，构建模式匹配权重向量为：(w₁,w₂,...,w_n)；

情形1：若字符串cc_i,cc_i+1,...,cc_j满足模式“解剖部位”、“疾病”或“药品”，则为每个字符cc_i,cc_i+1,...,cc_j赋予模式权重2；

情形2：若字符串cc_i,cc_i+1,...,cc_j满足其他模式，则为每个字符cc_i,cc_i+1,...,cc_j赋予模式权重1.5；

情形3：若字符串cc_i,cc_i+1,...,cc_j不满足模式，则为每个字符cc_i,cc_i+1,...,cc_j赋予模式权重1；

步骤3：使用图注意力网络和模式强化注意力机制，进行结点嵌入表示学习，包括如下步骤：

步骤3.1利用全连接层对中文字符结点、或英文单词结点的嵌入维度进行变换；

对于中文句子CS中每个字符的多粒度文本嵌入，输入至全连接层，对中文多粒度文本嵌入的嵌入维度进行转换；转换维度的原因是：多粒度文本嵌入维度需与步骤3.2中使用的图注意力网络的结点向量输入维度一致；

同理，对于英文句子ES中每个单词的多粒度文本嵌入，输入至全连接层，对英文多粒度文本嵌入的嵌入维度进行转换。

在全连接层中，首先，经过线性层转换维度；然后，利用dropout方法防止过拟合；最后，通过激活函数Relu防止梯度消失；

步骤3.2：对于中文医学文本，利用中文句子中字符的模式权重，将图注意力网络的中文字符结点的注意力权重与模式权重相乘；对于英文医学文本，图注意力网络中英文单词结点的模式权重设为1；

对于中文医学文本，图注意力网络的结点嵌入为字符的嵌入，字符嵌入为步骤3.1生成的字符嵌入；对于英文医学文本，图注意力网络的结点嵌入为单词的嵌入，单词嵌入为步骤3.1生成的单词嵌入；

步骤3.2.1：计算图注意力网络中结点的注意力权重；

首先，将句子的多粒度文本嵌入h输入到图注意力网络中图注意力层中，其中，

为医学文本一个句子的中文字符结点或英文单词结点的嵌入，M为结点个数，H为字符嵌入的维度大小，如(5)所示；

对输入结点嵌入进行线性变换，将结点嵌入转换为所有类别标签个数的维度大小；并利用LeakyRelu函数计算注意力权重，即计算结点v对结点u的重要程度e_uv，如(6)所示；

其中，W₁表示一个共享的权值矩阵，

表示医学文本一个句子的中文字符结点或英文单词结点u的嵌入，

表示医学文本一个句子的中文字符结点或英文单词结点v的嵌入；

然后，利用Softmax函数对e_uv进行归一化，得到α_uv如(7)所示；

其中，e_uk表示结点u对结点k的重要程度，α_uv表示e_uv的归一化值，N_u表示结点u的邻居结点；

最后，生成结点u的注意力权重α_u，如(8)所示；

其中，W₂表示一个权值矩阵；

步骤3.2.2：更新图注意力网络中结点的注意力权重；

首先，对于结点u，利用结点u所表示中文字符或英文单词的模式权重w_u，更新结点u的注意力权重α_u，如(9)所示；

α_u＝α_u×w_u (9)

其次，构建句子的注意力权重attention_l(1≤l≤k)，如(10)所示；

attention_l＝(α₁,α₂,...,α_M) (10)

然后，将多头注意力机制引入到图注意力网络，具体为：计算k个注意力权重，将每个注意力权重与输入h相乘，生成句子的特征h′_l，如(11)所示；

h′_l＝attention_l×h (11)

通过激活函数elu，生成单头输出elu(h′₁),elu(h′₂),...,elu(h′_k)；

第三，将k个头的输出进行拼接生成h'，如(12)所示；

h'＝Concat(elu(h′₁),elu(h′₂),...,elu(h'_k)) (12)

最后，通过log_softmax函数生成最终输出h_final，如(13)所示；

h_final＝log_softmax(h')) (13)

步骤4：采用条件随机场生成医学文本的实体类别标签，输出医学实体识别结果，具体为：生成中文字符或英文单词的实体类别标签；

其中，基于条件随机场计算每个字符条件概率分布密度，也就是计算每个字符属于每种实体类别标签的概率，将概率最高的标签分配给对应的字符，作为字符的实体类别标签，进而输出医学实体识别结果；

采用条件随机场对医学文本中句子进行序列标注，生成中文字符或英文单词的实体类别标签，输出医学文本实体识别结果。

有益效果

本发明提出的一种基于多粒度文本嵌入的医学实体识别方法，与现有医学实体识别方法相比，具有如下有益效果：

1.所述识别方法具有移植性和鲁棒性，对于语料集的来源不受限制；基于图注意力网络对医学文本进行图表示建模，对语料的语种不受限制，能够处理中文文本和英文文本；

2.所述方法建非结构化医学文本的多粒度文本嵌入，多粒度文本嵌入包括字符嵌入、词嵌入、词性嵌入、子串嵌入以及短语嵌入；通过引入多粒度文本嵌入，挖掘了医学文本的字符、词语、词性、短语和子串方面的特征，实现了字符串层面、词法层面和语法层面的分布式表示学习，增强了医学文本的实体特征信息，提高了医学实体识别的准确性；

3.所述方法采用图注意力网络、模式强化注意力机制以及条件随机场进行医学实体识别：第一，利用图注意力网络模型，实现对医学文本的图表示建模，捕获了医学文本中文字符或英文单词之间的图结构信息；第二，引入模式强化注意力机制，将医学实体构成模式特征引入到图注意力网络中增强结点的注意力权重，实现了基于模式的医学实体识别方法和基于深度学习的医学实体识别方法的有效集成，充分利用这两种方法的特点和优势，提高了医学实体识别性能；

4.所述方法能够识别非结构化的中文医学文本和英文医学文本的医学实体，在信息检索、文本分类、问答***等领域具有广阔的应用前景。

附图说明

图1为本发明实施例一基于多粒度文本嵌入的医学实体识别的流程示意图。

具体实施方式

基于本发明方法的医学实体识别***以PyCharm为开发工具，Python为开发语言，Pytorch为开发框架。

下面结合实施例对本发明方法的优选实施方式进行详细说明。

实施例

本实施例叙述了采用本发明所述的一种基于多粒度文本嵌入的医学实体识方法的流程，如图1所示。

首先使用预训练语言模型MC-Bert以及BioBert生成中文医学文本的字符嵌入以及英文医学文本的单词嵌入；使用word2vec工具生成中文医学文本的词嵌入、词性嵌入、短语嵌入、子串嵌入以及英文医学文本的字符嵌入、词性嵌入、短语嵌入、子串嵌入，将这些嵌入进行拼接构建出最终的中英文医学文本多粒度文本嵌入；其次，根据医学实体构成模式，生成中文句子中所有字符的模式权重，英文句子中所有单词的模式权重设为1；然后，使用图注意力网络和模式强化注意力机制，进行结点嵌入表示学习，使用模式权重对图注意力网络中结点的注意力权重进行更新；最后，使用条件随机场对中文医学文本中每个字符的实体标签进行预测或者是对英文医学文本中每个单词的实体标签进行预测，输出医学文本实体识别结果；在CCKS2019数据集下进行了实验；首先，生成CCKS2019数据集中每句医学文本的多粒度文本嵌入；其次，根据医学实体构成模式，生成每句医学文本中所有字符的模式权重；然后，将多粒度文本嵌入以及模式匹配权重传入到图注意力网络中，将模式匹配权重与结点的注意力权重相乘，计算得到的输入文本的最终嵌入表示；最后，条件随机场根据计算得到的概率输出最终预测的实体识别标签；实验结果证明了本发明的有效性；本发明所述方法还能够应用于英文医学文本数据集NCBI Disease以及生物化学领域数据集BC5CDR等；应用于数据集NCBI Disease的流程与数据集CCKS2019大体一致，不同之处在于在图注意力网络中计算注意力系数时，将英文单词结点的模式权重全部设为1即可；应用于数据集BC5CDR的流程不同之处在于：在构建多粒度文本嵌入时，需要使用针对生物化学领域的术语词典来生成子串嵌入，将字符嵌入、词嵌入、词性嵌入以及短语嵌入拼接即可，将拼接后的嵌入传入图注意力网络中；在图注意力网络计算注意力权重时可以加入针对生物化学领域的实体构成模式匹配权重，将图注意力网络的结果传入条件随机场中；条件随机场根据概率输出最终预测的实体识别结果。

从图1可以看出，具体包括如下步骤：

步骤1：通过预训练语言模型构建多粒度文本嵌入，包括以下步骤：

MC-Bert是根据中文医学数据训练生成的预训练模型；

对于非结构化的中文医学文本，预训练语言模型MC-Bert的输入由三种嵌入组成，分别是符号嵌入(Token Embedding)、分割嵌入(Segment Embedding)和遮盖嵌入(MaskEmbedding)，其中符号嵌入是指每个词语的向量表示。分割嵌入用于区分两个自然语言句子，医学实体识别任务以句子为单位进行识别实体，因此每个词语具有相同的分割嵌入。遮盖嵌入中，若当前位置为输入句子的字符，则赋值为1；若当前位置为0，即不是输入句子的字符，则赋值为0；

对于中文句子CS，CS＝(cc₁,cc₂,...,cc_n)，cc₁,cc₂,...,cc_n为字符；采用预训练语言模型MC-Bert，生成句子CS的字符嵌入表示E_cc，如(1)所示；

E_cc＝(e_cc1,e_cc2,....,e_ccn)，E_cc∈R^n×m (1)

其中，n为句子长度512，即句子中字符的数目，若字符数目不到512，则填充0；m为预训练模型MC-Bert设置的维度768维；e_cci(i＝1,2,...,n)为字符cc_i的嵌入，维度为768维；字符嵌入表示E_cc的维度为512×768；R^n×m表示n行m列的实数矩阵；

例如，对于句子“患者4月前发现皮肤、巩膜黄染,伴食欲上降,晚餐后明显,时有阵发性腹痛、恶心,无腹泻、呕吐,时有胸闷、憋气、头晕,无头痛,无视物旋转,无发热、咳嗽,无胸痛、喘憋,大便颜色较前变浅。”，字符之间用“\t”分割。在句首和句尾增加“[CLS]”和“[SEP]”标记。为了使得不同句子的字符嵌入表示的维度一致，通过填充0将句子长度扩充到512。利用预训练模型MC-Bert生成该句子的字符嵌入表示为：

其中，n为句子长度512，m表示字符嵌入维度768维。字符“患”的字符嵌入向量为(x₁₁,x₁₂,...x_1m)；

然后，利用word2vec工具生成词嵌入、词性嵌入以及短语嵌入，这三种嵌入的维度都为200；

例如，对于中文句子“患者4月前发现皮肤、巩膜黄染”，利用jieba分词工具获得分词结果为“患者4月前发现皮肤、巩膜黄染”。进一步，扩充分词结果为“患者患者4月前发现发现皮肤皮肤、巩膜巩膜黄染黄染”，给出了该句子中每个字符所隶属的词语。例如，字符“患”隶属于词语“患者”，字符“患”的词语嵌入为词语“患者”的嵌入；

通过词性标注器Stanford postagger，获得该中文句子扩充后的词性标记为“NNNN CD NN LC VV VV NN NN PU NN NN NR NR”。利用句法分析器Stanford parser，获得该中文句子扩充后的短语标记为“NP NP NP NP LCP VP VP NP NP PU NP NP NP NP”，例如，字符“患”隶属于词语“患者”，字符“患”的词性嵌入为词语“患者”的词性“NN”的嵌入，字符“患”的短语嵌入为所隶属短语的类型标记“NP”的嵌入；

步骤1.1.3：对于非结构化的中文医学文本，利用word2vec工具生成子串嵌入，嵌入维度为200，具体为：

首先，采集医学术语词典，构建医学术语子串集合；

对于任意两个术语，提取两个术语的最长公共子串，添加到医学术语子串集合。若两个术语有多个相同长度的最长公共子串，则取第一个最长公共子串，添加到医学术语子串集合；

然后，对于每个词语cw_i(i＝1,2,...,n)，判断该词语cw_i是否包含医学术语子串集合中的子串；对于中文句子CS，CS＝(cc₁,cc₂,...,cc_n)，cc₁,cc₂,...,cc_n为字符，cc₁,cc₂,...,cc_n所隶属的词语依次为：cw₁,cw₂,...,cw_n；设词语cw_i包含医学术语子串集合中的子串csubs₁,csubs₂,...,csubs_p，子串csubs₁,csubs₂,...,csubs_p的嵌入表示为e_cs1,e_cs2,....,e_csp，则词语cw_i的子串嵌入表示e_cssi为：对e_cs1,e_cs2,....,e_csp相加求和，然后除以子串个数p的结果；若词语cw_i不包含医学术语子串集合中的任何子串，则输出为自定义值；

例如，采集医学词典：医学***命名法-临床术语SNOMED CT，构建该医学术语子串集合。对于中文句子中的词语“消化道”，该词语包括医学术语子串集合中的子串“消、化、道、消化、化道、消化道”。进一步，字符串“消化道”的子串嵌入为：六个子串“消”、“化”、“道”、“消化”、“化道”、“消化道”的嵌入表示相加求和并除以子串个数6的结果；

步骤1.1.4：将中文医学文本的字符嵌入、词嵌入、词性嵌入、短语嵌入以及子串嵌入进行拼接，构建多粒度文本嵌入：

对于中文句子CS，CS＝(cc₁,cc₂,...,cc_n)，cc₁,cc₂,...,cc_n为字符，构建字符cc_i(i＝1,2,...,n)的多粒度文本嵌入，即拼接句子CS的字符嵌入E_cc、词嵌入E_cw、词性嵌入E_cpos、短语嵌入E_cph，以及子串嵌入E_css，构建句子CS的多粒度文本嵌入，如(2)所示；

E_cme＝Concate(E_cc,E_cw,E_cpos,E_cph,E_css) (2)

其中，Concate表示拼接操作。另外，E_cme的维度为1568维，即1568(E_cme的维度)＝768(E_cc的维度)+200(E_cw的维度)+200(E_cpos的维度)+200(E_cph的维度)+200(E_css的维度)；

步骤1.2：对于非结构化的英文医学文本，生成多粒度文本嵌入，包括以下步骤：

BioBert是根据英文医学数据训练生成的预训练模型；

对于英文句子ES，ES＝(ew₁,ew₂,...,ew_n)，ew₁,ew₂,...,ew_n为单词；利用预训练语言模型BioBert，生成句子ES的词嵌入表示，如(3)所示；

E_ew＝(e_ew1,e_ew2,....,e_ewn)，E_ew∈R^n×m (3)

其中，n为句子长度512，即句子中单词的数目，若单词数目不到512，则填充0；m为预训练模型BioBert设置的维度768维；e_ewi(i＝1,2,...,n)为单词ew_i的嵌入，维度为768维；字符嵌入表示E_ew的维度为512×768；R^n×m表示n行m列的实数矩阵；

对于英文医学文本，利用word2vec工具生成字符嵌入、词性嵌入、短语嵌入，嵌入维度为200；

步骤1.2.3：对于非结构化的英文医学文本，利用word2vec工具生成子串嵌入，嵌入维度为200，具体为：

其次，利用word2vec工具生成所有子串的嵌入表示；

步骤1.2.4：将英文医学文本的字符嵌入、词嵌入、词性嵌入、短语嵌入以及子串嵌入进行拼接，构建多粒度文本嵌入：

E_eme＝Concate(E_ec,E_ew,E_epos,E_eph,E_ess) (4)

其中，Concate表示拼接操作。另外，E_eme的维度为1568维，即1568(E_eme的维度)＝768(E_ec的维度)+200(E_ew的维度)+200(E_epos的维度)+200(E_eph的维度)+200(E_ess的维度)；

步骤2：根据医学实体构成模式，生成中文句子中所有字符的模式权重，包括以下步骤：

步骤2.1：构建中文医学实体构成模式；

医学实体构成模式的构成形式为：“Y₁+Y₂+Y₃+...+Y_k”，其中Y₁,Y₂,Y₃,...,Y_k表示词语的类别，“+”表示字符串的链接操作。词语的类别包括否定词、临床表现、解剖部位、修饰词、疾病名称、体格检查、数值、量词、药品；

例如，否定词包括没有、缺乏、没有过等。临床表现包括寒战、出汗、心率增快等。解剖部位包括背部、半月板、左结肠动脉等。修饰词包括轻度、轻微、愈发等。疾病名称包括风湿性心脏病、多发性癌症等。体格检查包括心肺、心电图等。量词包括度、组、只等。药品包括西地兰、头孢呋辛酯、阿司匹林等；

例如，构建医学实体构成模式“否定词+临床表现”，术语“无恶心”和“无发热”满足该模式。因为术语“无恶心”由否定词“无”和临床表现“恶心”构成，术语“无发热”由否定词“无”和临床表现“发热”构成；

步骤2.2：生成中文句子中字符的模式权重；

例如，输入文本“患者4月前发现皮肤、巩膜黄染”根据医学实体构成模式，生成的模式权重向量为：(1,1,1,1,1,1,1,2,2,1,2,2,1,1)；

步骤3：使用图注意力网络和模式强化注意力机制，进行结点嵌入表示学习，包括以下步骤：

对于中文句子CS中每个字符的多粒度文本嵌入，输入至全连接层，对中文多粒度文本嵌入的嵌入维度从1568维转换为768维。转换维度的原因是：多粒度文本嵌入维度需与步骤3.2中使用的图注意力网络的结点向量输入维度一致，即为768维。同理，对于英文句子ES中每个单词的多粒度文本嵌入，输入至全连接层，对英文多粒度文本嵌入的嵌入维度从1568维转换为768维；

对于中文医学文本，图注意力网络的结点嵌入为字符的嵌入，字符嵌入为步骤3.1生成的768维的字符嵌入。对于英文医学文本，图注意力网络的结点嵌入为单词的嵌入，单词嵌入为步骤3.1生成的768维的单词嵌入；

步骤3.2.1：计算图注意力网络中结点的注意力权重；

为医学文本一个句子的中文字符结点或英文单词结点的嵌入，M为结点个数512，H为字符嵌入的维度大小，取值为768维，如(5)所示；

对输入结点嵌入进行线性变换，将768维的结点嵌入转换为16维的结点嵌入，16为所有类别标签的个数。并利用LeakyRelu函数计算注意力权重，即计算结点v对结点u的重要程度e_uv，如(6)所示；

其中，W₁表示一个共享的权值矩阵，

然后，利用Softmax函数对e_uv进行归一化，得到α_uv如(7)所示；

其中，e_uk表示结点u对结点k的重要程度；

其中，α_uv表示e_uv的归一化值，N_u表示结点u的邻居结点；

最后，生成结点u的注意力权重α_u，如(8)所示；

其中W₂表示一个权值矩阵；

步骤3.2.2：更新图注意力网络中结点的注意力权重；

α_u＝α_u×w_u (9)

其次，构建句子的注意力权重attention_l(1≤l≤k)，，如(10)所示；

attention_l＝(α₁,α₂,...,α_M) (10)

然后，将多头注意力机制引入到图注意力网络。具体地，计算k个注意力权重，将每个注意力权重与输入h相乘，生成句子的特征h′_l，如(11)所示；

h′_l＝attention_l×h (11)

通过激活函数elu，生成单头的输出elu(h′₁),elu(h'₂),...,elu(h'_k),最后，将k个头的输出进行拼接生成h'，如(12)所示；

h'＝concat(elu(h′₁),elu(h′₂),...,elu(h'_k)) (12)

最后，通过log_softmax函数生成最终输出h_final，如(13)所示；

h_final＝log_softmax(h')) (13)

例如，对于一个数据集，其实体类别标签包括：“PAD”、“CLS”、“SEP”、“O”、“B-疾病和诊断”、“I-疾病和诊断”、“B-手术”、“I-手术”、“B-解剖部位”、“I-解剖部位”、“B-药物”、“I-药物”、“B-影像检查”、“I-影像检查”、“B-实验室检验”、“I-实验室检验”；

例如，对于句子“患者4月前发现皮肤、巩膜黄染,伴食欲上降,晚餐后明显,时有阵发性腹痛、恶心,无腹泻、呕吐,时有胸闷、憋气、头晕,无头痛,无视物旋转,无发热、咳嗽,无胸痛、喘憋,大便颜色较前变浅。”，经过条件随机场序列标注后的结果为[3，3，3，3，3，3，3，3，3，3，8，9，3，3，3，3，3，3，3，3，3，3，3，3，3，3，3，3，3，3，3，3，8，3，3，3，3，3，3，8，3，3，3，3，3，3，3，8，3，3，3，3，3，8，3，3，3，8，3，3，3，3，3，3，3，3，3，3，3，3，3，3，3，3，8，3，3，3，3，3，3，3，3，3，3，3，3，3，3]；列表中的每个数表示预测的该位字符的实体类别标签的索引。通过idx2tag函数将索引转换为对应的实体标签，最终实体识别结果为“O O O O O O O O O O B-解剖部位I-解剖部位O O O O O O O O O O O O O O O O O O O O B-解剖部位O O O O O OB-解剖部位O O O O O O O B-解剖部位O O O O O B-解剖部位O O O B-解剖部位O O O OO O O O O O O O O O O O B-解剖部位O O O O O O O O O O O O O O”。

为说明本发明的医学实体识别效果，本实验是在同等条件下，以相同的训练集和测试集分别采用两种方法进行比较；第一种方法是基于双向长短期记忆网络、注意力机制和条件随机场的医学实体识别方法，该方法引入了医学词典和词性特征；第二种方法是本发明的医学实体识别方法；

采用的评测指标为：准确率、召回率和F1值；医学实体识别结果为：已有技术的双向长短期记忆网络、注意力机制和条件随机场的医学实体识别结果的准确率为76.42％，召回率为73.80％，F1值为75.08％；采用本发明方法的医学实体识别结果的准确率为86.38％，召回率为85.82％，F1值为86.10％；通过实验表明了本发明提出的基于多粒度文本嵌入的医学实体识别方法的有效性；

以上所述为本发明的较佳实施例而已，本发明不应该局限于该实施例和附图所公开的内容。凡是不脱离本发明所公开的精神下完成的等效或修改，都落入本发明保护的范围。

Claims

1.一种基于多粒度文本嵌入的医学实体识别方法，其特征在于：包括以下步骤：

首先，对于中文医学文本，使用jieba分词工具获得中文医学文本的词语，利用词性标注器Stanford postagger获得中文医学文本的词语的词性标记，利用句法分析器Stanfordparser获得中文医学文本的短语标记；

步骤1.1.4：将中文医学文本的字符嵌入、词嵌入、词性嵌入、短语嵌入以及子串嵌入进行拼接，构建多粒度文本嵌入；

BioBert是根据英文医学数据训练生成的预训练模型；

其次，利用word2vec工具生成所有子串的嵌入表示；

然后，对于英文文句子ES，ES＝(ew₁，ew₂，...，ew_n)，ew₁，ew₂，...，ew_n为单词，对于每个单词ew_i(i＝1，2，...，n)，判断单词ew_i是否包含医学术语子串集合中的子串；设单词ew_i包含医学术语子串集合中的子串esubs₁，esubs₂，...，esubs_q，子串esubs₁，esubs₂，...，esubs_q的嵌入表示为e_es1，e_es2，....，e_esq，则单词ew_i的子串嵌入表示e_essi为：对e_es1，e_es2，....，e_esq相加求和，然后除以子串个数q的结果；若单词ew_i不包含医学术语子串集合中的任何子串，则输出为自定义值；

最后，对于句子ES中的每个单词ew_i(i＝1，2，...，n)，按照以上步骤生成其对应的子串嵌入；句子ES的子串嵌入为E_ess＝(e_ess1，e_ess2，....，e_essn)；

步骤1.2.4：将英文医学文本的字符嵌入、词嵌入、词性嵌入、短语嵌入以及子串嵌入进行拼接，构建多粒度文本嵌入；

步骤2.1：构建中文医学实体构成模式；

医学实体构成模式的构成形式为：“Y₁+Y₂+Y₃+...+Y_k”；

其中，Y₁，Y₂，Y₃，...，Y_k表示词语的类别，“+”表示字符串的链接操作；

步骤2.2：生成中文句子中字符的模式权重；

同理，对于英文句子ES中每个单词的多粒度文本嵌入，输入至全连接层，对英文多粒度文本嵌入的嵌入维度进行转换；

步骤3.2.1：计算图注意力网络中结点的注意力权重；

步骤3.2.2：更新图注意力网络中结点的注意力权重；

2.根据权利要求1所述的一种基于多粒度文本嵌入的医学实体识别方法，其特征在于：步骤1.1.1中的MC-Bert是根据中文医学数据训练生成的预训练模型；且步骤1.1.1中的符号嵌入是指每个词语的向量表示；分割嵌入用于区分两个自然语言句子，医学实体识别任务以句子为单位进行识别实体，因此每个词语具有相同的分割嵌入；遮盖嵌入中，若当前位置为输入句子的字符，则赋值为1；若当前位置为0，即不是输入句子的字符，则赋值为0。

3.根据权利要求2所述的一种基于多粒度文本嵌入的医学实体识别方法，其特征在于：步骤1.1.1中，对于中文句子CS，CS＝(cc₁，cc₂，...，cc_n)，cc₁，cc₂，...，cc_n为字符，采用预训练语言模型MC-Bert，生成句子CS的字符嵌入表示E_cc如(1)所示：

E_cc＝(e_cc1，e_cc2，....，e_ccn)，E_cc∈R^n×m(1)

其中，n为句子长度，即句子中字符的数目，若字符数目不到n，则填充0；m为预训练模型MC-Bert设置的维度；e_cci(i＝1，2，...，n)为字符cc_i的嵌入；字符嵌入表示E_cc的维度为n行m列；R^n×m表示n行m列的实数矩阵。

4.根据权利要求3所述的一种基于多粒度文本嵌入的医学实体识别方法，其特征在于：步骤1.1.2中对于中文句子CS，CS＝(cc₁，cc₂，...，cc_n)，cc₁，cc₂，...，cc_n为字符，词嵌入，具体为：基于jieba分词工具获得中文医学文本的词语，利用word2vec获取所隶属词语的词嵌入；词性嵌入，具体为：基于获得中文医学文本的词语的词性标记，利用word2vec获取所隶属词语的词性嵌入；短语嵌入，具体为：基于获得中文医学文本的短语标记，利用word2vec获取所隶属短语的类型嵌入；

其中，词嵌入为E_cw＝(e_cw1，e_cw2，....，e_cwn)，其中，字符cc₁，cc₂，...，cc_n所隶属的词语依次为cw₁，cw₂，...，cw_n；e_cwi(i＝1，2，...，n)为词语cw_i的嵌入；

词性嵌入为E_cpos＝(e_cpo1，e_cpo2，....，e_cpon)，其中，词语cw₁，cw₂，...，cw_n的词性依次为cpo₁，cpo₂，...，cpo_n；e_cpoi(i＝1，2，...，n)为词性cpo_i的嵌入；

短语嵌入为E_cph＝(e_cph1，e_cph2，....，e_cphn)，其中，字符cc₁，cc₂，...，cc_n所隶属的短语类型依次为cph₁，cph₂，...，cph_n；e_cphi(i＝1，2，...，n)为短语类型cph_i的嵌入。

5.根据权利要求4所述的一种基于多粒度文本嵌入的医学实体识别方法，其特征在于：步骤1.1.3中利用word2vec工具生成所有子串的嵌入表示后，对于每个词语cw_i(i＝1，2，...，n)，判断该词语cw_i是否包含医学术语子串集合中的子串；对于中文句子CS，CS＝(cc₁，cc₂，...，cc_n)，cc₁，cc₂，...，cc_n为字符，cc₁，cc₂，...，cc_n所隶属的词语依次为：cw₁，cw₂，...，cw_n；设词语cw_i包含医学术语子串集合中的子串csubs₁，csubs₂，...，csubs_p，子串csubs₁，csubs₂，...，csubs_p的嵌入表示分别为e_cs1，e_cs2，....，e_csp，则词语cw_i的子串嵌入表示e_cssi为：对e_cs1，e_cs2，....，e_csp相加求和，然后除以子串个数p的结果；若词语cw_i不包含医学术语子串集合中的任何子串，则输出为自定义值；

最后，对于句子CS中的每个字符cc_i(i＝1，2，...，n)，按照以上步骤生成其对应的子串嵌入；句子CS的子串嵌入为E_css＝(e_css1，e_css2，....，e_cssn)。

6.根据权利要求5所述的一种基于多粒度文本嵌入的医学实体识别方法，其特征在于：步骤1.1.4，具体为：

对于中文句子CS，CS＝(cc₁，cc₂，...，cc_n)，cc₁，cc₂，...，cc_n为字符，构建字符cc_i(i＝1，2，...，n)的多粒度文本嵌入，即拼接句子CS的字符嵌入E_cc、词嵌入E_cw、词性嵌入E_cpos、短语嵌入E_cph以及子串嵌入E_css，构建句子CS的多粒度文本嵌入，如(2)所示：

E_cme＝Concate(E_cc，E_cw，E_cpos，E_cph，E_css) (2)

至此，从步骤1.1.1到步骤1.1.4，构建好了中文字符cc_i(i＝1，2，...，n)的多粒度文本嵌入为E_cme。

7.根据权利要求6所述的一种基于多粒度文本嵌入的医学实体识别方法，其特征在于：步骤1.2.1中，对于英文句子ES，ES＝(ew₁，ew₂，...，ew_n)，ew₁，ew₂，...，ew_n为单词，利用预训练语言模型BioBert，生成句子ES的词嵌入表示，如(3)所示：

E_ew＝(e_ew1，e_ew2，....，e_ewn)，E_ew∈R^n×m(3)

其中，n为句子长度，即句子中单词的数目，若单词数目不到n，则填充0；m为预训练模型BioBert设置的维度；e_ewi(i＝1，2，...，n)为单词ew_i的嵌入；

步骤1.2.2中，对于英文句子ES，ES＝(ew₁，ew₂，...，ew_n)，ew₁，ew₂，...，ew_n为单词，ew_i(i＝1，2，...，n)的字符嵌入为构成ew_i的所有字符嵌入求和取平均值，词性嵌入为ew_i的词性的嵌入，短语嵌入为所隶属短语的类型的嵌入；

其中，字符嵌入为E_ec＝(e_ec1，e_ec2，....，e_ecn)，其中，e_eci(i＝1，2，...，n)为单词ew_i的字符嵌入；

词性嵌入为E_epos＝(e_epo1，e_epo2，....，e_epon)，其中，单词ew₁，ew₂，...，ew_n的词性依次为epo₁，epo₂，...，epo_n；e_epoi(i＝1，2，...，n)为词性epo_i的嵌入；

短语嵌入为E_eph＝(e_eph1，e_eph2，....，e_ephn)，其中，单词ew₁，ew₂，...，ew_n所隶属的短语类型依次为eph₁，eph₂，...，eph_n；e_ephi(i＝1，2，...，n)为短语类型eph_i的嵌入。

8.根据权利要求7所述的一种基于多粒度文本嵌入的医学实体识别方法，其特征在于：步骤1.2.4，具体为：

对于英文句子ES，ES＝(ew₁，ew₂，...，ew_n)，ew₁，ew₂，...，ew_n为单词，构建ew_i(i＝1，2，...，n)的多粒度文本嵌入，即拼接句子ES的字符嵌入E_ec、词嵌入E_ew、词性嵌入E_epos、短语嵌入E_eph，以及子串嵌入E_ess，构建句子ES的多粒度文本嵌入，如(4)所示；

E_eme＝Concate(E_ec，E_ew，E_epos，E_eph，E_ess) (4)

其中，Concate表示拼接操作；另外，E_eme的维度＝E_ec的维度+E_ew的维度+E_epos的维度+E_eph的维度+2E_ess的维度；

至此，从步骤1.2.1到步骤1.2.4，构建好了英文单词ew_i(i＝1，2，...，n)的多粒度文本嵌入为E_eme。