CN111178047B

CN111178047B - 基于层次序列标注的古代医案处方抽取方法

Info

Publication number: CN111178047B
Application number: CN201911347473.8A
Authority: CN
Inventors: 张引; 熊海辉
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2019-12-24
Filing date: 2019-12-24
Publication date: 2021-08-27
Anticipated expiration: 2039-12-24
Also published as: CN111178047A

Abstract

本发明公开了一种基于层次序列标注的古代医案处方抽取方法，采用BERT+CRF的层次序列标注网络，包括输入层、特征抽取层、全连接层、药与方剂名预测CRF层、处方预测CRF层。首先，本发明不需要对医案进行分句，直接以完整的医案作为输入，避免了分句造成的错误传播。其次，以序列标注的形式获得处方文本，直接获取最相关的文本片段。最后，在识别过程中考虑了药名和方剂名的信息，增强了处方抽取过程中的特征表示，获得了更好的效果，能够利用少量人工标注的数据来识别古代医案中的处方文本；本发明还设计了一种适用于模型挑选的基于BLEU的评价指标方法，用以量化模型抽取结果与标注结果之间的匹配层度，获取最佳模型。

Description

基于层次序列标注的古代医案处方抽取方法

技术领域

本发明涉及深度学习中的预训练语言模型，条件随机场。具体为一种基于层次序列标注的古代医案处方抽取方法。

背景技术

中医医案记录了病人治疗疾病的完整过程，包括治疗期间的病证、处方用药等内容。但是，由于古代医家所处时代、个人风格等原因，导致古代医案内容繁简不一，格式差异较大。这为医案内容的格式化处理、数字化带来了困难。对于中医学者以及中医爱好者而言，从医案中学习过去医家的治疗经验是学习治疗思想的一个重要途径。为此，如何对古代医案进行文本的格式化尤为重要。医案结构化的目的是从无结构的医案文本中识别出药、方、病、症、证和处方等内容，从而形成结构化的医案数据资源。结构化的医案有助于计算机存储、检索，从而更好的对医案进行浏览。此外，结构化的医案有助于进行医案数据的挖掘研究，对于中医爱好者以及研究者而言具有重要的意义。

处方抽取是医案结构化中的任务之一，其基本目的在于从无结构的医案文本中识别并抽取出处方文本片段。一种现有的解决办法是以句子为粒度，通过分类的方式进行处方的识别。该方法首先将医案进行分句，每个句子可以标注为是处方或者不是处方两种情况，从而可以建立一个二分类的模型进行句子分类，最终得到代表处方的句子。这种方法存在两个问题：(1)分句基于规则进行，容易存在错误导致错误传播；(2)以句子为粒度进行分类太粗略，有的处方仅是句子的一部分内容，而不是整个完整的句子都是处方。因此，为了更好地实现古代医案处方抽取任务，主要涉及的技术难点如下：

1.如何设计模型抽取长文本片段；

2.如何减少标注成本，减少标注压力，仅使用少量的标注数据来实现处方抽取；

3.如何设计评价指标量化模型的效果。

发明内容

为了解决上述问题，本发明提出了一种层次序列标注模型进行处方抽取，以序列标注的形式来解决处方抽取问题。首先，以完整的医案内容作为输入，避免了分句造成的错误传播。其次，以序列标注的形式获得处方文本，可以直接获取最相关的文本片段，识别的内容更加精准。最后，在识别过程中考虑了药名和方剂名的信息，增强了处方抽取过程中的特征表示，获得了更好的效果，能够利用少量人工标注的数据来识别古代医案中的处方文本。

为了实现上述目的，本发明采用如下的技术方案：

一种基于层次序列标注的古代医案处方抽取方法，步骤如下：

1)采集权威的医案数据资源，通过OCR工具抽取出医案正文信息；

2)采用数据标注工具对部分医案正文中的处方数据、药名和方剂名进行标注，得到包含两个标注序列的人工标注数据，其中一个是处方标注序列，另一个是药名和方剂名标注序列；所述的两个标注序列均采用BIO标签体系，其中B表示处方、药名和方剂名的开始部分，I表示处方、药名和方剂名的中间部分，O表示不是处方、药名和方剂名的部分；

3)将未标注的医案正文进行分句，过滤字数少于预设阈值的句子，得到预训练语料；将预训练语料用于BERT模型进行模型参数微调；

4)建立BERT+CRF的层次序列标注网络，包括输入层、特征抽取层、全连接层、药与方剂名预测CRF层、处方预测CRF层，所述的特征抽取层采用步骤3)训练好的BERT模型；加载微调后的BERT参数，并利用步骤2)得到的人工标注数据对BERT+CRF的层次序列标注网络进行训练，采用基于BLEU的评价指标方法，将层次序列标注网络处方预测CRF层输出的处方内容预测的BIO标签序列解码得到的处方内容与人工标注结果进行匹配分数的计算，选择匹配分数最高的模型对应的网络参数，得到BERT+CRF的层次序列标注模型；

5)将待处理的医案正文输入步骤4)得到的BERT+CRF的层次序列标注模型中，输出处方内容预测的BIO标签序列，从BIO标签序列中解码出所有的BI序列，BI序列对应的文字内容即为抽取出的处方内容。

进一步的，本发明设计了一种基于BLEU的评价指标方法，用以量化模型抽取结果与标注结果之间的匹配层度，所述的基于BLEU的评价指标方法具体为：

在训练过程中，将层次序列标注网络处方预测CRF层输出的处方内容预测的BIO标签序列进行解码，得到所有的BI序列，根据BI序列对应的文字内容得到处方内容，表示为pred＝[p₁,p₂,...,p_i,...,p_n]；人工标注结果表示为label＝[t₁,t₂,...,t_j,...,t_m]，其中p_i和t_j均为文本字符串，n表示处方内容的数量，m表示人工标注的处方内容的数量；

定义N＝min(m,n),T＝max(m,n)，采用BLEU法计算{p_i,t_j}的相关度，i＝1,2,…,n,j＝1,2,…,n；枚举所有N个不同行不同列的相关度的和，将最大值作为分子，将T作为分母，计算得到最终的匹配分数，计算公式为：

其中，matrix_sum表示所有的N个不同行不同列的相关度的和。

进一步的，所述的BERT+CRF的层次序列标注网络包括输入层、特征抽取层、全连接层、药与方剂名预测CRF层和处方预测CRF层，所述的特征抽取层采用步骤3)训练好的BERT模型；

输入层将输入的字序列映射为对应的ID序列；BERT模型以ID序列为输入，得到每个ID序列对应的特征表示，该特征长度为768维；将每个ID序列对应的特征表示分别输入到两个全连接层进行特征转换，特征降维为3维的特征，其中通过全连接层1转换的特征为药与方剂名特征，经过全连接层2转换的特征为处方特征；将全连接层1输出的药与方剂名特征输入药与方剂名预测CRF层，得到药与方剂名预测的BIO标签序列，将全连接层2输出的处方特征和全连接层1输出的药与方剂名特征相加作为新的特征，输入处方预测CRF层，得到处方内容预测的BIO标签序列。

本发明具备的有益效果：

(1)本发明通过序列标注的方式，在对BERT+CRF的层次序列标注网络进行训练时，不需要对医案进行分句，直接以完整的医案作为输入，直接识别最相关的文本片段，避免了错误传播问题；抽取的处方内容更精准和干净，不包含不相关的文本信息；

(2)本发明使用自然语言处理技术中的预训练语言模型来获得字表征，可以利用大规模的无标注文本中进行预训练，学习通用的语义、语法，减少了标注成本和标注压力，仅使用少量的标注数据来实现处方抽取；

(3)本发明充分利用药名、方剂名信息进行处方识别，对处方识别起到很好的辅助作用，增强了处方抽取过程中的特征表示，获得了更好的效果；

(4)本发明设计了一种基于BLEU的评价指标方法，用以量化模型抽取结果与标注结果之间的匹配层度，用于在训练过程中获取最佳模型。

附图说明

图1为基于层次序列标注的模型结构图；

图2为评价指标说明图。

具体实施方式

以下结合具体实例对本发明做详细说明。

在当前的信息抽取任务中，目标主要集中在如何抽取文本的命名实体，并且命名实体通常很短，处方文本抽取相比，处方文本通常为很长的一段用药序列。为此，本发明提出了两个方法，一个是基于层次序列标注的方式进行处方抽取。把处方抽取当作序列标注问题，并且以BIO标签体系标记出处方对应的片段。另一种是基于边界预测的方法，即预测处方片段在文本中的开始位置和结束位置。我们通过大量实验，证明了基于层次序列标注的方案要优于基于边界预测的方法，因此最终采用基于层次序列标注的方式进行处方抽取。

由于中医邻域的数据标注需要标注人员具备基本的专业领域知识，因而导致处方标注数据难以获取。为了解决这方面的问题，本发明使用自然语言处理技术中的预训练语言模型来获得字表征，能够在大规模的无标注文本中进行预训练，学习通用的语义、语法。然后再通过中医领域的无标注数据进行微调，获得更好的领域相关的字表征，最后再通过标注数据进行训练；减少了标注成本和标注压力，仅使用少量的标注数据来实现处方抽取。

如图1所示，本发明提出的一种基于层次序列标注的古代医案处方抽取方法，所采用的基于层次序列标注网络为BERT+CRF的层次序列标注网络，包括输入层、BERT模型、全连接层、药与方剂名预测CRF层和处方预测CRF层；

在本发明的一个具体实施例中，采用上述BERT+CRF的层次序列标注网络对古代医案处方进行抽取，步骤如下：

步骤一、通过OCR将中医医案相关的经典书籍，如《二续名医类案》进行扫描处理，转换为文本信息，在扫描过程中，***相关的标记，标记医案相关的科室，疾病，正文等内容。

步骤二、通过医案处方标注工具，使用BIO标签体系，标注出部分医案文本中的处方文本片段，获取人工标注数据,包含两个标注序列，其中一个是处方标注序列，另一个是药名和方剂名标注序列；所述的两个标注序列均采用BIO标签体系，在标注过程中，每个字对应BIO标签中的一个，其中B表示处方、药名和方剂名的开始部分，I表示处方、药名和方剂名的中间部分，O表示不是处方、药名和方剂名的部分；

例如，对于文本：“投以玉屏风散加桂枝芍药以益卫固表其汗自止服之甚效”，其对应的处方标注序列的标注结果和药、方剂名标注结果为：

步骤三、预训练语料的准备。将未标注的医案正文进行分句，过滤字数少于5个字的句子，得到预训练语料；预训练语料用于对BERT模型进行预训练微调。语料格式为：每行为一个文本，每篇医案当作一个文档，在语料中通过空行隔开。

在本发明的一个具体实施例中，语料格式如下：

其中，1-6行表示一篇医案的内容，每行为一个句子，8到10行表示另一篇医案，医案间以空行隔开。

步骤四、加载微调后的BERT参数，并利用人工标注数据对BERT+CRF的层次序列标注网络进行训练，采用基于BLEU的评价指标方法，在训练过程中，将层次序列标注网络处方预测CRF层输出的处方内容预测的BIO标签序列进行解码，得到所有的BI序列，根据BI序列对应的文字内容得到处方内容，表示为pred＝[p₁,p₂,...,p_i,...,p_n]；人工标注结果表示为label＝[t₁,t₂,...,t_j,...,t_m]，其中p_i和t_j均为文本字符串，n表示处方内容的数量，m表示人工标注的处方内容的数量；

如图2所示为评价指标说明图，其中A为预测的处方内容的数量少于人工标注的处方内容的数量，B为预测的处方内容的数量等于人工标注的处方内容的数量，C为预测的处方内容的数量大于人工标注的处方内容的数量；由于预测的处方内容的数量和人工标注的处方内容的数量可能会存在数量不同的情况，在计算评价指标的时候，需要考虑预测结果少于和大于标注数量时的惩罚措施，因此定义N＝min(m,n),T＝max(m,n)，采用BLEU法计算{p_i,t_j}的相关度，i＝1,2,…,n,j＝1,2,…,n；枚举所有N个不同行不同列的相关度的和，将最大值作为分子，将T作为分母，计算得到最终的匹配分数，计算公式为：

其中，matrix_sum表示所有的N个不同行不同列的相关度的和。选择匹配分数最高的模型对应的网络参数，得到BERT+CRF的层次序列标注模型；将待处理的医案正文输入BERT+CRF的层次序列标注模型中，输出处方内容预测的BIO标签序列，从BIO标签序列中解码出所有的BI序列，BI序列对应的文字内容即为抽取出的处方内容，获得最终的处方抽取结果。

对于医案“……按脉沉迟细此气虚表弱易感风寒阳虚不能卫外故津液不固易泄而且畏风非疟症也。投以玉屏风散加桂枝芍药以益卫固表其汗自止服之甚效。更以原方去桂枝加人参熟附叠服数帖脉旺气充皮衣尽脱。……”，基于句子分类的抽取结果为(其中每个句子后面括号内容为识别结果，省略号表示省略部分前后文)：

基于层次序列标注方法的抽取结果为(其中，下划线内容为处方文本片段，省略号表示省略部分前后文)：

本发明不需要对医案进行分句，直接以完整的医案作为输入，避免了分句造成的错误传播；以序列标注的形式获得处方文本，直接获取最相关的文本片段；最后在识别过程中考虑了药名和方剂名的信息，增强了处方抽取过程中的特征表示，获得了更好的效果，能够利用少量人工标注的数据来识别古代医案中的处方文本，相比基于句子分类的抽取结果，本发明抽取的处方内容更精准和干净，不包含不相关的文本信息。

以上实施例仅表达了本发明的一种具体实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种基于层次序列标注的古代医案处方抽取方法，其特征在于，步骤如下：

所述的基于BLEU的评价指标方法具体为：

定义N＝min(m,n),T＝max(m,n)，采用BLEU法计算{p_i,t_j}的相关度，i＝1,2,…,n,j＝1,2,…,m；枚举所有N个不同行不同列的相关度的和，将最大值作为分子，将T作为分母，计算得到最终的匹配分数，计算公式为：

其中，matrix_sum表示所有的N个不同行不同列的相关度的和；

2.如权利要求1所述的一种基于层次序列标注的古代医案处方抽取方法，其特征在于，所述的BERT+CRF的层次序列标注网络的输入层将输入的字序列映射为对应的ID序列；BERT模型以ID序列为输入，得到每个ID序列对应的特征表示，该特征长度为768维；将每个ID序列对应的特征表示分别输入到两个全连接层进行特征转换，特征降维为3维的特征，其中通过全连接层1转换的特征为药与方剂名特征，经过全连接层2转换的特征为处方特征；将全连接层1输出的药与方剂名特征输入药与方剂名预测CRF层，得到药与方剂名预测的BIO标签序列，将全连接层2输出的处方特征和全连接层1输出的药与方剂名特征相加作为新的特征，输入处方预测CRF层，得到处方内容预测的BIO标签序列。