CN117035084A

CN117035084A - 一种基于语法分析的医疗文本实体关系抽取方法和***

Info

Publication number: CN117035084A
Application number: CN202310976181.0A
Authority: CN
Inventors: 陈丽君; 李敬灿; 谢夏; 黄小欧
Original assignee: Hainan University
Current assignee: Hainan University
Priority date: 2023-08-03
Filing date: 2023-08-03
Publication date: 2023-11-10

Abstract

本发明公开了一种基于语法分析的医疗文本实体关系抽取方法和***，属于医疗数据处理技术领域。本发明考虑到医疗关系的复杂性，为了防止实体抽取的错误结果影响到关系抽取，特将关系抽取安排到实体抽取之前。在实体抽取过程中，采用cross attention融合关系和编码特征，增加关系和实体信息交互。在抽取出关系和实体之后，借助语法分析，引入语义信息，充分利用词性和语法信息，提高实体关系抽取准确度。采用端到端的模型，并构建句子级别的任务，有利于句子语义的表示和学习。

Description

一种基于语法分析的医疗文本实体关系抽取方法和***

技术领域

本发明属于医疗数据处理技术领域，更具体地，涉及一种基于语法分析的医疗文本实体关系抽取方法和***。

背景技术

医疗数据具有巨大的价值，尤其是在医疗文本关系方面。医疗文本中关系的抽取是指从医疗文本中抽取指定的一类事实信息，形成结构化的数据储存在数据库中，以供用户对信息的查询或进一步分析利用的过程。如一位生物医疗科学家要从海量的生物医疗文献中寻求关于某种疾病的新的治疗方案，借助于医疗文本中的药物和疾病关系的抽取是指从文本中抽取***抽取出的蛋白质、基因或药物等的交互关系信息，就有可能从中发现有价值的治疗线索或方法。

现有的关系抽取技术大都针对传统文本，很少针对医学文本。已有的医学数据抽取方法均存在以下缺陷和不足：语义信息利用不充分，关系和实体信息交互不充分，导致识别度较差。此外，采用BIO序列标记法，无法解决医学文本中的三元组重叠问题。

发明内容

针对现有技术的缺陷，本发明的目的在于提供一种基于语法分析的医疗文本实体关系抽取方法和***，旨在解决现有用于现有抽取方法语义信息利用不充分，关系和实体信息交互不充分的问题。

为实现上述目的，第一方面，本发明提供了一种基于语法分析的医疗文本实体关系抽取方法，包括：

将待抽取医疗文本输入至训练好的端到端模型，得到实体关系三元组的集合，作为抽取结果；

其中，

所述端到端模型包括：编码器、医疗关系提取模块、交叉注意力机制模块、医疗实体提取模块和语法分析模块；

所述编码器，用于对医疗文本进行向量编码，得到句子级特征向量集合；

所述医疗关系提取模块，用于将句子级特征向量集合中每个特征向量输入至第一线性神经网络，得到句子级关系向量集合；

所述交叉注意力机制模块，用于将句子级关系向量集合中的每个关系向量作为Cross-Attention的查询，将对应的特征向量作为Cross-Attention的键和值，输出句子级融合向量集合；

所述医疗实体提取模块，用于将句子级融合向量集合中的每个融合向量输入至第二线性神经网络，得到句子级实体向量集合；

所述语法分析模块，用于先将句子级特征向量集合中的每个特征向量与对应句子级标注向量点乘，点乘结果向量再经过激活函数Relu，得到维度为(关系种类*句子长度*句子长度)的句子级非负向量，所述标注包括名词标注和依存关系标注；在每个关系种类中，将句子级非负向量和对应句子级实体向量进行实体匹配，得到实体关系三元组(医疗实体1,医疗关系,医疗实体2)。

优选地，在医疗实体提取模块中，采用指针标注方式句子中的实体，得到维度为(2*句子长度)的句子级实体向量，第一行用于标注该句子中各实体的头，第二行用于标注该句子中各实体的尾。

需要说明的是，本发明优选上述指针标注方式提取实体，不同于序列标注，它只标注实体的头和尾，中间不标注，这样就可以解决实体重叠的问题。

优选地，所述编码器采用SciBERT。

优选地，采用ADE ChemProt数据集和预定义的超参数对SciBERT进行微调。

优选地，所述标注具体如下：

将句子中各名词对应的标注向量元素标记为x1，若两个名词具有依存关系，将对应的标注向量元素标记为x2，得到句子级标注向量。

为实现上述目的，第二方面，本发明提供了一种基于语法分析的医疗文本实体关系抽取***，包括：处理器和存储器；所述存储器，用于存储计算机执行指令；所述处理器，用于执行所述计算机执行指令，使得第一方面所述的方法被执行。

为实现上述目的，第三方面，本发明提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，当所述计算机程序在处理器上运行时，使得所述处理器执行第一方面所述的方法。

总体而言，通过本发明所构思的以上技术方案与现有技术相比，具有以下

有益效果：

本发明提出一种基于语法分析的医疗文本实体关系抽取方法和***，考虑到医疗关系的复杂性，为了防止实体抽取的错误结果影响到关系抽取，特将关系抽取安排到实体抽取之前。在实体抽取过程中，采用cross attention融合关系和编码特征，增加关系和实体信息交互。在抽取出关系和实体之后，借助语法分析，引入语义信息，充分利用词性和语法信息，提高实体关系抽取准确度。采用端到端的模型，并构建句子级别的任务，有利于句子语义的表示和学习。

附图说明

图1是本发明提供的用于医疗文本实体关系抽取端到端模型示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

本发明提供了一种基于语法分析的医疗文本实体关系抽取方法，包括：将待抽取医疗文本输入至训练好的端到端模型，得到实体关系三元组的集合，作为抽取结果。

如图1所示，所述端到端模型包括：编码器、医疗关系提取模块、交叉注意力机制模块、医疗实体提取模块和语法分析模块。

编码器

所述编码器用于对医疗文本进行向量编码，得到句子级特征向量集合。

优选地，所述编码器采用SciBERT。

在网络结构上SciBERT完全双向，层数深，可表征的函数空间足够大，并且提出了self-attention克服了长距离依赖问题；预训练任务设计好，加了句子级别的任务，有利于句子语义的表示和学习，训练语料大，训练充分。

医疗文本是以段为单位的文本，字数在200-500左右，可以是中文或者外文，例如，中医古籍，以JSON格式保存。Key为text时，Value存放文本本身；Key为triple list时，Value存放文本中(医疗实体1，医疗关系，医疗实体2)。

在编码之前，可以先对所述待处理文本进行预处理，包括但不限于：对缺失数据进行删除或者插值，格式转化等。

医疗关系提取模块

所述医疗关系提取模块，用于将句子级特征向量集合中每个特征向量输入至第一线性神经网络，得到句子级关系向量集合。

将SciBERT的结果输入到第一线性神经网络，最终用Softmax函数进行分类，当结果大于阈值时，就表示存在着关系。

交叉注意力机制

所述交叉注意力机制模块，用于将句子级关系向量集合中的每个关系向量作为Cross-Attention的查询，将对应的特征向量作为Cross-Attention的键和值，输出句子级融合向量集合。

本发明采用Cross Attention。Cross Attention通常作为Decoder模块，与SelfAttention作为Encoder共同使用。它输入的Query来自encoder(Self Attention)的输出，而Key和Value则来自初始的input。在这里Key和Value是bert的结果，Query是关系抽取的结果，从而增强关系和实体信息的交互效果。

医疗实体提取

所述医疗实体提取模块，用于将句子级融合向量集合中的每个融合向量输入至第二线性神经网络，得到句子级实体向量集合。

语法分析模块

本发明对句子进行词性标注和依存句法分析。所述词性标注是对句子中的每个词贴上合适的词性标签，所谓词性就是动词、名词、形容词等分类。词性标注是很多NLP任务的预处理步骤，比如知道句子中每个词的词性后，再进行句法分析就容易多了。

优选地，所述标注具体如下：将句子中各名词对应的标注向量元素标记为x1，若两个名词具有依存关系，将对应的标注向量元素标记为x2，得到句子级标注向量。

在一个实施例中，使用NLP工具对句子进行预处理，得到句子中的词性信息和依存句法信息，得到词性矩阵，与真值进行比对得到Loss函数。

表1为不同抽取模型在药物不良事件数据集的评价对比。表2为不同抽取模型在chemprot数据集上算法的评价对比。对比可知，本发明采用的SciBERT，识别正确率、召回率、F1值均高于其他模型。

表1

EVALUATION ON ADVERSE DRUG EVENTS DATASET.

表2

EVALUATION OF ALGORITHMS ON CHEMPROT DATASET.

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于语法分析的医疗文本实体关系抽取方法，其特征在于，包括：

其中，

2.如权利要求1所述的方法，其特征在于，在医疗实体提取模块中，采用指针标注方式句子中的实体，得到维度为(2*句子长度)的句子级实体向量，第一行用于标注该句子中各实体的头，第二行用于标注该句子中各实体的尾。

3.如权利要求1所述的方法，其特征在于，所述编码器采用SciBERT。

4.如权利要求3所述的方法，其特征在于，采用ADE ChemProt数据集和预定义的超参数对SciBERT进行微调。

5.如权利要求1所述的方法，其特征在于，所述标注具体如下：

6.一种基于语法分析的医疗文本实体关系抽取***，其特征在于，包括：处理器和存储器；

所述存储器，用于存储计算机执行指令；

所述处理器，用于执行所述计算机执行指令，使得权利要求1至5任一项所述的方法被执行。

7.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，当所述计算机程序在处理器上运行时，使得所述处理器执行权利要求1至5任一项所述的方法。