CN114298314A

CN114298314A - 一种基于电子病历的多粒度因果关系推理方法

Info

Publication number: CN114298314A
Application number: CN202210006319.XA
Authority: CN
Inventors: 张清华; 吴淼; 胡峰; 高满; 肖嘉瑜; 刘棋
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2022-01-04
Filing date: 2022-01-04
Publication date: 2022-04-08

Abstract

本发明属于电子病历因果关系抽取与推理领域，具体涉及一种基于电子病历的多粒度因果关系推理方法，该方法包括：获取电子病历资源，获取资料上的文本信息，提取文本信息的多粒度语义特征；将该特征输入到SVM三支决策分类器，得到第一阶段的因果关系抽取和推理结果；将SVM三支决策分类器对训练集中产生的中间域样本输入到BiLSTM‑CRF分类器中，得到第二阶段因果关系抽取和推理结果；本发明利用相应的数学知识来对电子病历进行科学的分析与预测，形成对电子病历因果关系抽取和推理，可以提升医生的服务质量与效率，与此同时减轻医生的就诊负担。

Description

一种基于电子病历的多粒度因果关系推理方法

技术领域

本发明属于电子病历因果关系抽取与推理领域，具体涉及一种基于电子病历的多粒度因果关系推理方法。

背景技术

医疗大数据时代的到来，使得大量的医疗数据以电子病历的形式被不断地积累下来。其中，相当大部分的数据依然以叙述性文本的形式存在。因此如何抽取电子病历中的因果关系并进行因果推理，已成为电子病历发展过程中和自然语言处理领域亟待解决的问题。

在实际应用中，由于信息的片面性和不确定性，无法对于一个事物明确的判断接受或者拒绝，会存在犹豫不决的情况。因此，姚一豫教授提出了三支决策理论，是传统决策理论(二支决策)的拓展。二支决策和三支决策就应用场景而言各有优劣，在信息量充足、信息准确时，采用二支决策，可使得决策迅速简洁；在信息量不足、获取信息代价大时，采用三支决策，可以更好的权衡资源和效益。在实际医疗诊断中，由于各个部门需要检查的项目不同，各项检查费用不同，患者对于诊察费用的接受程度不同，以及医生的诊疗手段的不同，因此采用三支决策方法能够更好的权衡电子病历中所体现的医疗资源与患者的支出效益。

由于自然语言文本的语义模糊性和多样性，因果抽取仍然是一个自然语言处理领域亟待解决的难题。

发明内容

为解决以上现有技术存在的问题，本发明提出了一种基于电子病历的多粒度因果关系推理方法，该方法包括：

S1：获取电子病历资料；对获取的电子病历资料进行审核，若审核不通过，则重新获取电子病历资料；若审核通过，则执行下一步；

S2：对通过审核的电子病历资料进行预处理，得到文本信息；

S3：提取文本信息的多粒度语义特征；

S4：将多粒度语义特征输入到SVM三支决策分类器中进行因果关系抽取和推理，得到拒绝域样本、中间域样本以及接受域样本，并根据接受域样本得到初始显示因果关系，根据初始显示因果关系得到初始隐式因果关系；

S5：将中间域样本输入到BiLSTM-CRF分类器中进行因果关系抽取和推理，并根据初始显示因果关系和初始隐式因果关系得到输入样本的因果关系，该因果关系包括显示因果关系和隐式因果关系。

优选的，获取的电子病历资料包括首页、病程记录、检验结果、医嘱、手术记录以及护理记录信息。

优选的，对获取的电子病历资料进行审核的过程包括：医生/患者所填写电子的病历是否完整、权威、规范、严谨，是否采用统一的病历模板等。

优选的，对通过审核的电子病历资料进行预处理包括对电子病历资源中的文本数据信息进行分词和词性标注处理；使用text_to_word_sequence方法对文本信息进行处理，采用字符串匹配方法对句子进行划分，得到分词；采用拓展的“BIO”方法对分词进行词性标注，标注的信息包括：B-C、I-C、B-E、I-E、B-Emb、I-Emb以及O；其中，B-C表示“the begin ofcause，原因实体的开始”，I-C表示“the inside of cause，原因实体的中间”，B-E表示“thebegin of effect，结果实体的开始”，I-E表示“the inside of effect，结果实体的中间”，B-Emb表示“the begin of embedded entity，嵌套因果实体的开始”，I-Emb表示“theinside of embedded entity，嵌套因果实体的中间”，O表示“other，与因果实体无关的单词”。

优选的，多粒度语义特征包括：单词等级、字符等级以及字符串等级。

优选的，采用SVM三支决策分类器对多粒度语义特征进行因果关系抽取和推理的过程包括：

S1：构建概率函数；

S2：计算SVM三支决策分类器的第一阈值α和第二阈值β；

S3：将多粒度语义特征输入到训练好的SVM三支决策分类器中，得到第一阶段因果关系抽取和推理结果；

S4：采用概率函数计算输入多粒度语义特征的因果关系抽取结果概率值；

S5：若概率值大于等于第一阈值α，则将该分类结果对应的样本加入到接收域样本中，并进行因果关系推理，得到第一阶段因果关系抽取和推理结果；若概率值小于等于第二阈值β，则将该样本加入到中间域样本集中；否则将该样本加入到拒绝域样本集中。

进一步的，构建的概率函数为softmax函数，概率函数的表达式为：

其中，z(x_i)表示SVM第i个子分类器的判决函数，x_i表示SVM第i个子分类器的支持向量，n表示因果关系类别数，k(x,x_i)表示SVM核函数，ρ_i表示拉格朗日乘子，y_i表示第i个样本的类别。

进一步的，计算SVM三支决策分类器的阈值为：

其中，当样本属于因果关系时，λ_pp、λ_np、λ_bp分别为划分到接受域、中间域以及拒绝域的损失函数；当样本不属于因果关系时，λ_pn、λ_bn、λ_nn分别为划分到接受域、中间域以及拒绝域的损失函数。

优选的，采用BiLSTM-CRF分类器对中间域样本进行因果关系抽取和推理的过程包括：将中间域样本输入到BiLSTM-CRF分类器中；对输入的样本进行词性标注；在所有经过词性标注的样本中搜索因果实体对应的下标，并计算因果实体的出入度；根据因果实体出入度将因果实体进行排列组合，形成候选因果关系三元组；将候选因果关系三元组进行排列组合，并计算候选因果关系三元组组合的出度；若候选因果关系三元组组合的出入度与原始因果实体的出入度一致，则该候选因果关系三元组组合为因果关系抽取结果；在因果关系抽取结果中，将入度为0的实体作为原因实体，出度为0的实体作为结果实体，以此形成推理的因果关系三元组。

本发明的有益效果：

1、本发明利用相应的数学知识来对电子病历进行科学的分析与预测，形成对电子病历因果关系抽取和推理，可以提升医生的服务质量与效率，与此同时减轻医生的就诊负担，并且给患者提供一种辅助的自诊方式；

2、使用多粒度的语义表示，能够获取更加丰富的电子病历信息，避免了句子分割产生的错误，同时避免了引入大量的噪声数据，以此提高了因果抽取的准确率和召回率；

3、使用基于SVM三支决策分类器，能够对中间域的样本进行二次因果抽取和推理，更加贴合现实的医疗诊断情况；

4、使用基于BiLSTM-CRF分类器，能够捕获远程依赖并且有效解决标签偏差问题，因此提高了因果抽取的准确率和召回率。

附图说明

图1为本发明的多粒度语义特征表示图；

图2为本发明的BiLSTM-CRF分类器架构图；

图3为本发明的基于电子病历的多粒度因果关系抽取和推理方法的流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明是一种基于电子病历的多粒度因果关系推理方法，该方法包括两个阶段，包括采用SVM三支决策分类器和BiLSTM-CRF分类器对电子病历中的数据信息进行处理。

一种基于电子病历的多粒度因果关系推理方法，如图3所示，该方法包括：

S3：提取文本信息的多粒度语义特征；

医生/患者提供资料进行审核证明在电子病历***中填写内容的真实性。若通过审核则输入模型中，进行电子病历因果关系抽取和推理；若未通过审核则驳回申请。

在SVM三支决策分类器中，若预测结果表示其抽取和推理结果为积极的，则输出；若预测结果表示其抽取和推理结果为消极的，则让医生/患者完善电子病历；若预测结果表示其抽取和推理结果为中立的，则输入到BiLSTM-CRF分类器模型中进行抽取和推理。

在BiLSTM-CRF分类器中，应用tagCEtriplet算法，根据中立样本直接输出抽取和推理结果。

将通过SVM三支决策分类器的长期表现良好样本放入训练集并打上标签为积极，以此丰富电子病历样本语料库。

电子病历信息抽取技术能够从自由文本电子病历中获取到有用的关键信息，从而为医院的信息管理和后续的信息分析处理工作提供帮助。与此同时，发掘病因与疾病之间潜在的因果关系也对于医生和患者有极大的帮助。

医生/患者在电子病历***上提出因果关系(症状-患病)查询和推理时，医生/患者需填写完整、权威、规范、严谨的电子病历，即采用统一的病历模板，如包含首页、病程记录、检查检验结果、医嘱、手术记录、护理记录等。

对通过审核的电子病历资料进行预处理包括对电子病历资源中的文本数据信息进行分词和词性标注处理；使用text_to_word_sequence方法对文本信息进行处理，采用字符串匹配方法对句子进行划分，得到分词；采用拓展的“BIO”方法对分词进行词性标注，标注的信息包括：B-C、I-C、B-E、I-E、B-Emb、I-Emb以及O；其中，B-C表示“the begin ofcause，原因实体的开始”，I-C表示“the inside of cause，原因实体的中间”，B-E表示“thebegin of effect，结果实体的开始”，I-E表示“the inside of effect，结果实体的中间”，B-Emb表示“the begin of embedded entity，嵌套因果实体的开始”，I-Emb表示“theinside of embedded entity，嵌套因果实体的中间”，O表示“other，与因果实体无关的单词”。其中“Emb”为嵌套的实体，该实体不仅是前一个三元组的原因，也是后面一个三元组的结果，如表1所示。

表1拓展性词性标注

针对因果关系抽取和推理可能存在分词错误和歧义现象，会不可避免的引入大量冗余和噪音，本发明创造中使用多粒度的语义表示，能够获取更加丰富的文本信息。本模型将单词等级(包含word2vec单词嵌入和单词位置嵌入WPE)，字符等级和文本字符串等级(Flair嵌入)连接起来，作为模型第一阶段(SVM三支决策分类器)的输入。其简单理解如表2所示，其架构如图1所示。

表2多粒度语义表示特征说明

对SVM三支决策分类器进行训练的过程包括：获取历史的电子病历资料，并对电子病历资料进行预处理，得到文本信息数据集；提取文本信息数据集中的文本信息的多粒度语义特征，将所有的多粒度语义特征作为SVM三支决策分类器的训练集；将训练集中的数据输入到SVM三支决策分类器中，采用one-against-one方法对分类器进行训练，即对于n类因果关系样本，每两类样本训练一个分类器，得到n(n-1)/2个训练好的分类器。

采用SVM三支决策分类器对多粒度语义特征进行因果关系抽取的过程包括：

S1：构建概率函数；构建的概率函数为softmax函数，概率函数的表达式为：

S2：计算SVM三支决策分类器的第一阈值α和第二阈值β；计算SVM三支决策分类器的阈值的公式为：

S5：若概率值大于等于阈值α，则将该分类结果对应的样本加入到接收域样本中，并进行因果关系推理，得到第一阶段因果关系抽取和推理结果；若概率值小于等于阈值β，则将该样本加入到中间域样本集中；否则将该样本加入到拒绝域样本集中。

采用BiLSTM-CRF分类器对中间域样本进行关系抽取的过程包括：对于S3所构建SVM决策分类器对训练集中产生的中间域样本，根据所构建的BiLSTM-CRF分类器，应用tagCEtriplet算法进行第二阶段因果关系抽取和推理，并将结果输出。

应用tagCEtriplet算法进行第二阶段因果关系抽取和推理的过程包括：将中间域样本输入到BiLSTM-CRF分类器中；对输入的样本进行词性标注；在所有经过词性标注的样本中搜索因果实体对应的下标，并计算因果实体的出入度；根据因果实体出入度将因果实体进行排列组合，形成候选因果关系三元组；将候选因果关系三元组进行排列组合，并计算候选因果关系三元组组合的出度；若候选因果关系三元组组合的出入度与原始因果实体的出入度一致，则该候选因果关系三元组组合为因果关系抽取结果；在因果关系抽取结果中，将入度为0的实体作为原因实体，出度为0的实体作为结果实体，以此形成推理的因果关系三元组。

计算因果实体的出入度的方法为：将句子中的原因实体出度记为1，原因实体入度记为0；结果实体出度记为0，结果实体入度记为1；嵌套因果实体出入度均记为1。

TagCEtriplet算法流程举例如表3所示。

表3 tagCEtriplet算法举例

将待预测样本分别输入训练好的模型中，得到最后的抽取和推理结果。并将通过SVM三支决策分类器的长期表现良好样本放入训练集并打上标签为积极，以此丰富电子病历样本语料库。

以上所举实施例，对本发明的目的、技术方案和优点进行了进一步的详细说明，所应理解的是，以上所举实施例仅为本发明的优选实施方式而已，并不用以限制本发明，凡在本发明的精神和原则之内对本发明所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于电子病历的多粒度因果关系推理方法，其特征在于，包括：

S3：提取文本信息的多粒度语义特征；

2.根据权利要求1所述的一种基于电子病历的多粒度因果关系推理方法，其特征在于，获取的电子病历资料包括首页、病程记录、检验结果、医嘱、手术记录以及护理记录信息。

3.根据权利要求1所述的一种基于电子病历的多粒度因果关系推理方法，其特征在于，对获取的电子病历资料进行审核的过程包括：判断医生/患者所填写电子的病历是否满足要求；满足的要求包括电子病历的完整性、权威性、规范性以及严谨性，其中规范性指电子病历是否采用统一的病历模板。

4.根据权利要求1所述的一种基于电子病历的多粒度因果关系推理方法，其特征在于，对通过审核的电子病历资料进行预处理包括对电子病历资源中的文本数据信息进行分词和词性标注处理；使用text_to_word_sequence方法对文本信息进行处理，并采用字符串匹配方法对句子进行划分，得到分词；采用拓展的“BIO”方法对分词进行词性标注，标注的信息包括：B-C、I-C、B-E、I-E、B-Emb、I-Emb以及O；其中，B-C表示“the begin of cause，原因实体的开始”，I-C表示“the inside of cause，原因实体的中间”，B-E表示“the begin ofeffect，结果实体的开始”，I-E表示“the inside of effect，结果实体的中间”，B-Emb表示“the begin of embedded entity，嵌套因果实体的开始”，I-Emb表示“the inside ofembedded entity，嵌套因果实体的中间”，O表示“other，与因果实体无关的单词”。

5.根据权利要求1所述的一种基于电子病历的多粒度因果关系推理方法，其特征在于，多粒度语义特征包括：单词等级、字符等级以及字符串等级。

6.根据权利要求1所述的一种基于电子病历的多粒度因果关系推理方法，其特征在于，采用SVM三支决策分类器对多粒度语义特征进行因果关系抽取和推理的过程包括：

S1：构建概率函数；

S2：计算SVM三支决策分类器的第一阈值α和第二阈值β；

7.根据权利要求6所述的一种基于电子病历的多粒度因果关系推理方法，其特征在于，构建的概率函数为softmax函数，概率函数的表达式为：

8.根据权利要求6所述的一种基于电子病历的多粒度因果关系推理方法，其特征在于，计算SVM三支决策分类器的阈值的公式为：

9.根据权利要求1所述的一种基于电子病历的多粒度因果关系推理方法，其特征在于，采用BiLSTM-CRF分类器对中间域样本进行因果关系抽取和推理的过程包括：将中间域样本输入到BiLSTM-CRF分类器中；对输入的样本进行词性标注；在所有经过词性标注的样本中搜索因果实体对应的下标，并计算因果实体的出入度；根据因果实体出入度将因果实体进行排列组合，形成候选因果关系三元组；将候选因果关系三元组进行排列组合，并计算候选因果关系三元组组合的出度；若候选因果关系三元组组合的出入度与原始因果实体的出入度一致，则该候选因果关系三元组组合为因果关系抽取结果；在因果关系抽取结果中，将入度为0的实体作为原因实体，出度为0的实体作为结果实体，以此形成推理的因果关系三元组。