CN114360729A

CN114360729A - 一种基于深度神经网络的医疗文本信息自动化抽取方法

Info

Publication number: CN114360729A
Application number: CN202111413366.8A
Authority: CN
Inventors: 陈运文; 纪达麒; 唐文瀚; 余海东; 肖茂; 许瑞玲; 王俊; 蔡冲; 夏凯
Original assignee: Daguan Data Chengdu Co ltd
Current assignee: Daguan Data Chengdu Co ltd
Priority date: 2021-11-25
Filing date: 2021-11-25
Publication date: 2022-04-15

Abstract

本发明涉及到一种医疗文本信息自动化抽取的方法，该方法以历史累计抽取数据作为标注数据集，搭建深度神经网络模型，实现输入医保非结构化文本数据，输出特定医保审核人员设定的实体信息及关系。本发明的方法实现了输入医保非结构化文本数据，输出特定医保审核人员设定的实体信息及关系，从而解决审计过程中审计人员需要人为整理或核实的关键医保信息所产生的低效率和低准确率的问题。

Description

一种基于深度神经网络的医疗文本信息自动化抽取方法

技术领域

本发明涉及到人工智能领域，特别涉及到一种医疗文本信息自动化抽取的方法及基于该方法的***。

背景技术

保审计在考虑医保全量数据模式下，采用基于知识图谱的大数据方法进行审计。在知识图谱的构建过程中，最核心的步骤为信息自动化抽取，然而医保审计数据源很多，数据采集对象包括医保部门、***门、集中采集机构、定点医疗机构和外部数据，数据的内容也各不相同，比如职工医疗保险、基金财务、药品和材料等。

面对如此庞大且繁杂的数据量，如何实现信息自动化抽取是技术关键，信息抽取又包含实体、实体关系和实体属性的抽取，具体可描述为三元组S-P-O(Subject-Predicate-Object)形式。

在现有技术中，审计构建知识图谱时信息抽取的方法主要有:①.人为从海量数据集中抽取整理有用信息②依赖于被审计单位上传的结构化数据③采用规则或业务逻辑进行匹配。以上方法不仅数据真实性和全面性有待核实，而且需要大量人力和时间成本，且依赖业务熟悉程度，面对审计要求时间紧，任务重的特点，现有方法难以满足审计需求。

发明内容

本发明的目的在于克服上述现有技术存在的不足，提供一种新的基于DGCNN+Attention的医疗文本信息自动化抽取方法及抽取***。本发明的方法和***从不同医保数据源读取数据，从复杂的数据中自动化抽取审计所需的S-P-O实体关系信息，助力搭建医保审计知识图谱，抽取速度快、准确率高。

为了达到上述发明目的，本发明专利提供的技术方案如下：

一种基于深度神经网络的医疗文本信息自动化抽取方法，其该方法以历史累计抽取数据作为标注数据集，搭建深度神经网络模型，实现输入医保非结构化文本数据，输出特定医保审核人员设定的实体信息及关系，该方法包括训练数据准备阶段、数据预处理阶段、模型训练阶段和数据预测阶段。

在上述基于深度神经网络的医疗文本信息自动化抽取方法中，该方法具体包括如下实施步骤：

在所述的训练数据准备阶段，收集尽量多的已标注语料数据形成数据集，该数据集根据历年医保数据审核所使用到的信息为标准数据，采用多模式匹配算法标注非结构化文本数据集，将标注的数据集按照8:2分为训练集和测试集；

在所述的数据预处理阶段，训练词向量模型，采用包括结巴分词在内的分词器工具对训练集经停用词过滤，再分词，训练Word2Vec词向量模型，遍历输入文本获取字ID，对字ID进行随机初始字向量，结合训练好的词向量，通过矩阵变换得到混合字词向量；

在所述的模型训练阶段，以混合字词向量作为输入，以标注后的关系为输出，根据深度神经网络模型，进行多轮次迭代训练，保存训练模型；

在所述的数据预测阶段，在训练好的模型中输入待抽取的数据文本，输出实体关系，该实体关系为：主语词-谓语词-宾语词。

在上述基于深度神经网络的医疗文本信息自动化抽取方法中，所述的多模式匹配算法为AC自动机。

在上述基于深度神经网络的医疗文本信息自动化抽取方法中，所述的模型训练阶段中，所述的模型训练阶段中，结合位置编码作为模型输入，记为E，以该E输入到12层的深度神经网络模型结构中，经过运算得到新的输出，记为H1，将H1向量传入自注意层，再经过卷积层和全连接层，预测S的首尾位置，以随机采样一个标注S，映射H1对应的子向量，输入到一个双向序列模型中，得到S的编码向量，该S的编码向量是与输入序列等长的编码向量，将H1传入另一个自注意层后，拼接输出的向量，记为H2，将拼接后的H2传入卷积层和全连接层,最终采用双Sigmoid结构作为激活函数来预测O，P位置，存储上述训练模型到本地。

基于上述技术方案，与现有技术相比，本发明一种基于深度神经网络的医疗文本信息自动化抽取的方法及基于该方法的***取得了如下技术效果：

1.本发明基于深度神经网络的医疗文本信息自动化抽取的方法及基于该方法的***中模型架构只用到了卷积网络结构和注意力机制，以及较短的LSTM结构，模型速度效率高。

2.本发明基于深度神经网络的医疗文本信息自动化抽取的方法及基于该方法的***中算法架构为端到端形式，通过一个步骤即可完成关系抽取，实现了端到端模型训练和预测，大大优于现有的两步骤提取方式，即先抽取实体再获得关系。

3.本发明基于深度神经网络的医疗文本信息自动化抽取的方法及基于该方法的***中采用双Sigmoid函数输出，实现多种关系的S-P-O抽取任务。

附图说明

图1是本发明一种基于深度神经网络的医疗文本信息自动化抽取的方法的实施流程示意图。

具体实施方式

下面我们结合附图和具体的实施例来对本发明医疗文本信息自动化抽取的方法及基于该方法的***做进一步的详细阐述，以求更为清楚明了地理解其操作流程和处理方式，但不能以此来限制本发明的保护范围。

本发明以历史累计抽取数据作为标注数据集，搭建基于DGCNN+Attention的深度神经网络模型，实现输入医保非结构化文本数据，输出特定医保审核人员设定的实体信息及关系，从而解决审计过程中审计人员需要人为整理或核实的关键医保信息所产生的问题。

一种基于深度神经网络的医疗文本信息自动化抽取方法，该方法包括训练数据准备阶段、数据预处理阶段、模型训练阶段和数据预测阶段。

在所述的训练数据准备阶段，收集尽量多的已标注语料数据形成数据集，该数据集根据历年医保数据审核所使用到的信息为标准数据，采用多模式匹配算法标注非结构化文本数据集，将标注的数据集按照8:2分为训练集和测试集；实施例中多模式匹配算法采用AC自动机，为典型的多模式匹配算法。

在所述的数据预处理阶段，训练词向量模型，采用包括结巴分词在内的分词器工具对训练集经停用词过滤，再分词，训练Word2Vec词向量模型，遍历输入文本获取字ID，对字ID进行随机初始字向量，结合训练好的词向量，通过矩阵变换得到混合字词向量，上述加载字ID序列，经过随机初始化字向量层获取指定维度的字向量。

在所述的模型训练阶段，以混合字词向量作为输入，以标注后的关系为输出，根据深度神经网络模型，进行多轮次迭代训练，保存训练模型。在所述的模型训练阶段中，结合Position Embedding构造公式作为位置编码，进行模型输入，记为E，以该E输入到12层的深度神经网络模型结构，经过运算得到新的输出，记为H1，将H1向量传入自注意(Self-Attention)层，再经过卷积层CNN和全连接层Dense，预测S的首尾位置，以随机采样一个标注S，映射H1对应的子向量，输入到一个双向LSTM序列模型中，得到S的编码向量，该S的编码向量是与输入序列等长的编码向量，将H1传入另一个Self-Attention层后，拼接输出的向量，记为H2，将拼接后的H2传入卷积层CNN和全连接层Dense,最终采用双Sigmoid结构作为激活函数来预测O，P位置，存储上述训练模型到本地。双Sigmoid结构作为常用的激活函数。

如图1所示，在实践应用中基于深度神经网络的医疗文本信息自动化抽取方法包括如下操作步骤：

第一步，提出医疗文本信息自动化抽取的需求，开始启动抽取流程；

第二步，收集历年医疗数据集；

第三步，标注关系实体，即主语词、谓语词和宾语词；

第四步，进行结巴分词，训练词向量模型；

第五步，得到混合词向量；

第六步，序列神经网络实体关系模型；

第七步，输入文本，预测其中存在的实体关系；

第八步，预测完成，结束医疗文本信息化抽取操作。

实施例1

在模型训练完成以后，我们以如下医疗文本信息输入作为测试：

一、信息输入内容：1、支气管炎、肺气肿；2、左肺上叶肿块考虑周围性肺癌；左肺门***增大,考虑为转移；3、右肺中叶改变,考虑为发育不全；4、右侧肩胛下内侧弹力纤维瘤；5、气管憩室；6、甲状腺右叶低密度灶；胃窦壁增厚,请结合临床。左肺上叶可见类圆形肿块影,大小约2.0*3.0CM,CT值约32HU,增强CT扫描:三期CT值分别为43HU、53HU、75HU,可见部分支气管分支闭塞、狭窄；右肺中叶体积减小,见片状高密度影,内可见轻度扩张支气管影；两肺透过度增强,两肺野内见多发囊状透光区；两肺纹理稀疏、紊乱。左肺门***稍大,直径约1.4CM。纵隔内多发小***。两胸腔无积液征象。主动脉及冠脉钙化。右侧肩胛下内侧见片状软组织密度影,约为2.2CM*5.1CM。气管憩室。甲状腺右叶密度减低,强化程度低于正常甲状腺组织。胃窦壁增厚。

二、抽取实现方式：

1.针对输入经停用词后，采用结巴分词工具对文本进行分词处理。输出为[“支”，“气管炎”，“肺气肿“,“左肺”,……]

2.读取训练好的词向量模型，获取词向量。输出为[[0.001,0.089,-0.201,…],[0.121,-0.012,-0.314,…],[-0.809,0.121,0.214,…],…]

3.遍历文本的每一个字，随机初始化字向量。输出为[[0.121,0.251,-0.129,…],[-0.901,-0.252,-0.124,…],[0.124,0.853,0.982,…],…]

4.根据预处理方法，获取混合字词向量。输出为[[0.321,0.261,-0.156,…],[-0.081,-0.004,-0.094,…],[0.024,-0.813,-0.782,…],…]

5.将混合字词向量输入训练好的神经网络模型，输出为:主语起始位置概率:[0.002,0.208,0.1023,…],主语结束位置概率:[0.001,0.001,0.005,…,0.238,0.001]，连接起始概率最大概率和结束最大概率位置，得到主语为左肺上叶。同理，得到谓语和宾语。

6.最终输出为【左肺上叶，左肺门***，2.0*3.0CM】

三、输出信息抽取结果：

左肺上叶(S肿瘤原发部位)左肺门***(P左肺门***)2.0*3.0CM(O原发病灶大小。

实施例2

医疗文本输入：患者张XX于1月余前无明显诱因出现回缩性血涕，无鼻塞、面麻、复视、听力下降、头痛等症状，为求诊治就诊当地XXX医院，完善鼻咽镜并取活检示：未分化型非角化性癌。

输出信息抽取结果：张XX(S患者姓名)就诊(P患者与医院关系)XXX医院(O就诊医院名)

本实施例的抽取实现处理过程参考实施例1。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.一种基于深度神经网络的医疗文本信息自动化抽取方法，其特征在于，该方法以历史累计抽取数据作为标注数据集，搭建深度神经网络模型，实现输入医保非结构化文本数据，输出特定医保审核人员设定的实体信息及关系，该方法包括训练数据准备阶段、数据预处理阶段、模型训练阶段和数据预测阶段。

2.根据权利要求1所述的一种基于深度神经网络的医疗文本信息自动化抽取方法，其特征在于，该方法具体包括如下实施步骤：

3.根据权利要求2所述的一种基于深度神经网络的医疗文本信息自动化抽取方法，其特征在于，所述的多模式匹配算法采用Aho-Corsick自动机。

4.根据权利要求2所述的一种基于深度神经网络的医疗文本信息自动化抽取方法，其特征在于，所述的模型训练阶段中，结合位置编码作为模型输入，记为E，以该E输入到12层的深度神经网络模型结构中，经过运算得到新的输出，记为H1，将H1向量传入自注意层，再经过卷积层和全连接层，预测S的首尾位置，以随机采样一个标注S，映射H1对应的子向量，输入到一个双向序列模型中，得到S的编码向量，该S的编码向量是与输入序列等长的编码向量，将H1传入另一个自注意层后，拼接输出的向量，记为H2，将拼接后的H2传入卷积层和全连接层,最终采用双S函数结构来预测O，P位置，存储上述训练模型到本地。