CN114360729A - 一种基于深度神经网络的医疗文本信息自动化抽取方法 - Google Patents

一种基于深度神经网络的医疗文本信息自动化抽取方法 Download PDF

Info

Publication number
CN114360729A
CN114360729A CN202111413366.8A CN202111413366A CN114360729A CN 114360729 A CN114360729 A CN 114360729A CN 202111413366 A CN202111413366 A CN 202111413366A CN 114360729 A CN114360729 A CN 114360729A
Authority
CN
China
Prior art keywords
data
word
model
training
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111413366.8A
Other languages
English (en)
Inventor
陈运文
纪达麒
唐文瀚
余海东
肖茂
许瑞玲
王俊
蔡冲
夏凯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Daguan Data Chengdu Co ltd
Original Assignee
Daguan Data Chengdu Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Daguan Data Chengdu Co ltd filed Critical Daguan Data Chengdu Co ltd
Priority to CN202111413366.8A priority Critical patent/CN114360729A/zh
Publication of CN114360729A publication Critical patent/CN114360729A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Medical Treatment And Welfare Office Work (AREA)

Abstract

本发明涉及到一种医疗文本信息自动化抽取的方法,该方法以历史累计抽取数据作为标注数据集,搭建深度神经网络模型,实现输入医保非结构化文本数据,输出特定医保审核人员设定的实体信息及关系。本发明的方法实现了输入医保非结构化文本数据,输出特定医保审核人员设定的实体信息及关系,从而解决审计过程中审计人员需要人为整理或核实的关键医保信息所产生的低效率和低准确率的问题。

Description

一种基于深度神经网络的医疗文本信息自动化抽取方法
技术领域
本发明涉及到人工智能领域,特别涉及到一种医疗文本信息自动化抽取的方法及基于该方法的***。
背景技术
保审计在考虑医保全量数据模式下,采用基于知识图谱的大数据方法进行审计。在知识图谱的构建过程中,最核心的步骤为信息自动化抽取,然而医保审计数据源很多,数据采集对象包括医保部门、***门、集中采集机构、定点医疗机构和外部数据,数据的内容也各不相同,比如职工医疗保险、基金财务、药品和材料等。
面对如此庞大且繁杂的数据量,如何实现信息自动化抽取是技术关键,信息抽取又包含实体、实体关系和实体属性的抽取,具体可描述为三元组S-P-O(Subject-Predicate-Object)形式。
在现有技术中,审计构建知识图谱时信息抽取的方法主要有:①.人为从海量数据集中抽取整理有用信息②依赖于被审计单位上传的结构化数据③采用规则或业务逻辑进行匹配。以上方法不仅数据真实性和全面性有待核实,而且需要大量人力和时间成本,且依赖业务熟悉程度,面对审计要求时间紧,任务重的特点,现有方法难以满足审计需求。
发明内容
本发明的目的在于克服上述现有技术存在的不足,提供一种新的基于DGCNN+Attention的医疗文本信息自动化抽取方法及抽取***。本发明的方法和***从不同医保数据源读取数据,从复杂的数据中自动化抽取审计所需的S-P-O实体关系信息,助力搭建医保审计知识图谱,抽取速度快、准确率高。
为了达到上述发明目的,本发明专利提供的技术方案如下:
一种基于深度神经网络的医疗文本信息自动化抽取方法,其该方法以历史累计抽取数据作为标注数据集,搭建深度神经网络模型,实现输入医保非结构化文本数据,输出特定医保审核人员设定的实体信息及关系,该方法包括训练数据准备阶段、数据预处理阶段、模型训练阶段和数据预测阶段。
在上述基于深度神经网络的医疗文本信息自动化抽取方法中,该方法具体包括如下实施步骤:
在所述的训练数据准备阶段,收集尽量多的已标注语料数据形成数据集,该数据集根据历年医保数据审核所使用到的信息为标准数据,采用多模式匹配算法标注非结构化文本数据集,将标注的数据集按照8:2分为训练集和测试集;
在所述的数据预处理阶段,训练词向量模型,采用包括结巴分词在内的分词器工具对训练集经停用词过滤,再分词,训练Word2Vec词向量模型,遍历输入文本获取字ID,对字ID进行随机初始字向量,结合训练好的词向量,通过矩阵变换得到混合字词向量;
在所述的模型训练阶段,以混合字词向量作为输入,以标注后的关系为输出,根据深度神经网络模型,进行多轮次迭代训练,保存训练模型;
在所述的数据预测阶段,在训练好的模型中输入待抽取的数据文本,输出实体关系,该实体关系为:主语词-谓语词-宾语词。
在上述基于深度神经网络的医疗文本信息自动化抽取方法中,所述的多模式匹配算法为AC自动机。
在上述基于深度神经网络的医疗文本信息自动化抽取方法中,所述的模型训练阶段中,所述的模型训练阶段中,结合位置编码作为模型输入,记为E,以该E输入到12层的深度神经网络模型结构中,经过运算得到新的输出,记为H1,将H1向量传入自注意层,再经过卷积层和全连接层,预测S的首尾位置,以随机采样一个标注S,映射H1对应的子向量,输入到一个双向序列模型中,得到S的编码向量,该S的编码向量是与输入序列等长的编码向量,将H1传入另一个自注意层后,拼接输出的向量,记为H2,将拼接后的H2传入卷积层和全连接层,最终采用双Sigmoid结构作为激活函数来预测O,P位置,存储上述训练模型到本地。
基于上述技术方案,与现有技术相比,本发明一种基于深度神经网络的医疗文本信息自动化抽取的方法及基于该方法的***取得了如下技术效果:
1.本发明基于深度神经网络的医疗文本信息自动化抽取的方法及基于该方法的***中模型架构只用到了卷积网络结构和注意力机制,以及较短的LSTM结构,模型速度效率高。
2.本发明基于深度神经网络的医疗文本信息自动化抽取的方法及基于该方法的***中算法架构为端到端形式,通过一个步骤即可完成关系抽取,实现了端到端模型训练和预测,大大优于现有的两步骤提取方式,即先抽取实体再获得关系。
3.本发明基于深度神经网络的医疗文本信息自动化抽取的方法及基于该方法的***中采用双Sigmoid函数输出,实现多种关系的S-P-O抽取任务。
附图说明
图1是本发明一种基于深度神经网络的医疗文本信息自动化抽取的方法的实施流程示意图。
具体实施方式
下面我们结合附图和具体的实施例来对本发明医疗文本信息自动化抽取的方法及基于该方法的***做进一步的详细阐述,以求更为清楚明了地理解其操作流程和处理方式,但不能以此来限制本发明的保护范围。
本发明以历史累计抽取数据作为标注数据集,搭建基于DGCNN+Attention的深度神经网络模型,实现输入医保非结构化文本数据,输出特定医保审核人员设定的实体信息及关系,从而解决审计过程中审计人员需要人为整理或核实的关键医保信息所产生的问题。
一种基于深度神经网络的医疗文本信息自动化抽取方法,该方法包括训练数据准备阶段、数据预处理阶段、模型训练阶段和数据预测阶段。
在上述基于深度神经网络的医疗文本信息自动化抽取方法中,该方法具体包括如下实施步骤:
在所述的训练数据准备阶段,收集尽量多的已标注语料数据形成数据集,该数据集根据历年医保数据审核所使用到的信息为标准数据,采用多模式匹配算法标注非结构化文本数据集,将标注的数据集按照8:2分为训练集和测试集;实施例中多模式匹配算法采用AC自动机,为典型的多模式匹配算法。
在所述的数据预处理阶段,训练词向量模型,采用包括结巴分词在内的分词器工具对训练集经停用词过滤,再分词,训练Word2Vec词向量模型,遍历输入文本获取字ID,对字ID进行随机初始字向量,结合训练好的词向量,通过矩阵变换得到混合字词向量,上述加载字ID序列,经过随机初始化字向量层获取指定维度的字向量。
在所述的模型训练阶段,以混合字词向量作为输入,以标注后的关系为输出,根据深度神经网络模型,进行多轮次迭代训练,保存训练模型。在所述的模型训练阶段中,结合Position Embedding构造公式作为位置编码,进行模型输入,记为E,以该E输入到12层的深度神经网络模型结构,经过运算得到新的输出,记为H1,将H1向量传入自注意(Self-Attention)层,再经过卷积层CNN和全连接层Dense,预测S的首尾位置,以随机采样一个标注S,映射H1对应的子向量,输入到一个双向LSTM序列模型中,得到S的编码向量,该S的编码向量是与输入序列等长的编码向量,将H1传入另一个Self-Attention层后,拼接输出的向量,记为H2,将拼接后的H2传入卷积层CNN和全连接层Dense,最终采用双Sigmoid结构作为激活函数来预测O,P位置,存储上述训练模型到本地。双Sigmoid结构作为常用的激活函数。
在所述的数据预测阶段,在训练好的模型中输入待抽取的数据文本,输出实体关系,该实体关系为:主语词-谓语词-宾语词。
如图1所示,在实践应用中基于深度神经网络的医疗文本信息自动化抽取方法包括如下操作步骤:
第一步,提出医疗文本信息自动化抽取的需求,开始启动抽取流程;
第二步,收集历年医疗数据集;
第三步,标注关系实体,即主语词、谓语词和宾语词;
第四步,进行结巴分词,训练词向量模型;
第五步,得到混合词向量;
第六步,序列神经网络实体关系模型;
第七步,输入文本,预测其中存在的实体关系;
第八步,预测完成,结束医疗文本信息化抽取操作。
实施例1
在模型训练完成以后,我们以如下医疗文本信息输入作为测试:
一、信息输入内容:1、支气管炎、肺气肿;2、左肺上叶肿块考虑周围性肺癌;左肺门***增大,考虑为转移;3、右肺中叶改变,考虑为发育不全;4、右侧肩胛下内侧弹力纤维瘤;5、气管憩室;6、甲状腺右叶低密度灶;胃窦壁增厚,请结合临床。左肺上叶可见类圆形肿块影,大小约2.0*3.0CM,CT值约32HU,增强CT扫描:三期CT值分别为43HU、53HU、75HU,可见部分支气管分支闭塞、狭窄;右肺中叶体积减小,见片状高密度影,内可见轻度扩张支气管影;两肺透过度增强,两肺野内见多发囊状透光区;两肺纹理稀疏、紊乱。左肺门***稍大,直径约1.4CM。纵隔内多发小***。两胸腔无积液征象。主动脉及冠脉钙化。右侧肩胛下内侧见片状软组织密度影,约为2.2CM*5.1CM。气管憩室。甲状腺右叶密度减低,强化程度低于正常甲状腺组织。胃窦壁增厚。
二、抽取实现方式:
1.针对输入经停用词后,采用结巴分词工具对文本进行分词处理。输出为[“支”,“气管炎”,“肺气肿“,“左肺”,……]
2.读取训练好的词向量模型,获取词向量。输出为[[0.001,0.089,-0.201,…],[0.121,-0.012,-0.314,…],[-0.809,0.121,0.214,…],…]
3.遍历文本的每一个字,随机初始化字向量。输出为[[0.121,0.251,-0.129,…],[-0.901,-0.252,-0.124,…],[0.124,0.853,0.982,…],…]
4.根据预处理方法,获取混合字词向量。输出为[[0.321,0.261,-0.156,…],[-0.081,-0.004,-0.094,…],[0.024,-0.813,-0.782,…],…]
5.将混合字词向量输入训练好的神经网络模型,输出为:主语起始位置概率:[0.002,0.208,0.1023,…],主语结束位置概率:[0.001,0.001,0.005,…,0.238,0.001],连接起始概率最大概率和结束最大概率位置,得到主语为左肺上叶。同理,得到谓语和宾语。
6.最终输出为【左肺上叶,左肺门***,2.0*3.0CM】
三、输出信息抽取结果:
左肺上叶(S肿瘤原发部位)左肺门***(P左肺门***)2.0*3.0CM(O原发病灶大小。
实施例2
医疗文本输入:患者张XX于1月余前无明显诱因出现回缩性血涕,无鼻塞、面麻、复视、听力下降、头痛等症状,为求诊治就诊当地XXX医院,完善鼻咽镜并取活检示:未分化型非角化性癌。
输出信息抽取结果:张XX(S患者姓名)就诊(P患者与医院关系)XXX医院(O就诊医院名)
本实施例的抽取实现处理过程参考实施例1。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。

Claims (4)

1.一种基于深度神经网络的医疗文本信息自动化抽取方法,其特征在于,该方法以历史累计抽取数据作为标注数据集,搭建深度神经网络模型,实现输入医保非结构化文本数据,输出特定医保审核人员设定的实体信息及关系,该方法包括训练数据准备阶段、数据预处理阶段、模型训练阶段和数据预测阶段。
2.根据权利要求1所述的一种基于深度神经网络的医疗文本信息自动化抽取方法,其特征在于,该方法具体包括如下实施步骤:
在所述的训练数据准备阶段,收集尽量多的已标注语料数据形成数据集,该数据集根据历年医保数据审核所使用到的信息为标准数据,采用多模式匹配算法标注非结构化文本数据集,将标注的数据集按照8:2分为训练集和测试集;
在所述的数据预处理阶段,训练词向量模型,采用包括结巴分词在内的分词器工具对训练集经停用词过滤,再分词,训练Word2Vec词向量模型,遍历输入文本获取字ID,对字ID进行随机初始字向量,结合训练好的词向量,通过矩阵变换得到混合字词向量;
在所述的模型训练阶段,以混合字词向量作为输入,以标注后的关系为输出,根据深度神经网络模型,进行多轮次迭代训练,保存训练模型;
在所述的数据预测阶段,在训练好的模型中输入待抽取的数据文本,输出实体关系,该实体关系为:主语词-谓语词-宾语词。
3.根据权利要求2所述的一种基于深度神经网络的医疗文本信息自动化抽取方法,其特征在于,所述的多模式匹配算法采用Aho-Corsick自动机。
4.根据权利要求2所述的一种基于深度神经网络的医疗文本信息自动化抽取方法,其特征在于,所述的模型训练阶段中,结合位置编码作为模型输入,记为E,以该E输入到12层的深度神经网络模型结构中,经过运算得到新的输出,记为H1,将H1向量传入自注意层,再经过卷积层和全连接层,预测S的首尾位置,以随机采样一个标注S,映射H1对应的子向量,输入到一个双向序列模型中,得到S的编码向量,该S的编码向量是与输入序列等长的编码向量,将H1传入另一个自注意层后,拼接输出的向量,记为H2,将拼接后的H2传入卷积层和全连接层,最终采用双S函数结构来预测O,P位置,存储上述训练模型到本地。
CN202111413366.8A 2021-11-25 2021-11-25 一种基于深度神经网络的医疗文本信息自动化抽取方法 Pending CN114360729A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111413366.8A CN114360729A (zh) 2021-11-25 2021-11-25 一种基于深度神经网络的医疗文本信息自动化抽取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111413366.8A CN114360729A (zh) 2021-11-25 2021-11-25 一种基于深度神经网络的医疗文本信息自动化抽取方法

Publications (1)

Publication Number Publication Date
CN114360729A true CN114360729A (zh) 2022-04-15

Family

ID=81096257

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111413366.8A Pending CN114360729A (zh) 2021-11-25 2021-11-25 一种基于深度神经网络的医疗文本信息自动化抽取方法

Country Status (1)

Country Link
CN (1) CN114360729A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116306589A (zh) * 2023-05-10 2023-06-23 之江实验室 一种急救场景的医疗文本纠错及智能提取的方法及装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111666350A (zh) * 2020-05-28 2020-09-15 浙江工业大学 一种基于bert模型的医疗文本关系抽取的方法
WO2020211275A1 (zh) * 2019-04-18 2020-10-22 五邑大学 基于预训练模型与微调技术的医疗文本关系抽取方法
CN112487807A (zh) * 2020-12-09 2021-03-12 重庆邮电大学 一种基于膨胀门卷积神经网络的文本关系抽取方法
CN113360671A (zh) * 2021-06-16 2021-09-07 浙江工业大学 一种基于知识图谱的医保医疗单据审核方法及其***
CN113486667A (zh) * 2021-07-26 2021-10-08 辽宁工程技术大学 一种基于实体类型信息的医疗实体关系联合抽取方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020211275A1 (zh) * 2019-04-18 2020-10-22 五邑大学 基于预训练模型与微调技术的医疗文本关系抽取方法
CN111666350A (zh) * 2020-05-28 2020-09-15 浙江工业大学 一种基于bert模型的医疗文本关系抽取的方法
CN112487807A (zh) * 2020-12-09 2021-03-12 重庆邮电大学 一种基于膨胀门卷积神经网络的文本关系抽取方法
CN113360671A (zh) * 2021-06-16 2021-09-07 浙江工业大学 一种基于知识图谱的医保医疗单据审核方法及其***
CN113486667A (zh) * 2021-07-26 2021-10-08 辽宁工程技术大学 一种基于实体类型信息的医疗实体关系联合抽取方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116306589A (zh) * 2023-05-10 2023-06-23 之江实验室 一种急救场景的医疗文本纠错及智能提取的方法及装置
CN116306589B (zh) * 2023-05-10 2024-02-09 之江实验室 一种急救场景的医疗文本纠错及智能提取的方法及装置

Similar Documents

Publication Publication Date Title
CN109635280A (zh) 一种基于标注的事件抽取方法
CN110390021A (zh) 药品知识图谱构建方法、装置、计算机设备及存储介质
CN108519890A (zh) 一种基于自注意力机制的鲁棒性代码摘要生成方法
CN110032739A (zh) 中文电子病历命名实体抽取方法及***
CN109885824A (zh) 一种层次的中文命名实体识别方法、装置及可读存储介质
US11972214B2 (en) Method and apparatus of NER-oriented chinese clinical text data augmentation
CN112560478B (zh) 一种使用语义标注的中文地址RoBERTa-BiLSTM-CRF耦合解析方法
CN111651991B (zh) 一种利用多模型融合策略的医疗命名实体识别方法
CN108182972A (zh) 基于分词网络的中文疾病诊断的智能编码方法及***
CN112069825B (zh) 面向警情笔录数据的实体关系联合抽取方法
CN114091450B (zh) 一种基于图卷积网络的司法领域关系抽取方法和***
CN114510928B (zh) 一种基于统一结构生成的通用信息抽取方法及***
CN114360729A (zh) 一种基于深度神经网络的医疗文本信息自动化抽取方法
CN116049459A (zh) 跨模态互检索的方法、装置、服务器及存储介质
CN115510236A (zh) 基于信息融合和数据增强的篇章级事件检测方法
CN117235275A (zh) 一种基于大语言模型推理的医学疾病编码映射方法及装置
WO2022242074A1 (zh) 一种多特征融合的中文医疗文本命名实体识别方法
Ye et al. Synthetic augmentation with large-scale unconditional pre-training
CN113254602B (zh) 面向科技政策领域的知识图谱构建方法及***
CN117708339A (zh) 一种基于预训练语言模型的icd自动编码方法
CN111798324A (zh) 一种基于动态就医行为对齐的医保欺诈发现方法
Feldman et al. VesselVAE: Recursive Variational Autoencoders for 3D Blood Vessel Synthesis
CN110502236A (zh) 基于多尺度特征解码的前端代码生成方法、***及设备
CN110516234A (zh) 基于gru的中医文本分词方法、***、设备及介质
CN110364255A (zh) 一种基于自编码器的肝病评估方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination