CN116611439B - 医疗信息抽取方法、装置、电子设备及存储介质 - Google Patents

医疗信息抽取方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN116611439B
CN116611439B CN202310885690.2A CN202310885690A CN116611439B CN 116611439 B CN116611439 B CN 116611439B CN 202310885690 A CN202310885690 A CN 202310885690A CN 116611439 B CN116611439 B CN 116611439B
Authority
CN
China
Prior art keywords
matrix
sequence
medical
text data
integer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310885690.2A
Other languages
English (en)
Other versions
CN116611439A (zh
Inventor
李丽
凌鸿顺
张奇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Huimeiyun Technology Co ltd
Original Assignee
Beijing Huimeiyun Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Huimeiyun Technology Co ltd filed Critical Beijing Huimeiyun Technology Co ltd
Priority to CN202310885690.2A priority Critical patent/CN116611439B/zh
Publication of CN116611439A publication Critical patent/CN116611439A/zh
Application granted granted Critical
Publication of CN116611439B publication Critical patent/CN116611439B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/288Entity relationship models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • G06N3/0455Auto-encoder networks; Encoder-decoder networks
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Medical Informatics (AREA)
  • Biomedical Technology (AREA)
  • Public Health (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Pathology (AREA)
  • Biophysics (AREA)
  • Epidemiology (AREA)
  • Primary Health Care (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Abstract

本发明涉及一种医疗信息抽取方法、装置、电子设备及存储介质,包括:获取第一文本数据,第一文本数据为病历文本。调用BERT模型对第一文本数据进行定点数运算,以获取分别与第一嵌入层和第二嵌入层对应的第一矩阵和第二矩阵,其中,第一矩阵和第二矩阵均为整数矩阵,并分别用于提取病历文本中的医学实体和实体关系。通过多层感知机对第一矩阵进行识别,以提取医学实体对应的第一序列,第一序列用于作为条件随机场的输入序列,以获取条件随机场输出的第二序列。调用concat函数对整合后的第二序列和第二矩阵进行纵向合并,以获取第三矩阵,第三矩阵用于获取第一文本数据对应的多元组短语。减少了命名实体与实体关系抽取串行的情况。

Description

医疗信息抽取方法、装置、电子设备及存储介质
技术领域
本发明涉及医疗辅助技术领域,特别是涉及一种医疗信息抽取方法、装置、电子设备及存储介质。
背景技术
随着医院信息化的飞速发展,积累的医疗数据越来越多,其中最基础的医疗数据就是电子病历。电子病历包含有丰富的医疗数据,其中部分为非结构化文本数据,而文本数据准确的归一化对实现临床决策辅助***、内涵质控以及鉴别诊断等应用能够提供重要的帮助。文本数据的归一化处理离不开医学实体识别和医学实体关系的识别,其中医学实体关系识别是指从电子病历中提取解剖部位、诊断、肿瘤分期等医学实体提取后,提取多个医学实体之间建立的关系进而组成富有意义的短语。
常用的医学实体关系识别提取方法主要是基于深度学习实现的,主要运用到的模型为CNN(卷积神经网络)和LSTM(长短期记忆网络)的分类。Google开源BERT(Bidirectional Encoder Representations from Transformers,预训练语言模型)后,预训练语言模型逐渐成为NLP(Natural Language Processing,自然语言处理)的主流方法,命名实体识别、关系、智能问答等领域开始采用BERT作为特征提取的方法,其效果远高于CNN以及LSTM等深度学习模型,例如CNN作为实体识别和关系抽取任务的基线(baseline)。
目前,现有的医疗信息抽取方法主要是通过使用串行的流水线(pipeline)方式,先做命名实体任务,然后再做关系识别任务。所使用模型主要为BERT模型,并基于BERT模型做一些微调。在做命名实体任务时,采用序列标注的方法,例如BIO方法,将每个元素标注为“B-X”、“I-X”或者“O”,其中“B-X”标注的元素在对应片段的开头位置,“I-X”标注的元素在该片段的中间位置,“O”标注的元素表示不属于任何类型。但是,这种序列标注的方法较难解决实体嵌套的片段,如“头晕”短语,“头晕”为主体词,“头”为解剖部位。其次,针对命名实体识别的结果,再进行关系识别处理,以组成多元组的短语,如:(腋窝,***,可见)、(腹股沟区***,可见),使用流水线(pipeline)方式,易出现命名实体和实体关系抽取串行的情况,且推理速度较慢。
综上所述,现有的医疗信息抽取方法易出现命名实体与实体关系抽取串行的情况且推理速度较慢。
发明内容
基于此,有必要针对上述技术问题,提供一种能够减少命名实体与实体关系抽取串行的情况发生且能够提高模型推理速度的医疗信息抽取方法、装置、电子设备及存储介质。
本发明提供了一种医疗信息抽取方法,所述方法包括:
获取第一文本数据,所述第一文本数据为病历文本;
调用BERT模型对所述第一文本数据进行定点数运算,以获取分别与第一嵌入层和第二嵌入层对应的第一矩阵和第二矩阵,其中,所述第一矩阵和第二矩阵均为整数矩阵,并分别用于提取所述病历文本中的医学实体和实体关系;
通过多层感知机对所述第一矩阵进行识别,以提取所述医学实体对应的第一序列,所述第一序列用于作为条件随机场的输入序列,以获取所述条件随机场输出的第二序列;
调用concat函数对整合后的所述第二序列和第二矩阵进行纵向合并,以获取第三矩阵,所述第三矩阵用于获取所述第一文本数据对应的多元组短语。
在其中一个实施例中,所述调用BERT模型对所述第一文本数据进行定点数运算,以获取分别与第一嵌入层和第二嵌入层对应的第一矩阵和第二矩阵,包括:
将所述BERT模型中的浮点型运算转化为整数运算,以使所述BERT模型中的权重浮点和输入浮点均转化为整数型;
调用所述BERT模型对所述第一文本数据进行整数运算,以获取所述第一矩阵和第二矩阵。
在其中一个实施例中,所述调用BERT模型对所述第一文本数据进行定点数运算,以获取分别与第一嵌入层和第二嵌入层对应的第一矩阵和第二矩阵,还包括:
通过类型映射将输入所述BERT模型的第一文本数据以及所述BERT模型的模型参数进行处理,以获取整数矩阵运算单元的第一输入数据;
将所述第一输入数据输入所述整数矩阵运算单元,以获取所述整数矩阵运算单元的第一输出数据;
基于所述第一输出数据,通过类型反映射获取所述第一矩阵和第二矩阵。
在其中一个实施例中,所述通过多层感知机对所述第一矩阵进行识别,以提取所述医学实体对应的第一序列,之后还包括:
调用条件随机场对所述第一序列进行赋值,所述赋值用于表征所述第一文本数据中不同医学实体之间的分布关系;
基于所述赋值,获取所述第二序列,所述第二序列为所述条件随机场的输出序列。
在其中一个实施例中,所述调用concat函数对整合后的所述第二序列和第二矩阵进行纵向合并,以获取第三矩阵,之前包括:
去除所述第一文本数据中的不具有语义信息的符号,以去除所述第二矩阵中的所述不具有语义信息的符号;
基于所述第二序列,获取相应的标注预测字,所述标注预测字包括标注数据及其对应的第四矩阵。
在其中一个实施例中,所述调用concat函数对整合后的所述第二序列和第二矩阵进行纵向合并,以获取第三矩阵,包括:
调用所述concat函数对去除所述不具有语义信息的符号的所述第二矩阵以及标注预测字进行纵向合并;
基于所述纵向合并,获取所述第三矩阵,所述第三矩阵为整数矩阵。
在其中一个实施例中,所述调用concat函数对整合后的所述第二序列和第二矩阵进行纵向合并,以获取第三矩阵,之后包括:
调用所述多层感知机对所述第三矩阵进行识别,以获取相应的识别结果;
判断所述识别结果是否为多元组短语;若是,则
输出所述多元组短语;
其中,所述多元组短语用于表征所述医学实体以及所述医学实体之间的实体关系。
本发明还提供了一种医疗信息抽取装置,所述装置包括:
第一获取模块,用于获取第一文本数据,所述第一文本数据为病历文本;
模型处理模块,用于调用BERT模型对所述第一文本数据进行定点数运算,以获取分别与第一嵌入层和第二嵌入层对应的第一矩阵和第二矩阵,其中,所述第一矩阵和第二矩阵均为整数矩阵,并分别用于提取所述病历文本中的医学实体和实体关系;
多层感知机模块,用于通过多层感知机对所述第一矩阵进行识别,以提取所述医学实体对应的第一序列,所述第一序列用于作为条件随机场的输入序列,以获取所述条件随机场输出的第二序列;
函数处理模块,用于调用concat函数对整合后的所述第二序列和第二矩阵进行纵向合并,以获取第三矩阵,所述第三矩阵用于获取所述第一文本数据对应的多元组短语。
本发明还提供了一种电子设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现如上述任一种所述的医疗信息抽取方法。
本发明还提供了一种计算机存储介质,存储有计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述的医疗信息抽取方法。
上述医疗信息抽取方法、装置、电子设备及存储介质,通过获取病历文本数据,并调用BERT模型对病历文本数据进行定点数运算,以获取分别与BERT模型的两个嵌入层对应的用于提取病历文本数据中的医学实体的第一矩阵和用于提取病历文本数据中的医学实体之间的实体关系的第二矩阵。随后,通过多层感知机对第一矩阵进行识别,以提取医学实体对应的序列,作为条件随机场的输入序列,进而获取条件随机场输出的输出序列,即第二序列。最后,通过调用concat函数对整合后的第二序列和第二矩阵进行纵向合并,以获取病历文本数据的多元组短语对应的第三矩阵。该方法使用BERT模型输出的结果作为统一信息抽取层,使得命名实体和实体关系识别任务仅通过BERT模型的嵌入层向量获取任务的输入,避免了多次调用BERT模型,减少了命名实体与实体关系抽取串行的情况发生,将模型推理过程使用定点数运算,提升了模型的推理速度。另外,使用同一个BERT模型进行训练能够丰富BERT模型的信息表征能力,以提升整体多元组短语的生成精度。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明提供的医疗信息抽取方法流程示意图之一;
图2为本发明提供的具体实施例中的医疗信息抽取方法的流程简图;
图3为本发明提供的具体实施例中的医疗信息抽取方法的流程详图;
图4为本发明提供的医疗信息抽取方法流程示意图之二;
图5为本发明提供的具体实施例中的医疗信息抽取方法的矩阵运算流程示意图;
图6为本发明提供的医疗信息抽取方法流程示意图之三;
图7为本发明提供的医疗信息抽取方法流程示意图之四;
图8为本发明提供的医疗信息抽取方法流程示意图之五;
图9为本发明提供的医疗信息抽取方法流程示意图之六;
图10为本发明提供的医疗信息抽取方法流程示意图之七;
图11为本发明提供的医疗信息抽取装置结构示意图;
图12为本发明提供的计算机设备的内部结构图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地说明,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
下面结合图1-图12描述本发明的医疗信息抽取方法、装置、电子设备及存储介质。
如图1所示,在一个实施例中,一种医疗信息抽取方法,包括以下步骤:
步骤S110,获取第一文本数据,第一文本数据为病历文本。
具体的,结合图2和图3所示,获取病历原文“cls患者头昏较前加重sep”。
其中,第一文本数据为病历文本,病历文本即为病历原文“cls患者头昏较前加重sep”。
步骤S120,调用BERT模型对第一文本数据进行定点数运算,以获取分别与第一嵌入层和第二嵌入层对应的第一矩阵和第二矩阵,其中,第一矩阵和第二矩阵均为整数矩阵,并分别用于提取病历文本中的医学实体和实体关系。
具体的,将病历原文“cls患者头昏较前加重sep”输入至BERT预训练模型中对病历文本数据进行定点数运算,以实现BERT模型权重整数化处理,进而得到两个分别位于BERT两个嵌入层(BERT Embedding)的整数矩阵,即ner(命名实体)模块中的矩阵10×768和关系识别模块中的矩阵矩阵10×768。其中,ner模块中的矩阵10×768用于提取病历文本中的医学实体,关系识别模块中的矩阵矩阵10×768用于提取医学实体时间的实体关系。
其中,第一嵌入层和第二嵌入层分别为ner模块和关系识别模块中的BERTEmbedding,第一矩阵为ner模块中的矩阵10×768,第二矩阵为关系识别模块中的10×768。
步骤S130,通过多层感知机对第一矩阵进行识别,以提取医学实体对应的第一序列,第一序列用于作为条件随机场的输入序列,以获取条件随机场输出的第二序列。
具体的,通过多层感知机(MLP)对ner模块中的矩阵10×768进行识别,以提取医学实体对应的序列10×144,作为条件随机场(CRF,Conditional Random Fields)的输入序列,条件随机场是给定一组输入序列条件下另一组输出序列的条件概率分布模型,擅长解决相邻上下文相关的问题。因此,通过条件随机场对序列矩阵10×144进行处理,即可输出相应的输出序列“患者头昏较前加重O O BDY SYM O O ATT ATT”。
其中,第一序列为ner模块中的10×144,第二序列为条件随机场的输出序列“患者头昏较前加重O O BDY SYM O O ATT ATT”。
步骤S140,调用concat函数对整合后的第二序列和第二矩阵进行纵向合并,以获取第三矩阵,第三矩阵用于获取第一文本数据对应的多元组短语。
具体的,调用concat函数对整合后的第二序列和第二矩阵进行纵向合并,其中,整合后的第二序列和第二矩阵为“原文:cls患者头昏较前加重sep,BERT Embedding:【1:-1】,矩阵[8×768](不取cls和sep),标注预测字:000110011,矩阵[8×1]”。concat函数对整合后的第二序列和第二矩阵纵向合并后即可获取矩阵8×(768+1),即第三矩阵,以获取病历文本数据对应的多元组短语。
需要说明的是,现有的医疗信息抽取方法的运算多为浮点数运算,本发明采用定点数运算之所以比浮点数运算速度快,并能够提高BERT模型的推理速度,有下述运算过程进行说明:
假设需要计算:(123×321),使用整数运算和浮点数运算的过程如下:
整数运算:
1.整数乘法:123×321= 39483
浮点数运算:
假设为1.23×3.21进行乘法计算
1.1.23的二进制形式:
符号位:0
指数:0(指数偏移为127,即实际指数为-127)
尾数:1.011×2^-2(小数点后第一位隐藏,有效位数为3位)
2. 3.21的二进制形式:
符号位:0
指数:0(指数偏移为127,即实际指数为-127)
尾数:1.00101×2^-2(小数点后第一位隐藏,有效位数为3位)
3.指数相加:-127 + -127 = -254
尾数相乘:1.011 × 1.00101 = 1.110000111 × 2^-4
4.规格化:尾数有效位数超过3位,进1位舍入
尾数:1.11 × 2^-4
指数:-254
5.指数偏移:指数:-254 + 127 = -127
6.组合:
符号位:0
指数:-127
尾数:1.11 × 2^-4
7.转换为十进制:-127 × 2^-4 × 1.11 = -3.9483
所以,1.23 × 3.21的计算机浮点数乘法结果是:
符号位:0
指数:-127
尾数:1.11 × 2^-4
对应的十进制结果为-3.9483。
综上所述,定点数运算只需要简单的整数运算即可,而浮点数运算则需要较为复杂的二进制运算和指数计算,因此,定点数运算的速度较快。
上述医疗信息抽取方法,通过获取病历文本数据,并调用BERT模型对病历文本数据进行定点数运算,以获取分别与BERT模型的两个嵌入层对应的用于提取病历文本数据中的医学实体的第一矩阵和用于提取病历文本数据中的医学实体之间的实体关系的第二矩阵。随后,通过多层感知机对第一矩阵进行识别,以提取医学实体对应的序列,作为条件随机场的输入序列,进而获取条件随机场输出的输出序列,即第二序列。最后,通过调用concat函数对整合后的第二序列和第二矩阵进行纵向合并,以获取病历文本数据的多元组短语对应的第三矩阵。该方法使用BERT模型输出的结果作为统一信息抽取层,使得命名实体和实体关系识别任务仅通过BERT模型的嵌入层向量获取任务的输入,避免了多次调用BERT模型,减少了命名实体与实体关系抽取串行的情况发生,将模型推理过程使用定点数运算,提升了模型的推理速度。另外,使用同一个BERT模型进行训练能够丰富BERT模型的信息表征能力,以提升整体多元组短语的生成精度。
如图4所示,在一个实施例中,本发明提供的医疗信息抽取方法,调用BERT模型对第一文本数据进行定点数运算,以获取分别与第一嵌入层和第二嵌入层对应的第一矩阵和第二矩阵,具体包括以下步骤:
步骤S122,将BERT模型中的浮点型运算转化为整数运算,以使BERT模型中的权重浮点和输入浮点均转化为整数型。
具体的,结合图5所示,将BERT模型中的浮点型运算转化为整数运算,以使BERT模型中的权重浮点和输入浮点均转化为整数型。
需要说明的是,在BERT模型中未做整数运算转化时
w=[ [1.3, 2.7],
[0.5, -1.2]] # 权重参数,shape=(2,2)
x=[0.3, 0.8] # 输入,shape=(2,1)
则:
y=w×x=[1.3×0.3+2.7×0.8, 0.5×0.3-1.2×0.8]=[2.55, -0.81]
可见,最终的运算过程较复杂。
进一步需要说明的是,在整数运算转化的过程中,首先需要计算缩放常量和偏移常数:
缩放常量 st=wmax - wmin , 偏移常数pt = (max_value+min_value)/2。那么,w的最大值max=2.7,最小值min=-1.2,st=wmax-wmin=3.9,pt=(max+min)/2=0.75。
随后计算整数化后的模型权重,类似标准化过程,即,将权重映射到[-128.128]的数值之间,算法如下:
int_w = int((w-pt)×st×128) 权重浮点转化成整数型
int_x = int((x-pt)×st×128) 输入浮点转化成整数型
那么可得到整数转化后的矩阵
int_w=[int((1.3-0.75)/3.9×128)=18,int((2.7-0.75)/3.9×128)=64,int((0.5-0.75)/3.9×128)=-8, int((-1.2-0.75)/3.9×128)=-64]
int_w=[ [18, 64],
[ -8, -64]]
int_x=[int((0.3-0.75)/3.9×128)=-14, int((0.8-0.75)/3.9×128)=1]
int_x= [-14,1]
则:
int_y=int_w×int_x=[-188 48]
还原成浮点结果
y=int_y×st/128+pt
y=[-188×3.9/128+0.75,48×3.9/128+0.75]=[-4.9781249999999995, 2.2125]
综上所述,整数化后int_w和int_x都是int类型,在做矩阵运算时候都是整数运算,能够提升推理效率,最后计算结果y通过反映射得回float类型。
步骤S124,调用BERT模型对第一文本数据进行整数运算,以获取第一矩阵和第二矩阵。
具体的,服务器调用BERT模型对病历文本数据进行整数矩阵运算,得到对应的两个整数矩阵,即第一矩阵和第二矩阵。
如图6所示,在一个实施例中,本发明提供的医疗信息抽取方法,调用BERT模型对第一文本数据进行定点数运算,以获取分别与第一嵌入层和第二嵌入层对应的第一矩阵和第二矩阵,具体还包括以下步骤:
步骤S121,通过类型映射将输入BERT模型的第一文本数据以及BERT模型的模型参数进行处理,以获取整数矩阵运算单元的第一输入数据。
具体的,结合图5所示,服务器通过类型映射将输入BERT模型的病历文本数据以及BERT模型的模型参数进行处理,以获取整数矩阵运算单元的第一输入数据,即“Int”和“参数Int”。
其中,整数矩阵运算单元位于BERT预训练模型中,第一文本数据为“InputXfloat”。
步骤S123,将第一输入数据输入整数矩阵运算单元,以获取整数矩阵运算单元的第一输出数据。
具体的,服务器将步骤S121中得到的第一输入数据输入BERT预训练模型中的整数矩阵运算单元中,通过整数矩阵运算单元的计算处理,得到相应的输出数据“Output int”,即第一输出数据。
步骤S125,基于第一输出数据,通过类型反映射获取第一矩阵和第二矩阵。
具体的,服务器基于步骤S123中得到的第一输出数据“Output int”,通过类型反映射获取两个整数矩阵,即第一整数矩阵和第二整数矩阵,即“float”。
如图7所示,在一个实施例中,本发明提供的医疗信息抽取方法,通过多层感知机对第一矩阵进行识别,以提取医学实体对应的第一序列,之后还包括以下步骤:
步骤S710,调用条件随机场对第一序列进行赋值,赋值用于表征第一文本数据中不同医学实体之间的分布关系。
具体的,服务器调用条件随机场(CRF)对第一序列“10×144”进行赋值,以表征病历文本数据中不同医学实体之间的分布关系。
其中,赋值为“O O BDY SYM O O ATT ATT”,分布关系包括不同医学实体之间在该片段中的前后位置及其主宾关系。
步骤S720,基于赋值,获取第二序列,第二序列为条件随机场的输出序列。
具体的,服务器基于步骤S710中的赋值,获取条件随机场的输出序列“患者头昏较前加重O O BDY SYM O O ATT ATT”,即第二序列。
如图8所示,在一个实施例中,本发明提供的医疗信息抽取方法,调用concat函数对整合后的第二序列和第二矩阵进行纵向合并,以获取第三矩阵,之前包括以下步骤:
步骤S810,去除第一文本数据中的不具有语义信息的符号,以去除第二矩阵中的不具有语义信息的符号。
具体的,在第二序列和第二矩阵整合的过程中,需要去除不具有语义信息的符号,如:“cls患者头昏较前加重sep”中不具有语义信息的符号即为“cls”和“sep”,其中,“cls”为用于表示分类的符号,“sep”为用于表示分割的符号,均不具有语义信息。
步骤S820,基于第二序列,获取相应的标注预测字,标注预测字包括标注数据及其对应的第四矩阵。
具体的,服务器基于第二序列,获取相应的标注预测字的标注数据“000110011”和第四矩阵“矩阵[8×1]”。
需要说明的是,原先的第一矩阵和第二矩阵均为“[10×768]”,去除不具有语义信息的两个符号后与第四矩阵“矩阵[8×1]”纵向合并后得到第三矩阵“矩阵8×(768+1)”。
如图9所示,在一个实施例中,本发明提供的医疗信息抽取方法,调用concat函数对整合后的第二序列和第二矩阵进行纵向合并,以获取第三矩阵,具体包括以下步骤:
步骤S142,调用concat函数对去除不具有语义信息的符号的第二矩阵以及标注预测字进行纵向合并。
具体的,服务器调用concat函数对去除不具有语义信息的第二矩阵以及标注预测字进行纵向合并后得到第三矩阵“矩阵8×(768+1)”,第三矩阵同样为整数矩阵。
步骤S144,基于纵向合并,获取第三矩阵,第三矩阵为整数矩阵。
如图10所示,在一个实施例中,本发明提供的医疗信息抽取方法,调用concat函数对整合后的第二序列和第二矩阵进行纵向合并,以获取第三矩阵,之后包括以下步骤:
步骤S1010,调用多层感知机对第三矩阵进行识别,以获取相应的识别结果。
具体的,得到第三矩阵“矩阵8×(768+1)”后,服务器调用多层感知机(MLP)对其进行识别,得到相应的识别结果。
步骤S1020,判断识别结果是否为多元组短语。
具体的,服务器判断步骤S1010中得到的识别结果是否为多元组短语。
步骤S1030,输出多元组短语。
具体的,当步骤S1020中的判断结果为步骤S1010中得到的识别结果为多元组短语时,输出该多元组短语,作为最初输入的病历文本数据的信息抽取结果。
其中,该多元组短语由最初病历文本数据中的医学实体以及医学实体之间的实体关系共同构成。
下面对本发明提供的医疗信息抽取装置进行描述,下文描述的医疗信息抽取装置与上文描述的医疗信息抽取方法可相互对应参照。
如图11所示,在一个实施例中,一种医疗信息抽取装置,包括第一获取模块1110、模型处理模块1120、多层感知机模块1130以及函数处理模块1140。
第一获取模块1110用于获取第一文本数据,第一文本数据为病历文本。
模型处理模块1120用于调用BERT模型对第一文本数据进行定点数运算,以获取分别与第一嵌入层和第二嵌入层对应的第一矩阵和第二矩阵,其中,第一矩阵和第二矩阵均为整数矩阵,并分别用于提取病历文本中的医学实体和实体关系。
多层感知机模块1130用于通过多层感知机对第一矩阵进行识别,以提取医学实体对应的第一序列,第一序列用于作为条件随机场的输入序列,以获取条件随机场输出的第二序列。
函数处理模块1140用于调用concat函数对整合后的第二序列和第二矩阵进行纵向合并,以获取第三矩阵,第三矩阵用于获取第一文本数据对应的多元组短语。
在本实施例中,本发明提供的医疗信息抽取装置,模型处理模块具体用于:
将BERT模型中的浮点型运算转化为整数运算,以使BERT模型中的权重浮点和输入浮点均转化为整数型。
调用BERT模型对第一文本数据进行整数运算,以获取第一矩阵和第二矩阵。
在本实施例中,本发明提供的医疗信息抽取装置,模型处理模块具体还用于:
通过类型映射将输入BERT模型的第一文本数据以及BERT模型的模型参数进行处理,以获取整数矩阵运算单元的第一输入数据。
将第一输入数据输入整数矩阵运算单元,以获取整数矩阵运算单元的第一输出数据。
基于第一输出数据,通过类型反映射获取第一矩阵和第二矩阵。
在本实施例中,本发明提供的医疗信息抽取装置,还包括条件随机场模块,用于:
调用条件随机场对第一序列进行赋值,赋值用于表征第一文本数据中不同医学实体之间的分布关系。
基于赋值,获取第二序列,第二序列为条件随机场的输出序列。
在本实施例中,本发明提供的医疗信息抽取装置,还包括数据整合模块,用于:
去除第一文本数据中的不具有语义信息的符号,以去除第二矩阵中的不具有语义信息的符号。
基于第二序列,获取相应的标注预测字,标注预测字包括标注数据及其对应的第四矩阵。
在本实施例中,本发明提供的医疗信息抽取装置,函数处理模块具体用于:
调用concat函数对去除不具有语义信息的符号的第二矩阵以及标注预测字进行纵向合并。
基于纵向合并,获取第三矩阵,第三矩阵为整数矩阵。
在本实施例中,本发明提供的医疗信息抽取装置,还包括结果判断模块,用于:
调用多层感知机对第三矩阵进行识别,以获取相应的识别结果。
判断识别结果是否为多元组短语。若是,则
输出多元组短语。
其中,多元组短语用于表征医学实体以及医学实体之间的实体关系。
图12示例了一种电子设备的实体结构示意图,该电子设备可以是智能终端,其内部结构图可以如图12所示。该电子设备包括通过***总线连接的处理器、存储器和网络接口。其中,该电子设备的处理器用于提供计算和控制能力。该电子设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作***和计算机程序。该内存储器为非易失性存储介质中的操作***和计算机程序的运行提供环境。该电子设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现医疗信息抽取方法,该方法包括:
获取第一文本数据,第一文本数据为病历文本;
调用BERT模型对第一文本数据进行定点数运算,以获取分别与第一嵌入层和第二嵌入层对应的第一矩阵和第二矩阵,其中,第一矩阵和第二矩阵均为整数矩阵,并分别用于提取病历文本中的医学实体和实体关系;
通过多层感知机对第一矩阵进行识别,以提取医学实体对应的第一序列,第一序列用于作为条件随机场的输入序列,以获取条件随机场输出的第二序列;
调用concat函数对整合后的第二序列和第二矩阵进行纵向合并,以获取第三矩阵,第三矩阵用于获取第一文本数据对应的多元组短语。
本领域技术人员可以理解,图12中示出的结构,仅仅是与本发明方案相关的部分结构的框图,并不构成对本发明方案所应用于其上的电子设备的限定,具体的电子设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
另一方面,本发明还提供了一种计算机存储介质,存储有计算机程序,计算机程序被处理器执行时实现医疗信息抽取方法,该方法包括:
获取第一文本数据,第一文本数据为病历文本;
调用BERT模型对第一文本数据进行定点数运算,以获取分别与第一嵌入层和第二嵌入层对应的第一矩阵和第二矩阵,其中,第一矩阵和第二矩阵均为整数矩阵,并分别用于提取病历文本中的医学实体和实体关系;
通过多层感知机对第一矩阵进行识别,以提取医学实体对应的第一序列,第一序列用于作为条件随机场的输入序列,以获取条件随机场输出的第二序列;
调用concat函数对整合后的第二序列和第二矩阵进行纵向合并,以获取第三矩阵,第三矩阵用于获取第一文本数据对应的多元组短语。
又一方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。电子设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令时实现医疗信息抽取方法,该方法包括:
获取第一文本数据,第一文本数据为病历文本;
调用BERT模型对第一文本数据进行定点数运算,以获取分别与第一嵌入层和第二嵌入层对应的第一矩阵和第二矩阵,其中,第一矩阵和第二矩阵均为整数矩阵,并分别用于提取病历文本中的医学实体和实体关系;
通过多层感知机对第一矩阵进行识别,以提取医学实体对应的第一序列,第一序列用于作为条件随机场的输入序列,以获取条件随机场输出的第二序列;
调用concat函数对整合后的第二序列和第二矩阵进行纵向合并,以获取第三矩阵,第三矩阵用于获取第一文本数据对应的多元组短语。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,该计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本发明所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。
作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双倍数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

Claims (5)

1.一种医疗信息抽取方法,其特征在于,所述方法包括:
获取第一文本数据,所述第一文本数据为病历文本;
调用BERT模型对所述第一文本数据进行定点数运算,以获取分别与第一嵌入层和第二嵌入层对应的第一矩阵和第二矩阵,其中,所述第一矩阵和第二矩阵均为整数矩阵,并分别用于提取所述病历文本中的医学实体和实体关系;
通过多层感知机对所述第一矩阵进行识别,以提取所述医学实体对应的第一序列,所述第一序列用于作为条件随机场的输入序列,以获取所述条件随机场输出的第二序列;
调用concat函数对整合后的所述第二序列和第二矩阵进行纵向合并,以获取第三矩阵,所述第三矩阵用于获取所述第一文本数据对应的多元组短语;
其中,所述调用BERT模型对所述第一文本数据进行定点数运算,以获取分别与第一嵌入层和第二嵌入层对应的第一矩阵和第二矩阵,包括:
将所述BERT模型中的浮点型运算转化为整数运算,以使所述BERT模型中的权重浮点和输入浮点均转化为整数型;
调用所述BERT模型对所述第一文本数据进行整数运算,以获取所述第一矩阵和第二矩阵;以及
通过类型映射将输入所述BERT模型的第一文本数据以及所述BERT模型的模型参数进行处理,以获取整数矩阵运算单元的第一输入数据;
将所述第一输入数据输入所述整数矩阵运算单元,以获取所述整数矩阵运算单元的第一输出数据;
基于所述第一输出数据,通过类型反映射获取所述第一矩阵和第二矩阵;
所述调用concat函数对整合后的所述第二序列和第二矩阵进行纵向合并,以获取第三矩阵,之前包括:
去除所述第一文本数据中的不具有语义信息的符号,以去除所述第二矩阵中的所述不具有语义信息的符号;
基于所述第二序列,获取相应的标注预测字,所述标注预测字包括标注数据及其对应的第四矩阵;
所述调用concat函数对整合后的所述第二序列和第二矩阵进行纵向合并,以获取第三矩阵,包括:
调用所述concat函数对去除所述不具有语义信息的符号的所述第二矩阵以及标注预测字进行纵向合并;
基于所述纵向合并,获取所述第三矩阵,所述第三矩阵为整数矩阵;
所述调用concat函数对整合后的所述第二序列和第二矩阵进行纵向合并,以获取第三矩阵,之后包括:
调用所述多层感知机对所述第三矩阵进行识别,以获取相应的识别结果;
判断所述识别结果是否为多元组短语;若是,则
输出所述多元组短语;
其中,所述多元组短语用于表征所述医学实体以及所述医学实体之间的实体关系。
2.根据权利要求1所述的医疗信息抽取方法,其特征在于,所述通过多层感知机对所述第一矩阵进行识别,以提取所述医学实体对应的第一序列,之后还包括:
调用条件随机场对所述第一序列进行赋值,所述赋值用于表征所述第一文本数据中不同医学实体之间的分布关系;
基于所述赋值,获取所述第二序列,所述第二序列为所述条件随机场的输出序列。
3.一种医疗信息抽取装置,其特征在于,所述装置包括:
第一获取模块,用于获取第一文本数据,所述第一文本数据为病历文本;
模型处理模块,用于调用BERT模型对所述第一文本数据进行定点数运算,以获取分别与第一嵌入层和第二嵌入层对应的第一矩阵和第二矩阵,其中,所述第一矩阵和第二矩阵均为整数矩阵,并分别用于提取所述病历文本中的医学实体和实体关系;
多层感知机模块,用于通过多层感知机对所述第一矩阵进行识别,以提取所述医学实体对应的第一序列,所述第一序列用于作为条件随机场的输入序列,以获取所述条件随机场输出的第二序列;
函数处理模块,用于调用concat函数对整合后的所述第二序列和第二矩阵进行纵向合并,以获取第三矩阵,所述第三矩阵用于获取所述第一文本数据对应的多元组短语;
其中,所述调用BERT模型对所述第一文本数据进行定点数运算,以获取分别与第一嵌入层和第二嵌入层对应的第一矩阵和第二矩阵,包括:
将所述BERT模型中的浮点型运算转化为整数运算,以使所述BERT模型中的权重浮点和输入浮点均转化为整数型;
调用所述BERT模型对所述第一文本数据进行整数运算,以获取所述第一矩阵和第二矩阵;以及
通过类型映射将输入所述BERT模型的第一文本数据以及所述BERT模型的模型参数进行处理,以获取整数矩阵运算单元的第一输入数据;
将所述第一输入数据输入所述整数矩阵运算单元,以获取所述整数矩阵运算单元的第一输出数据;
基于所述第一输出数据,通过类型反映射获取所述第一矩阵和第二矩阵;
所述调用concat函数对整合后的所述第二序列和第二矩阵进行纵向合并,以获取第三矩阵,之前包括:
去除所述第一文本数据中的不具有语义信息的符号,以去除所述第二矩阵中的所述不具有语义信息的符号;
基于所述第二序列,获取相应的标注预测字,所述标注预测字包括标注数据及其对应的第四矩阵;
所述调用concat函数对整合后的所述第二序列和第二矩阵进行纵向合并,以获取第三矩阵,包括:
调用所述concat函数对去除所述不具有语义信息的符号的所述第二矩阵以及标注预测字进行纵向合并;
基于所述纵向合并,获取所述第三矩阵,所述第三矩阵为整数矩阵;
所述调用concat函数对整合后的所述第二序列和第二矩阵进行纵向合并,以获取第三矩阵,之后包括:
调用所述多层感知机对所述第三矩阵进行识别,以获取相应的识别结果;
判断所述识别结果是否为多元组短语;若是,则
输出所述多元组短语;
其中,所述多元组短语用于表征所述医学实体以及所述医学实体之间的实体关系。
4.一种电子设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至2中任一项所述的方法的步骤。
5.一种计算机存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至2中任一项所述的方法的步骤。
CN202310885690.2A 2023-07-19 2023-07-19 医疗信息抽取方法、装置、电子设备及存储介质 Active CN116611439B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310885690.2A CN116611439B (zh) 2023-07-19 2023-07-19 医疗信息抽取方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310885690.2A CN116611439B (zh) 2023-07-19 2023-07-19 医疗信息抽取方法、装置、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN116611439A CN116611439A (zh) 2023-08-18
CN116611439B true CN116611439B (zh) 2023-09-19

Family

ID=87685686

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310885690.2A Active CN116611439B (zh) 2023-07-19 2023-07-19 医疗信息抽取方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN116611439B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117423423B (zh) * 2023-12-18 2024-02-13 四川互慧软件有限公司 一种基于卷积神经网络的健康档案整合方法、设备及介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112711949A (zh) * 2021-01-05 2021-04-27 山东众阳健康科技集团有限公司 一种命名实体识别和实体关系抽取的联合方法
WO2021212749A1 (zh) * 2020-04-24 2021-10-28 平安科技(深圳)有限公司 命名实体标注方法、装置、计算机设备和存储介质
CN113836930A (zh) * 2021-09-28 2021-12-24 浙大城市学院 一种中文危险化学品命名实体识别方法
CN115965062A (zh) * 2022-09-19 2023-04-14 复旦大学 一种bert中层归一化非线性函数的fpga加速方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021212749A1 (zh) * 2020-04-24 2021-10-28 平安科技(深圳)有限公司 命名实体标注方法、装置、计算机设备和存储介质
CN112711949A (zh) * 2021-01-05 2021-04-27 山东众阳健康科技集团有限公司 一种命名实体识别和实体关系抽取的联合方法
CN113836930A (zh) * 2021-09-28 2021-12-24 浙大城市学院 一种中文危险化学品命名实体识别方法
CN115965062A (zh) * 2022-09-19 2023-04-14 复旦大学 一种bert中层归一化非线性函数的fpga加速方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于超图直推非负矩阵分解的图像标注法研究;李冰锋;唐延东;韩志;;计算机仿真(第02期);全文 *

Also Published As

Publication number Publication date
CN116611439A (zh) 2023-08-18

Similar Documents

Publication Publication Date Title
CN110032739B (zh) 中文电子病历命名实体抽取方法及***
CN113268586A (zh) 文本摘要生成方法、装置、设备及存储介质
CN116611439B (zh) 医疗信息抽取方法、装置、电子设备及存储介质
CN113590784B (zh) 三元组信息抽取方法、装置、电子设备、及存储介质
CN112800239B (zh) 意图识别模型训练方法、意图识别方法及装置
CN110084297B (zh) 一种面向小样本的影像语义对齐***
CN112183104B (zh) 编码推荐方法、***及相应设备和存储介质
CN112446211A (zh) 文本处理装置、方法、设备和计算机可读存储介质
CN112232053A (zh) 一种基于多关键词对匹配的文本相似度计算***、方法、及存储介质
AU2022345509A1 (en) Convolution attention network for multi-label clinical document classification
CN115545041B (zh) 一种增强医疗语句语义向量表示的模型构造方法及***
CN113946684A (zh) 电力基建知识图谱构建方法
CN112200664A (zh) 基于ernie模型和dcnn模型的还款预测方法
CN116129902A (zh) 一种基于跨模态对齐的语音翻译方法及***
CN116246279A (zh) 一种基于clip背景知识的图文特征融合方法
CN117217233A (zh) 文本纠正、文本纠正模型训练方法及装置
CN111191035B (zh) 一种识别肺癌临床数据库文本实体的方法及装置
CN115033683B (zh) 摘要生成方法、装置、设备及存储介质
CN114637852B (zh) 医学文本的实体关系抽取方法、装置、设备及存储介质
CN115965003A (zh) 事件信息的抽取方法以及事件信息的抽取装置
CN112287217B (zh) 医学文献检索方法、装置、电子设备及存储介质
CN114239606A (zh) 一种信息处理方法、装置、设备及计算机存储介质
CN115114915B (zh) 短语识别方法、装置、设备和介质
CN116822516A (zh) 一种实体属性识别方法、***及电子设备
CN115099240B (zh) 文本生成模型训练方法和装置、文本生成方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant