CN110223742A - 中文电子病历数据的临床表现信息抽取方法和设备 - Google Patents

中文电子病历数据的临床表现信息抽取方法和设备 Download PDF

Info

Publication number
CN110223742A
CN110223742A CN201910513765.8A CN201910513765A CN110223742A CN 110223742 A CN110223742 A CN 110223742A CN 201910513765 A CN201910513765 A CN 201910513765A CN 110223742 A CN110223742 A CN 110223742A
Authority
CN
China
Prior art keywords
entity
clinical manifestation
layer
vector
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910513765.8A
Other languages
English (en)
Inventor
武学鸿
李敏
李建华
肖超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Central South University
Original Assignee
Central South University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Central South University filed Critical Central South University
Priority to CN201910513765.8A priority Critical patent/CN110223742A/zh
Publication of CN110223742A publication Critical patent/CN110223742A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents
    • G06F40/117Tagging; Marking up; Designating a block; Setting of attributes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/60ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Epidemiology (AREA)
  • Medical Informatics (AREA)
  • Primary Health Care (AREA)
  • Public Health (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供一种中文电子病历数据的临床表现信息抽取方法,所述方法包括:确定医学术语描述规范集合,所述术语描述规范集合包括下述类别的术语:症状、疾病、体征、检查、检验、人群、药物和手术中的一者或多者,每个类别的医学术语包括一种或多种属性描述;根据所述医学术语描述规范集合在临床电子病历的文本数据中标注临床表现实体,所述临床表现实体为包括中心词和约束属性的短语实体;将所标注出的临床表现实体转换为JSON格式表示的规范医学术语。本发明通过临床表现实体的数据结构形式以及对应的抽取和翻译模型,能够将非结构化的中文电子病历数据转换为JSON格式的规范医学术语。

Description

中文电子病历数据的临床表现信息抽取方法和设备
技术领域
本发明涉及中文电子病历数据处理,更为具体而言,涉及一种中文电子病历数据的临床表现信息抽取方法和设备。
背景技术
电子病历信息中蕴含了丰富的患者相关信息。这些信息都以半结构化和非结构化的形式展现,有些甚至以一些口语化,非规范化的方式进行描述,然而这些都不利于计算机去有效的理解、存储、检索和分析。为了高效的利用这些数据,对电子病历进行精准化的信息提取以形成知识,这将有助于多个应用场景:临床学术研究、辅助决策支持、信息化质控、相似病历检索、知识图谱构建等等。
发明内容
本发明提供一种中文电子病历数据的临床表现信息抽取方法和设备,将非结构化的电子病历的文本数据按照诸如症状或体征之类的医学术语的需要,设计了包括中心词和约束属性的临床表现实体结构对文本数据进行标注,能够提高非结构化的文本数据进行结构化表示的准确度;其次,针对上述临床表现实体的数据结构要求,设计基于BiLSTM-CRF网络模型对文本数据进行序列标注,学习文本数据的标签序列之间的限定关系,提高临床表现实体标注的准确度;对于标注出的临床表现实体,设计基于Transformer网络模型的翻译模型将临床表现实体转换为JSON格式的结构化标准医学术语,进一步提高文本形式的电子病历数据的结构化表示的准确度。
本发明申请实施方式的第一方面,提供一种中文电子病历数据的临床表现信息抽取方法,所述方法包括:确定医学术语描述规范集合,所述术语描述规范集合包括下述类别的术语:症状、疾病、体征、检查、检验、人群、药物和手术中的一者或多者,每个类别的医学术语包括一种或多种属性描述;
根据所述医学术语描述规范集合在临床电子病历的文本数据中标注临床表现实体,所述临床表现实体为包括中心词和约束属性的短语实体;
将所标注出的临床表现实体转换为JSON格式表示的规范医学术语。
在一些实施方式中,每个类别的医学术语的描述规范包括:中心词和一个或多个针对所述中心词的约束词,所述约束词为所述临床表现实体的约束属性,所述约束属性包括:加重因素、减轻因素、部位、时间、规律、性状、性质、程度、颜色、气味、诱因和别名。
在一些实施方式中,所述根据所述医学术语描述规范集合在临床电子病历文本数据中标注临床表现实体包括:对临床电子病历文本数据采用BIEO方式进行序列标记,其中,B-i表示实体序列的开头,I-i表示实体序列的中间部分,E-i表示实体序列的结尾,O表示非实体序列部分,i表示的标注实体的类别,采用数字的方式进行类别区分,例如,第一数值表示症状有,第二数值表示症状无,第三数值表示体征有,第四数值表示体征无。
在一些实施方式中,所述根据所述医学术语描述规范集合从在临床电子病历的文本数据中标注临床表现实体包括:采用基于BiLSTM-CRF深度学习网络的临床表现实体提取模型标注临床表现实体,其中,所述临床表现实体提取模型包括输入和三个处理层,所述输入为临床电子病历文本数据中的句子,该句子的序列表示为:
x=(x1,x2,x3,...,xn)
其中xi表示句子中第i个字在全局字典中的位置索引,所述全局字典是训练集中所有的字去重后所形成的有序列表。
在一些实施方式中,所述三个处理层包括第一嵌入层、BiLSTM层和CRF层,其中,嵌入层是对句子中每一个输入的字生成随机字向量Xi,向量维度为d,BiLSTM层,将句子中的各个自向量作为双向LSTM各个时间步的输入,再将正向LSTM输出的隐状态序列(HL1,HL2,HL3,…,HLn)与反向LSTM输出的进行按位拼接:
Hi=[HLi|HRi]
其中i表示序列中的第i个时间步,拼接后的向量维度为m,其中m=2*d,拼接后得到了完整的隐状态序列为:
H=(H1,H2,H3,...,Hn)n×m
在获得隐状态矩阵之后,接入一个线性层将n行的隐状态向量从m映射到k维,其中k维是标注的输入句子的标签数,从而得到得分矩阵P:
P=(P1,P2,P3,...,Pn)n×k
其中,Pi表示输入句子的第i个字对于所有标签的一个k维向量,而向量中的每个值Pij表示第i个字分类到第j个标签的得分值。但是这样的得分预测结果没有很好的利用已经标注过的信息(标注序列的路径约束),所以进一步引入CRF层来进行标注。
CRF层,CRF层从训练的数据中学习标签序列之间的限制关系。
在一些实施方式中,所述将所标注出的临床表现实体转换为JSON格式表示的规范医学术语包括:将所述临床表现实体提取模型标注出的临床表现实体作为输入,采用基于注意力机制的transformer模型,确定JSON格式表示的规范医学术语,所述transformer模型包括输入、第二嵌入层、编码层和解码层。
在一些实施方式中,所述第二嵌入层的输入向量为所述临床表现实体中每个字的向量和位置向量相加,
X=(X1+T1,X2+T2,X3+T3,...,Xn+Tn)
其中,X1表示临床表现实体中第一个字的向量,维度设为d,T1为第一个字的位置向量,向量的维度也是d,位置向量的计算方式如下:
其中,pos表示的是当前字在临床表现实体中的位置,i表示向量的索引位置,d为向量维度;
所述编码层的输入为嵌入层输出的n行d列的矩阵,由预定个数的相同的编码单元串联形成,各个编码单元相对独立但不共享权值,每个编码单元由self-attention层以及全连接层组成,每一层都会采用残差连接将该层的输入与输出进行连接并采用LayerNormalization进行标准化;
所述解码层由所述预定个数的解码单元构成,所述解码单元相对独立但不共享权值,每个解码单元相对于编码单元多了用于计算编码层输出的中间层Self-Attention(Masked Multi-Head),并且采用Layer Normalization对该层输出进行标准化,所述中间层的输入来自于已经预测出字符序列所形成嵌入向量。
在一些实施方式中,所述transformer模型的输出在所述解码层后经过liner层以及softmax层对目标字典中所有的字空间进行映射,计算得出当前位置在目标字典中所有字的概率,而选择概率最大的作为当前位置的预测结果。
本发明申请实施方式的第二方面,提供一种计算机设备,包括存储器和处理器,其中,存储器,存储有计算机代码;处理器,配置为执行所述计算机代码以使所述计算机设备执行上面所述的方法。
附图说明
图1示出了根据本发明一些实施方式的中文电子病历数据的临床表现信息抽取方法的流程示意图。
图2示出了根据本发明一些实施方式的标注实例。
图3示出了根据本发明一些实施方式的BiLSTM-CRF网络模型的结构示意图。
图4示出了根据本发明一些实施方式的transformer模型的结构示意图。
图5示出了根据本发明一些实施方式的完整提取模型的架构示意图。
图6示出了根据本发明一些实施方式的计算机设备的结构示意图。
具体实施方式
以下结合附图和具体实施方式对本发明的各个方面进行详细阐述。其中,众所周知的模块、单元及其相互之间的连接、链接、通信或操作没有示出或未作详细说明。并且,所描述的特征、架构或功能可在一个或一个以上实施方式中以任何方式组合。本领域技术人员应当理解,下述的各种实施方式只用于举例说明,而非用于限制本发明的保护范围。还可以容易理解,本文所述和附图所示的各实施方式中的模块或单元或处理方式可以按各种不同配置进行组合和设计。
参见图1,图1示出了根据本发明一些实施方式的中文电子病历数据的临床表现信息抽取方法的流程示意图。该方法可包括:步骤S101、步骤S102和步骤S103。下面结合具体的实施例讨论上述的步骤。
S101,确定医学术语描述规范集合,所述术语描述规范集合包括下述类别的术语:症状、疾病、体征、检查、检验、药物和手术,每个类别的医学术语包括一种或多种属性描述。
在一些实施方式中,可以将各种类别的医学术语按照预定的数据格式表示。本申请实施方式的术语描述规范可包括下述类别的术语:症状、疾病、体征、检查、检验、人群、药物和手术,这些术语是规范的医学术语。每个类别的术语可包括一种或多种属性描述。例如,术语的属性可包括:加重因素、减轻因素、部位、时间、规律、性状、性质、程度、颜色、气味、诱因、别名等。对于一些症状术语,其属性值可以是空。对于一些症状术语,其一个属性可以具有多个属性值。
对于一个类别的医学术语,其对应的临床表现实体可包括该医学术语以及对应的属性,其中,属性可包括:该医学术语的临床表现的中心词和一个或多个针对所述中心词的约束词,所述约束词为短语实体的约束属性,所述约束属性包括:加重因素、减轻因素、部位、时间、规律、性状、性质、程度、颜色、气味、诱因和别名中的一种或多种。
下面的表1示出了一些症状描述规范。
表1.症状描述规范
表1以症状规范为例,每一条症状规范记录中的第一列都有一个标准的症状术语词,它会有一系列的属性,而每一个属性中都列举出了针对该症状进行描述约束的属性值。从上表1中症状描述规范样例可以看出,每一个症状都有相应的属性以及属性下可能的值,属性值是可以为空的,例如症状“发热”是不会有颜色这个属性的,所以其对应的颜色属性值内容为空。在表1中所有的词汇都是标准的临床表现描述术语,其中第一列是临床表现中心词,其他列则为针对该中心词的约束词列表。体征规范的描述格式也与症状类似。
需要说明的是,表1列出的属性仅是用于举例,本领域技术人员根据需要还可以增加其他属性。在一些具体实施例中,至少可以包括下述属性:加重因素、减轻因素、部位、时间、规律、性状、性质、程度、颜色、气味、诱因、别名。对于一些症状,一些属性的值可以为空。
S102,根据所述医学术语描述规范集合在临床电子病历的文本数据中标注临床表现实体,所述临床表现实体为包括中心词和约束属性的短语实体。
在一些实施方式中,根据所述医学术语描述规范集合在临床电子病历文本数据中标注临床表现实体包括:对临床电子病历文本数据采用BIEO方式进行序列标记,其中,B-i表示实体序列的开头,I-i表示实体序列的中间部分,E-i表示实体序列的结尾,O表示非实体序列部分,i表示的标注实体的类别,采用数字的方式进行类别区分,第一数值表示症状有,第二数值表示症状无,第三数值表示体征有,第四数值表示体征无等,例如,0表示症状有,1表示症状无,2表示体征有,3表示体征无。
本申请实施方式所描述的临床表现实体是短语实体的形式,其包括标准临床表现术语,还包括一些描述相对复杂、口语化、非规范化、字符长度相对较长的信息实体。
在一些实施方式中,从电子病历的文本数据中标注出的语料样例如表2所示。表2中第一列序号表示的是展示样例的数量和顺序;第二列数据集描述的是语料来源的病历文本,每个病历文本具有唯一的编号;第三列临床表现实体是从电子病历中标注出的信息实体内容;第四列实体类型则标记了该临床表现实体的类型,其中,PSYM代表“症状有”,NSYM代表“症状无”,PSIG代表“体征有”,NSIG代表“体征无”;第五、六列则是分别描述了该临床表现实体在病历文本中的开始与结束位置;第7列是对临床表现实体采用上述临床表现实体的规范数据格式(例如,症状以及该症状的约束属性)转换后的规范医学术语。
表2
在一些实施方式中,根据所述医学术语描述规范集合从在临床电子病历的文本数据中标注临床表现实体包括:采用基于BiLSTM-CRF深度学习网络的临床表现实体提取模型标注临床表现实体,其中,所述临床表现实体提取模型包括输入和三个处理层,所述输入为临床电子病历文本数据中的句子,该句子的序列表示为公式1:
x=(x1,x2,x3......xn) 公式1
其中xi表示句子中第i个字在全局字典中的位置索引,所述全局字典是训练集中所有的字去重后所形成的有序列表。
基于BiLSTM-CRF的临床表现实体的三个处理层包括第一嵌入层、BiLSTM层和CRF层,其中,
第一嵌入层是对电子病历的文本中句子中每一个输入的字生成随机字向量Xi,向量维度为d,d是向量的维度,可以根据试验取得,维度越大,其所能表达的特征信息越复杂,计算量越大,对语料需求也越大。在一种具体的实施例中,d可以取300。在其他实施例中,可以取其他的数值。
BiLSTM层,将句子中的各个自向量作为双向LSTM各个时间步的输入,再将正向LSTM输出的隐状态序列(HL1,HL2,HL3,...,HLn)与反向LSTM输出的进行按位拼接:
Hi=[HLi|HRi] 公式2
其中i表示序列中的第i个时间步,拼接后的向量维度为m,其中m=2*d,拼接后得到了完整的隐状态序列为:
H=(H1,H2,H3,...,Hn)n×m 公式3
矩阵H为n行m列的矩阵。在获得隐状态矩阵之后,接入一个线性层将n行的隐状态向量从m映射到k维,其中k维是标注的输入句子的标签数,n为输入句子中字的个数,也可以称为输入句子的长度,从而得到得分矩阵P:
P=(P1,P2,P3......Pn) 公式4
其中,Pi表示输入句子的第i个字对于所有标签的一个k维向量;
CRF层,CRF层从训练的数据中学习标签序列之间的限制关系。CRF层的参数是一个(k+2)×(k+2)的矩阵T,维度k加2是因为转移矩阵中要加入起始和终止两个状态,Tij表示的是从第i个标签到第j个标签的转移得分,因此在为输入句子一个位置(例如,字)进行标注的时候可以利用之前标注过的标签。如果一个句子的标签序列为y=(y1,y2,...,yn),那么对于句子x的标签为y的打分为值为:
进一步的,对于一个给定的句子,其可能的标签序列集合Y(y只是Y中的一个序列),集合的大小为N,基于此可以给出模型的损失函数。
其中YRealPath表示对于句子x正确的标签序列。基于损失函数的构建与模型训练最终可以得到CRF层的转移矩阵T,从而结合BiLSTM层的得分矩阵P,针对输入的句子x计算出所有标签序列中得分最大的标签序列作为CRF层的输出。
在一些具体的实施例中,临床表现实体提取模型是以电子病历的文本作为一个序列进行训练,为了增加训练语料的数量,同时也为了提升模型在不同句子中提取实体的泛化能力,对每一个电子病历标注序列进行了拆分,拆分方式为阶梯式拆分法:即将第一句作为一个序列样本;前两句作为一个序列样本;前三句作为一个序列样本等等以此类推,直到将整篇病历作为一个序列样本为止。在语料数量有限的情况下,能够提高实体提取模型的泛化能力,提高临床表现实体标注的准确度。
下面以一个具体的例子对上述的临床表现实体提取模型进行说明。
模型1:实体识别模型
临床表现实体识别采用的是BiLSTM-CRF网络模型,其中双向长短记忆网络可以有效的学习短语序列在上下文中的特征信息,而CRF层可以通过条件概率提升识别实体序列的有效组合。病历文本数据中的短语序列的标注采用了BIEO的标注集方式,其中B代表实体的首字,I代表实体的中间字、E代表实体的结束字、而O则代表实体以外的字。以“症状有”实体类型举例,如图2所示。如图2所示,B-PSYM代表“症状有”实体的首字,I-PSYM代表“症状有”实体的中间字,E-PSYM代表“症状有”实体的尾字,而O则代表实体以外的字。序列标签数量总共为3*4+1=13种,其中4是实体类别数,3是每个实体类别的标签数(BIE),1表示的是O。通过以上序列标注的方式并结合步骤S101中确定的规范的临床表现实体语料,采用BiLSTM-CRF深度学习网络进行模型训练。
如图3所示,临床表现实体识别模型的构建主要分为输入以及网络的三个处理层:模型构建的输入是以句子为单位,一个句子含有n个字,那么该句子的序列则表示为:
x=(x1,x2,x3......xn) 公式1
其中xi表示句子中第i个字在全局字典中的位置索引,全局字典是训练集中所有的字去重后所形成的有序列表。训练集为全部病历文本数据组成。嵌入层是对每一个输入的字生成随机字向量Xi,向量维度为d。
BiLSTM层主要是用于提取句子特征,将句子中的各个自向量作为双向LSTM各个时间步的输入,再将正向LSTM输出的隐状态序列(HL1,HL2,HL3,…,HLn)与反向LSTM输出的进行按位拼接:
Hi=[HLiHRi] 公式2
其中i表示序列中的第i个时间步,拼接后的向量维度为m(m=2*d),拼接后得到了完整的隐状态序列为:
H=(H1,H2,H3,......Hn) 公式3
在获得隐状态矩阵之后,接入一个线性层将n行的隐状态向量从m映射到k维,其中k维是标注的标签数(上例中标注的标签数为13),从而得到得分矩阵P:
P=(P1,P2,P3......Pn) 公式4
其中Pi表示输入的第i个字对于所有标签的一个k维向量,在本例中,k的数量为13,因为有4种实体类型,每种3个标签,加上一个O标签,全部列举出来即是:B-PSYM,I-PSYM,E-PSYM,B-NSYM,I-NSYM,E-NSYM,B-PSIG,I-PSIG,E-PSIG,B-NSIG,I-NSIG,E-NSIG,O。如果将各个维度下的值作为相应标签的得分,那么此时根据最高得分就可以用于预测各个字的标签类型,从而生成标注结果。但是此时的标注结果并没有很好的利用已经标注过的信息,其生成的标注序列可能是不合理的。例如,标注的实体以I开头,或者标注的实体中有两个连续的B等等。
模型的最后一层是CRF层,CRF层可以从训练的数据中学习到标签序列之间的限制关系,从而来确保预测出的标签序列是有效的。从训练的数据中CRF层可以学习到的序列限制举例如下:
(1)每一个句子中第一个字的标签一定是B或者O开头,而不是I或者E
(2)如果标注的序列是B-L1,I-L2,I-L3,E-L4。那么L1,L2,L3,L4一定是同一种实体类型。例如B-PSYM I-PSYM E-PSYM是有效的而B-PSYM I-PSIG E-PSYM则是无效的
(3)O E或者O I序列都是无效的,每个实体序列一定是以B开头。
例如,电子病历中输入的一个句子为“我喉咙痛”,如果不用CRF层的BiLSTM模型可能会将该句子标注为(根据得分矩阵P):O B-PSYM I-PSIG E-PSYM。如果这样标注,不是正确的,因为给定的所有语料中B-type,I-type,E-type在一起的时候,type一定是一致的,而BiLSTM层标注的结果type却是不一样的,因为该层只考虑了概率得分,而没考虑序列路径约束,那么这个情况就需要通过CRF层来发挥作用,来通过大量语料学习正确的序列路径。加入CRF层后,模型的输出就不会出现上述情况,而会预测出正确序列:O B-PSYM I-PSYME-PSYM。
本发明申请实施方式通过将临床表现的医学术语按照中心词和约束属性的临床表现实体的结构对病历文本数据进行描述,并且通过基于BiLSTM-CRF网络模型对病历文本中口语化、非规范化的等非结构化的短语实体进行学习,标注为临床表现实体的结构,为后续的术语翻译提供了良好的结构数据;通过BiLSTM-CRF网络模型学习文本数据的标签序列之间的限定关系,提高临床表现实体标注的准确度。
模型2:翻译对齐模型
S103,将所标注出的临床表现实体转换为JSON格式表示的规范医学术语。
在一些实施方式中,将所标注出的临床表现实体转换为JSON格式表示的规范医学术语可包括:将通过步骤S102中所述的临床表现实体提取模型标注出的临床表现实体作为输入,采用临床表现实体翻译模型将标注的临床表现实体翻译为JSON格式的医学术语,例如,基于注意力机制的transformer模型,确定JSON格式表示的规范医学术语,所述transformer模型包括输入、第二嵌入层、编码层和解码层。
第二嵌入层的输入向量为上述标注出的临床表现实体中每个字的向量和位置向量相加,
X=(X1+T1,X2+T2,X3+T3,......Xn+Tn) 公式7
其中,X1表示临床表现实体中第一个字的向量,维度设为d,与临床表现实体的维度相同,T1为第一个字的位置向量,向量的维度也是d,位置向量的计算方式如下:
其中,pos表示的是当前字在临床表现实体中的位置,i表示向量的索引位置,d为向量维度,i的取值是从0开始。
所述编码层的输入为嵌入层输出的n行d列的矩阵,由预定个数的相同的编码单元串联形成,各个编码单元相对独立但不共享权值,每个编码单元由self-attention(Multi-Head)层以及前馈(Feed Forward)层(例如,全连接的前馈层)组成,每一层都会采用残差连接将该层的输入与输出进行连接并采用分层归一化(Layer Normalization)进行标准化。
所述解码层由所述预定个数的解码单元构成,所述解码单元相对独立但不共享权值,每个解码单元相对于编码单元多了用于计算编码层输出的中间层Self-Attention(Masked Multi-Head),并且采用Layer Normalization对该层输出进行标准化,所述中间层的输入来自于已经预测出字符序列所形成嵌入向量。
在一些实施方式中,模型的输出在解码层后经过liner层以及softmax层对目标字典中所有的字空间进行映射,计算得出当前位置目标字典中所有字的概率,而模型会选择概率最大的作为当前位置的预测结果。
在一种具体的实施例中,可以采用如图4所示的模型。图4示出了基于transformer的模型结构,称为模型2,整体结构主要分为输入、输出以及三个网络层,其中输入是由模型1识别出的临床表现实体,一般为一个短语或句子,句子长度为n。嵌入层的输入向量是将句子中每个字的向量与位置向量进行相加,以综合考虑各个字本身的特征信息以及上下文之间的特征信息获取:
X=(X1+T1,X2+T2,X3+T3,...,Xn+Tn) 公式7
其中X1表示第一个字的向量,维度设为d(d=512),T1则表示第一个字的位置向量,向量的维度也是d,位置向量的计算方式如下:
其中,pos表示的是当前字在句子中的位置,i表示向量的索引位置,d为向量维度。通过嵌入层,将输入的句子转换为了n行d列的矩阵,并且作为编码层的输入。编码层是由N(N=6)个相同的编码单元串联形成,但是各个单元相对独立并不会共享权值。每个编码单元由两个子层组成,分别是self-attention(Multi-Head)层以及全连接的前馈层,每一层都会采用残差连接将该层的输入与输出进行连接并采用Layer Normalization进行标准化。编码层的输出K和V的值在self-attention(multi-head)层嵌入。
模型2的解码层同样是由N(N=6)个相同并且相对独立不共享权值的解码单元组成,其中每个解码单元相对于编码单元多了一个中间层Self-Attention(Masked Multi-Head),用于计算编码层的输出,并且同样采用Layer Normalization对该层输出进行标准化。同时在Self-Attention(Masked Multi-Head)层的输入来自于已经预测出字符序列所形成嵌入向量,这种遮掩以及输出向量的位置偏移,确保了对于第i个位置的预测依赖于已知的序列输出。在一种具体的实施例中,嵌入向量是一个多维的向量值,例如,对于一个字”你”,一个对应的300维度的向量[1,0,1,0…..1],这个向量就表示了这个字。这种向量称为嵌入向量。
模型的输出在解码层后经过liner层以及softmax层对目标字典中所有的字空间进行映射,计算得出当前位置目标字典中所有字的概率,而模型会选择概率最大的作为当前位置的预测结果。
Liner层是将当前Decoder层输出向量的维度线性映射到目标字典维度(即进行维度转换);Softmax层,对映射后的向量计算每一维对应的概率值,概率值之和为1,那么句子中每个位置的概率值即代表了翻译为目标字典中各个值的概率,概率最大的值即为需要输出的结果。其中,目标字典,是指模型的训练集(包含输入、输出),所有输出的字的集合,因为这些输出的字都是待翻译的目标。
在本发明申请的一些实施方式中,如图5所示,可以将临床表现实体提取模型(例如,模型1:实体识别模型)的输出,作为翻译模型(例如,模型2翻译对齐模型)的输入,从而形成完整的中文电子病历的临床表现信息的抽取模型。完整模型的输入是中文电子病历,而输出则是一系列标准、精确、结构化的临床表现信息。
本发明申请的实施方式还提供了一种计算机设备,如图6所示,计算机设备600包括存储器601和处理器602,其中,存储器,存储有计算机代码;处理器,配置为执行所述计算机代码以使所述计算机设备执行上面所述的方法。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到本发明可借助软件结合硬件平台的方式来实现。基于这样的理解,本发明的技术方案对背景技术做出贡献的全部或者部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,智能手机或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。
本发明说明书中使用的术语和措辞仅仅为了举例说明,并不意味构成限定。本领域技术人员应当理解,在不脱离所公开的实施方式的基本原理的前提下,对上述实施方式中的各细节可进行各种变化。因此,本发明的范围只由权利要求确定,在权利要求中,除非另有说明,所有的术语应按最宽泛合理的意思进行理解。

Claims (9)

1.一种中文电子病历数据的临床表现信息抽取方法,其特征在于,所述方法包括:
确定医学术语描述规范集合,所述术语描述规范集合包括下述类别的术语:症状、疾病、体征、检查、检验、人群、药物和手术中的一者或多者,每个类别的医学术语包括一种或多种属性描述;
根据所述医学术语描述规范集合在临床电子病历的文本数据中标注临床表现实体,所述临床表现实体为包括中心词和约束属性的短语实体;
将所标注出的临床表现实体转换为JSON格式表示的规范医学术语。
2.根据权利要求1所述的方法,其特征在于,每个类别的医学术语的描述规范包括:中心词和一个或多个针对所述中心词的约束词,所述约束词为所述临床表现实体的约束属性,所述约束属性包括:加重因素、减轻因素、部位、时间、规律、性状、性质、程度、颜色、气味、诱因和别名。
3.根据权利要求1所述的方法,其特征在于,所述根据所述医学术语描述规范集合在临床电子病历文本数据中标注临床表现实体包括:
对临床电子病历文本数据采用BIEO方式进行序列标记,其中,B-i表示实体序列的开头,I-i表示实体序列的中间部分,E-i表示实体序列的结尾,O表示非实体序列部分,i表示的标注实体的类别,采用数值的方式进行类别区分,第一数值表示症状有,第二数值表示症状无,第三数值表示体征有,第四数值表示体征无。
4.根据权利要求3所述的方法,其特征在于,所述根据所述医学术语描述规范集合从在临床电子病历的文本数据中标注临床表现实体包括:
采用基于BiLSTM-CRF深度学习网络的临床表现实体提取模型标注临床表现实体,其中,所述临床表现实体提取模型包括输入和三个处理层,所述输入为临床电子病历文本数据中的句子,该句子的序列表示为:
x=(x1,x2,x3,...,xn)
其中xi表示句子中第i个字在全局字典中的位置索引,所述全局字典是训练集中所有的字去重后所形成的有序列表。
5.根据权利要求4所述的方法,其特征在于,所述三个处理层包括第一嵌入层、BiLSTM层和CRF层,其中,
嵌入层是对句子中每一个输入的字生成随机字向量Xi,向量维度为d,
BiLSTM层,将句子中的各个自向量作为双向LSTM各个时间步的输入,再将正向LSTM输出的隐状态序列(HL1,HL2,HL3,…,HLn)与反向LSTM输出的进行按位拼接:
Hi=[HLi|HRi]
其中i表示序列中的第i个时间步,拼接后的向量维度为m,其中m=2*d,拼接后得到了完整的隐状态序列为:
H=(H1,H2,H3,...,Hn)n×m
在获得隐状态矩阵之后,接入一个线性层将n行的隐状态向量从m映射到k维,其中k维是标注的输入句子的标签数,从而得到得分矩阵P:
P=(P1,P2,P3,...,Pn)n×k
其中,Pi表示输入句子的第i个字对于所有标签的一个k维向量,而向量中的每个值Pij表示第i个字分类到第j个标签的得分值。但是这样的得分预测结果没有很好的利用已经标注过的信息(标注序列的路径约束),所以进一步引入CRF层来进行标注。
CRF层,CRF层从训练的数据中学习标签序列之间的限制关系。
6.根据权利要求5所述的方法,其特征在于,所述将所标注出的临床表现实体转换为JSON格式表示的规范医学术语包括:
将所述临床表现实体提取模型标注出的临床表现实体作为输入,采用基于注意力机制的transformer模型,确定JSON格式表示的规范医学术语,所述transformer模型包括输入、第二嵌入层、编码层和解码层。
7.根据权利要求6所述的方法,其特征在于,所述第二嵌入层的输入向量为所述临床表现实体中每个字的向量和位置向量相加,
X=(X1+T1,X2+T2,X3+T3,...,Xn+Tn)
其中,X1表示临床表现实体中第一个字的向量,维度设为d,T1为第一个字的位置向量,向量的维度也是d,位置向量的计算方式如下:
其中,pos表示的是当前字在临床表现实体中的位置,i表示向量的索引位置,d为向量维度;
所述编码层的输入为嵌入层输出的n行d列的矩阵,由预定个数的相同的编码单元串联形成,各个编码单元相对独立但不共享权值,每个编码单元由self-attention层以及全连接层组成,每一层都会采用残差连接将该层的输入与输出进行连接并采用LayerNormalization进行标准化;
所述解码层由所述预定个数的解码单元构成,所述解码单元相对独立但不共享权值,每个解码单元相对于编码单元多了用于计算编码层输出的中间层Self-Attention(MaskedMulti-Head),并且采用Layer Normalization对该层输出进行标准化,所述中间层的输入来自于已经预测出字符序列所形成嵌入向量。
8.根据权利要求7所述的方法,其特征在于,所述transformer模型的输出在所述解码层后经过liner层以及softmax层对目标字典中所有的字空间进行映射,计算得出当前位置在目标字典中所有字的概率,而选择概率最大的作为当前位置的预测结果。
9.一种计算机设备,包括存储器和处理器,其中
存储器,存储有计算机代码;
处理器,配置为执行所述计算机代码以使所述计算机设备执行权利要求1到8所述的方法。
CN201910513765.8A 2019-06-14 2019-06-14 中文电子病历数据的临床表现信息抽取方法和设备 Pending CN110223742A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910513765.8A CN110223742A (zh) 2019-06-14 2019-06-14 中文电子病历数据的临床表现信息抽取方法和设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910513765.8A CN110223742A (zh) 2019-06-14 2019-06-14 中文电子病历数据的临床表现信息抽取方法和设备

Publications (1)

Publication Number Publication Date
CN110223742A true CN110223742A (zh) 2019-09-10

Family

ID=67817024

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910513765.8A Pending CN110223742A (zh) 2019-06-14 2019-06-14 中文电子病历数据的临床表现信息抽取方法和设备

Country Status (1)

Country Link
CN (1) CN110223742A (zh)

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111062217A (zh) * 2019-12-19 2020-04-24 江苏满运软件科技有限公司 语言信息的处理方法、装置、存储介质及电子设备
CN111222317A (zh) * 2019-10-16 2020-06-02 平安科技(深圳)有限公司 序列标注方法、***和计算机设备
CN111339076A (zh) * 2020-03-16 2020-06-26 北京大学深圳医院 肾脏病理报告镜检数据处理方法、装置及相关设备
CN111460807A (zh) * 2020-03-13 2020-07-28 平安科技(深圳)有限公司 序列标注方法、装置、计算机设备和存储介质
CN111584021A (zh) * 2020-05-08 2020-08-25 青岛国新健康产业科技有限公司 病案信息校验方法、装置、电子设备及存储介质
CN111611398A (zh) * 2020-04-02 2020-09-01 中南大学 一种基于知识图谱的临床表现联想方法、装置、设备及介质
CN111611780A (zh) * 2020-05-15 2020-09-01 山东大学 基于深度学习的消化内镜报告结构化方法与***
CN111710383A (zh) * 2020-06-16 2020-09-25 平安科技(深圳)有限公司 病历质控方法、装置、计算机设备和存储介质
CN111949792A (zh) * 2020-08-13 2020-11-17 电子科技大学 一种基于深度学习的药物关系抽取方法
CN112101034A (zh) * 2020-09-09 2020-12-18 沈阳东软智能医疗科技研究院有限公司 一种判别医学实体的属性的方法、装置及相关产品
CN112732944A (zh) * 2021-01-30 2021-04-30 吉林大学 一种文本检索的新方法
CN112860842A (zh) * 2021-03-05 2021-05-28 联仁健康医疗大数据科技股份有限公司 病历标注方法、装置及存储介质
CN112948471A (zh) * 2019-11-26 2021-06-11 广州知汇云科技有限公司 一种临床医疗文本后结构化处理平台和方法
CN113010685A (zh) * 2021-02-23 2021-06-22 安徽科大讯飞医疗信息技术有限公司 医学术语标准化方法、电子设备和存储介质
CN113257371A (zh) * 2021-06-03 2021-08-13 中南大学 基于医学知识图谱的临床检验结果分析方法及***
WO2021218028A1 (zh) * 2020-04-29 2021-11-04 平安科技(深圳)有限公司 基于人工智能的面试内容精炼方法、装置、设备及介质
CN114564959A (zh) * 2022-01-14 2022-05-31 北京交通大学 中文临床表型细粒度命名实体识别方法及***
CN116344070A (zh) * 2023-03-16 2023-06-27 北京透彻未来科技有限公司 一种病理特征与临床信息融合方法及***
CN118153537A (zh) * 2024-05-10 2024-06-07 中国中医科学院中医临床基础医学研究所 基于文献pdf表格的临床症状和实验室指标的抽取方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107526798A (zh) * 2017-08-18 2017-12-29 武汉红茶数据技术有限公司 一种基于神经网络的实体识别和规范化联合方法及模型
CN108154198A (zh) * 2018-01-25 2018-06-12 北京百度网讯科技有限公司 知识库实体归一方法、***、终端和计算机可读存储介质
CN109471895A (zh) * 2018-10-29 2019-03-15 清华大学 电子病历表型抽取、表型名称规范化方法及***
CN109543824A (zh) * 2018-11-30 2019-03-29 腾讯科技(深圳)有限公司 一种序列模型的处理方法和装置
CN109871538A (zh) * 2019-02-18 2019-06-11 华南理工大学 一种中文电子病历命名实体识别方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107526798A (zh) * 2017-08-18 2017-12-29 武汉红茶数据技术有限公司 一种基于神经网络的实体识别和规范化联合方法及模型
CN108154198A (zh) * 2018-01-25 2018-06-12 北京百度网讯科技有限公司 知识库实体归一方法、***、终端和计算机可读存储介质
CN109471895A (zh) * 2018-10-29 2019-03-15 清华大学 电子病历表型抽取、表型名称规范化方法及***
CN109543824A (zh) * 2018-11-30 2019-03-29 腾讯科技(深圳)有限公司 一种序列模型的处理方法和装置
CN109871538A (zh) * 2019-02-18 2019-06-11 华南理工大学 一种中文电子病历命名实体识别方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
ASHISH VASWANI 等: "Attention Is All You Need", 《NIPS 2017》 *
曲春燕 等: "中文电子病历命名实体标注语料库构建", 《高技术通信》 *
王明申 等: "一种基于词级权重的 Transformer模型改进方法", 《小型微型计算机***》 *

Cited By (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111222317A (zh) * 2019-10-16 2020-06-02 平安科技(深圳)有限公司 序列标注方法、***和计算机设备
CN111222317B (zh) * 2019-10-16 2022-04-29 平安科技(深圳)有限公司 序列标注方法、***和计算机设备
CN112948471A (zh) * 2019-11-26 2021-06-11 广州知汇云科技有限公司 一种临床医疗文本后结构化处理平台和方法
CN111062217A (zh) * 2019-12-19 2020-04-24 江苏满运软件科技有限公司 语言信息的处理方法、装置、存储介质及电子设备
CN111062217B (zh) * 2019-12-19 2024-02-06 江苏满运软件科技有限公司 语言信息的处理方法、装置、存储介质及电子设备
CN111460807B (zh) * 2020-03-13 2024-03-12 平安科技(深圳)有限公司 序列标注方法、装置、计算机设备和存储介质
CN111460807A (zh) * 2020-03-13 2020-07-28 平安科技(深圳)有限公司 序列标注方法、装置、计算机设备和存储介质
WO2021179570A1 (zh) * 2020-03-13 2021-09-16 平安科技(深圳)有限公司 序列标注方法、装置、计算机设备和存储介质
CN111339076A (zh) * 2020-03-16 2020-06-26 北京大学深圳医院 肾脏病理报告镜检数据处理方法、装置及相关设备
CN111611398A (zh) * 2020-04-02 2020-09-01 中南大学 一种基于知识图谱的临床表现联想方法、装置、设备及介质
CN111611398B (zh) * 2020-04-02 2023-04-07 中南大学 一种基于知识图谱的临床表现联想方法、装置、设备及介质
WO2021218028A1 (zh) * 2020-04-29 2021-11-04 平安科技(深圳)有限公司 基于人工智能的面试内容精炼方法、装置、设备及介质
CN111584021B (zh) * 2020-05-08 2023-08-18 青岛国新健康产业科技有限公司 病案信息校验方法、装置、电子设备及存储介质
CN111584021A (zh) * 2020-05-08 2020-08-25 青岛国新健康产业科技有限公司 病案信息校验方法、装置、电子设备及存储介质
CN111611780A (zh) * 2020-05-15 2020-09-01 山东大学 基于深度学习的消化内镜报告结构化方法与***
CN111710383A (zh) * 2020-06-16 2020-09-25 平安科技(深圳)有限公司 病历质控方法、装置、计算机设备和存储介质
CN111949792A (zh) * 2020-08-13 2020-11-17 电子科技大学 一种基于深度学习的药物关系抽取方法
CN111949792B (zh) * 2020-08-13 2022-05-31 电子科技大学 一种基于深度学习的药物关系抽取方法
CN112101034A (zh) * 2020-09-09 2020-12-18 沈阳东软智能医疗科技研究院有限公司 一种判别医学实体的属性的方法、装置及相关产品
CN112101034B (zh) * 2020-09-09 2024-02-27 沈阳东软智能医疗科技研究院有限公司 一种判别医学实体的属性的方法、装置及相关产品
CN112732944A (zh) * 2021-01-30 2021-04-30 吉林大学 一种文本检索的新方法
CN113010685B (zh) * 2021-02-23 2022-12-06 安徽讯飞医疗股份有限公司 医学术语标准化方法、电子设备和存储介质
CN113010685A (zh) * 2021-02-23 2021-06-22 安徽科大讯飞医疗信息技术有限公司 医学术语标准化方法、电子设备和存储介质
CN112860842A (zh) * 2021-03-05 2021-05-28 联仁健康医疗大数据科技股份有限公司 病历标注方法、装置及存储介质
CN113257371B (zh) * 2021-06-03 2022-02-15 中南大学 基于医学知识图谱的临床检验结果分析方法及***
CN113257371A (zh) * 2021-06-03 2021-08-13 中南大学 基于医学知识图谱的临床检验结果分析方法及***
CN114564959A (zh) * 2022-01-14 2022-05-31 北京交通大学 中文临床表型细粒度命名实体识别方法及***
CN116344070A (zh) * 2023-03-16 2023-06-27 北京透彻未来科技有限公司 一种病理特征与临床信息融合方法及***
CN116344070B (zh) * 2023-03-16 2024-02-13 北京透彻未来科技有限公司 一种病理特征与临床信息融合方法及***
CN118153537A (zh) * 2024-05-10 2024-06-07 中国中医科学院中医临床基础医学研究所 基于文献pdf表格的临床症状和实验室指标的抽取方法

Similar Documents

Publication Publication Date Title
CN110223742A (zh) 中文电子病历数据的临床表现信息抽取方法和设备
CN110032648B (zh) 一种基于医学领域实体的病历结构化解析方法
CN112214995B (zh) 用于同义词预测的分层多任务术语嵌入学习
Kormilitzin et al. Med7: A transferable clinical natural language processing model for electronic health records
Li et al. Neural natural language processing for unstructured data in electronic health records: a review
US10380259B2 (en) Deep embedding for natural language content based on semantic dependencies
US8874432B2 (en) Systems and methods for semi-supervised relationship extraction
CN109002436A (zh) 基于长短期记忆网络的医疗文本术语自动识别方法及***
Liu et al. BB-KBQA: BERT-based knowledge base question answering
Zhang et al. Aspect-based sentiment analysis for user reviews
CN112818676A (zh) 一种医学实体关系联合抽取方法
CN112395876B (zh) 基于知识蒸馏和多任务学习的篇章关系识别方法与装置
Jin et al. Advancing PICO element detection in biomedical text via deep neural networks
CN114077673A (zh) 一种基于btbc模型的知识图谱构建方法
CN113158676A (zh) 专业实体与关系联合抽取方法、***及电子设备
CN115238026A (zh) 一种基于深度学习的医疗文本主题分割方法和装置
CN113963748B (zh) 一种蛋白质知识图谱向量化方法
CN116384371A (zh) 一种基于bert和依存句法联合实体及关系抽取方法
Ispirova et al. Mapping Food Composition Data from Various Data Sources to a Domain-Specific Ontology.
Zhou et al. Dut-nlp at mediqa 2019: an adversarial multi-task network to jointly model recognizing question entailment and question answering
Tao et al. Automated confirmation of protein annotation using NLP and the UniProtKB database
Yan et al. Grape diseases and pests named entity recognition based on BiLSTM-CRF
El-allaly et al. Adverse drug reaction mentions extraction from drug labels: an experimental study
Lanchantin et al. Transfer learning with motiftrans-formers for predicting protein-protein interactions between a novel virus and humans
CN116562305B (zh) 方面情感四元组预测方法与***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20190910