CN113010685A - 医学术语标准化方法、电子设备和存储介质 - Google Patents

医学术语标准化方法、电子设备和存储介质 Download PDF

Info

Publication number
CN113010685A
CN113010685A CN202110204614.1A CN202110204614A CN113010685A CN 113010685 A CN113010685 A CN 113010685A CN 202110204614 A CN202110204614 A CN 202110204614A CN 113010685 A CN113010685 A CN 113010685A
Authority
CN
China
Prior art keywords
symptom
standard
sequence
medical record
electronic medical
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110204614.1A
Other languages
English (en)
Other versions
CN113010685B (zh
Inventor
许平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Iflytek Medical Technology Co ltd
Original Assignee
Anhui Iflytek Medical Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Anhui Iflytek Medical Information Technology Co ltd filed Critical Anhui Iflytek Medical Information Technology Co ltd
Priority to CN202110204614.1A priority Critical patent/CN113010685B/zh
Publication of CN113010685A publication Critical patent/CN113010685A/zh
Application granted granted Critical
Publication of CN113010685B publication Critical patent/CN113010685B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/60ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Health & Medical Sciences (AREA)
  • Epidemiology (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Primary Health Care (AREA)
  • Public Health (AREA)
  • Medical Treatment And Welfare Office Work (AREA)
  • Measuring And Recording Apparatus For Diagnosis (AREA)

Abstract

本申请公开了一种医学术语标准化方法、电子设备和存储介质,属于医疗信息技术领域。本申请公开的医学术语标准化方法首先获取电子病历中的标注症状表示和标准症状表示的集合,再基于注意力机制获取第一症状序列的第一初始集合,然后利用该第一初始集合和基于条件随机场获取的第二症状序列形成的第二集合获取最终症状序列集合。最终症状序列集合由与电子病历的关键信息对应的标准化医学术语表达的标准症状序列形成,而且,该最终症状序列是注意力机制和条件随机场相互补充的结果,能够更全面地提取电子病历中的关键信息,并尽可能将所有关键信息转化为标准医学术语,从而提高对电子病历中医疗数据的检索、分析和利用的效率。

Description

医学术语标准化方法、电子设备和存储介质
技术领域
本申请涉及医疗信息技术领域,特别是涉及一种医学术语标准化方法、电子设备和存储介质。
背景技术
随着医疗信息技术的快速发展,大量的电子病历数据被积累下来,而电子病历中同一医疗概念会有多种不同的表述形式,阻碍了医疗数据的检索、分析和利用。因此,需要开发一种医学术语标准化方法,把电子病历中关于同一医疗概念的多种不同表述形式映射为标准化的医学术语,提高对电子病历中医疗数据的检索、分析和利用的效率。
发明内容
本申请主要解决的技术问题是提供一种医学术语标准化方法、电子设备和存储介质,能够提高对电子病历中医疗数据的检索、分析和利用的效率。
为解决上述技术问题,本申请采用的一个技术方案是:
提供一种医学术语标准化方法,包括:
基于神经网络获取电子病历中的标注症状表示的集合;
基于注意力机制,利用所述标注症状表示的集合和标准症状表示的集合,获取所述电子病历中的第一症状序列的第一初始集合;
利用所述第一初始集合和第二集合获取最终症状序列集合;其中,所述第二集合是基于条件随机场获取的所述电子病历中第二症状序列形成的集合。
为解决上述技术问题,本申请采用的另一个技术方案是:
提供一种电子设备,包括相互耦接的存储器和处理器,所述存储器存储有程序指令,所述处理器能够执行所述程序指令以实现如上述技术方案所述的医学术语标准化方法。
为解决上述技术问题,本申请采用的另一个技术方案是:
提供一种计算机可读存储介质,所述存储介质上存储有程序指令,所述程序指令能够被处理器执行以实现如上述技术方案所述的医学术语标准化方法。
本申请的有益效果是:区别于现有技术的情况,本申请提供的医学术语标准化方法首先获取电子病历中的标注症状表示和标准症状表示的集合,再基于注意力机制获取第一症状序列的第一初始集合,然后利用该第一初始集合和基于条件随机场获取的第二症状序列形成的第二集合获取最终症状序列集合。最终症状序列集合由与电子病历的关键信息对应的标准化医学术语表达的标准症状序列形成,而且,该最终症状序列是注意力机制和条件随机场相互补充的结果,能够更全面地提取电子病历中的关键信息,并尽可能将所有关键信息转化为标准医学术语,从而提高对电子病历中医疗数据的检索、分析和利用的效率。
附图说明
为了更清楚地说明本申请实施方式中的技术方案,下面将对实施方式描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。其中:
图1为本申请医学术语标准化方法一实施方式的流程示意图;
图2为标注信息一实施方式的示例图;
图3为获取标准症状表示的集合一实施方式的流程示意图;
图4为图1中步骤S12一实施方式的流程示意图;
图5为图1中步骤S13之前的步骤一实施方式的流程示意图;
图6为图1中步骤S13一实施方式的流程示意图;
图7为本申请医学术语标准化方法另一实施方式的模型框架图;
图8为本申请电子设备一实施方式的结构示意图;
图9为本申请计算机可读存储介质一实施方式的结构示意图。
具体实施方式
下面将结合本申请实施方式中的附图,对本申请实施方式中的技术方案进行清楚、完整地描述,显然,所描述的实施方式仅仅是本申请一部分实施方式,而不是全部实施方式。基于本申请中的实施方式,本领域普通技术人员在没有做出创造性的劳动前提下所获得的所有其他实施方式,都属于本申请保护的范围。
电子病历一般为医务人员根据与患者的交流输入的与患者相关的病史、主诉等信息,不同医务人员及患者的差异导致电子病历中同一医疗概念会有多种不同的表述形式,为了有效利用电子病历中的医疗数据,需要将电子病历中的关键信息提取出来,并整合为标准化医学术语,基于此,本申请提出了如下解决方案。
请参阅图1,图1为本申请医学术语标准化方法一实施方式的流程示意图,该方法包括如下步骤。
步骤S11,基于神经网络获取电子病历中的标注症状表示的集合。
根据大量的电子病历数据,可以为电子病历中常用的字建立一个字库以及对应的映射表,从而可以将待处理电子病历中的每个字经映射后获取每个字对应的字向量,以作为预先训练好的神经网络的输入。将电子病历中的每个字对应的字向量输入神经网络之后,将电子病历中关于症状的关键信息整合为标注症状表示,从而得到电子病历中的标注症状表示的集合。
在此之前,需要利用带有标注信息的电子病历训练该神经网络,以使神经网络以电子病历中每个字对应的字向量作为输入,以标注信息作为输出。在一个具体应用场景中,请参阅图2,图2为标注信息一实施方式的示例图。首先采用人工标注的形式,根据电子病历的原始文本,提取关键信息,生成标注文本,生成一批标注文本,以此作为训练样本训练神经网络,以使神经网络能够以标注信息作为输出。另外,也可以采用机器预标注和人工检查的方式生成训练样本。所述神经网络包括但不限于:BERT(Bi-directional EncoderRepresentation From Transformers,基于transformer的双向编码器表示)网络。
例如,根据图2中的电子病历原始文本,将获得的标注症状表示为“右腰部红肿”和“右腰部疼痛”。
此外,标注信息的形成优选为方位、部位和关键症状组成的形式,与下文所述标准症状表示的形式对应。
本实施方式通过人工结合机器标注的方式形成训练样本,训练出的神经网络能够对电子病历进行准确标注,且以标注信息作为输出,能够提高电子病历中标注症状表示的集合的准确性。
步骤S12,基于注意力机制,利用标注症状表示的集合和标准症状表示的集合,获取电子病历中的第一症状序列的第一初始集合。
获取标注症状表示的集合之后,将上述标注症状表示的信息和预先基于标准知识图谱生成的标准症状表示输入基于注意力机制的模型,获取每个标准症状表示与标注症状表示之间的相关度,并根据相关度生成电子病历中的第一症状序列的第一初始集合。也就是说,第一初始集合中的第一症状序列均是来自于知识图谱的标准化医学术语,与电子病历中的关键症状信息对应,是从一个角度对电子病历中关键信息的提取及标准化。
请再次参阅图2,根据图2中的电子病历原始文件,获得的标注症状表示为“右腰部红肿”和“右腰部疼痛”,而根据标准知识图谱可以生成“右腰红”、“右腰肿”、“右腰痛”这些标准症状表示,基于注意力机制将得到“右腰红”、“右腰肿”、“右腰痛”这些标准症状表示关于“右腰部红肿”和“右腰部疼痛”这些标注症状表示的相关度很高,最终“右腰红”、“右腰肿”、“右腰痛”将作为第一症状序列输出。
现有的医疗数据中积累了大量的知识图谱,其中表达了某种诊断对应的症状、体征、诱因等信息,因此可以利用标准知识图谱获取其中每个症状对应的标准症状表示,以得到上述标准症状表示的集合。具体地,请参阅图3,图3为获取标准症状表示的集合一实施方式的流程示意图,可以通过如下步骤利用标准知识图谱获取标准症状表示的集合。
步骤S21,利用标准知识图谱获取所有诊断、类型、症状三元组,每个三元组中诊断和类型均与症状对应。
具体地,可以采用one-hot将诊断和类型进行向量化,并以诊断和类型作为两个区分类别的特征,通过w2v或者BERT将症状进行向量化,基于预先训练的模型,输出标准知识图谱中所有的诊断、类型、症状三元组,以向量(head,relation,tail),简称(h,r,t)进行表示。例如,对应同一症状t1的所有诊断对应的三元组包括(h1,r,t1),(h2,r,t1)...(hk-1,r,t1),(hk,r,t1),对应同一症状tm的所有诊断对应的三元组包括(h1,r,tm),(h2,r,tm)...(hk-1,r,tm),(hk,r,tm),所有这些向量堆叠在一起可得矩阵Uk*m。其中,采用的模型包括但不限于BiLSTM模型。
步骤S22,按照症状遍历所有三元组,获取包含当前症状的所有三元组的当前堆叠矩阵。
由于三元组是由标准知识图谱中的诊断、类型、症状形成,因此可以按照症状遍历所有三元组,即依次将上述症状t1至症状tm作为当前症状,并获取当前症状的所有三元组的当前堆叠矩阵。例如,症状t2为当前症状时,包含症状t2的所有三元组包括(h1,r,t2),(h2,r,t2)...(hk-1,r,t2),(hk,r,t2),将这些三元组堆叠,则得到当前堆叠矩阵Uk2
步骤S23,基于池化机制,利用当前堆叠矩阵,获取当前症状对应的标准症状表示。
获取到当前症状对应的当前堆叠矩阵之后,基于池化机制(例如MaxPooling)获取当前症状对应的标准症状表示,以向量V表示。例如,对症状t2对应的当前堆叠矩阵Uk2通过MaxPooling和全连接变化后得到该症状的向量表示v2。遍历完成后,可得到每个症状对应的标准症状表示v1,v2,...,vm,即为上述标准症状表示的集合。
本实施方式利用标准知识图谱提取对应于每个症状的标准症状表示,便于后续通过注意力机制获取相对于标注症状表示的相关度,并输出与标注症状表示对应的标准症状表示,从而将电子病历中的关键信息整合为标准医学术语。
步骤S13,利用第一初始集合和第二集合获取最终症状序列集合;其中,第二集合是基于条件随机场获取的电子病历中第二症状序列形成的集合。
获取到第一初始集合相当于从一个方向得到了电子病历中关键信息的标准化表达,但是可能由于模型的精确性不足导致电子病历中的关键信息提取不完整,因此本申请还基于条件随机场(Conditional Random Field,CRF)获取电子病历中第二症状序列形成的第二集合,也就是从另一个方向得到电子病历中关键信息的标准化表达,再根据第一初始集合和第二集合获取最终症状序列集合,例如将第一初始集合和第二集合的合集作为最终症状序列集合。
本实施方式将从不同方向得到的第一症状序列和第二症状序列形成的集合整合形成最终症状序列集合,使得按照不同模型得到的结果可以相互补充,从而更全面地更准确地将电子病历中的关键信息转化为标准化医学术语,以提高对电子病历中医疗数据的检索、分析和利用的效率。
在一些实施方式中,请参阅图4,图4为图1中步骤S12一实施方式的流程示意图,可以通过如下步骤获取电子病历中的第一症状序列的第一初始集合。
步骤S31,基于注意力机制,获取每个标准症状表示相对于标注症状表示的相关度。
将上述标注症状表示的集合和标准症状表示的集合输入基于注意力机制(Attention)的模型,获取到每个标准症状表示相对于标注症状表示的相关度,优选进一步对相关度进行归一化处理,例如sigmoid或者softmax。
步骤S32,输出相关度大于预设值的所有标准症状表示,以得到第一初始集合。
得到每个标准症状表示对应的相关度之后,可以按相关度的大小排序,并与预设值进行比较,输出相关度大于预设值的所有标准症状表示,以得到第一初始集合。
本实施方式基于注意力机制输出与病历中关键信息相关度高的标准症状表示,能够更准确地将电子病历中的关键信息转化为标准化医学术语。
由上述可知,上述步骤S13之前,还需要基于条件随机场CRF获取的电子病历中第二症状序列形成的第二集合,具体地,请参阅图5,图5为图1中步骤S13之前的步骤一实施方式的流程示意图,可以通过如下步骤获取电子病历中第二症状序列形成的第二集合。
步骤S41,基于条件随机场提取电子病历中关键信息的序列片段。
条件随机场CRF的输入也为上述电子病历中每个字对应的字向量,输入字向量之后,CRF根据上下文内容对文本中每个字进行分类,例如,将每个字标记为B、I、E、S类别,分别表示文本中症状开始、中间、结束和孤立字,使得CRF获取到症状位置信息编码,并输出电子病历中关键信息的序列片段。
步骤S42,基于预设的映射原则,获取每个序列片段对应的第二症状序列,以获取第二集合。
提取到电子病历中关键信息的序列片段之后,需要将其转化为标准化医学术语,具体可以基于标准词汇词典匹配和/或模糊匹配等映射原则,将序列片段映射为第二症状序列。例如病历中有文字段“患者高血压脑梗塞二十年”,CRF通过对每个字进行分类,可以将“高”和“脑”标记为B,将“血”和“塞”标记为E,将“压”、“梗”标记为I,则提取到“高血压”和“脑梗塞”的序列片段,再通过标准词汇词典和拼音模糊匹配或者错别字模糊匹配将“高血压”映射为“高血压”,将“脑梗塞”映射为“脑梗死”,进而输出标准词汇词典中的标准化医学术语,即第二症状序列的集合。
基于条件随机场获取电子病历中第二症状序列形成的第二集合,相当于从电子病历中筛选出与症状无关信息,使得对电子病历的提取聚焦于症状序列,降低了症状离谱率,提高了症状分类正确率。
在一些实施方式中,请参阅图6,图6为图1中步骤S13一实施方式的流程示意图,可以通过如下步骤利用第一初始集合和第二集合获取最终症状序列集合。
步骤S51,基于预设的校验原则从第一初始集合中过滤掉部分第一症状序列,以得到由其余部分第一症状序列形成的第一集合。
上述基于注意力机制获取的多个第一症状序列可能出现不够准确的情况,还可以基于预设的校验原则进一步筛选,具体地,可以通过下述各种校验原则中的一种或多种对第一初始集合中的第一症状序列进行筛选。
首先判断第一初始集合中是否包含存在子序列关系、或者上下位关系的多个第一症状序列,如果存在,则按照预设的筛选原则从多个第一症状序列中删除部分第一症状序列。
具体地,响应于第一初始集合中包含存在子序列关系的多个第一症状序列,保留多个第一症状序列中字数最多的第一症状序列,删除其余第一症状序列。
基于注意力机制获取的第一初始集合中可能包含存在子序列关系的多个第一症状序列,例如利用电子病历中的文字段落“右膝关节摔伤15天,疼痛”,基于注意力机制获得了两个第一症状序列,“右膝关节痛”和“膝痛”,这两个第一症状序列存在子序列关系,则将字数最多的第一症状序列“右膝关节痛”保留,而过滤掉其他的第一症状序列,即删除“膝痛”,使得形成的第一集合中不包含“膝痛”这个第一症状序列。
或者,响应于第一初始集合中包含存在上下位关系的多个第一症状序列,保留多个第一症状序列中最下位的第一症状序列,删除其余第一症状序列。
基于注意力机制获取的第一初始集合中可能包含存在上下位关系的多个第一症状序列,例如利用电子病历中的文字段落“右侧腰腿痛”,基于注意力机制获得了两个第一症状序列,“右腰痛”和“腰部痛”,这两个第一症状序列存在上下位关系,则将最下位的第一症状序列“右腰痛”保留,而过滤掉其他第一症状序列,即删除上位的第一症状序列“腰部痛”,使得形成的第一集合中不包含“腰部痛”这个第一症状序列。
另一方面,还可以判断第一初始集合中是否存在包含预设信息的第一症状序列,如果存在,则删除包含预设信息的第一症状序列。
具体地,遍历第一初始集合中的每个第一症状序列,判断当前第一症状序列中是否包含未出现在对应的标注症状序列中的特征元素;若是,则删除当前第一症状序列;其中,第一症状序列和标注症状序列均包含从电子病历中提取的方位、部位和关键症状中的至少两个特征元素。
由前述可知,第一症状序列是根据由注意力机制获取的标准症状序列相对标注症状序列的相关度获取的,也就是说,第一症状序列均存在与之对应的标注症状序列,对神经网络模型(例如BERT模型)进行训练之后,使其输出的标注症状序列包含从电子病历中提取的方位、部位和关键症状中的至少两个特征元素,例如方位、部位和关键症状,或者部分和关键症状,对应地,标准症状序列也包含同样的特征元素。
生成第一初始集合之后,可以遍历其中的每个第一症状序列,判断当前第一症状序列中是否包含未出现在对应的标注症状序列中的特征元素。如果包含,则说明基于注意力机制输出的当前第一症状序列是不准确的,需要将其过滤掉,即删除当前第一症状序列。遍历完成之后,得到第一集合,其中的每个第一症状序列的准确性进一步提高了。
例如基于BERT模型得到了“腹痛”这一标注症状序列,但是同样的电子病历,基于注意力机制输出了“上腹痛”这个第一症状序列,也就是说,在根据电子病历直接得到的标注症状序列中并不包含“上”这个表示方位的特征元素,却输出了“上腹痛”这个第一症状序列,则需要将其过滤掉,使得最终形成的第一集合中不包含“上腹痛”这个第一症状序列。
或者,遍历第一初始集合中的每个第一症状序列,判断当前第一症状序列中是否包含不符合诊断与症状关联关系的症状信息;若是,则删除当前第一症状序列;其中,诊断与症状关联关系来源于医学知识库。
电子病历中除了症状信息之外,还可能存在医务人员针对该症状信息做出的诊断,可以对神经网络模型进行训练使之输出的标注症状序列也包含与症状对应的诊断信息,则得到对应的第一症状序列之后,可以判断第一症状序列包含的症状信息与上述诊断信息是否符合医学知识库中的诊断与症状关联关系。如果不符合,说明对应的第一症状序列是不准确的,需要将其过滤掉。
例如根据电子病历提取了“急性上呼吸道感染”这一诊断信息,对应输出的第一症状序列包含有喘憋症状,而根据医学知识库中的诊断与症状关联关系,急性上呼吸道感染与喘憋症状不存在对应关系,则说明包含有喘憋症状的第一症状序列是不可取的,需要将其删除。
或者,遍历第一初始集合中的每个第一症状序列,判断当前第一症状序列中是否包含与否定标签对应的症状信息;若是,则删除当前第一症状序列;其中,当电子病历中包含无间断的否定词和症状信息时,提取否定标签。
获取第一症状序列时并不会对电子病历中症状关键信息之前的否定词进行提取,也就是说,不会把否定词作为关键信息,使得输出的第一症状序列可能会与电子病历中原有的症状信息不相符,因此可以在电子病历中包含无间断的否定词和症状信息时,对应该症状信息提取一个否定标签。当生成与该症状信息对应的第一症状序列之后,判断是否存在对应的否定标签,如果存在,说明需要过滤掉这个第一症状序列。
例如,电子病历中有文字描述“患者咳嗽3天,吃完药后,没有明显咳嗽加重”,此时否定词“没有”和症状信息“咳嗽加重”之前无间断,可以提取一个对应的否定标签,当生成有“咳嗽加重”的第一症状序列之后,判断出其对应存在有否定标签,则将其删除,使最终获得的第一集合中不包含“咳嗽加重”这个第一症状序列。
本实施方式通过预设的多种校验规则对基于注意力机制获取的第一症状序列进行筛选,获得最终的第一症状序列形成的第一集合,从而更准确地将电子病历中的关键信息转化为标准化医学术语。
步骤S52,将第一集合和第二集合的合集作为最终症状序列。
通过步骤S51所述的校验原则对第一初始集合中的第一症状序列进行筛选而获得第一集合,以及通过上述条件随机场获得第二集合之后,相当于从两个方向将电子病历中的关键信息提取为标准化医学术语,此时可以直接将第一集合和第二集合的合集作为最终症状序列,实现相互补充,从而实现全面地提取电子病历中的关键信息,并将所有关键信息转化为标准医学术语,提高了对电子病历中医疗数据的检索、分析和利用的效率。
下面结合一个具体的应用场景说明本申请医学术语标准化方法,请参阅图7,图7为本申请医学术语标准化方法另一实施方式的模型框架图。首先将电子病历中的每个字映射为字向量,得到向量X=(x1,x2,x3,...,xn)。将向量X输入CRF层,获得第二症状序列形成的第二集合P=(p1,p2,p3,...,pn)。同时将向量X输入BERT层,得到标注症状表示的集合H=(h1,h2,h3,...,hn)。另一方面,利用标准知识图谱获取每个症状对应的三元组形成的矩阵Uk*m=(h1,r,t2),(h2,r,t2)...(hk-1,r,t2),(hk,r,t2),…(h1,r,tm),(h2,r,tm)...(hk-1,r,tm),(hk,r,tm),将其经过Maxpooling层之后,得到每个症状对应的标准症状表示的集合V=(v1,v2,...,vm)。将标注症状表示的集合H和标准症状表示的集合V一起输入Attention层,即基于注意力机制获取到每个标准症状表示相对于标注症状表示的相关度,将相关度排序之后输出相关度大于预设值的前n个标准症状表示,得到第一初始集合S=(s1,s2,...,sn)。
进一步地,按照上述步骤S51所述的校验原则对第一初始集合S进行筛选,得到第一集合,再获取该第一集合与上述第二集合的合集,得到最终症状序列。
通过对第一初始集合中的第一症状序列进行筛选而获得第一集合,以及通过上述条件随机场(CRF层)获得第二集合之后,相当于从两个方向将电子病历中的关键信息全面准确地转化为标准医学术语,此时可以直接将第一集合和第二集合的合集作为最终症状序列,实现相互补充,从而实现全面地提取电子病历中的关键信息,并将所有关键信息转化为标准医学术语。可见,本实施方式能够提高对电子病历中医疗数据的检索、分析和利用的效率。
此外,本申请还提供一种电子设备,请参阅图8,图8为本申请电子设备一实施方式的结构示意图,该电子设备包括相互耦接的存储器801和处理器802,存储器801存储有程序指令,处理器802能够执行该程序指令以实现如上述任一实施方式所述的医学术语标准化方法。具体可参阅上述实施方式,此处不再赘述。
此外,本申请还提供一种计算机可读存储介质,请参阅图9,图9为本申请计算机可读存储介质一实施方式的结构示意图,该存储介质900上存储有程序指令910,该程序指令910能够被处理器执行以实现如上述任一实施方式所述的医学术语标准化方法。具体可参阅上述实施方式,此处不再赘述。
以上所述仅为本申请的实施方式,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。

Claims (10)

1.一种医学术语标准化方法,其特征在于,包括:
基于神经网络获取电子病历中的标注症状表示的集合;
基于注意力机制,利用所述标注症状表示的集合和标准症状表示的集合,获取所述电子病历中的第一症状序列的第一初始集合;
利用所述第一初始集合和第二集合获取最终症状序列集合;其中,所述第二集合是基于条件随机场获取的所述电子病历中第二症状序列形成的集合。
2.根据权利要求1所述的方法,其特征在于,所述基于注意力机制,利用所述标注症状表示的集合和标准症状表示的集合,获取所述电子病历中的第一症状序列的第一初始集合的步骤之前,还包括:
利用标准知识图谱获取其中每个症状对应的所述标准症状表示,以得到所述标准症状表示的集合。
3.根据权利要求2所述的方法,其特征在于,所述利用标准知识图谱获取其中每个症状对应的所述标准症状表示的步骤,包括:
利用所述标准知识图谱获取所有诊断、类型、症状三元组,每个所述三元组中诊断和类型均与症状对应;
按照所述症状遍历所有所述三元组,获取包含当前症状的所有三元组的当前堆叠矩阵;
基于池化机制,利用所述当前堆叠矩阵,获取所述当前症状对应的所述标准症状表示。
4.根据权利要求2所述的方法,其特征在于,所述基于注意力机制,利用所述标注症状表示的集合和标准症状表示的集合,获取所述电子病历中的第一症状序列的第一初始集合的步骤,包括:
基于所述注意力机制,获取每个所述标准症状表示相对于所述标注症状表示的相关度;
输出相关度大于预设值的所有所述标准症状表示,以得到所述第一初始集合。
5.根据权利要求4所述的方法,其特征在于,所述基于神经网络获取电子病历中的标注症状表示的集合的步骤,包括:
利用带有标注信息的电子病历训练所述神经网络,以使所述神经网络以所述电子病历中每个字对应的字向量作为输入,以所述标注信息作为输出;
其中所述标注信息的形式与所述标准症状表示的形式对应。
6.根据权利要求1所述的方法,其特征在于,所述利用所述第一初始集合和第二集合获取最终症状序列集合的步骤之前,还包括:
基于所述条件随机场提取所述电子病历中关键信息的序列片段;
基于预设的映射原则,获取每个所述序列片段对应的所述第二症状序列,以获取所述第二集合;
其中,所述映射原则至少包括标准词汇词典匹配和模糊匹配。
7.根据权利要求6所述的方法,其特征在于,所述利用所述第一初始集合和所述第二集合获取最终症状序列集合的步骤,包括:
基于预设的校验原则从所述第一初始集合中过滤掉部分所述第一症状序列,以得到由其余部分所述第一症状序列形成的第一集合;
将所述第一集合和所述第二集合的合集作为所述最终症状序列。
8.根据权利要求7所述的方法,其特征在于,所述基于预设的校验原则从所述第一初始集合中过滤掉部分所述第一症状序列的步骤,包括:
判断所述第一初始集合中是否包含存在子序列关系、或者上下位关系的多个第一症状序列;
若是,则按照预设的筛选原则从所述多个第一症状序列中删除部分第一症状序列;或者,
判断所述第一初始集合中是否存在包含预设信息的第一症状序列;
若是,则删除包含所述预设信息的第一症状序列。
9.一种电子设备,其特征在于,包括相互耦接的存储器和处理器,所述存储器存储有程序指令,所述处理器能够执行所述程序指令以实现如权利要求1-8任一项所述的医学术语标准化方法。
10.一种计算机可读存储介质,其特征在于,所述存储介质上存储有程序指令,所述程序指令能够被处理器执行以实现如权利要求1-8任一项所述的医学术语标准化方法。
CN202110204614.1A 2021-02-23 2021-02-23 医学术语标准化方法、电子设备和存储介质 Active CN113010685B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110204614.1A CN113010685B (zh) 2021-02-23 2021-02-23 医学术语标准化方法、电子设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110204614.1A CN113010685B (zh) 2021-02-23 2021-02-23 医学术语标准化方法、电子设备和存储介质

Publications (2)

Publication Number Publication Date
CN113010685A true CN113010685A (zh) 2021-06-22
CN113010685B CN113010685B (zh) 2022-12-06

Family

ID=76408893

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110204614.1A Active CN113010685B (zh) 2021-02-23 2021-02-23 医学术语标准化方法、电子设备和存储介质

Country Status (1)

Country Link
CN (1) CN113010685B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023065858A1 (zh) * 2021-10-19 2023-04-27 之江实验室 基于异构图神经网络的医疗术语规范化***及方法

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080228769A1 (en) * 2007-03-15 2008-09-18 Siemens Medical Solutions Usa, Inc. Medical Entity Extraction From Patient Data
CN110223742A (zh) * 2019-06-14 2019-09-10 中南大学 中文电子病历数据的临床表现信息抽取方法和设备
CN110442869A (zh) * 2019-08-01 2019-11-12 腾讯科技(深圳)有限公司 一种医疗文本处理方法及其装置、设备和存储介质
CN110472229A (zh) * 2019-07-11 2019-11-19 新华三大数据技术有限公司 序列标注模型训练方法、电子病历处理方法及相关装置
CN111611398A (zh) * 2020-04-02 2020-09-01 中南大学 一种基于知识图谱的临床表现联想方法、装置、设备及介质
CN111627561A (zh) * 2020-05-25 2020-09-04 安徽科大讯飞医疗信息技术有限公司 标准症状抽取方法、装置、电子设备和存储介质
US20200334416A1 (en) * 2019-04-16 2020-10-22 Covera Health Computer-implemented natural language understanding of medical reports
CN112035619A (zh) * 2020-08-31 2020-12-04 康键信息技术(深圳)有限公司 基于人工智能的医疗问诊单筛选方法、装置、设备和介质
CN112380863A (zh) * 2020-10-29 2021-02-19 国网天津市电力公司 一种基于多头自注意力机制的序列标注方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080228769A1 (en) * 2007-03-15 2008-09-18 Siemens Medical Solutions Usa, Inc. Medical Entity Extraction From Patient Data
US20200334416A1 (en) * 2019-04-16 2020-10-22 Covera Health Computer-implemented natural language understanding of medical reports
CN110223742A (zh) * 2019-06-14 2019-09-10 中南大学 中文电子病历数据的临床表现信息抽取方法和设备
CN110472229A (zh) * 2019-07-11 2019-11-19 新华三大数据技术有限公司 序列标注模型训练方法、电子病历处理方法及相关装置
CN110442869A (zh) * 2019-08-01 2019-11-12 腾讯科技(深圳)有限公司 一种医疗文本处理方法及其装置、设备和存储介质
CN111611398A (zh) * 2020-04-02 2020-09-01 中南大学 一种基于知识图谱的临床表现联想方法、装置、设备及介质
CN111627561A (zh) * 2020-05-25 2020-09-04 安徽科大讯飞医疗信息技术有限公司 标准症状抽取方法、装置、电子设备和存储介质
CN112035619A (zh) * 2020-08-31 2020-12-04 康键信息技术(深圳)有限公司 基于人工智能的医疗问诊单筛选方法、装置、设备和介质
CN112380863A (zh) * 2020-10-29 2021-02-19 国网天津市电力公司 一种基于多头自注意力机制的序列标注方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023065858A1 (zh) * 2021-10-19 2023-04-27 之江实验室 基于异构图神经网络的医疗术语规范化***及方法
JP7432802B2 (ja) 2021-10-19 2024-02-16 之江実験室 異種グラフニューラルネットワークに基づく医療用語正規化システム及び方法

Also Published As

Publication number Publication date
CN113010685B (zh) 2022-12-06

Similar Documents

Publication Publication Date Title
CN108831559B (zh) 一种中文电子病历文本分析方法与***
CN111540468B (zh) 一种诊断原因可视化的icd自动编码方法与***
CN110705293A (zh) 基于预训练语言模型的电子病历文本命名实体识别方法
CN110335653B (zh) 基于openEHR病历格式的非标准病历解析方法
CN113241135A (zh) 一种基于多模态融合的疾病风险预测方法和***
CN112541066B (zh) 基于文本结构化的医技报告检测方法及相关设备
CN111402979B (zh) 病情描述与诊断一致性检测方法及装置
CN106874643A (zh) 基于词向量自动构建知识库实现辅助诊疗的方法和***
CN114530223A (zh) 一种基于nlp的心血管疾病病历结构化***
WO2021046536A1 (en) Automated information extraction and enrichment in pathology report using natural language processing
CN111191415A (zh) 基于原始手术数据的手术分类编码方法
WO2021170085A1 (zh) 标注方法、关系抽取方法、存储介质和运算装置
CN113724819B (zh) 医疗命名实体识别模型的训练方法、装置、设备及介质
CN114358001A (zh) 诊断结果的标准化方法及其相关装置、设备和存储介质
CN112489740A (zh) 病历检测方法及相关模型的训练方法和相关设备、装置
CN111477320A (zh) 治疗效果预测模型的构建***、治疗效果预测***及终端
CN111177356B (zh) 一种酸碱指标医疗大数据分析方法及***
CN117831698B (zh) 用于护理病历的智能质量控制***及方法
CN113435200A (zh) 实体识别模型训练、电子病历处理方法、***及设备
CN113010685B (zh) 医学术语标准化方法、电子设备和存储介质
CN107122582B (zh) 面向多数据源的诊疗类实体识别方法及装置
CN112784601B (zh) 关键信息提取方法、装置、电子设备和存储介质
CN113297851A (zh) 一种针对易混淆运动损伤实体词的识别方法
US20230298589A1 (en) Ai platform for processing speech and video information collected during a medical procedure
CN117422074A (zh) 一种临床信息文本标准化的方法、装置、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB03 Change of inventor or designer information

Inventor after: Xu Ping

Inventor after: He Zhiyang

Inventor after: Zhao Jinghe

Inventor after: Luxiaoliang

Inventor before: Xu Ping

CB03 Change of inventor or designer information
CB02 Change of applicant information

Address after: Floor 18, building A5, NO.666, Wangjiang West Road, high tech Zone, Hefei City, Anhui Province 230000

Applicant after: Anhui Xunfei Medical Co.,Ltd.

Address before: Floor 18, building A5, NO.666, Wangjiang West Road, high tech Zone, Hefei City, Anhui Province 230000

Applicant before: ANHUI IFLYTEK MEDICAL INFORMATION TECHNOLOGY CO.,LTD.

CB02 Change of applicant information
GR01 Patent grant
GR01 Patent grant
CP01 Change in the name or title of a patent holder

Address after: Floor 18, building A5, NO.666, Wangjiang West Road, high tech Zone, Hefei City, Anhui Province 230000

Patentee after: IFLYTEK Medical Technology Co.,Ltd.

Address before: Floor 18, building A5, NO.666, Wangjiang West Road, high tech Zone, Hefei City, Anhui Province 230000

Patentee before: Anhui Xunfei Medical Co.,Ltd.

CP01 Change in the name or title of a patent holder