CN114238558A - 一种电子病历的质检方法、装置、存储介质及设备 - Google Patents
一种电子病历的质检方法、装置、存储介质及设备 Download PDFInfo
- Publication number
- CN114238558A CN114238558A CN202111342558.4A CN202111342558A CN114238558A CN 114238558 A CN114238558 A CN 114238558A CN 202111342558 A CN202111342558 A CN 202111342558A CN 114238558 A CN114238558 A CN 114238558A
- Authority
- CN
- China
- Prior art keywords
- electronic medical
- medical record
- target electronic
- target
- clause
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H10/00—ICT specially adapted for the handling or processing of patient-related medical or healthcare data
- G16H10/60—ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/70—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computational Linguistics (AREA)
- Evolutionary Computation (AREA)
- Databases & Information Systems (AREA)
- Biomedical Technology (AREA)
- Public Health (AREA)
- Medical Informatics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Epidemiology (AREA)
- Evolutionary Biology (AREA)
- Primary Health Care (AREA)
- Mathematical Physics (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Pathology (AREA)
- Medical Treatment And Welfare Office Work (AREA)
Abstract
本申请公开了一种电子病历的质检方法、装置、存储介质及设备,该方法包括:首先获取待质检的目标电子病历,然后将其输入至预先构建的对比学习模型,识别得到目标电子病历中每个子句对应的特征向量;其中,对比学习模型是根据相关句子对和非相关句子对,利用对比学习框架训练得到的;接着,将每个子句对应的特征向量输入至预先构建的诊断结果预测模型,预测得到满足预设初选条件的目标诊断结果,再将其与真实诊断结果进行匹配,以根据匹配结果对目标电子病历进行质检。从而能够利用通过预先构建的对比学习模型识别得到的目标电子病历中每个子句对应的更具对比性和鉴别性的特征向量,得到准确性更高的预测诊断结果和电子病历的质检结果。
Description
技术领域
本申请涉及智能医疗技术领域,尤其涉及一种电子病历的质检方法、装置、存储介质及设备。
背景技术
随着信息技术的快速发展,电子病历***已经在各级医院逐渐普及,相对传统的纸质病历,电子病历书写更加便捷、存取更加灵活,有助于提高医务人员的工作效率。但是电子病历也可能存在质量不高的问题。例如,可能由于医生的操作失误等情况造成诊断不合理,导致电子病历的质量下降,从而无法准确反映患者的实际病情,并带来了极大的诊疗风险。基于此,为了提高电子病历的质量以降低诊疗风险,需要及时、准确的进行电子病历的质检。
目前,电子病历的质检方法通常有两种:一种是按照分类的思路,基于分类框架的自动诊断预测或基于预训练框架的自动诊断预测诊断结果,并根据诊断结果对电子病历进行质检,但该方法存在可扩展性差、细分类疾病精度低、计算速度慢等缺点;而另一种常用的质检方法则是基于相似度计算的自动诊断预测诊断结果,并根据诊断结果对电子病历进行质检,虽然该方法克服了前述分类方法中的三个主要问题,但该方法却带了新的问题:性能较低,即,对于疾病诊断结果的预测性能较差,无法及时、准确地反映电子病历质量情况,进而导致电子病历的质检结果不够准确。
发明内容
本申请实施例的主要目的在于提供一种电子病历的质检方法、装置、存储介质及设备,能够提高电子病历质检结果的准确性。
本申请实施例提供了一种电子病历的质检方法,包括:
获取待质检的目标电子病历;
将所述目标电子病历输入至预先构建的对比学习模型,识别得到所述目标电子病历中每个子句对应的特征向量;所述对比学习模型是根据相关句子对和非相关句子对,利用对比学习框架训练得到的;
将所述目标电子病历中每个子句对应的特征向量输入至预先构建的诊断结果预测模型,预测得到所述目标电子病历对应的、满足预设初选条件的目标诊断结果;
将所述目标电子病历中的真实诊断结果,与所述目标预测诊断结果进行匹配,并根据匹配结果,对所述目标电子病历进行质检,得到所述目标电子病历的质检结果。
一种可能的实现方式中,所述对比学习模型的构建方式如下:
构建样本句子对,所述样本句子对包括样本相关句子对和样本非相关句子对;
将所述样本句子对输入初始对比学习模型,通过调整第一目标函数,训练得到所述对比学习模型,并输出所述样本句子对中每个子句对应的样本特征向量;
其中,所述第一目标函数用于提升样本相关句子对中每个子句对应的样本特征向量之间的相似度、且用于降低样本非相关句子对中每个子句对应的样本特征向量之间的相似度。
一种可能的实现方式中,所述构建样本句子对,包括:
获取样本电子病历;
利用预设分隔符,将所述样本电子病历中的主诉和现病史字段对应的子句内容拆分为各个短句;
提取所述各个短句中的实体,并判断每两个子句包含的实体之间的类型相似度和内容相似度是否满足预设阈值;
若是,则将对应的两个子句构成样本相关句子对;若否,则将对应的两个子句构成样本非相关句子对,并利用所述样本相关句子对和所述样本非相关句子对构成样本句子对。
一种可能的实现方式中,所述方法还包括:
构建测试句子对,所述测试句子对包括测试相关句子对和测试非相关句子对;
对所述测试句子对进行打分,并根据打分结果,将所有所述测试句子对划分为预设等级的测试句子对;
利用所述预设等级的测试句子对,对所述对比学习模型进行测试,并根据测试结果,对所述对比学习模型进行参数更新。
一种可能的实现方式中,所述将所述目标电子病历中每个子句对应的特征向量输入至预先构建的诊断结果预测模型,预测得到所述目标电子病历对应的、满足预设初选条件的目标诊断结果,包括:
将所述目标电子病历中每个子句对应的特征向量输入至预先构建的诊断结果预测模型后,对所述目标电子病历中每个子句对应的特征向量和每一候选电子病历中的各个子句对应的特征变量进行预处理,使得预处理后的所述目标电子病历包含的子句数量与每一所述候选电子病历包含的子句数量相同;
计算预处理后的所述目标电子病历中每个子句的权重,并利用加权乘法,计算出预处理后的所述目标电子病历的整体特征向量;
计算预处理后的所述候选电子病历中每个子句的权重,并利用加权乘法,计算出每一预处理后的所述候选电子病历的整体特征向量;
计算预处理后的所述目标电子病历的整体特征向量与每一预处理后的所述候选电子病历的整体特征向量之间的相似度;
将所述相似度满足预设阈值的候选电子病历作为相似病历,并将相似病历中满足预设初选条件的诊断结果作为目标诊断结果。
一种可能的实现方式中,所述对所述目标电子病历中每个子句对应的特征向量和每一候选电子病历中的各个子句对应的特征变量进行预处理,使得预处理后的所述目标电子病历包含的子句数量与每一所述候选电子病历包含的子句数量相同,包括:
将所述目标电子病历和每一候选电子病历的中的子句数量规范为N个;并将不足N个的子句利用随机向量补齐,以及将多余N个的子句删除;使得预处理后的所述目标电子病历包含的子句数量与每一所述候选电子病历包含的子句数量相同;所述N为大于0的正整数。
一种可能的实现方式中,所述计算预处理后的所述目标电子病历中每个子句的权重,并利用加权乘法,计算出预处理后的所述目标电子病历的整体特征向量,包括:
利用两个全连接层对所述预处理后的所述目标电子病历中每个子句对应的特征向量进行降维处理,得到每个子句对应的一维标量,并将所述一维标量作为对应子句的权重;
将所述目标电子病历中每个子句对应的权重与每个子句对应的特征向量进行加权相乘,得到所述目标电子病历对应的整体特征向量。
一种可能的实现方式中,在预测得到所述目标电子病历对应的、满足预设初选条件的目标诊断结果之后,所述方法还包括:
利用预设标准维度值对所有所述目标诊断结果进行校验,并根据校验结果,筛选出与所述目标电子病历中的真实诊断结果进行匹配的目标诊断结果。
一种可能的实现方式中,所述诊断结果预测模型是采用第二目标函数训练得到的,所述第二目标函数用于提升目标诊断结果与所述目标电子病历中的真实诊断结果之间的相似度。
本申请实施例还提供了一种电子病历的质检装置,包括:
获取单元,用于获取待质检的目标电子病历;
识别单元,用于将所述目标电子病历输入至预先构建的对比学习模型,识别得到所述目标电子病历中每个子句对应的特征向量;所述对比学习模型是根据相关句子对和非相关句子对,利用对比学习框架训练得到的;
预测单元,用于将所述目标电子病历中每个子句对应的特征向量输入至预先构建的诊断结果预测模型,预测得到所述目标电子病历对应的、满足预设初选条件的目标诊断结果;
质检单元,用于将所述目标电子病历中的真实诊断结果,与所述目标预测诊断结果进行匹配,并根据匹配结果,对所述目标电子病历进行质检,得到所述目标电子病历的质检结果。
一种可能的实现方式中,所述装置还包括:
第一构建单元,用于构建样本句子对,所述样本句子对包括样本相关句子对和样本非相关句子对;
训练单元,用于将所述样本句子对输入初始对比学习模型,通过调整第一目标函数,训练得到所述对比学习模型,并输出所述样本句子对中每个子句对应的样本特征向量;
其中,所述第一目标函数用于提升样本相关句子对中每个子句对应的样本特征向量之间的相似度、且用于降低样本非相关句子对中每个子句对应的样本特征向量之间的相似度。
一种可能的实现方式中,所述第一构建单元包括:
获取子单元,用于获取样本电子病历;
拆分子单元,用于利用预设分隔符,将所述样本电子病历中的主诉和现病史字段对应的子句内容拆分为各个短句;
提取子单元,用于提取所述各个短句中的实体,并判断每两个子句包含的实体之间的类型相似度和内容相似度是否满足预设阈值;
构成子单元,用于若判断出每两个子句包含的实体之间的类型相似度和内容相似度满足预设阈值,则将对应的两个子句构成样本相关句子对;若判断出每两个子句包含的实体之间的类型相似度和内容相似度不满足预设阈值,则将对应的两个子句构成样本非相关句子对,并利用所述样本相关句子对和所述样本非相关句子对构成样本句子对。
一种可能的实现方式中,所述装置还包括:
第二构建单元,用于构建测试句子对,所述测试句子对包括测试相关句子对和测试非相关句子对;
划分单元,用于对所述测试句子对进行打分,并根据打分结果,将所有所述测试句子对划分为预设等级的测试句子对;
测试单元,用于利用所述预设等级的测试句子对,对所述对比学习模型进行测试,并根据测试结果,对所述对比学习模型进行参数更新。
一种可能的实现方式中,所述预测单元包括:
预处理子单元,用于将所述目标电子病历中每个子句对应的特征向量输入至预先构建的诊断结果预测模型后,对所述目标电子病历中每个子句对应的特征向量和每一候选电子病历中的各个子句对应的特征变量进行预处理,使得预处理后的所述目标电子病历包含的子句数量与每一所述候选电子病历包含的子句数量相同;
第一计算子单元,用于计算预处理后的所述目标电子病历中每个子句的权重,并利用加权乘法,计算出预处理后的所述目标电子病历的整体特征向量;
第二计算子单元,用于计算预处理后的所述候选电子病历中每个子句的权重,并利用加权乘法,计算出每一预处理后的所述候选电子病历的整体特征向量;
第三计算子单元,用于计算预处理后的所述目标电子病历的整体特征向量与每一预处理后的所述候选电子病历的整体特征向量之间的相似度;
确定子单元,用于将所述相似度满足预设阈值的候选电子病历作为相似病历,并将相似病历中满足预设初选条件的诊断结果作为目标诊断结果。
一种可能的实现方式中,所述预处理子单元具体用于:
将所述目标电子病历和每一候选电子病历的中的子句数量规范为N个;并将不足N个的子句利用随机向量补齐,以及将多余N个的子句删除;使得预处理后的所述目标电子病历包含的子句数量与每一所述候选电子病历包含的子句数量相同;所述N为大于0的正整数。
一种可能的实现方式中,所述第一计算子单元包括:
降维子单元,用于利用两个全连接层对所述预处理后的所述目标电子病历中每个子句对应的特征向量进行降维处理,得到每个子句对应的一维标量,并将所述一维标量作为对应子句的权重;
获得子单元,用于将所述目标电子病历中每个子句对应的权重与每个子句对应的特征向量进行加权相乘,得到所述目标电子病历对应的整体特征向量。
一种可能的实现方式中,所述装置还包括:
校验单元,用于在预测得到所述目标电子病历对应的、满足预设初选条件的目标诊断结果之后,利用预设标准维度值对所有所述目标诊断结果进行校验,并根据校验结果,筛选出与所述目标电子病历中的真实诊断结果进行匹配的目标诊断结果。
一种可能的实现方式中,所述诊断结果预测模型是采用第二目标函数训练得到的,所述第二目标函数用于提升目标诊断结果与所述目标电子病历中的真实诊断结果之间的相似度。
本申请实施例还提供了一种电子病历的质检设备,包括:处理器、存储器、***总线;
所述处理器以及所述存储器通过所述***总线相连;
所述存储器用于存储一个或多个程序,所述一个或多个程序包括指令,所述指令当被所述处理器执行时使所述处理器执行上述电子病历的质检方法中的任意一种实现方式。
本申请实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当所述指令在终端设备上运行时,使得所述终端设备执行上述电子病历的质检方法中的任意一种实现方式。
本申请实施例还提供了一种计算机程序产品,所述计算机程序产品在终端设备上运行时,使得所述终端设备执行上述电子病历的质检方法中的任意一种实现方式。
本申请实施例提供的一种电子病历的质检方法、装置、存储介质及设备,首先获取待质检的目标电子病历,然后再将目标电子病历输入至预先构建的对比学习模型,识别得到目标电子病历中每个子句对应的特征向量;其中,对比学习模型是根据相关句子对和非相关句子对,利用对比学习框架训练得到的;接着,将目标电子病历中每个子句对应的特征向量输入至预先构建的诊断结果预测模型,预测得到目标电子病历对应的、满足预设初选条件的目标诊断结果,进而可以将目标电子病历中的真实诊断结果,与目标预测诊断结果进行匹配,并根据匹配结果,对目标电子病历进行质检,得到目标电子病历的质检结果。可见,由于本申请实施例是利用预先构建的对比学习模型,识别得到目标电子病历中每个子句对应的更具对比性和鉴别性的特征向量,用以进行后续诊断结果的预测,从而能够得到准确性更高的预测诊断结果,进而再利用该预测诊断结果与目标电子病历中的真实诊断结果进行匹配后,可以根据匹配结果对电子病历进行更为准确的质检,从而提高了电子病历质检结果的准确性。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种电子病历的质检方法的流程示意图;
图2为本申请实施例提供的构建样本句子对的示例图;
图3为本申请实施例提供的计算目标电子病历与候选电子病历相似度型的流程示意图;
图4为本申请实施例提供的对电子病历进行质检的示例图;
图5为本申请实施例提供的一种电子病历的质检装置的组成示意图。
具体实施方式
随着信息技术的快速发展,电子病历***已经在各级医院逐渐普及。电子病历(Electronic Medical Record,简称EMR)可以称为计算机化的病案***或称为基于计算机的病人记录(Computer-Based Patient Record,简称CPR),可以通过电子设备(如计算机等)进行数字化地保存、管理、传输和重现病患的医疗记录,以取代传统的手写纸张病历。质量越好的电子病历,覆盖的信息越全面,对于医学研究的价值就越大。
但是目前电子病历会存在质量不高的问题,这是因为无论是门诊病历还是住院病历,都要求医生按时分阶段的给出一个或多个疾病诊断结果,这期间就可能由于医生的操作失误等情况造成诊断不合理,导致电子病历的质量下降,从而无法准确反映患者的实际病情,并带来了极大的诊疗风险。基于此,为了提高电子病历的质量,以降低诊疗风险并准确衡量医生的业务诊断水平,需要及时、准确的进行电子病历的质检。
目前电子病历的质检方法通常包含以下两种:
第一种是基于文本分类技术进行质检的方法。具体可以分为基于分类框架的自动诊断预测和基于预训练框架的自动诊断预测的两种质检方式。
其中,基于分类框架的自动诊断预测的流程包括先确定支持病种,然后确定每个病种对应的数据,之后基于一些主流的深度学习框架进行特征学习,例如门控循环单元(Gate Recurrent Unit,简称GRU)、长短期记忆人工神经网络(Long-Short Term Memory,简称LSTM)、循环神经网络(Recurrent Neural Networks,简称RNN)等,最终将每份病历表征为一个向量,且该向量的维度等于病种数,每一维度的值表征属于各个疾病的概率,再从中挑选出最大概率对应的病种作为预测疾病进行后续质检。而基于预训练框架的自动诊断预测方法,在质检过程中,有所不同的是该类方法会提前基于大规模语料对transformer架构的复杂模型进行预训练,再根据具体的任务进行微调,以通过这种预训练结合微调的模式,使得模型对于全局特征和局部特征都能很好的学习,从而比传统分类模型获取更好的质检性能。
可见,上述分类方法都需要提前确定支持的病种,这是不利于快速扩展的,如果要支持一个新疾病的预测,则需要从头开始将模型再训练一遍,非常耗时。并且,对于疾病的诊断结果有时可能不只一个,即,可能会同时存在多个疾病诊断结果的情况,而分类模型是用概率作为最终结果,总会有一个概率高,其他的概率低,不利于分析存在多种疾病的可能性。另外,分类模型受数据分布影响也比较大,如果训练集中某个疾病的样本非常多,那么在分类时就更倾向于分类到这个疾病类型;同理,如果训练集中某个疾病的样本非常少,那么在分类时就更不容易分类到这个疾病。因此,小样本数据对应的标签普遍性能不是很好,导致后续也无法实现对电子病历更为准确的质检。
为了解决基于文本分类技术进行质检时存在的问题,目前已经出现了第二种质检的方法,即,基于相似度计算的自动诊断预测结果进行质检的方法。
该方法虽然能够克服上述第一种质检方法的三个主要问题。但该方法却带了新的问题:性能较低,即,对于疾病预测性能较差,无法及时、准确地反映电子病历质量情况,进而导致电子病历的质检结果不够准确。这是因为相似度计算大都是基于句子的,而对于如何获取句子向量目前还没有一个较为准确的方法。现有的方法主要是对句子中包含的token(即字、词、实体等)做平均、或者最大化、或者直接拼接,但是这样并不能很准确的代表一个句子的特征。同时通过对BERT词表示的观察,可以发现其整体是呈锥形分布的,其中,高频词聚集在锥头部,低频词分散在锥尾。又由于高频词本身是高频的,因此会在句子表征上占据更大的比重,使得各个句子在整体上的相似度都很高,进而导致利用相似度计算进行疾病预测性能较差,也使得对于电子病历的质检结果的准确性较低。
为解决上述缺陷,本申请提供了一种电子病历的质检方法,首先获取待质检的目标电子病历,然后再将目标电子病历输入至预先构建的对比学习模型,识别得到目标电子病历中每个子句对应的特征向量;其中,对比学习模型是根据相关句子对和非相关句子对,利用对比学习框架训练得到的;接着,将目标电子病历中每个子句对应的特征向量输入至预先构建的诊断结果预测模型,预测得到目标电子病历对应的、满足预设初选条件的目标诊断结果,进而可以将目标电子病历中的真实诊断结果,与目标预测诊断结果进行匹配,并根据匹配结果,对目标电子病历进行质检,得到目标电子病历的质检结果。可见,由于本申请实施例是利用预先构建的对比学习模型,识别得到目标电子病历中每个子句对应的更具对比性和鉴别性的特征向量,用以进行后续诊断结果的预测,从而能够得到准确性更高的预测诊断结果,进而再利用该预测诊断结果与目标电子病历中的真实诊断结果进行匹配后,可以根据匹配结果对电子病历进行更为准确的质检,从而提高了电子病历质检结果的准确性。
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
第一实施例
参见图1,为本实施例提供的一种电子病历的质检方法的流程示意图,该方法包括以下步骤:
S101:获取待质检的目标电子病历。
在本实施例中,将采用本实施例进行质检的任一电子病历定义为目标电子病历。需要说明的是,本实施例不限制目标电子病历的语种类型,比如,目标电子病历可以是中文电子病历或英文电子病历等;本实施例也不限制目标电子病历的长度,比如,目标电子病历可以是句子文本或段落文本等;本实施例也不限制电子病历所属的疾病类型,比如,目标电子病历可以是诊断结果为哮喘的一个电子病历或诊断结果为胫骨骨折的一个电子病历等。
S102:将目标电子病历输入至预先构建的对比学习模型,识别得到目标电子病历中每个子句对应的特征向量;其中,对比学习模型是根据相关句子对和非相关句子对,利用对比学习框架训练得到的。
在本实施例中,通过步骤S101获取到待质检的目标电子病历后,为了快速、准确的确定出电子病历的质检结果,进一步可以将目标电子病历输入至预先构建的对比学习模型中,从而识别得到目标电子病历中每个子句对应的特征向量,用以执行后续步骤S103。需要说明的是,目标电子病历中每个子句对应的特征向量的具体格式可根据实际情况(如选择的对比学习模型的架构等)进行设定,本实施例对此不进行限定,比如目标电子病历中每个子句对应的特征向量可以为一个1×768维的向量等。
其中,对比学习模型是根据相关句子对和非相关句子对,利用对比学习框架训练得到的网络模型,通过该模型可以拉近相关句子的表征距离,拉远不相关句子的表征距离,从而能够得到可以更准确的表征目标电子病历中每个句子的特征的特征向量,作为后续对目标电子病历进行质检的依据,以提高质检结果的准确性。
接下来,本实施例将对对比学习模型的构建过程进行介绍,该过程具体包括以下步骤A1-A2:
步骤A1:构建样本句子对,其中,样本句子对包括样本相关句子对和样本非相关句子对。
在本实施例中,为了构建对比学习模型,需要预先进行大量的准备工作,首先,需要获取大量分属于不同疾病诊断结果类别的电子病历,作为样本电子病历,并从中筛选出相关句子对和非相关句子对,作为样本相关句子对和样本非相关句子对,以构成样本句子对,用以通过执行后续步骤A2训练得到对比学习模型。
其中,相关句子对指的是两个句子的说法、表达形式、或者关键词汇的使用上没有明显差异,或者本质上是有关联的、意思相近的甚至是一致的。例如:“一个男人在车库里举重”和“一个人在举重”就是一组相关句子对,又如:“一个女人把面粉放在一块肉上”和“一位妇女正在往肉上撒面粉”也是一组相关句子对。非相关句子对指的是两个句子的说法、表达形式、或者关键词汇的使用上有明显差异,并且本质上表达的意思不相关、不一致或者相悖。例如:“一个男人正在给胡萝卜调味”和“一个女人在切大蒜”就是一组非相关句子对,又如“一只猫在房子里走来走去”和“一个女人在剥土豆皮”也是一组非相关句子对。
一种可选的实现方式是,本步骤A1的实现过程具体可以包括以下步骤A11-A14:
步骤A11:获取样本电子病历。
在本实现方式中,需要说明的是,虽然目前自然语言领域已经有一些通用的符合要求的数据集,可以支持对比学习模型的训练,但是由于本申请是针对电子病历的质检,目前只存在大量原始的电子病历,需要根据这些已有的电子病历数据构建出样本句子对。
为了构建样本句子对,首先需要分别获取同一疾病诊断结果以及不同诊断结果所对应的原始电子病历,作为样本电子病历。比如,可以选取诊断结果均为“哮喘”的两个原始电子病历,以及诊断结果为“湿疹”和“贫血”的不同原始电子病历作为样本电子病历,用以执行后续步骤A12。
步骤A12:利用预设分隔符,将样本电子病历中的主诉和现病史字段对应的子句内容拆分为各个短句。
在本实现方式中,通过步骤A11获取到样本电子病历后,进一步可以利用预设分隔符,将样本电子病历中的主诉和现病史字段对应的子句内容拆分为各个短句。其中,预设分隔符的具体取值可根据实际情况进行设定,本申请对此不进行限定,比如将预设分隔符设定为逗号、分号和句号等,从而可以以逗号、分号和句号作为分隔符,将样本电子病历中的主诉和现病史字段对应的子句内容拆分为各个短句。
举例说明:如图2所示,从样本电子病历中抽取出两个原始子句并以逗号、分号和句号作为分隔符进行划分,得到各个短句后,可以得到处理后的两个子句分别为:“患者三天前出现头晕,头痛,吃止痛药无效。”和“患者眩晕,头疼持续三天,吃止痛药不管用。”其中,这两个子句分别包含的短句为“患者三天前出现头晕”、“头痛”、“吃止痛药无效”和“患者眩晕”、“头疼持续三天”、“吃止痛药不管用”。
步骤A13:提取各个短句中的实体,并判断每两个子句包含的实体之间的类型相似度和内容相似度是否满足预设阈值。
在本实现方式中,通过步骤A12得到样本电子病历中主诉和现病史字段对应的各个子句包含的短句后,进一步可以利用现有或未来出现的实体抽取方法,提前出各个短句中的实体信息,比如,可以利用基于BERT、LSTM和序列化标注算法(sequence labelingalgorithm,简称CRF)相结合的医疗实体抽取方法训练好的模型,来提取出每个短句中的实体,进而再判断每两个子句包含的实体之间的类型相似度是否大于预设阈值(如60%),以及同类型实体的内容相似度大于预设阈值(如70%)的实体类型占比是否大于预设阈值(如60%),用以执行后续步骤A14。
其中,预设阈值的具体取值可根据实际情况进行设定,本申请实施例对此不进行限定。
举例说明:如图2所示,从短句“患者三天前出现头晕”、“头痛”、“吃止痛药无效”中分别可以提取出5个实体“起始时间”、“症状”、“症状”、“药物”、“治疗效果”,且各个实体对应的词语分别为“三天前”、“头晕”、“头痛”、“止痛药”、“无效”。同理,从短句“患者眩晕”、“头疼持续三天”、“吃止痛药不管用”中分别可以提取出5个实体“症状”、“症状”、“持续时间”、“药物”、“治疗效果”,且各个实体对应的词语分别为“眩晕”、“头疼”、“三天”、“止痛药”、“不管用”。
步骤A14:若是,则将对应的两个子句构成样本相关句子对;若否,则将对应的两个子句构成样本非相关句子对,并利用样本相关句子对和样本非相关句子对构成样本句子对。
在本实现方式中,若通过步骤A13判断出两个子句包含的实体之间的类型相似度和内容相似度均满足预设阈值,则可以利用这两个子句构成一组样本相关句子对。反之,若通过步骤A13判断出两个子句包含的实体之间的类型相似度和内容相似度不满足预设阈值,则可以利用这两个子句构成一组样本非相关句子对,进而再将得到的所有样本相关句子对和样本非相关句子对构成样本句子对,用以执行后续A2。
举例说明:基于上述举例,如图2所示,可以计算出从短句“患者三天前出现头晕”、“头痛”、“吃止痛药无效”中提取出的5个实体“起始时间”、“症状”、“症状”、“药物”、“治疗效果”,与从短句“患者眩晕”、“头疼持续三天”、“吃止痛药不管用”中提取出的5个实体“症状”、“症状”、“持续时间”、“药物”、“治疗效果”的类型相似度为80%,即,“症状”、“症状”、“药物”、“治疗效果”是相同的。然后再从左向右,依次计算相同实体类型中内容“头晕和眩晕”、“头疼和头痛”、“止疼药和止疼药”、“无效和不管用”的相似度分别为0.83、0.95、0.81和1.0。
此时,若假设实体类型相似度的预设阈值是60%,内容相似度的预设阈值为70%,且内容相似度高于预设阈值的实体类型占比的预设阈值为60%,则可以判断出图2中的两个子句“患者三天前出现头晕,头痛,吃止痛药无效。”和“患者眩晕,头疼持续三天,吃止痛药不管用。”能够构成一组样本相关句子对,这是因为二者包含的实体类型相似度为80%大于预设阈值60%,实体内容相似度0.83、0.95、0.81和1.0也均大于预设阈值为70%,且实体内容相似度大于预设阈值70%的实体类型占比为100%,也大于预设阈值60%。
同理,当判断出两个子句包含的实体类型相似度不大于预设阈值,或者同一实体的实体内容相似度均不大于预设阈值或大于预设阈值的占比小于预设的占比阈值时,即可将对应的两个子句构成一组样本非相关句子对。以此类推,在遍历了所有样本电子病历中的子句后,可以构建出由样本相关句子对和样本非相关句子对组成的样本句子对,用以通过执行后续步骤A2训练得到对比学习模型。
需要说明的是,在本实施例中,为了便于对比计算,相似度的计算公式采用的是归一化后的余弦相似度值,即0.5+0.5*cosine_similarity,由于余弦相似度的取值范围在-1到1,这样,通过前述公式可以将相似度结果限定在0-1之间。此外,当计算同一实体的内容相似度时,选择相似度较高的值作为该实体对应的内容相似度,比如,在计算实体“症状”的内容相似度时,对于“头晕”来说,选择计算其和“眩晕”之间的相似度作为“头晕”所属实体“症状”的内容相似度,而不是选择计算其和“头疼”之间的相似度,这是因为“头晕”和“眩晕”之间的相似度是大于“头晕”和“头疼”之间的相似度的。
步骤A2:将样本句子对输入初始对比学习模型,通过调整第一目标函数,训练得到对比学习模型,并输出样本句子对中每个子句对应的样本特征向量。
在本实施例中,采用的初始对比学习模型为基于BERT的模型架构,比如可以采用transformer架构作为初始对比学习模型,该架构包含了编码器encoder和解码器decoder,且每个编码器又由N(如N=6)个相同的层组成,每个层包含了多头注意力机制和全连接前馈神经网络两部分。再利用transformer本身的架构加入预训练机制可以得到一个较好的全局特征,本申请选择在此基础上再连接两个全连接层,并进行微调,使得模型能够更关注每个子句的局部特征和上下文信息。
在此基础上,在通过步骤A1构建了包括样本相关句子对和样本非相关句子对的样本句子对后,进一步可以先将每一样本句子对进行随机向量初始化,比如,可以将样本句子对中的两个子句初始化为两个1×500的向量,然后逐一将每个样本句子对中的两个子句对应的初始化向量输入初始对比学习模型进行训练,以通过模型输出每个样本句子对中的两个子句各自整体对应的样本特征向量,通过多轮模型训练,直到满足训练结束条件为止,此时,即训练得到对比学习模型。
其中,在进行每轮模型训练时,是采用给定的目标函数(此处将其定义为第一目标函数)进行模型训练的,且该第一目标函数是用于提升样本相关句子对中每个子句对应的样本特征向量之间的相似度、且用于降低样本非相关句子对中每个子句对应的样本特征向量之间的相似度。通过调整第一目标函数,可以约束每一样本句子对的相关性,使得样本相关句子对中两个子句的特征向量越来越类似,样本非相关句子对中两个子句的特征向量的差异越来越大。
具体来讲,为了训练出识别效果更好的对比学习模型,在训练过程中,本实施例采用的第一目标函数如下:
可见,通过上述公式(1)可知,当模型输入的样本句子对中两个子句的向量表征越相关时,第一目标函数li的取值越小;反之,当模型输入的样本句子对中两个子句的向量表征越不相关时,第一目标函数li的取值越大。再通过多轮训练,不断调整第一目标函数li的取值,使得第一目标函数li的取值收敛时,比如使得第一目标函数li的取值达到最小且基本不变时,可以停止训练,并将此时得到的对比学习模型作为训练好的对比学习模型。
通过上述步骤A1-A2,可以根据样本句子对训练生成对比学习模型,进一步的,还可以利用测试句子对对生成的对比学习模型进行测试和验证。具体验证过程可以包括下述步骤B1-B3:
步骤B1:构建测试句子对,其中,测试句子对包括测试相关句子对和测试非相关句子对。
在本实施例中,为了实现对对比学习模型进行测试和验证,首先需要构建测试句子对,如可以采用与构建样本句子对类似的方式,利用现有的原始电子病历文本构建出测试句子对,即可以将上述步骤A11-A14中的“样本”替换为“测试”即可,具体实现过程在此不再赘述。
步骤B2:对测试句子对进行打分,并根据打分结果,将所有测试句子对划分为预设等级的测试句子对。
通过步骤B1构建出包含测试相关句子对和测试非相关句子对的测试句子对后,进一步的,可以先对各个测试句子对中的两个子句进行相关度打分,用以测试句子对的准确性能,然后再根据该相关度打分结果,将所有测试句子对划分为预设等级的测试句子对,用以执行后续步骤B3。
具体来讲,对各个测试句子对中的两个子句进行相关度打分的计算公式如下:
αi,j=0.5ti,j+0.5ci,j (2)
其中,ti,j表示子句i和子句j的实体类型相似度;ci,j表示子句i和子句j中所有相同类型实体间余弦相似度分数的平均值;αi,j表示子句i和子句j的相关度分数,取值在0至1之间。
需要说明的是,本申请在模型的测试过程中,是以0.2的相关度分数为步长,将所有测试句子对划分为五个等级,即,将αi,j取值处于0-0.2之间的测试句子对,打分为1,划分为第1等级;将αi,j取值处于0.2-0.4之间的测试句子对,打分为2,划分为第2等级;将αi,j取值处于0.4-0.6之间的测试句子对,打分为3,划分为第3等级;将αi,j取值处于0.6-0.8之间的测试句子对,打分为4,划分为第4等级;将αi,j取值处于0.8-1.0的测试句子对,打分为5,划分为第5等级。这样,即可构建出五个等级的测试句子对作为测试数据集。
步骤B3:利用预设等级的测试句子对,对对比学习模型进行测试,并根据测试结果,对对比学习模型进行参数更新。
通过步骤B2得到预设等级的测试句子对后,进一步可以利用预设等级的测试句子对,对对比学习模型进行测试,理论上的测试结果应该是测试句子对的等级越高,第一目标函数li的取值越小,反之,测试句子对的等级越低,第一目标函数li的取值越大,若实际上得到的测试结果与理论上的测试结果相悖,则可以将测试句子对重新作为样本句子对,对对比学习模型进行参数更新。
通过上述实施例,可以利用测试句子对对对比学习模型进行有效测试和验证,可以及时调整更新对比学习模型,进而有助于提高模型的识别精度和准确率,之后可将最好测试结果对应的模型参数保存,以构成最终的对比学习模型。
同时,本申请还可以将样本电子病历和/或测试电子病历作为候选电子病历,并将根据候选电子病历构建的样本句子对和/或测试句子对作为候选句子对,用以执行后续步骤S103。
S103:将目标电子病历中每个子句对应的特征向量输入至预先构建的诊断结果预测模型,预测得到目标电子病历对应的、满足预设初选条件的目标诊断结果。
在本实施例中,通过步骤S102得到目标电子病历中每个子句对应的特征向量后,进一步可以将目标电子病历中每个子句对应的特征向量输入至预先构建的诊断结果预测模型,通过模型进行层层处理,将目标电子病历与每一候选电子病历进行相似度计算,并根据计算结果确定出与目标电子病历较为接近的相似电子病历,然后将满足预设初选条件的相似电子病历的诊断结果,作为预测出的目标电子病历的诊断结果,并将其定义为目标诊断结果,用以执行后续步骤S104。
在本申请实施例的一种可能的实现方式中,本步骤S103的实现过程具体可以包括以下步骤C1-C5:
步骤C1:将目标电子病历中每个子句对应的特征向量输入至预先构建的诊断结果预测模型后,对目标电子病历中每个子句对应的特征向量和每一候选电子病历中的各个子句对应的特征变量进行预处理,使得预处理后的目标电子病历包含的子句数量与每一候选电子病历包含的子句数量相同。
在本实现方式中,为了准确预测出目标电子病历的诊断结果,以实现对目标电子病历的准确质检,首先可以将目标电子病历中每个子句对应的特征向量输入至预先构建的诊断结果预测模型,以计算目标电子病历与每一候选电子病历的相似度,具体的,可以对目标电子病历中每个子句对应的特征向量和每一候选电子病历中的各个子句对应的特征变量进行预处理,以使得预处理后的目标电子病历包含的子句数量与每一候选电子病历包含的子句数量相同。
具体来讲,在计算目标电子病历与某一候选电子病历的相似度时,首先可以将目标电子病历和候选电子病历的中的子句数量规范为N个;并将不足N个的子句利用随机向量补齐,以及将多余N个的子句删除,以保证不会漏掉信息,也使得预处理后的目标电子病历包含的子句数量与候选电子病历包含的子句数量是相同的。其中,N为大于0的正整数,具体取值可以根据实际情况进行设定,本申请实施例对此不进行限定,比如可以将N取值为30等。
步骤C2:计算预处理后的目标电子病历中每个子句的权重,并利用加权乘法,计算出预处理后的目标电子病历的整体特征向量。
在本实现方式中,需要说明的是,针对每份电子病历(无论是目标电子病历还是候选电子病历),其包含的N个子句对其最终的疾病诊断结果的贡献信息是不同的,因此需要计算预处理后的目标电子病历中每个子句的权重。
具体来讲,如图3所示,一种可选的实现方式是,可以将利用两个全连接层对预处理后的目标电子病历中每个子句对应的特征向量进行降维处理,得到每个子句对应的一维标量,并将该一维标量作为对应子句的权重。然后将目标电子病历中每个子句对应的权重与每个子句对应的特征向量进行加权相乘,得到目标电子病历对应的整体特征向量,用以执行后续步骤C4。
步骤C3:计算预处理后的所述候选电子病历中每个子句的权重,并利用加权乘法,计算出每一预处理后的候选电子病历的整体特征向量。
在本实现方式中,对于每一候选电子病历来说,其包含的N个子句对其最终的疾病诊断结果的贡献信息也是不同的,因此也需要计算每一预处理后的候选电子病历中每个子句的权重。
具体来讲,如图3所示,一种可选的实现方式是,可以将利用两个全连接层对预处理后的候选电子病历中每个子句对应的特征向量进行降维处理,得到每个子句对应的一维标量,并将该一维标量作为对应子句的权重。然后可以将每一预处理后的候选电子病历中每个子句对应的权重与每个子句对应的特征向量进行加权相乘,得到每一预处理后的候选电子病历的整体特征向量,用以执行后续步骤C4。
步骤C4:计算预处理后的所述目标电子病历的整体特征向量与每一预处理后的候选电子病历的整体特征向量之间的相似度。
在本实现方式中,通过步骤C2计算出预处理后的目标电子病历的整体特征向量,以及通过步骤C3计算出每一预处理后的候选电子病历的整体特征向量后,进一步的,如图3所示,可以利用现有或未来出现的相似度计算方式,计算出预处理后的目标电子病历的整体特征向量与每一预处理后的候选电子病历的整体特征向量之间的相似度。比如,可以计算出预处理后的目标电子病历的整体特征向量与每一预处理后的候选电子病历的整体特征向量之间的余弦相似度,用以执行后续步骤C5。
步骤C5:将相似度满足预设阈值的候选电子病历作为相似病历,并将相似病历中满足预设初选条件的诊断结果作为目标诊断结果。
在本实现方式中,通过步骤C4计算出目标电子病历与每一候选电子病历之间的相似度后,进一步可以将相似度满足预设阈值(具体取值可根据实际情况进行设定,比如,可以将预设阈值取值为0.75等)的候选电子病历作为相似病历,并将相似病历中满足预设初选条件的诊断结果作为目标诊断结果。
其中,预设初选条件具体内容可根据实际情况进行设定,本申请实施例对此不进行限定,比如,可以将预设初选条件设定为选择相似度高于预设阈值的前5个相似度对应的候选电子病历作为目标电子病历的相似病历,并将相似病历中的诊断结果作为目标诊断结果。或者,可以将预设初选条件设定为选择最高相似度对应的候选电子病历作为目标电子病历的最相似病历,并将该最相似病历中的诊断结果作为唯一的目标诊断结果。
需要说明的是,一种可选的实现方式是,对于上述步骤S103中提及的诊断结果预测模型,可以利用样本电子病历以及目标函数(此处将其定义为第二目标函数)训练得到。具体的,在进行每轮模型训练时,是采用给定的第二目标函数进行诊断结果预测模型训练的,且该第二目标函数是用于提升目标诊断结果与目标电子病历中的真实诊断结果之间的相似度。通过调整第二目标函数,可以约束候选电子病历与目标电子病历之间的相似性,找到与目标电子病历的整体特征向量越来越类似的候选电子遍历。
具体来讲,为了训练出预测结果更准确的诊断结果预测模型,在训练过程中,本实施例采用的第二目标函数是利用交叉熵公式计算的,如下所示:
可见,通过上述公式(3)可知,当候选电子病历与目标电子病历的整体特征向量越类似时,第二目标函数L的取值越小;反之,当候选电子病历与目标电子病历的整体特征向量越不相似时,第二目标函数L的取值越大。再通过多轮训练,利用有监督的对模型进行训练,不断调整第二目标函数L的取值,使得第二目标函数L的取值收敛时,比如使得第二目标函数L的取值达到最小且基本不变时,可以停止训练,并将此时得到的诊断结果预测模型作为训练好的诊断结果预测模型。
进一步的,还可以利用测试电子病历对生成的诊断结果预测模型进行测试和验证。具体验证过程可参考对比学习模型的测试过程来实现,在此不再赘述。
S104:将目标电子病历中的真实诊断结果,与目标预测诊断结果进行匹配,并根据匹配结果,对目标电子病历进行质检,得到目标电子病历的质检结果。
需要说明的是,在通过步骤S103预测得到目标电子病历对应的目标诊断结果后,进一步还需要利用预设标准维度值对所有目标诊断结果进行校验,并根据校验结果,筛选出与目标电子病历中的真实诊断结果进行匹配的目标诊断结果。其中,预设标准维度值的具体取值可根据实际情况进行设定,本申请对此不进行限定,比如可以将预设标准维度值设定为性别、年龄、科室等。
举例说明:假设已得到了目标电子病历对应的5个满足预设初选条件的目标诊断结果,且预设标准维度值设定为性别、年龄、科室。此时,可以利用性别、年龄、科室这三个标准维度对5个目标诊断结果进行校验。这是因为目标电子病历已记载有患者的性别、年龄、科室等信息。而根据每个目标诊断结果的内容也可以预测出每个目标诊断结果可能对应的患者的性别、年龄段、科室信息,进而可以进行对应匹配校验。例如:假设上述5个目标诊断结果中包含了“子宫肌瘤”这一目标诊断结果,可以预测出该目标诊断结果对应的患者性别应该是女,患病的年龄段应该是大于8岁,且科室应该是妇科。如果目标电子病历已记载有患者的性别不是女、或者年龄不大于8岁、或者科室不是妇科,均可以证明“子宫肌瘤”这一目标诊断结果是不合理的,既可以将其从5个满足预设初选条件的目标诊断结果中删除。以此类推,可以筛选出能够与目标电子病历中的真实诊断结果进行匹配的目标诊断结果,提高匹配效率和准确率。
进一步的,可以将目标电子病历中的真实诊断结果与筛选得到的目标诊断结果进行匹配,并根据匹配结果,对目标电子病历进行质检,得到目标电子病历的质检结果。
具体来讲,若目标诊断结果仅有唯一一个,则需要判断该唯一目标诊断结果是否与目标电子病历中的真实诊断结果是否一致,若是,则说明目标电子病历的诊断结果是正确的,即说明目标电子病历的主诉和现病史字段对应的内容与医生最后给出的诊断结果是自洽的、可以相互解释的,从而表明目标电子病历的质量是符合要求的,且医生的业务水平也是比较高的。反之,若否,则说明目标电子病历的诊断结果是错误的,或者诊断结果可能是正确的,但目标电子病历的主诉和现病史字段对应的内容是错误的,即,目标电子病历的主诉和现病史字段对应的内容与医生最后给出的诊断结果是不自洽的、不能够相互解释,从而表明目标电子病历的质量较差、不符合要求,需要医生进行进一步检查。
若目标诊断结果为多个,则需要判断目标电子病历中的真实诊断结果是否包含在这多个目标诊断结果中,若是,则说明目标电子病历的诊断结果是正确的,即说明目标电子病历的主诉和现病史字段对应的内容与医生最后给出的诊断结果是自洽的、可以相互解释的,从而表明目标电子病历的质量是符合要求的,且医生的业务水平也是比较高的。反之,若否,则说明目标电子病历的诊断结果是错误的,或者诊断结果可能是正确的,但目标电子病历的主诉和现病史字段对应的内容是错误的,即,目标电子病历的主诉和现病史字段对应的内容与医生最后给出的诊断结果是不自洽的、不能够相互解释,从而表明目标电子病历的质量较差、不符合要求,需要医生进行进一步检查。
举例说明:如图4所示,目标诊断结果为5个,即“肺部感染”、“呼吸道感染”、“支气管炎”、“慢性支气管炎”、“肺炎”,目标电子病历中的真实诊断结果为“哮喘”,则可以判断出目标电子病历中的真实诊断结果“哮喘”并不包含在“肺部感染”、“呼吸道感染”、“支气管炎”、“慢性支气管炎”、“肺炎”这5个目标诊断结果中,进而说明目标电子病历的诊断结果是错误的,或者诊断结果可能是正确的,但目标电子病历的主诉和现病史字段对应的内容是错误的,即,目标电子病历的主诉和现病史字段对应的内容与医生最后给出的诊断结果是不自洽的、不能够相互解释,从而表明目标电子病历的质量较差、不符合要求,需要医生进行进一步检查。若经医生的进一步检查,确定出“肺部感染”是正确的诊断结果,而目标电子病历中原始医生给出的诊断结果“哮喘”并不在上述5个目标诊断结果的推荐列表中,因此认为存在诊断不合理现象,导致电子病历的质量较差,无法准确反映患者的实际病情,可能会带来诊疗风险。
综上,本实施例提供的一种电子病历的质检方法,首先获取待质检的目标电子病历,然后再将目标电子病历输入至预先构建的对比学习模型,识别得到目标电子病历中每个子句对应的特征向量;其中,对比学习模型是根据相关句子对和非相关句子对,利用对比学习框架训练得到的;接着,将目标电子病历中每个子句对应的特征向量输入至预先构建的诊断结果预测模型,预测得到目标电子病历对应的、满足预设初选条件的目标诊断结果,进而可以将目标电子病历中的真实诊断结果,与目标预测诊断结果进行匹配,并根据匹配结果,对目标电子病历进行质检,得到目标电子病历的质检结果。可见,由于本申请实施例是利用预先构建的对比学习模型,识别得到目标电子病历中每个子句对应的更具对比性和鉴别性的特征向量,用以进行后续诊断结果的预测,从而能够得到准确性更高的预测诊断结果,进而再利用该预测诊断结果与目标电子病历中的真实诊断结果进行匹配后,可以根据匹配结果对电子病历进行更为准确的质检,从而提高了电子病历质检结果的准确性。
第二实施例
本实施例将对一种电子病历的质检装置进行介绍,相关内容请参见上述方法实施例。
参见图5,为本实施例提供的一种电子病历的质检装置的组成示意图,该装置500包括:
获取单元501,用于获取待质检的目标电子病历;
识别单元502,用于将所述目标电子病历输入至预先构建的对比学习模型,识别得到所述目标电子病历中每个子句对应的特征向量;所述对比学习模型是根据相关句子对和非相关句子对,利用对比学习框架训练得到的;
预测单元503,用于将所述目标电子病历中每个子句对应的特征向量输入至预先构建的诊断结果预测模型,预测得到所述目标电子病历对应的、满足预设初选条件的目标诊断结果;
质检单元504,用于将所述目标电子病历中的真实诊断结果,与所述目标预测诊断结果进行匹配,并根据匹配结果,对所述目标电子病历进行质检,得到所述目标电子病历的质检结果。
在本实施例的一种实现方式中,所述装置还包括:
第一构建单元,用于构建样本句子对,所述样本句子对包括样本相关句子对和样本非相关句子对;
训练单元,用于将所述样本句子对输入初始对比学习模型,通过调整第一目标函数,训练得到所述对比学习模型,并输出所述样本句子对中每个子句对应的样本特征向量;
其中,所述第一目标函数用于提升样本相关句子对中每个子句对应的样本特征向量之间的相似度、且用于降低样本非相关句子对中每个子句对应的样本特征向量之间的相似度。
在本实施例的一种实现方式中,所述第一构建单元包括:
获取子单元,用于获取样本电子病历;
拆分子单元,用于利用预设分隔符,将所述样本电子病历中的主诉和现病史字段对应的子句内容拆分为各个短句;
提取子单元,用于提取所述各个短句中的实体,并判断每两个子句包含的实体之间的类型相似度和内容相似度是否满足预设阈值;
构成子单元,用于若判断出每两个子句包含的实体之间的类型相似度和内容相似度满足预设阈值,则将对应的两个子句构成样本相关句子对;若判断出每两个子句包含的实体之间的类型相似度和内容相似度不满足预设阈值,则将对应的两个子句构成样本非相关句子对,并利用所述样本相关句子对和所述样本非相关句子对构成样本句子对。
在本实施例的一种实现方式中,所述装置还包括:
第二构建单元,用于构建测试句子对,所述测试句子对包括测试相关句子对和测试非相关句子对;
划分单元,用于对所述测试句子对进行打分,并根据打分结果,将所有所述测试句子对划分为预设等级的测试句子对;
测试单元,用于利用所述预设等级的测试句子对,对所述对比学习模型进行测试,并根据测试结果,对所述对比学习模型进行参数更新。
在本实施例的一种实现方式中,所述预测单元503包括:
预处理子单元,用于将所述目标电子病历中每个子句对应的特征向量输入至预先构建的诊断结果预测模型后,对所述目标电子病历中每个子句对应的特征向量和每一候选电子病历中的各个子句对应的特征变量进行预处理,使得预处理后的所述目标电子病历包含的子句数量与每一所述候选电子病历包含的子句数量相同;
第一计算子单元,用于计算预处理后的所述目标电子病历中每个子句的权重,并利用加权乘法,计算出预处理后的所述目标电子病历的整体特征向量;
第二计算子单元,用于计算预处理后的所述候选电子病历中每个子句的权重,并利用加权乘法,计算出每一预处理后的所述候选电子病历的整体特征向量;
第三计算子单元,用于计算预处理后的所述目标电子病历的整体特征向量与每一预处理后的所述候选电子病历的整体特征向量之间的相似度;
确定子单元,用于将所述相似度满足预设阈值的候选电子病历作为相似病历,并将相似病历中满足预设初选条件的诊断结果作为目标诊断结果。
在本实施例的一种实现方式中,所述预处理子单元具体用于:
将所述目标电子病历和每一候选电子病历的中的子句数量规范为N个;并将不足N个的子句利用随机向量补齐,以及将多余N个的子句删除;使得预处理后的所述目标电子病历包含的子句数量与每一所述候选电子病历包含的子句数量相同;所述N为大于0的正整数。
在本实施例的一种实现方式中,所述第一计算子单元包括:
降维子单元,用于利用两个全连接层对所述预处理后的所述目标电子病历中每个子句对应的特征向量进行降维处理,得到每个子句对应的一维标量,并将所述一维标量作为对应子句的权重;
获得子单元,用于将所述目标电子病历中每个子句对应的权重与每个子句对应的特征向量进行加权相乘,得到所述目标电子病历对应的整体特征向量。
在本实施例的一种实现方式中,所述装置还包括:
校验单元,用于在预测得到所述目标电子病历对应的、满足预设初选条件的目标诊断结果之后,利用预设标准维度值对所有所述目标诊断结果进行校验,并根据校验结果,筛选出与所述目标电子病历中的真实诊断结果进行匹配的目标诊断结果。
在本实施例的一种实现方式中,所述诊断结果预测模型是采用第二目标函数训练得到的,所述第二目标函数用于提升目标诊断结果与所述目标电子病历中的真实诊断结果之间的相似度。
进一步地,本申请实施例还提供了一种电子病历的质检设备,包括:处理器、存储器、***总线;
所述处理器以及所述存储器通过所述***总线相连;
所述存储器用于存储一个或多个程序,所述一个或多个程序包括指令,所述指令当被所述处理器执行时使所述处理器执行上述电子病历的质检方法的任一种实现方法。
进一步地,本申请实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当所述指令在终端设备上运行时,使得所述终端设备执行上述电子病历的质检方法的任一种实现方法。
进一步地,本申请实施例还提供了一种计算机程序产品,所述计算机程序产品在终端设备上运行时,使得所述终端设备执行上述电子病历的质检方法的任一种实现方法。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到上述实施例方法中的全部或部分步骤可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者诸如媒体网关等网络通信设备,等等)执行本申请各个实施例或者实施例的某些部分所述的方法。
需要说明的是,本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (12)
1.一种电子病历的质检方法,其特征在于,包括:
获取待质检的目标电子病历;
将所述目标电子病历输入至预先构建的对比学习模型,识别得到所述目标电子病历中每个子句对应的特征向量;所述对比学习模型是根据相关句子对和非相关句子对,利用对比学习框架训练得到的;
将所述目标电子病历中每个子句对应的特征向量输入至预先构建的诊断结果预测模型,预测得到所述目标电子病历对应的、满足预设初选条件的目标诊断结果;
将所述目标电子病历中的真实诊断结果,与所述目标预测诊断结果进行匹配,并根据匹配结果,对所述目标电子病历进行质检,得到所述目标电子病历的质检结果。
2.根据权利要求1所述的方法,其特征在于,所述对比学习模型的构建方式如下:
构建样本句子对,所述样本句子对包括样本相关句子对和样本非相关句子对;
将所述样本句子对输入初始对比学习模型,通过调整第一目标函数,训练得到所述对比学习模型,并输出所述样本句子对中每个子句对应的样本特征向量;
其中,所述第一目标函数用于提升样本相关句子对中每个子句对应的样本特征向量之间的相似度、且用于降低样本非相关句子对中每个子句对应的样本特征向量之间的相似度。
3.根据权利要求2所述的方法,其特征在于,所述构建样本句子对,包括:
获取样本电子病历;
利用预设分隔符,将所述样本电子病历中的主诉和现病史字段对应的子句内容拆分为各个短句;
提取所述各个短句中的实体,并判断每两个子句包含的实体之间的类型相似度和内容相似度是否满足预设阈值;
若是,则将对应的两个子句构成样本相关句子对;若否,则将对应的两个子句构成样本非相关句子对,并利用所述样本相关句子对和所述样本非相关句子对构成样本句子对。
4.根据权利要求2所述的方法,其特征在于,所述方法还包括:
构建测试句子对,所述测试句子对包括测试相关句子对和测试非相关句子对;
对所述测试句子对进行打分,并根据打分结果,将所有所述测试句子对划分为预设等级的测试句子对;
利用所述预设等级的测试句子对,对所述对比学习模型进行测试,并根据测试结果,对所述对比学习模型进行参数更新。
5.根据权利要求1所述的方法,其特征在于,所述将所述目标电子病历中每个子句对应的特征向量输入至预先构建的诊断结果预测模型,预测得到所述目标电子病历对应的、满足预设初选条件的目标诊断结果,包括:
将所述目标电子病历中每个子句对应的特征向量输入至预先构建的诊断结果预测模型后,对所述目标电子病历中每个子句对应的特征向量和每一候选电子病历中的各个子句对应的特征变量进行预处理,使得预处理后的所述目标电子病历包含的子句数量与每一所述候选电子病历包含的子句数量相同;
计算预处理后的所述目标电子病历中每个子句的权重,并利用加权乘法,计算出预处理后的所述目标电子病历的整体特征向量;
计算预处理后的所述候选电子病历中每个子句的权重,并利用加权乘法,计算出每一预处理后的所述候选电子病历的整体特征向量;
计算预处理后的所述目标电子病历的整体特征向量与每一预处理后的所述候选电子病历的整体特征向量之间的相似度;
将所述相似度满足预设阈值的候选电子病历作为相似病历,并将相似病历中满足预设初选条件的诊断结果作为目标诊断结果。
6.根据权利要求5所述的方法,其特征在于,所述对所述目标电子病历中每个子句对应的特征向量和每一候选电子病历中的各个子句对应的特征变量进行预处理,使得预处理后的所述目标电子病历包含的子句数量与每一所述候选电子病历包含的子句数量相同,包括:
将所述目标电子病历和每一候选电子病历的中的子句数量规范为N个;并将不足N个的子句利用随机向量补齐,以及将多余N个的子句删除;使得预处理后的所述目标电子病历包含的子句数量与每一所述候选电子病历包含的子句数量相同;所述N为大于0的正整数。
7.根据权利要求5所述的方法,其特征在于,所述计算预处理后的所述目标电子病历中每个子句的权重,并利用加权乘法,计算出预处理后的所述目标电子病历的整体特征向量,包括:
利用两个全连接层对所述预处理后的所述目标电子病历中每个子句对应的特征向量进行降维处理,得到每个子句对应的一维标量,并将所述一维标量作为对应子句的权重;
将所述目标电子病历中每个子句对应的权重与每个子句对应的特征向量进行加权相乘,得到所述目标电子病历对应的整体特征向量。
8.根据权利要求1所述的方法,其特征在于,在预测得到所述目标电子病历对应的、满足预设初选条件的目标诊断结果之后,所述方法还包括:
利用预设标准维度值对所有所述目标诊断结果进行校验,并根据校验结果,筛选出与所述目标电子病历中的真实诊断结果进行匹配的目标诊断结果。
9.根据权利要求1至8任一项所述的方法,所述诊断结果预测模型是采用第二目标函数训练得到的,所述第二目标函数用于提升目标诊断结果与所述目标电子病历中的真实诊断结果之间的相似度。
10.一种电子病历的质检装置,其特征在于,包括:
获取单元,用于获取待质检的目标电子病历;
识别单元,用于将所述目标电子病历输入至预先构建的对比学习模型,识别得到所述目标电子病历中每个子句对应的特征向量;所述对比学习模型是根据相关句子对和非相关句子对,利用对比学习框架训练得到的;
预测单元,用于将所述目标电子病历中每个子句对应的特征向量输入至预先构建的诊断结果预测模型,预测得到所述目标电子病历对应的、满足预设初选条件的目标诊断结果;
质检单元,用于将所述目标电子病历中的真实诊断结果,与所述目标预测诊断结果进行匹配,并根据匹配结果,对所述目标电子病历进行质检,得到所述目标电子病历的质检结果。
11.一种电子病历的质检设备,其特征在于,包括:处理器、存储器、***总线;
所述处理器以及所述存储器通过所述***总线相连;
所述存储器用于存储一个或多个程序,所述一个或多个程序包括指令,所述指令当被所述处理器执行时使所述处理器执行权利要求1-9任一项所述的方法。
12.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有指令,当所述指令在终端设备上运行时,使得所述终端设备执行权利要求1-9任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111342558.4A CN114238558A (zh) | 2021-11-12 | 2021-11-12 | 一种电子病历的质检方法、装置、存储介质及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111342558.4A CN114238558A (zh) | 2021-11-12 | 2021-11-12 | 一种电子病历的质检方法、装置、存储介质及设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114238558A true CN114238558A (zh) | 2022-03-25 |
Family
ID=80749291
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111342558.4A Pending CN114238558A (zh) | 2021-11-12 | 2021-11-12 | 一种电子病历的质检方法、装置、存储介质及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114238558A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116403728A (zh) * | 2023-06-09 | 2023-07-07 | 吉林大学第一医院 | 医疗就诊数据的数据处理装置和相关设备 |
-
2021
- 2021-11-12 CN CN202111342558.4A patent/CN114238558A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116403728A (zh) * | 2023-06-09 | 2023-07-07 | 吉林大学第一医院 | 医疗就诊数据的数据处理装置和相关设备 |
CN116403728B (zh) * | 2023-06-09 | 2023-08-29 | 吉林大学第一医院 | 医疗就诊数据的数据处理装置和相关设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106874643B (zh) | 基于词向量自动构建知识库实现辅助诊疗的方法和*** | |
US10929420B2 (en) | Structured report data from a medical text report | |
US11341631B2 (en) | System and method for automatically detecting a physiological condition from a medical image of a patient | |
WO2021151353A1 (zh) | 医学实体关系抽取方法、装置、计算机设备及可读存储介质 | |
CN108399163A (zh) | 结合词聚合与词组合语义特征的文本相似性度量方法 | |
Fang et al. | Feature Selection Method Based on Class Discriminative Degree for Intelligent Medical Diagnosis. | |
CN111584021A (zh) | 病案信息校验方法、装置、电子设备及存储介质 | |
CN111191415A (zh) | 基于原始手术数据的手术分类编码方法 | |
CN115472252A (zh) | 基于对话的电子病历生成方法、装置、设备和存储介质 | |
Omeroglu et al. | Multi-modal voice pathology detection architecture based on deep and handcrafted feature fusion | |
CN111145903A (zh) | 获取眩晕症问诊文本的方法、装置、电子设备及问诊*** | |
CN113111152A (zh) | 一种基于知识蒸馏和情绪集成模型的抑郁症检测方法 | |
CN112699230A (zh) | 一种恶性肿瘤诊疗知识获取方法及装置 | |
Lu et al. | Speech depression recognition based on attentional residual network | |
CN111986814A (zh) | 一种红斑狼疮患者的狼疮性肾炎预测模型的建模方法 | |
CN114662477A (zh) | 基于中医对话的停用词表生成方法、装置及存储介质 | |
CN113254609B (zh) | 一种基于负样本多样性的问答模型集成方法 | |
CN114238558A (zh) | 一种电子病历的质检方法、装置、存储介质及设备 | |
CN114298314A (zh) | 一种基于电子病历的多粒度因果关系推理方法 | |
CN113658690A (zh) | 一种智能导医方法、装置、存储介质以及电子设备 | |
CN116312915B (zh) | 一种电子病历中药物术语标准化关联方法及*** | |
CN115862897A (zh) | 一种基于临床数据的症候群监测方法及*** | |
CN116011450A (zh) | 分词模型训练方法、***、设备、存储介质及分词方法 | |
CN115964475A (zh) | 一种用于医疗问诊的对话摘要生成方法 | |
CN105956362B (zh) | 一种可信的病历结构化方法及*** |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |