CN112530533B

CN112530533B - 病历文档检测方法、装置及电子设备

Info

Publication number: CN112530533B
Application number: CN202011380398.8A
Authority: CN
Inventors: 施振辉; 夏源; 王春宇; 代小亚; 黄海峰; 陆超
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2020-11-30
Filing date: 2020-11-30
Publication date: 2024-04-02
Anticipated expiration: 2040-11-30
Also published as: CN112530533A

Abstract

本申请公开了病历文档检测方法、装置及电子设备，涉及人工智能医疗和深度学习技术等人工智能领域。具体实现方案为：获取病历文档中至少一个实体；识别每个实体对应的第一身份属性信息；获取所述至少一个实体对应的第一身份属性信息的冲突信息；依据所述冲突信息对所述病历文档进行异常检测。根据本申请的技术，解决了病历文档检测方式存在的检测效果比较差的问题，提高了病历文档的检测效果。

Description

病历文档检测方法、装置及电子设备

技术领域

本申请涉及人工智能领域，尤其涉及人工智能医疗和深度学习技术领域，具体涉及一种病历文档检测方法、装置及电子设备。

背景技术

随着电子技术的发展，现阶段医生书写病历文件时通常采用电子病历***。由于电子病历***中的病历编辑器无法同时兼顾便利性和高质量病历文件的采集，因此难免会导致病历文件中出现各种各样的错误，导致病历文件存在质量问题。

目前，针对病历文件的质量管控方式通常是进行人工复核，由质控人员抽样对病历文件进行质量检测，或者是仅仅对病历文件进行形式检测，以判断病历文件的完整性。

发明内容

本公开提供了一种病历文档检测方法、装置及电子设备。

根据本公开的第一方面，提供了一种病历文档检测方法，包括：

获取病历文档中至少一个实体；

识别每个实体对应的第一身份属性信息；

获取所述至少一个实体对应的第一身份属性信息的冲突信息；

依据所述冲突信息对所述病历文档进行异常检测。

根据本公开的第二方面，提供了一种病历文档检测装置，包括：

第一获取模块，用于获取病历文档中至少一个实体；

识别模块，用于识别每个实体对应的第一身份属性信息；

第二获取模块，用于获取所述至少一个实体对应的第一身份属性信息的冲突信息；

异常检测模块，用于依据所述冲突信息对所述病历文档进行异常检测。

根据本公开的第三方面，提供了一种电子设备，包括：

至少一个处理器；以及

与至少一个处理器通信连接的存储器；其中，

存储器存储有可被至少一个处理器执行的指令，该指令被至少一个处理器执行，以使至少一个处理器能够执行第一方面中的任一项方法。

根据本公开的第四方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，该计算机指令用于使计算机执行第一方面中的任一项方法。

根据本公开的第五方面，提供了一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现第一方面中的任一项方法。

根据本申请的技术解决了病历文档检测方式存在的检测效果比较差的问题，提高了病历文档的检测效果。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本申请的限定。其中：

图1是根据本申请第一实施例的病历文档检测方法的流程示意图；

图2是根据本申请第二实施例的病历文档检测装置的结构示意图；

图3是用来实现本申请实施例的病历文档检测方法的电子设备的框图。

具体实施方式

以下结合附图对本申请的示范性实施例做出说明，其中包括本申请实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本申请的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

第一实施例

如图1所示，本申请提供一种病历文档检测方法，包括如下步骤：

步骤S101：获取病历文档中至少一个实体。

本实施例中，病历文档检测方法涉及人工智能技术，具体涉及人工智能医疗和深度学习技术领域，其可以广泛应用于临床辅助决策***、病案质控、内涵质控和终末质控等诸多场景。该方法可以应用于电子设备，该电子设备可以为服务器，也可以为终端，这里不做具体限定。

病历是医务人员对患者疾病的发生、发展、转归、检查、诊断和治疗等医疗活动过程的记录，其记录的方式通常可以有两种，一种为纸质病历，另一种为电子病历，电子病历指的是采用电子文档方式记录医疗活动的过程，其是对医疗活动信息的数字化。

目前，可以有多种方式对病历进行电子化处理，比如，采用文本文件、word文档或扫描以图像文件方式对病历进行电子化处理，又比如，通过病历编辑器采用统一的模板文档编辑，以生成病历文档。

本实施例中，所述病历文档即为电子文档，其内包括患者针对疾病的主诉、现病史、症状描述、化验、检查、诊断和治疗等一系列医疗活动事件的描述信息，这些医疗活动事件的描述信息的总称可以称之为病历内涵。

而所述病历文档中实体指的是患者在医疗活动过程中的医疗活动事件，包括主诉、现病史、症状描述、化验、检查、诊断和治疗等医疗活动事件，在每个医疗活动事件下，都记录有其相应的描述信息。

也就是说，病历内涵可以具体包括患者对疾病的主诉的描述信息、患者现病史的描述信息、症状的描述信息和疾病治疗过程的描述信息等，这里不对其进行一一赘述。

所述病历文档中可以包括一个或多个实体，在病历文档比较简单如患者为新生儿或者患者为疾病初发的情况下，病历文档内可能仅记录患者的一个医疗活动事件，即病历文档中仅包括一个实体。

在具体实现过程中，可以通过获取病历文档中的实体词，来获取所述病历文档中至少一个实体，所述实体词指的是医务人员在记录医疗活动事件时，对医疗活动事件的标识，如实体词“诊断”指的是对疾病诊断事件的标识，实体词“治疗”指的是对疾病治疗事件的标识。

由于病历文档通常采用半结构化数据存储，其内包含自然语言文本和一些结构化信息，比如性别和年龄等。因此，可以通过自然语言理解(Natural LanguageUnderstanding，NLU)技术、分词或者实体识别等工具和方法，提取出病历文档中的一些实体词，如主诉、现病史、疾病、症状、化验、检查和手术等，以获取病历文档中至少一个实体。

相应的，为了增加病历文档的可读性，对于实体词和实体的描述信息通常是同步出现的，因此，还可以在实体词的对应位置如紧跟实体词之后的位置，获取相应实体的描述信息。

步骤S102：识别每个实体对应的第一身份属性信息。

所述病历文档不仅包括病历内涵，其内还包括有患者的基本信息，如患者的身份属性信息，该身份属性信息可以包括性别属性信息和年龄属性信息等。

性别属性信息可以包括该患者是男性还是女性，年龄属性信息可以由患者的年龄进行区间划分得到，可以被划分为该患者是新生儿、儿童、成年还是老年。如当患者的年龄为0至1岁的情况下，其可以被划分为新生儿，当患者的年龄为1至18岁的情况下，其可以被划分为儿童，当患者的年龄为18至50岁的情况下，其可以被划分为成年，而当患者的年龄在50岁以上的情况下，其可以被划分为老年。

本申请实施例的目的即是对病历内涵进行质量检测，以判断病历内涵中描述信息是否逻辑合理，其中，逻辑合理指的是病历内涵中描述信息针对患者的身份属性信息来说是合理的。

由于病历文档通常是对一个患者的医疗活动过程的记录，因此其记录的信息可以与该患者的身份属性信息相关，相应的，病历内涵中描述信息可以有其对应的身份属性信息。而病历内涵中描述信息是对医疗活动事件的描述信息，因此，该描述信息对应的身份属性信息即为该描述信息对应的实体具有的身份属性信息。

比如，疾病诊断的描述信息为高血压，由于高血压通常是成年或老年的疾病，因此，该实体对应的身份属性信息为成年或老年。

又比如，疾病诊断的描述信息与性别相关，因此，该实体可以对应与性别相关的身份属性信息如男性或女性。

在具体实现过程中，可以通过识别每个实体对应的描述信息的身份属性信息，来识别每个实体对应的第一身份属性信息。其中，所述第一身份属性信息可以为年龄属性信息，也可以为性别属性信息，或是包括年龄属性信息和性别属性信息。

其识别方式可以有多种，比如，可以通过目标模型对每个实体对应的描述信息的身份属性信息进行识别，所述目标模型可以为基于神经网络如卷积神经网络或循环神经网络所构建的深度学习模型。

具体的，在识别之前，可以构建训练数据集对该目标模型进行训练，所述训练数据集可以包括训练输入样本和训练输出样本。

训练输入样本可以包括多份病历文档的实体列表，记为E＝[e₁，e₂，…，e_m]，e_i表示第i份病历文档的实体列表，m为大于1的正整数。

实体列表e_i可以记为e_i＝[w₁，w₂，…，w_n]，其内包括第i份病历文档中的所有实体信息，且其实体可以为去重后的所有实体。其中，w_j可以为第i份病历文档中的第j个实体信息，该实体信息可以包括实体词和该实体词对应的描述信息，n也为大于1的正整数。

训练输出样本可以为实体词对应的身份属性信息的标签，在身份属性信息为性别属性信息的情况下，该标签可以为男性或女性，在身份属性信息为年龄属性信息的情况下，该标签可以为新生儿、儿童、成人或老年。

可以将训练输入样本输入至目标模型，得到模型的输出，根据实体词对应的标签与模型的输出计算二者的损失，并通过梯度下降算法，更新神经网络的参数。经过多轮的迭代，得到训练好的模型参数，此时目标模型训练完成。

训练完成之后，即可以通过该目标模型预测所述病历文档中每个实体对应的第一身份属性信息。可以将每个实体词的描述信息输入至该目标模型，以得到该实体词对应的第一身份属性信息。

若训练时是基于性别属性信息进行训练的，则基于目标模型得到的是每个实体对应的性别属性信息，若训练时是基于年龄属性信息进行训练的，则基于目标模型得到的是每个实体对应的年龄属性信息。当然，在所述第一身份属性信息包括性别属性信息和年龄属性信息的情况下，可以采用两个目标模型分别训练，并基于训练好的这两个目标模型得到每个实体对应的性别属性信息和年龄属性信息。

又比如，可以通过将实体词对应的描述信息与预先构建的数据库进行匹配，以确定每个实体对应的第一身份属性信息。

具体的，所述预先构建的数据库中可以关联存储有目标词与身份属性信息，比如，目标词“高血压”可以关联存储身份属性信息“老年”，又比如，目标词“男科”可以关联存储身份属性信息“男性”。

在实体词对应的描述信息包括数据库中的目标词，或者包括与数据库中的目标词相似的词，则可以确定该实体词对应的描述信息匹配成功，相应获取匹配成功的目标词关联的身份属性信息，并将其作为该实体对应的第一身份属性信息。

步骤S103：获取所述至少一个实体对应的第一身份属性信息的冲突信息。

通常，在病历文档质量正常的情况下，病历内涵中所述至少一个实体对应的第一身份属性信息通常是一致的，且与患者本身的第二身份属性信息一致。在这种应用前提下，可以通过获取所述至少一个实体对应的第一身份属性信息的冲突信息，来判断病历内涵中相关描述是否逻辑合理。

所述冲突信息可以仅包括所述至少一个实体对应的第一身份属性信息与患者的第二身份属性信息之间的第一冲突信息，也可以仅包括所述至少一个实体对应的第一身份属性信息之间的第二冲突信息，或者可以同时包括第一冲突信息和第二冲突信息。

所述第一冲突信息用于表征所述至少一个实体对应的第一身份属性信息与患者的第二身份属性信息之间的冲突情况。在所述至少一个实体中存在一个或多个实体对应的第一身份属性信息与患者的第二身份属性信息不同的情况下，表明所述至少一个实体对应的第一身份属性信息与患者的第二身份属性信息之间存在冲突。在所述至少一个实体中所有实体对应的第一身份属性信息与患者的第二身份属性信息均相同的情况下，表明所述至少一个实体对应的第一身份属性信息与患者的第二身份属性信息之间不存在冲突。

比如，实体词“疾病诊断”对应的身份属性信息为男性，而病历文档的患者的身份属性信息为女性，可知，该实体词对应的身份属性信息与患者本身的身份属性信息不同，该实体词对应的第一身份属性信息与患者的第二身份属性信息之间存在冲突，该实体词对应的描述信息存在逻辑问题。

所述第二冲突信息用于表征所述至少一个实体对应的第一身份属性信息之间的冲突情况。在所述至少一个实体中存在两个或多个实体对应的第一身份属性信息不同的情况下，表明所述至少一个实体对应的第一身份属性信息之间存在冲突。在所述至少一个实体中所有实体对应的第一身份属性信息均相同的情况下，表明所述至少一个实体对应的第一身份属性信息之间不存在冲突。

比如，实体词“疾病诊断”对应的身份属性信息为老年，即疾病诊断的描述信息表明该患者的疾病为老年人的疾病如高血压，而实体词“疾病检查”对应的身份属性信息为儿童，即疾病检查的描述信息表明该患者所做的检查为儿童的检查如儿童骨骼成长的检查。可知，两个实体对应的第一身份属性信息不同，表明所述至少一个实体对应的第一身份属性信息之间不存在冲突。

所述冲突信息可以采用列表方式存储所述至少一个实体中存在冲突的实体词，并可以采用一个或多个列表进行存储。在所述冲突信息仅包括第一冲突信息或第二冲突信息的情况下，可以采用一个列表存储所述至少一个实体中存在冲突的所有实体词，在所述冲突信息同时包括第一冲突信息和第二冲突信息的情况下，可以采用两个列表分别存储第一冲突信息中的实体词和第二冲突信息的所有实体词。当然，在所述至少一个实体中不存在冲突实体的情况下，列表中可以为空。

另外，可以通过判断所述至少一个实体对应的第一身份属性信息之间是否存在冲突，并获取存在冲突的实体词，和/或，通过判断所述至少一个实体对应的第一身份属性信息与第二身份属性信息之间是否存在冲突，并获取存在冲突的实体词，来获取所述冲突信息。

当然，在不存在冲突的实体词的情况下，所述冲突信息对应的列表可以为空，或者所述冲突信息可以用零表征。

步骤S104：依据所述冲突信息对所述病历文档进行异常检测。

在所述冲突信息表征所述至少一个实体对应的第一身份属性信息之间存在冲突，和/或，所述冲突信息表征所述至少一个实体对应的第一身份属性信息与患者的第二身份属性信息存在冲突的情况下，可以确定病历内涵中相关描述存在逻辑问题，病历文档存在异常。

在一可选实施方式中，可以检测所述冲突信息对应的列表中是否存在实体词，在存在实体词的情况下，确定遍历内涵中相关描述存在逻辑问题，病历文档存在异常，且可以确定病历内涵中该实体词对应的描述信息存在逻辑问题。在不存在实体词的情况下，确定病历文档正常。

本实施例中，通过获取病历文档中至少一个实体；并识别每个实体对应的第一身份属性信息；获取所述至少一个实体对应的第一身份属性信息的冲突信息；依据所述冲突信息对所述病历文档进行异常检测。如此，可以在性别属性和/或年龄属性的维度上，自动对全部的病历文档中病历内涵进行逻辑合理性的检测，相对于人工复核和对病历文档中内容的形式检测，可以大大提高病历文档的检测效果。

可选的，所述步骤S102具体包括：

将目标实体输入目标模型进行概率预测，以输出所述目标实体的M个概率，所述M个概率分别为所述目标实体对应的M个预设身份属性信息的概率，所述M为大于1的正整数；

在所述M个概率中存在不同的概率值，且最大的概率值大于预设阈值的情况下，将所述最大的概率值对应的预设身份属性信息确定为所述目标实体对应的第一身份属性信息，其中，所述目标实体为所述至少一个实体中的任一实体。

本实施方式中，可以针对所述至少一个实体中每个目标实体，将目标实体输入至预先训练好的目标模型进行概率预测，所述目标模型可以输出所述目标实体的M个概率，所述M个概率分别为所述目标实体对应的M个预设身份属性信息的概率。

所述M的值可以根据预设身份属性信息的数量确定，比如，在身份属性信息为性别属性信息的情况下，由于预设身份属性信息的数量为2，即男性和女性，则目标模型可以输出两个概率，分别为目标实体对应男性的概率和目标实体对应女性的概率。

又比如，在身份属性信息为年龄属性信息的情况下，由于预设身份属性信息的数量为4，即新生儿、儿童、成年和老年，则目标模型可以输出四个概率，分别为目标实体对应新生儿的概率、目标实体对应儿童的概率、目标实体对应成年的概率和目标实体对应老年的概率。

在所述M个概率中存在不同的概率值，且最大的概率值大于预设阈值的情况下，将所述最大的概率值对应的预设身份属性信息确定为所述目标实体对应的第一身份属性信息。

在所述M个概率中概率值均相同，或者所述M个概率中最大的概率值小于或等于预设阈值的情况下，确定所述目标实体为身份属性信息。

比如，目标模型输出[o₁，o₂]，o₁表示目标实体对应男性的概率，o₂表示目标实体对应女性的概率。o₁大于o₂且o₁大于0.9时，目标实体对应的第一身份属性信息为男性，o₂大于o₁且o₂大于0.9时，目标实体对应的第一身份属性信息为女性，其他情况目标实体无对应的性别属性。

又比如，目标模型输出[p₁，p₂，p₃，p₄]，p₁表示目标实体对应新生儿的概率，p₂表示目标实体对应儿童的概率，p₃表示目标实体对应成年的概率，p₄表示目标实体对应老年的概率。在p₁为最大值且大于0.9的情况下，目标实体对应的第一身份属性信息为新生儿，在p₂为最大值且大于0.9的情况下，目标实体对应的第一身份属性信息为儿童，在p₃为最大值且大于0.9的情况下，目标实体对应的第一身份属性信息为成年，在p₄为最大值且大于0.9的情况下，目标实体对应的第一身份属性信息为老年，其他情况目标实体无对应的年龄属性。

本实施方式中，基于深度学习技术，对所述病历文档中实体对应的第一身份属性信息进行识别，从而可以避免对所述病历文档中实体对应的身份属性信息进行标注，从而可以节省人力资源和成本，并可以提高病历文档的检测覆盖率。

可选的，所述步骤S103之前，所述方法还包括：

获取所述病历文档的患者的第二身份属性信息；

所述步骤S103具体包括：

在所述至少一个实体中存在冲突实体的情况下，生成包括所述冲突实体的第一冲突信息，所述冲突实体为对应的第一身份属性信息与所述第二身份属性信息不同的实体。

本实施方式中，所述冲突信息中可以包括第一冲突信息，所述第一冲突信息可以为所述至少一个实体对应的第一身份属性信息与患者的第二身份属性信息之间的冲突信息，因此，在步骤S103之前，还需要获取所述病历文档的患者的第二身份属性信息。

具体的，可以从病历文档中的结构化数据中解析患者的基本信息，并提取患者的性别和年龄的相关信息。患者的性别属性信息可以直接从患者的性别上直接得到，而患者的年龄属性信息可以由患者的年龄进行区间划分得到，可以被划分为该患者是新生儿、儿童、成年还是老年。如当患者的年龄为0至1岁的情况下，其可以被划分为新生儿，当患者的年龄为1至18岁的情况下，其可以被划分为儿童，当患者的年龄为18至50岁的情况下，其可以被划分为成年，而当患者的年龄在50岁以上的情况下，其可以被划分为老年。

之后，可以判断每个实体的第一身份属性信息是否与所述第二身份属性信息相同，在不同的情况下，确定该实体为冲突实体，并将其添加至第一冲突信息中，直至完成所述病历文档中所有实体的判断。

本实施方式中，通过获取所述至少一个实体对应的第一身份属性信息与患者的第二身份属性信息之间的冲突信息，并依据该冲突信息对病历文档进行异常检测。如此，可以检测出病历文档中与患者的第二身份属性信息存在冲突的实体，从而可以从逻辑上判断病历文档中病历内涵是否合理，进而可以提高病历文档的检测效果。

可选的，所述步骤S103具体包括：

在所述病历文档存在冲突实体组合的情况下，生成包括所述冲突实体组合的第二冲突信息，所述冲突实体组合为对应的第一身份属性信息不同的实体的组合。

本实施方式中，所述冲突信息中可以仅包括第二冲突信息，或者在包括第一冲突实体的同时，还包括第二冲突实体，所述第二冲突信息可以为所述至少一个实体对应的第一身份属性信息之间的冲突信息。

本实施方式中，可以判断每个实体组合的多个第一身份属性信息之间是否相同，在实体组合中实体的第一身份属性信息全部不同的情况下，确定对应的第一身份属性信息不同的实体的组合为冲突实体组合，并将其添加至第二冲突信息中，直至完成所述病历文档中所有实体组合的判断。其中，所述实体组合为任意两个或多个实体。

本实施方式中，通过获取所述至少一个实体对应的第一身份属性信息之间的冲突信息，并依据该冲突信息对病历文档进行异常检测。如此，可以检测出病历文档中对应的第一身份属性信息之间本身存在冲突的实体组合，即病历内涵中实体相互间的描述信息存在异常，如主诉的描述信息和现病史的描述信息之间存在冲突，从而可以从逻辑上判断病历文档中病历内涵是否合理，进而可以提高病历文档的检测效果。

可选的，所述步骤S104之前，所述方法还包括：

确定所述冲突实体在所述病历文档的第一位置；

在所述病历文档的第二位置存在与所述患者关联的第一对象，且所述第一对象的身份属性信息与所述冲突实体对应的第一身份属性信息相同的情况下，将所述冲突实体从所述第一冲突信息中删除。

本实施方式中，所述第一冲突信息中的冲突实体对应的描述信息可能并不是对患者的相关描述，有可能是对与患者有关联的第一对象的相关描述，如患者的配偶、母亲和孩子等。

在患者的身份属性信息与第一对象的身份属性信息不同的情况下，其冲突实体对应的第一身份属性信息可能会与患者的第二身份属性信息不同，在该种情况下，其病历内涵的逻辑是合理的。因此，针对第一冲突信息中的每个冲突实体，可以进行双主体过滤。

具体的，可以确定所述冲突实体在所述病历文档的第一位置，判断所述病历文档的第二位置是否存在与所述患者关联的第一对象。其中，所述病历文档的第二位置可以为所述第一位置附近的位置，如文字差距不能相隔预设阈值的位置，或者与冲突实体词处于同一行的位置。

可以通过搜索第二位置是否有主语词如妻子、丈夫、母亲或儿子等，来判断所述病历文档的第二位置是否存在与所述患者关联的第一对象。若存在与所述患者关联的第一对象，且所述第一对象的身份属性信息明确，如丈夫的性别属性信息为男性，母亲的性别属性信息为女性，而且所述第一对象的身份属性信息与所述冲突实体对应的第一身份属性信息相同的情况下，表明该冲突实体的描述信息在逻辑上是合理的，可以将所述冲突实体从所述第一冲突信息中删除。

而针对第二冲突信息中的冲突实体组合也可以采用同样的双主体过滤的方式，对所述第二冲突信息中的冲突实体组合进行过滤。比如，搜索冲突实体组合中的两个实体的位置的附近是否存在主语词，如一实体的位置的附近存在主语词，其主语词为丈夫，该对象的身份属性信息与冲突实体组合中另一实体对应的第一身份属性信息相同，且该实体对应的第一身份属性信息与患者的第二身份属性信息相同，则表明该冲突实体组合的描述信息在逻辑上是合理的，可以将所述冲突实体组合从所述第二冲突信息中删除。

之后，可以依据过滤后的第一冲突信息和/或第二冲突信息，对病历文档进行异常检测。

本实施方式中，通过双主体过滤的方式对第一冲突信息和/或第二冲突信息进行过滤，之后可以依据过滤后的第一冲突信息和/或第二冲突信息，对病历文档进行异常检测，如此，可以将病历内涵的逻辑实质上是合理的冲突实体和冲突实体组合进行删除，避免其对病历文档进行异常检测的干扰，进一步提高病历文档的检测效果。

第二实施例

如图2所示，本申请提供一种病历文档检测装置200，包括：

第一获取模块201，用于获取病历文档中至少一个实体；

识别模块202，用于识别每个实体对应的第一身份属性信息；

第二获取模块203，用于获取所述至少一个实体对应的第一身份属性信息的冲突信息；

异常检测模块204，用于依据所述冲突信息对所述病历文档进行异常检测。

可选的，其中，所述识别模块202包括：

概率预测单元，用于将目标实体输入目标模型进行概率预测，以输出所述目标实体的M个概率，所述M个概率分别为所述目标实体对应的M个预设身份属性信息的概率，所述M为大于1的正整数；

确定单元，用于在所述M个概率中存在不同的概率值，且最大的概率值大于预设阈值的情况下，将所述最大的概率值对应的预设身份属性信息确定为所述目标实体对应的第一身份属性信息，其中，所述目标实体为所述至少一个实体中的任一实体。

可选的，还包括：

第三获取模块，用于获取所述病历文档的患者的第二身份属性信息；

所述第二获取模块203包括：

第一生成单元，用于在所述至少一个实体中存在冲突实体的情况下，生成包括所述冲突实体的第一冲突信息，所述冲突实体为对应的第一身份属性信息与所述第二身份属性信息不同的实体。

可选的，其中，所述第二获取模块203包括：

第二生成单元，用于在所述病历文档存在冲突实体组合的情况下，生成包括所述冲突实体组合的第二冲突信息，所述冲突实体组合为对应的第一身份属性信息不同的实体的组合。

可选的，还包括：

确定模块，用于确定所述冲突实体在所述病历文档的第一位置；

删除模块，用于在所述病历文档的第二位置存在与所述患者关联的第一对象，且所述第一对象的身份属性信息与所述冲突实体对应的第一身份属性信息相同的情况下，将所述冲突实体从所述第一冲突信息中删除。

本申请提供的病历文档检测装置200能够实现上述病历文档检测方法实施例实现的各个过程，且能够达到相同的有益效果，为避免重复，这里不再赘述。

根据本申请的实施例，本申请还提供了一种电子设备、计算机程序产品和一种可读存储介质。

如图3所示，是根据本申请实施例的病历文档检测方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本申请的实现。

如图3所示，该电子设备包括：一个或多个处理器301、存储器302，以及用于连接各部件的接口，包括高速接口和低速接口。各个部件利用不同的总线互相连接，并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理，包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如，耦合至接口的显示设备)上显示GUI的图形信息的指令。在其它实施方式中，若需要，可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样，可以连接多个电子设备，各个设备提供部分必要的操作(例如，作为服务器阵列、一组刀片式服务器、或者多处理器***)。图3中以一个处理器301为例。

存储器302即为本申请所提供的非瞬时计算机可读存储介质。其中，所述存储器存储有可由至少一个处理器执行的指令，以使所述至少一个处理器执行本申请所提供的病历文档检测方法。本申请的非瞬时计算机可读存储介质存储计算机指令，该计算机指令用于使计算机执行本申请所提供的病历文档检测方法。

存储器302作为一种非瞬时计算机可读存储介质，可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块，如本申请实施例中的病历文档检测方法对应的程序指令/模块(例如，附图2所示的第一获取模块201、识别模块202、第二获取模块203和异常检测模块204)。处理器301通过运行存储在存储器302中的非瞬时软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例中的病历文档检测方法。

存储器302可以包括存储程序区和存储数据区，其中，存储程序区可存储操作***、至少一个功能所需要的应用程序；存储数据区可存储根据本申请实施例的方法的电子设备的使用所创建的数据等。此外，存储器302可以包括高速随机存取存储器，还可以包括非瞬时存储器，例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中，存储器302可选包括相对于处理器301远程设置的存储器，这些远程存储器可以通过网络连接至病历文档检测方法的电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

本申请实施例的方法的电子设备还可以包括：输入装置303和输出装置304。处理器301、存储器302、输入装置303和输出装置304可以通过总线或者其他方式连接，图3中以通过总线连接为例。

输入装置303可接收输入的数字或字符信息，以及产生与本申请实施例的方法的电子设备的用户设置以及功能控制有关的键信号输入，例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置304可以包括显示设备、辅助照明装置(例如，LED)和触觉反馈装置(例如，振动电机)等。该显示设备可以包括但不限于，液晶显示器(LCD)、发光二极管(LED)显示器和等离子体显示器。在一些实施方式中，显示设备可以是触摸屏。

此处描述的***和技术的各种实施方式可以在数字电子电路***、集成电路***、专用ASIC(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程***上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储***、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储***、该至少一个输入装置、和该至少一个输出装置。

这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令，并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的，术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如，磁盘、光盘、存储器、可编程逻辑装置(PLD))，包括，接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。

为了提供与用户的交互，可以在计算机上实施此处描述的***和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的***和技术实施在包括后台部件的计算***(例如，作为数据服务器)、或者包括中间件部件的计算***(例如，应用服务器)、或者包括前端部件的计算***(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的***和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算***中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将***的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机***可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与VPS服务("Virtual Private Server"，或简称"VPS")中，存在的管理难度大，业务扩展性弱的缺陷。

本实施例中，通过获取病历文档中至少一个实体；并识别每个实体对应的第一身份属性信息；获取所述至少一个实体对应的第一身份属性信息的冲突信息；依据所述冲突信息对所述病历文档进行异常检测。如此，可以在性别属性和/或年龄属性的维度上，自动对全部的病历文档中病历内涵进行逻辑合理性的检测，相对于人工复核和对病历文档中内容的形式检测，可以大大提高病历文档的检测效果。因此，根据本申请实施例的技术方案，很好地解决了病历文档检测方式存在的检测效果比较差的问题。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本申请公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本申请保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等，均应包含在本申请保护范围之内。

Claims

1.一种病历文档检测方法，包括：

获取病历文档中至少一个实体；实体指的是患者在医疗活动过程中的医疗活动事件；

识别每个实体对应的第一身份属性信息；所述第一身份属性信息是实体对应的医疗活动事件的描述信息指示的身份属性信息；

获取所述至少一个实体对应的第一身份属性信息的冲突信息；所述冲突信息包括所述至少一个实体对应的第一身份属性信息与所述病历文档的患者的第二身份属性信息之间的第一冲突信息，所述第一冲突信息包括冲突实体，所述冲突实体为所述至少一个实体中对应的第一身份属性信息与所述第二身份属性信息不同的实体；所述第二身份属性信息包括患者的性别信息和年龄信息；

依据所述冲突信息对所述病历文档进行异常检测；

所述依据所述冲突信息对所述病历文档进行异常检测之前，所述方法还包括：

确定所述冲突实体在所述病历文档的第一位置；

在所述病历文档的第二位置存在与所述患者关联的第一对象，且所述第一对象的身份属性信息与所述冲突实体对应的第一身份属性信息相同的情况下，将所述冲突实体从所述第一冲突信息中删除；所述第二位置为所述第一位置附近的位置。

2.根据权利要求1所述的方法，其中，所述识别每个实体对应的第一身份属性信息，包括：

将目标实体输入目标模型进行概率预测，以输出所述目标实体的M个概率，所述M个概率分别为所述目标实体对应的M个预设身份属性信息的概率，M为大于1的正整数；

3.根据权利要求1至2中任一项所述的方法，其中，所述获取所述至少一个实体对应的第一身份属性信息的冲突信息，包括：

4.一种病历文档检测装置，包括：

第一获取模块，用于获取病历文档中至少一个实体；实体指的是患者在医疗活动过程中的医疗活动事件；

识别模块，用于识别每个实体对应的第一身份属性信息；所述第一身份属性信息是实体对应的医疗活动事件的描述信息指示的身份属性信息；

第二获取模块，用于获取所述至少一个实体对应的第一身份属性信息的冲突信息；所述冲突信息包括所述至少一个实体对应的第一身份属性信息与所述病历文档的患者的第二身份属性信息之间的第一冲突信息，所述第一冲突信息包括冲突实体，所述冲突实体为所述至少一个实体中对应的第一身份属性信息与所述第二身份属性信息不同的实体；所述第二身份属性信息包括患者的性别信息和年龄信息；

异常检测模块，用于依据所述冲突信息对所述病历文档进行异常检测；

所述装置还包括：

删除模块，用于在所述病历文档的第二位置存在与所述患者关联的第一对象，且所述第一对象的身份属性信息与所述冲突实体对应的第一身份属性信息相同的情况下，将所述冲突实体从所述第一冲突信息中删除；所述第二位置为所述第一位置附近的位置。

5.根据权利要求4所述的装置，其中，所述识别模块包括：

概率预测单元，用于将目标实体输入目标模型进行概率预测，以输出所述目标实体的M个概率，所述M个概率分别为所述目标实体对应的M个预设身份属性信息的概率，M为大于1的正整数；

6.根据权利要求4至5中任一项所述的装置，其中，所述第二获取模块包括：

7.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-3中任一项所述的方法。

8.一种存储有计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使所述计算机执行权利要求1-3中任一项所述的方法。