CN108461110A

CN108461110A - 医疗信息处理方法、装置及设备

Info

Publication number: CN108461110A
Application number: CN201710093245.7A
Authority: CN
Inventors: 宣森炎; 郑重; 李楠
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2017-02-21
Filing date: 2017-02-21
Publication date: 2018-08-28
Anticipated expiration: 2037-02-21
Also published as: CN108461110B

Abstract

本申请提供一种医疗信息处理方法、装置及设备，所述方法包括：预先从至少一份电子病历中，获得疾病类型信息、症状描述信息以及出现症状的时间节点，所述时间节点用于描述从病发开始后所经过的时长；预先对每种疾病类型的多份电子病历获得结果进行整合，获得每种疾病类型信息的症状描述信息与时间节点的对应关系模型；获得目标症状信息及其时间节点后，在预先构建的对应关系模型中，查找与该目标症状信息及其时间节点相匹配的对应关系，并根据查找结果进行疾病分析。应用本申请方案可以提高疾病分析效率和准确率。

Description

医疗信息处理方法、装置及设备

技术领域

本申请涉及计算机技术领域，尤其涉及医疗信息处理方法、装置及设备。

背景技术

在医疗行业，医生主要通过经验进行疾病诊断、疾病发展趋势预测等疾病分析。医生的经验带有主观性，不容易量化，而且需要医生的长时间临床实践、交流总结才能获取到。可见，由于需要通过人工经验进行疾病分析，所以导致疾病分析效率低，由于医生的经验带有主观性、且经验获取难度大，所以会导致疾病分析的准确率低。

发明内容

本申请提供医疗信息处理方法、装置及设备，以解决现有技术疾病分析效率低、准确率低的问题。

根据本申请实施例的第一方面，提供一种医疗信息处理方法，所述方法包括：

预先从至少一份电子病历中，获得疾病类型信息、症状描述信息以及出现症状的时间节点，所述时间节点用于描述从病发开始后所经过的时长；

预先对每种疾病类型的多份电子病历获得结果进行整合，获得每种疾病类型信息的症状描述信息与时间节点的对应关系模型；

获得目标症状信息及其时间节点后，在预先构建的对应关系模型中，查找与该目标症状信息及其时间节点相匹配的对应关系，并根据查找结果进行疾病分析。

根据本申请实施例的第二方面，提供一种医疗信息处理装置，所述装置包括：

模型构建模块，用于预先从至少一份电子病历中，获得疾病类型信息、症状描述信息以及出现症状的时间节点，所述时间节点用于描述从病发开始后所经过的时长；对每种疾病类型的多份电子病历获得结果进行整合，获得每种疾病类型信息的症状描述信息与时间节点的对应关系模型；

信息分析模块，用于获得目标症状信息及其时间节点后，在预先构建的对应关系模型中，查找与该目标症状信息及其时间节点相匹配的对应关系，并根据查找结果进行疾病分析。

根据本申请实施例的第三方面，提供一种电子设备，包括：

处理器；用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为：

获得目标症状信息及其时间节点后，在预先构建的对应关系模型中，查找与该目标症状信息及其时间节点相匹配的对应关系，并根据查找结果进行疾病分析；

所述对应关系模型的构建过程包括：

从至少一份电子病历中，获得疾病类型信息、症状描述信息以及出现症状的时间节点，所述时间节点用于描述从病发开始后所经过的时长；

对每种疾病类型的多份电子病历获得结果进行整合，获得每种疾病类型信息的症状描述信息与时间节点的对应关系模型。

应用本申请实施例医疗信息处理方法、装置及设备时，可以通过自然语言处理技术，从至少一份电子病历中，获得疾病类型信息、症状描述信息以及出现症状的时间节点，从而构建每种疾病类型信息的症状描述信息与时间节点的对应关系模型，并在获得目标症状信息及其时间节点后，在预先构建的对应关系模型中，查找与该目标症状信息及其时间节点相匹配的对应关系，并根据查找结果进行疾病分析。由于针对每种疾病都通过众多病人的电子病历、众多时间节点以及时间节点出现的症状作为参考依据，数据全面，从而提高分析结果的准确性，并且由于自动化分析，可以提高分析效率。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本申请。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本申请的实施例，并与说明书一起用于解释本申请的原理。

图1为本申请医疗信息处理方法的一个实施例流程图。

图2为本申请医疗信息处理方法中症状归一化的一个实施例流程图。

图3为本申请医疗信息处理方法中构建后遗症模型的一个实施例流程图。

图4为本申请医疗信息处理方法的另一个实施例流程图。

图5为本申请医疗信息处理装置所在电子设备的一种硬件结构图。

图6为本申请医疗信息处理装置的一个实施例框图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。

在本申请使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本申请。在本申请和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本申请可能采用术语第一、第二、第三等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本申请范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

目前，在医疗行业，医生主要通过人工经验进行疾病诊断、疾病发展趋势预测等疾病分析。不同医生由于实践经历、学习能力的不同导致获得的经验不同，经验不丰富的医生往往根据个别时间所出现的症状进行疾病分析，数据片面且不准确。同时，通过经验进行疾病分析，导致疾病分析效率低。

为了避免疾病分析准确率低、效率低的缺陷，本申请提供一种医疗信息处理方法，该方法可以分为对应关系模型的构建阶段以及利用对应关系模型的应用阶段。在一个例子中，构建阶段和应用阶段可以由同一个电子设备执行。在另一个例子中，由于构建阶段需要具有较高处理能力的设备进行大数据分析，而应用阶段对电子设备的处理能力要求相对不高，并且对应关系模型构建成功后，不同电子设备之间可以共享该模型，避免每个电子设备都进行模型构建导致的资源浪费，因此，可以由一个或一组具有较高处理能力的电子设备构建对应关系模型，其他电子设备可以直接使用已构建的对应关系模型。

如图1所示，图1为本申请医疗信息处理方法的一个实施例流程图，该方法可以包括以下步骤101至步骤103，步骤101和步骤102是对应关系模型的预构建阶段，步骤103是应用对应关系模型进行疾病分析的阶段。

在步骤101中，预先从至少一份电子病历中，获得疾病类型信息、症状描述信息以及出现症状的时间节点，所述时间节点用于描述从病发开始后所经过的时长。

在步骤102中，预先对每种疾病类型的多份电子病历获得结果进行整合，获得每种疾病类型信息的症状描述信息与时间节点的对应关系模型。

在步骤103中，获得目标症状信息及其时间节点后，在预先构建的对应关系模型中，查找与该目标症状信息及其时间节点相匹配的对应关系，并根据查找结果进行疾病分析。

电子病历中往往记录有患者的症状、出现该症状的时间以及诊断结果等医疗信息。本申请对众多电子病历中的医疗信息进行大数据分析，获得疾病在不同时间节点下出现的症状(即疾病的发展过程)，可以将每种疾病在不同时间节点下出现的症状构建为每种疾病类型的症状描述信息与时间节点的对应关系模型，进而利用对应关系模型进行疾病分析。

由上述实施例可见，可以通过自然语言处理技术，在电子病历中的病情、病史等非结构化文本中，获得疾病类型信息、症状描述信息以及出现症状的时间节点，从而构建每种疾病类型信息的症状描述信息与时间节点的对应关系模型，并在获得目标症状信息及其时间节点后，在预先构建的对应关系模型中，查找与该目标症状信息及其时间节点相匹配的对应关系，并根据查找结果进行疾病分析。由于针对每种疾病都通过众多病人的电子病历、众多时间节点以及时间节点出现的症状作为参考依据，数据全面，从而提高分析结果的准确性，并且由于自动化分析，可以提高分析效率。

针对疾病类型信息，疾病类型信息可以是用于表示疾病类型的标识信息，例如疾病类型的名称。疾病类型的划分根据需求划分，可以进行粗划分，也可以进行细化分。例如，疾病类型信息可以包括感冒、心律失常、冠心病、脑出血、白血病、糖尿病等。为了得到更准确的疾病类型，还可以将疾病类型进行细分。例如，将感冒分为风寒型感冒和风热型感冒。在每份电子病历中，诊断结果中往往记录有疾病类型信息，因此可以直接从诊断结果中抽取疾病类型信息。

针对症状描述信息，症状描述信息是描述症状的信息，每种疾病可能出现一种或多种症状。例如，针对风寒型感冒，患者往往会出现流清涕、打喷嚏、苔薄白、畏寒等症状。针对风热型感冒，患者往往会出现出汗、咽喉肿痛、口干舌燥、痰黄、鼻塞等症状。

在一个例子中，如果电子病历中存在用于单独记录症状描述信息的症状记录区域，由于该症状记录区域记录的是症状描述信息，则可以从该症状记录区域中直接提取症状描述信息，从而获得该病例的症状。

在一个例子中，如果电子病历中不存在用于单独记录症状描述信息的症状记录区域，而是将症状描述信息以及其他信息同时记录在病历中，则需要从众多信息中识别出症状描述信息。

为了从众多信息中识别出症状描述信息，本申请可以将预存的症状描述模式中的字符，在至少一份电子病历中进行匹配，所述症状描述模式包括症状描述信息上下文会出现的字符、以及症状描述信息与字符的位置关系；根据所述症状描述信息与字符的位置关系，从匹配信息的上下文中获得症状描述信息。

其中，在描述症状时往往会采用某些常规模式，例如：“出现……症状”、“出现……”、“伴有……现象”等，可以将这些模式称为症状描述模式。症状描述模式中记录有症状描述信息上下文会出现的字符。例如“出现”、“症状”、“伴有”、“现象”等，同时还包括症状描述信息与字符的位置关系，以便根据字符的位置确定症状描述信息的位置。例如，“出现……症状”模式中，症状描述信息出现的位置在字符“出现”和字符“症状”之间，又如，“出现……”模式中，症状描述信息出现的位置在字符“出现”之后。因此，将预存的症状描述模式中的字符在电子病历中进行匹配时，可以确定字符在电子病历中的位置，然后根据症状描述信息与字符的位置关系、以及字符在电子病历中的位置推测出电子病历中症状描述信息的位置，从而可以从匹配信息的上下文中获得症状描述信息。

关于症状描述模式，可以通过人工输入的方式获取得到，也可以通过模式学习的方式从大数据中学习获得。

在一个例子中，所述症状描述模式的确定步骤包括：

将已知的症状描述信息作为种子，并利用匹配算法从至少一份电子病历中提取种子；

基于已提取的种子，从电子病历中种子的上下文中提取字符、以及识别出种子与字符的位置关系；

根据所提取的字符以及所识别的位置关系的出现频率，确定症状描述模式。

其中，已知的症状描述信息可以包括人工输入的症状描述信息，还可以包括利用本申请方案确定的症状描述信息。例如，在确定症状描述模式后，利用症状描述模式提取症状描述信息，则提取的症状描述信息可以作为下一轮模式训练中已知的症状描述信息。

本实施例可以将已知的症状描述信息作为种子(样例)，并利用匹配算法从至少一份电子病历中提取种子。提取种子的目的是为了确定种子在电子病历中的位置，以便基于已提取的种子，从电子病历中种子的上下文中提取字符、以及识别出种子与字符的位置关系，并根据字符以及位置关系的出现频率确定是否将字符以及位置关系作为症状描述模式。

其中，本实施例利用匹配算法从电子病历中匹配出种子。在一个例子中，匹配算法可以是前向最大匹配法，采用前向最大匹配法提取种子，可以提高提取种子的准确率。

关于出现频率，由于可以提取出多种字符和识别出多种位置关系，而不是所有提出的字符和识别的位置关系都可以构成症状描述模式，在提取和识别的所有信息中，所提取的字符以及所识别的位置关系重复率越高的，越有可能是描述症状时采用的常规模式，因此，在提取和识别的所有信息中，计算所提取的字符以及所识别的位置关系的出现频率，从而确定症状描述模式。

例如，在提取种子后，可以列举已经提取的种子附近的字符串、以及字符串与种子的位置关系，从而确定症状描述初步模式，然后将症状描述初步模式的出现次数与所有症状描述初步模式的个数的比值作为该症状描述初步模式的出现频率，并将出现频率作为指标进行打分，从而将得分高的症状描述初步模式确定为症状描述模式。

在获得症状描述模式后，在一个例子中，如果电子病历中采用统一的描述方式描述症状，则将预存的症状描述模式中的字符，在至少一份电子病历中进行匹配，根据所述症状描述信息与字符的位置关系，直接从匹配信息的上下文中提取症状描述信息。

本方式利用症状描述模式直接从电子病历中提取症状描述信息，提高获得症状描述信息的效率。

在另一个例子中，由于同一症状可以采用不同形式进行描述，为了方便后续对每种疾病类型的多份电子病历获得结果进行整合，需要对症状进行标准化，使用聚类的方式进行症状的归一。具体的，所述根据所述症状描述信息与字符的位置关系，从匹配信息的上下文中获得症状描述信息，包括：根据所述症状描述信息与字符的位置关系，从匹配信息的上下文中提取症状原始描述信息；将同一症状的症状原始描述信息归一化为相同的症状描述信息。

本实施例将从匹配信息上下文中提取到的信息确认为症状原始描述信息，并将同一症状的症状原始描述信息归一化为相同的症状描述信息，从而可以提高后续整合数据的效率。一方面，可以在每次获得症状原始描述信息后，将症状原始描述信息归一化为标准症状描述信息。另一方面，也可以在获得所有症状原始描述信息后，将相同症状原始描述信息归一化为标准症状描述信息。

针对症状归一化操作，在一个例子中，可以预设有标准症状描述信息以及该标准症状描述信息可能出现的症状原始描述信息库，将获得的症状原始描述信息与症状原始描述信息库中信息进行匹配，匹配度达到预设要求时，将该症状原始描述信息归一化为症状原始描述信息库对应的标准症状描述信息。

在另一个例子中，本申请还提供一种症状归一化的方法，如图2所示，图2为本申请医疗信息处理方法中症状归一化的一个实施例流程图，将同一症状的症状原始描述信息归一化为相同的症状描述信息包括步骤201至步骤204：

在步骤201中，针对提取信息中部分症状原始描述信息，将同一疾病中相同时间出现的各症状原始描述信息划分到不同的聚类簇。

其中，提取信息是指从匹配信息的上下文中提取的症状原始描述信息，将其中部分症状原始描述信息用作划分聚类簇的基础。由于同一疾病在相同时间下描述的症状往往不同，因此可以将同一疾病中相同时间出现的各症状原始描述信息划分到不同的聚类簇，从而实现初步划分聚类簇，可以提高聚类簇划分的效率和准确性。

在步骤202中，计算当前症状原始描述信息与聚类簇中症状原始描述信息的相似度，并根据相似度确定是否将当前症状原始描述信息加入该聚类簇，或新建聚类簇且将当前症状原始描述信息加入新建的聚类簇。

其中，所述当前症状原始描述信息是提取信息中没有加入聚类簇的症状原始描述信息。

该步骤通过当前症状原始描述信息与聚类簇中症状原始描述信息的相似度，确定是否将当前症状原始描述信息加入该聚类簇，如果相似度高于预设阈值，则将当前症状原始描述信息加入该聚类簇，如果相似度低于预设阈值，则新建聚类簇，并将当前症状原始描述信息加入新建的聚类簇。

在一个例子中，症状原始描述信息之间的相似度可以采用相同字符数量占较短字符串长度的比值来表示。

可见，本步骤将没有加入聚类簇的症状原始描述信息加入已有聚类簇或新建聚类簇，实现将症状原始描述信息加入到聚类簇中。

在步骤203中，当所有症状原始描述信息均加入相应的聚类簇后，根据不同聚类簇间症状原始描述信息的最高相似度，判断是否将聚类簇进行合并，并执行相应的处理。

当所有症状原始描述信息均加入相应的聚类簇后，表示症状原始描述信息的聚类完成。由于不同聚类簇可能归属于同一类症状，因此可以根据不同聚类簇间症状原始描述信息的最高相似度，判断是否将聚类簇进行合并，并执行相应的处理。例如以第一聚类簇和第二聚类簇进行说明，将第一聚类簇中任一症状原始描述信息与第二聚类簇中任一症状原始描述信息进行相似度匹配，获得相似度值。当第一聚类簇中每一个症状原始描述信息均与第二聚类簇中每一个症状原始描述信息进行相似度匹配后，可以获得所有相似度值，并确定该两类聚类簇中症状原始描述信息的最高相似度值，然后判断最高相似度是否大于预设相似度阈值，若是，则将第一聚类簇和第二聚类簇进行聚类簇合并，否则不进行聚类簇合并。

在步骤204中，在所有聚类簇进行合并判断和处理后，将同一聚类簇的症状原始描述信息统一为相同症状描述信息。

在所有聚类簇进行合并判断和处理后，每个聚类簇代表不同的症状，因此可以将同一聚类簇的症状原始描述信息统一为相同症状描述信息，即为该聚类簇指定一个标准的症状描述信息。在为聚类簇指定标准的症状描述信息时，可以人为为该聚类簇命名一个标准的症状描述信息；也可以将聚类簇中出现率最高的症状描述信息指定为标准的症状描述信息等。

由于聚类簇中包含了同一症状的不同症状原始描述信息，因此，当检测到症状原始描述信息归属于某一聚类簇时，将该症状原始描述信息转换为该聚类簇对应的标准的症状描述信息。

由上述实施例可见，本实施例采用聚类的方式实现症状的归一化，容易实现。

在一个可选的实现方式中，为了提高症状描述信息的准确性，可以将从匹配信息的上下文中提取的信息作为候选症状，利用候选症状跟种子的字符串相似度，对候选症状进行打分，将分数满足要求的候选症状信息作为症状原始描述信息，将分数不满足要求的候选症状信息不作为症状原始描述信息。其中，字符串相似度包括英文字符相似度、中文字符相似度、数字相似度等。

可见，将从匹配信息上下文中提取到的信息进行筛选，以确保筛选出来的信息为症状原始描述信息，从而提高症状原始描述信息的准确性。

针对时间节点，时间节点用于描述从病发开始后所经过的时长，目的是为了将同一疾病下出现症状的时间信息归一化为以同一时间为基准时间的相对时间，从而方便后续对每种疾病类型的多份电子病历获得结果进行整合，提高整合可行性以及整合效率。时间节点以病发开始时间为起始时间，例如，时间节点可以是“第一天、第二天、第三天……”，还可以是“一天后，五天后，三十天后……”等描述方式。

在一个例子中，如果电子病历中出现症状的时间是采用时间节点的方式进行描述的，则可以利用预存的时间表达式，直接从至少一份电子病历的症状描述信息的上下文中提取时间节点，从而提高获得时间节点的效率。

其中，所述时间表达式是不包含具体时间的时间描述信息，例如，“第*天”、“第*个月”等用于描述时间节点的表达式。

例如，电子病历：第一天出现轻微打喷嚏，第三天出现严重打喷嚏、流鼻涕的症状，第四天出现严重打喷嚏、流鼻涕，伴有畏寒、苔薄白的症状，遂来我院就诊，确诊为“风寒感冒”。

可见，可以采用“出现……”、“出现……的症状”、“伴有……的症状”的症状描述模式提取症状描述信息；可以采用“第*天”的时间表达式直接从病历中提取时间节点“第一天”、“第三天”、“第四天”。

在另一个例子中，如果电子病历中出现症状的时间不是采用时间节点的方式进行描述的，而是采用其他方式进行描述，则需要将时间信息归一化为以病发时间为基准时间的相对时间，从而获得出现症状的时间节点。

具体的，预先从至少一份电子病历中，获得出现症状的时间节点，包括：

利用预存的时间表达式，从至少一份电子病历的症状描述信息的上下文中提取时间信息；

将所提取的时间信息归一化为以病发时间为基准时间的相对时间，获得出现症状的时间节点。

其中，所述时间表达式是不包含具体时间的时间描述信息，是电子病历中描述症状发生时间的短语。例如时间表达式可以是：**天前、*月前、*年前、*余天前等。时间表达式可以是通过人工输入的方式确定的表达式。例如，用户直接将时间表达式输入***中。又如，用户将常用的时间样例(如三天前、一个月前、十余天前、一周前等)输入***中，***对时间样例中的中文数字或***数字使用固定字符进行替换，从而获得时间表达式等。

在获得时间表达式后，可以在电子病历中进行遍历搜索，从而提取时间信息。在电子病历中，时间信息出现的先后顺序一般遵从症状实际发生的时间顺序。时间信息将电子病历切分成不同时间段的描述，每段中提取的症状即代表了当前时间段的详细病症。

利用预存的时间表达式，从至少一份电子病历的症状描述信息的上下文中提取时间信息，从而获得时间信息与症状描述信息的对应关系，所提取的时间信息是症状描述信息的症状发生时间。

在利用预存的时间表达式从症状描述信息的上下文中提取时间信息后，可以将所提取的时间信息归一化为以病发时间为基准时间的相对时间，获得出现症状的时间节点。

由于电子病历中时间信息出现的先后顺序一般遵从症状实际发生的时间顺序，因此可以将第一个时间信息确定为病发时间。在确定病发时间后，可以将所有时间信息归一化为以病发时间为基准时间的相对时间，从而获得出现症状的时间节点。

本申请还提供一种具体的归一化方法，所述将所提取的时间信息归一化为以病发时间为基准时间的相对时间，获得出现症状的时间节点，包括：

提取所述时间信息中的数字，将所述数字作为时间绝对值；

提取所述时间信息中的时间单位，根据所述时间单位将时间绝对值换算为统一时间单位的时间值；

提取所述时间信息中用于描述时间相对关系的信息；

确定该电子病例中疾病的病发时间；

根据所述时间值、所述用于描述时间相对关系的信息以及病发时间，将所述时间信息归一化为以病发时间为基准时间的相对时间，获得出现症状的时间节点。

由于同一份电子病历中可能采用不同时间单位描述时间信息，因此，可以先提取时间信息中的数字，将数字作为时间绝对值；再提取时间信息中的时间单位，根据时间单位将时间绝对值换算为统一时间单位的时间值。同一时间单位可以预先指定，例如指定为天、周等。不同时间单位与统一时间单位的换算关系可以预先建立，例如，1周换算为7天，一个月换算为30天，一年换算为365天等换算关系。

时间信息中，除了记录有数字、时间单位，往往还记录有描述时间相对关系的信息，该信息往往出现在时间单位后，例如“后”、“前”等信息。因此，可以提取所述时间信息中用于描述时间相对关系的信息。

由于电子病历中时间信息出现的先后顺序一般遵从症状实际发生的时间顺序，因此可以将第一个时间信息确定为病发时间。

在时间值、用于描述时间相对关系的信息以及病发时间确定后，可以根据所述时间值、所述用于描述时间相对关系的信息以及病发时间，将所述时间信息归一化为以病发时间为基准时间的相对时间，从而获得出现症状的时间节点。

例如，电子病历：患者3个月前出现双下肢活动稍有不利，1周前患者出现乏力，无消瘦，无头晕头痛，无面色苍白，无发热畏寒，无言语含糊，为求进一步诊治，今天来我院就诊。

可见，利用预存的时间表达式从该电子病历中可以提取时间信息：3个月前、1周前、今天。利用本申请方案可以将时间信息转换为：第1天、第83天、第90天。

可以理解的是，本申请还可以采用其他归一化方式将所提取的时间信息归一化为以病发时间为基准时间的相对时间，获得出现症状的时间节点，在此不再一一赘述。

在获得疾病类型信息、症状描述信息以及出现症状的时间节点后，可以对每种疾病类型的多份电子病历获得结果进行整合，获得每种疾病类型信息的症状描述信息与时间节点的对应关系模型。由于每个电子病历中的时间节点都是以病发时间为基准时间的相对时间，而相同疾病的病发时间大部分相同，因此可以将每种疾病类型对应的症状描述信息和出现症状的时间节点进行整合，获得每种疾病类型信息的症状描述信息与时间节点的对应关系模型，该对应关系模型中记录有疾病在不同时间节点下出现的症状，因此可以利用该对应关系模型进行疾病分析等。

在一个例子中，针对每份电子病历，根据获得的疾病类型信息、症状描述信息以及出现症状的时间节点，整合出每份电子病历中疾病在不同时间节点出现的症状描述信息；根据每份电子病历中疾病在不同时间节点出现的症状描述信息，整合出每种疾病类型信息的症状描述信息与时间节点的对应关系模型。

本实施例中，由于电子病历中时间节点出现的先后顺序一般遵从症状实际发生的时间顺序，且时间节点将电子病历切分成不同时间段的描述，每段中提取的症状即代表了当前时间段的详细病症，因此，针对每份电子病历，可以按照时间节点出现的先后顺序，以及时间节点与症状描述信息的对应关系，将症状描述信息按时间节点的先后顺序进行排序，从而整合出每份电子病历中疾病在不同时间节点出现的症状描述信息，又由于该电子病历中记录有疾病类型信息，从而可以获得该电子病历的疾病-症状-时间对应关系。

当每份电子病历的疾病-症状-时间对应关系确定后，可以整合出每种疾病类型信息的症状描述信息与时间节点的对应关系模型。

例如，根据疾病-症状-时间对应关系，按疾病类型将症状-时间对应关系进行分类，相同疾病类型的症状-时间对应关系划分到同一类中，不同疾病类型的症状-时间对应关系划分到不同类中。针对同一疾病类型，先判断不同症状-时间对应关系中，病发时间对应的症状是否相同，如果相同，则表示不同的症状-时间对应关系中时间节点以同一个时间为基准时间，可以将不同的症状-时间对应关系进行整合；如果不相同，则表示不同的症状-时间对应关系中时间节点不是以同一个时间为基准时间的相对时间，作为其中一种处理手段，可以抽取病发时间对应的症状相同的症状-时间对应关系，并将抽取的症状-时间对应关系进行整合，未抽取的症状-时间对应关系不做整合处理。作为另一种处理手段，可以将不同的症状-时间对应关系进行对比，推测出真正的病发时间以及病发时的症状，并将不同的症状-时间对应关系中时间节点归一化为以推测病发时间为基准时间的相对时间，然后将归一处理后的对应关系进行整合。

由上述实施例可见，本实施例先整合出每份电子病历中疾病在不同时间节点出现的症状描述信息，再根据每份电子病历中疾病在不同时间节点出现的症状描述信息，整合出每种疾病类型信息的症状描述信息与时间节点的对应关系模型，可以提高整合效率，且容易实现。

在构建对应关系模型后，可以利用构建的对应关系模型进行疾病分析。例如，获得目标症状信息及其时间节点后，在预先构建的对应关系模型中，查找与该目标症状信息及其时间节点相匹配的对应关系，并根据查找结果进行疾病分析。

其中，目标症状信息可以是用户输入的需要查询的症状信息，时间节点是出现目标症状的时间节点。由于预先构建的对应关系模型中包括每种疾病类型信息的症状描述信息与时间节点的对应关系，因此，可以在对应关系模型中，查找与该目标症状信息及其时间节点相匹配的对应关系，并根据查找结果进行疾病分析。

由于对应关系模型中包括每种疾病类型信息的症状描述信息与时间节点的对应关系，因此可以进行多种疾病分析。在一个例子中，疾病分析可以包括疾病诊断，则可以根据查找结果确定所述目标症状对应的疾病类型。在另一个例子中，疾病分析还可以包括疾病预测，即根据查找结果确定目标症状对应的疾病类型以及疾病类型在所述时间节点以后可能出现的症状。可见，可以利用对应关系模型获得疾病的症状、走势等信息，可用于医学教育、监测、临床决策支持等领域。

可以理解的是，疾病分析还可以是其他分析，只要是依赖于疾病类型信息的症状描述信息与时间节点的对应关系进行的分析即可，在此不再一一列举。

在一个可选的实现方式中，还可以结合疾病的后遗症数据，分析发病时间和症状后遗症的相关关系，从而推测患后遗症的概率。本实施例预先构建后遗症模型。如图3所示，图3为本申请医疗信息处理方法中构建后遗症模型的一个实施例流程图，包括以下步骤301至步骤303：

在步骤301中，从至少一份电子病历中，获得疾病类型信息的同时，获得后遗症信息以及首次就医时出现的症状描述信息。

当某种疾病存在相应的后遗症时，往往在电子病历中记录有后遗症信息，因此可以从电子病历中抽取后遗症信息。当电子病历中既包括疾病类型信息，又包括后遗症信息时，疾病类型是初期诊断的结果，后遗症是在疾病基本好转后遗留下来的某种疾病症状。该实施例中，可以先确定就医时间，再将就医时间对应的症状确定为就医时出现的症状描述信息。以下以一个具体的例子进行示例说明：

例如，电子病历：患者1年半前无明显诱因下出现双下肢活动稍有不利，1年余出现双下肢活动障碍，行走不便、并伴有头晕、口角歪斜的症状，收住我院，诊断“脑梗塞”，予银杏达莫针、奥扎格雷针改善循环等治疗后稍好转。1个月前双下肢活动稍有不利，今天患者双下肢活动不利，出现乏力，但无消瘦，无头晕头痛，无面色苍白，无发热畏寒，无言语含糊，为求进一步诊治，来我院就诊，以“脑梗塞后遗症”收住入院。

在该电子病历中，疾病类型信息为：脑梗塞；首次就医时间为：1年余，就医时出现的症状描述信息为：双下肢活动障碍、行走不便、头晕，口角歪斜；脑梗塞的后遗症信息为：双下肢活动不利、乏力。进一步的，还可以将没有出现的症状进行补充，例如，无消瘦，无头晕头痛，无面色苍白，无发热畏寒，无言语含糊。

在步骤302中，基于多份电子病历中获得的疾病类型信息、后遗症信息以及首次就医时出现的症状描述信息，建立每种疾病类型信息的就医时出现的症状描述信息以及后遗症信息的对应关系。

在获得每份电子病历中的疾病类型信息、后遗症信息以及首次就医时出现的症状描述信息后，可以建立每种疾病类型信息的就医时出现的症状描述信息以及后遗症信息的对应关系。

在步骤303中，根据所述对应关系的出现频率，计算患者患后遗症的概率，并根据计算结果构建疾病类型信息的就医时出现的症状描述信息与后遗症概率的对应关系的后遗症模型。

其中，关于对应关系的出现频率，在一个例子中，出现频率可以基于疾病类型信息-就医时出现的症状描述信息-后遗症信息的对应关系、与疾病类型信息-就医时出现的症状描述信息的对应关系的比值生成。

将对应关系的出现频率作为患后遗症概率的因素，从而计算获得患者患后遗症的概率，并构建疾病类型信息的就医时出现的症状描述信息与后遗症概率的对应关系的后遗症模型。

在获得后遗症模型后，可以利用后遗症模型对患者患后遗症的概率进行预测。具体的，获得目标疾病类型信息以及就医时出现的症状描述信息后，在预先构建的后遗症模型中，查找与该目标疾病类型信息以及就医时出现的症状描述信息相匹配的对应关系，并根据查找结果确定患者患后遗症的概率。

由上述实施例可见，由于出现症状后不同就医时间导致患后遗症的概率不同，本方式在构建后遗症模型后，在预先构建的后遗症模型中，查找与该目标疾病类型信息以及就医时出现的症状描述信息相匹配的对应关系，并根据查找结果确定患者患后遗症的概率，从而实现对患者患后遗症的概率的预测。

以上实施方式中的各种技术特征可以任意进行组合，只要特征之间的组合不存在冲突或矛盾，但是限于篇幅，未进行一一描述，因此上述实施方式中的各种技术特征的任意进行组合也属于本说明书公开的范围。

以下列举其中一种组合进行示例说明。如图4所示，图4为本申请医疗信息处理方法的另一个实施例流程图。在该流程图中主要介绍对应关系模型的构建过程。

41、时间提取。利用预存的时间表达式，从至少一份电子病历的症状描述信息的上下文中提取时间信息，所述时间表达式是不包含具体时间的时间描述信息。在电子病历中，时间表达式出现的先后顺序一般遵从症状实际发生的时间顺序。时间表达式将病历文本切分成不同时间段的描述，每段中提取的症状即代表了当前时间段的详细症状。

42、症状提取。

421、提取种子。种子数据库中记录有已知的症状描述信息(种子)，利用匹配算法从至少一份电子病历中提取种子。

422、模式学习。基于已提取的种子，从电子病历中种子的上下文中提取字符、以及识别出种子与字符的位置关系；根据所提取的字符以及所识别的位置关系的出现频率，确定症状描述模式。

423、模式匹配。将症状描述模式中的字符，在至少一份电子病历中进行匹配，所述症状描述模式包括症状描述信息上下文会出现的字符、以及症状描述信息与字符的位置关系；根据所述症状描述信息与字符的位置关系，从匹配信息的上下文中获得症状描述信息。

其中，为了确定症状描述信息与出现症状的时间节点的对应关系，先利用时间表达式将电子病历切分成不同时间段的描述，模式匹配时，可以利用症状描述模式从已切分的描述中进行字符匹配，从而将获得的症状描述信息与该时间段建立对应关系，即该时间段是该症状描述信息的症状出现时间。

424、获得种子。将获得的症状描述信息作为种子，重复执行模式学习、模式匹配和获得种子步骤，直到不再发现新的症状描述信息。

43、症状&时间归一化。将同一症状的症状原始描述信息归一化为相同的症状描述信息。将所提取的时间信息归一化为以病发时间为基准时间的相对时间，获得出现症状的时间节点。

44、对应关系模型。对每种疾病类型的多份电子病历获得结果进行整合，获得每种疾病类型信息的症状描述信息与时间节点的对应关系模型。

45、后遗症模型。所述后遗症模型的构建步骤包括：从至少一份电子病历中，获得疾病类型信息的同时，获得后遗症信息以及首次就医时出现的症状描述信息；基于多份电子病历中获得的疾病类型信息、后遗症信息以及首次就医时出现的症状描述信息，建立每种疾病类型信息的就医时出现的症状描述信息与后遗症信息的对应关系；根据所述对应关系的出现频率，计算患者患后遗症的概率，并根据计算结果构建疾病类型信息的就医时出现的症状描述信息与后遗症概率的对应关系的后遗症模型。

46、疾病分析。获得目标症状信息及其时间节点后，在预先构建的对应关系模型中，查找与该目标症状信息及其时间节点相匹配的对应关系，并根据查找结果进行疾病分析。获得目标疾病类型信息以及就医时出现的症状描述信息后，在预先构建的后遗症模型中，查找与该目标疾病类型信息以及就医时出现的症状描述信息相匹配的对应关系，并根据查找结果确定患者患后遗症的概率。

在本申请实施例中，可以将不同医院的所有科室的电子病历上传到云服务端上，例如上传至阿里云上。利用本申请方案以及云服务端上的数据建立对应关系模型和后遗症模型。如果接收到客户端发送的疾病分析请求，根据疾病分析请求获得目标症状信息及其时间节点，在预先构建的对应关系模型中，查找与该目标症状信息及其时间节点相匹配的对应关系，并根据查找结果进行疾病分析，并将分析结果返回至所述客户端。如果接收到客户端发送的后遗症概率查询请求，根据后遗症概率查询请求获得目标疾病类型信息以及就医时出现的症状描述信息，在预先构建的后遗症模型中，查找与该目标疾病类型信息以及就医时出现的症状描述信息相匹配的对应关系，并根据查找结果确定患者患后遗症的概率；并将患者患后遗症的概率发送至所述客户端。

本申请将所有数据汇集，获得比较完善的电子病历库。电子病历库中数据量越大，根据电子病历库中的电子病历构建对应关系模型和后遗症模型后，利用对应关系模型和后遗症模型进行疾病分析越准确。

与本申请医疗信息处理方法的实施例相对应，本申请还提供了医疗信息处理装置、可读介质及电子设备的实施例。

本申请提供一个或多个机器可读介质，其上存储有指令，当由一个或多个处理器执行时，使得终端设备执行如上所述的医疗信息处理方法。

本申请医疗信息处理装置的实施例可以应用在各种电子设备上，例如，该电子设备可以包括手机、平板电脑、PC等。其中，装置实施例可以通过软件实现，也可以通过硬件或者软硬件结合的方式实现。以软件实现为例，作为一个逻辑意义上的装置，是通过其所在电子设备的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言，如图5所示，为本申请医疗信息处理装置531所在电子设备的一种硬件结构图，除了图5所示的处理器510、内存530、网络接口540、以及非易失性存储器520之外，实施例中装置所在的电子设备通常根据该设备的实际功能，还可以包括其他硬件，图5中不再一一示出。

参见图6，为本申请医疗信息处理装置的一个实施例框图：

该装置包括：模型构建模块610和信息分析模块620。

模型构建模块610，用于预先从至少一份电子病历中，获得疾病类型信息、症状描述信息以及出现症状的时间节点，所述时间节点用于描述从病发开始后所经过的时长；对每种疾病类型的多份电子病历获得结果进行整合，获得每种疾病类型信息的症状描述信息与时间节点的对应关系模型。

信息分析模块620，用于获得目标症状信息及其时间节点后，在预先构建的对应关系模型中，查找与该目标症状信息及其时间节点相匹配的对应关系，并根据查找结果进行疾病分析。

在一个可选的实现方式中，所述模型构建模块610包括(图6未示出)：

信息匹配模块，用于将预存的症状描述模式中的字符，在至少一份电子病历中进行匹配，所述症状描述模式包括症状描述信息上下文会出现的字符、以及症状描述信息与字符的位置关系。

症状获得模块，用于根据所述症状描述信息与字符的位置关系，从匹配信息的上下文中获得症状描述信息。

在一个可选的实现方式中，所述模型构建模块610还包括模式确定模块(图6未示出)，用于：

在一个可选的实现方式中，所述症状获得模块具体用于：

根据所述症状描述信息与字符的位置关系，从匹配信息的上下文中提取症状原始描述信息；

将同一症状的症状原始描述信息归一化为相同的症状描述信息。

在一个可选的实现方式中，所述症状获得模块具体用于：

针对提取信息中部分症状原始描述信息，将同一疾病中相同时间出现的各症状原始描述信息划分到不同的聚类簇；

计算当前症状原始描述信息与聚类簇中症状原始描述信息的相似度，并根据相似度确定是否将当前症状原始描述信息加入该聚类簇，或新建聚类簇且将当前症状原始描述信息加入新建的聚类簇，所述当前症状原始描述信息是提取信息中没有加入聚类簇的症状原始描述信息；

当所有症状原始描述信息均加入相应的聚类簇后，根据不同聚类簇间症状原始描述信息的最高相似度值，判断是否将聚类簇进行合并，并执行相应的处理；

在所有聚类簇进行合并判断和处理后，将同一聚类簇的症状原始描述信息统一为相同症状描述信息。

信息提取模块，用于利用预存的时间表达式，从至少一份电子病历的症状描述信息的上下文中提取时间信息，所述时间表达式是不包含具体时间的时间描述信息。

时间归一模块，用于将所提取的时间信息归一化为以病发时间为基准时间的相对时间，获得出现症状的时间节点。

在一个可选的实现方式中，所述时间归一模块具体用于：

提取所述时间信息中的数字，将所述数字作为时间绝对值；

提取所述时间信息中用于描述时间相对关系的信息；

确定该电子病例中疾病的病发时间；

在一个可选的实现方式中，所述模型构建模块610包括信息整合模块(图6未示出)，用于：

针对每份电子病历，根据获得的疾病类型信息、症状描述信息以及出现症状的时间节点，整合出每份电子病历中疾病在不同时间节点出现的症状描述信息；

根据每份电子病历中疾病在不同时间节点出现的症状描述信息，整合出每种疾病类型信息的症状描述信息与时间节点的对应关系模型。

在一个可选的实现方式中，所述装置还包括概率分析模块，用于：

获得目标疾病类型信息以及就医时出现的症状描述信息后，在预先构建的后遗症模型中，查找与该目标疾病类型信息以及就医时出现的症状描述信息相匹配的对应关系，并根据查找结果确定患者患后遗症的概率；

所述模型构建模块还用于：

从至少一份电子病历中，获得疾病类型信息的同时，获得后遗症信息以及首次就医时出现的症状描述信息；

基于多份电子病历中获得的疾病类型信息、后遗症信息以及首次就医时出现的症状描述信息，建立每种疾病类型信息的就医时出现的症状描述信息与后遗症信息的对应关系；

根据所述对应关系的出现频率，计算患者患后遗症的概率，并根据计算结果构建疾病类型信息的就医时出现的症状描述信息与后遗症概率的对应关系的后遗症模型。

基于此，本申请还提供一种电子设备，包括：

处理器；用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为：

所述对应关系模型的构建过程包括：

上述装置中各个模块的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程，在此不再赘述。

对于装置实施例而言，由于其基本对应于方法实施例，所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理模块，即可以位于一个地方，或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本申请方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

本领域技术人员在考虑说明书及实践这里申请的发明后，将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未申请的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本申请的真正范围和精神由下面的权利要求指出。

应当理解的是，本申请并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。

Claims

1.一种医疗信息处理方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，预先从至少一份电子病历中，获得症状描述信息，包括：

将预存的症状描述模式中的字符，在至少一份电子病历中进行匹配，所述症状描述模式包括症状描述信息上下文会出现的字符、以及症状描述信息与字符的位置关系；

根据所述症状描述信息与字符的位置关系，从匹配信息的上下文中获得症状描述信息。

3.根据权利要求2所述的方法，其特征在于，所述症状描述模式的确定步骤包括：

4.根据权利要求2所述的方法，其特征在于，所述根据所述症状描述信息与字符的位置关系，从匹配信息的上下文中获得症状描述信息，包括：

5.根据权利要求4所述的方法，其特征在于，所述将同一症状的症状原始描述信息归一化为相同的症状描述信息，包括：

6.根据权利要求1所述的方法，其特征在于，预先从至少一份电子病历中，获得出现症状的时间节点，包括：

利用预存的时间表达式，从至少一份电子病历的症状描述信息的上下文中提取时间信息，所述时间表达式是不包含具体时间的时间描述信息；

7.根据权利要求6所述的方法，其特征在于，所述将所提取的时间信息归一化为以病发时间为基准时间的相对时间，获得出现症状的时间节点，包括：

提取所述时间信息中的数字，将所述数字作为时间绝对值；

提取所述时间信息中用于描述时间相对关系的信息；

确定该电子病例中疾病的病发时间；

8.根据权利要求1至7任一项所述的方法，其特征在于，所述预先对每种疾病类型的多份电子病历获得结果进行整合，获得每种疾病类型信息的症状描述信息与时间节点的对应关系模型，包括：

9.根据权利要求1至7任一项所述的方法，其特征在于，所述方法还包括：

所述后遗症模型的构建步骤包括：

10.一种医疗信息处理装置，其特征在于，所述装置包括：

11.根据权利要求10所述的装置，其特征在于，所述模型构建模块包括：

信息匹配模块，用于将预存的症状描述模式中的字符，在至少一份电子病历中进行匹配，所述症状描述模式包括症状描述信息上下文会出现的字符、以及症状描述信息与字符的位置关系；

12.根据权利要求11所述的装置，其特征在于，所述模型构建模块还包括模式确定模块，用于：

13.根据权利要求11所述的装置，其特征在于，所述症状获得模块具体用于：

14.根据权利要求13所述的装置，其特征在于，所述症状获得模块具体用于：

15.根据权利要求10所述的装置，其特征在于，所述模型构建模块包括：

信息提取模块，用于利用预存的时间表达式，从至少一份电子病历的症状描述信息的上下文中提取时间信息，所述时间表达式是不包含具体时间的时间描述信息；

16.根据权利要求15所述的装置，其特征在于，所述时间归一模块具体用于：

提取所述时间信息中的数字，将所述数字作为时间绝对值；

提取所述时间信息中用于描述时间相对关系的信息；

确定该电子病例中疾病的病发时间；

17.根据权利要求10至16任一项所述的装置，其特征在于，所述模型构建模块包括信息整合模块，用于：

18.根据权利要求10至16任一项所述的装置，其特征在于，所述装置还包括概率分析模块，用于：

所述模型构建模块还用于：

19.一种电子设备，其特征在于，包括：

处理器；用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为：

所述对应关系模型的构建过程包括：