CN111739601B

CN111739601B - 非标准疾病名称的归一化方法、装置及可读介质

Info

Publication number: CN111739601B
Application number: CN202010594595.3A
Authority: CN
Inventors: 刘文丽
Original assignee: Shandong Health Medical Big Data Co ltd
Current assignee: Shandong Health Medical Big Data Co ltd
Priority date: 2020-06-28
Filing date: 2020-06-28
Publication date: 2022-03-29
Anticipated expiration: 2040-06-28
Also published as: CN111739601A

Abstract

本发明提供了一种非标准疾病名称的归一化方法、装置及可读介质，该方法，包括：获取非标准疾病名称；根据口语化疾病类型，确定该非标准疾病名称的第一标识信息；根据第一标识信息和第一身体部位特征词，确定该非标准疾病名称的待归一化疾病名称；对待参考的ICD版本中的每一个标准疾病名称均执行以下步骤：根据标准疾病类型，确定该目标标准疾病名称的第二标识信息；根据第二标识信息和第二身体部位特征词，确定该目标标准疾病名称的中间标准疾病名称；按照设定计算规则计算待归一化疾病名称和每一个中间标准疾病名称的距离，确定在待参考的ICD版本中与该中间标准疾病名称相对应的标准疾病名称。本发明的方案能够准确地对非标准疾病名称进行归一。

Description

非标准疾病名称的归一化方法、装置及可读介质

技术领域

本发明涉及医疗信息化技术领域，特别涉及一种非标准疾病名称的归一化方法、装置及可读介质。

背景技术

在我国，电子病历中存储了大量的诊断名称(即疾病名称)，这些疾病名称多为口语化未统一标准的疾病名称(例如肺癌、老年痴呆等)。国际疾病分类(InternationalClassification of Diseases，ICD)，是依据疾病的病因、解剖部位、临床表现、病理对疾病进行分类。目前全世界使用最广泛的ICD版本是世界卫生组织WHO于1992年公布的ICD-10，各国或地区可以根据需要对ICD-10进行扩展形成本地化版本。因此，非标准疾病名称的归一化成为亟待解决的问题。

目前，业界主要分为人工建立疾病归一库和计算机辅助建立疾病归一库两种方式。前者的缺点在于需要有专门的人员进行长期维护，人力成本较高；后者的缺点在于一般是通过词汇向量化(即word2vec)后计算词汇向量的欧式距离来判定词汇的相似程度，但在疾病名称归一化的工作中，疾病名称多为独立名词，缺乏上下文的关联，无法使用word2vec实现词汇的向量化。

为解决后者所存在的问题，目前采用常规编辑距离的方式来判定词汇相似度。例如，输入的非标准疾病名称为“肺癌”，疾病归一库中存储有“肺炎”和“肺恶性肿瘤”，通过编辑距离计算得到“肺癌”和“肺炎”的距离为1(即汉字不同的数量为1)，“肺癌”和“肺恶性肿瘤”的距离为4(即汉字不同的数量为4)，输出两个距离之间的最小值，即输出标准疾病名称为“肺炎”，从而使输入的非标准疾病名称“肺癌”被归一为标准疾病名称“肺炎”，但是这并不是正确的输出(即正确的输出应当为标准疾病名称“肺恶性肿瘤”)。因此，单纯的使用编辑距离的方式仍无法准确地对非标准疾病名称进行归一。

发明内容

本发明实施例提供了非标准疾病名称的归一化方法、装置及可读介质，能够准确地对非标准疾病名称进行归一。

第一方面，本发明实施例提供了非标准疾病名称的归一化方法，包括：

获取非标准疾病名称；

判断所述非标准疾病名称中是否包括第一身体部位特征词和口语化疾病类型；

若是，则根据所述口语化疾病类型，确定该非标准疾病名称的第一标识信息，其中，所述第一标识信息用于指示待参考的ICD版本中与所述非标准疾病名称相对应的标准疾病类型；

根据所述第一标识信息和所述第一身体部位特征词，确定该非标准疾病名称的待归一化疾病名称；

对所述待参考的ICD版本中的每一个标准疾病名称均执行以下步骤：

S1、如果该标准疾病名称包括第二身体部位特征词和标准疾病类型，则将该标准疾病名称确定为目标标准疾病名称；

S2、根据所述标准疾病类型，确定该目标标准疾病名称的第二标识信息，其中，所述第二标识信息用于指示所述待参考的ICD版本中与该目标标准疾病名称相对应的标准疾病类型；

S3、根据所述第二标识信息和所述第二身体部位特征词，确定该目标标准疾病名称的中间标准疾病名称；

按照设定计算规则计算所述待归一化疾病名称和每一个中间标准疾病名称的距离，获得与所述待归一化疾病名称的距离最小的中间标准疾病名称；

根据与所述待归一化疾病名称的距离最小的中间标准疾病名称，确定在所述待参考的ICD版本中与该中间标准疾病名称相对应的标准疾病名称。

在一种可能的设计中，在所述判断所述非标准疾病名称中是否包括第一身体部位特征词和口语化疾病类型之前，进一步包括：

对所述待参考的ICD版本中的每一个标准疾病名称按照标准疾病类型进行归类，并形成若干个按设定顺序排列的第一疾病分组；

根据若干个按设定顺序排列的第一疾病分组，确定与每一个第一疾病分组中的标准疾病类型相对应的口语化疾病类型，并将包含口语化疾病类型的第一疾病分组确定为第二疾病分组；

所述根据所述口语化疾病类型，确定该非标准疾病名称的第一标识信息，包括：

根据所述口语化疾病类型，确定包含该口语化疾病类型的第二疾病分组，并确定该第二疾病分组在若干个第二疾病分组中的位置；

根据该第二疾病分组在若干个第二疾病分组中的位置，确定该非标准疾病名称的第一标识信息；

所述根据所述标准疾病类型，确定该目标标准疾病名称的第二标识信息，包括：

根据所述标准疾病类型，确定包含该标准疾病类型的第二疾病分组，并确定该第二疾病分组在若干个第二疾病分组中的位置；

根据该第二疾病分组在若干个第二疾病分组中的位置，确定该目标标准疾病名称的第二标识信息。

在一种可能的设计中，所述设定计算规则，包括：

判断与所述非标准疾病名称相对应的第二疾病分组在若干个第二疾病分组中的位置是否和与所述目标标准疾病名称相对应的第二疾病分组在若干个第二疾病分组中的位置相同，若是，则确定第一距离为0，若否，则确定第一距离为2；

判断所述第一身体部位特征词和所述第二身体部位特征词是否相同，若是，则确定第二距离为0，若否，则确定第二距离为1；

将所述第一距离和所述第二距离相加。

在一种可能的设计中，所述根据与所述待归一化疾病名称的距离最小的中间标准疾病名称，确定在所述待参考的ICD版本中与该中间标准疾病名称相对应的标准疾病名称，包括：

将与所述待归一化疾病名称的距离最小的中间标准疾病名称相对应的目标标准疾病名称进行存储，并确定为非标准ICD版本；

确定第一疾病名称映射关系，其中，所述第一疾病名称映射关系用于表征所述非标准ICD版本中的目标标准疾病名称和所述待参考的ICD版本中与该目标标准疾病名称相对应的标准疾病名称之间的一一对应关系；

根据所述第一疾病名称映射关系，确定在所述待参考的ICD版本中与该中间标准疾病名称相对应的标准疾病名称。

在一种可能的设计中，在所述判断所述非标准疾病名称中是否包括第一身体部位特征词和口语化疾病类型之后，进一步包括：

若否，则将所述非标准疾病名称存储到所述非标准ICD版本中；

根据该非标准疾病名称，建立该非标准疾病名称和所述待参考的ICD版本中与该非标准疾病名称相对应的标准疾病名称的第二疾病名称映射关系。

第二方面，本发明实施例提供了非标准疾病名称的归一化装置，包括：

获取模块，用于获取非标准疾病名称；

判断模块，用于判断所述非标准疾病名称中是否包括第一身体部位特征词和口语化疾病类型；

第一确定模块，用于根据所述第一标识信息和所述第一身体部位特征词，确定该非标准疾病名称的待归一化疾病名称；

循环模块，用于对所述待参考的ICD版本中的每一个标准疾病名称均执行以下步骤：

计算模块，用于按照设定计算规则计算所述待归一化疾病名称和每一个中间标准疾病名称的距离，获得与所述待归一化疾病名称的距离最小的中间标准疾病名称；

第二确定模块，用于根据与所述待归一化疾病名称的距离最小的中间标准疾病名称，确定在所述待参考的ICD版本中与该中间标准疾病名称相对应的标准疾病名称。

在一种可能的设计中，进一步包括：

归类模块，用于对所述待参考的ICD版本中的每一个标准疾病名称按照标准疾病类型进行归类，并形成若干个按设定顺序排列的第一疾病分组；

第三确定模块，用于根据若干个按设定顺序排列的第一疾病分组，确定与每一个第一疾病分组中的标准疾病类型相对应的口语化疾病类型，并将包含口语化疾病类型的第一疾病分组确定为第二疾病分组；

所述判断模块，还用于：

所述循环模块，还用于：

在一种可能的设计中，所述设定计算规则，包括：

将所述第一距离和所述第二距离相加。

第三方面，本发明实施例提供了非标准疾病名称的归一化装置，包括：至少一个存储器和至少一个处理器；

所述至少一个存储器，用于存储机器可读程序；

所述至少一个处理器，用于调用所述机器可读程序，执行上述所述的方法。

第四方面，本发明实施例提供了计算机可读介质，所述计算机可读介质上存储有计算机指令，所述计算机指令在被处理器执行时，使所述处理器执行上述所述的方法。

由上述方案可知，本发明提供的非标准疾病名称的归一化方法通过将非标准疾病名称根据其包含的口语化疾病类型，确定该非标准疾病名称的第一标识信息，再根据第一标识信息和第一身体部位特征词，确定该非标准疾病名称的待归一化疾病名称；通过对待参考的ICD版本中的目标标准疾病名称根据其包含的标准疾病类型，确定该目标标准疾病名称的第二标识信息，再根据第二标识信息和第二身体部位特征词，确定该目标标准疾病名称的中间标准疾病名称，然后按照设定计算规则计算该待归一化疾病名称和每一个中间标准疾病名称的距离，获得与该待归一化疾病名称的距离最小的中间标准疾病名称，并确定在待参考的ICD版本中与该中间标准疾病名称相对应的标准疾病名称。如此设置，可以避免因采用常规编辑距离的方式来判定词汇相似度带来的误差较大的影响，从而能够准确地对非标准疾病名称进行归一。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一个实施例提供的非标准疾病名称的归一化方法的流程图；

图2是本发明另一个实施例提供的非标准疾病名称的归一化方法的流程图；

图3是本发明一实施例提供的非标准疾病名称的归一化装置所在设备的示意图；

图4是本发明一个实施例提供的非标准疾病名称的归一化装置的示意图；

图5是本发明另一个实施例提供的非标准疾病名称的归一化装置的示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例，基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1是本发明一个实施例提供的非标准疾病名称的归一化方法的流程图。如图1所示，该方法可以包括以下步骤：

步骤101、获取非标准疾病名称；

步骤102、判断所述非标准疾病名称中是否包括第一身体部位特征词和口语化疾病类型；

步骤103、根据所述第一标识信息和所述第一身体部位特征词，确定该非标准疾病名称的待归一化疾病名称；

步骤104、对所述待参考的ICD版本中的每一个标准疾病名称均执行以下步骤：

步骤105、按照设定计算规则计算所述待归一化疾病名称和每一个中间标准疾病名称的距离，获得与所述待归一化疾病名称的距离最小的中间标准疾病名称；

步骤106、根据与所述待归一化疾病名称的距离最小的中间标准疾病名称，确定在所述待参考的ICD版本中与该中间标准疾病名称相对应的标准疾病名称。

在本发明实施例中，本发明提供的非标准疾病名称的归一化方法通过将非标准疾病名称根据其包含的口语化疾病类型，确定该非标准疾病名称的第一标识信息，再根据第一标识信息和第一身体部位特征词，确定该非标准疾病名称的待归一化疾病名称；通过对待参考的ICD版本中的目标标准疾病名称根据其包含的标准疾病类型，确定该目标标准疾病名称的第二标识信息，再根据第二标识信息和第二身体部位特征词，确定该目标标准疾病名称的中间标准疾病名称，然后按照设定计算规则计算该待归一化疾病名称和每一个中间标准疾病名称的距离，获得与该待归一化疾病名称的距离最小的中间标准疾病名称，并确定在待参考的ICD版本中与该中间标准疾病名称相对应的标准疾病名称。如此设置，可以避免因采用常规编辑距离的方式来判定词汇相似度带来的误差较大的影响，从而能够准确地对非标准疾病名称进行归一。

基于图1所示的非标准疾病名称的归一化方法，在本发明的一种实施例中，在所述判断所述非标准疾病名称中是否包括第一身体部位特征词和口语化疾病类型之前，进一步包括：

在本发明实施例中，该非标准疾病名称的第一标识信息可以通过包含该口语化疾病类型的第二疾病分组，并确定该第二疾病分组在若干个第二疾病分组中的位置的方式来确定，该目标标准疾病名称的第二标识信息可以通过包含该标准疾病类型的第二疾病分组，并确定该第二疾病分组在若干个第二疾病分组中的位置的方式来确定，如此可使确定出的待归一化疾病名称和中间标准疾病名称在做计算时更加合理和符合归一化逻辑，即与计算出的与待归一化疾病名称的距离最小的中间标准疾病名称在待参考的ICD版本中相对应的标准疾病名称为正确输出的标准疾病名称，从而能够准确地对非标准疾病名称进行归一。

基于图1所示的非标准疾病名称的归一化方法，在本发明的一种实施例中，所述设定计算规则，包括：

将所述第一距离和所述第二距离相加。

在本发明实施例中，通过上述设定计算规则，与该非标准疾病名称正确对应的目标标准疾病名称之间的第一距离为0且第二距离为0，如此可实现输出的标准疾病名称是正确输出的。也就是说，只要第一距离或第二距离中有一者不为0，那么则会导致输出的标准疾病名称不是与该非标准疾病名称正确对应的。

基于图1所示的非标准疾病名称的归一化方法，在本发明的一种实施例中，所述根据与所述待归一化疾病名称的距离最小的中间标准疾病名称，确定在所述待参考的ICD版本中与该中间标准疾病名称相对应的标准疾病名称，包括：

确定第一疾病名称映射关系，其中，所述第一疾病名称映射关系用于表征所述非标准ICD版本中的目标标准疾病名称和所述待参考的ICD版本中的标准疾病名称之间的一一对应关系；

在本发明实施例中，通过设置非标准ICD版本，可以将该非标准ICD版本同时与现有的ICD版本(并非上述的待参考的ICD版本)运行，以实现对现有的ICD版本进行归一化的质量控制。例如，输入的非标准疾病名称为“肺癌”，经过非标准ICD版本输出的是“肺恶性肿瘤”，而经过现有的ICD版本如果也输出的是“肺恶性肿瘤”，则证明该现有的ICD版本对于该非标准疾病名称“肺癌”是正确输出的，而经过现有的ICD版本如果输出的是“肺炎”，则证明该现有的ICD版本对于该非标准疾病名称“肺癌”不是正确输出的。

基于图1所示的非标准疾病名称的归一化方法，在本发明的一种实施例中，在所述判断所述非标准疾病名称中是否包括第一身体部位特征词和口语化疾病类型之后，进一步包括：

在本发明实施例中，如果该非标准疾病名称中不包括第一身体部位特征词和口语化疾病类型，则证明该非标准疾病名称可能与标准疾病名称的距离较大，如此无法准确地采用距离的方式进行计算，而这部分非标准疾病名称(例如白血病、老年痴呆等)占所有非标准疾病名称的比例又相对较少，因此通过设置非标准ICD版本对这部分非标准疾病名称进行存储，如此可以进一步提高非标准疾病名称归一化的准确性。

如图2所示，本发明另一实施例还提供了一种非标准疾病名称的归一化方法。该方法包括以下步骤：

步骤201、获取非标准疾病名称。

在本步骤中，非标准疾病名称的获取方式可以通过人为向移动终端或服务器手动输入或语音输入。

步骤202、对所述待参考的ICD版本中的每一个标准疾病名称按照标准疾病类型进行归类，并形成若干个按设定顺序排列的第一疾病分组。

在本步骤中，待参考的ICD版本例如可以是ICD-10，标准疾病类型例如可以包括：恶性肿瘤、结核、炎症等，例如在恶性肿瘤这一第一疾病分组中，实际包括例如脑恶性肿瘤、肺恶性肿瘤、胸恶性肿瘤等标准疾病名称，若干个第一疾病分组的设定顺序排列例如可以是该标准疾病类型的第一个字的首字母，当然还可以是气他设定顺序排列，在此不进行一一限定。例如，形成的若干个按设定顺序排列的第一疾病分组如下所示：【恶性肿瘤】、【结核】、【炎症】……。

步骤203、根据若干个按设定顺序排列的第一疾病分组，确定与每一个第一疾病分组中的标准疾病类型相对应的口语化疾病类型，并将包含口语化疾病类型的第一疾病分组确定为第二疾病分组。

在本步骤中，首先以恶性肿瘤举例，与恶性肿瘤相对应的口语化疾病类型一般是癌，为增加口语化疾病类型的数量，当然也可以是癌症，如此也能起到能够对输入的非标准疾病名称更准确的输出。然后以炎症举例，与恶性肿瘤相对应的口语化疾病类型一般是炎，为增加口语化疾病类型的数量，当然也可以是炎症，在此处，口语化疾病类型和标准疾病类型相同，如此则不用重复对炎症这一字段添加。例如，形成的若干个按设定顺序排列的第二疾病分组如下所示：【恶性肿瘤、癌、癌症……】、【结核……】、【炎症、炎……】……。

步骤204、判断所述非标准疾病名称中是否包括第一身体部位特征词和口语化疾病类型。

在本步骤中，由于非标准疾病名称众多，在本发明实施例中，将众多非标准疾病名称分为两类，一类是包括第一身体部位特征词和口语化疾病类型(例如肺癌、脑癌等)，由于该类非标准疾病名称的占比较大，因此本发明实施例重点考虑如何对该类非标准疾病名称的准确输出；另一类是不包括第一身体部位特征词和口语化疾病类型(例如白血病、老年痴呆等)。

步骤205、根据所述口语化疾病类型，确定包含该口语化疾病类型的第二疾病分组，并确定该第二疾病分组在若干个第二疾病分组中的位置。

在本步骤中，例如，输入的非标准疾病名称为“肺癌”，根据口语化疾病类型“癌”，包含该口语化疾病类型“癌”的第二疾病分组为【恶性肿瘤、癌、癌症……】，并确定该第二疾病分组在若干个第二疾病分组中的位置，例如第一个位置。

步骤206、根据该第二疾病分组在若干个第二疾病分组中的位置，确定该非标准疾病名称的第一标识信息。

在本步骤中，接前例所述，例如第二疾病分组一共有n组，则“肺癌”所在的位置为第一组，确定的该非标准疾病名称的第一标识信息，例如可以是“10000……00”(其中0的个数为n-1个)，当然也可以是其它有标识性的信息，在此不进行一一举例。

步骤207、根据所述第一标识信息和所述第一身体部位特征词，确定该非标准疾病名称的待归一化疾病名称。

在本步骤中，接前例所述，“肺癌”的第一标识信息为“10000……00”(其中0的个数为n-1个)，“肺癌”的第一身体部位特征词为“肺”，确定的待归一化疾病名称，例如可以是“10000……00肺”(其中0的个数为n-1个)。

步骤208、对所述待参考的ICD版本中的每一个标准疾病名称均执行以下步骤：

S1、如果该标准疾病名称包括第二身体部位特征词和标准疾病类型，则将该标准疾病名称确定为目标标准疾病名称。

在本步骤中，由于前例将输入的非标准疾病名称限定为包括第一身体部位特征词和口语化疾病类型(例如肺癌、脑癌等)，因此为与输入的非标准疾病名称相对应，则需要将待参考的ICD版本中的每一个标准疾病名称符合身体部位和疾病类型的标准疾病名称筛选出来，在此处，所筛选出的目标标准疾病名称包括第二身体部位特征词和标准疾病类型(例如肺恶性肿瘤、脑恶性肿瘤等)。

S21、根据所述标准疾病类型，确定包含该标准疾病类型的第二疾病分组，并确定该第二疾病分组在若干个第二疾病分组中的位置。

在本步骤中，例如，“肺恶性肿瘤”和“脑恶性肿瘤”等标准疾病名称会根据其标准疾病类型“恶性肿瘤”，被分组到前例所述的第一组中，即【恶性肿瘤、癌、癌症……】，再例如，“肺炎”和“脑炎”等标准疾病名称会根据其标准疾病类型“炎”，被分组到前例所述的第三组中，即【炎症、炎……】。

S22、根据该第二疾病分组在若干个第二疾病分组中的位置，确定该目标标准疾病名称的第二标识信息。

在本步骤中，接前例所述，例如第二疾病分组一共有n组，则“肺恶性肿瘤”和“脑恶性肿瘤”所在的位置为第一组，确定该目标标准疾病名称的第二标识信息，例如可以是“10000……00”(其中0的个数为n-1个)，当然也可以是其它有标识性的信息，在此不进行一一举例。

再例如，“肺炎”和“脑炎”所在的位置为第三组，确定该目标标准疾病名称的第二标识信息，例如可以是“00100……00”(其中0的个数为n-1个)，当然也可以是其它有标识性的信息，在此不进行一一举例

S3、根据所述第二标识信息和所述第二身体部位特征词，确定该目标标准疾病名称的中间标准疾病名称。

在本步骤中，接前例所述，“肺恶性肿瘤”的第二标识信息为“10000……00”(其中0的个数为n-1个)，“肺恶性肿瘤”的第二身体部位特征词为“肺”，确定的中间标准疾病名称，例如可以是“10000……00肺”(其中0的个数为n-1个)。

再例如，“脑恶性肿瘤”的第二标识信息为“10000……00”(其中0的个数为n-1个)，“脑恶性肿瘤”的第二身体部位特征词为“脑”，确定的中间标准疾病名称，例如可以是“10000……00脑”(其中0的个数为n-1个)。

再例如，“肺炎”的第二标识信息为“00100……00”(其中0的个数为n-1个)，“肺恶性肿瘤”的第二身体部位特征词为“肺”，确定的中间标准疾病名称，例如可以是“00100……00肺”(其中0的个数为n-1个)。

再例如，“脑炎”的第二标识信息为“00100……00”(其中0的个数为n-1个)，“脑炎”的第二身体部位特征词为“脑”，确定的中间标准疾病名称，例如可以是“00100……00脑”(其中0的个数为n-1个)。

步骤209、按照设定计算规则计算所述待归一化疾病名称和每一个中间标准疾病名称的距离，获得与所述待归一化疾病名称的距离最小的中间标准疾病名称。

在本步骤中，所述设定计算规则，包括：

将所述第一距离和所述第二距离相加。

接前例所述，“肺癌”的待归一化疾病名称为“10000……00肺”(其中0的个数为n-1个)，“肺恶性肿瘤”的中间标准疾病名称为“10000……00肺”(其中0的个数为n-1个)，“脑恶性肿瘤”的中间标准疾病名称为“10000……00脑”(其中0的个数为n-1个)，“肺炎”的中间标准疾病名称为“00100……00肺”(其中0的个数为n-1个)，“脑炎”的中间标准疾病名称为“00100……00脑”(其中0的个数为n-1个)，按照上述设定计算规则，可得：

“肺癌”和“肺恶性肿瘤”的第一距离为0，第二距离为0；

“肺癌”和“脑恶性肿瘤”的第一距离为0，第二距离为1；

“肺癌”和“肺炎”的第一距离为2，第二距离为0；

“肺癌”和“脑炎”的第一距离为2，第二距离为1；

如此可知，与“肺癌”相对应的标准疾病名称为“肺恶性肿瘤”，从而可以正确输出。

步骤210、将与所述中间标准疾病名称相对应的目标标准疾病名称进行存储，并确定为非标准ICD版本。

在本步骤中，所确定的非标准ICD版本可以用于指导现有的ICD版本的质量控制。例如，输入的非标准疾病名称为“肺癌”，经过非标准ICD版本输出的是“肺恶性肿瘤”，而经过现有的ICD版本如果也输出的是“肺恶性肿瘤”，则证明该现有的ICD版本对于该非标准疾病名称“肺癌”是正确输出的，而经过现有的ICD版本如果输出的是“肺炎”，则证明该现有的ICD版本对于该非标准疾病名称“肺癌”不是正确输出的。

步骤211、确定第一疾病名称映射关系。

在本步骤中，所述第一疾病名称映射关系用于表征所述非标准ICD版本中的目标标准疾病名称和所述待参考的ICD版本中的标准疾病名称之间的一一对应关系。

步骤212、根据所述第一疾病名称映射关系，确定在所述待参考的ICD版本中与该中间标准疾病名称相对应的标准疾病名称。

在本步骤中，通过根据设置的第一疾病名称映射关系，可实现确定的非标准ICD版本指导现有的ICD版本的质量控制的效果。

步骤213、将所述非标准疾病名称存储到所述非标准ICD版本中。

在本步骤中，例如可以将“白血病”、“老年痴呆”等非标准疾病名称存储到所述非标准ICD版本中。

步骤214、根据该非标准疾病名称，建立该非标准疾病名称和所述待参考的ICD版本中与该非标准疾病名称相对应的标准疾病名称的第二疾病名称映射关系。

在本步骤中，如果该非标准疾病名称中不包括第一身体部位特征词和口语化疾病类型，则证明该非标准疾病名称可能与标准疾病名称的距离较大，如此无法准确地采用距离的方式进行计算，而这部分非标准疾病名称(例如白血病、老年痴呆等)占所有非标准疾病名称的比例又相对较少，因此通过设置非标准ICD版本对这部分非标准疾病名称进行存储，如此可以进一步提高非标准疾病名称归一化的准确性。

如图3和图4所示，本发明实施例提供了一种非标准疾病名称的归一化装置所在的设备和非标准疾病名称的归一化装置。装置实施例可以通过软件实现，也可以通过硬件或者软硬件结合的方式实现。从硬件层面而言，如图3所示，为本发明实施例提供的非标准疾病名称的归一化装置所在设备的一种硬件结构图，除了图3所示的处理器、内存、网络接口、以及非易失性存储器之外，实施例中装置所在的设备通常还可以包括其他硬件，如负责处理报文的转发芯片等等。以软件实现为例，如图4所示，作为一个逻辑意义上的装置，是通过其所在设备的CPU将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。

如图4所示，本实施例提供的非标准疾病名称的归一化装置，包括：

获取模块401，用于获取非标准疾病名称；

判断模块402，用于判断所述非标准疾病名称中是否包括第一身体部位特征词和口语化疾病类型；

第一确定模块403，用于根据所述第一标识信息和所述第一身体部位特征词，确定该非标准疾病名称的待归一化疾病名称；

循环模块404，用于对所述待参考的ICD版本中的每一个标准疾病名称均执行以下步骤：

计算模块405，用于按照设定计算规则计算所述待归一化疾病名称和每一个中间标准疾病名称的距离，获得与所述待归一化疾病名称的距离最小的中间标准疾病名称；

第二确定模块406，用于根据与所述待归一化疾病名称的距离最小的中间标准疾病名称，确定在所述待参考的ICD版本中与该中间标准疾病名称相对应的标准疾病名称。

在本发明实施例中，获取模块401可用于执行上述方法实施例中的步骤101，判断模块402可用于执行上述方法实施例中的步骤102，第一确定模块403可用于执行上述方法实施例中的步骤103，循环模块404可用于执行上述方法实施例中的步骤104，计算模块405可用于执行上述方法实施例中的步骤105，第二确定模块406可用于执行上述方法实施例中的步骤106。

如图5所示，在本发明的一个实施例中，该非标准疾病名称的归一化装置，进一步包括：

归类模块407，用于对所述待参考的ICD版本中的每一个标准疾病名称按照标准疾病类型进行归类，并形成若干个按设定顺序排列的第一疾病分组；

第三确定模块408，用于根据若干个按设定顺序排列的第一疾病分组，确定与每一个第一疾病分组中的标准疾病类型相对应的口语化疾病类型，并将包含口语化疾病类型的第一疾病分组确定为第二疾病分组；

所述判断模块402，还用于：

所述循环模块404，还用于：

在本发明一个实施例中，所述设定计算规则，包括：

将所述第一距离和所述第二距离相加。

可以理解的是，本发明实施例示意的结构并不构成对非标准疾病名称的归一化装置的具体限定。在本发明的另一些实施例中，非标准疾病名称的归一化装置可以包括比图示更多或者更少的部件，或者组合某些部件，或者拆分某些部件，或者不同的部件布置。图示的部件可以以硬件、软件或者软件和硬件的组合来实现。

上述装置内的各模块之间的信息交互、执行过程等内容，由于与本发明方法实施例基于同一构思，具体内容可参见本发明方法实施例中的叙述，此处不再赘述。

本发明实施例还提供了一种非标准疾病名称的归一化装置，包括：至少一个存储器和至少一个处理器；

所述至少一个存储器，用于存储机器可读程序；

所述至少一个处理器，用于调用所述机器可读程序，执行本发明任一实施例中的非标准疾病名称的归一化方法。

本发明实施例还提供了一种计算机可读介质，存储用于使一计算机执行如本文所述的非标准疾病名称的归一化方法的指令。具体地，可以提供配有存储介质的方法或者装置，在该存储介质上存储着实现上述实施例中任一实施例的功能的软件程序代码，且使该方法或者装置的计算机(或CPU或MPU)读出并执行存储在存储介质中的程序代码。

在这种情况下，从存储介质读取的程序代码本身可实现上述实施例中任何一项实施例的功能，因此程序代码和存储程序代码的存储介质构成了本发明的一部分。

用于提供程序代码的存储介质实施例包括软盘、硬盘、磁光盘、光盘(如CD-ROM、CD-R、CD-RW、DVD-ROM、DVD-RAM、DVD-RW、DVD+RW)、磁带、非易失性存储卡和ROM。可选择地，可以由通信网络从服务器计算机上下载程序代码。

此外，应该清楚的是，不仅可以通过执行计算机所读出的程序代码，而且可以通过基于程序代码的指令使计算机上操作的操作方法等来完成部分或者全部的实际操作，从而实现上述实施例中任意一项实施例的功能。

此外，可以理解的是，将由存储介质读出的程序代码写到***计算机内的扩展板中所设置的存储器中或者写到与计算机相连接的扩展单元中设置的存储器中，随后基于程序代码的指令使安装在扩展板或者扩展单元上的CPU等来执行部分和全部实际操作，从而实现上述实施例中任一实施例的功能。

综上所述，本发明各个实施例所提供的非标准疾病名称的归一化方法、装置及可读介质，至少具有如下有益效果：

1、在本发明实施例中，本发明提供的非标准疾病名称的归一化方法通过将非标准疾病名称根据其包含的口语化疾病类型，确定该非标准疾病名称的第一标识信息，再根据第一标识信息和第一身体部位特征词，确定该非标准疾病名称的待归一化疾病名称；通过对待参考的ICD版本中的目标标准疾病名称根据其包含的标准疾病类型，确定该目标标准疾病名称的第二标识信息，再根据第二标识信息和第二身体部位特征词，确定该目标标准疾病名称的中间标准疾病名称，然后按照设定计算规则计算该待归一化疾病名称和每一个中间标准疾病名称的距离，获得与该待归一化疾病名称的距离最小的中间标准疾病名称，并确定在待参考的ICD版本中与该中间标准疾病名称相对应的标准疾病名称。如此设置，可以避免因采用常规编辑距离的方式来判定词汇相似度带来的误差较大的影响，从而能够准确地对非标准疾病名称进行归一。

2、在本发明实施例中，该非标准疾病名称的第一标识信息可以通过包含该口语化疾病类型的第二疾病分组，并确定该第二疾病分组在若干个第二疾病分组中的位置的方式来确定，该目标标准疾病名称的第二标识信息可以通过包含该标准疾病类型的第二疾病分组，并确定该第二疾病分组在若干个第二疾病分组中的位置的方式来确定，如此可使确定出的待归一化疾病名称和中间标准疾病名称在做计算时更加合理和符合归一化逻辑，即与计算出的与待归一化疾病名称的距离最小的中间标准疾病名称在待参考的ICD版本中相对应的标准疾病名称为正确输出的标准疾病名称，从而能够准确地对非标准疾病名称进行归一。

3、在本发明实施例中，通过上述设定计算规则，与该非标准疾病名称正确对应的目标标准疾病名称之间的第一距离为0且第二距离为0，如此可实现输出的标准疾病名称是正确输出的。也就是说，只要第一距离或第二距离中有一者不为0，那么则会导致输出的标准疾病名称不是与该非标准疾病名称正确对应的。

4、在本发明实施例中，通过设置非标准ICD版本，可以将该非标准ICD版本同时与现有的ICD版本(并非上述的待参考的ICD版本)运行，以实现对现有的ICD版本进行归一化的质控。例如，输入的非标准疾病名称为“肺癌”，经过非标准ICD版本输出的是“肺恶性肿瘤”，而经过现有的ICD版本如果也输出的是“肺恶性肿瘤”，则证明该现有的ICD版本对于该非标准疾病名称“肺癌”是正确输出的，而经过现有的ICD版本如果输出的是“肺炎”，则证明该现有的ICD版本对于该非标准疾病名称“肺癌”不是正确输出的。

5、在本发明实施例中，如果该非标准疾病名称中不包括第一身体部位特征词和口语化疾病类型，则证明该非标准疾病名称可能与标准疾病名称的距离较大，如此无法准确地采用距离的方式进行计算，而这部分非标准疾病名称(如“白血病”、“老年痴呆”等)占所有非标准疾病名称的比例又相对较少，因此通过设置非标准ICD版本对这部分非标准疾病名称进行存储，如此可以进一步提高非标准疾病名称归一化的准确性。

以上所述仅为本申请的较佳实施例而已，并不用以限制本申请，凡在本申请的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本申请保护的范围之内。

Claims

1.非标准疾病名称的归一化方法，其特征在于，包括：

获取非标准疾病名称；

2.根据权利要求1所述的方法，其特征在于，

在所述判断所述非标准疾病名称中是否包括第一身体部位特征词和口语化疾病类型之前，进一步包括：

3.根据权利要求2所述的方法，其特征在于，所述设定计算规则，包括：

将所述第一距离和所述第二距离相加。

4.根据权利要求1所述的方法，其特征在于，所述根据与所述待归一化疾病名称的距离最小的中间标准疾病名称，确定在所述待参考的ICD版本中与该中间标准疾病名称相对应的标准疾病名称，包括：

确定第一疾病名称映射关系，其中，所述第一疾病名称映射关系用于表征所述非标准ICD版本中的目标标准疾病名称和所述待参考的ICD版本中的与该目标标准疾病名称相对应的标准疾病名称之间的一一对应关系；

5.根据权利要求4所述的方法，其特征在于，

在所述判断所述非标准疾病名称中是否包括第一身体部位特征词和口语化疾病类型之后，进一步包括：

6.非标准疾病名称的归一化装置，其特征在于，包括：

获取模块，用于获取非标准疾病名称；

7.根据权利要求6所述的装置，其特征在于，进一步包括：

所述判断模块，还用于：

所述循环模块，还用于：

8.根据权利要求7所述的装置，其特征在于，所述设定计算规则，包括：

将所述第一距离和所述第二距离相加。

9.疾病名称的归一化装置，其特征在于，包括：至少一个存储器和至少一个处理器；

所述至少一个存储器，用于存储机器可读程序；

所述至少一个处理器，用于调用所述机器可读程序，执行权利要求1至5中任一项所述的方法。

10.计算机可读介质，其特征在于，所述计算机可读介质上存储有计算机指令，所述计算机指令在被处理器执行时，使所述处理器执行权利要求1至5中任一项所述的方法。