CN109949938B

CN109949938B - 用于将医疗非标准名称标准化的方法及装置

Info

Publication number: CN109949938B
Application number: CN201711385974.6A
Authority: CN
Inventors: 严君; 张永磊; 常剑; 於今
Original assignee: Beijing Asiainfo Data Co ltd
Current assignee: Beijing Asiainfo Data Co ltd
Priority date: 2017-12-20
Filing date: 2017-12-20
Publication date: 2024-04-26
Anticipated expiration: 2037-12-20
Also published as: CN109949938A

Abstract

本发明提供了一种用于将医疗非标准名称标准化的方法及装置，涉及医疗、数据分析技术领域，能够提高非标准名称标准化的准确性。其中该方法包括：收集标准名称相关数据和待标准化名称；利用标准名称相关数据训练DL词向量模型和TF‑IDF统计模型；根据DL词向量模型计算待标准化名称与每个标准名称的DL词向量相似度A_i，根据TF‑IDF统计模型计算待标准化名称与每个标准名称的TF‑IDF相似度B_i，根据A_i和B_i计算综合相似度C_i，选择C_i最大的标准名称作为待标准化名称的标准名称。上述方法应用于将医疗非标准名称转化为标准名称的过程中。

Description

用于将医疗非标准名称标准化的方法及装置

技术领域

本发明涉及医疗、数据分析领域，尤其涉及一种用于将医疗非标准名称标准化的方法及装置。

背景技术

在医疗领域中存在着严重的数据混乱问题，主要表现为：医生为了节省时间能够处理更多病患，在填写病历以及开立医嘱时使用了大量的简称或口语型描述性用语，导致针对医疗数据的深入分析难以进行。因此，需要将医生用语(即医疗非标准名称)转化为标准名称，即将非标准名称标准化。

目前进行非标准名称标准化的主要方法是：建立医疗标准名称的TF-IDF(TermFrequency-Inverse Document Frequency，词频-逆向文件频率)统计模型，根据TF-IDF统计模型获得各标准名称的TF-IDF特征和待标准化名称的TF-IDF特征，然后对比待标准化名称的TF-IDF特征与每个标准名称的TF-IDF特征的相似度，选择最相似的标准名称作为该待标准化名称的标准名称。

其中，TF-IDF统计模型是一种用于信息检索与数据挖掘的常用加权技术。TF即词频，是指词汇在某个名称中出现的频率；IDF即逆向文件频率，是指包含某个词汇的名称越多，则这个词汇的区分能力越差，反之越大。TF和IDF的乘积用以评估一个词对于一个文本或一个语料库中的一份文本的重要程度。字词的重要性随着它在文本中出现的次数成正比增加，但同时会随着它在语料库中出现的频率成反比下降。TF-IDF统计模型是用于度量文本相似度的传统重要方法。

但是，TF-IDF统计模型只能将在关系样本数据和同义词词库中的非标准名称标准化，无法准确地将未在关系样本数据和同义词词库中的新词汇转化为标准名称，并且TF-IDF统计模型无法准确地识别同义词，造成目前非标准名称标准化的准确性较低。

发明内容

针对上述现有技术中的问题，本发明实施例提供一种用于将医疗非标准名称标准化的方法及装置，通过引入DL(Deep Learning，深度学习)词向量模型，结合TF-IDF统计模型实现非标准名称的标准化，以提高非标准名称标准化的准确性。

为达到上述目的，本发明实施例采用如下技术方案：

第一方面，本发明实施例提供了一种用于将医疗非标准名称标准化的方法，其特征在于，该方法包括以下步骤：S1：收集标准名称相关数据和待标准化名称，其中所述标准名称数据包括：医疗领域中的标准名称与非标准名称的对应关系数据，和医疗领域中的文本数据。S2：利用所述标准名称相关数据，训练DL词向量模型和TF-IDF统计模型。S3：根据所述DL词向量模型，计算所述待标准化名称与所述标准名称相关数据中的每个标准名称的DL词向量相似度A_i；根据所述TF-IDF统计模型，计算所述待标准化名称与所述标准名称相关数据中的每个标准名称的TF-IDF相似度B_i；根据A_i和B_i，计算所述待标准化名称与所述每个标准名称的综合相似度C_i，选择C_i最大的标准名称作为所述待标准化名称的标准名称。其中，i＝1～N，N为所述标准名称相关数据中所包括的标准名称的数量。

在上述用于将医疗非标准名称标准化的方法中，在传统TF-IDF统计模型的基础上，结合DL词向量模型(深度学习的词向量模型)，利用TF-IDF统计模型对在标准名称相关数据(即关系样本数据)和同义词词库中的非标准名称进行标准化，同时利用DL词向量模型对未在关系样本数据和同义词词库中的非标准名称进行标准化。

由于DL词向量模型可以将关系样本数据(即标准名称与非标准名称对应关系数据及文本数据)中所包括的标准名称表示为DL词向量，该DL词向量为深度语义型向量，因此同义词能够被准确地识别，从而在此基础上对非标准名称，尤其是使用了同义词的非标准名称，进行标准化能够获得更高的准确率。

并且，由于DL词向量模型无需标注数据即可训练，因此能够对未在关系样本数据和同义词词库中的词汇进行相似度的判断，从而实现对未在关系样本数据和同义词词库中的非标准名称的标准化，提高标准化的准确率。

第二方面，本发明实施例提供了一种用以将医疗非标准名称标准化的装置，该装置包括：数据源收集模块，用于收集标准名称相关数据和待标准化名称，其中所述标准名称数据包括：医疗领域中的标准名称与非标准名称的对应关系数据，和医疗领域中的文本数据。模型训练模块，用于利用所述标准名称相关数据，训练DL词向量模型和TF-IDF统计模型。标准化模块，用于根据所述DL词向量模型，计算所述待标准化名称与所述标准名称相关数据中的每个标准名称的DL词向量相似度A_i；还用于根据所述TF-IDF统计模型，计算所述待标准化名称与所述标准名称相关数据中的每个标准名称的TF-IDF相似度B_i；还用于根据A_i和B_i，计算所述待标准化名称与所述每个标准名称的综合相似度C_i，选择C_i最大的标准名称作为所述待标准化名称的标准名称。其中，i＝1～N，N为所述标准名称相关数据中所包括的标准名称的数量。

上述用于将医疗非标准名称标准化的装置所能产生的有益效果与第一方面所述的用于将医疗非标准名称标准化的方法的有益效果相同，此处不再赘述。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1为本发明实施例所提供的用于将医疗非标准名称标准化的方法的基本流程图；

图2为本发明实施例所提供的方法中步骤S1的流程图；

图3为本发明实施例所提供的方法中对数据进行预处理步骤的流程图；

图4为本发明实施例所提供的方法中步骤S3的流程图；

图5为本发明实施例所提供的方法的步骤S3中计算待标准化名称与每个标准名称的DL词向量相似度的流程图；

图6为本发明实施例所提供的用于将医疗非标准名称标准化的装置的基本结构图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其它实施例，均属于本发明保护的范围。

本发明实施例提供了一种用于将医疗非标准名称标准化的方法，如图1所示，该方法包括以下步骤：

S1：数据源收集。具体包括：收集标准名称相关数据和待标准化名称，其中所述标准名称数据包括：医疗领域中的标准名称与非标准名称的对应关系数据，和医疗领域中的文本数据。

在上述步骤S1中，收集对应关系数据可主要包括一下两个方面的内容：如图2所示，

(1)采用网络爬虫技术，从医疗领域的开放知识库中获取包含标准名称及其缩写、英文名、别名、成分功效、疾病症状等描述信息，对所收集的这些描述信息进行数据解析，得到标准名称与非标准名称的对应关系数据。

其中，医疗领域的开放知识库例如可为万方医学栏目等开放的知识库。通过充分利用现有的知识库数据，可使后续训练出来的DL词向量模型和TF-IDF统计模型更加精准，有助于提高标准化的准确度。

所收集的这些描述信息主要用于进行两个方面的工作：后续用于训练DL词向量模型和TF-IDF统计模型；将标准名称对应的非标准名称作为标准名称的扩展信息，使得后续在进行标准名称与非标准名称相似度的判断时，提升判断的准确率。

(2)收集医院的医嘱数据和收费明细数据，对医嘱数据和收费明细数据进行关联，从中提取医嘱数据中所使用的非标准名称与收费明细数据中所使用的标准名称的对应关系数据。

其中，对医嘱数据和收费明细数据进行关联可依据设计规则，例如：同一病人的一次住院中开立医嘱时间与项目收费时间相近，且医嘱描述与收费描述相似性较高，则可判断医嘱与收费是关联的。当然，也可以使用其他的规则，本实施对此并不限定。

所收集的医疗领域中的文本数据具体可包括：病历、疾病、检查、检验等的描述性文本信息数据。

S2：模型训练。具体包括：利用所收集的标准名称相关数据，训练DL词向量模型和TF-IDF统计模型。

在上述步骤S2中，DL词向量模型为深度学习的词向量模型，其能够将标准名称与非标准名称都表示为DL词向量，该DL词向量为深度学习的词向量，换句话说，该DL词向量为深度语义型向量，能够将同义不同表述的词汇间的距离拉近，因此能够准确的识别同义词，从而有助于提升后续非标准名称标准化的准确率。并且，DL词向量模型无需标注数据即可训练，因此能够对未在关系样本数据(即上述标准名称相关数据)和同义词词库中的词汇进行相似度的判断，这也有助于提升非标准名称标准化的准确率。

在训练DL词向量模型的过程中，窗口大小为主要需要调节的参数，作为一种可能的设计，可将窗口大小调整为3，以识别绝大部分的词汇。

在本实施例中，为了便于模型的训练，在利用所收集的标准名称相关数据进行模型训练之前，即在步骤S1与步骤S2之间，可预先对所收集的标准名称相关数据进行预处理。如图3所示，该预处理的过程包括如下过程：

对标准名称相关数据进行文本分词，将其分成若干词汇。通过文本分词，便于后续对非标准名称中的词汇与标准名称进行相似度的比对。

对经过文本分词的数据进行词汇过滤，去除其中的停用词和低频词汇。其中，停用词是指无实际语义信息的词汇，主要包括标点符号、语气词等词汇；低频词汇是指出现次数低于一定阈值的词汇。通过词汇过滤，可避免停用词和低频词汇对相似度比对产生干扰。

对经过词汇过滤的数据进行同义词替换，将其中的每组同义词采用同一词汇表述。进行同义词替换可依据同义词词库，同义词词库中的数据可包含同义词词林，及整理的医疗领域相关的同义词词对。通过同义词替换，可避免同义不同表述的词汇对相似度比对产生干扰。

需要说明的是，由于标准名称相关数据包括标准名称与非标准名称的对应关系数据，及文本数据，因此需要分别对二者进行预处理。

此外，为了便于后续对非标准名称的标准化，可对所收集的待标准化名称也进行预处理，具体过程参见上面的预处理过程。

S3：待标准化名称标准化。

上述步骤S3具体包括如下过程：

S31：根据DL词向量模型，计算待标准化名称与标准名称相关数据中的每个标准名称的DL词向量相似度A_i。

在上述步骤S31中，i＝1～N，N为标准名称相关数据中所包括的标准名称的数量。也就是说，本步骤中可获得的DL词向量相似度为N个，分别为A₁～A_N。

如图4所示，上述步骤S31的具体过程可为：首先，根据DL词向量模型，将待标准化名称转化为一个DL词向量矩阵P，并将标准名称相关数据中的每个标准名称分别转化为一个DL词向量矩阵P_i(即P₁～P_N)。然后，根据P和P_i，计算待标准化名称与标准名称相关数据中的每个标准名称的DL词向量相似度A_i。

其中，根据P和P_i计算A_i可采用如下方式：如图5所示，首先，计算P与P_i的乘积，得到待标准化名称与标准名称相关数据中的每个标准名称的DL词向量相似度矩阵P_i′(即P₁′～P′_N)。然后，根据P_i′，获取待标准化名称中的每个词汇的最大相似度；此处“获取待标准化名称中的每个词汇的最大相似度”可采用贪心算法。之后，计算待标准化名称中的每个词汇的最大相似度之和。最后，将所得到的最大相似度之和除以待标准化名称中所包括的词汇的数目，所得到平均值结果作为A_i；通过这种求平均值的方式能够避免某些标准名称中词汇量较多所导致的误差。

S32：根据TF-IDF统计模型，计算待标准化名称与标准名称相关数据中的每个标准名称的TF-IDF相似度B_i。

在上述步骤S32中，可获得的TF-IDF相似度也为N个，分别为B₁～B_N。

如图4所示，上述步骤S32的具体过程可为：首先，根据TF-IDF统计模型，将待标准化名称转化为一个TF-IDF特征向量Q，并将标准名称相关数据中的每个标准名称分别转化为一个TF-IDF特征向量Q_i(即Q₁～Q_N)。然后，根据Q和Q_i，计算待标准化名称与标准名称相关数据中的每个标准名称的TF-IDF相似度B_i。需要说明的是，在计算B_i的过程中可采用余弦相似度算法。

S33：模型融合。如图4所示，具体包括：根据A_i和B_i，计算待标准化名称与标准名称相关数据中的每个标准名称的综合相似度C_i。

在上述步骤S33中，可获得的综合相似度也为N个，分别为C₁～C_N。

利用A_i和B_i计算C_i可采用的方法有多种，作为一种可能的实现方式，可采用加权平均法。

S34：选择C_i最大的标准名称作为待标准化名称的标准名称。

作为一种可能的实现方式，在上述步骤S34中，可依据数值大小对C₁～C_N进行排序，数值越大的C_i代表待标准化名称与对应标准名称的相似度越大，从而可确定数值最大的C_i对应的标准名称为待标准化名称的标准名称。

以上是对本发明实施例所提供的用于将医疗非标准名称标准化的方法的详细介绍。在上述方法中，将DL词向量模型与传统的TF-IDF统计模型相结合，从而融合了深度学习方法和传统统计方法的优点。其中，TF-IDF统计模型对在关系样本数据和同义词词库(在本实施例中即为标准名称相关数据)中的非标准名称具有良好的相似度判断能力，能够准确地将这部分非标准名称标准化。DL词向量模型对未在关系样本数据和同义词词库中的非标准名称，及包含同义词的非标准名称具有良好的相似度判断能力，能够准确地将这部分非标准名称标准化。

基于上述用于将医疗非标准名称标准化的方法，本实施例还提供一种装置，用于将医疗非标准名称标准化，如图6所示，该装置包括：数据源收集模块1、模型训练模块2和标准化模块3。

其中，数据源收集模块1用于收集标准名称相关数据和待标准化名称。所述标准名称数据包括：医疗领域中的标准名称与非标准名称的对应关系数据，和医疗领域中的文本数据。

模型训练模块2用于利用数据源收集模块1所收集的标准名称相关数据，训练DL词向量模型和TF-IDF统计模型。

标准化模块3用于根据DL词向量模型，计算待标准化名称与标准名称相关数据中的每个标准名称的DL词向量相似度A_i；还用于根据TF-IDF统计模型，计算待标准化名称与标准名称相关数据中的每个标准名称的TF-IDF相似度B_i；还用于根据A_i和B_i，计算待标准化名称与每个标准名称的综合相似度C_i，选择C_i最大的标准名称作为待标准化名称的标准名称。

采用上述装置对医疗非标准名称进行标准化，能够对未在标准名称相关数据和同义词词库中的词汇进行相似度的判断，并且能够准确识别同义不同表述的词汇，从而提高了非标准名称标准化的准确度。

以上所述仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种用于将医疗非标准名称标准化的方法，其特征在于，所述方法包括以下步骤：

S1：收集标准名称相关数据和待标准化名称，其中所述标准名称数据包括：医疗领域中的标准名称与非标准名称的对应关系数据，和医疗领域中的文本数据；

S2：利用所述标准名称相关数据，训练深度学习词向量模型和TF-IDF统计模型；

S3：根据所述深度学习词向量模型，计算所述待标准化名称与所述标准名称相关数据中的每个标准名称的深度学习词向量相似度A_i；根据所述TF-IDF统计模型，计算所述待标准化名称与所述标准名称相关数据中的每个标准名称的TF-IDF相似度B_i；根据A_i和B_i，计算所述待标准化名称与所述每个标准名称的综合相似度C_i，选择C_i最大的标准名称作为所述待标准化名称的标准名称；其中，i＝1～N，N为所述标准名称相关数据中所包括的标准名称的数量；

在步骤S3中，所述根据所述深度学习词向量模型，计算所述待标准化名称与所述标准名称相关数据中的每个标准名称的深度学习词向量相似度A_i，包括：

根据所述深度学习词向量模型，将所述待标准化名称转化为一个深度学习词向量矩阵P，并将所述每个标准名称分别转化为一个深度学习词向量矩阵P_i；计算P与P_i的乘积，得到所述待标准化名称与所述每个标准名称的深度学习词向量相似度矩阵P_i′；根据P_i′，获取所述待标准化名称中的每个词汇的最大相似度；计算所述每个词汇的最大相似度之和；将所述最大相似度之和除以所述待标准化名称中所包括的词汇的数目，所得到结果作为A_i；

计算B_i采用余弦相似度算法；在步骤S3中，计算所述综合相似度C_i采用加权平均法。

2.根据权利要求1所述的方法，其特征在于，在步骤S1中，收集所述对应关系数据包括：

采用网络爬虫技术，从医疗领域的开放知识库中获取包含标准名称及其缩写、英文名、别名、成分功效、疾病症状的描述信息，对所述描述信息进行数据解析，得到标准名称与非标准名称的对应关系数据；

收集医院的医嘱数据和收费明细数据，对所述医嘱数据和所述收费明细数据进行关联，从中提取所述医嘱数据中所使用的非标准名称与所述收费明细数据中所使用的标准名称的对应关系数据。

3.根据权利要求1所述的方法，其特征在于，在步骤S1中，所述文本数据包括：病历、疾病、检查、检验的描述性文本信息数据。

4.根据权利要求1所述的方法，其特征在于，在步骤S1与步骤S2之间，还包括：对所述标准名称相关数据和所述待标准化名称进行预处理；进行所述预处理包括：

对待预处理的数据进行文本分词，将其分成若干词汇；

对经过所述文本分词的数据进行词汇过滤，去除其中的停用词和低频词汇；

对经过所述词汇过滤的数据进行同义词替换，将其中的每组同义词采用同一词汇表述。

5.根据权利要求1所述的方法，其特征在于，在步骤S2中，在训练所述深度学习词向量模型的过程中，将其参数窗口大小调整为3。

6.根据权利要求1所述的方法，其特征在于，在步骤S3中，所述根据所述TF-IDF统计模型，计算所述待标准化名称与所述标准名称相关数据中的每个标准名称的TF-IDF相似度B_i，包括：

根据所述TF-IDF统计模型，将所述待标准化名称转化为一个TF-IDF特征向量Q，并将所述每个标准名称分别转化为一个TF-IDF特征向量Q_i；

根据Q和Q_i，计算所述待标准化名称与所述每个标准名称的TF-IDF相似度B_i。

7.一种用于将医疗非标准名称标准化的装置，其特征在于，所述装置包括：

数据源收集模块，用于收集标准名称相关数据和待标准化名称，其中所述标准名称数据包括：医疗领域中的标准名称与非标准名称的对应关系数据，和医疗领域中的文本数据；

模型训练模块，用于利用所述标准名称相关数据，训练深度学习词向量模型和TF-IDF统计模型；

标准化模块，用于根据所述深度学***均法；

所述标准化模块，具体用于根据所述深度学习词向量模型，将所述待标准化名称转化为一个深度学习词向量矩阵P，并将所述每个标准名称分别转化为一个深度学习词向量矩阵P_i；计算P与P_i的乘积，得到所述待标准化名称与所述每个标准名称的深度学习词向量相似度矩阵P_i′；根据P_i′，获取所述待标准化名称中的每个词汇的最大相似度；计算所述每个词汇的最大相似度之和；将所述最大相似度之和除以所述待标准化名称中所包括的词汇的数目，所得到结果作为A_i。