CN109509517A

CN109509517A - 一种医学检验检查指标自动修正的方法

Info

Publication number: CN109509517A
Application number: CN201811204706.4A
Authority: CN
Inventors: 叶琪; 张佳影; 张欢欢; 阮彤; 王祺; 张知行; 翟洁
Original assignee: East China University of Science and Technology
Current assignee: East China University of Science and Technology
Priority date: 2018-10-16
Filing date: 2018-10-16
Publication date: 2019-03-22

Abstract

本发明属于计算机应用领域，公开了一种医学检验检查指标自动修正的方法，该方法具体为：对输入的指标集合进行数据预处理，得到大小写统一、单位统一的指标集；根据指标的字面特征，通过基于密度的聚类算法得到指标簇集；利用二分类算法查找出簇内标准指标名称的同义指标，将同义指标与标准指标名称进行指标映射得到指标对齐结果，对于剩下非同义指标迭代重复这个步骤，直到所有簇内均为同义指标或簇内只剩1个指标；人工修正和映射处理，得到经过标准化的指标名称。实验表明，本方法F1‑score可以达到85.26％。

Description

一种医学检验检查指标自动修正的方法

技术领域

本发明属于医疗信息处理领域，更为具体地，尤其涉及一种医学检验检查指标自动修正的方法。

背景技术

由于历史原因，各家医院关于同一检验检查指标的称谓不尽相同。仅以“血清钠”为例，便有“钠离子浓度”、“NA+”、“动脉血钠”、“血钠(Na)”等10多种不同说法。由于目前并没有完整可用的指标同义词库以进行指标映射，这一问题已严重影响到了区域间医疗信息的互联共享。由此，对区域医疗健康平台中检验检查指标做标准化处理，将各家医院的同一指标的不同称谓映射成统一的标准名称，便显得至关重要。然而，由于检验检查指标涉及到大量的医学知识，加之各家医院的指标体系纷繁庞杂，由医学专业人员对其进行人工标准化，需要耗费大量的时间与精力。因此，如何设计一个检验检查指标的标准化算法，便成了关键所在。

检验检查指标的标准化问题，可以看作是一个实体对齐问题，即将医疗健康平台中的实测指标映射到标准指标上。关于实体对齐，目前主要有两类方法，分别是不同知识库中实体间的实例匹配，以及文本中实体和知识库实体之间的实体链接。前者常利用知识库中实体的属性信息进行实例匹配，后者常利用文本中实体的上下文信息与知识库中实体的属性信息进行实体链接。然而，检验检查指标存在于电子病历之中，只有相应的取值及取值范围，而不存在属性信息，同时也不拥有上下文信息；更重要的是，目前我国并无一个标准知识库来提供所有指标的标准名称。总之，现有技术都难以解决检验检查指标的标准化问题。

本发明提出了一种医学检验检查指标自动修正的方法，实验结果表明，在上海市8家三级医院的实验数据集上，最终的映射结果的F1-score可以达到85.26％。

发明内容

有鉴于此，本发明公开了一种医学检验检查指标自动修正的方法。其具体方案如下：

指标数据预处理：对指标数据进行预处理，实现大小写统一、单位统一和指标参考值提取；

指标聚类：利用指标的字面特征，通过基于密度的聚类算法，将不同的指标聚为一个个指标簇，以缩小指标的对齐范围；

簇内二分类：为每一个簇确定一个标准名称，并利用二分类算法找出簇内标准名称的同义指标，进行指标映射，对于剩下非同义指标，从中筛选出一个新的标准名称，继续利用二分类算法进行同义指标的查找，如此迭代进行，直到所有簇内均为同义指标或簇内只剩1个指标为止；

人工修正和映射：再由医学专业人员对指标对齐结果进行修正处理和映射处理。

指标数据预处理阶段，将病历中的指标数据，排除选填项，必填项中主要包括指标名称、缩写、参考值、单位、所属检查项、检查指标结果、异常指标提示等字段。其中，所属检查项因各家医院标准不一、检查指标结果因其取值因病人而异、异常指标提示因不具有指标区分度而失去作为指标标准化特征的意义。因此，可用的字段基本仅限于指标名称、缩写、参考值和单位这4项。对指标进行数据预处理，主要是统一指标大小写、统一指标单位，以及提取指标参考值。

指标聚类阶段，使用基于密度的聚类算法，将不同的指标聚到一个个指标簇中。基于密度的聚类算法依据样本分布的紧密程度来划分簇，它主要考察样本的可连接性，并在可连接样本的基础上通过不断扩展聚类簇来获得最终指标对齐结果。

本发明基于DBSCAN算法，使用指标名称及其缩写进行指标聚类。具体来说，给定指标集合D＝{x₁,x₂,...,x_n},其中，表示第i个指标的指标名称，表示第i个指标的名称缩写，表示第i个指标的指标单位，表示第i个指标的指标参考值，定义ε-邻域及核心对象为：

定义1(ε-邻域)对于x_i∈D,它的ε-邻域为数据集D中与x_i的距离不大于ε的所有样本，即Nε(x_i)＝{x_i∈D|dist(x_i,x_j)≤ε}。

定义2(核心对象)如果x_i的ε-邻域内至少包含minPts个样本，即|Nε(x_i)|≥minPts，那么x_i是一个核心对象。

特别地，在确定ε-邻域时，给出联合距离dist_joint(x_i,x_j)：将指标数据x_i、x_j分为两部分计算，首先计算multi-hot形式(0-1向量中不同的维度表示不同的汉字)的指标名称的余弦距离：

然后计算指标缩写的编辑距离：

其中是指标缩写的字符串长度，表示由经***、替换、删除操作转成所需的最少操作次数。最后，利用调和平均综合两个距离得到联合距离：

聚类算法从核心对象出发，不断向外扩展，进而生成聚类簇，集C＝{C₁,C₂,...,C_m}，其中，指标簇C_i中包括指标名称和指标缩写。

由于聚类是一个无监督的学习过程，它可能存在两个问题：1)聚为一簇的指标实际上医学含义不同，却因为名称相近或缩写相似而被归为一簇；2)有些离群值既不是核心对象，又不能通过核心对象访问，因而没有被聚类。因此，可以采用如下两种方法中的任意一种或者同时选择两种方法对聚类结果进行后处理。

方法一、单位验证。假设同义指标的单位是相同的，那么可以对每一簇指标进行单位验证，将不同单位的指标分离为不同的簇。

方法二、离群值推荐。对于未被聚类的离群值，考虑到离群值与其它簇都距离较远，很可能它本身就是一个全新的指标，将离群值分别建立一个单独的簇。

簇内二分类阶段，为每一个簇确定一个标准名称，并利用二分类算法将簇内指标划分为标准名称的同义指标和非同义指标两类，将同义指标与簇内标准指标名称进行指标映射得到指标对齐结果；对于指标簇C_i中剩余的非同义指标，从剩余指标列表中筛选出一个新的标准指标名称，继续利用二分类算法进行同义指标的查找和指标映射过程，迭代重复这一过程，直到所有簇内均为同义指标或簇内只剩1个指标为止。

特别地，为方便医学专业人员对指标对齐结果进行后处理修正，考虑到标准指标应为最常用的指标，本发明以簇内出现频次最多的指标为标准指标。

簇内二分类的具体方法为：

首先，为指标簇集C中每一个指标簇Ci确定一个标准指标名称；然后，根据知识库对标准指标名称进行数据增强，获得标准指标名称的同义指标；接着，对一个指标簇中的指标名称和指标缩写利用最长公共子序列相似度、Jaccard相似度、余弦相似度、编辑相似度方法得到相似度得分，对一个指标簇中的指标参考值利用分块打分特征方法得到分块得分，将相似度得分和分块得分作为特征利用二分类算法判断是否是标准指标名称的同义指标；最后，将同义指标映射为标准指标名称，得到指标对齐结果。

本发明设计了2类特征用于指标的二分类，分别是相似度特征和分块打分特征：

第一种特征是相似度特征，相似度特征包括：最长公共子序列相似度、Jaccard相似度、余弦相似度、编辑相似度。这类特征主要考虑了簇中每一个实测指标与标准指标及其所有同义词的名称相似度和缩写相似度。为了方便描述，以名称相似度为例(缩写相似度也是同理)，我们规定簇中实测指标名称为x^na，标准指标名称集合为其中下标n为标准指标及其同义指标的总个数。

最长公共子序列相似度其中|x^na|为实测指标名称的字符串长度，表示两个指标名称的最大公共子序列。这个相似度可以判定类似上下位关系的指标，比如“血糖”和“血糖(急诊)”在最长公共子序列相似度中为1。

Jaccard相似度这个相似度可以判定名称顺序不同的指标，比如“B型利钠肽”和“利钠肽B型”的Jaccard相似度为1。

余弦相似度其中x^na和均为multi-hot形式(0-1向量中不同的维度表示不同的汉字)。这个相似度衡量的是两个multi-hot形式的指标名称的余弦夹角，它受到类似中间***“-”等格式问题的影响更小一些。

编辑相似度其中|x^na|是指标名称x^na的字符串长度，表示由x^na经***、替换、删除操作转成所需的最少操作次数，其中x^na和均为multi-hot形式(0-1向量中不同的维度表示不同的汉字)。这个相似度衡量的是两个multi-hot形式的指标名称的编辑距离。

第二种分块打分特征。由于不同医院对同一个指标，在参考值的上下界设置上有时会略有不同，因此实践中存在着一个指标名称对应多个参考值的现象。为应对这一问题，本发明采用知识库实体对齐分块算法，提出基于参考值的指标分块打分算法。分块打分过程由两部分组成：首先，为标准指标的每一种参考值寻找一个与之最相似的实测指标参考值；然后，从这些最相似的参考值出发，构建实测指标与标准指标之间的匹配分块。

具体来说，给定簇中某一实测指标x，它所对应的参考值集合为其中表示实测指标x的第i种参考值范围，以及标准指标(及其同义指标的)参考值集合其中表示标准指标s的第i种参考值范围。本发明给定两个指标参考值x^ref和s^ref，参考值相似度公式为：

对于标准指标的每一个参考值从簇中找出一个与最相似的实测指标的参考值使得并将这两个指标组成参考值对根据参考值对可以构建指标集对p_i＝(X_i，S_i)，其中X_i为所有参考值为的实测指标的集合，S_i为所有参考值为的标准指标及其同义指标的集合。给定两个参考值对和定义参考值对相似度：

其中sim_{p_cos}(X₁，X₂)表示将指标集合X₁、X₂表示成one-hot形式(0-1向量中不同的维度表示不同的指标)后两者的余弦相似度。

根据下面参考附图对示例性实施例的详细说明，本发明的其它特征及方面将变得清楚。

附图说明

读者在参照附图阅读了本发明的具体实施方式以后，将会更清楚地了解本发明的各个方面。其中，

图1示出依据本发明的一实施方式，检验指标名称自动修正的流程框图；

图2示出依据本发明的一实施方式，指标聚类的流程框图；

图3示出依据本发明的一实施方式，簇内二分类的流程框图；

图4为利用本发明公开的分块打分特征方法对参考值对相似度计算的示意图。

具体实施方式

为了使本申请所揭示的技术内容更加详尽与完备，可参照附图以及本发明的下述各种具体实施例，附图中相同的标记代表相同或相似的组件。然而，本领域的普通技术人员应当理解，下文中所提供的实施例并非用来限制本发明所涵盖的范围。此外，附图仅仅用于示意性地加以说明，并未依照其原尺寸进行绘制。本发明实施例一公开了一种医学检验检查指标自动修正方法，参见图1所示，该方法包括：

步骤S1，对输入的指标集合进行数据预处理，得到指标名称的大小写统一、指标缩写的大小写统一、指标单位统一的指标集合其中，表示第i个指标的指标名称，表示第i个指标的名称缩写，表示第i个指标的指标单位，表示第i个指标的指标参考值；

步骤S2，根据所述指标集合D中指标名称和指标缩写的字面特征，通过基于密度的聚类算法，将不同的指标名称和指标缩写分别聚类得到指标簇集C＝{C₁,C₂,...,C_m}，其中，指标簇C_i中包括指标名称和指标缩写；

步骤S3，为所述指标簇集C中每一个指标簇C_i确定一个标准指标名称，并利用二分类算法查找出簇内标准指标名称的同义指标，将所述同义指标与所述簇内标准指标名称进行指标映射得到指标对齐结果，对于指标簇C_i中剩余的非同义指标，从剩余指标列表中筛选出一个新的标准指标名称，继续利用二分类算法进行同义指标的查找和指标映射过程，迭代重复步骤S3，直到所有簇内均为同义指标或簇内只剩1个指标为止；

步骤S4，对所述指标对齐结果进行人工修正和映射处理，得到经过标准化的指标名称。

特别地，为方便医学专业人员对指标对齐结果进行后处理修正，考虑到标准指标应为最常用的指标，标准指标名称为每一个指标簇Ci内出现频次最多的指标名称。

二分类算法可以为梯度上升决策树、逻辑回归、朴素贝叶斯、支持向量机或者随机森林算法中的任意一种。

发明实施例二公开了一种具体的医学检验检查指标自动修正方法，相比于上一个实施例，本实施例技术方法针对步骤S2做了进一步的说明和优化，如图2所示。具体为：

步骤S21，给定领域参数ε和minPts和指标集合D；

步骤S22，计算x_i的ε-领域Nε(x_i)，其中Nε(x_i)的表达式为：

Nε(x_i)＝{x_i∈D|dist(x_i,x_j)≤ε}，其中，dist(x_i,x_j)是指标x_i和x_j的联合距离，表达式为：

其中是指标名称和余弦距离，表达式为：

是指标缩写和的编辑距离，表达式为：

其中是指指标缩写的字符串长度，表示由经***、替换、删除操作转成所需的最少操作次数。

步骤S23，将|Nε(x_i)|≥minPts的所有x_i加入到核心对象集T中；

步骤S25，重复步骤S24得到所述指标簇集C＝{C₁,C₂,...,C_m}。

需要特别说明的是，在本实施例步骤S25之后可以增加步骤S26，对C＝{C₁,C₂,...,C_m}中每一簇的指标进行指标单位验证，将不同指标单位的指标分解为不同的簇。

在实施例二的步骤S25之后还可以增加步骤S27，对每个不在任意一簇的离群指标，分别建立一个单独的簇。

其中，领域参数ε为0.35，minPts的值为3时性能更好。如表1所示，本发明的基于密度的聚类算法的F1-score明显高于k均值聚类、均值漂移算法、高斯混合模型与凝聚层次聚类，其提高幅度均在10％以上。

表1不同聚类算法的性能对比

发明实施例三公开了一种具体的医学检验检查指标自动修正方法，相比于上一个实施例，本实施例技术方法针对步骤S3做了进一步的说明和优化，如图3所示。具体为：

步骤31，为所述指标簇集C中每一个指标簇C_i确定一个标准指标名称；

步骤32，根据已有知识库对标准指标名称进行数据增强，获得标准指标名称的同义指标；

步骤33，对所述一个指标簇中的指标名称和指标缩写利用最长公共子序列相似度方法得到相似度得分sim_lcs(x^na,S^na)，利用Jaccard相似度方法得到相似度得分sim_jac(x^na,S^na)，利用余弦相似度方法得到相似度得分sim_cos(x^na,S^na)，利用编辑相似度方法得到相似度得分sim_med(x^na,S^na)，对所述一个指标簇中的指标参考值利用分块打分特征方法得到分块得分，将sim_lcs(x^na,S^na)、sim_jac(x^na,S^na)、sim_cos(x^na,S^na)、sim_med(x^na,S^na)和所述分块得分作为特征利用二分类算法判断是否是标准指标名称的同义指标，其中，

其中，下标n为标准指标及其同一指标的总个数，|x^na|为实测指标名称的字符串长度，表示两个指标名称的最大公共子序列，表示由经***、替换、删除操作转成所需的最少操作次数；

步骤34，将同义指标映射为标准指标名称，得到指标对齐结果。

由于医学专业人员很难凭空枚举出所有的同义指标，加上有些指标可能会有与名称毫无联系的同义词(如“B型钠尿肽”和“脑钠素”)，因此在数据集生成方面，除由医学专业人员手动标注部分同义指标用于分类器训练之外，利用SNOMED CT知识库、LOINC知识库、百度百科3等途径来抽取标准指标的同义词用于训练。其中，SNOMED CT知识库为全英文库，目前并无中文版本，因此需要借助百度翻译、腾讯翻译、爱词霸翻译等翻译工具将英文指标翻译为中文指标。其中，即使对同一个指标，翻译工具也有可能会得到不同的翻译结果，因此翻译本身也是获取同义词的途径之一。表2给出了“B型钠尿肽”经数据增强后的同义指标示例。

表2同义指标示例

进一步，对所述一个指标簇中的指标参考值利用分块打分特征方法得到分块得分的过程，包括：

对于标准指标s的每一个参考值从簇中找到一个与最相似的实测指标的参考值使得并将这两个指标组成参考值对其中，计算参考值相似度的公式为：

根据参考值对构建指标集对p_i＝(X_i,S_i)，其中，X_i为所有参考值为的实测指标的集合，S_i为所有参考值为的标准指标及其同义指标的集合；

计算两个参考值对的参考值对相似度，公式为：

其中，sim_{p_cos}(X₁,X₂)表示将指标集合X₁和X₂表示为0-1向量后两者的余弦相似度；

当两个参考值对的相似度大于阀值θ，即时，将实测指标集合X₁、X₂和标准指标集合S₁、S₂纳入同一个分块B_i中；

对任意一个块B_i打分，得到分块得分score_i，公式为：

其中为块中标准指标所占的比重，S’为所有标准指标的集合，α是权重参数，块B_i中的所有指标共享同一个score_i得分；

当一个指标同时出现在M个分块时，则根据不同块的权重β_i计算出指标的加权平均得分

当一个指标不在任意一个块中，则分块得分score_i为0。

图4所示，标准参考值为区间[0,100]，其最相似的实测参考值为区间[0,100]，故其对应指标集对为p₁＝(X₁，S₁)＝({A，B}，{a，b})。同理，标准参考值所对应的指标集对p₂＝(X₂，S₂)＝({A，B，C}，{a，b})。

由此，

阀值θ为0.7，α为0.6，β_i为1/M的实验结果如表3所示，其中特征字段的名称、缩写和参考值分别表示名称相似度特征、缩写相似度特征和参考值分块打分特征。

表3不同分类算法的性能对比

从表3中可以看出，当使用名称相似度特征、缩写相似度特征和参考值分块打分特征，辅以GBDT分类器时，分类效果最好，其F1值可达85.26％。无论哪种分类器，基本都是随着特征数目的增多，分类效果越来越好，当使用全部三类分类特征时，分类效果达到最好。

上文中，参照附图描述了本发明的具体实施方式。但是，本领域中的普通技术人员能够理解，在不偏离本发明的精神和范围的情况下，还可以对本发明的具体实施方式作各种变更和替换。这些变更和替换都落在本发明权利要求书所限定的范围内。

Claims

1.一种医学检验检查指标自动修正的方法，其特征在于，所述方法包括以下步骤：

步骤S1，对输入的指标集合进行数据预处理，得到指标名称的大小写统一、指标缩写的大小写统一、指标单位统一的指标集合D＝{x₁,x₂,...,x_n},其中，表示第i个指标的指标名称，表示第i个指标的名称缩写，表示第i个指标的指标单位，表示第i个指标的指标参考值；

2.如权利要求1所述的方法，根据所述指标集合D中指标名称和指标缩写的字面特征，通过基于密度的聚类算法，将不同的指标名称和指标缩写分别聚类得到指标簇集C＝{C₁,C₂,...,C_m}的步骤，具体为：

步骤S21，给定领域参数ε和minPts和指标集合D；

步骤S22，计算x_i的ε-领域Nε(x_i)，其中Nε(x_i)的表达式为：

其中

是指标名称和余弦距离，表达式为：

是指标缩写和的编辑距离，表达式为：

其中是指指标缩写的字符串长度，表示由经***、替换、删除操作转成所需的最少操作次数；

步骤S23，将|Nε(x_i)|≥minPts的所有x_i加入到核心对象集T中；

步骤S25，重复步骤S24得到所述指标簇集C＝{C₁,C₂,...,C_m}。

3.如权利要求2所述的方法，其特征在于，步骤S25之后增加如下步骤：

步骤S26，对C＝{C₁,C₂,...,C_m}中每一簇的指标进行指标单位验证，将不同指标单位的指标分解为不同的簇。

4.如权利要求2所述的方法，其特征在于，步骤S25之后增加如下步骤：

步骤S27，对每个不在任意一簇的离群指标，分别建立一个单独的簇。

5.如权利要求2所述的方法，其特征在于，所述领域参数ε为0.35，所述minPts的值为3。

6.如权利要求1所述的方法，其特征在于，步骤S3的过程，包括：

步骤33，对所述一个指标簇中的指标名称和指标缩写利用最长公共子序列相似度方法得到相似度得分sim_lcs(x^na,S^na)，利用Jaccard相似度方法得到相似度得分sim_jac(x^na,S^na)，利用余弦相似度方法得到相似度得分sim_cos(x^na,S^na)，利用编辑相似度方法得到相似度得分sim_med(x^na,S^na)，对所述一个指标簇中的指标参考值利用分块打分特征方法得到分块得分score′，将sim_lcs(x^na,S^na)、sim_jac(x^na,S^na)、sim_cos(x^na,S^na)、sim_med(x^na,S^na)和所述分块得分作为特征利用二分类算法判断是否是标准指标名称的同义指标，其中，

7.如权利要求6所述的方法，其特征在于，利用分块打分特征方法得到分块得分的过程，包括：

计算两个参考值对的参考值对相似度，公式为：

对任意一个块B_i打分，得到分块得分score_i，公式为：

当一个指标不在任意一个块中，则分块得分score’为0。

8.如权利要求7所述的方法，其特征在于，所述阀值θ为0.7，所述α为0.6，所述β_i为1/M。

9.如权利要求1所述的方法，其特征在于，所述标准指标名称为每一个指标簇C_i内出现频次最多的指标名称。

10.如权利要求1所述的方法，其特征在于，所述二分类算法为梯度上升决策树、逻辑回归、朴素贝叶斯、支持向量机或者随机森林算法中的任意一种。