CN109509517A - 一种医学检验检查指标自动修正的方法 - Google Patents

一种医学检验检查指标自动修正的方法 Download PDF

Info

Publication number
CN109509517A
CN109509517A CN201811204706.4A CN201811204706A CN109509517A CN 109509517 A CN109509517 A CN 109509517A CN 201811204706 A CN201811204706 A CN 201811204706A CN 109509517 A CN109509517 A CN 109509517A
Authority
CN
China
Prior art keywords
index
cluster
standard
synonymous
similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN201811204706.4A
Other languages
English (en)
Inventor
叶琪
张佳影
张欢欢
阮彤
王祺
张知行
翟洁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
East China University of Science and Technology
Original Assignee
East China University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by East China University of Science and Technology filed Critical East China University of Science and Technology
Priority to CN201811204706.4A priority Critical patent/CN109509517A/zh
Publication of CN109509517A publication Critical patent/CN109509517A/zh
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/60ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H15/00ICT specially adapted for medical reports, e.g. generation or transmission thereof
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H70/00ICT specially adapted for the handling or processing of medical references

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Public Health (AREA)
  • Primary Health Care (AREA)
  • Physics & Mathematics (AREA)
  • Medical Informatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Epidemiology (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明属于计算机应用领域,公开了一种医学检验检查指标自动修正的方法,该方法具体为:对输入的指标集合进行数据预处理,得到大小写统一、单位统一的指标集;根据指标的字面特征,通过基于密度的聚类算法得到指标簇集;利用二分类算法查找出簇内标准指标名称的同义指标,将同义指标与标准指标名称进行指标映射得到指标对齐结果,对于剩下非同义指标迭代重复这个步骤,直到所有簇内均为同义指标或簇内只剩1个指标;人工修正和映射处理,得到经过标准化的指标名称。实验表明,本方法F1‑score可以达到85.26%。

Description

一种医学检验检查指标自动修正的方法
技术领域
本发明属于医疗信息处理领域,更为具体地,尤其涉及一种医学检验检查指标自动修正的方法。
背景技术
由于历史原因,各家医院关于同一检验检查指标的称谓不尽相同。仅以“血清钠”为例,便有“钠离子浓度”、“NA+”、“动脉血钠”、“血钠(Na)”等10多种不同说法。由于目前并没有完整可用的指标同义词库以进行指标映射,这一问题已严重影响到了区域间医疗信息的互联共享。由此,对区域医疗健康平台中检验检查指标做标准化处理,将各家医院的同一指标的不同称谓映射成统一的标准名称,便显得至关重要。然而,由于检验检查指标涉及到大量的医学知识,加之各家医院的指标体系纷繁庞杂,由医学专业人员对其进行人工标准化,需要耗费大量的时间与精力。因此,如何设计一个检验检查指标的标准化算法,便成了关键所在。
检验检查指标的标准化问题,可以看作是一个实体对齐问题,即将医疗健康平台中的实测指标映射到标准指标上。关于实体对齐,目前主要有两类方法,分别是不同知识库中实体间的实例匹配,以及文本中实体和知识库实体之间的实体链接。前者常利用知识库中实体的属性信息进行实例匹配,后者常利用文本中实体的上下文信息与知识库中实体的属性信息进行实体链接。然而,检验检查指标存在于电子病历之中,只有相应的取值及取值范围,而不存在属性信息,同时也不拥有上下文信息;更重要的是,目前我国并无一个标准知识库来提供所有指标的标准名称。总之,现有技术都难以解决检验检查指标的标准化问题。
本发明提出了一种医学检验检查指标自动修正的方法,实验结果表明,在上海市8家三级医院的实验数据集上,最终的映射结果的F1-score可以达到85.26%。
发明内容
有鉴于此,本发明公开了一种医学检验检查指标自动修正的方法。其具体方案如下:
指标数据预处理:对指标数据进行预处理,实现大小写统一、单位统一和指标参考值提取;
指标聚类:利用指标的字面特征,通过基于密度的聚类算法,将不同的指标聚为一个个指标簇,以缩小指标的对齐范围;
簇内二分类:为每一个簇确定一个标准名称,并利用二分类算法找出簇内标准名称的同义指标,进行指标映射,对于剩下非同义指标,从中筛选出一个新的标准名称,继续利用二分类算法进行同义指标的查找,如此迭代进行,直到所有簇内均为同义指标或簇内只剩1个指标为止;
人工修正和映射:再由医学专业人员对指标对齐结果进行修正处理和映射处理。
指标数据预处理阶段,将病历中的指标数据,排除选填项,必填项中主要包括指标名称、缩写、参考值、单位、所属检查项、检查指标结果、异常指标提示等字段。其中,所属检查项因各家医院标准不一、检查指标结果因其取值因病人而异、异常指标提示因不具有指标区分度而失去作为指标标准化特征的意义。因此,可用的字段基本仅限于指标名称、缩写、参考值和单位这4项。对指标进行数据预处理,主要是统一指标大小写、统一指标单位,以及提取指标参考值。
指标聚类阶段,使用基于密度的聚类算法,将不同的指标聚到一个个指标簇中。基于密度的聚类算法依据样本分布的紧密程度来划分簇,它主要考察样本的可连接性,并在可连接样本的基础上通过不断扩展聚类簇来获得最终指标对齐结果。
本发明基于DBSCAN算法,使用指标名称及其缩写进行指标聚类。具体来说,给定指标集合D={x1,x2,...,xn},其中,表示第i个指标的指标名称,表示第i个指标的名称缩写,表示第i个指标的指标单位,表示第i个指标的指标参考值,定义ε-邻域及核心对象为:
定义1(ε-邻域)对于xi∈D,它的ε-邻域为数据集D中与xi的距离不大于ε的所有样本,即Nε(xi)={xi∈D|dist(xi,xj)≤ε}。
定义2(核心对象)如果xi的ε-邻域内至少包含minPts个样本,即|Nε(xi)|≥minPts,那么xi是一个核心对象。
特别地,在确定ε-邻域时,给出联合距离distjoint(xi,xj):将指标数据xi、xj分为两部分计算,首先计算multi-hot形式(0-1向量中不同的维度表示不同的汉字)的指标名称的余弦距离:
然后计算指标缩写的编辑距离:
其中是指标缩写的字符串长度,表示由经***、替换、删除操作转成所需的最少操作次数。最后,利用调和平均综合两个距离得到联合距离:
聚类算法从核心对象出发,不断向外扩展,进而生成聚类簇,集C={C1,C2,...,Cm},其中,指标簇Ci中包括指标名称和指标缩写。
由于聚类是一个无监督的学习过程,它可能存在两个问题:1)聚为一簇的指标实际上医学含义不同,却因为名称相近或缩写相似而被归为一簇;2)有些离群值既不是核心对象,又不能通过核心对象访问,因而没有被聚类。因此,可以采用如下两种方法中的任意一种或者同时选择两种方法对聚类结果进行后处理。
方法一、单位验证。假设同义指标的单位是相同的,那么可以对每一簇指标进行单位验证,将不同单位的指标分离为不同的簇。
方法二、离群值推荐。对于未被聚类的离群值,考虑到离群值与其它簇都距离较远,很可能它本身就是一个全新的指标,将离群值分别建立一个单独的簇。
簇内二分类阶段,为每一个簇确定一个标准名称,并利用二分类算法将簇内指标划分为标准名称的同义指标和非同义指标两类,将同义指标与簇内标准指标名称进行指标映射得到指标对齐结果;对于指标簇Ci中剩余的非同义指标,从剩余指标列表中筛选出一个新的标准指标名称,继续利用二分类算法进行同义指标的查找和指标映射过程,迭代重复这一过程,直到所有簇内均为同义指标或簇内只剩1个指标为止。
特别地,为方便医学专业人员对指标对齐结果进行后处理修正,考虑到标准指标应为最常用的指标,本发明以簇内出现频次最多的指标为标准指标。
簇内二分类的具体方法为:
首先,为指标簇集C中每一个指标簇Ci确定一个标准指标名称;然后,根据知识库对标准指标名称进行数据增强,获得标准指标名称的同义指标;接着,对一个指标簇中的指标名称和指标缩写利用最长公共子序列相似度、Jaccard相似度、余弦相似度、编辑相似度方法得到相似度得分,对一个指标簇中的指标参考值利用分块打分特征方法得到分块得分,将相似度得分和分块得分作为特征利用二分类算法判断是否是标准指标名称的同义指标;最后,将同义指标映射为标准指标名称,得到指标对齐结果。
本发明设计了2类特征用于指标的二分类,分别是相似度特征和分块打分特征:
第一种特征是相似度特征,相似度特征包括:最长公共子序列相似度、Jaccard相似度、余弦相似度、编辑相似度。这类特征主要考虑了簇中每一个实测指标与标准指标及其所有同义词的名称相似度和缩写相似度。为了方便描述,以名称相似度为例(缩写相似度也是同理),我们规定簇中实测指标名称为xna,标准指标名称集合为其中下标n为标准指标及其同义指标的总个数。
最长公共子序列相似度其中|xna|为实测指标名称的字符串长度,表示两个指标名称的最大公共子序列。这个相似度可以判定类似上下位关系的指标,比如“血糖”和“血糖(急诊)”在最长公共子序列相似度中为1。
Jaccard相似度这个相似度可以判定名称顺序不同的指标,比如“B型利钠肽”和“利钠肽B型”的Jaccard相似度为1。
余弦相似度其中xna均为multi-hot形式(0-1向量中不同的维度表示不同的汉字)。这个相似度衡量的是两个multi-hot形式的指标名称的余弦夹角,它受到类似中间***“-”等格式问题的影响更小一些。
编辑相似度其中|xna|是指标名称xna的字符串长度,表示由xna经***、替换、删除操作转成所需的最少操作次数,其中xna均为multi-hot形式(0-1向量中不同的维度表示不同的汉字)。这个相似度衡量的是两个multi-hot形式的指标名称的编辑距离。
第二种分块打分特征。由于不同医院对同一个指标,在参考值的上下界设置上有时会略有不同,因此实践中存在着一个指标名称对应多个参考值的现象。为应对这一问题,本发明采用知识库实体对齐分块算法,提出基于参考值的指标分块打分算法。分块打分过程由两部分组成:首先,为标准指标的每一种参考值寻找一个与之最相似的实测指标参考值;然后,从这些最相似的参考值出发,构建实测指标与标准指标之间的匹配分块。
具体来说,给定簇中某一实测指标x,它所对应的参考值集合为其中表示实测指标x的第i种参考值范围,以及标准指标(及其同义指标的)参考值集合其中表示标准指标s的第i种参考值范围。本发明给定两个指标参考值xref和sref,参考值相似度公式为:
对于标准指标的每一个参考值从簇中找出一个与最相似的实测指标的参考值使得并将这两个指标组成参考值对根据参考值对可以构建指标集对pi=(Xi,Si),其中Xi为所有参考值为的实测指标的集合,Si为所有参考值为的标准指标及其同义指标的集合。给定两个参考值对定义参考值对相似度:
其中simp_cos(X1,X2)表示将指标集合X1、X2表示成one-hot形式(0-1向量中不同的维度表示不同的指标)后两者的余弦相似度。
根据下面参考附图对示例性实施例的详细说明,本发明的其它特征及方面将变得清楚。
附图说明
读者在参照附图阅读了本发明的具体实施方式以后,将会更清楚地了解本发明的各个方面。其中,
图1示出依据本发明的一实施方式,检验指标名称自动修正的流程框图;
图2示出依据本发明的一实施方式,指标聚类的流程框图;
图3示出依据本发明的一实施方式,簇内二分类的流程框图;
图4为利用本发明公开的分块打分特征方法对参考值对相似度计算的示意图。
具体实施方式
为了使本申请所揭示的技术内容更加详尽与完备,可参照附图以及本发明的下述各种具体实施例,附图中相同的标记代表相同或相似的组件。然而,本领域的普通技术人员应当理解,下文中所提供的实施例并非用来限制本发明所涵盖的范围。此外,附图仅仅用于示意性地加以说明,并未依照其原尺寸进行绘制。本发明实施例一公开了一种医学检验检查指标自动修正方法,参见图1所示,该方法包括:
步骤S1,对输入的指标集合进行数据预处理,得到指标名称的大小写统一、指标缩写的大小写统一、指标单位统一的指标集合其中,表示第i个指标的指标名称,表示第i个指标的名称缩写,表示第i个指标的指标单位,表示第i个指标的指标参考值;
步骤S2,根据所述指标集合D中指标名称和指标缩写的字面特征,通过基于密度的聚类算法,将不同的指标名称和指标缩写分别聚类得到指标簇集C={C1,C2,...,Cm},其中,指标簇Ci中包括指标名称和指标缩写;
步骤S3,为所述指标簇集C中每一个指标簇Ci确定一个标准指标名称,并利用二分类算法查找出簇内标准指标名称的同义指标,将所述同义指标与所述簇内标准指标名称进行指标映射得到指标对齐结果,对于指标簇Ci中剩余的非同义指标,从剩余指标列表中筛选出一个新的标准指标名称,继续利用二分类算法进行同义指标的查找和指标映射过程,迭代重复步骤S3,直到所有簇内均为同义指标或簇内只剩1个指标为止;
步骤S4,对所述指标对齐结果进行人工修正和映射处理,得到经过标准化的指标名称。
特别地,为方便医学专业人员对指标对齐结果进行后处理修正,考虑到标准指标应为最常用的指标,标准指标名称为每一个指标簇Ci内出现频次最多的指标名称。
二分类算法可以为梯度上升决策树、逻辑回归、朴素贝叶斯、支持向量机或者随机森林算法中的任意一种。
发明实施例二公开了一种具体的医学检验检查指标自动修正方法,相比于上一个实施例,本实施例技术方法针对步骤S2做了进一步的说明和优化,如图2所示。具体为:
步骤S21,给定领域参数ε和minPts和指标集合D;
步骤S22,计算xi的ε-领域Nε(xi),其中Nε(xi)的表达式为:
Nε(xi)={xi∈D|dist(xi,xj)≤ε},其中,dist(xi,xj)是指标xi和xj的联合距离,表达式为:
其中是指标名称余弦距离,表达式为:
是指标缩写的编辑距离,表达式为:
其中是指指标缩写的字符串长度,表示由经***、替换、删除操作转成所需的最少操作次数。
步骤S23,将|Nε(xi)|≥minPts的所有xi加入到核心对象集T中;
步骤S24,从所述核心对象集T中随机选取一个核心对象o,将|Nε(o)|≥minPts的所有指标加入到指标簇Ci中,然后计算所述指标簇Ci中每个指标的ε-领域Nε(xj),当|Nε(xj)|≥minPts时将Nε(xj)的所有指标加入到所述指标簇Ci中,直到新加入到所述指标簇Ci中每个指标的ε-领域的|Nε(xj)|<minPts,最后将所述指标簇Ci中出现的所有核心对象在所述核心对象集T中删除;
步骤S25,重复步骤S24得到所述指标簇集C={C1,C2,...,Cm}。
需要特别说明的是,在本实施例步骤S25之后可以增加步骤S26,对C={C1,C2,...,Cm}中每一簇的指标进行指标单位验证,将不同指标单位的指标分解为不同的簇。
在实施例二的步骤S25之后还可以增加步骤S27,对每个不在任意一簇的离群指标,分别建立一个单独的簇。
其中,领域参数ε为0.35,minPts的值为3时性能更好。如表1所示,本发明的基于密度的聚类算法的F1-score明显高于k均值聚类、均值漂移算法、高斯混合模型与凝聚层次聚类,其提高幅度均在10%以上。
表1不同聚类算法的性能对比
发明实施例三公开了一种具体的医学检验检查指标自动修正方法,相比于上一个实施例,本实施例技术方法针对步骤S3做了进一步的说明和优化,如图3所示。具体为:
步骤31,为所述指标簇集C中每一个指标簇Ci确定一个标准指标名称;
步骤32,根据已有知识库对标准指标名称进行数据增强,获得标准指标名称的同义指标;
步骤33,对所述一个指标簇中的指标名称和指标缩写利用最长公共子序列相似度方法得到相似度得分simlcs(xna,Sna),利用Jaccard相似度方法得到相似度得分simjac(xna,Sna),利用余弦相似度方法得到相似度得分simcos(xna,Sna),利用编辑相似度方法得到相似度得分simmed(xna,Sna),对所述一个指标簇中的指标参考值利用分块打分特征方法得到分块得分,将simlcs(xna,Sna)、simjac(xna,Sna)、simcos(xna,Sna)、simmed(xna,Sna)和所述分块得分作为特征利用二分类算法判断是否是标准指标名称的同义指标,其中,
其中,下标n为标准指标及其同一指标的总个数,|xna|为实测指标名称的字符串长度,表示两个指标名称的最大公共子序列,表示由经***、替换、删除操作转成所需的最少操作次数;
步骤34,将同义指标映射为标准指标名称,得到指标对齐结果。
由于医学专业人员很难凭空枚举出所有的同义指标,加上有些指标可能会有与名称毫无联系的同义词(如“B型钠尿肽”和“脑钠素”),因此在数据集生成方面,除由医学专业人员手动标注部分同义指标用于分类器训练之外,利用SNOMED CT知识库、LOINC知识库、百度百科3等途径来抽取标准指标的同义词用于训练。其中,SNOMED CT知识库为全英文库,目前并无中文版本,因此需要借助百度翻译、腾讯翻译、爱词霸翻译等翻译工具将英文指标翻译为中文指标。其中,即使对同一个指标,翻译工具也有可能会得到不同的翻译结果,因此翻译本身也是获取同义词的途径之一。表2给出了“B型钠尿肽”经数据增强后的同义指标示例。
表2同义指标示例
进一步,对所述一个指标簇中的指标参考值利用分块打分特征方法得到分块得分的过程,包括:
对于标准指标s的每一个参考值从簇中找到一个与最相似的实测指标的参考值使得并将这两个指标组成参考值对其中,计算参考值相似度的公式为:
根据参考值对构建指标集对pi=(Xi,Si),其中,Xi为所有参考值为的实测指标的集合,Si为所有参考值为的标准指标及其同义指标的集合;
计算两个参考值对的参考值对相似度,公式为:
其中,simp_cos(X1,X2)表示将指标集合X1和X2表示为0-1向量后两者的余弦相似度;
当两个参考值对的相似度大于阀值θ,即时,将实测指标集合X1、X2和标准指标集合S1、S2纳入同一个分块Bi中;
对任意一个块Bi打分,得到分块得分scorei,公式为:
其中为块中标准指标所占的比重,S’为所有标准指标的集合,α是权重参数,块Bi中的所有指标共享同一个scorei得分;
当一个指标同时出现在M个分块时,则根据不同块的权重βi计算出指标的加权平均得分
当一个指标不在任意一个块中,则分块得分scorei为0。
图4所示,标准参考值为区间[0,100],其最相似的实测参考值为区间[0,100],故其对应指标集对为p1=(X1,S1)=({A,B},{a,b})。同理,标准参考值所对应的指标集对p2=(X2,S2)=({A,B,C},{a,b})。
由此,
阀值θ为0.7,α为0.6,βi为1/M的实验结果如表3所示,其中特征字段的名称、缩写和参考值分别表示名称相似度特征、缩写相似度特征和参考值分块打分特征。
表3不同分类算法的性能对比
从表3中可以看出,当使用名称相似度特征、缩写相似度特征和参考值分块打分特征,辅以GBDT分类器时,分类效果最好,其F1值可达85.26%。无论哪种分类器,基本都是随着特征数目的增多,分类效果越来越好,当使用全部三类分类特征时,分类效果达到最好。
上文中,参照附图描述了本发明的具体实施方式。但是,本领域中的普通技术人员能够理解,在不偏离本发明的精神和范围的情况下,还可以对本发明的具体实施方式作各种变更和替换。这些变更和替换都落在本发明权利要求书所限定的范围内。

Claims (10)

1.一种医学检验检查指标自动修正的方法,其特征在于,所述方法包括以下步骤:
步骤S1,对输入的指标集合进行数据预处理,得到指标名称的大小写统一、指标缩写的大小写统一、指标单位统一的指标集合D={x1,x2,...,xn},其中,表示第i个指标的指标名称,表示第i个指标的名称缩写,表示第i个指标的指标单位,表示第i个指标的指标参考值;
步骤S2,根据所述指标集合D中指标名称和指标缩写的字面特征,通过基于密度的聚类算法,将不同的指标名称和指标缩写分别聚类得到指标簇集C={C1,C2,...,Cm},其中,指标簇Ci中包括指标名称和指标缩写;
步骤S3,为所述指标簇集C中每一个指标簇Ci确定一个标准指标名称,并利用二分类算法查找出簇内标准指标名称的同义指标,将所述同义指标与所述簇内标准指标名称进行指标映射得到指标对齐结果,对于指标簇Ci中剩余的非同义指标,从剩余指标列表中筛选出一个新的标准指标名称,继续利用二分类算法进行同义指标的查找和指标映射过程,迭代重复步骤S3,直到所有簇内均为同义指标或簇内只剩1个指标为止;
步骤S4,对所述指标对齐结果进行人工修正和映射处理,得到经过标准化的指标名称。
2.如权利要求1所述的方法,根据所述指标集合D中指标名称和指标缩写的字面特征,通过基于密度的聚类算法,将不同的指标名称和指标缩写分别聚类得到指标簇集C={C1,C2,...,Cm}的步骤,具体为:
步骤S21,给定领域参数ε和minPts和指标集合D;
步骤S22,计算xi的ε-领域Nε(xi),其中Nε(xi)的表达式为:
Nε(xi)={xi∈D|dist(xi,xj)≤ε},其中,dist(xi,xj)是指标xi和xj的联合距离,表达式为:
其中
是指标名称余弦距离,表达式为:
是指标缩写的编辑距离,表达式为:
其中是指指标缩写的字符串长度,表示由经***、替换、删除操作转成所需的最少操作次数;
步骤S23,将|Nε(xi)|≥minPts的所有xi加入到核心对象集T中;
步骤S24,从所述核心对象集T中随机选取一个核心对象o,将|Nε(o)|≥minPts的所有指标加入到指标簇Ci中,然后计算所述指标簇Ci中每个指标的ε-领域Nε(xj),当|Nε(xj)|≥minPts时将Nε(xj)的所有指标加入到所述指标簇Ci中,直到新加入到所述指标簇Ci中每个指标的ε-领域的|Nε(xj)|<minPts,最后将所述指标簇Ci中出现的所有核心对象在所述核心对象集T中删除;
步骤S25,重复步骤S24得到所述指标簇集C={C1,C2,...,Cm}。
3.如权利要求2所述的方法,其特征在于,步骤S25之后增加如下步骤:
步骤S26,对C={C1,C2,...,Cm}中每一簇的指标进行指标单位验证,将不同指标单位的指标分解为不同的簇。
4.如权利要求2所述的方法,其特征在于,步骤S25之后增加如下步骤:
步骤S27,对每个不在任意一簇的离群指标,分别建立一个单独的簇。
5.如权利要求2所述的方法,其特征在于,所述领域参数ε为0.35,所述minPts的值为3。
6.如权利要求1所述的方法,其特征在于,步骤S3的过程,包括:
步骤31,为所述指标簇集C中每一个指标簇Ci确定一个标准指标名称;
步骤32,根据已有知识库对标准指标名称进行数据增强,获得标准指标名称的同义指标;
步骤33,对所述一个指标簇中的指标名称和指标缩写利用最长公共子序列相似度方法得到相似度得分simlcs(xna,Sna),利用Jaccard相似度方法得到相似度得分simjac(xna,Sna),利用余弦相似度方法得到相似度得分simcos(xna,Sna),利用编辑相似度方法得到相似度得分simmed(xna,Sna),对所述一个指标簇中的指标参考值利用分块打分特征方法得到分块得分score′,将simlcs(xna,Sna)、simjac(xna,Sna)、simcos(xna,Sna)、simmed(xna,Sna)和所述分块得分作为特征利用二分类算法判断是否是标准指标名称的同义指标,其中,
其中,下标n为标准指标及其同一指标的总个数,|xna|为实测指标名称的字符串长度,表示两个指标名称的最大公共子序列,表示由经***、替换、删除操作转成所需的最少操作次数;
步骤34,将同义指标映射为标准指标名称,得到指标对齐结果。
7.如权利要求6所述的方法,其特征在于,利用分块打分特征方法得到分块得分的过程,包括:
对于标准指标s的每一个参考值从簇中找到一个与最相似的实测指标的参考值使得 并将这两个指标组成参考值对其中,计算参考值相似度的公式为:
根据参考值对构建指标集对pi=(Xi,Si),其中,Xi为所有参考值为的实测指标的集合,Si为所有参考值为的标准指标及其同义指标的集合;
计算两个参考值对的参考值对相似度,公式为:
其中,simp_cos(X1,X2)表示将指标集合X1和X2表示为0-1向量后两者的余弦相似度;
当两个参考值对的相似度大于阀值θ,即时,将实测指标集合X1、X2和标准指标集合S1、S2纳入同一个分块Bi中;
对任意一个块Bi打分,得到分块得分scorei,公式为:
其中为块中标准指标所占的比重,S’为所有标准指标的集合,α是权重参数,块Bi中的所有指标共享同一个scorei得分;
当一个指标同时出现在M个分块时,则根据不同块的权重βi计算出指标的加权平均得分
当一个指标不在任意一个块中,则分块得分score’为0。
8.如权利要求7所述的方法,其特征在于,所述阀值θ为0.7,所述α为0.6,所述βi为1/M。
9.如权利要求1所述的方法,其特征在于,所述标准指标名称为每一个指标簇Ci内出现频次最多的指标名称。
10.如权利要求1所述的方法,其特征在于,所述二分类算法为梯度上升决策树、逻辑回归、朴素贝叶斯、支持向量机或者随机森林算法中的任意一种。
CN201811204706.4A 2018-10-16 2018-10-16 一种医学检验检查指标自动修正的方法 Withdrawn CN109509517A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811204706.4A CN109509517A (zh) 2018-10-16 2018-10-16 一种医学检验检查指标自动修正的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811204706.4A CN109509517A (zh) 2018-10-16 2018-10-16 一种医学检验检查指标自动修正的方法

Publications (1)

Publication Number Publication Date
CN109509517A true CN109509517A (zh) 2019-03-22

Family

ID=65746696

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811204706.4A Withdrawn CN109509517A (zh) 2018-10-16 2018-10-16 一种医学检验检查指标自动修正的方法

Country Status (1)

Country Link
CN (1) CN109509517A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111104400A (zh) * 2019-12-24 2020-05-05 天津新开心生活科技有限公司 数据归一方法及装置、电子设备、存储介质
CN111860359A (zh) * 2020-07-23 2020-10-30 江苏食品药品职业技术学院 一种基于改进随机森林算法的点云分类方法
CN112768058A (zh) * 2021-01-22 2021-05-07 武汉大学 一种计量信息类型的医疗数据的处理方法及装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106933806A (zh) * 2017-03-15 2017-07-07 北京大数医达科技有限公司 医疗同义词的确定方法和装置
CN107093005A (zh) * 2017-03-24 2017-08-25 北明软件有限公司 基于大数据挖掘算法实现办税服务厅自动分级的方法
CN107818124A (zh) * 2017-03-03 2018-03-20 平安医疗健康管理股份有限公司 数据匹配方法及装置
US20180089300A1 (en) * 2016-09-23 2018-03-29 International Business Machines Corporation Merging synonymous entities from multiple structured sources into a dataset
CN108491406A (zh) * 2018-01-23 2018-09-04 深圳市阿西莫夫科技有限公司 信息分类方法、装置、计算机设备和存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180089300A1 (en) * 2016-09-23 2018-03-29 International Business Machines Corporation Merging synonymous entities from multiple structured sources into a dataset
CN107818124A (zh) * 2017-03-03 2018-03-20 平安医疗健康管理股份有限公司 数据匹配方法及装置
CN106933806A (zh) * 2017-03-15 2017-07-07 北京大数医达科技有限公司 医疗同义词的确定方法和装置
CN107093005A (zh) * 2017-03-24 2017-08-25 北明软件有限公司 基于大数据挖掘算法实现办税服务厅自动分级的方法
CN108491406A (zh) * 2018-01-23 2018-09-04 深圳市阿西莫夫科技有限公司 信息分类方法、装置、计算机设备和存储介质

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
YAN ZHUANG ET AL.: ""Hike:A hybrid human-machine method for entity Alignment in Large-Scale Knowledge Bases"", 《PROCEEDINGS OF THE 2017 ACM ON CONF ON INFORMATION AND KNOWLEDGE MANAGEMENT》 *
周保兴著: "《三维激光扫描技术及其在变形监测中的应用》", 31 January 2018 *
朱灿等: "实体解析技术综述与展望", 《计算机科学》 *
栗伟等: "一种面向医学短文本的自适应聚类方法", 《东北大学学报(自然科学版)》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111104400A (zh) * 2019-12-24 2020-05-05 天津新开心生活科技有限公司 数据归一方法及装置、电子设备、存储介质
CN111860359A (zh) * 2020-07-23 2020-10-30 江苏食品药品职业技术学院 一种基于改进随机森林算法的点云分类方法
CN112768058A (zh) * 2021-01-22 2021-05-07 武汉大学 一种计量信息类型的医疗数据的处理方法及装置

Similar Documents

Publication Publication Date Title
Christe et al. Computer-aided diagnosis of pulmonary fibrosis using deep learning and CT images
Akter et al. Prediction of cervical cancer from behavior risk using machine learning techniques
CN110059697B (zh) 一种基于深度学习的肺结节自动分割方法
Sharma et al. Determining similarity in histological images using graph-theoretic description and matching methods for content-based image retrieval in medical diagnostics
CN112633601B (zh) 疾病事件发生概率的预测方法、装置、设备及计算机介质
JP2014029644A (ja) 類似症例検索装置および類似症例検索方法
CN109509517A (zh) 一种医学检验检查指标自动修正的方法
CN111191456B (zh) 一种使用序列标注进行识别文本分段的方法
CN106845058A (zh) 疾病数据的标准化方法及标准化装置
de Sousa Costa et al. Classification of malignant and benign lung nodules using taxonomic diversity index and phylogenetic distance
CN107545133A (zh) 一种用于鉴别诊断慢性支气管炎的高斯模糊聚类计算方法
US20230021868A1 (en) Data-sharding for efficient record search
CN111680506A (zh) 数据库表的外键映射方法、装置、电子设备和存储介质
Wang et al. A ResNet‐based approach for accurate radiographic diagnosis of knee osteoarthritis
CN107169264B (zh) 一种复杂疾病诊断***
CN111524600A (zh) 基于neighbor2vec的肝癌术后复发风险预测***
CN111581969A (zh) 医疗术语向量表示方法、装置、存储介质及电子设备
CN118312816A (zh) 基于成员选择的簇加权聚类集成医学数据处理方法及***
Lonij et al. Open-world visual recognition using knowledge graphs
CN109885712A (zh) 基于内容的肺结节图像检索方法及***
CN109783483A (zh) 一种数据整理的方法、装置、计算机存储介质及终端
CN111640517B (zh) 病历编码方法、装置、存储介质及电子设备
CN116737945B (zh) 一种患者emr知识图谱映射方法
CN116110594B (zh) 基于关联文献的医学知识图谱的知识评价方法及***
Wang et al. Improved V-Net lung nodule segmentation method based on selective kernel

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication
WW01 Invention patent application withdrawn after publication

Application publication date: 20190322