CN113327655B - 多维度数据的离群值检测方法、装置、设备和介质 - Google Patents

多维度数据的离群值检测方法、装置、设备和介质 Download PDF

Info

Publication number
CN113327655B
CN113327655B CN202110433833.7A CN202110433833A CN113327655B CN 113327655 B CN113327655 B CN 113327655B CN 202110433833 A CN202110433833 A CN 202110433833A CN 113327655 B CN113327655 B CN 113327655B
Authority
CN
China
Prior art keywords
data
mahalanobis distance
hospitalization
dimension
outlier
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110433833.7A
Other languages
English (en)
Other versions
CN113327655A (zh
Inventor
林曙光
黄家昌
邱道椿
王应明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujian Ecan Information Technology Co ltd
Original Assignee
Fujian Ecan Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujian Ecan Information Technology Co ltd filed Critical Fujian Ecan Information Technology Co ltd
Priority to CN202110433833.7A priority Critical patent/CN113327655B/zh
Publication of CN113327655A publication Critical patent/CN113327655A/zh
Application granted granted Critical
Publication of CN113327655B publication Critical patent/CN113327655B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Theoretical Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Pure & Applied Mathematics (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Probability & Statistics with Applications (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Algebra (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Operations Research (AREA)
  • Health & Medical Sciences (AREA)
  • Epidemiology (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Primary Health Care (AREA)
  • Public Health (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Abstract

本发明提供多维度数据的离群值检测方法、装置、设备和介质,方法包括:S1、提取检测目标需要参与计算的不同量纲的多维数据;S2、检验每维数据是否服从正态分布,若不是,则进行数据转换,使转换后的每维数据服从正态分布;S3、以每维数据的平均值为基准,计算已服从正态分布的多维数据的初始马氏距离;S4、通过调整系数对所述初始马氏距离进行调整计算,得到调整后马氏距离;S5、根据既定规则判定所述调整后马氏距离的离群值。本发明能够同时考虑多维数据,避免单独一维数据而引起的分歧,从而使离群值的检测更加全面、科学、准确、***,并且可根据结果区分高、低离群值。

Description

多维度数据的离群值检测方法、装置、设备和介质
技术领域
本发明涉及计算机技术领域,特别涉及一种不同量纲的多维数据的离群值检测的方法、装置、设备和介质。
背景技术
在医疗卫生管理领域,为了使医院的病例具有可比性,基于疾病诊断分组(DRG,Diagnosis-related Group)进行疾病比较是目前通用的方法。DRG是由美国耶鲁大学Robert B.Fetter教授及其团队历经十余年研发的。DRG将临床过程相似和(或)资源消耗相当的病例归为一类,分类组合成为若干个组别,组与组之间制定不同的“权重(weight)”来反映各组的特征。于是,同组之间的病例可直接比较,分别基于住院费用和住院时长是目前常用的离群值检测方式。
离群值(outlier),是指在数据中有一个或几个数值与其他数值相比差异较大。现有技术是分别只基于住院时长(LOS)和费用(Cost)的离群值检测。基于住院时长的离群值检测主要有三种:
1)L3H3,即小于平均住院时长(ALOS)的1/3称为低离群值,大于平均住院时长的3倍称为高离群值(Duckett,1998;S Ghaffari et al.,2010;Gong et al.,2004;Jackson,2001);
2)平均值加上2倍标准差称为高离群值(Cots et al.,2003;Cots et al.,2004;Freitas et al.,2012);
3)第3四分位数(3rd Quartile)加上1.5倍的四分位距(inter-quartile range,IQR)称为高离群值,第1四分位数(1st Quartile)减去1.5倍的四分位距(IQR)称为低离群值(S Ghaffari et al.,2010;Gong et al.,2004)。
基于住院费用的离群值检测主要有二种:
1)几何平均值加上2倍或3倍标准差称为高离群值,分别称为GM2或GM3(Cots etal.,2003);
2)第3个四分位数加上1.5倍的四分位距称为高离群值,第1四分位数减去1.5倍的四分位距称为低离群值(Pirson et al.,2006)。
大部分国家和地区对高离群值给予额外补助,以保证医疗质量,避免医疗机构拒收或提前出院疾病复杂程度高、严重程度高的患者,因此离群值的判定涉及到医疗机构、医保机构、患者等多方利益,科学、正确评判离群值对于控制医疗费用,提升医疗质量十分重要。
然而目前技术只从单维角度判别离群值,如仅从住院时长或住院费用来判别离群值,这样必然存在着片面性和局限性。如果仅以住院时长(LOS)作为评判标准,对于住院时间长、住院费用却不高的病例可以获得额外的高离群值补助,而住院时间不长但住院费用高的病例却无法获得额外补助,显然医疗机构面临这些高费用病例的成本压力;如果仅以医疗费用(Cost)作为评判标准,医保机构会认为医疗机构借此转移成本压力或借此多使用高价的药品和耗材,显然不利于控费。
为此,如果能够同时考虑住院时长和费用,无论对于医疗机构还是医保部门,显然更具说服力,也能兼顾他们的利益。但是,同时考虑住院时长和费用却是个难题。即使是同一病种内病例之间的住院时长和住院费用较为接近,但二者量纲却不一样,一个是天数,一个是金额。而且,二者差别也较大,住院时长一般是10天左右,而住院费用是数千数或万元且受物价影响。如果为二者之间制定一个权重,显然这个权重也容易受物价和医疗技术的影响而变化。因此,本发明就针对这些技术难题而设计开发。
另外,在用电或金融等领域,同样需要检测离群值,用以判断异常用电或金融诈骗,若能将不同量纲的多维数据同时利用起来,检测出离群值,无疑能让检测更加全面、科学、准确且***。
发明内容
本发明要解决的技术问题,在于提供多维度数据的离群值检测方法、装置、设备和介质,能够同时考虑多个量纲的维度数据,避免单独一量纲的维数据而引起的分歧,从而使离群值的检测更加全面、科学、准确且***。
第一方面,本发明提供了多维度数据的离群值检测方法,包括下述步骤:
S1、提取检测目标的需要参与计算的不同量纲的多维数据;
S2、检验每维数据是否服从正态分布,若不是,则进行数据转换,使转换后的每维数据服从正态分布;
S3、以每维数据的平均值为基准,计算已服从正态分布的多维数据的初始马氏距离;
S4、通过调整系数对所述初始马氏距离进行调整计算,得到调整后马氏距离;
S5、根据既定规则判定所述调整后马氏距离的离群值。
第二方面,本发明提供了多维度数据的离群值检测装置,包括:
数据提取模块,用于提取检测目标的需要参与计算的不同量纲的多维数据;
检验和转换模块,用于检验每维数据是否服从正态分布,若不是,则进行数据转换,使转换后的每维数据服从正态分布;
马氏距离计算模块,用于以每维数据的平均值为基准,计算已服从正态分布的多维数据的初始马氏距离;
调整模块,用于通过调整系数对所述初始马氏距离进行调整计算,得到调整后马氏距离;
离群值判定模块,用于根据既定规则判定所述调整后马氏距离的离群值。
第三方面,本发明提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现第一方面所述的方法。
第四方面,本发明提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现第一方面所述的方法。
本发明实施例中提供的一个或多个技术方案,至少具有如下技术效果或优点:本发明将不同量纲的多维数据同时利用起来,检测出离群值,避免单独一维数据而引起的分歧,从而使离群值的检测更加全面、科学、准确且***,可广泛用于医保支付、电力管理或金融管理等领域,特别是用于医保支付检测DRG高低离群值,可帮助医院管理者和医保部门快速识别离群病例。相比较于其他方法,本方法更加全面、科学、***,能够兼顾多方的利益诉求,避免单独采用住院时长或住院费用而引起的分歧,为医院管理和医保按病种付费补助方案找到更加合理、更具说服力和更能让双方接受的方法。本发明通过马氏距离进行判断,参与计算的数据维度改变,仅体现在矩阵维度的改变上,整体方法无需改变,对复杂多变的情况具有良好的适应性。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
下面参照附图结合实施例对本发明作进一步的说明。
图1为本发明实施例一中方法中的流程图;
图2为本发明实施例二中装置的结构示意图;
图3为本发明实施例三中电子设备的结构示意图;
图4为本发明实施例四中介质的结构示意图。
具体实施方式
本申请实施例通过提供多维度数据的离群值检测方法、装置、设备和介质,能够同时考虑多维数据,避免单独一维数据而引起的分歧,从而使离群值的检测更加全面、科学、准确且***。
初始马氏距离由印度统计学家马哈拉诺比斯(P.C.Mahalanobis)提出,用于表示数据的协方差距离。初始马氏距离不受量纲的影响,两点之间的初始马氏距离与原始数据的测量单位无关,即独立于测量尺度。初始马氏距离在计算中考虑了各自变量之间的线性相关关系,因此可以排除变量之间相关性的干扰,从而可用于鉴别离群值,一个初始马氏距离较大的样本必然是一个离群值。
据此,本申请实施例中的技术方案的总体思路如下:将不同量量纲的数据作为一个维度的数据,采用二阶段方法,第一阶段计算多维度数据初始的马氏距离(MahalanobisDistance),第二阶段引入调整系数,计算调整后的马氏距离,用正负值区分低离群值和高离群值。但由于有些维度的数据不服从正态分布,因此应当先检验各个维度的DRG数据是否服从正态分布,比如DRG数据中的住院时长和费用数据大多服从对数正态分布(Briggs&Gray,1998;Pirson et al.,2006),为此进行对数转换(也可以是其他方式的数据转换),使其满足正态分布后再用于计算初始马氏距离。再由于计算所得的初始马氏距离都是正值,无法区分是低离群值还是高离群值,为此,我们引入了调整系数α对计算所得的初始马氏距离进行调整,得到调整后马氏距离M’,最后根据既定的规则判定离群值即可。
实施例一
如图1所示,本实施例提供多维度数据的离群值检测方法,包括下述步骤:
S1、提取检测目标的需要参与计算的不同量纲的多维数据;
S2、检验每维数据是否服从正态分布,若不是,则进行数据转换,使转换后的每维数据服从正态分布;如果数据服已从正态分布,则无需进行数据转换;
S3、以每维数据的平均值为基准,计算已服从正态分布的多维数据的初始马氏距离;初始马氏距离M采用公式(1)进行计算:
Figure BDA0003031103710000051
其中,
Figure BDA0003031103710000052
是向量均值,μ12,…μn分别为第1,2,…,n维数据的均值,S为多维向量
Figure BDA0003031103710000053
的协方差矩阵,x1,x2,…xn分别为第1,2,…,n维数据向量,上标1,2,…n指数据维度;
所述步骤S4具体是:
S41、对于某个检测目标i而言,先用公式(2)计算出调整系数Ki
Figure BDA0003031103710000054
式中,
Figure BDA0003031103710000061
指第一维数据中第i个元素进行数据转换后的值,
Figure BDA0003031103710000062
指第二维数据中第i个元素进行数据转换后的值,以此类推,
Figure BDA0003031103710000063
指第n维数据中第i个元素进行数据转换后的值;
Figure BDA0003031103710000064
为数据转换后的第一维向量的平均值,
Figure BDA0003031103710000065
为数据转换后的第二维向量的平均值,以此类推,
Figure BDA0003031103710000066
为数据转换后的第n维向量的平均值;
S42、再通过下述公式(4)对所述初始马氏距离M进行调整计算,得到调整后马氏距离M’:
M'=sgn(Ki)M (4);
sgn(Ki)表示符号函数,如果Ki为正数,则取sgn(Ki)取正号;如果Ki为负数,则sgn(Ki)取负号。
S5、根据既定规则判定所述调整后马氏距离的离群值。
下面以检测检测DRG高低离群值为例,需要参与计算的不同量纲的多维数据主要是住院费用和住院时长,本实施例提供不同量纲的多维度数据的离群值检测方法,以住院费用和住院时长为例说明如下:
S1、提取目标病例的多维的DRG数据,包括住院费用和住院时长两个维度数据;具体应用中,提取的DRG数据要求至少还包含病例ID和DRG代码这两个字段,这些数据按DRG代码进行归类。
S2、检验所述同一组DRG内住院费用和所述住院时长是否服从正态分布,若不是,则进行数据转换后服从正态分布(如无特别说明,本发明所举例子的住院费用和住院时长均指同一组DRG内,其中DRG代码相同即为同一组,所以我们要求提取的数据要有DRG代码的字段)。
S3、以住院时长的平均值和住院费用的平均值为基准,计算已服从正态分布的住院时长和住院费用的初始马氏距离,公式如下:
Figure BDA0003031103710000067
则所述步骤S3中初始马氏距离M的计算公式(1)中,
Figure BDA0003031103710000068
中μ1为同一组DRG住院费用的平均值,μ2为同一组DRG住院时长的平均值,S为多维向量
Figure BDA0003031103710000069
的协方差矩阵S;其中,x1为同一组DRG内住院费用向量,x2为同一组组DRG内住院时长向量;
S4、通过调整系数对所述初始马氏距离进行调整计算,得到调整后马氏距离;具体是:
S41、对于病例i而言,先用下述公式(3)计算出调整系数Ki
Figure BDA0003031103710000071
式中,C为住院费用,L为住院时长;tr(Ci)、tr(Li)分别是数据转换后第i个病例的住院费用和住院时长;
Figure BDA0003031103710000072
分别是数据转换后的住院费用和住院时长的均值。
S42、再通过下述公式(4)对所述初始马氏距离M进行调整计算,得到调整后马氏距离M’:
M'=sgn(Ki)M (4)
sgn(Ki)表示符号函数,如果Ki为正数,则取sgn(Ki)取正号;如果Ki为负数,则sgn(Ki)取负号。
S5、根据既定规则判定所述调整后马氏距离的离群值。所述既定规则可以为医保部门和医疗机构双方协商设定的离群值数量规则,如DRG总病例数的10%(其中5%低离群值和5%高离群值);或者按马氏距离设定离群规则,如初始马氏距离大于2.2判定为离群。
以下举例说明具体的应用场景
步骤一、提取DRG数据
比如提取某医院DRG代码为BY13的DRG数据如表1所示。BY13是CN-DRGs编码,指“颅内损伤,伴有一般并发症或伴随症”。
表1.DRG代码为BY13的DRG数据
Figure BDA0003031103710000073
Figure BDA0003031103710000081
上表中Case i指病例标识,LOS指住院时长,Cost指住院费用。
步骤二、正态性检验
本实施例的住院时长和住院费用的原始数据的正态性检验如下表2所示。
表2.原始数据正态性检验
Figure BDA0003031103710000082
从表2可以看出,住院时长和住院费用在显著水平α=0.05均拒绝服从正态分布。
步骤三、数据转换
根据文献,DRG的住院时长和住院费用大多服从对数正态分布(Briggs&Gray,1998;Pirson et al.,2006),为此我们进行对数转换。住院时长和住院费用经对数转换后,转换后再次检验是否满足正态性,正态性检验如下表3所示。
表3.数据转换后的正态性检验
Figure BDA0003031103710000083
从表3可以看出,在显著水平α=0.05,不能拒绝数据转换后的住院时长和住院费用服从正态分布。
步骤三、计算数据转换后的初始马氏距离
以数据转换后的医院的平均值作为基准,即住院时长的均值2.29,住院费用的均值8.92。根据公式(1),计算内部评价下所有病例数据转换后的初始马氏距离,如表4所示。
表4.数据转换后的初始马氏距离
Figure BDA0003031103710000091
上表中,Mi表示初始马氏距离。
步骤四、计算调整系数K
根据公式(3),得到调整各个病例的调整系数K如表5所示。
表5各个病例的调整系数
Figure BDA0003031103710000092
步骤五、提取调整系数的符号,计算调整后马氏距离
根据公式(4),得到调整后马氏距离如表6所示。
表6调整后马氏距离
Figure BDA0003031103710000093
M’i表示调整后马氏距离。
步骤六、判决离群值
如果分别取5%的病例为低离群值和高离群值,则病例Case 19为高离群值,病例Case 1为低离群值。如果以马氏距离为2.2以上为判定标准,同样是病例Case 19的病例为高离群值,病例Case 1为低离群值。
基于同一发明构思,本申请还提供了与实施例一中的方法对应的装置,详见实施例二。
实施例二
如图2所示,在本实施例中提供了多维度数据的离群值检测装置,包括:
数据提取模块,用于提取检测目标的需要参与计算的多维数据,每维数据代表一个量纲的数据;
检验和转换模块,用于检验每维数据是否服从正态分布,若不是,则进行数据转换,使转换后的每维数据服从正态分布;
马氏距离计算模块,用于以每维数据的平均值为基准,计算已服从正态分布的多维数据的初始马氏距离;
调整模块,用于通过调整系数对所述初始马氏距离进行调整计算,得到调整后马氏距离;
离群值判定模块,用于根据既定规则判定所述调整后马氏距离的离群值。
其中,作为本实施例的一种更优可更为具体的实现方式,所述数据提取模块提取DRG数据时,要求至少包含以下字段,病例ID、DRG代码、住院费用、住院时长,按DRG代码进行归类;
所述马氏距离计算模块是采用公式(1)计算所述初始马氏距离M:
Figure BDA0003031103710000101
其中,
Figure BDA0003031103710000102
为向量均值,μ12,…μn分别为第1,2,…,n维数据的均值;S为多维向量
Figure BDA0003031103710000103
的协方差矩阵,x1,x2,…xn分别为第1,2,…,n维数据的向量(这里上标1,2,…n指数据维度)。
所述步骤S4具体是:
S41、对于某个检测目标i而言,先用公式(2)计算出调整系数Ki
Figure BDA0003031103710000104
式中,
Figure BDA0003031103710000105
指第一维数据中第i个元素进行数据转换后的值,
Figure BDA0003031103710000106
指第二维数据中第i个元素进行数据转换后的值,以此类推,
Figure BDA0003031103710000111
指第n维数据中第i个元素进行数据转换后的值;
Figure BDA0003031103710000112
为数据转换后的第一维向量的平均值,
Figure BDA0003031103710000113
为数据转换后的第二维向量的平均值,以此类推,
Figure BDA0003031103710000114
为数据转换后的第n维向量的平均值。
然后再通过下述公式(4)对所述初始马氏距离M进行调整计算,得到调整后马氏距离M’:
M'=sgn(Ki)M (4)
sgn(Ki)表示符号函数,如果Ki为正数,则取sgn(Ki)取正号;如果Ki为负数,则sgn(Ki)取负号。
以所述检测目标为病例DRG离群值为例,需要参与计算的不同量纲的多维数据为DRG数据中的住院费用和住院时长两个维度数据;则所述马氏距离计算模块采用公式(1)进行计算所述初始马氏距离M:
Figure BDA0003031103710000115
其中,
Figure BDA0003031103710000116
中μ1为住院费用的平均值,μ2为住院时长的平均值,S为多维向量
Figure BDA0003031103710000117
的协方差矩阵;其中,x1为住院费用向量,x2为住院时长向量;
所述调整模块具体调整过程是:
对于病例i而言,先用下述公式(3)计算出调整系数Ki
Figure BDA0003031103710000118
式中,L为住院时长,C为住院费用;tr(Ci)、tr(Li)分别是数据转换后第i个病例的住院费用和住院时长;
Figure BDA0003031103710000119
分别是数据转换后的住院费用和住院时长的均值。
再通过下述公式(4)对所述初始马氏距离M进行调整计算,得到调整后马氏距离M’:
M'=sgn(Ki)M (4)
sgn(Ki)表示符号函数,如果Ki为正数,则取sgn(Ki)取正号;如果Ki为负数,则sgn(Ki)取负号。
所述离群值判定模块采用的所述既定规则为医保部门和医疗机构双方协商设定的离群值数量规则,或者按马氏距离设定离群规则。
由于本发明实施例二所介绍的装置,为实施本发明实施例一的方法所采用的装置,故而基于本发明实施例一所介绍的方法,本领域所属人员能够了解该装置的具体结构及变形,故而在此不再赘述。凡是本发明实施例一的方法所采用的装置都属于本发明所欲保护的范围。
基于同一发明构思,本申请提供了实施例一对应的电子设备实施例,详见实施例三。
实施例三
本实施例提供了一种电子设备,如图3所示,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时,可以实现实施例一中任一实施方式。
由于本实施例所介绍的电子设备为实施本申请实施例一中方法所采用的设备,故而基于本申请实施例一中所介绍的方法,本领域所属技术人员能够了解本实施例的电子设备的具体实施方式以及其各种变化形式,所以在此对于该电子设备如何实现本申请实施例中的方法不再详细介绍。只要本领域所属技术人员实施本申请实施例中的方法所采用的设备,都属于本申请所欲保护的范围。
基于同一发明构思,本申请提供了实施例一对应的存储介质,详见实施例四。
实施例四
本实施例提供一种计算机可读存储介质,如图4所示,其上存储有计算机程序,该计算机程序被处理器执行时,可以实现实施例一中任一实施方式。
本申请实施例中提供的技术方案,至少具有如下技术效果或优点:本发明将不同量纲的多维数据同时利用起来,检测出离群值,避免单独一维数据而引起的分歧,从而使离群值的检测更加全面、科学、准确且***,可广泛用于医保支付、电力管理或金融管理等领域,特别是用于医保支付检测DRG高低离群值,可帮助医院管理者和医保部门快速识别离群病例。相比较于其他方法,本方法更加全面、科学、***,能够兼顾多方的利益诉求,避免单独采用住院时长或住院费用而引起的分歧,为医院管理和医保按病种付费补助方案找到更加合理、更具说服力和更能让双方接受的方法。本发明通过马氏距离进行判断,参与计算的数据维度改变,仅体现在矩阵维度的改变上,整体方法无需改变,对复杂多变的情况具有良好的适应性。
本领域内的技术人员应明白,本发明的实施例可提供为方法、装置或***、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
虽然以上描述了本发明的具体实施方式,但是熟悉本技术领域的技术人员应当理解,我们所描述的具体的实施例只是说明性的,而不是用于对本发明的范围的限定,熟悉本领域的技术人员在依照本发明的精神所作的等效的修饰以及变化,都应当涵盖在本发明的权利要求所保护的范围内。

Claims (6)

1.多维度数据的离群值检测方法,其特征在于:包括下述步骤:
S1、提取检测目标需要参与计算的多个不同量纲的维度数据;
S2、检验每维数据是否服从正态分布,若不是,则进行数据转换,使转换后的每维数据服从正态分布;
S3、以每维数据的平均值为基准,计算已服从正态分布的多维数据的初始马氏距离;
S4、通过调整系数对所述初始马氏距离进行调整计算,得到调整后马氏距离;
S5、根据既定规则判定所述调整后马氏距离的离群值;
所述步骤S3中初始马氏距离M采用公式(1)进行计算:
Figure FDA0003694747570000011
其中,
Figure FDA0003694747570000012
是向量均值,即μ12,…μn分别为第1,2,…,n维向量均值;S是多维向量
Figure FDA0003694747570000013
的协方差矩阵,x1,x2,…xn分别为第1,2,…,n维向量,这里上标1,2,…,n代表数据维度,上标T是指矩阵转置;
所述步骤S4具体是:
S41、对于某个检测目标i而言,先用公式(2)计算出调整系数Ki
Figure FDA0003694747570000014
式中,
Figure FDA0003694747570000015
指第一维数据中第i个元素进行数据转换后的值,
Figure FDA0003694747570000016
指第二维数据中第i个元素进行数据转换后的值,以此类推,
Figure FDA0003694747570000017
指第n维数据中第i个元素进行数据转换后的值;
Figure FDA0003694747570000018
为数据转换后的第一维向量的平均值,
Figure FDA0003694747570000019
为数据转换后的第二维向量的平均值,以此类推,
Figure FDA00036947475700000110
为数据转换后的第n维向量的平均值;
S42、再通过下述公式(4)对所述初始马氏距离M进行调整计算,得到调整后马氏距离M’:
M'=sgn(Ki)M (4)
sgn(Ki)表示符号函数,如果Ki为正数,则取sgn(Ki)取正号;如果Ki为负数,则sgn(Ki)取负号;
所述S1中,检测目标为病例DRG离群值,需要参与计算的不同量纲的多维数据包括DRG数据中的住院费用和住院时长两个维度数据;
则所述步骤S3中初始马氏距离M的计算公式(1)中,
Figure FDA0003694747570000021
中μ1为住院费用的平均值,μ2为住院时长的平均值,S为协方差矩阵,
Figure FDA0003694747570000022
是协方差矩阵为S的二维向量;其中,x1为住院费用向量,x2为住院时长向量;
则所述步骤S4具体是:
S41、对于病例i而言,先用下述公式(3)计算出调整系数Ki
Figure FDA0003694747570000023
式中,L为住院时长,C为住院费用;tr(Ci)、tr(Li)分别是数据转换后第i个病例的住院费用和住院时长;
Figure FDA0003694747570000024
分别是数据转换后的住院费用和住院时长的均值;
所述S5中,所述既定规则为医保部门和医疗机构双方协商设定的离群值数量规则,或者按马氏距离设定离群规则。
2.根据权利要求1所述的多维度数据的离群值检测方法,其特征在于:所述S1中,提取DRG数据时,要求至少包含以下三个字段,病例ID、DRG代码、住院费用、住院时长,按DRG代码进行归类。
3.多维度数据的离群值检测装置,其特征在于:包括:
数据提取模块,用于提取检测目标的需要参与计算的多维数据;
检验和转换模块,用于检验每维数据是否服从正态分布,若不是,则进行数据转换,使转换后的每维数据服从正态分布;
马氏距离计算模块,用于以每维数据的平均值为基准,计算已服从正态分布的多维数据的初始马氏距离;
调整模块,用于通过调整系数对所述初始马氏距离进行调整计算,得到调整后马氏距离;
离群值判定模块,用于根据既定规则判定所述调整后马氏距离的离群值;
所述马氏距离计算模块是采用公式(1)计算所述初始马氏距离M:
Figure FDA0003694747570000031
其中,
Figure FDA0003694747570000032
是向量均值,μ12,…μn分别为第1,2,…,n维向量的均值;S是多维向量
Figure FDA0003694747570000033
的协方差矩阵,x1,x2,…xn分别为第1,2,…,n维向量,这里上标1,2,…,n代表数据维度,上标T是指矩阵转置;
所述马氏距离计算模块的计算过程具体是:
对于某个检测目标i而言,先用公式(2)计算出调整系数Ki
Figure FDA0003694747570000034
式中,
Figure FDA0003694747570000035
指第一维数据中第i个元素进行数据转换后的值,
Figure FDA0003694747570000036
指第二维数据中第i个元素进行数据转换后的值,以此类推,
Figure FDA0003694747570000037
指第n维数据中第i个元素进行数据转换后的值;
Figure FDA0003694747570000038
为数据转换后的第一维向量的平均值,
Figure FDA0003694747570000039
为数据转换后的第二维向量的平均值,以此类推,
Figure FDA00036947475700000310
为数据转换后的第n维向量的平均值;
然后再通过下述公式(4)对所述初始马氏距离M进行调整计算,得到调整后马氏距离M’:
M'=sgn(Ki)M (4)
sgn(Ki)表示符号函数,如果Ki为正数,则取sgn(Ki)取正号;如果Ki为负数,则sgn(Ki)取负号;
所述检测目标为病例DRG离群值,需要参与计算的不同量纲的多维数据包括DRG数据中的住院费用和住院时长两个维度数据;
则所述马氏距离计算模块采用公式(1)进行计算所述初始马氏距离M:
其中,
Figure FDA0003694747570000041
中μ1为住院费用的平均值,μ2为住院时长的平均值,S为协方差矩阵,
Figure FDA0003694747570000042
是协方差矩阵为S的二维向量;其中,x1为住院费用向量,x2为住院时长向量;
所述调整模块具体调整过程是:
对于病例i而言,先用下述公式(3)计算出调整系数Ki
Figure FDA0003694747570000043
式中,C为住院费用,L为住院时长;tr(Ci)、tr(Li)分别是数据转换后第i个病例的住院费用和住院时长;
Figure FDA0003694747570000044
分别是数据转换后的住院费用和住院时长的均值;
所述离群值判定模块采用的所述既定规则为医保部门和医疗机构双方协商设定的离群值数量规则,或者按马氏距离设定离群规则。
4.根据权利要求3所述的多维度数据的离群值检测装置,其特征在于:所述数据提取模块提取DRG数据时,要求至少包含病例ID、DRG代码、住院费用、住院时长字段,按DRG代码进行归类,即同一DRG代码的病例属于同一组病例。
5.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1或2所述的方法。
6.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1或2所述的方法。
CN202110433833.7A 2021-04-21 2021-04-21 多维度数据的离群值检测方法、装置、设备和介质 Active CN113327655B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110433833.7A CN113327655B (zh) 2021-04-21 2021-04-21 多维度数据的离群值检测方法、装置、设备和介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110433833.7A CN113327655B (zh) 2021-04-21 2021-04-21 多维度数据的离群值检测方法、装置、设备和介质

Publications (2)

Publication Number Publication Date
CN113327655A CN113327655A (zh) 2021-08-31
CN113327655B true CN113327655B (zh) 2022-08-05

Family

ID=77415032

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110433833.7A Active CN113327655B (zh) 2021-04-21 2021-04-21 多维度数据的离群值检测方法、装置、设备和介质

Country Status (1)

Country Link
CN (1) CN113327655B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114334043A (zh) * 2021-12-30 2022-04-12 上海柯林布瑞信息技术有限公司 基于医保的对诊疗关键路径监测方法及装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109119134A (zh) * 2018-08-09 2019-01-01 脉景(杭州)健康管理有限公司 医学病历数据处理方法、医学数据推荐***、设备及介质
CN110931090A (zh) * 2019-11-26 2020-03-27 太平金融科技服务(上海)有限公司 疾病数据处理方法、装置、计算机设备和存储介质

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4250284B2 (ja) * 1999-12-16 2009-04-08 株式会社エム・エイチ・アイ 診療報酬明細書分析システム
US20170017760A1 (en) * 2010-03-31 2017-01-19 Fortel Analytics LLC Healthcare claims fraud, waste and abuse detection system using non-parametric statistics and probability based scores
US9466024B2 (en) * 2013-03-15 2016-10-11 Northrop Grumman Systems Corporation Learning health systems and methods
CN104714964B (zh) * 2013-12-13 2018-03-23 ***通信集团公司 一种生理数据离群检测方法及装置
US10073887B2 (en) * 2015-07-06 2018-09-11 Conduent Business Services, Llc System and method for performing k-nearest neighbor search based on minimax distance measure and efficient outlier detection
KR102634161B1 (ko) * 2015-10-28 2024-02-05 스펙트랄 엠디, 인크. 조직 분류를 위한 반사 모드 멀티스펙트럴 시간 분해된 광학 이미징 방법들 및 장치들
US20180075195A1 (en) * 2016-09-15 2018-03-15 Koninklijke Philips N.V. System and method for facilitating computer-assisted healthcare-related outlier detection
CN107357844A (zh) * 2017-06-26 2017-11-17 广州视源电子科技股份有限公司 离群点检测方法和装置
CN107315647A (zh) * 2017-06-26 2017-11-03 广州视源电子科技股份有限公司 离群点检测方法和***
CN111093759A (zh) * 2017-07-05 2020-05-01 心脏起搏器股份公司 基于优先级的医疗数据管理***
CN111145910A (zh) * 2019-12-12 2020-05-12 平安医疗健康管理股份有限公司 基于人工智能的异常案例识别方法、装置、计算机设备
CN111598129B (zh) * 2020-04-11 2023-07-11 中国地质大学(武汉) 基于动态时间规整的钻进过程数据异常判别与校正的方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109119134A (zh) * 2018-08-09 2019-01-01 脉景(杭州)健康管理有限公司 医学病历数据处理方法、医学数据推荐***、设备及介质
CN110931090A (zh) * 2019-11-26 2020-03-27 太平金融科技服务(上海)有限公司 疾病数据处理方法、装置、计算机设备和存储介质

Also Published As

Publication number Publication date
CN113327655A (zh) 2021-08-31

Similar Documents

Publication Publication Date Title
Pan et al. Ball covariance: A generic measure of dependence in banach space
Selvaraj et al. Brain MRI slices classification using least squares support vector machine
EP2338122B1 (en) System and method for fusing clinical and image features for computer-aided diagnosis
Dong et al. RCoNet: Deformable mutual information maximization and high-order uncertainty-aware learning for robust COVID-19 detection
CN111933281B (zh) 一种疾病分型的确定***、方法、装置及存储介质
CN103177179A (zh) 诊断因素集合确定设备和方法
CN113657548A (zh) 医保异常检测方法、装置、计算机设备及存储介质
CN111095232A (zh) 发掘用于机器学习技术中的基因组
CN115691722B (zh) 医疗数据检测的质控方法、装置、设备、介质及程序产品
Ma et al. A new classifier fusion method based on historical and on-line classification reliability for recognizing common CT imaging signs of lung diseases
US20230112591A1 (en) Machine learning based medical data checker
CN114783580B (zh) 一种医疗数据质量评估方法及***
CN113327655B (zh) 多维度数据的离群值检测方法、装置、设备和介质
CN104411230A (zh) 疾病相关的视网膜神经纤维层变薄的检测
Lötsch et al. Comments on the importance of visualizing the distribution of pain-related data
CN113344376A (zh) 商户风险监测方法、装置、计算机设备和存储介质
WO2019211574A1 (en) Method and apparatus for subtyping subjects based on phenotypic information
Wahid et al. Pneumonia Detection in Chest X‐Ray Images Using Enhanced Restricted Boltzmann Machine
CN115147417B (zh) 一种基于过滤法特征选择的功能连接矩阵处理***及装置
CN116631626A (zh) 一种患者临床风险评估方法、装置、设备及介质
Nikolaeva et al. Patient measurements simulation and event processing in telemedicine systems
CN113609445A (zh) 多源异构监测数据处理方法、终端设备及可读存储介质
CN114203312A (zh) 结合大数据智慧医疗的数字化医疗服务分析方法及服务器
Man et al. Patient-based pre-classified real-time quality control (PCRTQC)
Stark et al. Deep Learning Investigation of Mass Spectrometry Analysis from Melanoma Samples

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant