CN112200684A - 一种检测医保欺诈的方法、***及存储介质 - Google Patents
一种检测医保欺诈的方法、***及存储介质 Download PDFInfo
- Publication number
- CN112200684A CN112200684A CN202010967115.3A CN202010967115A CN112200684A CN 112200684 A CN112200684 A CN 112200684A CN 202010967115 A CN202010967115 A CN 202010967115A CN 112200684 A CN112200684 A CN 112200684A
- Authority
- CN
- China
- Prior art keywords
- patient
- fraud
- doctor
- medical insurance
- marked
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 54
- 230000006399 behavior Effects 0.000 claims abstract description 37
- 238000013528 artificial neural network Methods 0.000 claims abstract description 36
- 238000012549 training Methods 0.000 claims abstract description 17
- 239000011159 matrix material Substances 0.000 claims description 31
- 238000012544 monitoring process Methods 0.000 claims description 4
- 238000012163 sequencing technique Methods 0.000 claims description 4
- 238000004590 computer program Methods 0.000 claims description 3
- 230000036541 health Effects 0.000 abstract description 7
- 238000010801 machine learning Methods 0.000 abstract description 6
- 238000001514 detection method Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 5
- 238000004422 calculation algorithm Methods 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 4
- 230000009286 beneficial effect Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 238000000354 decomposition reaction Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000012217 deletion Methods 0.000 description 2
- 230000037430 deletion Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 201000010099 disease Diseases 0.000 description 2
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000011835 investigation Methods 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 241000209202 Bromus secalinus Species 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 230000001174 ascending effect Effects 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 230000001186 cumulative effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000005315 distribution function Methods 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000013450 outlier detection Methods 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 238000005728 strengthening Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/08—Insurance
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H10/00—ICT specially adapted for the handling or processing of patient-related medical or healthcare data
- G16H10/60—ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N7/00—Computing arrangements based on specific mathematical models
- G06N7/01—Probabilistic graphical models, e.g. probabilistic networks
Landscapes
- Business, Economics & Management (AREA)
- Engineering & Computer Science (AREA)
- Accounting & Taxation (AREA)
- Finance (AREA)
- General Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Marketing (AREA)
- Strategic Management (AREA)
- Technology Law (AREA)
- Physics & Mathematics (AREA)
- Development Economics (AREA)
- Economics (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Epidemiology (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Primary Health Care (AREA)
- Public Health (AREA)
- Medical Treatment And Welfare Office Work (AREA)
Abstract
本发明所提供的一种检测医保欺诈的方法、***及存储介质,其中,所述方法包括:获取患者的就诊记录,根据所获取的就诊记录提取对应的患者特征,并根据所提取的患者特征及患者与医生的对应关系,建立医患关系神经网络;将预先标记的欺诈样本输入所建立的医患关系神经网络中,训练出欺诈预测模型,并从所训练出的欺诈预测模型中输出每个患者节点具有欺诈行为的预测值;根据所输出的预测值判定对应节点的患者是否存在欺诈行为。通过机器学习的方法预测患者是否存在欺诈行为,降低了预测欺诈行为的难度,且能够有效地检测医保欺诈行为,利于维护医保体系健康普及。
Description
技术领域
本发明涉及医疗技术领域,尤其涉及的是一种检测医保欺诈的方法、***及存储介质。
背景技术
医疗保险是我国的一项社会保障项目,是为补偿公民或劳动者因为疾病风险造成的经济损失而建立的一种社会保障制度。但是,随着医疗保险的普及,伴随的是不法分子借助全民医保的契机进行医疗保险欺诈的现象层出不穷,造成全国财政医疗卫生支出额外增高。
因此,需对医保欺诈活动进行有效的检测,现有的检测方法包括非监督学习和监督学习。其中,非监督学习依赖于异常值分析来发现未标记数据中潜在的异常,但是用于检测异常的方法并不适用于如医疗保险欺诈数据等高度偏斜的数据;监督学习则需要有大量标记点数据,通过标记欺诈和非欺诈示例以实现预测,但由于缺少专家和医疗欺诈调查,实际能够做到的标记点很少,并不能够实现有效的检测。
可见,目前针对医保欺诈检测的两种方式均不能对真实的医保欺诈进行有效检测,并不利于预防医保欺诈行为的发生。
因此,现有技术存在缺陷,有待改进与发展。
发明内容
本发明要解决的技术问题在于,针对现有技术的上述缺陷,提供一种检测医保欺诈的方法、***及存储介质,旨在解决现有技术中的医保欺诈检测方法并不能够进行有效检测,不能预防医保欺诈行为的问题。
本发明解决技术问题所采用的技术方案如下:
一种检测医保欺诈的方法,其中,包括:
获取患者的就诊记录,根据所获取的就诊记录提取对应的患者特征,并根据所提取的患者特征及患者与医生的对应关系,建立医患关系神经网络;
将预先标记的欺诈样本输入所建立的医患关系神经网络中,训练出欺诈预测模型,并从所训练出的欺诈预测模型中输出每个患者节点具有欺诈行为的预测值;
根据所输出的预测值判定对应节点的患者是否存在欺诈行为。
能够通过机器主动学习并预测出存在欺诈行为的患者节点,方便对医保欺诈行为进行有效的管理,以利于医保体系健康普及。
进一步地,所述将预先标记的欺诈样本输入所建立的医患关系神经网络中,训练出欺诈预测模型,并从所训练出的欺诈预测模型中输出每个患者节点具有欺诈行为的预测值之后包括:
监测是否有新增的就诊记录;
若有新增的就诊记录,将具有预测值的患者节点输入预先建立的动态更新网络中,删除其中无效的患者节点;
将删除无效节点后的其余就诊记录与新增的就诊记录整理成更新后的就诊记录;
根据更新后的就诊记录继续判定每个节点对应的患者是否存在欺诈行为。
通过及时对数据进行更新,以删除无效的节点,在保证预测准确度的前提下能够提高预测的效率,保证***快速运行以预测出更多的具有欺诈行为的患者节点。
进一步地,所述若有新增的就诊记录,将具有预测值的患者节点输入预先建立的动态更新网络中,删除其中无效的患者节点,其中,判定无效的患者节点的依据为:
根据具有预测值的患者节点的生成日期及预测值,分别计算每个患者节点的优先级;
对每个患者节点的优先级进行排序,选取优先级低的作为无效的患者节点。
通过有效的方式定义无效的患者节点,能进一步提高预测的准确性,保证进行预测时所采取的数据的有效度,利于提高预测速率。
进一步地,所述删除其中无效的患者节点,具体包括:
根据新增的就诊数量,以优先级低的患者节点为序删除同等数量的无效的患者节点。
进一步地,所述将预先标记的欺诈样本输入所建立的医患关系神经网络中,其中,得到预先标记的欺诈样本的步骤包括:
采用预设方式从就诊记录中选取部分就诊记录作为待标记样本;
对所选取的待标记样本进行专家标注,标识待标记样本中具有欺诈行为的样本,得到预先标记的欺诈样本。
通过专家进行待标记样本的标注,提高了得到欺诈样本的权威度,使得所预测出的结果真实有效。
进一步地,所述采用预设方式从就诊记录中选取部分就诊记录作为待标记样本,其中,采用预设方式选取待标记样本的方式至少包括:
通过最大熵选择策略计算出每个患者的熵值,选取所计算熵值中最大值作为待标记样本;
或者,采取随机策略随机采取就诊记录中部分就诊记录作为待标记样本;
或者,通过最大概率策略计算每个患者的概率值,选取所计算概率值中最大值作为待标记样本。
通过随机的方式选择待标记样本,最大程度地增加了选择的随机性,利于提高预测的准确度。
进一步地,所述获取患者的就诊记录,根据所获取的就诊记录提取对应的患者特征,并根据所提取的患者特征及患者与医生的对应关系,建立医患关系神经网络,之前包括:
将患者就诊信息中的患者身份信息进行匿名处理,并将处理后的就诊信息转换成数据结构类型的就诊记录。
通过对患者身份信息进行匿名处理,能够保障患者隐私,也避免了患者信息泄露。
进一步地,所述获取患者的就诊记录,根据所获取的就诊记录提取对应的患者特征,并根据所提取的患者特征及患者与医生的对应关系,建立医患关系神经网络,具体包括:
获取患者的就诊记录,从就诊记录中提取对应的患者特征,建立患者特征度矩阵;
分析就诊记录中医生与患者之间的医患关系,建立对应的医患关系邻接矩阵;
根据患者特征度矩阵和医患关系邻接矩阵,建立医患关系神经网络。
本发明还公开一种***,其中,包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于执行如上所述的检测医保欺诈的方法。
本发明还公开一种存储介质,其中,所述存储介质存储有计算机程序,所述计算机程序能够被执行以用于实现如上所述的检测医保欺诈的方法。
本发明所提供的一种检测医保欺诈的方法、***及存储介质,其中,所述方法包括:获取患者的就诊记录,根据所获取的就诊记录提取对应的患者特征,并根据所提取的患者特征及患者与医生的对应关系,建立医患关系神经网络;将预先标记的欺诈样本输入所建立的医患关系神经网络中,训练出欺诈预测模型,并从所训练出的欺诈预测模型中输出每个患者节点具有欺诈行为的预测值;根据所输出的预测值判定对应节点的患者是否存在欺诈行为。通过机器学习的方法预测患者是否存在欺诈行为,降低了预测欺诈行为的难度,且能够有效地检测医保欺诈行为,利于维护医保体系健康普及。
附图说明
图1是本发明中检测医保欺诈的方法的较佳实施例的流程图。
图2是本发明中步骤S100的具体实施例的流程图。
图3是本发明中结合动态更新网络后的较佳实施例的流程图。
图4是本发明中表示欺诈预测模型与动态更新网络联系的较佳实施例的流程图。
图5是本发明中图3中步骤S410的具体实施例的流程图。
图6是本发明中更新算法的执行过程的较佳实施例的流程图。
图7是本发明中使用与不使用动态更新网络的实验结果对比图。
图8是本发明***的较佳实施例的功能原理框图。
具体实施方式
为使本发明的目的、技术方案及优点更加清楚、明确,以下参照附图并举实施例对本发明进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
医疗保险是我国的一项社会保障项目,是为补偿公民或劳动者因为疾病风险造成的经济损失而建立的一种社会保障制度。通过个人和用人单位缴纳一定的保险金额,当参保人患病就诊产生医疗费用后,医疗保险机构给予患者一定的经济补偿。截止2018年底,中国基本医疗保险参与人数已经达到13.5亿人,参保率超过了95%。同时,医疗保险基金在本文生活中扮演者举足轻重的作用,根据人社部数据统计,我国的医疗支出费用从2008年的1.45万亿增长到2015年的4.10万亿,年均增长率达16%。然而就在医保基金压力不断增大的同时,不法分子借助全民医保的契机进行医疗保险欺诈的现象层出不穷。
医保欺诈是医疗服务过程中的以谋取利益为目的的欺诈行为。此处的欺诈行为主要包括两大类:患者利用某种手段骗取医保;患者和医生联合骗取医保。2013年到2017年,全国财政医疗卫生累计支出59502亿元,年均增幅为11.7%,在国家对医疗卫生重视的同时,由于医保欺诈所造成的额外支出也越来越高。
现有的对于医保欺诈的检测可以分为两个主要分支:非监督学***衡,因为通常不会在真实明确公开非欺诈示例。为解决此问题,当缺乏非欺诈示例时,一类分类(OCC)算法是用于对医疗欺诈数据进行建模的解决方案,然而,在医疗欺诈数据集中,OCC方法仍然由于训练点数量不足而导致预测性能不佳。故而,以上对医保欺诈活动进行检测的非监督学习和监督学习方法都存在不足,不能够对欺诈行为进行有效的预测。
基于此,本发明利用机器学习方式提出了一种检测医保欺诈的方法,进而解决了现有技术中不能有效预测欺诈行为的问题,以下对本发明所述的方法进行详细地解释说明。
请参见图1,图1是本发明中一种检测医保欺诈的方法的流程图。如图1所示,本发明实施例所述的一种检测医保欺诈的方法包括以下步骤:
S100、获取患者的就诊记录,根据所获取的就诊记录提取对应的患者特征,并根据所提取的患者特征及患者与医生的对应关系,建立医患关系神经网络。
具体地,当患者在门诊挂号使用医保时,医院医生将患者的就诊信息输入医疗信息***中,然后医疗信息***中存在该患者的就诊记录。其中,就诊信息包括但不限于患者身份信息、参保类型、购买药品项目、购买数量、就诊日期等,由于就诊信息可根据患者的就诊情况进行逐样增加,且参保类型大同小异,故而,此处并不对就诊信息做一一详解,可以理解地,此处仅用于举例说明就诊信息所涵盖的部分内容,并不用于限定本发明。
且一般情况下,进行医保欺诈分析时,分析医生与患者间的关系也至关重要。患者就诊信息中也包含当次医疗项目接诊的医生,通过获取患者的就诊记录,能够得到患者详细的就诊信息以及单次就诊时对应接诊的医生。
本发明通过采用机器学习和深度学习的方法对从就诊信息中所提取出的患者特征和患者与医生关系进行建模,进而建立医患关系神经网络,能够加强各个患者节点之间的联系,进而有利于对患者节点进行分类。
S200、将预先标记的欺诈样本输入所建立的医患关系神经网络中,训练出欺诈预测模型,并从所训练出的欺诈预测模型中输出每个患者节点具有欺诈行为的预测值。
具体地,将选择好的具有标记的欺诈样本输入医患关系神经网络中,然后进行模型训练,通过机器主动学习策略,进而根据预先标记的欺诈样本对更多的患者节点进行分类与标记,即计算出所有患者节点具有欺诈行为的预测值,进而通过预测值分析患者的欺诈行为,有利于对医保欺诈行为进行检测,进而监督医保欺诈行为,帮助医保健康普及。
S300、根据所输出的预测值判定对应节点的患者是否存在欺诈行为。
具体地,通过所计算出的预测值的大小即可判定存在欺诈行为可能性的高低,一般地,将预测值较大的作为重点分析对象,而具体以预测值的大小判定欺诈行为的界限可由领域专家或者医保管理人员或者医院自定义设定,此处并不做详述,仅用于说明通过预测值即可判定欺诈行为。
在一实施例中,如图2所示,所述步骤S100具体包括:
S110、获取患者的就诊记录,从就诊记录中提取对应的患者特征,建立患者特征度矩阵。
S120、分析就诊记录中医生与患者之间的医患关系,建立对应的医患关系邻接矩阵。
当医疗信息***中录入患者的就诊信息之后,对应地***中就会增加就诊记录,通过从***的所有就诊记录中提取每个患者的特征,以及每个患者就诊时对接的医生,通过对两种信息进行处理,以数据的形式展示,便于进行机器学习。
S130、根据患者特征度矩阵和医患关系邻接矩阵,建立医患关系神经网络。
其中,对患者特征建立特征度矩阵,以及根据医生与患者间关系建立邻接矩阵,之后根据度矩阵与邻接矩阵形成医患关系神经网络的算法演示如下:
通过对患者节点进行卷积操作,可以让相互连接的患者节点之间实现信息互通,使同类型的患者节点分布更加紧密。
之后,使用拉普拉斯矩阵对度矩阵和邻接矩阵进行处理,实现特征分解(也即谱分解),定义其表达式如下:
其中,In是单位矩阵;是度矩阵(表示患者的特征信息:如就诊日期、医保类型、金额等),且是度矩阵的计算公式,A是邻接矩阵(表示患者与医生之间的权重信息),是拉普拉斯矩阵的特征值组成的对角矩阵;是拉普拉斯矩阵的特征向量;过滤器Θ(Λ)是关于拉普拉斯矩阵的对角矩阵。
由于上述公式所呈现的复杂度为O(n2),对其用切比雪夫多项式近似和一阶近似的方法改进,改进后的公式如下:
之后通过GCN提取拓扑图的空间特征,以便于特征提取,所以Graph ConvolutionNetwork(GCN)有了如下逐层传播规则:
其中H(0)=X是病人节点信息,H(l)表示所述图卷积神经网络第l层的输出,W(l)为所述图卷积神经网络第l层网络的权重矩阵,σ(g)为sigmoid激活函数。
对于本发明中所建立的监督学习模型,对预测模型进行训练,一般要求有足够数据的已标记数据,且已标记数据越多预测精度越高。由于在实际应用中,欺诈行为的标注主要依赖于领域专家去调查,这样的成本无疑是巨大的,且调动专家调查的效率也很低,况且,日益剧增的医疗数据中进行人工标注,显然并不现实。故而,在本发明中通过主动学习的方法选取最具价值的数据进行标注,以减少现有方式进行标注所要付出的人力和财力。
在一具体实施例中,本发明通过主动学习的方法进行欺诈样本标注的步骤包括:
S210、采用预设方式从就诊记录中选取部分就诊记录作为待标记样本。
S220、对所选取的待标记样本进行专家标注,标识待标记样本中具有欺诈行为的样本,得到预先标记的欺诈样本。
在一具体实施例中,所述步骤S210中采用预设方式选取待标记样本的方式至少包括最大熵策略、随机策略、最大概率策略中的一种或几种,可以理解地,此处仅对随机取样的几种方式进行了简单的介绍,而具体地将此处所列举的几种策略进行结合或者将其与其他的手段进行结合,进而对整体采取的样本选取平均点、均值点、中间点等方式均为本实施例所列举方式的延伸,此处并不做详解,其均为本实施例所涉及的保护范围。
方式一、通过最大熵选择策略计算出每个患者的熵值,选取所计算熵值中最大值作为待标记样本。
我们采用最大熵(最不确定)策略选择标注节点。
通过采用最大熵选择策略(Maximum Entropy selection:MEs)对就诊记录中最不确定分布的就诊记录进行选取,能够保证数据的随机性。具体地,通过条件熵描述样本点属于哪个类别的自信值,若条件熵值越大,说明对某个样本点的分类越不明确(分类信心越小);若条件熵值越小,说明对某个样本点的分类越明确(分类信心越大)。条件熵值由以下公式计算得到:
H(Y|Z)=H(Z,Y)-H(Z)
通过对每个患者节点计算熵值,然后对其进行排序,每次都选择熵最大的节点进行欺诈标注。
方式二、采取随机策略随机采取就诊记录中部分就诊记录作为待标记样本。即随机从所有就诊记录中选取预设数量的就诊记录作为待标记样本。
方式三、通过最大概率策略计算每个患者的概率值,选取所计算概率值中最大值作为待标记样本。具体地,通过计算每个患者的概率值,通过概率值的大小选择待标记样本,由于计算概率值为现有技术,此处不再进行举例。
需要说明的是,上述三种方式中优先选择最大熵策略选取待标记样本,能够以最大的随机性选择出最不确定的待标记样本,进而增加了样本选取的真实性。
在一实施例中,所述步骤S200中训练出预测模型的步骤包括:
通过结合医患关系神经网络与变分自解码器模型,能够建立出预测模型。
一般情况下,贝叶斯公式:是通过观察患者就诊数据X的先验概率求取Z的后验概率。但是实际上,只有关于X的数据,却没有关于X的分布函数,也即p(X)是未知的,则p(Z|X)无法求解。通过变分自解码器(Variational Auto-Encoder)可以解决上述问题。
自编码器(Auto-Encoder)包含两个部分:解码器和编码器。本发明中能够直接得到的是患者的就诊数据X,同时X又由隐藏变量Z产生,从Z→X的生成模型为pθ(X|Z),称作解码器;而从X→Z的识别模型为qθ(Z|X),称作编码器。假定所有数据是独立同分布的,要让生成模型的效果越好,就需要对生成模型pθ(X|Z)做参数估计,本发明中采用对数最大似然法求对数似然函数的最大值,表达式如下:
通过先获取患者的就诊记录,然后使用编码器qθ(Z|X(i))去逼近真实的后验概率pθ(Z|X(i)),可以获得患者就诊记录的分布。在本发明中采用的是VAE(variational autoencoding)中的编码器,通过从患者节点的分布关系中进行采样,就可以从一个患者节点得到该节点对应的欺诈行为,进而实现通过有限的已标记欺诈样本的输入,之后通过隐形参数的调节,生成所有患者节点的标注,能够更好地针对医患关系进行预测,同时,解决了数据样本不平衡的问题。
而两个就诊记录之间分布的相似程度用KL散度(Kullback–Leibler divergence)衡量,即得出如下公式:
进一步将医患关系神经网络与自分编码器进行结合得到预测模型的表达式为:
通过欺诈预测模型可对患者节点进行预测,具体以患者的就诊记录作为输入数据,建立医患关系神经网络,以医患关系神经网络的输出作为变分自解码器的输入,最终输出预测结果。在欺诈预测模型中对所有患者节点进行训练,当达到预设的训练次数之后,能够完成对患者节点中未知患者节点的预测分类,即计算出患者节点具有欺诈行为的预测值,具体地,也可将预测值以0和1进行划分,其中为非欺诈,1为欺诈。
在实际应用场景中,医保欺诈行为方法层出不穷,故而需要对医保欺诈预测模型及时进行更新,但由于图关系网络的复杂性和大量的节点,每次训练更新都需要消耗大量的时间和计算资源,导致在实际应用中具有极大的局限性。
且随着时间的推移,患者就诊记录也会增多,从而导致医-患图关系网络中患者节点越来越多,则对机器计算的条件(硬件、内存、CPU等)要求越高,且随着患者节点的增多,计算量也随之剧增,造成***预测欺诈值的难度增大,很难应用的实际中。
故而,基于上述原因,本发明还提出了一种在线更新策略,使每天新增数据自动进行更新,然后通过在加入新节点的同时删除无用的旧节点,使图中节点保持在一定数量,从而实现***可以在短时间内完成训练,保证***良好的实时性。
在一实施例中,本发明中进行在线更新的策略实施步骤如下:
如图3所示,在所述步骤S200之后还包括:
S400、监测是否有新增的就诊记录。
若有,执行步骤S410、将具有预测值的患者节点输入预先建立的动态更新网络中,删除其中无效的患者节点。
具体地,通过监测新增的就诊记录,当有新增就诊记录时,通过将新增就诊记录加入欺诈预测模型中能够及时对新增就诊记录进行欺诈分析,且进一步通过将欺诈预测模型中原有的无效数据移除,能够保证***运行效率。而当未监测到有新增的就诊记录时,则按照原先设定的预测周期对所有就诊记录进行欺诈预测,保证所计算出预测值的时效性。
S420、将删除无效节点后的其余就诊记录与新增的就诊记录整理成更新后的就诊记录。
S430、根据更新后的就诊记录继续判定每个节点对应的患者是否存在欺诈行为。具体地,将更新后的就诊记录作为步骤S100中获取就诊记录的源数据循环执行步骤S100-S430,达到不断更新数据以及预测节点的效果,保证预测模型的可实施性。
具体地,通过在线的更新策略,可以定时对***进行更新,在每次更新时删除图关系网络中一些信息量相对较少的节点,通过不断的迭代,在保证模型预测准确率的同时保持实时性和训练效率。
在一流程图中,如图4所示,为更好地表示本发明中建立欺诈预测模型与动态更新网络之间的联系,用以下图示进一步说明:
S10、开始;
S20、获取就诊记录;从数据中心获取就诊记录;
S30、提取患者特征;从就诊记录中提取患者特征;
S40、根据患者特征建立医患关系神经网络;根据所提取的患者特征及医生与患者的关系建立医患关系神经网络;
S50、获取预先标记的欺诈样本;从数据中心中选取部分就诊记录进行专家标记,以标注欺诈样本;
S60、训练出欺诈预测模型;根据所标记的欺诈样本与医患关系神经网络建立欺诈预测模型;
S70、输出每个患者节点对应的预测值;输出所有患者节点具有欺诈行为的预测值;
S80、是否有新增的就诊记录;将新的就诊记录输入数据中心中;
若有,执行S81、将所有患者节点的预测值输入动态更新网络;
S82、删除无效的患者节点,与新增就诊记录组成更新后的就诊记录;形成新的就诊记录后更新数据中心的数据;
若无,执行S90、结束;
循环步骤S20-S90。
为便于对所有就诊记录进行描述,在此实施例中引入了数据中心这一概念,用于表述就诊记录的流转过程。
在进一步具体实施例中,如图5所示,所述步骤S410具体包括:
S411、将具有预测值的患者节点输入预先建立的动态更新网络中。
S412、根据具有预测值的患者节点的生成日期及预测值,分别计算每个患者节点的优先级。
S413、对每个患者节点的优先级进行排序,选取优先级低的作为无效的患者节点。
S414、根据新增的就诊数量,以优先级低的患者节点为序删除同等数量的无效的患者节点。
其中,将判定患者节点为无效节点的因素定为:患者的就诊时间(越早越优先删除)、患者被预测为欺诈的概率(越小越优先删除)。
具体地,如图6所示,更新算法的执行流程如下:
S42、输入就诊记录V和医院新增的数据W;
S43、根据V生成医患关系神经网络(邻接矩阵A和特征矩阵X);
S44、使用变分自解码关系模型对医患关系神经网络中的所有患者节点进行预测,输出每个患者节点的预测值p;
S45、对每个患者节点的输入日期d进行标准化;
S46、将每个患者节点的预测值p和输入日期d进行联合;通过s=λpp+λdd.计算优先级集合s;
S47、对s进行排序,根据新增数据W的数量,删除s中对应数量的节点;
S48、结合删减后的节点和新增节点对***迭代更新。
其中,s为优先级(越小越优先),p为患者节点被预测为欺诈的概率,d为患者的就诊日期。λp和λd分别为概率和日期所占的权重。计算出所有患者节点的s,按升序排列,删除前k个节点(k的数目等于新加入节点的数目)。实验表明,详见对比图7,(其中,用圆圈表示不使用在线动态更新策略,棱形表示使用了在线动态更新策略),由图也看出使用动态更新策略,使得欺诈模型的训练速度相对于不使用此策略的方法提升至少40倍,其准确率和精确度也得以保障(使用动态策略可以使模型在6个小时内完成更新,所以具有很好的适用性)。
在一实施例中,在所述步骤S100之前还包括:
将患者就诊信息中的患者身份信息进行匿名处理,并将处理后的就诊信息转换成数据结构类型的就诊记录。
通过对患者身份信息进行匿名处理,能够保障患者隐私,也避免了患者信息泄露。
本发明通过使用医患关系神经网络和变分自编码器,能够对患者节点的分布进行有效预测,且通过预设条件筛选出最佳的标记样本进行专家标记,然后输入模型中进行训练,进而减少了人工标注成本,也增加了欺诈预测的准确率。进一步地,本发明还提供了在线动态更新网络模型,能够保证***中需预测的患者节点数量是固定的前提下,对***进行实时更新,从而提升了欺诈预测模型的预测效率和可实施性;且通过对无效节点进行删除,能够节省预测时长及避免***资源的占用,也提高了预测的准确率。
本发明还公开一种***,其中,如图8所示,包括有存储器20,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器20中,且经配置以由一个或者一个以上处理器10执行所述一个或者一个以上程序包含用于执行如上所述的检测医保欺诈的方法;具体如上所述。
本发明还公开一种存储介质,其中,所述存储介质存储有计算机程序,所述计算机程序能够被执行以用于实现如上所述的检测医保欺诈的方法;具体如上所述。
综上所述,本发明公开的一种检测医保欺诈的方法、***及存储介质,通过获取就诊记录,并根据就诊记录提取患者特征以及患者与医生之间的关系,之后通过机器学习和深度学习的方法对提取的特征进行建模,建立了欺诈预测模型,从而实现在少量的人工干预情况下检测出医保欺诈行为,保证医保欺诈的有效性,进而节省了大量的人力、物力和财力支出。再者,本发明还提出了在线动态更新策略,对图神经网络中的患者节点进行动态更新,从而可以保证预测模型的实时性和准确性,也保证了***运行效率。
应当理解的是,本发明的应用不限于上述的举例,对本领域普通技术人员来说,可以根据上述说明加以改进或变换,所有这些改进和变换都应属于本发明所附权利要求的保护范围。
Claims (10)
1.一种检测医保欺诈的方法,其特征在于,包括:
获取患者的就诊记录,根据所获取的就诊记录提取对应的患者特征,并根据所提取的患者特征及患者与医生的对应关系,建立医患关系神经网络;
将预先标记的欺诈样本输入所建立的医患关系神经网络中,训练出欺诈预测模型,并从所训练出的欺诈预测模型中输出每个患者节点具有欺诈行为的预测值;
根据所输出的预测值判定对应节点的患者是否存在欺诈行为。
2.根据权利要求1所述的检测医保欺诈的方法,其特征在于,所述将预先标记的欺诈样本输入所建立的医患关系神经网络中,训练出欺诈预测模型,并从所训练出的欺诈预测模型中输出每个患者节点具有欺诈行为的预测值之后包括:
监测是否有新增的就诊记录;
若有新增的就诊记录,将具有预测值的患者节点输入预先建立的动态更新网络中,删除其中无效的患者节点;
将删除无效节点后的其余就诊记录与新增的就诊记录整理成更新后的就诊记录;
根据更新后的就诊记录继续判定每个节点对应的患者是否存在欺诈行为。
3.根据权利要求2所述的检测医保欺诈的方法,其特征在于,所述若有新增的就诊记录,将具有预测值的患者节点输入预先建立的动态更新网络中,删除其中无效的患者节点,其中,判定无效的患者节点的依据为:
根据具有预测值的患者节点的生成日期及预测值,分别计算每个患者节点的优先级;
对每个患者节点的优先级进行排序,选取优先级低的作为无效的患者节点。
4.根据权利要求3所述的检测医保欺诈的方法,其特征在于,所述删除其中无效的患者节点,具体包括:
根据新增的就诊数量,以优先级低的患者节点为序删除同等数量的无效的患者节点。
5.根据权利要求1所述的检测医保欺诈的方法,其特征在于,所述将预先标记的欺诈样本输入所建立的医患关系神经网络中,其中,得到预先标记的欺诈样本的步骤包括:
采用预设方式从就诊记录中选取部分就诊记录作为待标记样本;
对所选取的待标记样本进行专家标注,标识待标记样本中具有欺诈行为的样本,得到预先标记的欺诈样本。
6.根据权利要求1所述的检测医保欺诈的方法,其特征在于,所述采用预设方式从就诊记录中选取部分就诊记录作为待标记样本,其中,采用预设方式选取待标记样本的方式至少包括:
通过最大熵选择策略计算出每个患者的熵值,选取所计算熵值中最大值作为待标记样本;
或者,采取随机策略随机采取就诊记录中部分就诊记录作为待标记样本;
或者,通过最大概率策略计算每个患者的概率值,选取所计算概率值中最大值作为待标记样本。
7.根据权利要求1所述的检测医保欺诈的方法,其特征在于,所述获取患者的就诊记录,根据所获取的就诊记录提取对应的患者特征,并根据所提取的患者特征及患者与医生的对应关系,建立医患关系神经网络,之前包括:
将患者就诊信息中的患者身份信息进行匿名处理,并将处理后的就诊信息转换成数据结构类型的就诊记录。
8.根据权利要求1所述的检测医保欺诈的方法,其特征在于,所述获取患者的就诊记录,根据所获取的就诊记录提取对应的患者特征,并根据所提取的患者特征及患者与医生的对应关系,建立医患关系神经网络,具体包括:
获取患者的就诊记录,从就诊记录中提取对应的患者特征,建立患者特征度矩阵;
分析就诊记录中医生与患者之间的医患关系,建立对应的医患关系邻接矩阵;
根据患者特征度矩阵和医患关系邻接矩阵,建立医患关系神经网络。
9.一种***,其特征在于,包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于执行如权利要求1-8中任一项所述的检测医保欺诈的方法。
10.一种存储介质,其特征在于,所述存储介质存储有计算机程序,所述计算机程序能够被执行以用于实现如权利要求1-8任一项所述的检测医保欺诈的方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010967115.3A CN112200684B (zh) | 2020-09-15 | 2020-09-15 | 一种检测医保欺诈的方法、***及存储介质 |
PCT/CN2020/127183 WO2022057057A1 (zh) | 2020-09-15 | 2020-11-06 | 一种检测医保欺诈的方法、***及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010967115.3A CN112200684B (zh) | 2020-09-15 | 2020-09-15 | 一种检测医保欺诈的方法、***及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112200684A true CN112200684A (zh) | 2021-01-08 |
CN112200684B CN112200684B (zh) | 2024-05-07 |
Family
ID=74015083
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010967115.3A Active CN112200684B (zh) | 2020-09-15 | 2020-09-15 | 一种检测医保欺诈的方法、***及存储介质 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN112200684B (zh) |
WO (1) | WO2022057057A1 (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113538126A (zh) * | 2021-07-16 | 2021-10-22 | 中国工商银行股份有限公司 | 基于gcn的欺诈风险预测方法及装置 |
CN115456805A (zh) * | 2022-11-14 | 2022-12-09 | 华信咨询设计研究院有限公司 | 基于机器学习的医保反欺诈方法及*** |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107657536A (zh) * | 2017-02-20 | 2018-02-02 | 平安科技(深圳)有限公司 | 社保欺诈行为的识别方法和装置 |
CN108334935A (zh) * | 2017-12-13 | 2018-07-27 | 华南师范大学 | 精简输入的深度学习神经网络方法、装置和机器人*** |
CN109636061A (zh) * | 2018-12-25 | 2019-04-16 | 深圳市南山区人民医院 | 医保欺诈预测网络的训练方法、装置、设备及存储介质 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104598552A (zh) * | 2014-12-31 | 2015-05-06 | 大连钜正科技有限公司 | 一种支持增量式更新的大数据特征学习的方法 |
CN106446942A (zh) * | 2016-09-18 | 2017-02-22 | 兰州交通大学 | 基于增量学习的农作物病害识别方法 |
CN106446552A (zh) * | 2016-09-28 | 2017-02-22 | 湖南老码信息科技有限责任公司 | 一种基于增量式神经网络模型的睡眠障碍预测方法和预测*** |
US10572979B2 (en) * | 2017-04-06 | 2020-02-25 | Pixar | Denoising Monte Carlo renderings using machine learning with importance sampling |
-
2020
- 2020-09-15 CN CN202010967115.3A patent/CN112200684B/zh active Active
- 2020-11-06 WO PCT/CN2020/127183 patent/WO2022057057A1/zh active Application Filing
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107657536A (zh) * | 2017-02-20 | 2018-02-02 | 平安科技(深圳)有限公司 | 社保欺诈行为的识别方法和装置 |
CN108334935A (zh) * | 2017-12-13 | 2018-07-27 | 华南师范大学 | 精简输入的深度学习神经网络方法、装置和机器人*** |
CN109636061A (zh) * | 2018-12-25 | 2019-04-16 | 深圳市南山区人民医院 | 医保欺诈预测网络的训练方法、装置、设备及存储介质 |
Non-Patent Citations (2)
Title |
---|
易东义等: "基于图卷积神经网络的医保欺诈检测算法", 《计算机应用》, vol. 40, no. 5, pages 1272 - 1277 * |
易东义等: "基于图卷积神经网络的医保欺诈检测算法", 计算机应用, vol. 40, no. 05, 10 May 2020 (2020-05-10), pages 1272 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113538126A (zh) * | 2021-07-16 | 2021-10-22 | 中国工商银行股份有限公司 | 基于gcn的欺诈风险预测方法及装置 |
CN115456805A (zh) * | 2022-11-14 | 2022-12-09 | 华信咨询设计研究院有限公司 | 基于机器学习的医保反欺诈方法及*** |
Also Published As
Publication number | Publication date |
---|---|
CN112200684B (zh) | 2024-05-07 |
WO2022057057A1 (zh) | 2022-03-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Meng et al. | Interpretability and fairness evaluation of deep learning models on MIMIC-IV dataset | |
US10846623B2 (en) | Data clean-up method for improving predictive model training | |
US20230316076A1 (en) | Unsupervised Machine Learning System to Automate Functions On a Graph Structure | |
US20190378051A1 (en) | Machine learning system coupled to a graph structure detecting outlier patterns using graph scanning | |
US20190378050A1 (en) | Machine learning system to identify and optimize features based on historical data, known patterns, or emerging patterns | |
US20190378049A1 (en) | Ensemble of machine learning engines coupled to a graph structure that spreads heat | |
US20190377819A1 (en) | Machine learning system to detect, label, and spread heat in a graph structure | |
Ekina et al. | Application of bayesian methods in detection of healthcare fraud | |
CN111177473B (zh) | 人员关系分析方法、装置和可读存储介质 | |
CN111784040B (zh) | 政策模拟分析的优化方法、装置及计算机设备 | |
CN112232833A (zh) | 流失会员客群数据预测方法、模型训练方法及装置 | |
CN112200684B (zh) | 一种检测医保欺诈的方法、***及存储介质 | |
Tounsi et al. | CSMAS: Improving multi-agent credit scoring system by integrating big data and the new generation of gradient boosting algorithms | |
Zhang et al. | To be forgotten or to be fair: Unveiling fairness implications of machine unlearning methods | |
Aljehani et al. | Preserving Privacy in Association Rule Mining Using Metaheuristic-Based Algorithms: A Systematic Literature Review | |
US20210406930A1 (en) | Benefit surrender prediction | |
Ho et al. | A machine learning approach for predicting bank customer behavior in the banking industry | |
Lavalle et al. | A data analytics methodology to visually analyze the impact of bias and rebalancing | |
CN113034316A (zh) | 一种专利价值转换的分析方法及*** | |
CN111737319A (zh) | 用户集群的预测方法、装置、计算机设备和存储介质 | |
CN113822490B (zh) | 基于人工智能的资产清收方法及装置、电子设备 | |
Gupta et al. | Machine Learning For Detecting Credit Card Fraud | |
EP4372593A1 (en) | Method and system for anonymizsing data | |
Safiullina et al. | Preliminary Study: Exploring GitHub Repository Metrics | |
Malekolkalami et al. | Application of data mining to detect accounting fraud in information systems |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |