CN111986034A

CN111986034A - 医疗保险团伙欺诈监测方法、***及存储介质

Info

Publication number: CN111986034A
Application number: CN202010818035.1A
Authority: CN
Inventors: 王琼; 邬正国; 李志峰; 谢提提; 胡磊
Original assignee: Jiangsu Yunnao Data Technology Co ltd
Current assignee: Jiangsu Yunnao Data Technology Co ltd
Priority date: 2020-08-14
Filing date: 2020-08-14
Publication date: 2020-11-24
Anticipated expiration: 2040-08-14
Also published as: CN111986034B

Abstract

本发明提供一种医疗保险团伙欺诈监测方法，该方法包括以下步骤：步骤S1，生成患者的分析数据集；步骤S2，计算患者间的相似度；步骤S3，挖掘互为高度相似的极大群体‑‑‑团伙；步骤S4，根据团伙成员的就诊明细人工审查并判断可疑团伙。本发明还提出一种医疗保险团伙欺诈监测***，包括：存储器，存储有计算机程序；处理器，用于运行所述计算机程序，所述计算机程序运行时执行如上文中除了步骤S4之外的方法的步骤。本发明便于精准高效的识别出存在医疗保险基金欺诈违法违规行为的异常群体。

Description

医疗保险团伙欺诈监测方法、***及存储介质

技术领域

本发明涉及医疗保险基金欺诈骗保与反欺诈领域，尤其是一种医疗保险团伙欺诈监测方法及***。

背景技术

目前，我国医保反欺诈领域的应用***主要是通过总结实际业务中已发生的欺诈案件建立规则库，随着时间的推移，欺诈行为的模式越来越复杂多样，固化的规则库很难再去识别新的欺诈行为。且由专家定义的欺诈检测规则来圈定疑似欺诈行为，规则中阈值、权重的选择非常困难，而且治疗中诊断治疗专业性强、欺诈行为相对隐蔽，按照规则一刀切的欺诈检测方式也存在一定的不合理性使得准确率极低。

现实中，由于欺诈行为的隐蔽性、行为主体的复杂性，欺诈案件的高发性、多样性，以及医保部门反欺诈能力的局限性，都使得对欺诈行为的直观判断是非常困难的，直接筛选欺诈行为案件更是难上加难。但是从大数据的背景来说，任何主体的欺诈行为都必然记录在医保数据当中，医保领域内的数据管理***中记录着每一个行为人的医疗机构的数据，因此可以借助专业的数据分析技术从就诊行为中找寻潜在的医保欺诈行为规律，形成模式进行预判，用于医疗服务行为检测，发现欺诈行为的存在，避免医疗保险基金的损失。

总体来说，医保欺诈行为监测具有非常重要的作用和意义，利用大数据挖掘算法，挖掘数据背后隐藏的规律，通过构建医疗欺诈行为智能监测模型的方式，精准识别出存在医疗保险基金欺诈违法违规行为的群组，以实现：

(1)查出医疗保险基金的不正当使用，减少医疗保险基金无意义的浪费。

(2)有针对有范围的缩小嫌疑欺诈行为，提高工作效率。

(3)找寻业务规则以外的潜在隐蔽的欺诈行为。

在利益的驱动下，骗保欺诈案件高频发生，以前仅是参保人的个人违规行为也逐渐发展成当下有组织的团伙诈骗的违法行为。在当前的医保欺诈中，团伙欺诈往往涉及的医保基金数额巨大，例如违法组织通过收购众多参保人的医保卡，由个人前往医院代为就医，频繁购买医保统筹范围内的药品。

发明内容

有鉴于此，本发明的目的在于提供一种医疗保险团伙欺诈监测方法及***，实现医保基金监测从人工抽单审核向大数据全方位、全流程智能监控的转变，便于精准高效的识别出存在医疗保险基金欺诈违法违规行为的异常群体。

第一方面，本发明实施例提出一种医疗保险团伙欺诈监测方法，该方法包括以下步骤：

步骤S1，生成患者的分析数据集；

步骤S2，计算患者间的相似度；

步骤S3，挖掘互为高度相似的极大群体---团伙。

进一步地，该方法中，

用P＝{p₁，p₂，…，p_m}表示就诊患者的集合，用G＝{g₁，g₂，…，g_n}表示就诊行为相似的群体，即团伙；

且G中任意两个患者个体g_i、g_j就诊行为高度相似；

就诊行为是指一个患者在一次就医时产生的活动；患者p在某时间t、某地点s就医的行为b，记录为b＝(p，t，s)；地点s包括医生或科室或医院；

相似行为是指不同的患者p在某段时间内进行了相同类型的就诊行为；用 SB(p_i，p_j)表示任意两个患者相似行为的集合；

步骤S1具体包括：

从医院导入患者的就诊数据，提取如下字段：

1)就诊日期；

2)医院ID和/或科室ID和/或医生ID；

3)患者ID；

步骤S2具体包括：

首先计算相似行为的相似度；相似行为的相似度是用来衡量两个相似行为的相似程度；若b_i＝(p_i，t_i，s_i)与b_j＝(p_j，t_j，S_j)是相似行为，则s_i＝s_j，|t_i-t_j|≤T； T为时间间隔；相似行为的相似度的计算公式为：

然后计算患者间的相似度，计算公式为：

其中，N(p_i)表示在某段时间内患者p_i的就诊行为数，N(p_j)表示在某段时间内患者p_j的就诊行为数；

步骤S3具体包括：

首先根据公式(2)计算出每个患者与其他患者之间的相似度Sim，然后筛选 Sim大于患者间相似度阈值的患者，输出高度相似患者的稀疏矩阵；

然后根据稀疏矩阵输出患者间的关联网络图谱；关联网络图谱中，用N表示节点的集合；用E表示连接节点之间边的集合；用W表示节点之间的相似程度，则W_ij＝Sim(p_i，p_j)，p_i，p_j∈N；

有了患者间的关联网络图谱后，再继续挖掘关联网络图谱中互为高度相似的极大群体。

更进一步地，该方法中，

步骤S3中，所述挖掘关联网络图谱中互为高度相似的极大群体，具体包括：

子集是关联网络图谱中一个完全连接的封闭的子图，即子集中任意两个节点都有边连接；用子集来表示一个群体，即子集中任意两个患者之间都相似；

如果一个子集不能再通过任意一个或多个节点扩展成更大的子集，则该子集称为极大子集；用一个极大子集来表示一个团伙；

根据极大子集的定义可以在患者间的关联网络图谱中定位到团伙，再继续挖掘关联网络图谱中全部极大子集，即找到全部团伙；

满足“团伙中至少包含h个成员，每个成员至少有h-1条边”条件的节点的集合，即为h-节点集；

用H表示h-节点集，则H＝{n：n∈N，d(n)≥h-1}，d(n)是节点n的度，表示节点n的边数，即H表示的是至少有h-1条边的节点的集合；用MH图表示患者间关联网络图谱中由H中的节点构成的子图；

通过在患者间关联网络图谱中寻找满足团伙成员数h的h-节点集H并推导出其MH图，然后在MH图上穷举极大子集即可挖掘出全部团伙。

更优地，该方法中，步骤S3中，推导出MH图后，选取节点相似度最高的前X％的节点作为种子节点，在MH图中以种子节点进行基于分区的极大子集枚举，以此获得全部团伙；

节点相似度的计算公式为：

其中，

(1)d(n)表示节点n的度，即节点n的边数；

(2)nei(n)表示节n的邻居节点的集合；

(3)W_nm表示节点n与其相邻节点m之间的相似度。

进一步地，患者间相似度阈值设置为0.8。

进一步地，h设定为3～6中任意一个数。

进一步地，X％设置为30％。

进一步地，步骤S3之后，还包括：

步骤S4，根据团伙成员的就诊明细人工审查并判断可疑团伙。

第二方面，本发明实施例提出一种医疗保险团伙欺诈监测***，包括：

存储器，存储有计算机程序；

处理器，用于运行所述计算机程序，所述计算机程序运行时执行如上文中除了步骤S4之外的方法的步骤。

第三方面，本发明实施例还提出一种存储介质，所述存储介质中存储有计算机程序，所述计算机程序被配置为运行时执行如上文中除了步骤S4之外的方法的步骤。

本发明的优点：

1)缩减人工审核成本，提升人工审核效率；

事实上，由于欺诈患者只占整个患者群体的一小部分，导致医院海量的医疗明细数据中只有极少量的数据是欺诈行为记录。不管是随机抽查还是按照一定的规则抽取，都有极大的概率使抽出来的患者是正常行为患者。而本发明提供的方法，可以通过模型自动从海量的数据中分离出团伙，并输出团伙的就诊行为指标，不仅缩小了嫌疑患者的范围，还提高了人工审核的效率。

2)调高人工审核准确率，降低医保基金损失；

目前，医保反欺诈领域主要是通过专家依照以往的经验定义一些嫌疑欺诈行为生成规则库，以此来圈定嫌疑患者。但是，随着时间的推移，欺诈群体的欺诈行为越来越隐蔽多样，规则库存在一定的失效性。本发明提供的方法，通过对实时的就诊行为数据进行建模，学习数据之间的规律，精准识别嫌疑团伙，调高人工审核的准确率，降低医保基金的损失。

附图说明

图1为本发明实施例中的方法流程图。

图2为本发明实施例中的稀疏矩阵示例图。

图3为本发明实施例中的患者间的关联网络图谱示例图。

图4为本发明实施例中的子集示例图。

图5为本发明实施例中的极大子集示例图。

图6为本发明实施例中的MH图示例图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

本发明实施例提出一种医疗保险团伙欺诈监测方法，在该方法中，首先有如下定义：

定义1，团伙：

在就诊患者的群体内部，有一批人就诊行为高度相似；

且G中任意两个患者个体g_i、g_j就诊行为高度相似；

在P中可以有多个行为相似的群体，即团伙。

定义2，就诊行为：

就诊行为是指一个患者在一次就医时产生的活动；

患者p在某时间t、某地点s(医生或科室或医院)就医的行为b，可以记录为b＝(p，t，s)；例如，b₁可以是(“p＝ID01”，“t＝2020/7/15”，“s＝Doctor /Department/Hospital”)；

本实施例中，s的默认设置是医生，也可以自主切换成科室或医院。因为，在实际就诊场景下，医生只有确诊患者患有某种疾病才会根据病情开适当的药品。如果在某种特殊情况下，欺诈者未患病却可以指挥某医生任意开药，欺诈者一定会利用这种“便利性”，将手中持有医保卡的利用率最大化，即频繁就诊该医生频繁开药。现实情况中，也许欺诈者可以很容易在某些医生身上行使这种“便利性”，但是，很难在整个科室或医院也实现这种“便利性”；

定义3，相似行为：

相似行为是指不同的患者p在某段时间内进行了相同类型的就诊行为；

不同的患者p在时间间隔T内若去相同的医生或相同的科室或相同的医院，视作进行了相同类型的就诊行为；时间间隔T的阈值默认设置为3天，也可以根据特定场景，自主设置T的阈值；

若b₁＝(“p₁＝ID01”，“t＝2020/7/15”，“Doctor＝ID123”)，b₂＝(“p₂＝ID02”，“t＝2020/7/16”，“Doctor＝ID123”)，则b₁和b₂是相似行为；

用SB(p_i，p_j)表示任意两个患者相似行为的集合；即SB(p_i，p_j)是由 p_i，p_j这两个患者在某段时间内所有相似行为组成；

该方法包括以下步骤：

步骤S1，生成患者的分析数据集；

从医院导入患者的就诊数据，提取如下字段：

1)就诊日期，以天为单位；

2)医院ID和/或科室ID和/或医生ID，作为分类字段；

3)患者ID；若同一天同一分类字段下有多条就诊记录，则只保留一条记录，即以天和分类字段为单位，患者Id是唯一的；

步骤S2，计算患者间的相似度；

由于团伙之间的就诊行为高度相似，因此应先找出相似的就诊行为，然后计算这些相似行为的相似度，相似行为的相似度的值越大说明就诊行为越高度相似；最后，在相似行为的相似度的基础上，再计算患者间的相似度；将大于患者间相似度阈值的患者认为是高度相似患者，并按患者间相似度对患者进行降序排序；

定义4，相似行为的相似度：

相似行为的相似度是用来衡量两个相似行为的相似程度；若b_i＝(p_i，t_i，s_i)与 b_j＝(p_j，t_j，s_j)是相似行为，则s_i＝s_j，|t_i-t_j|≤T；因此相似行为的相似度只与时间间隔有关，且相似行为的时间间隔越短，就诊行为之间的相似度越大；因此，相似行为的相似度的计算公式为：

定义5，患者间的相似度：

患者间的相似度是指，在某段时间内两个患者之间的就诊行为的相似程度；即两个患者在时间间隔T内所有相似行为的相似度之和与他们就诊行为之间的关系；因此，患者间的相似度的计算公式为：

其中，N(p_i)表示在某段时间内患者p_i的就诊行为数，N(p_j)表示在某段时间内患者p_j的就诊行为数；显然，Sim(p_i，p_j)越大，患者p_i与p_j之间的相似度就越大；

患者间相似度的阈值默认设置为0.8，可视具体情况自主调节阈值的大小；其中，该阈值越接近于1说明患者间相似度越高，越接近于0说明患者间相似度越低即患者之间无关联；

步骤S3，挖掘互为高度相似的极大群体---团伙；

首先根据公式(2)计算出每个患者与其他患者之间的相似度Sim，然后筛选 Sim大于患者间相似度阈值的患者，最终输出高度相似患者的稀疏矩阵；稀疏矩阵的一个例子如图2所示；

然后根据稀疏矩阵输出患者间的关联网络图谱；也就是患者之间的关联关系；一个关联网络图谱的示例如图3所示；

定义6，关联网络图谱是指，通过患者间相似度这个指标把患者之间的关联关系用图的形式表达出来，其中图是由节点和边组成，节点代表患者，边代表患者之间相似，边的长短代表患者间的相似度；

(1)用Map＝(节点，边，边的长度)表示一个关联网络图谱；

(2)用N表示节点的集合；

(3)用E表示连接节点之间边的集合；

(4)用W表示节点之间的相似程度边，则W_ij＝Sim(p_i，p_j)，p_i，p_j∈N；

有了患者间的关联网络图谱后，根据团伙中每个个体互为相似的特征，再继续挖掘关联网络图谱中互为高度相似的极大群体；具体如下：

定义7，子集：

子集是关联网络图谱中一个完全连接的封闭的子图，即子集中任意两个节点都有边连接；用子集来表示一个群体，即子集中任意两个患者之间都相似；例如图4所示；

定义8，极大子集：

如果一个子集不能再通过任意一个或多个节点扩展成更大的子集，则该子集称为极大子集；用一个极大子集来表示一个团伙；例如图5所示；

2个人以上即可构成团伙，团伙成员的个数不一样，关联网络图谱中节点的边数也不一样，可以约定团伙中至少由h个成员组成；不同量级的团伙对医保基金的影响也不一样，一般认为团伙中的人数越多，骗保金额越高；h默认设置为3；也可根据实际情况修改h的值；

定义9，h-节点集；

团伙中的成员个数不一样，连接节点的边的个数也不一样，若已约定团伙中至少包含h个成员，则每个成员至少有h-1条边；满足“团伙中至少包含h 个成员，每个成员至少有h-1条边”条件的节点的集合，即为h-节点集；

假设h＝4，以图3为例，则H＝{A，B，C，D，E，F，G，I}，MH图如图6所示；

通过在患者间关联网络图谱中寻找满足团伙成员数h的h-节点集H并推到出其MH图，然后在MH图上穷举极大子集即可挖掘出全部团伙，这一过程极大简化了计算量；

为了进一步简化计算，在MH图上采用分区穷举极大子集；

定义10，节点相似度：

节点相似度是用来衡量，节点n与其他相邻节点的相似程度，也就是到其他相邻节点的平均相似度，用C_n来表示节点n的相似度，则有

其中，

(1)d(n)表示节点n的度，即节点n的边数；

(2)nei(n)表示节n的邻居节点的集合；

(3)W_nm表示节点n与其相邻节点m之间的相似度；

节点相似度越高，说明该节点与其相邻节点越相似，因此在MH图中提取子图之前，应先找出节点相似高的节点做为种子节点；可以选取节点相似度最高的前30％的节点作为种子节点，在MH图中以种子节点进行基于分区的极大子集枚举，以此获得全部团伙；

团伙仅是说明其中任意两个就诊患者的就诊行为高度相似，并非说明所有团伙的人都是欺诈者，比如，一个正常的患者经常可以和几个熟悉的病友相约一起去复查(养老院的病人经常会出现此种情况)；因此，这些正常的患者因为行为高度相似，会被挖掘为团伙；即团伙也分为正常团伙和可疑团伙，由于偶然性或特殊原因聚集的正常患者群体称为正常团伙，非正常团伙即为可疑团伙。

因此，团伙输出之后依然要被送去人工审查；可以根据团伙成员的就诊明细，比如：就诊频次、就诊周期、就诊费用、就诊科室及医生、常用药品及数量等指标，辅助人工审查判断。

本发明实施例还提出一种医疗保险团伙欺诈监测***，包括：

存储器，存储有计算机程序；

本发明实施例还提出一种存储介质，所述存储介质中存储有计算机程序，所述计算机程序被配置为运行时执行如上文中除了步骤S4之外的方法的步骤。

最后所应说明的是，以上具体实施方式仅用以说明本发明的技术方案而非限制，尽管参照实例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明技术方案的精神和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种医疗保险团伙欺诈监测方法，其特征在于，该方法包括以下步骤：

步骤S1，生成患者的分析数据集；

步骤S2，计算患者间的相似度；

步骤S3，挖掘互为高度相似的极大群体---团伙。

2.如权利要求1所述的医疗保险团伙欺诈监测方法，其特征在于，该方法中，

且G中任意两个患者个体g_i、g_j就诊行为高度相似；

相似行为是指不同的患者p在某段时间内进行了相同类型的就诊行为；用SB(p_i，p_j)表示任意两个患者相似行为的集合；

步骤S1具体包括：

从医院导入患者的就诊数据，提取如下字段：

1)就诊日期；

2)医院ID和/或科室ID和/或医生ID；

3)患者ID；

步骤S2具体包括：

首先计算相似行为的相似度；相似行为的相似度是用来衡量两个相似行为的相似程度；若b_i＝(p_i，t_i，s_i)与b_j＝(p_j，t_j，s_j)是相似行为，则s_i＝s_j，|t_i-t_j|≤T；T为时间间隔；相似行为的相似度的计算公式为：

然后计算患者间的相似度，计算公式为：

步骤S3具体包括：

首先根据公式(2)计算出每个患者与其他患者之间的相似度Sim，然后筛选Sim大于患者间相似度阈值的患者，输出高度相似患者的稀疏矩阵；

然后根据稀疏矩阵输出患者间的关联网络图谱；关联网络图谱中，用N表示节点的集合；用E表示连接节点之间边的集合；用W表示节点之间的相似程度，则W_ij＝Sim(p_i，p_j)，p_i,p_j∈N；

3.如权利要求2所述的医疗保险团伙欺诈监测方法，其特征在于，该方法中，

用H表示h-节点集，则H＝{n:n∈N，d(n)≥h-1}，d(n)是节点n的度，表示节点n的边数，即H表示的是至少有h-1条边的节点的集合；用MH图表示患者间关联网络图谱中由H中的节点构成的子图；

4.如权利要求3所述的医疗保险团伙欺诈监测方法，其特征在于，该方法中，步骤S3中，推导出MH图后，选取节点相似度最高的前X％的节点作为种子节点，在MH图中以种子节点进行基于分区的极大子集枚举，以此获得全部团伙；

节点相似度的计算公式为：

其中，

(1)d(n)表示节点n的度，即节点n的边数；

(2)nei(n)表示节n的邻居节点的集合；

(3)W_nm表示节点n与其相邻节点m之间的相似度。

5.如权利要求2所述的医疗保险团伙欺诈监测方法，其特征在于，该方法中，

患者间相似度阈值设置为0.8。

6.如权利要求3所述的医疗保险团伙欺诈监测方法，其特征在于，该方法中，

h设定为3～6中任意一个数。

7.如权利要求4所述的医疗保险团伙欺诈监测方法，其特征在于，该方法中，

X％设置为30％。

8.如权利要求1～7中任一项所述的医疗保险团伙欺诈监测方法，其特征在于，步骤S3之后，还包括：

9.一种医疗保险团伙欺诈监测***，其特征在于，包括：

存储器，存储有计算机程序；

处理器，用于运行所述计算机程序，所述计算机程序运行时执行如权利要求1～7中任一项所述的方法的步骤。

10.一种存储介质，其特征在于，

所述存储介质中存储有计算机程序，所述计算机程序被配置为运行时执行如权利要求1～7中任一项所述的方法的步骤。