CN110517050A

CN110517050A - 一种医保反欺诈串换编码挖掘***及方法

Info

Publication number: CN110517050A
Application number: CN201910741147.9A
Authority: CN
Inventors: 周鹏程
Original assignee: Pacific Health Management Co Ltd
Current assignee: Pacific Health Management Co Ltd
Priority date: 2019-08-12
Filing date: 2019-08-12
Publication date: 2019-11-29

Abstract

本发明公开了一种医保反欺诈串换编码挖掘***及方法，作用于第一字符型目录和第二字符型目录，***包括依次连接的数据输入模块、数据清理模块、差异度分数模型模块和挖掘串换编码模块，方法包括：S1.清理结算明细数据中的第一字符型目录和第二字符型目录，形成新的第一字符型目录和第二字符型目录；S2.建立第一字符型目录和第二字符型目录之间的差异度分数模型；S3.挖掘串换医疗项目编码情形。医保结算信息明细数据量非常大，导致在分析是否存在串换编码情形时，很难进行高效准确的分析，本发明挖掘串换医疗收费项目编码方法和***有效地解决了这一问题，目前本***和方法已经使用在了医保反欺诈提质增效项目中。

Description

一种医保反欺诈串换编码挖掘***及方法

技术领域

本发明属于数据处理分析技术领域，尤其涉及一种医保反欺诈串换编码挖掘***及方法。

背景技术

国家医保局于2019年发布《关于8起欺诈骗取医保基金典型案例的通报》，通报了多起涉及通过串换医疗收费项目等方式骗取医保基金的案例。定点医疗机构、定点零售药店和参保人员等通过串换药品、器械、诊疗项目的手段，多记医保项目费用，已成为恶意骗取医保基金的主要手段之一。在医保结算***数据库中，每一条就诊结算明细记录都会带有“医院收费项目名称”和对应的“医保三大目录名称”这两个字段。“医院收费项目名称”是各家医疗服务机构内部用来记录病人就诊所使用的医疗收费项目。“医保三大目录名称”包括了基本医疗保险药品目录、诊疗项目目录、医疗服务设施标准，是国家为保证基本医疗保险制度的健康运行所制定的，其中，甲类、乙类医疗收费项目是直接纳入可报销范围或部分纳入可报销范围的。在审核医保基金运用是否规范时，医保结算明细记录的数据量往往非常大，导致难以分析医保三大目录名称和医院收费项目名称是否有串换情形。现有挖掘串换医疗收费项目编码方法能够将医保结算明细数据进行数据挖掘，这是国内第一个针对识别串换医保收费项目的数据分析方法和***，并且得到了典型的串换甲类、乙类医疗收费项目编码情形。但由于各地数据质量不一，对于一些数据质量较差的地区的非标准的却常见的串换医疗项目编码情形，还需要进行人工处理，医学审核后确定，不断扩大串换案例范围。CN107145587A公开了一种基于大数据挖掘的医保反欺诈***，它包括以下子***：数据抽取、转换、加载子***、大数据存储子***、数据挖掘子***、规则库和知识库子***、实时流计算子***和可视化子***，所述数据抽取、转换、加载子***与大数据存储子***连接，大数据存储子***与数据挖掘子***连接，数据挖掘子***与规则库和知识库子***连接，规则库和知识库子***与实时流子***连接，大数据存储子***、规则库和知识库子***以及实时流计算子***再分别与可视化子***连接。上述***内部结构及调度算法复杂，不适用于本案。

发明内容

有鉴于此，本发明的目的是提供一种医保反欺诈串换编码挖掘***及方法，以解决现有技术中的不足。

为了达到上述目的，本发明的目的是通过下述技术方案实现的：

一方面，提供一种医保反欺诈串换编码挖掘***，其中，作用于第一字符型目录和第二字符型目录，包括依次连接的数据输入模块、数据清理模块、差异度分数模型模块和挖掘串换编码模块，所述数据输入模块用于接收所述第一字符型目录和所述第二字符型目录的名称，所述数据清理模块包括依次连接的字符转换功能块、字符删除功能块、字符拆分功能块、字符排序功能块和数据替换功能块，所述差异度分数模型模块用于建立所述第一字符型目录和所述第二字符型目录之间的差异度分数模型，所述挖掘串换编码模块包括数据筛选功能块、数据分组功能块和数据复核功能块。

上述医保反欺诈串换编码挖掘***，其中，所述差异度分数模型基于所述第一字符型目录和所述第二字符型目录之间的莱文斯坦距离实现。

另一方面，提供一种医保反欺诈串换编码挖掘方法，其中，基于如上述***实现，包括：

S1.清理结算明细数据中的第一字符型目录和第二字符型目录，形成新的第一字符型目录和第二字符型目录；

S1.1分别将第一字符型目录和第二字符型目录中除中文、英文、数字以外的字符转换为空格；

S1.2分别将第一字符型目录和第二字符型目录中大写英文转换为小写英文；

S1.3分别将第一字符型目录和第二字符型目录中开头和结尾的空格去掉；

S1.4分别将第一字符型目录和第二字符型目录以空格为分隔符进行字符拆分，形成两个字符列表；

S1.5分别将拆分第一字符型目录和第二字符型目录字符后形成的字符列表中的字符进行排序；

S1.6分别将排序后的第一字符型目录和第二字符型目录字符列表中的字符以空格作为连接，形成新的第一字符型目录和第二字符型目录，替换原来的第一字符型目录和第二字符型目录；

S2.对步骤S1操作完之后得到的结算明细数据，建立第一字符型目录和第二字符型目录之间的差异度分数模型；

S2.1计算第一字符型目录和第二字符型目录之间的莱文斯坦距离；

S2.2计算第一字符型目录和第二字符型目录之间的莱文斯坦比，计算公式为：

S2.3计算第一字符型目录和第二字符型目录之间的差异度分数，计算公式为；

差异度分数＝100*莱文斯坦比

S3.挖掘串换医疗项目编码情形；

S3.1对医疗结算明细数据进行筛选，筛选出差异度分数小于经验阈值的数据；

S3.2根据第一字符型目录和第二字符型目录进行分组，汇总医疗费用金额；

S3.3筛选出医疗费用总金额大于经验阈值的数据；

S3.4按照医疗收费项目类型进行筛选；

S3.5对第一字符型目录和第二字符型目录的组别进行复核，得到串换医疗项目编码情形。

本发明技术方案的有益效果包括：

医保结算信息明细数据量非常大，导致在分析是否存在串换编码情形时，很难进行高效准确的分析，本挖掘串换医疗收费项目编码方法和***有效地解决了这一问题，目前本***和方法已经使用在了医保反欺诈提质增效项目中。

附图说明

图1为本发明流程示意图。

具体实施方式

下面结合附图和具体实施例对本发明作进一步说明，但不作为本发明的限定。

参看图1所示，本发明提供一种医保反欺诈串换编码挖掘***，作用于第一字符型目录和第二字符型目录，包括依次连接的数据输入模块、数据清理模块、差异度分数模型模块和挖掘串换编码模块，数据输入模块用于接收第一字符型目录和第二字符型目录的名称，数据清理模块包括依次连接的字符转换功能块、字符删除功能块、字符拆分功能块、字符排序功能块和数据替换功能块，差异度分数模型模块用于建立第一字符型目录和第二字符型目录之间的差异度分数模型，挖掘串换编码模块包括数据筛选功能块、数据分组功能块和数据复核功能块。

优选地，差异度分数模型基于第一字符型目录和第二字符型目录之间的莱文斯坦距离实现。

另外，本发明医保反欺诈串换编码挖掘方法基于如上述***实现，包括：

S3.挖掘串换医疗项目编码情形；

S3.3筛选出医疗费用总金额大于经验阈值的数据；

S3.4按照医疗收费项目类型进行筛选；

本案中，第一字符型目录即“医院收费项目名称”，第二字符型目录即医保三大目录名称。

在进行医保基金欺诈案例分析时，串换医疗收费项目编码是一种常见的骗保行为，本工具基于模糊匹配算法及医疗项目编码的含义，建立医保三大目录名称和医院收费项目名称的差异度分数模型，用来批量挖掘医疗收费项目串换情形，侦察医疗收费机构串换医疗收费项目的案例，是国内首个针对挖掘医保串换医疗收费项目编码的方法和***，得到了典型的串换甲类、乙类医疗收费项目编码情形，具有很大使用价值及意义，后续还会不断补充地方非标准代码的串换案例，随着数据的积累，将对全国各地的串换编码案例进行整合，意义重大。

以上仅为本发明较佳的实施例，并非因此限制本发明的实施方式及保护范围，对于本领域技术人员而言，应当能够意识到凡运用本发明说明书

差异度分数＝100*莱文斯坦比

及图示内容所作出的等同替换和显而易见的变化所得到的方案，均应当包含在本发明的保护范围内。

Claims

1.一种医保反欺诈串换编码挖掘***，其特征在于，作用于第一字符型目录和第二字符型目录，包括依次连接的数据输入模块、数据清理模块、差异度分数模型模块和挖掘串换编码模块，所述数据输入模块用于接收所述第一字符型目录和所述第二字符型目录的名称，所述数据清理模块包括依次连接的字符转换功能块、字符删除功能块、字符拆分功能块、字符排序功能块和数据替换功能块，所述差异度分数模型模块用于建立所述第一字符型目录和所述第二字符型目录之间的差异度分数模型，所述挖掘串换编码模块包括数据筛选功能块、数据分组功能块和数据复核功能块。

2.如权利要求1所述医保反欺诈串换编码挖掘***，其特征在于，所述差异度分数模型基于所述第一字符型目录和所述第二字符型目录之间的莱文斯坦距离实现。

3.一种医保反欺诈串换编码挖掘方法，其特征在于，基于如权利要求1或2所述***实现，包括：

S1.1 分别将第一字符型目录和第二字符型目录中除中文、英文、数字以外的字符转换为空格；

S1.2 分别将第一字符型目录和第二字符型目录中大写英文转换为小写英文；

S1.3 分别将第一字符型目录和第二字符型目录中开头和结尾的空格去掉；

S1.4 分别将第一字符型目录和第二字符型目录以空格为分隔符进行字符拆分，形成两个字符列表；

S1.5 分别将拆分第一字符型目录和第二字符型目录字符后形成的字符列表中的字符进行排序；

S1.6 分别将排序后的第一字符型目录和第二字符型目录字符列表中的字符以空格作为连接，形成新的第一字符型目录和第二字符型目录，替换原来的第一字符型目录和第二字符型目录；

S2.1 计算第一字符型目录和第二字符型目录之间的莱文斯坦距离；

S2.2 计算第一字符型目录和第二字符型目录之间的莱文斯坦比，计算公式为：

差异度分数＝100*莱文斯坦比

S2.3 计算第一字符型目录和第二字符型目录之间的差异度分数，计算公式为；

S3.挖掘串换医疗项目编码情形；

S3.1 对医疗结算明细数据进行筛选，筛选出差异度分数小于经验阈值的数据；

S3.2 根据第一字符型目录和第二字符型目录进行分组，汇总医疗费用金额；

S3.3 筛选出医疗费用总金额大于经验阈值的数据；

S3.4 按照医疗收费项目类型进行筛选；

S3.5 对第一字符型目录和第二字符型目录的组别进行复核，得到串换医疗项目编码情形。