CN110517050A - 一种医保反欺诈串换编码挖掘***及方法 - Google Patents
一种医保反欺诈串换编码挖掘***及方法 Download PDFInfo
- Publication number
- CN110517050A CN110517050A CN201910741147.9A CN201910741147A CN110517050A CN 110517050 A CN110517050 A CN 110517050A CN 201910741147 A CN201910741147 A CN 201910741147A CN 110517050 A CN110517050 A CN 110517050A
- Authority
- CN
- China
- Prior art keywords
- character type
- type catalogue
- character
- catalogue
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/018—Certifying business or products
- G06Q30/0185—Product, service or business identity fraud
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/08—Insurance
Landscapes
- Business, Economics & Management (AREA)
- Accounting & Taxation (AREA)
- Finance (AREA)
- Engineering & Computer Science (AREA)
- Marketing (AREA)
- Economics (AREA)
- Development Economics (AREA)
- Strategic Management (AREA)
- Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Technology Law (AREA)
- Entrepreneurship & Innovation (AREA)
- Medical Treatment And Welfare Office Work (AREA)
Abstract
本发明公开了一种医保反欺诈串换编码挖掘***及方法,作用于第一字符型目录和第二字符型目录,***包括依次连接的数据输入模块、数据清理模块、差异度分数模型模块和挖掘串换编码模块,方法包括:S1.清理结算明细数据中的第一字符型目录和第二字符型目录,形成新的第一字符型目录和第二字符型目录;S2.建立第一字符型目录和第二字符型目录之间的差异度分数模型;S3.挖掘串换医疗项目编码情形。医保结算信息明细数据量非常大,导致在分析是否存在串换编码情形时,很难进行高效准确的分析,本发明挖掘串换医疗收费项目编码方法和***有效地解决了这一问题,目前本***和方法已经使用在了医保反欺诈提质增效项目中。
Description
技术领域
本发明属于数据处理分析技术领域,尤其涉及一种医保反欺诈串换编码挖掘***及方法。
背景技术
国家医保局于2019年发布《关于8起欺诈骗取医保基金典型案例的通报》,通报了多起涉及通过串换医疗收费项目等方式骗取医保基金的案例。定点医疗机构、定点零售药店和参保人员等通过串换药品、器械、诊疗项目的手段,多记医保项目费用,已成为恶意骗取医保基金的主要手段之一。在医保结算***数据库中,每一条就诊结算明细记录都会带有“医院收费项目名称”和对应的“医保三大目录名称”这两个字段。“医院收费项目名称”是各家医疗服务机构内部用来记录病人就诊所使用的医疗收费项目。“医保三大目录名称”包括了基本医疗保险药品目录、诊疗项目目录、医疗服务设施标准,是国家为保证基本医疗保险制度的健康运行所制定的,其中,甲类、乙类医疗收费项目是直接纳入可报销范围或部分纳入可报销范围的。在审核医保基金运用是否规范时,医保结算明细记录的数据量往往非常大,导致难以分析医保三大目录名称和医院收费项目名称是否有串换情形。现有挖掘串换医疗收费项目编码方法能够将医保结算明细数据进行数据挖掘,这是国内第一个针对识别串换医保收费项目的数据分析方法和***,并且得到了典型的串换甲类、乙类医疗收费项目编码情形。但由于各地数据质量不一,对于一些数据质量较差的地区的非标准的却常见的串换医疗项目编码情形,还需要进行人工处理,医学审核后确定,不断扩大串换案例范围。CN107145587A公开了一种基于大数据挖掘的医保反欺诈***,它包括以下子***:数据抽取、转换、加载子***、大数据存储子***、数据挖掘子***、规则库和知识库子***、实时流计算子***和可视化子***,所述数据抽取、转换、加载子***与大数据存储子***连接,大数据存储子***与数据挖掘子***连接,数据挖掘子***与规则库和知识库子***连接,规则库和知识库子***与实时流子***连接,大数据存储子***、规则库和知识库子***以及实时流计算子***再分别与可视化子***连接。上述***内部结构及调度算法复杂,不适用于本案。
发明内容
有鉴于此,本发明的目的是提供一种医保反欺诈串换编码挖掘***及方法,以解决现有技术中的不足。
为了达到上述目的,本发明的目的是通过下述技术方案实现的:
一方面,提供一种医保反欺诈串换编码挖掘***,其中,作用于第一字符型目录和第二字符型目录,包括依次连接的数据输入模块、数据清理模块、差异度分数模型模块和挖掘串换编码模块,所述数据输入模块用于接收所述第一字符型目录和所述第二字符型目录的名称,所述数据清理模块包括依次连接的字符转换功能块、字符删除功能块、字符拆分功能块、字符排序功能块和数据替换功能块,所述差异度分数模型模块用于建立所述第一字符型目录和所述第二字符型目录之间的差异度分数模型,所述挖掘串换编码模块包括数据筛选功能块、数据分组功能块和数据复核功能块。
上述医保反欺诈串换编码挖掘***,其中,所述差异度分数模型基于所述第一字符型目录和所述第二字符型目录之间的莱文斯坦距离实现。
另一方面,提供一种医保反欺诈串换编码挖掘方法,其中,基于如上述***实现,包括:
S1.清理结算明细数据中的第一字符型目录和第二字符型目录,形成新的第一字符型目录和第二字符型目录;
S1.1分别将第一字符型目录和第二字符型目录中除中文、英文、数字以外的字符转换为空格;
S1.2分别将第一字符型目录和第二字符型目录中大写英文转换为小写英文;
S1.3分别将第一字符型目录和第二字符型目录中开头和结尾的空格去掉;
S1.4分别将第一字符型目录和第二字符型目录以空格为分隔符进行字符拆分,形成两个字符列表;
S1.5分别将拆分第一字符型目录和第二字符型目录字符后形成的字符列表中的字符进行排序;
S1.6分别将排序后的第一字符型目录和第二字符型目录字符列表中的字符以空格作为连接,形成新的第一字符型目录和第二字符型目录,替换原来的第一字符型目录和第二字符型目录;
S2.对步骤S1操作完之后得到的结算明细数据,建立第一字符型目录和第二字符型目录之间的差异度分数模型;
S2.1计算第一字符型目录和第二字符型目录之间的莱文斯坦距离;
S2.2计算第一字符型目录和第二字符型目录之间的莱文斯坦比,计算公式为:
S2.3计算第一字符型目录和第二字符型目录之间的差异度分数,计算公式为;
差异度分数=100*莱文斯坦比
S3.挖掘串换医疗项目编码情形;
S3.1对医疗结算明细数据进行筛选,筛选出差异度分数小于经验阈值的数据;
S3.2根据第一字符型目录和第二字符型目录进行分组,汇总医疗费用金额;
S3.3筛选出医疗费用总金额大于经验阈值的数据;
S3.4按照医疗收费项目类型进行筛选;
S3.5对第一字符型目录和第二字符型目录的组别进行复核,得到串换医疗项目编码情形。
本发明技术方案的有益效果包括:
医保结算信息明细数据量非常大,导致在分析是否存在串换编码情形时,很难进行高效准确的分析,本挖掘串换医疗收费项目编码方法和***有效地解决了这一问题,目前本***和方法已经使用在了医保反欺诈提质增效项目中。
附图说明
图1为本发明流程示意图。
具体实施方式
下面结合附图和具体实施例对本发明作进一步说明,但不作为本发明的限定。
参看图1所示,本发明提供一种医保反欺诈串换编码挖掘***,作用于第一字符型目录和第二字符型目录,包括依次连接的数据输入模块、数据清理模块、差异度分数模型模块和挖掘串换编码模块,数据输入模块用于接收第一字符型目录和第二字符型目录的名称,数据清理模块包括依次连接的字符转换功能块、字符删除功能块、字符拆分功能块、字符排序功能块和数据替换功能块,差异度分数模型模块用于建立第一字符型目录和第二字符型目录之间的差异度分数模型,挖掘串换编码模块包括数据筛选功能块、数据分组功能块和数据复核功能块。
优选地,差异度分数模型基于第一字符型目录和第二字符型目录之间的莱文斯坦距离实现。
另外,本发明医保反欺诈串换编码挖掘方法基于如上述***实现,包括:
S1.清理结算明细数据中的第一字符型目录和第二字符型目录,形成新的第一字符型目录和第二字符型目录;
S1.1分别将第一字符型目录和第二字符型目录中除中文、英文、数字以外的字符转换为空格;
S1.2分别将第一字符型目录和第二字符型目录中大写英文转换为小写英文;
S1.3分别将第一字符型目录和第二字符型目录中开头和结尾的空格去掉;
S1.4分别将第一字符型目录和第二字符型目录以空格为分隔符进行字符拆分,形成两个字符列表;
S1.5分别将拆分第一字符型目录和第二字符型目录字符后形成的字符列表中的字符进行排序;
S1.6分别将排序后的第一字符型目录和第二字符型目录字符列表中的字符以空格作为连接,形成新的第一字符型目录和第二字符型目录,替换原来的第一字符型目录和第二字符型目录;
S2.对步骤S1操作完之后得到的结算明细数据,建立第一字符型目录和第二字符型目录之间的差异度分数模型;
S2.1计算第一字符型目录和第二字符型目录之间的莱文斯坦距离;
S2.2计算第一字符型目录和第二字符型目录之间的莱文斯坦比,计算公式为:
S2.3计算第一字符型目录和第二字符型目录之间的差异度分数,计算公式为;
S3.挖掘串换医疗项目编码情形;
S3.1对医疗结算明细数据进行筛选,筛选出差异度分数小于经验阈值的数据;
S3.2根据第一字符型目录和第二字符型目录进行分组,汇总医疗费用金额;
S3.3筛选出医疗费用总金额大于经验阈值的数据;
S3.4按照医疗收费项目类型进行筛选;
S3.5对第一字符型目录和第二字符型目录的组别进行复核,得到串换医疗项目编码情形。
本案中,第一字符型目录即“医院收费项目名称”,第二字符型目录即医保三大目录名称。
在进行医保基金欺诈案例分析时,串换医疗收费项目编码是一种常见的骗保行为,本工具基于模糊匹配算法及医疗项目编码的含义,建立医保三大目录名称和医院收费项目名称的差异度分数模型,用来批量挖掘医疗收费项目串换情形,侦察医疗收费机构串换医疗收费项目的案例,是国内首个针对挖掘医保串换医疗收费项目编码的方法和***,得到了典型的串换甲类、乙类医疗收费项目编码情形,具有很大使用价值及意义,后续还会不断补充地方非标准代码的串换案例,随着数据的积累,将对全国各地的串换编码案例进行整合,意义重大。
以上仅为本发明较佳的实施例,并非因此限制本发明的实施方式及保护范围,对于本领域技术人员而言,应当能够意识到凡运用本发明说明书
差异度分数=100*莱文斯坦比
及图示内容所作出的等同替换和显而易见的变化所得到的方案,均应当包含在本发明的保护范围内。
Claims (3)
1.一种医保反欺诈串换编码挖掘***,其特征在于,作用于第一字符型目录和第二字符型目录,包括依次连接的数据输入模块、数据清理模块、差异度分数模型模块和挖掘串换编码模块,所述数据输入模块用于接收所述第一字符型目录和所述第二字符型目录的名称,所述数据清理模块包括依次连接的字符转换功能块、字符删除功能块、字符拆分功能块、字符排序功能块和数据替换功能块,所述差异度分数模型模块用于建立所述第一字符型目录和所述第二字符型目录之间的差异度分数模型,所述挖掘串换编码模块包括数据筛选功能块、数据分组功能块和数据复核功能块。
2.如权利要求1所述医保反欺诈串换编码挖掘***,其特征在于,所述差异度分数模型基于所述第一字符型目录和所述第二字符型目录之间的莱文斯坦距离实现。
3.一种医保反欺诈串换编码挖掘方法,其特征在于,基于如权利要求1或2所述***实现,包括:
S1.清理结算明细数据中的第一字符型目录和第二字符型目录,形成新的第一字符型目录和第二字符型目录;
S1.1 分别将第一字符型目录和第二字符型目录中除中文、英文、数字以外的字符转换为空格;
S1.2 分别将第一字符型目录和第二字符型目录中大写英文转换为小写英文;
S1.3 分别将第一字符型目录和第二字符型目录中开头和结尾的空格去掉;
S1.4 分别将第一字符型目录和第二字符型目录以空格为分隔符进行字符拆分,形成两个字符列表;
S1.5 分别将拆分第一字符型目录和第二字符型目录字符后形成的字符列表中的字符进行排序;
S1.6 分别将排序后的第一字符型目录和第二字符型目录字符列表中的字符以空格作为连接,形成新的第一字符型目录和第二字符型目录,替换原来的第一字符型目录和第二字符型目录;
S2.对步骤S1操作完之后得到的结算明细数据,建立第一字符型目录和第二字符型目录之间的差异度分数模型;
S2.1 计算第一字符型目录和第二字符型目录之间的莱文斯坦距离;
S2.2 计算第一字符型目录和第二字符型目录之间的莱文斯坦比,计算公式为:
差异度分数=100*莱文斯坦比
S2.3 计算第一字符型目录和第二字符型目录之间的差异度分数,计算公式为;
S3.挖掘串换医疗项目编码情形;
S3.1 对医疗结算明细数据进行筛选,筛选出差异度分数小于经验阈值的数据;
S3.2 根据第一字符型目录和第二字符型目录进行分组,汇总医疗费用金额;
S3.3 筛选出医疗费用总金额大于经验阈值的数据;
S3.4 按照医疗收费项目类型进行筛选;
S3.5 对第一字符型目录和第二字符型目录的组别进行复核,得到串换医疗项目编码情形。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910741147.9A CN110517050A (zh) | 2019-08-12 | 2019-08-12 | 一种医保反欺诈串换编码挖掘***及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910741147.9A CN110517050A (zh) | 2019-08-12 | 2019-08-12 | 一种医保反欺诈串换编码挖掘***及方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110517050A true CN110517050A (zh) | 2019-11-29 |
Family
ID=68624961
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910741147.9A Pending CN110517050A (zh) | 2019-08-12 | 2019-08-12 | 一种医保反欺诈串换编码挖掘***及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110517050A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113468236A (zh) * | 2021-06-03 | 2021-10-01 | 太平洋医疗健康管理有限公司 | 一种匹配标准化医保目录的控制方法及装置 |
CN113627525A (zh) * | 2021-08-10 | 2021-11-09 | 工银科技有限公司 | 特征提取模型的训练方法、医保风险识别方法及装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1317114A (zh) * | 1998-07-10 | 2001-10-10 | 快速检索及传递公司 | 一种用于数据检索的搜索***和方法及其在搜索引擎中的应用 |
CN105320641A (zh) * | 2014-07-30 | 2016-02-10 | 腾讯科技(深圳)有限公司 | 一种文本校验方法及用户终端 |
CN109636648A (zh) * | 2018-12-13 | 2019-04-16 | 平安医疗健康管理股份有限公司 | 社保违规检测方法、装置、设备及计算机存储介质 |
CN109670173A (zh) * | 2018-12-13 | 2019-04-23 | 平安医疗健康管理股份有限公司 | 报销数据的排查方法、识别服务端及存储介质 |
-
2019
- 2019-08-12 CN CN201910741147.9A patent/CN110517050A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1317114A (zh) * | 1998-07-10 | 2001-10-10 | 快速检索及传递公司 | 一种用于数据检索的搜索***和方法及其在搜索引擎中的应用 |
CN105320641A (zh) * | 2014-07-30 | 2016-02-10 | 腾讯科技(深圳)有限公司 | 一种文本校验方法及用户终端 |
CN109636648A (zh) * | 2018-12-13 | 2019-04-16 | 平安医疗健康管理股份有限公司 | 社保违规检测方法、装置、设备及计算机存储介质 |
CN109670173A (zh) * | 2018-12-13 | 2019-04-23 | 平安医疗健康管理股份有限公司 | 报销数据的排查方法、识别服务端及存储介质 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113468236A (zh) * | 2021-06-03 | 2021-10-01 | 太平洋医疗健康管理有限公司 | 一种匹配标准化医保目录的控制方法及装置 |
CN113627525A (zh) * | 2021-08-10 | 2021-11-09 | 工银科技有限公司 | 特征提取模型的训练方法、医保风险识别方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Hope Sr et al. | Decentralization, the new public management, and the changing role of the public sector in Africa | |
Nojavan et al. | Conceptual change of disaster management models: A thematic analysis | |
CN106779457A (zh) | 一种企业信用评估方法及*** | |
Guasti | Development of citizen participation in Central and Eastern Europe after the EU enlargement and economic crises | |
Williams et al. | Promise and problems in applying quantitative complementary areas for representing the diversity of some Neotropical plants (families Dichapetalaceae, Lecythidaceae, Caryocaraceae, Chrysobalanaceae and Proteaceae) | |
CN109615524B (zh) | 洗钱犯罪团伙的识别方法、装置、计算机设备及存储介质 | |
CN107194807A (zh) | 一种贷款智能催收***及方法 | |
CN107240014A (zh) | 一种基于企业征信业务的信用评级方法 | |
CN108257033A (zh) | 一种保单分析方法、装置、终端设备及存储介质 | |
CN109859054A (zh) | 网络社团挖掘方法、装置、计算机设备及存储介质 | |
US20120173723A1 (en) | Analysis of third party networks | |
CN110517050A (zh) | 一种医保反欺诈串换编码挖掘***及方法 | |
CN107463771A (zh) | 一种病例分组的方法和*** | |
CN108470312B (zh) | 理赔案件的分析方法、装置、存储介质及终端 | |
CN109829034A (zh) | 一种基于市场主体信用数据的企业树谱图展示方法 | |
CN107239870A (zh) | 企业财务汇总处理*** | |
CN112216372A (zh) | 一种基于大数据的智慧医疗医院信息化展示管理平台 | |
CN112419074A (zh) | 一种车险欺诈团伙识别方法及装置 | |
Ting et al. | Spatial data infrastructures and good governance: frameworks for land administration reform to support sustainable development | |
Frenkel et al. | An assessment of the usefulness of phytosociological and numerical classificatory methods for the community biogeographer | |
CN112529715A (zh) | 一种基于复杂拓扑网络分析的车辆理赔群体欺诈识别方法 | |
CN110503537A (zh) | 一种财务记账数据智能匹配方法及*** | |
Hamdok | Governance and policy in Africa | |
Gerrard et al. | Selecting conservation reserves using species‐covering models: Adapting the ARC/INFO GIS | |
CN110288330A (zh) | 一种可代收的聚合支付方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20191129 |
|
WD01 | Invention patent application deemed withdrawn after publication |