CN113657548A

CN113657548A - 医保异常检测方法、装置、计算机设备及存储介质

Info

Publication number: CN113657548A
Application number: CN202111015971.XA
Authority: CN
Inventors: 李佳秀
Original assignee: Ping An Medical and Healthcare Management Co Ltd
Current assignee: Ping An Medical and Healthcare Management Co Ltd
Priority date: 2021-08-31
Filing date: 2021-08-31
Publication date: 2021-11-16

Abstract

本申请公开一种医保异常检测方法、装置、计算机设备及存储介质，涉及医疗大数据处理领域，用于提高医保异常行为的检测效率和准确度。该医保异常检测方法包括：获取医保机构开放共享的医保数据，并对医保数据进行数据预处理，得到原始数据；通过预设维度对原始数据进行描述，得到目标数据；采用机器学习算法对所述原始数据以及所述目标数据进行特征提取，获得特征向量；将所述原始数据和所述特征向量作为训练数据集输入至预设的神经网络进行训练，生成医保检测模型；将待检测医保数据输入所述医保检测模型，根据所述医保检测模型检测所述待检测医保数据所属的类型。本申请可以通过训练好的医保检测模型能有效提高医保异常数据的审核效率和准确度。

Description

医保异常检测方法、装置、计算机设备及存储介质

技术领域

本发明实施例涉及医疗大数据处理领域，尤其是一种医保异常检测方法、装置、计算机设备及存储介质。

背景技术

随着医保覆盖不断扩大，参保人医疗需求也在不断增长，医疗基金上的支出也不断增加，医保基金的监管的任务越来越重，其中就存在医疗欺诈行为而产生的支出，而传统医保基金监管依赖经验审核，主要通过人工对医疗数据中的报销人信息、病由、医疗方案、用药以及康复医疗等数据进行审核，耗时耗力，而且没有具体的审核标准，审核标准因人而异，导致审核准确率较低。

另一方面，随着时间的推移，医保欺诈行为日趋隐蔽且复杂多变，进一步导致风控难度持续升级，导致很多违规行为无法被精准识别，出现漏审、误审的情况，审核效果差。

发明内容

本发明实施例提供一种能够提高医保异常行为检测效率和准确度的医保异常检测方法、装置、计算机设备及存储介质。

为达到上述目的，本申请实施例采用如下技术方案：

第一方面，提供一种医保异常检测方法，包括：

获取医保机构开放共享的医保数据，并对所述医保数据进行数据预处理，得到原始数据；

通过预设维度对所述原始数据进行描述，得到目标数据；

采用机器学习算法对所述原始数据以及所述目标数据进行特征提取，获得特征向量；

将所述原始数据和所述特征向量作为训练数据集输入至预设的神经网络进行训练，生成医保检测模型；

将待检测医保数据输入所述医保检测模型，根据所述医保检测模型检测所述待检测医保数据所属的类型。

可选地，在所述将待检测医保数据输入所述医保检测模型，根据所述医保检测模型检测所述待检测医保数据所属的类型的步骤之后，所述方法还包括如下步骤：

获取对异常类型的所述待检测医保数据进行复审核的审核结果；

将所述审核结果作为标记过的训练样本加入所述训练数据集。

可选地，在所述将所述审核结果作为标记过的训练样本加入所述医保检测模型的训练数据集的步骤之后，所述方法还包括如下步骤：

获取与审核结果为违规的所述待检测医保数据对应的目标参保人；

将所述目标参保人加入至预设的黑名单中。

可选地，所述通过预设维度对所述原始数据进行描述，得到目标数据的步骤，具体包括如下步骤：

从疾病诊断维度、医疗行为主体维度、医疗行为合规维度以及回流的打标数据维度，描述所述原始数据的数据属性以得到所述目标数据。

可选地，所述采用机器学习算法对所述原始数据以及所述目标数据进行特征提取，获得特征向量的步骤，具体包括如下步骤：

提取所述原始数据以及所述目标数据中的数值型数据和分类型数据；

通过统计分布算法和聚类算法分别对所述数值型数据和分类型数据进行归一化得到所述特征向量。

可选地，在所述将所述原始数据和所述特征向量作为训练数据集输入至预设的神经网络进行训练，生成医保检测模型的步骤之后，所述方法还包括如下步骤：

对所述医保检测模型进行过拟合检测，并根据检测结果判断所述医保检测模型是否过拟合；

当判断所述医保检测模型过拟合时，根据预设的训练策略对所述医保检测模型重新进行训练，直至所述医保检测模型没有过拟合。

获取所述医保检测模型的性能参数，并根据所述性能参数判断所述医保检测模型是否符合预设的模型标准；

当判断所述医保检测模型不符合预设的模型标准时，根据所述性能参数对所述医保检测模型的模型参数进行调整。

第二方面，为解决上述技术问题本发明实施例还提供一种医保异常检测装置，包括：

数据获取模块，用于获取医保机构开放共享的医保数据，并对所述医保数据进行数据预处理，得到原始数据；

数据描述模块，用于通过预设维度对所述原始数据进行描述，得到目标数据；

特征提取模块，用于采用机器学习算法对所述原始数据以及所述目标数据进行特征提取，获得特征向量；

模型训练模块，用于将所述原始数据和所述特征向量作为训练数据集输入至预设的神经网络进行训练，生成医保检测模型；

数据检测模块，用于将待检测医保数据输入所述医保检测模型，根据所述医保检测模型检测所述待检测医保数据所属的类型。

可选地，装置还包括：

审核结果获取模块，用于获取对异常类型的所述待检测医保数据进行复审核的审核结果；

数据样本添加模块，用于将所述审核结果作为标记过的训练样本加入所述训练数据集。

可选地，装置还包括：

目标参保人获取模块，用于获取与审核结果为违规的所述待检测医保数据对应的目标参保人；

添加黑名单模块，用于将所述目标参保人加入至预设的黑名单中。

可选地，数据描述模块包括：

数据描述单元，用于从疾病诊断维度、医疗行为主体维度、医疗行为合格维度以及回流的打标数据维度，描述原始数据的数据属性以得到所述目标数据。

可选地，特征提取模块包括：

数据提取单元，用于提取所述原始数据以及所述目标数据中的数值型数据和分类型数据；

数据处理单元，用于通过统计分布算法和聚类算法分别对所述数值型数据和分类型数据进行归一化得到所述特征向量。

可选地，装置还包括：

过拟合检测模块，用于对所述医保检测模型进行过拟合检测，并根据检测结果判断所述医保检测模型是否过拟合；

模型重训练模块，用于当判断所述医保检测模型过拟合时，根据预设的训练策略对所述医保检测模型重新进行训练，直至所述医保检测模型没有过拟合。

可选地，装置还包括：

参数获取模块，用于获取所述医保检测模型的性能参数，并根据所述性能参数判断所述医保检测模型是否符合预设的模型标准；

参数调整模块，用于当判断所述医保检测模型不符合预设的模型标准时，根据所述性能参数对所述医保检测模型的模型参数进行调整。

第三方面，为解决上述技术问题本发明实施例还提供一种计算机设备，包括存储器和处理器，所述存储器中存储有计算机可读指令，所述计算机可读指令被所述处理器执行时，使得所述处理器执行上述所述医保异常检测方法的步骤。

该计算机设备可以是网络设备，也可以是网络设备中的一部分装置，例如网络设备中的芯片***。该芯片***用于支持网络设备实现第一方面及其任意一种可能的实现方式中所涉及的功能，例如，接收、确定、分流上述医保异常检测方法中所涉及的数据和/或信息。该芯片***包括芯片，也可以包括其他分立器件或电路结构。

第四方面，为解决上述技术问题本发明实施例还提供一种存储有计算机可读指令的存储介质，所述计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行上述所述医保异常检测方法的步骤。

第五方面，提供一种计算机程序产品，当所述计算机程序产品在计算机上运行时，使得所述计算机执行如第一方面及其任一种可能的设计方式所述的医保异常检测方法。

需要说明的是，上述计算机指令可以全部或者部分存储在第一计算机存储介质上。其中，第一计算机存储介质可以与医保异常检测装置的处理器封装在一起的，也可以与医保异常检测装置的处理器单独封装，本申请实施例对此不作限定。

本发明中第二方面、第三方面、第四方面以及第五方面的描述，可以参考第一方面的详细描述；并且，第二方面、第三方面、第四方面以及第五方面的有益效果，可以参考第一方面的有益效果分析，此处不再赘述。

在本申请实施例中，上述医保异常检测装置的名字对设备或功能模块本身不构成限定，在实际实现中，这些设备或功能模块可以以其他名称出现。只要各个设备或功能模块的功能和本发明类似，属于本发明权利要求及其等同技术的范围之内。

本发明的这些方面或其他方面在以下的描述中会更加简明易懂。

本发明实施例的有益效果是：在获取得到医保数据后先对医保数据进行数据清洗、转换等预处理操作得到原始数据，然后从预设维度对原始数据进行描述的目标数据，再对原始数据和目标数据进行特征提取，得到特征向量，将原始数据和特征向量作为训练数据集输入至神经网络进行训练生成医保检测模型，进而可以通过训练好的医保检测模型医保数据的异常进行审核和挖掘，能有效提高医保异常数据的审核效率和准确度。

附图说明

图1为本申请实施例提供的一种医保异常检测方法流程示意图；

图2为本申请实施例提供的医保异常检测方法对数据进行描述的流程示意图；

图3为本申请实施例提供的医保异常检测方法进行特征提取的流程示意图；

图4为本申请实施例提供的医保异常检测方法增加训练样本的流程示意图；

图5为本申请实施例提供的医保异常检测方法将违规参保人加入黑名单的流程示意图；

图6为本申请实施例提供的医保异常检测方法模型过拟合检测的流程示意图；

图7为本申请实施例提供的医保异常检测方法调整模型参数的流程示意图；

图8为本申请实施例提供的一种医保异常检测装置一个实施例的结构示意图；

图9为本申请实施例提供的计算机设备的基本结构框图。

具体实施方式

下面详细描述本申请的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本申请，而不能解释为对本申请的限制。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本申请的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。

本技术领域技术人员可以理解，除非另外定义，这里使用的所有术语(包括技术术语和科学术语)，具有与本申请所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是，诸如通用字典中定义的那些术语，应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非像这里一样被特定定义，否则不会用理想化或过于正式的含义来解释。

如背景技术所描述，现有的医保异常检测方法主要依赖经验审核，没有具体的审核标准，审核准确率较低且审核效果差。

针对上述问题，本申请实施例提供了一种医保异常检测方法，在获取得到医保数据后先对医保数据进行数据清洗、转换等预处理操作得到原始数据，然后从预设维度对原始数据进行描述的目标数据，再对原始数据和目标数据进行特征提取，得到特征向量，将原始数据和特征向量作为训练数据集输入至神经网络进行训练生成医保检测模型，进而可以通过训练好的医保检测模型医保数据的异常进行审核和挖掘，能有效提高医保异常数据的审核效率和准确度。

上述医保异常检测方法可以应用于计算机设备。该计算机设备可以为用于医保风控监管的设备，也可以为该设备中的芯片，还可以为该设备中的片上***。

可选的，该设备可以是物理机，例如：台式电脑，又称台式机或桌面机(desktopcomputer)、手机、平板电脑、笔记本电脑、超级移动个人计算机(ultra-mobile personalcomputer，UMPC)、上网本、个人数字助理(personal digital assistant，PDA)等终端设备。

可选的，上述计算机设备也可以通过部署在物理机上的虚拟机(virtualmachine，VM)，实现上述计算机设备所要实现的功能。

下面结合附图对本申请实施例提供的医保异常检测方法进行详细介绍。如图1所示，医保异常检测方法包括：S101-S105。

S101、获取医保机构开放共享的医保数据，并对所述医保数据进行数据预处理，得到原始数据。

可选的，医保机构为保存有国家医疗基金相关数据的部门，例如国家医疗保障局，或者与保存有国家医疗基金相关数据的部门关联，并能从该部门中获取医保数据的机构或平台，例如定期发布医疗保障统计公报的企业网址等，该企业网址的数据来源为国家医疗保障局。

在一种可能的实现方式中，所述医保数据是医疗数据，如个人健康档案、处方、检查报告等数据，具体的，在获取医保数据时，计算机设备首先要确定所需数据的维度，例如疾病诊断的维度、医疗行为主体的维度、医疗行为合规的维度和回流的打标数据的维度，其中，疾病诊断的维度为报销人员的疾病诊断数据，例如病人的年龄、姓名、性别、病由、药品以及病史等；医疗行为主体的维度为报销人员就医时的相关信息，例如医院、医生、患者这三者的基本信息和关系；医疗行为合规的维度是指报销人员就医时的治疗过程的相关信息，例如临床路径、专家规则等；回流的打标数据的维度为返回的打了标签的数据，例如药品A对症状B和症状C有作用，则药品A有两个分别对应症状B和症状C的标签。当然，在实施时，数据的维度还包括其他的维度，例如就诊号维度、科室维度、医师维度和参保单位维度等，在此不做具体限定。

计算机设备在获取到医保数据后，可以对医保数据进行清洗和转换等数据预处理操作，数据预处理后的医保数据就是原始数据。

示例性的，对医保数据进行清洗操作，包括但不限于数据标准化处理、缺失值处理、异常值处理以及主成分降维分析等，具体地，数据的预处理需要数据样本符合一定的标准，其中，数据标准化处理就是使不同规格的数据转换到同一规格的数据处理方式，这样，表征不同属性(单位不同)的各数据之间才有可比性。

示例性的，数据标准化处理可以采用无量纲化处理方法，无量纲化处理方法包括线性无量纲化方法、非线性无量纲化方法和定性指标的无量纲化方法，其中，线性无量纲化方法是指将指标实际值转化为不受量纲影响的指标评估值时，假定二者之间呈线性关系，指标实际值的变化引起指标评估值一个相应的比例变化。线性无量纲化方法包括但不限于min-max归一化法和Z－score法等。

可选地，Z－score(zero-mena normalization，0-均值标准化)法的公式如下：

公式①中的y是原始数据，μ是样本均值，δ是样本标准差。即Z－score法先求出每个数据(指标)的均值μ和标准差δ，然后就可以计算出原始数标准化后的值Y，Z－score法能够去除量纲，避免不同量纲的选取对距离计算产生的影响。

在一些可选实施例中，数据标准化处理还可以采用one-hot-encoding(独热编码)处理，在实施时，医保数据有时候数值型变量，就可以用归一化处理数值型变量。而另一些医保数据为分类值，分类值的取值之间没有大小的意义，例如：[西药a，中药b，药草c]，针对这类数据可以使用one-hot-encoding将分类变量转换为几个二进制列，以药品种类包括药品A、药品B、药品C、药品D和药品E为例，药品A的独热编码为：10000，药品B的独热编码为：01000，药品C的独热编码为：00100，药品D的独热编码为：00010，药品E的独热编码为：00001。经过独热编码后的数据可以直接用于分类器，解决了分类器不好处理属性数据的问题。

在另一些实施例中，min-max归一化法时对原始数据进行线性变换，将其映射到[0，1]之间。min-max归一化法的公式如下：

公式②中y为原始数据，x_max是样本的最大值，x_min是样本的最大值，以一组身高数据([2.5]，[3.1]，[1.4]，[2.2]，[3.2])为例，进行min-max归一化后为：([0.6111]，[0.9444]，[0]，[0.4444]，[1])。通过min-max归一化后的数据放大了数据间的差异，有利于模型的学习。

在一些实施例中，数据收集或保存的失败会造成数据缺失，例如数据存储的失败、存储器损坏或者机械故障等原因导致某段时间数据未能收集或保存，当然，数据缺失也可能是认为主观因素导致，例如市场调查中被访人拒绝透露相关问题的答案、数据录入人员失误漏录入数据等。缺失值处理可以处理缺失的数据，在实施时，缺失值处理包括但不限于缺失值补全、删除含有缺失值的特征、直接使用含有缺失值的特征等，在此不做具体限定。

可选地，缺失值补全包括但不限于均值插补、同类均值插补、中位数插补、众数插补等，在一些实施例中，均值插补是指使用样本属性有效值的平均值来插补缺失的值，以就诊号为例，就诊号包括([12]，[14]，[15]，[22]，[]，[21])，其中，空表示数据缺失，计算平均值为：16.8，可以取值为17，则均值插补后的就诊号为：([12]，[14]，[15]，[22]，[17]，[21])。

进一步地，上述均值插补适用于样本属性的距离是可度量的情况，当样本属性的距离是不可度量(非数值型)的时候，可以使用该样本属性有效值的众数来插补缺失的值，即将该样本属性的取值次数最多的值来补齐缺失的值。以科室维度为例，包括([儿科]，[妇科]，[内科]，[男科]，[无]，[儿科])，其中，无表示数据缺失，由于外科出现的次数最多，则将外科插补进缺失值的位置，得到([儿科]，[妇科]，[内科]，[男科]，[儿科]，[儿科])。

进一步地，同类均值插补首先需要将样本数据进行分类，然后以该类中样本的均值来插补缺失值。

进一步地，中位数插补是将一组数据按大小排序后，取中间位置上的有效值来插补缺失的值，例如上述的就诊号([12]，[14]，[15]，[22]，[]，[21])，中位数为15，则中位数插补后的就诊号为：([12]，[14]，[15]，[22]，[15]，[21])。

可以理解的是，在其他实施例中，缺失值补全还可以采用其他缺失值补全方法，例如热卡插补法、回归插补法、多重插补法等，能用于补全缺失的数据即可，在此不做具体限定。

在一些实施例中，医保数据中可能存在异常值，异常值是指即在数据集中存在又不合理的值，异常值又被称为离群点，例如参保人员的编号为8位数，当采集到的参保人员的编号出现非8位的号码时，确认该号码为异常值。

可选地，异常值的判断包括但不限于箱型图分析、3δ原则和简单统计分析等。

进一步地，简单统计分析是对属性至进行一个描述性的统计，从而查看哪些值是不合理的。例如对身份证号码这个属性进行规约为：身份证号码是18位，如果样本数据中身份证号码的位数不是18位，则表示该样本数据属于异常值。

进一步地，当数据服从正太分布时可以用3δ原则，根据正太分布的定义可知，距离平均值3δ之外的概率为0.003，这属于极小概率事件，则可以认定与平均值的距离大于3δ的样本数据属于异常值。当然，在另一些实施例中，当数据不服从正太分布时，可以通过远离平均距离多少倍的标准差来判定，多少倍的取值可以根据实际情况来决定。例如远离平均距离3倍的概率为0.004，则可以认定远离平均距离3倍的样本数据属于异常值。

进一步地，为提高异常值判断的准确度，还可以采用箱型图分析，箱型图是利用数据中的五个统计量：最小值、第一四分位数、中位数、第三四分位数和最大值来描述数据的方法，其中，首先计算出第一四分位数(Q1)、中位数、第三四分位数(Q3)，具体地，可以将一组数据按从小到大的顺序排序，处于中间位置的数字就是中位数，也就是50％位置的数字，同理，第一四分位数和第三四分位数是按从小到大的顺序排序后，处于25％和75％的数字。令IQR＝Q3-Q1，那么Q3+1.5(IQR)和Q1-1.5(IQR)之间的值就是可接收范围内的数值，Q3+1.5(IQR)和Q1-1.5(IQR)之外的值认为是异常值。

进一步地，异常值处理方法包括但不限于删除含有异常值的样本、将异常值视为缺失值进行缺失值处理等，在此不做具体限定。

可选地，还可以将异常值视为缺失值进行缺失值处理，可以参照上述缺失值补全的步骤，例如对异常值当做缺失值进行均值插补、同类均值插补、中位数插补、众数插补等插补异常值。

在一些可选实施例中，主成分降维分析可以采用PCA(Principal ComponentAnalysis)的方法对医保数据信息降维处理，PCA的算法步骤如下：

输入：数据集X＝{x₁,x₂,x₃,...,x_n}，需要降到K维。

去平均值(即去中性化)，即每一位特征减去各自的平均值；

计算协方差矩阵

用特征值分解方法求协方差矩阵

的特征值和特征向量；

对特征值从大到小排序，选择其中最大的K个，然后对其对弈的K个特征向量分别最为行向量组成特征向量矩阵P；

将数据转换到K个特征向量构建的新空间中，即Y＝PX。

以输入数据集

为例，通过使用PCA方法将这两行数据将到一行。

①、由于X矩阵的每行已经是零均值，所以不需要去平均值。

②、求协方差矩阵：

③、求协方差矩阵的特征值和特征向量，求解后的特征值为：λ₁＝2，

对应的特征向量为：

其中对应的特征向量分别是一个通解，C₁和C₂可以取任意实数，则标准化后的特征向量为：

④、特征向量矩阵P为：

⑤、用特征向量矩阵P的第一行乘以数据矩阵X，就得到了降维后的数据为：

通过PCA方法将医保数据中一些不带有效信息的，或者一些特征与其他一些特征是重复的数据进行降维处理，挺高了数据质量，提高模型训练效率。

需要说明的是，上述对数据进行清洗采用数据标准化处理、缺失值处理、异常值处理以及主成分降维分析的执行顺序不是固定的，例如可以一次执行无量纲化处理、缺失值处理、异常值处理以及离散数据处理的操作，也可以先执行缺失值处理、异常值处理后再执行无量纲化处理以及离散数据处理，或者先执行离散数据处理后再执行缺失值处理、异常值处理和无量纲化处理，本申请实施例对此不作限定。

S102、通过预设维度对所述原始数据进行描述，得到目标数据。

计算机设备对医保数据进行数据预处理后得到的原始数据进行预设维度描述，预设维度为预先设置的多个角度，例如上述的疾病诊断的维度、医疗行为主体的维度、医疗行为合规的维度和回流的打标数据的维度这四个角度对医保数据进行描述。

在一些可选实施例中，请参阅图2，图2是本申请一个实施例对数据进行描述的流程示意图。

如图2所示，步骤S102具体包括如下步骤：

S1021、从疾病诊断维度、医疗行为主体维度、医疗行为合格维度以及回流的打标数据维度，描述医保数据的数据属性以得到目标数据。

在实施时，数据属性是医保数据中的数据字段含义，例如医保数据包括病人名称，身份证号码、医保单编号、疾病名称以及治疗过程手术以及用药的名称和量等信息。

可选地，从疾病诊断维度描述医保数据为从医疗资源消耗角度，采用疾病诊断相关分组方式，对医疗数据进行描述。包括对病人的年龄、性别、住院天数、临床诊断、病症、手术、疾病严重程度、合并症与并发症转归等因素，把病人分入诊断相关组。

从医疗行为主体维度是指通过医院、医生、患者三者的基本信息和关系，对医保数据进行描述。

从医疗行为合规维度是指从临床路径、专家规则等方向，对医保数据进行描述，其中，临床路径是指针对某一疾病建立一套标准化治疗模式与治疗程序，是一个有关临床治疗的综合模式，以循证医学证据和指南为知道来促进治疗组织和疾病管理的方法。专家规则包括医药知识库等内容。

从回流的打标数据维度对医保数据进行描述的步骤，可以从多类不同特性的数据方向，如离散数据、连续数据、时序数据等方向，对医保数据进行描述。

S103、采用机器学习算法对所述原始数据以及所述目标数据进行特征提取，获得特征向量。

计算机设备对原始数据进行预设维度的描述后，采用机器学习算法对原始医保数据以及目标数据进行特征提取，其中，机器学习算法是指专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能的学科。

在一些实施例中，请参阅图3，图3是本申请一个实施例进行特征提取的流程示意图。

如图3所示，步骤S103具体包括如下步骤：

S1031、提取所述原始数据以及所述目标数据中的数值型数据和分类型数据；

S1032、通过统计分布算法和聚类算法分别对所述数值型数据和分类型数据进行归一化得到所述特征向量。

具体地，医保数据中包括数值型数据和分类型数据，其中，数值型数据是指取值能区分大小的数值数据，例如住院天数，分类型数据是指取值不能区分大小的字符数据，例如疾病名称，计算机设备可以识别并提取医保数据中的数值型数据和分类型数据并进行数据标准化，数据标准化包括统计分布算法和聚类算法。

可选地，数值型数据包括费用、住院天数等，具体地，通过采用统计分布方式将费用、住院天数数据归一化至[0，1]区间。例如设置一个分值区间，如10至90，将费用、住院天数数据中处于10至90之间的数据置为1，而将小于10或大于90的数据置为0。

可选地，分类型数据包括用药记录、检查记录和化验记录等，具体地，通过聚类算法对用药记录、检查记录、化验记录计算欧式距离，然后进行归一化。例如以国际疾病分类(International Classfication of Diseases，简称ICD)为分组依据，在同病中内对用药记录、检查记录、化验记录进行聚类，例如将在药品白名单内的药品种类设为1，否则设为0，或者将在检查白名单中的检查项目标记为1，否则标记为0，或者将在化验白名单中的化验项标记为1，否则标记为0。

需要说明的是，数值型数据不局限于上述的费用和住院天数，还可以包括日期、用药量、检查次数以及其他医保相关数据；分类学数据不局限于上述的用药记录、检查记录和化验记录，还可以包括医院、病人的名称、科室以及主治医师等，在此不做具体限定。

在一些可选实施例中，还可以将专家规则作为特征输入，得到专家规则的返回结果数据，将该返回结果数据分为多类不同特性的数据，例如二值型数据、连续型数据等，然后分别将各类数据归一化至[0，1]区间。其中，返回结果数据中疑似程度越大的数据，分值越高。

S104、将所述原始数据和所述特征向量作为训练数据集输入至预设的神经网络进行训练，生成医保检测模型；

在实施时，将获取的医保数据和提取的特征向量组成训练数据集训练神经网络，神经网络是一个具有相互连接的节点的计算***，可选地，神经网络包括但不限于前馈神经网络(FNN)、卷积神经网络(CNN)、循环神经网络(RNN)以及递归神经网络等。在实施时，以深度学习算法为例，可以用M维的向量在训练数据集上进行取值，其中，以训练数据集包括上述的人员编号ID维度、医院维度、就诊号维度、科室维度、医师维度、参保单位维度这6个维度为例，默认步长设置为1，产生2M+1个M维的向量，将该2M+1个M维的向量经过预设类型的森林进行处理，分别产生2M+1个3维向量，将该2M+1个3维向量连接到一起，产生一个G维向量，其中，M＝2，G＝3*(2M+1)*森林个数。

针对所产生的G维向量，采用级联方式每层都接受特征向量所包含的特征信息，经过多层多类型森林组合进行特征学习，每一层的输出结果与所产生的G维向量进行拼接，再次经过每层的森林组合进行特征学习，根据训练次数与收敛指标保持各层参数作为医保检测模型。

可选地，神经网络可以采用XGBoost分类模型，通过将该训练数据集导入XGBoost分类模型进行训练学习生成医保检测模型，其中主要涉及到模型调参和模型评价。具体地，模型调参主要涉及到n_estimators(集成中弱评估器的数量)、eta(迭代决策树时的步长)、max_depth(最大深度)及objective(目标函数)。通过使用sklearn.model_selection中的GridSearchCV模块，先预先设定各参数的预期取值范围，再对所有参数在该范围内进行遍历，最终得到满足模型最优异性能下的参数取值组合。

S105、将待检测医保数据输入所述医保检测模型，根据所述医保检测模型检测所述待检测医保数据所属的类型。

通过训练好的医保检测模型可以对待检测医保数据所属的类型进行检测，可选地，医保数据所属的类型为医保数据所包含的医保行为的类型，包括正常、疑似和违规。能够实时准确、及时、有效地检测出医疗过程中的医保违规行为，从而有助于提高医保基金监管的准确率和高效性。

本申请实施例通过在获取得到医保数据后先对医保数据进行数据清洗、转换等预处理操作得到原始数据，然后从预设维度对原始数据进行描述的目标数据，再对原始数据和目标数据进行特征提取，得到特征向量，将原始数据和特征向量作为训练数据集输入至神经网络进行训练生成医保检测模型，进而可以通过训练好的医保检测模型医保数据的异常进行审核和挖掘，能有效提高医保异常数据的审核效率和准确度。

在一些可选实施例中，请参阅图4，图4是本申请一个实施例增加训练样本的流程示意图。

如图4所示，在所述将待检测医保数据输入所述医保检测模型，根据所述医保检测模型检测所述待检测医保数据所属的类型的步骤之后，本申请提供的医保异常检测方法还包括如下步骤：

S106、获取对异常类型的所述待检测医保数据进行复审核的审核结果；

S107、将所述审核结果作为标记过的训练样本加入所述训练数据集。

在对待检测医保数据输入到医保检测模型中进行检测后，对检测到的属于异常类型的待检测医保数据进行复审核，其中，异常类型是指经过医保检测模型检测后被判断为疑似和违规的待检测医保数据，能有效提高医保数据审核的效率和准确率。而且能够形成医保违规行为检测自学习闭环，从而提升医保检测模型的敏感性，对新出现的医保违规行为能更快速地检测出来，还能针对不同违规行为进行事前预防预警，事中告警提示，事后分析控制，保证医保行为监管的实时性。

在一些可选实施例中，请参阅图5，图5是本申请一个实施例将违规参保人加入黑名单的流程示意图。

如图5所示，在所述将所述审核结果作为标记过的训练样本加入所述医保检测模型的训练数据集的步骤之后，本申请提供的医保异常检测方法还包括如下步骤：

S108、获取与审核结果为违规的所述待检测医保数据对应的目标参保人；

S109、将所述目标参保人加入至预设的黑名单中。

在对类型异常的待检测医保数据进行复审核后，找出违规的待检测医保数据及其对应的参保人，参保人为购买医保的人员，当确定某个参保人的医保数据违规时，可以将该参保人加入黑名单中，对黑名单中的人员可以拒绝后续的医保续交，或者加大对该黑名单中参保人的医保数据的审核力度等，在此不做具体限定。

在一些可选实施例中，请参阅图6，图6是本申请一个实施例模型过拟合检测的流程示意图。

如图6所示，在所述将所述原始数据和所述特征向量作为训练数据集输入至预设的神经网络进行训练，生成医保检测模型的步骤之后，本申请提供的医保异常检测方法还包括如下步骤：

S110、对所述医保检测模型进行过拟合检测，并根据检测结果判断所述医保检测模型是否过拟合；

S111、当判断所述医保检测模型过拟合时，根据预设的训练策略对所述医保检测模型重新进行训练，直至所述医保检测模型没有过拟合。

在生成医保检测模型后，可以对医保检测模型进行过拟合检测，过拟合是指模型验证集合上和训练集合上表现都很好，而在测试集合上变现很差，在实施时，可以通过预测结果，判断是否出现过拟合现象，当出现过拟合现象时，可以通过调整模型参数重新训练纠正训练过拟合，例如通过增加数据集、加入正则化项循环训练模型，直至模型不再出现过拟合。

在一些可选实施例中，请参阅图7，图7是本申请一个实施例调整模型参数的流程示意图。

如图7所示，在所述将所述原始数据和所述特征向量作为训练数据集输入至预设的神经网络进行训练，生成医保检测模型的步骤之后，本申请提供的医保异常检测方法还包括如下步骤：

S112、获取所述医保检测模型的性能参数，并根据所述性能参数判断所述医保检测模型是否符合预设的模型标准；

S113、当判断所述医保检测模型不符合预设的模型标准时，根据所述性能参数对所述医保检测模型的模型参数进行调整。

模型性能参数是用来检验评估模型属性的信息，在实施时，性能参数包括模型的Accuracy(准确率)。

可选地，可以通过混淆矩阵的输出结果计算训练完成后的医保检测模型的Accuracy，Accuracy计算公式如下：

在公式③中TP和TN表示预测正确的样本，TP+TN+FP+FN表示所有样本，所以准确率表示预测正确的样本在所有样本中占的比例。

进一步地，当计算得到的准确率满足预期设定的阈值，例如准确率达到99.9％，则确定该医保检测模块性符合预设的模型标准，在实施时，模型标准保存在计算机设备中，可以将符合模型标准的医保检测模型保存起来。医保检测模型不符合模型标准，例如准确率不满足预期设定的阈值，则调整模型的参数重新进行训练，直至医保检测模型的准确率满足预期设定的阈值。

在另一些实施例中，模型标准还可以包括精确率(precision)、召回率(recall)以及F1值等，精确率表示在预测为某种属性的样本中真实类别为该属性的样本所占比例，召回率表示在真实为某种属性的样本中模型成功预测出的样本所占比例，F1值是精确率和召回率的调和平均值，在此不对性能评估的具体类型做限定。

上述主要从方法的角度对本申请实施例提供的方案进行了介绍。为了实现上述功能，其包含了执行各个功能相应的硬件结构和/或软件模块。本领域技术人员应该很容易意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，本申请实施例能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

本申请实施例可以根据上述方法示例对医保异常检测装置进行功能模块的划分，例如，可以对应各个功能划分各个功能模块，也可以将两个或两个以上的功能集成在一个处理模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。可选的，本申请实施例中对模块的划分是示意性的，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。

具体请参阅图8，图8为本实施例医保异常检测装置基本结构示意图。

如图8所示，一种医保异常检测装置，包括：

数据获取模块201，用于获取医保机构开放共享的医保数据，并对所述医保数据进行数据预处理，得到原始数据；

数据描述模块202，用于通过预设维度对所述原始数据进行描述，得到目标数据；

特征提取模块203，用于采用机器学习算法对所述原始数据以及所述目标数据进行特征提取，获得特征向量；

模型训练模块204，用于将所述原始数据和所述特征向量作为训练数据集输入至预设的神经网络进行训练，生成医保检测模型；

数据检测模块205，用于将待检测医保数据输入所述医保检测模型，根据所述医保检测模型检测所述待检测医保数据所属的类型。

可选地，本申请提供的医保异常检测装置还包括：

可选地，数据描述模块包括：

数据描述单元，用于数据描述单元，用于从疾病诊断维度、医疗行为主体维度、医疗行为合格维度以及回流的打标数据维度，描述原始数据的数据属性以得到所述目标数据。

可选地，特征提取模块还包括：

可选地，本申请提供的医保异常检测装置还包括：

为解决上述技术问题，本发明实施例还提供计算机设备。具体请参阅图9，图9为本实施例计算机设备基本结构框图。

如图9所示，计算机设备的内部结构示意图。该计算机设备包括通过***总线连接的处理器、非易失性存储介质、存储器和网络接口。其中，该计算机设备的非易失性存储介质存储有操作***、数据库和计算机可读指令，数据库中可存储有控件信息序列，该计算机可读指令被处理器执行时，可使得处理器实现一种医保异常检测方法。该计算机设备的处理器用于提供计算和控制能力，支撑整个计算机设备的运行。该计算机设备的存储器中可存储有计算机可读指令，该计算机可读指令被处理器执行时，可使得处理器执行一种医保异常检测方法。该计算机设备的网络接口用于与终端连接通信。本领域技术人员可以理解，图9中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

本实施方式中处理器用于执行图8中数据获取模块201、数据描述模块202、特征提取模块203、模型训练模块204和数据检测模块205的具体功能，存储器存储有执行上述模块所需的程序代码和各类数据。网络接口用于向用户终端或服务器之间的数据传输。本实施方式中的存储器存储有人脸图像关键点检测装置中执行所有子模块所需的程序代码及数据，服务器能够调用服务器的程序代码及数据执行所有子模块的功能。

计算机设备通过在获取到医保数据源中的医保数据后，然后对医保数据进行数据清洗、转换等预处理操作得到基础数据，在对基础数据进行特征分类汇总和分组，获得衍生数据，然后将医保数据、基础数据和衍生数据整合成训练数据集，通过一次性生成通用的训练数据集，节省了大量指标加工时间，节省了人工时间，而且由于医保数据为医保机构开放共享的数据库中预设维度的医保数据，通过多维度的医保数据生成大量的模型指标，增加了数据的全面性，进而使得开发出的模型全面且准确度高。

本发明还提供一种存储有计算机可读指令的存储介质，计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行上述任一实施例医保异常检测方法的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，该计算机程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，前述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)等非易失性存储介质，或随机存储记忆体(Random Access Memory，RAM)等。

本技术领域技术人员可以理解，本申请中已经讨论过的各种操作、方法、流程中的步骤、措施、方案可以被交替、更改、组合或删除。进一步地，具有本申请中已经讨论过的各种操作、方法、流程中的其他步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。进一步地，现有技术中的具有与本申请中公开的各种操作、方法、流程中的步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。

以上所述仅是本申请的部分实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本申请的保护范围。

Claims

1.一种医保异常检测方法，其特征在于，包括：

通过预设维度对所述原始数据进行描述，得到目标数据；

2.根据权利要求1所述的医保异常检测方法，其特征在于，在所述将待检测医保数据输入所述医保检测模型，根据所述医保检测模型检测所述待检测医保数据所属的类型的步骤之后，所述方法还包括如下步骤：

3.根据权利要求2所述的医保异常检测方法，其特征在于，在所述将所述审核结果作为标记过的训练样本加入所述医保检测模型的训练数据集的步骤之后，所述方法还包括如下步骤：

将所述目标参保人加入至预设的黑名单中。

4.根据权利要求1所述的医保异常检测方法，其特征在于，所述通过预设维度对所述原始数据进行描述，得到目标数据的步骤，具体包括如下步骤：

5.根据权利要求1所述的医保异常检测方法，其特征在于，所述采用机器学习算法对所述原始数据以及所述目标数据进行特征提取，获得特征向量的步骤，具体包括如下步骤：

6.根据权利要求1所述的医保异常检测方法，其特征在于，在所述将所述原始数据和所述特征向量作为训练数据集输入至预设的神经网络进行训练，生成医保检测模型的步骤之后，所述方法还包括如下步骤：

7.根据权利要求1所述的医保异常检测方法，其特征在于，在所述将所述原始数据和所述特征向量作为训练数据集输入至预设的神经网络进行训练，生成医保检测模型的步骤之后，所述方法还包括如下步骤：

8.一种医保异常检测装置，其特征在于，包括：

9.一种计算机设备，包括存储器和处理器，其特征在于，所述存储器中存储有计算机可读指令，所述计算机可读指令被所述处理器执行时，使得所述处理器执行如权利要求1至7中任一项权利要求所述医保异常检测方法的步骤。

10.一种非易失性存储介质，其特征在于，其存储有依据权利要求1至7中任意一项所述的医保异常检测方法所实现的计算机程序，该计算机程序被计算机调用运行时，执行该方法所包括的步骤。