CN113920384A - 特征有效性评估方法、装置、设备及存储介质 - Google Patents

特征有效性评估方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN113920384A
CN113920384A CN202111187176.9A CN202111187176A CN113920384A CN 113920384 A CN113920384 A CN 113920384A CN 202111187176 A CN202111187176 A CN 202111187176A CN 113920384 A CN113920384 A CN 113920384A
Authority
CN
China
Prior art keywords
feature data
data set
initial
dimension
subset
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111187176.9A
Other languages
English (en)
Inventor
满天龙
张俊杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Ping An Medical Health Technology Service Co Ltd
Original Assignee
Ping An Medical and Healthcare Management Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Medical and Healthcare Management Co Ltd filed Critical Ping An Medical and Healthcare Management Co Ltd
Priority to CN202111187176.9A priority Critical patent/CN113920384A/zh
Publication of CN113920384A publication Critical patent/CN113920384A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/211Selection of the most significant subset of features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/08Insurance

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Business, Economics & Management (AREA)
  • Evolutionary Computation (AREA)
  • Finance (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Accounting & Taxation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Development Economics (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • Technology Law (AREA)
  • General Business, Economics & Management (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Abstract

本发明公开了一种特征有效性评估方法、装置、设备及存储介质,所述特征有效性评估方法应用于医保局风控模型,具体的,通过树结构模型得到第一有效特征数据集合,通过深度学习神经网络模型得到第二有效特征数据集合,通过目标业务场景获第三有效特征数据集合,再将第一有效特征数据集合、第二有效特征数据集合、第三有效特征数据集合的并集作为目标有效特征数据集合,从而可以通过多个维度为风控模型挑选出高质量的特征,为医保的大数据风控智能化助力。

Description

特征有效性评估方法、装置、设备及存储介质
技术领域
本发明涉及人工智能技术领域,尤其涉及的是一种特征有效性评估方法、装置、设备及存储介质。
背景技术
特征工程是大数据风控领域的重要一环。特征工程产生的特征丰富程度一定程度决定了机器学习与深度学习模型的好坏。特征工程会制造生成出万级别的不同种类特征。从这些特征中提取出有用的特征是特征工程的重要环节。无用的特征会干扰训练模型,使得训练时间变长,有时甚至会导致模型欠拟合等问题。
目前,特征工程特征有效性评估方法,很大程度上基于业务人员的手工筛选。对业务人员的业务能力要求较高,人工花费较大,且在挑选有效特征时不全面容易遗漏。一些自动化的特征有效性评估方法分散,且不成体系。
因此,现有技术还有待改善。
发明内容
本发明要解决的技术问题在于,针对现有技术的上述缺陷,提供一种特征有效性评估方法、装置、设备及存储介质,旨在解决现有技术中特征有效性评估方法在挑选有效特征时耗时耗力且容易遗漏的技术问题。
第一方面,本申请提供了一种特征有效性评估方法,所述方法包括:
利用树结构模型获取初始特征数据集中各特征数据的重要性,将所述重要性大于重要性阈值的特征数据作为有效特征数据得到第一有效特征数据集合;
将所述初始特征数据集输入深度学习神经网络模型得到第一结果,基于所述初始特征数据集获取初始特征数据第一子集以及所述初始特征数据第二子集,并将所述初始特征数据第一子集输入所述深度学习神经网络模型得到第二结果,在所述第一结果与所述第二结果的误差大于误差阈值的情况下,将所述初始特征数据第二子集作为有效特征数据得到第二有效特征数据集合,其中,所述初始特征数据集包括所述初始特征数据第一子集以及所述初始特征数据第二子集;
在业务维度上获取所述初始特征数据集,基于目标业务场景获取所述业务维度中与所述目标业务场景相关的目标业务维度上的特征数据作为有效特征数据得到第三有效特征数据集合,所述业务维度包括人员编号维度、医院维度、就诊号维度、科室维度、医师维度、参保单位维度及多维度特征中的一种或多种;
将所述第一有效特征数据集合、所述第二有效特征数据集合、所述第三有效特征数据集合的并集作为所述目标有效特征数据集合。
可选的,所述树结构模型包括随机森林模型、复合树模型xgboost以及决策树模型lightgbm,所述利用树结构模型获取初始特征数据集中各特征数据的重要性,将所述重要性大于重要性阈值的特征数据作为有效特征数据得到第一有效特征数据集合,包括:
利用随机森林模型获取初始特征数据集中各特征数据的第一重要性,将所述第一重要性大于重要性阈值的特征数据作为有效特征数据得到第四有效特征数据集合;
利用复合树模型xgboost获取所述初始特征数据集中各特征数据的第二重要性,将所述第二重要性大于重要性阈值的特征数据作为有效特征数据得到第五有效特征数据集合;
利用决策树模型lightgbm获取所述初始特征数据集中各特征数据的第三重要性,将所述第三重要性大于重要性阈值的特征数据作为有效特征数据得到第六有效特征数据集合;
将所述第四有效特征数据集合、所述第五有效特征数据集合、所述第六有效特征数据集合的交集确定为所述第一有效特征数据集合,或者将所述第四有效特征数据集合、所述第五有效特征数据集合、所述第六有效特征数据集合的并集作为所述第一有效特征数据集合。
可选的,所述深度学习神经网络模型包括三个隐含层,所述将所述初始特征数据集输入深度学习神经网络模型得到第一结果,基于所述初始特征数据集获取初始特征数据第一子集以及所述初始特征数据第二子集,并将所述初始特征数据第一子集输入所述深度学习神经网络模型得到第二结果,在所述第一结果与所述第二结果的误差大于误差阈值的情况下,将所述初始特征数据第二子集作为有效特征数据得到第二有效特征数据集合,包括:
将所述初始特征数据集输入深度学习神经网络模型得到第一结果;
选取所述初始特征数据的四分之三作为所述初始特征数据第一子集,以及选取所述初始特征数据的四分之一作为所述初始特征数据第二子集;
将所述初始特征数据第一子集输入所述深度学习神经网络模型得到第二结果;
在所述第一结果与所述第二结果的误差大于误差阈值的情况下,重新在所述初始特征数据中选取少于上次选取比例的特征数据作为所述初始特征数据第一子集,以及在所述初始特征数据中选取大于或等于上次选取比例的特征数据作为所述初始特征数据第二子集;
将所述初始特征数据第一子集重新输入所述深度学习神经网络模型得到新的第一结果;
在所述第一结果与所述第二结果的误差大于误差阈值的情况下,重复执行在所述初始特征数据中选取少于上次选取比例的特征数据作为所述初始特征数据第一子集,以及在所述初始特征数据中选取大于或等于上次选取比例的特征数据作为所述初始特征数据第二子集,直至在所述第一结果与所述第二结果的误差小于或等于误差阈值的情况下,将前一次选取的所述初始特征数据第二子集作为有效特征数据得到第二有效特征数据集合。
可选的,所述将所述初始特征数据第一子集重新输入所述深度学习神经网络模型得到新的第一结果后,所述方法还包括:
在所述第一结果与所述第二结果的误差小于或等于误差阈值的情况下,将所述初始特征数据第二子集从所述初始特征数据子集中去除得到新的数据集合,以更新所述初始特征数据子集。
可选的,所述将所述第一有效特征数据集合、所述第二有效特征数据集合、所述第三有效特征数据集合的并集作为所述目标有效特征数据集合,包括:
获取所述第一有效特征数据集合、所述第二有效特征数据集合、所述第三有效特征数据集合的交集;
对所述交集进行去重处理,得到所述目标有效特征数据集合。
可选的,所述目标业务场景包括低等级医院来回住院、低等级医院多病常客、成群结队开药、门慢资历监控,所述基于目标业务场景获取所述业务维度中与所述目标业务场景相关的目标业务维度上的特征数据作为有效特征数据得到第三有效特征数据集合,包括:
在所述目标业务场景包括所述低等级医院来回住院的情况下,基于所述医院维度中的年住院费用最大值、所述科室维度中的非三级医院住院机构数量、所述科室维度中的非三级医院、所述就诊号维度中的三级医院住院次数、所述医院维度中的住院费用小于全市参保人平均住院费用的次数上的特征数据作为有效特征数据得到第三有效特征数据集合;
在所述目标业务场景包括所述低等级医院多病常客的情况下,基于所述就诊号维度中的一级医院住院次数、所述人员编号维度的患者疾病数量、所述参保单位维度中的患者住院门诊比例、所述多维度特征的患者总住院费用、所述多维度特征中的患者住院次均项目数、所述多维度特征中的就诊一级医院数量、所述多维度特征中的辅助用药使用、所述多维度特征中的住院一级医院距离的特征数据作为有效特征数据得到第三有效特征数据集合;
在所述目标业务场景包括成群结队开药的情况下,基于所述多维度特征中是否有疑似成群结队开药的违规行为、所述医院维度中的近一年内成群结队开药的次数、所述医师维度中的平均每次违规的间隔时间、所述多维度特征中就诊医疗机构数据上的特征数据作为有效特征数据得到第三有效特征数据集合;
在所述目标业务场景包括门慢资质监控的情况下,基于所述多维度特征中的住院一级医院距离远、所述就诊号维度的必要用药费用、所述就诊号维度的必要用药取药次数、所述就诊号维度的取药时间间隔、所述就诊号维度的用药总费用、所述就诊号维度的总取药次数、所述多维度特征中的其他医疗类型下的药品费用上的特征数据作为有效特征数据得到第三有效特征数据集合。
可选的,所述对所述交集进行去重处理,得到所述目标有效特征数据集合后,所述方法还包括:
对所述目标有效特征集合进行衍生特征处理得到衍生有效特征数据集合,并将所述衍生有效特征数据集合并入所述目标有效特征数据集合,得到更新后的目标有效特征数据集合。
第二方面,本申请提供了一种特征有效性评估装置,包括:
第一获取模块1,用于利用树结构模型获取初始特征数据集中各特征数据的重要性,将所述重要性大于重要性阈值的特征数据作为有效特征数据得到第一有效特征数据集合;
第二获取模块2,用于将所述初始特征数据集输入深度学习神经网络模型得到第一结果,基于所述初始特征数据集获取初始特征数据第一子集以及所述初始特征数据第二子集,并将所述初始特征数据第一子集输入所述深度学习神经网络模型得到第二结果,在所述第一结果与所述第二结果的误差大于误差阈值的情况下,将所述初始特征数据第二子集作为有效特征数据得到第二有效特征数据集合,其中,所述初始特征数据集包括所述初始特征数据第一子集以及所述初始特征数据第二子集;
第三获取模块3,用于在业务维度上获取所述初始特征数据集,基于目标业务场景获取所述业务维度中与所述目标业务场景相关的目标业务维度上的特征数据作为有效特征数据得到第三有效特征数据集合,所述业务维度包括人员编号维度、医院维度、就诊号维度、科室维度、医师维度、参保单位维度及多维度特征中的一种或多种;
处理模块4,用于将所述第一有效特征数据集合、所述第二有效特征数据集合、所述第三有效特征数据集合的并集作为所述目标有效特征数据集合。
第三方面,本申请提供了一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述任一技术方案所述特征有效性评估方法。
第四方面,本申请提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如上述任一技术方案所述特征有效性评估方法。
有益效果:本发明提供了一种特征有效性评估方法,所述方法包括:利用树结构模型获取初始特征数据集中各特征数据的重要性,将所述重要性大于重要性阈值的特征数据作为有效特征数据得到第一有效特征数据集合;将所述初始特征数据集输入深度学习神经网络模型得到第一结果,基于所述初始特征数据集获取初始特征数据第一子集以及所述初始特征数据第二子集,并将所述初始特征数据第一子集输入所述深度学习神经网络模型得到第二结果,在所述第一结果与所述第二结果的误差大于误差阈值的情况下,将所述初始特征数据第二子集作为有效特征数据得到第二有效特征数据集合,其中,所述初始特征数据集包括所述初始特征数据第一子集以及所述初始特征数据第二子集;在业务维度上获取所述初始特征数据集,基于目标业务场景获取所述业务维度中与所述目标业务场景相关的目标业务维度上的特征数据作为有效特征数据得到第三有效特征数据集合,所述业务维度包括人员编号维度、医院维度、就诊号维度、科室维度、医师维度、参保单位维度及多维度特征中的一种或多种;将所述第一有效特征数据集合、所述第二有效特征数据集合、所述第三有效特征数据集合的并集作为所述目标有效特征数据集合。在本方案中,特征有效性评估方法应用于医保局风控模型,具体的,通过树结构模型得到第一有效特征数据集合,通过深度学习神经网络模型得到第二有效特征数据集合,通过目标业务场景获第三有效特征数据集合,再将第一有效特征数据集合、第二有效特征数据集合、第三有效特征数据集合的并集作为目标有效特征数据集合,从而可以通过多个维度为风控模型挑选出高质量的特征,为医保的大数据风控智能化助力。
附图说明
为了更清楚地说明本申请实施例或背景技术中的技术方案,下面将对本申请实施例或背景技术中所需要使用的附图进行说明。
此处的附图被并入说明书中并构成本说明书的一部分,这些附图示出了符合本申请的实施例,并与说明书一起用于说明本申请的技术方案。
图1为本申请一种特征有效性评估方法的流程示意图;
图2为本申请一种特征有效性评估方法的原理示意图;
图3为本申请一种特征有效性评估装置的结构示意图;
图4为本申请一种特征有效评估设备的硬件结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
目前,特征工程特征有效性评估方法,很大程度上基于业务人员的手工筛选。对业务人员的业务能力要求较高,人工花费较大,且在挑选有效特征时不全面容易遗漏。一些自动化的特征有效性评估方法分散,且不成体系。
基于此,本申请希望提供一种能够解决上述技术问题的方案,其详细内容将在后续实施例中得以阐述。
图1为一种特征有效性评估方法中的流程示意图,如图1所示,本发明实施例提供的特征有效性评估方法应用于医保局的风控模型,旨在为大数据风控模型挑选高质量的特征,为模型打牢基础,并为医保的大数据风控智能化助力。
该方法可以应用于特征有效性评估装置,该特征有效性评估装置可以为终端设备、服务器或者其他处理设备等。其中,终端设备可以为用户设备(User Equipment,UE)、移动设备、用户终端、终端、蜂窝电话、无绳电话、个人数字助理(Personal DigitalAssistant,PDA)、手持设备、计算设备、车载设备、可穿戴设备等。
如图1所示,所述特征有效性评估方法包括:
S100、利用树结构模型获取初始特征数据集中各特征数据的重要性,将所述重要性大于重要性阈值的特征数据作为有效特征数据得到第一有效特征数据集合;
本实施方式中,初始特征数据集是包含多个初始数据特征的集合,具体的,该初始特征的数据类型可以为数值型、类别型、时序型的、统计型的、多维度型的等,树结构模型是预先设定的,当将初始特征数据集中的任一数据输入到树结构模型中,即可得到该特征数据的重要性,并筛选出重要性大于重要性阈值的特征数据作为第一有效特征数据集合。
具体的,重要性阈值是可以根据实际需求来设定的,重要性阈值的取值影响到第一小小特征数据集合的精准度,当需要提高第一有效特征数据集合的准确性时,可以提高重要性阈值的预设值。
S200、将所述初始特征数据集输入深度学习神经网络模型得到第一结果,基于所述初始特征数据集获取初始特征数据第一子集以及所述初始特征数据第二子集,并将所述初始特征数据第一子集输入所述深度学习神经网络模型得到第二结果,在所述第一结果与所述第二结果的误差大于误差阈值的情况下,将所述初始特征数据第二子集作为有效特征数据得到第二有效特征数据集合,其中,所述初始特征数据集包括所述初始特征数据第一子集以及所述初始特征数据第二子集;
在本实施方式中,深度学习神经网络模型是根据样本特征数据进行训练得到的,具体的,该样本特征数据可以是数值型、类别型、时序型的、统计型的、多维度型等。具体的,所述步骤S200包括:
A、先将初始特征数据集中的初始特征数据输入到深度学习神经网络中时,得到第一结果;
在一个实施方式中,当该初始特征数据集为与患者相关的一些信息,例如初始特征数据集包括个人信息、历史用药信息、历史就诊信息、医保信息、工作情况、学历信息,该深度学习神经网络模型可以是用于对病人进行推荐用药的神经网络模型,从而该第一结果可以为第一病人推荐用药结果。
B、然后将上述初始特征数据集合分为初始特征数据第一子集和所述初始特征数据第二子集,初始特征数据第一子集和初始特征数据第二子集均为初始特征数据集合的一部分。
在一个实施例中,初始特征第一子集和初始特征第二子集构成初始特征集合的全集。
在一个具体的实施例中,当初始特征数据集包括个人信息、历史用药信息、历史就诊信息、医保信息、工作情况、学历信息时,初始特征第一子集包括学历信息、工作情况时,初始特征数据第二子集包括个人信息、历史用药信息、历史就诊信息、医保信息,从而初始特征第一子集和初始特征第二子集构成初始特征数据集全集。
C、再将所述初始特征数据第一子集输入所述深度学习神经网络模型得到第二结果;在所述第一结果与所述第二结果的误差大于误差阈值的情况下,将所述初始特征数据第二子集作为有效特征数据得到第二有效特征数据集合。
由于第一结果是初始特征数据集合下的深度学习神经网络模型输出结果,所以将初始特征数据第二子集从初始特征数据集合中去掉后,仅将初始特征数据第一子集输入深度学习神经网络模型中得到第二结果后,通过将第一结果与第二结果进行比较,则能反应初始特征数据第二子集的有效性。因为如果去掉初始特征数据第二子集后对深度学习神经网络模型输出结果影响较大,则说明这部分数据对输出结果的影响较大,相当则说明该部分数据有效;在所述第一结果与所述第二结果的误差小于误差阈值的情况下,此时说明去掉初始特征数据第二子集,对深度学习神经网络模型的输出结构影响不大,从而确定初始特征数据第二子集为不相干数据,此时将初始特征数据第一子集确定为第二有效特征集合。
在一个具体的实施例中,当初始特征数据集包括个人信息、历史用药信息、历史就诊信息、医保信息、工作情况、学历信息时,第一结果为将初始特征数据集输入深度学习神经网络模型输出的第一病人推荐用药结果为A用药,初始特征第一子集包括学历信息、工作情况时,初始特征数据第二子集包括个人信息、历史用药信息、历史就诊信息、医保信息,深度学习神经网络模型是用于对病人进行推荐用药的神经网络模型,从而当仅将学历信息和工作情况输入深度学习神经网络模型得到第二病人推荐用药结果也为A用药。进一步的通过比较第一病人推荐用药结果和第二病人推荐用药结果,则会得到误差小于阈值的结论,也即说明初始特征数据第一子集,即学历信息、工作情况为有效信息;
在另一个实施例中,当初始特征数据集包括个人信息、历史用药信息、历史就诊信息、医保信息、工作情况、学历信息时,第一结果为将初始特征数据集输入深度学习神经网络模型输出的第一病人推荐用药结果为A用药,初始特征第一子集包括学历信息、工作情况时,初始特征数据第二子集包括个人信息、历史用药信息、历史就诊信息、医保信息,深度学习神经网络模型是用于对病人进行推荐用药的神经网络模型,从而当仅将学历信息和工作情况输入深度学习神经网络模型得到第二病人推荐用药结果为B用药。进一步的通过比较第一病人推荐用药结果和第二病人推荐用药结果,则会得到误差大于阈值的结论,也即说明初始特征数据第二子集,即个人信息、历史用药信息、历史就诊信息、医保信息为有效信息。
S300、在业务维度上获取所述初始特征数据集,基于目标业务场景获取所述业务维度中与所述目标业务场景相关的目标业务维度上的特征数据作为有效特征数据得到第三有效特征数据集合,所述业务维度包括人员编号维度、医院维度、就诊号维度、科室维度、医师维度、参保单位维度及多维度特征中的一种或多种;
在本实施方式中,业务维度是指与目标业务场景相关特征,与目标业务场景相关特征可以是人员编号维度、医院维度、就诊号维度、科室维度、医师维度、参保单位维度等,基于这些业务维度可以生成多种多样的特征,人工人员可以选择根据实际需求部分特征到作为第三有效特征集合。通过人工筛选的方式具有更强的针对性,可以补全药效特征,避免有效特征遗漏。
S400、将所述第一有效特征数据集合、所述第二有效特征数据集合、所述第三有效特征数据集合的并集作为所述目标有效特征数据集合。
在本实施方式中,第一方面,通过树结构模型得到第一有效特征数据集合,第二方面,通过深度学习神经网络模型得到第二有效特征数据集合,第三方面,还通过目标业务场景补全第三有效特征数据集合,再将第一有效特征数据集合、第二有效特征数据集合、第三有效特征数据集合的并集作为目标有效特征数据集合,从而可以通过多个维度为风控模型挑选出高质量的特征,特征有效性评估方法应用于医保局风控模型,得到多维度有效特征集合,为医保的大数据风控智能化助力。
作为一种可选的实施方式,所述树结构模型包括随机森林模型、复合树模型xgboost以及决策树模型lightgbm,所述步骤S100包括:
S102、利用随机森林模型获取初始特征数据集中各特征数据的第一重要性,将所述第一重要性大于重要性阈值的特征数据作为有效特征数据得到第四有效特征数据集合;
具体的,随机森林是指利用多棵树对初始特征数据进行训练并预测的一种分类器,当训练得到随机森林模型后,输入初始特征数据,得到关于该初始特征数据的第一重要性结果,当第一重要性大于预设的重要性阈值时,将该初始特征数据作为第四有效特征数据。当把初始特征数据集中的每个数据均依次输入到随机森林模型中后,即可得到第四有效特征数据集合。
S104、利用复合树模型xgboost获取所述初始特征数据集中各特征数据的第二重要性,将所述第二重要性大于重要性阈值的特征数据作为有效特征数据得到第五有效特征数据集合;
本实施方式中,当训练得到复合树模型后,输入初始特征数据到复合数模型,得到关于该初始特征数据的第二重要性结果,当第二重要性大于预设的重要性阈值时,将该初始特征数据作为第五有效特征数据。当把初始特征数据集中的每个数据均依次输入到复合树模型中后,即可得到第五有效特征数据集合。
S106、利用决策树模型lightgbm获取所述初始特征数据集中各特征数据的第三重要性,将所述第三重要性大于重要性阈值的特征数据作为有效特征数据得到第六有效特征数据集合;
本实施方式中,当训练得到决策树模型lightgbm后,输入初始特征数据到决策树模型,得到关于该初始特征数据的第三重要性结果,当第三重要性大于预设的重要性阈值时,将该初始特征数据作为第六有效特征数据。当把初始特征数据集中的每个数据均依次输入到决策树模型中后,即可得到第五有效特征数据集合。
S108、将所述第四有效特征数据集合、所述第五有效特征数据集合、所述第六有效特征数据集合的交集确定为所述第一有效特征数据集合,或者将所述第四有效特征数据集合、所述第五有效特征数据集合、所述第六有效特征数据集合的并集作为所述第一有效特征数据集合。
本实施方式中,选取了随机森林、xgboost、lightgbm三种树结构模型。由于每个模型的算法不一致,同一个初始特征数据对于三种树结构模型的重要程度可能各不相同,因此,得到第四有效特征数据集合、第五有效特征数据集合、第六有效特征数据集合后,当将第四有效特征数据集合、第五有效特征数据集合、第六有效特征数据集合的交集作为第一有效特征数据集合,可以增加第一有效特征数据集合的全面度,避免遗漏有效特征。而当将第五有效特征数据集合、所述第六有效特征数据集合的并集作为第一有效特征数据集合时,可以增加第一有效特征数据集合的准确度,便于挑选出质量更高、关联性更强的有效特征。
作为一种可选的实施方式,所述深度学习神经网络模型包括三个隐含层,所述步骤S200包括:
S202、将所述初始特征数据集输入深度学习神经网络模型得到第一结果;
在一个实施方式中,当该初始特征数据集为与患者相关的一些信息,例如初始特征数据集包括个人信息、历史用药信息、历史就诊信息、医保信息、工作情况、学历信息,该深度学习神经网络模型可以是用于对病人进行推荐用药的神经网络模型,从而该第一结果可以为病人推荐用药的第一结果。
S204、选取所述初始特征数据的四分之三作为所述初始特征数据第一子集,以及选取所述初始特征数据的四分之一作为所述初始特征数据第二子集;
在一个实施例中,当初始特征数据集包括个人信息、历史用药信息、历史就诊信息、医保信息时,初始特征数据第一子集为个人信息、历史用药信息、历史就诊信息,初始特征数据第二子集为医保信息。
S206、将所述初始特征数据第一子集输入所述深度学习神经网络模型得到第二结果;
在一个实施例中,将初始特征数据第一子集为个人信息、历史用药信息、历史就诊信息输入到深度学习神经网络模型得到第二结果,该第二结果可以为病人推荐用药的第二结果。
S208、在所述第一结果与所述第二结果的误差大于误差阈值的情况下,重新在所述初始特征数据中选取少于上次选取比例的特征数据作为所述初始特征数据第一子集,以及在所述初始特征数据中选取大于或等于上次选取比例的特征数据作为所述初始特征数据第二子集;
在第一结果与第二结果的误差大于误差阈值的情况下,则说明初始特征数据第二子集影响该误差,即初始特征数据第二子集为有效特征,同时,初始特征数据第二子集中也存在部分有效特征,此时,重新选取初始特征数据的中初始特征数据第一子集和初始特征数据第二子集的分配,具体的,重新分配的新的初始特征第一子集的选取比例要小于第一次选取的初始特征数据第一子集的比例,重新分配的新的初始特征第二子集的选取比例要大于或等于第一次选取的初始特征数据第二子集的比例,可选的,选取初始特征数据的二分之一作为初始特征数据第一子集,以及选取初始特征数据的二分之一作为初始特征数据第二子集。
在一个实施列中,当初始特征数据集包括个人信息、历史用药信息、历史就诊信息、医保信息时,初始特征数据第一子集为个人信息、历史用药信息、历史就诊信息,初始特征数据第二子集为医保信息。当将个人信息、历史用药信息、历史就诊信息、医保信息输入到深度学习神经网络模型时得到第一结果C,将个人信息、历史用药信息、历史就诊信息输入到深度学习神经网络模型得到第二结果D,当第一结果C和第二结果D的误差大于误差阈值的情况下,则说明医保信息影响输出结果,此时,可以原初始特征数据第一子集中的个人信息添加到初始特征数据第二子集中,重新分配的新的初始特征第一子集为历史用药信息、历史就诊信息,重新分配的新的初始特征第二子集为个人信息、医保信息。
S210、将所述初始特征数据第一子集重新输入所述深度学习神经网络模型得到新的第二结果;
在一个实施例中,重新分配的新的初始特征第一子集为历史用药信息、历史就诊信息,重新分配的新的初始特征第二子集为个人信息、医保信息时,将历史用药信息、历史就诊信息输入到深度学习神经网络模型中,得到新的第二结果。
S212、在所述第一结果与所述第二结果的误差大于误差阈值的情况下,重复执行在所述初始特征数据中选取少于上次选取比例的特征数据作为所述初始特征数据第一子集,以及在所述初始特征数据中选取大于或等于上次选取比例的特征数据作为所述初始特征数据第二子集,直至在所述第一结果与所述第二结果的误差小于或等于误差阈值的情况下,将前一次选取的所述初始特征数据第二子集作为有效特征数据得到第二有效特征数据集合。
继续比较新的第一结果和第二结果的误差与误差阈值的关系,在新的第一结果与所述第二结果的误差大于误差阈值的情况下,说明新选取的初始特征数据第一子集中还存在有效特征,因此,继续执行上述S208和S210的步骤,直到第一结果和第二结果的误差小于或等于误差阈值,则说明前一次选取的初始特征数据第一子集中不存在有效特征,即有效特征全部位于初始特征数据第二子集中,此时,将前一次选取的初始特征数据第二子集作为有效特征数据得到第二有效特征数据集合。
在一个实施例中,重新分配的新的初始特征第一子集为历史用药信息、历史就诊信息,重新分配的新的初始特征第二子集为个人信息、医保信息时,将历史用药信息、历史就诊信息输入到深度学习神经网络模型中,得到新的第二结果E。
通过比较第一结果C和第二结果E,第一结果C和第二结果E的误差大于误差阈值,则说明历史用药信息、历史就诊信息中还存在有效特征数据,此时,重新分配新的初始特征第一子集为历史用药信息,新的初始特征第二子集为历史就诊信息、个人信息、医保信息,将历史用药信息输入到深度学习神经网络模型中,继续得到新的第二结果F,若此时第二结果F与第一结果C误差值小于误差阈值,则说明为历史用药信息为无效特征数据,此时,将历史就诊信息、个人信息、医保信息作为第二有效特征数据集合。
可选的,所述步骤S200还包括:
S214、在所述第一结果与所述第二结果的误差小于或等于误差阈值的情况下,将所述初始特征数据第二子集从所述初始特征数据子集中去除得到新的数据集合,以更新所述初始特征数据子集。
在本实施方式中,当第一结果和第二结果的误差小于或等于误差阈值的情况下,则说明初始特征数据第二子集不影响深度学习神经网络模型的判断结果,即初始特征数据第二子集为不重要特征,此时,将初始特征数据第二子集从初始特征数据子集中去掉,以得到新的初始特征数据子集。
作为一种可选的实施方式,所述步骤S400包括:
S402、获取所述第一有效特征数据集合、所述第二有效特征数据集合、所述第三有效特征数据集合的交集;
在本实施方式中,为了进一步筛选出价值更大的有效特征数据集合,当得到第一有效特征数据集合、第二有效特征数据集合、第三有效特征数据后,将第一有效特征数据集合、第二有效特征数据集合、第三有效特征数据进行交集处理。
S404、对所述交集进行去重处理,得到所述目标有效特征数据集合。
当得到第一有效特征数据集合、第二有效特征数据集合、第三有效特征数据的交集后,由于第一有效特征数据集合、第二有效特征数据集合、第三有效特征数据中可能存在相同的特征数据,因此,对交集进行去重处理,避免数据重复,去重处理得到的目标有效数据为三种方式均判定为有效特征数据的数据集合,更能反映出有效特征数据的准确性。
作为一种可选的实施方式,所述步骤S300包括:
S302、在所述目标业务场景包括所述低等级医院来回住院的情况下,基于所述医院维度中的年住院费用最大值、所述科室维度中的非三级医院住院机构数量、所述科室维度中的非三级医院、所述就诊号维度中的三级医院住院次数、所述医院维度中的住院费用小于全市参保人平均住院费用的次数上的特征数据作为有效特征数据得到第三有效特征数据集合;
本实施方式中,有效特征数据与实际应用场景相结合,通过人工筛选的方式来选出有效特征,具体的,在低等级医院来回住院的情况下:将年住院费用最大值、非三级医院住院机构数量、非三级医院、三级医院住院次数、住院费用小于全市参保人平均住院费用的次数作为有效数据特征集合添加到第三有效特征数据集合中。
S304、在所述目标业务场景包括所述低等级医院多病常客的情况下,基于所述就诊号维度中的一级医院住院次数、所述人员编号维度的患者疾病数量、所述参保单位维度中的患者住院门诊比例、所述多维度特征的患者总住院费用、所述多维度特征中的患者住院次均项目数、所述多维度特征中的就诊一级医院数量、所述多维度特征中的辅助用药使用、所述多维度特征中的住院一级医院距离的特征数据作为有效特征数据得到第三有效特征数据集合;
具体的,在低等级医院多病常客的情况下,通过人工筛选的方式,可以将:一级医院住院次数、人员编号维度的患者疾病数量多、参保单位维度中的患者住院门诊比例高、多维度特征的患者总住院费用高、多维度特征中的患者住院次均项目数少、多维度特征中的就诊一级医院数量多、多维度特征中的辅助用药使用多、多维度特征中的住院一级医院距离远的特征数据作为有效数据特征集合添加到第三有效特征数据集合中。
S306、在所述目标业务场景包括成群结队开药的情况下,基于所述多维度特征中是否有疑似成群结队开药的违规行为、所述医院维度中的近一年内成群结队开药的次数、所述医师维度中的平均每次违规的间隔时间、所述多维度特征中就诊医疗机构数据上的特征数据作为有效特征数据得到第三有效特征数据集合;
在成群结队开药的情况下,通过人工筛选的方式,可以将多维度特征中是否有疑似成群结队开药的违规行为、医院维度中的近一年内成群结队开药的次数、医师维度中的平均每次违规的间隔时间、多维度特征中就诊医疗机构数据上的特征数据作为有效特征数据集合添加到第三有效特征数据集合中。
S308、在所述目标业务场景包括门慢资质监控的情况下,基于所述多维度特征中的住院一级医院距离远、所述就诊号维度的必要用药费用、所述就诊号维度的必要用药取药次数、所述就诊号维度的取药时间间隔、所述就诊号维度的用药总费用、所述就诊号维度的总取药次数、所述多维度特征中的其他医疗类型下的药品费用上的特征数据作为有效特征数据得到第三有效特征数据集合。
在目标业务场景包括门慢资质监控的情况下,将多维度特征中的住院一级医院距离远、就诊号维度的必要用药费用、就诊号维度的必要用药取药次数、就诊号维度的取药时间间隔、就诊号维度的用药总费用、就诊号维度的总取药次数、多维度特征中的其他医疗类型下的药品费用上的特征数据作为有效特征数据添加到第三有效特征数据集合。
在实施方式中,通过在各种不同的目标业务场景下,通过经验丰富的业务人员,通过业务知识补全有效特征,避免最终得到的目标有效特征数据的遗漏。
作为一种可选的实施方式,所述对所述交集进行去重处理,得到所述目标有效特征数据集合后,所述方法还包括:
S500、对所述目标有效特征集合进行衍生特征处理得到衍生有效特征数据集合,并将所述衍生有效特征数据集合并入所述目标有效特征数据集合,得到更新后的目标有效特征数据集合。
在本实施方式中,当得到目标有效特征集合后,还可以对目标有效特征集合中的有效特征进行衍生处理以得到衍生特征数据集合,衍生特征数据集合也并入目标有效特征数据集合中。另外,当通过有效特征衍生得到衍生特征数据后,可以将与该衍生特征数据相对应的有效特征删除,以避免数据重复,例如,当例如BMI=体重÷身高2,当体重和身高都为有效特征时,BMI也为有效特征,因为影响结果的很有可能是BMI,而不是身高和体重,此时,可以将身高和体重删除。
基于同样的发明构思,如图3所示,本申请实施例提供了一种特征有效性评估装置,包括:
第一获取模块1,用于利用树结构模型获取初始特征数据集中各特征数据的重要性,将所述重要性大于重要性阈值的特征数据作为有效特征数据得到第一有效特征数据集合;
第二获取模块2,用于将所述初始特征数据集输入深度学习神经网络模型得到第一结果,基于所述初始特征数据集获取初始特征数据第一子集以及所述初始特征数据第二子集,并将所述初始特征数据第一子集输入所述深度学习神经网络模型得到第二结果,在所述第一结果与所述第二结果的误差大于误差阈值的情况下,将所述初始特征数据第二子集作为有效特征数据得到第二有效特征数据集合,其中,所述初始特征数据集包括所述初始特征数据第一子集以及所述初始特征数据第二子集;
第三获取模块3,用于在业务维度上获取所述初始特征数据集,基于目标业务场景获取所述业务维度中与所述目标业务场景相关的目标业务维度上的特征数据作为有效特征数据得到第三有效特征数据集合,所述业务维度包括人员编号维度、医院维度、就诊号维度、科室维度、医师维度、参保单位维度及多维度特征中的一种或多种;
处理模块4,用于将所述第一有效特征数据集合、所述第二有效特征数据集合、所述第三有效特征数据集合的并集作为所述目标有效特征数据集合。
作为一种可选的实施方式,所述树结构模型包括随机森林模型、复合树模型xgboost以及决策树模型lightgbm,所述第一获取模块1包括:
第一子获取模块,用于利用随机森林模型获取初始特征数据集中各特征数据的第一重要性,将所述第一重要性大于重要性阈值的特征数据作为有效特征数据得到第四有效特征数据集合;
第二子获取模块,用于利用复合树模型xgboost获取所述初始特征数据集中各特征数据的第二重要性,将所述第二重要性大于重要性阈值的特征数据作为有效特征数据得到第五有效特征数据集合;
第三子获取模块,用于利用决策树模型lightgbm获取所述初始特征数据集中各特征数据的第三重要性,将所述第三重要性大于重要性阈值的特征数据作为有效特征数据得到第六有效特征数据集合;
第一得到模块,用于将所述第四有效特征数据集合、所述第五有效特征数据集合、所述第六有效特征数据集合的交集确定为所述第一有效特征数据集合,或者将所述第四有效特征数据集合、所述第五有效特征数据集合、所述第六有效特征数据集合的并集作为所述第一有效特征数据集合。
作为一种可选的实施方式,所述深度学习神经网络模型包括三个隐含层,所述第二获取模块2包括:
第一输入模块,用于将所述初始特征数据集输入深度学习神经网络模型得到第一结果;
第一选取模块,用于选取所述初始特征数据的四分之三作为所述初始特征数据第一子集,以及选取所述初始特征数据的四分之一作为所述初始特征数据第二子集;
第二输入模块,将所述初始特征数据第一子集输入所述深度学习神经网络模型得到第二结果;
第二选取模块,用于在所述第一结果与所述第二结果的误差大于误差阈值的情况下,重新在所述初始特征数据中选取少于上次选取比例的特征数据作为所述初始特征数据第一子集,以及在所述初始特征数据中选取大于或等于上次选取比例的特征数据作为所述初始特征数据第二子集;第三输入模块,用于将所述初始特征数据第一子集重新输入所述深度学习神经网络模型得到新的第一结果;
第二得到模块,用于在所述第一结果与所述第二结果的误差大于误差阈值的情况下,重复执行在所述初始特征数据中选取少于上次选取比例的特征数据作为所述初始特征数据第一子集,以及在所述初始特征数据中选取大于或等于上次选取比例的特征数据作为所述初始特征数据第二子集,直至在所述第一结果与所述第二结果的误差小于或等于误差阈值的情况下,将前一次选取的所述初始特征数据第二子集作为有效特征数据得到第二有效特征数据集合。
作为一种可选的实施方式中,所述第二获取模块2还包括:
更新模块,用于在所述第一结果与所述第二结果的误差小于或等于误差阈值的情况下,将所述初始特征数据第二子集从所述初始特征数据子集中去除得到新的数据集合,以更新所述初始特征数据子集。
作为一种可选的实施方式,所述处理模块4包括:
第四获取模块,用于获取所述第一有效特征数据集合、所述第二有效特征数据集合、所述第三有效特征数据集合的交集;
第三得到模块,对所述交集进行去重处理,得到所述目标有效特征数据集合。
作为一种可选的实施方式,所述第三获取模块3包括:
第四得到模块,用于在所述目标业务场景包括所述低等级医院来回住院的情况下,基于所述医院维度中的年住院费用最大值、所述科室维度中的非三级医院住院机构数量、所述科室维度中的非三级医院、所述就诊号维度中的三级医院住院次数、所述医院维度中的住院费用小于全市参保人平均住院费用的次数上的特征数据作为有效特征数据得到第三有效特征数据集合;
第五得到模块,用于在所述目标业务场景包括所述低等级医院多病常客的情况下,基于所述就诊号维度中的一级医院住院次数、所述人员编号维度的患者疾病数量、所述参保单位维度中的患者住院门诊比例、所述多维度特征的患者总住院费用、所述多维度特征中的患者住院次均项目数、所述多维度特征中的就诊一级医院数量、所述多维度特征中的辅助用药使用、所述多维度特征中的住院一级医院距离的特征数据作为有效特征数据得到第三有效特征数据集合;
在所述目标业务场景包括成群结队开药的情况下,基于所述多维度特征中是否有疑似成群结队开药的违规行为、所述医院维度中的近一年内成群结队开药的次数、所述医师维度中的平均每次违规的间隔时间、所述多维度特征中就诊医疗机构数据上的特征数据作为有效特征数据得到第三有效特征数据集合;
第六得到模块,用于在所述目标业务场景包括门慢资质监控的情况下,基于所述多维度特征中的住院一级医院距离远、所述就诊号维度的必要用药费用、所述就诊号维度的必要用药取药次数、所述就诊号维度的取药时间间隔、所述就诊号维度的用药总费用、所述就诊号维度的总取药次数、所述多维度特征中的其他医疗类型下的药品费用上的特征数据作为有效特征数据得到第三有效特征数据集合。
作为一种可选的实施方式,所述装置还包括:
衍生模块,用于对所述目标有效特征集合进行衍生特征处理得到衍生有效特征数据集合,并将所述衍生有效特征数据集合并入所述目标有效特征数据集合,得到更新后的目标有效特征数据集合。
具体的,所述特征有效性评估装置在执行时,实现本发明特征有效性评估方法的步骤,该特征有效性评估方法的具体步骤以及对应的有益效果在上文已经详细阐述,在此不再重复赘述。
基于同样的发明构思,本发明实施例提供了一种计算机设备,如图4所示,包括存储器22、处理器21、输入装置23,输出装置24。该处理器21、存储器22、输入装置23和输出装置24通过连接器相耦合,该连接器包括各类接口、传输线或总线等等,本申请实施例对此不作限定。应当理解,本申请的各个实施例中,耦合是指通过特定方式的相互联系,包括直接相连或者通过其他设备间接相连,例如可以通过各类接口、传输线、总线等相连。
所述计算机设备可以采用笔记本电脑、平板电脑、桌面型计算机、手机或工作站。
处理器21可以是一个或多个图形处理器(graphics processing unit,GPU),在处理器21是一个GPU的情况下,该GPU可以是单核GPU,也可以是多核GPU。可选的,处理器21可以是多个GPU构成的处理器组,多个处理器之间通过一个或多个总线彼此耦合。可选的,该处理器还可以为其他类型的处理器等等,本申请实施例不作限定。
存储器22可用于存储计算机程序指令,以及用于执行本申请方案的程序代码在内的各类计算机程序代码。可选地,存储器包括但不限于是随机存储记忆体(random accessmemory,RAM)、只读存储器(read-only memory,ROM)、可擦除可编程只读存储器(erasableprogrammable read only memory,EPROM)、或便携式只读存储器(compact disc read-only memory,CD-ROM),该存储器用于相关指令及数据。
输入装置23用于输入数据和/或信号,以及输出装置24用于输出数据和/或信号。输入装置23和输出装置24可以是独立的器件,也可以是一个整体的器件。
可理解,本申请实施例中,存储器22不仅可用于存储相关指令,还可用于存储相关数据,如该存储器22可用于存储通过输入装置23获取的目标特征数据,又或者该存储器22还可用于存储通过处理器21得到的比对结果等等,本申请实施例对于该存储器中具体所存储的数据不作限定。
可以理解的是,图3仅仅示出了一种车辆识别装置的简化设计。在实际应用中,车辆识别装置还可以分别包括必要的其他元件,包括但不限于任意数量的输入/输出装置、处理器、存储器等,而所有可以实现本申请实施例的车辆识别装置都在本申请的保护范围之内。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
基于同样的发明构思,本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如上述任一技术方案所述特征有效性评估方法。
计算机可读存储介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机可读存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取记忆体(RAM,Random Access Memory)、固态硬盘(SSD,Solid State Drives)或光盘等。其中,随机存取记忆体可以包括电阻式随机存取记忆体(ReRAM,Resistance Random Access Memory)和动态随机存取存储器(DRAM,Dynamic Random Access Memory)。
综上,本发明提供了一种特征有效性评估方法,如图2所示,所述方法包括:利用树结构模型获取初始特征数据集中各特征数据的重要性,将所述重要性大于重要性阈值的特征数据作为有效特征数据得到第一有效特征数据集合;将所述初始特征数据集输入深度学习神经网络模型得到第一结果,基于所述初始特征数据集获取初始特征数据第一子集以及所述初始特征数据第二子集,并将所述初始特征数据第一子集输入所述深度学习神经网络模型得到第二结果,在所述第一结果与所述第二结果的误差大于误差阈值的情况下,将所述初始特征数据第二子集作为有效特征数据得到第二有效特征数据集合,其中,所述初始特征数据集包括所述初始特征数据第一子集以及所述初始特征数据第二子集;在业务维度上获取所述初始特征数据集,基于目标业务场景获取所述业务维度中与所述目标业务场景相关的目标业务维度上的特征数据作为有效特征数据得到第三有效特征数据集合,所述业务维度包括人员编号维度、医院维度、就诊号维度、科室维度、医师维度、参保单位维度及多维度特征中的一种或多种;将所述第一有效特征数据集合、所述第二有效特征数据集合、所述第三有效特征数据集合的并集作为所述目标有效特征数据集合。在本方案中,特征有效性评估方法应用于医保局风控模型,具体的,通过树结构模型得到第一有效特征数据集合,通过深度学习神经网络模型得到第二有效特征数据集合,通过目标业务场景获第三有效特征数据集合,再将第一有效特征数据集合、第二有效特征数据集合、第三有效特征数据集合的并集作为目标有效特征数据集合,从而可以通过多个维度为风控模型挑选出高质量的特征,为医保的大数据风控智能化助力。
以上结合具体实施例描述了本发明的技术原理。这些描述只是为了解释本发明的原理,而不能以任何方式解释为对本发明保护范围的限制。基于此处的解释,本领域的技术人员不需要付出创造性的劳动即可联想到本发明的其它具体实施方式,这些方式都将落入本发明的保护范围之内。

Claims (10)

1.一种特征有效性评估方法,其特征在于,所述方法包括:
利用树结构模型获取初始特征数据集中各特征数据的重要性,将所述重要性大于重要性阈值的特征数据作为有效特征数据得到第一有效特征数据集合;
将所述初始特征数据集输入深度学习神经网络模型得到第一结果,基于所述初始特征数据集获取初始特征数据第一子集以及所述初始特征数据第二子集,并将所述初始特征数据第一子集输入所述深度学习神经网络模型得到第二结果,在所述第一结果与所述第二结果的误差大于误差阈值的情况下,将所述初始特征数据第二子集作为有效特征数据得到第二有效特征数据集合,其中,所述初始特征数据集包括所述初始特征数据第一子集以及所述初始特征数据第二子集;
在业务维度上获取所述初始特征数据集,基于目标业务场景获取所述业务维度中与所述目标业务场景相关的目标业务维度上的特征数据作为有效特征数据得到第三有效特征数据集合,所述业务维度包括人员编号维度、医院维度、就诊号维度、科室维度、医师维度、参保单位维度及多维度特征中的一种或多种;
将所述第一有效特征数据集合、所述第二有效特征数据集合、所述第三有效特征数据集合的并集作为所述目标有效特征数据集合。
2.根据权利要求1所述的方法,其特征在于,所述树结构模型包括随机森林模型、复合树模型xgboost以及决策树模型lightgbm,所述利用树结构模型获取初始特征数据集中各特征数据的重要性,将所述重要性大于重要性阈值的特征数据作为有效特征数据得到第一有效特征数据集合,包括:
利用随机森林模型获取初始特征数据集中各特征数据的第一重要性,将所述第一重要性大于重要性阈值的特征数据作为有效特征数据得到第四有效特征数据集合;
利用复合树模型xgboost获取所述初始特征数据集中各特征数据的第二重要性,将所述第二重要性大于重要性阈值的特征数据作为有效特征数据得到第五有效特征数据集合;
利用决策树模型lightgbm获取所述初始特征数据集中各特征数据的第三重要性,将所述第三重要性大于重要性阈值的特征数据作为有效特征数据得到第六有效特征数据集合;
将所述第四有效特征数据集合、所述第五有效特征数据集合、所述第六有效特征数据集合的交集确定为所述第一有效特征数据集合,或者将所述第四有效特征数据集合、所述第五有效特征数据集合、所述第六有效特征数据集合的并集作为所述第一有效特征数据集合。
3.据权利要求1所述的方法,其特征在于,所述深度学习神经网络模型包括三个隐含层,所述将所述初始特征数据集输入深度学习神经网络模型得到第一结果,基于所述初始特征数据集获取初始特征数据第一子集以及所述初始特征数据第二子集,并将所述初始特征数据第一子集输入所述深度学习神经网络模型得到第二结果,在所述第一结果与所述第二结果的误差大于误差阈值的情况下,将所述初始特征数据第二子集作为有效特征数据得到第二有效特征数据集合,包括:
将所述初始特征数据集输入深度学习神经网络模型得到第一结果;
选取所述初始特征数据的四分之三作为所述初始特征数据第一子集,以及选取所述初始特征数据的四分之一作为所述初始特征数据第二子集;
将所述初始特征数据第一子集输入所述深度学习神经网络模型得到第二结果;
在所述第一结果与所述第二结果的误差大于误差阈值的情况下,重新在所述初始特征数据中选取少于上次选取比例的特征数据作为所述初始特征数据第一子集,以及在所述初始特征数据中选取大于或等于上次选取比例的特征数据作为所述初始特征数据第二子集;
将所述初始特征数据第一子集重新输入所述深度学习神经网络模型得到新的第一结果;
在所述第一结果与所述第二结果的误差大于误差阈值的情况下,重复执行在所述初始特征数据中选取少于上次选取比例的特征数据作为所述初始特征数据第一子集,以及在所述初始特征数据中选取大于或等于上次选取比例的特征数据作为所述初始特征数据第二子集,直至在所述第一结果与所述第二结果的误差小于或等于误差阈值的情况下,将前一次选取的所述初始特征数据第二子集作为有效特征数据得到第二有效特征数据集合。
4.据权利要求3所述的方法,其特征在于,所述将所述初始特征数据第一子集重新输入所述深度学习神经网络模型得到新的第一结果后,所述方法还包括:
在所述第一结果与所述第二结果的误差小于或等于误差阈值的情况下,将所述初始特征数据第二子集从所述初始特征数据子集中去除得到新的数据集合,以更新所述初始特征数据子集。
5.据权利要求1-4任一项所述的方法,其特征在于,所述将所述第一有效特征数据集合、所述第二有效特征数据集合、所述第三有效特征数据集合的并集作为所述目标有效特征数据集合,包括:
获取所述第一有效特征数据集合、所述第二有效特征数据集合、所述第三有效特征数据集合的交集;
对所述交集进行去重处理,得到所述目标有效特征数据集合。
6.据权利要求5所述的方法,其特征在于,所述目标业务场景包括低等级医院来回住院、低等级医院多病常客、成群结队开药、门慢资历监控,所述基于目标业务场景获取所述业务维度中与所述目标业务场景相关的目标业务维度上的特征数据作为有效特征数据得到第三有效特征数据集合,包括:
在所述目标业务场景包括所述低等级医院来回住院的情况下,基于所述医院维度中的年住院费用最大值、所述科室维度中的非三级医院住院机构数量、所述科室维度中的非三级医院、所述就诊号维度中的三级医院住院次数、所述医院维度中的住院费用小于全市参保人平均住院费用的次数上的特征数据作为有效特征数据得到第三有效特征数据集合;
在所述目标业务场景包括所述低等级医院多病常客的情况下,基于所述就诊号维度中的一级医院住院次数、所述人员编号维度的患者疾病数量、所述参保单位维度中的患者住院门诊比例、所述多维度特征的患者总住院费用、所述多维度特征中的患者住院次均项目数、所述多维度特征中的就诊一级医院数量、所述多维度特征中的辅助用药使用、所述多维度特征中的住院一级医院距离远上的特征数据作为有效特征数据得到第三有效特征数据集合;
在所述目标业务场景包括成群结队开药的情况下,基于所述多维度特征中是否有疑似成群结队开药的违规行为、所述医院维度中的近一年内成群结队开药的次数、所述医师维度中的平均每次违规的间隔时间、所述多维度特征中就诊医疗机构数据上的特征数据作为有效特征数据得到第三有效特征数据集合;
在所述目标业务场景包括门慢资质监控的情况下,基于所述多维度特征中的住院一级医院距离远、所述就诊号维度的必要用药费用、所述就诊号维度的必要用药取药次数、所述就诊号维度的取药时间间隔、所述就诊号维度的用药总费用、所述就诊号维度的总取药次数、所述多维度特征中的其他医疗类型下的药品费用上的特征数据作为有效特征数据得到第三有效特征数据集合。
7.据权利要求6所述的方法,其特征在于,所述对所述交集进行去重处理,得到所述目标有效特征数据集合后,所述方法还包括:
对所述目标有效特征集合进行衍生特征处理得到衍生有效特征数据集合,并将所述衍生有效特征数据集合并入所述目标有效特征数据集合,得到更新后的目标有效特征数据集合。
8.一种特征有效性评估装置,其特征在于,包括:
第一获取模块1,用于利用树结构模型获取初始特征数据集中各特征数据的重要性,将所述重要性大于重要性阈值的特征数据作为有效特征数据得到第一有效特征数据集合;
第二获取模块2,用于将所述初始特征数据集输入深度学习神经网络模型得到第一结果,基于所述初始特征数据集获取初始特征数据第一子集以及所述初始特征数据第二子集,并将所述初始特征数据第一子集输入所述深度学习神经网络模型得到第二结果,在所述第一结果与所述第二结果的误差大于误差阈值的情况下,将所述初始特征数据第二子集作为有效特征数据得到第二有效特征数据集合,其中,所述初始特征数据集包括所述初始特征数据第一子集以及所述初始特征数据第二子集;
第三获取模块3,用于在业务维度上获取所述初始特征数据集,基于目标业务场景获取所述业务维度中与所述目标业务场景相关的目标业务维度上的特征数据作为有效特征数据得到第三有效特征数据集合,所述业务维度包括人员编号维度、医院维度、就诊号维度、科室维度、医师维度、参保单位维度及多维度特征中的一种或多种;
处理模块4,用于将所述第一有效特征数据集合、所述第二有效特征数据集合、所述第三有效特征数据集合的并集作为所述目标有效特征数据集合。
9.一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7中任一项所述特征有效性评估方法。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述特征有效性评估方法。
CN202111187176.9A 2021-10-12 2021-10-12 特征有效性评估方法、装置、设备及存储介质 Pending CN113920384A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111187176.9A CN113920384A (zh) 2021-10-12 2021-10-12 特征有效性评估方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111187176.9A CN113920384A (zh) 2021-10-12 2021-10-12 特征有效性评估方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
CN113920384A true CN113920384A (zh) 2022-01-11

Family

ID=79239604

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111187176.9A Pending CN113920384A (zh) 2021-10-12 2021-10-12 特征有效性评估方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN113920384A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114783007A (zh) * 2022-06-22 2022-07-22 成都新希望金融信息有限公司 设备指纹识别方法、装置和电子设备

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114783007A (zh) * 2022-06-22 2022-07-22 成都新希望金融信息有限公司 设备指纹识别方法、装置和电子设备
CN114783007B (zh) * 2022-06-22 2022-09-27 成都新希望金融信息有限公司 设备指纹识别方法、装置和电子设备

Similar Documents

Publication Publication Date Title
US20200279334A1 (en) Machine learning risk factor identification and mitigation system
US9443002B1 (en) Dynamic data analysis and selection for determining outcomes associated with domain specific probabilistic data sets
CN109036545B (zh) 医疗信息处理方法、装置、计算机设备和存储介质
WO2023109199A1 (zh) 一种个体慢病演进风险可视化评估方法及***
US10430716B2 (en) Data driven featurization and modeling
CN110729054B (zh) 异常就诊行为检测方法、装置、计算机设备及存储介质
CN116757297A (zh) 用于选择机器学习样本的特征的方法及***
JP7482972B2 (ja) ゲノムテストステータスを特定するシステム及び方法
CN112017745A (zh) 决策信息推荐、药物信息推荐方法、装置、设备及介质
Smith et al. The Utah population database
CN110752027B (zh) 电子病历数据推送方法、装置、计算机设备和存储介质
CN111785383A (zh) 数据处理方法及相关设备
Begoli et al. Towards a heterogeneous, polystore-like data architecture for the US Department of Veteran Affairs (VA) enterprise analytics
CN113920384A (zh) 特征有效性评估方法、装置、设备及存储介质
CN109584086B (zh) 基于预测模型预测住院合理性的方法及相关产品
CN114328968A (zh) 医学知识图谱的构建方法、装置、电子设备和介质
AU2021204470A1 (en) Benefit surrender prediction
CN110727711B (zh) 基金数据库中异常数据检测方法、装置和计算机设备
CN116313086A (zh) 一种亚健康预测模型构建方法、装置、设备及存储介质
Zamora et al. Characterizing chronic disease and polymedication prescription patterns from electronic health records
CN115168752A (zh) 大数据查询方法、装置、电子设备及存储介质
CN111274231B (zh) 异常医保数据排查方法、装置、计算机设备和存储介质
CN109378056B (zh) 药物分配方法、装置、计算机设备和存储介质
CN113270178A (zh) 医疗费用监控方法、装置、设备及存储介质
CN111986815A (zh) 基于共现关系的项目组合挖掘方法及相关设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20220520

Address after: 518000 China Aviation Center 2901, No. 1018, Huafu Road, Huahang community, Huaqiang North Street, Futian District, Shenzhen, Guangdong Province

Applicant after: Shenzhen Ping An medical and Health Technology Service Co.,Ltd.

Address before: Room 12G, Area H, 666 Beijing East Road, Huangpu District, Shanghai 200001

Applicant before: PING AN MEDICAL AND HEALTHCARE MANAGEMENT Co.,Ltd.