CN110993103A

CN110993103A - 疾病风险预测模型的建立方法和疾病保险产品的推荐方法

Info

Publication number: CN110993103A
Application number: CN201911193197.4A
Authority: CN
Inventors: 王培�; 郭子颢; 郭小川; 高惠庭; 李春萌
Original assignee: Sunshine Life Insurance Co ltd
Current assignee: Sunshine Life Insurance Co ltd
Priority date: 2019-11-28
Filing date: 2019-11-28
Publication date: 2020-04-10
Anticipated expiration: 2039-11-28
Also published as: CN110993103B

Abstract

本发明涉及疾病风险预测模型的建立方法和疾病保险产品的推荐方法该建立方法通过获取预设地区医保参保人员的历史诊疗数据，对历史诊疗数据进行分类抽样处理以得到样本数据集，每个样本数据均包括每个样本在预设时间范围内的历史疾病诊断编码信息，对样本数据集进行剔除无效数据的预处理，并根据疾病属性和病灶部位对预处理后的样本数据集中所有样本各自的历史疾病诊断编码信息进行聚类，得到疾病聚类特征标签，采用预设特征选择算法对疾病聚类特征标签进行筛选以得到重疾聚类特征标签，根据重疾聚类特征标签、性别、年龄和所述就诊行为信息，并结合极端梯度提升算法建立预设重疾对应的疾病风险预测模型，为疾病保险产品推荐的精准度奠定基础。

Description

疾病风险预测模型的建立方法和疾病保险产品的推荐方法

技术领域

本发明涉及保险领域，尤其涉及一种疾病风险预测模型的建立方法和疾病保险产品的推荐方法。

背景技术

随着社会的发展与需要，消费者对保险的认知水平也逐步提升。其中，消费者对保险的需求也向着更精细化方向发展，简单的根据年龄和性别两维度的产品定价方式较为机械。

目前，在保险行业中，用于判断客户健康风险的风险模型或者规则往往是基于保险行业的传统经验梳理而成，且无法排除为逆向投保而隐瞒健康状况的状况，因而基于上述传统模型为客户推荐的保险产品的往往存在精准度较低的缺点。

发明内容

鉴于此，提供一种疾病风险预测模型的建立方法和疾病保险产品的推荐方法，能够对预设地区医保参保人员的历史诊疗数据进行分类抽样处理，提取出预设重疾对应的重疾聚类特征标签，然后进一步根据重疾聚类特征标签、性别、年龄和所述就诊行为信息，并结合极端梯度提升算法建立预设重疾对应的疾病风险预测模型，能够精确的评价疾病保险投保人的风险，进而能够根据该疾病风险预测模型进一步提供一种疾病保险产品的推荐方法，极大地提升了保险产品的推广的精准度。

一种疾病风险预测模型的建立方法，建立方法包括：

获取预设地区医保参保人员的历史诊疗数据；

按照性别、预设年龄区间、以及预设对照比例对历史诊疗数据进行分类抽样处理以得到样本数据集，样本数据集包括预设重疾的阳性样本数据和阴性样本数据，预设对照比例为预设重疾的阳性样本数量和阴性样本数量之间的比值，每个样本数据均包括每个样本在预设时间范围内的历史疾病诊断编码信息和就诊行为信息；

对样本数据集进行剔除无效数据的预处理，并根据对应的疾病属性和病灶部位对预处理后的样本数据集中所有样本各自对应的历史疾病诊断编码信息进行聚类，得到对应的疾病聚类特征标签；

采用预设特征选择算法对疾病聚类特征标签进行筛选，以得到预设重疾对应的重疾聚类特征标签；

根据重疾聚类特征标签、性别、年龄和就诊行为信息，并结合极端梯度提升算法建立预设重疾对应的疾病风险预测模型。

在一个实施例中，按照性别、年龄、以及预设对照比例对历史诊疗数据进行分类抽样处理以得到样本数据集的步骤包括：

按照性别和预设年龄区间均相同的规则将历史诊疗数据分别进行分类，得到初始数据集；

按照预设对照比例，从初始数据集中分别筛选出预设重疾的第一预设数量的阳性样本数据以及第二预设数量的阴性样本数据，第一预设数量与第二预设数量的比值等于预设对照比例；

根据阳性样本数据和阴性样本数据得到对应的样本数据集。

在一个实施例中，建立方法还包括：

结合预设重疾本身所对应的相关前序疾病，对重疾聚类特征标签进行再次筛选；

根据再次筛选后的重疾聚类特征标签、性别、年龄和就诊行为信息，并结合极端梯度提升算法建立预设重疾对应的疾病风险预测模型。

在一个实施例中，预设对照比例设置为

此外，还提供一种疾病保险产品的推荐方法，采用上述疾病风险预测模型，推荐方法包括：

根据预设地区的疾病风险预测模型设计对应的调查问卷；

根据调查问卷获取疾病保险投保人的基础数据；

根据基础数据以及疾病风险预测模型为疾病保险投保人进行预测，得到对应的疾病风险预测结果；

根据疾病风险预测结果为疾病保险投保人推荐对应的疾病保险产品。

此外，还提供一种疾病保险产品的设计方法，采用上述疾病风险预测模型，设计方法包括：

根据疾病风险预测模型，对预设地区的医保参保人员分别进行疾病风险预测，得到对应的疾病风险预测概率；

根据疾病风险预测概率、性别和年龄生成对应的疾病保险产品费率表，根据疾病保险产品费率表设计对应的疾病保险产品。

在一个实施例中，根据疾病风险预测概率、性别和年龄生成对应的疾病保险产品费率表的步骤包括：

根据疾病风险预测概率将预设地区的医保参保人员划分为多个风险等级人群；

根据各个风险等级人群各自对应的疾病发生概率分布，并将各个风险等级人群按照性别和年龄进行区间划分，生成对应的疾病保险产品费率表。

此外，还提供一种疾病风险预测模型的建立装置，建立装置包括：

数据获取单元，用于获取预设地区医保参保人员的历史诊疗数据；

数据集生成单元，用于按照性别、预设年龄区间、以及预设对照比例对历史诊疗数据进行分类抽样处理以得到样本数据集，样本数据集包括预设重疾的阳性样本数据和阴性样本数据，预设对照比例为预设重疾的阳性样本数量和阴性样本数量之间的比值，每个样本数据均包括每个样本在预设时间范围内的历史疾病诊断编码信息和就诊行为信息；

聚类特征标签生成单元，用于对样本数据集进行剔除无效数据的预处理，并根据对应的疾病属性和病灶部位对预处理后的样本数据集中所有样本各自对应的历史疾病诊断编码信息进行聚类，得到对应的疾病聚类特征标签；

重疾聚类特征标签生成单元，用于采用预设特征选择算法对疾病聚类特征标签进行筛选，以得到预设重疾对应的重疾聚类特征标签；

预测模型生成单元，用于根据重疾聚类特征标签、性别、年龄和就诊行为信息，并结合极端梯度提升算法建立预设重疾对应的疾病风险预测模型。

此外，还提供一种设备终端，包括存储器以及处理器，存储器用于存储计算机程序，处理器运行计算机程序以使设备终端执行上述建立方法。

此外，还提供一种可读存储介质，可读存储介质存储有计算机程序，计算机程序在被处理器运行时执行上述建立方法。

上述疾病风险预测模型的建立方法，通过获取预设地区医保参保人员的历史诊疗数据，按照性别、预设年龄区间、以及预设对照比例对历史诊疗数据进行分类抽样处理以得到样本数据集，样本数据集包括预设重疾的阳性样本数据和阴性样本数据，预设对照比例为预设重疾的阳性样本数量和阴性样本数量之间的比值，每个样本数据均包括每个样本在预设时间范围内的历史疾病诊断编码信息和就诊行为信息，对样本数据集进行剔除无效数据的预处理，并根据对应的疾病属性和病灶部位对预处理后的样本数据集中所有样本各自对应的历史疾病诊断编码信息进行聚类，得到对应的疾病聚类特征标签，采用预设特征选择算法对疾病聚类特征标签进行筛选，以得到预设重疾对应的重疾聚类特征标签，根据重疾聚类特征标签、性别、年龄和就诊行为信息，并结合极端梯度提升算法建立预设重疾对应的疾病风险预测模型，能够准确的预测疾病保险投保人的疾病风险，进而为保险公司设计保险产品提供合适的依据，使得后续在进行疾病保险产品推荐时能够根据上述疾病风险预测模型建立起合适的疾病保险产品的推荐方法，并能从总体上提高疾病保险产品推广的精准度以及合适度。

附图说明

为了更清楚地说明本发明的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对本发明保护范围的限定。在各个附图中，类似的构成部分采用类似的编号。

图1为一个实施例中提供的一种疾病风险预测模型的建立方法的流程示意图；

图2为一个实施例中提供的一种疾病风险预测模型的接收器操作特性曲线图；

图3为一个实施例中提供的一种得到样本数据集的方法流程示意图；

图4为另一个实施例中提供的一种疾病风险预测模型的建立方法的流程示意图；

图5为一个实施例中提供的一种疾病保险产品的推荐方法的流程示意图；

图6为一个实施例中提供的一种疾病保险产品的设计方法的流程示意图；

图7为一个实施例中提供的一种生成疾病保险产品费率表的方法流程示意图；

图8为一个实施例中提供的一种疾病风险预测模型的建立装置的结构框图。

具体实施方式

下面将结合本发明实施例中附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。

通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

在下文中，将更全面地描述本公开的各种实施例。本公开可具有各种实施例，并且可在其中做出调整和改变。然而，应理解：不存在将本公开的各种实施例限于在此公开的特定实施例的意图，而是应将本公开理解为涵盖落入本公开的各种实施例的精神和范围内的所有调整、等同物和/或可选方案。

在下文中，可在本发明的各种实施例中使用的术语“包括”、“具有”及其同源词仅意在表示特定特征、数字、步骤、操作、元件、组件或前述项的组合，并且不应被理解为首先排除一个或更多个其它特征、数字、步骤、操作、元件、组件或前述项的组合的存在或增加一个或更多个特征、数字、步骤、操作、元件、组件或前述项的组合的可能性。

此外，术语“第一”、“第二”、“第三”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

除非另有限定，否则在这里使用的所有术语(包括技术术语和科学术语)具有与本发明的各种实施例所属领域普通技术人员通常理解的含义相同的含义。所述术语(诸如在一般使用的词典中限定的术语)将被解释为具有与在相关技术领域中的语境含义相同的含义并且将不被解释为具有理想化的含义或过于正式的含义，除非在本发明的各种实施例中被清楚地限定。

如图1所示，提供了一种疾病风险预测模型的建立方法，上述建立方法包括：

步骤S110，获取预设地区医保参保人员的历史诊疗数据。

其中，由于不同地区的环境、饮食***的差异，不同地区人群的健康状况存在较大的差异，因此，在处理上述数据时，需要获取特定某一地区人群的历史诊疗数据，通常以该预设地区医保参保人员的历史诊疗数据为准比较准确。

其中，该历史诊疗数据通常包括就诊人员的性别、年龄和就诊行为信息，其中，就诊行为信息通常包括就诊医院等级、就诊频次、住院次数、就诊时间和就诊累计花费信息。

其中，针对阳性患者，提取的阳性样本的年龄为首次确诊为某一重疾时的年龄，就诊医院等级、就诊频次、住院次数、就诊时间、就诊花费和对应的历史疾病诊断编码信息为首次确诊某一重疾的确认日之前的前推两年内的数据，例如患者2018年12月5日首次被确认为癌症，属于阳性样本，对应诊疗数据提取的范围为2016年12月5日至2018年12月4日之间的时间范围内的就诊相关数据。

其中，针对阴性样本(数据库中从未被诊断为重疾的就诊患者)，以当前数据库中包括的截止年份往前推两年为起点，以该起点再次前推两年内的诊疗数据为准，例如以目前时间点为例，目前应用的在库数据截止到2018年12月31日，提取的数据通常为2015年和2016年的诊疗数据。

其中，上述历史诊疗数据通常为剔除了患者的敏感信息的对应数据(例如身份证号以及住址等个人信息)。

步骤S120，按照性别、预设年龄区间、以及预设对照比例对历史诊疗数据进行分类抽样处理以得到样本数据集，样本数据集包括预设重疾的阳性样本数据和阴性样本数据，预设对照比例为预设重疾的阳性样本数量和阴性样本数量之间的比值，每个样本数据均包括每个样本在预设时间范围内的历史疾病诊断编码信息和就诊行为信息。

其中，针对上述历史诊疗数据，还需要进一步按照性别、预设年龄区间、以及预设对照比例对历史诊疗数据进行分类抽样处理，然后进一步得到样本数据集，每个样本数据集包括预设重疾的阳性样本数据和阴性样本数据，其中，预设重疾的阳性样本数据和阴性样本数据按照上述对照比例设置。

其中，每个样本数据除包括每个样本在预设时间范围内的历史疾病诊断编码信息之外，一般还应包括性别、年龄以及就诊行为信息，该就诊行为信息通常包括就诊医院等级、就诊频次、住院次数、就诊时间以及就诊累计花费等信息，上述历史疾病诊断编码信息通常采用国际疾病分类ICD10编码。

其中，ICD10编码是对医生对患者的诊断描述的归一化表示，即避免同一种疾病使用不同的文字描述。

其中，阳性样本数据与上述阳性患者样本提取的历史诊疗数据时间范围相对应，也是首次确诊某一重疾的确认日之前的前推两年内的数据，相应地，上述预设时间范围通常是指首次确诊某一重疾的确认日之起前推两年内。

其中，阴性样本数据与上述阴性样本样本提取的历史诊疗数据时间范围相对应，针对阴性样本样本(数据库中从未被诊断为重疾的就诊患者)，上述预设时间范围则以当前数据库中包括的截止年份往前推两年为起点，以该起点再次前推两年内。

其中，预设年龄区间划分时可按照5岁为间隔，例如0-4岁，5-9岁，….，80+岁。

步骤S130，对样本数据集进行剔除无效数据的预处理，并根据对应的疾病属性和病灶部位对预处理后的样本数据集中所有样本各自对应的历史疾病诊断编码信息进行聚类，得到对应的疾病聚类特征标签。

其中，上述样本数据集中可能存在某个样本数据的历史疾病诊断编码信息为空集，需要进行直接剔除的预处理，得到预处理后的样本数据集，然后进一步根据对应的疾病属性和病灶部位，将每个样本数据各自对应的历史疾病诊断编码信息进行聚类，得到对应的疾病聚类标签特征，从而降低上述样本数据的稀疏性。

步骤S140，采用预设特征选择算法对疾病聚类特征标签进行筛选，以得到预设重疾对应的重疾聚类特征标签。

其中，预设特征选择算法通常采用互信息算法、P值算法以及信息增加算法中的任意一种，通过上述预设特征选择算法能够对疾病聚类特征标签进行筛选，以得到预设重疾对应的重疾聚类特征标签。

步骤S150，根据重疾聚类特征标签、性别、年龄和就诊行为信息，并结合极端梯度提升算法建立预设重疾对应的疾病风险预测模型。

其中，在得到上述重疾聚类特征标签之后，进一步结合对应的预处理后的样本数据集每个样本的性别、年龄以及就诊行为信息作为待生成的模型特征因子参与模型建立，并结合极端梯度提升算法建立预设重疾对应的疾病风险预测模型。

在一个实施例中，首先针对将上述样本数据集随机抽取70％比例数据作为训练样本数据集，剩余的30％数据部分作为测试样本数据集，训练模型采用极端梯度提升算法，其中，在极端梯度提升算法中，目标函数选择二项逻辑回归函数，提升类型设置为梯度提升树，学习率取值范围为0.001～0.3，最大迭代次数取值范围为50～3000，选择网格搜索算法对上述极端梯度提升算法中设置的超参数进行循环遍历，并对上述训练样本数据集进行预训练，并采用K-折交叉验证对模型的训练效果进行效果评估，以训练筛选得到合适的模型参数，进一步根据上述筛选得到的合适的模型参数对上述测试样本数据集进行预测，得到该测试样本数据集对应的疾病风险预测结果，并与该测试样本数据集实际的重疾阳性样本数据进行对比，从而不断的进行修正，直至训练建立对应的疾病风险预测模型。

在一个实施例中，上述极端梯度提升算法中学习率设置为0.001、0.003、0.01、0.03、0.1以及0.3中的任意一种，最大迭代次数设置为50、100、300、500、1000以及3000中的任意一种。

在一个实施例中，采用上述疾病风险预测模型对上述样本数据集进行预测的接收器操作特性曲线如图2所示，其中，接收器操作特性曲线(Receiver OperatingCharacteristic，简称ROC曲线)中的纵坐标真阳率表示阳性样本预测结果个数/阳性样本实际个数，横坐标假阳率表示预测为阳性的阴性样本结果个数/阴性样本实际个数，图2中的ROC曲线对应的AUC(Area Under Curve，ROC曲线下的面积)等于0.86，显然，AUC大于0.5，即大于图2中虚直线下的面积，表明上述疾病风险预测模型效果良好。

上述疾病风险预测模型的建立方法，能够准确的预测疾病保险投保人的风险，进而为保险公司针对保险产品的设计提供合适的依据，且使得后续在进行疾病保险产品推荐时能够根据上述疾病风险预测模型建立起合适的疾病保险产品的推荐方法，总体上提高疾病保险产品推广的精准度以及合适度。

在一个实施例中，上述疾病风险预测模型对应的模型特征因子如下表1：

模型特征因子
	性别
年龄
	就诊次数
累计消费金额
	住院次数
累及皮肤和皮下组织的症状和体征
	静脉、*和*疾病、不可归类在它处者
再生障碍性及其他贫血
	其他血液和造血器官疾病
血液检查的异常所见
	凝血缺陷、紫癜和其他出血情况
***结构结蹄组织疾患
	涉及免疫机制的某些疾病

表1

在一个实施例中，如图3所示，步骤S120包括：

S122，按照性别和预设年龄区间均相同的规则将历史诊疗数据分别进行分类，得到初始数据集。

其中，按照性别首先将历史诊疗数据划分为两大部分，然后针对每一部分进一步按照预设年龄区间分别进行划分，可得到各自对应的初始数据集。

S124，按照预设对照比例，从初始数据集中分别筛选出预设重疾的第一预设数量的阳性样本数据以及第二预设数量的阴性样本数据，第一预设数量与第二预设数量的比值等于预设对照比例。

其中，在得到初始数据集之后，还可进一步从初始数据集中筛选出预设重疾的第一预设数量的阳性样本数据，以及从初始数据集中筛选出第二预设数量的阴性样本数据，上述第一预设数量与第二预设数量的比值等于预设对照比例。

在一个实施例中，针对预设重疾，还可先首先从历史诊疗数据中获取患有预设重疾的所有患者各自对应的阳性数据，然后从中选取第一预设数量的阳性样本数据，然后进一步按照性别、预设年龄区间和预设对照比例从上述历史诊疗数据中筛选提取第二预设数量的阴性样本数据。

其中，预设对照比例设置范围通常为

在一个实施例中，上述预设对照比例采用1:4的比例。

S126，根据阳性样本数据和阴性样本数据得到对应的样本数据集。

在一个实施例中，如图4所示，上述建立方法还包括：

步骤S160，结合预设重疾本身所对应的相关前序疾病，对重疾聚类特征标签进行再次筛选。

其中，每一种预设重疾本身在确诊前往往存在某种相关前序疾病对应的症状，因此可根据上述预设重疾本身所对应的相关前序疾病进一步对上述重疾聚类特征标签再次筛选。

步骤S170，根据再次筛选后的重疾聚类特征标签、性别、年龄和所述就诊行为信息，并结合极端梯度提升算法建立预设重疾对应的疾病风险预测模型。

其中，在得到上述再次筛选后的重疾聚类特征标签之后，进一步结合对应的预处理后的样本数据集每个样本的性别、年龄以及就诊行为信息作为待生成的模型特征因子参与模型训练，并结合极端梯度提升算法建立预设重疾对应的疾病风险预测模型。

此外，如图5所示，还提供一种疾病保险产品的推荐方法，上述推荐方法采用上述疾病风险预测模型，上述推荐方法包括：

步骤S210，获取疾病保险投保人的基础数据。

其中，针对预设地区，采用上述疾病风险预测模型，进而设计出针对性的调查问卷，有助于后续更准确的应用上述疾病风险预测模型做出预测。

例如，可通过上述表格1中的模型特征因子设计相关的调查问卷，进而有针对性的挖掘潜在投保人的信息。

当然，除了上述调查问卷之外，还可通过别的渠道获取疾病保险投保人的基础数据，例如通过访谈记录等。

在一个实施例中，通过填写根据上述表格1中的模型特征因子设计相关的调查问卷，进而有针对性的获取到疾病保险投保人与各项模型特征因子对应有关的基础数据。

其中，上述调查问卷包括但不限于互联网调查问卷、微信调查问卷、QQ调查问卷以及纸质调查问卷。

步骤S220，根据基础数据以及疾病风险预测模型为疾病保险投保人进行预测，得到对应的疾病风险预测结果。

其中，在获得上述基础数据之后，进一步将上述基础数据进行提取，输入到疾病风险预测模型为疾病保险投保人进行预测，得到对应的疾病风险预测结果。

步骤S230，根据疾病风险预测结果为疾病保险投保人推荐对应的疾病保险产品。

通过上述针对性的获取对应的获取疾病保险投保人的基础数据，根据基础数据以及疾病风险预测模型为疾病保险投保人进行预测，得到对应的疾病风险预测结果，最后根据疾病风险预测结果为疾病保险投保人推荐对应的疾病保险产品，极大的提升了保险产品的推荐和推广的准确度，进而能够提升保险公司的营销能力。

此外，如图6所示，还提供一种疾病保险产品的设计方法，上述设计方法采用上述疾病风险预测模型，上述设计方法包括：

步骤S310，根据疾病风险预测模型，对预设地区的医保参保人员分别进行疾病风险预测，得到对应的疾病风险预测概率。

由于不同地区的环境、饮食***差异性等原因，例如北方地区与南方地区，沿海地区与平原地区，各自地方人群在气候及饮食习惯上有明显差异，例如，沿海地区居民甲状腺癌高于非沿海地区，南方地区肠癌发病率高于北方等。根据区域差异化特性，划分为多个地区，应该对不同地区人群搭建不同的疾病风险预测模型。

在一个实施例中，预设地区为北京地区，可根据上述疾病风险预测模型对北京地区的医保参保人员进行淋巴瘤重疾的全部测试，分别得到各自对应的疾病风险预测概率。

步骤S320，根据疾病风险预测概率、性别和年龄生成对应的疾病保险产品费率表，根据疾病保险产品费率表设计对应的疾病保险产品。

其中，疾病风险预测概率和年龄均属于与疾病保险产品费率成正相关的重要因素，男女性别也有重要影响，应综合根据疾病风险预测概率、性别和年龄生成对应的疾病保险产品费率表，根据疾病保险产品费率表设计对应的疾病保险产品。

上述疾病保险产品的设计方法，能够根据不同地区采用不同的疾病风险预测模型，进而设计出与预设地区相适应的疾病保险产品，使得疾病保险产品能够吻合预设地区的实际情况，降低了疾病保险产品的风险，极大地提升了疾病保险产品的准确适应性，提高了保险公司的市场竞争力。

在一个实施例中，如图7所示，步骤S320包括：

步骤S322，根据疾病风险预测概率将预设地区的医保参保人员划分为多个风险等级人群。

其中，在得到上述疾病风险预测概率之后，可进一步将疾病风险预测概率划分为多个等级，进而将预设地区的医保参保人员划分为多个风险等级人群。

步骤S324，根据各个风险等级人群各自对应的疾病发生概率分布，并将各个风险等级人群按照性别和年龄进行区间划分，生成对应的疾病保险产品费率表。

其中，每个风险等级人群各自均对应有疾病发生概率分布，这里疾病发生概率分布是指各个风险等级人群中各自实际对应的患有预设重疾的概率分布。

因此，进一步根据各个风险等级人群各自对应的疾病发生概率分布，并将各个风险等级人群按照性别和年龄进行区间划分，可设计生成对应的疾病保险产品费率表。

此外，如图8所示，还提供一种疾病风险预测模型的建立装置，上述建立装置包括：

数据获取单元410，用于获取预设地区医保参保人员的历史诊疗数据。

数据集生成单元420，用于按照性别、预设年龄区间、以及预设对照比例对历史诊疗数据进行分类抽样处理以得到样本数据集，样本数据集包括预设重疾的阳性样本数据和阴性样本数据，预设对照比例为预设重疾的阳性样本数量和阴性样本数量之间的比值，每个样本数据均包括每个样本在预设时间范围内的历史疾病诊断编码信息和就诊行为信息。

第一特征标签生成单元430，用于对样本数据集进行剔除无效数据的预处理，并根据对应的疾病属性和病灶部位对预处理后的样本数据集中所有样本各自对应的历史疾病诊断编码信息进行聚类，得到对应的疾病聚类特征标签。

第二特征标签生成单元440，用于采用预设特征选择算法对疾病聚类特征标签进行筛选，以得到预设重疾对应的重疾聚类特征标签。

预测模型生成单元450，用于根据重疾聚类特征标签、性别、年龄和所述就诊行为信息，并结合极端梯度提升算法建立预设重疾对应的疾病风险预测模型。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，附图中的流程图和结构图显示了根据本发明的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在作为替换的实现方式中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，结构图和/或流程图中的每个方框、以及结构图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的***来实现，或者可以用专用硬件与计算机指令的组合来实现。

另外，在本发明各个实施例中的各功能模块或单元可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或更多个模块集成形成一个独立的部分。

所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是智能手机、个人计算机、服务器、或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。

Claims

1.一种疾病风险预测模型的建立方法，其特征在于，所述建立方法包括：

获取预设地区医保参保人员的历史诊疗数据；

按照性别、预设年龄区间、以及预设对照比例对所述历史诊疗数据进行分类抽样处理以得到样本数据集，所述样本数据集包括预设重疾的阳性样本数据和阴性样本数据，所述预设对照比例为所述预设重疾的阳性样本数量和阴性样本数量之间的比值，每个样本数据均包括每个样本在预设时间范围内的历史疾病诊断编码信息和就诊行为信息；

对所述样本数据集进行剔除无效数据的预处理，并根据对应的疾病属性和病灶部位对预处理后的样本数据集中所有样本各自对应的历史疾病诊断编码信息进行聚类，得到对应的疾病聚类特征标签；

采用预设特征选择算法对所述疾病聚类特征标签进行筛选，以得到所述预设重疾对应的重疾聚类特征标签；

根据所述重疾聚类特征标签、性别、年龄和所述就诊行为信息，并结合极端梯度提升算法建立所述预设重疾对应的疾病风险预测模型。

2.根据权利要求1所述的建立方法，其特征在于，所述按照性别、年龄、以及预设对照比例对所述历史诊疗数据进行分类抽样处理以得到样本数据集的步骤包括：

按照性别和预设年龄区间均相同的规则将所述历史诊疗数据分别进行分类，得到初始数据集；

按照预设对照比例，从所述初始数据集中分别筛选出预设重疾的第一预设数量的阳性样本数据以及第二预设数量的阴性样本数据，所述第一预设数量与所述第二预设数量的比值等于所述预设对照比例；

根据所述阳性样本数据和所述阴性样本数据得到对应的样本数据集。

3.根据权利要求1所述的建立方法，其特征在于，所述建立方法还包括：

结合所述预设重疾本身所对应的相关前序疾病，对所述重疾聚类特征标签进行再次筛选；

根据再次筛选后的重疾聚类特征标签、性别、年龄和所述就诊行为信息，并结合极端梯度提升算法建立所述预设重疾对应的疾病风险预测模型。

4.根据权利要求1所述的建立方法，其特征在于，所述预设对照比例设置为

5.一种疾病保险产品的推荐方法，其特征在于，采用权利要求1至4中任一项所述的疾病风险预测模型，所述推荐方法包括：

获取疾病保险投保人的基础数据；

根据所述基础数据以及所述疾病风险预测模型为所述疾病保险投保人进行预测，得到对应的疾病风险预测结果；

根据所述疾病风险预测结果为所述疾病保险投保人推荐对应的疾病保险产品。

6.一种疾病保险产品的设计方法，其特征在于，采用权利要求1至4中任一项所述的疾病风险预测模型，所述设计方法包括：

根据所述疾病风险预测模型，对所述预设地区的医保参保人员分别进行疾病风险预测，得到对应的疾病风险预测概率；

根据所述疾病风险预测概率、性别和年龄生成对应的疾病保险产品费率表，根据所述疾病保险产品费率表设计对应的疾病保险产品。

7.根据权利要求6所述的设计方法，其特征在于，所述根据所述疾病风险预测概率、性别和年龄生成对应的疾病保险产品费率表的步骤包括：

根据所述疾病风险预测概率将所述预设地区的医保参保人员划分为多个风险等级人群；

8.一种疾病风险预测模型的建立装置，其特征在于，所述建立装置包括：

数据集生成单元，用于按照性别、预设年龄区间、以及预设对照比例对所述历史诊疗数据进行分类抽样处理以得到样本数据集，所述样本数据集包括预设重疾的阳性样本数据和阴性样本数据，所述预设对照比例为所述预设重疾的阳性样本数量和阴性样本数量之间的比值，每个样本数据均包括每个样本在预设时间范围内的历史疾病诊断编码信息和就诊行为信息；

聚类特征标签生成单元，用于对所述样本数据集进行剔除无效数据的预处理，并根据对应的疾病属性和病灶部位对预处理后的样本数据集中所有样本各自对应的历史疾病诊断编码信息进行聚类，得到对应的疾病聚类特征标签；

重疾聚类特征标签生成单元，用于采用预设特征选择算法对所述疾病聚类特征标签进行筛选，以得到所述预设重疾对应的重疾聚类特征标签；

预测模型生成单元，用于根据所述重疾聚类特征标签、性别、年龄和所述就诊行为信息，并结合极端梯度提升算法建立所述预设重疾对应的疾病风险预测模型。

9.一种设备终端，其特征在于，包括存储器以及处理器，所述存储器用于存储计算机程序，所述处理器运行所述计算机程序以使所述设备终端执行权利要求1至4中任一项所述的建立方法。

10.一种可读存储介质，其特征在于，所述可读存储介质存储有计算机程序，所述计算机程序在被处理器运行时执行权利要求1至4中任一项所述的建立方法。