CN113823411A

CN113823411A - 风险预测模型的训练方法、装置、介质和计算设备

Info

Publication number: CN113823411A
Application number: CN202111131580.4A
Authority: CN
Inventors: 陈航; 许迎喜; 赵丹; 吴红艳; 杨蕊; 覃霄燕; 魏丽; 何慧霞
Original assignee: Zhengzhou Third People's Hospital; Xuanwei Beijing Biotechnology Co ltd
Current assignee: Zhengzhou Third People's Hospital; Xuanwei Beijing Biotechnology Co ltd
Priority date: 2021-09-26
Filing date: 2021-09-26
Publication date: 2021-12-21

Abstract

本发明的实施方式提供了一种风险预测模型的训练方法、装置、介质和计算设备。该方法包括：获取训练样本集，所述训练样本集中包括多个训练样本，每一训练样本至少包括某一个体的个人信息和风险等级，所述个人信息至少包括西医类型信息和中医类型信息；基于所述训练样本集对包括多个预测子模型的风险预测模型进行训练，所述训练至少包括使各个预测子模型拟合所述训练样本集，从而各个预测子模型能够输出符合预设目标的预测子结果的第一阶段训练；以及汇总各个预测子模型输出的预测子结果得到最终预测结果的第二阶段训练。本发明能够使风险预测模型在训练过程中参考较多的影响因素，从而提升风险预测模型对全体人群的疾病预测准确性。

Description

风险预测模型的训练方法、装置、介质和计算设备

技术领域

本发明的实施方式涉及人工智能领域，更具体地，本发明的实施方式涉及一种风险预测模型的训练方法、装置、介质和计算设备。

背景技术

本部分旨在为权利要求书中陈述的本发明的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。

近年来，随着神经网络技术的快速发展，基于神经网络构建的风险预测模型可以用来对全体人群进行疾病风险评估，降低严重疾病带来的负担。然而，在实践中发现，现有的风险预测模型通常是基于已有的特定区域的病例信息构建的模型，风险预测模型构建过程中纳入参考的影响因素较少，因此，构建的风险预测模型对全体人群的疾病预测准确性较低。

发明内容

在本上下文中，本发明的实施方式期望提供一种风险预测模型的训练方法、装置、介质和计算设备。

在本发明实施方式的第一方面中，提供了一种风险预测模型的训练方法，包括：

获取训练样本集，所述训练样本集中包括多个训练样本，每一训练样本至少包括某一个体的个人信息和风险等级，所述个人信息至少包括西医类型信息和中医类型信息；

基于所述训练样本集对包括多个预测子模型的风险预测模型进行训练，所述训练至少包括使各个预测子模型拟合所述训练样本集，从而各个预测子模型能够输出符合预设目标的预测子结果的第一阶段训练；以及汇总各个预测子模型输出的预测子结果得到最终预测结果的第二阶段训练。

在本实施方式的一个实施例中，其中，所述训练样本的个体信息采集自预设年龄段的对象，所述预设年龄段至少包括中年或老年的部分年龄区间。

在本实施方式的一个实施例中，其中，所述西医类型信息至少包括某一个体的身体基础信息、饮食习惯、生活环境、“生活方式和习惯”、“心理和情绪”以及“既往史和恶性肿瘤家族史”中的一个；

所述中医类型信息至少包括某一个体的体质信息。

在本实施方式的一个实施例中，所述风险预测模型的预测子模型至少包括逻辑回归子模型、SVM子模型以及LightGBM子模型中的一个，使各个预测子模型拟合所述训练样本集，从而各个预测子模型能够输出符合预设目标的预测子结果的第一阶段训练，包括：

通过所述逻辑回归子模型拟合所述训练样本集，以所述逻辑回归子模型能够输出符合预设目标的预测子结果为目标实现第一阶段训练中对所述逻辑回归子模型的训练；

通过所述SVM子模型拟合所述训练样本集，以所述SVM子模型能够输出符合预设目标的预测子结果为目标实现第一阶段训练中对所述SVM子模型的训练；

通过所述LightGBM子模型拟合所述训练样本集，以所述LightGBM子模型能够输出符合预设目标的预测子结果为目标实现第一阶段训练中对所述LightGBM子模型的训练。

在本实施方式的一个实施例中，汇总各个预测子模型输出的预测子结果得到最终预测结果的第二阶段训练，包括：

利用所述风险预测模型中的多层感知机子模型汇总各个预测子模型输出的预测子结果，得到最终预测结果；

基于所述训练样本集以及所述最终预测结果对所述多层感知机子模型进行训练，以所述风险预测模型能够输出符合预设目标的最终预测结果为目标实现第二阶段训练。

在本实施方式的一个实施例中，利用所述风险预测模型中的多层感知机子模型汇总各个预测子模型输出的预测子结果，得到最终预测结果，包括：

获取所述逻辑回归子模型对应的第一权重、所述SVM子模型对应的第二权重以及所述LightGBM子模型对应的第三权重；

利用所述风险预测模型中的多层感知机子模型对各个预测子模型输出的预测子结果、所述第一权重、所述第二权重以及所述第三权重进行汇总计算，得到最终预测结果；其中，所述多层感知机子模型至少包含两个全连接层、Tanh激活函数以及Sigmoid激活函数。

在本实施方式的一个实施例中，所述各个预测子模型对应的权重可以基于多层感知机子模型自学习调整。

在本发明实施方式的第二方面中，提供了一种风险预测方法，采用训练完成的所述风险预测模型进行风险等级预测，所述训练完成的所述风险预测模型采用第一方面中任一项所述的方法训练得到。

在本发明实施方式的第三方面中，提供了一种风险预测模型的训练装置，包括：

获取单元，用于获取训练样本集，所述训练样本集中包括多个训练样本，每一训练样本至少包括某一个体的个人信息和风险等级，所述个人信息至少包括西医类型信息和中医类型信息；

训练单元，用于基于所述训练样本集对包括多个预测子模型的风险预测模型进行训练，所述训练至少包括使各个预测子模型拟合所述训练样本集，从而各个预测子模型能够输出符合预设目标的预测子结果的第一阶段训练；以及汇总各个预测子模型输出的预测子结果得到最终预测结果的第二阶段训练。

在本发明实施方式的第四方面中，提供了一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序在被处理器执行时能够实现第一方面中任一项所述的方法。

在本发明实施方式的第五方面中，提供了一种计算设备，所述计算设备包括：处理器；用于存储所述处理器可执行指令的存储器；所述处理器，用于执行第一方面中任一项所述的方法。

根据本发明实施方式的风险预测模型的训练方法、装置、介质和计算设备，能够获取多个训练样本，训练样本中可以包含多个体的个人信息和风险等级，个人信息还可以包括中医类型信息和西医类型信息，并且可以通过获取到的多样化的信息对包含多个预测子模型的风险预测模型进行训练，以使风险预测模型在训练过程中参考较多的影响因素，从而提升风险预测模型对全体人群的疾病预测准确性。

附图说明

通过参考附图阅读下文的详细描述，本发明示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中，以示例性而非限制性的方式示出了本发明的若干实施方式，其中：

图1为本发明一实施例提供的风险预测模型的训练方法的流程示意图；

图2为本发明另一实施例提供的风险预测模型的训练方法的流程示意图；

图3为本发明一实施例提供的风险预测模型的训练方法中风险预测模型的结构示意图；

图4为本发明一实施例提供的风险预测模型中多层感知机子模型的结构示意图；

图5为本发明一实施例提供的风险预测方法的流程示意图；

图6为本发明一实施例提供的风险预测模型的训练装置的结构示意图；

图7示意性地示出了本发明实施例的一种介质的结构示意图；

图8示意性地示出了本发明实施例的一种计算设备的结构示意图。

在附图中，相同或对应的标号表示相同或对应的部分。

具体实施方式

下面将参考若干示例性实施方式来描述本发明的原理和精神。应当理解，给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本发明，而并非以任何方式限制本发明的范围。相反，提供这些实施方式是为了使本公开更加透彻和完整，并且能够将本公开的范围完整地传达给本领域的技术人员。

本领域技术人员知道，本发明的实施方式可以实现为一种***、装置、设备、方法或计算机程序产品。因此，本公开可以具体实现为以下形式，即：完全的硬件、完全的软件(包括固件、驻留软件、微代码等)，或者硬件和软件结合的形式。

根据本发明的实施方式，提出了一种风险预测模型的训练方法、装置、介质和计算设备。

在本文中，需要理解的是，附图中的任何元素数量均用于示例而非限制，以及任何命名都仅用于区分，而不具有任何限制含义。

下面参考本发明的若干代表性实施方式，详细阐释本发明的原理和精神。

示例性方法

下面参考图1，图1为本发明一实施例提供的风险预测模型的训练方法的流程示意图。需要注意的是，本发明的实施方式可以应用于适用的任何场景。

图1所示的本发明一实施例提供的风险预测模型的训练方法的流程，包括：

步骤S101，获取训练样本集，所述训练样本集中包括多个训练样本，每一训练样本至少包括某一个体的个人信息和风险等级，所述个人信息至少包括西医类型信息和中医类型信息；

步骤S102，基于所述训练样本集对包括多个预测子模型的风险预测模型进行训练，所述训练至少包括使各个预测子模型拟合所述训练样本集，从而各个预测子模型能够输出符合预设目标的预测子结果的第一阶段训练；以及汇总各个预测子模型输出的预测子结果得到最终预测结果的第二阶段训练。

本申请中提出的风险预测模型的训练方法所针对的是基于以机器学习尤其是深度学习为代表的人工智能所训练的风险预测模型，包括但不限针对不同疾病进行风险预测的风险预测模型，例如可以用于对直肠癌的患病风险进行预测。

本发明中能够获取多个训练样本，训练样本中可以包含多个体的个人信息和风险等级，个人信息还可以包括中医类型信息和西医类型信息，并且可以通过获取到的多样化的信息对包含多个预测子模型的风险预测模型进行训练，以使风险预测模型在训练过程中参考较多的影响因素，从而提升风险预测模型对全体人群的疾病预测准确性。

下面结合附图说明如何提升风险预测模型对全体人群的疾病预测准确性：

本发明实施例中，训练样本集中可以包含海量的训练样本，每一个训练样本可以对应某一个个体的个人信息和风险等级，个人信息中至少可以包括西医类型信息和中医类型信息，个体的风险等级可以根据获取到的个体的个人信息进行分析确定，个人信息中包括的西医类型信息可以包括个体的身体基础信息、饮食习惯、生活方式、既往病史等，对此，本发明实施例不做限定。个人信息中包括的中医类型信息可以基于采集到的信息以及中医体质辨识评估表综合分析确定。

本发明实施例中，训练样本的获取可以基于制作的危险因素数学模型调查问卷得到，调查问卷中可以包括西医部分和中医部分，调查问卷可以向预设年龄段(例如40岁～74岁)的个体采集信息，预设年龄段可以根据疾病预测的需要确定为任意年龄段，对此，本发明实施例不做限定。进而可以从调查问卷中获取到个体的个人信息，其中，个体的个人信息中可以包括中医类型信息和西医类型信息，并且可以对获取到的中医类型信息和西医类型信息进行分析，得到个体对应的需要预测的疾病的风险等级。

此外，风险预测模型中可以包含多个预测子模型，风险预测模型的预测过程可以包括两个预测阶段，第一预测阶段可以通过风险预测模型中的多个预测子模型对输入的训练样本进行预测，得到多个预测子结果，第二预测接管可以将多个预测子结果进行汇总计算，得到最终的预测结果；可见，可以基于两个预测阶段对于风险预测模型进行两个阶段的训练，第一阶段训练可以为基于训练样本得到的预测子结果对风险预测模型中的多个预测子模型进行训练，以使各个预测子模型输出的预测子结果达到预设的准确率；第二阶段训练可以为基于得到的最终的预测结果对风险预测模型进行训练，以使风险预测模型输出的最终预测结果达到预设的准确率。

请参阅图2，图2为本发明另一实施例提供的风险预测模型的训练方法的流程示意图，图2所示的本发明另一实施例提供的风险预测模型的训练方法的流程包括：

步骤S201，获取训练样本集，所述训练样本集中包括多个训练样本，每一训练样本至少包括某一个体的个人信息和风险等级，所述个人信息至少包括西医类型信息和中医类型信息；

本发明实施例中，所述训练样本的个体信息采集自预设年龄段的对象，所述预设年龄段至少包括中年或老年的部分年龄区间，可以对采集的训练样本预设年龄区间，且采集到的训练样本至少包括中间或老年的部分年龄区间，以使采集到的训练样本可以对风险预测模型起到更好的预测效果。

本发明实施例中，所述西医类型信息至少包括某一个体的身体基础信息、饮食习惯、生活环境、“生活方式和习惯”、“心理和情绪”以及“既往史和恶性肿瘤家族史”中的一个；所述中医类型信息至少包括某一个体的体质信息，可以获取到个体的中医类型信息和西医类型信息包含的多种不同信息，以使获取到的个人信息更加全面。

更进一步，西医类型信息还可以包括：基础信息(例如性别、身高、体重、腰围、文化程度、婚姻状况、初次婚龄以及职业等)、饮食习惯(例如新鲜蔬菜摄入量、新鲜水果摄入量、畜肉摄入量、粗粮摄入量、油脂摄入量、口味、饮水情况、是否饮酒、戒酒年份、是否吸烟以及是否饮茶等)、生活环境、生活方式、生活习惯(例如体育锻炼等)、心理和情绪(例如精神创伤以及是否精神压抑等)、既往病史(例如既往是否有癌症病史、是否有肠道症状、粪便潜血试验结果、既往是否有血吸虫病史、胆结石病史、胆囊炎病史、肠息肉病史、慢性结直肠炎病史、慢性阑尾炎病史、盆腔放疗史、胆囊切除史、阑尾切除史、是否有高血脂症以及是否有糖尿病等)以及恶性肿瘤家族史(例如既往大肠癌病史、家族性大肠腺瘤病史、大肠腺瘤病史、遗传性非腺瘤病史以及直系家属肿瘤病史等)等。

以及，调查问卷中可以设置有中医体质辨识评估表，可以获取到被采集者填写的信息，并对获取到的填写的信息进行分析，确定出被采集者的体质类型，可以将体质类型确定为中医类型信息，其中，在中医中可以将居民的体质类型分为平和质、气虚质、气郁质、湿热质、痰湿质、特禀质、血瘀质、阳虚质以及阴虚质等九类，对填写的信息进行分析可以通过神经网络预先构建的模型进行分析，也可以通过中医医生根据经验对填写的信息进行分析，得到被采集者的体质类型，并将确定的体质类型作为中医类型信息上传至训练样本中。

此外，个体的风险等级可以根据个体的个人信息分析得到，风险等级可以为高风险等级和低风险等级，对个人信息进行分析得到风险等级的方式可以为通过神经网络构建的风险等级模型计算得到。

步骤S202，所述风险预测模型的预测子模型至少包括逻辑回归子模型、SVM子模型以及LightGBM子模型中的一个，通过所述逻辑回归子模型拟合所述训练样本集，以所述逻辑回归子模型能够输出符合预设目标的预测子结果为目标实现第一阶段训练中对所述逻辑回归子模型的训练；

步骤S203，通过所述SVM子模型拟合所述训练样本集，以所述SVM子模型能够输出符合预设目标的预测子结果为目标实现第一阶段训练中对所述SVM子模型的训练；

步骤S204，通过所述LightGBM子模型拟合所述训练样本集，以所述LightGBM子模型能够输出符合预设目标的预测子结果为目标实现第一阶段训练中对所述LightGBM子模型的训练。

实施上述的步骤S202～步骤S204，可以对风险预测模型中包含的三个不同的子模型分别进行训练，进而可以对三个子模型得到的不同预测结果进行计算，从而使得最终得到的预测结果更加准确。

本发明实施例中，风险预测模型至少可以包括逻辑回归子模型、SVM子模型以及LightGBM子模型中的一个，可以通过三个不同的子模型分别对训练数据集中的训练数据进行预测，以得到各个子模型分别对应的预测子结果，进而可以利用各个子模型分别的预测子结果对各自对应的子模型进行训练，以使各个子模型的预测结果都能够达到预设的准确率。

其中，LightGBM子模型使用的算法为LightGBM(Light Gradient BoostingMachine)，LightGBM采用损失函数的负梯度作为当前决策树的残差近似值，去拟合新的决策树，LightGBM相对于现有技术的优化点在于：采用直方图算法；树的生长策略优化；以及LightGBM提出了两个新方法，提高了LightGBM的效率，其中，LightGBM提出的两个新方法为：基于梯度的One-Side采样(Gradient-based One-Side Sampling，GOSS)和互斥的特征捆绑(Exclusive Feature Bundling，EFB)。可见，LightGBM子模型的训练速度更快、效率更高，还能够降低内存使用率，具有更好的准确性，能够处理大规模数据。

在本实施例中，LightGBM子模型的设置可以如下：最大叶子节点数为30，最大深度为15，学习率为0.03，最大饼数为60，每次迭代时选择80％的训练集。此外，SVM子模型中的惩罚系数为5，并采用高斯核函数。逻辑回归子模型中的正则强度为3。并且针对三个预测子模型的训练可以得到逻辑回归子模型的预测准确率为76.8％；SVM子模型的预测准确率为91.5％；LightGBM子模型的预测准确率为94.4％。

步骤S205，利用所述风险预测模型中的多层感知机子模型汇总各个预测子模型输出的预测子结果，得到最终预测结果；

步骤S206，基于所述训练样本集以及所述最终预测结果对所述多层感知机子模型进行训练，以所述风险预测模型能够输出符合预设目标的最终预测结果为目标实现第二阶段训练。

实施上述的步骤S202～步骤S204，可以通过风险预测模型中的多层感知机子模型将三个子模型先前得到的预测结果进行计算，从而得到最终预测结果，并且可以基于得到的最终预测结果对多层感知机子模型进行训练，从而提升多层感知机子模型运算的准确性。

作为一种可选的实施方式，步骤S205利用所述风险预测模型中的多层感知机子模型汇总各个预测子模型输出的预测子结果，得到最终预测结果的方式具体可以包含以下步骤：

其中，实施这种实施方式，多层感知机子模型可以基于包含的两个全连接层、Tanh激活函数以及Sigmoid激活函数，分别获取到三个用于预测的子模型对应的权重，并且基于获取到的权重和各个预测子模型的预测子结果计算得到最终预测结果，以使得到的最终预测结果更加准确。

可选的，所述各个预测子模型对应的权重可以基于多层感知机子模型自学习调整，可以通过多层感知机子模型对各个预测子模型的权重进行调整，从而提升了多层感知机子模型计算的准确性。

本发明实施例中，可以获取到逻辑回归子模型对应的第一权重、SVM子模型对应的第二权重以及LightGBM子模型对应的第三权重，进而基于获取到的第一权重、第二权重以及第三权重对逻辑回归子模型、SVM子模型以及LightGBM子模型输出的三个预测子结果采用可学***均法进行计算，得到最终预测结果，最终预测结果y_out的计算方式可以为：

y_out＝α₁y_LG+α₂y_svm+α₃y_L

其中，y_LG为逻辑回归子模型输出的第一预测子结果，y_svm为SVM子模型输出的第二预测子结果，y_L为LightGBM子模型输出的第三预测子结果，α₁为逻辑回归子模型对应的第一权重，α₂为SVM子模型对应的第二权重，α₃为LightGBM子模型对应的第三权重，以及α₁+α₂+α₃＝1，且α₁、α₂以及α₃均为可学习的权重。

以及，多层感知机(multilayer perceptron，MLP)子模型在训练过程中可以对第一权重α₁、第二权重α₂以及第三权重α₃进行拟合，之后可以基于得到的最终预测结果对多层感知机子模型进行训练，以使多层感知机子模型输出的最终预测结果的准确度达到最优。

请一并参阅图3和图4，图3为本发明一实施例提供的风险预测模型的训练方法中风险预测模型的结构示意图；图4为本发明一实施例提供的风险预测模型中多层感知机子模型的结构示意图；其中，图3表示风险预测模型中包含逻辑回归子模型、SVM子模型、LightGBM子模型以及多层感知机子模型，训练数据集可以输入至风险预测模型中，通过风险预测模型中的逻辑回归子模型、SVM子模型以及LightGBM子模型对训练数据集分别进行预测，得到各个预测子模型对应的不同预测子结果，并将得到的不同预测子结果均输入至多层感知机子模型中，以使多层感知机子模型对多个预测子结果进行汇总计算，以输出最终的预测结果。

以及，图4为多层感知机子模型的内部结构，可见，多层感知机子模型中包含第一全连接层、Tanh(hyperbolic tangent，双曲正切)激活函数、第二全连接层以及Sigmoid激活函数，输入多层感知机子模型的多个预测子结果经过第一全连接层、Tanh激活函数、第二全连接层以及Sigmoid激活函数的计算，可以输出最终的预测结果，其中，多层感知机子模型是含有至少一个隐藏层的由全连接层组成的神经网络，且每个隐藏层的输出结果可以通过激活函数进行变换。多层感知机的层数和各隐藏层中隐藏单元个数都是超参数，全连接层可以对输入的训练数据集中的训练数据做仿射变换，并且可以对隐藏变量使用按元素运算的激活函数进行变换，然后将得到的结果作为下一个全连接层的输入，激活函数可以为Tanh激活函数和Sigmoid激活函数，Sigmoid激活函数可以将元素的值变换到0和1之间，Tanh激活函数可以将元素的值变换到-1和1之间。第一全连接层的输入数据X可以为逻辑回归子模型、SVM子模型以及LightGBM子模型输出的三个预测子结果，第一全连接层可以对输入X进行计算，计算方式可以为：X₁＝W₁*X，W₁为可学习的参数；将X₁输入Tanh激活函数，可以通过Tanh激活函数对X₁进行计算，计算方式可以为：X₁＝Tanh(X₁)，并且可以将计算得到的X₁输入第二全连接层，第二全连接层可以对输入X₁进行计算的方式可以为：X₂＝W₂*X₁，W₂为可学习的参数；以及可以将X₂输入Sigmoid激活函数，可以通过Sigmoid激活函数对X₂进行计算，得到最终的预测结果Y，计算方式可以为Y＝Sigmoid(X₂)，即多层感知机子模型的基本形式可用下式表示：Y＝Sigmoid(W₂*Tanh(W₁*X))。

此外，请参阅图5，图5为本发明一实施例提供的风险预测方法的流程示意图，图5所示的本发明另一实施例提供的风险预测方法的流程包括：

步骤S501，获取待预测者的个人信息，所述个人信息至少包括西医类型信息和中医类型信息；

步骤S502，将所述个人信息输入至风险预测模型进行预测，得到所述待预测者的风险等级。

本发明实施例中，可以获取需要对疾病进行风险预测的待预测者的个人信息，个人信息中可以包括西医类型信息和中医类型信息，且西医类型信息和中医类型信息与风险预测模型在训练过程中获取到的训练数据中的西医类型信息和中医类型信息可以相同，之后可以将获取到的待预测者的个人信息输入至已训练完成的与待预测者需要预测的疾病对应的风险预测模型进行预测，以使风险预测模型可以输出待预测者需要预测的疾病对应的风险等级。

本发明能够使风险预测模型在训练过程中参考较多的影响因素，从而提升风险预测模型对全体人群的疾病预测准确性。此外，本发明还可以使采集到的训练样本可以对风险预测模型起到更好的预测效果。此外，本发明还可以使获取到的个人信息更加全面。此外，本发明还可以使得最终得到的预测结果更加准确。此外，本发明还可以提升多层感知机子模型运算的准确性。此外，本发明还可以使得到的最终预测结果更加准确。此外，本发明还可以提升多层感知机子模型计算的准确性。

示例性装置

在介绍了本发明示例性实施方式的方法之后，接下来，参考图6对本发明示例性实施方式的一种风险预测模型的训练装置进行说明，该装置包括：

获取单元601，用于获取训练样本集，所述训练样本集中包括多个训练样本，每一训练样本至少包括某一个体的个人信息和风险等级，所述个人信息至少包括西医类型信息和中医类型信息；

训练单元602，用于基于获取单元601获取的所述训练样本集对包括多个预测子模型的风险预测模型进行训练，所述训练至少包括使各个预测子模型拟合所述训练样本集，从而各个预测子模型能够输出符合预设目标的预测子结果的第一阶段训练；以及汇总各个预测子模型输出的预测子结果得到最终预测结果的第二阶段训练。

作为一种可选的实施方式，所述训练样本的个体信息采集自预设年龄段的对象，所述预设年龄段至少包括中年或老年的部分年龄区间。

其中，实施这种实施方式，可以对采集的训练样本预设年龄区间，且采集到的训练样本至少包括中间或老年的部分年龄区间，以使采集到的训练样本可以对风险预测模型起到更好的预测效果。

作为一种可选的实施方式，所述西医类型信息至少包括某一个体的身体基础信息、饮食习惯、生活环境、“生活方式和习惯”、“心理和情绪”以及“既往史和恶性肿瘤家族史”中的一个；所述中医类型信息至少包括某一个体的体质信息。

其中，实施这种实施方式，可以获取到个体的中医类型信息和西医类型信息包含的多种不同信息，以使获取到的个人信息更加全面。

作为一种可选的实施方式，所述风险预测模型的预测子模型至少包括逻辑回归子模型、SVM子模型以及LightGBM子模型中的一个，训练单元602使各个预测子模型拟合所述训练样本集，从而各个预测子模型能够输出符合预设目标的预测子结果的第一阶段训练的方式具体为：

其中，实施这种实施方式，可以对风险预测模型中包含的三个不同的子模型分别进行训练，进而可以对三个子模型得到的不同预测结果进行计算，从而使得最终得到的预测结果更加准确。

作为一种可选的实施方式，训练单元602汇总各个预测子模型输出的预测子结果得到最终预测结果的第二阶段训练，包括：

其中，实施这种实施方式，可以通过风险预测模型中的多层感知机子模型将三个子模型先前得到的预测结果进行计算，从而得到最终预测结果，并且可以基于得到的最终预测结果对多层感知机子模型进行训练，从而提升多层感知机子模型运算的准确性。

作为一种可选的实施方式，训练单元602利用所述风险预测模型中的多层感知机子模型汇总各个预测子模型输出的预测子结果，得到最终预测结果，包括：

作为一种可选的实施方式，所述各个预测子模型对应的权重可以基于多层感知机子模型自学习调整。其中，实施这种实施方式，可以通过多层感知机子模型对各个预测子模型的权重进行调整，从而提升了多层感知机子模型计算的准确性。

示例性介质

在介绍了本发明示例性实施方式的方法和装置之后，接下来，参考图7对本发明示例性实施方式的计算机可读存储介质进行说明，请参考图7，其示出的计算机可读存储介质为光盘70，其上存储有计算机程序(即程序产品)，所述计算机程序在被处理器运行时，会实现上述方法实施方式中所记载的各步骤，例如，获取训练样本集，所述训练样本集中包括多个训练样本，每一训练样本至少包括某一个体的个人信息和风险等级，所述个人信息至少包括西医类型信息和中医类型信息；基于所述训练样本集对包括多个预测子模型的风险预测模型进行训练，所述训练至少包括使各个预测子模型拟合所述训练样本集，从而各个预测子模型能够输出符合预设目标的预测子结果的第一阶段训练；以及汇总各个预测子模型输出的预测子结果得到最终预测结果的第二阶段训练；各步骤的具体实现方式在此不再重复说明。

需要说明的是，所述计算机可读存储介质的例子还可以包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他光学、磁性存储介质，在此不再一一赘述。

示例性计算设备

在介绍了本发明示例性实施方式的方法、介质和装置之后，接下来，参考图8对本发明示例性实施方式的用于风险预测模型的训练的计算设备。

图8示出了适于用来实现本发明实施方式的示例性计算设备80的框图，该计算设备80可以是计算机***或服务器。图8显示的计算设备80仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图8所示，计算设备80的组件可以包括但不限于：一个或者多个处理器或者处理单元801，***存储器802，连接不同***组件(包括***存储器802和处理单元801)的总线803。

计算设备80典型地包括多种计算机***可读介质。这些介质可以是任何能够被计算设备80访问的可用介质，包括易失性和非易失性介质，可移动的和不可移动的介质。

***存储器802可以包括易失性存储器形式的计算机***可读介质，例如随机存取存储器(RAM)8021和/或高速缓存存储器8022。计算设备80可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机***存储介质。仅作为举例，ROM8023可以用于读写不可移动的、非易失性磁介质(图8中未显示，通常称为“硬盘驱动器”)。尽管未在图8中示出，可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器，以及对可移动非易失性光盘(例如CD-ROM，DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下，每个驱动器可以通过一个或者多个数据介质接口与总线803相连。***存储器802中可以包括至少一个程序产品，该程序产品具有一组(例如至少一个)程序模块，这些程序模块被配置以执行本发明各实施例的功能。

具有一组(至少一个)程序模块8024的程序/实用工具8025，可以存储在例如***存储器802中，且这样的程序模块8024包括但不限于：操作***、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块8024通常执行本发明所描述的实施例中的功能和/或方法。

计算设备80也可以与一个或多个外部设备804(如键盘、指向设备、显示器等)通信。这种通信可以通过输入/输出(I/O)接口605进行。并且，计算设备80还可以通过网络适配器806与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图8所示，网络适配器806通过总线803与计算设备80的其它模块(如处理单元801等)通信。应当明白，尽管图8中未示出，可以结合计算设备80使用其它硬件和/或软件模块。

处理单元801通过运行存储在***存储器802中的程序，从而执行各种功能应用以及数据处理，例如，获取训练样本集，所述训练样本集中包括多个训练样本，每一训练样本至少包括某一个体的个人信息和风险等级，所述个人信息至少包括西医类型信息和中医类型信息；基于所述训练样本集对包括多个预测子模型的风险预测模型进行训练，所述训练至少包括使各个预测子模型拟合所述训练样本集，从而各个预测子模型能够输出符合预设目标的预测子结果的第一阶段训练；以及汇总各个预测子模型输出的预测子结果得到最终预测结果的第二阶段训练。各步骤的具体实现方式在此不再重复说明。应当注意，尽管在上文详细描述中提及了风险预测模型的训练装置的若干单元/模块或子单元/子模块，但是这种划分仅仅是示例性的并非强制性的。实际上，根据本发明的实施方式，上文描述的两个或更多单元/模块的特征和功能可以在一个单元/模块中具体化。反之，上文描述的一个单元/模块的特征和功能可以进一步划分为由多个单元/模块来具体化。

在本发明的描述中，需要说明的是，术语“第一”、“第二”、“第三”仅用于描述目的，而不能理解为指示或暗示相对重要性。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的***、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本发明所提供的几个实施例中，应该理解到，所揭露的***、装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上所述实施例，仅为本发明的具体实施方式，用以说明本发明的技术方案，而非对其限制，本发明的保护范围并不局限于此，尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应所述以权利要求的保护范围为准。

此外，尽管在附图中以特定顺序描述了本发明方法的操作，但是，这并非要求或者暗示必须按照该特定顺序来执行这些操作，或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地，可以省略某些步骤，将多个步骤合并为一个步骤执行，和/或将一个步骤分解为多个步骤执行。

通过上述的描述，本发明的实施例提供了以下的技术方案，但不限于此：

1.一种风险预测模型的训练方法，包括：

基于所述训练样本集对包括多个预测子模型的风险预测模型进行训练，所述训练至少包括使各个预测子模型拟合所述训练样本集，从而各个预测子模型能够输出符合预设目标的预测子结果的第一阶段训练；以及

汇总各个预测子模型输出的预测子结果得到最终预测结果的第二阶段训练。

2.如方案1所述的风险预测模型的训练方法，其中，所述训练样本的个体信息采集自预设年龄段的对象，所述预设年龄段至少包括中年或老年的部分年龄区间。

3.如方案1所述的风险预测模型的训练方法，其中，所述西医类型信息至少包括某一个体的身体基础信息、饮食习惯、生活环境、“生活方式和习惯”、“心理和情绪”以及“既往史和恶性肿瘤家族史”中的一个；

所述中医类型信息至少包括某一个体的体质信息。

4.如方案1～3任一项所述的风险预测模型的训练方法，所述风险预测模型的预测子模型至少包括逻辑回归子模型、SVM子模型以及LightGBM子模型中的一个；

使各个预测子模型拟合所述训练样本集，从而各个预测子模型能够输出符合预设目标的预测子结果的第一阶段训练，包括：

5.如方案4所述的风险预测模型的训练方法，汇总各个预测子模型输出的预测子结果得到最终预测结果的第二阶段训练，包括：

6.如方案5所述的风险预测模型的训练方法，利用所述风险预测模型中的多层感知机子模型汇总各个预测子模型输出的预测子结果，得到最终预测结果，包括：

7.如方案6所述的风险预测模型的训练方法，所述各个预测子模型对应的权重可以基于多层感知机子模型自学习调整。

8.一种风险预测方法，采用训练完成的所述风险预测模型进行风险等级预测，所述训练完成的所述风险预测模型采用如方案1-7中任一项所述的方法训练得到。

9.一种风险预测模型的训练装置，包括：

10.一种存储有程序的存储介质，其中，所述存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如方案1～8中的任一项所述的方法。

11.一种计算设备，包括如方案10所述的存储介质。

Claims

1.一种风险预测模型的训练方法，包括：

2.根据权利要求1所述的风险预测模型的训练方法，其中，所述训练样本的个体信息采集自预设年龄段的对象，所述预设年龄段至少包括中年或老年的部分年龄区间。

3.根据权利要求1所述的风险预测模型的训练方法，其中，所述西医类型信息至少包括某一个体的身体基础信息、饮食习惯、生活环境、“生活方式和习惯”、“心理和情绪”以及“既往史和恶性肿瘤家族史”中的一个；

所述中医类型信息至少包括某一个体的体质信息。

4.根据权利要求1～3任一项所述的风险预测模型的训练方法，所述风险预测模型的预测子模型至少包括逻辑回归子模型、SVM子模型以及LightGBM子模型中的一个；

5.根据权利要求4所述的风险预测模型的训练方法，汇总各个预测子模型输出的预测子结果得到最终预测结果的第二阶段训练，包括：

6.根据权利要求5所述的风险预测模型的训练方法，利用所述风险预测模型中的多层感知机子模型汇总各个预测子模型输出的预测子结果，得到最终预测结果，包括：

7.一种风险预测方法，采用训练完成的所述风险预测模型进行风险等级预测，所述训练完成的所述风险预测模型采用权利要求1-7中任一项所述的方法训练得到。

8.一种风险预测模型的训练装置，包括：

9.一种存储有程序的存储介质，其中，所述存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1～7中的任一项所述的方法。

10.一种计算设备，包括如权利要求9所述的存储介质。