CN107944479A

CN107944479A - 基于半监督学习的疾病预测模型建立方法及装置

Info

Publication number: CN107944479A
Application number: CN201711135644.1A
Authority: CN
Inventors: 王宏志; 宋扬
Original assignee: Harbin Institute of Technology
Current assignee: Harbin Institute of Technology
Priority date: 2017-11-16
Filing date: 2017-11-16
Publication date: 2018-04-20
Anticipated expiration: 2037-11-16
Also published as: CN107944479B

Abstract

本发明涉及一种基于半监督学习的疾病预测模型建立方法及装置，包括以下步骤：将有标签数据进行分类，得到有标签数据的基础分类模型；选取部分无标签数据；将选取的部分无标签数据通过聚类方法进行分类，并且利用所述基础分类模型对选取的部分无标签数据进行标记，根据所述无标签数据的聚类结果和预测结果得到无标签数据的标记结果，再与有标签数据合并起来进行分类，得到更新的基础分类模型，从剩下的无标签数据中继续选取部分无标签数据重新建模，如此迭代直至所有无标签数据处理完毕，得到最终分类模型。本发明对无标签数据进行建模，具体结合了有标签的分类方法和无标签的聚类方法，并通过迭代方式提升预测精度，更好地提升模型预测精度。

Description

基于半监督学习的疾病预测模型建立方法及装置

技术领域

本发明涉及数据处理领域，尤其涉及一种基于半监督学习的疾病预测模型建立方法及装置，以及基于半监督学习的疾病预测方法及装置。

背景技术

疾病预测是目前一个非常重要的课题，通过对医疗数据进行分析，得出预测模型，可以更好的对疾病数据进行利用，帮助医生和个人进行疾病判断。目前采用的数据建模方法主要为有监督学习方法，即根据已知的用例进行数据建模，并利用模型对未标记的数据进行标记。然而，有监督学习方法一般对有标签数据进行数据建模，但现在有效数据量非常有限，而海量的无标签数据数目庞大，造成许多的数据模型并未很好的拟合数据甚至过拟合数据。

发明内容

本发明要解决的技术问题在于，针对现有技术中的上述缺陷，提供一种基于半监督学习的疾病预测模型建立方法及装置，利用半监督学习方法对无标签数据进行建模，其结合了有标签的分类方法和无标签的聚类方法，根据数据分类结果进行调整，并通过迭代方式提升预测精度。

为了解决上述技术问题，本发明第一方面，提供了一种基于半监督学习的疾病预测模型建立方法，包括以下步骤：

S1、将有标签数据进行分类，得到有标签数据的基础分类模型；

S2、从无标签数据中选取部分无标签数据；

S3、将步骤S2选取的部分无标签数据通过聚类方法进行分类，得到无标签数据的聚类结果M₁，并且利用所述基础分类模型对步骤S2选取的部分无标签数据进行标记，得到预测结果T₁；根据所述无标签数据的聚类结果M₁和预测结果T₁得到无标签数据的标记结果C；

S4、将无标签数据的标记结果C和有标签数据合并起来进行分类，得到更新的基础分类模型，转步骤S2从剩下的无标签数据中继续选取部分无标签数据执行步骤S3和S4，如此迭代直至所有无标签数据处理完毕，得到最终分类模型。

优选地，所述步骤S2中，若q₂远大于q₁，其中q₁为有标签数据的数据总量，q₂为无标签数据的数据总量，则选取的所述部分无标签数据的数量为a×q₂，且15％≤a≤25％，否则选取的所述部分无标签数据的数量为b×q₁，且45％≤b≤55％。

优选地，所述步骤S2中，若q₂＞10q₁，则选取的所述部分无标签数据的数量为a×q₂，其中a＝20％；若q₁≤q₂≤10q₁，则选取的所述部分无标签数据的数量为b×q₁，且b＝50％。

优选地，所述步骤S3中利用以下线性公式计算无标签数据的标记结果C：

C＝αT₁+βM₁；

其中α,β为分类系数；α＝50％q₁/(q₁+q₂)，β＝q₁/(q₁+q₂)。

优选地，所述步骤S3中还包括：若C＞1.5q₁/(q₁+q₂)，则标记结果C为表示真的数值1，若C≤1.5q₁/(q₁+q₂)，则标记结果C为表示假的数值0。

优选地，所述步骤S1中通过以下任一种分类方法对有标签数据进行分类：神经网络、朴素贝叶斯或多元线性回归分析方法。

优选地，所述步骤S3中使用的聚类方法为K-means或层次聚类方法。

本发明第二方面，提供了一种基于半监督学习的疾病预测方法，采用如上所述的基于半监督学习的疾病预测模型建立方法建立的最终分类模型对疾病数据进行处理得出疾病预测结果。

本发明第三方面，提供了一种基于半监督学习的疾病预测模型建立装置，包括：

第一处理单元，用于将有标签数据进行分类，得到有标签数据的基础分类模型；

第二处理单元，用于从无标签数据中选取部分无标签数据；

第三处理单元，用于将第二处理单元选取的部分无标签数据通过聚类方法进行分类，得到无标签数据的聚类结果M₁，并且利用所述基础分类模型对第二处理单元选取的部分无标签数据进行标记，得到预测结果T₁；根据所述无标签数据的聚类结果M₁和预测结果T₁得到无标签数据的标记结果C；

第四处理单元，用于将无标签数据的标记结果C和有标签数据合并起来进行分类，得到更新的基础分类模型，再启动第二处理单元从剩下的无标签数据中继续选取部分无标签数据进行建模，如此迭代直至所有无标签数据处理完毕，得到最终分类模型。

本发明第三方面，提供了一种基于半监督学习的疾病预测装置，包括：如前所述的基于半监督学习的疾病预测模型建立装置，用于得到最终分类模型；以及与之连接的疾病预测单元，用于利用所述最终分类模型对疾病数据进行处理得出疾病预测结果。

实施本发明具有以下有益效果：本发明利用半监督学习方法对无标签数据进行建模，具体结合了有标签的分类方法和无标签的聚类方法，根据数据分类结果进行调整，并通过迭代方式提升预测精度，避免了由于有标签数据过少造成的过拟合或者未完全拟合的情况，从而更好地提升模型预测精度，该方法可有效的应对大规模的海量无标签数据，得到更好的预测效果。

附图说明

图1为根据本发明优选实施例的基于半监督学习的疾病预测模型建立方法流程图；

图2为根据本发明优选实施例的基于半监督学习的疾病预测模型建立过程示意图；

图3为根据本发的基于半监督学习的疾病预测模型建立装置的模块款图；

图4为普通方法与本发明方法的疾病预测效果的对比图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明的一部分实施例，而不是全部的实施例。本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明提出了一种基于半监督学习的疾病预测模型建立方法和疾病预测方法，可以将无标签数据利用起来，并通过迭代的方式提升预测模型的精度。请参阅图1，为根据本发明优选实施例的基于半监督学习的疾病预测模型建立方法流程图。请结合参阅图2，为根据本发明优选实施例的基于半监督学习的疾病预测模型建立过程示意图。如图1和2所示，该实施例提供的基于半监督学习的疾病预测模型建立方法包括以下步骤：

首先，在步骤S101中，将有标签数据进行分类，得到有标签数据的数据分类模型作为基础分类模型，其中，有标签数据的数据总量为q₁。设无标签数据的数据总量为q₂，则有标签数据和无标签数据的数据总量为q＝q₁+q₂。其中数据分类模型优选为基于疾病预测的基础数据分类模型。优选地，该有标签数据和无标签数据均为医疗数据，即某种疾病的医疗数据，包括但不限于心脏病、高血压、癌症和心脑血管病等慢性疾病。该步骤中通过以下任一种分类方法对有标签数据进行分类：神经网络、朴素贝叶斯或多元线性回归分析方法。

随后，在步骤S102中，从全部无标签数据中选取部分无标签数据用于后续建模处理，即每次选取一定数量的无标签数据进行后续建模处理。

在本发明的一个优选实施例中，若q₂远大于q₁，即q₂＞＞q₁，则每次选取的部分无标签数据的数量为a×q₂，且15％≤a≤25％，否则每次选取的部分无标签数据的数量为b×q₁，且45％≤b≤55％。

通常情况下，无标签数据的数据总量大于等于有标签数据的数据总量，即q₂≥q₁。因此在本发明的一个更优选实施例中，若q₂＞10q₁，则所述部分无标签数据的数量为a×q₂，其中a＝20％；若q₁≤q₂≤10q₁，所述部分无标签数据的数量为b×q₁，且b＝50％。也就是说，以10q₁作为远大于的判断标准，在无标签数据的数据总量远大于有标签数据的数据总量时，每次选取数量为20％q₂的无标签数据进行后续建模处理。在q₂≥q₁且在10倍之内时，则每次取50％q₁的无标签数据进行后续建模处理。上述每次选取无标签数据的比例为经过大量试验及经验总结后得出的最佳比例，能够得到更好的数据建模效果。

随后，在步骤S103中，将步骤S2选取的部分无标签数据通过聚类方法进行分类，得到无标签数据的聚类结果M₁。优选地，该步骤S103中使用的聚类方法为K-means或层次聚类方法。同时，利用基础分类模型对步骤S102选取的部分无标签数据进行标记，得到预测结果T₁；根据无标签数据的聚类结果M₁和预测结果T₁得到无标签数据的标记结果C。

优选地，该步骤S103中利用以下线性公式(1)计算无标签数据的标记结果C：

C＝αT₁+βM₁； (1)

其中α,β为分类系数；优选地，α＝50％q₁/(q₁+q₂)，β＝q₁/(q₁+q₂)。

本发明结合了有标签数据的分类方法和无标签数据的聚类方法，并根据数据分类结果进行微调，按照一定的比例来确定最终的分类结果，即得到上述标记结果C。

该步骤S103中还包括：若C＞1.5q₁/(q₁+q₂)，则标记结果C取值为表示真的数值1，若C≤1.5q₁/(q₁+q₂)，则标记结果C取值为表示假的数值0。上述聚类结果M₁、预测结果T₁和标记结果C都是0、1数值。

随后，在步骤S104中，将无标签数据的标记结果C和有标签数据合并起来进行分类，得到更新的基础分类模型。即将标记结果C合并到之前的训练数据集中一起进行模型训练，得到更新后的基础分类模型。

随后，在步骤S105中，判断全部的无标签数据是否处理完毕，是则转步骤S106，否则转步骤S102从剩下的无标签数据中继续选取部分无标签数据执行步骤S103和S104，即将重新选取的部分无标签数据通过聚类方法进行分类，得到新的无标签数据的聚类结果M₁，同时利用步骤S104更新后的基础分类模型对重新选取的部分无标签数据进行标记，得到新的预测结果T₁；再次使用线性公式(1)计算新的无标签数据的标记结果C。再将新的无标签数据的标记结果C与有标签数据(此时有标签数据不仅包括步骤S101中数据总量为q₁的原始的有标签数据，还包括上次迭代过程中标记过的无标签数据)合并起来进行分类，得到更新的基础分类模型。如此迭代直至所有无标签数据处理完毕，这样所有的无标签数据全部被标记，就得到了最终分类模型。优选地，步骤S102中每次选取的无标签数据的数量相等，直到最后剩下的无标签数据的数量小于每次需要选取的无标签数据的数量，则将剩下的无标签数据全部选中作为后续建模处理的数据。

随后，在步骤S106中，在经过上述迭代后，所有的无标签数据全部被标记，得到了最终分类模型。

本发明还相应提供了一种基于半监督学习的疾病预测方法，包括如上所述的基于半监督学习的疾病预测模型建立方法中的各个步骤，以及之后的疾病预测步骤。该疾病预测步骤中利用如上所述的基于半监督学习的疾病预测模型建立方法建立的最终分类模型对疾病数据进行处理得出疾病预测结果。

请参阅图3，为根据本发的基于半监督学习的疾病预测模型建立装置的模块款图。如图3所示，该基于半监督学习的疾病预测模型建立装置300包括：

第一处理单元301，用于将有标签数据进行分类，得到有标签数据的基础分类模型，其中，有标签数据的数据总量为q₁。设无标签数据的数据总量为q₂，则有标签数据和无标签数据的数据总量为q＝q₁+q₂。优选地，该有标签数据和无标签数据均为医疗数据，即某种疾病的医疗数据，包括但不限于心脏病、癌症、脑血管病等。该步骤中通过以下任一种分类方法对有标签数据进行分类：神经网络、朴素贝叶斯或多元线性回归分析方法。

第二处理单元302，用于从全部无标签数据中选取部分无标签数据用于后续建模处理，即每次选取一定数量的无标签数据进行后续建模处理。

通常情况下，无标签数据的数据总量大于等于有标签数据的数据总量，即q₂≥q₁。因此在本发明的一个更优选实施例中，若q₂＞10q₁，则所述部分无标签数据的数量为a×q₂，其中a＝20％；若q₁≤q₂≤10q₁，所述部分无标签数据的数量为b×q₁，且b＝50％。也就是说，以10q₁作为远大于的判断标准，在无标签数据的数据总量远大于有标签数据的数据总量时，每次选取数量为20％q₂的无标签数据进行后续建模处理。在q₂≥q₁且在10倍之内时，则每次取50％q₂的无标签数据进行后续建模处理。上述每次选取无标签数据的比例为经过大量试验及经验总结后得出的最佳比例，能够得到更好的数据建模效果。

第三处理单元303，用于将第二处理单元302选取的部分无标签数据通过聚类方法进行分类，得到无标签数据的聚类结果M₁。优选地，该步骤S103中使用的聚类方法为K-means或层次聚类方法。同时利用基础分类模型对第二处理单元302选取的部分无标签数据进行标记，得到预测结果T₁；根据所述无标签数据的聚类结果M₁和预测结果T₁得到无标签数据的标记结果C。

优选地，该第三处理单元303利用以下线性公式(1)计算无标签数据的标记结果C：

C＝αT₁+βM₁； (1)

该第三处理单元303还执行以下操作：若C＞1.5q₁/(q₁+q₂)，则标记结果C取值为表示真的数值1，若C≤1.5q₁/(q₁+q₂)，则标记结果C取值为表示假的数值0。上述聚类结果M₁、预测结果T₁和标记结果C都是0、1数值。

第四处理单元304，用于将无标签数据的标记结果C和有标签数据合并起来进行分类，得到更新的基础分类模型，并再次启动第二处理单元302从剩下的无标签数据中继续选取部分无标签数据进行建模，如此迭代直至所有无标签数据处理完毕，得到最终分类模型。

本发明还相应提供了一种基于半监督学习的疾病预测装置，包括：如前所述的基于半监督学习的疾病预测模型建立装置300以及与之连接的疾病预测单元。其中，基于半监督学习的疾病预测模型建立装置300用于得到最终分类模型，疾病预测单元则用于利用所述最终分类模型对疾病数据进行处理得出疾病预测结果。

通过实验对普通方法与本发明方法的疾病预测效果进行了比对。其中普通方法为利用神经网络对已有带标签数据进行建模，得到数据模型，而本发明方法是利用神经网络作为对有标签数据进行分类的基础数据模型，k-means作为聚类算法，2次迭代后得到的数据模型。实验数据来源为心脏病数据。本发明方法实验中采用的总样本量为689个，其中测试集为300个数据，其中100个有标签分类数据，200个无标签分类数据，验证集为389个数据。处理过程如下：

1、将100个有标签数据利用神经网络方法建模，形成分类模型；

2、利用该分类模型对200个无标签数据中的100个(50％)进行分类；

3、利用Kmean对同样的100个无标签数据进行聚类；

4、将分类和聚类结果按照公式计算后形成C；

5、将这100个有标签数据C加入训练集中继续训练，形成新的分类模型；

6、重复第2步计算另100个无标签数据后，得到该模型。

请参阅图4，为普通方法与本发明方法的疾病预测效果的对比图。其中包括正确率、错误率、精度、召回率和相关度的结果对比，其数值结果参见表格1。

	正确率	错误率	精度	召回率	相关度
						普通方法	0.945026178	0.054973822	0.846846847	0.959183673	0.82071
本发明	0.971204188	0.028795812	0.930693069	0.959183673	0.915200021

由此可见，本发明与普通方法相比，正确率更高，错误率更低，正确率可提升3％。

综上所述，本发明提出了一种改进的疾病预测模型，利用半监督学习方法对无标签数据进行建模，有效的利用了无标签数据，进一步优化了预测模型，帮助更好的提高了模型预测的精度，从而更好的应对目前大规模的海量无标签数据的应用场景，根据实验结果，精度可提升3％。根据实验结果，该方法可以有效的应用于疾病预测领域，通过微调参数，其也可以适用于其它数据模型。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基于半监督学习的疾病预测模型建立方法，其特征在于，包括以下步骤：

S2、从无标签数据中选取部分无标签数据；

2.根据权利要求1所述的基于半监督学习的疾病预测模型建立方法，其特征在于，所述步骤S2中，若q₂远大于q₁，其中q₁为有标签数据的数据总量，q₂为无标签数据的数据总量，则选取的所述部分无标签数据的数量为a×q₂，且15％≤a≤25％，否则选取的所述部分无标签数据的数量为b×q₁，且45％≤b≤55％。

3.根据权利要求1所述的基于半监督学习的疾病预测模型建立方法，其特征在于，所述步骤S2中，若q₂＞10q₁，其中q₁为有标签数据的数据总量，q₂为无标签数据的数据总量，则选取的所述部分无标签数据的数量为a×q₂，其中a＝20％；若q₁≤q₂≤10q₁，则选取的所述部分无标签数据的数量为b×q₁，且b＝50％。

4.根据权利要求1所述的基于半监督学习的疾病预测模型建立方法，其特征在于，所述步骤S3中利用以下线性公式计算无标签数据的标记结果C：

C＝αT₁+βM₁；

5.根据权利要求4所述的基于半监督学习的疾病预测模型建立方法，其特征在于，所述步骤S3中还包括：

若C＞1.5q₁/(q₁+q₂)，则标记结果C为表示真的数值1，若C≤1.5q₁/(q₁+q₂)，则标记结果C为表示假的数值0；其中，q₁为有标签数据的数据总量，q₂为无标签数据的数据总量q₂。

6.根据权利要求4所述的基于半监督学习的疾病预测模型建立方法，其特征在于，所述步骤S1中通过以下任一种分类方法对有标签数据进行分类：神经网络、朴素贝叶斯或多元线性回归分析方法。

7.根据权利要求4所述的基于半监督学习的疾病预测模型建立方法，其特征在于，所述步骤S3中使用的聚类方法为K-means或层次聚类方法。

8.一种基于半监督学习的疾病预测方法，其特征在于，采用根据权利要求1～7中任一项所述的基于半监督学习的疾病预测模型建立方法建立的最终分类模型对疾病数据进行处理得出疾病预测结果。

9.一种基于半监督学习的疾病预测模型建立装置，其特征在于，包括：

第二处理单元，用于从无标签数据中选取部分无标签数据；

10.一种基于半监督学习的疾病预测装置，其特征在于，包括：

根据权利要求9所述的基于半监督学习的疾病预测模型建立装置，用于得到最终分类模型；以及与之连接的

疾病预测单元，用于利用所述最终分类模型对疾病数据进行处理得出疾病预测结果。