CN111524600A

CN111524600A - 基于neighbor2vec的肝癌术后复发风险预测***

Info

Publication number: CN111524600A
Application number: CN202010332427.7A
Authority: CN
Inventors: 陈云亮; 曹元奎; 李婕; 樊俊青; 刘传礼; 杨红丽; 芮法娟; 张思敏; 李建新
Original assignee: China University of Geosciences
Current assignee: China University of Geosciences
Priority date: 2020-04-24
Filing date: 2020-04-24
Publication date: 2020-08-11

Abstract

本发明属于医学数据信息处理技术领域，公开了一种基于neighbor2vec的肝癌术后复发风险预测***，对原发性医学病例数据异常值以及不相关数据进行剔除，对剩余部分缺失值进行填充，并采用相关系数对病例数据集进行特征选择，得到提取后的病例数据特征；采用得到的特征数据以及原始病例数据中的原发性术后复发与否的数据组成样本数据，用原始数据集中每个病例的最近邻居构成的向量表示该病例，形成向量表数据集；按一定比例划分训练集和测试集及训练。本发明提出neighbor2vec的思想，通过利用多个近邻的向量集合来表示单一病例，可以作为预测肝癌术后复发的敏感而稳定的方法，估计肝癌的复发率有助于治疗的分配，最终达到安全的预后。

Description

基于neighbor2vec的肝癌术后复发风险预测***

技术领域

本发明属于医学数据信息处理技术领域，尤其涉及一种基于neighbor2vec的肝癌术后复发风险预测***。

背景技术

目前，肝癌被认为是继肺癌和胃癌之后的第三大癌症死亡原因，肝细胞癌是肝癌中最常见的恶性肿瘤之一。

目前的指南建议对孤立性肝癌患者首选手术切除。但肝癌术后复发率仍然很高，没有可靠的临床资料为术后患者提供更好的建议。肝癌患者的资料具有以下特点：1)资料非线性，缺失值多；2)特征维数过高；3)各种影响因素对肝癌术后复发预测的相关性较低。

通过上述分析，现有技术存在的问题及缺陷为：(1)传统的线性预测方法不能对非线性数据进行分析，因而对肝癌术后复发风险问题的评估准确度不高。

(2)现有技术大多依赖已有经验，但影响肝癌复发的因素过多，凭靠经验很难对其进行准确的判断。

(3)由于影响肝癌复发的因素过多，且各影响因素对肝癌术后复发预测的相关性较低，现有技术很难从中发现影响因素的组合规律。

(4)存在一些因为复杂的心理变化及病理切缘残留的肝癌复发病例，导致容易出现对单个病例的错误分析。

解决以上问题及缺陷的难度为：如何寻找一种可以处理非线性数据，并且可以从数据中寻找规律，建立关系，对数据的依赖较大，对经验的依赖较小的方法。同时如何避免一些因为复杂的心理变化及病理切缘残留的特殊的肝癌复发病例对正确预测的干扰。

解决以上问题及缺陷的意义为：本发明的方法可以根据患者体检的病理特征，快速准确地帮助医护人员判断肝癌的术后复发风险，有助于治疗的分布，最终达到安全的预后。

发明内容

为了解决现有技术存在的问题，本发明提供了一种基于neighbor2vec的肝癌术后复发风险预测***。

本发明是这样实现的，一种基于neighbor2vec的肝癌术后复发风险预测***，包括：

病例数据特征提取模块，对原发性医学病例数据异常值以及不相关数据进行剔除，对剩余部分缺失值进行填充，并采用Pearson相关系数对病例数据集进行特征选择，得到提取后的病例数据特征；

向量表数据集获取模块，采用得到的特征数据以及原始病例数据中的原发性术后复发与否的数据组成样本数据，利用neighbor2vec思想，用原始数据集中每个病例的最近邻居构成的向量表示该病例，形成向量表数据集；

数据训练模块，按一定比例划分训练集和测试集，并采用Naive Bayes预测方法对训练数据进行训练；

数据测试模块，利用测试数据对训练后的Naive Bayes预测方法进行测试。

本发明的另一目的在于提供一种基于neighbor2vec的肝癌术后复发风险预测方法包括以下步骤：

S1对原发性肝癌患者的医学病例数据异常值以及不相关数据进行剔除，对其它部分缺失值进行填充，并采用Pearson相关系数对病例数据集进行特征选择，得到提取后的病例数据特征；

S2采用上一步骤得到的特征数据以及原始病例数据中的原发性肝癌术后复发与否的数据组成样本数据，利用neighbor2vec的思想，用原始数据集中每个病例的前9个最近邻居构成的向量表示该病例，形成向量表数据集；

S3按一定比例划分训练集和测试集，并采用Naive Bayes预测方法对训练数据进行训练；

S4利用测试数据对训练后的Naive Bayes预测方法进行测试。

进一步，所述病人的原始病理特征个数有37个(包含年龄，手术方式，肿瘤个数，AFP，脂肪肝等)。

所述步骤S1的具体方法为，对缺失值使用该属性的平均值作为填充数据进行填充，以此来获得更多的实验数据，计算每一属性与原始病例数据中的肝癌术后复发与否情况数据的Pearson系数，并取相关性系数靠前的9个特征作为主要特征。

进一步，所述步骤S2的具体方法为，利用KNN方法，分别计算每一个病例样本与数据集中所有样本(除自身外)的欧式距离(Euclidean distance)，根据按距离排序所得到的该样本的邻近样本，选取前9个近邻，用这9个样本的标签值的向量集合来表示该样本。

进一步，随机将向量集合中的五分之四分为训练数据集，五分之一的分为测试数据集，通过使用该训练集和Navis Bayes最优参数组合，构建neighbor2vec-naive Bayes预测方法；

进一步，所述步骤S4的具体方法为，利用训练后的neighbor2vec-naive Bayes预测方法在测试数据上进行测试，并计算其准确率(ACC)、TPR、TNR、精确度(precision)和标准差(σ)作为其评价指标，基于所述评价指标函数得到对该预测方法的评价结果。

本发明的另一目的在于提供一种接收用户输入程序存储介质，所存储的计算机程序使电子设备执行所述基于neighbor2vec的肝癌术后复发风险预测方法，包括：

步骤1，对原发性医学病例数据异常值以及不相关数据进行剔除，对剩余部分缺失值进行填充，并采用Pearson相关系数对病例数据集进行特征选择，得到提取后的病例数据特征；

步骤2，采用得到的特征数据以及原始病例数据中的原发性术后复发与否的数据组成样本数据，利用neighbor2vec的思想，用原始数据集中每个病例的最近的九个邻居构成的向量表示该病例，形成向量表数据集；

步骤3，按一定比例划分训练集和测试集，并采用Naive Bayes预测方法对训练数据进行训练；

步骤4，利用测试数据对训练后的Naive Bayes预测方法进行测试。

本发明的另一目的在于提供一种存储在计算机可读介质上的计算机程序产品，包括计算机可读程序，供于电子装置上执行时，提供用户输入接口以实施所述基于neighbor2vec的肝癌术后复发风险预测方法。

本发明的另一目的在于提供一种执行所述基于neighbor2vec的肝癌术后复发风险预测方法的计算机。

结合上述的所有技术方案，本发明所具备的优点及积极效果为：本发明对原发性肝癌患者的医学病例数据异常值以及不相关数据进行剔除，对其它部分缺失值进行填充，并采用Pearson相关系数对病例数据集进行特征选择，得到提取后的病例数据特征，采用上一步骤得到的特征数据以及原始病例数据中的原发性肝癌术后复发与否的数据组成样本数据，利用neighbor2vec的思想，用原始数据集中每个病例的前9个最近邻居构成的向量表示该病例，形成向量表数据集，按一定比例划分训练集和测试集，并采用Naive Bayes预测方法对训练数据建立进行训练，利用测试数据对训练后的Naive Bayes预测方法进行测试。

通过上述方案，本发明提出的neighbor2vec-naive Bayes方法通过利用多个近邻的向量集合来表示单一病例，可以作为预测肝癌术后复发的敏感而稳定的方法，估计肝癌的复发率有助于治疗的分配，最终达到安全的预后。

结合实验或试验数据和现有技术对比得到的效果和优点：

结果表明，提出的neighbor2vec-naive Bayes方法在准确度、精确度、召回率和标准差方面的性能明显优于其它方法。因此，提出的neighbor2vec-naive-Bayes模型可以作为预测肝癌术后复发的敏感而稳定的方法。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例中所需要使用的附图做简单的介绍，显而易见地，下面所描述的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的基于neighbor2vec的肝癌术后复发风险预测方法流程图。

图2是本发明实施例提供的基于neighbor2vec的肝癌术后复发风险预测方法原理图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

传统的线性预测方法对肝癌术后复发率问题的评估准确度不高。

针对现有技术存在的问题，本发明提供了一种基于neighbor2vec的肝癌术后复发风险预测方法及***，下面结合附图对本发明作详细的描述。

本发明提供一种基于neighbor2vec的肝癌术后复发风险预测***，包括：

病例数据特征提取模块，对原发性医学病例数据异常值以及不相关数据进行剔除，对剩余部分缺失值进行填充，并采用Pearson相关系数对病例数据集进行特征选择，得到提取后的病例数据特征。

向量表数据集获取模块，采用得到的特征数据以及原始病例数据中的原发性术后复发与否的数据组成样本数据，利用neighbor2vec的思想，用原始数据集中每个病例的最近的九个邻居构成的向量表示该病例，形成向量表数据集。

数据训练模块，按一定比例划分训练集和测试集，并采用Naive Bayes预测方法对训练数据进行训练。

如图1所示，本发明实施例提供的基于neighbor2vec的肝癌术后复发风险预测方法，包括：

S101，对原发性肝癌患者的医学病例数据异常值以及不相关数据进行剔除，对其它部分缺失值进行填充，并采用Pearson相关系数对病例数据集进行特征选择，得到提取后的病例数据特征。

S102，采用上一步骤得到的特征数据以及原始病例数据中的原发性肝癌术后复发与否的数据组成样本数据，利用neighbor2vec的思想，用原始数据集中每个病例的前9个最近邻居构成的向量表示该病例，形成向量表数据集。

S103，按一定比例划分训练集和测试集，并采用Naive Bayes预测方法对训练数据进行训练。

S104，利用测试数据对训练后的Naive Bayes预测方法进行测试，最终得到一种可预测肝癌切除术后复发与否的方法。

下面结合具体实施例对本发明作进一步描述。

实施例

如图2，本发明实施例提供的一种基于neighbor2vec的肝癌术后复发风险预测方法，包括以下步骤：

S1对原发性肝癌患者的医学病例数据集中的部分缺失值进行填充，并采用Pearson相关系数对病例数据集进行特征选择，得到提取后的病例数据特征；

本实施例中填充缺失值的具体方法为，对缺失值使用该属性的平均值作为填充数据进行填充，以此来获得更多可用的实验数据。

Pearson相关系数是衡量线性关联性的程度，皮尔逊相关也称为积差相关(或积矩相关)，是英国统计学家皮尔逊于20世纪提出的一种计算直线相关的方法。它用来衡量定距变量间的线性关系。其计算公式为：

医学上，许多症状和检查数据与疾病的最终结果都有相互联系。本实施例通过计算Pearson系数来评估每个属性与肝癌切除术后复发与否之间的相关性。相关系数的绝对值越大则相关程度越大。选取相关系数排名靠前的9个属性作为训练方法所使用的属性。

表1各个属性与肝癌切除术后复发与否之间的Pearson系数

S2采用上一步骤得到的特征数据以及原始病例数据中的肝癌切除术后复发与否数据组成样本数据，利用neighbor2vec的思想，用原始数据集中每个病例的前9个最近邻居构成的向量表示该病例，形成向量表数据集；采用KNN方法获取9个最近邻居的具体过程为：

(1)对于数据集

D₁＝(x₁,y₁),(x₂,y₂),…,(x_n,y_n)

其中，x_i∈X为实例的特征向量，y_i∈Y为实例的类别，i＝1,2,…,n；x_i是每一个样本的m维实数向量空间，x_i＝(x_i ⁽¹⁾,x_i ⁽²⁾,…,x_i ⁽³⁾)^T对于每一个样本i，分别计算其与数据集D₁中所有样本的欧式距离(Euclidean distance)，距离公式如下所示。

(2)根据按距离排序所得到的该样本的邻近样本，选取前9个近邻，用这9个样本的标签值的向量集合来表示该样本。

对获得的向量集合按一定比例分成训练数据和测试数据，并利用Naive Bayes对训练数据建立预测方法；训练数据与测试数据的比例为8:2。

Naive Bayes的具体过程为：

(1)通过计算各类别下每个特征属性的条件概率估计，得到每个类别下每个特征属性P(a_j|y_i)的条件概率估计。

P(a₁|y₁),…,P(a_m|y₁)；P(a₁|y₂),…,P(a_k|y₂)

x＝{a₁,a₂,…,a_k}代表要分类的类别，每个a_i代表一个x的特征，标签类别集为C＝{y₁,y₂}。

(2)计算各类别下每个特征属性P(x|y_i)的条件概率估计；

(3)计算每个类别的P(y_i|x)；

(4)概率值最大的类别即为预测样本的预测类别(y)。

S4利用测试数据对训练后的Naive Bayes预测方法进行测试，最终得到一种可预测肝癌切除术后复发与否的方法，并与其他机器学习方法进行比较，以说明其准确性和有效性。

具体方法如下：利用训练后的方法在测试数据上进行测试，并计算其准确率(ACC)、TPR、TNR、精确度(precision)和标准差(σ)作为方法的评价指标，并以同样的方式训练并计算由其他方法得到的评价数据，包括KNN、C4.5、Logistic Regression、DNN等，将结果与Naive Bayes方法的预测结果进行比较，以说明Naive Bayes方法在预测肝癌切除术后复发与否的准确性和有效性。

表2分别是在原始数据集上采用KNN、Naive Bayes、C4.5、Logistic Regression、DNN方法分类的结果。表3分别是对通过neighbor2vec思想用每个病例样本的9个最近邻来表示该病例的向量表数据集采用KNN、Naive Bayes、C4.5、Logistic Regression、DNN方法分类的结果。

表2各方法在原始数据集上的评价指标值

表3各方法在向量表数据集上的评价指标值

从表格数据可以看出，logistic回归、KNN、决策树、朴素贝叶斯和DNN方法对原始数据集的准确度在57.5％到70.6％之间，准确度在40.7％到70.1％之间，召回率在20.0％到67.7％之间，标准差在0.027到0.058之间。当使用基于邻域向量的表时，这些方法的准确性、精确度和召回率都比原始数据集有了显著的提高。在准确度和精密度方面，平均提高了17.1％和21.2％。在召回率方面，基于neighbor2vec的方法有了显著的改进。召回率平均提高约62.9％。在标准差方面，所有方法都有不同程度的改进。基于neighbor2vec的NaiveBayes方法被认为是这类方法中最好的预测方法，该方法在准确率和查全率方面都优于其他方法，分别达到83.0％和82.9％。性能次优的方法是基于neighbor2vec的KNN，精度和准确率分别达到82.7％和87.0％。但其TPR仅为55.0％。综合来看，Naive Bayes方法在使用基于neighbor2vec的表上有着较好的准确性和有效性。实验结果还表明，基于neighbor2vec的方法比不使用neighbor2vec的方法能学习更多的规则和知识，能有效地提高预测性能。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到本发明可借助软件加必需的硬件平台的方式来实现，当然也可以全部通过硬件来实施。基于这样的理解，本发明的技术方案对背景技术做出贡献的全部或者部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。

以上所述仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，都应涵盖在本发明的保护范围之内。

Claims

1.一种基于neighbor2vec的肝癌术后复发风险预测***，其特征在于，所述基于neighbor2vec的肝癌术后复发风险预测***包括：

向量表数据集获取模块，采用得到的特征数据以及原始病例数据中的原发性术后复发与否的数据组成样本数据，利用neighbor2vec的思想，用原始数据集中每个病例的最近邻居构成的向量表示该病例，形成向量表数据集；

2.一种基于neighbor2vec的肝癌术后复发风险预测方法，其特征在于，所述基于neighbor2vec的肝癌术后复发风险预测方法包括：

步骤一，对原发性医学病例数据异常值以及不相关数据进行剔除，对剩余部分缺失值进行填充，并采用Pearson相关系数对病例数据集进行特征选择，得到提取后的病例数据特征；

步骤二，采用得到的特征数据以及原始病例数据中的原发性术后复发与否的数据组成样本数据，利用neighbor2vec的思想，用原始数据集中每个病例的最近邻居构成的向量表示该病例数据，形成向量表数据集；

步骤三，按一定比例划分训练集和测试集，并采用Naive Bayes预测方法对训练数据进行训练；

步骤四，利用测试数据对训练后的Naive Bayes预测方法进行测试。

3.如权利要求1所述的基于neighbor2vec的肝癌术后复发风险预测方法，其特征在于，所述步骤一中，所述原发性医学病例数据包含年龄，手术方式，肿瘤个数，AFP，脂肪肝数据信息；

得到提取后的病例数据特征的方法包括：对缺失值使用该属性的平均值作为填充数据进行填充，以此来获得更多的实验数据，计算每一属性与原始病例数据中的术后复发与否情况数据的Pearson系数，并获得取相关性系数靠前的9个特征数据。

4.如权利要求1所述的基于neighbor2vec的肝癌术后复发风险预测方法，其特征在于，所述步骤二中，利用KNN方法，分别计算每一个病例样本与数据集中所有样本的欧式距离，根据按距离排序所得到的该样本的邻近样本，选取前9个近邻，用这9个样本的标签值的向量集合来表示该样本。

5.如权利要求1所述的基于neighbor2vec的肝癌术后复发风险预测方法，其特征在于，所述KNN方法获取9个最近邻居的方法包括：

(1)对于数据集

D₁＝(x₁,y₁),(x₂,y₂),…,(x_n,y_n)

其中，x_i∈X为实例的特征向量，y_i∈Y为实例的类别，i＝1,2,…,n；x_i是每一个样本的m维实数向量空间，x_i＝(x_i ⁽¹⁾,x_i ⁽²⁾,…,x_i ⁽³⁾)^T对于每一个样本i，分别计算其与数据集D₁中所有样本的欧式距离，距离公式如下所示：

6.如权利要求1所述的基于neighbor2vec的肝癌术后复发风险预测方法，其特征在于，所述步骤三，对获得的向量集合按一定比例分成训练数据和测试数据，并利用Naive Bayes对训练数据建立预测方法；训练数据与测试数据的比例为8:2；

所述Naive Bayes包括：

1)通过计算各类别下每个特征属性的条件概率估计，得到每个类别下每个特征属性P(a_j|y_i)的条件概率估计；

P(a₁|y₁),…,P(a_m|y₁)；P(a₁|y₂),…,P(a_k|y₂)

x＝{a₁,a₂,…,a_k}代表要分类的类别，每个a_i代表一个x的特征，标签类别集为C＝{y₁,y₂}；

2)计算各类别下每个特征属性P(x|y_i)的条件概率估计；

3)计算每个类别的P(y_i|x)；

4)概率值最大的类别为预测样本的预测类别(y)；

7.如权利要求1所述的基于neighbor2vec的肝癌术后复发风险预测方法，其特征在于，所述步骤四中，利用训练后的预测方法在测试数据上进行测试，并计算准确率、TPR、TNR、精确度和标准差作为评价指标。

8.一种接收用户输入程序存储介质，所存储的计算机程序使电子设备执行权利要求2-7任意一项所述基于neighbor2vec的肝癌术后复发风险预测方法，包括：

9.一种存储在计算机可读介质上的计算机程序产品，包括计算机可读程序，供于电子装置上执行时，提供用户输入接口以实施如权利要求2-7任意一项所述基于neighbor2vec的肝癌术后复发风险预测方法。

10.一种执行权利要求2-7任意一项所述基于neighbor2vec的肝癌术后复发风险预测方法的计算机。