CN111524600A - 基于neighbor2vec的肝癌术后复发风险预测*** - Google Patents

基于neighbor2vec的肝癌术后复发风险预测*** Download PDF

Info

Publication number
CN111524600A
CN111524600A CN202010332427.7A CN202010332427A CN111524600A CN 111524600 A CN111524600 A CN 111524600A CN 202010332427 A CN202010332427 A CN 202010332427A CN 111524600 A CN111524600 A CN 111524600A
Authority
CN
China
Prior art keywords
data
case
liver cancer
recurrence
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010332427.7A
Other languages
English (en)
Inventor
陈云亮
曹元奎
李婕
樊俊青
刘传礼
杨红丽
芮法娟
张思敏
李建新
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China University of Geosciences
Original Assignee
China University of Geosciences
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China University of Geosciences filed Critical China University of Geosciences
Priority to CN202010332427.7A priority Critical patent/CN111524600A/zh
Publication of CN111524600A publication Critical patent/CN111524600A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/30ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/211Selection of the most significant subset of features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/29Graphical models, e.g. Bayesian networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Medical Informatics (AREA)
  • Health & Medical Sciences (AREA)
  • Public Health (AREA)
  • Biomedical Technology (AREA)
  • Pathology (AREA)
  • Databases & Information Systems (AREA)
  • Epidemiology (AREA)
  • General Health & Medical Sciences (AREA)
  • Primary Health Care (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Investigating Or Analysing Biological Materials (AREA)
  • Measuring And Recording Apparatus For Diagnosis (AREA)

Abstract

本发明属于医学数据信息处理技术领域,公开了一种基于neighbor2vec的肝癌术后复发风险预测***,对原发性医学病例数据异常值以及不相关数据进行剔除,对剩余部分缺失值进行填充,并采用相关系数对病例数据集进行特征选择,得到提取后的病例数据特征;采用得到的特征数据以及原始病例数据中的原发性术后复发与否的数据组成样本数据,用原始数据集中每个病例的最近邻居构成的向量表示该病例,形成向量表数据集;按一定比例划分训练集和测试集及训练。本发明提出neighbor2vec的思想,通过利用多个近邻的向量集合来表示单一病例,可以作为预测肝癌术后复发的敏感而稳定的方法,估计肝癌的复发率有助于治疗的分配,最终达到安全的预后。

Description

基于neighbor2vec的肝癌术后复发风险预测***
技术领域
本发明属于医学数据信息处理技术领域,尤其涉及一种基于neighbor2vec的肝癌术后复发风险预测***。
背景技术
目前,肝癌被认为是继肺癌和胃癌之后的第三大癌症死亡原因,肝细胞癌是肝癌中最常见的恶性肿瘤之一。
目前的指南建议对孤立性肝癌患者首选手术切除。但肝癌术后复发率仍然很高,没有可靠的临床资料为术后患者提供更好的建议。肝癌患者的资料具有以下特点:1)资料非线性,缺失值多;2)特征维数过高;3)各种影响因素对肝癌术后复发预测的相关性较低。
通过上述分析,现有技术存在的问题及缺陷为:(1)传统的线性预测方法不能对非线性数据进行分析,因而对肝癌术后复发风险问题的评估准确度不高。
(2)现有技术大多依赖已有经验,但影响肝癌复发的因素过多,凭靠经验很难对其进行准确的判断。
(3)由于影响肝癌复发的因素过多,且各影响因素对肝癌术后复发预测的相关性较低,现有技术很难从中发现影响因素的组合规律。
(4)存在一些因为复杂的心理变化及病理切缘残留的肝癌复发病例,导致容易出现对单个病例的错误分析。
解决以上问题及缺陷的难度为:如何寻找一种可以处理非线性数据,并且可以从数据中寻找规律,建立关系,对数据的依赖较大,对经验的依赖较小的方法。同时如何避免一些因为复杂的心理变化及病理切缘残留的特殊的肝癌复发病例对正确预测的干扰。
解决以上问题及缺陷的意义为:本发明的方法可以根据患者体检的病理特征,快速准确地帮助医护人员判断肝癌的术后复发风险,有助于治疗的分布,最终达到安全的预后。
发明内容
为了解决现有技术存在的问题,本发明提供了一种基于neighbor2vec的肝癌术后复发风险预测***。
本发明是这样实现的,一种基于neighbor2vec的肝癌术后复发风险预测***,包括:
病例数据特征提取模块,对原发性医学病例数据异常值以及不相关数据进行剔除,对剩余部分缺失值进行填充,并采用Pearson相关系数对病例数据集进行特征选择,得到提取后的病例数据特征;
向量表数据集获取模块,采用得到的特征数据以及原始病例数据中的原发性术后复发与否的数据组成样本数据,利用neighbor2vec思想,用原始数据集中每个病例的最近邻居构成的向量表示该病例,形成向量表数据集;
数据训练模块,按一定比例划分训练集和测试集,并采用Naive Bayes预测方法对训练数据进行训练;
数据测试模块,利用测试数据对训练后的Naive Bayes预测方法进行测试。
本发明的另一目的在于提供一种基于neighbor2vec的肝癌术后复发风险预测方法包括以下步骤:
S1对原发性肝癌患者的医学病例数据异常值以及不相关数据进行剔除,对其它部分缺失值进行填充,并采用Pearson相关系数对病例数据集进行特征选择,得到提取后的病例数据特征;
S2采用上一步骤得到的特征数据以及原始病例数据中的原发性肝癌术后复发与否的数据组成样本数据,利用neighbor2vec的思想,用原始数据集中每个病例的前9个最近邻居构成的向量表示该病例,形成向量表数据集;
S3按一定比例划分训练集和测试集,并采用Naive Bayes预测方法对训练数据进行训练;
S4利用测试数据对训练后的Naive Bayes预测方法进行测试。
进一步,所述病人的原始病理特征个数有37个(包含年龄,手术方式,肿瘤个数,AFP,脂肪肝等)。
所述步骤S1的具体方法为,对缺失值使用该属性的平均值作为填充数据进行填充,以此来获得更多的实验数据,计算每一属性与原始病例数据中的肝癌术后复发与否情况数据的Pearson系数,并取相关性系数靠前的9个特征作为主要特征。
进一步,所述步骤S2的具体方法为,利用KNN方法,分别计算每一个病例样本与数据集中所有样本(除自身外)的欧式距离(Euclidean distance),根据按距离排序所得到的该样本的邻近样本,选取前9个近邻,用这9个样本的标签值的向量集合来表示该样本。
进一步,随机将向量集合中的五分之四分为训练数据集,五分之一的分为测试数据集,通过使用该训练集和Navis Bayes最优参数组合,构建neighbor2vec-naive Bayes预测方法;
进一步,所述步骤S4的具体方法为,利用训练后的neighbor2vec-naive Bayes预测方法在测试数据上进行测试,并计算其准确率(ACC)、TPR、TNR、精确度(precision)和标准差(σ)作为其评价指标,基于所述评价指标函数得到对该预测方法的评价结果。
本发明的另一目的在于提供一种接收用户输入程序存储介质,所存储的计算机程序使电子设备执行所述基于neighbor2vec的肝癌术后复发风险预测方法,包括:
步骤1,对原发性医学病例数据异常值以及不相关数据进行剔除,对剩余部分缺失值进行填充,并采用Pearson相关系数对病例数据集进行特征选择,得到提取后的病例数据特征;
步骤2,采用得到的特征数据以及原始病例数据中的原发性术后复发与否的数据组成样本数据,利用neighbor2vec的思想,用原始数据集中每个病例的最近的九个邻居构成的向量表示该病例,形成向量表数据集;
步骤3,按一定比例划分训练集和测试集,并采用Naive Bayes预测方法对训练数据进行训练;
步骤4,利用测试数据对训练后的Naive Bayes预测方法进行测试。
本发明的另一目的在于提供一种存储在计算机可读介质上的计算机程序产品,包括计算机可读程序,供于电子装置上执行时,提供用户输入接口以实施所述基于neighbor2vec的肝癌术后复发风险预测方法。
本发明的另一目的在于提供一种执行所述基于neighbor2vec的肝癌术后复发风险预测方法的计算机。
结合上述的所有技术方案,本发明所具备的优点及积极效果为:本发明对原发性肝癌患者的医学病例数据异常值以及不相关数据进行剔除,对其它部分缺失值进行填充,并采用Pearson相关系数对病例数据集进行特征选择,得到提取后的病例数据特征,采用上一步骤得到的特征数据以及原始病例数据中的原发性肝癌术后复发与否的数据组成样本数据,利用neighbor2vec的思想,用原始数据集中每个病例的前9个最近邻居构成的向量表示该病例,形成向量表数据集,按一定比例划分训练集和测试集,并采用Naive Bayes预测方法对训练数据建立进行训练,利用测试数据对训练后的Naive Bayes预测方法进行测试。
通过上述方案,本发明提出的neighbor2vec-naive Bayes方法通过利用多个近邻的向量集合来表示单一病例,可以作为预测肝癌术后复发的敏感而稳定的方法,估计肝癌的复发率有助于治疗的分配,最终达到安全的预后。
结合实验或试验数据和现有技术对比得到的效果和优点:
结果表明,提出的neighbor2vec-naive Bayes方法在准确度、精确度、召回率和标准差方面的性能明显优于其它方法。因此,提出的neighbor2vec-naive-Bayes模型可以作为预测肝癌术后复发的敏感而稳定的方法。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图做简单的介绍,显而易见地,下面所描述的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的基于neighbor2vec的肝癌术后复发风险预测方法流程图。
图2是本发明实施例提供的基于neighbor2vec的肝癌术后复发风险预测方法原理图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
传统的线性预测方法对肝癌术后复发率问题的评估准确度不高。
针对现有技术存在的问题,本发明提供了一种基于neighbor2vec的肝癌术后复发风险预测方法及***,下面结合附图对本发明作详细的描述。
本发明提供一种基于neighbor2vec的肝癌术后复发风险预测***,包括:
病例数据特征提取模块,对原发性医学病例数据异常值以及不相关数据进行剔除,对剩余部分缺失值进行填充,并采用Pearson相关系数对病例数据集进行特征选择,得到提取后的病例数据特征。
向量表数据集获取模块,采用得到的特征数据以及原始病例数据中的原发性术后复发与否的数据组成样本数据,利用neighbor2vec的思想,用原始数据集中每个病例的最近的九个邻居构成的向量表示该病例,形成向量表数据集。
数据训练模块,按一定比例划分训练集和测试集,并采用Naive Bayes预测方法对训练数据进行训练。
数据测试模块,利用测试数据对训练后的Naive Bayes预测方法进行测试。
如图1所示,本发明实施例提供的基于neighbor2vec的肝癌术后复发风险预测方法,包括:
S101,对原发性肝癌患者的医学病例数据异常值以及不相关数据进行剔除,对其它部分缺失值进行填充,并采用Pearson相关系数对病例数据集进行特征选择,得到提取后的病例数据特征。
S102,采用上一步骤得到的特征数据以及原始病例数据中的原发性肝癌术后复发与否的数据组成样本数据,利用neighbor2vec的思想,用原始数据集中每个病例的前9个最近邻居构成的向量表示该病例,形成向量表数据集。
S103,按一定比例划分训练集和测试集,并采用Naive Bayes预测方法对训练数据进行训练。
S104,利用测试数据对训练后的Naive Bayes预测方法进行测试,最终得到一种可预测肝癌切除术后复发与否的方法。
下面结合具体实施例对本发明作进一步描述。
实施例
如图2,本发明实施例提供的一种基于neighbor2vec的肝癌术后复发风险预测方法,包括以下步骤:
S1对原发性肝癌患者的医学病例数据集中的部分缺失值进行填充,并采用Pearson相关系数对病例数据集进行特征选择,得到提取后的病例数据特征;
本实施例中填充缺失值的具体方法为,对缺失值使用该属性的平均值作为填充数据进行填充,以此来获得更多可用的实验数据。
Pearson相关系数是衡量线性关联性的程度,皮尔逊相关也称为积差相关(或积矩相关),是英国统计学家皮尔逊于20世纪提出的一种计算直线相关的方法。它用来衡量定距变量间的线性关系。其计算公式为:
Figure BDA0002465440730000061
医学上,许多症状和检查数据与疾病的最终结果都有相互联系。本实施例通过计算Pearson系数来评估每个属性与肝癌切除术后复发与否之间的相关性。相关系数的绝对值越大则相关程度越大。选取相关系数排名靠前的9个属性作为训练方法所使用的属性。
表1各个属性与肝癌切除术后复发与否之间的Pearson系数
Figure BDA0002465440730000071
Figure BDA0002465440730000081
S2采用上一步骤得到的特征数据以及原始病例数据中的肝癌切除术后复发与否数据组成样本数据,利用neighbor2vec的思想,用原始数据集中每个病例的前9个最近邻居构成的向量表示该病例,形成向量表数据集;采用KNN方法获取9个最近邻居的具体过程为:
(1)对于数据集
D1=(x1,y1),(x2,y2),…,(xn,yn)
其中,xi∈X为实例的特征向量,yi∈Y为实例的类别,i=1,2,…,n;xi是每一个样本的m维实数向量空间,xi=(xi (1),xi (2),…,xi (3))T对于每一个样本i,分别计算其与数据集D1中所有样本的欧式距离(Euclidean distance),距离公式如下所示。
Figure BDA0002465440730000082
(2)根据按距离排序所得到的该样本的邻近样本,选取前9个近邻,用这9个样本的标签值的向量集合来表示该样本。
对获得的向量集合按一定比例分成训练数据和测试数据,并利用Naive Bayes对训练数据建立预测方法;训练数据与测试数据的比例为8:2。
Naive Bayes的具体过程为:
(1)通过计算各类别下每个特征属性的条件概率估计,得到每个类别下每个特征属性P(aj|yi)的条件概率估计。
Figure BDA0002465440730000091
P(a1|y1),…,P(am|y1);P(a1|y2),…,P(ak|y2)
x={a1,a2,…,ak}代表要分类的类别,每个ai代表一个x的特征,标签类别集为C={y1,y2}。
(2)计算各类别下每个特征属性P(x|yi)的条件概率估计;
Figure BDA0002465440730000092
(3)计算每个类别的P(yi|x);
Figure BDA0002465440730000093
(4)概率值最大的类别即为预测样本的预测类别(y)。
Figure BDA0002465440730000094
S4利用测试数据对训练后的Naive Bayes预测方法进行测试,最终得到一种可预测肝癌切除术后复发与否的方法,并与其他机器学习方法进行比较,以说明其准确性和有效性。
具体方法如下:利用训练后的方法在测试数据上进行测试,并计算其准确率(ACC)、TPR、TNR、精确度(precision)和标准差(σ)作为方法的评价指标,并以同样的方式训练并计算由其他方法得到的评价数据,包括KNN、C4.5、Logistic Regression、DNN等,将结果与Naive Bayes方法的预测结果进行比较,以说明Naive Bayes方法在预测肝癌切除术后复发与否的准确性和有效性。
表2分别是在原始数据集上采用KNN、Naive Bayes、C4.5、Logistic Regression、DNN方法分类的结果。表3分别是对通过neighbor2vec思想用每个病例样本的9个最近邻来表示该病例的向量表数据集采用KNN、Naive Bayes、C4.5、Logistic Regression、DNN方法分类的结果。
表2各方法在原始数据集上的评价指标值
Figure BDA0002465440730000101
表3各方法在向量表数据集上的评价指标值
Figure BDA0002465440730000102
从表格数据可以看出,logistic回归、KNN、决策树、朴素贝叶斯和DNN方法对原始数据集的准确度在57.5%到70.6%之间,准确度在40.7%到70.1%之间,召回率在20.0%到67.7%之间,标准差在0.027到0.058之间。当使用基于邻域向量的表时,这些方法的准确性、精确度和召回率都比原始数据集有了显著的提高。在准确度和精密度方面,平均提高了17.1%和21.2%。在召回率方面,基于neighbor2vec的方法有了显著的改进。召回率平均提高约62.9%。在标准差方面,所有方法都有不同程度的改进。基于neighbor2vec的NaiveBayes方法被认为是这类方法中最好的预测方法,该方法在准确率和查全率方面都优于其他方法,分别达到83.0%和82.9%。性能次优的方法是基于neighbor2vec的KNN,精度和准确率分别达到82.7%和87.0%。但其TPR仅为55.0%。综合来看,Naive Bayes方法在使用基于neighbor2vec的表上有着较好的准确性和有效性。实验结果还表明,基于neighbor2vec的方法比不使用neighbor2vec的方法能学习更多的规则和知识,能有效地提高预测性能。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到本发明可借助软件加必需的硬件平台的方式来实现,当然也可以全部通过硬件来实施。基于这样的理解,本发明的技术方案对背景技术做出贡献的全部或者部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。
以上所述仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,都应涵盖在本发明的保护范围之内。

Claims (10)

1.一种基于neighbor2vec的肝癌术后复发风险预测***,其特征在于,所述基于neighbor2vec的肝癌术后复发风险预测***包括:
病例数据特征提取模块,对原发性医学病例数据异常值以及不相关数据进行剔除,对剩余部分缺失值进行填充,并采用Pearson相关系数对病例数据集进行特征选择,得到提取后的病例数据特征;
向量表数据集获取模块,采用得到的特征数据以及原始病例数据中的原发性术后复发与否的数据组成样本数据,利用neighbor2vec的思想,用原始数据集中每个病例的最近邻居构成的向量表示该病例,形成向量表数据集;
数据训练模块,按一定比例划分训练集和测试集,并采用Naive Bayes预测方法对训练数据进行训练;
数据测试模块,利用测试数据对训练后的Naive Bayes预测方法进行测试。
2.一种基于neighbor2vec的肝癌术后复发风险预测方法,其特征在于,所述基于neighbor2vec的肝癌术后复发风险预测方法包括:
步骤一,对原发性医学病例数据异常值以及不相关数据进行剔除,对剩余部分缺失值进行填充,并采用Pearson相关系数对病例数据集进行特征选择,得到提取后的病例数据特征;
步骤二,采用得到的特征数据以及原始病例数据中的原发性术后复发与否的数据组成样本数据,利用neighbor2vec的思想,用原始数据集中每个病例的最近邻居构成的向量表示该病例数据,形成向量表数据集;
步骤三,按一定比例划分训练集和测试集,并采用Naive Bayes预测方法对训练数据进行训练;
步骤四,利用测试数据对训练后的Naive Bayes预测方法进行测试。
3.如权利要求1所述的基于neighbor2vec的肝癌术后复发风险预测方法,其特征在于,所述步骤一中,所述原发性医学病例数据包含年龄,手术方式,肿瘤个数,AFP,脂肪肝数据信息;
得到提取后的病例数据特征的方法包括:对缺失值使用该属性的平均值作为填充数据进行填充,以此来获得更多的实验数据,计算每一属性与原始病例数据中的术后复发与否情况数据的Pearson系数,并获得取相关性系数靠前的9个特征数据。
4.如权利要求1所述的基于neighbor2vec的肝癌术后复发风险预测方法,其特征在于,所述步骤二中,利用KNN方法,分别计算每一个病例样本与数据集中所有样本的欧式距离,根据按距离排序所得到的该样本的邻近样本,选取前9个近邻,用这9个样本的标签值的向量集合来表示该样本。
5.如权利要求1所述的基于neighbor2vec的肝癌术后复发风险预测方法,其特征在于,所述KNN方法获取9个最近邻居的方法包括:
(1)对于数据集
D1=(x1,y1),(x2,y2),…,(xn,yn)
其中,xi∈X为实例的特征向量,yi∈Y为实例的类别,i=1,2,…,n;xi是每一个样本的m维实数向量空间,xi=(xi (1),xi (2),…,xi (3))T对于每一个样本i,分别计算其与数据集D1中所有样本的欧式距离,距离公式如下所示:
Figure FDA0002465440720000021
(2)根据按距离排序所得到的该样本的邻近样本,选取前9个近邻,用这9个样本的标签值的向量集合来表示该样本。
6.如权利要求1所述的基于neighbor2vec的肝癌术后复发风险预测方法,其特征在于,所述步骤三,对获得的向量集合按一定比例分成训练数据和测试数据,并利用Naive Bayes对训练数据建立预测方法;训练数据与测试数据的比例为8:2;
所述Naive Bayes包括:
1)通过计算各类别下每个特征属性的条件概率估计,得到每个类别下每个特征属性P(aj|yi)的条件概率估计;
Figure FDA0002465440720000022
P(a1|y1),…,P(am|y1);P(a1|y2),…,P(ak|y2)
x={a1,a2,…,ak}代表要分类的类别,每个ai代表一个x的特征,标签类别集为C={y1,y2};
2)计算各类别下每个特征属性P(x|yi)的条件概率估计;
Figure FDA0002465440720000031
3)计算每个类别的P(yi|x);
Figure FDA0002465440720000032
4)概率值最大的类别为预测样本的预测类别(y);
Figure FDA0002465440720000033
7.如权利要求1所述的基于neighbor2vec的肝癌术后复发风险预测方法,其特征在于,所述步骤四中,利用训练后的预测方法在测试数据上进行测试,并计算准确率、TPR、TNR、精确度和标准差作为评价指标。
8.一种接收用户输入程序存储介质,所存储的计算机程序使电子设备执行权利要求2-7任意一项所述基于neighbor2vec的肝癌术后复发风险预测方法,包括:
步骤1,对原发性医学病例数据异常值以及不相关数据进行剔除,对剩余部分缺失值进行填充,并采用Pearson相关系数对病例数据集进行特征选择,得到提取后的病例数据特征;
步骤2,采用得到的特征数据以及原始病例数据中的原发性术后复发与否的数据组成样本数据,利用neighbor2vec的思想,用原始数据集中每个病例的最近的九个邻居构成的向量表示该病例,形成向量表数据集;
步骤3,按一定比例划分训练集和测试集,并采用Naive Bayes预测方法对训练数据进行训练;
步骤4,利用测试数据对训练后的Naive Bayes预测方法进行测试。
9.一种存储在计算机可读介质上的计算机程序产品,包括计算机可读程序,供于电子装置上执行时,提供用户输入接口以实施如权利要求2-7任意一项所述基于neighbor2vec的肝癌术后复发风险预测方法。
10.一种执行权利要求2-7任意一项所述基于neighbor2vec的肝癌术后复发风险预测方法的计算机。
CN202010332427.7A 2020-04-24 2020-04-24 基于neighbor2vec的肝癌术后复发风险预测*** Pending CN111524600A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010332427.7A CN111524600A (zh) 2020-04-24 2020-04-24 基于neighbor2vec的肝癌术后复发风险预测***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010332427.7A CN111524600A (zh) 2020-04-24 2020-04-24 基于neighbor2vec的肝癌术后复发风险预测***

Publications (1)

Publication Number Publication Date
CN111524600A true CN111524600A (zh) 2020-08-11

Family

ID=71903929

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010332427.7A Pending CN111524600A (zh) 2020-04-24 2020-04-24 基于neighbor2vec的肝癌术后复发风险预测***

Country Status (1)

Country Link
CN (1) CN111524600A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112348049A (zh) * 2020-09-28 2021-02-09 北京师范大学 一种基于自动编码的图像识别模型训练方法及装置
CN112599250A (zh) * 2020-12-24 2021-04-02 中国人民解放军总医院第三医学中心 一种基于深度神经网络的术后数据分析方法及设备
CN113180633A (zh) * 2021-04-28 2021-07-30 济南大学 基于深度学习的mr影像肝癌术后复发风险预测方法及***

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107688872A (zh) * 2017-08-20 2018-02-13 平安科技(深圳)有限公司 预测模型建立装置、方法及计算机可读存储介质
CN109036568A (zh) * 2018-09-03 2018-12-18 浪潮软件集团有限公司 一种基于朴素贝叶斯算法的预测模型的建立方法
CN109065171A (zh) * 2018-11-05 2018-12-21 苏州贝斯派生物科技有限公司 基于集成学习的川崎病风险评估模型的构建方法及***
CN110090012A (zh) * 2019-03-15 2019-08-06 上海图灵医疗科技有限公司 一种基于机器学习的人体疾病检测方法及检测产品
CN110111888A (zh) * 2019-05-16 2019-08-09 闻康集团股份有限公司 一种XGBoost疾病概率预测方法、***及存储介质
CN110825819A (zh) * 2019-09-24 2020-02-21 昆明理工大学 一种处理有缺失值和不平衡非小细胞肺癌数据的二分类方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107688872A (zh) * 2017-08-20 2018-02-13 平安科技(深圳)有限公司 预测模型建立装置、方法及计算机可读存储介质
CN109036568A (zh) * 2018-09-03 2018-12-18 浪潮软件集团有限公司 一种基于朴素贝叶斯算法的预测模型的建立方法
CN109065171A (zh) * 2018-11-05 2018-12-21 苏州贝斯派生物科技有限公司 基于集成学习的川崎病风险评估模型的构建方法及***
CN110090012A (zh) * 2019-03-15 2019-08-06 上海图灵医疗科技有限公司 一种基于机器学习的人体疾病检测方法及检测产品
CN110111888A (zh) * 2019-05-16 2019-08-09 闻康集团股份有限公司 一种XGBoost疾病概率预测方法、***及存储介质
CN110825819A (zh) * 2019-09-24 2020-02-21 昆明理工大学 一种处理有缺失值和不平衡非小细胞肺癌数据的二分类方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112348049A (zh) * 2020-09-28 2021-02-09 北京师范大学 一种基于自动编码的图像识别模型训练方法及装置
CN112599250A (zh) * 2020-12-24 2021-04-02 中国人民解放军总医院第三医学中心 一种基于深度神经网络的术后数据分析方法及设备
CN113180633A (zh) * 2021-04-28 2021-07-30 济南大学 基于深度学习的mr影像肝癌术后复发风险预测方法及***

Similar Documents

Publication Publication Date Title
CN111524600A (zh) 基于neighbor2vec的肝癌术后复发风险预测***
JP2022020620A (ja) 類似するプロファイルを持つ患者を共に分類する分類モデルの性能を改善するための適合性フィードバック
CN111524599A (zh) 一种基于机器学习的新冠肺炎数据处理方法及预测***
Qiu Toward deterministic and semiautomated SPADE analysis
Foncubierta-Rodríguez et al. Using multiscale visual words for lung texture classification and retrieval
CN111554402A (zh) 基于机器学习的原发性肝癌术后复发风险预测方法及***
Acosta-Mesa et al. Application of time series discretization using evolutionary programming for classification of precancerous cervical lesions
CN113539409B (zh) 治疗方案推荐方法、装置、设备及存储介质
JP5094775B2 (ja) 症例画像検索装置、方法およびプログラム
Ahmed et al. Diagnosis recommendation using machine learning scientific workflows
Huang et al. Tuberculosis diagnosis using deep transferred EfficientNet
CN118312816A (zh) 基于成员选择的簇加权聚类集成医学数据处理方法及***
JP2012179336A (ja) 病理画像診断支援装置
CN109509517A (zh) 一种医学检验检查指标自动修正的方法
CN117370565A (zh) 一种信息检索方法及***
Kim et al. Collinear groupwise feature selection via discrete fusion group regression
Kalankesh et al. Taming EHR data: using semantic similarity to reduce dimensionality
CN112329461A (zh) 相似病历确定方法、计算机设备及计算机存储介质
Sutanto et al. A Benchmark Feature Selection Framework for Non Communicable Disease Prediction Model
Enchakalody et al. Machine learning methods to predict presence of intestine damage in patients with Crohn’s disease
Xie et al. Continuous-valued annotations aggregation for heart rate detection
CN111816273B (zh) 一种海量电子病历的大规模医学知识图谱构建方法
De Amorim Learning feature weights for K-Means clustering using the Minkowski metric
Ashraf et al. Iterative weighted k-NN for constructing missing feature values in Wisconsin breast cancer dataset
CN110175220B (zh) 一种基于关键词位置结构分布的文档相似性度量方法及***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination