CN113035360A - 一种细胞分类模型学习方法 - Google Patents
一种细胞分类模型学习方法 Download PDFInfo
- Publication number
- CN113035360A CN113035360A CN201911250060.8A CN201911250060A CN113035360A CN 113035360 A CN113035360 A CN 113035360A CN 201911250060 A CN201911250060 A CN 201911250060A CN 113035360 A CN113035360 A CN 113035360A
- Authority
- CN
- China
- Prior art keywords
- model
- disease risk
- prediction
- data
- ratio
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 42
- 238000013145 classification model Methods 0.000 title claims abstract description 15
- 201000010099 disease Diseases 0.000 claims abstract description 55
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 claims abstract description 55
- 238000012360 testing method Methods 0.000 claims abstract description 34
- 238000013058 risk prediction model Methods 0.000 claims abstract description 23
- 238000011156 evaluation Methods 0.000 claims abstract description 20
- 238000012549 training Methods 0.000 claims description 35
- 210000004027 cell Anatomy 0.000 claims description 22
- 238000002790 cross-validation Methods 0.000 claims description 19
- 230000006870 function Effects 0.000 claims description 19
- 238000004590 computer program Methods 0.000 claims description 13
- 210000002865 immune cell Anatomy 0.000 claims description 13
- 238000004422 calculation algorithm Methods 0.000 claims description 12
- 239000011159 matrix material Substances 0.000 claims description 12
- 238000005070 sampling Methods 0.000 claims description 9
- 238000003860 storage Methods 0.000 claims description 7
- 238000004364 calculation method Methods 0.000 claims description 3
- 230000014759 maintenance of location Effects 0.000 claims description 3
- 201000007270 liver cancer Diseases 0.000 abstract description 9
- 208000014018 liver neoplasm Diseases 0.000 abstract description 9
- 238000012216 screening Methods 0.000 abstract description 9
- 238000005516 engineering process Methods 0.000 abstract description 8
- 238000005481 NMR spectroscopy Methods 0.000 abstract description 7
- 238000010586 diagram Methods 0.000 description 8
- 238000009826 distribution Methods 0.000 description 6
- 230000007246 mechanism Effects 0.000 description 5
- 238000012545 processing Methods 0.000 description 5
- 230000008569 process Effects 0.000 description 3
- 102000013529 alpha-Fetoproteins Human genes 0.000 description 2
- 108010026331 alpha-Fetoproteins Proteins 0.000 description 2
- 238000001095 inductively coupled plasma mass spectrometry Methods 0.000 description 2
- 150000002500 ions Chemical class 0.000 description 2
- 238000004949 mass spectrometry Methods 0.000 description 2
- 102000004169 proteins and genes Human genes 0.000 description 2
- 108090000623 proteins and genes Proteins 0.000 description 2
- 210000001744 T-lymphocyte Anatomy 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 210000000987 immune system Anatomy 0.000 description 1
- 238000011532 immunohistochemical staining Methods 0.000 description 1
- 238000012417 linear regression Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000003550 marker Substances 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 239000002184 metal Substances 0.000 description 1
- 229910021645 metal ion Inorganic materials 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 210000005259 peripheral blood Anatomy 0.000 description 1
- 239000011886 peripheral blood Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000002604 ultrasonography Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/70—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/217—Validation; Performance evaluation; Active pattern learning techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/30—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Public Health (AREA)
- Medical Informatics (AREA)
- Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Physics & Mathematics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Biology (AREA)
- Databases & Information Systems (AREA)
- Pathology (AREA)
- Biomedical Technology (AREA)
- Epidemiology (AREA)
- General Health & Medical Sciences (AREA)
- Primary Health Care (AREA)
- Investigating Or Analysing Biological Materials (AREA)
Abstract
本发明公开了一种细胞分类模型学习方法,其特征在于,包括:获取样本比率;根据所述样本比率重复迭代建立模型;根据所述测试集的预测精度对原始数据特征进行投票,筛选出患病风险特征;根据所述患病风险特征对患病风险的预测稳定性进行评估,生成评估数据;根据所述评估数据建立患病风险预测模型;根据所述患病风险预测模型给出预测结果,解决现有技术以增强CT及核磁共振筛查技术排查所有人群困难,存在时间长,费用高以及肝癌风险预测精度无法提高的问题。
Description
技术领域
本发明涉及生物信息、数据挖掘技术领域,尤其涉及一种细胞分类模型学习方法。
背景技术
目前国际公认的肝癌筛查手段总体比较单一:影像学就是超声,血清学就是甲胎蛋白,还有其他的分子标志物,不同地区采用的标志物种类不一样,日本是结合甲胎蛋白、CT和核磁共振筛查,通过免疫组织化学染色方法测定相关蛋白质的表达量也是预测肝癌的一种方式。
但是在国内,对所有人群做增强CT和核磁共振筛查很困难,排队时间长,费用高,对患者来说是很大的经济负担。
发明内容
本发明所要解决的是现有技术以增强CT及核磁共振筛查技术排查所有人群困难,存在时间长,费用高以及肝癌风险预测精度无法提高的问题,提供了一种细胞分类模型学习方法。
本发明为解决上述技术问题采用以下技术方案:
一种细胞分类模型学习方法,其特征在于,包括:获取样本比率;根据所述样本比率重复迭代建立模型;根据所述测试集的预测精度对原始数据特征进行投票,筛选出患病风险特征;根据所述患病风险特征对患病风险的预测稳定性进行评估,生成评估数据;根据所述评估数据建立患病风险预测模型;根据所述患病风险预测模型给出预测结果。
优选地,获取样本比率,包括利用CyTOF技术获得所述免疫细胞的亚群比率,所述样本为免疫细胞亚群比率。
优选地,根据所述样本比率重复迭代建立模型,包括:根据9比1的比例对所述样本比率进行分层抽样,将所述样本比率分为训练集数据和测试集数据;平衡所述训练集数据的正例比反例为1比1;利用Logistic-Lasso算法对所述训练集数据建立模型,模型公式为:
其中x为特征矩阵,w为系数矩阵,b为误差项。
优选地,根据所述测试集的预测精度对原始数据特征进行投票,筛选出患病风险特征,包括:当一轮迭代中所述测试集的预测精度>0.8时,对所述原始数据特征进行一次投票,构建所述原始数据特征的得票矩阵;进行5000次所述一轮迭代后所述原始数据特征的排名收敛于稳定,对得票数低于3000次的特征进行过滤,筛选出所述患病风险特征。
优选地,一轮迭代中所述测试集的预测精度,包括:优化Lasso回归的损失函数;根据Lasso回归的损失函数添加L1正则化,产生稀疏模型;根据所述稀疏模型对所述测试集数据进行回测得出所述测试集的预测精度。
优选地,所述Lasso回归的损失函数为:
其中公式加号后面一项α||w||1即为L1正则化项。
优选地,优化Lasso回归的损失函数,包括:利用梯度下降算法进行优化。
优选地,根据所述患病风险特征对患病风险的预测稳定性进行评估,生成评估数据,包括:进行5000次二轮迭代后确定交叉验证集的预测精度;当所述交叉验证集的预测精度>0.8的模型占比超过稳定范围,生成所述评估数据。
优选地,所述二轮迭代,包括:根据所述患病风险特征构建新数据集,按9比1划分为训练集和测试集;将所述训练集中数据按9比1的比例划分成模型训练集和交叉验证集;对所述模型训练集中的正反两例的比例进行平衡为1比1;利用logistic算法对所述模型训练集构建二次训练集模型;采用梯度下降算法对所述二次训练集模型的损失函数进行优化,得出所述交叉验证集的预测精度。
优选地,所述稳定范围包括80%~100%。
优选地,根据所述评估数据建立患病风险预测模型,包括:保留交叉验证精度为1的二次训练集模型,生成保留模型;对所述保留模型中所述患病风险特征系数和截距项分别取均值,作为所述患病风险预测模型的系数,公式如下:
优选地,在根据所述评估数据建立患病风险预测模型之后,还包括根据所述患病风险预测模型对所述测试集数据进行回测。
本发明实施例还提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至13任一所述的细胞分类模型学习方法。
本发明实施例还提供了一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有执行权利要求1至13任一所述的细胞分类模型学习方法的计算机程序。
本发明的有益效果如下:
1)本发明解决现有技术以增强CT及核磁共振筛查技术排查所有人群困难,存在时间长,费用高以及肝癌风险预测精度无法提高的问题。
2)本发明有效利用稀疏学习提高模型的泛化能力,防止正确的数据无法覆盖整个特征空间。
3)本发明有效利用监督学习提高肝癌风险预测精度,解决检测大量样本存在的耗时长,耗费大量人力、物力的问题。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本发明实施例提供的一种细胞分类模型学习方法流程图;
图2是根据本发明实施例提供的一种投票机制流程图;
图3是根据本发明实施例提供的一种一轮迭代流程图;
图4是根据本发明实施例提供的一种二轮迭代流程图;
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
根据本发明实施例,提供了一种细胞分类模型学习方法实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机***中执行,并且,虽然在流程图中示出了逻辑顺序,但在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
需要说明的是,人体的免疫***总共包含5类细胞,每一类细胞又分为很多子类,每个子类又有独特的标记物,比如CD3对应着TOTAL T cells,结合专业的软件及特定的标记,将用来建模的特定免疫细胞亚群选出,得出特定免疫细胞亚群占有效细胞的比率并储存相关数据。
图1是根据本发明实施例提供的一种细胞分类模型学习方法流程图,如图1所示,该方法包括步骤如下:
S102,获取样本比率;
S103,根据样本比率重复迭代建立模型;
S104,根据测试集的预测精度对原始数据特征进行投票,筛选出患病风险特征;
S105,根据患病风险特征对患病风险的预测稳定性进行评估,生成评估数据;
S106,根据评估数据建立患病风险预测模型;
S107,根据患病风险预测模型给出预测结果。
优选地,获取样本比率,包括利用CyTOF技术获得所述免疫细胞的亚群比率,所述样本为免疫细胞亚群比率。
具体地,利用CyTOF技术对体检者外周血获取免疫细胞亚群比率,通过Lasso回归对原始数据进行处理,重复迭代建模,对原始数据特征进行投票,其中正则化可以防止过拟合,提高泛化能力,筛选出的特征部分分层抽样建模,在重复抽样迭代后得到交叉验证集预测精度的概率分布,通过该分布对稳健性进行评估,根据评估数据建立患病风险预测模型,根据患病风险预测模型给出预测结果。
稀疏矩阵指的是很多元素为0,只有少数元素是非零值的矩阵,即得到的线性回归模型的大部分系数都是0。
关于L1正则化生成一个稀疏矩阵是由于通常机器学习中特征数量很多,例如文本处理时,如果将一个词组(term)作为一个特征,那么特征数量会达到上万个(bigram)。在预测或分类时,那么多特征显然难以选择,但是如果代入这些特征得到的模型是一个稀疏模型,表示只有少数特征对这个模型有贡献,绝大部分特征是没有贡献的,或者贡献微小,它们前面的系数是0或者是很小的值,即使去掉对模型也没有什么影响,此时就可以只关注系数是非零值的特征,这就是稀疏模型与特征选择的关系。
需要说明的是,CyTOF技术采用金属同位素标记的特异性抗体来标记细胞表面和内部的信号分子(蛋白),标记好的细胞通过流式被分离成单个细胞依次进入电感耦合等离子体质谱(ICP-MS),单细胞首先被等离子体炬离子化为一个独立的离子云,随后离子云中的各种标签金属离子被质谱精确检测出来,得到单细胞的质谱数据。最后数据被转换为标准的流式数据,进行多维度的数据分析,实现对细胞表型和信号网络的精细表征以及价值信息的有效挖掘。
优选地,根据样本比率重复迭代建立模型,包括:根据9比1的比例对样本比率进行分层抽样,将样本比率分为训练集数据和测试集数据;平衡训练集数据的正例比反例为1比1;利用Logistic-Lasso算法对训练集数据建立模型,模型公式为:
其中x为特征矩阵,w为系数矩阵,b为误差项。
优选地,图2是根据本发明实施例提供的一种投票机制流程图,如图2所示,根据测试集的预测精度对原始数据特征进行投票,筛选出患病风险特征,包括:
S201,当一轮迭代中测试集的预测精度>0.8时,对原始数据特征进行一次投票,构建原始数据特征的得票矩阵;
S202,进行5000次一轮迭代后原始数据特征的排名收敛于稳定,对得票数低于3000次的特征进行过滤,筛选出患病风险特征。
具体地,根据上述34个亚群的得票数从高到低进行排序,确定一个阈值,将票数大于该阈值的亚群用来固定最后的模型,本次模型模拟了5000次后,筛选出得票大于等于3000次的患病风险特征,根据筛选出来的患病风险特征进行分层抽样建模。
优选地,图3是根据本发明实施例提供的一种一轮迭代流程图,如图3所示,一轮迭代中测试集的预测精度,包括:
S301,优化Lasso回归的损失函数;
S302,根据Lasso回归的损失函数添加L1正则化,产生稀疏模型;
S303,根据稀疏模型对测试集数据进行回测得出测试集的预测精度。
优选地,Lasso回归的损失函数为:
其中公式加号后面一项α||w||1即为L1正则化项。
优选地,优化Lasso回归的损失函数,包括:利用梯度下降算法进行优化。
具体地,投票机制是针对原始数据进行分层抽样,划分训练集和测试集,每划分一次利用Logistic-Lasso建一次模型,因为Lasso回归使得模型的特征变得稀疏了,这样每一个模型就可能筛选出不同的亚群,重复对原始数据进行划分建模,对测试集精度大于一个阈值的模型中的特征进行计数,从而实现投票机制。
优选地,根据患病风险特征对患病风险的预测稳定性进行评估,生成评估数据,包括:进行5000次二轮迭代后确定交叉验证集的预测精度;当交叉验证集的预测精度>0.8的模型占比超过稳定范围,生成评估数据。
优选地,图4是根据本发明实施例提供的一种二轮迭代流程图,如图4所示,二轮迭代包括:
S401,根据患病风险特征构建新数据集,按9比1划分为训练集和测试集;
S402,将训练集中数据按9比1的比例划分成模型训练集和交叉验证集;
S403,对模型训练集中的正反两例的比例进行平衡为1比1;
S404,利用logistic算法对模型训练集构建二次训练集模型;
S405,采用梯度下降算法对二次训练集模型的损失函数进行优化,得出交叉验证集的预测精度。
优选地,稳定范围包括80%~100%。
具体地,根据筛选出的患病风险特征分层抽样建模,再重复抽样迭代后得到交叉验证预测精度的概率分布,通过该分布对稳定性进行评估,将交叉验证集预测精度为1的二次训练集模型系数取均值,以此固定在最终的患病风险预测模型。在进行5000次二轮迭代后,交叉验证集的预测精度的概率分布区域稳定,该分布呈左偏分布,且精度在0.8以上的模型占比超过90%,说明筛选出的免疫细胞亚群在肝癌风险的稳健性较好。
优选地,根据评估数据建立患病风险预测模型,包括:保留交叉验证精度为1的二次训练集模型,生成保留模型;对保留模型中患病风险特征系数和截距项分别取均值,作为患病风险预测模型的系数,公式如下:
优选地,在根据评估数据建立患病风险预测模型之后,还包括根据患病风险预测模型对测试集数据进行回测,用于检验模型的泛化性。
发明实施例还提供一种计算机设备,用以解决现有技术以增强CT及核磁共振筛查技术排查所有人群困难,存在时间长,费用高以及肝癌风险预测精度无法提高的问题,该计算机设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现上述细胞分类模型学习方法。
本发明实施例还提供一种计算机可读存储介质,用以解决现有技术以增强CT及核磁共振筛查技术排查所有人群困难,存在时间长,费用高以及肝癌风险预测精度无法提高的问题,该计算机可读存储介质存储有执行上述细胞分类模型学习方法的计算机程序。
本领域内的技术人员应明白,本发明的实施例可提供为方法、***、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (14)
1.一种细胞分类模型学习方法,其特征在于,包括:
获取样本比率;
根据所述样本比率重复迭代建立模型;
根据所述测试集的预测精度对原始数据特征进行投票,筛选出患病风险特征;
根据所述患病风险特征对患病风险的预测稳定性进行评估,生成评估数据;
根据所述评估数据建立患病风险预测模型;
根据所述患病风险预测模型给出预测结果。
2.根据权利要求1所述的一种细胞分类模型学习方法,其特征在于,获取样本比率,包括利用CyTOF技术获得所述免疫细胞的亚群比率,所述样本为免疫细胞亚群比率。
4.根据权利要求1所述的一种细胞分类模型学习方法,其特征在于,根据所述测试集的预测精度对原始数据特征进行投票,筛选出患病风险特征,包括:
当一轮迭代中所述测试集的预测精度>0.8时,对所述原始数据特征进行一次投票,构建所述原始数据特征的得票矩阵;
进行5000次所述一轮迭代后所述原始数据特征的排名收敛于稳定,对得票数低于3000次的特征进行过滤,筛选出所述患病风险特征。
5.根据权利要求4所述的一种细胞分类模型学习方法,其特征在于,一轮迭代中所述测试集的预测精度,包括:
优化Lasso回归的损失函数;
根据Lasso回归的损失函数添加L1正则化,产生稀疏模型;
根据所述稀疏模型对所述测试集数据进行回测得出所述测试集的预测精度。
7.根据权利要求5所述的一种细胞分类模型学习方法,其特征在于,优化Lasso回归的损失函数,包括:利用梯度下降算法进行优化。
8.根据权利要求1所述的一种细胞分类模型学习方法,其特征在于,根据所述患病风险特征对患病风险的预测稳定性进行评估,生成评估数据,包括:
进行5000次二轮迭代后确定交叉验证集的预测精度;
当所述交叉验证集的预测精度>0.8的模型占比超过稳定范围,生成所述评估数据。
9.根据权利要求8所述的一种细胞分类模型学习方法,其特征在于,所述二轮迭代,包括:
根据所述患病风险特征构建新数据集,按9比1划分为训练集和测试集;
将所述训练集中数据按9比1的比例划分成模型训练集和交叉验证集;
对所述模型训练集中的正反两例的比例进行平衡为1比1;
利用logistic算法对所述模型训练集构建二次训练集模型;
采用梯度下降算法对所述二次训练集模型的损失函数进行优化,得出所述交叉验证集的预测精度。
10.根据权利要求8所述的一种细胞分类模型学习方法,其特征在于,所述稳定范围包括80%~100%。
12.根据权利要求11所述的一种细胞分类模型学习方法,其特征在于,在根据所述评估数据建立患病风险预测模型之后,还包括根据所述患病风险预测模型对所述测试集数据进行回测。
13.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至12任一所述的细胞分类模型学习方法。
14.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有执行权利要求1至12任一所述的细胞分类模型学习方法的计算机程序。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911250060.8A CN113035360A (zh) | 2019-12-09 | 2019-12-09 | 一种细胞分类模型学习方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911250060.8A CN113035360A (zh) | 2019-12-09 | 2019-12-09 | 一种细胞分类模型学习方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113035360A true CN113035360A (zh) | 2021-06-25 |
Family
ID=76450990
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911250060.8A Pending CN113035360A (zh) | 2019-12-09 | 2019-12-09 | 一种细胞分类模型学习方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113035360A (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103827671A (zh) * | 2011-05-03 | 2014-05-28 | 联邦科学与工业研究组织 | 用于检测神经疾病的方法 |
US20170242972A1 (en) * | 2016-02-19 | 2017-08-24 | International Business Machines Corporation | Method for proactive comprehensive geriatric risk screening |
CN107480474A (zh) * | 2017-08-01 | 2017-12-15 | 山东师范大学 | 基于肠道菌群丰度的分类器建模评价校验方法及*** |
CN108375808A (zh) * | 2018-03-12 | 2018-08-07 | 南京恩瑞特实业有限公司 | Nriet基于机器学习的大雾预报方法 |
CN108776962A (zh) * | 2018-04-11 | 2018-11-09 | 浙江师范大学 | 一种构建肺肿瘤良恶性预测模型的方法 |
CN110110799A (zh) * | 2019-05-13 | 2019-08-09 | 广州锟元方青医疗科技有限公司 | 细胞分类方法、装置、计算机设备和存储介质 |
-
2019
- 2019-12-09 CN CN201911250060.8A patent/CN113035360A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103827671A (zh) * | 2011-05-03 | 2014-05-28 | 联邦科学与工业研究组织 | 用于检测神经疾病的方法 |
US20170242972A1 (en) * | 2016-02-19 | 2017-08-24 | International Business Machines Corporation | Method for proactive comprehensive geriatric risk screening |
CN107480474A (zh) * | 2017-08-01 | 2017-12-15 | 山东师范大学 | 基于肠道菌群丰度的分类器建模评价校验方法及*** |
CN108375808A (zh) * | 2018-03-12 | 2018-08-07 | 南京恩瑞特实业有限公司 | Nriet基于机器学习的大雾预报方法 |
CN108776962A (zh) * | 2018-04-11 | 2018-11-09 | 浙江师范大学 | 一种构建肺肿瘤良恶性预测模型的方法 |
CN110110799A (zh) * | 2019-05-13 | 2019-08-09 | 广州锟元方青医疗科技有限公司 | 细胞分类方法、装置、计算机设备和存储介质 |
Non-Patent Citations (1)
Title |
---|
郭东铭: "基于免疫和肿瘤突变负荷的癌症患者无病生存评估模型构建", 中国优秀硕士学位论文全文数据库 医药卫生科技辑, no. 9, 15 September 2019 (2019-09-15), pages 24 - 25 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Campbell et al. | Assessing colour-dependent occupation statistics inferred from galaxy group catalogues | |
Ursu et al. | GenomeDISCO: a concordance score for chromosome conformation capture experiments using random walks on contact map graphs | |
Jaeger et al. | Mixed effect models for genetic and areal dependencies in linguistic typology | |
Hearin et al. | SHAM beyond clustering: new tests of galaxy–halo abundance matching with galaxy groups | |
Mitchell et al. | Bayesian model selection with BAMM: effects of the model prior on the inferred number of diversification shifts | |
Brooks et al. | Nonparametric convergence assessment for MCMC model selection | |
Wooldridge et al. | Altmetric scores: An early indicator of research impact | |
Hutchinson et al. | Models and machines: how deep learning will take clinical pharmacology to the next level | |
Raimbault et al. | Space matters: Extending sensitivity analysis to initial spatial conditions in geosimulation models | |
Lange et al. | Brightest galaxies as halo centre tracers in SDSS DR7 | |
CN106415558A (zh) | 数据处理装置和用于质谱法数据的评估的方法 | |
Chakraborty et al. | Analyzing spatial point patterns subject to measurement error | |
Sapena et al. | Empiric recommendations for population disaggregation under different data scenarios | |
Guillaume Blanchet et al. | A new cost‐effective approach to survey ecological communities | |
CN112330625A (zh) | 免疫组化核染色切片细胞定位多域共适应训练方法 | |
Panes et al. | Identification of point sources in gamma rays using U-shaped convolutional neural networks and a data challenge | |
Anchang et al. | CCAST: a model-based gating strategy to isolate homogeneous subpopulations in a heterogeneous population of single cells | |
Seal et al. | DenVar: density-based variation analysis of multiplex imaging data | |
Lemant et al. | Robust, universal tree balance indices | |
Nishimichi et al. | Simulating the anisotropic clustering of luminous red galaxies with subhaloes: a direct confrontation with observation and cosmological implications | |
Coulon et al. | An evolutionary algorithm for consensus building in inter-laboratory comparisons | |
CN111863135A (zh) | 一种假阳性结构变异过滤方法、存储介质及计算设备 | |
CN113035360A (zh) | 一种细胞分类模型学习方法 | |
CN110968690B (zh) | 词语的聚类划分方法和装置、设备以及存储介质 | |
Zimmer | From microbes to numbers: extracting meaningful quantities from images |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |