CN113035360A

CN113035360A - 一种细胞分类模型学习方法

Info

Publication number: CN113035360A
Application number: CN201911250060.8A
Authority: CN
Inventors: 陈达; 季庆华; 李鹏; 陈翔强
Original assignee: Zhejiang Plttech Health Technology Co ltd
Current assignee: Zhejiang Plttech Health Technology Co ltd
Priority date: 2019-12-09
Filing date: 2019-12-09
Publication date: 2021-06-25

Abstract

本发明公开了一种细胞分类模型学习方法，其特征在于，包括：获取样本比率；根据所述样本比率重复迭代建立模型；根据所述测试集的预测精度对原始数据特征进行投票，筛选出患病风险特征；根据所述患病风险特征对患病风险的预测稳定性进行评估，生成评估数据；根据所述评估数据建立患病风险预测模型；根据所述患病风险预测模型给出预测结果，解决现有技术以增强CT及核磁共振筛查技术排查所有人群困难，存在时间长，费用高以及肝癌风险预测精度无法提高的问题。

Description

一种细胞分类模型学习方法

技术领域

本发明涉及生物信息、数据挖掘技术领域，尤其涉及一种细胞分类模型学习方法。

背景技术

目前国际公认的肝癌筛查手段总体比较单一：影像学就是超声，血清学就是甲胎蛋白，还有其他的分子标志物，不同地区采用的标志物种类不一样，日本是结合甲胎蛋白、CT和核磁共振筛查，通过免疫组织化学染色方法测定相关蛋白质的表达量也是预测肝癌的一种方式。

但是在国内，对所有人群做增强CT和核磁共振筛查很困难，排队时间长，费用高，对患者来说是很大的经济负担。

发明内容

本发明所要解决的是现有技术以增强CT及核磁共振筛查技术排查所有人群困难，存在时间长，费用高以及肝癌风险预测精度无法提高的问题，提供了一种细胞分类模型学习方法。

本发明为解决上述技术问题采用以下技术方案：

一种细胞分类模型学习方法，其特征在于，包括：获取样本比率；根据所述样本比率重复迭代建立模型；根据所述测试集的预测精度对原始数据特征进行投票，筛选出患病风险特征；根据所述患病风险特征对患病风险的预测稳定性进行评估，生成评估数据；根据所述评估数据建立患病风险预测模型；根据所述患病风险预测模型给出预测结果。

优选地，获取样本比率，包括利用CyTOF技术获得所述免疫细胞的亚群比率，所述样本为免疫细胞亚群比率。

优选地，根据所述样本比率重复迭代建立模型，包括：根据9比1的比例对所述样本比率进行分层抽样，将所述样本比率分为训练集数据和测试集数据；平衡所述训练集数据的正例比反例为1比1；利用Logistic-Lasso算法对所述训练集数据建立模型，模型公式为：

其中x为特征矩阵，w为系数矩阵，b为误差项。

优选地，根据所述测试集的预测精度对原始数据特征进行投票，筛选出患病风险特征，包括：当一轮迭代中所述测试集的预测精度>0.8时，对所述原始数据特征进行一次投票，构建所述原始数据特征的得票矩阵；进行5000次所述一轮迭代后所述原始数据特征的排名收敛于稳定，对得票数低于3000次的特征进行过滤，筛选出所述患病风险特征。

优选地，一轮迭代中所述测试集的预测精度，包括：优化Lasso回归的损失函数；根据Lasso回归的损失函数添加L1正则化，产生稀疏模型；根据所述稀疏模型对所述测试集数据进行回测得出所述测试集的预测精度。

优选地，所述Lasso回归的损失函数为：

其中公式加号后面一项α||w||₁即为L1正则化项。

优选地，优化Lasso回归的损失函数，包括：利用梯度下降算法进行优化。

优选地，根据所述患病风险特征对患病风险的预测稳定性进行评估，生成评估数据，包括：进行5000次二轮迭代后确定交叉验证集的预测精度；当所述交叉验证集的预测精度>0.8的模型占比超过稳定范围，生成所述评估数据。

优选地，所述二轮迭代，包括：根据所述患病风险特征构建新数据集，按9比1划分为训练集和测试集；将所述训练集中数据按9比1的比例划分成模型训练集和交叉验证集；对所述模型训练集中的正反两例的比例进行平衡为1比1；利用logistic算法对所述模型训练集构建二次训练集模型；采用梯度下降算法对所述二次训练集模型的损失函数进行优化，得出所述交叉验证集的预测精度。

优选地，所述稳定范围包括80％～100％。

优选地，根据所述评估数据建立患病风险预测模型，包括：保留交叉验证精度为1的二次训练集模型，生成保留模型；对所述保留模型中所述患病风险特征系数和截距项分别取均值，作为所述患病风险预测模型的系数，公式如下：

其中x_i为免疫细胞亚群比率，

为对应的特征系数，

为误差项。

优选地，在根据所述评估数据建立患病风险预测模型之后，还包括根据所述患病风险预测模型对所述测试集数据进行回测。

本发明实施例还提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至13任一所述的细胞分类模型学习方法。

本发明实施例还提供了一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有执行权利要求1至13任一所述的细胞分类模型学习方法的计算机程序。

本发明的有益效果如下：

1)本发明解决现有技术以增强CT及核磁共振筛查技术排查所有人群困难，存在时间长，费用高以及肝癌风险预测精度无法提高的问题。

2)本发明有效利用稀疏学习提高模型的泛化能力，防止正确的数据无法覆盖整个特征空间。

3)本发明有效利用监督学习提高肝癌风险预测精度，解决检测大量样本存在的耗时长，耗费大量人力、物力的问题。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是根据本发明实施例提供的一种细胞分类模型学习方法流程图；

图2是根据本发明实施例提供的一种投票机制流程图；

图3是根据本发明实施例提供的一种一轮迭代流程图；

图4是根据本发明实施例提供的一种二轮迭代流程图；

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

根据本发明实施例，提供了一种细胞分类模型学习方法实施例，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机***中执行，并且，虽然在流程图中示出了逻辑顺序，但在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

需要说明的是，人体的免疫***总共包含5类细胞，每一类细胞又分为很多子类，每个子类又有独特的标记物，比如CD3对应着TOTAL T cells，结合专业的软件及特定的标记，将用来建模的特定免疫细胞亚群选出，得出特定免疫细胞亚群占有效细胞的比率并储存相关数据。

图1是根据本发明实施例提供的一种细胞分类模型学习方法流程图，如图1所示，该方法包括步骤如下：

S102，获取样本比率；

S103，根据样本比率重复迭代建立模型；

S104，根据测试集的预测精度对原始数据特征进行投票，筛选出患病风险特征；

S105，根据患病风险特征对患病风险的预测稳定性进行评估，生成评估数据；

S106，根据评估数据建立患病风险预测模型；

S107，根据患病风险预测模型给出预测结果。

具体地，利用CyTOF技术对体检者外周血获取免疫细胞亚群比率，通过Lasso回归对原始数据进行处理，重复迭代建模，对原始数据特征进行投票，其中正则化可以防止过拟合，提高泛化能力，筛选出的特征部分分层抽样建模，在重复抽样迭代后得到交叉验证集预测精度的概率分布，通过该分布对稳健性进行评估，根据评估数据建立患病风险预测模型，根据患病风险预测模型给出预测结果。

稀疏矩阵指的是很多元素为0，只有少数元素是非零值的矩阵，即得到的线性回归模型的大部分系数都是0。

关于L1正则化生成一个稀疏矩阵是由于通常机器学习中特征数量很多，例如文本处理时，如果将一个词组(term)作为一个特征，那么特征数量会达到上万个(bigram)。在预测或分类时，那么多特征显然难以选择，但是如果代入这些特征得到的模型是一个稀疏模型，表示只有少数特征对这个模型有贡献，绝大部分特征是没有贡献的，或者贡献微小，它们前面的系数是0或者是很小的值，即使去掉对模型也没有什么影响，此时就可以只关注系数是非零值的特征，这就是稀疏模型与特征选择的关系。

需要说明的是，CyTOF技术采用金属同位素标记的特异性抗体来标记细胞表面和内部的信号分子(蛋白)，标记好的细胞通过流式被分离成单个细胞依次进入电感耦合等离子体质谱(ICP-MS)，单细胞首先被等离子体炬离子化为一个独立的离子云，随后离子云中的各种标签金属离子被质谱精确检测出来，得到单细胞的质谱数据。最后数据被转换为标准的流式数据，进行多维度的数据分析，实现对细胞表型和信号网络的精细表征以及价值信息的有效挖掘。

优选地，根据样本比率重复迭代建立模型，包括：根据9比1的比例对样本比率进行分层抽样，将样本比率分为训练集数据和测试集数据；平衡训练集数据的正例比反例为1比1；利用Logistic-Lasso算法对训练集数据建立模型，模型公式为：

其中x为特征矩阵，w为系数矩阵，b为误差项。

优选地，图2是根据本发明实施例提供的一种投票机制流程图，如图2所示，根据测试集的预测精度对原始数据特征进行投票，筛选出患病风险特征，包括：

S201，当一轮迭代中测试集的预测精度>0.8时，对原始数据特征进行一次投票，构建原始数据特征的得票矩阵；

S202，进行5000次一轮迭代后原始数据特征的排名收敛于稳定，对得票数低于3000次的特征进行过滤，筛选出患病风险特征。

具体地，根据上述34个亚群的得票数从高到低进行排序，确定一个阈值，将票数大于该阈值的亚群用来固定最后的模型，本次模型模拟了5000次后，筛选出得票大于等于3000次的患病风险特征，根据筛选出来的患病风险特征进行分层抽样建模。

优选地，图3是根据本发明实施例提供的一种一轮迭代流程图，如图3所示，一轮迭代中测试集的预测精度，包括：

S301，优化Lasso回归的损失函数；

S302，根据Lasso回归的损失函数添加L1正则化，产生稀疏模型；

S303，根据稀疏模型对测试集数据进行回测得出测试集的预测精度。

优选地，Lasso回归的损失函数为：

其中公式加号后面一项α||w||₁即为L1正则化项。

具体地，投票机制是针对原始数据进行分层抽样，划分训练集和测试集，每划分一次利用Logistic-Lasso建一次模型，因为Lasso回归使得模型的特征变得稀疏了，这样每一个模型就可能筛选出不同的亚群，重复对原始数据进行划分建模，对测试集精度大于一个阈值的模型中的特征进行计数，从而实现投票机制。

优选地，根据患病风险特征对患病风险的预测稳定性进行评估，生成评估数据，包括：进行5000次二轮迭代后确定交叉验证集的预测精度；当交叉验证集的预测精度>0.8的模型占比超过稳定范围，生成评估数据。

优选地，图4是根据本发明实施例提供的一种二轮迭代流程图，如图4所示，二轮迭代包括：

S401，根据患病风险特征构建新数据集，按9比1划分为训练集和测试集；

S402，将训练集中数据按9比1的比例划分成模型训练集和交叉验证集；

S403，对模型训练集中的正反两例的比例进行平衡为1比1；

S404，利用logistic算法对模型训练集构建二次训练集模型；

S405，采用梯度下降算法对二次训练集模型的损失函数进行优化，得出交叉验证集的预测精度。

优选地，稳定范围包括80％～100％。

具体地，根据筛选出的患病风险特征分层抽样建模，再重复抽样迭代后得到交叉验证预测精度的概率分布，通过该分布对稳定性进行评估，将交叉验证集预测精度为1的二次训练集模型系数取均值，以此固定在最终的患病风险预测模型。在进行5000次二轮迭代后，交叉验证集的预测精度的概率分布区域稳定，该分布呈左偏分布，且精度在0.8以上的模型占比超过90％，说明筛选出的免疫细胞亚群在肝癌风险的稳健性较好。

优选地，根据评估数据建立患病风险预测模型，包括：保留交叉验证精度为1的二次训练集模型，生成保留模型；对保留模型中患病风险特征系数和截距项分别取均值，作为患病风险预测模型的系数，公式如下：

其中x_i为免疫细胞亚群比率，

为对应的特征系数，

为误差项。

优选地，在根据评估数据建立患病风险预测模型之后，还包括根据患病风险预测模型对测试集数据进行回测，用于检验模型的泛化性。

发明实施例还提供一种计算机设备，用以解决现有技术以增强CT及核磁共振筛查技术排查所有人群困难，存在时间长，费用高以及肝癌风险预测精度无法提高的问题，该计算机设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现上述细胞分类模型学习方法。

本发明实施例还提供一种计算机可读存储介质，用以解决现有技术以增强CT及核磁共振筛查技术排查所有人群困难，存在时间长，费用高以及肝癌风险预测精度无法提高的问题，该计算机可读存储介质存储有执行上述细胞分类模型学习方法的计算机程序。

本领域内的技术人员应明白，本发明的实施例可提供为方法、***、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述的具体实施例，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施例而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种细胞分类模型学习方法，其特征在于，包括：

获取样本比率；

根据所述样本比率重复迭代建立模型；

根据所述测试集的预测精度对原始数据特征进行投票，筛选出患病风险特征；

根据所述患病风险特征对患病风险的预测稳定性进行评估，生成评估数据；

根据所述评估数据建立患病风险预测模型；

根据所述患病风险预测模型给出预测结果。

2.根据权利要求1所述的一种细胞分类模型学习方法，其特征在于，获取样本比率，包括利用CyTOF技术获得所述免疫细胞的亚群比率，所述样本为免疫细胞亚群比率。

3.根据权利要求1所述的一种细胞分类模型学习方法，其特征在于，根据所述样本比率重复迭代建立模型，包括：

根据9比1的比例对所述样本比率进行分层抽样，将所述样本比率分为训练集数据和测试集数据；

平衡所述训练集数据的正例比反例为1比1；

利用Logistic-Lasso算法对所述训练集数据建立模型，模型公式为：

其中x为特征矩阵，w为系数矩阵，b为误差项。

4.根据权利要求1所述的一种细胞分类模型学习方法，其特征在于，根据所述测试集的预测精度对原始数据特征进行投票，筛选出患病风险特征，包括：

当一轮迭代中所述测试集的预测精度>0.8时，对所述原始数据特征进行一次投票，构建所述原始数据特征的得票矩阵；

进行5000次所述一轮迭代后所述原始数据特征的排名收敛于稳定，对得票数低于3000次的特征进行过滤，筛选出所述患病风险特征。

5.根据权利要求4所述的一种细胞分类模型学习方法，其特征在于，一轮迭代中所述测试集的预测精度，包括：

优化Lasso回归的损失函数；

根据Lasso回归的损失函数添加L1正则化，产生稀疏模型；

根据所述稀疏模型对所述测试集数据进行回测得出所述测试集的预测精度。

6.根据权利要求5所述的一种细胞分类模型学习方法，其特征在于，所述Lasso回归的损失函数为：

其中公式加号后面一项α||w||₁即为L1正则化项。

7.根据权利要求5所述的一种细胞分类模型学习方法，其特征在于，优化Lasso回归的损失函数，包括：利用梯度下降算法进行优化。

8.根据权利要求1所述的一种细胞分类模型学习方法，其特征在于，根据所述患病风险特征对患病风险的预测稳定性进行评估，生成评估数据，包括：

进行5000次二轮迭代后确定交叉验证集的预测精度；

当所述交叉验证集的预测精度>0.8的模型占比超过稳定范围，生成所述评估数据。

9.根据权利要求8所述的一种细胞分类模型学习方法，其特征在于，所述二轮迭代，包括：

根据所述患病风险特征构建新数据集，按9比1划分为训练集和测试集；

将所述训练集中数据按9比1的比例划分成模型训练集和交叉验证集；

对所述模型训练集中的正反两例的比例进行平衡为1比1；

利用logistic算法对所述模型训练集构建二次训练集模型；

采用梯度下降算法对所述二次训练集模型的损失函数进行优化，得出所述交叉验证集的预测精度。

10.根据权利要求8所述的一种细胞分类模型学习方法，其特征在于，所述稳定范围包括80％～100％。

11.根据权利要求1所述的一种细胞分类模型学习方法，其特征在于，根据所述评估数据建立患病风险预测模型，包括：

保留交叉验证精度为1的二次训练集模型，生成保留模型；

对所述保留模型中所述患病风险特征系数和截距项分别取均值，作为所述患病风险预测模型的系数，公式如下：

其中x_i为免疫细胞亚群比率，

为对应的特征系数，

为误差项。

12.根据权利要求11所述的一种细胞分类模型学习方法，其特征在于，在根据所述评估数据建立患病风险预测模型之后，还包括根据所述患病风险预测模型对所述测试集数据进行回测。

13.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至12任一所述的细胞分类模型学习方法。

14.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有执行权利要求1至12任一所述的细胞分类模型学习方法的计算机程序。