CN110504032B

CN110504032B - 基于苏木精-伊红染片的图像处理来预测肿瘤突变负荷的方法

Info

Publication number: CN110504032B
Application number: CN201910785723.XA
Authority: CN
Inventors: 杨家亮; 郎继东; 梁乐彬; 田埂
Original assignee: Yuancode Gene Technology Wuxi Co ltd
Current assignee: Yuancode Gene Technology Wuxi Co ltd
Priority date: 2019-08-23
Filing date: 2019-08-23
Publication date: 2022-09-09
Anticipated expiration: 2039-08-23
Also published as: CN110504032A

Abstract

本发明公开基于苏木精‑伊红染片图像预测肿瘤突变负荷的方法。本发明基于苏木精‑伊红染片技术，并通过对染片图像扫描、分割、提取和划分标准的模型处理单元，分析染片中细胞的形态和纹理等特征数据；进一步构建肿瘤突变负荷的预测模型并进行训练，从而实现提取图像特征完成分类并输出肿瘤突变负荷区间；将从受试者获取的苏木精‑伊红染片输入该预测模型，由此得到肿瘤突变负荷信息。本发明的方法更加经济和快捷，同时具有成本低、检查周期短和准确率高的优点。

Description

基于苏木精-伊红染片的图像处理来预测肿瘤突变负荷的方法

技术领域

本发明涉及肿瘤突变负荷预测，具体涉及基于苏木精-伊红染片的图像处理来预测肿瘤突变负荷的方法。

背景技术

苏木精-伊红染片是常见的病理学检测方法，具有成本低、检查周期短等优点。苏木精-伊红染片现在一般由人工读取，受限于人的视觉限制，读取的信息有限。通过机器学习能够读取更多的信息。有文献表明，可以通过深度学习算法直接从苏木精-伊红染片图像中预测微卫星不稳定性(MSI)的状态[Jakob Nikolas Kather,et al.Deep learning canpredict microsatellite instability directly from histology ingastrointestinal cancer.Nature Medicine doi:doi.org/10.1038/s41591-019-0462-y]。

肿瘤突变负荷(TMB)是免疫治疗的重要标志物。免疫治疗是否有效，主要依赖于免疫细胞对癌细胞特异性抗原的识别。从理论上讲，携带基因突变越多的癌症患者，癌细胞产生的新抗原越多，被免疫细胞识别的可能性更高。也就是说，TMB越高，患者从免疫治疗中获益越多。TMB是指全外显子中排除同义突变外的体系突变的总数量，一般需要进行全外的检测。然而，全外检测的费用比较昂贵，检测周期长。因此，探索更加经济和快捷的检测手段是当务之急。

发明内容

鉴于此，本发明建立一种基于苏木精-伊红染片的图像处理来预测肿瘤突变负荷的方法。本发明利用苏木精-伊红染片技术，结合深度学习对染片图像进行处理从而得到肿瘤突变负荷预测模型。至少部分地基于此完成了本发明。具体地，本发明包括以下内容。

本发明提供基于苏木精-伊红染片的图像处理来预测肿瘤突变负荷的方法，其包括以下步骤：

(1)图像处理步骤，其包括对苏木精-伊红染片进行图像扫描和分割，得到统一大小的图像分割单元，对所述图像分割单元的颜色进行标准化处理，得到标准化图像分割单元；

(2)构建肿瘤突变负荷的预测模型的步骤，将所述图像分割单元经包括输入模块、特征提取模块和输出模块的网络模型处理后输出肿瘤突变负荷的分类值，由此构建肿瘤突变负荷的预测模型；

(3)将从受试者获取的苏木精-伊红染片图像，经标准化处理后输入所述预测模型，由此预测肿瘤突变负荷的区间。

优选地，根据基于苏木精-伊红染片的图像处理来预测肿瘤突变负荷的方法，其中，在所述预测模型中：

所述输入模块为图像输入层，其用于将标准化处理后的图像分割单元输入所述预测模块；

所述特征提取模块包括中间隐层；所述输出模块包括全连接层，

所述中间隐层包括多个卷积组，各所述卷积组各自分别包括卷积层、ReLU激励层和池化层，所述卷积层包括多个卷积核，所述池化层用于使降维后的数据从其所在的卷积组输出完成一个特征提取过程；

其中，经多个卷积组完成的全部特征提取进入全连接层，输出为肿瘤突变负荷的分类值。

优选地，根据基于苏木精-伊红染片的图像处理来预测肿瘤突变负荷的方法，其中，步骤(2)还包括对所述预测模型进行训练的步骤，其中所述训练步骤包括：

(2-1)选取M个样本的苏木精-伊红染片，将染片图像分割成N个大小相同的标准单元，每个标准单元给出肿瘤突变负荷的高低标准标签，作为训练的标准答案，其中M为200以上的自然数，N为100以上的自然数；

(2-2)每一个单元作为输入数据输入到所述预测模型中，将输出的结果和标签进行比对，产生如下所示的误差函数：

其中N为输出位，d_i为理想预期输出，y_i为实际的输出。n为第n轮迭代；

(2-3)根据得到的误差调整参数，最终达到误差在可以接收的范围内。

优选地，根据基于苏木精-伊红染片的图像处理来预测肿瘤突变负荷的方法，其中，所述标签包含来自TCGA-OV、TCGA-UCEC、TCGA-LUAD和TCGA-BRCA四个癌种的信息，并且每个患者的标签通过已知数据库测序结果MAF文件得到的TMB值获得。

优选地，基于苏木精-伊红染片的图像处理来预测肿瘤突变负荷的方法，其中，步骤(2)还包括对所述预测模型进行交叉验证和/或独立验证的步骤，其中所述交叉验证包括：

a.将样本数据随机地分成n份，选择其中的1份作为测试集，其余的n-1份作为训练集；以所述n-1份训练集训练模型，并对所述测试集进行测试，由此完成一次验证，其中n为2以上的自然数；

b.重复步骤a进行n次验证，得到不同癌种的评价指数，从而完成所述交叉验证；

其中，所述独立验证采用多个样本的独立验证集对所述预测模型进行测试。

优选地，基于苏木精-伊红染片的图像处理来预测肿瘤突变负荷的方法，其中，所述评价指数包括敏感性和特异性。

优选地，基于苏木精-伊红染片的图像处理来预测肿瘤突变负荷的方法，其中，所述图像分割采用openCV函数进行，其包括：

使用GaussianBlur()函数对图像进行高斯滤波达到平滑去噪的效果；

使用Sobel_gradient()通过梯度的方法进行边缘检测，针对被检测点，在像素点灰度计算过程中，对像素点3*3领域上的8个方向的像素点所有点的灰度值进行加权差，并根据加权差的结果来确定被检测点的灰度值；

使用morphologyEx()、erode()和dilate()函数对图像进行腐蚀、膨胀、开运算和闭运算等图形形态学操作，获得图像的范围信息。

优选地，基于苏木精-伊红染片的图像处理来预测肿瘤突变负荷的方法，其中，所述颜色标准化处理包括：

a’将图像分割成尺寸大小相同的单元，区域大小不足的，用缺省值补全；

b’对预先存储好的数字病理切片图像进行通道分解，得到病理图像I(x，y)的三个通道分别为Ih(x,y)、Is(x,y)和Ii(x,y)，三个通道分别表示HSI三个颜色通道的像素值，定义线性函数转换表达式，其表达式为：

y＝(x-MinValue)/(MaxValue-MinValue)，其中，

x、y分别为转换前、后的值，MaxValue和MinValue分别为样本的最大值和最小值，分别应用到三个通道。

优选地，基于苏木精-伊红染片的图像处理来预测肿瘤突变负荷的方法，其中，所述图像分割单元的尺寸为128*128像素。

优选地，基于苏木精-伊红染片的图像处理来预测肿瘤突变负荷的方法，其中，所述苏木精-伊红染片通过包括下述步骤的方法得到：

(1-1)制备样品，选取贴壁生长细胞进行胰酶消化，调整细胞浓度约1×10⁵/ml，培养后取出细胞爬片使用PBS洗涤；

(1-2)乙醇或多聚甲醛固定样品，PBS洗涤2次，每次1min；

(1-3)苏木素染液进行染核染色2-20min；

(1-4)镜下观察，细胞核染色过深，可用盐酸酒精溶液分色数秒；

(1-5)浸入伊红染液进行染胞质染色1-5min；

(1-6)吹干或自然晾干细胞爬片后，使用中性树胶进行封片。

本发明的另一方面，提供基于苏木精-伊红染片的图像处理来预测肿瘤突变负荷的装置，其包括：

图像处理模块，其被配置为能够对苏木精-伊红染片进行图像扫描和分割，得到统一大小的图像分割单元，并能够对图像分割单元的颜色进行标准化处理，得到标准化图像分割单元；

构建肿瘤突变负荷的预测模型的模块，其被配置为能够将图像分割单元经包括输入模块、特征提取模块和输出模块的网络模型处理后输出肿瘤突变负荷的分类值；

预测模块，其被配置为能够将从受试者获取的苏木精-伊红染片图像，经标准化处理后输入所述预测模型，得到预测肿瘤突变负荷的区间。

本发明基于苏木精-伊红染片技术，通过染片图像扫描、分割、提取和划分标准的模型处理单元，分析染片中细胞的形态和纹理等特征数据；进一步构建肿瘤突变负荷的预测模型并进行训练，从而实现提取图像特征并完成分类输出肿瘤突变负荷区间；将从受试者获取的苏木精-伊红染片输入所述预测模型，由此得到肿瘤突变负荷信息。尤其是对于做了苏木精-伊红染片检验且需要做TMB检测的人群，由于检测TMB需要进行全外显子基因检测或额外的免疫化学检测，费用比较高，且需要时间较长，因此，本发明基于苏木精-伊红染片并结合深度学习的技术不仅节省了患者的检测费用，而且具有成本低，检查周期短的优点，且高准确率高达85％以上。

附图说明

图1为本发明方法的肿瘤突变负荷预测模型。

图2为本发明方法中肿瘤突变负荷分析的流程图。

具体实施方式

现详细说明本发明的多种示例性实施方式，该详细说明不应认为是对本发明的限制，而应理解为是对本发明的某些方面、特性和实施方案的更详细的描述。

应理解本发明中所述的术语仅仅是为描述特别的实施方式，并非用于限制本发明。另外，对于本发明中的数值范围，应理解为具体公开了该范围的上限和下限以及它们之间的每个中间值。在任何陈述值或陈述范围内的中间值以及任何其他陈述值或在所述范围内的中间值之间的每个较小的范围也包括在本发明内。这些较小范围的上限和下限可独立地包括或排除在范围内。

除非另有说明，否则本文使用的所有技术和科学术语具有本发明所述领域的常规技术人员通常理解的相同含义。虽然本发明仅描述了优选的方法和材料，但是在本发明的实施或测试中也可以使用与本文所述相似或等同的任何方法和材料。本说明书中提到的所有文献通过引用并入，用以公开和描述与所述文献相关的方法和/或材料。在与任何并入的文献冲突时，以本说明书的内容为准。除非另有说明，否则“％”或“量”均为基于重量的百分数。

本发明提供基于苏木精-伊红染片的图像处理来预测肿瘤突变负荷的方法。其中，“苏木精-伊红染片技术”是采用苏木精染液为碱性，主要使细胞核内的染色质与胞质内的核酸着紫蓝色；伊红为酸性染料，主要使细胞质和细胞外基质中的成分着红色。“深度学习”是指利用机器学习算法来处理数据，优选的机器学习算法为卷积神经网络[Goodfellow,I.,Bengio,Y.,Courville,A..Deep learning(Vol.1).Cambridge:MIT press,2016:326-366]。

本发明的基于苏木精-伊红染片的图像处理来预测肿瘤突变负荷的方法一般包括以下步骤：

(3)将从受试者获取的苏木精-伊红染片进行处理后输入所述预测模型，由此得到肿瘤突变负荷的区间。

需要说明的是，除了上述步骤(1)-(3)外，在不违背本发明的目的的前提下，本发明还可包括其他步骤。此类其他步骤可以在步骤(1)-(3)任何两者之间，或者在步骤(1)之前或在步骤(3)之后。只要能够实现本发明的目的，此类步骤的位置或顺序并不特别限定。下面详细说明本发明的步骤(1)-(3)。

步骤(1)

本发明的步骤(1)为图像处理步骤，其包括对苏木精-伊红染片进行图像扫描和分割，得到统一大小的图像分割单元，对所述图像分割单元的颜色进行标准化处理，得到标准化图像分割单元。

本发明中，苏木精-伊红染色法(hematoxylin-eosin staining)，简称HE染色法，石蜡切片技术里常用的染色法之一，其是组织学、胚胎学、病理学教学与科研中最基本、使用最广泛的技术方法。HE染片现在一般由人工读取，受限于人的视觉限制，读取的信息有限。因此，对图像进行进一步的分割和提取，采用的方法包括图像去噪，图像滤波，边缘检测，图像膨胀和收缩技术。首先把无关的背景去掉，保留需要的区域。

本发明中，图像去噪是指减少图像中噪声的过程。现实中的图像在数字化和传输过程中常受到成像设备与外部环境噪声干扰等影响，称为含噪图像或噪声图像。噪声是图像干扰的重要原因。一幅图像在实际应用中可能存在各种各样的噪声，这些噪声可能在传输中产生，也可能在量化等处理中产生；

本发明中，图像滤波，即在尽量保留图像细节特征的条件下对目标图像的噪声进行抑制，是图像预处理中不可缺少的操作，其处理效果的好坏将直接影响到后续图像处理和分析的有效性和可靠性。本发明使用GaussianBlur()函数对图形进行高斯滤波，高斯滤波是通过对输入数组的每个点与输入的高斯滤波模板执行卷积计算然后将这些结果一块组成了滤波后的输出数组，高斯滤波的具体操作是：用一个模板(或称卷积、掩模)扫描图像中的每一个像素，用模板确定的邻域内像素的加权平均灰度值去替代模板中心像素点的值。以此达到平滑去噪的效果；

本发明中，边缘检测是图像处理和计算机视觉中的基本问题，边缘检测的目的是标识数字图像中亮度变化明显的点。图像属性中的显著变化通常反映了属性的重要事件和变化。这些包括(i)深度上的不连续、(ii)表面方向不连续、(iii)物质属性变化和(iv)场景照明变化。边缘检测是图像处理和计算机视觉中，尤其是特征提取中的一个研究领域，本发明使用Sobel_gradient()通过梯度的方法进行边缘检测，本方法的sobel算子针对被检测点，在像素点灰度计算过程中，考虑到了像素点3*3领域上的8个方向的像素点，并将所有点的灰度值进行加权差，并根据加权差的结果来确定被检测点的灰度值；

本发明中，图像膨胀和收缩技术属于形态学运算的基本操作，可以简化图像数据，保持它们的基本形状，有效滤除噪声，用具有一定形态的结构元素找到图像中的对应形状已达到图像分割识别的目的，本发明使用morphologyEx()、erode()和dilate()函数对图像进行腐蚀、膨胀、开运算和闭运算等形态学操作，获得的范围信息。

优选地，对于处理后的图像需要进行标准化处理步骤，包括以下2个步骤：

a’.对图像进行归一化处理，即分割成大小相同的单元，单元尺寸为：128*128像素，如果区域大小不足的，用缺省值补全；

b’.由于扫描平台的病理全切片受染色剂配比、染色平台和成像平台的影响，来自不同平台的切片在颜色上的差异很大，这种差异会影响计算机辅助诊断方法的准确度。为了减少这一差异带来的影响，因此有必要对颜色进行标准化处理。标准化的步骤包括对预先存储好的数字病理切片图像进行通道分解，得到病理图像I(x，y)的三个通道，分别为Ih(x,y)、Is(x,y)和Ii(x,y)三个通道，分别表示HSI三个颜色通道的像素值。定义线性函数转换，其表达式如下：

y＝(x-MinValue)/(MaxValue-MinValue)，其中，

x、y分别为转换前、后的值，MaxValue、MinValue分别为样本的最大值和最小值，分别应用到三个通道。

步骤(2)

本发明的步骤(2)为构建肿瘤突变负荷的预测模型的步骤，将所述图像分割单元经包括输入模块、特征提取模块和输出模块的网络模型处理后输出肿瘤突变负荷的分类值，由此构建肿瘤突变负荷的预测模型。优选地，包括使用卷积神经网络，对所述模型进行分类训练和进一步的验证。

本领域已知卷积神经网络为一种包含卷积计算且具有深度结构的卷积神经网络(Convolutional Neural Networks)前馈神经网络(Feedforward Neural Networks)，是深度学习的代表算法之一，本文在此不做具体说明。

本发明中，输入模块为图像输入层，将标准化处理后的图像分割单元输入所述模块；特征提取模块包括中间隐层；输出模块包括全连接层。

本发明中，中间隐层包括多个卷积组，例如3-10个卷积组，优选3-5个卷积组。本发明中，每个卷积组包括卷积层、ReLU激励层和池化层。其中，卷积层包括多个，例如32个5×5的卷积核以。池化层经其降维后的数据从其所在的卷积组输出完成一个完整的提取特征的过程。多个卷积组完成全部的特征提取后经过全连接层，输出最终结果为肿瘤突变负荷的分类值。

在某些实施方案中，本发明的中间隐层包括三个卷积组，分别为第一卷积组、第二卷积组和第三卷积组。第一卷积组、第二卷积组和第三卷积组分别完成一个完整的提取特征的过程，最后将三个卷积组完成的全部特征提取后经过全连接层输出肿瘤突变负荷的分类值。

本发明中，激励函数优选选取ReLU函数，y＝max(x,0)，这个函数的优点是计算量小，收敛快。在网络反向传播过程中，减轻了梯度弥散的问题。

本发明中，构建预测模型一般包括对预测模型进行模型训练和准确率的验证，训练方法采用有监督的训练方法，即每个患者的标签通过MAF提供的信息统计出TMB的数值；准确率验证包括交叉验证和独立验证集进行测试的步骤，其中，

模型训练包括以下步骤：选取M个样本的苏木精-伊红染片，将染片图像分割成N个大小相同的标准单元，每个标准单元给出TMB的高低标准标签，作为训练的标准答案，其中M为200以上的自然数，例如200、250、300、350等。N为100以上的自然数；每一个单元作为输入数据输入到所述的预测模型中，结果和标签进行比对，产生误差函数，误差函数如下：

根据计算数来的误差采取梯度下降法调整参数，最终达到误差在可以接收的范围内，训练成功。

交叉验证优选包括以下子步骤：a.将样本数据随机地分成n份，选择其中的1份作为测试集，其余的n-1份作为训练集；以所述n-1份训练集训练模型，并对所述测试集进行测试，由此完成一次验证，其中，n为5-100之间的自然数，优选5-50之间的自然数，更优选5-20之间的自然数，例如8、10和12等；和b.重复步骤a进行n次验证，从而完成交叉验证，本发明中，确定预测模型的计算评价指数可包括敏感性和特异性。进一步地，采用TCGA上获取了20个肺癌的独立验证集对所选模型进行测试，测试的结果用判断的正确率给出。

在示例性实施方案中，本发明的n为10，采用10倍交叉验证来防止训练的过拟合。即，本发明的交叉验证包括将样本数据随机的分成10份，依次选择其中的1份作为测试集，剩下的9份作为训练集，以9份训练集训练模型后，对1份测试集进行测试。在完成10次训练和测试流程后，每个样本正好被预测了1次。

其中，数据库可来自于已知的任何数据库，只要其收录了所述标签，即，含有MAF提供的信息即可。在示例性实施方案中，本发明的数据库可以是根据例如从公开渠道收集的已知数据构建的数据库。在示例性实施方案中，本发明数据库是商业渠道购买的数据库。在示例性实施方案中，本发明的数据库来源于TCGA数据库。

步骤(3)

本发明的步骤(3)为预测肿瘤突变负荷的步骤，其包括将将从受试者获取的苏木精-伊红染片进行归一化处理后输入所述预测模型，由此得到肿瘤突变负荷的区间。

本发明中，受试者是指待测对象，其一般是指患有肿瘤或癌症的患者。优选地，本发明的受试者包括做了苏木精-伊红染片检验且需要做TMB检测的肿瘤或癌症人群。

实施例

本实施例用于示例性说明本发明的方法。

一、样本信息

选择来自TCGA数据库中Experimental Strategy为WXS，Data Format中有MAF信息的权限开放的样本200例，癌种分布在TCGA-OV、TCGA-UCEC、TCGA-LUAD和TCGA-BRCA的4个癌种，每个患者的标签通过MAF文件得到的TMB值来获得。

二、实验步骤

1.苏木精-伊红染色：

1.1样品制备：选择贴壁生长细胞，胰酶消化，调整细胞浓度约1×10⁵/ml，滴加于盖玻片上(置于6孔板中)，培养相应时间后，取出细胞爬片，用PBS洗涤3次。

1.2样品固定：95％乙醇固定20min，PBS洗涤2次，每次1min。

1.3染核：苏木素染液染色2-3min，自来水洗涤。

1.4分色：镜下观察，若细胞核染色过深，用1％盐酸酒精溶液分色数秒，自来水洗涤。

1.5染胞质：浸入伊红染液染色1min，自来水洗涤。

1.6封片：吹干或自然晾干细胞爬片后，中性树胶封片。

若细胞用4％多聚甲醛固定，则染色时间相应延长，例如，苏木素染色12-15min，伊红5min即可。

2.图片的分割和提取

2.1图像分割

首先把无关的背景去掉，保留需要的区域。图像分割处理的方法采用openCV函数包，包括：

(1)使用GaussianBlur()函数对图形进行高斯滤波：高斯滤波是通过对输入数组的每个点与输入的高斯滤波模板执行卷积计算然后将这些结果一块组成了滤波后的输出数组，高斯滤波的具体操作是：用一个模板(或称卷积、掩模)扫描图像中的每一个像素，用模板确定的邻域内像素的加权平均灰度值去替代模板中心像素点的值。以此达到平滑去噪的效果。

(2)使用Sobel_gradient()通过梯度的方法进行边缘检测：本方法的sobel算子针对被检测点，在像素点灰度计算过程中，考虑到了像素点3*3领域上的8个方向的像素点，并将所有点的灰度值进行加权差，并根据加权差的结果来确定被检测点的灰度值。

(3)图形形态学操作：使用morphologyEx()和erode(),dilate()函数对图片进行腐蚀，膨胀，开运算，闭运算等形态学操作，获得的范围信息。

2.2图像提取和标准化

(1)对图像分割成大小相同的单元，单元尺寸为：128*128像素。

(2)扫描平台的病理全切片(Whole Slide Image，WSI)受染色剂配比、染色平台、成像平台的影响，来自不同平台的WSI在颜色上的差异很大。这种差异会影响计算机辅助诊断方法的准确度。为了减少这一差异带来的影响，因此有必要对颜色进行标准化处理。即，

对预先存储好的数字病理切片图像进行通道分解，得到病理图像I(x，y)的三个通道分别为Ih(x,y)、Is(x,y)和Ii(x,y)三个通道分别表示HSI三个颜色通道的像素值。定义了线性函数转换，表达式如下：

y＝(x-MinValue)/(MaxValue-MinValue)

其中，x、y分别为转换前、后的值，MaxValue、MinValue分别为样本的最大值和最小值，分别应用到三个通道。

3.预测模型的构建

3.1输入层为128*128的HE细胞图片，所有输入的细胞图都归一化成这个尺寸。

3.2模型包括三个模块，分别为输入模块、特征提取模块和输出模块。其中，输入模块为图像输入层，将标准化处理后的图像分割单元输入所述模块；特征提取模块包括中间隐层；输出模块包括全连接层，其中，

中间隐层包括以下3层：卷积层layer1-conv，卷积层包括32个5×5的卷积核；ReLU激励层；池化层layer1-pool，经池化层降维后的数据从第一个隐层输出完成完整的提取特征的过程，即

layer1、layer2和layer3完成全部的特征提取后经过全连接层，输出最终结果为肿瘤突变负荷的分类值。其中，本发明的激励函数选取ReLU函数为y＝max(x,0)，这个函数的优点是计算量小，收敛快。在网络反向传播过程中，减轻了梯度弥散的问题。

3.3采用有监督的训练方法。每个患者的标签通过MAF提供的信息统计出TMB的数值。

4.模型训练

每个样本的HE染片按照上述分割原则分割成若干标准单元。每个单元的处理方案如下：

4.1每个标准单元给出TMB的高低标准标签，作为训练的标准答案。

4.2每一个单元作为输入数据输入到上述的模型中，结果和标签进行比对。产生误差函数如下：

其中N为输出位，d_i为理想预期输出，y_i为实际的输出。n为第n轮迭代。

4.3根据计算数来的误差采取梯度下降法调整参数，最终达到误差在可以接收的范围内，训练成功。

5.模型准确率的验证和测试

采用TCGA数据库中的4个癌种，取出的200个样本利用10折交叉验证来验证结果的准确率。10折交叉验证会将样本数据随机的分成10份，依次选择其中的1份作为测试集，剩下的9份作为训练集，以9份训练集训练模型后，对1份测试集进行测试。在完成10次训练和测试流程后，每个样本正好被预测了1次，结果见表1所示。同时采用TCGA数据库中，20个肺癌的独立验证集，对所选模型进行测试，结果见表2所示。

三、结果总结

1.苏木精-伊红染色结果：

细胞核被苏木精染成鲜明的蓝色，软骨基质、钙盐颗粒呈深蓝色，粘液呈灰蓝色。细胞浆被伊红染成深浅不同的粉红色至桃红色，胞浆内嗜酸性颗粒呈反光强的鲜红色。胶原纤维呈淡粉红色，弹力纤维呈亮粉红色，红血球呈橘红色，蛋白性液体呈粉红色。着色情况与组织或细胞的种类有关，也随其生活周期及病理变化而改变。例如，细胞在新生时期胞浆对伊红着色较淡或轻度嗜碱，当其衰老时或发生退行性变则呈现嗜伊红浓染。胶原纤维在老化和出现透明变性时，伊红着色由浅变深。

2.通过10折交叉验证，对4个癌种进行训练及测试，并得到不同癌种的敏感性和特异性(见表1)。20个肺癌的独立验证集对所选模型进行测试，结果见表2所示，结果显示，准确率高达85％以上。

表1-十倍交叉验证敏感性和特异性

表2-20个肺癌样本独立验证敏感性和特异性

注：TMB的高低判定的阈值为：组织样本阈值是20，血液样本阈值是16。

尽管已经参考示例性实施方案描述了本发明，但应理解本发明不限于公开的示例性实施方案。在不背离本发明的范围或精神的情况下，可对本发明说明书的示例性实施方案做多种调整或改变。本发明的权利要求的范围应基于最宽的解释以涵盖所有修改和等同结构与功能。

Claims

1.一种基于苏木精-伊红染片的图像处理来预测肿瘤突变负荷的方法，其特征在于，包括以下步骤：

(1)图像处理步骤，其包括对苏木精-伊红染片进行图像扫描和分割，得到统一大小的图像分割单元，对所述图像分割单元的颜色进行标准化处理，得到标准化图像分割单元；对图像进行进一步的分割和提取，采用的方法包括图像去噪，图像滤波，边缘检测，图像膨胀和收缩技术；

(3)将从受试者获取的苏木精-伊红染片图像，经标准化处理后输入所述预测模型，由此预测肿瘤突变负荷的区间；

步骤(2)还包括对所述预测模型进行训练的步骤，其中所述训练步骤包括：

其中N为输出位，di为理想预期输出，yi为实际的输出，n为第n轮迭代；

所述标签包含来自TCGA-OV(卵巢癌)、TCGA-UCEC(子宫内膜癌)、TCGA-LUAD(肺腺癌)和TCGA-BRCA(乳腺癌)四个癌种的信息，并且每个患者的标签通过已知数据库测序结果MAF文件得到的TMB值获得。

2.根据权利要求1所述的基于苏木精-伊红染片的图像处理来预测肿瘤突变负荷的方法，其特征在于，在所述预测模型中：

所述输入模块为图像输入层，其用于将标准化处理后的图像分割单元输入所述预测模型；

所述特征提取模块包括中间隐层；所述输出模块包括全连接层，所述中间隐层包括多个卷积组，各所述卷积组各自分别包括卷积层、ReLU激励层和池化层，所述卷积层包括多个卷积核，所述池化层用于使降维后的数据从其所在的卷积组输出完成一个特征提取过程；

3.根据权利要求1所述的基于苏木精-伊红染片的图像处理来预测肿瘤突变负荷的方法，其特征在于，步骤(2)还包括对所述预测模型进行训练的步骤，其中所述训练步骤包括：

4.根据权利要求1所述的基于苏木精-伊红染片的图像处理来预测肿瘤突变负荷的方法，其特征在于，步骤(2)还包括对所述预测模型进行交叉验证和/或独立验证的步骤，其中所述交叉验证包括：

5.根据权利要求4所述的基于苏木精-伊红染片的图像处理来预测肿瘤突变负荷的方法，其特征在于，所述评价指数包括敏感性和特异性。

6.根据权利要求1所述的基于苏木精-伊红染片的图像处理来预测肿瘤突变负荷的方法，其特征在于，所述图像分割采用openCV函数进行，其包括：

7.根据权利要求1所述的基于苏木精-伊红染片的图像处理来预测肿瘤突变负荷的方法，其特征在于，所述颜色标准化处理包括：

y＝(x-MinValue)/(MaxValue-MinValue)，其中，

8.根据权利要求7所述的基于苏木精-伊红染片的图像处理来预测肿瘤突变负荷的方法，其特征在于，所述图像分割单元的尺寸为128*128像素。

9.根据权利要求1所述的基于苏木精-伊红染片的图像处理来预测肿瘤突变负荷的方法，其特征在于，所述苏木精-伊红染片通过包括下述步骤的方法得到：

(1-1)制备样品，选取贴壁生长细胞进行胰酶消化，调整细胞浓度约1×105/ml，培养后取出细胞爬片使用PBS洗涤；

(1-2)乙醇或多聚甲醛固定样品，PBS洗涤2次，每次1min；

(1-3)苏木素染液进行染核染色2-20min；

(1-5)浸入伊红染液进行染胞质染色1-5min；

(1-6)吹干或自然晾干细胞爬片后，使用中性树胶进行封片。