CN111583271A

CN111583271A - 一种基于癌症ct图像自动预测基因表达类别的方法

Info

Publication number: CN111583271A
Application number: CN202010285446.9A
Authority: CN
Inventors: 胡文心; 张绪坤; 李新星
Original assignee: East China Normal University
Current assignee: East China Normal University
Priority date: 2020-04-13
Filing date: 2020-04-13
Publication date: 2020-08-25

Abstract

本发明公开了一种基于癌症CT图像自动预测基因表达类别的方法，该方法包括以下步骤：a）获取ROI切片并将数量扩充48倍；b）基于DenseNet‑12和空间金字塔模块构建神经网络；c）使用聚焦损失函数进行训练；d）对模型预测综合评判得到最终的预测结果。本发明采用的数据扩充技术在不改变CT图像性质的同时能大大扩充数据量。具有4个维度的空间金字塔池化模块提取多层次的图像特征，既包含全局语义又把握细节的特征。使用Focal‑Loss来指导网络更加关注肿瘤边缘即首尾端难以挖掘有效特征的切片，以及使用精度逐步提升的训练策略，最终实现了准确和高效的CT图像基因突变预测。

Description

一种基于癌症CT图像自动预测基因表达类别的方法

技术领域

本发明涉及图像处理，计算机视觉，深度学习，医学图像计算和计算机辅助干预技术(Medical Image Computing and Computer-AssistedIntervention)领域，具体为一种基于癌症CT图像自动检测基因表达类型的方法。

背景技术

国内外最近的研究显示，癌症CT图像提取的特征与某些基因表达模式相关。如Shinagare等人在2015年验证得到肿瘤边缘、结节增强和肿瘤内血管与VHL突变之间的关联，Karlo等人在2014年提出PBRM1和SETD2两类基因突变主要见于实体(非囊性)肾透明细胞癌病例中。近两年来，越来越多的人开始在这上面进行探索。如2018年Mohammad等人利用多示例学习的CNN网络来检测肾透明细胞癌中的4中最常见基因突变的检测；2019年国内某高校利用3D神经网络预测肺癌中的EGFR突变，并取得了超过传统影像组学的效果；NicolasCoudray等人利用神经网络对非小细胞肺癌中的多个基因(STK11、EGFR、SETBP1、TP53、FAT1、KRAS、KEAP1、LRP1B、FAT4、NF1)进行预测，并讨论和分析实验结果，证明了神经网络技术能在更多的肿瘤类型与基因型上探索的可行性。

但是现有的这些方法都使用了大量的医学数据，而在实际情况中往往难以搜集到具有基因突变状态金标准的特定肿瘤CT数据集。并且，由于肿瘤大小、位置、形状的不同，现有的方法都会将其重采样为固定的尺寸进行训练，这无疑会损失图像的精度以及忽略了肿瘤个体间的差异。此外，CT序列的肿瘤边缘(即轴向的首端和末端)一般包含较少的肿瘤部分，这些切片层面很难进行特征的识别，现有的方法对此也都没有进行关注。

发明内容

本发明的目的是针对现有技术的不足而提出的一种基于癌症CT图像自动检测基因表达类型的辅助诊断方法。该方法一方面使少量的数据扩充后发挥更大的作用，另外采用金字塔模块取消输入尺寸必须固定的限制，以及使用Focal-loss函数关注那些难以预测的切片，最终训练得到准确和高效的预测结果。

实现本发明目的的具体技术方案是：

一种基于癌症CT图像自动预测基因表达类别的方法，该方法包括以下具体步骤：

步骤1：获取ROI切片并将图像数量扩充48倍；

步骤2：基于DenseNet-12和空间金字塔模块构建神经网络；

步骤3：将步骤1扩充的图像作为输入，使用步骤2构建的神经网络进行训练，训练的损失函数采用聚焦损失即Focal-Loss；

步骤4：使用步骤3训练后的网络模型进行预测，得到每一份输入图像的基因表达类别预测结果，即过表达、不表达或者阳性、阴性，并汇总同属一个CT序列的所有输入图像的预测结果，得到该CT序列整体的预测结果。

所述步骤1具体包括：

步骤A1：将完整的CT序列，抽取出包含肿瘤的切片，并根据肿瘤在切片上的位置以及大小，裁剪得到一个感兴趣区域即ROI立方体，ROI立方体为包含完整肿瘤的切片序列；

步骤A2：对裁剪得到ROI切片序列，其大小为n×w×h，n为序列层数，w为宽度，h为高度，将相邻的3张切片堆叠形成一组具有3个通道的数据，其大小为3×w×h；并将每组3通道数据内的3张ROI切片打乱堆叠的顺序，形成6种堆叠形式，将得到的数据记为A，其大小为n'×3×w×h，其中n'＝6*n；

步骤A3：对步骤A2的数据A进行转置，得到转置后的数据B，其大小为n'×3×h×w；

步骤A4：对步骤A2的数据A进行上下翻转，形成数据C，大小为n'×3×w×h；

步骤A5：对步骤A2的数据A进行左右翻转，形成数据D，大小为n'×3×w×h；

步骤A6：对步骤A2的数据A进行1次90°旋转，形成数据E，大小为n'×3×h×w；

步骤A7：对步骤A2的数据A进行2次90°旋转，形成数据F，大小为n'×3×w×h；

步骤A8：对步骤A3的数据B进行1次90°旋转，形成数据G，大小为n'×3×w×h；

步骤A9：对步骤A3的数据B进行左右翻转，形成数据H，大小为n'×3×h×w，至此ROI切片序列在不改变本身图像性质的同时，图像的数量扩充为原来的48倍，即为A+B+C+D+E+F+G+H的和。

所述步骤2具体包括：

步骤B1：将DenseNet-12第一层卷积层的卷积核调整为5*5，步长调整为1；

步骤B2：移除DenseNet-12的第一层池化层，并将步骤B1的卷积层直接连接第一个Dense Block；

步骤B3：第一个Dense Block包含6层Dense Layer，每一层Dense Layer由顺序连接的卷积层(Conv)、批标准化层(BatchNorm)和激活层(ReLU)组合形成，将其中所有卷积层的卷积核调整为3*3，步长调整为1；

步骤B4：将第一个Dense Block之后的transition层调整为2*2的最大池化；

步骤B5：在transition层后连接第二个Dense Block，设置与步骤B3中的DenseBlock相同；

步骤B6：第二个Dense Block之后连接具有4个池化核的空间金字塔池化模块,即SPP:Spatial Pyramid Pooling；SPP用于提取多层次的图像特征，输出1*1、2*2、3*3、4*4共4种大小的特征映射；

步骤B7：SPP后顺序连接3层全连接层，相邻全连接层中间设置丢参率为0.5的Dropout层，保证逐步的筛选出对于基因表达类型预测关联性最大的特征；其中第一层全连接层的输入单元数量为4200，输出单元数量为4200；第二层全连接层的输入单元数量为4200，输出单元数量为1000；第三层全连接层的输入单元数量为1000，输出单元数量为2。

所述步骤3具体包括：

步骤C1：步骤1得到的数据A+B+C+D+E+F+G+H记为data-1，将data-1经过中心裁剪得到切片大小为64*64的数据，记为data-2；

步骤C2：将data-2送入步骤2的网络中使用随机梯度下降法进行50轮训练，训练设置batch为64，训练所需的损失函数使用聚焦损失即Focal-Loss，其计算公式如下：

其中y是真实数据的基因表达类别标签，为1或者0，其中y＝1表示该数据的基因表达类别为“过表达”或者“阳性”；y＝0表示该数据的基因表达类别为“不表达”或者“阴性”；

公式中y'是模型对于每一份输入图像正确预测的概率值，为0到1之间的一个小数；其中y'越接近1，表示模型对输入图像正确预测的可能性越高；

由于实际情况中基因表达类别为“过表达”的概率要大于“不表达”的概率，即在训练数据的分布中，y＝1的数据数量要小于y＝0的数据数量，这就导致训练过程中两种类别的数据量不均衡；不同类别的数据量不均衡将导致网络并很难从数据中学习规律；α为可调整的参数，参数值的范围在0到1之间，用以解决数据量不均衡问题；具体来说，当α设置为大于0.5且小于1时，1-α就相应的为大于0且小于0.5，那么在上述公式中y＝1的数据就会产生更大的影响，y＝0的数据就会产生更小的影响，从而使网络对于“过表达”类别的数据更多的关注；

另外，在肿瘤切片轴向的首端或者末端往往难以挖掘有效的图像特征，因为首端和末端的图像都包含的是肿瘤的边缘区域，仅仅带有少量的肿瘤组织信息，因此这部分图像在模型中很容易预测错误。而公式中的参数γ用于解决这个问题。具体将γ设置为2，那么就会使模型预测产生的损失进行平方，从而对预测错误的图像产生更大的损失，指导网络在训练过程中给予这些图像更多的注意力，使模型的特征学习能力更强大。

该步骤经过50轮的训练获得模型M₁；

步骤C3：将data-1经过中心裁剪得到切片大小为100*100的数据，记为data-3；并将data-3送入步骤C2得到的模型M₁中训练，训练设置同步骤C2，50轮训练后获得模型M₂；

步骤C4：将data-1送入步骤C3获得的模型M₂中训练，获取准确率最高的最终模型M₃；训练设置batch为1，同样采用Focal-loss的随机梯度下降法进行训练。

所述步骤4具体包括：

步骤D1：将CT序列进行ROI立方体提取，并将ROI切片序列相邻3张切片组合形成3通道的输入数据，记为Input；

步骤D2：将Input输入训练好的模型M₃，预测得到每一份3通道数据的基因表达类别，所述类别为过表达、不表达或者阳性、阴性；

步骤D3：设置阈值为0.5，对于Input中的所有3通道数据的基因表达类别预测进行综合评判，类别预测为50％以上的即为最终的预测结果。

本发明的有益效果在于：

本发明具有易行性，只需要人工对CT图像提取肿瘤区域即可，不需要固定的大小尺寸，获取的任意大小切片均可进行训练。本发明具有非侵入性，传统的基因型鉴定需要活检和序列检测，这是侵入性的，可能会受到难以获得组织样本、以及患者风险加大的影响。在此，提出了的深度学习方法，通过非侵入性计算机断层扫描(CT)预测肿瘤中基因的表达状态。本发明具有高效性，一方面使少量的数据扩充后能发挥更大的作用，另外考虑肿瘤个体间的差异，所以采用4个维度金字塔模块取消输入尺寸必须固定的限制，同时还能把握到多层次的图像特征。最后使用Focal-loss函数关注肿瘤边缘那些难以识别特征的切片，通过3个尺寸不同batch的训练方式得到准确和高效的预测结果。

附图说明

图1为本发明的流程图；

图2为本发明的ROI切片获取示意图；

图3为本发明的数据扩充示意图；

图4为本发明的网络框架示意图。

具体实施方式

结合以下具体实施例和附图，对本发明作进一步的详细说明。实施本发明的过程、条件、实验方法等，除以下专门提及的内容之外，均为本领域的普遍知识和公知常识，本发明没有特别限制内容。

实施例

参阅图1、图2、图3以及图4，本发明利用癌症患者所拍摄的CT图像，通过勾画提取出包含肿瘤部分的ROI切片，并进行一系列的数据扩充方式，使数据量大大增加。然后设计网络模型，使用金字塔池化模块可以使模型不受固定大小尺寸的输入所限制，采用Focal-Loss函数用于调整损失，以便更好的训练模型。最终可以得到每份切片预测的基因表达类别，同时融合每一份切片的预测可以实现对肿瘤级别的基因进行预测。具体操作按下述步骤进行；

1)表1展示了从某医院搜集的20份带有HER-2基因突变检测结果的胃癌CT数据。按照3:1的方式划分了训练集和测试集。如图2所示，首先将训练集中每一份样例的CT序列，抽取出包含肿瘤的切片，并根据肿瘤在切片上的位置以及大小，裁剪得到一个ROI(region ofinterest，感兴趣区域)立方体，ROI立方体是一个包含完整肿瘤的切片序列。具体的数据信息以及提取的ROI立方体大小表1所示；

表1.实施过程中使用的CT数据信息以及提取ROI后的数据大小

2)图3描述了3通道数据的形成以及数据扩充方式。首先对裁剪得到ROI切片序列，其大小为n×w×h，n为序列层数，w为宽度，h为高度(例如对于case-1，其大小就如表1中所示为。)。将相邻的3张切片堆叠形成一组具有3个通道的数据，其大小为3×w×h；并将每组3通道数据内的3张ROI切片打乱堆叠的顺序，形成6种堆叠形式。表1训练集中的15个样例都经过处理，将处理后得到的数据记为A，其大小为n'×3×w×h，其中n'＝6*n；

3)对数据A进行转置，得到转置后的数据B，其大小为n'×3×h×w；

4)对数据A进行上下翻转，形成数据C，大小为n'×3×w×h；

5)对数据A进行左右翻转，形成数据D，大小为n'×3×w×h；

6)对数据A进行1次90°旋转，形成数据E，大小为n'×3×h×w；

7)对数据A进行2次90°旋转，形成数据F，大小为n'×3×w×h；

8)对数据B进行1次90°旋转，形成数据G，大小为n'×3×w×h；

9)对数据B进行左右翻转，形成数据H，大小为n'×3×h×w，至此ROI切片序列在不改变本身图像性质的同时，图像的数量扩充为原来的48倍，即为A+B+C+D+E+F+G+H的和。图3显示了A～H的8种转换后形式，可以看到图像的形状发生了变化，这实际也模仿了真实情况下不同肿瘤具有的形态学差异；

10)设计网络结构，首先将DenseNet-12第一层卷积层的卷积核调整为5*5，步长调整为1；

11)再移除DenseNet-12的第一层池化层，并将步骤10)中介绍的第一层卷积层直接连接第一个Dense Block；

12)网络中一个Dense Block包含6层Dense Layer，每一层Dense Layer由顺序连接的卷积层即Conv、批标准化层即BatchNorm和激活层即ReLU组合形成，将其中所有卷积层的卷积核调整为3*3，步长调整为1；

13)将第一个Dense Block之后的transition层调整为2*2的最大池化；

14)在transition层后连接第二个Dense Block，设置与第一个Dense Block相同；

15)第二个Dense Block之后连接具有4个池化核的空间金字塔池化模块即SPP；SPP用于提取多层次的图像特征，输出1*1、2*2、3*3、4*4大小的特征映射；

16)在SPP后顺序连接3层全连接层，相邻全连接层中间设置丢参率为0.5的Dropout层，保证逐步的筛选出对于基因表达类型预测关联性最大的特征；其中第一层全连接层的输入单元数量为4200，输出单元数量为4200；第二层全连接层的输入单元数量为4200，输出单元数量为1000；第三层全连接层的输入单元数量为1000，输出单元数量为2。图4为网络框架的示意图。

17)开始训练过程，首先将得到的数据A+B+C+D+E+F+G+H记为data-1，将data-1经过中心裁剪得到切片大小为64*64的数据，记为data-2；

18)将data-2送入设计好的网络中，使用随机梯度下降法进行50轮训练，获得模型M₁。其中，训练设置batch为64，训练所需的损失函数使用聚焦损失即Focal-Loss；

19)将data-1经过中心裁剪得到切片大小为100*100的数据，记为data-3；并将data-3送入模型M₁中训练，训练设置同步骤18)，50轮训练后获得模型M₂；

20)将data-1送入模型M₂，经过50轮训练获得最终模型M₃；训练设置batch为1，同样采用Focal-loss的随机梯度下降法进行训练。

21)对于预测的5个测试样例(test-1、test-2、test-3、test-4、test-5)。同样首先对每一个样例的CT序列提出ROI切片序列，并将ROI切片序列相邻3张切片组合形成3通道的输入数据，记为Input；

22)将Input输入训练好的最终模型M₃，预测得到每一份3通道数据的基因表达类别(所述类别为“过表达、不表达”或者“阳性、阴性”)；

23)设置阈值为0.5，对于Input中的所有3通道数据的基因表达类别预测进行综合评判，类别预测为50％以上的即为最终的预测结果，表2展示了该具体实例下本发明的预测结果(预测HER-2正确的图像数量以及占ROI序列层数的比例)，可以看到5个测试样例的图像预测准确率都比较高，同时在50％的阈值下，本发明对于肿瘤的基因突变预测结果(最终的预测结果)都是正确的。

表2.本发明对于5个测试数据预测的结果(图片预测正确的数量及比例)

测试集	HER-2突变状态	ROI序列层数	预测正确的数量	预测正确的比例
					test-1	过表达/阳性	50	47	94％(>50％)
test-2	过表达/阳性	102	91	89％(>50％)
					test-3	不表达/阴性	138	120	87％(>50％)
test-4	不表达/阴性	45	44	98％(>50％)
					test-5	不表达/阴性	74	69	93％(>50％)

本发明的保护内容不局限于以上实施例。在不背离发明构思的精神和范围下，本领域技术人员能够想到的变化和优点都被包括在本发明中，并且以所权利要求书为保护范围。

Claims

1.一种基于癌症CT图像自动预测基因表达类别的方法，其特征在于，该方法包括以下具体步骤：

步骤1：获取ROI切片并将图像数量扩充48倍；

步骤2：基于DenseNet-12和空间金字塔模块构建神经网络；

2.根据权利要求1所述的基于癌症CT图像自动检测基因表达类型的方法，其特征在于，所述步骤1具体包括：

3.根据权利要求1所述的基于癌症CT图像自动预测基因表达类别的方法，其特征在于，所述步骤2具体包括：

步骤B3：第一个Dense Block包含6层Dense Layer，每一层Dense Layer由顺序连接的卷积层即Conv、批标准化层即BatchNorm和激活层即ReLU组合形成，将其中所有卷积层的卷积核调整为3*3，步长调整为1；

步骤B5：在transition层后连接第二个Dense Block，设置与步骤B3中的Dense Block相同；

步骤B6：第二个Dense Block之后连接具有4个池化核的空间金字塔池化模块即SPP；SPP用于提取多层次的图像特征，输出1*1、2*2、3*3、4*4大小的特征映射；

4.根据权利要求1所述的基于癌症CT图像自动预测基因表达类别的方法，其特征在于，所述步骤3具体包括：

步骤C2：将data-2送入步骤2的网络中使用随机梯度下降法进行50轮训练，获得模型M₁；其中，训练设置batch为64，训练所需的损失函数使用聚焦损失即Focal-Loss，其计算公式如下：

其中y是真实数据的基因表达类别标签，为1或者0，其中y＝1表示该数据的基因表达类别为“过表达”或者“阳性”；y＝0表示该数据的基因表达类别为“不表达”或者“阴性”；y'是模型对于每一份输入图像正确预测的概率值，为0到1之间的一个小数；其中y'越接近1，表示模型对输入图像正确预测的可能性越高；α为可调整的参数，参数值的范围在0到1之间，用以解决数据量不均衡问题；γ为预测损失调整参数，γ设置为2；

5.根据权利要求1所述的基于癌症CT图像自动预测基因表达类别的方法，其特征在于，所述步骤4具体包括：