CN111583271A - 一种基于癌症ct图像自动预测基因表达类别的方法 - Google Patents

一种基于癌症ct图像自动预测基因表达类别的方法 Download PDF

Info

Publication number
CN111583271A
CN111583271A CN202010285446.9A CN202010285446A CN111583271A CN 111583271 A CN111583271 A CN 111583271A CN 202010285446 A CN202010285446 A CN 202010285446A CN 111583271 A CN111583271 A CN 111583271A
Authority
CN
China
Prior art keywords
data
layer
size
training
gene expression
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010285446.9A
Other languages
English (en)
Inventor
胡文心
张绪坤
李新星
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
East China Normal University
Original Assignee
East China Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by East China Normal University filed Critical East China Normal University
Priority to CN202010285446.9A priority Critical patent/CN111583271A/zh
Publication of CN111583271A publication Critical patent/CN111583271A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/0002Inspection of images, e.g. flaw detection
    • G06T7/0012Biomedical image inspection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
    • G16B25/10Gene or protein expression profiling; Expression-ratio estimation or normalisation
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H30/00ICT specially adapted for the handling or processing of medical images
    • G16H30/40ICT specially adapted for the handling or processing of medical images for processing medical images, e.g. editing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10072Tomographic images
    • G06T2207/10081Computed x-ray tomography [CT]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20016Hierarchical, coarse-to-fine, multiscale or multiresolution image processing; Pyramid transform
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20092Interactive image processing based on input by user
    • G06T2207/20104Interactive definition of region of interest [ROI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20112Image segmentation details
    • G06T2207/20132Image cropping
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30004Biomedical image processing
    • G06T2207/30092Stomach; Gastric
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30004Biomedical image processing
    • G06T2207/30096Tumor; Lesion

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Medical Informatics (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Data Mining & Analysis (AREA)
  • Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Genetics & Genomics (AREA)
  • Radiology & Medical Imaging (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Biotechnology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Epidemiology (AREA)
  • Primary Health Care (AREA)
  • Public Health (AREA)
  • Quality & Reliability (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于癌症CT图像自动预测基因表达类别的方法,该方法包括以下步骤:a)获取ROI切片并将数量扩充48倍;b)基于DenseNet‑12和空间金字塔模块构建神经网络;c)使用聚焦损失函数进行训练;d)对模型预测综合评判得到最终的预测结果。本发明采用的数据扩充技术在不改变CT图像性质的同时能大大扩充数据量。具有4个维度的空间金字塔池化模块提取多层次的图像特征,既包含全局语义又把握细节的特征。使用Focal‑Loss来指导网络更加关注肿瘤边缘即首尾端难以挖掘有效特征的切片,以及使用精度逐步提升的训练策略,最终实现了准确和高效的CT图像基因突变预测。

Description

一种基于癌症CT图像自动预测基因表达类别的方法
技术领域
本发明涉及图像处理,计算机视觉,深度学习,医学图像计算和计算机辅助干预技术(Medical Image Computing and Computer-AssistedIntervention)领域,具体为一种基于癌症CT图像自动检测基因表达类型的方法。
背景技术
国内外最近的研究显示,癌症CT图像提取的特征与某些基因表达模式相关。如Shinagare等人在2015年验证得到肿瘤边缘、结节增强和肿瘤内血管与VHL突变之间的关联,Karlo等人在2014年提出PBRM1和SETD2两类基因突变主要见于实体(非囊性)肾透明细胞癌病例中。近两年来,越来越多的人开始在这上面进行探索。如2018年Mohammad等人利用多示例学习的CNN网络来检测肾透明细胞癌中的4中最常见基因突变的检测;2019年国内某高校利用3D神经网络预测肺癌中的EGFR突变,并取得了超过传统影像组学的效果;NicolasCoudray等人利用神经网络对非小细胞肺癌中的多个基因(STK11、EGFR、SETBP1、TP53、FAT1、KRAS、KEAP1、LRP1B、FAT4、NF1)进行预测,并讨论和分析实验结果,证明了神经网络技术能在更多的肿瘤类型与基因型上探索的可行性。
但是现有的这些方法都使用了大量的医学数据,而在实际情况中往往难以搜集到具有基因突变状态金标准的特定肿瘤CT数据集。并且,由于肿瘤大小、位置、形状的不同,现有的方法都会将其重采样为固定的尺寸进行训练,这无疑会损失图像的精度以及忽略了肿瘤个体间的差异。此外,CT序列的肿瘤边缘(即轴向的首端和末端)一般包含较少的肿瘤部分,这些切片层面很难进行特征的识别,现有的方法对此也都没有进行关注。
发明内容
本发明的目的是针对现有技术的不足而提出的一种基于癌症CT图像自动检测基因表达类型的辅助诊断方法。该方法一方面使少量的数据扩充后发挥更大的作用,另外采用金字塔模块取消输入尺寸必须固定的限制,以及使用Focal-loss函数关注那些难以预测的切片,最终训练得到准确和高效的预测结果。
实现本发明目的的具体技术方案是:
一种基于癌症CT图像自动预测基因表达类别的方法,该方法包括以下具体步骤:
步骤1:获取ROI切片并将图像数量扩充48倍;
步骤2:基于DenseNet-12和空间金字塔模块构建神经网络;
步骤3:将步骤1扩充的图像作为输入,使用步骤2构建的神经网络进行训练,训练的损失函数采用聚焦损失即Focal-Loss;
步骤4:使用步骤3训练后的网络模型进行预测,得到每一份输入图像的基因表达类别预测结果,即过表达、不表达或者阳性、阴性,并汇总同属一个CT序列的所有输入图像的预测结果,得到该CT序列整体的预测结果。
所述步骤1具体包括:
步骤A1:将完整的CT序列,抽取出包含肿瘤的切片,并根据肿瘤在切片上的位置以及大小,裁剪得到一个感兴趣区域即ROI立方体,ROI立方体为包含完整肿瘤的切片序列;
步骤A2:对裁剪得到ROI切片序列,其大小为n×w×h,n为序列层数,w为宽度,h为高度,将相邻的3张切片堆叠形成一组具有3个通道的数据,其大小为3×w×h;并将每组3通道数据内的3张ROI切片打乱堆叠的顺序,形成6种堆叠形式,将得到的数据记为A,其大小为n'×3×w×h,其中n'=6*n;
步骤A3:对步骤A2的数据A进行转置,得到转置后的数据B,其大小为n'×3×h×w;
步骤A4:对步骤A2的数据A进行上下翻转,形成数据C,大小为n'×3×w×h;
步骤A5:对步骤A2的数据A进行左右翻转,形成数据D,大小为n'×3×w×h;
步骤A6:对步骤A2的数据A进行1次90°旋转,形成数据E,大小为n'×3×h×w;
步骤A7:对步骤A2的数据A进行2次90°旋转,形成数据F,大小为n'×3×w×h;
步骤A8:对步骤A3的数据B进行1次90°旋转,形成数据G,大小为n'×3×w×h;
步骤A9:对步骤A3的数据B进行左右翻转,形成数据H,大小为n'×3×h×w,至此ROI切片序列在不改变本身图像性质的同时,图像的数量扩充为原来的48倍,即为A+B+C+D+E+F+G+H的和。
所述步骤2具体包括:
步骤B1:将DenseNet-12第一层卷积层的卷积核调整为5*5,步长调整为1;
步骤B2:移除DenseNet-12的第一层池化层,并将步骤B1的卷积层直接连接第一个Dense Block;
步骤B3:第一个Dense Block包含6层Dense Layer,每一层Dense Layer由顺序连接的卷积层(Conv)、批标准化层(BatchNorm)和激活层(ReLU)组合形成,将其中所有卷积层的卷积核调整为3*3,步长调整为1;
步骤B4:将第一个Dense Block之后的transition层调整为2*2的最大池化;
步骤B5:在transition层后连接第二个Dense Block,设置与步骤B3中的DenseBlock相同;
步骤B6:第二个Dense Block之后连接具有4个池化核的空间金字塔池化模块,即SPP:Spatial Pyramid Pooling;SPP用于提取多层次的图像特征,输出1*1、2*2、3*3、4*4共4种大小的特征映射;
步骤B7:SPP后顺序连接3层全连接层,相邻全连接层中间设置丢参率为0.5的Dropout层,保证逐步的筛选出对于基因表达类型预测关联性最大的特征;其中第一层全连接层的输入单元数量为4200,输出单元数量为4200;第二层全连接层的输入单元数量为4200,输出单元数量为1000;第三层全连接层的输入单元数量为1000,输出单元数量为2。
所述步骤3具体包括:
步骤C1:步骤1得到的数据A+B+C+D+E+F+G+H记为data-1,将data-1经过中心裁剪得到切片大小为64*64的数据,记为data-2;
步骤C2:将data-2送入步骤2的网络中使用随机梯度下降法进行50轮训练,训练设置batch为64,训练所需的损失函数使用聚焦损失即Focal-Loss,其计算公式如下:
Figure BDA0002448332170000031
其中y是真实数据的基因表达类别标签,为1或者0,其中y=1表示该数据的基因表达类别为“过表达”或者“阳性”;y=0表示该数据的基因表达类别为“不表达”或者“阴性”;
公式中y'是模型对于每一份输入图像正确预测的概率值,为0到1之间的一个小数;其中y'越接近1,表示模型对输入图像正确预测的可能性越高;
由于实际情况中基因表达类别为“过表达”的概率要大于“不表达”的概率,即在训练数据的分布中,y=1的数据数量要小于y=0的数据数量,这就导致训练过程中两种类别的数据量不均衡;不同类别的数据量不均衡将导致网络并很难从数据中学习规律;α为可调整的参数,参数值的范围在0到1之间,用以解决数据量不均衡问题;具体来说,当α设置为大于0.5且小于1时,1-α就相应的为大于0且小于0.5,那么在上述公式中y=1的数据就会产生更大的影响,y=0的数据就会产生更小的影响,从而使网络对于“过表达”类别的数据更多的关注;
另外,在肿瘤切片轴向的首端或者末端往往难以挖掘有效的图像特征,因为首端和末端的图像都包含的是肿瘤的边缘区域,仅仅带有少量的肿瘤组织信息,因此这部分图像在模型中很容易预测错误。而公式中的参数γ用于解决这个问题。具体将γ设置为2,那么就会使模型预测产生的损失进行平方,从而对预测错误的图像产生更大的损失,指导网络在训练过程中给予这些图像更多的注意力,使模型的特征学习能力更强大。
该步骤经过50轮的训练获得模型M1
步骤C3:将data-1经过中心裁剪得到切片大小为100*100的数据,记为data-3;并将data-3送入步骤C2得到的模型M1中训练,训练设置同步骤C2,50轮训练后获得模型M2
步骤C4:将data-1送入步骤C3获得的模型M2中训练,获取准确率最高的最终模型M3;训练设置batch为1,同样采用Focal-loss的随机梯度下降法进行训练。
所述步骤4具体包括:
步骤D1:将CT序列进行ROI立方体提取,并将ROI切片序列相邻3张切片组合形成3通道的输入数据,记为Input;
步骤D2:将Input输入训练好的模型M3,预测得到每一份3通道数据的基因表达类别,所述类别为过表达、不表达或者阳性、阴性;
步骤D3:设置阈值为0.5,对于Input中的所有3通道数据的基因表达类别预测进行综合评判,类别预测为50%以上的即为最终的预测结果。
本发明的有益效果在于:
本发明具有易行性,只需要人工对CT图像提取肿瘤区域即可,不需要固定的大小尺寸,获取的任意大小切片均可进行训练。本发明具有非侵入性,传统的基因型鉴定需要活检和序列检测,这是侵入性的,可能会受到难以获得组织样本、以及患者风险加大的影响。在此,提出了的深度学习方法,通过非侵入性计算机断层扫描(CT)预测肿瘤中基因的表达状态。本发明具有高效性,一方面使少量的数据扩充后能发挥更大的作用,另外考虑肿瘤个体间的差异,所以采用4个维度金字塔模块取消输入尺寸必须固定的限制,同时还能把握到多层次的图像特征。最后使用Focal-loss函数关注肿瘤边缘那些难以识别特征的切片,通过3个尺寸不同batch的训练方式得到准确和高效的预测结果。
附图说明
图1为本发明的流程图;
图2为本发明的ROI切片获取示意图;
图3为本发明的数据扩充示意图;
图4为本发明的网络框架示意图。
具体实施方式
结合以下具体实施例和附图,对本发明作进一步的详细说明。实施本发明的过程、条件、实验方法等,除以下专门提及的内容之外,均为本领域的普遍知识和公知常识,本发明没有特别限制内容。
实施例
参阅图1、图2、图3以及图4,本发明利用癌症患者所拍摄的CT图像,通过勾画提取出包含肿瘤部分的ROI切片,并进行一系列的数据扩充方式,使数据量大大增加。然后设计网络模型,使用金字塔池化模块可以使模型不受固定大小尺寸的输入所限制,采用Focal-Loss函数用于调整损失,以便更好的训练模型。最终可以得到每份切片预测的基因表达类别,同时融合每一份切片的预测可以实现对肿瘤级别的基因进行预测。具体操作按下述步骤进行;
1)表1展示了从某医院搜集的20份带有HER-2基因突变检测结果的胃癌CT数据。按照3:1的方式划分了训练集和测试集。如图2所示,首先将训练集中每一份样例的CT序列,抽取出包含肿瘤的切片,并根据肿瘤在切片上的位置以及大小,裁剪得到一个ROI(region ofinterest,感兴趣区域)立方体,ROI立方体是一个包含完整肿瘤的切片序列。具体的数据信息以及提取的ROI立方体大小表1所示;
表1.实施过程中使用的CT数据信息以及提取ROI后的数据大小
Figure BDA0002448332170000051
2)图3描述了3通道数据的形成以及数据扩充方式。首先对裁剪得到ROI切片序列,其大小为n×w×h,n为序列层数,w为宽度,h为高度(例如对于case-1,其大小就如表1中所示为。)。将相邻的3张切片堆叠形成一组具有3个通道的数据,其大小为3×w×h;并将每组3通道数据内的3张ROI切片打乱堆叠的顺序,形成6种堆叠形式。表1训练集中的15个样例都经过处理,将处理后得到的数据记为A,其大小为n'×3×w×h,其中n'=6*n;
3)对数据A进行转置,得到转置后的数据B,其大小为n'×3×h×w;
4)对数据A进行上下翻转,形成数据C,大小为n'×3×w×h;
5)对数据A进行左右翻转,形成数据D,大小为n'×3×w×h;
6)对数据A进行1次90°旋转,形成数据E,大小为n'×3×h×w;
7)对数据A进行2次90°旋转,形成数据F,大小为n'×3×w×h;
8)对数据B进行1次90°旋转,形成数据G,大小为n'×3×w×h;
9)对数据B进行左右翻转,形成数据H,大小为n'×3×h×w,至此ROI切片序列在不改变本身图像性质的同时,图像的数量扩充为原来的48倍,即为A+B+C+D+E+F+G+H的和。图3显示了A~H的8种转换后形式,可以看到图像的形状发生了变化,这实际也模仿了真实情况下不同肿瘤具有的形态学差异;
10)设计网络结构,首先将DenseNet-12第一层卷积层的卷积核调整为5*5,步长调整为1;
11)再移除DenseNet-12的第一层池化层,并将步骤10)中介绍的第一层卷积层直接连接第一个Dense Block;
12)网络中一个Dense Block包含6层Dense Layer,每一层Dense Layer由顺序连接的卷积层即Conv、批标准化层即BatchNorm和激活层即ReLU组合形成,将其中所有卷积层的卷积核调整为3*3,步长调整为1;
13)将第一个Dense Block之后的transition层调整为2*2的最大池化;
14)在transition层后连接第二个Dense Block,设置与第一个Dense Block相同;
15)第二个Dense Block之后连接具有4个池化核的空间金字塔池化模块即SPP;SPP用于提取多层次的图像特征,输出1*1、2*2、3*3、4*4大小的特征映射;
16)在SPP后顺序连接3层全连接层,相邻全连接层中间设置丢参率为0.5的Dropout层,保证逐步的筛选出对于基因表达类型预测关联性最大的特征;其中第一层全连接层的输入单元数量为4200,输出单元数量为4200;第二层全连接层的输入单元数量为4200,输出单元数量为1000;第三层全连接层的输入单元数量为1000,输出单元数量为2。图4为网络框架的示意图。
17)开始训练过程,首先将得到的数据A+B+C+D+E+F+G+H记为data-1,将data-1经过中心裁剪得到切片大小为64*64的数据,记为data-2;
18)将data-2送入设计好的网络中,使用随机梯度下降法进行50轮训练,获得模型M1。其中,训练设置batch为64,训练所需的损失函数使用聚焦损失即Focal-Loss;
19)将data-1经过中心裁剪得到切片大小为100*100的数据,记为data-3;并将data-3送入模型M1中训练,训练设置同步骤18),50轮训练后获得模型M2
20)将data-1送入模型M2,经过50轮训练获得最终模型M3;训练设置batch为1,同样采用Focal-loss的随机梯度下降法进行训练。
21)对于预测的5个测试样例(test-1、test-2、test-3、test-4、test-5)。同样首先对每一个样例的CT序列提出ROI切片序列,并将ROI切片序列相邻3张切片组合形成3通道的输入数据,记为Input;
22)将Input输入训练好的最终模型M3,预测得到每一份3通道数据的基因表达类别(所述类别为“过表达、不表达”或者“阳性、阴性”);
23)设置阈值为0.5,对于Input中的所有3通道数据的基因表达类别预测进行综合评判,类别预测为50%以上的即为最终的预测结果,表2展示了该具体实例下本发明的预测结果(预测HER-2正确的图像数量以及占ROI序列层数的比例),可以看到5个测试样例的图像预测准确率都比较高,同时在50%的阈值下,本发明对于肿瘤的基因突变预测结果(最终的预测结果)都是正确的。
表2.本发明对于5个测试数据预测的结果(图片预测正确的数量及比例)
测试集 HER-2突变状态 ROI序列层数 预测正确的数量 预测正确的比例
test-1 过表达/阳性 50 47 94%(>50%)
test-2 过表达/阳性 102 91 89%(>50%)
test-3 不表达/阴性 138 120 87%(>50%)
test-4 不表达/阴性 45 44 98%(>50%)
test-5 不表达/阴性 74 69 93%(>50%)
本发明的保护内容不局限于以上实施例。在不背离发明构思的精神和范围下,本领域技术人员能够想到的变化和优点都被包括在本发明中,并且以所权利要求书为保护范围。

Claims (5)

1.一种基于癌症CT图像自动预测基因表达类别的方法,其特征在于,该方法包括以下具体步骤:
步骤1:获取ROI切片并将图像数量扩充48倍;
步骤2:基于DenseNet-12和空间金字塔模块构建神经网络;
步骤3:将步骤1扩充的图像作为输入,使用步骤2构建的神经网络进行训练,训练的损失函数采用聚焦损失即Focal-Loss;
步骤4:使用步骤3训练后的网络模型进行预测,得到每一份输入图像的基因表达类别预测结果,即过表达、不表达或者阳性、阴性,并汇总同属一个CT序列的所有输入图像的预测结果,得到该CT序列整体的预测结果。
2.根据权利要求1所述的基于癌症CT图像自动检测基因表达类型的方法,其特征在于,所述步骤1具体包括:
步骤A1:将完整的CT序列,抽取出包含肿瘤的切片,并根据肿瘤在切片上的位置以及大小,裁剪得到一个感兴趣区域即ROI立方体,ROI立方体为包含完整肿瘤的切片序列;
步骤A2:对裁剪得到ROI切片序列,其大小为n×w×h,n为序列层数,w为宽度,h为高度,将相邻的3张切片堆叠形成一组具有3个通道的数据,其大小为3×w×h;并将每组3通道数据内的3张ROI切片打乱堆叠的顺序,形成6种堆叠形式,将得到的数据记为A,其大小为n'×3×w×h,其中n'=6*n;
步骤A3:对步骤A2的数据A进行转置,得到转置后的数据B,其大小为n'×3×h×w;
步骤A4:对步骤A2的数据A进行上下翻转,形成数据C,大小为n'×3×w×h;
步骤A5:对步骤A2的数据A进行左右翻转,形成数据D,大小为n'×3×w×h;
步骤A6:对步骤A2的数据A进行1次90°旋转,形成数据E,大小为n'×3×h×w;
步骤A7:对步骤A2的数据A进行2次90°旋转,形成数据F,大小为n'×3×w×h;
步骤A8:对步骤A3的数据B进行1次90°旋转,形成数据G,大小为n'×3×w×h;
步骤A9:对步骤A3的数据B进行左右翻转,形成数据H,大小为n'×3×h×w,至此ROI切片序列在不改变本身图像性质的同时,图像的数量扩充为原来的48倍,即为A+B+C+D+E+F+G+H的和。
3.根据权利要求1所述的基于癌症CT图像自动预测基因表达类别的方法,其特征在于,所述步骤2具体包括:
步骤B1:将DenseNet-12第一层卷积层的卷积核调整为5*5,步长调整为1;
步骤B2:移除DenseNet-12的第一层池化层,并将步骤B1的卷积层直接连接第一个Dense Block;
步骤B3:第一个Dense Block包含6层Dense Layer,每一层Dense Layer由顺序连接的卷积层即Conv、批标准化层即BatchNorm和激活层即ReLU组合形成,将其中所有卷积层的卷积核调整为3*3,步长调整为1;
步骤B4:将第一个Dense Block之后的transition层调整为2*2的最大池化;
步骤B5:在transition层后连接第二个Dense Block,设置与步骤B3中的Dense Block相同;
步骤B6:第二个Dense Block之后连接具有4个池化核的空间金字塔池化模块即SPP;SPP用于提取多层次的图像特征,输出1*1、2*2、3*3、4*4大小的特征映射;
步骤B7:SPP后顺序连接3层全连接层,相邻全连接层中间设置丢参率为0.5的Dropout层,保证逐步的筛选出对于基因表达类型预测关联性最大的特征;其中第一层全连接层的输入单元数量为4200,输出单元数量为4200;第二层全连接层的输入单元数量为4200,输出单元数量为1000;第三层全连接层的输入单元数量为1000,输出单元数量为2。
4.根据权利要求1所述的基于癌症CT图像自动预测基因表达类别的方法,其特征在于,所述步骤3具体包括:
步骤C1:步骤1得到的数据A+B+C+D+E+F+G+H记为data-1,将data-1经过中心裁剪得到切片大小为64*64的数据,记为data-2;
步骤C2:将data-2送入步骤2的网络中使用随机梯度下降法进行50轮训练,获得模型M1;其中,训练设置batch为64,训练所需的损失函数使用聚焦损失即Focal-Loss,其计算公式如下:
Figure FDA0002448332160000021
其中y是真实数据的基因表达类别标签,为1或者0,其中y=1表示该数据的基因表达类别为“过表达”或者“阳性”;y=0表示该数据的基因表达类别为“不表达”或者“阴性”;y'是模型对于每一份输入图像正确预测的概率值,为0到1之间的一个小数;其中y'越接近1,表示模型对输入图像正确预测的可能性越高;α为可调整的参数,参数值的范围在0到1之间,用以解决数据量不均衡问题;γ为预测损失调整参数,γ设置为2;
步骤C3:将data-1经过中心裁剪得到切片大小为100*100的数据,记为data-3;并将data-3送入步骤C2得到的模型M1中训练,训练设置同步骤C2,50轮训练后获得模型M2
步骤C4:将data-1送入步骤C3获得的模型M2中训练,获取准确率最高的最终模型M3;训练设置batch为1,同样采用Focal-loss的随机梯度下降法进行训练。
5.根据权利要求1所述的基于癌症CT图像自动预测基因表达类别的方法,其特征在于,所述步骤4具体包括:
步骤D1:将CT序列进行ROI立方体提取,并将ROI切片序列相邻3张切片组合形成3通道的输入数据,记为Input;
步骤D2:将Input输入训练好的模型M3,预测得到每一份3通道数据的基因表达类别,所述类别为过表达、不表达或者阳性、阴性;
步骤D3:设置阈值为0.5,对于Input中的所有3通道数据的基因表达类别预测进行综合评判,类别预测为50%以上的即为最终的预测结果。
CN202010285446.9A 2020-04-13 2020-04-13 一种基于癌症ct图像自动预测基因表达类别的方法 Pending CN111583271A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010285446.9A CN111583271A (zh) 2020-04-13 2020-04-13 一种基于癌症ct图像自动预测基因表达类别的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010285446.9A CN111583271A (zh) 2020-04-13 2020-04-13 一种基于癌症ct图像自动预测基因表达类别的方法

Publications (1)

Publication Number Publication Date
CN111583271A true CN111583271A (zh) 2020-08-25

Family

ID=72112486

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010285446.9A Pending CN111583271A (zh) 2020-04-13 2020-04-13 一种基于癌症ct图像自动预测基因表达类别的方法

Country Status (1)

Country Link
CN (1) CN111583271A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112183578A (zh) * 2020-09-01 2021-01-05 国网宁夏电力有限公司检修公司 一种目标检测方法、介质及***
CN112598024A (zh) * 2020-12-03 2021-04-02 天津理工大学 一种基于深度多示例学习和自注意力的医学图像分类方法
CN113077875A (zh) * 2021-03-23 2021-07-06 零氪智慧医疗科技(天津)有限公司 Ct影像的处理方法及装置

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107016665A (zh) * 2017-02-16 2017-08-04 浙江大学 一种基于深度卷积神经网络的ct肺结节检测方法
CN108830826A (zh) * 2018-04-28 2018-11-16 四川大学 一种检测肺结节的***及方法
CN108961253A (zh) * 2018-06-19 2018-12-07 深动科技(北京)有限公司 一种图像分割方法和装置
CN109272048A (zh) * 2018-09-30 2019-01-25 北京工业大学 一种基于深度卷积神经网络的模式识别方法
CN109754393A (zh) * 2018-12-19 2019-05-14 众安信息技术服务有限公司 一种基于深度学习的篡改图像鉴定方法及装置
CN110120051A (zh) * 2019-05-10 2019-08-13 上海理工大学 一种基于深度学习的右心室自动分割方法
CN110503626A (zh) * 2019-07-09 2019-11-26 上海交通大学 基于空间-语义显著性约束的ct图像模态对齐方法
WO2020037960A1 (zh) * 2018-08-21 2020-02-27 深圳大学 一种sar目标识别方法、装置、计算机设备及存储介质
CN110866931A (zh) * 2019-11-18 2020-03-06 东声(苏州)智能科技有限公司 图像分割模型训练方法及基于分类的强化图像分割方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107016665A (zh) * 2017-02-16 2017-08-04 浙江大学 一种基于深度卷积神经网络的ct肺结节检测方法
CN108830826A (zh) * 2018-04-28 2018-11-16 四川大学 一种检测肺结节的***及方法
CN108961253A (zh) * 2018-06-19 2018-12-07 深动科技(北京)有限公司 一种图像分割方法和装置
WO2020037960A1 (zh) * 2018-08-21 2020-02-27 深圳大学 一种sar目标识别方法、装置、计算机设备及存储介质
CN109272048A (zh) * 2018-09-30 2019-01-25 北京工业大学 一种基于深度卷积神经网络的模式识别方法
CN109754393A (zh) * 2018-12-19 2019-05-14 众安信息技术服务有限公司 一种基于深度学习的篡改图像鉴定方法及装置
CN110120051A (zh) * 2019-05-10 2019-08-13 上海理工大学 一种基于深度学习的右心室自动分割方法
CN110503626A (zh) * 2019-07-09 2019-11-26 上海交通大学 基于空间-语义显著性约束的ct图像模态对齐方法
CN110866931A (zh) * 2019-11-18 2020-03-06 东声(苏州)智能科技有限公司 图像分割模型训练方法及基于分类的强化图像分割方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112183578A (zh) * 2020-09-01 2021-01-05 国网宁夏电力有限公司检修公司 一种目标检测方法、介质及***
CN112183578B (zh) * 2020-09-01 2023-05-23 国网宁夏电力有限公司检修公司 一种目标检测方法、介质及***
CN112598024A (zh) * 2020-12-03 2021-04-02 天津理工大学 一种基于深度多示例学习和自注意力的医学图像分类方法
CN113077875A (zh) * 2021-03-23 2021-07-06 零氪智慧医疗科技(天津)有限公司 Ct影像的处理方法及装置

Similar Documents

Publication Publication Date Title
Pezeshk et al. 3-D convolutional neural networks for automatic detection of pulmonary nodules in chest CT
CN110544264B (zh) 一种基于3d深监督机制的颞骨关键解剖结构小目标分割方法
EP3432263B1 (en) Semantic segmentation for cancer detection in digital breast tomosynthesis
CN111583271A (zh) 一种基于癌症ct图像自动预测基因表达类别的方法
CN110930416B (zh) 一种基于u型网络的mri图像***分割方法
Hossain et al. A pipeline for lung tumor detection and segmentation from CT scans using dilated convolutional neural networks
RU2449365C2 (ru) Способы и устройство для интегрирования систематического прореживания данных в основанный на генетическом алгоритме выбор подмножества признаков
CN110705440B (zh) 一种基于神经网络特征融合的胶囊内镜图像识别模型
CN113362295A (zh) 基于自监督密集卷积神经网络的肝脏肿瘤识别方法
Shahangian et al. Automatic brain hemorrhage segmentation and classification in CT scan images
Tan et al. GLCM-CNN: gray level co-occurrence matrix based CNN model for polyp diagnosis
Zuo et al. Automatic classification of lung nodule candidates based on a novel 3D convolution network and knowledge transferred from a 2D network
Tong et al. A lung cancer lesions dectection scheme based on CT image
CN113743463A (zh) 一种基于影像数据和深度学习的肿瘤良恶性识别方法和***
CN112990344A (zh) 一种肺结节多视图分类方法
Chen et al. The effect of kernel size of CNNs for lung nodule classification
Das et al. Inception-based deep learning architecture for tuberculosis screening using chest X-rays
Wang et al. Gastric polyps detection by improved faster R-CNN
CN111584071A (zh) 一种膝关节周围原发恶性骨肿瘤人工智能辅助诊断模型
Wu et al. Automatic lung segmentation in CT images using dilated convolution based weighted fully convolutional network
CN114581698A (zh) 一种基于空间交叉注意力机制特征融合的目标分类方法
Zhang et al. Classification of benign and malignant pulmonary nodules based on deep learning
CN115440386B (zh) 基于加权多病灶的影像组学特征预测晚期癌症患者免疫治疗效果的方法及设备
CN115274119B (zh) 一种融合多影像组学特征的免疫治疗预测模型的构建方法
Liu et al. A study of pulmonary nodule detection in three-dimensional thoracic CT scans

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20200825