CN110544264B

CN110544264B - 一种基于3d深监督机制的颞骨关键解剖结构小目标分割方法

Info

Publication number: CN110544264B
Application number: CN201910799709.5A
Authority: CN
Inventors: 李晓光; 弓照鹏; 张辉; 卓力
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2019-08-28
Filing date: 2019-08-28
Publication date: 2023-01-03
Anticipated expiration: 2039-08-28
Also published as: CN110544264A

Abstract

一种基于3D深监督机制的颞骨关键解剖结构小目标分割方法属于医学影像处理领域，本发明设计了一个3D的编码解码网络，编码阶段采用密集连接网络提取特征，加强特征的传播，提升特征的利用率，不同的密集连接网络块之间设计了迁移模块，迁移模块采用3D多池化特征融合策略，融合max pooling和average pooling后的特征。解码阶段引入3D深监督机制隐藏层和主干网络的输出结果共同指导网络训练。本发明针对颞骨关键解剖结构体积微小，可供提取特征不足的问题，采用3D网络充分利用颞骨CT的空间的信息，实现颞骨关键解剖结构锤骨、砧骨、耳蜗外壁、耳蜗内腔、外半规管、后半规管、前半规管、前庭以及内听道的自动分割。

Description

一种基于3D深监督机制的颞骨关键解剖结构小目标分割方法

技术领域

本发明属于医学影像处理领域，特别涉及一种基于3D深监督机制的颞骨关键解剖结构小目标分割方法。

背景技术

颞骨计算机断层扫描是一项已经确立的耳部检查标准，用来检查颞骨关键解剖结构是否发生解剖学结构变异。随着临床需求的不断增加，颞骨成像数据迅速增长，需要医生观察和处理的数据越来越多，大大增加了医生的工作量。因此，从颞骨CT中自动分割出医生关注的关键解剖结构对减轻医生工作负担，降低漏诊和误诊有重要的意义。颞骨关键解剖结构的准确分割不仅有助于提高医学影像数据的处理效率，在临床教学和科研方面也有重要意义。

医学的影像的分割方法主要包括两大类基于手工特征的分割方法和基于深度学习的分割方法。深度学习兴起前阈值分割、区域生长、活动轮廓模型等许多分割算法已应用于医学影像的分割任务。基于手工特征的分割方法虽然实现起来相对简单，但是，影响其分割精度的因素有很多，医学影像小目标分割任务对精度要求高，因此不适于采用传统的基于手工特征的分割方法

近年来医学影像语义分割已经成为医学影像智能分析的热门研究方向。医学影像小目标分割受到目标区域占图像比例小、目标与背景区域对比不明显、边界模糊以及不同个体形状大小差异性大的影响成为一项富有挑战性任务。颞骨关键解剖结构相对较小。例如，在一例512×512×199体素的容积数据中最大的解剖结构内听道仅有1298个体素，最小的解剖结构锤骨仅有184个体素。此外，不同的解剖结构之间差异性大。这些特点给颞骨关键解剖结构的智能分割带来了挑战。

语义分割网络的先驱全卷积神经网络将卷积层替换为全连接层对图像进行像素级别的分类，训练了一个端到端的编码解码网络，解决自然图像语义级别的分割问题。其分割结果不够精确，容易丢失边界等细节信息。与自然图像不同的是医学影像往往是三维容积数据，不同断层不仅包含层内的特征信息，层间还包含着丰富的空间信息。现有的医学影像分割方法大多适用于肝脏、心脏、肺等比较大的解剖结构，在小目标分割上表现不佳。

本发明提出了一种基于3D深监督机制的颞骨关键解剖结构小目标分割方法。设计了一个3D的编码解码网络，编码阶段采用密集连接网络提取特征，加强特征的传播，提升特征的利用率，不同的密集连接网络块之间设计了迁移模块，迁移模块采用3D多池化特征融合策略，融合max pooling和average pooling后的特征。解码阶段引入3D深监督机制隐藏层和主干网络的输出结果共同指导网络训练。

发明内容

本发明的目的在于克服现有分割方法的不足，针对颞骨关键解剖结构体积微小，可供提取特征不足的问题，提出一个基于3D深监督机制的分割网络，采用 3D网络充分利用颞骨CT的空间的信息，实现颞骨关键解剖结构锤骨、砧骨、耳蜗外壁、耳蜗内腔、外半规管、后半规管、前半规管、前庭以及内听道的自动分割。

本发明是采用以下技术手段实现的：

一种基于3D深监督机制的颞骨关键解剖结构分割方法。该方法的整体架构主要分为两个阶段：编码阶段和解码阶段，如附图1所示。

编码阶段包括密集连接网络提取特征、多池化特征融合。

解码阶段包括长短跳跃连接恢复特征、3D深监督机制。

该方法具体包括以下步骤：

1)编码阶段：

第一步，密集连接网络提取特征。对原始CT数据进行数据预处理之后抽取一个48×48×48的立方体送入网络。编码阶段设计了三个包含不同数量层的密集连接网络块，其中每个卷积层的输入是前面所有输出层的直接连接的聚合，后续层直接连接前面所有层的设计加强了特征的利用率，减轻梯度消失问题，改善了整个网络信息流和梯度流的传递，从而使其易于训练。密集连接比传统的卷积网络需要更少的参数，不需要去学习一些冗余的特征图。记X_l为l^th层的输出， x₀…x_l-1为前面从第0层到l-1层输出的特征立方体，则每个密集连接网络块内层的设计可以用公式(1)表示:

Xl＝Hl([x₀，x₁，…，x_l-1])#(1)

其中[.]表示不同层输出特征的聚合操作，H_l(·)包含batch normalization(BN)、 rectified linear unit(ReLU)和3×3×3的卷积三个连续的操作，采用增长率k＝32。为了防止出现过拟合紧接着3×3×3卷积操作之后使用了dropout层，drop rate为0.5。

第二步，多池化特征融合。在每一层级的密集连接网络块输出之后采用 BN-ReLU-Conv3D,为了防止过拟合通常采用了drop rate为0.5的dropout层，在其之后同时采用3Dmax pooling和3D average pooling，将池化之后的结果做一个拼接。3D max pooling可以保留容积数据的边缘特征，3D average pooling可以保留容积数据的背景信息。两者拼接能为后续的分割提供丰富的特征信息。

2)解码阶段：

第一步，长短跳跃连接恢复低层语义信息。编码阶段最底层密集连接网络块提取的的输出数据为12×12×12分辨率的张量特征数据，采用转置卷积对其进行上采样，将该张量特征分辨率还原为24×24×24并与编码阶段第二层的密集连接网络块输出的特征通过长连接进行拼接；对拼接之后的特征进行1次3D卷积提取低层与高层语义特征拼接之后的特征，将得到的特征再经过一个转置卷积操作上采样特征至48×48×48与输入的三维立方体的大小相等，编码阶段第一个密集连接网络块输出的特征，先采用64个卷积核提取特征，采用短连接加长连接的方式与其拼接而不是仅采用长连接方式，这样做主要是为了消除低层语义特征与高层语义特征之间的语义鸿沟。

第二步，3D深监督机制指导网络训练。编码阶段第一个密集连接网络块输出的特征采用64个卷积核提取特征，之后先经过一个1×1×1的卷积，紧接其后的是一个softmax层，输出辅助分割结果。解码阶段的第二层对拼接后的特征进行卷积操作进一步提取特征，将得到的特征先经过转置卷积提升分辨率，然后经过采用1×1×1卷积核的softmax层，得到第二个辅助分割结果。解码阶段最后一层对拼接后的特征经过包含不同卷积核的卷积操作之后输出主干网络的预测结果，主干网络的预测结果与分支网络的预测结果共同指导网络的训练。在网络训练的过程中主干网络的损失函数与分支网络的损失时函数共同构成联合目标函数，包含

Coefficient(DSC)损失函数和交叉熵损失函数。DSC损失函数定义如公式(2)所示:

其中X和Y分别表示预测体素与真实目标体素，n表示待分割目标的类别数 (包含背景)，x_i与y_i分别表示预测体素数据与真实目标体素数据中包含的目标标记体素的数量。为交叉熵损失函数引入权重记为W，如公式(3)所示：

其中N_k表示待分割体素数据中目标体素标记的数量，N_c表示待分割体素数据中全部体素的数量。交叉熵损失函数如公式(4)所示：

基于上面定义的损失函数构建联合目标函数如公式(5)所示：

其中λ为分支网络损失函数的超参数。基于主干网络和分支网络的损失函数构建目标损失函数共同指导网络训练，减轻梯度消失，加快网络的收敛速度。

为了验证本发明方法的有效性，我们采用了三个医学影像常用的评价指标分别是分割相似度(DSC)、平均对称表面距离(ASD)和平均胡氏距离(AVD)。

本发明与现有技术相比，具有以下明显的优势和有益效果：

本发明以3D卷积神经网络为基础，充分利用三维容积数据信息，在传统3D-Unet的基础上提出新的编码阶段特征提取模块，采用包含不同层的密集连接网络提取特征，加强了特征的传播并提升了特征的利用率；在解码阶段，通过 3D深监督机制变单一监督为主干网络与辅助网络共同监督训练，使的网络更加容易训练；此外，通过长短跳跃连接相结合的方式来消除高层语义特征与低层语义特征之间存在的语义鸿沟。所述方法通过编码，解码阶段的改进设计使其适用于小目标的分割任务，该方法可以有效提升小目标的分割精度。

本发明的特点：

1.所述算法设计了一种新的U型3D卷积神经网络用于分割医学影像，第一次应用于颞骨关键解剖结构的分割任务中；

2.所述算法提出一种多池化特征融合策略充分利用多尺度和多个层级的特征提高小目标分割的准确度。此外，组合密集连接和长短跳跃连接强化边界和细节特征融合；

3.所述算法引入3D深监督机制通过为隐藏层构建伴随目标函数，指导网络训练，提升分割模型的鲁棒性；

附图说明：

图1、网络整体架构图；

图2、多平面重建前后对比图；

图3、无缝分割策略示意图；

具体实施方式：

以下结合说明书附图，对本发明的实施实例加以说明：

本发明采用颞骨CT数据集进行训练和测试。颞骨CT数据集包含不同年龄、不同性别的颞骨CT影像数据。数据集包含64个人的正常颞骨CT数据。其中 33人为男性，31人为女性，平均年龄44岁。每例数据经过多平面重建之后分辨率为420×420包含60张。采用标注软件对多平面重建之后的数据进行标注，标注锤骨、砧骨、耳蜗外壁、耳蜗内腔、外半规管、后半规管、前半规管、前庭和内听道共9个关键解剖结构。实验中，我们选用8人数据作为测试集，56人数据作为训练集。

本发明的采用的数据预处理包括多平面重建和数据标注两个阶段。

(1)多平面重建阶段

原始CT成像受准直、螺距等扫描参数设置以及患者***的影响，成像呈现不同的程度的歪斜，双侧的颞骨关键解剖结构不对称。为了确保颞骨CT数据在不同的成像条件下能够保持层厚、层间距和分辨率一致，同时确保双侧关键解剖结构对称，我们采用后处理工作站对原始的CT数据进行多平面重建，多平面重建前后的对比如附图2所示。具体操作步骤如下：

第一步：外半规管对称。在矢状观测位找到外半规管最饱满的层，让参考线平行且平分外半规管。切换到轴位观测位，前后旋转右侧图像找到外半规管最饱满的一层，左右旋转轴位图像使双侧外半规管对称。

第二步：规范化处理。将图像的比例尺统一设定为1:1，使扫描图像大小与实际尺寸一致。设置一个宽为10cm，长度为图像长的矩形框，将外半规管置于其中并且确保外半规管上边缘距矩形框上下边均为5cm，裁剪图像。

第三步：批量处理。以外侧半规管最饱满的一层为起点向上选取44幅slice 向下选取88幅slice得到重建的所有层。设置层厚、层间距为0.7mm，序列数为 60，完成重建。

(2)数据标注阶段

第一步：将多平面重建之后的图像导入到Materialise Mimics软件中，为不同的关键解剖结构新建不同的Mask,为每个Mask设置允许标注的阈值范围；

第二步：经验丰富的放射科医生使用画笔分别对颞骨9个关键解剖结构的进行体素标记；

第三步：由另一名经验丰富的放射科医师对标注的结果审核和修改；

第四步：导出每个9个关键解剖结构的dicom图像。

本发明提出方法整体架构图如附图1所示。算法主要分为两个阶段：编码阶段和解码阶段。

(1)编码阶段

编码阶段的具体实现步骤如下：

a)密集连接提取特征

第一步：提取用于训练的立方体。在输入数据420×420×60体素的立方体中随机抽取一个48×48×48的原始数据立方体和标注数据立方体。检查标注数据立方体中的标签是否包含1，若不包含1说明抽取到的立方体不含目标解剖结构，需要重新抽取直到标注立方体中包含标签1。为了排除背景像素对分割任务造成的影响，根据9个颞骨关键解剖结构阈值范围设置目标解剖结构的阈值区间为-999～2347，将小于-999的胡氏值设置为-999，大于2347的胡氏值设置为2347。为了减少计算量将立方体的胡氏值除以255。然后将其归一化为均值为0方差为 1的数据分布。通过对原始数据和标注数据同时旋转一个角度(-25～25度)实现数据增强；

第二步：特征提取。对于提取到的原始数据立方体先采用一个3×3×3的卷积核提取特征，三个维度的步长均为1，卷积padding的模式采用SAME，采用 0进行填充，得到64个特征。然后将这些特征输入一个3层的密集连接网络，密集连接块之内每次卷积操作的输入为前面所有卷积输出的特征的聚合，密集连接网络采用的卷积核大小、步长、填充方式与前面所述相同；

第三步：特征降维。密集连接块内聚合前面输出的特征，之后采用瓶颈策略减少特征立方体的数量。先将特征进行批量正则化和ReLU激活操作，再采用3 ×3×3的卷积核输出4k个特征，其中k为增长率。

b)多池化特征融合

不同的密集连接网络块之间设计多池化特征融合迁移模块。

第一步：对密集连接网络块提取的特征进行批量正则化并采用ReLU激活函数增加网络的非线性。然后采用3×3×3大小的三维卷积核提取特征，采用 dropout防止过拟合问题，其中dropout rate为0.5。

第二步：对特征分别进行的3D max pooling和3D average pooling，池化核的大小为2×2×2，三个维度的步长均为2。3D max pooling选取池化核空间范围内的最大值；3Daverage pooling选取池化核空间范围内的平均值。前者能够更好的保留边缘特征，后者可以保留全局的背景信息。将max pooling和average pooling后得到的特征拼接在一起。

(2)解码阶段

解码阶段的具体实现步骤如下：

a)长短跳跃连接相结合。

第一步：记编码阶段第一个、第二个和第三个密集连接网络块输出的特征分别为F₁,F₂,F₃其分辨率分别为48×48×48，24×24×24，12×12×12。对F₃特征进行转置卷积操作，三个维度的步长均为2，padding模式为SAME，用0 进行填充，转置卷积后得到的特征组T₂的分辨率为24×24×24；

第二步：将编码阶段第二个密集连接网络块输出的特征F₂与T₂拼接组成新的特征组D₂。采用3D卷积提取D₂的特征；

第三步：编码阶段第一个密集连接网络输出的特征F₁先经过一个3D卷积提取特征，得到64个特征M₁,对特征组D₂进行转置卷积操作，将特征的分辨率恢复至48×48×48记为T₁,将特征组F₁，M₁和T₁拼接起来，得到特征组D₁,其中 M₁和F₁分别是通过短连接和长连接的形式拼接的，一定程度上消除了低层语义特征与高层语义特征之间的语义鸿沟。

b)3D深监督机制

第一步：对解码阶段输出的特征组D₂先进行转置卷积操作恢复分辨率至48 ×48×48，再采用1×1×1大小的卷积核卷积，输出特征立方体的数目为2个，采用softmax计算每个体素为目标解剖结构的概率值记为aux_pred1；

第二步：对编码阶段输出的特征组M₁同样采用1×1×1大小的卷积核卷积，采用softmax计算每个体素的分类概率记为aux_pred2；

第三步：对特征组D₁先后采用3×3×3大小的卷积核提取特征，分别输出 128和64个特征，再对其采用1×1×1大小的卷积核卷积，最后采用softmax计算每个体素的分类概率记为main_pred；

第四步：第一步和第二步得到的预测体素立方体为辅助预测结果，第三步得到的预测体素立方体为主干网络预测结果。将aux_pred1、aux_pred2和main_pred 分别与ground truth计算交叉熵损失函数和DSC损失函数，辅助预测结果计算得到的损失函数与主干网络损失函数共同构成联合损失函数指导网络训练。

下面介绍网络训练和测试的过程：

为每个要分割的颞骨关键解剖结构分别训练一个分割模型。网络接收的输入数据的尺寸为48×48×48，真实目标中包含了2个标签，0表示背景，1表示目标解剖结构。网络的输出与输入的尺寸相同，输出2个立方体，其中分别表示对背景和前景的分割结果。

a)模型训练

网络训练时batch size设为1，初始的学习率为0.001，动量系数为0.5，每个batch训练完成后即随机在验证集中抽取一例数据进行验证。每隔10000次保存一次模型共迭代180000次。

b)模型测试

多平面重建后每个人的CT数据的尺寸为420×420×60体素，为了满足模型接收的输入数据尺寸，在测试阶段采用无缝分割策略如附图3所示。首先将待测试数据按照无缝分割策略分解为若干个大小为48×48×48体素的立方体，重叠因子为4。然后将其分别送入训练好的模型得到预测结果，最后将这些小立方体的预测结果重新组合起来得到最终的待测数据的分割结果。

所述算法与不同算法在颞骨关键解剖结构分割任务上的精度对比见附图说明表1。

表1不同方法分割颞骨9个关键解剖结构结果

注：malleus锤骨、incus砧骨、ECC耳蜗外壁、ICC耳蜗内腔、LSC外半规管、 PSC后半规管、SSC前半规管、vestibule前庭、IAM内听道

注：malleus锤骨、incus砧骨、ECC耳蜗外壁、ICC耳蜗内腔、LSC外半规管、PSC后半规管、SSC前半规管、vestibule前庭、IAM内听道。

Claims

1.一种基于3D深监督机制的颞骨关键解剖结构小目标分割方法，其特征在于：

1)编码阶段：

第一步，密集连接网络提取特征；对原始CT数据进行数据预处理之后抽取一个48×48×48的立方体送入网络；

记X_l为l^th层的输出，x₀…x_l-1为前面从第0层到l-1层输出的特征立方体，则每个密集连接网络块内层的设计用公式(1)表示:

X_l＝H_l(x₀,x₁,…,x_l-1])#(1)

其中[.]表示不同层输出特征的聚合操作，H_l(·)包含batch normalization(BN)、rectified linear unit(ReLU)和3×3×3的卷积三个连续的操作，采用增长率k＝32；为了防止出现过拟合紧接3×3×3卷积操作之后使用了dropout层，drop rate为0.5；

第二步，多池化特征融合；

在每一层级的密集连接网络块输出之后采用BN-ReLU-Conv3D,为了防止过拟合采用了drop rate为0.5的dropout层，在其之后同时采用3D max pooling和3D average pooling，将池化之后的张量特征拼接；

2)解码阶段：

第一步，长短跳跃连接恢复低层语义信息；编码阶段最底层密集连接网络块输出12×12×12分辨率的张量特征，采用转置卷积对其进行上采样，将该张量特征分辨率还原为24×24×24并与编码阶段第二层的密集连接网络块输出的特征通过长连接进行拼接；对拼接之后的特征进行1次3D卷积提取低层与高层语义特征拼接之后的特征，将得到的特征再经过一个转置卷积操作，上采样特征至48×48×48与输入的三维立方体的大小相等，编码阶段第一个密集连接网络块输出的特征，先采用64个卷积核提取特征，采用短连接加长连接的方式与其拼接而不是仅采用长连接方式；

第二步，3D深监督机制指导网络训练；编码阶段第一个密集连接网络块输出的特征采用64个卷积核提取特征，之后先经过一个1×1×1的卷积，紧接其后的是一个softmax层，输出辅助分割结果；解码阶段的第二层对拼接后的特征进行卷积操作提取特征，将得到的特征先经过转置卷积提升分辨率，然后经过采用1×1×1卷积核的softmax层，得到第二个辅助分割结果；

解码阶段最后一层对拼接后的特征经过包含不同卷积核的卷积操作之后输出主干网络的预测结果，主干网络的预测结果与分支网络的预测结果共同指导网络的训练；在网络训练的过程中主干网络的损失函数与分支网络的损失时函数共同构成联合目标函数，包含

Coefficient(DSC)损失函数和交叉熵损失函数；DSC损失函数定义如公式(2)所示:

其中X和Y分别表示预测体素与真实目标体素，n表示待分割目标的类别数，包含背景，x_i与y_i分别表示预测体素数据与真实目标体素数据中包含的目标标记体素的数量；为交叉熵损失函数引入权重记为W，如公式(3)所示：

其中N_k表示待分割体素数据中目标体素标记的数量，N_c表示待分割体素数据中全部体素的数量；交叉熵损失函数如公式(4)所示：

基于上面定义的损失函数构建联合目标函数如公式(5)所示：

其中λ为分支网络损失函数的超参数；基于主干网络和分支网络的损失函数构建目标损失函数共同指导网络训练。

2.一种基于3D深监督机制的颞骨关键解剖结构小目标分割方法，其特征在于，具体包括以下步骤：

采用颞骨CT数据集进行训练和测试；颞骨CT数据集包含不同年龄、不同性别的颞骨CT影像数据；每例数据经过多平面重建之后分辨率为420×420；采用标注软件对多平面重建之后的数据进行标注，标注锤骨、砧骨、耳蜗外壁、耳蜗内腔、外半规管、后半规管、前半规管、前庭和内听道共9个关键解剖结构；

采用的数据预处理包括多平面重建和数据标注两个阶段；

(1)多平面重建阶段

原始CT成像受准直、螺距扫描参数设置以及患者***的影响，成像呈现不同的程度的歪斜，双侧的颞骨关键解剖结构不对称；

采用后处理工作站对原始的CT数据进行多平面重建，具体操作步骤如下：

第一步：外半规管对称；在矢状观测位找到外半规管最饱满的层，让参考线平行且平分外半规管；切换到轴位观测位，前后旋转右侧图像找到外半规管最饱满的一层，左右旋转轴位图像使双侧外半规管对称；

第二步：规范化处理；将图像的比例尺统一设定为1:1，使扫描图像大小与实际尺寸一致；设置一个宽为10cm，长度为图像长的矩形框，将外半规管置于其中并且确保外半规管上边缘距矩形框上下边均为5cm，裁剪图像；

第三步：批量处理；

(2)数据标注阶段

第二步：分别对颞骨9个关键解剖结构的进行体素标记；

第三步：对标注的结果审核和修改；

第四步：导出每个9个关键解剖结构的dicom图像。

3.一种基于3D深监督机制的颞骨关键解剖结构小目标分割方法，其特征在于，分为两个阶段：编码阶段和解码阶段；

(1)编码阶段

编码阶段的具体实现步骤如下：

a)密集连接提取特征

第一步：提取用于训练的立方体；在输入数据420×420×60体素的立方体中随机抽取一个48×48×48的原始数据立方体和标注数据立方体；检查标注数据立方体中的标签是否包含1，若不包含1说明抽取到的立方体不含目标解剖结构，需要重新抽取直到标注立方体中包含标签1；为了排除背景像素对分割任务造成的影响，根据9个颞骨关键解剖结构阈值范围设置目标解剖结构的阈值区间为-999～2347，将小于-999的胡氏值设置为-999，大于2347的胡氏值设置为2347；将立方体的胡氏值除以255；然后将其归一化为均值为0方差为1的数据分布；通过对原始数据和标注数据同时旋转一个角度，实现数据增强；该角度为-25～25度；

第二步：特征提取；对于提取到的原始数据立方体先采用一个3×3×3的卷积核提取特征，三个维度的步长均为1，卷积padding的模式采用SAME，采用0进行填充，得到64个特征；然后将这些特征输入一个3层的密集连接网络，密集连接块之内每次卷积操作的输入为前面所有卷积输出的特征的聚合，密集连接网络采用的卷积核大小、步长、填充方式与前面相同；

第三步：特征降维；密集连接块内聚合前面输出的特征，之后采用瓶颈策略减少特征图的数量；先将特征进行批量正则化和ReLU激活操作，再采用3×3×3的卷积核输出4k个特征，其中k为增长率；

b)多池化特征融合

不同的密集连接网络块之间设计多池化特征融合迁移模块；

第一步：对密集连接网络块提取的特征进行批量正则化并采用ReLU激活函数增加网络的非线性；然后采用3×3×3大小的三维卷积核提取特征，采用dropout防止过拟合问题，其中dropout rate为0.5；

第二步：对特征分别进行的3D max pooling和3D average pooling，池化核的大小为2×2×2，三个维度的步长均为2；3D max pooling选取池化核空间范围内的最大值；3Daverage pooling选取池化核空间范围内的平均值；将max pooling和average pooling后得到的特征拼接在一起；

(2)解码阶段

解码阶段的具体实现步骤如下：

a)长短跳跃连接相结合；

第一步：记编码阶段第一个、第二个和第三个密集连接网络块输出的特征分别为F₁,F₂,F₃其分辨率分别为48×48×48，24×24×24，12×12×12；对F₃特征进行转置卷积操作，三个维度的步长均为2，padding模式为SAME，用0进行填充，转置卷积后得到的特征组T₂的分辨率为24×24×24；

第二步：将编码阶段第二个密集连接网络块输出的特征F₂与T₂拼接组成新的特征组D₂；采用3D卷积提取D₂的特征；

第三步：编码阶段第一个密集连接网络输出的特征F₁先经过一个3D卷积提取特征，得到64个特征M₁,对特征组D₂进行转置卷积操作，将特征的分辨率恢复至48×48×48记为T₁,将特征组F₁，M₁和T₁拼接起来，得到特征组D₁,其中M₁和F₁分别是通过短连接和长连接的形式拼接的；

b)3D深监督机制

第一步：对解码阶段输出的特征组D₂先进行转置卷积操作恢复分辨率至48×48×48，再采用1×1×1大小的卷积核卷积，输出特征立方体的数目为2个，采用softmax计算每个体素为目标解剖结构的概率值记为aux_pred1；

第三步：对特征组D₁先后采用3×3×3大小的卷积核提取特征，分别输出128和64个特征，再对其采用1×1×1大小的卷积核卷积，最后采用softmax计算每个体素的分类概率记为main_pred；

第四步：第一步和第二步得到的预测体素立方体为辅助预测结果，第三步得到的预测体素立方体为主干网络预测结果；将aux_pred1、aux_pred2和main_pred分别与groundtruth计算交叉熵损失函数和DSC损失函数，辅助预测结果计算得到的损失函数与主干网络损失函数共同构成联合损失函数指导网络训练。

4.一种基于3D深监督机制的颞骨关键解剖结构小目标分割方法，其特征在于，具体包括以下步骤：

下面介绍网络训练和测试的过程：

为每个要分割的颞骨关键解剖结构分别训练一个3D深监督机制分割网络；网络接收的输入数据的尺寸为48×48×48，真实目标中包含了2个标签，0表示背景，1表示目标解剖结构；网络的输出与输入的尺寸相同，输出2个立方体，其中分别表示对背景和前景的分割结果；

a)网络训练

网络训练时batch size设为1，初始的学习率为0.001，动量系数为0.5，每个batch训练完成后即随机在验证集中抽取一例数据进行验证；每隔10000次保存一次模型共迭代180000次以上；

b)网络测试

多平面重建后每个人的CT数据的尺寸为420×420×60体素，为了满足模型接收的输入数据尺寸，在测试阶段采用无缝分割策略：首先将待测试数据按照无缝分割策略分解为若干个大小为48×48×48体素的立方体，重叠因子为4；然后将其分别送入训练好的模型得到预测结果，最后将这些小立方体的预测结果重新组合起来得到最终的待测数据的分割结果。