CN110930421B

CN110930421B - 一种用于cbct牙齿图像的分割方法

Info

Publication number: CN110930421B
Application number: CN201911154934.XA
Authority: CN
Inventors: 饶云波; 王艺霖; 张孟涵; 程奕茗; 郭毅; 陈泽宁; 薛俊民
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2019-11-22
Filing date: 2019-11-22
Publication date: 2022-03-29
Anticipated expiration: 2039-11-22
Also published as: CN110930421A

Abstract

本发明属于医学图像处理技术领域，具体涉及一种用于CBCT牙齿图像的分割方法。本发明在U‑Net模型结构基础上对网络进行重新构建与优化，搭建一个区别于U‑Net的全新的DNN，再将全连接条件随机场应用于前面搭建的网络生成的分割概率图而不是原始灰度信息，作为后处理进一步优化牙齿轮廓。具体说是在U‑Net模型中的每一层加入经过改良的深层次瓶颈架构，引入基于像素累加的跳跃连接结构，加强特征的传播并促进特征的重用。此外，将DCRF应用于由对称式全卷积残差网络生成的分割概率图而不是原始灰度信息，利用网络得到的高质量特征图，融合DCRF全局结构化预测能力，解决CBCT牙齿图像中存在的噪声问题，精确定位牙齿轮廓并细化牙齿边缘，进一步提高分割效果。

Description

一种用于CBCT牙齿图像的分割方法

技术领域

本发明属于医学图像处理技术领域，具体涉及一种用于CBCT牙齿图像的分割方法。

背景技术

锥形束CT(Cone Beam Computer Tomography，以下简称CBCT)可通过一次扫描获取高分辨率的上下牙齿三维立体图像，且产生较低的辐射剂量等优点，所以CBCT目前已成为诊断牙科疾病的重要手段之一。利用CBCT扫描数据可对口腔牙齿进行三维重建，进而展现出牙齿内部各组织和结构信息。而对口腔牙齿进行实例分割是重构牙齿三维立体模型的重要步骤，同时也是计算机辅助牙齿诊断中的技术难点之一。

CBCT与传统CT(Computed Tomography)大有不同。CBCT使用面状的二维的投影数据来代替传统CT线性的一维投影数据，即传统的二维扇形束扫描被三维锥形束X线扫描所代替，使用CBCT图像重建后可直接得到三维图像。此外，CBCT不仅能产生清晰、高分辨率的图像，而且其成像范围合理，数据采集时间短，数据格式标准，对医学图像分割和重建起到很大的帮助。

针对医学图像分割的方法主要分为两大类：1)传统的医学图像分割方法，包括基于边缘检测的图像分割，基于阈值的图像分割，基于区域的图像分割等方法。这些传统的方法往往需要较多的人机交互过程来完成目标提取和分割，同时自我学习能力较弱，对噪声，模糊实例等干扰因素的抵抗力较低。2)基于深度学习的医学图像分割方法，随着深度学习在医学上的发展，利用深度神经网络(Deep Neural Networks，以下简称DNN)对医学图像进行分割取得了一定的成功，其分割效果远超于传统分割方法。但是，由于深度学习训练的特殊性，使用DNN对牙齿进行分割还存在一些障碍，这主要是因为医学图像成本高，难以获得有效的、有代表性的图像。以牙齿图像举例说明，与自然场景图像相比，难以实现高效率的牙齿分割主要有三个原因：①由于牙齿图像中良恶性图像之间存在较大的差异，使得网络的泛化能力受到一定限制。②与一般的自然场景图像相比，牙齿图像往往包含更多对象实例，这就需要大量人工标注对图像进行处理。③由于CBCT图像中牙齿与牙齿间的灰度相似，差异小，使得牙齿间的边界模糊。

随着计算机硬件的发展，深度学习在计算机视觉领域取得了良好的表现。通过端到端的方式，DNN在图像特征提取、图像分类等图像处理领域展现出优异的性能。其中以残差网络(Residual Network，以下简称ResNet)为主要代表，ResNet提出了一种独特的跳跃连接结构，称为残差单元(Residual Unit)，通过在残差单元中加入瓶颈结构(BottleneckStructure)，大大提升了网络模型的性能，实现了DNN新的突破。ResNet以其优异的表现在2015年ImageNet比赛中获得图像分类、图像定位以及图像检测三个项目冠军，在语义分割领域也有强势表现。

针对基于深度学习的端到端图像分割任务，有研究者提出了全卷积网络(FullyConvolutional Networks CNs，以下简称FCNs)，并应用于医学图像分割,取得了不错的分割效果。为了在医学图像分割领域获得更高的精度，研究者基于FCNs提出了一种U形网络结构U-Net，其主要原理是利用下采样的压缩路径和上采样的扩展路径提取和预测图像特征。U-Net拥有对称的编码-解码拓扑结构以及独特的跳跃连接结构。在图像分割过程中高层特征具有强的语义信息，底层特征包含更多的细节，U-Net使用通道拼接的方式结合高层特征和底层特征，实现多尺度特征融合。U-Net独特的网络结构使它在医学图像分割上面的性能优于FCNs。基于U-Net的医学图像分割研究方法已成为一个研究热点。但是，由于U-Net的网络层数较少，在DNN前向传输阶段，网络对图像高层特征信息的提取能力较弱，在上采样的像素预测阶段中，补充图像特征信息的能力较弱，这也就限制了其分割精度。有研究者致力于通过增加U-Net网络层数来提高对图像高层特征信息提取的能力，虽然在分割效果上有一定的提升，但在网络模型的构建与优化方面还有待提高。此外，由于医学图像中的灰度信息提供的是低质量特征空间，且灰度信息中存在大量噪声，导致不同类别的结构拥有相同灰度，严重影响相邻实例之间的分割精度。

近年来，条件随机场(Conditional Random Field，以下简称CRF)作为一种有效的后处理方法在医学图像分割中得到了广泛的应用，将CRF的结构化建模能力与DNN的特征提取能力相结合能更好地处理图像分割任务。但是，基本的CRF模型是由一阶势函数和相邻元素构成的势函数所组成的图模型，在图像处理过程中，CRF模型只考虑了相邻的邻域像素，缺少对整个空间信息进行考虑。很多端到端医学图像训练方法仍依赖于对部分CRF参数的独立调整，均以灰度信息作为主要特征空间，但是在医学图像中，灰度信息往往为CRF提供了低质量的特征空间，因为灰度是有噪声的，属于不同类别的几个结构可能具有相同的灰度，所以高效得利用医学图像中的灰度信息进行精准分割也是一个挑战。

发明内容

针对U-Net模型所展现出的不足，本发明通过对残差网络提出的瓶颈架构进行改良，在U-Net模型结构基础上对网络进行重新构建与优化，搭建一个区别于U-Net的全新的DNN，称为对称式全卷积残差网络，再将全连接条件随机场(Dense Conditional RandomFields,DCRF)应用于前面搭建的网络生成的分割概率图而不是原始灰度信息，作为后处理进一步优化牙齿轮廓。具体说是在U-Net模型中的每一层加入经过改良的深层次瓶颈架构(Deep Bottleneck Architectures，以下简称DBAs)，引入基于像素累加的跳跃连接结构，加强特征的传播并促进特征的重用。此外，将DCRF应用于由对称式全卷积残差网络生成的分割概率图而不是原始灰度信息，利用网络得到的高质量特征图，融合DCRF全局结构化预测能力，解决CBCT牙齿图像中存在的噪声问题，精确定位牙齿轮廓并细化牙齿边缘，进一步提高分割效果。整体架构模型如附图1所示。

本发明的基于DNN+DCRF的CBCT牙齿图像分割方法主要由以下步骤实现。

步骤1、CBCT牙齿图像数据集的准备和预处理

原始CBCT牙齿图像数据集由四川大学华西医院所提供，图像格式为DCM文件，遵循标准DICOM3.0格式，图像尺寸大小为401*401，如附图4(a)所示。一共包含六组分别为六个人的CBCT口腔扫描图像，每组共401张图像。针对这些原始图像，为了将其转化为适用于神经网络训练的数据，需要提取并整理DCM文件中的图像信息，相关处理过程如附图4所示。

第一步，从DCM文件中筛选出保存图像信息的部分，具体为16位uint类型数据，计算出原始DCM图像的窗宽：

windowing＝max(img)-min(img)

其中img为图像里的灰度值矩阵，max(img)为矩阵中最大值，min(img)为矩阵中最小值。

利用窗宽将DCM文件中的灰度级别映射到0-255：

再取图像中最小值作为原始DCM图像的窗位：

并结合窗宽和窗位对图像数据进行加窗：

img＝img+windowLevel

最后将图像数据转化为位深度为8的uint类型数据，并保存为PNG格式的图片，图片尺寸大小为401*401，用此作为训练集中的图片，如附图4(b)所示。

第二步，从转化好的PNG格式文件里挑选出有效的，具有代表性的图片。使用深度学习标注工具基于Python版本的LabelMe框架对牙齿实例进行标注，如附图4(c)所示。

第三步，由于LabelMe生成的标签图片的灰度值范围为0-1，而神经网络训练输入的图片灰度值范围为0-255，所以再将标签图片的像素二值化为0和255。最终展现为牙齿实例为白色，牙齿背景为黑色，用此作为训练集中的图片标签，如附图4(d)所示。

经过对原始CBCT牙齿图像的预处理，一共得到86组有效且具有代表性牙齿图片和相对应的标签图，如附图5所示，最后选用74组作为训练神经网络所需要的训练集，选用12组作为测试集。

步骤2、搭建对称式全卷积残差网络架构。

使用U-Net作为基础网络架构，它由下采样(扩展路径)结合上采样(收缩路径)组成。其中收缩路径用于捕获上下文特征信息，扩展路径实现像素的精准定位和预测。通过增加网络隐藏层的数量可以进一步提高神经网络的性能，但是，这样不仅增加了网络参数的数量，增大了计算量，而且容易发生过拟合。本发明使用经过改良的深层次瓶颈架构(DeepBottleneck Architectures，DBAs)来减少网络中的参数数量，并增加网络的深度。

针对U-Net的网络特点设计了三种DBAs来代替U-Net中的卷积层，如附图2所示。每个DBA由一个左分支和一个右分支并联组成，其中左分支只有一个3*3卷积层，卷积步长为1；右分支由三个串行连接的卷积层分别是1*1卷积层，3*3卷积层，1*1卷积层，且卷积步长均为1组成。每个卷积操作之后直接ReLU作为激活函数实现非线性特征的传递。值得注意的是，在DBA中的每一个卷积操作的后面，激活函数的前面加上了批量归一化(BatchNormalization，以下简称BN)操作。首先令k_n＝k₁,k₂,…,k_n表示某一层的n个神经元的输出，计算出n个神经元输出结果的均值：

并计算相应的方差：

接下来加入可学习重构参数

和γ，对n个神经元输出的方差进行无偏估计得到BN的输出Y：

式子中∈是一个常数项，目的是帮助方差var_k ²的数值保持稳定性。

BN可以将数据卷积后的输出结果进行正态变换等操作，让激活函数的输入数据处于梯度非饱和区，使得数据在经过激活函数时，激活函数输入数据的小变化会引起非线性函数值较大的变化，也即是梯度变化较大。加入BN操作的好处是能更好地提高网络训练速度，加快网络的收敛，同时缓解DNN训练中梯度消失的问题。

在DBAs中，令每个DBA的输入数据为x(w,h,n)，w、h、n分别表示通道的宽度、高度和数量,左分支一个卷积层权重为ω_L1，右分支三个卷积层的权重分别为ω_R1,ω_R2,ω_R3，网络每一层分别定义为t⁽¹⁾(x,ω_R1)，t⁽²⁾(x,ω_R2)，t⁽³⁾(x,ω_R3)。BN和ReLU函数一起定义为G(x)。那么DBA输出为：

DBA_(n)＝f(x,ω)_L+f(x,ω)_R

式子中x表示输入数据x(w,h,n)，n表示DBA输出结果中的通道数量，每种DBA输出结果中的n为不同的值，f(x,ω)_L为左分支的输出：

f(x,ω)_L＝G(t(x,ω_L1))

f(x,ω)_R为右分支的输出：

f(x,ω)_R＝G{t⁽³⁾{G{t⁽²⁾{G[t⁽¹⁾(x,ω_R1)],ω_R2}},ω_R3}]

在三种DBAs中，DBA1能在经过系列卷积之后使通道数保持不变，代替的是U-Net网络中的正常卷积操作；

DBA1＝DBA_(n)

DBA2能在经过系列卷积之后使通道数加倍，代替的是U-Net网络中的池化之后由于特征图的大小减半而进行的通道数加倍的卷积操作；

DBA2＝DBA_(2n)

DBA3能在经过系列卷积之后使通道数减半，代替的是U-Net网络中进行多尺度特征融合之后再进行通道数减半的卷积操作。

DBA3＝DBA_(n/2)

通过使用三种BDAs代替U-Net中的卷积层，网络层数达到了54层，不仅有效地加深了网络，更好地提取图片的特征，提高像素预测的精确度，而且还能减少参数计算的数量，网络架构的详细信息如附图3所示。

本发明搭建了一个全新的DNN，对称式全卷积残差网络。整个网络模型一共包含九个卷积组，除了第一卷积组(一个普通3*3卷积和一个DBA1)，每个卷积组均包含了两个DBAs。其中在下采样阶段，从第二至第五卷积组均使用DBA2和DBA1，并在每个卷积组末尾加上最大池化层。值得注意的是，在第四卷积组的最大池化操作之前加上了Dropout，目的是为了减轻网络过拟合的问题；在第五卷积组的末尾没有采用最大池化而是直接采用Dropout，目的是为了保存下采样提取图片特征阶段的结果。在上采样阶段，从第六至第九个卷积组均使用DBA3和DBA1，且在每个卷积组末尾再进行反卷积以及特征通道拼接的操作，实现多尺度特征融合。在第九卷积组的末尾加上一个1*1的卷积层，卷积步长为1，并使用Sigmoid激活函数，得到最终的分割概率图。

步骤3、利用训练集对模型进行训练及参数优化。

为了更好地训练网络模型，本发明采用数据增强策略。将图片和对应的标签图片以相同的命名，分别放于图片和标签两个文件夹中，通过对图片进行旋转、水平和垂直平移、缩放、归一化等操作，扩充训练集的大小。经过反向传播来优化各个网络模型中的参数和权值，训练完毕之后将模型保存为HDF5格式的文件。

由此，得到训练好的对称式全卷积残差网络模型。

步骤4、使用全连接条件随机场优化对称式全卷积残差网络得到的分割概率图。

将全连接条件随机场(Dense Conditional Random Fields,DCRF)应用于步骤3之后，将步骤3得到的分割概率图作为DCRF模型的输入。DCRF不仅能利用相邻像素之间的联系，还能掌握并利用整个空间的像素信息对局部像素进行判断和预测；其次还能够根据空间中各像素之间的长短距离关系进行建模，充分掌握整个空间的上下文关系。具体实现如下：

DCRF模型将每一个像素点对其它所有像素点都构成一个连接关系，使空间中所有的点相互之间都存在一定联系，它的吉布斯能量为：

DCRF能量函数由一元势函数P_i(a_i)和二元势函数P_ij(a_i,a_j)组成，N为整个图像中的像素个数，一元势函数是定义在观测序列位置i的状态特征函数，可进一步定义为：

其中，

是计算输入图片中第i个像素属于某个类别a_i的概率，在这里为步骤3中对称式全卷积残差网络输出的分割概率图。

二元势函数是定义在不同观测位置上的转移特征函数，用于刻画变量之间的相关关系以及观测序列对其影响。在这里定义为:

其中，

因为在整个DCRF模型中各像素之间是完全连通的，所以对于图片中的每一对像素i和j，不管它们相对位置在哪儿，都存在一个对应关系。f_i是像素i的特征向量，f_j是像素j的特征向量，k^m是高斯核，依赖于像素i，j的特征向量，其对应的权重是ω_m。在图像处理中，一个流行的成对关系是“双边”关系，它大致表示颜色相似或位置相似的像素可能属于同一个类。引用双边关系和灰度强度定义二元势函数为：

这里，第一个内核同时依赖于像素位置(表示为δ)和像素灰度强度(表示为I)，而第二个内核仅依赖于像素位置，超参数α，β和γ控制高斯核的大小。

二元函数就是描述像素点与像素点之间的关系，鼓励相似像素分配相同的标签，而相差较大的像素分配不同标签，而这个“关系”的定义与灰度值和实际相对距离有关，这样就能实现尽量在边界处分割，达到细化边界的效果，得出最终精准的分割图。

本发明的有益效果是：本发明将DNN和DCRF相结合，利用对称式全卷积残差网络获取输入牙齿图像的分割概率图，再使用DCRF作为后处理，解决神经网络实例分割中的边界平滑问题。在对称式全卷积残差网络中，使用特殊的DBAs和BN对网络进行加深，强化特征的传播和特征的重用，提高网络提取特征和预测像素的能力。将DCRF直接应用于网络产生的分割概率图而不是原始灰度信息，利用DCRF全局结构化预测能力精确定位牙齿轮廓并细化牙齿边缘，提高对牙齿图像分割的精确度。

附图说明

图1为本发明的CBCT牙齿图像分割所采用的总体框架；

图2为经过改良的深层次瓶颈架构；

图3为对称式全卷积残差网络结构；

图4为CBCT牙齿图像数据预处理过程；

图5为训练和测试数据集；

图6为对称式全卷积残差网络训练结果；

图7为整个模型分割结果。

具体实施方式

下面结合附图和实例说明本发明的实用性。

本发明的实施例中采用六组CBCT牙齿图像数据集，每组共401张图像，经过图像预处理之后得到有效的，具有代表性的牙齿图片数据共86组。其中，选用74组作为训练神经网络的训练集，选用12组作为测试网络性能的测试集。

首先，将74组牙齿中的图片和标签分别放入trainImage和trainLabel文件夹下，作为训练集对网络模型参数进行训练和优化。因为本发明中的对称式全卷积残差网络取消了全连接层，所以输入图片的大小不再受限制，可采用任意尺寸大小。模型训练过程中选择Adam作为参数调整的优化器，二进制交叉熵作为损失函数，设置学习率为0.01，整个模型训练好后保存为Tooth_DNN_DCRF.HDF5文件，训练结果如附图6所示。

然后，将12组测试集放入训练好的网络中运行测试，得到由对称式全卷积残差网络产生的牙齿分割概率图。

接下来，再将牙齿的分割概率图作为DCRF模型的输入，经过DCRF模型迭代优化得到精准的牙齿分割结果，如附图7所示。

通过以上实验可见，本发明在分割CBCT牙齿图像时，分割效果好，精确度高。

Claims

1.一种用于CBCT牙齿图像的分割方法，其特征在于，包括以下步骤：

S1、将原始CBCT牙齿图像转化为位图图像获得牙齿图片，使用深度学习标注工具基于Python版本的LabelMe框架对牙齿进行标注获得标签图片，将标签图片的像素二值化为0和255获得图片标签，将牙齿图片和与其对应的图片标签组成训练集；

S2、构建对称式全卷积残差网络模型，所述对称式全卷积残差网络模型是在U型网络模型的基础上，使用三个深层次瓶颈架构DBA替换U型网络模型中的卷积层得到，具体结构为：

每个DBA由一个左分支和一个右分支并联组成，其中左分支包括一个3*3卷积层，卷积步长为1；右分支包括三个串连的卷积层，分别是1*1卷积层，3*3卷积层，1*1卷积层，且卷积步长均为1；每个卷积操作之后采用ReLU作为激活函数实现非线性特征的传递，同时在DBA中的每一个卷积操作的后面，激活函数的前面具有批量归一化操作，批量归一化操作具体为：

令k_n＝k₁,k₂,…,k_n表示某一层的n个神经元的输出，计算n个神经元输出结果的均值：

并计算相应的方差：

加入可学习重构参数

和γ，对n个神经元输出的方差进行无偏估计得到批量归一化操作的输出Y：

其中∈是一个常数项，用于帮助方差var_k ²的数值保持稳定性；

令每个DBA的输入数据为x(w,h,n)，w、h、n分别表示通道的宽度、高度和数量,左分支一个卷积层权重为ω_L1，右分支三个卷积层的权重分别为ω_R1,ω_R2,ω_R3，网络每一层分别定义为t⁽¹⁾(x,ω_R1)，t⁽²⁾(x,ω_R2)，t⁽³⁾(x,ω_R3)，批量归一化操作和ReLU函数一起定义为G(x)；DBA输出为：

DBA_(n)＝f(x,ω)_L+f(x,ω)_R

其中x表示输入数据x(w,h,n)，n表示DBA输出结果中的通道数量，每个DBA输出结果中的n为不同的值，f(x,ω)_L为左分支的输出：

f(x,ω)_L＝G(t(x,ω_L1))

f(x,ω)_R为右分支的输出：

f(x,ω)_R＝G{t⁽³⁾{G{t⁽²⁾{G[t⁽¹⁾(x,ω_R1)],ω_R2}},ω_R3}}

将三个DBA分别定义为DBA1、DBA2、DBA3，三个DBA的作用分别是：

DBA1用于在经过系列卷积之后使通道数保持不变，替换的是U型网络中的正常卷积操作：

DBA1＝DBA_(n)

DBA2用于在经过系列卷积之后使通道数加倍，替换的是U型网络中的池化之后由于特征图的大小减半而进行的通道数加倍的卷积操作：

DBA2＝DBA_(2n)

DBA3用于在经过系列卷积之后使通道数减半，替换的是U型网络中进行多尺度特征融合之后再进行通道数减半的卷积操作：

DBA3＝DBA_(n/2)

对称式全卷积残差网络模型包括九个卷积组，第一卷积组包括一个3*3卷积和一个DBA1，第二至第五卷积组均包括一个DBA2和一个DBA1，除第五卷积组外每个卷积组末尾具有最大池化层，第五卷积组末尾采用Dropout；第六至第九卷积组均包括一个DBA3和一个DBA1，每个卷积组末尾进行反卷积以及特征通道拼接的操作，在第九卷积组的末尾加上一个1*1的卷积层，卷积步长为1，并使用Sigmoid激活函数，经过对称式全卷积残差网络模型后得到分割概率图；

S3、利用步骤S1的训练集对步骤S2构建的对称式全卷积残差网络模型进行训练，采用反向传播来优化各个网络模型中的参数和权值，得到训练好的对称式全卷积残差网络模型，将待分割的CBCT牙齿图像输入训练好的对称式全卷积残差网络模型，得到目标分割概率图；

S4、采用全连接条件随机场DCRF优化目标分割概率图，具体为：

将目标分割概率图作为DCRF模型的输入，DCRF模型将每一个像素点对其它所有像素点都构成一个连接关系，使空间中所有的点相互之间都存在一定联系，它的吉布斯能量为：

DCRF能量函数由一元势函数P_i(a_i)和二元势函数P_ij(a_i,a_j)组成，N为整个图像中的像素个数，一元势函数是定义在观测序列位置i的状态特征函数，定义为：

其中，

是计算输入图片中第i个像素属于某个类别a_i的概率，即属于目标分割概率图的概率；

二元势函数是定义在不同观测位置上的转移特征函数，用于刻画变量之间的相关关系以及观测序列对其影响，定义为：

其中，

在整个DCRF模型中各像素之间是完全连通的，所以对于图片中的每一对像素i和j，不管它们相对位置在哪儿，都存在一个对应关系，f_i是像素i的特征向量，f_j是像素j的特征向量，k^m是高斯核，依赖于像素i，j的特征向量，其对应的权重是ω_m；将二元势函数进一步定义为：

其中，第一个内核同时依赖于像素位置δ和像素灰度强度I，而第二个内核仅依赖于像素位置，超参数α，β和γ控制高斯核的大小；二元函数用于描述像素点与像素点之间的关系，鼓励相似像素分配相同的标签，而相差较大的像素分配不同标签，关系的定义与灰度值和实际相对距离有关，从而实现尽量在边界处分割，达到细化边界的效果，得出最终精准的分割图。

2.根据权利要求1所述的一种用于CBCT牙齿图像的分割方法，其特征在于，对称式全卷积残差网络模型第四卷积组的最大池化层之前还具有Dropout。