发明内容
为克服上述现有技术存在的不足,本发明之目的在于提供一种基于分层感知融合的3D医疗图像分割方法、装置及存储介质,以通过将3D医疗图像切分为H、W、C方向的三个2D图像以及若干小块3D图像,利用2D通道序列关系模型与3D模型的融合,解决单一模型无法充分利用且预测不准的问题,并且根据多模型的融合成立一个投票机制,实现高效准确的3D医疗图像分割的目的。
为达上述及其它目的,本发明提出一种基于分层感知融合的3D医疗图像分割方法,包括如下步骤:
步骤S1,获取3D医疗图像进行预处理,并对预处理后的3D医疗图像进行切片,获得多个切片图像;
步骤S2,对各切片图像分别通过卷积神经网络语义分割算法进行卷积计算,获得各切片图像语义分割后的结果;
步骤S3,对各切片图像的预测结果进行融合,输出最终医疗图像分割结果。
优选地,步骤S1进一步包括:
步骤S100,获取3D所述医疗图像,对3D医疗图像进行打标,分为目标和背景两个部分;
步骤S101,打标完成后,检查所述3D医疗图像的数据的正误;
步骤S102,对该3D医疗图像进行切分,获得对所述3D医疗图像按照H、W、C切片的三个2D图像以及对所述3D医疗图像分解为若干个小的3D图像;
步骤S103,对切分后的各切片图像进行数据增强。
优选地,所述目标代表目标区域即器官病理组织图像区域,背景代表非器官部分。
优选地,所述3D医疗图像经打标后,图像变为背景为0像素值,目标为1像素值,若有多个病理组织则用不同像素点进行区分。
优选地,于步骤S2中所述卷积神经网络为包含感受野增强模块RFEM的RFEUnet网络结构。
优选地,所述RFEUnet网络结构在现有Unet网络结构基础上,将所述Unet网络的通道组合改为原来的1/2,并通过将所述感受野模块RFEM加入所述Unet网络编码结构尾部,通过所述感受野模块RFEM利用Maxpooling、mish激活函数、空洞卷积结构扩大网络模型的感知性能。
优选地,于步骤S3中,H、W、C方向切片图像以及若干小块3D图像,进入四个RFEUnet网络结构形成四个分割的结果,对该四个输出结果取平均概率得到最终的图像分割结果。
为达到上述目的,本发明还提供一种基于分层感知融合的3D医疗图像分割装置,包括:
预处理模块,用于获取3D医疗图像进行预处理,并对预处理后的3D医疗图像进行切片,获得多个切片图像;
分割模块,用于对各切片图像分别通过卷积神经网络语义分割算法进行卷积计算,获得各切片图像语义分割后的结果;
融合模块,用于对各切片图像的预测结果进行融合,输出最终医疗图像分割结果。
优选地,所述分割模块采用包含感受野增强模块RFEM的RFEUnet网络结构作为所述卷积神经网络,所述RFEUnet网络结构在现有Unet网络结构基础上,将所述Unet网络的通道组合改为原来的1/2,并通过将所述感受野模块RFEM加入所述Unet网络编码结构尾部,通过所述感受野模块RFEM利用Maxpooling、mish激活函数、空洞卷积结构扩大网络模型的感知性能。
为达到上述目的,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质用于存储程序代码,所述程序代码用于执行上述3D医疗图像分割方法。
与现有技术相比,本发明一种基于分层感知融合的3D医疗图像分割方法、装置及存储介质,以通过将3D医疗图像切分为H、W、C方向的三个2D图像以及若干小块3D图像,利用2D通道序列关系模型与3D模型的融合,解决单一模型无法充分利用且预测不准的问题,并且根据多模型的融合成立一个投票机制,以实现高效准确的3D医疗图像分割的目的。
具体实施方式
以下通过特定的具体实例并结合附图说明本发明的实施方式,本领域技术人员可由本说明书所揭示的内容轻易地了解本发明的其它优点与功效。本发明亦可通过其它不同的具体实例加以施行或应用,本说明书中的各项细节亦可基于不同观点与应用,在不背离本发明的精神下进行各种修饰与变更。
图1为本发明一种基于分层感知融合的3D医疗图像分割方法的步骤流图。如图1所示,本发明一种基于分层感知融合的3D医疗图像分割方法,包括如下步骤:
步骤S1,获取3D医疗图像,对3D医疗图像进行预处理,并对预处理后的图像进行切片处理,获得切片处理后的多个切片图像。
具体地,步骤S1进一步包括:
步骤S100,获取3D医疗图像,对3D医疗图像进行打标,分为目标和背景两个部分。
在本发明具体实施例中,获得3D医疗图像后,先利用打标软件对3D医疗图像进行打标,将其分为目标和背景两个部分,其中目标代表目标区域即器官病理组织图像区域,背景代表非器官部分。
步骤S101,打标完成后,检查该3D医疗图像的数据的正误。
打标完成后,检查图像数据的正误。打标软件可能像素点的分配非统一,则将图像变为背景为0像素值,目标为1像素值,如果有多个病理组织则可以用不同像素点进行区分,如像素点1为肿瘤组织,2像素点为肿瘤周边等等。
步骤S102,对该3D医疗图像进行切分,获得对所述3D医疗图像按照H、W、C切片的三个2D图像以及对所述3D医疗图像分解为若干个小的3D图像。
也就是说,在本发明中,对3D医疗图像的切片有两种切片方式,第一种为3D图像为按照H、W、C切片为不同的2D图像;第二种为将3D图像分解为若干个小的3D图像。
在医疗图像的的分割中,若将一个3D医疗图像直接输入卷积神经网络然后3D图像输出,这会导致一种结果就是计算量大、运算速度比较的慢,而且由于医疗图像数据集非常的少,直接用3D图像效果并不好,因此本发明中考虑将3D医疗图像进行切片,即按照H、W、C通过切片为2D图像送入到2D的网络中以解决计算量复杂的问题,但是这样出现2D图像的网络没有考虑到2D图像和2D图像之间的相关性的问题,因此本发明拟考虑利用按照H、W、C三种方向切分的2D图像以及将3D图像分解的若干小块3D图像分别通过4个卷积神经网络形成4个3D分割的结果,这样处理的方法,既利用了层级关系也可以抵抗因为数据集少而产生的过拟合效应。
步骤S103,对切分后的各切片图像进行数据增强。
数据增强对于小数据集十分的重要,在本发明具体实施例中,数据增强主要包括旋转、裁剪、放缩,起到防止过拟合以及增加鲁棒性的作用,即对切分后的各切片图像进行旋转、裁剪、放缩等处理,以防止过拟合以及增加鲁棒性,由于对图像的数据增强已是现有的普遍操作,在此不予赘述。
步骤S2,对各切片图像分别通过卷积神经网络语义分割算法进行卷积计算,获得各切片图像语义分割后的结果。
在本发明具体实施例中,所述卷积神经网络主要通过五种空洞卷积结构来提取各切片图像的高层次特征,所述五种空洞卷积结构均包括层次结构。具体地说,本发明根据医疗图像需要全局判断的机理特性,提出一种RFEUnet(Receptive field enhancementUnet),网络结构如图2所示,图中1/n表示图像下采样的倍数,C表示输出通道数,×2表示经过两次卷积运算,Downsampling采用Maxpooling进行下采样,Upsampling利用双线性插值进行上采样,特征融合fusion采用通道拼接的方式,此网络结构在原有的Unet的结构上对通道数量进行了改进,同时增大图像的感受野,使得模型在大区域图像分割上感知域范围更大。
在本发明中所提出的RFEUnet网络结构相比于原有的Unet的网络结构,其改进主要有以下三点:
1.RFEUnet将Unet的通道组合改为原来的1/2,使之有更快的推理速度,例如将原来的[64,128,256,512,1024,512,256,64,2]这样的通道数改为[32,64,128,256,512,256,128,32,2],这样的通道组合使得网络参数更少,计算效率更高。
2、建立一个感受野模块RFEM加入编码结构尾部,利用Maxpooling、mish激活函数、空洞卷积结构有效扩大模型的感受野增强模型的感知性能。具体地,该感受野模块RFEM利用五种富有层次结构的空洞卷积结构提取高层次特征,如图3所示,图中的C代表输出通道数,Dilation rate代表空洞卷积的空洞个数,1/16表示愿图像下采样16倍,其空洞卷积的比例为[1,3,6,12,18],左侧最上方为Maxpooling操作,空洞卷积结构先卷积操作后加上BN(Batch Normalization,批量归一化)并加上mish激活函数,所述感受野模块RFEM通过利用Maxpooling、mish激活函数以及空洞卷积结构能够有效扩大模型的感受野增强模型的感知性能。
3、原有的Unet直连结构,并没有加入残差模块,网络加深后会出现过拟合现象,所以本发明在Unet底层加入残差思想和感受野增强模块形成RFEM(Receptive fieldenhancement Module),模块如图3所示,有效地扩大底层特征在卷积计算过程中的感受野且不会因为网络层加深而出现过拟合的现象。
步骤S3,对各切片图像的预测结果进行融合,输出最终医疗图像分割结果。
在本发明中,切片图像分别为H、W、C方向切片图像以及若干小块3D图像,进入四个卷积神经网络形成了四个3D分割的结果,根据该四个输出结果取平均即为最终的结果。也就是说,四个切片图像分别通过四个权重不同的RFEUnet网络输出四个结果FA(X),FB(X),FC(X),FD(X),例如,RFEUnet网络结构对每一个输入图像的每一个像素点,会输出一个概率值,对四个输出值取平均概率,然后索引种类间最大输出即:
FO(X)=agrmax((FA(X)+FB(X)+FC(X)+FD(X))/4)
简单地说,假设神经网络输出来都是0-1的数,这样可以理解是一个概率值,本发明输出是四个3D图像所以对每个通道取平均值,这里每个像素点有两个类即病灶和非病灶,然后将病灶的概率和非病灶的概率对比大小即索引最大值。如果病灶大赋值像素点为1,如果非病灶大赋值像素点为0,这是argmax函数的效果,这样的话就可以知道病灶的区域了。如果把图像乘以255,那么病灶为白色,非病灶为黑色,就做了区分,其输出就是一个3D的医疗图像分割效果,也就是3D图像中有病灶的区域被识别出来。
可见,本发明通过对3D医疗图像按照H、W、C切片为三个2D图像,利用多方向的信息送入2D的网络结构中,使得本发明3D医疗图像的分割利用了方向的信息(单2D模型无法拥有这些特性),同时还对3D医疗图像切分成若干小块的3D预测拼接利用了层间关系的信息,这样既利用了图像的层级关系也可以抵抗因为医疗数据集较少而产生的过拟合效应。
图4为本发明一种基于分层感知融合的3D医疗图像分割装置的***结构图。如图4所示,本发明一种基于分层感知融合的3D医疗图像分割装置,包括:
预处理模块10,用于获取3D医疗图像,对3D医疗图像进行预处理,并进行切片处里,获得切片处理后的多个切片图像。
在本发明中,预处理模块10具体用于:
获取3D医疗图像,对3D医疗图像进行打标,分为目标和背景两个部分。
在本发明具体实施例中,获得3D医疗图像后,先利用打标软件对3D医疗图像进行打标,将其分为目标和背景两个部分,其中目标代表目标区域即器官病理组织图像区域,背景代表非器官部分。
打标完成后,检查该3D医疗图像的数据的正误。
打标完成后,检查图像数据的正误。打标软件可能像素点的分配非统一,则将图像变为背景为0像素值,目标为1像素值,如果有多个病理组织则可以用不同像素点进行区分,如像素点1为肿瘤组织,2像素点为肿瘤周边等等。
对该3D医疗图像进行切分,获得对所述3D医疗图像按照H、W、C切片的三个2D图像以及对所述3D医疗图像分解为若干个小的3D图像。
也就是说,在本发明中,对3D医疗图像的切片有两种切片方式,第一种为3D图像为按照H、W、C切片为不同的2D图像;第二种为将3D图像分解为若干个小的3D图像。
在医疗图像的的分割中,若将一个3D医疗图像直接输入卷积神经网络然后3D图像输出,这会导致一种结果就是计算量大、运算速度比较的慢,而且由于医疗图像数据集非常的少,直接用3D图像效果并不好,因此本发明中考虑将3D医疗图像进行切片,即按照H、W、C通过切片为2D图像送入到2D的网络中以解决计算量复杂的问题,但是这样出现2D图像的网络没有考虑到2D图像和2D图像之间的相关性的问题,因此本发明拟考虑利用按照H、W、C三种方向切分的2D图像以及将3D图像分解的若干小块3D图像分别通过4个卷积神经网络形成4个3D分割的结果,这样处理的方法,既利用了层级关系也可以抵抗因为数据集少而产生的过拟合效应。
对切分后的各切片图像进行数据增强。
数据增强对于小数据集十分的重要,在本发明具体实施例中,数据增强主要包括旋转、裁剪、放缩,起到防止过拟合以及增加鲁棒性的作用,即对切分后的各切片图像进行旋转、裁剪、放缩等处理,以防止过拟合以及增加鲁棒性,由于对图像的数据增强已是现有的普遍操作,在此不予赘述。
分割模块20,用于对各切片图像分别通过卷积神经网络语义分割算法进行卷积计算,获得各切片图像语义分割后的结果。
在本发明具体实施例中,所述卷积神经网络主要通过五种空洞卷积结构来提取各切片图像的高层次特征,所述五种空洞卷积结构均包括层次结构。具体地说,本发明根据医疗图像需要全局判断的机理特性,提出一种RFEUnet(Receptive field enhancementUnet),网络结构如图2所示,图中1/n表示图像下采样的倍数,C表示输出通道数,×2表示经过两次卷积运算,Downsampling采用Maxpooling进行下采样,Upsampling利用双线性插值进行上采样,特征融合fusion采用通道拼接的方式,此网络结构在原有的Unet的结构上对通道数量进行了改进,同时增大图像的感受野,使得模型在大区域图像分割上感知域范围更大。
在本发明中所提出的RFEUnet网络结构相比于原有的Unet的网络结构,其改进主要有以下三点:
1.RFEUnet将Unet的通道组合改为原来的1/2,使之有更快的推理速度,例如将原来的[64,128,256,512,1024,512,256,64,2]这样的通道数改为[32,64,128,256,512,256,128,32,2],这样的通道组合使得网络参数更少,计算效率更高。
2、建立一个感受野模块RFEM加入编码结构尾部,利用Maxpooling、mish激活函数、空洞卷积结构有效扩大模型的感受野增强模型的感知性能。具体地,该感受野模块RFEM利用五种富有层次结构的空洞卷积结构提取高层次特征,如图3所示,图中的C代表输出通道数,Dilation rate代表空洞卷积的空洞个数,1/16表示愿图像下采样16倍,其空洞卷积的比例为[1,3,6,12,18],左侧最上方为Maxpooling操作,空洞卷积结构先卷积操作后加上BN(Batch Normalization,批量归一化)并加上mish激活函数,所述感受野模块RFEM通过利用Maxpooling、mish激活函数以及空洞卷积结构能够有效扩大模型的感受野增强模型的感知性能。
3、原有的Unet直连结构,并没有加入残差模块,网络加深后会出现过拟合现象,所以本发明在Unet底层加入残差思想和感受野增强模块形成RFEM(Receptive fieldenhancement Module),模块如图3所示,有效地扩大底层特征在卷积计算过程中的感受野且不会因为网络层加深而出现过拟合的现象。
融合模块30,用于对各切片图像的预测结果进行融合,输出最终医疗图像分割结果。
在本发明中,切片图像分别为H、W、C方向切片图像以及若干小块3D图像,进入四个卷积神经网络形成了四个3D分割的结果,融合模块30则根据该四个输出结果取平均即为最终的结果。也就是说,四个切片图像分别通过四个权重不同的RFEUnet网络输出四个结果FA(X),FB(X),FC(X),FD(X),例如,RFEUnet网络结构对每一个输入图像的每一个像素点,会输出一个概率值,对四个输出值取平均概率,然后索引种类间最大输出即:
FO(X)=agrmax((FA(X)+FB(X)+FC(X)+FD(X))/4)
简单地说,假设神经网络输出来都是0-1的数,这样可以理解是一个概率值,本发明输出是四个3D图像所以对每个通道取平均值,这里每个像素点有两个类即病灶和非病灶,然后将病灶的概率和非病灶的概率对比大小即索引最大值。如果病灶大赋值像素点为1,如果非病灶大赋值像素点为0,这是argmax函数的效果,这样的话就可以知道病灶的区域了。如果把图像乘以255,那么病灶为白色,非病灶为黑色,就做了区分,其输出就是一个3D的医疗图像分割效果,也就是3D图像中有病灶的区域被识别出来。
本发明还提供了一种计算机可读存储介质,计算机可读存储介质用于存储程序代码,程序代码用于执行上述实施例提供的3D医疗图像分割方法。
实施例
图5为本发明实施例中基于分层感知融合的3D医疗图像分割流程图。在本发明实施例中,一种基于分层感知融合的3D医疗图像分割方法,包括:
步骤一,数据制作、切片、增强
步骤1.1,利用打标软件对3D医疗图像进行打标,分为目标和背景两个部分,目标代表目标区域即器官病理组织图像区域,背景代表非器官部分。如果有多个病理组织可以用不同像素点进行区分,如像素点1为肿瘤组织,2像素点为肿瘤周边等等。
步骤1.2,打标完成之后,检查数据的正误。例如.利用编程检查背景和病灶区域的数据分布是否,为背景:0、病灶区1:1、病灶区2:2等,简单来说就是检查一下像素值,以不影响后续的编码,在此不予赘述。
步骤1.3,对3D医疗图像进行切片。根据3D模型和2D模型,有两种切片方式,第一种为3D图像为按照H、W、C切片为不同的2D图像。第二种为将3D图像分解为若干个小的3D图像。
步骤1.4,对切片后的各切片图像进行数据增强。数据增强对于小数据集十分的重要,这里的数据增强主要是旋转、裁剪、放缩,起到防止过拟合以及增加鲁棒性的作用。
步骤二,根据医疗图像需要全局判断的机理特性,提出一种RFEUnet(Receptivefield enhancement Unet)网络结构,并将各切片图像分别输入一个RFEUnet的网络结果,得到四个语义分割结果。此网络结构在原有的Unet的结构上对通道数量进行了改进(将原来的Unet的通道组合改为原来的1/2),同时增大图像的感受野RFEM(该感受野模块RFEM利用Maxpooling、mish激活函数、空洞卷积结构有效扩大模型的感受野增强网络模型的感知性能),使得网络模型在大区域图像分割上感知域范围更大。
步骤三,投票机制:根据H切片方向预测网络模型、W切片方向预测网络模型、C切片方向预测网络模型,3D网络模型的输出结果进行融合得出3D医疗图像的一个融合结果。各网络模型输出总共有A、B、C、D四个输出,模型针对每一个输入图像的每一个像素点,会输出一个概率值,对四个输出值取平均概率,然后索引种类间最大输出即为最终的图像分割结果:
FO(X)=agrmax((FA(X)+FB(X)+FC(X)+FD(X))/4)
图6为本发明实施例中利用原有Unet网络模型、RFEUnet网络模型以及多模型融合对3D医疗图像分割的结果对比图,下表1为原有Unet网络模型、RFEUnet网络模型以及多模型融合的预测能力对比表。通过图6及表1可见,和现有技术相比,RFEUnet网络模型的单个模型预测能力上要比现有技术Unet要好,而多模型融合在能力上由于考虑了方向和通道相关特征的利用,预测精度则更好。
表1 Unet和RFEUnet模型融合表对比表
网络 |
Unet |
RFEMUnet |
多模型融合 |
pixel Accuracy |
90.2% |
98.6% |
99.8% |
参数量 |
31M |
11M |
40M |
推理速度 |
0.08s |
0.04s |
0.16s |
上述实施例仅例示性说明本发明的原理及其功效,而非用于限制本发明。任何本领域技术人员均可在不违背本发明的精神及范畴下,对上述实施例进行修饰与改变。因此,本发明的权利保护范围,应如权利要求书所列。