CN114332040A

CN114332040A - 一种基于多模态的甲状腺肿瘤图像分类方法及终端设备

Info

Publication number: CN114332040A
Application number: CN202111660372.3A
Authority: CN
Inventors: 姜伟; 邓晓妃; 朱婷; 汪天富; 雷柏英; 向卓; 柳懿垚; 赵程
Original assignee: Union Shenzhen Hospital of Huazhong University of Science and Technology
Current assignee: Union Shenzhen Hospital of Huazhong University of Science and Technology
Priority date: 2021-12-30
Filing date: 2021-12-30
Publication date: 2022-04-12

Abstract

本发明公开了一种基于多模态的甲状腺病理图像分类方法及终端设备，其中，方法包括步骤：采用三个ResNet18网络分别对三个模态的甲状腺病理图像进行信息特征提取，得到三模态信息特征，所述三个模态的甲状腺病理图像包括甲状腺超声图像、甲状腺弹性图像和甲状腺血流图像；采用多模态多头注意力模块提取三个模态的甲状腺病理图像的共有信息特征；将三模态信息特征和共有信息特征进行融合后，并利用残差网络进行甲状腺病理图像分类，输出分类结果。本发明在合作研究单位提供的多模态甲状腺超声数据集上验证了设计的多模态的甲状腺病理图像分类方法，结果证明了此方法可以准确地对甲状腺病理图像进行分类，为超声科医生对诊断甲状腺癌提供快速、准确的辅助。

Description

一种基于多模态的甲状腺肿瘤图像分类方法及终端设备

技术领域

本发明涉及图像识别技术领域，尤其涉及一种基于多模态的甲状腺肿瘤图像分类方法及终端设备。

背景技术

甲状腺癌是最常见的甲状腺恶性肿瘤，约占1％***性恶性肿瘤，可发生于多个年龄段。甲状腺组织结构复杂，超声图像干扰因素较多。因此，医生很难直接对甲状腺癌超声图像中的病灶特征进行分类。为了缓和这种情况，除了甲状腺超声成像外，医生通常还会结合超声弹性成像和超声血流成像，用以更加精确的识别甲状腺癌图像。

目前，由于获得高维特征的优势，深度学习在计算机辅助诊断中取得了可喜的成果。不过现有的研究大部分都是基于单一甲状腺超声图像进行分类诊断，未能利用弹性图像中的组织软硬信息以及血流图像中的血流信息，导致甲状腺癌图像的识别准确率较低。

因此，现有技术还有待于改进和发展。

发明内容

鉴于上述现有技术的不足，本发明的目的在于提供一种基于多模态的甲状腺肿瘤图像分类方法及终端设备，旨在解决现有技术对甲状腺癌图像的分类准确率较低的问题。

本发明的技术方案如下：

一种基于多模态的甲状腺病理图像分类方法，其中，包括步骤：

获取三个模态的甲状腺病理图像，所述三个模态的甲状腺病理图像包括甲状腺超声图像、甲状腺弹性图像和甲状腺血流图像；

采用三个ResNet18网络分别对所述三个模态的甲状腺病理图像进行信息特征提取，得到三模态信息特征；

采用多模态多头注意力模块提取三个模态的甲状腺病理图像的共有信息特征；

将所述三模态信息特征和共有信息特征进行融合后，并利用残差网络进行甲状腺病理图像分类，输出分类结果。

所述基于多模态的甲状腺病理图像分类方法，其中，采用三个ResNet18网络分别对所述三个模态的甲状腺病理图像进行信息特征提取，得到三模态信息特征的步骤包括：

在ResNet18网络中采用双数复小波变换替换卷积操作，得到改进后ResNet18网络；

采用三个改进后ResNet18网络分别对所述三个模态的甲状腺病理图像进行信息特征提取，得到三模态自身特征；

在所述ResNet18网络中加入多模态特征融合模块，通过所述多模态特征融合模块提取所述三个模态的甲状腺病理图像的共同特征；

通过所述多模态特征融合模块将所述三模态自身特征与所述共同特征进行融合，得到三模态信息特征。

所述基于多模态的甲状腺病理图像分类方法，其中，通过所述多模态特征融合模块提取所述三个模态的甲状腺病理图像的共同特征的步骤包括：

将三模态自身特征级联在一起，用1x1卷积去提取所述三模态自身特征中的共有特征；

通过全局平均池化提取三模态自身特征的通道信息，再使用提取到的通道信息向量去构成一个包含三模态各通道间相关信息的通道信息特征F_C(i，j，k)；

再采用1x1卷积和全局平均池化对通道信息特征F_C ^C×C×C进行进一步的提取，以对从三模态自身特征提取到的通道信息重新调整其通道权值；

采用自注意力模块从所述三模态自身特征中提取有用特征，并将所述有用特征与从所述三模态自身特征中提取到的共有特征融合，得到融合后的特征；

将所述融合后的特征送回各改进后ResNet18网络用以指导改进后ResNet18网络的特征提取方向，使得三个改进后ResNet18网络提取到的特征维度接近，得到三模态信息特征。

所述基于多模态的甲状腺病理图像分类方法，其中，所述通道信息特征F_C(i，j，k)的值为将三个模态对应坐标位置的通道信息相乘所得，F_C(i，j，k)＝V1(i)*V2(j)*V3(k)i，j，k∈[0，C)，其中，V1、V2、V3代表从三模态自身特征中提取的通道信息向量；i，j，k代表对应的坐标位置。

所述基于多模态的甲状腺病理图像分类方法，其中，所述融合后的特征表达式为：

F′_i＝Bottleneck({Attention，Conv}(F₁，F₂，F₃))，i＝1，2，3，，其中，

Bottleneck()代表瓶颈层，用以提取特征，{Attention，Conv}分别代表注意力模块和1x1卷积模块。

所述基于多模态的甲状腺病理图像分类方法，其中，所述多模态特征融合模块的参数获取步骤为：

设置自监督任务对ResNet18网络进行预训练，所述自监督任务为对甲状腺超声图像、甲状腺弹性图像和甲状腺血流图像的分类任务；

所述自监督分类任务采用的损失函数为交叉熵函数，且分类过程表达为：l_self＝-∑_classesf(y_true)log y_pred，其中，fO代表标签平滑处理；

在完成自监督预训练后，将ResNet18网络中的参数迁移到多模态特征融合模块中。

所述基于多模态的甲状腺病理图像分类方法，其中，采用多模态多头注意力模块提取三个模态的甲状腺病理图像的共有信息特征的步骤包括：

采用动态窗口将输入的三个模态的甲状腺病理图像划分为多个子图像；

一个注意力计算机制中的向量Q、K、V分别由三个模态图像相同位置大小的子图像编码所得，即通过一个注意力提取三个模态的甲状腺病理图像相同位置的共同信息；

所有的子图像对应的注意力计算构成了多头注意力机制，输出得到一个包含三模态共同信息的特征向量，将所述特征向量输入编码器中提取共有信息特征。

一种存储介质，其中，所述存储介质存储有一个或者多个程序，所述一个或者多个程序可被一个或者多个处理器执行，以实现本发明所述基于多模态的甲状腺病理图像分类方法中的步骤。

一种终端设备，其中，包括：处理器、存储器及通信总线；所述存储器上存储有可被所述处理器执行的计算机可读程序；

所述通信总线实现处理器和存储器之间的连接通信；

所述处理器执行所述计算机可读程序时实现本发明所述基于多模态的甲状腺病理图像分类方法中的步骤。

有益效果：本发明提出以三个使用双树复小波变换改进后的ResNet18为分支，分别提取三个模态的甲状腺病理图像的三模态信息特征，再通过一个多模态多头注意力模块分支去提取三个模态的甲状腺病理图像的共有信息特征，将所述三模态信息特征和共有信息特征进行融合后，并利用残差网络进行甲状腺病理图像分类，输出分类结果。同时，为了更好地融合各模态之间的信息特征，还提出了多模态特征融合模块(MMFG)，用以引导各分支特征提取方向，缩小各模态信息特征间的差异。本发明在合作研究单位提供的多模态甲状腺超声数据集上验证了所设计的多模态的甲状腺病理图像分类方法，结果证明了此方法可以准确地对甲状腺病理图像进行分类，为超声科医生对诊断甲状腺癌提供快速、准确的辅助。

附图说明

图1为本发明一种基于多模态的甲状腺病理图像分类方法的流程图。

图2为本发明基于多模态的甲状腺病理图像分类原理图。

图3为多模态特征融合模块原理图。

图4为多模态多头注意力机制原理图。

图5为一种终端设备的原理图。

具体实施方式

本发明提供一种基于多模态的甲状腺病理图像分类方法及终端设备，为使本发明的目的、技术方案及效果更加清楚、明确，以下对本发明进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

甲状腺是控制身体生长、新陈代谢和成熟的主要激素腺。但是，甲状腺细胞组织可能异常生长，导致形成良性或恶性甲状腺病变。而超声是一种典型的非侵入性诊断方法，常用于检查甲状腺癌病变。但同样由于超声图像提供信息的局限性，临床上还会使用超声弹性成像和甲状腺血流成像用以辅助诊断。然而，现有诊断是由医生在视觉上做出的，其过程耗时耗力，并且高度主观。因此，甲状腺良恶性结节的自动区分对于甲状腺成像报告非常有用。

基于此，本发明提供了一种基于多模态的甲状腺病理图像分类方法的流程图，如图1所示，其包括步骤：

S10、获取三个模态的甲状腺病理图像，所述三个模态的甲状腺病理图像包括甲状腺超声图像、甲状腺弹性图像和甲状腺血流图像；

S20、采用三个ResNet18网络分别对所述三个模态的甲状腺病理图像进行信息特征提取，得到三模态信息特征；

S30、采用多模态多头注意力模块提取三个模态的甲状腺病理图像的共有信息特征；

S40、将所述三模态信息特征和共有信息特征进行融合后，并利用残差网络进行甲状腺病理图像分类，输出分类结果。

具体来讲，由于输入的是三个不同模态的甲状腺病理图像，其图像信息差异较大，于是本实施例采用三个ResNet18网络作为特征提取分支，分别对三个模态的甲状腺病理图像进行信息特征提取；且由于模态之间的差异，三个ResNet18网络分支所提取到的特征差异较大，融合效果不好，所以本实施例又提出了多模态特征融合模块，用以为各模态信息提取分支指引方向，尽可能降低三个ResNet18网络分支提取出的特征信息间的差异，更有利于最终的多模态信息融合；而除了对各模态信息的提取之外，本实施例还用多模态多头注意力去提取三个模态的甲状腺病理图像的共有信息特征，将所述三模态信息特征和共有信息特征进行融合后，并利用残差网络进行甲状腺病理图像分类，能输出准确的分类结果，更好的提升网络对甲状腺癌的诊断精度。

在本实施例中，所述三个模态的甲状腺病理图像包括甲状腺超声图像、甲状腺弹性图像和甲状腺血流图像。本实施例使用的是深圳市南山区人民医院的收集的多模态甲状腺病理图像。数据集总共包含234例三模态的病例，其中良性病例126例，恶性比例108例，每一例都是经过医院病理诊断的。本实施例数据集仅234例可用病例，数据样本量少，因此，本实施例对原始数据进行了数据增强：镜像、随即角度旋转、添加高斯噪声、添加脉冲噪声、亮度调整。

在一些实施方式中，采用三个ResNet18网络分别对所述三个模态的甲状腺病理图像进行信息特征提取，得到三模态信息特征的步骤包括：在ResNet18网络中采用双数复小波变换替换卷积操作，得到改进后ResNet18网络；采用三个改进后ResNet18网络分别对所述三个模态的甲状腺病理图像进行信息特征提取，得到三模态自身特征；在所述ResNet18网络中加入多模态特征融合模块，通过所述多模态特征融合模块提取所述三个模态的甲状腺病理图像的共同特征；通过所述多模态特征融合模块将所述三模态自身特征与所述共同特征进行融合，得到三模态信息特征。

具体来讲，如图2所示，本发明用于甲状腺病理图像分类的网络由两个分支构成，分支一由三个ResNet18网络构成，在图像分类中，残差网络一直以其有效的残差连接结构在图像分类任务中表现优异。相较于传统的全连接网络，残差连接可以避免梯度***、梯度消失，同时还能加速收敛。同时，由于超声图像通常存在伪影、斑点噪声等问题，本实施例采用双树复小波变换(DTCWT)替换其中的卷积操作，得到改进后ResNet18网络，双树复小波变换采用二叉树结构进行双路小波变换，克服了小波变换缺乏平移不变性的问题。本实施例对输入特征F进行双树复小波变换可以得到图像的低频信息L、高频信息H，即H、L＝DTCWT(F)，可以剔除掉噪声较多的高频部分，保留信息较多的低频部分。本实施例使用了三个改进后ResNet18作为特征提取的网络分支，如图2所示，三个模态的图像各自送入对应的ResNet18分支，提取特征。同时为了更好的结合各模态之间的信息，本实施例使用多模态特征融合模块分支，提取三个模态的共同特征，并再与各模态自身的特征融合以引导后面网络层的特征提取。分支二则是通过一个多头注意力和自编码器去提取三个模态图像的共有信息特征，最终融合分支一提取到的三模态信息特征以用于网络分类。

在一些实施方式中，由于数据间的差异会导致提取到的特征之间有所区别，为了更好地利用三模态信息特征，本实施例在ResNet18网络中加入了如图3所示的多模态特征融合模块，如图所示，F₁、F₂、F₃是三个改进后的ResNet18分支提取到的三模态自身特征，本实施例先将三模态自身特征级联在一起，用1x1卷积去提取所述三模态自身特征中的共有特征；同时，对于级联在一起的三模态自身特征，通过全局平均池化提取三模态自身特征的通道信息，再使用提取到的通道信息向量去构成一个包含三模态各通道间相关信息的通道信息特征F_C(i，j，k)，其中，所述通道信息特征F_C(i，j，k)的值为将三个模态对应坐标位置的通道信息相乘所得，F_C(i，j，k)＝V1(i)*V2(j)*V3(k) i，j，k∈[0，C)，其中，V1、V2、V3代表从三模态自身特征中提取的通道信息向量；i，j，k代表对应的坐标位置，F_C(i，j，k)包含了三个模态每个通道之间的相关信息。

接着本实施例再采用1x1卷积和全局平均池化对通道信息特征F_C(i，j，k)进行进一步的提取，以对从三模态自身特征提取到的通道信息重新调整其通道权值；然后本实施例采用自注意力模块从所述三模态自身特征F₁、F₂、F₃中提取有用特征，并将所述有用特征与从所述三模态自身特征中提取到的共有特征融合，得到融合后的特征F′₁、F′₂、F′₃，所述融合后的特征表达式为：F′i＝Bottleneck({Attention，Conv}(F₁，F₂，F₃))，i＝1，2，3，其中，Bottleneck()代表瓶颈层，用以提取特征，{Attention，Conv}分别代表注意力模块和1x1卷积模块。将所述融合后的特征送回各改进后ResNet18网络用以指导改进后ResNet18网络的特征提取方向，使得三个改进后ResNet18网络提取到的特征维度接近，减少因模态差异带来的影响，从而得到三模态信息特征。

在一些实施方式中，由于同时具有三个模态的病例数较少，存在大量的仅有单个模态或者两个模态的数据，为了更好的利用数据，同时也尽可能降低多模态数据集样本较少的影响。本实施例设置了自监督任务对ResNet18网络进行预训练，所述自监督任务为对甲状腺超声图像、甲状腺弹性图像和甲状腺血流图像的分类任务。由于甲状腺弹性图像和甲状腺血流图像为医生在甲状腺超声图像的基础上，选定结节周围区域，获取区域内的组织软硬信息和血流信息。因此弹性信息和血流信息区域外的背景信息和超声图像相同。三种模态图像分类的自监督任务可以促使ResNet18根据弹性信息区域和血流信息区域对图像进行分类。而且，本实施例将三种模态两两之间图像进行了合成，用其他模态的信息去干扰干扰当前模态，这样使得网络需要更精准的去提取判断图像中的模态信息区域，这样预训练出的网络可以更好的关注各模态的有用信息区域，屏蔽掉区域外无用的背景信息。在训练过程中，通过随机梯度下降算法训练和优化网络，优化器动量设置为0.99，初始学习率设置为10^-3，并随着学习步数动态调整。

在本实施例中，自监督分类任务采用的损失函数为交叉熵函数，同时为了更好的分类结果，采用了标签平滑的方法：l_self＝-∑_classesf(y_true)logy_pred，其中，f()代表标签平滑处理，能更好的提升网络分类性能；在完成自监督预训练后，将ResNet18网络中的参数迁移到多模态特征融合模块中，用以后续的对多模态甲状腺图像进行分类诊断。

在一些实施方式中，通过多模态特征融合模块可以有效的引导ResNet18分支从每个模态中提取其模态有效信息，同时减小各模态特征间的差距。同时，我们还提出了多模态多头注意力机制，以有效的提取三个模态图像的共同特征。其结构如图4所示，本实施例将采用动态窗口将输入的三个模态的甲状腺病理图像划分为多个子图像，为了提取三个模态的共同信息，一个注意力计算机制中的向量Q、K、V分别由三个模态图像相同位置大小的子图像编码所得，即一个注意力提取三个模态同位置的共同信息。所有的子图像对应的注意力计算构成了多头注意力机制，输出得到一个包含三模态共同信息的特征向量，以送入后续的Transform编码器中以提取进一步的共有信息特征，最终与ResNet18分支所提取的三个模态各自的信息特征一起用于甲状腺的诊断分类。

所述通信总线实现处理器和存储器之间的连接通信；

在一些实施方式中，还提供一种存储介质，其中，所述存储介质存储有一个或者多个程序，所述一个或者多个程序可被一个或者多个处理器执行，以实现本发明所述基于多模态的甲状腺病理图像分类方法中的步骤。

在一些实施方式中，本申请还提供了一种终端设备，如图5所示，其包括至少一个处理器(processor)20；显示屏21；以及存储器(memory)22，还可以包括通信接口(Communications Interface)23和总线24。其中，处理器20、显示屏21、存储器22和通信接口23可以通过总线24完成相互间的通信。显示屏21设置为显示初始设置模式中预设的用户引导界面。通信接口23可以传输信息。处理器20可以调用存储器22中的逻辑指令，以执行上述实施例中的方法。

此外，上述的存储器22中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。

存储器22作为一种计算机可读存储介质，可设置为存储软件程序、计算机可执行程序，如本公开实施例中的方法对应的程序指令或模块。处理器20通过运行存储在存储器22中的软件程序、指令或模块，从而执行功能应用以及数据处理，即实现上述实施例中的方法。

存储器22可包括存储程序区和存储数据区，其中，存储程序区可存储操作***、至少一个功能所需的应用程序；存储数据区可存储根据终端设备的使用所创建的数据等。此外，存储器22可以包括高速随机存取存储器，还可以包括非易失性存储器。例如，U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等多种可以存储程序代码的介质，也可以是暂态存储介质。

此外，存储介质以及终端设备中的多条指令处理器加载并执行的具体过程在上述方法中已经详细说明，在这里就不再一一陈述。

综上所述，本发明提出以三个使用双树复小波变换改进后的ResNet18为分支，分别提取三个模态的甲状腺病理图像的三模态信息特征，再通过一个多模态多头注意力模块分支去提取三个模态的甲状腺病理图像的共有信息特征，将所述三模态信息特征和共有信息特征进行融合后，并利用残差网络进行甲状腺病理图像分类，输出分类结果。同时，为了更好地融合各模态之间的信息特征，还提出了多模态特征融合模块(MMFG)，用以引导各分支特征提取方向，缩小各模态信息特征间的差异。本发明在合作研究单位提供的多模态甲状腺超声数据集上验证了所设计的多模态的甲状腺病理图像分类方法，结果证明了此方法可以准确地对甲状腺病理图像进行分类，为超声科医生对诊断甲状腺癌提供快速、准确的辅助。

应当理解的是，本发明的应用不限于上述的举例，对本领域普通技术人员来说，可以根据上述说明加以改进或变换，所有这些改进和变换都应属于本发明所附权利要求的保护范围。

Claims

1.一种基于多模态的甲状腺病理图像分类方法，其特征在于，包括步骤：

2.根据权利要求1所述基于多模态的甲状腺病理图像分类方法，其特征在于，采用三个ResNet18网络分别对所述三个模态的甲状腺病理图像进行信息特征提取，得到三模态信息特征的步骤包括：

3.根据权利要求2所述基于多模态的甲状腺病理图像分类方法，其特征在于，通过所述多模态特征融合模块提取所述三个模态的甲状腺病理图像的共同特征的步骤包括：

4.根据权利要求3所述基于多模态的甲状腺病理图像分类方法，其特征在于，所述通道信息特征F_C(i，jk)的值为将三个模态对应坐标位置的通道信息相乘所得，F_C(i，j，k)＝V1(i)*V2(j)*V3(k)i，j，k∈[0，C)，其中，V1、V2、V3代表从三模态自身特征中提取的通道信息向量；i，j，k代表对应的坐标位置。

5.根据权利要求3所述基于多模态的甲状腺病理图像分类方法，其特征在于，所述融合后的特征表达式为：

F′_i＝Bottleneck({Attention，Conv}(F₁，F₂，F₃))，i＝1，2，3，其中，Botleneck()代表瓶颈层，用以提取特征，{Attention，Conv}分别代表注意力模块和1x1卷积模块。

6.根据权利要求1所述基于多模态的甲状腺病理图像分类方法，其特征在于，所述多模态特征融合模块的参数获取步骤为：

所述自监督分类任务采用的损失函数为交叉熵函数，且分类过程表达为：l_self＝-∑_classesf(y_true)log y_pred，其中，f()代表标签平滑处理；

7.根据权利要求1所述基于多模态的甲状腺病理图像分类方法，其特征在于，采用多模态多头注意力模块提取三个模态的甲状腺病理图像的共有信息特征的步骤包括：

8.一种存储介质，其特征在于，所述存储介质存储有一个或者多个程序，所述一个或者多个程序可被一个或者多个处理器执行，以实现如权利要求1-7任意一项所述基于多模态的甲状腺病理图像分类方法中的步骤。

9.一种终端设备，其特征在于，包括：处理器、存储器及通信总线；所述存储器上存储有可被所述处理器执行的计算机可读程序；

所述通信总线实现处理器和存储器之间的连接通信；

所述处理器执行所述计算机可读程序时实现如权利要求1-7任意一项所述基于多模态的甲状腺病理图像分类方法中的步骤。