CN112819818B

CN112819818B - 图像识别模块训练方法和装置

Info

Publication number: CN112819818B
Application number: CN202110217488.3A
Authority: CN
Inventors: 张涛
Original assignee: First Medical Center of PLA General Hospital
Current assignee: First Medical Center of PLA General Hospital
Priority date: 2021-02-26
Filing date: 2021-02-26
Publication date: 2023-11-14
Anticipated expiration: 2041-02-26
Also published as: CN112819818A

Abstract

本申请公开了一种图像识别模块训练方法和装置。该方法包括基于卷积神经网络对指定医学图像进行特征提取，生成第一图像特征；基于注意力机制对指定医学图像进行处理，得到第二图像特征和提取区域；获取提取区域对应的提取区域图像，即以递进聚焦式的方式二次开窗生成训练效果更优的提取区域图像；基于卷积神经网络对提取区域图像进行特征提取，得到提取区域图像的第三图像特征；对第一图像特征、第二图像特征和第三图像特征进行融合，得到融合图像特征。本申请可以在全局图像学习的基础上，对感兴趣区域进行再开窗，采用递进聚焦式方式进行神经网络的输入，实现了基于递进聚焦机制的多开窗图像处理方法对图像识别模块进行训练的目的。

Description

图像识别模块训练方法和装置

技术领域

本申请涉及图像处理技术领域，具体而言，涉及一种图像识别模块训练方法和装置。

背景技术

从1895年伦琴发现X线到现在的一百多年里，影像学的发展经历了由原来的模拟成像到现在数字化成像的一个过程。影像医学在现代医学医疗行业中的应用不断扩大，成为现代医学诊断中不可或缺的重要组成部分。

在目前的医学影像诊断中，医生根据经验，通过观察一幅或一组二维图像去诊断疾病。随着计算机技术的发展，人们逐步利用计算机图像处理技术对医学图像进行分析和处理，从而大大提高了诊断的准确性和可靠性。

深度学习已成为计算机视觉领域的重要发展方向，它可以自动地从原始数据(图像)抽象出中级和高级影像特征。研究表明，此方法对医学诊断非常有效。世界各地的医学图像处理机构均已经迅速进入了该领域，并将深度学习方法应用于医学图像分析的各个领域中。

X线成像是一种重要的医学影像技术。传统的平片是其最早的影像形式，它将人体前后的组织结构堆叠显示在一张影像片上。1971～1972年，英国Hounsfield发明了CT(Computed Tomography)，即电子计算机断层扫描，它是利用精确准直的X线束与灵敏度极高的探测器一同围绕人体的某一部位做一个接一个的断面扫描，通过计算机处理，形成一个完整的断面图像。这种成像技术越来越成为现代医学不可或缺的影像诊断手段。

病变组织与正常组织的密度差别造成对X线吸收率的差别，从而形成医学影像(平片或CT等)上不同组织的区分呈现，医生可以通过辨别差异来对疾病进行诊断。为了定量衡量组织对于X线的吸收率，Hounsfield定义了一个新的标度“CT值”。为了表示对他的敬意，后人将CT值的单位定为“Hu”。人体组织CT值的范围为1024～3071HU。而人眼不能分辨这样微小灰度的差别，一般仅能分辨16个灰阶。在现代数字化成像基础上，为了提高组织结构细节的显示，使差别较小的组织得以分辨，医生一般会根据诊断需要调节图像的对比度和亮度，即医学图像的开窗显示技术。

开窗显示技术，指通过一个窗口，将窗口区域的图像线性地转换到显示器的最大显示范围内，高于或低于窗口上下限的图像数据则分别设置为最高或最低的显示值。这样通过动态地调节窗口的窗宽(需显示的图像数据的范围)和窗位(需显示的图像数据的中心值)，则可以观察图像的更多信息。

很多时候，病变组织与正常组织的CT值仅相差几个(3～5)HU，甚至更小。假设我们选择160的窗宽，160/16＝10HU，也就是说，此时当两种组织CT值相差低于10HU时则无法分辨其差别，这就给诊断带来困难。为了把组织在CT值上的细微差别展现到人眼能分辨的范围内，并使图像有黑白梯度差别，人们采用了开窗显示技术。

开窗显示技术在临床诊断工作中占据了极其重要的地位，是疾病影像诊断的重要方法。如果窗位、窗宽调节不当，就不能显示出人体组织结构和毗邻关系，甚至会使病变被掩盖和遗漏。

医生在使用影像进行疾病诊断时，首先会观察图像的全局，然后从中选取一些局部区域重点关注，并对这些重点区域投入更多注意力以获取更多的细节信息。医生由最开始的关注图像全局到后来的关注感兴趣区域，这一关注点的变化会导致先前关注全局时使用的窗位、窗宽不能更好地用来观察局部，所以医生会不断地去调整窗位、窗宽以获得最佳显示效果。肺部图像显示时窗宽经验值一般为1300Hu～1700Hu，窗位在-600Hu～-800Hu。在上述基本窗宽的基础上，若需要重点观察肺血管、肺部基金的形态、分叶、胸膜凹陷征、毛刺征等，需要重新调整窗位、窗宽。而用于深度学习的数据，通常为某一特定窗位、窗宽下的CT图像。

以医生对疾病的诊断过程为例，医生会在全局观察的基础上，对感兴趣区域的窗位、窗宽进行不断地调整，以得到观测组织的最佳显示。而以单一的窗位、窗宽下的形成的位图图像作为神经网络的唯一输入，会丢掉疾病的大量细节信息。

目前医学影像的深度学习普遍使用单一窗位、窗宽下的图像，这样会丢失一些关键病情特征。即由单一窗位、窗宽位图作为深度学习的输入，会导致大量的疾病细节信息的丢失，从而导致诊断产生误差甚至错误。

针对相关技术中通过深度学习训练出的图像识别模块对医疗影像识别准确性较低的问题，目前尚未提出有效的解决方案。

发明内容

本申请的主要目的在于提供一种图像识别模块训练方法和装置，以解决相关技术中通过深度学习训练出的图像识别模块对医疗影像识别准确性较低的问题。

为了实现上述目的，第一方面，本申请提供了一种图像识别模块训练方法，该方法包括：

基于卷积神经网络对指定医学图像进行特征提取，生成第一图像特征；

基于注意力机制对所述指定医学图像进行处理，得到第二图像特征和提取区域；

获取所述提取区域对应的提取区域图像；

基于卷积神经网络对所述提取区域图像进行特征提取，得到所述提取区域图像的第三图像特征；

对所述第一图像特征、所述第二图像特征和第三图像特征进行融合，得到融合图像特征，从而基于所述融合图像特征完成图像识别模块训练。

可选地，该方法还包括：

基于指定窗位和指定窗宽对医学样本图像进行开窗，生成指定医学图像。

可选地，所述获取所述提取区域对应的提取区域图像，包括：

计算出所述提取区域对应的提取窗位和提取窗宽；

基于所述提取窗位和所述提取窗宽对所述医学样本图像进行开窗，生成提取区域图像。

可选地，该方法还包括：

判断所述提取区域图像中所述提取窗宽与指定灰阶的比值是否小于1；

当所述提取区域图像中所述提取窗宽与指定灰阶的比值小于1时，执行所述基于卷积神经网络对所述提取区域图像进行特征提取的步骤。

可选地，该方法还包括：

当所述提取区域图像中所述提取窗宽与指定灰阶的比值不小于1时，重新执行所述基于注意力机制对所述指定医学图像进行处理的步骤。

第二方面，本申请还提供了一种图像识别模块训练装置，该装置包括：

第一提取模块，用于基于卷积神经网络对指定医学图像进行特征提取，生成第一图像特征；

注意力机制模块，用于基于注意力机制对所述指定医学图像进行处理，得到第二图像特征和提取区域；

获取模块，用于获取所述提取区域对应的提取区域图像；

第二提取模块，用于基于卷积神经网络对所述提取区域图像进行特征提取，得到所述提取区域图像的第三图像特征；

融合模块，用于对所述第一图像特征、所述第二图像特征和第三图像特征进行融合，得到融合图像特征，从而基于所述融合图像特征完成图像识别模块训练。

可选地，该装置还包括：

开窗模块，用于基于指定窗位和指定窗宽对医学样本图像进行开窗，生成指定医学图像。

可选地，所述获取模块，用于：

计算出所述提取区域对应的提取窗位和提取窗宽；

第三方面，本申请还提供了一种计算机设备，包括：存储器和处理器；

所述存储器用于存储计算机程序；

所述处理器用于执行所述存储器中存储的计算机程序；

所述计算机程序用于执行上述的图像识别模块训练方法。

第四方面，本申请还提供了一种计算机可读存储介质，该计算机可读存储介质存储有计算机代码，当计算机代码被执行时，上述的图像识别模块训练方法被执行。

在本申请提供的图像识别模块训练方法中，基于卷积神经网络对指定医学图像进行特征提取，生成第一图像特征；基于注意力机制对所述指定医学图像进行处理，得到第二图像特征和提取区域；获取所述提取区域对应的提取区域图像；基于卷积神经网络对所述提取区域图像进行特征提取，得到所述提取区域图像的第三图像特征；对所述第一图像特征、所述第二图像特征和第三图像特征进行融合，得到融合图像特征，从而基于所述融合图像特征完成图像识别模块训练。这样，通过卷积神经网络提取指定医学图像的第一图像特征，又通过注意力机制对提取区域进行再次开窗，进而得到第二图像特征和第三图像特征，使得本图像识别模块训练方法可以在全局图像学习的基础上，对感兴趣区域(注意力机制确定出的提取区域)进行再开窗，采用多个窗位、窗宽作为神经网络的输入，从而提高了深度学习训练出的图像识别模块对医疗影像识别准确性。进而解决了相关技术中通过深度学习训练出的图像识别模块对医疗影像识别准确性较低的技术问题。于此同时，本方法通过专注于更加重要的子任务，重新分配网络的学习能力，从而降低原始任务的难度，使网络更加容易训练。

附图说明

构成本申请的一部分的附图用来提供对本申请的进一步理解，使得本申请的其它特征、目的和优点变得更明显。本申请的示意性实施例附图及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1是本申请实施例提供的一种图像识别模块训练方法的流程示意图；

图2是本申请实施例提供的另一种图像识别模块训练装置的结构示意图；

图3是本申请实施例提供的一种实施图像识别模块训练方法的***框架图；

图4是本申请实施例提供的一种图像识别模块训练装置的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分的实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

一个方面，本申请实施例提供了一种图像识别模块训练方法，图1是本申请实施例提供的一种图像识别模块训练方法的流程示意图，如图1所示，该方法包括如下的步骤110至步骤150：

110，基于卷积神经网络对指定医学图像进行特征提取，生成第一图像特征。

其中，指定医学图像可以是CT图像或经过开窗后的CT图像，又或是其他类型医学图像。其中，CT图像是以CT值来说明组织影像密度的高低，它不是绝对值，而是以水为标准，其他组织与水相比较的相对值，单位为亨(Hu)。即以水的CT值为0Hu，空气为-1000H，骨为+3720H的4000多个等级。

具体的，通过CNN网络(ConvolutionalNeuralNetworks，简称卷积神经网络)对指定医学图像进行的特征提取，进而输出得到第一图像特征。

120，基于注意力机制对所述指定医学图像进行处理，得到第二图像特征和提取区域。

其中，Attention(注意力)机制的本质是模仿人类视觉注意力机制，学习出对图像特征的权重分布，再把这个权重分布施加到原来的特征上，为后续的任务如图像分类、图像识别等提供不同的特征影响，使整个机器学习过程更加关注一些重点特征，忽略一些不重要特征，提高任务效率。

具体的，通过注意力机制对所述指定医学图像进行处理，得到第二图像特征以及提取区域，其中，提取区域具体为通过attention机制对指定医学图像进行处理生成的感兴趣区域坐标，以x，y，tx，ty表示。其中(x,y)表示中心点的坐标，tx，ty表示区域的长度和宽度。进而注意力机制可以通过图像灰阶情况重新开窗，以获取优选的体现组织的特征图像(提取区域图像)。

需要说明书的是，基于注意力机制对所述指定医学图像进行处理时，可能会得到多个提取区域，而针对多个提取区域中每个提取区域均分别进行步骤130。

130，获取所述提取区域对应的提取区域图像。

具体的，基于提取区域(即感兴趣区域坐标)可以计算提取区域的窗位和窗宽，再根据计算出的窗位和窗宽重新进行开窗，得到提取区域图像。进而，本申请以递进聚焦式的方式生成相对指定医学图像训练效果更优的提取区域图像，并通过向特征提取生成与第一图像特征相不同的第三图像特征。

140，基于卷积神经网络对所述提取区域图像进行特征提取，得到所述提取区域图像的第三图像特征；

具体的，再基于卷积神经网络对提取区域图像进行特征提取，从而得到第三图像特征。

150，对所述第一图像特征、所述第二图像特征和第三图像特征进行融合，得到融合图像特征，从而基于所述融合图像特征完成图像识别模块训练。

具体的，对所述第一图像特征、所述第二图像特征和第三图像特征进行融合，以进行图像识别模块训练，而通过全连接层则可以用于病情的诊断。

具体的，通过卷积神经网络提取指定医学图像的第一图像特征，又通过注意力机制对提取区域进行再次开窗，进而得到第二图像特征和第三图像特征，使得本图像识别模块训练方法可以在全局图像学习的基础上，对感兴趣区域(注意力机制确定出的提取区域)进行再开窗，采用多个窗位、窗宽作为神经网络的输入，从而提高了深度学习训练出的图像识别模块对医疗影像识别准确性。于此同时，本方法通过专注于更加重要的子任务，重新分配网络的学习能力，从而降低原始任务的难度，使网络更加容易训练。

可选地，图2是本申请实施例提供的另一种图像识别模块训练方法的流程示意图，如图2所示，该方法还包括如下的步骤100：

100，基于指定窗位和指定窗宽对医学样本图像进行开窗，生成指定医学图像。

具体的，指定窗位和指定窗宽均为根据经验设定的，即指定窗位和指定窗宽作为对医学样本图像进行初始开窗，得到指定医学图像。

可选地，步骤130，获取所述提取区域对应的提取区域图像，包括：

计算出所述提取区域对应的提取窗位和提取窗宽；

具体的，先计算出显示出提取区域所对应的提取窗位和提取窗宽，进而根据提取窗位和所述提取窗宽在原始的医学样本图像中进行开窗，得到提取区域图像。

需要说明的是，提取区域图像可以在指定医学图像中生成，而获得提取区域图像的方式并不限于通过开窗技术，本领域的技术人员可以根据需要具体设置。

在本实施例中，图3是本申请实施例提供的一种实施图像识别模块训练方法的***框架图，如图3所示：

①表示原始的CT图像。

②表示使用指定的窗位、窗宽设定后的图像，可以根据人体组织的正常CT值设置初始的窗位、窗宽并生成相应的图像。

③表示通过CNN网络对②进行的特征提取。

④表示选取一些局部重点关注区域，在此应用的是attention机制。

⑤表示根据输入特征通过attention机制，得到的新的图像特征。

⑥表示通过attention机制生成的感兴趣区域坐标(提取区域)，并计算此感兴趣区域的窗位和窗宽值。以x，y，tx，ty表示。其中(x,y)表示中心点的坐标，tx，ty表示区域的长度和宽度。

⑦表示使用新的窗位窗宽开窗后的图像(提取区域图像)。

⑧表示通过CNN网络对⑦进行的特征提取。

⑨表示提取到的三次图像特征的融合。

⑩表示全连接层用于病情的诊断。

可选地，本申请实施例提供的一种图像识别模块训练方法还包括以下步骤：

其中，按照8比特位存储的方式，对灰阶能表示在256的范围内，因此，可以设定指定灰阶为256。

具体的，在得到提取区域图像后，需要确定出提取区域图像中所述提取窗宽与指定灰阶的比值是否小于1，当所述提取区域图像中所述提取窗宽与指定灰阶的比值小于1时，可以理解为该提取区域图像符合训练要求，进而执行步骤140。

可选地，该方法还包括：

具体的，当所述提取区域图像中所述提取窗宽与指定灰阶的比值不小于1时，可以理解为该提取区域图像并不符合训练要求，重新执行步骤120，进而重新获取提取区域，以及重新计算提取窗位和提取窗宽，直到当所述提取区域图像中所述提取窗宽与指定灰阶的比值小于1，进而执行步骤140。

基于相同的技术构思，本申请还提供了一种图像识别模块训练装置，图4是本申请实施例提供的一种图像识别模块训练装置的结构示意图，如图4所示，该装置包括：

第一提取模块10，用于基于卷积神经网络对指定医学图像进行特征提取，生成第一图像特征；

注意力机制模块20，用于基于注意力机制对所述指定医学图像进行处理，得到第二图像特征和提取区域；

获取模块30，用于获取所述提取区域对应的提取区域图像；

第二提取模块40，用于基于卷积神经网络对所述提取区域图像进行特征提取，得到所述提取区域图像的第三图像特征；

融合模块50，用于对所述第一图像特征、所述第二图像特征和第三图像特征进行融合，得到融合图像特征，从而基于所述融合图像特征完成图像识别模块训练。

可选地，该装置还包括：

可选地，所述获取模块30，用于：

计算出所述提取区域对应的提取窗位和提取窗宽；

可选地，该装置还包括：

判断模块，用于判断所述提取区域图像中所述提取窗宽与指定灰阶的比值是否小于1；

当所述提取区域图像中所述提取窗宽与指定灰阶的比值小于1时，执行第二提取模块40。

可选地，该装置还包括：

当所述提取区域图像中所述提取窗宽与指定灰阶的比值不小于1时，重新执行注意力机制模块20。

在本申请提供的图像识别模块训练装置中，通过第一提取模块10，用于基于卷积神经网络对指定医学图像进行特征提取，生成第一图像特征；注意力机制模块20，用于基于注意力机制对所述指定医学图像进行处理，得到第二图像特征和提取区域；获取模块30，用于获取所述提取区域对应的提取区域图像；第二提取模块40，用于基于卷积神经网络对所述提取区域图像进行特征提取，得到所述提取区域图像的第三图像特征；融合模块50，用于对所述第一图像特征、所述第二图像特征和第三图像特征进行融合，得到融合图像特征，从而基于所述融合图像特征完成图像识别模块训练。这样，通过卷积神经网络提取指定医学图像的第一图像特征，又通过注意力机制对提取区域进行再次开窗，进而得到第二图像特征和第三图像特征，使得本图像识别模块训练方法可以在全局图像学习的基础上，对感兴趣区域(注意力机制确定出的提取区域)进行再开窗，采用多个窗位、窗宽作为神经网络的输入，从而提高了深度学习训练出的图像识别模块对医疗影像识别准确性。进而解决了相关技术中通过深度学习训练出的图像识别模块对医疗影像识别准确性较低的技术问题。于此同时，本方法通过专注于更加重要的子任务，重新分配网络的学习能力，从而降低原始任务的难度，使网络更加容易训练。

基于相同的技术构思，本申请实施例还提供了一种计算机设备，包括：存储器和处理器；

所述存储器用于存储计算机程序；

所述处理器用于执行所述存储器中存储的计算机程序；

所述计算机程序用于执行如上述的图像识别模块训练方法。

基于相同的技术构思，本申请实施例还提供了一种计算机可读存储介质，该计算机可读存储介质存储有计算机代码，当计算机代码被执行时，上述的图像识别模块训练方法被执行。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的计算机可读存储介质的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

显然，本领域的技术人员应该明白，上述的本发明的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的硬件和软件结合。

本申请所涉及的计算机程序可以存储于计算机可读存储介质中，计算机可读存储介质可以包括：能够携带计算机程序代码的任何实体装置、虚拟装置、优盘、移动硬盘、磁碟、光盘、计算机存储器、只读计算机存储器(Read-Only Memory，ROM)、随机存取计算机存储器(Random Access Memory，RAM)、电载波信号、电信信号以及其他软件分发介质等。

以上所述仅为本申请的优选实施例而已，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种图像识别模块训练方法，其特征在于，该方法包括：

基于指定窗位和指定窗宽对医学样本图像进行开窗，生成指定医学图像；

获取所述提取区域对应的提取区域图像；

所述获取所述提取区域对应的提取区域图像，具体包括：计算出所述提取区域对应的提取窗位和提取窗宽；基于所述提取窗位和所述提取窗宽对所述医学样本图像进行开窗，生成提取区域图像；

对所述第一图像特征、所述第二图像特征和第三图像特征进行融合，得到融合图像特征，从而基于所述融合图像特征完成图像识别模块训练；

当所述提取区域图像中所述提取窗宽与指定灰阶的比值小于1时，执行所述基于卷积神经网络对所述提取区域图像进行特征提取的步骤；

2.一种图像识别模块训练装置，用于执行如权利要求1所述的图像识别模块训练方法，其特征在于，该装置包括：

开窗模块，用于基于指定窗位和指定窗宽对医学样本图像进行开窗，生成指定医学图像；

获取模块，用于获取所述提取区域对应的提取区域图像；具体用于计算出所述提取区域对应的提取窗位和提取窗宽；基于所述提取窗位和所述提取窗宽对所述医学样本图像进行开窗，生成提取区域图像；

3.一种计算机设备，其特征在于，包括：存储器和处理器；

所述存储器用于存储计算机程序；

所述处理器用于执行所述存储器中存储的计算机程序；

所述计算机程序用于执行如权利要求1所述的图像识别模块训练方法。

4.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机代码，当所述计算机代码被执行时，如权利要求1所述的图像识别模块训练方法被执行。