CN116912502B - 全局视角辅助下图像关键解剖结构的分割方法及其设备 - Google Patents
全局视角辅助下图像关键解剖结构的分割方法及其设备 Download PDFInfo
- Publication number
- CN116912502B CN116912502B CN202311154054.9A CN202311154054A CN116912502B CN 116912502 B CN116912502 B CN 116912502B CN 202311154054 A CN202311154054 A CN 202311154054A CN 116912502 B CN116912502 B CN 116912502B
- Authority
- CN
- China
- Prior art keywords
- feature map
- global
- attention layer
- attention
- self
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 210000003484 anatomy Anatomy 0.000 title claims abstract description 64
- 238000000034 method Methods 0.000 title claims abstract description 40
- 230000000007 visual effect Effects 0.000 title claims abstract description 37
- 238000011176 pooling Methods 0.000 claims abstract description 29
- 230000011218 segmentation Effects 0.000 claims abstract description 27
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 10
- 230000015654 memory Effects 0.000 claims description 29
- 238000010586 diagram Methods 0.000 claims description 16
- 239000011159 matrix material Substances 0.000 claims description 16
- 230000004927 fusion Effects 0.000 claims description 15
- 230000005540 biological transmission Effects 0.000 claims description 14
- 230000006870 function Effects 0.000 claims description 13
- 238000004590 computer program Methods 0.000 claims description 7
- 230000008569 process Effects 0.000 claims description 4
- 238000007499 fusion processing Methods 0.000 claims description 3
- 238000000605 extraction Methods 0.000 description 5
- 230000007246 mechanism Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 210000000683 abdominal cavity Anatomy 0.000 description 2
- 230000004913 activation Effects 0.000 description 2
- 230000005291 magnetic effect Effects 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 230000002159 abnormal effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000008034 disappearance Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及一种全局视角辅助下图像关键解剖结构分割方法、计算机设备和存储介质,包括将全局视角单帧图像输入卷积神经网络得到关键解剖结构的掩码;将全局视角单帧图像输入ResNet18框架得到单帧图像特征图,采用掩码处理单帧图像特征图得到掩码处理过的特征图;对掩码处理过的特征图进行池化得到全局上下文特征图;将局部视角单帧图像输入ResNet18框架得到局部上下文特征图;将全局上下文特征图和局部上下文特征图输入分类网络得到关键解剖结构的分类信息的特征图,将分类信息的特征图与局部上下文特征图交叉注意力融合得到融合的特征图,根据融合的特征图得到局部视角的单帧图像的关键解剖结构分割结果。上述方法能够提高关键解剖结构的分割准确度。
Description
技术领域
本发明涉及视频处理领域,特别是涉及一种全局视角辅助下图像关键解剖结构分割方法、计算机设备和存储介质。
背景技术
目前广泛采用基于卷积神经网络的框架,对多目标解剖结构提取局部特征,通过更大的感受视野来获取图像的全局上下文信息,并在输入的图像中进行预测,取得了不错的结果。然而在某些场景下,这些框架表现不佳,难以辨别单帧局限视野的图像中关键解剖结构,对具有相似视觉特征的关键解剖结构的分割准确度低。
发明内容
本发明的目的在于克服现有技术的不足,提供了一种全局视角辅助下图像关键解剖结构分割方法、计算机设备和存储介质,能够在全局视角辅助下识别局部视角的单帧图像中解剖结构的相对空间位置信息,再结合全局视角特征融合,辅助鉴别、分割局部视角下的单帧图像中视觉特征相似的关键解剖结构,实现了在单帧局限视野的图像中关键解剖结构的准确分割。
为了解决上述中至少一个技术问题,本发明实施例提供了一种全局视角辅助下图像关键解剖结构分割方法,包括:
将全局视角的单帧图像输入预训练卷积神经网络,得到所述全局视角的单帧图像中的多个视觉特征相似的关键解剖结构的掩码;
将所述全局视角的单帧图像输入去除最后一个平均池化层的ResNet18框架,得到单帧图像特征图,并采用所述掩码对所述单帧图像特征图进行处理,得到掩码处理过的特征图;
使用注意力池化操作对所述掩码处理过的特征图进行池化,得到全局上下文特征图;
将局部视角的单帧图像输入ResNet18框架,得到局部上下文特征图;
将所述全局上下文特征图和局部上下文特征图输入构建的分类网络,得到所述全局上下文特征图中所述局部上下文特征图所处位置的关键解剖结构的分类信息的特征图,将所述分类信息的特征图与所述局部上下文特征图进行交叉注意力融合,得到融合的特征图,根据所述融合的特征图得到所述局部视角的单帧图像的关键解剖结构分割结果;其中,所述分类网络中包含自注意力层、交叉注意力层、最优传输层、置信度矩阵以及全局引导注意力。
优选地,所述分类网络中包含第一自注意力层、第二自注意力层、第一交叉注意力层、第二交叉注意力层、最优传输层、置信度矩阵以及全局引导注意力层,所述第一自注意力层的输出分别连接所述第一交叉注意力层以及所述第二交叉注意力层,所述第一交叉注意力层以及所述第二交叉注意力层的输出均连接所述最优传输层,所述最优传输层的输出连接所述置信度矩阵,所述置信度矩阵的输出连接所述全局引导注意力层,所述全局引导注意力层的输出连接第三自注意力层;
所述将所述全局上下文特征图和局部上下文特征图输入构建的分类网络,得到所述全局上下文特征图中所述局部上下文特征图所处位置的关键解剖结构的分类信息的特征图,包括:
将述全局上下文特征图输入所述第一自注意力层以及将所述局部上下文特征图输入所述第二自注意力层;
将述全局上下文特征图输入所述全局引导注意力层,得到所述分类信息的特征图。
优选地,所述将述全局上下文特征图输入所述第一自注意力层以及将所述局部上下文特征图输入所述第二自注意力层的步骤之后,还包括:
控制所述第一自注意力层对所述全局上下文特征图进行四次处理后输出信息,以及控制所述第二自注意力层对所述局部上下文特征图进行四次处理后输出信息;
控制所述第一交叉注意力层对所述第一自注意力层的输出信息以及所述第二自注意力层的输出信息进行四次处理后输出信息;
控制所述第二交叉注意力层对所述第一自注意力层的输出信息以及所述第二自注意力层的输出信息进行四次处理后输出信息。
优选地,所述将所述分类信息的特征图与所述局部上下文特征图进行交叉注意力融合,得到融合的特征图,包括:
将所述分类信息的特征图输入第三自注意力层以及将所述局部上下文特征图输入第四自注意力层;
将所述第三自注意力层的输出信息与所述第四自注意力层的输出信息输入第三交叉注意力层,得到所述融合的特征图。
优选地,所述根据所述融合的特征图得到所述局部视角的单帧图像的关键解剖结构分割结果,包括:
将所述融合的特征图输入分割头网络,得到所述分割头网络输出的所述局部视角的单帧图像的关键解剖结构分割结果。
优选地,所述将述全局上下文特征图输入所述第一自注意力层以及将所述局部上下文特征图输入所述第二自注意力层,包括:
将所述全局上下文特征图的位置信息以正弦函数的形式添加到所述全局上下文特征图以及将所述局部上下文特征图的位置信息以正弦函数的形式添加到所述局部上下文特征图,以实现对所述全局上下文特征图和所述局部上下文特征图进行位置编码;
将位置编码后的全局上下文特征图的每个像素点按照一定的顺序排列成一个一维向量,以实现全局上下文特征图中特征的扁平化;
将位置编码后的局部上下文特征图的每个像素点按照一定的顺序排列成一个一维向量,以实现局部上下文特征图中特征的扁平化;
将扁平化处理后的全局上下文特征图输入所述第一自注意力层以及将扁平化处理后的局部上下文特征图输入所述第二自注意力层。
优选地,所述采用所述掩码对所述单帧图像特征图进行处理,得到掩码处理过的特征图,包括:
通过乘积操作后将掩码的大小以及维度调整为与所述单帧图像特征图的大小和维度相同,再将所述单帧图像特征图和调整后的掩码对应位置上的元素逐元素相乘,得到掩码处理过的特征图。
优选地,所述使用注意力池化操作对所述掩码处理过的特征图进行池化,得到全局上下文特征图,包括:
将所述掩码处理过的特征图输出注意力池化层,得到包含多个掩码的注意力池化特征图;
将所述多个掩码的注意力池化特征图进行拼接融合处理,得到全局上下文特征图。
一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现前述方法的步骤。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现前述方法的步骤。
上述一种全局视角辅助下图像关键解剖结构分割方法、计算机设备和存储介质,将全局视角的单帧图像输入预训练卷积神经网络,得到所述全局视角的单帧图像中的多个视觉特征相似的关键解剖结构的掩码;将所述全局视角的单帧图像输入去除最后一个平均池化层的ResNet18框架,得到单帧图像特征图,并采用所述掩码对所述单帧图像特征图进行处理,得到掩码处理过的特征图;使用注意力池化操作对所述掩码处理过的特征图进行池化,得到全局上下文特征图;将局部视角的单帧图像输入ResNet18框架,得到局部上下文特征图;将所述全局上下文特征图和局部上下文特征图输入构建的分类网络,得到所述全局上下文特征图中所述局部上下文特征图所处位置的关键解剖结构的分类信息的特征图,将所述分类信息的特征图与所述局部上下文特征图进行交叉注意力融合,得到融合的特征图,根据所述融合的特征图得到所述局部视角的单帧图像的关键解剖结构分割结果;其中,所述分类网络中包含自注意力层、交叉注意力层、最优传输层、置信度矩阵以及全局引导注意力。因此,能够在全局视角辅助下识别局部视角的单帧图像中解剖结构的相对空间位置信息,再结合全局视角特征融合,辅助鉴别、分割局部视角下的单帧图像中视觉特征相似的关键解剖结构,实现了在单帧局限视野的图像中关键解剖结构的准确分割。
附图说明
图1是本发明实施例中的一种全局视角辅助下图像关键解剖结构分割方法的流程示意图;
图2是本发明实施例中的全局视角特征融合辅助腹腔镜单帧影像关键解剖结构分割方法的流程示意图;
图3是本发明实施例中的计算机设备的结构组成示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
本发明实施例提供了一种全局视角辅助下图像关键解剖结构分割方法。如图1所示,一种全局视角辅助下图像关键解剖结构分割方法包括以下步骤:
S101,将全局视角的单帧图像输入预训练卷积神经网络,得到所述全局视角的单帧图像中的多个视觉特征相似的关键解剖结构的掩码。
S102,将所述全局视角的单帧图像输入去除最后一个平均池化层的ResNet18框架,得到单帧图像特征图,并采用所述掩码对所述单帧图像特征图进行处理,得到掩码处理过的特征图。
具体地,将全局视角的单帧图像,如广阔视角下的腹腔镜单帧图像,作为ResNet18框架的输入。为了获得合适大小的单帧图像特征图,便于和预训练卷积神经网络(CNN,Convolutional Neural Network)框架产生的掩码匹配,将ResNet18框架进行调整,去除最后一个平均池化层,由此获得广阔视角下的腹腔镜单帧图像特征。
在一个实施例中,所述采用所述掩码对所述单帧图像特征图进行处理,得到掩码处理过的特征图,包括:通过乘积操作后将掩码的大小以及维度调整为与所述单帧图像特征图的大小和维度相同,再将所述单帧图像特征图和调整后的掩码对应位置上的元素逐元素相乘,得到掩码处理过的特征图。
具体地,为了获得全局视角下各个视觉特征相似的关键解剖结构的相对空间分布信息,利用预训练 CNN 网络在图像上产生多个视觉特征相似的解剖结构的掩码,并通过人机交互的方式实现掩码的类别区分,经过Hadamard乘积操作后,将该掩码的大小、维度调整为与单帧图像特征图相同,再将单帧图像特征图和该掩码对应位置上的元素逐元素相乘,将该掩码应用于单帧图像特征图,得到一个经过掩码处理的特征图,其中只保留与该掩码相关的区域信息。
S103,使用注意力池化操作对所述掩码处理过的特征图进行池化,得到全局上下文特征图。
在一个实施例中,所述使用注意力池化操作对所述掩码处理过的特征图进行池化,得到全局上下文特征图,包括:将所述掩码处理过的特征图输出注意力池化层,得到包含多个掩码的注意力池化特征图;将所述多个掩码的注意力池化特征图进行拼接融合处理,得到全局上下文特征图。
具体地,为了得到该掩码在处理过的特征图中的相对空间分布,使用注意力池化操作对经过掩码处理的特征图进行池化,得到该掩码的全局上下文特征图。在注意力池化中,首先计算掩码特征图的三个关键元素:Q(Query)值、K(Key)值以及V(Vaule)值,Q值是通过对掩码处理过的特征图进行全局平均池化得到,K值和V值是通过将掩码处理过的特征图进行扁平化再进行位置编码后得到的。掩码处理过的特征图被应用于K值和V值,通过将掩码与K值和V值的对应位置进行逐元素相乘。这样,与掩码无关的区域在K值和V值中被抑制掉,只保留与掩码相关的区域。掩码处理后的K值和V值被输入到多头注意力机制中。在多头注意力机制中,Q值、K值和V值被分别输入到不同的注意力头中,计算注意力权重并对V值进行加权求和。最后,通过将多头注意力的输出进行拼接,得到最终的注意力池化特征图。这个特征图综合了与该掩码区域以及周围的上下文信息,用于表示图像中掩码区域的全局上下文特征。通过以上方法,得到了多个掩码的全局上下文特征图。将多个掩码的全局上下文特征图进行拼接融合,得到全局视角下多个视觉相似的关键解剖结构相对空间分布的全局上下文特征图。
S104,将局部视角的单帧图像输入ResNet18框架,得到局部上下文特征图。
具体地,在局部视角特征提取分支中,为了获得局部视角下的包含多个视觉特征相似的关键解剖结构的高级语义特征的局部上下文特征图,首先,将局部视角下的腹腔镜单帧图像作为局部视角特征提取分支的输入。其中,局部视角特征提取分支采用ResNet18框架。其次,采用ResNet18框架提取该腹腔镜单帧图像的特征图,该框架由卷积层1、池化层1、卷积层2、卷积层3、卷积层4、卷积层5和平均池化层构成,卷积层间有残差链接以防止梯度消失,使网络更易于训练和优化。为了提取局部上下文图像的高级语义特征,图像经过了多个卷积层提取特征。卷积层1由一个7´7的卷积层、批归一化层和ReLU激活函数组成,卷积层2、3、4、5均由两个3´3的卷积层批归一化层和ReLU激活函数组成。最后通过平均池化层来将局部上下文特征图降维以减少计算量,同时保留重要特征,输出局部视角下的腹腔镜单帧图像的高级语义特征图。即,上述局部上下文特征图。
S105,将所述全局上下文特征图和局部上下文特征图输入构建的分类网络,得到所述全局上下文特征图中所述局部上下文特征图所处位置的关键解剖结构的分类信息的特征图,将所述分类信息的特征图与所述局部上下文特征图进行交叉注意力融合,得到融合的特征图,根据所述融合的特征图得到所述局部视角的单帧图像的关键解剖结构分割结果;其中,所述分类网络中包含自注意力层、交叉注意力层、最优传输层、置信度矩阵以及全局引导注意力。
在一个实施例中,如图2所示,所述分类网络中包含第一自注意力层、第二自注意力层、第一交叉注意力层、第二交叉注意力层、最优传输层、置信度矩阵以及全局引导注意力层,所述第一自注意力层的输出分别连接所述第一交叉注意力层以及所述第二交叉注意力层,所述第一交叉注意力层以及所述第二交叉注意力层的输出均连接所述最优传输层,所述最优传输层的输出连接所述置信度矩阵,所述置信度矩阵的输出连接所述全局引导注意力层,所述全局引导注意力层的输出连接第三自注意力层;所述将所述全局上下文特征图和局部上下文特征图输入构建的分类网络,得到所述全局上下文特征图中所述局部上下文特征图所处位置的关键解剖结构的分类信息的特征图,包括:将述全局上下文特征图输入所述第一自注意力层以及将所述局部上下文特征图输入所述第二自注意力层;将述全局上下文特征图输入所述全局引导注意力层,得到所述分类信息的特征图。
其中,所述将述全局上下文特征图输入所述第一自注意力层以及将所述局部上下文特征图输入所述第二自注意力层的步骤之后,还包括:控制所述第一自注意力层对所述全局上下文特征图进行四次处理后输出信息,以及控制所述第二自注意力层对所述局部上下文特征图进行四次处理后输出信息;控制所述第一交叉注意力层对所述第一自注意力层的输出信息以及所述第二自注意力层的输出信息进行四次处理后输出信息;控制所述第二交叉注意力层对所述第一自注意力层的输出信息以及所述第二自注意力层的输出信息进行四次处理后输出信息。
其中,所述将所述分类信息的特征图与所述局部上下文特征图进行交叉注意力融合,得到融合的特征图,包括:将所述分类信息的特征图输入第三自注意力层以及将所述局部上下文特征图输入第四自注意力层;将所述第三自注意力层的输出信息与所述第四自注意力层的输出信息输入第三交叉注意力层,得到所述融合的特征图。
进一步地,所述根据所述融合的特征图得到所述局部视角的单帧图像的关键解剖结构分割结果,包括:将所述融合的特征图输入分割头网络,得到所述分割头网络输出的所述局部视角的单帧图像的关键解剖结构分割结果。
在一个实施例中,所述将述全局上下文特征图输入所述第一自注意力层以及将所述局部上下文特征图输入所述第二自注意力层,包括:将所述全局上下文特征图的位置信息以正弦函数的形式添加到所述全局上下文特征图以及将所述局部上下文特征图的位置信息以正弦函数的形式添加到所述局部上下文特征图,以实现对所述全局上下文特征图和所述局部上下文特征图进行位置编码;将位置编码后的全局上下文特征图的每个像素点按照一定的顺序排列成一个一维向量,以实现全局上下文特征图中特征的扁平化;将位置编码后的局部上下文特征图的每个像素点按照一定的顺序排列成一个一维向量,以实现局部上下文特征图中特征的扁平化;将扁平化处理后的全局上下文特征图输入所述第一自注意力层以及将扁平化处理后的局部上下文特征图输入所述第二自注意力层。
具体地,参见图2所示。为了将广阔视角的局部-全局上下文特征图和狭窄视角的高级语义的局部上下文特征图进行融合,并输出局部视角下准确关键解剖结构的分割结果,本发明设计了多视角特征融合模块GVFFM(Global View Features Fusion Module)。该模块由一个Local-Aware module和一个分割头组成。Local-Aware module为了实现将广阔视角的全局上下文特征图的空间相对位置信息在狭窄视角的局部上下文特征图上的融合,得到准确的局部特征定位,并通过全局引导注意力层来引导注意力提取局部特征定位区域的分类信息。Local-Aware module由多个注意力层组成,通过将特征图内空间信息和特征图间空间信息进行编码。为了使前期生成的广阔视角的全局上下文特征图和狭窄视角的局部上下文特征图得到更好的融合,在Local-Aware module输入的两个特征图中,首先,如图2所示,为了建模特征图内的位置相关信息,将每个位置的唯一位置信息以正弦函数的形式添加到特征图中,将这两个特征图进行位置编码;以及为了方便后续的特征匹配,通过将特征图的每个像素点按照一定的顺序排列成一个一维向量,来实现特征的扁平化。其次,为了捕获特征图内及特征图间的局部特征和空间特征信息,保证后续特征匹配时对空间信息的感知,采用了四个自注意力层和交叉注意力层交错分布。在自注意力层中,Q(Query)值、K(Key)值以及V(Vaule)值均由同一特征图通过扁平化特征图以及矩阵变化得来,查询数据流Q值与键数据流K之间进行点积操作,得到Q值与K值之间的相似度得分。然后,通过对相似度得分进行归一化操作softmax函数,得到注意力权重,如此得到了特征图内部各个像素之间相似度。最后,通过将注意力权重与值数据流V进行加权求和,得到自注意力层的输出,由此捕获了特征内的局部特征和空间特征信息。在交叉注意力层中,Q值由全局上下文特征图或局部上下文特征图产生,K值以及V值由不同于Q值的另一特征图产生,查询数据流Q值与键数据流K值之间进行点积操作,得到Q值与K值之间的相似度得分。然后,通过对相似度得分进行归一化操作softmax函数,得到注意力权重,如此得到了特征图之间各个像素之间相似度。最后,通过将注意力权重与值数据流V进行加权求和,得到交叉注意力层的输出,由此捕获了特征间的局部特征和空间特征信息。经过四次交错分布的自注意力层以及交叉注意力层,建模了特征图内以及特征图间的相关信息,得到了两个转化后的特征图。然后,为了将局部上下文特征图定位到全局上下文特征图的所处位置,以便对局部上下文特征图中特征相似的解剖结构进行准确分类,再通过最优传输层,计算转化后的两个特征之间的分数矩阵,并根据该分数矩阵来进行特征匹配,得到两个特征图之间匹配的概率,通过设置阈值,滤除异常的特征匹配,输出局部上下文特征图在全局上下文特征图的所处位置。将局部上下文特征图在全局上下文特征图的所处位置,连同全局上下文特征图一起输入到全局引导注意力中,通过将注意力分配在全局上下文特征图中局部上下文所处位置,根据全局上下文中多个关键结果的相对空间分布信息,提取全局上下文中关键解剖结构的分类信息,输出提取了全局上下文特征图中局部上下文特征图所处位置的解剖结构分类信息的特征图。最后,提取出来的特征图经过自注意力层后和经过自注意力层的局部上下文特征图,经过交叉注意力融合,如此就实现了将提取的全局上下文特征图中通过的相对空间分布位置分类视觉相似的关键解剖结构特征信息,融合到局部上下文特征图中。输出的融合的特征图经过分割头,输出狭窄视角下局部视觉的单帧腹腔镜影像的视觉相似的关键解剖结构的准确分割结果。
综上,本发明设计了一种全局及局部视角特征提取网络,该网络能将全局视角的腹腔镜单帧影像特征和局部视角的腹腔镜单帧影像特征进行提取,发挥各自的优势。在全局视角的腹腔镜单帧影像特征中,提取了腹腔中多目标解剖结构的相对空间位置信息,辅助识别局部视角单帧腹腔镜影下的视觉特征相似的关键解剖结构;在狭窄视角的腹腔镜单帧影像特征中,提取了局部视野的高级语义特征图,有利于实现目标在全局视角腹腔镜单帧影像中的融合以及分类。
以及,提出了一种全局-局部视角特征融合机制,利用广阔视角的腹腔镜单帧影像补充狭窄视角下缺失的腹腔中多目标解剖结构的相对空间信息,得到狭窄视角中视觉相似解剖结构的分类信息,从而达到了对单帧局限视野的腹腔镜图像中视觉特征相似的解剖结构的准确分割。
本发明实施例提供的一种计算机可读存储介质,所述计算机可读存储介质上存储有应用程序,该程序被处理器执行时实现上述实施例中任意一个实施例的一种全局视角辅助下图像关键解剖结构分割方法。其中,所述计算机可读存储介质包括但不限于任何类型的盘(包括软盘、硬盘、光盘、CD-ROM、和磁光盘)、ROM(Read-Only Memory,只读存储器)、RAM(Random AcceSS Memory,随即存储器)、EPROM(EraSable Programmable Read-OnlyMemory,可擦写可编程只读存储器)、EEPROM(Electrically EraSable ProgrammableRead-Only Memory,电可擦可编程只读存储器)、闪存、磁性卡片或光线卡片。也就是,存储设备包括由设备(例如,计算机、手机)以能够读的形式存储或传输信息的任何介质,可以是只读存储器,磁盘或光盘等。
本发明实施例还提供了一种计算机应用程序,其运行在计算机上,该计算机应用程序用于执行上述中任意一个实施例的一种全局视角辅助下图像关键解剖结构分割方法。
此外,图3是本发明实施例中的计算机设备的结构组成示意图。
本发明实施例还提供了一种计算机设备,如图3所示。所述计算机设备包括处理器302、存储器303、输入单元304以及显示单元305等器件。本领域技术人员可以理解,图3示出的设备结构器件并不构成对所有设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件。存储器303可用于存储应用程序301以及各功能模块,处理器302运行存储在存储器303的应用程序301,从而执行设备的各种功能应用以及数据处理。存储器可以是内存储器或外存储器,或者包括内存储器和外存储器两者。内存储器可以包括只读存储器(ROM)、可编程 ROM(PROM)、电可编程ROM(EPROM)、电可擦写可编程ROM(EEPROM)、快闪存储器、或者随机存储器。外存储器可以包括硬盘、软盘、ZIP盘、U盘、磁带等。本发明所公开的存储器包括但不限于这些类型的存储器。本发明所公开的存储器只作为例子而非作为限定。
输入单元304用于接收信号的输入,以及接收用户输入的关键字。输入单元304可包括触控面板以及其它输入设备。触控面板可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板上或在触控面板附近的操作),并根据预先设定的程序驱动相应的连接装置;其它输入设备可以包括但不限于物理键盘、功能键(比如播放控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。显示单元305可用于显示用户输入的信息或提供给用户的信息以及终端设备的各种菜单。显示单元305可采用液晶显示器、有机发光二极管等形式。处理器302是终端设备的控制中心,利用各种接口和线路连接整个设备的各个部分,通过运行或执行存储在存储器303内的软件程序和/或模块,以及调用存储在存储器内的数据,执行各种功能和处理数据。
作为一个实施例,所述计算机设备包括:一个或多个处理器302,存储器303,一个或多个应用程序301,其中所述一个或多个应用程序301被存储在存储器303中并被配置为由所述一个或多个处理器302执行,所述一个或多个应用程序301配置用于执行上述实施例中的任意一实施例中的一种全局视角辅助下图像关键解剖结构分割方法。
另外,以上对本发明实施例所提供的一种全局视角辅助下图像关键解剖结构分割方法、计算机设备和存储介质进行了详细介绍,本文中应采用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
Claims (10)
1.一种全局视角辅助下图像关键解剖结构分割方法,其特征在于,包括:
将全局视角的单帧图像输入预训练卷积神经网络,得到所述全局视角的单帧图像中的多个视觉特征相似的关键解剖结构的掩码;
将所述全局视角的单帧图像输入去除最后一个平均池化层的ResNet18框架,得到单帧图像特征图,并采用所述掩码对所述单帧图像特征图进行处理,得到掩码处理过的特征图;
使用注意力池化操作对所述掩码处理过的特征图进行池化,得到全局上下文特征图;
将局部视角的单帧图像输入ResNet18框架,得到局部上下文特征图;
将所述全局上下文特征图和局部上下文特征图输入构建的分类网络,得到所述全局上下文特征图中所述局部上下文特征图所处位置的关键解剖结构的分类信息的特征图,将所述分类信息的特征图与所述局部上下文特征图进行交叉注意力融合,得到融合的特征图,根据所述融合的特征图得到所述局部视角的单帧图像的关键解剖结构分割结果;其中,所述分类网络中包含自注意力层、交叉注意力层、最优传输层、置信度矩阵以及全局引导注意力层。
2.根据权利要求1所述的方法,其特征在于,所述分类网络中包含第一自注意力层、第二自注意力层、第一交叉注意力层、第二交叉注意力层、最优传输层、置信度矩阵以及全局引导注意力层,所述第一自注意力层的输出分别连接所述第一交叉注意力层以及所述第二交叉注意力层,所述第一交叉注意力层以及所述第二交叉注意力层的输出均连接所述最优传输层,所述最优传输层的输出连接所述置信度矩阵,所述置信度矩阵的输出连接所述全局引导注意力层,所述全局引导注意力层的输出连接第三自注意力层;
所述将所述全局上下文特征图和局部上下文特征图输入构建的分类网络,得到所述全局上下文特征图中所述局部上下文特征图所处位置的关键解剖结构的分类信息的特征图,包括:
将述全局上下文特征图输入所述第一自注意力层以及将所述局部上下文特征图输入所述第二自注意力层;
将述全局上下文特征图输入所述全局引导注意力层,得到所述分类信息的特征图。
3.根据权利要求2所述的方法,其特征在于,所述将所述全局上下文特征图输入所述第一自注意力层以及将所述局部上下文特征图输入所述第二自注意力层的步骤之后,还包括:
控制所述第一自注意力层对所述全局上下文特征图进行四次处理后输出信息,以及控制所述第二自注意力层对所述局部上下文特征图进行四次处理后输出信息;
控制所述第一交叉注意力层对所述第一自注意力层的输出信息以及所述第二自注意力层的输出信息进行四次处理后输出信息;
控制所述第二交叉注意力层对所述第一自注意力层的输出信息以及所述第二自注意力层的输出信息进行四次处理后输出信息。
4.根据权利要求2所述的方法,其特征在于,所述将所述分类信息的特征图与所述局部上下文特征图进行交叉注意力融合,得到融合的特征图,包括:
将所述分类信息的特征图输入第三自注意力层以及将所述局部上下文特征图输入第四自注意力层;
将所述第三自注意力层的输出信息与所述第四自注意力层的输出信息输入第三交叉注意力层,得到所述融合的特征图。
5.根据权利要求4所述的方法,其特征在于,所述根据所述融合的特征图得到所述局部视角的单帧图像的关键解剖结构分割结果,包括:
将所述融合的特征图输入分割头网络,得到所述分割头网络输出的所述局部视角的单帧图像的关键解剖结构分割结果。
6.根据权利要求2所述的方法,其特征在于,所述将述全局上下文特征图输入所述第一自注意力层以及将所述局部上下文特征图输入所述第二自注意力层,包括:
将所述全局上下文特征图的位置信息以正弦函数的形式添加到所述全局上下文特征图以及将所述局部上下文特征图的位置信息以正弦函数的形式添加到所述局部上下文特征图,以实现对所述全局上下文特征图和所述局部上下文特征图进行位置编码;
将位置编码后的全局上下文特征图的每个像素点按照一定的顺序排列成一个一维向量,以实现全局上下文特征图中特征的扁平化;
将位置编码后的局部上下文特征图的每个像素点按照一定的顺序排列成一个一维向量,以实现局部上下文特征图中特征的扁平化;
将扁平化处理后的全局上下文特征图输入所述第一自注意力层以及将扁平化处理后的局部上下文特征图输入所述第二自注意力层。
7.根据权利要求1所述的方法,其特征在于,所述采用所述掩码对所述单帧图像特征图进行处理,得到掩码处理过的特征图,包括:
通过乘积操作后将掩码的大小以及维度调整为与所述单帧图像特征图的大小和维度相同,再将所述单帧图像特征图和调整后的掩码对应位置上的元素逐元素相乘,得到掩码处理过的特征图。
8.根据权利要求1所述的方法,其特征在于,所述使用注意力池化操作对所述掩码处理过的特征图进行池化,得到全局上下文特征图,包括:
将所述掩码处理过的特征图输出注意力池化层,得到包含多个掩码的注意力池化特征图;
将所述多个掩码的注意力池化特征图进行拼接融合处理,得到全局上下文特征图。
9.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至8中任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至8中任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311154054.9A CN116912502B (zh) | 2023-09-08 | 2023-09-08 | 全局视角辅助下图像关键解剖结构的分割方法及其设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311154054.9A CN116912502B (zh) | 2023-09-08 | 2023-09-08 | 全局视角辅助下图像关键解剖结构的分割方法及其设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116912502A CN116912502A (zh) | 2023-10-20 |
CN116912502B true CN116912502B (zh) | 2024-01-16 |
Family
ID=88367083
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311154054.9A Active CN116912502B (zh) | 2023-09-08 | 2023-09-08 | 全局视角辅助下图像关键解剖结构的分割方法及其设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116912502B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012156968A (ja) * | 2011-01-28 | 2012-08-16 | Canon Inc | 画像処理装置、画像処理方法、及びプログラム |
CN109598728A (zh) * | 2018-11-30 | 2019-04-09 | 腾讯科技(深圳)有限公司 | 图像分割方法、装置、诊断***及存储介质 |
CN110111291A (zh) * | 2019-05-10 | 2019-08-09 | 衡阳师范学院 | 基于局部和全局优化融合图像卷积神经网络风格迁移方法 |
CN111160351A (zh) * | 2019-12-26 | 2020-05-15 | 厦门大学 | 基于块推荐网络的快速高分辨率图像分割方法 |
CN112990316A (zh) * | 2021-03-18 | 2021-06-18 | 浪潮云信息技术股份公司 | 基于多显著性特征融合的高光谱遥感图像分类方法及*** |
CN116205928A (zh) * | 2023-05-06 | 2023-06-02 | 南方医科大学珠江医院 | 腹腔镜手术视频的图像分割处理方法、装置和设备、介质 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7660468B2 (en) * | 2005-05-09 | 2010-02-09 | Like.Com | System and method for enabling image searching using manual enrichment, classification, and/or segmentation |
CN114612479B (zh) * | 2022-02-09 | 2023-03-24 | 苏州大学 | 基于全局与局部特征重建网络的医学图像分割方法和装置 |
-
2023
- 2023-09-08 CN CN202311154054.9A patent/CN116912502B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012156968A (ja) * | 2011-01-28 | 2012-08-16 | Canon Inc | 画像処理装置、画像処理方法、及びプログラム |
CN109598728A (zh) * | 2018-11-30 | 2019-04-09 | 腾讯科技(深圳)有限公司 | 图像分割方法、装置、诊断***及存储介质 |
CN110111291A (zh) * | 2019-05-10 | 2019-08-09 | 衡阳师范学院 | 基于局部和全局优化融合图像卷积神经网络风格迁移方法 |
CN111160351A (zh) * | 2019-12-26 | 2020-05-15 | 厦门大学 | 基于块推荐网络的快速高分辨率图像分割方法 |
CN112990316A (zh) * | 2021-03-18 | 2021-06-18 | 浪潮云信息技术股份公司 | 基于多显著性特征融合的高光谱遥感图像分类方法及*** |
CN116205928A (zh) * | 2023-05-06 | 2023-06-02 | 南方医科大学珠江医院 | 腹腔镜手术视频的图像分割处理方法、装置和设备、介质 |
Non-Patent Citations (1)
Title |
---|
基于DA-Unet的喉镜图像声门分割研究;岑乾;《中国优秀硕士学位论文全文数据库》;E073-8 * |
Also Published As
Publication number | Publication date |
---|---|
CN116912502A (zh) | 2023-10-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111507335B (zh) | 自动标注利用于深度学习网络的训练图像的方法和装置 | |
CN111709409B (zh) | 人脸活体检测方法、装置、设备及介质 | |
CN110503074B (zh) | 视频帧的信息标注方法、装置、设备及存储介质 | |
CN111582021B (zh) | 场景图像中的文本检测方法、装置及计算机设备 | |
CN110188760B (zh) | 一种图像处理模型训练方法、图像处理方法及电子设备 | |
CN110633632A (zh) | 一种基于循环指导的弱监督联合目标检测和语义分割方法 | |
KR102305230B1 (ko) | 객체 경계정보의 정확도 개선방법 및 장치 | |
CN111652181B (zh) | 目标跟踪方法、装置及电子设备 | |
CN113870335A (zh) | 一种基于多尺度特征融合的单目深度估计方法 | |
KR102352942B1 (ko) | 객체 경계정보의 주석을 입력하는 방법 및 장치 | |
CN113344932A (zh) | 一种半监督的单目标视频分割方法 | |
CN110310305B (zh) | 一种基于bssd检测与卡尔曼滤波的目标跟踪方法与装置 | |
CN112784750B (zh) | 基于像素和区域特征匹配的快速视频物体分割方法和装置 | |
CN113850136A (zh) | 基于yolov5与BCNN的车辆朝向识别方法及*** | |
CN114092759A (zh) | 图像识别模型的训练方法、装置、电子设备及存储介质 | |
CN112115879A (zh) | 一种遮挡敏感的自监督行人重识别方法及*** | |
CN114723646A (zh) | 带标注的图像数据生成方法、装置、存储介质及电子设备 | |
CN111626134A (zh) | 一种基于隐密度分布的密集人群计数方法、***及终端 | |
CN116152266A (zh) | 一种穿刺针超声图像的分割方法、装置和*** | |
CN113139502A (zh) | 无监督视频分割方法 | |
CN114549557A (zh) | 一种人像分割网络训练方法、装置、设备及介质 | |
CN112686176A (zh) | 目标重识别方法、模型训练方法、装置、设备及存储介质 | |
CN112417947A (zh) | 关键点检测模型的优化及面部关键点的检测方法及装置 | |
CN116912502B (zh) | 全局视角辅助下图像关键解剖结构的分割方法及其设备 | |
CN117079305A (zh) | 姿态估计方法、姿态估计装置以及计算机可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20231225 Address after: No.253, middle Industrial Avenue, Guangzhou, Guangdong 510000 Applicant after: ZHUJIANG HOSPITAL, SOUTHERN MEDICAL University Applicant after: SHENZHEN INSTITUTES OF ADVANCED TECHNOLOGY CHINESE ACADEMY OF SCIENCES Address before: Zhujiang Hospital, Southern Medical University, 253 Industrial Avenue, Haizhu District, Guangzhou, Guangdong 510000 Applicant before: ZHUJIANG HOSPITAL, SOUTHERN MEDICAL University |
|
GR01 | Patent grant | ||
GR01 | Patent grant |