CN115908825A

CN115908825A - 一种基于视觉处理的类圆形结构分割方法及装置

Info

Publication number: CN115908825A
Application number: CN202310225551.7A
Authority: CN
Inventors: 顾愿愿; 岳星宇; 马韶东; 阎岐峰; 张炯; 赵一天
Original assignee: Ningbo Institute of Material Technology and Engineering of CAS; Cixi Institute of Biomedical Engineering CIBE of CAS
Current assignee: Ningbo Institute of Material Technology and Engineering of CAS; Cixi Institute of Biomedical Engineering CIBE of CAS
Priority date: 2023-03-10
Filing date: 2023-03-10
Publication date: 2023-04-04

Abstract

本发明提供了一种基于视觉处理的类圆形结构分割方法及装置，涉及图像处理技术领域。本发明所述的基于视觉处理的类圆形结构分割方法，包括：获取视频帧；对所述视频帧进行去噪处理获得中间图像；检测所述中间图像中的类圆形结构区域图像；将所述类圆形结构区域图像由笛卡尔坐标系转换为极坐标系获得输入数据；基于U‑net神经网络构建多尺度输入结构的初始模型；根据损失函数对所述初始模型进行训练获得分割模型；将所述输入数据输入所述分割模型获得所述类圆形结构区域的分割图像。本发明的技术方案，能够在被观测物体图像像素分布不均匀、类圆形结构区域边缘模糊变形、以及类圆形结构区域被遮挡等实际情景中实现对类圆形结构的高精度分割。

Description

一种基于视觉处理的类圆形结构分割方法及装置

技术领域

本发明涉及图像处理技术领域，尤其涉及一种基于视觉处理的类圆形结构分割方法及装置。

背景技术

随着深度神经网络模型的提出和视觉领域图像处理技术的日新月异，计算机视觉（Computer Vision,CV)逐渐成为21世纪非常活跃的研究方向，图像分割技术实现了对视频中感兴趣区域或结构的分割，其中对类圆形结构的分割广泛应用于医疗、机械测量、电子消费等领域。现有对类圆形结构的图像分割方法直接采用图像分割算法对图像进行分割，由于在实际应用情景被观测物体图像常出现像素分布不均匀、类圆形结构区域边缘模糊变形、以及类圆形结构区域被遮挡等情况，现有的对类圆形结构的分割方法易出现分割结果过拟合、对比度低的现象，不能满足高精度的分割需求。

发明内容

本发明解决的问题是如何提高被测物体中类圆形结构的分割精度。

为解决上述问题，本发明提供一种基于视觉处理的类圆形结构分割方法，包括：

获取视频帧；

对所述视频帧进行去噪处理获得中间图像；

检测所述中间图像中的类圆形结构区域图像；

将所述类圆形结构区域图像由笛卡尔坐标系转换为极坐标系获得输入数据；

基于U-net神经网络构建多尺度输入结构的初始模型；

根据损失函数对所述初始模型进行训练获得分割模型；

将所述输入数据输入所述分割模型获得所述类圆形结构区域的分割图像。

可选地，所述对所述视频帧进行去噪处理获得中间图像包括：

对所述视频帧进行基于傅里叶变换的去噪处理，将图像从空间域转换到频域，获得频谱图，对所述频谱图进行高斯滤波处理后求导，获得中间图像。

可选地，所述将所述类圆形结构区域图像由笛卡尔坐标系转换为极坐标系获得输入数据包括：

确立所述类圆形结构目标区域的中心点作为极坐标中心；

根据所述极坐标中心将所述类圆形结构目标区域由笛卡尔坐标系转换成极坐标系获得极坐标系图像；

将所述极坐标系图像进行多尺度输入处理获得输入数据。

可选地，将所述极坐标系图像进行多尺度输入处理获得输入数据包括：

对所述极坐标系图像进行像素平衡处理；

对进行像素平衡处理后的极坐标系图像进行多尺度缩放作为所述输入数据。

可选地，所述基于U-net神经网络构建多尺度输入结构的初始模型包括：

基于所述U-net神经网络的编码模块构建多尺度输入结构；

在所述U-net神经网络的解码模块引入输出层，所述输出层用于作为分类器为所述解码模块生成局部输出映射。

可选地，所述基于所述U-net神经网络的编码模块构建多尺度输入结构包括：

基于所述U-net神经网络的所述编码模块引入金字塔结构卷积神经网络，编码器路径中的四个所述编码模块分别构造一个多尺度输入分辨率或尺寸，用于使第二、三、四编码模块分别融合空间信息与语义信息，用于充分获取局部细粒度信息。

可选地，U-net神经网络的解码模块引入输出层还包括：

通过一个平均层将所述输出层生成的局部输出映射组合成预测映射，所述预测映射用于对所述初始模型的训练过程进行监督。

可选地，所述输出层包括：

每个所述输出层包括多个二进制标签，每个所述二进制标签对应一种类圆形结构的类别，用于避免多个类圆形结构区域的像素重叠。

可选地，所述损失函数为多标签损失函数，包括：，

其中，N表示像素数，K表示总类别数；表示所述总类别数K的预测的概率，表示二值化真值标签，k表示类别，i表示像素，表示每个类别的权重。

相对于现有技术，本发明所述的基于视觉处理的类圆形结构分割方法，通过对视频帧进行去噪处理提升图像对比度获得中间图像，再将中间图像由笛卡尔坐标系转换为极坐标系获得输入数据，避免因像素分布差异较大导致后续训练过程模型出现过拟合现象。基于U-net神经网络构建多尺度输入结构的初始模型，多尺度输入结构可在融合高级语意信息的同时提升初始模型的细粒度信息获取能力，保证分割精度，通过损失函数对初始模型进行训练实现初始模型对多类类圆形结构区域的联合分割，获得具有高精度分割能力的分割模型。将输入数据输入分割模型获得对类圆形结构区域的高精度分割图像，提高对被测物体中类圆形结构的分割精度。

本发明还提出一种基于视觉处理的类圆形结构分割装置，所述类圆形结构分割装置上存储有计算机程序，当所述计算机程序被处理器执行时，实现所述基于视觉处理的多尺度类圆形结构分割方法。

本发明所述的计算机可读存储介质相对于现有技术与基于视觉处理的类圆形结构分割方法所具有的优势相同，在此不再赘述。

附图说明

图1为本发明实施例的基于视觉处理的多尺度类圆形结构分割的方法的流程图；

图2为本发明实施例的基于视觉处理的多尺度类圆形结构分割的方法步骤S400细化后的流程图。

具体实施方式

为使本发明的上述目的、特征和优点能够更为明显易懂，下面结合附图对本发明的具体实施例做详细的说明。虽然附图中显示了本发明的某些实施例，然而应当理解的是，本发明可以通过各种形式来实现，而且不应该被解释为限于这里阐述的实施例，相反提供这些实施例是为了更加透彻和完整地理解本发明。应当理解的是，本发明的附图及实施例仅用于示例性作用，并非用于限制本发明的保护范围。

应当理解，本发明的方法实施方式中记载的各个步骤可以按照不同的顺序执行，和/或并行执行。此外，方法实施方式可以包括附加的步骤和/或省略执行示出的步骤。本发明的范围在此方面不受限制。

本文使用的术语“包括”及其变形是开放性包括，即“包括但不限于”。术语“基于”是“至少部分地基于”。术语“一个实施例”表示“至少一个实施例”；术语“另一实施例”表示“至少一个另外的实施例”；术语“一些实施例”表示“至少一些实施例”；术语“可选地”表示“可选的实施例”。其他术语的相关定义将在下文描述中给出。

需要注意，本发明中提及的“一个”、“多个”的修饰是示意性而非限制性的，本领域技术人员应当理解，除非在上下文另有明确指出，否则应该理解为“一个或多个”。

本发明一实施例提供一种基于视觉处理的多尺度类圆形结构分割的方法，如图1所示，包括：

步骤S100，获取视频帧。

步骤S200，对视频帧进行去噪处理获得中间图像。

步骤S300，检测中间图像中的类圆形结构区域图像。

步骤S400，将类圆形结构区域图像由笛卡尔坐标系转换为极坐标系获得输入数据。

步骤S500，基于U-net神经网络构建多尺度输入结构的初始模型。

步骤S600，根据损失函数对初始模型进行训练获得分割模型。

步骤S700，将输入数据输入所述分割模型获得所述类圆形结构区域的分割图像。

具体地，在本实施例中，通过视频播放器提取视频原帧或原图，用滤波器过滤图像高频噪声信号，从而提升视频帧中目标区域的对比度，获得高质量的中间图像，加持后续检测、分割网络目标学习的准确率。

通过检测网络检测中间图像中的类圆形结构目标区域，在本实施例中，检测网络优选基于yolo模型的目标检测网络，yolo目标检测网络输入整张图片，当检测到目标物体时用边界框圈起来，同时给予该目标物体一个类别；边界框由中心位置、宽、高等来表示的；它的输出是n个物体的检测信息，每个物体的信息包括：中心位置(x,y)、高(h)、宽(w)、类别。yolo检测网络直接将目标检测作为回归问题求解，具有检测速度快的优点，适用于实时监测的应用需求，在一应用于眼部手术实时视频的实施例中，可通过yolo检测网络快速检测去噪后图像中眼前节类圆形结构目标区域。

通过坐标系转换算法将类圆形结构区域由笛卡尔坐标系转换为极坐标系，使类圆形目标区域由径向结构关系转换成有序的层结构。

在本实施例中，U-net神经网络的底层信息能提供目标在图像中的语意信息，反应目标和环境之间的关系，有助于判断目标的类别，U-net神经网络的高层信息提供目标的高分辨率信息，为图像的高精度分割提供精细特征，U-net神经网络采用池化层在下采样过程中不断的降低分辨率以获得不同尺度的图像信息，图像的信息由底层信息中的点、线、梯度等信息逐渐向高层信息中的轮廓以及更抽象的信息过度，完成了“由细到粗”特征的提取与组合，获得的信息更加全面。以U-net神经网络作为网络骨架，采用平均池化层对图像进行下采样，引入多尺度输入结构构建初始模型，多尺度输入结构融合高级语意信息的同时提升初始模型的细粒度信息获取能力，保证分割精度进一步提高U-net神经网络的分割精度。

设计基于Dice系数的多标签损失函数，Dice系数是一种集合相似度度量函数，通常用于计算两个样本点的相似度（值范围为[0, 1]），用于分割问题，分割最好时相似度为1，分割最差时相似度为0，DiceLoss = 1 - Dice，Dice系数越大，DiceLoss越小，表明样本集合越相似。Dice Loss常用于语义分割问题中，包含表示真实分割图像的像素标签和表示模型预测分割图像的像素类别以及预测图像的像素与真实标签图像的像素之间的点乘，真实分割标签图像的像素只有0，1两个值，因此Dice损失函数可以有效地将在预测分割图像中未在真实分割标签图像中激活的所有像素值清零，对于激活的像素，主要是惩罚低置信度的预测，置信度高的预测会获得较高的Dice系数，从而获得较低的Dice Loss。

在本实施例中，在U-net神经网络作为骨架，通过引入多尺度输入结构构建初始模型，多尺度输入结构融合高级语意信息的同时提升初始模型的细粒度信息获取能力，保证分割精度，通过损失函数对初始模型进行训练实现初始模型对多类类圆形结构区域的联合分割，获得具有高精度分割能力的分割模型。通过对视频帧进行去噪处理提升图像对比度获得中间图像，再将中间图像由笛卡尔坐标系转换为极坐标系获得输入数据，避免因像素分布差异较大导致后续训练过程模型出现过拟合现象，将输入数据输入分割模型获得对类圆形结构区域的高精度分割图像，提高实际情景中对类圆形结构的分割精度。

优选地，对视频帧进行去噪处理获得中间图像包括：对视频帧进行基于傅里叶变换的去噪处理，将图像从空间域转换到频域，获得频谱图，对频谱图进行高斯滤波处理后求导，获得中间图像。

具体地，频域是指从函数的频率角度出发分析函数，从时间域分析信号时，时间是横坐标，振幅是纵坐标，而在频率域分析的时候则是频率是横坐标，振幅是纵坐标，因此通过傅里叶变换将图像从空间域转换到频域可以清晰地体现出高频噪声信号，对视频帧进行去噪，本实施例通过傅里叶变换滤波器对频谱图进行高斯滤波处理后再进行求导即可实现对视频帧高频噪声信号的过滤。

在本实施例中，通过基于傅里叶变换对视频帧进行滤波去噪获得中间图像，提升图像质量，加持后续检测、分割网络目标学习的准确率。

可选地，如图2所示，将所述类圆形结构区域图像由笛卡尔坐标系转换为极坐标系获得输入数据包括：

步骤S410，确立所述类圆形结构目标区域的中心点作为极坐标中心；

步骤S420，根据所述极坐标中心将所述类圆形结构目标区域由笛卡尔坐标系转换成极坐标系获得极坐标系图像；

步骤S430，将所述极坐标系图像进行多尺度输入处理获得输入数据。

具体地，以类圆形结构目标区域几何中心作为目标区域的中心点并根据中心点对中间图像进行裁剪，以中心点作为极坐标系中心，将视频帧由笛卡尔坐标系转换成极坐标系。

在本实施例中，通过确定类圆形结构目标区域的中心点并根据中心点作为中心对视频进行中心裁剪排除了图像中非类圆形结构的干扰，提高分割准确率。

在另一实施例中，因手术器械的作用导致人眼角膜缘形变，视频帧中的像素分布差异较大，以人眼中心点为中心，将中间图像由笛卡尔坐标系转换成极坐标系，使眼部类圆形目标区域的径向结构关系转换成有序的层结构，防止像素比较少区域导致在训练过程中出现分割模型过拟合现象，提升分割模型的分割精度。

优选地，将极坐标系图像进行多尺度输入处理获得输入数据包括：对极坐标系图像进行像素平衡处理；对进行像素平衡处理后的极坐标系图像进行多尺度缩放作为所述输入数据。

具体地，通过插值计算平衡极坐标系图像的像素比例；将像素平衡处理后的极坐标系图像依次2倍缩小至多个尺寸。

在本实施例中，通过插值计算平衡视频帧类圆形目标区域像素比例增加图像的分辨率，提高对图像测量的精度，将上述操作获取的图像进行多尺度缩放，为实现类圆形结构的精准分割提供输入准备。

优选地，基于U-net神经网络构建多尺度输入结构的初始模型包括：基于U-net神经网络的编码模块构建多尺度输入结构；在U-net神经网络的解码模块引入输出层，所述输出层用于作为分类器为所述解码模块生成局部输出映射。

具体地，以U-net神经网络模型作为网络骨架，采用平均池化层对图像进行下采样，分别引入多尺度输入层和多级输出层。

在本实施例中，通过平均池化层进行采样避免图片分辨率差异影响输出特征值，便于计算，通过引入多尺度输入层和多级输出层构建出初始模型。

优选地，基于U-net神经网络的编码模块构建多尺度输入结构包括：基于所述U-net神经网络的所述编码模块引入金字塔结构卷积神经网络，编码器路径中的四个所述编码模块分别构造一个多尺度输入分辨率或尺寸，用于使第二、三、四编码模块分别融合空间信息与语义信息，用于充分获取局部细粒度信息。

具体地，在U-net神经网络中，由于池化层映射到特征图的方式就是底层的坐标与步距之比，随着步距的增大，映射的尺寸就会越来越小，所以经过卷积、池化到最后一层时，其实际的语义信息已经不存在了。针对该问题，引入金字塔结构神经网络来解决多尺度检测的问题，从而提高检测的精度。金字塔结构卷积神经网络在网络前向卷积的过程中对每一分辨率的特征图引入后一分辨率缩放2倍的特征图做逐个元素自底向上相加的操作，将卷积神经网络中高分辨率低语义信息的底层特征图和低分辨率高语义信息的高层特征图进行融合，融合之后特征图既包含丰富的语义信息，也包含由于不断降采样而丢失的底层细节信息。

在本实施例中，通过在U-net神经网络引入金字塔结构神经网络解决U-net神经网络在卷积、池化过程中语义信息消失的问题，并通过在编码器路径中四个编码模块分别构造一个多尺度输入分辨率或尺寸，在兼顾高级语义信息的同时提升分割网络的细粒度信息获取能力，提高分割精度。

优选地，在U-net神经网络的解码模块引入输出层还包括：通过一个平均层将输出层生成的局部输出映射组合成预测映射，预测映射用于对所述初始模型的训练过程进行监督。

具体地，通过平均层对每一个通道图所有像素值求平均值，获得一个新的通道图，即预测映射。

在本实施例中，通过平均层将输出层的局部映射组合为预测映射，减少了网络参数，一方面抑制了训练过程中的过拟合现象，另一方面加强了类别与特征图的联系，可有效监督训练模型梯度消失，提升模型可解释性，同时省略了考虑输入图像尺寸的大小的步骤，在提高分割精度的同时减少计算量。

优选地，输出层包括：每个输出层包括多个二进制标签，每个二进制标签对应一种类圆形结构的类别，用于避免多个类圆形结构区域的像素重叠，损失函数为多标签损失函数，包括：，

具体地，为每个类别设计学习一个独立的分类器，并给每个实例都分配多个二进制标签，通过损失函数衡量输出和真实标签值的差距，通过优化损失函数来找到使损失函数有最小损失值的参数，完成模型的训练过程。

在本实施例中，根据多标签损失函数对分割模型进行训练实现该模型同时分割多种类圆形结构，解决多个类圆形结构区域像素重叠问题，提高分割的精度。

在一实施例中，针对手术视频录像中难以避免的眼部结构形态模糊、边缘不清、感兴趣区域对比度差以及组织被遮挡等问题，可以被本发明的类圆形结构分割方法进行快速响应分析手术视频，保证识别视频中的类圆形结构，用于评价白内障超声乳化手术视频通过傅里叶变化，将视频帧进行去噪处理，将图像从空间域转换为频域，对频谱图进行高斯滤波后求导，过滤图像高频噪声信号，提升视频帧中目标区域的对比度。在视频中，因手术器械的作用，导致角膜缘形变，像素分布差异较大，为了避免像素比较少的区域导致训练过程模型过拟合，提升模型分割精度，通过YOLO检测网络检测去噪后的视频帧中的眼部类圆形结构目标区域，确立目标区域的中心点位置，然后以目标区域中心点为中心，将视频帧的坐标系转换为极坐标系。将眼部类圆形目标区域的径向结构关系转换成有序的层结构，通过插值计算平衡类圆形目标区域的像素比例，将眼前节图像依次2倍缩小至多个尺寸，作为分割模型的输入图像。

通过U-net编码模块进行多尺度输入，构建金字塔输入结构，保证获取丰富的空间细粒度信息，然后在U-net解码器不同模块分别设置输出层，用于深层监督，然后通过多标签损失函数保证图像中多类的类圆形结构的联合分割。在兼顾高级语义信息的同时提升分割网络的细粒度信息获取能力，进而提升分割模型的准确率。

本发明另一实施例还提供一种基于视觉处理的类圆形结构分割装置，所述类圆形结构分割装置存储有计算机程序，计算机程序被处理器读取并运行时，实现如上基于视觉处理的多尺度类圆形结构分割的方法。

所述基于视觉处理的类圆形结构分割装置包括：

获取模块，其用于获取视频帧；

去噪模块，其用于对所述视频帧进行去噪处理获得中间图像；

检测模块，其用于检测所述中间图像中的类圆形结构区域图像；

转换模块，其用于将所述类圆形结构区域图像由笛卡尔坐标系转换为极坐标系获得输入数据；

构建模块，其用于基于U-net神经网络构建多尺度输入结构的初始模型；

训练模块，其用于根据损失函数对所述初始模型进行训练获得分割模型；

输出模块，其用于将所述输入数据输入所述分割模型获得所述类圆形结构区域的分割图像。

现将描述可以作为本发明的服务器或客户端的电子设备，其是可以应用于本发明的各方面的硬件设备的示例。电子设备旨在表示各种形式的数字电子的计算机设备，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本发明的实现。

电子设备包括计算单元，其可以根据存储在只读存储器（ROM）中的计算机程序或者从存储单元加载到随机访问存储器（RAM）中的计算机程序，来执行各种适当的动作和处理。在RAM中，还可存储设备操作所需的各种程序和数据。计算单元、ROM以及RAM通过总线彼此相连。输入/输出（I/O）接口也连接至总线。

计算机***可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。

虽然本公开披露如上，但本公开的保护范围并非仅限于此。本领域技术人员在不脱离本公开的精神和范围的前提下，可进行各种变更与修改，这些变更与修改均将落入本发明的保护范围。

Claims

1.一种基于视觉处理的类圆形结构分割方法，其特征在于，包括如下步骤：

获取视频帧；

对所述视频帧进行去噪处理获得中间图像；

检测所述中间图像中的类圆形结构区域图像；

基于U-net神经网络构建多尺度输入结构的初始模型；

根据损失函数对所述初始模型进行训练获得分割模型；

2.根据权利要求1所述的基于视觉处理的类圆形结构分割方法，其特征在于，所述对所述视频帧进行去噪处理获得中间图像包括：

对所述视频帧进行基于傅里叶变换的去噪处理，将图像从空间域转换到频域，获得频谱图，对所述频谱图进行高斯滤波处理后求导，获得所述中间图像。

3.根据权利要求1所述的基于视觉处理的类圆形结构分割方法，其特征在于，所述将所述类圆形结构区域图像由笛卡尔坐标系转换为极坐标系获得输入数据包括：

确立所述类圆形结构目标区域的中心点作为极坐标中心；

将所述极坐标系图像进行多尺度输入处理获得所述输入数据。

4.根据权利要求3所述的基于视觉处理的类圆形结构分割方法，其特征在于，将所述极坐标系图像进行多尺度输入处理获得所述输入数据包括：

对所述极坐标系图像进行像素平衡处理；

对进行像素平衡处理后的所述极坐标系图像进行多尺度缩放作为所述输入数据。

5.根据权利要求1所述的基于视觉处理的类圆形结构分割方法，其特征在于，所述基于U-net神经网络构建多尺度输入结构的初始模型包括：

基于所述U-net神经网络的编码模块构建多尺度输入结构；

6.根据权利要求5所述的基于视觉处理的类圆形结构分割方法，其特征在于，所述基于所述U-net神经网络的编码模块构建多尺度输入结构包括：

7.根据权利要求6所述的基于视觉处理的类圆形结构分割方法，其特征在于，所述在所述U-net神经网络的解码模块引入输出层包括：

8.根据权利要求7所述的基于视觉处理的类圆形结构分割方法，其特征在于，每个所述输出层包括多个二进制标签，每个所述二进制标签对应一种类圆形结构的类别，用于避免多个类圆形结构区域的像素重叠。

9.根据权利要求1所述的基于视觉处理的类圆形结构分割方法，其特征在于，所述损失函数为多标签损失函数，包括：，

10.一种基于视觉处理的类圆形结构分割装置，其特征在于，所述类圆形结构分割装置上存储有计算机程序，当所述计算机程序被处理器执行时，实现如权利要求1-9任一项所述的基于视觉处理的多尺度类圆形结构分割方法。