CN113822287B

CN113822287B - 一种图像处理方法、***、设备以及介质

Info

Publication number: CN113822287B
Application number: CN202111383898.1A
Authority: CN
Inventors: 李峰; 周镇镇; 张潇澜
Original assignee: Suzhou Inspur Intelligent Technology Co Ltd
Current assignee: Suzhou Inspur Intelligent Technology Co Ltd
Priority date: 2021-11-19
Filing date: 2021-11-19
Publication date: 2022-02-22
Anticipated expiration: 2041-11-19
Also published as: WO2023087597A1; CN113822287A

Abstract

本发明公开了一种图像处理方法，包括以下步骤：对初始数据集中的图像进行预处理以得到训练数据集；利用训练数据集对图像分割神经网络进行训练；将训练后的图像分割神经网络的最后一层损失函数层去除后得到推理网络；将训练数据集输入到推理网络中以得到多个逻辑向量；根据多个逻辑向量、初始数据集以及初始数据集中的每一个图像的掩膜对校验网络进行训练；利用推理网络和训练好的校验网络对待处理图像进行推理以得到待处理图像的掩膜。本发明还公开了一种***、计算机设备以及可读存储介质。本发明针对高分辨率图像在大规模图像分割网络训练时内存溢出的情况提出了一种解决方案，保障图像分割精度的同时，降低网络训练所需显存。

Description

一种图像处理方法、***、设备以及介质

技术领域

本发明涉及图像处理领域，具体涉及一种图像处理方法、***、设备以及存储介质。

背景技术

目前人工智能技术正在如火如荼的发展中，被广泛应用于智能交通、智慧医疗、自动驾驶、看图识物、推荐***、语音识别、机器翻译等多种技术领域中，带来了新一轮的社会变革。人工智能技术的最新研究方向正是深度学习技术，深度学习是学习数据的内在规律和表示层次的一种复杂的机器学习算法，能够深度剖析图像数据、文本数据、语音信号的隐含信息，这也意味着其对计算量更高，因而在处理超大规模数据时的计算量过于庞大、计算时间冗长，例如需要超高分辨率图像的医疗数据、卫星遥感数据、3D云图、城市道路图等等，直接应用于深度学习算法必然面对着显存飙升甚至溢出的结局。为了解决这个困局，以往的深度学习技术往往对图像进行压缩后，再使用深度学习算法进行后续训练与推理过程，这就导致了神经网络对密集图像在分割任务上的识别不准，不同类别边缘部分界定困难。

针对计算机视觉领域的不同任务，从首次提出对多尺度特征信息进行融合的FPN(feature pyramid networks，特征金字塔网络)开始，到后来的ASPP（ atrous spatialpyramid pooling，空洞空间卷积池化金字塔) 对所给定的输入以不同采样率的空洞卷积并行采样，对物体进行多层特征信息的融合就成为一种主流的解决办法，这种方案可以有效的提升目标检测和实例分割的评价指标。

另外一种解决思路是，通过数据增强方法，复制小目标或类别较少的目标，加之旋转、缩放等技术，对非均衡目标的数量和种类进行暴力提升。

但是，现有的基于算法优化的提升小目标识别，但它对计算量的要求也很高，以往的实践证明，这一步骤往往会成为整个算法的计算瓶颈。而采用数据增强方法的前提是数据的大小和网络的大小能够与训练平台的计算能力相匹配，当遇到超大规模数据就无法使用，甚至造成更大的计算压力。

发明内容

有鉴于此，为了克服上述问题的至少一个方面，本发明实施例提出一种图像处理方法，包括以下步骤：

对初始数据集中的图像进行预处理以得到训练数据集；

利用所述训练数据集对图像分割神经网络进行训练；

将训练后的图像分割神经网络的最后一层损失函数层去除后得到推理网络；

将所述训练数据集输入到所述推理网络中以得到多个逻辑向量；

根据所述多个逻辑向量、所述初始数据集以及所述初始数据集中的每一个图像的掩膜对校验网络进行训练；

利用所述推理网络和训练好的校验网络对待处理图像进行推理以得到待处理图像的掩膜。

在一些实施例中，对初始数据集中的图像进行预处理以得到训练数据集，进一步包括：

将初始数据集中的每一个图像进行切分以得到每一个图像对应的多个子图像，并利用切分后的每一个图像的多个子图像构建第一数据集，其中所述第一数据集中的一个元素为所述初始数据集中一个图像的多个子图像；

将初始数据集中的每一个图像进行缩小以得到缩小后的图像，并利用缩小后的图像构建第二数据集，其中所述缩小后的图像的尺寸与所述子图像的尺寸相同；

将所述第一数据集中每一个元素与所述第二数据集中的对应的元素组合得到训练数据集中的每一个元素。

在一些实施例中，还包括：

将初始数据集中的每一个图像的标签切分以得到每一个图像的标签对应的多个子标签，其中每一个子标签均与相应的子图像对应；

将初始数据集中的每一个图像的标签进行缩小以得到缩小后的标签。

在一些实施例中，将初始数据集中的每一个图像进行切分以得到每一个图像对应的多个子图像，进一步包括：

获取设置的切分尺度并判断切分尺度是否可整除；

响应于不可整除，将切分尺度向上取模并将图像的边缘处进行补齐；

响应于可整除，利用切分尺度对图像进行均等切分。

在一些实施例中，根据所述逻辑向量、所述初始数据集以及所述初始数据集中的每一个图像的掩膜对校验网络进行训练，进一步包括：

构建多层感知机；

利用所述逻辑向量、所述初始数据集以及所述初始数据集中的每一个图像的掩膜对所述多层感知机进行训练；

响应于所述多层感知机在预设数量的训练迭代后损失值不降低，确定对所述多层感知机训练至收敛。

在一些实施例中，还包括：

利用损失函数Loss=

对所述多层感知机进行训练；

其中，N为分类类别数量，i为其中第i个类别，取值范围1，2，…，N；M为样本总数，c为其中第c个样本，取值范围1，2，…，M；y _ic是第c个样本实际为第i个类别的真实概率，其中如果第c个样本实际类别为i，则概率为1，否则为0；P _ic是第c个样本被预测为第i个类别的概率。

在一些实施例中，利用所述推理网络和训练好的校验网络对待处理图像进行推理以得到待处理图像的掩膜，进一步包括：

对所述待处理图像进行所述预处理；

将预处理后的待处理图像输入到所述推理网络中以得到预处理后的待处理图像对应的逻辑向量；

将预处理后的待处理图像对应的逻辑向量输入到训练好的校验网络进行推理以得到待处理图像的掩膜。

基于同一发明构思，根据本发明的另一个方面，本发明的实施例还提供了一种图像处理***，包括：

预处理模块，配置为对初始数据集中的图像进行预处理以得到训练数据集；

第一训练模块，配置为利用所述训练数据集对图像分割神经网络进行训练；

分割模块，配置为将训练后的图像分割神经网络的最后一层损失函数层去除后得到推理网络；

输入模块，配置为将所述训练数据集输入到所述推理网络中以得到多个逻辑向量；

第二训练模块，配置为根据所述多个逻辑向量、所述初始数据集以及所述初始数据集中的每一个图像的掩膜对校验网络进行训练；

推理模块，配置为利用所述推理网络和训练好的校验网络对待处理图像进行推理以得到待处理图像的掩膜。

基于同一发明构思，根据本发明的另一个方面，本发明的实施例还提供了一种计算机设备，包括：

至少一个处理器；以及

存储器，所述存储器存储有可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时执行如上所述的任一种图像处理方法的步骤。

基于同一发明构思，根据本发明的另一个方面，本发明的实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时执行如上所述的任一种图像处理方法的步骤。

本发明具有以下有益技术效果之一：本发明针对高分辨率图像在大规模图像分割网络训练时内存溢出的情况提出了一种解决方案，在计算力受限情况下，保障图像分割精度的同时，降低网络训练所需显存。此外，后校正不依赖于分割网络的权重和参数，可以直接对预训练好的任意校验网络进行后校正，实现任意校验网络对高分辨率图像的处理，而不需要对校验网络进行重训练，大幅降低了开发成本，提升了不同校验网络对高分辨率图像的适应性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的实施例。

图1为本发明的实施例提供的图像处理方法的流程示意图；

图2为本发明的实施例提供的基于神经网络架构搜索的图像分割神经网络的结构示意图；

图3为本发明的实施例提供的多层感知机的结构示意图；

图4为本发明的实施例提供的图像处理***的结构示意图；

图5为本发明的实施例提供的计算机设备的结构示意图；

图6为本发明的实施例提供的计算机可读存储介质的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明实施例进一步详细说明。

需要说明的是，本发明实施例中所有使用“第一”和“第二”的表述均是为了区分两个相同名称非相同的实体或者非相同的参量，可见“第一”“第二”仅为了表述的方便，不应理解为对本发明实施例的限定，后续实施例对此不再一一说明。

根据本发明的一个方面，本发明的实施例提出一种图像处理方法，如图1所示，其可以包括步骤：

S1，对初始数据集中的图像进行预处理以得到训练数据集；

S2，利用所述训练数据集对图像分割神经网络进行训练；

S3，将训练后的图像分割神经网络的最后一层损失函数层去除后得到推理网络；

S4，将所述训练数据集输入到所述推理网络中以得到多个逻辑向量；

S5，根据所述多个逻辑向量、所述初始数据集以及所述初始数据集中的每一个图像的掩膜对校验网络进行训练；

S6，利用所述推理网络和训练好的校验网络对待处理图像进行推理以得到待处理图像的掩膜。

本发明针对高分辨率图像在大规模图像分割网络训练时内存溢出的情况提出了一种解决方案，在计算力受限情况下，保障图像分割精度的同时，降低网络训练所需显存。此外，后校正不依赖于分割网络的权重和参数，可以直接对预训练好的任意校验网络进行后校正，实现任意校验网络对高分辨率图像的处理，而不需要对校验网络进行重训练，大幅降低了开发成本，提升了不同校验网络对高分辨率图像的适应性。

在一些实施例中，S1，对初始数据集中的图像进行预处理以得到训练数据集，进一步包括：

在一些实施例中，还包括：

获取设置的切分尺度并判断切分尺度是否可整除；

响应于可整除，利用切分尺度对图像进行均等切分。

具体的，对初始数据集Dataset0中的任意一张M*N个像素点的高分辨率图像I₀，首先将图像I₀进行切分，具体的切分比例可根据图像分割网络的规模不同有所区别，例如可以使用1：2的比例进行均等切分，即对长宽方向都在中间处截断，1张高分辨率图像就切分成2*2=4张M/2*N/2的低分辨率图像（I₁，I₂，I₃，I₄），该图像对应的标签图像做同样的处理，保障标签文件（M₁，M₂，M₃，M₄）与图像数据一一对应，对所有图像进行切分后的该数据集称为第一数据集（Dataset1）；接着将图像I₀进行缩小，缩小后的尺寸与切分图像的尺寸保持一致，该图像记做I₅，同样的方法获得标签文件M₅，对所有图像进行缩小后的该数据集称为第二数据集（Dataset2）；混合第一数据集和第二数据集作为训练数据集，即训练数据集中的每一个元素为第一数据集的元素和第二数据集的元素，例如对于图像I₀，训练数据集中对应的元素为（I₁，I₂，I₃，I₄，I₅），对应的标签为（M₁，M₂，M₃，M₄，M₅）。

在一些实施例中，步骤S2中，利用所述训练数据集对图像分割神经网络进行训练，具体的，图像分割神经网络训练过程，使用预处理后的数据集进行正常训练流程，在满足一定精度要求或者训练次数时，训练停止，获取训练完毕的超网络权重。

在一些实施例中，图像分割神经网络可使用多种神经网络结构，例如Mask RCNN、DeepLab系列算法等手工设计的神经网络，也可使用神经网络架构搜索方法得到神经网络。

在一些实施例中，一种基于神经网络架构搜索的图像分割神经网络的结构可以如图2所示。其中，可以定义神经网络架构搜索的超网络含有L=12个cell，每个cell为含有B个block的有向无环图，每个block含有两个分支结构，从2个输入向量映射到1个输出向量。第l层cell的第i个block可以被定义为(Input1，Input2，O₁，O₂，C)。其中Input1，Input2∈I _i ^l，为该block选中的输入向量；O₁，O₂∈Ο为该block选中的对输入向量进行运算的层的类型；C∈C，为组合两个独立分支的输出来构建该block的输出向量H _i ^l所需的操作。当前cell的输出H ^l为各个block的输出向量{H ₁ ^l ，…，H _B ^l}拼接而成。输入向量的集合I _i ^l包含前一层cell的输出H ^l-1，前两次的输出H ^l-2，以及同一个cell中前面的block的输出{H ₁ ^l ，…，H _i ^l}。

其中，每个cell所使用的搜索空间Ο包含以下八种操作：3*3的深度分离卷积；5*5的深度分离卷积；3*3的孔洞卷积rate=2；5*5的孔洞卷积rate=2；3*3的平均池化；3*3的最大池化；跳跃连接；零操作。C使用简单的像素点相加方法。

图2所示的神经网络架构搜索方法得到的神经网络，其由2层固定的特征提取层及后续12层cell组成。两层固定layer每个将空间分辨率降低2（也就是下采样2倍），其后的L层cell具有未知的空间分辨率，最高的为下采样4倍，最低的为下采样32倍。因为每一层的空间分辨率差异多大为2倍，所以第1个cell可对原输入图像进行4倍和8倍降采样，第2个cell可对原输入图像进行4、8、16倍降采样，第3-12个cell可对原输入图像进行4、8、16、32倍降采样，图2为神经网络结构搜索超网络在网络架构级别的搜索空间。

在第L层cell后对每一空间分辨率特征添加Atrous Spatial Pyramid Pooling(ASPP)模块，对其输出采用双线性插值的方法进行上采样，恢复到输入图像的分辨率，再对结果相加获取预测结果。

本发明中的其他实施例中，上采样方法也可选取双线性二次插值、三次曲线插值、最小曲率插值、径向基函数法等。

在一些实施例中，步骤S3中，将训练后的图像分割神经网络的最后一层损失函数层去除后得到推理网络，具体的，图像分割神经网络需要去掉分割网络的分类器部分的最后一层损失函数层，网络输出从分割的不同类别值的像素点变更为该像素点取不同类别的logit值（逻辑值）。例如，特征提取网络即图1的架构搜索部分，在其他实施例中，也可以采用其他分割网络架构。前向推理网络使用S2中训练好的权重，并弹出最后一层的权重，在Concat层后输出向量T。

在一些实施例中，步骤S4中，将所述训练数据集输入到所述推理网络中以得到多个逻辑向量，具体的，可以将使用 Dataset1和 Dataset2作为输入数据，在图像分割网络中进行前向推理，输入图像< I₁，I₂，I₃，I₄，I₅>输出向量T为< T₁，T₂，T₃，T₄，T₅>。

构建多层感知机；

具体的，使用前向推理向量作为输入数据，Dataset0的mask（掩膜）作为标签，对于Dataset0中的一张图像I₀，其mask为M₀，在< T₁，T₂，T₃，T₄，T₅>和I₀之间存在一定的映射关系f，使得：

M₀=f( T₁，T₂，T₃，T₄，T₅)

这样，利用逻辑向量、所述初始数据集以及所述初始数据集中的每一个图像的掩膜对校验网络进行训练后即可得到映射关系f，从而对待处理图像进行推理。

在一些实施例中，构建的多层感知机的结构可以如图3所示，多层感知机（MLP，Multilayer Perceptron）是一种前馈人工神经网络模型，其将输入的多个数据集映射到单一的输出的数据集上。作为后校验网络，不断训练直至网络收敛，评价收敛的条件可为在5个训练迭代后loss不下降。

在一些实施例中，还包括：

利用损失函数Loss=

对所述多层感知机进行训练；

对所述待处理图像进行所述预处理；

具体的，在利用所述推理网络和训练好的校验网络对待处理图像进行推理时，可以首先将高分辨率图像进行预处理过程（同S1）得到Dataset1和 Dataset2，接着使用Dataset1和 Dataset2作为输入数据，在前向推理网络获取输出向量T。最后使用训练好的多层感知机，输入向量T，获取图像分割最终的预测mask。

基于同一发明构思，根据本发明的另一个方面，本发明的实施例还提供了一种图像处理***400，如图4所示，包括：

预处理模块401，配置为对初始数据集中的图像进行预处理以得到训练数据集；

第一训练模块402，配置为利用所述训练数据集对图像分割神经网络进行训练；

分割模块403，配置为将训练后的图像分割神经网络的最后一层损失函数层去除后得到推理网络；

输入模块404，配置为将所述训练数据集输入到所述推理网络中以得到多个逻辑向量；

第二训练模块405，配置为根据所述多个逻辑向量、所述初始数据集以及所述初始数据集中的每一个图像的掩膜对校验网络进行训练；

推理模块406，配置为利用所述推理网络和训练好的校验网络对待处理图像进行推理以得到待处理图像的掩膜。

在一些实施例中，还包括：

获取设置的切分尺度并判断切分尺度是否可整除；

响应于可整除，利用切分尺度对图像进行均等切分。

构建多层感知机；

在一些实施例中，还包括：

利用损失函数Loss=

对所述多层感知机进行训练；

对所述待处理图像进行所述预处理；

基于同一发明构思，根据本发明的另一个方面，如图5所示，本发明的实施例还提供了一种计算机设备501，包括：

至少一个处理器520；以及

存储器510，存储器510存储有可在处理器上运行的计算机程序511，处理器520执行程序时执行如上的任一种图像处理方法的步骤。

基于同一发明构思，根据本发明的另一个方面，如图6所示，本发明的实施例还提供了一种计算机可读存储介质601，计算机可读存储介质601存储有计算机程序指令610，计算机程序指令610被处理器执行时执行如上的任一种图像处理方法的步骤。

最后需要说明的是，本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，可以通过计算机程序来指令相关硬件来完成，程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。

此外，应该明白的是，本文的计算机可读存储介质（例如，存储器）可以是易失性存储器或非易失性存储器，或者可以包括易失性存储器和非易失性存储器两者。

本领域技术人员还将明白的是，结合这里的公开所描述的各种示例性逻辑块、模块、电路和算法步骤可以被实现为电子硬件、计算机软件或两者的组合。为了清楚地说明硬件和软件的这种可互换性，已经就各种示意性组件、方块、模块、电路和步骤的功能对其进行了一般性的描述。这种功能是被实现为软件还是被实现为硬件取决于具体应用以及施加给整个***的设计约束。本领域技术人员可以针对每种具体应用以各种方式来实现的功能，但是这种实现决定不应被解释为导致脱离本发明实施例公开的范围。

以上是本发明公开的示例性实施例，但是应当注意，在不背离权利要求限定的本发明实施例公开的范围的前提下，可以进行多种改变和修改。根据这里描述的公开实施例的方法权利要求的功能、步骤和/或动作不需以任何特定顺序执行。此外，尽管本发明实施例公开的元素可以以个体形式描述或要求，但除非明确限制为单数，也可以理解为多个。

应当理解的是，在本文中使用的，除非上下文清楚地支持例外情况，单数形式“一个”旨在也包括复数形式。还应当理解的是，在本文中使用的“和/或”是指包括一个或者一个以上相关联地列出的项目的任意和所有可能组合。

上述本发明实施例公开实施例序号仅仅为了描述，不代表实施例的优劣。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

所属领域的普通技术人员应当理解：以上任何实施例的讨论仅为示例性的，并非旨在暗示本发明实施例公开的范围（包括权利要求）被限于这些例子；在本发明实施例的思路下，以上实施例或者不同实施例中的技术特征之间也可以进行组合，并存在如上的本发明实施例的不同方面的许多其它变化，为了简明它们没有在细节中提供。因此，凡在本发明实施例的精神和原则之内，所做的任何省略、修改、等同替换、改进等，均应包含在本发明实施例的保护范围之内。

Claims

1.一种图像处理方法，其特征在于，包括以下步骤：

对初始数据集中的图像进行预处理以得到训练数据集；

利用所述训练数据集对图像分割神经网络进行训练；

利用所述推理网络和训练好的校验网络对待处理图像进行推理以得到待处理图像的掩膜；

其中，对初始数据集中的图像进行预处理以得到训练数据集，进一步包括：

将所述第一数据集中每一个元素与所述第二数据集中的对应的元素组合得到训练数据集中的每一个元素；

2.如权利要求1所述的方法，其特征在于，将初始数据集中的每一个图像进行切分以得到每一个图像对应的多个子图像，进一步包括：

获取设置的切分尺度并判断切分尺度是否可整除；

响应于可整除，利用切分尺度对图像进行均等切分。

3.如权利要求1所述的方法，其特征在于，根据所述逻辑向量、所述初始数据集以及所述初始数据集中的每一个图像的掩膜对校验网络进行训练，进一步包括：

构建多层感知机；

4.如权利要求3所述的方法，其特征在于，还包括：

利用损失函数Loss=

对所述多层感知机进行训练；

5.如权利要求1所述的方法，其特征在于，利用所述推理网络和训练好的校验网络对待处理图像进行推理以得到待处理图像的掩膜，进一步包括：

对所述待处理图像进行所述预处理；

6.一种图像处理***，其特征在于，包括：

推理模块，配置为利用所述推理网络和训练好的校验网络对待处理图像进行推理以得到待处理图像的掩膜；

7.一种计算机设备，包括：

至少一个处理器；以及

存储器，所述存储器存储有可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时执行如权利要求1-5任意一项所述的方法的步骤。

8.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时执行如权利要求1-5任意一项所述的方法的步骤。