CN116703768A

CN116703768A - 盲点去噪网络模型的训练方法、装置、介质和设备

Info

Publication number: CN116703768A
Application number: CN202310666771.3A
Authority: CN
Inventors: 张旦
Original assignee: Shanghai Qigan Electronic Information Technology Co ltd
Current assignee: Shanghai Qigan Electronic Information Technology Co ltd
Priority date: 2023-06-06
Filing date: 2023-06-06
Publication date: 2023-09-05

Abstract

本发明公开一种盲点去噪网络模型的训练方法、装置、介质和设备，用以提供一种自监督深度学习的盲点去噪网络模型，以有效地去除图像中面积较大的噪声，包括：优化特征融合网络模型，优化后的特征融合网络模型包括至少两个特征提取通道，不同特征提取通道中卷积层的掩码类型不同或掩码大小不同，且不同特征提取通道的提取结果经融合层完成特征融合；将公共数据集中的含噪声图像作为训练数据集；将所述训练数据集输入至优化后的特征融合网络模型进行自监督模型训练，直至达到设定迭代次数或者损失函数的损失值小于设定阈值，输出盲点去噪网络模型。

Description

盲点去噪网络模型的训练方法、装置、介质和设备

技术领域

本发明涉及图像处理技术领域，尤其涉及一种盲点去噪网络模型的训练方法、装置、介质和设备。

背景技术

目前，图像去噪是图像处理中不可避免的一个重要步骤，其去噪效果对后续的图像处理的流程有着巨大的影响。传统的图像去噪算法速度慢且鲁棒性差。随着深度学习的发展，深度学习图像去噪算法也取得了巨大的进步。有监督图像去噪需要噪声-干净图像对，在实际应用中，此噪声-干净图像对的收集是非常困难的，因此，许多不需要干净图片的自监督训练方法应运而生，例如盲点网络(Blind Spot Network，BSN)去噪方法，然而因为BSN去噪成立的必要条件是假设噪声在空间独立的，但是真实的噪声往往是空间连续的。因此，为了打破噪声的空间联系，还会在训练之前对图片进行像素点采样，来打破噪声的空间联系，并利用BSN在训练过程中对卷积核进行中心掩码(center mask)来达到盲点的效果。在真实噪声图片上去噪中，盲点去噪效果的提升，其关键在于打破噪声空间联系并生成盲点的同时，尽可能的保留图片原有像素的细节信息。现有的盲点去噪模型，不论是在输入图像上掩码(mask)还是在网络中掩码，都是点状的。而盲点去噪方法是利用被盲点的像素与周围的像素的空间联系恢复被盲点的方法。因此，此方法能够去噪的前提是此点与周围的点是空间联系的，且周围的点为图片本身的像素而不是噪声。当噪声在图片中所占面积较大时，在提取特征的过程中，如果只遮住当前的一个像素点，然后利用周围信息对其恢复，恢复出的像素点很可能依然是噪声点，所以难以去除图像中面积较大的噪声。

为此，亟需提供一种图像去噪网络模型的训练方案，来有效地去除图像中面积较大的噪声。

发明内容

本发明实施例提供一种盲点去噪网络模型的训练方法、装置、介质和设备，用以有效地去除图像中面积较大的噪声。

第一方面，本发明提供一种盲点去噪网络模型的训练方法，该训练方法可以包括如下步骤：优化特征融合网络模型，优化后的特征融合网络模型包括至少两个特征提取通道，不同特征提取通道中卷积层的掩码类型不同或掩码大小不同，且不同特征提取通道的提取结果经融合层完成特征融合；将公共数据集中的含噪声图像作为训练数据集；将所述训练数据集输入至优化后的特征融合网络模型进行自监督模型训练，直至达到设定迭代次数或者损失函数的损失值小于设定阈值，输出盲点去噪网络模型。

本发明提供一种盲点去噪网络模型的训练方法的有益效果在于：可以不需要预先采集噪声-干净图像对，使用带噪图像就能实现图像去噪网络模型的训练，通过优化特征融合网络模型，设计了包括多种掩码形状的卷积核来提取特征，使得优化后的特征融合网络模型结合提取全局特征和局部特征，能有效去除图像中难以去除的面积较大的噪声。

在一种可能的实施方式中，将所述训练数据集输入至优化后的特征融合网络模型进行自监督模型训练，包括：对含噪声图像进行特征预提取后，再经过每个特征提取通道分别进行特征提取；将不同特征提取通道的提取结果输入包括DCL的CDCL进行卷积，之后再先将掩码大小相同的特征提取通道的提取结果进行连接融合，将掩码类型不同的卷积核提取的特征进行融合，经过多个DCL后，将所有的通道的输出连接在一起，完成不同大小掩码的卷积核提取的特征融合；最后经过多个卷积的通道变换和特征融合，得到最终输出。该实现方法可以实现在自监督图像去噪过程中，利用多种掩码结合的方法，来去除图像中难以去除的面积较大的噪声。

在另一种可能的实施方式中，所述掩码类型为十字形、回字形、行、列、斜线、反斜线中的至少一种或多种。

在另一种可能的实施方式中，所述损失函数满足：Loss＝‖I_out-I_N‖₁

其中，Loss为L1损失函数，I_out为盲点去噪网络模型的输出结果，I_N为含噪声图像。

在其它可能的实施方式中，将掩码图像训练集输入优化后的特征融合网络模型进行自监督模型训练，包括：将含噪声图像随机裁剪成多个子图像，经过随机旋转，以及水平或垂直的翻转后输入优化后的特征融合网络模型进行自监督模型训练。

第二方面，本发明实施例还提供一种盲点去噪网络模型的训练装置，该训练装置包括执行上述第一方面的任意一种可能的实施方式的方法的模块/单元。这些模块/单元可以通过硬件实现，也可以通过硬件执行相应的软件实现。这些模块/单元可以通过硬件实现，也可以通过硬件执行相应的软件实现。

第三方面，本发明实施例中还提供一种计算机可读存储介质，所述可读存储介质包括程序，当程序在电子设备上运行时，使得所述电子设备执行上述第一方面的任意一种可能的实施方式的方法。

第四方面，本发明实施例还提供一种包含程序产品，当所述程序产品在电子设备上运行时，使得所述电子设备执行上述第一方面的任意一种可能的实施方式的方法。

关于上述第二方面至第六方面的有益效果可以参见上述第一方面中的描述。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简要介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种应用场景示意图；

图2为本发明实施例提供的一种盲点去噪网络模型的训练方法流程示意图；

图3为本发明实施例提供的一种盲点去噪网络模型的架构示意图；

图4为本发明实施例提供的一种盲点去噪网络模型中的CDCL和DCL的示意图；

图5为本发明实施例提供的多种mask形状示意图；

图6为本发明实施例提供的一种盲点去噪网络模型的训练装置示意图；

图7为本发明实施例提供的一种电子设备的结构示意图。

具体实施方式

图像去噪旨在从噪声观测中恢复干净的信号，它是图像处理和低级计算机视觉中的重要任务之一。最近，随着神经网络的快速发展，基于学习的有监督去噪模型已经取得了令人满意的性能。然而，基于学习的有监督去噪模型在很大程度上依赖于噪声-干净图像对。在实际应用中，收集这样的图像对是复杂且昂贵的，甚至在动态场景和医学成像等任务中，由于现实条件的限制，符合要求的图像对根本无法获得，这就导致有监督的图像去噪方法难以适应某些去噪场景，或是难以达到理想的去噪效果。为此，现有还提供了一种自监督图像去噪方法，相比于有监督的图像去噪方法，自监督图像去噪方法因其无需噪声-干净图像对作参考而更具有实践价值。目前绝大部分的自监督方法使用带噪图像就能实现去噪模型的训练。然而，现有的自监督去噪方法，当噪声在图片中所占面积较大时，在提取特征的过程中，如果只遮住当前的一个像素点，然后利用周围信息对其恢复，恢复出的像素点很可能依然是噪声点，所以难以去除图像中面积较大的噪声，降噪效果存在不足。

为了改善现有的图像去噪网络模型降噪效果的不足，本发明提供一种盲点去噪网络模型的训练方法，该方法可以不需要预先采集噪声-干净图像对，使用带噪图像就能实现图像去噪网络模型的训练，通过优化特征融合网络模型，设计了包括多种掩码形状的卷积核来提取特征，使得优化后的特征融合网络模型结合提取全局特征和局部特征，能有效去除图像中难以去除的面积较大的噪声。

以下对本发明实施例中的部分用语进行解释说明，以便于本领域技术人员理解。

1、卷积神经网络是一类包含卷积计算且具有深度结构的前馈神经网络(feedforward neural networks)，是深度学***移不变分类。卷积神经网络是神经网络的一种，受到生物神经科学研究启发而来，卷积神经网络提出之初用于处理具有类网络结构的数据，如可把图像视作由像素点组成的二维网络。卷积神经网络的一般性的网络结构中含有数据输入层、卷积层、数据激励层、池化层、全连接和数据输出层。

本发明实施例涉及人工智能(artificial intelligence，AI)和机器学习技术，基于人工智能中的深度学习网络和机器学习(machine learning，ML)而设计。

随着人工智能技术研究和进步，人工智能在多个领域展开研究和应用，例如常见的智能家居、智能客服、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、机器人、智能医疗等，相信随着技术的发展，人工智能将在更多的领域得到应用，并发挥越来越重要的价值。

2、机器学习是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习等技术。

在本发明实施例的描述中，以下实施例中所使用的术语只是为了描述特定实施例的目的，而并非旨在作为对本发明的限制。如在本发明的说明书和所附权利要求书中所使用的那样，单数表达形式“一种”、“所述”、“上述”、“该”和“这一”旨在也包括例如“一个或多个”这种表达形式，除非其上下文中明确地有相反指示。还应当理解，在本发明以下各实施例中，“至少一个”、“一个或多个”是指一个或两个以上(包含两个)。术语“和/或”，用于描述关联对象的关联关系，表示可以存在三种关系；例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B的情况，其中A、B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。

在本说明书中描述的参考“一个实施例”或“一些实施例”等意味着在本发明的一个或多个实施例中包括结合该实施例描述的特定特征、结构或特点。由此，在本说明书中的不同之处出现的语句“在一个实施例中”、“在一些实施例中”、“在其他一些实施例中”、“在另外一些实施例中”等不是必然都参考相同的实施例，而是意味着“一个或多个但不是所有的实施例”，除非是以其他方式另外特别强调。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”，除非是以其他方式另外特别强调。术语“连接”包括直接连接和间接连接，除非另外说明。“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。

在本发明实施例中，“示例性地”或者“例如”等词用于表示作例子、例证或说明。本发明实施例中被描述为“示例性地”或者“例如”的任何实施例或设计方案不应被解释为比其它实施例或设计方案更优选或更具优势。确切而言，使用“示例性地”或者“例如”等词旨在以具体方式呈现相关概念。

本发明所提供的一种盲点去噪网络模型的训练方法可以应用于如图1所示的应用场景，该应用场景中包括服务器100、终端设备200。

一种可能的实现方案中，服务器100，用于优化特征融合网络模型，优化后的特征融合网络模型中的转换器包括至少两个特征提取通道，不同特征提取通道中卷积层的掩码类型不同或掩码大小不同，且不同特征提取通道的提取结果经融合层完成特征融合；将含噪声图像作为训练数据集；将所述训练数据集输入至优化后的特征融合网络模型进行自监督模型训练，直至达到设定迭代次数或者损失函数的损失值小于设定阈值，输出盲点去噪网络模型。终端设备200从服务器100获取该盲点去噪网络模型，并用于图像去噪。

其中，服务器100和终端设备200可以通过无线网络连接，终端设备200可以是具备图像传感器的终端设备，该终端设备可以是智能手机、平板电脑或者医学成像设备等。服务器100可以是一台服务器，或者是若干台服务器组成的服务器集群或云计算中心。

基于图1所示的应用场景图，本发明实施例提供了一种盲点去噪网络模型的训练方法流程，如图2所示，该方法的流程可以由服务器执行，该方法包括以下步骤：

S201，优化特征融合网络模型，优化后的特征融合网络模型包括至少两个特征提取通道，不同特征提取通道中卷积层的掩码类型不同或掩码大小不同，且不同特征提取通道的提取结果经融合层完成特征融合。

S202，将公共数据集中的含噪声图像作为训练数据集。

示例性的，本发明可以采用真实图像去噪公共数据集中的SIDD-Medium和DND。SIDD-Medium中包含320个真实噪声和干净图像对，本实施例可以使用其中的带噪声的sRGB图作为训练集，对应的SIDD validation and Benchmark分别作为训练集和测试集。DND数据集中包含50个真实噪声图像，所以一般将DND图像作为测试集，但是在盲点去噪网络模型中，因为本发明可以使用带噪声的图片就可以训练，所以本发明将DND同时作为训练集和测试集。

S203，将所述训练数据集输入至优化后的特征融合网络模型进行自监督模型训练，直至达到设定迭代次数或者损失函数的损失值小于设定阈值，输出盲点去噪网络模型。

该步骤中，一种可能的实施例中，将所述训练数据集输入至优化后的特征融合网络模型进行自监督模型训练，包括：对含噪声图像进行特征预提取后，再经过每个特征提取通道分别进行特征提取；将不同特征提取通道的提取结果输入包括DCL的CDCL进行卷积，之后再先将掩码大小相同的特征提取通道的提取结果进行连接融合，将掩码类型不同的卷积核提取的特征进行融合，经过多个DCL后，将所有的通道的输出连接在一起，完成不同大小掩码的卷积核提取的特征融合；最后经过多个卷积的通道变换和特征融合，得到最终输出。

图3示例性示意了优化后的特征融合网络模型的模型框架图，该特征融合网络模型被命名为MM-BSN模型框架。图3中展示了当掩码(mask)为有两种不同大小的点状mask和十字形mask的情况下，优化后的特征融合网络模型可以有四个特征提取通道，其中，每个特征提取通道对应一个mask，含噪声图像在经过简单的特征提取后，同时经过多个含不同mask的卷积核的卷积层，然后分别输入含有少量空洞卷积层(Dilated ConvolutionLayer，DCL)(图3中设为2)的拼接空洞卷积层(Concatenation-based DilatedConvolution Layer，CDCL)后，就按mask的大小连接(concatenate)融合，使不同类型mask的卷积核提取的特征相互融合，再分别经过多个DCL(图3中设为7)后，所有的mask输出连接在一起，完成不同大小mask的卷积核提取的特征融合，最后经过多个1×1卷积的通道变换和特征融合，得到最终输出。应理解，如果mask种类或mask的大小增加时，仿照图3所示的模型框架添加其它特征提起通道即可。

图4示例性示意了DCL和CDCL的具体组成架构图，从图4可见，DCL中包括一个1×1卷积和一个3×3卷积，以及一个求和器。CDCL中包括两个分支，其中一个分支中包括两个1×1卷积和一个DCL，另一个分支包括一个1×1卷积，两个分支的卷积结果通过连接器(Concatenate)进行通道维度拼接，最后经过一个1×1卷积层进行卷积后输出最后结果。

另外，本发明在图5中还提出了十字形、回字形、行、列、斜线、反斜线、×形的mask，示例性的，图5为当卷积核大小为5*5时的各种mask的形状展示，当卷积核为5乘以5时，图5位多种mask的形状展示图。其中灰色代表其值为1，白色代表值为0。图5中的(a)和图5中的(f)分别表示点状mask和回字形mask，注意，点状mask也可以理解为回字形mask的一种；图5中的(b)和图5中的(g)分别表示中间row方向上为0和col方向为0的masks；图5中的(c)和图5中的(h)分别表示中间十字方向上的值均为0的反十字mask和除中心点为0外，在非中心十字上的值为0的十字mask；图5中的(d)和图5中的(i)分别表示在mask中45°对角线上的值为0和在mask中135°对角线上的值为0；图5中的(e)和图5中的(j)分别表示在×方向上值为0和除中心点为0外，在非×方向上值为0。

一种可能的实施例中，在训练模型时，批量(batch size)设为8，迭代次数为20个时期(epoch)。采用的优化函数为Adma，初始学***或垂直的翻转后输入模型训练。各个模型可以在python3.8.0、pytorch1.12.0，Nvidia Tesla T4 GPUs上训练。

另外，本实施例还可以将训练好的网络部署到云端或边缘设备，将前端获得的sRGB图像作为网络的输入数据，将模型的输出直接交给后续图像处理设备。本发明还可适用于其他图像的基础处理，比如图像重建等。

在本发明的一些实施例中，本发明实施例公开了一种盲点去噪网络模型的训练装置，如图6所示，该装置用于实现以上各个训练方法实施例中记载的方法，其包括：优化单元601和训练单元602。优化单元601，用于优化特征融合网络模型，优化后的特征融合网络模型包括至少两个特征提取通道，不同特征提取通道中卷积层的掩码类型不同或掩码大小不同，且不同特征提取通道的提取结果经融合层完成特征融合。训练单元602，用于将公共数据集中的含噪声图像作为训练数据集，将所述训练数据集输入至优化后的特征融合网络模型进行自监督模型训练，直至达到设定迭代次数或者损失函数的损失值小于设定阈值，输出盲点去噪网络模型。上述训练方法实施例涉及的各步骤的所有相关内容均可以援引到对应功能模块的功能描述，在此不再赘述。

在本发明的另一些实施例中，本发明实施例公开了一种电子设备，该电子设备可以指代上文中的服务器100，也可以指代上文中的终端设备200，如图7所示，该电子设备可以包括：一个或多个处理器701；存储器702；显示器703；一个或多个应用程序(未示出)；以及一个或多个程序704，上述各器件可以通过一个或多个通信总线705连接。其中该一个或多个程序704被存储在上述存储器702中并被配置为被该一个或多个处理器701执行，该一个或多个程序704包括指令，该指令可以用于执行如图2及相应实施例中的各个步骤。

通过以上的实施方式的描述，所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。上述描述的***，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本发明实施例各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个可读取存储介质中。基于这样的理解，本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该软件产品存储在一个存储介质中，包括若干指令用以使得一台电子设备或处理器执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：快闪存储器、移动硬盘、只读存储器、随机存取存储器、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明实施例的具体实施方式，但本发明实施例的保护范围并不局限于此，任何在本发明实施例揭露的技术范围内的变化或替换，都应涵盖在本发明实施例的保护范围之内。因此，本发明实施例的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种盲点去噪网络模型的训练方法，其特征在于，所述方法包括：

优化特征融合网络模型，优化后的特征融合网络模型包括至少两个特征提取通道，不同特征提取通道中卷积层的掩码类型不同或掩码大小不同，且不同特征提取通道的提取结果经融合层完成特征融合；

将公共数据集中的含噪声图像作为训练数据集；

将所述训练数据集输入至优化后的特征融合网络模型进行自监督模型训练，直至达到设定迭代次数或者损失函数的损失值小于设定阈值，输出盲点去噪网络模型。

2.根据权利要求1所述的训练方法，其特征在于，将所述训练数据集输入至优化后的特征融合网络模型进行自监督模型训练，包括：

对含噪声图像进行特征预提取后，再经过每个特征提取通道分别进行特征提取；

将不同特征提取通道的提取结果输入包括DCL的CDCL进行卷积，之后再先将掩码大小相同的特征提取通道的提取结果进行连接融合，将掩码类型不同的卷积核提取的特征进行融合，经过多个DCL后，将所有的通道的输出连接在一起，完成不同大小掩码的卷积核提取的特征融合；

最后经过多个卷积的通道变换和特征融合，得到最终输出。

3.根据权利要求2所述的训练方法，其特征在于，所述掩码类型为十字形、回字形、行、列、斜线、反斜线中的至少一种或多种。

4.根据权利要求1至3任一项所述的训练方法，其特征在于，所述损失函数满足：

Loss＝‖I_out-I_N‖₁

5.根据权利要求1至3任一项所述的训练方法，其特征在于，将掩码图像训练集输入优化后的特征融合网络模型进行自监督模型训练，包括：

将含噪声图像随机裁剪成多个子图像，经过随机旋转，以及水平或垂直的翻转后输入优化后的特征融合网络模型进行自监督模型训练。

6.一种盲点去噪网络模型的训练装置，其特征在于，该装置包括：

优化单元，用于优化特征融合网络模型，优化后的特征融合网络模型包括至少两个特征提取通道，不同特征提取通道中卷积层的掩码类型不同或掩码大小不同，且不同特征提取通道的提取结果经融合层完成特征融合；

训练单元，用于将公共数据集中的含噪声图像作为训练数据集，将所述训练数据集输入至优化后的特征融合网络模型进行自监督模型训练，直至达到设定迭代次数或者损失函数的损失值小于设定阈值，输出盲点去噪网络模型。

7.根据权利要求6所述的训练装置，其特征在于，所述训练单元将所述训练数据集输入至优化后的特征融合网络模型进行自监督模型训练，具体用于：

最后经过多个卷积的通道变换和特征融合，得到最终输出。

8.根据权利要求7所述的训练装置，其特征在于，所述掩码类型为十字形、回字形、行、列、斜线、反斜线中的至少一种或多种。

9.根据权利要求6至8任一项所述的训练装置，其特征在于，所述损失函数满足：

Loss＝‖I_out-I_N‖₁

其中，I_out为盲点去噪网络模型的输出，I_N为含噪声图像。

10.根据权利要求6至8任一项所述的训练装置，其特征在于，所述训练单元将掩码图像训练集输入优化后的特征融合网络模型进行自监督模型训练，具体用于：

11.一种计算机可读存储介质，所述可读存储介质内存储有程序，其特征在于，所述程序被处理器执行时，实现权利要求1至5中任一项所述的方法。

12.一种电子设备，其特征在于，包括存储器和处理器，所述存储器上存储有可在所述处理器上运行的程序，当所述程序被所述处理器执行时，使得所述电子设备实现权利要求1至5中任一项所述的方法。