CN113610737B

CN113610737B - 基于振幅与相位重组的数据增强方法、***、设备及介质

Info

Publication number: CN113610737B
Application number: CN202110838150.XA
Authority: CN
Inventors: 田永鸿; 陈光耀; 彭佩玺
Original assignee: Peking University
Current assignee: Peking University
Priority date: 2021-07-23
Filing date: 2021-07-23
Publication date: 2023-10-24
Anticipated expiration: 2041-07-23
Also published as: CN113610737A

Abstract

本申请涉及数据处理技术领域，更为具体来说，本申请涉及基于振幅与相位重组的数据增强方法、***、设备及介质。所述方法包括：获取第一图像；对所述第一图像进行转换处理，得到转换处理图像；分别对所述第一图像和所述转换处理图像进行傅里叶变换得到所述第一图像和所述转换处理图像的相位信息与振幅信息；将所述第一图像的相位信息和所述转换处理图像的振幅信息基于反傅里叶变换得到第一增强图像；将所述转换处理图像的相位信息和所述第一图像的振幅信息基于反傅里叶变换得到第二增强图像。本方法能辅助针对图像的神经网络模型的训练，增强后的数据可以提高神经网络的泛化能力及鲁棒性，促进神经网络对雾、雨及各种噪音场景下的图像识别能力。

Description

基于振幅与相位重组的数据增强方法、***、设备及介质

技术领域

本申请涉及数据处理技术领域，更为具体来说，本申请涉及基于振幅与相位重组的数据增强方法、***、设备及介质。

背景技术

近些年来，深度学习在很多图像识别及分类任务上实现了超越人类的性能表现。但是神经网络仍然存在一些鲁棒性及泛化性问题，例如对小噪音往往十分敏感，或者对一些和训练类别完全不一致的图像产生过高的置信度。这样的表现限制了神经网络模型在真实场景的应用。如今的神经网络模型的能力强烈地依靠训练数据的分布，往往会对真实场景的小噪音产生过激的反应。

目前已经有一些方法用来解释神经网络模型产生这些过激反应的原因。其中一些方法认为神经网络对图像频域的高频信息比较敏感，而这部分信息往往是人类难以察觉的信号。而我们进一步的对频域信息进行探索发现，卷积神经网络模型往往对图像频域的振幅信息产生了过多的依赖，但是频域的振幅信息往往只包含一些人类无法察觉局部的信息。而有更多的研究已经发现图像中的相位信息往往包含更能帮助人类识别的全局语义信息，而这部分信息往往被神经网络模型所忽略掉。

发明内容

基于上述技术缺陷，为了让神经网络依靠更多的图像相位信息来辅助识别与分类，我们提出了基于振幅与相位重组的数据增强技术方案，包括基于单张图像的振幅与相位重组数据增强策略和图像对(两张图像)的振幅与相位重组数据增强策略，以实现数据特别是图像的增强效果。

为实现上述技术目的，本申请提供了一种基于振幅与相位重组的数据增强方法，包括以下步骤：

获取第一图像；

对所述第一图像进行转换处理，得到转换处理图像；

分别对所述第一图像和所述转换处理图像进行傅里叶变换得到所述第一图像和所述转换处理图像的相位信息与振幅信息；

将所述第一图像的相位信息和所述转换处理图像的振幅信息基于反傅里叶变换得到第一增强图像；

将所述转换处理图像的相位信息和所述第一图像的振幅信息基于反傅里叶变换得到第二增强图像。

优选地，对所述第一图像进行转换处理，包括图像翻转处理、图像平移处理、随机裁剪处理和图像锐化处理。

具体地，分别对所述第一图像和所述转换处理图像进行傅里叶变换得到所述第一图像和所述转换处理图像的相位信息与振幅信息，包括：

对所述第一图像进行傅里叶变换得到所述第一图像的频域信息；

对所述转换处理图像进行傅里叶变换得到所述转换处理图像的频域信息；

根据所述第一图像的频域信息得到所述第一图像的相位信息与振幅信息；

根据所述转换处理图像的频域信息得到所述转换处理图像的相位信息与振幅信息。

本发明第二方面提供了一种基于振幅与相位重组的数据增强方法，包括以下步骤：

获取第一图像和第二图像；

对所述第一图像和所述第二图像进行傅里叶变换得到所述第一图像和所述第二图像的相位信息与振幅信息；

将所述第一图像的相位信息和所述第二图像的振幅信息基于反傅里叶变换得到第三增强图像；

将所述第二图像的相位信息和所述第一图像的振幅信息基于反傅里叶变换得到第四增强图像。

具体地，将所述第一图像的相位信息和所述第二图像的振幅信息基于反傅里叶变换得到第三增强图像，包括：

将所述第一图像的相位信息和所述第二图像的振幅信息组合算出组合后对应的频域信息；

将所述组合后对应的频域信息进行反傅里叶变换得到第三增强图像。

进一步地，所述将所述第二图像的相位信息和所述第一图像的振幅信息通过反傅里叶变换的公式为：

其中，A表示相位，P表示振幅，x_i表示第一图像，x_j表示第二图像，iDFT表示反傅里叶变换函数。

本发明第三方面提供了一种神经网络模型，所述神经网络模型应用本申请中任一实施方式提供的基于振幅与相位重组的数据增强方法所得到的增强图像进行训练。

本发明第四方面提供了一种基于振幅与相位重组的数据增强***，所述***包括：

获取模块，用于获取第一图像；

转换模块，用于对所述第一图像进行转换处理，得到转换处理图像；

相位振幅模块，用于分别对所述第一图像和所述转换处理图像进行傅里叶变换得到所述第一图像和所述转换处理图像的相位信息与振幅信息；

第一增强模块，用于将所述第一图像的相位信息和所述转换处理图像的振幅信息基于反傅里叶变换得到第一增强图像；

第二增强模块，用于将所述转换处理图像的相位信息和所述第一图像的振幅信息基于反傅里叶变换得到第二增强图像。

本发明第五方面提供了一种计算机设备，包括存储器和处理器，所述存储器中存储有计算机可读指令，所述计算机可读指令被所述处理器执行时，使得所述处理器执行如下步骤：

获取第一图像；

对所述第一图像进行转换处理，得到转换处理图像；

本发明第六方面提供了一种计算机存储介质，所述计算机存储介质存储有多条指令，所述指令适于由处理器加载并执行如下步骤：

获取第一图像；

对所述第一图像进行转换处理，得到转换处理图像；

本申请的有益效果为：通过振幅与相位的重组能得到增强的数据，用增强后的数据比如图像进行神经网络模型训练，可以提高神经网络的泛化能力及鲁棒性，促进神经网络对雾、雨及各种噪音场景下的图像识别能力。最终训练好的神经网络模型在真实场景下能够更有效地应对各种噪音干扰，高效识别物体，进而更加符合真实场景下的应用。

附图说明

图1示出了本申请实施例1的方法流程示意图；

图2示出了本申请实施例1、2的数据增强过程示意图；

图3示出了本申请实施例3神经网络训练过程示意图；

图4示出了本申请实施例4的***结构示意图；

图5示出了本申请一实施例所提供的一种电子设备的结构示意图；

图6示出了本申请一实施例所提供的一种存储介质的示意图。

具体实施方式

以下，将参照附图来描述本申请的实施例。但是应该理解的是，这些描述只是示例性的，而并非要限制本申请的范围。此外，在以下说明中，省略了对公知结构和技术的描述，以避免不必要地混淆本申请的概念。对于本领域技术人员来说显而易见的是，本申请可以无需一个或多个这些细节而得以实施。在其它的例子中，为了避免与本申请发生混淆，对于本领域公知的一些技术特征未进行描述。

应予以注意的是，这里所使用的术语仅是为了描述具体实施例，而非意图限制根据本申请的示例性实施例。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式。此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在所述特征、整体、步骤、操作、元件和/或组件，但不排除存在或附加一个或多个其它特征、整体、步骤、操作、元件、组件和/或它们的组合。

现在，将参照附图更详细地描述根据本申请的示例性实施例。然而，这些示例性实施例可以多种不同的形式来实施，并且不应当被解释为只限于这里所阐述的实施例。附图并非是按比例绘制的，其中为了清楚表达的目的，可能放大了某些细节，并且可能省略了某些细节。图中所示出的各种区域、层的形状以及它们之间的相对大小、位置关系仅是示例性的，实际中可能由于制造公差或技术限制而有所偏差，并且本领域技术人员根据实际所需可以另外设计具有不同形状、大小、相对位置的区域/层。

实施例1：

本实施例实施了一种基于振幅与相位重组的数据增强方法，如图1所示，包括以下步骤：

S1、获取第一图像；

S2、对所述第一图像进行转换处理，得到转换处理图像；

S3、分别对所述第一图像和所述转换处理图像进行傅里叶变换得到所述第一图像和所述转换处理图像的相位信息与振幅信息；

S4、将所述第一图像的相位信息和所述转换处理图像的振幅信息基于反傅里叶变换得到第一增强图像；

S5、将所述转换处理图像的相位信息和所述第一图像的振幅信息基于反傅里叶变换得到第二增强图像。

具体地，分别对第一图像和转换处理图像进行傅里叶变换得到第一图像和转换处理图像的相位信息与振幅信息，包括：

对第一图像进行傅里叶变换得到第一图像的频域信息；对转换处理图像进行傅里叶变换得到转换处理图像的频域信息；根据第一图像的频域信息得到第一图像的相位信息与振幅信息；根据转换处理图像的频域信息得到转换处理图像的相位信息与振幅信息。其中，频域F、相位A和振幅P的关系为：abs表示计算复数的绝对值函数，angle为计算复数的辐角主值函数。

图2为数据增强过程示意图，如图2所示，图2的右侧部分基于单张图像的振幅相位重组展示了原始图像转换为转换图像，再通过傅里叶变换得到它们的相位信息与振幅信息图像，再将它们的相位信息和振幅信息重组基于反傅里叶变换得到两张增强图像。该过程可以表示为下述公式：

S(xi)表示原始图像，表示转换处理图像，A表示相位，P表示振幅，iDFT表示反傅里叶变换函数，APR_P表示数据增强函数。由于横向篇幅所限，图2中的个别字迹显示不够清晰，特别是在黑色加底部分的“振幅”和“相位”显示不够清晰，但不影响图2的示意作用，其示意出通过图像的振幅与相位的重组实现了图像增强的整体工作过程。

需要说明的是，以上的S1至S5只是为了说明技术实施时所具有的逻辑步骤才标识的步骤顺序号，而在具体的实施过程中上述每一步都可能通过许多步实现或转换。另外其中有些步骤是并行，比如S4和S5，它们还可以分别与S1至S3组成一个实施例。再比如，“分别对第一图像和转换处理图像进行傅里叶变换得到第一图像和转换处理图像的相位信息与振幅信息”包括的步骤虽写成四步，但前面两步可以作为独立的过程，后面两步也可以看作独立的过程，两个独立的过程可以看作是并行的，也可以交换执行顺序。因此，本实施例中具体的其它可变换的实施方式也属于本申请保护的范围。

实施例2：

本实施例实施了一种基于振幅与相位重组的数据增强方法，包括以下步骤：

第一步，获取第一图像和第二图像。

第二步，对第一图像和第二图像进行傅里叶变换得到第一图像和第二图像的相位信息与振幅信息。具体包括：对第一图像进行傅里叶变换得到第一图像的频域信息；对第二图像进行傅里叶变换得到第二图像的频域信息；根据第一图像的频域信息得到第一图像的相位信息与振幅信息；根据第二图像的频域信息得到第二图像的相位信息与振幅信息。

第三步，将第一图像的相位信息和第二图像的振幅信息基于反傅里叶变换得到第三增强图像。具体地，将第一图像的相位信息和第二图像的振幅信息基于反傅里叶变换得到第三增强图像，包括：将第一图像的相位信息和第二图像的振幅信息组合算出组合后对应的频域信息；将组合后对应的频域信息进行反傅里叶变换得到第三增强图像。

第四步，将第二图像的相位信息和第一图像的振幅信息基于反傅里叶变换得到第四增强图像。具体地，将第二图像的相位信息和第一图像的振幅信息基于反傅里叶变换得到第四增强图像，包括：将第二图像的相位信息和第一图像的振幅信息组合算出组合后对应的频域信息；将组合后对应的频域信息进行反傅里叶变换得到第四增强图像。

再如图2所示，图2左侧部分基于图像对的振幅相位重组展示了图像对进行数据增强的工作过程，图像1(第一图像)和图像2(第二图像)组成了图像对，对图像1和图像2进行傅里叶变换得到图像1和图像2相位信息与振幅信息，再将图像1的相位信息和图像2的振幅信息基于反傅里叶变换得到第三增强图像。反傅里叶变换的公式为：

其中，A表示相位，P表示振幅，x_i表示图像1，x_j表示图像2，iDFT表示反傅里叶变换函数，APR_P表示数据增强函数。

实施例3：

本实施例提供了一种神经网络模型，所述神经网络模型应用本申请中任一实施方式提供的基于振幅与相位重组的数据增强方法所得到的增强图像进行训练。图3示出了神经网络训练过程，比如将实施例1和实施例2中获得的增强图像输入到神经网络中进行训练，会提升神经网络模型的鲁棒性。

由于神经网络对图像频域的高频信息比较敏感，而这部分信息往往是人类难以察觉的信号。频域中包括的相位信息、振幅信息往往包含更能帮助人类识别的全局语义信息，而这部分信息被本申请捕捉和利用，使神经网络模型达到更佳的输出效果。本发明提供的方法能辅助针对图像的神经网络模型的训练，运动增强后的图像可以提高神经网络的泛化能力及鲁棒性，促进神经网络对雾、雨及各种噪音场景下的图像识别能力。最终神经网络在真实场景下能够更有效地应对各种噪音干扰，高效识别物体，更加符合真实场景下的应用。

实施例4：

本实施例提供了一种基于振幅与相位重组的数据增强***，如图4所示，所述***包括：

获取模块401，用于获取第一图像；

转换模块402，用于对所述第一图像进行转换处理，得到转换处理图像；

相位振幅模块403，用于分别对所述第一图像和所述转换处理图像进行傅里叶变换得到所述第一图像和所述转换处理图像的相位信息与振幅信息；

第一增强模块404，用于将所述第一图像的相位信息和所述转换处理图像的振幅信息基于反傅里叶变换得到第一增强图像；

第二增强模块405，用于将所述转换处理图像的相位信息和所述第一图像的振幅信息基于反傅里叶变换得到第二增强图像。

接下来请参考图5，其示出了本申请的一些实施方式所提供的一种电子设备的示意图。如图5所示，所述电子设备2包括：处理器200，存储器201，总线202和通信接口203，所述处理器200、通信接口203和存储器201通过总线202连接；所述存储器201中存储有可在所述处理器200上运行的计算机程序，所述处理器200运行所述计算机程序时执行本申请前述任一实施方式所提供的基于振幅与相位重组的数据增强方法。

其中，存储器201可能包含高速随机存取存储器(RAM：Random Access Memory)，也可能还包括非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器。通过至少一个通信接口203(可以是有线或者无线)实现该***网元与至少一个其它网元之间的通信连接，可以使用互联网、广域网、本地网、城域网等。

总线202可以是ISA总线、PCI总线或EISA总线等。所述总线可以分为地址总线、数据总线、控制总线等。其中，存储器201用于存储程序，所述处理器200在接收到执行指令后，执行所述程序，前述本申请实施例任一实施方式揭示的所述基于振幅与相位重组的数据增强方法可以应用于处理器200中，或者由处理器200实现。

处理器200可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器200中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器200可以是通用处理器，包括中央处理器(Central Processing Unit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其它可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器201，处理器200读取存储器201中的信息，结合其硬件完成上述方法的步骤。

本申请实施例提供的电子设备与本申请实施例提供的基于振幅与相位重组的数据增强方法出于相同的发明构思，具有与其采用、运行或实现的方法相同的有益效果。

本申请实施方式还提供一种与前述实施方式所提供的基于振幅与相位重组的数据增强方法对应的计算机可读存储介质，请参考图6，其示出的计算机可读存储介质为光盘30，其上存储有计算机程序(即程序产品)，所述计算机程序在被处理器运行时，会执行前述任意实施方式所提供的基于振幅与相位重组的数据增强方法。

所述计算机可读存储介质的例子还可以包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其它类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其它光学、磁性存储介质，在此不再一一赘述。

需要说明的是：在此提供的算法和显示不与任何特定计算机、虚拟装置或者其它设备有固有相关。各种通用装置也可以与基于在此的示教一起使用。根据上面的描述，构造这类装置所要求的结构是显而易见的。此外，本申请也不针对任何特定编程语言。应当明白，可以利用各种编程语言实现在此描述的本申请的内容，并且上面对特定语言所做的描述是为了披露本申请的最佳实施方式。在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本申请的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。类似地，应当理解，为了精简本申请并帮助理解各个发明方面中的一个或多个，在上面对本申请的示例性实施例的描述中，本申请的各个特征有时被一起分组到单个实施例、图或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本申请要求比在每个权利要求中所明确记载的特征更多的特征。

以上所述，仅为本申请较佳的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种基于振幅与相位重组的数据增强方法，其特征在于，包括以下步骤：

获取第一图像；

对所述第一图像进行转换处理，得到转换处理图像；

其中，对所述第一图像进行转换处理，包括图像翻转处理、图像平移处理、随机裁剪处理和图像锐化处理；

根据所述转换处理图像的频域信息得到所述转换处理图像的相位信息与振幅信息；

将所述转换处理图像的相位信息和所述第一图像的振幅信息基于反傅里叶变换得到第二增强图像；

其中，

将所述转换处理图像的相位信息和所述第一图像的振幅信息通过反傅里叶变换的公式为：

其中，A表示相位，P表示振幅，x_i表示第一图像，x_j表示转换处理图像，iDFT表示反傅里叶变换函数。

2.一种基于振幅与相位重组的数据增强***，其特征在于，所述***包括：

获取模块，用于获取第一图像；

第二增强模块，用于将所述转换处理图像的相位信息和所述第一图像的振幅信息基于反傅里叶变换得到第二增强图像；

其中，

3.一种计算机设备，包括存储器和处理器，其特征在于，所述存储器中存储有计算机可读指令，所述计算机可读指令被所述处理器执行时，使得所述处理器执行如权利要求1中方法的步骤。

4.一种计算机存储介质，其特征在于，所述计算机存储介质存储有多条指令，所述指令适于由处理器加载并执行如权利要求1中方法的步骤。