CN112801911B

CN112801911B - 一种去除自然图像中文字类噪声的方法及装置、存储介质

Info

Publication number: CN112801911B
Application number: CN202110172477.8A
Authority: CN
Inventors: 王波; 张百灵; 崔嵬
Original assignee: Suzhou Changzuichu Software Co ltd
Current assignee: Suzhou Changzuichu Software Co ltd
Priority date: 2021-02-08
Filing date: 2021-02-08
Publication date: 2024-03-26
Anticipated expiration: 2041-02-08
Also published as: CN112801911A

Abstract

本申请公开了一种去除自然图像中文字类噪声的方法及装置、存储介质，所述方法包括：图像语义分割网络检测待修复图像中包含文字类元素的区域，并将分割识别区域作为待修复区域掩码；根据图像修复模型，用所述待修复区域掩码对所述待修复图像中包含文字类元素的区域进行修复；所述图像修复模型为生成对抗网络的生成器。本申请实施例能够快速自动地检测待修复图像中常见的文字类元素区域，可以选择自动去除自然图像中的文字类噪声元素，也可以通过人工交互的方式校正需要修复的区域。使用基于生成对抗网络的图像修复方法，修复的图像更加自然逼真。

Description

一种去除自然图像中文字类噪声的方法及装置、存储介质

技术领域

本申请实施例涉及图像分类技术领域，尤其涉及一种去除自然图像中文字类噪声的方法及装置、存储介质。

背景技术

近年来，随着大数据时代的到来和计算机硬件的发展，人工智能在我们的生活中越来越普及。其中，深度学习技术在计算机视觉得到了广泛的应用，而图像识别是应用最广泛的技术之一，如拍照识物、人脸识别、交通标志识别、手势识别、垃圾分类等。这些技术在电子商务行业、汽车工业、游戏产业、制造业得到了相应的应用。

图像由于人为因素，常常会带有文字等元素。这些文字类元素破坏图像的美观度，妨碍图像的再利用，降低图像的保存价值和质量。因此，大量的应用场景需要去除自然场景图像中的文字类元素，以得到干净的图像。然而，自然图像中文字元素往往样式各异、分布不均，如手写字、字幕、水印，划痕等，这些都增加了去除文字元素的难度。现有主流文字类元素去除方法通常需要人工标注文字掩码区域，然后进行图像修复，该方法不仅存在恢复图像质量差，不符合自然图像特征的问题，而且耗费时间长、人力成本负担重。

另一方面，基于扩散的传统图像修复方法利用待修复区域的边缘信息，确定扩散的方向，向边缘内扩散已知的信息。这种方法恢复的图像不自然、模糊、缺乏纹理细节，而且无法恢复大范围图像缺损区域。其他传统方法也具有处理流程复杂、计算量大、泛化性低等类似问题。

发明内容

有鉴于此，本申请实施例提供一种去除自然图像中文字类噪声的方法及装置、存储介质。

根据本申请的第一方面，提供一种去除自然图像中文字类噪声的方法，包括：

根据图像语义分割网络检测待修复图像中包含文字类元素的区域作，并将分割识别结果作为待修复区域掩码；

根据图像修复模型，用所述待修复区域掩码对所述待修复图像中包含文字类元素的区域进行修复；所述图像修复模型为生成对抗网络的生成器。

作为一种实现方式，所述根据图像语义分割网络检测待修复图像中包含文字类元素的区域，并将分割识别结果作为待修复区域掩码，还包括：

根据图像语义分割网络检测所述待修复图像中包含文字类元素的区域后，确定用户是否选择人工交互方式进行所述待修复图像的修复；若是，则接收所述用户通过删除、修改、新增操作校正待修复区域；否则，将分割识别结果作为待修复区域掩码。

作为一种实现方式，所述图像语义分割网络为U-Net分割网络的“U”型跳层连接网络结构；在所述U-Net的基础上添加空洞空间卷积池化金字塔ASPP网络提取和融合多尺度上下文特征。

作为一种实现方式，所述方法还包括：

增加注意力机制以增强所述图像语义分割网络的特征表征能力；

所述注意力机制使用通道注意力模块对各个通道进行权重的分配，使用空间注意力模块分配空间特征权重。

作为一种实现方式，所述方法还包括：

所述通道注意力模块对每个通道的特征图进行全局池化，获取全局信息；采用两层全连接层学习得到各个通道的权重，并与初始特征进行乘法操作；

所述空间注意力模块使用1*1卷积操作压缩得到特征图的通道数；采用自适应池化将空间特征规整到4种不同尺度；将4种尺度的池化特征拼接规整后输入到所述两层全连接层中学习空间特征的不同局部权重；将学习到的权重参数规整到压缩特征的尺度大小；使用1*1卷积将空间参数尺度恢复到通道注意力特征的空间大小并与其进行乘法操作；将得到的空间特征与原始特征进行加法操作得到最终的注意力特征。

作为一种实现方式，所述方法还包括：

所述图像修复模型为训练好的Pixel2Pixel生成对抗网络模型的生成器G；所述Pixel2Pixel生成对抗网络模型采用U-Net分割网络模型作为所述生成器G。

根据本申请的第二方面，提供一种去除自然图像中文字类噪声的装置，包括：

检测与掩码生成单元，根据图像语义分割网络检测待修复图像中包含文字类元素的区域，并将分割识别区域作为待修复区域掩码；

图像修复单元，用于根据图像修复模型，用所述待修复区域掩码对所述待修复图像中包含文字类元素的区域进行修复；所述图像修复模型为生成对抗网络的生成器。

作为一种实现方式，所述装置还包括：

人工交互单元，用于在所述检测与掩码生成单元根据图像语义分割网络检测所述待修复图像中包含文字类元素的区域作为待修复区域后，确定用户是否选择人工交互方式进行所述待修复图像的修复；若是，则接收所述用户通过删除、修改、新增操作校正待修复区域；否则，通知所述检测与掩码生成单元将分割识别结果作为待修复区域掩码。

作为一种实现方式，所述检测与掩码生成单元中图像语义分割网络为U-Net分割网络的“U”型跳层连接网络结构；在所述U-Net的基础上添加空洞空间卷积池化金字塔ASPP网络提取和融合多尺度上下文特征。

作为一种实现方式，所述检测与掩码生成单元还用于：

作为一种实现方式，所述图像修复单元，还用于：

根据本申请的第三方面，提供一种存储介质，其上存储由可执行程序，所述可执行程序被处理器执行时实现所述的去除自然图像中文字类噪声的方法的步骤。

本申请实施例提供的去除自然图像中文字类噪声的方法及装置、存储介质，根据图像语义分割网络检测待修复图像中包含文字类元素的区域，并将分割识别结果作为待修复区域掩码；根据图像修复模型，用所述待修复区域掩码对所述待修复图像中包含文字类元素的区域进行修复；所述图像修复模型为生成对抗网络的生成器。本申请实施例能够快速自动地检测待修复图像中常见的文字类元素区域，可以选择自动去除自然图像中的文字类噪声元素，也可以通过人工交互的方式校正需要修复的区域。使用基于生成对抗网络的图像修复方法，修复的图像更加自然逼真。

附图说明

图1为本申请实施例提供的去除自然图像中文字类噪声的方法流程示意图；

图2为本申请实施例改进的语义分割模型结构示意图；

图3为本申请实施例提供的去除自然图像中文字类噪声的方法的一具体示例流程图；

图4为本发明实施例提供的注意力模块结构示意图；

图5为本申请实施例提供的Pixel2Pixel模型训练结构框架示意图；

图6为本申请实施例提供的去除自然图像中文字类噪声的装置的组成结构示意图。

具体实施方式

以下结合示例，详细阐明本申请实施例的技术方案的实质。

随着深度学习的兴起，深度神经卷积网络已经能轻松检测到文本或自然场景图像中文字，并定位文字区域。主流的深度学习文字检测方法有基于目标检测和语义分割两种。相比回归矩形框级识别精度的目标检测算法，语义分割方法可以进行像素级别的识别，具有更加精确的定位，而且对文字方向没有严格要求，更贴合文字区域轮廓。主流的语义分割网络结构都是编码器-解码器(Encoder-Decoder)，如FCN、U-Net和DeepLab系列分割模型。

基于深度学习中对抗生成网络(GAN)的图像修复方法已经能从大规模数据集中学习到丰富的语义信息，然后以端到端的方式填充图像中缺失的内容，恢复的图像更加自然逼真，从而取得较好的修复效果。

本申请实施例结合最新的语义分割和图像修复技术，通过语义分割得到自然图像中的文字区域，结合人工交互机制，最后利用生成对抗网络修复自然图像。针对不同应用场景，结合文字区域自动选择和人工交互两种决策机制进行图像修复，且使用方便、人力负担轻，恢复图像自然逼真。

图1为本申请实施例提供的去除自然图像中文字类噪声的方法流程示意图，如图1所示，本申请实施例的去除自然图像中文字类噪声的方法包括以下处理步骤：

步骤101，根据图像语义分割网络检测待修复图像中包含文字类元素的区域，并将分割识别结果作为待修复区域掩码。

本申请实施例中，根据图像语义分割网络检测所述待修复图像中包含文字类元素的区域后，确定用户是否选择人工交互方式进行所述待修复图像的修复；若是，则接收所述用户通过删除、修改、新增操作校正待修复区域；否则，将分割识别结果作为待修复区域掩码。

本申请实施例中，图像语义分割网络为U-Net分割网络的“U”型跳层连接网络结构；在所述U-Net的基础上添加空洞空间卷积池化金字塔ASPP网络提取和融合多尺度上下文特征。

本申请实施例改进的语义分割模型如图2所示，整个U-Net网络结构类似于一个大大的U字母。首先进行下采样；然后反卷积进行上采样，之前的低层进行融合；然后再次上采样。重复这个过程，获得输出的注意力图像。

本申请实施例中，空洞空间卷积池化金字塔(atrous spatial pyramid pooling，ASPP)对所给定的输入以不同采样率的空洞卷积并行采样，相当于以多个比例捕捉图像的上下文。

本申请实施例中，还包括增加注意力机制以增强所述图像语义分割网络的特征表征能力；所述注意力机制使用通道注意力模块对各个通道进行权重的分配，使用空间注意力模块分配空间特征权重。

本申请实施例中，通道注意力模块对每个通道的特征图进行全局池化，获取全局信息；采用两层全连接层学习得到各个通道的权重，并与初始特征进行乘法操作；

步骤102，根据图像修复模型，用所述待修复区域掩码对所述待修复图像中包含文字类元素的区域进行修复；所述图像修复模型为生成对抗网络的生成器。

本申请实施例中，所述图像修复模型(图像修复模块)为训练好的Pixel2Pixel生成对抗网络模型的生成器G；所述Pixel2Pixel生成对抗网络模型采用U-Net分割网络模型作为所述生成器G。

本申请实施例中，生成修复区域掩码后，使用图像修复模块修复选择的区域。图像修复模块使用训练好的Pixel2Pixel模型的生成器G来修复合成逼真的自然图像。Pixel2Pixel是一种生成对抗网络，其训练时输入是成对的图像，主要由生成器G和判别器D组成。为了提升图像的细节和保留不同尺度的信息，采用U-Net模型作为生成器G。

下面结合具体示例，对本申请实施例作进一步详细说明。

本申请实施例以自然图像为例进行说明，需要说明的是，其他图片或者图像等如截屏、图片等文本一样可以使用本申请实施例的技术手段。

图3为本申请实施例提供的去除自然图像中文字类噪声的方法的一具体示例流程图具体步骤如下：

首先，用户加载需要待修复图像。通过文字元素检测模块自动检测出自然图像中包含文字类元素的区域。文字检测模块采用训练好的图像语义分割网络来检测文字区域，并将分割识别结果作为待修复区域掩码。语义分割网络模型借鉴经典分割网络U-Net的“U”型跳层连接网络结构。针对文字的特点，在原始U-Net的基础上添加ASPP模块以提取和融合多尺度上下文特征，并进一步提出新的注意力机制增强网络的特征表征能力，其模型整体结构如图2所示。

具体的说，注意力机制同时考虑了增强通道和空间特征。该机制首先使用通道注意力模块，该模块主要的功能是对各个通道进行权重的分配，然后使用空间注意力模块分配空间特征权重。通道注意力模块首先对每个通道的特征图进行全局池化，获取全局信息，然后采用两层全连接层(fc层)学习得到各个通道的权重，并与初始特征进行乘法操作。在此基础上，空间注意力模块首先使用1*1卷积操作压缩新得到特征图的通道数以减少计算量，然后采用自适应池化将空间特征规整到4种不同尺度，如[1*1,8*8,16*16,32*32]等，以统计不同特征图全局或局部特征，下一步将4种尺度的池化特征拼接规整后，同样输入到两层全连接层(fc层)中学习空间特征的不同局部权重，再将学习到的权重参数规整到前一步压缩特征的尺度大小，接着使用1*1卷积将空间参数尺度恢复到通道注意力特征的空间大小并与其进行乘法操作，最后将最新得到的空间特征与原始特征进行加法操作得到最终的注意力特征。注意力模块结构如图4所示。图4为本发明实施例提供的注意力模块结构示意图。

具体的，***判断用户是否选择以人工交互的方式校正修改U-Net预测的待修复区域。如果需要人工交互，用户可以在生成最终待修复区域掩码前通过删除、修改、新增等操作校正待修复区域。如果不采用人工交互操作，则使用文字预测区域直接生成待修复区域掩码。

生成修复区域掩码后，使用图像修复模块修复选择的区域。图像修复模块使用训练好的Pixel2Pixel模型的生成器G来修复合成逼真的自然图像。Pixel2Pixel是一种生成对抗网络，其训练时输入是成对的图像，主要由生成器G和判别器D组成。为了提升图像的细节和保留不同尺度的信息，采用U-Net模型作为生成器G。Pixel2Pixel的训练结构框架如图5所示。图5为本申请实施例提供的Pixel2Pixel模型训练结构框架示意图。

保存修复好的自然图像，直至完成所有的图像处理，退出***。

图6为本申请实施例提供的去除自然图像中文字类噪声的装置的组成结构示意图，如图6所示，本申请实施例的去除自然图像中文字类噪声的装置包括：

检测与掩码生成单元61，根据图像语义分割网络检测待修复图像中包含文字类元素的区域，并将分割识别区域作为待修复区域掩码；

图像修复单元62，用于根据图像修复模型，用所述待修复区域掩码对所述待修复图像中包含文字类元素的区域进行修复；所述图像修复模型为生成对抗网络的生成器。

所述装置还包括：

人工交互单元63，用于在所述检测与掩码生成单元61根据图像语义分割网络检测所述待修复图像中包含文字类元素的区域作为待修复区域后，确定用户是否选择人工交互方式进行所述待修复图像的修复；若是，则接收所述用户通过删除、修改、新增操作校正待修复区域；否则，通知所述检测与掩码生成单元61将分割识别结果作为待修复区域掩码。

所述检测与掩码生成单元61中图像语义分割网络为U-Net分割网络的“U”型跳层连接网络结构；在所述U-Net的基础上添加空洞空间卷积池化金字塔ASPP网络提取和融合多尺度上下文特征。

所述检测与掩码生成单元61还用于：

所述图像修复单元62，还用于：

在示例性实施例中，本申请实施例的去除自然图像中文字类噪声的装置的上述各处理单元可以被一个或多个中央处理器(CPU，Central Processing Unit)、图形处理器(GPU，Graphics Processing Unit)、基带处理器(BP，Base Processor)、应用专用集成电路(ASIC，Application Specific Integrated Circuit)、DSP、可编程逻辑器件(PLD，Programmable Logic Device)、复杂可编程逻辑器件(CPLD，Complex Programmable LogicDevice)、现场可编程门阵列(FPGA，Field-Programmable Gate Array)、通用处理器、控制器、微控制器(MCU，Micro Controller Unit)、微处理器(Microprocessor)、或其他电子元件实现。

在本公开实施例中，图6示出的去除自然图像中文字类噪声的装置中各个处理单元执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

本申请实施例还记载了一种存储介质，存储介质上存储由可执行程序，所述可执行程序被处理器执行时实现所述实施例的去除自然图像中文字类噪声的方法的步骤。

应理解，说明书通篇中提到的“一个实施例”或“一实施例”意味着与实施例有关的特定特征、结构或特性包括在本发明的至少一个实施例中。因此，在整个说明书各处出现的“在一个实施例中”或“在实施例中”未必一定指相同的实施例。此外，这些特定的特征、结构或特性可以任意适合的方式结合在一个或多个实施例中。应理解，在本发明的各种实施例中，上述各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

在本申请所提供的几个实施例中，应该理解到，所揭露的设备和方法，可以通过其它的方式实现。以上所描述的设备实施例仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，如：多个单元或组件可以结合，或可以集成到另一个***，或一些特征可以忽略，或不执行。另外，所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口，设备或单元的间接耦合或通信连接，可以是电性的、机械的或其它形式的。

上述作为分离部件说明的单元可以是、或也可以不是物理上分开的，作为单元显示的部件可以是、或也可以不是物理单元；既可以位于一个地方，也可以分布到多个网络单元上；可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。

另外，在本发明各实施例中的各功能单元可以全部集成在一个处理单元中，也可以是各单元分别单独作为一个单元，也可以两个或两个以上单元集成在一个单元中；上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

以上所述，仅为本发明的实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种去除自然图像中文字类噪声的方法，其特征在于，所述方法包括：

根据图像语义分割网络检测待修复图像中包含文字类元素的区域，并将分割识别区域作为待修复区域掩码；

2.根据权利要求1所述的方法，其特征在于，所述根据图像语义分割网络检测待修复图像中包含文字类元素的区域，并将分割识别结果作为待修复区域掩码，还包括：

根据图像语义分割网络检测所述待修复图像中包含文字类元素的区域后，确定用户是否选择人工交互方式进行所述待修复图像的修复；若是，则接收所述用户通过删除、修改、新增操作校正待修复区域；否则，将分割识别结果自动作为待修复区域掩码。

3.根据权利要求1所述的方法，其特征在于，所述图像语义分割网络为U-Net分割网络的“U”型跳层连接网络结构；在所述U-Net的基础上添加空洞空间卷积池化金字塔ASPP网络提取和融合多尺度上下文特征。

4.根据权利要求3所述的方法，其特征在于，所述方法还包括：

5.根据权利要求4所述的方法，其特征在于，所述方法还包括：

6.根据权利要求1所述的方法，其特征在于，所述方法还包括：

所述图像修复模型为训练好的Pixel2Pixel生成对抗网络模型的生成器G，所述Pixel2Pixel生成对抗网络模型采用U-Net分割网络模型作为所述生成器G。

7.一种去除自然图像中文字类噪声的装置，其特征在于，所述装置包括：

8.根据权利要求7所述的装置，其特征在于，所述装置还包括：

人工交互单元，用于在所述检测与掩码生成单元根据图像语义分割网络检测所述待修复图像中包含文字类元素的区域作为待修复区域后，确定用户是否选择人工交互方式进行所述待修复图像的修复；若是，则接收所述用户通过删除、修改、新增操作校正待修复区域；否则，通知所述检测与掩码生成单元将分割识别结果自动作为待修复区域掩码。

9.根据权利要求7所述的装置，其特征在于，所述检测与掩码生成单元中图像语义分割网络为U-Net分割网络的“U”型跳层连接网络结构；在所述U-Net的基础上添加空洞空间卷积池化金字塔ASPP网络提取和融合多尺度上下文特征。

10.根据权利要求9所述的装置，其特征在于，所述检测与掩码生成单元还用于：

11.根据权利要求10所述的装置，其特征在于，所述检测与掩码生成单元还用于：

所述空间注意力模块使用1*1卷积操作压缩得到特征图的通道数；采用自适应池化将空间特征调整到4种不同尺度；将4种尺度的池化特征拼接规整后输入到所述两层全连接层中学习空间特征的不同局部权重；将学习到的权重参数恢复到压缩特征的尺度；使用1*1卷积将空间参数尺度恢复到通道注意力特征的空间大小并与其进行乘法操作；将得到的空间特征与原始特征进行加法操作得到最终的注意力特征。

12.根据权利要求7所述的装置，其特征在于，所述图像修复单元，还用于：

13.一种存储介质，其上存储由可执行程序，所述可执行程序被处理器执行时实现如求1至6任一项所述的去除自然图像中文字类噪声的方法的步骤。