CN112801911B - 一种去除自然图像中文字类噪声的方法及装置、存储介质 - Google Patents
一种去除自然图像中文字类噪声的方法及装置、存储介质 Download PDFInfo
- Publication number
- CN112801911B CN112801911B CN202110172477.8A CN202110172477A CN112801911B CN 112801911 B CN112801911 B CN 112801911B CN 202110172477 A CN202110172477 A CN 202110172477A CN 112801911 B CN112801911 B CN 112801911B
- Authority
- CN
- China
- Prior art keywords
- image
- repaired
- area
- mask
- network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 56
- 230000011218 segmentation Effects 0.000 claims abstract description 67
- 230000003993 interaction Effects 0.000 claims abstract description 16
- 238000011176 pooling Methods 0.000 claims description 28
- 238000001514 detection method Methods 0.000 claims description 21
- 230000007246 mechanism Effects 0.000 claims description 17
- 230000001105 regulatory effect Effects 0.000 claims description 11
- 230000008439 repair process Effects 0.000 claims description 11
- 101100295091 Arabidopsis thaliana NUDT14 gene Proteins 0.000 claims description 8
- 238000012512 characterization method Methods 0.000 claims description 7
- 230000006835 compression Effects 0.000 claims description 6
- 238000007906 compression Methods 0.000 claims description 6
- 238000012937 correction Methods 0.000 claims description 6
- 238000012545 processing Methods 0.000 description 9
- 238000010586 diagram Methods 0.000 description 7
- 230000008569 process Effects 0.000 description 7
- 238000012549 training Methods 0.000 description 5
- 238000013135 deep learning Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000009792 diffusion process Methods 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 235000019800 disodium phosphate Nutrition 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 238000004321 preservation Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/70—Denoising; Smoothing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/77—Retouching; Inpainting; Scratch removal
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/11—Region-based segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30176—Document
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Image Processing (AREA)
- Character Input (AREA)
Abstract
本申请公开了一种去除自然图像中文字类噪声的方法及装置、存储介质,所述方法包括:图像语义分割网络检测待修复图像中包含文字类元素的区域,并将分割识别区域作为待修复区域掩码;根据图像修复模型,用所述待修复区域掩码对所述待修复图像中包含文字类元素的区域进行修复;所述图像修复模型为生成对抗网络的生成器。本申请实施例能够快速自动地检测待修复图像中常见的文字类元素区域,可以选择自动去除自然图像中的文字类噪声元素,也可以通过人工交互的方式校正需要修复的区域。使用基于生成对抗网络的图像修复方法,修复的图像更加自然逼真。
Description
技术领域
本申请实施例涉及图像分类技术领域,尤其涉及一种去除自然图像中文字类噪声的方法及装置、存储介质。
背景技术
近年来,随着大数据时代的到来和计算机硬件的发展,人工智能在我们的生活中越来越普及。其中,深度学习技术在计算机视觉得到了广泛的应用,而图像识别是应用最广泛的技术之一,如拍照识物、人脸识别、交通标志识别、手势识别、垃圾分类等。这些技术在电子商务行业、汽车工业、游戏产业、制造业得到了相应的应用。
图像由于人为因素,常常会带有文字等元素。这些文字类元素破坏图像的美观度,妨碍图像的再利用,降低图像的保存价值和质量。因此,大量的应用场景需要去除自然场景图像中的文字类元素,以得到干净的图像。然而,自然图像中文字元素往往样式各异、分布不均,如手写字、字幕、水印,划痕等,这些都增加了去除文字元素的难度。现有主流文字类元素去除方法通常需要人工标注文字掩码区域,然后进行图像修复,该方法不仅存在恢复图像质量差,不符合自然图像特征的问题,而且耗费时间长、人力成本负担重。
另一方面,基于扩散的传统图像修复方法利用待修复区域的边缘信息,确定扩散的方向,向边缘内扩散已知的信息。这种方法恢复的图像不自然、模糊、缺乏纹理细节,而且无法恢复大范围图像缺损区域。其他传统方法也具有处理流程复杂、计算量大、泛化性低等类似问题。
发明内容
有鉴于此,本申请实施例提供一种去除自然图像中文字类噪声的方法及装置、存储介质。
根据本申请的第一方面,提供一种去除自然图像中文字类噪声的方法,包括:
根据图像语义分割网络检测待修复图像中包含文字类元素的区域作,并将分割识别结果作为待修复区域掩码;
根据图像修复模型,用所述待修复区域掩码对所述待修复图像中包含文字类元素的区域进行修复;所述图像修复模型为生成对抗网络的生成器。
作为一种实现方式,所述根据图像语义分割网络检测待修复图像中包含文字类元素的区域,并将分割识别结果作为待修复区域掩码,还包括:
根据图像语义分割网络检测所述待修复图像中包含文字类元素的区域后,确定用户是否选择人工交互方式进行所述待修复图像的修复;若是,则接收所述用户通过删除、修改、新增操作校正待修复区域;否则,将分割识别结果作为待修复区域掩码。
作为一种实现方式,所述图像语义分割网络为U-Net分割网络的“U”型跳层连接网络结构;在所述U-Net的基础上添加空洞空间卷积池化金字塔ASPP网络提取和融合多尺度上下文特征。
作为一种实现方式,所述方法还包括:
增加注意力机制以增强所述图像语义分割网络的特征表征能力;
所述注意力机制使用通道注意力模块对各个通道进行权重的分配,使用空间注意力模块分配空间特征权重。
作为一种实现方式,所述方法还包括:
所述通道注意力模块对每个通道的特征图进行全局池化,获取全局信息;采用两层全连接层学习得到各个通道的权重,并与初始特征进行乘法操作;
所述空间注意力模块使用1*1卷积操作压缩得到特征图的通道数;采用自适应池化将空间特征规整到4种不同尺度;将4种尺度的池化特征拼接规整后输入到所述两层全连接层中学习空间特征的不同局部权重;将学习到的权重参数规整到压缩特征的尺度大小;使用1*1卷积将空间参数尺度恢复到通道注意力特征的空间大小并与其进行乘法操作;将得到的空间特征与原始特征进行加法操作得到最终的注意力特征。
作为一种实现方式,所述方法还包括:
所述图像修复模型为训练好的Pixel2Pixel生成对抗网络模型的生成器G;所述Pixel2Pixel生成对抗网络模型采用U-Net分割网络模型作为所述生成器G。
根据本申请的第二方面,提供一种去除自然图像中文字类噪声的装置,包括:
检测与掩码生成单元,根据图像语义分割网络检测待修复图像中包含文字类元素的区域,并将分割识别区域作为待修复区域掩码;
图像修复单元,用于根据图像修复模型,用所述待修复区域掩码对所述待修复图像中包含文字类元素的区域进行修复;所述图像修复模型为生成对抗网络的生成器。
作为一种实现方式,所述装置还包括:
人工交互单元,用于在所述检测与掩码生成单元根据图像语义分割网络检测所述待修复图像中包含文字类元素的区域作为待修复区域后,确定用户是否选择人工交互方式进行所述待修复图像的修复;若是,则接收所述用户通过删除、修改、新增操作校正待修复区域;否则,通知所述检测与掩码生成单元将分割识别结果作为待修复区域掩码。
作为一种实现方式,所述检测与掩码生成单元中图像语义分割网络为U-Net分割网络的“U”型跳层连接网络结构;在所述U-Net的基础上添加空洞空间卷积池化金字塔ASPP网络提取和融合多尺度上下文特征。
作为一种实现方式,所述检测与掩码生成单元还用于:
增加注意力机制以增强所述图像语义分割网络的特征表征能力;
所述注意力机制使用通道注意力模块对各个通道进行权重的分配,使用空间注意力模块分配空间特征权重。
作为一种实现方式,所述检测与掩码生成单元还用于:
所述通道注意力模块对每个通道的特征图进行全局池化,获取全局信息;采用两层全连接层学习得到各个通道的权重,并与初始特征进行乘法操作;
所述空间注意力模块使用1*1卷积操作压缩得到特征图的通道数;采用自适应池化将空间特征规整到4种不同尺度;将4种尺度的池化特征拼接规整后输入到所述两层全连接层中学习空间特征的不同局部权重;将学习到的权重参数规整到压缩特征的尺度大小;使用1*1卷积将空间参数尺度恢复到通道注意力特征的空间大小并与其进行乘法操作;将得到的空间特征与原始特征进行加法操作得到最终的注意力特征。
作为一种实现方式,所述图像修复单元,还用于:
所述图像修复模型为训练好的Pixel2Pixel生成对抗网络模型的生成器G;所述Pixel2Pixel生成对抗网络模型采用U-Net分割网络模型作为所述生成器G。
根据本申请的第三方面,提供一种存储介质,其上存储由可执行程序,所述可执行程序被处理器执行时实现所述的去除自然图像中文字类噪声的方法的步骤。
本申请实施例提供的去除自然图像中文字类噪声的方法及装置、存储介质,根据图像语义分割网络检测待修复图像中包含文字类元素的区域,并将分割识别结果作为待修复区域掩码;根据图像修复模型,用所述待修复区域掩码对所述待修复图像中包含文字类元素的区域进行修复;所述图像修复模型为生成对抗网络的生成器。本申请实施例能够快速自动地检测待修复图像中常见的文字类元素区域,可以选择自动去除自然图像中的文字类噪声元素,也可以通过人工交互的方式校正需要修复的区域。使用基于生成对抗网络的图像修复方法,修复的图像更加自然逼真。
附图说明
图1为本申请实施例提供的去除自然图像中文字类噪声的方法流程示意图;
图2为本申请实施例改进的语义分割模型结构示意图;
图3为本申请实施例提供的去除自然图像中文字类噪声的方法的一具体示例流程图;
图4为本发明实施例提供的注意力模块结构示意图;
图5为本申请实施例提供的Pixel2Pixel模型训练结构框架示意图;
图6为本申请实施例提供的去除自然图像中文字类噪声的装置的组成结构示意图。
具体实施方式
以下结合示例,详细阐明本申请实施例的技术方案的实质。
随着深度学习的兴起,深度神经卷积网络已经能轻松检测到文本或自然场景图像中文字,并定位文字区域。主流的深度学习文字检测方法有基于目标检测和语义分割两种。相比回归矩形框级识别精度的目标检测算法,语义分割方法可以进行像素级别的识别,具有更加精确的定位,而且对文字方向没有严格要求,更贴合文字区域轮廓。主流的语义分割网络结构都是编码器-解码器(Encoder-Decoder),如FCN、U-Net和DeepLab系列分割模型。
基于深度学习中对抗生成网络(GAN)的图像修复方法已经能从大规模数据集中学习到丰富的语义信息,然后以端到端的方式填充图像中缺失的内容,恢复的图像更加自然逼真,从而取得较好的修复效果。
本申请实施例结合最新的语义分割和图像修复技术,通过语义分割得到自然图像中的文字区域,结合人工交互机制,最后利用生成对抗网络修复自然图像。针对不同应用场景,结合文字区域自动选择和人工交互两种决策机制进行图像修复,且使用方便、人力负担轻,恢复图像自然逼真。
图1为本申请实施例提供的去除自然图像中文字类噪声的方法流程示意图,如图1所示,本申请实施例的去除自然图像中文字类噪声的方法包括以下处理步骤:
步骤101,根据图像语义分割网络检测待修复图像中包含文字类元素的区域,并将分割识别结果作为待修复区域掩码。
本申请实施例中,根据图像语义分割网络检测所述待修复图像中包含文字类元素的区域后,确定用户是否选择人工交互方式进行所述待修复图像的修复;若是,则接收所述用户通过删除、修改、新增操作校正待修复区域;否则,将分割识别结果作为待修复区域掩码。
本申请实施例中,图像语义分割网络为U-Net分割网络的“U”型跳层连接网络结构;在所述U-Net的基础上添加空洞空间卷积池化金字塔ASPP网络提取和融合多尺度上下文特征。
本申请实施例改进的语义分割模型如图2所示,整个U-Net网络结构类似于一个大大的U字母。首先进行下采样;然后反卷积进行上采样,之前的低层进行融合;然后再次上采样。重复这个过程,获得输出的注意力图像。
本申请实施例中,空洞空间卷积池化金字塔(atrous spatial pyramid pooling,ASPP)对所给定的输入以不同采样率的空洞卷积并行采样,相当于以多个比例捕捉图像的上下文。
本申请实施例中,还包括增加注意力机制以增强所述图像语义分割网络的特征表征能力;所述注意力机制使用通道注意力模块对各个通道进行权重的分配,使用空间注意力模块分配空间特征权重。
本申请实施例中,通道注意力模块对每个通道的特征图进行全局池化,获取全局信息;采用两层全连接层学习得到各个通道的权重,并与初始特征进行乘法操作;
所述空间注意力模块使用1*1卷积操作压缩得到特征图的通道数;采用自适应池化将空间特征规整到4种不同尺度;将4种尺度的池化特征拼接规整后输入到所述两层全连接层中学习空间特征的不同局部权重;将学习到的权重参数规整到压缩特征的尺度大小;使用1*1卷积将空间参数尺度恢复到通道注意力特征的空间大小并与其进行乘法操作;将得到的空间特征与原始特征进行加法操作得到最终的注意力特征。
步骤102,根据图像修复模型,用所述待修复区域掩码对所述待修复图像中包含文字类元素的区域进行修复;所述图像修复模型为生成对抗网络的生成器。
本申请实施例中,所述图像修复模型(图像修复模块)为训练好的Pixel2Pixel生成对抗网络模型的生成器G;所述Pixel2Pixel生成对抗网络模型采用U-Net分割网络模型作为所述生成器G。
本申请实施例中,生成修复区域掩码后,使用图像修复模块修复选择的区域。图像修复模块使用训练好的Pixel2Pixel模型的生成器G来修复合成逼真的自然图像。Pixel2Pixel是一种生成对抗网络,其训练时输入是成对的图像,主要由生成器G和判别器D组成。为了提升图像的细节和保留不同尺度的信息,采用U-Net模型作为生成器G。
下面结合具体示例,对本申请实施例作进一步详细说明。
本申请实施例以自然图像为例进行说明,需要说明的是,其他图片或者图像等如截屏、图片等文本一样可以使用本申请实施例的技术手段。
图3为本申请实施例提供的去除自然图像中文字类噪声的方法的一具体示例流程图具体步骤如下:
首先,用户加载需要待修复图像。通过文字元素检测模块自动检测出自然图像中包含文字类元素的区域。文字检测模块采用训练好的图像语义分割网络来检测文字区域,并将分割识别结果作为待修复区域掩码。语义分割网络模型借鉴经典分割网络U-Net的“U”型跳层连接网络结构。针对文字的特点,在原始U-Net的基础上添加ASPP模块以提取和融合多尺度上下文特征,并进一步提出新的注意力机制增强网络的特征表征能力,其模型整体结构如图2所示。
具体的说,注意力机制同时考虑了增强通道和空间特征。该机制首先使用通道注意力模块,该模块主要的功能是对各个通道进行权重的分配,然后使用空间注意力模块分配空间特征权重。通道注意力模块首先对每个通道的特征图进行全局池化,获取全局信息,然后采用两层全连接层(fc层)学习得到各个通道的权重,并与初始特征进行乘法操作。在此基础上,空间注意力模块首先使用1*1卷积操作压缩新得到特征图的通道数以减少计算量,然后采用自适应池化将空间特征规整到4种不同尺度,如[1*1,8*8,16*16,32*32]等,以统计不同特征图全局或局部特征,下一步将4种尺度的池化特征拼接规整后,同样输入到两层全连接层(fc层)中学习空间特征的不同局部权重,再将学习到的权重参数规整到前一步压缩特征的尺度大小,接着使用1*1卷积将空间参数尺度恢复到通道注意力特征的空间大小并与其进行乘法操作,最后将最新得到的空间特征与原始特征进行加法操作得到最终的注意力特征。注意力模块结构如图4所示。图4为本发明实施例提供的注意力模块结构示意图。
具体的,***判断用户是否选择以人工交互的方式校正修改U-Net预测的待修复区域。如果需要人工交互,用户可以在生成最终待修复区域掩码前通过删除、修改、新增等操作校正待修复区域。如果不采用人工交互操作,则使用文字预测区域直接生成待修复区域掩码。
生成修复区域掩码后,使用图像修复模块修复选择的区域。图像修复模块使用训练好的Pixel2Pixel模型的生成器G来修复合成逼真的自然图像。Pixel2Pixel是一种生成对抗网络,其训练时输入是成对的图像,主要由生成器G和判别器D组成。为了提升图像的细节和保留不同尺度的信息,采用U-Net模型作为生成器G。Pixel2Pixel的训练结构框架如图5所示。图5为本申请实施例提供的Pixel2Pixel模型训练结构框架示意图。
保存修复好的自然图像,直至完成所有的图像处理,退出***。
图6为本申请实施例提供的去除自然图像中文字类噪声的装置的组成结构示意图,如图6所示,本申请实施例的去除自然图像中文字类噪声的装置包括:
检测与掩码生成单元61,根据图像语义分割网络检测待修复图像中包含文字类元素的区域,并将分割识别区域作为待修复区域掩码;
图像修复单元62,用于根据图像修复模型,用所述待修复区域掩码对所述待修复图像中包含文字类元素的区域进行修复;所述图像修复模型为生成对抗网络的生成器。
所述装置还包括:
人工交互单元63,用于在所述检测与掩码生成单元61根据图像语义分割网络检测所述待修复图像中包含文字类元素的区域作为待修复区域后,确定用户是否选择人工交互方式进行所述待修复图像的修复;若是,则接收所述用户通过删除、修改、新增操作校正待修复区域;否则,通知所述检测与掩码生成单元61将分割识别结果作为待修复区域掩码。
所述检测与掩码生成单元61中图像语义分割网络为U-Net分割网络的“U”型跳层连接网络结构;在所述U-Net的基础上添加空洞空间卷积池化金字塔ASPP网络提取和融合多尺度上下文特征。
所述检测与掩码生成单元61还用于:
增加注意力机制以增强所述图像语义分割网络的特征表征能力;
所述注意力机制使用通道注意力模块对各个通道进行权重的分配,使用空间注意力模块分配空间特征权重。
所述检测与掩码生成单元61还用于:
所述通道注意力模块对每个通道的特征图进行全局池化,获取全局信息;采用两层全连接层学习得到各个通道的权重,并与初始特征进行乘法操作;
所述空间注意力模块使用1*1卷积操作压缩得到特征图的通道数;采用自适应池化将空间特征规整到4种不同尺度;将4种尺度的池化特征拼接规整后输入到所述两层全连接层中学习空间特征的不同局部权重;将学习到的权重参数规整到压缩特征的尺度大小;使用1*1卷积将空间参数尺度恢复到通道注意力特征的空间大小并与其进行乘法操作;将得到的空间特征与原始特征进行加法操作得到最终的注意力特征。
所述图像修复单元62,还用于:
所述图像修复模型为训练好的Pixel2Pixel生成对抗网络模型的生成器G;所述Pixel2Pixel生成对抗网络模型采用U-Net分割网络模型作为所述生成器G。
在示例性实施例中,本申请实施例的去除自然图像中文字类噪声的装置的上述各处理单元可以被一个或多个中央处理器(CPU,Central Processing Unit)、图形处理器(GPU,Graphics Processing Unit)、基带处理器(BP,Base Processor)、应用专用集成电路(ASIC,Application Specific Integrated Circuit)、DSP、可编程逻辑器件(PLD,Programmable Logic Device)、复杂可编程逻辑器件(CPLD,Complex Programmable LogicDevice)、现场可编程门阵列(FPGA,Field-Programmable Gate Array)、通用处理器、控制器、微控制器(MCU,Micro Controller Unit)、微处理器(Microprocessor)、或其他电子元件实现。
在本公开实施例中,图6示出的去除自然图像中文字类噪声的装置中各个处理单元执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
本申请实施例还记载了一种存储介质,存储介质上存储由可执行程序,所述可执行程序被处理器执行时实现所述实施例的去除自然图像中文字类噪声的方法的步骤。
应理解,说明书通篇中提到的“一个实施例”或“一实施例”意味着与实施例有关的特定特征、结构或特性包括在本发明的至少一个实施例中。因此,在整个说明书各处出现的“在一个实施例中”或“在实施例中”未必一定指相同的实施例。此外,这些特定的特征、结构或特性可以任意适合的方式结合在一个或多个实施例中。应理解,在本发明的各种实施例中,上述各过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
在本申请所提供的几个实施例中,应该理解到,所揭露的设备和方法,可以通过其它的方式实现。以上所描述的设备实施例仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,如:多个单元或组件可以结合,或可以集成到另一个***,或一些特征可以忽略,或不执行。另外,所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口,设备或单元的间接耦合或通信连接,可以是电性的、机械的或其它形式的。
上述作为分离部件说明的单元可以是、或也可以不是物理上分开的,作为单元显示的部件可以是、或也可以不是物理单元;既可以位于一个地方,也可以分布到多个网络单元上;可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。
另外,在本发明各实施例中的各功能单元可以全部集成在一个处理单元中,也可以是各单元分别单独作为一个单元,也可以两个或两个以上单元集成在一个单元中;上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
以上所述,仅为本发明的实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。
Claims (13)
1.一种去除自然图像中文字类噪声的方法,其特征在于,所述方法包括:
根据图像语义分割网络检测待修复图像中包含文字类元素的区域,并将分割识别区域作为待修复区域掩码;
根据图像修复模型,用所述待修复区域掩码对所述待修复图像中包含文字类元素的区域进行修复;所述图像修复模型为生成对抗网络的生成器。
2.根据权利要求1所述的方法,其特征在于,所述根据图像语义分割网络检测待修复图像中包含文字类元素的区域,并将分割识别结果作为待修复区域掩码,还包括:
根据图像语义分割网络检测所述待修复图像中包含文字类元素的区域后,确定用户是否选择人工交互方式进行所述待修复图像的修复;若是,则接收所述用户通过删除、修改、新增操作校正待修复区域;否则,将分割识别结果自动作为待修复区域掩码。
3.根据权利要求1所述的方法,其特征在于,所述图像语义分割网络为U-Net分割网络的“U”型跳层连接网络结构;在所述U-Net的基础上添加空洞空间卷积池化金字塔ASPP网络提取和融合多尺度上下文特征。
4.根据权利要求3所述的方法,其特征在于,所述方法还包括:
增加注意力机制以增强所述图像语义分割网络的特征表征能力;
所述注意力机制使用通道注意力模块对各个通道进行权重的分配,使用空间注意力模块分配空间特征权重。
5.根据权利要求4所述的方法,其特征在于,所述方法还包括:
所述通道注意力模块对每个通道的特征图进行全局池化,获取全局信息;采用两层全连接层学习得到各个通道的权重,并与初始特征进行乘法操作;
所述空间注意力模块使用1*1卷积操作压缩得到特征图的通道数;采用自适应池化将空间特征规整到4种不同尺度;将4种尺度的池化特征拼接规整后输入到所述两层全连接层中学习空间特征的不同局部权重;将学习到的权重参数规整到压缩特征的尺度大小;使用1*1卷积将空间参数尺度恢复到通道注意力特征的空间大小并与其进行乘法操作;将得到的空间特征与原始特征进行加法操作得到最终的注意力特征。
6.根据权利要求1所述的方法,其特征在于,所述方法还包括:
所述图像修复模型为训练好的Pixel2Pixel生成对抗网络模型的生成器G,所述Pixel2Pixel生成对抗网络模型采用U-Net分割网络模型作为所述生成器G。
7.一种去除自然图像中文字类噪声的装置,其特征在于,所述装置包括:
检测与掩码生成单元,根据图像语义分割网络检测待修复图像中包含文字类元素的区域,并将分割识别区域作为待修复区域掩码;
图像修复单元,用于根据图像修复模型,用所述待修复区域掩码对所述待修复图像中包含文字类元素的区域进行修复;所述图像修复模型为生成对抗网络的生成器。
8.根据权利要求7所述的装置,其特征在于,所述装置还包括:
人工交互单元,用于在所述检测与掩码生成单元根据图像语义分割网络检测所述待修复图像中包含文字类元素的区域作为待修复区域后,确定用户是否选择人工交互方式进行所述待修复图像的修复;若是,则接收所述用户通过删除、修改、新增操作校正待修复区域;否则,通知所述检测与掩码生成单元将分割识别结果自动作为待修复区域掩码。
9.根据权利要求7所述的装置,其特征在于,所述检测与掩码生成单元中图像语义分割网络为U-Net分割网络的“U”型跳层连接网络结构;在所述U-Net的基础上添加空洞空间卷积池化金字塔ASPP网络提取和融合多尺度上下文特征。
10.根据权利要求9所述的装置,其特征在于,所述检测与掩码生成单元还用于:
增加注意力机制以增强所述图像语义分割网络的特征表征能力;
所述注意力机制使用通道注意力模块对各个通道进行权重的分配,使用空间注意力模块分配空间特征权重。
11.根据权利要求10所述的装置,其特征在于,所述检测与掩码生成单元还用于:
所述通道注意力模块对每个通道的特征图进行全局池化,获取全局信息;采用两层全连接层学习得到各个通道的权重,并与初始特征进行乘法操作;
所述空间注意力模块使用1*1卷积操作压缩得到特征图的通道数;采用自适应池化将空间特征调整到4种不同尺度;将4种尺度的池化特征拼接规整后输入到所述两层全连接层中学习空间特征的不同局部权重;将学习到的权重参数恢复到压缩特征的尺度;使用1*1卷积将空间参数尺度恢复到通道注意力特征的空间大小并与其进行乘法操作;将得到的空间特征与原始特征进行加法操作得到最终的注意力特征。
12.根据权利要求7所述的装置,其特征在于,所述图像修复单元,还用于:
所述图像修复模型为训练好的Pixel2Pixel生成对抗网络模型的生成器G;所述Pixel2Pixel生成对抗网络模型采用U-Net分割网络模型作为所述生成器G。
13.一种存储介质,其上存储由可执行程序,所述可执行程序被处理器执行时实现如求1至6任一项所述的去除自然图像中文字类噪声的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110172477.8A CN112801911B (zh) | 2021-02-08 | 2021-02-08 | 一种去除自然图像中文字类噪声的方法及装置、存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110172477.8A CN112801911B (zh) | 2021-02-08 | 2021-02-08 | 一种去除自然图像中文字类噪声的方法及装置、存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112801911A CN112801911A (zh) | 2021-05-14 |
CN112801911B true CN112801911B (zh) | 2024-03-26 |
Family
ID=75814802
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110172477.8A Active CN112801911B (zh) | 2021-02-08 | 2021-02-08 | 一种去除自然图像中文字类噪声的方法及装置、存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112801911B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116670683A (zh) * | 2021-12-28 | 2023-08-29 | 华为技术有限公司 | 图像处理方法、装置和存储介质 |
CN114627389B (zh) * | 2022-03-23 | 2023-01-31 | 中国科学院空天信息创新研究院 | 一种基于多时相光学遥感影像的筏式养殖区提取方法 |
Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105574513A (zh) * | 2015-12-22 | 2016-05-11 | 北京旷视科技有限公司 | 文字检测方法和装置 |
CN107609560A (zh) * | 2017-09-27 | 2018-01-19 | 北京小米移动软件有限公司 | 文字识别方法及装置 |
CN108805840A (zh) * | 2018-06-11 | 2018-11-13 | Oppo(重庆)智能科技有限公司 | 图像去噪的方法、装置、终端及计算机可读存储介质 |
CN109359550A (zh) * | 2018-09-20 | 2019-02-19 | 大连民族大学 | 基于深度学习技术的满文文档***提取与去除方法 |
CN109583449A (zh) * | 2018-10-29 | 2019-04-05 | 深圳市华尊科技股份有限公司 | 字符识别方法及相关产品 |
CN110287960A (zh) * | 2019-07-02 | 2019-09-27 | 中国科学院信息工程研究所 | 自然场景图像中曲线文字的检测识别方法 |
WO2019238560A1 (en) * | 2018-06-12 | 2019-12-19 | Tomtom Global Content B.V. | Generative adversarial networks for image segmentation |
CN110738207A (zh) * | 2019-09-10 | 2020-01-31 | 西南交通大学 | 一种融合文字图像中文字区域边缘信息的文字检测方法 |
CN110956579A (zh) * | 2019-11-27 | 2020-04-03 | 中山大学 | 一种基于生成语义分割图的文本改写图片方法 |
CN111080723A (zh) * | 2019-12-17 | 2020-04-28 | 易诚高科(大连)科技有限公司 | 基于Unet网络的图像元素分割方法 |
CN111160352A (zh) * | 2019-12-27 | 2020-05-15 | 创新奇智(北京)科技有限公司 | 一种基于图像分割的工件金属表面文字识别方法及*** |
CN111199550A (zh) * | 2020-04-09 | 2020-05-26 | 腾讯科技(深圳)有限公司 | 图像分割网络的训练方法、分割方法、装置和存储介质 |
WO2020219915A1 (en) * | 2019-04-24 | 2020-10-29 | University Of Virginia Patent Foundation | Denoising magnetic resonance images using unsupervised deep convolutional neural networks |
-
2021
- 2021-02-08 CN CN202110172477.8A patent/CN112801911B/zh active Active
Patent Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105574513A (zh) * | 2015-12-22 | 2016-05-11 | 北京旷视科技有限公司 | 文字检测方法和装置 |
CN107609560A (zh) * | 2017-09-27 | 2018-01-19 | 北京小米移动软件有限公司 | 文字识别方法及装置 |
CN108805840A (zh) * | 2018-06-11 | 2018-11-13 | Oppo(重庆)智能科技有限公司 | 图像去噪的方法、装置、终端及计算机可读存储介质 |
WO2019238560A1 (en) * | 2018-06-12 | 2019-12-19 | Tomtom Global Content B.V. | Generative adversarial networks for image segmentation |
CN109359550A (zh) * | 2018-09-20 | 2019-02-19 | 大连民族大学 | 基于深度学习技术的满文文档***提取与去除方法 |
CN109583449A (zh) * | 2018-10-29 | 2019-04-05 | 深圳市华尊科技股份有限公司 | 字符识别方法及相关产品 |
WO2020219915A1 (en) * | 2019-04-24 | 2020-10-29 | University Of Virginia Patent Foundation | Denoising magnetic resonance images using unsupervised deep convolutional neural networks |
CN110287960A (zh) * | 2019-07-02 | 2019-09-27 | 中国科学院信息工程研究所 | 自然场景图像中曲线文字的检测识别方法 |
CN110738207A (zh) * | 2019-09-10 | 2020-01-31 | 西南交通大学 | 一种融合文字图像中文字区域边缘信息的文字检测方法 |
CN110956579A (zh) * | 2019-11-27 | 2020-04-03 | 中山大学 | 一种基于生成语义分割图的文本改写图片方法 |
CN111080723A (zh) * | 2019-12-17 | 2020-04-28 | 易诚高科(大连)科技有限公司 | 基于Unet网络的图像元素分割方法 |
CN111160352A (zh) * | 2019-12-27 | 2020-05-15 | 创新奇智(北京)科技有限公司 | 一种基于图像分割的工件金属表面文字识别方法及*** |
CN111199550A (zh) * | 2020-04-09 | 2020-05-26 | 腾讯科技(深圳)有限公司 | 图像分割网络的训练方法、分割方法、装置和存储介质 |
Non-Patent Citations (4)
Title |
---|
Semantic Prior Based Generative Adversarial Network for Video Super-Resolution;Xinyi Wu;2019 IEEE 16th International Symposium on Biomedical Imaging (ISBI 2019);20190711;全文 * |
基于深度学习的场景文字检测与识别综述;艾合麦提江・麦提托合提;艾斯卡尔・艾木都拉;阿布都萨拉木・达吾提;;电视技术(14);全文 * |
生成对抗网络在医学图像处理中的应用;陈锟;乔沁;宋志坚;;生命科学仪器;20181025(Z1);全文 * |
艾合麦提江・麦提托合提 * |
Also Published As
Publication number | Publication date |
---|---|
CN112801911A (zh) | 2021-05-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109670558B (zh) | 使用深度学习的数字图像完成 | |
CN112232349B (zh) | 模型训练方法、图像分割方法及装置 | |
CN111292264B (zh) | 一种基于深度学习的图像高动态范围重建方法 | |
CN110414499A (zh) | 文本位置定位方法和***以及模型训练方法和*** | |
CN112801911B (zh) | 一种去除自然图像中文字类噪声的方法及装置、存储介质 | |
CN111062903A (zh) | 图像水印的自动处理方法、***、电子设备及存储介质 | |
CN109472193A (zh) | 人脸检测方法及装置 | |
CN110781980B (zh) | 目标检测模型的训练方法、目标检测方法及装置 | |
WO2021238420A1 (zh) | 图像去雾方法、终端及计算机存储介质 | |
CN113160062A (zh) | 一种红外图像目标检测方法、装置、设备及存储介质 | |
CN112906794A (zh) | 一种目标检测方法、装置、存储介质及终端 | |
CN108710893A (zh) | 一种基于特征融合的数字图像相机源模型分类方法 | |
CN116645592B (zh) | 一种基于图像处理的裂缝检测方法和存储介质 | |
CN110689495A (zh) | 一种深度学习的图像修复方法 | |
CN110310224A (zh) | 光效渲染方法及装置 | |
CN113378812A (zh) | 一种基于Mask R-CNN和CRNN的数字表盘识别方法 | |
CN113824884A (zh) | 拍摄方法与装置、摄影设备及计算机可读存储介质 | |
CN113468946A (zh) | 用于交通灯检测的语义一致的增强训练数据 | |
CN108520263A (zh) | 一种全景图像的识别方法、***及计算机存储介质 | |
CN111951373B (zh) | 一种人脸图像的处理方法和设备 | |
CN108810319A (zh) | 图像处理装置和图像处理方法 | |
CN116091784A (zh) | 一种目标跟踪方法、设备及存储介质 | |
CN116167910A (zh) | 文本编辑方法、装置、计算机设备及计算机可读存储介质 | |
CN113034432B (zh) | 一种产品缺陷检测方法、***、装置及存储介质 | |
CN113033645A (zh) | Rgb-d图像的多尺度融合深度图像增强方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |