CN116863017A - 图像处理方法、网络模型训练方法、装置、设备、介质 - Google Patents
图像处理方法、网络模型训练方法、装置、设备、介质 Download PDFInfo
- Publication number
- CN116863017A CN116863017A CN202310659387.0A CN202310659387A CN116863017A CN 116863017 A CN116863017 A CN 116863017A CN 202310659387 A CN202310659387 A CN 202310659387A CN 116863017 A CN116863017 A CN 116863017A
- Authority
- CN
- China
- Prior art keywords
- image
- network
- erasing
- erasure
- document image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 111
- 238000012549 training Methods 0.000 title claims abstract description 82
- 238000003672 processing method Methods 0.000 title abstract description 14
- 230000006870 function Effects 0.000 claims abstract description 91
- 238000012545 processing Methods 0.000 claims abstract description 42
- 238000000605 extraction Methods 0.000 claims description 92
- 238000005070 sampling Methods 0.000 claims description 49
- 230000011218 segmentation Effects 0.000 claims description 29
- 238000004590 computer program Methods 0.000 claims description 15
- 238000013135 deep learning Methods 0.000 abstract description 2
- 230000000694 effects Effects 0.000 description 25
- 230000004927 fusion Effects 0.000 description 18
- 230000002452 interceptive effect Effects 0.000 description 18
- 238000012360 testing method Methods 0.000 description 16
- 238000010586 diagram Methods 0.000 description 14
- 230000008569 process Effects 0.000 description 13
- 238000004891 communication Methods 0.000 description 8
- 238000005516 engineering process Methods 0.000 description 6
- 238000012015 optical character recognition Methods 0.000 description 6
- 238000001514 detection method Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000007639 printing Methods 0.000 description 3
- 230000033228 biological regulation Effects 0.000 description 2
- 230000001413 cellular effect Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000011144 upstream manufacturing Methods 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T11/00—2D [Two Dimensional] image generation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
- G06N3/0455—Auto-encoder networks; Encoder-decoder networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0475—Generative networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/09—Supervised learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/094—Adversarial learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/191—Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
- G06V30/19147—Obtaining sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/191—Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
- G06V30/1918—Fusion techniques, i.e. combining data from various sources, e.g. sensor fusion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/414—Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/30—Writer recognition; Reading and verifying signatures
- G06V40/33—Writer recognition; Reading and verifying signatures based only on signature image, e.g. static signature recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- General Engineering & Computer Science (AREA)
- Molecular Biology (AREA)
- Data Mining & Analysis (AREA)
- Multimedia (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Geometry (AREA)
- Medical Informatics (AREA)
- Human Computer Interaction (AREA)
- Databases & Information Systems (AREA)
- Computer Graphics (AREA)
- Editing Of Facsimile Originals (AREA)
Abstract
本公开提供了图像处理方法、网络模型训练方法、装置、设备、介质,涉及图像处理领域,尤其涉及计算机视觉、深度学习、图像重建等技术领域。具体实现方案为:通过将待处理文档输入预先训练的擦除网络,对待处理文档图像中第一格式文字进行擦除,获取待处理文档图像对应的最终擦除图像;其中,擦除网络和分割头网络、判别器网络组成擦除网络模型,擦除网络通过使用样本文档图像对对擦除网络模型预先训练获取;样本文档图像对包括样本文档图像以及样本文档图像对应的擦除了第一格式文字的标签图像;擦除网络模型至少根据内容损失函数以及风格损失函数进行训练;内容损失函数和风格损失函数根据样本文档图像的混合图像特征以及标签图像获取。
Description
技术领域
本公开涉及图像处理技术领域,尤其涉及计算机视觉、深度学习、图像重建等技术领域。具体而言,本公开涉及一种图像处理方法、网络模型训练方法、装置、设备、介质。
背景技术
文字擦除,尤其是特定格式的文字(如手写笔迹文字)擦除在教育、办公、隐私保护、图像编辑等领域应用广泛。
如对有手写笔迹的办公文档进行手写笔迹擦除,可以一键还原空白文档;对已经作答的试卷图像进行手写笔迹擦除,可以将已经作答的试卷还原为空白试卷,以供学生重新作答以及教育机构进行题库录排、试卷格式转换等。
发明内容
本公开提供了一种图像处理方法、网络模型训练方法、装置、设备、介质。
根据本公开的第一方面,提供了一种图像处理的方法,该方法包括:
获取待处理文档图像;
通过将所述待处理文档输入预先训练的擦除网络,对所述待处理文档图像中第一格式文字进行擦除,获取所述待处理文档图像对应的最终擦除图像;
其中,所述擦除网络和分割头网络、判别器网络组成擦除网络模型,所述擦除网络通过使用样本文档图像对对所述擦除网络模型预先训练获取;所述样本文档图像对包括样本文档图像以及所述样本文档图像对应的擦除了第一格式文字的标签图像;
所述擦除网络模型至少根据内容损失函数以及风格损失函数进行训练;所述内容损失函数和风格损失函数根据所述样本文档图像的混合图像特征以及所述标签图像获取;所述混合图像特征根据所述样本文档图像中第一格式文字对应的像素,以及所述擦除网络输出的图像中除第一格式文字对应的像素外的其他像素获取。
根据本公开的第二方面,提供了一种擦除网络的训练方法,该方法包括:
获取样本文档图像对,所述样本文档图像对包括样本文档图像以及所述样本文档图像对应的擦除了第一格式文字的标签图像;
根据所述样本文档图像对对擦除网络模型进行训练,获取擦除网络;
所述擦除网络和分割头网络、判别器网络组成所述擦除网络模型;所述擦除网络用于对输入所述擦除网络的样本文档图像中的第一格式文字进行擦除,获取所述样本文档图像对应的最终擦除图像;所述分割头网络用于获取所述样本文档图像中第一格式文字对应的掩码;所述判别器网络用于判断所述最终擦除图像中第一格式文字是否擦除;
所述擦除网络模型至少根据内容损失函数以及风格损失函数进行训练;所述内容损失函数和风格损失函数根据所述样本文档图像的混合图像特征以及所述标签图像获取;所述混合图像特征根据所述样本文档图像中第一格式文字对应的像素,以及所述擦除网络输出的图像中除第一格式文字对应的像素外的其他像素获取。
根据本公开第三方面,提供了一种图像处理的装置,该装置包括:
图像模块,用于获取待处理文档图像;
推理模块,用于通过将所述待处理文档输入预先训练的擦除网络,对所述待处理文档图像中第一格式文字进行擦除,获取所述待处理文档图像对应的最终擦除图像;
其中,所述擦除网络和分割头网络、判别器网络组成擦除网络模型,所述擦除网络通过使用样本文档图像对对所述擦除网络模型预先训练获取;所述样本文档图像对包括样本文档图像以及所述样本文档图像对应的擦除了第一格式文字的标签图像;
所述擦除网络模型至少根据内容损失函数以及风格损失函数进行训练;所述内容损失函数和风格损失函数根据所述样本文档图像的混合图像特征以及所述标签图像获取;所述混合图像特征根据所述样本文档图像中第一格式文字对应的像素,以及所述擦除网络输出的图像中除第一格式文字对应的像素外的其他像素获取。
根据本公开第四方面,提供了一种擦除网络的训练装置,该装置包括:
样本模块,用于获取样本文档图像对,所述样本文档图像对包括样本文档图像以及所述样本文档图像对应的擦除了第一格式文字的标签图像;
训练模块,用于根据所述样本文档图像对对擦除网络模型进行训练,获取擦除网络;
所述擦除网络和分割头网络、判别器网络组成所述擦除网络模型;所述擦除网络用于对输入所述擦除网络的样本文档图像中的第一格式文字进行擦除,获取所述样本文档图像对应的最终擦除图像;所述分割头网络用于获取所述样本文档图像中第一格式文字对应的掩码;所述判别器网络用于判断所述最终擦除图像中第一格式文字是否擦除;
所述擦除网络模型至少根据内容损失函数以及风格损失函数进行训练;所述内容损失函数和风格损失函数根据所述样本文档图像的混合图像特征以及所述标签图像获取;所述混合图像特征根据所述样本文档图像中第一格式文字对应的像素,以及所述擦除网络输出的图像中除第一格式文字对应的像素外的其他像素获取。
根据本公开的第五方面,提供了一种电子设备,该电子设备包括:
至少一个处理器;以及
与上述至少一个处理器通信连接的存储器;其中,
存储器存储有可被上述至少一个处理器执行的指令,指令被上述至少一个处理器执行,以使上述至少一个处理器能够执行上述图像处理的方法和/或擦除网络的训练方法。
根据本公开的第六方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,该计算机指令用于使计算机执行上述图像处理的方法和/或擦除网络的训练方法。
根据本公开的第七方面,提供了一种计算机程序产品,包括计算机程序,该计算机程序在被处理器执行时实现上述图像处理的方法和/或擦除网络的训练方法。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本公开的限定。其中:
图1是本公开实施例提供的一种图像处理的方法的流程示意图;
图2是本公开实施例提供的另一种图像处理的方法的部分步骤的流程示意图;
图3是本公开实施例提供的另一种图像处理的方法的部分步骤的流程示意图;
图4是本公开实施例提供的另一种图像处理的方法的擦除网络模型的部分网络的结构的示意图;
图5是本公开实施例提供的另一种图像处理的方法的部分步骤的流程示意图;
图6是本公开实施例提供的另一种图像处理的方法的部分步骤的流程示意图;
图7是本公开实施例提供的另一种服图像处理的方法的部分步骤的流程示意图;
图8是本公开实施例提供的一种擦除网络的训练方法的流程示意图;
图9本公开实施例提供的一种图像处理的装置的结构示意图;
图10是本公开实施例提供的一种擦除网络的训练装置的结构示意图;
图11是用来实现本公开实施例的图像处理的方法和擦除网络的训练方法的电子设备的框图。
具体实施方式
以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
在一些相关的技术中,可以通过OCR(OpticalCharacterRecognition,光学字符识别)技术,定位出待识别图像中特定格式的文字的文字区域,然后使用图像修复的相关方法对待识别图像中特定格式的文字进行擦除。
但由于OCR技术是进行区域检测,而不是逐字符检测,当待检测图像中存在其他格式的文字的情况下,无法解决不同格式的文字重叠的问题。且在待识别图像背景存在阴影,需要对待识别图像的背景转白的情况下,OCR技术不能实现背景去阴影,需要将背景去阴影当作OCR的上游任务。
在一些相关技术中,可以将特定格式的文字擦除任务当作语义分割任务,使用语义分割模型将待识别图像的像素分为背景类、特定格式的文字类、其他格式文字类,通过对待识别图像逐像素进行分类,识别出待识别图像中的特定格式的文字对应的像素,通过将待识别图像中的特定格式的文字对应的像素替换为背景类实现特定格式的文字的擦除。
但逐像素分类,若出现误分类的情况,就会导致特定格式的文字的擦除效果变差,尤其是特定格式的文字边缘易出现误分类的情况,进而导致特定格式的文字擦除不干净。
在一些相关技术中,可以将特定格式的文字擦除任务当作图像生成任务,以含有特定格式的文字的图像作为模型输入,通过基于生成对抗网络的模型的学习,自动擦除特定格式的文字,输出不含特定格式的文字的图像。
但在待识别图像背景存在阴影,需要对待识别图像的背景转白的情况下,基于生成对抗网络的模型在训练过程中无法收敛,需要将背景去阴影当作特定格式的文字擦除任务的上游任务,才能实现背景去阴影。
本公开实施例提供的图像处理的方法、擦除网络的训练方法、图像处理的装置、擦除网络的训练装置、电子设备、计算机可读存储介质,旨在解决现有技术的如上技术问题中的至少一个。
本公开实施例提供的图像处理的方法、擦除网络的训练方法可以由终端设备或服务器等电子设备执行,终端设备可以为车载设备、用户设备(UserEquipment,UE)、移动设备、用户终端、终端、蜂窝电话、无绳电话、个人数字助理(PersonalDigitalAssistant,PDA)、手持设备、计算设备、车载设备、可穿戴设备等,所述方法可以通过处理器调用存储器中存储的计算机可读程序指令的方式来实现。或者,可通过服务器执行所述方法。
图1示出了本公开实施例提供的图像处理的方法的流程示意图,如图1中所示,本公开实施例提供的图像处理的方法可以包括步骤S110、步骤S120。
在步骤S110中,获取待处理文档图像;
在步骤S120中,通过将待处理文档输入预先训练的擦除网络,对待处理文档图像中第一格式文字进行擦除,获取待处理文档图像对应的最终擦除图像;
其中,擦除网络和分割头网络、判别器网络组成擦除网络模型,擦除网络通过使用样本文档图像对对擦除网络模型预先训练获取;样本文档图像对包括样本文档图像以及样本文档图像对应的擦除了第一格式文字的标签图像;
擦除网络模型至少根据内容损失函数以及风格损失函数进行训练;内容损失函数和风格损失函数根据样本文档图像的混合图像特征以及标签图像获取;混合图像特征根据样本文档图像中第一格式文字对应的像素,以及擦除网络输出的图像中除第一格式文字对应的像素外的其他像素获取。
在一些可能的实现方式中,在步骤S110中,待处理文档图像可以为具有第一格式文字的待处理文档的图像;待处理文档图像也可以是至少具有第一格式文字和第二格式文字的待处理文档图像。
也就是说,待处理文档图像可以是只具有一种格式文字的文档的图像;也可以是具有多种格式文字的文档的图像。
在一些具体的实现方式中,第一格式文字可以为手写笔迹文字,第二格式文字可以为印刷体格式文字。待处理文档图像可以是具有手写笔迹的试卷(如已经作答过的试卷)的图像,也可以是具有手写笔迹的办公文档(如具有手写签名的文档)的图像。
在一些可能的实现方式中,在步骤S120中,擦除网络可以包括特征提取子网络、粗擦除子网络、精细擦除子网络。
其中,特征提取子网络用于对待处理文档图像进行特征提取,获取待处理文档图像的图像特征。
预先训练的特征提取子网络可以是任何具有图像特征提取能力的网络,如ResNet(残差网络)、VGGNet(视觉几何组网络)等。特征提取子网络的层级越深,输出的图像特征的分辨率就越低。
在特征提取子网络提取图像特征的过程中,特征提取子网络的层级越深,其提取到的图像特征的分辨率就越低,虽然可以通过上卷积以及反卷积将低分辨率的图像特征恢复到高分辨率图像特征,但分辨率由高变低的过程还是会损失信息,如空间信息。
在一些可能的实现方式中,可以通过不同分辨率的图像特征之间进行并行连接,来避免特征提取子网络存在的随着网络深度加深,图像特征分辨率下降而导致的空间信息损失的问题。
在一些可能的实现方式中,也可以在不同分辨率的图像特征之间进行交互融合,来避免特征提取子网络存在的随着网络深度加深,图像特征分辨率下降而导致的空间信息损失的问题。
粗擦除子网络用于根据待处理文档图像的图像特征对待处理文档图像中第一格式文字进行擦除,获取待处理文档图像对应的粗擦除图像。
粗擦除子网络通过上采样或反卷积,将特征提取子网络的特征恢复到高分辨率表征,通过生成一个与待处理文档图像大小相同的特征图,生成对待处理文档图像中第一格式文字进行擦除的粗擦除图像。
也就是说,粗擦除子网络用于根据特征提取子网络输出的图像特征,对图像特征对应的图像中的特定格式(如第一格式)文字进行粗擦除,并生成擦除后的图像。
在一些可能的实现方式中,粗擦除子网络可以是与特征提取子网络对应的编码器。
在一些可能的实现方式中,也可以通过不同分辨率的图像特征之间进行并行连接来提升编码器的性能,提升获取的粗擦除图像的擦除效果。
在一些可能的实现方式中,也可以通过不同分辨率的图像特征之间进行交互融合来提升编码器的性能,提升获取的粗擦除图像的擦除效果。
精细擦除子网络用于根据待处理文档图像对应的粗擦除图像对粗擦除图像中第一格式文字进行擦除,获取待处理文档图像对应的最终擦除图像。
在一些可能的实现方式中,精细擦除子网络可以包括解码器和编码器。
其中,解码器用于对输入解码器的粗擦除图像进行特征提取,编码器用于对解码器提取的特征进行上采样或反卷积来生成对粗擦除图像中第一格式文字进行擦除的最终擦除图像。
也就是说,精细擦除子网络是在粗擦除子网络对待处理文档图像进行第一格式文字粗擦除的基础上进行精细擦除,生成擦除效果更好的最终擦除图像。
在一些可能的实现方式中,也可以通过不同分辨率的图像特征之间进行并行连接来提升精细擦除子网络的性能,提升获取的最终擦除图像的擦除效果。
在一些可能的实现方式中,也可以通过不同分辨率的图像特征之间进行交互融合来提升精细擦除子网络的性能,提升获取的最终擦除图像的擦除效果。
精细擦除子网络输出的最终擦除图像是对待处理文档图像的第一格式文字进行擦除,并保留其他格式文字(如第二格式文字)的图像。
在第一格式文字为手写笔迹文字,第二格式文字为印刷格式文字(即印刷体文字)的情况下,最终擦除图像就是保留了印刷格式文字,擦出了手写笔迹文字的图像。
在待处理文档图像是具有手写笔迹的试卷(如已经作答过的试卷)的图像的情况下,通过本公开实施例的图像处理的方法,可以将试卷一键还原为空白试卷(即没有作答过的试卷);在教育toC(面向用户)场景中,通过试卷一键还原,用户可以进行错题重练;在教育toB(面向企业)场景中,通过试卷一键还原,可以使得OCR检测识别任务不受手写笔迹的干扰,提升题库录排、试卷格式转换的准确率。
在待处理文档图像是具有手写笔迹的办公文档(如具有手写签名的文档)的图像的情况下,通过本公开实施例的图像处理的方法可以将办公文档的签名等擦除,获取原始办公文档。
本公开实施例的图像处理方法中使用的擦除网络为EraseNet(擦除网络模型)的组成部分。
也就是说,本公开实施例的图像处理方法中使用的擦除网络的特征提取子网络、粗擦除子网络、精细擦除子网络与SegmentationHead(分割头网络)以及判别器网络共同组成EraseNet。
具体的,特征提取子网络之后连接两个分支,一个分支是监督分支,即SegmentationHead,该分支的最大作用是判定第一格式文字的Mask(掩码)的位置,并使用Mask来约束监督擦除分支的训练;另一个分支是擦除分支,该分支包括按照顺序连接的粗擦除子网络、精细擦除子网络以及判别器网络。其中,判别器网络用于判断精细擦除子网络生成的最终擦除图像中第一格式文字是否擦除。
使用样本文档图像对,即样本文档图像IInput以及样本文档图像IInput对应擦除了第一格式文字的标签图像Igt、样本文档图像IInput中第一格式文字的MaskIMask,对EraseNet进行训练获取训练好的擦除网络,或者说获取训练好的特征提取子网络、粗擦除子网络、精细擦除子网络。
EraseNet的训练过程可以是将样本文档图像输入特征提取子网络,获取样本文档图像对应的图像特征,将获取的图像特征输入Segmentation Head,输出样本图像中第一格式文字的Mask;将获取的图像特征输入粗擦除子网络,获取粗擦除子网络输出的粗擦除图像ICout,将ICout输入精细擦除子网络,获取精细擦除子网络输出的最终擦除图像IRout,并将IRout输入判别器网络,获取判别器网络的输出。
EraseNet的Loss函数(损失函数)包括多个组成部分,在一些可能的实现方式中,EraseNet至少包括风格损失函数LS以及内容损失函数LPerc。
风格损失函数LS以及内容损失函数LPerc可以通过以下公式来获取:
其中,φn(IRout)为将IRout输入预先训练的图像特征提取网络(如VGG-16网络),图像特征提取网络的第n层pooling-layer(池化层)输出的feature map(特征图);φn(Igt)分别为将Igt输入预先训练的图像特征提取网络(如VGG-16网络),图像特征提取网络的第n层pooling-layer(池化层)输出的featuremap(特征图);φn(ICom)分别为将ICom输入预先训练的图像特征提取网络(如VGG-16网络),图像特征提取网络的第n层pooling-layer(池化层)输出的featuremap(特征图);Hn、Wn、Cn分别代表图像特征提取网络第n层的高、宽和通道;N为图像特征提取网络的总层数;Ii为IRout和ICom。
ICom为混合图像特征,其根据样本文档图像中第一格式文字对应的像素,以及擦除网络输出的图像中除第一格式文字对应的像素外的其他像素确定。
具体的,ICom可以根据如下的公式确定:
ICom=IMask*Igt+(1-IMask)*IRout;
由于IMask中只有第一格式文字的位置为1,其余位置为0,(1-IMask)则是只有第一格式文字的位置为0,其余位置为1,IMask*Igt获取的就是样本文档图像中第一格式文字对应的像素,(1-IMask)*IRout获取的就是输出的图像中除第一格式文字对应的像素外的其他像素,通过以上公式计算ICom,通过ICom计算内容损失函数以及风格损失函数,就可以实现通过内容损失函数以及风格损失函数来监督除第一格式文字外的其他区域,实现监督分支以及擦除分支的解耦,各司其职,提升了获取的擦除网络的擦除效果。
在一些可能的实现方式中,EraseNet的Loss函数还包括Local-awareReconstructionLoss(局部感知重构损失)LLR、监督分支的DiceLoss(分割损失)以及擦除网络作为生成器网络与判别器网络的GanLoss(生成对抗网络损失)。
在一些可能的实现方式中,在使用的训练EraseNet的样本文档图像对应的标签图像为样本文档图像擦除了第一格式文字、且对样本文档图像中除文字部分的背景部分进行去阴影操作(即对除文字外的背景进行转白)后的图像的情况下,训练得到的擦除网络不仅可以对待处理文档图像进行文字擦除,还可以对待处理文档图像进行去阴影(即对除文字外的背景进行转白)操作,生成擦出了第一格式文字、且背景转白的最终擦除图像。
在本公开实施例提供的图像处理的方法中,通过端到端的擦除网络实现了对待处理文档图像中第一格式文字的擦除;同时,通过使用第一格式文字对应的像素以及第一格式文字对应的像素外的其他像素来确定混合图像特征,实现了分割头网络与擦除网络的解耦,保证了分割头网络与擦除网络各司其职,提升了训练得到的擦除网络输出的最终擦除图像的准确性。
下面对本公开实施例提供的图像处理的方法进行具体介绍。
如上所述,在一些可能的实现方式中,在使用的训练EraseNet的样本文档图像对应的标签图像为样本文档图像擦除了第一格式文字、且对样本文档图像中除文字部分(包括各种格式的文字)的背景部分进行去阴影操作后的图像的情况下,训练得到的擦除网络不仅可以对待处理文档图像进行文字擦除,还可以对待处理文档图像进行去阴影操作,生成擦出了第一格式文字、且背景转白的最终擦除图像。
也就是说,本公开实施例提供的图像处理的方法可以实现使用端到端的网络模型对待处理文档图像中第一格式文字的擦除的同时,对待处理文档图像的背景部分进行去阴影操作。
图2示出了标签图像为样本文档图像擦除了第一格式文字、且对样本文档图像中除文字部分的背景部分进行去阴影操作后的图像的情况下,通过擦除网络获取最终擦除图像的一种实施方式的流程示意图。如图2中所述,通过擦除网络获取最终擦除图像可以包括步骤S210。
在步骤S210中,通过将待处理文档输入预先训练的擦除网络,对待处理文档图像中第一格式文字进行擦除,并对待处理文档图像中除文字部分的背景部分进行去阴影操作,获取待处理文档图像对应的最终擦除图像。
在一些可能的实现方式中,在步骤S210中,擦除网络对应的训练数据(即样本文档图像对)发生了变化,但擦除网络的训练方法并没有变化。
擦除网络与SegmentationHead(分割头网络)以及判别器网络共同组成EraseNet。EraseNet的具体组成与训练过程也如上所述,在此不再赘述。
也就是说,ICom也同样是根据样本文档图像中第一格式文字对应的像素,以及擦除网络输出的图像中除第一格式文字对应的像素外的其他像素确定,这样,通过ICom计算内容损失函数以及风格损失函数,就可以实现通过内容损失函数以及风格损失函数来监督除第一格式文字外的其他区域,避免了训练过程中除第一格式文字外的其他区域对背景部分的干扰,实现监督分支以及擦除分支的解耦,各司其职,提升了获取的擦除网络的擦除效果和去阴影效果。
同时,在样本文档图像对应的标签图像为样本文档图像擦除了第一格式文字、且对样本文档图像中除文字部分(包括各种格式的文字)的背景部分进行去阴影操作后的图像的情况下,通过本公开实施例提供的擦除模型可以通过端到端的网络实现对待处理文档图像中第一格式文字的擦除+背景去阴影,相比于现有技术中将去阴影当作模型的上游任务,本公开实施例提供的方法更加方便,效率更高。
如上所述,本公开实施例提供的擦除模型包括特征提取子网络、粗擦除子网络、精细擦除子网络。
图3示出了在擦除网络包括特征提取子网络、粗擦除子网络、精细擦除子网络的情况下,通过擦除网络获取待处理文档图像对应的最终擦除图像的流程的示意图,如图3所述,通过擦除网络获取待处理文档图像对应的最终擦除图像可以包括步骤S310、步骤S320、步骤S330。
在步骤S310中,通过将待处理文档图像输入预先训练的特征提取子网络,对待处理文档图像进行特征提取,获取待处理文档图像的图像特征;
在步骤S320中,通过将图像特征输入预先训练的粗擦除子网络,根据图像特征对待处理文档图像中第一格式文字进行擦除,获取待处理文档图像对应的粗擦除图像;
在步骤S330中,通过将粗擦除图像输入预先训练的精细擦除子网络,对粗擦除图像中第一格式文字进行擦除,获取待处理文档图像对应的最终擦除图像。
在一些可能的实现方式中,在步骤S310中,特征提取子网络用于对待处理文档图像进行特征提取,获取待处理文档图像的图像特征。
特征提取子网络可以是任何具有图像特征提取能力的网络,如ResNet、VGGNet等。
特征提取子网络的层级越深,输出的图像特征的分辨率就越低。虽然可以通过上卷积以及反卷积将低分辨率的图像特征恢复到高分辨率图像特征,但分辨率由高变低的过程还是会损失信息,如空间信息。
在一些可能的实现方式中,在步骤S320中,粗擦除子网络通过上采样或反卷积,将特征提取子网络输出的特征恢复到高分辨率表征,生成一个与待处理文档图像大小相同的特征图,并生成对待处理文档图像中第一格式文字进行擦除、且对除文字部分的背景部分进行去阴影操作的粗擦除图像。
也就是说,粗擦除子网络用于根据特征提取子网络输出的图像特征,对图像特征对应的图像中的特定格式(如第一格式)文字进行粗擦除,对除所有格式文字的文字部分外的背景部分进行去阴影操作。
在一些可能的实现方式中,在步骤S330中,精细擦除子网络可以包括解码器和编码器。
其中,解码器用于对输入解码器的粗擦除图像进行特征提取,编码器用于对解码器提取的特征进行上采样或反卷积来生成对粗擦除图像中第一格式文字进行擦除、对背景部分进行去阴影操作的最终擦除图像。
也就是说,精细擦除子网络是在粗擦除子网络对待处理文档图像进行第一格式文字粗擦除、对背景部分进行去阴影的基础上进行精细擦除,生成擦除效果更好、去阴影效果更好的最终擦除图像。
如上所述,在一些可能的实现方式中,可以在不同分辨率的图像特征之间进行交互融合,来避免特征提取子网络存在的随着网络深度加深,图像特征分辨率下降而导致的空间信息损失的问题。
图4示出了一种在特征提取子网络的基础上,在不同分辨率的图像特征之间进行交互融合的网络的结构示意图。
如图4中左半部分所示,在网络的下采样的过程中,网络层的输出不仅由其对应的上一网络层的输出下采样得到,而且由其对应的下一网络层上采样的结果一起获取。
图5示出了使用图4中所示的网络获取图像特征的一种实施方式的流程示意图,如图5中所示,使用图4中所示的网络获取图像特征可以包括步骤S510、步骤S520、步骤S530。
在步骤S510中,通过将待处理文档图像输入预先训练的特征提取子网络,对待处理文档图像进行图像特征提取,获取待处理文档图像对应的不同尺度的尺度图像特征;
在步骤S520中,对尺度图像特征对应的下一尺度的尺度图像特征进行上采样获取上采样图像特征;
在步骤S530中,根据尺度图像特征以及上采样图像特征获取待处理文档图像的图像特征。
在一些可能的实现方式中,在步骤S510中,通过预先训练的特征提取子网络对待处理文档图像进行特征提取,获取特征提取子网络的不同网络层输出的不同尺度的尺度图像特征。
特征提取子网络层的网络层越深,其输出的图像特征的分辨率越低,尺度越小。
在一些可能的实现方式中,在步骤S520中,对每一个尺度图像特征来说,其对应的下一尺度的尺度图像特征即下一网络层输出的尺度图像特征,通过对下一网络层输出的尺度图像特征上采样可以获取与该尺度图像特征分辨率相同的上采样图像特征。
在一些可能的实现方式中,在步骤S530中,可以通过尺度图像特征和上采样图像特征相加来获取输入粗擦除子网络的该尺度的图像特征。
由于上采样图像特征是根据下一网络层输出的尺度图像特征(即不同分辨率的图像特征)得到的,尺度图像特征和上采样图像特征相加就可以实现不同分辨率的图像特征之间进行交互融合,来尽量无损保留图像特征。
在一些可能的实现方式中,也可以通过不同分辨率的图像特征之间进行交互融合来提升粗擦除子网络的编码器的性能,提升获取的粗擦除图像的擦除效果。
粗擦除子网络的编码器可以如图4右半部分所示,在网络的上采样的过程中,网络层的输出不仅由其对应的上一网络层的输出上采样得到,而且由其对应的下一网络层的输出下采样的结果一起获取。
图6示出了使用图4中所示的网络获取粗擦除图像的一种实施方式的流程示意图,如图6中所示,使用图4中所示的网络获取粗擦除图像可以包括步骤S610、步骤S620、步骤S630、步骤S640。
在步骤S610中,将图像特征输入编码器,对图像特征进行上采样获取不同尺度的尺度图像特征;
在步骤S620中,对尺度图像特征对应的下一尺度的尺度图像特征进行下采样获取下采样图像特征;
在步骤S630中,根据尺度图像特征以及下采样图像特征获取尺度图像特征对应的最终图像特征;
在步骤S640中,根据最终图像特征获取待处理文档图像对应的粗擦除图像。
在一些可能的实现方式中,在步骤S610中,将使用图4所示的网络获取的待处理文档图像的图像特征输入粗擦除子网络的编码器,通过对图像特征的上采样或反卷积来获取不同尺度的尺度图像特征。
在一些可能的实现方式中,如图4中所示,每个尺度的尺度图像特征根据图4所示的特征提取子网络输出的相同尺度的待处理文档图像的图像特征(即图4中虚线所示)以及其对应的上一层的编码器层输出的尺度图像特征的上采样结果来获取。
在一些可能的实现方式中,在步骤S620中,对每一个尺度图像特征来说,其对应的下一尺度的尺度图像特征即下一网络层输出的尺度图像特征,通过对下一网络层输出的尺度图像特征下采样可以获取与该尺度图像特征分辨率相同的下采样图像特征。
在一些可能的实现方式中,在步骤S630中,可以通过尺度图像特征和下采样图像特征相加来获取该尺度的最终图像特征。
在一些可能的实现方式中,在步骤S640中,可以通过多个尺度图像特征对应的最终图像特征来生成粗擦除图像,根据多个尺度图像特征对应的最终图像特征来生成粗擦除图像的方法本公开实施例并不做限定。
由于下采样图像特征是根据下一网络层输出的尺度图像特征(即不同分辨率的图像特征)得到的,尺度图像特征和下采样图像特征相加就可以实现不同分辨率的图像特征之间进行交互融合,来尽量无损保留图像特征。
在一些可能的实现方式中,也可以通过不同分辨率的图像特征之间进行交互融合来提升精细擦除子网络的编码器和解码器的性能,提升获取的最终擦除图像的擦除效果。
精细擦除子网络的解码器可以如图4左半部分所示,在网络的上采样的过程中,网络层的输出不仅由其对应的上一网络层的输出下采样得到,而且由其对应的下一网络层的输出上采样的结果一起获取。
精细擦除子网络的编码器可以如图4右半部分所示,在网络的上采样的过程中,网络层的输出不仅由其对应的上一网络层的输出上采样得到,而且由其对应的下一网络层的输出下采样的结果一起获取。
图7示出了使用图4中所示的网络获取最终擦除图像的一种实施方式的流程示意图,如图4中所述,使用图4中所示的网络获取最终擦除图像可以包括步骤S710、步骤S720、步骤S730、步骤S740、步骤S750、步骤S760、步骤S770。
在步骤S710中,通过将粗擦除图像输入解码器,获取粗擦除图像对应的不同尺度的第一尺度图像特征;
在步骤S720中,对第一尺度图像特征对应的下一尺度的第一尺度图像特征进行上采样获取第一上采样图像特征;
在步骤S730中,根据第一尺度图像特征以及第一上采样图像特征获取粗擦除图像对应的图像特征;
在步骤S740中,将粗擦除图像对应的图像特征输入编码器,对粗擦除图像对应的图像特征进行上采样,获取不同尺度的第二尺度图像特征;
在步骤S750中,对第二尺度图像特征对应的下一尺度的第二尺度图像特征进行下采样获取第二下采样图像特征;
在步骤S760中,根据第二尺度图像特征以及第二下采样图像特征获取第二尺度图像特征对应的最终图像特征;
在步骤S770中,通过最终图像特征获取待处理文档图像对应的最终擦除图像。
在一些可能的实现方式中,在步骤S710中,通过解码器对粗擦除图像进行特征提取,获取解码器的不同网络层输出的不同尺度的第一尺度图像特征。解码器的网络层越深,其输出的图像特征的分辨率越低,尺度越小。
在一些可能的实现方式中,在步骤S720中,对每一个第一尺度图像特征来说,其对应的下一尺度的尺度图像特征即下一解码器的网络层输出的第一尺度图像特征,通过对下一网络层输出的第一尺度图像特征上采样可以获取与该第一尺度图像特征分辨率相同的第一上采样图像特征。
在一些可能的实现方式中,在步骤S730中,可以通过第一尺度图像特征和第一上采样图像特征相加来获取输入编码器的该尺度的图像特征。
在一些可能的实现方式中,在步骤S740中,将使用图4所示的解码器获取的粗擦除图像的图像特征输入精细擦除子网络的编码器,通过对粗擦除图像的图像特征的上采样或反卷积来获取不同尺度的第二尺度图像特征。
在一些可能的实现方式中,如图4中所示,每个尺度的第二尺度图像特征根据图4所示的解码器输出的相同尺度的图像特征(即图4中虚线所示)以及其对应的上一层编码器的网络层输出的第二尺度图像特征的上采样结果来获取。
在一些可能的实现方式中,在步骤S750中,对每一个第二尺度图像特征来说,其对应的下一尺度的尺度图像特征即下一编码器网络层输出的第二尺度图像特征,通过对下一编码器网络层输出的第二尺度图像特征下采样可以获取与该第二尺度图像特征分辨率相同的第二下采样图像特征。
在一些可能的实现方式中,在步骤S760中,可以通过第二尺度图像特征和第二下采样图像特征相加来获取该尺度对应的最终图像特征。
在一些可能的实现方式中,在步骤S770中,可以通过多个尺度的最终图像特征来生成最终擦除图像,多个尺度的最终图像特征来生成最终擦除图像的方法本公开实施例并不做限定。
由于第一上采样图像特征是根据下一网络层输出的尺度图像特征(即不同分辨率的图像特征)得到的,第一尺度图像特征和第一上采样图像特征相加就可以实现不同分辨率的图像特征之间进行交互融合,来尽量无损保留图像特征。
同时,由于第二下采样图像特征页是根据下一网络层输出的尺度图像特征(即不同分辨率的图像特征)得到的,第二尺度图像特征和第二下采样图像特征相加就可以实现不同分辨率的图像特征之间进行交互融合,来尽量无损保留图像特征。
图8示出了本公开实施例提供的擦除网络的训练方法的流程示意图,如图8中所示,本公开实施例提供的图像处理的方法可以包括步骤S810、步骤S820。
在步骤S810中,获取样本文档图像对,样本文档图像对包括样本文档图像以及样本文档图像对应的擦除了第一格式文字的标签图像;
在步骤S820中,根据样本文档图像对对擦除网络模型进行训练,获取擦除网络;
擦除网络和分割头网络、判别器网络组成擦除网络模型;擦除网络用于对输入擦除网络的样本文档图像中的第一格式文字进行擦除,获取样本文档图像对应的最终擦除图像;分割头网络用于获取样本文档图像中第一格式文字对应的掩码;判别器网络用于判断最终擦除图像中第一格式文字是否擦除;
擦除网络模型至少根据内容损失函数以及风格损失函数进行训练;内容损失函数和风格损失函数根据样本文档图像的混合图像特征以及标签图像获取;混合图像特征根据样本文档图像中第一格式文字对应的像素,以及擦除网络输出的图像中除第一格式文字对应的像素外的其他像素获取。
在一些可能的实现方式中,在步骤S810中,样本文档图像可以为具有第一格式文字的文档的图像;样本文档图像也可以是至少具有第一格式文字和第二格式文字的文档图像。
也就是说,样本文档图像可以是只具有一种格式文字的文档的图像;也可以是具有多种格式文字的文档的图像。
在一些具体的实现方式中,第一格式文字可以为手写笔迹文字,第二格式文字可以为印刷体格式文字。样本文档图像可以是具有手写笔迹的试卷(如已经作答过的试卷)的图像,也可以是具有手写笔迹的办公文档(如具有手写签名的文档)的图像。
在一些可能的实现方式中,在步骤S820中,擦除网络可以包括特征提取子网络、粗擦除子网络、精细擦除子网络。
其中,特征提取子网络用于对样本文档图像进行特征提取,获取待处理文档图像的图像特征。
特征提取子网络可以是任何具有图像特征提取能力的网络,如ResNet、VGGNet等。特征提取子网络的层级越深,输出的图像特征的分辨率就越低。
在特征提取子网络提取图像特征的过程中,特征提取子网络的层级越深,其提取到的图像特征的分辨率就越低,虽然可以通过上卷积以及反卷积将低分辨率的图像特征恢复到高分辨率图像特征,但分辨率由高变低的过程还是会损失信息,如空间信息。
在一些可能的实现方式中,可以通过不同分辨率的图像特征之间进行并行连接,来避免特征提取子网络存在的随着网络深度加深,图像特征分辨率下降而导致的空间信息损失的问题。
在一些可能的实现方式中,也可以在不同分辨率的图像特征之间进行交互融合,来避免特征提取子网络存在的随着网络深度加深,图像特征分辨率下降而导致的空间信息损失的问题。
粗擦除子网络用于根据待处理样本文档图像的图像特征对样本文档图像中第一格式文字进行擦除,获取样本文档图像对应的粗擦除图像。
在一些可能的实现方式中,粗擦除子网络通过上采样或反卷积,将特征提取子网络输出的特征恢复到高分辨率表征,生成一个与样本文档图像大小相同的特征图,并生成对样本文档图像中第一格式文字进行擦除的粗擦除图像。
也就是说,粗擦除子网络用于根据特征提取子网络输出的图像特征,对图像特征对应的图像中的特定格式(如第一格式)文字进行粗擦除,并生成擦除后的图像。
在一些可能的实现方式中,粗擦除子网络可以是与特征提取子网络对应的编码器。
在一些可能的实现方式中,也可以通过不同分辨率的图像特征之间进行并行连接来提升编码器的性能,提升获取的粗擦除图像的擦除效果。
在一些可能的实现方式中,也可以通过不同分辨率的图像特征之间进行交互融合来提升编码器的性能,提升获取的粗擦除图像的擦除效果。
精细擦除子网络用于根据样本文档图像对应的粗擦除图像对粗擦除图像中第一格式文字进行擦除,获取样本文档图像对应的最终擦除图像。
在一些可能的实现方式中,精细擦除子网络可以包括解码器和编码器。
其中,解码器用于对输入解码器的粗擦除图像进行特征提取,编码器用于对解码器提取的特征进行上采样或反卷积来生成对粗擦除图像中第一格式文字进行擦除的最终擦除图像。
也就是说,精细擦除子网络是在粗擦除子网络对样本文档图像进行第一格式文字粗擦除的基础上进行精细擦除,生成擦除效果更好的最终擦除图像。
在一些可能的实现方式中,也可以通过不同分辨率的图像特征之间进行并行连接来提升精细擦除子网络的性能,提升获取的最终擦除图像的擦除效果。
在一些可能的实现方式中,也可以通过不同分辨率的图像特征之间进行交互融合来提升精细擦除子网络的性能,提升获取的最终擦除图像的擦除效果。
擦除网络为EraseNet(擦除网络模型)的组成部分。
具体的,特征提取子网络、粗擦除子网络、精细擦除子网络组成的擦除网络与SegmentationHead以及判别器网络共同组成EraseNet。
具体的,特征提取子网络之后连接两个分支,一个分支是监督分支,即SegmentationHead,该分支的最大作用是判定第一格式文字的Mask(掩码)的位置,并使用Mask来约束监督擦除分支的训练;另一个分支是擦除分支,该分支包括按照顺序连接的粗擦除子网络、精细擦除子网络以及判别器网络。其中,判别器网络用于判断精细擦除子网络生成的最终擦除图像中第一格式文字是否擦除。
使用样本文档图像对,即样本文档图像IInput以及样本文档图像IInput对应擦除了第一格式文字的标签图像Igt、样本文档图像IInput中第一格式文字的MaskIMask,对EraseNet进行训练获取训练好的擦除网络,或者说获取训练好的特征提取子网络、粗擦除子网络、精细擦除子网络。
EraseNet的训练过程可以是将样本文档图像输入特征提取子网络,获取样本文档图像对应的图像特征,将获取的图像特征输入Segmentation Head,输出样本图像中第一格式文字的Mask;将获取的图像特征输入粗擦除子网络,获取粗擦除子网络输出的粗擦除图像ICout,将ICout输入精细擦除子网络,获取精细擦除子网络输出的最终擦除图像IRout,并将IRout输入判别器网络,获取判别器网络的输出。
EraseNet的Loss函数(损失函数)包括多个组成部分,在一些可能的实现方式中,EraseNet至少包括风格损失函数LS以及内容损失函数LPerc。
风格损失函数LS以及内容损失函数LPerc可以通过以下公式来获取:
其中,φn(IRout)为将IRout输入预先训练的图像特征提取网络(如VGG-16m网ap络(),特图征像图)特;征φ提n(I取gt)网分络别的为第将nIgt层输p入oo预lin先g-l训ay练er的(图池像化特层)征输提出取的网f络eat(ur如eVGG-16网络),图像特征提取网络的第n层pooling-layer(池化层)输出的featuremap(特征图);φn(ICom)分别为将ICom输入预先训练的图像特征提取网络(如VGG-16网络),图像特征提取网络的第n层pooling-layer(池化层)输出的featuremap(特征图);Hn、Wn、Cn分别代表图像特征提取网络第n层的高、宽和通道;N为图像特征提取网络的总层数;Ii为IRout和ICom。
ICom为混合图像特征,其根据样本文档图像中第一格式文字对应的像素,以及擦除网络输出的图像中除第一格式文字对应的像素外的其他像素确定。
具体的,ICom可以根据如下的公式确定:
ICom=IMask*Igt+(1-IMask)*IRout;
由于IMask中只有第一格式文字的位置为1,其余位置为0,(1-IMask)则是只有第一格式文字的位置为0,其余位置为1,IMask*Igt获取的就是样本文档图像中第一格式文字对应的像素,(1-IMask)*IRout获取的就是擦除网络的精细擦除子网络输出的图像中除第一格式文字对应的像素外的其他像素,通过以上公式计算ICom,通过ICom计算内容损失函数以及风格损失函数,就可以实现通过内容损失函数以及风格损失函数来监督除第一格式文字外的其他区域,实现监督分支以及擦除分支的解耦,各司其职,提升了获取的擦除网络的擦除效果。
在一些可能的实现方式中,EraseNet的Loss函数还包括Local-awareReconstructionLossLLR、监督分支的DiceLoss以及擦除网络作为的生成器网络与判别器网络的GanLoss(生成对抗网络损失)。
在一些可能的实现方式中,在使用的训练EraseNet的样本文档图像对应的标签图像为样本文档图像擦除了第一格式文字、且对样本文档图像中除文字部分的背景部分进行去阴影操作(即对除文字外的背景进行转白)后的图像的情况下,训练得到的擦除网络不仅可以对样本文档图像进行文字擦除,还可以对样本文档图像进行去阴影(即对除文字外的背景进行转白)操作,生成擦出了第一格式文字、且背景转白的最终擦除图像。
在本公开实施例提供的擦除网络的训练方法中,通过端到端的擦除网络实现了对样本文档图像中第一格式文字的擦除;同时,通过使用第一格式文字对应的像素以及第一格式文字对应的像素外的其他像素来确定混合图像特征,实现了分割头网络与擦除网络的解耦,保证了分割头网络与擦除网络各司其职,提升了训练得到的擦除网络输出的最终擦除图像的准确性。
如上所述,在一些可能的实现方式中,标签图像为样本文档图像擦除了第一格式文字、且对样本文档图像中除文字部分的背景部分进行去阴影操作后的图像。
在擦除网络包括特征提取子网络、粗擦除子网络、精细擦除子网络的情况下,粗擦除子网络用于根据输入粗擦除子网络的样本文档图像的图像特征,对样本文档图像中的第一格式文字进行擦除,并对样本文档图像中除文字部分的背景部分进行去阴影操作,获取样本文档图像对应的粗擦除图像;精细擦除子网络用于根据输入精细擦除子网络的粗擦除图像对粗擦除图像中第一格式文字进行擦除,并对粗擦除图像中除文字部分的背景部分进行去阴影操作,获取样本文档图像对应的最终擦除图像。
也就是说,在使用的训练EraseNet的样本文档图像对应的标签图像为样本文档图像擦除了第一格式文字、且对样本文档图像中除文字部分(包括各种格式的文字)的背景部分进行去阴影操作后的图像的情况下,训练得到的特征提取子网络、粗擦除子网络、精细擦除子网络不仅可以对样本文档图像进行文字擦除,还可以对样本文档图像进行去阴影操作,生成擦出了第一格式文字、且背景转白的最终擦除图像。
也就是说,本公开实施例提供的擦除网络的训练方法获取的端到端的网络模型,可以在对样本文档图像中第一格式文字的擦除的同时,对样本文档图像的背景部分进行去阴影操作。
粗擦除子网络和精细擦除子网络的结构如上所述,粗擦除子网络和精细擦除子网络也与特征提取子网络、SegmentationHead(分割头网络)以及判别器网络共同组成EraseNet。EraseNet的具体组成与训练过程也如上所述。
也就是说,ICom也同样是根据样本文档图像中第一格式文字对应的像素,以及精细擦除子网络输出的图像中除第一格式文字对应的像素外的其他像素确定,这样,通过ICom计算内容损失函数以及风格损失函数,就可以实现通过内容损失函数以及风格损失函数来监督除第一格式文字外的其他区域,避免了训练过程中除第一格式文字外的其他区域对背景部分的干扰,实现监督分支以及擦除分支的解耦,各司其职,提升了获取的特征提取子网络、粗擦除子网络、精细擦除子网络的擦除效果和去阴影效果。
如上所述,在一些可能的实现方式中,可以在不同分辨率的图像特征之间进行交互融合,来避免特征提取子网络存在的随着网络深度加深,图像特征分辨率下降而导致的空间信息损失的问题。
图4示出了一种在特征提取子网络的基础上,在不同分辨率的图像特征之间进行交互融合的网络的结构示意图。
如图4中左半部分所示,在网络的下采样的过程中,网络层的输出不仅由其对应的上一网络层的输出下采样得到,而且由其对应的下一网络层上采样的结果一起获取。
也就是说,特征提取子网络用于:对样本文档图像进行图像特征提取,获取样本文档图像对应的不同尺度的尺度图像特征;对尺度图像特征对应的下一尺度的尺度图像特征进行上采样获取上采样图像特征;根据尺度图像特征以及上采样图像特征获取样本文档图像的图像特征。
具体的,通过特征提取子网络对样本文档图像进行特征提取,获取特征提取子网络的不同网络层输出的不同尺度的尺度图像特征。特征提取子网络层的网络层越深,其输出的图像特征的分辨率越低,尺度越小。
对每一个尺度图像特征来说,其对应的下一尺度的尺度图像特征即下一网络层输出的尺度图像特征,通过对下一网络层输出的尺度图像特征上采样可以获取与该尺度图像特征分辨率相同的上采样图像特征。
可以通过尺度图像特征和上采样图像特征相加来获取输入粗擦除子网络的该尺度的图像特征。
由于上采样图像特征是根据下一网络层输出的尺度图像特征(即不同分辨率的图像特征)得到的,尺度图像特征和上采样图像特征相加就可以实现不同分辨率的图像特征之间进行交互融合,来尽量无损保留图像特征。
在一些可能的实现方式中,也可以通过不同分辨率的图像特征之间进行交互融合来提升粗擦除子网络的编码器的性能,提升获取的粗擦除图像的擦除效果。
粗擦除子网络的编码器可以如图4右半部分所示,在网络的上采样的过程中,网络层的输出不仅由其对应的上一网络层的输出上采样得到,而且由其对应的下一网络层的输出下采样的结果一起获取。
也就是说,在一些可能的实现方式中,粗擦除子网络包括与特征提取子网络对应的编码器;编码器用于:对图像特征进行上采样获取不同尺度的尺度图像特征;对尺度图像特征对应的下一尺度的尺度图像特征进行下采样获取下采样图像特征;根据尺度图像特征以及下采样图像特征获取尺度图像特征对应的最终图像特征;根据最终图像特征获取样本文档图像对应的粗擦除图像。
具体的,将使用图4所示的网络获取的样本文档图像的图像特征输入粗擦除子网络的编码器,通过对图像特征的上采样或反卷积来获取不同尺度的尺度图像特征。
如图4中所示,每个尺度的尺度图像特征根据图4所示的特征提取子网络输出的相同尺度的样本文档图像的图像特征(即图4中虚线所示)以及其对应的上一层的编码器层输出的尺度图像特征的上采样结果来获取。
对每一个尺度图像特征来说,其对应的下一尺度的尺度图像特征即下一网络层输出的尺度图像特征,通过对下一网络层输出的尺度图像特征下采样可以获取与该尺度图像特征分辨率相同的下采样图像特征。
可以通过尺度图像特征和下采样图像特征相加来获取该尺度的最终图像特征。
可以通过多个尺度图像特征对应的最终图像特征来生成粗擦除图像,根据多个尺度图像特征对应的最终图像特征来生成粗擦除图像的方法本公开实施例并不做限定。
由于下采样图像特征是根据下一网络层输出的尺度图像特征(即不同分辨率的图像特征)得到的,尺度图像特征和下采样图像特征相加就可以实现不同分辨率的图像特征之间进行交互融合,来尽量无损保留图像特征。
在一些可能的实现方式中,也可以通过不同分辨率的图像特征之间进行交互融合来提升精细擦除子网络的编码器和解码器的性能,提升获取的最终擦除图像的擦除效果。
精细擦除子网络的解码器可以如图4左半部分所示,在网络的上采样的过程中,网络层的输出不仅由其对应的上一网络层的输出下采样得到,而且由其对应的下一网络层的输出上采样的结果一起获取。
精细擦除子网络的编码器可以如图4右半部分所示,在网络的上采样的过程中,网络层的输出不仅由其对应的上一网络层的输出上采样得到,而且由其对应的下一网络层的输出下采样的结果一起获取。
在一些可能的实现方式中,粗擦除子网络包括与特征提取子网络对应的编码器;编码器用于:对图像特征进行上采样获取不同尺度的尺度图像特征;对尺度图像特征对应的下一尺度的尺度图像特征进行下采样获取下采样图像特征;根据尺度图像特征以及下采样图像特征获取尺度图像特征对应的最终图像特征;根据最终图像特征获取样本文档图像对应的粗擦除图像。
也就是说,在一些可能的实现方式中,精细擦除子网络包括解码器和编码器;解码器用于:通过将粗擦除图像输入解码器,获取粗擦除图像对应的不同尺度的第一尺度图像特征;对第一尺度图像特征对应的下一尺度的第一尺度图像特征进行上采样获取第一上采样图像特征;根据第一尺度图像特征以及第一上采样图像特征获取粗擦除图像对应的图像特征;编码器用于:对粗擦除图像对应的图像特征进行上采样,获取不同尺度的第二尺度图像特征;对第二尺度图像特征对应的下一尺度的第二尺度图像特征进行下采样获取第二下采样图像特征;根据第二尺度图像特征以及第二下采样图像特征获取第二尺度图像特征对应的最终图像特征;通过最终图像特征获取样本文档图像对应的最终擦除图像。
具体的,通过解码器对粗擦除图像进行特征提取,获取解码器的不同网络层输出的不同尺度的第一尺度图像特征。解码器的网络层越深,其输出的图像特征的分辨率越低,尺度越小。
对每一个第一尺度图像特征来说,其对应的下一尺度的尺度图像特征即下一解码器的网络层输出的第一尺度图像特征,通过对下一网络层输出的第一尺度图像特征上采样可以获取与该第一尺度图像特征分辨率相同的第一上采样图像特征。
可以通过第一尺度图像特征和第一上采样图像特征相加来获取输入编码器的该尺度的图像特征。
将使用图4所示的解码器获取的粗擦除图像的图像特征输入精细擦除子网络的编码器,通过对粗擦除图像的图像特征的上采样或反卷积来获取不同尺度的第二尺度图像特征。
如图4中所示,每个尺度的第二尺度图像特征根据图4所示的解码器输出的相同尺度的图像特征(即图4中虚线所示)以及其对应的上一层编码器的网络层输出的第二尺度图像特征的上采样结果来获取。
对每一个第二尺度图像特征来说,其对应的下一尺度的尺度图像特征即下一编码器网络层输出的第二尺度图像特征,通过对下一编码器网络层输出的第二尺度图像特征下采样可以获取与该第二尺度图像特征分辨率相同的第二下采样图像特征。
可以通过第二尺度图像特征和第二下采样图像特征相加来获取该尺度对应的最终图像特征。
可以通过多个尺度的最终图像特征来生成最终擦除图像,多个尺度的最终图像特征来生成最终擦除图像的方法本公开实施例并不做限定。
由于第一上采样图像特征是根据下一网络层输出的尺度图像特征(即不同分辨率的图像特征)得到的,第一尺度图像特征和第一上采样图像特征相加就可以实现不同分辨率的图像特征之间进行交互融合,来尽量无损保留图像特征。
同时,由于第二下采样图像特征页是根据下一网络层输出的尺度图像特征(即不同分辨率的图像特征)得到的,第二尺度图像特征和第二下采样图像特征相加就可以实现不同分辨率的图像特征之间进行交互融合,来尽量无损保留图像特征。
基于与图1中所示的方法相同的原理,图9示出了本公开实施例提供的一种图像处理的装置的结构示意图,如图9所示,该图像处理的装置90可以包括:
图像模块910,用于获取待处理文档图像;
推理模块920,用于通过将待处理文档输入预先训练的擦除网络,对待处理文档图像中第一格式文字进行擦除,获取待处理文档图像对应的最终擦除图像;
其中,擦除网络和分割头网络、判别器网络组成擦除网络模型,擦除网络通过使用样本文档图像对对擦除网络模型预先训练获取;样本文档图像对包括样本文档图像以及样本文档图像对应的擦除了第一格式文字的标签图像;
擦除网络模型至少根据内容损失函数以及风格损失函数进行训练;内容损失函数和风格损失函数根据样本文档图像的混合图像特征以及标签图像获取;混合图像特征根据样本文档图像中第一格式文字对应的像素,以及擦除网络输出的图像中除第一格式文字对应的像素外的其他像素获取。
在本公开实施例提供的图像处理的装置中,通过端到端的擦除网络实现了对待处理文档图像中第一格式文字的擦除;同时,通过使用第一格式文字对应的像素以及第一格式文字对应的像素外的其他像素来确定混合图像特征,实现了分割头网络与擦除网络的解耦,保证了分割头网络与擦除网络各司其职,提升了训练得到的擦除网络输出的最终擦除图像的准确性。
可以理解的是,本公开实施例中的图像处理的装置的上述各模块具有实现图1中所示的实施例中的图像处理的方法相应步骤的功能。该功能可以通过硬件实现,也可以通过硬件执行相应的软件实现。该硬件或软件包括一个或多个与上述功能相对应的模块。上述模块可以是软件和/或硬件,上述各模块可以单独实现,也可以多个模块集成实现。对于上述图像处理的装置的各模块的功能描述具体可以参见图1中所示实施例中的图像处理的方法的对应描述,在此不再赘述。
基于与图8中所示的方法相同的原理,图10示出了本公开实施例提供的一种擦除网络的训练装置的结构示意图,如图10所示,该擦除网络的训练装置100可以包括:
样本模块1010,用于获取样本文档图像对,样本文档图像对包括样本文档图像以及样本文档图像对应的擦除了第一格式文字的标签图像;
训练模块1020,用于根据样本文档图像对对擦除网络模型进行训练,获取擦除网络;
其中,擦除网络和分割头网络、判别器网络组成擦除网络模型;擦除网络用于对输入擦除网络的样本文档图像中的第一格式文字进行擦除,获取样本文档图像对应的最终擦除图像;分割头网络用于获取样本文档图像中第一格式文字对应的掩码;判别器网络用于判断最终擦除图像中第一格式文字是否擦除;
擦除网络模型至少根据内容损失函数以及风格损失函数进行训练;内容损失函数和风格损失函数根据样本文档图像的混合图像特征以及标签图像获取;混合图像特征根据样本文档图像中第一格式文字对应的像素,以及擦除网络输出的图像中除第一格式文字对应的像素外的其他像素获取。
在本公开实施例提供的擦除网络的训练装置中,通过端到端的擦除网络实现了对待处理文档图像中第一格式文字的擦除;同时,通过使用第一格式文字对应的像素以及第一格式文字对应的像素外的其他像素来确定混合图像特征,实现了分割头网络与擦除网络的解耦,保证了分割头网络与擦除网络各司其职,提升了训练得到的擦除网络输出的最终擦除图像的准确性。
可以理解的是,本公开实施例中的擦除网络的训练装置的上述各模块具有实现图8中所示的实施例中的擦除网络的训练方法相应步骤的功能。该功能可以通过硬件实现,也可以通过硬件执行相应的软件实现。该硬件或软件包括一个或多个与上述功能相对应的模块。上述模块可以是软件和/或硬件,上述各模块可以单独实现,也可以多个模块集成实现。对于上述擦除网络的训练装置的各模块的功能描述具体可以参见图8中所示实施例中的擦除网络的训练方法的对应描述,在此不再赘述。
本公开的技术方案中,所涉及的用户个人信息的获取,存储和应用等,均符合相关法律法规的规定,且不违背公序良俗。
根据本公开的实施例,本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。
该电子设备包括:至少一个处理器;以及与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行如本公开实施例提供的图像处理的方法和擦除网络的训练方法。
该电子设备与现有技术相比,通过端到端的擦除网络实现了对待处理文档图像中第一格式文字的擦除;同时,通过使用第一格式文字对应的像素以及第一格式文字对应的像素外的其他像素来确定混合图像特征,实现了分割头网络与擦除网络的解耦,保证了分割头网络与擦除网络各司其职,提升了训练得到的擦除网络输出的最终擦除图像的准确性。
该可读存储介质为存储有计算机指令的非瞬时计算机可读存储介质,其中,计算机指令用于使计算机执行如本公开实施例提供的图像处理的方法和擦除网络的训练方法。
该可读存储介质与现有技术相比,通过端到端的擦除网络实现了对待处理文档图像中第一格式文字的擦除;同时,通过使用第一格式文字对应的像素以及第一格式文字对应的像素外的其他像素来确定混合图像特征,实现了分割头网络与擦除网络的解耦,保证了分割头网络与擦除网络各司其职,提升了训练得到的擦除网络输出的最终擦除图像的准确性。
该计算机程序产品,包括计算机程序,计算机程序在被处理器执行时实现如本公开实施例提供的图像处理的方法和擦除网络的训练方法。
该计算机程序产品与现有技术相比,通过端到端的擦除网络实现了对待处理文档图像中第一格式文字的擦除;同时,通过使用第一格式文字对应的像素以及第一格式文字对应的像素外的其他像素来确定混合图像特征,实现了分割头网络与擦除网络的解耦,保证了分割头网络与擦除网络各司其职,提升了训练得到的擦除网络输出的最终擦除图像的准确性。
图11示出了可以用来实施本公开的实施例的示例电子设备1100的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
如图11所示,设备1100包括计算单元1101,其可以根据存储在只读存储器(ROM)1102中的计算机程序或者从存储单元1108加载到随机访问存储器(RAM)1103中的计算机程序,来执行各种适当的动作和处理。在RAM1103中,还可存储设备1100操作所需的各种程序和数据。计算单元1101、ROM1102以及RAM1103通过总线1104彼此相连。输入/输出(I/O)接口1105也连接至总线1104。
设备1100中的多个部件连接至I/O接口1105,包括:输入单元1106,例如键盘、鼠标等;输出单元1107,例如各种类型的显示器、扬声器等;存储单元1108,例如磁盘、光盘等;以及通信单元1109,例如网卡、调制解调器、无线通信收发机等。通信单元1109允许设备1100通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
计算单元1101可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元1101的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元1101执行上文所描述的各个方法和处理,例如图像处理的方法和擦除网络的训练方法。例如,在一些实施例中,图像处理的方法和擦除网络的训练方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元1108。在一些实施例中,计算机程序的部分或者全部可以经由ROM1102和/或通信单元1109而被载入和/或安装到设备1100上。当计算机程序加载到RAM1103并由计算单元1101执行时,可以执行上文描述的图像处理的方法和擦除网络的训练方法的一个或多个步骤。备选地,在其他实施例中,计算单元1101可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行图像处理的方法和擦除网络的训练方法。
本文中以上描述的***和技术的各种实施方式可以在数字电子电路***、集成电路***、现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上***的***(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程***上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储***、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储***、该至少一个输入装置、和该至少一个输出装置。
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行***、装置或设备使用或与指令执行***、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体***、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在计算机上实施此处描述的***和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的***和技术实施在包括后台部件的计算***(例如,作为数据服务器)、或者包括中间件部件的计算***(例如,应用服务器)、或者包括前端部件的计算***(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的***和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算***中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将***的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机***可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,也可以为分布式***的服务器,或者是结合了区块链的服务器。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。
Claims (20)
1.一种图像处理的方法,包括:
获取待处理文档图像;
通过将所述待处理文档输入预先训练的擦除网络,对所述待处理文档图像中第一格式文字进行擦除,获取所述待处理文档图像对应的最终擦除图像;
其中,所述擦除网络和分割头网络、判别器网络组成擦除网络模型,所述擦除网络通过使用样本文档图像对对所述擦除网络模型预先训练获取;所述样本文档图像对包括样本文档图像以及所述样本文档图像对应的擦除了第一格式文字的标签图像;
所述擦除网络模型至少根据内容损失函数以及风格损失函数进行训练;所述内容损失函数和风格损失函数根据所述样本文档图像的混合图像特征以及所述标签图像获取;所述混合图像特征根据所述样本文档图像中第一格式文字对应的像素,以及所述擦除网络输出的图像中除第一格式文字对应的像素外的其他像素获取。
2.根据权利要求1所述的方法,其中,所述标签图像为所述样本文档图像擦除了第一格式文字、且对所述样本文档图像中除文字部分的背景部分进行去阴影操作后的图像;
所述通过将所述待处理文档输入预先训练的擦除网络,对所述待处理文档图像中第一格式文字进行擦除,获取所述待处理文档图像对应的最终擦除图像,包括:
通过将所述待处理文档输入预先训练的擦除网络,对所述待处理文档图像中第一格式文字进行擦除,并对所述待处理文档图像中除文字部分的背景部分进行去阴影操作,获取所述待处理文档图像对应的最终擦除图像。
3.根据权利要求1所述的方法,其中,所述擦除网络包括特征提取子网络、粗擦除子网络、精细擦除子网络;
所述通过将所述待处理文档输入预先训练的擦除网络,对所述待处理文档图像中第一格式文字进行擦除,获取所述待处理文档图像对应的最终擦除图像,包括:
通过将所述待处理文档图像输入预先训练的特征提取子网络,对所述待处理文档图像进行特征提取,获取所述待处理文档图像的图像特征;
通过将所述图像特征输入预先训练的粗擦除子网络,根据所述图像特征对所述待处理文档图像中第一格式文字进行擦除,获取所述待处理文档图像对应的粗擦除图像;
通过将所述粗擦除图像输入预先训练的精细擦除子网络,对所述粗擦除图像中第一格式文字进行擦除,获取所述待处理文档图像对应的最终擦除图像。
4.根据权利要求3所述的方法,其中,所述通过将所述待处理文档图像输入预先训练的特征提取子网络,对所述待处理文档图像进行特征提取,获取所述待处理文档图像的图像特征,包括:
通过将所述待处理文档图像输入预先训练的特征提取子网络,对所述待处理文档图像进行图像特征提取,获取所述待处理文档图像对应的不同尺度的尺度图像特征;
对所述尺度图像特征对应的下一尺度的尺度图像特征进行上采样获取上采样图像特征;
根据所述尺度图像特征以及所述上采样图像特征获取所述待处理文档图像的图像特征。
5.根据权利要求4所述的方法,其中,所述粗擦除子网络包括与特征提取子网络对应的编码器;
所述通过将所述图像特征输入预先训练的粗擦除子网络,根据所述图像特征对所述待处理文档图像中第一格式文字进行擦除,获取所述待处理文档图像对应的粗擦除图像,包括:
将所述图像特征输入所述编码器,对所述图像特征进行上采样获取不同尺度的尺度图像特征;
对所述尺度图像特征对应的下一尺度的尺度图像特征进行下采样获取下采样图像特征;
根据所述尺度图像特征以及所述下采样图像特征获取所述尺度图像特征对应的最终图像特征;
根据所述最终图像特征获取所述待处理文档图像对应的粗擦除图像。
6.根据权利要求3所述的方法,其中,所述精细擦除子网络包括解码器和编码器;
所述通过将所述粗擦除图像输入预先训练的精细擦除子网络,对所述粗擦除图像中第一格式文字进行擦除,获取所述待处理文档图像对应的最终擦除图像,包括:
通过将所述粗擦除图像输入所述解码器,获取所述粗擦除图像对应的不同尺度的第一尺度图像特征;
对所述第一尺度图像特征对应的下一尺度的第一尺度图像特征进行上采样获取第一上采样图像特征;
根据所述第一尺度图像特征以及所述第一上采样图像特征获取所述粗擦除图像对应的图像特征;
将所述粗擦除图像对应的图像特征输入所述编码器,对所述粗擦除图像对应的图像特征进行上采样,获取不同尺度的第二尺度图像特征;
对所述第二尺度图像特征对应的下一尺度的第二尺度图像特征进行下采样获取第二下采样图像特征;
根据所述第二尺度图像特征以及所述第二下采样图像特征获取所述第二尺度图像特征对应的最终图像特征;
通过所述最终图像特征获取所述待处理文档图像对应的最终擦除图像。
7.根据权利要求1所述的方法,其中,所述待处理文档图像为为至少具有第一格式文字和第二格式文字的文档的图像。
8.根据权利要求7所述的方法,其中,所述第一格式文字为手写格式文字;所述第二格式文字为印刷体格式文字。
9.一种擦除网络的训练方法,包括:
获取样本文档图像对,所述样本文档图像对包括样本文档图像以及所述样本文档图像对应的擦除了第一格式文字的标签图像;
根据所述样本文档图像对对擦除网络模型进行训练,获取擦除网络;
所述擦除网络和分割头网络、判别器网络组成所述擦除网络模型;所述擦除网络用于对输入所述擦除网络的样本文档图像中的第一格式文字进行擦除,获取所述样本文档图像对应的最终擦除图像;所述分割头网络用于获取所述样本文档图像中第一格式文字对应的掩码;所述判别器网络用于判断所述最终擦除图像中第一格式文字是否擦除;
所述擦除网络模型至少根据内容损失函数以及风格损失函数进行训练;所述内容损失函数和风格损失函数根据所述样本文档图像的混合图像特征以及所述标签图像获取;所述混合图像特征根据所述样本文档图像中第一格式文字对应的像素,以及所述擦除网络输出的图像中除第一格式文字对应的像素外的其他像素获取。
10.根据权利要求9所述的方法,其中,所述标签图像为所述样本文档图像擦除了第一格式文字、且对所述样本文档图像中除文字部分的背景部分进行去阴影操作后的图像;
所述根据所述样本文档图像对对擦除网络模型进行训练,获取擦除网络,包括:
将所述样本文档图像输入所述擦除网络,对所述样本文档图像中第一格式文字进行擦除,并对所述样本文档图像中除文字部分的背景部分进行去阴影操作,获取所述样本文档图像对应的最终擦除图像;
根据所述最终擦除图像、所述标签图像对所述对擦除网络模型进行训练,获取擦除网络。
11.根据权利要求9所述的方法,其中,所述所述擦除网络包括特征提取子网络、粗擦除子网络、精细擦除子网络;
所述特征提取子网络用于对输入所述特征提取子网络的样本文档图像进行特征提取,获取所述样本文档图像的图像特征;
所述粗擦除子网络用于根据输入所述粗擦除子网络的样本文档图像的图像特征,对所述样本文档图像中的第一格式文字进行擦除,获取所述样本文档图像对应的粗擦除图像;
所述精细擦除子网络用于根据输入所述精细擦除子网络的粗擦除图像对所述粗擦除图像中第一格式文字进行擦除,获取所述样本文档图像对应的最终擦除图像。
12.根据权利要求11所述的方法,其中,所述特征提取子网络用于:
对所述样本文档图像进行图像特征提取,获取所述样本文档图像对应的不同尺度的尺度图像特征;
对所述尺度图像特征对应的下一尺度的尺度图像特征进行上采样获取上采样图像特征;
根据所述尺度图像特征以及所述上采样图像特征获取所述样本文档图像的图像特征。
13.根据权利要求12所述的方法,其中,所述粗擦除子网络包括与特征提取子网络对应的编码器;
所述编码器用于:
对所述图像特征进行上采样获取不同尺度的尺度图像特征;
对所述尺度图像特征对应的下一尺度的尺度图像特征进行下采样获取下采样图像特征;
根据所述尺度图像特征以及所述下采样图像特征获取所述尺度图像特征对应的最终图像特征;
根据所述最终图像特征获取所述样本文档图像对应的粗擦除图像。
14.根据权利要求11所述的方法,其中,所述精细擦除子网络包括解码器和编码器;
所述解码器用于:
通过将所述粗擦除图像输入所述解码器,获取所述粗擦除图像对应的不同尺度的第一尺度图像特征;
对所述第一尺度图像特征对应的下一尺度的第一尺度图像特征进行上采样获取第一上采样图像特征;
根据所述第一尺度图像特征以及所述第一上采样图像特征获取所述粗擦除图像对应的图像特征;
所述编码器用于:
对所述粗擦除图像对应的图像特征进行上采样,获取不同尺度的第二尺度图像特征;
对所述第二尺度图像特征对应的下一尺度的第二尺度图像特征进行下采样获取第二下采样图像特征;
根据所述第二尺度图像特征以及所述第二下采样图像特征获取所述第二尺度图像特征对应的最终图像特征;
通过所述最终图像特征获取所述样本文档图像对应的最终擦除图像。
15.根据权利要求9所述的方法,其中,所述样本文档图像为至少具有第一格式文字和第二格式文字的文档的图像。
16.一种图像处理的装置,包括:
图像模块,用于获取待处理文档图像;
推理模块,用于通过将所述待处理文档输入预先训练的擦除网络,对所述待处理文档图像中第一格式文字进行擦除,获取所述待处理文档图像对应的最终擦除图像;
其中,所述擦除网络和分割头网络、判别器网络组成擦除网络模型,所述擦除网络通过使用样本文档图像对对所述擦除网络模型预先训练获取;所述样本文档图像对包括样本文档图像以及所述样本文档图像对应的擦除了第一格式文字的标签图像;
所述擦除网络模型至少根据内容损失函数以及风格损失函数进行训练;所述内容损失函数和风格损失函数根据所述样本文档图像的混合图像特征以及所述标签图像获取;所述混合图像特征根据所述样本文档图像中第一格式文字对应的像素,以及所述擦除网络输出的图像中除第一格式文字对应的像素外的其他像素获取。
17.一种擦除网络的训练装置,包括:
样本模块,用于获取样本文档图像对,所述样本文档图像对包括样本文档图像以及所述样本文档图像对应的擦除了第一格式文字的标签图像;
训练模块,用于根据所述样本文档图像对对擦除网络模型进行训练,获取擦除网络;
所述擦除网络和分割头网络、判别器网络组成所述擦除网络模型;所述擦除网络用于对输入所述擦除网络的样本文档图像中的第一格式文字进行擦除,获取所述样本文档图像对应的最终擦除图像;所述分割头网络用于获取所述样本文档图像中第一格式文字对应的掩码;所述判别器网络用于判断所述最终擦除图像中第一格式文字是否擦除;
所述擦除网络模型至少根据内容损失函数以及风格损失函数进行训练;所述内容损失函数和风格损失函数根据所述样本文档图像的混合图像特征以及所述标签图像获取;所述混合图像特征根据所述样本文档图像中第一格式文字对应的像素,以及所述擦除网络输出的图像中除第一格式文字对应的像素外的其他像素获取。
18.一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-8中任一项所述的方法或权利要求9-15中任一项所述的方法。
19.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据权利要求1-8中任一项所述的方法或权利要求9-15中任一项所述的方法。
20.一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现根据权利要求1-8中任一项所述的方法或权利要求9-15中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310659387.0A CN116863017A (zh) | 2023-06-05 | 2023-06-05 | 图像处理方法、网络模型训练方法、装置、设备、介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310659387.0A CN116863017A (zh) | 2023-06-05 | 2023-06-05 | 图像处理方法、网络模型训练方法、装置、设备、介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116863017A true CN116863017A (zh) | 2023-10-10 |
Family
ID=88222384
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310659387.0A Pending CN116863017A (zh) | 2023-06-05 | 2023-06-05 | 图像处理方法、网络模型训练方法、装置、设备、介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116863017A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117274438A (zh) * | 2023-11-06 | 2023-12-22 | 杭州同花顺数据开发有限公司 | 一种图片翻译方法及*** |
-
2023
- 2023-06-05 CN CN202310659387.0A patent/CN116863017A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117274438A (zh) * | 2023-11-06 | 2023-12-22 | 杭州同花顺数据开发有限公司 | 一种图片翻译方法及*** |
CN117274438B (zh) * | 2023-11-06 | 2024-02-20 | 杭州同花顺数据开发有限公司 | 一种图片翻译方法及*** |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109522816B (zh) | 表格识别方法及装置、计算机存储介质 | |
CN108446698B (zh) | 在图像中检测文本的方法、装置、介质及电子设备 | |
CN110084172B (zh) | 文字识别方法、装置和电子设备 | |
US20220189083A1 (en) | Training method for character generation model, character generation method, apparatus, and medium | |
CN114429637B (zh) | 一种文档分类方法、装置、设备及存储介质 | |
CN114550177A (zh) | 图像处理的方法、文本识别方法及装置 | |
JP2022550195A (ja) | テキスト認識方法、装置、機器、記憶媒体及びコンピュータプログラム | |
CN114298900A (zh) | 图像超分方法和电子设备 | |
CN116863017A (zh) | 图像处理方法、网络模型训练方法、装置、设备、介质 | |
CN114218889A (zh) | 文档处理及文档模型的训练方法、装置、设备和存储介质 | |
CN113657396B (zh) | 训练方法、译文展示方法、装置、电子设备以及存储介质 | |
CN114998897B (zh) | 生成样本图像的方法以及文字识别模型的训练方法 | |
CN115376137B (zh) | 一种光学字符识别处理、文本识别模型训练方法及装置 | |
CN111767924A (zh) | 图像处理方法、图像处理装置、电子设备、存储介质 | |
US20230005171A1 (en) | Visual positioning method, related apparatus and computer program product | |
CN113591861B (zh) | 图像处理方法、装置、计算设备及存储介质 | |
CN115937039A (zh) | 数据扩充方法、装置、电子设备及可读存储介质 | |
CN113038184B (zh) | 数据处理方法、装置、设备及存储介质 | |
CN114842482A (zh) | 一种图像分类方法、装置、设备和存储介质 | |
CN111160265B (zh) | 文件转换方法、装置、存储介质及电子设备 | |
CN113361536A (zh) | 图像语义分割模型训练、图像语义分割方法及相关装置 | |
CN114120305A (zh) | 文本分类模型的训练方法、文本内容的识别方法及装置 | |
US20200342249A1 (en) | Optical character recognition support system | |
CN115147850B (zh) | 文字生成模型的训练方法、文字生成方法及其装置 | |
CN111626283B (zh) | 文字提取方法、装置和电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |