CN110097059B

CN110097059B - 基于生成对抗网络的文档图像二值化方法、***、装置

Info

Publication number: CN110097059B
Application number: CN201910222323.8A
Authority: CN
Inventors: 肖柏华; 赵晋媛; 贾馥溪; 王春恒
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2019-03-22
Filing date: 2019-03-22
Publication date: 2021-04-02
Anticipated expiration: 2039-03-22
Also published as: CN110097059A

Abstract

本发明属于图像处理领域，具体涉及一种基于生成对抗网络的文档图像二值化方法、***、装置，旨在为了解决解决现有二值化方法在文档图片的图像质量参差不齐的情况下其二值化准确度不稳定，鲁棒性较差的问题。本发明方法包括：对原始文档图像进行切分；分基于第一卷积神经网络分别对切分图像、归一化后的原始文档图像进行二值化处理；将得到的二值化图像分别通过拼接、缩放生成原始文档图像尺寸，并与原始文档图像的灰度图进行合并，进行图片切分后通过第二卷积神经网络进二值化，并合并得到的二值化图像块得到最终的二值化图。本发明对于多种类型文档的拍照文档图像可以获取准确度较高的二值化图像，且具有较高的稳定性，鲁棒性强。

Description

基于生成对抗网络的文档图像二值化方法、***、装置

技术领域

本发明属于图像处理领域，具体涉及一种基于生成对抗网络的文档图像二值化方法、***、装置。

背景技术

近年来，随着网络技术的迅猛发展，人类已经进入了信息划时代，传统的信息获取方法，如书籍、报纸以及期刊等由于携带的不方便性，同时存放需要大量的空间，不便于编辑整理和传播。人们越来越倾向于使用磁盘等电子设备来存储，因此将纸质材料文字信息快速输入计算机有很重要的意义，OCR(Optical Character Recognition，光学字符识别)技术由此产生。OCR技术能够实现文字信息的告高速、自动的输入，节约了大量的人力资源，目前已经得到广泛的应用。

OCR技术的成功依赖于对文本图像的预处理工作，能够对图像进行良好的二值化处理，就能够大大提高OCR识别的准确率，所以二值化工作有很大的研究价值。在实际的应用中，文本图像的质量可能千差万别，可能有打印不清或者噪声等烦扰，现有二值化方法在文档图片的图像质量参差不齐的情况下其二值化准确度不稳定，鲁棒性较差。

发明内容

为了解决现有技术中的上述问题，即为了解决现有二值化方法在文档图片的图像质量参差不齐的情况下其二值化准确度不稳定，鲁棒性较差的问题，本发明的第一方面，提出了一种基于生成对抗网络的文档图像二值化方法，该方法包括：

步骤S10，按照设定步长从输入的原始文档图像中获取预设第一尺寸的多个图像块，作为第一图像块集合；

步骤S20，对于所述第一图像块集合，通过第一卷积神经网络获取每图像块的二值化图，得到第二图像块集合；将所述原始文档图像归一化至所述第一尺寸大小，通过所述第一卷积神经网络获取其二值化图，作为第一二值图；

步骤S30，将所述第二图像块集合中各图像块拼接得到第二二值图；将第一二值图缩放至所述原始文档图像的尺寸作为第三二值图；获取所述原始文档图像的灰度图；将所述第二二值图、第三二值图、所述原始文档图像的灰度图合并得到三通道图像；

步骤S40，所述三通道图像采用步骤S10的方法切分得到第三图像块集合，并通过第二卷积神经网络获取个图像块的二值图，作为第四图像块集合；

步骤S50，将所述第四图像块集合中各图像块拼接得到原始文档图像的最终二值化图；

其中，所述第一卷积神经网络、所述第二卷积神经网络级联组成生成对抗网络的生成器，并通过训练进行参数优化。

在一些优选实施方式中，所述对抗网络的判别器为patch-based全卷积神经网络；

所述第一卷积神经网络、所述第二卷积神经网络为两个结构相同的语义分割网络；所述第一卷积神经网络用于根据局部区域的上下文信息生成二值化图像；所述第二卷积神经网络用于根据文本与背景上下文信息差异对所述第一卷积神经网络的输出结果进行修正。

在一些优选实施方式中，所述对抗网络训练时的损失函数L_loss为

L_cGAN(G，D)＝E_x，y[log D(x，y)]+E_x[log(1-D(x，G(x，z)))]

L_L1(G)＝E_x，y[||(y-G(x，z))||₁]

其中，G、D分别表示对抗网络中的生成器与判别器；L_cGAN(G，D)为生成器与判别器训练的对抗损失，L_L1(G)为生成器生成的图像与真实二值图像的L1损失，x是输入图片，z是生成器中的随机噪声，G(x，z)表示生成器利用输入图像x和随机噪声z生成的二值化结果图像，y为真实的二值图像，γ为两种损失对应的权重系数，D(x，y)为由输入图像和真实二值化样本对应的判别器输出结果。

在一些优选实施方式中，所述第一卷积神经网络、所述第二卷积神经网络均包含五层卷积层、五层反卷积层。

在一些优选实施方式中，所述第一图像块集合中每一个图像块，其图像中心的第二尺寸区域不与所述第一图像块集合中其他图像块重叠。

在一些优选实施方式中，所述第一尺寸为A*A，所述第二尺寸为B*B；

基于图像块的左上点[a，b]确定该图像块相邻的四个图像块的左上点，其方法为：

左侧相邻图像块的左上点坐标为[a-A+(B/2)，b]；

右侧相邻图像块的左上点坐标为[a+A-(B/2)，b]；

上方相邻图像块的左上点坐标为[a，b-A+(B/2)]；

下方相邻图像块的左上点坐标为[a，b+A-(B/2)]。

在一些优选实施方式中，所述第一尺寸为256*256，所述第二尺寸为128*128。

本发明的第二方面，提出了一种基于生成对抗网络的文档图像二值化***，该***包括切分模块、第一卷积神经网络处理模块、三通道图像获取模块、第二卷积神经网络处理模块、最终二值化图获取模块；

所述切分模块，配置为按照设定步长从输入的文本图像中获取预设第一尺寸的多个图像块，构建图像块集合；

所述第一卷积神经网络处理模块，配置为对于通过所述切分模块从原始文档图像获取第一图像块集合，通过第一卷积神经网络获取每图像块的二值化图，得到第二图像块集合；将所述原始文档图像归一化至所述第一尺寸大小，通过所述第一卷积神经网络获取其二值化图，作为第一二值图；

所述三通道图像获取模块，配置为将所述第二图像块集合中各图像块拼接得到第二二值图；将第一二值图缩放至所述原始文档图像的尺寸作为第三二值图；获取所述原始文档图像的灰度图；将所述第二二值图、第三二值图、所述原始文档图像的灰度图合并得到三通道图像；

所述第二卷积神经网络处理模块，配置为对于通过所述切分模块从所述三通道图像获取第三图像块集合，并通过第二卷积神经网络获取个图像块的二值图，作为第四图像块集合；

所述最终二值化图获取模块，配置为将所述第四图像块集合中各图像块拼接得到原始文档图像的最终二值化图；

本发明的第三方面，提出了一种存储装置，其中存储有多条程序，所述程序适于由处理器加载并执行以实现上述的基于生成对抗网络的文档图像二值化方法。

本发明的第四方面，提出了一种处理装置，包括处理器、存储装置；处理器，适于执行各条程序；存储装置，适于存储多条程序；所述程序适于由处理器加载并执行以实现上述的基于生成对抗网络的文档图像二值化方法。

本发明的有益效果：

本发明对于多种类型文档的拍照文档图像可以获取准确度较高的二值化图像，且具有较高的稳定性，鲁棒性强，同时，本发明采用双卷积神经网络的方式对文档图像文字提取具有良好的适应性，可以克服非文字噪声干扰。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本申请的其它特征、目的和优点将会变得更明显：

图1是本发明一种实施例的基于生成对抗网络的文档图像二值化方法流程示意图；

图2是本发明一种实施例中原始文档图像切分示意图；

图3是本发明一种实施例中生成对抗网络结构中生成器部分结构示意图；

图4是本发明一种实施例中生成对抗网络结构中判别器结构示意图；

图5是本发明一种实施例中经第一卷积神经网络获得的结果示例；

图6是本发明一种实施例中第二卷积神经网络的输入图像示例；

图7是本发明一种实施例得到原始文档图像的最终二值化图示例。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释相关发明，而非对该发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与有关发明相关的部分。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

为了更清晰地对本发明进行说明，下面结合图1-图7对本方发明一种实施例中各部分进行展开详述。

本发明中采用两个卷积神经网络级联进行二值化处理，为了更好地对本发明进行说明，下文先行描述两个卷积神经网络的构成及训练，然后再基于训练好的两个卷积神经网络描述本发明的基于生成对抗网络的文档图像二值化方法。

1、两个卷积神经网络的构成及训练

第一卷积神经网络、第二卷积神经网络级联组成生成对抗网络的生成器，并基于此构建对抗网络。

(1)生成器

所设计的生成对抗网络中，第一卷积神经网络、第二卷积神经网络由两个结构相同的语义分割网络(U-NET)级联组成，其中，每个U-NET网络包含五层卷积层、五层反卷积层，以保证输入输出图片大小相同。两个U-NET作用分别为：第一个U-NET结构主要根据局部区域的上下文信息生成二值化图像，并尽可能多地保持文本细节。第二个U-NET结构基于不同尺度下文本与背景的上下文信息差异，对第一部分生成的结果图像进行了修正，以进一步消除背景噪声。生成器结构见图3中间的方框部分，该图中G1为第一卷积神经网络、G2为第二卷积神经网络。

(2)判别器

判别器为一个patch-based全卷积神经网络。其目的是对区分生成器生成的二值化图像和原始的二值化图像哪个更为标准。具体网络结构见图4，将生成器生成的二值化图片与输入样本对应的二值化图片样本进行对比判断，其中，生成器生成的二值图与输入图像对比判断的结果为假，原图对应的标准二值图与输入图像的对比判断结果为真。

(3)损失函数

对抗网络训练时的损失函数L_loss为

L_cGAN(G，D)＝E_x，y[log D(x，y)]+E_x[log(1-D(x，G(x，z)))]

L_L1(G)＝E_x，y[||(y-G(x，z))||₁]

其中，G、D分别表示对抗网络中的生成器与判别器_；L_cGAN(G，D)为生成器与判别器训练的对抗损失，L_L1(G)为生成器生成的图像与真实二值图像的L1损失；x是输入图片；z是生成器中的随机噪声；G(x，z)表示生成器利用输入图像x和随机噪声z生成的二值化结果图像，，y为真实的二值图像，γ为两种损失对应的权重系数(在一些实施例中取γ＝1)，D(x，y)为由输入图像和真实二值化样本对应的判别器输出结果。

2、本发明方法

本发明一种实施例的基于生成对抗网络的文档图像二值化方法，如图1所示，该方法包括：

步骤S10，按照设定步长从输入的原始文档图像中获取预设第一尺寸的多个图像块，作为第一图像块集合。

本实施例中，第一图像块集合中每一个图像块，其图像中心的第二尺寸区域不与第一图像块集合中其他图像块重叠。

例如，预设第一尺寸为A*A(例如可以为256*256)，第二尺寸为B*B(例如可以为128*128)，将原始拍照文档图像按照一定步长裁剪成A*A大小的图像块，各图像块中心的B*B区域不重叠，为实现不重叠，可以采用下方法确定相邻图像块的位置：

基于图像块的左上点[a，b]确定该图像块相邻的四个图像块的左上点：：

左侧相邻图像块的左上点坐标为[a-A+(B/2),b]；

右侧相邻图像块的左上点坐标为[a+A-(B/2),b]；

上方相邻图像块的左上点坐标为[a,b-A+(B/2)]；

下方相邻图像块的左上点坐标为[a,b+A-(B/2)]。

例如，在一个实施例中第一尺寸为256*256，第二尺寸为128*128，一个图像块左上点为[a，b]，则对应的左侧相邻图像块的左上点坐标为[a-256+64,b]；右侧相邻图像块的左上点坐标为[a+256-64,b]；上方相邻图像块的左上点坐标为[a,b-256+64]；下方相邻图像块的左上点坐标为[a,b+256-64]。

如图2所示为一个示例的原始文档图像切分示意图，图中的线条表示原始文档图像位置与切分后图像的对应关系。

步骤S20，对于所述第一图像块集合，通过第一卷积神经网络获取每图像块的二值化图，得到第二图像块集合；将所述原始文档图像归一化至所述第一尺寸大小，通过所述第一卷积神经网络获取其二值化图，作为第一二值图。

本实施例中，将第一图像块集合中各图像块输入训练好的第一卷积神经网络，得到对应每一个图像块的初始二值化结果图像，得到第二图像块集合；同时，将原始文档图像整体归一化至A*A(例如可以为256*256)，通过第一卷积神经网络得到其二值化结果，作为第一二值图。

图5是本发明一种实施例中经第一卷积神经网络生成的二值化图像块经过拼接为原始图像尺寸后的结果示例，该图中给出了(a)、(b)、(c)、(d)、(e)五个示例。

步骤S30，将所述第二图像块集合中各图像块拼接得到第二二值图；将第一二值图缩放至所述原始文档图像的尺寸作为第三二值图；获取所述原始文档图像的灰度图；将所述第二二值图、第三二值图、所述原始文档图像的灰度图合并得到三通道图像。

本实施例中，第二卷积神经网络输入图像由三个通道组成，因此该步骤需要先行获取三通道图像，其方法为：

将步骤S30中得到第二图像块集合中各图像块，采用与步骤S10切分的信息进行组合拼接，恢复成原始文档图像的初步二值化结果，作为第二二值图，该图为第二卷积神经网络输入图像的第一个通道；

将步骤S30得到的第一二值图缩放至原始文档图像的尺寸作为第三二值图，该图为第二卷积神经网络输入图像的第二个通道；

获取原始文档图像的灰度图作为第二卷积神经网络输入图像的第三个通道；

将第二二值图、第三二值图、原始文档图像的灰度图合并得到三通道图像。

如图6所示为得到的两个三通道图像示例。

步骤S40，所述三通道图像采用步骤S10的方法切分得到第三图像块集合，并通过第二卷积神经网络获取个图像块的二值图，作为第四图像块集合。

步骤S50，将所述第四图像块集合中各图像块拼接得到原始文档图像的最终二值化图。

本实施例中，将步骤S40得到的第四图像块集合中各图像块，采用与步骤S10切分的信息进行组合拼接，恢复成原始文档图像对应的二值化结果图像，并以该图像作为原始文档图像的最终二值化图。

图3中也可以显示出本发明的图片二值化流程，输入图像(原始文档图像)通过图像切分得到切分后的图像块集合、通过尺度缩放得到归一化后的原始图片、通过灰度处理得到原始文档图像的灰度图，切分后的图像块集合通过G1得到的二值图像块合并后得到图片(1)，归一化后的原始图片通过G1二值化后得到图片(2)，图片(1)、图片(2)、原始文档图像的灰度图合并后再次进行图片切分，之后通过G2得到多个二值化图片，合并后得到最终的二值化图。

图7是本发明一种实施例得到原始文档图像的最终二值化图示例，其中包括(a)、(b)、(c)、(d)、(e)五个结果示例，其与图5中各图相互对应。

本发明一种实施例的基于生成对抗网络的文档图像二值化***，包括切分模块、第一卷积神经网络处理模块、三通道图像获取模块、第二卷积神经网络处理模块、最终二值化图获取模块。

所述切分模块，配置为按照设定步长从输入的文本图像中获取预设第一尺寸的多个图像块，构建图像块集合。

所述第一卷积神经网络处理模块，配置为对于通过所述切分模块从原始文本图像获取第一图像块集合，通过第一卷积神经网络获取每图像块的二值化图，得到第二图像块集合；将所述原始文本图像归一化至所述第一尺寸大小，通过所述第一卷积神经网络获取其二值化图，作为第一二值图。

所述三通道图像获取模块，配置为将所述第二图像块集合中各图像块拼接得到第二二值图；将第一二值图缩放至所述原始文本图像的尺寸作为第三二值图；获取所述原始文本图像的灰度图；将所述第二二值图、第三二值图、所述原始文本图像的灰度图合并得到三通道图像。

所述第二卷积神经网络处理模块，配置为对于通过所述切分模块从所述三通道图像获取第三图像块集合，并通过第二卷积神经网络获取个图像块的二值图，作为第四图像块集合。

所述最终二值化图获取模块，配置为将所述第四图像块集合中各图像块拼接得到原始文本图像的最终二值化图。

所属技术领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的***的具体工作过程及有关说明，可以参考前述方法实施例中的对应过程，在此不再赘述。

需要说明的是，上述实施例提供的基于生成对抗网络的文档图像二值化***，仅以上述各功能模块的划分进行举例说明，在实际应用中，可以根据需要而将上述功能分配由不同的功能模块来完成，即将本发明实施例中的模块或者步骤再分解或者组合，例如，上述实施例的模块可以合并为一个模块，也可以进一步拆分成多个子模块，以完成以上描述的全部或者部分功能。对于本发明实施例中涉及的模块、步骤的名称，仅仅是为了区分各个模块或者步骤，不视为对本发明的不当限定。

本发明一种实施例的存储装置，其中存储有多条程序，所述程序适于由处理器加载并执行以实现上述的基于生成对抗网络的文档图像二值化方法。

本发明一中实施例的处理装置，包括处理器、存储装置；处理器，适于执行各条程序；存储装置，适于存储多条程序；所述程序适于由处理器加载并执行以实现上述的基于生成对抗网络的文档图像二值化方法。

所属技术领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的存储装置、处理装置的具体工作过程及有关说明，可以参考前述方法实施例中的对应过程，在此不再赘述。

本领域技术人员应该能够意识到，结合本文中所公开的实施例描述的各示例的模块、方法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，软件模块、方法步骤对应的程序可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。为了清楚地说明电子硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以电子硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

术语“第一”、“第二”等是用于区别类似的对象，而不是用于描述或表示特定的顺序或先后次序。

术语“包括”或者任何其它类似用语旨在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备/装置不仅包括那些要素，而且还包括没有明确列出的其它要素，或者还包括这些过程、方法、物品或者设备/装置所固有的要素。

至此，已经结合附图所示的优选实施方式描述了本发明的技术方案，但是，本领域技术人员容易理解的是，本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下，本领域技术人员可以对相关技术特征作出等同的更改或替换，这些更改或替换之后的技术方案都将落入本发明的保护范围之内。

Claims

1.一种基于生成对抗网络的文档图像二值化方法，其特征在于，该方法包括：

步骤S40，所述三通道图像采用步骤S10的方法切分得到第三图像块集合，并通过第二卷积神经网络获取所述第三图像块集合中各图像块的二值图，作为第四图像块集合；

其中，所述第一卷积神经网络、所述第二卷积神经网络级联组成生成对抗网络的生成器，以patch-based全卷积神经网络作为生成对抗网络的判别器，并通过训练进行参数优化；

所述第一卷积神经网络和所述第二卷积神经网络为两个结构相同的语义分割网络，所述语义分割网络包含五层卷积层和五层反卷积层。

2.根据权利要求1所述的基于生成对抗网络的文档图像二值化方法，其特征在于，所述第一卷积神经网络用于根据局部区域的上下文信息生成二值化图像；所述第二卷积神经网络用于根据文本与背景上下文信息差异对所述第一卷积神经网络的输出结果进行修正。

3.根据权利要求2所述的基于生成对抗网络的文档图像二值化方法，其特征在于，所述生成对抗网络训练时的损失函数L_loss为

L_cGAN(G，D)＝E_x，y[logD(x，y)]+E_x[log(1-D(x，G(x，z)))]

L_L1(G)＝E_x，y[||(y-G(x，z))||₁]

其中，G、D分别表示生成对抗网络中的生成器与判别器；L_cGAN(G，D)为生成器与判别器训练的对抗损失，L_L1(G)为生成器生成的图像与真实二值图像的L1损失，x是输入图片，z是生成器中的随机噪声，G(x，z)表示生成器利用输入图像x和随机噪声z生成的二值化结果图像，y为真实的二值图像，γ为两种损失对应的权重系数，D(x，y)为由输入图像和真实二值化样本对应的判别器输出结果。

4.根据权利要求1-3任一项所述的基于生成对抗网络的文档图像二值化方法，其特征在于，所述第一图像块集合中每一个图像块，其图像中心的第二尺寸区域不与所述第一图像块集合中其他图像块重叠。

5.根据权利要求4所述的基于生成对抗网络的文档图像二值化方法，其特征在于，所述第一尺寸为A*A，所述第二尺寸为B*B；

左侧相邻图像块的左上点坐标为[a-A+(B/2)，b]；

右侧相邻图像块的左上点坐标为[a+A-(B/2)，b]；

上方相邻图像块的左上点坐标为[a，b-A+(B/2)]；

下方相邻图像块的左上点坐标为[a，b+A-(B/2)]。

6.根据权利要求5所述的基于生成对抗网络的文档图像二值化方法，其特征在于，所述第一尺寸为256*256，所述第二尺寸为128*128。

7.一种基于生成对抗网络的文档图像二值化***，其特征在于，该***包括切分模块、第一卷积神经网络处理模块、三通道图像获取模块、第二卷积神经网络处理模块、最终二值化图获取模块；

所述第二卷积神经网络处理模块，配置为对于通过所述切分模块从所述三通道图像获取第三图像块集合，并通过第二卷积神经网络获取所述第三图像块集合中各图像块的二值图，作为第四图像块集合；

8.一种存储装置，其中存储有多条程序，其特征在于，所述程序适于由处理器加载并执行以实现权利要求1-6任一项所述的基于生成对抗网络的文档图像二值化方法。