CN113901913A

CN113901913A - 一种用于古籍文档图像二值化的卷积网络

Info

Publication number: CN113901913A
Application number: CN202111168224.XA
Authority: CN
Inventors: 李泽辉; 吴海波; 王华龙; 杨海东
Original assignee: Foshan Nanhai Guangdong Technology University CNC Equipment Cooperative Innovation Institute; Foshan Guangdong University CNC Equipment Technology Development Co. Ltd
Current assignee: Foshan Nanhai Guangdong Technology University CNC Equipment Cooperative Innovation Institute; Foshan Guangdong University CNC Equipment Technology Development Co. Ltd
Priority date: 2021-09-30
Filing date: 2021-09-30
Publication date: 2022-01-07

Abstract

本发明公开了一种用于古籍文档图像二值化的卷积网络，包括LinkNet架构、D‑LinkNet架构和空间金字塔池化(SPP)模块(part C)；所述LinkNet架构包括编码器(part A)和解码器(part D)；所述DP‑LinkNet架构包括编码器(partA)、混联空洞卷积(HDC)模块(part B)和解码器(part D)；所述古籍文档图像二值化的卷积网络以预训练好的编码器(part A)作为其骨干网络；所述编码器(part A)为在ImageNet数据集上预训练的ResNet‑34；所述编码器(part A)的模型第一层为7×7的卷积层，具有64个输出通道，跨度为2；所述编码器(partA)的第二层为批量归一化(BN)层；该古籍文档图像二值化的卷积网络，提高了计算机对于历史古籍识别的准确度，能够有效对多语种和不同的字符进行混排，并识别出不同大小、颜色、亮度、字体的字符。

Description

一种用于古籍文档图像二值化的卷积网络

技术领域

本发明涉及自动视觉检测技术领域，具体为一种用于古籍文档图像二值化的卷积网络。

背景技术

历史古籍是珍贵的文化遗产，具有重要的科学和文化价值；古籍文档数字化是解决文献保护和文化传承的重要途径；然而，手工处理这些海量文献，不仅费时费力，而且容易出错，因此需要借助计算机对古籍图像进行自动化处理；古籍文档分析与识别(H-DAR)***应运而生。

古籍文档分析与识别(H-DAR)***主要包括图像预处理、文档图像二值化、版面分析、文本检测与识别等环节，针对现代图书的扫描文档识别技术已经很成熟。

但历史古籍的文本识别效果还不理想，而且后者的难度远大于前者，原因在于历史古籍中的文字展现形式极其丰富：(1)允许多语种文本混排，字符具有不同的大小、字体、颜色、亮度、对比度等；(2)文本行可能有横向、竖向、弯曲、旋转、扭曲等样式；(3)图像中的文字区域还可能存在墨迹浸润、印鉴遮蔽、文本残缺或模糊等现象；(4)古籍文档图像的背景变化多样，如纸张老化发黄或页面存在污渍，文字区域附近有复杂的背景纹理或非文字区域有近似文字的纹理等。

针对上述问题，本发明公开一种用于古籍文档二值化的卷积网络

提高了计算机对于历史古籍识别的准确度，能够有效对多语种和不同的字符进行混排，并识别出不同大小、颜色、亮度、字体的字符，并且能够对歪曲的文本行进行识别，对图像中文字区域存在的墨迹浸润、印鉴遮蔽、文本残缺或模糊等现象也可以做出一定程度的识别，减低了文字区域复杂的背景纹理或非文字区域有近似文字的纹理对计算机识别所产生的影响。

发明内容

本发明的目的在于提供一种用于古籍文档图像二值化的卷积网络，以解决上述背景技术中提出的现有的古籍文档分析与识别(H-DAR)***对历史古籍的文本识别效果较不理想的问题。为实现上述目的，本发明提供如下技术方案一种用于古籍文档图像二值化的卷积网络，包括LinkNet架构、D-LinkNet架构和空间金字塔池化(SPP)模块(part C)；所述LinkNet架构包括编码器(part A)和解码器(part D)；所述DP-LinkNet架构包括编码器(part A)、混联空洞卷积(HDC)模块(part B)和解码器(part D)。

优选的，所述古籍文档图像二值化的卷积网络以预训练好的编码器(part A)作为其骨干网络，通过编码器提取具有深层语义信息的文字笔画特征。

优选的，所述编码器(part A)为在ImageNet数据集上预训练的ResNet-34；所述编码器(part A)的模型第一层为7×7的卷积层，具有64个输出通道，跨度为2。

优选的，所述编码器(part A)的第二层为批量归一化(BN)层；所述编码器(partA)的第三层为整流线性单元(ReLU)激活层；所述编码器(part A)的第四层为最大池化层，且最大池化层的跨度为2的3×3。

优选的，所述编码器(part A)的其余部分遵循四个ResNet-34编码器模块，分别由3、4、6、3个剩余块(Res-locks)构成，第一个模块中的通道数与该模块的输入通道数相同，由于在每个后续模块的第一个残差块中使用了跨度为2的3×3卷积层，因此与前一个模块相比通道数量增加了一倍，特征图的空间分辨率降低了一半。

优选的，所述混联空洞卷积(HDC)模块(part B)每个分支由1-3个级联空洞卷积组成，卷积核大小为3×3，空洞率分别为1、2、4；所述混联空洞卷积(HDC)模块(part B)每个分支的感受野大小分别为3、7和15，通过混联空洞卷积(HDC)模块(part B)扩大了感受野并聚集了多尺度上下文特征。

优选的，所述空间金字塔池化(SPP)模块(part C)采用三种不同大小的感受野来编码全局上下文信息，并对混联空洞卷积(HDC)模块(part B)输出的特征图进行三次最大池化操作，卷积核大小分别为2×2、3×3和5×5，通过空间金字塔池化(SPP)模块(part C)对混联空洞卷积(HDC)模块(part B)的输出进行多核池化编码。

优选的，所述解码器(part D)包括四个解码器块，每个都包含一个1×1卷积、一个跨度为2的3×3转置卷积以及一个1×1卷积，通过跳跃连接将来自解码器(part D)的粗粒度、深层次的语义特征与来自编码器(part A)的细粒度、浅层次的视觉特征融合起来，弥补连续跨度卷积或池化操作造成的空间信息损失。

与现有技术相比，本发明的有益效果是：

附图说明

图1为本发明总体架构图；

图2为混联空洞卷积(HDC)模块(part B)结构图；

图3为空间金字塔池化(SPP)模块(part C)结构图；

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1-3，本发明提供一种技术方案：一种用于古籍文档图像二值化的卷积网络，包括LinkNet架构、D-LinkNet架构和空间金字塔池化(SPP)模块(part C)；所述LinkNet架构包括编码器(part A)和解码器(part D)；所述DP-LinkNet架构包括编码器(part A)、混联空洞卷积(HDC)模块(part B)和解码器(part D)。

所述古籍文档图像二值化的卷积网络以预训练好的编码器(part A)作为其骨干网络；所述编码器(part A)为在ImageNet数据集上预训练的ResNet-34；所述编码器(partA)的模型第一层为7×7的卷积层，具有64个输出通道，跨度为2。所述编码器(part A)的第二层为批量归一化(BN)层；所述编码器(part A)的第三层为整流线性单元(ReLU)激活层；所述编码器(part A)的第四层为最大池化层，且最大池化层的跨度为2的3×3；

工作时，通过编码器提取具有深层语义信息的文字笔画特征。

所述编码器(part A)的其余部分遵循四个ResNet-34编码器模块，分别由3、4、6、3个剩余块(Res-locks)构成，第一个模块中的通道数与该模块的输入通道数相同，由于在每个后续模块的第一个残差块中使用了跨度为2的3×3卷积层，因此与前一个模块相比通道数量增加了一倍，特征图的空间分辨率降低了一半。

所述混联空洞卷积(HDC)模块(part B)每个分支由1-3个级联空洞卷积组成，卷积核大小为3×3，空洞率分别为1、2、4；所述混联空洞卷积(HDC)模块(part B)每个分支的感受野大小分别为3、7和15；

工作时，通过混联空洞卷积(HDC)模块(part B)扩大了感受野并聚集了多尺度上下文特征，将并联模式和级联模式进行混联提高分割精度指数级增加感受野大小而不降低中间特征图的空间分辨率。

所述空间金字塔池化(SPP)模块(part C)采用三种不同大小的感受野来编码全局上下文信息，并对混联空洞卷积(HDC)模块(part B)输出的特征图进行三次最大池化操作，卷积核大小分别为2×2、3×3和5×5；

工作时，在分类应用中，当网络输入为任意大小的图像时，可以进行卷积和池化操作，直到网络即将连接到全连接(FC)层，并通过空间金字塔池化将任意大小的特征图转换成固定大小的特征向量，即利用多尺度特征提取固定大小的特征向量。然而，对于图像分割(可以看作是像素级分类问题)，将三个低分辨率特征图上采样到与输入特征图相同的空间分辨率大小，最后将输入特征图与这三个经上采样的特征图连接起来。

所述解码器(part D)包括四个解码器块，每个都包含一个1×1卷积、一个跨度为2的3×3转置卷积以及一个1×1卷积；

工作时，通过跳跃连接将来自解码器(part D)的粗粒度、深层次的语义特征与来自编码器(part A)的细粒度、浅层次的视觉特征融合起来，弥补连续跨度卷积或池化操作造成的空间信息损失。

通过从档案文件(READ)项目的识别和丰富中收集了50多个退化的文档图像，以及来自谷歌的20多个希腊和拉丁纸莎草纸文档作为训练数据，其中20％用作验证数据。

给定一个彩色文档图像，它首先被裁剪成大小为128×128的图像块，然后输入卷积网络进行训练或预测，并且输出的二进制图像块被无缝拼接在一起以生成结果二进制图像。

根据实验数据表明，数据增强对于提供针对不同类型退化或变形的网络鲁棒性至关重要，因此进行了数据增强，包括水平翻转、垂直翻转、对角翻转、颜色抖动、图像移位和缩放。

为了训练网络并获得最优模型，本文使用二元交叉熵(BCE)和骰子系数损失之和作为损失函数，其定义为：

其中y是ground truth(GT)标签，y^是模型的预测概率；参数优化选择Adam优化器，初始学习率设置为2×10-4，5次减少5次，同时观察训练损失逐渐减少，批量大小固定为32，epoch数设置为500，采用提前停止策略以避免过度拟合。

为了提高所提出的文档图像二值化方法的鲁棒性，本文采用了测试时间增强(TTA)策略，这是一种在测试集上进行数据增强的手段，包括水平翻转、垂直翻转和对角翻转(相当于生成23＝每个测试补丁的8个增强补丁)。然后对八个预测进行平均以产生最终的预测图。

工作原理：首先将图像输入计算机，然后通过编码器(part A)对图像进行分割和处理，提取具有深层语义信息的文字笔画特征，然后通过混联空洞卷积(HDC)模块(part B)扩大感受野并聚集多尺度上下文特征，通过空间金字塔池化(SPP)模块(part C)对混联空洞卷积(HDC)模块(part B)的输出进行多核池化编码，通过混联空洞卷积(HDC)模块(partB)和空间金字塔池化(SPP)模块(part C)的组合将产生更为丰富的高层抽象特征图，通过编码器(part A)将中间部分输出的低分辨率特征图映射回输入图像的大小，通过损失函数和提前停止策略以避免过度拟合，最后经过数据增强处理后输出图像上的内容。

Claims

1.一种用于古籍文档图像二值化的卷积网络，其特征在于，包括LinkNet架构、DP-LinkNet架构和空间金字塔池化(SPP)模块(part C)；所述LinkNet架构包括编码器(partA)和解码器(part D)；所述DP-LinkNet架构包括编码器(part A)、混联空洞卷积(HDC)模块(part B)和解码器(part D)。

2.根据权利要求1所述的一种用于古籍文档图像二值化的卷积网络，其特征在于，所述古籍文档图像二值化的卷积网络以预训练好的编码器(part A)作为其骨干网络。

3.根据权利要求1所述的一种用于古籍文档图像二值化的卷积网络，其特征在于，所述编码器(part A)为在ImageNet数据集上预训练的ResNet-34；所述编码器(part A)的模型第一层为7×7的卷积层，具有64个输出通道，跨度为2。

4.根据权利要求1所述的一种用于古籍文档图像二值化的卷积网络，其特征在于，所述编码器(part A)的第二层为批量归一化(BN)层；所述编码器(part A)的第三层为整流线性单元(ReLU)激活层；所述编码器(part A)的第四层为最大池化层，且最大池化层的跨度为2的3×3。

5.根据权利要求1所述的一种用于古籍文档图像二值化的卷积网络，其特征在于，所述编码器(part A)的其余部分遵循四个ResNet-34编码器模块，分别由3、4、6、3个剩余块(Res-locks)构成，第一个模块中的通道数与该模块的输入通道数相同，由于在每个后续模块的第一个残差块中使用了跨度为2的3×3卷积层，因此与前一个模块相比通道数量增加了一倍，特征图的空间分辨率降低了一半。

6.根据权利要求1所述的一种用于古籍文档图像二值化的卷积网络，其特征在于，所述混联空洞卷积(HDC)模块(part B)每个分支由1-3个级联空洞卷积组成，卷积核大小为3×3，空洞率分别为1、2、4；所述混联空洞卷积(HDC)模块(part B)每个分支的感受野大小分别为3、7和15。

7.根据权利要求1所述的一种用于古籍文档图像二值化的卷积网络，其特征在于，所述空间金字塔池化(SPP)模块(part C)采用三种不同大小的感受野来编码全局上下文信息，并对混联空洞卷积(HDC)模块(part B)输出的特征图进行三次最大池化操作，卷积核大小分别为2×2、3×3和5×5。

8.根据权利要求1所述的一种用于古籍文档图像二值化的卷积网络，其特征在于，所述解码器(part D)包括四个解码器块，每个都包含一个1×1卷积、一个跨度为2的3×3转置卷积以及一个1×1卷积。