CN110222613A

CN110222613A - 一种基于卷积神经网络的竖排版繁体中文识别方法

Info

Publication number: CN110222613A
Application number: CN201910448370.4A
Authority: CN
Inventors: 李万清; 魏志浩; 刘俊; 唐莹; 袁友伟; 鄢腊梅
Original assignee: Shaoxing Shuhong Technology Co Ltd
Current assignee: Shaoxing Shuhong Technology Co Ltd
Priority date: 2019-05-28
Filing date: 2019-05-28
Publication date: 2019-09-10

Abstract

本发明公开了一种基于卷积神经网络的竖排版繁体中文识别方法，属于深度学习技术领域。本发明先将一页竖排版繁体字图片灰度化处理，接着将灰度图图片二值化化处理，经过多次膨胀处理，将图像白色部分文字膨胀，寻找单个文字位置信息，再对定位的单个文字位置信息进行过滤处理，将过滤后的单个文字位置信息按照相对位置进行排序，最后按顺序将单个文字位置信息转化成单个文字图片，通过卷积神经网络将输入的单个文字图片逐个进行识别，最终输出一页竖排版繁体字图片文本信息。本发明将古书籍扫描成电子图像，将竖排版的繁体中文图像输入即可得到对应文本信息，再通过人工勘误即可完成对古书籍的录入工作，大大节省了人力成本，提高了录入效率。

Description

一种基于卷积神经网络的竖排版繁体中文识别方法

技术领域

本发明属于深度学习技术领域，具体涉及一种基于卷积神经网络的竖排版繁体中文识别方法。

背景技术

随着深度学习近些年来开始流行，深度学习中的神经网络技术也大量应用于生活生产中。文字图像识别技术很早就有人开始研究，李敬兆，张智俊在专利(CN107766899 A--安徽理工大学--一种识别繁体字并学习的方法及装置)中提出了一种通过字库比对的方法识别繁体字的方法，胡东方在专利(CN 106372634 A--无锡天脉聚源传媒科技有限公司--一种繁体字的识别方法及装置)中提出了一种通过笔画像素匹配识别繁体字的方法。上述两种识别方法分别通过对比数据库和图像像素值实现对繁体字的识别。如今文字图像识别主要用于应用范围较广的简体中文，但在繁体中文领域研究较少。尤其在中国古典书籍录入中，将竖排版的繁体中文录入成电子版文字信息往往需要消耗大量的人力资源，且录入人员还需要很高的繁体字知识功底。

发明内容

本发明针对现有技术的不足，提供了一种基于卷积神经网络的竖排版繁体中文识别的方法。本发明通过卷积神经网络实现对繁体字的识别，无需复杂的识别过程和前期准备。

本发明技术方案的主要构思：不同于传统的通过图像像素匹配的方法，本发明应用深度学习中的卷积神经网络识别图像文字。通过图像预处理技术，对图像进行预处理，再定位文字，搭建并训练神经网络模型，通过神经网络识别定位出的文字，最后输出文本信息。

本发明方法包括以下步骤：

一种基于卷积神经网络的竖排版繁体中文识别方法，该方法具体包括以下步骤：

S1：对含有竖排版繁体字的图片进行灰度化处理，将图片由3通道RGB彩色图转换为1通道灰度图；图片单个像素用0至255的数值表示；

S2：将S1中得到的灰度图图片二值化处理，图片单个像素由0或255表示，呈现出非黑即白色彩；

S3：对S2中得到的二值化图片进行多次膨胀处理，每次膨胀处理需遍历图片的每一个像素，并以当前像素为中心选取周围一定区域内所有像素的最大值，用这个最大值替换当前像素值；多次膨胀处理后，使图片中的单个繁体字的笔画像素连通成为整体；

S4：从S3中多次膨胀处理后的二值化图片中得到单个文字的位置信息列表，每个列表元素包含(x,y,w,h)，(x,y)为单个文字的位置坐标，(w,h)为单个文字的宽和高；

S5：针对S4中得到的单个文字的位置信息列表，根据繁体字基本形状、图片大小、图片中的文字数目，确定图片中的文字形状大小以及长宽比例范围，删除偏离该范围的列表元素，从而实现对单个文字位置信息列表的过滤处理；

S6：将过滤后的单个文字位置信息按照相对位置进行排序，将图片中的文字按照行文顺序排序；排序过程中，首先按照单个文字位置的横坐标x值进行聚类；然后每个类中按照文字的纵坐标y值与竖排版行文顺序的对应关系重新排序；最后将每一类排序后的文字作为一个整体，按照文字的横坐标x值与竖排版行文顺序的对应关系重新排序；

S7：基于S6中排序后的文字，顺次根据单个文字的位置信息从图片中获取单个文字图片，然后利用训练好的卷积神经网络对输入的单个文字图片逐个进行识别，最终输出竖排版繁体字图片的文本信息。

在上述方案基础上，本发明的个步骤还可以采用如下的具体方式实现。

优选的，所述的步骤S1中，按下列公式对图片中的RGB三分量进行加权平均，得到1通道灰度图：

Gray(i,j)＝0.299R(i,j)+0.578G(i,j)+0.114B(i,j)

其中，Gray(i,j)表示在坐标(i,j)处的灰度像素值，R(i,j),G(i,j),B(i,j)分别表示原始RGB彩色图像在坐标(i,j)处的红色通道，绿色通道，蓝色通道的像素值。

优选的，所述的步骤S3中，每一次膨胀处理时，对于任一当前像素(i,j)，按照下列公式进行像素值更新：

T(i,j)＝max(g(a,b)),a∈(i-t,i+t),b∈(j-t,j+t),t＞0

其中T(i,j)为膨胀处理后在(i,j)坐标处的像素值，g(a,b)为二值化图像在(a,b)坐标处的像素值，max()表示取其中最大值，t为膨胀窗口半径。

优选的，所述的步骤S4中，通过MSER最大稳定极值区域方法，从多次膨胀处理后的二值化图片中得到最大稳定极值区域，根据这些最大稳定极值区域形成单个文字的位置信息列表。

优选的，所述的步骤S5中，对单个文字位置信息列表的过滤处理方法为：

首先根据繁体字的基本形状确定文字的宽高比阈值V，从单个文字位置信息列表中筛选满足下列公式的列表元素：

然后对筛选出的所有列表元素，计算这些元素中单个文字的平均宽度w_ave和平均高度h_ave；

最后对筛选出的所有列表元素中偏离平均宽度或平均高度的列表元素进行删除，完成过滤过程。

进一步的，所述的宽高比阈值V取1/5至1/2之间。

优选的，所述竖排版繁体字的图片中，行文顺序为从右往左逐列书写；图片中单个文字的位置横坐标从左往右逐渐增大，单个文字的位置纵坐标从上往下逐渐增大。

优选的，所述的步骤S7中，所述的卷积神经网络的训练方法具体包括以下步骤：

S71：根据每个中文汉字对应的Unicode码，将识别所需的所有汉字的Unicode码制成列表；

S72：获取多种不同的字体文件，从字体文件中将Unicode码对应的字输出并保存为图片格式，得到不同字体的训练图片样本；

S73：构建用于识别文字的卷积神经网络，并训练神经网络；损失函数loss选择为categorical_crossentropy，公式为：

其中m为样本数量；y_为样本的标签，即对应的真实值；y为神经网络的预测输出值；w为神经网络的参数；

采用随机梯度下降法为优化器对卷积神经网络进行训练，直至满足准确率要求。

进一步的，所述的字体文件为繁体中文的字体文件。

进一步的，所述的准确率要求为卷积神经网络对测试集的识别准确率达到95％以上。

本发明具有的有益效果：将古书籍扫描成电子图像，将竖排版的繁体中文图像输入即可得到对应文本信息，再通过人工勘误即可完成对古书籍的录入工作，大大节省了人力成本，提高了录入效率。本发明通过卷积神经网络实现对繁体字的识别，无需复杂的识别过程和前期准备。

附图说明

图1为竖排版繁体中文识别的流程图。

图2为卷积神经网络搭建及训练的流程图。

具体实施方式

下面结合附图和具体实施方式对本发明做进一步阐述和说明。本发明中各个实施方式的技术特征在没有相互冲突的前提下，均可进行相应组合。

以下结合附图对本发明作进一步说明。如图1所示，本发明的基于卷积神经网络的竖排版繁体中文识别方法，包括如下步骤：

S1：将竖排版繁体字的古书籍逐页扫描成电子图像，然后对含有竖排版繁体字的图片进行灰度化处理。对于文字图片，色彩对识别的影响不大，为了减少输入信息量，提高识别效率，故将一页图片整体灰度化处理，将图片由3通道RGB彩色图转换为1通道灰度图；图片单个像素用0至255的数值表示。由于人眼对绿色的敏感最高，对蓝色敏感最低。因此，按公式(1)对图片中的RGB三分量进行加权平均，得到较合理的1通道灰度图：

Gray(i,j)＝0.299R(i,j)+0.578G(i,j)+0.114B(i,j)

S2：将S1中得到的灰度图图片二值化处理，图片单个像素由0或255表示，图片呈现出非黑即白色彩。二值化公式如公式(2)所示：

其中g(i,j)为二值化后在坐标(i,j)处的像素值，Gray(i,j)为灰度图在坐标(i,j)处的像素值，T为阈值。

步骤(3).多次膨胀处理，如公式(3)所示。繁体中文中很多字的笔画组成也是左右分离或上下分离，如果直接定位则会定位为两个汉字。通过将整页竖排版繁体字图片多次膨胀处理，汉字笔画则会连通，后续的定位便能更加准确。

T(i,j)＝max(g(a,b)),a∈(i-t,i+t),b∈(j-t,j+t),t＞0 (3)

其中T(i,j)为膨胀处理后在(i,j)坐标处的像素值，g(a,b)为二值化图像在(a,b)坐标处的像素值，max()为取其中最大值，t为膨胀窗口半径。

S3：繁体中文中很多字的笔画组成也是左右分离或上下分离，如果直接定位则会定位为两个汉字。通过将整页竖排版繁体字图片多次膨胀处理，汉字笔画则会连通，后续的定位便能更加准确。因此，本步骤对S2中得到的二值化图片进行多次膨胀处理，每次膨胀处理需遍历图片的每一个像素，并以当前像素为中心选取周围一定区域内所有像素的最大值，用这个最大值替换当前像素值；多次膨胀处理后，使图片中的单个繁体字的笔画像素连通成为整体。

每一次膨胀处理时，对于任一当前像素(i,j)，按照下列公式进行像素值更新：

T(i,j)＝max(g(a,b)),a∈(i-t,i+t),b∈(j-t,j+t),t＞0 (3)

S4：从S3中多次膨胀处理后的二值化图片中得到单个文字的位置信息列表，每个列表元素包含(x,y,w,h)。其中(x,y)为单个文字的位置坐标，该坐标可以是该文字的包围框(即最小外接矩形)中一个角点或中心点的坐标，优选为左上角像素点坐标。(w,h)为单个文字的宽和高，与(x,y)配合即可确定文字在图像中的位置和大小。图片中单个文字位置信息的获取可以通过MSER最大稳定极值区域方法进行。

该方法对图像进行二值化，二值化阈值在[0,255]内逐渐增大，使二值化的图像逐渐从全黑到全白，在此过程中，有些连通区域面积随阈值上升的变化很小。如公式(4)所示。

其中，Q_i表示阈值为i时的某一连通区域，q(i)为阈值是i时的区域Q_i的变化率，Δ为灰度阈值的微小变化量。

当q(i)为局部极小值时，则Q_i为最大稳定极值区域，取出这些最大稳定极值区域，得到单个文字的位置信息列表。

S5：针对S4中得到的单个文字的位置信息列表，根据繁体字基本形状、纸张扫描成的图片大小、图片中的文字数目，确定图片中的文字形状大小以及长宽比例范围，删除偏离该范围的列表元素，从而实现对单个文字位置信息列表的过滤处理。

在本实施例中，可以根据图片中文字自身信息来确定图片中的文字形状大小以及长宽比例范围，减少人为影响，其具体做法为：

由于中文繁体字具有一定的基本形状，其宽高比总体在一定范围内，不会过大也不会过小。因此首先根据繁体字的基本形状确定文字的宽高比阈值V，根据经验的V取值可以位于1/5至1/2之间，具体根据古籍中字体的具体书写体确定。基于确定的V值，可以从单个文字位置信息列表中筛选满足下列公式(5)的列表元素：

满足该公式的绝大部分为中文繁体字，但由于古籍纸张可能存在破损或者污损，因此也可能存在部分墨迹或者杂质点也满足该公式。因此需要进一步进行筛选。该筛选可以以文字的大小尺寸作为标准进行，具体为：对筛选出的所有列表元素，计算这些元素中单个文字的平均宽度w_ave和平均高度h_ave。最后对筛选出的所有列表元素中文字宽度和长度偏离平均宽度或平均高度的列表元素进行删除，完成过滤过程。具体的偏离标准可以设定一个偏差百分比，文字宽度或长度相对于平均值超过一定百分比，就视为偏离了平均宽度或平均高度，该元素不属于文字，应当进行剔除。

S6：将过滤后的单个文字位置信息按照相对位置进行排序，将图片中的文字按照行文顺序排序。在古籍扫描而成的竖排版繁体字的图片中，行文顺序一般是从右往左逐列书写的，每一列是从上往下书写的。可以根据这种行文顺序与文字坐标的关系来重新进行排列。一般来说，古籍的书写习惯中纵向一列的文字基本上是位于差不多的横坐标处的，因此可以对横坐标进行聚类，同一类的文字属于同一列文字，然后再根据每一列文字的纵坐标排列其先后顺序。

排序算法具体如下：首先按照单个文字位置的横坐标x值进行聚类；然后每个类中按照文字的纵坐标y值与竖排版行文顺序的对应关系重新排序；最后将每一类排序后的文字作为一个整体，按照文字的横坐标x值与竖排版行文顺序的对应关系重新排序。

在本实施例的坐标系中，图片中单个文字的位置横坐标x从左往右逐渐增大，单个文字的位置纵坐标y从上往下逐渐增大。因此排序过程中，首先按照单个文字位置的横坐标x值进行聚类；然后每个类中按照文字的纵坐标y值从小到大重新排序，y值越小表明该文字在这一列中书写顺序越靠前。对所有类进行排序后，再逐类按照文字的横坐标x值第一优先且从大到小依次排序，确定所有文字列的先后顺序，x值越大表明该列文字行文越靠前。由于同一列文字的横坐标x值可能有区别，因此可以以类中心的横坐标作为x值为准进行排序，或者取同一类中所有文字的横坐标平均值作为x值进行排序，x值越大该列文字越靠前。

按照排序好的单个文字位置信息逐个获取单个文字图片，将单个文字图片输入卷积神经网络进行逐个识别，最终输出整页竖排版图片的文本信息。

S7：基于S6中排序后的文字，由于每个文字都带有位置信息，因此可以顺次根据单个文字的位置信息从图片中截取单个文字图片。然后利用训练好的卷积神经网络对输入的单个文字图片逐个进行识别，最终输出竖排版繁体字图片的文本信息。

图2是卷积神经网络搭建的流程图，其中卷积神经网络的训练方法具体包括以下步骤：

S71：已知每个中文汉字不论简体繁体都对应唯一的Unicode码，将识别所需的所有汉字的Unicode码制成列表。

S72：获取多种不同的字体文件，从字体文件中将Unicode码对应的字输出并保存为图片格式，得到不同字体的训练图片样本。考虑到识别目标为繁体字，因此字体文件也应当尽量是繁体中文的字体文件。通过此步骤，可以得到不同字体的训练图片样本，省去了人工收集图片的工作量。

S73：根据输入的图像特征，选择合适的超参数构建用于识别文字的卷积神经网络，并训练神经网络。其损失函数loss选择为categorical_crossentropy(分类交叉熵)，公式为：

采用随机梯度下降法为优化器对卷积神经网络进行训练。

训练过程中，需要使用测试集计算网络准确率。将测试集输入到训练好的神经网络中，根据测试集中每个样本预测值和真实值是否一致来统计准确率。当测试集准确率达到95％以上时，我们认为符合要求，则保存模型，否则修改参数继续训练。

本发明作为核心算法可以集成到PC端，移动端、高拍仪等硬件设备软件***中，从而构建更加灵活方便的产品。随着字体库的不断积累、图片处理技术的提高、卷积神经网络模型的修正，本方法对繁体字的识别将更加准确，泛化能力将更广更强。

以上所述的实施例只是本发明的一种较佳的方案，然其并非用以限制本发明。有关技术领域的普通技术人员，在不脱离本发明的精神和范围的情况下，还可以做出各种变化和变型。因此凡采取等同替换或等效变换的方式所获得的技术方案，均落在本发明的保护范围内。

Claims

1.一种基于卷积神经网络的竖排版繁体中文识别方法，其特征在于，该方法具体包括以下步骤：

2.根据权利要求1所述的基于卷积神经网络的竖排版繁体中文识别方法，其特征在于：所述的步骤S1中，按下列公式对图片中的RGB三分量进行加权平均，得到1通道灰度图：

Gray(i,j)＝0.299R(i,j)+0.578G(i,j)+0.114B(i,j)

3.根据权利要求1所述的基于卷积神经网络的竖排版繁体中文识别方法，其特征在于：所述的步骤S3中，每一次膨胀处理时，对于任一当前像素(i,j)，按照下列公式进行像素值更新：

T(i,j)＝max(g(a,b)),a∈(i-t,i+t),b∈(j-t,j+t),t＞0

4.根据权利要求1所述的基于卷积神经网络的竖排版繁体中文识别方法，其特征在于：所述的步骤S4中，通过MSER最大稳定极值区域方法，从多次膨胀处理后的二值化图片中得到最大稳定极值区域，根据这些最大稳定极值区域形成单个文字的位置信息列表。

5.根据权利要求1所述的基于卷积神经网络的竖排版繁体中文识别方法，其特征在于：所述的步骤S5中，对单个文字位置信息列表的过滤处理方法为：

6.根据权利要求1所述的基于卷积神经网络的竖排版繁体中文识别方法，其特征在于：所述的宽高比阈值V取1/5至1/2之间。

7.根据权利要求1所述的基于卷积神经网络的竖排版繁体中文识别方法，其特征在于：所述竖排版繁体字的图片中，行文顺序为从右往左逐列书写；图片中单个文字的位置横坐标从左往右逐渐增大，单个文字的位置纵坐标从上往下逐渐增大。

8.根据权利要求1所述的基于卷积神经网络的竖排版繁体中文识别方法，其特征在于：所述的步骤S7中，所述的卷积神经网络的训练方法具体包括以下步骤：

9.根据权利要求1所述的基于卷积神经网络的竖排版繁体中文识别方法，其特征在于：所述的字体文件为繁体中文的字体文件。

10.根据权利要求1所述的基于卷积神经网络的竖排版繁体中文识别方法，其特征在于：所述的准确率要求为卷积神经网络对测试集的识别准确率达到95％以上。