CN110472632B

CN110472632B - 基于字符特征的字符分割方法、装置及计算机存储介质

Info

Publication number: CN110472632B
Application number: CN201910702665.XA
Authority: CN
Inventors: 刘晋; 高珍喻; 李云辉
Original assignee: Shanghai Maritime University
Current assignee: Shanghai Maritime University
Priority date: 2019-07-31
Filing date: 2019-07-31
Publication date: 2022-09-30
Anticipated expiration: 2039-07-31
Also published as: CN110472632A

Abstract

本发明提供一种基于字符特征的字符分割方法，应用于图像处理技术领域，方法包括：获取待处理图像；对所述待处理图像进行二值化处理，获取二值化图像；采用基础特征提取网络对所述二值化图像进行特征提取；针对所提取的特征，对字符的形态进行特征提取，获取第一特征，以及，对字符的个数进行特征提取，获取第二特征；采用语义分割网络对所述第一特征所述第二特征进行融合，进而生成语义分割图；根据所述语义分割图确定字符的分割位置。此外，本发明还公开了一种基于字符特征的字符分割装置及计算机存储介质。

Description

基于字符特征的字符分割方法、装置及计算机存储介质

技术领域

本发明涉及图像处理技术领域，特别是涉及一种基于字符特征的字符分割方法、装置及计算机存储介质。

背景技术

字符分割是图像文字信息提取的基础和前提，必须针对字符进行合理而正确的分割。

针对字符分割，较早提出的方法有基于投影分割和基于连通域分割(Verticalprojection、Connected domain)。这两个方法在提出时没有针对粘连字符这一情况，所以针对实际场景图片中带有较多笔画不清晰、缺失、粘连的情况无法较好地划分出每个字符。同时由于汉字字符自身存在的上下结构、左右结构的形态特征，导致很多字符被切分成多个部分。而后水滴和基于聚类的分割方法(Water droplet、Clustering)虽然考虑了字符的形态特征，但是仅仅是针对字符局部特征进行了优化，采用类重力或者聚类的方式对粘连笔画进行简单的划分，在一定程度上有了提高，但在复杂黏连笔画的划分上的结果还是不够理想。

因此，现有技术中缺少一种有效的字符切割方法。

发明内容

鉴于以上所述现有技术的缺点，本发明的目的在于提供一种基于字符特征的字符分割方法及装置，将字符信息例如字宽和字数加入成为分割的依据的方法可以解决传统方法的不足。同时采用卷积神经网络提取字符信息，和应用全卷积网络进行语义分割，能有效解决笔画缺失和笔画粘连的字符的切分问题。

为实现上述目的及其他相关目的，本发明提供一种基于字符特征的字符分割方法，所述方法包括：

获取待处理图像；

对所述待处理图像进行二值化处理，获取二值化图像；

采用基础特征提取网络对所述二值化图像进行特征提取；

针对所提取的特征，对字符的形态进行特征提取，获取第一特征，以及，对字符的个数进行特征提取，获取第二特征；

采用语义分割网络对所述第一特征所述第二特征进行融合，生成语义分割图；

根据所述语义分割图确定字符的分割位置。

一种实现方式中，所述对所述待处理图像进行二值化处理，获取二值化图像的步骤，包括：

根据所述待处理图像生成的灰度直方图；

获取所述灰度直方图中所对应的前景高峰和背景高峰；

获取所述前景高峰和所述背景高峰的波谷所对应的灰度值；

将所获取的灰度值作为二值化阈值。

一种实现方式中，所述采用基础特征提取网络对所述二值化图像进行特征提取的步骤，包括：

采用卷积神经网络CNN对所述二值化图像进行特征提。

一种实现方式中，所述针采用语义分割网络对所述第一特征所述第二特征进行融合，生成语义分割图的步骤，包括：

接收所述第一特征所述第二特征，经过反卷积和上采样操作，将数据的尺寸进行还原，直至达到所述待处理图像尺寸；

将还原后的图像进行Softmax分类，将分类后的图像作为语义分割图。

一种实现方式中，所述将还原后的图像进行Softmax分类，将分类后的图像作为语义分割图的步骤，包括：

对还原后的图像中每个像素点进行分类；

获取每一个像素点对应字符类的概率；

根据所获取的概率进行分割。

一种实现方式中，对所述卷积神经网络CNN训练的步骤，包括：

构建训练数据集，其中所述数据集中包括采用GB2312一级国标中规定的3755个汉字制定具有粘连情况的30000张图片，图片大小为512*512，图片中字符的大小在[70px,80px]之间，字符的个数在[2,5]之间；

对数据集随机添加了白噪声和干扰纹理，获得增强后图像；

基于所述增强后图像进行卷积神经网络CNN训练。

本发明还公开了一种基于字符特征的字符分割装置，所述装置包括处理器、以及通过通信总线与所述处理器连接的存储器；其中，

所述存储器，用于存储基于字符特征的字符分割程序；

所述处理器，用于执行所述基于字符特征的字符分割程序，以实现任一项所述的基于字符特征的字符分割步骤。

以及，还公开了一种计算机存储介质，所述计算机存储介质存储有一个或者多个程序，所述一个或者多个程序可被一个或者多个处理器执行，以使所述一个或者多个处理器执行任一项所述的基于字符特征的字符分割步骤。

如上所述，本发明实施例提供的一种基于字符特征的字符分割方法、装置及计算存储介质，将字符信息例如字宽和字数加入成为分割的依据的方法可以解决传统方法的不足。同时采用卷积神经网络提取字符信息，和应用全卷积网络进行语义分割，能有效解决笔画缺失和笔画粘连的字符的切分问题。

附图说明

图1是本发明实施例的一种基于字符特征的字符分割方法的一种流程示意图。

图2是本发明实施例的一种基于字符特征的字符分割方法的一种应用示意图。

图3是本发明实施例的一种基于字符特征的字符分割方法的一种应用示意图。

图4是本发明实施例的一种基于字符特征的字符分割方法的一种应用示意图。

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。

请参阅图1-4。需要说明的是，本实施例中所提供的图示仅以示意方式说明本发明的基本构想，遂图式中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制，其实际实施时各组件的型态、数量及比例可为一种随意的改变，且其组件布局型态也可能更为复杂。

如图1所示，本发明实施例提供一种基于字符特征的字符分割方法，所述方法包括：

S101，获取待处理图像。

需要说明的是，待处理图像为包含文字字符的需要进行分割处理的图像。

S102，对所述待处理图像进行二值化处理，获取二值化图像。

图像生成的灰度直方图上，双峰分别代表目标图像和背景图像，选取双峰之间的波谷位置为二值化阈值T。

其中，f(x,y)为灰度图像的灰度值，g(x,y)为二值化后的灰度图像。

具体的，还可以用其他的选取阈值生成二值化图像的方法，例如P参数法、最大熵阈值法、最大类间方差法等。

S103，采用基础特征提取网络对所述二值化图像进行特征提取。

具体的，基础特征提取网络是卷积神经网络(CNN)，需要采用训练好的CNN，然后进行使用，进行特征台球。

在CNN的训练过程中，首先需要采用满足要求的训练集图片，在数据集采用了GB2312一级国标中规定的3755个汉字制定具有粘连情况的30000张图片。实验所采的图片大小为512*512，图片中字符的大小在[70px,80px]之间，字符的个数在[2,5]之间。在构建字符图片时，还人为地随机添加了白噪声和干扰纹理进行数据增强。根据生成的样本图像通过人工或半人工进行语义标记，生成字符信息标签，即字符宽度和字符个数信息。具体构建数据集过程中的关键参数配置表如图2所示。数据集部分图片样例如图3所示。

在本发明的一个具体实施例中，对预处理后的图像进行多次卷积和池化操作，每一个卷积操作单元的基本结构包括3个卷积层、3个激活层和1个池化层。经过多个卷积和池化处理，通过平铺层将多维数据转化为一维数据便于特征融合，通过Dropout层减少前向传播的数据量，通过全连接层得到最终的输出结果。

或者，采用经过多个卷积和池化处理，通过平铺层将多维数据转化为一维数据便于特征融合，通过融合层进行concatenate操作将字符形态特征与字符个数特征融合，通过Dropout层减少前向传播的数据量，通过全连接层得到最终的输出结果。

针对神经网络中的第l层神经元，将神经元的输出表示为y^l。对于第l+1层神经网络中第i个神经元，用

表示其对应的权重，用

表示其对应的偏置。普通的二维卷积神经网络计算公式如下：

其中，

表示第l+1层神经网络中第i个神经元的计算值，

表示该计算值经过激活函数f()处理之后的神经元对应的输出结果。

采用了Dropout机制的神经网络计算公式如下：

r_i ^l＝Bernoulli(p)_i

其中，Bernoulli(p)_i表示针对第l层神经网络中第i个神经元以概率p随机生成一个用

表示的0、1向量。然后通过生成的向量来处理原来第l层神经网络中第i个神经元的输出

结果用

来表示。

对采用了Dropout机制的神经网络训练完成之后，在利用神经网络进行预测处理阶段，对于第l+1层神经网络中第i个神经元的预测结果计算公式如下：

S104，针对所提取的特征，对字符的形态进行特征提取，获取第一特征，以及，对字符的个数进行特征提取，获取第二特征。

在本发明的一个具体实施例中，对待语义分割的图像进行预处理，1)字符形态特征提取子网络：将预处理的结果经过1个卷积层和1个池化层得到的特征图记为Fa 1_1，将Fa 1_1经过3个卷积层和1个池化层得到的特征图记为Fa 1_2，将Fa 1_2经过3个卷积层和1个池化层得到的特征图记为Fa 1_3，将Fa 1_3经过1个卷积层和1个平铺层得到的特征图记为Fa 1_4，将Fa 1_4经过4个dense层和3个dropout层得到字符形态特征提取网络的输出结果，分割结果如图4所示。

2)字符个数特征提取子网络：将预处理的结果经过1个卷积层和1个池化层得到的特征图记为Fa 2_1，将Fa 2_1经过3个卷积层和1个池化层得到的特征图记为Fa 2_2，将Fa2_2经过3个卷积层和1个池化层得到的特征图记为Fa 2_3，将Fa 2_3经过1个卷积层和1个平铺层得到的特征图记为Fa 2_4，将Fa 2_4与Fa 1_4通过一个融合层处理，将融合结果经过4个dense层和3个dropout层得到字符个数特征提取网络的输出结果。

在本发明的一个具体实施例中，将基础特征提取网络与字符信息特征提取网络作为基础网络，再将上述两个网络输出的结果经过1个融合层，将融合结果经过3次反卷积和上采样操作，每个操作单元包括3个反卷积层和一个上采样层，最后再经过4个反卷积层得到网络的输出结果。

对以上所述神经网络的训练采用Adam(Adaptive Moment Estimation)作为优化器。对字符信息提取部分的神经网络输出设置的loss权重为0.5，对语义分割部分的神经网络输出设置的loss权重为1.0。此外对字符信息提取部分的神经网络输出采用“categorical_crossentropy”的loss计算方法，对语义分割部分的神经网络输出采用“binary_crossentropy”的loss计算方法。

将Adam参数中的初始学习率learning_rate设置为0.0001(1e-4)，一阶矩估计的指数衰减率beta_1设置为0.9，二阶矩估计的指数衰减率beta_2设置为0.999。此外为了防止在计算中除以零，将epsilon设置为1e-08,同时将decay设置为0.0。

S105，采用语义分割网络对所述第一特征所述第二特征进行融合，生成语义分割图。

然后采用多个反卷积操作和上采样操作将数据尺寸还原到与输入图像一样大小。利用得到的数据，采用softmax分类函数，对每个像素点进行分类，每个像素点的值表示了该像素点分到字符类的概率的大小，生成语义分割图。

softmax函数：

将得到的图像数据的K维实向量映射为各分量为0-1上的K维实向量σ(z)。

S106，根据所述语义分割图确定字符的分割位置。

可以对语义分割图进行灰度化和二值化的处理，对处理的结果进行开闭操作，寻找最小闭包区域，在该区域中寻找最大矩形并获取矩形的坐标。根据S140和S150,得到的字宽与字符个数确定字符的分割位置.

卷积神经网络：卷积神经网络(CNN)受到视觉神经科学的启发而被提出。其结构主要包括了卷积层和池化层。最早的卷积神经网络模型是LeCun Y在1998年提出的LeNet-5模型。在该模型中，原始图像通过卷积层和采样层转换成若干个特征图。这些特征图利用卷积核的作用将低层次的局部区域特征通过卷积操作映射到更高层次的全局特征上。此后，不断有基于卷积神经网络基础结构改进的方法在ImageNet比赛中取得不错的结果。

基于投影分割：对图像进行横向和纵向的扫描，统计两个方向上的像素黑点数，无像素黑点的列与行即为分割处。

基于聚类分割：根据图像的灰度、颜色、纹理、形状等特征，把图像分成若干个互不重叠的区域，并使这些特征在同一区域内呈现相似性，在不同的区域之间存在明显的差异性。即采用聚类算法来将像素分组从而实现图像分割。

全卷积神经网络(FCN，Fully Convolutional Networks)是Long Jonathan等人于2015年提出的神经网络结构，它主要针对图像的分割任务。它将传统卷积神经网络(CNN，ConvolutionalNeural Networks)中的全连接层转化成卷积层,以端到端的方式对图像进行像素级的分类，从而解决了语义级别的图像分割(semantic segmentation)问题。

在工程应用领域中，字符识别任务却一直存在着识别准确率难以提高的瓶颈。究其原因，在于针对图像中的字符难以得到正确的分割。其中一些难以处理的问题例如，往往针对左右结构的汉字会出现单个字符被切分开的情况、针对汉字笔画缺失的情况会将单个字符切分成多个部分、以及针对更加常见的汉字笔画粘连的情况会将多个字符切分成一个字符区域。因此将字符信息例如字宽和字数加入成为分割的依据的方法可以解决传统方法的不足。同时采用卷积神经网络提取字符信息，和应用全卷积网络进行语义分割，能有效解决笔画缺失和笔画粘连的字符的切分问题。

所述存储器，用于存储基于字符特征的字符分割程序；

上述实施例仅例示性说明本发明的原理及其功效，而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下，对上述实施例进行修饰或改变。因此，举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变，仍应由本发明的权利要求所涵盖。

Claims

1.一种基于字符特征的字符分割方法，其特征在于，所述方法包括：

获取待处理图像；

对所述待处理图像进行二值化处理，获取二值化图像；

采用基础特征提取网络对所述二值化图像进行特征提取；

根据所述语义分割图确定字符的分割位置。

2.根据权利要求1所述的基于字符特征的字符分割方法，其特征在于，所述对所述待处理图像进行二值化处理，获取二值化图像的步骤，包括：

根据所述待处理图像生成的灰度直方图；

获取所述灰度直方图中所对应的前景高峰和背景高峰；

获取所述前景高峰和所述背景高峰的波谷所对应的灰度值；

将所获取的灰度值作为二值化阈值。

3.根据权利要求1或2所述的基于字符特征的字符分割方法，其特征在于，所述采用基础特征提取网络对所述二值化图像进行特征提取的步骤，包括：

采用卷积神经网络CNN对所述二值化图像进行特征提。

4.根据权利要求3所述的基于字符特征的字符分割方法，其特征在于，所述采用语义分割网络对所述第一特征所述第二特征进行融合，生成语义分割图的步骤，包括：

5.根据权利要求4所述的基于字符特征的字符分割方法，其特征在于，所述将还原后的图像进行Softmax分类，将分类后的图像作为语义分割图的步骤，包括：

对还原后的图像中每个像素点进行分类；

获取每一个像素点对应字符类的概率；

根据所获取的概率进行分割。

6.根据权利要求5所述的基于字符特征的字符分割方法，其特征在于，对所述卷积神经网络CNN训练的步骤，包括：

构建训练数据集，其中，所述数据集中包括采用GB2312一级国标中规定的3755个汉字制定具有粘连情况的30000张图片，图片大小为512*512，图片中字符的大小在[70px,80px]之间，字符的个数在[2,5]之间；

对数据集随机添加了白噪声和干扰纹理，获得增强后图像；

基于所述增强后图像进行卷积神经网络CNN训练。

7.一种基于字符特征的字符分割装置，其特征在于，所述装置包括处理器、以及通过通信总线与所述处理器连接的存储器；其中，

所述存储器，用于存储基于字符特征的字符分割程序；

所述处理器，用于执行所述基于字符特征的字符分割程序，以实现如权利要求1至6中任一项所述的基于字符特征的字符分割方法的步骤。

8.一种计算机存储介质，其特征在于，所述计算机存储介质存储有一个或者多个程序，所述一个或者多个程序可被一个或者多个处理器执行，以使所述一个或者多个处理器执行如权利要求1至6中任一项所述的基于字符特征的字符分割方法的步骤。