CN110321830B

CN110321830B - 一种基于神经网络的中文字符串图片ocr识别方法

Info

Publication number: CN110321830B
Application number: CN201910576921.5A
Authority: CN
Inventors: 胡铮; 张春红; 唐晓晟; 李杭
Original assignee: Beijing University of Posts and Telecommunications
Current assignee: Beijing University of Posts and Telecommunications
Priority date: 2019-06-28
Filing date: 2019-06-28
Publication date: 2020-11-13
Anticipated expiration: 2039-06-28
Also published as: CN110321830A

Abstract

本发明公开了一种基于神经网络的中文字符串图片OCR识别方法，属于光学字符识别领域。首先采集若干张待识别图片，将每个图片中的每个像素值分别进行归一化；同时初始化神经网络模型的各类别，初始化每个类别的中心特征向量。然后将每张待识别图片中的归一化像素分别输入到神经网络模型中进行特征提取，得到各图片的深度特征矩阵，通过RoI Pooling进行池化操作后伸展特征，得到长度为L的特征向量。最后将特征向量划分为训练样本和测试样本，训练样本训练神经网络模型；每个测试样本的特征向量分别连接到训练好的神经网络模型的全连接层，输出各测试样本的类别，完成对各图片字符串的整体识别。本发明能够对整张字符串图片进行分类识别，识别精确度更高。

Description

一种基于神经网络的中文字符串图片OCR识别方法

技术领域

本发明属于光学字符识别领域，涉及针对特定的类别数目在有限范围内的中文字符串的内容识别，具体是一种基于神经网络的中文字符串图片OCR识别方法。

背景技术

对图片中的字符串进行识别，是大部分光学字符识别(OCR)技术的一个重要环节。字符串图片识别的技术常见的应用有：身份证号识别和车牌号识别等。常见的应用场景有单据信息识别和街景商店名称识别等。

传统的光学字符识别方法处理步骤为：将包含有文本的图片中的字符串通过字符串切割方法进行切割，得到多个仅包含单个字符的图片后再进行识别，最后将多个单字符图片的识别结果进行串接得到最终结果。

但是，上述先进行字符切割而后识别的方法存在以下问题：最后的识别结果很大程度上依赖于字符切割模型的效果，如果字符切割出现错误，则识别过程会产生一系列的错误；并且字符切割模型对于样本图片质量要求较高，且要求字符串本身可切割，对于一些字符串本身字符间存在粘连或者交叉的情况则无法正确处理。且传统的字符识别环节没有考虑到特定领域中文的特点，使用整个中文字符作为候选结果进行识别，使得识别结果较差。

因此基于先字符切割而后识别的方法，实验效果都不是很理想，误差的传播导致图片整体的识别效果比较差。

发明内容

本发明应用的场景是特定领域的中文字符串识别，采用了一种基于神经网络的中文字符串图片OCR识别方法，避免了字符切割环节从而去除了该环节出现错误对识别环节的影响，同时识别过程采用了整个字符串图片作为输入，识别的准确率也明显上升。

具体步骤如下：

步骤一、采集若干张待识别图片，将每个图片中的每个像素值分别进行归一化。

归一化过程是：

首先，计算出每张图片上所有像素值的平均值、最小值和最大值。

然后，对每张图片上的每一个像素点的值先减去平均值，再除以最大值和最小值的差值。

img是图片上某个像素值；mean(img)是图片上所有像素的平均值；max(img)是图片上所有像素的最大值；min(img)是图片上所有像素的最小值；

步骤二、初始化神经网络模型的各类别，分别为每个类别初始化各自对应的类别中心特征向量。

类别中心特征向量集合为{C₁,C₂,....,C_i,...,C_n}；C_i为第i个类别的中心特征向量；n为类别的中心特征向量的总数。

步骤三、将每张待识别图片中的所有归一化像素，分别输入到神经网络模型中，通过卷积层+池化层进行特征提取，得到各图片的深度特征矩阵。

针对采集的N张待识别图片，对应N个深度特征矩阵；

步骤四、针对每张待识别图片，将各图片的深度特征矩阵通过RoI Pooling进行池化操作后伸展特征，得到长度为L的特征向量。

具体过程为：首先，将每个深度特征矩阵划分为长为w宽为h的网格；

然后，计算每个网格内所有像素值的最大值或者平均值，作为该网格的输出，从而得到长为w宽为h的深度特征矩阵。

最后将长为w宽为h的深度特征矩阵展平得到长度为L的特征向量。

N个待识别图片的特征向量集合为：L₁,L₂,...L_j,...L_N。

步骤五、将N个特征向量划分为训练样本和测试样本，每个训练样本分别标注所属的类别，训练神经网络模型；

具体训练过程如下：

步骤501、针对某个训练样本，将该样本的特征向量和标注的类别中心向量，计算平方差损失值；

针对第m个训练样本的特征向量为L_m，标注的类别中心特征向量为C_m，平方差损失计算公式如下：

步骤502、将每个训练样本的平方差损失值记录，作为Weighted-Center-Loss损失函数值，对神经网络模型进行优化；

其中，softmax函数通过对w作用，得到每个深度特征每个维度的权重，M为训练样本的数量；M＜N。

步骤503、将每个训练样本的特征向量分别连接到神经网络模型的全连接层，得到各训练样本的预测输出向量；

步骤504、将每个训练样本标注的所属类别经过one-hot编码转化为K维向量；

步骤505、将每个训练样本的预测输出向量结合各训练样本的K维向量，共同输入到 softmax-Loss损失函数中，输出结果为softmax-Loss损失函数值；

步骤506、将Weighted-Center-Loss损失函数值与softmax-Loss损失函数值加权和，作为最终Loss损失值对神经网络模型进行优化。

最终Loss损失值计算公式如下：

Loss＝softmax-Loss+λ*Weighted-Center-Loss

λ是加权系数。

步骤六、将每个测试样本的特征向量分别连接到训练好的神经网络模型的全连接层，输出各测试样本的类别，进而完成了对各图片字符串的整体识别。

将测试样本的长度为L的各特征向量分别输入到训练好的神经网络模型的全连接层中，在全连接层的节点上每个输出经过一个softmax函数进行分类，该全连接层神经元的个数与实际分类的类别数目一致。

softmax将全连接层的输出转化为概率，取概率最大的那一维作为输出类别。

本发明的优点在于：

1)、一种基于神经网络的中文字符串图片OCR识别方法，使用RoI Pooling方法对特征进行处理，对输入特征维度大小不敏感，从而使得模型可以处理不同尺寸大小的输入数据。

2)、一种基于神经网络的中文字符串图片OCR识别方法，结合Weighted-Center-Loss和 Softmax-Loss的损失函数来优化模型，可以使得模型优化得到的特征向量更加符合度量学习中类别与类别之间差异大，同类之间差异小的特点，从而使得模型可以得益于更好的特征向量进而取得更好的识别精确度。

3)、一种基于神经网络的中文字符串图片OCR识别方法，将特征向量连接到一个全连接层来得到输出，对整张输入图片只得到一个类别输出，从而使得模型能够对整张字符串图片进行分类识别。

附图说明

图1为本发明一种基于神经网络的中文字符串图片OCR识别方法的流程图；

图2为本发明不同尺寸的数据通过RoI Pooling后伸展得到统一的特征向量的示意图；

图3为本发明采集若干张白细胞图片，利用DCNN模型进行分类，得到各图片的输出类别的示意图；

图4为本发明和其他模型在精确率上的对比图；

图5为本发明列举了待识别的实例提高了精确率的示意图。

具体实施方式

下面将结合附图和实施例对本发明作进一步的详细说明。

本发明一种基于神经网络的中文字符串图片OCR识别方法，将字符串图片整体作为输入，经过卷积神经网络(Convolution Neural Network，以下称CNN)处理，得到图片的深度特征矩阵，使用区域池化(RoI Pooling)技术对该深度特征矩阵进行特征伸展，利用权重类别中心损失(Weighted Center Loss)函数计算模型的损失值，利用标注的数据集进行训练，将待处理任务的字符串图片输入训练好的神经网络模型进行识别，对模型输出的特征连接到一个全连接层进行softmax分类器进行分类，分类的具体类别则是处理的任务的中文字符串的实际类别，如街景商店名称识别任务中商店的名称，单据信息识别中化验单化验项目的名称；最终对字符串图片内容进行整体识别。

本发明使用RoI Pooling和Weighted Center Loss函数，无需对图片尺寸进行归一化，使模型能够处理不同尺寸数据的输入，在模型性能上能够取得更好的效果，并且可以对中文字符串图片进行整体识别，达到了高精确度的对中文字符串内容整体识别的效果，具有可以处理不同尺寸、输入精确度更高和能够对字符串图片进行整体识别的优势和意义。

具体步骤如图1所示，包括以下：

对图片的像素值进行归一化处理，是因为对于图片输入来说，像素值的分布一般在0-255 之间，并且图片的具体像素值并不重要，像素值之间的差值比例是比较重要，对于大多数神经网络模型来说，对于输入数据进行归一化也是基础操作。本发明的归一化方式与常见归一化方法不同，具体是：

神经网络模型的输入为每张待识别图片中的所有归一化像素构成的w1*h1*1的矩阵；w1 为待识别图片的宽占有的像素，h1为待识别图片的高占有的像素。通过5层卷积块(卷积层 +池化层)后得到图片的深度特征矩阵，深度特征矩阵的形状为(w2，h2，c2)，w2为深度特征矩阵的宽；h2为深度特征矩阵的高；c2为深度特征矩阵的长。

针对采集的N张待识别图片，采用传统通用的卷积神经网络来对图像进行特征提取，对应N个深度特征矩阵；

如图2所示，使用RoI Pooling来对输入的深度特征矩阵进行处理得到形状大小统一的输出，从而实现了可以处理不同尺寸的数据输入。

N个待识别图片的特征向量集合为：L₁,L₂,...L_j,...L_N。

具体训练过程如下：

使用Weighted-Center-Loss损失函数作为优化目标来提高模型的训练效果。

最终Loss损失值计算公式如下：

Loss＝softmax-Loss+λ*Weighted-Center-Loss

λ是加权系数，一般设置为0.1。通过最小化目标函数Loss训练神经网络模型。在训练的过程中，采用Adam优化器来进行梯度下降。这一步骤通过为神经网络模型设定了优化目标，并选择了相应的优化器对模型进行优化，实现了整个模型的训练，得到一个特定领域中文字符串OCR识别的模型。

将测试样本的长度为L的各特征向量分别输入到训练好的神经网络模型的全连接层中，在全连接层的节点上每个输出经过一个softmax函数进行分类，该全连接层神经元的个数与实际分类的类别数目一致。softmax将全连接层的输出转化为概率，取概率最大的那一维作为该测试样本的输出类别。

这一步骤通过将网络模型的输出连接到一个全连接层，而后将softmax函数作用于其上，从而实现了多分类，从整体流程上能够实现对中文字符串图片的整体识别。

实施例：

为了更好的展示本方法的有效性和创新性，特使用了一批数据来对本发明提出的模型的性能和效果进行了实验验证和评估。如图3所示，采集若干张白细胞计数的图片，利用本方法DCNN(RoI Pooling，Weighted Center Loss)的模型后，得到各图片的深度特征矩阵通过RoI Pooling伸展特征，得到各自对应的特征向量。网络模型输出部分使用softmax损失函数计算得到损失Softmax-Loss；使用Weighted Center Loss计算得到损失Weighted-Center-Loss，这两个损失值通过一个加权系数λ来完成求和，从而作为网络的优化目标。将待处理的各测试图片的特征向量分别输入到训练好的神经网络模型的全连接层中，在全连接层的节点上每个输出经过一个softmax函数进行分类，得到各图片的输出类别。

该数据上本模型取得的效果和其他模型取得效果的对比如图4所示，从图中可以看出，采用了本方法DCNN的模型取得了最高的准确率，由此可以知道本方法在模型的精确率上有更好的性能。

如图5所示，列举了一些识别的实例，从图中可以看到，通过使用本方法模型，能够实现对不同尺寸大小输入的图片都进行处理并识别出结果，并且最终的识别结果是整体识别而非逐个字符识别。而如果不使用本发明中的RoI Pooling方法，则模型无法处理不同尺寸大小的输入图片，而本发明中提出的使用Weighted Center Loss的方法则提高了模型的精确率，使得本模型的效果达到最优。并且，如果没有采用本发明中的中文字符串整体识别方法，则也无法对整个中文字符串进行整体识别。

Claims

1.一种基于神经网络的中文字符串图片OCR识别方法，其特征在于，具体步骤如下：

步骤一、采集若干张待识别图片，将每个图片中的每个像素值分别进行归一化；

步骤二、初始化神经网络模型的各类别，分别为每个类别初始化各自对应的类别中心特征向量；

类别中心特征向量集合为{C₁,C₂,....,C_i,...,C_n}；C_i为第i个类别的中心特征向量；n为类别的中心特征向量的总数；

步骤三、将每张待识别图片中的所有归一化像素，分别输入到神经网络模型中，通过卷积层+池化层进行特征提取，得到各图片的深度特征矩阵；

针对采集的N张待识别图片，对应N个深度特征矩阵；

步骤四、针对每张待识别图片，将各图片的深度特征矩阵通过RoI Pooling进行池化操作后伸展特征，得到长度为L的特征向量；

具体训练过程如下：

其中，softmax函数通过对w作用，得到每个深度特征每个维度的权重，M为训练样本的数量；M＜N；

步骤505、将每个训练样本的预测输出向量结合各训练样本的K维向量，共同输入到softmax-Loss损失函数中，输出结果为softmax-Loss损失函数值；

步骤506、将Weighted-Center-Loss损失函数值与softmax-Loss损失函数值加权和，作为最终Loss损失值对神经网络模型进行优化；

最终Loss损失值计算公式如下：

Loss＝softmax-Loss+λ*Weighted-Center-Loss

λ是加权系数；

步骤六、将每个测试样本的特征向量分别连接到训练好的神经网络模型的全连接层，输出各测试样本的类别，进而完成了对各图片字符串的整体识别；

2.如权利要求1所述的一种基于神经网络的中文字符串图片OCR识别方法，其特征在于，步骤一中所述的归一化过程是：

首先，计算出每张图片上所有像素值的平均值、最小值和最大值；

然后，对每张图片上的每一个像素点的值先减去平均值，再除以最大值和最小值的差值；

img是图片上某个像素值；mean(img)是图片上所有像素的平均值；max(img)是图片上所有像素的最大值；min(img)是图片上所有像素的最小值。

3.如权利要求1所述的一种基于神经网络的中文字符串图片OCR识别方法，其特征在于，所述的步骤四具体过程为：首先，将每个深度特征矩阵划分为长为w宽为h的网格；

然后，计算每个网格内所有像素值的最大值或者平均值，作为该网格的输出，从而得到长为w宽为h的深度特征矩阵；

最后将长为w宽为h的深度特征矩阵展平得到长度为L的特征向量；

N个待识别图片的特征向量集合为：L₁,L₂,...L_j,...L_N。

4.如权利要求1所述的一种基于神经网络的中文字符串图片OCR识别方法，其特征在于，步骤六中所述的softmax将全连接层的输出转化为概率，取概率最大的那一维作为输出类别。