CN105654135A

CN105654135A - 一种基于递归神经网络的图像文字序列识别***

Info

Publication number: CN105654135A
Application number: CN201511025812.2A
Authority: CN
Inventors: 刘世林; 何宏靖; 陈炳章; 吴雨浓; 姚佳
Original assignee: Chengdu Business Big Data Technology Co Ltd
Current assignee: Chengdu Business Big Data Technology Co Ltd
Priority date: 2015-12-30
Filing date: 2015-12-30
Publication date: 2016-06-08

Abstract

本发明涉及图像文字识别领域，特别涉及一种基于递归神经网络的图像文字序列识别***，包含图像文字输入模块、卷积神经网络以及递归神经网络分类器；由所述卷积神经网络对所述图像文字输入模块输入的待识别文字序列提取特征，并输入到所述递归神经网络分类器中；所述递归神经网络分类器根据样本特征数据和上一时刻的输出，实现文字序列的连续识别。本发明***克服了OCR识别前先要进行图片切分的弊端，简化了图像文字识别的前期处理过程，且不需要额外构建语言模型来对识别结果进行优化处理，在更好的提升字、词序列的识别准确率的同时显著提高了文字识别的处理效率，在图像文字识别领域具有广阔的应用前景。

Description

一种基于递归神经网络的图像文字序列识别***

技术领域

本发明涉及图像文字识别领域，特别涉及一种基于递归神经网络的图像文字序列识别***。

背景技术

随着社会的发展，产生了大量对古籍、文档、票据、名片等纸质媒体数字化的需求，这里的数字化不仅仅限于使用扫描仪或者相机进行“照片化”，更重要的是将这些纸质文件转化成以可读、可编辑的文档来进行存储，实现这一过程需要对扫描出的图片进行图像文字识别，而传统的图像文字识别为光学文字识别(OCR)，光学文字识别在将待识别纸质文件扫描成电子图像的基础上进行识别。但是考虑到扫描效果的好坏、纸质文件本身的品质(别如印刷质量、字体清晰度，字体规范度等)、内容布局(文字的排列情况，比普通文本与表格文本和票据)的差异，OCR的实际效果不总是让人满意。而针对不同的纸质文档的识别准确率的要求有差异，比如票据的识别，对准确率的要求是非常高的，因为如果一个数字识别错误就可能导致致命的后果，传统的OCR识别不能满足这样高精度的识别要求。

常规的OCR方法包括了图片的切分，特征提取，单字符识别等处理过程，其中图片的切分包含了大量的图像预处理过程，比如倾斜矫正，背景去噪，单字符的提取；这些处理过程不仅繁琐耗时，而且可能使得图片损失很多可用信息；而且当待识别图片中包含多个文字的字符串时，传统的OCR方法需要将原字符串切分成若干包含单个文字的小图片进行分别识别，该方法主要存在两大问题：一、单字符图片的切分困难，特别是字符串中混合了左右偏旁的汉字、字母、数字、符号，字符具有倾斜、扭曲、粘合，或者图像具有背景噪音等情况下，切分更加困难。而一旦切分出现了问题，就很难得到准确的识别结果。二、将字符串切分成包含单个字符的子图片进行识别的分别识别方法，没有充分利用自然语言中字、词之间的依赖关系，虽然可以使用额外的语言模型对识别结果进行优化补充，但是考虑到语言模型和识别器的构建过程是相互独立的，这种方式的优化补充是局部有限的。

面对巨大的识别需要急需一种能够快速高效的图像文字识别工具。

发明内容

本发明的目的在于克服现有技术中所存在的上述不足，提供一种基于递归神经网络的图像文字序列识别***。包含卷积神经网络(CNN)和递归神经网络分类器分类(RNN)，通过CNN对包含多个字符的整个图片进行特征提取，然后将同样的特征送入RNN进行递归重复使用，以实现连续预测多个字符的目的。本发明***实现的图像文字序列识别，***的克服了OCR识别前先要进行图片切分的弊端，极大的提高了图像文字的识别效率，同时在进行模型训练过程中，各个时刻递归神经网络分类器的输入信息包含上一时刻的输出数据和识别结果，递归神经网络分类器的输出在依赖当前信息的同时也依赖了文字序列的先前识别结果，在识别当前字或者词的基础上，将字、词之间依赖关系的语言模型也一并学习得到了，不再需要构建额外的语言模型来对识别的结果进行优化，在提升字、词序列的识别准确率的同时进一步提高了图像文字的识别效率。

为了实现上述发明目的，本发明提供了以下技术方案：

一种基于递归神经网络的图像文字序列识别***，包含图像文字输入模块、特征提取模块以及递归神经网络分类器，其中所述图像文字输入模块将待识别图像文字序列输入到所述特征提取模块中；所述特征提取模块将整个待识别图像文字序列的特征数据提取出来，输入到所述递归神经网络分类器中；所述递归神经网络分类器根据样本特征数据，上一时刻递归神经网络分类器的输出数据以及上一时刻递归神经网络分类器识别出的字词转化成的向量数据，依次输出待识别图像文字序列的识别结果。

进一步的，所述特征提取模块为卷积神经网络。本发明***中所使用的递归神经网络分类器的向前算法计算公式如下：

a_{h}^{t} = Σ_{i}^{I} w_{i h} x_{i}^{t} + Σ_{l}^{V} w_{l h} v_{l}^{t - 1} + Σ_{h^{'}}^{H} w_{h^{'} h} b_{h^{'}}^{t - 1}

b_{h}^{t} = θ (a_{h}^{t})

a_{k}^{t} = Σ_{h}^{H} w_{h k} b_{h}^{t}

y_{k}^{t} = \frac{\exp (a_{k}^{t})}{Σ_{k^{'}}^{k} \exp (a_{k^{'}}^{t})}

其中I是输入向量的维度，V是字或词向量化的向量维度，H是隐层的神经元个数，K是输出层的神经元个数，x为卷积神经网络提取出来的特征数据，v为RNN识别出的字或者词经过转化成的向量数据，为当前时刻递归神经网络分类器中隐含层神经元的输入，为当前时刻递归神经网络分类器隐含层神经元的输出；w_ih，w_lh，w_h′h，为对应的权重参数。为当前时刻递归神经网络分类器输出层神经元的输入；w_hk为输出层各神经元对应的权重；为当前时刻递归神经网络分类器输出层神经元的输出，为一个概率值，表示当前时刻对应神经元输出值相对于输出层所有神经元输出值的加和的比例。

从上述公式可以看出本发明***的递归神经网络分类器中隐含层神经元的输入数据包括3个方面，CNN提取出来的训练样本特征，上一时刻递归神经网络分类器隐含层的输出数据，以及上一时刻递归神经网络分类器预测结果(识别出来的字词)经过词典映射表进行向量化的数据。因此本发明使用的递归神经网络分类器在预测当前时刻的字(词)的时候，既依赖了图像的特征，也依赖了上一时刻输出的特征(语言模型)。

进一步的，本发明***中，信号正向传递时用到的参数w_ih，w_lh，w_h′h都是跨时序共享的，这样避免了模型复杂度的线性增长，导致可能的过拟合。

进一步的，本发明采用上述向前算法在卷积神经网络和递归神经网络分类器中来逐级传输运算数据，在输出层获取到识别(预测)数据，当预测结果与训练样本的标注结果具有偏差时，通过神经网络中经典的误差反向传播算法来调整神经网络中的各个权重。

进一步的，在神经网络训练过程中，通过开发集来检验神经网络的训练结果，及时调整神经网络的训练方向，防止过拟合情况的发生，在模型训练过程中，仅仅保留在开发集上识别准确率最高的训练模型。

进一步的，本基于递归神经网络的图像文字序列识别***，其中神经网络训练过程包含以下实现步骤：

(2-1)将人工标注的训练样本输入到卷积神经网络中；

(2-2)通过所述卷积网络对输入训练样本进行特征提取；

(2-3)将所述卷积神经网络提取出来的特征数据作为第一数据输入第一时刻递归神经网络分类器中；

(2-4)经过第一时刻递归神经网络分类器的计算输出第一预测数据；根据第一预测数据得到该时刻递归神经网络分类器的字词识别结果，将该结果定义为：第一识别结果；

(2-5)并将第一识别结果转化成对应的向量数据；

(2-6)将第一数据，第一预测数据以及向量化的第一识别结果作为第二时刻递归神经网络分类器的输入数据，经过递归神经网络分类器的计算输出第二预测数据，并得到由第二预测数据对应的第二识别结果；

(2-7)并将第二识别结果转化为对应的向量数据；

(2-8)将第一数据，第二预测数据以及向量化的第二识别结果作为第三时刻递归神经网络分类器的输入数据；

依次递归，直到达到设定的递归次数时，终止识别；将每个时刻RNN预测出得字(或者词)依次记录下来就最终获得完整的字符串内容。

进一步的，所述过程(2-5)和(2-7)中，通过词典映射表进行向量化，所述词典映射表为一个二维矩阵，行数为词典的大小，列数(行向量的维度)根据词典的大小和数据的规模来设定，词典映射表的目的为将字(或词)特征化，向量化。

进一步的，所述图像文字输入模块为扫描仪、摄像仪、图像存储模块或者图像存储设备。

进一步的，本发明提供一种基于递归神经网络的图像文字序列识别设备，所述设备为计算机、服务器或者其他智能处理设备，在该计算机中载有上述卷积神经网络和递归神经网络分类器程序模块。

与现有技术相比，本发明的有益效果：本发明提供一种基于递归神经网络的图像文字序列识别***，本发明采用卷积神经网络对待识别文字序列图片进行整体征提取，并将提取到的特征数据作为第一数据输入到各个时刻的递归神经网络分类器中，本发明***实现的图像文字序列识别，通过卷积神经网络提取图片整体特征，在不需要进行单个字符切分和噪声过滤的基础上实现了整个文字序列的识别，使用本发明***所实现的图像文字序列识别，相对于传统的OCR方法，避免了文字切分不准确可能导致的不可逆转的识别错误，极大的简化了图像文字识别的前期处理过程，显著提高了文字识别的效率。

此外本发明***通过递归神经网络分类器来实现文字序列中字符的连续识别，在使用递归神经网络分类器来识别字符时，每个时刻递归神经网络分类器的输入信号还包含上一时刻递归神经网络分类器的输出数据以及上一时刻递归神经网络分类器识别出的字词转化成的向量数据，即每个时刻递归神经网络分类器在进行对应的文字识别时，既依赖了卷积神经网络所提取的图片整体特征，也依赖了上一时刻递归神经网络分类器的输出数据和识别结果，这样在分别识别字词的基础上，将字、词之间依赖关系的语言模型也一并学习和识别到了，不再需要通过额外构建语言模型来对单字符识别结果进行优化补充，简化了识别文字的后期处理过程，识别效率更高，识别结果更加准确可靠。

总之，通过本发明***实现的图像文字序列识别，简化了图像文字序列识别的处理过程，显著提高了识别效率和准确率，使开发者可以更加关注于模型的调优和数据的储备，提升了开发效率，本发明***在图像文字识别领域具有极高的应用价值和广泛的应用前景。

附图说明：

图1为本发明***的模块结构及信号流向示意图。

图2为本发明***图像文字序列识别的实现过程示意图。

图3为卷积神经网络结构示意图。

图4为本发明***文字序列识别过程信号流向示意图。

具体实施方式

下面结合试验例及具体实施方式对本发明作进一步的详细描述。但不应将此理解为本发明上述主题的范围仅限于以下的实施例，凡基于本发明内容所实现的技术均属于本发明的范围。

提供一种基于递归神经网络的图像文字序列识别***。包含卷积神经网络(CNN)和递归神经网络分类器分类(RNN)，通过CNN对包含多个字符的整个图片进行特征提取，然后将同样的特征送入RNN进行递归重复使用，以实现连续预测多个字符的目的。本发明***实现的图像文字序列识别，***的克服了OCR识别前先要进行图片切分的弊端，极大的提高了图像文字的识别效率，同时在进行模型训练过程中，各个时刻递归神经网络分类器的输入信息包含上一时刻的输出数据和识别结果，递归神经网络分类器的输出在依赖当前信息的同时也依赖了文字序列的先前识别结果，在识别当前字或者词的基础上，将字、词之间依赖关系的语言模型也一并学习得到了，不再需要构建额外的语言模型来对识别的结果进行优化，在提升字、词序列的识别准确率的同时进一步提高了图像文字的识别效率。

为了实现上述发明目的，本发明提供了以下技术方案：

使用本发明***进行文字序列识别，包含如图2所示的实现步骤：

(1)搭建卷积神经网络和递归神经网络分类器架构模型(将卷积神经网络和递归神经网络分类器模型加载到智能处理设备中)，调整其中的信号控制关系：其中所述递归神经网络每个时刻输入信号包括：所述卷积神经网络提取的样本特征数据，上一时刻递归神经网络的输出数据以及上一时刻递归神经网络识别出的字词转化成的向量数据；如图3所示：所述卷积神经网络主要是用于图片特征的自动学习。其中，每一个特征图(featuremap，图中的竖排长方形所示)的产生都是通过自有的一个卷积核(即如图3中的小矩形框，在指定的特征图里是共享的)进行初步的特征抽取，二次采样层对卷积层所提取的特征进行采样主要解决卷积层所抽取特征的冗余性。简言之，所述卷积神经网络通过卷积层提取图片的不同特征，通过二次采样层对提取到的特征进行采样，以去除冗余信息(在一个卷积神经网络中可以包含多个卷积层，二次采样层和全连接层)，最后通过全连接层将不同的特征图串联起来构成最终的完整图片特征，本发明***使用一个卷积神经网络，对整张图片进行一次性的特征提取，完全避免了图片切分可能导致的不可逆转的识别错误。

(2)使用训练样本集来训练所述卷积神经网络和递归神经网络模型；

(3)所述图像文字输入模块将待识别图像文字序列输入训练好的所述卷积神经网络及递归神经网络分类器中；由所述卷积神经网络对待识别图像文字序列提取整体特征，并将提取的特征输入到所述递归神经网络分类器中；各个时刻递归神经网络根据所述卷积神经网络提取的样本特征数据，上一时刻递归神经网络分类器的输出数据以及上一时刻递归神经网络识别出的字词转化成的向量数据，输出该时刻的字词识别结果；将各个时刻递归神经网络分类器识别结果按照输出先后顺序记录下来就得到了待识别图像文字序列的完整识别结果。

具体的，本发明***中所使用的递归神经网络分类器向前算法的计算公式如下：

a_{h}^{t} = Σ_{i}^{I} w_{i h} x_{i}^{t} + Σ_{l}^{V} w_{l h} v_{l}^{t - 1} + Σ_{h^{'}}^{H} - w_{h^{'} h} b_{h^{'}}^{t - 1}

b_{h}^{t} = θ (a_{h}^{t})

a_{k}^{t} = Σ_{h}^{H} w_{h k} b_{h}^{t}

y_{k}^{t} = \frac{\exp (a_{k}^{t})}{Σ_{k^{'}}^{k} \exp (a_{k^{'}}^{t})}

其中I是输入向量的维度，V是词典映射的维度，H是隐层的神经元个数，K是输出层的神经元个数，x为卷积神经网络提取出来的特征数据，v为RNN识别出的字或者词经过词典映射表转化成的向量数据(特别的v⁰＝0)，为当前时刻递归神经网络分类器中隐含层神经元的输入，为当前时刻递归神经网络分类器隐含层神经元的输出(b⁰＝0)，θ()为到的函数；w_ih，w_lh，w_h′h，为对应的权重参数，在一次向前算法传递过程中，参数w_ih，w_lh，w_h′h均是跨时序共享的，所谓跨时序共享是指递归神经网络分类器在信号正向传递过程中，各个时刻w_ih，w_lh，w_h′h的值相同(并非w_ih＝w_lh＝w_h′h)，不同时刻RNN的w_ih，w_lh，w_h′h值相同，降低了模型参数的复杂程度，也避免了模型复杂度的线性增长导致可能的过拟合；θ为到的映射函数(通常为非线性函数，比如三角函数)。为当前时刻递归神经网络分类器输出层神经元的输入；w_hk为输出层各神经元对应的权重；为当前时刻递归神经网络分类器输出层神经元的输出，为一个概率值，表示当前时刻对应神经元输出值相对于输出层所有神经元输出值的加和的比例，一般情况下，将选择值最大的输出神经元对应的类别为该时刻递归神经网络分类器的识别结果。

从上述公式可以看出本发明***中所使用的递归神经网络分类器中隐含层神经元的输入数据包括3个方面，CNN提取出来的训练样本特征，上一时刻递归神经网络分类器隐含层的输出数据，以及上一时刻递归神经网络分类器预测结果(识别出来的字词)经过词典映射表进行向量化的数据。因此本发明使用的递归神经网络分类器在预测当前时刻的字(词)的时候，既依赖了图像的特征，也依赖了上一时刻输出的特征(语言模型)。

进一步的，本发明***的所述卷积神经网络和递归神经网络分类器在进行训练时，采用上述向前算法在卷积神经网络和递归神经网络分类器中来逐级传输运算数据，在所述递归神经网络分类器的输出层获取到识别(预测)数据，当预测结果与训练样本的标注结果具有偏差时，通过神经网络训练中经典的误差反向传播算法来调整所述卷积神经网络和递归神经网络分类器中的各个权重。误差反向传播方法将误差逐级反向传播分摊到各层的所有神经元，获得各层神经元的误差信号，进而修正各神经元的权重。通过向前算法逐层传输运算数据，并通过向后算法来逐渐修改各个神经元的权重的过程就是神经网络的训练过程；重复上述过程，直到预测结果的正确率达到设定的阈值，停止训练，此时可认为神经网络模型已经训练完成。

进一步的，本基于递归神经网络的图像文字序列识别***的神经网络训练过程包含如图4所示的以下实现步骤过程：

(2-1)将人工标注的训练样本输入到卷积神经网络中；

(2-2)通过所述卷积网络对输入训练样本进行特征提取；

(2-5)并将第一识别结果转化成对应的向量数据；

(2-7)并将第二识别结果转化为对应的向量数据；

依次递归，将CNN提取的特征数据(第一数据)、上一时刻RNN的输出数据(预测数据)以及上一时刻RNN识别出的字词(识别结果)对应的向量，作为当前时刻RNN的输入数据，经过RNN的预测输出一个字(或词)；直到达到设定的递归次数时，终止识别；将每个时刻RNN预测出得字(或者词)依次记录下来就最终获得完整的字符串内容。

具体的，所述过程(2-5)和(2-7)中，通过词典映射表进行向量化，所述词典映射表为一个二维矩阵，行数为词典的大小，列数(行向量的维度)根据词典的大小和数据的规模来设定，词典映射表的目的为将字(或词)特征化，向量化，简单说来，词典映射表就是一个二维矩阵，其中每一个行向量对应一个字或者一个词，而这种行向量与字词的对应关系是在构建这个词典映射表时设置的。

进一步的，在构建词典映射表的过程中，可以先对自然语言进行分词处理，比如将“这个东西真好”变成“这个东西真好”；将“基于递归神经网络的图像文字序列识别”分词为“基于递归神经网络的图像文字序列识别”，通过对自然语言进行分词，将汉字序列切分成有意义的词，根据分词结果构建对应的词典映射表，为图像文字的识别奠定基础。

进一步的，在进行模型训练时，包含将训练样本图标进行归一化处理和人工标注过程，归一化处理样本，使得样本的基本参数均一，降低模型训练时数据无关复杂度，有利于简化模型训练过程；其中归一化处理过程包括：设定图片句子可能的最长字(或者词)数，比如设定句子的长度为20，待识别文字序列的长度与递归神经网络分类器的最大递归次数相对应，在进行训练样本准备时设置待识别文字序列的最长字符数可以对应的预设递归神经网络分类器的最大递归次数，增加模型的稳定性和可预见性。

进一步的，在进行归一化处理过程中，为了避免数据变形，尺寸的放大缩小使用等比例的方式，与目标尺寸缺失的区域用背景色补齐。

进一步的，将归一化的图片进行人工标注，如果标注的句子字数小于设置的最大字符数(不足20)，使用一个特殊的词语进行补齐(比如使用“<EOS>”将不足20个字符的样本图片补齐至20个字符的长度)。

进一步的，通过上述归一化处理和人工标注后，随机选取75％的数据作为训练样本集，选取25％的数据作为开发样本集。神经网络在训练过程中仅保存在开发集上识别准确率最高的模型，开发样本与训练样本的格式统一，有利于提高神经网络的训练效率。

进一步的，所述图像文字输入模块为扫描仪、摄像仪、图像存储模块或者图像存储设备。其中扫描仪、摄像仪将纸质文件转化成可供处理的数字文件，图像存储模块或者设备，可将待识别图像文字传输到所述卷积神经网络和递归神经网络中。

Claims

1.一种基于递归神经网络的图像文字序列识别***，其特征在于，包含图像文字输入模块、特征提取模块以及递归神经网络分类器，其中所述图像文字输入模块将待识别图像文字序列输入到所述特征提取模块中；

所述特征提取模块将整个待识别图像文字序列的特征数据提取出来，输入到所述递归神经网络分类器中；

所述递归神经网络分类器根据样本特征数据，上一时刻递归神经网络分类器的输出数据以及上一时刻递归神经网络分类器识别出的字词转化成的向量数据，依次输出待识别图像文字序列的识别结果。

2.如权利要求1所述的***，其特征在于：所述特征提取模块为卷积神经网络。

3.如权利要求1或者2所述的***，其特征在于：所述递归神经网络分类器所采用的向前算法公式为：

a_{h}^{t} = Σ_{i}^{I} w_{i h} x_{i}^{t} + Σ_{l}^{V} w_{l h} v_{l}^{t - 1} + Σ_{h^{'}}^{H} w_{h^{'} h} b_{h^{'}}^{t - 1}

b_{h}^{t} = θ (a_{h}^{t})

a_{k}^{t} = Σ_{h}^{H} w_{h k} b_{h}^{t}

y_{k}^{t} = \frac{\exp (a_{k}^{t})}{Σ_{k^{'}}^{k} \exp (a_{k^{'}}^{t})}

其中I是输入向量的维度，V是识别结果转化为向量的维度，H是隐层的神经元个数，K是输出层的神经元个数，x为卷积神经网络提取出来的特征数据，v为递归神经网络分类器识别出的字或者词转化成的向量数据，为当前时刻递归神经网络分类器中隐含层神经元的输入，为当前时刻递归神经网络分类器隐含层神经元的输出；为当前时刻递归神经网络分类器输出层神经元的输入；为当前时刻递归神经网络分类器输出层神经元的输出，为一个概率值，表示当前时刻对应神经元输出值相对于输出层所有神经元输出值的加和的比例。

4.如权利要求3所述的***，其特征在于：在一次信号向前传递过程中各个时刻所述递归神经网络分类器所使用的w_ih，w_lh，w_h′h值相同。

5.如权利要求4所述的***，其特征在于：所述卷积神经网络和递归神经网络分类器的训练过程包括：

(2-1)将人工标注的训练样本输入到卷积神经网络中；

(2-2)通过所述卷积网络对输入训练样本进行特征提取；

(2-5)并将第一识别结果转化成对应的向量数据；

(2-7)并将第二识别结果转化为对应的向量数据；

依次递归，直到达到设定的递归次数时，终止计算。

6.如权利要求5所述的***，其特征在于：所述过程(2-5)和(2-7)中，通过词典映射表将递归神经网络分类器的识别结果转化成向量；所述词典映射表是一个二维矩阵，其中每一个行向量对应一个字或者一个词。

7.如权利要求6所述的***，其特征在于：所述图像文字输入模块为扫描仪、摄像仪、图像存储模块或者图像存储设备。

8.一种基于递归神经网络的图像文字序列识别设备，其特征在于，包含计算机、服务器或者智能处理设备，所述计算机、服务器或者智能处理设备加载有如权利要求1-7之一所述的卷积神经网络和递归神经网络分类器程序。