CN110245545A

CN110245545A - 一种文字识别方法及装置

Info

Publication number: CN110245545A
Application number: CN201811126275.4A
Authority: CN
Inventors: 任宇鹏; 卢维; 殷俊
Original assignee: Zhejiang Dahua Technology Co Ltd
Current assignee: Zhejiang Dahua Technology Co Ltd
Priority date: 2018-09-26
Filing date: 2018-09-26
Publication date: 2019-09-17

Abstract

本发明公开了一种文字识别方法及装置，用于解决图像中文字的识别结果准确度不高的问题。该方法包括：将包含待识别文字的图像输入到预先训练完成的包含卷积神经网络和循环神经网络的第一模型中，获取所述图像中包含的每个建议框的位置信息及每个建议框中包含的内容为文字的第一评分值；筛选评分值大于预设评分阈值的候选建议框；根据每个候选建议框的位置，对候选建议框进行合并得到目标建议框；将每个目标建议框输入到预先训练完成的包含卷积神经网络和循环神经网络的第二模型中，识别每个目标建议框中包含的文字。

Description

一种文字识别方法及装置

技术领域

本发明涉及深度学习和文字识别技术领域，尤其涉及一种文字识别方法及装置。

背景技术

随着图像采集设备的快速发展，越来越多的图像信息需要人类对其进行管理。而利用互联网技术实现图像信息的自动化管理是目前的最佳手段。

在识别图像中文字之前，首先需对图像中的文字进行定位。目前图像中的文字定位方法主要分为以下两类：第一种是基于Faster RCNN(Faster Region ConvolutionalNeural Networks)、YOLO(You Only Look Once)或SSD(Single Shot MultiBox Detector)网络的位置框回归方法，该类方法可以直接输出文本行评分及定位框体；第二种是基于全卷积神经网络(Fully Convolutional Networks，FCN)的分割方法，该类方法通过预测像素级的文本分类结果，并对结果进行一定后处理生成外接矩形框。实时性和精度都较高的Faster RCNN 方法，采用区域建议网络(Region Proposal Networks，RPN)方法在卷积后的特征图上生成不同的文本区域候选框，并通过神经网络对候选区域进行分类和位置框回归。但由于文本行长度变化剧烈，常规的候选框方案难以实现对该类物体的准确定位，同时，由于计算开销的限制和实时性的要求，不能简单的通过增加候选框大小和形状来满足精度要求，需要对现有RPN方案进行改进。

在图像文字识别方面，与本发明最近似的现有实现方案为成都数联铭品科技有限公司申请的《一种基于深度学习的复杂文字识别方法》专利方案。该方案采用单一的卷积神经网络来识别单个字符没有考虑文本序列所包含的上下文及语义信息，识别结果准确度不高。

发明内容

本发明实施例的目的是提供一种文字识别方法及装置，用于解决图像中文字的识别结果准确度不高的问题。

本发明实施例提供了一种文字识别方法，包括：

将包含待识别文字的图像输入到预先训练完成的包含卷积神经网络和循环神经网络的第一模型中，获取所述图像中包含的每个建议框的位置信息及每个建议框中包含的内容为文字的第一评分值，其中，所述第一模型获取所述图像的特征图，基于所述特征图进行滑窗操作，确定每个窗口特征，在所述每个窗口特征中按照预设的宽度和高度预测每个位置建议框；将所述特征图的每行对应的窗口特征序列作为循环神经网络的输入，基于所述循环神经网络获取所述图像中包含的每个建议框的位置信息及每个建议框中包含的内容为文字的第一评分值；

筛选第一评分值大于预设评分阈值的候选建议框；

根据每个候选建议框的位置，对候选建议框进行合并得到目标建议框；

将每个目标建议框输入到预先训练完成的包含循环神经网络的卷积神经网络的第二模型中，识别每个目标建议框中包含的文字。

进一步地，所述将包含待识别文字的图像输入到预先训练完成的包含卷积神经网络和循环神经网络的第一模型中之前，所述方法还包括：

采用阈值分割方法和连通域分析方法对所述图像进行处理；

并对处理后的图像进行文本方向校正。

进一步地，所述根据每个候选建议框的位置，对候选建议框进行合并得到目标建议框包括：

针对每个候选建议框中第一候选建议框，识别是否存在与该第一候选建议框横坐标之间的距离小于预设的第一阈值，垂直方向的重叠度大于预设的第二阈值，且形状相似度大于预设的第三阈值的第二候选建议框，如果存在，将所述第一候选建议框与所述第二候选建议框合并作为第一候选建议框；如果不存在，将该第一候选建议框作为目标建议框。

进一步地，确定所述垂直方向的重叠度包括：

根据所述第一候选建议框的第一高度和第一垂直坐标以及第二候选建议框的第二高度和第二垂直坐标，采用以下公式：overlap＝|y_A2-y_D1|/min(h₁,h₂)，确定所述垂直方向的重叠度，其中，y_A2代表所述第二候选建议框的第二垂直坐标，y_D1代表所述第一候选建议框的第一垂直坐标，h₁和h₂分别代表所述第一候选建议框的第一高度和所述第二候选建议框的第二高度。

进一步地，确定所述形状相似度包括：

根据所述第一候选建议框的第一高度和第二候选建议框的第二高度，采用以下公式：similarity＝min(h₁,h₂)/max(h₁,h₂)，确定所述形状相似度，其中，h₁和 h₂分别代表所述第一候选建议框和所述第二候选建议框的高度。

进一步地，预先训练所述第一模型的过程包括：

获取样本图像，其中所述样本图像中标注了每个建议框的位置信息及每个位置建议框包含的内容为文字的第二评分值；

将每个样本图像输入到包含卷积神经网络和循环神经网络的第一模型中，根据每个第一模型的输出，对所述第一模型进行训练。

进一步地，预先训练所述第二模型的过程包括：

获取样本图像中标注的每一文本行；

将包含对应文本行的每个样本图像输入到包含卷积神经网络和循环神经网络的第二模型中，根据每个第二模型的输出，对所述第二模型进行训练。

本发明实施例提供了一种文字识别装置，该装置包括：

获取模块，用于将包含待识别文字的图像输入到预先训练完成的包含卷积神经网络和循环神经网络的第一模型中，获取所述图像中包含的每个建议框的位置信息及每个建议框中包含的内容为文字的第一评分值，其中，所述第一模型获取所述图像的特征图，基于所述特征图进行滑窗操作，确定每个窗口特征，在所述每个窗口特征中按照预设的宽度和高度预测每个位置建议框；将所述特征图的每行对应的窗口特征序列作为循环神经网络子模型的输入，基于所述循环神经网络子模型获取所述图像中包含的每个建议框的位置信息及每个建议框中包含的内容为文字的第一评分值；

筛选模块，用于筛选第一评分值大于预设评分阈值的候选建议框；

合并模块，用于根据每个候选建议框的位置，对候选建议框进行合并得到目标建议框；

识别模块，用于将每个目标建议框输入到预先训练完成的包含卷积神经网络和循环神经网络的第二模型中，识别每个目标建议框中包含的文字。

进一步地，所述装置还包括：

校正模块，用于采用阈值分割方法和连通域分析方法对所述图像进行处理；并对处理后的图像进行文本方向校正。

进一步地，所述合并模块，具体用于针对每个候选建议框中第一候选建议框，识别是否存在与该第一候选建议框横坐标之间的距离小于预设的第一阈值，垂直方向的重叠度大于预设的第二阈值，且形状相似度大于预设的第三阈值的第二候选建议框，如果存在，将所述第一候选建议框与所述第二候选建议框合并作为第一候选建议框；如果不存在，将该第一候选建议框作为目标建议框。

进一步地，所述合并模块，具体用于根据所述第一候选建议框的第一高度和第一垂直坐标以及第二候选建议框的第二高度和第二垂直坐标，采用以下公式：overlap＝|y_A2-y_D1|/min(h₁,h₂)，确定所述垂直方向的重叠度，其中，y_A2代表所述第二候选建议框的第二垂直坐标，y_D1代表所述第一候选建议框的第一垂直坐标，h₁和h₂分别代表所述第一候选建议框和所述第二候选建议框的高度。

进一步地，所述合并模块，具体用于根据所述第一候选建议框的第一高度和第二候选建议框的第二高度，采用以下公式：similarity＝min(h₁,h₂)/max(h₁,h₂)，确定所述形状相似度，其中，h₁和h₂分别代表所述第一候选建议框的第一高度和所述第二候选建议框的第二高度。

进一步地，所述装置还包括：

第一训练模块，用于获取样本图像，其中所述样本图像中标注了每个建议框的位置信息及每个位置建议框包含的内容为文字的第二评分值；将每个样本图像输入到包含卷积神经网络和循环神经网络的第一模型中，根据每个第一模型的输出，对所述第一模型进行训练。

进一步地，所述装置还包括：

第二训练模块，用于获取样本图像中标注的每一文本行；将包含对应文本行的每个样本图像输入到包含卷积神经网络和循环神经网络的第二模型中，根据每个第二模型的输出，对所述第二模型进行训练。

本发明实施例提供一种文字识别方法及装置，该方法将包含待识别文字的图像输入到预先训练完成的包含卷积神经网络和循环神经网络的第一模型中，获取图像中包含的每个建议框的位置信息及每个建议框中包含的内容为文字的第一评分值，其中，第一模型获取图像的特征图，基于特征图进行滑窗操作，确定每个窗口特征，在每个窗口特征中按照预设的宽度和高度预测每个位置建议框；将特征图的每行对应的窗口特征序列作为循环神经网络的输入，基于循环神经网络获取图像中包含的每个建议框的位置信息及每个建议框中包含的内容为文字的第一评分值。识别第一评分值大于预设评分阈值的候选建议框；根据每个候选建议框的位置，对候选建议框进行合并得到目标建议框；将每个目标建议框输入到预先训练完成的包含卷积神经网络和循环神经网络的第二模型中，识别每个目标建议框中包含的文字。

由于在本发明实施例中，将包含待识别文字的图像输入到预先训练完成的包含卷积神经网络和循环神经网络的第一模型中，获取图像中包含的每个建议框的位置信息及每个建议框中包含的内容为文字的第一评分值。该第一模型可以有效的获取文本序列的上下文信息并将其加入到定位过程中，具体的，同一行文字之间的空白区域建议框置的评分值会因为前后文本的序列特征而获得提升，最终使获取的文本行位置框更加符合文本序列的位置特征，文本行定位结果更加准确。其次，将每个目标建议框输入到预先训练完成的包含卷积神经网络和循环神经网络的第二模型中，识别每个目标建议框中包含的文字。该第二模型由于包含循环神经网络，可以增强文字序列上下文信息的提取，使得文本序列的预测结果更加准确。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简要介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例1提供的一种文字识别方法的流程示意图；

图2为本发明实施例1提供的文本行定位操作的具体执行过程示意图；

图3为本发明实施例1提供的经过循环神经网络操作得到的效果示意图；

图4为本发明实施例1提供的文本行识别操作的具体执行过程示意图；

图5为本发明实施例3提供的建议框所需的位置信息示意图；

图6为本发明实施例7提供的快递面单文字识别的完整流程图示意图；

图7为本发明实施例8提供的一种文字识别装置结构示意图。

具体实施方式

下面将结合附图对本发明作进一步地详细描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

实施例1：

图1为本发明实施例提供的一种文字识别方法的过程示意图，该过程包括以下步骤：

S101：将包含待识别文字的图像输入到预先训练完成的包含卷积神经网络和循环神经网络的第一模型中，获取所述图像中包含的每个建议框的位置信息及每个建议框中包含的内容为文字的第一评分值，其中，所述第一模型获取所述图像的特征图，基于所述特征图进行滑窗操作，确定每个窗口特征，在所述每个窗口特征中按照预设的宽度和高度预测每个位置建议框；将所述特征图的每行对应的窗口特征序列作为循环神经网络的输入，基于所述循环神经网络获取所述图像中包含的每个建议框的位置信息及每个建议框中包含的内容为文字的第一评分值。

由于图像中的文字信息可能分布在图像中的任意位置，并且图像中可能只有一部分区域包含待识别的文字。因此在对图像中的文字进行识别之前，首先需要对图像中的文本行位置信息进行定位操作得到文本行在图像中的位置信息。根据定位操作后的文本行位置信息对其中包含的文字进行识别操作。

其中，包含卷积神经网络和循环神经网络的第一模型中包含的两个神经网络可以是：卷积神经网络和循环神经网络。由于卷积神经网络和循环神经网络的操作的目的都是为了实现对图像中文本行位置信息的定位，因此将上述两个神经网络合起来称为第一模型。将待识别文字的图像输入到卷积神经网络中，经过若干层的卷积和池化操作最终得到图像的特征图。在该特征图上进行滑窗卷积操作，得到窗口特征；并在进行滑窗操作时在每个滑窗中心按照设定的宽度和高度预测出每个位置建议框。将上述根据滑窗卷积操作得到的窗口特征输入到循环神经网络中，最终输出每个位置建议框的坐标信息，以及该位置建议框中含有文字的第一评分值，该评分值用于判断该位置建议框是否为候选建议框。

在确定位置建议框时，本发明实施例通过在每个滑窗中心采用设定的宽度和高度预测每个位置建议框。由于图像中的文本行中的文字高度不定，若采用现有技术中固定建议框大小和形状的建议框生成方法，会造成文本行定位不准确的问题，而本发明实施例提供的生成位置建议框的方法可以解决上述的问题。而通过设定的阈值判断位置建议框是否为候选建议框，去除冗余位置建议框，可以减少由于增加建议框大小和形状带来的计算开销。同时，在该第一模型中通过引入循环神经网络模型对文本行进行定位，由于循环神经网络模型本身具有记忆的特性，因此使用该循环神经网络可以有效的获取文本序列的上下文信息并将其加入到定位过程中。在具体实施中可能会出现的一种情形是，同一行文字之间的空白区域的建议框的评分值会因为前后文本的序列特征而获得提升，最终使获取的文本行建议框更加符合文本序列的位置特征，使定位结果更加准确。

例如，以快递面单图像文字识别为例，待识别的快递面单图像的文本行定位操作的具体执行过程如图2所示，其中，Convx_x代表不同模块的卷积操作，卷积模块的虚线连接部分代表池化操作。BLSTM(Bidirectional Long Short-term Memory)是双向长短时记忆神经网络，FC(Fully Connected)是指全连接层，在特征图conv5_3中共预测k位置建议框，经过BLSTM和FC层之后，输出预测的每个建议框的位置信息和每个建议框中包含的内容为文字的评分值。

首先将待识别的图像输入到预先训练完成的基于VGGNet的卷积神经网络，提取图像特征，该网络交替进行卷积-池化操作，具体的，图像共经过13 个3×3的卷积层和4个2×2的最大池化层，最终获得形状为W×H×C的特征图conv5_3，其中W，H，C分别代表特征图的宽、高和通道数；

在上述得到的特征图conv5_3上进行步长为1，卷积核大小为3×3的滑窗卷积操作，并在每个滑窗中心按照一定的形状和大小预测出k个位置建议框；

在具体实施中，k设置为10；并且一定的形状和大小具体的是：采用小尺度固定宽度，仅高度范围上变化的位置建议框设置方式。具体的，固定宽度可以设置为16个像素，高度范围上变化的方式为：高度分别从283个像素按照缩减比例为0.7的方法降低至11个像素，按照上述的方法共预测出10个位置建议框。

其次，将上述特征图conv5_3经过滑窗卷积操作得到的t个3×3×C的窗口特征作为特征序列输入BLSTM神经网络，循环更新隐藏层的内部状态H_t，按照下列公式对内部状态进行循环更新：

其中X_t∈R^3×3×C是从t个滑动窗口在特征图conv5_3每一行上获取的特征序列，W为特征图conv5_3的宽度，C为特征图conv5_3的通道数，为非线性函数。获取了有效上下文信息，连接FC层输出每个建议框的位置信息及每个建议框中包含的内容为文字的第一评分值。

例如，图3为具体实施过程中的一个例子，该图展示的结果是经过BLSTM 神经网络操作之后的预测的建议框及建议框对应的第一评分值。其中第三行的方框代表建议框，第二行的数字代表建议框的第一评分值，第一行中的数字代表对应建议框的位置索引值，其中索引值用于遍历建议框。

S102：筛选第一评分值大于预设评分阈值的候选建议框。

在上述确定出的建议框中，有可能存在不包含文字信息的建议框。因此针对上一步骤得出的每个建议框中包含的内容为文字的评分值，通过预设的评分阈值消除冗余建议框，得到候选建议框。具体的，若该建议框的评分值大于预设的评分阈值，则该建议框视为候选建议框；相反，若该建议框的评分值不大于预设的评分阈值，则该建议框视为冗余建议框，并去除该建议框。

例如，在具体实施中，预设的评分阈值可以设置为0.7，判断建议框的评分值是否大于0.7，若是，则该建议框为候选建议框；若否，则该建议框视为冗余建议框，并消除该冗余建议框。

S103：根据每个候选建议框的位置，对候选建议框进行合并得到目标建议框。

为了实现对图像中每一行对应的文本进行定位，需对上述得到的候选建议框进行合并求出目标建议框。因此根据上述求出的候选建议框的位置信息，对候选建议框逐个进行合并求出目标建议框。

其中，针对两个候选建议框进行合并的过程，在具体实施中，可能的一种实施方式为，将该两个候选建议框的最小外接矩形作为合并后得到的框，即目标建议框。

可能的一种实施方式，针对任意两个候选建议框，判断该两个候选建议框在水平方向的距离是否小于设定的阈值，如果是，则合并该两个候选建议框。

S104：将每个目标建议框输入到预先训练完成的包含卷积神经网络和循环神经网络的第二模型中，识别每个目标建议框中包含的文字。

获取文本行位置信息定位结果后，需要对文本行中的文字进行识别，识别的准确率对于实现图像的自动化管理非常关键。因此经过上述操作对图像中的文本行进行定位，并得到目标建议框后，为了识别定位后的目标建议框中的文字，将上述得到的目标建议框输入预先训练完成的包含卷积神经网络和循环神经网络的第二模型中，识别目标建议框中的文字信息。

其中，包含卷积神经网络和循环神经网络的第二模型中包含的两个神经网络可以是：卷积神经网络和循环神经网络。由于卷积神经网络和循环神经网络的操作的目的都是为了实现对图像中文本信息的识别，因此将上述两个神经网络合起来称为第二模型。

将上述得到的目标建议框作为卷积神经网络的输入，经过若干个卷积和最大池化操作得出图像卷积特征，并将图像卷积特征作为循环神经网络的输入，获取卷积层的输出并将其计算为与之宽度维数对应的分类评分。使用联结主义时序分类方法将循环神经网络的输出结果转化为标签序列，并按照每帧的预测值对标签序列定义概率，使用概率的负对数似然作为目标函数训练网络，可以直接构建图像与标签序列的对应，无需标注单个字符。

例如，以快递面单图像为例，输入图像为经过上述操作后得到的目标建议框，待识别的快递面单图像的文本行识别操作的具体执行过程如图4所示，其中，Convolution代表3×3的卷积层，Dense Blocks代表1×1和3×3组合的卷积层，Transition Layers代表2×2的最大池化层，BGRU(Bidirectional Gated Recurrent Unit)是基于双向GRU循环神经网络模型。

具体过程为：将定位后的快递面单图像输入到预先训练完成的基于 DenseNet的超深网络结构提取图像特征，图像首先经过3×3的卷积层、又依次交替经过若干1×1和3×3组合的卷积层，以及1×1卷积层和2×2的最大池化层，网络模型深度达到120层。

将上述得到的图像特征作为输入，通过基于双向GRU循环神经网络层，获取卷积层输出并将其计算为与之宽度维数对应的分类评分；

使用联结主义时序分类(Connectionist Temporal Classification，CTC)方法，将循环神经网络层输出结果转化为标签序列。按照每帧的预测值对标签序列定义概率，使用概率的负对数似然作为目标函数训练网络，可以直接构建图像与标签序列的对应，无需标注单个字符。

在本发明实施例中，相对于传统DenseNet的Transition Layers采用平均池化的方式，本发明实施例中采用最大池化层来保留特征图的纹理信息，并在最后两个最大池化层中，宽度维上采用步长为1的池化操作，更多的保留宽度维的特征信息，使得窄小字符检测更加鲁棒。本发明实施例中采用GRU方法，是一种比LSTM网络更加高效的循环神经网络，可以增强文字序列上下文信息的提取，使得文本序列的预测结果更加准确。本发明实施例中采用的CTC方法，是处理循环神经网络输出结果的常用转化方法，可以将输出结果转化为序列标签，其通过去重和剔除空格等操作获取最后的文本结果，处理对象是整个标签序列，而非单个字符。

实施例2：

为了使文字识别准确度更高，在上述实施例的基础上，在本发明实施例中，所述将包含待识别文字的图像输入到预先训练完成的包含卷积神经网络和循环神经网络的第一模型中之前，所述方法还包括：

采用阈值分割方法和连通域分析方法对所述图像进行处理；

并对处理后的图像进行文本方向校正。

通过相机等图像采集设备获取包含待识别文字的图像，由于图像中的文字信息可能分布在图像中的任意位置，并且图像中可能只有一部分区域包含待识别的文字。因此在对图像中的文字进行识别之前，首先采用阈值分割方法和连通域分析方法对图像进行处理，去除冗余区域，并保留包含待识别文字的区域图像。并且，为了保证图像的文字识别结果更加准确，对包含待识别文字的区域图像进行文本方向校正，使文本行处于水平方向。其中，采样阈值分割方法和连通域分析方法对图像进行处理的过程以及对包含待识别文字的区域图像进行文本方向校正的过程都属于现有技术，在此不再对该过程进行赘述。

实施例3：

由于上述得到的每个候选建议框内只包含一小部分的文本信息，因此为了得到每一行对应的完整的文本行信息，在上述各实施例的基础上，在本发明实施例中，根据每个候选建议框的位置，对候选建议框进行合并得到目标建议框包括：

具体的，横坐标之间的距离为第一候选建议框的四个角点的横坐标的最小值与第二候选建议框的四个角点的横坐标的最小值间的差值的绝对值，或者第一候选建议框的四个角点的横坐标的最大值与第二候选建议框的四个角点的横坐标的最大值间的差值的绝对值。其中，差值的绝对值越小，则该两个候选建议框，越有可能为一对联结框；垂直方向的重叠度是根据第一候选建议框的与第二候选建议框的在垂直方向上的重叠部分确定的，重叠度越大，则该两个候选建议框，越有可能为一对联结框；形状相似度为第一候选建议框和第二候选建议框的在整体形状方面的相似度，形状相似度越大，则该两个候选建议框，越有可能为一对联结框。

具体的，确定第一候选建议框和第二候选建议框是否为一对联结框的过程：针对每个第一候选建议框，判断是否存在一个第二候选建议框，其中该第二候选框与该第一候选建议框之间在水平方向上的距离d小于预设的第一阈值 thresh1，垂直方向的重叠度overlap超过预设的第二阈值thresh2，并且形状相似度similarity大于预设的第三阈值thresh3。若存在，则认为该第一候选建议框和该第二候选建议框为一对联结框，将该对联结框的最小外接矩形作为第一候选建议框，否则，将该第一候选建议框作为目标建议框。

如图5所示，其中虚线框内为本发明实施例中根据上述过程得到的候选建议框，虚线框为目标建议框，箭头下方的两个框为两个候选建议框，分别为第一候选建议框和第二候选建议框。其中A1、B1、C1、D1、A2、B2、C2、D2 分别代表第一候选建议框和第二候选建议框的四个角点位置，h₁和h₂分别代表第一候选建议框的第一高度和第二候选建议框的第二高度。

在计算第一候选建议框和第二候选建议框在垂直方向的重叠度时，可能的一种实施方式为，根据第一候选建议框和第二候选建议框在垂直方向的坐标重叠部分长度除以h₁和h₂中的最大值，即按照以下公式： overlap＝|y_A2-y_D1|/max(h₁,h₂)，计算垂直方向的重叠度。

另外一种可能的实施方式为，根据第一候选建议框和第二候选建议框在垂直方向的坐标重叠部分除以h₁和h₂的平均值，即按照以下公式： overlap＝|y_A2-y_D1|/mean(h₁,h₂)，计算垂直方向的重叠度。

可考虑第三种可能的实施方式，根据第一候选建议框和第二候选建议框在垂直方向的坐标重叠部分除以h₁和h₂的并集，即按照以下公式： overlap＝|y_A2-y_D1|/union(h₁,h₂)，计算垂直方向的重叠度。

实施例4：

为了使确定垂直方向的重叠度更准确，在上述各实施例的基础上，在本发明实施例中，确定垂直方向的重叠度包括：

根据所述第一候选建议框的第一高度和第一垂直坐标以及第二候选建议框的第二高度和第二垂直坐标，采用以下公式：overlap＝|y_A2-y_D1|/min(h₁,h₂)，确定所述垂直方向的重叠度，其中，y_A2代表所述第二候选建议框的第二垂直坐标，y_D1代表所述第一候选建议框的第一垂直坐标，h₁和h₂分别代表所述第一候选建议框和所述第二候选建议框的高度。

为了准确的确定第一候选建议框和第二候选建议框是否为一对联结框，在本发明实施例中，根据上述过程确定完所有候选建议框后，针对任意的两个候选建议框，分别将该两个候选建议框设为第一候选建议框和第二候选建议框，识别出该第一候选建议框的第一高度和第一垂直坐标，以及该第二候选建议框的第二高度和第二垂直坐标。首先，计算第一垂直坐标和第二垂直坐标的差值的绝对值；其次，计算第一高度和第二高度中最小的高度值；最后，计算差值的绝对值与最小高度值的比值，该比值即为该第一候选建议框和该第二候选建议框在垂直方向的重叠度。该值越大，则该第一候选建议框和第二候选建议框为一对联结框的可能性越大。

具体的，根据第一候选建议框的第一高度和第一垂直坐标以及第二候选建议框的第二高度和第二垂直坐标，按照以下公式：overlap＝|y_A2-y_D1|/min(h₁,h₂)，确定该第一候选建议框和第二候选建议框的重叠度。其中，y_A2代表所述第二候选建议框的第二垂直坐标，y_D1代表所述第一候选建议框的第一垂直坐标， h₁和h₂分别代表所述第一候选建议框和所述第二候选建议框的高度。

实施例5：

为了使确定形状相似度更准确，在上述各实施例的基础上，在本发明实施例中，确定形状相似度包括：

为了更加准确的确定第一候选建议框和第二候选建议框是否为一对联结框，在本发明实施例中，根据上述过程确定完所有候选建议框后，针对任意的两个候选建议框，分别将该两个候选建议框设为第一候选建议框和第二候选建议框，识别出该第一候选建议框的第一高度和第二候选建议框的第二高度。首先，确定出该第一高度和第二高度中的最小值；其次，确定出该第一高度和第二高度中的最大值；最后，确定该最小值与最大值的比值，该比值即为该第一候选建议框与该第二候选建议框的形状相似度。该值越大，则该第一候选建议框和第二候选建议框为一对联结框的可能性越大。

具体的，根据第一候选建议框的第一高度和第二候选建议框的第二高度，按照以下公式：similarity＝min(h₁,h₂)/max(h₁,h₂)，确定该第一候选建议框和第二候选建议框的形状相似度。其中，h₁和h₂分别代表所述第一候选建议框和所述第二候选建议框的高度。

实施例6：

为了对新输入的包含待识别文字的图像进行定位，因此在对其进行定位之前还包括预训练过程，在上述各实施例的基础上，在本发明实施例中，预先训练所述第一模型的过程包括：

由于该第一模型的目的是为了定位待识别图像中的文本行，将待识别的图像输入到该第一模型中是为了得到该图像中的每个位置建议框的位置信息以及每个位置建议框中包含的内容为文字的第二评分值，该第二评分值是为了计算该位置建议框是否为候选建议框。因此在对第一模型进行预训练之前，首先需要对图像数据进行标注，获取样本图像。具体的，在每个图像中标注了每个位置建议框的位置信息，以及每个位置建议框中包含的内容为文字的第二评分值。

具体实施中，每次输入一定数量的批量样本图像，采用前向传播、误差计算、后向传播和权重更新步骤对模型参数进行更新；不断输入批量样本重复以上步骤，不断调整参数，修正网络输出与基准值的误差，最后获得最优化的网络参数，即训练完成的网络模型。

特别的，在网络模型开始训练之前，一般的训练方法都是采用随机初始化的方式对模型的参数初始值进行设定。但是，随机初始化模型参数的方式理论上可以收敛到最优，但是其缺点也很明显，模型收敛所需训练时间较长，容易陷入局部最优，不容易获得高精度的网络模型。因此，在本发明实施例中，采用迁移学习方法，将现有技术中已训练好的模型参数迁移到新模型中代替原有模型参数随机初始化的方式，该方法加快并优化了新模型的学习效率和收敛速度。具体的，采用一些通用数据训练的文字识别模型参数作为本发明实施例的模型的初始参数进行训练。

进一步地，采用增量学习训练方法。由于模拟标注的样本和真实标注数据数量差异悬殊。因此，在本发明实施例中，首先训练千万量级的模拟标注的样本，而后增量学习真实标注数据。在真实样本动态增加的情况下，避免了对海量模拟标注的样本的重复学习，同时充分利用了历史训练结果，不断调整和优化最终的模型，降低了模型训练对于时间和存储空间的需求。

实施例7：

为了对定位后的图像进行识别，因此在对其进行识别之前还包括预训练过程，在上述各实施例的基础上，在本发明实施例中，预先训练所述第二模型的过程包括：

获取样本图像中标注的每一文本行；

由于该第二模型的目的是为了识别待识别图像中的文本行，将待识别的图像输入到该第二模型中是为了得到该图像中的文本行，确定该文本行后通过汉字字典即可获得文本行中的文字信息。因此在对第二模型进行预训练之前，首先需要对图像数据进行标注，获取样本图像。具体的，在每个图像中标注了每一文本行。接下来采用与第一模型相同的训练方式进行训练，最终获得训练完成的第二模型，用于新输入图像的文字识别。

例如，以快递面单图像文字识别为例，如图6所示的快递面单文字识别的完整流程图。

首先针对输入的快递面单图像，采用阈值分割和连通域分析方法截取面单区域，对截取的面单区域进行初步的文本方向校正，使得文本行都处于水平方向。

将经过上述操作后的面单区域图像输入到文本行定位模块，具体操作过程为：将面单区域图像作为卷积神经网络的输入，得到特征图；在该特征图上进行滑窗操作，在每个滑窗中心按照一定的形状和大小预测出k个位置建议框；将上述得到的特征图作为循环神经网络的输入，获取位置建议框的位置信息以及每个位置建议框中包含的内容为文本的评分值；针对位置建议框的评分值通过设定阈值得到候选建议框，并根据上述的候选建议框的合并算法对其进行合并，得到目标建议框，目标建议框即为该定位模块最终获得的文本行定位结果。

将经过上述操作后得到的文本行定位结果输入到文本行识别模块，具体操作过程为：将文本行定位结果作为卷积神经网络的输入，提取特征图；将该特征图作为循环神经网络的输入，得到卷积层输出并将其计算为与之宽度维数对应的分类评分；采用CTC方法将循环神经网络的卷积层输出结果转化为标签序列，通过标签序列与汉字字典做比对，获取最后的文字信息。将上述获取的文字信息按照姓名、电话和地址等分别归类，可以获得结构化的快读电子面单信息。

实施例8：

图7为本发明实施例提供的一种文字识别装置，该装置包括：

获取模块701，用于将包含待识别文字的图像输入到预先训练完成的包含卷积神经网络和循环神经网络的第一模型中，获取所述图像中包含的每个建议框的位置信息及每个建议框中包含的内容为文字的第一评分值，其中，所述第一模型获取所述图像的特征图，基于所述特征图进行滑窗操作，确定每个窗口特征，在所述每个窗口特征中按照预设的宽度和高度预测每个位置建议框；将所述特征图的每行对应的窗口特征序列作为循环神经网络的输入，基于所述循环神经网络获取所述图像中包含的每个建议框的位置信息及每个建议框中包含的内容为文字的第一评分值；

筛选模块702，用于筛选第一评分值大于预设评分阈值的候选建议框；

合并模块703，用于根据每个候选建议框的位置，对候选建议框进行合并得到目标建议框；

识别模块704，用于将每个目标建议框输入到预先训练完成的包含卷积神经网络和循环神经网络的第二模型中，识别每个目标建议框中包含的文字。

所述装置还包括：校正模块705，用于采用阈值分割方法和连通域分析方法对所述图像进行处理；并对处理后的图像进行文本方向校正。

所述合并模块703，具体用于针对每个候选建议框中第一候选建议框，识别是否存在与该第一候选建议框横坐标之间的距离小于预设的第一阈值，垂直方向的重叠度大于预设的第二阈值，且形状相似度大于预设的第三阈值的第二候选建议框，如果存在，将所述第一候选建议框与所述第二候选建议框合并作为第一候选建议框；如果不存在，将该第一候选建议框作为目标建议框。

所述合并模块703，具体用于根据所述第一候选建议框的第一高度和第一垂直坐标以及第二候选建议框的第二高度和第二垂直坐标，采用以下公式： overlap＝|y_A2-y_D1|/min(h₁,h₂)，确定所述垂直方向的重叠度，其中，y_A2代表所述第二候选建议框的第二垂直坐标，y_D1代表所述第一候选建议框的第一垂直坐标，h₁和h₂分别代表所述第一候选建议框的第一高度和所述第二候选建议框的第二高度。

所述合并模块703，具体用于根据所述第一候选建议框的第一高度和第二候选建议框的第二高度，采用以下公式：similarity＝min(h₁,h₂)/max(h₁,h₂)，确定所述形状相似度，其中，h₁和h₂分别代表所述第一候选建议框和所述第二候选建议框的高度。

所述装置还包括：

第一训练模块706，用于获取样本图像，其中所述样本图像中标注了每个建议框的位置信息及每个位置建议框包含的内容为文字的第二评分值；将每个样本图像输入到包含卷积神经网络和循环神经网络的第一模型中，根据每个第一模型的输出，对所述第一模型进行训练。

所述装置还包括：

第二训练模块707，用于获取样本图像中标注的每一文本行；将包含对应文本行的每个样本图像输入到包含卷积神经网络和循环神经网络的第二模型中，根据每个第二模型的输出，对所述第二模型进行训练。

综上所述，本发明实施例提供一种文字识别方法及装置，包括：将包含待识别文字的图像输入到预先训练完成的包含卷积神经网络和循环神经网络的第一模型中，获取图像中包含的每个建议框的位置信息及每个建议框中包含的内容为文字的第一评分值，其中，第一模型获取图像的特征图，基于特征图进行滑窗操作，确定每个窗口特征，在每个窗口特征中按照预设的宽度和高度预测每个位置建议框；将特征图的每行对应的窗口特征序列作为循环神经网络的输入，基于循环神经网络获取图像中包含的每个建议框的位置信息及每个建议框中包含的内容为文字的第一评分值；识别第一评分值大于预设评分阈值的候选建议框；根据每个候选建议框的位置，对候选建议框进行合并得到目标建议框；将每个目标建议框输入到预先训练完成的包含卷积神经网络和循环神经网络的第二模型中，识别每个目标建议框中包含的文字。

本发明是参照根据本发明实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和 /或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/ 或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种文字识别方法，其特征在于，所述方法包括：

筛选第一评分值大于预设评分阈值的候选建议框；

将每个目标建议框输入到预先训练完成的包含卷积神经网络和循环神经网络的第二模型中，识别每个目标建议框中包含的文字。

2.如权利要求1所述的方法，其特征在于，所述将包含待识别文字的图像输入到预先训练完成的包含卷积神经网络和循环神经网络的第一模型中之前，所述方法还包括：

采用阈值分割方法和连通域分析方法对所述图像进行处理；

并对处理后的图像进行文本方向校正。

3.如权利要求1所述的方法，其特征在于，所述根据每个候选建议框的位置，对候选建议框进行合并得到目标建议框包括：

4.如权利要求3所述的方法，其特征在于，确定所述垂直方向的重叠度包括：

5.如权利要求3所述的方法，其特征在于，确定所述形状相似度包括：

根据所述第一候选建议框的第一高度和第二候选建议框的第二高度，采用以下公式：similarity＝min(h₁,h₂)/max(h₁,h₂)，确定所述形状相似度，其中，h₁和h₂分别代表所述第一候选建议框和所述第二候选建议框的高度。

6.如权利要求1所述的方法，其特征在于，预先训练所述第一模型的过程包括：

7.如权利要求1所述的方法，其特征在于，预先训练所述第二模型的过程包括：

获取样本图像中标注的每一文本行；

8.一种文字识别装置，其特征在于，所述装置包括：

获取模块，用于将包含待识别文字的图像输入到预先训练完成的包含卷积神经网络和循环神经网络的第一模型中，获取所述图像中包含的每个建议框的位置信息及每个建议框中包含的内容为文字的第一评分值，其中，所述第一模型获取所述图像的特征图，基于所述特征图进行滑窗操作，确定每个窗口特征，在所述每个窗口特征中按照预设的宽度和高度预测每个位置建议框；将所述特征图的每行对应的窗口特征序列作为循环神经网络的输入，基于所述循环神经网络获取所述图像中包含的每个建议框的位置信息及每个建议框中包含的内容为文字的第一评分值；

识别模块，用于将每个目标建议框输入到预先训练完成的包含循环神经网络的卷积神经网络的第二模型中，识别每个目标建议框中包含的文字。

9.如权利要求8所述的装置，其特征在于，所述装置还包括：

10.如权利要求8所述的装置，其特征在于，所述合并模块，具体用于针对每个候选建议框中第一候选建议框，识别是否存在与该第一候选建议框横坐标之间的距离小于预设的第一阈值，垂直方向的重叠度大于预设的第二阈值，且形状相似度大于预设的第三阈值的第二候选建议框，如果存在，将所述第一候选建议框与所述第二候选建议框合并作为第一候选建议框；如果不存在，将该第一候选建议框作为目标建议框。

11.如权利要求10所述的装置，其特征在于，所述合并模块，具体用于根据所述第一候选建议框的第一高度和第一垂直坐标以及第二候选建议框的第二高度和第二垂直坐标，采用以下公式：overlap＝|y_A2-y_D1|/min(h₁,h₂)，确定所述垂直方向的重叠度，其中，y_A2代表所述第二候选建议框的第二垂直坐标，y_D1代表所述第一候选建议框的第一垂直坐标，h₁和h₂分别代表所述第一候选建议框的第一高度和所述第二候选建议框的第二高度。

12.如权利要求10所述的装置，其特征在于，所述合并模块，具体用于根据所述第一候选建议框的第一高度和第二候选建议框的第二高度，采用以下公式：similarity＝min(h₁,h₂)/max(h₁,h₂)，确定所述形状相似度，其中，h₁和h₂分别代表所述第一候选建议框和所述第二候选建议框的高度。

13.如权利要求8所述的装置，其特征在于，所述装置还包括：

14.如权利要求8所述的装置，其特征在于，所述装置还包括：