CN111291629A

CN111291629A - 图像中文本的识别方法、装置、计算机设备及计算机存储介质

Info

Publication number: CN111291629A
Application number: CN202010051888.7A
Authority: CN
Inventors: 杨紫崴
Original assignee: Ping An Medical and Healthcare Management Co Ltd
Current assignee: Shenzhen Ping An Medical Health Technology Service Co Ltd
Priority date: 2020-01-17
Filing date: 2020-01-17
Publication date: 2020-06-16

Abstract

本申请公开了一种图像中文本的识别方法、装置及计算机存储介质，涉及文本识别技术领域，通过对实际场景收集到的样本数据进行增广，使得训练出的模型能够很好的拟合实际场景，提高图像中文本识别的准确率。所述方法包括：获取通过场景化处理后类针打印字体的文字样本图像；将所述类针打印字体的文字样本图像作为训练数据分别输入至不同架构的网络模型中进行训练，得到文本区域检测模型以及文本识别模型；当接收到图像文本检测请求时，将请求检测的图像输入至所述文本区域识别模型，确定图像对应文本区域的位置信息；将所述图像对应文本区域的位置信息以及请求检测的图像共同输入至所述文本识别模型，得到图像中的文本信息。

Description

图像中文本的识别方法、装置、计算机设备及计算机存储介质

技术领域

本发明涉及文本识别技术领域，尤其是涉及到图像中文本的识别方法、装置、计算机设备及计算机存储介质。

背景技术

目前，OCR识别技术可以很好的识别图片中的文字，并应用于各个领域，如证件识别、票据识别，很大程度上替代人工录入。极大节省了人工录入的麻烦。而大量标注好的数据是OCR识别技术中模型训练过程的重要部分，往往需要付出较高的人力物力以及时间成本。

利用算法生成模拟真实场景的文字样本数据来对标注数据进行增广，从一定程度上可以达到模型训练所需标注数据的规模。然而，利用算法生成模拟场景的文字样本数据通常都是连续笔画，很难覆盖到某些特定场景下的文字样本数据，如针打打印机打印上去的文字样本，是由一个个点阵组成的笔画，使得模型训练过程中的文字样本数据缺乏多样性，导致训练的模型不能很好的拟合实际场景，影响文本识别的准确率。

发明内容

有鉴于此，本发明提供了一种图像中文本的识别方法、装置、计算机设备及计算机存储介质，主要目的在于解决现有的文本识别模型在训练的过程中文本样本缺乏多样性，使得训练的模型不能很好拟合实际场景，导致文本识别准确率较低的问题。

依据本发明一个方面，提供了一种图像中文本的识别方法，该方法包括：

获取通过场景化处理后类针打印字体的文字样本图像；

将所述类针打印字体的文字样本图像作为训练数据分别输入至不同架构的网络模型中进行训练，得到文本区域检测模型以及文本识别模型；

当接收到图像文本检测请求时，将请求检测的图像输入至所述文本区域识别模型，确定图像对应文本区域的位置信息；

将所述图像对应文本区域的位置信息以及请求检测的图像共同输入至所述文本识别模型，得到图像中的文本信息。

进一步地，所述获取通过场景化处理后类针打印字体的文字样本图像，具体包括：

获取利用打印方式生成的打印样本图像，设置所述打印样本图像对应的属性值；

通过变更所述打印样本图像中像素对应的属性值，对所述打印样本图像进行场景化处理，得到类针打印字体的文字样本图像。

进一步地，所述通过变更所述打印样本图像中像素对应的属性值，对所述打印样本图像进行场景化处理，得到类针打印字体的文字样本图像，具体包括：

利用最大类间方差法确定划分所述打印样本图像中像素对应颜色属性值的最佳阈值；

以所述最佳阈值作为划分依据对所述打印样本图像进行二值化处理，得到二值化处理后打印样本图像的背景像素和前景像素；

将所述二值化处理后打印样本图像的背景像素按照预设比例划分为多个背景部分；

针对各个背景部分对应参数的像素值，对所述打印样本图像进行场景化处理，得到类针打印字体的文字样本图像。

进一步地，所述利用最大类间方差法确定划分所述打印样本图像中像素对应颜色属性值的最佳阈值，具体包括：

利用假定灰度值将所述打印样本图像中像素对应颜色属性值划分为两组，计算类间方差，其中一组颜色属性值取值为所述假定灰度值，其中另一组颜色属性值取值为不大于所述假定灰度值；

通过更改所述假定灰度值，将所述类间方差最大值时的假定灰度值确定为颜色属性值最佳阈值。

进一步地，所述针对各个背景部分对应参数的像素值，对所述打印样本图像进行场景化处理，得到类针打印字体的文字样本图像，具体包括：

通过调整各个背景部分对应对比度的像素值，得到增加对比度场景后类针打印字体的文字样本图像，使得所述文字样本图像覆盖不同对比度的场景；

通过对各个背景部分对应参数的像素值进行模糊处理，得到增加模糊效果后类针打印字体的文字样本图像，使得所述文字样本图像覆盖模糊效果的场景。

进一步地，所述将所述类针打印字体的文字样本图像作为训练数据分别输入至不同架构的网络模型中进行训练，得到文本区域检测模型以及文本识别模型，具体包括：

将所述类针打印字体的文字样本图像中文本区域的位置信息进行标注后输入至第一网络模型中进行训练，得到文本区域检测模型；

将所述类针打印字体的文字样本图像中文本区域内的文本信息进行标注后输入至第二网络模型中进行训练，得到文本识别模型。

进一步地，所述第一网络模型中包括多层结构，所述将所述类针打印字体的文字样本图像中文本区域的位置信息进行标注后输入至第一网络模型中进行训练，得到文本区域检测模型，具体包括：

通过所述第一网络模型的卷积层提取所述类针打印字体的文字样本图像对应的图像区域特征；

通过所述第一网络模型的解码层根据文字样本图像对应的图像区域特征，生成水平的文本序列特征；

通过所述第一网络模型的预测层根据所述水平的文本序列特征确定所述文字样本图像中的文本区域，并将所述文本区域处理得到候选文本线。

依据本发明另一个方面，提供了一种图像中文本的识别装置，所述装置包括：

获取单元，用于获取通过场景化处理后类针打印字体的文字样本图像；

训练单元，用于将所述类针打印字体的文字样本图像作为训练数据分别输入至不同架构的网络模型中进行训练，得到文本区域检测模型以及文本识别模型；

确定单元，用于当接收到图像文本检测请求时，将请求检测的图像输入至所述文本区域识别模型，确定图像对应文本区域的位置信息；

识别单元，用于将所述图像对应文本区域的位置信息以及请求检测的图像共同输入至所述文本识别模型，得到图像中的文本信息。

进一步地，所述获取单元包括：

设置模块，用于获取利用打印方式生成的打印样本图像，设置所述打印样本图像对应的属性值；

处理模块，用于通过变更所述打印样本图像中像素对应的属性值，对所述打印样本图像进行场景化处理，得到类针打印字体的文字样本图像。

进一步地，所述处理模块包括：

确定子模块，用于利用最大类间方差法确定划分所述打印样本图像中像素对应颜色属性值的最佳阈值；

第一处理子模块，用于以所述最佳阈值作为划分依据对所述打印样本图像进行二值化处理，得到二值化处理后打印样本图像的背景像素和前景像素；

划分子模块，用于将所述二值化处理后打印样本图像的背景像素按照预设比例划分为多个背景部分；

第二处理子模块，用于针对各个背景部分对应参数的像素值，对所述打印样本图像进行场景化处理，得到类针打印字体的文字样本图像。

进一步地，所述确定子模块，具体用于利用假定灰度值将所述打印样本图像中像素对应颜色属性值划分为两组，计算类间方差，其中一组颜色属性值取值为所述假定灰度值，其中另一组颜色属性值取值为不大于所述假定灰度值；

所述确定子模块，具体还用于通过更改所述假定灰度值，将所述类间方差最大值时的假定灰度值确定为颜色属性值最佳阈值。

进一步地，所述第二处理子模块，具体用于通过调整各个背景部分对应对比度的像素值，得到增加对比度场景后类针打印字体的文字样本图像，使得所述文字样本图像覆盖不同对比度的场景；

所述第二处理子模块，具体还用于通过对各个背景部分对应参数的像素值进行模糊处理，得到增加模糊效果后类针打印字体的文字样本图像，使得所述文字样本图像覆盖模糊效果的场景。

进一步地，所述训练单元包括：

第一训练模块，用于将所述类针打印字体的文字样本图像中文本区域的位置信息进行标注后输入至第一网络模型中进行训练，得到文本区域检测模型；

第二训练模块，用于将所述类针打印字体的文字样本图像中文本区域内的文本信息进行标注后输入至第二网络模型中进行训练，得到文本识别模型。

进一步地，所述第一网络模型中包括多层结构，

所述第一训练模块，具体用于通过所述第一网络模型的卷积层提取所述类针打印字体的文字样本图像对应的图像区域特征；

所述第一训练模块，具体还用于通过所述第一网络模型的解码层根据文字样本图像对应的图像区域特征，生成水平的文本序列特征；

所述第一训练模块，具体还用于通过所述第一网络模型的预测层根据所述水平的文本序列特征确定所述文字样本图像中的文本区域，并将所述文本区域处理得到候选文本线。

依据本发明又一个方面，提供了一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现图像中文本的识别方法的步骤。

依据本发明再一个方面，提供了一种计算机存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现图像中文本的识别方法的步骤。

借由上述技术方案，本发明提供一种图像中文本的识别方法及装置，通过获取通过场景化处理后类针打印字体的文字样本图像，由于通过场景化处理后的文字样本图像覆盖有更丰富的图片特征，使得训练得到的文本区域检测模型以及文本识别模型具有更高的场景辨识能力，从而在对图像中文本进行识别的过程中，能够不同场景图像中的文本信息。与现有技术中图像中文本的识别方法相比，本申请通过对实际场景收集到的样本数据进行增广，无需耗费大量人力成本去收集样本，简化了样本收集过程，节省了样本数据的标注时间，并且利用增广后样本数据训练出的模型能够很好的拟合实际场景，提高图像中文本识别的准确率。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1示出了本发明实施例提供的一种图像中文本的识别方法的流程示意图；

图2示出了本发明实施例提供的另一种图像中文本的识别方法的流程示意图；

图3示出了本发明实施例提供的一种图像中文本的识别装置的结构示意图；

图4示出了本发明实施例提供的另一种图像中文本的识别装置的结构示意图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

本发明实施例提供了一种图像中文本的识别方法，能够使得训练出的模型能够很好的拟合实际场景，提高图像中文本识别的准确率，如图1所示，该方法包括：

101、获取通过场景化处理后类针打印字体的文字样本图像。

其中，类打印字体的文字样本图像可以为利用打印方式生成的文字样本图像，例如，***图像、文档图像等。

具体在获取类打印的文字样本图像过程中，通常选取常规的票据图像作为类打印字体的文字样本图像，为了丰富文字样本图像的多样性，针对常规的票据图像，可以使用不同的拍摄设备，在不同的拍摄背景、光线、亮度、拍摄角度等对票据图像进行拍摄，从而生成背景、光线、亮度等不同变化相结合的文字样本图像，使得文字样本图像在后续训练的过程中能够结合实际应用场景。

可以理解的是，通过在拍摄票据图像中调整拍摄场景可以为文字样本图像增加一定的场景处理，还可以通过选取不同背景颜色的文字样本图像，针对文字样本图像的背景颜色进行灰度处理，进而调整文字样本图像前景与背景的对比度，以使得文字样本图像覆盖不同对比度的场景，还可以对灰度处理后的图像背景部分进行模糊处理，以使得所述文字样本图像覆盖模糊效果的场景，当然增加噪声或者缩小比例等处理，这里对场景处理的方式不进行限定。

102、将所述类针打印字体的文字样本图像作为训练数据分别输入至不同架构的网络模型中进行训练，得到文本区域检测模型以及文本识别模型。

其中，用于训练文本区域检测模型的网络模型可以使用开源DetectingText inNatural Image with Connectionist Text Proposal Network(CTPN)框架。具体训练文本框检测模型的过程可以如下：首先准备训练数据，即类打印字体的文字样本图像以及文字样本图像对应的标注数据，由于标注数据中记录有图像中文本区域相应的坐标信息，在训练数据输入至CTPN网络之前，需要对标注数据中文本区域相应的坐标信息转换为宽为8的小anchor，通过将文本区域拆分为小的文本区域集合，对每个小的文本区域中的信息进行预测和识别，能够大大提高文本区域检测的准确率。这里的CTPN网络结构采用CNN+BLSTM+RPN的形式，CNN用来提取感受野的空间特征，感受野就是输出feature map(通过卷积核卷积出来的)某个节点的响应对应的输入图像的区域，BLSTM能够基于感受野的空间特征生成水平的文本序列特征，RPN包括两部分，anchor分类和bounding box regressing，经过上述anchor分类能够对确定各个区域是否为文本区域，经过bounding box regressing处理后，会获得一组竖直条状的候选文本线。

需要说明的是，经过预先训练的文本区域检测模型输出的并不直接是目标识别图像中的文本区域，而是组成目标识别图像中文本区域的一组竖直条状的候选文本线，可以使用文本线构造算法，将一组一组竖直条状的候选文本线连接成文本区域，从而确定目标识别图像中的文本区域以及文本区域的位置信息。

其中，用于训练文本识别模型的网络模型可以采用An End-to-End Train ableNeural Network for Imaged-based Sequence Recognition and Its Applic ation toScene Text Recognition(CRNN)的算法训练识别模型，类针打印字体的文字样本图像以及文字样本图像中标记的文本区域的位置信息经过文本识别模型后，输出类打印字体的文字样本图像中每一个文本区域对应的文本识别结果。具体训练CRNN模型的过程可以如下：首先训练数据采用类针打印字体的文字样本图像及文字样本图像中文本区域的文本信息进行标签的方式存储。这里的CRNN网络结构采用CNN+RNN+CTC的形式，CNN用来提取图像中感受野的空间特征，RNN能够基于感受野的空间特征预测图像中每一帧的标签分布，CTC能够将每一帧的标签分布进行整合等操作变为最终的标签序列。例如，输入图片resize到W*32的大小，经过文本识别模型输出的预测值表示目标识别图像中文本区域对应的文本信息。

应说明的是，这里用于训练文本区域检测模型以及文本识别模型的训练数据具有丰富的打印图像特征，使得训练得到的文本区域检测模型以及文本识别模型能够更全面覆盖打印字体图像的应用场景，提高图像中文本区域的检测效果以及文本区域中文本信息的识别效果。

103、当接收到图像文本检测请求时，将请求检测的图像输入至所述文本区域识别模型，确定图像对应文本区域的位置信息。

可以理解的是，每张图像经过文本区域检测模型会有对应的输出文件，该输出文件存储图像中所有候选文本框的位置信息以及该候选文本线是否为文本区域的标签，这里的候选文本框相当于文字区域拆分出的竖直条状的框。

具体确定图像对应文本区域的位置信息的过程中，可以将通过文本区域检测模型输出一系列候选文本框记为text proposals，在基于文本线构造算法将图像对应的候选文本线生成图像对应文本区域的位置信息的过程中考虑到候选文本框是否为文本区域的标签，从而根据候选文本框是否为文本区域的标签，将一系列text proposals连接为一个大的文本区域，组成图像对应的文本区域，进而确定图像对应文本区域的位置信息。

104、将所述图像对应文本区域的位置信息以及请求检测的图像共同输入至所述文本识别模型，得到图像中的文本信息。

可以理解的是，经过训练的文本识别模型具有识别文本区域中文本信息的能力，由于训练文本识别模型的过程中，使用类针打印字体的文字样本图像以及文字样本图像中文本区域内文本信息的标签，通过前向传播以及反向偏差纠正，不断调整文本识别模型的参数，使得通过文本识别模型的图像能够准确识别出打印字体图像中文本区域的文本信息。

本发明实施例提供的一种图像中文本的识别方法，通过获取通过场景化处理后类针打印字体的文字样本图像，由于通过场景化处理后的文字样本图像覆盖有更丰富的图片特征，使得训练得到的文本区域检测模型以及文本识别模型具有更高的场景辨识能力，从而在对图像中文本进行识别的过程中，能够不同场景图像中的文本信息。与现有技术中图像中文本的识别方法相比，本申请通过对实际场景收集到的样本数据进行增广，无需耗费大量人力成本去收集样本，简化了样本收集过程，节省了样本数据的标注时间，并且利用增广后样本数据训练出的模型能够很好的拟合实际场景，提高图像中文本识别的准确率。

本发明实施例提供了另一种图像中文本的识别方法，使得训练出的模型能够很好的拟合实际场景，提高图像中文本识别的准确率，如图2所示，所述方法包括：

201、获取利用打印方式生成的打印样本图像，设置所述打印样本图像对应的属性值。

通常情况，利用打印方式生成的打印文本图像在通过文本识别模型识别文本信息的时候，由于打印文本图像中的文本信息是一个个点阵组成的笔画，而以后的文本生成算法生成的文本图像都是连续的笔画，使得这类打印文本在文本识别模型中并不会得到很好的识别效果。

为了更好的对打印文本图像中文本信息进行识别，可以获取利用打印方式生成的打印样本图像作为文本识别模型的训练数据，并通过设置打印样本图像对应的属性值，以丰富训练数据的多样性。

具体设置打印样本图像对应的属性值可以随机选取打印样本图像的背景图，计算并记录该背景图的颜色均值Bcolor，可以随机选取打印样本图像中文本信息的颜色，记录文本信息的颜色为Tcolor，可以随机选取打印样本图像中文本字体大小间距等，通过设置打印样本图像对应的属性值可以使得打印样本图像更贴合实际应用场景下的打印文本图像，这样使得生成的打印样本图像在后续模型训练过程中具有更好的训练效果。

例如，对于打印样本图像中的字体选择，可以根据打印图像中设置，通常使用宋体，仿宋，哥特字体等，可以在生成每一张打印样本图像时，从这几种字体中随机选择一种字体的打印样本图像；对于打印样本图像的字体颜色、旋转角度也同理，随机调整一定区间的随机值来设置打印图像样本对应的属性值。

202、通过变更所述打印样本图像中像素对应的属性值，对所述打印样本图像进行场景化处理，得到类针打印字体的文字样本图像。

对于本发明实施例，具体变更打印样本图像中像素对应的属性值，可以通过利用最大类间方差法确定划分所述打印样本图像中像素对应颜色属性值的最佳阈值，并以最佳阈值作为划分依据对打印样本图像进行二值化处理，得到二值化处理后打印样本图像的背景像素和前景像素，由于二值化处理后的打印样本图像能够将图像中像素划分为两类，一类是背景像素，另一类是前景像素，便于对打印样本图像进行场景化处理。

具体可以利用假定灰度值将打印样本图像中像素对应颜色属性值划分为两组，计算类间方差，其中一组颜色属性值取值为假定灰度值，其中另一组颜色属性值取值为不大于假定灰度值，通过更改假定灰度值，将类间方差最大值确定为颜色属性值最佳阈值。

需要说明的是，上述是利用最大类间方差法确定划分打印样本图像中的像素对应颜色属性值的最佳阈值，还可以直接选取黑色和白色作为划分样本打印图像中的像素对应颜色属性值，例如，对打印样本图像进行二值化处理，分别得到图像前景(白色)和图像背景(黑色)的二值化mask图。

为了改变打印图像的背景色，还可以在将打印样本图像进行二值化处理后，Tcolor为颜色属性的最佳阈值，从左上角逐行遍历mask上的像素，记录每个连续为白色的像素总数N，假设需要断点的像素长度为M，当前遍历到像素值设置为P，将P/(2*M)>M的打印样本图像上对应的区域设置为背景Bcolor。

对于本发明实施例，具体对打印样本图像进行场景化处理，得到类针打印字体的文字样本图像，可以通过将二值化处理后打印样本图像的背景像素按照预设比例划分为多个背景部分，并针对各个背景部分对应参数的像素值，对打印样本图像进行场景化处理，得到类针打印字体的文字样本图像。

例如，可以将原图上变为背景色的M个像素按照1:4:1划分为三部分，这三部分的设定颜色分别为(Bcolor+Tcolor)/2，Bcolor，(Bcolor+Tcolor)/2。

为了改变打印样本图像的对比度，可以通过调整各个背景部分对应对比度的像素值，得到增加对比度场景后类针打印字体的文字样本图像，使得文字样本图像覆盖不同对比度的场景；

具体调节打印样本图像对比度的公式为：

g(x)＝alpha*f(x)+beta

其中，alpha：0.2-0.8的随机值，beta：0.2-0.8的随机值；

通过将打印样本图像乘以alpha再加上beta，可以得到一张对比度不同的打印样本图像，从而使得生成的打印样本图像可以覆盖更多对比度场景。

为了改变打印样本图像的模糊效果，通过对各个背景部分对应参数的像素值进行模糊处理，得到增加模糊效果后类针打印字体的文字样本图像，使得文字样本图像覆盖模糊效果的场景。

具体调节打印样本图像模糊度的方式可以包括运动模糊以及高斯模糊，对于增加打印样本图像的运动模糊效果，可以将打印图像样本经过如下操作：

首先确定变换矩阵：

M＝cv2.getRotationMatrix2D(center，angle，scale)

其中，

α＝scale·cosangle

β＝scale·sinangle

然后通过仿射变换得到运动模糊的卷积核：

cv2.warpAffine(src，dst,M，dsize)

kernel(x，y)＝src(M11*x+M12*y+M13,M21*x+M22*y+M23)

再通过卷积操作；

cv2.filter2D(src，dst，ddepth，kernel，anchor＝(-1,-1))

dst(x，y)＝Σkernel(x′,y′)*src(x+x′-anchor.x，y+y′-anchor.y)

最终，打印样本图像与高斯核经过卷积操作后，可以增加运动模糊的效果，其中，运动模糊的模糊角度和模糊程度可以通过随机来随机生成，以保证打印样本图像的多样性。

对于增加打印样本图像的高斯模糊效果，可以将打印图像样本经过如下操作：

首先通过下式确定高斯核：

Cv2.getGaussianKernel(ksize，sigma)

其中，i＝0..ksize-1，α是一个缩放系数使得∑Gi＝1

最终，打印样本图像与高斯核经过卷积操作后，可以增加高斯模糊的效果。

203、将所述类针打印字体的文字样本图像中文本区域的位置信息进行标注后输入至第一网络模型中进行训练，得到文本区域检测模型。

为了便于对文本区域进行明确的边界定义，类针打印字体的文字样本图像中可能会存在不同的区域，例如，文本区域、图片区域、空白区域等，对于非文字区域并非是文本区域检测的目标区域，所以需要对文本区域进行标注，具体可以使用图像标注工具对类针打印字体的文字样本图像进行处理，从而对文字样本图像中的文本区域进行精确标注，得到文本区域的标注数据。

其中，第一网络模型可以采用CTPN网络框架，包括3层结构组成，第一层为卷积结构，也就是CNN结构，通过卷积层提取文字样本图像对应的图像区域特征，能够学***的文本序列特征，能够较好地应对水平文本这种序列特征；第三层为预测层，也就是RPN结构，通过预测层根据水平的文本序列特征确定文字样本图像中的文本区域，并将文本区域处理得到候选文本线。

具体地，第一网络模型的预测层包括分类部分和回归部分，在通过网络模型的预测层根据水平的文本序列特征确定文字样本图像中的文本区域，并将文本区域处理得到候选文本线的过程中，可以通过网络模型的预测层的分类部分根据水平的文本序列特征对文字样本图像中的各个区域进行分类，确定文字样本图像中的文本区域；通过网络模型的预测层的回归部分对文字样本图像中的文本区域进行边框回归处理，得到候选文本线。

在具体实施的过程中，在卷积层部分，CTPN可以选取VGG模型中conv5的featuremaps作为图像最后的特征，此时feature maps的尺寸为H×W×C；接着由于文本之间的序列关系，在解码层可以采用3×3的滑动窗口提取feature maps上每个点周围3×3的区域作为该点的特征向量表示，此时，图像的尺寸变为H×W×9C，然后将每一行作为序列的长度，高度作为batch_size，传入一个128维的Bi-LSTM，得到解码层的输出为W×H×256；最后将解码层输出接入预测层，预测层包括两个部分，anchor分类和bounding box regressing，经过anchor分类能够确定图像中各个区域是否为文本区域，经过bounding box regressing处理后，会获得一组竖直条状的候选文本线，并携带该候选文本线是否为文本区域的标签。

进一步地，为了保证训练得到的文本区域检测模型预测的准确度，预先设置的损失函数能够基于文本区域检测模型输出的结果与真实的文本区域所标注的数据之间的偏差对文本区域检测模型中多层结构进行参数调整。对于本发明实施例，预先训练的损失函数主要包括3部分，第一部分为用于检测Anchor是否为文本区域的损失函数；第二部分为用于检测anchor的y坐标offset回归的损失函数；第三部分为用于检测Anchor的x坐标offset回归的损失函数。

204、将所述类针打印字体的文字样本图像中文本区域内的文本信息进行标注后输入至第二网络模型中进行训练，得到文本识别模型。

其中，第二网络模型可以采用CRNN网络架构，包括3层结构组成，第一层为卷积结构，也就是CNN结构，通过卷积层提取文字样本图像对应的图像区域特征，能够学习感受野的空间信息；第二层结构为循环层，也就是RNN结构，通过循环层根据文字样本图像对应的图像区域特征预测图像中每一帧的标签分布；第三层结构为转录层，也就是CTC结构，通过转录层将图像中每一帧的标签分布进行整合等操作变为最终的标签序列，并输出文字样本图像中每一个文本区域对应的文本识别结果。

在具体实施的过程中，在卷积层部分，可以自动提取出输入文字样本图像的特征序列，提取的特征序列中的向量是从特征图上从左到右按照顺序生成的，每个特征向量表示了图像上一定宽度上的特征。在循环层部分，可以利用RNN循环神经网络构成，预测特征序列中的每一个特征向量的标签分布(真实结果的概率列表)，循环层的误差被反向传播，最后悔转换成特征序列，再把特征序列反馈到卷积层，可以通过定义自定义往里层完成，作为卷积层和循环层之间连接的桥梁。在转录层部分，可以利用CTC模型，通过将预测的特征序列的所有可能的结果进行整合，转换为最终结果的过程，CTC一般连接在RNN网络的最后一层用于序列学习和训练。对于一段长度为T的序列来说，每个样本点t(t远大于T)在RNN网络的最后一层都会输出一个softmax向量，表示该样本点的预测概率，所有样本点的这些概率传输给CTC模型后，输出最可能的标签，再经过去除空格(blank)和去重操作，就可以得到最终的序列标签。

205、当接收到图像文本检测请求时，将请求检测的图像输入至所述文本区域识别模型，确定图像对应文本区域的位置信息。

可以理解的是，每张打印样本图像经过文本区域检测模型会有对应的输出文件，该输出文件存储图像中所有候选文本线的位置信息以及该候选文本线是否为文本区域的标签，这里的候选文本线相当于文本区域拆分出的竖直条状的线，基于文本线构造算法将候选文本线连接形成图像中的文本区域，结合每个候选文本线的位置信息，确定图像对应文本区域的位置信息。

206、将所述图像对应文本区域的位置信息以及请求检测的图像共同输入至所述文本识别模型，得到图像中的文本信息。

进一步地，作为图1所述方法的具体实现，本发明实施例提供了一种图像中文本的识别装置，如图3所示，所述装置包括：获取单元31、训练单元32、确定单元33、识别单元34。

获取单元31，可以用于获取通过场景化处理后类针打印字体的文字样本图像；

训练单元32，可以用于将所述类针打印字体的文字样本图像作为训练数据分别输入至不同架构的网络模型中进行训练，得到文本区域检测模型以及文本识别模型；

确定单元33，可以用于当接收到图像文本检测请求时，将请求检测的图像输入至所述文本区域识别模型，确定图像对应文本区域的位置信息；

识别单元34，可以用于将所述图像对应文本区域的位置信息以及请求检测的图像共同输入至所述文本识别模型，得到图像中的文本信息。

本发明实施例提供的一种图像中文本的识别装置，通过获取通过场景化处理后类针打印字体的文字样本图像，由于通过场景化处理后的文字样本图像覆盖有更丰富的图片特征，使得训练得到的文本区域检测模型以及文本识别模型具有更高的场景辨识能力，从而在对图像中文本进行识别的过程中，能够不同场景图像中的文本信息。与现有技术中图像中文本的识别方法相比，本申请通过对实际场景收集到的样本数据进行增广，无需耗费大量人力成本去收集样本，简化了样本收集过程，节省了样本数据的标注时间，并且利用增广后样本数据训练出的模型能够很好的拟合实际场景，提高图像中文本识别的准确率。

作为图3中所示图像中文本的识别装置的进一步说明，图4是根据本发明实施例另一种图像中文本的识别装置的结构示意图，如图4所示，所述获取单元31包括：

设置模块311，可以用于获取利用打印方式生成的打印样本图像，设置所述打印样本图像对应的属性值；

处理模块312，可以用于通过变更所述打印样本图像中像素对应的属性值，对所述打印样本图像进行场景化处理，得到类针打印字体的文字样本图像。

进一步地，所述处理模块312包括：

确定子模块3121，可以用于利用最大类间方差法确定划分所述打印样本图像中像素对应颜色属性值的最佳阈值；

第一处理子模块3122，可以用于以所述最佳阈值作为划分依据对所述打印样本图像进行二值化处理，得到二值化处理后打印样本图像的背景像素和前景像素；

划分子模块3123，可以用于将所述二值化处理后打印样本图像的背景像素按照预设比例划分为多个背景部分；

第二处理子模块3124，可以用于针对各个背景部分对应参数的像素值，对所述打印样本图像进行场景化处理，得到类针打印字体的文字样本图像。

进一步地，所述确定子模块3121，具体可以用于利用假定灰度值将所述打印样本图像中像素对应颜色属性值划分为两组，计算类间方差，其中一组颜色属性值取值为所述假定灰度值，其中另一组颜色属性值取值为不大于所述假定灰度值；

所述确定子模块3121，具体还可以用于通过更改所述假定灰度值，将所述类间方差最大值时的假定灰度值确定为颜色属性值最佳阈值。

进一步地，所述第二处理子模块3124，具体可以用于通过调整各个背景部分对应对比度的像素值，得到增加对比度场景后类针打印字体的文字样本图像，使得所述文字样本图像覆盖不同对比度的场景；

所述第二处理子模块3124，具体还可以用于通过对各个背景部分对应参数的像素值进行模糊处理，得到增加模糊效果后类针打印字体的文字样本图像，使得所述文字样本图像覆盖模糊效果的场景。

进一步地，所述训练单元33包括：

第一训练模块321，可以用于将所述类针打印字体的文字样本图像中文本区域的位置信息进行标注后输入至第一网络模型中进行训练，得到文本区域检测模型；

第二训练模块322，可以用于将所述类针打印字体的文字样本图像中文本区域内的文本信息进行标注后输入至第二网络模型中进行训练，得到文本识别模型。

进一步地，所述第一网络模型中包括多层结构，

所述第一训练模块321，具体可以用于通过所述第一网络模型的卷积层提取所述类针打印字体的文字样本图像对应的图像区域特征；

所述第一训练模块321，具体还可以用于通过所述第一网络模型的解码层根据文字样本图像对应的图像区域特征，生成水平的文本序列特征；

所述第一训练模块321，具体还可以用于通过所述第一网络模型的预测层根据所述水平的文本序列特征确定所述文字样本图像中的文本区域，并将所述文本区域处理得到候选文本线。

需要说明的是，本实施例提供的一种图像中文本的识别装置所涉及各功能单元的其他相应描述，可以参考图1、图2中的对应描述，在此不再赘述。

基于上述如图1、图2所示方法，相应的，本实施例还提供了一种存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述如图1、图2所示的图像中文本的识别方法。

基于这样的理解，本申请的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施场景所述的方法。

基于上述如图1、图2所示的方法，以及图3、图4所示的虚拟装置实施例，为了实现上述目的，本申请实施例还提供了一种计算机设备，具体可以为个人计算机、服务器、网络设备等，该实体设备包括存储介质和处理器；存储介质，用于存储计算机程序；处理器，用于执行计算机程序以实现上述如图1、图2所示的图像中文本的识别方法。

可选地，该计算机设备还可以包括用户接口、网络接口、摄像头、射频(RadioFrequency，RF)电路，传感器、音频电路、WI-FI模块等等。用户接口可以包括显示屏(Display)、输入单元比如键盘(Keyboard)等，可选用户接口还可以包括USB接口、读卡器接口等。网络接口可选的可以包括标准的有线接口、无线接口(如蓝牙接口、WI-FI接口)等。

本领域技术人员可以理解，本实施例提供的图像中文本的识别装置的实体设备结构并不构成对该实体设备的限定，可以包括更多或更少的部件，或者组合某些部件，或者不同的部件布置。

存储介质中还可以包括操作***、网络通信模块。操作***是管理上述计算机设备硬件和软件资源的程序，支持信息处理程序以及其它软件和/或程序的运行。网络通信模块用于实现存储介质内部各组件之间的通信，以及与该实体设备中其它硬件和软件之间通信。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到本申请可以借助软件加必要的通用硬件平台的方式来实现，也可以通过硬件实现。通过应用本申请的技术方案，与目前现有技术相比，本申请通过对实际场景收集到的样本数据进行增广，无需耗费大量人力成本去收集样本，简化了样本收集过程，节省了样本数据的标注时间，并且利用增广后样本数据训练出的模型能够很好的拟合实际场景，提高图像中文本识别的准确率。

本领域技术人员可以理解附图只是一个优选实施场景的示意图，附图中的模块或流程并不一定是实施本申请所必须的。本领域技术人员可以理解实施场景中的装置中的模块可以按照实施场景描述进行分布于实施场景的装置中，也可以进行相应变化位于不同于本实施场景的一个或多个装置中。上述实施场景的模块可以合并为一个模块，也可以进一步拆分成多个子模块。

上述本申请序号仅仅为了描述，不代表实施场景的优劣。以上公开的仅为本申请的几个具体实施场景，但是，本申请并非局限于此，任何本领域的技术人员能思之的变化都应落入本申请的保护范围。

Claims

1.一种图像中文本的识别方法，其特征在于，所述方法包括：

获取通过场景化处理后类针打印字体的文字样本图像；

2.根据权利要求1所述的方法，其特征在于，所述获取通过场景化处理后类针打印字体的文字样本图像，具体包括：

3.根据权利要求2所述的方法，其特征在于，所述通过变更所述打印样本图像中像素对应的属性值，对所述打印样本图像进行场景化处理，得到类针打印字体的文字样本图像，具体包括：

4.根据权利要求3所述的方法，其特征在于，所述利用最大类间方差法确定划分所述打印样本图像中像素对应颜色属性值的最佳阈值，具体包括：

5.根据权利要求3所述的方法，其特征在于，所述针对各个背景部分对应参数的像素值，对所述打印样本图像进行场景化处理，得到类针打印字体的文字样本图像，具体包括：

6.根据权利要求1-5中任一项所述的方法，其特征在于，所述将所述类针打印字体的文字样本图像作为训练数据分别输入至不同架构的网络模型中进行训练，得到文本区域检测模型以及文本识别模型，具体包括：

7.根据权利要求6所述的方法，其特征在于，所述第一网络模型中包括多层结构，所述将所述类针打印字体的文字样本图像中文本区域的位置信息进行标注后输入至第一网络模型中进行训练，得到文本区域检测模型，具体包括：

8.一种图像中文本的识别装置，其特征在于，所述装置包括：

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。

10.一种计算机存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。