CN108229303B

CN108229303B - 检测识别和检测识别网络的训练方法及装置、设备、介质

Info

Publication number: CN108229303B
Application number: CN201711126372.9A
Authority: CN
Inventors: 刘学博; 梁鼎
Original assignee: Beijing Sensetime Technology Development Co Ltd
Current assignee: Beijing Sensetime Technology Development Co Ltd
Priority date: 2017-11-14
Filing date: 2017-11-14
Publication date: 2021-05-04
Anticipated expiration: 2037-11-14
Also published as: CN108229303A

Abstract

本发明实施例公开了一种检测识别和检测识别网络的训练方法及装置、设备、介质，其中，检测识别方法包括：将待处理图像输入检测识别网络；所述检测识别网络包括共享网络层、检测网络层和识别网络层；经所述共享网络层输出所述待处理图像的共享层特征；将所述共享层特征输入所述检测网络层，经所述检测网络层输出所述待处理图像的检测层特征，基于所述检测层特征获得所述待处理图像中包括文字的文本框信息；将所述共享层特征和文本框信息输入所述识别网络层，经所述识别网络层输出所述文本框中的文字内容。本发明实施例减少了重复对图像进行特征提取，提高了处理效率；提高了文字检测和识别的效率和速度。

Description

检测识别和检测识别网络的训练方法及装置、设备、介质

技术领域

本发明涉及计算机视觉技术，尤其是一种检测识别和检测识别网络的训练方法及装置、设备、介质。

背景技术

自然场景下的文本检测与识别是图像理解和图像恢复领域的重要问题。精确的文本检测和识别能够用于很多问题，例如大数据集下的图像搜索，自动翻译，盲人引导，机器人导航等。

然而自然场景下的文本检测和识别是很具挑战性的，不同的背景场景，低分辨率，不同字体，不同光照条件，不同大小尺度，不同倾斜方向，模糊等因素，都使得该问题变得十分复杂和困难。

发明内容

本发明实施例提供一种文字识别技术方案。

根据本发明实施例的一个方面，提供的一种检测识别方法，包括：

将待处理图像输入检测识别网络；所述检测识别网络包括共享网络层、检测网络层和识别网络层；

经所述共享网络层输出所述待处理图像的共享层特征，所述共享层特征用于体现图像中以下特征的至少一个：小物体纹理特征、边缘特征、细节特征；

将所述共享层特征输入所述检测网络层，经所述检测网络层输出所述待处理图像的检测层特征，基于所述检测层特征获得所述待处理图像中包括文字的文本框信息；

将所述共享层特征和文本框信息输入所述识别网络层，经所述识别网络层输出所述文本框中的文字内容。

在基于本发明上述方法的另一个实施例中，所述检测层特征包括所述待处理图像中各像素的类别信息；所述类别信息用于通过不同的信息标示相应的像素是否为文字类别；

所述基于所述检测层特征获得所述待处理图像中包括文字的文本框信息，包括：

通过所述待处理图像中各像素的类别信息获取所述待处理图像中包括文字的文本框信息，所述文本框信息包括：文本框类别信息和文本框位置信息；所述文本框类别信息用于表示所述文本框中是否包含文字；所述文本框位置信息包括所述待处理图像中任一像素点到所述文本框中上下左右的距离和文本框的旋转角度。

在基于本发明上述方法的另一个实施例中，所述通过所述待处理图像中各像素的类别信息获取所述待处理图像中包括文字的文本框信息，包括：

基于待处理图像的类别信息将所述待处理图像的长和宽分别缩小到设定比例，根据像素位置关系将所述待处理图像分割为多个矩形框；基于所述矩形框内部各像素的类别信息均标示为文字信息的矩形框获得文本框；

获得所述待处理图像中任一像素点距离所述文本框上下左右的距离信息和所述文本框的旋转角度信息；

基于所述获得的文本框位置信息和文本框类别信息获得所述文本框信息。

在基于本发明上述方法的另一个实施例中，所述将所述共享层特征和文本框信息输入所述识别网络层，经所述识别网络层预测所述文本框中的文字信息，包括：

基于所述输出的文本框信息获得对应的文本框特征，将所述文本框特征与所述共享网络层输出的共享层特征进行特征融合；

所述识别网络层基于融合后的特征预测所述文本框中的文字信息。

在基于本发明上述方法的另一个实施例中，所述基于所述输出的文本框信息获得对应的文本框特征，包括：

对所述文本框信息进行透视变换，从待处理图像分割出文本框，基于所述分割出的文本框生成对应的文本框特征。

在基于本发明上述方法的另一个实施例中，所述从待处理图像分割出文本框，包括：

根据文本框位置信息获得所述文本框的左上角坐标；

保持所述文本框的高度和宽度的比例不变，对所述文本框进行缩放，使各所述文本框的高度一致；

基于所述文本框的旋转角度、所述左上角坐标和缩放比例构建透视变换矩阵；

基于所述透视变换矩阵，从所述待处理图像中分割出所述文本框。

在基于本发明上述方法的另一个实施例中，所述基于所述透视变换矩阵，从所述待处理图像中分割出所述文本框，包括：

对所述透视变换矩阵与所述待处理图像执行矩阵乘法操作，得到一个与所述待处理图像大小相同的分割图像，每个所述分割图像仅在左上角包括一个文本框。

根据本发明实施例的另一个方面，提供的一种检测识别网络的训练方法，包括：

将待处理图像输入检测识别网络；其中，所述检测识别网络包括共享网络层、检测网络层和识别网络层；所述待处理图像标注有文本框信息和文本框中包括的文字信息；

经所述共享网络层输出第一共享层特征；将所述第一共享层特征和所述待处理图像标注的文本框信息输入所述识别网络层，经所述识别网络层预测所述文本框包括的文字信息；基于预测的文字信息和标注的文字信息训练所述共享网络层和所述识别网络层，直至满足第一训练完成条件；所述共享层特征用于体现图像中以下特征的至少一个：小物体纹理特征、边缘特征、细节特征；

将待处理图像输入训练后的共享网络层，经所述训练后的共享网络层输出第二共享层特征；将所述第二共享层特征输入所述检测网络层，经所述检测网络层预测所述待处理图像的检测层特征，基于所述检测层特征获得所述待处理图像中包括文字的文本框信息；基于预测的文本框信息和标注的文本框信息训练所述检测网络层，直至满足第二训练完成条件。

在基于本发明上述方法的另一个实施例中，基于预测的文字信息和标注的文字信息训练所述共享网络层和所述识别网络层，直至满足第一训练完成条件，包括：

基于预测的文字信息和标注的文字信息之间的误差对所述共享网络层和识别网络层中的网络参数值进行调整；

迭代执行通过调整参数后的共享网络层和识别网络层对待处理图像进行识别获得预测的文字信息，直至满足第一训练完成条件。

在基于本发明上述方法的另一个实施例中，所述第一训练完成条件，包括：

所述预测的文字信息和标注的文字信息之间的误差小于第一预设值；或迭代预测次数大于或等于第一预设次数。

在基于本发明上述方法的另一个实施例中，所述基于预测的文本框信息和标注的文本框信息训练所述检测网络层，直至满足第二训练完成条件，包括：

基于预测的文本框信息和标注的文本框信息之间的误差对所述检测网络层的参数进行调整；

迭代执行通过调整参数后的检测网络层对待处理图像进行检测获得预测的文本框信息，直至满足第二训练完成条件。

在基于本发明上述方法的另一个实施例中，所述第二训练完成条件，包括：

所述预测的文本框信息和标注的文本框信息之间的误差小于第二预设值；或迭代预测次数大于或等于第二预设次数。

基于所述检测层特征获得所述待处理图像中包括文字的文本框信息包括：

基于所述待处理图像的类别信息将所述待处理图像的长和宽分别缩小到设定比例，根据像素位置关系将所述待处理图像分割为多个矩形框；基于所述矩形框内部各像素的类别信息均标示为文字信息的矩形框获得文本框；

在基于本发明上述方法的另一个实施例中，经所述识别网络层预测所述文本框中包括的文字信息，包括：

基于所述待处理图像标注的文本框信息获得对应的文本框特征，将所述文本框特征与所述共享网络层输出的第一共享层特征进行特征融合；

在基于本发明上述方法的另一个实施例中，基于所述待处理图像标注的文本框信息获得对应的文本框特征，包括：

对所述标注的文本框信息进行透视变换，从所述待处理图像分割出文本框，基于所述分割出的文本框生成对应的文本框特征。

在基于本发明上述方法的另一个实施例中，从所述待处理图像分割出文本框，包括：

根据文本框位置信息获得所述文本框的左上角坐标；

在基于本发明上述方法的另一个实施例中，基于所述透视变换矩阵，从所述待处理图像中分割出所述文本框，包括：

根据本发明实施例的另一个方面，提供的一种检测识别装置，包括：

输入单元，用于将待处理图像输入检测识别网络；所述检测识别网络包括共享网络层、检测网络层和识别网络层；

低层提取单元，用于经所述共享网络层输出所述待处理图像的共享层特征；所述共享层特征用于体现图像中以下特征的至少一个：小物体纹理特征、边缘特征、细节特征；

文本框检测单元，用于将所述共享层特征输入所述检测网络层，经所述检测网络层输出所述待处理图像的检测层特征，基于所述检测层特征获得所述待处理图像中包括文字的文本框信息；

文字识别单元，用于将所述共享层特征和文本框信息输入所述识别网络层，经所述识别网络层输出所述文本框中的文字内容。

在基于本发明上述装置的另一个实施例中，所述检测层特征包括所述待处理图像中各像素的类别信息；所述类别信息用于通过不同的信息标示相应的像素是否为文字类别；

所述文本框检测单元，具体用于通过所述待处理图像中各像素的类别信息获取所述待处理图像中包括文字的文本框信息，所述文本框信息包括：文本框类别信息和文本框位置信息；所述文本框类别信息用于表示所述文本框中是否包含文字；所述文本框位置信息包括所述待处理图像中任一像素点到所述文本框中上下左右的距离和文本框的旋转角度。

在基于本发明上述装置的另一个实施例中，所述文本框检测单元，，包括：

文本框获得模块，用于基于待处理图像的类别信息将所述待处理图像的长和宽分别缩小到设定比例，根据像素位置关系将所述待处理图像分割为多个矩形框；基于所述矩形框内部各像素的类别信息均标示为文字信息的矩形框获得文本框；

信息获取模块，用于获得所述待处理图像中任一像素点距离所述文本框上下左右的距离信息和所述文本框的旋转角度信息；基于所述获得的文本框位置信息和文本框类别信息获取所述文本框信息。

在基于本发明上述装置的另一个实施例中，所述文字识别单元，包括：

特征提取模块，用于基于所述输出的文本框信息获得对应的文本框特征，将所述文本框特征与所述共享网络层输出的共享层特征进行特征融合；

文字预测模块，用于所述识别网络层基于融合后的特征预测所述文本框中的文字信息。

在基于本发明上述装置的另一个实施例中，所述特征提取模块，具体用于对所述文本框信息进行透视变换，从待处理图像分割出文本框，基于所述分割出的文本框生成对应的文本框特征。

在基于本发明上述装置的另一个实施例中，所述特征提取模块，包括：

缩放模块，用于根据文本框位置信息获得所述文本框的左上角坐标；保持所述文本框的高度和宽度的比例不变，对所述文本框进行缩放，使各所述文本框的高度一致；

变换模块，用于基于所述文本框的旋转角度、所述左上角坐标和缩放比例构建透视变换矩阵；

文本框分割模块，用于基于所述透视变换矩阵，从所述待处理图像中分割出所述文本框。

在基于本发明上述装置的另一个实施例中，所述文本框分割模块，具体用于对所述透视变换矩阵与所述待处理图像执行矩阵乘法操作，得到一个与所述待处理图像大小相同的分割图像，每个所述分割图像仅在左上角包括一个文本框。

根据本发明实施例的另一个方面，提供的一种检测识别网络的训练装置，包括：

图像输入单元，用于将待处理图像输入检测识别网络；其中，所述检测识别网络包括共享网络层、检测网络层和识别网络层；所述待处理图像标注有文本框信息和文本框中包括的文字信息；

第一训练单元，用于经所述共享网络层输出第一共享层特征；将所述第一共享层特征和所述待处理图像标注的文本框信息输入所述识别网络层，经所述识别网络层预测所述文本框包括的文字信息；基于预测的文字信息和标注的文字信息训练所述共享网络层和所述识别网络层，直至满足第一训练完成条件；所述共享层特征用于体现图像中以下特征的至少一个：小物体纹理特征、边缘特征、细节特征；

第二训练单元，用于将待处理图像输入训练后的共享网络层，经所述训练后的共享网络层输出第二共享层特征；将所述第二共享层特征输入所述检测网络层，经所述检测网络层预测所述待处理图像的检测层特征，基于所述检测层特征获得所述待处理图像中包括文字的文本框信息；基于预测的文本框信息和标注的文本框信息训练所述检测网络层，直至满足第二训练完成条件。

在基于本发明上述装置的另一个实施例中，所述第一训练单元，具体用于基于预测的文字信息和标注的文字信息之间的误差对所述共享网络层和识别网络层中的网络参数值进行调整；迭代执行通过调整参数后的共享网络层和识别网络层对待处理图像进行识别获得预测的文字信息，直至满足第一训练完成条件。

在基于本发明上述装置的另一个实施例中，所述第一训练完成条件，包括：

在基于本发明上述装置的另一个实施例中，所述第二训练单元，具体用于基于预测的文本框信息和标注的文本框信息之间的误差对所述检测网络层的参数进行调整；迭代执行通过调整参数后的检测网络层对待处理图像进行检测获得预测的文本框信息，直至满足第二训练完成条件。

在基于本发明上述装置的另一个实施例中，所述第二训练完成条件，包括：

所述第二训练单元，具体用于通过所述待处理图像中各像素的类别信息获取所述待处理图像中包括文字的文本框信息；所述文本框信息包括：文本框类别信息和文本框位置信息；所述文本框类别信息用于表示所述文本框中是否包含文字；所述文本框位置信息包括所述待处理图像中任一像素点到所述文本框中上下左右的距离和文本框的旋转角度。

在基于本发明上述装置的另一个实施例中，所述第二训练单元，包括：

文本框获得模块，用于基于所述待处理图像的类别信息将所述待处理图像的长和宽分别缩小到设定比例，根据像素位置关系将所述待处理图像分割为多个矩形框；基于所述矩形框内部各像素的类别信息均标示为文字信息的矩形框获得文本框；

在基于本发明上述装置的另一个实施例中，所述第一训练单元，包括：

特征提取模块，用于基于所述待处理图像标注的文本框信息获得对应的文本框特征，将所述文本框特征与所述共享网络层输出的第一共享层特征进行特征融合；

文件预测模块，用于所述识别网络层基于融合后的特征预测所述文本框中的文字信息。

在基于本发明上述装置的另一个实施例中，所述特征提取模块，具体用于对所述标注的文本框信息进行透视变换，从所述待处理图像分割出文本框，基于所述分割出的文本框生成对应的文本框特征。

根据本发明实施例的另一个方面，提供的一种电子设备，包括处理器，所述处理器包括如上所述的检测识别装置或如上所述的检测识别网络的训练装置。

根据本发明实施例的一个方面，提供的一种电子设备，其特征在于，包括：存储器，用于存储可执行指令；

以及处理器，用于与所述存储器通信以执行所述可执行指令从而完成如上所述检测识别方法或如上所述的检测识别网络的训练方法的操作。

根据本发明实施例的一个方面，提供的一种计算机存储介质，用于存储计算机可读取的指令，其特征在于，所述指令被执行时执行如上所述检测识别方法或如上所述的检测识别网络的训练方法的操作。

基于本发明上述实施例提供的一种检测识别和检测识别网络的训练方法及装置、设备、介质，将待处理图像输入检测识别网络；经共享网络层输出待处理图像的共享层特征；通过共享网络层输出的共享层特征减少了重复对图像进行特征提取，提高了处理效率；将共享层特征输入检测网络层，经检测网络输出待处理图像中包括文字的文本框信息；将共享层特征和文本框信息输入识别网络层，经识别网络层输出文本框中的文字内容；通过一个检测识别网络实现了文本框信息的检测和文本框中的文字信息的识别；提高了文字识别的效率和速度。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

构成说明书的一部分的附图描述了本发明的实施例，并且连同描述一起用于解释本发明的原理。

参照附图，根据下面的详细描述，可以更加清楚地理解本发明，其中：

图1为本发明检测识别方法一个实施例的流程图。

图2为本发明检测识别装置一个实施例的结构示意图。

图3为本发明检测识别网络的训练方法一个实施例的流程图。

图4为本发明检测识别网络的训练装置一个实施例的结构示意图。

图5为用来实现本申请实施例的终端设备或服务器的电子设备的结构示意图。

具体实施方式

现在将参照附图来详细描述本发明的各种示例性实施例。应注意到：除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本发明的范围。

同时，应当明白，为了便于描述，附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。

以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本发明及其应用或使用的任何限制。

对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为说明书的一部分。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。

本发明实施例可以应用于计算机***/服务器，其可与众多其它通用或专用计算***环境或配置一起操作。适于与计算机***/服务器一起使用的众所周知的计算***、环境和/或配置的例子包括但不限于：个人计算机***、服务器计算机***、瘦客户机、厚客户机、手持或膝上设备、基于微处理器的***、机顶盒、可编程消费电子产品、网络个人电脑、小型计算机***﹑大型计算机***和包括上述任何***的分布式云计算技术环境，等等。

计算机***/服务器可以在由计算机***执行的计算机***可执行指令(诸如程序模块)的一般语境下描述。通常，程序模块可以包括例程、程序、目标程序、组件、逻辑、数据结构等等，它们执行特定的任务或者实现特定的抽象数据类型。计算机***/服务器可以在分布式云计算环境中实施，分布式云计算环境中，任务是由通过通信网络链接的远程处理设备执行的。在分布式云计算环境中，程序模块可以位于包括存储设备的本地或远程计算***存储介质上。

现有技术中，大多数效果出色的方法都利用深度学习，对文本的检测和识别分成两部分处理，即先对整张图片进行文本检测，得到不同文本的位置信息，随后根据位置信息将所检测的文本扣出进行识别。

在实现本发明的过程中，发明人发现，现有技术至少存在以下问题：

1.将文本的检测和识别分成两部分处理的方法整体的准确率分别受限于检测和识别的准确率；2.将文本的检测和识别分成两部分处理的方法需要存储检测的中间结果作为识别的输入，同时由于检测和识别两个网络模型更为复杂，使得运算和存储效率较低。

图1为本发明检测识别方法一个实施例的流程图。如图1所示，该实施例方法包括：

步骤101，将待处理图像输入检测识别网络。

其中，检测识别网络包括共享网络层、检测网络层和识别网络层。

步骤102，经共享网络层输出待处理图像的共享层特征。

共享层特征用于体现图像中以下特征的至少一个：小物体纹理特征、边缘特征、细节特征，文本框检测和文字识别单独作为一个任务进行处理时，分别需要一个神经网络，可以将两个网络看做是文本框检测网络和文字识别网络，文本框检测网络和文字识别网络的处理对象均为图像，神经网络基本是由一定数量的卷积层、池化层、全连接层等网络层组合而成，由于文本框检测网络和文字识别网络都是处理图像中的文字信息，因此文本框检测网络和文字识别网络在获取共享层特征的前几层网络层中参数可以共享，其中，共享层特征在图像检测和识别网络中用于获得更多小物体的纹理特征、图像的边缘特征和图像的细节特征等特征，能够更好地处理对小物体的检测和识别；将文本框检测网络和文字识别网络中共同涉及到的网络层单独作为共享网络层对待处理图像进行特征提取，避免了对待处理图像的重复处理，后续对文本框检测和/或文字识别只需将得到的共享层特征输入对应的网络层即可。示例性地，利用多尺度特征级联(将共享网络层输出的共享层特征图与已知的文本框信息进行融合，即将不同层次的特征融合)和CTC(Connectionist TemporalClassfication，连续时间分类，一种深度神经网络中将一个序列解码为另一个序列的方法，在文字识别中效果很好)提高对文本检测和识别的准确率，更好的处理图片中较小的难分辨文字，通过共享部分网络，减少重复的对图像的特征进行提取。

步骤103，将共享层特征输入检测网络层，经检测网络层输出待处理图像的检测层特征，基于检测层特征获得待处理图像中包括文字的文本框信息。

步骤104，将共享层特征和文本框信息输入识别网络层，经识别网络层输出文本框中的文字内容。

基于本发明上述实施例提供的一种检测识别方法，将待处理图像输入检测识别网络；经共享网络层输出待处理图像的共享层特征；通过共享网络层输出的共享层特征减少了重复对图像进行特征提取，提高了处理效率；将共享层特征输入检测网络层，经检测网络输出待处理图像中包括文字的文本框信息；将共享层特征和文本框信息输入识别网络层，经识别网络层输出文本框中的文字内容；通过一个检测识别网络实现了文本框信息的检测和文本框中的文字信息的识别；提高了文字识别的效率和速度。

本发明提供的检测识别方法对于不同语种的语言都适用，对于不同语种，只需在训练检测识别网络时，使采用需要处理的语种的文字进行训练，得到的检测识别网络就可以实现对该语种文字的检测和识别。

在本发明检测识别方法上述实施例的一个具体示例中，检测层特征包括待处理图像中各像素的类别信息；其中，类别信息用于通过不同的信息标示相应的像素是否为文字类别；可选地，类别信息具体可以通过0表示非文字类别和1表示文字类别，或通过1表示非文字类别和0表示文字类别。

操作103包括：

通过待处理图像中各像素的类别信息获取待处理图像中包括文字的文本框信息。

其中，文本框信息包括：文本框类别信息和文本框位置信息；文本框类别信息用于表示所述文本框中是否包含文字；文本框位置信息包括待处理图像中任一像素点到文本框中上下左右的距离和文本框的旋转角度。在本实施例中，在通过样本图像待处理图像对检测识别网络进行训练之前，需要对样本图像待处理图像进行标注，通过对样本图像待处理图像中每个像素的类别进行标注，以确定文本框的位置，通常标注的类别包括文本和非文本(可以用1和0标注)，经过标注了文本和非文本，就可以确定包括文本的文本框对应的文本框信息。

在本发明检测识别方法上述各实施例的一个具体示例中，通过待处理图像中各像素的类别信息获取待处理图像中包括文字的文本框信息，包括：

基于待处理图像的类别信息将待处理图像的长和宽分别缩小到设定比例，根据像素位置关系将待处理图像分割为多个矩形框，基于矩形框内部各像素的类别信息均标示为文字信息的矩形框获得文本框；

获得待处理图像中任一像素点距离文本框上下左右的距离信息和文本框的旋转角度信息；

基于获得的文本框位置信息和文本框类别信息获得文本框信息。

通过本实施例的设置，待处理图像就标注为仅包括1和0的图像(类别信息通过1表示文字类别、0表示非文字类别，或通过1表示非文字类别、0表示文字类别)，而在网络分类过程中，有可能存在位置不准确的问题，此时，将文本框的长和宽分别缩小到设定比例(如：长和宽缩小为原来的0.6倍)，缩小了文本框的尺寸可以减小文本位置不准确对算法的影响；而确定文本框的位置信息是通过找到文本框的最小外接矩形，通过该外接矩形就可以获得文本框中各像素距离该文本框上下左右的距离信息，文本框的角度信息则是基于该最小外接矩形与正向放置的矩形的旋转角度。

本发明检测识别方法的另一实施例，在上述各实施例的基础上，操作104包括：

基于输出的文本框信息获得对应的文本框特征，将文本框特征与共享网络层输出的共享层特征进行特征融合；

识别网络层基于融合后的特征预测文本框中的文字信息。

本实施例中所指特征融合，是将获得的共享层特征和检测层特征连接到一起，这样融合后的特征既包括了图像的共享层特征，又包括了检测层的语义特征，能更好的用于文字检测和识别。

在本发明检测识别方法上述各实施例的一个具体示例中，基于输出的文本框信息获得对应的文本框特征待处理图像，包括：

对文本框信息进行透视变换，从待处理图像分割出文本框，基于分割出的文本框生成对应的文本框特征。

在本实施例中，根据人工标注的位置信息将文本框从原图中扣出可以采用透视变换，即将标注获得的任意四边形扣出变换到一个矩形，用以识别网络层的输入。公式如下：

t_x＝l-x₀

t_y＝t-y₀

scale＝dat_h/(t+b)

dat_ω＝scale×(l+r)

其中，输入：t，b，l，r为任意四边形内某点距四边形上下左右边的垂直距离，θ为该任意四边形旋转角度，dst_h，dst_w分别为所设定的输出矩形图片的高和宽，x₀，y₀为该点在变换前图片的坐标位置。输出：透视变换矩阵M将原始图片与矩阵M相乘，可直接得到输出图片，即抠出的矩形图片用于识别网络层；本实施例所指文本框特征为文本框特征图，基于获得的文本框对应像素值即可获得文本框特征图。

在本发明检测识别方法上述各实施例的一个具体示例中，从待处理图像分割出文本框，包括：

根据文本框位置信息获得文本框的左上角坐标；

保持文本框的高度和宽度的比例不变，对文本框进行缩放，使各文本框的高度一致；

基于文本框的旋转角度、左上角坐标和缩放比例构建透视变换矩阵；

基于透视变换矩阵，从待处理图像中分割出文本框。

在本实施例中，为了构建透视变换矩阵，首先获得文本框的左上角坐标，为了便于获得所有文本框，将所有文本框的高度进行调整至一致，对于调整后的文本框就可以基于一个透视变换矩阵进行分割。

在本发明检测识别方法上述各实施例的一个具体示例中，基于透视变换矩阵，从待处理图像中分割出文本框，包括：

对透视变换矩阵与待处理图像执行矩阵乘法操作，得到一个与待处理图像大小相同的分割图像，每个分割图像仅在左上角包括一个文本框。

在本实施例中，每次基于透视变换矩阵只能分割出一个文本框，通过移动透视变换矩阵与待处理图像执行矩阵乘法来获得所有的文本框。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

图2为本发明检测识别装置一个实施例的结构示意图。该实施例的装置可用于实现本发明上述各方法实施例。如图2所示，该实施例的装置包括：

输入单元21，用于将待处理图像输入检测识别网络。

低层提取单元22，用于经共享网络层输出待处理图像的共享层特征。

共享层特征用于体现图像中以下特征的至少一个：小物体纹理特征、边缘特征、细节特征。

文本框检测单元23，用于将共享层特征输入检测网络层，经检测网络层输出待处理图像的检测层特征，基于检测层特征获得待处理图像中包括文字的文本框信息。

文字识别单元24，用于将共享层特征和文本框信息输入识别网络层，经识别网络层输出文本框中的文字内容。

基于本发明上述实施例提供的一种检测识别装置，将待处理图像输入检测识别网络；经共享网络层输出待处理图像的共享层特征；通过共享网络层输出的共享层特征减少了重复对图像进行特征提取，提高了处理效率；将共享层特征输入检测网络层，经检测网络输出待处理图像中包括文字的文本框信息；将共享层特征和文本框信息输入识别网络层，经识别网络层输出文本框中的文字内容；通过一个检测识别网络实现了文本框信息的检测和文本框中的文字信息的识别；提高了文字识别的效率和速度。

在本发明检测识别装置上述实施例的一个具体示例中，检测层特征包括待处理图像中各像素的类别信息；类别信息用于通过不同的信息标示相应的像素是否为文字类别。

文本框检测单元23，具体用于通过待处理图像中各像素的类别信息获取待处理图像中包括文字的文本框信息。

其中，文本框信息包括：文本框类别信息和文本框位置信息；文本框类别信息用于表示文本框中是否包含文字；文本框位置信息包括待处理图像中任一像素点到文本框中上下左右的距离和文本框的旋转角度。

在本发明检测识别装置上述各实施例的一个具体示例中，文本框检测单元23，包括：

文本框获得模块，用于基于待处理图像的类别信息将待处理图像的长和宽分别缩小到设定比例，根据像素位置关系将待处理图像分割为多个矩形框；基于矩形框内部各像素的类别信息均标示为文字信息的矩形框获得文本框；

信息获取模块，用于获得待处理图像中任一像素点距离文本框上下左右的距离信息和文本框的旋转角度信息；基于获得的文本框位置信息和文本框类别信息获取文本框信息。

本发明检测识别装置的另一实施例，在上述各实施例的基础上，文字识别单元24，包括：

特征提取模块，用于基于输出的文本框信息获得对应的文本框特征，将文本框特征与共享网络层输出的共享层特征进行特征融合；

文字预测模块，用于识别网络层基于融合后的特征预测文本框中的文字信息。

在本发明检测识别装置上述各实施例的一个具体示例中，特征提取模块，具体用于对文本框信息进行透视变换，从待处理图像分割出文本框，基于分割出的文本框生成对应的文本框特征。

在本发明检测识别装置上述各实施例的一个具体示例中，特征提取模块，包括：

缩放模块，用于根据文本框位置信息获得文本框的左上角坐标；保持文本框的高度和宽度的比例不变，对文本框进行缩放，使各文本框的高度一致；

变换模块，用于基于文本框的旋转角度、左上角坐标和缩放比例构建透视变换矩阵；

文本框分割模块，用于基于透视变换矩阵，从待处理图像中分割出文本框。

在本发明检测识别装置上述各实施例的一个具体示例中，文本框分割模块，具体用于对透视变换矩阵与待处理图像执行矩阵乘法操作，得到一个与待处理图像大小相同的分割图像，每个分割图像仅在左上角包括一个文本框。

图3为本发明检测识别网络的训练方法一个实施例的流程图。如图3所示，该实施例方法包括：

步骤301，将待处理图像输入检测识别网络。

其中，检测识别网络包括共享网络层、检测网络层和识别网络层；待处理图像标注有文本框信息和所有文本框中包括的文字信息；将待处理图像输入检测识别网络，可同时完成文字检测和文字识别两个训练任务，与分别对文字检测网络和文字识别网进行训练相比，相当于利用了更多的标注数据和信息，有效地缓解了过拟合现象，促进最终结果准确率的提升，同时进行文字识别不再需要文字检测和文字识别两个网络，提高了文字识别的效率和速度。

步骤302，经共享网络层输出第一共享层特征；将第一共享层特征和待处理图像标注的文本框信息输入识别网络层，经识别网络层预测文本框包括的文字信息；基于预测的文字信息和标注的文字信息训练共享网络层和识别网络层，直至满足第一训练完成条件。

对于检测识别网络，首先训练其中的共享网络层和识别网络层，此时，共享网络层和识别网络层看做一个网络；可将其中输入到识别网络层中的是共享网络层输出的共享层特征和待处理图像标注的文本框信息；共享层特征用于体现图像中以下特征的至少一个：小物体纹理特征、边缘特征、细节特征。

步骤303，将待处理图像输入训练后的共享网络层，经训练后的共享网络层输出第二共享层特征；将第二共享层特征输入检测网络层，经检测网络层预测待处理图像的检测层特征，基于检测层特征获得待处理图像中包括文字的文本框信息；基于预测的文本框信息和标注的文本框信息训练检测网络层，直至满足第二训练完成条件。

基于本发明上述实施例提供的一种检测识别网络的训练方法，首先通过待处理图像训练共享网络层和识别网络层，将待处理图像输入训练好的共享网络层和未训练的检测网络层，获得预测文本框信息，基于预测的文本框信息和标注的文本框信息训练检测网络层；在训练检测网络层时，将共享网络层和检测分支层检测网络层作为一个网络，对这个网络进行训练，由于共享网络层已经训练好，因此，该过程就实现对检测分支层检测网络层的训练，训练好的共享网络层、识别分支层识别网络层和检测分支层检测网络层构成训练好的检测识别网络，得到的检测识别网络能同时实现文字的检测和识别，并且由于共享网络层的存在，减少重复的对图像的特征提取，轻化了网络结构，减少了时间和空间的复杂度，减小了模型体积。

在本发明检测识别网络的训练方法上述实施例的一个具体示例中，操作302基于预测的文字信息和标注的文字信息训练共享网络层和识别网络层，包括：

基于预测的文字信息和标注的文字信息之间的误差对共享网络层和识别网络层中的网络参数值进行调整；

在本实施例中，具体的根据误差对参数更新的过程可以包括：将预测文字信息和已知文字信息之间的误差作为最大误差；将最大误差通过梯度反向传播，计算共享网络层和识别网络层中每一层的误差；根据每一层的误差计算出每一层参数的梯度，根据梯度修正共享网络层和识别网络层中对应层的参数；计算优化参数后的共享网络层和识别网络层输出的预测文字信息与已知文字信息之间的误差，将该误差作为最大误差；

迭代执行将最大误差通过梯度反向传播，计算共享网络层和识别网络层中每一层的误差；根据每一层的误差计算出每一层参数的梯度，根据梯度修正共享网络层和识别网络层中对应层的参数，直到满足预设第一训练完成条件。

上述实施例中第一训练完成条件，包括：

预测的文字信息和标注的文字信息之间的误差小于第一预设值；或迭代预测次数大于或等于第一预设次数。

在网络训练中，对于网络训练的停止条件可以根据误差值进行判断，或根据迭代训练次数进行判断，或通过其他本领域技术人员认为可以停止训练的停止条件，本实施例仅用于方便本领域技术人员对本实施例方法的实现，不用于限制本实施例方法。

本发明检测识别网络的训练方法的另一个实施例，在上述各实施例的基础上，操作303中基于预测的文本框信息和标注的文本框信息训练检测网络层，包括：

基于预测的文本框信息和标注的文本框信息之间的误差对检测网络层的参数进行调整；

在本实施例中，对于检测网络层中的参数也可以通过反向梯度方法进行训练，具体训练过程可以包括：将预测文本框信息和已知文本框信息之间的误差作为最大误差；将最大误差通过梯度反向传播，计算检测网络层(由于共享网络层已训练好，此时共享网络层的参数不需要再训练)中每一层的误差；根据每一层的误差计算出每一层参数的梯度，根据梯度修正检测网络层中对应层的参数；计算优化参数后的检测网络层输出的预测文本框信息和已知文本框信息之间的误差，将该误差作为最大误差；

迭代执行将最大误差通过梯度反向传播，计算检测网络层中每一层的误差；根据每一层的误差计算出每一层参数的梯度，根据梯度修正检测网络层中对应层的参数，直到满足预设第二训练完成条件。

上述实施例中第二训练完成条件，包括：

预测的文本框信息和标注的文本框信息之间的误差小于第二预设值；或迭代预测次数大于或等于第二预设次数。

本发明检测识别网络的训练方法的又一个实施例，在上述各实施例的基础上，检测层特征包括待处理图像中各像素的类别信息；其中，类别信息用于通过不同的信息标示相应的像素是否为文字类别；可选地，类别信息具体可以通过0表示非文字类别和1表示文字类别，或通过1表示非文字类别和0表示文字类别。

操作303包括：

文本框信息包括：文本框类别信息和文本框位置信息；文本框类别信息用于表示文本框中是否包含文字；文本框位置信息包括待处理图像中任一像素点到文本框中上下左右的距离和文本框的旋转角度。在本实施例中，在通过样本图像待处理图像对检测识别网络进行训练之前，需要对样本图像待处理图像进行标注，通过对样本图像待处理图像中每个像素的类别进行标注，以确定文本框的位置，通常标注的类别包括文本和非文本(可以用1和0标注)，经过标注了文本和非文本，就可以确定包括文本的文本框对应的文本框信息。

在本发明检测识别网络的训练方法上述各实施例的一个具体示例中，通过待处理图像中各像素的类别信息获取待处理图像中包括文字的文本框信息，包括：

基于待处理图像的类别信息将待处理图像的长和宽分别缩小到设定比例，根据像素位置关系将待处理图像分割为多个矩形框；基于矩形框内部各像素的类别信息均标示为文字信息的矩形框获得文本框；

通过本实施例的设置，将待处理图像标注为仅包括1和0的图像(类别信息通过1表示文字类别、0表示非文字类别，或通过1表示非文字类别、0表示文字类别)，而在网络分类过程中，有可能存在位置不准确的问题，此时，将文本框的长和宽分别缩小到设定比例(如：长和宽缩小为原来的0.6倍)，缩小了文本框的尺寸可以减小文本位置不准确对算法的影响；而确定文本框的位置信息是通过找到文本框的最小外接矩形，通过该外接矩形就可以获得文本框中各像素距离该文本框上下左右的距离信息，文本框的角度信息则是基于该最小外接矩形与正向放置的矩形的旋转角度。

本发明检测识别网络的训练方法的还一个实施例，在上述各实施例的基础上，操作302，包括：

基于待处理图像标注的文本框信息获得对应的文本框特征，将文本框特征与共享网络层输出的第一共享层特征进行特征融合；

识别网络层基于融合后的特征预测文本框中的文字信息。

在本发明检测识别网络的训练方法上述各实施例的一个具体示例中，基于待处理图像标注的文本框信息获得对应的文本框特征，包括：

对标注的文本框信息进行透视变换，从待处理图像分割出文本框，基于分割出的文本框生成对应的文本框特征。

t_x＝l-x₀

t_y＝t-y₀

scale＝dat_h/(t+b)

dat_ω＝scale×(l+r)

在本发明检测识别网络的训练方法上述各实施例的一个具体示例中，从待处理图像分割出文本框，包括：

根据文本框位置信息获得文本框的左上角坐标；

基于透视变换矩阵，从待处理图像中分割出所述文本框。

在本发明检测识别网络的训练方法上述各实施例的一个具体示例中，基于透视变换矩阵，从待处理图像中分割出文本框，包括：

图4为本发明检测识别网络的训练装置一个实施例的结构示意图。该实施例的装置可用于实现本发明上述各方法实施例。如图4所示，该实施例的装置包括：

图像输入单元41，用于将待处理图像输入检测识别网络。

其中，检测识别网络包括共享网络层、检测网络层和识别网络层；待处理图像标注有文本框信息和文本框中包括的文字信息。

第一训练单元42，用于经共享网络层输出第一共享层特征；将第一共享层特征和待处理图像标注的文本框信息输入识别网络层，经识别网络层预测文本框包括的文字信息；基于预测的文字信息和标注的文字信息训练共享网络层和所述识别网络层，直至满足第一训练完成条件。

第二训练单元43，用于将待处理图像输入训练后的共享网络层，经训练后的共享网络层输出第二共享层特征；将第二共享层特征输入检测网络层，经检测网络层预测待处理图像的检测层特征，基于检测层特征获得待处理图像中包括文字的文本框信息；基于预测的文本框信息和标注的文本框信息训练检测网络层，直至满足第二训练完成条件。

基于本发明上述实施例提供的一种检测识别网络的训练装置，首先通过待处理图像训练共享网络层和识别网络层，将待处理图像输入训练好的共享网络层和未训练的检测网络层，获得预测文本框信息，基于预测的文本框信息和标注的文本框信息训练检测网络层；在训练检测网络层时，将共享网络层和检测分支层检测网络层作为一个网络，对这个网络进行训练，由于共享网络层已经训练好，因此，该过程就实现对检测分支层检测网络层的训练，训练好的共享网络层、识别分支层识别网络层和检测分支层检测网络层构成训练好的检测识别网络，得到的检测识别网络能同时实现文字的检测和识别，并且由于共享网络层的存在，减少重复的对图像的特征提取，轻化了网络结构，减少了时间和空间的复杂度，减小了模型体积。

在本发明检测识别网络的训练装置上述实施例的一个具体示例中，第一训练单元，具体用于基于预测的文字信息和标注的文字信息之间的误差对共享网络层和识别网络层中的网络参数值进行调整；迭代执行通过调整参数后的共享网络层和识别网络层对待处理图像进行识别获得预测的文字信息，直至满足第一训练完成条件。

上述实施例中满足的预设第一训练完成条件，包括：

本发明检测识别网络的训练装置的另一个实施例，在上述各实施例的基础上，第二训练单元，具体用于基于预测的文本框信息和标注的文本框信息之间的误差对检测网络层的参数进行调整；迭代执行通过调整参数后的检测网络层对待处理图像进行检测获得预测的文本框信息，直至满足预设第二训练完成条件。

迭代执行将最大误差通过梯度反向传播，计算检测网络层中每一层的误差；根据每一层的误差计算出每一层参数的梯度，根据梯度修正检测网络层中对应层的参数，直到满足第二训练完成条件。

上述实施例中满足的预设第二训练完成条件，包括：

本发明检测识别网络的训练装置的又一个实施例，在上述各实施例的基础上，

检测层特征包括待处理图像中各像素的类别信息；类别信息用于通过不同的信息标示相应的像素是否为文字类别；

第二训练单元43，具体用于通过待处理图像中各像素的类别信息获取待处理图像中包括文字的文本框信息。

文本框信息包括：文本框类别信息和文本框位置信息；文本框类别信息用于表示文本框中是否包含文字；文本框位置信息包括待处理图像中任一像素点到文本框中上下左右的距离和文本框的旋转角度。在本实施例中，在通过待处理图像对检测识别网络进行训练之前，需要对待处理图像进行标注，通过对待处理图像中每个像素的类别进行标注，以确定文本框的位置，通常标注的类别包括文本和非文本(可以用1和0标注)，经过标注了文本和非文本，就可以确定包括文本的文本框对应的文本框信息。

在本发明检测识别网络的训练装置上述各实施例的一个具体示例中，

第二训练单元，包括：

本发明检测识别网络的训练装置的还一个实施例，在上述各实施例的基础上，第一训练单元42，包括：

特征提取模块，用于基于待处理图像标注的文本框信息获得对应的文本框特征，将文本框特征与共享网络层输出的第一共享层特征进行特征融合；

文件预测模块，用于识别网络层基于融合后的特征预测文本框中的文字信息。

在本发明检测识别网络的训练装置上述各实施例的一个具体示例中，特征提取模块，具体用于对标注的文本框信息进行透视变换，从待处理图像分割出文本框，基于分割出的文本框生成对应的文本框特征。

在本发明检测识别网络的训练装置上述各实施例的一个具体示例中，特征提取模块，包括：

在本发明检测识别网络的训练装置上述各实施例的一个具体示例中，文本框分割模块，具体用于对透视变换矩阵与待处理图像执行矩阵乘法操作，得到一个与待处理图像大小相同的分割图像，每个分割图像仅在左上角包括一个文本框。

根据本发明实施例的一个方面，提供的一种电子设备，包括处理器，处理器包括本发明上述任一实施例的检测识别装置或检测识别网络的训练装置。

根据本发明实施例的一个方面，提供的一种电子设备，包括：存储器，用于存储可执行指令；

以及处理器，用于与存储器通信以执行可执行指令从而完成本发明上述任一实施例检测识别方法或检测识别网络的训练方法的操作。

根据本发明实施例的一个方面，提供的一种计算机存储介质，用于存储计算机可读取的指令，所述指令被执行时执行本发明上述任一实施例检测识别方法或检测识别网络的训练方法的操作。

本发明实施例还提供了一种电子设备，例如可以是移动终端、个人计算机(PC)、平板电脑、服务器等。下面参考图5，其示出了适于用来实现本申请实施例的终端设备或服务器的电子设备500的结构示意图：如图5所示，计算机***500包括一个或多个处理器、通信部等，所述一个或多个处理器例如：一个或多个中央处理单元(CPU)501，和/或一个或多个图像处理器(GPU)513等，处理器可以根据存储在只读存储器(ROM)502中的可执行指令或者从存储部分508加载到随机访问存储器(RAM)503中的可执行指令而执行各种适当的动作和处理。通信部512可包括但不限于网卡，所述网卡可包括但不限于IB(Infiniband)网卡。

处理器可与只读存储器502和/或随机访问存储器530中通信以执行可执行指令，通过总线504与通信部512相连、并经通信部512与其他目标设备通信，从而完成本申请实施例提供的任一项方法对应的操作，例如，将待处理图像输入检测识别网络；经共享网络层输出待处理图像的共享层特征；将共享层特征输入检测网络层，经检测网络层输出待处理图像的检测层特征，基于检测层特征获得待处理图像中包括文字的文本框信息；将共享层特征和文本框信息输入识别网络层，经识别网络层输出文本框中的文字内容。

此外，在RAM 503中，还可存储有装置操作所需的各种程序和数据。CPU501、ROM502以及RAM503通过总线504彼此相连。在有RAM503的情况下，ROM502为可选模块。RAM503存储可执行指令，或在运行时向ROM502中写入可执行指令，可执行指令使处理器501执行上述通信方法对应的操作。输入/输出(I/O)接口505也连接至总线504。通信部512可以集成设置，也可以设置为具有多个子模块(例如多个IB网卡)，并在总线链接上。

以下部件连接至I/O接口505：包括键盘、鼠标等的输入部分506；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分507；包括硬盘等的存储部分508；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分509。通信部分509经由诸如因特网的网络执行通信处理。驱动器510也根据需要连接至I/O接口505。可拆卸介质511，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器510上，以便于从其上读出的计算机程序根据需要被安装入存储部分508。

需要说明的，如图5所示的架构仅为一种可选实现方式，在具体实践过程中，可根据实际需要对上述图5的部件数量和类型进行选择、删减、增加或替换；在不同功能部件设置上，也可采用分离设置或集成设置等实现方式，例如GPU和CPU可分离设置或者可将GPU集成在CPU上，通信部可分离设置，也可集成设置在CPU或GPU上，等等。这些可替换的实施方式均落入本发明公开的保护范围。

特别地，根据本公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括有形地包含在机器可读介质上的计算机程序，计算机程序包含用于执行流程图所示的方法的程序代码，程序代码可包括对应执行本申请实施例提供的方法步骤对应的指令，例如，将待处理图像输入检测识别网络；经共享网络层输出待处理图像的共享层特征；将共享层特征输入检测网络层，经检测网络输出层待处理图像的检测层特征，基于检测层特征获得待处理图像中包括文字的文本框信息；将共享层特征和文本框信息输入识别网络层，经识别网络层输出文本框中的文字内容。在这样的实施例中，该计算机程序可以通过通信部分509从网络上被下载和安装，和/或从可拆卸介质511被安装。在该计算机程序被中央处理单元(CPU)501执行时，执行本申请的方法中限定的上述功能。

可能以许多方式来实现本发明的方法和装置、设备。例如，可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本发明的方法和装置、设备。用于方法的步骤的上述顺序仅是为了进行说明，本发明的方法的步骤不限于以上具体描述的顺序，除非以其它方式特别说明。此外，在一些实施例中，还可将本发明实施为记录在记录介质中的程序，这些程序包括用于实现根据本发明的方法的机器可读指令。因而，本发明还覆盖存储用于执行根据本发明的方法的程序的记录介质。

本发明的描述是为了示例和描述起见而给出的，而并不是无遗漏的或者将本发明限于所公开的形式。很多修改和变化对于本领域的普通技术人员而言是显然的。选择和描述实施例是为了更好说明本发明的原理和实际应用，并且使本领域的普通技术人员能够理解本发明从而设计适于特定用途的带有各种修改的各种实施例。

Claims

1.一种检测识别方法，其特征在于，包括：

经所述共享网络层输出所述待处理图像的共享层特征；所述共享层特征用于体现图像中以下特征的至少一个：小物体纹理特征、边缘特征、细节特征；

所述识别网络层基于融合后的特征预测文本框中的文字信息。

2.根据权利要求1所述的方法，其特征在于，所述检测层特征包括所述待处理图像中各像素的类别信息；所述类别信息用于通过不同的信息标示相应的像素是否为文字类别；

3.根据权利要求2所述的方法，其特征在于，所述通过所述待处理图像中各像素的类别信息获取所述待处理图像中包括文字的文本框信息，包括：

4.根据权利要求1-3任一所述的方法，其特征在于，所述基于所述输出的文本框信息获得对应的文本框特征，包括：

5.根据权利要求4所述的方法，其特征在于，所述从待处理图像分割出文本框，包括：

根据文本框位置信息获得所述文本框的左上角坐标；

6.根据权利要求5所述的方法，其特征在于，所述基于所述透视变换矩阵，从所述待处理图像中分割出所述文本框，包括：

7.一种检测识别网络的训练方法，其特征在于，包括：

经所述共享网络层输出第一共享层特征；将所述第一共享层特征和所述待处理图像标注的文本框信息输入所述识别网络层，经所述识别网络层预测所述文本框包括的文字信息；基于预测的文字信息和标注的文字信息训练所述共享网络层和所述识别网络层，直至满足第一训练完成条件，所述共享层特征用于体现图像中以下特征的至少一个：小物体纹理特征、边缘特征、细节特征；

经所述识别网络层预测所述文本框中包括的文字信息，包括：

所述识别网络层基于融合后的特征预测所述文本框中的文字信息；

8.根据权利要求7所述的方法，其特征在于，基于预测的文字信息和标注的文字信息训练所述共享网络层和所述识别网络层，直至满足第一训练完成条件，包括：

9.根据权利要求8所述的方法，其特征在于，所述第一训练完成条件，包括：

10.根据权利要求7-9任一所述的方法，其特征在于，所述基于预测的文本框信息和标注的文本框信息训练所述检测网络层，直至满足第二训练完成条件，包括：

11.根据权利要求10所述的方法，其特征在于，所述第二训练完成条件，包括：

12.根据权利要求7-9任一所述的方法，其特征在于，所述检测层特征包括所述待处理图像中各像素的类别信息；所述类别信息用于通过不同的信息标示相应的像素是否为文字类别；

13.根据权利要求12所述的方法，其特征在于，所述通过所述待处理图像中各像素的类别信息获取所述待处理图像中包括文字的文本框信息，包括：

14.根据权利要求7-9任一所述的方法，其特征在于，基于所述待处理图像标注的文本框信息获得对应的文本框特征，包括：

15.根据权利要求14所述的方法，其特征在于，从所述待处理图像分割出文本框，包括：

根据文本框位置信息获得所述文本框的左上角坐标；

16.根据权利要求15所述的方法，其特征在于，基于所述透视变换矩阵，从所述待处理图像中分割出所述文本框，包括：

17.一种检测识别装置，其特征在于，包括：

低层提取单元，用于经所述共享网络层输出所述待处理图像的共享层特征，所述共享层特征用于体现图像中以下特征的至少一个：小物体纹理特征、边缘特征、细节特征；

文字识别单元，用于将所述共享层特征和文本框信息输入所述识别网络层，经所述识别网络层输出文本框中的文字内容；

所述文字识别单元，包括：

文字预测模块，用于所述识别网络层基于融合后的特征预测文本框中的文字信息。

18.根据权利要求17所述的装置，其特征在于，所述检测层特征包括所述待处理图像中各像素的类别信息；所述类别信息用于通过不同的信息标示相应的像素是否为文字类别；

19.根据权利要求18所述的装置，其特征在于，所述文本框检测单元，包括：

20.根据权利要求17-19 任一所述的装置，其特征在于，所述特征提取模块，具体用于对所述文本框信息进行透视变换，从待处理图像分割出文本框，基于所述分割出的文本框生成对应的文本框特征。

21.根据权利要求20所述的装置，其特征在于，所述特征提取模块，包括：

22.根据权利要求21所述的装置，其特征在于，所述文本框分割模块，具体用于对所述透视变换矩阵与所述待处理图像执行矩阵乘法操作，得到一个与所述待处理图像大小相同的分割图像，每个所述分割图像仅在左上角包括一个文本框。

23.一种检测识别网络的训练装置，其特征在于，包括：

第一训练单元，用于经所述共享网络层输出第一共享层特征；将所述第一共享层特征和所述待处理图像标注的文本框信息输入所述识别网络层，经所述识别网络层预测所述文本框包括的文字信息；基于预测的文字信息和标注的文字信息训练所述共享网络层和所述识别网络层，直至满足第一训练完成条件，所述共享层特征用于体现图像中以下特征的至少一个：小物体纹理特征、边缘特征、细节特征；

所述第一训练单元，包括：

文件预测模块，用于所述识别网络层基于融合后的特征预测所述文本框中的文字信息；

24.根据权利要求23所述的装置，其特征在于，所述第一训练单元，具体用于基于预测的文字信息和标注的文字信息之间的误差对所述共享网络层和识别网络层中的网络参数值进行调整；迭代执行通过调整参数后的共享网络层和识别网络层对待处理图像进行识别获得预测的文字信息，直至满足第一训练完成条件。

25.根据权利要求24所述的装置，其特征在于，所述第一训练完成条件，包括：

26.根据权利要求23-25任一所述的装置，其特征在于，所述第二训练单元，具体用于基于预测的文本框信息和标注的文本框信息之间的误差对所述检测网络层的参数进行调整；迭代执行通过调整参数后的检测网络层对待处理图像进行检测获得预测的文本框信息，直至满足第二训练完成条件。

27.根据权利要求26所述的装置，其特征在于，所述第二训练完成条件，包括：

28.根据权利要求23-25任一所述的装置，其特征在于，所述检测层特征包括所述待处理图像中各像素的类别信息；所述类别信息用于通过不同的信息标示相应的像素是否为文字类别；

29.根据权利要求28所述的装置，其特征在于，所述第二训练单元，包括：

30.根据权利要求23-25任一所述的装置，其特征在于，所述特征提取模块，具体用于对所述标注的文本框信息进行透视变换，从所述待处理图像分割出文本框，基于所述分割出的文本框生成对应的文本框特征。

31.根据权利要求30所述的装置，其特征在于，所述特征提取模块，包括：

32.根据权利要求31所述的装置，其特征在于，所述文本框分割模块，具体用于对所述透视变换矩阵与所述待处理图像执行矩阵乘法操作，得到一个与所述待处理图像大小相同的分割图像，每个所述分割图像仅在左上角包括一个文本框。

33.一种电子设备，其特征在于，包括处理器，所述处理器包括权利要求17至22任意一项所述的检测识别装置或权利要求23至32任意一项所述的检测识别网络的训练装置。

34.一种电子设备，其特征在于，包括：存储器，用于存储可执行指令；

以及处理器，用于与所述存储器通信以执行所述可执行指令从而完成权利要求1至6任意一项所述检测识别方法或权利要求7至16任意一项所述的检测识别网络的训练方法的操作。

35.一种计算机存储介质，用于存储计算机可读取的指令，其特征在于，所述指令被执行时执行权利要求1至6任意一项所述检测识别方法或权利要求7至16任意一项所述的检测识别网络的训练方法的操作。