CN111950353A

CN111950353A - ***文本识别方法、装置及电子设备

Info

Publication number: CN111950353A
Application number: CN202010619489.6A
Authority: CN
Inventors: 高亚南
Original assignee: Shenzhen Emperor Technology Co Ltd
Current assignee: Shenzhen Emperor Technology Co Ltd
Priority date: 2020-06-30
Filing date: 2020-06-30
Publication date: 2020-11-17
Anticipated expiration: 2040-06-30
Also published as: CN111950353B

Abstract

本公开实施例提供一种***文本识别方法、装置及电子设备，属于图像处理技术领域。其中方法包括：接收待识别的***图片；获取所述***图片中所包含的目标***的文本框的位点参数，其中，所述位点参数至少包括所述文本框的顶点坐标；根据所述文本框的位点参数，提取所述***图片中所述目标***的文本框对应的特征图层；将所述特征图层旋转调整至标准位姿；对所述特征图层内的文本信息进行文本识别。这样，先获取文本框的位点参数再以此来将对应的特征图层旋转调整至标准位姿，可以极大程度地提高***中文本识别的准确率，且能够针对不同角度、方向的文本框进行准确、快速识别。

Description

***文本识别方法、装置及电子设备

技术领域

本公开涉及图像处理技术领域，尤其涉及一种***文本识别方法、装置及电子设备。

背景技术

现有技术大多是针对***中***文本的识别方案，主要是结构化识别各类卡片证照，诸如：身份证、银行卡、驾驶证、行驶证、护照、签证、不动产证。在文本识别过程中，要识别的元素的位置固定，只需要进行模板匹配来定位元素位置，通过每行切片，再进行文本识别，而护照等其他***可能存在各种旋转角度，而且种类比较多等导致文本不容易定位的情况，进而导致文本识别的准确率较低。

可见，现有的***文本识别方案存在无法满足***文本识别的准确率较低、适应性较差的技术问题。

发明内容

有鉴于此，本公开实施例提供一种***文本识别方法、装置及电子设备，至少部分解决现有技术中存在的问题。

第一方面，本公开实施例提供了一种***文本识别方法，包括：

接收待识别的***图片；

获取所述***图片中所包含的目标***的文本框的位点参数，其中，所述位点参数至少包括所述文本框的顶点坐标；

根据所述文本框的位点参数，提取所述***图片中所述目标***的文本框对应的特征图层；

将所述特征图层旋转调整至标准位姿；

对所述特征图层内的文本信息进行文本识别。

根据本公开实施例的一种具体实现方式，所述对所述特征图层内的文本信息进行文本识别的步骤，包括：

提取所述特征图层内对应所述文本信息的目标特征序列；

将所述目标特征序列输入长短期记忆网络结构中进行特征匹配；

通过时序分类损失函数识别文本信息。

根据本公开实施例的一种具体实现方式，所述根据所述文本框的位点参数，提取所述***图片中所述目标***的文本框对应的特征图层的步骤，包括：

根据所述文本框的顶点坐标进行仿射变换；

获取所述***图片的预设图层中所述文本框位置对应的像素特征，其中，所述预设图层为所述输出层前一层特征所在的图层。

根据本公开实施例的一种具体实现方式，所述位点参数至少包括所述文本框的顶点坐标和偏转夹角；

所述将所述特征图层旋转调整至标准位姿的步骤，包括：

根据所述文本框的顶点坐标，确定所述特征图层与参考水平轴之间的偏转角；

根据所述偏转角，将所述特征图层的全部像素旋转调整至与所述参考水平轴齐平。

根据本公开实施例的一种具体实现方式，所述根据所述偏转角，将所述特征图层的全部像素旋转调整至与所述参考水平轴齐平的步骤，包括：

提取所述特征图层的日期框；

确定所述日期框与所述参考水平轴之间的偏转角；

根据所述偏转角，将包含所述日期框的整体特征图层的全部像素区域调整至与所述参考水平轴齐平。

根据本公开实施例的一种具体实现方式，所述接收待识别的***图片的步骤，包括：

接收初始图片，其中，所述初始图片包括至少一个目标***所在的像素区域；

将所述初始图片输出***检测模型，检测出所述初始图片中包含的每一个目标***所在像素区域；

根据每一个目标***所在像素区域，生成包含一个所述目标***的所述***图片。

根据本公开实施例的一种具体实现方式，所述位点参数至少包括所述文本框的顶点像素、头尾像素和边界像素；

所述获取所述***图片中所包含的目标***的文本框的位点参数的步骤，包括：

将所述***图片输入文本框定位模型，其中，所述文本框定位模型包括第一卷积块、第二卷积块和第三卷积块；

通过所述第一卷积块、第二卷积块和第三卷积块之间自顶向下进行的多层特征融合作用，得到第一输出分支、第二输出分支和第三输出分支；

根据所述第一输出分支识别所述***图片中位于所述文本框的边界框内的边界像素，根据所述第二输出分支识别位于所述文本框的头部和/或尾部的头尾像素，以及，根据所述第三输出分支识别位于所述文本框的顶点位置的顶点像素。

根据本公开实施例的一种具体实现方式，所述***图片为正方形图片，所述***图片的单边尺寸范围为256至400，所述第一卷积块的通道数为32，第二卷积块的通道数为64，第三卷积块的通道数为128；

所述通过所述第一卷积块、第二卷积块和第三卷积块之间自顶向下进行的多层特征融合作用，得到第一输出分支、第二输出分支和第三输出分支的步骤，包括：

通过所述第一卷积块对所述***图片进行卷积处理，得到维度为128*128*32的第一特征图；

通过所述第二卷积块对所述第一特征图进行卷积处理，得到维度为64*64*64的第二特征图；

通过所述第三卷积块对所述第二特征图进行卷积处理，得到维度为32*32*128的第三特征图；

将所述第三特征图进行上采样处理，得到维度为64*64*128的第四特征图；

将所述第四特征图和所述第二特征图进行通道合并，得到维度为64*64*192的第五特征图；

依次通过包含32个1*1滤波器的卷积层、32个3*3滤波器的卷积层以及32个3*3的卷积层对所述第五特征图进行卷积处理，得到所述第一输出分支、所述第二输出分支和所述第三输出分支。

第二方面，本公开实施例提供了一种***文本识别装置，包括：

接收模块，用于接收待识别的***图片；

获取模块，用于获取所述***图片中所包含的目标***的文本框的位点参数，其中，所述位点参数至少包括所述文本框的顶点坐标；

提取模块，用于根据所述文本框的位点参数，提取所述***图片中所述目标***的文本框对应的特征图层；

旋转模块，用于将所述特征图层旋转调整至标准位姿；

识别模块，用于对所述特征图层内的文本信息进行文本识别。

第三方面，本公开实施例还提供了一种电子设备，该电子设备包括：

至少一个处理器；以及，

与该至少一个处理器通信连接的存储器；其中，

该存储器存储有可被该至少一个处理器执行的指令，该指令被该至少一个处理器执行，以使该至少一个处理器能够执行前述第一方面或第一方面的任一实现方式中的***文本识别方法。

第四方面，本公开实施例还提供了一种非暂态计算机可读存储介质，该非暂态计算机可读存储介质存储计算机指令，该计算机指令用于使该计算机执行前述第一方面或第一方面的任一实现方式中的***文本识别方法。

第五方面，本公开实施例还提供了一种计算机程序产品，该计算机程序产品包括存储在非暂态计算机可读存储介质上的计算程序，该计算机程序包括程序指令，当该程序指令被计算机执行时，使该计算机执行前述第一方面或第一方面的任一实现方式中的***文本识别方法。

本公开实施例中的***文本识别方案，针对所接收的待识别的***图片，先通过获取文本框的位点参数来定位所述目标***的文本框，再根据所述文本框的位点参数，将所述文本框对应的特征图层旋转调整至标准位姿，之后再对所述特征图层内的文本信息进行文本识别。这样，先获取文本框的位点参数再以此来将对应的特征图层旋转调整至标准位姿，可以极大程度地提高***中文本识别的准确率，且能够针对不同角度、方向的文本框进行准确、快速识别。

附图说明

为了更清楚地说明本公开实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1为本公开实施例提供的一种***文本识别方法的流程示意图；

图2和图3为本公开实施例提供的***文本识别方法的各具体实施方式的流程示意图；

图4为本公开实施例提供的另一种***文本识别方法的部分流程示意图；

图5为本公开实施例提供的***识别方法所涉及的文本框定位模型的示意图；

图6为本公开实施例提供的一种***文本识别装置的结构示意图；

图7为本公开实施例提供的电子设备的示意图。

具体实施方式

下面结合附图对本公开实施例进行详细描述。

以下通过特定的具体实例说明本公开的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本公开的其他优点与功效。显然，所描述的实施例仅仅是本公开一部分实施例，而不是全部的实施例。本公开还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本公开的精神下进行各种修饰或改变。需说明的是，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。基于本公开中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本公开保护的范围。

需要说明的是，下文描述在所附权利要求书的范围内的实施例的各种方面。应显而易见，本文中所描述的方面可体现于广泛多种形式中，且本文中所描述的任何特定结构及/或功能仅为说明性的。基于本公开，所属领域的技术人员应了解，本文中所描述的一个方面可与任何其它方面独立地实施，且可以各种方式组合这些方面中的两者或两者以上。举例来说，可使用本文中所阐述的任何数目个方面来实施设备及/或实践方法。另外，可使用除了本文中所阐述的方面中的一或多者之外的其它结构及/或功能性实施此设备及/或实践此方法。

还需要说明的是，以下实施例中所提供的图示仅以示意方式说明本公开的基本构想，图式中仅显示与本公开中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制，其实际实施时各组件的型态、数量及比例可为一种随意的改变，且其组件布局型态也可能更为复杂。

另外，在以下描述中，提供具体细节是为了便于透彻理解实例。然而，所属领域的技术人员将理解，可在没有这些特定细节的情况下实践所述方面。

本公开实施例提供一种***文本识别方法。本实施例提供的***文本识别方法可以由一计算装置来执行，该计算装置可以实现为软件，或者实现为软件和硬件的组合，该计算装置可以集成设置在服务器、终端设备等中。

参见图1，为本公开实施例提供的一种***文本识别方法的流程示意图。如图1所示，所述方法主要包括以下步骤：

S101，接收待识别的***图片；

本实施例提供的***文本识别方法，应用于护照、***等对应图片上的***文本识别场景，尤其是针对护照页上***种类、盖章位置和盖章角度多样等导致的***文本识别难度较大的场景。本实施例提供的***文本识别方法，主要用于在待识别的***图片中识别文本信息，以此来采集或者统计***中的参数信息。

所提供的***文本识别应用于电子设备，电子设备外接或者内置图像采集装置，这样，电子设备可以预先通过图像采集装置获取待识别的***图片，然后利用所提供的方法在所采集的***图片中进行文本识别操作。在具体实施时，可以在用户持护照进行身份验证的通道前设置图像采集装置，用户将护照内待识别的***所在页贴合到图像采集装置的图像采集端口，电子设备获取图像采集装置采集的护照页图片，作为后续***文本识别中所依据的待识别的***图片。

本实施例中的***图片，主要是针对图片上一个***内的文本框进行文本识别，优选待识别的***图片为仅包含一个***所在的像素区域的***切片，此类***图片仅包含当前待进行文本识别的***像素，不包含其他的***像素或者干扰像素，文本识别的计算量较少，准确度更高。

针对所接收的初始图片中包含多个***像素或者包含其他干扰像素的情况，可以先通过实例分割算法获取初始图片中的每个***的轮廓位置信息，再结合轮廓位置信息获得每个***对应的***图片，将单个***图片作为***文本识别流程的输入图片。

此处所涉及的实力分割算法，是指电子设备自动从图片中用目标检测方法框出不同实例区域，再用语义分割方法在不同实例区域内进行逐像素标记。本实施例所采用的实例分割算法可以包括Mask-RCNN算法、YOACT算法、级联Mask-RCNN算法等方法。依据上述步骤获取待识别图片中每个***的轮廓位置信息后，即可提取每个***的轮廓位置信息所指向的像素特征，以得到该***对应的***切片。这样，每个***对应的***切片内仅包含该***对应的像素特征，不包含其他可能会影响文本识别的干扰像素。

S102，获取所述***图片中所包含的目标***的文本框的位点参数，其中，所述位点参数至少包括所述文本框的顶点坐标；

在进行文本识别时，需要先定位出***图片中的文本框，这就需要先获取所含目标***的文本框的位点参数。例如文本框的顶点像素、头尾像素或者边界像素等特定像素对应的坐标数据。如图2和图3所示，顶点像素(如图2中所示的A)可以为***的顶点位置对应的像素，例如矩形***的四个顶点像素，头尾像素(如图2中所示的B)可以为***的头部位置或者尾部位置对应的像素，边界像素(如图2中所示的C)则可以为文本框内的边缘区域的像素。

电子设备内还可以预先加载训练好的文本框定位模型，该文本框定位模型能够对输入的***图片进行像素特征提取和融合，以获得输入的***图片中文本框内各类特定像素的位点参数。将所述***图片输入电子设备内的文本框定位模型，通过该文本框定位模型的特征提取和算法匹配，即可快速获取该***图片中文本框的各类位点参数。

S103，根据所述文本框的位点参数，提取所述***图片中所述目标***的文本框对应的特征图层；

依据上述步骤获取文本框的位点参数后，即可依据文本框中的顶点像素、头尾像素或者边界像素等各类特定位点的参数来快速定位文本框，进而提取该文本框对应的特征图层。如图3所示，头或尾边界像素分别可以预测2个顶点坐标。***图片中的所有特征像素构成了文本框的特征图层，利用边界像素去预测顶点坐标。边界像素定义为两端深色框内部所有像素，是用所有的边界像素预测值的加权平均来预测头或尾的短边两端的两个顶点。头和尾部分边界像素分别预测2个顶点，最后得到4个顶点坐标。

在一种具体实施方式中，所述根据所述文本框的位点参数，在所述***图片中定位所述文本框的步骤，可以包括：

根据所述顶点像素确定所述文本框的初始像素区域；

根据所述头尾像素矫正所述初始像素区域至标准位姿；

根据所述边缘像素，在矫正至所述标准位姿后的所述初始像素区域中标记所述文本框。

根据文本框的顶点像素，可以生成文本框对应的最小外接图框，例如最小外接矩形框，则位于该最小外接矩形框内的像素区域均为文本框的初始像素区域。接着，根据文本框的头尾像素来矫正初始像素区域，以使所述初始像素区域至标准位姿，通常设置标准位姿为与水平轴夹角为0度。最后，从矫正后的初始像素区域中筛选出边缘像素，则初始像素区域内的其他像素区域即为文本框。这样，即可快速从***图片中定位出文本信息所在像素对应的文本框。

确定文本框的位置之后，从图片中提取文本框对应的全部像素特征，获取包含全部像素特征的特征图层，后续的文本识别流程即针对该特征图层进行相应操作。

S104，将所述特征图层旋转调整至标准位姿；

考虑到盖章时可能存在多种盖章角度，相应的，***图片上的目标***的文本框可能存在多种方向。为提高文本识别的准确度，先根据文本框的位点参数，将文本框对应的特征图层旋转调整至标准位姿。例如，可以采用感兴趣区域旋转(Region Of InterestRotate，简称ROI Rotate)旋转矫正操作，将所获取的感兴趣区域对应的特征图层旋转调整。

根据本公开实施例的一种具体实现方式，所述位点参数可以至少包括所述文本框的顶点坐标和偏转夹角；

上述旋转调整步骤可以包括：

进一步的，所述根据所述偏转角，将所述特征图层的全部像素旋转调整至与所述参考水平轴齐平的步骤，包括：

提取所述特征图层内的日期框；

确定所述日期框与所述参考水平轴之间的偏转角；

通过ROI Rotate旋转矫正操作，将任意方向的特征图旋转至水平方向。通过ROIRotate旋转矫正操作主要是根据日期的文本框进行，即调整日期文本框长边与水平轴夹角为0时实现整个***的旋转。

具体的，将4个顶点对应的图5中“3x3，32”的特征图的感兴趣区域记做ROI，再把ROI旋转至水平方向，旋转至水平方向的ROI，得到各个文本的特征序列，其中ROI四个顶点是有顺序的，可以区分0度和180度，再将各个文本的特征序列，输入到LSTM中。其中，4个顶点对应一个ROI，对应一个文本框，对应一个文本实例的特征序列。

S105，对所述特征图层内的文本信息进行文本识别。

在***图片中定位出文本框并将对应的特征图层调整至标准位姿之后，即可针对特征图层内的文本信息进行文本识别。文本识别的方式可以有多种，例如，可以根据光学字符识别方法(Optical Character Recognition，简称OCR)。

根据本公开实施例的一种具体实现方式，如图4所示，文本识别的步骤，可以包括：

S401，提取所述特征图层内对应文本信息的目标特征序列；

特征图层对应着文本框位置的前一层像素特征，则文本框内文本信息的限速特征则为特征图层内的部分特征序列，提取特征图层内对应文本信息的目标特征序列，所述目标特征序列高度固定，宽度可变，文本信息主要有出入境日期、国家、机场等信息。

可选的，所述提取所述特征图层内对应文本信息的目标特征序列的步骤，包括：

根据所述文本框的顶点坐标进行仿射变换；

获取所述***图片的预设图层中对应所述文本框位置对应的像素特征，其中，所述预设图层为所述***图片的前一层特征所在的图层。

根据输出层文本框4个顶点位置进行仿射变换获取文本框位置对应前一层特征图的位置，然后进行之前同样的操作即：通过ROI Rotate旋转矫正操作，将任意方向的特征图上的文本框旋转至水平方向。

S402，将所述目标特征序列输入长短期记忆网络结构中进行特征匹配；

S403，通过时序分类损失函数识别文本信息。

电子设备内还加载有长短期记忆网络(Long Short-Term Memory，简称LSTM)中，将特征性序列输入LSTM，通过(Connectionist Temporal Classification，简称CTC)损失函数，进行文本识别，实现端到端的文本识别，提升***文本识别速度。

当然，在其他实施方式中，还可以其他图像文本信息的识别方法来快速、准确地采集或者识别***图片中的文本信息。

上述本公开实施例中的***文本识别方法，针对所接收的待识别的***图片，先通过获取文本框的位点参数来提取所述目标***对应的特征图层，再根据所述文本框的位点参数，将特征图层旋转调整至标准位姿，之后再对所述文本框内的文本信息进行文本识别。这样，先准确定位文本框并将之旋转调整至标准位姿，可以极大程度地提高***中文本识别的准确率，且能够针对不同角度、方向的文本框进行准确、快速识别。

在上述实施例的基础上，根据本公开实施例的一种具体实现方式，所述位点参数至少包括所述文本框的顶点像素、头尾像素和边界像素；

上述步骤S103所述的，获取所述***图片中所包含的目标***的文本框的位点参数的步骤，可以包括：

如图5所示，所使用的文本框定位模型可以包括第一卷积块conv block1、第二卷积块conv block2和第三卷积块conv block3，其中conv block1、conv block2、convblock3是改进过的vgg16的卷积块，通道数分别为32、64、128，其中卷积块conv block1、conv block2、conv block3中滤波器的大小仍然是3x3。/2表示滤波器的步长为2，比如维度为256x256x3的图片image，其中256x256表示图片的长、宽，3表示图片的r、g、b的3个颜色通道。

具体实施时，所述***图片为正方形图片，所述***图片的单边尺寸范围为256至400，所述第一卷积块的通道数为32，第二卷积块的通道数为64，第三卷积块的通道数为128；

具体的，如图5所示，初始输入为单边尺寸范围为256至400的正方形图片，例如256*256，经过conv block1 32，/2中3x3的滤波器，其中32表示32个3x3滤波器，/2表示滤波器的步长为2，得到128x128x32特征图，其中128x128表示特征图的长、宽，32表示特征图的通道数，多少个滤波器就得到多少个通道数的特征图，再经过conv block2 64，/2中3x3的滤波器，得到64x64x64特征图，再经过conv block3 128，/2得到32x32x128特征图，32x32x128特征图经过上采样upsampling，得到64x64x128特征图，再与conv block2 64，/2得到的特征图64x64x64进行通道合并concat，得到64x64x192特征图，即自顶而下进行多层特征融合，再通过1x1，32即32个1x1的滤波器，得到64x64x32特征图，再通过3x3，32即32个3x3的滤波器，得到64x64x32特征图，再通过3x3,32得到64x64x32特征图，最终得到3个输出分支。

第一个输出分支1*1，1表示1个1x1的滤波器得到64x64x1的特征图，此特征图表示各像素是否在文本边界框内，是则为1，否则为0，第二个输出分支1x1，2表示2个1x1的滤波器得到64x64x2的特征图，此特征图表示各个像素是否属于文本框的头还是尾，64x64x2其中2表示特征图的通道数，第一个通道表示各个像素是否属于文本框的头部，若是，则为1，若否则为0，第二个通道表示各个像素是否属于文本框的尾部，若是，则为1，若否则为0，第三个输出分支1*1，4表示用4个1x1的滤波器得到64x64x4的特征图，4个通道的特征图，每个通道分别对应表示各个像素是否是4个顶点中的一个顶点，若是，则为1，若否则为0。

这样，即可快速准确地识别出***图片中文本框的顶点像素、边界像素和头尾像素。

本实施例提供的***中文本框的定位方法，所应用的轻量级文本框定位模型，所接收的***图片的大小较小，卷积层较少，每层的滤波器的数量也比较少，通过预测文本框四个顶点的位置，实现快速定位任意方向的文本框。

综上所述，本公开实施例提供的***文本识别方法，通过预测文本框四个顶点位置，进而实现快速定位任意方向的文本框，再通过ROI Rotate旋转矫正操作，在获取到日期文本框的情况下，根据日期文本框将整个***旋转至水平方向，实现快速识别任意方向的文本框，实现了文本检测和文本识别先后进行，各阶段目标比较明确，且各阶段可以设计轻量级的网络结构，准确率比较高，速度比较快。

与上面的方法实施例相对应，参见图6，本公开实施例还提供了一种***文本识别装置60，包括：

接收模块601，用于接收待识别的***图片；

获取模块602，用于获取所述***图片中所包含的目标***的文本框的位点参数，其中，所述位点参数至少包括所述文本框的顶点坐标；

提取模块603，用于根据所述文本框的位点参数，提取所述***图片中所述目标***的文本框对应的特征图层；

旋转模块604，用于将所述特征图层旋转调整至标准位姿；

识别模块605，用于对所述特征图层内的文本信息进行文本识别。

图6所示装置可以对应的执行上述方法实施例中的内容，本实施例未详细描述的部分，参照上述方法实施例中记载的内容，在此不再赘述。

参见图7，本公开实施例还提供了一种电子设备70，该电子设备包括：

至少一个处理器；以及，

与该至少一个处理器通信连接的存储器；其中，

该存储器存储有可被该至少一个处理器执行的指令，该指令被该至少一个处理器执行，以使该至少一个处理器能够执行前述方法实施例中的***文本识别方法。

本公开实施例还提供了一种非暂态计算机可读存储介质，该非暂态计算机可读存储介质存储计算机指令，该计算机指令用于使该计算机执行前述方法实施例中的***文本识别方法。

本公开实施例还提供了一种计算机程序产品，该计算机程序产品包括存储在非暂态计算机可读存储介质上的计算程序，该计算机程序包括程序指令，当该程序指令被计算机执行时，使该计算机执行前述方法实施例中的的***文本识别方法。

下面参考图7，其示出了适于用来实现本公开实施例的电子设备70的结构示意图。本公开实施例中的电子设备可以包括但不限于诸如移动电话、笔记本电脑、数字广播接收器、PDA(个人数字助理)、PAD(平板电脑)、PMP(便携式多媒体播放器)、车载终端(例如车载导航终端)等等的移动终端以及诸如数字TV、台式计算机等等的固定终端。图7示出的电子设备仅仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。

如图7所示，电子设备70可以包括处理装置(例如中央处理器、图形处理器等)701，其可以根据存储在只读存储器(ROM)702中的程序或者从存储装置708加载到随机访问存储器(RAM)703中的程序而执行各种适当的动作和处理。在RAM 703中，还存储有电子设备70操作所需的各种程序和数据。处理装置701、ROM 702以及RAM 703通过总线704彼此相连。输入/输出(I/O)接口705也连接至总线704。

通常，以下装置可以连接至I/O接口705：包括例如触摸屏、触摸板、键盘、鼠标、图像传感器、麦克风、加速度计、陀螺仪等的输入装置706；包括例如液晶显示器(LCD)、扬声器、振动器等的输出装置707；包括例如磁带、硬盘等的存储装置708；以及通信装置709。通信装置709可以允许电子设备70与其他设备进行无线或有线通信以交换数据。虽然图中示出了具有各种装置的电子设备70，但是应理解的是，并不要求实施或具备所有示出的装置。可以替代地实施或具备更多或更少的装置。

特别地，根据本公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信装置709从网络上被下载和安装，或者从存储装置708被安装，或者从ROM 702被安装。在该计算机程序被处理装置701执行时，执行本公开实施例的方法中限定的上述功能。

需要说明的是，本公开上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的***、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行***、装置或者器件使用或者与其结合使用。而在本公开中，计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读信号介质可以发送、传播或者传输用于由指令执行***、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：电线、光缆、RF(射频)等等，或者上述的任意合适的组合。

上述计算机可读介质可以是上述电子设备中所包含的；也可以是单独存在，而未装配入该电子设备中。

上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被该电子设备执行时，使得该电子设备能够实现上述方法实施例提供的方案。

或者，上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被该电子设备执行时，使得该电子设备能够实现上述方法实施例提供的方案。

可以以一种或多种程序设计语言或其组合来编写用于执行本公开的操作的计算机程序代码，上述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

附图中的流程图和框图，图示了按照本公开各种实施例的***、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的***来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本公开实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现。其中，单元的名称在某种情况下并不构成对该单元本身的限定，例如，第一获取单元还可以被描述为“获取至少两个网际协议地址的单元”。

应当理解，本公开的各部分可以用硬件、软件、固件或它们的组合来实现。

以上所述，仅为本公开的具体实施方式，但本公开的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本公开揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本公开的保护范围之内。因此，本公开的保护范围应以权利要求的保护范围为准。

Claims

1.一种***文本识别方法，其特征在于，包括：

接收待识别的***图片；

将所述特征图层旋转调整至标准位姿；

对所述特征图层内的文本信息进行文本识别。

2.根据权利要求1所述的方法，其特征在于，所述对所述特征图层内的文本信息进行文本识别的步骤，包括：

提取所述特征图层内对应文本信息的目标特征序列；

通过时序分类损失函数识别文本信息。

3.根据权利要求2所述的方法，其特征在于，所述根据所述文本框的位点参数，提取所述***图片中所述目标***的文本框对应的特征图层的步骤，包括：

根据所述文本框的顶点坐标进行仿射变换；

获取所述***图片的预设图层中所述文本框位置对应的像素特征，其中，所述预设图层为所述***图片的前一层特征所在的图层。

4.根据权利要求1所述的方法，其特征在于，所述位点参数至少包括所述文本框的顶点坐标和偏转夹角；

所述将所述特征图层旋转调整至标准位姿的步骤，包括：

5.根据权利要求4所述的方法，其特征在于，所述根据所述偏转角，将所述特征图层的全部像素旋转调整至与所述参考水平轴齐平的步骤，包括：

提取所述特征图层的日期框；

确定所述日期框与所述参考水平轴之间的偏转角；

6.根据权利要求1至5中任一项所述的方法，其特征在于，所述接收待识别的***图片的步骤，包括：

7.根据权利要求6所述的方法，其特征在于，所述位点参数至少包括所述文本框的顶点像素、头尾像素和边界像素；

8.根据权利要求7所述的方法，其特征在于，所述***图片为正方形图片，所述***图片的单边尺寸范围为256至400，所述第一卷积块的通道数为32，第二卷积块的通道数为64，第三卷积块的通道数为128；

9.一种***文本识别装置，其特征在于，包括：

接收模块，用于接收待识别的***图片；

旋转模块，用于将所述特征图层旋转调整至标准位姿；

10.一种电子设备，其特征在于，所述电子设备包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行前述权利要求1-8中任一项所述的***文本识别方法。