CN110070042A

CN110070042A - 文字识别方法、装置和电子设备

Info

Publication number: CN110070042A
Application number: CN201910327434.5A
Authority: CN
Inventors: 卢永晨
Original assignee: Beijing ByteDance Network Technology Co Ltd
Current assignee: Beijing ByteDance Network Technology Co Ltd
Priority date: 2019-04-23
Filing date: 2019-04-23
Publication date: 2019-07-30

Abstract

本公开公开了一种文字识别方法、装置和电子设备。其中，所述文字识别方法包括：从原始图像中获取包括文字的图像区域；从所述图像区域中提取文字的图像特征生成文字特征图像；将所述文字特征图像进行第一编码生成第一编码图像；将所述第一编码图像进行至少一次第二编码生成第二编码图像；对所述第二编码图像进行解码生成解码图像；将所述解码图像中的图像特征进行分类以识别出所述文字。本公开通过在文字识别的过程中加入多次的图像文字编码过程，解决了现有技术中文字识别准确度提升困难的技术问题。

Description

文字识别方法、装置和电子设备

技术领域

本公开涉及信息处理领域，特别是涉及一种文字识别方法、装置和电子设备。

背景技术

文字识别一般是指对文本资料的图像文件进行分析识别处理，获取文字及版面信息的过程。一般来说，文字识别一般包括检测和识别两个过程，其中检测过程包括找到图像中包含文字的区域，识别过程包括识别所述文字区域中的文字。

传统的识别过程一般可以使用模板匹配或者特征提取比较特征的方法，但是这种方法通常会受文字的状态影响，比如文字的方向、光线的强度等等，导致识别的准确度和速度有限。近年来，还有使用全连接神经网络进行识别的方法，但是全连接神经网络无法识别文字的语义信息，导致识别准确度无法进一步提升。也有技术在识别过程中加入语义模型，但是语义模型所能识别的语义特征也比较有限，很难进一步提高识别的准确率。

发明内容

根据本公开的一个方面，提供以下技术方案：

一种文字识别方法，包括：从原始图像中获取包括文字的图像区域；

从所述图像区域中提取文字的图像特征生成文字特征图像；将所述文字特征图像进行第一编码生成第一编码图像；将所述第一编码图像进行至少一次第二编码生成第二编码图像；对所述第二编码图像进行解码生成解码图像；将所述解码图像中的图像特征进行分类以识别出所述文字。

进一步的，所述从所述图像区域中提取文字的图像特征生成文字特征图像，包括：将所述图像区域输入卷积神经网络；通过所述卷积神经网络输出C*H*W大小的文字特征图像，其中C为文字特征图像的通道数，C≥1，H为文字特征图像的高度，H≥1，W为文字特征图像的宽度，W≥1。

进一步的，所述将所述文字特征图像进行第一编码生成第一编码图像，包括：将所述文字特征图像输入第一LSTM网络；所述第一LSTM网络输出所述第一编码图像。

进一步的，所述将所述第一编码图像进行至少一次第二编码生成第二编码图像，包括：将所述第一编码图像输入中间网络，所述中间网络至少包括一层LSTM网络；所述中间网络输出所述第二编码图像。

进一步的，所述对所述第二编码图像进行解码生成解码图像，包括：将所述第二编码图像输入解码LSTM网络；所述解码LSTM网络输出解码图像。

进一步的，所述将所述解码图像中的图像特征进行分类以识别出所述文字，包括：将所述解码图像输入第一全连接网络；所述第一全连接网络输出解码图像中所包含的文字类别；根据所述文字类别识别出所述图像区域中的文字。

进一步的，所述根据所述文字类别识别出所述图像区域中的文字，包括：将识别为同一个文字类别的相邻的文字合并为同一个文字；将合并结果作为识别结果输出。

根据本公开的另一个方面，还提供以下技术方案：

一种文字识别模型的训练方法，包括：

初始化文字识别模型的参数，其中所述文字识别模型中包括一个卷积神经网络、至少三个LSTM网络和一个全连接网络，所述参数包括所述卷积神经网络、LSTM网络和全连接网络的参数；

从训练集合中获取训练图像，所述训练图像中包括文字以及文字的类别标注；

将所述训练图像经过所述卷积神经网络输出一个文字特征图像；

将所述文字特征图像经过所述至少三个LSTM网络输出一个解码图像；

将所述解码图像经过所述全连接层输出所述训练图像中的文字类别；

根据所述文字类别以及文字的类别标注计算所述文字识别模型的损失函数的值；

根据所述损失函数的值调整所述文字识别模型的参数直至所述损失函数的值最小。

根据本公开的另一个方面，还提供以下技术方案：

一种文字识别方法，包括：获取原始图像，所述原始图像中包括文字；对所述原始图像进行预处理得到包括所述文字的图像区域；将所述图像区域输入由上述的文字识别模型的训练方法训练而得到的文字识别模型；所述文字识别模型输出所述文字的类型。

根据本公开的另一个方面，还提供以下技术方案：

一种文字识别装置，包括：

图像区域识别模块，用于从原始图像中获取包括文字的图像区域；

文字特征图像生成模块，用于从所述图像区域中提取文字的图像特征生成文字特征图像；

第一编码图像生成模块，用于将所述文字特征图像进行第一编码生成第一编码图像；

第二编码图像生成模块，用于将所述第一编码图像进行至少一次第二编码生成第二编码图像；

解码图像生成模块，用于对所述第二编码图像进行解码生成解码图像；

第一分类模块，用于将所述解码图像中的图像特征进行分类以识别出所述文字。

进一步的，所述文字特征图像生成模块，还包括：

卷积神经网络输入模块，用于将所述图像区域输入卷积神经网络；

卷积神经网络输出模块，用于通过所述卷积神经网络输出C*H*W大小的文字特征图像，其中C为文字特征图像的通道数，C≥1，H为文字特征图像的高度，H≥1，W为文字特征图像的宽度，W≥1。

进一步的，所述第一编码图像生成模块，还包括：

第一LSTM网络输入模块，用于将所述文字特征图像输入第一LSTM网络；

第一LSTM网络输出模块，用于所述第一LSTM网络输出所述第一编码图像。

进一步的，所述第二编码图像生成模块，还包括：

中间网络输入模块，用于将所述第一编码图像输入中间网络，所述中间网络至少包括一层LSTM网络；

中间网络输出模块，用于所述中间网络输出所述第二编码图像。

进一步的，所述解码图像生成模块，还包括：

解码LSTM网络输入模块，用于将所述第二编码图像输入解码LSTM网络；

解码LSTM网络输出模块，用于所述解码LSTM网络输出解码图像。

进一步的，所述第一分类模块，还包括：

全连接网络输入模块，用于将所述解码图像输入第一全连接网络；

全连接网络输出模块，用于所述第一全连接网络输出解码图像中所包含的文字类别；

文字识别模块，用于根据所述文字类别识别出所述图像区域中的文字。

进一步的，所述文字识别模块，还包括：

合并模块，用于将识别为同一个文字类别的相邻的文字合并为同一个文字；

结果输出模块，用于将合并结果作为识别结果输出。

根据本公开的另一个方面，还提供以下技术方案：

一种文字识别模型的训练装置，包括:

参数初始化模块，用于初始化文字识别模型的参数，其中所述文字识别模型中包括一个卷积神经网络、至少三个LSTM网络和一个全连接网络，所述参数包括所述卷积神经网络、LSTM网络和全连接网络的参数；

训练图像获取模块，用于从训练集合中获取训练图像，所述训练图像中包括文字以及文字的类别标注；

卷积模块，用于将所述训练图像经过所述卷积神经网络输出一个文字特征图像；

编解码模块，用于将所述文字特征图像经过所述至少三个LSTM网络输出一个解码图像；

第二分类模块，用于将所述解码图像经过所述全连接层输出所述训练图像中的文字类别；

误差计算模块，用于根据所述文字类别以及文字的类别标注计算所述文字识别模型的损失函数的值；

调整模块，用于根据所述损失函数的值调整所述文字识别模型的参数直至所述损失函数的值最小。

根据本公开的又一个方面，还提供以下技术方案：

一种文字识别装置，包括：

原始图像获取模块，用于获取原始图像，所述原始图像中包括文字；

预处理模块，用于对所述原始图像进行预处理得到包括所述文字的图像区域；

输入模块，用于将所述图像区域输入由上述文字识别模型的训练方法训练而得到的文字识别模型；

输出模块，用于所述文字识别模型输出所述文字的类型。

根据本公开的又一个方面，还提供以下技术方案：

一种电子设备，包括：存储器，用于存储非暂时性计算机可读指令；以及处理器，用于运行所述计算机可读指令，使得所述处理器执行时实现上述任一文字识别方法所述的步骤。

根据本公开的又一个方面，还提供以下技术方案：

一种计算机可读存储介质，用于存储非暂时性计算机可读指令，当所述非暂时性计算机可读指令由计算机执行时，使得所述计算机执行上述任一方法中所述的步骤。

上述说明仅是本公开技术方案的概述，为了能更清楚了解本公开的技术手段，而可依照说明书的内容予以实施，并且为让本公开的上述和其他目的、特征和优点能够更明显易懂，以下特举较佳实施例,并配合附图，详细说明如下。

附图说明

图1为根据本公开一个实施例的文字识别方法的流程示意图；

图2为根据本公开一个实施例的文字识别方法中定位出的包含文字的图像区域的示意图；

图3为根据本公开一个实施例的文字识别方法的分类以及文字合并的示意图；

图4为根据本公开一个实施例的一种文字识别模型的训练方法的示意图；

图5为根据本公开一个实施例的文字识别装置的结构示意图；

图6为根据本公开实施例提供的电子设备的结构示意图。

具体实施方式

以下通过特定的具体实例说明本公开的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本公开的其他优点与功效。显然，所描述的实施例仅仅是本公开一部分实施例，而不是全部的实施例。本公开还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本公开的精神下进行各种修饰或改变。需说明的是，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。基于本公开中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本公开保护的范围。

需要说明的是，下文描述在所附权利要求书的范围内的实施例的各种方面。应显而易见，本文中所描述的方面可体现于广泛多种形式中，且本文中所描述的任何特定结构及/或功能仅为说明性的。基于本公开，所属领域的技术人员应了解，本文中所描述的一个方面可与任何其它方面独立地实施，且可以各种方式组合这些方面中的两者或两者以上。举例来说，可使用本文中所阐述的任何数目个方面来实施设备及/或实践方法。另外，可使用除了本文中所阐述的方面中的一或多者之外的其它结构及/或功能性实施此设备及/或实践此方法。

还需要说明的是，以下实施例中所提供的图示仅以示意方式说明本公开的基本构想，图式中仅显示与本公开中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制，其实际实施时各组件的型态、数量及比例可为一种随意的改变，且其组件布局型态也可能更为复杂。

另外，在以下描述中，提供具体细节是为了便于透彻理解实例。然而，所属领域的技术人员将理解，可在没有这些特定细节的情况下实践所述方面。

本公开实施例提供一种文字识别方法。本实施例提供的所述文字识别方法可以由一计算装置来执行，所述计算装置可以实现为软件，或者实现为软件和硬件的组合，所述计算装置可以集成设置在服务器、终端设备等中。如图1所示，所述文字识别方法主要包括如下步骤S101至步骤S106。其中：

步骤S101：从原始图像中获取包括文字的图像区域；

在本公开中，所述从图像源中获取原始图像，其中所述图像源为本地存储空间或者网络存储空间，所述从图像源获取原始图像，包括从本地存储空间中获取原始图像或者从网络存储空间中获取原始图像，无论从哪里获取原始图像，首选需要获取原始图像的存储地址，之后从该存储地址获取原始图像。

所述图像源还可以是图像传感器，所述从图像源获取原始图像，包括从图像传感器中采集原始图像。所述图像传感器指可以采集图像的各种设备，典型的图像传感器为摄像机、摄像头、相机等。在该实施例中，所述图像传感器可以是移动终端上的摄像头，比如智能手机上的前置或者后置摄像头，摄像头采集的原始图像可以直接显示在手机的显示屏上，在该步骤中，获取图像传感器所拍摄的视频，用于在下一步进一步识别图像中的文字。

在本公开中，所述原始图像中包括文字，在一个典型的应用中，用户使用移动终端的摄像头拍摄环境中的物体，所述环境中的物体上可以包括文字，所述环境中的物体可以是图书、路标、招牌等等。在另一个典型的应用中，所述图像为视频中的视频帧，所述视频帧中包括视频中物体上的文字或者视频中的字幕。

在该步骤中，所述从原始图像中获取包括文字的图像区域，可以包括：

对原始图像进行预处理得到预处理图像；

从所述预处理图像中定位出包含文字的图像区域。

在一个实施例中，所述预处理包括对原始图像进行去燥、倾斜校正和各种滤波处理，如果输入图像是灰度或者彩色图像，还可以进行二值化处理。图像的二值化就是将灰度图像转化为只有黑和白两个颜色值图像的过程。二值化也属于图像处理中的图像分割技术，图像分割主要有阈值、边缘检测和区域增长三大类方法。其中最常用的为阈值方法，阈值就是二值化时，区分前景与背景的门槛值，小于等于阈值的像素属于前景，其他的属于背景。二值化通常分为全局二值化和局部二值化两类，其中全局二值化使用静态阈值，根据整幅图像的统计特征使用同一个阈值做二值化处理，典型的全局二值化的方法包括：最大类间方差法、基于熵的阈值法、聚类阈值法、模糊阈值法；局部二值化使用动态阈值，是根据像素点邻域的特征选择不同阈值的二值化处理方法，每一个像素或者一小块区域阈值的确定是同其周围像素有关而与其他位置的像素无关。

在对图像进行预处理得到预处理图像之后，从所述预处理图像中定位出文字的图像区域。此时需要对文本图像进行切分，所谓的切分就是从整幅图像中分割提取出单个字符图像的过程，切分的方法可以基于以下策略或以下策略中的几个组合：

1、经典切分方法：所述经典切分方法也称作标准切分方法，它根据文本图像本身所具有的一些属性特征，如宽、高、基线位置等，切割成单个字符图像。主要的经典切分方法包括间距法、基于投影特征分析的切分法等。

2、连通区域法：连通区域法是先找出所有的相连通像素区域，再通过分析连通域自身的特征和连通域间的关系，该方法多适用于西文手写体的切分。

3、基于识别的切分方法：该方法首先生成多个非确定的切分假设，然后识别，结合分类器给出的结果，利用识别置信度、语法和语义分析等方法对不确定的切分结果进行修正和选择，得到最优的切分结果。

4、整体切分法：整体切分法是把一个单词作为一个整体来进行识别，其是基于预先定义好的范围的“字典库”内的单词组成的文本图像的切分。

经过上述切分的过程，将所述预处理图像中的文字切分出来，并联合成文字的图像区域。如图2所示，所述图像中包括“我是中国人”五个字，在经过S101之后，所述的“我是中国人”的图像区域被定为和框出。之后的识别步骤都基于所述被定位出的文字的图像区域。

可以理解的是，获取包括文字的图像区域的方法不局限于上述步骤中所列举的方法，上述步骤中仅仅列举了传统OCR中的所使用的方法，实际上还可以使用深度学习的算法来对所述文字的图像区域进行定位，典型的如目标检测法，在此不再赘述，任何可以定位文字的图像区域的方法均可以在该步骤中使用。

步骤S102：从所述图像区域中提取文字的图像特征生成文字特征图像；

在本公开中，所述从所述图像区域中提取文字的图像特征生成文字特征图像，可以包括：

将所述图像区域输入卷积神经网络；

通过所述卷积神经网络输出C*H*W大小的文字特征图像，其中C为文字特征图像的通道数，C≥1，H为文字特征图像的高度，H≥1，W为文字特征图像的宽度，W≥1。

其中所述的卷积神经网络可以只包括输入层和卷积层，还可以包括池化层，可选的，步骤S101中框选出的文字的图像区域被输入该卷积神经网络的输入层，之后经过卷积层的卷积之后，将所述文字的图像区域转换成一个C*1*W大小的文字特征图像，其中所述C为文字特征图像的通道数，其与最后一层卷积层所使用的卷积核的数量有关，C为大于等于1的正整数；W为文字特征图像的宽度，W也为大于等于1的正整数；上述C*1*W中的1为文字特征图像的高度，也即是说上述卷积神经网络通过卷积层提取文字图像区域中的图像特征，生成一个高度为1，宽度为W,通道数为C的文字特征图像。典型的，例如输入图像大小为1*32*1024，此处的图像为1通道，假设使用的是二值化的图像或者灰度化的图像，如果是彩色图像，一般为3通道。假设所述卷积神经网络包括输入层、第一卷积层、第二卷积层、第三卷积层和池化层，其中第一卷积层包括3个5*5的卷积核，步进为1，则第二卷层的输入为一个3*(32-5+1)*(1024-5+1)＝3*28*1020的特征图像，第二卷积层包括16个7*7的卷积核，则第三卷积层的输入为一个16*(28-7+1)*(1020-7+1)＝16*22*1014的特征图像，第三卷积层包括128个15*15的卷积核，则池化层的输入为一个128*(22-15+1)*(1014-15+1)＝128*8*1000的特征图像，池化层为窗口大小为8*8，步进为8的最大池化层，则上述卷积神经网络经过池化层之后得到一个128*1*125的特征图像。可以理解的，上述卷积神经网络的结构仅仅是举例，实际上可以根据需要设计成任何结构，此处仅仅为了说明可以通过卷积神经网络对文字的图像区域提取特征生成文字特征图像。

步骤S103：将所述文字特征图像进行第一编码生成第一编码图像；

在本公开中，所述第一编码可以通过LSTM网络实现，所述将所述文字特征图像进行第一编码生成第一编码图像，包括：

将所述文字特征图像输入第一LSTM网络；

所述第一LSTM网络输出所述第一编码图像。

以步骤S102中的特征图像为例，其为一个128*1*125的特征图像，其中128为特征图像的通道数，1为特征图像的高度，125为特征图像的宽度，此时将所述特征图像作为一个长度为125的时间序列输入第一LSTM网络，将每个128*1作为LSTM每个时间点上的输入，假设第一LSTM网络的最终输出为一个128*1*256的特征图像，该特征图像即为第一编码图像，由于使用的LSTM网络，LSTM网络的输入均包括其上一时刻的输出，因此该网络具有记忆，可以记忆文字的上下文信息。

步骤S104：将所述第一编码图像进行至少一次第二编码生成第二编码图像；

在本公开中，所述第二编码可以通过一中间网络实现，其中所述将所述第一编码图像进行至少一次第二编码生成第二编码图像，包括：将所述第一编码图像输入中间网络，所述中间网络至少包括一层LSTM网络；所述中间网络输出所述第二编码图像。

在该步骤中，所述中间网络可以由至少一层LSTM网络形成，具体的该中间层的输入层的维度应该与第一LSTM网络的输出特征图像的维度相同，如在步骤S103的例子中，第一LSTM网络的输出特征图像的大小为128*1*256,则该中间网络时间序列长度为256，将第一编码图像的每一列128*1作为每个时间点的中间网络的输入。中间网络包括至少一个LSTM网络，可以理解的，越多的LSTM网络可以学习并理解更多的语义信息，经过中间网络可以学习到更多特征，加强在最终文字识别时的准确度。该步骤在对图像进行第一编码之后，进一步进行第二编码，生成第二编码图像，所述第二编码图像包括有更多的文字的语义信息。

步骤S105：对所述第二编码图像进行解码生成解码图像；

在本公开中，所述第解码可以通过解码LSTM网络完成，所述对所述第二编码图像进行解码生成解码图像，包括：

将所述第二编码图像输入解码LSTM网络；

所述解码LSTM网络输出解码图像。

在该步骤中，所述的解码实际上仍然是通过将中间网络的输出结果经过另外一个LSTM网络，生成用于分类的特征图像。对该解码LSTM网络来说，仅仅要求其输入的维度等于中间网络输出的维度，其输出的维度等于其之后的处理维度。如中间网络的输出为一个256*1*256的特征图像，即第二编码图像，则时间序列的长度为256，可以按照下一步骤的处理属性来设计解码LSTM网络的输出，以便之后的处理步骤使用解码图像。具体的，所述解码LSTM的输出可以是一个128*1*256的特征图像。

步骤S106：将所述解码图像中的图像特征进行分类以识别出所述文字。

在本公开中，所述将所述解码图像中的图像特征进行分类以识别出所述文字，包括：

将所述解码图像输入第一全连接网络；

所述第一全连接网络输出解码图像中所包含的文字类别；

根据所述文字类别识别出所述图像区域中的文字。

在该步骤中，将步骤S105中得到的特征图像出入一个全连接网络，如在步骤S105中得到的解码图像为128*1*256,则该全连接网络可以设计为包括128*256＝32768个输入，将每128个输入作为一组(也就是每个通道上的1*1的像素作为一组)通过全连接映射到N个输出上，其中N为要分类的文字的类别数量，对于汉字来说，常用字大概有6000个，也就是说至少需要有6000个输出。将每N个所述全连接网络的输出通过softmax函数激活计算每个通道所代表的文字，将softmax函数值最大的文字作为识别出来的文字。

进一步的，所述根据所述文字类别识别出所述图像区域中的文字，还可以包括：

将识别为同一个文字类别的相邻的文字合并为同一个文字；

将合并结果作为识别结果输出。

如图3所示，所述的128*1*256的解码图像中的识别结果如图所示，可以是前后相邻的分割块中的字可能被识别为同一个字，此时可以将两个空格之间的相邻的两个字合并为一个字，以形成最终的识别结果。

如图4所示，为本公开中的文字识别模型的训练方法，本公开的文字识别方法可以通过文字识别模型来执行，所述文字识别模型需要预先进行训练，其中所述文字识别模型的训练方法，包括：

步骤S401：初始化文字识别模型的参数，其中所述文字识别模型中包括一个卷积神经网络、至少三个LSTM网络和一个全连接网络，所述参数包括所述卷积神经网络、LSTM网络和全连接网络的参数；

步骤S402：从训练集合中获取训练图像，所述训练图像中包括文字以及文字的类别标注；

步骤S403：将所述训练图像经过所述卷积神经网络输出一个文字特征图像；

步骤S404：将所述文字特征图像经过所述至少三个LSTM网络输出一个解码图像；

步骤S405：将所述解码图像经过所述全连接层输出所述训练图像中的文字类别；

步骤S406：根据所述文字类别以及文字的类别标注计算所述文字识别模型的损失函数的值；

步骤S407：根据所述损失函数的值调整所述文字识别模型的参数直至所述损失函数的值最小。

本公开中的所述文字识别模型中，包括至少三个部分，一个是特征提取部分，这部分由卷积神经网络完成；语义识别部分，该部分由至少三个LSTM网络完成；以及分类部分，该部分由一个全连接网络完成。

步骤S401中的初始化文字识别模型的参数，包括了上述卷积神经网络；LSTM网络以及全连接网络的参数，具体的，所述卷积神经网络的参数至少包括每个卷积层所使用的卷积核的数量、卷积核的大小、卷积核中的权重值以及池化窗口的大小等；所述LSTM网络的参数至少包括LSTM中的权重值矩阵；全连接网络的参数至少包括每层全连接权重系数等等，所述初始化可以是随机生成这些参数也可以是读取初始的指定参数，在此不再赘述。

在初始化参数之后，在步骤S402中，将训练集合输入所述文字识别模型，其中所述训练集合为包括文字以及文字标注的训练图集，其中所述文字标注可以实现为切分标注，即实现将训练图集切分为最终与预测结果形式对应的标注，如预测结果最终将输入的图像在宽度上切分为256份，则所述文字标注需要被处理成在宽度上切分为256份的标注，即多份宽度的图像可以标注为同一个文字。

步骤S403-步骤S405中，将所述训练集合中的图像经过文字模型中的所有网络得到一个预测结果，这个过程与通常的训练过程相同，不再赘述。

步骤S406中，将所述预测值与所述标注值带入损失函数中计算损失值，损失函数的设置可以使用任何合适的损失函数，并不是本公开的重点，不再赘述。

步骤S407，根据所述损失函数计算的损失值，调整文字识别模型中的参数，并再次通过训练集合和调整参数之后的文字模型得到新的损失值，重复上述过程直至损失函数的值最小为止。

本公开还包括一种使用上述文字识别模型进行文字识别的方法，包括：

获取原始图像，所述原始图像中包括文字；

对所述原始图像进行预处理得到包括所述文字的图像区域；

将所述图像区域输入由上述文字识别模型训练方法训练而得到的文字识别模型；

所述文字识别模型输出所述文字的类型。

该过程是上述文字识别模型的预测过程，其具体的预测细节可以参考图1所示的过程，在此不再赘述。

在上文中，虽然按照上述的顺序描述了上述方法实施例中的各个步骤，本领域技术人员应清楚，本公开实施例中的步骤并不必然按照上述顺序执行，其也可以倒序、并行、交叉等其他顺序执行，而且，在上述步骤的基础上，本领域技术人员也可以再加入其他步骤，这些明显变型或等同替换的方式也应包含在本公开的保护范围之内，在此不再赘述。

下面为本公开装置实施例，本公开装置实施例可用于执行本公开方法实施例实现的步骤，为了便于说明，仅示出了与本公开实施例相关的部分，具体技术细节未揭示的，请参照本公开方法实施例。

本公开实施例提供一种文字识别装置。所述装置可以执行上述文字识别方法实施例中所述的步骤。如图5所示，所述装置500主要包括：图像区域识别模块501、文字特征图像生成模块502、第一编码图像生成模块503、第二编码图像生成模块504、解码图像生成模块505和第一分类模块506。其中，

图像区域识别模块501，用于从原始图像中获取包括文字的图像区域；

文字特征图像生成模块502，用于从所述图像区域中提取文字的图像特征生成文字特征图像；

第一编码图像生成模块503，用于将所述文字特征图像进行第一编码生成第一编码图像；

第二编码图像生成模块504，用于将所述第一编码图像进行至少一次第二编码生成第二编码图像；

解码图像生成模块505，用于对所述第二编码图像进行解码生成解码图像；

第一分类模块506，用于将所述解码图像中的图像特征进行分类以识别出所述文字。

进一步的，所述文字特征图像生成模块502，还包括：

进一步的，所述第一编码图像生成模块503，还包括：

进一步的，所述第二编码图像生成模块504，还包括：

进一步的，所述解码图像生成模块505，还包括：

进一步的，所述第一分类模块506，还包括：

进一步的，所述文字识别模块，还包括：

结果输出模块，用于将合并结果作为识别结果输出。

图5所示装置可以执行图1-图3所示实施例的方法，本实施例未详细描述的部分，可参考对图1-图3所示实施例的相关说明。所述技术方案的执行过程和技术效果参见图1-图3所示实施例中的描述，在此不再赘述。

本公开实施例还供一种文字识别模型的训练装置，包括:

本公开实施例还供一种文字识别装置，包括：

输出模块，用于所述文字识别模型输出所述文字的类型。

下面参考图6，其示出了适于用来实现本公开实施例的电子设备600的结构示意图。本公开实施例中的电子设备可以包括但不限于诸如移动电话、笔记本电脑、数字广播接收器、PDA(个人数字助理)、PAD(平板电脑)、PMP(便携式多媒体播放器)、车载终端(例如车载导航终端)等等的移动终端以及诸如数字TV、台式计算机等等的固定终端。图6示出的电子设备仅仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。

如图6所示，电子设备600可以包括处理装置(例如中央处理器、图形处理器等)601，其可以根据存储在只读存储器(ROM)602中的程序或者从存储装置608加载到随机访问存储器(RAM)603中的程序而执行各种适当的动作和处理。在RAM 603中，还存储有电子设备600操作所需的各种程序和数据。处理装置601、ROM 602以及RAM 603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。

通常，以下装置可以连接至I/O接口605：包括例如触摸屏、触摸板、键盘、鼠标、图像传感器、麦克风、加速度计、陀螺仪等的输入装置606；包括例如液晶显示器(LCD)、扬声器、振动器等的输出装置607；包括例如磁带、硬盘等的存储装置608；以及通信装置609。通信装置609可以允许电子设备600与其他设备进行无线或有线通信以交换数据。虽然图6示出了具有各种装置的电子设备600，但是应理解的是，并不要求实施或具备所有示出的装置。可以替代地实施或具备更多或更少的装置。

特别地，根据本公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，所述计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，所述计算机程序可以通过通信装置609从网络上被下载和安装，或者从存储装置608被安装，或者从ROM 602被安装。在所述计算机程序被处理装置601执行时，执行本公开实施例的方法中限定的上述功能。

需要说明的是，本公开上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的***、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中，计算机可读存储介质可以是任何包含或存储程序的有形介质，所述程序可以被指令执行***、装置或者器件使用或者与其结合使用。而在本公开中，计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，所述计算机可读信号介质可以发送、传播或者传输用于由指令执行***、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：电线、光缆、RF(射频)等等，或者上述的任意合适的组合。

上述计算机可读介质可以是上述电子设备中所包含的；也可以是单独存在，而未装配入所述电子设备中。

上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被所述电子设备执行时，使得所述电子设备：从原始图像中获取包括文字的图像区域；从所述图像区域中提取文字的图像特征生成文字特征图像；将所述文字特征图像进行第一编码生成第一编码图像；将所述第一编码图像进行至少一次第二编码生成第二编码图像；对所述第二编码图像进行解码生成解码图像；将所述解码图像中的图像特征进行分类以识别出所述文字。

上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被所述电子设备执行时，使得所述电子设备：初始化文字识别模型的参数，其中所述文字识别模型中包括一个卷积神经网络、至少三个LSTM网络和一个全连接网络，所述参数包括所述卷积神经网络、LSTM网络和全连接网络的参数；从训练集合中获取训练图像，所述训练图像中包括文字以及文字的类别标注；将所述训练图像经过所述卷积神经网络输出一个文字特征图像；将所述文字特征图像经过所述至少三个LSTM网络输出一个解码图像；将所述解码图像经过所述全连接层输出所述训练图像中的文字类别；根据所述文字类别以及文字的类别标注计算所述文字识别模型的损失函数的值；根据所述损失函数的值调整所述文字识别模型的参数直至所述损失函数的值最小。

上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被所述电子设备执行时，使得所述电子设备：获取原始图像，所述原始图像中包括文字；对所述原始图像进行预处理得到包括所述文字的图像区域；将所述图像区域输入由上述文字识别模型训练方法训练而得到的文字识别模型；所述文字识别模型输出所述文字的类型。

可以以一种或多种程序设计语言或其组合来编写用于执行本公开的操作的计算机程序代码，上述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

附图中的流程图和框图，图示了按照本公开各种实施例的***、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，所述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的***来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本公开实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现。其中，单元的名称在某种情况下并不构成对所述单元本身的限定。

以上描述仅为本公开的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本公开中所涉及的公开范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离上述公开构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims

1.一种文字识别方法，包括：

从原始图像中获取包括文字的图像区域；

从所述图像区域中提取文字的图像特征生成文字特征图像；

将所述文字特征图像进行第一编码生成第一编码图像；

将所述第一编码图像进行至少一次第二编码生成第二编码图像；

对所述第二编码图像进行解码生成解码图像；

将所述解码图像中的图像特征进行分类以识别出所述文字。

2.如权利要求1中所述的文字识别方法，其中所述从所述图像区域中提取文字的图像特征生成文字特征图像，包括：

将所述图像区域输入卷积神经网络；

3.如权利要求1中所述的文字识别方法，其中所述将所述文字特征图像进行第一编码生成第一编码图像，包括：

将所述文字特征图像输入第一LSTM网络；

所述第一LSTM网络输出所述第一编码图像。

4.如权利要求1中所述的文字识别方法，其中所述将所述第一编码图像进行至少一次第二编码生成第二编码图像，包括：

将所述第一编码图像输入中间网络，所述中间网络至少包括一层LSTM网络；

所述中间网络输出所述第二编码图像。

5.如权利要求1中所述的文字识别方法，其中所述对所述第二编码图像进行解码生成解码图像，包括：

将所述第二编码图像输入解码LSTM网络；

所述解码LSTM网络输出解码图像。

6.如权利要求1中所述的文字识别方法，其中所述将所述解码图像中的图像特征进行分类以识别出所述文字，包括：

将所述解码图像输入第一全连接网络；

所述第一全连接网络输出解码图像中所包含的文字类别；

根据所述文字类别识别出所述图像区域中的文字。

7.如权利要求6所述的文字识别方法，其中所述根据所述文字类别识别出所述图像区域中的文字，包括：

将识别为同一个文字类别的相邻的文字合并为同一个文字；

将合并结果作为识别结果输出。

8.一种文字识别模型的训练方法，包括：

9.一种文字识别方法，包括：

获取原始图像，所述原始图像中包括文字；

对所述原始图像进行预处理得到包括所述文字的图像区域；

将所述图像区域输入由权利要求8所述的方法训练而得到的文字识别模型；

所述文字识别模型输出所述文字的类型。

10.一种文字识别装置，包括：

11.一种文字识别模型的训练装置，包括：

12.一种文字识别装置，包括：

输入模块，用于将所述图像区域输入由权利要求8所述的方法训练而得到的文字识别模型；

输出模块，用于所述文字识别模型输出所述文字的类型。

13.一种电子设备，包括：

存储器，用于存储计算机可读指令；以及

处理器，用于运行所述计算机可读指令，使得所述处理器运行时实现根据权利要求1-7中任意一项所述的文字识别方法。

14.一种电子设备，包括：

存储器，用于存储计算机可读指令；以及

处理器，用于运行所述计算机可读指令，使得所述处理器运行时实现根据权利要求8所述的文字识别模型的训练方法。

15.一种电子设备，包括：

存储器，用于存储计算机可读指令；以及

处理器，用于运行所述计算机可读指令，使得所述处理器运行时实现根据权利要求9所述的文字识别方法。

16.一种非暂态计算机可读存储介质，用于存储计算机可读指令，当所述计算机可读指令由计算机执行时，使得所述计算机执行权利要求1-7中任意一项所述的文字识别方法。

17.一种非暂态计算机可读存储介质，用于存储计算机可读指令，当所述计算机可读指令由计算机执行时，使得所述计算机执行权利要求8中所述的文字识别模型的训练方法。

18.一种非暂态计算机可读存储介质，用于存储计算机可读指令，当所述计算机可读指令由计算机执行时，使得所述计算机执行权利要求9中所述的文字识别方法。