CN108229469A

CN108229469A - 文字的识别方法、装置、存储介质、程序产品和电子设备

Info

Publication number: CN108229469A
Application number: CN201711173890.6A
Authority: CN
Inventors: 梁鼎
Original assignee: Beijing Sensetime Technology Development Co Ltd
Current assignee: Beijing Sensetime Technology Development Co Ltd
Priority date: 2017-11-22
Filing date: 2017-11-22
Publication date: 2018-06-29

Abstract

本发明实施例提供一种文字的识别方法、装置、存储介质、程序产品和电子设备，涉及人工智能领域。所述文字的识别方法包括：对待识别图像进行特征提取，获得所述待识别图像的第一文字识别区域的文字特征向量；并根据所述第一文字识别区域的文字特征向量对所述第一文字识别区域进行过滤，获得第二文字识别区域，所述第二文字识别区域为过滤掉空白符的文字识别区域；再根据所述第二文字识别区域的文字特征向量对所述待识别图像进行文字识别，获得所述待识别图像的文字识别结果。通过本发明实施例，减少了文字识别的计算量，从而提升了整体识别文字的速度。

Description

文字的识别方法、装置、存储介质、程序产品和电子设备

技术领域

本发明实施例涉及人工智能领域，尤其涉及一种文字的识别方法、装置、存储介质、程序产品和电子设备。

背景技术

在基于连接时序分类(Connectionist temporal classification，以下简称CTC)的文字识别方法中，有一个步骤是使用全连接层将文字图像中的低维特征映射到高维空间中，并使用Softmax函数对映射到高维空间中的特征进行归一化操作，获得文字图像中文字的概率分布矩阵，从而完成文字图像中文字的分类解码。这个步骤的计算量与所属文字的字符的类别数，也就是文字识别的字符种类数线性相关。随着字符种类数增多，这个步骤的计算量也增大。例如，在中文的文字识别中，中文字符的种类数通常可以达到5000甚至2万以上，所述使用全连接层的步骤的时间花费占到了整体神经网络运行时间的绝大部分，从而大大降低了文字识别的运行速度。

发明内容

本发明实施例的目的在于，提供一种文字识别的技术方案。

根据本发明实施例的第一方面，提供了一种文字的识别方法。所述方法包括：对待识别图像进行特征提取，获得所述待识别图像的第一文字识别区域的文字特征向量；根据所述第一文字识别区域的文字特征向量对所述第一文字识别区域进行过滤，获得第二文字识别区域，所述第二文字识别区域为过滤掉空白符的文字识别区域；根据所述第二文字识别区域的文字特征向量对所述待识别图像进行文字识别，获得所述待识别图像的文字识别结果。

可选地，所述文字的识别方法通过神经网络模型实现，所述神经网络模型包括：特征提取层、连接在所述特征提取层输出端的过滤层以及连接在所述过滤层输出端的文字识别层。

可选地，所述对待识别图像进行特征提取，获得所述待识别图像的第一文字识别区域的文字特征向量，包括：通过所述特征提取层，对待识别图像进行特征提取，获得所述待识别图像的第一文字识别区域的文字特征向量；所述根据所述第一文字识别区域的文字特征向量对所述第一文字识别区域进行过滤，获得第二文字识别区域，包括：通过所述过滤层，根据所述第一文字识别区域的文字特征向量对所述第一文字识别区域进行过滤，获得第二文字识别区域；所述根据所述第二文字识别区域的文字特征向量对所述待识别图像进行文字识别，获得所述待识别图像的文字识别结果，包括：通过所述文字识别层，根据所述第二文字识别区域的文字特征向量对所述待识别图像进行文字识别，获得所述待识别图像的文字识别结果。

可选地，所述过滤层包括：第一全连接子层、第一计算子层以及过滤子层；所述第一全连接子层与所述特征提取层的输出端连接，所述第一全连接子层、所述第一计算子层以及所述过滤子层依次顺序连接；其中，通过所述过滤层，根据所述第一文字识别区域的文字特征向量对所述第一文字识别区域进行过滤，获得第二文字识别区域，包括：通过所述第一全连接子层，对所述第一文字识别区域的文字特征向量进行映射操作，获得所述第一文字识别区域是否含有文字的特征向量；通过所述第一计算子层，对所述第一文字识别区域是否含有文字的特征向量进行归一化操作，获得所述第一文字识别区域是否含有文字的概率；通过所述过滤子层，过滤出所述第一文字识别区域中含有文字的概率大于或等于文字阈值的第一文字识别区域，从而获得所述第二文字识别区域。

可选地，所述通过所述第一计算子层，对所述第一文字识别区域是否含有文字的特征向量进行归一化操作，获得所述第一文字识别区域是否含有文字的概率，包括：通过使用SoftMax函数或Sigmoid函数，对所述第一文字识别区域是否含有文字的特征向量进行归一化操作，获得所述第一文字识别区域是否含有文字的概率。

可选地，所述文字识别层包括：第二全连接子层、第二计算子层以及连接时序分类CTC子层；所述第二全连接子层与所述过滤层的输出端连接，所述第二全连接子层、所述第二计算子层以及所述连接时序分类CTC子层依次顺序连接；其中，通过所述文字识别层，根据所述第二文字识别区域的文字特征向量对所述待识别图像进行文字识别，获得所述待识别图像的文字识别结果，包括：通过所述第二全连接子层，对所述第二文字识别区域的文字特征向量进行映射操作，获得所述第二文字识别区域中的文字为每一个文字字符的特征向量；通过所述第二计算子层，对所述第二文字识别区域中的文字为每一个文字字符的特征向量进行归一化操作，获得所述第二文字识别区域中的文字为每一个文字字符的概率分布；通过所述CTC子层，根据所述第二文字识别区域中的文字为每一个文字字符的概率分布识别出所述待识别图像的文字识别结果。

可选地，所述通过所述第二计算子层，对所述第二文字识别区域中的文字为每一个文字字符的特征向量进行归一化操作，获得所述第二文字识别区域中的文字为每一个文字字符的概率分布，包括：通过使用SoftMax函数，对所述第二文字识别区域中的文字为每一个文字字符的特征向量进行归一化操作，获得所述第二文字识别区域中的文字为每一个文字字符的概率分布。

根据本发明实施例的第二方面，提供了一种文字的识别装置。所述装置包括：特征提取模块，用于对待识别图像进行特征提取，获得所述待识别图像的第一文字识别区域的文字特征向量；过滤模块，用于根据所述第一文字识别区域的文字特征向量对所述第一文字识别区域进行过滤，获得第二文字识别区域，所述第二文字识别区域为过滤掉空白符的文字识别区域；文字识别模块，用于根据所述第二文字识别区域的文字特征向量对所述待识别图像进行文字识别，获得所述待识别图像的文字识别结果。

可选地，所述文字的识别装置通过神经网络模型实现，所述神经网络模型包括：特征提取层、连接在所述特征提取层输出端的过滤层以及连接在所述过滤层输出端的文字识别层。

可选地，所述特征提取模块，包括：特征提取子模块，用于通过所述特征提取层，对待识别图像进行特征提取，获得所述待识别图像的第一文字识别区域的文字特征向量；所述过滤模块，包括：过滤子模块，用于通过所述过滤层，根据所述第一文字识别区域的文字特征向量对所述第一文字识别区域进行过滤，获得第二文字识别区域；所述文字识别模块，包括：文字识别子模块，用于通过所述文字识别层，根据所述第二文字识别区域的文字特征向量对所述待识别图像进行文字识别，获得所述待识别图像的文字识别结果。

可选地，所述过滤层包括：第一全连接子层、第一计算子层以及过滤子层；所述第一全连接子层与所述特征提取层的输出端连接，所述第一全连接子层、所述第一计算子层以及所述过滤子层依次顺序连接；其中，所述过滤子模块，包括：第一映射单元，用于通过所述第一全连接子层，对所述第一文字识别区域的文字特征向量进行映射操作，获得所述第一文字识别区域是否含有文字的特征向量；第一归一化单元，用于通过所述第一计算子层，对所述第一文字识别区域是否含有文字的特征向量进行归一化操作，获得所述第一文字识别区域是否含有文字的概率；过滤单元，用于通过所述过滤子层，过滤出所述第一文字识别区域中含有文字的概率大于或等于文字阈值的第一文字识别区域，从而获得所述第二文字识别区域。

可选地，所述第一归一化单元，具体用于：通过使用SoftMax函数或Sigmoid函数，对所述第一文字识别区域是否含有文字的特征向量进行归一化操作，获得所述第一文字识别区域是否含有文字的概率。

可选地，所述文字识别层包括：第二全连接子层、第二计算子层以及连接时序分类CTC子层；所述第二全连接子层与所述过滤层的输出端连接，所述第二全连接子层、所述第二计算子层以及所述连接时序分类CTC子层依次顺序连接；其中，所述文字识别子模块，包括：第二映射单元，用于通过所述第二全连接子层，对所述第二文字识别区域的文字特征向量进行映射操作，获得所述第二文字识别区域中的文字为每一个文字字符的特征向量；第二归一化单元，用于通过所述第二计算子层，对所述第二文字识别区域中的文字为每一个文字字符的特征向量进行归一化操作，获得所述第二文字识别区域中的文字为每一个文字字符的概率分布；识别单元，用于通过所述CTC子层，根据所述第二文字识别区域中的文字为每一个文字字符的概率分布识别出所述待识别图像的文字识别结果。

可选地，所述第二归一化单元，具体用于：通过使用SoftMax函数，对所述第二文字识别区域中的文字为每一个文字字符的特征向量进行归一化操作，获得所述第二文字识别区域中的文字为每一个文字字符的概率分布。

根据本发明实施例的第三方面，提供了一种计算机可读存储介质，其上存储有计算机程序指令，其中，所述程序指令被处理器执行时实现本发明实施例的第一方面所述的文字的识别方法的步骤。

根据本发明实施例的第四方面，提供了一种计算机程序产品，其包括有计算机程序指令，其中，所述程序指令被处理器执行时实现本发明实施例的第一方面所述的文字的识别方法的步骤。

根据本发明实施例的第五方面，提供了一种电子设备，包括：处理器、存储器、通信元件和通信总线，所述处理器、所述存储器和所述通信元件通过所述通信总线完成相互间的通信；所述存储器用于存放至少一可执行指令，所述可执行指令使所述处理器执行如本发明实施例的第一方面所述的文字的识别方法的步骤。

根据本发明实施例提供的技术方案，对待识别图像进行特征提取，获得待识别图像的第一文字识别区域的文字特征向量，并根据第一文字识别区域的文字特征向量对第一文字识别区域进行过滤，获得过滤掉空白符的第二文字识别区域，再根据第二文字识别区域的文字特征向量对待识别图像进行文字识别，获得待识别图像的文字识别结果，与现有技术相比，能够对待识别图像的第一文字识别区域进行过滤，获得过滤掉空白符的第二文字识别区域，并根据第二文字识别区域的文字特征向量对待识别图像进行文字识别，减少了文字识别的计算量，从而提升了整体识别文字的速度。

附图说明

图1是根据本发明实施例一的一种文字的识别方法的流程图；

图2是根据本发明实施例二的一种文字的识别方法的流程图；

图3是根据本发明实施例三的一种文字的识别方法的流程图；

图4是根据本发明实施例四的一种文字的识别装置的结构示意图；

图5是根据本发明实施例五的一种文字的识别装置的结构示意图；

图6是根据本发明实施例六的一种电子设备的结构示意图。

具体实施方式

下面结合附图(若干附图中相同的标号表示相同的元素)和实施例，对本发明实施例的具体实施方式作进一步详细说明。以下实施例用于说明本发明，但不用来限制本发明的范围。

本领域技术人员可以理解，本发明实施例中的“第一”、“第二”等术语仅用于区别不同步骤、设备或模块等，既不代表任何特定技术含义，也不表示它们之间的必然逻辑顺序。

实施例一

图1是根据本发明实施例一的一种文字的识别方法的流程图。如图1所示，本实施例的文字的识别方法包括以下步骤：

在步骤S101中，对待识别图像进行特征提取，获得所述待识别图像的第一文字识别区域的文字特征向量。

其中，从图像包含的内容来讲，所述待识别图像可为包含文字的图像。例如，包含中文汉字的图像或包含英文字母的图像。从图像的类别来讲，所述待识别图像可为拍摄的静态图像，或者为视频帧序列中的视频图像，也可以是合成的图像等。所述第一文字识别区域是对待识别图像进行特征提取所获得的。根据实际应用的需求，所述第一文字识别区域的数量可为一个或多个，本发明实施例所提到的方法可以同时适用于一个第一文字识别区域或多个第一文字识别区域的场景。当本发明实施例所提到的方法适用于多个第一文字识别区域的场景时，两个第一文字识别区域之间可以具有重叠的部分，也可以不具有重叠的部分，本领域技术人员可在具体的实施方式中进行设定。

在步骤S102中，根据所述第一文字识别区域的文字特征向量对所述第一文字识别区域进行过滤，获得第二文字识别区域。

其中，所述第二文字识别区域为过滤掉空白符的文字识别区域。具体地，所述第一文字识别区域中既包括含有空白符的第一文字识别区域，又包括不含有空白符的第一文字识别区域。在具体的实施方式中，需要对所述第一文字识别区域进行过滤，将不含有空白符的第一文字识别区域和含有空白符的第一文字识别区域区分开来，从而获得所述第二文字识别区域。其中，第一文字识别区域中空白字符所在的区域为不含有文字以及标点符号的文字识别区域。

在步骤S103中，根据所述第二文字识别区域的文字特征向量对所述待识别图像进行文字识别，获得所述待识别图像的文字识别结果。

在具体的实施方式中，在获得第二文字识别区域之后，可根据第二文字识别区域的文字特征向量对待识别图像进行文字识别，获得待识别图像的文字识别结果。举例来说，当所述文字为中文时，所述文字识别结果可为一个中文汉字或多个中文汉字。当所述文字为英文时，所述文字识别结果可为英文单词。

根据本实施例提供的文字的识别方法，对待识别图像进行特征提取，获得待识别图像的第一文字识别区域的文字特征向量，并根据第一文字识别区域的文字特征向量对第一文字识别区域进行过滤，获得过滤掉空白符的第二文字识别区域，再根据第二文字识别区域的文字特征向量对待识别图像进行文字识别，获得待识别图像的文字识别结果，与现有技术相比，能够对待识别图像的第一文字识别区域进行过滤，获得过滤掉空白符的第二文字识别区域，并根据第二文字识别区域的文字特征向量对待识别图像进行文字识别，减少了文字识别的计算量，从而提升了整体识别文字的速度。

本实施例的文字的识别方法可以由任意适当的具有图像或数据处理能力的设备执行，包括但不限于：摄像头、终端、移动终端、PC机、服务器、车载设备、娱乐设备、广告设备、个人数码助理(PDA)、平板电脑、笔记本电脑、掌上游戏机、智能眼镜、智能手表、可穿戴设备、虚拟显示设备或显示增强设备(如Google Glass、Oculus Rift、Hololens、Gear VR)等。

实施例二

在本实施例中，通过神经网络模型识别文字。具体地，所述神经网络模型可以是任意适当的可实现特征提取或目标对象识别的神经网络，包括但不限于卷积神经网络、增强学习神经网络、对抗神经网络中的生成网络等等。神经网络模型中具体结构的设置可以由本领域技术人员根据实际需求适当设定，如卷积层的层数、卷积核的大小、通道数等等，本发明实施例对此不作限制。更具体地，所述神经网络模型包括特征提取层、连接在所述特征提取层输出端的过滤层以及连接在所述过滤层输出端的文字识别层。

图2是根据本发明实施例二的一种文字的识别方法的流程图。如图2所示，本实施例的文字的识别方法包括以下步骤：

在步骤S201中，通过所述特征提取层，对待识别图像进行特征提取，获得所述待识别图像的第一文字识别区域的文字特征向量。

其中，所述特征提取层为具有特征提取功能的网络结构。所述第一文字识别区域是由特征提取层对待识别图像进行特征提取所获得的。当本发明实施例所提到的方法适用于多个第一文字识别区域的场景时，两个第一文字识别区域之间可以具有重叠的部分，也可以不具有重叠的部分，本领域技术人员在具体的实施方式中可通过特征提取层进行设定。

在步骤S202中，通过所述过滤层，根据所述第一文字识别区域的文字特征向量对所述第一文字识别区域进行过滤，获得第二文字识别区域。

其中，所述过滤层为具有过滤功能的网络结构。所述第二文字识别区域为过滤掉空白符的文字识别区域。具体地，所述过滤层用于对所述第一文字识别区域中的空白符进行过滤，获得没有空白符的第二文字识别区域。

在步骤S203中，通过所述文字识别层，根据所述第二文字识别区域的文字特征向量对所述待识别图像进行文字识别，获得所述待识别图像的文字识别结果。

其中，所述文字识别层为具有文字识别功能的网络结构。在具体的实施方式中，在获得第二文字识别区域之后，所述文字识别层可根据第二文字识别区域的文字特征向量对待识别图像进行文字识别，获得待识别图像的文字识别结果。

根据本实施例提供的文字的识别方法，通过用于文字识别的神经网络模型的特征提取层对待识别图像进行特征提取，获得待识别图像的第一文字识别区域的文字特征向量，并通过用于文字识别的神经网络模型的过滤层根据第一文字识别区域的文字特征向量对第一文字识别区域进行过滤，获得过滤掉空白符的第二文字识别区域，再通过用于文字识别的神经网络模型的文字识别层根据第二文字识别区域的文字特征向量对待识别图像进行文字识别，获得待识别图像的文字识别结果，与现有技术相比，能够对待识别图像的第一文字识别区域进行过滤，获得过滤掉空白符的第二文字识别区域，并根据第二文字识别区域的文字特征向量对待识别图像进行文字识别，减少了文字识别的计算量，从而提升了整体识别文字的速度。

实施例三

在本实施例中，通过神经网络模型识别文字。具体地，所述神经网络模型可以是任意适当的可实现特征提取或目标对象识别的神经网络，包括但不限于卷积神经网络、增强学习神经网络、对抗神经网络中的生成网络等等。神经网络模型中具体结构的设置可以由本领域技术人员根据实际需求适当设定，如卷积层的层数、卷积核的大小、通道数等等，本发明实施例对此不作限制。更具体地，所述神经网络模型包括特征提取层、连接在所述特征提取层输出端的第一全连接子层、连接在所述第一全连接子层输出端的第一计算子层、连接在所述第一计算子层输出端的过滤子层以及连接在所述过滤子层输出端的文字识别层。

图3是根据本发明实施例三的一种文字的识别方法的流程图。如图3所示，本实施例的文字的识别方法包括以下步骤：

在步骤S301中，通过所述特征提取层，对待识别图像进行特征提取，获得所述待识别图像的第一文字识别区域的文字特征向量。

其中，所述特征提取层可为卷积神经网络。在具体的实施方式中，待识别图像经过卷积神经网络，获得待识别图像的第一文字识别区域的文字特征向量。所述待识别图像的第一文字识别区域的文字特征向量构成待识别图像的文字识别区域的文字特征向量矩阵其中，T表示待识别图像中第一文字识别区域的数量，T与输入的待识别图像的宽度线性相关，C₁表示第一文字识别区域的文字特征向量的维度。

在步骤S302中，通过所述第一全连接子层，对所述第一文字识别区域的文字特征向量进行映射操作，获得所述第一文字识别区域是否含有文字的特征向量。

在本实施例中，通过所述第一全连接子层，对所述至少一个第一文字识别区域的文字特征向量进行映射操作，分别获得每个第一文字识别区域是否含有文字的特征向量。在具体的实施方式中，所述第一全连接子层通过完成矩阵的乘法实现对至少一个第一文字识别区域的文字特征向量的映射操作。其中，W′表示第一全连接子层中的权重矩阵，C₃表示第一文字识别区域是否含有文字的特征向量的维度，P′表示第一文字识别区域是否含有文字的特征向量矩阵。

在步骤S303中，通过所述第一计算子层，对所述第一文字识别区域是否含有文字的特征向量进行归一化操作，获得所述第一文字识别区域是否含有文字的概率。

具体地，该步骤S303包括：通过使用SoftMax函数或Sigmoid函数，对所述第一文字识别区域是否含有文字的特征向量进行归一化操作，获得所述第一文字识别区域是否含有文字的概率。当使用SoftMax函数对第一文字识别区域是否含有文字的特征向量进行归一化操作时，C₃＝2。当使用Sigmoid函数对第一文字识别区域是否含有文字的特征向量进行归一化操作时，C₃＝1。

在本实施例中，通过所述第一计算子层，可分别对每个第一文字识别区域是否含有文字的特征向量进行归一化操作，获得每个第一文字识别区域是否含有文字的概率。在具体的实施方式中，该步骤S303将步骤S302中获得的每个第一文字识别区域是否含有文字的特征向量转换为每个第一文字识别区域是否含有文字的概率。当使用SoftMax函数时，针对每个第一文字识别区域是否含有文字的特征向量，输出两个数值为0～1的数，且它们的和为1，第一个数的数值越接近1表示该第一文字识别区域中含有空白符的概率越大。当使用Sigmoid函数时，针对每个第一文字识别区域是否含有文字的特征向量，输出一个数值为0～1的数，该数的数值越接近于1表示该第一文字识别区域中含有空白符的概率越大。

在步骤S304中，通过所述过滤子层，过滤出所述第一文字识别区域中含有文字的概率大于或等于文字阈值的第一文字识别区域，从而获得所述第二文字识别区域。

其中，所述过滤子层为具有过滤功能的网络结构，所述文字阈值可由本领域技术人员根据实际需要进行设定。其中，所述文字阈值为用于判定第一文字识别区域是否含有文字的概率阈值。

在本实施例中，通过所述过滤子层，过滤出所述至少一个第一文字识别区域中含有文字的概率大于或等于文字阈值的第一文字识别区域，从而获得第二文字识别区域。在具体的实施方式中，根据每个第一文字识别区域含有文字的概率和预先设定的文字阈值，将不含有文字的第一文字识别区域和含有文字的第一文字识别区域区分开来，从而获得含有文字的第二文字识别区域。具体地，将含有文字的概率大于或等于文字阈值的第一文字识别区域确定为含有文字的第二文字识别区域，将含有文字的概率小于文字阈值的第一文字识别区域确定为不含有文字的第一文字识别区域。然后，将第二文字识别区域的文字特征向量进行重新组合，可获得待识别图像的文字识别区域的文字特征向量矩阵其中，T′表示待识别图像中第二文字识别区域的数量。

在步骤S305中，通过所述文字识别层，根据所述第二文字识别区域的文字特征向量对所述待识别图像进行文字识别，获得所述待识别图像的文字识别结果。

其中，所述文字识别层包括：第二全连接子层、第二计算子层以及连接时序分类CTC子层；所述第二全连接子层与所述过滤层的输出端连接，所述第二全连接子层、所述第二计算子层以及所述连接时序分类CTC子层依次顺序连接。具体地，所述文字识别层具有连接在所述过滤子层输出端的第二全连接子层、连接在所述第二全连接子层输出端的第二计算子层以及连接在所述第二计算子层输出端的连接时序分类CTC子层。

具体地，该步骤S305包括：通过所述第二全连接子层，对所述第二文字识别区域的文字特征向量进行映射操作，获得所述第二文字识别区域中的文字为每一个文字字符的特征向量；通过所述第二计算子层，对所述第二文字识别区域中的文字为每一个文字字符的特征向量进行归一化操作，获得所述第二文字识别区域中的文字为每一个文字字符的概率分布；通过所述CTC子层，根据所述第二文字识别区域中的文字为每一个文字字符的概率分布识别出所述待识别图像的文字识别结果。

在通过所述第二全连接子层，对所述第二文字识别区域的文字特征向量进行映射操作时，所述第二全连接子层通过完成矩阵的乘法实现对第二文字识别区域的文字特征向量的映射操作。其中，P表示第二文字识别区域中的文字为每一个文字字符的特征向量的矩阵，W表示第二全连接子层中的权重矩阵，C₂表示文字字符的个数。举例来说，当要识别的文字为中文时，C₂可为中文汉字的个数。当要识别的文字为英文时，C₂可为英文字母的个数。本实施例首先从待识别图像的第一文字识别区域中过滤出含有文字的第二文字识别区域，然后仅对含有文字的第二文字识别区域的文字特征向量做矩阵乘法，即通过减小T来降低文字识别的计算量。通常情况下，T'为T的1/7～1/8。

在通过所述第二计算子层，对所述第二文字识别区域中的文字为每一个文字字符的特征向量进行归一化操作时，通过使用SoftMax函数，对所述第二文字识别区域中的文字为每一个文字字符的特征向量进行归一化操作，获得所述第二文字识别区域中的文字为每一个文字字符的概率分布。举例来说，当要识别的文字为英文时，第二文字识别区域中的文字为每一个文字字符的概率分布具体为第二文字识别区域中的文字为每一个英文字母的概率分布。

在使用神经网络模型之前，需要对神经网络模型进行训练。在训练所述神经网络模型时，先将神经网络模型中的特征提取层和文字识别层训练至收敛，然后，固定特征提取层和文字识别层的网络参数，加入过滤层继续训练至收敛。其中，所述过滤层包括：第一全连接子层、第一计算子层以及过滤子层；所述第一全连接子层与所述特征提取层的输出端连接，所述第一全连接子层、所述第一计算子层以及所述过滤子层依次顺序连接。具体地，所述过滤层具有连接在所述特征提取层输出端的第一全连接子层、连接在所述第一全连接子层输出端的第一计算子层以及连接在所述第一计算子层输出端的过滤子层。训练过滤层的监督标签可为文字识别层中的第二计算子层的输出结果。由此，由第二计算子层确定为不含有文字的文字识别区域可标记为1。

在实际的应用中，利用本实施例提供的文字的识别方法，能够减少现有文字识别方法中全连接层的计算量70％-90％，从而提升文字识别的运行速度，尤其对中文等字符类别数较多的文字识别加速效果十分明显。

根据本实施例提供的文字的识别方法，通过用于文字识别的神经网络模型的特征提取层对待识别图像进行特征提取，获得待识别图像的第一文字识别区域的文字特征向量，并通过用于文字识别的神经网络模型的过滤层根据第一文字识别区域的文字特征向量对第一文字识别区域进行过滤，获得含有文字的第二文字识别区域，再通过用于文字识别的神经网络模型的文字识别层根据第二文字识别区域的文字特征向量对待识别图像进行文字识别，获得待识别图像的文字识别结果，与现有技术相比，能够对待识别图像的第一文字识别区域进行过滤，获得过滤掉空白符的第二文字识别区域，并根据第二文字识别区域的文字特征向量对待识别图像进行文字识别，减少了文字识别的计算量，从而提升了整体识别文字的速度。

实施例四

基于相同的技术构思，图4是示出根据本发明实施例四的一种文字的识别装置的结构示意图。可用以执行如实施例一所述的文字的识别方法的流程。

参照图4，该文字的识别装置包括特征提取模块401、过滤模块402和文字识别模块403。

特征提取模块401，用于对待识别图像进行特征提取，获得所述待识别图像的第一文字识别区域的文字特征向量；

过滤模块402，用于根据所述第一文字识别区域的文字特征向量对所述第一文字识别区域进行过滤，获得第二文字识别区域，所述第二文字识别区域为过滤掉空白符的文字识别区域；

文字识别模块403，用于根据所述第二文字识别区域的文字特征向量对所述待识别图像进行文字识别，获得所述待识别图像的文字识别结果。

通过本实施例提供的文字的识别装置，对待识别图像进行特征提取，获得待识别图像的第一文字识别区域的文字特征向量，并根据第一文字识别区域的文字特征向量对第一文字识别区域进行过滤，获得过滤掉空白符的第二文字识别区域，再根据第二文字识别区域的文字特征向量对待识别图像进行文字识别，获得待识别图像的文字识别结果，与现有技术相比，能够对待识别图像的第一文字识别区域进行过滤，获得过滤掉空白符的第二文字识别区域，并根据第二文字识别区域的文字特征向量对待识别图像进行文字识别，减少了文字识别的计算量，从而提升了整体识别文字的速度。

实施例五

基于相同的技术构思，图5是根据本发明实施例五的一种文字的识别装置的结构示意图。可用以执行如实施例二或实施例三所述的文字的识别方法的流程。

参照图5，该文字的识别装置包括特征提取模块501、过滤模块503和文字识别模块505。其中，特征提取模块501，用于对待识别图像进行特征提取，获得所述待识别图像的第一文字识别区域的文字特征向量；过滤模块503，用于根据所述第一文字识别区域的文字特征向量对所述第一文字识别区域进行过滤，获得第二文字识别区域，所述第二文字识别区域为过滤掉空白符的文字识别区域；文字识别模块505，用于根据所述第二文字识别区域的文字特征向量对所述待识别图像进行文字识别，获得所述待识别图像的文字识别结果。

可选地，所述特征提取模块501，包括：特征提取子模块502，用于通过所述特征提取层，对待识别图像进行特征提取，获得所述待识别图像的第一文字识别区域的文字特征向量；所述过滤模块503，包括：过滤子模块504，用于通过所述过滤层，根据所述第一文字识别区域的文字特征向量对所述第一文字识别区域进行过滤，获得第二文字识别区域；所述文字识别模块505，包括：文字识别子模块506，用于通过所述文字识别层，根据所述第二文字识别区域的文字特征向量对所述待识别图像进行文字识别，获得所述待识别图像的文字识别结果。

可选地，所述过滤层包括：第一全连接子层、第一计算子层以及过滤子层；所述第一全连接子层与所述特征提取层的输出端连接，所述第一全连接子层、所述第一计算子层以及所述过滤子层依次顺序连接；其中，所述过滤子模块504，包括：第一映射单元5041，用于通过所述第一全连接子层，对所述第一文字识别区域的文字特征向量进行映射操作，获得所述第一文字识别区域是否含有文字的特征向量；第一归一化单元5042，用于通过所述第一计算子层，对所述第一文字识别区域是否含有文字的特征向量进行归一化操作，获得所述第一文字识别区域是否含有文字的概率；过滤单元5043，用于通过所述过滤子层，过滤出所述第一文字识别区域中含有文字的概率大于或等于文字阈值的第一文字识别区域，从而获得所述第二文字识别区域。

可选地，所述第一归一化单元5042，具体用于：通过使用SoftMax函数或Sigmoid函数，对所述第一文字识别区域是否含有文字的特征向量进行归一化操作，获得所述第一文字识别区域是否含有文字的概率。

可选地，所述文字识别层包括：第二全连接子层、第二计算子层以及连接时序分类CTC子层；所述第二全连接子层与所述过滤层的输出端连接，所述第二全连接子层、所述第二计算子层以及所述连接时序分类CTC子层依次顺序连接；其中，所述文字识别子模块506，包括：第二映射单元5061，用于通过所述第二全连接子层，对所述第二文字识别区域的文字特征向量进行映射操作，获得所述第二文字识别区域中的文字为每一个文字字符的特征向量；第二归一化单元5062，用于通过所述第二计算子层，对所述第二文字识别区域中的文字为每一个文字字符的特征向量进行归一化操作，获得所述第二文字识别区域中的文字为每一个文字字符的概率分布；识别单元5063，用于通过所述CTC子层，根据所述第二文字识别区域中的文字为每一个文字字符的概率分布识别出所述待识别图像的文字识别结果。

可选地，所述第二归一化单元5062，具体用于：通过使用SoftMax函数，对所述第二文字识别区域中的文字为每一个文字字符的特征向量进行归一化操作，获得所述第二文字识别区域中的文字为每一个文字字符的概率分布。

需要说明的是，对于本发明实施例提供的文字的识别装置还涉及的具体细节已在本发明实施例提供的文字的识别方法中作了详细的说明，在此不在赘述。

实施例六

本发明实施例还提供了一种电子设备，例如可以是移动终端、个人计算机(PC)、平板电脑、服务器等。下面参考图6，其示出了适于用来实现本发明实施例的终端设备或服务器的电子设备600的结构示意图。如图6所示，电子设备600包括一个或多个处理器、通信元件等，所述一个或多个处理器例如：一个或多个中央处理单元(CPU)601，和/或一个或多个图像处理器(GPU)613等，处理器可以根据存储在只读存储器(ROM)602中的可执行指令或者从存储部分608加载到随机访问存储器(RAM)603中的可执行指令而执行各种适当的动作和处理。本实施例中，只读存储器602和随机访问存储器603统称为存储器。通信元件包括通信组件612和/或通信接口609。其中，通信组件612可包括但不限于网卡，所述网卡可包括但不限于IB(Infiniband)网卡，通信接口609包括诸如LAN卡、调制解调器等的网络接口卡的通信接口，通信接口609经由诸如因特网的网络执行通信处理。

处理器可与只读存储器602和/或随机访问存储器603中通信以执行可执行指令，通过通信总线604与通信组件612相连、并经通信组件612与其他目标设备通信，从而完成本发明实施例提供的任一项文字的识别方法对应的操作，例如，对待识别图像进行特征提取，获得所述待识别图像的第一文字识别区域的文字特征向量；根据所述第一文字识别区域的文字特征向量对所述第一文字识别区域进行过滤，获得第二文字识别区域，所述第二文字识别区域为过滤掉空白符的文字识别区域；根据所述第二文字识别区域的文字特征向量对所述待识别图像进行文字识别，获得所述待识别图像的文字识别结果。

此外，在RAM 603中，还可存储有装置操作所需的各种程序和数据。CPU601或GPU613、ROM602以及RAM603通过通信总线604彼此相连。在有RAM603的情况下，ROM602为可选模块。RAM603存储可执行指令，或在运行时向ROM602中写入可执行指令，可执行指令使处理器执行上述通信方法对应的操作。输入/输出(I/O)接口605也连接至通信总线604。通信组件612可以集成设置，也可以设置为具有多个子模块(例如多个IB网卡)，并在通信总线链接上。

以下部件连接至I/O接口605：包括键盘、鼠标等的输入部分606；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分607；包括硬盘等的存储部分608；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信接口609。驱动器610也根据需要连接至I/O接口605。可拆卸介质611，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器610上，以便于从其上读出的计算机程序根据需要被安装入存储部分608。

需要说明的，如图6所示的架构仅为一种可选实现方式，在具体实践过程中，可根据实际需要对上述图6的部件数量和类型进行选择、删减、增加或替换；在不同功能部件设置上，也可采用分离设置或集成设置等实现方式，例如GPU和CPU可分离设置或者可将GPU集成在CPU上，通信元件可分离设置，也可集成设置在CPU或GPU上，等等。这些可替换的实施方式均落入本发明的保护范围。

特别地，根据本发明实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本发明实施例包括一种计算机程序产品，其包括有形地包含在机器可读介质上的计算机程序，计算机程序包含用于执行流程图所示的方法的程序代码，程序代码可包括对应执行本发明实施例提供的方法步骤对应的指令，例如，对待识别图像进行特征提取，获得所述待识别图像的第一文字识别区域的文字特征向量；根据所述第一文字识别区域的文字特征向量对所述第一文字识别区域进行过滤，获得第二文字识别区域，所述第二文字识别区域为过滤掉空白符的文字识别区域；根据所述第二文字识别区域的文字特征向量对所述待识别图像进行文字识别，获得所述待识别图像的文字识别结果。在这样的实施例中，该计算机程序可以通过通信元件从网络上被下载和安装，和/或从可拆卸介质611被安装。在该计算机程序被处理器执行时，执行本发明实施例的方法中限定的上述功能。

需要指出，根据实施的需要，可将本发明实施例中描述的各个部件/步骤拆分为更多部件/步骤，也可将两个或多个部件/步骤或者部件/步骤的部分操作组合成新的部件/步骤，以实现本发明实施例的目的。

上述根据本发明实施例的方法可在硬件、固件中实现，或者被实现为可存储在记录介质(诸如CD ROM、RAM、软盘、硬盘或磁光盘)中的软件或计算机代码，或者被实现通过网络下载的原始存储在远程记录介质或非暂时机器可读介质中并将被存储在本地记录介质中的计算机代码，从而在此描述的方法可被存储在使用通用计算机、专用处理器或者可编程或专用硬件(诸如ASIC或FPGA)的记录介质上的这样的软件处理。可以理解，计算机、处理器、微处理器控制器或可编程硬件包括可存储或接收软件或计算机代码的存储组件(例如，RAM、ROM、闪存等)，当所述软件或计算机代码被计算机、处理器或硬件访问且执行时，实现在此描述的处理方法。此外，当通用计算机访问用于实现在此示出的处理的代码时，代码的执行将通用计算机转换为用于执行在此示出的处理的专用计算机。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及方法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明实施例的范围。

以上实施方式仅用于说明本发明实施例，而并非对本发明实施例的限制，有关技术领域的普通技术人员，在不脱离本发明实施例的精神和范围的情况下，还可以做出各种变化和变型，因此所有等同的技术方案也属于本发明实施例的范畴，本发明实施例的专利保护范围应由权利要求限定。

Claims

1.一种文字的识别方法，其特征在于，所述方法包括：

对待识别图像进行特征提取，获得所述待识别图像的第一文字识别区域的文字特征向量；

根据所述第一文字识别区域的文字特征向量对所述第一文字识别区域进行过滤，获得第二文字识别区域，所述第二文字识别区域为过滤掉空白符的文字识别区域；

根据所述第二文字识别区域的文字特征向量对所述待识别图像进行文字识别，获得所述待识别图像的文字识别结果。

2.根据权利要求1所述的方法，其特征在于，所述文字的识别方法通过神经网络模型实现，

所述神经网络模型包括：特征提取层、连接在所述特征提取层输出端的过滤层以及连接在所述过滤层输出端的文字识别层。

3.根据权利要求2所述的方法，其特征在于，所述对待识别图像进行特征提取，获得所述待识别图像的第一文字识别区域的文字特征向量，包括：

通过所述特征提取层，对待识别图像进行特征提取，获得所述待识别图像的第一文字识别区域的文字特征向量；

所述根据所述第一文字识别区域的文字特征向量对所述第一文字识别区域进行过滤，获得第二文字识别区域，包括：

通过所述过滤层，根据所述第一文字识别区域的文字特征向量对所述第一文字识别区域进行过滤，获得第二文字识别区域；

所述根据所述第二文字识别区域的文字特征向量对所述待识别图像进行文字识别，获得所述待识别图像的文字识别结果，包括：

通过所述文字识别层，根据所述第二文字识别区域的文字特征向量对所述待识别图像进行文字识别，获得所述待识别图像的文字识别结果。

4.根据权利要求3所述的方法，其特征在于，所述过滤层包括：第一全连接子层、第一计算子层以及过滤子层；

所述第一全连接子层与所述特征提取层的输出端连接，所述第一全连接子层、所述第一计算子层以及所述过滤子层依次顺序连接；

其中，通过所述过滤层，根据所述第一文字识别区域的文字特征向量对所述第一文字识别区域进行过滤，获得第二文字识别区域，包括：

通过所述第一全连接子层，对所述第一文字识别区域的文字特征向量进行映射操作，获得所述第一文字识别区域是否含有文字的特征向量；

通过所述第一计算子层，对所述第一文字识别区域是否含有文字的特征向量进行归一化操作，获得所述第一文字识别区域是否含有文字的概率；

通过所述过滤子层，过滤出所述第一文字识别区域中含有文字的概率大于或等于文字阈值的第一文字识别区域，从而获得所述第二文字识别区域。

5.根据权利要求4所述的方法，其特征在于，所述通过所述第一计算子层，对所述第一文字识别区域是否含有文字的特征向量进行归一化操作，获得所述第一文字识别区域是否含有文字的概率，包括：

通过使用SoftMax函数或Sigmoid函数，对所述第一文字识别区域是否含有文字的特征向量进行归一化操作，获得所述第一文字识别区域是否含有文字的概率。

6.根据权利要求3～5中任意一项权利要求所述的方法，其特征在于，所述文字识别层包括：第二全连接子层、第二计算子层以及连接时序分类CTC子层；

所述第二全连接子层与所述过滤层的输出端连接，所述第二全连接子层、所述第二计算子层以及所述连接时序分类CTC子层依次顺序连接；

其中，通过所述文字识别层，根据所述第二文字识别区域的文字特征向量对所述待识别图像进行文字识别，获得所述待识别图像的文字识别结果，包括：

通过所述第二全连接子层，对所述第二文字识别区域的文字特征向量进行映射操作，获得所述第二文字识别区域中的文字为每一个文字字符的特征向量；

通过所述第二计算子层，对所述第二文字识别区域中的文字为每一个文字字符的特征向量进行归一化操作，获得所述第二文字识别区域中的文字为每一个文字字符的概率分布；

通过所述CTC子层，根据所述第二文字识别区域中的文字为每一个文字字符的概率分布识别出所述待识别图像的文字识别结果。

7.一种文字的识别装置，其特征在于，所述装置包括：

特征提取模块，用于对待识别图像进行特征提取，获得所述待识别图像的第一文字识别区域的文字特征向量；

过滤模块，用于根据所述第一文字识别区域的文字特征向量对所述第一文字识别区域进行过滤，获得第二文字识别区域，所述第二文字识别区域为过滤掉空白符的文字识别区域；

文字识别模块，用于根据所述第二文字识别区域的文字特征向量对所述待识别图像进行文字识别，获得所述待识别图像的文字识别结果。

8.一种计算机可读存储介质，其上存储有计算机程序指令，其中，所述程序指令被处理器执行时实现权利要求1～6中任意一项权利要求所述的文字的识别方法的步骤。

9.一种计算机程序产品，其包括有计算机程序指令，其中，所述程序指令被处理器执行时实现权利要求1～6中任意一项权利要求所述的文字的识别方法的步骤。

10.一种电子设备，包括：处理器、存储器、通信元件和通信总线，所述处理器、所述存储器和所述通信元件通过所述通信总线完成相互间的通信；

所述存储器用于存放至少一可执行指令，所述可执行指令使所述处理器执行如权利要求1～6中任意一项权利要求所述的文字的识别方法的步骤。