CN112633422A

CN112633422A - 文本识别模型的训练方法、文本识别方法、装置及设备

Info

Publication number: CN112633422A
Application number: CN202110258666.7A
Authority: CN
Inventors: 李自荐; 秦勇
Original assignee: Beijing Yizhen Xuesi Education Technology Co Ltd
Current assignee: Beijing Yizhen Xuesi Education Technology Co Ltd
Priority date: 2021-03-10
Filing date: 2021-03-10
Publication date: 2021-04-09
Anticipated expiration: 2041-03-10
Also published as: CN112633422B

Abstract

本发明提供一种文本识别模型的训练方法、文本识别方法、装置及设备。训练方法包括：构建初始模型；以第一文本图像数据经循环神经网络的输出为词嵌入模块的字符串输入，并基于第一文本图像数据经第二部分的第二卷积神经网络后获得的第一特征图为词嵌入模块的另一个输入，训练初始模型获得收敛的初始模型；基于收敛的初始模型，获得文本识别模型；其中初始模型包括第一部分，用于识别图像的文本内容，第一部分具有第一卷积神经网络和循环神经网络；第二部分，用于判断给定文本是否在给定图像中，第二部分具有第二卷积神经网络和词嵌入模块；装置用于执行上述方法。本发明的训练方法可以获得具有识别速度快且能够兼顾更高的识别精度的文本识别模型。

Description

文本识别模型的训练方法、文本识别方法、装置及设备

技术领域

本发明涉及文本识别技术，尤其涉及一种文本识别模型的训练方法、文本识别方法、装置及设备。

背景技术

文本检测与识别应用范围广泛，是很多计算机视觉任务的前置步骤，比如图像搜索、身份认证和视觉导航等，文本检测的主要目的是定位文本行或字符在图像中的位置，而文本识别是将带文本行图像转录成字符串（识别其内容），文本的精准定位和准确识别既十分重要又具备挑战，因为相较于通用目标检测和识别来说，文字具有多方向、不规则形状、极端长宽比、字体、颜色、背景多样等特点，因此，往往在通用目标检测和识别上较为成功的算法无法直接迁移到文字检测中。

现有的文本识别模型和方法的识别效果受到诸多因素的影响，识别速度和识别精度难以兼得，无法满足计算机视觉任务快速发展的需求。

发明内容

为了解决上述技术问题的至少一个，本发明提供了一种文本识别模型的训练方法、文本识别方法、装置及设备。

本发明的技术方案是这样实现的：

第一方面，本发明的实施例提供了一种文本识别模型的训练方法，包括：

构建初始模型，所述初始模型包括：

第一部分，用于识别图像中的文本内容，所述第一部分具有第一卷积神经网络和循环神经网络；

第二部分，用于判断给定文本是否在给定的图像中，所述第二部分具有第二卷积神经网络和词嵌入模；

以第一文本图像数据经所述循环神经网络的输出为所述词嵌入模块的字符串输入，并基于第一文本图像数据经第二部分的第二卷积神经网络后获得的第一特征图为所述词嵌入模块的另一个输入，训练所述初始模型获得收敛的初始模型；

基于所述收敛的初始模型，获得文本识别模型。

在一种实施方式中，所述以第一文本图像数据经所述循环神经网络的输出为所述词嵌入模块的字符串输入，并基于第一文本图像数据经第二部分的第二卷积神经网络后获得的第一特征图为所述词嵌入模块的另一个输入，训练所述初始模型获得收敛的初始模型，包括：

将所述第一文本图像数据输入第一部分的第一卷积神经网络和所述循环神经网络，得到字符编码矩阵；

将第一文本图像数据输入第二部分的第二卷积神经网络，得到第一特征图；

将所述字符编码矩阵和所述第一特征图输入第二部分的词嵌入模块，并根据第一损失函数，训练初始模型获得收敛的初始模型。

在一种实施方式中，所述第二卷积神经网络的参数为基于所述第一卷积神经网络的参数获得的参数。

在一种实施方式中，所述第一部分为按照如下方式训练获得的模型：

基于第二文本图像数据和所述第二文本图像数据的文本标注信息，根据第二损失函数训练预先构建的第一模型，获得能够识别图像中文本内容的识别模型作为第一部分；

其中，所述预先构建的第一模型为基于所述第一卷积神经网络、所述循环神经网络构建的模型，所述第一卷积神经网络的输出为所述循环神经网络的输入。

在一种实施方式中，所述第二部分为按照如下方式训练获得的模型：

基于第三文本图像数据和所述第三文本图像数据的文本标注信息对应的词向量，根据第一损失函数训练预先构建的第二模型，获得能够判断给定文本是否在给定图像中的模型作为第二部分；

其中，所述预先构建的第二模型为基于第二卷积神经网络和所述词嵌入模块构建的模型，所述第二卷积神经网络的初始参数为所述第一卷积神经网络的参数。

在一种实施方式中，基于第三文本图像数据和所述第三文本图像数据的文本标注信息对应的词向量，根据第一损失函数训练预先构建的第二模型，包括：

将所述第三文本图像数据输入到所述第二卷积神经网络，得到第二特征图；

以所述词向量作为所述词嵌入模块的字符串输入，所述第二特征图作为所述词嵌入模块的另一个输入；基于所述第一损失函数，训练所述预先构建的第二模型；其中，所述第一损失函数为二分类交叉熵损失函数。

在一种实施方式中，所述词嵌入模块包括基于注意力机制的编解码器。

在一种实施方式中，所述第一卷积神经网络包括依序设置的四个Block块；

四个Block块的输出分别通过降采样或升采样使得四个Block的输出具有相同的第一大小；

所述第一卷积神经网络的输出由四个所述Block块的输出的对应位置元素逐点相加构成。

在一种实施方式中，所述第二卷积神经网络包括依序设置的四个Block块；

四个Block块的输出分别通过降采样或升采样使得四个Block的输出具有相同的第二大小；

所述第二卷积神经网络的输出由四个所述Block块的输出的对应位置元素逐点相加构成。

在一种实施方式中，所述基于收敛的初始模型，获得文本识别模型包括：

基于所述收敛的初始模型的第一部分，构建所述文本识别模型；或，

将所述收敛的初始模型作为所述文本识别模型。

第二方面，本发明的实施例提供了一种文本识别方法，包括：

将待识别图像输入到预先获得的文本识别模型进行文本识别，输出所述待识别图像的文本识别结果；

其中，所述预先获得的文本识别模型包括：基于第一方面中任一种实施方式的方法获得的文本识别模型。

第三方面，本发明的实施例提供了一种文本识别模型的训练装置，包括：

初始模型构建模块，用于构建初始模型；

初始模型训练模块，用于以第一文本图像数据经循环神经网络的输出为词嵌入模块的字符串输入，并基于第一文本图像数据经第二部分的第二卷积神经网络后获得的第一特征图为所述词嵌入模块的另一个输入，训练所述初始模型获得收敛的初始模型；

文本识别模型获取模块，用于基于所述收敛的初始模型，获取文本识别模型；

其中，所述初始模型包括：

第二部分，用于判断给定文本是否在给定的图像中，所述第二部分具有第二卷积神经网络和词嵌入模块。

在一种实施方式中，初始模型训练模块，具体用于：

将所述第一文本图像数据输入第一部分的第一卷积神经网络和循环神经网络，得到字符编码矩阵；

将所述第一文本图像数据输入第二部分的第二卷积神经网络，得到第一特征图；

将所述字符编码矩阵和所述第一特征图输入第二部分的词嵌入模块，并根据第一损失函数，训练所述初始模型获得收敛的初始模型。

在一种实施方式中，所述初始模型构建模块包括：第一部分训练模块，用于基于第二文本图像数据和所述第二文本图像数据的文本标注信息，根据第二损失函数训练预先构建的第一模型，获得能够识别图像中文本内容的识别模型作为第一部分；

在一种实施方式中，所述初始模型构建模块包括：

第二部分训练模块，用于基于第三文本图像数据和所述第三文本图像数据的文本标注信息对应的词向量，根据第一损失函数训练预先构建的第二模型，获得能够判断给定文本是否在给定图像中的模型作为第二部分；

以所述词向量作为所述词嵌入模块的字符串输入，所述第二特征图作为所述词嵌入模块的另一个输入，基于所述第一损失函数，训练所述预先构建的第二模型；其中，所述第一损失函数为二分类交叉熵损失函数。

在一种实施方式中，所述文本识别模型获取模块，具体用于：

将所述收敛的初始模型作为所述文本识别模型。

第四方面，本发明的实施例提供了一种文本识别装置，包括：

文本识别模块，用于将待识别图像输入到预先获得的文本识别模型进行文本识别，输出所述待识别图像的文本识别结果；

其中，所述预先获得的文本识别模型包括：基于上述各方面中任一种实施方式的方法获得的文本识别模型。

第五方面，本发明的实施例提供了一种可读存储介质，该可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现上述各方面任一种实施方式中的方法。

第六方面，本发明的实施例提供了一种电子设备，该电子设备包括：处理器和存储器，所述存储器中存储指令，所述指令由处理器加载并执行，以实现上述各方面任一种实施方式中的方法。

上述技术方案中的优点或有益效果至少包括：

本发明的技术方案通过具有识别图像文本内容的能力的第一部分，和能够判断给定文本是否在给定的图像中的第二部分构建一个初始模型，将第一部分的循环神经网络的输出作为第二部分词嵌入模块的输入，从而实现第一部分和第二部分的联合，并对这个初始模型进行训练，达到联合训练的目的。在训练完成之后，基于收敛的初始模型，获得文本识别模型，使得该文本识别模型间接拥有建模字符之间关系的能力，达到提高识别速度的同时，兼顾实现更高的识别精度。

附图说明

附图示出了本发明的示例性实施方式，并与其说明一起用于解释本发明的原理，其中包括了这些附图以提供对本发明的进一步理解，并且附图包括在本说明书中并构成本说明书的一部分。

图1是本发明实施例的文本识别模型的训练方法的流程图；

图2是本发明实施例中第一部分的训练方法的流程图；

图3是本发明实施例中第二部分的训练方法的流程图；

图4是本发明实施例中初始模型的训练方法的流程图；

图5是本发明实施例的文本识别模型的训练装置的逻辑示意图；

图6是本发明实施例的文本识别方法的流程图；

图7是本发明实施例的文本识别装置的逻辑示意图；

图8是本发明实施例的电子设备的原理示意图。

具体实施方式

下面结合附图和实施方式对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施方式仅用于解释相关内容，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分。

需要说明的是，在不冲突的情况下，本发明中的实施方式及实施方式中的特征可以相互组合。下面将参考附图并结合实施方式来详细说明本发明。

需要说明的是，文中的步骤编号，仅为了方便具体实施例的解释，不作为限定步骤执行先后顺序的作用。本实施例提供的方法可以由相关的服务器执行，且下文均以服务器或计算机等电子设备作为执行主体为例进行说明。

实施例一

参照图1，本发明实施例提供了一种文本识别模型的训练方法，其特征在于，包括：

步骤S1：构建初始模型，初始模型由卷积神经网络（Convolutional NeuralNetworks,CNN）、循环神经网络（Recurrent Neural Network，RNN）和词嵌入模块等基础部分组成,卷积神经网络包括第一卷积神经网络和第二卷积神经网络，初始模型包括第一部分和第二部分，第一部分和第二部分分别由多个基础部分组成，其中：

第一部分，用于识别图像中的文本内容，第一部分具有第一卷积神经网络和循环神经网络；

第二部分，用于判断给定文本是否在给定的图像中，第二部分具有词嵌入模块和第二卷积神经网络；其中，第二卷积神经网络为基于第一卷积神经网络的参数获得的卷积神经网络；

步骤S2：以第一文本图像数据经循环神经网络的输出为词嵌入模块的字符串输入，并基于第一文本图像数据经第二部分的第二卷积神经网络后获得的特征图为词嵌入模块的另一个输入，训练初始模型获得收敛的初始模型；

步骤S3：基于收敛的初始模型，获得文本识别模型。

本发明的实施例通过具有识别图像文本内容的能力的第一部分，和能够判断给定文本是否在给定的图像中的第二部分构建一个初始模型，将第一部分的循环神经网络的输出作为第二部分词嵌入模块的输入，从而实现第一部分和第二部分的联合，本实施例通过第二部分使得初始模型具有判断给定文本是否在给定的图像中的能力，通过联合训练使得第一部分也间接拥有该判断能力，从而能够间接拥有建模字符之间关系的能力，达到提高识别速度的同时，兼顾实现更高的识别精度。

图2示例出本发明实施例中第一部分的实现方法流程图，第一部分可根据以下方式获得：

步骤S11：基于第一卷积神经网络和循环神经网络预先构建第一模型，其中，第一卷积神经网络的输出为循环神经网络的输入；

步骤S12：基于第二文本图像数据和第二文本图像数据的文本标注信息，根据第二损失函数训练预先构建的第一模型，获得能够识别图像中文本内容的识别模型。

在本实施例中，第二损失函数为CTC损失函数（Connectionist TemporalClassification，CTC），使得第一部分能够基于CTC损失函数进行有监督的训练；可以看出，当具有CTC损失函数时，本实施例的第一部分的结构与CRNN（Convolutional RecurrentNeural Network）结构类似。

已知的，CRNN从下至上，由卷积神经网络、循环神经网络和翻译层三部分组成，卷积神经网络负责从带文字的图片中提取特征，循环神经网络负责用卷积神经网络提取的特征进行序列预测，翻译层将循环神经网络得到的序列翻译为字母序列，目标函数选择CTC损失函数；CRNN的一大优点是尽管包含不同类型的网络结构，但是仍然能够被端到端的训练，因此，本实施例的第一部分也能够被端到端的训练。

作为一种实施方式，采用双层双向LSTM网络（LongShort-TermMemory，LSTM），构建循环神经网络，该循环神经网络的输入为L*N的矩阵；卷积神经网络的输出为一个L*N的矩阵，其中L表示能识别的最长串的字符数，N表示字典的大小，与常规模型不同的是，本实施例中，第一卷积神经网络包括依序设置的四个Block块。

本实施方式中，通过将第一文本图像输入第一卷积神经网络，经第一卷积神经网络中的各Block块进行特征提取，获得相应的特征图后，对四个Block块的特征图分别通过降采样或升采样处理，分别获得处理后的特征图，并且四个Block块的处理后的特征图具有相同的第一大小，为了使得第一卷积神经网络的输出满足循环神经网络的输入的相同长度，本实施例中，对四个Block块中的前三个Block块的特征图分别进行降采样处理，获得处理后的特征图，使得第一大小为原始输入的图像1/32；然后将四个Block块的输出进行对应位置元素的逐点相加，从而使第一卷积神经网络的输出构成一个L*N的矩阵，以此作为循环神经网络的输入。其中L表示能识别的最长串的字符数，N表示字典的大小。

图3示例出本发明实施例中第二部分的实现方法流程图；第二部分可根据以下方式获得：

S13：基于第二卷积神经网络和词嵌入模块构预先构建第二模型；其中，第二卷积神经网络的输出为词嵌入模块的另一个输入；

S14：基于第三文本图像数据和第三文本图像数据的文本标注信息对应的词向量，根据第一损失函数训练预先构建的第二模型，获得能够判断给定文本是否在给定图像中的模型。

本实施例中，第二部分的词嵌入模块包括基于注意力（Attention）机制的编解码器，编解码器可以看成是一层简单的RNN，Attention部分可以看出是夹在两个RNN之间，Attention部分之前的RNN为第一部分的循环神经网络，之后的RNN为解码器，Attention部分包括q，x，v，其中，v是x的集合，q是查询向量。

本实施例中，对第二部分单独训练时，以文本图像的文本信息，经过编码后获得的词向量作为查询向量q，以第二卷积神经网络输出的矩阵作为v，即词嵌入模块的另一个输入；当第一部分和第二部分融合训练，即对初始模型进行训练时，则以第一部分的循环神经网络的输出作为词嵌入模块的字符串输入，即作为查询向量q；通过计算q和v之间的相似度，得到v中每个x的输入权重值，以此作为解码器的输入，解码后根据第一损失函数，获得损失值，以此训练初始模型。

其中，对文本信息进行编码，可选用平滑One-Hot编码或Word2vec等编码方式编码，使得文本信息中每个字符被编码为指定长度的向量，一个字符串为一个固定大小的矩阵，相比于一般One-Hot编码，平滑One-Hot编码对应元素位置是0.9，其他位置为0.1。

本发明实施例中，在对初始模型训练前，会预先训练第二部分，而在单独针对第二部分进行训练时，会根据文本图像数据以及文本图像数据的标注信息对应的词向量对第二部分的参数（包括第二卷积神经网络以及词嵌入模块的参数）进行调整，以获得训练的第二部分。即在步骤S14中，基于第三文本图像数据和第三文本图像数据的文本标注信息对应的词向量，根据第一损失函数训练预先构建的第二模型，包括：

将第三文本图像数据输入到第二卷积神经网络，得到第二特征图；

以词向量作为词嵌入模块的字符串输入，第二特征图作为词嵌入模块的另一个输入；基于第一损失函数，训练预先构建的第二模型；词嵌入模块的输出连接有Softmax函数模块；其中，第一损失函数为二分类交叉熵损失函数。

在理想状态下，经词嵌入模块的预测值与真实值会一致。第一损失函数为二分类交叉熵损失函数。本发明的实施例通过对第二部分的训练，以尽可能的趋近于理想状态，词嵌入模块后接一个Softmax函数，用于获取损失值，以对第二部分进行有监督的训练。

作为一种实施方式，第二卷积神经网络包括依序设置的四个Block块；

本实施方式中，通过将第三文本图像输入第二卷积神经网络，经第二卷积神经网络中的各Block块进行特征提取，获得特征图后，对四个Block块的特征图分别通过降采样或升采样处理，分别获得处理后的特征图，并且四个Block块的处理后的特征图具有相同的第二大小，为了使得第二卷积神经网络的输出满足词嵌入模块的输入的相同的长度，本实施例中，对四个Block块中的前两个Block块的特征图分别进行降采样处理，最后一个Block块的特征图进行升采样处理，获得处理后的特征图，使得第二大小为原始输入的图像1/16；然后将四个Block块的输出进行对应位置元素的逐点相加，从而使第二卷积神经网络的输出构成一个L*N的矩阵，从而获得第二卷积神经网络输出的特征图，以此作为词嵌入模块的输入。

图4示例出本发明实施例中初始模型的训练方法流程图，在一种实施方式中，步骤S2：以第一文本图像数据经循环神经网络的输出为词嵌入模块的字符串输入，并基于第一文本图像数据经第二部分的第二卷积神经网络后获得的第一特征图为词嵌入模块的另一个输入，训练初始模型获得收敛的初始模型获得收敛的初始模型，包括：

S21：将第一文本图像数据输入第一部分的第一卷积神经网络和循环神经网络，得到字符编码矩阵；

S22：将第一文本图像数据输入第二部分的第二卷积神经网络，得到第一特征图；

S23：将字符编码矩阵和第一特征图输入第二部分的词嵌入模块，并根据第一损失函数，获得损失值，根据损失值调整第一部分和第二部分的参数，得到收敛的初始模型。

在一种实施方式中，在完成第二部分的训练，在进行步骤S2之前，对循环神经网络的参数进行固定，以使得在对初始模型进行训练时，对第一卷积神经网络和对第二卷积神经网络的参数进行微调，循环神经网络的参数不变。另外，在对初始模型进行训练时候，可将第一部分的CTC损失函数屏蔽或去除，以第二部分的第一损失函数获取损失值进行有监督的训练，以使得第一部分和第二部分达到融合训练的目的。

本实施例中，通过将基于第一部分获得的字符编码矩阵和基于第二部分获得的第一特征图输入，分别作为第二部分的词嵌入模块的两个输入，并根据第一损失函数，监督训练整个初始模型，达到融合训练的目的，最后得到收敛的初始模型，使得该初始模型具有较快的识别速度和较高的识别精度。

作为本实施例的一种可选实施方式，基于收敛的初始模型，获得文本识别模型包括：基于收敛的初始模型的第一部分，构建文本识别模型；由于经过融合训练后，第一部分已经间接拥有建模字符之间关系的能力，其能够输出具有较高识别准确率的识别结果，且由于无需通过第二部分的判别，识别速度也将得到提升。

由上可知，根据本实施例的训练方法，通过具有识别图像文本内容的能力的第一部分，和能够判断给定文本是否在给定的图像中的第二部分，组成了一个初始模型，并且以第一部分的第一卷积神经网络作为第二部分的第二卷积神经网络的初始参数，实现两个卷积神经网络参数的共享，将第一部分的循环神经网络的输出作为第二部分词嵌入模块的输入，从而实现第一部分和第二部分的融合，并对这个初始模型进行训练，以同一损失函数监督训练整个初始模型（包括第一部分和第二部分），最终达到融合训练的目的，其中，第二部分由于能够判断给定文本是否在给定的图像中，因此其可用于判断第一部分给出的文本识别结果是否正确，起到判别的作用。在训练完成之后，基于第一部分，构建文本识别模型，使得该文本识别模型间接拥有建模字符之间关系的能力，达到提高识别速度的同时，兼顾实现更快的识别精度。

作为本实施例的一种可选实施方式，基于收敛的初始模型，获得文本识别模型包括：将收敛的初始模型作为文本识别模型，整个初始模型作为文本识别模型，进行文本识别时，以第一部分的循环神经网络的输出（L*N的矩阵）作为词嵌入模块的输入，结合第二部分的第二卷积神经网络获得的特征图作为词嵌入模块的另一个输入，最后词嵌入模块输出另一个L*N的矩阵，词嵌入模块输出的L*N矩阵与循环神经网络输出的L*N矩阵相比，多了文本属于图像的概率值，最后对词嵌入模块的输出进行解码，选择概率值最大的作为最终文本内容，从而进一步的提高识别准确度。

实施例二

参照图5，本发明实施例提供了一种文本识别模型的训练装置，包括：

初始模型构建模块，用于构建初始模型；

初始模型训练模块，用于以第一文本图像数据经所述循环神经网络的输出为所述词嵌入模块的字符串输入，并基于第一文本图像数据经第二部分的第二卷积神经网络后获得的第一特征图为所述词嵌入模块的另一个输入，训练所述初始模型获得收敛的初始模型；

其中，所述初始模型包括：

在一种实施方式中，初始模型训练模块，具体用于：

作为本实施例可选的实施方式，所述第二卷积神经网络的参数为基于所述第一卷积神经网络的参数获得的参数。

作为本实施例可选的实施方式，所述初始模型构建模块包括：第一部分训练模块，用于基于第二文本图像数据和所述第二文本图像数据的文本标注信息，根据第二损失函数训练预先构建的第一模型，获得能够识别图像中文本内容的识别模型作为第一部分；

作为本实施例可选的实施方式，所述初始模型构建模块包括：

作为本实施例可选的实施方式，基于第三文本图像数据和所述第三文本图像数据的文本标注信息对应的词向量，根据第一损失函数训练预先构建的第二模型，包括：

作为本实施例可选的实施方式，所述词嵌入模块包括基于注意力机制的编解码器。

作为本实施例可选的实施方式，所述第一卷积神经网络包括依序设置的四个Block块；

作为本实施例可选的实施方式，所述第二卷积神经网络包括依序设置的四个Block块；

作为本实施例可选的实施方式，所述文本识别模型获取模块，具体用于：

将所述收敛的初始模型作为所述文本识别模型。

本实施例的装置中的各模块的原理和功能与实施例一中的一致，本实施例不再重复描述。

实施例三

参照图6，本发明实施例提供了一种文本识别方法，包括：

将待识别图像输入到预先获得的文本识别模型进行文本识别，输出待识别图像的文本识别结果；

其中，预先获得的文本识别模型包括：基于前述实施例中任一种实施方式的方法获得的文本识别模型。

本实施例基于前述实施例中任一种实施方式的方法获得的文本识别模型，该文本识别模型能够准确识别图像中的文本信息，以待识别的文本图像作为输入，通过该文本识别模型，可直接使用贪心搜索，或者集束搜索进行解码，得到最终的识别结果，从而同时提高了识别速度和识别精度。

实施例四

参照图7，本发明实施例提供了一种文本识别装置，包括：

文本识别模块，用于将待识别图像输入到预先获得的文本识别模型进行文本识别，输出待识别图像的文本识别结果；

本实施例的装置中的各模块的原理和功能与前述实施例中的一致，本实施例不再重复描述。

实施例五

本实施例提供了一种可读存储介质，该可读存储介质内存储有计算机程序，计算机程序被处理器执行时实现上述任一种实施方式中的方法。该存储介质可以包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

实施例六

参照图8，本实施例提供了一种电子设备，该电子设备包括：处理器和存储器，存储器中存储指令，指令由处理器加载并执行，以实现上述任一种实施方式中的方法。

应理解的是，上述处理器可以是中央处理器(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processing，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(FieldProgrammable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者是任何常规的处理器等。值得说明的是，处理器可以是支持进阶精简指令集机器(Advanced RISC Machines，ARM)架构的处理器。

上述存储器可以包括只读存储器和随机存取存储器，还可以包括非易失性随机存取存储器。该存储器可以是易失性存储器或非易失性存储器，或可包括易失性和非易失性存储器两者。其中，非易失性存储器可以包括只读存储器(Read-Only Memory，ROM)、可编程只读存储器(Programmable ROM，PROM)、可擦除可编程只读存储器(Erasable PROM，EPROM)、电可擦除可编程只读存储器(Electrically EPROM，EEPROM)或闪存。易失性存储器可以包括随机存取存储器(Random Access Memory，RAM)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的RAM可用。例如，静态随机存取存储器(Static RAM，SRAM)、动态随机存取存储器(Dynamic Random Access Memory，DRAM)、同步动态随机存取存储器(Synchronous DRAM，SDRAM)、双倍数据速率同步动态随机存取存储器(Double DataDate SDRAM，DDRSDRAM)、增强型同步动态随机存取存储器(Enhanced SDRAM，ESDRAM)、同步连接动态随机存取存储器(Synch Link DRAM，SLDRAM)和直接内存总线随机存取存储器(Direct Rambus RAM，DRRAM)。

应理解的是，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行***执行的软件或固件来实现。上述实施例方法的全部或部分步骤是可以通过程序来指令相关的硬件完成，该程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本发明各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。上述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读存储介质中。该存储介质可以是只读存储器，磁盘或光盘等。

本发明的流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分。并且本发明的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能。

本发明在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行***、装置或设备(如基于计算机的***、包括处理器的***或其他可以从指令执行***、装置或设备取指令并执行指令的***)使用，或结合这些指令执行***、装置或设备而使用。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。

本领域的技术人员应当理解，上述实施方式仅仅是为了清楚地说明本发明，而并非是对本发明的范围进行限定。对于所属领域的技术人员而言，在上述公开的基础上还可以做出其它变化或变型，并且这些变化或变型仍处于本发明的范围内。

Claims

1.一种文本识别模型的训练方法，其特征在于，包括：

构建初始模型，所述初始模型包括：

第二部分，用于判断给定文本是否在给定的图像中，所述第二部分具有第二卷积神经网络和词嵌入模块；

基于所述收敛的初始模型，获得文本识别模型。

2.如权利要求1所述的方法，其特征在于，

所述以第一文本图像数据经所述循环神经网络的输出为所述词嵌入模块的字符串输入，并基于第一文本图像数据经第二部分的第二卷积神经网络后获得的第一特征图为所述词嵌入模块的另一个输入，训练所述初始模型获得收敛的初始模型，包括：

3.如权利要求1所述的方法，其特征在于，

所述第二卷积神经网络的参数为基于所述第一卷积神经网络的参数获得的参数。

4.如权利要求1所述的方法，其特征在于，

所述第一部分为按照如下方式训练获得的模型：

其中，所述预先构建的第一模型为基于所述第一卷积神经网络和所述循环神经网络构建的模型，所述第一卷积神经网络的输出为所述循环神经网络的输入。

5.如权利要求1所述的方法，其特征在于，

所述第二部分为按照如下方式训练获得的模型：

6.如权利要求5所述的方法，其特征在于，

基于第三文本图像数据和所述第三文本图像数据的文本标注信息对应的词向量，根据第一损失函数训练预先构建的第二模型，包括：

7.如权利要求1所述的方法，其特征在于，所述词嵌入模块包括基于注意力机制的编解码器。

8.如权利要求1所述的方法，其特征在于，

所述第一卷积神经网络包括依序设置的四个Block块；

9.如权利要求1所述的方法，其特征在于，

所述第二卷积神经网络包括依序设置的四个Block块；

10.如权利要求1所述的方法，其特征在于，

所述基于收敛的初始模型，获得文本识别模型包括：

将所述收敛的初始模型作为所述文本识别模型。

11.一种文本识别方法，其特征在于，包括：

其中，所述预先获得的文本识别模型包括：基于如权利要求1至10任一项所述的方法获得的文本识别模型。

12.一种文本识别模型的训练装置，其特征在于，包括：

初始模型构建模块，用于构建初始模型；

文本识别模型获取模块，用于基于所述收敛的初始模型，获得文本识别模型；

其中，所述初始模型包括：

13.如权利要求12所述的装置，其特征在于，初始模型训练模块，具体用于：

14.如权利要求12所述的装置，其特征在于，

15.如权利要求12所述的装置，其特征在于，所述初始模型构建模块包括：

第一部分训练模块，用于基于第二文本图像数据和所述第二文本图像数据的文本标注信息，根据第二损失函数训练预先构建的第一模型，获得能够识别图像中文本内容的识别模型作为第一部分；

16.如权利要求12所述的装置，其特征在于，所述初始模型构建模块包括：

其中，所述预先构建的第二模型为基于所述第二卷积神经网络和所述词嵌入模块构建的模型，所述第二卷积神经网络的初始参数为所述第一卷积神经网络的参数。

17.如权利要求16所述的装置，其特征在于，

以所述词向量作为所述词嵌入模块的字符串输入，所述第二特征图作为所述词嵌入模块的另一个输入，基于所述第一损失函数，训练所述预先构建的第二模型；其中，所述第一损失函数为二分类交叉熵损失函数第一损失函数。

18.如权利要求12所述的装置，其特征在于，所述词嵌入模块包括基于注意力机制的编解码器。

19.如权利要求12所述的装置，其特征在于，

所述第一卷积神经网络包括依序设置的四个Block块；

20.如权利要求12所述的装置，其特征在于，

所述第二卷积神经网络包括依序设置的四个Block块；

21.如权利要求12所述的装置，其特征在于，所述文本识别模型获取模块，具体用于：

将所述收敛的初始模型作为所述文本识别模型。

22.一种文本识别装置，其特征在于，包括：

23.一种可读存储介质，其特征在于，所述可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至11任一项所述的方法。

24.一种电子设备，其特征在于，包括：处理器和存储器，所述存储器中存储指令，所述指令由处理器加载并执行，以实现如权利要求1至11任一项所述的方法。