CN112418197A

CN112418197A - 简化图像获取模型训练、图像文本识别方法及相关装置

Info

Publication number: CN112418197A
Application number: CN202110087978.6A
Authority: CN
Inventors: 张蓓蓓; 秦勇
Original assignee: Beijing Century TAL Education Technology Co Ltd
Current assignee: Beijing Century TAL Education Technology Co Ltd
Priority date: 2021-01-22
Filing date: 2021-01-22
Publication date: 2021-02-26
Anticipated expiration: 2041-01-22
Also published as: CN112418197B

Abstract

本发明实施例提供了一种简化图像获取模型训练、图像文本识别方法及相关装置，训练方法包括：获取训练数据集，包括各个训练场景文本图像，以及各个基准简化文本图像，同一训练场景文本图像的基准简化文本图像的数量为至少两个；利用第一编码器，获取各个场景文本图像编码特征，利用解码器获取预测简化文本图像；从与训练场景文本图像对应的各个基准简化文本图像中随机获取比对基准文本图像，根据预测简化文本图像和比对基准文本图像，获取预测损失，调整第一编码器和解码器的参数，直至预测损失满足损失阈值。本发明实施例所提供的简化图像获取模型训练方法、图像文本识别方法及相关装置，可以保证图像文本识别准确性，减小模型的训练成本。

Description

简化图像获取模型训练、图像文本识别方法及相关装置

技术领域

本发明实施例涉及计算机领域，尤其涉及一种简化图像获取模型训练方法、图像文本识别方法及相关装置。

背景技术

图像文本识别是指从文本图像中识别出字符序列的过程，以为后续进一步进行处理（比如：题目批阅、文本语音合成等）提供字符信息。

随着技术的发展，图像文字识别可以通过识别模型实现。然而，为了保证模型的识别效果，需要利用大量的数据对识别模型进行训练，由于待文本识别的图像中的文本还可能为手写体，使得训练数据不仅要数量足够多，而且还要满足多样性，而为实现对模型训练的效果的判断，还需要对训练数据中的文字图像进行人工标注，这会造成大量人力物力的消耗。

因此，如何在保证图像文本识别准确性的基础上，减小模型的训练成本，就成为亟需解决的技术问题。

发明内容

本发明实施例提供一种简化图像获取模型训练方法、图像文本识别方法及相关装置，以在保证图像文本识别准确性的基础上，减小模型的训练成本。

为解决上述问题，本发明实施例提供一种简化图像获取模型训练方法，包括：

获取训练数据集，所述训练数据集包括各个训练场景文本图像，以及与各个所述训练场景文本图像对应的基准简化文本图像，其中，与同一所述训练场景文本图像的所述基准简化文本图像的数量为至少两个，所述训练场景文本图像的文本包括手写体，所述基准简化文本图像的文本包括与所述手写体对应的打印体，且各个所述基准简化文本图像分别通过与其对应的所述训练场景文本图像的标注文本获取；

利用所述简化图像获取模型的第一编码器，获取各个所述训练场景文本图像的场景文本图像编码特征，利用所述简化图像获取模型的解码器对各个所述场景文本图像编码特征进行解码，得到各个所述训练场景文本图像的预测简化文本图像；

分别从与各个所述训练场景文本图像对应的各个基准简化文本图像中随机获取比对基准文本图像，根据各个对应于同一所述训练场景文本图像的所述预测简化文本图像和所述比对基准文本图像，获取所述简化图像获取模型的预测损失，并根据所述预测损失调整所述第一编码器和所述解码器的参数，直至所述简化图像获取模型的预测损失满足损失阈值，完成所述简化图像获取模型的训练。

为解决上述问题，本发明实施例还提供一种图像文本识别方法，包括：

获取待识别场景文本图像；

利用如前述任一实施例所述的简化图像获取模型，对所述待识别场景文本图像进行预测，得到所述待识别场景文本图像的简化图像；

利用训练好的简化图像文本识别模型，对所述简化图像进行文本识别，得到识别文本，所述简化图像文本识别模型训练所利用的基准识别文本能够通过机器获取。

为解决上述问题，本发明实施例还提供一种简化图像获取模型训练装置，包括：

训练数据集获取单元，适于获取训练数据集，所述训练数据集包括各个训练场景文本图像，以及与各个所述训练场景文本图像对应的基准简化文本图像，其中，与同一所述训练场景文本图像的所述基准简化文本图像的数量为至少两个，所述训练场景文本图像的文本包括手写体，所述基准简化文本图像的文本包括与所述手写体对应的打印体，且各个所述基准简化文本图像分别通过与其对应的所述训练场景文本图像的标注文本获取；

预测简化文本图像获取单元，适于利用所述简化图像获取模型的第一编码器，获取各个所述训练场景文本图像的场景文本图像编码特征，利用所述简化图像获取模型的解码器对各个所述场景文本图像编码特征进行解码，得到各个所述训练场景文本图像的预测简化文本图像；

简化图像获取模型获取单元，适于分别从与各个所述训练场景文本图像对应的各个基准简化文本图像中随机获取比对基准文本图像，根据各个对应于同一所述训练场景文本图像的所述预测简化文本图像和所述比对基准文本图像，获取所述简化图像获取模型的预测损失，并根据所述预测损失调整所述第一编码器和所述解码器的参数，直至所述简化图像获取模型的预测损失满足损失阈值，完成所述简化图像获取模型的训练。

为解决上述问题，本发明实施例还提供一种图像文本识别装置，包括：

待识别场景文本图像获取单元，适于获取待识别场景文本图像；

简化图像获取单元，适于利用如前述任一实施例所述的简化图像获取模型，对所述待识别场景文本图像进行预测，得到所述待识别场景文本图像的简化图像；

识别文本获取单元，适于利用训练好的简化图像文本识别模型，对所述简化图像进行文本识别，得到识别文本，所述简化图像文本识别模型训练所利用的基准识别文本能够通过机器获取。

为解决上述问题，本发明实施例提供一种存储介质，所述存储介质存储有适于简化图像获取模型训练的程序，以实现如前述任一实施例所述的简化图像获取模型训练方法，或者所述存储介质存储有适于图像文本识别的程序，以实现如前述任一实施例所述的图像文本识别方法。

为解决上述问题，本发明实施例提供一种电子设备，包括至少一个存储器和至少一个处理器；所述存储器存储有程序，所述处理器调用所述程序，以执行如前述任一实施例所述的简化图像获取模型训练方法或者如前述任一实施例所述的图像文本识别方法。

与现有技术相比，本发明的技术方案具有以下优点：

本发明实施例所提供的简化图像获取模型训练方法、图像文本识别方法，其中，简化图像获取模型训练方法，在对简化图像获取模型进行训练时，通过第一编码器和解码器进行手写体的预测简化文本图像的获取，并利用预测简化文本图像与随机获取的对应的基准简化文本图像实现对预测损失的获取，以及对第一编码器和解码器的参数的调整，即实现对简化图像获取模型的训练，所使用基准简化文本图像通过文本为手写体的训练场景文本图像的标注文本获取，与同一训练场景文本图像对应的基本简化文本图像的数量为至少两个。这样，对一个训练场景文本图像进行文本标注后，可以获取多个基准简化文本图像，在模型训练过程中，相当于具有多个相互对应的训练场景文本图像和基准简化文本图像，从而可以仅对较少的训练场景文本图像进行文本标注，就可以获取到大量的用于对简化图像获取模型训练的数据，可以在减少对训练场景文本图像的文本标注的基础上，保证较好的训练效果；而进一步地，得到训练完成的简化图像获取模型后，当需要进行文本识别时，可以首先利用训练完成的简化图像获取模型基于待识别场景文本图像获取对应的具有相同文本的简化图像，再利用基于训练简化文本图像训练好的简化图像文本识别模型，进行文本识别，而训练简化文本图像的基准识别文本可机器获取，对简化图像文本识别模型的训练也无需大量的人工标注。因此，本发明实施例所提供的简化图像获取模型训练方法，可以利用较少的人工标注实现对简化图像获取模型的训练，为降低图像文本识别模型的训练难度提供基础，使得图像文本识别模型的训练可以利用简化图像进行，从而进一步降低模型训练的人工标注工作量，实现在保证场景文本图像的文本识别的基础上的训练成本的降低。

可选方案中，本发明实施例所提供的简化图像获取模型训练方法，训练数据集还包括各个所述训练场景文本图像的背景纹理图像，所述背景纹理图像包括所述训练场景文本图像的背景纹理信息，所述简化图像获取模型还包括第二编码器，所述第二编码器为已训练好的纹理特征获取模型的编码器，在进行简化图像获取模型训练过程中，利用所述简化图像获取模型的第二编码器，获取各个所述背景纹理图像的背景纹理编码特征，获取相互对应的各个所述场景文本图像编码特征与各个所述背景纹理编码特征的编码特征差，得到各个差值编码特征，利用所述简化图像获取模型的解码器对各个所述差值编码特征进行解码，得到各个所述训练场景文本图像的预测简化文本图像，然后再基于预测简化文本图像以及基准简化文本图像进行参数调整。可以看出，本发明实施例所提供的简化图像获取模型训练方法，在进行训练的过程中，预测所使用的差值编码特征为场景文本图像编码特征与背景纹理编码特征的编码特征差，可以消除背景纹理，从而可以避免由于场景文本图像中的背景纹理对模型的训练带来的干扰，提高模型训练的准确性和效率。

可选方案中，本发明实施例所提供的简化图像获取模型训练方法，训练数据集还包括与各个所述训练场景文本图像对应的笔迹梯度图像，所述笔迹梯度图像包括所述训练场景文本图像的文本笔迹信息，所述简化图像获取模型还包括第三编码器，所述第三编码器为已训练好的笔迹特征获取模型的编码器，利用所述简化图像获取模型的第三编码器，获取各个所述笔迹梯度图像的各个文本笔迹编码特征，获取相互对应的各个所述场景文本图像编码特征与各个所述背景纹理编码特征和各个所述文本笔迹编码特征的编码特征差，得到各个差值编码特征，利用所述简化图像获取模型的解码器对各个所述差值编码特征进行解码，得到各个所述训练场景文本图像的预测简化文本图像，，然后再基于预测简化文本图像以及基准简化文本图像进行参数调整。可以看出，本发明实施例所提供的简化图像获取模型训练方法，在进行训练的过程中，预测所使用的差值编码特征为场景文本图像编码特征与背景纹理编码特征，以及笔迹编码特征的编码特征差，可以消除背景纹理以及笔迹，从而可以避免由于场景文本图像中的背景纹理和不同人笔迹对模型的训练带来的干扰，进一步提高模型训练的准确性和效率。

附图说明

图1为本发明实施例所提供的简化图像获取模型训练方法的一流程示意图；

图2为本发明实施例所提供的简化图像获取模型训练方法的获取基准简化文本图像的流程示意图；

图3为本发明实施例所提供的简化图像获取模型训练方法的另一流程示意图；

图4为本发明实施例所提供的简化图像获取模型训练方法的第二编码器的获取流程示意图；

图5为本发明实施例所提供的简化图像获取模型训练方法的又一流程示意图；

图6为本发明实施例所提供的简化图像获取模型训练方法的第三编码器的获取流程示意图；

图7为本发明实施例所提供的图像文本识别方法的流程示意图；

图8为本发明实施例所提供的简化图像文本识别模型的训练流程示意图；

图9是本发明实施例所提供的简化图像获取模型训练装置的一框图；

图10是本发明实施例所提供的图像文本识别装置的一框图；

图11是本发明实施例提供的设备一种可选硬件设备架构。

具体实施方式

现有技术中，在为了实现图像文本识别，难以在保证图像文本识别准确性的基础上，减小模型的训练成本。

为了在保证图像文本识别准确性的基础上，减小模型的训练成本，本发明实施例提供了一种简化图像获取模型训练方法，包括：

可见，本发明实施例所提供的简化图像获取模型训练方法，在对简化图像获取模型进行训练时，通过第一编码器和解码器进行手写体的预测简化文本图像的获取，并利用预测简化文本图像与随机获取的对应的基准简化文本图像实现对预测损失的获取，以及对第一编码器和解码器的参数的调整，即实现对简化图像获取模型的训练，所使用基准简化文本图像通过文本为手写体的训练场景文本图像的标注文本获取，与同一训练场景文本图像对应的基本简化文本图像的数量为至少两个。

这样，对一个训练场景文本图像进行文本标注后，可以获取多个基准简化文本图像，在模型训练过程中，相当于具有多个相互对应的训练场景文本图像和基准简化文本图像，从而可以仅对较少的训练场景文本图像进行文本标注，就可以获取到大量的用于对简化图像获取模型训练的数据，可以在减少对训练场景文本图像的文本标注的基础上，保证较好的训练效果；而进一步地，得到训练完成的简化图像获取模型后，当需要进行文本识别时，可以首先利用训练完成的简化图像获取模型基于待识别场景文本图像获取对应的具有相同文本的简化图像，再利用基于训练简化文本图像训练好的简化图像文本识别模型，进行文本识别，而训练简化文本图像的基准识别文本可机器获取，对简化图像文本识别模型的训练也无需大量的人工标注。因此，本发明实施例所提供的简化图像获取模型训练方法，可以利用较少的人工标注实现对简化图像获取模型的训练，为降低图像文本识别模型的训练难度提供基础，使得图像文本识别模型的训练可以利用简化图像进行，从而进一步降低模型训练的人工标注工作量，实现在保证场景文本图像的文本识别的基础上的训练成本的降低。

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参考图1，图1是本发明实施例所提供的简化图像获取模型训练方法的一流程示意图。

如图中所示，本发明实施例所提供的简化图像获取模型训练方法，包括以下步骤：

步骤S10：获取训练数据集。

容易理解的是，简化图像获取模型是为了实现基于拍摄现实场景得到的场景文本图像，获取文本更易识别的图像（即简化图像）而构建的模型。

为了对简化图像获取模型进行训练，首先需要获取训练用的数据，即训练数据集，训练数据集包括各个训练场景文本图像和分别与各个训练场景文本图像对应的基准简化文本图像，其中基准简化文本图像即为简化图像获取模型训练的参照，因此，相互对应的基准简化文本图像与训练场景文本图像的文本内容是相同的。

其中，训练场景文本图像是指用于模型训练的场景文本图像，场景文本图像是指直接从实际应用场景中拍摄得到的图像，比如：作业批改时所拍摄的学生作业图像；盲人导航时，所拍摄的盲人所在的场景下的方向标识、位置标识等的图像；而基准简化文本图像是指用作模型训练的基准的简化文本图像，简化文本图像是指与场景文本图像相比，所包含的信息相对较少或者场景纹理比较简单的文本图像，比如：与手写体相比，打印体文本的文本图像即为简化文本图像。

另外，本发明实施例所提供的简化图像获取模型训练方法，训练场景文本图像可以包括打印体也可以包括手写体，而基准简化文本图像的文本包括打印体，这样，可以理解的是，当基于训练数据集训练好的简化图像获取模型后，通过简化图像获取模型就可以获取到场景文本图像的简化文本图像，并且所得到的简化文本图像的文本为打印体，从而可以方便后续进行文本识别。

容易理解的是，如果训练场景文本图像全部都是打印体，经过模型训练后的简化图像获取模型不能真正起到获取计划图像的目的，因此训练场景文本图像中的文本至少包括手写体，当然也可以全部都是手写体，以实现对于手写体的训练场景文本图像的简化处理。

需要说明的是，对应于同一个训练场景文本图像的基准简化文本图像的数量为至少两个，各个基准简化文本图像的文本内容相同，但字体不同，从而可以实现与一个训练场景文本图像对应的基准简化文本图像的数量为至少两个。

在一种具体实施方式中，为了保证与一个训练场景文本图像对应的基准简化文本图像的数量为至少两个，可以通过对训练场景文本图像进行人工标注的标注文本获取，比如：根据标注文本，从预先设置的基准简化文本图像的数据集中通过标注文本进行查找获取。

为了方便获取基准简化文本图像，在一种具体实施方式中，请参考图2，图2为本发明实施例所提供的简化图像获取模型训练方法的获取基准简化文本图像的流程示意图。

如图中所示，本发明实施例所提供的简化图像获取模型训练方法，为了获取基准简化文本图像，可以包括：

步骤S100：获取各个所述训练场景文本图像的标注文本。

步骤S101：根据所述标注文本获取各个标注文本打印体，将各个所述标注文本打印体粘贴至预定图像背景，得到各个所述基准简化文本图像。

首先，对训练场景文本图像进行人工标注，得到训练场景文本图像的标注文本，然后，根据所述标注文本获取各个标注文本打印体，将各个所述标注文本打印体粘贴至预定图像背景，得到各个所述基准简化文本图像。

由于打印体的形式多种多样，因此，基于一个训练场景文本图像的标注文本，就可以得到多个基准简化文本图像，相当于多组训练数据，从而可以通过较少的人工标注就可以获得较多训练数据，并且通过标注文本获取基准简化文本图像的方式，可执行性强，操作简单，效率和准确率都较高。

步骤S11:利用所述简化图像获取模型的第一编码器，获取各个所述训练场景文本图像的场景文本图像编码特征。

得到训练数据集后，利用预先构建的简化图像获取模型的第一编码器，对各个训练场景文本图像进行编码，获取各个场景文本图像编码特征。

在一种具体实施方式中，简化图像获取模型可以为VAE（VariationalAutoencoder，变分自编码）模型，VAE模型的生成内容可控，并且易于训练，第一编码器即为VAE模型的编码器。

步骤S12：利用所述简化图像获取模型的解码器对各个所述场景文本图像编码特征进行解码，得到各个所述训练场景文本图像的预测简化文本图像。

得到场景文本图像编码特征后，利用预先构建的简化图像获取模型的解码器对其进行解码，从而获取到各个预测简化文本图像。

容易理解的是，对于训练数据集的各个场景文本图像，可以依次进行场景文本图像编码特征的获取以及预测简化文本图像的获取，从而得到全部的预测简化文本图像；也可以先获取全部训练场景文本图像的场景文本图像编码特征，然后获取全部场景文本图像编码特征的预测简化文本图像，得到全部的预测简化文本图像。

步骤S13：分别从与各个所述训练场景文本图像对应的各个基准简化文本图像中随机获取比对基准文本图像，根据各个对应于同一所述训练场景文本图像的所述预测简化文本图像和所述比对基准文本图像，获取所述简化图像获取模型的预测损失。

得到预测简化文本图像后，进一步获取简化图像获取模型的预测损失，由于与同一个训练场景文本图像对应的基准简化文本图像有多个，因此首先从中选择一个作为比对基准文本图像，为了保证训练后模型的准确性，可以随机选择一个作为比对基准文本图像，然后基于预测简化文本图像和比对基准文本图像，获取预测损失。

步骤S14：判断所述简化图像获取模型的预测损失是否满足损失阈值，若是，执行步骤S16，若否，执行步骤S15。

得到预测损失后，将其与损失阈值进行比较，如果满足损失阈值，那么证明所得到的简化图像获取模型已经满足训练要求，执行步骤S16，如果不满足损失阈值，那么需要继续对模型进行训练，执行步骤S15。

步骤S15：根据所述预测损失调整所述第一编码器和所述解码器的参数。

经过判断，确定预测损失不满足损失阈值时，根据预测损失调整第一编码器和解码器的参数，实现对简化图像获取模型的训练。

步骤S16：完成所述简化图像获取模型的训练。

经过判断，确定预测损失满足损失阈值时，完成所述简化图像获取模型的训练，得到训练完成的简化图像获取模型。

这样，本发明实施例所提供的简化图像获取模型训练方法，所获取得训练数据集中得基准简化文本图像，可以通过对一个训练场景文本图像进行文本标注获取多个，在模型训练过程中，相当于具有多个相互对应的训练场景文本图像和基准简化文本图像，从而可以仅对较少的训练场景文本图像进行文本标注，就可以获取到大量的用于对简化图像获取模型训练的数据，可以在减少对训练场景文本图像的文本标注的基础上，保证较好的训练效果；而进一步地，得到训练完成的简化图像获取模型后，当需要进行文本识别时，可以首先利用训练完成的简化图像获取模型基于待识别场景文本图像获取对应的具有相同文本的简化图像，再利用基于训练简化文本图像训练好的简化图像文本识别模型，进行文本识别，而训练简化文本图像的基准识别文本可机器获取，对简化图像文本识别模型的训练也无需大量的人工标注。因此，本发明实施例所提供的简化图像获取模型训练方法，可以利用较少的人工标注实现对简化图像获取模型的训练，为降低图像文本识别模型的训练难度提供基础，使得图像文本识别模型的训练可以利用简化图像进行，从而进一步降低模型训练的人工标注工作量，实现在保证场景文本图像的文本识别的基础上的训练成本的降低。

在另一种具体实施方式中，为了进一步提高对简化图像获取模型训练的准确性和效率，本发明实施例还提供一种简化图像获取模型训练方法，请参考图3，图3为本发明实施例所提供的简化图像获取模型训练方法的另一流程示意图。

如图3中所示，本发明实施例所提供的简化图像获取模型训练方法包括：

步骤S20：获取训练数据集。

步骤S20的部分具体内容请参考图1关于步骤S10的描述，在此不再赘述。

需要说明的是，在此实施例中，训练数据集中不仅包括训练场景文本图像、基准简化文本图像，还包括各个所述训练场景文本图像的背景纹理图像，其中背景纹理图像中包括训练场景文本图像的背景纹理信息。

在一种具体实施方式中，背景纹理图像可以通过以下步骤获取：

首先获取各个所述训练场景文本图像对应的笔迹梯度图像；然后利用各个相互对应的所述训练场景文本图像减去所述笔迹梯度图像，得到各个所述背景纹理图像。

其中，笔迹梯度图像可以通过已有的笔迹梯度图像的获取方式获取，比如：利用OpenCV提供的不同的梯度滤波器（高通滤波器）：Sobel，Scharr和Lapacian，python3提供的梯度图像的获取方法，笔迹梯度图像中包含有训练场景文本图像中的字体的笔迹信息。

得到笔迹梯度图像以后，进一步通过相互对应的训练场景文本图像减去笔迹梯度图像，就可以得到背景纹理图像，背景纹理图像可以利用逐通道逐点相减的方式获取。

可以看出，上述获取背景纹理图像的方式简单，并且能够获取到不受文本笔迹干扰的背景纹理图像。

步骤S21：利用所述简化图像获取模型的第一编码器，获取各个所述训练场景文本图像的场景文本图像编码特征

步骤S21的具体内容请参考图1关于步骤S11的描述，在此不再赘述。

步骤S22：利用所述简化图像获取模型的第二编码器，获取各个所述背景纹理图像的背景纹理编码特征。

得到各个训练场景文本图像的各个背景纹理图像后，利用预先构建的简化图像获取模型的第二编码器，对各个背景纹理图像进行编码，获取各个背景纹理编码特征。

容易理解的是，在此实施例中，简化图像获取模型包括两个编码器，一个是对训练场景文本图像进行编码的第一编码器，另一个是对背景纹理图像进行编码的第二编码器。

具体地，第二编码器也可以为VAE模型的编码器，只不过第二编码器为已训练好的纹理特征获取模型的编码器，在对简化图像获取模型训练的过程中，第二编码器的参数是固定的，不会进行调整。

请参考图4，图4为本发明实施例所提供的简化图像获取模型训练方法的第二编码器的获取流程示意图。

如图中所示，为了获取第二编码器，在一种具体实施方式中，包括以下步骤：

步骤S220：利用所述纹理特征获取模型的编码器，获取第二数据集的各个背景纹理图像的各个纹理编码特征。

容易理解的是，为了获取第二编码器，首先需要构建纹理特征获取模型，而第二编码器即为纹理特征获取模型的编码器，然后将第二数据集的各个背景纹理图像输入纹理特征获取模型，利用纹理特征获取模型的编码器，对各个背景纹理图像进行编码，得到各个纹理编码特征。

其中，第二数据集中的背景纹理图像可以与前述的训练数据集中的背景纹理图像相同，也可以与其不同。

具体地，纹理特征获取模型也可以为VAE模型，以提高训练效率。

步骤S221：利用所述纹理特征获取模型的解码器，对各个所述纹理编码特征进行解码，得到各个预测背景纹理图像。

得到纹理编码特征后，进一步通过纹理特征获取模型的解码器，对各个纹理编码特征进行解码，以获取各个与背景纹理图像对应的预测背景纹理图像。

当然，在进行纹理编码特征和预测背景纹理图像的获取过程中，可以获取完一个背景纹理图像的纹理编码特征后，接着获取其预测背景纹理图像，也可以获取完各个背景纹理图像的纹理编码特征后，获取各个背景纹理图像的预测背景纹理图像。

步骤S222：根据相互对应的各个所述背景纹理图像和各个所述预测背景纹理图像获取所述纹理特征获取模型的纹理预测损失。

得到各个预测背景纹理图像后，基于相互对应的各个所述背景纹理图像和各个所述预测背景纹理图像获取所述纹理特征获取模型的纹理预测损失。

步骤S223：判断所述纹理预测损失是否满足预定的纹理损失阈值，若是，执行步骤S225，若否，执行步骤S224。

S224：根据所述纹理预测损失调整所述纹理特征获取模型的参数。

如果纹理预测损失不满足预定的纹理损失阈值，那么纹理特征获取模型的参数不满足要求，根据纹理预测损失调整纹理特征获取模型的参数，当然包括编码器和解码器的参数。

S225：完成所述纹理特征获取模型的训练，得到已训练好的纹理特征获取模型的编码器，得到所述第二编码器。

如果纹理预测损失满足预定的纹理损失阈值，那么纹理特征获取模型的参数已经满足要求，从而完成所述纹理特征获取模型的训练，也就得到了第二编码器。如前所述，通过对纹理特征获取模型的训练得到的第二编码器，在对简化图像获取模型的训练过程中，不进行参数的调整。

步骤S23：获取相互对应的各个所述场景文本图像编码特征与各个所述背景纹理编码特征的编码特征差，得到各个差值编码特征。

得到各个所述场景文本图像编码特征与各个所述背景纹理编码特征后，进一步获取相互对应的所述场景文本图像编码特征与所述背景纹理编码特征的编码特征差，得到各个差值编码特征。

容易理解的是，差值编码特征是减小了背景纹理影响的编码特征，从而可以降低背景纹理在训练过程中对模型的干扰。

具体地，差值编码特征可以通过场景文本图像编码特征与背景纹理编码特征逐通道逐点相减的方式获取。

S24、利用所述简化图像获取模型的解码器对各个所述差值编码特征进行解码，得到各个所述训练场景文本图像的预测简化文本图像。

得到差值编码特征后，利用预先构建的简化图像获取模型的解码器对其进行解码，从而获取到各个预测简化文本图像。

当然，在各个预测简化文本图像时，可以依次获取差值编码特征然后获取预测简化文本图像，也可以首先获取全部的差值编码特征，然后再获取各个预测简化文本图像。

步骤S25：分别从与各个所述训练场景文本图像对应的各个基准简化文本图像中随机获取比对基准文本图像，根据各个对应于同一所述训练场景文本图像的所述预测简化文本图像和所述比对基准文本图像，获取所述简化图像获取模型的预测损失。

步骤S25的具体内容请参考图1关于步骤S13的描述，在此不再赘述。

步骤S26：判断所述简化图像获取模型的预测损失是否满足损失阈值，若是，执行步骤S28，若否，执行步骤S27。

步骤S26的具体内容请参考图1关于步骤S14的描述，在此不再赘述。

步骤S27：根据所述预测损失调整所述第一编码器和所述解码器的参数。

步骤S27的具体内容请参考图1关于步骤S15的描述，在此不再赘述。

步骤S28：完成所述简化图像获取模型的训练。

步骤S28的具体内容请参考图1关于步骤S16的描述，在此不再赘述。

可以看出，本发明实施例所提供的简化图像获取模型训练方法，在进行训练的过程中，预测所使用的差值编码特征为场景文本图像编码特征与背景纹理编码特征的编码特征差，可以消除背景纹理，从而可以避免由于场景文本图像中的背景纹理对模型的训练带来的干扰，提高模型训练的准确性和效率。

在另一种具体方式中，为了进一步提高对简化图像获取模型训练的准确性和效率，本发明实施例还提供一种简化图像获取模型训练方法，请参考图5，图5为本发明实施例所提供的简化图像获取模型训练方法的又一流程示意图。

如图5中所示，本发明实施例所提供的简化图像获取模型训练方法包括：

步骤S30：获取训练数据集。

步骤S30的部分具体内容请参考图2关于步骤S20的描述，在此不再赘述。

需要说明的是，在此实施例中，训练数据集中不仅包括训练场景文本图像、基准简化文本图像、背景纹理图像，还包括各个所述训练场景文本图像的笔迹梯度图像，其中笔迹梯度图像中包括训练场景文本图像的文本笔迹信息。

其中，笔迹梯度图像可以通过前述的笔迹梯度图像的获取方式获取。

容易理解的是，在获取背景纹理图像的过程中如果先获取了笔迹梯度图像，则可以同时保存笔迹梯度图像就可以得到本实施例的训练数据集。

步骤S31：利用所述简化图像获取模型的第一编码器，获取各个所述训练场景文本图像的场景文本图像编码特征。

步骤S31的具体内容请参考图1关于步骤S11的描述，在此不再赘述。

步骤S32：利用所述简化图像获取模型的第二编码器，获取各个所述背景纹理图像的背景纹理编码特征。

步骤S32的具体内容请参考图3关于步骤S22的描述，在此不再赘述。

S33：利用所述简化图像获取模型的第三编码器，获取各个所述笔迹梯度图像的各个文本笔迹编码特征。

得到各个训练场景文本图像的各个背景纹理图像和笔迹梯度图像后，利用预先构建的简化图像获取模型的第三编码器，对各个笔迹梯度图像进行编码，获取各个背景纹理编码特征。

容易理解的是，在此实施例中，简化图像获取模型包括三个编码器，一个是对训练场景文本图像进行编码的第一编码器，另一个是对背景纹理图像进行编码的第二编码器，还有一个是对笔迹梯度图像进行编码的第三编码器。

另外，场景文本图像编码特征、背景纹理编码特征和文本笔迹编码特征的获取没有先后顺序要求，可以部分或全部同时获取，也可依次获取，当依次获取时，三者的获取顺序也不做限制。

具体地，第三编码器也可以为VAE模型的编码器，只不过第三编码器为已训练好的笔迹特征获取模型的编码器，与纹理特征获取模型相同，在对简化图像获取模型训练的过程中，第三编码器的参数是固定的，不会进行调整。

请参考图6，图6为本发明实施例所提供的简化图像获取模型训练方法的第三编码器的获取流程示意图。

如图中所示，为了获取第三编码器，在一种具体实施方式中，包括以下步骤：

步骤S330：利用所述笔迹特征获取模型的编码器，获取第三数据集的各个笔迹梯度图像的各个纹理编码特征。

容易理解的是，为了获取第三编码器，首先需要构建笔迹特征获取模型，而第三编码器即为笔迹特征获取模型的编码器，然后将第三数据集的各个笔迹梯度图像输入笔迹特征获取模型，利用笔迹特征获取模型的编码器，对各个笔迹梯度图像进行编码，得到各个纹理编码特征。

其中，第三数据集中的笔迹梯度图像可以与前述的训练数据集中的笔迹梯度图像相同，也可以与其不同。

具体地，笔迹特征获取模型也可以为VAE模型，以提高训练效率。

步骤S331：利用所述笔迹特征获取模型的解码器，对各个所述纹理编码特征进行解码，得到各个预测笔迹梯度图像。

得到纹理编码特征后，进一步通过笔迹特征获取模型的解码器，对各个笔迹编码特征进行解码，以获取各个与笔迹梯度图像对应的预测笔迹梯度图像。

当然，在进行笔迹编码特征和预测笔迹梯度图像的获取过程中，可以获取完一个笔迹梯度图像的笔迹编码特征后，接着获取其预测笔迹梯度图像，也可以获取完各个笔迹梯度图像的笔迹编码特征后，获取各个笔迹梯度图像的预测笔迹梯度图像。

步骤S332：根据相互对应的各个所述笔迹梯度图像和各个所述预测笔迹梯度图像获取所述笔迹特征获取模型的笔迹预测损失。

得到各个预测笔迹梯度图像后，基于相互对应的各个所述笔迹梯度图像和各个所述预测笔迹梯度图像获取所述笔迹特征获取模型的笔迹预测损失。

步骤S333：判断所述笔迹预测损失是否满足预定的笔迹损失阈值，若是，执行步骤S335，若否，执行步骤S334。

S334：根据所述笔迹预测损失调整所述笔迹特征获取模型的参数。

如果笔迹预测损失不满足预定的笔迹损失阈值，那么笔迹特征获取模型的参数不满足要求，根据笔迹预测损失调整笔迹特征获取模型的参数，当然包括编码器和解码器的参数。

S335：完成所述笔迹特征获取模型的训练，得到已训练好的笔迹特征获取模型的编码器，得到所述第三编码器。

如果笔迹预测损失满足预定的笔迹损失阈值，那么笔迹特征获取模型的参数已经满足要求，从而完成所述笔迹特征获取模型的训练，也就得到了第三编码器。如前所述，通过对笔迹特征获取模型的训练得到的第三编码器，在对简化图像获取模型的训练过程中，不进行参数的调整。

步骤S34：获取相互对应的各个所述场景文本图像编码特征与各个所述背景纹理编码特征和各个所述文本笔迹编码特征的编码特征差，得到各个差值编码特征。

得到各个所述场景文本图像编码特征与各个所述背景纹理编码特征和各个所述文本笔迹编码特征后，进一步获取相互对应的所述场景文本图像编码特征与所述背景纹理编码特征以及文本笔迹编码特征的编码特征差，即利用场景文本图像编码特征减掉背景纹理编码特征，再减掉文本笔迹编码特征，得到各个差值编码特征。

容易理解的是，差值编码特征是减小了背景纹理影响和笔迹影响的编码特征，从而可以降低背景纹理和笔迹在训练过程中对模型的干扰。

具体地，差值编码特征可以通过场景文本图像编码特征与背景纹理编码特征以及文本笔迹编码特征逐通道逐点相减的方式获取。

尽管背景纹理编码特征源于对背景纹理图像的编码，文本笔迹编码特征源于对笔迹梯度图像的编码，场景文本图像编码特征源于对训练场景文本图像的编码，背景纹理图像来自于训练场景文本图像与笔迹梯度图像之差，但各个编码特征与图像有所不同，因此，场景文本图像编码特征与背景纹理编码特征和文本笔迹编码特征的编码特征差，与图像的差值不同，编码特征差中仍然包含了差异信息，该差异信息即为减小背景纹理影响和笔迹影响，突出文本内容的信息。

S35、利用所述简化图像获取模型的解码器对各个所述差值编码特征进行解码，得到各个所述训练场景文本图像的预测简化文本图像。

步骤S35的具体内容请参考图3关于步骤S24的描述，在此不再赘述。

步骤S36：分别从与各个所述训练场景文本图像对应的各个基准简化文本图像中随机获取比对基准文本图像，根据各个对应于同一所述训练场景文本图像的所述预测简化文本图像和所述比对基准文本图像，获取所述简化图像获取模型的预测损失。

步骤S36的具体内容请参考图1关于步骤S13的描述，在此不再赘述。

步骤S37：判断所述简化图像获取模型的预测损失是否满足损失阈值，若是，执行步骤S39，若否，执行步骤S38。

步骤S37的具体内容请参考图1关于步骤S14的描述，在此不再赘述。

步骤S38：根据所述预测损失调整所述第一编码器和所述解码器的参数。

步骤S38的具体内容请参考图1关于步骤S15的描述，在此不再赘述。

步骤S39：完成所述简化图像获取模型的训练。

步骤S39的具体内容请参考图1关于步骤S16的描述，在此不再赘述。

可以看出，本发明实施例所提供的简化图像获取模型训练方法，在进行训练的过程中，预测所使用的差值编码特征为场景文本图像编码特征与背景纹理编码特征，以及笔迹编码特征的编码特征差，可以消除背景纹理以及笔迹，从而可以避免由于场景文本图像中的背景纹理和不同人笔迹对模型的训练带来的干扰，进一步提高模型训练的准确性和效率。

为了在保证图像文本识别准确性的基础上，减小模型的训练成本，本发明实施例还提供一种图像文本识别方法，请参考图7，图7为本发明实施例所提供的图像文本识别方法的流程示意图。

如图中所示，本发明实施例所提供的图像文本识别方法，包括：

步骤S40：获取待识别场景文本图像。

待识别场景文本图像即为通过拍摄得到的需要进行文本识别的图像，如前述的需要进行批改的作业的图像或者考试试卷的图像等。

步骤S41：利用如前述任一实施例所述的简化图像获取模型，对所述待识别场景文本图像进行预测，得到所述待识别场景文本图像的简化图像。

得到待识别场景文本图像后，利用经前述的任一种模型训练方式得到的简化图像获取模型，对其进行预测，从而得到简化图像。当然，所得到的简化图像即为文字字体为打印体的图像。

步骤S42：利用训练好的简化图像文本识别模型，对所述简化图像进行文本识别，得到识别文本，所述简化图像文本识别模型训练所利用的基准识别文本能够通过机器获取。

由于经过步骤S41已经将待识别场景文本图像转化为简化图像，从而利用简化图像文本识别模型，就可以对其进行文本识别。

需要说明的是，本文所述的简化图像文本识别模型在训练过程中所用的基准识别文本是可以通过机器获取的，从而在进行简化图像文本识别模型的训练时，也不需要大量的人工标注。

如图8所示，图8为本发明实施例所提供的简化图像文本识别模型的训练流程示意图，在一种具体实施方式中，为了提高训练准确度，并降低基准识别文本的获取难度，本文所述的简化图像文本识别模型可以通过以下步骤进行训练：

步骤S420:获取各个训练简化文本图像和与各个训练简化文本图像对应的基准识别文本，所述训练简化文本图像通过将所述基准识别文本贴于预选纹理背景图像获取。

为了进行简化图像文本识别模型的训练，首先需要获取训练用的数据，容易理解的是，包括训练简化文本图像和与其对应的基准识别文本。

为了降低基准识别文本的获取难度，本实施例中通过将基准识别文本贴于预选纹理背景图像的方式获取训练简化文本图像，这样训练简化文本图像的基准标识文本可以直接获取，不需要进行人工标注。

步骤S421：利用所述简化图像文本识别模型获取各个所述训练简化文本图像的各个预测识别文本。

得到数据集后，利用预先构建的简化图像文本识别模型获取各个训练简化文本图像的预测识别文本。

步骤S422：根据相互对应的各个所述预测识别文本和各个基准识别文本，获取所述图像文本识别模型的文本识别损失，并根据所述文本识别损失调整所述简化图像文本识别模型的参数，直至所述文本识别损失满足预定的文本识别损失阈值，得到训练好的简化图像文本识别模型。

利用对应于各个训练简化文本图像的预测识别文本和基准识别文本获取文本识别损失，并判断文本识别损失是否满足预定的文本识别损失阈值，如果满足，那么证明简化图像文本识别模型满足要求，得到训练好的简化图像文本识别模型，如果不满足，那么证明简化图像文本识别模型还不满足要求，需要调整简化图像文本识别模型的参数，再次进行训练，直至得到训练好的满足识别准确度要求的简化图像文本识别模型。

可以看出，本发明实施例所提供的图像文本识别方法，首先利用训练完成的简化图像获取模型基于待识别场景文本图像获取对应的具有相同文本的简化图像，再利用基于训练简化文本图像训练好的简化图像文本识别模型，进行文本识别，而训练简化文本图像的基准识别文本可机器获取，对简化图像文本识别模型的训练也无需大量的人工标注。因此，本发明实施例所提供的图像文本识别方法，一方面，可以利用较少的人工标注实现对简化图像获取模型的训练，另一方面，允许图像文本识别模型的训练可以利用简化图像进行，得到简化图像文本识别模型，从而在实现文本识别的基础上可以降低模型训练的人工标注工作量，实现训练成本的降低。

下面对本发明实施例提供的简化图像获取模型训练装置和图像文本识别装置进行介绍，下文描述的简化图像获取模型训练装置和图像文本识别装置可以认为是，电子设备（如：PC）为分别实现本发明实施例提供的简化图像获取模型训练方法和图像文本识别方法所需设置的功能模块架构。下文描述的简化图像获取模型训练装置和图像文本识别装置的内容，可分别与上文描述的简化图像获取模型训练方法和图像文本识别方法的内容相互对应参照。

图9是本发明实施例所提供的简化图像获取模型训练装置的一框图，该简化图像获取模型训练装置即可应用于客户端，也可应用于服务器端，参考图9，该简化图像获取模型训练装置，包括：

训练数据集获取单元100，适于获取训练数据集，所述训练数据集包括各个训练场景文本图像，以及与各个所述训练场景文本图像对应的基准简化文本图像，其中，与同一所述训练场景文本图像的所述基准简化文本图像的数量为至少两个，所述训练场景文本图像的文本包括手写体，所述基准简化文本图像的文本包括与所述手写体对应的打印体，且各个所述基准简化文本图像分别通过与其对应的所述训练场景文本图像的标注文本获取；

预测简化文本图像获取单元110，适于利用所述简化图像获取模型的第一编码器，获取各个所述训练场景文本图像的场景文本图像编码特征，利用所述简化图像获取模型的解码器对各个所述场景文本图像编码特征进行解码，得到各个所述训练场景文本图像的预测简化文本图像；

简化图像获取模型获取单元120，适于分别从与各个所述训练场景文本图像对应的各个基准简化文本图像中随机获取比对基准文本图像，根据各个对应于同一所述训练场景文本图像的所述预测简化文本图像和所述比对基准文本图像，获取所述简化图像获取模型的预测损失，并根据所述预测损失调整所述第一编码器和所述解码器的参数，直至所述简化图像获取模型的预测损失满足损失阈值，完成所述简化图像获取模型的训练。

为了对简化图像获取模型进行训练，首先利用训练数据集获取单元100获取训练用的数据，即训练数据集，训练数据集包括各个训练场景文本图像和分别与各个训练场景文本图像对应的基准简化文本图像，其中基准简化文本图像即为简化图像获取模型训练的参照，因此，相互对应的基准简化文本图像与训练场景文本图像的文本内容是相同的。

其中，训练场景文本图像是指用于模型训练的场景文本图像，场景文本图像是指直接从实际应用场景中拍摄得到的图像；而基准简化文本图像是指用作模型训练的基准的简化文本图像，简化文本图像是指与场景文本图像相比，所包含的信息相对较少或者场景纹理比较简单的文本图像。

训练场景文本图像可以包括打印体也可以包括手写体，而基准简化文本图像的文本包括打印体，这样，可以理解的是，当基于训练数据集训练好的简化图像获取模型后，通过简化图像获取模型就可以获取到场景文本图像的简化文本图像，并且所得到的简化文本图像的文本为打印体，从而可以方便后续进行文本识别。

为了方便获取基准简化文本图像，首先获取各个所述训练场景文本图像的标注文本，然后根据所述标注文本获取各个标注文本打印体，将各个所述标注文本打印体粘贴至预定图像背景，得到各个所述基准简化文本图像。

得到训练数据集后，预测简化文本图像获取单元110利用预先构建的简化图像获取模型的第一编码器，对各个训练场景文本图像进行编码，获取各个场景文本图像编码特征。

得到场景文本图像编码特征后，预测简化文本图像获取单元110利用预先构建的简化图像获取模型的解码器对其进行解码，从而获取到各个预测简化文本图像。

得到预测简化文本图像后，简化图像获取模型获取单元120获取简化图像获取模型的预测损失，由于与同一个训练场景文本图像对应的基准简化文本图像有多个，因此首先从中选择一个作为比对基准文本图像，为了保证训练后模型的准确性，可以随机选择一个作为比对基准文本图像，然后基于预测简化文本图像和比对基准文本图像，获取预测损失。

得到预测损失后，简化图像获取模型获取单元120再将其与损失阈值进行比较，如果满足损失阈值，那么证明所得到的简化图像获取模型已经满足训练要求，完成所述简化图像获取模型的训练，得到训练完成的简化图像获取模型，如果不满足损失阈值，那么需要继续对模型进行训练，根据预测损失调整第一编码器和解码器的参数，实现对简化图像获取模型的训练。

这样，本发明实施例所提供的简化图像获取模型训练装置，所获取得训练数据集中得基准简化文本图像，可以通过对一个训练场景文本图像进行文本标注获取多个，在模型训练过程中，相当于具有多个相互对应的训练场景文本图像和基准简化文本图像，从而可以仅对较少的训练场景文本图像进行文本标注，就可以获取到大量的用于对简化图像获取模型训练的数据，可以在减少对训练场景文本图像的文本标注的基础上，保证较好的训练效果；而进一步地，得到训练完成的简化图像获取模型后，当需要进行文本识别时，可以首先利用训练完成的简化图像获取模型基于待识别场景文本图像获取对应的具有相同文本的简化图像，再利用基于训练简化文本图像训练好的简化图像文本识别模型，进行文本识别，而训练简化文本图像的基准识别文本可机器获取，对简化图像文本识别模型的训练也无需大量的人工标注。因此，本发明实施例所提供的简化图像获取模型训练方法，可以利用较少的人工标注实现对简化图像获取模型的训练，为降低图像文本识别模型的训练难度提供基础，使得图像文本识别模型的训练可以利用简化图像进行，从而进一步降低模型训练的人工标注工作量，实现在保证场景文本图像的文本识别的基础上的训练成本的降低。

在另一种具体实施方式中，为了进一步提高对简化图像获取模型训练的准确性和效率，本发明实施例还提供一种简化图像获取模型训练装置，训练数据集获取单元100，适于获取训练数据集。

预测简化文本图像获取单元110，适于利用所述简化图像获取模型的第一编码器，获取各个所述训练场景文本图像的场景文本图像编码特征，利用所述简化图像获取模型的解码器对各个所述场景文本图像编码特征进行解码，得到各个所述训练场景文本图像的预测简化文本图像，包括：

利用所述简化图像获取模型的第二编码器，获取各个所述背景纹理图像的背景纹理编码特征，获取相互对应的各个所述场景文本图像编码特征与各个所述背景纹理编码特征的编码特征差，得到各个差值编码特征，利用所述简化图像获取模型的解码器对各个所述差值编码特征进行解码，得到各个所述训练场景文本图像的预测简化文本图像。

得到各个训练场景文本图像的各个背景纹理图像后，预测简化文本图像获取单元110还利用预先构建的简化图像获取模型的第二编码器，对各个背景纹理图像进行编码，获取各个背景纹理编码特征。

为了获取第二编码器，在一种具体实施方式中，包括以下方法：

利用所述纹理特征获取模型的编码器，获取第二数据集的各个背景纹理图像的各个纹理编码特征；

利用所述纹理特征获取模型的解码器，对各个所述纹理编码特征进行解码，得到各个预测背景纹理图像；

根据相互对应的各个所述背景纹理图像和各个所述预测背景纹理图像获取所述纹理特征获取模型的纹理预测损失，判断所述纹理预测损失是否满足预定的纹理损失阈值，若是，完成所述纹理特征获取模型的训练，得到已训练好的纹理特征获取模型的编码器，得到所述第二编码器，若否，根据所述纹理预测损失调整所述纹理特征获取模型的参数。

得到各个所述场景文本图像编码特征与各个所述背景纹理编码特征后，预测简化文本图像获取单元110获取相互对应的所述场景文本图像编码特征与所述背景纹理编码特征的编码特征差，得到各个差值编码特征。

得到差值编码特征后，预测简化文本图像获取单元110利用预先构建的简化图像获取模型的解码器对其进行解码，从而获取到各个预测简化文本图像。

然后，简化图像获取模型获取单元120分别从与各个所述训练场景文本图像对应的各个基准简化文本图像中随机获取比对基准文本图像，根据各个对应于同一所述训练场景文本图像的所述预测简化文本图像和所述比对基准文本图像，获取所述简化图像获取模型的预测损失，并判断所述简化图像获取模型的预测损失是否满足损失阈值，若是，完成所述简化图像获取模型的训练，若否，再根据所述预测损失调整所述第一编码器和所述解码器的参数。

可以看出，本发明实施例所提供的简化图像获取模型训练装置，在进行训练的过程中，预测所使用的差值编码特征为场景文本图像编码特征与背景纹理编码特征的编码特征差，可以消除背景纹理，从而可以避免由于场景文本图像中的背景纹理对模型的训练带来的干扰，提高模型训练的准确性和效率。

在另一种具体方式中，为了进一步提高对简化图像获取模型训练的准确性和效率，本发明实施例还提供一种简化图像获取模型训练装置，其中，

训练数据集获取单元100，适于获取训练数据集，在此实施例中，训练数据集中不仅包括训练场景文本图像、基准简化文本图像、背景纹理图像，还包括各个所述训练场景文本图像的笔迹梯度图像，其中笔迹梯度图像中包括训练场景文本图像的文本笔迹信息。

利用所述简化图像获取模型的第一编码器，获取各个所述训练场景文本图像的场景文本图像编码特征，利用所述简化图像获取模型的第二编码器，获取各个所述背景纹理图像的背景纹理编码特征，利用所述简化图像获取模型的第三编码器，获取各个所述笔迹梯度图像的各个文本笔迹编码特征，获取相互对应的各个所述场景文本图像编码特征与各个所述背景纹理编码特征和各个所述文本笔迹编码特征的编码特征差，得到各个差值编码特征，利用所述简化图像获取模型的解码器对各个所述差值编码特征进行解码，得到各个所述训练场景文本图像的预测简化文本图像。

除了获取场景文本图像编码特征、背景纹理编码特征，预测简化文本图像获取单元110还利用预先构建的简化图像获取模型的第三编码器，对各个笔迹梯度图像进行编码，获取各个背景纹理编码特征。

其中，第三编码器可以通过以下步骤进行获取：

首先，利用所述笔迹特征获取模型的编码器，获取第三数据集的各个笔迹梯度图像的各个纹理编码特征。

然后，利用所述笔迹特征获取模型的解码器，对各个所述纹理编码特征进行解码，得到各个预测笔迹梯度图像；

再根据相互对应的各个所述笔迹梯度图像和各个所述预测笔迹梯度图像获取所述笔迹特征获取模型的笔迹预测损，失并判断所述笔迹预测损失是否满足预定的笔迹损失阈值，若是，完成所述笔迹特征获取模型的训练，得到已训练好的笔迹特征获取模型的编码器，得到所述第三编码器，若否，根据所述笔迹预测损失调整所述笔迹特征获取模型的参数，并再次进行训练，直至完成所述笔迹特征获取模型的训练。

得到各个所述场景文本图像编码特征与各个所述背景纹理编码特征和各个所述文本笔迹编码特征后，预测简化文本图像获取单元110进一步获取相互对应的所述场景文本图像编码特征与所述背景纹理编码特征以及文本笔迹编码特征的编码特征差，即利用场景文本图像编码特征减掉背景纹理编码特征，再减掉文本笔迹编码特征，得到各个差值编码特征。

为了在保证图像文本识别准确性的基础上，减小模型的训练成本，本发明实施例还提供一种图像文本识别装置，请参考图10，图10为本发明实施例所提供的图像文本识别装置的一框图。

如图中所示，本发明实施例所提供的图像文本识别装置，包括：

待识别场景文本图像获取单元200，适于获取待识别场景文本图像。

简化图像获取单元210，适于利用如前述任一实施例所述的简化图像获取模型，对所述待识别场景文本图像进行预测，得到所述待识别场景文本图像的简化图像。

识别文本获取单元220，适于利用训练好的简化图像文本识别模型，对所述简化图像进行文本识别，得到识别文本，所述简化图像文本识别模型训练所利用的基准识别文本能够通过机器获取。

得到待识别场景文本图像后，简化图像获取单元210利用经前述的任一种模型训练方式得到的简化图像获取模型，对其进行预测，从而得到简化图像。当然，所得到的简化图像即为文字字体为打印体的图像。

然后利用简化图像文本识别模型，进行文本识别。

在一种具体实施方式中，为了提高训练准确度，并降低基准识别文本的获取难度，本文所述的简化图像文本识别模型可以通过以下步骤进行训练：

首先，获取各个训练简化文本图像和与各个训练简化文本图像对应的基准识别文本，所述训练简化文本图像通过将所述基准识别文本贴于预选纹理背景图像获取；

然后，利用所述简化图像文本识别模型获取各个所述训练简化文本图像的各个预测识别文本；

最后，根据相互对应的各个所述预测识别文本和各个基准识别文本，获取所述图像文本识别模型的文本识别损失，并根据所述文本识别损失调整所述简化图像文本识别模型的参数，直至所述文本识别损失满足预定的文本识别损失阈值，得到训练好的简化图像文本识别模型。

可以看出，本发明实施例所提供的图像文本识别装置，首先利用训练完成的简化图像获取模型基于待识别场景文本图像获取对应的具有相同文本的简化图像，再利用基于训练简化文本图像训练好的简化图像文本识别模型，进行文本识别，而训练简化文本图像的基准识别文本可机器获取，对简化图像文本识别模型的训练也无需大量的人工标注。因此，本发明实施例所提供的图像文本识别方法，一方面，可以利用较少的人工标注实现对简化图像获取模型的训练，另一方面，允许图像文本识别模型的训练可以利用简化图像进行，得到简化图像文本识别模型，从而在实现文本识别的基础上可以降低模型训练的人工标注工作量，实现训练成本的降低。

当然，本发明实施例还提供一种设备，本发明实施例提供的设备可以通过程序形式装载上述所述的程序模块架构，以实现本发明实施例提供的简化图像获取模型训练方法或图像文本识别方法；该硬件设备可以应用于具体数据处理能力的电子设备，该电子设备可以为：例如终端设备或者服务器设备。

可选的，图11示出了本发明实施例提供的设备一种可选硬件设备架构，可以包括：至少一个存储器3和至少一个处理器1；所述存储器存储有程序，所述处理器调用所述程序，以执行前述的简化图像获取模型训练方法或图像文本识别方法，另外，至少一个通信接口2和至少一个通信总线4；处理器1和存储器3可以位于同一电子设备，例如处理器1和存储器3可以位于服务器设备或者终端设备；处理器1和存储器3也可以位于不同的电子设备。

作为本发明实施例公开内容的一种可选实现，存储器3可以存储程序，处理器1可调用所述程序，以执行本发明上述实施例提供的简化图像获取模型训练方法或图像文本识别方法。

本发明实施例中，电子设备可以是能够进行简化图像获取模型训练或图像文本识别的平板电脑、笔记本电脑等设备。

在本发明实施例中，处理器1、通信接口2、存储器3、通信总线4的数量为至少一个，且处理器1、通信接口2、存储器3通过通信总线4完成相互间的通信；显然，图11所示的处理器1、通信接口2、存储器3和通信总线4的通信连接示意仅是可选的一种方式；

可选的，通信接口2可以为通信模块的接口，如GSM模块的接口；

处理器1可能是中央处理器CPU，或者是特定集成电路ASIC（Application SpecificIntegrated Circuit），或者是被配置成实施本发明实施例的一个或多个集成电路。

存储器3可能包含高速RAM存储器，也可能还包括非易失性存储器（non-volatilememory），例如至少一个磁盘存储器。

需要说明的是，上述的设备还可以包括与本发明实施例公开内容可能并不是必需的其他器件（未示出）；鉴于这些其他器件对于理解本发明实施例公开内容可能并不是必需，本发明实施例对此不进行逐一介绍。

本发明实施例还提供一种计算机可读存储介质，计算机可读存储介质存储有计算机可执行指令，当该指令被处理器执行时可以实现如上所述简化图像获取模型训练方法或图像文本识别方法。

本发明实施例所提供的存储介质所存储的计算机可执行指令，在对待训练的简化图像获取模型进行训练时，对一个训练场景文本图像进行文本标注后，可以获取多个基准简化文本图像，在模型训练过程中，相当于具有多个相互对应的训练场景文本图像和基准简化文本图像，从而可以仅对较少的训练场景文本图像进行文本标注，就可以获取到大量的用于对简化图像获取模型训练的数据，可以在减少对训练场景文本图像的文本标注的基础上，保证较好的训练效果；而进一步地，得到训练完成的简化图像获取模型后，当需要进行文本识别时，可以首先利用训练完成的简化图像获取模型基于待识别场景文本图像获取对应的具有相同文本的简化图像，再利用基于训练简化文本图像训练好的简化图像文本识别模型，进行文本识别，而训练简化文本图像的基准识别文本可机器获取，对简化图像文本识别模型的训练也无需大量的人工标注。因此，本发明实施例所提供的简化图像获取模型训练方法，可以利用较少的人工标注实现对简化图像获取模型的训练，为降低图像文本识别模型的训练难度提供基础，使得图像文本识别模型的训练可以利用简化图像进行，从而进一步降低模型训练的人工标注工作量，实现在保证场景文本图像的文本识别的基础上的训练成本的降低。

上述本发明的实施方式是本发明的元件和特征的组合。除非另外提及，否则所述元件或特征可被视为选择性的。各个元件或特征可在不与其它元件或特征组合的情况下实践。另外，本发明的实施方式可通过组合部分元件和/或特征来构造。本发明的实施方式中所描述的操作顺序可重新排列。任一实施方式的一些构造可被包括在另一实施方式中，并且可用另一实施方式的对应构造代替。对于本领域技术人员而言明显的是，所附权利要求中彼此没有明确引用关系的权利要求可组合成本发明的实施方式，或者可在提交本申请之后的修改中作为新的权利要求包括。

本发明的实施方式可通过例如硬件、固件、软件或其组合的各种手段来实现。在硬件配置方式中，根据本发明示例性实施方式的方法可通过一个或更多个专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理器件(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、处理器、控制器、微控制器、微处理器等来实现。

在固件或软件配置方式中，本发明的实施方式可以模块、过程、功能等形式实现。软件代码可存储在存储器单元中并由处理器执行。存储器单元位于处理器的内部或外部，并可经由各种己知手段向处理器发送数据以及从处理器接收数据。

对所公开的实施例的上述说明，使本领域技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其他实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是符合与本文所公开的原理和新颖特点相一致的最宽的范围。

虽然本发明实施例披露如上，但本发明并非限定于此。任何本领域技术人员，在不脱离本发明的精神和范围内，均可作各种变动与修改，因此本发明的保护范围应当以权利要求所限定的范围为准。

Claims

1.一种简化图像获取模型训练方法，其特征在于，包括：

2.如权利要求1所述的简化图像获取模型训练方法，其特征在于，所述训练数据集还包括各个所述训练场景文本图像的背景纹理图像，所述背景纹理图像包括所述训练场景文本图像的背景纹理信息，所述简化图像获取模型还包括第二编码器，所述第二编码器为已训练好的纹理特征获取模型的编码器；所述简化图像获取模型训练方法还包括：

利用所述简化图像获取模型的第二编码器，获取各个所述背景纹理图像的背景纹理编码特征；

获取相互对应的各个所述场景文本图像编码特征与各个所述背景纹理编码特征的编码特征差，得到各个差值编码特征；

所述利用所述简化图像获取模型的解码器对各个所述场景文本图像编码特征进行解码，得到各个所述训练场景文本图像的预测简化文本图像的步骤包括：

利用所述简化图像获取模型的解码器对各个所述差值编码特征进行解码，得到各个所述训练场景文本图像的预测简化文本图像。

3.如权利要求2所述的简化图像获取模型训练方法，其特征在于，所述第二编码器通过以下步骤获取：

根据相互对应的各个所述背景纹理图像和各个所述预测背景纹理图像获取所述纹理特征获取模型的纹理预测损失，并根据所述纹理预测损失调整所述纹理特征获取模型的参数，直至所述纹理预测损失满足预定的纹理损失阈值，完成所述纹理特征获取模型的训练，得到已训练好的纹理特征获取模型的编码器，得到所述第二编码器。

4.如权利要求2所述的简化图像获取模型训练方法，其特征在于，所述训练数据集还包括与各个所述训练场景文本图像对应的笔迹梯度图像，所述笔迹梯度图像包括所述训练场景文本图像的文本笔迹信息，所述简化图像获取模型还包括第三编码器，所述第三编码器为已训练好的笔迹特征获取模型的编码器；所述简化图像获取模型训练方法还包括：

利用所述简化图像获取模型的第三编码器，获取各个所述笔迹梯度图像的各个文本笔迹编码特征；

所述获取相互对应的各个所述场景文本图像编码特征与各个所述背景纹理编码特征的编码特征差，得到各个差值编码特征的步骤包括：

获取相互对应的各个所述场景文本图像编码特征与各个所述背景纹理编码特征和各个所述文本笔迹编码特征的编码特征差，得到各个差值编码特征；

所述利用所述简化图像获取模型的解码器对各个所述差值编码特征进行解码，得到各个所述训练场景文本图像的预测简化文本图像的步骤包括：

5.如权利要求4所述的简化图像获取模型训练方法，其特征在于，所述笔迹特征获取模型通过以下步骤训练：

利用所述笔迹特征获取模型的编码器，获取第三数据集的各个所述笔迹梯度图像的笔迹编码特征；

利用所述笔迹特征获取模型的解码器，对各个所述笔迹编码特征进行解码，得到各个预测笔迹梯度图像；

根据相互对应的各个所述笔迹梯度图像和各个所述预测笔迹梯度图像获取所述笔迹特征获取模型的笔迹预测损失，并根据所述笔迹预测损失调整所述笔迹特征获取模型的参数，直至所述笔迹预测损失满足预定的笔迹损失阈值，完成所述笔迹特征获取模型的训练，得到已训练好的笔迹特征获取模型的编码器。

6.如权利要求2-5任一项所述的简化图像获取模型训练方法，其特征在于，所述背景纹理图像通过以下步骤获取：

获取各个所述训练场景文本图像对应的笔迹梯度图像；

利用各个相互对应的所述训练场景文本图像减去所述笔迹梯度图像，得到各个所述背景纹理图像。

7.如权利要求1-5任一项所述的简化图像获取模型训练方法，其特征在于，所述基准简化文本图像通过以下步骤获取：

获取各个所述训练场景文本图像的标注文本；

根据所述标注文本获取各个标注文本打印体，将各个所述标注文本打印体粘贴至预定图像背景，得到各个所述基准简化文本图像。

8.一种图像文本识别方法，其特征在于，包括：

获取待识别场景文本图像；

利用如权利要求1-7任一项所述的简化图像获取模型，对所述待识别场景文本图像进行预测，得到所述待识别场景文本图像的简化图像；

9.如权利要求8所述的图像文本识别方法，其特征在于，所述简化图像文本识别模型通过以下步骤训练：

获取各个训练简化文本图像和与各个训练简化文本图像对应的基准识别文本，所述训练简化文本图像通过将所述基准识别文本贴于预选纹理背景图像获取；

利用所述简化图像文本识别模型获取各个所述训练简化文本图像的各个预测识别文本；

根据相互对应的各个所述预测识别文本和各个基准识别文本，获取所述图像文本识别模型的文本识别损失，并根据所述文本识别损失调整所述简化图像文本识别模型的参数，直至所述文本识别损失满足预定的文本识别损失阈值，得到训练好的简化图像文本识别模型。

10.一种简化图像获取模型训练装置，其特征在于，包括：

11.一种图像文本识别装置，其特征在于，包括：

简化图像获取单元，适于利用如权利要求1-7任一项所述的简化图像获取模型，对所述待识别场景文本图像进行预测，得到所述待识别场景文本图像的简化图像；

12.一种存储介质，其特征在于，所述存储介质存储有适于简化图像获取模型训练的程序，以实现如权利要求1-7任一项所述的简化图像获取模型训练方法，或者所述存储介质存储有适于图像文本识别的程序，以实现如权利要求8或9所述的图像文本识别方法。

13.一种电子设备，其特征在于，包括至少一个存储器和至少一个处理器；所述存储器存储有程序，所述处理器调用所述程序，以执行如权利要求1-7任一项所述的简化图像获取模型训练方法或者如权利要求8或9所述的图像文本识别方法。