CN114626392B

CN114626392B - 端到端文本图像翻译模型训练方法

Info

Publication number: CN114626392B
Application number: CN202210193873.3A
Authority: CN
Inventors: 周玉; 马聪
Original assignee: Beijing Zhongkefan Language Technology Co ltd
Current assignee: Beijing Zhongkefan Language Technology Co ltd
Priority date: 2022-01-29
Filing date: 2022-03-01
Publication date: 2023-02-21
Anticipated expiration: 2042-03-01
Also published as: CN114626392A

Abstract

本公开提供一种端到端文本图像翻译模型训练方法，包括：对包含源端语言文本的图像及源端语言文本进行预处理，获取预处理后的子图像及文本字符串；对包含源端语言文本的子图像通过图像编码器编码，获取图像特征，对预处理后的文本字符串通过文本编码器编码，获取文本特征；通过序列特征编码器分别对图像特征和所述文本特征进行编码，获取图像序列特征和文本序列特征；基于图像序列特征、文本序列特征，计算不同的损失值；基于不同的损失值，构建损失函数；以及基于损失函数，在通过训练模型进行训练时，更新所述训练模型的参数。本公开还提供一种端到端文本图像翻译模型训练装置、电子设备以及可读存储介质。

Description

端到端文本图像翻译模型训练方法

技术领域

本公开涉及自然语言处理技术领域，具体涉及一种端到端文本图像翻译模型训练方法。

背景技术

文本图像翻译是利用计算机***自动地将图片或视频中包含的源语言翻译为目标语言。文本图像翻译技术能够快速、有效地帮助人们翻译和理解图片、视频中的文本内容。该技术可以将图像、视频中的一种语言的文本快速地翻译到不同语言，来促进使用不同语言的人们的理解。

目前常用的文本图像翻译的架构是将文本图像识别***同机器翻译***进行***级联来实现对图片中的源端语言进行翻译。然而***级联的两个子任务在各自的训练数据集上进行独立训练，导致子任务的训练领域不一致。同时，***级联在***部署时，需要部署两个分立的模型，增加了部署的复杂度，且模型存储空间复杂度高，模型解码时间复杂度高。端到端文本图像翻译***虽然模型空间复杂度小，但是由于缺乏训练数据和模型设计等问题，现阶段的端到端文本图像翻译模型的性能依然较差。此外，现有的研究和应用，没有考虑到文本图像翻译及建模的特点，即具有相同文本内容的文本图像，虽然它们的字体、背景图片、文本方向等不同，但是在文本图像翻译的任务中，这些具有相似文本的文本图像的特征表达应该是相似的。由于文本图像翻译和文本翻译具有对称性，包含相同文本内容的文本图像和纯文本在翻译的编码阶段也应该有相似的特征表达。对应的，具有相似语义的源端语言文本句子在文本翻译编码过程中也应该具有相似的文本特征编码。

发明内容

为了解决上述技术问题中的至少一个，本公开提供了一种端到端文本图像翻译模型训练方法、装置、电子设备及可读存储介质。

根据本公开的一个方面，提供一种端到端文本图像翻译模型训练方法，包括：

对包含源端语言文本的图像进行预处理，获取包含源端语言文本的子图像，对所述包含源端语言文本的图像对应的源端语言文本进行预处理，获取预处理后的文本字符串；

对所述包含源端语言文本的子图像通过图像编码器编码，获取图像特征，对所述预处理后的文本字符串通过文本编码器编码，获取文本特征；

通过图像序列特征编码器和文本序列特征编码器分别对所述图像特征和所述文本特征进行编码，获取所述图像特征对应的图像序列特征和所述文本特征对应的文本序列特征；

基于所述图像序列特征、文本序列特征，计算不同的损失值；

基于所述不同的损失值，构建损失函数；

基于所述损失函数，在通过训练模型进行训练时，更新所述训练模型的参数。

根据本公开至少一个实施方式的端到端文本图像翻译模型训练方法，对包含源端语言文本的图像进行预处理，获取包含源端语言文本的子图像，包括：

通过图像缩放方法对包含源端语言文本的图像进行尺寸调整；

通过文本检测方法获得图像中的源端语言文本所在的区域位置，并将所在的区域进行图像分割，得到子图像；

将所述子图像中的文本按照预定方向重新排列。

根据本公开至少一个实施方式的端到端文本图像翻译模型训练方法，对所述包含源端语言文本的图像对应的源端语言文本进行预处理，获取预处理后的文本字符串，包括：

对所述包含源端语言文本的图像对应的源端语言文本内包含的标点符号标准化处理；

对所述包含源端语言文本的图像对应的源端语言文本进行分词；

对所述分词处理后的词，判断各个词是否属于未登录词，如果属于未登录词，则将未登录的词替换为标记符号；

其中，所述未登录词指所述源端语言文本中出现的未能与标准语义文本库中匹配的词。

根据本公开至少一个实施方式的端到端文本图像翻译模型训练方法，通过图像序列特征编码器和文本序列特征编码器分别对所述图像特征和所述文本特征进行编码，获取所述图像特征对应的图像序列特征和所述文本特征对应的文本序列特征，包括：

判断所述图像序列特征编码器和所述文本序列特征编码器是否同一序列特征编码器；

如果所述图像序列特征编码器和所述文本序列特征编码器为同一序列特征编码器，则通过特征变换对所述图像特征和文本特征进行处理，以使得所述图像特征和文本特征的隐层维度保持一致；

如果所述图像序列特征编码器和所述文本序列特征编码器为不同序列特征编码器，则分别将所述图像特征和所述文本特征分别通过所述图像序列特征编码器和所述文本序列特征编码器进行编码，对编码后的图像特征和编码后的文本特征经特征变换处理，以使得所述图像特征和文本特征的隐层维度保持一致。

根据本公开至少一个实施方式的端到端文本图像翻译模型训练方法，基于所述图像序列特征、文本序列特征，计算不用的损失值，包括：

基于所述图像序列特征、文本序列特征，计算图像与图像之间的对比损失、文本与文本之间的对比损失、图像与文本之间的对比损失。

根据本公开至少一个实施方式的端到端文本图像翻译模型训练方法，基于所述图像序列特征、文本序列特征，计算不同的损失值，包括：

基于所述图像序列特征、文本序列特征，通过解码器进行解码，获得对应的解码的目标端语言，基于所述解码的目标语言计算端到端文本图像翻译损失和端到端文本翻译损失；

其中，所述端到端文本图像翻译的损失基于图像序列特征解码得到的目标语言和目标语言标准答案进行计算，所述端到端文本翻译的损失基于文本序列特征解码对结果和目标语言标准答案进行计算。

根据本公开至少一个实施方式的端到端文本图像翻译模型训练方法，基于所述不同的损失值，构建损失函数，包括：

基于所述不同的损失值，通过加权求和的方法，构建所述损失函数。

根据本公开的又一个方面，提供一种端到端文本图像翻译模型训练装置，包括：

预处理模块，对包含源端语言文本的图像通过文本检测和图像分割处理，获取包含源端语言文本的子图像，对所述包含源端语言文本的图像对应的源端语言文本进行预处理，获取预处理后的文本字符串；

特征获取模块，对所述包含源端语言文本的子图像通过图像编码器编码，获取图像特征，对所述预处理后的文本字符串通过文本编码器编码，获取文本特征；

序列特征编码模块，通过图像序列特征编码器和文本序列特征编码器分别对所述图像特征和所述文本特征进行编码，获取所述图像特征对应的图像序列特征和所述文本特征对应的文本序列特征；

损失计算模块，基于所述图像序列特征、文本序列特征，计算不同的损失值；

损失函数构建模块，基于所述不同的损失值，构建损失函数；

训练模块，基于所述损失函数，在通过训练模型进行训练时，更新所述训练模型的参数。

根据本公开至少一个实施方式的端到端文本图像翻译模型训练装置，对包含源端语言文本的图像进行预处理，获取包含源端语言文本的子图像，包括：

将所述子图像中的文本按照预定方向重新排列。

根据本公开至少一个实施方式的端到端文本图像翻译模型训练装置，对所述包含源端语言文本的图像对应的源端语言文本进行预处理，获取预处理后的文本字符串，包括：

对所述包含源端语言文本的图像对应的源端语言文本进行分词；以及

其中，所述未登录词指所述源端语言文本中出现的未能与标准词汇库中匹配的词。

根据本公开至少一个实施方式的端到端文本图像翻译模型训练装置，通过图像序列特征编码器和文本序列特征编码器分别对所述图像特征和所述文本特征进行编码，获取所述图像特征对应的图像序列特征和所述文本特征对应的文本序列特征，包括：

根据本公开至少一个实施方式的端到端文本图像翻译模型训练装置，基于所述图像序列特征、文本序列特征，计算不用的损失值，包括：

根据本公开至少一个实施方式的端到端文本图像翻译模型训练装置，基于所述图像序列特征、文本序列特征，计算不同的损失值，包括：

根据本公开至少一个实施方式的端到端文本图像翻译模型训练装置，基于所述不同的损失值，构建损失函数，包括：

根据本公开的又一个方面，提供一种电子设备，包括：

存储器，所述存储器存储执行指令；

处理器，所述处理器执行所述存储器存储的执行指令，使得所述处理器执行上述任一项所述的方法。

根据本公开的又一个方面，提供一种可读存储介质，所述可读存储介质中存储有执行指令，所述执行指令被处理器执行时用于实现上述任一项所述的方法。

附图说明

附图示出了本公开的示例性实施方式，并与其说明一起用于解释本公开的原理，其中包括了这些附图以提供对本公开的进一步理解，并且附图包括在本说明书中并构成本说明书的一部分。

图1是根据本公开的一个实施方式的端到端文本图像翻译模型训练的方法的流程示意图。

图2是根据本公开的一个实施方式的对包含源端语言文本的图像进行预处理的方法流程示意图。

图3是根据本公开的一个实施方式的对包含源端语言文本的图像对应的源端语言文本进行预处理的方法流程示意图。

图4是根据本公开的一个实施方式的通过序列特征编码器对图像特征和文本特征进行编码以获取图像特征对应的图像序列特征和文本特征对应的文本序列特征的方法流程示意图。

图5是根据本公开的一个实施方式的基于不同的损失值构建损失函数的方法流程示意图。

图6是根据本公开的一个实施方式的端到端文本图像翻译模型训练的装置的结构示意图。

图7是根据本公开的一个实施方式的端到端文本图像翻译模型训练架构图。

图8是根据本公开的一个实施方式的文本编码器结构示意图。

图9是根据本公开的一个实施方式的图像编码器结构示意图。

图10是根据本公开的一个实施方式的基于自注意力的序列特征编码器结构示意图。

图11是根据本公开的一个实施方式的解码器结构示意图。

图12是根据本公开的一个实施方式的数据增广示意图。

图13是根据本公开的一个实施方式的给定源端语言文本，生成包含给定源端语言文本的图像示意图。

附图标记说明

1002 预处理模块

1004 特征获取模块

1006 序列特征编码模块

1008 损失计算模块

1010 损失函数构建模块

1012 训练模块

1100 总线

1200 处理器

1300 存储器

1400 其他电路。

具体实施方式

下面结合附图和实施方式对本公开作进一步的详细说明。可以理解的是，此处所描述的具体实施方式仅用于解释相关内容，而非对本公开的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本公开相关的部分。

需要说明的是，在不冲突的情况下，本公开中的实施方式及实施方式中的特征可以相互组合。下面将参考附图并结合实施方式来详细说明本公开的技术方案。

除非另有说明，否则示出的示例性实施方式/实施例将被理解为提供可以在实践中实施本公开的技术构思的一些方式的各种细节的示例性特征。因此，除非另有说明，否则在不脱离本公开的技术构思的情况下，各种实施方式/实施例的特征可以另外地组合、分离、互换和/或重新布置。

在附图中使用交叉影线和/或阴影通常用于使相邻部件之间的边界变得清晰。如此，除非说明，否则交叉影线或阴影的存在与否均不传达或表示对部件的具体材料、材料性质、尺寸、比例、示出的部件之间的共性和/或部件的任何其它特性、属性、性质等的任何偏好或者要求。此外，在附图中，为了清楚和/或描述性的目的，可以夸大部件的尺寸和相对尺寸。当可以不同地实施示例性实施例时，可以以不同于所描述的顺序来执行具体的工艺顺序。例如，可以基本同时执行或者以与所描述的顺序相反的顺序执行两个连续描述的工艺。此外，同样的附图标记表示同样的部件。

当一个部件被称作“在”另一部件“上”或“之上”、“连接到”或“结合到”另一部件时，该部件可以直接在所述另一部件上、直接连接到或直接结合到所述另一部件，或者可以存在中间部件。然而，当部件被称作“直接在”另一部件“上“、“直接连接到”或“直接结合到”另一部件时，不存在中间部件。为此，术语“连接”可以指物理连接、电气连接等，并且具有或不具有中间部件。

本文使用的术语是为了描述具体实施例的目的，而不意图是限制性的。如这里所使用的，除非上下文另外清楚地指出，否则单数形式“一个(种、者)”和“所述(该)”也意图包括复数形式。此外，当在本说明书中使用术语“包含”和/或“包括”以及它们的变型时，说明存在所陈述的特征、整体、步骤、操作、部件、组件和/或它们的组，但不排除存在或附加一个或更多个其它特征、整体、步骤、操作、部件、组件和/或它们的组。还要注意的是，如这里使用的，术语“基本上”、“大约”和其它类似的术语被用作近似术语而不用作程度术语，如此，它们被用来解释本领域普通技术人员将认识到的测量值、计算值和/或提供的值的固有偏差。

图1是根据本公开的一个实施方式的端到端文本图像翻译模型训练方法示意图。如图1所示，端到端文本图像翻译模型训练方法S10，包括以下步骤。

在步骤S100中，对给定源端语言的文本构建包含该源端语言内容的文本图像(即下文中的包含源端语言文本的图像)，同时构建与给定源端语言文本语义对应的(此处的对应，指的是完全一样的，以及不完全一样的，具有相似语义的)源端语言句子(即源端语言文本)，包括以下处理步骤。

给定源端语言文本，首先生成包含该文本的源端语言文本图像，具体的，在字体库、背景图像库中确定文本图像中文本的字体信息、背景图像信息、字号信息、字体方向信息、字体颜色信息、图片模糊程度等，根据这些效果叠加出需要合成的文本图像。

根据两个文本机器翻译模型得到与给定源端语言句子具有相似语义的源端语言文本。具体的，训练两个文本机器翻译模型，分别为源端到目标端的文本机器翻译模型和目标端到源端的文本机器翻译模型，通过源端到目标端语言的文本机器翻译模型首先将给定的源端语言句子翻译到目标端语言，然后通过目标端到源端的文本机器翻译模型将翻译的目标端语言句子再回译到具有相似语义的源端句子。通过设置文本机器翻译柱搜索的柱大小，得到多个具有相似语义的源端语言的句子。

优选的，在步骤S100中，还包括对源端文本图像和源端语言进行数据增广以解决图像文本翻译数据稀少的问题。图12是数据增广示意图，如图12所示，给定“Happily,itall went very well.”生成的两张包含该源端文本内容，但是字体、背景等不同的文本图像：通过回译的方法，可以得到与“Happily,it all went very well.”具有相似语义的源端语言文本：“Happily,everything went well.”图13是合成文本图像的各个效果的示例。在步骤S102中，对包含源端语言文本的图像进行预处理，获取包含源端语言文本的子图像，对包含源端语言文本的图像对应的源端语言文本进行预处理，获取预处理后的文本字符串。

在步骤S102中，对包含源端语言文本的图像进行预处理，获取包含源端语言文本的子图像，具体实施的方法如图2所示，包括如下步骤。

在步骤S1022中，对输入的源端语言文本图像进行图像预处理，包括：通过图像缩放方法对包含源端语言文本的图像进行尺寸调整。具体的，图像尺寸变化是利用插值算法将图像放大或缩小到预定义的图像大小，例如预定义的图像大小为img_W×img_H，img_W为预定义的图像宽度，img_H为预定义的图像高度。

在步骤S1024中，通过文本检测方法获得图像中的源端语言文本所在的区域位置，并将所在的区域进行图像分割，得到子图像。首先，通过文本检测检测出图像中文本所在的位置，例如，通过文本检测算法得到输入的包含源端语言的图像中包含文本的子图像的轮廓点的位置。然后，通过图像分割将包含文本的图像区域分割出来，得到一个子图像。

在步骤S1026中，将子图像中的文本按照预定方向重新排列。通过坐标变化，将原图像中文本轮廓的坐标和对应像素映射到水平位置，同时舍弃非文本区域的像素值；对于水平映射后的文本图像，利用插值算法估计缺失的像素；

对于每一张图像，经过图像预处理后，得到的输出结果为：将每一张图像表示为一个矩阵I，该矩阵的大小为I_W×I_H×C，其中I_W，I_H，C分别表示分割得到的子图像的宽度、高度和色彩通道，图像没RGB彩色图像，相应的，色彩通道为RGB三通道。图像尺寸调整、图像中文本的检测、截取及校正。图像中的文本检测是检测出一个图像中文本所在的位置。矫正是将分割得到的子图像中的文本按照水平方式进行重新呈现。对于每一张图像，经过图像预处理后，得到的输出结果为：将每一张图像表示为一个矩阵I，该矩阵的大小为I_W×I_H×C，其中I_W，I_H，C分别表示分割得到的子图像的宽度、高度和色彩通道，图像没RGB彩色图像，相应的，色彩通道为RGB三通道。

在步骤S102中，对包含源端语言文本的图像对应的源端语言文本进行预处理，获取预处理后的文本字符串，具体实施方式如图3所示，包括如下步骤。

在步骤S1021中，对包含源端语言文本的图像对应的源端语言文本内包含的标点符号标准化处理。

在步骤S1023中，对包含源端语言文本的图像对应的源端语言文本进行分词。

在步骤S1025中，对分词处理后的词，判断各个词是否属于未登录词，如果属于未登录词，则将未登录的词替换为标记符号。

其中，未登录词指源端语言文本中出现的未能与标准词汇库(待匹配词库)中匹配的词。经步骤S102处理后，文本预处理的输出为：每一句话表示为一个处理后的字符串T(字符串长度为按照相应分词单元切分的句子长度L_T)。

在步骤S104中，对包含源端语言文本的子图像通过图像编码器编码，获取图像特征，对预处理后的文本字符串通过文本编码器编码，获取文本特征。具体实施中，图像编码器如图9所示。具体实施中，文本编码器如图8所示。以下是步骤S104的具体实施方式。

通过图像编码器对输入的含有源端语言的文本图像进行特征编码，图像编码器的网络结构不受限制，可以是基于卷积神经网络的图像编码器，也可以是基于自注意力结构的图像编码器，通过图像编码器的编码得到的图像特征一般为多通道的特征图(维度为F_W×F_H×F_C的特征矩阵，其中F_W，F_H，F_C为特征图的宽度、高度和特征通道数)，在输入到序列特征编码器之前，往往需要通过仿射变换，将其特征维度调整为

其中

分别表示图像特征的隐层维度和序列长度。

通过文本编码器对输入到源端语言的文本进行特征编码，即对输入到字符串进行向量化表示。具体的，将每一个分词单元(如字符单元、亚词单元、词单元)通过嵌入矩阵表示为一个向量，则每一个源端语言的句子可以表示为一个矩阵，其维度为

其中

分别表示文本特征的隐层维度和序列长度。如果在后续的序列特征编码过程中，使用共享的序列特征编码器，则

否则对图像特征和文本特征的特征维度没有限制。

在步骤S106中，通过图像序列特征编码器和文本序列特征编码器分别对图像特征和文本特征进行编码，获取图像特征对应的图像序列特征和文本特征对应的文本序列特征。优选地，序列编码器可以共享或图像、文本使用各自独立的序列编码器

以下是步骤S106的具体实施方式。

在步骤S1062中，判断图像序列特征编码器和文本序列特征编码器是否同一序列特征编码器。具体实施中，可以通过判断当前序列特征编码器是否共享模型参数。

在步骤S1064中，如果图像序列特征编码器和文本序列特征编码器为同一序列特征编码器，则通过特征变换对图像特征和文本特征进行处理，以使得图像特征和文本特征的隐层维度保持一致。具体实施中，若共享模型参数，则根据共享设置，将图像序列特征编码器和文本序列特征编码器的模型参数进行共享。例如使用基于自注意力的序列特征编码器对输入的图像特征和文本特征进行编码，编码后的特征输出为：每一个特征输入编码为一个矩阵(F_h×F_L，F_h为序列特征编码器的隐层特征维度，F_L为序列特征编码器编码后的特征编码长度)。具体实施中，基于自注意力的序列特征编码器如图10所示。

在步骤S1066中，如果图像序列特征编码器和文本序列特征编码器为不同序列特征编码器，则分别将图像特征和文本特征分别通过图像序列特征编码器和文本序列特征编码器进行编码，对编码后的图像特征和编码后的文本特征经特征变换处理，以使得图像特征和文本特征的隐层维度保持一致。具体实施中，若不共享模型参数，则对不同的序列特征编码器使用不同的模型参数。

在步骤S108中，基于图像序列特征、文本序列特征，计算不同的损失值。不同的损失值包括图像与图像之间的对比损失、文本与文本之间的对比损失、图像与文本之间的对比损失、端到端文本图像翻译损失和端到端文本翻译损失。其中，模态对比学习包括：文本图像和文本的序列特征之间计算模态内、模态间的对比学习损失。各个损失值的计算方法如下。

计算图像与图像之间的对比损失的方法，包括：

令

为第i张图片的图像特征，

为具有同

相似语义的文本图像的图像特征，

为其他的文本图像的图像特征，文本图像之间的模态内损失的计算公式为

其中，K为负样例采样的数据池大小(例如可以设置为batch size)，τ为温度超参数，d(·)为相似度计算函数，相似度计算函数可以为余弦相似度、欧氏距离相似度等。

计算文本与文本之间的对比损失的方法，包括：

令

为第i个源端语言句子的文本特征，

为具有同

相似语义的文本的文本特征，

为其他的文本的文本特征，文本之间的模态内损失的计算公式为

其中K为负样例采样的数据池大小(例如可以设置为batch size)，τ为温度超参数，d(·)为相似度计算函数，相似度计算函数可以为余弦相似度、欧氏距离相似度等。

计算图像与文本之间的对比损失的方法，包括：

令

为第i张含有源端语言文本图像的图像特征，

为第i张含有源端语言文本图像中所包含的源端语言文本的文本特征，

为其他的文本图像的图像特征，文本图像与文本之间的模态间损失的计算公式为

其中，K为负样例采样的数据池大小，τ为温度超参数，d(·)为相似度计算表达式，相似度计算表达式包括余弦相似度、欧氏距离相似度中的任意一种。

在步骤S1066中，计算端到端文本图像翻译损失和端到端文本翻译损失时。包括如下步骤。

首先，基于所述图像序列特征、文本序列特征，通过解码器进行解码，获得对应的解码的目标端语言。优选地，通过解码器对图像序列特征和文本序列特征解码包括两个步骤：第一步、判断当前的解码器是否共享模型参数，若共享模型参数，则根据共享设置，将相应的文本图像解码器和文本解码器的模型参数进行共享，否则使用不同的解码器模型参数。第二步、对文本图像序列特征和文本序列特征分别进行特征解码，解码后的特征输出为一个矩阵，其维度为

其中

分别表示解码器输出的特征的隐层维度和序列长度。具体实施中，解码器如图11所示。

其次，基于所述解码的目标语言及目标语言标准答案计算端到端文本图像翻译损失和端到端文本翻译损失。具体实施中，计算方法如下。

基于解码的目标语言计算端到端文本图像翻译损失和端到端文本翻译损失的计算方法，包括：基于文本图像的特征解码得到的目标语言同目标语言的标准答案计算文本图像翻译损失：

其中，

表示文本图像翻译的训练损失，Iⁱ，Yⁱ分别表示第i张文本图像以及对应的目标语言的翻译，|D_TIT|表示文本图像翻译数据集中包含的训练样本的个数。目标语言的标准答案，即表示在完全正确翻译的情况下的目标语言，但特征解码器实际解码得到的目标语言与目标语言的标准答案之间可能存在一定的差异。

端到端文本翻译损失的计算方法，包括：基于文本的特征解码得到的目标语言同目标语言的标准答案计算文本翻译损失：

其中，

表示文本翻译的训练损失，Tⁱ，Yⁱ分别表示第i个源端文本句子和以及对应的目标语言的翻译，|D_MT|表示文本翻译数据集中包含的训练样本的个数。目标语言的标准答案，即表示在完全正确翻译的情况下的目标语言，但特征解码器实际解码得到的目标语言与目标语言的标准答案之间可能存在一定的差异。

在步骤S110中，基于不同的损失值，构建损失函数。具体实施中，包括：

在步骤S1102中，将不同的模态对比损失进行加权求和：

其中，|D_TIT|为文本图像翻译数据集中包含的训练样本的个数，λ_II，λ_TT，λ_TI分别表示图像模态内对比损失，文本模态内对比损失，图像文本间对比损失的权重。

在步骤S1104中，将模态对比学习的损失同翻译的损失进行融合，得到最终的训练损失，即损失函数。具体实施方式如下：将图像翻译损失、模态对比损失和文本翻译损失进行加权求和，得到最终的训练损失函数：

其中λ_TIT，λ_MCL，λ_MT分别表示文本图像翻译损失、模态对比损失和文本翻译损失的权重。

在步骤S112中，基于损失函数，在通过训练模型进行训练时，更新训练模型的参数。

本公开提出的端到端文本图像翻译模型训练方法，可以充分利用文本图像和文本之间的语义相似的关系，使得促进模型学习到语义相似的文本图像之间、语义相似的文本之间、乃至语义相似的文本图像和文本之间的特征表示，从而提升端到端文本图像翻译模型的性能。本公开保持了端到端文本图像翻译的优点，与级联***相比，端到端模型的空间复杂度和时间复杂度都较小，此外，本公开提高了端到端模型的训练效率，通过引入模态对比学习，可以使得端到端文本图像翻译模型学习到更好的文本图像翻译知识。

图6是根据本公开的一个实施方式的端到端文本图像翻译模型训练装置结构示意图。

如图6所示，端到端文本图像翻译模型训练装置，包括以下模块。

预处理模块1002，对包含源端语言文本的图像进行预处理，获取包含源端语言文本的子图像，对包含源端语言文本的图像对应的源端语言文本进行预处理，获取预处理后的文本字符串。

特征获取模块1004，对包含源端语言文本的子图像通过图像编码器编码，获取图像特征，对预处理后的文本字符串通过文本编码器编码，获取文本特征。

序列特征编码模块1006，通过图像序列特征编码器和文本序列特征编码器分别对图像特征和文本特征进行编码，获取图像特征对应的图像序列特征和文本特征对应的文本序列特征。

损失计算模块1008，基于图像序列特征、文本序列特征，计算不同的损失值。损失计算模块1008包括，解码器模块，解码器模块对文本图像序列特征和文本序列特征分别进行特征解码，以获得解码后的目标语言，解码后的目标语言与目标语言标准答案可能存在一定差异。再计算图像翻译损失和文本翻译损失时，会基于解码后的目标语言与目标语言标准答案进行计算。细节与本公开提供的端到端文本图像翻译模型训练方法中的计算方法一致。

损失函数构建模块1010，基于不同的损失值，构建损失函数；

训练模块1012，基于损失函数，在通过训练模型进行训练时，更新训练模型的参数。

在图6的实施方式中，各个模块涉及的处理过程，与本公开提供的基于态对比学习的端到端文本图像翻译模型训练方法的处理过程保持一致，此处不再赘述。

图7是根据本公开的一个实施方式的端到端文本图像翻译模型训练装置结构示意图。

如图7所示，将包含源端语言文本的图像经预处理后输入图像编码器，将对包含源端语言文本的图像对应的源端语言文本与处理后输入文本编码器，经各自编码器处理后，将图像编码器和文本编码器获得的输出(图像特征和文本特征)输入至序列编码器(序列特征编码器)获得输出(图像序列特征和文本序列特征)，基于序列编码器的输出计算不同的损失值(模态内损失、模态间损失)。同时，将文本编码器和图像编码器的输出(图像特征和文本特征)输入至解码器进行解码，经解码器解码后获得解码结果(翻译得到的目标语言)，基于解码结果与标准答案计算图像翻译损失和文本翻译损失。之后，基于图像翻译损失、文本翻译损失、模态间损失、模态内损失构建损失函数。最后，进行参数更新，即：通过随机梯度下降法，回传训练损失，更新模型的参数，使用梯度下降优化算法进行模型参数的更新。

通过本公开提供的端到端文本图像翻译模型训练方法，在合成的文本图像翻译测试集上验证了融合不同训练损失对文本图像翻译结果的影响。具体的不同的设置如下。

模型设置1为端到端文本图像翻译模型。具体地，预处理模块使用了残差卷积网络(ResNet)；序列特征编码器模块使用了基于自注意力机制的编码器；解码器模块使用了基于自注意力机制的解码器。训练损失函数只包含文本图像翻译损失。

模型设置2为端到端文本图像翻译模型结合文本模态内对比损失。具体地，预处理模块使用了残差卷积网络(ResNet)；序列特征编码器模块使用了基于自注意力机制的编码器；解码器模块使用基于自注意力机制的解码器。训练损失函数包含文本图像翻译损失，模态损失中仅使用文本模态内对比损失。

模型设置3为端到端文本图像翻译模型结合文本图像模态内对比损失。具体地，预处理模块使用了残差卷积网络(ResNet)；序列特征编码器模块使用了基于自注意力机制的编码器；解码器模块使用了基于自注意力机制的解码器。训练损失函数包含文本图像翻译损失，模态损失中仅使用文本图像模态内对比损失。

模型设置4为端到端文本图像翻译模型结合文本图像和文本的模态间对比损失。具体地，预处理模块使用了残差卷积网络(ResNet)；序列特征编码器模块使用了基于自注意力机制的编码器；解码器模块使用了基于自注意力机制的解码器。训练损失函数包含文本图像翻译损失，模态损失中仅使用了文本图像和文本的模态间对比损失。

模型设置5为端到端文本图像翻译模型结合完整的模态对比损失。具体地，预处理模块使用了残差卷积网络(ResNet)；序列特征编码器模块使用了基于自注意力机制的编码器；解码器模块使用了基于自注意力机制的解码器。训练损失函数包含文本图像翻译损失，模态损失中使用文本图像的模态内对比损失，文本模态内对比损失，和文本图像及文本之间的模态间对比损失。

通过上述模型设置可知，模型设置1为不引入模态对比学习的端到端文本图像翻译模型，模型设置2和3引入了模态内对比损失，模型设置4引入了模态间对比损失，模型设置5同时引入了模态内和模态间对比损失。具体验证结果如表1所示。

表1：实验结果

表1给出了本发明的实验结果，其指标是计算机器翻译的译文和标准译文之间的BLEU值(该指标数值越大越好)。由表1可以得到如下验证结论。(1)模型设置2-5均较模型设置1有所提升，表明模态对比学习的融入可以提升端到端文本图像翻译的翻译效果。(2)模型设置3的翻译效果比模型设置2好，说明文本图像之间的模态内对比损失所带来的性能增益更大，所以在模型训练过程中更应该加强文本图像的特征学习。(3)模型设置4比模型设置3的效果更好，说明引入模态间的对比损失，让文本图像和文本之间的特征学习进行对比和约束可以让端到端文本图像翻译模型学习到更好的翻译知识。(4)模型设置5比模型设置4具有更好的翻译效果，说明模态内对比损失和模态间对比损失在提升端到端文本图像翻译的效果上是互补的。

需要说明的是，融入模态对比学习的方式不局限于本实例中提到的训练损失函数的组合，可以将模态内对比损失、模态间对比损失通过不同的权重参数设置得到更好的模态对比信息的融入，以增强相应任务的性能表现。

以上所述，仅为本发明中的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉该技术的人在本发明所揭露的技术范围内，可理解想到的变换或者替换，都应涵盖在本发明的包含范围之内，因此，本发明的保护范围应该以权利要求书的保护范围为准。

本公开提供的端到端文本图像翻译模型训练方法及装置，和现有方法相比，可以高效地利用文本图像之间、文本之间，以及文本图像和文本之间的相互对比关系，通过拉近具有相似语义的文本图像、文本之间的特征表达，拉远不相似的文本图像、文本之间的特征表达，来促进端到端文本图像翻译模型的训练和学习。从上述验证结果可知，在端到端文本图像翻译模型训练过程中融入模态对比学习可以有效提升端到端文本图像翻译的效果。此外，模态对比学习只需要在训练过程中增加相应的对比损失的计算，并不会增加端到端文本图像翻译解码时的复杂度，所以可以保持端到端文本图像翻译模型在部署和测试时高效的解码效率和轻便的模型结构的优势。

根据本公开的又一个方面，提供一种电子设备，包括：

存储器，存储器存储执行指令；

处理器，处理器执行存储器存储的执行指令，使得处理器执行上述任一项的方法。

根据本公开的又一个方面，提供一种可读存储介质，可读存储介质中存储有执行指令，执行指令被处理器执行时用于实现上述任一项的方法。

图6示出了采用处理***的硬件实现方式的装置示例图。该装置可以包括执行上述流程图中各个或几个步骤的相应模块。因此，可以由相应模块执行上述流程图中的每个步骤或几个步骤，并且该装置可以包括这些模块中的一个或多个模块。模块可以是专门被配置为执行相应步骤的一个或多个硬件模块、或者由被配置为执行相应步骤的处理器来实现、或者存储在计算机可读介质内用于由处理器来实现、或者通过某种组合来实现。

该硬件结构可以利用总线架构来实现。总线架构可以包括任何数量的互连总线和桥接器，这取决于硬件的特定应用和总体设计约束。总线1100将包括一个或多个处理器1200、存储器1300和/或硬件模块的各种电路连接到一起。总线1100还可以将诸如***设备、电压调节器、功率管理电路、外部天线等的各种其他电路1400连接。

总线1100可以是工业标准体系结构(ISA，Industry Standard Architecture)总线、外部设备互连(PCI，Peripheral Component)总线或扩展工业标准体系结构(EISA，Extended Industry Standard Component)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示，该图中仅用一条连接线表示，但并不表示仅有一根总线或一种类型的总线。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本公开的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本公开的实施方式所属技术领域的技术人员所理解。处理器执行上文所描述的各个方法和处理。例如，本公开中的方法实施方式可以被实现为软件程序，其被有形地包含于机器可读介质，例如存储器。在一些实施方式中，软件程序的部分或者全部可以经由存储器和/或通信接口而被载入和/或安装。当软件程序加载到存储器并由处理器执行时，可以执行上文描述的方法中的一个或多个步骤。备选地，在其他实施方式中，处理器可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行上述方法之一。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，可以具体实现在任何可读存储介质中，以供指令执行***、装置或设备(如基于计算机的***、包括处理器的***或其他可以从指令执行***、装置或设备取指令并执行指令的***)使用，或结合这些指令执行***、装置或设备而使用。

就本说明书而言，“可读存储介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行***、装置或设备或结合这些指令执行***、装置或设备而使用的装置。可读存储介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式只读存储器(CDROM)。另外，可读存储介质甚至可以是可在其上打印程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得程序，然后将其存储在存储器中。

应当理解，本公开的各部分可以用硬件、软件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行***执行的软件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施方式方法的全部或部分步骤是可以通过程序来指令相关的硬件完成，的程序可以存储于一种可读存储介质中，该程序在执行时，包括方法实施方式的步骤之一或其组合。

此外，在本公开各个实施方式中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个可读存储介质中。存储介质可以是只读存储器，磁盘或光盘等。

在本说明书的描述中，参考术语“一个实施方式/方式”、“一些实施方式/方式”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施方式/方式或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施方式/方式或示例中。在本说明书中，对上述术语的示意性表述不必须的是相同的实施方式/方式或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施方式/方式或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施方式/方式或示例以及不同实施方式/方式或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本申请的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

本领域的技术人员应当理解，上述实施方式仅仅是为了清楚地说明本公开，而并非是对本公开的范围进行限定。对于所属领域的技术人员而言，在上述公开的基础上还可以做出其它变化或变型，并且这些变化或变型仍处于本公开的范围内。

Claims

1.一种端到端文本图像翻译模型训练方法，其特征在于，包括：

对给定源端语言的文本构建包含源端语言文本的图像，同时构建与给定源端语言文本语义对应的源端语言文本；

基于所述图像序列特征、文本序列特征计算不同的损失值；

基于所述不同的损失值，构建损失函数；以及

基于所述损失函数，在通过训练模型进行训练时，更新所述训练模型的参数；

其中，基于所述图像序列特征、文本序列特征，计算不同的损失值，包括：

基于所述图像序列特征、文本序列特征，计算图像与图像之间的对比损失、文本与文本之间的对比损失、图像与文本之间的对比损失；

其中，通过图像序列特征编码器和文本序列特征编码器分别对所述图像特征和所述文本特征进行编码，获取所述图像特征对应的图像序列特征和所述文本特征对应的文本序列特征，包括：

如果所述图像序列特征编码器和所述文本序列特征编码器为同一序列特征编码器，则通过特征变换对所述图像特征和文本特征进行处理，以使得所述图像特征和文本特征的隐层维度保持一致；以及

如果所述图像序列特征编码器和所述文本序列特征编码器为不同序列特征编码器，则分别将所述图像特征和所述文本特征分别通过所述图像序列特征编码器和所述文本序列特征编码器进行编码，对编码后的图像特征和编码后的文本特征经特征变换处理，以使得所述图像特征和文本特征的隐层维度保持一致；

其中，基于以下方法计算图像与文本之间的对比损失：

令

为第i张含有源端语言文本图像的图像特征，

为其他的文本图像的图像特征,图像与文本之间的模态间损失的计算公式为

其中，K为负样例采样的数据池大小,τ为温度超参数，d(·)为相似度计算表达式，相似度计算表达式包括余弦相似度、欧氏距离相似度中的任意一种。

2.根据权利要求1所述的端到端文本图像翻译模型训练方法，其特征在于，对包含源端语言文本的图像进行预处理，获取包含源端语言文本的子图像，包括：

通过文本检测方法获得图像中的源端语言文本所在的区域位置，并将所在的区域进行图像分割，得到子图像；以及

将所述子图像中的文本按照预定方向重新排列。

3.根据权利要求1所述的端到端文本图像翻译模型训练方法，其特征在于，对所述包含源端语言文本的图像对应的源端语言文本进行预处理，获取预处理后的文本字符串，包括：

对分词处理后的词，判断各个词是否属于未登录词，如果属于未登录词，则将未登录的词替换为标记符号；

4.根据权利要求1所述的端到端文本图像翻译模型训练方法，其特征在于，基于所述图像序列特征、文本序列特征，计算不同的损失值，包括：

5.根据权利要求1所述的端到端文本图像翻译模型训练方法，其特征在于，基于所述不同的损失值，构建损失函数，包括：

6.一种端到端文本图像翻译模型训练装置，其特征在于，包括：

预处理模块，对包含源端语言文本的图像进行预处理，获取包含源端语言文本的子图像，对所述包含源端语言文本的图像对应的源端语言文本进行预处理，获取预处理后的文本字符串；

损失函数构建模块，基于所述不同的损失值，构建损失函数；以及

训练模块，基于所述损失函数，在通过训练模型进行训练时，更新所述训练模型的参数；

其中，基于以下方法计算图像与文本之间的对比损失：

令

为第i张含有源端语言文本图像的图像特征，

7.一种电子设备，其特征在于，包括：

存储器，所述存储器存储执行指令；以及

处理器，所述处理器执行所述存储器存储的执行指令，使得所述处理器执行如权利要求1至5中任一项所述的端到端文本图像翻译模型训练方法。

8.一种可读存储介质，其特征在于，所述可读存储介质中存储有执行指令，所述执行指令被处理器执行时用于实现如权利要求1至5中任一项所述的端到端文本图像翻译模型训练方法。