CN114819149A

CN114819149A - 基于变换神经网络的数据处理方法、装置和介质

Info

Publication number: CN114819149A
Application number: CN202210738268.XA
Authority: CN
Inventors: 高思斌; 范晓; 杨作兴; 艾国
Original assignee: Shenzhen MicroBT Electronics Technology Co Ltd
Current assignee: Shenzhen MicroBT Electronics Technology Co Ltd
Priority date: 2022-06-28
Filing date: 2022-06-28
Publication date: 2022-07-29
Anticipated expiration: 2042-06-28
Also published as: CN114819149B

Abstract

本申请实施例提供了一种基于变换神经网络的数据处理方法、装置和介质，其中的方法应用于变换神经网络中的归一化模块，具体包括：接收第一数据序列对应的数据矩阵；变换神经网络用于将第一数据序列转换为第二数据序列；确定数据矩阵对应的第一均值参数值；将数据矩阵除以第一均值参数值，以得到第一中间矩阵；对第一中间矩阵进行仿射变换，并根据仿射变换结果，确定数据矩阵对应的归一化矩阵；对归一化矩阵进行输出；其中，第一数据序列为图像序列，第二数据序列为图像类别序列。本申请实施例可以提高归一化结果的稳定性，进而能够提高变换神经网络的处理精度和对应领域中的数据处理性能。

Description

基于变换神经网络的数据处理方法、装置和介质

技术领域

本申请涉及人工智能技术领域，特别是涉及一种基于变换神经网络的数据处理方法、装置和介质。

背景技术

人工智能(AI ，Artificial Intelligence)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用***。Transformer （变换神经网络）使用自注意力技术，检测输入数据中数据元素之间的相互影响和相互依赖，其在自然语言处理（NLP，Natural LanguageProcessing）领域和计算机视觉（CV，Computer Vision）领域等领域取得了较好的成果。

变换神经网络中归一化模块用于对数据矩阵进行归一化处理。目前的归一化过程通常包括：首先计算数据矩阵的均值；然后，根据均值计算数据矩阵的方差值；接着，根据均值和方差值，利用归一化公式对数据矩阵进行归一化运算。

目前的归一化公式中，分子可以为矩阵元素与均值的差值，分母可以为方差值的平方根与参数的和。在实际应用中，分子与分母的比值并不稳定，这使得归一化结果的稳定性较差，进而影响了变换神经网络的处理精度和对应领域中的数据处理性能。

发明内容

本申请实施例提供了一种基于变换神经网络的数据处理方法，可以提高归一化结果的稳定性，进而能够提高变换神经网络的处理精度和对应领域中的数据处理性能。

相应的，本申请实施例还提供了一种基于变换神经网络的数据处理装置、一种电子设备和一种机器可读介质，用以保证上述方法的实现及应用。

为了解决上述问题，本申请实施例公开了一种基于变换神经网络的数据处理方法，

所述方法应用于所述变换神经网络中的归一化模块，所述方法包括：

接收第一数据序列对应的数据矩阵；所述变换神经网络用于将所述第一数据序列转换为第二数据序列；

确定所述数据矩阵对应的第一均值参数值；

将所述数据矩阵除以第一均值参数值，以得到第一中间矩阵；

对所述第一中间矩阵进行仿射变换，并根据仿射变换结果，确定所述数据矩阵对应的归一化矩阵；

对所述归一化矩阵进行输出。

为了解决上述问题，本申请实施例公开了一种基于变换神经网络的数据处理装置，所述装置应用于所述变换神经网络中的归一化模块，所述装置包括：

接收模块，用于接收第一数据序列对应的数据矩阵；所述变换神经网络用于将所述第一数据序列转换为第二数据序列；

第一均值参数确定模块，用于确定所述数据矩阵对应的第一均值参数值；

第一运算模块，用于将所述数据矩阵除以第一均值参数值，以得到第一中间矩阵；

仿射变换模块，用于对所述第一中间矩阵进行仿射变换，以得到所述数据矩阵对应的归一化矩阵；

输出模块，用于对所述归一化矩阵进行输出。

可选地，所述第一均值参数确定模块包括：

第一参数确定模块，用于在所述变换神经网络的训练过程中，根据所述数据矩阵对应的均值，对第一均值参数值进行更新；或者

第二参数确定模块，用于在所述变换神经网络的使用过程中，将所述第一均值参数值确定为：训练完成状态下对应的第一均值参数值。

可选地，所述数据矩阵对应的均值的确定过程包括：对多个训练样本的数据矩阵中矩阵元素的平方进行求和，将求和结果除以训练样本的数量，以得到所述数据矩阵对应的均值。

可选地，第一数据序列为图像序列，第二数据序列为图像类别序列；或者

第一数据序列为第一语言文本序列，第二数据序列为第二语言文本序列；或者

第一数据序列为语音序列，第二数据序列为文本序列；或者

第一数据序列为文本序列，第二数据序列为语义序列。

可选地，所述仿射变换模块包括：

第二运算模块，用于对所述第一中间矩阵与第一参数矩阵进行点乘操作，以得到第二中间矩阵；

第三运算模块，用于根据所述第二中间矩阵和第二参数矩阵，确定所述数据矩阵对应的归一化矩阵。

可选地，所述数据矩阵包括：所述第一数据序列对应的特征矩阵；

所述仿射变换模块包括：

归一化矩阵确定模块，用于将仿射变换结果作为所述特征矩阵对应的归一化矩阵。

可选地，所述数据矩阵包括：所述第一数据序列中第一元素与第二元素之间的相关性矩阵；

所述仿射变换模块包括：

激活处理模块，用于对仿射变换结果对应的第三中间矩阵进行激活处理，以得到第四中间矩阵；

第四运算模块，用于对所述第四中间矩阵与第二元素对应的值矩阵点乘，以得到第五中间矩阵；

第二均值参数值确定模块，用于确定所述第五中间矩阵对应的第二均值参数值；

第五运算模块，用于将所述第五中间矩阵除以第二均值参数值，以得到第六中间矩阵；

第二仿射变换模块，用于对所述第六中间矩阵进行仿射变换，以得到所述相关性矩阵对应的归一化矩阵。

可选地，所述第二均值参数值确定模块包括：

第三参数确定模块，用于在所述变换神经网络的训练过程中，根据所述第五中间矩阵对应的均值，对第二均值参数值进行更新；或者

第四参数确定模块，用于在所述变换神经网络的使用过程中，将所述第二均值参数值确定为：训练完成状态下对应的第二均值参数值。

本申请实施例还公开了一种电子设备，包括：处理器；和存储器，其上存储有可执行代码，当所述可执行代码被执行时，使得所述处理器执行如本申请实施例所述的方法。

本申请实施例还公开了一种机器可读介质，其上存储有可执行代码，当所述可执行代码被执行时，使得处理器执行如本申请实施例所述的方法。

本申请实施例包括以下优点：

本申请实施例的技术方案中，变换神经网络中的归一化模块在归一化处理过程中，将数据矩阵除以第一均值参数值，以得到第一中间矩阵，并对该第一中间矩阵进行仿射变换，以得到该数据矩阵对应的归一化矩阵。由于第一均值参数值可以表征数据矩阵所对应数据集中趋势的量数，将该数据矩阵除以第一均值参数值，相当于将数据集中数据元素除以数据集中趋势的量数，故可以提高仿射变换后的归一化矩阵所对应数据集的稳定性，因此能够提高归一化结果的稳定性，进而能够提高变换神经网络的处理精度。

附图说明

图1是本申请一个实施例的数据处理模型的结构示意图；

图2是本申请一个实施例的数据处理模型的结构示意图；

图3是本申请一个实施例的变换神经网络的编码器的结构示意图；

图4是本申请一个实施例的基于变换神经网络的数据处理方法的步骤流程示意图；

图5是本申请一个实施例的基于变换神经网络的数据处理方法的步骤流程示意图；

图6是本申请一个实施例的基于变换神经网络的数据处理方法的步骤流程示意图；

图7是本申请一个实施例的基于变换神经网络的数据处理装置的结构示意图；

图8是本申请一个实施例提供的装置的结构示意图。

具体实施方式

为使本申请的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本申请作进一步详细的说明。

本申请实施例可以利用变换神经网络进行数据处理。变换神经网络可以应用于自然语言处理领域和计算机视觉领域等领域。

变换神经网络可用于将第一数据序列转换为第二数据序列。例如，在计算机视觉领域，第一数据序列可以为图像序列，第二数据序列可以为图像类别序列。图像类别序列可以表征图像级别、或者区域级别、或者像素级别的图像语义信息（如图像类别信息）。例如，计算机视觉领域可以包括目标检测任务，该目标检测任务可以检测待检测图像中是否包含行人、交通工具等目标，若是，则可以给出目标的位置信息。

又如，在机器翻译领域，第一数据序列可以为第一语言文本序列，第二数据序列可以为第二语言文本序列。

再如，在语音识别领域，第一数据序列可以为语音序列，第二数据序列可以为文本序列。

或者，在语言理解领域，第一数据序列可以为文本序列，第二数据序列可以为语义序列。语义序列可以表征文本序列对应的关键词或摘要等语义信息。

在一种实现方式中，变换神经网络可以包括：编码器（Encoder）和解码器(Decoder)。其中，编码器用于对第一数据序列对应的数据进行编码，并输出编码序列；解码器用于对编码序列进行解码，并输出第二数据序列。

参照图1，示出了本申请一个实施例的数据处理模型的结构示意图，其中，该数据处理模型可以包括：变换神经网络的编码器和解码器，该数据处理模型可以根据输入的第一数据序列，输出第二数据序列。图1所示数据处理模型可以应用于机器翻译等领域。

在另一种实现方式中，变换神经网络可以包括：编码器。参照图2，示出了本申请一个实施例的数据处理模型的结构示意图，其中，该数据处理模型可以包括：卷积模块201、特征拼接模块202、特征相加模块203、过拟合防止模块204、变换神经网络的编码器205、归一化处理模块206、抽取模块207和分类模块208。

图2所示数据处理模型可以应用于计算机视觉等领域。以该数据处理模型应用于图像分类领域为例，第一数据序列可以为待分类图像对应的图像序列，图像序列可以包括：图像的像素点数据，该像素点数据可以包括：像素点的RGB（红绿蓝，Red Green Blue）数据等。

卷积模块201可以对图像序列进行卷积处理，以得到第一图像特征。

特征拼接模块202可以将第一图像特征与待分类图像对应的分类标记特征进行拼接，以得到第二图像特征。

特征相加模块203可以将第二图像特征与待分类图像对应的位置嵌入特征进行相加，以得到第三图像特征。

过拟合防止模块204可以对第三图像特征进行过拟合防止处理，以得到第四图像特征。过拟合防止处理可以包括：正则化处理、或者神经网络节点的丢弃处理等，可以理解，本申请实施例对于具体的过拟合防止处理不加以限制。

参照图3，示出了本申请一个实施例的变换神经网络的编码器205的结构示意图，该编码器可以包括：M（M可以为大于1的自然数）层处理块。一层处理块可以包括：第一归一化模块251、自注意力模块252、第三归一化模块253和全连接操作模块254。

其中，第一归一化模块251可用于对输入特征对应的数据矩阵进行归一化处理。以图像分类领域为例，输入特征对应的数据矩阵可以与过拟合防止模块204输出的第四图像特征相对应。

自注意力模块252可以捕捉第一数据序列中元素之间的依赖关系，尤其是捕捉长范围依赖关系。以图像分类领域为例，第一数据序列为图像序列，第一数据序列中元素可以包括：图像序列中的像素点。

自注意力模块252可以包括：相关性计算模块2521和第二归一化模块2522。其中，相关性计算模块2521可以将输入特征对应的数据矩阵投影到三个矩阵中，这些矩阵称为键矩阵 (K，key)，查询矩阵 (Q，query) 和值矩阵 (V，value)。值矩阵表征输入特征。键矩阵和查询矩阵用于确定第一数据序列中第一元素（对应Q）与第二元素（对应K）之间的相关性。

假设第一数据序列对应头像图片，在使用变换神经网络处理头像图片的一只“眼睛”的情况下，它会查询“眼睛”的语义含义，并使用头像图片的其他区域的键进行检查。如果其他区域的键之一是“眼睛”，那么找到了另一只“眼睛”，这就是网络要注意的区域，以便网络可以进一步的处理。

相关性计算模块2521可以根据键矩阵和查询矩阵，确定相关性矩阵，该相关性矩阵可以表征第一数据序列中第一元素（对应Q）与第二元素（对应K）之间的相关性。如图像中第一像素点与第二像素点之间的相关性。

第二归一化模块2522可以对相关性矩阵进行归一化处理，以得到对应的注意力权重；还可以利用注意力权重，对第四图像特征进行转换处理，以得到第五图像特征。

第三归一化模块253可用于对自注意力模块输出的第五图像特征和第四图像特征对应的融合图像特征进行归一化处理，以得到第六图像特征。

全连接操作模块254用于对第三归一化模块253输出的第六图像特征进行维度增加和维度减小处理，以得到第七图像特征。

一层处理块的输出可以包括：全连接操作模块输出的第七图像特征和当前层输入的图像特征的融合，可以将一层处理块的输出称为第八图像特征，第八图像特征作为下一层处理块或者下级模块的输入。

归一化处理模块206可用于对编码器205输出的第八图像特征进行归一化处理，以得到第七图像特征。

分类模块207可用于从第七图像特征中抽取目标图像特征。

线性层模块208可用于根据目标图像特征进行分类，以得到图像类别序列。在实际应用中，线性层模块208输出的图像类别序列可以作为第二数据序列的示例，其可以包括：图像中像素点分别对应的图像类别信息。

对于变换神经网络的解码器而言，由于其结构与图3所示编码器的结构类似，故在此不作赘述，相互参照即可。例如，变换神经网络的解码器也可以包括：自注意力模块和多个归一化模块。

变换神经网络的编码器或解码器中的归一化模块，可用于对数据矩阵（如图像特征对应的矩阵）进行归一化处理。目前的归一化过程通常包括：首先计算数据矩阵的均值；然后，根据均值计算数据矩阵的方差值；接着，根据均值和方差值，利用归一化公式对数据矩阵进行归一化运算。目前的归一化公式中，分子可以为矩阵元素与均值的差值，分母可以为方差值的平方根与参数的和。在实际应用中，分子与分母的比值并不稳定，这使得归一化结果的稳定性较差，进而影响了变换神经网络的处理精度。例如，归一化结果的稳定性较差，可以降低变换神经网络所在数据处理模型在训练过程中的收敛速度。又如，归一化结果的稳定性较差，可以降低变换神经网络所在数据处理模型在数据处理过程中的准确率等。

针对归一化结果的稳定性较差导致变换神经网络的处理精度较差的技术问题，本申请实施例提供了一种基于变换神经网络的数据处理方法，该方法可以应用于变换神经网络中的归一化模块，该方法可以包括：接收第一数据序列对应的数据矩阵；该变换神经网络用于将该第一数据序列转换为第二数据序列；确定该数据矩阵对应的第一均值参数值；将该数据矩阵除以第一均值参数值，以得到第一中间矩阵；对该第一中间矩阵进行仿射变换，以得到该数据矩阵对应的归一化矩阵；对该归一化矩阵进行输出。

本申请实施例的变换神经网络可用于将该第一数据序列转换为第二数据序列。变换神经网络中的归一化模块可用于对第一数据序列对应的数据矩阵进行归一化处理。

本申请实施例的技术方案中，归一化模块可以接收数据矩阵，并对数据矩阵进行如下归一化处理：确定该数据矩阵对应的第一均值参数值；将该数据矩阵除以第一均值参数值，以得到第一中间矩阵；对该第一中间矩阵进行仿射变换，并根据仿射变换结果，确定该数据矩阵对应的归一化矩阵；归一化模块还可以对归一化矩阵进行输出，例如，输出给变换神经网络的下一级模块。

例如，在计算机视觉领域，变换神经网络可用于将图像序列转换为图像类别序列。假设变换神经网络采用了图3所示的编码器结构，则编码器中第一归一化模块、第二归一化模块和第三归一化模块，均可以利用本申请实施例的技术方案，对相应的数据矩阵进行归一化处理，以提高归一化结果的稳定性，进而能够提高变换神经网络的处理精度。

数据矩阵是归一化模块的归一化对象。不同的归一化模块可以对应不同的数据矩阵。例如，第一归一化模块和第三归一化模块对应的数据矩阵可以是图像特征对应的矩阵。第二归一化模块对应的数据矩阵可以表征图像中第一像素点与第二像素点之间的相关性。

例如，在提高归一化结果的稳定性的情况下，本申请实施例可以提升变换神经网络所在数据处理模型在训练过程中的收敛速度。又如，在提高归一化结果的稳定性的情况下，本申请实施例可以增加变换神经网络所在数据处理模型在数据处理过程中的准确率等。

方法实施例一

参考图4，示出了本申请一个实施例的基于变换神经网络的数据处理方法的步骤流程示意图，该方法可以应用于变换神经网络中的归一化模块，该方法具体可以包括如下步骤：

步骤401、接收第一数据序列对应的数据矩阵；该变换神经网络用于将该第一数据序列转换为第二数据序列；

步骤402、确定该数据矩阵对应的第一均值参数值；

步骤403、将该数据矩阵除以第一均值参数值，以得到第一中间矩阵；

步骤404、对该第一中间矩阵进行仿射变换，并根据仿射变换结果，确定该数据矩阵对应的归一化矩阵；

步骤405、对该归一化矩阵进行输出。

图4所示方法用于表示变换神经网络中归一化模块的处理流程。图4所示方法可以应用于变换神经网络的训练阶段，或者，图4所示方法可以应用于变换神经网络的使用阶段。

其中，在变换神经网络的训练阶段，可以利用数据对象的训练样本，对变换神经网络进行训练。变换神经网络的训练过程可以包括：前向传播和反向传播。

其中，前向传播（Forward Propagation）可以根据变换神经网络的参数，按照从输入层到输出层的顺序，依次计算最后得到输出信息。其中，输出信息可用于确定误差信息。

反向传播（Backward Propagation）可以根据误差信息，按照从输出层到输入层的顺序，依次计算并对变换神经网络的参数进行更新。变换神经网络的参数可以包括：神经网络的权重等参数。其中，反向传播过程中，可以确定变换神经网络的参数的梯度信息，并利用该梯度信息，对变换神经网络的参数进行更新。例如，反向传播可以依据微积分中的链式法则，沿着从输出层到输入层的顺序，依次计算并存储变换神经网络的处理层（包括输入层、中间层和输出层）的参数的梯度信息。

在变换神经网络的训练过程中，可以根据变换神经网络的实际输出与预设输出，确定损失信息。则变换神经网络的训练的收敛条件可以为：损失信息符合预设条件。预设条件可以为：损失信息与预设值之间的差值绝对值小于差值阈值，或者，迭代次数超过次数阈值等。换言之，在损失信息符合预设条件的情况下，可以结束训练；此种情况下，可以得到变换神经网络的目标参数值。

在变换神经网络的使用阶段，可以利用变换神经网络在训练完成状态下对应的目标参数值，对待处理数据对象进行处理，以针对待处理数据对象实现自然语言处理、计算机视觉等任务。待处理数据对象可以包括：文本、或图像、或语音等对象。

无论在训练阶段还是使用阶段，变换神经网络中的归一化模块均可以执行图4所示的数据流程。不同的是，在训练阶段，变换神经网络中的归一化模块使用的参数是：训练过程中的参数；在使用阶段，变换神经网络中的归一化模块使用的参数是：训练完成状态的参数。另外，在训练阶段，第一数据序列可以与数据对象的训练样本相对应；而在使用阶段，第一数据序列可以与待处理数据对象相对应。

该变换神经网络用于将该第一数据序列转换为第二数据序列。第一数据序列和第二数据序列的例子可以包括：

第一数据序列为图像序列，第二数据序列为图像类别序列；或者

第一数据序列为语音序列，第二数据序列为文本序列；或者

第一数据序列为文本序列，第二数据序列为语义序列。

在步骤401中，归一化模块可以从上一级模块接收第一数据序列对应的数据矩阵。以图3所示变换神经网络的编码器为例，第一归一化模块接收的数据矩阵可以是：本层数据块的输入对应的特征矩阵（例如，图像特征对应的矩阵），第二归一化模块接收的数据矩阵可以是：相关性计算模块输出的相关性矩阵（该相关性矩阵可以表征图像中第一像素点与第二像素点之间的相关性），第三归一化模块接收的数据矩阵可以是：特征矩阵，该特征矩阵可以与自注意力模块输出的第五图像特征和第四图像特征对应的融合图像特征相应。

在步骤402中，第一均值参数值可以表征数据矩阵所对应数据集中趋势的量数。

步骤402确定该数据矩阵对应的第一均值参数值的过程可以包括：

在所述变换神经网络的训练过程中，根据所述数据矩阵对应的均值，对第一均值参数值进行更新；或者

在所述变换神经网络的使用过程中，所述第一均值参数值具体为：训练完成状态下对应的第一均值参数值。

该数据矩阵对应的均值的确定过程具体可以包括：对多个训练样本的数据矩阵中矩阵元素的平方进行求和，将求和结果除以训练样本的数量，以得到该数据矩阵对应的均值。

假设X表示训练过程中的数据矩阵，X的维度为[B,N,C]，B表示样本数量，N表示第一数据序列中元素的数量，如图像序列中像素点的数量，C表示特征维度数量，Xi表示数据矩阵在[B，N]维度的矩阵元素，则数据矩阵对应的均值

可以表示为：

（1）

第一均值参数值的更新方法可以包括：指数加权平均方法等。具体而言，可以针对数据矩阵对应的均值与上一次的第一均值参数值，分别设置对应的第一权重和第二权重，并根据第一权重和第二权重，对均值与上一次的第一均值参数值进行加权处理。其中，第一权重和第二权重可以在[0,1]之间，第一权重与第二权重的和可以为1，第二权重可以为接近1的数值，如0.99等。

第一均值参数值的更新过程如公式（2）所示：

（2）

其中，

表示第一均值参数值，

表示数据矩阵对应的均值，α表示第二权重。指数加权平均方法能够平滑第一均值参数值的突然波动，因此能够提高第一均值参数值的稳定性。

在步骤403中，可以将该数据矩阵除以第一均值参数值，以得到第一中间矩阵。第一中间矩阵的维度可以与数据矩阵的维度相同，如同为[B,N,C]。由于第一均值参数值可以表征数据矩阵所对应数据集中趋势的量数，将该数据矩阵除以第一均值参数值，相当于将数据集中数据元素除以数据集中趋势的量数，故可以提高得到的第一中间矩阵所对应数据集的稳定性。

在步骤404中，对该第一中间矩阵进行仿射变换，可以得到该数据矩阵对应的归一化矩阵。

仿射变换是指在几何中，一个向量空间进行一次线性变换并接上一个平移，变换为另一个向量空间仿射变换可以起到第一中间矩阵的量化作用。仿射变换可以包括：线性变换和平移。

上述对所述第一中间矩阵进行仿射变换的过程，可以包括：对所述第一中间矩阵与第一参数矩阵进行点乘操作，以得到第二中间矩阵；根据所述第二中间矩阵和第二参数矩阵，确定所述数据矩阵对应的归一化矩阵。其中，对所述第一中间矩阵与第一参数矩阵进行点乘操作可以实现第一中间矩阵到第二中间矩阵的线性变换；第二参数矩阵可用于实现平移的作用。

第一参数矩阵和第二参数矩阵是可以更新的参数，其可以是变换神经网络的参数的一种实现。换言之，在变换神经网络的训练过程中，可以对第一参数矩阵和第二参数矩阵进行更新。

综上，本申请实施例的基于变换神经网络的数据处理方法，变换神经网络中的归一化模块在归一化处理过程中，将数据矩阵除以第一均值参数值，以得到第一中间矩阵，并对该第一中间矩阵进行仿射变换，以得到该数据矩阵对应的归一化矩阵。由于第一均值参数值可以表征数据矩阵所对应数据集中趋势的量数，将该数据矩阵除以第一均值参数值，相当于将数据集中数据元素除以数据集中趋势的量数，故可以提高仿射变换后的归一化矩阵所对应数据集的稳定性，因此能够提高归一化结果的稳定性，进而能够提高变换神经网络的处理精度。

方法实施例二

本实施例以数据矩阵为第一数据序列对应的特征矩阵为例，对基于变换神经网络的数据处理过程进行说明。

参考图5，示出了本申请一个实施例的基于变换神经网络的数据处理方法的步骤流程示意图，该方法可以应用于变换神经网络中的归一化模块，该方法具体可以包括如下步骤：

步骤501、接收第一数据序列对应的特征矩阵；该变换神经网络用于将该第一数据序列转换为第二数据序列；

步骤502、确定该特征矩阵对应的第一均值参数值；

步骤503、将该特征矩阵除以第一均值参数值，以得到第一中间矩阵；

步骤504、对该第一中间矩阵进行仿射变换，并将仿射变换结果作为该特征矩阵对应的归一化矩阵；

步骤505、对该归一化矩阵进行输出。

以图3所示变换神经网络的编码器为例，第一归一化模块接收的可以是本层数据块的输入对应的特征矩阵，第三归一化模块接收的可以是自注意力模块的输出和输入特征对应的融合矩阵的相加结果所对应的特征矩阵。

在变换神经网络的训练阶段，可以根据公式（1）确定特征矩阵对应的均值

；进一步，可以根据公式（2）确定训练过程中的第一均值参数值。需要说明的是，第一均值参数值的初始值可由本领域技术人员根据实际应用需求确定，例如，第一均值参数值的初始值可以为0等数值。

在变换神经网络的使用阶段，第一均值参数值可以为：训练完成状态下对应的第一均值参数值。

第一中间矩阵X’可以表示为：

(3)

公式（4）示出了对该第一中间矩阵进行仿射变换的过程的示例：

（4）

其中，γ表示第一参数矩阵，可以起到仿射变换中的线性变换作用。

表示点乘符号。β表示第二参数矩阵，可以起到仿射变换中的平移作用。Y可以表示特征矩阵对应的归一化矩阵。γ的维度可以为[1,1,C]，β的维度可以为[1,1,C]。

在实际应用中，归一化模块可以将归一化矩阵输出给变换神经网络的下一级模块。以图3所示的编码器为例，第一归一化模块可以将归一化矩阵输出给自注意力模块，第三归一化模块可以将归一化矩阵输出给全连接操作模块。

综上，本申请实施例的基于变换神经网络的数据处理方法，变换神经网络中的归一化模块在归一化处理过程中，将特征矩阵除以第一均值参数值，以得到第一中间矩阵，并对该第一中间矩阵进行仿射变换，以得到该特征矩阵对应的归一化矩阵。由于第一均值参数值可以表征特征矩阵所对应数据集中趋势的量数，将该特征矩阵除以第一均值参数值，相当于将数据集中数据元素除以数据集中趋势的量数，故可以提高仿射变换后的归一化矩阵所对应数据集的稳定性，因此能够提高归一化结果的稳定性，进而能够提高变换神经网络的处理精度。

方法实施例三

本实施例以数据矩阵为第一数据序列对应的相关性矩阵为例，对基于变换神经网络的数据处理过程进行说明。

参考图6，示出了本申请一个实施例的基于变换神经网络的数据处理方法的步骤流程示意图，该方法可以应用于变换神经网络中的归一化模块，该方法具体可以包括如下步骤：

步骤601、接收第一数据序列对应的相关性矩阵；该变换神经网络用于将该第一数据序列转换为第二数据序列；

步骤602、确定该相关性矩阵对应的第一均值参数值；

步骤603、将该相关性矩阵除以第一均值参数值，以得到第一中间矩阵；

步骤604、对该第一中间矩阵进行仿射变换，并对仿射变换结果对应的第三中间矩阵进行激活处理，以得到第四中间矩阵；

步骤605、对该第四中间矩阵与第二元素对应的值矩阵点乘，以得到第五中间矩阵；

步骤606、确定该第五中间矩阵对应的第二均值参数值；

步骤607、将该第五中间矩阵除以第二均值参数值，以得到第六中间矩阵；

步骤608、对该第六中间矩阵进行仿射变换，以得到该相关性矩阵对应的归一化矩阵；

步骤609、对该归一化矩阵进行输出。

本申请实施例的归一化模块可以为自注意力模块中的归一化模块，用于对相关性矩阵进行归一化。

在实际应用中，可以将输入特征对应的数据矩阵投影到三个矩阵中，这些矩阵称为键矩阵 K、查询矩阵 Q和值矩阵 V。三个矩阵可以对应相同的维度。

本申请实施例可以根据键矩阵K和查询矩阵Q，确定相关性矩阵A，公式（5）示出了相关性矩阵的计算过程：

（5）

其中，d表征查询矩阵Q的行维度，K^T表征键矩阵K的转置矩阵。

相关性矩阵对应的第一均值参数值可以为

1。在变换神经网络的训练阶段，可以根据公式（6）确定相关性矩阵对应的均值；

（6）

其中，Ai可以表征相关性矩阵的矩阵元素。

进一步，可以根据公式（7）确定训练过程中的第一均值参数值

1：

（7）

在变换神经网络的使用阶段，第一均值参数值

1可以为：训练完成状态下对应的第一均值参数值

1。

公式（8）示出了相关性矩阵对应的仿射变换过程：

（8）

其中，

表征第一中间矩阵，γ₁表征相关性矩阵对应的第一参数矩阵，β₁表示相关性矩阵对应的第二参数矩阵，γ₁的原理与γ的原理类似，β₁的原理与β的原理类似，在此不作赘述，相互参照即可。

本申请实施例可以对仿射变换结果对应的第三中间矩阵B进行归一化，以提高相关性矩阵的归一化结果的稳定性。

本申请实施例对仿射变换结果对应的第三中间矩阵B进行激活处理，以得到第四中间矩阵。激活处理可以完成数据的非线性变换，可以对数据进行充分组合，以在一定程度上缓解线性模型的表达能力不足的问题。

本申请实施例的激活处理所采用的激活函数可以包括：分段线性函数、双曲正切函数等。其中，分段线性函数可以实现相关性的非负处理，分段线性函数Relu（x）如公式（9）所示：

（9）

公式（10）示出了对该第四中间矩阵与第二元素对应的值矩阵点乘的过程：

（10）

确定该第五中间矩阵对应的第二均值参数值，具体可以包括：在所述变换神经网络的训练过程中，根据所述第五中间矩阵对应的均值，对第二均值参数值进行更新，具体可以参照下面的公式（12）；或者，在所述变换神经网络的使用过程中，所述第二均值参数值为：训练完成状态下对应的第二均值参数值。

第五中间矩阵对应的第二均值参数值可以为

2。在变换神经网络的训练阶段，可以根据公式（11）确定第五中间矩阵对应的均值；

（11）

其中，Ci可以表征第五中间矩阵的矩阵元素。

进一步，可以根据公式（12），对第二均值参数值进行更新，以确定训练过程中的第二均值参数值

2：

（12）

在变换神经网络的使用阶段，第二均值参数值

2可以为：训练完成状态下对应的第二均值参数值

2。

步骤608对该第六中间矩阵进行仿射变换的过程可以包括：对该第六中间矩阵与第三参数矩阵进行点乘操作，以得到第七中间矩阵，并根据该第七中间矩阵和第四参数矩阵，确定该相关性矩阵对应的归一化矩阵。

公式（13）示出了相关性矩阵对应的仿射变换过程：

（13）

其中，

表征第六中间矩阵，γ₂表征相关性矩阵对应的第三参数矩阵，

表示第七中间矩阵，β₂表示相关性矩阵对应的第四参数矩阵，γ₂的原理与γ的原理类似，β₂的原理与β的原理类似，在此不作赘述，相互参照即可。Y表示相关性矩阵对应的归一化矩阵。

在实际应用中，归一化模块可以将归一化矩阵输出给变换神经网络的下一级模块。以图3所示的编码器为例，第二归一化模块输出的归一化矩阵可以作为相关性权重，该相关性权重可用于与一层处理块的输入特征进行融合。

综上，本申请实施例的基于变换神经网络的数据处理方法，变换神经网络中归一化模块的归一化处理过程具体可以包括：第一归一化、激活处理和第二归一化。其中，第一归一化将特征矩阵除以第一均值参数值，以得到第一中间矩阵，并对该第一中间矩阵进行仿射变换；激活处理采用非线性激活函数，能够使训练过程摆脱单一的线性关系，让归一化结果更加符合现实；第二归一化将该第五中间矩阵除以第二均值参数值，以得到第六中间矩阵，并对该第六中间矩阵进行仿射变换，以得到该相关性矩阵对应的归一化矩阵。由于第一均值参数值和第二均值参数值均可以表征对应数据集中趋势的量数，故第一归一化和第二归一化将数据集中数据元素除以数据集中趋势的量数，可以提高仿射变换后的矩阵所对应数据集的稳定性，因此能够提高归一化结果的稳定性，进而能够提高变换神经网络的处理精度。

需要说明的是，对于方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请实施例并不受所描述的动作顺序的限制，因为依据本申请实施例，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作并不一定是本申请实施例所必须的。

在上述实施例的基础上，本实施例还提供了一种基于变换神经网络的数据处理装置，该装置应用于所述变换神经网络中的归一化模块，参照图7，该装置具体可以包括：接收模块701、第一均值参数确定模块702、第一运算模块703、仿射变换模块704和输出模块705。

其中，接收模块701，用于接收第一数据序列对应的数据矩阵；所述变换神经网络用于将所述第一数据序列转换为第二数据序列；

第一均值参数确定模块702，用于确定所述数据矩阵对应的第一均值参数值；

第一运算模块703，用于将所述数据矩阵除以第一均值参数值，以得到第一中间矩阵；

仿射变换模块704，用于对所述第一中间矩阵进行仿射变换，以得到所述数据矩阵对应的归一化矩阵；

输出模块705，用于对所述归一化矩阵进行输出。

可选地，第一均值参数确定模块702具体可以包括：

可选地，所述数据矩阵对应的均值的确定过程具体可以包括：对多个训练样本的数据矩阵中矩阵元素的平方进行求和，将求和结果除以训练样本的数量，以得到所述数据矩阵对应的均值。

第一数据序列为语音序列，第二数据序列为文本序列；或者

第一数据序列为文本序列，第二数据序列为语义序列。

可选地，仿射变换模块704可以包括：

可选地，所述数据矩阵可以包括：所述第一数据序列对应的特征矩阵；

仿射变换模块704可以包括：

可选地，所述数据矩阵可以包括：所述第一数据序列中第一元素与第二元素之间的相关性矩阵；

仿射变换模块704可以包括：

可选地，所述第二均值参数值确定模块包括：

本申请实施例还提供了一种非易失性可读存储介质，该存储介质中存储有一个或多个模块（programs），该一个或多个模块被应用在设备时，可以使得该设备执行本申请实施例中各方法步骤的指令（instructions）。

本申请实施例提供了一个或多个机器可读介质，其上存储有指令，当由一个或多个处理器执行时，使得电子设备执行如上述实施例中一个或多个所述的方法。本申请实施例中，所述电子设备包括终端设备、服务器（集群）等各类型的设备。

本公开的实施例可被实现为使用任意适当的硬件，固件，软件，或及其任意组合进行想要的配置的装置，该装置可包括：终端设备、服务器（集群）等电子设备。图8示意性地示出了可被用于实现本申请中所述的各个实施例的示例性装置1100 。

对于一个实施例，图8示出了示例性装置1100，该装置具有一个或多个处理器1102、被耦合到(一个或多个)处理器1102中的至少一个的控制模块（芯片组）1104、被耦合到控制模块1104的存储器1106、被耦合到控制模块1104的非易失性存储器(NVM)/存储设备1108、被耦合到控制模块1104的一个或多个输入/输出设备1110，以及被耦合到控制模块1104的网络接口1112。

处理器1102可包括一个或多个单核或多核处理器，处理器1102可包括通用处理器或专用处理器（例如图形处理器、应用处理器、基频处理器等）的任意组合。在一些实施例中，装置1100 能够作为本申请实施例中所述终端设备、服务器（集群）等设备。

在一些实施例中，装置1100 可包括具有指令1114的一个或多个计算机可读介质(例如，存储器1106或NVM/ 存储设备1108) 以及与该一个或多个计算机可读介质相合并被配置为执行指令1114以实现模块从而执行本公开中所述的动作的一个或多个处理器1102。

对于一个实施例，控制模块1104可包括任意适当的接口控制器，以向(一个或多个)处理器1102中的至少一个和/或与控制模块1104通信的任意适当的设备或组件提供任意适当的接口。

控制模块1104可包括存储器控制器模块，以向存储器1106提供接口。存储器控制器模块可以是硬件模块、软件模块和/或固件模块。

存储器1106可被用于例如为装置1100加载和存储数据和/或指令1114。对于一个实施例，存储器1106可包括任意适当的易失性存储器，例如，适当的DRAM。在一些实施例中，存储器1106可包括双倍数据速率类型四同步动态随机存取存储器(DDR4SDRAM) 。

对于一个实施例，控制模块1104可包括一个或多个输入/输出控制器，以向NVM/存储设备1108及(一个或多个)输入/输出设备1110 提供接口。

例如，NVM/存储设备1108可被用于存储数据和/或指令1114。NVM/存储设备1108可包括任意适当的非易失性存储器(例如，闪存)和/或可包括任意适当的(一个或多个)非易失性存储设备(例如，一个或多个硬盘驱动器(HDD) 、一个或多个光盘(CD) 驱动器和/或一个或多个数字通用光盘(DVD) 驱动器)。

NVM/存储设备1108可包括在物理上作为装置1100 被安装在其上的设备的一部分的存储资源，或者其可被该设备访问可不必作为该设备的一部分。例如， NVM/存储设备1108可通过网络经由(一个或多个)输入/输出设备1110 进行访问。

(一个或多个)输入/输出设备1110 可为装置1100 提供接口以与任意其他适当的设备通信，输入/输出设备1110可以包括通信组件、音频组件、传感器组件等。网络接口1112可为装置1100 提供接口以通过一个或多个网络通信，装置1100 可根据一个或多个无线网络标准和/或协议中的任意标准和/或协议来与无线网络的一个或多个组件进行无线通信，例如接入基于通信标准的无线网络，如WiFi、2G、3G、4G、5G等，或它们的组合进行无线通信。

对于一个实施例，(一个或多个)处理器1102中的至少一个可与控制模块1104的一个或多个控制器(例如，存储器控制器模块) 的逻辑封装在一起。对于一个实施例，(一个或多个)处理器1102中的至少一个可与控制模块1104的一个或多个控制器的逻辑封装在一起以形成***级封装(SiP) 。对于一个实施例， (一个或多个)处理器1102中的至少一个可与控制模块1104的一个或多个控制器的逻辑集成在同一模具上。对于一个实施例， (一个或多个)处理器1102中的至少一个可与控制模块1104的一个或多个控制器的逻辑集成在同一模具上以形成片上***(SoC) 。

在各个实施例中，装置1100可以但不限于是：服务器、台式计算设备或移动计算设备(例如，膝上型计算设备、手持计算设备、平板电脑、上网本等)等终端设备。在各个实施例中，装置1100 可具有更多或更少的组件和/或不同的架构。例如，在一些实施例中，装置1100包括一个或多个摄像机、键盘、液晶显示器(LCD) 屏幕(包括触屏显示器)、非易失性存储器端口、多个天线、图形芯片、专用集成电路(ASIC) 和扬声器。

其中，检测装置中可采用主控芯片作为处理器或控制模块，传感器数据、位置信息等存储到存储器或NVM/存储设备中，传感器组可作为输入/输出设备，通信接口可包括网络接口。

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

本申请实施例是参照根据本申请实施例的方法、终端设备(***)、和计算机程序产品的流程图和／或方框图来描述的。应理解可由计算机程序指令实现流程图和／或方框图中的每一流程和／或方框、以及流程图和／或方框图中的流程和／或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本申请实施例的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请实施例范围的所有变更和修改。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

以上对本申请所提供的一种基于变换神经网络的数据处理方法和装置、一种电子设备和一种机器可读介质，进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种基于变换神经网络的数据处理方法，其特征在于，所述方法应用于所述变换神经网络中的归一化模块，所述方法包括：

确定所述数据矩阵对应的第一均值参数值；

对所述归一化矩阵进行输出；

其中，第一数据序列为图像序列，第二数据序列为图像类别序列；或者

第一数据序列为语音序列，第二数据序列为文本序列；或者

第一数据序列为文本序列，第二数据序列为语义序列。

2.根据权利要求1所述的方法，其特征在于，所述确定所述数据矩阵对应的第一均值参数值，包括：

在所述变换神经网络的使用过程中，所述第一均值参数值为：训练完成状态下对应的第一均值参数值。

3.根据权利要求2所述的方法，其特征在于，所述数据矩阵对应的均值的确定过程包括：对多个训练样本的数据矩阵中矩阵元素的平方进行求和，将求和结果除以训练样本的数量，以得到所述数据矩阵对应的均值。

4.根据权利要求1所述的方法，其特征在于，所述对所述第一中间矩阵进行仿射变换，包括：

对所述第一中间矩阵与第一参数矩阵进行点乘操作，以得到第二中间矩阵；

根据所述第二中间矩阵和第二参数矩阵，确定所述数据矩阵对应的归一化矩阵。

5.根据权利要求1所述的方法，其特征在于，所述数据矩阵包括：所述第一数据序列对应的特征矩阵；

所述根据仿射变换结果，确定所述数据矩阵对应的归一化矩阵，包括：

将仿射变换结果作为所述特征矩阵对应的归一化矩阵。

6.根据权利要求1所述的方法，其特征在于，所述数据矩阵包括：所述第一数据序列中第一元素与第二元素之间的相关性矩阵；

对仿射变换结果对应的第三中间矩阵进行激活处理，以得到第四中间矩阵；

对所述第四中间矩阵与第二元素对应的值矩阵点乘，以得到第五中间矩阵；

确定所述第五中间矩阵对应的第二均值参数值；

将所述第五中间矩阵除以第二均值参数值，以得到第六中间矩阵；

对所述第六中间矩阵进行仿射变换，以得到所述相关性矩阵对应的归一化矩阵。

7.根据权利要求6所述的方法，其特征在于，所述确定所述第五中间矩阵对应的第二均值参数值，包括：

在所述变换神经网络的训练过程中，根据所述第五中间矩阵对应的均值，对第二均值参数值进行更新；或者

在所述变换神经网络的使用过程中，所述第二均值参数值为：训练完成状态下对应的第二均值参数值。

8.一种基于变换神经网络的数据处理装置，其特征在于，所述装置应用于所述变换神经网络中的归一化模块，所述装置包括：

输出模块，用于对所述归一化矩阵进行输出；

第一数据序列为语音序列，第二数据序列为文本序列；或者

第一数据序列为文本序列，第二数据序列为语义序列。

9.一种电子设备，其特征在于，包括：处理器；和

存储器，其上存储有可执行代码，当所述可执行代码被执行时，使得所述处理器执行如权利要求1-7中任一项所述的方法。

10.一种机器可读介质，其上存储有可执行代码，当所述可执行代码被执行时，使得处理器执行如权利要求1-7中任一项所述的方法。