CN115512104A

CN115512104A - 一种数据处理方法及相关设备

Info

Publication number: CN115512104A
Application number: CN202211071524.0A
Authority: CN
Inventors: 裴仁静; 李炜棉; 许松岑
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2022-09-02
Filing date: 2022-09-02
Publication date: 2022-12-23

Abstract

本申请公开了一种数据处理方法。可以应用于时序建模场景。该方法包括：获取多个数据；将多个数据中的每个数据拆分为N个数据块，N为大于1的正整数；确定至少一个数据块在多个数据中的观察方向；基于观察方向确定多个数据中的数据块序列，数据块序列用于表示多个数据在时序上的特征。通过确定至少一个数据块在多个数据中的观察方向，并基于该观察方向确定多个数据中的数据块序列，以实现该数据块序列可以表示多个数据在时序上的特征。尤其是对于多个数据是多帧图像的场景下，可以动态确定观察视角，进而使得基于该数据块序列获取的特征更能表示多个数据在时序上的特点，从而提升计算机视觉任务的准确性。

Description

一种数据处理方法及相关设备

技术领域

本申请涉及人工智能领域，尤其涉及一种数据处理方法及相关设备。

背景技术

伴随着互联网技术的发展，互联网内容的主流表现形式经历了从纯文本时代逐渐发展到图文时代，再到现在的视频和直播时代的过渡，相比于纯文本和图文内容形式，视频内容更加丰富，对用户更有吸引力。随着近年来人们拍摄视频的需求更多、传输视频的速度更快、存储视频的空间更大，多种场景下积累了大量的视频数据，需要一种有效地对视频进行管理、分析和处理的工具。视频理解旨在通过智能分析技术，自动化地对视频中的内容进行识别和解析。视频理解算法顺应了这个时代的需求。

视觉时空建模目前最佳的性能方案是将时序和空间建模方式容为一体，其中，常用的为全局注意力机制。全局注意力机制会将所有的时空划分块一起送入到Transformer中；然而，全局注意力方式存在噪声大、冗余多的问题。以上方式会导致多目标细粒度理解精度低且推理时间长的问题。

因此，如何高效利用时空信息，提升时序特征的准确提取是亟待解决的技术问题。

发明内容

本申请提供了一种数据处理方法，用于动态确定观察视角，进而使得基于该数据块序列获取的特征更能表示多个数据在时序上的特点，从而提升计算机视觉任务的准确性。

本申请实施例第一方面提供了一种数据处理方法。可以应用于时序建模场景。该方法可以由数据处理设备执行，也可以由数据处理设备的部件(例如处理器、芯片、或芯片***等)执行。该方法包括：获取多个数据；将多个数据中的每个数据拆分为N个数据块，N为大于1的正整数；确定至少一个数据块在多个数据中的观察方向；基于观察方向确定多个数据中的数据块序列，数据块序列用于表示多个数据在时序上的特征。

本申请实施例中，通过确定至少一个数据块在多个数据中的观察方向，并基于该观察方向确定多个数据中的数据块序列，以实现该数据块序列可以表示多个数据在时序上的特征。尤其是对于多个数据是多帧图像的场景下，可以动态确定观察视角，进而使得基于该数据块序列获取的特征更能表示多个数据在时序上的特点，从而提升计算机视觉任务的准确性。

可选地，在第一方面的一种可能的实现方式中，上述步骤：确定至少一个数据块在多个数据中的观察方向，包括：以多个训练数据作为模型的输入，在训练模型的过程中，通过调整初始观察方向使得损失函数的值小于阈值以得到观察方向，初始观察方向用于确定模型的输出，损失函数用于表示输出与多个数据的标签之间的差异。

该种可能的实现方式中，通过在模型的训练过程中，至少一个数据块学习观察方向，即通过学习到的观察方向确定需要关注的数据块序列，从而实现非固定视角的时序attention。

可选地，在第一方面的一种可能的实现方式中，上述步骤：确定至少一个数据块在多个数据中的观察方向，包括：基于训练好的模型与至少一个数据块在多个数据中的位置信息，确定观察方向。该训练好的模型中的参数已经训练完成，输入数据块以及至少一个数据块在多个数据中的位置信息之后，模型可以基于该位置信息确定至少一个数据块的观察方向，进而基于该观察方向确定的数据块序列得到推理结果。或者理解为经过训练好的模型确定推理过程中确定多个数据特征的观察方向。

该种可能的实现方式中，在推理过程中，通过训练好的模型，来确定至少一个数据块在多个数据中的观察方向。

可选地，在第一方面的一种可能的实现方式中，上述的观察方向由至少一个数据块在三维坐标系中的第一角度与第二角度表示，三维坐标系的中心点与多个数据相关，三维坐标系为(W,H,T)，W表示数据宽度，H表示数据高度，T为时刻。

该种可能的实现方式中，通过将多个数据在时序上的角度确定观察方向，可以提升观察方向的准确性。

可选地，在第一方面的一种可能的实现方式中，上述步骤：基于观察方向确定多个数据中的数据块序列，包括：确定观察方向在三维坐标系上的第一偏置与第二偏置，第一偏置为观察方向在W-T平面上不同时刻的偏置，第二偏置为观察方向在H-W平面上不同时刻的偏置；基于第一偏置与第二偏置确定数据块序列。

该种可能的实现方式中，通过观察方向确定多个数据中的数据块序列，可以提升该数据块序列对多个数据在时序上的特征表达。

可选地，在第一方面的一种可能的实现方式中，上述的多个数据为多帧图像数据或频谱图。

该种可能的实现方式中，可以提升多帧图像或多个音频数据的时序特征表达。

本申请实施例第二方面提供了一种数据处理方法。可以应用于不同模态数据融合场景。该方法可以由数据处理设备执行，也可以由数据处理设备的部件(例如处理器、芯片、或芯片***等)执行。该方法包括：获取第一数据与第二数据，第一数据与第二数据为不同模态的数据；获取第一数据的第一时序特征与第一空间特征；获取第二数据的第二时序特征与第二空间特征；融合第一时序特征与第二时序特征，以得到目标时序特征；融合第一空间特征与第二空间特征，以得到目标空间特征，目标时序特征与目标空间特征用于实现计算机视觉任务。

本申请实施例中，通过对不同模态数据进行时-空解耦，然后分别在时序和空间维度进行多模态融合，高效地实现不同模态数据之间的细粒度协同学习。

可选地，在第二方面的一种可能的实现方式中，上述的第一数据与第二数据为模态数据中的任意两种，模态数据包括：视觉数据、音频数据、文本数据。例如，第一数据为视觉数据，第二数据为音频数据；第一时序特征为视觉数据在时序上的特征，第二时序特征为音频数据的频率，和/或响度；第一空间特征为视觉数据在空间上的特征，第二空间特征为音频数据的音色。又例如，第一数据为文本数据，第二数据为音频数据。第一时序特征为文本数据中的动词，第二时序特征为音频数据的频率，和/或响度；第一空间特征为文本数据中的名词、介词、形容词等中的至少一项，第二空间特征为音频数据的音色。

该种可能的实现方式中，通过对视觉信息和音频信息进行时-空解耦，然后分别在时序和空间维度进行多模态融合，高效地实现视频多模态细粒度协同学习。

可选地，在第二方面的一种可能的实现方式中，上述步骤：获取第一数据的第一时序特征与第一空间特征，包括：基于视觉分解方法分解第一数据以得到第一时序特征与第一空间特征。

该种可能的实现方式中，通过视觉分解方法获取视觉数据的时序特征表达和空间特征表达。以便于更细粒度的融合。

可选地，在第二方面的一种可能的实现方式中，上述步骤：获取第二数据的第二时序特征与第二空间特征，包括：基于音频分解方法分解第二数据以得到第二时序特征与第二空间特征，音频分解方法包括以下至少一项：门Gate，卷积神经网络。

该种可能的实现方式中，通过音频分解方法获取视觉数据的时序特征表达和空间特征表达。以便于更细粒度的融合。

可选地，在第二方面的一种可能的实现方式中，上述的第一时序特征包括观察方向确定的数据块序列，数据块序列用于表示第一数据在时序上的特征。该种方式下，相当于将第一方面或第一方面中任意可能的实现方式的方法应用在该第二方面或第二方面中任意可能的实现方式中。

该种可能的实现方式中，可以动态确定观察视角，进而使得基于该数据块序列获取的特征更能表示多个数据在时序上的特点，从而提升计算机视觉任务的准确性。

本申请实施例第三方面提供了一种数据处理设备，可以应用于时序建模场景。该数据处理设备包括：获取单元，用于获取多个数据；拆分单元，用于将多个数据中的每个数据拆分为N个数据块，N为大于1的正整数；确定单元，用于确定至少一个数据块在多个数据中的观察方向；确定单元，还用于基于观察方向确定多个数据中的数据块序列，数据块序列用于表示多个数据在时序上的特征。

可选地，在第三方面的一种可能的实现方式中，上述的确定单元，具体用于以多个训练数据作为模型的输入，在训练模型的过程中，通过调整初始观察方向使得损失函数的值小于阈值以得到观察方向，初始观察方向用于确定模型的输出，损失函数用于表示输出与多个数据的标签之间的差异。

可选地，在第三方面的一种可能的实现方式中，上述的确定单元，具体用于确定至少一个数据块在多个数据中的观察方向，包括：基于训练好的模型与至少一个数据块在多个数据中的位置信息，确定观察方向。该训练好的模型中的参数已经训练完成，输入数据块以及至少一个数据块在多个数据中的位置信息之后，模型可以基于该位置信息确定至少一个数据块的观察方向，进而基于该观察方向确定的数据块序列得到推理结果。或者理解为经过训练好的模型确定推理过程中确定多个数据特征的观察方向。

可选地，在第三方面的一种可能的实现方式中，上述的观察方向由至少一个数据块在三维坐标系中的第一角度与第二角度表示，三维坐标系的中心点与多个数据相关，三维坐标系为(W,H,T)，W表示数据宽度，H表示数据高度，T为时刻。

可选地，在第三方面的一种可能的实现方式中，上述的确定单元，具体用于确定观察方向在三维坐标系上的第一偏置与第二偏置，第一偏置为观察方向在W-T平面上不同时刻的偏置，第二偏置为观察方向在H-W平面上不同时刻的偏置；确定单元，具体用于基于第一偏置与第二偏置确定数据块序列。

可选地，在第三方面的一种可能的实现方式中，上述的多个数据为多帧图像数据或频谱图。

本申请实施例第四方面提供了一种数据处理设备，可以应用于不同模态数据融合场景。该数据处理设备包括：获取单元，用于获取第一数据与第二数据，第一数据与第二数据为不同模态的数据；获取单元，还用于获取第一数据的第一时序特征与第一空间特征；获取单元，还用于获取第二数据的第二时序特征与第二空间特征；融合单元，用于融合第一时序特征与第二时序特征，以得到目标时序特征；融合单元，还用于融合第一空间特征与第二空间特征，以得到目标空间特征，目标时序特征与目标空间特征用于实现计算机视觉任务。

可选地，在第四方面的一种可能的实现方式中，上述的第一数据与第二数据为模态数据中的任意两种，模态数据包括：视觉数据、音频数据、文本数据。例如，第一数据为视觉数据，第二数据为音频数据；第一时序特征为视觉数据在时序上的特征，第二时序特征为音频数据的频率，和/或响度；第一空间特征为视觉数据在空间上的特征，第二空间特征为音频数据的音色。又例如，第一数据为文本数据，第二数据为音频数据。第一时序特征为文本数据中的动词，第二时序特征为音频数据的频率，和/或响度；第一空间特征为文本数据中的名词、介词、形容词等中的至少一项，第二空间特征为音频数据的音色。

可选地，在第四方面的一种可能的实现方式中，上述的获取单元，具体用于基于视觉分解方法分解第一数据以得到第一时序特征与第一空间特征。

可选地，在第四方面的一种可能的实现方式中，上述的获取单元，具体用于基于音频分解方法分解第二数据以得到第二时序特征与第二空间特征，音频分解方法包括以下至少一项：门Gate，卷积神经网络。

可选地，在第四方面的一种可能的实现方式中，上述的第一时序特征包括观察方向确定的数据块序列，数据块序列用于表示第一数据在时序上的特征。

本申请第五方面提供了一种数据处理设备，包括：处理器，处理器与存储器耦合，存储器用于存储程序或指令，当程序或指令被处理器执行时，使得该数据处理设备实现上述第一方面或第一方面的任意可能的实现方式中的方法。

本申请第六方面提供了一种数据处理设备，包括：处理器，处理器与存储器耦合，存储器用于存储程序或指令，当程序或指令被处理器执行时，使得该数据处理设备实现上述第二方面或第二方面的任意可能的实现方式中的方法。

本申请第七方面提供了一种计算机可读介质，其上存储有计算机程序或指令，当计算机程序或指令在计算机上运行时，使得计算机执行前述第一方面或第一方面的任意可能的实现方式中的方法，或者使得计算机执行前述第二方面或第二方面的任意可能的实现方式中的方法。

本申请第八方面提供了一种计算机程序产品，该计算机程序产品在计算机上执行时，使得计算机执行前述第一方面或第一方面的任意可能的实现方式中的方法，使得计算机执行前述第二方面或第二方面的任意可能的实现方式中的方法。

其中，第三、第五、第七、第八方面或者其中任一种可能实现方式所带来的技术效果可参见第一方面或第一方面不同可能实现方式所带来的技术效果，此处不再赘述。

其中，第四、第六、第七、第八方面或者其中任一种可能实现方式所带来的技术效果可参见第二方面或第二方面不同可能实现方式所带来的技术效果，此处不再赘述。

从以上技术方案可以看出，本申请具有以下优点：通过确定至少一个数据块在多个数据中的观察方向，并基于该观察方向确定多个数据中的数据块序列，以实现该数据块序列可以表示多个数据在时序上的特征。尤其是对于多个数据是多帧图像的场景下，可以确定至少一个数据块的观察视角，进而使得基于该数据块序列获取的特征更能表示多个数据在时序上的特点，从而提升计算机视觉任务的准确性。

附图说明

图1为本申请实施例提供的人类观察事物时特点的示意图；

图2为本申请实施例提供的应用场景的结构示意图；

图3为本申请实施例提供的数据处理方法的一个流程示意图；

图4为本申请实施例提供的多个数据的示例图；

图5为本申请实施例提供的多个数据拆分为数据块的示例图；

图6为本申请实施例提供的4个数据块的观察方向示例图；

图7为本申请实施例提供的偏置角度的示例图；

图8为本申请实施例提供的2个数据块的观察方向示例图；

图9为本申请实施例提供的第一偏置与第二偏置的示例图；

图10为本申请实施例提供的多个数据中的数据块序列的示例图；

图11为本申请实施例提供的数据处理方法的另一个流程示意图；

图12为本申请实施例提供的数据处理方法的另一个流程示意图；

图13为本申请实施例提供的音频数据与视频数据的融合示意图；

图14为本申请实施例提供的数据处理设备的一个结构示意图；

图15为本申请实施例提供的数据处理设备的另一个结构示意图；

图16为本申请实施例提供的数据处理设备的另一个结构示意图。

具体实施方式

为了便于理解，下面先对本申请实施例主要涉及的相关术语和概念进行介绍。

1、神经网络。

神经网络可以是由神经单元组成的，神经单元可以是指以X_s和截距b为输入的运算单元，该运算单元的输出可以为：

其中，s＝1、2、……n，n为大于1的自然数，W_s为X_s的权重，b为神经单元的偏置。f为神经单元的激活函数(activation functions)，用于将非线性特性引入神经网络中，来将神经单元中的输入信号转换为输出信号。该激活函数的输出信号可以作为下一层卷积层的输入。激活函数可以是sigmoid函数。神经网络是将许多个上述单一的神经单元联结在一起形成的网络，即一个神经单元的输出可以是另一个神经单元的输入。每个神经单元的输入可以与前一层的局部接受域相连，来提取局部接受域的特征，局部接受域可以是由若干个神经单元组成的区域。

2、损失函数。

在训练神经网络的过程中，因为希望神经网络的输出尽可能的接近真正想要预测的值，所以可以通过比较当前网络的预测值和真正想要的目标值，再根据两者之间的差异情况来更新每一层神经网络的权重向量(当然，在第一次更新之前通常会有初始化的过程，即为深度神经网络中的各层预先配置参数)，比如，如果网络的预测值高了，就调整权重向量让它预测低一些，不断的调整，直到神经网络能够预测出真正想要的目标值或与真正想要的目标值非常接近的值。因此，就需要预先定义“如何比较预测值和目标值之间的差异”，这便是损失函数(loss function)或目标函数(objective function)，它们是用于衡量预测值和目标值的差异的重要方程。其中，以损失函数举例，损失函数的输出值(loss)越高表示差异越大，那么神经网络的训练就变成了尽可能缩小这个loss的过程。

3、声音的三要素：频率、振幅、波形。

频率：声波的频率，即声音的音调，人类听觉的频率(音调)范围为20Hz–20KHz

振幅：即声波的响度，通俗的讲就是声音的高低，一般男生的声音振幅(响度)大于女生。

波形：即声音的音色，同样的频率和振幅下，钢琴和小提琴的声音听起来完全不同的，因为他们的音色不同。波形决定了其所代表声音的音色。音色不同是因为它们的介质所产生的波形不同。

4、注意力机制。

注意力机制又称Attention，是由Bengio团队于2014年提出并在近年广泛的应用在深度学习中的各个领域，例如在计算机视觉方向用于捕捉图像上的感受野，或者NLP中用于定位关键token或者特征。

5、Transformer。

Transformer抛弃了传统的卷积神经网络(Convolutional Neural Network，CNN)和循环神经网络(Recurrent Neural Network，RNN)，整个网络结构完全是由Attention机制组成。更准确地讲，Transformer包括：自注意力(self-Attenion)和前馈神经网络(feedforward neural network，FNN)。

6、数据块。

在Transformer学习训练过程中，不是一次来处理一整张图片，而是先将图片或视频帧在空间维度划分为多个小的图像块。

7、位置编码(position embedding)。

位置编码是从文本训练时引入而来的。文本是时序型数据，词与词之间的顺序关系往往影响整个句子的含义。而Transformer模型的self-attention层并没有包含位置信息，即一句话中词语在不同的位置时在transformer中是没有区别的。要想让位置信息参与训练，就要构造一个跟输入维度一样的矩阵记录位置，即位置编码。

如前述背景技术的描述，如何高效利用时空信息，提升时序特征的准确提取是亟待解决的技术问题。

为了解决上述问题，即数据在时间维度的关注上应该是滑动式的(如图1所示)，因此在时序方向上的attention应该是动态滑动的。另外，关注点的移动速度与方向也要与不同物体运动趋势对应，因此每个窗口所选方向应该是有差异。基于上述思路，本申请实施例提供的数据处理方法模拟了人类观察事物时的特点，通过确定至少一个数据块在多个数据中的观察方向，并基于该观察方向确定多个数据中的数据块序列，以实现该数据块序列可以表示多个数据在时序上的特征。尤其是对于多个数据是多帧图像的场景下，可以动态确定观察视角，进而使得基于该数据块序列获取的特征更能表示多个数据在时序上的特点，从而提升计算机视觉任务的准确性。

在对本申请实施例所提供的方法进行描述之前，先对本申请实施例所提供的方法所适用的应用场景进行描述。本申请实施例提供的方法的场景可以如图2所示。

从数据库中获取视频1等数据。对视频数据进行预处理，并获取视频数据的特征，再基于该特征确定数据的词向量或关键词，进而应用在搜索服务、推荐服务、归档服务等服务中。即对数据库中的若干视频进行多模态特征提取，并对关键词库(keywords)进行关键词召回。在下游推荐、搜索、归档视频打标等服务中提供视频多模态表征或关键词能力。

可以理解的是，图2仅以数据为视频为例进行示例性说明，在实际应用中，数据还可以包括语音、文本等至少一类模态的数据，具体此处不做限定。另外，图2场景中获取视频的方式只是以从数据库中提取为例，还可以是数据处理设备通过传感器采集，或接收其他设备发送视频等方式，具体此处不做限定。

下面对本申请实施例提供的数据处理方法进行详细的介绍。该方法可以由数据处理设备执行。也可以由数据处理设备的部件(例如处理器、芯片、或芯片***等)执行。该方法可以应用于搜索、推荐、归档等场景，请参阅图3，本申请实施例提供的数据处理方法的一个流程示意图，该方法可以包括步骤301至步骤304。下面对步骤301至步骤304进行详细说明。

步骤301，获取多个数据。

本申请实施例中数据处理设备获取多个数据的方式有多种，可以是通过接收其他设备发送的方式，也可以是从数据库中选取的方式，还可以是通过数据处理设备中传感器采集的方式等，具体此处不做限定。

本申请实施例中的数据可以是图像数据、音频数据、文本数据中的至少一种，具体此处不做限定。另外，多个数据中的多个是指至少两个以上的数据，对于具体数量此处不做限定。

其中，多个数据在时序上相关，或者理解为多个数据在时序上相邻的两个数据中有部分重叠的数据与不重叠的数据。例如，多帧图像中相邻两帧图像中相应位置上有部分像素值相同。本申请实施例仅以多个数据是多帧图像为例进行示例性说明，可以理解的是，多个数据也可以是频谱图等，具体此处不做限定。

示例性的，以数据是图像，数量是3个为例，多个数据如图4所示。

步骤302，将多个数据中的每个数据拆分为N个数据块，N为大于1的正整数。

数据处理设备获取多个数据之后，将多个数据中的每个数据拆分为N个数据块，N为大于1的正整数。

一般情况下，多个数据中各数据之间的尺寸(例如，高、宽)是相同的。若个数据之间的尺寸不同，可以进行裁剪或填充等方式使得各数据之间的尺寸相同。另外，一般情况下，每个数据拆分的数据块数量相同。可以理解的是，在实际应用中，每个数据拆分成的数据块数量也可以不同。例如，根据各数据包括的像素分布等拆分为不同数量的数据块，具体此处不做限定。本申请实施例仅以多个数据中各数据之间的尺寸相同，且每个数据拆分的数据块数量相同为例进行示例性描述。

示例性的，延续上述图4的举例，多个数据拆分后的数据块可以如图5所示。

步骤303，确定至少一个数据块在多个数据中的观察方向。

数据处理设备拆分数据之后，可以确定至少一个数据块在多个数据中的观察方向。该观察方向可以有至少一个数据块在三维坐标中的第一角度与第二角度表示，在实际应用中，该观察方向还可以有其他表示方式，具体此处不做限定。

其中，三维坐标系为(W,H,T)，W表示数据宽度，H表示数据高度，T为时刻。或者理解为将拆分后的多个数据放置在三维坐标系中。另外，该三维坐标系的中心点与多个数据相关。本申请实施例仅以该中心点可以是多个数据中按时刻排序的第一个数据的左上角点为例进行示例性描述。可以理解的是，该中心点还可以是第一个数据的中心点，或者是多个数据中中间数据的中心点等，具体此处不做限定。

本申请实施例中的至少一个数据块可以是多个数据中任意一个数据中的数据块。另外，在至少一个数据块是大于或等于两个数据块的情况下，该至少两个数据块的观察方向可以相同或不同。

该步骤可以理解为，至少一个数据块可以学***面上的投影线与W轴的夹角，第二角度为该观察方向映射在W-T平面上的投影线与W轴的夹角。

可选地，该观察方向是用户根据经验预先设置的。

可选地，该观察方向是根据训练好的模型所确定的，即该观察方向属于训练好的模型中参数。或者理解为，数据处理设备可以基于训练好的模型与至少一个数据块在多个数据中的位置信息，确定观察方向。该训练好的模型中的参数已经训练完成，输入数据块以及至少一个数据块在多个数据中的位置信息之后，模型可以基于该位置信息确定至少一个数据块的观察方向，进而基于该观察方向确定的数据块序列得到推理结果。或者理解为经过训练好的模型确定推理过程中确定多个数据特征的观察方向。

可选地，以多个训练数据作为模型的输入，在训练模型的过程中，通过调整初始观察方向使得损失函数的值小于阈值以得到观察方向，初始观察方向用于确定模型的输出，损失函数用于表示输出与多个数据的标签之间的差异。具体的，可以使用损失函数训练模型的过程中寻找一个最佳的观察视角，使得模型的推测结果与标签差异最小。

示例性的，以至少一个数据块为4个数据块为例，该步骤的获取的4个数据块的观察方向如图6所示。以第4个数据块的观察方向为例，学习到的偏置角度

如图7所示。

示例性的，延续上述图4与图5的举例，以至少一个数据块为2个数据块为例，该步骤的获取的2个数据块的观察方向如图8所示。

步骤304，基于观察方向确定多个数据中的数据块序列。

数据处理设备获取观察方向之后，基于观察方向确定多个数据中的数据块序列。该数据块序列用于表示多个数据在时序上的特征。

可选地，确定观察方向在三维坐标系上的第一偏置与第二偏置，第一偏置为观察方向在W-T平面上不同时刻的偏置，第二偏置为观察方向在H-W平面上不同时刻的偏置。获取第一偏置与第二偏置之后，可以基于第一偏置与第二偏置在多个数据中确定数据块序列。

该步骤可以理解为，通过数据处理设备确定的观察视角，进一步计算观察视角在W-T平面上不同时间t上的第一偏置(即offset_w)和在H-W平面上不同时间t上的第二偏置(即offset_h)。通过上述学习到的偏置计算该视角方向上需要关注的数据块序列，从而实现非固定视角的时序attention，为每个窗口选择最佳的观察视角，对视频运动趋势进行细粒度attention建模。

示例性的，延续上述图6与图7的举例，offset_w与offset_h如图9所示。

示例性的，延续上述图8的举例，以图8中一个观察方向为例，可以看出该观察方向在图5所示的多个数据中对应的数据块序列如图10所示，该数据块序列包括第一帧图像第二排的第三个数据块、第二帧图像第二排的第三个数据块以及第三帧图像第二排的第四个数据块。

可选地，获取数据块序列之后，可以基于该数据块序列获取多个数据在时序上的特征。例如，图10的举例下，可以得到多个数据具有“跳”、“崖”等特征。进而提升多个数据标签预测等场景下的准确性。

可选地，获取数据块序列之后，可以基于该数据块序列进行细粒度attention建模。

本实施例中，通过确定至少一个数据块在多个数据中的观察方向，并基于该观察方向确定多个数据中的数据块序列，以实现该数据块序列可以表示多个数据在时序上的特征。尤其是对于多个数据是多帧图像的场景下，可以动态确定观察视角，进而使得基于该数据块序列获取的特征更能表示多个数据在时序上的特点，从而提升计算机视觉任务的准确性。例如，对于时序细粒度attention建模，适应物体运动速度快(等效时序采样间隔变大)、多目标多方向等更复杂的场景，可以提升多个数据的标签预测能力等。

另外，相比于图像理解，视频理解在模态组成和时间维度上更为特殊和复杂。视频的多个模态在时空表征上具有一定的相关和互补性，当将多模态信息进行融合后，对视频理解有巨大提升。因此，近年来多模态视频理解受到了业界广泛关注，取得了快速发展。

但如何高效利用多模态和时空信息，降低视频多模和时空理解的成本和可靠性是现有技术存在的问题。

为了解决上述问题，例如，针对视觉与音频模态协同学习中存在的问题，通过分析音频在时空建模上实质能带来的能力：音调、响度的改变，往往伴随物体或场景的变化(快速移动)、新事物出现等；而音色能分辨不同声音来源，具有分类的能力，可以attention到空间信息。基于上述思路，本申请实施例提供了另一种数据处理方法，该数据处理方法可以理解为一种音频的要素分解和时-空解耦方法。例如，在音频场景，通过对音频模态的要素分解能够更好地筛选出其中的隐藏信息，有利于对视频内容(如场景变化或声音来源)的分辨和学习；在时序和空间维度进行更有针对性的多模态融合(即音频的要素分解和时-空解耦，并在时序和空间维度进行更有针对性的特征融合，可高效实现视频多模态细粒度协同学习)，解决现有算法引入的多模态信息收益甚微，甚至有可能产生噪声信息的问题。

下面对本申请实施例提供的另一种数据处理方法进行详细的介绍。该方法可以由数据处理设备执行。也可以由数据处理设备的部件(例如处理器、芯片、或芯片***等)执行。该方法可以应用于搜索、推荐、归档等场景，请参阅图11，本申请实施例提供的数据处理方法的一个流程示意图，该方法可以包括步骤1101至步骤1105。下面对步骤1101至步骤1105进行详细说明。

步骤1101，获取第一数据与第二数据。

数据处理设备获取第一数据与第二数据，该第一数据与第二数据为不同模态的数据。上述的第一数据与第二数据为模态数据中的任意两种，模态数据包括：视觉数据、音频数据、文本数据等。

本申请实施例仅以第一数据是视觉数据(例如，是视频、图像)，第二数据是音频数据为例进行示例性描述。可以理解的是，在实际应用中，第一数据与第二数据还可以有其他情况。例如，第一数据是音频数据，第二数据是文本数据。又例如，第一数据是视频数据，第二数据是文本数据等，对于第一数据与第二数据的具体模态此处不做限定。

步骤1102，获取第一数据的第一时序特征与第一空间特征。

数据处理设备获取第一数据之后，可以对第一数据进行时间与空间上的分解以得到第一时序特征与第一空间特征。即将第一数据进行时序与空间上的分解。

可选地，该第一时序特征为第一数据在时序上的特征，第一空间特征为第一数据在空间上的特征。

步骤1103，获取第二数据的第二时序特征与第二空间特征。

数据处理设备获取第二数据之后，可以对第二数据进行时间与空间上的分解以得到第二时序特征与第二空间特征。即将第二数据进行时序与空间上的分解。

本申请实施例中，在步骤1102与步骤1103中的时序分解的准确性，可以采用前述图3所示实施例的方法对第一数据的第一时序特征或第二数据的第二时序特征进行提取。

例如，第一数据为视觉数据，第二数据为音频数据；第一时序特征为视觉数据在时序上的特征，第二时序特征为音频数据的频率，和/或响度；第一空间特征为视觉数据在空间上的特征，第二空间特征为音频数据的音色。又例如，第一数据为文本数据，第二数据为音频数据。第一时序特征为文本数据中的动词，第二时序特征为音频数据的频率，和/或响度；第一空间特征为文本数据中的名词(例如，地点、场景)、介词(例如，上、中、下)、形容词等中的至少一项，第二空间特征为音频数据的音色。又例如，第一数据为文本数据，第二数据为视觉数据。

可选地，对于第一数据或第二数据是视觉数据的情况下，数据处理设备具体可以基于视觉分解方法分解视觉数据以得到时序特征与空间特征。该视觉分解方法可以包括形态改变(Reshape)分解方法等分解视觉数据的方法。

可选地，对于第一数据或第二数据是音频数据的情况下，数据处理设备具体可以基于音频分解方法分解音频数据以得到时序特征与空间特征。该音频分解方法包括以下至少一项：门(Gate)分解方法，卷积神经网络等。

步骤1104，融合第一时序特征与第二时序特征，以得到目标时序特征。

数据处理设备获取第一时序特征与第二时序特征之后，融合第一时序特征与第二时序特征，以得到目标时序特征。

进一步的，为了提升多模态数据的对齐，在获取目标时序特征的过程中，可以通过类似位置编码等方式将音频数据的第二时序特征加在视觉数据的第一时序特征上。

可选地，上述具体的融合操作可以是相加、加权相加等，具体此处不做限定。

步骤1105，融合第一空间特征与第二空间特征，以得到目标空间特征。

数据处理设备获取第一空间特征与第二空间特征之后，融合第一空间特征与第二空间特征，以得到目标空间特征。目标时序特征与目标空间特征用于实现计算机视觉任务。

将第二空间特征(例如音色)(Timbre)通过类似文本注意力(text-visualattention)等方式融合到第一空间特征上。

数据处理设备获取目标时序特征与目标空间特征之后，基于目标时序特征与目标空间特征实现计算机视觉任务。

可选地，数据处理设备基于目标时序特征与目标空间特征获取输入数据(即第一数据与第二数据)的特征，进而基于该特征实现计算机视觉任务。该计算机视觉任务包括：预测、搜索、推荐、归档、分类、检索、定位检测等任务。例如，将该特征输入解码器等神经网络以得到推理结果。该推理结果与计算机视觉任务相对应。

本实施例中的步骤可以没有时序关系，例如，步骤1102可以在步骤1103之后，也可以在步骤1103之前。又例如，步骤1104可以在步骤1105之后，也可以在步骤1105之前。

示例性的，以音频分解方法是Gate，视觉分解方法是Reshape为例，图11所示的流程可以如图12所示，将音频数据与视觉数据分别进行分解以得到第二时序特征、第一时序特征、第二空间特征以及第一空间特征。并将第一时序特征与第二时序特征输入时序注意力模块(Temporal Rolling Attention)，将第一空间特征与第二空间特征输入空间注意力模块(Spatial Attention)。其中，第一时序特征与第一空间特征可以是三维特征，对于第一时序特征来说，第一维为尺寸BHW，第二维为时刻T，第三维为通道L。对于第一空间特征来说，第一维为时刻BT，第二维为时刻尺寸HW，第三维为通道L。

本实施例中，通过对视觉信息和音频信息进行时-空解耦，然后分别在时序和空间维度进行多模态融合，高效地实现视频多模态细粒度协同学习。例如，图13所示，可以将音频数据与视频数据更好的进行融合。音频播放小提琴声时，视觉上播放拉小提琴的画面。音频播放钢琴声时，视觉上播放弹钢琴的画面。音频播放不同琴声交替时，视觉上播放乐器间隔演奏的画面。音频播放琴声停止->鼓掌声开始时，视觉上播放乐器演奏停止动作的画面。

进一步的，为了更加直观体现描述前述实施例的有益效果，下面以本申请实施例提供的方法建立模型，并将模型在K700数据集上进行测试。该测试结果如表1所示。

表1

其中，难样例与简单样例是相对概念。例如，难样例相较于简单样例来说，样例中的运动物体速度快，和/场景复杂(例如多个运动物体等)等。可以看出，通过图11所示实施例方法建立的模型，或者通过图11所示实施例+图3所示实施例建立的模型的准确率高于其他两种现有建模方法。且图11所示实施例+图3所示实施例建立的模型的准确率高于图11所示实施例方法建立的模型。即相比现有视频理解方法精度有明显提升(尤其在难样数据上，包括运动快、视频或音频内容丰富的类别数据)。并提供精准时序建模，视频帧采样个数可大幅度降低。另外，对于难样例的效果更加显著。

上面对本申请实施例中的数据处理方法进行了描述，下面对本申请实施例中的数据处理设备进行描述，请参阅图14，本申请实施例中数据处理设备的一个实施例包括：

获取单元1401，用于获取多个数据；

拆分单元1402，用于将多个数据中的每个数据拆分为N个数据块，N为大于1的正整数；

确定单元1403，用于确定至少一个数据块在多个数据中的观察方向；

确定单元1403，还用于基于观察方向确定多个数据中的数据块序列，数据块序列用于表示多个数据在时序上的特征。

可选地，确定单元1403，具体用于以多个训练数据作为模型的输入，在训练模型的过程中，通过调整初始观察方向使得损失函数的值小于阈值以得到观察方向，初始观察方向用于确定模型的输出，损失函数用于表示输出与多个数据的标签之间的差异。

可选地，确定单元1403，具体用于基于训练好的模型与至少一个数据块在多个数据中的位置信息，确定观察方向。

可选地，观察方向由至少一个数据块在三维坐标系中的第一角度与第二角度表示，三维坐标系的中心点与多个数据相关，三维坐标系为(W,H,T)，W表示数据宽度，H表示数据高度，T为时刻。

可选地，确定单元1403，具体用于确定观察方向在三维坐标系上的第一偏置与第二偏置，第一偏置为观察方向在W-T平面上不同时刻的偏置，第二偏置为观察方向在H-W平面上不同时刻的偏置；确定单元1403，具体用于基于第一偏置与第二偏置确定数据块序列。

可选地，多个数据为多帧图像数据或频谱图。

本实施例中，数据处理设备中各单元所执行的操作与前述图3至图10所示实施例中描述的类似，此处不再赘述。

本实施例中，确定单元1403通过确定至少一个数据块在多个数据中的观察方向，并基于该观察方向确定多个数据中的数据块序列，以实现该数据块序列可以表示多个数据在时序上的特征。尤其是对于多个数据是多帧图像的场景下，可以动态确定观察视角，进而使得基于该数据块序列获取的特征更能表示多个数据在时序上的特点，从而提升计算机视觉任务的准确性。

请参阅图15，本申请实施例中数据处理设备的一个实施例包括：

获取单元1501，用于获取第一数据与第二数据，第一数据与第二数据为不同模态的数据；

获取单元1501，还用于获取第一数据的第一时序特征与第一空间特征；

获取单元1501，还用于获取第二数据的第二时序特征与第二空间特征；

融合单元1502，用于融合第一时序特征与第二时序特征，以得到目标时序特征；

融合单元1502，还用于融合第一空间特征与第二空间特征，以得到目标空间特征，目标时序特征与目标空间特征用于实现计算机视觉任务。

可选地，第一数据与第二数据为模态数据中的任意两种，模态数据包括：视觉数据、音频数据、文本数据。

可选地，获取单元1501，具体用于基于视觉分解方法分解第一数据以得到第一时序特征与第一空间特征。

可选地，获取单元1501，具体用于基于音频分解方法分解第二数据以得到第二时序特征与第二空间特征，音频分解方法包括以下至少一项：门Gate，卷积神经网络。

可选地，第一时序特征包括观察方向确定的数据块序列，数据块序列用于表示第一数据在时序上的特征。

本实施例中，数据处理设备中各单元所执行的操作与前述图11至图13所示实施例中描述的类似，此处不再赘述。

本实施例中，获取单元1501通过对不同模态数据进行时-空解耦，然后通过融合单元1502分别在时序和空间维度进行多模态融合，高效地实现不同模态数据之间的细粒度协同学习。

参阅图16，本申请提供的另一种数据处理设备的结构示意图。该数据处理设备可以包括处理器1601、存储器1602和通信端口1603。该处理器1601、存储器1602和通信端口1603通过线路互联。其中，存储器1602中存储有程序指令和数据。

存储器1602中存储了前述图1至图13所示对应的实施方式中，由数据处理设备执行的步骤对应的程序指令以及数据。

处理器1601，用于执行前述图1至图13所示实施例中任一实施例所示的由数据处理设备执行的步骤。

通信端口1603可以用于进行数据的接收和发送，用于执行前述图1至图13所示实施例中任一实施例中与获取、发送、接收相关的步骤。

一种实现方式中，数据处理设备可以包括相对于图16更多或更少的部件，本申请对此仅仅是示例性说明，并不作限定。

本申请实施例还提供一种存储一个或多个计算机执行指令的计算机可读存储介质，当计算机执行指令被处理器执行时，该处理器执行如前述实施例中数据处理设备可能的实现方式所述的方法。

本申请实施例还提供一种存储一个或多个计算机的计算机程序产品(或称计算机程序)，当计算机程序产品被该处理器执行时，该处理器执行上述数据处理设备可能实现方式的方法。

本申请实施例还提供一种存储一个或多个计算机的计算机程序产品，当计算机程序产品被该处理器执行时，该处理器执行上述数据处理设备可能实现方式的方法。

本申请实施例还提供了一种芯片***，该芯片***包括至少一个处理器，用于支持终端设备实现上述数据处理设备可能的实现方式中所涉及的功能。可选的，所述芯片***还包括接口电路，所述接口电路为所述至少一个处理器提供程序指令和/或数据。在一种可能的设计中，该芯片***还可以包括存储器，存储器，用于保存该终端设备必要的程序指令和数据。该芯片***，可以由芯片构成，也可以包含芯片和其他分立器件。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的***，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的***，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，read-onlymemory)、随机存取存储器(RAM，random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。

Claims

1.一种数据处理方法，其特征在于，所述方法包括：

获取多个数据；

将所述多个数据中的每个数据拆分为N个数据块，N为大于1的正整数；

确定至少一个数据块在所述多个数据中的观察方向；

基于所述观察方向确定所述多个数据中的数据块序列，所述数据块序列用于表示所述多个数据在时序上的特征。

2.根据权利要求1所述的方法，其特征在于，所述确定至少一个数据块在所述多个数据中的观察方向，包括：

以所述多个训练数据作为模型的输入，在训练所述模型的过程中，通过调整初始观察方向使得损失函数的值小于阈值以得到所述观察方向，所述初始观察方向用于确定所述模型的输出，所述损失函数用于表示所述输出与所述多个训练数据的标签之间的差异。

3.根据权利要求1所述的方法，其特征在于，所述确定至少一个数据块在所述多个数据中的观察方向，包括：

基于训练好的模型与所述至少一个数据块在所述多个数据中的位置信息，确定所述观察方向。

4.根据权利要求1至3中任一项所述的方法，其特征在于，所述观察方向由所述至少一个数据块在三维坐标系中的第一角度与第二角度表示，所述三维坐标系的中心点与所述多个数据相关，所述三维坐标系为(W,H,T)，W表示数据宽度，H表示数据高度，T为时刻。

5.根据权利要求4所述的方法，其特征在于，所述基于所述观察方向确定所述多个数据中的数据块序列，包括：

确定所述观察方向在所述三维坐标系上的第一偏置与第二偏置，所述第一偏置为所述观察方向在W-T平面上不同时刻的偏置，所述第二偏置为所述观察方向在H-W平面上不同时刻的偏置；

基于所述第一偏置与所述第二偏置确定所述数据块序列。

6.根据权利要求1至5中任一项所述的方法，其特征在于，所述多个数据为多帧图像数据或频谱图。

7.一种数据处理方法，其特征在于，所述方法包括：

获取第一数据与第二数据，所述第一数据与所述第二数据为不同模态的数据；

获取所述第一数据的第一时序特征与第一空间特征；

获取所述第二数据的第二时序特征与第二空间特征；

融合所述第一时序特征与所述第二时序特征，以得到目标时序特征；

融合所述第一空间特征与所述第二空间特征，以得到目标空间特征，所述目标时序特征与所述目标空间特征用于实现计算机视觉任务。

8.根据权利要求7所述的方法，其特征在于，所述第一数据与所述第二数据为模态数据中的任意两种，所述模态数据包括：视觉数据、音频数据、文本数据。

9.根据权利要求7或8所述的方法，其特征在于，所述获取所述第一数据的第一时序特征与第一空间特征，包括：

基于视觉分解方法分解所述第一数据以得到所述第一时序特征与所述第一空间特征。

10.根据权利要求7至9中任一项所述的方法，其特征在于，所述获取所述第二数据的第二时序特征与第二空间特征，包括：

基于音频分解方法分解所述第二数据以得到所述第二时序特征与所述第二空间特征，所述音频分解方法包括以下至少一项：门Gate，卷积神经网络。

11.根据权利要求10所述的方法，其特征在于，所述第一时序特征包括观察方向确定的数据块序列，所述数据块序列用于表示所述第一数据在时序上的特征。

12.一种数据处理设备，其特征在于，所述数据处理设备包括：

获取单元，用于获取多个数据；

拆分单元，用于将所述多个数据中的每个数据拆分为N个数据块，N为大于1的正整数；

确定单元，用于确定至少一个数据块在所述多个数据中的观察方向；

所述确定单元，还用于基于所述观察方向确定所述多个数据中的数据块序列，所述数据块序列用于表示所述多个数据在时序上的特征。

13.根据权利要求12所述的数据处理设备，其特征在于，所述确定单元，具体用于以所述多个训练数据作为模型的输入，在训练所述模型的过程中，通过调整初始观察方向使得损失函数的值小于阈值以得到所述观察方向，所述初始观察方向用于确定所述模型的输出，所述损失函数用于表示所述输出与所述多个数据的标签之间的差异。

14.根据权利要求12所述的数据处理设备，其特征在于，所述确定单元，具体用于基于训练好的模型与所述至少一个数据块在所述多个数据中的位置信息，确定所述观察方向。

15.根据权利要求12至14中任一项所述的数据处理设备，其特征在于，所述观察方向由所述至少一个数据块在三维坐标系中的第一角度与第二角度表示，所述三维坐标系的中心点与所述多个数据相关，所述三维坐标系为(W,H,T)，W表示数据宽度，H表示数据高度，T为时刻。

16.根据权利要求15所述的数据处理设备，其特征在于，所述确定单元，具体用于确定所述观察方向在所述三维坐标系上的第一偏置与第二偏置，所述第一偏置为所述观察方向在W-T平面上不同时刻的偏置，所述第二偏置为所述观察方向在H-W平面上不同时刻的偏置；

所述确定单元，具体用于基于所述第一偏置与所述第二偏置确定所述数据块序列。

17.根据权利要求12至16中任一项所述的数据处理设备，其特征在于，所述多个数据为多帧图像数据或频谱图。

18.一种数据处理设备，其特征在于，所述数据处理设备包括：

获取单元，用于获取第一数据与第二数据，所述第一数据与所述第二数据为不同模态的数据；

所述获取单元，还用于获取所述第一数据的第一时序特征与第一空间特征；

所述获取单元，还用于获取所述第二数据的第二时序特征与第二空间特征；

融合单元，用于融合所述第一时序特征与所述第二时序特征，以得到目标时序特征；

所述融合单元，还用于融合所述第一空间特征与所述第二空间特征，以得到目标空间特征，所述目标时序特征与所述目标空间特征用于实现计算机视觉任务。

19.根据权利要求18所述的数据处理设备，其特征在于，所述第一数据与所述第二数据为模态数据中的任意两种，所述模态数据包括：视觉数据、音频数据、文本数据。

20.根据权利要求18或19所述的数据处理设备，其特征在于，所述获取单元，具体用于基于视觉分解方法分解所述第一数据以得到所述第一时序特征与所述第一空间特征。

21.根据权利要求18至20中任一项所述的数据处理设备，其特征在于，所述获取单元，具体用于基于音频分解方法分解所述第二数据以得到所述第二时序特征与所述第二空间特征，所述音频分解方法包括以下至少一项：门Gate，卷积神经网络。

22.根据权利要求21所述的数据处理设备，其特征在于，所述第一时序特征包括观察方向确定的数据块序列，所述数据块序列用于表示所述第一数据在时序上的特征。

23.一种数据处理设备，其特征在于，包括：处理器，所述处理器与存储器耦合，所述存储器用于存储程序或指令，当所述程序或指令被所述处理器执行时，使得所述数据处理设备执行如权利要求1至11中任一项所述的方法。

24.一种计算机存储介质，其特征在于，包括计算机指令，当所述计算机指令在终端设备上运行时，使得所述数据处理设备执行如权利要求1至11中任一项所述的方法。

25.一种计算机程序产品，其特征在于，当所述计算机程序产品在计算机上运行时，使得所述计算机执行如权利要求1至11中任一项所述的方法。