CN108509830A

CN108509830A - 一种视频数据处理方法及设备

Info

Publication number: CN108509830A
Application number: CN201710112989.9A
Authority: CN
Inventors: 王亮; 刘传建; 王靓伟
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2017-02-28
Filing date: 2017-02-28
Publication date: 2018-09-07
Anticipated expiration: 2037-02-28
Also published as: CN108509830B

Abstract

本申请提供了一种视频数据处理方法及设备，用于提高深度学习时提取视频数据的时间信息的精度。该方法包括：计算视频数据的时间信息分量；其中，所述视频数据包括至少两个视频帧，所述时间信息分量用于表征所述至少两个视频帧中每个视频帧所包含的像素点在时间维度上的分布情况；根据所述时间信息分量，确定所述视频数据的时间特征信息；其中，所述时间特征信息用于表征所述至少两个视频帧所包含的像素点在时间维度上的变化情况。

Description

一种视频数据处理方法及设备

技术领域

本申请涉及计算机领域，尤其涉及一种视频数据处理方法及设备。

背景技术

基于视频的人体行为识别已成为计算机视觉领域中备受关注的研究方向，其被广泛应用于智能视频监控、人机交互、虚拟现实以及医学/体育运动姿态分析等领域。人体行为识别主要是指通过计算机对传感器采集的原始图像或图像序列数据进行处理和分析，学习并理解其中人体的动作或行为，建立底层视觉特征与动作类别等高层语义信息之间的对应关系，从而可以根据对应关系识别视频中人体相应的行为，例如偷盗、打架等。

目前，对视频的人体行为识别主要是通过对视频进行深度学习来实现的，深度学习是指通过组合底层特征形成更加抽象的高层表示属性类别或特征，以发现数据的分布特征。而针对视频的深度学习主要是基于二维(2Dimensional，2D)卷积神经网络(Convolutional Neural Network，CNN)来实现的，它利用空间相对关系减少参数数目来提取视频图像相应的特征信息，对视频包括的视频图像进行识别，并对识别出的动作进行分类，来确定相应的行为。

现针对视频数据的深度学***均，获得最终结果。其中，空间网络把单个的彩***帧传输到一个2D CNN中进行处理，得到单帧的特征信息。时间网络是使用视频数据包括的视频帧的光流信息，其将视频数据的多个光流灰度视频帧输入到一个2D CNN进行处理，获得相应的特征信息，进而将两个网络的处理结果进行综合分析来确定相应的视频数据的动作模式。

但在实际应用中，由于空间网络仅对单个的视频帧进行分析，完全丢失了时间信息，同时，时间网络使用的是视频图像的光流信息，其保留的时间信息较少，故基于两个网络得到的特征信息中的时间信息较为局限，无法完整地体现视频数据在时间上的变化情况，导致提取的视频数据的时间信息的精度较低。

发明内容

本申请提供一种视频数据处理方法及设备，用于解决在深度学习时获取视频数据的时间信息的精度较低的技术问题。

第一方面，提供一种视频数据处理方法，该方法由视频数据处理设备执行。该方法包括：视频数据处理设备计算视频数据的时间信息分量，视频数据包括至少两个视频帧，时间信息分量用于表征至少两个视频帧所包含的像素点时间上的分布情况，进而视频数据处理设备根据所述时间信息分量，确定所述视频数据的时间特征信息，时间特征信息用于表征至少两个视频帧所包含的像素点随时间的变化情况。

本申请中视频数据处理设备通过计算确定视频数据的时间信息分量获得视频数据的时间特征信息，以表征视频数据的至少两个视频帧所包含的像素点随时间变化的情况，这些随时间变化的信息通常为与动作相关的信息，故提取的时间特征信息可完整地反映视频数据中至少两个视频帧所包含的像素点随时间的变化情况，精度较高。

结合第一方面，在第一方面的第一种可能的实现方式中，视频数据处理设备配置与信息参数一一对应的至少两个生成元，至少两个生成元相互正交，信息参数为与视频数据的时间信息、空间信息或颜色信息相关联的参数，并基于至少两个生成元，将视频数据进行多维卷积操作，得到多维解析信号，多维解析信号为超复数信号；进而，提取多维解析信号中第一信号分量的特征部分；其中，指示第一信号分量的虚数由第一生成元和特征部分构成，第一生成元为指示第一信号分量的虚数的虚数单位，特征部分为指示第一信号分量的虚数的虚部，第一生成元为至少两个生成元中与时间信息对应的生成元。

本申请中，视频数据处理设备通过为视频数据的时间信息及空间信息等相关联的信息参数配置相应的至少两个生成元来计算获得视频数据的多维解析信号，并根据与时间信息对应的第一生成元定位多维解析信号中由第一生成元和特征部分构成的第一信号分量，从而提权出第一信号分量的特征部分，特征部分即为与视频数据的时间信息相关的部分，故通过配置的生成元能够较快速地在多维解析信号中定位并提取出与时间信息相关的时间信息分量，操作较为便捷，有助于提高视频数据处理设备处理视频数据的效率和准确性。

结合第一方面，在第一方面的第二种可能的实现方式中，视频数据处理设备获得视频数据的频域信号，该频域信号位于多个挂限中，对相邻的至少两个卦限中的频域信号进行处理，获得所述相邻的至少两个卦限的每个卦限的频域信号的单象限复数解析信号，该单象限复数解析信号为每个卦限的频域信号经处理后在时域内的信号，相邻的至少两个卦限中的频域信号表征至少两个视频帧所包含的像素点在频域上的变化情况，单象限复数解析信号用于指示至少两个视频帧所包含的像素点在某一空间方向上的变化情况，所述某一空间方向为空间中的任意一个方向，进而视频数据处理设备根据单象限复数解析信号的虚部构建视频数据的时间信息分量。

本申请中，视频数据处理设备通过获取视频数据在频域内多个挂限中的频域信号，并对位于相邻的至少两个卦限中的频域信号进行处理，获得至少两个卦限中每个卦限的频域信号经处理后在时域内的单象限复数解析信号，故获得的单象限复数解析信号具有一定的时域特性，能够表征视频数据的时间信息，因此根据单象限复数解析信号的虚部构建的时间信息分量能够完整地表征视频数据的时间信息，计算方式快捷简单，有助于提高视频数据处理设备的数据处理效率。

结合第一方面或第一方面的第一种或第二种可能实现的方式，在第一方面的第三种可能实现的方式中，视频数据处理设备确定至少两个视频帧所包含的像素点中具有相同空间坐标的第一像素点，并将第一像素点的颜色值进行叠加，获得用于表征视频数据的时间特征信息的第一投影图像。

本申请中，视频数据处理设备通过将至少两个视频帧所包含的像素点的颜色值按照空间坐标进行叠加，使得每个视频帧中的像素点都被投影到一个二维的投影图像中，从而实现将提取的视频数据的时间特征信息通过二维图像进行呈现，便于后期通过二维图像实现对视频数据的时间特征信息的应用，如可直接将投影图像应用于2D CNN，有助于提高对视频数据的时间特征信息的应用的灵活性。

结合第一方面或第一方面的第一种至第二种可能实现的方式，在第一方面的第四种可能的实现方式中，若至少两个视频帧所包含的像素点的颜色由三个颜色通道的取值共同确定，即视频数据为彩***数据时，则在计算视频数据的时间信息分量之前，视频数据处理设备可以设置至少两个视频数帧所包含的像素点的三个颜色通道的取值，并根据三个颜色通道的取值获得视频数据的至少两个分量视频数据，其中，每个分量视频数据包括至少两个视频帧，且每个分量视频数据所包含的像素点的三个颜色通道的取值包括一个有效取值和两个无效取值，那么，在计算视频数据的时间信息分量时，即为计算至少两个分量视频数据中每个分量视频数据的时间信息分量。

本申请中，视频数据处理设备在处理彩***数据时，通过获得视频数据的多个分量视频数据，进而对每个分量视频数据分别进行处理，而针对分量视频数据的难度要低于对视频数据进行整体处理时的难度，故降低了视频数据设备在处理视频数据的复杂性。

结合第一方面的第四种可能的实现方式中，在第一方面的第五种可能的实现方式中，视频数据处理设备通过确定每个分量视频数据包括的至少两个视频帧所包括的像素点中具有相同空间坐标的第二像素点，将第二像素点的颜色值进行叠加，获得分量投影图像，该分量投影图像用于表征相应的分量视频数据的时间特征信息。进而，视频数据处理设备通过确定至少两个分量视频数据的分量投影图像所包含的像素点中具有相同空间坐标的第三像素点，并将第三像素点的颜色值进行叠加，获得用于表征视频数据的时间特征信息的第二投影图像，该第二投影图像指示了视频数据的至少两个视频帧所包含的像素点在三个颜色通道中随时间的变化情况。

本申请中，视频数据处理设备通过获得每个分量视频数据的表征时间特征信息的投影图像，故用户可以通过分量视频数据的投影图像快速地得知至少两个视频帧所包含的像素点在三个颜色通道中随时间的变化情况，便于根据需要对不同颜色通道的数据进行观察，灵活性较强。并且，视频数据处理设备通过将各分量视频数据的分量投影图像按照像素点的空间坐标进行叠加，获得视频数据的第二投影图像，第二投影图像可全面地呈现出彩***数据包括的像素点在各颜色通道中随时间变化情况，准确性较高。

第二方面，提供一种视频数据处理设备，该视频数据处理设备包括计算模块和确定模块，视频数据处理设备所包括的模块用于执行第一方面中的视频数据处理方法。

第三方面，提供一种视频数据处理设备，在一个可能的设计中，该视频数据处理设备的结构中包括存储器和处理器，该处理器被配置为支持视频数据处理设备执行第一方面中的视频数据处理方法中相应的功能。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简要介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为现有技术中卷积神经网络进行图像处理的示意图；

图2为本申请提供的视频数据处理方法的流程图；

图3为本申请提供的视频数据的频谱信号所处卦限的示意图；

图4为本申请提供的视频数据的投影图像的示意图；

图5为本申请提供的视频数据处理设备的结构示意图；

图6为本申请提供的视频数据处理设备的结构框图。

具体实施方式

首先，对本申请中的部分用语进行解释说明，以便于本领域技术人员理解。

1)视频数据处理设备，其可以包括用于进行数据处理的数据处理***，如人体行为识别***，那么，通过视频数据处理设备可以对输入的视频数据进行人体行为识别，以确定视频数据相应的动作模式。在实际应用中，该视频数据处理设备可以通过服务器或终端设备实现。

其中，服务器中可以安装相应的数据处理***，如行为识别***等，其可以对输入服务器的视频数据进行处理。

终端设备是指向用户提供语音和/或数据连通性的设备，例如可以包括具有无线连接功能的手持式设备、穿戴式设备或连接到无线调制解调器的处理设备。终端设备可以经无线接入网(Radio Access Network，RAN)与核心网进行通信，与RAN交换语音和/或数据。该终端设备可以包括用户设备(User Equipment，UE)、无线终端设备、移动终端设备、订户单元(Subscriber Unit)、订户站(Subscriber Station)，移动站(Mobile Station)、移动台(Mobile)、远程站(Remote Station)、接入点(Access Point，AP)、远程终端设备(Remote Terminal)、接入终端设备(Access Terminal)、用户终端设备(User Terminal)、用户代理(User Agent)、或用户装备(User Device)等，本申请对此不作具体限制。

在实际应用中，视频数据处理设备还可以包括采集装置，例如摄像机或摄像头等。采集装置可以作为功能模块设置在视频数据处理设备中。或者，若视频处理设备自身不包括采集装置，则外部的采集装置也可以与视频数据处理设备通信，以将采集的视频数据传输给视频数据处理设备进行处理。

2)本申请中，“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，字符“/”，如无特殊说明，一般表示前后关联对象是一种“或”的关系。

下面介绍本申请所应用的神经网络。在本文中，重点介绍CNN，实际上多种神经网络都适用于本申请所提供的技术方案。

CNN是人工神经网络的一种，它是一种特殊的深层的神经网络模型，它包括卷积层和池化层，池化层的作用就是简化卷积层里输出的信息，减少数据维度，降低计算开销，控制过拟合。

CNN包括多层神经网络，二维CNN的每个卷积层由多个二维平面组成，且每个二维平面由多个独立的神经元组成。CNN能够把图像的底层特征表达一层层的抽象到高层特征表示。例如，对于像素级特征表示的图像，在第一层(底层)学习后可以得到梯度级图像表示，再上一层学习后得到目标部分级图像表示，再上一层学习后得到整个目标结构模型特征。

在实际应用中，底层的输入层可以直接使用原图像作为输入，进而通过三个可训练的数字滤波器和可加偏置对输入图像进行卷积，卷积后到达CNN的特征提取层(C层)，网络中的每一个特征提取层(C层)都紧跟着一个二次提取的计算层(S层)，这种特有的两次特征提取结构使网络在识别时对输入样本有较高的畸变容忍能力。具体C层和S层的个数不确定，依据具体案例而定，最后一个S层即完成对原始数据的特征提取，通过将S层的特征数据进行向量化，然后连接到相应分类器，输出特征图。

例如，如图1所示，若在输入层输入一输入图像，在对输入图像进行卷积后，将在底层C1层产生三个特征映射图(每个特征图都可看为是对输入图像的抽象)，将每个特征映射图包括的像素点中相邻的四个像素点的值进行求和，并对求和结果加权值及偏置，获得各特征映射图处理后的像素点的值。进而，将获得的各特征映射图的像素点的值通过Sigmoid函数得到三个S2层的特征映射图，通过对S2层的特征映射图进行过滤波，可得到C3层的特征映射图，这个层级结构再和C1一样产生S4，在S4中特征映射图的颜色值被光栅化，并连接成一个向量输入到神经网络，得到输入图像的特征信息。

下面结合说明书附图对本申请提供的技术方案作进一步详细描述。

如图2所示，本申请提供一种视频数据处理方法，该方法可通过视频数据处理设备实现，该方法的流程描述如下。

S11：计算视频数据的时间信息分量；其中，视频数据包括至少两个视频帧，时间信息分量用于表征至少两个视频帧所包含的像素点在时间维度上的分布情况；

S12：根据时间信息分量，确定视频数据的时间特征信息；其中，时间特征信息用于表征至少两个视频帧所包含的像素点在时间维度上的变化情况。

在具体实施过程中，视频数据可储存在视频数据处理设备中，其包括的至少两个视频帧是视频数据中连续的多个视频帧，多个视频帧之间具有一定的排列顺序，该排列顺序可以指示至少两个视频帧中每个视频帧在视频数据中相应的时刻，可以理解为，多个视频帧是按照时间的先后顺序排列的。

例如，一段包括M个视频帧的视频数据，M为大于等于2的整数，M个视频帧按时间先后顺序排列，若M个视频帧处于时间段[t1，t2]内，则[t1，t2]时间段可以包括与M个视频帧相应的M个时刻，如t₁、t₂……t_M，则每个时刻可以作为相应视频帧的索引，根据该索引即可得知相应的视频帧的时刻及在视频数据中所处的排列位置。

视频数据可以是视频数据处理设备通过采集装置获取的，在前面介绍了，该采集装置可能位于视频数据处理设备中，或者也可能与视频数据处理设备是两个独立的设备。例如采集装置为视频数据处理设备中的摄像头，通过该摄像头可以采集视频数据。或者，视频数据也可以是其它设备传输给视频数据处理设备的数据，等等，本申请对于视频数据的来源不作具体的限制。

本申请中，所提到的至少两个视频帧所包含的像素点是指视频数据所包括的全部视频帧的像素点。视频数据设备在对视频数据进行处理时，通常将其看作多维信号，至少两个视频帧所包含的像素点中每个像素点都具有相应的维度，例如包括时间维度，空间维度以及亮度维度等。其中，时间维度可以用于指示像素点在时间轴(t)上的变化，空间维度包括一维、二维或三维，等等。例如，对于一维的空间维度来说，可以表示为x或y，其中，x是指像素点在水平方向上的信息和y是指像素点竖直方向上的信息；或者，对于二维的空间维度来说，其可以表示为(x，y)，可用于指示像素点在x轴和y轴上的信息，亮度维度用于指示像素点的亮度信息。

在实际应用中，包括至少两个视频帧的视频数据中，任意两个视频帧之间所包含的像素点的数量相同，只是各自所包含的像素点的颜色值可能有所差异。一般地，视频数据包括的像素点的颜色由RGB的三个颜色通道的取值共同确定，例如一个像素点的颜色可以用RGB表示，其中，R代表红色(Red)，R通道指三个颜色通道中的红色通道，G代表绿色(Green)，G通道指三个颜色通道中的绿色通道，B代表蓝色(Blue)，B通道指三个颜色通道中的蓝色通道。

由于在数学上，像素点的颜色的彩色分量也可以作为一个维度，因此，可将视频数据看作四维信号，其包括的四个维度分别可以是水平方向(x)，竖直方向(y)，彩色分量(z)和时间(t)，其中彩色分量可以是指像素点的RGB，此时，视频数据即为四维信号，可以表示为f(x，y，z，t)。而对于一个彩***数据来说，其包括的每个视频帧均可以是一个RGB图像，则z＝3，此时可以认为视频数据包括的至少两个视频帧中每个视频帧均为彩色图像。

或者，若视频数据包括的至少两个视频帧均为经过灰度变换处理的图像，例如通过浮点算法，整数算法或平均值算法等灰度变换算法对至少两个视频帧中的每个视频帧的像素点进行处理，将每个视频帧转换为灰度图像，即将视频数据中的像素点的颜色由RGB(R，G，B)转换为Gray，其中Gray的值为通过前述任一灰度变换算法计算得到的灰度值。那么，视频数据包括的至少两个视频帧中每个视频帧均为灰度图像，可称视频数据为灰度视频数据，则视频数据包括的像素点包括的维度可以是水平方向(x)，竖直方向(y)和时间(t)这三个维度，此时，视频数据即为三维信号，可以表示为f(x，y，t)。

本申请中，输入视频数据处理设备进行处理的视频数据既可以是彩***数据，也可以是灰度视频数据。视频数据处理设备获得视频数据后，即可计算视频数据的时间信息分量，以得知至少两个视频帧所包含的像素点在时间上的分布情况。

在实际算法过程中，包括但不仅限于通过以下两种方法来计算时间信息分量。

方法一：

视频数据处理设备利用几何代数计算视频数据的多维解析信号，通过多维解析信号可以将视频数据的至少两个视频帧所包含的像素点在各维度上的信息分离出来，以便后期可根据需要对相应维度上的信息进行操作，有助于简化计算过程。例如，多维解析信号中包括时间信息分量可以表征视频数据的至少两个视频帧所包含的像素点在时间维度上的分布信息，因此可以通过计算多维解析信号来将视频数据中至少两个视频帧所包含的像素点在时间维度上的信息分离出来，便可得知视频数据包括的像素点随时间的变化情况。

视频数据处理设备在计算视频数据的多维解析信号时，可以根据应用的需求来配置与视频数据的信息参数一一对应的至少两个生成元(generator)，至少两个生成元中任意两个生成元相互正交。

其中，视频数据的信息参数可以是指视频数据的时间信息、空间信息或颜色信息相关联的参数。通常来说，视频数据的各信息参数与视频数据的至少两个视频帧所包含的像素点的维度上的信息的参数相关，例如视频数据的时间信息相关联的参数可以是指至少两个视频帧所包含的像素点在时间维度上的信息关联的参数，如时间参数。而视频数据的空间信息相关联的参数可以是指至少两个视频帧所包含的像素点在空间维度上信息关联的参数，如在x方向上的分布参数或y方向上的分布参数。以及，视频数据的颜色信息相关联的参数可以是指至少两个视频帧所包含的像素点在彩色分量维度上信息关联的参数，如RGB参数等。即可以认为本申请中所指的信息参数与视频数据中至少两个视频帧所包含的像素点的维度相应。

因此，本申请中，在视频数据处理设备为信息参数中与时间信息相关联的参数配置对应的生成元时，可以认为是为像素点的时间维度配置对应的生成元，如第一生成元，以及，在为与空间信息相关联的参数配置生成元时，可以认为是为像素点的时间维度配置对应的生成元，如第二生成元。当然，在实际计算过程中，视频数据处理设备还可以为其它信息参数配置对应的生成元，此处对配置的生成元的数量不作具体限制。

例如，若输入的视频数据处理设备的视频数据为一个三维信号，如f(x，y，t)，配置的至少两个生成元可以包括e₁，e₂，e₃。其中，e₁对应于空间中水平方向x上信息关联的参数，e₂对应于空间中竖直方向y上信息关联的参数，e₃对应于时间t上信息关联的参数，e₃即为第一生成元，且e₁，e₂，e₃相互正交，此时表明视频数据的至少两个视频帧所包含的像素点均位于三维坐标系中。

进而，视频数据处理设备可以根据配置的至少两个生成元对视频数据进行多维卷积操作，获得视频数据的多维解析信号。

本申请中，在计算视频数据的多维解析信号时，若输入的视频数据为三维信号，如f(x，y，t)，并选用几何代数中的三维克利福德代数为例来计算视频数据的多维解析信号，并提取时间信息分量的过程。其中，计算所得的多维解析信号为超复数信号，通过下面的公式(1)来定义视频数据的多维解析信号，用ψ(x,y,t)表示多维解析信号，则ψ(x,y,t)可定义为：

公式(1)中，“***”代表三维卷积计算，e₁、e₂、e₃是3D克利福德代数虚数单位的三个生成元，其中，e₁对应于空间中x方向上信息的参数，e₂对应于空间信息中x方向上信息的参数对应于空间中y方向上信息的参数，e₃对应于时间信息的t方向上信息关联的参数的第一生成元，σ(·)是狄拉克函数。

通过卷积计算，使原始信号(即输入的视频数据)特征增强，同时降低噪音。

由公式(1)中的展开式可知，多维解析信号ψ(x,y,t)把输入信息(即视频数据)分成了8个信号分量，即公式(1)中8个三维卷积部分，即多维解析信号中包括多个信号分量，每一个信号分量的三维卷积定义均是希尔伯特全变换H{f(x,y,t)}或者部分变换H_(·){f(x,y,t)}的表达形式，希尔伯特变换定义如下：

由公式(2)可知，3D超复数克利福德信号的8个信号分量中每个信号分量的虚数由相应虚数单位和虚部构成，例如由公式(2)可知多维解析信号的8个信号分量的虚数单位分别为1，e₁，e₂，e₃，e₂e₃.，e₃.e₁，e₁e₂，-e₁e₂e₃，每个信号分量的虚部可以是指示相应虚数单位关联的生成元所对应的信息参数的特征部分。本申请中仅是以3D超复数克利福德代数为例说明算法的过程，在实际应用中，不同代数算法会得出不同的虚数单位，但都适用于本申请的方案设计。

为了简便算法，本申请中可以使用如下定义：

那么，根据公式(2)和公式(3)，可以得到简化后的ψ(x,y,t)的定义，即：

公式(4)中，H_(·)表示希尔伯特变换。

得到公式(4)后，可以确定多维解析信号包括的多个信号分量中虚数的虚数单位为与时间信息的参数对应的第一生成元e₃的第一信号分量，即e₃H_t{f(x,y,t)}，则第一信号分量的特征部分即为H_t{f(x,y,t)}，H_t{f(x,y,t)}表征输入的视频数据f(x，y，t)的时间信息。

因此，通过计算视频的多维解析信号，可将原始视频数据分离成8个信号分量，进而根据第一生成元从多个信号分量中快速、准确地定位到虚数的虚数单位为与时间信息对应的第一生成元的第一信号分量，并提取第一信号分量虚数的虚部作为特征视频数据的时间信息分量的特征部分，有助于提高计算时间信息分量的精准度。

方法二：

基于方法一，可知，视频数据的时间信息分量即为希尔伯特变换，方法一中超复数信号的卷积计算形式用3D克利福德代数定义下的傅利叶变换非常复杂，因此，在本方法中这一步我们用现有的软件工具，也就是利用现有的傅里叶变换(基于虚数“1+i”的形式)来计算希尔伯特变换H_t{f(x,y,t)}，获得视频数据的时间信息分量。

首先，视频数据处理设备获得视频数据的频域信号，该频域信号位于多个卦限中。通常来说，在三维空间坐标系中，例如o-xyt，如图3所示，三个坐标面把空间分成八个部分，每个部分叫做一个卦限，含有x轴正半轴、y轴正半轴、t轴正半轴的卦限称为第I卦限，其他第II、III、IV卦限，在xot面的上方，按逆时针方向确定，在第I、II、III、IV卦限下面的部分分别称为第V、VI、VII、VIII卦限。

然后，视频数据处理设备通过对相邻的至少两个卦限中的频域信号进行处理，即可获得相邻的至少两个卦限的每个卦限的频域信号的单象限复数解析信号，该单象限复数解析信号为每个卦限的频域信号经处理后在时域内的信号。本申请中，若视频数据的频域信号分布在三维空间坐标系中的8个卦限内，则视频数据处理可以通过对任意相邻的四个卦限内的频域信号进行相应的处理即可还原出原始数据。

视频数据处理设备对四个卦限中的频域信号的处理可以是对每个卦限的频域信号进行傅利叶逆变换，获得每个卦限中的频域信号经处理后处于时域内的单象限复数解析信号，也称单象限滤波复数解析信号，共获得四个单象限复数解析信号。进而，根据获得的四个单象限复数解析信号中每个单象限复数解析信号的虚部即可构建视频数据的时间信息分量，以表征至少两个视频帧所包含的像素点在时间维度上的变化情况。其中，视频数据位于四个卦限中的频域信号可表征视频数据包括的像素点在频域上的变化情况，每个单象限解析信号能够指示视频数据包括的像素点在某一空间方向上的变化情况，该某一个空间方向是指空间中任一方向，如x方向、y方向或时间轴(t)方向等，甚至可以是不同于x、y和t的其它方向，因此通过多个单象限复数解析信号之间的相关计算能够构建出用于指示像素点在时间t方向上的变化信息的时间信息分量。

例如，视频数据处理设备可以对输入的视频数据f(x,y,t)进行傅利叶变换，获得视频数据的频域信号后，可利用函数sign(u)构建滤波器，以分别获取频域里相邻的任意四个卦限的频域信号，此处以选取的相邻的四个卦限为第I卦限、第III卦限、第V卦限和第VII为例，接着可对每个卦限的频域信号进行傅利叶逆变换处理，获得四个单象限滤波复数解析信号可以分别表示为ψ₁(x,y,t,)，ψ₃(x,y,t,)，ψ₅(x,y,t,)，ψ₇(x,y,t,)。

进而，根据已有的复数解析信号计算技术，利用这四个单象限滤波复数信号的虚部即可构建H_t{f(x,y,t)}的表达式，即：

公式(5)中，Im(·)指复数a+ib的虚部b，而ψ₁，ψ₃，ψ₅，ψ₇是根据f(x,y,t)相邻的四个相邻卦限的频域信号分别获得的四个单象限滤波复数解析信号。

方法二的计算方式，其一方面其避免了方式一中所采用的三维卷积计算和复杂的3D克利福德代数的傅利叶变换的复杂计算，另一方面，其只需要对3D视频数据做一次简单傅利叶正变换和四次傅里叶逆变换，计算过程较为便捷，提高了视频数据的处理效率。

这里，H_t{f(x,y,t)}即为视频数据的时间信息分量，也可以称为3D视频时间信息，其包含了输入信号，即视频数据的时间信息。

本申请中，视频数据处理设备在通过上述任一方法获得时间信息分量后，可根据时间信息分量确定视频数据的时间特征信息。此时，视频数据处理设备可以确定至少两个视频帧中每个视频帧包括的像素点的空间坐标，并确定至少两个视频帧所包含的全部像素点中具有相同空间坐标的像素点，本申请中将其称为第一像素点。在实际应用中，同一视频数据包括的多个视频帧中，每个视频帧所包含的像素点的数量相同，且像素点在像素坐标系中的排列方式相同，故可以认为至少两个视频帧中，相邻的两个视频帧中的像素点的空间坐标是一一对应的。因此，若视频数据包含M个视频帧，则M个视频帧所包含的像素点中对应于同一空间坐标的第一像素点有M个，进而将确定的第一像素点的颜色值进行叠加，即可获得视频数据的第一投影图像，该第一投影图像用于表征时间特征信息。

即视频数据处理设备在提取了视频数据的时间信息分量后，可将视频数据中至少两个视频帧中的时间轴信息的累加从而获得表征时间特征信息的二维图像。例如，若得到的视频数据f(x,y,t)的时间信息分量为H_t{f(x,y,t)}，且f(x,y,t)所处的时间段为[t1，t2]，则在确定H_t{f(x,y,t)}后，通过将视频数据f(x,y,t)在t轴上进行累加，即将包含时间信息分量的视频数据的投影到一个2D平面(如xy平面)，便可获得表征该视频数据的时间特征信息的第一投影图像。那么，定义在时间段[t1，t2]内的视频数据的时间特征信息为TI_t ^r(x,y)，则有：

结合公式(5)和公式(6)可得到：

由于在实际的离散计算中，t是视频帧的索引数，因此计算包括M个视频帧的视频数据的时间特征信息，即获得第一投影图像，故相应的公式可表示为：

则获取的第一投影图像呈现视频数据包括的像素点随时间的变化情况，例如当视频数据为记录用户的某肢体运动的视频数据，则通过第一投影图像可以完整地呈现出该肢体动作在时间上的变化过程。

在本申请另一实施例中，若输入视频数据处理设备的视频数据为彩***数据，那么，视频数据处理设备可在S11之前，对彩***数据进行处理，获得彩***数据的至少两个分量视频数据，每个分量视频数据均为灰度视频数据，从而在S11中对每个分量视频数据进行处理，或者，视频数据处理设备也可以直接对彩***数据进行处理。

其中，视频数据处理设备获取视频数据的至少两个分量视频数据的过程可以是：对视频数据包括的至少两个视频帧所包含的像素点的三个颜色通道的取值进行设置。通常来说，RGB的每个颜色通道的取值范围是[0，255]，且颜色通道的取值为整数。视频数据处理设备通过将视频数据包括的像素点的三个颜色通道的中任意两个颜色通道的取值设置为无效，剩余的一个颜色通道的取值保持不变，则根据设置的三个颜色通道的取值，就可获得该有效颜色通道相应的分量视频数据。

例如，若输入的视频数据为f(x，y，t)，其包含M个视频帧，且该视频数据中M个视频帧所包含的像素点的颜色由R通道、G通道和B通道的取值共同确定。若将G通道和B通道的取值设置为无效，如将G通道和B通道的取值设置为0，同时R通道的取值保持不变，便可获得由显示颜色为与R通道相应的M个灰度图像所形成的红色分量视频数据，如可以表示为f_r(x，y，t)。

同理，还可通过将R通道和B通道的取值设置为无效，获得显示颜色为与G通道相应的M个灰度图像所形成的绿色分量视频数据，如表示为f_g(x，y，t)，以及，也可以通过将R通道和G通道设置为无效，来获得显示颜色为与B通道相应的M个灰度图像所形成的蓝色分量视频数据，如可以表示为f_b(x，y，t)。

因此，若向视频数据处理设备输入一段包含M个视频帧的彩***数据，视频数据处理设备通过对各颜色通道的设置可以获得的彩***数据的3个分量数据，即：f_r(x，y，t)，f_g(x，y，t)以及f_b(x，y，t)，每个分量视频数据包括设置取值的M个视频帧，每个分量视频数据所包含的像素点的三个颜色通道的取值包括一个有效取值和两个无效取值。

那么，S11中视频数据可以是指至少两个分量视频数据中的每个分量视频数据，即视频数据处理设备可以按照方法一或方法二计算至少两个分量视频数据中每个分量视频数据的时间信息分量。

例如，获得3个分量视频数据中，f_r(x，y，t)包括的像素点在时间维度上的时间信息分量H_t{f_r(x，y，t)}，f_g(x，y，t)包括的像素点在时间维度上的时间信息分量H_t{f_g(x，y，t)}，及f_b(x,y,t)包括的在时间维度上的时间信息分量H_t{f_b(x,y,t)}，进而通过对将每个分量视频数据所包含的像素点中具有相同空间坐标的第二像素点进行叠加即可分别获得表征各分量视频数据的时间特征信息的分量投影图像，即和

获得各分量视频数据的分量投影图像与获得第一投影图像的过程相同，此处不再赘述。本申请中，通过获得各个分量投影图像实现将各分量视频数据的时间特征信息投影到2D图像中，使得通过2D图像能够较为直观地了解视频数据中至少两个视频帧所包含的像素点在时间上的变化情况，也便于后期将二维投影图像应用于2D CNN进行行为识别等。

进一步，可将至少两个分量视频数据的分量投影图像进行叠加，即将每个分量视频数据的分量投影图像所包含的像素点中具有相同空间坐标的像素点的颜色值进行叠加，为了便于区分，本申请中可将分量投影图像所包含的像素点中具有相同空间坐标的像素点成为第三像素点。通过将第三像素点的颜色值的叠加可获得表征原始的视频数据(即彩***数据)的时间特征信息的第二投影图像，该第二投影图像能够表征至少两个视频帧中的每个视频帧包括的像素点在各颜色通道中随时间的变化情况。

在实际应用中，表征各分量视频数据的时间特征信息的分类投影图像均为灰度投影图像，通过将三个分量视频数据相应的分类投影图像进行叠加，获得的第二投影图像即为二维彩色图像，其包括的像素点随着时间的变化可呈现不同的颜色。

例如，若视频数据为用户进行一手部动作，如抬手臂动作时所采集的数据，视频数据包括的至少两个视频帧中每个视频帧可以反馈时间轴上某一时刻像素点所处的位置，即表征用户手臂动作所处的位置，那么通过对方式一对视频数据进行处理，获得视频数据的三个分量视频数据的每个分量视频数据的灰度投影图像，将三个灰度图像进行重构，获得视频数据的投影图像，该彩色投影图像中，用户的手臂抬高过程中，手臂所处位置随时间的变化，手臂部分的像素点的颜色也随着变化，从而有助于基于投影图像中像素点所呈现的颜色来识别用户动作随时间的变化过程。

如图4所示，其代表彩***的3个分量视频数据中每个分量视频数据的投影图像按照像素点的空间坐标进行叠加所得到的彩色投影图像，其呈现了在一段时间段[t_a，t_d]内该用户的手臂动作，即用户的手臂按图中箭头沿t_a->t_b->t_c->t_d所示方向运动，图中t_a，t_b，t_c，t_d分别代表不同时刻所呈现的手臂形态，且每个手臂形态相应的像素点所呈现的颜色为不同。例如，t_a所示的手臂形态相应的像素点所呈现色彩1，t_b所示的手臂形态相应的像素点所呈现色彩2，t_c所示的手臂形态相应的像素点所呈现色彩3，t_d所示的手臂形态相应的像素点所呈现色彩4，从而依据投影图像中的色彩也可初步了解用户在进行抬手臂动作的行为过程。

在本申请另一实施例中，若输入视频数据处理设备的视频数据为彩***数据，视频数据处理设备在采用方法一计算时间信息分量时，还可以采用如下方式设置生成元，并基于设置的生成元计算多维解析信号，以提取多维解析信号中视频数据的时间信息分量。

具体来说，视频数据处理设备根据2D几何代数可将视频数据的维度进行分离。例如，可将输入视频数据处理设备中的彩***数据看作一四维信号，可表示为f(x，y，t，z)，则视频数据处理设备可利用双四元数将视频数据的信息参数划分为两个部分，即时间信息部分t和空间信息部分(x，y，z)。

进而，视频数据处理设备分别为t和(x，y，z)配置两个生成元，如e₃和e₄，其中，e₃为指示时间信息的关联参数的第一生成元，e₄为指示空间维度的关联参数的第二生成元，从而实现把空间数据和时间数据分离的目的。

进而，基于配置的生成元，可以计算彩***数据的四元数信号，即多维解析信号，用ψ(x,y,z,t)表示，其定义如下：

公式(9)中，“****”代表四维卷积计算，e₃、e₄是克利福德代数虚数单位的生成元，其中e₃为第一生成元，其对应于时间信息的t方向上信息关联的参数，e₄对应于空间信息的关联参数，σ(·)是狄拉克函数。

若使用虚数单位定义e₃＝j，e₄＝i，e₃e₄＝k，同时结合公式(3)，可以得到简化后的ψ(x,y,z,t)的表达式为：

ψ(x,y,z,t)＝f(x,y,t)+iH_xyz{f(x,y,z,t)}+jH_t{f(x,y,z,t)}+kH{f(x,y,z,t)}公式(10)

公式(10)中包括四个信号分量，即f(x,y,t)，iH_xyz{f(x,y,z,t)}，jH_t{f(x,y,z,t)}和kH{f(x,y,z,t)}，相应的虚数单位分别是1，i，j和kH。在具体实施过程中，在四元数的几何代数框架下，视频数据处理设备通过计算输入的4D信号(即彩***数据)，可把视频数据分离成4个信号分量，其中，由第一生成元组成的虚数单位j(即e₂)的第一信号分量e₂H_t{f(x,y,t)}是针对时间坐标轴(即t)的部分的希尔伯特变换，它包含了视频数据的时间轴上的信息，即时间信息分量H_t{f(x,y,t)}。

视频数据处理设备获得时间信息分量H_t{f(x,y,t)}后，通过将其在视频数据的时间段内进行积分，即可将视频数据包括的像素点在时间段[t1，t2]内随时间变化的信息保存在一张彩色的2D投影图像里，获得表征视频数据包括的像素点在时间维度上的时间特征信息的第一投影图像，记为TI_t(x,y,z)，其可以定义为：

公式(11)中，z为彩色分量，当视频数据为彩***数据时，z＝3。

在实际的离散计算中，t是视频帧的索引数，故对于包括M个视频帧的视频数据，计算其视频时间的第一投影图像可以表示为TI_M(x,y,z)，其可以定义为：

公式(12)中，M代表视频数据包括的视频帧的数量，且M为大于2的整数。

需要说明的是，公式(12)中的H_t{f(x,y,z,t)}也可采用前文方法二所述的快速算法进行计算，其实现原理相同，此处不再赘述。

公式(12)中的TI_M(x,y,z)能够表征输入的视频数据包括的像素点在时间上的变化情况，由于方式二中将视频数据作为4D信号进行处理，进行的是四维卷积操作，相较于对分量视频数据的处理的复杂度要高，无需对视频数据进行分离，其获得的时间信息分量能够较为完整地体现像素点在时间上的变化情况，不涉及针对各分量视频数据的投影图像的叠加，处理方式较为便捷，后期可直接使用第一投影图像进行用户行为识别等应用。

故本申请中，通过针对视频数据的时间信息分量的计算，能够确定视频数据的时间特征信息，实现将多维的视频数据中至少两个视频帧所包含的像素点在时间维度上的变化情况通过二维的投影图像来表征，便于后期能够直接在2D CNN中输入投影图像，并根据其所指示的时间特征信息进行人体行为识别，例如将第一投影图像或第二投影图像应用于双流卷积网络中的空间网络进行深度学习训练，能够有效提高双流卷积网络中的空间网络中时间信息的检测精度。

请参见图5，本申请提供一种视频数据处理设备，该视频数据处理包括存储器402和处理器403。

可选的，该视频数据处理设备还可以包括接收器401和发送器404，在图5中一并示出。因为接收器401和发送器404为可选的实体部件，因此在图5中画为虚线形式。

其中，处理器403可以是中央处理器(Central Processing Unit，CPU)或特定应用集成电路(Application Specific Integrated Circuit，ASIC)，可以是一个或多个用于控制程序执行的集成电路，可以是基带芯片，等等。

存储器402可以通过总线400与处理器403连接。存储器402的数量可以是一个或多个，存储器可以是只读存储器(Read Only Memory，ROM)、随机存取存储器(Random AccessMemory，RAM)或磁盘存储器，等等。

接收器401和发送器404可以通过总线400与处理器403相连接(例如图5所示)，或者也可以通过专门的连接线分别与处理器403连接。

接收器401和发送器404之间也可以通过总线400相连接(例如图5所示)，或者也可以通过专门的连接线进行连接。

通过对处理器403进行设计编程，将前述的数据发送方法所对应的代码固化到芯片内，从而使芯片在运行时能够执行前述图2所示的视频数据处理方法，如何对处理器403进行设计编程为本领域技术人员所公知的技术，这里不再赘述。

请参见图6，提供另一种视频数据处理设备，该视频数据处理可以包括计算模块501和确定模块502。

本申请中，视频数据处理设备的各个模块可以用于执行图2所示的实施例提供的方法。因此，对于该视频数据处理设备中的各模块所实现的功能等，可参考如前方法部分的描述，不多赘述。

Claims

1.一种视频数据处理方法，其特征在于，包括：

计算视频数据的时间信息分量；其中，所述视频数据包括至少两个视频帧，所述时间信息分量用于表征所述至少两个视频帧所包含的像素点在时间维度上的分布情况；

根据所述时间信息分量，确定所述视频数据的时间特征信息；其中，所述时间特征信息用于表征所述至少两个视频帧所包含的像素点在时间维度上的变化情况。

2.如权利要求1所述的方法，其特征在于，所述计算所述视频数据的时间信息分量，包括：

配置与信息参数一一对应的至少两个生成元，所述至少两个生成元相互正交，所述信息参数为与所述视频数据的时间信息、空间信息或颜色信息相关联的参数；

基于所述至少两个生成元，将所述视频数据进行多维卷积操作，得到多维解析信号，所述多维解析信号为超复数信号；

提取所述多维解析信号中第一信号分量的特征部分；其中，指示所述第一信号分量的虚数由第一生成元和所述特征部分构成，所述第一生成元为指示所述第一信号分量的虚数的虚数单位，所述特征部分为指示所述第一信号分量的虚数的虚部，所述第一生成元为所述至少两个生成元中与时间信息对应的生成元。

3.如权利要求1所述的方法，其特征在于，所述计算所述视频数据的时间信息分量，包括：

获得所述视频数据的频域信号，所述频域信号位于多个卦限中；

对相邻的至少两个卦限中的频域信号进行处理，获得所述相邻的至少两个卦限的每个卦限的频域信号的单象限复数解析信号；其中，所述单象限复数解析信号为所述每个卦限的频域信号经处理后在时域内的信号，所述相邻的至少两个卦限中的频域信号表征所述至少两个视频帧所包含的像素点在频域上的变化情况，所述单象限复数解析信号用于指示所述至少两个视频帧所包含的像素点在某一空间方向上的变化情况，所述某一空间方向为空间中的任意一个方向；

根据所述单象限复数解析信号的虚部，构建所述时间信息分量。

4.如权利要求2或3所述的方法，其特征在于，所述根据所述时间信息分量，确定所述视频数据的时间特征信息，包括：

确定所述至少两个视频帧所包含的像素点中具有相同空间坐标的第一像素点；

将所述第一像素点的颜色值进行叠加，获得第一投影图像，所述第一投影图像用于表征所述视频数据的时间特征信息。

5.如权利要求1-3中任一权项所述的方法，其特征在于，所述至少两个视频帧所包含的像素点的颜色由三个颜色通道的取值共同确定；

在所述计算视频数据的时间信息分量之前，还包括：

设置所述至少两个视频帧所包含的像素点的三个颜色通道的取值；

根据三个颜色通道的取值，获得所述视频数据的至少两个分量视频数据；其中，所述至少两个分量视频数据的每个分量视频数据包括所述至少两个视频帧，且所述每个分量视频数据所包含的像素点的三个颜色通道的取值包括一个有效取值和两个无效取值；

所述计算所述视频数据的时间信息分量，包括：

计算所述每个分量视频数据的时间信息分量。

6.如权利要求5所述的方法，其特征在于，所述根据所述时间信息分量，确定所述视频数据的时间特征信息，包括：

确定所述每个分量视频数据所包含的像素点中具有相同空间坐标的第二像素点；

将所述第二像素点的颜色值进行叠加，获得分量投影图像；其中，所述分量投影图像用于表征相应的分量视频数据的时间特征信息；

确定所述至少两个分量视频数据的分量投影图像所包含的像素点中具有相同空间坐标的第三像素点；

将所述第三像素点的颜色值进行叠加，获得第二投影图像；其中，所述第二投影图像为所述视频数据的至少两个视频帧所包含的像素点在所述三个颜色通道中随时间的变化情况，所述第二投影图像用于表征所述视频数据的时间特征信息。

7.一种视频数据处理设备，其特征在于，包括：

计算模块，用于计算视频数据的时间信息分量；其中，所述视频数据包括至少两个视频帧，所述时间信息分量用于表征所述至少两个视频帧所包含的像素点在时间维度上的分布情况；

确定模块，用于根据所述时间信息分量，确定所述视频数据的时间特征信息；其中，所述时间特征信息用于表征所述至少两个视频帧所包含的像素点在时间维度上的变化情况。

8.如权利要求7所述的视频数据处理设备，其特征在于，所述计算模块用于：

9.如权利要求7所述的视频数据处理设备，其特征在于，所述计算模块用于：

10.如权利要求8或9所述的视频数据处理设备，其特征在于，所述确定模块用于：

11.如权利要求7-9任一权项所述的视频数据处理设备，其特征在于，所述至少两个视频帧所包含的像素点的颜色由三个颜色通道的取值共同确定，所述视频数据处理设备还包括：

设置模块，用于在所述计算模块所述计算视频数据的时间信息分量之前，设置所述至少两个视频帧所包含的像素点的三个颜色通道的取值；

获取模块，用于根据三个颜色通道的取值，获得所述视频数据的至少两个分量视频数据；其中，所述至少两个分量视频数据的每个分量视频数据包括所述至少两个视频帧，且所述每个分量视频数据所包含的像素点的三个颜色通道的取值包括一个有效取值和两个无效取值；

所述计算模块用于计算所述每个分量视频数据的时间信息分量。

12.如权利要求11所述的视频数据处理设备，其特征在于，所述确定模块用于：

确定所述每个分量视频数据包括的至少两个视频帧所包括的像素点中具有相同空间坐标的第二像素点；