CN111489378B

CN111489378B - 视频帧特征提取方法、装置、计算机设备及存储介质

Info

Publication number: CN111489378B
Application number: CN202010596100.0A
Authority: CN
Inventors: 姜博源; 罗栋豪; 翁俊武; 王亚彪; 丁鹏; 汪铖杰; 李季檩; 黄飞跃; 吴永坚
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-06-28
Filing date: 2020-06-28
Publication date: 2020-10-16
Anticipated expiration: 2040-06-28
Also published as: CN111489378A

Abstract

本申请实施例公开了一种视频帧特征提取方法、装置、计算机设备及存储介质，属于计算机技术领域。该方法包括：获取多个视频帧，分别对每个视频帧进行特征提取，得到每个视频帧的初始特征信息，根据多个视频帧的初始特征信息进行运动识别，得到多个视频帧的运动特征信息，将多个视频帧的运动特征信息进行对比处理，得到每个视频帧的权重信息，分别对每个视频帧的初始特征信息与对应的权重信息进行融合处理，得到每个视频帧的目标特征信息。削弱了每个视频帧中与运动特征无关的信息，提高了多个视频帧的运动特征信息的准确性，增强每个视频帧的目标特征信息中的运动特征信息，从而提高了目标特征信息的准确性，实现了对视频帧的数据计算。

Description

视频帧特征提取方法、装置、计算机设备及存储介质

技术领域

本申请实施例涉及计算机技术领域，特别涉及一种视频帧特征提取方法、装置、计算机设备及存储介质。

背景技术

随着计算机技术的发展，视频数据越来越丰富，对视频数据的处理方式也越来越多样，例如视频数据分类、视频数据分割等。在对视频数据进行分类或分割时，通常根据视频数据的特征信息进行处理，因此，如何准确提取特征信息尤为重要。

相关技术中通常是获取视频数据中的多个视频帧，分别对每个视频帧进行特征提取，得到每个视频帧的特征信息。由于上述方法是对每个视频帧分别进行特征提取，得到的特征信息的准确性差。

发明内容

本申请实施例提供了一种视频帧特征提取方法、装置、计算机设备及存储介质，能够提高特征信息的准确性。所述技术方案包括以下内容。

一方面，提供了一种视频帧特征提取方法，所述方法包括：

获取同一视频数据中的多个视频帧；

分别对每个视频帧进行特征提取，得到所述每个视频帧的初始特征信息，所述初始特征信息包括多个特征维度对应的初始特征；

根据所述多个视频帧的初始特征信息进行运动识别，得到所述多个视频帧的运动特征信息，所述运动特征信息包括所述多个特征维度对应的运动特征；

将所述多个视频帧的运动特征信息进行对比处理，得到所述每个视频帧的权重信息，所述权重信息包括所述多个特征维度对应的权重，所述权重表示所述特征维度对所述视频帧的运动特征的影响程度；

分别对所述每个视频帧的初始特征信息与对应的权重信息进行融合处理，得到所述每个视频帧的目标特征信息。

在一种可能实现方式中，所述根据所述多个样本视频帧的目标样本特征信息，对所述特征提取模型、所述运动识别模型、所述权重获取模型及所述注意力融合模型进行训练，包括：

调用分类模型，对所述每个样本视频帧的目标样本特征信息进行分类处理，得到所述每个样本视频帧的类别特征信息，所述类别特征信息包括多个动作类别对应的特征值；

将所述多个样本视频帧的类别特征信息进行融合，得到融合类别特征信息；

将所述融合类别特征信息中的最大特征值所属的动作类别，确定为所述样本视频的目标动作类别；

根据所述样本视频的目标动作类别与所述样本视频的样本动作类别之间的差异，确定所述特征提取模型的第二损失值，所述第二损失值与所述差异呈正相关关系；

根据所述第二损失值，对所述特征提取模型、所述运动识别模型、所述权重获取模型及所述注意力模型进行训练。

另一方面，提供了一种视频帧特征提取方法，所述方法包括：

获取同一样本视频数据中的多个样本视频帧；

调用特征提取模型，分别对每个样本视频帧进行特征提取，得到所述每个样本视频帧的目标样本特征信息；

对于任一目标特征维度，根据所述多个样本视频帧的每两个样本视频帧的目标样本特征信息中，属于目标特征维度的样本特征之间的相似度之和，确定所述目标特征维度的相似度；

根据预设数目个目标特征维度的相似度，确定所述特征提取模型的第一损失值，所述第一损失值与所述预设数目个目标特征维度的相似度呈正相关关系；

根据所述第一损失值，对所述特征提取模型进行训练；

调用训练后的所述特征提取模型，对任一视频帧进行特征提取，得到所述任一视频帧的特征信息。

在一种可能实现方式中，所述方法还包括：

调用分类模型，对所述每个样本视频帧的目标样本特征进行分类处理，得到所述每个样本视频帧的类别特征信息，所述类别特征信息包括多个类别对应的特征值；

将所述融合类别特征信息中的最大特征值所属的类别，确定为所述样本视频的目标类别；

根据所述样本视频的目标类别与所述样本视频的样本类别之间的差异，确定所述特征提取模型的第二损失值，所述第二损失值与所述差异呈正相关关系；

所述根据所述第一损失值，对所述特征提取模型进行训练，包括：

根据所述第一损失值和所述第二损失值，对所述特征提取模型进行训练。

另一方面，提供了一种视频帧特征提取装置，所述装置包括：

视频帧获取模块，用于获取同一视频数据中的多个视频帧；

特征提取模块，用于分别对每个视频帧进行特征提取，得到所述每个视频帧的初始特征信息，所述初始特征信息包括多个特征维度对应的初始特征；

运动识别模块，用于根据所述多个视频帧的初始特征信息进行运动识别，得到所述多个视频帧的运动特征信息，所述运动特征信息包括所述多个特征维度对应的运动特征；

对比处理模块，用于将所述多个视频帧的运动特征信息进行对比处理，得到所述每个视频帧的权重信息，所述权重信息包括所述多个特征维度对应的权重，所述权重表示所述特征维度对所述视频帧的运动特征的影响程度；

第一融合处理模块，用于分别对所述每个视频帧的初始特征信息与对应的权重信息进行融合处理，得到所述每个视频帧的目标特征信息。

在一种可能实现方式中，所述运动识别模块，用于对所述多个视频帧中相邻的任两个视频帧的初始特征信息进行对比处理，得到所述任两个视频帧中第一个视频帧的运动特征信息。

在另一种可能实现方式中，所述运动识别模块，包括：

降维处理单元，用于对所述任两个视频帧中第一个视频帧及第二个视频帧的初始特征信息中的每个初始特征进行降维处理；

特征信息确定单元，用于将所述第一个视频帧降维处理后的特征信息与所述第二个视频帧降维处理后的特征信息之间的差异特征信息，确定为所述第一个视频帧的运动特征信息。

在另一种可能实现方式中，所述装置还包括：

特征信息确定模块，用于将预设特征信息确定为所述多个视频帧中的最后一个视频帧的运动特征信息。

在另一种可能实现方式中，所述对比处理模块，包括：

融合处理单元，用于对于所述每个视频帧，将所述视频帧的运动特征信息与所述视频帧之前的至少一个视频帧的运动特征信息进行融合处理，得到所述视频帧的融合运动特征信息，所述融合运动特征信息包括所述多个特征维度对应的融合运动特征；

归一化处理单元，用于对所述融合运动特征信息中的多个融合运动特征进行归一化处理，将归一化处理后的融合运动特征信息作为所述权重信息。

在另一种可能实现方式中，所述装置还包括：

第二融合处理模块，用于响应于所述视频帧为所述多个视频帧中的第一个视频帧，将所述视频帧的运动特征信息与所述多个视频帧中最后一个视频帧的运动特征信息进行融合处理，得到所述视频帧的融合运动特征信息。

在另一种可能实现方式中，所述装置还包括：

分类处理模块，用于对所述每个视频帧的目标特征信息进行分类处理，得到所述每个视频帧的类别特征信息，所述类别特征信息包括多个动作类别对应的特征值；

信息融合模块，用于将所述多个视频帧的类别特征信息进行融合，得到融合类别特征信息；

类别确定模块，用于将所述融合类别特征信息中的最大特征值所属的动作类别，确定为所述视频数据的动作类别。

在另一种可能实现方式中，所述特征提取模块，还用于调用特征提取模型，分别对每个视频帧进行特征提取，得到所述每个视频帧的初始特征信息；

所述运动识别模块，还用于调用运动识别模型，根据所述多个视频帧的初始特征信息进行运动识别，得到所述多个视频帧的运动特征信息；

所述对比处理模块，还用于调用权重获取模型，将所述多个视频帧的运动特征信息进行对比处理，得到所述每个视频帧的权重信息；

所述第一融合处理模块，还用于调用注意力融合模型，分别对所述每个视频帧的初始特征信息与对应的权重信息进行融合处理，得到所述每个视频帧的目标特征信息。

在另一种可能实现方式中，所述装置还包括;

所述视频帧获取模块，还用于获取同一样本视频数据中的多个样本视频帧；

所述特征提取模块，还用于调用所述特征提取模型，分别对每个样本视频帧进行特征提取，得到所述每个样本视频帧的初始样本特征信息，所述初始样本特征信息包括多个特征维度对应的初始样本特征；

所述运动识别模块，还用于调用所述运动识别模型，根据所述多个样本视频帧的初始样本特征信息进行运动识别，得到所述多个样本视频帧的运动样本特征信息，所述运动样本特征信息包括所述多个特征维度对应的运动样本特征；

所述对比处理模块，还用于调用所述权重获取模型，将所述多个样本视频帧的运动样本特征信息进行对比处理，得到所述每个样本视频帧的样本权重信息，所述样本权重信息包括所述多个特征维度对应的权重；

所述第一融合处理模块，还用于调用所述注意力融合模型，分别对所述每个样本视频帧的初始样本特征信息与对应的样本权重信息进行融合处理，得到所述每个样本视频帧的目标样本特征信息；

模型训练模块，用于根据所述多个样本视频帧的目标样本特征信息，对所述特征提取模型、所述运动识别模型、所述权重获取模型及所述注意力融合模型进行训练。

在另一种可能实现方式中，所述模型训练模块，包括：

相似度确定单元，用于对于任一目标特征维度，根据所述多个样本视频帧的每两个样本视频帧的目标样本特征信息中，属于目标特征维度的样本特征之间的相似度，确定所述目标特征维度的相似度；

第一损失值确定单元，用于根据预设数目个目标特征维度的相似度，确定所述特征提取模型的第一损失值，所述第一损失值与所述预设数目个目标特征维度的相似度呈正相关关系；

第一模型训练单元，用于根据所述第一损失值，对所述特征提取模型、所述运动识别模型、所述权重获取模型及所述注意力融合模型进行训练。

在另一种可能实现方式中，所述模型训练模块，包括：

分类处理单元，用于调用分类模型，对所述每个样本视频帧的目标样本特征信息进行分类处理，得到所述每个样本视频帧的类别特征信息，所述类别特征信息包括多个动作类别对应的特征值；

信息融合单元，用于将所述多个样本视频帧的类别特征信息进行融合，得到融合类别特征信息；

类别确定单元，用于将所述融合类别特征信息中的最大特征值所属的动作类别，确定为所述样本视频的目标动作类别；

第二损失值确定单元，用于根据所述样本视频的目标动作类别与所述样本视频的样本动作类别之间的差异，确定所述特征提取模型的第二损失值，所述第二损失值与所述差异呈正相关关系；

第二模型训练单元，用于根据所述第二损失值，对所述特征提取模型、所述运动识别模型、所述权重获取模型及所述注意力模型进行训练。

视频帧获取模块，用于获取同一样本视频数据中的多个样本视频帧；

特征提取模块，用于调用特征提取模型，分别对每个样本视频帧进行特征提取，得到所述每个样本视频帧的目标样本特征信息；

相似度确定模块，用于对于任一目标特征维度，根据所述多个样本视频帧的每两个样本视频帧的目标样本特征信息中，属于目标特征维度的样本特征之间的相似度之和，确定所述目标特征维度的相似度；

第一损失值确定模块，用于根据预设数目个目标特征维度的相似度，确定所述特征提取模型的第一损失值，所述第一损失值与所述预设数目个目标特征维度的相似度呈正相关关系；

模型训练模块，用于根据所述第一损失值，对所述特征提取模型进行训练；

特征提取模块，用于调用训练后的所述特征提取模型，对任一视频帧进行特征提取，得到所述任一视频帧的特征信息。

在一种可能实现方式中，所述装置还包括：

分类处理模块，用于调用分类模型，对所述每个样本视频帧的目标样本特征进行分类处理，得到所述每个样本视频帧的类别特征信息，所述类别特征信息包括多个动作类别对应的特征值；

信息融合模块，用于将所述多个样本视频帧的类别特征信息进行融合，得到融合类别特征信息；

类别确定模块，用于将所述融合类别特征信息中的最大特征值所属的动作类别，确定为所述样本视频的目标动作类别；

第二损失值确定模块，用于根据所述样本视频的目标动作类别与所述样本视频的样本动作类别之间的差异，确定所述特征提取模型的第二损失值，所述第二损失值与所述差异呈正相关关系；

所述模型训练模块，包括：

模型训练单元，用于根据所述第一损失值和所述第二损失值，对所述特征提取模型进行训练。

另一方面，提供了一种计算机设备，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条指令，所述至少一条指令由所述处理器加载并执行，以实现如上述方面所述的视频帧特征提取方法。

另一方面，提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有至少一条指令，所述至少一条指令由处理器加载并执行，以实现如上述方面所述的视频帧特征提取方法。

再一方面，提供了一种计算机程序产品或计算机程序，所述计算机程序产品或计算机程序包括计算机指令，所述计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取所述计算机指令，处理器执行所述计算机指令，使得所述计算机设备加载并执行以实现上述方面所述的视频帧特征提取方法中所执行的操作。

本申请实施例提供的技术方案带来的有益效果至少包括：

本申请实施例提供的方法、装置及存储介质，在获取到同一视频帧数据中多个视频帧的初始特征信息后，对多个视频帧的初始特征信息进行运动识别，削弱了每个视频帧中与运动特征无关的信息，提高了多个视频帧的运动特征信息的准确性。之后将多个视频帧的运动特征信息进行对比，以分析多个视频帧的运动特征信息的关联性，确定视频帧的每个特征维度对视频帧的运动特征的影响程度，从而得到每个视频帧的权重信息，提高了每个视频帧的权重信息的准确率，分别对每个视频帧的初始特征信息与对应的权重信息进行融合处理，增强每个视频帧的目标特征信息中的运动特征信息，削弱与运动特征无关的信息，从而提高了目标特征信息的准确性。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请实施例的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种实施环境的结构示意图；

图2是本申请实施例提供的一种视频帧特征提取方法的流程图；

图3是本申请实施例提供的一种视频帧特征提取方法的流程图；

图4是本申请实施例提供的一种获取每个视频帧的目标特征信息的流程图；

图5是本申请实施例提供的一种视频帧与目标特征对比的示意图；

图6是本申请实施例提供的一种用于视频帧特征提取的模型训练方法；

图7是本申请实施例提供的一种获取目标特征维度的相似度的示意图；

图8是本申请实施例提供的一种网络模型的结构示意图；

图9是本申请实施例提供的一种视频帧与目标特征对比的示意图；

图10是本申请实施例提供的一种视频帧特征提取方法的流程图；

图11是本申请实施例提供的一种视频帧特征提取装置的结构示意图；

图12是本申请实施例提供的一种视频帧特征提取装置的结构示意图；

图13是本申请实施例提供的一种视频帧特征提取装置的结构示意图；

图14是本申请实施例提供的一种视频帧特征提取装置的结构示意图；

图15是本申请实施例提供的一种终端的结构示意图；

图16是本申请实施例提供的一种服务器的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

本申请所使用的术语“第一”、“第二”等可在本文中用于描述各种概念，但除非特别说明，这些概念不受这些术语限制。这些术语仅用于将一个概念与另一个概念区分。举例来说，在不脱离本申请的范围的情况下，可以将第一图像称为第二图像，且类似地，可将第二图像称为第一图像。

本申请所使用的术语“至少一个”、“多个”、“每个”、“任一”，至少一个包括一个、两个或两个以上，多个包括两个或两个以上，而每个是指对应的多个中的每一个，任一是指多个中的任意一个。举例来说，多个视频帧包括3个视频帧，而每个是指这3个视频帧中的每一个视频帧，任一是指这3个视频帧中的任意一个视频帧，可以是第一个视频帧，可以是第二个视频帧、也可以是第三个视频帧。

人工智能(Artificial Intelligence, AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用***。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互***、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

计算机视觉技术(Computer Vision, CV)计算机视觉是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能***。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。

机器学习(Machine Learning, ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、示教学习等技术。

云技术（Cloud technology）是指在广域网或局域网内将硬件、软件、网络等系列资源统一起来，实现数据的计算、储存、处理和共享的一种托管技术。

云技术（Cloud technology）基于云计算商业模式应用的网络技术、信息技术、整合技术、管理平台技术、应用技术等的总称，可以组成资源池，按需所用，灵活便利。云计算技术将变成重要支撑。技术网络***的后台服务需要大量的计算、存储资源，如视频网站、图片类网站和更多的门户网站。伴随着互联网行业的高度发展和应用，将来每个物品都有可能存在自己的识别标志，都需要传输到后台***进行逻辑处理，不同程度级别的数据将会分开处理，各类行业数据皆需要强大的***后盾支撑，只能通过云计算来实现。

云计算(cloud computing)是一种计算模式，它将计算任务分布在大量计算机构成的资源池上，使各种应用***能够根据需要获取计算力、存储空间和信息服务。提供资源的网络被称为“云”。“云”中的资源在使用者看来是可以无限扩展的，并且可以随时获取，按需使用，随时扩展，按使用付费。

作为云计算的基础能力提供商，会建立云计算资源池(简称云平台，一般称为IaaS(Infrastructure as a Service，基础设施即服务)平台，在资源池中部署多种类型的虚拟资源，供外部客户选择使用。云计算资源池中主要包括：计算设备(为虚拟化机器，包含操作***)、存储设备、网络设备。

按照逻辑功能划分,在IaaS（Infrastructure as a Service，基础设施即服务）层上可以部署PaaS(Platform as a Service,平台即服务)层，PaaS层之上再部署SaaS(Software as a Service,软件即服务)层，也可以直接将SaaS部署在IaaS上。PaaS为软件运行的平台，如数据库、Web（World Wide Web，全球广域网）容器等。SaaS为各式各样的业务软件，如web门户网站、***器等。一般来说，SaaS和PaaS相对于IaaS是上层。

本申请实施例提供的方案，基于人工智能和云技术，可以训练得到用于视频帧特征提取的模型，通过调用训练的模型，可以获取视频帧的特征信息，实现了对视频帧的数据计算。

本申请实施例提供的视频帧特征提取方法，可以用于计算机设备中，该计算机设备包括终端或服务器。该服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式***，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN（Content Delivery Network，内容分发网络）、以及大数据和人工智能平台等基础云计算服务的云服务器。该终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等，但并不局限于此。

图1是本申请实施例提供的一种实施环境的结构示意图，如图1所示，该实施环境包括终端101和服务器102。终端101与服务器102建立通信连接，通过建立的通信连接进行交互。

终端101拍摄得到视频数据，将该视频数据中的多个视频帧发送至服务器102，服务器102接收到该多个视频帧，分别对每个视频帧进行特征提取，得到每个视频帧的初始特征信息，根据多个视频帧的初始特征信息进行运动识别，得到多个视频帧的运动特征信息，将多个视频帧的运动特征信息进行对比处理，得到每个视频帧的权重信息，分别对每个视频帧的初始特征信息与对应的权重信息进行融合处理，得到每个视频帧的目标特征信息。

本申请实施例提供的方法，可用于多个场景下。

例如，视频数据定位的场景下。

计算机设备获取到视频数据后，采用本申请实施例提供的视频帧特征提取方法，获取视频数据中多个视频帧的目标特征信息，后续根据多个视频帧的目标特征信息，识别包含目标动作的目标视频帧，从而截取该视频数据中包含该目标动作的视频片段，从而能够准确地、高效地实现对视频数据的定位。

再例如，视频数据分类的场景下。

计算机设备获取到视频数据后，采用本申请实施例提供的视频帧特征提取方法，获取视频数据中多个视频帧的目标特征信息，根据多个视频帧的目标特征信息，确定每个视频帧的分类特征信息，根据该多个视频帧的分类特征信息，确定该视频数据所属的动作类别，实现了对视频数据的动作识别，按照视频数据所属的动作类别，将视频数据存储于与该动作类别对应的数据库中。

图2是本申请实施例提供的一种视频帧特征提取方法的流程图，应用于计算机设备中，如图2所示，该方法包括以下步骤。

201、计算机设备获取同一视频数据中的多个视频帧。

其中，视频数据可以是任一类型的视频数据，如户外跑步视频、小区监控视频、舞蹈教学视频等。该视频数据是连续的视频帧序列，该多个视频帧为该视频数据中互不相同的视频帧。计算机设备获取到视频数据后，通过对该视频数据进行抽帧处理，得到该多个视频帧；或者，其他设备获取到多个视频帧，将该多个视频帧发送至该计算机设备，则计算机设备获取到该多个视频帧。

202、计算机设备分别对每个视频帧进行特征提取，得到每个视频帧的初始特征信息。

该初始特征信息包括多个特征维度对应的初始特征，每个特征维度的初始特征用于描述视频帧中不同维度的信息。例如，在多个特征维度中，一个特征维度的初始特征用于描述视频帧中人的个数，一个特征维度的初始特征用于描述视频帧中各像素点颜色值，一个特征维度的初始特征用于描述视频帧的尺寸等。

203、计算机设备根据多个视频帧的初始特征信息进行运动识别，得到多个视频帧的运动特征信息。

在本申请实施例中，运动特征信息是描述视频帧中的动态信息，每个视频帧中包括动态信息和静态信息，该静态信息是与运动特征无关的信息，多个视频帧均属于同一个视频数据，则不同的视频帧中包含的静态信息可能会相同，根据多个视频帧的初始特征信息进行运动识别，识别出每个视频帧的动态信息，削弱了每个视频帧中与运动特征无关的信息，得到每个视频帧的运动特征信息。

204、计算机设备将多个视频帧的运动特征信息进行对比处理，得到每个视频帧的权重信息。

其中，权重信息包括多个特征维度对应的权重，权重表示对应的特征维度对所属的视频帧的运动特征的影响程度，如果特征维度上的特征对所属的视频帧的运动特征的影响程度大，则该特征维度对应的权重大，如果特征维度上的特征对所属的视频帧的运动特征的影响程度小，则该特征维度对应的权重小。该权重信息可以用向量表示，也可以用矩阵表示，或用其他形式来表示。

由于多个视频帧属于同一个视频数据，多个视频帧中的运动特征信息具有关联性，如，多个视频帧中包括人跑步的动作，前一个视频帧显示人迈左腿，后一个视频帧显示人迈右腿，因此，为了提高视频帧的特征信息的准确性，增强每个视频帧中包含的运动特征信息，且削弱视频帧中的背景信息，将多个视频帧的运动特征信息进行对比处理，可以确定每个视频帧中影响运动特征的特征维度，为视频帧的每个特征维度确定对应的权重，从而得到权重信息。

205、计算机设备分别对每个视频帧的初始特征信息与对应的权重信息进行融合处理，得到每个视频帧的目标特征信息。

其中，目标特征信息包括多个特征维度的目标特征，该多个特征维度与初始特征信息中的多个特征维度相同。在获取到每个视频帧的权重信息后，对于任一视频帧，通过将该视频帧中属于相同特征维度的初始特征和权重进行融合，得到每个特征维度的融合后的目标特征，从而得到该视频帧的目标特征信息。

按照上述方式，分别对每个视频帧的初始特征信息与权重进行融合处理，从而得到每个视频帧的目标特征信息。

本申请实施例提供的方法，在获取到同一视频帧数据中多个视频帧的初始特征信息后，对多个视频帧的初始特征信息进行运动识别，削弱了每个视频帧中与运动特征无关的信息，提高了多个视频帧的运动特征信息的准确性。之后将多个视频帧的运动特征信息进行对比，以分析多个视频帧的运动特征信息的关联性，确定视频帧的每个特征维度对视频帧的运动特征的影响程度，从而得到每个视频帧的权重信息，提高了每个视频帧的权重信息的准确率，分别对每个视频帧的初始特征信息与对应的权重信息进行融合处理，增强每个视频帧的目标特征信息中的运动特征信息，削弱与运动特征无关的信息，从而提高了目标特征信息的准确性。

在一种可能实现方式中，根据多个视频帧的初始特征信息进行运动识别，得到多个视频帧的运动特征信息，包括：

对多个视频帧中相邻的任两个视频帧的初始特征信息进行对比处理，得到任两个视频帧中第一个视频帧的运动特征信息。

在另一种可能实现方式中，对多个视频帧中相邻的任两个视频帧的初始特征信息进行对比处理，得到任两个视频帧中第一个视频帧的运动特征信息，包括：

对任两个视频帧中第一个视频帧及第二个视频帧的初始特征信息中的每个初始特征进行降维处理；

将第一个视频帧降维处理后的特征信息与第二个视频帧降维处理后的特征信息之间的差异特征信息，确定为第一个视频帧的运动特征信息。

在另一种可能实现方式中，方法还包括：

将预设特征信息确定为多个视频帧中的最后一个视频帧的运动特征信息。

在另一种可能实现方式中，将多个视频帧的运动特征信息进行对比处理，得到每个视频帧的权重信息，包括：

对于每个视频帧，将视频帧的运动特征信息与视频帧之前的至少一个视频帧的运动特征信息进行融合处理，得到视频帧的融合运动特征信息，融合运动特征信息包括多个特征维度对应的融合运动特征；

对融合运动特征信息中的多个融合运动特征进行归一化处理，将归一化处理后的融合运动特征信息作为权重信息。

在另一种可能实现方式中，方法还包括：

响应于视频帧为多个视频帧中的第一个视频帧，将视频帧的运动特征信息与多个视频帧中最后一个视频帧的运动特征信息进行融合处理，得到视频帧的融合运动特征信息。

在另一种可能实现方式中，分别对每个视频帧的初始特征信息与对应的权重信息进行融合处理，得到每个视频帧的目标特征信息之后，方法还包括：

对每个视频帧的目标特征信息进行分类处理，得到每个视频帧的类别特征信息，类别特征信息包括多个动作类别对应的特征值；

将多个视频帧的类别特征信息进行融合，得到融合类别特征信息；

将融合类别特征信息中的最大特征值所属的动作类别，确定为视频数据的动作类别。

在另一种可能实现方式中，分别对每个视频帧进行特征提取，得到每个视频帧的初始特征信息的步骤通过调用特征提取模型实现；

根据多个视频帧的初始特征信息进行运动识别，得到多个视频帧的运动特征信息的步骤通过调用运动识别模型实现；

将多个视频帧的运动特征信息进行对比处理，得到每个视频帧的权重信息的步骤通过调用权重获取模型实现；

分别对每个视频帧的初始特征信息与对应的权重信息进行融合处理，得到每个视频帧的目标特征信息的步骤通过调用注意力融合模型实现。

在另一种可能实现方式中，方法还包括：

获取同一样本视频数据中的多个样本视频帧；

调用特征提取模型，分别对每个样本视频帧进行特征提取，得到每个样本视频帧的初始样本特征信息，初始样本特征信息包括多个特征维度对应的初始样本特征；

调用运动识别模型，根据多个样本视频帧的初始样本特征信息进行运动识别，得到多个样本视频帧的运动样本特征信息，运动样本特征信息包括多个特征维度对应的运动样本特征；

调用权重获取模型，将多个样本视频帧的运动样本特征信息进行对比处理，得到每个样本视频帧的样本权重信息，样本权重信息包括多个特征维度对应的权重；

调用注意力融合模型，分别对每个样本视频帧的初始样本特征信息与对应的样本权重信息进行融合处理，得到每个样本视频帧的目标样本特征信息；

根据多个样本视频帧的目标样本特征信息，对特征提取模型、运动识别模型、权重获取模型及注意力融合模型进行训练。

在另一种可能实现方式中，根据多个样本视频帧的目标样本特征信息，对特征提取模型、运动识别模型、权重获取模型及注意力融合模型进行训练，包括：

对于任一目标特征维度，根据多个样本视频帧的每两个样本视频帧的目标样本特征信息中，属于目标特征维度的样本特征之间的相似度，确定目标特征维度的相似度；

根据预设数目个目标特征维度的相似度，确定特征提取模型的第一损失值，第一损失值与预设数目个目标特征维度的相似度呈正相关关系；

根据第一损失值，对特征提取模型、运动识别模型、权重获取模型及注意力融合模型进行训练。

调用分类模型，对每个样本视频帧的目标样本特征信息进行分类处理，得到每个样本视频帧的类别特征信息，类别特征信息包括多个动作类别对应的特征值；

将多个样本视频帧的类别特征信息进行融合，得到融合类别特征信息；

将融合类别特征信息中的最大特征值所属的动作类别，确定为样本视频的目标动作类别；

根据样本视频的目标动作类别与样本视频的样本动作类别之间的差异，确定特征提取模型的第二损失值，第二损失值与差异呈正相关关系；

根据第二损失值，对特征提取模型、运动识别模型、权重获取模型及注意力模型进行训练。

图3是本申请实施例提供的一种视频帧特征提取方法的流程图，应用于计算机设备中，如图3所示，该方法包括以下步骤。

301、计算机设备获取同一视频数据中的多个视频帧。

在一种可能实现方式中，该步骤301可以包括：计算机设备获取视频数据，对该视频数据进行抽帧处理，得到该视频数据中的多个视频帧。其中，在计算机设备获取该视频数据时，可以通过摄像头进行拍摄，得到该视频数据，也可以是由接收其他设备发送的视频数据。

在一种可能实现方式中，该步骤301还可以包括：计算机设备与其他设备建立通信连接，该计算机设备通过该通信连接接收其他设备发送的该多个视频帧。

302、计算机设备调用特征提取模型，分别对每个视频帧进行特征提取，得到每个视频帧的初始特征信息。

其中，特征提取模型是用于提取视频帧的特征信息的模型，可以为包括多个卷积层的卷积模型或者其他网络模型。

本申请实施例中，调用特征提取模型，分别对视频数据中的每个视频帧进行特征提取，将提取得到的特征信息作为初始特征信息。

在该计算机设备获取到多个视频帧后，分别将每个视频帧输入至该特征提取模型，调用该特征提取模型，分别对每个视频帧进行特征提取，得到每个视频帧的初始特征信息。

在一种可能实现方式中，该步骤302可以包括：调用特征提取模型，按照多个视频帧的排列顺序，依次对每个视频帧进行特征提取，得到每个视频帧的初始特征信息。其中，多个视频帧的排列顺序可以根据该多个视频帧在视频数据中的时间的排列顺序确定，例如，第一视频帧为视频数据中的第1分钟处的视频帧，第二视频帧为视频数据中的第2分钟处的视频帧，第三视频帧为视频数据中的第3分钟处的视频帧，则这三个视频帧的排列顺序为：第一视频帧、第二视频帧、第三视频帧。

303、计算机设备调用运动识别模型，对多个视频帧中相邻的任两个视频帧的初始特征信息进行对比处理，得到任两个视频帧中第一个视频帧的运动特征信息。

其中，运动识别模型是用于获取运动特征信息的模型，运动特征信息包括多个特征维度对应的运动特征，该多个特征维度与初始特征信息中的多个特征维度相同。

由于多个视频帧属于同一视频数据，相邻的视频帧中包含的、与运动特征无关的信息具有相似性，如第一个视频帧中包含人开门的动作，第二个视频帧中包含人关门的动作，则两个视频帧中除了人开门和人关门的动作外，其他的背景信息可能相似，因此，通过将相邻的两个视频帧的初始特征进行对比处理，将得到的运动特征信息作为该两个视频帧中第一个视频帧的运动特征信息，可以削弱相邻的视频帧中与运动特征无关的相似的信息，从而突出视频帧中的运动特征，提高了运动特征信息的准确性。

在一种可能实现方式中，该运动识别模型包括降维处理子模型和运动特征获取子模型，则该步骤303可以包括以下步骤3031-3032。

3031、调用降维处理子模型，对任两个视频帧中第一个视频帧及第二个视频帧的初始特征信息中的每个初始特征进行降维处理。

其中，该降维处理子模型是用于对每个初始特征进行降维处理的模型，可选地，该降维处理子模型可以包括全局平均池化层，通过全局平均池化层可以对特征信息进行降维处理。

在本申请实施例中，初始特征信息中的每个初始特征为多维特征，为了后续减小计算量，初始特征信息中的每个初始特征进行降维处理，使得后续对降维处理后的初始特征信息进行处理时，减小计算量，提高提取特征的效率。

在对视频帧的初始特征信息中的每个初始特征进行降维处理时，分别对初始特征信息中每个特征维度的初始特征进行降维处理，使降维处理后的初始特征信息中，每个初始特征的维度降低。降维处理后的初始特征信息包括多个特征维度的降维处理后的初始特征。

例如，视频帧的初始特征信息包括C个特征维度，该C为不小于1的正整数，每个特征维度的初始特征为100行100列的矩阵，即该初始特征信息可以用C×100×100的矩阵表示，通过降维处理子模型，对初始特征信息中的每个初始特征进行降维处理，得到每个特征维度的初始特征为1行1列的矩阵，即降维处理后的初始特征信息可以用C×1×1的矩阵表示。

另外，当每个特征维度的初始特征为多维特征矩阵，在对任一特征维度的多维特征矩阵进行降维处理时，将该特征维度的多维特征矩阵中的特征值进行求和平均，得到该特征维度降维处理后的初始特征，或者，将该特征维度的多维特征矩阵中的特征值进行求和，得到该特征维度降维处理后的初始特征。

3032、调用运动特征获取子模型，将第一个视频帧降维处理后的特征信息与第二个视频帧降维处理后的特征信息之间的差异特征信息，确定为第一个视频帧的运动特征信息。

其中，差异特征信息用于表示两个视频帧降维处理后的特征信息之间的差异，是通过将第一个视频帧降维处理后的特征信息与第二个视频帧降维处理后的特征信息进行差值运算后得到的。

由于相邻的两个视频帧中包含的、与运动特征无关的信息具有相似性，则通过获取相邻的两个视频帧中的差异特征信息，将这两个视频帧中相似的信息进行抵消，削弱了视频帧中的背景信息，突出了视频帧中的运动特征信息，因此将该差异特征信息作为第一个视频帧的运动特征信息。

对于任一视频帧，通过将该视频帧降维处理后的特征信息与该视频帧的下一个视频帧降维处理后的特征信息之间的差异特征信息，作为该视频帧的运动特征信息，从而得到每个视频帧的运动特征信息。

另外，在获取每个视频帧的运动特征信息时，按照上述方式，可以获取到该多个视频帧中除最后一个视频帧外，其他视频帧的运动特征信息。在一种可能实现方式中，获取多个视频帧中最后一个视频帧的运动特征信息可以包括：调用运动特征获取子模型，将预设特征信息确定为多个视频帧中的最后一个视频帧的运动特征信息。

其中，该预设特征信息中包括多个特征维度的特征，该多个特征维度与初始特征信息中的多个特征维度相同，预设特征信息可以是任意设置的特征信息，例如，该预设特征为零向量，或者零矩阵。

需要说明的是，本申请实施例是以通过将相邻的两个视频帧的初始特征信息进行对比处理，得到前一个视频帧的运动特征信息进行说明的，而在另一实施例中，无需执行步骤303，可以采用其他方式，调用运动识别模型，根据多个视频帧的初始特征信息进行运动识别，得到多个视频帧的运动特征信息。

304、计算机设备对于每个视频帧，调用特征融合层，将视频帧的运动特征信息与视频帧之前的至少一个视频帧的运动特征信息进行融合处理，得到视频帧的融合运动特征信息。

在本申请实施例中，权重获取模型是用于获取权重信息的模型，权重获取模型包括特征融合层和归一化层，通过特征融合层和归一化层，对运动特征信息进行处理，得到每个视频帧的权重信息。

其中，融合运动特征信息包括多个特征维度对应的融合运动特征。

在将多个视频帧的运动特征信息进行融合处理时，按照每个特征维度，分别将多个视频帧的运动特征信息中属于相同特征维度的运动特征进行融合，得到每个特征维度融合后的运动特征，则多个特征维度融合后的运动特征构成该视频帧的融合特征信息。例如，一个视频帧的运动特征信息为[0，9，2，8，16]，另一个视频帧的运动特征信息为[2，3，4，5，1]，每个数值代表一个特征维度，将这两个视频帧的运动特征信息中属于相同特征维度的运动特征进行融合，得到的融合特征信息为[2，12，6，13，17]。

由于多个视频帧中的运动特征具有关联性，在任一视频帧与该视频帧之前的至少一个视频帧的运动特征信息中，属于相同特征维度的运动特征具有关联性，因此，通过将该视频帧的运动特征信息与该视频帧的之前的视频帧的运动特征信息进行融合处理，丰富了该视频帧的运动特征信息，提高了融合特征信息的准确性。

另外，按照上述方式，可以获取到多个视频帧中除第一个视频帧外的其他视频帧的融合特征信息，在一种可能实现方式中，获取第一个视频帧的融合特征信息可以包括：响应于视频帧为多个视频帧中的第一个视频帧，调用特征融合层，将视频帧的运动特征信息与多个视频帧中最后一个视频帧的运动特征信息进行融合处理，得到视频帧的融合运动特征信息。

在一种可能实现方式中，则该步骤304可以包括：按照多个视频帧的排列顺序，依次获取每个视频帧的融合特征信息，响应于当前视频帧为第一个视频帧，调用特征融合层，将当前视频帧的运动特征信息与最后一个视频帧的运动特征信息进行融合处理，得到当前视频帧的融合运动特征信息，响应于当前视频帧不是第一个视频帧，调用特征融合层，将当前视频帧的前一个视频帧的融合特征信息与当前视频帧的运动特征信息进行融合，得到当前视频帧的融合特征信息。

305、计算机设备调用归一化层，对融合运动特征信息中的多个融合运动特征进行归一化处理，将归一化处理后的融合运动特征信息作为权重信息。

由于每个视频帧的融合运动特征信息是通过多个视频帧的运动特征信息得到的，在融合运动特征信息中，对运动特征影响程度大的特征维度的融合运动特征得到增强，对运动特征影响程度小的特征维度的融合运动特征得到削弱，因此，通过对融合运动特征信息进行归一化处理，可以体现每个特征维度对视频帧的运动特征的影响程度，从而得到视频帧的权重信息。例如，该权重信息为[0.5，0.2，0.1，0.2]。

在一种可能实现方式中，融合运动特征包括多个特征维度的融合特征值，则该步骤305可以包括：对于任一视频帧的融合特征信息，确定多个特征维度的融合特征值总和，将每个特征维度的融合特征值与该融合特征值总和之间的比值，确定为对应的特征维度的权重，则多个特征维度的权重构成该视频帧的权重信息。通过该种方式得到的权重信息中，每个权重属于0-1之间，且多个特征维度的权重之和为1。

在一种可能实现方式中，融合运动特征包括多个特征维度的融合特征值，则该步骤305可以包括：对于任一视频帧的融合特征信息，确定该融合特征信息中最大融合特征值和最小融合特征值之间的差值，将每个特征维度的融合特征值与该差值之间的比值，确定为对应的特征维度的权重，则多个特征维度的权重构成该视频帧的权重信息。通过该种方式得到的权重信息中，每个权重属于0-1之间。

需要说明的是，本申请实施例是以通过特征融合层和归一化层获取权重信息进行说明的，而在另一实施例中，无需执行步骤304-305，可以采用其他方式，调用权重获取模型，将多个视频帧的运动特征信息进行对比处理，得到每个视频帧的权重信息。

306、计算机设备调用注意力融合模型，分别对每个视频帧的初始特征信息与对应的权重信息进行融合处理，得到每个视频帧的目标特征信息。

其中，注意力融合模型是用于融合初始特征信息和权重信息的模型。在对任一视频帧与对应的权重信息进行融合处理时，将属于相同特征维度的初始特征和权重进行融合，得到每个特征维度的目标特征，得到的多个特征维度的目标特征构成该视频帧的目标特征信息。分别对每个视频帧的初始特征信息与对应的权重信息进行融合处理，从而得到每个视频帧的目标特征信息。

在一种可能实现方式中，该初始特征信息中每个特征维度的初始特征为初始特征矩阵，该初始特征矩阵包括多个初始特征值，则该步骤306可以包括：对于每个视频帧和每个特征维度，将该视频帧的初始特征信息中，该特征维度的初始特征矩阵中的每个初始特征值与该特征维度对应的权重的乘积，分别作为该特征维度的目标特征值，则得到的多个目标特征值构成该特征维度的目标特征矩阵，多个特征维度的目标特征矩阵构成该视频帧的目标特征信息。

307、计算机设备调用分类模型，对每个视频帧的目标特征信息进行分类处理，得到每个视频帧的类别特征信息。

其中，分类模型是用于对视频帧进行分类的模型，该分类模型中可以包括全连接层，通过该全连接层可以获取到视频帧的类别特征信息。类别特征信息包括多个动作类别对应的特征值，动作类别对应的特征值可以表示对应的视频帧属于该动作类别的概率，也可以表示为对应的视频帧的目标特征信息与该动作类别的特征向量的相似度。

在本申请实施例中，预设设置多个动作类别，用于表示视频数据中运动特征所属的多个动作类别，该多个动作类别可以为跳舞动作类别、骑车动作类别、跑步动作类别、正常动作类别等。

在一种可能实现方式中，该步骤307可以包括：对于任一视频帧，确定该视频帧的目标特征信息与每个动作类别的动作类别特征向量之间的相似度，将得到的每个相似度，分别作为对应的动作类别的特征值，得到的多个动作类别的特征值构成该视频帧的类别特征信息。

需要说明的是，本申请实施例是以通过特征提取模型、运动识别模型、权重获取模型及注意力融合模型，获取每个视频帧的目标特征信息进行说明的，而在另一实施例中，在执行步骤302-307时，无需调用模型，可以由计算机设备直接执行相应的步骤即可。

308、计算机设备将多个视频帧的类别特征信息进行融合，得到融合类别特征信息。

其中，该融合类别特征信息中包括多个动作类别的融合后的特征值。在将多个视频帧的类别特征信息进行融合时，将多个视频帧的类别特征信息中属于相同动作类别的特征值进行融合，得到多个动作类别的融合后的特征值，从而得到该融合类别特征信息。

由于多个视频帧均属于同一个视频数据，则为了提高视频数据的动作类别的准确性，将多个视频帧的类别特征信息进行融合，以便后续能够根据得到的融合类别特征信息确定视频数据的动作类别。

309、计算机设备将融合类别特征信息中的最大特征值所属的动作类别，确定为视频数据的动作类别。

动作类别对应的特征值越大，表示视频属于该动作类别的可能性越大，动作类别对应的特征值越小，表示视频属于该动作类别的可能性越小。在得到融合类别特征信息后，将该融合类别特征信息中最大特征值所属的动作类别，确定为视频数据的动作类别。

并且，在获取每个视频帧的权重信息时，按照多个视频帧的排列时序，将视频帧与该视频帧之前的至少一个视频帧的运动特征信息进行融合，使得每个视频帧中融入了之前的视频帧的运动特征，增强了多个视频帧之间的时序特征，增强了多个视频帧的运动特征信息的关联性，提高了目标特征信息的准确性。

并且，由于目标特征信息中的运动特征得到增强，与运动特征无关的信息得到削弱，丰富目标特征的多样性，后续根据每个视频帧的目标特征信息，确定视频数据的动作类别，提高了分类准确性。

并且，通过对初始特征信息中的每个初始特征进行降维处理后，通过降维处理后的特征信息来获取运动特征信息，减小了计算量，提高了获取特征信息的效率。

图4是本申请实施例获取每个视频帧的目标特征信息的流程图，如图4所示，该方法包括以下步骤。

1、在获取每个视频帧的目标特征信息时，获取每个视频帧的初始特征信息，通过池化层，对每个视频帧的初始特征信息中每个初始特征进行全局平均池化，得到每个视频帧降维处理后的初始特征信息。

2、将多个相邻的每两个视频帧降维处理后的初始特征信息进行差值运算，得到该两个视频帧中的第一个视频帧的运动特征信息，从而得到多个视频帧中除最后一个视频帧外的其他视频帧的运动特征信息，将预设特征信息作为最后一个视频帧的运动特征信息。

3、按照多个视频帧的排列顺序，将最后一个视频帧的运动特征信息与第一个视频帧的运动特征信息进行融合处理，得到该第一个视频帧的融合运动特征信息，将第一个视频帧的融合运动特征信息与第二个视频帧的运动特征信息进行融合处理，得到第二个视频帧的融合运动特征信息，按照上述方式，每次将当前的运动特征信息与前一个视频帧的融合运动特征信息进行融合处理，从而得到每个视频帧的融合运动特征信息。

4、将每个视频帧的融合运动特征信息进行归一化处理，得到每个视频帧的权重信息，分别将每个视频帧的初始特征信息与对应的权重信息进行融合处理，得到每个视频帧的目标特征信息。

如图5所示，通过本申请实施例提供的运动识别模型、权重获取模型及注意力融合模型构成的PEM（Progressive Enhancement Module，渐进式运动增强模块）模块，通过确定多个特征维度的权重信息，增强了视频帧中运动特征信息，削弱了视频帧中静态背景信息。图5中的左图和右图是两组对比图像，第一行图像是每组的视频帧，第二行图像是通过特征提取模型得到的每个视频帧的初始特征信息，第三行图像为每个视频帧的权重信息中，最大权重对应的特征维度的目标特征，第四行图像为每个视频帧的权重信息中，最小权重对应的特征维度的目标特征。

通过对比可知，最大权重对应的特征维度的目标特征，在运动主体处具有较高的响应值，而最小权重对应的特征维度的目标特征中，在与运动主体无关的背景处具有较大的响应值。通过每个视频帧的权重信息，将每个特征维度的特征与权重相乘，增强了视频帧的特征中与运动主体有关的信息，削弱了视频帧中冗余的背景信息的干扰，提高了每个视频帧的目标特征信息的准确性。

在图3所示实施例的基础上，在调用特征提取模型、运动识别模型、权重获取模型及注意力融合模型之前，需要对特征提取模型、运动识别模型、权重获取模型及注意力融合模型进行训练，训练过程详见下述实施例。

图6是本申请实施例提供的一种用于视频帧特征提取的模型训练方法，应用于计算机设备中，如图6所示，该方法包括以下步骤。

601、计算机设备获取同一样本视频数据中的多个样本视频帧。

602、计算机设备调用特征提取模型，分别对每个样本视频帧进行特征提取，得到每个样本视频帧的初始样本特征信息。

其中，初始样本特征信息包括多个特征维度对应的初始样本特征。

603、计算机设备调用运动识别模型，根据多个样本视频帧的初始样本特征信息进行运动识别，得到多个样本视频帧的运动样本特征信息。

其中，运动样本特征信息包括多个特征维度对应的运动样本特征。

604、计算机设备调用权重获取模型，将多个样本视频帧的运动样本特征信息进行对比处理，得到每个样本视频帧的样本权重信息。

其中，样本权重信息包括多个特征维度对应的权重。

605、计算机设备调用注意力融合模型，分别对每个样本视频帧的初始样本特征信息与对应的样本权重信息进行融合处理，得到每个样本视频帧的目标样本特征信息。

606、计算机设备根据多个样本视频帧的目标样本特征信息，对特征提取模型、运动识别模型、权重获取模型及注意力融合模型进行训练。

由于目标样本特征信息是通过特征提取模型、运动识别模型、权重获取模型及注意力融合模型联合获取到的，后续可以根据该目标样本特征信息是否准确，来对特征提取模型、运动识别模型、权重获取模型及注意力融合模型进行训练，从而提高模型的准确性，后续能够得到训练完成的特征提取模型、运动识别模型、权重获取模型及注意力融合模型。

在一种可能实现方式中，该步骤606可以包括以下两种方式。

第一种方式，包括以下步骤6601-6603。

6601、对于任一目标特征维度，根据多个样本视频帧的每两个样本视频帧的目标样本特征信息中，属于目标特征维度的样本特征之间的相似度，确定目标特征维度的相似度。

在本申请实施例中，由于每个目标样本特征信息中包括多个特征维度，为了减小计算量，提高训练模型的效率，从多个特征维度中选取预设数目个目标特征维度，对模型进行训练。其中，该预设数目可以是任意数据，如10、8等。

其中，目标特征维度的样本特征之间的相似度用于表示不同的视频帧在该目标特征维度上的样本特征的相似程度，相似度越大，表示两个视频帧的样本特征越相似，即该特征维度中两个样本特征中包含的信息越相似，该特征维度中两个样本特征中包含的信息为背景信息的可能性越大。

对于任一目标特征维度，每个样本视频帧的目标样本特征信息中包括属于该目标特征维度的目标样本特征，则可以确定多个目标样本特征，确定该多个目标样本特征中每两个目标样本特征之间的相似度，得到多个相似度，对该多个相似度进行统计，得到该目标特征维度的相似度。按照上述方式，分别对每个目标特征维度进行处理，可以得到每个目标特征维度的相似度。如图7所示，在确定任一目标特征维度的相似度时，确定多个视频帧的目标样本特征信息中属于该目标特征维度的多个目标样本特征，确定该多个目标样本特征两两之间的相似度，从而得到该目标特征维度的相似度。

6602、根据预设数目个目标特征维度的相似度，确定特征提取模型的第一损失值。

其中，第一损失值与预设数目个目标特征维度的相似度呈正相关关系，预设数目个目标特征维度的相似度越大，第一损失值越大，预设数目个目标特征维度的相似度越小，第一损失值越小。

在一种可能实现方式中，该步骤6602可以包括：将预设数目个目标特征维度的相似度之和，作为特征提取模型的第一损失值。

通过将预设数目个目标特征维度的相似度之和，作为训练模型的第一损失值，以使训练的模型能够避免视频帧的背景信息，从而能够增强视频的运动特征信息。

在一种可能实现方式中，特征提取模型的第一损失值

，可以满足以下关系：

其中，

表示目标特征维度的序号；

表示在第

个目标特征维度上，得到的每个两个视频帧之间的相似度的个数；

、

分别表示多个视频帧的序号，

、

不同；

表示第

个视频帧在第

个目标特征维度上的目标特征，

表示第

个视频帧在第

个目标特征维度上的目标特征；

用于表示余弦相似度函数。

6603、根据第一损失值，对特征提取模型、运动识别模型、权重获取模型及注意力融合模型进行训练。

根据该第一损失值，对模型进行训练，以使减小不同的视频帧的目标特征信息之间的相似度，削弱了不同视频帧之间的相似的冗余信息，增强了每个视频帧的运动特征信息，从而提高了特征提取模型、运动识别模型、权重获取模型及注意力融合模型的准确性。后续通过训练完成的特征提取模型、运动识别模型、权重获取模型及注意力融合模型，得到的不同视频帧中的目标特征信息中，属于相同特征维度的目标特征之间的相似度低，保证了每个视频帧具有独特的运动特征，削弱了不同视频帧之间的相似的冗余信息，提高了目标特征信息的准确性。

第二种方式，包括以下步骤6604-6608。

6604、调用分类模型，对每个样本视频帧的目标样本特征信息进行分类处理，得到每个样本视频帧的类别特征信息。

其中，类别特征信息包括多个动作类别对应的特征值。

该步骤与上述步骤307类似，在此不再赘述。

6605、将多个样本视频帧的类别特征信息进行融合，得到融合类别特征信息。

该步骤与上述步骤308类似，在此不再赘述。

6606、将融合类别特征信息中的最大特征值所属的动作类别，确定为样本视频的目标动作类别。

该步骤与上述步骤309类似，在此不再赘述。

6607、根据样本视频的目标动作类别与样本视频的样本动作类别之间的差异，确定特征提取模型的第二损失值。

其中，第二损失值与差异呈正相关关系，样本动作类别为该样本视频所属的真实动作类别，目标动作类别为该样本视频的预测动作类别，样本视频的目标动作类别与样本动作类别之间的差异越大，第二损失值越大，样本视频的目标动作类别与样本动作类别之间的差异越小，第二损失值越小。

通过将该样本视频的目标动作类别与样本动作类别之间的差异，确定特征提取模型的第二损失值，以使后续通过该第二损失值对模型进行训练，以减小该损失值，也即是减小样本视频的目标动作类别与样本动作类别之间的差异，以提高模型的准确性。

6608、根据第二损失值，对特征提取模型、运动识别模型、权重获取模型及注意力模型进行训练。

通过该第二损失值，对特征提取模型、运动识别模型、权重获取模型及注意力模型进行训练，以减小该损失值，使训练得到的模型为视频数据预测的目标动作类别与视频数据的实际动作类别相同，从而提高了模型的准确性。

在一种可能实现方式中，该步骤6608可以包括：根据第二损失值，对特征提取模型、运动识别模型、权重获取模型、注意力模型及分类模型进行训练。

另外，上述两种方式可以结合，根据得到的第一损失值和第二损失值，对特征提取模型、运动识别模型、权重获取模型及注意力模型进行训练。

在一种可能实现方式中，对第一损失值和第二损失值进行加权融合，得到总损失值，根据总损失值，对特征提取模型、运动识别模型、权重获取模型及注意力模型进行训练。

可选地，根据总损失值，对特征提取模型、运动识别模型、权重获取模型、注意力模型及分类模型进行训练。

可选地，该总损失值

，满足以下关系：

其中，

表示第二损失值，

表示第一损失值，

为权重系数，可以是任意的常数；

表示多个样本动作类别的总数；

表示多个样本动作类别的序号；

表示每个样本动作类别的类别向量；

表示样本视频数据的目标动作类别。

本申请实施例提供的方法，通过特征提取模型、运动识别模型、权重获取模型及注意力模型获取的视频帧的目标样本特征信息，对特征提取模型、运动识别模型、权重获取模型及注意力模型进行联合训练，以提高多个模型的准确率。

并且，在对模型进行训练过程中，通过多个视频帧在相同的目标特征维度的样本特征之间的相似度，来确定训练模型的第一损失值，以减小不同视频帧在相同的目标特征维度上的样本特征之间的相似度，削弱不同视频帧中的相似的冗余信息，从而增强了视频帧中的运动特征，增强了不同视频帧之间的目标特征信息的差异性，丰富目标样本特征的多样性，提高了模型的准确性。且从多个特征维度中选取预设数目个特征维度来对模型进行训练，减小了计算量，提高了训练模型的效率。

并且，在对模型进行训练过程中，通过多个视频帧的目标样本特征信息，来确定样本视频数据的目标动作类别，根据样本视频数据的目标动作类别与样本动作类别之间的差异，来对模型进行训练，以减小样本视频数据的目标动作类别与样本动作类别之间的差异，从而提高了模型的准确性。

如表1所示，是本申请中训练模型的方法和相关技术训练模型的方法在不同的数据及上的对比结果。通过对比本申请训练模型的方法和相关技术训练模型的方法中，所采用的基础网络模型、网络模型结构，可以确定本申请训练模型的方法在与其他相关技术训练模型的方法的计算量小，且提高了训练的模型的准确度。

表1

如图8所示，为一个网络模型的结构示意图，该网络模型用于对视频数据进行分类。该网络模型中包括多个模块，模块1、模块2、模块3、模块4的结构类似。以模块3为例，模块3中包括多个子模块1和子模块2，子模块1为带记忆力的注意力机制的模块DRL-A，该子模块1中包括本申请实施例中运动识别模型、权重获取模型及注意力融合模型。子模块2为带记忆的注意力机制和时序多样性约束的模块，子模块2中包括运动增强单元、时态建模单元、卷积层及时序多样性约束，该运动增强单元中包括运动识别模型、权重获取模型及注意力融合模型。

通过多个子模块1进行连接，可以对多个视频帧的目标特征信息进行重复更新，从而增强视频帧的运动特征信息，削弱视频帧中与运动无关的信息，即背景信息。通过该网络模型中将多个模块进行连接，可以重复对多个视频帧的目标特征信息进行重复更新，从而增强视频帧的运动特征信息，削弱视频帧中与运动无关的信息，即背景信息。

如图9所示，TD（Temporal Diversity Regularization，采用时序多样性约束）模块对模型进行训练，起到了丰富特征的作用，对比图像两个虚线框可知，相比于未采用时序多样性约束得到的目标特征，增加了时序多样性约束后得到的目标特征还包含了部分相邻帧特征信息，丰富了特征的多样性，提高了目标特征信息的准确性。

图10是本申请实施例提供的一种视频帧特征提取方法，应用于计算机设备中，如图10所示，该方法包括以下步骤。

1001、计算机设备获取同一样本视频数据中的多个样本视频帧。

1002、计算机设备调用特征提取模型，分别对每个样本视频帧进行特征提取，得到每个样本视频帧的目标样本特征信息。

1003、计算机设备对于任一目标特征维度，根据多个样本视频帧的每两个样本视频帧的目标样本特征信息中，属于目标特征维度的样本特征之间的相似度之和，确定目标特征维度的相似度。

1004、计算机设备根据预设数目个目标特征维度的相似度，确定特征提取模型的第一损失值。

其中，第一损失值与预设数目个目标特征维度的相似度呈正相关关系。

1005、计算机设备调用分类模型，对每个样本视频帧的目标样本特征进行分类处理，得到每个样本视频帧的类别特征信息。

其中，类别特征信息包括多个动作类别对应的特征值。

1006、计算机设备将多个样本视频帧的类别特征信息进行融合，得到融合类别特征信息。

1007、计算机设备将融合类别特征信息中的最大特征值所属的动作类别，确定为样本视频的目标动作类别。

1008、计算机设备根据样本视频的目标动作类别与样本视频的样本动作类别之间的差异，确定特征提取模型的第二损失值。

其中，第二损失值与差异呈正相关关系。

1009、计算机设备根据第一损失值和第二损失值，对特征提取模型进行训练。

1010、计算机设备调用训练后的特征提取模型，对任一视频帧进行特征提取，得到该任一视频帧的特征信息。

通过训练后的特征提取模型，在对视频帧进行特征提取时，可以增强视频帧中的运动特征，削弱视频帧中的背景信息，因此，可以得到视频帧准确的特征信息。

需要说明的是，本申请实施例是以根据第一损失值和第二损失值，对特征提取模型进行训练进行说明的，而在另一实施例中无需执行步骤1005-1009，只需根据第一损失值，对特征提取模型进行训练。

本申请实施例提供的方法，通过多个视频帧在相同的目标特征维度的样本特征之间的相似度，来确定训练模型的第一损失值，以减小不同视频帧在相同的目标特征维度上的样本特征之间的相似度，削弱不同视频帧中的相似的背景信息，从而增强了视频帧中的运动特征，增强了不同视频帧之间的目标特征信息的差异性，丰富目标样本特征的多样性，通过获取到的多个视频帧的目标样本特征信息，来确定样本视频数据的目标动作类别，通过样本视频数据的目标动作类别与样本动作类别之间的差异，来对模型进行训练，以减小样本视频数据的目标动作类别与样本动作类别之间的差异，从而提高了目标样本特征信息的准确性，从而提高了模型的准确性。

且从多个特征维度中选取预设数目个特征维度来对模型进行训练，减小了计算量，提高了训练模型的效率。

并且，通过本申请实施例提供的方法，训练得到的特征提取模型在获取视频帧的目标特征信息时，融入了不同视频帧之间的时序信息，从而提高得到的目标特征提取模型的准确性。且仅需特征提取模型即可获取到每个视频帧的目标特征信息，简化了模型，提高了获取视频帧的目标特征信息的效率。

图11是本申请实施例提供的一种视频帧特征提取装置的结构示意图，如图11所示，该装置包括：

视频帧获取模块1101，用于获取同一视频数据中的多个视频帧；

特征提取模块1102，用于分别对每个视频帧进行特征提取，得到每个视频帧的初始特征信息，初始特征信息包括多个特征维度对应的初始特征；

运动识别模块1103，用于根据多个视频帧的初始特征信息进行运动识别，得到多个视频帧的运动特征信息，运动特征信息包括多个特征维度对应的运动特征；

对比处理模块1104，用于将多个视频帧的运动特征信息进行对比处理，得到每个视频帧的权重信息，权重信息包括多个特征维度对应的权重，权重表示特征维度对视频帧的运动特征的影响程度；

第一融合处理模块1105，用于分别对每个视频帧的初始特征信息与对应的权重信息进行融合处理，得到每个视频帧的目标特征信息。

在一种可能实现方式中，运动识别模块1103，用于对多个视频帧中相邻的任两个视频帧的初始特征信息进行对比处理，得到任两个视频帧中第一个视频帧的运动特征信息。

在另一种可能实现方式中，如图12所示，运动识别模块1103，包括：

降维处理单元1131，用于对任两个视频帧中第一个视频帧及第二个视频帧的初始特征信息中的每个初始特征进行降维处理；

特征信息确定单元1132，用于将第一个视频帧降维处理后的特征信息与第二个视频帧降维处理后的特征信息之间的差异特征信息，确定为第一个视频帧的运动特征信息。

在另一种可能实现方式中，如图12所示，装置还包括：

特征信息确定模块1106，用于将预设特征信息确定为多个视频帧中的最后一个视频帧的运动特征信息。

在另一种可能实现方式中，如图12所示，对比处理模块1104，包括：

融合处理单元1141，用于对于每个视频帧，将视频帧的运动特征信息与视频帧之前的至少一个视频帧的运动特征信息进行融合处理，得到视频帧的融合运动特征信息，融合运动特征信息包括多个特征维度对应的融合运动特征；

归一化处理单元1142，用于对融合运动特征信息中的多个融合运动特征进行归一化处理，将归一化处理后的融合运动特征信息作为权重信息。

在另一种可能实现方式中，如图12所示，装置还包括：

第二融合处理模块1107，用于响应于视频帧为多个视频帧中的第一个视频帧，将视频帧的运动特征信息与多个视频帧中最后一个视频帧的运动特征信息进行融合处理，得到视频帧的融合运动特征信息。

在另一种可能实现方式中，如图12所示，装置还包括：

分类处理模块1108，用于对每个视频帧的目标特征信息进行分类处理，得到每个视频帧的类别特征信息，类别特征信息包括多个动作类别对应的特征值；

信息融合模块1109，用于将多个视频帧的类别特征信息进行融合，得到融合类别特征信息；

类别确定模块1110，用于将融合类别特征信息中的最大特征值所属的动作类别，确定为视频数据的动作类别。

在另一种可能实现方式中，特征提取模块1102，还用于调用特征提取模型，分别对每个视频帧进行特征提取，得到每个视频帧的初始特征信息；

运动识别模块1103，还用于调用运动识别模型，根据多个视频帧的初始特征信息进行运动识别，得到多个视频帧的运动特征信息；

对比处理模块1104，还用于调用权重获取模型，将多个视频帧的运动特征信息进行对比处理，得到每个视频帧的权重信息；

第一融合处理模块1105，还用于调用注意力融合模型，分别对每个视频帧的初始特征信息与对应的权重信息进行融合处理，得到每个视频帧的目标特征信息。

在另一种可能实现方式中，如图12所示，装置还包括：

视频帧获取模块1101，还用于获取同一样本视频数据中的多个样本视频帧；

特征提取模块1102，还用于调用特征提取模型，分别对每个样本视频帧进行特征提取，得到每个样本视频帧的初始样本特征信息，初始样本特征信息包括多个特征维度对应的初始样本特征；

运动识别模块1103，还用于调用运动识别模型，根据多个样本视频帧的初始样本特征信息进行运动识别，得到多个样本视频帧的运动样本特征信息，运动样本特征信息包括多个特征维度对应的运动样本特征；

对比处理模块1104，还用于调用权重获取模型，将多个样本视频帧的运动样本特征信息进行对比处理，得到每个样本视频帧的样本权重信息，样本权重信息包括多个特征维度对应的权重；

第一融合处理模块1105，还用于调用注意力融合模型，分别对每个样本视频帧的初始样本特征信息与对应的样本权重信息进行融合处理，得到每个样本视频帧的目标样本特征信息；

模型训练模块1111，用于根据多个样本视频帧的目标样本特征信息，对特征提取模型、运动识别模型、权重获取模型及注意力融合模型进行训练。

在另一种可能实现方式中，如图12所示，模型训练模块1111，包括：

相似度确定单元1112，用于对于任一目标特征维度，根据多个样本视频帧的每两个样本视频帧的目标样本特征信息中，属于目标特征维度的样本特征之间的相似度，确定目标特征维度的相似度；

第一损失值确定单元1113，用于根据预设数目个目标特征维度的相似度，确定特征提取模型的第一损失值，第一损失值与预设数目个目标特征维度的相似度呈正相关关系；

第一模型训练单元1114，用于根据第一损失值，对特征提取模型、运动识别模型、权重获取模型及注意力融合模型进行训练。

分类处理单元1115，用于调用分类模型，对每个样本视频帧的目标样本特征信息进行分类处理，得到每个样本视频帧的类别特征信息，类别特征信息包括多个动作类别对应的特征值；

信息融合单元1116，用于将多个样本视频帧的类别特征信息进行融合，得到融合类别特征信息；

类别确定单元1117，用于将融合类别特征信息中的最大特征值所属的动作类别，确定为样本视频的目标动作类别；

第二损失值确定单元1118，用于根据样本视频的目标动作类别与样本视频的样本动作类别之间的差异，确定特征提取模型的第二损失值，第二损失值与差异呈正相关关系；

第二模型训练单元1119，用于根据第二损失值，对特征提取模型、运动识别模型、权重获取模型及注意力模型进行训练。

图13是本申请实施例提供的一种视频帧特征提取装置的结构示意图，如图13所示，该装置包括：

视频帧获取模块1301，用于获取同一样本视频数据中的多个样本视频帧；

特征提取模块1302，用于调用特征提取模型，分别对每个样本视频帧进行特征提取，得到每个样本视频帧的目标样本特征信息；

相似度确定模块1303，用于对于任一目标特征维度，根据多个样本视频帧的每两个样本视频帧的目标样本特征信息中，属于目标特征维度的样本特征之间的相似度之和，确定目标特征维度的相似度；

第一损失值确定模块1304，用于根据预设数目个目标特征维度的相似度，确定特征提取模型的第一损失值，第一损失值与预设数目个目标特征维度的相似度呈正相关关系；

模型训练模块1305，用于根据第一损失值，对特征提取模型进行训练；

特征提取模块1306，用于调用训练后的特征提取模型，对任一视频帧进行特征提取，得到任一视频帧的特征信息。

在一种可能实现方式中，如图14所示，装置还包括：

分类处理模块1307，用于调用分类模型，对每个样本视频帧的目标样本特征进行分类处理，得到每个样本视频帧的类别特征信息，类别特征信息包括多个动作类别对应的特征值；

信息融合模块1308，用于将多个样本视频帧的类别特征信息进行融合，得到融合类别特征信息；

类别确定模块1309，用于将融合类别特征信息中的最大特征值所属的动作类别，确定为样本视频的目标动作类别；

第二损失值确定模块1310，用于根据样本视频的目标动作类别与样本视频的样本动作类别之间的差异，确定特征提取模型的第二损失值，第二损失值与差异呈正相关关系；

模型训练模块1305，包括：

模型训练单元1351，用于根据第一损失值和第二损失值，对特征提取模型进行训练。

图15示出了本申请一个示例性实施例提供的电子设备1500的结构框图。该电子设备1500可以是便携式移动终端，比如：智能手机、平板电脑、MP3播放器（Moving PictureExperts Group Audio Layer III，动态影像专家压缩标准音频层面3）、MP4（MovingPicture Experts Group Audio Layer IV，动态影像专家压缩标准音频层面4）播放器、笔记本电脑或台式电脑。电子设备1500还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。

通常，电子设备1500包括有：处理器1501和存储器1502。

处理器1501可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器1501可以采用DSP（Digital Signal Processing，数字信号处理）、FPGA（Field－Programmable Gate Array，现场可编程门阵列）、PLA（Programmable Logic Array，可编程逻辑阵列）中的至少一种硬件形式来实现。处理器1501也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU（Central ProcessingUnit，中央处理器）；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器1501可以集成有GPU（Graphics Processing Unit，图像处理器），GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器1501还可以包括AI（Artificial Intelligence，人工智能）处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器1502可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器1502还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器1502中的非暂态的计算机可读存储介质用于存储至少一个指令，该至少一个指令用于被处理器1501所执行以实现本申请中方法实施例提供的视频帧特征提取方法。

在一些实施例中，电子设备1500还可选包括有：***设备接口1503和至少一个***设备。处理器1501、存储器1502和***设备接口1503之间可以通过总线或信号线相连。各个***设备可以通过总线、信号线或电路板与***设备接口1503相连。具体地，***设备包括：射频电路1504、显示屏1505、摄像头组件1506、音频电路1507、定位组件1508和电源1509中的至少一种。

***设备接口1503可被用于将I/O（Input /Output，输入/输出）相关的至少一个***设备连接到处理器1501和存储器1502。在一些实施例中，处理器1501、存储器1502和***设备接口1503被集成在同一芯片或电路板上；在一些其他实施例中，处理器1501、存储器1502和***设备接口1503中的任意一个或两个可以在单独的芯片或电路板上实现，本实施例对此不加以限定。

射频电路1504用于接收和发射RF（Radio Frequency，射频）信号，也称电磁信号。射频电路1504通过电磁信号与通信网络以及其他通信设备进行通信。射频电路1504将电信号转换为电磁信号进行发送，或者，将接收到的电磁信号转换为电信号。可选地，射频电路1504包括：天线***、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路1504可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于：万维网、城域网、内联网、各代移动通信网络（2G、3G、4G及5G）、无线局域网和/或WiFi(Wireless Fidelity，无线保真）网络。在一些实施例中，射频电路1504还可以包括NFC（Near Field Communication，近距离无线通信）有关的电路，本申请对此不加以限定。

显示屏1505用于显示UI（User Interface，用户界面）。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏1505是触摸显示屏时，显示屏1505还具有采集在显示屏1505的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器1501进行处理。此时，显示屏1505还可以用于提供虚拟按钮和/或虚拟键盘，也称软按钮和/或软键盘。在一些实施例中，显示屏1505可以为一个，设置在电子设备1500的前面板；在另一些实施例中，显示屏1505可以为至少两个，分别设置在电子设备1500的不同表面或呈折叠设计；在另一些实施例中，显示屏1505可以是柔性显示屏，设置在电子设备1500的弯曲表面上或折叠面上。甚至，显示屏1505还可以设置成非矩形的不规则图形，也即异形屏。显示屏1505可以采用LCD(Liquid Crystal Display，液晶显示屏)、OLED(Organic Light-Emitting Diode,有机发光二极管)等材质制备。

摄像头组件1506用于采集图像或视频。可选地，摄像头组件1506包括前置摄像头和后置摄像头。通常，前置摄像头设置在终端的前面板，后置摄像头设置在终端的背面。在一些实施例中，后置摄像头为至少两个，分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种，以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR（Virtual Reality，虚拟现实）拍摄功能或者其它融合拍摄功能。在一些实施例中，摄像头组件1506还可以包括闪光灯。闪光灯可以是单色温闪光灯，也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合，可以用于不同色温下的光线补偿。

音频电路1507可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波，并将声波转换为电信号输入至处理器1501进行处理，或者输入至射频电路1504以实现语音通信。出于立体声采集或降噪的目的，麦克风可以为多个，分别设置在电子设备1500的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器1501或射频电路1504的电信号转换为声波。扬声器可以是传统的薄膜扬声器，也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时，不仅可以将电信号转换为人类可听见的声波，也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中，音频电路1507还可以包括耳机插孔。

定位组件1508用于定位电子设备1500的当前地理位置，以实现导航或LBS（Location Based Service，基于位置的服务）。定位组件1508可以是基于美国的GPS（Global Positioning System，全球定位***）、中国的北斗***或俄罗斯的伽利略***的定位组件。

电源1509用于为电子设备1500中的各个组件进行供电。电源1509可以是交流电、直流电、一次性电池或可充电电池。当电源1509包括可充电电池时，该可充电电池可以是有线充电电池或无线充电电池。有线充电电池是通过有线线路充电的电池，无线充电电池是通过无线线圈充电的电池。该可充电电池还可以用于支持快充技术。

在一些实施例中，电子设备1500还包括有一个或多个传感器1510。该一个或多个传感器1510包括但不限于：加速度传感器1511、陀螺仪传感器1512、压力传感器1513、指纹传感器1514、光学传感器1515以及接近传感器1516。

加速度传感器1511可以检测以电子设备1500建立的坐标系的三个坐标轴上的加速度大小。比如，加速度传感器1511可以用于检测重力加速度在三个坐标轴上的分量。处理器1501可以根据加速度传感器1511采集的重力加速度信号，控制显示屏1505以横向视图或纵向视图进行用户界面的显示。加速度传感器1511还可以用于游戏或者用户的运动数据的采集。

陀螺仪传感器1512可以检测电子设备1500的机体方向及转动角度，陀螺仪传感器1512可以与加速度传感器1511协同采集用户对电子设备1500的3D动作。处理器1501根据陀螺仪传感器1512采集的数据，可以实现如下功能：动作感应（比如根据用户的倾斜操作来改变UI）、拍摄时的图像稳定、游戏控制以及惯性导航。

压力传感器1513可以设置在电子设备1500的侧边框和/或显示屏1505的下层。当压力传感器1513设置在电子设备1500的侧边框时，可以检测用户对电子设备1500的握持信号，由处理器1501根据压力传感器1513采集的握持信号进行左右手识别或快捷操作。当压力传感器1513设置在显示屏1505的下层时，由处理器1501根据用户对显示屏1505的压力操作，实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。

指纹传感器1514用于采集用户的指纹，由处理器1501根据指纹传感器1514采集到的指纹识别用户的身份，或者，由指纹传感器1514根据采集到的指纹识别用户的身份。在识别出用户的身份为可信身份时，由处理器1501授权该用户执行相关的敏感操作，该敏感操作包括解锁屏幕、查看加密信息、下载软件、支付及更改设置等。指纹传感器1514可以被设置在电子设备1500的正面、背面或侧面。当电子设备1500上设置有物理按键或厂商Logo时，指纹传感器1514可以与物理按键或厂商Logo集成在一起。

光学传感器1515用于采集环境光强度。在一个实施例中，处理器1501可以根据光学传感器1515采集的环境光强度，控制显示屏1505的显示亮度。具体地，当环境光强度较高时，调高显示屏1505的显示亮度；当环境光强度较低时，调低显示屏1505的显示亮度。在另一个实施例中，处理器1501还可以根据光学传感器1515采集的环境光强度，动态调整摄像头组件1506的拍摄参数。

接近传感器1516，也称距离传感器，通常设置在电子设备1500的前面板。接近传感器1516用于采集用户与电子设备1500的正面之间的距离。在一个实施例中，当接近传感器1516检测到用户与电子设备1500的正面之间的距离逐渐变小时，由处理器1501控制显示屏1505从亮屏状态切换为息屏状态；当接近传感器1516检测到用户与电子设备1500的正面之间的距离逐渐变大时，由处理器1501控制显示屏1505从息屏状态切换为亮屏状态。

本领域技术人员可以理解，图15中示出的结构并不构成对电子设备1500的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

图16是本申请实施例提供的一种服务器的结构示意图，该服务器1600可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器（Central ProcessingUnits，CPU）1601和一个或一个以上的存储器1602，其中，存储器1602中存储有至少一条指令，至少一条指令由处理器1601加载并执行以实现上述各个方法实施例提供的方法。当然，该服务器还可以具有有线或无线网络接口、键盘及输入输出接口等部件，以便进行输入输出，该服务器还可以包括其他用于实现设备功能的部件，在此不做赘述。

服务器1600可以用于执行上述视频帧特征提取方法。

本申请实施例还提供了一种计算机设备，该计算机设备包括处理器和存储器，存储器中存储有至少一条指令，该至少一条指令由处理器加载并执行，以实现上述实施例的视频帧特征提取方法。

本申请实施例还提供了一种计算机可读存储介质，该计算机可读存储介质中存储有至少一条指令，该至少一条指令由处理器加载并执行，以实现上述实施例的视频帧特征提取方法。

本申请实施例还提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备加载并执行以实现上述方面该的视频帧特征提取方法中所执行的操作。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本申请实施例的可选实施例，并不用以限制本申请实施例，凡在本申请实施例的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种视频帧特征提取方法，其特征在于，所述方法包括：

获取同一视频数据中的多个视频帧；

分别对所述每个视频帧的初始特征信息与对应的权重信息进行融合处理，得到所述每个视频帧的目标特征信息；

所述将所述多个视频帧的运动特征信息进行对比处理，得到所述每个视频帧的权重信息，包括：

对于所述每个视频帧，将所述视频帧的运动特征信息与所述视频帧之前的至少一个视频帧的运动特征信息进行融合处理，得到所述视频帧的融合运动特征信息，所述融合运动特征信息包括所述多个特征维度对应的融合运动特征；

对所述融合运动特征信息中的多个融合运动特征进行归一化处理，将归一化处理后的融合运动特征信息作为所述权重信息。

2.根据权利要求1所述的方法，其特征在于，所述根据所述多个视频帧的初始特征信息进行运动识别，得到所述多个视频帧的运动特征信息，包括：

对所述多个视频帧中相邻的任两个视频帧的初始特征信息进行对比处理，得到所述任两个视频帧中第一个视频帧的运动特征信息。

3.根据权利要求2所述的方法，其特征在于，所述对所述多个视频帧中相邻的任两个视频帧的初始特征信息进行对比处理，得到所述任两个视频帧中第一个视频帧的运动特征信息，包括：

对所述任两个视频帧中第一个视频帧及第二个视频帧的初始特征信息中的每个初始特征进行降维处理；

将所述第一个视频帧降维处理后的特征信息与所述第二个视频帧降维处理后的特征信息之间的差异特征信息，确定为所述第一个视频帧的运动特征信息。

4.根据权利要求3所述的方法，其特征在于，所述方法还包括：

将预设特征信息确定为所述多个视频帧中的最后一个视频帧的运动特征信息。

5.根据权利要求1所述的方法，其特征在于，所述方法还包括：

响应于所述视频帧为所述多个视频帧中的第一个视频帧，将所述视频帧的运动特征信息与所述多个视频帧中最后一个视频帧的运动特征信息进行融合处理，得到所述视频帧的融合运动特征信息。

6.根据权利要求1所述的方法，其特征在于，所述分别对所述每个视频帧的初始特征信息与对应的权重信息进行融合处理，得到所述每个视频帧的目标特征信息之后，所述方法还包括：

对所述每个视频帧的目标特征信息进行分类处理，得到所述每个视频帧的类别特征信息，所述类别特征信息包括多个动作类别对应的特征值；

将所述多个视频帧的类别特征信息进行融合，得到融合类别特征信息；

将所述融合类别特征信息中的最大特征值所属的动作类别，确定为所述视频数据的动作类别。

7.根据权利要求1所述的方法，其特征在于，所述分别对每个视频帧进行特征提取，得到所述每个视频帧的初始特征信息的步骤通过调用特征提取模型实现；

所述根据所述多个视频帧的初始特征信息进行运动识别，得到所述多个视频帧的运动特征信息的步骤通过调用运动识别模型实现；

所述将所述多个视频帧的运动特征信息进行对比处理，得到所述每个视频帧的权重信息的步骤通过调用权重获取模型实现；

所述分别对所述每个视频帧的初始特征信息与对应的权重信息进行融合处理，得到所述每个视频帧的目标特征信息的步骤通过调用注意力融合模型实现。

8.根据权利要求7所述的方法，其特征在于，所述方法还包括：

获取同一样本视频数据中的多个样本视频帧；

调用所述特征提取模型，分别对每个样本视频帧进行特征提取，得到所述每个样本视频帧的初始样本特征信息，所述初始样本特征信息包括所述多个特征维度对应的初始样本特征；

调用所述运动识别模型，根据所述多个样本视频帧的初始样本特征信息进行运动识别，得到所述多个样本视频帧的运动样本特征信息，所述运动样本特征信息包括所述多个特征维度对应的运动样本特征；

调用所述权重获取模型，将所述多个样本视频帧的运动样本特征信息进行对比处理，得到所述每个样本视频帧的样本权重信息，所述样本权重信息包括所述多个特征维度对应的权重；

调用所述注意力融合模型，分别对所述每个样本视频帧的初始样本特征信息与对应的样本权重信息进行融合处理，得到所述每个样本视频帧的目标样本特征信息；

根据所述多个样本视频帧的目标样本特征信息，对所述特征提取模型、所述运动识别模型、所述权重获取模型及所述注意力融合模型进行训练。

9.根据权利要求8所述的方法，其特征在于，所述根据所述多个样本视频帧的目标样本特征信息，对所述特征提取模型、所述运动识别模型、所述权重获取模型及所述注意力融合模型进行训练，包括：

对于任一目标特征维度，根据所述多个样本视频帧的每两个样本视频帧的目标样本特征信息中，属于目标特征维度的样本特征之间的相似度，确定所述目标特征维度的相似度；

根据所述第一损失值，对所述特征提取模型、所述运动识别模型、所述权重获取模型及所述注意力融合模型进行训练。

10.一种视频帧特征提取方法，其特征在于，所述方法包括：

获取同一样本视频数据中的多个样本视频帧；

调用特征提取模型，分别对每个样本视频帧进行特征提取，得到所述每个样本视频帧的目标样本特征信息，所述目标样本特征信息中包括多个特征维度的目标样本特征；

将所述融合类别特征信息中的最大特征值所属的动作类别，确定为所述样本视频数据的目标动作类别；

根据所述样本视频数据的目标动作类别与所述样本视频数据的样本动作类别之间的差异，确定所述特征提取模型的第二损失值，所述第二损失值与所述差异呈正相关关系；

根据所述第一损失值和所述第二损失值，对所述特征提取模型进行训练；

11.一种视频帧特征提取装置，其特征在于，所述装置包括：

视频帧获取模块，用于获取同一视频数据中的多个视频帧；

第一融合处理模块，用于分别对所述每个视频帧的初始特征信息与对应的权重信息进行融合处理，得到所述每个视频帧的目标特征信息；

所述对比处理模块，包括：

12.一种视频帧特征提取装置，其特征在于，所述装置包括：

特征提取模块，用于调用特征提取模型，分别对每个样本视频帧进行特征提取，得到所述每个样本视频帧的目标样本特征信息，所述目标样本特征信息中包括多个特征维度的目标样本特征；

分类处理模块，用于调用分类模型，对所述每个样本视频帧的目标样本特征信息进行分类处理，得到所述每个样本视频帧的类别特征信息，所述类别特征信息包括多个动作类别对应的特征值；

类别确定模块，用于将所述融合类别特征信息中的最大特征值所属的动作类别，确定为所述样本视频数据的目标动作类别；

第二损失值确定模块，用于根据所述样本视频数据的目标动作类别与所述样本视频数据的样本动作类别之间的差异，确定所述特征提取模型的第二损失值，所述第二损失值与所述差异呈正相关关系；

特征提取模块，用于调用训练后的所述特征提取模型，对任一视频帧进行特征提取，得到所述任一视频帧的特征信息；

所述模型训练模块，包括：

13.一种计算机设备，其特征在于，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条指令，所述至少一条指令由所述处理器加载并执行，以实现如权利要求1至9任一权利要求所述的视频帧特征提取方法；或者，以实现如权利要求10所述的视频帧特征提取方法。

14.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有至少一条指令，所述至少一条指令由处理器加载并执行，以实现如权利要求1至9任一权利要求所述的视频帧特征提取方法；或者，以实现如权利要求10所述的视频帧特征提取方法。