WO2023040506A1

WO2023040506A1 - 一种基于模型的数据处理方法、装置、电子设备、计算机可读存储介质及计算机程序产品

Info

Publication number: WO2023040506A1
Application number: PCT/CN2022/110247
Authority: WO
Inventors: 王菡子; 王光格; 祁仲昂; 单瀛
Original assignee: 腾讯科技（深圳）有限公司
Priority date: 2021-09-16
Filing date: 2022-08-04
Publication date: 2023-03-23
Also published as: US20230353828A1; CN114282047A

Abstract

一种基于模型的数据处理方法、装置、电子设备、计算机可读存储介质及计算机程序产品，方法包括：对第一训练样本集合进行抽取，得到第二训练样本集合和查询视频，第一训练样本集合包括不同类型的视频样本；通过动作识别模型中的嵌入层网络，对第二训练样本集合进行处理，得到第一帧特征序列；通过嵌入层网络，对查询视频进行处理，得到第二帧特征序列；通过动作识别模型中的时序关系网络，对第一帧特征序列进行处理，得到第一时序关系描述子；通过时序关系网络，对第二帧特征序列进行处理，得到第二时序关系描述子；根据第一时序关系描述子和第二时序关系描述子，对动作识别模型的模型参数进行调整。

Description

一种基于模型的数据处理方法、装置、电子设备、计算机可读存储介质及计算机程序产品

相关申请的交叉引用

本申请基于申请号为202111087467.0、申请日为2021年09月16日的中国专利申请提出，并要求该中国专利申请的优先权，该中国专利申请的全部内容在此引入本申请作为参考。

技术领域

本申请涉及视频领域中的图像处理技术，尤其涉及一种基于模型的数据处理方法、装置、电子设备、计算机可读存储介质及计算机程序产品。

背景技术

基于深度学习所进行的各视频类型识别，一直以来都是各应用场景下进行大量数据分析的重要工具。例如，在图像、自然语言处理等应用场景中，对大量数据所实现的分类和识别，以此来快速准确的获得相关的分类预测结果，加速所在应用场景的功能实现。但是进行分类和识别的过程中，通常需要对大量数据实现分类和识别，以此来快速准确的获得相关的动作识别结果，但是实际应用中，针对视频中人物的动作，往往难以收集足够的标记样本以供传统机器学习提取运动模式特征，从而容易出现模型过拟合现象，影响动作识别模型的准确度。

发明内容

有鉴于此，本申请实施例提供一种基于模型的数据处理方法、装置、电子设备、计算机可读存储介质及计算机程序产品，能够增强动作识别模型的泛化性，提高动作识别模型的准确度。

本申请实施例的技术方案是这样实现的：

本申请实施例提供了一种基于模型的数据处理方法，包括：

对第一训练样本集合进行抽取，得到第二训练样本集合和查询视频，其中，所述第一训练样本集合包括不同类型的视频样本；

通过动作识别模型中的嵌入层网络，对所述第二训练样本集合进行处理，得到第一帧特征序列；

通过所述嵌入层网络，对所述查询视频进行处理，得到第二帧特征序列；

通过所述动作识别模型中的时序关系网络，对所述第一帧特征序列进行处理，得到第一时序关系描述子；

通过所述时序关系网络，对所述第二帧特征序列进行处理，得到第二时序关系描述子；

根据所述第一时序关系描述子和所述第二时序关系描述子，对所述动作识别模型的模型参数进行调整，调整后的所述动作识别模型用于对待识别视频中的动作进行识别。

本申请实施例还提供了一种基于模型的数据处理装置，包括：

样本获取模块，配置为对第一训练样本集合进行抽取，得到第二训练样本集合和查询视频，其中，所述第一训练样本集合包括不同类型的视频样本；

特征提取模块，配置为通过动作识别模型中的嵌入层网络，对所述第二训练样本集合进行处理，得到第一帧特征序列；通过所述嵌入层网络，对所述查询视频进行处理，得到第二帧特征序列；

时序处理模块，配置为通过所述动作识别模型中的时序关系网络，对所述第一帧特征序列进行处理，得到第一时序关系描述子；通过所述时序关系网络，对所述第二帧特征序列进行处理，得到第二时序关系描述子；

模型训练模块，配置为根据所述第一时序关系描述子和所述第二时序关系描述子，对所述动作识别模型的模型参数进行调整，调整后的所述动作识别模型用于对待识别视频中的动作进行识别。

本申请实施例提供了一种用于基于模型进行数据处理的电子设备，所述电子设备包括：

存储器，用于存储可执行指令；

处理器，用于运行所述存储器存储的可执行指令时，实现本申请实施例提供的基于模型的数据处理方法。

本申请实施例提供了一种计算机可读存储介质，存储有可执行指令，所述可执行指令被处理器执行时，实现本申请实施例提供的基于模型的数据处理方法。

本申请实施例提供了一种计算机程序产品，包括计算机程序或指令，所述计算机程序或指令被处理器执行时，实现本申请实施例提供的基于模型的数据处理方法。

本申请实施例具有以下有益效果：本申请实施例先通过从包括不同类型视频样本的第一训练样本集合中，抽取第二训练样本集合和查询视频作为训练数据，再通过第二训练样本集合的第一帧特征序列获取第一时序关系描述子、以及通过查询视频的第二帧特征序列获取第二时序关系描述子，最后通过根据第一时序关系描述子和第二时序关系描述子，对动作识别模型的模型参数进行调整；由于调整过程中所采用的第一时序关系描述子和第二时序关系描述子表征视频帧序列之间的时序关系，又由于动作的发生在视频中对应一定时序，因此，通过挖掘视频帧序列之间的时序关系并通过时序关系描述子调整动作识别模型的参数，使得调整后的动作识别模型能够准确地对视频中的动作进行识别，从而，能够增强模型的泛化性，提升动作识别模型的准确度。

附图说明

图1为本申请实施例提供的一种示例性的基于模型的数据处理方法的应用场景示意图；

图2为本申请实施例提供的电子设备的组成结构示意图；

图3为本申请实施例提供的基于模型的数据处理方法的一个可选的流程示意图；

图4为本申请实施例中小样本动作视频帧抽取的一个可选的示意图；

图5为本申请实施例提供的基于模型的数据处理方法的另一个可选的流程示意图；

图6为本申请实施例中视频相似判断的一个可选的过程示意图；

图7为本申请实施例提供的基于模型的数据处理方法的使用场景示意图；

图8为本申请实施例提供的一种示例性的视频识别过程的示意图；

图9为本申请实施例提供的视频目标识别方法的过程示意图。

具体实施方式

为了使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请进行详细描述，所描述的实施例不应视为对本申请的限制，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本申请保护的范围。

在以下的描述中，涉及到“一些实施例”，其描述了所有可能实施例的子集，但是可以理解，“一些实施例”可以是所有可能实施例的相同子集或不同子集，并且可以在不冲突的情况下相互结合。

对本申请实施例进行详细说明之前，对本申请实施例中涉及的名词和术语进行说明，本申请实施例中涉及的名词和术语适用于如下的解释。

1)响应于，用于表示所执行的操作所依赖的条件或者状态，当满足所依赖的条件或状态时，所执行的一个或多个操作可以是实时的，也可以具有设定的延迟；在没有特别说明的情况下，所执行的多个操作不存在执行先后顺序的限制。

2)待识别视频，互联网中可获取的各种形式的视频信息，如客户端或者智能设备中呈现的视频文件、多媒体信息等。

3)客户端，终端中实现特定功能的载体，例如，移动客户端(APP)是移动终端中特定功能的载体，例如，执行线上直播(视频推流)的功能或者是在线视频的播放功能的客户端。

4)人工神经网络，简称神经网络(Neural Network，NN)，在机器学习和认知科学领域，人工神经网络是一种模仿生物神经网络结构和功能的数学模型或计算模型，用于对函数进行估计或近似。

5)下采样，即为对样值序列进行间隔采样，也就是说，在样值序列中，间隔几个样值取样一次，如此得到的新序列就是原序列的下采样结果；例如：对于一幅图像I，尺寸为M*X，对其进行s倍下采样，能够得到尺寸为(M/s)*(X/s)的图像，其中，s是M和X的公约数。

6)元学习(Meta-Learning)，也称学会学习(Learning to Learn)，是指学习如何学习的过程。传统的机器学习是从头开始学习一个用于预测的数学模型，与人类学习、积累历史经验(也称为元知识)指导新的学习任务的过程相差较远。元学习则是学习不同的机器学习任务的学习训练过程，以及学习如何更快更好地训练一个模型。

7)小样本学习(Few-Shot Learning)，用于在少量(低于指定数量)标记样本情况下，快速高效地训练预测模型。小样本学习是元学习在监督学习领域的应用。在本申请实施例中，动作识别模型的训练为小样本学习的过程。

8)小样本学习在分类领域的训练设置信息(N-Way K-Shot)，是指在训练阶段，从训练集中抽取N个类型，每个类型对应K个样本，一共N*K个样本，该N*K个样本构成一个元任务，该元任务称为模型的支撑集(Support Set)，另外，再从除支撑集之外的剩余数据集中抽取一批样本来作为模型的预测对象(Query Set)。

9)元学习的模型训练与测试单元(Task)，由支撑集和查询集组成；举例来说，当N-Way K-Shot为5-Way 5-Shot时，从数据集中随机选取5个类型，再针对每个类型随机选取5个样本以组成支撑集，并相同类型再抽取一定数量(例如15个)、且相同类型的样本组成查询集；从而，5*5个样本组成的支撑集和15个样本组成的查询机组成一个元学习的模型训练与测试单元。

10)模型参数，是使用通用变量来建立函数和变量之间关系的参数；在人工神经网络中，模型参数通常是实数矩阵。

11)云计算，是一种计算模式，通过将计算任务分布在大量计算机构的资源池上，使各种应用***能够根据需要获取计算力、存储空间和信息服务。其中，提供资源的网络被称为“云”，“云”中的资源在使用者看来是可以无限扩展的，并且可以随时获取，按需使用，随时扩展，按使用付费。作为云计算的基础能力提供商，会建立云计算资源池平台，简称云平台，一般称为基础设施即服务(IaaS，Infrastructure as a Service)。另外，在资源池中部署多种类型的虚拟资源，供外部客户选择使用；云计算资源池中包括：计算机设备(可为虚拟化机器，包含操作***)、存储设备和网络设备。

图1为本申请实施例提供的一种示例性的基于模型的数据处理方法的应用场景示意图；参见图1，终端(示例性地示出了终端10-1和终端10-2)上设置有能够执行不同功能的客户端，其中，终端上的客户端利用不同的业务进程，通过网络300向服务器200(称为用于基于模型进行数据处理的电子设备)发送视频播放请求，以从相应的服务器200中获取不同的视频进行浏览，终端通过网络300连接服务器200，网络300可以是广域网或者局域网，又或者是二者的组合，使用无线链路实现数据传输；并且，终端通过网络300从相应的服务器200中所获取的视频类型并不相同，例如：终端既可以通过网络300从相应的服务器200中获取视频(即视频中携带视频信息或相应的视频链接)，也可以通过网络300从相应的服务器200中获取仅包括文字或图像的相应视频。服务器200中可以保存有不同类型的视频。其中，本申请实施例中不再对不同类型的视频的编译环境进行区分。对于数量众多(大于指定数量)的用户上传视频(包括但不限于短视频(视频时长小于指定时长的视频)和长视频(视频时长大于或等于指定时长的视频))，需要判断出相似视频，并对相似视频的版权信息进行合规识别，在这一过程中，可以通过动作识别模型判断向用户的客户端推送的视频是否为版权合规的视频；另外，也可以通过动作识别模型识别视频中的动作，以形成动作预告弹幕或者进度条信息中的动作预告。

以短视频为例，本申请所提供的动作识别模型可以应用于短视频播放，在短视频播放中通常会对不同来源的不同短视频进行处理，最终在用户界面(User Interface，UI)上呈现出与相应的用户相对应的待推荐视频，如果推荐的视频是盗播视频等版权不合规的视频，将直接影响用户体验。视频播放的后台数据库每天都会收到大量不同来源的视频，从中所得到与向目标用户进行视频推荐的不同视频还可以供其他应用程序调用(例如，将短视频推荐进程的推荐结果迁移至长视频推荐进程或者新闻推荐进程中)，当然，与相应的目标用户相匹配的动作识别模型也可以迁移至不同的视频推荐进程(例如，网页视频推荐进程、小程序视频推荐进程或者长视频客户端的视频推荐进程)。

其中，本申请实施例所提供的基于模型的数据处理方法是基于人工智能(Artificial Intelligence，AI)实现的，人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用***。也就是说，人工智能是计算机科学的一个综合技术，用于获取智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。因此，人工智能是研究各种智能机器的设计原理与实现方法，以使机器具有感知、推理与决策的功能。

还需要说明的是，人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能技术的基础技术一般包括传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互***和机电一体化等技术。人工智能技术的软件技术包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习(Machine learning，ML)/深度学习等几大方向。

在本申请实施例中，涉及的人工智能软件技术包括机器学习等方向。其中，机器学习是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析和算法复杂度理论等多门学科，用于研究计算机模拟或实现人类的学习行为的过程，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习通常包括深度学习(Deep Learning)等技术，深度学习包括人工神经网络(Artificial Neural Network)，例如卷积神经网络(Convolutional Neural Network，CNN)、循环神经网络(Recurrent Neural Network，RNN)、深度神经网络(Deep Neural Network，DNN)等。

下面对本申请实施例的电子设备的结构做详细说明，电子设备可以采用各种形式来实施，可以为带有视频处理功能的专用终端，例如网关，也可以为带有视频处理功能的服务器，例如图1中的服务器200。图2为本申请实施例提供的电子设备的组成结构示意图，可以理解，图2示出了服务器的示例性结构而非全部结构，根据需要实施图2示出的部分结构或全部结构。

本申请实施例提供的电子设备包括：至少一个处理器201、存储器202、用户接口203和至少一个网络接口204。电子设备20中的各个组件通过总线***205耦合在一起。可以理解，总线***205用于实现这些组件之间的连接通信。总线***205除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图2中将各种总线都标为总线***205。

其中，用户接口203可以包括显示器、键盘、鼠标、轨迹球、点击轮、按键、按钮、触感板或者触摸屏等。

可以理解，存储器202可以是易失性存储器或非易失性存储器，也可包括易失性和非易失性存储器两者。本申请实施例中的存储器202能够存储数据以支持终端(如终端10-1)的操作。这些数据的示例包括：用于在终端(如终端10-1)上操作的任何计算机程序，如操作***和应用程序。其中，操作***包含各种***程序，例如框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务。应用程序可以包含各种应用程序。

在一些实施例中，本申请实施例提供的基于模型的数据处理装置可以采用软硬件结合的方式实现，作为示例，本申请实施例提供的基于模型的数据处理装置可以是采用硬件译码处理器形式的处理器，其被编程以执行本申请实施例提供的基于模型的数据处理方法。例如，硬件译码处理器形式的处理器可以采用一个或多个应用专用集成电路(ASIC，Application Specific Integrated Circuit)、数字信号处理器(DSP，Digital Signal Processor)、可编程逻辑器件(PLD，Programmable Logic Device)、复杂可编程逻辑器件(CPLD，Complex Programmable Logic Device)、现场可编程门阵列(FPGA，Field-Programmable Gate Array)或其他电子元件。

作为本申请实施例提供的基于模型的数据处理装置采用软硬件结合实施的示例，本申请实施例所提供的基于模型的数据处理装置可以直接体现为由处理器201执行的软件模块组合，软件模块可以位于存储介质中，存储介质位于存储器202，处理器201读取存储器202中软件模块包括的可执行指令，结合必要的硬件(例如，包括处理器201以及连接到总线205的其他组件)完成本申请实施例提供的基于模型的数据处理方法。

作为示例，处理器201可以是一种集成电路芯片，具有信号的处理能力，例如通用处理器、DSP，或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等，其中，通用处理器可以是微处理器或者任何常规的处理器等。

本申请实施例中的存储器202用于存储各种类型的数据以支持电子设备20的操作。这些数据的示例包括：用于在电子设备20上操作的任何可执行指令，其中，用于实现本申请实施例的基于模型的数据处理方法的程序可以包含在可执行指令中。

在一些实施例中，本申请实施例提供的基于模型的数据处理装置可以采用软件方式实现，图2示出了存储在存储器202中的基于模型的数据处理装置2020，其可以是程序和插件等形式的软件，并包括一系列的模块，作为存储器202中存储的程序的示例，可以包括基于模型的数据处理装置2020，基于模型的数据处理装置2020中包括以下的软件模块：样本获取模块2081、特征提取模块2082、时序处理模块2083、模型训练模块2084和模型应用模块2085。当基于模型的数据处理装置2020中的软件模块被处理器201读取到RAM中并执行时，将实现本申请实施例提供的基于模型的数据处理方法。下面对动作识别模型的训练装置2020中各个软件模块的功能进行介绍。

样本获取模块2081，配置为对第一训练样本集合进行抽取，得到第二训练样本集合和查询视频，其中，所述第一训练样本集合包括不同类型的视频样本；

特征提取模块2082，配置为通过动作识别模型中的嵌入层网络，对所述第二训练样本集合进行处理，得到第一帧特征序列；通过所述嵌入层网络，对所述查询视频进行处理，得到第二帧特征序列；

时序处理模块2083，配置为通过所述动作识别模型中的时序关系网络，对所述第一帧特征序列进行处理，得到第一时序关系描述子；通过所述时序关系网络，对所述第二帧特征序列进行处理，得到第二时序关系描述子；

模型训练模块2084，配置为根据所述第一时序关系描述子和所述第二时序关系描述子，对所述动作识别模型的模型参数进行调整，调整后的所述动作识别模型用于对待识别视频中的动作进行识别。

在本申请实施例中，所述样本获取模块2081，还配置为确定所述动作识别模型的使用环境标识；根据所述使用环境标识，确定与所述动作识别模型的使用环境相匹配的历史数据；将从所述历史数据中筛选出的不同类型的视频样本，作为所述第一训练样本集合。

在本申请实施例中，所述样本获取模块2081，还配置为从所述第一训练样本集合中抽取N个类型的视频信息，其中，N为正整数；从每一个类型的视频信息中抽取K个视频样本，其中，K为正整数；将所述N个类型的所有视频样本进行组合，得到所述第二训练样本集合，其中，所述N个类型中的所有视频样本包括N*K个视频样本；从所述N个类型的视频信息中未被抽取的视频信息中，抽取至少一个视频样本，并将抽取的至少一个视频样本作为所述查询视频。

在本申请实施例中，所述特征提取模块2082，还配置为通过所述动作识别模型中的所述嵌入层网络，从所述第二训练样本集合中提取每种类型的视频帧集合，并提取所述视频帧集合对应的第一帧级别特征向量；确定所述第一帧级别特征向量所对应的第一通道数量；基于所述第一通道数量，确定与所述第一帧级别特征向量对应的第一帧级别特征向量集合，以及与所述第一帧级别特征向量集合相匹配的相似度矩阵；对所述第一帧级别特征向量集合和所述相似度矩阵进行融合，得到第二帧级别特征向量集合；通过对所述第二帧级别特征向量集合进行线性转换，得到所述第一帧特征序列。

在本申请实施例中，所述特征提取模块2082，还配置为通过所述嵌入层网络，从所述查询视频中提取第三帧级别特征向量；确定所述第三帧级别特征向量所对应的第二通道数量；基于所述第二通道数量，确定与所述第三帧级别特征向量对应的第三帧级别特征向量集合，并通过对所述第三帧级别特征向量集合进行线性转换，得到所述查询视频对应的所述第二帧特征序列。

在本申请实施例中，所述特征提取模块2082，还配置为获取所述视频帧集合的降采样结果；通过所述嵌入层网络的全连接层，对所述降采样结果进行归一化处理，并对所述视频帧集合中的不同图像帧的归一化结果，进行深度分解，得到所述第一帧级别特征向量。

在本申请实施例中，所述特征提取模块2082，还配置为确定所述第一帧特征序列对应的视频帧数、特征通道数、视频帧高度和视频帧宽度；根据所述第一帧特征序列对应的视频帧数、特征通道数、视频帧高度和视频帧宽度，对所述第一帧特征序列中的每一帧视频进行时空运动增强，所述时空运动增强用于增强所述第一帧特征序列中的每一帧视频的运动特征。

在本申请实施例中，所述特征提取模块2082，还配置为确定所述第二帧特征序列对应的视频帧数、视频通道数、视频帧高度和视频帧宽度；根据所述第二帧特征序列对应的视频帧数参数、视频通道参数、视频帧的高度参数和视频帧的宽度参数，对所述第二帧特征序列中的每一帧视频进行时空运动增强处理，所述时空运动增强用于增强所第二帧特征序列中的每一帧视频的运动特征。

在本申请实施例中，所述时序处理模块2083，还配置为确定所述第一帧特征序列的第一帧索引参数、以及所述第一帧特征序列的不同子序列；通过所述动作识别模型中的所述时序关系网络，并利用所述第一帧索引参数，确定所述不同子序列所分别对应的时序关系描述子；对所述不同子序列所分别对应的时序关系描述子进行组合，得到所述第一时序关系描述子。

在本申请实施例中，所述时序处理模块2083，还配置为确定所述第二帧特征序列的第二帧索引参数；通过所述时序关系网络，并利用所述第二帧索引参数，确定所述第二时序关系描述子。

在本申请实施例中，所述模型训练模块2084，还配置为对所述第一时序关系描述子和所述第二时序关系描述子进行比较，得到所述第一时序关系描述子和所述第二时序关系描述子的相似度；根据所述第一时序关系描述子和所述第二时序关系描述子的相似度，确定所述第一时序关系描述子中的不同类型的时序关系描述子的权重参数；根据所述时序关系描述子的权重参数，确定不同类型的视频样本的样本原型；计算所述查询视频与每一个类型的视频样本的样本原型的度量分数；将最大的度量分数所对应的视频样本的类型，确定为所述查询视频对应的小样本动作类型，并基于所述小样本动作类型调整所述动作识别模型的模型参数。

在本申请实施例中，所述训练装置还包括模型应用模块2085，配置为确定所述待识别视频中的待识别视频帧序列；通过调整后的所述动作识别模型对所述待识别视频帧序列进行动作识别，得到动作识别结果；确定与所述待识别视频相对应的版权视频；基于所述动作识别结果，确定所述待识别视频和所述版权视频对应的帧间相似度参数集合；获取所述帧间相似度参数集合中达到相似度阈值的视频帧数量；基于所述视频帧数量，确定所述待识别视频与所述版权视频的相似度。

在本申请实施例中，所述模型应用模块2085，还配置为当基于所述待识别视频与所述版权视频的相似度，确定所述待识别视频与所述版权视频相似时，获取所述待识别视频的版权信息；获取所述待识别视频的版权信息和所述版权视频的版权信息的比较结果，所述比较结果用于确定所述待识别视频的合规性；当所述比较结果表示所述待识别视频的版权信息和所述版权视频的版权信息不一致时，生成警示信息。

在本申请实施例中，所述模型应用模块2085，还配置为当基于所述待识别视频与所述版权视频的相似度，确定所述待识别视频与所述版权视频不相似时，将所述待识别视频确定为视频源中的待推荐视频，其中，所述待推荐视频携带有小样本动作识别结果；对所述视频源中的所有待推荐视频的召回顺序进行排序；基于排序结果向目标对应推荐视频。

根据图2所示的电子设备，本申请实施例还提供了一种计算机程序产品，该计算机程序产品包括计算机指令或计算机程序，该计算机指令或计算机程序存储在计算机可读存储介质中。电子设备的处理器从计算机可读存储介质读取该计算机指令或计算机程序，处理器执行该计算机指令或计算机程序，使得该电子设备执行本申请实施例提供的基于模型的数据处理方法。

下面结合图2示出的电子设备20说明本申请实施例提供的基于模型的数据处理方法。首先对相关技术的缺陷进行说明，相关技术在实现基于帧级别的小样本动作识别时，结合深度信息进行多模态特征融合学习，并且将学习到的特征在计算机可读存储介质中进行额外存储，同时还利用游戏引擎中的虚拟人物构造虚拟动作数据集；但是实际使用中，针对视频中人物的动作信息，往往难以收集足够的标记样本以供传统机器学习从数据中提取运动模式特征，从而容易出现模型过拟合现象，数据形变等数据增强操作还容易引入新的噪声，影响动作识别模型的数据处理效果，同时虚拟动作数据集的收集，提升了训练标记成本，导致训练样本的资源消耗较大，从而训练动作识别模型的资源消耗较大。

基于此，参见图3，图3为本申请实施例提供的基于模型的数据处理方法的一个可选的流程示意图；该基于模型的数据处理方法一个可选的流程由用于训练动作识别模型的电子设备执行；可以理解地，图3所示的步骤可以由运行基于模型的数据处理装置，以基于模型进行数据处理的各种电子设备执行，例如，可以是带有视频处理功能的专用终端、服务器或者服务器集群。本申请实施例提供的基于模型的数据处理方法可以用于非实时性的动作识别模型的训练，例如(包括电视剧、电影、短视频等各种视频类型)的内容分析、目标人物的动作识别等。下面针对图3示出的步骤分别进行说明。

步骤301：获取第一训练样本集合。

在本申请实施例中，第一训练样本集合包括通过历史数据所获取的不同类型的视频样本。在获取第一训练样本集合时，可以首先确定小样本动作识别模型的使用环境标识；根据使用环境标识，确定与动作识别模型的使用环境相匹配的历史数据；将从历史数据中筛选出的不同类型的视频样本作为第一训练样本集合。由于第一训练样本集合中的***具有不确定性(可以是互联网中的视频资源，也可以是电子设备所保存的本地视频文件)，通过获取与使用环境相匹配的历史数据，可以实现对小样本动作的获取，其中，图4为本申请实施例中小样本动作视频帧抽取的一个可选的示意图。如图4所示，视频在播放过程中随着时间轴推移所显示的视频画面，如图4所示，所显示的视频画面中有不同的目标对象，通过对视频画面中的目标对象进行识别，可以确定目标对象在待识别视频的不同视频帧中的所在区域，由于图4所示的3个不同的短视频中分别出现了动作4-1“打羽毛球”、动作4-2“打乒乓球”、以及动作4-3“踢足球”，通过本申请实施例所提供的基于模型的数据处理方法所训练的动作识别模型，可以分别对3个不同的短视频中所出现的动作4-1“打羽毛球”、动作4-2“打乒乓球”、以及动作4-3“踢足球”进行识别。进而，可以通过对目标对象的动作识别结果，确定待识别视频是否合规，或者是否符合版权信息要求，避免用户上传的视频被盗播，也可以阻止侵权视频的推荐与播放。

步骤302：对第一训练样本集合进行抽取，得到第二训练样本集合和查询视频。

在本申请实施例中，第二训练样本集合中的视频数量与视频类型数量均为至少一个，比如，可以将随机数确定视频数量或视频类型数量；查询视频的数量为至少一个；这里，可以从第一训练样本集合中抽取N个类型的视频信息；并从每一个类型的视频信息中抽取K个视频样本；将N个类型的所有视频样本进行组合，得到第二训练样本集合；以及从N个类型的视频信息中未被抽取的视频信息中抽取至少一个视频样本，并将抽取的至少一个视频样本作为查询视频；其中，N为正整数，K为正整数。

需要说明的是，可以采用N-Way K-Shot的训练方式对动作识别模型进行训练，从训练数据的视频类型里面抽取出N个类型，每个类型抽取出K个视频样本，从由N*K个视频样本构成第二样本集合。再从N个类型对应的剩余的视频样本中挑选出1个或多个视频样本作为查询视频。这里，对第二样本集合和查询视频中的每个视频样本进行松散采样，以将视频序列分为T个片段，并在每个片段中抽取出一帧作为该段的摘要，因此，每个视频样本由T帧帧序列表示。T帧帧序列被输入到嵌入层网络中，以进行帧特征提取处理和运动增强处理，后续将继续对帧特征提取处理和运动增强处理进行说明。

需要说明的是，抽取的方式可以是随机抽取方式，也可以是按指定间隔进行抽取的方式，又可以上述两者的结合，等等，本申请实施例对此不作限定。另外，N和K为正整数，N个类型的所有视频样本包括N*K个视频样本。

步骤303：通过动作识别模型中的嵌入层网络，对第二训练样本集合进行处理，得到第一帧特征序列。

在本申请的一些实施例中，对第二训练样本集合进行处理(是指特征提取处理)，得到第一帧特征序列可以通过以下方式实现：通过动作识别模型中的嵌入层网络，从第二训练样本集合中提取每种类型的视频帧集合，并提取视频帧集合对应的第一帧级别特征向量；确定第一帧级别特征向量所对应的第一通道数量；基于第一通道数量，确定与第一帧级别特征向量对应的第一帧级别特征向量集合，以及与第一帧级别特征向量集合相匹配的相似度矩阵；对第一帧级别特征向量集合和相似度矩阵进行融合，得到第二帧级别特征向量集合；通过对第二帧级别特征向量集合进行线性转换，得到第一帧特征序列。

需要说明的是，给定第二样本集合中的一组视频帧(称为T帧帧序列)时，可以利用一个特征提取网络在T帧(包括每个类型的每个视频样本对应的小样本动作的视频帧集合)上提取一系列帧级别的特征F{F ₁，F ₂.....F _T},其中，F _i∈F代表了在第i帧上提取的帧级别特征。由于在F中的每一个特征都有d个(称为第一通道数量)通道，可以将F中的每个特征都按通道展开，可以得到T*d个通道级别的特征

需要说明的是，在帧级别特征的融合阶段，通过计算F ^c的一个相似度矩阵s ^F来表示F ^c中每个特征之间的表观相似度。然后，对于F ^c中的第i个特征F _i ^c，根据s ^F来将F ^c中所有的特征都融合到

中，以生成对应的增强后的特征

这里，可以将生成的增强后的特征表示为

其中，F ^e中的第i个增强后的特征

是由公式1计算得到的，公式1如下所示。

其中，θ(·)表示一个由全连接层实现的线性转换函数；

表示

和

之间的表观相似度，计算方式如公式2。

其中，exp为激活函数；a _i*d,f是

和

之间的点乘结果，如公式3所示。

φ(·)和

是两个和θ(·)拥有同样功能的线性转换函数。经过帧级别的特征融合之后，第i个特征

中的信息被传播到F ^e中的其他特征中，因此在F ^e中的每个特征可以获得来自其他帧的帧级别的特征，使得所获得特征包括的信息丰富。

步骤304：通过嵌入层网络，对查询视频进行处理，得到第二帧特征序列。

在本申请的一些实施例中，可以通过嵌入层网络，从查询视频中提取第三帧级别特征向量；确定第三帧级别特征向量所对应的第二通道数量；基于第二通道数量，确定与第三帧级别特征向量对应的第三帧级别特征向量集合，并通过对第三帧级别特征向量集合进行线性转换，得到查询视频对应的第二帧特征序列。当然，对于短视频处理环境来说，也可以直接使用特征提取器(比如，深度残差网络ResNet)，将视频帧序列提取为帧级别特征，例如，短视频的视频帧图像特征可以使用基于深度残差网络ResNet50的预训练卷积神经网络进行特征抽取，把短视频的视频帧图像信息提取为2048维特征向量。ResNet在图像特征提取中有利于短视频的视频帧图像信息的表示。短视频的视频帧图像信息在用户观看前有这很大的眼球吸引力，合理贴切的短视频的视频帧图像可以很好地提升视频的的播放点击率。

在本申请的一些实施例中，还可以使用局部聚合向量(Vector of Locally Aggregated Descriptors，NetVLAD)进行特征抽取，以将视频帧图像生成128维的特征向量。在视频观看中，视频帧信息反映出视频的具体内容和视频质量，对用户观看时长有直接关联，其中，在视频服务器配置动作识别模型时，可以根据不同的使用需求灵活配置帧级别特征向量的获取方式。

步骤305：通过动作识别模型中的时序关系网络，对第一帧特征序列进行处理，得到第一时序关系描述子。

在本申请实施例中，在对第一帧特征序列进行处理(是指时序关系描述子获取)，得到第一时序关系描述子之前，为了增强样本的运动特征，还可以对所获取的帧级别特征向量(称为第一帧特征序列)进行时空运动增强处理。

需要说明的是，在进行时空运动增强处理时，动作识别模型的嵌入层网络包括特征提取器和时空运动增强(比如，STME)模块，动作识别模型的嵌入层网络用于将输入视频映射到一个新的特征空间，以便于时序关系网络继续进行处理。

在本申请实施例中，可以确定第一帧特征序列对应的视频帧数、视频通道数、视频帧高度和视频帧宽度；根据第一帧特征序列对应的视频帧数、视频通道数、视频帧高度和视频帧宽度，对第一帧特征序列中的每一帧视频进行时空运动增强处理，以实现增强第一帧特征序列中的每一帧视频的运动特征。

需要说明的是，由于运动信息可以通过两个连续帧的内容位移来测量得到，因此，在进行时空运动增强处理时，利用来自所有时空内容位移位置的信息，来增强样本特征各个区域位置的运动信息。例如，给定一个输入特征S∈R ^T×C×H×W(第一帧特征序列)，其中T指视频帧数，C指特征通道数，H和W分别指视频帧高度和视频帧宽度。

首先，分别使用不同的可学习卷积层将输入特征映射到不同的空间，同时减少特征通道数以进行高效计算，经映射后的特征内容位移可以表述为公式4，公式4如下所示。

d(t)＝conv ₂(S _t+1)-conv ₃(S _t)，1≤t≤T-1 公式4；

其中，d(t)∈R ^T×C/k×H×W，k是特征通道数的减少比，比如为8，d(t)代表t时刻的内容位移信息，conv ₂和conv ₃分别为两个1*1*1的时空卷积，S _t+1表示S中t+1帧的帧特征，S _t表示S中t帧的帧特征。设置t＝T(最后时刻)的内容位移信息为0，即为d(T)＝0，则所有的特征内容位移沿时序维度拼接，能够得到最终的运动矩阵D＝[d(1),.....d(T)]。从而，运动矩阵中各个位置的时序自注意力可由以公式5计算得到：

其中，a _p,ji表示D中每个位置p在第j帧和第i帧上的相关性，D _p,j表示D中每个位置p在第j帧上的特征内容位移，D _p,i表示D中每个位置p在第i帧上的特征内容位移，Z表示转置处理。

然后，在conv ₁(S)上应用注意力机制，得到S在conv ₁(S)特征空间中的变换特征图，其中，conv ₁为一个1*1*1时空卷积。

最后，将注意力机制对应的输出乘以标量参数λ，之后加上原始输入特征以保留背景信息，因此，时空运动增强处理过程可以表示为公式6，公式6如下所示。

其中，S _p,i和S _p,j分别代表S中位置p在第i帧和第j帧上的信息，V _p,j代表位置p增强后在第j帧的信息，时空运动增强模块的最终输出为时空运动增强后的帧特征V，V∈R ^T×C×H×W。

同理，参考公式4至公式6的处理过程，还可以确定第二帧特征序列对应的视频帧数、视频通道数、视频帧高度和视频帧宽度；根据第二帧特征序列对应的视频帧数、视频通道数、视频帧高度和视频帧宽度，对第二帧特征序列中的每一帧视频进行时空运动增强处理，以实现增强所第二帧特征序列中的每一帧视频的运动特征。至此，经时空运动增强处理后，V中的每一帧特征都实现了运动增强，在实现运动增强处理后，则基于运动增强处理后的第一帧特征序列和运动增强处理后的第二帧特征序列，执行步骤305以计算分部对应的时序关系描述子。

下面说明获取时序关系描述子的过程。

首先，先确定n(称为帧索引参数，2≤n≤T)帧间的时间关系描述子，之后从帧特征序列中获取多组n帧子序列；继续从多组n帧子序列中随机抽出l组n帧子序列(称为不同子序列)，并将l组n帧子序列映射为向量进行相加处理，最终得到n帧子序列的时间关系描述子，参考公式7，对于时空运动增强后的帧特征序列V，它的长度为T，可以通过公式7确定n帧子序列的时间关系描述子，公式7如下所示。

其中，(V ⁿ) _l＝{v _a,v _b......} _l，是从V中采样的第l组n帧子序列，由n个按时间排序的帧特征组成，a和b是帧索引。gφ(n)函数用于从n帧子序列中学习到相应时序关系，这里，gφ(n)函数由一个全连接层实现，将n帧子序列映射为一个向量。为增强学习到的时序关系，可以将l组时序关系累加，得到最终的时序关系描述子R _n(称为第一时序关系描述子)。由于时序关系至少需要从两帧中捕获，因此n最小可取2。

需要说明的是，为了充分地提取视频样本中的动态性，可以在多个时间尺度上捕获时序关系。对于长度为T的视频帧序列对应的帧特征序列，可以从中生成多组时序关系描述子，从而最终的样本级特征X(称为第一时序关系描述子)由所有时序关系描述子构成，即X＝{R _2,R _3......R _n}，n小于等于T。通过这种方式，能够以多时间尺度方式捕获视频中的动作信息，并将这些捕获到的动态信息编码为特征，以一种鲁棒的方式表示动作特征。

步骤306：通过时序关系网络，对第二帧特征序列进行处理，得到第二时序关系描述子。

在本申请的一些实施例中，可以确定第二帧特征序列的第二帧索引参数；通过时序关系网络，并利用第二帧索引参数，确定第二时序关系描述子。另外，第二时序关系描述子的获取过程与第一时序关系描述子的获取过程类似，本申请实施例在此不再重复描述。

步骤307：根据第一时序关系描述子和第二时序关系描述子，对动作识别模型的模型参数进行调整，调整后的动作识别模型用于对待识别视频中的动作进行识别。

在本申请的一些实施例中，对动作识别模型的模型参数进行调整，以实现通过调整后的动作识别模型对视频中的动作进行识别；其中，模型参数调整的过程可以通过以下方式实现：对第一时序关系描述子和第二时序关系描述子进行比较，得到第一时序关系描述子和第二时序关系描述子的相似度；根据第一时序关系描述子和第二时序关系描述子的相似度，确定第一时序关系描述子中的不同类型的时序关系描述子的权重参数；根据时序关系描述子的权重参数，确定不同类型的视频样本的样本原型；计算查询视频与每一个类型的视频样本的样本原型的度量分数；将最大的度量分数所对应的视频样本的类型，确定为查询视频对应的小样本动作类型，并基于小样本动作类型调整动作识别模型的模型参数。

需要说明的是，由于在同一类视频中存在动作形变，比如，在类型所提供的的视频样本的数量小于阈值的情况下，类型内的差异容易导致类间判别错误。为了减少这种情况的发生，可以确定同一类型中不同视频样本的时序关系描述子重要性，如此，可以赋予同一类型中判别力更强的视频样本的时序关系描述子更大的权重，以此得到最终的类型原型。

需要说明的是，在元学习过程下，每个新类型的学习是任务相关的，从而，可以对每一个任务都生成相应的注意力原型。每个视频样本的时序关系描述子的判别力由与查询视频的第二时序关系描述子的相似性来衡量，由余弦(Cosine)相似性函数g计算得到，如此，根据每个视频样本的时序关系描述子的判别力，可以得到校正后的加权原型。

第二训练样本集合对应的第一时序关系描述子中，第h(1≤h≤N)个类型对应的时序关系描述子为{x _h1,x _h2,....x _hK}，K代表第h个类型的视频样本的数量，每个视频样本的时序关系描述子的权重的计算参考公式8，公式8如下所示。

其中，

代表类型h的第r个视频样本的n帧的时序关系描述子。然后，可以计算出第h个类型的视频样本r的n帧的时序关系描述子的权重为

对于类型h，对应的原型是由一系列时序关系描述子的加权求和结果(称为加权描述子)构成；类型h的n帧的加权描述子

可以通过公式9表示，公式9如下所示。

因此，类型h的所有视频样本的n帧的加权描述子的集合，构成了类型h的n帧的最终类型原型。将查询视频的n帧的原型q ⁿ与第二训练样本集合的n帧的类型原型

(称为加权描述子)进行比较，该比较过程可以通过公式10表示，公式10如下所示。

其中，P _θ(h _pre＝h|q)为查询视频的原型q ⁿ与第二训练样本集合的n帧的类型原型

的相似性。

需要说明的是，查询视频的原型q ⁿ与各组(2至T组)类型原型

的相似性之和，就是该类型的度量分数，其中，最高度量分数对应的类型即为预测类型。当视频样本的样本原型的度量分数达到最高时，将最高度量分数对应的类型确定为查询视频对应的小样本动作类型，并基于查询视频对应的小样本动作类型调整动作识别模型的模型参数，以完成对动作识别模型的训练，实现通过训练后的动作识别模型对视频中的动作进行识别。

继续结合图2示出的电子设备20说明本申请实施例提供的基于模型的数据处理方法，参见图5，图5为本申请实施例提供的基于模型的数据处理方法的另一个可选的流程示意图；可以理解地，图5所示的步骤可以由运行视频处理功能的各种服务器执行，其中，视频处理功能通过将训练后的动作识别模型部署在服务器中实现，以对上传的视频的相似性进行识别，进而对视频的版权信息进行合规识别，当然，在部署训练后的动作识别模型之前还包括对动作识别模型的训练过程，动作识别模型的训练过程包括以步骤501至步骤506，下面对各步骤分别进行说明。

步骤501：获取第一训练样本集合，其中，第一训练样本集合为通过历史数据所获取的带有噪声的视频样本。

步骤502：对第一训练样本集合进行去噪处理，以形成相应的第二训练样本集合。

步骤503：通过动作识别模型对第二训练样本集合进行处理，以确定动作识别模型的初始参数。

步骤504：响应于动作识别模型的初始参数，通过动作识别模型对第二训练样本集合进行处理，得到动作识别模型的更新参数。

需要说明的是，可以将第二训练样本集合中不同的视频样本，代入由动作识别模型所对应的损失函数；确定损失函数满足相应的收敛条件时获得动作识别模型的更新参数。其中，收敛条件可以是达到准确度指标阈值，也可以是达到训练次数阈值，还可以是达到训练时长阈值，又可以是以上的结合，等等，本申请实施例对此不作限定。

步骤505：根据动作识别模型的更新参数，通过第二训练样本集合对动作识别模型的网络参数进行迭代更新。

其中，在动作识别模型训练时，通过交叉熵等损失函数向正确趋势逼近，损失函数直至达到相应的收敛条件。

在本申请的一些实施例中，动作识别模型中的嵌入层网络还可以使用ResNet-101模型或者轻量级网络模型(比如，ResNext-101模型)；其中，ResNext-101模型，利用社交应用上的用户标记图像作为预训练数据集，能够降低获取数据标签的资源消耗，提升数据标签的获取效率；而且，训练过程中通过微调，模型的性能能够超越基线模型(比如，ImageNet模型)的最高(State Of The Art，SOTA)水平，能够提升动作识别模型的适用范围。

步骤506：部署经过训练的动作识别模型(称为调整后的动作识别模型)。

在本申请实施例中，可以通过所部署的经过训练的动作识别模型(比如，可以部署在视频客户端运营商的服务器或者云服务器中)执行相应的动作识别，实现对用户所上传的视频的识别。

参见图6，图6为本申请实施例中视频相似判断的一个可选的过程示意图；如图6所示，该视频相似判断的一个可选的过程包括步骤601至步骤607，下面对各步骤分别进行说明。

步骤601：确定与待识别视频相对应的版权视频。

步骤602：通过调整后的动作识别模型对待识别视频进行动作识别，得到动作识别结果。

步骤603：基于动作识别结果，确定待识别视频和版权视频对应的帧间相似度参数集合。

步骤604：基于帧间相似度参数集合确定达到相似度阈值的图像帧数量，并基于图像帧数量，确定待识别视频与版权视频的相似度。

步骤605：基于待识别视频与版权视频的相似度、以及所设定的相似度阈值，判断待识别视频与版权视频是否相似；如果是执行步骤606，否则执行步骤607。

步骤606：确定待识别视频与版权视频相似。

需要说明的是，当确定待识别视频与版权视频相似时，获取待识别视频的版权信息；通过待识别视频的版权信息和版权视频的版权信息，确定待识别视频的合规性；待识别视频的版权信息和版权视频的版权信息不一致时，发出警示信息；而待识别视频的版权信息和版权视频的版权信息一致时，确定待识别视频合规。由此通过识别视频目标在待识别视频的不同视频帧中的所在区域，来判断版权视频是否被盗播。

步骤607：确定待识别视频与版权视频不同。

需要说明的是，当确定待识别视频与版权视频不相似时，将待识别视频添加至视频源，以作为待推荐视频；对视频源中的所有待推荐视频的召回顺序进行排序；基于所有待推荐视频的召回顺序的排序结果向目标对象进行视频推荐。由此通过识别视频目标在待识别视频的不同视频帧中的所在区域，确定相应的版权视频，并向用户推荐，丰富用户的视频观看选择。

在本申请的一些实施例中，还可以确定与待识别视频相对应的识别信息；基于视频目标在待识别视频的不同视频帧中的所在区域，确定待识别视频和识别信息的匹配程度；当待识别视频和识别信息的匹配程度低于报警阈值时，确定待识别视频合规，以对视频目标在待识别视频的不同视频帧中的所在区域的合规性进行自动识别，由此可以减少视频审核过程中的人工参与，提升视频合规识别的效率，减少识别的成本，同时减少用户的等待时间。

需要说明的是，由于视频服务器中的视频数量是不断增加的，因此，可以将视频的版权信息保存在区块链网络或者云服务器中，实现对视频相似性的判断。其中，该相似性的判断过程可结合云技术(Cloud Technology)或区块链网络技术实现，云技术是指在广域网或局域网内将硬件、软件及网络等系列资源统一起来，实现数据的计算、储存、处理和共享的一种托管技术，也可理解为基于云计算商业模式应用的网络技术、信息技术、整合技术、管理平台技术及应用技术等的总称；另外，由于后台服务需要大量的计算、存储资源，如视频网站、图像类网站和更多的门户网站，因此云技术以云计算作为支撑。下面以对长视频的动作预告弹幕和进度条信息中的动作预告实施环境为例，对本申请实施例提供的基于模型的数据处理方法进行说明。参见图7，图7为本申请实施例提供的基于模型的数据处理方法的使用场景示意图；如图7所示，终端(比如，终端10-1和终端10-2)上设置有能够播放相应长视频的客户端，例如，长视频播放的客户端或插件，通过相应的客户端可以获得带有弹幕信息(通过弹幕信息请求获得)和进度条信息(通过触发进度条提醒获得)的长视频并进行展示；终端通过网络300连接长视频服务器200-1(图1中服务器200的示例)。当然，用户也可以通过终端上传视频以供网络中的其他用户观看，这一过程中运营商的视频服务器通过动作识别模型对所提供的视频进行识别，以通过识别视频中的动作，并将识别出的动作形成动作预告弹幕或者进度条信息中的动作预告。

参见图8，图8为本申请实施例提供的一种示例性的视频识别过程的示意图；如图8所示，该示例性的视频识别过程包括以下步骤801至步骤807，下面对各步骤分别进行说明。

步骤801：从N段待识别的长视频的视频帧中，抽取第二训练样本集合。

需要说明的是，当N段待识别的长视频为3段待识别的长视频时，第二训练样本集合至少包括：第一视频中的动作1“打羽毛球”、第二视频中的动作2“打乒乓球”、以及第三视频中的动作3“打篮球”的视频帧。

步骤802：通过动作识别模型中的嵌入层网络分别提取第二训练样本集合和查询视频的视频帧序列。

需要说明的是，视频帧序列包括N个类型(C ₁至C _N)的视频样本对应的视频帧序列和查询视频的视频帧序列。

步骤803：利用动作识别模型中的嵌入层网络，对视频帧序列进行时空运动增强处理。

需要说明的是，嵌入层网络包括残差网络(ResNet)和时空运动增强模块(STME)。

需要说明的是，时空运动增强处理以实现增强第一帧特征序列中的每一帧视频的运动特征。

步骤804：通过动作识别模型中的时序关系网络，对不同视频帧序列进行处理，得到相应的时序关系描述子。

步骤805：根据不同时序关系描述子，对动作识别模型的模型参数进行调整。

步骤806：通过调整后的动作识别模型对视频信息中的动作进行识别，得到不同视频中小样本动作的识别结果。

步骤807：通过动作识别模型识别视频中的动作，并基于识别出的动作形成动作预告弹幕或者进度条信息中的动作预告。

如图9所示，通过调整后的动作识别模型识别视频中的动作，以形成动作预告弹幕(如图9示出的弹幕信息9-1)，该动作预告弹幕可以在视频播放界面显示。

本申请实施例所提供的基于模型的数据处理方法所获得的调整后的动作识别模型，能够鲁棒并精确地将视频中的的小样本动作识别出来。将调整后的动作识别模型数据集(比如，数据集MiniKinetics，数据集UCF101和数据集HMDB51)上进行测试，测试结果参考表1和表2；其中，表1为基线模型1至基线模型10、以及调整后的动作识别模型，在数据集(数据集MiniKinetics)上分别采用一次学习至五次学习的方式进行测试所获得的结果；表2为基线模型1、基线模型8、基线模型10、基线模型11、以及调整后的动作识别模型，在数据集(数据集UCF101和数据集HMDB51)上分别采用一次学习、三次学习和五次学习的方式进行测试所获得的结果。由表1和表2可知，相比于基线模型1至基线模型10，本申请实施例提供的调整后的动作识别模型的在这三个数据集上都获得了最高的识别精确度。表1和表2如下所示。

表1

表2

有益技术效果：本申请实施例先通过从包括不同类型视频样本的第一训练样本集合中，抽取第二训练样本集合和查询视频作为训练数据，再通过第二训练样本集合的第一帧特征序列获取第一时序关系描述子、以及通过查询视频的第二帧特征序列获取第二时序关系描述子，最后通过根据第一时序关系描述子和第二时序关系描述子，对动作识别模型的模型参数进行调整；由于调整过程中所采用的第一时序关系描述子和第二时序关系描述子表征视频帧序列之间的时序关系，又由于动作的发生在视频中对应一定时序，因此，通过挖掘视频帧序列之间的时序关系并通过时序关系描述子调整动作识别模型的参数，使得调整后的动作识别模型能够准确地对视频中的动作进行识别，从而，能够增强模型的泛化性，提升动作识别模型的准确度。

可以理解的是，在本申请实施例中，涉及到视频等相关的数据，当本申请实施例运用到具体产品或技术中时，需要获得用户许可或者同意，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。

以上所述，仅为本申请的实施例而已，并非用于限定本申请的保护范围，凡在本申请的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本申请的保护范围之内。

Claims

一种基于模型的数据处理方法，所述方法由电子设备执行，所述方法包括：

对第一训练样本集合进行抽取，得到第二训练样本集合和查询视频，其中，所述第一训练样本集合包括不同类型的视频样本；

通过动作识别模型中的嵌入层网络，对所述第二训练样本集合进行处理，得到第一帧特征序列；

通过所述嵌入层网络，对所述查询视频进行处理，得到第二帧特征序列；

通过所述动作识别模型中的时序关系网络，对所述第一帧特征序列进行处理，得到第一时序关系描述子；

通过所述时序关系网络，对所述第二帧特征序列进行处理，得到第二时序关系描述子；

根据所述第一时序关系描述子和所述第二时序关系描述子，对所述动作识别模型的模型参数进行调整，调整后的所述动作识别模型用于对待识别视频中的动作进行识别。
根据权利要求1所述的方法，其中，所述对第一训练样本集合进行抽取，得到第二训练样本集合和查询视频之前，所述方法还包括：

确定所述动作识别模型的使用环境标识；

根据所述使用环境标识，确定与所述动作识别模型的使用环境相匹配的历史数据；

将从所述历史数据中筛选出的不同类型的视频样本，作为所述第一训练样本集合。
根据权利要求1所述的方法，其中，所述对第一训练样本集合进行抽取，得到第二训练样本集合和查询视频，包括：

从所述第一训练样本集合中抽取N个类型的视频信息，其中，N为正整数；

从每一个类型的视频信息中抽取K个视频样本，其中，K为正整数；

将所述N个类型的所有视频样本进行组合，得到所述第二训练样本集合，其中，所述N个类型中的所有视频样本包括N*K个视频样本；

从所述N个类型的视频信息中未被抽取的视频信息中，抽取至少一个视频样本，并将抽取的至少一个视频样本作为所述查询视频。
根据权利要求1所述的方法，其中，所述通过动作识别模型中的嵌入层网络，对所述第二训练样本集合进行处理，得到第一帧特征序列，包括：

通过所述动作识别模型中的所述嵌入层网络，从所述第二训练样本集合中提取每种类型的视频帧集合，并提取所述视频帧集合对应的第一帧级别特征向量；

确定所述第一帧级别特征向量所对应的第一通道数量；

基于所述第一通道数量，确定与所述第一帧级别特征向量对应的第一帧级别特征向量集合，以及与所述第一帧级别特征向量集合相匹配的相似度矩阵；

对所述第一帧级别特征向量集合和所述相似度矩阵进行融合，得到第二帧级别特征向量集合；

通过对所述第二帧级别特征向量集合进行线性转换，得到所述第一帧特征序列。
根据权利要求1所述的方法，其中，所述通过所述嵌入层网络，对所述查询视频进行处理，得到第二帧特征序列，包括：

通过所述嵌入层网络，从所述查询视频中提取第三帧级别特征向量；

确定所述第三帧级别特征向量所对应的第二通道数量；

基于所述第二通道数量，确定与所述第三帧级别特征向量对应的第三帧级别特征向量集合，并通过对所述第三帧级别特征向量集合进行线性转换，得到所述查询视频对应的所述第二帧特征序列。
根据权利要求4所述的方法，其中，所述提取所述视频帧集合对应的第一帧级别特征向量，包括：

获取所述视频帧集合的降采样结果；

通过所述嵌入层网络的全连接层，对所述降采样结果进行归一化处理，并对所述视频帧集合中的不同图像帧的归一化结果，进行深度分解，得到所述第一帧级别特征向量。
根据权利要求1所述的方法，其中，所述方法还包括：

确定所述第一帧特征序列对应的视频帧数、特征通道数、视频帧高度和视频帧宽度；

根据所述第一帧特征序列对应的视频帧数、特征通道数、视频帧高度和视频帧宽度，对所述第一帧特征序列中的每一帧视频进行时空运动增强，所述时空运动增强用于增强所述第一帧特征序列中的每一帧视频的运动特征。
根据权利要求1所述的方法，其中，所述方法还包括：

确定所述第二帧特征序列对应的视频帧数、视频通道数、视频帧高度和视频帧宽度；

根据所述第二帧特征序列对应的视频帧数参数、视频通道参数、视频帧的高度参数和视频帧的宽度参数，对所述第二帧特征序列中的每一帧视频进行时空运动增强处理，所述时空运动增强用于增强所第二帧特征序列中的每一帧视频的运动特征。
根据权利要求1所述的方法，其中，所述通过所述动作识别模型中的时序关系网络，对所述第一帧特征序列进行处理，得到第一时序关系描述子，包括：

确定所述第一帧特征序列的第一帧索引参数、以及所述第一帧特征序列的不同子序列；

通过所述动作识别模型中的所述时序关系网络，并利用所述第一帧索引参数，确定所述不同子序列所分别对应的时序关系描述子；

对所述不同子序列所分别对应的时序关系描述子进行组合，得到所述第一时序关系描述子。
根据权利要求1所述的方法，其中，所述通过所述时序关系网络，对所述第二帧特征序列进行处理，得到第二时序关系描述子，包括：

确定所述第二帧特征序列的第二帧索引参数；

通过所述时序关系网络，并利用所述第二帧索引参数，确定所述第二时序关系描述子。
根据权利要求1至10任一项所述的方法，其中，所述根据所述第一时序关系描述子和所述第二时序关系描述子，对所述动作识别模型的模型参数进行调整，包括：

对所述第一时序关系描述子和所述第二时序关系描述子进行比较，得到所述第一时序关系描述子和所述第二时序关系描述子的相似度；

根据所述第一时序关系描述子和所述第二时序关系描述子的相似度，确定所述第一时序关系描述子中的不同类型的时序关系描述子的权重参数；

根据所述时序关系描述子的权重参数，确定不同类型的视频样本的样本原型；

计算所述查询视频与每一个类型的视频样本的样本原型的度量分数；

将最大的度量分数所对应的视频样本的类型，确定为所述查询视频对应的小样本动作类型，并基于所述小样本动作类型调整所述动作识别模型的模型参数。
根据权利要求1所述的方法，其中，所述方法还包括：

确定所述待识别视频中的待识别视频帧序列；

通过调整后的所述动作识别模型对所述待识别视频帧序列进行动作识别，得到动作识别结果；

确定与所述待识别视频相对应的版权视频；

基于所述动作识别结果，确定所述待识别视频和所述版权视频对应的帧间相似度参数集合；

获取所述帧间相似度参数集合中达到相似度阈值的视频帧数量；

基于所述视频帧数量，确定所述待识别视频与所述版权视频的相似度。
根据权利要求12所述的方法，其中，所述方法还包括：

当基于所述待识别视频与所述版权视频的相似度，确定所述待识别视频与所述版权视频相似时，获取所述待识别视频的版权信息；

获取所述待识别视频的版权信息和所述版权视频的版权信息的比较结果，所述比较结果用于确定所述待识别视频的合规性；

当所述比较结果表示所述待识别视频的版权信息和所述版权视频的版权信息不一致时，生成警示信息。
根据权利要求12所述的方法，其中，所述方法还包括：

当基于所述待识别视频与所述版权视频的相似度，确定所述待识别视频与所述版权视频不相似时，将所述待识别视频确定为视频源中的待推荐视频，其中，所述待推荐视频携带有小样本动作识别结果；

对所述视频源中的所有待推荐视频的召回顺序进行排序；

基于排序结果向目标对应推荐视频。
一种基于模型的数据处理装置，所述数据处理装置包括：

样本获取模块，配置为对第一训练样本集合进行抽取，得到第二训练样本集合和查询视频，其中，所述第一训练样本集合包括不同类型的视频样本；

特征提取模块，配置为通过动作识别模型中的嵌入层网络，对所述第二训练样本集合进行处理，得到第一帧特征序列；通过所述嵌入层网络，对所述查询视频进行处理，得到第二帧特征序列；

时序处理模块，配置为通过所述动作识别模型中的时序关系网络，对所述第一帧特征序列进行处理，得到第一时序关系描述子；通过所述时序关系网络，对所述第二帧特征序列进行处理，得到第二时序关系描述子；

模型训练模块，配置为根据所述第一时序关系描述子和所述第二时序关系描述子，对所述动作识别模型的模型参数进行调整，调整后的所述动作识别模型用于对待识别视频中的动作进行识别。
一种用于基于模型进行数据处理的电子设备，所述电子设备包括：

存储器，用于存储可执行指令；

处理器，用于运行所述存储器存储的可执行指令时，实现权利要求1至14任一项所述的基于模型的数据处理方法。
一种计算机可读存储介质，存储有可执行指令，所述可执行指令被处理器执行时，实现权利要求1至14任一项所述的基于模型的数据处理方法。
一种计算机程序产品，包括计算机程序或指令，所述计算机程序或指令被处理器执行时，实现权利要求1至14任一项所述的基于模型的数据处理方法。