CN117014699A

CN117014699A - 一种视频数据处理方法及装置

Info

Publication number: CN117014699A
Application number: CN202210821258.2A
Authority: CN
Inventors: 卢霖
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2022-07-13
Filing date: 2022-07-13
Publication date: 2023-11-07

Abstract

本申请提供了一种视频数据处理方法以及相关装置。本申请实施例可应用于云技术、人工智能、智慧交通、辅助驾驶等各种场景。其方法包括：首先，获取含有目标对象的目标视频；接着，根据目标对象的时序动作对目标视频进行分幕，得到多个片段；然后，预测每个片段的图像特征和音频特征的标签子集；最后，根据多个片段对应的标签子集，生成目标视频的标签集合。本申请实施例提供的方法，通过视频分幕模型将目标视频分成片段，并且通过特征聚合模块对每个片段的图像特征和音频特征进行标签预测，扩展了标签的数量，提高了目标视频标签预测的准确性。

Description

一种视频数据处理方法及装置

技术领域

本申请涉及人工智能技术领域，尤其涉及一种视频数据处理方法及装置。

背景技术

随着互联网技术的发展，越来越多的广告主选择以视频的形式投放广告。视频广告设计师在制作目标产品的广告视频时常常需要参考该产品或者与该产品相关及相似的产品的转化率较高的广告视频素材，凭借经验和直觉制作目标产品的广告视频，无法具体分析出该广告视频素材是因为某几秒或者某几帧的内容吸引用户，从而带来比较高的转化率。由此，市场上应运而生出很多视频素材打标平台，为视频广告设计师提供了便捷的视频素材内容识别的服务。

但是，现有的视频素材打标平台提供的视频素材打标服务较为简易，标签数量较少，并且缺乏针对视频素材的剧情、人物或对象等较高语义的标签。由此，局限了视频广告设计师对视频素材的快速认知的能力，降级了广告视频创作的效率。

申请内容

本申请实施例提供了一种视频数据处理方法以及相关装置，通过视频分幕模型将目标视频分成片段，并且通过特征聚合模块对每个片段的图像特征和音频特征进行标签预测，扩展了标签的数量，提高了目标视频标签预测的准确性。

本申请的一方面提供一种视频数据处理方法，包括：

获取目标视频；

调用视频分幕模型对目标视频进行分幕，生成N个片段，其中，每个片段包括目标对象在目标视频中的一个时序动作，N为大于1的整数；

调用多模态视频分类模型中的第一特征提取模块，对每个片段进行图像特征提取以及音频特征提取，得到每个片段对应的特征图像序列以及特征音频序列；

将每个片段对应的特征图像序列转化为每个片段对应的第一特征图像；

将每个片段对应的特征音频序列转化为每个片段对应的频谱图；

调用多模态视频分类模型中的特征聚合模块，对每个片段对应的第一特征图像和每个片段对应的频谱图进行内容标签识别处理，得到每个片段对应的标签子集，其中，每个标签子集包括特征图像序列对应的图像标签子集和特征音频序列对应的音频标签子集；

根据每个片段对应的标签子集生成目标视频的标签集合。

本申请的另一方面提供了一种视频数据处理装置，包括：

目标视频获取模块，用于获取目标视频；

目标视频分幕模块，用于调用视频分幕模型对目标视频进行分幕，生成N个片段，其中，每个片段包括目标对象在目标视频中的一个时序动作，N为大于1的整数；

片段特征提取模块，用于调用多模态视频分类模型中的第一特征提取模块，对每个片段进行图像特征提取以及音频特征提取，得到每个片段对应的特征图像序列以及特征音频序列；

第一特征图像生成模块，用于将每个片段对应的特征图像序列转化为每个片段对应的第一特征图像；

频谱图生成模块，用于将每个片段对应的特征音频序列转化为每个片段对应的频谱图；

片段标签预测模块，用于调用多模态视频分类模型中的特征聚合模块，对每个片段对应的第一特征图像和每个片段对应的频谱图进行内容标签识别处理，得到每个片段对应的标签子集，其中，每个标签子集包括特征图像序列对应的图像标签子集和特征音频序列对应的音频标签子集；

目标视频标签生成模块，用于根据每个片段对应的标签子集生成目标视频的标签集合。

在本申请实施例的另一种实现方式中，视频数据处理装置还包括视频分幕模型训练模块；视频分幕模型训练模块包括：

第一训练视频获取子模块，用于获取第一训练视频，其中，第一训练视频包括P个标注片段，P为大于1的整数；

第一训练视频分幕子模块，用于调用视频分幕模型对第一训练视频进行分幕，生成X个第一训练片段，其中，每个第一训练片段包括第一训练对象在第一训练视频中的一个时序动作，X为大于1的整数；

第一训练子模块，用于根据P个标注片段与X个第一训练片段对视频分幕模型进行训练。

在本申请实施例的另一种实现方式中，视频数据处理装置还包括多模态视频分类模型训练模块；多模态视频分类模型训练模块包括：

第二训练视频获取子模块，用于获取第二训练视频以及第二训练视频的标注标签集合；

第二训练视频特征提取子模块，用于调用多模态视频分类模型中的第一特征提取模块，对第二训练视频进行图像特征提取以及音频特征提取，得到第二训练视频对应的训练特征图像序列以及训练特征音频序列；

训练特征图像生成子模块，用于将第二训练视频对应的训练特征图像序列转化为第二训练视频对应的训练特征图像；

训练频谱图生成子模块，用于将第二训练视频对应的训练特征音频序列转化为第二训练视频对应的训练频谱图；

第二训练视频标签预测子模块，用于调用多模态视频分类模型中的特征聚合模块，对第二训练视频对应的训练特征图像和第二训练视频对应的训练频谱图进行内容标签识别处理，得到第二训练视频对应的训练标签集合，其中，训练标签集合包括训练特征图像序列对应的训练图像标签集合和训练特征音频序列对应的训练音频标签集合；

第二训练子模块，用于根据训练标签集合与标注标签集合对多模态视频分类模型进行训练。

在本申请实施例的另一种实现方式中，目标视频分幕模块还用于：

调用视频分幕模型中的第二特征提取模块，对目标视频进行图像特征提取，生成M张第二特征图像，其中M为大于N的整数；

调用视频分幕模型中的分幕分类模块，对每张第二特征图像进行分类，得到每张第二特征图像的分割帧类别；

根据每张第二特征图像的分割帧类别，生成N个片段。

第一特征图像第一特征图像在本申请实施例的另一种实现方式中，标签子集包括至少一个标签；目标视频标签生成模块，还用于：

统计N个标签子集中的每个标签的标签频次；

从N个标签子集中选择标签频次满足预设频次的标签，生成目标视频的标签集合。

在本申请实施例的另一种实现方式中，视频数据处理装置还包括标签校验模块；标签校验模块包括：

标签添加子模块，用于接收目标视频的标签添加指令，并根据标签添加指令，在目标视频的标签集合中添加新增标签；其中，标签添加指令携带新增标签；

标签修改子模块，用于接收目标视频的标签修改指令，并根据标签修改指令，将标签集合中的第一标签修改为目标标签；其中，标签修改指令携带标签集合中的第一标签及第一标签对应的目标标签；

标签删除子模块，用于接收目标视频的标签删除指令，并根据标签删除指令，将标签集合中的第二标签进行删除；其中，标签删除指令携带标签集合中的第二标签。

本申请的另一方面提供了一种计算机设备，包括：

存储器、收发器、处理器以及总线***；

其中，存储器用于存储程序；

处理器用于执行存储器中的程序，包括执行上述各方面的方法；

总线***用于连接存储器以及处理器，以使存储器以及处理器进行通信。

本申请的另一方面提供了一种计算机可读存储介质，计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述各方面的方法。

本申请的另一方面提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述各方面所提供的方法。

从以上技术方案可以看出，本申请实施例具有以下优点：

本申请提供了一种视频数据处理方法以及相关装置，其方法包括：首先，获取含有目标对象的目标视频；接着，根据目标对象的时序动作对目标视频进行分幕，得到N个片段；然后，预测每个片段的图像特征和音频特征的标签子集；最后，根据N个片段对应的标签子集，生成目标视频的标签集合。本申请实施例提供的方法，通过视频分幕模型将目标视频分成片段，并且通过特征聚合模块对每个片段的图像特征和音频特征进行标签预测，扩展了标签的数量，提高了目标视频标签预测的准确性。

附图说明

图1为本申请某一实施例提供的视频数据处理***的一个架构示意图；

图2为本申请某一实施例提供的视频数据处理方法的流程图；

图3为本申请某一实施例提供的片段的标签子集的生成过程的示意图；

图4为本申请某一实施例提供的视频分幕模型训练方法的流程图；

图5为本申请某一实施例提供的多模态视频分类模型训练方法的流程图；

图6为本申请某一实施例提供的多模态视频分类模型训练过程的示意图；

图7为本申请另一实施例提供的视频数据处理方法的流程图；

图8为本申请某一实施例提供的目标视频分幕的处理过程的示意图；

图9为本申请另一实施例提供的视频数据处理方法的流程图；

图10为本申请又一实施例提供的视频数据处理方法的流程图；

图11为本申请某一实施例提供的标签集合修正过程的流程图；

图12为本申请某一实施例提供的目标视频的标签集合的修正界面图；

图13为本申请某一实施例提供的片段的标签子集的修正界面图；

图14为本申请某一实施例提供的对片段的标签子集的修正时产生联想标签的截面图；

图15为本申请某一实施例提供的应用于广告视频的视频数据处理过程的示意图；

图16为本申请某一实施例提供的视频数据处理装置的示意图；

图17为本申请另一实施例提供的视频数据处理装置的示意图；

图18为本申请另一实施例提供的视频数据处理装置的示意图；

图19为本申请又一实施例提供的视频数据处理装置的示意图；

图20为本申请某一实施例提供的服务器结构示意图。

具体实施方式

本申请实施例提供了一种视频数据处理方法，通过视频分幕模型将目标视频分成片段，并且对每个片段的图像特征和音频特征进行标签预测，扩展了标签的数量，提高了目标视频标签预测的准确性。

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“对应于”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

本申请实施例提供的视频数据处理方法，还涉及：

人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用***。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互***、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

本申请涉及人工智能技术下属的计算机视觉技术以及机器学习，其中，计算机视觉技术(Computer Vision，CV)计算机视觉是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能***。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。

机器学习(Machine Learning,ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

为便于理解本申请实施例提供的技术方案，这里先对本申请实施例使用的一些关键名词进行解释：

广告主：广告主是广告活动的发起者，是在网上销售或宣传自己产品和服务的商家，任何推广、销售其产品或服务的商家都可以作为广告主。广告主发布广告活动，并按照投放广告的平台完成的广告活动中规定的营销效果的总数量及单位效果价格向广告的平台支付费用。

点击率(Click Through Rate，CTR)：是指某一段时间内广告被点击的次数和曝光次数之比，是用来衡量广告推广效果的指标。点击率＝点击量/曝光量。

观看率：指某一段时间内广告被观看次数与展示次数之比，是用来衡量广告推广效果的指标。

转化率(Conversion Rate，CVR)：指某一段时间内有效激活/注册/付费用户数量和广告曝光数量之比。转化率＝转化量/曝光量。

在广告投放的背景下，广告主希望可以通过市场上的大型广告平台触及到定向的核心用户。对于广告主来说，除了依靠广告平台强大的数据库筛选出最核心的那部分用户之外，为这部分用户展示什么样的广告也是至关重要的。对于游戏广告，其广告素材需要体现出核心玩法、核心道具、核心角色以及其互动场景，在投放获客时，不同的用户群体需要看到不同玩法、不同角色和场景的广告，其转化率和后续应用内行为也是不同的。如何找准用户交给广告平台来实现，而不同的用户群体观看什么样的广告素材是完全由广告主来决定和实现的。目前行业上分析广告素材效果优劣的主要途径是通过拉取回投放完成的数据，根据单个素材的CTR、CVR、观看率等等的数据维度配合广告投放目标来进行分析，数据维度表现较好的素材会分发给视频广告设计师，由视频广告设计师制作相似的素材并且交由投放师持续投放。视频广告设计师在借鉴效果较高的老素材而后制作新素材时，需要不断的回溯和观看老素材的玩法、内容等等，并且凭借经验和直觉进行新一批次的素材的优化，无法具体分析出此素材是因为某几秒或者某几帧的内容吸引用户，从而带来比较好的数据表现。由此，市场上应运而生出很多的素材打标平台，为视频广告设计师提供了便捷的素材内容识别的服务。素材打标平台通常是通过爬虫的方式，获取各大平台上近期投放效果较好的广告进行汇总，加上一些容易爬取得到的指标如转化率、观看率等进行素材标签与投放效果的关联。但是，市面上的素材打标平台提供的素材打标服务较为简易，标签数量偏少，且缺乏针对素材剧情、人物或对象等较高语义的标签。由此局限了视频广告设计师较火热的广告素材进行快速认知的可能，降低了素材创作的效率。

本申请实施例提供的视频数据处理方法，通过视频分幕模型将目标视频分成片段，并且对每个片段的图像特征和音频特征进行标签预测，能针对广告视频提供更为丰富的标签，尤其是涉及视频剧情、目标对象的动作等高级语义的标签，扩展了标签的数量，提高了目标视频标签预测的准确性。

为了便于理解，请参阅图1，图1为本申请实施例中视频数据处理方法的应用环境图，如图1所示，本申请实施例中视频数据处理方法应用于视频数据处理***。视频数据处理***包括：服务器和终端设备；其中，服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式***，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(ContentDelivery Network，CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。终端设备包括但不限于手机、电脑、智能语音交互设备、智能家电、车载终端等。终端设备和服务器可以通过有线或无线通信方式进行直接或间接地连接，本申请实施例在此不做限制。

服务器首先获取目标视频；其次，服务器调用视频分幕模型对目标视频进行分幕，生成N个片段，每个片段包括目标对象在目标视频中的一个时序动作；接着，服务器调用多模态视频分类模型中的第一特征提取模块，对每个片段进行图像特征提取以及音频特征提取，得到每个片段对应的特征图像序列以及特征音频序列；然后，服务器调用多模态视频分类模型中的特征聚合模块，对每个片段对应的特征图像序列以及特征音频序列进行预测，得到每个片段对应的标签子集；最后，根据每个片段对应的标签子集生成目标视频的标签集合，并将标签集合发送给终端设备。终端设备提供对标签结合中的标签进行校验的服务，并将标签添加指令、标签修改指令以及标签删除指令发送至服务器。服务器根据接收到的指令，对标签集合进行相应的修正处理。

下面对本申请中视频数据处理方法进行介绍。请参阅图2，本申请实施例提供的视频数据处理方法包括：步骤S110至步骤S150。具体的：

S110、获取目标视频。

可以理解的是，本申请实施例的目的在于生成目标视频的标签集合。标签集合中的标签可以是对目标视频的图像内容及音频内容的文字描述。

S120、调用视频分幕模型对目标视频进行分幕，生成N个片段。

其中，每个片段包括目标对象在目标视频中的一个时序动作，N为大于1的整数。

需要说明的是，视频分幕模型是用来根据目标视频中的目标对象的时序动作，对目标视频进行分幕，以生成片段。分幕是指，根据目标对象的时序动作的检测结果，对目标视频进行分段的操作。

可以理解的是，通过视频分幕模型，将目标视频分成N个片段，且每个片段中包含目标对象的一个时序动作。举例说明，目标视频包含目标对象跑步、跳跃以及跳跃落地后挥动手持物品的连续性动作，调用视频分幕模型对目标视频进行分幕，生成跑步片段、跳跃片段以及挥动手持物品的片段。

S130、调用多模态视频分类模型中的第一特征提取模块，对每个片段进行图像特征提取以及音频特征提取，得到每个片段对应的特征图像序列以及特征音频序列。

需要说明的是，本申请实施例提供的多模态视频分类模型包括第一特征提取模块和特征聚合模块。第一特征提取模块用于对片段中的图像信息和音频信息进行特征提取。

可以理解的是，通过调用多模态视频分类模型中的第一特征提取模块，对每个片段随机抽取S帧视频图像和S帧音频帧。当S等于1时，抽取的是每个片段内一帧视频帧和一帧音频帧；当S大于1时，抽取的是每个片段内S个视频帧组成的特征图像序列和S个音频帧组成的特征音频序列；视频帧和音频帧具有一一对应关系，如第i帧视频帧对应于第i帧音频帧。

S140、将每个片段对应的特征图像序列转化为每个片段对应的第一特征图像。

本申请实施例以预设时间间隔对片段进行抽帧，得到片段对应的特征图像序列，调用深度学习模块，对特征图像序列进行融合，得到片段对应的第一特征图像。具体的，通过深度学习模块提取特征图像序列的时间维度以及特征图像序列中每一特征图像的空间维度的特征，将提取得到的特征图像序列的时间维度和特征图像序列中每一特征图像的空间维度的特征综合嵌入到第一特征图像。

S150、将每个片段对应的特征音频序列转化为每个片段对应的频谱图。

需要说明的是，特征聚合模块的输入是图片，故需要将特征音频序列转化为频谱图。具体的，对特征音频序列中的时域上的音频帧进行加窗处理，对加窗处理后的音频帧进行傅里叶变换，得到频域上的音频信号。对频域上的音频信号进重采样，再调用梅尔滤波器对采样后得到的音频信号进行滤波处理得到频谱图。

S160、调用多模态视频分类模型中的特征聚合模块，对每个片段对应的第一特征图像和每个片段对应的频谱图进行内容标签识别处理，得到每个片段对应的标签子集。

其中，每个标签子集包括特征图像序列对应的图像标签子集和特征音频序列对应的音频标签子集。

需要说明的是，本申请实施例提供的特征聚合模块用于预测片段的特征图像序列中每一特征图像的标签，以及预测片段的特征音频序列中音频的标签，特征聚合模块的输出为每个片段对应的标签子集，标签子集中包括特征图像序列对应的图像标签子集和特征音频序列对应的音频标签子集。

可以理解的是，将每个片段对应的第一特征图像和每个片段对应的频谱图作为特征聚合模块的输入，通过特征聚合模块对第一特征图像和频谱图进行内容标签识别处理，得到每个片段对应的标签子集。举例说明，若音频为活泼、欢快或轻松，对应的标签为light；若音频为紧张、刺激或激烈，对应的标签为“强烈的(intense)”；若音频为慢节奏、休闲或小清新，对应的标签为“舒缓的(slow)”；若音频为恐怖或幽闭，对应的标签为“恐怖的(scary)”；若音频为恢弘或史诗，对应的标签为“史诗的(epic)”；若音频为电子音乐，对应的标签为“电子的(edm)”；若音频为游戏音效，对应的标签为“游戏内音效(in-game soundeffect)”；若片段的画面为目标人物跑步的动作，对应的标签为run；若片段的画面为目标人物跳跃的动作，对应的标签为“跳跃的(jump)”等。通过特征聚合模块对目标视频的每个片段进行异步的标签子集生成过程。

S170、根据每个片段对应的标签子集生成目标视频的标签集合。

可以理解的是，将每个片段对应的标签子集组合后，生成目标视频的标签集合。

为便于理解，请参阅图3，本申请实施例可通过以下实施方式执行：首先，提取每个片段的图像特征序列和音频特征序列。接着，对图像特征序列和音频特征序列进行处理，得到图像特征序列对应的第一特征图像，和音频特征序列对应的频谱图。然后，将第一特征图像和频谱图作为特征聚合模块的输入，通过特征聚合模块输出每个片段对应的标签子集。

本申请实施例提供的方法，通过视频分幕模型将目标视频分成片段，并通过特征聚合模块对每个片段的图像特征和音频特征进行标签预测，扩展了标签的数量，提高了目标视频标签预测的准确性。

在本申请的图2对应的实施例提供的视频数据处理方法的一个可选实施例中，请参阅图4，视频分幕模型通过步骤S210至步骤S230进行训练。具体的：

S210、获取第一训练视频。

其中，第一训练视频包括P个标注片段，P为大于1的整数。

需要说明的是，本申请实施例提供的视频分幕模型的训练步骤，其目的在于使得视频分幕模型的分幕结果接近或等同于标注的结果，当视频分幕模型对应的损失结果满足预设损失值时，完成对视频分幕模型的训练。

可以理解的是，从训练集中获取第一训练视频，且第一训练视频具有人工标注的P个标注片段，每个标注片段中包含第一训练对象的一个时序动作。

S220、调用视频分幕模型对第一训练视频进行分幕，生成X个第一训练片段。

其中，每个第一训练片段包括第一训练对象在第一训练视频中的一个时序动作，X为大于1的整数。

需要说明的是，X个第一训练片段为视频分幕模型的分幕结果。

S230、根据P个标注片段与X个第一训练片段对视频分幕模型进行训练。

可以理解的是，通过P个标注片段与X个第一训练片段进行拟合，从而对视频分幕模型进行训练。

需要说明的是，上述步骤S210至步骤S230为一次训练过程，一次训练过程需要一个具有标注片段的训练视频，并在每次训练后调整视频分幕模型的参数，在实际训练过程中，需要多次训练，且每次训练都基于上一次的训练的视频分幕模型。

本申请实施例提供的方法，通过对视频分幕模型进行训练，使得视频分幕模型的输出的分幕结果尽可能接近标注片段，提高了视频分幕结果的准确性。

在本申请的图2对应的实施例提供的视频数据处理方法的一个可选实施例中，请参阅图5，多模态视频分类模型通过步骤S310至步骤S360进行训练。具体的：

S310、获取第二训练视频以及第二训练视频的标注标签集合。

需要说明的是，本申请实施例提供的多模态视频分类模型的训练步骤，其目的在于使得多模态视频分类模型预测的标签集合接近或等同于标注的标签集合，当多模态视频分类模型对应的损失结果满足预设损失值时，完成对多模态视频分类模型的训练。

可以理解的是，从训练集中获取第二训练视频，且第二训练视频具有人工标注的标注标签集合。

S320、调用多模态视频分类模型中的第一特征提取模块，对第二训练视频进行图像特征提取以及音频特征提取，得到第二训练视频对应的训练特征图像序列以及训练特征音频序列。

可以理解的是，通过调用多模态视频分类模型中的第一特征提取模块，对第二训练视频随机抽取F帧视频图像和F帧音频帧。当F等于1时，抽取的是第二训练视频内一帧视频帧和一帧音频帧；当F大于1时，抽取的是第二训练视频内F个视频帧组成的特征图像序列和S个音频帧组成的特征音频序列；视频帧和音频帧具有一一对应关系，如第i帧视频帧对应于第i帧音频帧。

S330、将第二训练视频对应的训练特征图像序列转化为第二训练视频对应的训练特征图像。

本申请实施例以预设时间间隔对第二训练视频进行抽帧，得到第二训练视频对应的训练特征图像序列，调用深度学习模块，对训练特征图像序列进行融合，得到第二训练视频对应的训练特征图像。具体的，通过深度学习模块提取训练特征图像序列的时间维度以及训练特征图像序列中每一训练特征图像的空间维度的特征，将提取得到的训练特征图像序列的时间维度和训练特征图像序列中每一训练特征图像的空间维度的特征综合嵌入到训练特征图像。

S340、将第二训练视频对应的训练特征音频序列转化为第二训练视频对应的训练频谱图。

需要说明的是，特征聚合模块的输入是图片，故需要将训练特征音频序列转化为训练频谱图。具体的，对训练特征音频序列中的时域上的音频帧进行加窗处理，对加窗处理后的音频帧进行傅里叶变换，得到频域上的音频信号。对频域上的音频信号进重采样，再调用梅尔滤波器对采样后得到的音频信号进行滤波处理得到训练频谱图。

S350、调用多模态视频分类模型中的特征聚合模块，对第二训练视频对应的训练特征图像和第二训练视频对应的训练频谱图进行内容标签识别处理，得到第二训练视频对应的训练标签集合。

其中，训练标签集合包括训练特征图像序列对应的训练图像标签集合和训练特征音频序列对应的训练音频标签集合。

需要说明的是，本申请实施例提供的特征聚合模块用于预测第二训练视频的特征图像序列中每一特征图像的标签，以及预测第二训练视频的特征音频序列中音频的标签，特征聚合模块的输出为第二训练视频对应的训练标签集合，训练标签集合中包括特征图像序列对应的图像标签集合和特征音频序列对应的音频标签集合。

S360、根据训练标签集合与标注标签集合对多模态视频分类模型进行训练。

可以理解的是，通过标注标签集合与训练标签集合进行拟合，从而对多模态视频分类模型进行训练。

需要说明的是，上述步骤S310至步骤S360为一次训练过程，一次训练过程需要一个具有标注标签集合的训练视频，并在每次训练后调整多模态视频分类模型的参数，在实际训练过程中，需要多次训练，且每次训练都基于上一次的训练的多模态视频分类模型。

为便于理解，请参阅图6，本申请实施例可通过以下实施方式执行：

S301、获取第二训练视频。

需要说明的是，第二训练视频的样本数量为200至400个。

S302、通过人工标注的方式对第二训练视频进行打标。

具体的：人工对第二训练视频进行抽帧及抽秒处理，对处理得到的视频帧中的训练对象、训练对象的时序动作以及音频进行标注，得到标注标签集合。

S303、将第二训练视频以及标注标签集合输入至多模态视频分类模型中，对多模态视频分类模型进行训练。

S304、对多模态视频分类模型输出的训练标签集合进行抽样，并对抽样得到的标签进行人工校验。若校验得到的训练标签集合的成功率及准确度低于预设值时，对多模态视频分类模型中的参数进行优化，并进入下一次多模态视频分类模型的训练过程中。若校验得到的训练标签集合的成功率及准确度高于预设值时，结束对多模态视频分类模型的训练过程。

需要说明的是，对多模态视频分类模型输出的训练标签集合中20％的训练标签进行抽样。

S305、将完成训练的多模态视频分类模型投入使用。

本申请实施例提供的方法，通过对多模态视频分类模型进行训练，使得多模态视频分类模型的输出的训练标签集合尽可能接近标注标签集合，提高了对视频进行标签预测的准确性。

在本申请的图2对应的实施例提供的视频数据处理方法的一个可选实施例中，请参阅图7，步骤S120进一步包括步骤S1201至步骤S1203。具体的：

S1201、调用视频分幕模型中的第二特征提取模块，对目标视频进行图像特征提取，生成M张第二特征图像。

其中，M为大于N的整数。

需要说明的是，通过第二特征提取模块，对目标视频进行抽帧，得到M张第二特征图像。

S1202、调用视频分幕模型中的分幕分类模块，对每张第二特征图像进行分类，得到每张第二特征图像的分割帧类别。

需要说明的是，分幕分类模块会对每张第二特征图像做出是否为分割帧的二分类预测，得到每张第二特征图像的分割帧类别。

S1203、根据每张第二特征图像的分割帧类别，生成N个片段。

可以理解的是，基于每张第二特征图像的分割帧类别，确定目标视频的N-1个分割帧，根据N-1个分割帧对目标视频进行分割，得到N个片段。分割帧之前的目标对象的时序动作与分割帧之后的时序动作不同。

为便于理解，请参阅图8，本申请实施例可通过以下实施方式执行：

S101、获取目标视频。

S102、将目标视频转化为数组格式。

S103、将数组格式的目标视频作为第二特征提取模块的输入，通过第二特征提取模块，对目标视频进行抽帧。

S104、对抽取到的视频帧进行分割帧判别。

S105、根据判别结果对目标视频进行分幕，生成N个片段。

本申请实施例提供的方法，通过视频分幕模型对目标视频进行抽帧，并对抽得的帧进行分割帧类别的预测，根据预测结果对目标视频进行分割，提高了目标视频分割的准确性。

第一特征图像第一特征图像第一特征图像第一特征图像第一特征图像第一特征图像第一特征图像第一特征图像在本申请的图2对应的实施例提供的视频数据处理方法的一个可选实施例中，请参阅图9，标签子集包括至少一个标签。步骤S170进一步包括步骤S1701至步骤S1702。具体的：

S1701、统计N个标签子集中的每个标签的标签频次。

可以理解的是，步骤S160中得到的是每个片段对应的标签子集，通过统计每个标签在N个片段中的出现的次数，取得频次满足预设频次的标签，生成目标视频的标签集合。举例说明：标签A在K个片段对应的标签子集中均存在，则标签A的标签频次为K。

S1702、从N个标签子集中选择标签频次满足预设频次的标签，生成目标视频的标签集合。

可以理解的是，可以通过筛选标签频次大于预设频次的标签，生成目标视频的标签集合；还可以通过标签频次对每个标签进行排序，筛选排序前L个标签组成目标视频的标签集合。

本申请实施例可通过以下实施方式执行：筛选N个片段的图像标签子集中图像标签频次满足预设频次的图像标签，和N个片段的音频标签子集中音频标签频次满足预设频次的音频标签；将目标视频图像标签集合与目标视频音频标签集合组成目标视频的标签集合。

本申请实施例还可通过以下实施方式执行：对N个片段对应的标签子集中的标签进行聚合，筛选标签频次满足预设频次的标签，生成目标视频的标签集合。

本申请实施例提供的方法，对每个片段的图像特征和音频特征进行标签预测，扩展了标签的数量，提高了目标视频标签预测的准确性。

在本申请的图2对应的实施例提供的视频数据处理方法的一个可选实施例中，请参阅图10，步骤S170之后还包括步骤S181、步骤S182和步骤S183；步骤S181、步骤S182和步骤S183可以同时执行也可以单独执行其中的某一个步骤。具体的：

S181、接收目标视频的标签添加指令，并根据标签添加指令，在目标视频的标签集合中添加新增标签。

其中，标签添加指令携带新增标签。

S182、接收目标视频的标签修改指令，并根据标签修改指令，将标签集合中的第一标签修改为目标标签。

其中，标签修改指令携带标签集合中的第一标签及第一标签对应的目标标签。

S183、接收目标视频的标签删除指令，并根据标签删除指令，将标签集合中的第二标签进行删除。

其中，标签删除指令携带标签集合中的第二标签。

需要说明的是，由模型生成了目标视频对应的标签集合后，可以由人工对标签集合进行校验及修正，包括新增标签、修改标签以及删除标签等标签修正方式，并将校验和修正后的标签输入至模型。

为便于理解，请参阅图11，本申请实施例可通过以下实施方式执行：

S1801、获取目标视频。

S1802、生成目标视频的标签集合。

S1803、人工校验标签集合。具体的：判断是否需要对标签集合中的标签进行修正。

若是，则执行S1804、对标签集合中的标签进行修正。

S1805、输出修正后的标签集合。

S1806、召回修正后的标签集合。

若否，则执行S1807、输出标签集合。

请参阅图12，图12为目标视频的标签集合的修正界面图。第一平台001、第二平台002、第三平台003及第四平台004是指目标视频的获取来源。时间筛选005用于对数据进行筛选。日期筛选006用于对日期进行选择。刷新007用于刷新当前界面。下载008用于下载当前界面的数据内容。视频预览010用于对目标视频进行点击播放。标签集合020用于显示模型生成目标视频的标签集合。点击率(CTR)030用于显示目标视频在平台内的点击率。转化率(CVR)040用于显示目标视频在平台内的转化率。点击计费(CPC)050用于显示目标视频在平台内的广告被点击的单价。展示计费(CPM)060用于显示目标视频的曝光价格。激活计费(CPI)070用于显示目标视频被下载激活的单价。效果计费(CPA)080用于显示目标视频投放实际效果的价格。标签编辑090用于校验工程师对模型输出的标签集合中的表情进行修正。以某一目标视频100为例，校验工程师通过点击标签编辑090，可以对需要对模型预测得到的标签集合中的标签进行修正，修正方式包括新增标签、修改标签以及删除标签。

请参阅图13，图13为片段的标签子集的修正界面图。对于目标视频，可查看到模型生成的每一片段对应的标签子集，并且可对每一标签子集中的标签进行修正，修正方式包括新增标签、修改标签以及删除标签。例如，若需要删除00:10-00:15段的标签C，仅需要点击标签C后面的×，即可对标签C进行删除。若需要在00:00-00:08段增加标签或者对标签H进行修改，则需要点击标签编辑091进入标签增加及修改界面，以增加标签或者对标签H进行修改。若需要在00:08-00:10段增加标签或者对标签B进行修改，则需要点击标签编辑092进入标签增加及修改界面，以增加标签或者对标签B进行修改。若需要在00:10-00:15段增加标签或者对标签D进行修改，则需要点击标签编辑093进入标签增加及修改界面，以增加标签或者对标签D进行修改。若需要在00:15-00:24段增加标签或者对标签F进行修改，则需要点击标签编辑094进入标签增加及修改界面，以增加标签或者对标签F进行修改。

请参阅图14，图14为对片段的标签子集的修正时产生联想标签的截面图。为防止出现人为输入标签后口径不一致的情况(例如两个场景相似都为人被车撞，校验人员在第一次输入人被车撞，第二次输入车撞人，由此产生相同意思的标签口径不一致的问题)，以及防止故事线太长，因此对标签修正做了以下的限制：1、人为标签输出被限制在30个字符之内，尽可能精简阐明故事线；2、当人为输入故事线的相关字，会自动联想出之前保存的故事线标签，可以直接勾选；3、当人为输入不够自动联想的故事标签时，在点击保存时，***提示是否确认保存。例如，校验工程师键入的输入标签0901为“车”和“人”，则根据输入标签进行关联，得到联想标签0902“车撞人”、“人开枪射击车”、“车在加速前行”以及“人正在开枪射击”,并且可以通过勾选的方式选择联想标签。

本申请实施例提供的方法，通过人工校验和修正标签，增加了目标视频的标签集合的准确性。

为了便于理解，下面将结合图15介绍一种应用于广告视频的视频数据处理方法，本申请实施例提供的应用于广告视频的视频数据处理方法，其目的在于预测广告视频的标签集合。具体的：

S1：获取广告视频。

S2：对广告视频进行分幕。

具体的：首先，调用视频分幕模型中的特征提取模块，对广告视频进行图像特征提取，生成M张第二特征图像。接着，调用视频分幕模型中的分幕分类模块，对每张第二特征图像进行分类，得到每张第二特征图像的分割帧类别。然后，根据每张第二特征图像的分割帧类别，生成N个视频片段。

S3：提取每个视频片段的图像特征和音频特征。

具体的：调用多模态视频分类模型中的第一特征提取模块，对每个视频片段进行图像特征提取以及音频特征提取，得到每个视频片段对应的特征图像序列以及特征音频序列。

S4：预测每个视频片段的标签子集。

具体的：首先，将每个视频片段对应的特征图像序列转化为每个视频片段对应的第一特征图像，以及将每个视频片段对应的特征音频序列转化为每个视频片段对应的频谱图。然后，通过特征聚合模块，对每个视频片段对应的第一特征图像和每个视频片段对应的频谱图进行内容标签识别处理，得到每个视频片段对应的标签子集。

S5：生成广告视频对应的标签集合。

具体的：首先，统计N个标签子集中的每个标签的标签频次。然后，从N个标签子集中选择标签频次满足预设频次的标签，生成广告视频的标签集合。

S6：校验及修正标签集合。

具体的：接收广告视频的标签添加指令，并根据标签添加指令，在广告视频的标签集合中添加新增标签。或者，接收广告视频的标签修改指令，并根据标签修改指令，将标签集合中的第一标签修改为目标标签。或者，接收广告视频的标签删除指令，并根据标签删除指令，将标签集合中的第二标签进行删除。

本申请实施例提供的方法，通过视频分幕模型将广告视频分成视频片段，并且对每个视频片段的图像特征和音频特征进行标签预测，扩展了广告视频的标签的数量，提高了广告视频的标签预测的准确性。

下面对本申请中的图像数据处理装置进行详细描述，请参阅图16。图16为本申请实施例中视频数据处理装置10的一个实施例示意图，视频数据处理装置10包括：

目标视频获取模块110，用于获取目标视频；

目标视频分幕模块120，用于调用视频分幕模型对目标视频进行分幕，生成N个片段，其中，每个片段包括目标对象在目标视频中的一个时序动作，N为大于1的整数；

片段特征提取模块130，用于调用多模态视频分类模型中的第一特征提取模块，对每个片段进行图像特征提取以及音频特征提取，得到每个片段对应的特征图像序列以及特征音频序列；

第一特征图像生成模块140，用于将每个片段对应的特征图像序列转化为每个片段对应的第一特征图像；

频谱图生成模块150，用于将每个片段对应的特征音频序列转化为每个片段对应的频谱图；

片段标签预测模块160，用于调用多模态视频分类模型中的特征聚合模块，对每个片段对应的第一特征图像和每个片段对应的频谱图进行内容标签识别处理，得到每个片段对应的标签子集，其中，每个标签子集包括特征图像序列对应的图像标签子集和特征音频序列对应的音频标签子集；

目标视频标签生成模块170，用于根据每个片段对应的标签子集生成目标视频的标签集合。

本申请实施例提供的装置，通过视频分幕模型将目标视频分成片段，并且对每个片段的图像特征和音频特征进行标签预测，扩展了标签的数量，提高了目标视频标签预测的准确性。

在本申请的图16对应的实施例提供的视频数据处理装置的一个可选实施例中，请参阅图17，视频数据处理装置10还包括视频分幕模型训练模块200。进一步地，视频分幕模型训练模块200包括：

本申请实施例提供的装置，通过对视频分幕模型进行训练，使得视频分幕模型的输出的分幕结果尽可能接近标注片段，提高了视频分幕结果的准确性。

在本申请的图16对应的实施例提供的视频数据处理装置的一个可选实施例中，请参阅图18，视频数据处理装置10还包括多模态视频分类模型训练模块300。进一步地，多模态视频分类模型训练模块300包括：

本申请实施例提供的装置，通过对多模态视频分类模型进行训练，使得多模态视频分类模型的输出的训练标签集合尽可能接近标注标签集合，提高了对视频进行标签预测的准确性。

在本申请的图16对应的实施例提供的视频数据处理装置的一个可选实施例中，目标视频分幕模块120还用于：

根据每张第二特征图像的分割帧类别，生成N个片段。

本申请实施例提供的装置，通过视频分幕模型对目标视频进行抽帧，并对抽得的帧进行分割帧类别的预测，根据预测结果对目标视频进行分割，提高了目标视频分割的准确性。

在本申请的图16对应的实施例提供的视频数据处理装置的一个可选实施例中，标签子集包括至少一个标签；目标视频标签生成模块170还用于：

统计N个标签子集中的每个标签的标签频次；

本申请实施例提供的装置，对每个片段的图像特征和音频特征进行标签预测，扩展了标签的数量，提高了目标视频标签预测的准确性。

在本申请的图16对应的实施例提供的视频数据处理装置的一个可选实施例中，请参阅图19，视频数据处理装置10还包括标签校验模块180。进一步地，标签校验模块包括：

本申请实施例提供的装置，通过人工校验和修正标签，增加了目标视频的标签集合的准确性。

图20是本申请实施例提供的一种服务器结构示意图，该服务器300可因配置或性能不同而产生比较大的差异，可以包括一个或一个以***处理器(central processingunits，CPU)322(例如，一个或一个以上处理器)和存储器332，一个或一个以上存储应用程序342或数据344的存储介质330(例如一个或一个以上海量存储设备)。其中，存储器332和存储介质330可以是短暂存储或持久存储。存储在存储介质330的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器322可以设置为与存储介质330通信，在服务器300上执行存储介质330中的一系列指令操作。

服务器300还可以包括一个或一个以上电源326，一个或一个以上有线或无线网络接口350，一个或一个以上输入输出接口358，和/或，一个或一个以上操作***341，例如Windows Server^TM，Mac OS X^TM，Unix^TM,Linux^TM，FreeBSD^TM等等。

上述实施例中由服务器所执行的步骤可以基于该图20所示的服务器结构。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的***，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的***，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(read-only memory，ROM)、随机存取存储器(random access memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上，以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种视频数据处理方法，其特征在于，包括：

获取目标视频；

调用视频分幕模型对所述目标视频进行分幕，生成N个片段，其中，每个所述片段包括目标对象在所述目标视频中的一个时序动作，N为大于1的整数；

调用多模态视频分类模型中的第一特征提取模块，对每个所述片段进行图像特征提取以及音频特征提取，得到每个所述片段对应的特征图像序列以及特征音频序列；

将每个所述片段对应的特征图像序列转化为每个所述片段对应的第一特征图像；

将每个所述片段对应的特征音频序列转化为每个所述片段对应的频谱图；

调用多模态视频分类模型中的特征聚合模块，对每个所述片段对应的所述第一特征图像和每个所述片段对应的所述频谱图进行内容标签识别处理，得到每个所述片段对应的标签子集，其中，每个所述标签子集包括所述特征图像序列对应的图像标签子集和所述特征音频序列对应的音频标签子集；

根据每个所述片段对应的标签子集生成所述目标视频的标签集合。

2.如权利要求1所述的视频数据处理方法，其特征在于，所述视频分幕模型通过以下步骤训练：

获取第一训练视频，其中，所述第一训练视频包括P个标注片段，P为大于1的整数；

调用所述视频分幕模型对所述第一训练视频进行分幕，生成X个第一训练片段，其中，每个所述第一训练片段包括第一训练对象在所述第一训练视频中的一个时序动作，X为大于1的整数；

根据所述P个标注片段与所述X个第一训练片段对所述视频分幕模型进行训练。

3.如权利要求1所述的视频数据处理方法，其特征在于，所述多模态视频分类模型通过以下步骤训练：

获取第二训练视频以及所述第二训练视频的标注标签集合；

调用所述多模态视频分类模型中的第一特征提取模块，对所述第二训练视频进行图像特征提取以及音频特征提取，得到所述第二训练视频对应的训练特征图像序列以及训练特征音频序列；

将所述第二训练视频对应的训练特征图像序列转化为所述第二训练视频对应的训练特征图像；

将所述第二训练视频对应的训练特征音频序列转化为所述第二训练视频对应的训练频谱图；

调用所述多模态视频分类模型中的特征聚合模块，对所述第二训练视频对应的所述训练特征图像和所述第二训练视频对应的训练频谱图进行内容标签识别处理，得到所述第二训练视频对应的训练标签集合，其中，所述训练标签集合包括所述训练特征图像序列对应的训练图像标签集合和所述训练特征音频序列对应的训练音频标签集合；

根据所述训练标签集合与所述标注标签集合对所述多模态视频分类模型进行训练。

4.如权利要求1所述的视频数据处理方法，其特征在于，所述调用视频分幕模型对所述目标视频进行分幕，生成N个片段，包括：

调用所述视频分幕模型中的第二特征提取模块，对所述目标视频进行图像特征提取，生成M张第二特征图像，其中，M为大于N的整数；

调用所述视频分幕模型中的分幕分类模块，对每张所述第二特征图像进行分类，得到每张所述第二特征图像的分割帧类别；

根据每张所述第二特征图像的分割帧类别，生成所述N个片段。

5.如权利要求1所述的视频数据处理方法，其特征在于，所述标签子集包括至少一个标签；

所述根据每个所述片段对应的标签子集生成所述目标视频的标签集合，包括：

统计N个所述标签子集中的每个标签的标签频次；

从N个所述标签子集中选择标签频次满足预设频次的标签，生成所述目标视频的标签集合。

6.如权利要求1所述的视频数据处理方法，其特征在于，所述生成所述目标视频的标签集合之后，还包括：

接收所述目标视频的标签添加指令，并根据所述标签添加指令，在所述目标视频的标签集合中添加新增标签；其中，所述标签添加指令携带所述新增标签；

或者，

接收所述目标视频的标签修改指令，并根据所述标签修改指令，将所述标签集合中的第一标签修改为目标标签；其中，所述标签修改指令携带所述标签集合中的所述第一标签及所述第一标签对应的所述目标标签；

或者，接收所述目标视频的标签删除指令，并根据所述标签删除指令，将所述标签集合中的第二标签进行删除；其中，所述标签删除指令携带所述标签集合中的所述第二标签。

7.一种视频数据处理装置，其特征在于，包括：

目标视频获取模块，用于获取目标视频；

目标视频分幕模块，用于调用视频分幕模型对所述目标视频进行分幕，生成N个片段，其中，每个所述片段包括目标对象在所述目标视频中的一个时序动作，N为大于1的整数；

片段特征提取模块，用于调用多模态视频分类模型中的第一特征提取模块，对每个所述片段进行图像特征提取以及音频特征提取，得到每个所述片段对应的特征图像序列以及特征音频序列；

第一特征图像生成模块，用于将每个所述片段对应的特征图像序列转化为每个所述片段对应的第一特征图像；

频谱图生成模块，用于将每个所述片段对应的特征音频序列转化为每个所述片段对应的频谱图；

片段标签预测模块，用于调用多模态视频分类模型中的特征聚合模块，对每个所述片段对应的所述第一特征图像和每个所述片段对应的所述频谱图进行内容标签识别处理，得到每个所述片段对应的标签子集，其中，每个所述标签子集包括所述特征图像序列对应的图像标签子集和所述特征音频序列对应的音频标签子集；

目标视频标签生成模块，用于根据每个所述片段对应的标签子集生成所述目标视频的标签集合。

8.一种计算机设备，其特征在于，包括：存储器、收发器、处理器以及总线***；

其中，所述存储器用于存储程序；

所述处理器用于执行所述存储器中的程序，包括执行如权利要求1至6中任一项所述的视频数据处理方法；

所述总线***用于连接所述存储器以及所述处理器，以使所述存储器以及所述处理器进行通信。

9.一种计算机可读存储介质，包括指令，当其在计算机上运行时，使得计算机执行如权利要求1至6中任一项所述的视频数据处理方法。

10.一种计算机程序产品，包括计算机程序，其特征在于，该计算机程序被处理器执行如权利要求1至6中任一项所述的视频数据处理方法。