CN117011744A

CN117011744A - 视频片段的确定方法、装置、设备、存储介质及程序产品

Info

Publication number: CN117011744A
Application number: CN202211485084.3A
Authority: CN
Inventors: 甘蓓; 谯睿智; 吴昊谦
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2022-11-24
Filing date: 2022-11-24
Publication date: 2023-11-07

Abstract

本申请提供了一种视频片段的确定方法、装置、设备、存储介质及程序产品；方法包括：获取对目标视频进行视频分片所得到的视频分片序列；针对视频分片序列中各视频分片，对各视频关键帧进行特征提取，得到各视频关键帧的画面特征，并对视频分片中与各视频关键帧对应的音频帧进行特征提取，得到各音频帧的音频特征；将各视频分片的画面特征和相应的音频特征进行特征融合，得到各视频分片的融合特征；基于各视频分片的融合特征，分别对各视频分片在目标视频中的关键程度进行预测，得到视频分片序列对应的关键程度序列；基于关键程度序列，从目标视频中确定关键视频片段。通过本申请，能够有效提高确定视频中关键视频片段的准确率。

Description

视频片段的确定方法、装置、设备、存储介质及程序产品

技术领域

本申请涉及计算机技术领域，尤其涉及一种视频片段的确定方法、装置、电子设备、存储介质及程序产品。

背景技术

人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用***。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

在相关技术中，对于视频片段的检测，通常是通过图片级别的结构化检测的方式实现，对于视频画面较为复杂多变的视频，由于结构化程度复杂，导致相关技术中检测视频片段的准确率较低。

发明内容

本申请实施例提供一种视频片段的确定方法、装置、电子设备、计算机可读存储介质及计算机程序产品，能够有效提高确定视频中关键视频片段的准确率。

本申请实施例的技术方案是这样实现的：

本申请实施例提供一种视频片段的确定方法，包括：

获取对目标视频进行视频分片所得到的视频分片序列，其中，每个所述视频分片包括至少一个视频关键帧，以及与各所述视频关键帧对应的音频帧；

针对所述视频分片序列中各所述视频分片，对各所述视频关键帧进行特征提取，得到各所述视频关键帧的画面特征，并对所述视频分片中与各所述视频关键帧对应的音频帧进行特征提取，得到各所述音频帧的音频特征；

将各所述视频分片的画面特征和相应的所述音频特征进行特征融合，得到各所述视频分片的融合特征；

基于各所述视频分片的融合特征，分别对各所述视频分片在所述目标视频中的关键程度进行预测，得到所述视频分片序列对应的关键程度序列；

基于所述关键程度序列，从所述目标视频中确定关键视频片段。

本申请实施例提供一种视频片段的确定装置，包括：

获取模块，用于获取对目标视频进行视频分片所得到的视频分片序列，其中，每个所述视频分片包括至少一个视频关键帧，以及与各所述视频关键帧对应的音频帧；

特征提取模块，用于针对所述视频分片序列中各所述视频分片，对各所述视频关键帧进行特征提取，得到各所述视频关键帧的画面特征，并对所述视频分片中与各所述视频关键帧对应的音频帧进行特征提取，得到各所述音频帧的音频特征；

特征融合模块，用于将各所述视频分片的画面特征和相应的所述音频特征进行特征融合，得到各所述视频分片的融合特征；

预测模块，用于基于各所述视频分片的融合特征，分别对各所述视频分片在所述目标视频中的关键程度进行预测，得到所述视频分片序列对应的关键程度序列；

确定模块，用于基于所述关键程度序列，从所述目标视频中确定关键视频片段。

在一些实施例中，上述获取模块，还用于获取目标视频，以及分片步长，所述分片步长表征所述视频分片所包括的视频帧的数量，所述视频帧包括所述视频关键帧和视频非关键帧；按照所述分片步长，对所述目标视频进行视频分片，得到所述视频分片序列。

在一些实施例中，上述特征融合模块，还用于针对各所述视频分片分别执行以下处理：将所述视频分片的各所述画面特征进行拼接，得到所述视频分片的拼接画面特征，并将所述视频分片的各所述音频特征进行拼接，得到所述视频分片的拼接音频特征；获取所述视频分片的画面权重及音频权重，并基于所述视频分片的画面权重及音频权重对所述视频分片的拼接画面特征及拼接音频特征进行加权融合，得到所述视频分片的融合特征。

在一些实施例中，上述预测模块，还用于基于各所述视频分片的融合特征，调用目标预测模型，对各所述视频分片进行预测，得到各所述视频分片的关键程度；按照所述视频分片序列中各所述视频分片的播放时刻先后顺序，将各所述视频分片的关键程度，组合为候选关键程度序列；对所述候选关键程度序列进行平滑处理，得到所述视频分片序列对应的关键程度序列。

在一些实施例中，上述预测模块，还用于获取所述候选关键程度序列中各所述关键概率所对应视频分片的播放时刻，以及平滑时刻区间，并将各所述播放时刻与所述平滑时刻区间进行比较，得到各所述关键概率对应的区间比较结果；基于所述区间比较结果，对所述候选关键程度序列中播放时刻处于所述平滑时刻区间的关键概率进行平滑，得到所述关键程度序列。

在一些实施例中，上述预测模块，还用于针对所述候选关键程度序列中播放时刻处于所述平滑时刻区间的各所述关键概率分别执行处理：在所述候选关键程度序列中，以所述关键概率在所述候选关键程度序列中的位置为中心位置，等间隔选取至少两个参考关键概率；将所述至少两个参考关键概率进行加权平均，得到加权平均概率，并将所述加权平均概率，确定为所述关键概率对应的平滑关键概率。

在一些实施例中，上述视频片段的确定装置，还包括：训练模块，用于获取至少两个视频分片样本，所述至少两个视频分片样本归属于不同视频主题，每个所述视频分片样本包括至少一个视频关键帧样本，以及与各所述视频关键帧样本对应的音频帧样本；针对各所述视频分片样本，对所述视频关键帧样本进行特征提取，得到所述视频关键帧样本的画面样本特征，并对所述视频分片样本中与所述视频关键帧样本对应的音频帧样本进行特征提取，得到所述音频帧样本的音频样本特征；将各所述视频分片样本的画面样本特征和相应的所述音频样本特征进行特征融合，得到各所述视频分片样本的融合样本特征；基于各所述视频分片样本的融合样本特征，调用预测模型，对各所述视频分片样本进行预测，得到各所述视频分片样本的预测关键概率；基于各所述视频分片样本的预测关键概率，对所述预测模型进行训练，得到所述目标预测模型。

在一些实施例中，上述训练模块，还用于获取各所述视频分片样本的标签关键概率；基于各所述标签关键概率和相应的所述预测关键概率，确定各所述标签关键概率的损失值；将各所述标签关键概率的损失值进行求和，得到训练损失值；基于所述训练损失值，对所述预测模型进行训练，得到所述目标预测模型。

在一些实施例中，上述确定模块，还用于从所述关键程度序列中，获取由连续的多个关键程度构成的至少一个关键程度子序列，所述关键程度子序列中所述关键程度的数量大于或等于第一阈值；其中，所述关键程度子序列中各所述关键程度大于或等于关键程度阈值；从所述视频分片序列中，确定各所述关键程度子序列对应的视频分片子序列；从所述目标视频中，确定各所述视频分片子序列对应的视频片段，并将各所述视频片段确定为所述关键视频片段。

在一些实施例中，上述确定模块，还用于从所述关键程度序列中，获取由连续的多个关键程度构成的至少一个关键程度子序列，所述关键程度子序列中所述关键程度的数量大于或等于第一阈值，且所述关键程度子序列中所述关键程度的数量小于或等于第二阈值；其中，所述关键程度子序列中，达到关键程度阈值的关键程度的数量大于或等于第三阈值；从所述视频分片序列中，确定各所述关键程度子序列对应的视频分片子序列；从所述目标视频中，确定各所述视频分片子序列对应的视频片段，并将各所述视频片段确定为所述关键视频片段。

在一些实施例中，上述视频片段的确定装置，还包括：推荐模块，用于对所述目标视频中所述关键视频片段进行剪辑，得到所述关键视频片段；获取对所述目标视频感兴趣的目标对象；向所述目标对象推荐所述关键视频片段。

本申请实施例提供一种电子设备，包括：

存储器，用于存储计算机可执行指令或者计算机程序；

处理器，用于执行所述存储器中存储的计算机可执行指令或者计算机程序时，实现本申请实施例提供的视频片段的确定方法。

本申请实施例提供一种计算机可读存储介质，存储有计算机可执行指令，用于引起处理器执行时，实现本申请实施例提供的视频片段的确定方法。

本申请实施例提供了一种计算机程序产品，该计算机程序产品包括计算机程序或计算机可执行指令，该计算机程序或计算机可执行指令存储在计算机可读存储介质中。电子设备的处理器从计算机可读存储介质读取该计算机可执行指令，处理器执行该计算机可执行指令，使得该电子设备执行本申请实施例上述的视频片段的确定方法。

本申请实施例具有以下有益效果：

通过获取对目标视频进行视频分片所得到的视频分片序列，对于视频分片序列中的各视频分片的视频关键帧和音频帧进行特征提取，得到画面特征和音频特征，并将画面特征和音频特征进行融合，得到融合特征。基于视频分片的融合特征，进行预测，得到关键程度序列，基于关键程度序列，从目标视频中确定关键视频片段。如此，有效融合了视频的音频和画面两种模态的特征，使得所确定的融合特征能够更加准确的反映各视频分片的特点，后续在利用融合特征进行预测，由于融合特征能够更加准确的反映各视频分片的特点，从而使得预测的准确率更高，有效提高了所确定的视频中关键视频片段的准确率。

附图说明

图1是相关技术中确定视频片段的原理示意图；

图2是本申请实施例提供的视频片段的确定***的架构示意图；

图3是本申请实施例提供的用于视频片段的确定电子设备的结构示意图；

图4是本申请实施例提供的视频片段的确定方法的流程示意图；

图5是本申请实施例提供的视频片段的确定方法的流程示意图；

图6是本申请实施例提供的视频片段的确定方法的流程示意图；

图7至图8是本申请实施例提供的视频片段的确定方法的流程示意图；

图9是本申请实施例提供的关键程度序列和候选关键程度序列的效果对比示意图；

图10是本申请实施例提供的视频片段的确定方法的原理示意图；

图11是本申请实施例提供的视频片段的确定方法的流程示意图；

图12是本申请实施例提供的视频片段的确定方法的流程示意图；

图13是本申请实施例提供的视频片段的确定方法的原理示意图；

图14是本申请实施例提供的视频片段的确定方法的流程示意图。

具体实施方式

为了使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请作进一步地详细描述，所描述的实施例不应视为对本申请的限制，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本申请保护的范围。

在以下的描述中，涉及到“一些实施例”，其描述了所有可能实施例的子集，但是可以理解，“一些实施例”可以是所有可能实施例的相同子集或不同子集，并且可以在不冲突的情况下相互结合。

在以下的描述中，所涉及的术语“第一\第二\第三”仅仅是是区别类似的对象，不代表针对对象的特定排序，可以理解地，“第一\第二\第三”在允许的情况下可以互换特定的顺序或先后次序，以使这里描述的本申请实施例能够以除了在这里图示或描述的以外的顺序实施。

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的，不是旨在限制本申请。

对本申请实施例进行进一步详细说明之前，对本申请实施例中涉及的名词和术语进行说明，本申请实施例中涉及的名词和术语适用于如下的解释。

1)人工智能(Artificial Intelligence，AI)：是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用***。人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互***、机电一体化等技术。

2)卷积神经网络(CNN，Convolutional Neural Networks)：是一类包含卷积计算且具有深度结构的前馈神经网络(FNN，Feed forward Neural Networks)，是深度学***移不变分类(Shift-InvariantClassification)。

3)卷积层：卷积神经网络中每层卷积层(Convolutional Layer)由若干卷积单元组成，每个卷积单元的参数都是通过反向传播算法最佳化得到的。卷积运算的目的是提取输入的不同特征，第一层卷积层可能只能提取一些低级的特征如边缘、线条和角等层级，更多层的网路能从低级特征中迭代提取更复杂的特征。

4)池化层：在卷积层进行特征提取后，输出的特征图会被传递至池化层进行特征选择和信息过滤。池化层包含预设定的池化函数，其功能是将特征图中单个点的结果替换为其相邻区域的特征图统计量。池化层选取池化区域与卷积核扫描特征图步骤相同，由池化大小、步长和填充控制。

5)全连接层(Fully-Connected Layer)：卷积神经网络中的全连接层等价于传统前馈神经网络中的隐含层。全连接层位于卷积神经网络隐含层的最后部分，并只向其它全连接层传递信号。特征图在全连接层中会失去空间拓扑结构，被展开为向量并通过激励函数。

6)关键视频片段：是指视频中，能够高度反映视频主体内容，包含视频重要信息的精彩视频片段。视频包括关键视频片段和非关键视频片段，关键视频片段的关键程度大于非关键视频片段的关键程度。

7)多人在线战术竞技游戏(Multiplayer Online Battle Arena，MOBA)：又称，动作即时战略游戏(Action Real-Time Strategy，ARTS)，在多人在线战术竞技游戏中一般需要购买装备，游戏玩家通常被分为两支团队，两支团队在分散的游戏地图中互相竞争，每个玩家都通过游戏界面控制所选的角色。这类游戏通常无需操作游戏中常见的建筑群、资源等组织单位，玩家只控制自己所选的游戏角色。

在本申请实施例的实施过程中，申请人发现相关技术存在以下问题：

在相关技术中，参见图1，图1是相关技术中确定视频片段的原理示意图。尽管，相关的基于深度学习的游戏关键视频检测方法已经能够比较准确的识别出游戏视频的关键事件进而得到游戏视频的关键片段，但是相关的游戏关键片段检测方法具有很大的局限性：方法本质上是事件检测(例如，小地图检测、防御塔检测、播报检测、血条检测、技能检测等)，依赖于图片级别的结构化检测，识别特定区域的标志。一方面，一旦游戏界面发生改版、切换视角、主播在直播中加模板和遮挡等情况则可能会算法失效，同时也无法泛化到其他游戏，只能定制化的对每款游戏制定方案，同时还需要大量的人工对每种游戏都进行标注，成本非常高；另一方面，相关的识别方案无法充分利用视频的时序信息，也不能利用视频的多模态信息，在一些对抗激烈、选手和观众反应强烈但是没有伤亡的片段，当前算法完全无法进行识别。因此，本游戏视频关键片段方案具有以下特点：方法具有一定的鲁棒性，在画面发生一些变化时也能正确识别，并且不只是针对某些特定游戏设计的方案，能泛化到多人在线战术竞技游戏(MOBA)中的多种游戏，利用了视频的时序信息和音频模态，能结合上下文语义、音频信息，在一些没有伤亡但是打斗激烈的情况下识别出关键片段。

本申请实施例提供一种视频片段的确定方法、装置、电子设备、计算机可读存储介质及计算机程序产品，能够有效提高确定视频中关键视频片段的准确率，下面说明本申请实施例提供的视频片段的确定***的示例性应用。

参见图2，图2是本申请实施例提供的视频片段的确定***100的架构示意图，终端(示例性示出了终端400)通过网络300连接服务器200，网络300可以是广域网或者局域网，又或者是二者的组合。

终端400用于供用户使用客户端410，在图形界面410-1(示例性示出了图形界面410-1)显示关键视频片段。终端400和服务器200通过有线或者无线网络相互连接。

在一些实施例中，服务器200可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式***，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content DeliveryNetwork，CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。终端400可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能电视、智能手表、车载终端等，但并不局限于此。本申请实施例提供的电子设备可以实施为终端，也可以实施为服务器。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接，本申请实施例中不做限制。

在一些实施例中，终端400获取目标视频，并将目标视频发送至服务器200，服务器200对目标视频进行视频分片所得到的视频分片序列；针对视频分片序列中各视频分片，从目标视频中确定关键视频片段，并将所确定的视频片段发送至终端400。

在另一些实施例中，服务器200获取目标视频，对目标视频进行视频分片所得到的视频分片序列，针对视频分片序列中各视频分片，从目标视频中确定关键视频片段，并将所确定的视频片段发送至终端400。

在另一些实施例中，本申请实施例可以借助于云技术(Cloud Technology)实现，云技术是指在广域网或局域网内将硬件、软件、网络等系列资源统一起来，实现数据的计算、储存、处理和共享的一种托管技术。

云技术是基于云计算商业模式应用的网络技术、信息技术、整合技术、管理平台技术、以及应用技术等的总称，可以组成资源池，按需所用，灵活便利。云计算技术将变成重要支撑。技术网络***的后台服务需要大量的计算、存储资源。

参见图3，图3是本申请实施例提供的用于视频片段的确定电子设备500的结构示意图，其中，图3所示出的电子设备500可以是图2中的服务器200或者终端400，图3所示的电子设备500包括：至少一个处理器410、存储器450、至少一个网络接口420。电子设备500中的各个组件通过总线***440耦合在一起。可理解，总线***440用于实现这些组件之间的连接通信。总线***440除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图3中将各种总线都标为总线***440。

处理器410可以是一种集成电路芯片，具有信号的处理能力，例如通用处理器、数字信号处理器(DSP，Digital Signal Processor)，或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等，其中，通用处理器可以是微处理器或者任何常规的处理器等。

存储器450可以是可移除的，不可移除的或其组合。示例性的硬件设备包括固态存储器，硬盘驱动器，光盘驱动器等。存储器450可选地包括在物理位置上远离处理器410的一个或多个存储设备。

存储器450包括易失性存储器或非易失性存储器，也可包括易失性和非易失性存储器两者。非易失性存储器可以是只读存储器(ROM，Read Only Memory)，易失性存储器可以是随机存取存储器(RAM，Random Access Memory)。本申请实施例描述的存储器450旨在包括任意适合类型的存储器。

在一些实施例中，存储器450能够存储数据以支持各种操作，这些数据的示例包括程序、模块和数据结构或者其子集或超集，下面示例性说明。

操作***451，包括用于处理各种基本***服务和执行硬件相关任务的***程序，例如框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务；

网络通信模块452，用于经由一个或多个(有线或无线)网络接口420到达其他电子设备，示例性的网络接口420包括：蓝牙、无线相容性认证(WiFi，Wireless Fidelity)、和通用串行总线(USB，Universal Serial Bus)等。

在一些实施例中，本申请实施例提供的视频片段的确定装置可以采用软件方式实现，图3示出了存储在存储器450中的视频片段的确定装置455，其可以是程序和插件等形式的软件，包括以下软件模块：获取模块4551、特征提取模块4552、特征融合模块4553、预测模块4554、确定模块4555，这些模块是逻辑上的，因此根据所实现的功能可以进行任意的组合或进一步拆分。将在下文中说明各个模块的功能。

在另一些实施例中，本申请实施例提供的视频片段的确定装置可以采用硬件方式实现，作为示例，本申请实施例提供的视频片段的确定装置可以是采用硬件译码处理器形式的处理器，其被编程以执行本申请实施例提供的视频片段的确定方法，例如，硬件译码处理器形式的处理器可以采用一个或多个应用专用集成电路(ASIC，Application SpecificIntegrated Circuit)、DSP、可编程逻辑器件(PLD，Programmable Logic Device)、复杂可编程逻辑器件(CPLD，Complex Programmable Logic Device)、现场可编程门阵列(FPGA，Field-Programmable Gate Array)或其他电子元件。

在一些实施例中，终端或服务器可以通过运行计算机程序或计算机可执行指令来实现本申请实施例提供的视频片段的确定方法。举例来说，计算机程序可以是操作***中的原生程序(例如，专用的视频片段确定程序)或软件模块，例如，可以嵌入到任意程序(如即时通信客户端、相册程序、电子地图客户端、导航客户端)中的视频片段确定模块；例如可以是本地(Native)应用程序(APP，Application)，即需要在操作***中安装才能运行的程序。总而言之，上述计算机程序可以是任意形式的应用程序、模块或插件。

将结合本申请实施例提供的服务器或终端的示例性应用和实施，说明本申请实施例提供的视频片段的确定方法。

参见图4，图4是本申请实施例提供的视频片段的确定方法的流程示意图，将结合图4示出的步骤101至步骤105进行说明，本申请实施例提供的视频片段的确定方法可以由服务器或终端单独实施，或者由服务器及终端协同实施，下面将以服务器单独实施为例进行说明。

在步骤101中，获取对目标视频进行视频分片所得到的视频分片序列。

在一些实施例中，每个视频分片包括至少一个(如至少两个)视频关键帧，以及与各视频关键帧对应的音频帧。

在一些实施例中，目标视频包括多个视频分片，每个视频分片包括至少一个视频关键帧，以及至少一个(如至少两个)视频非关键帧，各视频关键帧对应有音频帧，目标视频可以是网络游戏视频、影音视频等不同形式的视频。

在一些实施例中，视频关键帧可以是对应有音频帧的视频帧，视频非关键帧可以是没有对应有音频帧的视频帧。

在一些实施例中，参见图5，图5是本申请实施例提供的视频片段的确定方法的流程示意图，图5所示出的步骤101可以通过执行以下步骤1011至步骤1012实现。

在步骤1011中，获取目标视频，以及分片步长，分片步长表征视频分片所包括的视频帧的数量，视频帧包括视频关键帧和视频非关键帧。

在一些实施例中，分片步长表征视频分片所包括的视频帧的数量，视频帧的数量等于视频关键帧的数量和视频非关键帧的数量的加和。

在步骤1012中，按照分片步长，对目标视频进行视频分片，得到视频分片序列。

在一些实施例中，分片步长和视频分片序列中视频分片的数量具有如下关系：分片步长和视频分片序列中视频分片的数量的乘积，等于目标视频中视频帧的数量，目标视频中视频帧的数量等于视频关键帧的数量和视频非关键帧的数量的加和。

作为示例，参见图6，图6是本申请实施例提供的视频片段的确定方法的原理示意图，获取目标视频1，以及分片步长，分片步长表征视频分片所包括的视频帧的数量，视频帧包括视频关键帧和视频非关键帧。按照分片步长，对目标视频进行视频分片，得到视频分片序列2。

如此，通过将目标视频进行视频分片，得到包括多个视频分片的视频分片序列，从而在后续进行特征提取的过程中，可以并行的针对各个视频分片进行特征提取，有效节省了特征提取的时间，有效提升了算法执行效率，有效提升了视频片段的确定效率。

在步骤102中，针对视频分片序列中各视频分片，对各视频关键帧进行特征提取，得到各视频关键帧的画面特征，并对视频分片中与各视频关键帧对应的音频帧进行特征提取，得到各音频帧的音频特征。

在一些实施例中，对视频关键帧进行特征提取可以通过图像编码网络实现，视频关键帧的画面特征是视频关键帧的向量形式。对音频帧进行特征提取可以通过音频编码网络实现，音频特征是音频帧的向量形式。

作为示例，视频分片包括至少一个视频关键帧，针对视频分片序列中各视频分片分别执行以下处理：对视频分片中的各视频关键帧进行特征提取，得到各视频关键帧的画面特征，并对视频分片中与各视频关键帧对应的音频帧进行特征提取，得到各音频帧的音频特征。

如此，通过针对视频分片序列中各视频分片分别提取相应的视频关键帧的画面特征和音频特征，从而实现了对目标视频中视频非关键帧的过滤，并保留了目标视频中具有关键信息量的视频关键帧以及对应的音频帧，从而实现了既保留关键信息用于后续视频片段的确定，又有效节省了算法计算量，即，有效提升了视频片段的确定效率的同时，有效提升了所确定的视频片段的准确性。

在步骤103中，将各视频分片的画面特征和相应的音频特征进行特征融合，得到各视频分片的融合特征。

在一些实施例中，特征融合包括拼接和加权融合，其中，拼接是指将至少两个向量拼接形成一个向量的过程，拼接可以降低向量的数量并增加向量的维度，加权融合是指将至少两个向量按照各自对应的权重进行融合的过程。

在一些实施例中，参见图7，图7是本申请实施例提供的视频片段的确定方法的流程示意图，当视频分片包括至少两个视频关键帧时，图7所示出的步骤103可以针对各视频分片分别执行以下步骤1031至步骤1032实现。

在步骤1031中，将视频分片的各画面特征进行拼接，得到视频分片的拼接画面特征，并将视频分片的各音频特征进行拼接，得到视频分片的拼接音频特征。

在一些实施例中，当视频分片包括至少两个视频关键帧时，各视频关键帧对应的画面特征的数量、音频特征的数量，与视频关键帧的数量相同，即视频分片包括至少两个画面特征，以及各画面特征对应的音频特征。如此，通过针对各视频分片分别执行以下处理：将视频分片的各画面特征进行拼接，得到视频分片的拼接特征；将视频分片的各音频特征进行拼接，得到视频分片的拼接音频特征。

在步骤1032中，获取视频分片的画面权重及音频权重，并基于视频分片的画面权重及音频权重对视频分片的拼接画面特征及拼接音频特征进行加权融合，得到视频分片的融合特征。

在一些实施例中，画面权重和音频权重的加和等于1，视频分片的画面权重及音频权重可以根据实际情况而具体设定，例如，可以根据目标视频的类型而具体设定，例如，将画面权重和音频权重设置为相等，或者将画面权重设置为大于音频权重，或者将画面权重设置为小于音频权重。

在一些实施例中，当视频分片包括一个视频关键帧时，上述步骤103可以通过如下方式实现：获取视频分片的画面权重及音频权重，将各视频分片的画面特征和相应的音频特征按照画面权重及音频权重，进行加权融合，得到各视频分片的融合特征。

如此，通过将各视频分片的画面特征和相应的音频特征进行特征融合，得到各视频分片的融合特征，从而使得所确定的融合特征，有效融合了视频的音频和画面两种模态的特征，使得所确定的融合特征能够更加准确的反映各视频分片的特点，后续在利用融合特征进行预测，由于融合特征能够更加准确的反映各视频分片的特点，从而使得预测的准确率更高，有效提高了所确定的视频片段的准确性。

在步骤104中，基于各视频分片的融合特征，分别对各视频分片在目标视频中的关键程度进行预测，得到视频分片序列对应的关键程度序列。

在一些实施例中，预测，用于确定各个视频分片的关键程度，关键程度可以用于确定视频分片是否是关键视频分片，关键程度与视频的信息量呈正比，视频的信息量越大，对应的视频的关键程度越大，视频的信息量越小，对应的关键程度越小。

在一些实施例中，参见图8，图8是本申请实施例提供的视频片段的确定方法的流程示意图，图8所示出的步骤104可以通过执行以下步骤1041至步骤1043实现。

在步骤1041中，基于各视频分片的融合特征，调用目标预测模型，对各视频分片进行预测，得到各视频分片的关键程度。

在一些实施例中，目标预测模型可以是通过对预测模型进行训练后得到的，预测模型可以是时序模型，时序模型是基于双向长短期记忆网络(Bi-LSTM，Bi-Long Short-Term Memory)的神经网络模型，时序模型包括卷积层、激活层、归一化层和双向长短期记忆网络(预测层)。

作为示例，参见图13，基于各视频分片的融合特征，调用目标预测模型的卷积层、激活层、预测层、归一化层对各视频分片进行预测，得到各视频分片的关键程度。

在一些实施例中，上述候选关键程度序列中各关键程度可以通过关键概率的方式进行指示，关键程度也可以通过对关键概率进行二分类后的类别的方式进行指示。

在一些实施例中，上述步骤1041可以通过如下方式实现：基于各视频分片的融合特征，调用目标预测模型，对各视频分片进行预测，得到各视频分片的关键概率；将各关键概率与关键概率阈值进行比较，得到概率比较结果；响应于概率比较结果表征关键概率小于关键概率阈值时，将视频分片的关键程度确定为非关键视频分片；响应于概率比较结果表征平滑关键概率大于或等于关键概率阈值时，将视频分片的关键程度确定为关键视频分片。

在另一些实施例中，上述步骤1041还可以通过如下方式实现：基于各视频分片的融合特征，调用目标预测模型，对各视频分片进行预测，得到各视频分片的关键概率；将各关键概率确定为相应的视频分片的关键程度。

在一些实施例中，在上述步骤1041之前，可以通过如下方式训练得到目标预测模型：获取至少两个视频分片样本，至少两个视频分片样本归属于不同视频主题，每个视频分片样本包括至少一个视频关键帧样本，以及与各视频关键帧样本对应的音频帧样本；针对各视频分片样本，对视频关键帧样本进行特征提取，得到视频关键帧样本的画面样本特征，并对视频分片样本中与视频关键帧样本对应的音频帧样本进行特征提取，得到音频帧样本的音频样本特征；将各视频分片样本的画面样本特征和相应的音频样本特征进行特征融合，得到各视频分片样本的融合样本特征；基于各视频分片样本的融合样本特征，调用预测模型，对各视频分片样本进行预测，得到各视频分片样本的预测关键概率；基于各视频分片样本的预测关键概率，对预测模型进行训练，得到目标预测模型。

在一些实施例中，至少两个视频分片样本归属于不同视频主题，在网络游戏的应用场景中，至少两个视频分片样本各自所归属的视频主题可以是不同类型的网络游戏，网络游戏的类型包括音乐游戏、射击游戏、策略游戏、多人在线对战游戏、战略角色扮演游戏、即时战略游戏、体育游戏等。视频主题的类型可以根据不同的应用场景而具体设置，可知理解的是，视频分片样本的数量越多，所归属的视频主题的类型越丰富，对预测模型的训练效果越好。

在一些实施例中，获取至少两个视频分片样本可以通过如下方式实现：获取至少一个归属于对战游戏视频主题的视频分片样本、至少一个归属于射击游戏视频主题的视频分片样本、至少一个归属于策略游戏视频主题的视频分片样本、至少一个多人在线对战游戏视频主题的视频分类样本。

在一些实施例中，视频分片样本携带视频分片样本的标签关键概率，标签关键概率表征视频分片样本的实际关键程度，上述基于各视频分片样本的预测关键概率，对预测模型进行训练，得到目标预测模型，可以通过如下方式实现：基于标签关键概率和预测关键概率，确定预测模型的训练损失值，基于训练损失值对预测模型进行训练，得到目标预测模型。

在一些实施例中，预测模型的训练损失值可以是标签关键概率和预测关键概率之间的差值，预测模型的损失值是基于标签关键概率和预测关键概率而确定的，但训练损失值的具体形式可以不同，训练损失值的具体表达形式可以根据不同类型的损失函数而确定，不同类型的损失函数是以标签概率和预测关键概率为函数参数的损失函数。

作为示例，上述预测模型的损失值的表达式可以为：

Y₁＝P₁-P₂ (1)

其中，Y₁表征预测模型的损失值，P₁表征标签概率，P₂表征预测关键概率。

在一些实施例中，上述对预测模型进行训练的训练方式可以是梯度更新的训练方式，也可以是小批量梯度下降更新的训练方式等训练方式。

在一些实施例中，上述基于各视频分片样本的预测关键概率，对预测模型进行训练，得到目标预测模型，可以通过如下方式实现：获取各视频分片样本的标签关键概率；基于各标签关键概率和相应的预测关键概率，确定各标签关键概率的损失值；将各标签关键概率的损失值进行求和，得到训练损失值；基于训练损失值，对预测模型进行训练，得到目标预测模型。

作为示例，上述预测模型的训练损失值的表达式可以为：

Y₂＝(P₁-P₂)+(P₃-P₄)+…(P_n-1-P_n) (2)

其中，Y₂表征训练损失值，P₁、P₃、P_n-1表征各标签关键概率，P₂、P₄、P_n表征各预测关键概率，(P₁-P₂)、(P₃-P₄)、(P_n-1-P_n)表征各标签关键概率的损失值、Y₂表征预测模型的训练损失值。

在一些实施例中，上述基于各标签关键概率和相应的预测关键概率，确定各标签关键概率的损失值可以通过如下方式确定：基于各标签关键概率和相应的预测关键概率，调用损失函数，得到各标签关键概率的损失值。

在一些实施例中，上述损失函数可以是交叉损失函数，差值损失函数和指数损失函数、合页损失函数等，损失函数是定义在单个样本上的,是指一个样本的误差。

在一些实施例中，上述基于训练损失值，对预测模型进行训练，得到目标预测模型可以通过如下方式实现：基于训练损失值，通过梯度更新的方式，对预测模型的模型参数进行更新，得到参数更新后的预测模型，并将参数更新后的预测模型确定为目标预测模型。

在步骤1042中，按照视频分片序列中各视频分片的播放时刻先后顺序，将各视频分片的关键程度，组合为候选关键程度序列。

在一些实施例中，播放时刻表征各视频分片的首帧，在目标视频播放过程中的相对播放时刻，相对播放时刻表征目标视频的首帧播放的起始时刻相对于播放时刻的时间偏移量。

在一些实施例中，视频分片序列中队首的视频分片对应的播放时刻最早，视频分片序列中队尾的视频分片对应的播放时刻最晚，相应的，候选关键程度序列中队首的视频分片的关键程度对应的播放时刻最早，候选关键程度序列中队尾的视频分片的关键程度对应的播放时刻最晚。

在步骤1043中，对候选关键程度序列进行平滑处理，得到视频分片序列对应的关键程度序列。

在一些实施例中，平滑处理，用于消除候选关键程度序列中可能存在的关键程度突变现象。

在一些实施例中，上述候选关键程度序列中各关键程度可以通过关键概率的方式进行指示(例如，关键概率为0.8、关键概率为0.08等，关键概率的取值范围为：0至1)，关键程度也可以通过对关键概率进行二分类后的类别的方式进行指示。

在一些实施例中，候选关键程度序列中各关键程度通过关键概率指示，上述步骤1043可以通过如下方式实现：获取候选关键程度序列中各关键概率所对应视频分片的播放时刻，以及平滑时刻区间，并将各播放时刻与平滑时刻区间进行比较，得到各关键概率对应的区间比较结果；基于区间比较结果，对候选关键程度序列中播放时刻处于平滑时刻区间的关键概率进行平滑，得到关键程度序列。

在一些实施例中，区间比较结果，表征关键概率所对应视频分片的播放时刻是否位于平滑时刻区间内。

在一些实施例中，上述对候选关键程度序列中播放时刻处于平滑时刻区间的关键概率进行平滑，可以通过如下方式实现：针对候选关键程度序列中播放时刻处于平滑时刻区间的各关键概率分别执行处理：在候选关键程度序列中，以关键概率在候选关键程度序列中的位置为中心位置，等间隔选取至少两个参考关键概率；将至少两个参考关键概率进行加权平均，得到加权平均概率，并将加权平均概率，确定为关键概率对应的平滑关键概率。

在一些实施例中，当参考关键概率的数量为两个时，平滑关键概率的表达式可以为：

其中，m_i表征平滑关键概率，Med()表征加权平均函数，σ表征超参数，即平滑时刻区间的长度，i表征播放时刻，y_i表征第i播放时刻的关键概率，y_i-σ表征第i-σ播放时刻的关键概率，y_i+σ表征第i+σ播放时刻的关键概率。

在一些实施例中，上述基于区间比较结果，对候选关键程度序列中播放时刻处于平滑时刻区间的关键概率进行平滑，得到关键程度序列，可以通过如下方式实现：当区间比较结果表征播放时刻处于平滑时刻区间时，对相应的关键概率进行平滑，得到平滑关键概率；当区间比较结果表征播放时刻不处于平滑时刻区间时，对相应的关键概率确定为平滑关键概率。基于各个播放时刻对应的平滑关键概率，构建关键程度序列。

作为示例，参见图9，图9是本申请实施例提供的关键程度序列和候选关键程度序列的效果对比示意图。如图9所示出的候选关键程度序列，候选关键程度序列中的各预测关键概率的分布较为不均匀，例如在播放时刻10至20之间，对应的预测关键概率呈同一时刻多个概率值的分布，在播放时刻60至70之间，预测关键概率存在突变现象。在对候选关键程度序列中播放时刻处于平滑时刻区间的关键概率进行平滑，所得到的关键程度序列，如图9是所示出的关键程度序列，关键程度序列中的各预测平滑关键概率的分布较为均匀，例如在播放时刻10至20之间，对应的预测关键概率呈同一时刻单个概率值的分布，在播放时刻60至70之间，预测关键概率的突变峰值明显降低，有效减小了突变现象的突变程度，实现了对候选关键程度序列的有效平滑。

如此，通过对候选关键程度序列进行平滑处理，得到视频分片序列对应的关键程度序列，从而实现了关键程度序列的有效平滑，能够更加准确的表征目标视频在不同播放时刻的关键程度，使得后续在基于关键程度序列所确定的关键视频片段更加准确，有效提高了所确定的关键视频片段的准确性。

在步骤105中，基于关键程度序列，从目标视频中确定关键视频片段。

在一些实施例中，目标视频包括关键视频片段和非关键视频片段，关键视频片段的关键程度显著高于非关键视频片段的关键程度。

作为示例，参见图10，图10是本申请实施例提供的视频片段的确定方法的原理示意图，基于关键程度序列，从目标视频中确定关键视频片段和非关键视频片段。

在一些实施例中，参见图11，图11是本申请实施例提供的视频片段的确定方法的流程示意图，图11所示出的步骤105可以通过执行以下步骤1051至步骤1053实现。

在步骤1051中，从关键程度序列中，获取由连续的多个关键程度构成的至少一个关键程度子序列，关键程度子序列中关键程度的数量大于或等于第一阈值。

在一些实施例中，关键程度子序列中各关键程度大于或等于关键程度阈值。

在一些实施例中，上述步骤1051所选出的关键程度子序列中各关键程度大于或等于关键程度阈值，且关键程度子序列中关键程度的数量大于或等于第一阈值，且由连续的多个关键程度构成。

在一些实施例中，上述关键程度阈值以及第一阈值可以根据不同的应用场景而具体设定。

在步骤1052中，从视频分片序列中，确定各关键程度子序列对应的视频分片子序列。

在一些实施例中，关键程度序列和视频分片序列中的各播放时刻一一对应，上述步骤1052可以通过如下方式实现：针对各关键程度子序列分别执行以下处理：确定关键程度子序列对应的起始播放时刻和终止播放时刻，从视频分片序列中，将起始播放时刻和终止播放时刻之间的视频分片序列，确定为与关键程度子序列对应的视频分片子序列。

在步骤1053中，从目标视频中，确定各视频分片子序列对应的视频片段，并将各视频片段确定为关键视频片段。

在一些实施例中，关键程度序列和视频分片序列中的各播放时刻一一对应，目标视频和视频分片序列中的各播放时刻一一对应。上述步骤1053可以通过如下方式实现：针对各视频分片子序列分别执行以下处理：确定视频分片子序列的起始播放时刻和结束播放时刻，从目标视频中，确定起始播放时刻和结束播放时刻之间的目标视频片段，将目标视频片段确定为关键视频片段。

如此，通过从关键程度序列中选取，各关键程度大于或等于关键程度阈值，且关键程度子序列中关键程度的数量大于或等于第一阈值，且由连续的多个关键程度构成的关键程度子序列，将关键程度子序列对应的视频片段确定为关键视频片段，从而有效保证了关键视频片段中视频帧和音频帧的数量，有利于提高观影者的观影体验，同时，关键程度子序列中关键程度的数量大于或等于第一阈值，从而保证了所确定的关键视频片段的关键程度较高，从而有效提高了所确定的关键视频片段的准确性。

在一些实施例中，参见图12，图12是本申请实施例提供的视频片段的确定方法的流程示意图，图12所示出的步骤105可以通过执行以下步骤1054至步骤1056实现。

在步骤1054中，从关键程度序列中，获取由连续的多个关键程度构成的至少一个关键程度子序列，关键程度子序列中关键程度的数量大于或等于第一阈值，且关键程度子序列中关键程度的数量小于或等于第二阈值。

在一些实施例中，关键程度子序列中，达到关键程度阈值的关键程度的数量大于或等于第三阈值。

在一些实施例中，通过上述步骤1054所选出的关键程度子序列，关键程度的数量介于第一阈值和第二阈值之间，且达到关键程度阈值的关键程度的数量大于或等于第三阈值(即关键程度子序列中的各关键程度允许有至少部分小于第三阈值)，从而使得所选出的关键程度子序列，有介于第一阈值和第二阈值之间的关键程度，同时达到关键程度阈值的关键程度的数量大于或等于第三阈值。

在一些实施例中，上述第一阈值、第二阈值以及第三阈值之间的大小关系可以为：第一阈值小于第二阈值，第二阈值小于第三阈值。

在步骤1055中，从视频分片序列中，确定各关键程度子序列对应的视频分片子序列。

在一些实施例中，关键程度序列和视频分片序列中的各播放时刻一一对应，上述步骤1055可以通过如下方式实现：针对各关键程度子序列分别执行以下处理：确定关键程度子序列对应的起始播放时刻和终止播放时刻，从视频分片序列中，将起始播放时刻和终止播放时刻之间的视频分片序列，确定为与关键程度子序列对应的视频分片子序列。

在步骤1056中，从目标视频中，确定各视频分片子序列对应的视频片段，并将各视频片段确定为关键视频片段。

在一些实施例中，关键程度序列和视频分片序列中的各播放时刻一一对应，目标视频和视频分片序列中的各播放时刻一一对应。上述步骤1056可以通过如下方式实现：针对各视频分片子序列分别执行以下处理：确定视频分片子序列的起始播放时刻和结束播放时刻，从目标视频中，确定起始播放时刻和结束播放时刻之间的目标视频片段，将目标视频片段确定为关键视频片段。

如此，通过从关键程度序列中选取，关键程度的数量大于或等于第一阈值，且关键程度子序列中关键程度的数量小于或等于第二阈值，且关键程度阈值的关键程度的数量大于或等于第三阈值的关键程度子序列，将关键程度子序列对应的视频片段确定为关键视频片段，从而有效保证了关键视频片段中视频帧和音频帧的数量，有利于提高观影者的观影体验，同时，关键程度子序列中关键程度的数量大于或等于第一阈值，从而保证了所确定的关键视频片段的关键程度较高，从而有效提高了所确定的关键视频片段的准确性。

在一些实施例中，在上述步骤105之后，可以通过如下方式推荐关键视频片段：对目标视频中关键视频片段进行剪辑，得到关键视频片段；获取对目标视频感兴趣的目标对象；向目标对象推荐关键视频片段。

在一些实施例中，上述对目标视频中关键视频片段进行剪辑，是指通过视频剪辑工具，对关键视频片段进行非线性编辑的过程，通过在关键视频片段中加入图片、背景音乐、特效、场景等素材与视频进行重混合，对视频源进行切割、合并，通过二次编码，生成具有不同表现力的新关键视频片段。

如此，通过获取对目标视频进行视频分片所得到的视频分片序列，对于视频分片序列中的各视频分片的视频关键帧和音频帧进行特征提取，得到画面特征和音频特征，并将画面特征和音频特征进行融合，得到融合特征。基于视频分片的融合特征，进行预测，得到关键程度序列，基于关键程度序列，从目标视频中确定关键视频片段。如此，有效融合了视频的音频和画面两种模态的特征，使得所确定的融合特征能够更加准确的反映各视频分片的特点，后续在利用融合特征进行预测，由于融合特征能够更加准确的反映各视频分片的特点，从而使得预测的准确率更高，有效提高了所确定的视频中关键视频片段的准确率。

下面，将说明本申请实施例在一个实际的视频片段的确定的应用场景中的示例性应用。

随着电子竞技的蓬勃发展，互联网的游戏视频正以前所未有的速度增长，因此用户需要高效地浏览视频中的关键片段、提升用户体验。视频关键片段检测是其中的关键技术，它将一个未经人工剪辑的长视频分为若干个等长的切点(clip)，根据视频信息判断每个clip的关键程度，从而得到视频的关键片段。

相关技术中的游戏关键片段检测方案，通常是针对特定的游戏进行设计、只依靠视觉画面信息，不仅需要大量的资源进行人工标注，并且不具备泛化性：如果游戏画面进行改版或切换视角则无法正确识别，也无法迁移至其他游戏、每种游戏都需要进行标注和训练。为了解决以上问题，本申请实施例针对多人在线战术竞技游戏(MOBA)中的多种游戏，提出了一种基于多模态的时序建模框架。本申请实施例结合视觉和听觉信息，对几种常见的MOBA游戏的关键片段进行标注，在测试阶段对若干种在标注中见过的游戏和没见过的MOBA游戏都进行测试，以验证该方案的泛化性和通用性。本申请实施例提供的视频片段的确定主要分为两个部分：第一部分利用预训练模型提取视频的视觉和听觉表征，对不同模态的重要性和作用进行分析，进一步对多模态特征进行融合；第二部分对视频进行时序性建模，推理选出视频的关键片段。

本申请实施例可以应用于游戏视频的关键片段识别任务，在产品侧也被称为视频摘要、视频集锦，即在给定一段较长的游戏视频，该算法能自动根据视觉和听觉内容，识别出其中吸引人眼球、更受观众注意的一个或多个片段。在视频网站中将这些片段作为长视频的关键片段，让用户可以直接高效的浏览其中的关键部分，或者将这些片段自动剪辑出来作为关键素材用于短视频二次制作、关键集锦等。

在一些实施例中，参见图6，本申请实施例包括以下三个任务：构建通用游戏关键片段数据集，该数据集需要能够验证模型在不同种类游戏中的泛化能力；获取数据集后，等时间间隔提取视频的关键帧，使用预训练模型提取器M1和M2提取视频的多模态特征，并用滑窗将特征分为若干个片段；使用M1、M2提取好的片段特征训练关键片段检测模型D。在任务一中，数据的测试集需要涵盖市面常见的MOBA游戏，训练集的游戏种类必须少于测试集，从而验证模型通用化能力。在任务二中，给定的原始视频通常为时间较长的直播视频或赛事视频，对于视觉特征，首先设置补偿为1提取视频的关键帧，使用特征器M1获取最后一层特征作为游戏的视觉画面特征。对于音频特征，在提出视频的音频部分后，将原始波形(wav)转为梅尔频谱图，使用特征提取器M2，获取最后一层特征作为视频的音频特征。特征提取完成后，对视觉特征和音频特征进行拼接(concat)，得到拼接特征，在时序上对拼接特征进行滑窗，将拼接特征分割为若干个等长的子片段。其中，M1为在包含4亿图文对的超大规模数据集上训练的视觉编码器，M2为在大规模音频数据集AudioSet上预训练的CNN14，D为Bi-LSTM结构为基础的神经网络。在任务三中，给定一个视频序列S_t(t＝0，1，2，3，…，T)，本申请实施例的目标是使用一个时序模型D求解一个输出序列Y_t(t＝0，1，2，3，…，T)，该输出序列的值则代表该时间的内容属于关键内容的概率，取值为0-1，0代表该时刻不是关键时刻，1代表该时刻是关键时刻。本申请实施例提出的时序模型可以结合上下文的语义信息，达到更好的性能表现。

在一些实施例中，参见图6，图6所示出的算法框架主要包含两个阶段：(1)视频表征提取；(2)视频序列关键片段学习。在视频表征提取阶段中，由于预训练模型已经学习到了强大的特征提取功能，为了防止对原网络性能的破坏，冻结特征提取网络的参数，不参与网络的参数更新。得到视频的表征后，使用定长的窗口进行滑窗得到多个视频序列，将视频序列特征送入Bi-LSTM模型序列建模，对每个Clip都进行预测，即经过Bi-LSTM模型序列建模后，可预测出关键程度标签序列Y_t。

在一些实施例中，对于数据集的构建，数据集包括多种网络游戏的视频。主要来自网络直播、比赛视频，包含第一视角、比赛视角等情况。数据集划分：为了验证模型的泛化性，测试集包括上述所有类型的数据，在训练集中我们仅选取其中的部分游戏，通过在Unseen数据的精度衡量模型的通用性。数据标注规则如下：如果视频中出现一些特定的事件，例如“一杀”、“二杀”、“被杀”等打斗比较激烈的事件，则标注为关键事件。需标注出事件的起始时间和结束时间，起始时间为英雄遭遇的时间，结束时间为击杀或被杀等事件完成的时间。中间如果敌人在画面里面消失超过两秒，则从新的同时出现的时间点开始算。

在一些实施例中，对于视觉特征提取，收集的原始视频通常为时间较长的直播视频或赛事视频，由于原始视频流有较大冗余，需要提取出视频的关键帧，但是如果采样太稀疏则容易漏掉一些关键的信息，例如赛事广播等，经过实验发现设置步长＝1既能提取出关键信息又不会有较大冗余。由于游戏视频画面与市面上的数据集在域上有较大差异，如果用常见的预训练模型(例如在Image Net上训练的Resnet50或者在K400上训练的SlowFast等模型作为特征提取器不能很好的提取出视觉模态的特征。因此选择在4亿图文对的超大规模数据集上训练的视觉编码器作为特征提取器。视觉编码器首先将原始图片进行分块，展开平铺成一个序列，将序列输入原始编码模型的编码器，在编码器后接入一个全连接层对图片进行分类。

在一些实施例中，对于听觉特征提取，对于音频特征，在提出视频的音频部分后，将音频切割为等长的wav，将wav转为梅尔频谱图，梅尔频谱图能够模拟人耳对现实世界声音(特别是人声)的处理，针对音调敏感程度提取信息。接着使用在大规模音频数据集AudioSet上预训练的CNN14作为特征提取器，该预训练模型可以较好的提取音频的特征嵌入(Embbedding)，我们获取最后一层特征作为视频的音频特征。

在一些实施例中，本申请实施例使用边界自由模型来对视频关键检测任务进行建模和优化，如图13所示，图13是本申请实施例提供的视频片段的确定方法的原理示意图。以输入长度为B*Shot-Len*N长度的数据为例(B为批次大小，Shot-Len为单个批次中处理的片段个数，N为片段特征的维度)，使用基于Bi-LSTM序列建模方式，对每个片段都进行关键程度识别，即，经过Bi-LSTM模型序列建模后，序列输出为B*Shot-Len*2，2为二分类的分数，通过阈值进行二值化得到片段的类别，1代表该片段是关键片段，0代表该片段不是关键片段。通过这样的方式：模型复杂度和参数量适中，能够提高推断的效率；同时对每个片段进行关键程度识别时也依赖于该片段的附近前后文信息，在推断结果中包含更多的全局特征的同时避免了过长的依赖。

在一些实施例中，参见图13，由于脉冲噪声使结果曲线锯齿状，阻碍了二值化的阈值选择。因此，我们首先应用中值滤波器来平滑输出曲线。假设，yt(t＝0，1，2，3，…，T)是网络输出的原始曲线，平滑曲线m＝(m1,…，mn)由下式给出：

其中，Med(y1，y2)表示窗口中的修剪平均值，其中σ为超参数，通常取4，滤波效果如图9所示。然而，不同视频的概率曲线是不稳定的，不同视频的绝对激烈程度也不同，固定阈值不能产生令人满意的结果。

为了解决这个问题，本申请实施例对不同的曲线应用自适应阈值来执行二值化，为每个视频选出相对最关键的子片段。最后，本申请实施例仅截取输出序列的中间结果：在对输入特征滑窗时，窗口大小为Shot-Len，步长为Shot-Len/2,每个窗口输出的分类结果为B*Shot-Len，由于序列两端的clip不能包括充足的前后文信息，因此每个窗口只选取中间长度为Shot-Len/2的结果，再对所有滑窗结果进行拼接，得到整个视频所有的输出。

在一些实施例中，参见图14，图14是本申请实施例提供的视频片段的确定方法的流程示意图。在步骤201中，提取关键帧；在步骤202中，对视频关键帧进行特征提取；在步骤203中，滑窗生成画面特征；在步骤204中，提取音频；在步骤205中，对音频进行特征提取，得到音频特征；在步骤206中，滑窗生成音频特征；在步骤207中，将音频特征和视频特征进行融合，得到融合特征。在步骤208中，基于融合特征，得到预测序列；在步骤209中，计算交叉熵；在步骤210中，网络参数更新。

本申请实施例目的是对训练视频场景分割模型进行有监督的训练，在该阶段中，特征提取器的参数是固定的，首先将有标注的视频序列通过镜头特征提取器提取出对应的嵌入特征，再将该嵌入特征输入到设计好的框架，得到对应的输出序列则代表该clip的关键程度标签预测序列，并使用交叉墒损失函数作为优化目标，最后使用梯度反向传播策略对网络参数进行更新。本阶段使用Bi-LSTM和三层全连接层作为场景分割模型的基础网络框架，使用SGD优化器进行优化，初始学习率设置为0.01，训练批次大小8，训练周期为50。

可以理解的是，在本申请实施例中，涉及到目标视频等相关的数据，当本申请实施例运用到具体产品或技术中时，需要获得用户许可或者同意，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。

下面继续说明本申请实施例提供的视频片段的确定装置455的实施为软件模块的示例性结构，在一些实施例中，如图3所示，存储在存储器450的视频片段的确定装置455中的软件模块可以包括：获取模块4551，用于获取对目标视频进行视频分片所得到的视频分片序列，其中，每个视频分片包括至少一个视频关键帧，以及与各视频关键帧对应的音频帧；特征提取模块4552，用于针对视频分片序列中各视频分片，对各视频关键帧进行特征提取，得到各视频关键帧的画面特征，并对视频分片中与各视频关键帧对应的音频帧进行特征提取，得到各音频帧的音频特征；特征融合模块4553，用于将各视频分片的画面特征和相应的音频特征进行特征融合，得到各视频分片的融合特征；预测模块4554，用于基于各视频分片的融合特征，分别对各视频分片在目标视频中的关键程度进行预测，得到视频分片序列对应的关键程度序列；确定模块4555，用于基于关键程度序列，从目标视频中确定关键视频片段。

在一些实施例中，上述获取模块4551，还用于获取目标视频，以及分片步长，分片步长表征视频分片所包括的视频帧的数量，视频帧包括视频关键帧和视频非关键帧；按照分片步长，对目标视频进行视频分片，得到视频分片序列。

在一些实施例中，上述特征融合模块4553，还用于针对各视频分片分别执行以下处理：将视频分片的各画面特征进行拼接，得到视频分片的拼接画面特征，并将视频分片的各音频特征进行拼接，得到视频分片的拼接音频特征；获取视频分片的画面权重及音频权重，并基于视频分片的画面权重及音频权重对视频分片的拼接画面特征及拼接音频特征进行加权融合，得到视频分片的融合特征。

在一些实施例中，上述预测模块4554，还用于基于各视频分片的融合特征，调用目标预测模型，对各视频分片进行预测，得到各视频分片的关键程度；按照视频分片序列中各视频分片的播放时刻先后顺序，将各视频分片的关键程度，组合为候选关键程度序列；对候选关键程度序列进行平滑处理，得到视频分片序列对应的关键程度序列。

在一些实施例中，上述预测模块4554，还用于获取候选关键程度序列中各关键概率所对应视频分片的播放时刻，以及平滑时刻区间，并将各播放时刻与平滑时刻区间进行比较，得到各关键概率对应的区间比较结果；基于区间比较结果，对候选关键程度序列中播放时刻处于平滑时刻区间的关键概率进行平滑，得到关键程度序列。

在一些实施例中，上述预测模块4554，还用于针对候选关键程度序列中播放时刻处于平滑时刻区间的各关键概率分别执行处理：在候选关键程度序列中，以关键概率在候选关键程度序列中的位置为中心位置，等间隔选取至少两个参考关键概率；将至少两个参考关键概率进行加权平均，得到加权平均概率，并将加权平均概率，确定为关键概率对应的平滑关键概率。

在一些实施例中，上述视频片段的确定装置，还包括：训练模块，用于获取至少两个视频分片样本，至少两个视频分片样本归属于不同视频主题，每个视频分片样本包括至少一个视频关键帧样本，以及与各视频关键帧样本对应的音频帧样本；针对各视频分片样本，对视频关键帧样本进行特征提取，得到视频关键帧样本的画面样本特征，并对视频分片样本中与视频关键帧样本对应的音频帧样本进行特征提取，得到音频帧样本的音频样本特征；将各视频分片样本的画面样本特征和相应的音频样本特征进行特征融合，得到各视频分片样本的融合样本特征；基于各视频分片样本的融合样本特征，调用预测模型，对各视频分片样本进行预测，得到各视频分片样本的预测关键概率；基于各视频分片样本的预测关键概率，对预测模型进行训练，得到目标预测模型。

在一些实施例中，上述训练模块，还用于获取各视频分片样本的标签关键概率；基于各标签关键概率和相应的预测关键概率，确定各标签关键概率的损失值；将各标签关键概率的损失值进行求和，得到训练损失值；基于训练损失值，对预测模型进行训练，得到目标预测模型。

在一些实施例中，上述确定模块4555，还用于从关键程度序列中，获取由连续的多个关键程度构成的至少一个关键程度子序列，关键程度子序列中关键程度的数量大于或等于第一阈值；其中，关键程度子序列中各关键程度大于或等于关键程度阈值；从视频分片序列中，确定各关键程度子序列对应的视频分片子序列；从目标视频中，确定各视频分片子序列对应的视频片段，并将各视频片段确定为关键视频片段。

在一些实施例中，上述确定模块4555，还用于从关键程度序列中，获取由连续的多个关键程度构成的至少一个关键程度子序列，关键程度子序列中关键程度的数量大于或等于第一阈值，且关键程度子序列中关键程度的数量小于或等于第二阈值；其中，关键程度子序列中，达到关键程度阈值的关键程度的数量大于或等于第三阈值；从视频分片序列中，确定各关键程度子序列对应的视频分片子序列；从目标视频中，确定各视频分片子序列对应的视频片段，并将各视频片段确定为关键视频片段。

在一些实施例中，上述视频片段的确定装置，还包括：推荐模块，用于对目标视频中关键视频片段进行剪辑，得到关键视频片段；获取对目标视频感兴趣的目标对象；向目标对象推荐关键视频片段。

本申请实施例提供一种存储有计算机可执行指令的计算机可读存储介质，其中存储有计算机可执行指令，当计算机可执行指令被处理器执行时，将引起处理器执行本申请实施例提供的视频片段的确定方法，例如，如图4示出的视频片段的确定方法。

在一些实施例中，计算机可读存储介质可以是FRAM、ROM、PROM、EP ROM、EEPROM、闪存、磁表面存储器、光盘、或CD-ROM等存储器；也可以是包括上述存储器之一或任意组合的各种电子设备。

在一些实施例中，计算机可执行指令可以采用程序、软件、软件模块、脚本或代码的形式，按任意形式的编程语言(包括编译或解释语言，或者声明性或过程性语言)来编写，并且其可按任意形式部署，包括被部署为独立的程序或者被部署为模块、组件、子例程或者适合在计算环境中使用的其它单元。

作为示例，计算机可执行指令可以但不一定对应于文件***中的文件，可以可被存储在保存其它程序或数据的文件的一部分，例如，存储在超文本标记语言(HTML，HyperText Markup Language)文档中的一个或多个脚本中，存储在专用于所讨论的程序的单个文件中，或者，存储在多个协同文件(例如，存储一个或多个模块、子程序或代码部分的文件)中。

作为示例，计算机可执行指令可被部署为在一个电子设备上执行，或者在位于一个地点的多个电子设备上执行，又或者，在分布在多个地点且通过通信网络互连的多个电子设备上执行。

综上，本申请实施例具有如下有益效果：

(1)通过获取对目标视频进行视频分片所得到的视频分片序列，对于视频分片序列中的各视频分片的视频关键帧和音频帧进行特征提取，得到画面特征和音频特征，并将画面特征和音频特征进行融合，得到融合特征。基于视频分片的融合特征，进行预测，得到关键程度序列，基于关键程度序列，从目标视频中确定关键视频片段。如此，有效融合了视频的音频和画面两种模态的特征，使得所确定的融合特征能够更加准确的反映各视频分片的特点，后续在利用融合特征进行预测，由于融合特征能够更加准确的反映各视频分片的特点，从而使得预测的准确率更高，有效提高了所确定的视频中关键视频片段的准确性。

(2)通过将目标视频进行视频分片，得到包括多个视频分片的视频分片序列，从而在后续进行特征提取的过程中，可以并行的针对各个视频分片进行特征提取，有效节省了特征提取的时间，有效提升了算法执行效率，有效提升了视频片段的确定效率。

(3)通过针对视频分片序列中各视频分片分别提取相应的视频关键帧的画面特征和音频特征，从而实现了对目标视频中视频非关键帧的过滤，并保留了目标视频中具有关键信息量的视频关键帧以及对应的音频帧，从而实现了既保留关键信息用于后续视频片段的确定，又有效节省了算法计算量，即，有效提升了视频片段的确定效率的同时，有效提升了所确定的视频片段的准确性。

(4)通过将各视频分片的画面特征和相应的音频特征进行特征融合，得到各视频分片的融合特征，从而使得所确定的融合特征，有效融合了视频的音频和画面两种模态的特征，使得所确定的融合特征能够更加准确的反映各视频分片的特点，后续在利用融合特征进行预测，由于融合特征能够更加准确的反映各视频分片的特点，从而使得预测的准确率更高，有效提高了所确定的视频片段的准确性。

(5)通过对候选关键程度序列进行平滑处理，得到视频分片序列对应的关键程度序列，从而实现了关键程度序列的有效平滑，能够更加准确的表征目标视频在不同播放时刻的关键程度，使得后续在基于关键程度序列所确定的关键视频片段更加准确，有效提高了所确定的关键视频片段的准确性。

(6)通过从关键程度序列中选取，各关键程度大于或等于关键程度阈值，且关键程度子序列中关键程度的数量大于或等于第一阈值，且由连续的多个关键程度构成的关键程度子序列，将关键程度子序列对应的视频片段确定为关键视频片段，从而有效保证了关键视频片段中视频帧和音频帧的数量，有利于提高观影者的观影体验，同时，关键程度子序列中关键程度的数量大于或等于第一阈值，从而保证了所确定的关键视频片段的关键程度较高，从而有效提高了所确定的关键视频片段的准确性。

(7)通过从关键程度序列中选取，关键程度的数量大于或等于第一阈值，且关键程度子序列中关键程度的数量小于或等于第二阈值，且关键程度阈值的关键程度的数量大于或等于第三阈值的关键程度子序列，将关键程度子序列对应的视频片段确定为关键视频片段，从而有效保证了关键视频片段中视频帧和音频帧的数量，有利于提高观影者的观影体验，同时，关键程度子序列中关键程度的数量大于或等于第一阈值，从而保证了所确定的关键视频片段的关键程度较高，从而有效提高了所确定的关键视频片段的准确性。

以上所述，仅为本申请的实施例而已，并非用于限定本申请的保护范围。凡在本申请的精神和范围之内所作的任何修改、等同替换和改进等，均包含在本申请的保护范围之内。

Claims

1.一种视频片段的确定方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述获取对目标视频进行视频分片所得到的视频分片序列，包括：

获取目标视频，以及分片步长，所述分片步长表征所述视频分片所包括的视频帧的数量，所述视频帧包括所述视频关键帧和视频非关键帧；

按照所述分片步长，对所述目标视频进行视频分片，得到所述视频分片序列。

3.根据权利要求1所述的方法，其特征在于，当所述视频分片包括至少两个所述视频关键帧时，所述将各所述视频分片的画面特征和相应的所述音频特征进行特征融合，得到各所述视频分片的融合特征，包括：

针对各所述视频分片分别执行以下处理：

将所述视频分片的各所述画面特征进行拼接，得到所述视频分片的拼接画面特征，并将所述视频分片的各所述音频特征进行拼接，得到所述视频分片的拼接音频特征；

获取所述视频分片的画面权重及音频权重，并基于所述视频分片的画面权重及音频权重对所述视频分片的拼接画面特征及拼接音频特征进行加权融合，得到所述视频分片的融合特征。

4.根据权利要求1所述的方法，其特征在于，所述基于各所述视频分片的融合特征，分别对各所述视频分片在所述目标视频中的关键程度进行预测，得到所述视频分片序列对应的关键程度序列，包括：

基于各所述视频分片的融合特征，调用目标预测模型，对各所述视频分片进行预测，得到各所述视频分片的关键程度；

按照所述视频分片序列中各所述视频分片的播放时刻先后顺序，将各所述视频分片的关键程度，组合为候选关键程度序列；

对所述候选关键程度序列进行平滑处理，得到所述视频分片序列对应的关键程度序列。

5.根据权利要求4所述的方法，其特征在于，所述候选关键程度序列中各所述关键程度通过关键概率指示；所述对所述候选关键程度序列进行平滑处理，得到所述视频分片序列对应的关键程度序列，包括：

获取所述候选关键程度序列中各所述关键概率所对应视频分片的播放时刻，以及平滑时刻区间，并将各所述播放时刻与所述平滑时刻区间进行比较，得到各所述关键概率对应的区间比较结果；

基于所述区间比较结果，对所述候选关键程度序列中播放时刻处于所述平滑时刻区间的关键概率进行平滑，得到所述关键程度序列。

6.根据权利要求5所述的方法，其特征在于，所述对所述候选关键程度序列中播放时刻处于所述平滑时刻区间的关键概率进行平滑，包括：

针对所述候选关键程度序列中播放时刻处于所述平滑时刻区间的各所述关键概率分别执行处理：

在所述候选关键程度序列中，以所述关键概率在所述候选关键程度序列中的位置为中心位置，等间隔选取至少两个参考关键概率；

将所述至少两个参考关键概率进行加权平均，得到加权平均概率，并将所述加权平均概率，确定为所述关键概率对应的平滑关键概率。

7.根据权利要求4所述的方法，其特征在于，所述基于各所述视频分片的融合特征，调用目标预测模型，对各所述视频分片进行预测，得到各所述视频分片的关键概率之前，所述方法还包括：

获取至少两个视频分片样本，所述至少两个视频分片样本归属于不同视频主题，每个所述视频分片样本包括至少一个视频关键帧样本，以及与各所述视频关键帧样本对应的音频帧样本；

针对各所述视频分片样本，对所述视频关键帧样本进行特征提取，得到所述视频关键帧样本的画面样本特征，并对所述视频分片样本中与所述视频关键帧样本对应的音频帧样本进行特征提取，得到所述音频帧样本的音频样本特征；

将各所述视频分片样本的画面样本特征和相应的所述音频样本特征进行特征融合，得到各所述视频分片样本的融合样本特征；

基于各所述视频分片样本的融合样本特征，调用预测模型，对各所述视频分片样本进行预测，得到各所述视频分片样本的预测关键概率；

基于各所述视频分片样本的预测关键概率，对所述预测模型进行训练，得到所述目标预测模型。

8.根据权利要求7所述的方法，其特征在于，所述基于各所述视频分片样本的预测关键概率，对所述预测模型进行训练，得到所述目标预测模型，包括：

获取各所述视频分片样本的标签关键概率；

基于各所述标签关键概率和相应的所述预测关键概率，确定各所述标签关键概率的损失值；

将各所述标签关键概率的损失值进行求和，得到训练损失值；

基于所述训练损失值，对所述预测模型进行训练，得到所述目标预测模型。

9.根据权利要求1所述的方法，其特征在于，所述基于所述关键程度序列，从所述目标视频中确定关键视频片段，包括：

从所述关键程度序列中，获取由连续的多个关键程度构成的至少一个关键程度子序列，所述关键程度子序列中所述关键程度的数量大于或等于第一阈值；

其中，所述关键程度子序列中各所述关键程度大于或等于关键程度阈值；

从所述视频分片序列中，确定各所述关键程度子序列对应的视频分片子序列；

从所述目标视频中，确定各所述视频分片子序列对应的视频片段，并将各所述视频片段确定为所述关键视频片段。

10.根据权利要求1所述的方法，其特征在于，所述基于所述关键程度序列，从所述目标视频中确定关键视频片段，包括：

从所述关键程度序列中，获取由连续的多个关键程度构成的至少一个关键程度子序列，所述关键程度子序列中所述关键程度的数量大于或等于第一阈值，且所述关键程度子序列中所述关键程度的数量小于或等于第二阈值；

其中，所述关键程度子序列中，达到关键程度阈值的关键程度的数量大于或等于第三阈值；

11.根据权利要求1所述的方法，其特征在于，所述基于所述关键程度序列，从所述目标视频中确定关键视频片段之后，所述方法还包括：

对所述目标视频中所述关键视频片段进行剪辑，得到所述关键视频片段；

获取对所述目标视频感兴趣的目标对象；

向所述目标对象推荐所述关键视频片段。

12.一种视频片段的确定装置，其特征在于，所述装置包括：

13.一种电子设备，其特征在于，所述电子设备包括：

存储器，用于存储计算机可执行指令或者计算机程序；

处理器，用于执行所述存储器中存储的计算机可执行指令或者计算机程序时，实现权利要求1至11任一项所述的视频片段的确定方法。

14.一种计算机可读存储介质，存储有计算机可执行指令，其特征在于，所述计算机可执行指令被处理器执行时实现权利要求1至11任一项所述的视频片段的确定方法。

15.一种计算机程序产品，包括计算机程序或计算机可执行指令，其特征在于，所述计算机程序或计算机可执行指令被处理器执行时实现权利要求1至11任一项所述的视频片段的确定方法。