CN111625661B

CN111625661B - 一种音视频片段分类方法及装置

Info

Publication number: CN111625661B
Application number: CN202010408234.5A
Authority: CN
Inventors: 孙旭东; 张震; 林格平; 刘铭; 刘发强; 倪善金
Original assignee: National Computer Network and Information Security Management Center
Current assignee: National Computer Network and Information Security Management Center
Priority date: 2020-05-14
Filing date: 2020-05-14
Publication date: 2023-09-08
Anticipated expiration: 2040-05-14
Also published as: CN111625661A

Abstract

本发明实施例公开了一种音视频片段分类方法及装置，所述方法包括：基于待分类音视频片段的视频帧序列提取目标视频帧，基于待分类音视频片段的音频帧序列提取目标音频帧；基于目标视频帧/目标音频帧的第一出现时刻/第二出现时刻及预设子片段时长确定第一音视频子片段/第二音视频子片段；基于第一音视频子片段/第二音视频子片段提取第一视频分量特征和第一音频分量特征/第二视频分量特征和第二音频分量特征；通过预设音视频分类模型基于第一视频分量特征、第一音频分量特征、第二视频分量特征和第二音频分量特征确定待分类音视频片段的音视频分类结果。采用本发明可以提高音视频分类效率，提高音视频分类的鲁棒性和准确率。

Description

一种音视频片段分类方法及装置

技术领域

本发明涉及互联网技术领域，具体涉及一种音视频片段分类方法及装置。

背景技术

随着互联网技术的不断发展，也涌现出越来越多的音视频片段。为了使用户可以从大量音视频片段中获取到自身需要的音视频片段需要对音视频片段进行分类处理。

现阶段，当需要对音视频片段进行音视频分类时，可以通过双流法模型进行音视频分类。具体的，双流法模型通常包含两个通道，一个是可以提取音视频片段中所有视频帧并基于所有视频帧建模空间信息的RGB(RGB color mode，RGB色彩模式)图像通道，一个是可以提取音视频片段中所有视频帧并基于所有视频帧建模时序信息的光流通道，通过对RGB图像通道和光流通道的联合训练和信息融合实现音视频片段分类，得到该音视频片段的音视频分类结果。或者，可以通过LSTM(Long Short-Term Memory，长短期记忆网络)进行视频分类。具体的，可以通过CNN(Convolutional Neural Networks，卷积神经网络)提取该音视频片段中每一个视频帧，再使用LSTM基于前述提取的所有目标视频帧进行分析处理，以实现对该音视频片段的音视频分类，得到该音视频片段的音视频分类结果。

现有技术中，当音视频片段的数据量较大时，提取音视频片段中所有视频帧，基于所有视频帧进行视频分类，不仅需要较大的运算处理能力，还会导致音视频分类耗时较长，从而导致音视频分类效率较低。

发明内容

由于现有方法存在上述问题，本发明实施例提出一种音视频片段分类方法及装置。

第一方面，本发明实施例提出一种音视频片段分类方法，包括：

基于待分类音视频片段的视频帧序列提取目标视频帧，基于所述待分类音视频片段的音频帧序列提取目标音频帧；

基于所述目标视频帧的第一出现时刻及预设子片段时长确定第一音视频子片段，基于所述目标音频帧的第二出现时刻及所述预设子片段时长确定第二音视频子片段；

基于所述第一音视频子片段提取第一视频分量特征和第一音频分量特征，基于所述第二音视频子片段提取第二视频分量特征和第二音频分量特征；

通过预设音视频分类模型基于所述第一视频分量特征、第一音频分量特征、第二视频分量特征和第二音频分量特征确定所述待分类音视频片段的音视频分类结果。

可选的，还包括：

基于预设网络参数初始值及音视频子片段训练集，通过迁移学习方法对预设基准分类模型进行训练，其中，所述预设基准分类模型包括三个卷积神经网络；

基于音视频子片段测试集确定训练后的基准分类模型的当前分类准确率，并确定所述当前分类准确率是否等于预设分类准确率；

若所述当前分类准确率等于预设分类准确率，则将所述训练后的基准分类模型确定为预设音视频分类模型。

可选的，所述基于待分类音视频片段的视频帧序列提取目标视频帧之前，还包括：

对待分类视频进行剪辑得到剪辑后的音视频序列，获取所述音视频序列中的图像序列和音频序列，其中，图像序列/音频序列均是按照每个图像/音频出现时刻的先后顺序进行排序的；

对所述图像序列进行视频解码处理，得到所述待分类音视频片段对应的视频帧序列；其中，所述视频帧序列中的每个视频帧均是以图像方式存储的，且每个视频帧的分辨率均相同；

对所述音频序列进行音频解码处理，得到所述待分类音视频片段对应的音频帧序列；其中，所述音频帧序列中的每个音频帧均为WAV格式。

可选的，所述基于待分类音视频片段的视频帧序列提取目标视频帧，包括：

将所述视频帧序列中的首个视频帧确定为基准视频帧，并按照预设学习率对所述基准视频帧进行修正；

确定所述视频帧序列中除所述首个视频帧之外的当前视频帧与修正后的基准视频帧的当前帧间差值；

在当前帧间差值大于预设帧间差值阈值时，将当前帧间差值对应的视频帧确定为目标视频帧。

可选的，所述基于所述待分类音视频片段的音频帧序列提取目标音频帧的方法为突变点检验方法或音频检测方法。

可选的，所述通过预设音视频分类模型基于所述第一视频分量特征、第一音频分量特征、第二视频分量特征和第二音频分量特征确定所述待分类音视频片段的音视频分类结果，包括：

通过预设音视频分类模型基于所述第一视频分量特征和第一音频分量特征，得到所述待分类视频的第一判别结果及所述第一判别结果对应的第一置信度；

通过预设音视频分类模型基于所述第二视频分量特征和第二音频分量特征，得到所述待分类视频的第二判别结果及所述第二判别结果对应的第二置信度；

基于所述第一判别结果、所述第一置信度、所述第二判别结果和所述第二置信度生成所述待分类音视频片段的音视频分类结果。

可选的，所述基于所述第一判别结果和所述第二判别结果生成所述待分类音视频片段的音视频分类结果，包括：

确定所述第一判别结果和所述第二判别结果是否相同；

若所述第一判别结果和所述第二判别结果相同，则将所述第一判别结果和所述第二判别结果中任一判别结果确定为所述待分类音视频片段的音视频分类结果；

若所述第一判别结果和所述第二判别结果不同，则将所述第一置信度和所述第二置信度中的最大值对应的判别结果确定为所述待分类音视频片段的音视频分类结果。

第二方面，本发明实施例还提出一种音视频片段分类装置，包括预处理模块、子片段确定模块、分量特征提取模块、视频分类模块，其中：

所述预处理模块，用于基于待分类音视频片段的视频帧序列提取目标视频帧，基于所述待分类音视频片段的音频帧序列提取目标音频帧；

所述子片段确定模块，用于基于所述目标视频帧的第一出现时刻及预设子片段时长确定第一音视频子片段，基于所述目标音频帧的第二出现时刻及所述预设子片段时长确定第二音视频子片段；

所述分量特征提取模块，用于基于所述第一音视频子片段提取第一视频分量特征和第一音频分量特征，基于所述第二音视频子片段提取第二视频分量特征和第二音频分量特征；

所述视频分类模块，用于通过预设音视频分类模型基于所述第一视频分量特征、第一音频分量特征、第二视频分量特征和第二音频分量特征确定所述待分类音视频片段的音视频分类结果。

第三方面，本发明实施例还提出一种电子设备，包括：

至少一个处理器；以及

与所述处理器通信连接的至少一个存储器，其中：

所述存储器存储有可被所述处理器执行的程序指令，所述处理器调用所述程序指令能够执行上述方法。

第四方面，本发明实施例还提出一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储计算机程序，所述计算机程序使所述计算机执行上述方法。

由上述技术方案可知，本发明实施例通过提取目标视频帧和目标音频帧，基于目标视频帧和目标音频帧确定第一音视频子片段和第二音视频子片段，并基于第一音视频子片段和第二音视频子片段中的第一视频分量特征、第一音频分量特征、第二视频分量特征和第二音频分量特征确定音视频分类结果。这样，一方面，在音视频片段较长即数据量较大时，相对于基于音视频片段的所有视频帧进行音视频分类，仅基于目标视频帧和目标音频帧对应的音视频子片段实现音视频分类，可以有效减少运算需求，减少音视频分类耗时，从而有效提高音视频分类效率。另一方面，同时考虑音视频片段中的视频帧序列和音频帧序列，同时考虑目标视频帧和目标音频帧的确定的音视频子片段中的视频分量特征和音频分量特征，进行音视频分类，可以有效提高音视频分类的鲁棒性和准确率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些图获得其他的附图。

图1为本发明一实施例提供的一种音视频片段分类方法的流程示意图；

图2为本发明一实施例提供的一种预设音视频分类模型的框架示意图；

图3为本发明一实施例提供的一种预设音视频分类模型的网络结构示意图；

图4为本发明一实施例提供的一种音视频片段分类方法的流程示意图；

图5为本发明一实施例提供的一种音视频片段分类装置的结构示意图；

图6为本发明一实施例提供的电子设备的逻辑框图。

具体实施方式

下面结合附图，对本发明的具体实施方式作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案，而不能以此来限制本发明的保护范围。

音视频分类通常指给定一个音视频片段，对音视频片段中包含的内容进行音视频分类，音视频分类结果通常可以是动作、场景、物体等的类别。音视频分类是计算机视觉中的一个基本问题，在日常生活中，人们可以通过对音视频片段进行音视频分类识别和预测周边人的行为如走路、跑、体育活动等等。或者，通过对音视频片段进行音视频分类还可以实现如监控视频、互联网的视频检索处理、人机交互等在多领域的多种应用。传统方法中通常基于音视频片段中关键点的特征对音视频片段进行描述分类，以时空关键点、密集轨迹方法实现视频分类代表。其中，基于时空关键点实现视频分类的核心思想是：由于音视频片段图像中的关键点通常是在时空维度上发生强烈变化的数据，这些数据可以反应音视频片段中目标运动的重要信息。例如当一个人挥舞手掌时，手掌一定会在前后帧中发生最大移动，前后帧周围图像数据发生的变化最大，而这个人的身体其他部位却变化很小，数据几乎保持不变，故而可以将该变化最大的数据提取出来，并基于其且进一步分析位置信息，即可区分其他动作实现音视频分类。基于密集轨迹法的核心思想是：追踪音视频片段中给定坐标图像沿时间的变化，主要包含密集采样特征点、特征轨迹跟踪和基于轨迹的特征提取等三个步骤。

随着深度学习技术的流行，视频分类任务可以通过上述双流法模型或LSTM实现。而随着技术的发展，特别是大规模音视频片段数据集和并行计算处理器的加入，传统的音视频分类方法的准确性往往不如双流法模型或LSTM等深度学习方法，而双流法模型和LSTM均面临着对音视频片段中所有图像(视频帧)进行分析处理的情况。这样，一方面需要较大的运算能力，导致音视频分类耗时较长，从而导致音视频分类效率较低。另一方面，仅基于视频帧进行音视频分类，也会进一步地降低音视频分类方法的准确性。因此，本发明实施例提出了一种将视频帧序列与音频帧序列密切结合的音视频片段分类方法，且不使用全部的视频帧和音频帧，仅利用关键帧前后的音视频子片段和音频子片段，实现音视频分类。

图1示出了本实施例提供的一种音视频片段分类方法的流程示意图，包括：

S101，基于待分类音视频片段的视频帧序列提取目标视频帧，基于待分类音视频片段的音频帧序列提取目标音频帧。

其中，所述待分类音视频片段指需要进行视频分类处理的音视频片段。

所述视频帧序列/音频帧序列指对待分类音视频片段进行预处理后得到的两个序列。

所述目标视频帧指基于上述视频帧序列提取出的可以代表、概括待分类音视频片段场景事件的视频帧。

所述目标音频帧指基于上述音频帧序列提取出的使音频帧序列出现突变(如振幅突然增大或减少)的音频帧。由于若一段音视频片段的音频帧序列出现突变，很可能是音视频片段内容切换或部分信息出现的时刻，在该时刻前后的视频帧序列中也可能会含有较大的助于视频分类的信息量，故而可以将目标音频帧作为可以代表音视频片段的特征向量。

所述基于待分类音视频片段的音频帧序列提取目标音频帧的方法为突变点检验方法或音频检测方法。其中，突变点检验方法可以是Pettitt突变点检验算法、音频波形突变点检验方法等；音频检测方法可以是傅里叶变换、拉普拉斯变换等方法，只要可以实现将音频变换至频域后定位高频时刻即可。

在实施中，可以仅基于待分类音视频片段中的目标音频帧和目标视频帧前后预设片段时长内的两个音视频子片段，再分别提取两个音视频子片段中的视频分量特征和音频分量特征，基于前述两个音视频子片段中的视频分量特征和音频分量特征进行音视频分类处理，得到音视频分类结果，以提高音视频分类效率、鲁棒性和准确性。具体的，当需要对待分类音视频片段进行音视频分类时，可以先对待分类音视频片段进行人工标注使待分类音视频片段含有人工标注过的标签信息。考虑到由于音视频片段的采集环境不同，可能会导致视频帧序列和音频帧序列的分辨率及音频信息有差异，影响到音视频分类，可以对前述待分类音视频片段进行预处理(如剪辑、解码等处理)，得到该待分类音视频片段对应的视频帧序列和音频帧序列，其中，预处理后的音视频片段仍然可以含有之前的标签信息。然后，可以基于前述视频帧序列提取目标视频帧，并可以基于前述音频帧序列提取目标音频帧。

S102，基于目标视频帧的第一出现时刻及预设子片段时长确定第一音视频子片段，基于目标音频帧的第二出现时刻及预设子片段时长确定第二音视频子片段。

其中，所述第一出现时刻指上述目标视频帧的出现时刻；所述第一音视频子片段指基于第一出现时刻及预设子片段时长确定的音视频子片段，该音视频子片段是待分类音视频片段中的一个子片段。

所述第二出现时刻指上述目标音频帧的出现时刻；所述第二音视频子片段指基于第二出现时刻及预设子片段时长确定的音视频子片段，该音视频子片段也是待分类音视频片段中的一个子片段。该第二音视频子片段与第一音视频子片段可以是完全重合、部分重合或者完全不重合。

所述预设子片段时长指预先设定的用于结合第一/第二出现时刻确定第一/第二音视频子片段的时长，即可以将以第一/第二出现时刻前预设子片段时长至第一/第二出现时刻后的预设子片段时长确定为第一/第二音视频子片段。如第一出现时刻为t₀预设子片段时长为Δt₀，则可以将t₀时刻前的Δt₀至t₀时刻后的Δt₀确定为第一音视频子片段。

在实施中，在提取出目标视频帧和目标音频帧之后，可以确定前述目标视频帧的第一出现时刻，获取预设子片段时长，基于前述第一出现时刻及前述预设子片段时长确定第一音视频子片段。并可以可以确定前述目标音频帧的第二出现时刻，获取预设子片段时长，基于前述第二出现时刻及前述预设子片段时长确定第二音视频子片段。以第一出现时刻为10:00，预设子片段时长为1分钟为例，则可以将10:00前1分钟至10:00后1分钟，即09:59-10:01确定为第一音视频子片段。

S103，基于第一音视频子片段提取第一视频分量特征和第一音频分量特征，基于第二音视频子片段提取第二视频分量特征和第二音频分量特征。

其中，所述第一视频分量特征和第一音频分量特征，是基于第一音视频子片段提取的视频分量特征和音频分量特征。

所述第二视频分量特征和第二音频分量特征，是基于第二音视频子片段提取的视频分量特征和音频分量特征。

在实施中，在确定出第一音视频子片段及第二音视频子片段之后，可以提取第一音视频子片段中的第一视频分量特征和第一音频分量特征。并可以提取第二音视频子片段中的第二视频分量特征和第二音频分量特征。可以理解的是，视频分量特征(包括第一视频分量特征和第二视频分量特征)和音频分量特征(包括第一音频分量特征和第二音频分量特征)实质上是在对应的音视频子片段中的视频帧序列和音频帧序列。具体的，可以基于双流法(Two-Stream)模型进行微调，形成扩展的双流法网络，扩展的双流法网络可以是由三组数据流的网络组成的，可以分别使用以下算法提取视频分量特征和音频分量特征：

1.视频分量特征的提取：可以使用音视频子片段中第一帧图像(即第一个视频帧)和后续图像(即第一个视频帧之后的视频帧)的光流，在预训练的神经网络参数基础上使用自行采集的数据进行迁移学习，以得到微调(fine-tune)后的卷积神经网络参数。

2.音频分量特征的提取：由于输入的音视频片段可能由多个不同的渠道采集，故而不考虑语种或者语言模型，仅从声音角度进行特征提取。首先，可以对音视频子片段中所有的声音序列进行降噪操作，再使用预训练的神经网络参数，基于迁移学习的方案，进行LSTM特征提取与分类器的训练。

参见图2(图2中第一帧图像即第一个视频帧，第1至N帧图像光流即第一个视频帧至第N个视频帧的光流)，图2中三个ConvNet表示三个卷积神经网络，ConvNet1和ConvNet2主要结构是CNN(Convolutional Neural Networks，卷积神经网络)，ConvNet3的主要结构是RNN(Recurrent Neural Network,循环神经网络)/LSTM。前述CNN和RNN均是已公开的网络结构，或在公开的网络结构上进行微调而来，并均使用前人在公开的网络结构上训练出的具体参数作基础。

S104，通过预设音视频分类模型基于第一视频分量特征、第一音频分量特征、第二视频分量特征和第二音频分量特征确定待分类音视频片段的音视频分类结果。

其中，所述预设音视频分类模型指预先训练的用于进行音视频分类的模型，该模型的结构框架可以如图2所示。

在实施中，基于第一音视频子片段提取出第一视频分量特征和第一音频分量特征，并基于第二音视频子片段提取出第二视频分量特征和第二音频分量特征之后，可以将上述第一视频分量特征、第一音频分量特征、第二视频分量特征和第二音频分量特征输入至预设音视频分类模型，通过预设音视频分类模型进行音视频分类，以得出音视频分类结果。

参见图3，本发明实施例中的预设音视频分类模型包含了三个CNN(即图3中的ConvNet1、ConvNet2、ConvNet3)。其中，ConvNet1与ConvNet2均与原始双流法模型的网络结构相同，ConvNet1与ConvNet2中的每个ConvNet均包含有多个卷积层、多个池化层及一个输出层softmax，且ConvNet1与ConvNet2分别使用两个网络结构，从视频的空间信息(单帧图像包含的信息)与时间信息(多帧图像之间包含的运动信息)入手提取视频特征。ConvNet3是基于现有公开的Keras架构的kaggle音频分类竞赛网络模型。

进一步地，在上述方法实施例的基础上，在进行音视频片段分类之前可以先训练预设音视频分类模型，相应的处理可以如下：基于预设网络参数初始值及音视频子片段训练集，通过迁移学习方法对预设基准分类模型进行训练；基于音视频子片段测试集确定训练后的基准分类模型的当前分类准确率，并确定当前分类准确率是否大于等于预设分类准确率；若当前分类准确率大于等于预设分类准确率，则将训练后的基准分类模型确定为预设音视频分类模型。

其中，所述预设基准分类模型包括三个卷积神经网络CNN。

所述预设基准分类模型指预先设定的用于训练预设音视频分类模型的基准模型。

所述预设网络参数初始值指所述预设基准分类模型的网络参数的初始值。

所述预设分类准确率指预先设定的预设音视频***模型的分类准确率的最小值，若训练后的预设基准分类模型的分类准确率大于等于该最小值，则可以将该训练后的预设基准分类模型确定为预设音视频分类模型。

在实施中，可以基于音视频子片段训练集对预设基准分类模型进行训练和测试得到预设音视频分类模型。具体的，在本发明实施例中，首先，可以设置预设基准分类模型、预设网络参数初始值、音视频子片段训练集和音视频子片段测试值。其中，预设基准分类模型为现有已公开的网络模型；预设网络参数初始值为前述现有已公开的预设分类模型的网络参数的初始值；音视频子片段训练集为若干个音视频子片段的集合，每个音视频子片段均为基于某个视频片段的目标视频帧/目标音频帧确定的音视频子片段，且每个音视频子片段携带有自身对应的标签信息；音视频子片段测试集为若干个音视频子片段的集合，且其中每个音视频子片段都有自身对应的已经确定的音视频分类结果，同样的，测试集中的每个音视频子片段也均为基于某个视频片段的目标视频帧/目标音频帧确定的音视频子片段。然后，可以基于前述预设网络参数初始值及前述音视频子片段测试集，通过迁移学习方法对前述预设基准分类模型进行训练，如可以将音视频子片段训练集中的若干个音视频子片段及每个音视频子片段携带的标签信息输入至前述预设基准分类模型，并可以基于迁移学习的方式，通过前馈神经网络误差反向传播，对预设基准分类模型中的每个CNN进行Fine-tune(微调)和再训练，得到前述预设基准分类模型中的每个CNN中的各个节点的实际参数值，并基于实际参数值得到训练后的预设基准分类模型。之后，可以基于前述音视频子片段测试集对前述训练后的预设基准分类模型进行测试，针对测试集中的每个音视频子片段通过训练后的预设基准分类模型的每个CNN进行网络处理后，可以分别得到三个softmax(Softmax logical regression，softmax逻辑回归)数值，再可以对三个softmax数值进行融合后得到该音视频子片段的分类结果。然后，可以基于测试集每个音视频子片段的分类结果及其对应的已经确定的音视频分类结果，确定训练后的预设基准分类模型的当前分类准确率，并可以确定该当前分类准确率是否大于等于预设分类准确率。若当前分类准确率大于等于预设分类准确率，则可以将训练后的预设基准分类模型确定为预设音视频分类模型。否则，则基于音视频子片段训练集继续对前述训练后的预设基准分类模型进行训练。这样，将分类准确率达到预设分类准确率的训练后的预设基准分类模型确定为预设音视频分类模型，基于该预设音视频分类模型进行音视频片段的分类，可以进一步提高音视频分类结果的准确性。

进一步地，在上述方法实施例的基础上，可以对待分类音视频片段进行剪辑和解码等预处理，相应的处理可以如下：对待分类视频进行剪辑得到剪辑后的音视频序列，获取音视频序列中的图像序列和音频序列；对图像序列进行视频解码处理，得到待分类音视频片段对应的视频帧序列；对音频序列进行音频解码处理，得到待分类音视频片段对应的音频帧序列。

其中，图像序列/音频序列均是按照每个图像/音频出现时刻的先后顺序进行排序的。

所述视频帧序列中的每个视频帧均是以图像方式存储的，且每个视频帧的分辨率均相同。

其中，所述音频帧序列中的每个音频帧均为WAV格式。

在实施中，在待分类音视频片段的预处理阶段，可以先对待分类视频进行剪辑处理得到剪辑后的音视频序列，该音视频序列中包含有待分类视频对应的图像序列和音频序列，其中，图像序列/音频序列均是按照每个图像/音频出现时刻的先后顺序进行排序的。然后，可以获取前述音视频序列中的图像序列和音频序列。对图像序列进行视频解码处理，将视频帧以图像方式存储，并将每个视频帧的分辨率调节为同样的大小，以得到待分类音视频片段对应的视频帧序列。其中，视频帧序列均是以图像方式存储的，且每个视频帧的分辨率均相同。同时，还可以对音频序列进行音频解码处理，将每个音频帧均解码为WAV(波形声音文件)格式原始信息，得到待分类音视频片段对应的音频帧序列。在具体实施中，可以将每帧图像的分辨率解码为640*480，编码格式为位图；音频帧的编码格式可以为A率8比特，可以理解的是，前述预处理过程为是通用方案，其实际数值可以随实际情况进行调整。这样，通过预处理可以避免由于采集环境的不同产生的音/视频帧的格式/分辨率不同，使得视频帧序列的视频帧分辨率相同，音频帧序列中的音频帧格式相同，从而为后续进行音视频分类提供统一的数据依据。

进一步地，在上述方法实施例的基础上，可以基于帧间差值实现目标视频帧的提取，相应的，上述步骤S101的部分处理可以如下：将视频帧序列中的首个视频帧确定为基准视频帧，并按照预设学习率对基准视频帧进行修正；确定视频帧序列中除首个视频帧之外的当前视频帧与修正后的基准视频帧的当前帧间差值；按照预设学习率修正基准视频帧，并在当前帧间差值大于预设帧帧间差值阈值时，将当前帧间差值对应的视频帧确定为目标视频帧。

其中，所述当前视频帧指视频帧序列中除首个视频帧之外的任一视频帧。

所述预设帧间差值阈值指预先设定的用于确定目标视频帧的帧间距离的值，如可以是图像像素数值上的差值，或者是两幅图像之间的欧式距离等。当实际帧间差值大于该值时，则可以将该实际帧间差值对应的视频帧确定为目标视频帧。

在实施中，考虑到视频帧序列可能会含有较多的冗余信息，通常选择可以有代表性的、可以概括视频场景事件的目标视频帧，或者在相似的图像序列中只保留一幅图像，以降低视频帧序列的冗余性。提取目标视频帧的常用方法有：基于帧间差值提取目标视频帧、基于内容提取目标视频帧、基于镜头提取关键帧、基于图像聚类提取关键帧、基于运动分析(如光流)提取关键帧等。目标视频帧可以简洁有效地表达音视频片段的主要内容，大大减少视频分类的数据处理量，同时用目标视频帧还可以用于视频文件的检索、压缩与流式传输过程中。在本发明实施例中基于帧间差值实现目标视频帧的提取，具体的，首先，可以将视频帧序列中的首个视频帧确定为基准视频帧，提取基准视频帧特征信息；同时，还可以按照预设的学习率对基准视频帧进行修正，得到修正后的基准视频帧，以提高基准视频帧的准确性。然后，可以按照出现时刻的先后顺序将视频帧序列中除基准视频帧之外的当前视频帧与修正后的基准视频帧进行比较，以确定当前视频帧与基准视频帧的帧间差值，且每次确定的当前帧间差值时都是基于当前时刻最新的修正后的基准视频帧与当前视频帧确定的。同时，在每次确定当前帧间差值之后，可以将当前帧间差值与预设帧间差值阈值进行比较，以确定当前帧间差值是否大于预设帧间差值阈值。若当前帧间差值大于预设帧间差值阈值，则可以将当前帧间差值对应的视频帧确定为目标视频帧，即将当前视频帧确定为目标视频帧。可以理解的是，当确定第二个视频帧与基准视频帧的帧间差值时，由于此时可能未进行修正，故而实质上是确定的首个视频帧与第二个视频帧的帧间差值；在确定第三个视频帧及其之后的视频帧与基准视频帧的帧间差值时，是确定当前视频帧与当前最新的修正后的基准视频帧间的帧间差值。这样，对基准视频帧进行修正，可以进一步提高确定出的帧间差值的准确性，提高目标视频帧的准确性，从而进一步提高音视频分类结果的准确性和鲁棒性。

进一步地，在上述方法实施例的基础上，可以通过确定每组分量特征对应的判别结果和置信度确定音视频分类结果，相应的，上述步骤S104的处理可以如下：通过预设音视频分类模型基于第一视频分量特征和第一音频分量特征，得到待分类视频的第一判别结果及第一判别结果对应的第一置信度；通过预设音视频分类模型基于第二视频分量特征和第二音频分量特征，得到待分类视频的第二判别结果及第二判别结果对应的第二置信度；基于第一判别结果、第一置信度、第二判别结果和第二置信度生成待分类音视频片段的音视频分类结果。

其中，所述第一判别结果指基于第一视频分量特征和第一音频分量特征得到的第一音视频子片段的分类结果，该分类结果可以认为是待分类视频的一个可能的分类结果。

第一置信度指第一判别结果的置信度。

所述第二判别结果指基于第二视频分量特征和第二音频分量特征得到的第二音视频子片段的分类结果，该分类结果可以认为是待分类视频的一个可能的分类结果。

第二置信度指第二判别结果的置信度。

在实施中，可以将基于第一音视频子片段提取的第一视频分量特征和第一音频分量特征输入至预设音视频分类模型，以得到待分类音视频片段对应的第一判别结果，及该第一判别结果对应的第一置信度。并可以将基于第二音视频子片段提取的第二视频分量特征和第二音频分量特征输入至预设音视频分类模型，以得到待分类音视频片段对应的第二判别结果，及该第二判别结果对应的第二置信度。然后，再根据第一判别结果、第一置信度、第二判别结果和第二置信度生成待分类音视频片段的音视频分类结果。

进一步地，在上述方法实施例的基础上，可以将置信度高的判别结果确定为音视频分类结果，相应的处理可以如下：确定第一判别结果和第二判别结果是否相同；若第一判别结果和第二判别结果相同，则将第一判别结果和第二判别结果中任一判别结果确定为待分类音视频片段的音视频分类结果；若第一判别结果和第二判别结果不同，则将第一置信度和第二置信度中的最大值对应的判别结果确定为待分类音视频片段的音视频分类结果。

在实施中，可以将第一判别结果和第二判别结果进行比较，以确定第一判别结果和第二判别结果是否相同。若第一判别结果和第二判别结果相同，则可以将第一判别结果和第二判别结果中的任一判别结果确定为待分类音视频片段的音视频分类结果，并输出该音视频分类结果。若第一判别结果和第二判别结果不同，则可以确定第一置信度和第二置信度中的置信度的最大值，并可以将该置信府的最大值对应的判别结果确定为待分类音视频片段的音视频分类结果，并输出该音视频分类结果。如可以通过图2所示的已训练的深度神经网络ConvNet1-ConvNet3(即预设音视频分类模型)，分别得到第一判别结果L₀、第二判别结果L₁和对应的第一置信度S₀、第二置信度S₁。若L₀与L₁相同，则输出L₀或L₁作为待分类视频的音视频分类结果；若L₀与L₁不同，则输出S₀和S₁中更高的值对应的判决结果。这样，将置信度高的判别结果确定为音视频分类结果，可以进一步提高音视频分类结果的准确性。

为使本发明实施例所提供的的方法更清楚，现参照图4对上述方法进行完整说明。具体的，首先，可以对待分类音视频片段进行预处理得到待分类音视频片段对应的视频帧序列和音频帧序列，即图4中所示的视频分量和音频分量。然后，可以从视频分量中提取目标视频帧，即图4中所示的定位视频关键帧；并可以从音频分量中提取音频关键帧，即图4中所示的定位音频关键帧。之后，可以基于视频关键帧及预设子片段时长在待分类音视频片段中确定第一音视频子片段，并可以基于音频关键帧及预设子片段时长在待分类音视频片段中确定第二音视频子片段。然后，可以通过双流法模型(包括两个CNN网络)分别对第一音视频子片段和第二音视频子片段进行图像特征提取；通过LSTM分别对第一音视频子片段和第二音视频子片段进行语音特征提取，分别得到第一音视频子片段对应的第一视频分量特征和第一音频分量特征，第二音视频子片段对应的第二视频分量特征和第二音频分量特征。之后，通过预设音视频分类模型基于第一视频分量特征和第一音频分量特征得到第一判别结果及第一判别结果对应的第一置信度；通过预设音视频分类模型基于第二视频分量特征和第二音频分量特征得到第二判别结果及第二判别结果对应的第二置信度。最后，可以对第一判别结果、第一置信度、第二判别结果、第二置信度进行综合分类判别，得到待分类音视频片段的音视频分类结果。

图5示出了本实施例提供的一种音视频片段分类装置，包括预处理模块501、子片段确定模块502、分量特征提取模块503、视频分类模块504，其中：

所述预处理模块501，用于基于待分类音视频片段的视频帧序列提取目标视频帧，基于所述待分类音视频片段的音频帧序列提取目标音频帧；

所述子片段确定模块502，用于基于所述目标视频帧的第一出现时刻及预设子片段时长确定第一音视频子片段，基于所述目标音频帧的第二出现时刻及所述预设子片段时长确定第二音视频子片段；

所述分量特征提取模块503，用于基于所述第一音视频子片段提取第一视频分量特征和第一音频分量特征，基于所述第二音视频子片段提取第二视频分量特征和第二音频分量特征；

所述视频分类模块504，用于通过预设音视频分类模型基于所述第一视频分量特征、第一音频分量特征、第二视频分量特征和第二音频分量特征确定所述待分类音视频片段的音视频分类结果。

进一步地，还包括模型训练模块，用于：

基于音视频子片段测试集确定训练后的基准分类模型的当前分类准确率，并确定所述当前分类准确率是否大于等于预设分类准确率；

若所述当前分类准确率大于等于预设分类准确率，则将所述训练后的基准分类模型确定为预设音视频分类模型。

进一步地，所述预处理模块501，用于：

进一步地，所述处理模块501，用于：

进一步地，所述基于所述待分类音视频片段的音频帧序列提取目标音频帧的方法为突变点检验方法或音频检测方法。

进一步地，所述视频分类模块504，用于：

确定所述第一判别结果和所述第二判别结果是否相同；

本实施例所述的音视频片段分类装置可以用于执行上述方法实施例，其原理和技术效果类似，此处不再赘述。

参照图6所示电子设备，包括：处理器(processor)601、存储器(memory)602和总线603；

其中，

所述处理器601和存储器602通过所述总线603完成相互间的通信；

所述处理器601用于调用所述存储器602中的程序指令，以执行上述各方法实施例所提供的方法。

本实施例公开一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行上述各方法实施例所提供的方法。

本实施例提供一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令使所述计算机执行上述各方法实施例所提供的方法。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种音视频片段分类方法，其特征在于，包括：

基于待分类音视频片段的视频帧序列提取目标视频帧，基于所述待分类音视频片段的音频帧序列提取目标音频帧；所述目标视频帧为基于视频帧序列提取的表征待分类视频片段场景事件的视频帧；所述目标音频帧为基于音频帧序列提取的使音频帧序列出现突变的音频帧；

2.根据权利要求1所述的音视频片段分类方法，其特征在于，

还包括：

3.根据权利要求1所述的音视频片段分类方法，其特征在于，所述基于待分类音视频片段的视频帧序列提取目标视频帧之前，还包括：

4.根据权利要求1所述的音视频片段分类方法，其特征在于，所述基于待分类音视频片段的视频帧序列提取目标视频帧，包括：

5.根据权利要求1所述的音视频片段分类方法，其特征在于，所述基于所述待分类音视频片段的音频帧序列提取目标音频帧的方法为突变点检验方法或音频检测方法。

6.根据权利要求1-5任一所述的音视频片段分类方法，其特征在于，所述通过预设音视频分类模型基于所述第一视频分量特征、第一音频分量特征、第二视频分量特征和第二音频分量特征确定所述待分类音视频片段的音视频分类结果，包括：

7.根据权利要求6所述的音视频片段分类方法，其特征在于，所述基于所述第一判别结果和所述第二判别结果生成所述待分类音视频片段的音视频分类结果，包括：

确定所述第一判别结果和所述第二判别结果是否相同；

8.一种音视频片段分类装置，其特征在于，包括预处理模块、子片段确定模块、分量特征提取模块、视频分类模块，其中：

所述预处理模块，用于基于待分类音视频片段的视频帧序列提取目标视频帧，基于所述待分类音视频片段的音频帧序列提取目标音频帧；所述目标视频帧为基于视频帧序列提取的表征待分类视频片段场景事件的视频帧；所述目标音频帧为基于音频帧序列提取的使音频帧序列出现突变的音频帧；

9.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至7任一所述的音视频片段分类方法。

10.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现如权利要求1至7任一所述的音视频片段分类方法。