CN111901627B

CN111901627B - 视频处理方法、装置、存储介质及电子设备

Info

Publication number: CN111901627B
Application number: CN202010468397.2A
Authority: CN
Inventors: 程驰; 谢文珍
Original assignee: Beijing Dami Technology Co Ltd
Current assignee: Beijing Dami Technology Co Ltd
Priority date: 2020-05-28
Filing date: 2020-05-28
Publication date: 2022-12-30
Anticipated expiration: 2040-05-28
Also published as: CN111901627A

Abstract

本申请实施例公开了一种视频处理方法、装置、存储介质及电子设备，属于计算机技术领域。方法包括：服务器获取原始视频数据，基于原始视频数据中的音频数据，得到至少一个有效语音片段，基于预设间隔时长对至少一个有效语音片段进行分组得到至少一个长语音片段，确定至少一个长语音片段中的有效发音时长占比信息，确定至少一个长语音片段对应的至少一个视频片段，确定至少一个视频片段中的正脸数、笑脸数、正脸占比和/或笑脸占比，将分析结果和至少一个视频片段输入至二分类模型进行分类处理得到至少一个视频片段对应的分类结果，分析结果包括有效发音时长占比信息、正脸数、笑脸数、正脸占比和/或笑脸占比中的至少一种，基于分类结果选择至少一个视频片段作为目标视频片段，通过此种方式可选取得到更准确的精彩视频片段，并由此生成高质量的精彩视频。

Description

视频处理方法、装置、存储介质及电子设备

技术领域

本申请涉及计算机技术领域，尤其涉及一种视频处理方法、装置、存储介质及电子设备。

背景技术

随着计算机技术的发展，视频应用越来越广泛，在应用中，有时需要对视频进行压缩或提取，如提取精彩片段等。但在相关技术中，存在所选取的精彩视频片段不准确、精彩视频质量较差的缺陷。

发明内容

本申请实施例提供了一种视频处理方法、装置、存储介质及电子设备，可以解决在相关技术中选取的精彩视频片段不准确、精彩视频质量较差的问题。

所述技术方案如下：

第一方面，本申请实施例提供了一种视频处理方法，所述方法包括：

获取原始视频数据，基于所述原始视频数据中的音频数据，得到至少一个有效语音片段；

基于预设间隔时长对所述至少一个有效语音片段进行分组得到至少一个长语音片段；

确定所述至少一个长语音片段中的有效发音时长占比信息；

确定所述至少一个长语音片段对应的至少一个视频片段；

确定所述至少一个视频片段中的正脸数、笑脸数、正脸占比和/或笑脸占比；

将分析结果和所述至少一个视频片段输入至二分类模型进行分类处理得到所述至少一个视频片段对应的分类结果；其中，所述分析结果包括所述有效发音时长占比信息、所述正脸数、所述笑脸数、所述正脸占比和/或所述笑脸占比中的至少一种；

基于所述分类结果选择至少一个视频片段作为目标视频片段。

第二方面，本申请实施例提供了一种视频处理装置，所述视频处理装置包括：

第一处理模块，用于获取原始视频数据，基于所述原始视频数据中的音频数据，得到至少一个有效语音片段；

分组模块，用于基于预设间隔时长对所述至少一个有效语音片段进行分组得到至少一个长语音片段；

第一确定模块，用于确定所述至少一个长语音片段中的有效发音时长占比信息；

第二确定模块，用于确定所述至少一个长语音片段对应的至少一个视频片段；

第三确定模块，用于确定所述至少一个视频片段中的正脸数、笑脸数、正脸占比和/或笑脸占比；

第二处理模块，用于将分析结果和所述至少一个视频片段输入至二分类模型进行分类处理得到所述至少一个视频片段对应的分类结果；其中，所述分析结果包括所述有效发音时长占比信息、所述正脸数、所述笑脸数、所述正脸占比和/或所述笑脸占比中的至少一种；

选择模块，用于基于所述分类结果选择至少一个视频片段作为目标视频片段。

第三方面，本申请实施例提供一种计算机存储介质，所述计算机存储介质存储有多条指令，所述指令适于由处理器加载并执行上述的方法步骤。

第四方面，本申请实施例提供一种电子设备，可包括：处理器和存储器；其中，所述存储器存储有计算机程序，所述计算机程序适于由所述处理器加载并执行上述的方法步骤。

本申请一些实施例提供的技术方案带来的有益效果至少包括：

本申请实施例的方案在执行时，服务器获取原始视频数据，基于原始视频数据中的音频数据，得到至少一个有效语音片段，基于预设间隔时长对至少一个有效语音片段进行分组得到至少一个长语音片段，确定至少一个长语音片段中的有效发音时长占比信息，确定至少一个长语音片段对应的至少一个视频片段，确定至少一个视频片段中的正脸数、笑脸数、正脸占比和/或笑脸占比，将分析结果和至少一个视频片段输入至二分类模型进行分类处理得到至少一个视频片段对应的分类结果，分析结果包括有效发音时长占比信息、正脸数、笑脸数、正脸占比和/或笑脸占比中的至少一种，基于分类结果选择至少一个视频片段作为目标视频片段，通过此种方式可选取得到更准确的精彩视频片段，并由此生成高质量的精彩视频。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种***架构图；

图2是本申请实施例提供的视频处理方法的流程示意图；

图3是本申请实施例提供的视频处理方法的另一流程示意图；

图4是本申请实施例提供的一种装置的结构示意图；

图5是本申请实施例提供的一种装置的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施例方式作进一步地详细描述。

图1示出了可以应用本申请实施例的视频处理方法或视频处理装置的示例性***架构100的示意图。

如图1所示，***架构100可以包括终端设备101、102、103中的一种或多种，网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质，终端设备101、102、103上可以安装有各种通信客户端应用，例如：视频录制应用、视频播放应用、语音交互应用、搜索类应用、及时通信工具、邮箱客户端、社交平台软件等。网络104可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备101、102、103通过网络104与服务器105交互，以接收或发送消息等。终端设备101、102、103可以是具有显示屏的各种电子设备，包括但不限于智能手机、平板电脑、便携式计算机和台式计算机等等。网络104可以包括各种类型的有线通信链路或无线通信链路，例如：有线通信链路包括光纤、双绞线或同轴电缆的，无线通信链路包括蓝牙通信链路、无线保真(WIreless-FIdelity，Wi-Fi)通信链路或微波通信链路等。终端设备101、 102、103可以是硬件，也可以是软件。当终端设备101、102、103为软件时，可以是安装于上述所列举的电子设备中。其可以实现呈多个软件或软件模块(例如：用来提供分布式服务)，也可以实现成单个软件或软件模块，在此不作具体限定。当终端设备101、102、103为硬件时，其上还可以安装有显示设备和摄像头，显示设备显示可以是各种能实现显示功能的设备，摄像头用于采集视频流；例如：显示设备可以是阴极射线管显示器(Cathode raytubedisplay，简称 CR)、发光二极管显示器(Light-emitting diode display，简称LED)、电子墨水屏、液晶显示屏(Liquid crystal display，简称LCD)、等离子显示面板(Plasmadisplaypanel，简称PDP)等。用户可以利用终端设备101、102、103上的显示设备，来查看显示的文字、图片、视频等信息。

需要说明的是，本申请实施例提供的视频处理方法一般由服务器105执行，相应的，视频处理装置一般设置于服务器105中。服务器105可以是提供各种服务的服务器，服务器105可以是硬件，也可以是软件。当服务器105为硬件时，可以实现成多个服务器组成的分布式服务器集群，也可以实现成单个服务器。当服务器105为软件时，可以实现成多个软件或软件模块(例如用来提供分布式服务)，也可以实现成单个软件或软件模块，在此不做具体限定。

本申请中的服务器105可以为提供各种服务的终端设备，如服务器获取原始视频数据，基于原始视频数据中的音频数据，得到至少一个有效语音片段，基于预设间隔时长对至少一个有效语音片段进行分组得到至少一个长语音片段，确定至少一个长语音片段中的有效发音时长占比信息，确定至少一个长语音片段对应的至少一个视频片段，确定至少一个视频片段中的正脸数、笑脸数、正脸占比和/或笑脸占比，将分析结果和至少一个视频片段输入至二分类模型进行分类处理得到至少一个视频片段对应的分类结果，分析结果包括有效发音时长占比信息、正脸数、笑脸数、正脸占比和/或笑脸占比中的至少一种，基于分类结果选择至少一个视频片段作为目标视频片段。

在此需要说明的是，本申请实施例所提供的视频处理方法可以由终端设备 101、102、103中的至少一个，和/或，服务器105执行，相应地，本申请实施例所提供的视频处理装置一般设置于对应终端设备中，和/或，服务器105中，但本申请不限于此。

应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。

下面将结合附图2和附图3，对本申请实施例提供的视频处理方法进行详细介绍。在这里需要说明的是，为了方便描述，实施例以在线教育行业为例进行说明，但本领域技术人员明白，本申请的适用并不局限于在线教育行业，本申请所描述的视频处理方法可以有效应用于互联网各个行业领域。

请参见图2，为本申请实施例提供了一种视频处理方法的流程示意图。如图 2所示，本申请实施例的所述方法可以包括以下步骤：

S201，获取原始视频数据，基于原始视频数据中的音频数据，得到至少一个有效语音片段。

其中，原始视频数据包括视频和音频两部分，有效语音片段是从原始视频数据的音频部分中截取的一部分有效发声的音频。

一般的，在学生和教师完成课程教学后，服务器将自动生成原始视频数据，原始视频数据中包括学生和教师在课程教学过程中互动的音频和视频，可从原始视频数据中获取的音频数据，基于语音端点检测VAD算法对该音频数据进行分帧处理得到多个分帧音频数据，并基于预设分类模型和语音识别ASR算法对多个分帧音频数据进行分类处理得到至少一个有效语音片段。

S202，基于预设间隔时长对至少一个有效语音片段进行分组得到至少一个长语音片段。

其中，预设间隔时长是指预先设定的两点时间之间的间隔阈值，基于该预设间隔时长可判定多个有效语音片段之间是否为同一组的长语音片段。长语音片段是指完整的有效语音对话，多个有效语音片段均是包括间断内容信息的语音片段，通过预设间隔时长可将属于同一个完整的有效语音对话的至少一个有效语音片段筛选出来，并将所筛选出来的至少一个有效语音片段归为同组有效音频片段，并基于所筛选出来的该同组有效语音片段可从原始视频数据的音频数据中选出至少一个完整的有效语音对话，即至少一个长语音片段。

S203，确定至少一个长语音片段中的有效发音时长占比信息。

其中，有效发音时长占比信息是指有效音频部分的时长在该长语音片段的音频时长中所占据的比例。

一般的，至少一个长语音片段是原始视频数据的音频数据中的至少一个完整的有效语音对话，至少一个完整的有效语音对话中包括有效发音部分、杂音部分和无声部分，对至少一个长语音片段进行分析获取该至少一个长语音片段的音频总时长，以及获取有效发音部分的时长和/或杂音部分和无声部分的总时长，进而计算得到该至少一个长语音片段的有效发音时长占比信息。

S204，确定至少一个长语音片段对应的至少一个视频片段。

一般的，原始视频数据包括音频和视频两个部分，在对原始视频数据的音频部分进行分析后，可得到具有完整对话内容信息的长语音片段，通过获取该长语音片段的时间标签，可获取该长语音片段在整个原始视频数据的位置，进而可从原始视频数据中获取到该时间标签对应的视频片段的位置，并截取到该视频片段。

S205，确定至少一个视频片段中的至少一个视频片段对应的正脸数、笑脸数、正脸占比和/或笑脸占比。

其中，正脸数是指在视频片段中人脸处于正脸位置的数目，可通过对视频片段分析得到多个视频图像，从多个视频图像中可获得人脸的正脸数；笑脸数是指在视频片段中人脸处于笑脸状态的数目，可通过对视频片段分析得到多个视频图像，从多个视频图像中可获得人脸的笑脸数；正脸占比是指人脸所处正脸状态在视频片段的所有人脸状态中所占据的比例；笑脸占比是指人脸所处笑脸状态在视频片段的所有人脸状态中所占据的比例。

一般的，至少一个视频片段对应多个视频图像，且多个视频图像中包括学生和教师的人脸图像，可通过获取至少一个视频片段对应的总时长，并对至少一个视频片段进行分帧处理得到至少一个视频图像，对该至少一个视频图像进行姿态分析获取正脸数，以及对至少一个视频图像进行表情分析获取笑脸数，在获得对该至少一个视频图像对应的正脸数和笑脸数后，进一步的，可基于正脸数、笑脸数和总时长计算得到正脸占比和/或笑脸占比。

S206，将分析结果和至少一个视频片段输入至二分类模型进行分类处理得到至少一个视频片段对应的分类结果。

其中，分析结果是指对至少一个视频片段进行多次分析处理后得到的分析数据，包括有效发音时长占比信息、正脸数、笑脸数、正脸占比和/或笑脸占比中的至少一种。

一般的，在将分析结果和至少一个视频片段输入至二分类模型进行分类处理得到至少一个视频片段对应的分类结果之前，需要对二分类模型进行训练，训练过程可包括：确定训练的正样本集合和负样本集合，正样本集合和负样本集合包括有效发音时长占比信息标签、正脸数标签、笑脸数标签、正脸占比标签和/或笑脸占比标签中的至少一种，根据正样本集合和负样本集合中包括的多种样本数据进行分类，并根据特征训练该多种样本数据的分类，直至训练得到二分类模型。将包括有效发音时长占比信息、正脸数、笑脸数、正脸占比和/或笑脸占比中的至少一种的分析结果，以及至少一个视频片段作为输入数据输入至训练好的二分类模型中，利用该二分类模型对输入数据进行分类处理，得到视频片段所对应的分类结果，如：视频片段属于精彩视频片段的分值或概率。

S207，基于分类结果选择至少一个视频片段作为目标视频片段。

其中，目标视频片段是指从至少一个视频片段中所选取的可作为精彩视频的视频片段，且该目标视频片段包括音频和视频两部分。

一般的，在得到至少一个视频片段对应的分类结果后，可基于该分类结果从至少一个视频片段中选取符合条件的至少一个视频片段作为目标视频片段，进一步的，对该目标视频片段进行预设的剪辑编辑处理可得到可向用户终端直接展示的精彩视频片段；若所选取的目标视频片段为一个视频片段，则可直接基于该视频片段生成精彩视频片段，也可对该视频片段进行美化处理后生成精彩视频片段；若所选取的目标视频片段为多个视频片段，则需要对该多个视频片段进行剪辑合成，并进一步美化处理之后生成精彩视频片段。

举例说明：若分类分值总分为100分，预设条件为视频片段的分类分值大于或等于60分，在对原始视频数据进行分析后得到6个视频片段，经过二分类模型对6个视频片段进行分类处理后，得到该6个视频片段的分类分值分别为 40分、60分、70分、80分、20分、50分，则基于预设条件可从该6个视频片段中选取分类分值分别为60分、70分、80分的视频片段作为目标视频片段，在对该分类分值为60分、70分、80分的目标视频片段进行剪辑合成，并进一步美化处理后可生成该原始视频数据对应的精彩视频片段。

请参见图3，为本申请实施例提供了一种视频处理方法的流程示意图，该视频处理方法可以包括以下步骤：

S301，获取原始视频数据。

一般的，在学生和教师完成课程教学后，服务器将自动生成原始视频数据，原始视频数据中包括学生和教师在课程教学过程中互动的音频和视频两部分，可从原始视频数据中获取音频数据，基于语音端点检测VAD算法对该音频数据进行分帧处理得到多个分帧音频数据，并基于预设分类模型和语音识别ASR算法对多个分帧音频数据进行分类处理得到至少一个有效语音片段。

S302，基于语音端点检测VAD算法对音频数据进行分帧处理得到多个分帧音频数据。

一般的，VAD(语音端点检测，Voice Activity Detection)，又称语音活动检测、语音边界检测，是从声音信号流中识别和消除长时间的静音期，以达到在不降低业务质量的情况下消除无关音频以获取有效音频的目的。语音端点检测 VAD的主要过程包括：对音频数据进行分帧处理得到多帧音频数据，从每一帧音频数据中提取的音频特征，在一个已知语音和静默信号区域的数据帧集合上训练一个分类器，并基于该分类器对未知的多帧音频数据进行分类，进而获取有效发音的音频数据。通常，VAD算法会将音频数据划分为发音部分(voiced)、未发音部分(unvoiced)和静默部分(silence)，发音部分即有效发音的音频数据。

在本申请实施例中，对音频数据进行分帧处理，从音频数据中截取出多段音频片段，每一段音频片段为一帧。帧长需要满足两个条件：

首先，帧长必须足够短以保证帧内信号是平稳的，一帧的长度应当于一个音素的长度。在正常语速下，音素的持续时间大约是50ms～200ms，所以帧长通常于50ms。其次，帧长必须包括足够的振动周期，以保证能够进行多次傅里叶变换得到分析频率，通常男声的基频在100Hz左右，周期为10ms；女声的基频在200Hz左右，周期为5ms；为使一帧内要包含多个周期，故帧长至少取20ms。通常帧长取20ms～50ms，20ms、25ms、30ms、40ms、50ms均是比较常用的帧长数值。

S303，基于预设分类模型和语音识别ASR算法对多个分帧音频数据进行分类处理得到至少一个有效语音片段。

其中，有效语音片段是从原始视频数据的音频部分中截取的一部分有效发声的音频，预设分类模型是指基于预先设定的输入数据和输出数据训练得到分类模型，通过预设分类模型可判断输入的音频片段是否为有效语音片段。

一般的，分类模型是基于逻辑回归方法，利用已知的自变量预测得到离散型因变量的值(如：二进制值0/1，是/否，真/假)，即通过拟合逻辑函数(logistic fuction)预测事件发生的概率。ASR(Automatic Speech Recognition，语音识别) 算法是以音频为处理对象，通过识别和理解过程将语音信号转变为相应的文本或命令。

S304，基于预设间隔时长对至少一个有效语音片段进行分组得到至少一个长语音片段。

S305，确定至少一个长语音片段的时长和间隔时长。

S306，基于时长和间隔时长计算得到有效发音时长占比信息。

其中，有效发音时长占比信息是指有效音频部分的时长在该长语音片段的音频总时长中所占据的比例。

S307，确定至少一个长语音片段对应的时间标签信息。

其中，时间标签信息是指长语音片段的对应的起始时间点和终止时间点，音频的时间标签信息与视频的时间标签信息一致。

S308，基于时间标签信息，从原始视频数据中提取与至少一个长语音片段对应的至少一个视频片段。

S309，获取至少一个视频片段对应的时长，并对至少一个视频片段进行分帧处理得到至少一个视频图像。

一般的，对视频片段进行分帧处理，即是将视频片段分为多帧静止的视频图像，通过获取视频片段对应的视频图像，可进一步从该视频图像中分析得到视频图像中人脸的正脸数、笑脸数，视频图像中的人脸可以属于学生和/或教师。

S310，对至少一个视频图像进行姿态分析获取正脸数。

其中，正脸数是指在视频片段中人脸处于正脸位置的数目，可通过对视频片段分析得到多个视频图像，从多个视频图像中可获得人脸的正脸数。

一般的，当前人脸姿态分析方法可分为两类：基于模型方法和基于表观方法，基于模型的方法是通过重建人脸三维模型来判断人脸的姿态情况，可得到较准确的分析结果，但需要庞大的计算量；基于表观方法包括有两种方式：一是基于特征表示的鲁棒性，二是基于人脸的特征点检测；基于特征表示鲁棒性的方法是依靠某种特征对姿态变化不敏感的性质完成人脸姿态估计，故分析结果的准确率严重依赖特征表示的性质；基于人脸特征点的方法通过在图像上标注多个人脸的特征点并通过特征点之间的几何关系判定人脸的姿态方向，故分析结果的准确率依赖于特征点检测的准确率。通过对视频图像中包含的人脸进行人脸姿态分析，可得到该人脸对应的姿态情况，进而在对至少一个视频图像完成人脸姿态分析后可得到人脸的正脸数，为后续计算正脸占比提供计算依据。

例如：基于人脸特征点的方法对视频图像中包含的人脸进行人脸姿态分析，其中包括对人脸的下巴、鼻尖、左眼角、右眼角、左嘴角、右嘴角等关键特征点进行检测，将检测到的人脸对应的特征点之间的几何关系与标准的人脸参数进行对比分析，可得到所检测的人脸对应的姿态，进而可判定视频图像中的人脸是否为正脸。

S311，对至少一个视频图像进行表情分析获取笑脸数。

其中，笑脸数是指在视频片段中人脸处于笑脸状态的数目，可通过对视频片段分析得到多个视频图像，从多个视频图像中可获得人脸的笑脸数。

一般的，人脸表情分析是通过终端对给定的表情图像(视频图像)进行特征提取，并结合先验知识，展开学习、推理、判断，进而理解人类情绪的过程。人脸表情分析主要由表情识别和表情强度估计两个部分组成，表情识别过程主要是将表情图像分为六类基本的表情：生气、厌恶、恐惧、高兴、悲伤、惊讶，而表情强度估计过程可判断情绪的表达强弱程度，可以将表情强度估计问题转化为排序问题，利用表情序列的顺序信息作为约束条件来训练排序模型，从而估计序列中任意两张表情的强弱关系。通过对视频图像中包含的人脸进行表情分析，可得到该人脸对应的表情情况，进而在对至少一个视频图像完成人脸表情分析后可得到人脸的笑脸数，为后续计算笑脸占比提供计算依据。

S312，基于正脸数、笑脸数和时长，计算得到正脸占比和/或笑脸占比。

其中，正脸占比是指人脸所处正脸状态在视频片段的所有人脸状态中所占据的比例；笑脸占比是指人脸所处笑脸状态在视频片段的所有人脸状态中所占据的比例。

S313，确定正样本集合和负样本集合。

其中，正样本集合和负样本集合包括有效发音时长占比信息标签、正脸数标签、笑脸数标签、正脸比例标签和笑脸比例标签中的至少一种。

S314，基于正样本集合和负样本集合训练得到二分类模型。

一般的，将正样本集合和负样本集合中的样本数据的特征进行分类处理，经过多次训练得到能对多个视频片段分类的二分类模型。二分类模型是基于逻辑回归方法，利用已知的自变量预测得到离散型因变量的值，如：二进制值0/1，是/否，真/假，即通过拟合逻辑函数预测事件发生的概率。

S315，将分析结果和至少一个视频片段输入至二分类模型进行分类处理得到至少一个视频片段对应的分类结果。

其中，分析结果是指对至少一个视频片段进行多次分析处理后得到的分析数据，包括有效发音时长占比信息、正脸数、笑脸数、正脸占比和/或笑脸占比中的至少一种。分类结果是指对应的视频片段在经过二分类模型进行分析后得到的离散型因变量的结果，如：二进制值0/1，是/否，真/假。

一般的，在将分析结果和至少一个视频片段输入至二分类模型进行分类处理得到至少一个视频片段对应的分类结果之前，需要对二分类模型进行训练，训练过程可包括：确定训练的正样本集合和负样本集合，正样本集合和负样本集合包括有效发音时长占比信息标签、正脸数标签、笑脸数标签、正脸占比标签和笑脸占比标签中的至少一种，根据正样本集合和负样本集合中包括的多种样本数据进行分类，并根据特征训练该多种样本数据的分类，直至训练得到二分类模型。将包括有效发音时长占比信息、正脸数、笑脸数、正脸占比和/或笑脸占比中的至少一种的分析结果，以及至少一个视频片段作为输入数据输入至训练好的二分类模型中，利用该二分类模型对输入数据进行分类处理，得到视频片段所对应的分类结果，如：视频片段属于精彩视频片段的分值或概率。

S316，基于分类结果选择至少一个视频片段作为目标视频片段。

本申请实施例的方案在执行时，服务器获取原始视频数据，基于语音端点检测VAD算法对原始视频数据中的音频数据进行分帧处理得到多个分帧音频数据，基于预设分类模型和语音识别ASR算法对多个分帧音频数据进行分类处理得到至少一个有效语音片段，基于预设间隔时长对至少一个有效语音片段进行分组得到至少一个长语音片段，确定至少一个长语音片段的总时长和间隔时长，基于时长和间隔时长计算得到有效发音时长占比信息，确定至少一个长语音片段对应的时间标签信息，基于时间标签信息，从原始视频数据中提取与至少一个长语音片段对应的至少一个视频片段，获取至少一个视频片段的时长，并对至少一个视频片段进行分帧处理得到至少一个视频图像，对至少一个视频图像进行姿态分析获取正脸数，对至少一个视频图像进行表情分析获取笑脸数，基于正脸数、笑脸数和时长，计算得到正脸占比/或笑脸占比，确定正样本集合和负样本集合，基于正样本集合和负样本集合训练得到二分类模型，将分析结果和至少一个视频片段输入至二分类模型进行分类处理得到至少一个视频片段对应的分析结果，基于分类结果选择至少一个视频片段作为目标视频片段，通过此种方式可从原始视频数据中选取准确的精彩视频片段，并由此生成高质量精彩视频。

下述为本申请装置实施例，可以用于执行本申请方法实施例。对于本申请装置实施例中未披露的细节，请参照本申请方法实施例。

请参见图4，其示出了本申请一个示例性实施例提供的视频处理装置的结构示意图。以下简称装置4，装置4可以通过软件、硬件或者两者的结合实现成为终端的全部或一部分。装置4包括第一处理模块401、分组模块402、第一确定模块403、第二确定模块404、第三确定模块405、第二处理模块406、选择模块407。

第一处理模块401，用于获取原始视频数据，基于所述原始视频数据中的音频数据，得到至少一个有效语音片段；

分组模块402，用于基于预设间隔时长对所述至少一个有效语音片段进行分组得到至少一个长语音片段；

第一确定模块403，用于确定所述至少一个长语音片段中的有效发音时长占比信息；

第二确定模块404，用于确定所述至少一个长语音片段对应的至少一个视频片段；

第三确定模块405，用于确定所述至少一个视频片段中的正脸数、笑脸数、正脸占比和/或笑脸占比；

第二处理模块406，用于将分析结果和所述至少一个视频片段输入至二分类模型进行分类处理得到所述至少一个视频片段对应的分类结果；其中，所述分析结果包括所述有效发音时长占比信息、所述正脸数、所述笑脸数、所述正脸占比和/或所述笑脸占比中的至少一种；

选择模块407，用于基于所述分类结果选择至少一个视频片段作为目标视频片段。

可选地，所述第三确定模块405包括：

第一处理单元，用于获取所述至少一个视频片段的时长，并对所述至少一个视频片段进行分帧处理得到至少一个视频图像；

获取单元，用于获对所述至少一个视频图像进行人脸识别，得到所述正脸数和/或所述笑脸数；

第一计算单元，用于基于所述正脸数、所述笑脸数和所述时长，计算得到所述正脸占比和所述笑脸占比。

可选地，所述第三确定模块405还包括：

第一分析单元，用于对所述至少一个视频图像进行姿态分析获取所述正脸数；和/或

第二分析单元，用于对所述至少一个视频图像进行表情分析获取所述笑脸数。

可选地，所述第一处理模块401包括：

第二处理单元，用于基于语音端点检测VAD算法对所述音频数据进行分帧处理得到多个分帧音频数据；

分类单元，用于基于预设分类模型和语音识别ASR算法对所述多个分帧音频数据进行分类处理得到所述至少一个有效语音片段。

可选地，所述装置4还包括：

第一确定单元，用于确定正样本集合和负样本集合；其中，所述正样本集合和所述负样本集合包括有效发音时长占比信息标签、正脸数标签、笑脸数标签、正脸占比标签和/或笑脸占比标签中的至少一种；

训练单元，用于基于所述正样本集合和所述负样本集合训练得到所述二分类模型。

可选地，所述第二确定模块404包括：

第二确定单元，用于确定所述至少一个长语音片段对应的时间标签信息；

提取单元，用于基于所述时间标签信息，从所述原始视频数据中提取与所述至少一个长语音片段对应的所述至少一个视频片段。

可选地，所述第一确定模块403包括：

第三确定单元，用于确定所述至少一个长语音片段的时长和间隔时长；

第二计算单元，用于基于所述时长和所述间隔时长计算得到所述有效发音时长占比信息。

需要说明的是，上述实施例提供的装置4在执行视频处理方法时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的视频处理方法实施例属于同一构思，其体现实现过程详见方法实施例，这里不再赘述。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

本申请实施例还提供了一种计算机存储介质，所述计算机存储介质可以存储有多条指令，所述指令适于由处理器加载并执行如上述图2～图3所示实施例的方法步骤，具体执行过程可以参见图2～图3所示实施例的具体说明，在此不进行赘述。

本申请还提供了一种计算机程序产品，该计算机程序产品存储有至少一条指令，所述至少一条指令由所述处理器加载并执行以实现如上各个实施例所述的视频处理方法。

图5为本申请实施例提供的一种视频处理装置结构示意图，以下简称装置5，装置5可以集成于前述服务器或终端设备中，如图5所示，该装置包括：存储器502、处理器501、输入装置503、输出装置504和通信接口。

存储器502可以是独立的物理单元，与处理器501、输入装置503和输出装置504可以通过总线连接。存储器502、处理器501、输入装置503和输出装置 504也可以集成在一起，通过硬件实现等。

存储器502用于存储实现以上方法实施例，或者装置实施例各个模块的程序，处理器501调用该程序，执行以上方法实施例的操作。

输入装置503包括但不限于键盘、鼠标、触摸面板、摄像头和麦克风；输出装置包括但限于显示屏。

通信接口用于收发各种类型的消息，通信接口包括但不限于无线接口或有线接口。

可选地，当上述实施例的分布式任务调度方法中的部分或全部通过软件实现时，装置也可以只包括处理器。用于存储程序的存储器位于装置之外，处理器通过电路/电线与存储器连接，用于读取并执行存储器中存储的程序。

处理器可以是中央处理器(central processing unit，CPU)，网络处理器(network processor，NP)或者CPU和NP的组合。

处理器还可以进一步包括硬件芯片。上述硬件芯片可以是专用集成电路(application-specific integrated circuit，ASIC)，可编程逻辑器件(programmablelogic device，PLD)或其组合。上述PLD可以是复杂可编程逻辑器件(complexprogrammable logic device，CPLD)，现场可编程逻辑门阵列(field-programmable gatearray，FPGA)，通用阵列逻辑(generic array logic，GAL)或其任意组合。

存储器可以包括易失性存储器(volatile memory)，例如存取存储器 (random-access memory，RAM)；存储器也可以包括非易失性存储器(non-volatile memory)，例如快闪存储器(flash memory)，硬盘(hard disk drive， HDD)或固态硬盘(solid-statedrive，SSD)；存储器还可以包括上述种类的存储器的组合。

其中，处理器501调用存储器502中的程序代码用于执行以下步骤：

确定所述至少一个长语音片段中的有效发音时长占比信息；

确定所述至少一个长语音片段对应的至少一个视频片段；

在一个或多个实施例中，处理器501还用于：

获取所述至少一个视频片段的时长，并对所述至少一个视频片段进行分帧处理得到至少一个视频图像；

对所述至少一个视频图像进行人脸识别，得到所述正脸数和/或所述笑脸数；

基于所述正脸数、所述笑脸数和所述时长，计算得到所述正脸占比和/或所述笑脸占比。

在一个或多个实施例中，处理器501还用于：

对所述至少一个视频图像进行姿态分析获取所述正脸数；和/或

对所述至少一个视频图像进行表情分析获取所述笑脸数。

在一个或多个实施例中，处理器501还用于：

基于语音端点检测VAD算法对所述音频数据进行分帧处理得到多个分帧音频数据；

基于预设分类模型和语音识别ASR算法对所述多个分帧音频数据进行分类处理得到所述至少一个有效语音片段。

在一个或多个实施例中，处理器501还用于：

确定正样本集合和负样本集合；其中，所述正样本集合和所述负样本集合包括有效发音时长占比信息标签、正脸数标签、笑脸数标签、正脸占比标签和笑脸占比标签中的至少一种；

基于所述正样本集合和所述负样本集合训练得到所述二分类模型。

在一个或多个实施例中，处理器501还用于：

确定所述至少一个长语音片段对应的时间标签信息；

基于所述时间标签信息，从所述原始视频数据中提取与所述至少一个长语音片段对应的所述至少一个视频片段。

在一个或多个实施例中，处理器501还用于：

确定所述至少一个长语音片段的时长和间隔时长；

基于所述时长和所述间隔时长计算得到所述有效发音时长占比信息。

本申请实施例还提供了一种计算机存储介质，存储有计算机程序，该计算机程序用于执行上述实施例提供的视频处理方法。

本申请实施例还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述实施例提供的视频处理方法。

本领域内的技术人员应明白，本申请的实施例可提供为方法、***、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、 CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和 /或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/ 或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

Claims

1.一种视频处理方法，其特征在于，所述方法包括：

基于预设间隔时长对所述至少一个有效语音片段进行分组得到至少一个长语音片段；其中，所述至少一个长语音片段中包括有效发音部分、杂音部分和无声部分；

根据所述至少一个长语音片段的时长和/或所述杂音部分和所述无声部分的总时长，确定所述至少一个长语音片段中的有效发音时长占比信息；

确定所述至少一个长语音片段对应的至少一个视频片段；

基于所述分类结果选择至少一个视频片段作为目标视频片段；

所述确定所述至少一个视频片段中的正脸数、笑脸数、正脸占比和/或笑脸占比，包括：

获取所述至少一个视频片段的时长，并对所述至少一个视频片段进行分帧处理得到至少一个视频图像；对所述至少一个视频图像进行人脸识别，得到所述正脸数和/或所述笑脸数；基于所述正脸数、所述笑脸数和所述时长，计算得到所述正脸占比和/或所述笑脸占比。

2.根据权利要求1所述的方法，其特征在于，所述对所述至少一个视频图像进行人脸识别，得到所述正脸数和/或所述笑脸数，包括：

对所述至少一个视频图像进行表情分析获取所述笑脸数。

3.根据权利要求1所述的方法，其特征在于，所述基于所述原始视频数据中的音频数据，得到至少一个有效语音片段，包括：

4.根据权利要求1所述的方法，其特征在于，所述二分类模型为预先训练好的模型，其训练过程包括：

确定正样本集合和负样本集合；其中，所述正样本集合和所述负样本集合包括有效发音时长占比信息标签、正脸数标签、笑脸数标签、正脸占比标签和/或笑脸占比标签中的至少一种；

5.根据权利要求1所述的方法，其特征在于，所述确定所述至少一个长语音片段对应的至少一个视频片段，包括：

确定所述至少一个长语音片段对应的时间标签信息；

6.根据权利要求1所述的方法，其特征在于，所述确定所述至少一个长语音片段中的有效发音时长占比信息，包括：

确定所述至少一个长语音片段的时长和间隔时长；

7.一种视频处理装置，其特征在于，所述装置包括：

分组模块，用于基于预设间隔时长对所述至少一个有效语音片段进行分组得到至少一个长语音片段；其中，所述至少一个长语音片段中包括有效发音部分、杂音部分和无声部分；

第一确定模块，用于根据所述至少一个长语音片段的时长和/或所述杂音部分和所述无声部分的总时长，确定所述至少一个长语音片段中的有效发音时长占比信息；

选择模块，用于基于所述分类结果选择至少一个视频片段作为目标视频片段；

所述第三确定模块包括：

第一处理单元，用于获取所述至少一个视频片段的时长，并对所述至少一个视频片段进行分帧处理得到至少一个视频图像；获取单元，用于对所述至少一个视频图像进行人脸识别，得到所述正脸数和/或所述笑脸数；第一计算单元，用于基于所述正脸数、所述笑脸数和所述时长，计算得到所述正脸占比和/或所述笑脸占比。

8.一种计算机存储介质，其特征在于，所述计算机存储介质存储有多条指令，所述指令适于由处理器加载并执行如权利要求1～6任意一项的方法步骤。

9.一种电子设备，其特征在于，包括：处理器和存储器；其中，所述存储器存储有计算机程序，所述计算机程序适于由所述处理器加载并执行如权利要求1～6任意一项的方法步骤。