CN111460219A

CN111460219A - 视频处理方法及装置、短视频平台

Info

Publication number: CN111460219A
Application number: CN202010251646.2A
Authority: CN
Inventors: 李晨曦; 李莲莲; 王艺鹏; 李远杭; 郭湘琰; 贠挺
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2020-04-01
Filing date: 2020-04-01
Publication date: 2020-07-28
Anticipated expiration: 2040-04-01
Also published as: CN111460219B

Abstract

本公开提供了一种视频处理方法，包括：获取待处理视频；从所述待处理视频中获取目标人物出现的多个初始视频片段；针对每个初始视频片段，确定该初始视频片段的每个指定帧图像对应的满足预设规格的目标裁剪区域；根据各指定帧图像对应的目标裁剪区域的位置信息，预测出该初始视频片段的除指定帧图像以外的每个帧图像的目标裁剪区域；根据每个帧图像的目标裁剪区域对每个帧图像进行裁剪，得到对应的目标人物图像；根据该初始视频片段的所有帧图像对应的目标人物图像，生成对应的目标视频片段；至少根据多个目标视频片段，生成目标短视频。本公开还提供了视频处理装置、短视频平台、电子设备及计算机可读介质。

Description

视频处理方法及装置、短视频平台

技术领域

本公开实施例涉及视频处理技术领域，特别涉及视频处理方法及装置、短视频平台、电子设备、计算机可读介质。

背景技术

随着智能手机的普及和移动互联网的发展，短视频已经进入了蓬勃发展的阶段。

明星混剪视频在各短视频平台(如抖音、B站等)受到了很多用户的喜爱，但该类视频的制作过程比较繁琐，目前通常通过人工进行制作，且该类视频的制作对创作者有较高的要求。对于创作者而言，该类视频的制作效率较低且成本较高，不仅浪费时间且需要消耗较多精力；对于短视频平台而言，该类视频的产出效率较低，导致平台中该类视频的资源稀缺，降低了用户的使用体验。

发明内容

本公开实施例提供一种视频处理方法及装置、短视频平台、电子设备、计算机可读介质。

第一方面，本公开实施例提供一种视频处理方法，包括：

获取待处理视频；

从所述待处理视频中获取目标人物出现的多个初始视频片段；

针对每个初始视频片段的每个指定帧图像，确定该指定帧图像对应的满足预设规格的目标裁剪区域；

根据该初始视频片段的各指定帧图像对应的目标裁剪区域的位置信息，预测出该初始视频片段的除指定帧图像以外的每个帧图像对应的目标裁剪区域；

根据该初始视频片段的每个帧图像的目标裁剪区域对每帧图像进行裁剪，以得到每个帧图像对应的目标人物图像；

根据该初始视频片段的所有帧图像对应的目标人物图像，生成对应的目标视频片段；

至少根据多个目标视频片段，生成目标短视频。

在一些实施例中，所述从待处理视频中获取目标人物出现的多个初始视频片段，包括：

针对所述待处理视频，利用预设的人脸检测和识别模型，每隔t帧图像进行目标人物的人脸检测，t为正整数；

针对每个待检测的帧图像，当检测出该帧图像出现目标人物的人脸时，记录该帧图像对应的时间点；

当在连续的多个待检测的帧图像中均检测出目标人物的人脸时，根据连续的多个待检测的帧图像中的第一帧图像对应的时间点和最后一帧图像对应的时间点，裁剪出所述初始视频片段。

在一些实施例中，所述针对每个初始视频片段的每个指定帧图像，确定该指定帧图像对应的满足预设规格的目标裁剪区域，包括：

针对该初始视频片段的每个指定帧图像，对该指定帧图像进行目标人物的人脸位置检测和字幕位置检测，得到该指定帧图像中的目标人物的人脸位置信息和字幕位置信息；

根据该指定帧图像的人脸位置信息和字幕位置信息，确定出该指定帧图像对应的满足预设规格的所述目标裁剪区域。

在一些实施例中，所述根据该初始视频片段的各指定帧图像对应的目标裁剪区域的位置信息，预测出该初始视频片段的除指定帧图像以外的每个帧图像对应的目标裁剪区域，包括：

根据该初始视频片段的各指定帧图像对应的目标裁剪区域的位置信息，利用预设的双线性插值算法，预测出该初始视频片段的除指定帧图像以外的每个帧图像对应的目标裁剪区域。

在一些实施例中，所述至少根据多个目标视频片段，生成目标短视频，包括：

针对每个目标视频片段，确定该目标视频片段对应的情感标签；

针对每个情感标签，根据该情感标签对应的目标视频片段和预先获取的该情感标签对应的目标音频，生成该情感标签对应的目标短视频。

在一些实施例中，所述针对每个目标视频片段，确定该目标视频片段对应的情感标签，包括：

针对每个目标视频片段，利用预设的人脸表情识别算法，确定该目标视频片段的多个帧图像中，每帧图像中的目标人物的表情对应的情感标签；

将该目标视频片段的多个帧图像对应的情感标签中，出现次数最多的情感标签作为该目标视频片段对应的情感标签。

在一些实施例中，所述根据该情感标签对应的目标视频片段和预设的目标音频，生成该情感标签对应的目标短视频，包括：

利用预设的音乐节奏点识别算法，标注出所述目标音频的节奏点，每相邻两个节奏点对应一个音频片段；

从该情感标签对应的目标视频片段中选取出相应数量的目标视频片段，每个目标视频片段对应一个音频片段；

针对每个音频片段，从该情感标签对应的目标视频片段中确定出一个时长与该音频片段的时长匹配的目标视频片段；

将各音频片段对应的目标视频片段，按照各音频片段的播放时间顺序进行拼接，得到合成有目标音频的目标短视频。

第二方面，本公开实施例提供一种视频处理装置，包括：

获取模块，用于获取待处理视频；

裁剪模块，用于从所述待处理视频中获取目标人物出现的多个初始视频片段；针对每个初始视频片段的每个指定帧图像，确定该指定帧图像对应的满足预设规格的目标裁剪区域；根据该初始视频片段的各指定帧图像对应的目标裁剪区域的位置信息，预测出该初始视频片段的除指定帧图像以外的每个帧图像对应的目标裁剪区域；根据该初始视频片段的每个帧图像的目标裁剪区域对每帧图像进行裁剪，以得到每个帧图像对应的目标人物图像；根据该初始视频片段的所有帧图像对应的目标人物图像，生成对应的目标视频片段；

生成模块，用于至少根据多个目标视频片段，生成目标短视频。

在一些实施例中，所述裁剪模块具体用于针对所述待处理视频，利用预设的人脸检测和识别模型，每隔t帧图像进行目标人物的人脸检测，t为正整数；针对每个待检测的帧图像，当检测出该帧图像出现目标人物的人脸时，记录该帧图像对应的时间点；当在连续的多个待检测的帧图像中均检测出目标人物的人脸时，根据连续的多个待检测的帧图像中的第一帧图像对应的时间点和最后一帧图像对应的时间点，裁剪出所述初始视频片段。

在一些实施例中，所述裁剪模块具体用于针对该初始视频片段的每个指定帧图像，对该指定帧图像进行目标人物的人脸位置检测和字幕位置检测，得到该指定帧图像中的目标人物的人脸位置信息和字幕位置信息；根据该指定帧图像的人脸位置信息和字幕位置信息，确定出该指定帧图像对应的满足预设规格的所述目标裁剪区域。

在一些实施例中，所述裁剪模块具体用于根据该初始视频片段的各指定帧图像对应的目标裁剪区域的位置信息，利用预设的双线性插值算法，预测出该初始视频片段的除指定帧图像以外的每个帧图像对应的目标裁剪区域。

在一些实施例中，所述生成模块包括分类子模块和生成子模块；

所述分类子模块用于针对每个目标视频片段，确定该目标视频片段对应的情感标签；

所述生成子模块用于针对每个情感标签，根据该情感标签对应的目标视频片段和预先获取的该情感标签对应的目标音频，生成该情感标签对应的目标短视频。

在一些实施例中，所述分类子模块具体用于针对每个目标视频片段，利用预设的人脸表情识别算法，确定该目标视频片段的多个帧图像中，每帧图像中的目标人物的表情对应的情感标签；将该目标视频片段的多个帧图像对应的情感标签中，出现次数最多的情感标签作为该目标视频片段对应的情感标签。

在一些实施例中，所述生成子模块具体用于利用预设的音乐节奏点识别算法，标注出所述目标音频的节奏点，每相邻两个节奏点对应一个音频片段；从该情感标签对应的目标视频片段中选取出相应数量的目标视频片段，每个目标视频片段对应一个音频片段；针对每个音频片段，从该情感标签对应的目标视频片段中确定出一个时长与该音频片段的时长匹配的目标视频片段；将各音频片段对应的目标视频片段，按照各音频片段的播放时间顺序进行拼接，得到合成有目标音频的目标短视频

第三方面，本公开实施例提供一种短视频平台，包括上述任一实施例所述的视频处理装置。

第四方面，本公开实施例提供一种电子设备，其包括：

一个或多个处理器；

存储器，其上存储有一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现上述任一实施例所提供的视频处理方法；

一个或多个I/O接口，连接在所述处理器与存储器之间，配置为实现所述处理器与所述存储器的信息交互。

第五方面，本公开实施例提供一种计算机可读介质，其上存储有计算机程序，其中，所述计算机程序被执行时实现上述任一实施例所提供的视频处理方法。

本公开实施例提供的视频处理方法及装置、短视频平台、电子设备、计算机可读介质，首先从待处理视频中获取目标人物出现的多个初始视频片段；然后针对每个初始视频片段，利用预设的算法从初始视频片段中裁剪出满足预设规格的目标视频片段；最后至少根据多个目标视频片段生成目标短视频。解决了用户感兴趣的短视频的制作效率低且成本高的问题，有效降低了视频的制作成本，加快了视频的制作效率，实现了智能化、自动化地从待处理视频中裁剪出用户关注的目标人物的视频内容。在实际应用中，还可以为短视频平台提供了更多的短视频资源，实现了短视频平台的内容的多元化，提高了用户的使用体验。

附图说明

附图用来提供对本公开实施例的进一步理解，并且构成说明书的一部分，与本公开的实施例一起用于解释本公开，并不构成对本公开的限制。通过参考附图对详细示例实施例进行描述，以上和其他特征和优点对本领域技术人员将变得更加显而易见，在附图中：

图1为本公开实施例提供的一种视频处理方法的流程图；

图2为图1中步骤12的一种具体实现方式的流程图；

图3为图1中步骤13的一种具体实现方式的流程图；

图4为帧图像的目标裁剪区域的示意图；

图5为图1中步骤17的一种具体实现方式的流程图；

图6为图5中步骤171的一种具体实现方式的流程图；

图7为图5中步骤172的一种具体实现方式的流程图；

图8为本公开实施例提供的一种视频处理装置的组成框图；

图9为本公开实施例提供的一种电子设备的组成框图。

具体实施方式

为使本领域的技术人员更好地理解本公开的技术方案，下面结合附图对本公开提供的视频处理方法及装置、短视频平台、电子设备、计算机可读介质进行详细描述。

在下文中将参考附图更充分地描述示例实施例，但是所述示例实施例可以以不同形式来体现且不应当被解释为限于本文阐述的实施例。反之，提供这些实施例的目的在于使本公开透彻和完整，并将使本领域技术人员充分理解本公开的范围。

在不冲突的情况下，本公开各实施例及实施例中的各特征可相互组合。

如本文所使用的，术语“和/或”包括一个或多个相关列举条目的任何和所有组合。

本文所使用的术语仅用于描述特定实施例，且不意欲限制本公开。如本文所使用的，单数形式“一个”和“该”也意欲包括复数形式，除非上下文另外清楚指出。还将理解的是，当本说明书中使用术语“包括”和/或“由……制成”时，指定存在所述特征、整体、步骤、操作、元件和/或组件，但不排除存在或添加一个或多个其他特征、整体、步骤、操作、元件、组件和/或其群组。

除非另外限定，否则本文所用的所有术语(包括技术和科学术语)的含义与本领域普通技术人员通常理解的含义相同。还将理解，诸如那些在常用字典中限定的那些术语应当被解释为具有与其在相关技术以及本公开的背景下的含义一致的含义，且将不解释为具有理想化或过度形式上的含义，除非本文明确如此限定。

图1为本公开实施例提供的一种视频处理方法的流程图，如图1所示，该方法可以由视频处理装置来执行，该装置可以通过软件和/或硬件的方式实现，该装置可以集成在如服务器等电子设备中。该视频处理方法包括步骤11至步骤17。

步骤11、获取待处理视频。

在本公开实施例中，可以通过用户上传的方式获取待处理视频，也可以是通过从预设的视频数据库中获取的方式获取待处理视频，还可以是通过其他方式获取待处理视频，本公开实施例对此不作限制。其中，待处理视频可以是目标人物参与的影视剧视频、电视节目视频、用户自行拍摄的视频等，待处理视频的数量可以是一个，也可以是多个。

步骤12、从待处理视频中获取目标人物出现的多个初始视频片段。

在步骤12中，在获取待处理视频后，可以从一个或多个待处理视频中裁剪出多个初始视频片段。其中，初始视频片段的规格保持与原待处理视频相同，前述规格可以包括尺寸、分辨率等视频画面参数。

在一些实施例中，步骤12包括：针对待处理视频，利用预设的人脸检测和识别模型，识别并裁剪出该待处理视频中目标人物出现的初始视频片段。

针对每个待处理视频，首先利用预设的人脸检测和识别模型，识别出该待处理视频中目标人物出现的初始视频片段，然后利用预设的裁剪工具，从该待处理视频中裁剪出初始视频片段。其中，裁剪工具可以采用多媒体视频处理工具，例如，FFmpeg(Fast ForwardMpeg)工具，FFmpeg是一套可以用来记录、转换数字音频、视频，并能将其转化为流的开源计算机程序。

在一些实施例中，针对每个待处理视频，可以利用预设的人脸检测和识别模型对该待处理视频进行逐帧检测，当连续多帧图像均检测出目标人物的人脸时，则裁剪出该连续的多帧图像，从而得到初始视频片段。

图2为图1中步骤12的一种具体实现方式的流程图，在一些实施例中，为了能够有效提高视频处理的效率，采用抽帧的方式进行目标人物的检测，具体地，步骤12包括步骤121、步骤122和步骤123。

步骤121、针对待处理视频，利用预设的人脸检测和识别模型，每隔t帧图像进行目标人物的人脸检测。

在步骤121中，为了平衡检测时间和精度，设定检测的帧间隔为t，t为预设数量，t的具体取值可以根据待处理视频的总帧数确定，以保证总帧数与t的比值为正整数。例如，待处理视频的总帧数为1000，则t可以设置为5、10、20或25等。在一些实施例中，t的具体取值也可以根据实际需要进行设置，本公开实施例对此不作限制。

换言之，从待处理视频的第1帧图像开始，每隔t帧图像进行目标人物的人脸检测，则待检测的帧图像为待处理视频的第1帧图像、第t帧图像、第2t帧图像、第3t帧图像、……、第nt帧图像，n为正整数。在步骤121中，针对每个待检测的帧图像，利用预设的人脸检测和识别模型进行目标人物的人脸检测。

步骤122、针对每个待检测的帧图像，当检测出该帧图像出现目标人物的人脸时，记录该帧图像对应的时间点。

例如，针对第t帧图像，当利用预设的人脸检测和识别模型检测出该第t帧图像中存在目标人物的人脸时，则记录第t帧图像在该待处理视频中对应的时间点。

步骤123、当在连续的多个待检测的帧图像中均检测出目标人物的人脸时，根据连续的多个待检测的帧图像中的第一帧图像对应的时间点和最后一帧图像对应的时间点，裁剪出初始视频片段。

在步骤123中，当在连续的多个待检测的帧图像中均检测出目标人物的人脸时，表明该连续的多个待检测的帧图像构成的视频片段为所需的目标人物出现的视频片段，因此，根据连续的多个待检测的帧图像中的第一帧图像对应的时间点和最后一帧图像对应的时间点，即可从待处理视频中裁剪出从该第一帧图像对应的时间点至该最后一帧图像对应的时间点的视频片段。

例如，通过上述步骤121，在第1帧图像、第t帧图像、第2t帧图像中均检测出目标人物的人脸出现，则在步骤122中，记录了第1帧图像、第t帧图像、第2t帧图像分别对应的时间点。因此，在步骤123中，根据第1帧图像、第2t帧图像分别对应的时间点，即可从待处理视频中裁剪出第1帧图像至第2t帧图像构成的视频片段，以作为裁剪出的一个初始视频片段。若在5t帧图像至第8t帧图像中均检测出目标人物的人脸出现，则继续从待处理视频中裁剪出第5t帧图像至第8t帧图像构成的视频片段，以作为裁剪出的一个初始视频片段。依此类推，从而从待处理视频中裁剪出目标人物出现的多个初始视频片段。

在一些实施例中，还可以根据需要设定初始视频片段的最大时长，即若裁剪出的初始视频片段的时长超过设定的最大时长时，则可以将该初始视频片段裁剪成满足最大时长的需求的初始视频片段，或者将该初始视频片段裁剪成多个满足最大时长的需求的初始视频片段。

步骤13、针对每个初始视频片段的每个指定帧图像，确定该指定帧图像对应的满足预设规格的目标裁剪区域。

在本公开实施例中，在获取到目标人物出现的初始视频片段之后，利用预设的裁剪模型对初始视频片段进一步进行处理，以得到满足客户端的播放需求的目标视频片段。

在步骤13中，首先，针对每个初始视频片段，从该初始视频片段中抽取出多个帧图像，以作为指定帧图像。例如可以从该初始视频片段中，每间隔j个帧图像抽取一个帧图像作为指定帧图像，即指定帧图像为初始视频片段的第1帧图像、第j帧图像、第2j帧图像、第3j帧图像、……、第mj帧图像，m、j为正整数，例如，j可以为5、10、15、20等。

然后，针对该初始视频片段的每个指定帧图像，确定该指定帧图像对应的满足预设规格的目标裁剪区域，其中，目标裁剪区域包含目标人物的人脸区域，预设规格可以包括预设尺寸。

图3为图1中步骤13的一种具体实现方式的流程图，在一些实施例中，确定每个指定帧图像对应的目标裁剪区域的步骤可以包括步骤131和步骤132。

步骤131、针对该初始视频片段的每个指定帧图像，对该指定帧图像进行目标人物的人脸位置检测和字幕位置检测，得到该指定帧图像中的目标人物的人脸位置信息和字幕位置信息。

在步骤131中，可以利用预设的人脸识别算法，对该指定帧图像进行目标人物的人脸位置检测，以得到该指定帧图像中的目标人物的人脸位置信息；在步骤131中，可以利用预设的场景文本检测算法，对该指定帧图像进行字幕位置检测，以得到该指定帧图像中的字幕位置信息。

其中，在对该指定帧图像进行字幕检测时，受到帧图像的画面中的文字的干扰，可能会检测出多段的文字，但一般而言，视频的字幕一般出现在视频画面的下方，且高度不会超过视频画面的总高度的四分之一，而且相对于画面中其它的文字，字幕一般为比较清晰规范的字，因此认为只有出现在画面的四分之一的高度以下位置且概率最大的文字段为字幕，而且同一段视频中的字幕的高度是统一且固定的。

步骤132、根据该指定帧图像的人脸位置信息和字幕位置信息，确定出该指定帧图像对应的满足预设规格的目标裁剪区域。

具体地，在步骤132中，根据该指定帧图像的人脸位置信息、字幕位置信息和预设规格，确定出该指定帧图像中的目标裁剪区域，以使目标裁剪区域包含目标人物的人脸且不包含视频字幕。其中，预设规格包括预设尺寸，即目标裁剪区域的尺寸为预设尺寸，预设尺寸可以根据客户端的播放窗口的尺寸确定，例如，预设尺寸的宽高比为9：16的尺寸，从而使得裁剪出的图像能够满足客户端的播放窗口的播放需求。

图4为帧图像的目标裁剪区域的示意图，例如，如图4所示，该帧图像S的目标裁剪区域C为以人脸位置区域F为中心的、尺寸为预设尺寸且不包含字幕Z的最大区域，不包含字幕Z可以理解为与字幕区域Z不存在重叠区。

步骤14、根据该初始视频片段的各指定帧图像对应的目标裁剪区域的位置信息，预测出除指定帧图像以外的每个帧图像对应的目标裁剪区域。

具体地，根据各指定帧图像对应的目标裁剪区域，利用预设的双线性插值算法，预测出除指定帧图像以外的每个帧图像对应的目标裁剪区域。

由于同一初始视频片段中，每个帧图像的尺寸相同，且字幕位置相同，而相邻帧图像中目标人物的人脸位置变化较为细微，甚至不会发生变化，因此，根据各指定帧图像对应的目标裁剪区域的位置坐标，利用预设的双线性插值算法，就可以有效地预测出除指定帧图像以外的每个帧图像对应的目标裁剪区域的位置坐标，从而预测出除指定帧图像以外的每个帧图像对应的目标裁剪区域。例如，可以根据相邻两个指定帧图像对应的目标裁剪区域的位置坐标，利用双线性插值算法，预测出位于该相邻两个指定帧图像之间的每个帧图像对应的目标裁剪区域的位置坐标，从而预测出位于该相邻两个指定帧图像之间的每个帧图像对应的目标裁剪区域。

在本公开实施例中，针对每个初始视频片段，该初始视频片段的部分帧图像的目标裁剪区域通过上述步骤13确定，另一部分帧图像的目标裁剪区域则通过上述步骤14确定，由此，可以得到该初始视频片段的每个帧图像的目标裁剪区域。在一些实施例中，初始视频片段的每个帧图像均为指定帧图像，则每个帧图像的目标裁剪区域均是通过上述步骤131和步骤132确定，这种方式相比于通过上述步骤13确定部分帧图像的目标裁剪区域，通过上述步骤14确定另一部分帧图像的目标裁剪区域的方式，效率较低。

步骤15、根据该初始视频片段的每个帧图像的目标裁剪区域对每个帧图像进行裁剪，以得到每个帧图像对应的目标人物图像。

在步骤15中，根据每个帧图像的目标裁剪区域对每个帧图像进行裁剪，从而得到每个帧图像的目标裁剪区域所对应的目标人物图像，即得到满足预设规格的包含目标人物的人脸且不包含视频字幕的目标人物图像。

在一些实施例中，在得到每个帧图像对应的目标人物图像后，还需要进行分辨率处理，以将目标人物图像的分辨率调整至预设分辨率。例如，预设分辨率可以为720*1280。

步骤16、根据该初始视频片段的所有帧图像对应的目标人物图像，生成该初始视频片段对应的目标视频片段。

在本公开实施例中，在确定每个初始视频片段的每个帧图像对应的目标人物图像后，针对每个初始视频片段，根据该初始视频片段的所有帧图像对应的目标人物图像，按照每个帧图像的播放时间顺序，合成该初始视频片段对应的目标视频片段。由此，可以实现将初始视频片段裁剪成满足预设规格的目标视频片段。其中，播放时间顺序是指各帧图像在原初始视频片段中的时间顺序。

一般而言，影视剧视频、电视节目视频一般为横版视频，而客户端播放的短视频一般为竖版视频，通过上述裁剪方法可以去除初始视频片段中原有的视频字幕，并将横版的初始视频片段裁剪成竖版的视频片段，从而得到能够满足客户端的播放需求的视频。

步骤17、至少根据多个目标视频片段，生成目标短视频。

在本公开实施例中，通过上述步骤12至步骤16，可以得到每个初始视频片段对应的目标视频片段，即得到目标人物出现的且满足预设规格的多个目标视频片段。在步骤17中，至少根据多个目标视频片段，生成用户感兴趣的目标人物的目标短视频。

图5为图1中步骤17的一种具体实现方式的流程图，如图5所示，为了使得生成的短视频更具有感染力，在一些实施例中，步骤17包括步骤171和步骤172。

步骤171、针对每个目标视频片段，确定该目标视频片段对应的情感标签。

在一些实施例中，在获取多个目标视频片段后，将多个目标视频片段按照所属的情感标签进行分类，针对每个目标视频片段，识别该目标视频片段中目标人物的情感标签，从而确定目标人物的每个情感标签对应的目标视频片段。

图6为图5中步骤171的一种具体实现方式的流程图，在一些实施例中，如图6所示，步骤171包括步骤1711和步骤1712。

步骤1711、针对每个目标视频片段，利用预设的人脸表情识别算法，确定该目标视频片段的多个帧图像中，每帧图像中的目标人物的表情对应的情感标签。

在一些实施例中，在步骤1711中，针对每个目标视频片段，利用预设的人脸表情识别算法对该目标视频片段进行逐帧检测，检测该目标视频片段的每帧图像中目标人物的表情对应的情感标签。从而得到该目标视频片段的多个帧图像对应的情感标签。例如，情感标签可以包括平静、喜悦、愤怒、厌恶、恐惧、惊讶、轻蔑、鬼脸等等。

在一些实施例中，针对每个目标视频片段，通过人脸表情识别算法，采用抽帧的方式进行情感标签的检测，即从该目标视频片段中抽取出多个帧图像作为待检测的帧图像，例如可以从该目标视频片段中，每间隔i个帧图像抽取一个帧图像作为待检测的帧图像，i为大于1的正整数，例如，i可以为5、10、15、20等。在步骤1711中，针对从该目标视频片段中抽取的每个待检测的帧图像，利用人脸表情识别算法进行目标人物的表情识别，以识别出该帧图像中目标人物的表情所对应的情感标签。从而得到该目标视频片段的多个帧图像对应的情感标签。

步骤1712、根据该目标视频片段的多个帧图像对应的情感标签，确定该目标视频片段对应的情感标签。

在一些实施例中，步骤1712包括：将该目标视频片段的多个帧图像对应的情感标签中，出现次数最多的情感标签作为该目标视频片段对应的情感标签。换言之，从该目标视频片段的多个帧图像对应的情感标签中，统计出数量最多的情感标签，将该数量最多的情感标签作为该目标视频片段所对应的情感标签。

在一些实施例中，在确定每个目标视频片段对应的情感标签后，可以将目标视频片段按照所对应的情感标签存储至相应的本地文件夹中，不同情感标签对应的目标视频片段可以存放至不同的本地文件夹，以便于后续使用，防止数据丢失。

通过上述步骤171，可以获得目标人物的每个情感标签对应的多个目标视频片段。

步骤172、针对每个情感标签，根据该情感标签对应的目标视频片段和预先获取的该情感标签对应的目标音频，生成该情感标签对应的目标短视频。

在一些实施例中，通过将情感标签对应的目标视频片段和情感标签对应的目标音频进行结合，可以使得合成的目标短视频更具有感染力，提高了短视频的制作质量。其中，可以预先从预设的曲库中，获取与该情感标签相匹配的音频，以作为目标音频，预设的曲库的音频可以预先按照所属情感标签进行分类存储。例如，悲伤类的音频归为一类进行存储，欢快类的音频归为一类进行存储，依此类推。

在一些实施例中，可以从该情感标签对应的目标视频片段选取出预定数量的目标视频片段，并将预定数量的目标视频片段拼接成预定时长的视频，然后对目标音频进行剪辑，以剪辑出预定时长的音频，最后将预定时长的视频和预定时长的音频进行合成，得到该情感标签对应的目标短视频。

图7为图5中步骤172的一种具体实现方式的流程图，为了使得制作的目标短视频的播放更加的流畅，使得目标视频片段能够随着目标音频的播放自然的切换，以给用户带来较佳的视觉和听觉感受，在一些实施例中，通过将目标视频片段随着目标音频的节奏进行拼接，从而实现卡点的效果。具体地，如图7所示，步骤172包括：

步骤1721、利用预设的音乐节奏点识别算法，标注出所述目标音频的节奏点，每相邻两个节奏点对应一个音频片段。

其中，节奏点为目标音频中声音强度较高的时间点，例如，某个时间点检测到的声音强度超过一定阈值时，认为该时间点为该目标音频的一个节奏点。

步骤1722、针对每个音频片段，从该情感标签对应的目标视频片段中确定出一个时长与该音频片段的时长匹配的目标视频片段。

具体地，首先，根据预设的视频帧率，计算每个音频片段的时长所需要的图片帧数，例如，预设的视频帧率为每秒25帧，假设一个音频片段的时长为5秒，则该音频片段的时长所需的图片帧数为5*25＝125帧。然后，针对该音频片段，从该情感标签对应的目标视频片段中选取出一个时长与该音频片段的时长匹配的目标视频片段，即选取出帧图像的数量达到该音频片段的时长所需的图片帧数的目标视频片段。

需要说明的是，当确定出的目标视频片段的帧图像的数量少于该音频片段的时长所需的图片帧数时，则可以在该目标视频片段中***重复的帧，从而使得该目标视频片段的帧图像的数量达到该音频片段所需的图片帧数；当确定出的目标视频片段的帧图像的数量多于该音频片段的时长所需的图片帧数时，则可以在该目标视频片段中减少相似的帧，从而使得该目标视频片段的帧图像的数量达到该音频片段所需的图片帧数。

在一些实施例中，当确定出的目标视频片段的帧图像的数量少于该音频片段的时长所需的图片帧数时，还可以通过调整视频帧率的方式，以使基于调整后的视频帧率计算出的每个音频片段的时长所需要的图片帧数，等于该音频片段所对应的目标视频片段的帧图像的数量，从而达到目标视频片段的时长与对应的音频片段的时长匹配的作用。

在一些实施例中，当确定出的目标视频片段的帧图像的数量少于该音频片段的时长所需的图片帧数时，还可以通过***过度用的动画的方式，以使目标视频片段的时长与对应的音频片段的时长匹配，具体地，在目标视频片段的结尾处***预设的过渡用的动画，***的动画的时长等于音频片段和目标视频片段的时长之差。

步骤1723、将各音频片段对应的目标视频片段，按照各音频片段的播放时间顺序进行拼接，得到合成有目标音频的目标短视频。

本公开实施例所提供的视频处理方法，首先从待处理视频中获取目标人物出现的多个初始视频片段；然后针对每个初始视频片段，利用预设的算法从初始视频片段中裁剪出满足预设规格的目标视频片段；最后至少根据多个目标视频片段生成目标短视频。解决了用户感兴趣的短视频的制作效率低且成本高的问题，有效降低了视频的制作成本，加快了视频的制作效率，实现了智能化、自动化地从待处理视频中裁剪出用户关注的目标人物的视频内容。在实际应用中，还可以为短视频平台提供了更多的短视频资源，实现了短视频平台的内容的多元化，提高了用户的使用体验。

图8为本公开实施例提供的一种视频处理装置的组成框图，如图8所示，该视频处理装置用于实现上述的视频处理方法，该视频处理装置包括：获取模块21、裁剪模块22、生成模块23。

其中，获取模块21用于获取待处理视频。

裁剪模块22用于从待处理视频中获取目标人物出现的多个初始视频片段；针对每个初始视频片段的每个指定帧图像，确定该指定帧图像对应的满足预设规格的目标裁剪区域；针对该初始视频片段中除指定帧图像以外的每个帧图像，根据各指定帧图像对应的目标裁剪区域的位置信息，预测出除指定帧图像以外的每个帧图像对应的目标裁剪区域；根据该初始视频片段的每个帧图像的目标裁剪区域对每帧图像进行裁剪，以得到每个帧图像对应的目标人物图像；根据该初始视频片段的所有帧图像对应的目标人物图像，生成对应的目标视频片段。

生成模块23用于针对每个情感标签，根据该情感标签对应的目标视频片段和预先获取的该情感标签对应的目标音频，生成该情感标签对应的目标短视频。

在一些实施例中，裁剪模块22具体用于针对待处理视频，利用预设的人脸检测和识别模型，每隔t帧图像进行目标人物的人脸检测，t为正整数；针对每个待检测的帧图像，当检测出该帧图像出现目标人物的人脸时，记录该帧图像对应的时间点；当在连续的多个待检测的帧图像中均检测出目标人物的人脸时，根据连续的多个待检测的帧图像中的第一帧图像对应的时间点和最后一帧图像对应的时间点，裁剪出初始视频片段。

在一些实施例中，裁剪模块22具体用于针对该初始视频片段的每个指定帧图像，对该指定帧图像进行目标人物的人脸位置检测和字幕位置检测，得到该指定帧图像中的目标人物的人脸位置信息和字幕位置信息；根据该指定帧图像的人脸位置信息和字幕位置信息，确定出该指定帧图像对应的满足预设规格的所述目标裁剪区域。

在一些实施例中，裁剪模块22具体用于针对该初始视频片段中除指定帧图像以外的每个帧图像，根据各指定帧图像对应的目标裁剪区域的位置信息，利用预设的双线性插值算法，预测出除指定帧图像以外的每个帧图像对应的目标裁剪区域。

在一些实施例中，如图8所示，生成模块23包括分类子模块231和生成子模块232；分类子模块231具体用于针对每个目标视频片段，利用预设的人脸表情识别算法，确定该目标视频片段的多个帧图像中，每帧图像中的目标人物的表情对应的情感标签；将该目标视频片段的多个帧图像对应的情感标签中，出现次数最多的情感标签作为该目标视频片段对应的情感标签。

生成子模块232具体用于利用预设的音乐节奏点识别算法，标注出目标音频的节奏点，每相邻两个节奏点对应一个音频片段；从该情感标签对应的目标视频片段中选取出相应数量的目标视频片段，每个目标视频片段对应一个音频片段；针对每个音频片段，从该情感标签对应的目标视频片段中确定出一个时长与该音频片段的时长匹配的目标视频片段；将各音频片段对应的目标视频片段，按照各音频片段的播放时间顺序进行拼接，得到合成有目标音频的目标短视频。

此外，本公开实施例所提供的视频处理装置具体用于实现前述视频处理方法，具体可参见前述视频处理方法的描述，此处不再赘述。

本公开实施例还提供一种短视频平台，其包括上述任一实施例所提供的视频处理装置。

图9为本公开实施例提供的一种电子设备的组成框图，如图9所示，该电子设备包括：一个或多个处理器501；存储器502，其上存储有一个或多个程序，当一个或多个程序被一个或多个处理器501执行，使得一个或多个处理器501实现上述的视频处理方法；一个或多个I/O接口503，连接在处理器501与存储器502之间，配置为实现处理器501与存储器502的信息交互。

本公开实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，其中，该计算机程序被执行时实现前述的视频处理方法。

本领域普通技术人员可以理解，上文中所公开方法中的全部或某些步骤、***、装置中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。在硬件实施方式中，在以上描述中提及的功能模块/单元之间的划分不一定对应于物理组件的划分；例如，一个物理组件可以具有多个功能，或者一个功能或步骤可以由若干物理组件合作执行。某些物理组件或所有物理组件可以被实施为由处理器，如中央处理器、数字信号处理器或微处理器执行的软件，或者被实施为硬件，或者被实施为集成电路，如专用集成电路。这样的软件可以分布在计算机可读介质上，计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的，术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外，本领域普通技术人员公知的是，通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据，并且可包括任何信息递送介质。

本文已经公开了示例实施例，并且虽然采用了具体术语，但它们仅用于并仅应当被解释为一般说明性含义，并且不用于限制的目的。在一些实例中，对本领域技术人员显而易见的是，除非另外明确指出，否则可单独使用与特定实施例相结合描述的特征、特性和/或元素，或可与其他实施例相结合描述的特征、特性和/或元件组合使用。因此，本领域技术人员将理解，在不脱离由所附的权利要求阐明的本公开的范围的情况下，可进行各种形式和细节上的改变。

Claims

1.一种视频处理方法，包括：

获取待处理视频；

根据该初始视频片段的每个帧图像的目标裁剪区域对每个帧图像进行裁剪，以得到每个帧图像对应的目标人物图像；

至少根据多个目标视频片段，生成目标短视频。

2.根据权利要求1所述的视频处理方法，其中所述从待处理视频中获取目标人物出现的多个初始视频片段，包括：

3.根据权利要求1所述的视频处理方法，其中所述针对每个初始视频片段的每个指定帧图像，确定该指定帧图像对应的满足预设规格的目标裁剪区域，包括：

4.根据权利要求1所述的视频处理方法，其中所述根据该初始视频片段的各指定帧图像对应的目标裁剪区域的位置信息，预测出该初始视频片段的各除指定帧图像以外的每个帧图像对应的目标裁剪区域，包括：

5.根据权利要求1所述的视频处理方法，其中所述至少根据多个目标视频片段，生成目标短视频，包括：

6.根据权利要求5所述的视频处理方法，其中所述针对每个目标视频片段，确定该目标视频片段对应的情感标签，包括：

7.根据权利要求5所述的视频处理方法，其中所述根据该情感标签对应的目标视频片段和预设的目标音频，生成该情感标签对应的目标短视频，包括：

8.一种视频处理装置，包括：

获取模块，用于获取待处理视频；

9.根据权利要求8所述的视频处理装置，其中所述裁剪模块具体用于针对所述待处理视频，利用预设的人脸检测和识别模型，每隔t帧图像进行目标人物的人脸检测，t为正整数；针对每个待检测的帧图像，当检测出该帧图像出现目标人物的人脸时，记录该帧图像对应的时间点；当在连续的多个待检测的帧图像中均检测出目标人物的人脸时，根据连续的多个待检测的帧图像中的第一帧图像对应的时间点和最后一帧图像对应的时间点，裁剪出所述初始视频片段。

10.根据权利要求8所述的视频处理装置，其中所述裁剪模块具体用于针对该初始视频片段的每个指定帧图像，对该指定帧图像进行目标人物的人脸位置检测和字幕位置检测，得到该指定帧图像中的目标人物的人脸位置信息和字幕位置信息；根据该指定帧图像的人脸位置信息和字幕位置信息，确定出该指定帧图像对应的满足预设规格的所述目标裁剪区域。

11.根据权利要求8所述的视频处理装置，其中所述裁剪模块具体用于根据该初始视频片段的各指定帧图像对应的目标裁剪区域的位置信息，利用预设的双线性插值算法，预测出该初始视频片段的除指定帧图像以外的每个帧图像对应的目标裁剪区域。

12.根据权利要求8所述的视频处理装置，其中所述生成模块包括分类子模块和生成子模块；

13.根据权利要求12所述的视频处理装置，其中所述分类子模块具体用于针对每个目标视频片段，利用预设的人脸表情识别算法，确定该目标视频片段的多个帧图像中，每帧图像中的目标人物的表情对应的情感标签；将该目标视频片段的多个帧图像对应的情感标签中，出现次数最多的情感标签作为该目标视频片段对应的情感标签。

14.根据权利要求12所述的视频处理装置，其中所述生成子模块具体用于利用预设的音乐节奏点识别算法，标注出所述目标音频的节奏点，每相邻两个节奏点对应一个音频片段；从该情感标签对应的目标视频片段中选取出相应数量的目标视频片段，每个目标视频片段对应一个音频片段；针对每个音频片段，从该情感标签对应的目标视频片段中确定出一个时长与该音频片段的时长匹配的目标视频片段；将各音频片段对应的目标视频片段，按照各音频片段的播放时间顺序进行拼接，得到合成有目标音频的目标短视频。

15.一种短视频平台，包括权利要求8-14中任一项所述的视频处理装置。

16.一种电子设备，其包括：

一个或多个处理器；

存储器，其上存储有一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-7中任一项所述的视频处理方法；

17.一种计算机可读介质，其上存储有计算机程序，其中，所述计算机程序被执行时实现如权利要求1-7中任一所述的视频处理方法。