CN116055762A

CN116055762A - 视频合成方法及装置、电子设备和存储介质

Info

Publication number: CN116055762A
Application number: CN202211646714.0A
Authority: CN
Inventors: 侯顺伟; 熊浩军; 陈嘉莉; 王政
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2022-12-19
Filing date: 2022-12-19
Publication date: 2023-05-02

Abstract

本公开公开了一种视频合成方法及装置、电子设备和存储介质，涉及图像处理技术领域，尤其涉及视频剪辑领域。具体实现方案为：获取初始视频流，并对初始视频流进行编解码，得到视频片段集合；对视频片段集合进行人脸聚类处理，得到视频片段集合对应的人脸聚类库；获取目标人脸图像对应的至少一个目标人脸特征，并从人脸聚类库中确定至少一个目标人脸特征对应的目标视频片段集合；根据目标视频片段集合中的至少一个目标视频片段，合成目标人脸图像对应的视频。采用上述方案的本公开可以降低合成视频的时间和成本。

Description

视频合成方法及装置、电子设备和存储介质

技术领域

本公开涉及图像处理技术领域，尤其涉及一种视频合成方法及装置、电子设备和存储介质。

背景技术

随着科学技术的发展，人们生活水平的提高，人们可以参与到各种各样的多人活动中满足自己的生活娱乐需求。相关技术中，可以为每个参与者制作其对应的精彩画面集锦来为参与此活动的各个参与者留下宝贵记录。然而，为每个参与者制作其对应的精彩画面集锦所耗费的时间和成本较高，

发明内容

本公开提供了一种视频合成方法及装置、电子设备和存储介质，主要目的在于降低合成视频的时间和成本。

根据本公开的一方面，提供了一种视频合成方法，包括：

获取初始视频流，并对所述初始视频流进行编解码，得到视频片段集合；

对所述视频片段集合进行人脸聚类处理，得到所述视频片段集合对应的人脸聚类库，其中，所述人脸聚类库中任一人脸特征对应一个视频片段子集；

获取目标人脸图像对应的至少一个目标人脸特征，并从所述人脸聚类库中确定所述至少一个目标人脸特征对应的目标视频片段集合；

根据所述目标视频片段集合中的至少一个目标视频片段，合成所述目标人脸图像对应的视频。

根据本公开的另一方面，提供了一种视频合成装置，包括：

视频流获取单元，用于获取初始视频流，并对所述初始视频流进行编解码，得到视频片段集合；

集合聚类单元，用于对所述视频片段集合进行人脸聚类处理，得到所述视频片段集合对应的人脸聚类库，其中，所述人脸聚类库中任一人脸特征对应一个视频片段子集；

集合获取单元，用于获取目标人脸图像对应的至少一个目标人脸特征，并从所述人脸聚类库中确定所述至少一个目标人脸特征对应的目标视频片段集合；

视频合成单元，用于根据所述目标视频片段集合中的至少一个目标视频片段，合成所述目标人脸图像对应的视频。

根据本公开的另一方面，提供了一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行前述一方面中任一项所述的方法。

根据本公开的另一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行前述一方面中任一项所述的方法。

根据本公开的另一方面，提供了一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现前述一方面中任一项所述的方法。

在本公开一个或多个实施例中，通过获取初始视频流，并对初始视频流进行编解码，得到视频片段集合；对视频片段集合进行人脸聚类处理，得到视频片段集合对应的人脸聚类库，其中，人脸聚类库中任一人脸特征对应一个视频片段子集；获取目标人脸图像对应的至少一个目标人脸特征，并从人脸聚类库中确定至少一个目标人脸特征对应的目标视频片段集合；根据目标视频片段集合中的至少一个目标视频片段，合成目标人脸图像对应的视频。因此，可以降低合成视频的时间和成本。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1是根据本公开第一实施例的视频合成方法的流程示意图；

图2是根据本公开第二实施例的视频合成方法的流程示意图；

图3是根据本公开实施例的获取TS格式的视频片段的流程示意图；

图4是根据本公开实施例的视频合成的流程示意图；

图5(a)是用来实现本公开实施例的视频合成方法的第一种视频合成装置的结构示意图；

图5(b)是用来实现本公开实施例的视频合成方法的第二种视频合成装置的结构示意图；

图6是用来实现本公开实施例的视频合成方法的电子设备的框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

随着科学技术的发展，人们生活水平的提高，人们可以参与到各种各样的多人活动中满足自己的生活娱乐需求。例如，各个城市可以举办马拉松比赛供人们从参与，对于参赛者来说是一项体育项目，对举办地来说则是一项城市推广项目。可以通过制作集锦视频的方式为参赛者留下宝贵的记录，同时让参赛者、关键意见领袖(Key Opinion Consumer，KOC)加深对举办城市的印象。

根据一些实施例，制作集锦视频时，需要在活动前采集各个参与者的人脸特征，建立人脸特征库，当活动结束后根据该人脸特征库从活动视频中截取各个参与者对应的片段，最终按照固定模板后期转码处理为各个参与者对应的集锦视频。

易于理解的是，当参赛者人数较多时，例如，每次马拉松的参赛人数多达三四万人，此时在活动前建立人脸特征库耗费的时间和成本较高。另外，由于一个片段中可以存在多个参与者，因此，一个片段可能会被截取多次，该片段每被截取一次就会对其进行一次后期转码处理，耗费的时间和成本较高。

下面结合具体的实施例对本公开进行详细说明。

在第一个实施例中，如图1所示，图1是根据本公开第一实施例的视频合成方法的流程示意图，该方法可依赖于计算机程序实现，可运行于进行视频合成的装置上。该计算机程序可集成在应用中，也可作为独立的工具类应用运行。

其中，视频合成装置可以是具有视频合成功能的电子设备，该电子设备包括但不限于：可穿戴设备、手持设备、个人电脑、平板电脑、车载设备、智能手机、计算设备或连接到无线调制解调器的其它处理设备等。在不同的网络中电子设备可以叫做不同的名称，例如：用户设备、接入电子设备、用户单元、用户站、移动站、移动台、远方站、远程电子设备、移动设备、用户电子设备、电子设备、无线通信设备、用户代理或用户装置、蜂窝电话、无绳电话、个人数字处理(personal digital assistant，PDA)、第五代移动通信技术(5thGeneration Mobile Communication Technology，5G)网络、***移动通信技术(the 4thgeneration mobile communication technology，4G)网络、第三代移动通信技术(3rd-Generation，3G)网络或未来演进网络中的电子设备等。

具体的，该视频合成方法包括：

S101，获取初始视频流，并对初始视频流进行编解码，得到视频片段集合；

根据一些实施例，初始视频流指的是某一活动场景中，针对该活动获取到的从活动开始时刻到活动结束时刻之间的完整视频流。

在一些实施例中，编解码指的是编码和解码。解码和解码均指将信息从一种形式或格式转换为另一种形式的过程，编码和解码互为逆过程。其中，解码具体指用特定方法，把数码还原成它所代表的内容或将电脉冲信号、光信号、无线电波等转换成它所代表的信息、数据等的过程，是将接受到的符号或代码还原为信息的过程。编码具体指用预先规定的方法将文字、数字或其它对象编成数码，或将信息、数据转换成规定的电脉冲信号的过程。

例如，对初始视频流进行编解码时，可以首先将初始视频流解码为第一格式的文件，接着，将该第一格式的文件编码为第二格式的文件，其中，第二格式与初始视频流对应的文件格式可以不相同。

根据一些实施例，视频片段集合指的是由至少一个视频片段汇聚而成的集合。该至少一个视频片段由初始视频流解码后，按照时长阈值编码得到，例如，可以将初始视频流解码后每5秒的视频流编码为一个视频片段，还可以将初始视频流解码后每10秒的视频流编码为一个视频片段。

易于理解的是，当电子设备进行视频合成时，电子设备可以获取初始视频流，并对初始视频流进行编解码，得到视频片段集合。

S102，对视频片段集合进行人脸聚类处理，得到视频片段集合对应的人脸聚类库；

根据一些实施例，人脸聚类指的是深度学习时代的人脸聚类，首先，其采用卷积神经网络(CNN)中提取出来的特征，将人脸图片映射到一个高维的向量，经过映射后的人脸在特征空间里分布在不同的锥形中，因而可以使用余弦相似度来度量相似度。或者如果对人脸特征做二范数归一化，那么人脸特征则会分布在一个球面上，这样可以使用L2距离来度量。接着，通过聚类算法将同一个人物对应的特征进行合并，从而得到视频片段集合对应的人脸聚类库。此时，同一个人物对应的人脸特征在人脸聚类库中可以以聚类簇的形式合并在一起。

在一些实施例中，同一个人物的任一人脸特征可以在多个视频片段中被识别到，因此，人脸聚类库中任一人脸特征对应一个视频片段子集。反正，一个视频片段也可以对应多个人物的多个人脸特征。

易于理解的是，当电子设备获取到视频片段集合时，电子设备可以对该视频片段集合进行人脸聚类处理，得到视频片段集合对应的人脸聚类库。

S103，获取目标人脸图像对应的至少一个目标人脸特征，并从人脸聚类库中确定至少一个目标人脸特征对应的目标视频片段集合；

根据一些实施例，目标人脸图像指的是当任一目标人物需要从初始视频流中截取自身对应的视频时，该目标人物对应的人脸图像。获取目标人脸图像对应的至少一个目标人脸特征时的具体过程可以参考人脸聚类中的识别过程相同。

在一些实施例中，当从人脸聚类库中确定至少一个目标人脸特征对应的目标视频片段集合时，可以确定该至少一个目标人脸特征在人脸聚类库中的位置，例如，当同一个人物对应的聚类簇为球体时，可以通过判断该至少一个目标人脸特征在哪一个球体中。接着，例如可以获取该球体中的所有人脸特征，并确定该所有人脸特征对应的视频片段，从而得到目标人脸特征对应的目标视频片段集合。

易于理解的是，当电子设备获取到人脸聚类库时，电子设备可以获取目标人脸图像对应的至少一个目标人脸特征，并从人脸聚类库中确定至少一个目标人脸特征对应的目标视频片段集合。

S104，根据目标视频片段集合中的至少一个目标视频片段，合成目标人脸图像对应的视频。

易于理解的是，当电子设备获取到至少一个目标人脸特征对应的目标视频片段集合时，电子设备可以根据该目标视频片段集合中的至少一个目标视频片段，合成目标人脸图像对应的视频。

综上，本公开实施例提供的方法，通过获取初始视频流，并对初始视频流进行编解码，得到视频片段集合；对视频片段集合进行人脸聚类处理，得到视频片段集合对应的人脸聚类库；获取目标人脸图像对应的至少一个目标人脸特征，并从人脸聚类库中确定至少一个目标人脸特征对应的目标视频片段集合；根据目标视频片段集合中的至少一个目标视频片段，合成目标人脸图像对应的视频。因此，通过对获取到的视频片段集合进行人脸聚类处理，并根据目标人脸图像从聚类得到的人脸聚类库中检索目标视频片段，可以无需提前建立人脸特征库，可以降低视频合成的时间和成本。

请参见图2，图2是根据本公开第二实施例的视频合成方法的流程示意图。具体的，

S201，获取初始视频流，并对初始视频流进行解码，得到解码后的初始视频流；

根据一些实施例，初始视频流例如可以为多路视频流，也就是说，该初始视频流可以包括至少一路子视频流。此时，电子设备可以通过流媒体接入子***中的至少一个ffmpeg进程来对分别该至少一路子视频流进行解码，其中，一个子视频流对应一个ffmpeg进程。

易于理解的是，当获取到初始视频流时，可以使用至少一个ffmpeg进程来对分别该至少一路子视频流进行解码，得到至少一路解码后的子视频流。

S202，对解码后的初始视频流进行压制处理，得到处理后的初始视频流；

根据一些实施例，压制处理指的是对解码后的视频进行后期处理的过程。例如，对解码后的初始视频流进行压制处理时，可以在解码后的初始视频流对应的图像轨道中烧录水印和图标logo，得到处理后的初始视频流。

在一些实施例中，图像轨道指的是放置添加视频素材并且可以进行编辑的序列窗口，在图像轨道中可以对放入的视频进行编辑并添加效果。

S203，将处理后的初始视频流编码并切分为至少两个视频片段，得到视频片段集合；

根据一些实施例，将处理后的初始视频流编码并切分为至少两个视频片段时，具体过程如上所述，可以按照时长阈值对处理后的初始视频流进行编码。例如，可以将处理后的初始视频流中每5秒的视频流编码为一个视频片段，还可以将处理后的初始视频流中每10秒的视频流编码为一个视频片段。

在一些实施例中，编码时进行采用统一格式的编码，因此，可以减少合成视频时出现编码不一致的情况。例如，可以统一编码为传输流(Transport Stream，TS)格式的视频片段。TS格式是一种封装的格式，它的全称为MPEG2-TS。MPEG2-TS是一种标准数据容器格式，传输与存储音视频、节目与***信息协议数据。TS格式的视频片段具备方便合成的特性，在合成时可以之间将相应的TS格式的视频片段按照时间顺序复制到一起。

在一些实施例中，图3是根据本公开实施例的获取TS格式的视频片段的流程示意图。如图3所示，通过流媒体接入子***中的三个ffmpeg进程来对分别该三路子视频流进行编解码，得到每一路子视频流对应的TS格式的视频片段，所有视频片段汇聚到一个集合，得到视频片段集合。

易于理解的是，在对初始视频流进行编解码的过程中进行后期处理，后续可以直接对多个TS格式的视频片段进行快速合并，仅消耗合成后的视频解封装的时间，合成时无需对视频进行二次编解码，可以将编码复杂度为O(n*m)的操作，降低到O(1)，可以降低视频合成耗费的时间和成本。

在一些实施例中，解封装指的是拆解协议包，处理包头中的信息，取出净荷中的业务信息数据的过程。解封装时仅需进行一次二进制数据读，例如，读取TS格式的视频片段的TS header，加上mp4格式的header，就可以将合成后的TS格式的视频解封装为mp4格式的文件。

S204，通过文件监听机制对至少一路子视频流进行监听，在至少一路子视频流中任一路子视频流生成的视频片段的数量达到数量阈值的情况下，将数量阈值的视频片段放入待入库视频片段集合；

根据一些实施例，由于按照时长阈值对处理后的初始视频流进行编码的过程是从处理后的初始视频流的开始时刻到结束时刻依次处理的动态过程。因此，为了降低人脸聚类库获取的时间，可以对该视频片段进行分批次处理，在至少一路子视频流中任一路子视频流生成的视频片段的数量达到数量阈值的情况下，将数量阈值的视频片段放入待入库视频片段集合，对该待入库视频片段集合中的视频片段进行入库操作。其中，对待入库视频片段集合中的视频片段进行人脸特征识别的过程即为入库过程。

在一些实施例中，文件监听(inotify)机制具体可以监听文件和文件夹的创建、修改、移动、删除。因此，采用inotify机制对至少一路子视频流编解码生成视频片段的过程进行监听，可以提高监听的准确性和效率。该inotify机制具体可以为linux***中的inotify机制。

在一些实施例中，该数量阈值并不特指某一固定阈值。该数量阈值可以根据每个视频片段对应的时长调整。例如，当每个视频片段对应的时长为5秒时，该数量阈值例如可以为60；当每个视频片段对应的时长为10秒时，该数量阈值例如可以为30。

S205，对待入库视频片段集合中任一视频片段对应的图像帧进行人脸特征识别，得到至少一个人脸特征；

根据一些实施例，对待入库视频片段集合中任一视频片段对应的图像帧进行人脸特征识别时，首先对该待入库视频片段集合中所有视频片段进行合并，组成一段待入库视频。接着，对该待入库视频进行截帧，并对截取的图像帧进行人脸特征识别，得到至少一个人脸特征。

S206，在对待入库视频片段集合中所有视频片段完成人脸特征识别的情况下，将待入库视频片段集合清空，并继续执行在至少一路子视频流中任一路子视频流生成的视频片段的数量达到数量阈值的情况下，将数量阈值的视频片段放入待入库视频片段集合的步骤；

根据一些实施例，若至少一路子视频流中任一路子视频流生成的最后一批视频片段的数量没有达到数量阈值，则将该剩余的视频片段直接放入待入库视频片段集合中进行后续处理。

S207，在对视频片段集合中所有视频片段完成人脸特征识别的情况下，对至少一个人脸特征进行聚类，得到人脸聚类库；

在一些实施例中，对至少一个人脸特征进行聚类时，可以聚类到同一目标人物的多个出镜信息。具体而言，得到的人脸特征可以为数组形式。例如，可以为：(frame1+loc3,frame2+loc4,frame3+loc5)、(frame1+loc1,frame2+loc2)。具体来说，frame1+loc3例如可以为人脸特征1，图像帧中的坐标(左坐标1，上坐标1，右坐标1，下坐标1)。frame2+loc4例如可以为人脸特征2，图像帧中的坐标(左坐标2，上坐标2，右坐标2，下坐标2)。frame3+loc5例如可以为人脸特征3，图像帧中的坐标(左坐标3，上坐标3，右坐标3，下坐标3)。因此，人脸特征在哪个视频片段中出现，以及出现的时间点和出现的位置在人脸聚类库中均进行了记录。

S208，获取目标人脸图像对应的至少一个目标人脸特征，并从人脸聚类库中确定至少一个目标人脸特征对应的目标视频片段集合；

根据一些实施例，在确定至少一个目标人脸特征对应的目标视频片段集合时，还可以对视频片段集合进行人体检测以及光学字符识别，得到人体识别信息集合；对人体识别信息集合与人脸聚类库进行叠加融合，得到视频片段集合对应的人体信息聚类库；人体信息聚类库可以用于确定目标人脸图像对应的目标视频片段子集。

在一些实施例中，人体检测指的是人体区域跟踪，通过对视频片段集合中任一人物进行人体区域跟踪，识别出该任一人物的人体范围，可以确定该任一人物对应的光学字符识别到的信息，从而，可以对人体识别信息集合与人脸聚类库进行叠加融合，得到视频片段集合对应的人体信息聚类库。从而，从人体信息聚类库中确定至少一个目标人脸特征对应的目标视频片段集合，可以提高目标视频片段集合获取的准确性，可以满足不同用户对于视频合成的个性化要求。

在一些实施例中，光学字符识别(Optical Character Recognition，OCR)是指电子设备检查图像中的字符，通过检测暗、亮的模式确定其形状，然后用字符识别方法将形状翻译成计算机文字的过程。例如，在马拉松比赛中，可以识别各个参赛者携带的参赛号码。

在一些实施例中，获取目标人脸图像时，目标人物可以通过手机应用、电脑浏览器等途径上传自己的人脸图像。当电子设备获取到该目标人脸图像时，可以生成该目标人脸图像对应的视频，并将该生成的视频通过手机应用、电脑浏览器等方式发送给目标人物。

S209，根据目标视频片段集合中的至少一个目标视频片段，合成目标人脸图像对应的视频。

根据一些实施例，根据至少一个目标视频片段中任一目标视频片段对应的时间戳，在预设模板视频的对应位置***任一目标视频片段，得到目标人脸图像对应的视频。

在一些实施例中，图4是根据本公开实施例的视频合成的流程示意图。如图4所示，首先，可以按照需求从目标视频片段集合中分别选择至少一个视频片段，例如，在马拉松比赛中可以选择开头、开跑、出镜1、远景、出镜2、片尾对应的TS格式的目标视频片段。接着，得到目标人脸图像对应的TS格式的第一视频。接着，可以选择背景音乐合并如TS格式的第一视频中，得到TS格式的第二视频。最后，可以对该TS格式的第二视频进行解封装，得到目标人脸图像对应的MP4格式的视频。

例如，在马拉松比赛中，可以在比赛路线上均匀设置多个直播机位，每一个直播机位获取一路子视频流。例如，当马拉松比赛全称10千米时，可以每隔一千米设置一个直播机位。接着，在目标视频片段集合中获取直播机位对应的目标视频片段，但并不是每一个直播机位都可以获取到目标视频片段，例如，在目标视频片段集合中可能只获取到第一直播机位、第三直播机位和第七直播机位对应的目标视频片段。此时，预设模板视频中包含每一个直播机位对应的模板视频片段以及其对应的时间戳，对于没有获取到目标视频片段的直播机位来说，直接放入对应的模板视频片段。

另外，因为可以获取到目标视频片段对应的时间戳，因此，对马拉松比赛中目标人物对应的视频进行生成时，可以根据相邻两个目标视频片段对应的时间戳，以及该相邻两个目标视频片段对应的直播机位之间的距离，确定目标人物的跑速信息。接着，可以将该跑速信息叠加到合成的视频中，以提高视频生成的质量。

在一些实施例中，生成目标人脸图像对应的视频时，还可以增加人审员策略。具体而言，根据至少一个目标视频片段合成目标人脸图像对应的初始视频；若初始视频不满足视频合成要求，则根据针对初始视频输入的修改信息，对初始视频进行修改，得到目标人脸图像对应的视频。因此，当初始视频不满足视频合成要求时，人审员可以根据目标视频片段集合中目标人物的出镜信息选择质量较高的目标视频片段进行合成，因此，可以对电子设备误识别进行纠偏，实行兜底策略，可以提高视频生成的质量。

在本公开实施例中，首先，通过获取初始视频流，并对初始视频流进行解码，得到解码后的初始视频流；对解码后的初始视频流进行压制处理，得到处理后的初始视频流；将处理后的初始视频流编码并切分为至少两个视频片段，得到视频片段集合；因此，最后合成时无需对视频进行二次编解码，可以减少视频生成的时间和成本。接着，通过文件监听机制对至少一路子视频流进行监听，在至少一路子视频流中任一路子视频流生成的视频片段的数量达到数量阈值的情况下，将数量阈值的视频片段放入待入库视频片段集合；对待入库视频片段集合中任一视频片段对应的图像帧进行人脸特征识别，得到至少一个人脸特征；在对待入库视频片段集合中所有视频片段完成人脸特征识别的情况下，将待入库视频片段集合清空，并继续执行在至少一路子视频流中任一路子视频流生成的视频片段的数量达到数量阈值的情况下，将数量阈值的视频片段放入待入库视频片段集合的步骤；在对视频片段集合中所有视频片段完成人脸特征识别的情况下，对至少一个人脸特征进行聚类，得到人脸聚类库；因此，通过在视频片段生成过程中进行人脸聚类处理，可以提高人脸聚类库获取的效率，可以减少视频生成的时间。最后，获取目标人脸图像对应的至少一个目标人脸特征，并从人脸聚类库中确定至少一个目标人脸特征对应的目标视频片段集合；根据目标视频片段集合中的至少一个目标视频片段，合成目标人脸图像对应的视频。因此，通过对获取到的视频片段集合进行人脸聚类处理，并根据目标人脸图像从聚类得到的人脸聚类库中检索目标视频片段，可以无需提前建立人脸特征库，可以降低视频合成的时间和成本。

本公开的技术方案中，所涉及的用户个人信息的收集、存储、使用、加工、传输、提供和公开等处理，均符合相关法律法规的规定，且不违背公序良俗。

下述为本公开装置实施例，可以用于执行本公开方法实施例。对于本公开装置实施例中未披露的细节，请参照本公开方法实施例。

请参见图5(a)，其示出了用来实现本公开实施例的视频合成方法的第一种视频合成装置的结构示意图。该视频合成装置可以通过软件、硬件或者两者的结合实现成为装置的全部或一部分。该视频合成装置500包括视频流获取单元501、集合聚类单元502、集合获取单元503和视频合成单元504，其中：

视频流获取单元501，用于获取初始视频流，并对初始视频流进行编解码，得到视频片段集合；

集合聚类单元502，用于对视频片段集合进行人脸聚类处理，得到视频片段集合对应的人脸聚类库，其中，人脸聚类库中任一人脸特征对应一个视频片段子集；

集合获取单元503，用于获取目标人脸图像对应的至少一个目标人脸特征，并从人脸聚类库中确定至少一个目标人脸特征对应的目标视频片段集合；

视频合成单元504，用于根据目标视频片段集合中的至少一个目标视频片段，合成目标人脸图像对应的视频。

可选的，视频流获取单元501用于对初始视频流进行编解码，得到视频片段集合时，具体用于：

对初始视频流进行解码，得到解码后的初始视频流；

对解码后的初始视频流进行压制处理，得到处理后的初始视频流；

将处理后的初始视频流编码并切分为至少两个视频片段，得到视频片段集合，其中，视频片段的文件格式为传输流格式。

可选的，视频流获取单元501用于对解码后的初始视频流进行压制处理，得到处理后的初始视频流时，具体用于：

在解码后的初始视频流对应的图像轨道中烧录水印和图标，得到处理后的初始视频流。

可选的，图5(b)是用来实现本公开实施例的视频合成方法的第二种视频合成装置的结构示意图。如图5(b)所示，该视频合成装置500还包括：

信息获取单元505，用于对视频片段集合进行人体检测以及光学字符识别，得到人体识别信息集合；

集合叠加单元506，用于对人体识别信息集合与人脸聚类库进行叠加融合，得到视频片段集合对应的人体信息聚类库，其中，人体信息聚类库用于确定目标人脸图像对应的目标视频片段子集。

可选的，初始视频流包括至少一路子视频流，集合聚类单元502用于对视频片段集合进行人脸聚类，得到至少两个视频片段对应的人脸聚类库时，具体用于：

通过文件监听机制对至少一路子视频流进行监听，在至少一路子视频流中任一路子视频流生成的视频片段的数量达到数量阈值的情况下，将数量阈值的视频片段放入待入库视频片段集合；

对待入库视频片段集合中任一视频片段对应的图像帧进行人脸特征识别，得到至少一个人脸特征；

在对待入库视频片段集合中所有视频片段完成人脸特征识别的情况下，将待入库视频片段集合清空，并继续执行在至少一路子视频流中任一路子视频流生成的视频片段的数量达到数量阈值的情况下，将数量阈值的视频片段放入待入库视频片段集合的步骤；

在对视频片段集合中所有视频片段完成人脸特征识别的情况下，对至少一个人脸特征进行聚类，得到人脸聚类库。

可选的，视频合成单元504用于根据目标视频片段集合中的至少一个目标视频片段，合成目标人脸图像对应的视频时，具体用于：

根据至少一个目标视频片段中任一目标视频片段对应的时间戳，在预设模板视频的对应位置***任一目标视频片段，得到目标人脸图像对应的视频。

根据至少一个目标视频片段合成目标人脸图像对应的初始视频；

若初始视频不满足视频合成要求，则根据针对初始视频输入的修改信息，对初始视频进行修改，得到目标人脸图像对应的视频。

要说明的是，上述实施例提供的视频合成装置在执行视频合成方法时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的视频合成装置与视频合成方法实施例属于同一构思，其体现实现过程详见方法实施例，这里不再赘述。

上述本公开实施例序号仅仅为了描述，不代表实施例的优劣。

综上，本公开实施例提供的装置，通过视频流获取单元获取初始视频流，并对初始视频流进行编解码，得到视频片段集合；集合聚类单元对视频片段集合进行人脸聚类处理，得到视频片段集合对应的人脸聚类库，其中，人脸聚类库中任一人脸特征对应一个视频片段子集；集合获取单元获取目标人脸图像对应的至少一个目标人脸特征，并从人脸聚类库中确定至少一个目标人脸特征对应的目标视频片段集合；视频合成单元根据目标视频片段集合中的至少一个目标视频片段，合成目标人脸图像对应的视频。因此，通过对获取到的视频片段集合进行人脸聚类处理，并根据目标人脸图像从聚类得到的人脸聚类库中检索目标视频片段，可以无需提前建立人脸特征库，可以降低视频合成的时间和成本。

本公开的技术方案中，所涉及的用户个人信息的获取、存储和应用等，均符合相关法律法规的规定，且不违背公序良俗。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图6示出了可以用来实施本公开的实施例的示例电子设备600的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图6所示，设备600包括计算单元601，其可以根据存储在只读存储器(ROM)602中的计算机程序或者从存储单元608加载到随机访问存储器(RAM)603中的计算机程序，来执行各种适当的动作和处理。在RAM 603中，还可存储设备600操作所需的各种程序和数据。计算单元601、ROM 602以及RAM 603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。

设备600中的多个部件连接至I/O接口605，包括：输入单元606，例如键盘、鼠标等；输出单元607，例如各种类型的显示器、扬声器等；存储单元608，例如磁盘、光盘等；以及通信单元609，例如网卡、调制解调器、无线通信收发机等。通信单元609允许设备600通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元601可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元601的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元601执行上文所描述的各个方法和处理，例如视频合成方法。例如，在一些实施例中，视频合成方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元608。在一些实施例中，计算机程序的部分或者全部可以经由ROM 602和/或通信单元609而被载入和/或安装到设备600上。当计算机程序加载到RAM 603并由计算单元601执行时，可以执行上文描述的视频合成方法的一个或多个步骤。备选地，在其他实施例中，计算单元601可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行视频合成方法。

本文中以上描述的***和技术的各种实施方式可以在数字电子电路***、集成电路***、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上***的***(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程***上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储***、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储***、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行***、装置或设备使用或与指令执行***、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体***、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的***和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的***和技术实施在包括后台部件的计算***(例如，作为数据服务器)、或者包括中间件部件的计算***(例如，应用服务器)、或者包括前端部件的计算***(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的***和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算***中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将***的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)、互联网和区块链网络。

计算机***可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与VPS服务("Virtual Private Server"，或简称"VPS")中，存在的管理难度大，业务扩展性弱的缺陷。服务器也可以为分布式***的服务器，或者是结合了区块链的服务器。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种视频合成方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述对所述初始视频流进行编解码，得到视频片段集合，包括：

对所述初始视频流进行解码，得到解码后的初始视频流；

对所述解码后的初始视频流进行压制处理，得到处理后的初始视频流；

将所述处理后的初始视频流编码并切分为至少两个视频片段，得到视频片段集合，其中，所述视频片段的文件格式为传输流格式。

3.根据权利要求2所述的方法，其特征在于，所述对所述解码后的初始视频流进行压制处理，得到处理后的初始视频流，包括：

在所述解码后的初始视频流对应的图像轨道中烧录水印和图标，得到处理后的初始视频流。

4.根据权利要求1所述的方法，其特征在于，所述方法还包括：

对所述视频片段集合进行人体检测以及光学字符识别，得到人体识别信息集合；

对所述人体识别信息集合与所述人脸聚类库进行叠加融合，得到所述视频片段集合对应的人体信息聚类库，其中，所述人体信息聚类库用于确定所述目标人脸图像对应的所述目标视频片段子集。

5.根据权利要求1所述的方法，其特征在于，所述初始视频流包括至少一路子视频流，所述对所述视频片段集合进行人脸聚类，得到所述至少两个视频片段对应的人脸聚类库，包括：

通过文件监听机制对所述至少一路子视频流进行监听，在所述至少一路子视频流中任一路子视频流生成的视频片段的数量达到数量阈值的情况下，将所述数量阈值的视频片段放入待入库视频片段集合；

对所述待入库视频片段集合中任一视频片段对应的图像帧进行人脸特征识别，得到至少一个人脸特征；

在对所述待入库视频片段集合中所有视频片段完成人脸特征识别的情况下，将所述待入库视频片段集合清空，并继续执行在所述至少一路子视频流中任一路子视频流生成的视频片段的数量达到数量阈值的情况下，将所述数量阈值的视频片段放入待入库视频片段集合的步骤；

在对所述视频片段集合中所有视频片段完成人脸特征识别的情况下，对所述至少一个人脸特征进行聚类，得到人脸聚类库。

6.根据权利要求1所述的方法，其特征在于，所述根据所述目标视频片段集合中的至少一个目标视频片段，合成所述目标人脸图像对应的视频，包括：

根据所述至少一个目标视频片段中任一目标视频片段对应的时间戳，在预设模板视频的对应位置***所述任一目标视频片段，得到所述目标人脸图像对应的视频。

7.根据权利要求1所述的方法，其特征在于，所述根据所述目标视频片段集合中的至少一个目标视频片段，合成所述目标人脸图像对应的视频，包括：

根据所述至少一个目标视频片段合成所述目标人脸图像对应的初始视频；

若所述初始视频不满足视频合成要求，则根据针对所述初始视频输入的修改信息，对所述初始视频进行修改，得到所述目标人脸图像对应的视频。

8.一种视频合成装置，包括：

9.根据权利要求8所述的装置，其特征在于，所述视频流获取单元用于对所述初始视频流进行编解码，得到视频片段集合时，具体用于：

对所述初始视频流进行解码，得到解码后的初始视频流；

10.根据权利要求9所述的装置，其特征在于，所述视频流获取单元用于对所述解码后的初始视频流进行压制处理，得到处理后的初始视频流时，具体用于：

11.根据权利要求8所述的装置，其特征在于，所述装置还包括：

信息获取单元，用于对所述视频片段集合进行人体检测以及光学字符识别，得到人体识别信息集合；

集合叠加单元，用于对所述人体识别信息集合与所述人脸聚类库进行叠加融合，得到所述视频片段集合对应的人体信息聚类库，其中，所述人体信息聚类库用于确定所述目标人脸图像对应的所述目标视频片段子集。

12.根据权利要求8所述的装置，其特征在于，所述初始视频流包括至少一路子视频流，所述集合聚类单元用于对所述视频片段集合进行人脸聚类，得到所述至少两个视频片段对应的人脸聚类库时，具体用于：

13.根据权利要求8所述的装置，其特征在于，所述视频合成单元用于根据所述目标视频片段集合中的至少一个目标视频片段，合成所述目标人脸图像对应的视频时，具体用于：

14.根据权利要求8所述的装置，其特征在于，所述视频合成单元用于根据所述目标视频片段集合中的至少一个目标视频片段，合成所述目标人脸图像对应的视频时，具体用于：

15.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其特征在于，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-7中任一项所述的方法。

16.一种存储有计算机指令的非瞬时计算机可读存储介质，其特征在于，所述计算机指令用于使所述计算机执行根据权利要求1-7中任一项所述的方法。

17.一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现根据权利要求1-7中任一项所述的方法。