WO2021098151A1

WO2021098151A1 - 特效视频合成方法、装置、计算机设备和存储介质

Info

Publication number: WO2021098151A1
Application number: PCT/CN2020/087712
Authority: WO
Inventors: 朱敏
Original assignee: 深圳壹账通智能科技有限公司
Priority date: 2019-11-21
Filing date: 2020-04-29
Publication date: 2021-05-27
Also published as: CN111147766A

Abstract

本申请涉及一种特效视频合成方法、装置、计算机设备和存储介质。基于人脸识别技术，通过发起方基于发起方终端向服务器发送特效视频合成指令，选定特效视频模板及形象信息，并向服务器发送形象信息和视频信息，服务器根据特效视频模板、形象信息和视频信息合成发起方的个人特效视频，并生成发起方的特效视频邀请，供发起方将特效视频邀请发送给指定用户，使指定用户基于特效视频邀请参与一起合成特效视频，指定用户只需通过终端上传拍摄的视频信息和所选择的形象信息给服务器，服务器就能将发起方与各接收方的视频信息合成在同一个特效视频中，实现多人特效视频的合成，解决了特效视频的制作场景受到了时间和空间的限制，操作便利性低的问题。

Description

特效视频合成方法、装置、计算机设备和存储介质

本申请要求于2019年11月21日提交中国专利局、申请号为201911147121.8，发明名称为“特效视频合成方法、装置、计算机设备和存储介质”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及计算机技术领域，特别是涉及一种特效视频合成方法、装置、计算机设备和存储介质。

背景技术

随着互联网技术的发展，各个资源共享平台，在娱乐方面，基于互联网技术，开发了多种多样的娱乐方式，如：基于互联网的特效合成技术，实现在线制作特效视频，供用户娱乐。

目前在线制作特效视频的方式是：由特效平台提供模板视频，用户通过终端选择自己想实现特效模板，在特效模板的基础上，将视频上传给特效平台，将用户的视频融入到特效模板，获得用户的特效视频。

当需要制作有多人参与的特效视频时，在选择特效模板后，参与视频制作的多人需要同时对着同一个摄像头，即由一个摄像头在同一时间采集多个参与人员所在的场景，发明人发现这就使得特效视频的制作场景受到了时间和空间的限制，操作便利性低。

发明内容

基于此，有必要针对上述技术问题，提供一种操作便利的特效视频合成方法、装置、计算机设备和存储介质。

一种特效视频合成方法，所述方法包括：接收发起方终端发送的特效视频合成指令，所述特效视频合成指令中包括特效视频模板标识、所述特效视频模板中发起方的形象信息及发起方视频信息；融合所述特效视频模板中发起方的形象信息和发起方的视频信息，得到发起方的个人特效视频；根据所述发起方的特效视频生成视频拍摄邀请并发送至发起方终端，所述视频拍摄邀请由发起方终端发送至指定用户；获取接到所述视频拍摄邀请的接收方终端发送的形象信息选择指令；根据所述形象信息选择指令向所述接收方终端发送所述特效视频模板中未被占用的形象信息；获取所述接收方终端基于所述特效视频模板中未被占用的形象信息发送的所述特效视频模板的形象信息，以及接收方视频信息；根据所述特效视频模板中接收方的形象信息融合所述发起方的个人特效视频和接收方的视频信息，得到多人特效视频。

一种特效视频合成装置，所述装置包括：合成指令接收模块，用于接收发起方终端发送的特效视频合成指令，所述特效视频合成指令中包括特效视频模板标识、所述特效视频模板中发起方的形象信息及发起方视频信息；第一融合模块，用于融合所述特效视频模板中发起方的形象信息和发起方的视频信息，得到发起方的个人特效视频；邀请发送模块，用于根据所述发起方的特效视频生成视频拍摄邀请并发送至发起方终端，所述视频拍摄邀请由发起方终端发送至指定用户；指令接收模块，用于获取接到所述视频拍摄邀请的接收方终端发送的形象信息选择指令；形象信息发送模块，用于根据所述形象信息选择指令向所述接收方终端发送所述特效视频模板中未被占用的形象信息；信息获取模块，用于获取所述接收方终端基于所述特效视频模板中未被占用的形象信息发送的所述特效视频模板的形象信息，以及接收方视频信息；第二融合模块，用于根据所述特效视频模板中接收方的形象信息融合所述发起方的个人特效视频和接收方的视频信息，得到多人特效视频。

一种计算机设备，其包括：一个或多个处理器；存储器；一个或多个计算机程序，其中所述一个或多个计算机程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个计算机程序配置用于执行一种特效视频合成方法，其中，所述特效视频合成方法包括以下步骤：接收发起方终端发送的特效视频合成指令，所述特效视频合成指令中包括特效视频模板标识、所述特效视频模板中发起方的形象信息及发起方视频信息；融合所述特效视频模板中发起方的形象信息和发起方的视频信息，得到发起方的个人特效视频；根据所述发起方的特效视频生成视频拍摄邀请并发送至发起方终端，所述视频拍摄邀请由发起方终端发送至指定用户；获取接到所述视频拍摄邀请的接收方终端发送的形象信息选择指令；根据所述形象信息选择指令向所述接收方终端发送所述特效视频模板中未被占用的形象信息；获取所述接收方终端基于所述特效视频模板中未被占用的形象信息发送的所述特效视频模板的形象信息，以及接收方视频信息；根据所述特效视频模板中接收方的形象信息融合所述发起方的个人特效视频和接收方的视频信息，得到多人特效视频。

一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现一种特效视频合成方法，其中，所述特效视频合成方法包括以下步骤：接收发起方终端发送的特效视频合成指令，所述特效视频合成指令中包括特效视频模板标识、所述特效视频模板中发起方的形象信息及发起方视频信息；融合所述特效视频模板中发起方的形象信息和发起方的视频信息，得到发起方的个人特效视频；根据所述发起方的特效视频生成视频拍摄邀请并发送至发起方终端，所述视频拍摄邀请由发起方终端发送至指定用户；获取接到所述视频拍摄邀请的接收方终端发送的形象信息选择指令；根据所述形象信息选择指令向所述接收方终端发送所述特效视频模板中未被占用的形象信息；获取所述接收方终端基于所述特效视频模板中未被占用的形象信息发送的所述特效视频模板的形象信息，以及接收方视频信息；根据所述特效视频模板中接收方的形象信息融合所述发起方的个人特效视频和接收方的视频信息，得到多人特效视频。

上述特效视频合成方法、装置、计算机设备和存储介质，解决了特效视频的制作场景受到了时间和空间的限制，操作便利性低的问题。

附图说明

图1为一个实施例中特效视频合成方法的应用场景图；

图2为另一个实施例中特效视频合成方法的流程示意图；

图3为一个实施例中特效视频合成方法中的特效视频模板示意图；

图4为一个实施例中特效视频合成方法中的多人特效视频的视频帧图像示意图；

图5为另一个实施例中特效视频合成装置的结构框图；

图6为一个实施例中计算机设备的内部结构图。

具体实施方式

本申请提供的特效视频合成方法，适用于人工智能技术领域，可以应用于如图1所示的应用环境中。其中，终端102通过网络与服务器104通过网络进行通信。服务器104接收发起方终端102发送的特效视频合成指令，特效视频合成指令中包括特效视频模板标识、特效视频模板中发起方的形象信息及发起方视频信息；服务器104融合特效视频模板中发起方的形象信息和发起方的视频信息，得到发起方的个人特效视频；根据发起方的特效视频生成视频拍摄邀请并发送至发起方终端102，视频拍摄邀请由发起方终端102发送至指定用户；服务器104获取接到视频拍摄邀请的接收方终端102发送的形象信息选择指令；根据形象信息选择指令向接收方终端102发送特效视频模板中未被占用的形象信息；获取接收方终端102基于特效视频模板中未被占用的形象信息发送的特效视频模板的形象信息，以及接收方视频信息；根据特效视频模板中接收方的形象信息融合发起方的个人特效视频和接收方的视频信息，得到多人特效视频。其中，终端102包括发起方终端和接收方终端，可以是一个发起方终端也可以是多个发起方终端，可以是一个接收方终端也可以是多个接收方终端。终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备，服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在一个实施例中，如图2所示，提供了一种特效视频合成方法，以该方法应用于图1中的服务器为例进行说明，包括以下步骤：

步骤S220，接收发起方终端发送的特效视频合成指令，特效视频合成指令中包括特效视频模板标识、特效视频模板中发起方的形象信息及发起方视频信息。

其中，发起方终端指的是特效视频发起人所持的终端。特效视频模板可以是预先设置，如：放烟花场景、游戏场景，动漫场景、打篮球等等，如图3所示，是放烟花场景的特效视频模板，特效视频模板中可以是有多个可选择的形象信息，也可以是只有一个形象信息。特效视频发起人只想合成个人特效视频时，可以选择一个或多个形象信息的特效视频模板，特效视频发起人想合成多人特效视频时，可以选择多个形象信息的特效视频模板。特效视频模板标识是用于识别各个特效视频模板的，每个特效视频模板对应一个标识。形象信息指的是特效形象，如图3特效视频模板图片中的小猪形象，即为形象信息。特效视频合成指令是特效视频发起人通过发起方终端，在特效视频模板选择页面，选择想合成特效视频模板，发起方终端基于特效视频发起人选择的特效视频模板确定对应的特效视频模板标识，生成特效视频合成指令，向服务器发送。也可以是特效视频发起人通过发起方终端，在特效视频模板选择页面中选择自定义视频特效模板，基于用户自定义视频特效模板，生成特效视频合成指令，该指令中包括自定义视频特效模板，向服务器发送。

通过特效视频模板标识可以向模板数据库获取对应的特效视频模板，通过特效视频模板中发起方的形象信息可以确定发起方想合成的形象，模板数据库是用于保存各个特效视频模板。根据特效视频模板标识在模板数据库可以找到唯一对应的特效视频模板。当接收到的特效视频合成指令中是自定义视频特效模板时，对自定义视频特效模板进行处理，确定自定义视频特效模板中可以选择的形象信息等，并确定各形象信息对应的合成区域等，使得自定义视频特效模板与模板数据库中的视频特效模板的格式相同，形成处理后的自定义视频特效视频模板。还可以将处理后的自定义视频特效模板存储至模板数据库中，可以作为该特效视频发起人的个人视频特效模板。

在接收发起方终端发送的特效视频合成指令之前，通过向发起方终端发送各特效视频模板，可供发起方用户通过发起方终端选择自己喜欢的特效视频模板及形象信息，基于选择的特效视频模板，确定该特效视频模板的特效视频模板标识，并拍摄拍摄发起方视频信息(即特效视频发起人的个人视频)，发起方视频信息中至少有一定数量的人脸视频帧，并且该视频的时长在预设时长范围内，使发起方终端基于特效视频模板标识、特效视频模板中发起方的形象信息及发起方视频信息，生成特效视频合成指令，向服务器发送该特效视频合成指令。发起方终端还可以通过检测人脸视频帧及视频的时长，来确定拍摄的发起方视频信息是否符合要求。当拍摄的发起方视频信息没有达到预设数量的人脸视频帧或视频的时长不在预设时长范围时，提醒用户重新拍摄，预设数量可以是50帧～1000帧，预设时长可以是10s～500s。

步骤S240，融合特效视频模板中发起方的形象信息和发起方的视频信息，得到发起方的个人特效视频。

其中，通过表情识别模型对该视频信息的表情帧进行识别，获取人脸表情帧，获取的人脸表情帧需要数量达到预设数量，预设数量根据特效视频模板的总帧数确定，如：特效视频模板的总帧数为10帧，获取的人脸表情帧也需要10帧。对人脸表情帧的人脸区域进行提取，获得人脸区域，根据形象信息确定特效视频模板各视频帧中的合成区域，将表***帧对应人脸区域对应融合至特效视频模板各视频帧中的合成区域，获得个人特效视频。

步骤S260，根据发起方的特效视频生成视频拍摄邀请并发送至发起方终端，视频拍摄邀请由发起方终端发送至指定用户。

其中，生成的视频拍摄邀请可以是链接，也可以是二维码等等，可以通过该视频拍摄邀请查看到当前合成的特效视频，并参与合成特效视频。生成的视频拍摄邀请后向发起方终端发送，发起方终端接收到视频拍摄邀请后，特效视频发起人可以通过终端将视频拍摄邀请发送给指定用户，指定用户是由特效视频发起人指定接收的用户账号，发起人可以限定邀请谁加入，如：特效视频发起人将视频拍摄邀请发送给用户A的账号、用户B的账号，则指定用户即为用户A的账号、用户B的账号。也可以不限定谁为被邀请者，如：发起人将视频拍摄邀请发在朋友圈，可以看到该视频拍摄邀请的用户的账号即为指定用户。

步骤S280，获取接到所述视频拍摄邀请的接收方终端发送的形象信息选择指令。

其中，接收方即为接收到视频拍摄邀请的指定用户。接收方接收到发起方生成视频拍摄邀请时，可以基于视频拍摄邀请查看到特效视频发起人的特效视频，当接收方接受发起方的视频拍摄邀请，接收方通过在接收方终端上操作(点击)视频拍摄邀请，进入查看到特效视频发起人的特效视频的页面，基于该页面向服务器发送形象信息选择指令。

步骤S300，根据形象信息选择指令向接收方终端发送特效视频模板中未被占用的形象信息。

其中，服务器接收到发起方终端的形象信息选择指令时，获取该次特效视频合成所使用的特效视频模板的形象信息的使用情况，根据特效视频模板的形象信息的使用情况，确定特效视频模板中未被占用的形象信息，如特效视频模板有q、w、e、r四个形象信息，特效视频发起人可以选择特效视频模板中任意一个形象信息，而特效视频发起人选择了w形象信息时，特效视频模板中未被占用的形象信息就只剩下q、e、r这三个形象信息，当第一次接收形象信息选择指令时，特效视频模板中未被占用的形象信息应当为q、e、r这三个形象信息，则向接收方终端发送特效视频模板中q、e、r这三个形象信息。当同时出现多个接收方终端同时发送形象信息选择指令时，同时给多个接收方终端发送相同的特效视频模板中未被占用的形象信息，当多个接收方终端中基于特效视频模板中未被占用的形象信息发送的特效视频模板的形象信息相同时，以先发送的接收方占用该形象信息，提醒后发送的接收方该形象信息被占用，请重新选择。

步骤S320，获取接收方终端基于特效视频模板中未被占用的形象信息发送的特效视频模板的形象信息，以及接收方视频信息。

其中，接收方终端接收到服务器的特效视频模板中未被占用的形象信息后，接收方通过接收方终端可查看特效视频模板中未被占用的形象信息，在接收方终端选择用于特效视频合成的形象信息，并拍摄个人视频，通过接收方终端将接收方选择的形象信息以及视频信息发送给服务器，服务器接收到选择的形象信息以及接收方视频信息后，根据接收到选择的形象信息，可以将该形象信息标记为已占用的形象信息。当特效视频模板中的形象信息被其他指定用户选择，则不可以再次被选，通知接收方重新选择形象信息。

步骤S340，根据特效视频模板中接收方的形象信息融合发起方的个人特效视频和接收方的视频信息，得到多人特效视频。

其中，可以基于特效视频模板中接收方的形象信息和接收方的视频信息，得到接收方的个人特效视频，根据特效视频模板合成发起方的个人特效视频和接收方的个人特效视频，得到多人特效视频。多人特效视频的视频帧中包括了发起方的个人特效图像和多个接收方的个人特效图像，如图4所示的多人特效视频的视频帧图像。根据发起方的个人特效视频对应的形象信息，与接收方的个人特效视频对应的形象信息，将发起方的个人特效视频和接收方的个人特效视频进行融合，得到多人特效视频。

上述特效视频合成方法中，发起方基于终端向服务器发送特效视频合成指令，选定特效视频模板及形象信息，向服务器发送形象信息和视频信息，服务器根据特效视频模板、形象信息和视频信息合成发起方的个人特效视频，并生成发起方的特效视频邀请，供发起方将特效视频邀请发送给指定用户，使指定用户基于特效视频邀请参与一起合成特效视频，指定用户只需通过终端上传拍摄的视频信息和所选择的形象信息给服务器，服务器就能将发起方与各接收方的视频信息合成在同一个特效视频中，实现多人特效视频的合成，无需由一个摄像头在同一时间采集多个参与人员所在的场景，参与人员只需将各自的个人视频信息上传给服务器即可，由服务器对上传的各视频信息进行多人特效视频合成，解决了特效视频的制作场景受到了时间和空间的限制，操作便利性低的问题。

在一个实施例中，根据接收方的特效视频模板的形象信息融合发起方的个人特效视频和接收方的视频信息，得到多人特效视频的步骤，包括：融合特效视频模板中接收方的形象信息和接收方的视频信息，得到接收方的个人特效视频；根据特效视频模板合成发起方的个人特效视频和接收方的个人特效视频，得到多人特效视频。

其中，通过表情识别模型对该视频信息的表情帧进行识别，获取人脸表情帧，获取的人脸表情帧需要数量达到预设数量，预设数量根据特效视频模板的总帧数确定，如：特效视频模板的总帧数为10帧，获取的人脸表情帧也需要10帧。对人脸表情帧的人脸区域进行提取，获得人脸区域，根据形象信息确定特效视频模板各视频帧中的合成区域，将表***帧对应人脸区域对应融合至特效视频模板各视频帧中的合成区域，获得个人特效视频。多人特效视频的视频帧中包括了发起方的个人特效图像和接收方的个人特效图像，如图4所示的多人特效视频的视频帧图像。根据发起方的个人特效视频对应的形象信息，与接收方的个人特效视频对应的形象信息，将发起方的个人特效视频和接收方的个人特效视频进行融合，得到多人特效视频。

在一个实施例中，根据特效视频模板合成发起方的个人特效视频和接收方的个人特效视频，得到多人特效视频的步骤，包括：根据发起方的个人特效视频对应的形象信息，与接收方的个人特效视频对应的形象信息，将发起方的个人特效视频和接收方的个人特效视频进行融合，得到多人特效视频。

其中，发起方的个人特效视频对应的形象信息用于确定发起方合成的是哪个形象信息，接收方的个人特效视频对应的形象信息用于确定接收方合成的是哪个形象信息。可以是在发起方的个人特效视频的基础上，通过获取接收方的个人特效视频中各视频帧中融入的人脸区域，将各视频帧中融入的人脸区域对应融入到发起方的个人特效视频的视频帧中，形成包含发起方的个人特效视频中的形象和接收方的个人特效视频中的形象(如图4)。也可以是在接收方的个人特效视频的基础上，通过获取发起方的个人特效视频中各视频帧中融入的人脸区域，将各视频帧中融入的人脸区域对应融入到接收方的个人特效视频的视频帧中，形成包含发起方的个人特效视频中的形象和接收方的个人特效视频中的形象，个人特效视频中的形象指的是将视频信息中的人脸区域融合到形象中的合成区域后的形象。

在一个实施例中，发起方的个人特效视频和接收方的个人特效视频进行融合，得到多人特效视频后，更新特效视频邀请的当前合成的特效视频，当用户通过特效视频邀请查看时，可以看到当前特效视频的合成进度，如：发起方用户向接收方发送特效视频邀请后，各用户可以通过特效视频邀请看到当前合成的特效视频，当接收到接收方的形象信息以及视频信息后，执行步骤S340至步骤S360，获得多人特效视频，根据获取到接收方的形象信息以及视频信息的先后顺序进行多人特效视频，如：发起方邀请了接收方甲和接收方乙，先接收到接收方甲先的形象信息以及视频信息，则执行步骤S340至步骤S360，获得接收方甲和发起方的多人特效视频，该多人特效视频包括接收方甲的个人特效视频中的形象和发起方的个人特效视频中的形象。获得接收方甲和发起方的多人特效视频后，将特效视频邀请的当前合成的特效视频更新为接收方甲和发起方的多人特效视频，通过特效视频邀请查看时，看到的是接收方甲和发起方的多人特效视频。后续接收到接收方乙形象信息以及视频信息，则执行步骤S340至步骤S360，获得接收方甲、发起方和接收方甲乙的多人特效视频。通过特效视频邀请查看时，看到的是接收方甲、发起方和接收方甲乙的多人特效视频。通过实时更新特效视频邀请中的当前合成的特效视频，用户可以实时获知当前合成进度。

在一个实施例中，当特效视频模板中的所有形象信息被选中并完成合成后，结束多人特效视频合成，生成最终的多人特效视频，并给参与多人特效视频的用户发送完成提醒。当特效视频模板中的还有没有被选中的形象信息时，也可以是发起人通过终端发送结束多人特效视频合成指令，服务器基于接收到的结束多人特效视频合成指令，将当前合成的特效视频作为最终的多人特效视频，并给参与多人特效视频的用户发送完成提醒。通过在生成最终的多人特效视频后，给用户发送完成提醒，使用户无需通过特效视频邀请获知合成进度。通过结束多人特效视频合成指令，用户可以随时结束多人特效视频合成。

在一个实施例中，个人特效视频的融合方法包括：通过表情识别模型对视频信息进行识别，获得各表***帧；对各表***帧中的人脸区域进行提取，获得各表***帧对应人脸区域；根据形象信息确定特效视频模板各视频帧中的合成区域；将各表***帧对应人脸区域对应融合至特效视频模板各视频帧中的合成区域，获得个人特效视频。

其中，个人特效视频可以是发起方的个人特效视频，也可以是接收方的个人特效视频。表情识别模型是用于识别表***帧的模型，是通过收集表情训练图片(网络图片、标准资源图片等)；对训练图片做明暗色调处理，增强模型泛化能力后；对训练图片进行表情分类(如：微笑，眨眼，搞怪，张嘴等等)获得各类表情图片；将各类表情图片输入基于tensorflow框架使用CNN卷积神经网络的模型中进行训练，得到表情识别模型，使表情识别模型可以识别出各图片属于哪一类图片，如：是属于微笑表情类图片、属于张嘴表情类图片、属于搞怪表情类图片或其他类图片等等。

表***帧指的是视频信息的各个视频帧中人脸的表情是微笑、眨眼、搞怪、张嘴等等表情的视频帧。人脸区域指的是表***帧中人脸部分图像，可以基于人脸识别技术识别出人脸区域。合成区域指的是特效视频模板的视频帧中该形象信息的面部区域，可以基于人脸识别技术或出面部区域，也可以是预先对特效视频模板各形象信息的面部区域进行标记，直接根据该形象信息确定对应的合成区域。将各表***帧对应人脸区域对应融合至特效视频模板各视频帧中的合成区域指的是，将特效视频模板各视频帧中的合成区域替换为人脸区域，获得个人特效视频，通过识别视频信息中的表***帧，可以使合成的个人特效视频趣味性更高。

在一个实施例中，将各表***帧对应人脸区域对应融合至特效视频模板各视频帧中的合成区域，获得个人特效视频的步骤，包括：根据各表***帧在视频信息中的先后顺序，确定各表***帧的先后顺序；根据特效视频模板各视频帧的先后顺序，与各表***帧的先后顺序，确定各表***帧与特效视频模板各视频帧的对应关系；根据各表***帧与特效视频模板各视频帧的对应关系，将各表***帧对应人脸区域对应融合至特效视频模板各视频帧中的合成区域，获得个人特效视频。

其中，各表***帧在视频信息中的先后顺序指的是视频帧的播放先后顺序，如：视频信息中有视频帧l、视频帧k、视频帧j、视频帧h，在播放视频信息时，依次显示视频帧l、视频帧k、视频帧j、视频帧h，则各表***帧在视频信息中的先后顺序为：视频帧l、视频帧k、视频帧j、视频帧h。特效视频模板各视频帧的先后顺序与表***帧的先后顺序类似，不再赘述。表***帧与特效视频模板各视频帧的对应关系，如：假设特效视频模板中有视频帧p、视频帧y、视频帧i、视频帧u，先后顺序为视频帧p、视频帧y、视频帧i、视频帧u，视频信息中有视频帧l、视频帧k、视频帧j、视频帧h，各表***帧的先后顺序为：视频帧l、视频帧k、视频帧j、视频帧h，则特效视频模板的视频帧p与视频帧l对应，视频帧k与视频帧y对应，视频帧i与视频帧j对应，视频帧u与视频帧h对应。将各表***帧对应人脸区域对应融合至特效视频模板各视频帧中的合成区域，如：将视频帧l的人脸区域融合至视频帧p的合成区域，视频帧k的人脸区域融合至视频帧y的合成区域，视频帧j的人脸区域融合至视频帧i的合成区域，视频帧h的人脸区域融合至视频帧u的合成区域。

在一个实施例中，根据各表***帧与特效视频模板各视频帧的对应关系，将各表***帧对应人脸区域对应融合至特效视频模板各视频帧中的合成区域，获得个人特效视频的步骤，包括：根据各表***帧与特效视频模板各视频帧的对应关系，将各表***帧对应人脸区域对应融合至特效视频模板各视频帧中的合成区域，获得特效视频帧；对各特效视频帧中融合至人脸区域后的合成区域的边缘进行羽化处理，获得各处理后的特效视频帧；根据各处理后的特效视频帧，获得个人特效视频。

其中，羽化处理指的是使选定范围的图边缘达到朦胧的效果，可以采用均值滤波和cvSnakeImage()两种方式进行平滑轮廓线，采用对mask采用全图均值滤波方法扩宽过度区域，完成对各特效视频帧中融合至人脸区域后的合成区域的边缘的羽化处理，获得各处理后的特效视频帧(即羽化后的特效视频帧)。通过对特效视频帧进行羽化处理，可以使合成的特效视频帧更自然。

在一个实施例中，通过表情识别模型对视频信息进行识别，获得各表***帧的步骤，包括：根据预设的视频格式对视频信息进行格式转换，获得转换后的视频信息；通过表情识别模型对转换后的视频信息进行识别，获得各表***帧。

其中，预设的视频格式可以根据制作需求设定，比如本申请的特效视频合成方法统一采用利于在网络传播的格式合成多人特效视频，如F4V格式等等。因为不同用户上传的视频可能格式不一样，如：AVI、WMV、RM、RMVB、MPEG1、MPEG2、F4V等格式，需要将上传的视频转换为统一格式。根据预设的视频格式对视频信息进行格式转换可以是，根据视频的编码方式，获取该视频的视频元数据，根据预设的视频格式对该视频的视频元数据进行转换，获得转换后的视频信息。通过视频格式转换可以实现对不同格式视频进行多人特效视频，实现支持多格式的特效视频合成。

在一个实施例中，根据所述形象信息选择指令向接收方终端发送特效视频模板中未被占用的形象信息的步骤，包括：获取形象信息选择指令中的用户信息，用户信息包括：用户账号信息、用户位置信息；根据用户信息验证接收方是指定用户时，向接收方终端发送特效视频模板中未被占用的形象信息。

其中，用户账号信息可以用于识别各用户的标识。用户位置信息为当前用户所在的地区。以本申请是以小程序的方式实现特效视频合成方法为例，且该特效视频合成小程序与微信关联，发起方用户与接收方用户都可以通过微信进入特效视频合成小程序进行特效视频合成小程序，在进入特效视频合成小程序时，需要获取用户的微信账号，该账户则为用户账号信息，并获取该用户所在的地区，获得用户账号信息、用户位置信息后，进入特效视频合成小程序的客户端，通过终端上的客户端与特效视频合成小程序的服务端(即服务器)进行交互。通过接收方终端发送形象信息选择指令时，获取接收方的用户信息，基于用户信息生成形象信息选择指令。在发起方通过发起方终端发送的特效视频合成指令时，也可以获取发起方的用户信息，使特效视频合成指令中还携带有用户信息。可以收集各用户的用户信息，进一步根据用户信息进行大数据分析，进一步实现产品需求分析，进一步对用户进行产品推荐。通过娱乐的方式获取到用户的信息，进行产品推荐，提高了工作效率，提高产品推荐的精准度。

应该理解的是，虽然图2的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图5所示，提供了一种特效视频合成装置，包括：合成指令接收模块310、第一融合模块320、邀请发送模块330、指令接收模块340、形象信息发送模块350、信息获取模块360和第二融合模块370，其中：

合成指令接收模块310，用于接收发起方终端发送的特效视频合成指令，特效视频合成指令中包括特效视频模板标识、特效视频模板中发起方的形象信息及发起方视频信息；

第一融合模块320，用于融合特效视频模板中发起方的形象信息和发起方的视频信息，得到发起方的个人特效视频；

邀请发送模块330，用于根据发起方的特效视频生成视频拍摄邀请并发送至发起方终端，视频拍摄邀请由发起方终端发送至指定用户；

指令接收模块340，用于获取接到视频拍摄邀请的接收方终端发送的形象信息选择指令；

形象信息发送模块350，用于根据形象信息选择指令向接收方终端发送特效视频模板中未被占用的形象信息；

信息获取模块360，用于获取接收方终端基于特效视频模板中未被占用的形象信息发送的特效视频模板的形象信息，以及接收方视频信息；

第二融合模块370，用于根据特效视频模板中接收方的形象信息融合发起方的个人特效视频和接收方的视频信息，得到多人特效视频。

在一个实施例中，第二融合模块370还用于：融合特效视频模板中接收方的形象信息和接收方的视频信息，得到接收方的个人特效视频；根据特效视频模板合成发起方的个人特效视频和接收方的个人特效视频，得到多人特效视频。

在一个实施例中，第一融合模块320和第二融合模块370还用于：通过表情识别模型对视频信息进行识别，获得各表***帧；对各表***帧中的人脸区域进行提取，获得各表***帧对应人脸区域；根据形象信息确定特效视频模板各视频帧中的合成区域；将各表***帧对应人脸区域对应融合至特效视频模板各视频帧中的合成区域，获得个人特效视频。

在一个实施例中，第一融合模块320和第二融合模块370还用于：：根据各表***帧在视频信息中的先后顺序，确定各表***帧的先后顺序；根据特效视频模板各视频帧的先后顺序，与各表***帧的先后顺序，确定各表***帧与特效视频模板各视频帧的对应关系；根据各表***帧与特效视频模板各视频帧的对应关系，将各表***帧对应人脸区域对应融合至特效视频模板各视频帧中的合成区域，获得个人特效视频。

在一个实施例中，第一融合模块320和第二融合模块370还用于：根据各表***帧与特效视频模板各视频帧的对应关系，将各表***帧对应人脸区域对应融合至特效视频模板各视频帧中的合成区域，获得特效视频帧；对各特效视频帧中融合至人脸区域后的合成区域的边缘进行羽化处理，获得各处理后的特效视频帧；根据各处理后的特效视频帧，获得个人特效视频。

在一个实施例中，第一融合模块320和第二融合模块370还用于：根据预设的视频格式对视频信息进行格式转换，获得转换后的视频信息；通过表情识别模型对转换后的视频信息进行识别，获得各表***帧。

在一个实施例中，形象信息发送模块350还用于：获取形象信息选择指令中的用户信息，用户信息包括：用户账号信息、用户位置信息；根据用户信息验证接收方是指定用户时，向接收方终端发送特效视频模板中未被占用的形象信息。

关于特效视频合成装置的具体限定可以参见上文中对于特效视频合成方法的限定，在此不再赘述。上述特效视频合成装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图6所示。该计算机设备包括通过***总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作***、计算机程序和数据库。该内存储器为非易失性存储介质中的操作***和计算机程序的运行提供环境。该计算机设备的数据库用于存储特效视频数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种特效视频合成方法，其中，所述特效视频合成方法包括以下步骤：接收发起方终端发送的特效视频合成指令，所述特效视频合成指令中包括特效视频模板标识、所述特效视频模板中发起方的形象信息及发起方视频信息；融合所述特效视频模板中发起方的形象信息和发起方的视频信息，得到发起方的个人特效视频；根据所述发起方的特效视频生成视频拍摄邀请并发送至发起方终端，所述视频拍摄邀请由发起方终端发送至指定用户；获取接到所述视频拍摄邀请的接收方终端发送的形象信息选择指令；根据所述形象信息选择指令向所述接收方终端发送所述特效视频模板中未被占用的形象信息；获取所述接收方终端基于所述特效视频模板中未被占用的形象信息发送的所述特效视频模板的形象信息，以及接收方视频信息；根据所述特效视频模板中接收方的形象信息融合所述发起方的个人特效视频和接收方的视频信息，得到多人特效视频。

本领域技术人员可以理解，图6中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种存储有计算机可读指令的存储介质，所述存储介质为易失性存储介质或非易失性存储介质，该计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行以下步骤：接收发起方终端发送的特效视频合成指令，特效视频合成指令中包括特效视频模板标识、特效视频模板中发起方的形象信息及发起方视频信息；融合特效视频模板中发起方的形象信息和发起方的视频信息，得到发起方的个人特效视频；根据发起方的特效视频生成视频拍摄邀请并发送至发起方终端，视频拍摄邀请由发起方终端发送至指定用户；获取接到视频拍摄邀请的接收方终端发送的形象信息选择指令；根据形象信息选择指令向接收方终端发送特效视频模板中未被占用的形象信息；获取接收方终端基于特效视频模板中未被占用的形象信息发送的特效视频模板的形象信息，以及接收方视频信息；根据特效视频模板中接收方的形象信息融合发起方的个人特效视频和接收方的视频信息，得到多人特效视频。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

Claims

一种特效视频合成方法，其中，所述方法包括：

接收发起方终端发送的特效视频合成指令，所述特效视频合成指令中包括特效视频模板标识、所述特效视频模板中发起方的形象信息及发起方视频信息；

融合所述特效视频模板中发起方的形象信息和发起方的视频信息，得到发起方的个人特效视频；

根据所述发起方的特效视频生成视频拍摄邀请并发送至发起方终端，所述视频拍摄邀请由发起方终端发送至指定用户；

获取接到所述视频拍摄邀请的接收方终端发送的形象信息选择指令；

根据所述形象信息选择指令向所述接收方终端发送所述特效视频模板中未被占用的形象信息；

获取所述接收方终端基于所述特效视频模板中未被占用的形象信息发送的所述特效视频模板的形象信息，以及接收方视频信息；

根据所述特效视频模板中接收方的形象信息融合所述发起方的个人特效视频和接收方的视频信息，得到多人特效视频。
根据权利要求1所述的方法，其中，所述根据接收方的所述特效视频模板的形象信息融合所述发起方的个人特效视频和接收方的视频信息，得到多人特效视频的步骤，包括：

融合所述特效视频模板中接收方的形象信息和接收方的视频信息，得到接收方的个人特效视频；

根据所述特效视频模板合成所述发起方的个人特效视频和接收方的个人特效视频，得到多人特效视频。
根据权利要求1或2所述的方法，其中，个人特效视频的融合方法包括：

通过表情识别模型对所述视频信息进行识别，获得各表***帧；

对各所述表***帧中的人脸区域进行提取，获得各所述表***帧对应人脸区域；

根据所述形象信息确定所述特效视频模板各视频帧中的合成区域；

将各所述表***帧对应人脸区域对应融合至所述特效视频模板各视频帧中的合成区域，获得个人特效视频。
根据权利要求3所述的方法，其中，所述将各所述表***帧对应人脸区域对应融合至所述特效视频模板各视频帧中的合成区域，获得个人特效视频的步骤，包括：

根据各所述表***帧在所述视频信息中的先后顺序，确定各所述表***帧的先后顺序；

根据所述特效视频模板各视频帧的先后顺序，与各所述表***帧的先后顺序，确定各所述表***帧与所述特效视频模板各所述视频帧的对应关系；

根据各所述表***帧与所述特效视频模板各所述视频帧的对应关系，将各所述表***帧对应人脸区域对应融合至所述特效视频模板各视频帧中的合成区域，获得个人特效视频。
根据权利要求4所述的方法，其中，所述根据各所述表***帧与所述特效视频模板各所述视频帧的对应关系，将各所述表***帧对应人脸区域对应融合至所述特效视频模板各视频帧中的合成区域，获得个人特效视频的步骤，包括：

根据各所述表***帧与所述特效视频模板各所述视频帧的对应关系，将各所述表***帧对应人脸区域对应融合至所述特效视频模板各视频帧中的合成区域，获得特效视频帧；

对各所述特效视频帧中融合至人脸区域后的合成区域的边缘进行羽化处理，获得各处理后的特效视频帧；

根据各处理后的所述特效视频帧，获得个人特效视频。
根据权利要求3所述的方法，其中，所述通过表情识别模型对所述视频信息进行识别，获得各表***帧的步骤，包括：

根据预设的视频格式对所述视频信息进行格式转换，获得转换后的视频信息；

通过表情识别模型对所述转换后的视频信息进行识别，获得各表***帧。
根据权利要求1所述的方法，其中，所述根据所述形象信息选择指令向所述接收方终端发送所述特效视频模板中未被占用的形象信息的步骤，包括：

获取所述形象信息选择指令中的用户信息，所述用户信息包括：用户账号信息、用户位置信息；

根据所述用户信息验证所述接收方是所述指定用户时，向所述接收方终端发送所述特效视频模板中未被占用的形象信息。
一种特效视频合成装置，其中，所述装置包括：

合成指令接收模块，用于接收发起方终端发送的特效视频合成指令，所述特效视频合成指令中包括特效视频模板标识、所述特效视频模板中发起方的形象信息及发起方视频信息；

第一融合模块，用于融合所述特效视频模板中发起方的形象信息和发起方的视频信息，得到发起方的个人特效视频；

邀请发送模块，用于根据所述发起方的特效视频生成视频拍摄邀请并发送至发起方终端，所述视频拍摄邀请由发起方终端发送至指定用户；

指令接收模块，用于获取接到所述视频拍摄邀请的接收方终端发送的形象信息选择指令；

形象信息发送模块，用于根据所述形象信息选择指令向所述接收方终端发送所述特效视频模板中未被占用的形象信息；

信息获取模块，用于获取所述接收方终端基于所述特效视频模板中未被占用的形象信息发送的所述特效视频模板的形象信息，以及接收方视频信息；

第二融合模块，用于根据所述特效视频模板中接收方的形象信息融合所述发起方的个人特效视频和接收方的视频信息，得到多人特效视频。
一种计算机设备，其中，包括：

一个或多个处理器；

存储器；

一个或多个计算机程序，其中所述一个或多个计算机程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个计算机程序配置用于执行一种特效视频合成方法；其中，所述特效视频合成方法包括以下步骤：

接收发起方终端发送的特效视频合成指令，所述特效视频合成指令中包括特效视频模板标识、所述特效视频模板中发起方的形象信息及发起方视频信息；

融合所述特效视频模板中发起方的形象信息和发起方的视频信息，得到发起方的个人特效视频；

根据所述发起方的特效视频生成视频拍摄邀请并发送至发起方终端，所述视频拍摄邀请由发起方终端发送至指定用户；

获取接到所述视频拍摄邀请的接收方终端发送的形象信息选择指令；

根据所述形象信息选择指令向所述接收方终端发送所述特效视频模板中未被占用的形象信息；

获取所述接收方终端基于所述特效视频模板中未被占用的形象信息发送的所述特效视频模板的形象信息，以及接收方视频信息；

根据所述特效视频模板中接收方的形象信息融合所述发起方的个人特效视频和接收方的视频信息，得到多人特效视频。
根据权利要求9所述的计算机设备，其中，所述根据接收方的所述特效视频模板的形象信息融合所述发起方的个人特效视频和接收方的视频信息，得到多人特效视频的步骤，包括：

融合所述特效视频模板中接收方的形象信息和接收方的视频信息，得到接收方的个人特效视频；

根据所述特效视频模板合成所述发起方的个人特效视频和接收方的个人特效视频，得到多人特效视频。
根据权利要求9或10所述的计算机设备，其中，个人特效视频的融合方法包括：

通过表情识别模型对所述视频信息进行识别，获得各表***帧；

对各所述表***帧中的人脸区域进行提取，获得各所述表***帧对应人脸区域；

根据所述形象信息确定所述特效视频模板各视频帧中的合成区域；

将各所述表***帧对应人脸区域对应融合至所述特效视频模板各视频帧中的合成区域，获得个人特效视频。
根据权利要求11所述的计算机设备，其中，所述将各所述表***帧对应人脸区域对应融合至所述特效视频模板各视频帧中的合成区域，获得个人特效视频的步骤，包括：

根据各所述表***帧在所述视频信息中的先后顺序，确定各所述表***帧的先后顺序；

根据所述特效视频模板各视频帧的先后顺序，与各所述表***帧的先后顺序，确定各所述表***帧与所述特效视频模板各所述视频帧的对应关系；

根据各所述表***帧与所述特效视频模板各所述视频帧的对应关系，将各所述表***帧对应人脸区域对应融合至所述特效视频模板各视频帧中的合成区域，获得个人特效视频。
根据权利要求12所述的计算机设备，其中，所述根据各所述表***帧与所述特效视频模板各所述视频帧的对应关系，将各所述表***帧对应人脸区域对应融合至所述特效视频模板各视频帧中的合成区域，获得个人特效视频的步骤，包括：

根据各所述表***帧与所述特效视频模板各所述视频帧的对应关系，将各所述表***帧对应人脸区域对应融合至所述特效视频模板各视频帧中的合成区域，获得特效视频帧；

对各所述特效视频帧中融合至人脸区域后的合成区域的边缘进行羽化处理，获得各处理后的特效视频帧；

根据各处理后的所述特效视频帧，获得个人特效视频。
根据权利要求11所述的计算机设备，其中，所述通过表情识别模型对所述视频信息进行识别，获得各表***帧的步骤，包括：

根据预设的视频格式对所述视频信息进行格式转换，获得转换后的视频信息；

通过表情识别模型对所述转换后的视频信息进行识别，获得各表***帧。
根据权利要求9所述的计算机设备，其中，所述根据所述形象信息选择指令向所述接收方终端发送所述特效视频模板中未被占用的形象信息的步骤，包括：

获取所述形象信息选择指令中的用户信息，所述用户信息包括：用户账号信息、用户位置信息；

根据所述用户信息验证所述接收方是所述指定用户时，向所述接收方终端发送所述特效视频模板中未被占用的形象信息。
一种计算机可读存储介质，其中，所述计算机可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现一种特效视频合成方法；其中，所述特效视频合成方法包括以下步骤：

接收发起方终端发送的特效视频合成指令，所述特效视频合成指令中包括特效视频模板标识、所述特效视频模板中发起方的形象信息及发起方视频信息；

融合所述特效视频模板中发起方的形象信息和发起方的视频信息，得到发起方的个人特效视频；

根据所述发起方的特效视频生成视频拍摄邀请并发送至发起方终端，所述视频拍摄邀请由发起方终端发送至指定用户；

获取接到所述视频拍摄邀请的接收方终端发送的形象信息选择指令；

根据所述形象信息选择指令向所述接收方终端发送所述特效视频模板中未被占用的形象信息；

获取所述接收方终端基于所述特效视频模板中未被占用的形象信息发送的所述特效视频模板的形象信息，以及接收方视频信息；

根据所述特效视频模板中接收方的形象信息融合所述发起方的个人特效视频和接收方的视频信息，得到多人特效视频。
根据权利要求16所述的计算机可读存储介质，其中，所述根据接收方的所述特效视频模板的形象信息融合所述发起方的个人特效视频和接收方的视频信息，得到多人特效视频的步骤，包括：

融合所述特效视频模板中接收方的形象信息和接收方的视频信息，得到接收方的个人特效视频；

根据所述特效视频模板合成所述发起方的个人特效视频和接收方的个人特效视频，得到多人特效视频。
根据权利要求16或17所述的计算机可读存储介质，其中，个人特效视频的融合方法包括：

通过表情识别模型对所述视频信息进行识别，获得各表***帧；

对各所述表***帧中的人脸区域进行提取，获得各所述表***帧对应人脸区域；

根据所述形象信息确定所述特效视频模板各视频帧中的合成区域；

将各所述表***帧对应人脸区域对应融合至所述特效视频模板各视频帧中的合成区域，获得个人特效视频。
根据权利要求18所述的计算机可读存储介质，其中，所述将各所述表***帧对应人脸区域对应融合至所述特效视频模板各视频帧中的合成区域，获得个人特效视频的步骤，包括：

根据各所述表***帧在所述视频信息中的先后顺序，确定各所述表***帧的先后顺序；

根据所述特效视频模板各视频帧的先后顺序，与各所述表***帧的先后顺序，确定各所述表***帧与所述特效视频模板各所述视频帧的对应关系；

根据各所述表***帧与所述特效视频模板各所述视频帧的对应关系，将各所述表***帧对应人脸区域对应融合至所述特效视频模板各视频帧中的合成区域，获得个人特效视频。
根据权利要求19所述的计算机可读存储介质，其中，所述根据各所述表***帧与所述特效视频模板各所述视频帧的对应关系，将各所述表***帧对应人脸区域对应融合至所述特效视频模板各视频帧中的合成区域，获得个人特效视频的步骤，包括：

根据各所述表***帧与所述特效视频模板各所述视频帧的对应关系，将各所述表***帧对应人脸区域对应融合至所述特效视频模板各视频帧中的合成区域，获得特效视频帧；

对各所述特效视频帧中融合至人脸区域后的合成区域的边缘进行羽化处理，获得各处理后的特效视频帧；

根据各处理后的所述特效视频帧，获得个人特效视频。