CN112188116B

CN112188116B - 基于对象的视频合成方法、客户端及***

Info

Publication number: CN112188116B
Application number: CN202010890992.5A
Authority: CN
Inventors: 马宇尘
Original assignee: Shanghai Liangming Technology Development Co Ltd
Current assignee: Shanghai Liangming Technology Development Co Ltd
Priority date: 2020-08-29
Filing date: 2020-08-29
Publication date: 2021-11-30
Anticipated expiration: 2040-08-29
Also published as: WO2022041202A1; CN112188116A

Abstract

本发明提供了基于对象的视频合成方法、客户端及***，涉及图像处理技术领域。一种基于对象的视频合成方法，包括如下步骤：对于进行合成处理的多个原视频进行分析，提取原视频中的角色对象信息；在前述角色对象中选取目标对象作为贯穿角色；在合成视频的***位置添加前述贯穿角色形成增强合成视频。本发明能够增强合成视频中视频流的信息关联性和完整性，提高视觉的连续性，制成的合成视频过滤自然，提升观看体验。

Description

基于对象的视频合成方法、客户端及***

技术领域

本发明涉及图像处理技术领域。

背景技术

随着智能终端技术的发展，目前的智能终端都支持视频的录制、播放及分享功能。智能终端对于视频的处理方式通常比较单一，一般都仅限于进行视频的录制或在线播放视频，或播放本地的视频。比如，通过摄像头完成一段或多段视频的录制，然后在本地播放或分享给其他用户——例如通过视频直播平台录制小视频进行上传和分享。目前，视频在线社交***及其视频在线社交方法正受到各年龄段人群的追捧，抖音、西瓜视频、火山小视频等视频平台成了人们生活中常用的社交工具。

目前，某些视频处理工具或社交工具也提供对视频进行信息合成、信息***和信息叠加的功能，使得用户能够在智能终端上对录制、分享的视频进行更丰富的二次处理，但目前提供的视频合成功能往往比较生硬，***、切换的内容也通常物播放的内容的联系性不强，在很大程度上破坏了所播放视频的完整性；并且，难以获得从一个视频段到另一个视频段的无缝过渡，仅将一段图像生硬地添加到另一段视频中将会干扰视觉的连续性，制成的合成视频将会产生不自然和奇怪的效果，影响了观众的观看体验。

发明内容

本发明的目的在于：克服现有技术的不足，提供一种基于对象的视频合成方法、客户端及***。本发明能够增强合成视频中视频流的信息关联性和完整性，提高视觉的连续性，制成的合成视频过滤自然，提升观看体验。

为实现上述目标，本发明提供了如下技术方案。

一种基于对象的视频合成方法，包括如下步骤：对于进行合成处理的多个原视频进行分析，提取原视频中的角色对象信息；在前述角色对象中选取目标对象作为贯穿角色；在合成视频的***位置添加前述贯穿角色形成增强合成视频。

进一步，在***位置通过替换、覆盖或直接增加的方式添加，所述的***位置包括，

用户在视频画面中选取的位置；和/或，

对视频进行图像识别分析和/或语音识别分析，基于预设规则选取符合条件的***位置，所述预设规则用以限制***位置的画面条件和/或声音条件；和/或，

选取原视频开始播放之前和/或播放结束之后的位置作为***位置。

进一步，还包括步骤，针对选取的贯穿角色，对贯穿角色在视频中的画面信息进行分析后，对贯穿角色的图像和/或声音进行再处理后进行添加；

所述再处理包括对静态图像、视频流、声音特征和音频流中的一种或多种进行处理。

进一步，将提取的角色对象通过可操作选项的方式输出，采集用户的选择操作信息，将用户选择的角色对象作为目标对象。

进一步，对提取的角色对象信息进行分析，获取角色对象的特征信息，所述特征信息包括性别、职业、年龄、外表、身份类型、风格特征、场景特征和/或性格特征；

比对前述特征信息，获取角色对象之间的可替代程度；

选取可替代程度高的角色对象作为目标对象。

获取可替代程度的方式可以为如下方式之一，

方式一，根据相同或相似特征的多少计算可替代程度，相同或相似特征的数量越多，可替代程度越高；

方式二，根据相同或相似特征的多少以及各特征的权重计算可替代程度，各特征乘以对应的权重后进行叠加，数值越大的可替代程度越高。

进一步，所述***位置由用户选择设置；

或者，对视频的画面图像进行识别后，获取包含适用于目标对象图像***的空白区域的视频帧，将前述视频帧作为***位置；

或者，在待结合的两个原视频的时间连接处设置***位置，所述***位置为前段视频中的视频帧和/或后段视频中的视频帧。

优选的，获取***位置的视频画面信息，根据视频画面比例调整所捕捉的目标对象的图像尺寸，将调整后的图像结合到视频内容中；

所述结合方式包括覆盖、替换或叠加。

进一步，形成增强合成视频时包括步骤，

获取目标对象在其所属的原视频中的角色信息；

判定其它待合成原视频中是否有与该角色一致或基本一致的相应角色；

判定具有的时候，用目标对象的图像替换前述相应角色的图像；和/或，

判定不具有的时候，将前述目标对象作为虚拟角色或第三人视角角色加入到前述其它待合成原视频中。

本发明还提供了一种视频合成客户端，包括如下结构：

对象提取模块，用以对于进行合成处理的多个原视频进行分析，提取原视频中的角色对象信息；

对象确定模块，用以在前述角色对象中选取目标对象作为贯穿角色；

视频建立模块，用以在合成视频的***位置添加前述贯穿角色形成增强合成视频。

本发明还提供了一种视频合成的通信***，所述***包括：

用户终端，能够采集用户的操作数据，以及输出增强合成视频；

媒体服务器，能够建立与用户终端的会话；

视频应用服务器，连接至媒体服务器，能够对进行合成处理的多个原视频进行分析，提取原视频中的角色对象信息，并在前述角色对象中选取目标对象作为贯穿角色，在合成视频的***位置添加前述贯穿角色形成增强合成视频。

本发明由于采用以上技术方案，与现有技术相比，作为举例而非限定，具有以下的优点和积极效果：能够增强合成视频中视频流的信息关联性和完整性，提高视觉的连续性，制成的合成视频过滤自然，提升观看体验。

附图说明

图1为本发明实施例提供的视频合成方法的流程图。

图2为本发明实施例提供的选取贯穿角色的操作示例图。

图3为本发明实施例提供的形成增强合成视频的示例图一。

图4为本发明实施例提供的形成增强合成视频的示例图二。

图5为本发明实施例提供的形成增强合成视频的示例图三。

图6为本发明实施例提供的客户端的模块结构图。

图7为本发明实施例提供的***的结构示意图。

图中标号如下：

贯穿角色100；

***位置200；

客户端300，对象提取模块310，对象确定模块320，视频建立模块330；

***400，用户终端410，媒体服务器420，视频应用服务器420。

具体实施方式

以下结合附图和具体实施例对本发明提供的基于对象的视频合成方法、客户端及***作进一步详细说明。应当注意的是，下述实施例中描述的技术特征或者技术特征的组合不应当被认为是孤立的，它们可以被相互组合从而达到更好的技术效果。在下述实施例的附图中，各附图所出现的相同标号代表相同的特征或者部件，可应用于不同实施例中。

需说明的是，本说明书所附图式所绘示的结构、比例、大小等，均仅用以配合说明书所揭示的内容，以供熟悉此技术的人士了解与阅读，并非用以限定发明可实施的限定条件，任何结构的修饰、比例关系的改变或大小的调整，在不影响发明所能产生的功效及所能达成的目的下，均应落在发明所揭示的技术内容所能涵盖的范围内。本发明的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明的实施例所属技术领域的技术人员所理解。

实施例

参见图1所示，一种基于对象的视频合成方法，包括如下步骤：

S100，对于进行合成处理的多个原视频进行分析，提取原视频中的角色对象信息。

所述的多个，包括两个以上，具体的视频数可以支持用户自定义，也可以有***默认设置。所述进行合成处理的视频的来源，可以是用户终端自身拍摄获得的视频，也可以是从网络或其他终端获取的视频，其不应作为对本发明的限制。作为举例而非限制，比如，假设进行合成处理的视频有四段，四段都为终端自身拍摄得到的视频；或者四段都为从网络平台获取的视频；或者部分为终端拍摄得到的视频，部分为从网络平台获取的视频。

所述分析包括对原视频进行语音识别、面部识别、动作检测、场景分类、声音分类、面部情感分类、语音情感分类、姿势分类、镜头运动检测和弹幕检测分类中的至少一个。

所述角色，包括人物、动物、植物、微生物等任意能够在视频中被赋予形象的对象。

所述的角色对象信息，包括但不限于角色在视频中的外形形象、名称、性别、年龄、职业，以及视频中的角色类别一一比如是主角还是配角、线索人物、群演或旁白。

作为举例而非限制，参见图2所示，比如进行合成处理的原视频为4个：视频A，视频B，视频C和视频D，其中，视频A中的角色有角色A1、A2……AN，视频B中的角色有角色B1、B2……BN，视频C中的角色有角色C1、C2……CN和视频D中的角色有角色D1、D2……DN，所述N为大于等于3的整数。需要说明的是，虽然给出的视频A、B、C、D中均设置有角色，但本领域技术人员应知晓，并非每个原视频都需要设置角色，比如视频可以是风光片段、科技产品展示视频等，此时无需提取角色对象信息。

所述角色信息的提取，可以是基于预设的角色分析规则获取角色对应的角色描述元素。所述角色描述元素，是指任意能够体现和/或表示该角色特征的信息，包括人物信息、出现的时间信息(包括时间频率和时间长度)、外形信息、声音特征信息、姿态动作信息等。所述的角色描述元素，作为举例而非限制，可以是通过如下方式获取。

方式一，对原视频数据进行图像识别和/或语音识别后，对识别后的图像内容和/或语音内容进行语义分析后，基于预设的关键词库获取关键词作为角色描述元素。

此方式中，所述预设的关键词库，作为举例而非限制，关键词可以包括性格描述——活泼、安静、沉闷、话多、暴力、软弱等。

方式二，获取原视频数据的属性信息，以及该原视频数据的上传者和/或互动者输入的标签信息，从属性信息和标签信息中提取关键词作为角色描述元素。

所述标签信息，包括但不限于对该原视频的备注信息——比如“女主黄蓉是个古灵精怪的小姐姐”、“郭靖看起来很憨厚”、“摇滚风格的黄蓉”等描述信息，以及与该原视频相关的评论信息——比如“穆念慈的粉色衣服真仙呀”、“佩戴玉佩穿黄色衣服的是杨康么”等评论信息。

从前述标签信息中，可以提取出关键词——比如“古灵精怪”，“女主”，“黄蓉”，“憨厚”，“粉色衣服”等，上述关键词可以作为角色的角色描述元素。

S200，在前述角色对象中选取目标对象作为贯穿角色。

从前述角色对象中选取目标对象，参见图2所示，作为举例而非限制，比如通过分析视频A，视频B，视频C和视频D，从视频A中选取了角色A2为目标对象，将其作为贯穿角色。

需要说明的是，所述贯穿角色不限于一个角色，根据待合成视频的规模和情节需求，可以有多个贯穿角色。比如对于情节多线发展的电源，其贯穿主线的人物可以是多个。

应当理解的是，本实施例中，在选取目标对象时，支持用户自定义设置自身感兴趣的角色类型，或者***通过分析用户或者与用户同年龄段群体的兴趣、爱好等获得用户感兴趣的角色类型作为贯穿角色。

本实施例中从各视频的视频帧内提取目标对象时，优选的采用各种图像识别处理方式。且在进行目标对象的提取时，可以按序逐帧提取；例如，假设一个视频有100个视频帧，可以按序先提取第一个视频帧，并从第一个视频帧中提取出目标对象后，然后再提取第二个视频帧，并从第二个视频帧中提取出目标对象后，然后按照前面的规则依次逐个提取；也可以先提取出这100个视频帧，然后按照灵活的规则提取这100个视频帧各自对应的目标对象。

本实施例中，优选的，基于可替代性选取目标对象。具体的，可以对提取的角色对象信息进行分析，获取角色对象的特征信息，所述特征信息包括性别、职业、年龄、外表、身份类型、风格特征、场景特征和/或性格特征；比对前述特征信息，获取角色对象之间的可替代程度；选取可替代程度高的角色对象作为目标对象。

其中，获取可替代程度的方式为如下方式之一，

本实施中，优选的，将提取的角色对象通过可操作选项的方式输出，采集用户的选择操作信息，将用户选择的角色对象作为目标对象。

所述选择包括但不限于点选、视线触发选择、语音选择、手势动作选择等。

S300，在合成视频的***位置添加前述贯穿角色形成增强合成视频。

所述的***位置可以是用户在视频画面中选取的位置。

和/或，通过对视频进行图像识别分析和/或语音识别分析，基于预设规则选取符合条件的***位置。

所述预设规则用以限制***位置的画面条件和/或声音条件。

和/或，直接选取原视频开始播放之前和/或播放结束之后的位置作为***位置。

添加所述贯穿角色时，考虑到目标对象存在的视频帧有多个，不同视频帧对应的目标对象的信息很可能是不同的——作为举例而非限制，比如可以是正脸形象、侧脸形象或背影形象，其对应的服装款式、发型发饰、姿势动作也可能不同，因此在添加时，可以从中选取一个最能够表达该目标对象特征的形象图像进行添加；也可以依据原视频的场景风格，从众多图像数据中选取与场景风格符合的目标对象的形象图像进行添加。作为举例而非限制，比如将目标对象加入到原视频B中时，考虑到视频B中的场景是冬天的场景，此时选择目标对象着冬装的形象图像进行添加；而视频D中的场景是盛夏的场景，此时选择目标对象着夏装的形象图像进行添加。

优选的，还可以对角色进行再处理，处理后再加入。

作为典型方式的举例而非限制，具体可以包括步骤，针对选取的贯穿角色，对贯穿角色在视频中的画面信息进行分析后，对贯穿角色的图像和/或声音进行再处理后进行添加；

所述再处理包括对静态图像(图片)、视频流、声音特征(比如音调、语速、音强等)和音频流中的一种或多种进行处理。

针对每个原视频段，添加所述贯穿角色时，还可以根据所在场景做适应性调整。作为举例而非限制，比如***贯穿角色的形象图像时，根据待***位置的场景调整贯穿角色的服装类型、服装颜色等。

根据需要，还可以针对贯穿角色设置虚拟元素后再加入到视频画面中。所述的虚拟元素，是指原不属于贯穿角色拥有的元素但后期加入的元素，比如依据贯穿角色的形象图像和动作，将一个公文包加入到贯穿角色手上。

优选的，所述虚拟元素为与***位置的画面匹配的元素，以此提高画面的连贯性和关联性。

对***位置的选择，除画面区域的选择外(镜头空间位置的选择)，还可以包括对视频帧位置的选择(镜头时间位置的选择)。

在选择视频帧位置时，可以将视频分解为一帧一帧图片后向用户输出，由用户设置选择所述***位置。

或者，对视频的画面图像进行识别后，获取包含适用于目标对象图像***的空白区域的视频帧，将前述视频帧作为***位置。所述视频帧并不限于一帧视频，考虑到视频帧的连贯性，具有前述空白区域的多个连续视频帧都可以作为***帧位置。

或者，在待结合的两个原视频的时间连接处设置***位置，所述***帧位置可以为前段视频中的视频帧，也可以为后段视频中的视频帧。

本实施例的另一实施方式中，在将贯穿角色添加到视频画面中进行结合时，可以按比例调整对象的图像尺寸。具体的，获取***位置的视频画面信息，根据视频画面比例调整所捕捉的目标对象的图像尺寸，将调整后的图像结合到视频内容中。所述结合方式包括覆盖、替换或叠加。

本实施例的另一实施方式中，形成增强合成视频时的步骤如下：

获取目标对象在其所属的原视频中的角色信息；

需要说明的是，在本实施例中，添加贯穿角色的方式，可以是添加贯穿角色的静态图像信息，也可以是添加动态图像信息(视频流)。添加的方式可以是替换(原视频的画面被截取)或者覆盖(原视频画面保留)，参见图3所示，采用上述方式添加贯穿角色的图像数据后，整个合成视频的时间长度并未变化。

或参见图4所述，通过直接增加的方式添加。此时，是在原合成视频的***位置直接加入贯穿角色AX的图像信息(比如视频流)，采用上述方式添加贯穿角色的图像数据后，整个合成视频的时间长度增长了Δt，所述增加时长Δt为5个角色AX的图像数据的总时间长。

另外，在***画面的空间位置添加贯穿角色形象图像的方式，可以是替换或直接增加的方式添加。参见图5所示，示例了采用直接增加的方式在选取的画面空白区域增加贯穿角色图像数据的方式。

参见图6所示，为本发明的另一实施例，提供了一种视频合成客户端。

所述客户端300，包括如下结构：

对象提取模块310，用以对于进行合成处理的多个原视频进行分析，提取各原视频中的角色对象信息。所述的多个，包括两个以上，具体的视频数可以支持用户自定义，也可以有***默认设置。

所述进行合成处理的视频的来源，可以是用户终端自身拍摄获得的视频，也可以是从网络或其他终端获取的视频，其不应作为对本发明的限制。作为举例而非限制，比如，假设进行合成处理的视频有四段，四段都为终端自身拍摄得到的视频；或者四段都为从网络平台获取的视频；或者部分为终端拍摄得到的视频，部分为从网络平台获取的视频。

所述角色，包括人物、动物、植物、微生物等任意能够在视频中被赋予形象的对象。所述的角色对象信息，包括但不限于角色在视频中的外形形象、名称、性别、年龄、职业，以及视频中的角色类别一一比如是主角还是配角、线索人物、群演或旁白。需要说明的是，并非每个原视频都需要设置角色，比如视频可以是风光片段、科技产品展示视频等，此时无需提取角色对象信息。

对象确定模块320，用以在前述角色对象中选取目标对象作为贯穿角色。

所述贯穿角色也不限于一个角色，根据待合成视频的规模和情节需求，可以有多个贯穿角色。比如对于情节多线发展的电源，其贯穿主线的人物可以是多个。

视频建立模块330，用以在合成视频的***位置添加前述贯穿角色形成增强合成视频。

所述的***位置可以是用户在视频画面中选取的位置。

所述预设规则用以限制***位置的画面条件和/或声音条件。

添加所述贯穿角色时，考虑到目标对象存在的视频帧有多个，不同视频帧对应的目标对象的信息很可能是不同的——作为举例而非限制，比如可以是正脸形象、侧脸形象或背影形象，其对应的服装款式、发型发饰、姿势动作也可能不同，因此在添加时，可以从中选取一个最能够表达该目标对象特征的形象图像进行添加；也可以依据原视频的场景风格，从众多图像数据中选取与场景风格符合的目标对象的形象图像进行添加。

优选的，还可以对角色进行再处理，处理后再加入。作为典型方式的举例而非限制，具体可以包括步骤，针对选取的贯穿角色，对贯穿角色在视频中的画面信息进行分析后，对贯穿角色的图像和/或声音进行再处理后进行添加。所述再处理包括对静态图像(图片)、视频流、声音特征(比如音调、语速、音强等)和音频流中的一种或多种进行处理。

其它技术特征参考在前实施例，在此不再赘述。

参见图7所示，为本发明的另一实施例，提供了一种视频合成的通信***。

所述***400包括：

用户终端410，能够采集用户的操作数据，以及输出增强合成视频；

媒体服务器420，能够建立与用户终端420的会话；

视频应用服务器430，连接至媒体服务器430，能够对进行合成处理的多个原视频进行分析，提取各原视频中的角色对象信息，并在前述角色对象中选取目标对象作为贯穿角色，在合成视频的***位置添加前述贯穿角色形成增强合成视频。

进一步，所述***还可以包括编码器/解码器，连接前述媒体服务器420和视频应用服务器430，用以对需要传输的原视频、合成视频和增强合成视频进行压缩和解压缩操作。

用户终端410、媒体服务器420和视频应用服务器430之间可以通过通讯网络进行信息连接，网络形态一般为互联网，也可以局部互联网或者局域网。

所述用户终端410，包括一个用以是输出图像的显示屏，其优选为移动终端，比如智能手机、平板电脑等。

所述媒体服务器420和视频应用服务器430，可以包括有硬件服务器，所述硬件服务器的构成，通常可以包含以下结构：一个或多个处理器，进行计算处理；存储，具体为内存、外存和网络存储，用于保存计算所需要的数据，以及可运行程序；网络接口，用于连接网络；所述硬件单元通过，计算机总线(bus)或者信号线连接。

其它技术特征参考在前实施例，在此不再赘述。

在上面的描述中，虽然本公开内容的各方面的所有组件可以被解释为被装配或***作地连接为一个模块，但是本公开内容并不旨在将其自身限于这些方面。而是，在本公开内容的目标保护范围内，各组件可以以任意数目选择性地且操作性地进行合并。这些组件中的每个组件自身还可以实现成硬件，同时各个组件可以部分地合并或选择性地总体合并且实现成具有用于执行硬件等同体的功能的程序模块的计算机程序。用以构建这种程序的代码或代码段可以由本领域技术人员容易地导出。这种计算机程序可以储存在计算机可读介质中，其可以被运行以实现本公开内容的各方面。计算机可读介质可以包括磁记录介质、光学记录介质以及载波介质。

另外，像“包括”、“囊括”以及“具有”的术语应当默认被解释为包括性的或开放性的，而不是排他性的或封闭性，除非其被明确限定为相反的含义。所有技术、科技或其他方面的术语都符合本领域技术人员所理解的含义，除非其被限定为相反的含义。在词典里找到的公共术语应当在相关技术文档的背景下不被太理想化或太不实际地解释，除非本公开内容明确将其限定成那样。

虽然已出于说明的目的描述了本公开内容的示例方面，但是本领域技术人员应当意识到，上述描述仅是对本发明较佳实施例的描述，并非对本发明范围的任何限定，本发明的优选实施方式的范围包括另外的实现，其中可以不按所述出或讨论的顺序来执行功能。本发明领域的普通技术人员根据上述揭示内容做的任何变更、修饰，均属于权利要求书的保护范围。

Claims

1.一种基于对象的视频合成方法，其特征在于包括如下步骤：

对于进行合成处理的多个原视频进行分析，对于每个原视频，分别提取原视频中的角色对象信息，所述角色对象信息包括角色在原视频中的角色类别；其中，将前述多个原视频依次结合后形成一个合成视频，所述合成视频中进行结合的相邻两个原视频具有时间连接；

在前述提取的角色对象中选取目标对象作为贯穿角色；在合成视频的***位置添加前述贯穿角色形成增强合成视频；其中，在进行结合的两个原视频的时间连接处设置***位置，所述***位置为前段视频中的视频帧和/或后段视频中的视频帧。

2.根据权利要求1所述的方法，其特征在于：在***位置通过替换、覆盖或直接增加的方式添加前述贯穿角色。

3.根据权利要求1所述的方法，其特征在于：还包括步骤，针对选取的贯穿角色，对贯穿角色在视频中的画面信息进行分析后，对贯穿角色的图像和/或声音进行再处理后进行添加；

4.根据权利要求1所述的方法，其特征在于：将提取的角色对象通过可操作选项的方式输出，采集用户的选择操作信息，将用户选择的角色对象作为目标对象。

5.根据权利要求1所述的方法，其特征在于：对提取的角色对象信息进行分析，获取角色对象的特征信息，所述特征信息包括性别、职业、年龄、外表、身份类型、风格特征、场景特征和/或性格特征；

比对前述特征信息，获取角色对象之间的可替代程度；

选取可替代程度高的角色对象作为目标对象。

6.根据权利要求5所述的方法，其特征在于：获取可替代程度的方式为如下方式之一，

7.根据权利要求1所述的方法，其特征在于：获取***位置的视频画面信息，根据视频画面比例调整所捕捉的目标对象的图像尺寸，将调整后的图像结合到视频内容中。

8.根据权利要求7所述的方法，其特征在于：所述结合方式包括覆盖、替换或叠加。

9.根据权利要求1所述的方法，其特征在于：形成增强合成视频时包括步骤，

获取目标对象在其所属的原视频中的角色信息；

判定其它待合成的原视频中是否有与该角色一致或基本一致的相应角色；

判定不具有的时候，将前述目标对象作为虚拟角色或第三人视角角色加入到前述其它待合成的原视频中。

10.一种根据权利要求1所述方法的视频合成客户端，其特征在于包括如下结构：

11.一种根据权利要求1所述方法的视频合成的通信***，其特征在于包括：

媒体服务器，能够建立与用户终端的会话；