CN112367551B

CN112367551B - 视频编辑的方法及装置、电子设备和可读存储介质

Info

Publication number: CN112367551B
Application number: CN202011198204.2A
Authority: CN
Inventors: 芮元乐
Original assignee: Vivo Mobile Communication Co Ltd
Current assignee: Vivo Mobile Communication Co Ltd
Priority date: 2020-10-30
Filing date: 2020-10-30
Publication date: 2023-06-16
Anticipated expiration: 2040-10-30
Also published as: CN112367551A

Abstract

本申请公开了一种视频编辑的方法及装置、电子设备和可读存储介质，属于视频处理领域。该视频编辑的方法包括：显示目标视频的N个视频编辑轨道；其中，所述N个视频编辑轨道包括M个视频帧轨道，同一个视频帧轨道关联所述目标视频中同一个对象在不同视频帧中的对象图像；接收用户对所述N个视频编辑轨道中的目标轨道的第一输入；响应于所述第一输入，对所述目标轨道关联的对象图像进行处理，生成目标文件；其中，N、M均为正整数，M≤N。本申请在在视频编辑过程中，针对视频中的对象进行编辑，使得视频编辑的颗粒度更加精细和灵活。

Description

视频编辑的方法及装置、电子设备和可读存储介质

技术领域

本申请属于视频处理技术领域，具体涉及一种视频编辑的方法及装置、电子设备和可读存储介质。

背景技术

视频编辑技术通常指对视频文件进行剪切、拼凑、添加文字、添加图片、添加音效等编辑操作的技术。目前，视频编辑技术已广泛应用于生活的各个方面。例如通过视频编辑技术制作一些搞笑、逗趣的剪辑视频，发布在各社交网站上供大家日常消遣欣赏。

目前，通过视频编辑技术制作的视频通常为原视频文件中的视频片段，即截取原视频文件中一段连续的视频帧得到的视频片段。

然而，视频文件中每个视频帧中的对象可能有多个，采用现有技术，无法针对其中某一个对象进行编辑操作，使得视频编辑的颗粒度不够精细和灵活。

发明内容

本申请实施例的目的是提供一种视频编辑的方法及装置、电子设备和可读存储介质，能够解决现有技术中视频编辑的颗粒度不够精细和灵活的问题。

为了解决上述技术问题，本申请是这样实现的：

第一方面，本申请实施例提供了一种视频编辑的方法，其特征在于，所述方法包括：

显示目标视频的N个视频编辑轨道；其中，所述N个视频编辑轨道包括M个视频帧轨道，同一个视频帧轨道关联所述目标视频中同一个对象在不同视频帧中的对象图像；

接收用户对所述N个视频编辑轨道中的目标轨道的第一输入；

响应于所述第一输入，对所述目标轨道关联的对象图像进行处理，生成目标文件；

其中，N、M均为正整数，M≤N。

可选地，显示目标视频的N个视频编辑轨道中的M个视频帧轨道，包括：

分别对所述目标视频中的每个视频帧进行图像分割，得到所述目标视频中每个对象对应的对象图像；

将同一对象对应的所有对象图像，按照所述对象图像的帧序号写入同一预设空白轨道中，得到M个视频帧轨道；其中，所述对象图像的帧序号为所述对象图像所属视频帧在所述目标视频中的位置信息；

显示所述M个视频帧轨道。

可选地，所述分别对所述目标视频中的每个视频帧进行图像分割，得到所述目标视频中每个对象对应的对象图像，包括：

将所述目标视频中的每个视频帧按图像内容分割为至少一个对象图像，并对应记录每个对象图像的帧序号；

根据每个对象图像的图像内容，对每个对象图像添加标签；

将具有相同标签的对象图像确定为目标视频中同一对象对应的对象图像。

可选地，所述将同一对象对应的所有对象图像，按照所述对象图像的帧序号写入同一预设空白轨道中，得到M个视频帧轨道，包括:

显示包括T个对象控件的目标界面；其中，每个对象控件指示目标视频中的一个对象；

接收用户对所述T个对象控件中的M个对象控件的第二输入；

响应于所述第二输入，将所述M个对象控件指示的M个对象各自对应的所有对象图像，按照所述对象图像的帧序号分别写入M个预设空白轨道中，得到M个视频帧轨道；

其中，T为正整数，T≥M。

可选地，在M大于1的情况下，所述显示所述M个视频帧轨道，包括：

按照所述M个视频帧轨道中对象图像的数量从大到小的顺序，在目标界面中依次显示所述M个视频帧轨道。

可选地，所述将同一对象对应的所有对象图像，按照所述对象图像的帧序号写入同一预设空白轨道中，得到M个视频帧轨道，包括：

基于对象图像的美学特征，对每个对象图像进行评分，得到每一所述对象图像的分数；

分别计算每一对象对应的所有对象图像的分数的平均值，得到每一所述对象的分数；

将同一目标对象对应的所有对象图像，按照所述对象图像的帧序号写入同一预设空白轨道中，得到M个视频帧轨道，其中，所述目标对象为分数大于预设阈值的对象。

可选地，所述接收用户对所述N个视频编辑轨道中的目标轨道的第一输入，包括：

接收用户对所述目标轨道上的K张对象图像的第一输入；其中，K为大于1的整数；

所述对所述目标轨道关联的对象图像进行处理，生成目标文件，包括：

对所述第一输入指示的所有对象图像进行图像合成，生成一个静态图像、动态图像或视频。

可选地，所述N个视频编辑轨道还包括L个语音轨道；其中，L为正整数，L＜N；

其中，同一个语音轨道关联所述目标视频中同一个声源对象的语音数据。

可选地，在所述目标轨道包括一个视频帧轨道以及一个语音轨道的情况下，所述接收用户对所述N个视频编辑轨道中的目标轨道的第一输入，包括：

接收用户对所述目标轨道中视频帧轨道上的对象图像以及所述目标轨道中语音轨道的第一输入；

将所述第一输入指示的语音轨道对应的所述语音数据中与所述第一输入指示的对象图像位于同一时间窗口内的语音信息转换为文字信息；

将所述文字信息合成至所述第一输入指示的对象图像上，生成一个静态图像或动态图像。

第二方面，本申请实施例提供了一种视频编辑的装置，所述装置包括：

显示模块，用于显示目标视频的N个视频编辑轨道；其中，所述N个视频编辑轨道包括M个视频帧轨道，同一个视频帧轨道关联所述目标视频中同一个对象在不同视频帧中的对象图像；

第一接收模块，用于接收用户对所述N个视频编辑轨道中的目标轨道的第一输入；

第一响应模块，用于响应于所述第一输入，对所述目标轨道关联的对象图像进行处理，生成目标文件；

其中，N、M均为正整数，M≤N。

可选地，所述显示模块，包括：

图像分割单元，用于分别对所述目标视频中的每个视频帧进行图像分割，得到所述目标视频中每个对象对应的对象图像；

视频帧轨道单元，用于将同一对象对应的所有对象图像，按照所述对象图像的帧序号写入同一预设空白轨道中，得到M个视频帧轨道；其中，所述对象图像的帧序号为所述对象图像所属视频帧在所述目标视频中的位置信息；

显示单元，用于显示所述M个视频帧轨道。

可选地，所述图像分割单元，具体用于将所述目标视频中的每个视频帧按图像内容分割为至少一个对象图像，并对应记录每个对象图像的帧序号；根据每个对象图像的图像内容，对每个对象图像添加标签；将具有相同标签的对象图像确定为目标视频中同一对象对应的对象图像。

可选地，所述视频帧轨道单元，具体用于显示包括T个对象控件的目标界面；其中，每个对象控件指示目标视频中的一个对象；接收用户对所述T个对象控件中的M个对象控件的第二输入；响应于所述第二输入，将所述M个对象控件指示的M个对象各自对应的所有对象图像，按照所述对象图像的帧序号分别写入M个预设空白轨道中，得到M个视频帧轨道；其中，T为正整数，T≥M。

可选地，在M大于1的情况下，所述显示单元，具体用于按照所述M个视频帧轨道中对象图像的数量从大到小的顺序，在目标界面中依次显示所述M个视频帧轨道。

可选地，所述视频帧轨道单元，具体用于基于对象图像的美学特征，对每个对象图像进行评分，得到每一所述对象图像的分数；分别计算每一对象对应的所有对象图像的分数的平均值，得到每一所述对象的分数；将同一目标对象对应的所有对象图像，按照所述对象图像的帧序号写入同一预设空白轨道中，得到M个视频帧轨道，其中，所述目标对象为分数大于预设阈值的对象。

可选地，所述第一接收模块，具体用于接收用户对所述目标轨道上的K张对象图像的第一输入；其中，K为大于1的整数；

所述第一响应模块，具体用于对所述第一输入指示的所有对象图像进行图像合成，生成一个静态图像、动态图像或视频。

可选地，在所述目标轨道包括一个视频帧轨道以及一个语音轨道的情况下，所述第一接收模块，具体用于接收用户对所述目标轨道中视频帧轨道上的对象图像以及所述目标轨道中语音轨道的第一输入；

所述第一响应模块，具体用于将所述第一输入指示的语音轨道对应的所述语音数据中与所述第一输入指示的对象图像位于同一时间窗口内的语音信息转换为文字信息；将所述文字信息合成至所述第一输入指示的对象图像上，生成一个静态图像或动态图像。

第三方面，本申请实施例提供了一种电子设备，该电子设备包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令，所述程序或指令被所述处理器执行时实现如第一方面所述的方法的步骤。

第四方面，本申请实施例提供了一种可读存储介质，所述可读存储介质上存储程序或指令，所述程序或指令被处理器执行时实现如第一方面所述的方法的步骤。

第五方面，本申请实施例提供了一种芯片，所述芯片包括处理器和通信接口，所述通信接口和所述处理器耦合，所述处理器用于运行程序或指令，实现如第一方面所述的方法。

在本申请实施例中，通过不同视频编辑轨道展示目标视频中不同对象对应的对象图像，方便用户针对于每个对象的对象图像进行操作。通过对视频编辑轨道中的目标轨道进行输入，可以对目标轨道关联的对象图像进行处理，得到目标文件，从而完成对目标视频的视频编辑操作。使得视频编辑的过程简单化；并且实现了在视频编辑过程中，精细化的编辑视频中的每个对象，使得视频编辑的颗粒度更加精细和灵活。

附图说明

图1是本申请实施例提供的视频编辑的方法的步骤流程图；

图2是本申请实施例提供的视频帧轨道的展示示意图；

图3是本申请实施例提供的目标界面展示示意图之一；

图4是本申请实施例提供的删除对象图像的示意图；

图5是本申请实施例提供的目标文件的文件格式示意图；

图6是本申请实施例提供的视频编辑轨道的展示示意图；

图7是本申请实施例提供的目标界面展示示意图之二；

图8是本申请实施例提供的视频编辑的装置的结构框图；

图9是本申请实施例提供的电子设备的硬件结构示意图之一；

图10是本申请实施例提供的电子设备的硬件结构示意图之二。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象，而不用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施，且“第一”、“第二”等所区分的对象通常为一类，并不限定对象的个数，例如第一对象可以是一个，也可以是多个。此外，说明书以及权利要求中“和/或”表示所连接对象的至少其中之一，字符“/”，一般表示前后关联对象是一种“或”的关系。

下面结合附图，通过具体的实施例及其应用场景对本申请实施例提供的视频编辑的方法进行详细地说明。

如图1所示，为本申请实施例提供的视频编辑的方法的步骤流程图，该视频编辑的方法包括：

步骤101：显示目标视频的N个视频编辑轨道。

本步骤中，N个视频编辑轨道包括M个视频帧轨道，同一个视频帧轨道关联目标视频中同一个对象在不同视频帧中的对象图像，N、M均为正整数，M≤N。这里，视频编辑轨道可以为轨道样式的控件，以视频编辑轨道为视频帧轨道为例。该视频编辑轨道可以理解为将同一对象对应的对象图像排列显示在一条直线上形成的轨道。该视频编辑轨道可以展示对象图像，还可以接收用户的输入。

目标视频中的对象可以理解为播放目标视频时，播放画面中的人物、动物或物品。其中，不同播放画面中相同的人物、动物或物品属于相同的对象。这里，显示的视频编辑轨道中可以包括全部或者部分对象各自对应的视频帧轨道，即M小于或者等于目标视频中对象的数量，但不限于此。其中，每个对象对应的视频帧轨道包括每个对象在不同视频帧中的所有对象图像。

当然目标视频中除视频帧之外，还可以包括其他类型的数据，例如语音数据，但不限于此。因此在生成视频编辑轨道时，可以仅针对视频帧，生成视频帧轨道；也可以在生成视频帧轨道的同时，根据其他类型的数据生成包含其他数据内容的轨道。目标视频可以为一个或者多个视频文件。也就是说可以针对于至少一个视频文件同时进行视频编辑。

较佳地，可以由用户触发视频编辑轨道的显示。例如在用户选择目标视频之后，显示多轨道编辑控件；在接收到用户对多轨道编辑控件的输入之后，执行步骤101。这里，对多轨道编辑控件的输入可以为点击输入、滑动输入、长按输入等。

步骤102：接收用户对N个视频编辑轨道中的目标轨道的第一输入。

本步骤中，用户对哪个视频编辑轨道进行第二输入，则哪个视频编辑轨道就是目标轨道。也就是说目标轨道包括N个视频编辑轨道中的部分或者全部。较佳地，目标轨道包括至少一个视频帧轨道。第一输入可以为点击输入、滑动输入、长按输入等单个输入，也可以是连续的多个输入，例如连续的多次点击输入。

步骤103：响应于第一输入，对目标轨道关联的对象图像进行处理，生成目标文件。

本步骤中，生成的目标文件中包括目标轨道关联的对象图像。针对于每一个目标轨道，目标文件可以包括目标轨道关联的部分或者全部数据内容。

本申请实施例中，通过不同视频编辑轨道展示目标视频中不同对象对应的对象图像，方便用户针对于每个对象的对象图像进行操作。通过对视频编辑轨道中的目标轨道进行输入，可以对目标轨道关联的对象图像进行处理，得到目标文件，从而完成对目标视频的视频编辑操作。使得视频编辑的过程简单化；并且实现了在视频编辑过程中，精细化的编辑视频中的每个对象，使得视频编辑的颗粒度更加精细和灵活。

分别对目标视频中的每个视频帧进行图像分割，得到目标视频中每个对象对应的对象图像。

本步骤中，图像分割包括：全景分割、实例分割或者语义分割。较佳地，采用全景分割的方式对目标视频中的视频帧进行图像分割。较佳的，在对视频帧进行图像分割得到对象图像时，还可以记录每个对象图像所属的视频帧在目标视频中的帧位置，即帧序号。具体的，分别对目标视频中的每个视频帧进行图像分割，得到目标视频中每个对象对应的对象图像，包括：将目标视频中的每个视频帧按图像内容分割为至少一个对象图像，并对应记录每个对象图像的帧序号；根据每个对象图像的图像内容，对每个对象图像添加标签；将具有相同标签的对象图像确定为目标视频中同一对象对应的对象图像。也就是说，对目标视频中的每一视频帧进行全景分割，从而得到大量对象图像，并记录每个对象图像的帧序号；然后对对象图像进行聚类打标签，确定对应同一对象的对象图像。这里的标签包括人物、动物等视频中可以识别的物体。

将同一对象对应的所有对象图像，按照对象图像的帧序号写入同一预设空白轨道中，得到M个视频帧轨道。

本步骤中，对象图像的帧序号为对象图像所属视频帧在目标视频中的位置信息。目标视频中对象的数量可能会很多，可以针对其中的部分或者全部生成各自对应的视频帧轨道。参见图2所示，目标视频201中存在三个不同的人物，即三个不同的对象；可以针对三个不同的对象，生成各自对应的视频帧轨道202。较佳的，M个视频帧轨道具有相同的时间轴，每个对象图像按照各自对应的帧序号排列在视频帧轨道上。

显示M个视频帧轨道。

本申请实施例中，通过图像分割的方式将目标视频的视频帧中的对象图像分割出来，实现了分离视频文件中不同对象对应的图像内容。将同一对象对应的所有对象图像写入同一预设空白轨道中，生成视频帧轨道，从而方便用户针对同一对象的图像内容进行操作。

可选地，将同一对象对应的所有对象图像，按照对象图像的帧序号写入同一预设空白轨道中，得到M个视频帧轨道，包括：

显示包括T个对象控件的目标界面；其中，每个对象控件指示目标视频中的一个对象。

本步骤中，T为正整数，较佳地，T等于目标视频中对象的数量。对象控件可以显示为其指示的对象对应的对象图像。如图3，在目标视频中的对象数量为3个的情况下，T个对象控件包括第一对象控件301，第二对象控件302，第三对象控件303。

接收用户对T个对象控件中的M个对象控件的第二输入。

本步骤中，此M与步骤101中的M相同，可以理解的是T≥M。第二输入可以为点击输入、滑动输入、长按输入等。

响应于第二输入，将M个对象控件指示的M个对象各自对应的所有对象图像，按照对象图像的帧序号分别写入M个预设空白轨道中，得到M个视频帧轨道。

本步骤中，仅针对用户输入的对象控件，生成视频帧轨道。继续参见图3，当用户对第一对象控件301和第二对象控件302进行第二输入时，则只需根据第一对象控件301指示的对象对应的所有对象图像生成第一视频帧轨道；并根据第二对象控件302指示的对象对应的所有对象图像生成第二视频帧轨道即可。

本申请实施例中，可以根据用户需求，生成包含用户所选对象的对象图像视频帧轨道；避免针对所有对象对应的对象图像均生成视频帧轨道，造成视频帧轨道的数量过多，从而影响用户编辑和体验。

可选地，在M大于1的情况下，显示M个视频帧轨道，包括：

按照M个视频帧轨道中对象图像的数量从大到小的顺序，在目标界面中依次显示M个视频帧轨道。

本申请实施例中，将视频帧轨道按照各自关联的对象图像的数量进行排序显示，方便用户获知目标视频中各对象在目标视频帧的出镜率，同时方便用户对出镜率高的对象对应的对象图像进行编辑。

基于对象图像的美学特征，对每个对象图像进行评分，得到每一对象图像的分数。

本步骤中，美学特征包括拍摄对象图像时的拍摄参数以及对象图像本身的图像参数。这里对象图像本身的图像参数包括但不限于清晰度、构图信息。可以预先设定评分规则，在获取对象图像的美学特征之后，根据评分规则对对象图像进行评分。这里的评分规则可以根据用户需求自行设定，例如可以是关于对象序列中各元素的展示效果、图像清晰度等方面的规则，但不限于此。例如AI(人工智能，Artificial Intelligence)美学打分规则。

分别计算每一对象对应的所有对象图像的分数的平均值，得到每一对象的分数。

将同一目标对象对应的所有对象图像，按照对象图像的帧序号写入同一预设空白轨道中，得到M个视频帧轨道。

本步骤中，目标对象为分数大于预设阈值的对象。这里，由于目标对象对应的所有对象图像的分数平均值大于预设阈值，说明目标对象对应的所有对象图像符合美学要求或者图像质量符合要求。

本申请实施例中，通过对象图像的美学特征，对每个对象图像进行评分；进而确定对每个对象的分数。然后仅针对分数超过预设阈值的目标对象的对象图像，生成对应的视频帧轨道。即，仅针对更加符合美学要求的对象图像生成视频帧轨道，避免针对所有对象对应的对象图像均生成视频帧轨道，造成视频帧轨道的数量过多，从而影响用户编辑和体验。

可选地，接收用户对N个视频编辑轨道中的目标轨道的第一输入，包括：接收用户对目标轨道上的K张对象图像的第一输入。

目标轨道为视频帧轨道，K为大于1的整数。第一输入可以为点击输入、滑动输入、长按输入等。这里，用户可以在对目标轨道上的K张对象图像进行第一输入之前，对显示的视频帧轨道上显示的对象图像进行其他输入，从而对视频帧轨道上的对象图像进行编辑。例如，通过长按输入可以选择相同或不同视频帧轨道上的多张对象图像。通过滑动输入可以删除视频帧轨道上的任意对象图像；通过拖动输入可以将视频帧轨道上的任意两个对象图像调换位置或者合成一个图像。较佳的，在两个对象图像位于同一视频帧轨道时，通过拖动输入可以将两个对象图像的位置互换。在两个对象图像位于不同视频帧轨道时，通过拖动输入可以将两个对象图像合成一个图像。如图4所示，显示有三个视频帧轨道，即第一视频帧轨道41，第二视频帧轨道42以及第三视频帧轨道43；在对第一视频帧轨道41中的第一帧位置处的对象图像向上滑动时，将删除该对象图像。

还可以通过单击输入或者双击输入选中对象图像。还可以通过双击视频帧轨道上的对象图像锁定视频帧轨道。在锁定某一视频帧轨道的情况下，编辑其他未被锁定的视频帧轨道时，若被锁定的视频帧轨道的对应位置的元素存在，则显示在正在编辑的未被锁定的视频帧轨道上。

通过其他输入对视频帧轨道上的对象图像进行编辑，可以理解为直接对目标视频进行编辑。较佳地，在对目标视频进行编辑之后可以直接保存编辑之后的目标视频。

对目标轨道关联的对象图像进行处理，生成目标文件，包括：对第一输入指示的所有对象图像进行图像合成，生成一个静态图像、动态图像或视频。

这里，可以显示包括多个选项的选择控件；其中每个选项对应一种文件类型，根据用户选择的选项，生成对应类型的目标文件，但不限于此。如图5所示，在用户对对象图像进行第一输入之后进行保存时，通过对话框提供目标文件的文件格式。若用户在每个视频帧轨道中选择一张显示效果较好的对象图像，通过点击照片，可以将选择的对象图像合成一张静态图像。若用户在同一个视频帧轨道中选择多张对象图像，通过点击动态照片，可以将选择的对象图像合成一个动态图像。较佳的，动态图像包括一照片封面和一段视频片段，当点击照片封面时，则播放该视频片段。若用户在同一个视频帧轨道中选择多张对象图像，通过点击视频，可以将选择的对象图像合成一段视频。

本申请实施例中，用户可以针对以对象为单位排列显示的目标编辑轨道进行编辑，自行挑选多张对象图像进行自由组合。同时可以提供给用户多种文件格式，将用户挑选的对象图像合成一个静态图像、动态图像或视频，不仅满足了用户对目标文件的文件类型的需求，同时也提升了用户编辑过程中的乐趣。

可选地，N个视频编辑轨道还包括L个语音轨道；其中，L为正整数，L＜N；

其中，同一个语音轨道关联目标视频中同一个声源对象的语音数据。

本步骤中，目标视频中还包括语音数据。在生成视频帧轨道的同时，根据其中的语音数据生成语音轨道。关于视频帧轨道的相关描述可参照前文描述，在此不再赘述。关于声源对象，举例而言，在仅有两个人参与的辩论视频中，声源对象为辩论视频中的两个人。

在生成语音轨道时，先从目标视频中分离出语音数据；然后将语音数据按照声源对象的不同分成至少一份单声源数据，根据每份单声源数据生成一对应的语音轨道。如图6所示，根据目标视频601可以生成三个视频帧轨道602和三个语音轨道603。当然还可以显示包括多个对象控件的目标界面，通过对不同的对象控件进行输入，从而显示不同的视频帧轨道或者语音轨道。其中，每个对象控件指示目标视频中的一个对象。这里的对象可以是视频帧中的对象或者语音数据中的声源对象。如图7所示，目标界面包括第一对象控件701、第二对象控件702、第三对象控件703、第四对象控件704、第五对象控件705、第六对象控件706；其中，第一对象控件701、第二对象控件702以及第三对象控件703分别指示的对象均为视频帧中的对象；第四对象控件704、第五对象控件705、第六对象控件706分别指示的对象均为语音数据中的声源对象。

这里，在目标轨道包括至少一个语音轨道以及至少一个视频帧轨道的情况下，在生成目标文件时，可以将目标轨道中视频帧轨道关联的图像和语音轨道关联的语音数据合成为目标文件。或者先将语音轨道关联的语音数据转换为文字信息之后再与视频帧轨道关联的图像合成。例如在将不同视频帧轨道上的对象图像合成一张静态图像时，若同时选择了语音轨道上的语音数据，可以将选择的语音数据转换成文字，将文字添加到合成的静态图像上。具体的，在目标轨道包括一个视频帧轨道以及一个语音轨道的情况下，接收用户对N个视频编辑轨道中的目标轨道的第一输入，包括：接收用户对目标轨道中视频帧轨道上的对象图像以及目标轨道中语音轨道的第一输入；

对目标轨道关联的对象图像进行处理，生成目标文件，包括：将第一输入指示的语音轨道对应的语音数据中与第一输入指示的对象图像位于同一时间窗口内的语音信息转换为文字信息；将文字信息合成至第一输入指示的对象图像上，生成一个静态图像或动态图像。

这里，视频帧轨道与语音轨道具有相同的时间轴，并且均为目标视频的时间轴。例如视频帧轨道上连续的多张对象图像出现在目标视频的1分12秒到1分50秒之间，则1分12秒到1分50秒之间的时间区间为该连续的多张对象图像的时间窗口。在语音轨道对应的语音数据中确定的该时间窗口内的语音信息，即为将语音数据中1分12秒到1分50秒之间内的语音信息。当然针对于视频帧轨道上的一张对象图像，其所位于的时间窗口即为其所属视频帧的帧序号。

当然，也可以仅针对语音轨道进行编辑，生成仅包含语音轨道关联的语音数据的目标文件。例如，选择单个语音轨道或者多个语音轨道，进行语音的合成或拆解，保存合成或拆解后的语音文件。可以生成自定义的配乐并结合文本生成对应的歌词。还可以将选择的语音轨道关联的语音数据转换为文字，保存为文本文件。如果对每个语音轨道关联的语音数据标记发言者，还可以提取发言人的名字进行排列组合，生成对应的对话记录。

本申请实施例中，通过不同视频编辑轨道展示目标视频中不同对象对应的对象图像以及不同声源对象对应的语音数据，方便用户针对于每个对象的对象图像以及每个声源对象的语音数据进行操作。通过对视频编辑轨道中的目标轨道进行输入，可以对目标轨道关联的对象图像以及语音数据进行处理，得到目标文件，从而完成对目标视频的视频编辑操作。进而实现了在视频编辑过程中，精细化的编辑视频中的每个对象以及声源对象，使得视频编辑的颗粒度更加精细和灵活。

需要说明的是，本申请实施例提供的视频编辑的方法，执行主体可以为视频编辑的装置，或者该视频编辑的装置中的用于执行视频编辑的方法的控制模块。本申请实施例中以视频编辑的装置执行视频编辑的方法为例，说明本申请实施例提供的视频编辑的装置。

如图8所示，本申请实施例还提供了一种视频编辑的装置，该装置包括：

显示模块801，用于显示目标视频的N个视频编辑轨道；其中，N个视频编辑轨道包括M个视频帧轨道，同一个视频帧轨道关联目标视频中同一个对象在不同视频帧中的对象图像；

第一接收模块802，用于接收用户对N个视频编辑轨道中的目标轨道的第一输入；

第一响应模块803，用于响应于第一输入，对目标轨道关联的对象图像进行处理，生成目标文件；

其中，N、M均为正整数，M≤N。

可选地，显示模块801，包括：

图像分割单元，用于分别对目标视频中的每个视频帧进行图像分割，得到目标视频中每个对象对应的对象图像；

视频帧轨道单元，用于将同一对象对应的所有对象图像，按照对象图像的帧序号写入同一预设空白轨道中，得到M个视频帧轨道；其中，对象图像的帧序号为对象图像所属视频帧在目标视频中的位置信息；

显示单元，用于显示M个视频帧轨道。

可选地，图像分割单元，具体用于将目标视频中的每个视频帧按图像内容分割为至少一个对象图像，并对应记录每个对象图像的帧序号；根据每个对象图像的图像内容，对每个对象图像添加标签；将具有相同标签的对象图像确定为目标视频中同一对象对应的对象图像。

可选地，视频帧轨道单元，具体用于显示包括T个对象控件的目标界面；其中，每个对象控件指示目标视频中的一个对象；接收用户对T个对象控件中的M个对象控件的第二输入；响应于第二输入，将M个对象控件指示的M个对象各自对应的所有对象图像，按照对象图像的帧序号分别写入M个预设空白轨道中，得到M个视频帧轨道；其中，T为正整数，T≥M。

可选地，在M大于1的情况下，显示单元，具体用于按照M个视频帧轨道中对象图像的数量从大到小的顺序，在目标界面中依次显示M个视频帧轨道。

可选地，视频帧轨道单元，具体用于基于对象图像的美学特征，对每个对象图像进行评分，得到每一对象图像的分数；分别计算每一对象对应的所有对象图像的分数的平均值，得到每一对象的分数；将同一目标对象对应的所有对象图像，按照对象图像的帧序号写入同一预设空白轨道中，得到M个视频帧轨道，其中，目标对象为分数大于预设阈值的对象。

可选地，第一接收模块802，具体用于接收用户对目标轨道上的K张对象图像的第一输入；其中，K为大于1的整数；

第一响应模块803，具体用于对第一输入指示的所有对象图像进行图像合成，生成一个静态图像、动态图像或视频。

可选地，在目标轨道包括一个视频帧轨道以及一个语音轨道的情况下，第一接收模块802，具体用于接收用户对目标轨道中视频帧轨道上的对象图像以及目标轨道中语音轨道的第一输入；

第一响应模块803，具体用于将第一输入指示的语音轨道对应的语音数据中与第一输入指示的对象图像位于同一时间窗口内的语音信息转换为文字信息；将文字信息合成至第一输入指示的对象图像上，生成一个静态图像或动态图像。

本申请实施例中的视频编辑的装置可以是装置，也可以是终端中的部件、集成电路、或芯片。该装置可以是移动电子设备，也可以为非移动电子设备。示例性的，移动电子设备可以为手机、平板电脑、笔记本电脑、掌上电脑、车载电子设备、可穿戴设备、超级移动个人计算机(ultra-mobile personal computer，UMPC)、上网本或者个人数字助理(personaldigital assistant，PDA)等，非移动电子设备可以为服务器、网络附属存储器(NetworkAttached Storage，NAS)、个人计算机(personal computer，PC)、电视机(television，TV)、柜员机或者自助机等，本申请实施例不作具体限定。

本申请实施例中的视频编辑的装置可以为具有操作***的装置。该操作***可以为安卓(Android)操作***，可以为iOS操作***，还可以为其他可能的操作***，本申请实施例不作具体限定。

本申请实施例提供的视频编辑的装置能够实现图1的方法实施例实现的各个过程，为避免重复，这里不再赘述。

可选地，如图9所示，本申请实施例还提供一种电子设备900，包括处理器901，存储器902，存储在存储器902上并可在处理器901上运行的程序或指令，该程序或指令被处理器901执行时实现上述视频编辑的方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

需要说明的是，本申请实施例中的电子设备包括上述的移动电子设备和非移动电子设备。

图10为实现本申请实施例的一种电子设备的硬件结构示意图。

该电子设备1000包括但不限于：射频单元1001、网络模块1002、音频输出单元1003、输入单元1004、传感器1005、显示单元1006、用户输入单元1007、接口单元1008、存储器1009、以及处理器1010等部件。

本领域技术人员可以理解，电子设备1000还可以包括给各个部件供电的电源(比如电池)，电源可以通过电源管理***与处理器1010逻辑相连，从而通过电源管理***实现管理充电、放电、以及功耗管理等功能。图10中示出的电子设备结构并不构成对电子设备的限定，电子设备可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置，在此不再赘述。

显示单元1006，用于显示目标视频的N个视频编辑轨道；其中，N个视频编辑轨道包括M个视频帧轨道，同一个视频帧轨道关联目标视频中同一个对象在不同视频帧中的对象图像。

用户输入单元1007，用于接收用户对N个视频编辑轨道中的目标轨道的第一输入。

处理器1010，用于响应于第一输入，对目标轨道关联的对象图像进行处理，生成目标文件。

其中，N、M均为正整数，M≤N。

应理解的是，本申请实施例中，输入单元1004可以包括图形处理器(GraphicsProcessing Unit，GPU)10041和麦克风10042，图形处理器10041对在视频捕获模式或图像捕获模式中由图像捕获装置(如摄像头)获得的静态图片或视频的图像数据进行处理。显示单元1006可包括显示面板10061，可以采用液晶显示器、有机发光二极管等形式来配置显示面板10061。用户输入单元1007包括触控面板10071以及其他输入设备10072。触控面板10071，也称为触摸屏。触控面板10071可包括触摸检测装置和触摸控制器两个部分。其他输入设备10072可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆，在此不再赘述。存储器1009可用于存储软件程序以及各种数据，包括但不限于应用程序和操作***。处理器1010可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作***、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器1010中。

本申请实施例还提供一种可读存储介质，所述可读存储介质上存储有程序或指令，该程序或指令被处理器执行时实现上述视频编辑的方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

其中，所述处理器为上述实施例中所述的电子设备中的处理器。所述可读存储介质，包括计算机可读存储介质，如计算机只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等。

本申请实施例另提供了一种芯片，所述芯片包括处理器和通信接口，所述通信接口和所述处理器耦合，所述处理器用于运行程序或指令，实现上述视频编辑的方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

应理解，本申请实施例提到的芯片还可以称为***级芯片、***芯片、芯片***或片上***芯片等。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。此外，需要指出的是，本申请实施方式中的方法和装置的范围不限按示出或讨论的顺序来执行功能，还可包括根据所涉及的功能按基本同时的方式或按相反的顺序来执行功能，例如，可以按不同于所描述的次序来执行所描述的方法，并且还可以添加、省去、或组合各种步骤。另外，参照某些示例所描述的特征可在其他示例中被组合。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本申请各个实施例所述的方法。

上面结合附图对本申请的实施例进行了描述，但是本申请并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本申请的启示下，在不脱离本申请宗旨和权利要求所保护的范围情况下，还可做出很多形式，均属于本申请的保护之内。

Claims

1.一种视频编辑的方法，其特征在于，所述方法包括：

接收用户对所述N个视频编辑轨道中的目标轨道的第一输入；

其中，N、M均为正整数，M≤N；

显示目标视频的N个视频编辑轨道中的M个视频帧轨道，包括：

将同一目标对象对应的所有对象图像，按照所述对象图像的帧序号写入同一预设空白轨道中，得到M个视频帧轨道，其中，所述目标对象为分数大于预设阈值的对象；其中，所述对象图像的帧序号为所述对象图像所属视频帧在所述目标视频中的位置信息；

显示所述M个视频帧轨道。

2.根据权利要求1所述的方法，其特征在于，所述分别对所述目标视频中的每个视频帧进行图像分割，得到所述目标视频中每个对象对应的对象图像，包括：

根据每个对象图像的图像内容，对每个对象图像添加标签；

3.根据权利要求1所述的方法，其特征在于，在M大于1的情况下，所述显示所述M个视频帧轨道，包括：

4.根据权利要求1所述的方法，其特征在于，所述接收用户对所述N个视频编辑轨道中的目标轨道的第一输入，包括：

5.根据权利要求1所述的方法，其特征在于，所述N个视频编辑轨道还包括L个语音轨道；其中，L为正整数，L＜N；

6.根据权利要求5所述的方法，其特征在于，在所述目标轨道包括一个视频帧轨道以及一个语音轨道的情况下，所述接收用户对所述N个视频编辑轨道中的目标轨道的第一输入，包括：

7.一种视频编辑的装置，其特征在于，所述装置包括：

其中，N、M均为正整数，M≤N；

所述显示模块，包括：

显示单元，用于显示所述M个视频帧轨道；

所述装置还用于：基于对象图像的美学特征，对每个对象图像进行评分，得到每一所述对象图像的分数；分别计算每一对象对应的所有对象图像的分数的平均值，得到每一所述对象的分数；将同一目标对象对应的所有对象图像，按照所述对象图像的帧序号写入同一预设空白轨道中，得到M个视频帧轨道，其中，所述目标对象为分数大于预设阈值的对象。

8.一种电子设备，其特征在于，包括处理器，存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令，所述程序或指令被所述处理器执行时实现如权利要求1-6任一项所述的视频编辑的方法的步骤。

9.一种可读存储介质，其特征在于，所述可读存储介质上存储程序或指令，所述程序或指令被处理器执行时实现如权利要求1-6任一项所述的视频编辑的方法的步骤。