CN111757175A

CN111757175A - 视频处理方法及装置

Info

Publication number: CN111757175A
Application number: CN202010514455.0A
Authority: CN
Inventors: 缪刚
Original assignee: Vivo Mobile Communication Co Ltd
Current assignee: Vivo Mobile Communication Co Ltd
Priority date: 2020-06-08
Filing date: 2020-06-08
Publication date: 2020-10-09

Abstract

本申请公开了一种视频处理方法和装置，属于视频处理技术领域。该方法包括：接收用户的第一输入，所述第一输入包括选择至少一个视频片段；获取所述至少一个视频片段的目标属性，所述目标属性包括：所述至少一个视频片段中目标对象的目标动作，和/或，所述至少一个视频片段中的目标场景；获取与所述目标属性匹配的目标特效，以及所述目标特效在所述至少一个视频片段中所处的目标位置；在所述至少一个视频片段中的所述目标位置，添加所述目标特效，生成目标视频。本申请在对视频添加特效时，可以简化用户操作，并提升添加的特效与视频内容的匹配度，提升视频播放效果。

Description

视频处理方法及装置

技术领域

本申请属于视频处理领域，具体涉及一种视频处理方法、装置。

背景技术

目前，电子设备的应用程序的类型越来越多，视频类程序也更加受用户欢迎。

目前的视频类程序可以提供视频编辑功能，用户通过使用该视频编辑功能可以对视频添加特效。但是，不论是对单个视频片段添加特效，还是对多个视频片段添加特效，在现有技术中的各类视频程序中，用户只可以从视频程序提供的各类特效中手动选择某种特效，来达到对视频片段添加特效的目的。但是用户主观选择的这种特效在大多数情况下并不适合该视频片段的内容，因此，手动添加特效的方式容易存在特效与视频内容匹配度较低的问题，进而影响视频播放效果。

所以，现有技术中的视频编辑方案在对视频添加特效时，普遍存在着操作繁琐以及特效与视频内容匹配度较低，进而影响视频播放效果的问题。

发明内容

本申请实施例的目的是提供一种视频处理方法、装置，能够解决现有技术中的视频编辑方案在对视频添加特效时，所存在的操作繁琐以及特效与视频内容匹配度较低，进而影响视频播放效果的问题。

为了解决上述技术问题，本申请是这样实现的：

第一方面，本申请实施例提供了一种视频处理方法，该方法包括：

接收用户的第一输入，所述第一输入包括：选择至少一个视频片段；

获取所述至少一个视频片段的目标属性，所述目标属性包括：所述至少一个视频片段中目标对象的目标动作，和/或，所述至少一个视频片段中的目标场景；

获取与所述目标属性匹配的目标特效，以及所述目标特效在所述至少一个视频片段中所处的目标位置；

在所述至少一个视频片段中的所述目标位置添加所述目标特效，生成目标视频。

第二方面，本申请实施例提供了一种视频处理装置，该装置包括：

接收模块，用于接收用户的第一输入，所述第一输入包括：选择至少一个视频片段；

第一获取模块，用于获取所述至少一个视频片段的目标属性，所述目标属性包括：所述至少一个视频片段中目标对象的目标动作，和/或，所述至少一个视频片段中的目标场景；

第二获取模块，用于获取与所述目标属性匹配的目标特效，以及所述目标特效在所述至少一个视频片段中所处的目标位置；

处理模块，用于在所述至少一个视频片段中的所述目标位置添加所述目标特效，生成目标视频。

第三方面，本申请实施例提供了一种电子设备，该电子设备包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令，所述程序或指令被所述处理器执行时实现如第一方面所述的方法的步骤。

第四方面，本申请实施例提供了一种可读存储介质，所述可读存储介质上存储程序或指令，所述程序或指令被处理器执行时实现如第一方面所述的方法的步骤。

第五方面，本申请实施例提供了一种芯片，所述芯片包括处理器和通信接口，所述通信接口和所述处理器耦合，所述处理器用于运行程序或指令，实现如第一方面所述的方法。

在本申请实施例中，通过对待添加视频特效的至少一个视频片段，获取该至少一个视频片段中目标对象的目标动作，和/或，该至少一个视频片段中的目标场景，并获取与该目标动作和/或该目标场景匹配的目标特效，使得对该至少一个视频片段所添加的目标特效能够与该视频片段中目标对象的目标动作和/或该视频片段所处的场景相匹配，使得视频特效能够与被添加特效的视频内容相匹配；此外，还可以获取该目标特效在该至少一个视频片段中所处的目标位置，并在该目标位置添加该目标特效，生成目标视频，使得目标特效的添加位置也能够与视频内容相适应，因此，提升了视频特效与被添加特效的视频内容之间的匹配度，提升了视频特效的编辑效果。

附图说明

图1是本申请一个实施例的视频处理方法的流程图；

图2是本申请一个实施例的视频片段的示意图；

图3是本申请一个实施例的视频处理装置的框图；

图4是本申请一个实施例的电子设备的硬件结构示意图。

图5是本申请另一个实施例的电子设备的硬件结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象，而不用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施，且“第一”、“第二”等所区分的对象通常为一类，并不限定对象的个数，例如第一对象可以是一个，也可以是多个。此外，说明书以及权利要求中“和/或”表示所连接对象的至少其中之一，字符“/”，一般表示前后关联对象是一种“或”的关系。

下面结合附图，通过具体的实施例及其应用场景对本申请实施例提供的视频处理方法进行详细地说明。

参照图1，示出了本申请一个实施例的视频处理方法的流程图，所述方法具体可以包括如下步骤：

步骤101，接收用户的第一输入，所述第一输入包括：选择至少一个视频片段；

其中，第一输入为表示对该至少一个视频片段添加视频特效的选择输入。

可选地，当该第一输入包括至少两个视频片段时，则该第一输入还可以包括对该两个或两个以上视频片段选择的预设排序。

该视频特效的类型可以包括对单个视频片段进行处理的视频特效，还可以包括对不同视频片段的衔接处进行处理的转场特效(例如“左滑”、“右滑”、“闪白”、“闪黑”、“叠化”等)。

在一个示例中，在对多个视频片段添加转场特效时，用户可以打开某个视频，进入编辑界面，添加多段视频，再进入转场编辑分页，如果用户选择“智能添加转场”，则可以触发该第一输入。

步骤102，获取所述至少一个视频片段的目标属性，所述目标属性包括：所述至少一个视频片段中目标对象的目标动作，和/或，所述至少一个视频片段中的目标场景；

其中，本步骤中，可以获取该至少一个视频片段中目标对象的目标动作，和/或，获取该至少一个视频片段中的目标场景。

在一个实施例中，当该至少一个视频片段中存在目标对象时，则获取的目标属性可以包括目标对象的目标动作以及该至少一个视频片段的目标场景，从而基于该至少一个视频片段所处的目标场景以及该至少一个视频片段中目标对象的目标动作来添加与二者均匹配的目标特效；

在又一个实施例中，当该至少一个视频片段中存在目标对象时，则获取该至少一个视频片段中目标对象的目标动作，从而基于该至少一个视频片段中目标对象的目标动作来添加与该目标动作匹配的目标特效；

在另一个实施例中，当该至少一个视频片段中不存在目标对象时，则可以获取该至少一个视频片段的目标场景，从而基于该至少一个视频片段所处的目标场景来添加与该目标场景匹配的目标特效。

另外，由于该至少一个视频片段中可能会涉及一个或多个对象，而不同对象的动作可能存在着类型的差异，或者虽然是同一种动作，但是动作方向存在区别，因此，这里的目标对象可以是该多个对象中的某个主体对象，或某个非主体对象。

当该目标对象为主体对象时，则可以基于主体对象的动作而匹配适合的目标特效，使得目标特效能够与至少一个视频片段中的主体对象的动作相匹配。

此外，该目标对象的对象类型可以是预设类型(例如人、动物等任意一种可以发生运动的对象)。

此外，本步骤中的目标属性可以是该至少一个视频片段涉及的目标属性，也可以是该至少一个视频片段中的两个片段的衔接处的目标属性(主要是因为转场特效是添加在两个片段的衔接处的，因此，为了使得转场特效能够与被添加特征的片段的内容相匹配，所以这里的目标属性可以是需要添加转场特效的两个片段的衔接处(即下述实施例所述的目标子片段)所具有的目标属性)。

为了便于说明，后文的各个实施例均以目标对象为人、且是主体对象，以及目标属性为该至少一个视频片段中的下述目标子片段的目标属性，以及目标特效为转场特效为例进行说明。

步骤103，获取与所述目标属性匹配的目标特效，以及所述目标特效在所述至少一个视频片段中所处的目标位置；

其中，该目标特效的类型包括但不限于转场特效。为了便于说明，后文各个实施例以该目标特效为转场特效为例进行说明。

其中，当目标属性包括目标对象的目标动作和目标场景时，则这里的目标特效是与该目标动作以及目标场景均匹配的特效。

此外，该目标特效的数量可以是一个或多个。

其中，当目标属性包括目标对象的目标动作时，在获取与目标属性匹配的目标特效时，可以根据预设的对象动作与特效之间的第一对应关系，来获取与目标对象的目标动作匹配的目标特效；

当目标属性包括目标场景时，则在获取与目标属性匹配的目标特效时，可以根据预设的场景与特效之间的第二对应关系，来获取与目标场景匹配的目标特效。

此外，上述第一对应关系和上述第二对应关系可以存储在服务器，并且本申请实施例可以定时对上述两类对应关系进行更新，确保转场特效的丰富度。

此外，在获取与目标属性匹配的目标特效时，不仅可以通过查询预设的对应关系的方式来实现，还可以利用部署于服务器的匹配模型来实时的计算与目标属性匹配的目标特效，其中，所计算得到的目标特效是能够与该目标属性的内容相适应的。

另外，本步骤中，不仅可以确定目标特效，还可以确定该目标特效在该至少一个视频片段中所处的目标位置。

由于视频片段可以理解为具有时序的多帧图像序列，因此，该目标位置可以包括该多帧图像序列中的具体某几帧图像(即在这几帧图像处添加目标特效)；可选地，该目标位置还可以包括目标特效在该几帧图像中具体添加的坐标位置。

举例来说，关于上述匹配模型的匹配规则以及上述第一对应关系、第二对应关系的设定规则可以按如下规则设置：如果人物动作是带有明显的方向性(例如向左)，则在片段的衔接处添加“左滑”转场特效，即目标特效的特效方向是与目标动作的方向一致的；如果人物动作带有明显的击打性(例如挥拳)，则该挥拳动作在几帧图像中所分别击打的坐标点，来在片段的衔接处的该各个坐标点上添加“水波纹”转场特效；如果人物动作处于静止状态，则可以在片段的衔接处中该人物所在位置添加一个“叠化转场”。再如，例如目标场景为“风景”，则添加“淡入淡出”转场特效；目标场景为“晚会”，则添加风格鲜明的“抖动”转场特效；目标场景为“餐厅”，则可以添加复古风格的“电视雪花”转场特效。

步骤104，在所述至少一个视频片段中的所述目标位置，添加所述目标特效，生成目标视频。

其中，步骤103不仅确定了所需要添加的目标特效，还确定的了该目标特效在该至少一个视频片段中的添加位置(即目标位置)，因此，可以在该至少一个视频片段的该目标位置添加该目标特效，来完成对该至少一个视频片段的编码，生成目标视频。

可选地，当添加的特效是转场特效时，则可以对每两个相邻设置的目标片段的衔接处(即目标子片段)执行一次上述步骤101～步骤104，来完成两个目标片段的转场特效的编辑。

此外，在视频编辑过程中，用户只需要触发第一输入，无需进行过多的操作，从而简化了用户对视频编辑的操作，节约用户操作成本。

可选地，在一个实施例中，可以在两个视频片段之间添加视频特效(例如转场特效)，因此，需要使得添加的视频特效能够与两个视频片段之间的衔接处(即下述目标子片段)的内容相匹配，所以，在本实施例中，在执行步骤102时，可以获取所述至少一个视频片段内的两个目标片段的衔接处的目标属性，具体通过S201～S203来实现：

S201，识别所述至少一个视频片段中，按照预设顺序排列的两个目标片段；

可选地，在执行S201时，可以通过以下方式1或方式2来实现：

方式1：当所述至少一个视频片段包括一个视频片段时，根据所述一个视频片段对应的图像序列中每帧图对应的场景，将所述一个视频片段分割为按照所述预设顺序排列的至少两个目标片段，其中，所述至少两个目标片段中任意一组相邻排列的两个目标片段分别匹配不同的场景，以及识别所述至少两个目标片段中任意一组相邻排列的两个目标片段。

具体而言，当第一输入中用户只添加了一个视频片段，并希望对该视频片段添加例如转场特效时，而转场特效是添加在两个视频片段之间的，由于单个视频片段，其内容也可能会非常丰富，存在不少画面的跳变进而存在场景的切换。因此，可以通过场景识别等算法，来识别该视频片段对应的图片序列中每帧图分别对应的场景，然后，基于各帧图的场景不同，来将该视频片段分割为至少两个目标片段。

例如按照时序从前到后(即按照预设顺序排列)依次为片段A、片段B、片段C，其中每个片段可以包括至少一帧图。且相邻的两个片段对应的场景不同，例如片段A在室外、片段B在室内、片段C在室外。

可选地，如果该视频片段的整体场景较为单一，则可以提示用户“该视频无需添加转场”。

由于方式1可以将一个视频片段分割为按照预设顺序排列的至少两个目标片段，那么在本申请实施例的方法中，在添加特效时可以对上述至少两个目标片段中每相邻的两个目标片段来确定片段衔接处，从而对该片段衔接处获取目标属性。

方式2：当所述至少一个视频片段包括至少两个视频片段时，所述第一输入还包括对所述至少两个视频片段选择的所述预设顺序，将所述至少两个视频片段中任意一组相邻排列的两个视频片段，识别为所述至少一个视频片段中，按照所述预设顺序排列的两个目标片段。

其中，当第一输入包括选择的至少两个视频片段时，即说明用户需要对该至少两个片段添加视频特效，且用户在通过第一输入导入该至少两个视频片段时，也为该至少两个视频片段设置了编辑后的排列顺序(即上述预设顺序)，因此，该第一输入还可以包括对该至少两个视频片段所选择的预设顺序。

由于存在需要添加特效的至少两个视频片段，因此，可以将该至少两个视频片段中任意一组相邻排列的两个视频片段，识别为需要添加例如转场特效的两个目标片段。

在本申请实施例中，当用户需要对单个视频片段添加视频特效时，如果该单个视频片段的视频内容涉及多个场景，则可以按照场景的不同来对该视频片段做分割处理，从而生成按照预设顺序排列的至少两个目标片段，且相邻排列的两个目标片段对应的场景是不同的，从而可以从这至少两个目标片段中识别出任意一组相邻排列的两个目标片段来作为添加目标特效的一组视频片段，使得包括多个场景的单个视频片段也可以添加存在场景过度效果的目标特效。此外，在本申请实施例中，当所述至少一个视频片段包括至少两个视频片段时，则所述第一输入还包括对所述至少两个视频片段选择的所述预设顺序，则可以将所述至少两个视频片段中任意一组相邻排列的两个视频片段，识别为所述至少一个视频片段中，按照所述预设顺序排列的两个目标片段，来对该两个目标片段添加与视频内容匹配的目标特效。

S202，对于所述两个目标片段，所述两个目标片段包括第一片段和第二片段，识别所述第一片段中处于所述第一片段结尾部分的第一预设时长内的第一子片段，以及识别所述第二片段中处于所述第二片段开头部分的第二预设时长内的第二子片段，其中，所述两个目标片段包括：按照所述预设顺序相邻排列的所述第一片段与所述第二片段，且所述第一片段排列在所述第二片段之前；

如图2所示，示出了按照预设顺序排列(即按照显示时间t轴从早到晚的顺序)排列的两个目标片段，分别为片段1和片段2；然后，对片段1识别出位于片段1最后一秒内(这里第一预设时长为1s)的第一子片段，以及对片段2识别出位于片段2前1s内(这里第二预设时长为1s)的第二子片段，然后，第一子片段和第二子片段即构成目标子片段(即片段3)，这里的片段3即为片段1和片段2的片段衔接处。其中，片段3可以理解为片段1向片段2的过渡片段。

可选地，在识别第一子片段和第二子片段时，可以将片段1和片段2分别转换为具有时序的图片序列，由于每帧图像的时长是固定的，因此，可以利用上述第一预设时长、第二预设时长来识别第一子片段和第二子片段。

此外，该第一预设时长和该第二预设时长均是一帧图像的时长的整数倍，即片段3是包括整数帧图像的。

可选地，该第一预设时长和第二预设时长的时长之和为特效的标准时长(例如标准转场特效的时长)。例如一般的转场特效时长为2s，因此，可以找到片段3来添加转场特效。

S203，获取目标子片段的目标属性，其中，所述目标子片段包括按照所述预设顺序排列的所述第一子片段和所述第二子片段。

例如，可以对图2中的片段3来获取所述目标属性。

那么在执行步骤103中的获取所述目标特效在所述至少一个视频片段中所处的目标位置时，则可以获取所述目标特效在所述至少一个视频片段中的所述目标子片段中所处的目标位置(例如确定上述片段3中需要具有该目标特效的目标位置)。

在本申请实施例中，通过识别所述至少一个视频片段中，按照预设顺序排列的两个目标片段，并且，对于所述两个目标片段，识别第一片段中处于所述第一片段结尾部分的第一预设时长内的第一子片段，以及识别第二片段中处于所述第二片段开头部分的第二预设时长内的第二子片段，然后获取由该第一子片段和第二子片段构成的目标子片段的目标属性，使得在对至少一个视频片段添加特效时，可以通过识别两个目标片段的衔接处(即目标子片段)的目标场景，和/或，目标对象的目标动作，来获取与之匹配的目标特效，使得对至少一个视频片段所添加的目标特效能够与不同视频片段的衔接处的内容相匹配，提升了视频特效与视频片段衔接处的内容匹配度，使得不同片段之间的平滑过渡。

可选地，在一个实施例中，所述目标属性包括所述至少一个视频片段中的目标对象的目标动作，那么在执行步骤102时，可以通过S301～S304来实现。

S301，获取与所述至少一个视频片段对应的图像序列，所述图像序列包括多帧图像；

其中，在不同实施例中，该图像序列可以是该至少一个视频片段中每帧图像的图像序列，还可以是该至少一个视频片段中的上述目标子片段(例如图2中的片段3)的图像序列，该图像序列可以包括多帧图像。

S302，对于所述图像序列中的每个候选对象，获取所述每个候选对象的目标参数，其中，所述每个候选对象的目标参数包括：所述每个候选对象的轮廓在所述多帧图像中的面积占比，和/或，所述每个候选对象在所述多帧图像中的帧数占比；

这里的候选对象的类型为预定义的，例如候选对象的类型为人。

在一个示例中，可利用人体识别技术，来识别例如图2中的片段3对应的图像序列中每帧图像是否包括人体(其中，只要包括人体的躯干或头部中的任意一个人体元素，就可以确定图像中包括人体)，在包括人体的情况下，还需要识别该人体的类型(例如用户A、用户B这两个候选对象)。

例如片段3包括4帧图像，通过人体识别技术确定该4帧图像涉及两个候选对象，即用户A和用户B。

在一个实施例中，当目标参数包括候选对象的轮廓在所述多帧图像中的面积占比时，则可以获取用户A的轮廓在所述多帧图像中的面积占比，以及用户B的轮廓在所述多帧图像中的面积占比。

具体的，例如用户A的轮廓在片段3的图像1、图像2、图像3、图像4中分别对应的面积占比为70％、30％、20％、10％，那么用户A的轮廓在4帧图像中的面积占比为(70％+30％+20％+0％＝120％)；

用户B的轮廓在片段3的图像1、图像2、图像3、图像4中分别对应的面积占比为20％、60％、70％、10％，，那么用户B的轮廓在4帧图像中的面积占比为(20％+60％+70％+10％＝160％)。

在一个实施例中，当目标参数包括候选对象在所述多帧图像中的帧数占比时，即多帧图像中具有该候选对象的图像的图像总帧数，占该多帧图像的总帧数的比例。

在上述举例中，用户A在片段3的4帧图像中出现了3帧，在第四帧图像中没有出现(因为面积占比为0％)，因此，用户A在所述4帧图像中的帧数占比为3/4；同理，用户B在所述4帧图像中的帧数占比为100％。

S303，依据所述每个候选对象的所述目标参数，确定多个所述候选对象中的目标对象；

例如目标对象为主体对象，因此，可以结合上述目标参数，来确定目标对象；

当目标参数包括候选对象的轮廓在所述多帧图像中的面积占比时，则将最高面积占比的候选对象确定为目标对象，即主体对象为上述用户B(因为用户B对应的面积占比160％大于用户A对应的面积占比120％)。

当目标参数包括候选对象在所述多帧图像中的帧数占比时，则将最高帧数占比的候选对象确定为目标对象，即主体对象为上述用户B。

当目标参数包括候选对象的轮廓在所述多帧图像中的面积占比，以及候选对象在所述多帧图像中的帧数占比时，则可以对该两个参数进行加权运算，例如面积占比的预设权重为0.8，帧数占比的预设权重为0.6，则用户A对应的得分为0.8*120％+0.6*3/4，用户B对应的得分为0.8*160％+0.6*1，将得分最高的候选对象确定为目标对象，即主体对象。

S304，获取所述目标对象在所述至少一个视频片段中的目标动作。

在一个实施例中，当目标属性为目标子片段的目标属性时，则这里获取的目标动作为该目标子片段中的目标对象，在该目标子片段中的目标动作。

在识别一个对象在视频中的动作时，可以利用动作识别技术，分别将RGB图像和光流图像送入两支神经网络并融合最终分类结果，来确定该对象在该视频中的动作，对对象动作具有较高的识别率。

具体而言，在一个示例中，可以从目标子片段对应的图像序列(包括时序信息)中，提取出包括该目标对象的各帧图像并确定该各帧图像对应的时序信息(对应于上述光流图像)；然后，对该各帧图像分别做掩膜处理，得到该目标对象的各帧轮廓图像(即目标对象的掩膜图像，对应于上述RGB图像)，相当于将上述各帧图像中目标对象的背景去除。上述时序信息即为这里的各帧轮廓图像在目标子片段中对应的时间点序列。

然后，将上述各帧轮廓图像输入RGB神经网络，以及将上述时序信息输入至时序神经网络(例如处理时序数据的RNN(循环神经网络))，来进行对目标对象的动作识别，将两个网络的输出结果进行融合，从而识别出片段衔接处的目标对象的动作。

在本申请实施例中，在获取至少一个视频片段中目标对象的目标动作时，可以获取与所述至少一个视频片段对应的图像序列，所述图像序列包括多帧图像；然后，对于所述图像序列中的每个候选对象，获取该候选对象的目标参数，其中，该候选对象的目标参数包括：该候选对象的轮廓在所述多帧图像中的面积占比，和/或，该候选对象在所述多帧图像中的帧数占比；依据所述每个候选对象的所述目标参数，确定多个所述候选对象中的目标对象；最后，获取所述目标对象在所述至少一个视频片段中的目标动作。通过上述方法所确定的目标对象是基于对象在图像序列中的帧数占比，和/或，对象的轮廓在图像序列中的面积占比所确定的，使得所确定的目标对象是该图像序列中的主体对象，那么所确定的目标特效则是与该图像序列中的主体对象的目标动作相匹配的特效，使得对视频片段所添加的目标特效能够与视频片段中的主体对象的动作相匹配，提升了视频播放效果。

可选地，在一个实施例中，所述目标属性包括所述至少一个视频片段中的目标场景，那么在执行步骤102时，则可以通过S401～S404来实现：

S401，获取与所述至少一个视频片段对应的图像序列，所述图像序列包括多帧图像；

具体参照上述S301，这里不再赘述。

S402，识别所述多帧图像中每帧图像对应的候选场景；

S403，依据每个所述候选场景在所述多帧图像中对应的图像帧数信息，和每个所述场景对应的预设权重信息，获取每个所述候选场景的评分值；

例如图2的片段3(即目标子片段)中包括4帧图像，分别对应场景1、场景1、场景2、场景3，则场景1的图像帧数为2、场景2的图像帧数为1、图像的图像帧数为1，此外每个场景具有预设权重，例如场景1、场景2、场景3的权重分别为0.8、0.6、0.7，则可以对各个场景的图像帧数和权重进行加权，得到各个场景的得分，其中，场景1、场景2以及场景3的得分依次为0.8*2、0.6*1、0.7*1。

S404，将多个所述候选场景中评分值最高的候选场景，作为所述至少一个视频片段的目标场景。

例如，可以将上述举例的场景1作为该片段3的目标场景。

在本申请实施例中，可以识别至少一个视频片段对应的图像序列中每帧图像对应的候选场景，并基于各个候选场景在图像序列中出现的图像帧数和各个候选场景的预设权重，来计算每个候选场景的评分值，将评分值最高的候选场景作为该至少一个视频片段对应的目标场景，使得对视频片段识别到的目标场景是该至少一个视频片段中(例如片段衔接处)的较为重要且出现频次较高的场景，那么基于该目标场景所匹配的目标特效也与该视频片段的场景内容匹配度更高。

可选地，在一个实施例中，在执行步骤103中的获取所述目标特效在所述至少一个视频片段中所处的目标位置时，如果所述目标属性包括目标对象的目标动作，则可以在所述至少一个视频片段中，识别包含所述目标对象的所述目标动作的目标图像序列，以及获取所述目标动作在所述目标图像序列中分别指向的各个目标位置，将所述各个目标位置识别为所述目标特效在所述至少一个视频片段中所处的目标位置。

其中，由于目标对象的动作是一般是一个动态的过程，因此，该动作可以出现在该至少一个视频片段(例如目标子片段)中的多帧图像，因此，可以在例如该目标子片段，即片段衔接处，识别出包含该目标动作的多帧图像(即目标图像序列)。由于每一帧图像在视频片段中都对应有一个时间点，因此，该目标图像序列可以直接对应到该视频片段中的目标时间序列(例如该目标子片段的第0.5s～1.5s)。例如该目标动作为挥拳动作，则可以识别包含该挥拳动作的目标图像序列。

此外，由于目标动作具有指向的位置，例如挥拳动作构成的各帧图像中，每一帧图像中拳头所指向的位置就构成该帧图像中的一个目标位置(例如拳头向右挥，则一帧图像中临近该拳头轮廓的右侧的某个坐标点即为该帧图像中的一个目标位置)，因此，可以获取到该挥拳动作在该目标图像序列中分别指向的各个目标位置，那么该目标图像序列中各个目标位置就是该挥拳动作对应的“水波纹”转场特效的各个添加位置。

再如，目标对象的目标动作是静止，则该目标动作所指向的位置就是该目标对象在目标图像序列中所处的各个目标位置，因此，可以在目标图像序列中的该各个目标位置处，即该目标对象所在位置添加“叠化转场”。

可选地，在一个实施例中，在执行步骤103中的获取所述目标特效在所述至少一个视频片段中所处的目标位置时，不论目标属性包括目标对象的目标动作，还是目标属性包括目标场景，亦或是目标属性包括目标对象的目标动作以及目标场景，则可以通过以下方式实现：

基于所述至少一个视频片段中的第一时间点和所述目标特效的时长，确定所述至少一个视频片段中的第二时间点，以及识别所述至少一个视频片段中，与所述第一时间点和所述第二时间点构成的目标时间序列对应的目标图像序列，以及将所述目标图像序列在所述至少一个视频片段中所处的各个目标位置，识别为所述目标特效在所述至少一个视频片段中所处的目标位置。

其中，该第一时间点为预设的时间点，例如第0s，或第0.3s等，该第一时间点可以表达的是目标特效所处的起始位置，也可以是终止位置。

例如第一时间点为起始位置(第一时间点为第0s)，目标特效的时长为1.5s，则第二时间点是该至少一个视频片段(例如片段衔接处，即目标子片段，例如图2中的片段3)中的第1.5s，那么该片段3中第0～1.5s对应的目标图像序列就是需要添加该目标特效的图像位置，而该目标特效在该目标图像序列中各帧图像的具体添加位置则不做限制。例如在目标属性包括目标场景时，则优选采用本实施方式来添加目标特效。

在本申请实施例中，如果至少一个视频片段中存在目标对象的目标动作，则在确定目标特效的需要添加的各个目标位置时，可以在所述至少一个视频片段中，识别包含所述目标对象的所述目标动作的目标图像序列，以及获取所述目标动作在所述目标图像序列中分别指向的各个目标位置，将所述各个目标位置识别为所述目标特效在所述至少一个视频片段中所处的目标位置，使得目标特效的添加位置与目标动作所在帧图相同，而且目标特效在各帧图中的具体添加位置也是与该目标特效对应的目标动作所指向的各个目标位置一致的，使得所添加的目标特效的类型以及具***置都可以与视频片段中的目标对象的目标动作保持匹配；此外，在确定目标特效的需要添加的各个目标位置时，还可以基于所述至少一个视频片段中的第一时间点和所述目标特效的时长，来确定目标特效在至少一个视频片段中所处的目标时间序列，进而在该目标时间序列对应的目标图像序列中添加该目标特效。

需要说明的是，本申请实施例提供的视频处理方法，执行主体可以为视频处理装置，或者该视频处理装置中的用于执行视频处理方法的控制模块。本申请实施例中以视频处理装置执行视频处理方法为例，说明本申请实施例提供的视频处理装置。

参照图3，示出了本申请一个实施例的视频处理装置的框图。该视频处理装置包括：

接收模块31，用于接收用户的第一输入，所述第一输入包括：选择至少一个视频片段；

第一获取模块32，用于获取所述至少一个视频片段的目标属性，所述目标属性包括：所述至少一个视频片段中目标对象的目标动作，和/或，所述至少一个视频片段中的目标场景；

第二获取模块33，用于获取与所述目标属性匹配的目标特效，以及所述目标特效在所述至少一个视频片段中所处的目标位置；

处理模块34，用于在所述至少一个视频片段中的所述目标位置添加所述目标特效，生成目标视频。

可选地，所述第一获取模块32包括：

第一识别子模块，用于识别所述至少一个视频片段中，按照预设顺序排列的两个目标片段；

第二识别子模块，用于对于所述两个目标片段，所述两个目标片段包括第一片段和第二片段，识别所述第一片段中处于所述第一片段结尾部分的第一预设时长内的第一子片段，以及识别所述第二片段中处于所述第二片段开头部分的第二预设时长内的第二子片段，其中，所述两个目标片段包括：按照所述预设顺序相邻排列的所述第一片段与所述第二片段，且所述第一片段排列在所述第二片段之前；

第一获取子模块，用于获取目标子片段的目标属性，其中，所述目标子片段包括按照所述预设顺序排列的所述第一子片段和所述第二子片段。

可选地，所述第一识别子模块包括：

分割单元，用于当所述至少一个视频片段包括一个视频片段时，根据所述一个视频片段对应的图像序列中每帧图对应的场景，将所述一个视频片段分割为按照所述预设顺序排列的至少两个目标片段，其中，所述至少两个目标片段中任意一组相邻排列的两个目标片段分别匹配不同的场景，以及识别所述至少两个目标片段中任意一组相邻排列的两个目标片段；

识别单元，用于当所述至少一个视频片段包括至少两个视频片段时，所述第一输入还包括对所述至少两个视频片段选择的所述预设顺序，将所述至少两个视频片段中任意一组相邻排列的两个视频片段，识别为所述至少一个视频片段中，按照所述预设顺序排列的两个目标片段。

可选地，所述第一获取模块32包括：

第二获取子模块，用于获取与所述至少一个视频片段对应的图像序列，所述图像序列包括多帧图像；

第三获取子模块，用于对于所述图像序列中的每个候选对象，获取所述每个候选对象的目标参数，其中，所述每个候选对象的目标参数包括：所述每个候选对象的轮廓在所述多帧图像中的面积占比，和/或，所述每个候选对象在所述多帧图像中的帧数占比；

确定子模块，用于依据所述每个候选对象的所述目标参数，确定多个所述候选对象中的目标对象；

第四获取子模块，用于获取所述目标对象在所述至少一个视频片段中的目标动作；

其中，所述目标属性包括所述至少一个视频片段中的目标对象的目标动作。

可选地，所述第一获取模块32包括：

第五获取子模块，用于获取与所述至少一个视频片段对应的图像序列，所述图像序列包括多帧图像；

第三识别子模块，用于识别所述多帧图像中每帧图像对应的候选场景；

第六获取子模块，用于依据每个所述候选场景在所述多帧图像中对应的图像帧数信息，和每个所述场景对应的预设权重信息，获取每个所述候选场景的评分值；

第四识别子模块，用于将多个所述候选场景中评分值最高的候选场景，作为所述至少一个视频片段的目标场景；

其中，所述目标属性包括所述至少一个视频片段中的目标场景。

可选地，所述第二获取模块33包括：

识别处理子模块，用于当所述目标属性包括所述至少一个视频片段中的目标对象的目标动作时，在所述至少一个视频片段中，识别包含所述目标对象的所述目标动作的目标图像序列，以及获取所述目标动作在所述目标图像序列中分别指向的各个目标位置，将所述各个目标位置识别为所述目标特效在所述至少一个视频片段中所处的目标位置；

确定识别子模块，用于基于所述至少一个视频片段中的第一时间点和所述目标特效的时长，确定所述至少一个视频片段中的第二时间点，以及识别所述至少一个视频片段中，与所述第一时间点和所述第二时间点构成的目标时间序列对应的目标图像序列，以及将所述目标图像序列在所述至少一个视频片段中所处的各个目标位置，识别为所述目标特效在所述至少一个视频片段中所处的目标位置。

在本申请实施例中，通过对待添加视频特效的至少一个视频片段，获取该至少一个视频片段中目标对象的目标动作，和/或，该至少一个视频片段中的目标场景，并获取与该目标动作和/或该目标场景匹配的目标特效，使得对该至少一个视频片段所添加的目标特效能够与该视频片段中目标对象的目标动作和/或该视频片段所处的场景相匹配，使得视频特效能够与被添加特效的视频内容相匹配；此外，还可以获取该目标特效在该至少一个视频片段中所处的目标位置，并在该目标位置添加该目标特效，生成目标视频，使得目标特效的添加位置也能够与视频内容相适应，因此，提升了视频特效与被添加特效的视频内容之间的匹配度，提升了视频特效的编辑效果。在视频编辑过程中，用户只需要触发第一输入，无需进行过多的操作，从而简化了用户对视频编辑的操作。

本申请实施例中的视频处理装置可以是装置，也可以是终端中的部件、集成电路、或芯片。该装置可以是移动电子设备，也可以为非移动电子设备。示例性的，移动电子设备可以为手机、平板电脑、笔记本电脑、掌上电脑、车载电子设备、可穿戴设备、超级移动个人计算机(ultra-mobile personal computer，UMPC)、上网本或者个人数字助理(personaldigital assistant，PDA)等，非移动电子设备可以为个人计算机(personal computer，PC)、电视机(television，TV)、柜员机或者自助机等，本申请实施例不作具体限定。

本申请实施例中的视频处理装置可以为具有操作***的装置。该操作***可以为安卓(Android)操作***，可以为iOS操作***，还可以为其他可能的操作***，本申请实施例不作具体限定。

本申请实施例提供的视频处理装置能够实现图1至图2的方法实施例实现的各个过程，为避免重复，这里不再赘述。

可选地，如图4所示，本申请实施例还提供一种电子设备2000，包括处理器2002，存储器2001，存储在存储器2001上并可在所述处理器2002上运行的程序或指令，该程序或指令被处理器2002执行时实现上述视频处理方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

需要注意的是，本申请实施例中的电子设备包括上述所述的移动电子设备和非移动电子设备。

图5为实现本申请实施例的一种电子设备的硬件结构示意图。

该电子设备1000包括但不限于：射频单元1001、网络模块1002、音频输出单元1003、输入单元1004、传感器1005、显示单元1006、用户输入单元1007、接口单元1008、存储器1009、以及处理器1010等部件。

本领域技术人员可以理解，电子设备1000还可以包括给各个部件供电的电源(比如电池)，电源可以通过电源管理***与处理器1010逻辑相连，从而通过电源管理***实现管理充电、放电、以及功耗管理等功能。图5中示出的电子设备结构并不构成对电子设备的限定，电子设备可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置，在此不再赘述。

其中，用户输入单元1007，用于接收用户的第一输入，所述第一输入包括：选择至少一个视频片段；

处理器1010，用于获取所述至少一个视频片段的目标属性，所述目标属性包括：所述至少一个视频片段中目标对象的目标动作，和/或，所述至少一个视频片段中的目标场景；获取与所述目标属性匹配的目标特效，以及所述目标特效在所述至少一个视频片段中所处的目标位置；在所述至少一个视频片段中的所述目标位置，添加所述目标特效，生成目标视频。

可选地，处理器1010，用于识别所述至少一个视频片段中，按照预设顺序排列的两个目标片段；对于所述两个目标片段，所述两个目标片段包括第一片段和第二片段，识别所述第一片段中处于所述第一片段结尾部分的第一预设时长内的第一子片段，以及识别所述第二片段中处于所述第二片段开头部分的第二预设时长内的第二子片段，其中，所述两个目标片段包括：按照所述预设顺序相邻排列的所述第一片段与所述第二片段，且所述第一片段排列在所述第二片段之前；获取目标子片段的目标属性，其中，所述目标子片段包括按照所述预设顺序排列的所述第一子片段和所述第二子片段。

在本申请实施例中，通过识别所述至少一个视频片段中，按照预设顺序排列的两个目标片段，并且，对于所述两个目标片段，识别第一片段中处于所述第一片段结尾部分的第一预设时长内的第一子片段，以及识别第二片段中处于所述第二片段开头部分的第二预设时长内的第二子片段，然后获取由该第一子片段和第二子片段构成的目标子片段的目标属性，使得在对至少一个视频片段添加特效时，可以通过识别两个目标片段的衔接处(即目标子片段)的目标场景，和/或，目标对象的目标动作，来获取与之匹配的目标特效，使得对至少一个视频片段所添加的目标特效能够与不同视频片段的衔接处的内容相匹配，提升了视频特效与视频片段衔接处的内容匹配度，使得视频片段之间的过渡更加顺畅。

可选地，处理器1010，用于当所述至少一个视频片段包括一个视频片段时，根据所述一个视频片段对应的图像序列中每帧图对应的场景，将所述一个视频片段分割为按照所述预设顺序排列的至少两个目标片段，其中，所述至少两个目标片段中任意一组相邻排列的两个目标片段分别匹配不同的场景，以及识别所述至少两个目标片段中任意一组相邻排列的两个目标片段；或，当所述至少一个视频片段包括至少两个视频片段时，所述第一输入还包括对所述至少两个视频片段选择的所述预设顺序，将所述至少两个视频片段中任意一组相邻排列的两个视频片段，识别为所述至少一个视频片段中，按照所述预设顺序排列的两个目标片段。

可选地，处理器1010，用于获取与所述至少一个视频片段对应的图像序列，所述图像序列包括多帧图像；对于所述图像序列中的每个候选对象，获取所述每个候选对象的目标参数，其中，所述每个候选对象的目标参数包括：所述每个候选对象的轮廓在所述多帧图像中的面积占比，和/或，所述每个候选对象在所述多帧图像中的帧数占比；依据所述每个候选对象的所述目标参数，确定多个所述候选对象中的目标对象；获取所述目标对象在所述至少一个视频片段中的目标动作，其中，所述目标属性包括所述至少一个视频片段中的目标对象的目标动作；

可选地，处理器1010，用于获取与所述至少一个视频片段对应的图像序列，所述图像序列包括多帧图像；识别所述多帧图像中每帧图像对应的候选场景；依据每个所述候选场景在所述多帧图像中对应的图像帧数信息，和每个所述场景对应的预设权重信息，获取每个所述候选场景的评分值；将多个所述候选场景中评分值最高的候选场景，作为所述至少一个视频片段的目标场景，其中，所述目标属性包括所述至少一个视频片段中的目标场景。

在本申请实施例中，可以识别至少一个视频片段对应的图像序列中各帧图像对应的候选场景，并基于各个候选场景在图像序列中出现的图像帧数和各个候选场景的预设权重，来计算每个候选场景的分数，将分数最高的候选场景确定为该至少一个视频片段对应的目标场景，使得对视频片段识别到的目标场景是该至少一个视频片段中(例如片段衔接处)的较为重要且出现频次较高的场景，那么基于该目标场景所匹配的目标特效也与该视频片段的场景内容匹配度更高。

可选地，处理器1010，用于当所述目标属性包括所述至少一个视频片段中的目标对象的目标动作时，在所述至少一个视频片段中，识别包含所述目标对象的所述目标动作的目标图像序列，以及获取所述目标动作在所述目标图像序列中分别指向的各个目标位置，将所述各个目标位置识别为所述目标特效在所述至少一个视频片段中所处的目标位置；或，基于所述至少一个视频片段中的第一时间点和所述目标特效的时长，确定所述至少一个视频片段中的第二时间点，以及识别所述至少一个视频片段中，与所述第一时间点和所述第二时间点构成的目标时间序列对应的目标图像序列，以及将所述目标图像序列在所述至少一个视频片段中所处的各个目标位置，识别为所述目标特效在所述至少一个视频片段中所处的目标位置。

应理解的是，本申请实施例中，输入单元1004可以包括图形处理器(GraphicsProcessing Unit，GPU)10041和麦克风10042，图形处理器10041对在视频捕获模式或图像捕获模式中由图像捕获装置(如摄像头)获得的静态图片或视频的图像数据进行处理。显示单元1006可包括显示面板10061，可以采用液晶显示器、有机发光二极管等形式来配置显示面板10061。用户输入单元1007包括触控面板10071以及其他输入设备10072。触控面板10071，也称为触摸屏。触控面板10071可包括触摸检测装置和触摸控制器两个部分。其他输入设备10072可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆，在此不再赘述。存储器1009可用于存储软件程序以及各种数据，包括但不限于应用程序和操作***。处理器1010可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作***、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器1010中。

本申请实施例还提供一种可读存储介质，所述可读存储介质上存储有程序或指令，该程序或指令被处理器执行时实现上述视频处理方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

其中，所述处理器为上述实施例中所述的电子设备中的处理器。所述可读存储介质，包括计算机可读存储介质，如计算机只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等。

本申请实施例另提供了一种芯片，所述芯片包括处理器和通信接口，所述通信接口和所述处理器耦合，所述处理器用于运行程序或指令，实现上述视频处理方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

应理解，本申请实施例提到的芯片还可以称为***级芯片、***芯片、芯片***或片上***芯片等。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。此外，需要指出的是，本申请实施方式中的方法和装置的范围不限按示出或讨论的顺序来执行功能，还可包括根据所涉及的功能按基本同时的方式或按相反的顺序来执行功能，例如，可以按不同于所描述的次序来执行所描述的方法，并且还可以添加、省去、或组合各种步骤。另外，参照某些示例所描述的特征可在其他示例中被组合。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本申请各个实施例所述的方法。

上面结合附图对本申请的实施例进行了描述，但是本申请并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本申请的启示下，在不脱离本申请宗旨和权利要求所保护的范围情况下，还可做出很多形式，均属于本申请的保护之内。

Claims

1.一种视频处理方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述获取所述至少一个视频片段的目标属性，包括：

识别所述至少一个视频片段中，按照预设顺序排列的两个目标片段；

对于所述两个目标片段，所述两个目标片段包括第一片段和第二片段，识别所述第一片段中处于所述第一片段结尾部分的第一预设时长内的第一子片段，以及识别所述第二片段中处于所述第二片段开头部分的第二预设时长内的第二子片段，其中，所述两个目标片段包括：按照所述预设顺序相邻排列的所述第一片段与所述第二片段，且所述第一片段排列在所述第二片段之前；

获取目标子片段的目标属性，其中，所述目标子片段包括：按照所述预设顺序排列的所述第一子片段和所述第二子片段。

3.根据权利要求2所述的方法，其特征在于，所述识别所述至少一个视频片段中，按照预设顺序排列的两个目标片段，包括：

当所述至少一个视频片段包括一个视频片段时，根据所述一个视频片段对应的图像序列中每帧图对应的场景，将所述一个视频片段分割为按照所述预设顺序排列的至少两个目标片段，其中，所述至少两个目标片段中任意一组相邻排列的两个目标片段分别匹配不同的场景，以及识别所述至少两个目标片段中任意一组相邻排列的两个目标片段；

或，

当所述至少一个视频片段包括至少两个视频片段时，所述第一输入还包括对所述至少两个视频片段选择的所述预设顺序，将所述至少两个视频片段中任意一组相邻排列的两个视频片段，识别为所述至少一个视频片段中，按照所述预设顺序排列的两个目标片段。

4.根据权利要求1所述的方法，其特征在于，所述目标属性包括所述至少一个视频片段中的目标对象的目标动作；

所述获取所述至少一个视频片段的目标属性，包括：

获取与所述至少一个视频片段对应的图像序列，所述图像序列包括多帧图像；

对于所述图像序列中的每个候选对象，获取所述每个候选对象的目标参数，其中，所述每个候选对象的目标参数包括：所述每个候选对象的轮廓在所述多帧图像中的面积占比，和/或，所述每个候选对象在所述多帧图像中的帧数占比；

依据所述每个候选对象的所述目标参数，确定多个所述候选对象中的目标对象；

获取所述目标对象在所述至少一个视频片段中的目标动作。

5.根据权利要求1所述的方法，其特征在于，所述目标属性包括所述至少一个视频片段中的目标场景；

所述获取所述至少一个视频片段的目标属性，包括：

识别所述多帧图像中每帧图像对应的候选场景；

依据每个所述候选场景在所述多帧图像中对应的图像帧数信息，和每个所述场景对应的预设权重信息，获取每个所述候选场景的评分值；

将多个所述候选场景中评分值最高的候选场景，作为所述至少一个视频片段的目标场景。

6.一种视频处理装置，其特征在于，所述装置包括：

7.根据权利要求6所述的装置，其特征在于，所述第一获取模块包括：

8.根据权利要求7所述的装置，其特征在于，所述第一识别子模块包括：

9.根据权利要求6所述的装置，其特征在于，所述第一获取模块包括：

10.根据权利要求6所述的装置，其特征在于，所述第一获取模块包括：