WO2021159896A1

WO2021159896A1 - 视频处理方法和视频处理的设备、存储介质

Info

Publication number: WO2021159896A1
Application number: PCT/CN2021/070875
Authority: WO
Inventors: 敖欢欢; 罗巍
Original assignee: 华为技术有限公司
Priority date: 2020-02-13
Filing date: 2021-01-08
Publication date: 2021-08-19
Also published as: CN113259761B; CN113259761A

Abstract

本申请提供了一种视频处理方法和视频处理的设备、存储介质，该方法通过对用户载入的视频中的图像帧序列和音频分布分别进行分析，确定可以用于分割视频的关键图像帧和关键音频节点，响应于用户的分割指令，选择合适的关键图像帧和关键音频节点对视频进行自动分割，获得获得多个视频片段。根据本申请的实施方式，提供了在移动终端上对视频进行快速剪辑的方法，能够应对无法精细调节像素级别的位置定位的场景。此外，本申请的实施方式还提供了一种视频自动分割方法，通过该方法可以获得视频主体的独立有意义的视频片段。

Description

视频处理方法和视频处理的设备、存储介质

本申请要求于2020年02月13日提交国家知识产权局、申请号为202010090350.7、申请名称为“视频处理方法和视频处理的设备、存储介质”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请的一个或多个实施例通常涉及触控设备的视频处理领域，具体涉及一种视频处理方法和视频处理的设备、存储介质。

背景技术

视频剪辑技术是对录制的视频源文件进行分割和重新拼接的技术。该技术已经发展较长时间，并且已有非常多的剪辑软件，如果从操作平台上分类，可以分成PC端的软件和移动端软件。移动端软件的显示界面较小，且主要通过手指点触操作，完全依赖于手指触控来编辑软件，由于手指面积较大，很难精准的控制到某一个时间点或者某一帧，常常需要反复调节多次才能达到一次调节的目的。因此手指点触会造成不友好的操作体验。

发明内容

本申请的一些实施方式提供了一种视频处理方法和视频处理的装置、存储介质和***。以下从多个方面介绍本申请，以下多个方面的实施方式和有益效果可互相参考。

为了应对上述场景，第一方面，本申请的实施方式提供了一种视频处理方法，包括：获得用户对一个视频进行分割的指令；和响应于指令，将视频分割成多个子视频，其中多个子视频中的每个子视频的持续时间段是至少部分地基于视频的至少一个关键图像帧中的一个关键图像帧的采样时刻或者视频的至少一个关键音频节点中的一个关键音频节点的采样时刻，其中，在视频的图像帧序列中出现在一个关键图像帧之前的子图像帧序列与出现在一个关键图像帧之后的子图像帧序列之间存在图像场景的变化和图像主体的变化中的至少一个，以及其中，在视频的音频分布中出现在一个关键音频节点之前的子音频分布与出现在一个关键音频节点之后的子音频分布之间存在说话人主体的变化和噪声分布的变化的至少一个。

从上述第一方面的实施方式中可以看出，本申请的实施方式可以使用户可以快速的剪切多段视频片段。此外，本申请的实施方式通过对用户载入的视频中的图像帧序列和音频分布分别进行分析，通过判断图像帧前后的图像序列的场景和/或主体的变化确定关键图像帧，以及通过判断音频分布的频率突变，确定关键音频节点，并在视频分割时从关键图像帧和关键音频节点中选择不会破坏语音完整性的节点作为分割点，由此，避免对音频的不必要的分割，解决了视频处理造成语音不完整的问题。

结合第一方面，在一些实施方式中，指令包括用户对于视频的长按指令。

从上述结合第一方面的实施方式中可以看出，本申请的实施方式可以使用户在移动终端上剪切视频更加方便。

结合第一方面，在一些实施方式中，还包括：获取用户对多个子视频中的至少一个子视频的选择指令，从多个子视频中选出至少一个子视频，其中选择指令包括用户对至少一个子视频的点击指令。

结合第一方面，在一些实施方式中，还包括：获取用户对选出的至少一个子视频中的一个或多个子视频的移动指令，将一个或多个子视频移动到用户指定的位置，从而对选出的至少一个子视频进行排序，其中移动指令包括对一个或多个子视频的滑动指令。

从上述结合第一方面的实施方式中可以看出，本申请的实施方式可以使用户可以快速的选择多段视频片段，还可以快速的调节视频片段间的顺序。

结合第一方面，在一些实施方式中，响应于指令，将视频分割成多个子视频，还包括：从图像帧序列中选出至少一个关键图像帧；从音频分布中选出至少一个关键音频节点；确定是否保留至少一个关键图像帧中的一个关键图像帧和至少一个关键音频节点中的一个关键音频节点；至少部分地根据保留的一个关键图像帧的采样时刻和一个关键音频节点的采样时刻中的至少一个，确定时间段。

从上述结合第一方面的实施方式中可以看出，本申请的实施方式进一步避免对音频的不必要的分割，例如，可以防止对说话人在连续说话时的音频进行分割，使得分割的语音音频的表达不完整，或丢失部分语音。

结合第一方面，在一些实施方式中，确定是否保留至少一个关键图像帧中的一个关键图像帧和至少一个关键音频节点中的一个关键音频节点，包括：确定在一个关键音频节点之前的子音频分布与出现在一个关键音频节点之后的子音频分布是否包括噪声分布；在确定在一个关键音频节点之前的子音频分布与出现在一个关键音频节点之后的子音频分布中的一个包括噪声分布，或者在一个关键音频节点之前的子音频分布与出现在一个关键音频节点之后的子音频分布均不包括噪声分布的情况下，确定保留一个关键音频节点；和在确定在一个关键音频节点之前的子音频分布与出现在一个关键音频节点之后的子音频分布均包括噪声分布的情况下，确定放弃一个关键音频节点。

结合第一方面，在一些实施方式中，在至少一个关键音频节点包括多个关键音频节点的情况下，在一个关键音频节点之前的子音频分布包括视频的起始节点和一个关键音频节点之间的子音频分布，或者多个关键音频节点中位于一个关键音频节点之前的关键音频节点与一个关键音频节点之间的子音频分布。

结合第一方面，在一些实施方式中，在至少一个关键音频节点包括多个关键音频节点的情况下，在一个关键音频节点之后的子音频分布包括一个关键音频节点与视频的终止节点之间的子音频分布，或者一个关键音频节点与多个关键音频节点中位于一个关键音频节点之后的关键音频节点之间的子音频分布。

结合第一方面，在一些实施方式中，确定是否保留至少一个关键图像帧中的一个关键图像帧和至少一个关键音频节点中的一个关键音频节点，包括：确定子音频分布是否包括噪声分布，其中子音频分布包括与一个关键图像帧相关的采样时刻；在确定子音频分布包括噪声分布的情况下，确定保留一个关键图像帧；和在确定子音频分布不包括噪声分布的情况下，确定放弃一个关键图像帧。

结合第一方面，在一些实施方式中，噪声分布包括：无声分布，非人噪声分布和多人噪声分布中的至少一个。

结合第一方面，在一些实施方式中，噪声分布的变化包括出现在一个关键音频节点之前的子音频分布包括噪声分布，并且出现在一个关键音频节点之后的子音频分布包括非噪声分布；或者出现在一个关键音频节点之前的子音频分布包括非噪声分布，并且出现在一个关键音频节点之后的子音频分布包括噪声分布。

结合第一方面，在一些实施方式中，噪声分布的变化包括出现在一个关键音频节点之前的子音频分布包括噪声分布中的至少一种噪声分布，并且出现在一个关键音频节点之后的子音频分布包括噪声分布中的至少另一种噪声分布。

结合第一方面，在一些实施方式中，从音频分布中选出至少一个关键音频节点，包括：检测视频的音频频率，并根据检测到的音频频率确定视频的多个音频频率分布，其中多个音频频率分布中的每个音频频率分布包括同一个音频频率的分布；对多个音频频率分布进行聚类，以获得多个音频频率分布类别，其中多个音频频率分布类别中的每个音频频率分布类别包括多个音频频率分布中的至少一个音频频率分布；和选择多个音频频率分布类别中的每两个音频频率分布类别的交点，作为至少一个关键音频节点。

结合第一方面，在一些实施方式中，聚类包括利用聚类算法对多个音频频率分布进行聚类，其中聚类算法包括SVM和Kmeans算法中的至少一个。

第二方面，本申请的实施方式提供了一种视频处理方法，包括：获得用户对一个视频进行分割的第一指令，其中第一指令包括对视频的长按指令；响应于第一指令，将视频分割成多个子视频，其中多个子视频中的每个子视频包括与每个子视频的时间段相关联的图像和音频。

从上述第二方面的实施方式中可以看出，本申请的实施方式可以使用户可以快速的剪切多段视频片段,还可以使用户在移动终端上剪切视频更加方便。此外，本申请的实施方式通过对用户载入的视频中的图像帧序列和音频分布分别进行分析，通过判断图像帧前后的图像序列的场景和/或主体的变化确定关键图像帧，以及通过判断音频分布的频率突变，确定关键音频节点，并在视频分割时从关键图像帧和关键音频节点中选择不会破坏语音完整性的节点作为分割点，由此，避免对音频的不必要的分割，解决了视频处理造成语音不完整的问题。

结合第二方面，在一些实施方式中，获得用户对多个子视频中的一个子视频进行分割的第二指令，其中第二指令包括对一个子视频的长按指令；和响应于第二指令，将一个子视频分割成多个孙视频，其中多个孙视频中的每个孙视频包括与每个孙视频的时间段相关联的图像和音频。

结合第二方面，在一些实施方式中，还包括：获取用户对多个子视频中的至少一个子视频的移动指令，将至少一个子视频移动到用户指定的位置，从而对多个子视频进行排序。

从上述结合第二方面的实施方式中可以看出，本申请的实施方式可以使用户可以快速的选择多段视频片段，还可以快速的调节视频片段间的顺序。

结合第二方面，在一些实施方式中，还包括：获取用户对多个孙视频中的至少一个孙视频的移动指令，将至少一个孙视频移动到用户指定的位置，从而对多个孙视频进行排序。

第三方面，本申请的实施方式提供了一种视频处理装置，包括：指令获取模块，用于获得用户对一个视频进行分割的指令；和分割模块，用于响应于指令，将视频分割成多个子视频，其中多个子视频中的每个子视频的持续时间段是至少部分地基于视频的至少一个关键图像帧中的一个关键图像帧的采样时刻或者视频的至少一个关键音频节点中的一个关键音频节点的采样时刻，其中，在视频的图像帧序列中出现在一个关键图像帧之前的子图像帧序列与出现在一个关键图像帧之后的子图像帧序列之间存在图像场景的变化和图像主体的变化中的至少一个，以及其中，在视频的音频分布中出现在一个关键音频节点之前的子音频分布与出现在一个关键音频节点之后的子音频分布之间存在说话人主体的变化和噪声分布的变化的至少一个。

从上述第三方面的实施方式中可以看出，本申请的实施方式可以使用户可以快速的剪切多段视频片段。此外，本申请的实施方式通过对用户载入的视频中的图像帧序列和音频分布分别进行分析，通过判断图像帧前后的图像序列的场景和/或主体的变化确定关键图像帧，以及通过判断音频分布的频率突变，确定关键音频节点，并在视频分割时从关键图像帧和关键音频节点中选择不会破坏语音完整性的节点作为分割点，由此，避免对音频的不必要的分割，解决了视频处理造成语音不完整的问题。

结合第三方面，在一些实施方式中，指令包括用户对于视频的长按指令。

从上述结合第三方面的实施方式中可以看出，本申请的实施方式可以使用户在移动终端上剪切视频更加方便。

结合第三方面，在一些实施方式中，还包括：获取用户对多个子视频中的至少一个子视频的选择指令，从多个子视频中选出至少一个子视频，其中选择指令包括用户对至少一个子视频的点击指令。

结合第三方面，在一些实施方式中，还包括：排序模块，用于获取用户对选出的至少一个子视频中的一个或多个子视频的移动指令，将一个或多个子视频移动到用户指定的位置，从而对选出的至少一个子视频进行排序，其中移动指令包括对一个或多个子视频的滑动指令。

从上述结合第三方面的实施方式中可以看出，本申请的实施方式可以使用户可以快速的选择多段视频片段，还可以快速的调节视频片段间的顺序。

结合第三方面，在一些实施方式中，响应于指令，将视频分割成多个子视频，还包括：从图像帧序列中选出至少一个关键图像帧；从音频分布中选出至少一个关键音频节点；确定是否保留至少一个关键图像帧中的一个关键图像帧和至少一个关键音频节点中的一个关键音频节点；至少部分地根据保留的一个关键图像帧的采样时刻和一个关键音频节点的采样时刻中的至少一个，确定时间段。

从上述结合第三方面的实施方式中可以看出，本申请的实施方式进一步避免对音频的不必要的分割，例如，可以防止对说话人在连续说话时的音频进行分割，使得分割的语音音频的表达不完整，或丢失部分语音。

结合第三方面，在一些实施方式中，确定是否保留至少一个关键图像帧中的一个关键图像帧和至少一个关键音频节点中的一个关键音频节点，包括：确定在一个关键音频节点之前的子音频分布与出现在一个关键音频节点之后的子音频分布是否包括噪声分布；在确定在一个关键音频节点之前的子音频分布与出现在一个关键音频节点之后的子音频分布中的一个包括噪声分布，或者在一个关键音频节点之前的子音频分布与出现在一个关键音频节点之后的子音频分布均不包括噪声分布的情况下，确定保留一个关键音频节点；和在确定在一个关键音频节点之前的子音频分布与出现在一个关键音频节点之后的子音频分布均包括噪声分布的情况下，确定放弃一个关键音频节点。

结合第三方面，在一些实施方式中，在至少一个关键音频节点包括多个关键音频节点的情况下，在一个关键音频节点之前的子音频分布包括视频的起始节点和一个关键音频节点之间的子音频分布，或者多个关键音频节点中位于一个关键音频节点之前的关键音频节点与一个关键音频节点之间的子音频分布。

结合第三方面，在一些实施方式中，在至少一个关键音频节点包括多个关键音频节点的情况下，在一个关键音频节点之后的子音频分布包括一个关键音频节点与视频的终止节点之间的子音频分布，或者一个关键音频节点与多个关键音频节点中位于一个关键音频节点之后的关键音频节点之间的子音频分布。

结合第三方面，在一些实施方式中，确定是否保留至少一个关键图像帧中的一个关键图像帧和至少一个关键音频节点中的一个关键音频节点，包括：确定子音频分布是否包括噪声分布，其中子音频分布包括与一个关键图像帧相关的采样时刻；在确定子音频分布包括噪声分布的情况下，确定保留一个关键图像帧；和在确定子音频分布不包括噪声分布的情况下，确定放弃一个关键图像帧。

结合第三方面，在一些实施方式中，噪声分布包括：无声分布，非人噪声分布和多人噪声分布中的至少一个。

结合第三方面，在一些实施方式中，噪声分布的变化包括出现在一个关键音频节点之前的子音频分布包括噪声分布，并且出现在一个关键音频节点之后的子音频分布包括非噪声分布；或者出现在一个关键音频节点之前的子音频分布包括非噪声分布，并且出现在一个关键音频节点之后的子音频分布包括噪声分布。

结合第三方面，在一些实施方式中，噪声分布的变化包括出现在一个关键音频节点之前的子音频分布包括噪声分布中的至少一种噪声分布，并且出现在一个关键音频节点之后的子音频分布包括噪声分布中的至少另一种噪声分布。

结合第三方面，在一些实施方式中，从音频分布中选出至少一个关键音频节点，包括：检测视频的音频频率，并根据检测到的音频频率确定视频的多个音频频率分布，其中多个音频频率分布中的每个音频频率分布包括同一个音频频率的分布；对多个音频频率分布进行聚类，以获得多个音频频率分布类别，其中多个音频频率分布类别中的每个音频频率分布类别包括多个音频频率分布中的至少一个音频频率分布；和选择多个音频频率分布类别中的每两个音频频率分布类别的交点，作为至少一个关键音频节点。

结合第三方面，在一些实施方式中，聚类包括利用聚类算法对多个音频频率分布进行聚类，其中聚类算法包括SVM和Kmeans算法中的至少一个。

第四方面，本申请的实施方式提供了一种视频处理装置，包括：指令获取模块，用于获得用户对一个视频进行分割的第一指令，其中第一指令包括对视频的长按指令；分割模块，用于响应于第一指令，将视频分割成多个子视频，其中多个子视频中的每个子视频包括与每个子视频的时间段相关联的图像和音频。

从上述第四方面的实施方式中可以看出，本申请的实施方式可以使用户可以快速的剪切多段视频片段,还可以使用户在移动终端上剪切视频更加方便。此外，本申请的实施方式通过对用户载入的视频中的图像帧序列和音频分布分别进行分析，通过判断图像帧前后的图像序列的场景和/或主体的变化确定关键图像帧，以及通过判断音频分布的频率突变，确定关键音频节点，并在视频分割时从关键图像帧和关键音频节点中选择不会破坏语音完整性的节点作为分割点，由此，避免对音频的不必要的分割，解决了视频处理造成语音不完整的问题。语音不完整的问题。

结合第四方面，在一些实施方式中，还包括：获得用户对多个子视频中的一个子视频进行分割的第二指令，其中第二指令包括对一个子视频的长按指令；和响应于第二指令，将一个子视频分割成多个孙视频，其中多个孙视频中的每个孙视频包括与每个孙视频的时间段相关联的图像和音频。

结合第四方面，在一些实施方式中，还包括：排序模块，用于获取用户对多个子视频中的至少一个子视频的移动指令，将至少一个子视频移动到用户指定的位置，从而对多个子视频进行排序。

从上述结合第四方面的实施方式中可以看出，本申请的实施方式可以使用户可以快速的选择多段视频片段，还可以快速的调节视频片段间的顺序。

结合第四方面，在一些实施方式中，排序模块还包括：获取用户对多个孙视频中的至少一个孙视频的移动指令，将至少一个孙视频移动到用户指定的位置，从而对多个孙视频进行排序。

第五方面，本申请提供了一种计算机可读存储介质，该存储介质可以是非易失性的。该存储介质中包含指令，该指令在执行后实施如前述任意一个方面或实施方式所描述的方法。

第六方面，本申请提供了一种电子设备，包括：存储器，用于存储由电子设备的一个或多个处理器执行的指令，以及处理器，用于执行存储器中的指令，以执行根据前述任意一个方面或实施方式所描述的方法。

附图说明

图1示出了根据本申请实施方式的示例电子设备的模块示意图。

图2示出了根据示例性实施方式的电子设备的显示屏呈现的图形用户界面的示意图。

图3示出了根据本申请实施方式的视频处理方法的流程示意图。

图4示出根据本申请实施方式的视频处理的可能的用户操作的示意图。

图5示出了根据本申请实施方式的对视频进行分割的方法的流程示意图。

图6示出了根据本申请实施方式的选取关键图像帧的方法的流程示意图。

图7示出根据本申请实施方式的选取关键音频节点的方法的流程示意图。

图8示出了根据本申请实施方式的视频的图像序列、音频各自节点和分割视频片段的示意图。

具体实施方式

以下由特定的具体实施例说明本申请的实施方式，本领域技术人员可由本说明书所揭示的内容轻易地了解本申请的其他优点及功效。虽然本申请的描述将结合较佳实施例一起介绍，但这并不代表此发明的特征仅限于该实施方式。恰恰相反，结合实施方式作发明介绍的目的是为了覆盖基于本申请的权利要求而有可能延伸出的其它选择或改造。为了提供对本申请的深度了解，以下描述中将包含许多具体的细节。本申请也可以不使用这些细节实施。此外，为了避免混乱或模糊本申请的重点，有些具体细节将在描述中被省略。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

此外，各种操作将以最有助于理解说明性实施例的方式被描述为多个离散操作；然而，描述的顺序不应被解释为暗示这些操作必须依赖于顺序。特别是，这些操作不需要按呈现顺序执行。

除非上下文另有规定，否则术语“包含”，“具有”和“包括”是同义词。短语“A/B”表示“A或B”。短语“A和/或B”表示“(A和B)或者(A或B)”。

在一些情况下，所公开的实施例可以以硬件、固件、软件或其任何组合来实现。所公开的实施例还可以被实现为由一个或多个暂时或非暂时性机器可读(例如，计算机可读)存储介质承载或存储在其上的指令，其可以由一个或多个处理器读取和执行。例如，指令可以通过网络或通过其他计算机可读介质的途径分发。因此，机器可读介质可以包括用于以机器(例如，计算机)可读的形式存储或传输信息的任何机制、但不限于、软盘、光盘、光盘、只读存储器(CD-ROM)、磁光盘、只读存储器(ROM)、随机存取存储器(RAM)、可擦除可编程只读存储器(EPROM)、电可擦除可编程只读存储器(EEPROM)、磁卡或光卡、闪存、或用于通过电、光、声或其他形式的传播信号(例如，载波、红外信号、数字信号等)通过因特网传输信息的有形的机器可读存储器。因此，机器可读介质包括适合于以机器(例如，计算机)可读的形式存储或传输电子指令或信息的任何类型的机器可读介质。

在附图中，以特定布置和/或顺序示出一些结构或方法特征。然而，应该理解，可以不需要这样的特定布置和/或排序。在一些实施例中，这些特征可以以不同于说明性附图中所示的方式和/或顺序来布置。另外，在特定图中包含结构或方法特征并不意味着暗示在所有实施例中都需要这样的特征，并且在一些实施例中，可以不包括这些特征或者可以与其他特征组合。

应当理解的是，虽然在这里可能使用了术语“第一”、“第二”等等来描述各个单元或是数据，但是这些单元或数据不应当受这些术语限制。使用这些术语仅仅是为了将一个特征与另一个特征进行区分。举例来说，在不背离示例性实施例的范围的情况下，第一特征可以被称为第二特征，并且类似地第二特征可以被称为第一特征。

应注意的是，在本说明书中，相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请的实施方式作进一步地详细描述。

如本文所使用的，术语“模块或单元”可以指或者包括专用集成电路(ASIC)、电子电路、执行一个或多个软件或固件程序的处理器(共享的、专用的或组)和/或存储器(共享的、专用的或组)、组合逻辑电路、和/或提供所描述的功能的其他合适的组件，或者可以是专用集成电路(ASIC)、电子电路、执行一个或多个软件或固件程序的处理器(共享的、专用的或组)和/或存储器(共享的、专用的或组)、组合逻辑电路、和/或提供所描述的功能的其他合适的组件的一部分。

在现有技术中，移动电子设备的视频剪辑软件的显示界面较小，并且通常主要通过手指点触操作，从而导致PC端的较多操作直接移植至移动电子设备后，操作极端不方便。例如，通过拖动选择准确的视频剪切点的操作，以及剪切后如何移动视频片段至想要的位置的操作都是不便的。完全依赖于手指触控来编辑视频，体验并不理想。手指面积较大，很难精准的控制到某一个时间点或者某一帧。常常需要反复调节多次才能达到一次调节的目的。目前，有采用固定剪辑片段的时长的技术来规避调节剪辑点的体验问题，但是，因为固定时长，只能提供有限的选项，所以基本无法覆盖到使用场景，另外视频剪辑每个视频片段是跟视频内容相关的，固定时长也不能满足用户的需求。此外，现在的剪辑都是在整段视频上进行的，编辑和剪切多段视频的时候并不方便，很容易播放整段视频的时长，而且需要不同的打开暂停等操作，在手机上并不方便反复播放。

还有些现有技术在移动电子设备的视频编辑软件中提供自动剪辑功能，通过算法一键生成一段视频。从而避免通过手指点触等非常不友好的操作体验。在移动电子设备上，借助图像识别等算法，提出了一些自动剪辑和生成视频的技术。但是，因为人工干预的太少，算法现在还很难准确的剪切出用户完全满意的视频，并且视频剪切的多样性也不够。此外，用户无法控制最后生成的内容，也无法控制最后视频的时长，完全依赖于算法设置。现在的自动化算法没有根据语音内容来进行剪切，一般来说剪切后视频中的音频内容基本被破坏，无法使用。

本申请的技术方案希望解决移动终端上的视频剪切的上述问题。本申请的一个或多个实施方式提出了一种视频剪辑方法，使用户在移动终端上剪切视频更加方便。此外，用户可以快速的剪切多段视频片段，可以快速的选择多段视频片段，还可以快速的调节视频片段间的顺序。最后，本申请的技术方案解决了视频剪辑造成语音不完整的问题。

图1示出根据本申请实施方式的示例电子设备的模块示意图。该电子设备可以用于执行视频处理的方法。

电子设备100可以包括控制组件110，外部存储器接口120，内部存储器121，音频模块130，传感器模块140，和显示屏150等。其中，控制组件110可以包括处理器111。传感器模块140可以包括压力传感器140A和触摸传感器140B等。

可以理解的是，本发明实施例示意的结构并不构成对电子设备100的具体限定。在本申请另一些实施例中，电子设备100可以包括比图示更多或更少的部件，或者组合某些部件，或者拆分某些部件，或者不同的部件布置。图示的部件可以以硬件，软件或软件和硬件的组合实现。

处理器111可以包括一个或多个处理单元，例如：处理器111可以包括应用处理器(application processor，AP)，调制解调处理器，图形处理器(graphics processing unit，GPU)，图像信号处理器(image signal processor，ISP)，控制器，视频编解码器，数字信号处理器(digital signal processor，DSP)，基带处理器，和/或神经网络处理器(neural-network processing unit，NPU)等。其中，不同的处理单元可以是独立的器件，也可以集成在一个或多个处理器中。

GPU用于执行数学和几何计算，用于图形渲染。处理器111可包括一个或多个GPU，其执行程序指令以生成或改变显示信息。

控制器可以根据指令操作码和时序信号，产生操作控制信号，完成取指令和执行指令的控制。

NPU为神经网络(neural-network，NN)计算处理器，通过借鉴生物神经网络结构，例如借鉴人脑神经元之间传递模式，对输入信息快速处理，还可以不断的自学习。通过NPU可以实现电子设备100的智能认知等应用，例如：图像识别，人脸识别，语音识别，文本理解等。

处理器111中还可以设置存储器，用于存储指令和数据。在一些实施例中，处理器111中的存储器为高速缓冲存储器。该存储器可以保存处理器111刚用过或循环使用的指令或数据。如果处理器111需要再次使用该指令或数据，可从所述存储器中直接调用。避免了重复存取，减少了处理器111的等待时间，因而提高了***的效率。

外部存储器接口120可以用于连接外部存储卡，例如Micro SD卡，实现扩展电子设备100的存储能力。外部存储卡通过外部存储器接口120与控制组件110通信，实现数据存储功能。例如将数据库等文件保存在外部存储卡中。

内部存储器121可以用于存储计算机可执行程序代码，所述可执行程序代码包括指令。内部存储器121可以包括存储程序区和存储数据区。其中，存储程序区可存储操作***，至少一个功能所需的应用程序等。在本申请的一个或多个实施方式中，存储程序区可存储视频剪辑装置160，该视频剪辑装置160可以实施本申请的视频剪辑方法的各方面。视频剪辑装置160可以包括，指令获取模块161，分割模块162，选择模块163，排序模块164和合成模块165。其中，指令获取模块161可以用于获得用户对一个视频进行剪辑的指令，以及用户输入的其他指令。分割模块162可以用于响应指令，将视频分割成多个视频片段。分割模块162可以通过对用户载入的视频中的图像帧序列和音频分布分别进行分析，通过将整个视频的所有帧根据图像内容的变化，分成几个不同的场景，判断图像帧前后的图像序列的场景和/或主体的变化确定关键图像帧，以及通过对视频的音频的频率特征进行聚类，判断音频分布的频率分布的突变，确定关键音频节点，并在视频分割时从关键图像帧和关键音频节点中选择不会破坏语音完整性的节点作为分割点。选择模块163可以用于从多个视频片段中选出需要合成为新的视频的一个或多个视频片段。排序模块164可以用于将至少一个视频片段移动到用户指定的位置，从而对多个视频片段进行排序。合成模块165可以用于将多个视频片段合成为新的视频。在一些可能的实施方式中，可以通过选择模块163仅选择一个或多个视频片段进行合成，还可以选择多个视频片段后，对选择的视频片段通过排序模块164排序后，再进行视频合成，和/或仅移动一个或多个视频片段后进行全部视频片段的合成。可以理解，图1所示的视频剪辑装置160可以以软件方式实现，但是视频剪辑装置160及其中一个或多个模块还可以以硬件，软件或软件和硬件的组合实现。

内部存储器121的存储数据区可存储电子设备100使用过程中所创建的数据(比如视频时间线的切分点)等。此外，内部存储器121可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件，闪存器件，通用闪存存储器(universal flash storage，UFS)等。处理器111通过运行存储在内部存储器121的指令，和/或存储在设置于处理器中的存储器的指令，执行电子设备100的各种功能应用以及数据处理。

音频模块130用于将数字音频信息转换成模拟音频信号输出，也用于将模拟音频输入转换为数字音频信号。音频模块130还可以用于对音频信号编码和解码。在一些实施例中，音频模块130可以设置于处理器111中，或将音频模块130的部分功能模块设置于处理器111中。

压力传感器140A用于感受压力信号，可以将压力信号转换成电信号。在一些实施例中，压力传感器140A可以设置于显示屏150。压力传感器140A的种类很多，如电阻式压力传感器，电感式压力传感器，电容式压力传感器等。电容式压力传感器可以是包括至少两个具有导电材料的平行板。当有力作用于压力传感器140A，电极之间的电容改变。电子设备100根据电容的变化确定压力的强度。当有触摸操作作用于显示屏150，电子设备100根据压力传感器140A检测所述触摸操作强度。电子设备100也可以根据压力传感器140A的检测信号计算触摸的位置。在一些实施例中，作用于相同触摸位置，但不同触摸操作强度的触摸操作，可以对应不同的操作指令。例如：当有触摸操作强度小于第一压力阈值的触摸操作作用于短消息应用图标时，执行查看短消息的指令。当有触摸操作强度大于或等于第一压力阈值的触摸操作作用于短消息应用图标时，执行新建短消息的指令。

触摸传感器140B，也称“触控器件”。触摸传感器140B可以设置于显示屏150，由触摸传感器140B与显示屏150组成触摸屏，也称“触控屏”。触摸传感器140B用于检测作用于其上或附近的触摸操作。触摸传感器可以将检测到的触摸操作传递给应用处理器，以确定触摸事件类型。可以通过显示屏150提供与触摸操作相关的视觉输出。在另一些实施例中，触摸传感器140B也可以设置于电子设备100的表面，与显示屏150所处的位置不同。

显示屏150用于显示图像，视频等。显示屏150包括显示面板。显示面板可以采用液晶显示屏(liquid crystal display，LCD)，有机发光二极管(organic light-emitting diode，OLED)，有源矩阵有机发光二极体或主动矩阵有机发光二极体(active-matrix organic light emitting diode的，AMOLED)，柔性发光二极管(flex light-emitting diode，FLED)，Miniled，MicroLed，Micro-oLed，量子点发光二极管(quantum dot light emitting diodes，QLED)等。在一些实施例中，电子设备100可以包括1个或N个显示屏150，N为大于1的正整数。

电子设备100通过GPU，视频编解码器，显示屏150，NPU和/或应用处理器等实现视频播放和剪辑功能。GPU为图像处理的微处理器，连接显示屏150和应用处理器。

视频编解码器用于对数字视频压缩或解压缩。电子设备100可以支持一种或多种视频编解码器。这样，电子设备100可以播放或录制多种编码格式的视频，例如：动态图像专家组(moving picture experts group，MPEG)1，MPEG2，MPEG3，MPEG4等。

电子设备包括但不局限于，膝上型设备、手持PC、个人数字助理、蜂窝电话、便携式媒体播放器、可穿戴设备(例如，显示眼镜或护目镜，头戴式显示器(Head-Mounted Display，简称HMD)，手表，头戴设备，臂带，珠宝等)，虚拟现实(Virtual Reality，简称VR)和/或增强现实(Augment Reality，简称AR)设备，车载信息娱乐设备，流媒体客户端设备，电子书阅读设备，以及各种其他电子设备。一般地，能够包含本文中所公开的处理器和/或其它执行逻辑的多个装置和电子设备一般都是合适的。

图2示出了根据一示例性实施方式的电子设备100的显示屏呈现的图形用户界面200的示例。用户可以在该图形用户界面200中对视频进行编辑。图形用户界面200包括，视频预览及播放区域210，视频编辑区域220，音频显示区域230，以及保存按键240。其中，视频预览及播放区域210可以用于播放在编辑的视频，以及显示视频编辑的效果。视频编辑区域220可以是视频编辑的主要操作区域，可以显示视频的时间线，例如，显示视频在时间维度上的多个图像等，可以理解，通常视频的时间线是左侧为视频起始的时刻，然后一直向右延伸到视频结束的时刻。在一个或多个实施方式中，视频编辑区域220还可以显示一个或多个用户剪辑的视频的片段。音频显示区域230可以用于显示与视频编辑区域220中的视频或视频的片段相对应的音频轨道。用户在视频编辑区域220完成视频编辑后，通过点按保存按键240生成和保存经编辑的新视频。可以理解，在本申请另一些实施方式中，图形用户界面200可以包括比图示更多或更少的区域或模块，或者组合某些区域或模块，或者拆分某些区域或模块，或者采用不同的布置。例如，在一些实施方式中，图形用户界面200还可以可选地或附加地包括工具区域250，工具区域250可以提供一些其他的功能操作，例如，加载新视频，保存视频，对选中的视频或视频片段进行分享，倒序等功能。用户通过选择分享功能可以将保存的视频分享给其他用户或者在社交媒体上分享。作为另一个示例，图形用户界面200可以省略音频显示区域230。

下面结合图形用户界面200对在电子设备100上执行的视频剪辑的方法进行描述。在一个或多个可选的实施方式中，视频剪辑的方法可以通过电子设备100中的视频剪辑装置160实施。

图3示出了根据本申请实施方式的视频处理方法300的流程。如图2所示，该方法至少包括，301：用户在图形用户界面200载入需要编辑的视频。视频载入后，在视频编辑区域220可以通过时间线的方式呈现该视频，并且在视频预览及播放区域210显示该视频的预览图，或者播放该视频。

302：获取用户的视频分割指令。电子设备100通过用户在视频编辑区域220中显示的视频上的触控操作，获取用户对视频的不同编辑指令，例如，通过指令获取模块161获取用户对视频的不同编辑指令。举例来说，用户的触控操作可以包括，当有触摸操作时间小于第一时间阈值的触摸操作作用于视频时，执行选中视频的指令。当有触摸操作时间大于或等于第一时间阈值的触摸操作作用于视频时，执行视频剪辑的指令。当有触摸操作持续作用于视频并且触摸位置连续改变时，执行拖拽视频随触摸位置移动的指令。

作为一个示例，如果用户需要裁剪视频长度或者内容，用户在视频编辑区域220可以长按视频，即，用户给出进行视频剪辑的指令。例如，分割模块162可以在303：响应于该指令，该视频可以自动分割成多个时长较短的视频片段(子视频)。对于视频的自动分割的各种实施方式，将后续参考图5-图8进一步说明。在可能的实施方式中，用户还可以对多个视频片段(子视频)中的一个视频片段再次进行长按，该视频片段还可以自动分割成多个时长更短的视频片段(孙视频)。

在一些实施方式中，可以根据视频的时长设置执行一次视频分割的所分割的视频片段的数量阈值，控制视频分割的颗粒度。如果认为分割的粒度不够细，可以对视频片段再次分割，直到视频片段无法被自动分割方法处理为止。

分割后的多个视频片段可以显示在视频编辑区域220中，用户通过点击一个或多个视频片段，通过选择模块163可以304：根据用户的指令，从多个视频片段选择需要的该一个或多个视频片段。

在一些实施方式中，选中的视频片段可以在视频预览区自动播放，以实时显示视频内容，便于用户查看新选择的视频内容。

可选地或附加地，用户可以通过再次点击选中的视频，可以进入视频精细调节中，其中，精细调节操作方法可以如已有的一些视频操作方法，例如，通过拉动时间条确定每一帧的区域等。

在可能的实施方式中，用户还可以拖拽已选择的视频片段，来随意调整视频片段在时间线上的位置，实现视频片段的重新排序。例如，通过排序模块164可以在305：根据用户对选择的视频片段中的至少一个视频片段的移动指令，将至少一个视频片段移动到用户指定的位置。通过这种方式，当用户需要拼接多个选择的视频片段时，这些视频片段的拼接顺序可以按照这些视频片段当前在时间线上各自的位置来确定。

最后，如果选择的视频片段已经编辑完成，点按保存按键240，可以例如通过合成模块165在306：根据所选择的所有已选择的视频片段和用户指定的位置生成为一个新的视频。可以理解，在可选的示例中，图形用户界面还可以包括实现其他功能的按键，例如，分享按键等，用户通过点击分享按键可以将保存的视频分享给其他用户或者在社交媒体上分享。

为了便于理解上述用户的触控操作，下面结合附图对上述用户和图形用户界面200的交互过程进行说明。

图4示出了在图形用户界面200的视频编辑区域220的视频编辑的一些可能的用户操作。

当用户载入视频40后，在视频编辑区域220可以通过时间线的方式呈现该视频40，在图4中以矩形块示意视频40或视频片段42，矩形的长边示意性的表示视频40或视频片段42的时间线的长度。

用户需要剪辑视频40时，通过对视频40进行长按45触发视频剪辑，响应于视频剪辑的指令，视频40被自动分割成多个时长较短的视频片段42(1…n)，并且这些视频片段42对应于视频的时间线顺序排列在视频编辑区域220中。在一些实施方式中，用户还可以对多个视频片段42(1…n)中的一个视频片段再次进行长按，例如，对视频片段42(i)进行长按45，该视频片段42(i)还可以自动分割成多个时长更短的视频片段42(i.1….i.j)。可以理解，在附图中，引用编号之后的括号内的字母和数字，例如“42(i.1)”，表示对具有该特定引用编号的元素的引用。文本中没有后续括号的引用编号，例如“42”，表示对带有该引用编号的元素的实施方式的总体引用。

作为一个示例，如图4所示，针对已分割的这些视频片段42，用户通过点击47一个或多个视频片段42，选择需要的一个或多个视频片段42。例如，用户分别点击47视频片段42(1)、视频片段42(i.1)和视频片段42(i.j)，确定这3段视频片段是用户所需的。之后，用户可以点按保存按键240，可以一键将所有已选择的视频片段生成为一个新的视频。例如，视频片段42(1)、视频片段42(i.1)和视频片段42(i.j)通过本领域的过渡拼接方法，按照各视频片段参照于时间线的当前的位置依次拼接这些视频片段，具体地，从视频片段42(1)开始，之后拼接视频片段42(i.1)，最后拼接视频片段42(i.j)，新生成的视频的起始时刻为视频片段42(1)的起始时刻，新的视频的终止时刻为视频片段42(i.j)的终止时刻。

作为另一个示例，用户还可以拖拽已选择的视频片段，来随意调整视频片段在时间线上的位置，实现视频片段的重新排序。如图4所示，用户分别点击47视频片段42(1)、视频片段42(i.1)和视频片段42(i.j)，确定这3段视频片段是用户所需的。之后，用户对视频片段42(i.j)进行拖拽49，将视频片段42(i.j)移动到视频片段42(i.1)之前。在这种情况下，当用户需要拼接这些视频片段时，根据各视频片段当前的位置，拼接从视频片段42(1)开始，之后拼接视频片段42(i.j)，最后拼接视频片段42(i.1)，新生成的视频的起始时刻为视频片段42(1)的起始时刻，新的视频的终止时刻为视频片段42(i.1)的终止时刻。

根据本申请的各个实施方式，用户在移动终端上剪切视频更加方便。此外，用户可以快速的剪切多段视频片段，可以快速的选择多段视频片段，还可以快速的调节视频片段间的顺序。

图5示出了根据本申请实施方式的电子设备100实施的对视频进行分割的示例方法500的流程。示例方法500是对图3所示示例方法300中303部分的具体示例描述，对于上述示例方法300实施方式中未描述的内容，可以参见下述方法500实施方式；同样地，对于方法500实施方式中未描述的内容，可参见上述示例方法300实施方式。

如图5所示，方法500至少包括：在501：分别从视频的图像帧序列和音频分布中选出至少一个关键图像帧和至少一个关键音频节点。

在一些实施方式中，电子设备100对用户载入的视频中的图像帧序列和音频分布分别进行分析，一方面，针对图像进行关键帧和关键事件的分析和识别，从而确定可能的图像帧分割点，即关键图像帧。另一方面，针对音频分布进行分析，分析音频的频率分布，对音频内容中的语音、噪声等内容进行识别，从而确定可能的音频分割点，即关键音频节点。以下参考图6和图7分别对这两方面进行描述。

图6示出了选取关键图像帧的方法600的流程示意图。在一些实施方式中，针对视频的图像帧序列，首先，601：可以对图像帧序列中的相似帧进行聚类，从而将整个视频的所有图像帧根据图像帧的图像内容的变化，分成几个不同的场景，即，每个类内的图像帧是相似的，而类与类之间的图像帧是不相似的。

作为一个示例，首先，根据图像帧的图像内容，匹配诸如随机生成法、按时间均匀生成法等方法，比较图像内容，将图像内容大于阈值的图像帧作为种子帧。其次，生成图像帧的底层特征，通常可以采用SIFT(Scale-invariant feature transform，尺度不变特征变换)，人体区域检测，运动区域检测等方法生成底层特征，之后，通过底层特征匹配计算帧与帧之间的图像内容关系，例如，对于诸如移动物体、人体，等不同的感兴趣区域可以设置不同的权重进行计算。最后，以种子帧作为分类的初始，使用Meanshift算法，K-means等算法对图像帧进行聚类。

在对图像帧聚类之后，还可以602：根据图像帧间内容计算帧的关键性值。通常，图像帧分类的边界一般来说是事件的起始点或者终结点。但是，视频的场景变化也是一个连续的变化过程，所以需要在每个视频片段的边界仔细确定合适的分割时间点。确定分割时间点的几个关键因素至少包括以下方面：

第一方面，图像的模糊度，例如，场景显著变化可能伴随显著的镜头移动，这可能导致一系列模糊的图像帧。在这种情况下，需要根据前面计算的特征，计算模糊的图像帧的区分度。

第二方面，对移动物体的跟踪。在一些情况下，某些场景的变化，是因为前景的物体移动并且离开了视野。因此，一个视频分割点需要包含该物体整个运动过程，尽量不让离开的物体进入到分割后的下一个场景。

根据以上因素，对聚类后的各个分类的边界的帧间内容计算帧的关键性值，603：根据计算的关键性值，选取作为分割点的关键图像帧。作为一个示例，选择关键图像帧的标准可以包括，第一点，要选择的分割点应该保证上一个图像帧是相对清晰的，且该帧前与该帧后的图像内容是不相关的，即，要选择的图像帧是与上一图像帧在场景过渡阶段中关联性的计算值最小的图像帧。此外第二点，如果移动物体在整个过渡阶段都出现，则不选择关键图像帧；如果过渡阶段中该物体完全终止，则选取最后出现该物体的图像帧作为关键图像帧。如果第一点和第二点相冲突，优先使用第二点选择关键图像帧。

对于视频的音频部分而言，图7示出了选取关键音频节点的方法700的流程示意图。首先，701：检测视频的音频频率，并根据检测到的音频频率确定视频的多个音频频率分布。作为一个示例，对音频进行时频转换，例如通过快速傅里叶变换((Fast Fourier transform，FFT)、短时傅里叶变换(short-time Fourier transform，STFT)等方式，获得音频的频率，随后，通过本领域的音频频率特征检测方法，检测出音频的频率分布。之后，702：对多个音频频率分布进行聚类，以获得多个音频频率分布类别。例如，基于诸如SVM(Support Vector Machine，支持向量机)、K-means等聚类方法，对整段音频进行特征聚类分析，获得符合预定频率相似度的音频片段，以及这些音频段的起始点和终止点。而后，703：选择多个音频频率分布类别中的每两个音频频率分布类别的交点，作为至少一个关键音频节点，例如，这些起始点和终止点的之前的频率和之后的频率相比而言，通常发生了频率突变，即频率的变化超过某一特定阈值。这些点是关键音频节点，并且可以用于视频的分割点。

将聚类后得到的音频片段经过音频识别后，识别出每个音频片段的对应场景，例如，噪声场景，一个或多个主体的发声场景等。其中，噪声场景的噪声可以包括底噪声(无声)，非人噪声，多人噪声等，其中，底噪声的一种情况可以包括说话人在说话过程中的停顿。主体的发声场景可以包括人类的单人声等(即，同一人频率占主要的音频能量)。

以下继续描述图5，在块502：按照时序逐个取出至少一个关键图像帧中的每一个和至少一个关键音频节点中的每一个。电子设备100例如从内部存储器121获取所有通过上述方法选出的关键图像帧和关键音频节点。电子设备100之后从这些关键图像帧和关键音频节点中确定最终的视频分割点。

确定视频分割点具体的示例方法参考图8描述，图8示出了根据本申请实施方式的视频的图像序列、音频的各自节点和分割视频片段的示意图。如图8所示，假设载入的视频的起始点记为S，终结点记为E，将所有中间的关键图像帧记为ICi，中间的关键音频节点记为VCi，ICi与ICi+1之间的图像帧序列记为IFi，在VCi和VCi+1之间的音频信号组成的音频分布记为VFi，其中，IFi是视频的图像帧序列的子图像帧序列，VFi是视频的音频分布中的子音频分布。其中，起始点S作为图像序列和音频的起始点，ICi和VCi是需要判断是否作为用于将视频分割为视频片段(例如，子视频和孙视频等)的视频分割点的节点。

在另一些实施方式中，还可以判断当前节点与上一节点的时间间隔是否足够长，如果时间间隔较短，可以放弃当前节点的判断。例如，时间间隔可以设置为视频总时长的1/20等等，小于该时间间隔便放弃当前节点。

继续参考图5，接下来按照时间线的顺序，依次判断每个节点503：取出的是关键音频节点还是关键图像帧。如果是关键音频节点，例如VCi，则在504：判断该关键音频节点分割的之前和之后的子音频分布是否都是噪声，如果否，则到506a：保留该关键音频节点的采样时刻为视频的分割点；如果是，则到507a：丢弃该关键音频节点。例如，如果VCi分割的前后两段音频分布VFi-1和VFi都是噪声，则不保留VCi为视频的分割点，如果VCi分割的前后两段音频分布VFi-1和VFi其中至一是噪声，或者音频分布VFi-1和VFi都不是噪声，则保留VCi为视频的分割点。

之后，在508a：判断该关键音频节点是否为最后一个节点。如果该关键音频节点是取出的所有关键图像帧和关键音频节点中最后一个节点，则结束本方法；如果该关键音频节点不是最后一个节点，则返回502，对该关键音频节点的下一个关键图像帧或关键音频节点执行503-508。

作为一个示例，在图5中的块501中，电子设备100对音频聚类后，分类出子音频分布VFi-1和VFi和VCi，因此它们两者的频率的相似度不足，可以认为是不同的声音。在一种可能的情况下，当对子音频分布VFi-1和VFi分别识别后，识别出子音频分布VFi-1和VFi分别为两种不同的噪声，例如，子音频分布VFi-1是无声的底噪声，子音频分布VFi是诸如环境噪声的非人噪声，那么在这种情况下，并不需要将VCi作为视频的最终的一个分割点，由此，在最终分割时，可以将子音频分布VFi-1和VFi作为一段噪声分割。

在另一种可能的情况下，当对子音频分布VFi-1和VFi分别识别后，识别出子音频分布VFi-1和VFi中的一个是噪声，例如，子音频分布VFi-1是无声的底噪声，音频分布VFi是单人说话声，或者，子音频分布VFi-1是单人说话声，子音频分布VFi是非人噪声，那么可以将单人说话声和噪声分割，因此，可以将VCi作为视频的最终的一个分割点。

在在另一种可能的情况下，当对子音频分布VFi-1和VFi分别识别后，识别出子音频分布VFi-1和VFi都是非噪声，例如，子音频分布VFi-1和VFi分别为不同人的说话声，那么可以将不同人的说话声分割，因此，可以将VCi作为视频的最终的一个分割点。

在一种可能的场景中，假如视频内容为两个人的对谈，这两个人说话的音频的频率不同，同时，在他们的说话过程中可能会出现的自然的短暂的停顿，例如每句话结束时的停顿，或者其中一个人思考如何回应对方提出的问题等的较长的停顿，这些可能的停顿在音频表现上可以认为是底噪声。那么在这个视频中，每个说话人各自说话的部分可以被分割出来，并且对于每个人各自的说话部分，还可以根据停顿，将一句话或一段话完整的分割出来。在这种场景中，对语音的合理分割更为关键，需要避免在说话人在连续说话时的音频进行分割。

采用上述方法可以避免对音频的不必要的分割，例如，可以防止对说话人在连续说话时的音频进行分割，使得分割的语音音频的表达不完整，或丢失部分语音。

继续参考图5中的块503,如果是关键图像帧，即，该节点为ICi，那么到505：判断覆盖该关键图像帧ICi所在的子音频分布是否为噪声分布，如果是，则到506b：保留该关键图像帧ICi的采样时刻为视频的分割点；如果否，则到507b：丢弃该关键图像帧ICi。之后，在508b：判断该关键图像帧是否为最后一个节点。如果该关键图像帧是取出的所有关键图像帧和关键音频节点中最后一个节点，则结束本方法；如果该关键图像帧不是最后一个节点，则返回502，对该关键图像帧的下一个关键图像帧或关键音频节点执行503-508。

作为一个示例，如图8所示，在时间线上，关键图像帧ICi对应的时间点是处于音频分布VFi中，那么如果子音频分布VFi是噪声，则可以将ICi作为视频的最终的一个分割点。因为ICi所在的音频不是说话人的语音音频，所以ICi作为分割点不会分割说话人的语音音频。此外，这样可以保证图像序列的有效的分割。相反地，如果音频分布VFi是人声的音频分布，则不保留该关键图像帧ICi为视频的分割点，因为关键图像帧ICi会分割说话人的语音音频，会造成分割的语音音频的表达不完整，或丢失部分语音。由此，采用上述方法可以确保人声音频的完整性。

在对所有的关键图像帧和关键音频节点进行上述判断后，就可以得到最终的视频分割点。例如，如图8所示，按照时间线的顺序，最终的视频分割点依次为VC1、ICi、VCi+1，那么根据这些视频分割点的采样时刻对视频进行分割，最终分割后的视频片段分别为81、82、83和84。

根据本申请的实施方式，提供了在移动终端上对视频进行快速剪辑的方法，能够应对无法精细调节像素级别的位置定位的场景。此外，本申请的实施方式还提供了一种视频自动分割方法，通过该方法可以获得视频主体的独立有意义的视频片段。

本申请的各方法实施方式均可以以软件、磁件、固件等方式实现。

可将程序代码应用于输入指令，以执行本文描述的各功能并生成输出信息。可以按已知方式将输出信息应用于一个或多个输出设备。为了本申请的目的，处理***包括具有诸如例如数字信号处理器(DSP)、微控制器、专用集成电路(ASIC)或微处理器之类的处理器的任何***。

程序代码可以用高级程序化语言或面向对象的编程语言来实现，以便与处理***通信。在需要时，也可用汇编语言或机器语言来实现程序代码。事实上，本文中描述的机制不限于任何特定编程语言的范围。在任一情形下，该语言可以是编译语言或解释语言。

至少一个实施例的一个或多个方面可以由存储在计算机可读存储介质上的表示性指令来实现，指令表示处理器中的各种逻辑，指令在被机器读取时使得该机器制作用于执行本文所述的技术的逻辑。被称为“IP核”的这些表示可以被存储在有形的计算机可读存储介质上，并被提供给多个客户或生产设施以加载到实际制造该逻辑或处理器的制造机器中。

在一些情况下，指令转换器可用来将指令从源指令集转换至目标指令集。例如，指令转换器可以变换(例如使用静态二进制变换、包括动态编译的动态二进制变换)、变形、仿真或以其它方式将指令转换成将由核来处理的一个或多个其它指令。指令转换器可以用软件、硬件、固件、或其组合实现。指令转换器可以在处理器上、在处理器外、或者部分在处理器上且部分在处理器外。

Claims

一种视频处理方法，其特征在于，包括：

获得用户对一个视频进行分割的指令；和

响应于所述指令，将所述视频分割成多个子视频，其中所述多个子视频中的每个子视频的持续时间段是至少部分地基于所述视频的至少一个关键图像帧中的一个关键图像帧的采样时刻或者所述视频的至少一个关键音频节点中的一个关键音频节点的采样时刻，

其中，在所述视频的图像帧序列中出现在所述一个关键图像帧之前的子图像帧序列与出现在所述一个关键图像帧之后的子图像帧序列之间存在图像场景的变化和图像主体中的变化至少一个，以及

其中，在所述视频的音频分布中出现在所述一个关键音频节点之前的子音频分布与出现在所述一个关键音频节点之后的子音频分布之间存在说话人主体的变化和噪声分布的变化的至少一个。
如权利要求1所述的视频处理方法，其特征在于，所述分割指令包括所述用户对于所述视频的长按指令。
如权利要求1-2中任何一个权利要求所述的视频处理方法，其特征在于，还包括：

获取用户对所述多个子视频中的至少一个子视频的选择指令，从所述多个子视频中选出所述至少一个子视频，其中所述选择指令包括所述用户对所述至少一个子视频的点击指令。
如权利要求1-3中任一项所述的视频处理方法，其特征在于，还包括：

获取所述用户对选出的所述至少一个子视频中的一个或多个子视频的移动指令，将所述一个或多个子视频移动到所述用户指定的位置，从而对选出的所述至少一个子视频进行排序，其中所述移动指令包括对所述一个或多个子视频的滑动指令。
如权利要求1所述的视频处理方法，其特征在于，所述响应于所述指令，将所述视频分割成多个子视频，还包括：

从所述图像帧序列中选出所述至少一个关键图像帧；

从所述音频分布中选出所述至少一个关键音频节点；

确定是否保留所述至少一个关键图像帧中的所述一个关键图像帧和所述至少一个关键音频节点中的所述一个关键音频节点；

至少部分地根据保留的所述一个关键图像帧的所述采样时刻和所述一个关键音频节点的所述采样时刻中的至少一个，确定所述时间段。
如权利要求5所述的视频处理方法，其特征在于，所述确定是否保留所述至少一个关键图像帧中的所述一个关键图像帧和所述至少一个关键音频节点中的所述一个关键音频节点，包括：

确定在所述一个关键音频节点之前的所述子音频分布与出现在所述一个关键音频节点之后的所述子音频分布是否包括所述噪声分布；

在确定在所述一个关键音频节点之前的所述子音频分布与出现在所述一个关键音频节点之后的所述子音频分布中的一个包括所述噪声分布，或者在所述一个关键音频节点之前的所述子音频分布与出现在所述一个关键音频节点之后的所述子音频分布均不包括所述噪声分布的情况下，确定保留所述一个关键音频节点；和

在确定在所述一个关键音频节点之前的所述子音频分布与出现在所述一个关键音频节点之后的所述子音频分布均包括所述噪声分布的情况下，确定放弃所述一个关键音频节点。
如权利要求1-6中任一项所述的视频处理方法，其特征在于，在所述至少一个关键音频节点包括多个关键音频节点的情况下，在所述一个关键音频节点之前的所述子音频分布包括所述视频的起始节点和所述一个关键音频节点之间的所述子音频分布，或者所述多个关键音频节点中位于所述一个关键音频节点之前的关键音频节点与所述一个关键音频节点之间的所述子音频分布。
如权利要求1-7中任一项所述的视频处理方法，其特征在于，在所述至少一个关键音频节点包括多个关键音频节点的情况下，在所述一个关键音频节点之后的所述子音频分布包括所述一个关键音频节点与所述视频的终止节点之间的所述子音频分布，或者所述一个关键音频节点与所述多个关键音频节点中位于所述一个关键音频节点之后的关键音频节点之间的所述子音频分布。
如权利要求5所述的视频处理方法，其特征在于，所述确定是否保留所述至少一个关键图像帧中的所述一个关键图像帧和所述至少一个关键音频节点中的所述一个关键音频节点，包括：

确定所述子音频分布是否包括所述噪声分布，其中所述子音频分布包括与所述一个关键图像帧相关的采样时刻；

在确定所述子音频分布包括所述噪声分布的情况下，确定保留所述一个关键图像帧；和

在确定所述子音频分布不包括所述噪声分布的情况下，确定放弃所述一个关键图像帧。
如权利要求1-9中任一项所述的视频处理方法，其特征在于，所述噪声分布包括：无声分布，非人噪声分布和多人噪声分布中的至少一个。
如权利要求1-10中任一项所述的视频处理方法，其特征在于，所述噪声分布的变化包括出现在所述一个关键音频节点之前的所述子音频分布包括所述噪声分布，并且出现在所述一个关键音频节点之后的所述子音频分布包括非噪声分布；或者出现在所述一个关键音频节点之前的所述子音频分布包括所述非噪声分布，并且出现在所述一个关键音频节点之后的所述子音频分布包括所述噪声分布。
如权利要求1-11中任一项所述的视频处理方法，其特征在于，所述噪声分布的变化包括出现在所述一个关键音频节点之前的所述子音频分布包括所述噪声分布中的至少一种噪声分布，并且出现在所述一个关键音频节点之后的所述子音频分布包括所述噪声分布中的至少另一种噪声分布。
如权利要求5所述的视频处理方法，其特征在于，所述从所述音频分布中选出所述至少一个关键音频节点，包括：

检测所述视频的音频频率，并根据检测到的所述音频频率确定所述视频的多个音频频率分布，其中所述多个音频频率分布中的每个音频频率分布包括同一个音频频率的分布；

对所述多个音频频率分布进行聚类，以获得多个音频频率分布类别，其中所述多个音频频率分布类别中的每个音频频率分布类别包括所述多个音频频率分布中的至少一个音频频率分布；和

选择所述多个音频频率分布类别中的每两个音频频率分布类别的交点，作为所述至少一个关键音频节点。
如权利要求13所述的视频处理方法，其特征在于，所述聚类包括利用聚类算法对所述多个音频频率分布进行聚类，其中所述聚类算法包括SVM和Kmeans算法中的至少一个。
一种视频处理方法，其特征在于，包括：

获得用户对一个视频进行分割的第一指令，其中所述第一指令包括对所述视频的长按指令；

响应于所述第一指令，将所述视频分割成多个子视频，其中所述多个子视频中的每个子视频包括与所述每个子视频的时间段相关联的图像和音频。
如权利要求15所述的方法，其特征在于，还包括：获得所述用户对所述多个子视频中的一个子视频进行分割的第二指令，其中所述第二指令包括对所述一个子视频的长按指令；和

响应于所述第二指令，将所述一个子视频分割成多个孙视频，其中所述多个孙视频中的每个孙视频包括与所述每个孙视频的时间段相关联的图像和音频。
一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有指令，该指令在计算机上执行时使所述计算机执行根据权利要求1-16中任一项所述的方法。
一种电子设备，其特征在于，包括：

存储器，用于存储由所述电子设备的一个或多个处理器执行的指令，以及

处理器，用于执行所述存储器中的所述指令，以执行根据权利要求1-16中任一项所述的方法。