CN113411516B

CN113411516B - 视频处理方法、装置、电子设备及存储介质

Info

Publication number: CN113411516B
Application number: CN202110528331.2A
Authority: CN
Inventors: 汪谷; 任家锐
Original assignee: Beijing Dajia Internet Information Technology Co Ltd
Current assignee: Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2021-05-14
Filing date: 2021-05-14
Publication date: 2023-06-20
Anticipated expiration: 2041-05-14
Also published as: CN113411516A

Abstract

本公开关于一种视频处理方法、装置、电子设备及存储介质，该方法包括：响应于音频导入指令，展示多媒体列表页面，并在所述多媒体列表页面展示视频；从多媒体列表页面展示的视频确定目标视频；基于确定的音频类型，从目标视频提取出对应的目标音频，所述音频类型包括：人声、音乐、原声；将所述目标音频与待处理视频进行合成，得到合成视频。本公开可以依据用户确定的音频类型从目标视频中提取对应的目标音频，提供目标视频的多个音频类型的音频数据的提取功能，用户可以根据需要向自己的待处理视频中导入目标视频中相应音频类型的目标音频，从而提高视频创造的丰富性，多样性，增加用户创作的灵活性。

Description

视频处理方法、装置、电子设备及存储介质

技术领域

本公开涉及视频处理技术领域，尤其涉及一种视频处理方法、装置、电子设备及存储介质。

背景技术

用户在生产短视频时，选择配乐是非常重要的步骤，当前主流的短视频平台一般会提供一定量的曲库，用户可以在曲库中选择自己需要的配乐。但只通过提供的曲库来选择配乐，难以满足用户所有的选歌需求。

相关技术中，用户可以上传视频里的音乐作为用户生产视频的配乐，但是只能上传使用视频中的完整的音频，不能满足用户的需求。

发明内容

本公开提供一种视频处理方法、装置、电子设备及存储介质，以至少解决相关技术中只能上传视频中完整音频的问题。本公开的技术方案如下：

根据本公开实施例的第一方面，提供一种视频处理方法，包括：

响应于音频导入指令，展示多媒体列表页面，并在所述多媒体列表页面展示视频；

从多媒体列表页面展示的视频确定目标视频；

基于确定的音频类型，从目标视频提取出对应的目标音频，所述音频类型包括：人声、音乐、原声；

将所述目标音频与待处理视频进行合成，得到合成视频。

可选的，所述基于确定的音频类型，从目标视频提取出对应的目标音频，包括：

提取所述目标视频中的音频；

若所述音频类型为原声，则将所述音频确定为所述音频类型的目标音频；

若所述音频类型为人声或音乐，则从所述音频中提取出所述音频类型的目标音频。

可选的，所述从所述音频中提取出所述音频类型的目标音频，包括：

对所述音频进行人声识别，从所述音频中提取出所述音频类型的目标音频；或者

将音频提取请求发送至服务器，所述音频提取请求用于请求所述服务器对所述音频进行人声识别，从所述音频中提取出所述音频类型的目标音频；接收所述服务器返回的所述音频类型的目标音频。

可选的，在所述响应于对待处理视频的音频导入指令时，展示多媒体列表页面之前，还包括：

在获取到待处理视频后，展示所述待处理视频的配乐面板界面，从所述配乐面板界面接收所述音频导入指令；或者

在拍摄页面响应于音乐选择指令，显示曲库展示界面，从所述曲库展示界面接收所述音频导入指令。

可选的，从多媒体列表页面展示的视频确定目标视频，包括：

在所述多媒体列表页面中将选中的视频确定为所述目标视频；或者

展示视频预览界面，在所述视频预览界面中接收到对指定视频的选中指令时，将所述指定视频确定为所述目标视频。

可选的，在基于确定的音频类型，从目标视频提取出对应的目标音频之后，还包括：

确定目标音频的展示封面；

展示所述展示封面和所述目标音频的命名。

可选的，在展示所述展示封面和所述目标音频的命名之后，还包括：

响应于对所述目标音频的找相似指令，获取与所述目标音频的相似度大于或等于预设阈值的音频，作为相似音频；

展示所述相似音频。

可选的，所述展示所述相似音频，包括：

弹出音频展示界面，并在所述音频展示界面展示所述相似音频。

可选的，在展示所述相似音频之后，还包括：

基于所述待处理视频的时长对所述相似音频进行裁剪，得到裁剪音频，并将所述裁剪音频与待处理视频进行合成。

可选的，在展示所述相似音频之后，还包括：

收藏选中相似音频；和/或

使用选中相似音频，将所述选中相似音频与所述待处理视频进行合成。

可选的，在展示所述展示封面和所述命名之后，还包括：

删除所述目标音频；或者

展示目标音频的裁剪界面，在所述裁剪界面获取所述目标音频中的裁剪音频。

将所述目标音频存储在本地存储空间中。

可选的，在将所述目标音频存储在本地存储空间中之后，还包括：

在曲库展示界面中，在本地标签下展示提取音频栏和本地音频栏；

在所述提取音频栏展示所述目标音频，并在所述本地音频栏展示本地音频。

可选的，还包括：

在所述提取音频栏对应选中的目标音频展示裁剪控件、删除控件和使用控件。

可选的，还包括：

在所述提取音频栏没有提取到的音频时，在所述提取音频栏展示文字引导语，并展示音频导入控件。

可选的，在基于确定的音频类型，从目标视频提取出对应的目标音频之前，还包括：

展示所有音频类型的设置选项，基于用户对展示的设置选项的选择确定待提取的目标音频的音频类型；或者

识别所述目标视频中所含有的音频类型，展示识别出的音频类型的设置选项，基于用户对展示的设置选项的选择确定待提取的目标音频的音频类型。

根据本公开实施例的第二方面，提供一种视频处理装置，包括：

视频展示模块，被配置为执行响应于音频导入指令，展示多媒体列表页面，并在所述多媒体列表页面展示视频；

目标视频确定模块，被配置为执行从多媒体列表页面展示的视频确定目标视频；

音频提取模块，被配置为执行基于确定的音频类型，从目标视频提取出对应的目标音频，所述音频类型包括：人声、音乐、原声；

音频视频合成模块，被配置为执行将所述目标音频与待处理视频进行合成，得到合成视频。

可选的，所述音频提取模块包括：

完整音频提取单元，被配置为执行提取所述目标视频中的音频；

目标音频确定单元，被配置为执行若所述音频类型为原声，则将所述音频确定为所述音频类型的目标音频；

目标音频提取单元，被配置为执行若所述音频类型为人声或音乐，则从所述音频中提取出所述音频类型的目标音频。

可选的，所述目标音频提取单元包括：

第一音频提取子单元，被配置为执行对所述音频进行人声识别，从所述音频中提取出所述音频类型的目标音频；或者

第二音频提取子单元，被配置为执行将音频提取请求发送至服务器，所述音频提取请求用于请求所述服务器对所述音频进行人声识别，从所述音频中提取出所述音频类型的目标音频；接收所述服务器返回的所述音频类型的目标音频。

可选的，所述装置还包括：

导入指令接收模块，被配置为执行在获取到待处理视频后，展示所述待处理视频的配乐面板界面，从所述配乐面板界面接收所述音频提取指令；或者，在拍摄页面响应于音乐选择指令，显示曲库展示界面，从所述曲库展示界面接收所述音频提取指令。

可选的，所述目标视频确定模块包括：

列表页面确定单元，被配置为执行在所述多媒体列表页面中将选中的视频确定为所述目标视频；或者

预览界面确定单元，被配置为执行展示视频预览界面，在所述视频预览界面中接收到对指定视频的选中指令时，将所述指定视频确定为所述目标视频。

可选的，所述装置还包括：

封面命名确定模块，被配置为执行确定目标音频的展示封面；

封面命名展示模块，被配置为执行展示所述展示封面和所述目标音频的命名。

可选的，所述装置还包括：

找相似请求发送模块，被配置为执行响应于对所述目标音频的找相似指令，获取与所述目标音频的相似度大于或等于预设阈值的音频，作为相似音频；

相似音频展示模块，被配置为执行展示所述相似音频。

可选的，所述相似音频展示模块具体被配置为执行：

可选的，所述装置还包括：

音频裁剪模块，被配置为执行基于所述待处理视频的时长对所述相似音频进行裁剪，得到裁剪音频，并将所述裁剪音频与待处理视频进行合成。

可选的，所述装置还包括：

音频收藏模块，被配置为执行收藏选中相似音频；和/或

音频使用模块，被配置为执行使用选中相似音频，将所述选中相似音频与所述待处理视频进行合成。

可选的，所述装置还包括：

目标音频删除模块，被配置为执行删除所述目标音频；或者

目标音频裁剪模块，被配置为执行展示目标音频的裁剪界面，在所述裁剪界面获取所述目标音频中的裁剪音频。

可选的，所述装置还包括：

目标音频存储模块，被配置为执行将所述目标音频存储在本地存储空间中。

可选的，所述装置还包括：

曲库界面展示模块，被配置为执行在曲库展示界面中，在本地标签下展示提取音频栏和本地音频栏；

音频展示模块，被配置为执行在所述提取音频栏展示所述目标音频，并在所述本地音频栏展示本地音频。

可选的，所述装置还包括：

曲库控件展示模块，被配置为执行在所述提取音频栏对应选中的目标音频展示裁剪控件、删除控件和使用控件。

可选的，所述装置还包括：

引导语展示模块，被配置为执行在所述提取音频栏没有提取到的音频时，在所述提取音频栏展示文字引导语，并展示音频导入控件。

可选的，所述装置还包括：

音频选项展示模块，被配置为执行展示所有音频类型的设置选项，基于用户对展示的设置选项的选择确定待提取的目标音频的音频类型；或者，识别所述目标视频中所含有的音频类型，展示识别出的音频类型的设置选项，基于用户对展示的设置选项的选择确定待提取的目标音频的音频类型。

根据本公开实施例的第三方面，提供一种电子设备，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现如第一方面所述的视频处理方法。

根据本公开实施例的第四方面，提供一种计算机可读存储介质，当所述计算机存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行如第一方面所述的视频处理方法。

根据本公开实施例的第五方面，提供一种计算机程序产品，包括计算机程序或计算机指令，所述计算机程序或计算机指令被处理器执行时实现第一方面所述的视频处理方法。

本公开的实施例提供的技术方案至少带来以下有益效果：

本公开实施例中，可以依据用户确定的音频类型从目标视频中提取对应的目标音频，提供目标视频的多个音频类型的音频数据的提取功能，用户可以根据需要向自己的待处理视频中导入目标视频中相应音频类型的目标音频，从而提高视频创造的丰富性，多样性，增加用户创作的灵活性。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理，并不构成对本公开的不当限定。

图1是根据一示例性实施例示出的一种视频处理方法的流程图；

图2是本公开实施例中的相册页面的示意图；

图3是本公开实施例中视频预览界面的示意图；

图4是本公开实施例中的配乐面板展示界面的示意图；

图5是本公开实施例中在配乐面板展示界面展示找相似控件的示意图；

图6是本公开实施例中的一个曲库展示界面的示意图；

图7是本公开实施例中的另一个曲库展示界面的示意图；

图8是根据一示例性实施例示出的一种视频处理装置的框图；

图9是根据一示例性实施例示出的一种电子设备的框图。

具体实施方式

为了使本领域普通人员更好地理解本公开的技术方案，下面将结合附图，对本公开实施例中的技术方案进行清楚、完整地描述。

需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

图1是根据一示例性实施例示出的一种视频处理方法的流程图，如图1所示，该视频处理方法可以用于手机、平板电脑等电子设备中，包括以下步骤。

在步骤S11中，响应于音频导入指令，展示多媒体列表页面，并在所述多媒体列表页面展示视频。

其中，所述音频导入指令用于指示提取多媒体列表页面所展示的视频中的音频。所述多媒体列表页面展示的视频可以是本地视频，也可以是网络视频，或者，还可以同时包括本地视频和网络视频。

在接收到音频导入指令时，获取本地视频和/或网络视频，并展示多媒体列表页面，在多媒体列表页面中展示获取到的视频，在多媒体列表页面可以基于用户的滑动指令以展示所有的视频。

在一个示例性实施例中，在所述响应于音频导入指令，展示多媒体列表页面之前，还包括：

在拍摄到一段待处理视频后，基于用户的配乐指令，展示待处理视频的配乐面板界面，在配乐面板界面中展示音频导入控件，检测到用户点击音频导入控件时，接收到音频导入指令。或者，在拍摄页面基于用户的音乐选择指令，显示曲库展示界面，在曲库展示界面展示已有的音乐，在曲库展示界面同时展示音频导入控件，检测到用户点击该音频导入控件时，接收到音频导入指令。曲库展示界面中展示的已有的音乐可以是之前从视频中提取到的音频，在选中一个音频时，可以播放该音频，并且展示该音频的使用控件，如果用户点击使用控件则将该音频用于要拍摄的视频中，在拍摄视频的过程中播放该音频。由于可以通过配乐面板界面和曲库展示界面来接收音频导入指令，提供了多种实现音频导入的方式，用户可以根据需要选择使用。

在步骤S12中，从多媒体列表页面展示的视频确定目标视频。

在所述多媒体列表页面中，用户可以上下滑动页面以展示所有的视频的封面，用户可以根据展示的视频的封面选择要提取音频的目标视频，在检测到用户选中一个视频时，将用户选中的视频确定为目标视频。

在一个示例性实施例中，从多媒体列表页面展示的视频确定目标视频，包括：

图2是本公开实施例中的多媒体列表页面的示意图，如图2所示，多媒体列表页面中可以展示多个视频的封面，每个视频中均有选择控件1，用户可以选中想使用的视频，这时在多媒体列表页面中接收到用户对视频的选中指令，将用户选中的视频确定为目标视频；如图2所示，多媒体列表页面中还可以展示音频导入控件2，多媒体列表页面中音频导入控件2的位置可以是多媒体列表页面的下方，当然，也可以在其他位置展示音频导入控件，在多媒体列表页面中检测到用户点击音频导入控件时，确定接收到用户对目标视频的音频导入指令。在多媒体列表页面中用户可以根据展示的视频快捷地选定要提取音频的目标视频。

在多媒体列表页面中检测到用户点击一个视频时，确定检测到用户对该视频的预览指令，该视频即为指定视频，响应于对指定视频的预览指令，跳转到视频预览界面，在视频预览界面中播放指定视频，同时播放指定视频中的音频，图3是本公开实施例中视频预览界面的示意图，如图3所示，在视频预览界面中展示该视频的选择控件1，选择控件1可以展示于视频预览界面的右上角位置，在检测到用户点击该选择控件1时，确定接收到用户对该指定视频的选中指令，这时将该指定视频确定为目标视频，在视频预览界面接收到返回指令时，返回到如图2所示的多媒体列表页面，并在多媒体列表页面中选中该目标视频，在多媒体列表页面中检测到用户点击音频导入控件时，接收到用户对该目标视频的音频导入指令。在多媒体列表页面中展示的多个视频中用户可以选定要预览的指定视频，并在视频预览界面进行预览播放，经过预览，用户可以决定是否要将该指定视频作为音频提取的目标视频，从而为用户提供了选取目标视频进行音频提取的参考。

在步骤S13中，基于确定的音频类型，从目标视频提取出对应的目标音频，所述音频类型包括：人声、音乐、原声。

其中，所述原声是一个视频中的完整的音频，人声是视频中未添加音乐时原始的声音，音乐是视频中添加的配乐。

在所述多媒体列表页面中可以展示音频设置控件，在检测到用户点击音频设置控件时，展示音频类型的选项，音频类型的选项可以包括仅人声、音乐和原声，用户可以选择其中的一个选项，从而获取到确定的音频类型。本公开实施例中，在用户可以选择提取全部声音即提取原声的基础上，用户还可以选择提取人声或者选择提取音乐。

在确定音频类型后，从目标视频中提取出音频，并基于确定的音频类型，从音频中提取出所述音频类型的目标音频。如果确定的音频类型为原声，则从目标视频中提取出的音频即为目标音频，如果确定的音频类型为人声或音乐，则从提取出的音频中分离出人声音频和音乐音频，从分离出的人声音频和音乐音频中选择出所确定的音频类型的音频，得到目标音频。例如，确定的音频类型为人声时，从分离出的人声音频和音乐音频中选择出人声音频，该人声音频即为目标音频；或者，所确定的音频类型为音乐时，从分离出的人声音频和音乐音频中选择出音乐音频，该音乐音频即为目标音频。

在一个示例性实施例中，在基于确定的音频类型，从目标视频提取出对应的目标音频之前，还包括：

在所述多媒体列表页面中可以展示音频设置控件，在检测到用户点击音频设置控件时，接收到提取设置指令，展示所有音频类型的设置选项，即展示的设置选项包括人声、音乐和原声，用户可以选中需要的设置选项，从而基于用户对展示的设置选项的选择确定待提取的目标音频的音频类型。

在接收到提取设置指令时，还可以对目标视频中的音频类型进行识别，确定目标视频中所含有的音频类型，展示识别出的音频类型的设置选项，或者也可以展示所有的音频类型，而识别出的音频类型的设置选项可以供用户选择，目标视频中不含有的音频类型是不可选择的状态，例如，通过识别确定目标视频中只有音乐，则可以将音乐的设置选项展示为可选的状态，人声的设置选项展示为不可选的状态。

通过基于展示的设置选项确定待提取的目标音频的音频类型，可以供用户方便的设置所需的音频类型。

在一个示例性实施例中，所述基于确定的音频类型，从目标视频提取出对应的目标音频，包括：提取所述目标视频中的音频；若所述音频类型为原声，则将所述音频确定为所述音频类型的目标音频；若所述音频类型为人声或音乐，则从所述音频中提取出所述音频类型的目标音频。

在确定要提取的音频类型后，从目标视频中提取出完整的音频，如果所确定的音频类型为原声，则可以直接将提取到的该音频确定为目标音频，如果所确定的音频类型为人声或音乐，则可以对从目标视频中提取到的音频进行人声和音乐的分离，并提取出所确定的音频类型的目标音频。通过在音频类型为原声时，将从目标视频中提取到的音频直接确定为目标音频，在音频类型为人声或音乐时，再对提取到的音频进行目标音频的提取，实现了对视频中的多种音频类型的音频的提取，满足用户对不同音频类型的音频需求。

在一个示例性实施例中，所述从所述音频中提取出所述音频类型的目标音频，包括：

在确定的音频类型为人声或音乐时，可以通过人声识别模型对从目标视频中提取到的音频进行人声识别，以分离出音频中的人声音频和音乐音频，从提取出的人声音频和音乐音频中选择出所确定的音频类型的目标音频。通过人声识别可以准确地从目标视频的完整音频中提取出所需音频类型的目标音频。

在确定的音频类型为人声或音乐时，确定获取到包括从目标视频中提取到的音频和所述音频类型的音频提取请求，将该音频提取请求发送至服务器，由服务器根据音频提取请求通过人声识别模型对所述音频进行人声识别，分离出所述音频中的人声音频和音乐音频，并根据音频提取请求中的音频类型，从人声音频和音乐音频中选择出所述音频类型的目标音频，并返回该目标音频，从而执行视频处理方法的电子设备接收到服务器返回的目标音频。通过将音频和音频类型发送至服务器，由服务器提取音频中的目标音频，可以准确提取出所需音频类型的目标音频，并且可以提高音频提取速度。

在步骤S14中，将所述目标音频与待处理视频进行合成，得到合成视频。

在从目标视频中提取出所需音频类型的目标音频后，可以将该目标音频用于待处理视频中，作为该待处理视频的配乐，即将目标音频与待处理视频进行合成，得到合成视频。该待处理视频可以是用户提取目标音频之前拍摄的视频，或者，也可以是在提取目标音频后拍摄的视频。

在将目标音频与待处理视频进行合成时，若目标音频的时长小于待处理视频的时长，则可以在目标音频播放完后就停止，不循环播放，或者，也可以循环播放目标音频，使得循环播放的目标音频的时长与待处理视频的时长相同。

通过本公开实施例的视频处理方法，用户可以从目标视频中提取目标音频，将目标音频作为用户生产视频的配乐，如果一个视频的音频里含有嘈杂的人声，用户可以选择音乐作为所提取的音频类型，从而可以从目标视频的音频里提取出其中的音乐作为目标音频，实现了对视频中完整音频的分离，可以提取多种音频类型的目标音频。

本示例性实施例提供的视频处理方法，可以依据用户确定的音频类型从目标视频中提取对应的目标音频，提供目标视频的多个音频类型的音频数据的提取功能，用户可以根据需要向自己的待处理视频中导入目标视频中相应音频类型的目标音频，从而提高视频创造的丰富性，多样性，增加用户创作的灵活性。

在上述技术方案的基础上，在基于确定的音频类型，从目标视频提取出对应的目标音频之后，还包括：确定目标音频的展示封面；展示所述展示封面和所述目标音频的命名。

在从目标视频中提取到所需音频类型的目标音频之后，可以根据提取时间对目标音频进行命名，目标音频的名称可以命名为“时间+导入+序号”，例如一个目标音频可以命名为“20210416导入1”，从目标视频中选择一帧画面，作为目标音频的展示封面，例如可以将目标视频的首帧画面确定为目标音频的展示封面，可以展示配乐面板界面，在配乐面板界面中展示导入标签，并在导入标签下展示目标音频的展示封面和目标音频的命名。图4是本公开实施例中的配乐面板展示界面的示意图，如图4所示，配乐面板展示界面可以包括推荐标签、收藏标签和导入标签，推荐标签下用于展示向用户推荐的音频，收藏标签下用于展示用户收藏过的音频，导入标签下用于展示用户从本地视频或网络视频中提取的音频，在从目标视频中提取到目标音频后，目标音频的展示封面和命名会在该导入标签下进行展示。通过展示目标音频的展示封面和命名，可以便于用户区分从视频中提取到的音频和其他音频，并且便于用户使用提取到的目标音频。

在上述技术方案的基础上，在展示所述展示封面和所述目标音频的命名之后，还包括：响应于对所述目标音频的找相似指令，获取与所述目标音频的相似度大于或等于预设阈值的音频，作为相似音频；展示所述相似音频。

其中，所述相似音频可以包括音乐、人声等，所述音乐可以包括歌曲或者乐音。

可以在配乐面板界面的导入标签下展示目标音频的展示封面和命名后，默认选中目标音频，当然，用户也可以选择其他音频，选中的音频为目标音频，如图5所示，在配乐面板展示界面展示找相似控件3，在检测到用户点击找相似控件时，接收到用户对目标音频的找相似指令，这时，生成包括目标音频的找相似请求，并将找相似请求发送至服务器，服务器在存储音频的数据库中查找与目标音频的相似度大于或等于预设阈值的音频，作为相似音频，并将查找到的相似音频返回给执行视频处理方法的电子设备，执行视频处理方法的电子设备接收到服务器返回的所述相似音频，展示所述相似音频。通过基于找相似指令展示与提取到的目标音频相似的音频，可以方便用户查找相似音频，解决了相关技术中不能查找目标视频中的相似音频的问题。例如，目标视频中的音频只有某音乐的一部分，用户通过提取目标音频中的音乐作为目标音频后，基于找相似指令可以查找到完整的音乐。

在上述技术方案的基础上，所述展示所述相似音频，包括：弹出音频展示界面，并在所述音频展示界面展示所述相似音频。

在展示相似音频时，可以弹出音频展示界面，并在音频展示界面中展示相似音频，在音频展示界面中可以以列表的形式展示多个相似音频。通过弹出的音频展示界面展示相似音频，可以便于用户区分提取到的音频和相似音频。

在上述技术方案的基础上，在展示所述相似音频之后，还包括：基于所述待处理视频的时长对所述相似音频进行裁剪，得到裁剪音频，并将所述裁剪音频与待处理视频进行合成。

在展示与目标音频相似的音频后，用户可以预览展示的相似音频，在检测到用户点击某一个相似音频时，确定该相似音频为选中相似音频，可以播放该选中的相似音频，对应选中的相似音频可以展示裁剪控件，便于用户对该选中相似音频进行裁剪操作，在检测到用户点击裁剪控件时，确定接收到裁剪指令，这时可以基于待处理视频的时长对所述相似音频进行裁剪，得到裁剪音频，或者在接收到裁剪指令时，还可以展示选中相似音频的裁剪界面，在裁剪界面可以展示该选中相似音频的时间控制条，用户可以基于展示的时间控制条设置选中相似音频的裁剪起点和裁剪终点，从而基于裁剪起点和裁剪终点获取到选中相似音频中的裁剪音频，得到裁剪音频后可以将裁剪音频用于待处理视频中，即将裁剪音频与待处理视频进行合成。通过待处理视频的时长对相似音频进行裁剪，实现了对相似音频的裁剪操作，并可以将裁剪后得到的裁剪音频用于待处理视频中，可以满足用户的裁剪需求。

在上述技术方案的基础上，在展示所述相似音频之后，还包括：收藏选中相似音频；和/或，使用选中相似音频，将所述选中相似音频与所述待处理视频进行合成。

在展示相似音频时，对应选中相似音频还可以展示收藏控件和/或使用控件，检测到用户点击收藏控件时，确定接收到收藏指令，收藏选中相似音频，检测到用户点击使用控件时，确定接收到使用指令，可以将选中相似音频与待处理视频进行合成，实现了对选中相似音频进行收藏和/或使用操作。

在上述技术方案的基础上，在展示所述展示封面和所述命名之后，还包括：删除所述目标音频；或者，展示目标音频的裁剪界面，在所述裁剪界面获取所述目标音频中的裁剪音频。

在配乐面板界面中，对应导入标签可以展示删除控件和裁剪控件，在选中目标音频后，如果用户点击删除控件，则接收到删除指令，可以删除导入标签下选中的目标音频，如果用户点击裁剪控件，则接收到裁剪指令，可以对导入标签下选中的目标音频进行裁剪，进行裁剪时同上述的相似音频的裁剪方式，这里不再赘述。实现了对从视频中提取到的目标音频的删除或裁剪，便于用户对从视频中提取到的目标音频进行删除或裁剪操作。

在一个示例性实施例中，在基于确定的音频类型，从目标视频提取出对应的目标音频之后，还包括：将所述目标音频存储在本地存储空间中。

在从目标视频中提取到所需音频类型的目标音频后，将目标音频存储在本地存储空间中，从而可以长期保存用户从视频中提取的目标音频，用户清除缓存后也可以在本地存储空间中查找到该目标音频。

在上述技术方案的基础上，在将所述目标音频存储在本地存储空间中之后，还包括：在曲库展示界面中，在本地标签下展示提取音频栏和本地音频栏；在所述提取音频栏展示所述目标音频，并在所述本地音频栏展示本地音频。

图6是本公开实施例中的一个曲库展示界面的示意图，如图6所示，曲库展示界面可以包括推荐标签、收藏标签、用过标签和本地标签，在本地标签下，可以竖排展示提取音频栏和本地音频栏，当然还可以其他方式展示提取音频栏和本地音频栏，并在曲库展示界面的下方展示音频导入控件4，在提取音频栏中展示目标音频，即提取音频栏中展示从视频中提取到的目标音频，用户可以将展示的已有目标音频用于要拍摄的视频中，在本地音频栏中展示本地音频，即读取电子设备本地的音频并在本地音频栏中进行展示。通过在曲库展示界面的本地标签下展示提取音频栏和本地音频栏，便于用户区分从视频中提取到的音频和本地音频。

在上述技术方案的基础上，所述方法还包括：在所述提取音频栏对应选中的目标音频展示裁剪控件、删除控件和使用控件。

在提取音频栏检测到用户点击某一目标音频时，确定用户选中该目标音频，可以对该目标音频进行预览播放，同时对应该目标音频可以展示裁剪控件、删除控件和使用控件。在检测到用户点击裁剪控件时，可以展示裁剪界面并在裁剪界面获取用户对该选中的目标音频的裁剪音频。在检测到用户点击删除控件时，可以删除该选中的目标音频，同时可以在本地存储空间中删除该选中的目标音频。在检测到用户点击使用控件时，可以将该选中的目标音频与待处理视频进行合成。通过在提取音频栏对应选中的目标音频展示裁剪控件、删除控件和使用控件，便于用户对选中的目标音频进行相应的操作。

在本地音频栏对于选中音频可以展示裁剪控件和使用控件，不展示删除控件，用户若想删除本地音频可以在本地音频的展示界面进行删除。音频提取栏相对于本地音频栏，增加了删除控件，用户可以删除音频提取栏中的音频。

在上述技术方案的基础上，所述方法还包括：在所述提取音频栏没有提取到的音频时，在所述提取音频栏展示文字引导语，并展示音频导入控件。

图7是本公开实施例中的另一个曲库展示界面的示意图，在提取音频栏没有提取到的音频时，即还没有从本地视频中提取过目标音频时，在音频提取栏展示文字引导语5，该文字引导语用于引导用户从视频中提取目标音频，同时在提取音频栏展示音频导入控件4，即相对于图6中所示的音频导入控件的位置进行了上移，这样在用户没有使用过音频提取功能时可以更好的引导用户从视频中提取音频。

曲库展示界面内展示的音频和配乐面板界面中导入标签下的音频一致。配乐面板界面导入标签下的音频流和曲库展示界面内本地标签下的音频流可以完全相同，即导入标签下音频顺序排列同曲库展示界面中的音频顺序，即提取音频在前，本地音频在后。曲库展示界面和配乐面板界面两个场景内，提取音频可删除和裁剪，本地音频只能裁剪。

图8是根据一示例性实施例示出的一种视频中的音频处理装置的框图。参照图8，该装置包括视频展示模块81、目标视频确定模块82、音频提取模块83和音频视频合成模块84。

该视频展示模块81被配置为执行响应于音频导入指令，展示多媒体列表页面，并在所述多媒体列表页面展示视频；

该目标视频确定模块82被配置为执行从多媒体列表页面展示的视频确定目标视频；

该音频提取模块83被配置为执行基于确定的音频类型，从目标视频提取出对应的目标音频，所述音频类型包括：人声、音乐、原声；

该音频视频合成模块84被配置为执行将所述目标音频与待处理视频进行合成，得到合成视频。

可选的，所述音频提取模块包括：

可选的，所述目标音频提取单元包括：

可选的，所述装置还包括：

可选的，所述目标视频确定模块包括：

可选的，所述装置还包括：

封面命名确定模块，被配置为确定目标音频的展示封面；

可选的，所述装置还包括：

相似音频展示模块，被配置为执行展示所述相似音频。

可选的，所述相似音频展示模块具体被配置为执行：

可选的，所述装置还包括：

音频收藏模块，被配置为执行收藏选中相似音频；和/或

可选的，所述装置还包括：

目标音频删除模块，被配置为执行删除所述目标音频；或者

可选的，所述装置还包括：

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

图9是根据一示例性实施例示出的一种电子设备的框图。例如，电子设备900可以是移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理等。

参照图9，电子设备900可以包括以下一个或多个组件：处理组件902，存储器904，电力组件906，多媒体组件908，音频组件910，输入/输出(I/O)的接口912，传感器组件914，以及通信组件916。

处理组件902通常控制电子设备900的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理组件902可以包括一个或多个处理器920来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件902可以包括一个或多个模块，便于处理组件902和其他组件之间的交互。例如，处理组件902可以包括多媒体模块，以方便多媒体组件908和处理组件902之间的交互。

存储器904被配置为存储各种类型的数据以支持在电子设备900的操作。这些数据的示例包括用于在电子设备900上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器904可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

电源组件906为电子设备900的各种组件提供电力。电源组件906可以包括电源管理***，一个或多个电源，及其他与为电子设备900生成、管理和分配电力相关联的组件。

多媒体组件908包括在所述电子设备900和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件908包括一个前置摄像头和/或后置摄像头。当电子设备900处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜***或具有焦距和光学变焦能力。

音频组件910被配置为输出和/或输入音频信号。例如，音频组件910包括一个麦克风(MIC)，当电子设备900处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器904或经由通信组件916发送。在一些实施例中，音频组件910还包括一个扬声器，用于输出音频信号。

I/O接口912为处理组件902和***接口模块之间提供接口，上述***接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件914包括一个或多个传感器，用于为电子设备900提供各个方面的状态评估。例如，传感器组件914可以检测到电子设备900的打开/关闭状态，组件的相对定位，例如所述组件为电子设备900的显示器和小键盘，传感器组件914还可以检测电子设备900或电子设备900一个组件的位置改变，用户与电子设备900接触的存在或不存在，电子设备900方位或加速/减速和电子设备900的温度变化。传感器组件914可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件914还可以包括光传感器，如CMOS或CCD图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件914还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件916被配置为便于电子设备900和其他设备之间有线或无线方式的通信。电子设备900可以接入基于通信标准的无线网络，如WiFi，运营商网络(如2G、3G、4G或5G)，或它们的组合。在一个示例性实施例中，通信组件916经由广播信道接收来自外部广播管理***的广播信号或广播相关信息。在一个示例性实施例中，所述通信组件916还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

在示例性实施例中，电子设备900可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述方法。

在示例性实施例中，还提供了一种包括指令的计算机可读存储介质，例如包括指令的存储器904，上述指令可由电子设备900的处理器920执行以完成上述视频处理方法。可选地，计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

在示例性实施例中，还提供一种计算机程序产品，包括计算机程序或计算机指令，所述计算机程序或计算机指令被处理器执行时实现上述的视频处理方法。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本发明并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

Claims

1.一种视频处理方法，其特征在于，包括：

响应于音频导入指令，展示多媒体列表页面，并在所述多媒体列表页面展示视频；所述多媒体列表页面展示的视频包括本地视频；

从多媒体列表页面展示的视频确定目标视频；所述多媒体列表页面中展示音频设置控件，在检测到用户点击所述音频设置控件时，展示音频类型的选项；所述音频类型的选项用于确定所述音频类型；

将所述目标音频与待处理视频进行合成，得到合成视频。

2.根据权利要求1所述的方法，其特征在于，所述基于确定的音频类型，从目标视频提取出对应的目标音频，包括：

提取所述目标视频中的音频；

3.根据权利要求2所述的方法，其特征在于，所述从所述音频中提取出所述音频类型的目标音频，包括：

4.根据权利要求1所述的方法，其特征在于，在所述响应于音频导入指令，展示多媒体列表页面之前，还包括：

5.根据权利要求1所述的方法，其特征在于，从多媒体列表页面展示的视频确定目标视频，包括：

6.根据权利要求1-5任一项所述的方法，其特征在于，在基于确定的音频类型，从目标视频提取出对应的目标音频之后，还包括：

确定目标音频的展示封面；

展示所述展示封面和所述目标音频的命名。

7.根据权利要求6所述的方法，其特征在于，在展示所述展示封面和所述目标音频的命名之后，还包括：

展示所述相似音频。

8.根据权利要求7所述的方法，其特征在于，所述展示所述相似音频，包括：

9.根据权利要求7所述的方法，其特征在于，在展示所述相似音频之后，还包括：

10.根据权利要求7所述的方法，其特征在于，在展示所述相似音频之后，还包括：

收藏选中相似音频；和/或

11.根据权利要求7所述的方法，其特征在于，在展示所述展示封面和所述命名之后，还包括：

删除所述目标音频；或者展示目标音频的裁剪界面，在所述裁剪界面获取所述目标音频中的裁剪音频。

12.根据权利要求1-5任一项所述的方法，其特征在于，在基于确定的音频类型，从目标视频提取出对应的目标音频之后，还包括：

将所述目标音频存储在本地存储空间中。

13.根据权利要求12所述的方法，其特征在于，在将所述目标音频存储在本地存储空间中之后，还包括：

14.根据权利要求13所述的方法，其特征在于，还包括：

15.根据权利要求13所述的方法，其特征在于，还包括：

16.根据权利要求1-5任一项所述的方法，其特征在于，在基于确定的音频类型，从目标视频提取出对应的目标音频之前，还包括：

17.一种视频处理装置，其特征在于，包括：

视频展示模块，被配置为执行响应于音频导入指令，展示多媒体列表页面，并在所述多媒体列表页面展示视频；所述多媒体列表页面展示的视频包括本地视频；

目标视频确定模块，被配置为执行从多媒体列表页面展示的视频确定目标视频；所述多媒体列表页面中展示音频设置控件，在检测到用户点击所述音频设置控件时，展示音频类型的选项；所述音频类型的选项用于确定所述音频类型；

18.根据权利要求17所述的装置，其特征在于，所述音频提取模块包括：

19.根据权利要求18所述的装置，其特征在于，所述目标音频提取单元包括：

20.根据权利要求17所述的装置，其特征在于，所述装置还包括：

导入指令接收模块，被配置为执行在获取到待处理视频后，展示所述待处理视频的配乐面板界面，从所述配乐面板界面接收所述音频导入指令；或者，在拍摄页面响应于音乐选择指令，显示曲库展示界面，从所述曲库展示界面接收所述音频导入指令。

21.根据权利要求17所述的装置，其特征在于，所述目标视频确定模块包括：

22.根据权利要求17-21任一项所述的装置，其特征在于，所述装置还包括：

23.根据权利要求22所述的装置，其特征在于，所述装置还包括：

相似音频展示模块，被配置为执行展示所述相似音频。

24.根据权利要求23所述的装置，其特征在于，所述相似音频展示模块具体被配置为执行：

25.根据权利要求23所述的装置，其特征在于，所述装置还包括：

26.根据权利要求23所述的装置，其特征在于，所述装置还包括：

音频收藏模块，被配置为执行收藏选中相似音频；和/或

27.根据权利要求23所述的装置，其特征在于，所述装置还包括：

目标音频删除模块，被配置为执行删除所述目标音频；或者

28.根据权利要求17-21任一项所述的装置，其特征在于，所述装置还包括：

29.根据权利要求28所述的装置，其特征在于，所述装置还包括：

30.根据权利要求29所述的装置，其特征在于，所述装置还包括：

31.根据权利要求29所述的装置，其特征在于，所述装置还包括：

32.根据权利要求17-21任一项所述的装置，其特征在于，所述装置还包括：

33.一种电子设备，其特征在于，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现如权利要求1至16中任一项所述的视频处理方法。

34.一种计算机可读存储介质，当所述计算机存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行如权利要求1至16中任一项所述的视频处理方法。