CN110602424A

CN110602424A - 视频处理方法及电子设备

Info

Publication number: CN110602424A
Application number: CN201910803481.2A
Authority: CN
Inventors: 沈军行
Original assignee: Vivo Mobile Communication Co Ltd
Current assignee: Vivo Mobile Communication Co Ltd
Priority date: 2019-08-28
Filing date: 2019-08-28
Publication date: 2019-12-20

Abstract

本发明实施例公开了一种视频处理方法及电子设备。其中，视频处理方法包括：获取第一视频数据的第一图像数据和第一音频数据；通过预设的对象分离网络，对第一图像数据中的至少一个主体对象的像素进行聚焦处理，得到至少一个第二图像数据；通过预设的语音分离网络，对第一音频数据中的至少一个主体对象匹配的音频数据进行聚焦处理，得到至少一个第二音频数据；对第二图像数据和第二音频数据进行编码压缩处理，得到第二视频数据。利用本发明实施例能够实现对每一个主体对象的图像和音频进行聚焦处理。

Description

视频处理方法及电子设备

技术领域

本发明实施例涉及人工智能技术领域，尤其涉及一种视频处理方法及电子设备。

背景技术

目前，图像、音频的分离技术已经广泛地应用；在对图像分离或音频分离之后，可以对分离的图像或音频进行聚焦处理，实现对图像或音频的聚焦。

但是，只是单纯地对图像或音频进行聚焦处理，并未考虑到一个视频中每一个主体对象对应的图像和音频可以不同，也未针对每一个主体对象对应的图像和音频分别进行聚焦。

发明内容

本发明实施例提供一种视频处理方法及电子设备，以解决不能针对每一个主体对象对应的图像和音频分别进行聚焦的问题。

为了解决上述技术问题，本发明是这样实现的：

第一方面，本发明实施例提供了一种视频处理方法，该视频处理方法包括：

获取第一视频数据的第一图像数据和第一音频数据；

通过预设的对象分离网络，对第一图像数据中的至少一个主体对象的像素进行聚焦处理，得到至少一个第二图像数据；

通过预设的语音分离网络，对第一音频数据中的至少一个主体对象匹配的音频数据进行聚焦处理，得到至少一个第二音频数据；

对第二图像数据和第二音频数据进行编码压缩处理，得到第二视频数据。

第二方面，本发明实施例提供了一种电子设备，该电子设备包括：

获取模块，用于获取第一视频数据的第一图像数据和第一音频数据；

第一聚焦模块，用于通过预设的对象分离网络，对第一图像数据中的至少一个主体对象的像素进行聚焦处理，得到至少一个第二图像数据；

第二聚焦模块，用于通过预设的语音分离网络，对第一音频数据中的至少一个主体对象匹配的音频数据进行聚焦处理，得到至少一个第二音频数据；

编码模块，用于对第二图像数据和第二音频数据进行编码压缩处理，得到第二视频数据。

第三方面，本发明实施例提供了一种电子设备，其特征在于，包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现第一方面所述的视频处理方法的步骤。

第四方面，本发明实施例还提供一种电子设备，其特征在于，包括：

触摸屏，其中，所述触摸屏包括触敏表面和显示屏；

一个或多个处理器；

一个或多个存储器；

一个或多个传感器；

以及一个或多个计算机程序，其中所述一个或多个计算机程序被存储在所述一个或多个存储器中，所述一个或多个计算机程序包括指令，当所述指令被所述电子设备执行时，使得所述电子设备执行第一方面所述的视频处理方法的步骤。

第五方面，本发明实施例还提供一种计算机非瞬态存储介质，所述计算机非瞬态存储介质存储有计算机程序，其特征在于，所述计算机程序被计算设备执行时实现第一方面所述的视频处理方法的步骤。

第六方面，本发明实施例还提供一种计算机程序产品，其特征在于，当所述计算机程序产品在计算机上运行时，使得所述计算机执行第一方面所述的视频处理方法。

在本发明实施例中，通过预设的对象分离网络，对电子设备第一图像数据中的至少一个主体对象的像素进行聚焦处理，得到至少一个第二图像数据；以及通过预设的语音分离网络，对电子设备第一音频数据中的至少一个主体对象匹配的音频数据进行聚焦处理，得到至少一个第二音频数据，进而能够实现对每一个主体对象的图像数据和音频数据的聚焦处理。

附图说明

图1为本发明实施例提供的一种视频处理方法的流程图；

图2为本发明实施例提供的多人聚焦示意图；

图3为本发明实施例提供的一种视频处理示意图；

图4为本发明实施例提供的另一种视频处理示意图；

图5为本发明实施例提供的一种电子设备的示意图；

图6为本发明实施例提供的一种电子设备的示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1为本发明实施例提供的一种视频处理方法的流程图。如图1所示，该视频处理方法可以包括：

步骤101：获取第一视频数据的图像数据和音频数据；

步骤102：通过预设的对象分离网络，对第一图像数据中的至少一个主体对象的像素进行聚焦处理，得到至少一个第二图像数据；

步骤103：通过预设的语音分离网络，对第一音频数据中的至少一个主体对象匹配的音频数据进行聚焦处理，得到至少一个第二音频数据；

步骤104：对第二图像数据和第二音频数据进行编码压缩处理，得到第二视频数据。

在本发明实施例中，通过预设的对象分离网络，对电子设备第一图像数据中的至少一个主体对象的像素进行聚焦处理，得到至少一个第二图像数据；以及通过预设的语音分离网络，对电子设备第一音频数据中的至少一个主体对象匹配的音频数据进行聚焦处理，得到至少一个第二音频数据；进而能够实现对每一个主体对象的图像数据和音频数据的聚焦处理。

在本发明实施例中，步骤101所述的第一图像数据为第一视频数据中的图像数据；步骤101所述的第一音频数据为第一视频数据中的音频数据；其中，第一图像数据可以通过摄像头或者其他图像采集设备从第一音频数据中获取；第一音频数据可以通过麦克风或者其他音频采集设备从第一音频数据中获取。

在本发明实施例中，步骤102所述的对至少一个主体对象的像素进行聚焦处理，包括：

基于至少一个主体对象的像素，从图像数据的每一帧图像中识别出非主体对象的像素；

基于预定的高斯滤波处理系数，对非主体对象的像素进行高斯滤波处理；或者

基于预定的灰度处理系数，对非主体对象的像素进行灰度处理。

在本发明实施例中，根据至少一个主体对象的像素，从每一帧图像中识别出非主体对象的像素，并对非主体对象的像素进行虚化或主体对象的像素进行留色处理，进而实现对主体对象的像素的聚焦处理；其中，对像素的聚焦处理是指集中显示主体对象的像素，弱化非主体对象的像素的显示；其中，虚化处理是指对非主体对象的像素运用高斯滤波进行模糊化处理：Ib’＝GaussBlur(Ib，alpha)；留色是对主体对象的像素保留原有颜色，而对非主体对象的像素灰度化处理：Ib’＝Gray(Ib，alpha)。其中，Ib为非主体对象的像素，Ib’为第二图像数据，alpha为调节参数。

其中，alpha参数可以为定值，也可以变化的值；例如，在第一视频数据为已录制好的视频数据时，alpha参数为定值，一般是在录制之前预先设置好alpha参数，在视频录制好之后，alpha参数的值不能被改变；在第一视频数据为录制过程中的视频数据时，则可以根据用户的设置需要更改alpha参数的值，进而使得第二视频数据更符合用户的需要，提高用户体验。

在本发明实施例，在从第一图像数据中识别出非主体对象的像素之后，该视频处理方法还包括：基于获取的非主体对象的图像亮度，来调整预定的高斯滤波处理系数或预定的灰度处理系数，具体包括：

获取非主体对象的图像亮度；

根据图像亮度，调整预定的高斯滤波处理系数或预定的灰度处理系数。

需要说明的是，如果非主体对象的图像亮度值很高，即亮度很大时，则可以调大预定的高斯滤波处理系数或预定的灰度处理系数，使非主体对象的图像亮度变暗，进而实现对主体对象的像素的聚焦处理。

在本发明实施例，步骤103所述的对第一音频数据中的至少一个主体对象的音频数据进行聚焦处理，包括：

基于至少一个主体对象的音频数据，从第一音频数据中识别出非主体对象的音频数据；

基于预设的衰减系数，对非主体对象的音频数据进行衰减处理。

在本发明实施例中，根据至少一个主体对象的音频数据，从每一帧音频中识别出非主体对象的音频数据，并对非主体对象的音频数据进行抑制衰减处理，进而实现对主体对象的音频数据的聚焦处理，对音频数据的聚焦处理是指将非主体对象的音频数据进行衰减处理，进而集中显示主体对象的音频数据；其中，抑制衰减处理：Ab’＝beta*Ab，其中beta为介于0和1之间的衰减系数，如果完全抑制衰减，则beta＝0。

其中，beta参数可以为定值，也可以变化的值；例如，在第一视频数据为已录制好的视频数据时，beta参数为定值，一般是在录制之前预先设置好beta参数，在视频录制好之后，beta参数的值不能被改变；在第一视频数据为录制过程中的视频数据时，则可以根据用户的设置需要更改beta参数的值，进而使得第二视频数据更符合用户的需要，提高用户体验。

在本发明实施例，步骤103所述的对至少一个主体对象的音频数据进行聚焦处理，包括：

将主体对象的音频数据替换为预设的音频数据。

在本发明实施例中，聚焦处理主体对象的音频数据的方式不单单限于抑制衰减、由预设的音频数据替换等方式，例如，虚拟声音，只要能将主体对象的音频数据相较非主体对象的音频数据凸显出来，都可以涵盖在本发明实施例的保护范围内，在此不再赘述。

在本发明实施例中，在获取第一视频数据的第一图像数据和第一音频数据之后，该视频处理方法还包括：

基于用户对至少一个主体对象的选择输入，确定每个主体对象的目标像素；

确定与每个主体对象匹配的目标音频数据；

建立每个主体对象的目标像素和与每个主体对象匹配的目标音频数据之间的映射关系并存储至第二视频数据中。

其中，目标像素为主体对象的所有像素，目标音频数据为主体对象的所有音频数据。

在对主体对象进行分离的过程中，基于用户对至少一个主体对象的选择输入，从第一图像数据中分割出多个主体对象的像素，例如，I0，I1，……，In；并确定与每一个主体对象匹配的音频数据，例如A0，A1，……，An；其中，I0与A0对应同一个主体对象、I1与A1对应同一个主体对象、…、In与An对应同一个主体对象；以及建立同一个主体对象的像素与音频数据之间的映射关系，以及将映射关系存储在第二视频数据中。其中，与主体对象匹配的音频数据指该主体对象产生的音频数据或该主体对象对应的音频数据。

在建立映射关系之后，还可以针对不同的主体对象设置不同的重要性系数(即权重值)，例如，针对不同的主体对象的像素设置不同的第一权重值，以及针对不同的主体对象的音频数据设置不同的第二权重值。在设置权重值之后，一并与映射关系存储在第二音频数据中。上述针对多个主体对象设置不同的权重值，在后续播放的时候，能进一步丰富用户视觉效果，提高用户体验度。

在本发明实施例中，确定与每个主体对象匹配的目标音频数据，包括：

从预先存储的至少一个音频数据中，筛选与所述每个主体对象的音频特征匹配的目标音频数据；

或者，将用户选取的音频数据确定为与每个主体对象匹配的目标音频数据。

需要说明的是，针对第一种确定与主体对象匹配的目标音频数据，主要是由电子设备进行识别，即预先将每一个主体对象的音频数据存储起来，并进行筛选，由于每一主体对象的音频特征(例如，声纹)不同，可以分别进行声纹识别，并筛选出与每个主体对象的音频特征匹配的目标音频数据；针对第二种确定与主体对象匹配的目标音频数据，则是将用户的选择确定为与每个主体对象匹配的目标音频数据。

本发明实施例，通过匹配到主体对象的音频数据，使得同一主体对象的像素与音频数据关联起来，便于后续对该主体对象的像素和音频数据同时进行处理，使得在后续播放的时候，能进一步丰富用户视觉效果，提高用户体验度。

在本发明实施例中，选择输入包括以下项中的至少一项：单击、双击、长按等。

本发明实施例，通过预设的对象分离网络，对第一图像数据中的至少一个主体对象的像素进行聚焦处理，得到至少一个第二图像数据之后，该视频处理方法还包括：

在至少一个主体对象中的至少两个主体对象被选择的情况下，基于第一权重值，对至少两个主体对象的目标像素进行高斯滤波处理或灰度处理；

播放经过高斯滤波处理或灰度处理的第二图像数据；

其中，至少一个主体对象中每一个主体对象的预设的高斯滤波处理系数或预设的灰度处理系数对应不同的第一权重值；和/或，

本发明实施例，通过预设的语音分离网络，对第一音频数据中的至少一个主体对象匹配的音频数据进行聚焦处理，得到至少一个第二音频数据之后，该视频处理方法还包括：

在至少一个主体对象中的至少两个主体对象被选择的情况下，基于第二权重值，对至少两个主体对象的目标音频数据进行混音处理；

播放经过混音处理的第二音频数据；

其中，至少一个主体对象中的每一个主体对象的预设衰减系数对应不同的第二权重值。

本发明实施例，用户直接点击选择某个主体对象，该主体对象被识别之后，该主体对象的像素Ix(I0，I1，……，In中的一个主体对象的像素)之外的非主体对象的像素将被虚化或去色，同时主体对象匹配的音频数据Ax(A0，A1，……，An中的一个主体对象匹配的视频数据)之外的非主体对象的音频数据将被抑制。在用户选择多个主体对象时，可以针对多个主体对象设置不同的重要性系数，例如c0，c1，c2，……，cn；对于主体对象的像素，可以基于重要性系数来控制不同主体对象的虚化程度或颜色留色程度；对于主体对象的音频数据，可以基于重要性系数来进行加权混合(A＝c0*A0+c1*A1+c2*A2+……+cn*An)。

需要说明的是，针对录制过程中的视频数据，则可以在录制过程中针对不同的执行主体对象设置不同的重要性系数，便于实时针对用户选取的主体对象，来处理第二视频数据，以像素为例，在用户选择主体对象I的像素Ix，则对Ix之外的像素(包括主体对象I对应的非主体对象的像素、I之外的其他主体对象的像素、以及I之外的其他主体对象对应的非主体对象的像素)进行高斯滤波处理或灰度处理并播放。

针对已录制的视频数据，则需要在录制完成之前就需要针对不同的执行主体对象设置不同的重要性系数，且在设置完之后存储在第二视频数据中，便于在后续播放第二视频数据过程中，在用户选择主体对象I的像素Ix，则对第二视频数据中Ix之外的像素进行高斯滤波处理或灰度处理并播放。

本发明实施例可以针对不同的主体对象引入重要性参数，便于对不同的主体对象进行不同程度的处理，进而丰富用户视觉体验，增强视频趣味性。

另外，音频数据的混合处理可以与图像数据的高斯滤波处理或灰度处理同时进行或分开进行。

在本发明实施例中，在至少一个主体对象中的至少两个主体对象被选择的情况下，该视频处理方法，包括：

第I步骤：分别采集第一视频数据中的第一图像数据和第一音频数据；

第Ⅱ步骤：对第一图像数据中的每帧图像I应用INet进行主体对象分割，分割出多个主体对象的像素I0，I1，……，In；以及对第一音频数据中的每帧音频应用ANet进行分割，分割出多个主体对象匹配的音频数据A0，A1，……，An；

第Ⅲ步骤：建立主体对象的音频数据与主体对象的像素之间的映射关系(Ix<->Ay)；

在分离出的音频波形图上选择，通过音频数据判断归属的主体对象，然后在电子设备的屏幕上点击选择该主体对象，进而建立同一主体对象的像素与音频数据之间的映射关系。

第Ⅳ步骤：将映射关系(Ix<->Ay)保存在已录制的视频数据或录制过程中的视频数据中；

第Ⅴ步骤：在视频播放端解析映射关系之后，用户可在播放界面直接点击选择某个对象(例如，人像)，该人像Ix之外的非主体对象的像素将被虚化或去色，同时所对应的音频Ax之外的非主体对象的音频数据将被抑制衰减。

在图2中，如果I0被选中，则I1和I2的像素将被虚化或去色，I1的音频数据A1与I2的音频数据A2将被抑制衰减；如果I0和I1被选中，则可以根据重要性系数c1、c2、c3控制I0、I1、I2的像素被虚化或去色，以及根据重要性系数c1、c2、c3进行加权混合，得到抑制衰减之后的音频数据为A＝c1*A1+c2*A2+c3*A3。

需要说明的是，用户也可选择多个主体，此时引入重要性系数(c0，c1，c2，……，cn)，对于视觉像素，系数用来控制不同主体的虚化程度或颜色淡化程度，对音频数据，重要性系数可用来进行加权混合(A＝c0*A0+c1*A1+c2*A2+……+cn*An)。

第ⅤI步骤：将第二图像数据I’和第二音频数据A’重新压缩编码保存为新的视频数据。

本发明实施例，在单人像聚焦的基础上引入了交互，实现了多人像聚焦，增加了可扩展性和操作趣味性。

需要说明的是，针对已录制的视频数据，可以预先在录制视频数据之前，预先设置好每一个主体对象的像素对应的第一权重值，以及每一个主体对象的音频数据对应的第二权重值；在后续播放的过程中，对按照第一权重值控制非主体对象的像素的虚化或主体对象的像素留色处理，以及按照第二权重值控制主体对象的音频数据的抑制衰减处理，并将处理的视频存储；在后续播放中，将存储的已处理的视频数据进行播放。针对录制过程中的视频数据，则可以在录制过程中设置每一个主体对象的像素对应的第一权重值，以及每一个主体对象的音频数据对应的第二权重值，对录制过程中的视频数据进行处理，便于实时播放。

在本发明实施例中，主体对象分离网络包括：Mask R-CNN，和/或，语音分离网络包括：长短期记忆网络(Long Short-Term Memory，LSTM，LSTM)。

在本发明实施例中，第一视频数据为录制过程中的视频数据或已录制的视频数据。

下面针对录制过程中的视频数据或已录制的视频数据，对视频处理方法进行详细说明。

在本发明实施例中，在第一视频数据为录制过程中的视频数据的情况下(如图3所示)，该视频处理方法，包括：

第一步骤：利用摄像头和麦克风分别采集录制过程中的视频数据的第一图像数据和第一音频数据；

第二步骤：对第一图像数据中的每帧图像(即，第i帧)I应用INet进行图像分割，假设分割出来的主体对象的像素为In，背景像素为Ib(即非主体对象的像素)；

第三步骤：对分离出的非主体对象的像素进行虚化或主体对象的像素留色处理，得到第二图像数据。

虚化就是对非主体对象的像素运用高斯滤波进行模糊化处理：Ib’＝GaussBlur(Ib，alpha)，留色即是对主体对象的像素保留原有颜色，而对非主体对象的像素灰度化：Ib’＝Gray(Ib，alpha)。其中alpha为调节参数，对于录制过程中的视频数据，可实时调节虚化或留色参数来改变最后的效果。第二图像数据用I‘表示。

第四步骤：对第一音频数据中的每帧音频(即，第i帧)A应用ANet分离出对应主体对象匹配的音频数据，假设An为主体对象匹配的音频数据，Ab为背景音频数据(即非主体对象的音频数据)，原始总体音频数据为两者的叠加A＝An+Ab；

第五步骤：对非主体对象的音频数据进行抑制衰减，得到第二音频数据；

其中，Ab’＝beta*Ab，其中beta为介于0和1的衰减系数，如果完全抑制则beta＝0。在录制过程中的视频数据中beta参数也可实时调节。经过抑制处理后的总体音频数据为A’＝An+Ab’＝An+beta*Ab。

第六步骤：将第二图像数据P‘和第二音频数据A‘分别进行编码压缩；

第七步骤：通过网络传送聚焦后的压缩视频和压缩音频实时流，此实时流即为录制过程中的视频数据，例如直播视频数据。

本发明将图像分割和音频数据分离进行了有效结合，实现了录制过程中的视频数据中的图像和音频两个维度的聚焦。

在本发明实施例中，在第一视频数据为已录制的视频数据的情况下(如图4所示)，该视频处理方法，包括：

第1步骤：对已录制的视频数据进行解码分离，分别获取第一图像数据和第一音频数据；

第2步骤：对第一图像数据中的每帧图像(即，第i帧)I应用INet进行图像分割，假设分割出来的主体对象的像素为In，背景像素为Ib；

第3步骤：对分离出的非主体对象的像素进行虚化或留色处理，得到第二图像数据；

虚化就是对非主体对象的像素运用高斯滤波进行模糊化处理：Ib’＝GaussBlur(Ib，alpha)，留色即是对主体对象的像素保留原有颜色，而对非主体对象的像素灰度化：Ib’＝Gray(Ib，alpha)。不同于录制过程中的视频数据，alpha只能预设一次，一旦生成已录制的视频数据，不能再修改。第二图像数据用I‘表示；

第4步骤：对第一音频数据中的每帧音频(即，第i帧)A应用ANet进行分割，假设An为主体对象匹配的音频数据，Ab为背景音频数据(即非主体对象的音频数据)，原始总体音频数据为两者的叠加A＝An+Ab；

第5步骤：对非主体对象的音频数据进行抑制衰减，得到第二视频数据；

抑制衰减为Ab’＝beta*Ab，其中beta为介于0和1的衰减系数，如果完全抑制则beta＝0。抑制衰减处理后的总体音频数据为A’＝An+Ab’＝An+beta*Ab；

第6步骤：将第二图像数据I’和第二音频数据A’重新压缩编码保存为第二视频数据，此第二视频数据可作为短视频在网上分享。

本发明将AI图像分割和AI音频数据分离进行了有效结合，实现了对已录制的视频数据中的图像和音频两个维度的聚焦处理。

在本发明实施例中，主体对象不限于人物、动物、卡通人物、卡通动物等。

图5为本发明实施例提供的一种电子设备的示意图。如图5所示，该电子设备50包括：

获取模块501，用于获取第一视频数据中的第一图像数据和第一音频数据；

第一聚焦模块502，用于通过预设的对象分离网络，对第一图像数据中的至少一个主体对象的像素进行聚焦处理，得到至少一个第二图像数据；

第二聚焦模块503，用于通过预设的语音分离网络，对第一音频数据中的至少一个主体对象匹配的音频数据进行聚焦处理，得到至少一个第二音频数据；

编码模块504，用于对第二图像数据和第二音频数据进行编码压缩处理，得到第二视频数据。

可选的，第一聚焦模块502，还用于：

基于至少一个主体对象的像素，从第一图像数据中识别出非主体对象的像素；

基于预设的高斯滤波处理系数，对非主体对象的像素进行高斯滤波处理，或者，基于预设的灰度处理系数，对非主体对象的像素进行灰度处理。

本发明实施例，通过对非主体对象的像素进行高斯滤波处理或灰度化处理，进而实现对主体对象的像素的聚焦处理。

可选的，该电子设备还包括：

获取模块，还用于获取非主体对象的图像亮度；

调整模块，用于根据图像亮度，调整预设的高斯滤波处理系数或预设的灰度处理系数。

本发明实施例，能够更灵活地基于非主体对象的像素的图像亮度，动态调整调整预设的高斯滤波处理系数或预设的灰度处理系数，进而动态调整聚焦效果。

可选的，第二聚焦模块503，还用于：

本发明实施例，通过对非主体对象的音频数据进行衰减处理，进而实现对主体对象的音频数据的聚焦处理。

可选的，第二聚焦模块503，还用于：

将主体对象的音频数据替换为预设的音频数据。

可选的，该电子设备还包括：

确定模块，用于基于用户对至少一个主体对象的选择输入，确定每个主体对象的目标像素；

确定模块，还用于确定与每个主体对象匹配的目标音频数据；

建立模块，用于建立每个主体对象的目标像素和与每个主体对象匹配的目标音频数据之间的映射关系

存储模块，用于将映射关系存储至第二视频数据中。

本发明实施例，通过建立每一个主体对象的像素和音频数据之间的映射关系，进而能够实现对每一个主体对象的像素和音频数据进行聚焦处理。

可选的，确定模块，还用于：

从预先存储的至少一个音频数据中，筛选与每个主体对象的音频特征匹配的目标音频数据；

本发明实施例，通过匹配到主体对象的音频数据，进而能够将每一个主体对象的像素与音频数据关联起来，便于后续对该主体对象的像素和音频数据同时进行处理，使得在后续播放的时候，能进一步丰富用户视觉效果，提高用户体验度。

可选的，该电子设备还包括：

处理模块，用于在至少一个主体对象中的至少两个主体对象被选择的情况下，基于第一权重值，对至少两个主体对象的目标像素进行高斯滤波处理或灰度处理；

播放模块，用于播放经过高斯滤波处理或灰度处理的第二图像数据；

其中，至少一个主体对象中每一个主体对象的预设的高斯滤波处理系数或预设的灰度处理系数对应不同的第一权重值。

本发明实施例可以针对不同的主体对象引入重要性参数，便于对不同的主体对象的像素进行不同程度高斯滤波处理或灰度处理，进而丰富用户视觉体验，增强视频趣味性。

可选的，电子设备还包括：处理模块，用于在至少一个主体对象中的至少两个主体对象被选择的情况下，基于第二权重值，对至少两个主体对象的目标音频数据进行混音处理；播放模块，用于播放经过混音处理的第二音频数据；其中，至少一个主体对象中的每一个主体对象的预设衰减系数对应不同的第二权重值。

本发明实施例可以针对不同的主体对象引入重要性参数，便于对不同的主体对象匹配的音频数据进行不同程度衰减处理，进而丰富用户视觉体验，增强视频趣味性。

可选的，第一视频数据为录制过程中的视频数据或已录制的视频数据。

可选的，主体对象分离网络包括：Mask R-CNN，和/或，语音分离网络包括：长短期记忆网络LSTM。

本发明实施例提供的电子设备能够实现图1的方法实施例中电子设备实现的各个过程，为避免重复，这里不再赘述。

在本发明实施例中，通过预设的对象分离网络，对电子设备第一图像数据中的至少一个主体对象的像素进行聚焦处理，得到至少一个第二图像数据；以及通过预设的语音分离网络，对电子设备第一音频数据中的至少一个主体对象匹配的音频数据进行聚焦处理，得到至少一个第二音频数据，进而能够实现对第一视频数据中的图像和音频的聚焦处理。

图6为实现本发明各个实施例的一种电子设备的硬件结构示意图，该电子设备100包括但不限于：射频单元101、网络模块102、音频输出单元103、输入单元104、传感器105、显示单元106、用户输入单元107、接口单元108、存储器109、处理器110、以及电源111等部件。本领域技术人员可以理解，图6中示出的电子设备结构并不构成对电子设备的限定，电子设备可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。在本发明实施例中，电子设备包括但不限于电子设备、平板电脑、笔记本电脑、掌上电脑、车载终端、可穿戴设备、以及计步器等。

处理器110，用于通过预设的对象分离网络，对所述第一图像数据中的至少一个主体对象的像素进行聚焦处理，得到至少一个第二图像数据；

通过预设的语音分离网络，对所述第一音频数据中的至少一个主体对象匹配的音频数据进行聚焦处理，得到至少一个第二音频数据；

对所述第二图像数据和所述第二音频数据进行编码压缩处理，得到第二视频数据。

应理解的是，本发明实施例中，射频单元101可用于收发信息或通话过程中，信号的接收和发送，具体的，将来自基站的下行数据接收后，给处理器110处理；另外，将上行的数据发送给基站。通常，射频单元101包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器、双工器等。此外，射频单元101还可以通过无线通信***与网络和其他设备通信。

电子设备通过网络模块102为用户提供了无线的宽带互联网访问，如帮助用户收发电子邮件、浏览网页和访问流式媒体等。

音频输出单元103可以将射频单元101或网络模块102接收的或者在存储器109中存储的音频数据转换成音频信号并且输出为声音。而且，音频输出单元103还可以提供与电子设备100执行的特定功能相关的音频输出(例如，呼叫信号接收声音、消息接收声音等等)。音频输出单元103包括扬声器、蜂鸣器以及受话器等。

输入单元104用于接收音频或视频信号。输入单元104可以包括图形处理器(Graphics Processing Unit，GPU)1041和麦克风1042，图形处理器1041对在视频捕获模式或图像捕获模式中由图像捕获装置(如摄像头)获得的静态图片或视频的图像数据进行处理。处理后的图像帧可以显示在显示单元106上。经图形处理器1041处理后的图像帧可以存储在存储器109(或其它存储介质)中或者经由射频单元101或网络模块102进行发送。麦克风1042可以接收声音，并且能够将这样的声音处理为音频数据。处理后的音频数据可以在电话通话模式的情况下转换为可经由射频单元101发送到移动通信基站的格式输出。

电子设备100还包括至少一种传感器105，比如光传感器、运动传感器以及其他传感器。具体地，光传感器包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示面板1061的亮度，接近传感器可在电子设备100移动到耳边时，关闭显示面板1061和/或背光。作为运动传感器的一种，加速计传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别电子设备姿态(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等；传感器105还可以包括指纹传感器、压力传感器、虹膜传感器、分子传感器、陀螺仪、气压计、湿度计、温度计、红外线传感器等，在此不再赘述。

显示单元106用于显示由用户输入的信息或提供给用户的信息。显示单元106可包括显示面板1061，可以采用液晶显示器(Liquid Crystal Display，LCD)、有机发光二极管(Organic Light-Emitting Diode，OLED)等形式来配置显示面板1061。

用户输入单元107可用于接收输入的数字或字符信息，以及产生与电子设备的用户设置以及功能控制有关的键信号输入。具体地，用户输入单元107包括触控面板1071以及其他输入设备1072。触控面板1071，也称为触摸屏，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板1071上或在触控面板1071附近的操作)。触控面板1071可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器110，接收处理器110发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板1071。除了触控面板1071，用户输入单元107还可以包括其他输入设备1072。具体地，其他输入设备1072可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆，在此不再赘述。

进一步的，触控面板1071可覆盖在显示面板1061上，当触控面板1071检测到在其上或附近的触摸操作后，传送给处理器110以确定触摸事件的类型，随后处理器110根据触摸事件的类型在显示面板1061上提供相应的视觉输出。虽然在图6中，触控面板1071与显示面板1061是作为两个独立的部件来实现电子设备的输入和输出功能，但是在某些实施例中，可以将触控面板1071与显示面板1061集成而实现电子设备的输入和输出功能，具体此处不做限定。

接口单元108为外部装置与电子设备100连接的接口。例如，外部装置可以包括有线或无线头戴式耳机端口、外部电源(或电池充电器)端口、有线或无线数据端口、存储卡端口、用于连接具有识别模块的装置的端口、音频输入/输出(I/O)端口、视频I/O端口、耳机端口等等。接口单元108可以用于接收来自外部装置的输入(例如，数据信息、电力等等)并且将接收到的输入传输到电子设备100内的一个或多个元件或者可以用于在电子设备100和外部装置之间传输数据。

存储器109可用于存储软件程序以及各种数据。存储器109可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作***、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据电子设备的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器109可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

处理器110是电子设备的控制中心，利用各种接口和线路连接整个电子设备的各个部分，通过运行或执行存储在存储器109内的软件程序和/或模块，以及调用存储在存储器109内的数据，执行电子设备的各种功能和处理数据，从而对电子设备进行整体监控。处理器110可包括一个或多个处理单元；优选的，处理器110可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作***、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器110中。

电子设备100还可以包括给各个部件供电的电源111(比如电池)，优选的，电源111可以通过电源管理***与处理器110逻辑相连，从而通过电源管理***实现管理充电、放电、以及功耗管理等功能。

另外，电子设备100包括一些未示出的功能模块，在此不再赘述。

优选的，本发明实施例还提供一种电子设备，包括处理器110，存储器109，存储在存储器109上并可在所述处理器110上运行的计算机程序，该计算机程序被处理器110执行时实现上述视频处理方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

本发明实施例还提供一种电子设备，包括：

触摸屏，其中，所述触摸屏包括触敏表面和显示屏；

一个或多个处理器110；

一个或多个存储器109；

一个或多个传感器；

以及一个或多个计算机程序，其中所述一个或多个计算机程序被存储在所述一个或多个存储器中，所述一个或多个计算机程序包括指令，当所述指令被所述电子设备执行时，使得所述电子设备执行实现上述视频处理方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

本发明实施例还提供一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现上述视频处理方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。其中，所述的计算机可读存储介质，如只读存储器(Read-Only Memory，简称ROM)、随机存取存储器(Random Access Memory，简称RAM)、磁碟或者光盘等。

本发明实施例还提供一种计算机非瞬态存储介质，所述计算机非瞬态存储介质存储有计算机程序，所述计算机程序被计算设备执行时实现上述视频处理方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

本发明实施例还提供一种计算机程序产品，当所述计算机程序产品在计算机上运行时，使得所述计算机执行时实现上述视频处理方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端(可以是电子设备，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

上面结合附图对本发明的实施例进行了描述，但是本发明并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本发明的启示下，在不脱离本发明宗旨和权利要求所保护的范围情况下，还可做出很多形式，均属于本发明的保护之内。

Claims

1.一种视频处理方法，其特征在于，包括：

获取第一视频数据的第一图像数据和第一音频数据；

通过预设的对象分离网络，对所述第一图像数据中的至少一个主体对象的像素进行聚焦处理，得到至少一个第二图像数据；

2.根据权利要求1所述的方法，其特征在于，所述对所述第一图像数据中的至少一个主体对象的像素进行聚焦处理，包括：

基于所述至少一个主体对象的像素，从所述第一图像数据中识别出非主体对象的像素；

基于预设的高斯滤波处理系数，对所述非主体对象的像素进行高斯滤波处理，或者，基于预设的灰度处理系数，对所述非主体对象的像素进行灰度处理。

3.根据权利要求2所述的方法，其特征在于，所述从所述第一图像数据中识别出非主体对象的像素之后，还包括：

获取所述非主体对象的图像亮度；

根据所述图像亮度，调整所述预设的高斯滤波处理系数或预设的灰度处理系数。

4.根据权利要求1所述的方法，其特征在于，所述对所述第一音频数据中的至少一个主体对象的音频数据进行聚焦处理，包括：

基于所述至少一个主体对象的音频数据，从所述第一音频数据中识别出非主体对象的音频数据；

基于预设的衰减系数，对所述非主体对象的音频数据进行衰减处理。

5.根据权利要求1所述的方法，其特征在于，所述对所述至少一个主体对象的音频数据进行聚焦处理，包括：

将所述主体对象的音频数据替换为预设的音频数据。

6.根据权利要求1所述的方法，其特征在于，所述获取第一视频数据的第一图像数据和第一音频数据之后，所述方法还包括：

基于用户对所述至少一个主体对象的选择输入，确定每个主体对象的目标像素；

确定与每个主体对象匹配的目标音频数据；

建立每个主体对象的目标像素和与每个主体对象匹配的目标音频数据之间的映射关系并存储至所述第二视频数据中。

7.根据权利要求6所述的方法，其特征在于，所述确定与每个主体对象匹配的目标音频数据，包括：

8.根据权利要求2所述的方法，其特征在于，所述通过预设的对象分离网络，对所述第一图像数据中的至少一个主体对象的像素进行聚焦处理，得到至少一个第二图像数据之后，所述方法还包括：

在所述至少一个主体对象中的至少两个主体对象被选择的情况下，基于第一权重值，对所述至少两个主体对象的目标像素进行高斯滤波处理或灰度处理；

播放经过高斯滤波处理或灰度处理的所述第二图像数据；

其中，所述至少一个主体对象中每一个主体对象的所述预设的高斯滤波处理系数或所述预设的灰度处理系数对应不同的第一权重值。

9.根据权利要求4所述的方法，其特征在于，所述通过预设的语音分离网络，对所述第一音频数据中的至少一个主体对象匹配的音频数据进行聚焦处理，得到至少一个第二音频数据之后，所述方法还包括：

在所述至少一个主体对象中的至少两个主体对象被选择的情况下，基于第二权重值，对所述至少两个主体对象的目标音频数据进行混音处理；

播放经过混音处理的所述第二音频数据；

其中，所述至少一个主体对象中的每一个主体对象的所述预设衰减系数对应不同的第二权重值。

10.根据权利要求1所述的方法，其特征在于，所述第一视频数据为录制过程中的视频数据或已录制的视频数据。

11.根据权利要求1所述的方法，其特征在于，所述主体对象分离网络包括：Mask R-CNN。

12.根据权利要求1所述的方法，其特征在于，所述语音分离网络包括：长短期记忆网络LSTM。

13.一种电子设备，其特征在于，包括：

第一聚焦模块，用于通过预设的对象分离网络，对所述第一图像数据中的至少一个主体对象的像素进行聚焦处理，得到至少一个第二图像数据；

第二聚焦模块，用于通过预设的语音分离网络，对所述第一音频数据中的至少一个主体对象匹配的音频数据进行聚焦处理，得到至少一个第二音频数据；

编码模块，用于对所述第二图像数据和所述第二音频数据进行编码压缩处理，得到第二视频数据。

14.一种电子设备，其特征在于，包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如权利要求1至12中任一项所述的视频处理方法的步骤。