CN110392273B

CN110392273B - 音视频处理的方法、装置、电子设备及存储介质

Info

Publication number: CN110392273B
Application number: CN201910641537.9A
Authority: CN
Inventors: 李美卓; 范威
Original assignee: Beijing Dajia Internet Information Technology Co Ltd
Current assignee: Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2019-07-16
Filing date: 2019-07-16
Publication date: 2023-08-08
Anticipated expiration: 2039-07-16
Also published as: CN110392273A

Abstract

本公开实施例提供了一种音视频处理方法、装置、电子设备及存储介质，所述方法应用于服务器，包括：获取虚拟空间中第一电子设备发出的配音指令，其中，第一电子设备为具有在所述虚拟空间中直播权限的电子设备；确定所述配音指令对应的预设配音类型；确定待配音视频；获取所述第一电子设备发出的配音开始指令时，按照所述预设配音类型播放所述待配音视频对应的无人声视频；在播放所述无人声视频过程中，获取所述无人声视频对应的配音音频，同时将所述配音音频发送至第二电子设备，其中，第二电子设备为具有在所述虚拟空间中观看直播权限的电子设备。采用本方案用户可以在虚拟空间以配音的方式进行交互，增加互动方式的多样性，用户体验得到提高。

Description

音视频处理的方法、装置、电子设备及存储介质

技术领域

本公开涉及计算机技术领域，特别是涉及一种音视频处理方法、装置、电子设备及存储介质。

背景技术

近年来网络直播得到快速发展，并得到人们的喜爱。在网络直播领域，安装有直播应用程序的终端可以称为用户端，在直播过程中观看主播直播的用户端则为观众端。

在进行网络直播时，主播可以通过多种方式进行直播，也可以与观众或其他主播进行互动。例如，观众可以与主播聊天、赠送礼物给主播、各主播之间可以进行连麦直播、连麦对战等。但是目前网络直播中，不论主播与观众之间，还是主播与主播之间，互动方式单一。

发明内容

为克服相关技术中存在的问题，本公开实施例提供一种音视频的处理方法、装置、电子设备及存储介质。具体技术方案如下：

根据本公开实施例的第一方面，提供一种音视频的处理方法，应用于服务器，所述方法包括：

获取虚拟空间中第一电子设备发出的配音指令，其中，所述第一电子设备为具有在所述虚拟空间中直播权限的电子设备；

确定所述配音指令对应的预设配音类型；

确定待配音视频；

获取所述第一电子设备发出的配音开始指令时，按照所述预设配音类型播放所述待配音视频对应的无人声视频；

在播放所述无人声视频过程中，获取所述无人声视频对应的配音音频，同时将所述配音音频发送至第二电子设备，其中，所述第二电子设备为具有在所述虚拟空间中观看直播权限的电子设备。

作为一种实施方式，所述预设配音类型为主播表演类型；

所述按照所述预设配音类型播放所述待配音视频对应的无人声视频的步骤，包括：

控制所述第一电子设备及所述第二电子设备同时播放所述待配音视频对应的无人声视频。

作为一种实施方式，所述预设配音类型为多主播对战类型；

确定各主播对应的第一电子设备对应的对战顺序；

按照所述对战顺序，控制所述第一电子设备及其对应的第二电子设备依次播放所述待配音视频对应的无人声视频。

作为一种实施方式，所述预设配音类型为多人配音类型；

控制所述虚拟空间中即时通讯区域中用户对应的各第二电子设备，同时播放所述待配音视频对应的无人声视频。

作为一种实施方式，所述控制所述虚拟空间中即时通讯区域中用户对应的各第二电子设备，同时播放所述待配音视频对应的无人声视频的步骤，包括：

在获取所述第一电子设备发送的广播消息时，发送所述待配音视频及开始指令至所述虚拟空间中即时通讯区域中用户对应的各第二电子设备，以使所述各第二电子设备在接收到所述开始指令时，同时播放所述待配音视频对应的无人声视频。

作为一种实施方式，所述确定待配音视频的步骤，包括：

获取所述第一电子设备上传的视频；

将所述上传的视频确定为待配音视频。

作为一种实施方式，所述无人声视频的获取方式，包括：

确定所述待配音视频的音频信号对应的幅值谱；

将所述幅值谱输入预先训练完成的网络模型，得到所述待配音视频对应的人声掩膜矩阵，其中，所述网络模型基于预先获取的幅值谱样本及其对应的人声掩膜矩阵训练得到，所述网络模型包括幅值谱与人声掩膜矩阵的对应关系；

利用所述人声掩膜矩阵及所述幅值谱，计算得到无人声幅值谱；

基于所述无人声幅值谱确定所述待配音视频对应的无人声视频。

作为一种实施方式，所述无人声视频的获取方式，包括：

确定所述待配音视频的音频信号对应的幅值谱；

将所述幅值谱输入预先训练完成的网络模型，得到所述待配音视频对应的无人声音频，其中，所述网络模型基于预先获取的幅值谱样本及其对应的无人声音频训练得到，所述网络模型包括幅值谱与无人声音频的对应关系；

基于所述无人声音频确定所述待配音视频对应的无人声视频。

根据本公开实施例的第二方面，提供一种音视频的处理方法，应用于第一电子设备，其中，所述第一电子设备为具有在虚拟空间中直播权限的电子设备，所述方法包括：

获取在所述虚拟空间中的配音指令；

确定所述配音指令对应的预设配音类型；

确定待配音视频；

在获取配音开始指令时，按照所述预设配音类型播放所述待配音视频对应的无人声视频；

在播放所述无人声视频过程中，获取所述无人声视频对应的配音音频，同时将所述配音音频发送至服务器。

作为一种实施方式，所述预设配音类型为主播表演类型；

播放所述待配音视频对应的无人声视频，并控制第二电子设备同时播放所述待配音视频对应的无人声视频，其中，所述第二电子设备为具有在所述虚拟空间中观看直播权限的电子设备。

作为一种实施方式，所述预设配音类型为多主播对战类型；

确定各主播对应的第一电子设备对应的对战顺序；

作为一种实施方式，所述预设配音类型为多人配音类型；

发送的广播消息至所述服务器，以使所述服务器发送所述待配音视频及开始指令至所述虚拟空间中即时通讯区域中用户对应的各第二电子设备，以使所述各第二电子设备在接收到所述开始指令时，同时播放所述待配音视频对应的无人声视频。

作为一种实施方式，所述确定待配音视频的步骤，包括：

获取用户上传的视频；

将所述上传的视频确定为待配音视频。

作为一种实施方式，所述无人声视频的获取方式，包括：

确定所述待配音视频的音频信号对应的幅值谱；

作为一种实施方式，所述无人声视频的获取方式，包括：

确定所述待配音视频的音频信号对应的幅值谱；

根据本公开实施例的第三方面，提供一种音视频的处理方法，应用于第二电子设备，其中，所述第二电子设备为具有在所述虚拟空间中观看直播权限的电子设备，所述方法包括：

在获取到虚拟空间中的配音开始指令时，播放预先获取的待配音视频对应的无人声视频；

在播放所述无人声视频过程中，获取到所述无人声视频对应的配音音频时，播放所述配音音频。

作为一种实施方式，所述在获取到虚拟空间中的配音开始指令时，播放预先获取的待配音视频对应的无人声视频的步骤，包括：

接收服务器发送的虚拟空间中的待配音视频及开始指令时，播放所接收到的待配音视频对应的无人声视频。

作为一种实施方式，所述无人声视频的获取方式，包括：

确定所述待配音视频的音频信号对应的幅值谱；

作为一种实施方式，所述无人声视频的获取方式，包括：

确定所述待配音视频的音频信号对应的幅值谱；

根据本公开实施例的第四方面，提供一种音视频的处理装置，应用于服务器，所述装置包括：

配音指令第一配音指令获取模块，被配置为执行获取虚拟空间中第一电子设备发出的配音指令，其中，所述第一电子设备为具有在所述虚拟空间中直播权限的电子设备；

预设配音类型第一预设配音类型确定模块，被配置为执行确定所述配音指令对应的预设配音类型；

待配音视频确定模块第一待配音视频确定模块，被配置为执行确定待配音视频；

无人声视频第一无人声视频播放模块，被配置为执行获取所述第一电子设备发出的配音开始指令时，按照所述预设配音类型播放所述待配音视频对应的无人声视频；

配音音频第一配音音频发送模块，被配置为执行在播放所述无人声视频过程中，获取所述无人声视频对应的配音音频，同时将所述配音音频发送至第二电子设备，其中，所述第二电子设备为具有在所述虚拟空间中观看直播权限的电子设备。

作为一种实施方式，所述预设配音类型为主播表演类型；

所述第一无人声视频播放模块包括：

第一无人声视频播放子模块，被配置为执行控制所述第一电子设备及其所述第二电子设备同时播放所述待配音视频对应的无人声视频。

作为一种实施方式，所述预设配音类型为多主播对战类型；

所述第一无人声视频播放模块包括：

对战顺序确定子模块，被配置为执行确定各主播对应的第一电子设备对应的对战顺序；

第二无人声视频播放子模块，被配置为执行按照所述对战顺序，控制所述第一电子设备及其对应的第二电子设备依次播放所述待配音视频对应的无人声视频。

作为一种实施方式，所述预设配音类型为多人配音类型；

所述第一无人声视频播放模块包括：

第三无人声视频播放子模块，被配置为执行控制所述虚拟空间中即时通讯区域中用户对应的各第二电子设备，同时播放所述待配音视频对应的无人声视频。

作为一种实施方式，所述第三无人声视频播放子模块包括：

第一无人声视频播放单元，被配置为执行在获取所述第一电子设备发送的广播消息时，发送所述待配音视频及开始指令至所述虚拟空间中即时通讯区域中用户对应的各第二电子设备，以使所述各第二电子设备在接收到所述开始指令时，同时播放所述待配音视频对应的无人声视频。

作为一种实施方式，所述第一待配音视频确定模块包括：

第一视频获取子模块，被配置为执行获取所述第一电子设备上传的视频；

第一待配音视频确定子模块，被配置为执行将所述上传的视频确定为待配音视频。

作为一种实施方式，所述音视频处理装置还包括第一无人声视频确定模块；

所述第一无人声视频确定模块包括：

第一幅值谱确定子模块，被配置为执行确定所述待配音视频的音频信号对应的幅值谱；

第一人声掩膜矩阵确定子模块，被配置为执行将所述幅值谱输入预先训练完成的网络模型，得到所述待配音视频对应的人声掩膜矩阵，其中，所述网络模型基于预先获取的幅值谱样本及其对应的人声掩膜矩阵训练得到，所述网络模型包括幅值谱与人声掩膜矩阵的对应关系；

第一无人声幅值谱确定子模块，被配置为执行利用所述人声掩膜矩阵及所述幅值谱，计算得到无人声幅值谱；

第一无人声视频确定子模块，被配置为执行基于所述无人声幅值谱确定所述待配音视频对应的无人声视频。

作为一种实施方式，所述音视频处理装置还包括第二无人声视频确定模块；

所述第二无人声视频确定模块包括：

第二幅值谱确定子模块，被配置为执行确定所述待配音视频的音频信号对应的幅值谱；

第一无人声音频确定子模块，被配置为执行将所述幅值谱输入预先训练完成的网络模型，得到所述待配音视频对应的无人声音频，其中，所述网络模型基于预先获取的幅值谱样本及其对应的无人声音频训练得到，所述网络模型包括幅值谱与无人声音频的对应关系；

第二无人声视频确定子模块，被配置为执行基于所述无人声音频确定所述待配音视频对应的无人声视频。

根据本公开实施例的第五方面，提供一种音视频的处理装置，应用于第一电子设备，其中，所述第一电子设备为具有在虚拟空间中直播权限的电子设备，所述装置包括：

第二配音指令获取模块，被配置为执行获取在所述虚拟空间中的配音指令；

第二预设配音类型确定模块，被配置为执行确定所述配音指令对应的预设配音类型；

第二待配音视频确定模块，被配置为执行确定待配音视频；

第二无人声视频播放模块，被配置为执行在获取配音开始指令时，按照所述预设配音类型播放所述待配音视频对应的无人声视频；

第二配音音频发送模块，被配置为执行在播放所述无人声视频过程中，获取所述无人声视频对应的配音音频，同时将所述配音音频发送至服务器。

作为一种实施方式，所述预设配音类型为主播表演类型；

所述第二无人声视频播放模块包括：

第四无人声视频播放子模块，被配置为执行播放所述待配音视频对应的无人声视频，并控制第二电子设备同时播放所述待配音视频对应的无人声视频，其中，所述第二电子设备为具有在所述虚拟空间中观看直播权限的电子设备。

作为一种实施方式，所述预设配音类型为多主播对战类型；

所述第二无人声视频播放模块包括：

第五无人声视频播放子模块，被配置为执行按照所述对战顺序，控制所述第一电子设备及其对应的第二电子设备依次播放所述待配音视频对应的无人声视频。

作为一种实施方式，所述预设配音类型为多人配音类型；

所述第二无人声视频播放模块包括：

第六无人声视频播放子模块，被配置为执行控制所述虚拟空间中即时通讯区域中用户对应的各第二电子设备，同时播放所述待配音视频对应的无人声视频。

作为一种实施方式，所述第六无人声视频播放子模块包括：

第二无人声视频播放单元，被配置为执行发送的广播消息至所述服务器，以使所述服务器发送所述待配音视频及开始指令至所述虚拟空间中即时通讯区域中用户对应的各第二电子设备，以使所述各第二电子设备在接收到所述开始指令时，同时播放所述待配音视频对应的无人声视频。

作为一种实施方式，所述第二待配音视频确定模块包括：

第二视频获取子模块，被配置为执行获取用户上传的视频；

第二待配音视频确定子模块，被配置为执行将所述上传的视频确定为待配音视频。

作为一种实施方式，所述音视频处理装置还包括第三无人声视频确定模块；

所述第三无人声视频确定模块包括：

第三幅值谱确定子模块，被配置为执行确定所述待配音视频的音频信号对应的幅值谱；

第二人声掩膜矩阵确定子模块，被配置为执行将所述幅值谱输入预先训练完成的网络模型，得到所述待配音视频对应的人声掩膜矩阵，其中，所述网络模型基于预先获取的幅值谱样本及其对应的人声掩膜矩阵训练得到，所述网络模型包括幅值谱与人声掩膜矩阵的对应关系；

第二无人声幅值谱确定子模块，被配置为执行利用所述人声掩膜矩阵及所述幅值谱，计算得到无人声幅值谱；

第三无人声视频确定子模块，被配置为执行基于所述无人声幅值谱确定所述待配音视频对应的无人声视频。

作为一种实施方式，所述音视频处理装置还包括第四无人声视频确定模块；

所述第四无人声视频确定模块包括：

第四幅值谱确定子模块，被配置为执行确定所述待配音视频的音频信号对应的幅值谱；

第二无人声音频确定子模块，被配置为执行将所述幅值谱输入预先训练完成的网络模型，得到所述待配音视频对应的无人声音频，其中，所述网络模型基于预先获取的幅值谱样本及其对应的无人声音频训练得到，所述网络模型包括幅值谱与无人声音频的对应关系；

第四无人声视频确定子模块，被配置为执行基于所述无人声音频确定所述待配音视频对应的无人声视频。

根据本公开实施例的第六方面，提供一种音视频的处理装置，应用于第二电子设备，其中，所述第二电子设备为具有在所述虚拟空间中观看直播权限的电子设备，所述装置包括：

第三无人声视频播放模块，被配置为执行在获取到虚拟空间中的配音开始指令时，播放预先获取的待配音视频对应的无人声视频；

配音音频播放模块，被配置为执行在播放所述无人声视频过程中，获取到所述无人声视频对应的配音音频时，播放所述配音音频。

作为一种实施方式，所述第三无人声视频播放模块包括：

第七无人声视频播放子模块，被配置为执行接收服务器发送的虚拟空间中的待配音视频及开始指令时，播放所接收到的待配音视频对应的无人声视频。

作为一种实施方式，所述音视频处理装置还包括第五无人声视频确定模块；

所述第五无人声视频确定模块包括：

第五幅值谱确定子模块，被配置为执行确定所述待配音视频的音频信号对应的幅值谱；

第三人声掩膜矩阵确定子模块，被配置为执行将所述幅值谱输入预先训练完成的网络模型，得到所述待配音视频对应的人声掩膜矩阵，其中，所述网络模型基于预先获取的幅值谱样本及其对应的人声掩膜矩阵训练得到，所述网络模型包括幅值谱与人声掩膜矩阵的对应关系；

第三无人声幅值谱确定子模块，被配置为执行利用所述人声掩膜矩阵及所述幅值谱，计算得到无人声幅值谱；

第五无人声视频确定子模块，被配置为执行基于所述无人声幅值谱确定所述待配音视频对应的无人声视频。

所述第五无人声视频确定模块包括：

第六幅值谱确定子模块，被配置为执行确定所述待配音视频的音频信号对应的幅值谱；

第三无人声音频确定子模块，被配置为执行将所述幅值谱输入预先训练完成的网络模型，得到所述待配音视频对应的无人声音频，其中，所述网络模型基于预先获取的幅值谱样本及其对应的无人声音频训练得到，所述网络模型包括幅值谱与无人声音频的对应关系；

第六无人声视频确定子模块，被配置为执行基于所述无人声音频确定所述待配音视频对应的无人声视频。

根据本公开实施例的第七方面，提供一种服务器，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现上述第一方面所述的音视频的处理方法。

根据本公开实施例的第八方面，提供一种电子设备，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现上述第二方面或第三方面所述的音视频的处理方法。

根据本公开实施例的第九方面，提供一种存储介质，当所述存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行上述任一方面所述的音视频的处理方法。

本公开实施例所提供的方案中，服务器可以获取虚拟空间中第一电子设备发出的配音指令，确定配音指令对应的预设配音类型，然后确定待配音视频，进而在获取第一电子设备发出的配音开始指令时，按照预设配音类型播放待配音视频对应的无人声视频，在播放无人声视频过程中，获取无人声视频对应的配音音频，同时将配音音频发送至第二电子设备。其中，第一电子设备为具有在虚拟空间中直播权限的电子设备，第二电子设备为具有在虚拟空间中观看直播权限的电子设备。采用本方案用户可以在虚拟空间以配音的方式进行交互，增加互动方式的多样性，用户体验得到提高。应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理，并不构成对本公开的不当限定。

图1是根据一示例性实施例示出的第一种音视频处理方法的流程图；

图2是根据一示例性实施例示出的一种配音按钮的示意图；

图3是根据一示例性实施例示出的图1所示实施例中步骤S104的第一种流程图；

图4是根据一示例性实施例示出的无人声视频的获取方式的第一种流程图；

图5是根据一示例性实施例示出的无人声视频的获取方式的第二种流程图；

图6是根据一示例性实施例示出的第二种音视频处理方法的流程图；

图7是根据一示例性实施例示出的第三种音视频处理方法的流程图；

图8是根据一示例性实施例示出的第一种音视频处理装置的结构框图；

图9是根据一示例性实施例示出的第二种音视频处理装置的结构框图；

图10是根据一示例性实施例示出的第三种音视频处理装置的结构框图；

图11是根据一示例性实施例示出的一种电子设备的结构框图。

具体实施方式

为了使本领域普通人员更好地理解本公开的技术方案，下面将结合附图，对本公开实施例中的技术方案进行清楚、完整地描述。

需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

为了丰富虚拟空间中的互动方式，提高用户体验，本公开实施例提供了一种音视频处理方法、装置、服务器、电子设备及计算机可读存储介质。

下面首先对本公开实施例所提供的第一种音视频处理方法进行介绍。本公开实施例所提供的第一种音视频处理方法可以应用于直播应用程序的服务器。

如图1所示，一种音视频的处理方法，应用于服务器，所述方法包括：

在步骤S101中，获取虚拟空间中第一电子设备发出的配音指令；

其中，所述第一电子设备为具有在所述虚拟空间中直播权限的电子设备。

在步骤S102中，确定所述配音指令对应的预设配音类型；

在步骤S103中，确定待配音视频；

在步骤S104中，获取所述第一电子设备发出的配音开始指令时，按照所述预设配音类型播放所述待配音视频对应的无人声视频；

在步骤S105中，在播放所述无人声视频过程中，获取所述无人声视频对应的配音音频，同时将所述配音音频发送至第二电子设备。

其中，所述第二电子设备为具有在所述虚拟空间中观看直播权限的电子设备。

可见，本公开实施例所提供的方案中，服务器可以获取虚拟空间中第一电子设备发出的配音指令，确定配音指令对应的预设配音类型，然后确定待配音视频，进而在获取第一电子设备发出的配音开始指令时，按照预设配音类型播放待配音视频对应的无人声视频，在播放无人声视频过程中，获取无人声视频对应的配音音频，同时将配音音频发送至第二电子设备。其中，第一电子设备为具有在虚拟空间中直播权限的电子设备，第二电子设备为具有在虚拟空间中观看直播权限的电子设备。采用本方案用户可以在虚拟空间以配音的方式进行交互，增加互动方式的多样性，用户体验得到提高。

上述第一电子设备为具有在虚拟空间中直播权限的电子设备，主播可以利用第一电子设备进行直播。在主播进行直播过程中，可以采用配音的方式与观众或者其他主播进行互动，此时，主播可以发出配音指令。为了便于用户操作，第一电子设备的直播界面中可以提供用户接口，例如，如图2所示，第一电子设备的直播界面可以显示“玩配音”按钮201，主播可以点击该按钮201以发出配音指令。

进而，在上述步骤S101中，服务器便可以获取虚拟空间中第一电子设备发出的配音指令，此时表明主播需要采用配音的方式与观众或者其他主播互动。由于虚拟空间中的配音方式可以有多种，所以此时服务器可以确定所获取的配音指令对应的预设配音类型，也就是执行步骤S102。

在一种实施方式中，第一电子设备的直播界面中可以提供不同的用户接口，分别对应不同的预设配音类型，用户通过哪个用户接口发出配音指令，便可以确定该配音指令对应的预设类型为该用户接口对应的预设配音类型。

其中，预设配音类型可以根据用户需求设置，例如，可以为主播一人表演配音，也可以为多个主播进行配音对战，还可以为主播与观众配合完成一段配音等，在此不做具体限定。

在获取虚拟空间中第一电子设备发出的配音指令后，服务器可以执行上述步骤S103，也就是确定待配音视频。为了方便用户选择适合自己需要的视频作为待配音视频，第一电子设备的直播界面中可以显示选择视频面板，其中可以包括主播下载的视频、网络上比较热门的视频、推荐给用户较为适合的视频等，在此不做具体限定。主播可以选择其中一个视频，服务器也就可以确定该视频为待配音视频。

为了方便用户熟悉待配音视频的内容，以使配音效果更好，第一电子设备可以播放待配音视频以供主播观看，同时，服务器可以控制各个第二电子设备同步播放待配音视频，以供各观众观看。其中，第二电子设备为具有在虚拟空间中观看直播权限的电子设备，观众可以利用第二电子设备观看主播的直播。

接下来，在获取第一电子设备发出的配音开始指令时，说明用户需要开始进行配音，那么便可以按照上述预设配音类型播放待配音视频对应的无人声视频。为了方便用户操作，第一电子设备的直播界面中可以提供相应用户接口，例如，第一电子设备的直播界面可以显示“开始配音”按钮，主播点击该按钮便可以发出配音开始指令。

获取第一电子设备发出的配音开始指令时，服务器可以根据预设配音类型控制第一电子设备、第二电子设备、以及其他主播使用的第一电子设备开始播放待配音视频对应的无人声视频。其中，无人声视频即为去除人声只保留背景音乐的视频。

作为一种实施方式，无人声视频可以为预先存储于服务器或者各用户使用的电子设备本地的，当无人声视频存储于服务器时，服务器可以将无人声视频发送至各用户使用的电子设备，以使各用户使用的电子设备播放无人声视频。作为另一种实施方式，确定待配音视频后，服务器便可以对待配音视频进行处理，获得待配音视频对应的无人声视频以备用，这都是合理的。

在播放无人声视频过程中，服务器可以获取无人声视频对应的配音音频，同时将配音音频发送至第二电子设备，也就是执行上述步骤S105，以供观众观看配音表演。在播放无人声视频过程中，主播和/或观众和/或其他主播可以发出音频信号以进行视频中角色的配音，此时相应的用户端电子设备便可以采集到用户发出的音频信号，也就是配音音频，进而发送至服务器。

服务器也就可以接收到各用户端电子设备发送的配音音频，进而将配音音频发送至各个第二电子设备。此时各个第二电子设备正在播放待配音视频对应的无人声视频，这样配音音频与无人声视频一同播放，观众便可以观看到配音表演。

作为本公开实施例的一种实施方式，上述预设配音类型可以为主播表演类型。也就是说，在配音过程中，只有主播一人进行配音，观众观看主播的配音表演。

针对预设配音类型为主播表演类型的情况而言，上述按照所述预设配音类型播放所述待配音视频对应的无人声视频的步骤，可以包括：

控制所述第一电子设备及其所述第二电子设备同时播放所述待配音视频对应的无人声视频。

由于在这种情况下，主播进行配音，观众观看主播的配音表演，那么服务器可以控制第一电子设备及其对应的第二电子设备同时播放上述待配音视频对应的无人声视频，这样，在主播进行配音时，服务器将配音音频发送至各第二电子设备，各第二电子设备可以在播放待配音视频对应的无人声视频的同时，播放配音音频，观众便可以观看到主播的配音表演。

可见，在本实施例中，主播可以进行配音表演，以与观众进行互动，可以增强虚拟空间的互动性和趣味性，提高用户体验。

作为本公开实施例的一种实施方式，上述预设配音类型可以为多主播对战类型。也就是说，多个主播可以分别为待配音视频进行配音，观众可以观看多个主播之间的配音对战表演。

在一种实施方式中，第一电子设备的直播界面中才艺对战功能的二级菜单中可以显示“玩配音”按钮，主播点击该“玩配音”按钮，便可以确定该主播想要进行多主播对战配音。

服务器便可以将当前选择多主播对战配音的主播对应的各第一电子设备进行匹配，作为将进行对战配音的第一电子设备。上述待配音视频可以由其中任意一个主播选择，当然也可以按照其他规则确定，例如，可以为虚拟空间中观众数量最少的主播进行选择，以增加该主播的人气等。

针对预设配音类型为主播表演类型的情况而言，如图3所示，上述按照所述预设配音类型播放所述待配音视频对应的无人声视频的步骤，可以包括：

S301，确定各主播对应的第一电子设备对应的对战顺序；

由于当前存在多个主播需要将进行配音对战，为了保证观众观看配音对战的感受，各主播需要逐一进行配音表演，所以服务器可以确定各主播对应的第一电子设备对应的对战顺序。

在一种实施方式中，服务器可以随机确定上述各第一电子设备对应的对战顺序，并告知各第一电子设备对应的对战顺序。在另一种实施方式中，可以由其中一个主播决定各第一电子设备对应的对战顺序。在另一种实施方式中，可以各主播通过连麦的方式商定对战顺序，这都是合理的。

S302，按照所述对战顺序，控制所述第一电子设备及其对应的第二电子设备依次播放所述待配音视频对应的无人声视频。

确定了上述对战顺序后，各主播便可以开始配音对战，也就是说，按照该对战顺序从第一个主播开始为待配音视频进行配音，直到最后一个主播配音完成。在此过程中，服务器可以控制各第一电子设备及其对应的第二电子设备依次播放待配音视频对应的无人声视频，主播便可以进行配音，其观众可以观看各主播的配音表演。

在每个主播进行配音时，其对应的第一电子设备便可以采集该主播发出的语音信号，进而发送至服务器，服务器可以将其作为配音音频发送至其他第一电子设备以及所有第一电子设备对应的第二电子设备，各主播及观众可以观看配音对战表演。

可见，在本实施例中，多个主播之间可以进行配音对战表演，以与其他主播以及观众进行互动，可以进一步增强虚拟空间的互动性和趣味性，进一步提高用户体验。

作为本公开实施例的一种实施方式，上述预设配音类型可以为多人配音类型。也就是说，主播和观众可以分别为待配音视频中的不同角色进行配音，共同完成待配音视频的配音。一般该观众为虚拟空间中即时通讯区域中用户。例如，可以为直播间中聊天室中的用户。

在这种情况下，待配音视频可以由主播根据参与配音的人数选择。也可以由服务器根据虚拟空间中即时通讯区域中用户的数量推荐适合的视频，这都是合理的，在此不做具体限定。为了方便进行配音，主播以及参与配音的用户可以在即时通讯区域中商定角色的分配。

针对预设配音类型为多人配音类型的情况而言，上述按照所述预设配音类型播放所述待配音视频对应的无人声视频的步骤，可以包括：

为了保证主播以及即时通讯区域中用户能够顺利完成待配音视频的配音，第一电子设备以及即时通讯区域中用户对应的各第二电子设备需要同步播放待配音视频对应的无人声视频，这样，主播以及各用户才能顺利完成配音互动。

可见，在本实施例中，主播以及即时通讯区域中用户可以相互配合完成配音表演，主播与观众之间的互动更强，观众参与感增强，可以进一步增强虚拟空间的互动性和趣味性，进一步提高用户体验。

作为本公开实施例的一种实施方式，上述控制所述虚拟空间中即时通讯区域中用户对应的各第二电子设备，同时播放所述待配音视频对应的无人声视频的步骤，可以包括：

为了保证第一电子设备以及参与配音的用户对应的各第二电子设备可以同时播放无人声视频，第一电子设备可以通过发送广播消息的方式发出开始配音指令，服务器在获取第一电子设备发送的广播消息时，便发送上述待配音视频及开始指令至虚拟空间中即时通讯区域中用户对应的各第二电子设备。

这样，各第二电子设备接收到开始指令时，便开始播放待配音视频对应的无人声视频，保证各第二电子设备在同一时刻开始播放无人声视频。

在配音过程中，为了保证各用户端播放的配音音频是同步的，在一种实施方式中，可以采用实时连麦的方式进行语音传输。例如，语音信号可以采用20毫秒时间间隔进行采集，编码数据可以通过udp(User Datagram Protocol，用户数据报协议)数据包传输，通过FEC(Forward Error Correction，前向纠错)方式处理网络丢包，接收端收到后数据包后，可以通过序列号进行数据包排序，对于丢失的数据包，通过PLC进行恢复，这样，可以保证发送端的数据包可以在400毫秒内传输到接收端。也就可以保证各用户端在同步播放配音音频。

可见，在本实施例中，服务器可以在获取第一电子设备发送的广播消息时，发送待配音视频及开始指令至虚拟空间中即时通讯区域中用户对应的各第二电子设备，以使各第二电子设备在接收到开始指令时，同时播放待配音视频对应的无人声视频，保证同步播放无人声视频，确保配音可以顺利进行。

作为本公开实施例的一种实施方式，上述确定待配音视频的步骤，可以包括：

获取所述第一电子设备上传的视频；将所述上传的视频确定为待配音视频。

在确定待配音视频时，主播可以选择自己喜欢的视频，通过第一电子设备将其上传至服务器，服务器也就可以获取第一电子设备上传的视频，进而，服务器可以将第一电子设备上传的视频确定为待配音视频。

服务器还可以对第一电子设备上传的视频进行字幕识别，得到识别结果，并将识别结果添加至上传的视频，以方便各用户在配音时查看字幕。对于字幕识别的具体方式，本公开实施例再次不做具体限定，只要可以识别出视频的字幕即可。第一电子设备还可以将主播选择的视频保存在本地，在每次直播时都可以使用已上传的视频。

可见，在本实施例中，服务器可以获取第一电子设备上传的视频，进而将该上传的视频确定为待配音视频。这样，可以满足主播的需求，进一步提高用户体验。

作为本公开实施例的一种实施方式，如图4所示，上述无人声视频的获取方式，可以包括：

S401，确定所述待配音视频的音频信号对应的幅值谱；

为了对带配音视频进行处理，得到其对应的无人声视频，首先需要确定待配音视频的音频信号对应的幅值谱。具体来说，可以对待配音视频的音频信号进行分帧处理，得到每帧音频信号，进而将每帧音频信号变换到频域信号，获得其每帧音频信号的幅值谱。

例如，待配音视频的音频信号为16KHz、单声道、16位量化的音频信号，那么可以先对该音频信号进行分帧操作，帧长为512个采样点，帧移为256个采样点，得到每帧音频信号，进而，对每帧音频信号进行短时傅里叶变换，便可以得到每帧音频信号对应的相位谱和幅值谱。

S402，将所述幅值谱输入预先训练完成的网络模型，得到所述待配音视频对应的人声掩膜矩阵；

接下来，服务器便可以将每帧音频信号对应的幅值谱输入预先训练完成的网络模型。其中，该网络模型可以基于预先获取的幅值谱样本及其对应的人声掩膜矩阵训练得到，其可以包括幅值谱与人声掩膜矩阵的对应关系。因此，该网络模型可以根据幅值谱与人声掩膜矩阵的对应关系确定每帧音频信号对应的幅值谱所对应的人声掩膜矩阵。

其中，人声掩膜矩阵即为可以去除人声的掩膜矩阵，人声掩膜矩阵中每个元素的取值为0～1，越接近0表示越接近有人声，越接近1表示越不接近有人声，这样可以通过设置阈值，将人声掩膜矩阵中低于阈值的元素全部设置为0，表示其对应的音频信号部分是有人声的。

上述网络模型可以为卷积神经网络、循环神经网络等深度学习网络模型，再次不做具体限定。

S403，利用所述人声掩膜矩阵及所述幅值谱，计算得到无人声幅值谱；

接下来，服务器可以将上述将人声掩膜矩阵与每帧音频信号的幅值谱做点乘，即可以得到分离后信号的幅值谱，可以理解的是，分离后信号即为无人声音频。

S404，基于所述无人声幅值谱确定所述待配音视频对应的无人声视频。

得到分离后信号的幅值谱后，服务器可以将分离后信号的幅值谱与上述相位谱结合，再将其变换为时域信号，便可以得到分离信号的时域信号，也就是无人声音频。

进而，该无人声音频与待配音视频的图像部分相结合，便可以得到待配音视频对应的无人声视频。

可见，在本实施例中，服务器可以利用预先训练完成网络模型获得待配音视频对应的无人声视频，可以快速准确地确定待配音视频对应的无人声视频，进一步提高用户体验。

作为本公开实施例的一种实施方式，如图5所示，上述无人声视频的获取方式，可以包括：

S501，确定所述待配音视频的音频信号对应的幅值谱；

步骤S501与上述步骤S401相同，相关之处可以参见步骤S401部分的描述及说明，在此不再赘述。

S502，将所述幅值谱输入预先训练完成的网络模型，得到所述待配音视频对应的无人声音频；

服务器可以将步骤S501中得到的幅值谱输入预先训练完成的网络模型，其中，该网络模型可以基于预先获取的幅值谱样本及其对应的无人声音频训练得到，其可以包括幅值谱与无人声音频的对应关系。因此，该网络模型可以根据幅值谱与无人声音频的对应关系确定输入的幅值谱对应的无人声音频，进而将其输出。

具体来说，该网络模型可以先确定每帧音频信号对应的幅值谱所对应的人声掩膜矩阵，然后将人声掩膜矩阵与每帧音频信号的幅值谱做点乘，得到分离后信号的幅值谱，再将分离后信号的幅值谱与上述相位谱结合，再将其变换为时域信号，便可以得到分离信号的时域信号，也就是无人声音频。

上述网络模型也可以为卷积神经网络、循环神经网络等深度学习网络模型，再次不做具体限定。

S503，基于所述无人声音频确定所述待配音视频对应的无人声视频。

进而，服务器可以将上网络模型输出的无人声音频与待配音视频的图像部分相结合，便可以得到待配音视频对应的无人声视频。

上述无人声视频可以为去除人声，保留背景音乐的视频，也可以是人声和背景音乐都去除，保留一些节奏信息的视频，还可以是完全没有声音的视频，这都是合理的，具体可以根据配音需求设置人声掩膜矩阵，以达到相应效果。

作为本公开实施例的一种实施方式，得到上述无人声音频之后，在第一种实施方式中，上述方法还可以包括：

确定无人声音频对应的幅值谱；将所述幅值谱输入预先训练完成的网络模型，得到所述无人声音频对应的乐器掩膜矩阵，利用所述乐器掩膜矩阵及所述幅值谱，计算得到目标乐器幅值谱；基于所述目标乐器幅值谱确定所述无人声音频对应的目标乐器音频。

其中，所述网络模型基于预先获取的幅值谱样本及其对应的乐器掩膜矩阵训练得到，所述网络模型包括幅值谱与乐器掩膜矩阵的对应关系。乐器掩膜矩阵即为可以去除其他音频信号，保留某种乐器音频信号的矩阵。

由于目标乐器音频的确定方式与上述第一种无人声音频的确定方式基本相同，在此不再赘述。

在第二种实施方式中，上述方法还可以包括：

确定无人声音频对应的幅值谱；将所述幅值谱输入预先训练完成的网络模型，得到所述无人声音频对应的目标乐器音频。

其中，所述网络模型基于预先获取的幅值谱样本及其对应的乐器音频训练得到，所述网络模型包括幅值谱与乐器音频的对应关系。由于目标乐器音频的确定方式与上述第二种无人声音频的确定方式基本相同，在此不再赘述。

上述目标乐器可以根据实际需要设定，例如，可以为钢琴、吉他、鼓等乐器。

可见，利用上述两种方式可以获取各种目标乐器音频，服务器可以利用其它乐器音频替换无人声音频中的目标乐器音频，也可以根据乐器音频确定无人声音频的节奏信息等，为多样性的配音方式提供便利，进一步增强配音互动的多样性，提高用户体验。

作为本公开实施例的一种实施方式，配音完成后，在接收到用户发出的上传指令后，服务器可以将上述配音音频及无人声视频编码为配音视频，并发布至直播软件平台，以供用户下载查看。

本公开实施例还提供了第二种音视频的处理方法，本公开实施例所提供的第二种音视频处理方法可以应用于安装有直播应用程序的第一电子设备。

其中，第一电子设备为具有在虚拟空间中直播权限的电子设备，主播可以通过第一电子设备进行直播。

如图6所示，一种音视频的处理方法，应用于第一电子设备，其中，所述第一电子设备为具有在虚拟空间中直播权限的电子设备，所述方法包括：

在步骤S601中，获取在所述虚拟空间中的配音指令；

在步骤S602中，确定所述配音指令对应的预设配音类型；

在步骤S603中，确定待配音视频；

在步骤S604中，在获取配音开始指令时，按照所述预设配音类型播放所述待配音视频对应的无人声视频；

在步骤S605中，在播放所述无人声视频过程中，获取所述无人声视频对应的配音音频，同时将所述配音音频发送至服务器。

可见，本公开实施例所提供的方案中，第一电子设备可以获取在虚拟空间中的配音指令，确定配音指令对应的预设配音类型，然后确定待配音视频，进而在获取配音开始指令时，按照预设配音类型播放待配音视频对应的无人声视频，在播放无人声视频过程中，获取无人声视频对应的配音音频，同时将配音音频发送至服务器。采用本方案用户可以在虚拟空间以配音的方式进行交互，增加互动方式的多样性，用户体验得到提高。

在主播进行直播过程中，可以采用配音的方式与观众或者其他主播进行互动，此时，主播可以通过第一电子设备发出配音指令。进而，在上述步骤S101中，第一电子设备便可以获取虚拟空间中主播发出的配音指令，此时表明主播需要采用配音的方式与观众或者其他主播互动。由于虚拟空间中的配音方式可以有多种，所以此时第一电子设备可以确定所获取的配音指令对应的预设配音类型，也就是执行步骤S602。

在获取虚拟空间中主播发出的配音指令后，第一电子设备可以执行上述步骤S603，也就是确定待配音视频。接下来，在获取主播发出的配音开始指令时，说明主播需要开始进行配音，那么便可以按照上述预设配音类型播放待配音视频对应的无人声视频。

进而，获取主播发出的配音开始指令时，第一电子设备可以按照预设配音类型播放待配音视频，在播放该无人声视频过程中，获取无人声视频对应的配音音频，同时将配音音频发送至服务器。服务器便可以将配音音频发送至第二电子设备、以及其他主播使用的第一电子设备。其中，无人声视频即为去除人声只保留背景音乐的视频。第二电子设备为具有在虚拟空间中观看直播权限的电子设备。

由于第一电子设备确定配音指令对应的预设配音类型的方式、确定待配音视频的方式以及获取无人声视频对应的配音音频的方式均可以分别与上述服务器确定配音指令对应的预设配音类型的方式、确定待配音视频的方式以及获取无人声视频对应的配音音频的方式相同，所以在此不再赘述。

作为本公开实施例的一种实施方式，上述预设配音类型可以为主播表演类型。

相应的，上述按照所述预设配音类型播放所述待配音视频对应的无人声视频的步骤，可以包括：

播放所述待配音视频对应的无人声视频，并控制第二电子设备同时播放所述待配音视频对应的无人声视频。

第一电子设备播放待配音视频对应的无人声视频时，可以发送请求至服务器，以使服务器控制第二电子设备同时播放待配音视频对应的无人声视频。保证主播的观众能够同时观看到主播的配音表演。

作为本公开实施例的一种实施方式，上述预设配音类型可以为多主播对战类型。

确定各主播对应的第一电子设备对应的对战顺序；按照所述对战顺序，控制所述第一电子设备及其对应的第二电子设备依次播放所述待配音视频对应的无人声视频。

由于当前存在多个主播需要将进行配音对战，为了保证观众观看配音对战的感受，各主播需要逐一进行配音表演，所以上述主播使用的第一电子设备可以确定各主播对应的第一电子设备对应的对战顺序，进而按照该对战顺序，控制第一电子设备及其对应的第二电子设备依次播放所述待配音视频对应的无人声视频。

在一种实施方式中，第一电子设备可以发送配音切换请求至服务器，服务器接收到该配音切换请求后，便可以控制各第一电子设备及其对应的第二电子设备依次播放待配音视频对应的无人声视频，主播便可以进行配音，其观众可以观看各主播的配音表演。

作为本公开实施例的一种实施方式，上述预设配音类型可以为多人配音类型。

获取用户上传的视频；将所述上传的视频确定为待配音视频。

在确定待配音视频时，主播可以选择自己喜欢的视频进行上传，第一电子设备也就可以获取用户上传的视频，进而，第一电子设备可以将用户上传的视频确定为待配音视频。

可见，在本实施例中，第一电子设备可以获取用户上传的视频，进而将该上传的视频确定为待配音视频。这样，可以满足主播的需求，进一步提高用户体验。

作为本公开实施例的一种实施方式，上述无人声视频的获取方式，可以包括：

确定所述待配音视频的音频信号对应的幅值谱；将所述幅值谱输入预先训练完成的网络模型，得到所述待配音视频对应的人声掩膜矩阵，其中，所述网络模型基于预先获取的幅值谱样本及其对应的人声掩膜矩阵训练得到，所述网络模型包括幅值谱与人声掩膜矩阵的对应关系；利用所述人声掩膜矩阵及所述幅值谱，计算得到无人声幅值谱；基于所述无人声幅值谱确定所述待配音视频对应的无人声视频。

确定所述待配音视频的音频信号对应的幅值谱；将所述幅值谱输入预先训练完成的网络模型，得到所述待配音视频对应的无人声音频，其中，所述网络模型基于预先获取的幅值谱样本及其对应的无人声音频训练得到，所述网络模型包括幅值谱与无人声音频的对应关系；基于所述无人声音频确定所述待配音视频对应的无人声视频。

由于第一电子设备获取无人声视频的方式与上述服务器获取无人声视频的方式相同，可以参见上述服务器获取无人声视频的方式部分的说明，在此不再赘述。

本公开实施例还提供了第三种音视频的处理方法，本公开实施例所提供的第三种音视频处理方法可以应用于安装有直播应用程序的第二电子设备。

其中，第二电子设备为具有在虚拟空间中观看直播权限的电子设备，观众可以通过第二电子设备观看直播。

如图7所示，一种音视频的处理方法，应用于第二电子设备，所述方法包括：

在步骤S701中，在获取到虚拟空间中的配音开始指令时，播放预先获取的待配音视频对应的无人声视频；

在步骤S702中，在播放所述无人声视频过程中，获取到所述无人声视频对应的配音音频时，播放所述配音音频。

可见，本公开实施例所提供的方案中，第二电子设备可以在获取到虚拟空间中的配音开始指令时，播放预先获取的待配音视频对应的无人声视频，在播放无人声视频过程中，获取到无人声视频对应的配音音频时，播放配音音频。采用本方案用户可以在虚拟空间以配音的方式进行交互，增加互动方式的多样性，用户体验得到提高。

观众可以通过上述第二电子设备观看主播的直播，第二电子设备在获取到虚拟空间中的配音开始指令时，说明此时主播或者其他观众将要开始进行配音表演，那么第二电子设备便可以播放预先获取的待配音视频对应的无人声视频。

其中，配音开始指令可以为服务器生成并发送至第二电子设备的，也可以是第一电子设备发送至服务器，服务器转发至第二电子设备的，这都是合理的。

在服务器或者第一电子设备确定待配音视频后，可以将该待配音视频发送至第二电子设备，也可以将待配音视频的标识发送至第二电子设备，第二电子设备也就可以确定该标识对应的视频为待配音视频，进而获取待配音视频对应的无人声视频。

在上述步骤S702中，在播放无人声视频过程中，第二电子设备获取到所述无人声视频对应的配音音频时，便可以播放配音音频，观众也就可以观看到配音表演，其中，配音音频可以为服务器接收到第一电子设备或者其他观众使用的第二电子设备发送的配音音频，并转发至第二电子设备。

主播在进行配音表演时，第一电子设备可以获取主播发出的配音音频并将其发送至服务器。其他观众在进行配音表演时，其他观众使用的第二电子设备可以获取观众发出的配音音频并将其发送至服务器。

作为本公开实施例的一种实施方式，上述在获取到虚拟空间中的配音开始指令时，播放预先获取的待配音视频对应的无人声视频的步骤，可以包括：

由于第二电子设备获取无人声视频的方式与上述服务器获取无人声视频的方式相同，可以参见上述服务器获取无人声视频的方式部分的说明，在此不再赘述。

图8是根据一示例性实施例示出的第一种音视频的处理装置框图。

如图8所示，一种音视频的处理装置，应用于服务器，所述装置包括：

第一配音指令获取模块810，被配置为执行获取虚拟空间中第一电子设备发出的配音指令；

第一预设配音类型确定模块820，被配置为执行确定所述配音指令对应的预设配音类型；

第一待配音视频确定模块830，被配置为执行确定待配音视频；

第一无人声视频播放模块840，被配置为执行获取所述第一电子设备发出的配音开始指令时，按照所述预设配音类型播放所述待配音视频对应的无人声视频；

第一配音音频发送模块850，被配置为执行在播放所述无人声视频过程中，获取所述无人声视频对应的配音音频，同时将所述配音音频发送至第二电子设备。

作为本公开实施例的一种实施方式，上述预设配音类型可以为主播表演类型；

上述第一无人声视频播放模块840可以包括：

第一无人声视频播放子模块(图8中未示出)，被配置为执行控制所述第一电子设备及所述第二电子设备同时播放所述待配音视频对应的无人声视频。

作为本公开实施例的一种实施方式，上述预设配音类型可以为多主播对战类型；

上述第一无人声视频播放模块840可以包括：

对战顺序确定子模块(图8中未示出)，被配置为执行确定各主播对应的第一电子设备对应的对战顺序；

第二无人声视频播放子模块(图8中未示出)，被配置为执行按照所述对战顺序，控制所述第一电子设备及其对应的第二电子设备依次播放所述待配音视频对应的无人声视频。

作为本公开实施例的一种实施方式，上述预设配音类型可以为多人配音类型；

上述第一无人声视频播放模块840可以包括：

第三无人声视频播放子模块(图8中未示出)，被配置为执行控制所述虚拟空间中即时通讯区域中用户对应的各第二电子设备，同时播放所述待配音视频对应的无人声视频。

作为本公开实施例的一种实施方式，上述第三无人声视频播放子模块可以包括：

第一无人声视频播放单元(图8中未示出)，被配置为执行在获取所述第一电子设备发送的广播消息时，发送所述待配音视频及开始指令至所述虚拟空间中即时通讯区域中用户对应的各第二电子设备，以使所述各第二电子设备在接收到所述开始指令时，同时播放所述待配音视频对应的无人声视频。

作为本公开实施例的一种实施方式，上述第一待配音视频确定模块830可以包括：

第一视频获取子模块(图8中未示出)，被配置为执行获取所述第一电子设备上传的视频；

第一待配音视频确定子模块(图8中未示出)，被配置为执行将所述上传的视频确定为待配音视频。

作为本公开实施例的一种实施方式，上述音视频处理装置还可以包括第一无人声视频确定模块(图8中未示出)；

上述第一无人声视频确定模块可以包括：

第一幅值谱确定子模块(图8中未示出)，被配置为执行确定所述待配音视频的音频信号对应的幅值谱；

第一人声掩膜矩阵确定子模块(图8中未示出)，被配置为执行将所述幅值谱输入预先训练完成的网络模型，得到所述待配音视频对应的人声掩膜矩阵；

其中，所述网络模型基于预先获取的幅值谱样本及其对应的人声掩膜矩阵训练得到，所述网络模型包括幅值谱与人声掩膜矩阵的对应关系。

第一无人声幅值谱确定子模块(图8中未示出)，被配置为执行利用所述人声掩膜矩阵及所述幅值谱，计算得到无人声幅值谱；

第一无人声视频确定子模块(图8中未示出)，被配置为执行基于所述无人声幅值谱确定所述待配音视频对应的无人声视频。

作为本公开实施例的一种实施方式，上述装置还可以包括第二无人声视频确定模块(图8中未示出)；

上述第二无人声视频确定模块可以包括：

第二幅值谱确定子模块(图8中未示出)，被配置为执行确定所述待配音视频的音频信号对应的幅值谱；

第一无人声音频确定子模块(图8中未示出)，被配置为执行将所述幅值谱输入预先训练完成的网络模型，得到所述待配音视频对应的无人声音频；

其中，所述网络模型基于预先获取的幅值谱样本及其对应的无人声音频训练得到，所述网络模型包括幅值谱与无人声音频的对应关系。

第二无人声视频确定子模块(图8中未示出)，被配置为执行基于所述无人声音频确定所述待配音视频对应的无人声视频。

图9是根据一示例性实施例示出的第二种音视频的处理装置框图。

如图9所示，一种音视频的处理装置，应用于第一电子设备，其中，所述第一电子设备为具有在虚拟空间中直播权限的电子设备，所述装置包括：

第二配音指令获取模块910，被配置为执行获取在所述虚拟空间中的配音指令；

第二预设配音类型确定模块920，被配置为执行确定所述配音指令对应的预设配音类型；

第二待配音视频确定模块930，被配置为执行确定待配音视频；

第二无人声视频播放模块940，被配置为执行在获取配音开始指令时，按照所述预设配音类型播放所述待配音视频对应的无人声视频；

第二配音音频发送模块950，被配置为执行在播放所述无人声视频过程中，获取所述无人声视频对应的配音音频，同时将所述配音音频发送至服务器。

作为本公开实施例的一种实施方式，上述预设配音类型为主播表演类型；

上述第二无人声视频播放模块940可以包括：

第四无人声视频播放子模块(图9中未示出)，被配置为执行播放所述待配音视频对应的无人声视频，并控制第二电子设备同时播放所述待配音视频对应的无人声视频，其中，所述第二电子设备为具有在所述虚拟空间中观看直播权限的电子设备。

作为本公开实施例的一种实施方式，上述预设配音类型为多主播对战类型；

上述第二无人声视频播放模块940可以包括：

对战顺序确定子模块(图9中未示出)，被配置为执行确定各主播对应的第一电子设备对应的对战顺序；

第五无人声视频播放子模块(图9中未示出)，被配置为执行按照所述对战顺序，控制所述第一电子设备及其对应的第二电子设备依次播放所述待配音视频对应的无人声视频。

作为本公开实施例的一种实施方式，上述预设配音类型为多人配音类型；

上述第二无人声视频播放模块940可以包括：

第六无人声视频播放子模块(图9中未示出)，被配置为执行控制所述虚拟空间中即时通讯区域中用户对应的各第二电子设备，同时播放所述待配音视频对应的无人声视频。

作为本公开实施例的一种实施方式，上述第六无人声视频播放子模块可以包括：

第二无人声视频播放单元(图9中未示出)，被配置为执行发送的广播消息至所述服务器，以使所述服务器发送所述待配音视频及开始指令至所述虚拟空间中即时通讯区域中用户对应的各第二电子设备，以使所述各第二电子设备在接收到所述开始指令时，同时播放所述待配音视频对应的无人声视频。

作为本公开实施例的一种实施方式，上述第二待配音视频确定模块930可以包括：

第二视频获取子模块(图9中未示出)，被配置为执行获取用户上传的视频；

第二待配音视频确定子模块(图9中未示出)，被配置为执行将所述上传的视频确定为待配音视频。

作为本公开实施例的一种实施方式，上述音视频处理装置还可以包括第三无人声视频确定模块(图9中未示出)；

所述第三无人声视频确定模块可以包括：

第三幅值谱确定子模块(图9中未示出)，被配置为执行确定所述待配音视频的音频信号对应的幅值谱；

第二人声掩膜矩阵确定子模块(图9中未示出)，被配置为执行将所述幅值谱输入预先训练完成的网络模型，得到所述待配音视频对应的人声掩膜矩阵；

第二无人声幅值谱确定子模块(图9中未示出)，被配置为执行利用所述人声掩膜矩阵及所述幅值谱，计算得到无人声幅值谱；

第三无人声视频确定子模块(图9中未示出)，被配置为执行基于所述无人声幅值谱确定所述待配音视频对应的无人声视频。

作为本公开实施例的一种实施方式，上述音视频处理装置还可以包括第四无人声视频确定模块(图9中未示出)；

所述第四无人声视频确定模块可以包括：

第四幅值谱确定子模块(图9中未示出)，被配置为执行确定所述待配音视频的音频信号对应的幅值谱；

第二无人声音频确定子模块(图9中未示出)，被配置为执行将所述幅值谱输入预先训练完成的网络模型，得到所述待配音视频对应的无人声音频；

第四无人声视频确定子模块(图9中未示出)，被配置为执行基于所述无人声音频确定所述待配音视频对应的无人声视频。

图10是根据一示例性实施例示出的第三种音视频的处理装置框图。

如图10所示，一种音视频的处理装置，应用于第二电子设备，其中，所述第二电子设备为具有在所述虚拟空间中观看直播权限的电子设备，所述装置包括：

第三无人声视频播放模块1010，被配置为执行在获取到虚拟空间中的配音开始指令时，播放预先获取的待配音视频对应的无人声视频；

配音音频播放模块1020，被配置为执行在播放所述无人声视频过程中，获取到所述无人声视频对应的配音音频时，播放所述配音音频。

作为本公开实施例的一种实施方式，上述第三无人声视频播放模块1010可以包括：

第七无人声视频播放子模块(图10中未示出)，被配置为执行接收服务器发送的虚拟空间中的待配音视频及开始指令时，播放所接收到的待配音视频对应的无人声视频。

作为本公开实施例的一种实施方式，上述音视频处理装置还可以包括第五无人声视频确定模块；

所述第五无人声视频确定模块可以包括：

第五幅值谱确定子模块(图10中未示出)，被配置为执行确定所述待配音视频的音频信号对应的幅值谱；

第三人声掩膜矩阵确定子模块(图10中未示出)，被配置为执行将所述幅值谱输入预先训练完成的网络模型，得到所述待配音视频对应的人声掩膜矩阵；

第三无人声幅值谱确定子模块(图10中未示出)，被配置为执行利用所述人声掩膜矩阵及所述幅值谱，计算得到无人声幅值谱；

第五无人声视频确定子模块(图10中未示出)，被配置为执行基于所述无人声幅值谱确定所述待配音视频对应的无人声视频。

作为本公开实施例的一种实施方式，上述音视频处理装置还可以包括第五无人声视频确定模块(图10中未示出)；

所述第五无人声视频确定模块可以包括：

第六幅值谱确定子模块(图10中未示出)，被配置为执行确定所述待配音视频的音频信号对应的幅值谱；

第三无人声音频确定子模块(图10中未示出)，被配置为执行将所述幅值谱输入预先训练完成的网络模型，得到所述待配音视频对应的无人声音频；

第六无人声视频确定子模块(图10中未示出)，被配置为执行基于所述无人声音频确定所述待配音视频对应的无人声视频。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

本公开实施例还提供了一种电子设备，如图11所示，电子设备可以包括处理器1101、通信接口1102、存储器1103和通信总线1104，其中，处理器1101，通信接口1102，存储器1103通过通信总线1104完成相互间的通信，

存储器1103，用于存放计算机程序；

处理器1101，用于执行存储器1103上所存放的程序时，实现上述实施例中任一所述的音视频处理方法。具体来说，电子设备可以为服务器，处理器1101，用于执行存储器1103上所存放的程序时，实现上述任一实施例所述的第一种音视频处理方法。电子设备可以为上述第一电子设备，处理器1101，用于执行存储器1103上所存放的程序时，实现上述任一实施例所述的第二种音视频处理方法。电子设备可以为上述第二电子设备，处理器1101，用于执行存储器1103上所存放的程序时，实现上述任一实施例所述的第三种音视频处理方法。

可见，采用本方案用户可以在虚拟空间以配音的方式进行交互，增加互动方式的多样性，用户体验得到提高。

上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect，PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture，EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口用于上述电子设备与其他设备之间的通信。

存储器可以包括随机存取存储器(Random Access Memory，RAM)，也可以包括非易失性存储器(Non-Volatile Memory，NVM)，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，CPU)、网络处理器(Network Processor，NP)等；还可以是数字信号处理器(Digital SignalProcessing，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

本公开实施例还提供了一种计算机可读存储介质，当所述存储介质中的指令由服务器的处理器执行时，使得服务器能够执行上述实施例中任一所述的音视频处理方法。

本公开实施例还提供了一种应用程序产品，该应用程序产品用于在运行时执行上述实施例中任一所述的音视频处理方法。

本领域技术人员在考虑说明书及实践这里公开的申请后，将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由上面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种音视频的处理方法，其特征在于，应用于服务器，所述方法包括：

确定所述配音指令对应的预设配音类型；

确定待配音视频；

获取所述第一电子设备发出的配音开始指令时，按照所述预设配音类型播放所述待配音视频对应的无人声视频，其中，所述无人声视频是对所述待配音视频进行处理得到的；

在播放所述无人声视频过程中，获取所述无人声视频对应的配音音频，同时将所述配音音频发送至第二电子设备，其中，所述第二电子设备为具有在所述虚拟空间中观看直播权限的电子设备；

所述对所述待配音视频进行处理的方式，包括：

确定所述待配音视频的音频信号对应的幅值谱；将所述幅值谱输入预先训练完成的网络模型，得到所述待配音视频对应的人声掩膜矩阵，其中，所述网络模型基于预先获取的幅值谱样本及其对应的人声掩膜矩阵训练得到，所述网络模型包括幅值谱与人声掩膜矩阵的对应关系；利用所述人声掩膜矩阵及所述幅值谱，计算得到无人声幅值谱；基于所述无人声幅值谱确定所述待配音视频对应的无人声视频；或，

2.如权利要求1所述的方法，其特征在于，所述预设配音类型为主播表演类型；

3.如权利要求1所述的方法，其特征在于，所述预设配音类型为多主播对战类型；

确定各主播对应的第一电子设备对应的对战顺序，其中，所述对战顺序用于指示所述各主播进行配音的顺序，所述对战顺序与所述各主播的配音顺序相对应；

按照所述对战顺序，控制所述第一电子设备及其对应的第二电子设备依次播放所述待配音视频对应的无人声视频，获取所述各主播按照所述对战顺序进行配音时，该主播对应的第一电子设备提供的语音信号；

将所述语音信号作为配音音频发送至其他第一电子设备以及所有第一电子设备对应的第二电子设备。

4.如权利要求1所述的方法，其特征在于，所述预设配音类型为多人配音类型；

5.如权利要求4所述的方法，其特征在于，所述控制所述虚拟空间中即时通讯区域中用户对应的各第二电子设备，同时播放所述待配音视频对应的无人声视频的步骤，包括：

6.如权利要求1-5任一项所述的方法，其特征在于，所述确定待配音视频的步骤，包括：

获取所述第一电子设备上传的视频；

将所述上传的视频确定为待配音视频。

7.一种音视频的处理方法，其特征在于，应用于第一电子设备，其中，所述第一电子设备为具有在虚拟空间中直播权限的电子设备，所述方法包括：

获取在所述虚拟空间中的配音指令；

确定所述配音指令对应的预设配音类型；

确定待配音视频；

在获取配音开始指令时，按照所述预设配音类型播放所述待配音视频对应的无人声视频，其中，所述无人声视频是对所述待配音视频进行处理得到的；在播放所述无人声视频过程中，获取所述无人声视频对应的配音音频，同时将所述配音音频发送至服务器，所述配音音频用于在第二电子设备中进行播放，其中，所述第二电子设备为具有在所述虚拟空间中观看直播权限的电子设备；

所述对所述待配音视频进行处理的方式，包括：

8.如权利要求7所述的方法，其特征在于，所述预设配音类型为主播表演类型；

9.如权利要求7所述的方法，其特征在于，所述预设配音类型为多主播对战类型；

按照所述对战顺序，控制所述第一电子设备及其对应的第二电子设备依次播放所述待配音视频对应的无人声视频，获取主播按照所述对战顺序进行配音时发出的语音信号，发送所述语音信号至服务器，所述语音信号用于作为其他第一电子设备以及所有第一电子设备对应的第二电子设备播放的配音音频。

10.如权利要求7所述的方法，其特征在于，所述预设配音类型为多人配音类型；

11.如权利要求10所述的方法，其特征在于，所述控制所述虚拟空间中即时通讯区域中用户对应的各第二电子设备，同时播放所述待配音视频对应的无人声视频的步骤，包括：

12.如权利要求7-11任一项所述的方法，其特征在于，所述确定待配音视频的步骤，包括：

获取用户上传的视频；

将所述上传的视频确定为待配音视频。

13.一种音视频的处理方法，其特征在于，应用于第二电子设备，其中，所述第二电子设备为具有在虚拟空间中观看直播权限的电子设备，所述方法包括：

在获取到虚拟空间中的配音开始指令时，播放预先获取的待配音视频对应的无人声视频，其中，所述无人声视频是对所述待配音视频进行处理得到的；

在播放所述无人声视频过程中，获取到所述无人声视频对应的配音音频时，播放所述配音音频，其中，所述配音音频为第一电子设备提供的语音信号；

所述对所述待配音视频进行处理的方式，包括：

14.如权利要求13所述的方法，其特征在于，所述在获取到虚拟空间中的配音开始指令时，播放预先获取的待配音视频对应的无人声视频的步骤，包括：

15.一种音视频的处理装置，其特征在于，应用于服务器，所述装置包括：

第一配音指令获取模块，被配置为执行获取虚拟空间中第一电子设备发出的配音指令，其中，所述第一电子设备为具有在所述虚拟空间中直播权限的电子设备；

第一预设配音类型确定模块，被配置为执行确定所述配音指令对应的预设配音类型；

第一待配音视频确定模块，被配置为执行确定待配音视频；

第一无人声视频播放模块，被配置为执行获取所述第一电子设备发出的配音开始指令时，按照所述预设配音类型播放所述待配音视频对应的无人声视频，其中，所述无人声视频是对所述待配音视频进行处理得到的；

第一配音音频发送模块，被配置为执行在播放所述无人声视频过程中，获取所述无人声视频对应的配音音频，同时将所述配音音频发送至第二电子设备，其中，所述第二电子设备为具有在所述虚拟空间中观看直播权限的电子设备；

其中，所述音视频处理装置还包括第一无人声视频确定模块和第二无人声视频确定模块；

所述第一无人声视频确定模块包括：

第一无人声视频确定子模块，被配置为执行基于所述无人声幅值谱确定所述待配音视频对应的无人声视频；

所述第二无人声视频确定模块包括：

16.如权利要求15所述的装置，其特征在于，所述预设配音类型为主播表演类型；

所述第一无人声视频播放模块包括：

17.如权利要求15所述的装置，其特征在于，所述预设配音类型为多主播对战类型；

所述第一无人声视频播放模块包括：

对战顺序确定子模块，被配置为执行确定各主播对应的第一电子设备对应的对战顺序，其中，所述对战顺序用于指示所述各主播进行配音的顺序，所述对战顺序与所述各主播的配音顺序相对应；

第二无人声视频播放子模块，被配置为执行按照所述对战顺序，控制所述第一电子设备及其对应的第二电子设备依次播放所述待配音视频对应的无人声视频，获取所述各主播按照所述对战顺序进行配音时，该主播对应的第一电子设备提供的语音信号；将所述语音信号作为配音音频发送至其他第一电子设备以及所有第一电子设备对应的第二电子设备。

18.如权利要求15所述的装置，其特征在于，所述预设配音类型为多人配音类型；

所述第一无人声视频播放模块包括：

19.如权利要求18所述的装置，其特征在于，所述第三无人声视频播放子模块包括：

20.如权利要求15-19任一项所述的装置，其特征在于，所述第一待配音视频确定模块包括：

21.一种音视频的处理装置，其特征在于，应用于第一电子设备，其中，所述第一电子设备为具有在虚拟空间中直播权限的电子设备，所述装置包括：

第二待配音视频确定模块，被配置为执行确定待配音视频；

第二无人声视频播放模块，被配置为执行在获取配音开始指令时，按照所述预设配音类型播放所述待配音视频对应的无人声视频，其中，所述无人声视频是对所述待配音视频进行处理得到的；

第二配音音频发送模块，被配置为执行在播放所述无人声视频过程中，获取所述无人声视频对应的配音音频，同时将所述配音音频发送至服务器，所述配音音频用于在第二电子设备中进行播放，其中，所述第二电子设备为具有在所述虚拟空间中观看直播权限的电子设备；

所述音视频处理装置还包括第三无人声视频确定模块和第四无人声视频确定模块；

所述第三无人声视频确定模块包括：

第三无人声视频确定子模块，被配置为执行基于所述无人声幅值谱确定所述待配音视频对应的无人声视频；

所述第四无人声视频确定模块包括：

22.如权利要求21所述的装置，其特征在于，所述预设配音类型为主播表演类型；

所述第二无人声视频播放模块包括：

23.如权利要求21所述的装置，其特征在于，所述预设配音类型为多主播对战类型；

所述第二无人声视频播放模块包括：

第五无人声视频播放子模块，被配置为执行按照所述对战顺序，控制所述第一电子设备及其对应的第二电子设备依次播放所述待配音视频对应的无人声视频，获取主播按照所述对战顺序进行配音时发出的语音信号，发送所述语音信号至服务器，所述语音信号用于作为其他第一电子设备以及所有第一电子设备对应的第二电子设备播放的配音音频。

24.如权利要求21所述的装置，其特征在于，所述预设配音类型为多人配音类型；

所述第二无人声视频播放模块包括：

25.如权利要求24所述的装置，其特征在于，所述第六无人声视频播放子模块包括：

26.如权利要求21-25任一项所述的装置，其特征在于，所述第二待配音视频确定模块包括：

第二视频获取子模块，被配置为执行获取用户上传的视频；

27.一种音视频的处理装置，其特征在于，应用于第二电子设备，其中，所述第二电子设备为具有在虚拟空间中观看直播权限的电子设备，所述装置包括：

第三无人声视频播放模块，被配置为执行在获取到虚拟空间中的配音开始指令时，播放预先获取的待配音视频对应的无人声视频，其中，所述无人声视频是对所述待配音视频进行处理得到的；

配音音频播放模块，被配置为执行在播放所述无人声视频过程中，获取到所述无人声视频对应的配音音频时，播放所述配音音频，其中，所述配音音频为第一电子设备提供的语音信号；

所述音视频处理装置还包括第五无人声视频确定模块和第六无人声视频确定模块；

所述第五无人声视频确定模块包括：

第五无人声视频确定子模块，被配置为执行基于所述无人声幅值谱确定所述待配音视频对应的无人声视频；

所述第六无人声视频确定模块包括：

28.如权利要求27所述的装置，其特征在于，所述第三无人声视频播放模块包括：

29.一种服务器，其特征在于，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现如权利要求1至6中任一项所述的音视频的处理方法。

30.一种电子设备，其特征在于，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现如权利要求7至12或13至14中任一项所述的音视频的处理方法。

31.一种存储介质，其特征在于，当所述存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行权利要求1-6或7至12或13至14任一所述的音视频的处理方法。