CN113393857A

CN113393857A - 一种音乐信号的人声消除方法、设备及介质

Info

Publication number: CN113393857A
Application number: CN202110649872.0A
Authority: CN
Inventors: 闫震海
Original assignee: Tencent Music Entertainment Technology Shenzhen Co Ltd
Current assignee: Tencent Music Entertainment Technology Shenzhen Co Ltd
Priority date: 2021-06-10
Filing date: 2021-06-10
Publication date: 2021-09-14
Anticipated expiration: 2041-06-10
Also published as: CN113393857B

Abstract

本申请公开了一种音乐信号的人声消除方法、设备及介质，包括：将音乐信号输入至声伴分离模型，得到所述声伴分离模型输出的人声信号；基于所述音乐信号以及所述人声信号确定线性***传递函数；将所述音乐信号以及所述人声信号之间的差信号作为初始人声消除信号，并利用所述线性***传递函数对所述初始人声消除信号进行人声压制，得到最终的人声消除信号。这样，先利用声伴分离模型对音乐信号的人声信号进行初步消除，之后利用线性***传统函数对利用声伴分离模型确定的初始人声消除信号进行进一步的人声压制，能够提升对音乐信号中人声信号的消除程度，从而得到更加干净的人声消除信号。

Description

一种音乐信号的人声消除方法、设备及介质

技术领域

本申请涉及音频处理技术领域，特别涉及一种音乐信号的人声消除方法、设备及介质。

背景技术

当前，深度学习被广泛应用于音乐信号的人声和伴奏的分离，常见的输出伴奏的声伴分离模型，虽然可以在一定程度上消除音乐信号中的人声信号成分，但其相关系数需要提前训练，且是固定不变的，这种处理方式，是从静态的角度分析人声信号在一段音乐信号中的分布情况，面对动态起伏的人声信号，存在消除的不够彻底，仍有部分残留的人声信号成分的缺点，尤其是在人声信号从无到有出现时，往往会残留人耳可分辨的人声信号。综上，在实现本发明的过程中，发明人至少发现，现有技术中存在音乐信号中人声信号消除不够彻底，存在部分残留的问题。

发明内容

有鉴于此，本申请的目的在于提供一种音乐信号的人声消除方法、设备及介质，能够提升对音乐信号中人声信号的消除程度，从而得到更加干净的人声消除信号。其具体方案如下：

第一方面，本申请公开了一种音乐信号的人声消除方法，包括：

将音乐信号输入至声伴分离模型，得到所述声伴分离模型输出的人声信号；

基于所述音乐信号以及所述人声信号确定线性***传递函数；

将所述音乐信号以及所述人声信号之间的差信号作为初始人声消除信号；

利用所述线性***传递函数对所述初始人声消除信号进行人声压制，得到最终的人声消除信号。

可选的，所述利用所述线性***传递函数对所述初始人声消除信号进行人声压制，得到最终的人声消除信号，包括：

确定所述初始人声消除信号的频域信号，得到目标频域信号；

利用所述线性***传递函数以及所述目标频域信号确定人声压制频域信号；

对所述人声压制频域信号进行傅里叶逆变换，得到最终的人声消除信号。

可选的，所述确定所述初始人声消除信号的频域信号，得到目标频域信号，包括：

确定所述音乐信号的第一频域信号，以及所述人声信号的第二频域信号；

将所述第一频域信号和所述第二频域信号的差信号确定为所述初始人声消除信号的频域信号，得到目标频域信号。

可选的，所述基于所述音乐信号以及所述人声信号确定线性***传递函数，包括：

对所述音乐信号以及所述人声信号进行分帧处理，得到所述音乐信号以及所述人声信号的每一帧数据；

基于所述音乐信号以及所述人声信号的每一帧数据确定每一帧数据对应的线性***传递函数。

可选的，所述基于所述音乐信号以及所述人声信号的每一帧数据确定每一帧数据对应的线性***传递函数，包括：

确定所述音乐信号的每一帧数据对应的第一自功率谱，以及所述人声信号的每一帧数据对应的第二自功率谱；

基于所述音乐信号以及所述人声信号的每一帧数据确定所述音乐信号与所述初始人声消除信号的每一帧数据对应的互功率谱；

基于所述第一自功率谱、所述第二自功率谱、所述互功率谱确定每一帧数据对应的线性***传递函数。

可选的，所述基于所述第一自功率谱、所述第二自功率谱、所述互功率谱确定每一帧数据对应的线性***传递函数，包括：

利用所述第二自功率谱对应的控制人声信号压制程度的参数、所述第一自功率谱、所述第二自功率谱以及所述互功率谱确定每一帧数据对应的线性***传递函数。

确定所述音乐信号的每一帧数据对应的第一自功率谱；

利用所述第一自功率谱以及所述互功率谱确定每一帧数据对应的线性***传递函数。

基于所述音乐信号以及所述人声信号的每一帧数据确定所述初始人声消除信号的每一帧数据对应的第三自功率谱；

利用所述第三自功率谱以及所述互功率谱确定每一帧数据对应的线性***传递函数。

第二方面，本申请公开了一种音乐信号的人声消除装置，包括：

人声信号获取模块，用于将音乐信号输入至声伴分离模型，得到所述声伴分离模型输出的人声信号；

传递函数确定模块，用于基于所述音乐信号以及所述人声信号确定线性***传递函数；

人声信号压制模块，用于将所述音乐信号以及所述人声信号之间的差信号作为初始人声消除信号，并利用所述线性***传递函数对所述初始人声消除信号进行人声压制，得到最终的人声消除信号。

第三方面，本申请公开了一种电子设备，包括：

存储器，用于保存计算机程序；

处理器，用于执行所述计算机程序，以实现前述的音乐信号的人声消除方法。

第四方面，本申请公开了一种计算机可读存储介质，用于保存计算机程序，所述计算机程序被处理器执行时实现前述的音乐信号的人声消除方法。

可见，本申请先将音乐信号输入至声伴分离模型，得到所述声伴分离模型输出的人声信号，之后基于所述音乐信号以及所述人声信号确定线性***传递函数，将所述音乐信号以及所述人声信号之间的差信号作为初始人声消除信号，并利用所述线性***传递函数对所述初始人声消除信号进行人声压制，得到最终的人声消除信号。也即，本申请先将音乐信号输入至声伴分离模型，得到声伴分离模型输出的人声信号，音乐信号与人声信号的差信号作为初步的人声消除信号，之后基于音乐信号和人声信号确定线性***传递函数，对初步的人声消除信号进行进一步的人声压制，从而得到最终的人声消除信号，这样，先利用声伴分离模型对音乐信号的人声信号进行初步消除，之后利用线性***传统函数对利用声伴分离模型确定的初始人声消除信号进行进一步的人声压制，能够提升对音乐信号中人声信号的消除程度，从而得到更加干净的人声消除信号。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本申请提供的模型训练方案所适用的***框架示意图；

图2为本申请公开的一种音乐信号的人声消除方法流程图；

图3为本申请公开的一种具体的音乐信号的人声消除方法流程图；

图4为本申请公开的一种具体的音乐信号的人声消除方法流程图；

图5为本申请公开的一种音乐信号的人声消除装置结构示意图；

图6为本申请公开的一种电子设备结构图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

当前，深度学习被广泛应用于音乐信号的人声和伴奏的分离，常见的输出伴奏的声伴分离模型，虽然可以在一定程度上消除音乐信号中的人声信号成分，但其相关系数需要提前训练，且是固定不变的，这种处理方式，是从静态的角度分析人声信号在一段音乐信号中的分布情况，面对动态起伏的人声信号，存在消除的不够彻底，仍有部分残留的人声信号成分的缺点，尤其是在人声信号从无到有出现时，往往会残留人耳可分辨的人声信号。综上，在实现本发明的过程中，发明人至少发现，现有技术中存在音乐信号中人声信号消除不够彻底，存在部分残留的问题。为此，本申请提供了一种音乐信号的人声消除方案，能够提升对音乐信号中人声信号的消除程度，从而得到更加干净的人声消除信号。

本申请的音乐信号的人声消除方案中，采用的***框架具体可以参见图1所示，具体可以包括：后台服务器和与后台服务器建立通信连接的若干数量的用户端。其中，用户端包括但不限于平板电脑、笔记本电脑、智能手机、个人电脑(personal computer，PC)，此处不做限定。

本申请中，后台服务器执行音乐信号的人声消除方法的步骤，包括将音乐信号输入至声伴分离模型，得到所述声伴分离模型输出的人声信号；基于所述音乐信号以及所述人声信号确定线性***传递函数；将所述音乐信号以及所述人声信号之间的差信号作为初始人声消除信号，并利用所述线性***传递函数对所述初始人声消除信号进行人声压制，得到最终的人声消除信号。

当后台服务器获取到用户端发送的播放伴奏请求，后台服务器进行响应，以控制用户端播放相应的人声消除信号，即伴奏信号。

参见图2所示，本申请实施例公开了一种音乐信号的人声消除方法，包括：

步骤S11：将音乐信号输入至声伴分离模型，得到所述声伴分离模型输出的人声信号。

可以理解的是，将音乐信号输入至声伴分离模型，利用声伴分离模型输出人声信号，则音乐信号与人声信号的差信号可作为经过初步人声消除处理的信号，即初始人声消除信号。例如，向量song表示一段音乐信号，向量vocal表示声伴分离模型输出的人声信号，则初始人声消除信号为：deVocal＝song–vocal，信号deVocal可以认为是原始音乐信号song利用声伴分离模型消除人声信号后的输出结果。需要指出的是，前述声伴分离模型的处理过程可以视为一个非线性***的处理过程，输入为音乐信号，输出为初始人声消除信号。

步骤S12：基于所述音乐信号以及所述人声信号确定线性***传递函数。

本申请实施例可以基于音乐信号和人声信号确定线性***传递函数，传递函数描述线性***的输入信号与输出信号之间的关系式，也即，本申请实施例添加了线性***的处理过程，进一步的对经过声伴分离模型处理得到的人声消除信号进行人声压制。

步骤S13：将所述音乐信号以及所述人声信号之间的差信号作为初始人声消除信号。

步骤S14：利用所述线性***传递函数对所述初始人声消除信号进行人声压制，得到最终的人声消除信号。

在具体的实施方式中，可以确定所述初始人声消除信号的频域信号，得到目标频域信号；利用所述线性***传递函数以及所述目标频域信号确定人声压制频域信号；对所述人声压制频域信号进行傅里叶逆变换，得到最终的人声消除信号。

在一种具体的实施方式中，可以对所述初始人声消除信号进行傅里叶变换，得到目标频域信号。

在另一具体的实施方式中，可以确定所述音乐信号的第一频域信号，以及所述人声信号的第二频域信号；将所述第一频域信号和所述第二频域信号的差信号确定为所述初始人声消除信号的频域信号，得到目标频域信号。

可见，本申请实施例先将音乐信号输入至声伴分离模型，得到所述声伴分离模型输出的人声信号，之后基于所述音乐信号以及所述人声信号确定线性***传递函数，将所述音乐信号以及所述人声信号之间的差信号作为初始人声消除信号，并利用所述线性***传递函数对所述初始人声消除信号进行人声压制，得到最终的人声消除信号。也即，本申请先将音乐信号输入至声伴分离模型，得到声伴分离模型输出的人声信号，音乐信号与人声信号的差信号作为初步的人声消除信号，之后基于音乐信号和人声信号确定线性***传递函数，对初步的人声消除信号进行进一步的人声压制，从而得到最终的人声消除信号，这样，先利用声伴分离模型对音乐信号的人声信号进行初步消除，之后利用线性***传统函数对利用声伴分离模型确定的初始人声消除信号进行进一步的人声压制，能够提升对音乐信号中人声信号的消除程度，从而得到更加干净的人声消除信号。

参见图3所示，本申请实施例公开了一种音乐信号的人声消除方法，包括：

步骤S21：将音乐信号输入至声伴分离模型，得到所述声伴分离模型输出的人声信号。

步骤S22：对所述音乐信号以及所述人声信号进行分帧处理，得到所述音乐信号以及所述人声信号的每一帧数据。

步骤S23：基于所述音乐信号以及所述人声信号的每一帧数据确定每一帧数据对应的线性***传递函数。

在具体的实施方式中，对所述音乐信号以及所述人声信号进行分帧处理以及加窗处理，并进行傅里叶变换，得到所述音乐信号以及所述人声信号的每一帧数据对应的频域信号，具体的：

音乐信号的频域信号为songF＝fft(song.*win)；

人声信号的频域信号为vocalF＝fft(vocal.*win)；

初始人声消除信号的频域信号为deVocalF＝songF–vocalF。

其中，函数fft()表示傅立叶变换，操作符号.*表示向量之间的逐点相乘，向量win表示与数据帧长度相等的窗函数。

需要指出的是，本申请实施例确定线性***传递函数，而传递函数为描述线性***的输入信号与输出信号之间的关系式，本申请实施例中，设线性***的输入信号为songF，线性***的输出信号为deVocalF。

在一种具体的实施方式中，可以确定所述音乐信号的每一帧数据对应的第一自功率谱；基于所述音乐信号以及所述人声信号的每一帧数据确定所述音乐信号与所述初始人声消除信号的每一帧数据对应的互功率谱；利用所述第一自功率谱以及所述互功率谱确定每一帧数据对应的线性***传递函数。

其中，音乐信号的第一自功率谱为：

songF2＝alpha*songF2+(1-alpha)*songF.*conj(songF)；

互功率谱为：

songVocalF2＝alpha*songVocalF2+(1-alpha)*songF.*conj(deVocalF)；

其中，参数alpha表示功率谱的更新速率，取值0-1之间，alpha数值越大更新越慢。函数conj()表示取对应复数的共轭值。songF2、songVocalF2的初始值均为0，并随着时间而逐帧迭代，则线性***传递函数为：

H＝songVocalF2./songF2。

其中，操作符号./表示向量之间的逐点相除。

在另一具体的实施方式中，可以基于所述音乐信号以及所述人声信号的每一帧数据确定所述初始人声消除信号的每一帧数据对应的第三自功率谱；基于所述音乐信号以及所述人声信号的每一帧数据确定所述音乐信号与所述初始人声消除信号的每一帧数据对应的互功率谱；利用所述第三自功率谱以及所述互功率谱确定每一帧数据对应的线性***传递函数。

具体的，可以利用deVocal的第三自功率谱除以(逐点相除)互功率谱songVocalF2，来确定传递函数H。

步骤S24：将所述音乐信号以及所述人声信号之间的差信号作为初始人声消除信号，并利用所述线性***传递函数对所述初始人声消除信号进行人声压制，得到最终的人声消除信号。

本申请实施例中，线性***传递函数是一个随时间动态更新的传递函数。在声伴分离模型消除人声信号的基础上，进一步的压制残余人声信号。则最终的人声消除信号为：

output＝ifft(H.*deVocalF)；

其中，函数ifft()表示逆傅立叶变换。

需要指出的是，声伴分离模型是估计出人声占比的信息，对人声信号做一定程度的消除，而传递函数则可以继续挖掘该信息，对人声信号做进一步压制，最终得到的信号output将拥有更少的人声残余信号。深度学习神经网络的训练需要耗费巨大的人力和物力，利用线性***传递函数在声伴分离模型的基础上进一步压制人声信号的成本较低，能够高效的得到相对干净的人声消除信号。

可见，本申请实施例确定每一帧数据对应的线性***传递函数，线性***传递函数随着每一帧数据更新，这样，应能更好的应对动态变化的人声信号，得到更干净的人声消除信号。

参见图4所示，本申请实施例公开了一种具体的人声消除方法，包括：

步骤S31：将音乐信号输入至声伴分离模型，得到所述声伴分离模型输出的人声信号。

步骤S32：对所述音乐信号以及所述人声信号进行分帧处理，得到所述音乐信号以及所述人声信号的每一帧数据。

步骤S33：确定所述音乐信号的每一帧数据对应的第一自功率谱，以及所述人声信号的每一帧数据对应的第二自功率谱。

其中，人声信号的第二自功率谱为：

vocalF2＝alpha*vocalF2+(1-alpha)*vocalF.*conj(vocalF)；

参数alpha表示功率谱的更新速率，取值0-1之间，alpha数值越大更新越慢。函数conj()表示取对应复数的共轭值。vocalF2的初始值为0，并随着时间而逐帧迭代。

第一自功率谱的确定确定过程可以参考前述实施例公开的相应内容，在此不再进行赘述。

步骤S34：基于所述音乐信号以及所述人声信号的每一帧数据确定所述音乐信号与所述初始人声消除信号的每一帧数据对应的互功率谱。

关于上述步骤S34的具体实现方式，可以参考前述实施例公开的内容，在此不再进行赘述。

步骤S35：基于所述第一自功率谱、所述第二自功率谱、所述互功率谱确定每一帧数据对应的线性***传递函数。

在具体的实施方式中，可以利用所述第二自功率谱对应的控制人声信号压制程度的参数、所述第一自功率谱、所述第二自功率谱以及所述互功率谱确定每一帧数据对应的线性***传递函数。

其中，线性***传递函数具体为：

H＝songVocalF2./(songF2+belta.*vocalF2)；

belta表示控制人声信号压制程度的参数。

可以理解的是，belta用于调节滤波程度，数值越大，输出的最终的人声消除信号越小，可以根据实际场景，设定一个经验值，也可由用户自己设定。

步骤S36：将所述音乐信号以及所述人声信号之间的差信号作为初始人声消除信号，并利用所述线性***传递函数对所述初始人声消除信号进行人声压制，得到最终的人声消除信号。

关于上述步骤S36的具体实现方式，可以参考前述实施例公开的内容，在此不再进行赘述。

可见，本申请实施例基于音乐信号的第一自功率谱、人声信号的第二自功率谱、音乐信号与初始人声消除信号的互功率谱确定每一帧数据对应的线性***传递函数，在计算线性***传递函数的过程中考虑了人声信号的自功率谱，这样，能够通过添加参数的形式控制人声信号的压制程度，从而在相应的应用场景下得到信号压制效果较好的线性***传递函数，从而提升人声消除效果。

下面，以某款音乐APP为例，对本申请的技术方案进行说明。

假设这款音乐APP的后台服务器基于这款音乐APP的歌曲数据库消除人声信号，得到伴奏信号。后台服务器可以对歌曲数据库中所有歌曲的音乐信号执行以下步骤：将音乐信号输入至声伴分离模型，得到所述声伴分离模型输出的人声信号；基于所述音乐信号以及所述人声信号确定线性***传递函数；将所述音乐信号以及所述人声信号之间的差信号作为初始人声消除信号，并利用所述线性***传递函数对所述初始人声消除信号进行人声压制，得到最终的人声消除信号。这样，得到曲库中所有歌曲的伴奏信号，形成伴奏库。用户通过用户端打开这款音乐APP，搜索歌曲《遇见》，点击唱这首歌，用户端向后台服务器发送歌曲《遇见》对应的播放伴奏请求，当后台服务器获取到用户端发送的播放伴奏请求，进行响应，从伴奏库中搜索歌曲《遇见》对应的伴奏信号，然后控制用户端播放歌曲《遇见》对应的伴奏信号，以便用户进行跟唱。

参见图5所示，本申请实施例公开了一种公开了一种音乐信号的人声消除装置，包括：

人声信号获取模块11，用于将音乐信号输入至声伴分离模型，得到所述声伴分离模型输出的人声信号；

传递函数确定模块12，用于基于所述音乐信号以及所述人声信号确定线性***传递函数；

人声信号压制模块13，用于将所述音乐信号以及所述人声信号之间的差信号作为初始人声消除信号，并利用所述线性***传递函数对所述初始人声消除信号进行人声压制，得到最终的人声消除信号。

其中，人声信号压制模块13，包括：

目标频域信号获取子模块，用于确定所述初始人声消除信号的频域信号，得到目标频域信号；

人声信号压制子模块，用于利用所述线性***传递函数以及所述目标频域信号确定人声压制频域信号；

最终人声消除信号获取子模块，用于对所述人声压制频域信号进行傅里叶逆变换，得到最终的人声消除信号。

在一种具体的实施方式中，目标频域信号获取子模块，具体用于对所述初始人声消除信号进行傅里叶变换，得到目标频域信号。

在另一种具体的实施方式中，目标频域信号获取子模块，具体包括：

第一频域信号确定单元，用于确定所述音乐信号的第一频域信号；

第二频域信号确定单元，用于确定所述人声信号的第二频域信号；

目标频域信号获取单元，用于将所述第一频域信号和所述第二频域信号的差信号确定为所述初始人声消除信号的频域信号，得到目标频域信号。

传递函数确定模块12，具体包括：

数据分帧子模块，用于对所述音乐信号以及所述人声信号进行分帧处理，得到所述音乐信号以及所述人声信号的每一帧数据；

线性***传递函数确定子模块，用于基于所述音乐信号以及所述人声信号的每一帧数据确定每一帧数据对应的线性***传递函数。

在第一种具体的实施方式中，线性***传递函数确定子模块，包括：

第一自功率谱确定单元，用于确定所述音乐信号的每一帧数据对应的第一自功率谱；

第二自功率谱确定单元，用于确定所述人声信号的每一帧数据对应的第二自功率谱；

互功率谱确定单元，用于基于所述音乐信号以及所述人声信号的每一帧数据确定所述音乐信号与所述初始人声消除信号的每一帧数据对应的互功率谱；

线性***传递函数确定单元，用于基于所述第一自功率谱、所述第二自功率谱、所述互功率谱确定每一帧数据对应的线性***传递函数。

其中，线性***传递函数确定单元，具体用于利用所述第二自功率谱对应的控制人声信号压制程度的参数、所述第一自功率谱、所述第二自功率谱以及所述互功率谱确定每一帧数据对应的线性***传递函数。

在第二种具体的实施方式中，线性***传递函数确定子模块，包括：

线性***传递函数确定单元，用于利用所述第一自功率谱以及所述互功率谱确定每一帧数据对应的线性***传递函数。

在第三种具体的实施方式中，线性***传递函数确定子模块，包括：

第三自功率谱确定单元，用于基于所述音乐信号以及所述人声信号的每一帧数据确定所述初始人声消除信号的每一帧数据对应的第三自功率谱；

线性***传递函数确定单元，用于利用所述第三自功率谱以及所述互功率谱确定每一帧数据对应的线性***传递函数。

进一步的，本申请实施例还提供了一种电子设备。图6是根据一示例性实施例示出的电子设备6结构图，图中的内容不能被认为是对本申请的使用范围的任何限制。

图6为本申请实施例提供的一种电子设备20的结构示意图。该电子设备20，具体可以包括：至少一个处理器21、至少一个存储器22、电源23、通信接口24、输入输出接口25和通信总线26。其中，所述存储器22用于存储计算机程序，所述计算机程序由所述处理器21加载并执行，以实现前述任一实施例公开的音乐信号的人声消除方法中的相关步骤。另外，本实施例中的电子设备20具体可以为服务器。

本实施例中，电源23用于为电子设备20上的各硬件设备提供工作电压；通信接口24能够为电子设备20创建与外界设备之间的数据传输通道，其所遵循的通信协议是能够适用于本申请技术方案的任意通信协议，在此不对其进行具体限定；输入输出接口25，用于获取外界输入数据或向外界输出数据，其具体的接口类型可以根据具体应用需要进行选取，在此不进行具体限定。

另外，存储器22作为资源存储的载体，可以是只读存储器、随机存储器、磁盘或者光盘等，其上所存储的资源可以包括操作***221、计算机程序222及歌曲数据223等，存储方式可以是短暂存储或者永久存储。

其中，操作***221用于管理与控制电子设备20上的各硬件设备以及计算机程序222，以实现处理器21对存储器22中歌曲数据223的运算与处理，其可以是Windows Server、Netware、Unix、Linux等。计算机程序222除了包括能够用于完成前述任一实施例公开的由电子设备20执行的音乐信号的人声消除方法的计算机程序之外，还可以进一步包括能够用于完成其他特定工作的计算机程序。

进一步的，本申请实施例还公开了一种存储介质，所述存储介质中存储有计算机程序，所述计算机程序被处理器加载并执行时，实现前述任一实施例公开的音乐信号的人声消除方法步骤。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

以上对本申请所提供的一种音乐信号的人声消除方法、设备及介质进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种音乐信号的人声消除方法，其特征在于，包括：

基于所述音乐信号以及所述人声信号确定线性***传递函数；

2.根据权利要求1所述的音乐信号的人声消除方法，其特征在于，所述利用所述线性***传递函数对所述初始人声消除信号进行人声压制，得到最终的人声消除信号，包括：

3.根据权利要求2所述的音乐信号的人声消除方法，其特征在于，所述确定所述初始人声消除信号的频域信号，得到目标频域信号，包括：

4.根据权利要求1至3任一项所述的音乐信号的人声消除方法，其特征在于，所述基于所述音乐信号以及所述人声信号确定线性***传递函数，包括：

5.根据权利要求4所述的音乐信号的人声消除方法，其特征在于，所述基于所述音乐信号以及所述人声信号的每一帧数据确定每一帧数据对应的线性***传递函数，包括：

6.根据权利要求5所述的音乐信号的人声消除方法，其特征在于，所述基于所述第一自功率谱、所述第二自功率谱、所述互功率谱确定每一帧数据对应的线性***传递函数，包括：

7.根据权利要求4所述的音乐信号的人声消除方法，其特征在于，所述基于所述音乐信号以及所述人声信号的每一帧数据确定每一帧数据对应的线性***传递函数，包括：

确定所述音乐信号的每一帧数据对应的第一自功率谱；

8.根据权利要求4所述的音乐信号的人声消除方法，其特征在于，所述基于所述音乐信号以及所述人声信号的每一帧数据确定每一帧数据对应的线性***传递函数，包括：

9.一种电子设备，其特征在于，包括：

存储器，用于保存计算机程序；

处理器，用于执行所述计算机程序，以实现如权利要求1至8任一项所述的音乐信号的人声消除方法。

10.一种计算机可读存储介质，其特征在于，用于保存计算机程序，所述计算机程序被处理器执行时实现如权利要求1至8任一项所述的音乐信号的人声消除方法。