CN111667805B

CN111667805B - 一种伴奏音乐的提取方法、装置、设备和介质

Info

Publication number: CN111667805B
Application number: CN201910165261.1A
Authority: CN
Inventors: 柯川; 朱明清; 彭艺
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-03-05
Filing date: 2019-03-05
Publication date: 2023-10-13
Anticipated expiration: 2039-03-05
Also published as: CN111667805A

Abstract

本申请属于音乐数据处理技术领域，公开了一种伴奏音乐的提取方法、装置、设备和介质，本申请公开的一种伴奏音乐的提取方法包括，对音频音乐进行转换，获得左声道相位谱、右声道相位谱、左声道幅度谱和右声道幅度谱；分别将左声道幅度谱和右声道幅度谱输入至伴奏提取模型，分别获得左声道伴奏幅度谱掩码和右声道伴奏幅度谱掩码；基于左声道幅度谱和左声道伴奏幅度谱掩码获得左声道伴奏幅度谱，并基于右声道幅度谱和右声道伴奏幅度谱掩码获得右声道伴奏幅度谱，以及基于左声道伴奏幅度谱、右声道伴奏幅度谱、左声道相位谱和右声道相位谱，确定音频音乐的立体声伴奏音乐。这样，可以获得高质量的立体声伴奏音乐。

Description

一种伴奏音乐的提取方法、装置、设备和介质

技术领域

本申请涉及音乐数据处理技术领域，尤其涉及一种伴奏音乐的提取方法、装置、设备和介质。

背景技术

随着生活水平的提高，音乐已经进入人们的日常生活中，成为休闲娱乐的重要方式。在公共娱乐场所(如，KTV)或私人视听***中，通常需要大量歌曲的伴奏音乐。

现有技术下，提取伴奏音乐时，通常采用以下两类方法：

第一类方法为：采用传统方法进行伴奏音乐的提取，主要利用大多数歌曲中人声在左右声道中的强度比较相似的特点提取伴奏音乐。但是，采用这种方式，提取的伴奏音乐中容易存在人声残留，伴奏音乐的音质较差。

第二类方法为：基于深度神经网络提取伴奏音乐。然而，这类方法主要采用单声道提取歌曲的伴奏音乐，无法获得立体声伴奏音乐，并且存在较强的人声残留。

综上所述，亟待需要一种可以提取高质量的伴奏音乐的技术方案。

发明内容

本申请实施例提供一种伴奏音乐的提取方法、装置、设备和介质，用以在提取音频音乐的伴奏音乐时，提高提取的伴奏音乐的质量。

一方面，提供一种伴奏音乐的提取方法，包括：

获得音频音乐的左声道相位谱、右声道相位谱、左声道幅度谱和右声道幅度谱；

采用预先训练的伴奏提取模型，分别获得左声道幅度谱的左声道伴奏幅度谱掩码和右声道幅度谱的右声道伴奏幅度谱掩码，伴奏提取模型是基于注意力机制的深度神经网络，采用音乐样本对数据训练得到的，每个音乐样本对数据包括音频音乐样本及其伴奏音乐样本；

基于左声道幅度谱和左声道伴奏幅度谱掩码获得左声道伴奏幅度谱，并基于右声道幅度谱和右声道伴奏幅度谱掩码获得右声道伴奏幅度谱；

基于左声道伴奏幅度谱、右声道伴奏幅度谱、左声道相位谱和右声道相位谱，确定音频音乐的立体声伴奏音乐。

一方面，提供一种伴奏音乐的提取装置，包括：

第一获得单元，用于获得音频音乐的左声道相位谱、右声道相位谱、左声道幅度谱和右声道幅度谱；

提取单元，用于采用预先训练的伴奏提取模型，分别获得左声道幅度谱的左声道伴奏幅度谱掩码和右声道幅度谱的右声道伴奏幅度谱掩码，伴奏提取模型是基于注意力机制的深度神经网络，采用音乐样本对数据训练得到的，每个音乐样本对数据包括音频音乐样本及其伴奏音乐样本；

第二获得单元，用于基于左声道幅度谱和左声道伴奏幅度谱掩码获得左声道伴奏幅度谱，并基于右声道幅度谱和右声道伴奏幅度谱掩码获得右声道伴奏幅度谱；

确定单元，用于基于左声道伴奏幅度谱、右声道伴奏幅度谱、左声道相位谱和右声道相位谱，确定音频音乐的立体声伴奏音乐。

一方面，提供一种控制设备，包括：

至少一个存储器，用于存储程序指令；

至少一个处理器，用于调用存储器中存储的程序指令，按照获得的程序指令执行上述任一种伴奏音乐的提取方法的步骤。

一方面，提供一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述任一种伴奏音乐的提取方法的步骤。

本申请实施例提供的一种伴奏音乐的提取方法、装置、设备和介质中，对音频音乐进行转换，获得左声道相位谱、右声道相位谱、左声道幅度谱和右声道幅度谱；分别将左声道幅度谱和右声道幅度谱输入至伴奏提取模型，分别获得左声道伴奏幅度谱掩码和右声道伴奏幅度谱掩码；基于左声道幅度谱和左声道伴奏幅度谱掩码获得左声道伴奏幅度谱，并基于右声道幅度谱和右声道伴奏幅度谱掩码获得右声道伴奏幅度谱，以及基于左声道伴奏幅度谱、右声道伴奏幅度谱、左声道相位谱和右声道相位谱，确定音频音乐的立体声伴奏音乐。这样，采用基于注意力机制和深度神经网络建立的音乐处理模型提取伴奏音乐，提高了提取的伴奏音乐的质量，进一步地，分别根据左声道幅度谱和右声道幅度谱提取伴奏音乐，可以获得立体声伴奏音乐。

本申请的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本申请而了解。本申请的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1为本申请实施方式中一种伴奏音乐的提取***架构示意图；

图2a为本申请实施方式中一种伴奏提取模型的训练方法的实施流程图；

图2b为本申请实施方式中一种数据筛选实施流程图；

图3为本申请实施方式中一种伴奏提取模型架构的示意图；

图4a为本申请实施方式中一种伴奏音乐的提取的流程示意图；

图4b为本申请实施方式中一种伴奏音乐的提取方法的详细实施流程图；

图5为本申请实施方式中一种伴奏音乐的提取方法的评估的实施流程图；

图6为本申请实施方式中一种伴奏音乐的提取的结构示意图；

图7为本申请实施方式中一种控制设备的结构示意图。

具体实施方式

为了使本申请的目的、技术方案及有益效果更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

首先，对本申请实施例中涉及的部分用语进行说明，以便于本领域技术人员理解。

1、幅度谱和相位谱：通过傅里叶变换对信号进行频谱分析，获得的频域信号。其中，频域信号是个虚数，根据频域信号的实部获得幅度谱，根据频域信号的虚部获得相位谱。

2、伴奏幅度谱掩码：表示音频音乐中伴奏的幅度谱与音频音乐的幅度谱之间的比值。

3、上采样(Upsampling)：放大原图像。主要采用内插值方法，即在原有图像的像素的基础上在像素点之间采用合适的插值算法***新的元素。

4、深度神经网络：是一种具备至少一个隐层的神经网络。与浅层神经网络类似，深度神经网络也能够为复杂非线性***提供建模，但多出的层次为模型提供了更高的抽象层次，因而提高了模型的能力。深度神经网络通常都是前馈神经网络，但也有语言建模等方面的研究将其拓展到递归神经网络。

5、注意力机制(Attention)：特指在人工神经网络领域所使用的注意力模型。Attention机制运行的基本假设是：人类本身在识别各种不同信号时，并不是同时处理整个信号的全貌，而是选择性的关注信号的重要部分。Attention机制是基于这样的原则，对多个来源进行合成时分配权重的一种规则。

6、伴奏提取模型：基于Attention机制以及深度神经网络，采用音乐样本对数据训练得到的。其中，每个音乐样本对数据包括音频音乐样本及其伴奏音乐样本。

7、语谱图：是通过处理接收的时域信号得到的频谱图，语谱图的横坐标是时间，纵坐标是频率，坐标点值为语音数据能量。

另外，本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，在不做特别说明的情况下，一般表示前后关联对象是一种“或”的关系。

下面介绍本申请实施例的设计思想。

传统技术中，通常采用的伴奏音乐提取方法为方位辨别与再合成方法(ADRess)，以及基于深度神经网络的伴奏音乐提取方法。

其中，ADRess方法根据大多数歌曲中人声在左右声道中的强度比较相似的特点，提取歌曲空间中间位置的声音，以分离歌声，进而获得歌曲的伴奏音乐。但是，由于有些歌曲中人声在左右声道中并不是完全对齐的，因此，采用这种方式提取的伴奏音乐中通常会有人声残留。此外，采用该类方法提取的伴奏音乐的音质较低。

而基于深度神经网络的伴奏音乐提取方法主要针对单声道的歌曲提取伴奏音乐，无法获得立体声伴奏音乐，并且存在较强的人声残留。

申请人对传统技术进行分析后发现，传统技术中并没有提供一种可以提取高质量的立体声伴奏音乐的技术方案，因此，亟待需要一种伴奏音乐提取技术方案，以在提取音频音乐的伴奏音乐时，获得高质量的立体声伴奏音乐。

鉴于此，申请人考虑到可以基于注意力机制的深度神经网络建立伴奏提取模型，并根据训练好的伴奏提取模型分别针对左右声道提取立体声伴奏音乐，使得可以获得高质量的立体声伴奏音乐。

鉴于以上分析和考虑，本申请实施例中提供了一种伴奏音乐的提取方案，该方案中，先对音频音乐的音频信号进行音频分析，获得左声道相位谱、右声道相位谱、左声道幅度谱和右声道幅度谱，然后采用伴奏提取模型分别获得左声道幅度谱的左声道伴奏幅度谱掩码，以及右声道幅度谱的右声道伴奏幅度谱掩码；进而根据左声道伴奏幅度谱掩码、右声道伴奏幅度谱掩码、左声道相位谱、右声道相位谱、左声道幅度谱和右声道幅度谱，获得立体声伴奏音乐。这样，采用基于注意力机制和深度神经网络建立的音乐处理模型提取伴奏音乐，提高了提取的伴奏音乐的质量，进一步地，分别根据左声道幅度谱和右声道幅度谱提取伴奏音乐，可以获得立体声伴奏音乐。

本申请实施例中提供的伴奏音乐提取技术可应用于任何需要伴奏音乐与人声分离的场景。例如，为KTV以及K歌类应用的伴奏音乐库补充K歌伴奏音乐，以为用户提供更多K歌伴奏音乐的选择。又例如，通过提取的伴奏音乐，可以反向获得歌曲的人声，进而可以根据人声识别歌手等。

为进一步说明本申请实施例提供的技术方案，下面结合附图以及具体实施方式对此进行详细的说明。虽然本申请实施例提供了如下述实施例或附图所示的方法操作步骤，但基于常规或者无需创造性的劳动在所述方法中可以包括更多或者更少的操作步骤。在逻辑上不存在必要因果关系的步骤中，这些步骤的执行顺序不限于本申请实施例提供的执行顺序。所述方法在实际的处理过程中或者装置执行时，可以按照实施例或者附图所示的方法顺序执行或者并行执行。

参阅图1所示，为一种伴奏音乐的提取***的架构示意图。本申请实施例中，伴奏音乐的提取***主要包含离线模型训练和在线模型应用两部分。其中，离线模型训练还包括数据筛选以及伴奏提取模型训练两部分。在线模型应用为通过训练好的伴奏提取模型提取音频音乐中的伴奏音乐。在实际应用中，数据筛选步骤也可以不执行。

参阅图2a所示，为本申请提供的一种伴奏提取模型的训练方法的实施流程图。该方法的具体流程如下：

步骤200：控制设备获得音乐样本对数据。

具体的，控制设备获取初始音乐样本对数据，每一初始音乐样本对数据包括音频音乐样本以及相应的伴奏样本。音频音乐样本通常为包含人声和伴奏的歌曲。

可选的，初始音乐样本对数据可以为通过KTV的伴奏音乐库获得的KTV伴奏歌曲数据。

可选的，控制设备可以将初始音乐样本对数据直接作为音乐样本对数据，还可以对初始音乐样本对数据进行筛选，进而获得筛选后的音乐样本对数据。

其中，控制设备对初始音乐样本对数据进行筛选时，可以采用以下方式：

分别确定每一初始音乐样本对数据中包含的音频音乐样本和伴奏样本的长度差值和余弦相似度，在各初始音乐样本对数据中，筛选出长度差值为零，并且余弦相似度低于预设相似度门限值的音乐样本对数据。

其中，长度差值是音频音乐样本和伴奏样本之间的时间长度的差值。余弦相似度是根据音频音乐样本的数据和伴奏样本的数据之间的相似度确定的。

这是由于若音频音乐样本和伴奏样本之间的时间长度不同，则说明音频音乐样本和伴奏样本是不完全匹配的，不能作为训练数据。而若音频音乐样本和伴奏样本之间的余弦相似度过高，则说明该音频音乐样本可能为不包含人声的纯伴奏音乐，也不能进行伴奏音乐提取的模型训练数据。

参阅图2b所示，为一种数据筛选实施流程图。一种实施方式中，控制设备可以采用如图2b所示的方式对初始音乐样本对数据进行筛选。具体的，控制设备针对每一初始样本对执行以下步骤：

S2000：确定初始音乐样本对数据中音频音乐样本的时间长度与伴奏样本的时间长度之间的长度差值。

S2001：判断获取的长度差值是否一致，若是，则执行S2002，否则，执行S2005。

S2002：确定音频音乐样本与伴奏样本之间的余弦相似度。

S2003：判断获取的余弦相似度是否低于预设相似度门限值，若是，则执行S2004，否则，执行S2005。

S2004：将该初始音乐样本对数据确定为音乐样本对数据。

S2005：丢弃该初始音乐样本对数据。

这样，就可以通过KTV等渠道获得海量的初始音乐样本对数据，并根据初始音乐样本对数据的长度差值以及余弦相似度对初始音乐样本对数据进行筛选，获得可用于模型训练的音乐样本对数据。

步骤201：控制设备分别获得每一音乐样本对数据中音频音乐样本的左声道幅度谱和右声道幅度谱，并获得相应的伴奏音乐样本的伴奏幅度谱样本。

具体的，控制设备分别针对每一音乐样本对数据中的音频音乐样本和伴奏音乐样本，执行以下步骤：

一方面，提取音频音乐样本的音频信号，并通过短时傅里叶变换(Short-TimeFourier Transform，STFT)对该音频信号进行音频分析，获得音频音乐样本的左声道相位谱、右声道相位谱、左声道幅度谱和右声道幅度谱。

另一方面，提取伴奏音乐样本的音频信号，并通过STFT对该音频信号进行音频分析，获得该伴奏音乐样本的伴奏幅度谱样本。

其中，音频音乐是多媒体中的一种重要媒体。我们能够听见的音频信号的频率范围大约是20Hz-20kHz，其中语音大约分布在300Hz-4kHz之内，而音乐和其他自然声响是全范围分布的。声音经过模拟设备记录或再生，成为模拟音频，再经数字化成为数字音频。这里所说的音频分析就是以数字音频信号为分析对象，以数字信号处理为分析手段，提取信号在时域、频域内一系列特性的过程。

而傅立叶变换和信号的采样是进行音频分析时用到的最基本的技术。音频分析是指按音频信号的频率结构，求取其分量的幅值、相位等按频率分布的规律，建立以频率为横轴的各种“谱”，如，幅度谱、相位谱。音频信号中，周期信号通过傅立叶级数变换后对应离散频谱，而对于非周期信号，可以看作周期T为无穷大的周期信号，当周期趋近无穷大时，则基波谱线及谱线间隔(ω＝2π/T)趋近无穷小，从而离散的频谱就变为连续频谱。所以，非周期信号的频谱是连续的。STFT是和傅里叶变换相关的一种数学变换，用以确定时变信号其局部区域正弦波的频率与相位。

步骤202：控制设备基于注意力机制的深度神经网络建立伴奏提取模型，并采用各音乐样本对数据训练伴奏提取模型，获得训练后的伴奏提取模型。

具体的，执行步骤202时，分别针对每一音乐样本对数据，执行以下步骤：

S2021：基于注意力机制的深度神经网络，以音频音乐样本的左声道幅度谱和右声道幅度谱为输入，获得音频音乐样本的左声道伴奏幅度谱掩码和右声道伴奏幅度谱掩码。

具体的，将Attention机制与深度神经网络相结合，建立伴奏提取模型，并采用伴奏提取模型分别对音频音乐样本的左声道幅度谱和右声道幅度谱进行编码和解码，获得音频音乐样本的左声道伴奏幅度谱掩码和右声道伴奏幅度谱掩码。

伴奏提取模型包括编码部分和解码部分。编码部分对左声道幅度谱和右声道幅度谱逐级进行多级卷积处理，获得每级卷积提取的编码特征，编码特征包括左声道编码特征和右声道编码特征。

解码部分的解码过程如下：

采用注意力机制，针对第一级注意门执行以下步骤：使用最后一级卷积输出的编码特征作为门控信息，并作用于通过跳跃连接skip connections连接的编码特征，获得相应的显著编码特征；依次针对其它每一级注意门执行以下步骤：使用当前卷积提取的特征作为门控信息，并作用于通过skip connections连接的编码特征，获得相应的显著编码特征，其中，当前卷积提取的特征是基于上一级注意门输出的显著编码特征以及上采样阶段提取的特征拼接并卷积获得的；输出左声道幅度谱的左声道伴奏幅度谱掩码和右声道幅度谱的右声道伴奏幅度谱掩码。

可选的，深度神经网络可以采用U-Net。则伴奏提取模型采用Attention U-Net模型。参阅图3所示，为一种伴奏提取模型架构的示意图。

其中，伴奏提取模型的编码部分可以按照以下方式设置：由6层卷积层组成。卷积采用3x3的卷积核，填充(padding)为2，并采用激活函数(Relu)操作。每一卷积之后均接着最大池化(max pooling)。池化(pool)大小为2x2，padding为2。音频音乐样本的左声道幅度谱和右声道幅度谱以幅度谱图片形式输入至编码部分。

编码部分采用6层卷积层(即Conv2D1-Conv2D 6)和5层最大池化(即Max Pooling1-Max Pooling5)，分别对左声道幅度谱和右声道幅度谱逐级进行多级卷积以及池化处理，获得每一级的左声道编码特征和右声道编码特征。具体步骤如下：

Conv2D 1(卷积层1)：经过卷积后，图片维度从2048x128x2变成2048x128x64。其中，2048x128x2包含左声道幅度谱和右声道幅度谱。

Max Pooling 1(最大池化1)：经过池化后，图片维度从2048x128x64变成1024x64x64。

Conv2D 2：经过卷积后，图片维度从1024x64x64变成1024x64x128。

Max Pooling 2：经过池化后，图片维度从1024x64x128变成512x32x128。

Conv2D 3：经过卷积后，图片维度从512x32x128变成512x32x256。

Max Pooling3：经过池化后，图片维度从512x32x256变成256x16x256。

Conv2D 4：经过卷积后，图片维度从256x16x256变成256x16x512。

Max Pooling 4：经过池化后，图片维度从256x16x512变成128x8x512。

Conv2D 5：经过卷积后，图片维度从128x8x512变成128x8x512。

Max Pooling 5：经过池化后，图片维度从128x8x512变成64x4x512。

Conv2D 6：经过卷积后，图片维度从64x4x512变成64x4x1024。

解码部分可以按照以下方式设置：包含5个注意门(Attention Gates，AG)模块。

针对第一级注意门，执行以下步骤：Conv2D 6输出的图片维度为64x4x1024的编码特征作为门控信息，并作用于通过skip connections连接的Conv2D 5对应的图片维度为128x8x512的编码特征，输出图片维度为128x8x512的显著编码特征。

依次针对其它每一级注意门执行以下步骤：使用当前卷积提取的特征作为门控信息，并作用于通过skip connections连接的编码特征，获得相应的显著编码特征，其中，当前卷积提取的特征是基于上一级注意门输出的显著编码特征以及上采样阶段提取的特征拼接(concatenation)并卷积获得的。

其中，卷积层用于进行特征提取。最大池化用于对输入的图片进行压缩。Upsampling用于放大图像。其中，n为卷积层的级别，为整数。

最后，将图片维度为2048x128x2的特征确定为伴奏幅度谱掩码(包括左声道伴奏幅度谱掩码和右声道伴奏幅度谱掩码)。

S2022：根据音频音乐样本的左声道伴奏幅度谱掩码和左声道幅度谱，以及音频音乐样本的右声道伴奏幅度谱掩码和右声道幅度谱，获得预测的音频音乐样本的伴奏幅度谱。

具体的，将音频音乐样本的左声道伴奏幅度谱掩码与左声道幅度谱的乘积，确定为左声道伴奏幅度谱；将音频音乐样本的右声道伴奏幅度谱掩码与右声道幅度谱的乘积，确定为右声道伴奏幅度谱。

其中，伴奏幅度谱掩码表示音频音乐中伴奏的幅度谱与音频音乐的幅度谱之间的比值。

S2023：根据预测的伴奏幅度谱，以及相应的伴奏幅度谱样本，确定损失函数值。

具体的，将音频音乐样本的伴奏幅度谱与相应的伴奏幅度谱样本之间的差值，确定为损失函数值。

可选的，确定损失函数值时，可以采用以下公式：

L(X，Y；θ)＝||f(X，θ)⊙X-Y||_1,1；

其中，L(X，Y；θ)为损失函数值，X为音频音乐的幅度谱，Y为伴奏幅度谱样本，θ为模型参数，f(X，θ)通过伴奏提取模型输出的预测的伴奏幅度谱。

进一步地，模型训练时采用梯度下降算法基训练数据迭代地更新伴奏提取模型的权重。可选的，梯度下降算法可以采用Adam算法，初始学习率设置为0.0001，批尺寸(Batch_Size)可以为8。

S2024：根据损失函数值对伴奏提取模型参数进行调整，获得调整后的伴奏提取模型。

这样，就可以根据损失函数值，对伴奏提取模型中的各参数进行调整，获得调整后的伴奏提取模型。

本申请实施例中，仅以针对一个音乐样本对数据进行模型训练为例进行说明，基于相同的原理，可以采用其它的音频音乐样本对数据进行模型训练，在此不再赘述。

本申请实施例中，仅以通过包含音频音乐样本和相应伴奏样本的音乐样本对数据对伴奏提取模型进行训练，获得用于提取立体声伴奏的伴奏提取模型为例进行说明。基于相同的原理，还可以采用包含音频音乐样本和相应人声样本的音乐样本对数据，对该模型进行训练获得用于提取音频音乐中人声的人声提取模型，同样还可以采用包含音频音乐样本，相应的伴奏样本以及人声样本的音乐样本对数据，对该模型进行训练获得用于提取音频音乐中人声和伴奏的提取模型。在此不再赘述。

参阅图4a所示，为一种伴奏音乐的提取的流程示意图。在伴奏提取模型训练好之后，控制设备就可以通过训练好的伴奏提取模型提取音频音乐中的伴奏音乐。

控制设备接收输入的音频音乐，并将音频音乐进行STFT变换，获得音频音乐的左声道相位谱、右声道相位谱、左声道幅度谱和右声道幅度谱。接着，控制设备通过伴奏提取模型，分别获得左声道幅度谱的左声道伴奏幅度谱掩码和右声道幅度谱的右声道伴奏幅度谱掩码，并基于左声道伴奏幅度谱、右声道伴奏幅度谱、左声道相位谱和右声道相位谱，获得伴奏音乐的语谱图。最后，控制设备对获得的语谱图进行逆短时傅里叶变换，获得立体声伴奏音乐。

下面采用一个具体的应用场景，对上述实施例进行进一步详细说明。参阅图4b所示，为本申请提供的一种伴奏音乐的提取方法的详细实施流程图。该方法的具体流程如下：

步骤400：控制设备获得音频音乐的左声道相位谱、右声道相位谱、左声道幅度谱和右声道幅度谱。

具体的，控制设备提取音频音乐的音频信号，并通过STFT对该音频信号进行音频分析，获得音频音乐的左声道相位谱、右声道相位谱、左声道幅度谱和右声道幅度谱。

步骤401：控制设备采用预先训练的伴奏提取模型，分别获得左声道幅度谱的左声道伴奏幅度谱掩码和右声道幅度谱的右声道伴奏幅度谱掩码。

具体的，控制设备将左声道幅度谱输入至伴奏提取模型，获得左声道幅度谱的左声道伴奏幅度谱掩码，并将右声道幅度谱输入至伴奏提取模型，获得右声道幅度谱的右声道伴奏幅度谱掩码。

实际应用中，为减少人声残留，主要采用幅度范围为2048hz的左声道幅度谱和左声道幅度谱。

其中，控制设备采用预先训练的伴奏提取模型，分别获得左声道幅度谱的左声道伴奏幅度谱掩码和右声道幅度谱的右声道伴奏幅度谱掩码时，可以采用以下步骤：

S4010：分别对左声道幅度谱和右声道幅度谱逐级进行多级卷积处理，获得每一级的左声道编码特征和右声道编码特征。

S4011：采用注意力机制，针对第一级注意门执行以下步骤：使用最后一级卷积输出的编码特征作为门控信息，并作用于通过跳跃连接skip connections连接的编码特征，获得相应的显著编码特征。

S4012：依次针对其它每一级注意门执行以下步骤：使用当前卷积提取的特征作为门控信息，并作用于通过skip connections连接的编码特征，获得相应的显著编码特征。

其中，当前卷积提取的特征是基于上一级注意门输出的显著编码特征以及上采样阶段提取的特征拼接并卷积获得的。

S4013：输出左声道幅度谱的左声道伴奏幅度谱掩码和右声道幅度谱的右声道伴奏幅度谱掩码。

步骤402：控制设备基于左声道幅度谱和左声道伴奏幅度谱掩码获得左声道伴奏幅度谱，并基于右声道幅度谱和右声道伴奏幅度谱掩码获得右声道伴奏幅度谱。

具体的，控制设备将音频音乐的左声道伴奏幅度谱掩码与左声道幅度谱的乘积，确定为左声道伴奏幅度谱，以及将音频音乐样本的右声道伴奏幅度谱掩码与右声道幅度谱的乘积，确定为右声道伴奏幅度谱。

步骤403：控制设备基于左声道伴奏幅度谱、右声道伴奏幅度谱、左声道相位谱和右声道相位谱，获得音频音乐的立体声伴奏音乐。

具体的，控制设备基于左声道伴奏幅度谱、右声道伴奏幅度谱、左声道相位谱和右声道相位谱，获得伴奏音乐的语谱图，并对获得的语谱图进行逆短时傅里叶变换，获得立体声伴奏音乐。

其中，语谱图是通过处理接收的时域信号得到频谱图，语谱图的横坐标是时间，纵坐标是频率，坐标点值为语音数据能量。

这样，就可以通过伴奏提取模型，提取高质量的伴奏音乐，减少了伴奏音乐中混杂的人声，并且在伴奏提取的过程中，分别将音频音乐的左声道幅度谱和右声道幅度谱输入至伴奏提取模型，从而输出左声道伴奏幅度谱掩码和右声道伴奏幅度谱掩码，进而获得立体声伴奏音乐。

进一步地，控制设备还可以根据左声道伴奏幅度谱掩码和右声道伴奏幅度谱掩码，获得音频音乐中的人声音频，具体流程如下：

S4030：根据左声道伴奏幅度谱掩码获得左声道人声幅度谱掩码，并根据右声道伴奏幅度谱掩码获得右声道人声幅度谱掩码。

具体的，由于伴奏幅度谱掩码为音频音乐中伴奏的幅度谱与音频音乐的幅度谱之间的比值，因此，则可以直接将1减去伴奏幅度谱掩码，得到相应的人声幅度谱掩码。

其中，伴奏幅度谱掩码为左声道伴奏幅度谱掩码和/或右声道伴奏幅度谱掩码，人声幅度谱掩码为左声道人声幅度谱掩码和/或右声道人声幅度谱掩码。

S4031：基于左声道人声幅度谱掩码和左声道幅度谱获得左声道人声幅度谱，并基于右声道人声幅度谱掩码和右声道幅度谱获得右声道人声幅度谱。

具体的，根据左声道人声幅度谱掩码与左声道幅度谱之间的乘积，获得左声道人声幅度谱，根据右声道人声幅度谱掩码与右声道幅度谱之间的乘积，获得右声道人声幅度谱。

S4032：基于左声道人声幅度谱、右声道人声幅度谱、左声道相位谱和右声道相位谱，获得人声音频。

具体的，基于左声道人声幅度谱、右声道人声幅度谱、左声道相位谱和右声道相位谱，获得人声音频的语谱图，并对人声音频的语谱图进行逆短时傅里叶变换，获得人声音频。

这样，就可以根据左声道伴奏幅度谱掩码和右声道伴奏幅度谱掩码，提取音频音乐中的人声音频。人声音频提取可以应用于多种场景。

例如，根据人声音频识别歌手。又例如，根据人声音频识别的歌手信息进行歌曲分类。又例如，根据人声音频识别的歌手信息进行检索以及推荐等。又例如，根据人声音频识别歌曲。又例如，根据人声音频进行K歌评分。

参阅图5所示，为一种伴奏音乐的提取方法的评估的实施流程图。本申请实施例中，将通过本申请提供的伴奏音乐的提取方法提取的伴奏音乐与其它伴奏提取的方法提取的伴奏音乐进行评估对比。评估对比的具体实施流程如下：

步骤501：控制设备选取指定数目的音频音乐，构建包含指定数据的音频音乐的测试集。

具体的，控制设备根据预设的音乐筛选条件获取指定数目的音频音乐，构建包含指定数据的音频音乐的测试集。

可选的，音频音乐可以网络(如，音频软件)下载获得，也可以从本地音乐数据库(如，KTV的音乐库)获得。实际应用中，音乐筛选条件可以根据实际需求进行相应设置。可选的，音乐筛选条件可以根据音乐语种类型、音乐所属地区、音乐风格等进行设置。其中，音频音乐的获取途径以及音乐筛选条件，在此不做限定。指定数目可以根据实际应用进行相应设置，例如，指定数目可以为97。

步骤502：控制设备采用本申请提供的伴奏音乐的提取方法提取测试集中各音频音乐的伴奏音乐，以及采用其它指定伴奏提取的方法，提取测试集中各音频音乐的伴奏音乐。

其中，控制设备采用本申请提供的伴奏音乐的提取方法，提取测试集中各音频音乐的伴奏音乐时，分别针对测试集中每一音频音乐的伴奏音乐，执行以下步骤：

S5020：提取一首音频音乐的音频信号，并通过STFT对该音频信号进行音频分析，获得音频音乐的左声道相位谱、右声道相位谱、左声道幅度谱和右声道幅度谱。

S5021：采用伴奏提取模型，分别获得左声道幅度谱的左声道伴奏幅度谱掩码和右声道幅度谱的右声道伴奏幅度谱掩码。

具体的，执行S5021时，具体步骤参见上述实施例中的步骤401。

S5022：基于左声道幅度谱和左声道伴奏幅度谱掩码获得左声道伴奏幅度谱，并基于右声道幅度谱和右声道伴奏幅度谱掩码获得右声道伴奏幅度谱。

具体的，执行S5022时，具体步骤参见上述实施例中的步骤402。

S5023：基于左声道伴奏幅度谱、右声道伴奏幅度谱、左声道相位谱和右声道相位谱，获得音频音乐的立体声伴奏音乐，即音频音乐的伴奏音乐。

具体的，执行S5023时，具体步骤参见上述实施例中的步骤403。

这样，就可以采用本申请提供的伴奏音乐的提取方法，分别获得测试集中每一音频音乐的伴奏音乐。

可选的，其它指定伴奏提取的方法，可以为传统方法，即利用大多数歌曲中人声在左右声道中的强度比较相似的特点提取伴奏音乐的方法，也可以采用基于深度神经网络提取伴奏音乐的方法，在此不做限定。

步骤503：评估获取的各伴奏音乐，获得评估结果。

本申请实施例中，通过具有一定音乐背景的专业人员对采用上述两种方式获得的各伴奏音乐进行评估，分别确定每一伴奏音乐是否符合要求。

例如，可以通过歌手分别对每一伴奏音乐进行打分，若伴奏音乐的分值高于预设分值门限值，则判定符合要求，否则，判定不符合要求。

参阅表1所示，为一种伴奏音乐的对比评价表。

表1.

伴奏音乐的来源	符合要求	不符合要求
			本申请提取的伴奏音乐	94	3
其它方式提取的伴奏音乐	58	39

本申请实施例中，以对包含97首音频音乐的测试集为例进行评估说明。通过表1可知，本申请提取的伴奏音乐中，94首伴奏音乐是符合质量要求的，3首伴奏音乐不符合质量要求。而其它方式提取的伴奏音乐中，仅有58首伴奏音乐是符合质量要求的，39首伴奏音乐是不符合质量要求。显然，本申请提供的伴奏提取的方案可以对音频音乐进行精确的伴奏音乐分离，获得高质量的更加符合用户需求的伴奏音乐。

本申请实施例中，将Attention机制与深度神经网路相结合，建立伴奏提取模型，并采用海量的KTV歌曲数据作为模型训练样本，对伴奏提取模型进行训练，以及分别采用左声道幅度谱和右声道幅度谱提取伴奏音乐，模型的泛化能力强，人声残留较少，可以获得高保真的立体声伴奏音乐。

基于同一发明构思，本申请实施例中还提供了一种伴奏音乐的提取装置，由于上述装置及设备解决问题的原理与一种伴奏音乐的提取方法相似，因此，上述装置的实施可以参见方法的实施，重复之处不再赘述。

如图6示，其为本申请实施例提供的一种伴奏音乐的提取的结构示意图。一种伴奏音乐的提取装置包括：

第一获得单元61，用于获得音频音乐的左声道相位谱、右声道相位谱、左声道幅度谱和右声道幅度谱；

提取单元62，用于采用预先训练的伴奏提取模型，分别获得左声道幅度谱的左声道伴奏幅度谱掩码和右声道幅度谱的右声道伴奏幅度谱掩码，伴奏提取模型是基于注意力机制的深度神经网络，采用音乐样本对数据训练得到的，每个音乐样本对数据包括音频音乐样本及其伴奏音乐样本；

第二获得单元63，用于基于左声道幅度谱和左声道伴奏幅度谱掩码获得左声道伴奏幅度谱，并基于右声道幅度谱和右声道伴奏幅度谱掩码获得右声道伴奏幅度谱；

确定单元64，用于基于左声道伴奏幅度谱、右声道伴奏幅度谱、左声道相位谱和右声道相位谱，确定音频音乐的立体声伴奏音乐。

较佳的，确定单元64还用于：

根据左声道伴奏幅度谱掩码获得左声道人声幅度谱掩码，并根据右声道伴奏幅度谱掩码获得右声道人声幅度谱掩码；

基于左声道人声幅度谱掩码和左声道幅度谱获得左声道人声幅度谱，并基于右声道人声幅度谱掩码和右声道幅度谱获得右声道人声幅度谱；

基于左声道人声幅度谱、右声道人声幅度谱、左声道相位谱和右声道相位谱，获得人声音频。

较佳的，提取单元62用于：

分别对左声道幅度谱和右声道幅度谱逐级进行多级卷积处理，获得每级卷积提取的编码特征，编码特征包括左声道编码特征和右声道编码特征；

采用注意力机制，针对第一级注意门执行以下步骤：使用最后一级卷积输出的编码特征作为门控信息，并作用于通过跳跃连接skip connections连接的编码特征，获得相应的显著编码特征；

依次针对其它每一级注意门执行以下步骤：使用当前卷积提取的特征作为门控信息，并作用于通过skip connections连接的编码特征，获得相应的显著编码特征，其中，当前卷积提取的特征是基于上一级注意门输出的显著编码特征以及上采样阶段提取的特征拼接并卷积获得的；

输出左声道幅度谱的左声道伴奏幅度谱掩码和右声道幅度谱的右声道伴奏幅度谱掩码。

较佳的，提取单元62还用于：

基于音乐样本对数据中的音频音乐样本，获得音频音乐样本的左声道幅度谱和右声道幅度谱，并基于音乐样本对数据中的伴奏音乐样本，获得伴奏幅度谱样本；

基于注意力机制的深度神经网络，以音频音乐样本的左声道幅度谱和右声道幅度谱为输入，获得音频音乐样本的左声道伴奏幅度谱掩码和右声道伴奏幅度谱掩码；

根据音频音乐样本的左声道伴奏幅度谱掩码和左声道幅度谱，以及音频音乐样本的右声道伴奏幅度谱掩码和右声道幅度谱，获得音频音乐样本的伴奏幅度谱；

根据预测的伴奏幅度谱，以及相应的伴奏幅度谱样本，确定损失函数值；

根据损失函数值对伴奏提取模型参数进行调整，获得调整后的伴奏提取模型。

较佳的，音乐样本对数据按照以下步骤筛选获得的：

分别确定每一初始音乐样本对数据中包含的音频音乐样本和伴奏样本的长度差值和余弦相似度，长度差值是音频音乐样本和伴奏样本之间的时间长度的差值，余弦相似度是根据音频音乐样本的数据和伴奏样本的数据之间的相似度确定的；

在各初始音乐样本对数据中，筛选出长度差值为零，并且余弦相似度低于预设相似度门限值的音乐样本对数据。

参阅图7所示，为一种控制设备的结构示意图。基于同一技术构思，本申请实施例还提供了一种控制设备，可以包括存储器701和处理器702。

所述存储器701，用于存储处理器702执行的计算机程序。存储器701可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作***、至少一个功能所需的应用程序等；存储数据区可存储根据区块链节点的使用所创建的数据等。处理器702，可以是一个中央处理单元(central processing unit，CPU)，或者为数字处理单元等。本申请实施例中不限定上述存储器701和处理器702之间的具体连接介质。本申请实施例在图7中以存储器701和处理器702之间通过总线703连接，总线703在图7中以粗线表示，其它部件之间的连接方式，仅是进行示意性说明，并不引以为限。所述总线703可以分为地址总线、数据总线、控制总线等。为便于表示，图7中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

存储器701可以是易失性存储器(volatile memory)，例如随机存取存储器(random-access memory，RAM)；存储器701也可以是非易失性存储器(non-volatilememory)，例如只读存储器，快闪存储器(flash memory)，硬盘(hard disk drive，HDD)或固态硬盘(solid-state drive，SSD)、或者存储器701是能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。存储器701可以是上述存储器的组合。

处理器702，用于调用所述存储器701中存储的计算机程序时执行如图4b中所示的实施例提供的伴奏音乐的提取方法。

本申请实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述任意方法实施例中的伴奏音乐的提取方法。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对相关技术做出贡献的部分可以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台控制设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种伴奏音乐的提取方法，其特征在于，包括：

采用预先训练的伴奏提取模型，分别获得所述左声道幅度谱的左声道伴奏幅度谱掩码和所述右声道幅度谱的右声道伴奏幅度谱掩码，所述伴奏提取模型是基于注意力机制的深度神经网络，采用音乐样本对数据训练得到的，每个音乐样本对数据包括音频音乐样本及其伴奏音乐样本；其中，伴奏幅度谱掩码表示：音频音乐中伴奏的幅度谱与音频音乐的幅度谱之间的比值；

将所述左声道幅度谱和左声道伴奏幅度谱掩码的乘积，确定为左声道伴奏幅度谱，并将所述右声道幅度谱和右声道伴奏幅度谱掩码的乘积，确定为右声道伴奏幅度谱；

基于所述左声道伴奏幅度谱、所述右声道伴奏幅度谱、所述左声道相位谱和所述右声道相位谱，确定所述音频音乐的立体声伴奏音乐。

2.如权利要求1所述的方法，其特征在于，进一步包括：

根据所述左声道伴奏幅度谱掩码获得左声道人声幅度谱掩码，并根据所述右声道伴奏幅度谱掩码获得右声道人声幅度谱掩码；

基于所述左声道人声幅度谱掩码和所述左声道幅度谱获得左声道人声幅度谱，并基于所述右声道人声幅度谱掩码和所述右声道幅度谱获得右声道人声幅度谱；

基于所述左声道人声幅度谱、所述右声道人声幅度谱、所述左声道相位谱和所述右声道相位谱，获得人声音频。

3.如权利要求1所述的方法，其特征在于，所述采用预先训练的伴奏提取模型，分别获得所述左声道幅度谱的左声道伴奏幅度谱掩码和所述右声道幅度谱的右声道伴奏幅度谱掩码，包括：

分别对所述左声道幅度谱和右声道幅度谱逐级进行多级卷积处理，获得每级卷积提取的编码特征，所述编码特征包括左声道编码特征和右声道编码特征；

依次针对其它每一级注意门执行以下步骤：使用当前卷积提取的特征作为门控信息，并作用于通过skip connections连接的编码特征，获得相应的显著编码特征，其中，所述当前卷积提取的特征是基于上一级注意门输出的显著编码特征以及上采样阶段提取的特征拼接并卷积获得的；

输出所述左声道幅度谱的左声道伴奏幅度谱掩码和所述右声道幅度谱的右声道伴奏幅度谱掩码。

4.如权利要求1-3任一项所述的方法，其特征在于，所述伴奏提取模型是基于注意力机制的深度神经网络，采用音乐样本对数据训练得到的，其中，采用音乐样本对数据所述伴奏提取模型进行训练，具体包括：

根据音频音乐样本的左声道伴奏幅度谱掩码和左声道幅度谱，以及音频音乐样本的右声道伴奏幅度谱掩码和右声道幅度谱，获得预测的音频音乐样本的伴奏幅度谱；

根据所述损失函数值对所述伴奏提取模型参数进行调整，获得调整后的伴奏提取模型。

5.如权利要求4所述的方法，其特征在于，所述音乐样本对数据按照以下步骤筛选获得的：

分别确定每一初始音乐样本对数据中包含的音频音乐样本和伴奏样本的长度差值和余弦相似度，所述长度差值是音频音乐样本和伴奏样本之间的时间长度的差值，所述余弦相似度是根据音频音乐样本的数据和伴奏样本的数据之间的相似度确定的；

6.一种伴奏音乐的提取装置，其特征在于，包括：

提取单元，用于采用预先训练的伴奏提取模型，分别获得所述左声道幅度谱的左声道伴奏幅度谱掩码和所述右声道幅度谱的右声道伴奏幅度谱掩码，所述伴奏提取模型是基于注意力机制的深度神经网络，采用音乐样本对数据训练得到的，每个音乐样本对数据包括音频音乐样本及其伴奏音乐样本；其中，伴奏幅度谱掩码表示：音频音乐中伴奏的幅度谱与音频音乐的幅度谱之间的比值；

第二获得单元，用于将所述左声道幅度谱和左声道伴奏幅度谱掩码的乘积，确定为左声道伴奏幅度谱，并将所述右声道幅度谱和右声道伴奏幅度谱掩码的乘积，确定为右声道伴奏幅度谱；

确定单元，用于基于所述左声道伴奏幅度谱、所述右声道伴奏幅度谱、所述左声道相位谱和所述右声道相位谱，确定所述音频音乐的立体声伴奏音乐。

7.如权利要求6所述的装置，其特征在于，所述确定单元还用于：

8.如权利要求6所述的装置，其特征在于，所述提取单元用于：

9.如权利要求6-8任一项所述的装置，其特征在于，所述提取单元还用于：

10.如权利要求9所述的装置，其特征在于，所述音乐样本对数据按照以下步骤筛选获得的：

11.一种控制设备，其特征在于，包括：

至少一个存储器，用于存储程序指令；

至少一个处理器，用于调用所述存储器中存储的程序指令，按照获得的程序指令执行上述权利要求1-5任一项所述的方法的步骤。

12.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现权利要求1～5任一所述方法的步骤。