CN101577117B - 伴奏音乐提取方法及装置 - Google Patents

伴奏音乐提取方法及装置 Download PDF

Info

Publication number
CN101577117B
CN101577117B CN2009100798345A CN200910079834A CN101577117B CN 101577117 B CN101577117 B CN 101577117B CN 2009100798345 A CN2009100798345 A CN 2009100798345A CN 200910079834 A CN200910079834 A CN 200910079834A CN 101577117 B CN101577117 B CN 101577117B
Authority
CN
China
Prior art keywords
signal frame
audio signal
audio
channel
categories
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN2009100798345A
Other languages
English (en)
Other versions
CN101577117A (zh
Inventor
张晨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
JIANGSU DAHAI INTELLIGENT SYSTEM CO Ltd
Original Assignee
Wuxi Vimicro Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuxi Vimicro Corp filed Critical Wuxi Vimicro Corp
Priority to CN2009100798345A priority Critical patent/CN101577117B/zh
Publication of CN101577117A publication Critical patent/CN101577117A/zh
Application granted granted Critical
Publication of CN101577117B publication Critical patent/CN101577117B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Stereophonic System (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种伴奏音乐提取方法及装置,该方法包括:获取待处理歌曲中的合成音频信号帧,所述合成音频信号帧由所述歌曲左声道的音频信号帧和右声道的对应音频信号帧合成;确定所述合成音频信号帧所属的音频类别为语音、音乐或语音音乐组合;根据确定出的所述音频类别,设定对消增益参数和输出增益参数;通过所述对消增益参数控制所述左声道的音频信号帧和右声道的对应音频信号帧的对消,并使用所述输出增益参数对消后的音频信号帧进行输出增益计算,得到左、右声道的输出信号帧。能够有效消除歌曲中的语音,得到音质良好伴奏音乐。

Description

伴奏音乐提取方法及装置
技术领域
本发明涉及信号处理领域,尤指一种利用模式分类技术进行歌曲中伴奏音乐提取的方法及装置。
背景技术
目前一些音频播放软件或者是音频处理软件已经具有从歌曲中提取伴奏功能,这个功能的作用就是实现从一首歌曲中把其伴奏音乐提取出来。例如,当想录制自己演唱的歌曲,而又找不到这首歌曲的伴奏音乐时,就可以使用这个从歌曲中提取伴奏功能,从原唱歌曲中单独把伴奏音乐分离并提取出来。
由于人声频率主要集中在低频,而音乐频率在整个频带分布较为广泛,因此,现有的提取伴奏音乐的方法,通常利用大多数歌曲中语音(即人声)在两个声道中基本相同的特点,采用将两个声道中的音频信号直接进行对减的方式来消除语音(即人声)。其进行信号处理的基本原理如图1所示,用左声道的音频信号减去右声道的音频信号得到左声道的新音频信号,用右声道的音频信号减去左声道的音频信号得到右声道的新音频信号,得到的左声道新音频信号和右声道的新音频信号即可组成伴奏音乐。
现有从歌曲中提取伴奏音乐的方法具有的缺点是:直接采取将立体声歌曲的左右声道两路信号对消的方式,往往不能有效的消除人声;且在消除语音的同时,若伴奏音乐在两个声道中的也出现相同部分时,则也会消除一部分伴奏音乐,使得提取的伴奏音乐准确度比较低,从而引起伴奏音乐音质的下降等问题。
发明内容
本发明实施例提供一种伴奏音乐提取方法及装置,解决现有技术中在消除语音时引起的伴奏音乐音质下降的问题,能够有效消除歌曲中的语音,得到音质良好伴奏音乐。
一种伴奏音乐提取方法,包括:
获取待处理歌曲中的合成音频信号帧,所述合成音频信号帧由所述歌曲左声道的音频信号帧和右声道的对应音频信号帧合成;
确定所述合成音频信号帧所属的音频类别为语音、音乐或语音音乐组合;
根据确定出的所述音频类别,设定对消增益参数和输出增益参数,具体包括:
当确定所述合成音频信号帧所属的音频类别为语音时,分别设置所述对消增益参数和输出增益参数为a1和b1;
当确定所述合成音频信号帧所属的音频类别为音乐时,分别设置所述对消增益参数和输出增益参数为a2和b2;
当确定所述合成音频信号帧所属的音频类别为语音音乐组合时,分别设置所述对消增益参数和输出增益参数为a3和b3;
其中,0≤a2<a3<a1≤1,0<b1<b3<b2≤1;
计算所述左声道的音频信号帧与所述对消增益参数的乘积;
用所述乘积减去所述右声道的对应音频信号帧,得到对消后左声道的音频信号帧;计算所述对消后左声道的音频信号帧与所述输出增益参数的乘积,得到左声道的输出信号帧;以及
用所述右声道的对应音频信号帧减去所述左声道的音频信号帧与所述对消增益参数的乘积,得到对消后右声道的音频信号帧;计算所述对消后右声道的音频信号帧与所述输出增益参数的乘积,得到右声道的输出信号帧。
根据本发明的上述方法,确定所述合成音频信号帧所属的音频类别,具体包括:
对所述合成音频信号帧进行频带划分,分别计算划分出的各子频带的频域能量,得到由所有子频带频域能量组成的能量向量;
根据所述能量向量和存储的各个音频类别的分类模型参数,采用混合高斯模型GMM算法,分别计算得到所述合成音频信号帧为各音频类别的概率;其中,每个音频类别的分类模型参数根据已知的该音频类别的若干音频信号帧确定;
确定所述概率最大值所对应的音频类别为所述合成音频信号帧所属的音频类别。
根据本发明的上述方法,所述对所述合成音频信号帧进行频带划分,具体包括:
将所述合成音频信号帧划分为不均匀的L个频带,划分出的第k个子频带的起始频率~终止频率定义为:
Figure GDA0000097019620000032
将所述合成音频信号帧划分为均匀的L个频带,划分出的第k个子频带的起始频率~终止频率定义为:
Figure GDA0000097019620000033
其中,F为所述合成音频信号帧的频带宽度,k=0,1,......,L-1;且L为大于等于1的正整数;
所述计算划分出的各子频带的频域能量,具体为:根据所述合成音频信号帧的频率分布函数和各子频带的所述起始频率、终止频率,计算各个子频带的频域能量。
根据本发明的上述方法,所述计算得到所述合成音频信号帧为各音频类别的概率,具体包括:
根据所述能量向量和所述各个音频类别的分类模型参数,计算得到与所述合成音频数据帧与各个音频类别对应的基本密度函数:
根据所述基本密度函数计算得到所述合成音频信号帧为各音频类别的概率。
根据本发明的上述方法,所述分类模型参数的确定,具体包括:
提取一组某一音频类别的备用音频信号帧;
对获取的每一个备用音频信号帧进行频带划分,分别计算划分出的各子频带的频域能量,得到由所有子频带频域能量组成的能量向量;
根据得到的所有备用音频信号帧的能量向量和设定的高斯混合模型参数初始值,采用最大似然估计迭代算法,确定该音频类别的音频信号分类模型参数。
根据本发明的上述方法,所述确定该音频类别的音频信号分类模型参数,包括:
根据得到所有备用音频信号帧的能量向量和原高斯混合模型参数,根据得到的能量向量,通过贝叶斯公式分别计算各组的后验概率;
根据所述后验概率,计算得到获取的音频信号帧对应的新高斯混合模型参数,将所述新高斯混合模型参数与原高斯混合模型参数进行比较;若其差值不小于设定的阈值,则将所述新高斯混合模型参数作为所述原高斯混合模型参数,继续计算所述后验概率;若其差值小于设定的阈值,确定所述新高斯混合模型参数为该音频类别的音频信号分类模型参数。
一种伴奏音乐提取装置,包括:
获取模块,用于获取待处理歌曲中的合成音频信号帧,所述合成音频信号帧由所述歌曲左声道的音频信号帧和右声道的对应音频信号帧合成;
确定模块,用于确定所述合成音频信号帧所属的音频类别为语音、音乐或语音音乐组合;
设置模块,用于根据确定出的所述音频类别,设定对消增益参数和输出增益参数其中,当确定所述合成音频信号帧所属的音频类别为语音时,分别设置所述对消增益参数和输出增益参数为a1和b1;当确定所述合成音频信号帧所属的音频类别为音乐时,分别设置所述对消增益参数和输出增益参数为a2和b2;当确定所述合成音频信号帧所属的音频类别为语音音乐组合时,分别设置所述对消增益参数和输出增益参数为a3和b3;其中,0≤a2<a3<a1≤1,0<b1<b3<b2≤1;
执行模块,用于计算所述左声道的音频信号帧与所述对消增益参数的乘积;用所述乘积减去所述右声道的对应音频信号帧,得到对消后左声道的音频信号帧;计算所述对消后左声道的音频信号帧与所述输出增益参数的乘积,得到左声道的输出信号帧;用所述右声道的对应音频信号帧减去所述左声道的音频信号帧与所述对消增益参数的乘积,得到对消后右声道的音频信号帧;计算所述对消后右声道的音频信号帧与所述输出增益参数的乘积,得到右声道的输出信号帧。
根据本发明的上述装置,所述确定模块,具体包括:
频带划分单元,用于对所述合成音频信号帧进行频带划分;
向量生成单元,用于分别计算划分出的各子频带的频域能量,得到由所有子频带频域能量组成的能量向量;
概率确定单元,用于根据所述能量向量和存储的各个音频类别的分类模型参数,采用混合高斯模型GMM算法,分别计算得到所述合成音频信号帧为各音频类别的概率;其中,每个音频类别的分类模型参数根据已知的该音频类别的若干音频信号帧确定;
类别确定单元,用于确定所述概率最大值所对应的音频类别为所述合成音频信号帧所属的音频类别。
本发明的上述装置,还包括:
参数确定模块,用于根据已知的各音频类别的若干音频信号帧确定对应的所述分类模型参数。
根据本发明的上述装置,所述参数确定模块,具体包括:
提取单元,用于提取一组某一音频类别的备用音频信号帧;
划分单元,用于对获取的每一个备用音频信号帧进行频带划分;
生成单元,用于分别计算划分出的各子频带的频域能量,得到由所有子频带频域能量组成的能量向量;
确定单元,用于根据得到的所有备用音频信号帧的能量向量和设定的高斯混合模型参数初始值,采用最大似然估计迭代算法,确定该音频类别的音频信号分类模型参数。
本发明实施例提供的伴奏音乐提取方法及装置,获取待处理歌曲中的合成音频信号帧,所述合成音频信号帧由所述歌曲左声道的音频信号帧和右声道的对应音频信号帧合成;确定所述合成音频信号帧所属的音频类别为语音、音乐或语音音乐组合;根据确定出的所述音频类别,设定对消增益参数和输出增益参数;通过所述对消增益参数控制所述音频信号帧和所述对应音频信号帧的对消,并使用所述输出增益参数对消后的音频信号帧进行输出增益计算,得到左、右声道的输出信号帧。根据语音、音乐语音音乐组合等音频信号帧各自的特征,通过模式分类技术,确定待处理的合成音频信号帧的音频类别,根据音频信号帧所属的音频类别对各音频信号帧逐一进行对消和增益处理,从而更有效的消除歌曲中包含的语音,得到更优质的伴奏音乐。
附图说明
图1为现有技术中从歌曲中提取伴奏音乐的流程图;
图2为本发明实施例中伴奏音乐提取确定方法的流程图;
图3为本发明实施例中对合成音频信号帧进行对消和增益调整的原理图;
图4为本发明实施例中对合成音频信号进行分类的流程图;
图5为本发明实施例中高斯混合模型的原理示意图;
图6为本发明实施例中音频信号分类模型参数确定的流程图;
图7为本发明实施例中伴奏音乐提取装置的结构示意图。
具体实施方式
本发明实施例提供的伴奏音乐提取方法,通过确定待处理歌曲中的合成音频信号帧所属的音频类别,确定对左、右声道对应的各音频信号帧进行对消时的对消增益参数和输出增益参数,对左、右声道各对应的音频信号帧进行对消和输出增益计算,得到左、右声道的输出信号,最终得到只包含纯音乐的伴奏音乐。其流程如图2所示,包括下列步骤:
步骤S101:获取待处理歌曲中的合成音频信号帧。
其中,合成音频信号帧由待处理歌曲左声道的音频信号帧和右声道的对应音频信号帧合成。
实际获取的过程可以是分别提取待处理歌曲左声道的音频信号帧和右声道的对应音频信号帧,再合成上述合成音频信号帧;也可以先将左、右声道的两路音频信号合成一路合成音频信号后,从合成的一路音频信号中提取合成音频信号帧。
步骤S102:确定获取的合成音频信号帧所属的音频类别。
其中,音频类别包括语音、音乐或语音音乐组合。
确定合成音频信号帧所属音频类别的具体过程在下面在进行详细阐述。
步骤S103:根据确定出的音频类别,设定对消增益参数和输出增益参数。
当确定合成音频信号帧所属的音频类别为语音时,设置对消增益参数为a1,输出增益参数为b1。
当确定合成音频信号帧所属的音频类别为音乐时,设置对消增益参数为a2,输出增益参数为b2。
当确定合成音频信号帧所属的音频类别为语音音乐组合时,设置对消增益参数为a3,输出增益参数为b3。
其中,0<a2<a3<a1≤1,0<b1<b2<b3≤1。
通常对消增益参数和输出增益参数可以根据经验值设定。
一般情况下,可以采取:当一个合成音频信号帧为语音的概率越大时,设定的对消增益参数的值越接近于1;当一个合成音频信号帧为音乐的概率越大时,设定的输出增益参数的值越接近于1。
例如:
当确定合成音频信号帧所属的音频类别为语音时,设置对消增益参数为a1=1.0,输出增益参数为b1=0.5。
当确定合成音频信号帧所属的音频类别为音乐时,设置对消增益参数为a2=0.5,输出增益参数为b2=1.0。
当确定合成音频信号帧所属的音频类别为语音音乐组合时,设置对消增益参数为a3=0.8,输出增益参数为b3=0.8。
将对消增益参数和输出增益参数分别作为控制左右声道音频信号对消和输出增益计算的权重因子,用于下列步骤S104、步骤S105中。
步骤S104:通过对消增益参数控制左声道的音频信号帧和右声道的对应音频信号帧的对消,分别得到对消后左、右声道的音频信号帧。
对音频信号帧进行对消和增益调整的原理如图3所示。
计算左声道的音频信号帧与对消增益参数的乘积,用计算得到的乘积减去右声道的对应音频信号帧,得到对消后左声道的音频信号帧;用右声道的对应音频信号帧减去上述计算得到的乘积,得到对消后右声道的音频信号帧。
步骤S105:使用输出增益参数对消后的音频信号帧进行输出增益计算,得到左、右声道的输出信号帧。
如图3所示,计算对消后左声道的音频信号帧与输出增益参数的乘积,得到左声道的输出信号帧;计算对消后右声道的音频信号帧与输出增益参数的乘积,得到右声道的输出信号帧。
上述对消增益参数(包括a1、a2、a3等)是控制左、右声道两路信号对消的权重因子,a1、a2、a3的值越接近于1,则两路信号对消的越厉害。增益b1、b2、b3等为输出信号的增益因子,包括b1、b2、b3的值越大,则输出增益越高。根据模式分类的结果设置相应的对消增益参数和输出增益参数,控制对消和输出两个增益的大小来实现消除语音,可以保证提取的伴奏音乐的音质良好。
上述步骤S102中确定合成音频信号帧所属的音频类别。具体为根据预先确定出的分类模型参数,分别计算待测的合成音频信号帧为语音、音乐和语音音乐组合的概率,确定获取的合成音频信号帧为语音、音乐或语音音乐组合。音频信号帧所属音频类别的确定过程如图4所示,执行步骤如下:
步骤S201:对获取到的合成音频信号帧进行频带划分。将上述合成音频信号帧的整个频带范围划分为若干个子频带。
假设音频信号帧的带宽为F,对其进行子频带划分时,可以采用均分的方式也可以采用非均分的方式。
采用非均分的方式时,将音频信号帧划分为L个频带,则划分出的第k个子频带的范围可以定义为:
F 2 L - k ~ F 2 L - k - 1
其中,k=0,1,......,L-1。
采用非均分的方式时,将音频信号帧划分为L个频带,则划分出的第k个子频带的范围还可以定义为:
F L - k ~ F L - k - 1
其中,k=0,1,......,L-1,L为正整数。
采用均分的方式时,将音频信号帧划分为L个频带,则划分出的第k个子频带的范围可以定义为:
F L k ~ F L ( k + 1 )
其中,k=0,1,......,L-1。
步骤S202:分别计算划分出的各个子频带的频域能量,得到对应的能量向量。
得到的能量向量由所有子频带频域能量组成。具体包括:
各子频带频域能量通过下列公式计算得到:
E i = ∫ w k 0 w k 1 | F ( ω ) | 2 dω
其中,wk0为子频带的起始频率;
wk1为子频带的终止频率;
F(ω)为合成音频信号帧的频率分布函数。
计算得到每个子频带对应的子频带频域能量后,按照子频带的顺序组成一个能量向量:
Figure GDA0000097019620000101
该能量向量表征该合成音频信号帧的信号特征。
其中不同类型的音频信号.其频域能量在各子频带区间的分布有所不同.音乐的频域能量在上述各子频带区间中的分布相对比较均匀,而在语音中,能量主要集中在第0个子频带。
步骤S203:根据得到的能量向量和存储的确定语音、音乐和歌曲所对应的音频信号分类模型参数,分别计算得到合成音频信号帧为各音频类别的概率。
本发明实施例采用高斯混合模型(Gaussian Mixture Model,GMM),对合成音频信号进行分类。其中,音频信号分类模型参数通过分别对已知的大量语音、音乐、语音音乐组合等的音频信号进行训练,采用最大似然估计迭代计算语音、音乐、语音音乐组合各自对应的高斯混合模型参数,即为语音、音乐、语音音乐组合各自的音频信号分类模型参数λy1,λ2,λ3等)。具体计算过程下面再具体阐述(参见步骤S301-步骤S305)。
下面具体说明计算得到合成音频信号帧为各音频类别的概率的过程。以计算合成音频信号帧为语音的概率为例,具体包括:
(1)获取已确定的语音所对应的音频信号分类模型参数(即高斯混合模型参数),其表达式为:
λ1={pj,uj,∑j}
其中,j=1,2,......,M,M为正整数,表示混合模型中有M个成员,对语音信号的音频信号分类模型参数,则y=1。
其中:
Figure GDA0000097019620000102
μj为均值,∑j为协方差。
(2)计算上述步骤S202中得到的能量向量对应的L维的基本密度函数。
基本密度函数为:
b j ( x ) = 1 ( 2 π ) d / 2 | Σ j | 1 / 2 exp { - 1 2 ( x - u j ) T Σ j - 1 ( x - u j ) }
其中,j=1,2,......,M,M为正整数。
(3)根据计算出的各个密度函数,计算得到整个高斯混合模型的概率密度函数为:
p ( x | λ 1 ) = Σ i = 1 M p j b j ( x )
高斯混合模型具体如图5所示。
例如,上述计算出的p(x|λ1)即为合成音频信号帧为语音的概率,采用同样的计算过程,通过已知的音乐和语音音乐组合的音频信号分类模型参数可以分别计算得到合成音频信号帧为音乐的概率p(x|λ2)和为语音音乐组合的概率p(x|λ3)。
步骤S204:根据计算得到的概率确定音频信号帧所属的类别。
确定上述概率最大值所对应的音频类别为该合成音频信号帧所属的音频类别。所属的类别包括:语音、音乐和语音音乐组合等。
例如:比较p(x|λ1)、p(x|λ2)、p(x|λ3)的大小;若p(x|λ1)最大,则该合成音频信号帧所属的音频类别为语音,若p(x|λ2)最大,则该合成音频信号帧所属的音频类别为音乐,若p(x|λ3)最大,则该合成音频信号帧所属的音频类别为语音音乐组合。
上述步骤S203中,通过对大量语音、音乐和语音音乐组合等各类音频信号帧进行训练,预先得到语音、音乐和语音音乐组合分别对应的分类模型参数。即根据已知的某一类别的若干音频信号帧,可以确定该音频类别所对应的音频信号分类模型参数,其流程如图6所示,执行步骤如下:
步骤S301:提取某一音频类别的若干音频信号帧(各种音频库中的备用音频信号帧)。
从某一音频类别的音频库中获取存储的该类别的若干音频信号帧。
其中,某一音频类别的音频库包括语音库、音乐库和歌曲库等。音频信号帧的类别可以包括语音、音乐和语音音乐组合(即歌曲)等,即歌曲为语音和音乐的混合音频信号。下面步骤中具体以语音为例进行说明。
步骤S302:将获取的某一音频类别的音频信号帧分为若干组。
具体根据高斯混合模型的成员个数进行划分。例如高斯混合模型包含M个成员,则分为M组,每组中包含n个音频信号帧。
步骤S303:针对获取的每一个音频信号帧,将其整个频带范围划分为若干个子频带,并计算各个子频带的能量,得到对应的能量向量。
对音频信号帧进行频带划分和计算各个子频带的能量,得到对应的能量向量
Figure GDA0000097019620000121
的过程同步骤S201和步骤S202,此处不再赘述。
即分别得到上述M组每组中包含的音频信号帧的能量向量。
步骤S304:根据得到的能量向量,通过贝叶斯公式分别计算各组的后验概率。具体包括:
(1)设定的高斯混合模型参数初始值:
λ y 0 = { p j , u j , Σ j }
其中,j=1,2,......,M,M为正整数,表示混合模型中有M个成员;
y取不同值时表示不同音频类别所对应的初始值;
pj的初始值设置为
Figure GDA0000097019620000123
即满足
Figure GDA0000097019620000124
uj的初始值设置为
Figure GDA0000097019620000125
xi为第j组中的第i个能量向量;
j的初始值设置为 Σ j = Σ i = 1 n ( x i - u j ) 2 n .
(2)根据能量向量,采用贝叶斯公式计算得到对应的后验概率:
首先,计算概率密度: p ( x | λ 1 j 0 ) = p j b j ( x ) ;
通过贝叶斯公式计算后验概率:
β j ( x ) = p ( λ 1 j 0 | x ) ← p ( x | λ 1 j 0 )
即根据概率密度
Figure GDA0000097019620000133
通过贝叶斯公式可以得到后验概率。
步骤S305:根据上述后验概率,采用最大似然估计算迭代算法,计算得到该组音频信号帧对应的高斯混合模型参数。具体包括:
根据后验概率分别计算出新的均值、协方差和混合系数。
计算新的均值:
u j new = Σ i = 1 n β j ( x i ) x i Σ i = 1 n β j ( x i )
计算新的方差:
Σ j new = 1 d Σ i = 1 n β j ( x i ) ( x i - u j new ) T ( x i - u j new ) Σ i = 1 n β j ( x i )
计算新的混合系数:
p j new = 1 n Σ i = 1 n β j ( x i )
从而得到新高斯混合模型的参数
Figure GDA0000097019620000137
将得到的新高斯混合模型的值与原高斯混合模型
Figure GDA0000097019620000139
值进行比较,若
Figure GDA00000970196200001310
则说明得到的
Figure GDA00000970196200001311
值已基本不变化,则停止迭代并保存该
Figure GDA00000970196200001312
值为语音信号对应的高斯模型参数(即音频信号分类模型参数)λy(例如对语音进行训练时为λ1),否则返回计算后验概率,继续迭代过程,即以新高斯混合模型
Figure GDA00000970196200001313
作为新一轮的原高斯混合模型继续计算后验概率以及后续迭代过程。
即对语音库中提取的若干语音信号帧、音乐库中提取的若干音乐信号帧和歌曲库中提取的若干混合音频信号帧,分别执行步骤S301-步骤S304的训练过程,即可得到语音、音乐和语音音乐组合等个音频类别分别对应的音频信号分类模型参数λ1,λ2,λ3。训练完成后保存得到的音频信号分类模型参数。
根据本发明实施例提供的上述伴奏音乐提取方法,可以构建一种伴奏音乐提取装置,如图7所示,包括:获取模块101、确定模块102、设置模块103和执行模块104。
获取模块101,用于获取待处理歌曲中的合成音频信号帧,其中,合成音频信号帧由歌曲左声道的音频信号帧和右声道的对应音频信号帧合成。
确定模块102,用于确定合成音频信号帧所属的音频类别为语音、音乐或语音音乐组合。
较佳的,确定模块102,进一步可以包括:频带划分单元1021、向量生成单元1022、概率确定单元1023和类别确定单元1024。
频带划分单元1021,用于对合成音频信号帧进行频带划分。
向量生成单元1022,用于分别计算划分出的各子频带的频域能量,得到由所有子频带频域能量组成的能量向量。
概率确定单元1023,用于根据向量生成单元1022得到的能量向量和存储的各个音频类别的分类模型参数,采用混合高斯模型GMM算法,分别计算得到合成音频信号帧为各音频类别的概率;其中,每个音频类别的分类模型参数根据已知的该音频类别的若干音频信号帧确定。
类别确定单元1024,用于确定概率最大值所对应的音频类别为合成音频信号帧所属的音频类别。
设置模块103,用于根据确定出的音频类别,设定对消增益参数和输出增益参数。
执行模块104,用于通过对消增益参数控制左声道的音频信号帧和右声道的对应音频信号帧的对消,并使用输出增益参数对消后的音频信号帧进行输出增益计算,得到左、右声道的输出信号帧。
上述伴奏音乐提取装置,还包括:参数确定模块105,用于根据已知的各音频类别的若干音频信号帧确定对应的分类模型参数。
较佳的,参数确定模块105,进一步可以包括:提取单元1051、划分单元1052、生成单元1053和确定单元1054。
提取单元1051,用于提取一组某一音频类别的备用音频信号帧。
划分单元1052,用于对获取的每一个备用音频信号帧进行频带划分。
生成单元1053,用于分别计算划分出的各子频带的频域能量,得到由所有子频带频域能量组成的能量向量。
确定单元1054,用于根据得到的所有备用音频信号帧的能量向量和设定的高斯混合模型参数初始值,采用最大似然估计算迭代算法,确定该音频类别的音频信号分类模型参数。
本发明实施例提供的伴奏音乐提取方法及装置,获取待处理歌曲中的合成音频信号帧,确定合成音频信号帧所属的音频类别为语音、音乐或语音音乐组合;根据确定出的音频类别,设定对消增益参数和输出增益参数;通过对消增益参数控制左声道的音频信号帧和右声道的对应音频信号帧的对消,并使用输出增益参数对消后的音频信号帧进行输出增益计算,得到左、右声道的输出信号帧。通过模式分类技术,正确区分合成音频数据帧属于语音、音乐和语音音乐组合三种音频类别中的哪一种。为后续针对每一帧音频信号进行与其所属音频类别相符合的对消和增益调整奠定了基础。
根据分类结果针对不同的音频信号帧使用不同的对消增益参数和输出增益参数,进行对消和输出增益调整,使消除语音更准确、有效。
使用高斯混合模型,对已知的音频信号帧进行训练时,分为多个组,且通过大量数据的统计特性,得到高斯混合模型参数从而使本发明实施例所提供的伴奏音乐提取方法,能够对各种不同的语音具有很好的适用性。
上述方法优化了从歌曲中提取伴奏音乐的过程,通过对消增益参数和输出增益参数的设定,实现动态调整语音消除***的目的。在有效消除歌曲中语音的同时,保证了伴奏音乐音质的良好。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化、替换或应用到其他类似的装置,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求书的保护范围为准。

Claims (10)

1.一种伴奏音乐提取方法,其特征在于,包括:
获取待处理歌曲中的合成音频信号帧,所述合成音频信号帧由所述歌曲左声道的音频信号帧和右声道的对应音频信号帧合成;
确定所述合成音频信号帧所属的音频类别为语音、音乐或语音音乐组合;
根据确定出的所述音频类别,设定对消增益参数和输出增益参数,具体包括:
当确定所述合成音频信号帧所属的音频类别为语音时,分别设置所述对消增益参数和输出增益参数为a1和b1;
当确定所述合成音频信号帧所属的音频类别为音乐时,分别设置所述对消增益参数和输出增益参数为a2和b2;
当确定所述合成音频信号帧所属的音频类别为语音音乐组合时,分别设置所述对消增益参数和输出增益参数为a3和b3;
其中,0≤a2<a3<a1≤1,0<b1<b3<b2≤1;
计算所述左声道的音频信号帧与所述对消增益参数的乘积;
用所述乘积减去所述右声道的对应音频信号帧,得到对消后左声道的音频信号帧;计算所述对消后左声道的音频信号帧与所述输出增益参数的乘积,得到左声道的输出信号帧;以及
用所述右声道的对应音频信号帧减去所述左声道的音频信号帧与所述对消增益参数的乘积,得到对消后右声道的音频信号帧;计算所述对消后右声道的音频信号帧与所述输出增益参数的乘积,得到右声道的输出信号帧。
2.如权利要求1所述的方法,其特征在于,确定所述合成音频信号帧所属的音频类别,具体包括:
对所述合成音频信号帧进行频带划分,分别计算划分出的各子频带的频域能量,得到由所有子频带频域能量组成的能量向量;
根据所述能量向量和存储的各个音频类别的分类模型参数,采用混合高斯模型GMM算法,分别计算得到所述合成音频信号帧为各音频类别的概率;其中,每个音频类别的分类模型参数根据已知的该音频类别的若干音频信号帧确定;
确定所述概率最大值所对应的音频类别为所述合成音频信号帧所属的音频类别。
3.如权利要求2所述的方法,其特征在于,所述对所述合成音频信号帧进行频带划分,具体包括:
将所述合成音频信号帧划分为不均匀的L个频带,划分出的第k个子频带的起始频率~终止频率定义为:
Figure FDA0000101947500000021
Figure FDA0000101947500000022
将所述合成音频信号帧划分为均匀的L个频带,划分出的第k个子频带的起始频率~终止频率定义为:
Figure FDA0000101947500000023
其中,F为所述合成音频信号帧的频带宽度,k=0,1,......,L-1;且L为大于等于1的正整数;
所述计算划分出的各子频带的频域能量,具体为:根据所述合成音频信号帧的频率分布函数和各子频带的所述起始频率、终止频率,计算各个子频带的频域能量。
4.如权利要求3所述的方法,其特征在于,所述计算得到所述合成音频信号帧为各音频类别的概率,具体包括:
根据所述能量向量和所述各个音频类别的分类模型参数,计算得到与所述合成音频数据帧与各个音频类别对应的基本密度函数:
根据所述基本密度函数计算得到所述合成音频信号帧为各音频类别的概率。
5.如权利要求2所述的方法,其特征在于,所述分类模型参数的确定,具体包括:
提取一组某一音频类别的备用音频信号帧;
对获取的每一个备用音频信号帧进行频带划分,分别计算划分出的各子频带的频域能量,得到由所有子频带频域能量组成的能量向量;
根据得到的所有备用音频信号帧的能量向量和设定的高斯混合模型参数初始值,采用最大似然估计迭代算法,确定该音频类别的音频信号分类模型参数。
6.如权利要求5所述的方法,其特征在于,所述确定该音频类别的音频信号分类模型参数,包括:
根据得到所有备用音频信号帧的能量向量和原高斯混合模型参数,根据得到的能量向量,通过贝叶斯公式分别计算各组的后验概率;
根据所述后验概率,计算得到获取的音频信号帧对应的新高斯混合模型参数,将所述新高斯混合模型参数与原高斯混合模型参数进行比较;若其差值不小于设定的阈值,则将所述新高斯混合模型参数作为所述原高斯混合模型参数,继续计算所述后验概率;若其差值小于设定的阈值,确定所述新高斯混合模型参数为该音频类别的音频信号分类模型参数。
7.一种伴奏音乐提取装置,其特征在于,包括:
获取模块,用于获取待处理歌曲中的合成音频信号帧,所述合成音频信号帧由所述歌曲左声道的音频信号帧和右声道的对应音频信号帧合成;
确定模块,用于确定所述合成音频信号帧所属的音频类别为语音、音乐或语音音乐组合;
设置模块,用于根据确定出的所述音频类别,设定对消增益参数和输出增益参数,其中,当确定所述合成音频信号帧所属的音频类别为语音时,分别设置所述对消增益参数和输出增益参数为a1和b1;当确定所述合成音频信号帧所属的音频类别为音乐时,分别设置所述对消增益参数和输出增益参数为a2和b2;当确定所述合成音频信号帧所属的音频类别为语音音乐组合时,分别设置所述对消增益参数和输出增益参数为a3和b3;其中,0≤a2<a3<a1≤1,0<b1<b3<b2≤1;
执行模块,用于计算所述左声道的音频信号帧与所述对消增益参数的乘积;用所述乘积减去所述右声道的对应音频信号帧,得到对消后左声道的音频信号帧;计算所述对消后左声道的音频信号帧与所述输出增益参数的乘积,得到左声道的输出信号帧;用所述右声道的对应音频信号帧减去所述左声道的音频信号帧与所述对消增益参数的乘积,得到对消后右声道的音频信号帧;计算所述对消后右声道的音频信号帧与所述输出增益参数的乘积,得到右声道的输出信号帧。
8.如权利要求7所述的装置,其特征在于,所述确定模块,具体包括:
频带划分单元,用于对所述合成音频信号帧进行频带划分;
向量生成单元,用于分别计算划分出的各子频带的频域能量,得到由所有子频带频域能量组成的能量向量;
概率确定单元,用于根据所述能量向量和存储的各个音频类别的分类模型参数,采用混合高斯模型GMM算法,分别计算得到所述合成音频信号帧为各音频类别的概率;其中,每个音频类别的分类模型参数根据已知的该音频类别的若干音频信号帧确定;
类别确定单元,用于确定所述概率最大值所对应的音频类别为所述合成音频信号帧所属的音频类别。
9.如权利要求8所述的装置,其特征在于,还包括:
参数确定模块,用于根据已知的各音频类别的若干音频信号帧确定对应的所述分类模型参数。
10.如权利要求9所述的装置,其特征在于,所述参数确定模块,具体包括:
提取单元,用于提取一组某一音频类别的备用音频信号帧;
划分单元,用于对获取的每一个备用音频信号帧进行频带划分;
生成单元,用于分别计算划分出的各子频带的频域能量,得到由所有子频带频域能量组成的能量向量;
确定单元,用于根据得到的所有备用音频信号帧的能量向量和设定的高斯混合模型参数初始值,采用最大似然估计迭代算法,确定该音频类别的音频信号分类模型参数。
CN2009100798345A 2009-03-12 2009-03-12 伴奏音乐提取方法及装置 Active CN101577117B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2009100798345A CN101577117B (zh) 2009-03-12 2009-03-12 伴奏音乐提取方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2009100798345A CN101577117B (zh) 2009-03-12 2009-03-12 伴奏音乐提取方法及装置

Publications (2)

Publication Number Publication Date
CN101577117A CN101577117A (zh) 2009-11-11
CN101577117B true CN101577117B (zh) 2012-04-11

Family

ID=41272040

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2009100798345A Active CN101577117B (zh) 2009-03-12 2009-03-12 伴奏音乐提取方法及装置

Country Status (1)

Country Link
CN (1) CN101577117B (zh)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102103853B (zh) * 2009-12-18 2014-02-12 康佳集团股份有限公司 一种消弱歌曲中人声的方法
CN102402977B (zh) * 2010-09-14 2015-12-09 无锡中星微电子有限公司 从立体声音乐中提取伴奏、人声的方法及其装置
JP5955862B2 (ja) * 2011-01-04 2016-07-20 ディーティーエス・エルエルシーDts Llc 没入型オーディオ・レンダリング・システム
CN102708859A (zh) * 2012-06-20 2012-10-03 太仓博天网络科技有限公司 一种实时音乐语音识别***
CN108074579B (zh) * 2012-11-13 2022-06-24 三星电子株式会社 用于确定编码模式的方法以及音频编码方法
CN104078051B (zh) * 2013-03-29 2018-09-25 南京中兴软件有限责任公司 一种人声提取方法、***以及人声音频播放方法及装置
CN104282315B (zh) * 2013-07-02 2017-11-24 华为技术有限公司 音频信号分类处理方法、装置及设备
CN103943113B (zh) * 2014-04-15 2017-11-07 福建星网视易信息***有限公司 一种歌曲去伴奏的方法和装置
CN104053120B (zh) * 2014-06-13 2016-03-02 福建星网视易信息***有限公司 一种立体声音频的处理方法和装置
CN104183245A (zh) * 2014-09-04 2014-12-03 福建星网视易信息***有限公司 一种演唱者音色相似的歌星推荐方法与装置
CN106469557B (zh) * 2015-08-18 2020-02-18 阿里巴巴集团控股有限公司 伴奏音乐的提供方法和装置
CN105741835B (zh) * 2016-03-18 2019-04-16 腾讯科技(深圳)有限公司 一种音频信息处理方法及终端
CN109903745B (zh) * 2017-12-07 2021-04-09 北京雷石天地电子技术有限公司 一种生成伴奏的方法和***
JP7243052B2 (ja) * 2018-06-25 2023-03-22 カシオ計算機株式会社 オーディオ抽出装置、オーディオ再生装置、オーディオ抽出方法、オーディオ再生方法、機械学習方法及びプログラム

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1573920A (zh) * 2003-06-02 2005-02-02 三星电子株式会社 使用独立分量分析算法分离音乐与语音的装置与方法
CN1592499A (zh) * 2003-09-01 2005-03-09 扬智科技股份有限公司 立体声之人声消除方法及相关装置
CN1941073A (zh) * 2005-09-26 2007-04-04 三星电子株式会社 用于消除音频信号中的人声分量的设备和方法
CN1945689A (zh) * 2006-10-24 2007-04-11 北京中星微电子有限公司 一种从歌曲中提取伴奏乐的方法及其装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1573920A (zh) * 2003-06-02 2005-02-02 三星电子株式会社 使用独立分量分析算法分离音乐与语音的装置与方法
CN1592499A (zh) * 2003-09-01 2005-03-09 扬智科技股份有限公司 立体声之人声消除方法及相关装置
CN1941073A (zh) * 2005-09-26 2007-04-04 三星电子株式会社 用于消除音频信号中的人声分量的设备和方法
CN1945689A (zh) * 2006-10-24 2007-04-11 北京中星微电子有限公司 一种从歌曲中提取伴奏乐的方法及其装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
JP特开平7-319488A 1995.12.08

Also Published As

Publication number Publication date
CN101577117A (zh) 2009-11-11

Similar Documents

Publication Publication Date Title
CN101577117B (zh) 伴奏音乐提取方法及装置
CN101593522B (zh) 一种全频域数字助听方法和设备
US10565970B2 (en) Method and a system for decomposition of acoustic signal into sound objects, a sound object and its use
CN103440873B (zh) 一种基于相似性的音乐推荐方法
Chi et al. Multiresolution spectrotemporal analysis of complex sounds
CN1909060B (zh) 提取浊音/清音分类信息的方法和设备
Gkiokas et al. Music tempo estimation and beat tracking by applying source separation and metrical relations
CN104464725B (zh) 一种唱歌模仿的方法与装置
CN102881283B (zh) 用于语音处理的方法与***
CN102027533B (zh) 用于确定音频信号的频谱的重力频率的多个局部中心的设备和方法
KR20130108391A (ko) 다중 채널 오디오 신호를 분해하는 방법, 장치 및 머신 판독가능 저장 매체
CN102820033A (zh) 一种声纹识别方法
CN103000184A (zh) 噪音降低装置、声音输入装置、无线通信装置及噪音降低方法
CN103841497A (zh) 控制自适应反馈估计***的更新算法和去相关单元的方法
CN103680517A (zh) 一种音频信号的处理方法、装置及设备
CN101421778A (zh) 在用于谐波和基调分析的音频频谱中选择音调分量
CN103258539A (zh) 一种语音信号特性的变换方法和装置
Durrieu et al. An iterative approach to monaural musical mixture de-soloing
CN106997765A (zh) 人声音色的定量表征方法
CN102930863A (zh) 一种基于简化自适应内插加权谱模型的语音转换及重构方法
Muñoz-Montoro et al. Multichannel blind music source separation using directivity-aware MNMF with harmonicity constraints
Duong et al. Multichannel harmonic and percussive component separation by joint modeling of spatial and spectral continuity
CN104143337A (zh) 一种提高音频信号音质的方法和装置
JP6163211B2 (ja) 少なくとも二つの出力信号から少なくとも二つの個別信号を算出する方法
Park et al. Exploiting continuity/discontinuity of basis vectors in spectrogram decomposition for harmonic-percussive sound separation

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
ASS Succession or assignment of patent right

Owner name: WUXI VIMICRO CORPORATION

Free format text: FORMER OWNER: BEIJING ZHONGXING MICROELECTRONICS CO., LTD.

Effective date: 20110328

C41 Transfer of patent application or patent right or utility model
COR Change of bibliographic data

Free format text: CORRECT: ADDRESS; FROM: 100083 15/F, SHINING BUILDING, NO. 35, XUEYUAN ROAD, HAIDIAN DISTRICT, BEIJING TO: 214028 (CHUANGYUAN BUILDING), NATIONAL INTEGRATED CIRCUIT DESIGN PARK, NO. 21-1, YANGTES RIVER ROAD, WUXI NEW DISTRICT, JIANGSU PROVINCE

TA01 Transfer of patent application right

Effective date of registration: 20110328

Address after: 214028 national integrated circuit design Park, Changjiang Road, New District, Jiangsu,, Wuxi

Applicant after: Wuxi Vimicro Co., Ltd.

Address before: 100083, Haidian District, Xueyuan Road, Beijing No. 35, Nanjing Ning building, 15 Floor

Applicant before: Beijing Vimicro Corporation

C14 Grant of patent or utility model
GR01 Patent grant
C41 Transfer of patent application or patent right or utility model
TR01 Transfer of patent right

Effective date of registration: 20161227

Address after: 226300 Tongzhou District, Nantong, Century Avenue, No. 6, layer 999, No.

Patentee after: Jiangsu Dahai Intelligent System Co., Ltd.

Address before: 214028 national integrated circuit design Park, Changjiang Road, New District, Jiangsu,, Wuxi

Patentee before: Wuxi Vimicro Corporation