CN104183245A - 一种演唱者音色相似的歌星推荐方法与装置 - Google Patents

一种演唱者音色相似的歌星推荐方法与装置 Download PDF

Info

Publication number
CN104183245A
CN104183245A CN201410448290.6A CN201410448290A CN104183245A CN 104183245 A CN104183245 A CN 104183245A CN 201410448290 A CN201410448290 A CN 201410448290A CN 104183245 A CN104183245 A CN 104183245A
Authority
CN
China
Prior art keywords
singer
model
tone color
ubm
similar
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201410448290.6A
Other languages
English (en)
Inventor
王子亮
刘旺
邹应双
蔡智力
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujian Kaimi Network Science & Technology Co Ltd
Original Assignee
Fujian Star Net eVideo Information Systems Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujian Star Net eVideo Information Systems Co Ltd filed Critical Fujian Star Net eVideo Information Systems Co Ltd
Priority to CN201410448290.6A priority Critical patent/CN104183245A/zh
Publication of CN104183245A publication Critical patent/CN104183245A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种演唱者音色相似的歌星推荐方法,包括:获得纯人声音频,再对纯人声音频进行预处理,然后分别提取每个纯人声音频的声音特征系数集,用声音模型算法训练出对应歌星模型;对于给定的用户的声音样本,进行预处理,并提取特征系数集;然后将用户声音样本的特征系数集与所有歌星模型进行匹配,找出音色最相似的歌星。本发明还提供相应的装置。本发明可应用于KTV场景中,为用户推荐与其音色相似的歌星,可以增加演唱的乐趣,并提高用户模仿歌星音色的水平。

Description

一种演唱者音色相似的歌星推荐方法与装置
【技术领域】
本发明涉及智能语音技术领域,具体涉及一种演唱者音色相似的歌星推荐方法与装置。
【背景技术】
随着智能终端的普及,人们对生活智能化服务的要求越来越高,语音智能能化服务成为人们迫切需要。
现有唱歌评测技术中有对演唱者“唱得准不准”的评定方法,比如音准评分技术,但较少对“唱得像不像”或者“唱得像谁”作出评定。K歌***的智能化迫切需要一种技术,能根据用户的声音匹配出与其音色最接近的歌手,进而向用户推荐相应歌手的歌曲,从而增加用户演唱的乐趣,并提高用户模仿歌星音色的水平。
【发明内容】
本发明所要解决的技术问题之一在于提供一种演唱者音色相似的歌星推荐方法,实现为演唱者找出与其音色相似的歌星的功能。
本发明是采用以下技术方案解决上述技术问题之一的:
一种演唱者音色相似的歌星推荐方法,包括如下步骤:
音频库处理:获得所有歌星的纯人声音频,再对纯人声音频进行预处理,然后分别提取每个纯人声音频的声音特征系数集;
歌星模型训练:根据每个歌星所对应的特征系数集,用声音模型算法训练出对应歌星模型;
音色匹配:对于给定的用户的声音样本,进行预处理,并提取特征系数集;然后将用户声音样本的特征系数集与所有歌星模型进行匹配,找出音色最相似的歌星。
进一步,所述歌星的纯人声音频获得方式包括:通过歌曲去伴奏方式获得。
进一步,所述歌星模型训练步骤包括:首先将音频库中提取的所有声音特征系数集集中在一起训练出通用背景模型UBM;接着根据每个歌星所对应的特征系数集,利用通用背景模型UBM自适应训练出音频库中所有歌星的模型。
进一步,所述音色匹配步骤中,“将用户声音样本的特征系数与所有歌星模型进行匹配,找出音色最相似的歌星”的操作包括:计算用户声音样本的特征系数集与歌星模型以及与通用模型UBM的对数似然比,将对数似然比最大值所对应的歌星作为推荐歌星。
进一步,所述声音特征系数,为MFCC、LPCC、LSP、PLP中的一种。
进一步,所述音频库处理步骤和音色匹配步骤中的预处理步骤均依次包括:分帧、加窗、去静音;
所述去静音,包括如下步骤:
计算每帧的短时能量,公式为:
E n = Σ m = 0 N - 1 [ w ( m ) x ( n + m ) ] 2
上式中,w表示窗函数,x为声音信号,n=0,1L,2L,…,N为帧长,L为帧移长度;
当该帧的短时能量低于某一阈值时,就认为它是静音帧,直接去除。
进一步,所述自适应训练出音频库中所有歌星的模型,采用贝叶斯自适应算法,具体包括:
对于UBM的第i个混合成员,计算分量i的后验概率:
P ( i | x i ) = w i p i ( x t ) Σ j = 1 M w j p j ( x t )
其中x表示特征系数,w表示权重系数;
然后计算权重、均值和方差:
n i = Σ t = 1 T p ( i | x t ) , E i ( x ) = 1 n Σ t = 1 T P ( i | x t ) x t E i ( x 2 ) = 1 n Σ t = 1 T p ( i | x t ) x t 2
接着修正旧UBM中各个高斯分布的参数wii,
修正后的新权重: w Λ i = [ α i w n i / T + ( 1 - α i w ) w i ] γ ;
修正后的新均值: μ Λ i = α i m E i ( x ) + ( 1 - α i m ) μ i ;
修正后的新方差: δ Λ i 2 = α i v E i ( x 2 ) + ( 1 - α i v ) ( δ i 2 + μ i 2 ) - μ Λ i 2 ;
其中,γ为规则因子,用来保证的和为1,分别为对第i个高斯的权重、均值,方差的修正因子,
式中,rρ为常数,用来约束修正因子的变化尺度。
进一步,所述计算用户声音样本的特征系数集与歌星模型以及与通用模型UBM的对数似然比,公式为:
S ( X ) = 1 T Σ t = 1 T log p ( x t | λ star ) - log p ( x t | λ ubm ) ,
其中x表示特征系数,T表示帧数,λstar,λubm表示歌星模型与UBM模型,p表示歌星模型或UBM模型输出特征矢量序列的似然度。
本发明还提供一种演唱者音色相似的歌星推荐装置,其包括:音频库处理模块、歌星模型训练模块和音色匹配模块,
音频库处理模块:用于获得所有歌星的纯人声音频,再对纯人声音频进行预处理,然后分别提取每个纯人声音频的声音特征系数集;
歌星模型训练模块:用于根据每个歌星所对应的特征系数集,采用声音模型算法训练出对应歌星模型;
音色匹配模块:用于对给定的用户的声音样本,进行预处理,并提取特征系数集;然后将用户声音样本的特征系数集与所有歌星模型进行匹配,找出音色最相似的歌星。
进一步,所述歌星的纯人声音频获得方式包括:通过歌曲去伴奏方式获得。
进一步,所述歌星模型训练模块包括:将音频库中提取的所有声音特征系数集集中在一起训练出通用背景模型UBM;
接着根据每个歌星所对应的特征系数集,利用通用背景模型UBM自适应训练出音频库中所有歌星的模型。
进一步,所述音色匹配模块中,“将用户声音样本的特征系数与所有歌星模型进行匹配,找出音色最相似的歌星”的操作包括:计算用户声音样本的特征系数集与歌星模型以及与通用模型UBM的对数似然比,将对数似然比最大值所对应的歌星作为推荐歌星。
进一步,所述声音特征系数,为MFCC、LPCC、LSP、PLP中的一种。
进一步,所述音频库处理模块和音色匹配模块中的预处理步骤均依次包括:分帧、加窗、去静音;
所述去静音,包括如下步骤:
计算每帧的短时能量,公式为:
E n = Σ m = 0 N - 1 [ w ( m ) x ( n + m ) ] 2
上式中,w表示窗函数,x为声音信号,n=0,1L,2L,…,N为帧长,L为帧移长度;
当该帧的短时能量低于某一阈值时,就认为它是静音帧,直接去除。
进一步,所述自适应训练出音频库中所有歌星的模型,采用贝叶斯自适应算法,具体包括:
对于UBM的第i个混合成员,计算分量i的后验概率:
P ( i | x i ) = w i p i ( x t ) Σ j = 1 M w j p j ( x t )
其中x表示特征系数,w表示权重系数;
然后计算权重、均值和方差:
n i = Σ t = 1 T p ( i | x t ) , E i ( x ) = 1 n Σ t = 1 T P ( i | x t ) x t E i ( x 2 ) = 1 n Σ t = 1 T p ( i | x t ) x t 2
接着修正旧UBM中各个高斯分布的参数wii,
修正后的新权重: w Λ i = [ α i w n i / T + ( 1 - α i w ) w i ] γ ;
修正后的新均值: μ Λ i = α i m E i ( x ) + ( 1 - α i m ) μ i ;
修正后的新方差: δ Λ i 2 = α i v E i ( x 2 ) + ( 1 - α i v ) ( δ i 2 + μ i 2 ) - μ Λ i 2 ;
其中,γ为规则因子,用来保证的和为1,分别为对第i个高斯的权重、均值,方差的修正因子,
式中,rρ为常数,用来约束修正因子的变化尺度。
进一步,所述计算用户声音样本的特征系数集与歌星模型以及与通用模型UBM的对数似然比,公式为:
S ( X ) = 1 T Σ t = 1 T log p ( x t | λ star ) - log p ( x t | λ ubm ) ,
其中x表示特征系数,T表示帧数,λstar,λubm表示歌星模型与UBM模型,p表示歌星模型或UBM模型输出特征矢量序列的似然度。
本发明的优点在于:本发明提出一种演唱者音色相似的歌星推荐方法及装置,为演唱者找出与其音色相似的歌星作为参考,增加演唱的乐趣。应用于KTV场景中,能够吸引大量用户,刺激消费,并提高用户模仿歌星音色的水平。
【附图说明】
下面参照附图结合实施例对本发明作进一步的描述。
图1是本发明的方法音频库处理与歌星模型训练过程的流程图。
图2是本发明的方法中单个歌星模型训练流程图。
图3是本发明的方法音色匹配过程流程图。
图4是本发明的方法中音色匹配过程中计算似然比流程图。
图5是本发明的装置结构示意图。
【具体实施方式】
第一实施例:
一种演唱者音色相似的歌星推荐方法,包括如下步骤:
音频库处理:获得所有歌星的纯人声音频,再对纯人声音频进行预处理,然后分别提取每个纯人声音频的声音特征系数集;
歌星模型训练:根据每个歌星所对应的特征系数集,用声音模型算法训练出对应歌星模型;
音色匹配:对于给定的用户的声音样本,进行预处理,并提取特征系数集;然后将用户声音样本的特征系数集与所有歌星模型进行匹配,找出音色最相似的歌星。
下面对该实施例进行详细描述。
一种演唱者音色相似的歌星推荐方法,包括如下步骤:
S1:音频库处理过程(如图1所示):
S11:准备音频库,收集一定数量的歌星的若干歌曲,比如300个歌星,每个歌星5首歌曲所对应的立体声音频;
S12:对音频库中的所有歌曲去除伴奏得到纯人声频,其方法可参考专利名称为《一种立体声音频的处理方法与装置》,专利申请号为:201410263446.3的中国发明专利。该方法主要利用立体声左右声道之间伴奏与人声的差异性,对伴奏进行抑制滤波,从而提取人声。对歌曲去伴奏的目的是减少歌曲中的伴奏成分对于歌星音色模型训练的影响。
对音频库中的所有歌曲去除伴奏得到纯人声音频,具体包括:
将立体声音频的左右声道信号变换到频域;
计算左声道频域信号与右声道频域信号相应频点对的幅度比值,对幅度比值在预设范围内的频点列为待衰减的频点,且计算左声道频域信号与右声道频域信号相应频点对的相位差,将相位差差值在预设范围内的频点也列为待衰减的频点;所述幅度比值的计算公式为:
kn(i)=abs(fft_frameRn(i))/abs(fft_frameLn(i))*(2/π),
公式中n=0,1,2,…,N-1,表示帧号i=0,1,2…,FN/2,FN表示傅里叶变换的点数,相位差的计算公式为:
pn(i)=angel(fft_frameLn(i))-angel(fft_frameRn(i)),
n=0,1,2,…,N-1;i=0,1,2,…,FN/2;
接着,筛选出待衰减的频点,也就是将幅度比值落在一定范围的频点,其中频点i符合
kn(i)<α或kn(i)>β,0<α<0.5,0.5<β<1,α取0.4,β取0.6,
或将相位差值落在一定范围的频点,其中i符合
pn(i)<φ或这里φ取-0.1,取0.1,列为待衰减的频点;
对待衰减的频点,即伴奏成分进行衰减处理,公式为:
fft_frameRn(i)=0或fft_frameLn(i)=0,公式中,i为待衰减的频点;
将衰减后的频域信号逆变换为时域,即可得到去除伴奏后的歌曲音频。
在其他实施方式中,也可以通过其他方法得到纯人声音频,并不局限于上述算法。
在其他实施方式中,如果步骤S11中已搜集到所有歌星的纯人声音频,则略过步骤S12。
S13:对去除伴奏后的歌曲进行预处理,包括:分帧、加窗、去静音;
分帧,是指将音频信号分成若干帧,每帧包括预设数量的声音采样点,并且相邻帧之间有预设数量的重合采样点;
加窗,采用加汉宁窗滤波处理,还可以是其他的加窗方式。
去静音,包括:
计算每帧的短时能量,公式为:
E n = &Sigma; m = 0 N - 1 [ w ( m ) x ( n + m ) ] 2
上式中,w表示窗函数,x为声音信号,n=0,1L,2L,…,N为帧长,L为帧移长度;
当该帧的短时能量低于某一阈值时,就认为它是静音帧,直接去除。静音并不包含有效的声音特征,因此需要去除。
S14:对预处理后的音频提取声音特征系数。所述声音特征系数可以是MFCC、LPCC、LSP、PLP中的一种;MFCC是指Mel频率倒谱系数,LPCC是指线性预测倒谱系数,LSP是指线谱对系数,PLP是指感知线性预测系数,这些系数都能很好地表征声音的音色特征,可任选一种。本发明优选提取MFCC或LPCC声音特征系数。
S2:歌星模型训练过程,如图1~图2所示。
将提取的声音特征系数集中在一起训练出通用背景模型UBM,并根据每个歌星所对应的声音特征系数集,利用背景模型UBM自适应训练出音频库中所有歌星的模型。UBM模型其实是一个高混合度的高斯模型,其训练过程与GMM类似,采用EM迭代算法,这里不详述。
自适应训练出歌星的模型过程,如图2所示,采用贝叶斯自适应算法,具体如下:
对于UBM的第i个混合成员,计算分量i的后验概率:
P ( i | x i ) = w i p i ( x t ) &Sigma; j = 1 M w j p j ( x t )
其中x表示特征系数,w表示权重系数;
然后计算权重、均值和方差:
n i = &Sigma; t = 1 T p ( i | x t ) , E i ( x ) = 1 n &Sigma; t = 1 T P ( i | x t ) x t E i ( x 2 ) = 1 n &Sigma; t = 1 T p ( i | x t ) x t 2
接着修正旧UBM中各个高斯分布的参数wii,
修正后的新权重: w &Lambda; i = [ &alpha; i w n i / T + ( 1 - &alpha; i w ) w i ] &gamma; ;
修正后的新均值: &mu; &Lambda; i = &alpha; i m E i ( x ) + ( 1 - &alpha; i m ) &mu; i ;
修正后的新方差: &delta; &Lambda; i 2 = &alpha; i v E i ( x 2 ) + ( 1 - &alpha; i v ) ( &delta; i 2 + &mu; i 2 ) - &mu; &Lambda; i 2 ;
其中,γ为规则因子,用来保证的和为1,分别为对第i个高斯的权重、均值,方差的修正因子,
式中,rρ为常数,用来约束修正因子的变化尺度,一般选16。
本步骤可训练出一个通用UBM模型以及所有歌星的音色模型。
S3:音色匹配过程(如图3~4所示):
S31:用户声音样本处理:对于给定的用户,即演唱者的声音样本,同样进行预处理,并提取声音特征系数;
S32:接着计算提取的声音特征系数与歌星模型以及与通用模型UBM的对数似然比(如图4所示),将对数似然比最大值所对应的歌星作为推荐歌星。
对数似然比的计算公式为:
S ( X ) = &Sigma; t = 1 T log p ( x t | &lambda; star ) - log p ( x t | &lambda; ubm ) ,
其中x表示特征系数,λstar,λubm表示歌星模型与UBM模型,p表示歌星模型或UBM模型输出特征矢量序列的似然度;
此处采用时间归一化的对数似然比,
S ( X ) = 1 T &Sigma; t = 1 T log p ( x t | &lambda; star ) - log p ( x t | &lambda; ubm ) .
本步骤可找出与用户音色接近的歌星作为推荐,从而增加用户演唱的乐趣。
在其他实施方式中,也可以使用GMM、HMM等声音模型作为歌星模型训练以及音色匹配的方法。
第二实施例:
一种演唱者音色相似的歌星推荐装置,其包括:音频库处理模块、歌星模型训练模块和音色匹配模块,
音频库处理模块:用于获得所有歌星的纯人声音频,再对纯人声音频进行预处理,然后分别提取每个纯人声音频的声音特征系数集;
歌星模型训练模块:用于根据每个歌星所对应的特征系数集,采用声音模型算法训练出对应歌星模型;
音色匹配模块:用于对给定的用户的声音样本,进行预处理,并提取特征系数集;然后将用户声音样本的特征系数集与所有歌星模型进行匹配,找出音色最相似的歌星。
下面具体描述该实施例。
一种演唱者音色相似的歌星推荐装置,如图5所示,包括:
音频库处理模块,用于对音频库中的所有歌曲去除伴奏得到纯人声音频,再对纯人声音频进行预处理,然后对预处理后的音频提取声音特征系数;
歌星模型训练模块,用于将提取的声音特征系数集中在一起训练出通用背景模型UBM,并根据每个歌星所对应的声音特征系数集,利用背景模型UBM自适应训练出音频库中所有歌星的模型;
音色匹配模块,用于对给定用户的声音样本进行预处理并提取声音特征系数;然后计算提取的声音特征系数与歌星模型以及与通用模型UBM的对数似然比,将对数似然比最大值所对应的歌星作为推荐歌星。
对音频库中的所有歌曲去除伴奏得到纯人声音频的方法,参考专利名称为《一种立体声音频的处理方法与装置》,专利申请号为:201410263446.3的中国发明专利。该方法主要利用立体声左右声道之间伴奏与人声的差异性,对伴奏进行抑制滤波,从而提取人声。
具体包括:
将立体声音频的左右声道信号变换到频域;
计算左声道频域信号与右声道频域信号相应频点对的幅度比值,对幅度比值在预设范围内的频点列为待衰减的频点,且计算左声道频域信号与右声道频域信号相应频点对的相位差,将相位差差值在预设范围内的频点也列为待衰减的频点;所述幅度比值的计算公式为:
kn(i)=abs(fft_frameRn(i))/abs(fft_frameLn(i))*(2/π),
公式中n=0,1,2,…,N-1,表示帧号i=0,1,2…,FN/2,FN表示傅里叶变换的点数,相位差的计算公式为:
pn(i)=angel(fft_frameLn(i))-angel(fft_frameRn(i)),
n=0,1,2,…,N-1;i=0,1,2,…,FN/2;
接着,筛选出待衰减的频点,也就是将幅度比值落在一定范围的频点,其中频点i符合
kn(i)<α或kn(i)>β,0<α<0.5,0.5<β<1,α取0.4,β取0.6,
或将相位差值落在一定范围的频点,其中i符合
pn(i)<φ或这里φ取-0.1,取0.1,列为待衰减的频点;
对待衰减的频点,即伴奏成分进行衰减处理,公式为:
fft_frameRn(i)=0或fft_frameLn(i)=0,公式中,i为待衰减的频点;
将衰减后的频域信号逆变换为时域,即可得到去除伴奏后的歌曲音频。
所述声音特征系数,为MFCC、LPCC、LSP、PLP中的一种。
所述音频库处理模块和音色匹配模块中的预处理,包括:分帧、加窗、去静音;
所述分帧,是指将音频信号分成若干帧,每帧包括预设数量的声音采样点,并且相邻帧之间有预设数量的重合采样点;
所述加窗,是指加汉宁窗滤波处理。
所述预处理步骤中的去静音操作,包括:
计算每帧的短时能量,公式为:
E n = &Sigma; m = 0 N - 1 [ w ( m ) x ( n + m ) ] 2
上式中,w表示窗函数,x为声音信号,n=0,1L,2L,…,N为帧长,L为帧移长度;
当该帧的短时能量低于某一阈值时,就认为它是静音帧,直接去除。
所述歌星模型训练模块中的自适应训练出歌星的模型过程,采用贝叶斯自适应算法,具体包括:
对于UBM的第i个混合成员,计算分量i的后验概率:
P ( i | x i ) = w i p i ( x t ) &Sigma; j = 1 M w j p j ( x t )
其中x表示特征系数,w表示权重系数;
然后计算权重、均值和方差:
n i = &Sigma; t = 1 T p ( i | x t ) , E i ( x ) = 1 n &Sigma; t = 1 T P ( i | x t ) x t E i ( x 2 ) = 1 n &Sigma; t = 1 T p ( i | x t ) x t 2
接着修正旧UBM中各个高斯分布的参数wii,
修正后的新权重: w &Lambda; i = [ &alpha; i w n i / T + ( 1 - &alpha; i w ) w i ] &gamma; ;
修正后的新均值: &mu; &Lambda; i = &alpha; i m E i ( x ) + ( 1 - &alpha; i m ) &mu; i ;
修正后的新方差: &delta; &Lambda; i 2 = &alpha; i v E i ( x 2 ) + ( 1 - &alpha; i v ) ( &delta; i 2 + &mu; i 2 ) - &mu; &Lambda; i 2 ;
其中,γ为规则因子,用来保证的和为1,分别为对第i个高斯的权重、均值,方差的修正因子,
式中,rρ为常数,用来约束修正因子的变化尺度。
所述音色匹配模块中的对数似然比的计算公式为:
S ( X ) = &Sigma; t = 1 T log p ( x t | &lambda; star ) - log p ( x t | &lambda; ubm ) ,
其中x表示特征系数,λstar,λubm表示歌星模型与UBM模型,p表示歌星模型或UBM模型输出特征矢量序列的似然度;
此处采用时间归一化的对数似然比,
S ( X ) = 1 T &Sigma; t = 1 T log p ( x t | &lambda; star ) - log p ( x t | &lambda; ubm ) .
本发明提出一种演唱者音色相似的歌星推荐方法及其装置,为演唱者找出与其音色相似的歌星作为参考,可以增加演唱的乐趣。应用于KTV场景中,能够吸引大量用户,刺激消费,并提高用户模仿歌星音色的水平。
以上所述仅为本发明的较佳实施用例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内,所作的任何修改、等同替换以及改进等,均应包含在本发明的保护范围之内。

Claims (15)

1.一种演唱者音色相似的歌星推荐方法,其特征在于:包括如下步骤:
音频库处理:获得所有歌星的纯人声音频,再对纯人声音频进行预处理,然后分别提取每个纯人声音频的声音特征系数集;
歌星模型训练:根据每个歌星所对应的特征系数集,用声音模型算法训练出对应歌星模型;
音色匹配:对于给定的用户的声音样本,进行预处理,并提取特征系数集;然后将用户声音样本的特征系数集与所有歌星模型进行匹配,找出音色最相似的歌星。
2.如权利要求1所述的一种演唱者音色相似的歌星推荐方法,其特征在于:所述歌星的纯人声音频获得方式包括:通过歌曲去伴奏方式获得。
3.如权利要求1所述的一种演唱者音色相似的歌星推荐方法,其特征在于:所述歌星模型训练步骤包括:首先将音频库中提取的所有声音特征系数集集中在一起训练出通用背景模型UBM;接着根据每个歌星所对应的特征系数集,利用通用背景模型UBM自适应训练出音频库中所有歌星的模型。
4.如权利要求1所述的一种演唱者音色相似的歌星推荐方法,其特征在于:所述音色匹配步骤中,“将用户声音样本的特征系数与所有歌星模型进行匹配,找出音色最相似的歌星”的操作包括:计算用户声音样本的特征系数集与歌星模型以及与通用模型UBM的对数似然比,将对数似然比最大值所对应的歌星作为推荐歌星。
5.如权利要求1所述的一种演唱者音色相似的歌星推荐方法,其特征在于:所述声音特征系数,为MFCC、LPCC、LSP、PLP中的一种。
6.如权利要求1所述的一种演唱者音色相似的歌星推荐方法,其特征在于:所述音频库处理步骤和音色匹配步骤中的预处理步骤均依次包括:分帧、加窗、去静音;
所述去静音,包括如下步骤:
计算每帧的短时能量,公式为:
E n = &Sigma; m = 0 N - 1 [ w ( m ) x ( n + m ) ] 2
上式中,w表示窗函数,x为声音信号,n=0,1L,2L,…,N为帧长,L为帧移长度;
当该帧的短时能量低于某一阈值时,就认为它是静音帧,直接去除。
7.如权利要求3所述的一种演唱者音色相似的歌星推荐方法,其特征在于:所述自适应训练出音频库中所有歌星的模型,采用贝叶斯自适应算法,具体包括:
对于UBM的第i个混合成员,计算分量i的后验概率:
P ( i | x i ) = w i p i ( x t ) &Sigma; j = 1 M w j p j ( x t )
其中x表示特征系数,w表示权重系数;
然后计算权重、均值和方差:
n i = &Sigma; t = 1 T p ( i | x t ) , E i ( x ) = 1 n &Sigma; t = 1 T P ( i | x t ) x t E i ( x 2 ) = 1 n &Sigma; t = 1 T p ( i | x t ) x t 2
接着修正旧UBM中各个高斯分布的参数wii,
修正后的新权重: w &Lambda; i = [ &alpha; i w n i / T + ( 1 - &alpha; i w ) w i ] &gamma; ;
修正后的新均值: &mu; &Lambda; i = &alpha; i m E i ( x ) + ( 1 - &alpha; i m ) &mu; i ;
修正后的新方差: &delta; &Lambda; i 2 = &alpha; i v E i ( x 2 ) + ( 1 - &alpha; i v ) ( &delta; i 2 + &mu; i 2 ) - &mu; &Lambda; i 2 ;
其中,γ为规则因子,用来保证的和为1,分别为对第i个高斯的权重、均值,方差的修正因子,
式中,rρ为常数,用来约束修正因子的变化尺度。
8.如权利要求4所述的一种演唱者音色相似的歌星推荐方法,其特征在于:所述对数似然比的计算公式为:
S ( X ) = 1 T &Sigma; t = 1 T log p ( x t | &lambda; star ) - log p ( x t | &lambda; ubm ) ,
其中x表示特征系数,T表示帧数,λstar,λubm表示歌星模型与UBM模型,p表示歌星模型或UBM模型输出特征矢量序列的似然度。
9.一种演唱者音色相似的歌星推荐装置,其特征在于:包括:音频库处理模块、歌星模型训练模块和音色匹配模块,
音频库处理模块:用于获得所有歌星的纯人声音频,再对纯人声音频进行预处理,然后分别提取每个纯人声音频的声音特征系数集;
歌星模型训练模块:用于根据每个歌星所对应的特征系数集,采用声音模型算法训练出对应歌星模型;
音色匹配模块:用于对给定的用户的声音样本,进行预处理,并提取特征系数集;然后将用户声音样本的特征系数集与所有歌星模型进行匹配,找出音色最相似的歌星。
10.如权利要求9所述的一种演唱者音色相似的歌星推荐装置,其特征在于:所述歌星的纯人声音频获得方式包括:通过歌曲去伴奏方式获得。
11.如权利要求9所述的一种演唱者音色相似的歌星推荐装置,其特征在于:所述歌星模型训练模块包括:将音频库中提取的所有声音特征系数集集中在一起训练出通用背景模型UBM;
接着根据每个歌星所对应的特征系数集,利用通用背景模型UBM自适应训练出音频库中所有歌星的模型。
12.如权利要求9所述的一种演唱者音色相似的歌星推荐装置,其特征在于:所述音色匹配模块中,“将用户声音样本的特征系数与所有歌星模型进行匹配,找出音色最相似的歌星”的操作包括:计算用户声音样本的特征系数集与歌星模型以及与通用模型UBM的对数似然比,将对数似然比最大值所对应的歌星作为推荐歌星。
13.如权利要求9所述的一种演唱者音色相似的歌星推荐方法,其特征在于:所述音频库处理模块和音色匹配模块中的预处理步骤均依次包括:分帧、加窗、去静音;
所述去静音,包括如下步骤:
计算每帧的短时能量,公式为:
E n = &Sigma; m = 0 N - 1 [ w ( m ) x ( n + m ) ] 2
上式中,w表示窗函数,x为声音信号,n=0,1L,2L,…,N为帧长,L为帧移长度;
当该帧的短时能量低于某一阈值时,就认为它是静音帧,直接去除。
14.如权利要求11所述的一种演唱者音色相似的歌星推荐装置,其特征在于:所述自适应训练出音频库中所有歌星的模型,采用贝叶斯自适应算法,具体包括:
对于UBM的第i个混合成员,计算分量i的后验概率:
P ( i | x i ) = w i p i ( x t ) &Sigma; j = 1 M w j p j ( x t )
其中x表示特征系数,w表示权重系数;
然后计算权重、均值和方差:
n i = &Sigma; t = 1 T p ( i | x t ) , E i ( x ) = 1 n &Sigma; t = 1 T P ( i | x t ) x t E i ( x 2 ) = 1 n &Sigma; t = 1 T p ( i | x t ) x t 2
接着修正旧UBM中各个高斯分布的参数wii,
修正后的新权重: w &Lambda; i = [ &alpha; i w n i / T + ( 1 - &alpha; i w ) w i ] &gamma; ;
修正后的新均值: &mu; &Lambda; i = &alpha; i m E i ( x ) + ( 1 - &alpha; i m ) &mu; i ;
修正后的新方差: &delta; &Lambda; i 2 = &alpha; i v E i ( x 2 ) + ( 1 - &alpha; i v ) ( &delta; i 2 + &mu; i 2 ) - &mu; &Lambda; i 2 ;
其中,γ为规则因子,用来保证的和为1,分别为对第i个高斯的权重、均值,方差的修正因子,
式中,rρ为常数,用来约束修正因子的变化尺度。
15.如权利要求12所述的一种演唱者音色相似的歌星推荐装置,其特征在于:所述对数似然比的计算公式为:
S ( X ) = 1 T &Sigma; t = 1 T log p ( x t | &lambda; star ) - log p ( x t | &lambda; ubm ) ,
其中x表示特征系数,T表示帧数,λstar,λubm表示歌星模型与UBM模型,p表示歌星模型或UBM模型输出特征矢量序列的似然度。
CN201410448290.6A 2014-09-04 2014-09-04 一种演唱者音色相似的歌星推荐方法与装置 Pending CN104183245A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410448290.6A CN104183245A (zh) 2014-09-04 2014-09-04 一种演唱者音色相似的歌星推荐方法与装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410448290.6A CN104183245A (zh) 2014-09-04 2014-09-04 一种演唱者音色相似的歌星推荐方法与装置

Publications (1)

Publication Number Publication Date
CN104183245A true CN104183245A (zh) 2014-12-03

Family

ID=51964235

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410448290.6A Pending CN104183245A (zh) 2014-09-04 2014-09-04 一种演唱者音色相似的歌星推荐方法与装置

Country Status (1)

Country Link
CN (1) CN104183245A (zh)

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104464725A (zh) * 2014-12-30 2015-03-25 福建星网视易信息***有限公司 一种唱歌模仿的方法与装置
CN105554281A (zh) * 2015-12-21 2016-05-04 联想(北京)有限公司 一种信息处理方法和电子设备
CN105575393A (zh) * 2015-12-02 2016-05-11 中国传媒大学 一种基于人声音色的个性化点唱歌曲推荐方法
CN105679324A (zh) * 2015-12-29 2016-06-15 福建星网视易信息***有限公司 一种声纹识别相似度评分的方法和装置
CN106095925A (zh) * 2016-06-12 2016-11-09 北京邮电大学 一种基于声乐特征的个性化歌曲推荐***
CN106250400A (zh) * 2016-07-19 2016-12-21 腾讯科技(深圳)有限公司 一种音频数据处理方法、装置以及***
CN106910506A (zh) * 2017-02-23 2017-06-30 广东小天才科技有限公司 一种通过声音模仿识别人物角色的方法及装置
CN106997765A (zh) * 2017-03-31 2017-08-01 福州大学 人声音色的定量表征方法
CN109031200A (zh) * 2018-05-24 2018-12-18 华南理工大学 一种基于深度学习的声源空间方位检测方法
CN109300485A (zh) * 2018-11-19 2019-02-01 北京达佳互联信息技术有限公司 音频信号的评分方法、装置、电子设备及计算机存储介质
CN109308901A (zh) * 2018-09-29 2019-02-05 百度在线网络技术(北京)有限公司 歌唱者识别方法和装置
CN109754820A (zh) * 2018-12-07 2019-05-14 百度在线网络技术(北京)有限公司 目标音频获取方法及装置、存储介质及终端
CN109903780A (zh) * 2019-02-22 2019-06-18 宝宝树(北京)信息技术有限公司 哭声原因模型建立方法、***及哭声原因辨别方法
CN110083772A (zh) * 2019-04-29 2019-08-02 北京小唱科技有限公司 基于演唱技巧的歌手推荐方法及装置
CN110364182A (zh) * 2019-08-01 2019-10-22 腾讯音乐娱乐科技(深圳)有限公司 一种声音信号处理方法及装置
CN110489659A (zh) * 2019-07-18 2019-11-22 平安科技(深圳)有限公司 数据匹配方法和装置

Citations (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1567431A (zh) * 2003-07-10 2005-01-19 上海优浪信息科技有限公司 一种说话者身份识别方法和***
US20050027514A1 (en) * 2003-07-28 2005-02-03 Jian Zhang Method and apparatus for automatically recognizing audio data
CN1897109A (zh) * 2006-06-01 2007-01-17 电子科技大学 一种基于mfcc的单一音频信号识别方法
CN101021854A (zh) * 2006-10-11 2007-08-22 鲍东山 基于内容的音频分析***
CN101351761A (zh) * 2005-10-27 2009-01-21 高通股份有限公司 无线通信***中降低功耗的方法和设备
CN101577117A (zh) * 2009-03-12 2009-11-11 北京中星微电子有限公司 伴奏音乐提取方法及装置
CN101944359A (zh) * 2010-07-23 2011-01-12 杭州网豆数字技术有限公司 一种面向特定人群的语音识别方法
CN101980336A (zh) * 2010-10-18 2011-02-23 福州星网视易信息***有限公司 一种基于隐马尔可夫模型的汽车声音识别方法
CN102394062A (zh) * 2011-10-26 2012-03-28 华南理工大学 一种自动录音设备源识别的方法和***
CN102543073A (zh) * 2010-12-10 2012-07-04 上海上大海润信息***有限公司 一种沪语语音识别信息处理方法
CN103065623A (zh) * 2012-12-17 2013-04-24 深圳Tcl新技术有限公司 音色匹配方法和装置
CN103177722A (zh) * 2013-03-08 2013-06-26 北京理工大学 一种基于音色相似度的歌曲检索方法
CN103236260A (zh) * 2013-03-29 2013-08-07 京东方科技集团股份有限公司 语音识别***
CN103474065A (zh) * 2013-09-24 2013-12-25 贵阳世纪恒通科技有限公司 基于自动分类技术的语音意图判定识别方法
CN103730121A (zh) * 2013-12-24 2014-04-16 中山大学 一种伪装声音的识别方法及装置
CN103871423A (zh) * 2012-12-13 2014-06-18 上海八方视界网络科技有限公司 一种基于nmf非负矩阵分解的音频分离方法
CN103943113A (zh) * 2014-04-15 2014-07-23 福建星网视易信息***有限公司 一种歌曲去伴奏的方法和装置

Patent Citations (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1567431A (zh) * 2003-07-10 2005-01-19 上海优浪信息科技有限公司 一种说话者身份识别方法和***
US20050027514A1 (en) * 2003-07-28 2005-02-03 Jian Zhang Method and apparatus for automatically recognizing audio data
CN101351761A (zh) * 2005-10-27 2009-01-21 高通股份有限公司 无线通信***中降低功耗的方法和设备
CN1897109A (zh) * 2006-06-01 2007-01-17 电子科技大学 一种基于mfcc的单一音频信号识别方法
CN101021854A (zh) * 2006-10-11 2007-08-22 鲍东山 基于内容的音频分析***
CN101577117A (zh) * 2009-03-12 2009-11-11 北京中星微电子有限公司 伴奏音乐提取方法及装置
CN101944359A (zh) * 2010-07-23 2011-01-12 杭州网豆数字技术有限公司 一种面向特定人群的语音识别方法
CN101980336A (zh) * 2010-10-18 2011-02-23 福州星网视易信息***有限公司 一种基于隐马尔可夫模型的汽车声音识别方法
CN102543073A (zh) * 2010-12-10 2012-07-04 上海上大海润信息***有限公司 一种沪语语音识别信息处理方法
CN102394062A (zh) * 2011-10-26 2012-03-28 华南理工大学 一种自动录音设备源识别的方法和***
CN103871423A (zh) * 2012-12-13 2014-06-18 上海八方视界网络科技有限公司 一种基于nmf非负矩阵分解的音频分离方法
CN103065623A (zh) * 2012-12-17 2013-04-24 深圳Tcl新技术有限公司 音色匹配方法和装置
CN103177722A (zh) * 2013-03-08 2013-06-26 北京理工大学 一种基于音色相似度的歌曲检索方法
CN103236260A (zh) * 2013-03-29 2013-08-07 京东方科技集团股份有限公司 语音识别***
CN103474065A (zh) * 2013-09-24 2013-12-25 贵阳世纪恒通科技有限公司 基于自动分类技术的语音意图判定识别方法
CN103730121A (zh) * 2013-12-24 2014-04-16 中山大学 一种伪装声音的识别方法及装置
CN103943113A (zh) * 2014-04-15 2014-07-23 福建星网视易信息***有限公司 一种歌曲去伴奏的方法和装置

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
任雪妮: "《语音相似度评价算法研究》", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *
刘杰: "《自动语种识别***设计与实现》", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *
徐永华: "《基于GMM-UBM模型的语种识别》", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *
朱少雄: "《声纹识别***与模式匹配算法研究》", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *
李丽娟: "《基于统计模型的说话人识别研究与实现》", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *
颜凯: "《基于高斯混合模型的说话人识别算法研究》", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104464725B (zh) * 2014-12-30 2017-09-05 福建凯米网络科技有限公司 一种唱歌模仿的方法与装置
CN104464725A (zh) * 2014-12-30 2015-03-25 福建星网视易信息***有限公司 一种唱歌模仿的方法与装置
CN105575393A (zh) * 2015-12-02 2016-05-11 中国传媒大学 一种基于人声音色的个性化点唱歌曲推荐方法
CN105554281A (zh) * 2015-12-21 2016-05-04 联想(北京)有限公司 一种信息处理方法和电子设备
CN105679324B (zh) * 2015-12-29 2019-03-22 福建星网视易信息***有限公司 一种声纹识别相似度评分的方法和装置
CN105679324A (zh) * 2015-12-29 2016-06-15 福建星网视易信息***有限公司 一种声纹识别相似度评分的方法和装置
CN106095925A (zh) * 2016-06-12 2016-11-09 北京邮电大学 一种基于声乐特征的个性化歌曲推荐***
CN106095925B (zh) * 2016-06-12 2018-07-03 北京邮电大学 一种基于声乐特征的个性化歌曲推荐方法
CN106250400A (zh) * 2016-07-19 2016-12-21 腾讯科技(深圳)有限公司 一种音频数据处理方法、装置以及***
CN106910506A (zh) * 2017-02-23 2017-06-30 广东小天才科技有限公司 一种通过声音模仿识别人物角色的方法及装置
CN106997765A (zh) * 2017-03-31 2017-08-01 福州大学 人声音色的定量表征方法
CN106997765B (zh) * 2017-03-31 2020-09-01 福州大学 人声音色的定量表征方法
CN109031200A (zh) * 2018-05-24 2018-12-18 华南理工大学 一种基于深度学习的声源空间方位检测方法
CN109308901A (zh) * 2018-09-29 2019-02-05 百度在线网络技术(北京)有限公司 歌唱者识别方法和装置
CN109300485A (zh) * 2018-11-19 2019-02-01 北京达佳互联信息技术有限公司 音频信号的评分方法、装置、电子设备及计算机存储介质
CN109300485B (zh) * 2018-11-19 2022-06-10 北京达佳互联信息技术有限公司 音频信号的评分方法、装置、电子设备及计算机存储介质
CN109754820A (zh) * 2018-12-07 2019-05-14 百度在线网络技术(北京)有限公司 目标音频获取方法及装置、存储介质及终端
CN109903780A (zh) * 2019-02-22 2019-06-18 宝宝树(北京)信息技术有限公司 哭声原因模型建立方法、***及哭声原因辨别方法
CN110083772A (zh) * 2019-04-29 2019-08-02 北京小唱科技有限公司 基于演唱技巧的歌手推荐方法及装置
CN110489659A (zh) * 2019-07-18 2019-11-22 平安科技(深圳)有限公司 数据匹配方法和装置
CN110364182A (zh) * 2019-08-01 2019-10-22 腾讯音乐娱乐科技(深圳)有限公司 一种声音信号处理方法及装置
CN110364182B (zh) * 2019-08-01 2022-06-14 腾讯音乐娱乐科技(深圳)有限公司 一种声音信号处理方法及装置

Similar Documents

Publication Publication Date Title
CN104183245A (zh) 一种演唱者音色相似的歌星推荐方法与装置
CN102054480B (zh) 一种基于分数阶傅立叶变换的单声道混叠语音分离方法
Luo et al. Music source separation with band-split RNN
CN110019931B (zh) 音频分类方法、装置、智能设备和存储介质
CN102792373B (zh) 噪音抑制装置
CN104700843A (zh) 一种年龄识别的方法及装置
CN103943104B (zh) 一种语音信息识别的方法及终端设备
CN102129456B (zh) 去相关稀疏映射音乐流派有监督自动分类方法
CN106024010B (zh) 一种基于共振峰曲线的语音信号动态特征提取方法
CN108447495A (zh) 一种基于综合特征集的深度学习语音增强方法
CN104123934A (zh) 一种构音识别方法及其***
CN102436809A (zh) 英语口语机考***中网络语音识别方法
CN103440872A (zh) 瞬态噪声的去噪方法
CN102610236A (zh) 一种改善喉振话筒语音音质的方法
CN108281150B (zh) 一种基于微分声门波模型的语音变调变嗓音方法
FitzGerald et al. Single channel vocal separation using median filtering and factorisation techniques
CN111081249A (zh) 一种模式选择方法、装置及计算机可读存储介质
CN105976803B (zh) 一种结合乐谱的音符切分方法
CN112116909A (zh) 语音识别方法、装置及***
Kamble et al. Teager energy subband filtered features for near and far-field automatic speech recognition
CN111091847A (zh) 基于并改进的深度聚类语音分离方法
Allen et al. Warped magnitude and phase-based features for language identification
Sofianos et al. H-Semantics: A hybrid approach to singing voice separation
Pandey et al. Significance of glottal activity detection for speaker verification in degraded and limited data condition
Kumari et al. Audio signal classification based on optimal wavelet and support vector machine

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
EE01 Entry into force of recordation of patent licensing contract

Application publication date: 20141203

Assignee: FUJIAN KAIMI NETWORK SCIENCE & TECHNOLOGY CO., LTD.

Assignor: Fujian Starnet e-Video Information System Co., Ltd.

Contract record no.: 2015350000072

Denomination of invention: Method and device for recommending music stars with tones similar to those of singers

License type: Common License

Record date: 20150925

LICC Enforcement, change and cancellation of record of contracts on the licence for exploitation of a patent or utility model
C41 Transfer of patent application or patent right or utility model
TA01 Transfer of patent application right

Effective date of registration: 20151027

Address after: 350018 Fujian city of Fuzhou province Nanjiang gate town of Cangshan District West Coast Road No. 198 Fuzhou Strait International Convention and Exhibition Center basement East Office Center No. A-029 (FTA test area)

Applicant after: FUJIAN KAIMI NETWORK SCIENCE & TECHNOLOGY CO., LTD.

Address before: Cangshan District of Fuzhou City, Fujian province 350000 to build a new town, Jinshan Road No. 618, juyuanzhou Industrial Park No. 19 building one or two layer

Applicant before: Fujian Starnet e-Video Information System Co., Ltd.

WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20141203

WD01 Invention patent application deemed withdrawn after publication