CN104183245A

CN104183245A - 一种演唱者音色相似的歌星推荐方法与装置

Info

Publication number: CN104183245A
Application number: CN201410448290.6A
Authority: CN
Inventors: 王子亮; 刘旺; 邹应双; 蔡智力
Original assignee: Fujian Star Net eVideo Information Systems Co Ltd
Current assignee: Fujian Kaimi Network Science & Technology Co Ltd
Priority date: 2014-09-04
Filing date: 2014-09-04
Publication date: 2014-12-03

Abstract

一种演唱者音色相似的歌星推荐方法，包括：获得纯人声音频，再对纯人声音频进行预处理，然后分别提取每个纯人声音频的声音特征系数集，用声音模型算法训练出对应歌星模型；对于给定的用户的声音样本，进行预处理，并提取特征系数集；然后将用户声音样本的特征系数集与所有歌星模型进行匹配，找出音色最相似的歌星。本发明还提供相应的装置。本发明可应用于KTV场景中，为用户推荐与其音色相似的歌星，可以增加演唱的乐趣，并提高用户模仿歌星音色的水平。

Description

一种演唱者音色相似的歌星推荐方法与装置

【技术领域】

本发明涉及智能语音技术领域，具体涉及一种演唱者音色相似的歌星推荐方法与装置。

【背景技术】

随着智能终端的普及，人们对生活智能化服务的要求越来越高，语音智能能化服务成为人们迫切需要。

现有唱歌评测技术中有对演唱者“唱得准不准”的评定方法，比如音准评分技术，但较少对“唱得像不像”或者“唱得像谁”作出评定。K歌***的智能化迫切需要一种技术，能根据用户的声音匹配出与其音色最接近的歌手，进而向用户推荐相应歌手的歌曲，从而增加用户演唱的乐趣，并提高用户模仿歌星音色的水平。

【发明内容】

本发明所要解决的技术问题之一在于提供一种演唱者音色相似的歌星推荐方法，实现为演唱者找出与其音色相似的歌星的功能。

本发明是采用以下技术方案解决上述技术问题之一的：

一种演唱者音色相似的歌星推荐方法，包括如下步骤：

音频库处理：获得所有歌星的纯人声音频，再对纯人声音频进行预处理，然后分别提取每个纯人声音频的声音特征系数集；

歌星模型训练：根据每个歌星所对应的特征系数集，用声音模型算法训练出对应歌星模型；

音色匹配：对于给定的用户的声音样本，进行预处理，并提取特征系数集；然后将用户声音样本的特征系数集与所有歌星模型进行匹配，找出音色最相似的歌星。

进一步，所述歌星的纯人声音频获得方式包括：通过歌曲去伴奏方式获得。

进一步，所述歌星模型训练步骤包括：首先将音频库中提取的所有声音特征系数集集中在一起训练出通用背景模型UBM；接着根据每个歌星所对应的特征系数集，利用通用背景模型UBM自适应训练出音频库中所有歌星的模型。

进一步，所述音色匹配步骤中，“将用户声音样本的特征系数与所有歌星模型进行匹配，找出音色最相似的歌星”的操作包括：计算用户声音样本的特征系数集与歌星模型以及与通用模型UBM的对数似然比，将对数似然比最大值所对应的歌星作为推荐歌星。

进一步，所述声音特征系数，为MFCC、LPCC、LSP、PLP中的一种。

进一步，所述音频库处理步骤和音色匹配步骤中的预处理步骤均依次包括：分帧、加窗、去静音；

所述去静音，包括如下步骤：

计算每帧的短时能量，公式为：

E_{n} = Σ_{m = 0}^{N - 1} {[w (m) x (n + m)]}^{2}

上式中，w表示窗函数，x为声音信号，n＝0，1L，2L，…，N为帧长，L为帧移长度；

当该帧的短时能量低于某一阈值时，就认为它是静音帧，直接去除。

进一步，所述自适应训练出音频库中所有歌星的模型，采用贝叶斯自适应算法，具体包括：

对于UBM的第i个混合成员，计算分量i的后验概率：

P (i | x_{i}) = \frac{w_{i} p_{i} (x_{t})}{Σ_{j = 1}^{M} w_{j} p_{j} (x_{t})}

其中x表示特征系数，w表示权重系数；

然后计算权重、均值和方差：

\begin{matrix} n_{i} = Σ_{t = 1}^{T} p (i | x_{t}), E_{i} (x) = \frac{1}{n} Σ_{t = 1}^{T} P (i | x_{t}) x_{t} & E_{i} (x^{2}) = \frac{1}{n} Σ_{t = 1}^{T} p (i | x_{t}) x_{t}^{2} \end{matrix}

接着修正旧UBM中各个高斯分布的参数w_i,μ_i,

修正后的新权重：

{\overset{Λ}{w}}_{i} = [α_{i}^{w} n_{i} / T + (1 - α_{i}^{w}) w_{i}] γ;

修正后的新均值：

{\overset{Λ}{μ}}_{i} = α_{i}^{m} E_{i} (x) + (1 - α_{i}^{m}) μ_{i};

修正后的新方差：

{\overset{Λ}{δ}}_{i}^{2} = α_{i}^{v} E_{i} (x^{2}) + (1 - α_{i}^{v}) (δ_{i}^{2} + μ_{i}^{2}) - {\overset{Λ}{μ}}_{i}^{2};

其中，γ为规则因子，用来保证的和为1，分别为对第i个高斯的权重、均值，方差的修正因子，

式中，r^ρ为常数，用来约束修正因子的变化尺度。

进一步，所述计算用户声音样本的特征系数集与歌星模型以及与通用模型UBM的对数似然比，公式为：

S (X) = \frac{1}{T} Σ_{t = 1}^{T} \log p (x_{t} | λ_{star}) - \log p (x_{t} | λ_{ubm}),

其中x表示特征系数，T表示帧数，λ_star，λ_ubm表示歌星模型与UBM模型，p表示歌星模型或UBM模型输出特征矢量序列的似然度。

本发明还提供一种演唱者音色相似的歌星推荐装置，其包括：音频库处理模块、歌星模型训练模块和音色匹配模块，

音频库处理模块：用于获得所有歌星的纯人声音频，再对纯人声音频进行预处理，然后分别提取每个纯人声音频的声音特征系数集；

歌星模型训练模块：用于根据每个歌星所对应的特征系数集，采用声音模型算法训练出对应歌星模型；

音色匹配模块：用于对给定的用户的声音样本，进行预处理，并提取特征系数集；然后将用户声音样本的特征系数集与所有歌星模型进行匹配，找出音色最相似的歌星。

进一步，所述歌星模型训练模块包括：将音频库中提取的所有声音特征系数集集中在一起训练出通用背景模型UBM；

接着根据每个歌星所对应的特征系数集，利用通用背景模型UBM自适应训练出音频库中所有歌星的模型。

进一步，所述音色匹配模块中，“将用户声音样本的特征系数与所有歌星模型进行匹配，找出音色最相似的歌星”的操作包括：计算用户声音样本的特征系数集与歌星模型以及与通用模型UBM的对数似然比，将对数似然比最大值所对应的歌星作为推荐歌星。

进一步，所述音频库处理模块和音色匹配模块中的预处理步骤均依次包括：分帧、加窗、去静音；

所述去静音，包括如下步骤：

计算每帧的短时能量，公式为：

E_{n} = Σ_{m = 0}^{N - 1} {[w (m) x (n + m)]}^{2}

对于UBM的第i个混合成员，计算分量i的后验概率：

P (i | x_{i}) = \frac{w_{i} p_{i} (x_{t})}{Σ_{j = 1}^{M} w_{j} p_{j} (x_{t})}

其中x表示特征系数，w表示权重系数；

然后计算权重、均值和方差：

\begin{matrix} n_{i} = Σ_{t = 1}^{T} p (i | x_{t}), E_{i} (x) = \frac{1}{n} Σ_{t = 1}^{T} P (i | x_{t}) x_{t} & E_{i} (x^{2}) = \frac{1}{n} Σ_{t = 1}^{T} p (i | x_{t}) x_{t}^{2} \end{matrix}

接着修正旧UBM中各个高斯分布的参数w_i,μ_i,

修正后的新权重：

{\overset{Λ}{w}}_{i} = [α_{i}^{w} n_{i} / T + (1 - α_{i}^{w}) w_{i}] γ;

修正后的新均值：

{\overset{Λ}{μ}}_{i} = α_{i}^{m} E_{i} (x) + (1 - α_{i}^{m}) μ_{i};

修正后的新方差：

{\overset{Λ}{δ}}_{i}^{2} = α_{i}^{v} E_{i} (x^{2}) + (1 - α_{i}^{v}) (δ_{i}^{2} + μ_{i}^{2}) - {\overset{Λ}{μ}}_{i}^{2};

式中，r^ρ为常数，用来约束修正因子的变化尺度。

S (X) = \frac{1}{T} Σ_{t = 1}^{T} \log p (x_{t} | λ_{star}) - \log p (x_{t} | λ_{ubm}),

本发明的优点在于：本发明提出一种演唱者音色相似的歌星推荐方法及装置，为演唱者找出与其音色相似的歌星作为参考，增加演唱的乐趣。应用于KTV场景中，能够吸引大量用户，刺激消费，并提高用户模仿歌星音色的水平。

【附图说明】

下面参照附图结合实施例对本发明作进一步的描述。

图1是本发明的方法音频库处理与歌星模型训练过程的流程图。

图2是本发明的方法中单个歌星模型训练流程图。

图3是本发明的方法音色匹配过程流程图。

图4是本发明的方法中音色匹配过程中计算似然比流程图。

图5是本发明的装置结构示意图。

【具体实施方式】

第一实施例：

一种演唱者音色相似的歌星推荐方法，包括如下步骤：

下面对该实施例进行详细描述。

一种演唱者音色相似的歌星推荐方法，包括如下步骤：

S1：音频库处理过程(如图1所示)：

S11：准备音频库，收集一定数量的歌星的若干歌曲，比如300个歌星，每个歌星5首歌曲所对应的立体声音频；

S12：对音频库中的所有歌曲去除伴奏得到纯人声频，其方法可参考专利名称为《一种立体声音频的处理方法与装置》，专利申请号为：201410263446.3的中国发明专利。该方法主要利用立体声左右声道之间伴奏与人声的差异性，对伴奏进行抑制滤波，从而提取人声。对歌曲去伴奏的目的是减少歌曲中的伴奏成分对于歌星音色模型训练的影响。

对音频库中的所有歌曲去除伴奏得到纯人声音频，具体包括：

将立体声音频的左右声道信号变换到频域；

计算左声道频域信号与右声道频域信号相应频点对的幅度比值，对幅度比值在预设范围内的频点列为待衰减的频点，且计算左声道频域信号与右声道频域信号相应频点对的相位差，将相位差差值在预设范围内的频点也列为待衰减的频点；所述幅度比值的计算公式为：

k_n(i)＝abs(fft_frameR_n(i))/abs(fft_frameL_n(i))*(2/π)，

公式中n＝0，1，2，…，N-1，表示帧号i＝0，1，2…，FN/2，FN表示傅里叶变换的点数，相位差的计算公式为：

p_n(i)＝angel(fft_frameL_n(i))-angel(fft_frameR_n(i))，

n＝0，1，2，…，N-1；i＝0，1，2，…，FN/2；

接着，筛选出待衰减的频点，也就是将幅度比值落在一定范围的频点，其中频点i符合

k_n(i)<α或k_n(i)>β，0<α<0.5,0.5<β<1，α取0.4，β取0.6，

或将相位差值落在一定范围的频点，其中i符合

p_n(i)<φ或这里φ取-0.1，取0.1，列为待衰减的频点；

对待衰减的频点，即伴奏成分进行衰减处理，公式为：

fft_frameR_n(i)＝0或fft_frameL_n(i)＝0，公式中，i为待衰减的频点；

将衰减后的频域信号逆变换为时域，即可得到去除伴奏后的歌曲音频。

在其他实施方式中，也可以通过其他方法得到纯人声音频，并不局限于上述算法。

在其他实施方式中，如果步骤S11中已搜集到所有歌星的纯人声音频，则略过步骤S12。

S13：对去除伴奏后的歌曲进行预处理，包括：分帧、加窗、去静音；

分帧，是指将音频信号分成若干帧，每帧包括预设数量的声音采样点，并且相邻帧之间有预设数量的重合采样点；

加窗，采用加汉宁窗滤波处理，还可以是其他的加窗方式。

去静音，包括：

计算每帧的短时能量，公式为：

E_{n} = Σ_{m = 0}^{N - 1} {[w (m) x (n + m)]}^{2}

当该帧的短时能量低于某一阈值时，就认为它是静音帧，直接去除。静音并不包含有效的声音特征，因此需要去除。

S14：对预处理后的音频提取声音特征系数。所述声音特征系数可以是MFCC、LPCC、LSP、PLP中的一种；MFCC是指Mel频率倒谱系数，LPCC是指线性预测倒谱系数，LSP是指线谱对系数，PLP是指感知线性预测系数，这些系数都能很好地表征声音的音色特征，可任选一种。本发明优选提取MFCC或LPCC声音特征系数。

S2：歌星模型训练过程，如图1～图2所示。

将提取的声音特征系数集中在一起训练出通用背景模型UBM，并根据每个歌星所对应的声音特征系数集，利用背景模型UBM自适应训练出音频库中所有歌星的模型。UBM模型其实是一个高混合度的高斯模型，其训练过程与GMM类似，采用EM迭代算法，这里不详述。

自适应训练出歌星的模型过程，如图2所示，采用贝叶斯自适应算法，具体如下：

对于UBM的第i个混合成员，计算分量i的后验概率：

P (i | x_{i}) = \frac{w_{i} p_{i} (x_{t})}{Σ_{j = 1}^{M} w_{j} p_{j} (x_{t})}

其中x表示特征系数，w表示权重系数；

然后计算权重、均值和方差：

\begin{matrix} n_{i} = Σ_{t = 1}^{T} p (i | x_{t}), E_{i} (x) = \frac{1}{n} Σ_{t = 1}^{T} P (i | x_{t}) x_{t} & E_{i} (x^{2}) = \frac{1}{n} Σ_{t = 1}^{T} p (i | x_{t}) x_{t}^{2} \end{matrix}

接着修正旧UBM中各个高斯分布的参数w_i,μ_i,

修正后的新权重：

{\overset{Λ}{w}}_{i} = [α_{i}^{w} n_{i} / T + (1 - α_{i}^{w}) w_{i}] γ;

修正后的新均值：

{\overset{Λ}{μ}}_{i} = α_{i}^{m} E_{i} (x) + (1 - α_{i}^{m}) μ_{i};

修正后的新方差：

{\overset{Λ}{δ}}_{i}^{2} = α_{i}^{v} E_{i} (x^{2}) + (1 - α_{i}^{v}) (δ_{i}^{2} + μ_{i}^{2}) - {\overset{Λ}{μ}}_{i}^{2};

式中，r^ρ为常数，用来约束修正因子的变化尺度，一般选16。

本步骤可训练出一个通用UBM模型以及所有歌星的音色模型。

S3：音色匹配过程(如图3～4所示)：

S31：用户声音样本处理：对于给定的用户，即演唱者的声音样本，同样进行预处理，并提取声音特征系数；

S32：接着计算提取的声音特征系数与歌星模型以及与通用模型UBM的对数似然比(如图4所示)，将对数似然比最大值所对应的歌星作为推荐歌星。

对数似然比的计算公式为：

S (X) = Σ_{t = 1}^{T} \log p (x_{t} | λ_{star}) - \log p (x_{t} | λ_{ubm}),

其中x表示特征系数，λ_star，λ_ubm表示歌星模型与UBM模型，p表示歌星模型或UBM模型输出特征矢量序列的似然度；

此处采用时间归一化的对数似然比，

S (X) = \frac{1}{T} Σ_{t = 1}^{T} \log p (x_{t} | λ_{star}) - \log p (x_{t} | λ_{ubm}) .

本步骤可找出与用户音色接近的歌星作为推荐，从而增加用户演唱的乐趣。

在其他实施方式中，也可以使用GMM、HMM等声音模型作为歌星模型训练以及音色匹配的方法。

第二实施例：

一种演唱者音色相似的歌星推荐装置，其包括：音频库处理模块、歌星模型训练模块和音色匹配模块，

下面具体描述该实施例。

一种演唱者音色相似的歌星推荐装置，如图5所示，包括：

音频库处理模块，用于对音频库中的所有歌曲去除伴奏得到纯人声音频，再对纯人声音频进行预处理，然后对预处理后的音频提取声音特征系数；

歌星模型训练模块，用于将提取的声音特征系数集中在一起训练出通用背景模型UBM，并根据每个歌星所对应的声音特征系数集，利用背景模型UBM自适应训练出音频库中所有歌星的模型；

音色匹配模块，用于对给定用户的声音样本进行预处理并提取声音特征系数；然后计算提取的声音特征系数与歌星模型以及与通用模型UBM的对数似然比，将对数似然比最大值所对应的歌星作为推荐歌星。

对音频库中的所有歌曲去除伴奏得到纯人声音频的方法，参考专利名称为《一种立体声音频的处理方法与装置》，专利申请号为：201410263446.3的中国发明专利。该方法主要利用立体声左右声道之间伴奏与人声的差异性，对伴奏进行抑制滤波，从而提取人声。

具体包括：

将立体声音频的左右声道信号变换到频域；

k_n(i)＝abs(fft_frameR_n(i))/abs(fft_frameL_n(i))*(2/π)，

p_n(i)＝angel(fft_frameL_n(i))-angel(fft_frameR_n(i))，

n＝0，1，2，…，N-1；i＝0，1，2，…，FN/2；

k_n(i)<α或k_n(i)>β，0<α<0.5,0.5<β<1，α取0.4，β取0.6，

或将相位差值落在一定范围的频点，其中i符合

p_n(i)<φ或这里φ取-0.1，取0.1，列为待衰减的频点；

对待衰减的频点，即伴奏成分进行衰减处理，公式为：

所述声音特征系数，为MFCC、LPCC、LSP、PLP中的一种。

所述音频库处理模块和音色匹配模块中的预处理，包括：分帧、加窗、去静音；

所述分帧，是指将音频信号分成若干帧，每帧包括预设数量的声音采样点，并且相邻帧之间有预设数量的重合采样点；

所述加窗，是指加汉宁窗滤波处理。

所述预处理步骤中的去静音操作，包括：

计算每帧的短时能量，公式为：

E_{n} = Σ_{m = 0}^{N - 1} {[w (m) x (n + m)]}^{2}

所述歌星模型训练模块中的自适应训练出歌星的模型过程，采用贝叶斯自适应算法，具体包括：

对于UBM的第i个混合成员，计算分量i的后验概率：

P (i | x_{i}) = \frac{w_{i} p_{i} (x_{t})}{Σ_{j = 1}^{M} w_{j} p_{j} (x_{t})}

其中x表示特征系数，w表示权重系数；

然后计算权重、均值和方差：

\begin{matrix} n_{i} = Σ_{t = 1}^{T} p (i | x_{t}), E_{i} (x) = \frac{1}{n} Σ_{t = 1}^{T} P (i | x_{t}) x_{t} & E_{i} (x^{2}) = \frac{1}{n} Σ_{t = 1}^{T} p (i | x_{t}) x_{t}^{2} \end{matrix}

接着修正旧UBM中各个高斯分布的参数w_i,μ_i,

修正后的新权重：

{\overset{Λ}{w}}_{i} = [α_{i}^{w} n_{i} / T + (1 - α_{i}^{w}) w_{i}] γ;

修正后的新均值：

{\overset{Λ}{μ}}_{i} = α_{i}^{m} E_{i} (x) + (1 - α_{i}^{m}) μ_{i};

修正后的新方差：

{\overset{Λ}{δ}}_{i}^{2} = α_{i}^{v} E_{i} (x^{2}) + (1 - α_{i}^{v}) (δ_{i}^{2} + μ_{i}^{2}) - {\overset{Λ}{μ}}_{i}^{2};

式中，r^ρ为常数，用来约束修正因子的变化尺度。

所述音色匹配模块中的对数似然比的计算公式为：

S (X) = Σ_{t = 1}^{T} \log p (x_{t} | λ_{star}) - \log p (x_{t} | λ_{ubm}),

此处采用时间归一化的对数似然比，

S (X) = \frac{1}{T} Σ_{t = 1}^{T} \log p (x_{t} | λ_{star}) - \log p (x_{t} | λ_{ubm}) .

本发明提出一种演唱者音色相似的歌星推荐方法及其装置，为演唱者找出与其音色相似的歌星作为参考，可以增加演唱的乐趣。应用于KTV场景中，能够吸引大量用户，刺激消费，并提高用户模仿歌星音色的水平。

以上所述仅为本发明的较佳实施用例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内，所作的任何修改、等同替换以及改进等，均应包含在本发明的保护范围之内。

Claims

1.一种演唱者音色相似的歌星推荐方法，其特征在于：包括如下步骤：

2.如权利要求1所述的一种演唱者音色相似的歌星推荐方法，其特征在于：所述歌星的纯人声音频获得方式包括：通过歌曲去伴奏方式获得。

3.如权利要求1所述的一种演唱者音色相似的歌星推荐方法，其特征在于：所述歌星模型训练步骤包括：首先将音频库中提取的所有声音特征系数集集中在一起训练出通用背景模型UBM；接着根据每个歌星所对应的特征系数集，利用通用背景模型UBM自适应训练出音频库中所有歌星的模型。

4.如权利要求1所述的一种演唱者音色相似的歌星推荐方法，其特征在于：所述音色匹配步骤中，“将用户声音样本的特征系数与所有歌星模型进行匹配，找出音色最相似的歌星”的操作包括：计算用户声音样本的特征系数集与歌星模型以及与通用模型UBM的对数似然比，将对数似然比最大值所对应的歌星作为推荐歌星。

5.如权利要求1所述的一种演唱者音色相似的歌星推荐方法，其特征在于：所述声音特征系数，为MFCC、LPCC、LSP、PLP中的一种。

6.如权利要求1所述的一种演唱者音色相似的歌星推荐方法，其特征在于：所述音频库处理步骤和音色匹配步骤中的预处理步骤均依次包括：分帧、加窗、去静音；

所述去静音，包括如下步骤：

计算每帧的短时能量，公式为：

E_{n} = Σ_{m = 0}^{N - 1} {[w (m) x (n + m)]}^{2}

7.如权利要求3所述的一种演唱者音色相似的歌星推荐方法，其特征在于：所述自适应训练出音频库中所有歌星的模型，采用贝叶斯自适应算法，具体包括：

对于UBM的第i个混合成员，计算分量i的后验概率：

P (i | x_{i}) = \frac{w_{i} p_{i} (x_{t})}{Σ_{j = 1}^{M} w_{j} p_{j} (x_{t})}

其中x表示特征系数，w表示权重系数；

然后计算权重、均值和方差：

\begin{matrix} n_{i} = Σ_{t = 1}^{T} p (i | x_{t}), E_{i} (x) = \frac{1}{n} Σ_{t = 1}^{T} P (i | x_{t}) x_{t} & E_{i} (x^{2}) = \frac{1}{n} Σ_{t = 1}^{T} p (i | x_{t}) x_{t}^{2} \end{matrix}

接着修正旧UBM中各个高斯分布的参数w_i,μ_i,

修正后的新权重：

{\overset{Λ}{w}}_{i} = [α_{i}^{w} n_{i} / T + (1 - α_{i}^{w}) w_{i}] γ;

修正后的新均值：

{\overset{Λ}{μ}}_{i} = α_{i}^{m} E_{i} (x) + (1 - α_{i}^{m}) μ_{i};

修正后的新方差：

{\overset{Λ}{δ}}_{i}^{2} = α_{i}^{v} E_{i} (x^{2}) + (1 - α_{i}^{v}) (δ_{i}^{2} + μ_{i}^{2}) - {\overset{Λ}{μ}}_{i}^{2};

式中，r^ρ为常数，用来约束修正因子的变化尺度。

8.如权利要求4所述的一种演唱者音色相似的歌星推荐方法，其特征在于：所述对数似然比的计算公式为：

S (X) = \frac{1}{T} Σ_{t = 1}^{T} \log p (x_{t} | λ_{star}) - \log p (x_{t} | λ_{ubm}),

9.一种演唱者音色相似的歌星推荐装置，其特征在于：包括：音频库处理模块、歌星模型训练模块和音色匹配模块，

10.如权利要求9所述的一种演唱者音色相似的歌星推荐装置，其特征在于：所述歌星的纯人声音频获得方式包括：通过歌曲去伴奏方式获得。

11.如权利要求9所述的一种演唱者音色相似的歌星推荐装置，其特征在于：所述歌星模型训练模块包括：将音频库中提取的所有声音特征系数集集中在一起训练出通用背景模型UBM；

12.如权利要求9所述的一种演唱者音色相似的歌星推荐装置，其特征在于：所述音色匹配模块中，“将用户声音样本的特征系数与所有歌星模型进行匹配，找出音色最相似的歌星”的操作包括：计算用户声音样本的特征系数集与歌星模型以及与通用模型UBM的对数似然比，将对数似然比最大值所对应的歌星作为推荐歌星。

13.如权利要求9所述的一种演唱者音色相似的歌星推荐方法，其特征在于：所述音频库处理模块和音色匹配模块中的预处理步骤均依次包括：分帧、加窗、去静音；

所述去静音，包括如下步骤：

计算每帧的短时能量，公式为：

E_{n} = Σ_{m = 0}^{N - 1} {[w (m) x (n + m)]}^{2}

14.如权利要求11所述的一种演唱者音色相似的歌星推荐装置，其特征在于：所述自适应训练出音频库中所有歌星的模型，采用贝叶斯自适应算法，具体包括：

对于UBM的第i个混合成员，计算分量i的后验概率：

P (i | x_{i}) = \frac{w_{i} p_{i} (x_{t})}{Σ_{j = 1}^{M} w_{j} p_{j} (x_{t})}

其中x表示特征系数，w表示权重系数；

然后计算权重、均值和方差：

\begin{matrix} n_{i} = Σ_{t = 1}^{T} p (i | x_{t}), E_{i} (x) = \frac{1}{n} Σ_{t = 1}^{T} P (i | x_{t}) x_{t} & E_{i} (x^{2}) = \frac{1}{n} Σ_{t = 1}^{T} p (i | x_{t}) x_{t}^{2} \end{matrix}

接着修正旧UBM中各个高斯分布的参数w_i,μ_i,

修正后的新权重：

{\overset{Λ}{w}}_{i} = [α_{i}^{w} n_{i} / T + (1 - α_{i}^{w}) w_{i}] γ;

修正后的新均值：

{\overset{Λ}{μ}}_{i} = α_{i}^{m} E_{i} (x) + (1 - α_{i}^{m}) μ_{i};

修正后的新方差：

{\overset{Λ}{δ}}_{i}^{2} = α_{i}^{v} E_{i} (x^{2}) + (1 - α_{i}^{v}) (δ_{i}^{2} + μ_{i}^{2}) - {\overset{Λ}{μ}}_{i}^{2};

式中，r^ρ为常数，用来约束修正因子的变化尺度。

15.如权利要求12所述的一种演唱者音色相似的歌星推荐装置，其特征在于：所述对数似然比的计算公式为：

S (X) = \frac{1}{T} Σ_{t = 1}^{T} \log p (x_{t} | λ_{star}) - \log p (x_{t} | λ_{ubm}),