CN101894552A

CN101894552A - 基于语谱切分的唱歌评测***

Info

Publication number: CN101894552A
Application number: CN2010102329180A
Authority: CN
Inventors: 魏思; 蒋成林; 胡国平; 刘丹; 胡郁; 刘庆峰
Original assignee: iFlytek Co Ltd
Current assignee: iFlytek Co Ltd
Priority date: 2010-07-16
Filing date: 2010-07-16
Publication date: 2010-11-24
Anticipated expiration: 2030-07-16
Also published as: CN101894552B

Abstract

本发明涉及一种基于语谱切分的唱歌评测***，本唱歌评测***首先进行语谱模型训练和歌曲资源库的制作，然后根据每份待评测的唱歌数据和对应的唱词内容，使用语谱模型解码的方式确定每个唱词的边界；再根据所得的语谱切分结果计算每份待评测数据的音高以及节奏得分，并给出总分。本发明通过制作覆盖全面的清唱数据库训练出与待评测的数据风格完全匹配的语谱模型，以准确定位出数据中每个唱词的位置，进而确定每个音调的位置，大大的改善了标准基频和测试基频在时间对齐上的准确性，最终改善了唱歌评测***的评测性能。

Description

基于语谱切分的唱歌评测***

技术领域

本发明涉及唱歌领域的语音信号处理***，具体涉及一种基于语谱切分的唱歌评测***。

背景技术

目前在自动唱歌评测***主要有以下几种由简单到复杂的技术方案：

1)、仅考察用户的发音时间和音量：通过比较测试数据帧能量和原唱数据帧能量，将比较得到的一致性程度量化成评分分数，如专利号为9610613.4的发明专利“卡拉OK计分的方法和***”所记载的评测方法。

这种做法只是通过考察用户的音量高低和原唱的音量高低来判断唱歌好坏，而不是分析用户唱歌时的音高、节奏等反映唱歌水平的信息，评分准则与人工评分的考量因素不一致。

2)、仅考察用户唱歌时的音高偏差程度：也即主要考察用户唱歌数据的基频曲线和标准的基频曲线之间的差异程度，这种评测方法通过比较标准基频曲线和唱歌数据基频曲线之间的误差面积，来评价唱歌数据的好坏；误差面积值越大，用户唱歌数据得分越低，反之，则用户唱歌数据得分越高。

实际评测时，通过误差面积来评价唱歌数据的好坏存在相当的问题，比如当音高走势相同时，如果用户唱歌的节奏比标准的节奏超前或者滞后，则自动评分***给出的分数就会很低，也即即便用户的音高与标准的音高走势完全一致，由于用户的音高与标准的音高在时间上的不一致性，用户所得的评分也会较低；如图2所示，上框10为伴奏数据，下框20为待评测的唱歌数据(也即用户的唱歌数据)，斜线30表示上框10中的标准曲谱时间上的位置和下框20中的待评测的唱歌数据在时间上的对应关系，由图2明显可得，用户唱歌的节奏显然比标准的节奏滞后，此时即便用户的音高与标准的音高走势完全一致，用户的评分也会很低。

自动评分***只有有效判断出用户的音高与标准的音高在时间上的不一致性，并进行有效处理，才能得到比较合理的打分结果。

3)、同时考察音高和节奏上的偏差：针对2)中存在的仅考察音高评分导致的不合理性，有人提出基频的动态时间规整(DTW：Dynamic Time Warping)算法，以此来改善测试基频和标准基频之间时间上的对应关系。

动态时间规划算法的基本思想是将时间的规整和距离测度规整结合在一起的一种非线性规整技术，通过在允许的时间规整范围内寻找距离测度最小的时间上的规整方式，进而确定输入信号和模板在时间上的对应关系，在一定程度上克服了标准基频和测试基频在时间上不严格对齐时带来的干扰。然而由于这种算法忽略了唱歌数据中的歌词信息而仅仅考虑了基频的相似程度，没有充分利用唱歌数据的信息，使得标准基频和测试基频对齐的准确程度不高，从而导致了评分效果不尽理想。

发明内容

本发明的目的是提供一种基于语谱切分的唱歌评测***，其提高了标准基频和测试基频在时间对齐上的准确性，改善了唱歌评测***的评测性能。

为实现上述目的，本发明采用了以下技术方案：一种基于语谱切分的唱歌评测***，包括如下步骤：

步骤1、进行语谱模型训练和歌曲资源库的制作，包括如下过程：

a)、语谱模型训练：

(1)首先选择要录音的歌曲，在伴奏的提示下录制纯人声的唱歌数据，并对每份唱歌数据人工标注出唱词内容；

(2)然后使用录音语料和标注结果训练唱歌数据的语谱模型；

b)、歌曲资源库的制作

使用乐谱、歌词文本标注原唱歌曲中每个唱词以及每个音调的音高信息；

步骤2、对演唱进行评测：

c)、根据每份待评测的唱歌数据和对应的唱词内容，使用语谱模型解码的方式确定每个唱词的边界；

d)、根据步骤c)中的语谱切分结果计算每份待评测数据的音高以及节奏得分，并给出总分。

基于以上的技术方案，本发明具有以下优点：

本发明通过制作覆盖全面的清唱数据库训练出与待评测的数据风格完全匹配的语谱模型，引入频谱特征，通过频谱解码的方式，准确定位出数据中每个唱词的位置，进而确定每个音调的位置，最终改善唱歌评测***的评测性能。

本发明中提出的基于语谱的唱词边界定位方式，大大的改善了标准基频和测试基频在时间对齐上的准确性，经测试，使用语谱模型确定唱词边界和仅仅使用基频相比较，自动评分***的对齐错误率相对下降达到60％以上。

附图说明

图1是本发明的流程框图；

图2是按照拼音序列所搭建的解码网络示意图；

图3是使用语谱模型确定每个唱词边界的示意图。

具体实施方式

下面结合图1～3对本发明的实现过程做具体说明：

a)、语谱模型训练

步骤101：选取现有的具有代表性的流行歌曲和民族歌曲作为录音歌曲，歌曲的原唱在年龄、性别上分布均衡，以有利于制作出覆盖全面的数据库。

步骤102：选择比例均衡的男女录音人，要求录音人对要录的歌曲要比较熟练，年龄分布上以青少年和中年为主。

所述的以青少年和中年为主有多种实现方案，比如青少年和中年的录音人占所有录音人的比例为60～80％。

步骤103：录音采用佩带耳麦录音的方式，要求录音人跟着伴奏以及唱词显示的节奏进行演唱，以录制纯人声的唱歌数据。录音数据格式为16K采样16bit量化的Windows PCM格式。

步骤201：提取步骤103所得的唱歌数据的语谱参数

所述的语谱参数有多个，比如为MFCC或PLP或LPC，本发明中以MFCC为例进行说明。

采用现有技术中MFCC特征的提取方法，对每份唱歌数据提取MFCC特征，高频预加重系数为0.97，使用Hamming窗。特征提取时帧长取25ms，帧移10ms，FilterBank系数24，DCT变换倒谱阶数为12，倒谱提升系数(CEPLIFTER)为22，然后计算一阶、二阶差分，得到39维MFCC参数。

步骤301：根据录音所得的纯人声的唱歌数据，人工标注出真实的拼音序列，标注单位为汉语拼音的音节。对于唱歌数据的开始、结尾以及有声段之间的静寂段用silence标记。

步骤401：首先定义语谱模型的拓扑结构，本发明根据汉语中声母时长较短、韵母时长较长的特点，定义21个声母和27个韵母的模型结构分别为3状态、5状态自左向右、上下文无关模型。对于唱歌数据中的静寂段，使用3状态的sil模型进行拟合；

然后使用步骤201和301得到的语谱特征和训练文本，采用现有技术中的嵌入式训练(Embedded Training)的方法，训练语谱的隐马尔可夫模型，每个模型的高斯数为1～16。

b)、歌曲资源库准备

步骤501)：歌词文本、乐谱、原唱和伴奏数据准备。

原唱和伴奏数据区别在于：原唱用于标注，包含人的歌声和伴奏；而伴奏通常在***中作为提示使用，可以没有人声。

步骤502)：使用转换工具将歌词文本中的中文唱词转换成拼音序列，对于非中文的唱词不予转换；

步骤503)：对照歌曲的原唱，标出拼音序列的每个音调的开始和结束位置；

步骤504)：按照歌曲的乐谱，标注每个音调的音高，对于一个音调内包含若干音高的，需要进一步标注出每个音高的边界，然后将音高序列转换成MIDI音符序列。

在线测试

步骤601：用户在评测***提供的伴奏和显示的歌词的提示下演唱，录音并得到待评测的唱歌数据；

步骤602：按照步骤201对待评测的唱歌数据提取MFCC特征，使用自相关方法提取基频参数，并且根据唱词搭建解码网络。

对于一首测试数据，预先会根据原唱歌曲的停顿将原始歌曲划分成若干片段，将每个片段内所有的歌词连接起来(对于包含英文等非中文唱词的片段，不使用这种方法，而是使用时间上严格对齐的方式得到测试数据中每个唱词的边界)，并且在开始、结尾以及每个唱词之间分别加入一个可选的silence路径，用于吸收唱歌时可能的停顿，例如：对于唱词“就是爱”，其拼音为“jiu”、“shi”、“ai”，按照拼音序列所搭建的解码网络即如图3所示，图3中“jiu”与“shi”以及“shi”与“ai”之间的“sil”也就是前述的silence路径，而圈绕在“sil”上的带有箭头的圆弧在这个位置可以没有silence。

步骤603：使用语谱模型确定每个唱词的边界。

对于步骤602得到的解码网络，使用步骤401得到的语谱模型和步骤601提取的MFCC特征，通过现有技术中的强制对齐(Force Alignment)对数据中每个唱词进行唱词边界切分，得到每个唱词的边界。通过网络中可选的silence路径可以自动判断出数据中是否存在静寂段以及静寂段的位置。

如图1所示，本发明采用维特比(Viterbi)解码技术，维特比算法提供了一种有效的计算方法来分析隐马尔科夫模型的观察序列，并捕获最可能的隐藏状态序列。它利用递归减少计算量，并使用整个序列的上下文来做判断，从而对包含“噪音”的序列也能进行良好的分析。

图2所示即为基于语谱唱词边界切分得到的结果，图2中的上框10为伴奏数据，下框20为待评测的唱歌数据，斜线30表示上框10中的标准曲谱时间上的位置和下框20中的待评测的唱歌数据在时间上的对应关系。在时长上，斜线30上端的竖线11表示每个唱词的开始或结束位置，斜线30下端的竖线21表示待评测的唱歌数据中对应的开始或结束位置；在基频对应关系上，对于相邻的两条斜线30，上端两条竖线11之间的横线12表示标准模板规定的音高，下端两条竖线21之间的横向曲线22表示待评测的唱歌数据中对应的音高。

对于一个唱词对应多个音调的情况，则需要在唱词边界内部使用基频和模板，按照动态时间规整算法以确定出每个音调的音高位置。

如果在某一段或某一句中存在非中文唱词，对于这段数据不采用解码的方式获取边界，而是以标准MIDI中每个音调的边界作为这段数据中每个音调的对应边界。

步骤701：每首歌都有一个规定的调号，而用户唱歌时的起调未必与规定的调号一致，为了消除用户起调和标准音高中规定的调号(Note_std)之间的差异，需要统计测试数据的基频(基频为0的部分不参与统计和规整)均值(Pitch_test)，然后对于前述的基频加上标准调号和基频均值之间的均值(Note_std-Pitch_test)，使得唱歌数据的起调和标准的调号一致。

步骤702：计算音高得分和节奏得分。

计算方式如下：

音高得分：

ToneScore = \frac{1}{N} Σ_{i = 1}^{N} {ToneScore}_{i}

{ToneScore}_{i} = \{\begin{matrix} \frac{1}{b_{i} - e_{i}} Σ_{j = b_{i}}^{e_{i}} \min (ZEROCOST, | {pitch}_{j} - {MIDI}_{i} |), e_{i} > b_{i} \\ ZEROCOST, e_{i} = b_{i} \end{matrix}

节奏得分：

RhythmScore = \frac{1}{N} Σ_{i = 1}^{N} Rhythm {Score}_{i}

{RhythmScore}_{i} = \frac{\max (0, \min ({ME}_{i}, {HE}_{i}) - \max ({HB}_{i}, {MB}_{i}))}{\sqrt{({HE}_{i} - {HB}_{i}) \times ({ME}_{i} - {MB}_{i})}}

其中，HB_i，HE_i分别表示第i个唱词标准的开始和结束位置，MB_i，ME_i分别表示测试数据中第i个唱词语谱切分得到的开始和结束位置。

步骤703：对于步骤702中得到的每一份数据的音高得分和节奏得分，按照线性加权的方式得到总分，即

Scrore＝a·ToneScore+b·RhythmScore+c

其中a、b表示音高得分、节奏得分在总分中的权重，c为映射模型中的常数项，三个参数a、b、c可以通过专家手工确定或者在有人工专家评分的数据集合上通过线性回归算法自动获得。

Claims

1.一种基于语谱切分的唱歌评测***，包括如下步骤：

a)、语谱模型训练：

(2)然后使用录音语料和标注结果训练唱歌数据的语谱模型；

b)、歌曲资源库的制作

步骤2、对演唱进行评测：

2.根据权利要求1所述的基于语谱切分的唱歌评测***，其特征在于步骤1中的语谱模型训练包括如下步骤：

a01)选择录音歌曲以及选择录音人员；

a02)所选择的录音人员在伴奏的提示下演唱设计录音歌曲，并录制纯人声的唱歌数据；

a03)提取所录制的唱歌数据的语谱参数；并根据唱歌数据的真实发音，标注唱歌数据对应的真实文本；

a04)根据得到的语谱模型参数和标注的文本，训练语谱的隐马尔科夫模型。

3.根据权利要求1所述的基于语谱切分的唱歌评测***，其特征在于步骤1中的歌曲资源库的制作包括如下步骤：

b01)选择歌曲，并对所选择的歌曲准备歌词文本以及乐谱；

b02)对歌词文本中的中文唱词制作出相应的拼音；对于歌词文本中的非中文唱词部分，以标准MIDI音符中每个音调的边界作为非中文唱词中每个音调的对应边界；

b03)根据歌曲的原唱，标注出此歌曲数据的中文唱词的每个音调的起止时间；

b04)根据歌曲的乐谱，标注出中文唱词的每个音调的音高值，并将其转换成MIDI音符。

4.根据权利要求1所述的基于语谱切分的唱歌评测***，其特征在于步骤2中的c)步骤包括如下过程：

c01)用户在伴奏和歌词的提示下进行录音，得到待评测的唱歌数据；

c02)提取待评测的唱歌数据的语谱参数MFCC特征，提取待评测的唱歌数据的基频参数，并搭建解码网络；

c03)根据上述的解码网络和步骤1)中得到的语谱模型，对待评测的唱歌数据解码，确定待评测的唱歌数据中的每个音调的边界；

步骤2中的d)步骤包括如下过程：

d01)提取待评测的唱歌数据的基频信息：

对于值不为0的待评测的唱歌数据基频根据如下公式计算：

y＝12·log₂(x/440)+69

其中x为唱歌时人的声带的每秒钟振动的频率，单位为Hz；y为音高值，单位为半音；

将上述值不为0的待评测的唱歌数据基频(F0)转换成MIDI音符，然后去除调整基频均值，去除起调的影响；

d02)根据步骤c03)得到的准确的唱词切分信息和步骤d01)得到的基频信息，计算每份待评测的唱歌数据的音高得分和节奏得分；

d03)基于所得到的音高得分和节奏得分计算待评测的唱歌数据的总分。

5.根据权利要求2所述的基于语谱切分的唱歌评测***，其特征在于步骤a01)包括如下过程：

a011)选取具有代表性的流行歌曲和民族歌曲作为录音歌曲，并使录音歌曲的原唱在年龄以及性别上分布均衡；

a012)选择对录音歌曲演唱较为熟练且性别比例均衡的录音人员，录音人员的年龄分布以青少年和中年为主体。

6.根据权利要求2所述的基于语谱切分的唱歌评测***，其特征在于步骤a03)包括如下过程：根据录制得到的纯人声的唱歌数据，人工标注出真实的拼音序列，标注单位为汉语拼音的音节，对于唱歌数据开始、结尾以及有声段之间的静寂段用“silence”标记出来。

7.根据权利要求2或6所述的基于语谱切分的唱歌评测***，其特征在于步骤a04)包括如下过程：根据汉语中声母时长较短、韵母时长较长的特点，定义声母和韵母的模型结构分别为3状态、5状态自左向右、上下文无关模型，对于唱歌数据开始、结尾以及有声段之间的静寂段，使用3状态的sil模型进行拟合；然后根据得到的语谱参数和标注的文本，采用嵌入式训练(Embedded Training)方法，训练语谱的隐马尔可夫模型，每个模型的高斯数为1～16。

8.根据权利要求4所述的基于语谱切分的唱歌评测***，其特征在于步骤d01)包括如下过程：首先统计待评测的唱歌数据的基频均值，然后对于待评测的唱歌数据中的基频不为0的数据都加上标准音高的均值和基频均值之间的差值，使得待评测的唱歌数据的起调和标准音高一致，所述的标准音高是指原唱歌曲中的音高序列。

9.根据权利要求4或8所述的基于语谱切分的唱歌评测***，其特征在于步骤d02)中的待评测的唱歌数据的音高得分和节奏按照下列公式计算：

音高得分：

ToneScore = \frac{1}{N} Σ_{i = 1}^{N} {ToneScore}_{i}

{ToneScore}_{i} = \{\begin{matrix} \frac{1}{b_{i} - e_{i}} Σ_{j = b_{i}}^{e_{i}} \min (ZEROCOST, | {pitch}_{j} - {MIDI}_{i} |), e_{i} > b_{i} \\ ZEROCOST, e_{i} = b_{i} \end{matrix}

其中ZEROCOST表示***设定的对于用户没有唱歌时的惩罚，N表示音调的总数，b_i，e_i分别表示第i个唱词的开始和结束帧数，MIDI_i表示第i个音调的标准音高，Pitch_j表示测试数据中第j帧数据的基频值；

节奏得分：

RhythmScore = \frac{1}{N} Σ_{i = 1}^{N} Rhythm {Score}_{i}

{RhythmScore}_{i} = \frac{\max (0, \min ({ME}_{i}, {HE}_{i}) - \max ({HB}_{i}, {MB}_{i}))}{\sqrt{({HE}_{i} - {HB}_{i}) \times ({ME}_{i} - {MB}_{i})}}

10.根据权利要求9所述的基于语谱切分的唱歌评测***，其特征在于步骤d03)中的待评测的唱歌数据的总分按照下列公式计算：

Score＝a·ToneScore+b·RhythmScore+c

其中a、b表示音高得分、节奏得分在总分中的权重，c为映射模型中的常数项，a、b及c的取值在已有人工评分的唱歌数据集合上通过线性回归获得，或者通过人工设置的方式确定。