CN110660383A

CN110660383A - 一种基于歌词歌声对齐的唱歌评分方法

Info

Publication number: CN110660383A
Application number: CN201910890520.7A
Authority: CN
Inventors: 林伟伟; 胡康立
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2019-09-20
Filing date: 2019-09-20
Publication date: 2020-01-07

Abstract

本发明公开的一种基于歌词歌声对齐的唱歌评分方法，包含以下顺序的步骤：歌曲录制；歌声伴奏分离、噪声去除；提取基音频率以及振幅；以句子为单位，歌词与歌声对齐；分割对齐后的歌声中每个字的基音频率；计算基音频率相似性得分；根据用户歌声以及标准歌声的每一句时长以及每个字的起始结束时间计算节奏得分；归一化用户歌声和标准歌声的振幅；计算振幅相似性得分；对基音频率得分、节奏得分、振幅得分乘以权值系数并相加，计算歌曲的综合得分。本发明的唱歌评分方法，减少了伴奏以及噪声对歌声评价的影响；合理利用歌词的标签信息，使得评价用户的基音频率以及节奏更为准确；多方面评价用户歌曲，让歌曲评分结果更加客观全面。

Description

一种基于歌词歌声对齐的唱歌评分方法

技术领域

本发明涉及语音信号处理技术领域，特别涉及一种基于歌词歌声对齐的唱歌评分方法。

背景技术

随着互联网以及科技的发展，现代人线下线上唱歌娱乐需求越来越大，而且用户对于唱歌能力排名也越来越看重，因此提出一种精确、全面的唱歌评分方法是十分有必要的。目前工业界中唱歌评分方法有直接将当前一句待评分的录制音频进行平移n个偏移时长，以搜索出一个可以将录制音频与标准音频在时间上有较好的对应关系，进而提高歌曲的演唱得分。但是这种方法每次需要搜索n次才能比较出一个最佳的得分，而且精确度不够高。因此有研究者提出了一种基于动态时间规整的唱歌评分方法，该方法采集了待评分音频数据以及基准音频数据，并生成对应的基音频率向量；然后利用动态时间规整计算路径距离，确定待评分音频数据的音准得分，利用对齐度确定待评分音频数据的节奏得分，最后根据音准得分及节奏得分确定所述待评分音频数据的评分。但是该方法动态时间规整出来的路径可能会扭曲带评分以及基准基音频率轨迹的对应关系，而且该方法只是考虑了音频以及节奏两个方面，从唱歌技巧上来评价用户歌曲，没有考虑情感方面。而学术界上唱歌评分方法比工业界的要先进一些，但是同时也较为复杂。早期的唱歌评分方法主要是为特征匹配的方法，其主要思想是提取一些歌曲的声乐特征，利用动态时间规整(DynamicTimeWarping，DTW)来计算这些用户歌曲的声乐特征以及标准歌曲的声乐特征的相似性距离。如吴国章提取了基音频率、梅尔倒频谱系数(MFCC)以及声音强度三个特征，利用了DTW算法计算这些特征的相似性，进而得出歌曲评分；ChangHung Lin等人则是基于DTW算法从RMS能量、音调、谱中心、频谱平坦度以及拓展频谱这些特征来评价歌曲。但是这些方法没有很好考虑歌曲节奏以及情感方面，因此WeiHo Tsai等在前人的基础上进行了改进，利用DTW算法计算一些声乐特征的相似性的同时，还建立了一个隐马尔可夫模型(HMM)来判断待评分歌曲是节奏是否正确。但是该节奏评价方法需要对每一首歌曲建立一个独立对应的HMM来识别节奏是否正确，训练成本高，在实际应用上具有很大的局限性；PeiPei Chen等提取了歌曲中5个与歌手唱歌热情相关的特征，利用大量数据训练了一个支撑向量回归模型，用于预测歌手唱歌热情；Florian Eyben等则是利用歌声中205个特征，在Arousal-Valence空间中划分情感标志词，然后训练一个支撑向量机在该空间中对歌曲中情感进行分析。NingZhang等利用大量含情感标签的歌曲数据，构建了一个双密集连接卷积神经网络二分类模型，实现了端到端地评价用户歌曲的好坏。虽然学术界对于唱歌评分技术有较为深入的研究，但是这些方法都需要大量的数据以及训练时间，而且尽管有了对歌曲情感分析有一定研究，但是其识别准确率较低、识别的情感类别较为单一，在实际应用上难以实现。

唱歌评分技术在最近十几年来虽然有一定的发展，但是学术界的方法大都比较复杂，具有一定的局限性，难以直接运用到实际生活当中；因此在工业界上依然使用着较为简单的评分方法，导致对歌曲的评分能力不足。

发明内容

本发明的目的在于克服现有技术的缺点与不足，提供一种基于歌词歌声对齐的唱歌评分方法。本发明通过利用歌词标签信息以及自动声音识别技术对齐分离伴奏及噪声的用户歌曲音频，并使用对齐后用户音频与标准音频进行对比，计算用户音频节奏得分、基音频率得分以及振幅得分，最后根据这三种得分确定最终的综合得分，从而减弱了伴奏以及噪声对歌声评价的影响，更加精确地评价用户歌曲。

本发明的目的通过以下的技术方案实现：

一种基于歌词歌声对齐的唱歌评分方法，包含以下顺序的步骤：

S1.录制歌曲；

S2.歌声伴奏分离、噪声去除；

S3.提取基音频率以及振幅；

S4.以句子为单位，歌词与歌声对齐；

S501.分割对齐后的歌声中每个字的基音频率；

S502.计算基音频率相似性得分ScoreP；

S6.根据用户歌声以及标准歌声的每一句时长以及每个字的起始结束时间计算节奏得分ScoreR；

S701.归一化用户歌声和标准歌声的振幅；

S702.计算振幅相似性得分ScoreV；

S8.对基音频率得分、节奏得分、振幅得分乘以权值系数并相加，计算歌曲的综合得分Score。

所述的录制的歌曲是指在日常环境或者卡拉OK环境等非专业录制环境下录制的歌曲音频。

所述的步骤S2的先后顺序为：利用音源分离算法分离歌声与伴奏、对分离出来的歌声进行噪声去除处理。

所述的歌词歌声对齐是指以每一句歌词作为划分单位，利用自动语音识别技术将每一句歌词与对应的歌声音频对齐，并划分为歌声集合A＝{A₁，A₂，...,A_n},其中A_i表示第i句对齐歌词的歌声。

所述的步骤S501和S502中，包括：

对于第i句歌声A_i，识别每一个字发音区域，记录其在该句歌声中的起始以及结束时间，划分为基音频率集合P_i＝{P_i1,P_i2,...,P_im},P_ij则表示为第i句歌词的第j个字。

计算第i句歌声A_i的基音频率的相似度时，需要与标准歌声的基音频率进行对比匹配，记用户歌声基音频率集合为Pc_i＝{Pc_i1,Pc_i2,...,Pc_im},标准歌声基音频率集合为Ps_i＝{Ps_i1,Ps_i2,...,Ps_im}，在对比Pc_ij和Ps_ij需要将两者起始时间统一在相同的起点，然后再利用特征相似性度量算法计算相似性。

所述歌曲节奏评价过程，分为整体节奏评价以及局部节奏评价，包括：整体节奏评价是以每一句对齐后的歌声为评价单位，该评价方法是对比用户歌声时长Tc_i和标准歌声时长Ts_i的差异；局部节奏评价则是以每一句对齐后的歌声中的每一个字为评价单位，该评价方法是对比用户歌声基音频率Pc_ij和标准歌声基音频率Ps_ij起始、结束时间的差异。

所述的计算振幅相似性得分过程，评价方面包括：比较歌声A_i用户振幅Vc_i和标准振幅Vs_i平均振幅

和的差异、利用特征相似性度量算法计算振幅相似性，并综合两个方面得出振幅得分。

所述的整体节奏得分和振幅相似性得分是以每一句歌声A_i为评价单位，整首歌的整体节奏得分和振幅得分是对应每一句歌声特征评分总和：

其中f_i是歌声A_i的某个特征feature的评价得分。

所述的基音频率得分以及局部节奏得分是以每一句歌声中每一个字A_ij为评价单位，整首歌的基音频率得分以及局部节奏得分是歌声中的字A_ij的对应特征评价得分总和：

其中f_ij是歌声中的字A_ij的某个特征feature的评价得分。

所述的步骤S8的过程中，权值系数λ_i可以人为给定一个合适的值，而且权值系数λ_i的和为1；也可以建立回归模型来拟合这些权值系数λ_i，使其符合人类听觉感知。其综合分数计算公式为：Socre＝λ₁*ScoreR+λ₂*ScoreP+λ₃*ScoreV。

所述的特征相似性度量算法过程包括：用户歌声特征以及标准歌声特征转化为特征向量F_c和F_s、比较户歌声特征向量F_c以及标准歌声特征向量F_s的长度、给长度较短的特征向量补零至两特征向量长度一致，得补零后长度一致的特征向量F_c'和F_s'、利用欧式距离来度量两特征向量之间的相似度，计算公式：

F_euclidean为特征向量的欧式距离，F_euclidean越小相似度越大，反之亦然。

本发明与现有技术相比，具有如下优点和有益效果：

(1)本发明可对非专业环境录制的歌曲给予一个客观准确的分数。在现实生活中，用户在录制歌曲的过程中经常带有伴奏音乐，以及受录音设备或者周围环境影响，导致录制的歌曲不是单纯的用户歌声，而是一种混合多种声音的音频。因此在与标准音频进行特征匹配时，会降低特征匹配相似度。而本发明在用歌声与标准歌声进行特征匹配前，会将混合音频中的用户歌声与伴奏分离出来，然后再分离后的用户歌声进行噪声去除处理，避免伴奏以及噪声的影响，对歌曲的评分更加准确。

(2)利用歌词标签信息以及自动语音识别技术，将每一句歌词与歌声音频对齐，将用户歌声与标准歌声限定在同一比较区域内。然后以句子或者字为评价单位，在该单位下比较用户歌声和标准歌声的特征相似度，从而提高特征的评价结果的准确度。

(3)音量大小可以在一定程度上反映用户唱歌时的情感，情感格调是悲伤的歌曲其音量一般较低，而格调是开心的歌曲其音量一般都比较大，而音量大小由振幅所决定，因此利用振幅去评价歌曲可以侧面反映出用户的情感。本发明中将用户歌声以及标准歌声振幅归一化后进行相似性比较这一步骤中，归一化处理将减少用户歌声以及标准歌声振幅因其他因素影响的差异，之后计算振幅相似性则能体现用户歌曲中投入的情感是否与标准歌曲中的情感是否一致。

(4)综合基音频率、节奏以及振幅三方面要素来评价歌曲，可以更加全面反映用户的唱歌水平，而且在计算综合评分的过程中，可以调整这三方面的权值系数，使得计算出来得到的评分更加符合人类的听觉感知以及评分标准。

附图说明

图1为本发明所述的一种基于歌词歌声对齐的唱歌评分方法的流程图。

图2为图1所述方法的实施例的模块化示意图。

图3为某一句与歌词对齐后的用户歌声与标准歌声示意图。

图4为某一句歌词对齐后的用户歌声与标准歌声节奏差异示意图。

图5为某个基音频率子序列P_ij基音频率对齐前后示意图。

具体实施方式

下面结合实施例及附图对本发明作进一步详细的描述，但本发明的实施方式不限于此。

如图1-5，一种基于歌词歌声对齐的唱歌评分方法，包含以下顺序的步骤：

S1.录制歌曲；

S2.歌声伴奏分离、噪声去除；

S3.提取基音频率以及振幅；

S4.以句子为单位，歌词与歌声对齐；

S501.分割对齐后的歌声中每个字的基音频率；

S502.计算基音频率相似性得分ScoreP；

S6.根据用户歌声以及标准歌声的每一句时长以及每个字的起始结束时间计算歌曲的节奏得分ScoreR；

S701.归一化用户歌声和标准歌声的振幅；

S702.计算振幅相似性得分ScoreV；

S8.对基音频率得分、节奏得分、振幅得分乘以权值系数λ_i并相加，计算歌曲的综合得分Score。

所述的录制歌曲是指在非专业录制环境下录制的歌曲音频，所述非专业录制环境包括日常环境、卡拉OK环境。

所述步骤S2具体为：利用音源分离算法分离歌声与伴奏、对分离出来的歌声进行噪声去除处理。

步骤S4中，所述的歌词歌声对齐是指以每一句歌词作为划分单位，利用自动语音识别技术将每一句歌词与对应的歌声音频对齐，并划分为歌声集合A＝{A₁，A₂，...,A_n}，其中A_i表示第i句对齐歌词的歌声，1≤i≤n。

步骤S501和步骤S502，具体为：

对于第i句对齐歌词的歌声A_i，识别每一个字发音区域，记录其在该句歌声中的起始时间以及结束时间，划分为基音频率集合P_i＝{P_i1,P_i2,...,P_im},P_ij则表示为第i句歌词的第j个字；

计算第i句对齐歌词的歌声A_i的基音频率的相似度时，需要与标准歌声的基音频率进行对比匹配，记用户歌声基音频率集合为Pc_i＝{Pc_i1,Pc_i2,...,Pc_im},标准歌声基音频率集合为Ps_i＝{Ps_i1,Ps_i2,...,Ps_im}，在对比Pc_ij和Ps_ij需要将两者起始时间统一在相同的起点，然后再利用特征相似性度量算法计算相似性；

以第i句歌词的第j个字P_ij为评价单位，整首歌的基音频率得分是歌声中的字P_ij的对应基音频率评价得分总和。

步骤S6中，所述歌曲的节奏，其评价分为整体节奏评价以及局部节奏评价：整体节奏评价是以每一句对齐后的歌声为评价单位，该评价方法是对比用户歌声时长Tc_i和标准歌声时长Ts_i的差异；而局部节奏评价则是以每一句对齐后的歌声中的每一个字为评价单位，该评价方法是对比用户歌声基音频率Pc_ij和标准歌声基音频率Ps_ij起始、结束时间的差异；

以第i句对齐歌词的歌声A_i为评价单位，整首歌的整体节奏得分是对应每一句歌声节奏特征评分总和；

以第i句歌词的第j个字P_ij为评价单位，整首歌的局部节奏得分是歌声中的字P_ij的对应局部节奏得分总和。

步骤S702具体为：比较第i句对齐歌词的歌声A_i对应的用户振幅Vc_i和标准振幅Vs_i的平均振幅

和

差异、利用特征相似性度量算法计算振幅相似性，并综合两个方面得出振幅得分；

以第i句对齐歌词的歌声A_i为评价单位，整首歌的振幅得分是对应每一句歌声振幅特征评分总和。

步骤S8中，所述权值系数λ_i是人为给定一个预设值，而且权值系数λ_i的和为1；

或者，所述权值系数λ_i是通过建立回归模型来拟合，使其符合人类听觉感知，其综合分数计算公式为：

Socre＝λ₁*ScoreR+λ₂*ScoreP+λ₃*ScoreV。

所述的特征相似性度量算法，具体为：用户歌声特征以及标准歌声特征转化为特征向量F_c和F_s、比较户歌声特征向量F_c以及标准歌声特征向量F_s的长度、给长度较短的特征向量补零至两特征向量长度一致，得补零后长度一致的特征向量F′_c和F′_s、利用欧式距离来度量两特征向量之间的相似度，计算公式：

其中，F_euclidean为特征向量的欧式距离，F_euclidean越小相似度越大，反之亦然。

具体地：

一种基于歌词歌声对齐的唱歌评分方法，包括以下步骤：

(1)在KTV等非专业录制环境下将用户唱的歌曲录制并上传到云端服务器中；

(2)在云端服务器中对用户歌曲进行评分估计，其具体步骤如下所示：

(2.1)歌曲预处理。利用比如谐波、冲击源分离技术或者基于U-net的歌声伴奏分离等音源分离技术，将歌声与伴奏分离，得到不含伴奏的歌声音频；然后对该歌声音频进行去噪处理，如设置频率以及幅度阈值，将低于这两个阈值的音频信号置零去除。最后提取歌声的基音频率以及振幅，输入到音频分割对齐模块。

(2.2)音频分割对齐。云服务器处理器从数据库中找出录制歌曲的歌词，将歌词以句子为单位分割为评价单位，再根据这些分割好的句子以及利用自动语音识别技术识别用户歌声，将歌声音频分割并与歌词句子对齐，得到对齐歌声集合A＝{A₁，A₂，...,A_n}。同时，云服务器处理器也将对标准歌声进行分割对齐处理或者直接从数据库中加载已分割对齐好的标准歌声。然后将用户歌声与标准歌声以第一个歌词为基准对齐，如图3所示，其中序列P_i＝{P_i1,P_i2,...,P_im}是第i句歌词中每个歌词字对应的音频段集合，其中Pc_ij为用户歌声基音频率段，Ps_ij为标准歌声基音频率段，横轴则是序列P_ij在时间坐标下的分布。

(2.3)节奏评分。如图4所示，整体节奏评分是以每个句子A_i为评价单位，是以用户歌声时长Tc_i与标准歌声时长Ts_i的差异作为评价指标，时长差异|Ts_i-Tc_i|越大，整体节奏评分Rhythm1越差；局部节奏评分则是以子序列P_ij为单位，其比较的是用户歌声子序列Pc_ij与标准歌声子序列Ps_ij起始时间以及结束时间的差异，差异越大，局部节奏评分Rhythm2越差。将整体节奏评分以及局部节奏得分综合计算得出节奏评分ScoreR。

(2.4)音调评分。音调评分是以子序列P_ij为评价单位，在评价过程中对于每一个子序列P_ij都需要对齐，如图5所示。然后将其转化为特征向量形式，而向量长度较短的序列特征向量则需补零以达到用户歌声与标准歌声特征向量长度一致，然后再使用欧式距离度量两特征向量的相似性，距离越小，相似性越大，音调评分ScoreP越高。

(2.5)振幅评分。以每个句子A_i为评价单位，对用户歌声与标准歌声振幅进行归一化，减少两者之间因环境不同导致的差异。然后将用户歌声与标准歌声振幅以向量形式表示，并对其中长度较短的向量补零对齐长度，计算两个向量欧式距离，作为振幅评分Volume1；此外，计算该评价单位的平均音量，计算两者的绝对距离，作为振幅评分Volume2。将两个振幅评分综合计算得出振幅评分ScoreV。

(2.6)综合评分。对节奏得分ScoreR、音调得分ScoreP以及振幅得分ScoreV乘以人工给定的权值系数λ_i并相加，计算用户音频的综合得分Score，其中权值系数和为1，计算公式如下：

Socre＝λ₁*ScoreR+λ₂*ScoreP+λ₃*ScoreV

(3)从云服务器中下载综合得分Score到显示终端将分数反馈给用户。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.一种基于歌词歌声对齐的唱歌评分方法，其特征在于，包含以下顺序的步骤：

S1.录制歌曲；

S2.歌声伴奏分离、噪声去除；

S3.提取基音频率以及振幅；

S4.以句子为单位，歌词与歌声对齐；

S501.分割对齐后的歌声中每个字的基音频率；

S502.计算基音频率相似性得分ScoreP；

S701.归一化用户歌声和标准歌声的振幅；

S702.计算振幅相似性得分ScoreV；

2.根据权利要求1所述的基于歌词歌声对齐的唱歌评分方法，其特征在于，所述的录制歌曲是指在非专业录制环境下录制的歌曲音频，所述非专业录制环境包括日常环境、卡拉OK环境。

3.根据权利要求1所述的基于歌词歌声对齐的唱歌评分方法，其特征在于，所述步骤S2具体为：利用音源分离算法分离歌声与伴奏、对分离出来的歌声进行噪声去除处理。

4.根据权利要求1所述的基于歌词歌声对齐的唱歌评分方法，其特征在于，步骤S4中，所述的歌词歌声对齐是指以每一句歌词作为划分单位，利用自动语音识别技术将每一句歌词与对应的歌声音频对齐，并划分为歌声集合A＝{A₁，A₂，...,A_n}，其中A_i表示第i句对齐歌词的歌声，1≤i≤n。

5.根据权利要求1所述的基于歌词歌声对齐的唱歌评分方法，其特征在于，步骤S501和步骤S502，具体为：

6.根据权利要求1所述的基于歌词歌声对齐的唱歌评分方法，其特征在于，步骤S6中，所述歌曲的节奏，其评价分为整体节奏评价以及局部节奏评价：整体节奏评价是以每一句对齐后的歌声为评价单位，该评价方法是对比用户歌声时长Tc_i和标准歌声时长Ts_i的差异；而局部节奏评价则是以每一句对齐后的歌声中的每一个字为评价单位，该评价方法是对比用户歌声基音频率Pc_ij和标准歌声基音频率Ps_ij起始、结束时间的差异；

7.根据权利要求1所述的基于歌词歌声对齐的唱歌评分方法，其特征在于，步骤S702具体为：比较第i句对齐歌词的歌声A_i对应的用户振幅Vc_i和标准振幅Vs_i的平均振幅

和

8.根据权利要求1所述的基于歌词歌声对齐的唱歌评分方法，其特征在于，步骤S8中，所述权值系数λ_i是人为给定一个预设值，而且权值系数λ_i的和为1；

Socre＝λ₁*ScoreR+λ₂*ScoreP+λ₃*ScoreV。

9.根据权利要求5或7基于歌词歌声对齐的唱歌评分方法，其特征在于，所述的特征相似性度量算法，具体为：用户歌声特征以及标准歌声特征转化为特征向量F_c和F_s、比较户歌声特征向量F_c以及标准歌声特征向量F_s的长度、给长度较短的特征向量补零至两特征向量长度一致，得补零后长度一致的特征向量F_c'和F_s'、利用欧式距离来度量两特征向量之间的相似度，计算公式：