CN110660383A - 一种基于歌词歌声对齐的唱歌评分方法 - Google Patents
一种基于歌词歌声对齐的唱歌评分方法 Download PDFInfo
- Publication number
- CN110660383A CN110660383A CN201910890520.7A CN201910890520A CN110660383A CN 110660383 A CN110660383 A CN 110660383A CN 201910890520 A CN201910890520 A CN 201910890520A CN 110660383 A CN110660383 A CN 110660383A
- Authority
- CN
- China
- Prior art keywords
- singing voice
- singing
- score
- user
- amplitude
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000013077 scoring method Methods 0.000 title claims abstract description 25
- 238000011156 evaluation Methods 0.000 claims abstract description 50
- 230000033764 rhythmic process Effects 0.000 claims abstract description 45
- 238000000034 method Methods 0.000 claims abstract description 23
- 238000000926 separation method Methods 0.000 claims abstract description 6
- 239000013598 vector Substances 0.000 claims description 31
- 238000005259 measurement Methods 0.000 claims description 9
- 238000012545 processing Methods 0.000 claims description 7
- 238000004364 calculation method Methods 0.000 claims description 4
- 230000008447 perception Effects 0.000 claims description 4
- 230000002194 synthesizing effect Effects 0.000 claims description 4
- 239000002131 composite material Substances 0.000 claims description 2
- 230000008451 emotion Effects 0.000 description 11
- 238000005516 engineering process Methods 0.000 description 10
- 230000001755 vocal effect Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 230000011218 segmentation Effects 0.000 description 3
- 238000012854 evaluation process Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000003595 spectral effect Effects 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 230000037007 arousal Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000002996 emotional effect Effects 0.000 description 1
- 239000003550 marker Substances 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 239000004576 sand Substances 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
- 230000003313 weakening effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/69—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for evaluating synthetic or decoded voice signals
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Quality & Reliability (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Reverberation, Karaoke And Other Acoustics (AREA)
Abstract
本发明公开的一种基于歌词歌声对齐的唱歌评分方法,包含以下顺序的步骤:歌曲录制;歌声伴奏分离、噪声去除;提取基音频率以及振幅;以句子为单位,歌词与歌声对齐;分割对齐后的歌声中每个字的基音频率;计算基音频率相似性得分;根据用户歌声以及标准歌声的每一句时长以及每个字的起始结束时间计算节奏得分;归一化用户歌声和标准歌声的振幅;计算振幅相似性得分;对基音频率得分、节奏得分、振幅得分乘以权值系数并相加,计算歌曲的综合得分。本发明的唱歌评分方法,减少了伴奏以及噪声对歌声评价的影响;合理利用歌词的标签信息,使得评价用户的基音频率以及节奏更为准确;多方面评价用户歌曲,让歌曲评分结果更加客观全面。
Description
技术领域
本发明涉及语音信号处理技术领域,特别涉及一种基于歌词歌声对齐的唱歌评分方法。
背景技术
随着互联网以及科技的发展,现代人线下线上唱歌娱乐需求越来越大,而且用户对于唱歌能力排名也越来越看重,因此提出一种精确、全面的唱歌评分方法是十分有必要的。目前工业界中唱歌评分方法有直接将当前一句待评分的录制音频进行平移n个偏移时长,以搜索出一个可以将录制音频与标准音频在时间上有较好的对应关系,进而提高歌曲的演唱得分。但是这种方法每次需要搜索n次才能比较出一个最佳的得分,而且精确度不够高。因此有研究者提出了一种基于动态时间规整的唱歌评分方法,该方法采集了待评分音频数据以及基准音频数据,并生成对应的基音频率向量;然后利用动态时间规整计算路径距离,确定待评分音频数据的音准得分,利用对齐度确定待评分音频数据的节奏得分,最后根据音准得分及节奏得分确定所述待评分音频数据的评分。但是该方法动态时间规整出来的路径可能会扭曲带评分以及基准基音频率轨迹的对应关系,而且该方法只是考虑了音频以及节奏两个方面,从唱歌技巧上来评价用户歌曲,没有考虑情感方面。而学术界上唱歌评分方法比工业界的要先进一些,但是同时也较为复杂。早期的唱歌评分方法主要是为特征匹配的方法,其主要思想是提取一些歌曲的声乐特征,利用动态时间规整(DynamicTimeWarping,DTW)来计算这些用户歌曲的声乐特征以及标准歌曲的声乐特征的相似性距离。如吴国章提取了基音频率、梅尔倒频谱系数(MFCC)以及声音强度三个特征,利用了DTW算法计算这些特征的相似性,进而得出歌曲评分;ChangHung Lin等人则是基于DTW算法从RMS能量、音调、谱中心、频谱平坦度以及拓展频谱这些特征来评价歌曲。但是这些方法没有很好考虑歌曲节奏以及情感方面,因此WeiHo Tsai等在前人的基础上进行了改进,利用DTW算法计算一些声乐特征的相似性的同时,还建立了一个隐马尔可夫模型(HMM)来判断待评分歌曲是节奏是否正确。但是该节奏评价方法需要对每一首歌曲建立一个独立对应的HMM来识别节奏是否正确,训练成本高,在实际应用上具有很大的局限性;PeiPei Chen等提取了歌曲中5个与歌手唱歌热情相关的特征,利用大量数据训练了一个支撑向量回归模型,用于预测歌手唱歌热情;Florian Eyben等则是利用歌声中205个特征,在Arousal-Valence空间中划分情感标志词,然后训练一个支撑向量机在该空间中对歌曲中情感进行分析。NingZhang等利用大量含情感标签的歌曲数据,构建了一个双密集连接卷积神经网络二分类模型,实现了端到端地评价用户歌曲的好坏。虽然学术界对于唱歌评分技术有较为深入的研究,但是这些方法都需要大量的数据以及训练时间,而且尽管有了对歌曲情感分析有一定研究,但是其识别准确率较低、识别的情感类别较为单一,在实际应用上难以实现。
唱歌评分技术在最近十几年来虽然有一定的发展,但是学术界的方法大都比较复杂,具有一定的局限性,难以直接运用到实际生活当中;因此在工业界上依然使用着较为简单的评分方法,导致对歌曲的评分能力不足。
发明内容
本发明的目的在于克服现有技术的缺点与不足,提供一种基于歌词歌声对齐的唱歌评分方法。本发明通过利用歌词标签信息以及自动声音识别技术对齐分离伴奏及噪声的用户歌曲音频,并使用对齐后用户音频与标准音频进行对比,计算用户音频节奏得分、基音频率得分以及振幅得分,最后根据这三种得分确定最终的综合得分,从而减弱了伴奏以及噪声对歌声评价的影响,更加精确地评价用户歌曲。
本发明的目的通过以下的技术方案实现:
一种基于歌词歌声对齐的唱歌评分方法,包含以下顺序的步骤:
S1.录制歌曲;
S2.歌声伴奏分离、噪声去除;
S3.提取基音频率以及振幅;
S4.以句子为单位,歌词与歌声对齐;
S501.分割对齐后的歌声中每个字的基音频率;
S502.计算基音频率相似性得分ScoreP;
S6.根据用户歌声以及标准歌声的每一句时长以及每个字的起始结束时间计算节奏得分ScoreR;
S701.归一化用户歌声和标准歌声的振幅;
S702.计算振幅相似性得分ScoreV;
S8.对基音频率得分、节奏得分、振幅得分乘以权值系数并相加,计算歌曲的综合得分Score。
所述的录制的歌曲是指在日常环境或者卡拉OK环境等非专业录制环境下录制的歌曲音频。
所述的步骤S2的先后顺序为:利用音源分离算法分离歌声与伴奏、对分离出来的歌声进行噪声去除处理。
所述的歌词歌声对齐是指以每一句歌词作为划分单位,利用自动语音识别技术将每一句歌词与对应的歌声音频对齐,并划分为歌声集合A={A1,A2,...,An},其中Ai表示第i句对齐歌词的歌声。
所述的步骤S501和S502中,包括:
对于第i句歌声Ai,识别每一个字发音区域,记录其在该句歌声中的起始以及结束时间,划分为基音频率集合Pi={Pi1,Pi2,...,Pim},Pij则表示为第i句歌词的第j个字。
计算第i句歌声Ai的基音频率的相似度时,需要与标准歌声的基音频率进行对比匹配,记用户歌声基音频率集合为Pci={Pci1,Pci2,...,Pcim},标准歌声基音频率集合为Psi={Psi1,Psi2,...,Psim},在对比Pcij和Psij需要将两者起始时间统一在相同的起点,然后再利用特征相似性度量算法计算相似性。
所述歌曲节奏评价过程,分为整体节奏评价以及局部节奏评价,包括:整体节奏评价是以每一句对齐后的歌声为评价单位,该评价方法是对比用户歌声时长Tci和标准歌声时长Tsi的差异;局部节奏评价则是以每一句对齐后的歌声中的每一个字为评价单位,该评价方法是对比用户歌声基音频率Pcij和标准歌声基音频率Psij起始、结束时间的差异。
所述的基音频率得分以及局部节奏得分是以每一句歌声中每一个字Aij为评价单位,整首歌的基音频率得分以及局部节奏得分是歌声中的字Aij的对应特征评价得分总和:其中fij是歌声中的字Aij的某个特征feature的评价得分。
所述的步骤S8的过程中,权值系数λi可以人为给定一个合适的值,而且权值系数λi的和为1;也可以建立回归模型来拟合这些权值系数λi,使其符合人类听觉感知。其综合分数计算公式为:Socre=λ1*ScoreR+λ2*ScoreP+λ3*ScoreV。
所述的特征相似性度量算法过程包括:用户歌声特征以及标准歌声特征转化为特征向量Fc和Fs、比较户歌声特征向量Fc以及标准歌声特征向量Fs的长度、给长度较短的特征向量补零至两特征向量长度一致,得补零后长度一致的特征向量Fc'和Fs'、利用欧式距离来度量两特征向量之间的相似度,计算公式:
Feuclidean为特征向量的欧式距离,Feuclidean越小相似度越大,反之亦然。
本发明与现有技术相比,具有如下优点和有益效果:
(1)本发明可对非专业环境录制的歌曲给予一个客观准确的分数。在现实生活中,用户在录制歌曲的过程中经常带有伴奏音乐,以及受录音设备或者周围环境影响,导致录制的歌曲不是单纯的用户歌声,而是一种混合多种声音的音频。因此在与标准音频进行特征匹配时,会降低特征匹配相似度。而本发明在用歌声与标准歌声进行特征匹配前,会将混合音频中的用户歌声与伴奏分离出来,然后再分离后的用户歌声进行噪声去除处理,避免伴奏以及噪声的影响,对歌曲的评分更加准确。
(2)利用歌词标签信息以及自动语音识别技术,将每一句歌词与歌声音频对齐,将用户歌声与标准歌声限定在同一比较区域内。然后以句子或者字为评价单位,在该单位下比较用户歌声和标准歌声的特征相似度,从而提高特征的评价结果的准确度。
(3)音量大小可以在一定程度上反映用户唱歌时的情感,情感格调是悲伤的歌曲其音量一般较低,而格调是开心的歌曲其音量一般都比较大,而音量大小由振幅所决定,因此利用振幅去评价歌曲可以侧面反映出用户的情感。本发明中将用户歌声以及标准歌声振幅归一化后进行相似性比较这一步骤中,归一化处理将减少用户歌声以及标准歌声振幅因其他因素影响的差异,之后计算振幅相似性则能体现用户歌曲中投入的情感是否与标准歌曲中的情感是否一致。
(4)综合基音频率、节奏以及振幅三方面要素来评价歌曲,可以更加全面反映用户的唱歌水平,而且在计算综合评分的过程中,可以调整这三方面的权值系数,使得计算出来得到的评分更加符合人类的听觉感知以及评分标准。
附图说明
图1为本发明所述的一种基于歌词歌声对齐的唱歌评分方法的流程图。
图2为图1所述方法的实施例的模块化示意图。
图3为某一句与歌词对齐后的用户歌声与标准歌声示意图。
图4为某一句歌词对齐后的用户歌声与标准歌声节奏差异示意图。
图5为某个基音频率子序列Pij基音频率对齐前后示意图。
具体实施方式
下面结合实施例及附图对本发明作进一步详细的描述,但本发明的实施方式不限于此。
如图1-5,一种基于歌词歌声对齐的唱歌评分方法,包含以下顺序的步骤:
S1.录制歌曲;
S2.歌声伴奏分离、噪声去除;
S3.提取基音频率以及振幅;
S4.以句子为单位,歌词与歌声对齐;
S501.分割对齐后的歌声中每个字的基音频率;
S502.计算基音频率相似性得分ScoreP;
S6.根据用户歌声以及标准歌声的每一句时长以及每个字的起始结束时间计算歌曲的节奏得分ScoreR;
S701.归一化用户歌声和标准歌声的振幅;
S702.计算振幅相似性得分ScoreV;
S8.对基音频率得分、节奏得分、振幅得分乘以权值系数λi并相加,计算歌曲的综合得分Score。
所述的录制歌曲是指在非专业录制环境下录制的歌曲音频,所述非专业录制环境包括日常环境、卡拉OK环境。
所述步骤S2具体为:利用音源分离算法分离歌声与伴奏、对分离出来的歌声进行噪声去除处理。
步骤S4中,所述的歌词歌声对齐是指以每一句歌词作为划分单位,利用自动语音识别技术将每一句歌词与对应的歌声音频对齐,并划分为歌声集合A={A1,A2,...,An},其中Ai表示第i句对齐歌词的歌声,1≤i≤n。
步骤S501和步骤S502,具体为:
对于第i句对齐歌词的歌声Ai,识别每一个字发音区域,记录其在该句歌声中的起始时间以及结束时间,划分为基音频率集合Pi={Pi1,Pi2,...,Pim},Pij则表示为第i句歌词的第j个字;
计算第i句对齐歌词的歌声Ai的基音频率的相似度时,需要与标准歌声的基音频率进行对比匹配,记用户歌声基音频率集合为Pci={Pci1,Pci2,...,Pcim},标准歌声基音频率集合为Psi={Psi1,Psi2,...,Psim},在对比Pcij和Psij需要将两者起始时间统一在相同的起点,然后再利用特征相似性度量算法计算相似性;
以第i句歌词的第j个字Pij为评价单位,整首歌的基音频率得分是歌声中的字Pij的对应基音频率评价得分总和。
步骤S6中,所述歌曲的节奏,其评价分为整体节奏评价以及局部节奏评价:整体节奏评价是以每一句对齐后的歌声为评价单位,该评价方法是对比用户歌声时长Tci和标准歌声时长Tsi的差异;而局部节奏评价则是以每一句对齐后的歌声中的每一个字为评价单位,该评价方法是对比用户歌声基音频率Pcij和标准歌声基音频率Psij起始、结束时间的差异;
以第i句对齐歌词的歌声Ai为评价单位,整首歌的整体节奏得分是对应每一句歌声节奏特征评分总和;
以第i句歌词的第j个字Pij为评价单位,整首歌的局部节奏得分是歌声中的字Pij的对应局部节奏得分总和。
以第i句对齐歌词的歌声Ai为评价单位,整首歌的振幅得分是对应每一句歌声振幅特征评分总和。
步骤S8中,所述权值系数λi是人为给定一个预设值,而且权值系数λi的和为1;
或者,所述权值系数λi是通过建立回归模型来拟合,使其符合人类听觉感知,其综合分数计算公式为:
Socre=λ1*ScoreR+λ2*ScoreP+λ3*ScoreV。
所述的特征相似性度量算法,具体为:用户歌声特征以及标准歌声特征转化为特征向量Fc和Fs、比较户歌声特征向量Fc以及标准歌声特征向量Fs的长度、给长度较短的特征向量补零至两特征向量长度一致,得补零后长度一致的特征向量F′c和F′s、利用欧式距离来度量两特征向量之间的相似度,计算公式:
其中,Feuclidean为特征向量的欧式距离,Feuclidean越小相似度越大,反之亦然。
具体地:
一种基于歌词歌声对齐的唱歌评分方法,包括以下步骤:
(1)在KTV等非专业录制环境下将用户唱的歌曲录制并上传到云端服务器中;
(2)在云端服务器中对用户歌曲进行评分估计,其具体步骤如下所示:
(2.1)歌曲预处理。利用比如谐波、冲击源分离技术或者基于U-net的歌声伴奏分离等音源分离技术,将歌声与伴奏分离,得到不含伴奏的歌声音频;然后对该歌声音频进行去噪处理,如设置频率以及幅度阈值,将低于这两个阈值的音频信号置零去除。最后提取歌声的基音频率以及振幅,输入到音频分割对齐模块。
(2.2)音频分割对齐。云服务器处理器从数据库中找出录制歌曲的歌词,将歌词以句子为单位分割为评价单位,再根据这些分割好的句子以及利用自动语音识别技术识别用户歌声,将歌声音频分割并与歌词句子对齐,得到对齐歌声集合A={A1,A2,...,An}。同时,云服务器处理器也将对标准歌声进行分割对齐处理或者直接从数据库中加载已分割对齐好的标准歌声。然后将用户歌声与标准歌声以第一个歌词为基准对齐,如图3所示,其中序列Pi={Pi1,Pi2,...,Pim}是第i句歌词中每个歌词字对应的音频段集合,其中Pcij为用户歌声基音频率段,Psij为标准歌声基音频率段,横轴则是序列Pij在时间坐标下的分布。
(2.3)节奏评分。如图4所示,整体节奏评分是以每个句子Ai为评价单位,是以用户歌声时长Tci与标准歌声时长Tsi的差异作为评价指标,时长差异|Tsi-Tci|越大,整体节奏评分Rhythm1越差;局部节奏评分则是以子序列Pij为单位,其比较的是用户歌声子序列Pcij与标准歌声子序列Psij起始时间以及结束时间的差异,差异越大,局部节奏评分Rhythm2越差。将整体节奏评分以及局部节奏得分综合计算得出节奏评分ScoreR。
(2.4)音调评分。音调评分是以子序列Pij为评价单位,在评价过程中对于每一个子序列Pij都需要对齐,如图5所示。然后将其转化为特征向量形式,而向量长度较短的序列特征向量则需补零以达到用户歌声与标准歌声特征向量长度一致,然后再使用欧式距离度量两特征向量的相似性,距离越小,相似性越大,音调评分ScoreP越高。
(2.5)振幅评分。以每个句子Ai为评价单位,对用户歌声与标准歌声振幅进行归一化,减少两者之间因环境不同导致的差异。然后将用户歌声与标准歌声振幅以向量形式表示,并对其中长度较短的向量补零对齐长度,计算两个向量欧式距离,作为振幅评分Volume1;此外,计算该评价单位的平均音量,计算两者的绝对距离,作为振幅评分Volume2。将两个振幅评分综合计算得出振幅评分ScoreV。
(2.6)综合评分。对节奏得分ScoreR、音调得分ScoreP以及振幅得分ScoreV乘以人工给定的权值系数λi并相加,计算用户音频的综合得分Score,其中权值系数和为1,计算公式如下:
Socre=λ1*ScoreR+λ2*ScoreP+λ3*ScoreV
(3)从云服务器中下载综合得分Score到显示终端将分数反馈给用户。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。
Claims (9)
1.一种基于歌词歌声对齐的唱歌评分方法,其特征在于,包含以下顺序的步骤:
S1.录制歌曲;
S2.歌声伴奏分离、噪声去除;
S3.提取基音频率以及振幅;
S4.以句子为单位,歌词与歌声对齐;
S501.分割对齐后的歌声中每个字的基音频率;
S502.计算基音频率相似性得分ScoreP;
S6.根据用户歌声以及标准歌声的每一句时长以及每个字的起始结束时间计算歌曲的节奏得分ScoreR;
S701.归一化用户歌声和标准歌声的振幅;
S702.计算振幅相似性得分ScoreV;
S8.对基音频率得分、节奏得分、振幅得分乘以权值系数λi并相加,计算歌曲的综合得分Score。
2.根据权利要求1所述的基于歌词歌声对齐的唱歌评分方法,其特征在于,所述的录制歌曲是指在非专业录制环境下录制的歌曲音频,所述非专业录制环境包括日常环境、卡拉OK环境。
3.根据权利要求1所述的基于歌词歌声对齐的唱歌评分方法,其特征在于,所述步骤S2具体为:利用音源分离算法分离歌声与伴奏、对分离出来的歌声进行噪声去除处理。
4.根据权利要求1所述的基于歌词歌声对齐的唱歌评分方法,其特征在于,步骤S4中,所述的歌词歌声对齐是指以每一句歌词作为划分单位,利用自动语音识别技术将每一句歌词与对应的歌声音频对齐,并划分为歌声集合A={A1,A2,...,An},其中Ai表示第i句对齐歌词的歌声,1≤i≤n。
5.根据权利要求1所述的基于歌词歌声对齐的唱歌评分方法,其特征在于,步骤S501和步骤S502,具体为:
对于第i句对齐歌词的歌声Ai,识别每一个字发音区域,记录其在该句歌声中的起始时间以及结束时间,划分为基音频率集合Pi={Pi1,Pi2,...,Pim},Pij则表示为第i句歌词的第j个字;
计算第i句对齐歌词的歌声Ai的基音频率的相似度时,需要与标准歌声的基音频率进行对比匹配,记用户歌声基音频率集合为Pci={Pci1,Pci2,...,Pcim},标准歌声基音频率集合为Psi={Psi1,Psi2,...,Psim},在对比Pcij和Psij需要将两者起始时间统一在相同的起点,然后再利用特征相似性度量算法计算相似性;
以第i句歌词的第j个字Pij为评价单位,整首歌的基音频率得分是歌声中的字Pij的对应基音频率评价得分总和。
6.根据权利要求1所述的基于歌词歌声对齐的唱歌评分方法,其特征在于,步骤S6中,所述歌曲的节奏,其评价分为整体节奏评价以及局部节奏评价:整体节奏评价是以每一句对齐后的歌声为评价单位,该评价方法是对比用户歌声时长Tci和标准歌声时长Tsi的差异;而局部节奏评价则是以每一句对齐后的歌声中的每一个字为评价单位,该评价方法是对比用户歌声基音频率Pcij和标准歌声基音频率Psij起始、结束时间的差异;
以第i句对齐歌词的歌声Ai为评价单位,整首歌的整体节奏得分是对应每一句歌声节奏特征评分总和;
以第i句歌词的第j个字Pij为评价单位,整首歌的局部节奏得分是歌声中的字Pij的对应局部节奏得分总和。
8.根据权利要求1所述的基于歌词歌声对齐的唱歌评分方法,其特征在于,步骤S8中,所述权值系数λi是人为给定一个预设值,而且权值系数λi的和为1;
或者,所述权值系数λi是通过建立回归模型来拟合,使其符合人类听觉感知,其综合分数计算公式为:
Socre=λ1*ScoreR+λ2*ScoreP+λ3*ScoreV。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910890520.7A CN110660383A (zh) | 2019-09-20 | 2019-09-20 | 一种基于歌词歌声对齐的唱歌评分方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910890520.7A CN110660383A (zh) | 2019-09-20 | 2019-09-20 | 一种基于歌词歌声对齐的唱歌评分方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110660383A true CN110660383A (zh) | 2020-01-07 |
Family
ID=69037426
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910890520.7A Pending CN110660383A (zh) | 2019-09-20 | 2019-09-20 | 一种基于歌词歌声对齐的唱歌评分方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110660383A (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111210850A (zh) * | 2020-01-10 | 2020-05-29 | 腾讯音乐娱乐科技(深圳)有限公司 | 歌词对齐方法及相关产品 |
CN111369975A (zh) * | 2020-03-17 | 2020-07-03 | 郑州工程技术学院 | 基于人工智能的大学音乐评分方法、装置、设备及存储介质 |
CN112133269A (zh) * | 2020-09-22 | 2020-12-25 | 腾讯音乐娱乐科技(深圳)有限公司 | 一种音频处理方法、装置、设备及介质 |
CN112802494A (zh) * | 2021-04-12 | 2021-05-14 | 北京世纪好未来教育科技有限公司 | 语音评测方法、装置、计算机设备和介质 |
CN113096689A (zh) * | 2021-04-02 | 2021-07-09 | 腾讯音乐娱乐科技(深圳)有限公司 | 一种歌曲演唱的评价方法、设备及介质 |
WO2021245234A1 (en) * | 2020-06-05 | 2021-12-09 | Sony Group Corporation | Electronic device, method and computer program |
CN113853047A (zh) * | 2021-09-29 | 2021-12-28 | 深圳市火乐科技发展有限公司 | 灯光控制方法、装置、存储介质和电子设备 |
CN114093386A (zh) * | 2021-11-10 | 2022-02-25 | 厦门大学 | 一种面向教育的多维度歌唱评价方法 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101894552A (zh) * | 2010-07-16 | 2010-11-24 | 安徽科大讯飞信息科技股份有限公司 | 基于语谱切分的唱歌评测*** |
CN107507628A (zh) * | 2017-08-31 | 2017-12-22 | 广州酷狗计算机科技有限公司 | 唱歌评分方法、装置及终端 |
CN107978308A (zh) * | 2017-11-28 | 2018-05-01 | 广东小天才科技有限公司 | 一种k歌评分方法、装置、设备及存储介质 |
CN108492835A (zh) * | 2018-02-06 | 2018-09-04 | 南京陶特思软件科技有限公司 | 一种唱歌的评分方法 |
CN108922562A (zh) * | 2018-06-15 | 2018-11-30 | 广州酷狗计算机科技有限公司 | 演唱评价结果显示方法及装置 |
CN109300485A (zh) * | 2018-11-19 | 2019-02-01 | 北京达佳互联信息技术有限公司 | 音频信号的评分方法、装置、电子设备及计算机存储介质 |
CN109448754A (zh) * | 2018-09-07 | 2019-03-08 | 南京光辉互动网络科技股份有限公司 | 一种多维度演唱评分*** |
-
2019
- 2019-09-20 CN CN201910890520.7A patent/CN110660383A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101894552A (zh) * | 2010-07-16 | 2010-11-24 | 安徽科大讯飞信息科技股份有限公司 | 基于语谱切分的唱歌评测*** |
CN107507628A (zh) * | 2017-08-31 | 2017-12-22 | 广州酷狗计算机科技有限公司 | 唱歌评分方法、装置及终端 |
CN107978308A (zh) * | 2017-11-28 | 2018-05-01 | 广东小天才科技有限公司 | 一种k歌评分方法、装置、设备及存储介质 |
CN108492835A (zh) * | 2018-02-06 | 2018-09-04 | 南京陶特思软件科技有限公司 | 一种唱歌的评分方法 |
CN108922562A (zh) * | 2018-06-15 | 2018-11-30 | 广州酷狗计算机科技有限公司 | 演唱评价结果显示方法及装置 |
CN109448754A (zh) * | 2018-09-07 | 2019-03-08 | 南京光辉互动网络科技股份有限公司 | 一种多维度演唱评分*** |
CN109300485A (zh) * | 2018-11-19 | 2019-02-01 | 北京达佳互联信息技术有限公司 | 音频信号的评分方法、装置、电子设备及计算机存储介质 |
Non-Patent Citations (4)
Title |
---|
M.NARASIMHAMURTY著,王振永译: "《模式识别 算法及实现方法》", 31 December 2017, 哈尔滨:哈尔滨工业大学出版社 * |
林伟伟: "基于遗传算法的Docker集群调度策略", 《华南理工大学学报(自然科学版)》 * |
王佳迪: "鲁棒的音乐评分方法研究", 《中国优秀硕士学位论文全文数据库中国优秀硕士学位论文全文数据库信息科技辑》 * |
王齐祥: "《现代公共广播技术与工程案例》", 31 August 2011, 北京:国防工业出版社 * |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111210850A (zh) * | 2020-01-10 | 2020-05-29 | 腾讯音乐娱乐科技(深圳)有限公司 | 歌词对齐方法及相关产品 |
CN111210850B (zh) * | 2020-01-10 | 2021-06-25 | 腾讯音乐娱乐科技(深圳)有限公司 | 歌词对齐方法及相关产品 |
CN111369975A (zh) * | 2020-03-17 | 2020-07-03 | 郑州工程技术学院 | 基于人工智能的大学音乐评分方法、装置、设备及存储介质 |
WO2021245234A1 (en) * | 2020-06-05 | 2021-12-09 | Sony Group Corporation | Electronic device, method and computer program |
CN112133269A (zh) * | 2020-09-22 | 2020-12-25 | 腾讯音乐娱乐科技(深圳)有限公司 | 一种音频处理方法、装置、设备及介质 |
CN112133269B (zh) * | 2020-09-22 | 2024-03-15 | 腾讯音乐娱乐科技(深圳)有限公司 | 一种音频处理方法、装置、设备及介质 |
CN113096689A (zh) * | 2021-04-02 | 2021-07-09 | 腾讯音乐娱乐科技(深圳)有限公司 | 一种歌曲演唱的评价方法、设备及介质 |
CN112802494A (zh) * | 2021-04-12 | 2021-05-14 | 北京世纪好未来教育科技有限公司 | 语音评测方法、装置、计算机设备和介质 |
CN112802494B (zh) * | 2021-04-12 | 2021-07-16 | 北京世纪好未来教育科技有限公司 | 语音评测方法、装置、计算机设备和介质 |
CN113853047A (zh) * | 2021-09-29 | 2021-12-28 | 深圳市火乐科技发展有限公司 | 灯光控制方法、装置、存储介质和电子设备 |
CN114093386A (zh) * | 2021-11-10 | 2022-02-25 | 厦门大学 | 一种面向教育的多维度歌唱评价方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110660383A (zh) | 一种基于歌词歌声对齐的唱歌评分方法 | |
Paulus et al. | Measuring the similarity of Rhythmic Patterns. | |
Ryynänen et al. | Automatic transcription of melody, bass line, and chords in polyphonic music | |
Mesaros et al. | Singer identification in polyphonic music using vocal separation and pattern recognition methods. | |
Nakano et al. | An automatic singing skill evaluation method for unknown melodies using pitch interval accuracy and vibrato features | |
CN104272382B (zh) | 基于模板的个性化歌唱合成的方法和*** | |
Ryynänen et al. | Transcription of the Singing Melody in Polyphonic Music. | |
Tsai et al. | Automatic evaluation of karaoke singing based on pitch, volume, and rhythm features | |
CN109979488B (zh) | 基于重音分析的人声转乐谱*** | |
CN109545191B (zh) | 一种歌曲中人声起始位置的实时检测方法 | |
Lagrange et al. | Normalized cuts for predominant melodic source separation | |
Pandit et al. | Feature selection for a DTW-based speaker verification system | |
Fujihara et al. | F0 estimation method for singing voice in polyphonic audio signal based on statistical vocal model and Viterbi search | |
Toh et al. | Multiple-Feature Fusion Based Onset Detection for Solo Singing Voice. | |
CN115050387A (zh) | 一种艺术测评中多维度唱奏分析测评方法及*** | |
Dzhambazov et al. | On the use of note onsets for improved lyrics-to-audio alignment in turkish makam music | |
Fujihara et al. | Three techniques for improving automatic synchronization between music and lyrics: Fricative detection, filler model, and novel feature vectors for vocal activity detection | |
CN117012230A (zh) | 歌唱发音咬字评价模型 | |
Jha et al. | Assessing vowel quality for singing evaluation | |
CN109410968B (zh) | 一种高效的歌曲中人声起始位置检测方法 | |
Ikemiya et al. | Transcribing vocal expression from polyphonic music | |
CN113823270B (zh) | 节奏评分的确定方法、介质、装置和计算设备 | |
Barthet et al. | Speech/music discrimination in audio podcast using structural segmentation and timbre recognition | |
CN111681674B (zh) | 一种基于朴素贝叶斯模型的乐器种类识别方法和*** | |
Ikemiya et al. | Transferring vocal expression of f0 contour using singing voice synthesizer |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200107 |