CN110867194B - 音频的评分方法、装置、设备及存储介质 - Google Patents
音频的评分方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN110867194B CN110867194B CN201911072491.XA CN201911072491A CN110867194B CN 110867194 B CN110867194 B CN 110867194B CN 201911072491 A CN201911072491 A CN 201911072491A CN 110867194 B CN110867194 B CN 110867194B
- Authority
- CN
- China
- Prior art keywords
- vibrato
- fragment
- sequence
- determining
- audio
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000013077 scoring method Methods 0.000 title abstract description 21
- 239000012634 fragment Substances 0.000 claims abstract description 319
- 238000000034 method Methods 0.000 claims abstract description 37
- 230000003595 spectral effect Effects 0.000 claims abstract description 22
- 238000001228 spectrum Methods 0.000 claims description 130
- 238000012545 processing Methods 0.000 claims description 35
- 238000004590 computer program Methods 0.000 claims description 11
- 238000012935 Averaging Methods 0.000 claims description 7
- 238000010586 diagram Methods 0.000 description 16
- 230000002093 peripheral effect Effects 0.000 description 10
- 230000001133 acceleration Effects 0.000 description 9
- 230000006870 function Effects 0.000 description 8
- 238000004891 communication Methods 0.000 description 6
- 230000003287 optical effect Effects 0.000 description 5
- 230000008569 process Effects 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 239000000919 ceramic Substances 0.000 description 2
- 230000006835 compression Effects 0.000 description 2
- 238000007906 compression Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 230000010355 oscillation Effects 0.000 description 2
- WPWLFFMSSOAORQ-UHFFFAOYSA-N 5-bromo-4-chloro-3-indolyl acetate Chemical compound C1=C(Br)C(Cl)=C2C(OC(=O)C)=CNC2=C1 WPWLFFMSSOAORQ-UHFFFAOYSA-N 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 230000006641 stabilisation Effects 0.000 description 1
- 238000011105 stabilization Methods 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/21—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Auxiliary Devices For Music (AREA)
- Electrophonic Musical Instruments (AREA)
Abstract
本申请公开了一种音频的评分方法、装置、设备及存储介质,属于计算机技术领域。所述方法包括:获取待评分音频的基频序列对应的多个颤音片段;获取多个颤音片段对应的基频序列的颤音特征信息,颤音特征信息至少包括频谱分布稳定度和序列幅度;根据多个颤音片段的颤音片段时长、以及多个颤音片段对应的基频序列的频谱分布稳定度和序列幅度,确定多个颤音片段的颤音分值。根据多个颤音片段的颤音分值和颤音片段个数,确定待评分音频的音频颤音分值,基于音频颤音分值,对待评分音频进行评分。如此,在传统评分关注音准的基础上还关注了颤音片段,克服了现有技术仅关注待评分音频的音准的评分方法太过单一,导致得到的分值比较片面的问题。
Description
技术领域
本申请涉及计算机技术领域,特别涉及一种音频的评分方法、装置、设备及存储介质。
背景技术
随着网络技术的发展,越来越多的音乐软件可以提供演唱模式,且为了辅助用户更好地掌握歌曲的演唱技巧,还可以提供评分功能,对待评分音频进行评分。
现有的评分方法通常是对比原唱音频的基频序列和待评分音频的基频序列,并根据相关匹配算法对待评分音频进行评分。例如,可以通过基频提取方法,分别提取原唱音频的基频序列和待评分音频的基频序列,并通过动态时间规整方法,确定原唱音频的基频序列与待评分音频的基频序列之间的相似度,再根据相似度确定待评分音频的分值。
但上述方法确定的相似度只关注了待评分音频的音准,即音调是否正确,只要音调正确即可得高分,这种评分方法太过单一,得到的分值比较片面。
发明内容
本申请提供了一种音频的评分方法、装置、设备及存储介质,可以解决相关技术的评分方法太过单一导致分值比较片面的问题。所述技术方案如下:
一方面,提供了一种音频的评分方法,所述方法包括:
获取待评分音频的基频序列对应的多个颤音片段;
获取所述多个颤音片段对应的基频序列的颤音特征信息,所述颤音特征信息至少包括频谱分布稳定度和序列幅度;
根据所述多个颤音片段的颤音片段时长、以及所述多个颤音片段对应的基频序列的频谱分布稳定度和序列幅度,确定所述多个颤音片段的颤音分值;
根据所述多个颤音片段的颤音分值和颤音片段个数,确定所述待评分音频的音频颤音分值;
基于所述音频颤音分值,对所述待评分音频进行评分。
在本申请一种可能的实现方式中,所述根据所述多个颤音片段的颤音片段时长、以及所述多个颤音片段对应的基频序列的频谱分布稳定度和序列幅度,确定所述多个颤音片段的颤音分值,包括:
基于所述多个颤音片段的颤音片段时长,确定所述多个颤音片段的时长分值;
分别将每个颤音片段对应的基频序列的频谱分布稳定度与第一数值相乘,得到每个颤音片段的稳定度分值;
基于所述多个颤音片段对应的基频序列的序列幅度,确定所述多个颤音片段的幅度分值;
分别将每个颤音片段的时长分值、稳定度分值以及幅度分值之和确定为每个颤音片段的颤音分值,得到所述多个颤音片段的颤音分值。
在本申请一种可能的实现方式中,所述基于所述多个颤音片段的颤音片段时长,确定所述多个颤音片段的时长分值,包括:
对于所述多个颤音片段中的第一颤音片段,当所述第一颤音片段的颤音片段时长小于第一时长阈值时,根据所述第一颤音片段的颤音片段时长和第二数值,确定所述第一颤音片段的时长分值,所述第一颤音片段为所述多个颤音片段中的任一颤音片段;或者,
当所述第一颤音片段的颤音片段时长大于或等于所述第一时长阈值时,将所述第二数值确定为所述第一颤音片段的时长分值。
在本申请一种可能的实现方式中,所述基于所述多个颤音片段对应的基频序列的序列幅度,确定所述多个颤音片段的幅度分值,包括:
对于所述多个颤音片段中的第二颤音片段,当所述第二颤音片段对应的基频序列的序列幅度小于幅度阈值时,根据所述第二颤音片段对应的基频序列的序列幅度和第三数值,确定所述第二颤音片段的幅度分值,所述第二颤音片段为所述多个颤音片段中的任一颤音片段;或者,
当所述第二颤音片段对应的基频序列的序列幅度大于或等于所述幅度阈值时,将所述第三数值确定为所述第二颤音片段的幅度分值。
在本申请一种可能的实现方式中,所述根据所述多个颤音片段的颤音分值和颤音片段个数,确定所述待评分音频的音频颤音分值,包括:
从所述多个颤音片段的颤音分值中确定最高的颤音分值;
根据所述多个颤音片段的颤音片段个数,确定颤音个数分值;
将所述最高的颤音分值和所述颤音个数分值之和确定为所述待评分音频的音频颤音分值。
在本申请一种可能的实现方式中,所述根据所述多个颤音片段的颤音片段个数,确定颤音个数分值,包括:
当所述多个颤音片段的颤音片段个数小于个数阈值时,将所述颤音片段个数确定为所述颤音个数分值;或者,
当所述多个颤音片段的颤音片段个数大于或等于所述个数阈值时,将第四数值确定为所述颤音个数分值。
在本申请一种可能的实现方式中,所述获取待评分音频的基频序列对应的多个颤音片段,包括:
以指定时长为窗口时长,以指定步长为移动距离,在多个窗口内对所述待评分音频的基频序列进行快速傅里叶变换处理,得到所述多个窗口对应的频谱;
对所述多个窗口对应的频谱分别取平方,得到所述多个窗口对应的功率谱;
根据所述多个窗口对应的功率谱,在每个窗口内确定指定频段内的功率谱能量与每个窗口内的功率谱总能量的比值,得到每个窗口对应的颤音可能性值;
根据所述多个窗口对应的颤音可能性值,从所述待评分音频中确定所述多个颤音片段。
在本申请一种可能的实现方式中,所述根据所述多个窗口对应的颤音可能性值,从所述待评分音频中确定所述多个颤音片段,包括:
根据所述多个窗口对应的颤音可能性值,从所述待评分音频的基频序列中确定颤音可能性值大于或等于可能性阈值的候选基频序列;
确定连续时长大于第二时长阈值的目标候选基频序列的频谱分布稳定度、频率和序列幅度;
根据所述目标候选基频序列的频谱分布稳定度、频率和序列幅度,从所述待评分音频中确定所述多个颤音片段。
在本申请一种可能的实现方式中,所述确定连续时长大于第二时长阈值的目标候选基频序列的频谱分布稳定度、频率和序列幅度,包括:
对所述目标候选基频序列进行快速傅里叶变换处理,对处理结果取平方,得到目标候选基频序列的功率谱;
根据所述目标候选基频序列的功率谱,确定所述目标候选基频序列在预设频段内的功率谱能量与所述目标候选基频序列的功率谱总能量的比值,得到所述目标候选基频序列的频谱分布稳定度;
根据所述目标候选基频序列的多个基频振动周期的周期时长和周期个数,确定所述目标候选基频序列的频率,每个基频振动周期内的基频序列去均值化后过零点两次;
根据所述目标候选基频序列的多个基频振动周期的基频差值和周期个数,确定所述目标候选基频序列的序列幅度,每个基频振动周期的基频差值是指每个基频振动周期内基频频率最大值与基频频率最小值之间的差值。
在本申请一种可能的实现方式中,所述获取待评分音频的基频序列对应的多个颤音片段之后,还包括:
对于所述多个颤音片段中的每个颤音片段,从每个颤音片段的开始时刻起,对每个颤音片段对应的进度条进行突出显示。
另一方面,提供了一种音频的评分装置,所述装置包括:
第一获取模块,用于获取待评分音频的基频序列对应的多个颤音片段;
第二获取模块,用于获取所述多个颤音片段对应的基频序列的颤音特征信息,所述颤音特征信息至少包括频谱分布稳定度和序列幅度;
第一确定模块,用于根据所述多个颤音片段的颤音片段时长、以及所述多个颤音片段对应的基频序列的频谱分布稳定度和序列幅度,确定所述多个颤音片段的颤音分值;
第二确定模块,用于根据所述多个颤音片段的颤音分值和颤音片段个数,确定所述待评分音频的音频颤音分值;
评分模块,用于基于所述音频颤音分值,对所述待评分音频进行评分。
在本申请一种可能的实现方式中,所述第一确定模块用于:
基于所述多个颤音片段的颤音片段时长,确定所述多个颤音片段的时长分值;
分别将每个颤音片段对应的基频序列的频谱分布稳定度与第一数值相乘,得到每个颤音片段的稳定度分值;
基于所述多个颤音片段对应的基频序列的序列幅度,确定所述多个颤音片段的幅度分值;
分别将每个颤音片段的时长分值、稳定度分值以及幅度分值之和确定为每个颤音片段的颤音分值,得到所述多个颤音片段的颤音分值。
在本申请一种可能的实现方式中,所述第一确定模块用于:
对于所述多个颤音片段中的第一颤音片段,当所述第一颤音片段的颤音片段时长小于第一时长阈值时,根据所述第一颤音片段的颤音片段时长和第二数值,确定所述第一颤音片段的时长分值,所述第一颤音片段为所述多个颤音片段中的任一颤音片段;或者,
当所述第一颤音片段的颤音片段时长大于或等于所述第一时长阈值时,将所述第二数值确定为所述第一颤音片段的时长分值。
在本申请一种可能的实现方式中,所述第一确定模块用于:
对于所述多个颤音片段中的第二颤音片段,当所述第二颤音片段对应的基频序列的序列幅度小于幅度阈值时,根据所述第二颤音片段对应的基频序列的序列幅度和第三数值,确定所述第二颤音片段的幅度分值,所述第二颤音片段为所述多个颤音片段中的任一颤音片段;或者,
当所述第二颤音片段对应的基频序列的序列幅度大于或等于所述幅度阈值时,将所述第三数值确定为所述第二颤音片段的幅度分值。
在本申请一种可能的实现方式中,所述第二确定模块用于:
从所述多个颤音片段的颤音分值中确定最高的颤音分值;
根据所述多个颤音片段的颤音片段个数,确定颤音个数分值;
将所述最高的颤音分值和所述颤音个数分值之和确定为所述待评分音频的音频颤音分值。
在本申请一种可能的实现方式中,所述第二确定模块用于:
当所述多个颤音片段的颤音片段个数小于个数阈值时,将所述颤音片段个数确定为所述颤音个数分值;或者,
当所述多个颤音片段的颤音片段个数大于或等于所述个数阈值时,将第四数值确定为所述颤音个数分值。
在本申请一种可能的实现方式中,所述第一获取模块用于:
以指定时长为窗口时长,以指定步长为移动距离,在多个窗口内对所述待评分音频的基频序列进行快速傅里叶变换处理,得到所述多个窗口对应的频谱;
对所述多个窗口对应的频谱分别取平方,得到所述多个窗口对应的功率谱;
根据所述多个窗口对应的功率谱,在每个窗口内确定指定频段内的功率谱能量与每个窗口内的功率谱总能量的比值,得到每个窗口对应的颤音可能性值;
根据所述多个窗口对应的颤音可能性值,从所述待评分音频中确定所述多个颤音片段。
在本申请一种可能的实现方式中,所述第一获取模块用于:
根据所述多个窗口对应的颤音可能性值,从所述待评分音频的基频序列中确定颤音可能性值大于或等于可能性阈值的候选基频序列;
确定连续时长大于第二时长阈值的目标候选基频序列的频谱分布稳定度、频率和序列幅度;
根据所述目标候选基频序列的频谱分布稳定度、频率和序列幅度,从所述待评分音频中确定所述多个颤音片段。
在本申请一种可能的实现方式中,所述第一获取模块用于:
对所述目标候选基频序列进行快速傅里叶变换处理,对处理结果取平方,得到目标候选基频序列的功率谱;
根据所述目标候选基频序列的功率谱,确定所述目标候选基频序列在预设频段内的功率谱能量与所述目标候选基频序列的功率谱总能量的比值,得到所述目标候选基频序列的频谱分布稳定度;
根据所述目标候选基频序列的多个基频振动周期的周期时长和周期个数,确定所述目标候选基频序列的频率,每个基频振动周期内的基频序列去均值化后过零点两次;
根据所述目标候选基频序列的多个基频振动周期的基频差值和周期个数,确定所述目标候选基频序列的序列幅度,每个基频振动周期的基频差值是指每个基频振动周期内基频频率最大值与基频频率最小值之间的差值。
在本申请一种可能的实现方式中,所述第一获取模块还用于:
对于所述多个颤音片段中的每个颤音片段,从每个颤音片段的开始时刻起,对每个颤音片段对应的进度条进行突出显示。
另一方面,提供了一种设备,所述设备包括存储器和处理器,所述存储器用于存放计算机程序,所述处理器用于执行所述存储器上所存放的计算机程序,以实现上述所述的音频的评分方法的步骤。
另一方面,提供了一种计算机可读存储介质,所述存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现上述所述音频的评分方法的步骤。
另一方面,提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述所述的音频的评分方法的步骤。
本申请提供的技术方案至少可以带来以下有益效果:
在本申请实施例中,可以先获取待评分音频的基频序列对应的多个颤音片段,即将颤音片段从待评分音频中单独提取出来,然后获取多个颤音片段对应的基频序列的颤音特征信息,该颤音特征信息至少包括频谱分布稳定度和序列幅度,根据多个颤音片段的颤音片段时长以及多个颤音片段对应的基频序列的频谱分布稳定度和序列幅度,确定多个颤音片段的颤音分值,可以描述待评分音频在颤音方面的分值,再根据多个颤音片段的颤音分值和颤音片段个数,确定待评分音频的音频颤音分值,并基于该音频颤音分值,对待评分音频进行评分。如此,在传统评分关注音准的基础上还关注了颤音片段,进一步确定了待评分音频的音频颤音分值,克服了现有技术仅关注待评分音频的音准的评分方法太过单一,导致得到的分值比较片面的问题。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是根据一示例性实施例示出的一种音频的评分方法的流程图;
图2是根据一示例性实施例示出的一种待评分音频的基频序列的示意图;
图3是根据一示例性实施例示出的一种频谱图;
图4是根据一示例性实施例示出的一种对待评分音频进行颤音片段分析的示意图;
图5是根据另一示例性实施例示出的一种对待评分音频进行颤音片段分析的示意图;
图6是根据一示例性实施例示出的一种去均值化后的基频序列的示意图;
图7是根据一示例性实施例示出的一种确定基频序列对应的颤音片段的示意图;
图8是根据一示例性实施例示出的一种显示颤音片段的页面示意图;
图9是根据一示例性实施例示出的一种显示待评分音频的音频颤音分值的页面示意图;
图10是根据一示例性实施例示出的一种音频的评分装置的结构示意图;
图11是根据一示例性实施例示出的一种设备的结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
在对本申请实施例提供的音频的评分方法进行详细的解释说明之前,先对本申请实施例的实施环境进行介绍。
本申请实施例提供的音频的评分方法可以由设备来执行,该设备可以安装音乐软件,且该设备可以包括录音功能。
作为一种示例,该设备可以是任何一种可与用户通过键盘、触摸板、触摸屏、遥控器、语音交互或手写设备等一种或多种方式进行人机交互的电子产品,例如PC(PersonalComputer,个人计算机)、手机、智能手机、PDA(Personal Digital Assistant,个人数字助手)、可穿戴设备、掌上电脑PPC(Pocket PC)、平板电脑、智能车机、智能电视、智能音箱等,本申请实施例对此不做限定。
本领域技术人员应能理解上述设备仅为举例,其他现有的或今后可能出现的设备如可适用于本申请,也应包含在本申请保护范围以内,并在此以引用方式包含于此。
在介绍完本申请实施例涉及的实施环境后,接下来将结合附图对本申请实施例提供的音频的评分方法进行详细的解释说明。
图1是根据一示例性实施例示出的一种音频的评分方法的流程图,该方法可以应用于上述设备中。请参考图1,该方法可以包括如下步骤:
步骤101:获取待评分音频的基频序列对应的多个颤音片段。
其中,基频序列由多个基频组成,可以用来决定待评分音频的旋律。基频是基音的频率,自然声音一般可以分解成不同的正弦波,其中频率最低的正弦波为基音,而基音的频率可以称为基频。
需要说明的是,要从待评分音频中确定多个颤音片段,需要通过待评分音频的基频序列来判断,因此,可以通过基频提取算法从待评分音频中提取待评分音频的基频序列。示例性地,参见图2,图2为待评分音频的基频序列的示意图。
作为一种示例,获取待评分音频的基频序列对应的多个颤音片段时,可以对待评分音频的基频序列进行快速傅里叶变换,再根据变换结果确定多个颤音片段。由于进行快速傅里叶变换的信号必须是平稳的信号,因此,可以以窗口为单位对待评分音频的基频序列进行快速傅里叶变换处理。
在一些实施例中,可以以指定时长为窗口时长,以指定步长为移动距离,在多个窗口内对待评分音频的基频序列进行快速傅里叶变换处理,得到多个窗口对应的频谱。对多个窗口对应的频谱分别取平方,得到多个窗口对应的功率谱,根据多个窗口对应的功率谱,在每个窗口内确定指定频段内的功率谱能量与每个窗口内的功率谱总能量的比值,得到每个窗口对应的颤音可能性值。根据多个窗口对应的颤音可能性值,从待评分音频中确定多个颤音片段。
其中,指定时长和指定步长可以分别由用户根据实际需要进行设置,也可以分别由设备默认设置,本申请实施例对此不做限定。
其中,指定频段指的是理论上颤音片段的频率所在的频段,可以为4-8HZ。
其中,颤音可能性值可以用于指示每个窗口对应的待评分音频的音频片段为颤音片段的可能性。
作为一种示例,为了提高计算效率及精度,可以以50ms为窗口时长,以5ms为移动距离,在窗口内对待评分音频的基频序列进行快速傅里叶变换处理,得到多个窗口对应的频谱。
示例性地,可以在第一个窗口内对待评分音频的0-50ms的基频序列进行快速傅里叶变换,得到第一个窗口对应的频谱,在第二个窗口内对待评分音频的5-55ms的基频序列进行快速傅里叶变换,得到第二个窗口对应的频谱,以此类推,在多个窗口内对待评分音频的基频序列进行快速傅里叶变换,得到多个窗口对应的频谱。参见图3,图3为在一个窗口内对待评分音频的基频序列进行快速傅里叶变换得到的频谱绘制的频谱图。
需要说明的是,上述仅是以窗口时长为50ms,移动距离为5ms为例进行说明,在实际实现中,窗口时长可以取任意值,移动距离也可以取任意值,且可以根据实际需要进行调整,本申请实施例对此不做限定。
作为一种示例,得到多个窗口对应的频谱后,可以分别对每个窗口对应的频谱取平方,得到每个窗口对应的功率谱。
作为一种示例,得到多个窗口对应的功率谱之后,对于多个窗口中的任一窗口,可以根据该窗口对应的功率谱,在该窗口内确定指定频段内的功率谱能量与该窗口内的功率谱总能量的比值,将该比值确定为该窗口对应的待评分音频的音频片段为颤音片段的颤音可能性值。
在一种可能的实现方式中,可以通过如下公式(1)来计算窗口的颤音可能性值。
其中,P表示窗口的颤音可能性值,X(f,t)表示归一化后的窗口内基频序列对应的功率谱,f表示频率,t表示时间,指示该功率谱是对从t时刻开始的指定时长内的基频序列进行快速傅里叶变换并取平方后得到的,表示在4HZ-8HZ频段内的功率谱能量,∫X(f,t)dt表示窗口内的功率谱总能量。
作为另一种示例,还可以在得到每个窗口对应的频谱后,直接根据每个窗口对应的频谱,在每个窗口内确定指定频段内的频谱能量与每个窗口内的频谱总能量的比值,得到每个窗口对应的颤音可能性值。
在一些实施例中,确定多个窗口对应的颤音可能性值后,可以根据多个窗口对应的颤音可能性值,从待评分音频中确定多个颤音片段,具体实现可以包括:根据多个窗口对应的颤音可能性值,从待评分音频的基频序列中确定颤音可能性值大于或等于可能性阈值的候选基频序列,确定连续时长大于第二时长阈值的目标候选基频序列的频谱分布稳定度、频率和序列幅度。根据目标候选基频序列的频谱分布稳定度、频率和序列幅度,从待评分音频中确定多个颤音片段。
其中,可能性阈值可以由用户根据实际需要进行设置,也可以由设备默认设置,本申请实施例对此不做限定。
其中,候选基频序列为待评分音频的基频序列中颤音可能性值大于或等于可能性阈值的基频序列;目标候选基频序列为候选基频序列中连续时长大于第二时长阈值的候选基频序列。
其中,第二时长阈值可以由用户根据实际需要进行设置,也可以由设备默认设置,本申请实施例对此不做限定。
作为一种示例,可以根据多个窗口对应的颤音可能性值,将每个窗口对应的颤音可能性值与可能性阈值进行比较,当某窗口的颤音可能性值大于或等于可能性阈值时,可以认为该窗口内的基频序列对应的音频片段可能是颤音片段,将该窗口内的基频序列确定为候选基频序列。
示例性地,参见图4,图4为时间-颤音可能性值图与时间-基频序列图,图中可能性阈值为0.25,在时间-颤音可能性值图中可以看出,位于直线之上的部分对应的基频序列为候选基频序列,从该图中可以确定每个候选基频序列的开始时间和结束时间,在时间-基频序列图中对应的开始时间和结束时间内的基频序列即为候选基频序列,可以看出候选基频序列的数量通常为多个。参见图5,图5为对一个待评分音频进行颤音片段分析的示意图。
作为一种示例,由于在多个候选基频序列中,有的候选基频序列的连续时长非常短,可以认为该部分候选基频序列对应的待评分音频的音频片段不是颤音片段,当候选基频序列的连续时长大于第二时长阈值时,可以认为该候选基频序列对应的待评分音频的音频片段为颤音片段的可能性较大,将连续时长大于第二时长阈值的候选基频序列确定为目标候选基频序列,再确定连续时长大于第二时长阈值的目标候选基频序列的频谱分布稳定度、频率和序列幅度。
在一种可能的实现方式中,确定连续时长大于第二时长阈值的目标候选基频序列的频谱分布稳定度、频率和序列幅度的具体实现可以包括:对目标候选基频序列进行快速傅里叶变换处理,对处理结果取平方,得到目标候选基频序列的功率谱。根据目标候选基频序列的功率谱,确定目标候选基频序列在指定频段内的功率谱能量与目标候选基频序列的功率谱总能量的比值,得到目标候选基频序列的频谱分布稳定度;根据目标候选基频序列的多个基频振动周期的周期时长和周期个数,确定目标候选基频序列的频率,每个基频振动周期内的基频序列去均值化后过零点两次;根据目标候选基频序列的多个基频振动周期的基频差值和周期个数,确定目标候选基频序列的序列幅度,每个基频振动周期的基频差值是指每个基频振动周期内基频频率最大值与基频频率最小值之间的差值。
作为一种示例,目标候选基频序列的数量通常为多个,确定连续时长大于第二时长阈值的目标候选基频序列的频谱分布稳定度时,对于任一目标候选基频序列,可以对该目标候选基频序列进行快速傅里叶变换处理,再对处理结果取平方,得到目标候选基频序列的功率谱,然后根据目标候选基频序列的功率谱,确定该目标候选基频序列在指定频段内的功率谱能量与该目标候选基频序列的功率谱总能量的比值,将该比值确定为该目标候选基频序列的频谱分布稳定度。
需要说明的是,上述对目标候选基频序列进行快速傅里叶变换处理,并对结果进行处理得到功率谱的具体实现与上述实施例确定多个窗口对应的功率谱的过程相同,具体可参见上述实施例,本实施例在此不再赘述。
示例性地,基于目标候选基频序列的功率谱,可以通过如下公式(2)来确定目标候选基频序列的频谱分布稳定度。
其中,likelihood表示目标候选基频序列的频谱分布稳定度,X(f,t)表示目标候选基频序列的功率谱,f表示频率,t表示时间,表示目标候选基频序列在4HZ-8HZ频段内的功率谱能量,∫X(f,t)dt表示目标候选基频序列的功率谱总能量。
作为一种示例,确定连续时长大于第二时长阈值的目标候选基频序列的频率时,对于任一目标候选基频序列,可以根据该目标候选基频序列的多个基频振动周期的周期时长和周期个数,确定目标候选基频序列的频率,每个基频振动周期内的基频序列去均值化后过零点两次。
其中,去均值化指的是将目标候选基频序列中每个点的基频频率相加取平均值,再用每个点的基频频率减去平均值,将得到的每个点的基频频率与时间的对应关系用基频序列描述,此时的基频序列为去均值化后的基频序列。
其中,每个基频振动周期内的基频序列去均值化后过零点两次。参见图6,A为一种在一个完整的基频振动周期内的基频序列,B为另一种在一个完整的基频振动周期内的基频序列,C虽然过零点两次,但不是一个完整的基频振动周期的基频序列。
示例性地,可以通过如下公式(3)确定目标候选基频序列的频率。
示例性地,参见图6,可以确定图6中第一个基频振动周期的周期时长为4ms,第二个基频振动周期的周期时长为12ms。
作为一种示例,确定连续时长大于第二时长阈值的目标候选基频序列的序列幅度时,对于任一目标候选基频序列,可以根据目标候选基频序列的多个基频振动周期的基频差值和周期个数,确定目标候选基频序列的序列幅度,每个基频振动周期的基频差值是指每个基频振动周期内基频频率最大值与基频频率最小值之间的差值。
示例性地,可以通过如下公式(4)确定目标候选基频序列的序列幅度。
其中,extent表示目标候选基频序列的序列幅度,En表示目标候选基频序列中第n个基频振动周期的基频差值,N表示目标候选基频序列中基频振动周期的周期个数。
作为一种示例,确定目标候选基频序列的频谱分布稳定度、频率和序列幅度之后,可以根据目标候选基频序列的频谱分布稳定度、频率和序列幅度,通过阈值法对目标候选基频序列进行过滤,确定符合要求的目标候选基频序列,将符合要求的目标候选基频序列对应的音频片段从待评分音频中选择出来,进而确定多个颤音片段。
示例性地,当目标候选基频序列的频谱分布稳定度大于第一阈值,且目标候选基频序列的频率大于第二阈值,且目标候选基频序列的序列幅度大于第三阈值,可以确定该目标候选基频序列对应的待评分音频的音频片段为颤音片段;或者,当目标候选基频序列的频谱分布稳定度大于第一阈值,或目标候选基频序列的频率大于第二阈值,或目标候选基频序列的序列幅度大于第三阈值,可以确定该目标候选基频序列对应的待评分音频的音频片段为颤音片段。参见图7,在图7所示的时间-基频序列中,位于两条虚线内的基频序列对应的音频片段为颤音片段。
值得注意的是,在另一些实施例中,还可以通过其他方法从待评分音频中确定多个颤音片段。
第一种实现方式,可以基于待评分音频的基频序列,通过隐马尔可夫模型从待评分音频中确定多个颤音片段。示例性地,可以获取多个带有颤音标注的基频序列,将该多个带有颤音标注的基频序列输入隐马尔可夫模型中对该模型进行训练,以得到颤音识别模型,然后将待评分音频的基频序列输入至颤音识别模型中,输出待评分音频的基频序列中每预设时间段的基频序列的颤音判断结果,将连续的颤音判断结果为是的基频序列对应的音频片段确定为颤音片段。
其中,颤音判断结果包括是或否两种结果。
示例性地,预设时间段可以为5ms,且预设时间段可以由用户根据实际需要进行设置,也可以由设备默认设置,本申请实施例对此不做限定。
第二种实现方式,可以对待评分音频的基频序列进行短时傅里叶变换处理,得到待评分音频的基频序列对应的语谱,并绘制待评分音频的语谱图,将语谱图按照一定的规律进行分段,得到多个语谱图,对于多个语谱图中的每个语谱图,将每个语谱图分别与预先存储的多个不同频率、幅值的短颤音片段的语谱图进行匹配,若匹配成功,根据连续匹配成功的多个语谱图确定起止时间,将位于该时间段内的待评分音频的音频片段确定为颤音片段。
第三种实现方式,可以对待评分音频的基频序列进行短时傅里叶变换处理,得到待评分音频的基频序列对应的语谱,并绘制待评分音频的语谱图,将该语谱图输入训练好的颤音检测网络中,可以输出多个音频的起止时间,将音频的起止时间大于时间阈值的待评分音频的音频片段确定为颤音片段。
其中,时间阈值可以由用户根据实际需要进行设置,也可以由设备默认设置,本申请实施例对此不做限定。
进一步地,在根据待评分音频的基频序列,从待评分音频中确定多个待评分音频片段后,对于多个颤音片段中的每个颤音片段,可以从每个颤音片段开始时刻起,对每个颤音片段对应的进度条进行突出显示。
作为一种示例,可以在用户录制待评分音频的过程中,以波浪线或高亮标出进度条的形式对颤音片段对应的进度条进行突出显示。示例性地,参见图8,可以在录制过程中从颤音片段的开始时间起,在进度条上方显示一条波浪线,直到该颤音片段的结束时间,停止波浪线的显示。
如此,在录制过程中只要用户唱出了颤音就可以实时显示出来,使得用户能够实时感受到自己的唱功,提高了用户的使用体验。
步骤102:获取多个颤音片段对应的基频序列的颤音特征信息,该颤音特征信息至少包括频谱分布稳定度和序列幅度。
由于多个颤音片段是从目标基频序列对应的颤音片段中选择的,目标基频序列的频谱分布稳定度和序列幅度在步骤101已经确定,因此,可以直接获取多个颤音片段对应的基频序列的颤音特征信息。
步骤103:根据多个颤音片段的颤音片段时长、以及多个颤音片段对应的基频序列的频谱分布稳定度和序列幅度,确定多个颤音片段的颤音分值。
在一些实施例中,确定多个颤音片段的颤音分值可以包括如下几个步骤:
(1)基于多个颤音片段的颤音片段时长,确定多个颤音片段的时长分值。
作为一种示例,对于多个颤音片段中的第一颤音片段,当第一颤音片段的颤音片段时长小于第一时长阈值时,根据第一颤音片段的颤音片段时长和第二数值,确定第一颤音片段的时长分值,第一颤音片段为多个颤音片段中的任一颤音片段;或者,当第一颤音片段的颤音片段时长大于或等于第一时长阈值时,将第二数值确定为第一颤音片段的时长分值。
其中,第一时长阈值可以由用户根据实际需要进行设置,也可以由设备默认设置,本申请实施例对此不做限定。
也就是说,对于多个颤音片段中的每个颤音片段,可以按照上述方法确定每个颤音片段的时长分值,在计算颤音片段的时长分值时,按照颤音片段的时长不同,可以分为两种计算方法。
示例性地,可以通过如下公式(5)来计算颤音片段的时长分值。
其中,S1表示单个颤音片段的时长分值,t表示单个颤音片段的颤音片段时长,35为第二数值。
需要说明的是,在上述公式(5)中,仅以35为第二数值进行举例,且公式中的0.4和1.5也仅是示例性的数值,在实际实现中,第二数值以及公式(5)中的其他数值均可以由用户根据实际需要进行设置,也可以由设备默认设置,本申请实施例对此不做限定。
(2)分别将每个颤音片段对应的基频序列的频谱分布稳定度与第一数值相乘,得到每个颤音片段的稳定度分值。
示例性地,可以通过如下公式(6)来计算颤音片段的稳定度分值。
S2=25*likelihood (6)
其中,S2表示单个颤音片段的稳定度分值,likelihood表示单个颤音片段的频谱分布稳定度,25为第一数值。
需要说明的是,在上述公式(6)中,仅以25为第一数值进行举例,在实际实现中,第一数值可以由用户根据实际需要进行设置,也可以由设备默认设置,本申请实施例对此不做限定。
(3)基于多个颤音片段对应的基频序列的序列幅度,确定多个颤音片段的幅度分值。
作为一种示例,对于多个颤音片段中的第二颤音片段,当第二颤音片段对应的基频序列的序列幅度小于幅度阈值时,根据第二颤音片段对应的基频序列的序列幅度和第三数值,确定第二颤音片段的幅度分值,第二颤音片段为多个颤音片段中的任一颤音片段;或者,当第二颤音片段对应的基频序列的序列幅度大于或等于幅度阈值时,将第三数值确定为第二颤音片段的幅度分值。
其中,幅度阈值可以由用户根据实际需要进行设置,也可以由设备默认设置,本申请实施例对此不做限定。
也就是说,对于多个颤音片段中的每个颤音片段,可以按照上述方法确定每个颤音片段的幅度分值,在计算颤音片段的幅度分值时,按照颤音片段对应的基频序列的序列幅度不同,可以分为两种计算方法。
示例性地,可以通过如下公式(7)来计算颤音片段的幅度分值。
其中,S3表示单个颤音片段的幅度分值,extent表示单个颤音片段的序列幅度,10为第三数值。
需要说明的是,在上述公式(7)中,仅以10为第三数值进行举例,且公式中的0.15和1也仅是示例性的数值,在实际实现中,第三数值以及公式(7)中的其他数值均可以由用户根据实际需要进行设置,也可以由设备默认设置,本申请实施例对此不做限定。
(4)分别将每个颤音片段的时长分值、稳定度分值以及幅度分值之和确定为每个颤音片段的颤音分值,得到多个颤音片段的颤音分值。
也就是说,对于单个颤音片段来说,将该颤音片段的时长分值、稳定度分值和幅度分值相加,将相加得到的和确定为该颤音片段的颤音分值。对于多个颤音片段均进行上述操作,可以确定多个颤音片段的颤音分值。
示例性地,可以用S表示单个颤音片段的颤音分值。
需要说明的是,可以在录制待评分音频的过程中将每个颤音片段的颤音分值进行实时显示。
步骤104:根据多个颤音片段的颤音分值和颤音片段个数,确定待评分音频的音频颤音分值。
在一些实施例中,该步骤103的具体实现可以包括:从多个颤音片段的颤音分值中确定最高的颤音分值,根据多个颤音片段的颤音片段个数,确定颤音个数分值。将最高的颤音分值和颤音个数分值之和确定为待评分音频的音频颤音分值。
作为一种示例,可以将多个颤音片段按照该多个颤音片段的颤音分值从高到低的顺序进行排列,将顺序排在第一个的颤音片段的颤音分值确定为最高的颤音分值。
示例性地,假设颤音片段A的颤音分值为60,颤音片段B的颤音分值为70,颤音片段C的颤音分值为68,颤音片段D的颤音分值为62,将该四个颤音片段排序后得到BCDA,可以将颤音片段B的颤音分值确定为最高的颤音分值,即最高的颤音分值为70。
作为一种示例,确定颤音个数分值时,根据多个颤音片段的颤音片段个数不同,分为两种情况:当多个颤音片段的颤音片段个数小于个数阈值时,将颤音片段个数确定为颤音个数分值;或者,当多个颤音片段的颤音片段个数大于或等于个数阈值时,将第四数值确定为颤音个数分值。
其中,个数阈值可以由用户根据实际需要进行设置,也可以由设备默认设置,本申请实施例对此不做限定。
示例性地,可以通过如下公式(8)来计算颤音个数分值。
其中,S4表示颤音个数分值,x表示颤音片段个数,30为第四数值。
需要说明的是,在上述公式(8)中,仅以30为第四数值进行举例,在实际实现中,第四数值可以由用户根据实际需要进行设置,也可以由设备默认设置,本申请实施例对此不做限定。
作为一种示例,确定最高的颤音分值和颤音个数分值后,可以通过如下公式(9)确定待评分音频的音频颤音分值。
音频颤音分值=max(S)+S4 (9)
继续上述举例,假设待评分音频中包括4个颤音片段,可以确定颤音个数分值为4,最高的颤音分值为70,可以确定待评分音频的音频颤音分值为74。
在另一些实施例中,可以根据多个颤音片段的颤音分值,确定多个颤音片段的平均颤音片段分值,然后根据多个颤音片段的颤音片段个数,确定颤音个数分值;将平均颤音分值和颤音个数分值之和确定为待评分音频的音频颤音分值。
继续上述举例,可以确定平均颤音分值为(60+70+68+62)÷4=65,颤音个数分值为4,进而确定待评分音频的音频颤音分值为69。
步骤105:基于音频颤音分值,对待评分音频进行评分。
在一些实施例中,确定待评分音频的音频颤音分值后,可以基于音频颤音分值,对待评分音频进行评分。
示例性地,可以通过基频提取方法分别提取原唱音频的基频序列和待评分音频的基频序列,并通过动态时间规整方法,确定原唱音频的基频序列与待评分音频的基频序列之间的相似度,再根据相似度确定待评分音频的分值。例如,可以将该相似度确定为待评分音频的分值,或者,可以将该相似度与预设数值的乘积作为待评分音频的分值。然后可以将待评分音频的音频颤音分值与待评分音频的分值相加,得到待评分音频的总体分值;或者,可以将待评分音频的分值与待评分音频的音频颤音分值按照一定的权重相加,得到待评分音频的总体分值;又或者,可以将待评分音频的分值与待评分音频的音频颤音分值分别显示在页面中。
其中,预设数值可以由用户根据实际需要进行设置,也可以由设备默认设置,本申请实施例对此不做限定。
作为一种示例,可以在待评分音频录制结束时,将待评分音频的总体分值在页面上显示;或者,参见图9,可以将待评分音频的分值显示在页面中,将待评分音频的音频颤音分值换算成星级,以星级的方式显示在页面中。
在本申请实施例中,可以先获取待评分音频的基频序列对应的多个颤音片段,即将颤音片段从待评分音频中单独提取出来,然后获取多个颤音片段对应的基频序列的颤音特征信息,该颤音特征信息至少包括频谱分布稳定度和序列幅度,根据多个颤音片段的颤音片段时长以及多个颤音片段对应的基频序列的频谱分布稳定度和序列幅度,确定多个颤音片段的颤音分值,可以描述待评分音频在颤音方面的分值,再根据多个颤音片段的颤音分值和颤音片段个数,确定待评分音频的音频颤音分值,并基于该音频颤音分值,对待评分音频进行评分。如此,在传统评分关注音准的基础上还关注了颤音片段,进一步确定了待评分音频的音频颤音分值,克服了现有技术仅关注待评分音频的音准的评分方法太过单一,导致得到的分值比较片面的问题。
图10是根据一示例性实施例示出的一种音频的评分装置的结构示意图,该音频的评分装置可以由软件、硬件或者两者的结合实现成为设备的部分或者全部。请参考图10,该装置包括:第一获取模块1001、第二获取模块1002、第一确定模块1003、第二确定模块1004和评分模块1005。
第一获取模块1001,用于获取待评分音频的基频序列对应的多个颤音片段;
第二获取模块1002,用于获取多个颤音片段对应的基频序列的颤音特征信息,颤音特征信息至少包括频谱分布稳定度和序列幅度;
第一确定模块1003,用于根据多个颤音片段的颤音片段时长、以及多个颤音片段对应的基频序列的频谱分布稳定度和序列幅度,确定多个颤音片段的颤音分值;
第二确定模块1004,用于根据多个颤音片段的颤音分值和颤音片段个数,确定待评分音频的音频颤音分值;
评分模块1005,用于基于音频颤音分值,对待评分音频进行评分
在本申请一种可能的实现方式中,第一确定模块1003用于:
基于多个颤音片段的颤音片段时长,确定多个颤音片段的时长分值;
分别将每个颤音片段对应的基频序列的频谱分布稳定度与第一数值相乘,得到每个颤音片段的稳定度分值;
基于多个颤音片段对应的基频序列的序列幅度,确定多个颤音片段的幅度分值;
分别将每个颤音片段的时长分值、稳定度分值以及幅度分值之和确定为每个颤音片段的颤音分值,得到多个颤音片段的颤音分值。
在本申请一种可能的实现方式中,第一确定模块1003用于:
对于多个颤音片段中的第一颤音片段,当第一颤音片段的颤音片段时长小于第一时长阈值时,根据第一颤音片段的颤音片段时长和第二数值,确定第一颤音片段的时长分值,第一颤音片段为多个颤音片段中的任一颤音片段;或者,
当第一颤音片段的颤音片段时长大于或等于第一时长阈值时,将第二数值确定为第一颤音片段的时长分值。
在本申请一种可能的实现方式中,第一确定模块1003用于:
对于多个颤音片段中的第二颤音片段,当第二颤音片段对应的基频序列的序列幅度小于幅度阈值时,根据第二颤音片段对应的基频序列的序列幅度和第三数值,确定第二颤音片段的幅度分值,第二颤音片段为多个颤音片段中的任一颤音片段;或者,
当第二颤音片段对应的基频序列的序列幅度大于或等于幅度阈值时,将第三数值确定为第二颤音片段的幅度分值。
在本申请一种可能的实现方式中,第二确定模块1004用于:
从多个颤音片段的颤音分值中确定最高的颤音分值;
根据多个颤音片段的颤音片段个数,确定颤音个数分值;
将最高的颤音分值和颤音个数分值之和确定为待评分音频的音频颤音分值。
在本申请一种可能的实现方式中,第二确定模块1004用于:
当多个颤音片段的颤音片段个数小于个数阈值时,将颤音片段个数确定为颤音个数分值;或者,
当多个颤音片段的颤音片段个数大于或等于个数阈值时,将第四数值确定为颤音个数分值。
在本申请一种可能的实现方式中,第一获取模块1001用于:
以指定时长为窗口时长,以指定步长为移动距离,在多个窗口内对待评分音频的基频序列进行快速傅里叶变换处理,得到多个窗口对应的频谱;
对多个窗口对应的频谱分别取平方,得到多个窗口对应的功率谱;
根据多个窗口对应的功率谱,在每个窗口内确定指定频段内的功率谱能量与每个窗口内的功率谱总能量的比值,得到每个窗口对应的颤音可能性值;
根据多个窗口对应的颤音可能性值,从待评分音频中确定多个颤音片段。
在本申请一种可能的实现方式中,第一获取模块1001用于:
根据多个窗口对应的颤音可能性值,从待评分音频的基频序列中确定颤音可能性值大于或等于可能性阈值的候选基频序列;
确定连续时长大于第二时长阈值的目标候选基频序列的频谱分布稳定度、频率和序列幅度;
根据目标候选基频序列的频谱分布稳定度、频率和序列幅度,从待评分音频中确定多个颤音片段。
在本申请一种可能的实现方式中,第一获取模块1001用于:
对目标候选基频序列进行快速傅里叶变换处理,对处理结果取平方,得到目标候选基频序列的功率谱;
根据目标候选基频序列的功率谱,确定目标候选基频序列在预设频段内的功率谱能量与目标候选基频序列的功率谱总能量的比值,得到目标候选基频序列的频谱分布稳定度;
根据目标候选基频序列的多个基频振动周期的周期时长和周期个数,确定目标候选基频序列的频率,每个基频振动周期内的基频序列去均值化后过零点两次;
根据目标候选基频序列的多个基频振动周期的基频差值和周期个数,确定目标候选基频序列的序列幅度,每个基频振动周期的基频差值是指每个基频振动周期内基频频率最大值与基频频率最小值之间的差值。
在本申请一种可能的实现方式中,第一获取模块1001还用于:
对于多个颤音片段中的每个颤音片段,从每个颤音片段的开始时刻起,对每个颤音片段对应的进度条进行突出显示。
在本申请实施例中,可以先获取待评分音频的基频序列对应的多个颤音片段,即将颤音片段从待评分音频中单独提取出来,然后获取多个颤音片段对应的基频序列的颤音特征信息,该颤音特征信息至少包括频谱分布稳定度和序列幅度,根据多个颤音片段的颤音片段时长以及多个颤音片段对应的基频序列的频谱分布稳定度和序列幅度,确定多个颤音片段的颤音分值,可以描述待评分音频在颤音方面的分值,再根据多个颤音片段的颤音分值和颤音片段个数,确定待评分音频的音频颤音分值,并基于该音频颤音分值,对待评分音频进行评分。如此,在传统评分关注音准的基础上还关注了颤音片段,进一步确定了待评分音频的音频颤音分值,克服了现有技术仅关注待评分音频的音准的评分方法太过单一,导致得到的分值比较片面的问题。
需要说明的是:上述实施例提供的音频的评分装置在对音频进行评分时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的音频的评分装置与音频的评分方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
图11是本申请实施例提供的一种设备1100的结构框图。该设备1100可以是便携式移动终端,比如:智能手机、平板电脑、MP3播放器(Moving Picture Experts Group AudioLayer III,动态影像专家压缩标准音频层面3)、MP4(Moving Picture Experts GroupAudio Layer IV,动态影像专家压缩标准音频层面4)播放器、笔记本电脑或台式电脑。设备1100还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。
通常,设备1100包括有:处理器1101和存储器1102。
处理器1101可以包括一个或多个处理核心,比如4核心处理器、8核心处理器等。处理器1101可以采用DSP(Digital Signal Processing,数字信号处理)、FPGA(Field-Programmable Gate Array,现场可编程门阵列)、PLA(Programmable Logic Array,可编程逻辑阵列)中的至少一种硬件形式来实现。处理器1101也可以包括主处理器和协处理器,主处理器是用于对在唤醒状态下的数据进行处理的处理器,也称CPU(Central ProcessingUnit,中央处理器);协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中,处理器1101可以在集成有GPU(Graphics Processing Unit,图像处理器),GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中,处理器1101还可以包括AI(Artificial Intelligence,人工智能)处理器,该AI处理器用于处理有关机器学习的计算操作。
存储器1102可以包括一个或多个计算机可读存储介质,该计算机可读存储介质可以是非暂态的。存储器1102还可包括高速随机存取存储器,以及非易失性存储器,比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中,存储器1102中的非暂态的计算机可读存储介质用于存储至少一个指令,该至少一个指令用于被处理器1101所执行以实现本申请中方法实施例提供的音频的评分方法。
在一些实施例中,设备1100还可选包括有:***设备接口1103和至少一个***设备。处理器1101、存储器1102和***设备接口1103之间可以通过总线或信号线相连。各个***设备可以通过总线、信号线或电路板与***设备接口1103相连。具体地,***设备包括:射频电路1104、显示屏1105、摄像头组件1106、音频电路1107、定位组件1108和电源1109中的至少一种。
***设备接口1103可被用于将I/O(Input/Output,输入/输出)相关的至少一个***设备连接到处理器1101和存储器1102。在一些实施例中,处理器1101、存储器1102和***设备接口1103被集成在同一芯片或电路板上;在一些其他实施例中,处理器1101、存储器1102和***设备接口1103中的任意一个或两个可以在单独的芯片或电路板上实现,本实施例对此不加以限定。
射频电路1104用于接收和发射RF(Radio Frequency,射频)信号,也称电磁信号。射频电路1104通过电磁信号与通信网络以及其他通信设备进行通信。射频电路1104将电信号转换为电磁信号进行发送,或者,将接收到的电磁信号转换为电信号。可选地,射频电路1104包括:天线***、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路1104可以通过至少一种无线通信协议来与其它设备进行通信。该无线通信协议包括但不限于:万维网、城域网、内联网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity,无线保真)网络。在一些实施例中,射频电路1104还可以包括NFC(Near Field Communication,近距离无线通信)有关的电路,本申请对此不加以限定。
显示屏1105用于显示UI(User Interface,用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏1105是显示屏时,显示屏1105还具有采集在显示屏1105的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器1101进行处理。此时,显示屏1105还可以用于提供虚拟按钮和/或虚拟键盘,也称软按钮和/或软键盘。在一些实施例中,显示屏1105可以为一个,设置设备1100的前面板;在另一些实施例中,显示屏1105可以为至少两个,分别设置在设备1100的不同表面或呈折叠设计;在再一些实施例中,显示屏1105可以是柔性显示屏,设置在设备1100的弯曲表面上或折叠面上。甚至,显示屏1105还可以设置成非矩形的不规则图形,也即异形屏。显示屏1105可以采用LCD(Liquid Crystal Display,液晶显示屏)、OLED(Organic Light-Emitting Diode,有机发光二极管)等材质制备。
摄像头组件1106用于采集图像或视频。可选地,摄像头组件1106包括前置摄像头和后置摄像头。通常,前置摄像头设置在设备的前面板,后置摄像头设置在设备的背面。在一些实施例中,后置摄像头为至少两个,分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种,以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality,虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中,摄像头组件1106还可以包括闪光灯。闪光灯可以是单色温闪光灯,也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合,可以用于不同色温下的光线补偿。
音频电路1107可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波,并将声波转换为电信号输入至处理器1101进行处理,或者输入至射频电路1104以实现语音通信。出于立体声采集或降噪的目的,麦克风可以为多个,分别设置在设备1100的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器1101或射频电路1104的电信号转换为声波。扬声器可以是传统的薄膜扬声器,也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时,不仅可以将电信号转换为人类可听见的声波,也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中,音频电路1107还可以包括耳机插孔。
定位组件1108用于定位设备1100的当前地理位置,以实现导航或LBS(LocationBased Service,基于位置的服务)。定位组件1108可以是基于美国的GPS(GlobalPositioning System,全球定位***)、中国的北斗***或俄罗斯的伽利略***的定位组件。
电源1109用于为设备1100中的各个组件进行供电。电源1109可以是交流电、直流电、一次性电池或可充电电池。当电源1109包括可充电电池时,该可充电电池可以是有线充电电池或无线充电电池。有线充电电池是通过有线线路充电的电池,无线充电电池是通过无线线圈充电的电池。该可充电电池还可以用于支持快充技术。
在一些实施例中,设备1100还包括有一个或多个传感器1110。该一个或多个传感器1110包括但不限于:加速度传感器1111、陀螺仪传感器1112、压力传感器1113、指纹传感器1114、光学传感器1115以及接近传感器1116。
加速度传感器1111可以检测以设备1100建立的坐标系的三个坐标轴上的加速度大小。比如,加速度传感器1111可以用于检测重力加速度在三个坐标轴上的分量。处理器1101可以根据加速度传感器1111采集的重力加速度信号,控制显示屏1105以横向视图或纵向视图进行用户界面的显示。加速度传感器1111还可以用于游戏或者用户的运动数据的采集。
陀螺仪传感器1112可以检测设备1100的机体方向及转动角度,陀螺仪传感器1112可以与加速度传感器1111协同采集用户对设备1100的3D动作。处理器1101根据陀螺仪传感器1112采集的数据,可以实现如下功能:动作感应(比如根据用户的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。
压力传感器1113可以设置在设备1100的侧边框和/或显示屏1105的下层。当压力传感器1113设置在设备1100的侧边框时,可以检测用户对设备1100的握持信号,由处理器1101根据压力传感器1113采集的握持信号进行左右手识别或快捷操作。当压力传感器1113设置在显示屏1105的下层时,由处理器1101根据用户对显示屏1105的压力操作,实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。
指纹传感器1114用于采集用户的指纹,由处理器1101根据指纹传感器1114采集到的指纹识别用户的身份,或者,由指纹传感器1114根据采集到的指纹识别用户的身份。在识别出用户的身份为可信身份时,由处理器1101授权该用户执行相关的敏感操作,该敏感操作包括解锁屏幕、查看加密信息、下载软件、支付及更改设置等。指纹传感器1114可以被设置设备1100的正面、背面或侧面。当设备1100上设置有物理按键或厂商Logo时,指纹传感器1114可以与物理按键或厂商Logo集成在一起。
光学传感器1115用于采集环境光强度。在一个实施例中,处理器1101可以根据光学传感器1115采集的环境光强度,控制显示屏1105的显示亮度。具体地,当环境光强度较高时,调高显示屏1105的显示亮度;当环境光强度较低时,调低显示屏1105的显示亮度。在另一个实施例中,处理器1101还可以根据光学传感器1115采集的环境光强度,动态调整摄像头组件1106的拍摄参数。
接近传感器1116,也称距离传感器,通常设置在设备1100的前面板。接近传感器1116用于采集用户与设备1100的正面之间的距离。在一个实施例中,当接近传感器1116检测到用户与设备1100的正面之间的距离逐渐变小时,由处理器1101控制显示屏1105从亮屏状态切换为息屏状态;当接近传感器1116检测到用户与设备1100的正面之间的距离逐渐变大时,由处理器1101控制显示屏1105从息屏状态切换为亮屏状态。
本领域技术人员可以理解,图11中示出的结构并不构成对设备1100的限定,可以包括比图示更多或更少的组件,或者组合某些组件,或者采用不同的组件布置。
在一些实施例中,还提供了一种计算机可读存储介质,该存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现上述实施例中音频的评分方法的步骤。例如,所述计算机可读存储介质可以是ROM、RAM、CD-ROM、磁带、软盘和光数据存储设备等。
值得注意的是,本申请提到的计算机可读存储介质可以为非易失性存储介质,换句话说,可以是非瞬时性存储介质。
应当理解的是,实现上述实施例的全部或部分步骤可以通过软件、硬件、固件或者其任意结合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。所述计算机指令可以存储在上述计算机可读存储介质中。
也即是,在一些实施例中,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述所述的音频的评分方法的步骤。
以上所述为本申请提供的实施例,并不用以限制本申请,凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
Claims (20)
1.一种音频的评分方法,其特征在于,所述方法包括:
获取待评分音频的基频序列对应的多个颤音片段;
获取所述多个颤音片段对应的基频序列的颤音特征信息,所述颤音特征信息至少包括频谱分布稳定度和序列幅度,所述频谱分布稳定度为基频序列在指定频段内的功率谱能量与基频序列的功率谱总能量的比值,所述序列幅度是基于基频序列的多个基频振动周期的基频差值和周期个数确定的;
基于所述多个颤音片段的颤音片段时长,确定所述多个颤音片段的时长分值;
分别将每个颤音片段对应的基频序列的频谱分布稳定度与第一数值相乘,得到每个颤音片段的稳定度分值;
基于所述多个颤音片段对应的基频序列的序列幅度,确定所述多个颤音片段的幅度分值;
分别将每个颤音片段的时长分值、稳定度分值以及幅度分值之和确定为每个颤音片段的颤音分值,得到所述多个颤音片段的颤音分值;
根据所述多个颤音片段的颤音分值和颤音片段个数,确定所述待评分音频的音频颤音分值;
基于所述音频颤音分值,对所述待评分音频进行评分。
2.如权利要求1所述的方法,其特征在于,所述基于所述多个颤音片段的颤音片段时长,确定所述多个颤音片段的时长分值,包括:
对于所述多个颤音片段中的第一颤音片段,当所述第一颤音片段的颤音片段时长小于第一时长阈值时,根据所述第一颤音片段的颤音片段时长和第二数值,确定所述第一颤音片段的时长分值,所述第一颤音片段为所述多个颤音片段中的任一颤音片段;或者,
当所述第一颤音片段的颤音片段时长大于或等于所述第一时长阈值时,将所述第二数值确定为所述第一颤音片段的时长分值。
3.如权利要求1所述的方法,其特征在于,所述基于所述多个颤音片段对应的基频序列的序列幅度,确定所述多个颤音片段的幅度分值,包括:
对于所述多个颤音片段中的第二颤音片段,当所述第二颤音片段对应的基频序列的序列幅度小于幅度阈值时,根据所述第二颤音片段对应的基频序列的序列幅度和第三数值,确定所述第二颤音片段的幅度分值,所述第二颤音片段为所述多个颤音片段中的任一颤音片段;或者,
当所述第二颤音片段对应的基频序列的序列幅度大于或等于所述幅度阈值时,将所述第三数值确定为所述第二颤音片段的幅度分值。
4.如权利要求1所述的方法,其特征在于,所述根据所述多个颤音片段的颤音分值和颤音片段个数,确定所述待评分音频的音频颤音分值,包括:
从所述多个颤音片段的颤音分值中确定最高的颤音分值;
根据所述多个颤音片段的颤音片段个数,确定颤音个数分值;
将所述最高的颤音分值和所述颤音个数分值之和确定为所述待评分音频的音频颤音分值。
5.如权利要求4所述的方法,其特征在于,所述根据所述多个颤音片段的颤音片段个数,确定颤音个数分值,包括:
当所述多个颤音片段的颤音片段个数小于个数阈值时,将所述颤音片段个数确定为所述颤音个数分值;或者,
当所述多个颤音片段的颤音片段个数大于或等于所述个数阈值时,将第四数值确定为所述颤音个数分值。
6.如权利要求1所述的方法,其特征在于,所述获取待评分音频的基频序列对应的多个颤音片段,包括:
以指定时长为窗口时长,以指定步长为移动距离,在多个窗口内对所述待评分音频的基频序列进行快速傅里叶变换处理,得到所述多个窗口对应的频谱;
对所述多个窗口对应的频谱分别取平方,得到所述多个窗口对应的功率谱;
根据所述多个窗口对应的功率谱,在每个窗口内确定指定频段内的功率谱能量与每个窗口内的功率谱总能量的比值,得到每个窗口对应的颤音可能性值;
根据所述多个窗口对应的颤音可能性值,从所述待评分音频中确定所述多个颤音片段。
7.如权利要求6所述的方法,其特征在于,所述根据所述多个窗口对应的颤音可能性值,从所述待评分音频中确定所述多个颤音片段,包括:
根据所述多个窗口对应的颤音可能性值,从所述待评分音频的基频序列中确定颤音可能性值大于或等于可能性阈值的候选基频序列;
确定连续时长大于第二时长阈值的目标候选基频序列的频谱分布稳定度、频率和序列幅度;
根据所述目标候选基频序列的频谱分布稳定度、频率和序列幅度,从所述待评分音频中确定所述多个颤音片段。
8.如权利要求7所述的方法,其特征在于,所述确定连续时长大于第二时长阈值的目标候选基频序列的频谱分布稳定度、频率和序列幅度,包括:
对所述目标候选基频序列进行快速傅里叶变换处理,对处理结果取平方,得到目标候选基频序列的功率谱;
根据所述目标候选基频序列的功率谱,确定所述目标候选基频序列在指定频段内的功率谱能量与所述目标候选基频序列的功率谱总能量的比值,得到所述目标候选基频序列的频谱分布稳定度;
根据所述目标候选基频序列的多个基频振动周期的周期时长和周期个数,确定所述目标候选基频序列的频率,每个基频振动周期内的基频序列去均值化后过零点两次;
根据所述目标候选基频序列的多个基频振动周期的基频差值和周期个数,确定所述目标候选基频序列的序列幅度,每个基频振动周期的基频差值是指每个基频振动周期内基频频率最大值与基频频率最小值之间的差值。
9.如权利要求1所述的方法,其特征在于,所述获取待评分音频的基频序列对应的多个颤音片段之后,还包括:
对于所述多个颤音片段中的每个颤音片段,从每个颤音片段的开始时刻起,对每个颤音片段对应的进度条进行突出显示。
10.一种音频的评分装置,其特征在于,所述装置包括:
第一获取模块,用于获取待评分音频的基频序列对应的多个颤音片段;
第二获取模块,用于获取所述多个颤音片段对应的基频序列的颤音特征信息,所述颤音特征信息至少包括频谱分布稳定度和序列幅度,所述频谱分布稳定度为基频序列在指定频段内的功率谱能量与基频序列的功率谱总能量的比值,所述序列幅度是基于基频序列的多个基频振动周期的基频差值和周期个数确定的;
第一确定模块,用于根据所述多个颤音片段的颤音片段时长、以及所述多个颤音片段对应的基频序列的频谱分布稳定度和序列幅度,确定所述多个颤音片段的颤音分值;
第二确定模块,用于根据所述多个颤音片段的颤音分值和颤音片段个数,确定所述待评分音频的音频颤音分值;
评分模块,用于基于所述音频颤音分值,对所述待评分音频进行评分;
所述第一确定模块用于:
基于所述多个颤音片段的颤音片段时长,确定所述多个颤音片段的时长分值;
分别将每个颤音片段对应的基频序列的频谱分布稳定度与第一数值相乘,得到每个颤音片段的稳定度分值;
基于所述多个颤音片段对应的基频序列的序列幅度,确定所述多个颤音片段的幅度分值;
分别将每个颤音片段的时长分值、稳定度分值以及幅度分值之和确定为每个颤音片段的颤音分值,得到所述多个颤音片段的颤音分值。
11.如权利要求10所述的装置,其特征在于,所述第一确定模块用于:
对于所述多个颤音片段中的第一颤音片段,当所述第一颤音片段的颤音片段时长小于第一时长阈值时,根据所述第一颤音片段的颤音片段时长和第二数值,确定所述第一颤音片段的时长分值,所述第一颤音片段为所述多个颤音片段中的任一颤音片段;或者,
当所述第一颤音片段的颤音片段时长大于或等于所述第一时长阈值时,将所述第二数值确定为所述第一颤音片段的时长分值。
12.如权利要求10所述的装置,其特征在于,所述第一确定模块用于:
对于所述多个颤音片段中的第二颤音片段,当所述第二颤音片段对应的基频序列的序列幅度小于幅度阈值时,根据所述第二颤音片段对应的基频序列的序列幅度和第三数值,确定所述第二颤音片段的幅度分值,所述第二颤音片段为所述多个颤音片段中的任一颤音片段;或者,
当所述第二颤音片段对应的基频序列的序列幅度大于或等于所述幅度阈值时,将所述第三数值确定为所述第二颤音片段的幅度分值。
13.如权利要求10所述的装置,其特征在于,所述第二确定模块用于:
从所述多个颤音片段的颤音分值中确定最高的颤音分值;
根据所述多个颤音片段的颤音片段个数,确定颤音个数分值;
将所述最高的颤音分值和所述颤音个数分值之和确定为所述待评分音频的音频颤音分值。
14.如权利要求13所述的装置,其特征在于,所述第二确定模块用于:
当所述多个颤音片段的颤音片段个数小于个数阈值时,将所述颤音片段个数确定为所述颤音个数分值;或者,
当所述多个颤音片段的颤音片段个数大于或等于所述个数阈值时,将第四数值确定为所述颤音个数分值。
15.如权利要求10所述的装置,其特征在于,所述第一获取模块用于:
以指定时长为窗口时长,以指定步长为移动距离,在多个窗口内对所述待评分音频的基频序列进行快速傅里叶变换处理,得到所述多个窗口对应的频谱;
对所述多个窗口对应的频谱分别取平方,得到所述多个窗口对应的功率谱;
根据所述多个窗口对应的功率谱,在每个窗口内确定指定频段内的功率谱能量与每个窗口内的功率谱总能量的比值,得到每个窗口对应的颤音可能性值;
根据所述多个窗口对应的颤音可能性值,从所述待评分音频中确定所述多个颤音片段。
16.如权利要求15所述的装置,其特征在于,所述第一获取模块用于:
根据所述多个窗口对应的颤音可能性值,从所述待评分音频的基频序列中确定颤音可能性值大于或等于可能性阈值的候选基频序列;
确定连续时长大于第二时长阈值的目标候选基频序列的频谱分布稳定度、频率和序列幅度;
根据所述目标候选基频序列的频谱分布稳定度、频率和序列幅度,从所述待评分音频中确定所述多个颤音片段。
17.如权利要求16所述的装置,其特征在于,所述第一获取模块用于:
对所述目标候选基频序列进行快速傅里叶变换处理,对处理结果取平方,得到目标候选基频序列的功率谱;
根据所述目标候选基频序列的功率谱,确定所述目标候选基频序列在指定频段内的功率谱能量与所述目标候选基频序列的功率谱总能量的比值,得到所述目标候选基频序列的频谱分布稳定度;
根据所述目标候选基频序列的多个基频振动周期的周期时长和周期个数,确定所述目标候选基频序列的频率,每个基频振动周期内的基频序列去均值化后过零点两次;
根据所述目标候选基频序列的多个基频振动周期的基频差值和周期个数,确定所述目标候选基频序列的序列幅度,每个基频振动周期的基频差值是指每个基频振动周期内基频频率最大值与基频频率最小值之间的差值。
18.如权利要求10所述的装置,其特征在于,所述第一获取模块还用于:
对于所述多个颤音片段中的每个颤音片段,从每个颤音片段的开始时刻起,对每个颤音片段对应的进度条进行突出显示。
19.一种音频的评分设备,其特征在于,所述设备包括存储器和处理器,所述存储器用于存放计算机程序,所述处理器用于执行所述存储器上所存放的计算机程序,以实现上述权利要求1-9任一所述方法的步骤。
20.一种计算机可读存储介质,其特征在于,所述存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1-9任一所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911072491.XA CN110867194B (zh) | 2019-11-05 | 2019-11-05 | 音频的评分方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911072491.XA CN110867194B (zh) | 2019-11-05 | 2019-11-05 | 音频的评分方法、装置、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110867194A CN110867194A (zh) | 2020-03-06 |
CN110867194B true CN110867194B (zh) | 2022-05-17 |
Family
ID=69653554
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911072491.XA Active CN110867194B (zh) | 2019-11-05 | 2019-11-05 | 音频的评分方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110867194B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114534130A (zh) * | 2020-11-25 | 2022-05-27 | 深圳市安联消防技术有限公司 | 一种呼吸面具气流噪音消除方法 |
CN113593604A (zh) * | 2021-07-22 | 2021-11-02 | 腾讯音乐娱乐科技(深圳)有限公司 | 检测音频质量方法、装置及存储介质 |
CN114061568B (zh) * | 2021-11-30 | 2023-11-14 | 北京信息科技大学 | 基于地磁数据的飞行体转速测量方法、装置及*** |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104903956A (zh) * | 2012-10-10 | 2015-09-09 | 弗兰霍菲尔运输应用研究公司 | 用于通过使用频谱模式有效合成正弦曲线和扫描的设备及方法 |
CN109817191A (zh) * | 2019-01-04 | 2019-05-28 | 平安科技(深圳)有限公司 | 颤音建模方法、装置、计算机设备及存储介质 |
CN109979485A (zh) * | 2019-04-29 | 2019-07-05 | 北京小唱科技有限公司 | 音频评价方法和装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8473283B2 (en) * | 2007-11-02 | 2013-06-25 | Soundhound, Inc. | Pitch selection modules in a system for automatic transcription of sung or hummed melodies |
-
2019
- 2019-11-05 CN CN201911072491.XA patent/CN110867194B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104903956A (zh) * | 2012-10-10 | 2015-09-09 | 弗兰霍菲尔运输应用研究公司 | 用于通过使用频谱模式有效合成正弦曲线和扫描的设备及方法 |
CN109817191A (zh) * | 2019-01-04 | 2019-05-28 | 平安科技(深圳)有限公司 | 颤音建模方法、装置、计算机设备及存储介质 |
CN109979485A (zh) * | 2019-04-29 | 2019-07-05 | 北京小唱科技有限公司 | 音频评价方法和装置 |
Non-Patent Citations (1)
Title |
---|
基于视唱语料的颤音分析及其应用研究;李锦珑等;《自动化与仪器仪表》;20130525(第03期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN110867194A (zh) | 2020-03-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108008930B (zh) | 确定k歌分值的方法和装置 | |
CN111326132B (zh) | 音频处理方法、装置、存储介质及电子设备 | |
CN109994127B (zh) | 音频检测方法、装置、电子设备及存储介质 | |
CN108538302B (zh) | 合成音频的方法和装置 | |
CN110688082B (zh) | 确定音量的调节比例信息的方法、装置、设备及存储介质 | |
CN109147757B (zh) | 歌声合成方法及装置 | |
CN110956971B (zh) | 音频处理方法、装置、终端及存储介质 | |
WO2020103550A1 (zh) | 音频信号的评分方法、装置、终端设备及计算机存储介质 | |
CN110931048B (zh) | 语音端点检测方法、装置、计算机设备及存储介质 | |
CN109003621B (zh) | 一种音频处理方法、装置及存储介质 | |
CN109192218B (zh) | 音频处理的方法和装置 | |
CN110867194B (zh) | 音频的评分方法、装置、设备及存储介质 | |
CN111128232B (zh) | 音乐的小节信息确定方法、装置、存储介质及设备 | |
WO2022111168A1 (zh) | 视频的分类方法和装置 | |
CN112735429B (zh) | 确定歌词时间戳信息的方法和声学模型的训练方法 | |
CN109065068B (zh) | 音频处理方法、装置及存储介质 | |
CN109192223B (zh) | 音频对齐的方法和装置 | |
CN109102811B (zh) | 音频指纹的生成方法、装置及存储介质 | |
CN111081277B (zh) | 音频测评的方法、装置、设备及存储介质 | |
CN108053832B (zh) | 音频信号处理方法、装置、电子设备及存储介质 | |
CN110600034B (zh) | 歌声生成方法、装置、设备及存储介质 | |
CN111428079A (zh) | 文本内容处理方法、装置、计算机设备及存储介质 | |
CN112086102B (zh) | 扩展音频频带的方法、装置、设备以及存储介质 | |
CN110337030B (zh) | 视频播放方法、装置、终端和计算机可读存储介质 | |
CN110377208B (zh) | 音频播放方法、装置、终端和计算机可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |