CN108257613A

CN108257613A - 修正音频内容音高偏差的方法及装置

Info

Publication number: CN108257613A
Application number: CN201711268972.9A
Authority: CN
Inventors: 王国腾
Original assignee: Beijing Sing Sing Technology Co Ltd
Current assignee: Beijing Sing Sing Technology Co Ltd
Priority date: 2017-12-05
Filing date: 2017-12-05
Publication date: 2018-07-06
Anticipated expiration: 2037-12-05
Also published as: CN108257613B

Abstract

本申请公开了一种修正音频内容音高偏差的方法及装置。方法包括：采集用户演唱歌曲时的歌声；对所述歌声进行音频处理，得到所述用户的人声基频序列；将所述人声基频序列的节奏调整为与所述歌曲的标准节奏一致，得到节奏标准的人声基频序列；将所述歌曲的每个标准音高与所述人声基频序列进行对比，确定所述人声基频序列中每个时间点的音高差；将所述人声基频序列中待修正的音高对应的音高差作为输入参数，得到音高准确的标准音高人声基频序列；对所述标准音高人声基频序列进行共振峰的矫正，得到矫正后的人声基频序列。达到了修正音频内容音高偏差的目的，进而解决了由于用户不能准确唱出每个音的正确音高，导致演唱结果出现走音跑调等技术问题。

Description

修正音频内容音高偏差的方法及装置

技术领域

本申请涉及声音处理技术领域，具体而言，涉及一种修正音频内容音高偏差的方法及装置。

背景技术

随着人们生活水平的提高，人们对文化娱乐生活的追求也随之提高，并且得益于通信及信息技术的高速发展，音乐功能已经成为计算机或手机等终端中的一项必备应用。具有KTV功能的音乐类产品越来越多的出现在用户的终端中，大都是按照用户选择的音乐播放伴奏并跟随音乐伴奏显示字幕，用户则按照显示字幕上的字体颜色提示或其他标记提示对应歌词的演唱时间，直至完成整首歌曲；使得用户在任何场景都能够获得与在KTV 中类似的演唱体验。

但是，并不是每个用户都能准确唱出每个音的正确音高，导致演唱结果出现走音跑调等演唱瑕疵。相关技术中虽然能够提示用户正确的演唱音高及用户自身的演唱音高，但是并不能针对用户的演唱结果对相应的音频内容进行音高偏差的修正。

发明内容

本申请的主要目的在于提供一种修正音频内容音高偏差的方法及装置，以解决现有技术中存在的问题。

为了实现上述目的，根据本申请的一个方面，提供了一种修正音频内容音高偏差的方法，包括：

采集用户演唱歌曲时的歌声；

将所述歌声的节奏调整为与所述歌曲的标准节奏一致，得到节奏标准的人声基频序列

将所述歌曲的每个标准音高与所述人声基频序列进行对比，确定所述人声基频序列中每个时间点的音高差；

将所述人声基频序列中待修正的音高对应的音高差作为输入参数，依次通过重采样及PSOLA算法，完成对所述待修正的音高的变调计算，得到音高准确的标准音高人声基频序列；

对所述标准音高人声基频序列进行共振峰的矫正，得到矫正后的人声基频序列。

进一步的，如前述的修正音频内容音高偏差的方法，

在确定所述人声基频序列中每个时间点的音高差后，还包括：对所述人声基频序列中的所有音高差进行筛选，确定待修正的音高。

进一步的，如前述的修正音频内容音高偏差的方法，

所述对所述人声基频序列中的所有音高差进行筛选，确定待修正音高，包括：

筛选出所有待修正音高差，所述待修正音高差为在设定音差区间内的音高差；

根据所述待修正音高差确定所述人声基频序列中待修正的音高。

进一步的，如前述的修正音频内容音高偏差的方法，所述对所述标准音高人声基频序列进行矫正共振峰，得到矫正后的人声基频序列，具体包括：

将每个音高差作为所述标准音高人声基频序列中对应时刻的共振峰的变调系数；通过确定所述变调系数，其中d为音高差；

将所述标准音高人声基频序列中的每个共振峰按照对应的变调系数进行反向共振峰偏移得到所述矫正后的人声基频序列。

进一步的，如前述的修正音频内容音高偏差的方法，所述对所述声音信息进行音频处理，得到所述用户的人声基频序列，包括：

根据所述声音信息获得所述歌声中每个音的声音基频；

将所述声音基频按照时间序列进行排序获得所述用户的人声基频序列。

进一步的，如前述的修正音频内容音高偏差的方法，所述将所述人声基频序列中待修正的音高对应的音高差作为输入参数，依次通过重采样及PSOLA 算法，完成对所述待修正的音高的变调计算；包括：

根据所述音高差，确定所述待修正音高需提高的倍数s，

将所述节奏标准的歌声音频按所述采集用户的歌声时的采样率的1/s倍重采样，得到重采样后的音频；

将所述重采样后的音频通过PSOLA算法将重采样的结果拉长到s倍。

为了实现上述目的，根据本申请的另一方面，提供了一种修正音频内容音高偏差的装置。

根据本申请的一种修正音频内容音高偏差的装置包括：

歌声采集单元，用于采集用户演唱歌曲时的歌声；

人声基频序列获得单元，用于将所述歌声的节奏调整为与所述歌曲的标准节奏一致，得到节奏标准的人声基频序列

音高差确定单元，用于将所述人声基频序列和所述歌曲的标准音高进行对比，确定所述人声基频序列中每个时间点的音高差；

变调单元，用于将所述待修正音高对应的音高差作为输入参数，依次通过重采样及PSOLA算法完成对所述待修正音高的变调计算；得到音高准确的标准音高人声基频序列；

共振峰矫正单元，用于对所述音高准确的标准音高人声基频序列进行共振峰的矫正，得到最终人声基频序列。

进一步的，如前述的修正音频内容音高偏差的装置，还包括：

待修正音高确定单元，用于对所述人声基频序列中的所有音高差进行筛选，确定待修正音高；

进一步的，如前述的修正音频内容音高偏差的装置，

所述待修正音高确定单元，包括：

待修正音高差确定模块，用于筛选出所有待修正音高差，所述待修正音高差为在设定音差区间内的音高差；

待修正音高确定模块，用于根据所述待修正音高差确定所述人声基频序列中待修正的音高。

进一步的，如前述的修正音频内容音高偏差的装置，所述共振峰矫正单元，包括：

变调系数计算模块，用于将每个音高差作为所述标准音高人声基频序列中对应时刻的共振峰的变调系数；通过确定所述变调系数，其中d为音高差；

共振峰偏移模块，用于将所述标准音高人声基频序列中的每个共振峰按照对应的变调系数进行反向共振峰偏移得到所述矫正后的人声基频序列。

在本申请实施例中，采用修正音频内容音高偏差的方式，通过采集用户演唱歌曲时的歌声；对所述歌声进行音频处理，得到所述用户的人声基频序列；将所述人声基频序列的节奏调整为与所述歌曲的标准节奏一致，得到节奏标准的人声基频序列；将所述歌曲的每个标准音高与所述人声基频序列进行对比，确定所述人声基频序列中每个时间点的音高差；将所述人声基频序列中待修正的音高对应的音高差作为输入参数，依次通过重采样及PSOLA算法，完成对所述待修正的音高的变调计算，得到音高准确的标准音高人声基频序列；对所述标准音高人声基频序列进行共振峰的矫正，得到矫正后的人声基频序列。达到了修正音频内容音高偏差的目的，进而解决了由于用户不能够准确唱出每个音的正确音高，导致演唱结果出现走音跑调等演唱瑕疵的技术问题，同时能够通过共振峰矫正保证音色的正常。

附图说明

构成本申请的一部分的附图用来提供对本申请的进一步理解，使得本申请的其它特征、目的和优点变得更明显。本申请的示意性实施例附图及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1是根据本申请一种实施例的修正音频内容音高偏差的方法流程图；

图2是根据本申请又一种实施例的修正音频内容音高偏差的方法流程图；

图3是根据图2所示实施例中步骤S2的一种具体实施方法流程图；

图4是根据图2所示实施例中步骤S3的一种具体实施方法流程图；

图5是根据图2所示实施例中步骤S4的一种具体实施方法流程图；

图6是根据图2所示实施例中步骤S6的一种具体实施方法流程图；

图7是根据本申请实施例的又一种修正音频内容音高偏差的方法流程图；

图8是根据图8所示实施例中步骤S9的一种具体实施方法流程图；

图9是根据图2所示实施例中步骤S7后还包括的具体实施方法流程图；

图10是本申请的一种实施例修正音频内容音高偏差的装置结构图；

图11是根据图10所示实施例中人声基频序列获得单元的一种结构图；

图12是根据图10所示实施例中演唱音信息确定单元的一种结构图；

图13是根据图10所示实施例中演唱音音高确定单元的一种结构图；

图14是根据图10所示实施例中音高差序列获得单元的一种结构图；

图15是本申请又一种实施例的修正音频内容音高偏差的装置结构图；

图16是根据图13所示实施例中待修正音高确定单元的一种结构图；以及

图17是根据图10所示实施例中共振峰矫正单元的一种结构图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分的实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

在本申请中，术语“上”、“下”、“左”、“右”、“前”、“后”、“顶”、“底”、“内”、“外”、“中”、“竖直”、“水平”、“横向”、“纵向”等指示的方位或位置关系为基于附图所示的方位或位置关系。这些术语主要是为了更好地描述本实用新型及其实施例，并非用于限定所指示的装置、元件或组成部分必须具有特定方位，或以特定方位进行构造和操作。

并且，上述部分术语除了可以用于表示方位或位置关系以外，还可能用于表示其他含义，例如术语“上”在某些情况下也可能用于表示某种依附关系或连接关系。对于本领域普通技术人员而言，可以根据具体情况理解这些术语在本发明中的具体含义。

此外，术语“安装”、“设置”、“设有”、“连接”、“相连”、“套接”应做广义理解。例如，可以是固定连接，可拆卸连接，或整体式构造；可以是机械连接，或电连接；可以是直接相连，或者是通过中间媒介间接相连，又或者是两个装置、元件或组成部分之间内部的连通。对于本领域普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

如图1所示，本发明又提供一种修正音频内容音高偏差的方法，该方法包括如下的步骤

如图2所示，本发明又提供一种修正音频内容音高偏差的方法，该方法包括如下的步骤S1至步骤S7：

S1.采集用户演唱歌曲时的歌声；

S2.将所述歌声的节奏调整为与所述歌曲的标准节奏一致，得到节奏标准的人声基频序列；

S3.根据所述人声基频序列确定所述人声基频序列中每个演唱音的基频序列、起始时间和结束时间；

S4.根据所述每个演唱音的起始时间、结束时间及所述每个演唱音的基频序列确定每个演唱音的用户音高；

S5.根据所述每个演唱音的用户音高和所述歌曲对应的音高模板，确定每个相同时间点的用户音高与标准音高之间的音高差；

S6.根据个相同时间点的用户音高与标准音高之间的音高差，得到音高差序列；所述音高模板中包含用户演唱歌曲中每个音符的标准音高、起始时间和结束时间。

S7.将所述人声基频序列中待修正的音高对应的音高差作为输入参数，依次通过重采样及PSOLA算法，一般的，除了通过重采样及PSOLA算法精心变调之外，还可以通过：时域变调(重采样后变速)、频域插值、基于正弦模型变调完成对所述待修正的音高的变调计算，得到音高准确的标准音高人声基频序列。

根据本发明实施例，提供了一种所述步骤S2的具体处理方法，如图3所示，该方法包括：

S21.根据所述声音信息获得所述歌声中每个音的声音基频；

S22.将所述声音基频按照时间序列进行排序获得所述用户的人声基频序列。

根据本发明实施例，提供了一种所述步骤S3中的根据所述人声基频序列确定所述人声基频序列中每个演唱音的基频数值的具体处理方法，如图4所示，该方法包括：

S31.对所述人声基频序列每隔固定时间进行采样计算；具体的，对用户演唱音频每隔固定时间(通常是10～100ms)计算一次演唱歌声的基频数值；

S32.得到每个演唱音的多个基频数值。

根据本发明实施例，提供了一种所述步骤S4的具体处理方法，如图5所示，该方法包括：

S41.划分所述基频特征中每个演唱音的音头、音腹和音尾；具体的，人类演唱是声带的发声规律是在一个音的前面一小段时间(通常在1～30ms)基频向目标音高收敛，称为音头；中间较长的时间会稳定在一个固定的基频，称为音腹；结尾以小段时间(通常在0～20ms)会偏离目标音高，称为音尾。例如下图是一个典型的音，蓝线是基频线，两条红色的虚线中间的部分基频比较稳定，既音腹。前后分别为音头和音尾。本专利中固定音头时间为30ms，音尾时间为20ms。如果整个音时长小于70ms，将音头和音尾的时长按比例缩小，既音头为30*t/70，音尾为20*t/70。剩下的部分为音腹。

S42.确定所述每个演唱音的音腹的基频序列；

S43.计算所述每个演唱音的音腹中的基频数值的平均数x；

S44.通过式得到所述每个演唱音的用户音高y。

根据本发明实施例，提供了一种所述步骤S5的具体处理方法，如图6所示，该方法包括：

S61.根据所述每个演唱音的起始时间和结束时间确定所述音高模板中对应时间的每个标准音的标准音高；

S62.计算每个时间点的所述用户音高和所述标准音高之间的音高差。

根据本发明实施例，提供了一种所述步骤S6和S7之间还包括S8和S9，如图7所示，该方法包括：

S8.将所述音高差序列做平滑处理得到平滑音高差序列；

S9.对所述人声基频序列中的所有音高差进行筛选，确定待修正的音高；优选的，只对音高差在(-7,7)区间内的人声基频序列中的音进行修正。。

根据本发明实施例，提供了一种所述步骤S7的具体处理方法，该方法包括：

将所述音高差序列中相邻的音尾与音头进行平滑处理，将阶跃的音高差序列转换为连续的平滑音高差序列。

其中，将所述音高差序列中相邻的音尾与音头进行平滑处理，具体包括：

通过下示函数替换相邻两个音的音头音尾部分的音高差序列值，得到平滑的音高差序列进行平滑处理：

其中，n₁为音尾的音高，n₂为音头的音高，t₁为第一个音的音尾开始时间， t₂为第二个音的音头结束时间为。

具体的，由于每个音的只有一个音高值，且音高模版中的音符音高也是不连续的阶跃数据。因此得到的音高差序列也是不连续的阶跃数据值，对音头音尾的音高差序列做平滑处理，可以将不连续的阶跃数据变成连续数据。平滑处理可以采用上述方法之外也可以采用高斯平滑等平滑算法、sigmoid、sin或线性函数达到连接相邻的音的目的。

根据本发明实施例，提供了一种所述步骤S8的具体实施方法，如图8所示，该方法包括：

S91.所述对所述人声基频序列中的所有音高差进行筛选，确定待修正音高；

S92.筛选出所有待修正音高差，所述待修正音高差为在设定音差区间内的音高差；

S93.根据所述待修正音高差确定所述人声基频序列中待修正的音高。

根据本发明实施例，提供了在所述步骤S6中得到音高准确的标准音高人声基频序列后，包括：

S10.对所述标准音高人声基频序列进行共振峰的矫正，得到矫正后的人声基频序列。

根据本发明实施例，提供了一种所述步骤S10的具体实施方法，如图9 所示，该方法包括：具体包括：

S101.将每个音高差作为所述标准音高人声基频序列中对应时刻的共振峰的变调系数；通过确定所述变调系数，其中d为音高差；

S102.将所述标准音高人声基频序列中的每个共振峰按照对应的变调系数进行反向共振峰偏移得到所述矫正后的人声基频序列。

通过进行共振峰矫正可以得到正常音色的音频信息，以消除进行变调之后音色发生变化的影响。

在一些实施例中，所述将所述人声基频序列中待修正的音高对应的音高差作为输入参数，依次通过重采样及PSOLA算法，完成对所述待修正的音高的变调计算；包括：

根据所述音高差，确定所述待修正音高需提高的倍数s，

将所述重采样后的音频通过PSOLA算法将重采样的结果拉长到s倍。至此得到一个时长不变的音高提高到s倍的声音。

从以上的描述中，可以看出，本发明实现了如下技术效果：

需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机***中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

根据本发明实施例，还提供了一种用于实施上述修正音频内容音高偏差的方法的装置，如图10所示，该装置包括：

歌声采集单元1，用于采集用户演唱歌曲时的歌声；

人声基频序列获得单元2，用于将所述歌声的节奏调整为与所述歌曲的标准节奏一致，得到节奏标准的人声基频序列

演唱音信息确定单元3，用于根据所述人声基频序列确定每个演唱音的基频数值、起始时间和结束时间；

演唱音音高确定单元4，用于根据所述每个演唱音的起始时间、结束时间及所述基频序列确定每个演唱音的用户音高；

音高差确定单元5，用于将所述人声基频序列和所述歌曲的标准音高进行对比，确定所述人声基频序列中每个时间点的音高差；

音高差序列获得单元6，用于根据所述每个演唱音的用户音高和所述歌曲对应的音高模板，确定每个相同时间点的用户音高与标准音高之间的音高差，并得到音高差序列；所述音高模板中包含用户演唱歌曲中每个音符的标准音高、起始时间和结束时间；

变调单元7，用于将所述人声基频序列中待修正的音高对应的音高差作为输入参数，依次通过重采样及PSOLA算法，完成对所述待修正的音高的变调计算，得到音高准确的标准音高人声基频序列。

根据本发明实施例，如图11所示，所述人声基频序列获得单元2，包括：

声音基频获得模块21，用于根据所述声音信息获得所述歌声中每个音的声音基频；

人声基频序列获得模块22，用于将所述声音基频按照时间序列进行排序获得所述用户的人声基频序列。

根据本发明实施例，如图12所示，演唱音信息确定单元3包括：

演唱音基频数值采样模块31，用于对所述人声基频序列每隔固定时间进行采样计算；

演唱音基频数值确定模块32，用于得到每个演唱音的多个基频数值。

根据本发明实施例，如图13所示，演唱音音高确定单元4，包括

演唱音划分模块41，用于划分所述基频特征中每个演唱音的音头、音腹和音尾；

音腹确定模块42，用于确定所述每个演唱音的音腹的基频序列；

基频平均数计算模块43，用于计算所述每个演唱音的音腹中的基频数值的平均数x；

用户音高计算模块44，用于通过式得到所述每个演唱音的用户音高y。

根据本发明实施例，如图14所示，音高差序列获得单元6，包括：

对应模块61，用于根据所述每个演唱音的起始时间和结束时间确定所述音高模板中对应时间的每个标准音的标准音高；

音高差序列获得模块62，用于计算每个时间点的所述用户音高和所述标准音高之间的音高差。

根据本发明实施例，提供了一种装置还包括平滑处理模块8和待修正音高确定单元9，如图15所示：

平滑处理模块8，用于将所述音高差序列做平滑处理得到平滑音高差序列；

待修正音高确定单元9，用于对所述人声基频序列中的所有音高差进行筛选，确定待修正的音高。

根据本发明实施例，所述平滑处理模块8具体用于：

其中，n₁为音尾的音高，n₂为音头的音高，t₁为第一个音的音尾开始时间，t₂为第二个音的音头结束时间为。

根据本发明实施例，所述待修正音高确定单元9：

用于对所述人声基频序列中的所有音高差进行筛选，确定待修正音高；

如图16所示，其中所述待修正音高确定单元9，包括：

待修正音高差确定模块91，用于筛选出所有待修正音高差，所述待修正音高差为在设定音差区间内的音高差；

待修正音高确定模块92，用于根据所述待修正音高差确定所述人声基频序列中待修正的音高。

根据本发明实施例，所述装置，还包括共振峰矫正单元10：

用于对所述标准音高人声基频序列进行共振峰的矫正，得到矫正后的人声基频序列。

根据本发明实施例，如图17所示，所述共振峰矫正单元10，具体包括：

变调系数计算模块101，用于将每个音高差作为所述标准音高人声基频序列中对应时刻的共振峰的变调系数；通过确定所述变调系数，其中d 为音高差；例如，音高差为7时，变调系数为1.5；共振峰偏移为1/1.5，既0.67。

共振峰偏移模块102，用于将所述标准音高人声基频序列中的每个共振峰按照对应的变调系数进行反向共振峰偏移得到所述矫正后的人声基频序列。

显然，本领域的技术人员应该明白，上述的本发明的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的硬件和软件结合。

以上所述仅为本申请的优选实施例而已，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种修正音频内容音高偏差的方法，其特征在于，包括：

采集用户演唱歌曲时的歌声；

将所述歌声的节奏调整为与所述歌曲的标准节奏一致，得到节奏标准的人声基频序列；

2.根据权利要求1所述的修正音频内容音高偏差的方法，其特征在于，

3.根据权利要求2所述的修正音频内容音高偏差的方法，其特征在于，

4.根据权利要求1所述的修正音频内容音高偏差的方法，其特征在于，所述对所述标准音高人声基频序列进行矫正共振峰，得到矫正后的人声基频序列，具体包括：

5.根据权利要求1所述的修正音频内容音高偏差的方法，其特征在于，所述对所述声音信息进行音频处理，得到所述用户的人声基频序列，包括：

根据所述声音信息获得所述歌声中每个音的声音基频；

6.根据权利要求1所述的修正音频内容音高偏差的方法，其特征在于，所述将所述人声基频序列中待修正的音高对应的音高差作为输入参数，依次通过重采样及PSOLA算法，完成对所述待修正的音高的变调计算；包括：

根据所述音高差，确定所述待修正音高需提高的倍数s，

7.一种修正音频内容音高偏差的装置，其特征在于，包括：

歌声采集单元，用于采集用户演唱歌曲时的歌声；

人声基频序列获得单元，用于将所述歌声的节奏调整为与所述歌曲的标准节奏一致，得到节奏标准的人声基频序列；

8.根据权利要求7所述的修正音频内容音高偏差的装置，其特征在于，还包括：

待修正音高确定单元，用于对所述人声基频序列中的所有音高差进行筛选，确定待修正音高。

9.根据权利要求8所述的修正音频内容音高偏差的装置，其特征在于，

所述待修正音高确定单元，包括：

10.根据权利要求7所述的修正音频内容音高偏差的装置，其特征在于，所述共振峰矫正单元，包括：