CN108257613A - 修正音频内容音高偏差的方法及装置 - Google Patents

修正音频内容音高偏差的方法及装置 Download PDF

Info

Publication number
CN108257613A
CN108257613A CN201711268972.9A CN201711268972A CN108257613A CN 108257613 A CN108257613 A CN 108257613A CN 201711268972 A CN201711268972 A CN 201711268972A CN 108257613 A CN108257613 A CN 108257613A
Authority
CN
China
Prior art keywords
pitch
fundamental frequency
frequency sequence
modified
voice fundamental
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201711268972.9A
Other languages
English (en)
Other versions
CN108257613B (zh
Inventor
王国腾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Sing Sing Technology Co Ltd
Original Assignee
Beijing Sing Sing Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Sing Sing Technology Co Ltd filed Critical Beijing Sing Sing Technology Co Ltd
Priority to CN201711268972.9A priority Critical patent/CN108257613B/zh
Publication of CN108257613A publication Critical patent/CN108257613A/zh
Application granted granted Critical
Publication of CN108257613B publication Critical patent/CN108257613B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Electrophonic Musical Instruments (AREA)

Abstract

本申请公开了一种修正音频内容音高偏差的方法及装置。方法包括:采集用户演唱歌曲时的歌声;对所述歌声进行音频处理,得到所述用户的人声基频序列;将所述人声基频序列的节奏调整为与所述歌曲的标准节奏一致,得到节奏标准的人声基频序列;将所述歌曲的每个标准音高与所述人声基频序列进行对比,确定所述人声基频序列中每个时间点的音高差;将所述人声基频序列中待修正的音高对应的音高差作为输入参数,得到音高准确的标准音高人声基频序列;对所述标准音高人声基频序列进行共振峰的矫正,得到矫正后的人声基频序列。达到了修正音频内容音高偏差的目的,进而解决了由于用户不能准确唱出每个音的正确音高,导致演唱结果出现走音跑调等技术问题。

Description

修正音频内容音高偏差的方法及装置
技术领域
本申请涉及声音处理技术领域,具体而言,涉及一种修正音频内容音高偏差的方法及装置。
背景技术
随着人们生活水平的提高,人们对文化娱乐生活的追求也随之提高,并且得益于通信及信息技术的高速发展,音乐功能已经成为计算机或手机等终端中的一项必备应用。具有KTV功能的音乐类产品越来越多的出现在用户的终端中,大都是按照用户选择的音乐播放伴奏并跟随音乐伴奏显示字幕,用户则按照显示字幕上的字体颜色提示或其他标记提示对应歌词的演唱时间,直至完成整首歌曲;使得用户在任何场景都能够获得与在KTV 中类似的演唱体验。
但是,并不是每个用户都能准确唱出每个音的正确音高,导致演唱结果出现走音跑调等演唱瑕疵。相关技术中虽然能够提示用户正确的演唱音高及用户自身的演唱音高,但是并不能针对用户的演唱结果对相应的音频内容进行音高偏差的修正。
发明内容
本申请的主要目的在于提供一种修正音频内容音高偏差的方法及装置,以解决现有技术中存在的问题。
为了实现上述目的,根据本申请的一个方面,提供了一种修正音频内容音高偏差的方法,包括:
采集用户演唱歌曲时的歌声;
将所述歌声的节奏调整为与所述歌曲的标准节奏一致,得到节奏标准的人声基频序列
将所述歌曲的每个标准音高与所述人声基频序列进行对比,确定所述人声基频序列中每个时间点的音高差;
将所述人声基频序列中待修正的音高对应的音高差作为输入参数,依次通过重采样及PSOLA算法,完成对所述待修正的音高的变调计算,得到音高准确的标准音高人声基频序列;
对所述标准音高人声基频序列进行共振峰的矫正,得到矫正后的人声基频序列。
进一步的,如前述的修正音频内容音高偏差的方法,
在确定所述人声基频序列中每个时间点的音高差后,还包括:对所述人声基频序列中的所有音高差进行筛选,确定待修正的音高。
进一步的,如前述的修正音频内容音高偏差的方法,
所述对所述人声基频序列中的所有音高差进行筛选,确定待修正音高,包括:
筛选出所有待修正音高差,所述待修正音高差为在设定音差区间内的音高差;
根据所述待修正音高差确定所述人声基频序列中待修正的音高。
进一步的,如前述的修正音频内容音高偏差的方法,所述对所述标准音高人声基频序列进行矫正共振峰,得到矫正后的人声基频序列,具体包括:
将每个音高差作为所述标准音高人声基频序列中对应时刻的共振峰的变调系数;通过确定所述变调系数,其中d为音高差;
将所述标准音高人声基频序列中的每个共振峰按照对应的变调系数进行反向共振峰偏移得到所述矫正后的人声基频序列。
进一步的,如前述的修正音频内容音高偏差的方法,所述对所述声音信息进行音频处理,得到所述用户的人声基频序列,包括:
根据所述声音信息获得所述歌声中每个音的声音基频;
将所述声音基频按照时间序列进行排序获得所述用户的人声基频序列。
进一步的,如前述的修正音频内容音高偏差的方法,所述将所述人声基频序列中待修正的音高对应的音高差作为输入参数,依次通过重采样及PSOLA 算法,完成对所述待修正的音高的变调计算;包括:
根据所述音高差,确定所述待修正音高需提高的倍数s,
将所述节奏标准的歌声音频按所述采集用户的歌声时的采样率的1/s倍重采样,得到重采样后的音频;
将所述重采样后的音频通过PSOLA算法将重采样的结果拉长到s倍。
为了实现上述目的,根据本申请的另一方面,提供了一种修正音频内容音高偏差的装置。
根据本申请的一种修正音频内容音高偏差的装置包括:
歌声采集单元,用于采集用户演唱歌曲时的歌声;
人声基频序列获得单元,用于将所述歌声的节奏调整为与所述歌曲的标准节奏一致,得到节奏标准的人声基频序列
音高差确定单元,用于将所述人声基频序列和所述歌曲的标准音高进行对比,确定所述人声基频序列中每个时间点的音高差;
变调单元,用于将所述待修正音高对应的音高差作为输入参数,依次通过重采样及PSOLA算法完成对所述待修正音高的变调计算;得到音高准确的标准音高人声基频序列;
共振峰矫正单元,用于对所述音高准确的标准音高人声基频序列进行共振峰的矫正,得到最终人声基频序列。
进一步的,如前述的修正音频内容音高偏差的装置,还包括:
待修正音高确定单元,用于对所述人声基频序列中的所有音高差进行筛选,确定待修正音高;
进一步的,如前述的修正音频内容音高偏差的装置,
所述待修正音高确定单元,包括:
待修正音高差确定模块,用于筛选出所有待修正音高差,所述待修正音高差为在设定音差区间内的音高差;
待修正音高确定模块,用于根据所述待修正音高差确定所述人声基频序列中待修正的音高。
进一步的,如前述的修正音频内容音高偏差的装置,所述共振峰矫正单元,包括:
变调系数计算模块,用于将每个音高差作为所述标准音高人声基频序列中对应时刻的共振峰的变调系数;通过确定所述变调系数,其中d为音高差;
共振峰偏移模块,用于将所述标准音高人声基频序列中的每个共振峰按照对应的变调系数进行反向共振峰偏移得到所述矫正后的人声基频序列。
在本申请实施例中,采用修正音频内容音高偏差的方式,通过采集用户演唱歌曲时的歌声;对所述歌声进行音频处理,得到所述用户的人声基频序列;将所述人声基频序列的节奏调整为与所述歌曲的标准节奏一致,得到节奏标准的人声基频序列;将所述歌曲的每个标准音高与所述人声基频序列进行对比,确定所述人声基频序列中每个时间点的音高差;将所述人声基频序列中待修正的音高对应的音高差作为输入参数,依次通过重采样及PSOLA算法,完成对所述待修正的音高的变调计算,得到音高准确的标准音高人声基频序列;对所述标准音高人声基频序列进行共振峰的矫正,得到矫正后的人声基频序列。达到了修正音频内容音高偏差的目的,进而解决了由于用户不能够准确唱出每个音的正确音高,导致演唱结果出现走音跑调等演唱瑕疵的技术问题,同时能够通过共振峰矫正保证音色的正常。
附图说明
构成本申请的一部分的附图用来提供对本申请的进一步理解,使得本申请的其它特征、目的和优点变得更明显。本申请的示意性实施例附图及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是根据本申请一种实施例的修正音频内容音高偏差的方法流程图;
图2是根据本申请又一种实施例的修正音频内容音高偏差的方法流程图;
图3是根据图2所示实施例中步骤S2的一种具体实施方法流程图;
图4是根据图2所示实施例中步骤S3的一种具体实施方法流程图;
图5是根据图2所示实施例中步骤S4的一种具体实施方法流程图;
图6是根据图2所示实施例中步骤S6的一种具体实施方法流程图;
图7是根据本申请实施例的又一种修正音频内容音高偏差的方法流程图;
图8是根据图8所示实施例中步骤S9的一种具体实施方法流程图;
图9是根据图2所示实施例中步骤S7后还包括的具体实施方法流程图;
图10是本申请的一种实施例修正音频内容音高偏差的装置结构图;
图11是根据图10所示实施例中人声基频序列获得单元的一种结构图;
图12是根据图10所示实施例中演唱音信息确定单元的一种结构图;
图13是根据图10所示实施例中演唱音音高确定单元的一种结构图;
图14是根据图10所示实施例中音高差序列获得单元的一种结构图;
图15是本申请又一种实施例的修正音频内容音高偏差的装置结构图;
图16是根据图13所示实施例中待修正音高确定单元的一种结构图;以及
图17是根据图10所示实施例中共振峰矫正单元的一种结构图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
在本申请中,术语“上”、“下”、“左”、“右”、“前”、“后”、“顶”、“底”、“内”、“外”、“中”、“竖直”、“水平”、“横向”、“纵向”等指示的方位或位置关系为基于附图所示的方位或位置关系。这些术语主要是为了更好地描述本实用新型及其实施例,并非用于限定所指示的装置、元件或组成部分必须具有特定方位,或以特定方位进行构造和操作。
并且,上述部分术语除了可以用于表示方位或位置关系以外,还可能用于表示其他含义,例如术语“上”在某些情况下也可能用于表示某种依附关系或连接关系。对于本领域普通技术人员而言,可以根据具体情况理解这些术语在本发明中的具体含义。
此外,术语“安装”、“设置”、“设有”、“连接”、“相连”、“套接”应做广义理解。例如,可以是固定连接,可拆卸连接,或整体式构造;可以是机械连接,或电连接;可以是直接相连,或者是通过中间媒介间接相连,又或者是两个装置、元件或组成部分之间内部的连通。对于本领域普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
如图1所示,本发明又提供一种修正音频内容音高偏差的方法,该方法包括如下的步骤
如图2所示,本发明又提供一种修正音频内容音高偏差的方法,该方法包括如下的步骤S1至步骤S7:
为了实现上述目的,根据本申请的一个方面,提供了一种修正音频内容音高偏差的方法,包括:
S1.采集用户演唱歌曲时的歌声;
S2.将所述歌声的节奏调整为与所述歌曲的标准节奏一致,得到节奏标准的人声基频序列;
S3.根据所述人声基频序列确定所述人声基频序列中每个演唱音的基频序列、起始时间和结束时间;
S4.根据所述每个演唱音的起始时间、结束时间及所述每个演唱音的基频序列确定每个演唱音的用户音高;
S5.根据所述每个演唱音的用户音高和所述歌曲对应的音高模板,确定每个相同时间点的用户音高与标准音高之间的音高差;
S6.根据个相同时间点的用户音高与标准音高之间的音高差,得到音高差序列;所述音高模板中包含用户演唱歌曲中每个音符的标准音高、起始时间和结束时间。
S7.将所述人声基频序列中待修正的音高对应的音高差作为输入参数,依次通过重采样及PSOLA算法,一般的,除了通过重采样及PSOLA算法精心变调之外,还可以通过:时域变调(重采样后变速)、频域插值、基于正弦模型变调完成对所述待修正的音高的变调计算,得到音高准确的标准音高人声基频序列。
根据本发明实施例,提供了一种所述步骤S2的具体处理方法,如图3所示,该方法包括:
S21.根据所述声音信息获得所述歌声中每个音的声音基频;
S22.将所述声音基频按照时间序列进行排序获得所述用户的人声基频序列。
根据本发明实施例,提供了一种所述步骤S3中的根据所述人声基频序列确定所述人声基频序列中每个演唱音的基频数值的具体处理方法,如图4所示,该方法包括:
S31.对所述人声基频序列每隔固定时间进行采样计算;具体的,对用户演唱音频每隔固定时间(通常是10~100ms)计算一次演唱歌声的基频数值;
S32.得到每个演唱音的多个基频数值。
根据本发明实施例,提供了一种所述步骤S4的具体处理方法,如图5所示,该方法包括:
S41.划分所述基频特征中每个演唱音的音头、音腹和音尾;具体的,人类演唱是声带的发声规律是在一个音的前面一小段时间(通常在1~30ms)基频向目标音高收敛,称为音头;中间较长的时间会稳定在一个固定的基频,称为音腹;结尾以小段时间(通常在0~20ms)会偏离目标音高,称为音尾。例如下图是一个典型的音,蓝线是基频线,两条红色的虚线中间的部分基频比较稳定,既音腹。前后分别为音头和音尾。本专利中固定音头时间为30ms,音尾时间为20ms。如果整个音时长小于70ms,将音头和音尾的时长按比例缩小,既音头为30*t/70,音尾为20*t/70。剩下的部分为音腹。
S42.确定所述每个演唱音的音腹的基频序列;
S43.计算所述每个演唱音的音腹中的基频数值的平均数x;
S44.通过式得到所述每个演唱音的用户音高y。
根据本发明实施例,提供了一种所述步骤S5的具体处理方法,如图6所示,该方法包括:
S61.根据所述每个演唱音的起始时间和结束时间确定所述音高模板中对应时间的每个标准音的标准音高;
S62.计算每个时间点的所述用户音高和所述标准音高之间的音高差。
根据本发明实施例,提供了一种所述步骤S6和S7之间还包括S8和S9,如图7所示,该方法包括:
S8.将所述音高差序列做平滑处理得到平滑音高差序列;
S9.对所述人声基频序列中的所有音高差进行筛选,确定待修正的音高;优选的,只对音高差在(-7,7)区间内的人声基频序列中的音进行修正。。
根据本发明实施例,提供了一种所述步骤S7的具体处理方法,该方法包括:
将所述音高差序列中相邻的音尾与音头进行平滑处理,将阶跃的音高差序列转换为连续的平滑音高差序列。
其中,将所述音高差序列中相邻的音尾与音头进行平滑处理,具体包括:
通过下示函数替换相邻两个音的音头音尾部分的音高差序列值,得到平滑的音高差序列进行平滑处理:
其中,n1为音尾的音高,n2为音头的音高,t1为第一个音的音尾开始时间, t2为第二个音的音头结束时间为。
具体的,由于每个音的只有一个音高值,且音高模版中的音符音高也是不连续的阶跃数据。因此得到的音高差序列也是不连续的阶跃数据值,对音头音尾的音高差序列做平滑处理,可以将不连续的阶跃数据变成连续数据。平滑处理可以采用上述方法之外也可以采用高斯平滑等平滑算法、sigmoid、sin或线性函数达到连接相邻的音的目的。
根据本发明实施例,提供了一种所述步骤S8的具体实施方法,如图8所示,该方法包括:
S91.所述对所述人声基频序列中的所有音高差进行筛选,确定待修正音高;
S92.筛选出所有待修正音高差,所述待修正音高差为在设定音差区间内的音高差;
S93.根据所述待修正音高差确定所述人声基频序列中待修正的音高。
根据本发明实施例,提供了在所述步骤S6中得到音高准确的标准音高人声基频序列后,包括:
S10.对所述标准音高人声基频序列进行共振峰的矫正,得到矫正后的人声基频序列。
根据本发明实施例,提供了一种所述步骤S10的具体实施方法,如图9 所示,该方法包括:具体包括:
S101.将每个音高差作为所述标准音高人声基频序列中对应时刻的共振峰的变调系数;通过确定所述变调系数,其中d为音高差;
S102.将所述标准音高人声基频序列中的每个共振峰按照对应的变调系数进行反向共振峰偏移得到所述矫正后的人声基频序列。
通过进行共振峰矫正可以得到正常音色的音频信息,以消除进行变调之后音色发生变化的影响。
在一些实施例中,所述将所述人声基频序列中待修正的音高对应的音高差作为输入参数,依次通过重采样及PSOLA算法,完成对所述待修正的音高的变调计算;包括:
根据所述音高差,确定所述待修正音高需提高的倍数s,
将所述节奏标准的歌声音频按所述采集用户的歌声时的采样率的1/s倍重采样,得到重采样后的音频;
将所述重采样后的音频通过PSOLA算法将重采样的结果拉长到s倍。至此得到一个时长不变的音高提高到s倍的声音。
从以上的描述中,可以看出,本发明实现了如下技术效果:
需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机***中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
根据本发明实施例,还提供了一种用于实施上述修正音频内容音高偏差的方法的装置,如图10所示,该装置包括:
歌声采集单元1,用于采集用户演唱歌曲时的歌声;
人声基频序列获得单元2,用于将所述歌声的节奏调整为与所述歌曲的标准节奏一致,得到节奏标准的人声基频序列
演唱音信息确定单元3,用于根据所述人声基频序列确定每个演唱音的基频数值、起始时间和结束时间;
演唱音音高确定单元4,用于根据所述每个演唱音的起始时间、结束时间及所述基频序列确定每个演唱音的用户音高;
音高差确定单元5,用于将所述人声基频序列和所述歌曲的标准音高进行对比,确定所述人声基频序列中每个时间点的音高差;
音高差序列获得单元6,用于根据所述每个演唱音的用户音高和所述歌曲对应的音高模板,确定每个相同时间点的用户音高与标准音高之间的音高差,并得到音高差序列;所述音高模板中包含用户演唱歌曲中每个音符的标准音高、起始时间和结束时间;
变调单元7,用于将所述人声基频序列中待修正的音高对应的音高差作为输入参数,依次通过重采样及PSOLA算法,完成对所述待修正的音高的变调计算,得到音高准确的标准音高人声基频序列。
根据本发明实施例,如图11所示,所述人声基频序列获得单元2,包括:
声音基频获得模块21,用于根据所述声音信息获得所述歌声中每个音的声音基频;
人声基频序列获得模块22,用于将所述声音基频按照时间序列进行排序获得所述用户的人声基频序列。
根据本发明实施例,如图12所示,演唱音信息确定单元3包括:
演唱音基频数值采样模块31,用于对所述人声基频序列每隔固定时间进行采样计算;
演唱音基频数值确定模块32,用于得到每个演唱音的多个基频数值。
根据本发明实施例,如图13所示,演唱音音高确定单元4,包括
演唱音划分模块41,用于划分所述基频特征中每个演唱音的音头、音腹和音尾;
音腹确定模块42,用于确定所述每个演唱音的音腹的基频序列;
基频平均数计算模块43,用于计算所述每个演唱音的音腹中的基频数值的平均数x;
用户音高计算模块44,用于通过式得到所述每个演唱音的用户音高y。
根据本发明实施例,如图14所示,音高差序列获得单元6,包括:
对应模块61,用于根据所述每个演唱音的起始时间和结束时间确定所述音高模板中对应时间的每个标准音的标准音高;
音高差序列获得模块62,用于计算每个时间点的所述用户音高和所述标准音高之间的音高差。
根据本发明实施例,提供了一种装置还包括平滑处理模块8和待修正音高确定单元9,如图15所示:
平滑处理模块8,用于将所述音高差序列做平滑处理得到平滑音高差序列;
待修正音高确定单元9,用于对所述人声基频序列中的所有音高差进行筛选,确定待修正的音高。
根据本发明实施例,所述平滑处理模块8具体用于:
将所述音高差序列中相邻的音尾与音头进行平滑处理,将阶跃的音高差序列转换为连续的平滑音高差序列。
其中,将所述音高差序列中相邻的音尾与音头进行平滑处理,具体包括:
通过下示函数替换相邻两个音的音头音尾部分的音高差序列值,得到平滑的音高差序列进行平滑处理:
其中,n1为音尾的音高,n2为音头的音高,t1为第一个音的音尾开始时间,t2为第二个音的音头结束时间为。
根据本发明实施例,所述待修正音高确定单元9:
用于对所述人声基频序列中的所有音高差进行筛选,确定待修正音高;
如图16所示,其中所述待修正音高确定单元9,包括:
待修正音高差确定模块91,用于筛选出所有待修正音高差,所述待修正音高差为在设定音差区间内的音高差;
待修正音高确定模块92,用于根据所述待修正音高差确定所述人声基频序列中待修正的音高。
根据本发明实施例,所述装置,还包括共振峰矫正单元10:
用于对所述标准音高人声基频序列进行共振峰的矫正,得到矫正后的人声基频序列。
根据本发明实施例,如图17所示,所述共振峰矫正单元10,具体包括:
变调系数计算模块101,用于将每个音高差作为所述标准音高人声基频序列中对应时刻的共振峰的变调系数;通过确定所述变调系数,其中d 为音高差;例如,音高差为7时,变调系数为1.5;共振峰偏移为1/1.5,既0.67。
共振峰偏移模块102,用于将所述标准音高人声基频序列中的每个共振峰按照对应的变调系数进行反向共振峰偏移得到所述矫正后的人声基频序列。
显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。
以上所述仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (10)

1.一种修正音频内容音高偏差的方法,其特征在于,包括:
采集用户演唱歌曲时的歌声;
将所述歌声的节奏调整为与所述歌曲的标准节奏一致,得到节奏标准的人声基频序列;
将所述歌曲的每个标准音高与所述人声基频序列进行对比,确定所述人声基频序列中每个时间点的音高差;
将所述人声基频序列中待修正的音高对应的音高差作为输入参数,依次通过重采样及PSOLA算法,完成对所述待修正的音高的变调计算,得到音高准确的标准音高人声基频序列;
对所述标准音高人声基频序列进行共振峰的矫正,得到矫正后的人声基频序列。
2.根据权利要求1所述的修正音频内容音高偏差的方法,其特征在于,
在确定所述人声基频序列中每个时间点的音高差后,还包括:对所述人声基频序列中的所有音高差进行筛选,确定待修正的音高。
3.根据权利要求2所述的修正音频内容音高偏差的方法,其特征在于,
所述对所述人声基频序列中的所有音高差进行筛选,确定待修正音高,包括:
筛选出所有待修正音高差,所述待修正音高差为在设定音差区间内的音高差;
根据所述待修正音高差确定所述人声基频序列中待修正的音高。
4.根据权利要求1所述的修正音频内容音高偏差的方法,其特征在于,所述对所述标准音高人声基频序列进行矫正共振峰,得到矫正后的人声基频序列,具体包括:
将每个音高差作为所述标准音高人声基频序列中对应时刻的共振峰的变调系数;通过确定所述变调系数,其中d为音高差;
将所述标准音高人声基频序列中的每个共振峰按照对应的变调系数进行反向共振峰偏移得到所述矫正后的人声基频序列。
5.根据权利要求1所述的修正音频内容音高偏差的方法,其特征在于,所述对所述声音信息进行音频处理,得到所述用户的人声基频序列,包括:
根据所述声音信息获得所述歌声中每个音的声音基频;
将所述声音基频按照时间序列进行排序获得所述用户的人声基频序列。
6.根据权利要求1所述的修正音频内容音高偏差的方法,其特征在于,所述将所述人声基频序列中待修正的音高对应的音高差作为输入参数,依次通过重采样及PSOLA算法,完成对所述待修正的音高的变调计算;包括:
根据所述音高差,确定所述待修正音高需提高的倍数s,
将所述节奏标准的歌声音频按所述采集用户的歌声时的采样率的1/s倍重采样,得到重采样后的音频;
将所述重采样后的音频通过PSOLA算法将重采样的结果拉长到s倍。
7.一种修正音频内容音高偏差的装置,其特征在于,包括:
歌声采集单元,用于采集用户演唱歌曲时的歌声;
人声基频序列获得单元,用于将所述歌声的节奏调整为与所述歌曲的标准节奏一致,得到节奏标准的人声基频序列;
音高差确定单元,用于将所述人声基频序列和所述歌曲的标准音高进行对比,确定所述人声基频序列中每个时间点的音高差;
变调单元,用于将所述待修正音高对应的音高差作为输入参数,依次通过重采样及PSOLA算法完成对所述待修正音高的变调计算;得到音高准确的标准音高人声基频序列;
共振峰矫正单元,用于对所述音高准确的标准音高人声基频序列进行共振峰的矫正,得到最终人声基频序列。
8.根据权利要求7所述的修正音频内容音高偏差的装置,其特征在于,还包括:
待修正音高确定单元,用于对所述人声基频序列中的所有音高差进行筛选,确定待修正音高。
9.根据权利要求8所述的修正音频内容音高偏差的装置,其特征在于,
所述待修正音高确定单元,包括:
待修正音高差确定模块,用于筛选出所有待修正音高差,所述待修正音高差为在设定音差区间内的音高差;
待修正音高确定模块,用于根据所述待修正音高差确定所述人声基频序列中待修正的音高。
10.根据权利要求7所述的修正音频内容音高偏差的装置,其特征在于,所述共振峰矫正单元,包括:
变调系数计算模块,用于将每个音高差作为所述标准音高人声基频序列中对应时刻的共振峰的变调系数;通过确定所述变调系数,其中d为音高差;
共振峰偏移模块,用于将所述标准音高人声基频序列中的每个共振峰按照对应的变调系数进行反向共振峰偏移得到所述矫正后的人声基频序列。
CN201711268972.9A 2017-12-05 2017-12-05 修正音频内容音高偏差的方法及装置 Active CN108257613B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711268972.9A CN108257613B (zh) 2017-12-05 2017-12-05 修正音频内容音高偏差的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711268972.9A CN108257613B (zh) 2017-12-05 2017-12-05 修正音频内容音高偏差的方法及装置

Publications (2)

Publication Number Publication Date
CN108257613A true CN108257613A (zh) 2018-07-06
CN108257613B CN108257613B (zh) 2021-12-10

Family

ID=62722360

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711268972.9A Active CN108257613B (zh) 2017-12-05 2017-12-05 修正音频内容音高偏差的方法及装置

Country Status (1)

Country Link
CN (1) CN108257613B (zh)

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110675886A (zh) * 2019-10-09 2020-01-10 腾讯科技(深圳)有限公司 音频信号处理方法、装置、电子设备及存储介质
CN111063372A (zh) * 2019-12-30 2020-04-24 广州酷狗计算机科技有限公司 确定音高特征的方法、装置、设备及存储介质
CN111583894A (zh) * 2020-04-29 2020-08-25 长沙市回音科技有限公司 一种实时修正音色的方法、装置、终端设备及计算机存储介质
CN111785238A (zh) * 2020-06-24 2020-10-16 腾讯音乐娱乐科技(深圳)有限公司 音频校准方法、装置及存储介质
CN111968623A (zh) * 2020-08-19 2020-11-20 腾讯音乐娱乐科技(深圳)有限公司 气口位置检测方法及相关设备
CN112216259A (zh) * 2020-11-17 2021-01-12 北京达佳互联信息技术有限公司 人声伴奏对齐方法及装置
CN112365868A (zh) * 2020-11-17 2021-02-12 北京达佳互联信息技术有限公司 声音处理方法、装置、电子设备及存储介质
CN112420062A (zh) * 2020-11-18 2021-02-26 腾讯音乐娱乐科技(深圳)有限公司 一种音频信号处理方法及设备
CN112820255A (zh) * 2020-12-30 2021-05-18 北京达佳互联信息技术有限公司 音频处理方法及装置
CN113066462A (zh) * 2021-06-02 2021-07-02 北京达佳互联信息技术有限公司 一种修音方法、装置、设备及存储介质
CN113178183A (zh) * 2021-04-30 2021-07-27 杭州网易云音乐科技有限公司 音效处理方法、装置、存储介质和计算设备
CN113192477A (zh) * 2021-04-28 2021-07-30 北京达佳互联信息技术有限公司 音频处理方法及装置
CN113257211A (zh) * 2021-05-13 2021-08-13 杭州网易云音乐科技有限公司 音频调节方法、介质、装置和计算设备
CN115331682A (zh) * 2021-05-11 2022-11-11 北京奇音妙想科技有限公司 修正音频的音高的方法和装置

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1162167A (zh) * 1996-01-18 1997-10-15 雅马哈株式会社 修正演唱声以模仿标准声的共振峰转换装置
CN1378199A (zh) * 2001-03-26 2002-11-06 株式会社东芝 语音合成方法、语音合成装置及记录媒体
US20030009336A1 (en) * 2000-12-28 2003-01-09 Hideki Kenmochi Singing voice synthesizing apparatus, singing voice synthesizing method, and program for realizing singing voice synthesizing method
US20110054902A1 (en) * 2009-08-25 2011-03-03 Li Hsing-Ji Singing voice synthesis system, method, and apparatus
WO2013149188A1 (en) * 2012-03-29 2013-10-03 Smule, Inc. Automatic conversion of speech into song, rap or other audible expression having target meter or rhythm
CN106057208A (zh) * 2016-06-14 2016-10-26 科大讯飞股份有限公司 一种音频修正方法及装置
CN106157976A (zh) * 2015-04-10 2016-11-23 科大讯飞股份有限公司 一种唱歌评测方法及***
CN107103915A (zh) * 2016-02-18 2017-08-29 广州酷狗计算机科技有限公司 一种音频数据处理方法以及装置

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1162167A (zh) * 1996-01-18 1997-10-15 雅马哈株式会社 修正演唱声以模仿标准声的共振峰转换装置
CN1172291C (zh) * 1996-01-18 2004-10-20 雅马哈株式会社 共振峰转换装置、应用该转换装置的方法和卡拉ok装置
US20030009336A1 (en) * 2000-12-28 2003-01-09 Hideki Kenmochi Singing voice synthesizing apparatus, singing voice synthesizing method, and program for realizing singing voice synthesizing method
CN1378199A (zh) * 2001-03-26 2002-11-06 株式会社东芝 语音合成方法、语音合成装置及记录媒体
US20110054902A1 (en) * 2009-08-25 2011-03-03 Li Hsing-Ji Singing voice synthesis system, method, and apparatus
WO2013149188A1 (en) * 2012-03-29 2013-10-03 Smule, Inc. Automatic conversion of speech into song, rap or other audible expression having target meter or rhythm
CN106157976A (zh) * 2015-04-10 2016-11-23 科大讯飞股份有限公司 一种唱歌评测方法及***
CN107103915A (zh) * 2016-02-18 2017-08-29 广州酷狗计算机科技有限公司 一种音频数据处理方法以及装置
CN106057208A (zh) * 2016-06-14 2016-10-26 科大讯飞股份有限公司 一种音频修正方法及装置

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
ADOBE: "《如何使用 Adobe Audition 操作时间和变调》", 27 October 2016 *
XIAN LI: "A HMM-based mandarin chinese singing voice synthesis system", 《IEEE/CAA JOURNAL OF AUTOMATICA SINICA》 *
肖凌: "浅析人声修正软件Melodyne的应用技巧", 《黄河之声》 *
胡航: "《现代语言信号处理》", 31 July 2014 *

Cited By (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110675886A (zh) * 2019-10-09 2020-01-10 腾讯科技(深圳)有限公司 音频信号处理方法、装置、电子设备及存储介质
CN110675886B (zh) * 2019-10-09 2023-09-15 腾讯科技(深圳)有限公司 音频信号处理方法、装置、电子设备及存储介质
CN111063372A (zh) * 2019-12-30 2020-04-24 广州酷狗计算机科技有限公司 确定音高特征的方法、装置、设备及存储介质
CN111583894B (zh) * 2020-04-29 2023-08-29 长沙市回音科技有限公司 一种实时修正音色的方法、装置、终端设备及计算机存储介质
CN111583894A (zh) * 2020-04-29 2020-08-25 长沙市回音科技有限公司 一种实时修正音色的方法、装置、终端设备及计算机存储介质
CN111785238A (zh) * 2020-06-24 2020-10-16 腾讯音乐娱乐科技(深圳)有限公司 音频校准方法、装置及存储介质
CN111785238B (zh) * 2020-06-24 2024-02-27 腾讯音乐娱乐科技(深圳)有限公司 音频校准方法、装置及存储介质
CN111968623A (zh) * 2020-08-19 2020-11-20 腾讯音乐娱乐科技(深圳)有限公司 气口位置检测方法及相关设备
CN111968623B (zh) * 2020-08-19 2023-11-28 腾讯音乐娱乐科技(深圳)有限公司 气口位置检测方法及相关设备
CN112216259A (zh) * 2020-11-17 2021-01-12 北京达佳互联信息技术有限公司 人声伴奏对齐方法及装置
CN112365868B (zh) * 2020-11-17 2024-05-28 北京达佳互联信息技术有限公司 声音处理方法、装置、电子设备及存储介质
CN112216259B (zh) * 2020-11-17 2024-03-08 北京达佳互联信息技术有限公司 人声伴奏对齐方法及装置
CN112365868A (zh) * 2020-11-17 2021-02-12 北京达佳互联信息技术有限公司 声音处理方法、装置、电子设备及存储介质
CN112420062A (zh) * 2020-11-18 2021-02-26 腾讯音乐娱乐科技(深圳)有限公司 一种音频信号处理方法及设备
CN112820255A (zh) * 2020-12-30 2021-05-18 北京达佳互联信息技术有限公司 音频处理方法及装置
CN113192477A (zh) * 2021-04-28 2021-07-30 北京达佳互联信息技术有限公司 音频处理方法及装置
CN113178183A (zh) * 2021-04-30 2021-07-27 杭州网易云音乐科技有限公司 音效处理方法、装置、存储介质和计算设备
CN113178183B (zh) * 2021-04-30 2024-05-14 杭州网易云音乐科技有限公司 音效处理方法、装置、存储介质和计算设备
CN115331682A (zh) * 2021-05-11 2022-11-11 北京奇音妙想科技有限公司 修正音频的音高的方法和装置
CN113257211A (zh) * 2021-05-13 2021-08-13 杭州网易云音乐科技有限公司 音频调节方法、介质、装置和计算设备
CN113257211B (zh) * 2021-05-13 2024-05-24 杭州网易云音乐科技有限公司 音频调节方法、介质、装置和计算设备
CN113066462A (zh) * 2021-06-02 2021-07-02 北京达佳互联信息技术有限公司 一种修音方法、装置、设备及存储介质
CN113066462B (zh) * 2021-06-02 2022-05-06 北京达佳互联信息技术有限公司 一种修音方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN108257613B (zh) 2021-12-10

Similar Documents

Publication Publication Date Title
CN108257613A (zh) 修正音频内容音高偏差的方法及装置
CN108206026A (zh) 确定音频内容音高偏差的方法及装置
CN108231048B (zh) 修正音频节奏的方法及装置
US5715179A (en) Performance evaluation method for use in a karaoke apparatus
US11288975B2 (en) Artificially intelligent music instruction methods and systems
CN109670074A (zh) 一种节奏点识别方法、装置、电子设备及存储介质
CN105825844A (zh) 一种修音的方法和装置
CN101667422B (zh) 一种调节歌曲伴奏的调式的方法及装置
US20100192753A1 (en) Karaoke apparatus
CN1238058A (zh) 语音处理***
CN104620313A (zh) 音频信号分析
CN105161087A (zh) 一种自动和声方法、装置及终端自动和声操作方法
CN108766452B (zh) 修音方法及装置
CN105702249A (zh) 自动选择伴奏的方法和装置
CN105869621A (zh) 音频合成装置及其音频合成的方法
CN108257609A (zh) 音频内容修正的方法及其智能装置
CN111583894A (zh) 一种实时修正音色的方法、装置、终端设备及计算机存储介质
CN105321526A (zh) 音频处理方法和电子设备
KR101813704B1 (ko) 사용자 음색 분석 장치 및 음색 분석 방법
CN109410971A (zh) 一种美化声音的方法和装置
CN110517655B (zh) 一种旋律生成方法及***
CN108806721A (zh) 信号处理器
CN108492807B (zh) 展示修音状态的方法及装置
CN110853457A (zh) 可互动的音乐教学指导方法
CN105869614B (zh) 音频文件导出方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant