CN111081265B - 音高处理方法、装置、设备及存储介质 - Google Patents

音高处理方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN111081265B
CN111081265B CN201911364543.0A CN201911364543A CN111081265B CN 111081265 B CN111081265 B CN 111081265B CN 201911364543 A CN201911364543 A CN 201911364543A CN 111081265 B CN111081265 B CN 111081265B
Authority
CN
China
Prior art keywords
pitch
pitches
initial
alternative
moments
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911364543.0A
Other languages
English (en)
Other versions
CN111081265A (zh
Inventor
劳振锋
肖纯智
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Kugou Computer Technology Co Ltd
Original Assignee
Guangzhou Kugou Computer Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Kugou Computer Technology Co Ltd filed Critical Guangzhou Kugou Computer Technology Co Ltd
Priority to CN201911364543.0A priority Critical patent/CN111081265B/zh
Publication of CN111081265A publication Critical patent/CN111081265A/zh
Application granted granted Critical
Publication of CN111081265B publication Critical patent/CN111081265B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • G10L21/007Changing voice quality, e.g. pitch or formants characterised by the process used

Landscapes

  • Engineering & Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Auxiliary Devices For Music (AREA)

Abstract

本申请公开了一种音高处理方法、装置、设备及存储介质,属于音频处理领域。该方法包括:对目标音频片段的音高进行时域采样,得到多个时刻的初始音高;从多个时刻的初始音高中确定至少两个连续时刻的备选音高,其中,每个备选音高均处于音高范围内,且确定出的备选音高的个数小于初始音高的个数;对至少两个连续时刻的备选音高进行处理,得到多个时刻中每个时刻的修正音高。由于本申请可以对处于正常音高范围内的备选音高进行处理,得到与初始音高个数相同的多个时刻的修正音高,因此可以在确保最终合成的音频中的音高均处于正常音高范围的同时,确保每个目标音频片段对应的音高的完整性,从而确保最终合成的音频的效果。

Description

音高处理方法、装置、设备及存储介质
技术领域
本公开涉及音频处理领域,特别涉及一种音高处理方法、装置、设备及存储介质。
背景技术
目前,终端在对用户录制的音频进行合成的过程中,在获取到用户录制的音频中每个字的多个音高后,为了避免最终合成的音频中出现杂音或者突变声,需要去除该多个音高中处于音高范围之外的音高,并基于去除后的音高进行音频合成。其中,音高由声音振动的频率决定。
但是,由于终端会将每个字的多个音高中不在音高范围内的部分音高去除,使得有的字的部分音高缺失,进而导致最终合成的音频效果较差。
发明内容
本公开实施例提供了一种音高处理方法、装置、设备及存储介质,可以解决相关技术中将每个字的多个音高中不在音高范围内的部分音高去除,导致最终合成的音频效果较差的问题。所述技术方案如下:
一方面,提供了一种音高处理方法,所述方法包括:
对目标音频片段的音高进行时域采样,得到多个时刻的初始音高;
从所述多个时刻的初始音高中确定至少两个连续时刻的备选音高,其中,每个所述备选音高均处于音高范围内,且确定出的所述备选音高的个数小于所述初始音高的个数;
对所述至少两个连续时刻的备选音高进行处理,得到所述多个时刻中每个时刻的修正音高。
可选的,所述从所述多个时刻的初始音高中确定至少两个连续时刻的备选音高,包括:
从所述多个时刻的初始音高中确定多个音高组,每个所述音高组包括至少两个连续时刻的初始音高,每个所述音高组包括的初始音高的个数小于所述初始音高的个数,且每个所述音高组中的每个所述初始音高均处于音高范围内;
将多个所述音高组中目标音高组包括的至少两个连续时刻的初始音高确定为备选音高,其中,所述目标音高组为多个所述音高组中,最后一个初始音高的时刻与所述多个时刻中最后一个时刻的差值最小的一个所述音高组。
可选的,所述对所述至少两个连续时刻的备选音高进行处理,得到所述多个时刻中每个时刻的修正音高,包括:
在所述至少两个连续时刻的备选音高中***目标数量个差值音高;
基于所述目标数量个差值音高的插值位置,更新每个所述备选音高的时刻,以及每个所述差值音高的时刻,得到所述多个时刻中每个时刻的修正音高;
其中,所述目标数量等于所述初始音高的个数与所述备选音高的个数的差值,每个所述差值音高根据至少一个所述备选音高确定。
可选的,对于每个所述差值音高,所述差值音高等于所述差值音高***位置处相邻的一个所述备选音高,或者,所述差值音高等于所述差值音高***位置处相邻的两个所述备选音高的均值。
可选的,所述对所述至少两个连续时刻的备选音高进行处理,得到所述多个时刻中每个时刻的修正音高,包括:
依次对所述至少两个连续时刻的备选音高中,相邻第一数量个所述备选音高加权求和,得到第二数量个候选音高,其中,所述第二数量等于所述初始音高的个数;
采用所述第二数量个候选音高替换所述多个时刻的初始音高,得到所述多个时刻中每个时刻的修正音高。
可选的,在从所述多个时刻的初始音高中确定至少两个连续时刻的备选音高之前,所述方法还包括:
从所述多个时刻的初始音高中获取出现次数最多的目标音高;
基于所述目标音高确定音高范围,所述音高范围包含所述目标音高。
可选的,所述基于所述目标音高确定音高范围,包括:
将所述目标音高减去音高偏差的差值,确定为音高范围的下限;
将所述目标音高与所述音高偏差之和,确定为音高范围的上限。
另一方面,提供了一种音高处理装置,所述装置包括:
采样模块,用于对目标音频片段的音高进行时域采样,得到多个时刻的初始音高;
第一确定模块,用于从所述多个时刻的初始音高中确定至少两个连续时刻的备选音高,其中,每个所述备选音高均处于音高范围内,且确定出的所述备选音高的个数小于所述初始音高的个数;
处理模块,用于对所述至少两个连续时刻的备选音高进行处理,得到所述多个时刻中每个时刻的修正音高。
又一方面,提供了一种音高处理设备,包括:存储器,处理器及存储在所述存储器上的计算机程序,所述处理器执行所述计算机程序时实现如上述方面所述的音高处理方法。
再一方面,提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当所述计算机可读存储介质在计算机上运行时,使得计算机执行如上述方面所述的音高处理方法。
本公开实施例提供的技术方案带来的有益效果至少包括:
本公开实施例提供了一种音高处理方法、装置、设备及存储介质,该音高处理方法在对目标音频片段的音高进行时域采样,得到多个时刻的初始音高后,可以从该多个时刻的初始音高中确定处于音高范围内的至少两个连续时刻的备选音高,并对处于音高范围内的至少两个连续时刻的备选音高进行处理,得到该多个时刻中每个时刻的修正音高。由于该音高处理方法是对处于正常音高范围内的备选音高进行处理,得到与初始音高个数相同的多个时刻的修正音高,因此可以在确保最终合成的音频中的音高均处于正常音高范围的同时,确保每个目标音频片段对应的音高的完整性,从而确保最终合成的音频的效果。
附图说明
为了更清楚地说明本公开实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本公开实施例提供的一种音高处理方法所涉及的实施环境的示意图;
图2是本公开实施例提供的一种音高处理方法的流程图;
图3是本公开实施例提供的另一种音高处理方法的流程图;
图4是本公开实施例提供的一种多个时刻的初始音高的示意图;
图5是本公开实施例提供的一种音高处理装置的框图;
图6是本公开实施例提供的另一种音高处理装置的框图。
具体实施方式
为使本公开的目的、技术方案和优点更加清楚,下面将结合附图对本公开实施方式作进一步地详细描述。
图1是本公开实施例提供的一种音高处理方法所涉及的实施环境的示意图。如图1所示,该实施环境可以包括:终端11。该终端11可以为个人电脑、笔记本电脑或平板电脑或手机等安装有音频合成软件110的设备,该音高处理方法可以应用于该终端11中。
可选的,本公开实施例提供的音高处理方法还可以应用于服务器中,该服务器可以是一台服务器,或者由若干台服务器组成的服务器集群,或者是一个云计算服务中心。本公开实施例以该音高处理方法应用于图1所示的终端11中为例进行说明。
在本公开实施例中,由于终端是对处于正常音高范围内的备选音高进行处理,从而得到与初始音高个数相同的多个时刻的修正音高,因此可以在确保最终合成的音频中的音高均处于正常音高范围的同时,确保每个目标音频片段对应的音高的完整性,从而确保最终合成的音频的效果。
图2是本公开实施例提供的一种音高处理方法的流程图,该音高处理方法可以应用于图1所示的终端11中,或者该音高处理方法可以应用于服务器中。本公开实施例以该音高处理方法应用于图1所示的终端11中为例进行说明。如图2所示,该方法可以包括:
步骤201、对目标音频片段的音高进行时域采样,得到多个时刻的初始音高。
在本公开实施例中,终端在采用音频合成软件对待处理的音频进行合成的过程中,需要先从该待处理的音频中获取目标音频片段。之后可以每隔采样间隔从该目标音频片段中采样一个音频帧,并获取该音频帧对应的初始音高,从而采样得到多个时刻的初始音高,即该每个初始音高对应一个时刻。
可选的,若每个音频帧由多个采样时间点组成,则该每个初始音高可以对应一个时间段。
其中,该待处理的音频可以是用户采用该音频合成软件录制的音频,或者也可以是用户上传至该音频合成软件的音频。该目标音频片段的时长小于或等于该待处理的音频的时长,该目标音频片段可以是一个文本单元或者多个文本单元所对应的音频片段。该文本单元可以是任一种语言。例如该文本单元可以是单个汉字或者英文单词。该初始音高是由声音振动的频率决定。可选的,该初始音高可以用频率表示。
步骤202、从多个时刻的初始音高中确定至少两个连续时刻的备选音高。
其中,该每个备选音高均处于音高范围内,且该确定出的备选音高的个数小于初始音高的个数。该处于音高范围内的音高是不会使得最终合成的音频出现杂音或者突变音的音高。
可选的,该音高范围可以是终端中预先存储的一个固定音高范围,也可以是终端根据该多个初始音高确定的。
可选的,若该多个时刻的初始音高均处于音高范围内,则表明该多个时刻的初始音高均不会使得最终合成的音频出现杂音或者突变音,因此终端无需对该多个时刻的初始音高进行修正,则终端可以直接基于该多个时刻的初始音高进行音频合成。
步骤203、对至少两个连续时刻的备选音高进行处理,得到多个时刻中每个时刻的修正音高。
该修正高音的个数与初始音高的个数相同。终端在得到多个时刻中每个时刻的修正音高后,可以基于该多个时刻中每个时刻的修正音高进行音频合成。
综上所述,本公开实施例提供了一种音高处理方法,该音高处理方法在对目标音频片段的音高进行时域采样,得到多个时刻的初始音高后,可以从该多个时刻的初始音高中确定处于音高范围内的至少两个连续时刻的备选音高,并对处于音高范围内的至少两个连续时刻的备选音高进行处理,得到该多个时刻中每个时刻的修正音高。由于该音高处理方法是对处于正常音高范围内的备选音高进行处理,得到与初始音高个数相同的多个时刻的修正音高,因此可以在确保最终合成的音频中的音高均处于正常音高范围的同时,确保每个目标音频片段对应的音高的完整性,从而确保了最终合成的音频的效果。
图3是本公开实施例提供的一种音高处理方法的流程图,该音高处理方法可以应用于图1所示的终端11中,或者该音高处理方法可以应用于服务器中。本公开实施例以该音高处理方法应用于图1所示的终端11中为例进行说明。如图3所示,该方法可以包括:
步骤301、对目标音频片段的音高进行时域采样,得到多个时刻的初始音高。
在本公开实施例中,终端在采用音频合成软件对待处理的音频进行合成的过程中,需要先从该待处理的音频中获取目标音频片段。之后可以每隔采样间隔从该目标音频片段中采样一个初始音高,从而采样得到多个时刻的初始音高,即每个初始音高对应一个时刻。
其中,该待处理的音频可以是用户采用该音频合成软件录制的音频,或者也可以是用户上传至该音频合成软件的音频。该目标音频片段的时长小于该待处理的音频的时长,该目标音频片段可以是一个文本单元或者多个文本单元所对应的音频片段。该文本单元可以是任一种语言。例如该文本单元可以是单个汉字或者英文单词。该初始音高是由声音振动的频率决定。可选的,该初始音高可以用频率表示。
示例的,假设该文本单元为单个汉字,该汉字的拼音包括声母和韵母,该声母包括清声声母和非清声声母。其中,该非清声声母和韵母均具有音高,该清声声母没有音高,即该清声声母的音高为0,例如,该清声声母可以为s、sh或者f等。因此终端获取的一个文本单元对应的目标音频片段的音高,也就是该文本单元的非清声声母和韵母对应的音高,即该多个初始音高均不为0。
示例的,图4是本公开实施例提供的一种多个时刻的初始音高的示意图。该示意图的横坐标为时间T,纵坐标为音高H。参考图4,终端在将目标音频片段进行时域采样后,可以得到t1至t10共10个时刻的初始音高。
步骤302、从多个时刻的初始音高中获取出现次数最多的目标音高。
终端在得到多个时刻的初始音高后,可以统计该每个初始音高的出现次数,并将出现次数最多的初始音高确定为目标音高。示例的,如图4所示,10个时刻的初始音高中出现次数最多的是初始音高h0,因此终端可以将初始音高h0确定为目标音高。
可选的,终端在得到多个时刻的初始音高后,可以对每个初始音高进行取整,之后统计该取整后的每个初始音高的出现次数,并将取整后的出现次数最多的初始音高确定为目标音高,从而确保确定的目标音高的可靠性。其中,该取整可以为向上取整或者向下取整。
步骤303、基于目标音高确定音高范围。
在本公开实施例中,终端在获取该目标音高后,可以将该目标音高减去音高偏差的差值,确定为该音高范围的下限。并将该目标音高与音高偏差之和,确定为该音高范围的上限。也即是,该音高范围包含该目标音高。若该目标音高为h0,音高偏差为Δh,则该音高范围可以为[h0-Δh,h0+Δh]。
该处于音高范围内的音高是不会使得最终合成的音频出现杂音或者突变音的音高。该音高偏差可以为终端中预先存储的一个固定值。或者该音高偏差可以是终端基于该目标音高得到的。由于一个音频片段的音高不会超过一个八度,因此终端可以将小于该目标音高的两倍的任一数值确定为音高偏差。
可选的,该音高范围还可以是终端中预先存储的一个固定音高范围。例如,该固定音高范围可以是80赫兹(HZ)至200HZ,或者也可以是65HZ至2000HZ。
步骤304、从多个时刻的初始音高中确定多个音高组。
终端在确定音高范围后,可以从该多个时刻的初始音高中确定多个音高组。其中,该每个音高组可以包括至少两个连续时刻的初始音高,该每个音高组包括的初始音高的个数小于初始音高的个数,且该每个音高组中的每个初始音高均处于音高范围内。
可选的,该每个音高组包括的初始音高的个数大于个数阈值。该个数阈值可以为终端中预先存储的一个固定值。或者,也可以是终端根据初始音高的个数确定的。例如,该个数阈值可以占该初始音高的个数的20%。
在本公开实施例中,终端可以先从该多个时刻的初始音高中获取多个处于音高范围的初始音高,并将该多个处于音高范围的初始音高中时刻连续的至少两个初始音高划分为一个备选音高组,得到多个备选音高组。之后将包括的初始音高的个数大于个数阈值的备选音高组确定为多个音高组。
示例的,假设h0-Δh=h1,h0+Δh=h2,则该音高范围为[h1,h2],参考图4,终端从该10个时刻的初始音高可以确定出两个音高组。第一个音高组包括t3至t5三个连续时刻的初始音高。第二个音高组包括t7至t10四个连续时刻的初始音高。
步骤305、将多个音高组中目标音高组包括的至少两个连续时刻的初始音高确定为备选音高。
其中,该目标音高组为多个音高组中,最后一个初始音高的时刻与多个时刻中最后一个时刻的差值最小的一个音高组,也即是该目标音高组是最靠近多个时刻中最后一个时刻的音高组。由于目标音频片段中后半部分的音高比前半部分的音高更为稳定,通过将更靠近多个时刻中最后一个时刻的音高组确定为目标音高组,使得最终合成的音频的更接近用户的原声,进而使得最终合成的音频的效果更好。
示例的,参考图4,第一个音高组中最后一个初始音高的时刻为t5,第二个音高组中最后一个初始音高的时刻为t10。该第二个音高组中最后一个初始音高的时刻t10与该10个时刻中最后一个时刻t10的差值,小于第一个音高组中最后一个初始音高的时刻t5与该10个时刻中最后一个时刻t10的差值。因此终端可以将第二个音高组包括的t7至t10四个连续时刻的初始音高确定为备选音高。
可选的,终端在确定多个音高组后,可以获取每个音高组中最后一个初始音高的时刻,并确定该每个音高组中最后一个初始音高的时刻与多个时刻中最后一个时刻的差值,得到多个差值。之后将确定出最小差值的一个音高组确定为目标音高组。
需要说明的是,在步骤304中若终端从多个时刻的初始音高中确定出一个音高组,则可以将该一个音高组包括的至少两个连续时刻的初始音高确定为备选音高。
步骤306、对至少两个连续时刻的备选音高进行处理,得到多个时刻中每个时刻的修正音高。
在本公开实施例中,终端在确定出至少两个连续时刻的备选音高后,可以对该至少两个连续时刻的备选音高进行处理,进而得到多个时刻中每个时刻的修正音高。即该修正音高的个数等于该初始音高的个数。
在本公开实施例一种可选的实现方式中,终端可以在该至少两个连续时刻的备选音高中***目标数量个差值音高,并基于该目标数量个差值音高的插值位置,更新该每个备选音高的时刻以及该每个差值音高的时刻,从而得到多个时刻中每个时刻的修正音高。其中,该目标数量等于初始音高的个数与备选音高的个数的差值,该每个差值音高根据至少一个备选音高确定。示例的,若该初始音高的个数为n,该备选音高的个数为m,则该目标数量可以为n-m,其中,m和n均为大于1的整数,且m小于n。
在本公开实施例中,对于每个差值音高,该差值音高等于该差值音高***位置处相邻的一个备选音高。示例的,对于每个差值音高,该差值音高可以等于该差值音高***位置处相邻的前一个备选音高。或者可以等于该差值音高***位置处相邻的后一个备选音高。
或者,该差值音高等于该差值音高***位置处相邻的两个备选音高的均值。可选的,该均值可以为该差值音高***位置处相邻两个备选音高的算数平均值、几何平均值或者加权平均值。
在本申请实施例中,假设每个差值音高均等于该差值音高***位置处相邻的前一个备选音高。终端得到的该多个时刻中第i个时刻的修正音高等于该至少两个连续时刻的备选音高中的第j个时刻的备选音高。其中,j满足:j=┌i×m/n┐,即该j=Ceiling(i×m/n)。或者,j满足:j=└i×m/n┘,也即是j=Floor(i×m/n)。┌┐和Ceiling均表示向上取整,└┘和Floor均表示向下取整。j为小于或等于m的整数,i为小于或等于n的整数。需要说明的是,当j=0时,终端可以将第1个备选音高确定为第i个修正音高。
示例的,假设m为5,n为10,j=Ceiling(i×m/n),则终端需要在5个备选音高中***5个差值音高。当i为1时,j=1,终端可以将多个备选音高中的第1个备选音高保持不变,并将该第一个备选音高对应的时刻更新为10个时刻中的第一个时刻。
当i=2时,j=1,则终端可以在第1个备选音高和第2个备选音高之间***一个第1个备选音高,该***的第1个备选音高即为第1个差值音高,并将该第1个差值音高对应的时刻更新为10个时刻中的第二个时刻。当i=3时,j=2,则终端可以在第1个差值音高和第2个备选音高之间***一个第2个备选音高,该第1个差值音高和第2个备选音高之间***的音高即为第2个差值音高,并将该第2个差值音高对应的时刻更新为10个时刻中的第三个时刻。
当i=4时,j=2,则终端可以将多个备选音高中的第2个备选音高保持不变,并将该第二个备选音高对应的时刻更新为10个时刻中的第四个时刻。依次类推,直至在该5备选音高中***5个差值音高,得到10个时刻的修正音高。
在本公开实施例另一种可选的实现方式中,终端可以依次对至少两个连续时刻的备选音高中,相邻第一数量个备选音高加权求和,得到第二数量个候选音高。之后采用该第二数量个候选音高替换多个时刻的初始音高,得到多个时刻中每个时刻的修正音高。其中,该第二数量等于初始音高的个数。
可选的,该第一数量可以为终端中预先存储的固定数值,例如该第一数量可以为2或者3。每相邻第一数量个备选音高的权重均可以为预先存储的固定数值。或者,也可以是根据该相邻第一数量个备选音高的时刻的索引确定。
假设第一数量为2,相邻两个备选音高中第一个备选音高的第一权重为w1,第二个备选音高的第二权重为w2,该第二数量为n,则该n个候选音高中的第i个候选音高Fi可以满足:Fi=w1×Hj+w2×Hj+1,Hj表示的是第j个备选音高,Hj+1表示的是第j+1个备选音高。
其中,该第一权重w1可以满足:w1=1-(i×m/n-j),该第二权重w2可以满足:w2=i×m/n-j。该j=┌i×m/n┐,即该j=Ceiling(i×m/n)。或者,j=└i×m/n┘,也即是j=Floor(i×m/n)。需要说明的是,当j=0时,该n个候选音高中的第i个候选音高可以为:Fi=w1×H1+w2×H2。当j=n时,由于j+1大于n,因此该n个候选音高中的第i个候选音高可以为:Fi=Hn
示例的,假设m为5,n为10,j=Floor(i×m/n)。则当i为1时,j=0,终端可以确定第1个候选音高F1满足:F1=w1×H1+w2×H2=(1-(1×5/10-0))×H1+(1×5/10-0)×H2
当i为2时,j=1,终端可以确定第2个候选音高F2满足:F2=w1×H1+w2×H2=(1-(2×5/10-1))×H1+(2×5/10-1)×H2
当i为3时,j=1,终端可以确定第3个候选音高F3满足:F3=w1×H1+w2×H2=(1-(3×5/10-1))×H1+(3×5/10-1)×H2
当i为4时,j=2,终端可以确定第4个候选音高F4满足:F4=w1×H2+w2×H3=(1-(4×5/10-2))×H2+(4×5/10-2)×H3。依次类推,直至确定出F5至F10。之后,将采用该确定出的F1至F10共10个候选音高替换最初确定的10个初始音高。
在本公开实施例中,终端通过依次对至少两个连续时刻的备选音高中,相邻第一数量个备选音高加权求和,得到第二数量个候选音高。并采用该第二数量个候选音高替换多个时刻的初始音高,得到多个修正音高。该方法降低相邻第二数量个修正音高相同的可能性,使得确定的多个时刻的修正音高更加准确,且使得该多个修正音高中任意相邻两个修正音高的过渡更加平滑,提高了最终合成的音频的效果。
需要说明的是,本公开实施例提供的音高处理方法步骤的先后顺序可以进行适当调整,步骤也可以根据情况进行删除。例如,步骤302和步骤303可以根据情况进行删除,或者,步骤304和步骤305可以在步骤302之前执行。任何熟悉本技术领域的技术人员在本公开揭露的技术范围内,可轻易想到变化的方法,都应涵盖在本公开的保护范围之内,因此不再赘述。
综上所述,本公开实施例提供了一种音高处理方法,该音高处理方法在对目标音频片段的音高进行时域采样,得到多个时刻的初始音高后,可以从该多个时刻的初始音高中确定处于音高范围内的至少两个连续时刻的备选音高,并对处于音高范围内的至少两个连续时刻的备选音高进行处理,得到该多个时刻中每个时刻的修正音高。由于该音高处理方法是对处于正常音高范围内的备选音高进行处理,得到与初始音高个数相同的多个时刻的修正音高,因此可以在确保最终合成的音频中的音高均处于正常音高范围的同时,确保每个目标音频片段对应的音高的完整性,从而确保最终合成的音频的效果。
图5是本公开实施例提供的一种音高处理装置的框图50。该音高处理装置可以应用于图1所示的终端11中,或者该音高处理装置可以应用于服务器中。如图5所示,该装置可以包括:
采样模块501,用于对目标音频片段的音高进行时域采样,得到多个时刻的初始音高。
第一确定模块502,用于从多个时刻的初始音高中确定至少两个连续时刻的备选音高,其中,每个备选音高均处于音高范围内,且确定出的备选音高的个数小于初始音高的个数。
处理模块503,用于对至少两个连续时刻的备选音高进行处理,得到多个时刻中每个时刻的修正音高。
综上所述,本公开实施例提供了一种音高处理装置,该音高处理装置在对目标音频片段的音高进行时域采样,得到多个时刻的初始音高后,可以从该多个时刻的初始音高中确定处于音高范围内的至少两个连续时刻的备选音高,并对处于音高范围内的至少两个连续时刻的备选音高进行处理,得到该多个时刻中每个时刻的修正音高。由于该音高处理装置是对处于正常音高范围内的备选音高进行处理,得到与初始音高个数相同的多个时刻的修正音高,因此可以在确保最终合成的音频中的音高均处于正常音高范围的同时,确保每个目标音频片段对应的音高的完整性,从而确保最终合成的音频的效果。
可选的,第一确定模块502,用于:
从多个时刻的初始音高中确定多个音高组,每个音高组包括至少两个连续时刻的初始音高,每个音高组包括的初始音高的个数小于初始音高的个数,且每个音高组中的每个初始音高均处于音高范围内。
将多个音高组中目标音高组包括的至少两个连续时刻的初始音高确定为备选音高,其中,目标音高组为多个音高组中,最后一个初始音高的时刻与多个时刻中最后一个时刻的差值最小的一个音高组。
可选的,该处理模块503,用于:
在至少两个连续时刻的备选音高中***目标数量个差值音高。
基于目标数量个差值音高的插值位置,更新每个备选音高的时刻,以及每个差值音高的时刻,得到多个时刻中每个时刻的修正音高。
其中,目标数量等于初始音高的个数与备选音高的个数的差值,每个差值音高根据至少一个备选音高确定。
可选的,对于每个差值音高,差值音高等于差值音高***位置处相邻的一个备选音高,或者,差值音高等于差值音高***位置处相邻的两个备选音高的均值。
可选的,该处理模块503,用于:
依次对至少两个连续时刻的备选音高中,相邻第一数量个备选音高加权求和,得到第二数量个候选音高,其中,第二数量等于初始音高的个数。
采用第二数量个候选音高替换多个时刻的初始音高,得到多个时刻中每个时刻的修正音高。
可选的,如图6所示,该装置还可以包括:
获取模块504,用于在从多个时刻的初始音高中确定至少两个连续时刻的备选音高之前,从多个时刻的初始音高中获取出现次数最多的目标音高。
第二确定模块505,用于基于目标音高确定音高范围,音高范围包含目标音高。
可选的,第二确定模块505,用于:
将目标音高减去音高偏差的差值,确定为音高范围的下限;
将目标音高与音高偏差之和,确定为音高范围的上限。
综上所述,本公开实施例提供了一种音高处理装置,该音高处理装置在对目标音频片段的音高进行时域采样,得到多个时刻的初始音高后,可以从该多个时刻的初始音高中确定处于音高范围内的至少两个连续时刻的备选音高,并对处于音高范围内的至少两个连续时刻的备选音高进行处理,得到该多个时刻中每个时刻的修正音高。由于该音高处理装置是对处于正常音高范围内的备选音高进行处理,得到与初始音高个数相同的多个时刻的修正音高,因此可以在确保最终合成的音频中的音高均处于正常音高范围的同时,确保每个目标音频片段对应的音高的完整性,从而确保最终合成的音频的效果。
本公开实施例提供了一种音高处理设备,该音高处理设备可以为图1所示的终端11。该音高处理设备可以包括:存储器,处理器及存储在存储器上的计算机程序,该处理器执行计算机程序时实现上述实施例提供的音高处理方法。
本公开实施例提供了一种音高处理设备,该音高处理设备可以为服务器。该音高处理设备可以包括:存储器,处理器及存储在存储器上的计算机程序,该处理器执行计算机程序时实现上述实施例提供的音高处理方法。
本公开实施例提供了一种计算机可读存储介质,该计算机可读存储介质中存储有指令,当计算机可读存储介质在计算机上运行时,使得计算机执行上述实施例提供的音高处理方法。
以上所述仅为本公开的可选实施例,并不用以限制本公开,凡在本公开的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本公开的保护范围之内。

Claims (10)

1.一种音高处理方法,其特征在于,所述方法包括:
对目标音频片段的音高进行时域采样,得到多个时刻的初始音高;
从所述多个时刻的初始音高中确定至少两个连续时刻的备选音高,其中,每个所述备选音高均处于音高范围内,且确定出的所述备选音高的个数小于所述初始音高的个数;
对所述至少两个连续时刻的备选音高进行处理,得到所述多个时刻中每个时刻的修正音高,所述修正高音的个数与所述初始音高的个数相同。
2.根据权利要求1所述的方法,其特征在于,所述从所述多个时刻的初始音高中确定至少两个连续时刻的备选音高,包括:
从所述多个时刻的初始音高中确定多个音高组,每个所述音高组包括至少两个连续时刻的初始音高,每个所述音高组包括的初始音高的个数小于所述初始音高的个数,且每个所述音高组中的每个所述初始音高均处于音高范围内;
将多个所述音高组中目标音高组包括的至少两个连续时刻的初始音高确定为备选音高,其中,所述目标音高组为多个所述音高组中,最后一个初始音高的时刻与所述多个时刻中最后一个时刻的差值最小的一个所述音高组。
3.根据权利要求1所述的方法,其特征在于,所述对所述至少两个连续时刻的备选音高进行处理,得到所述多个时刻中每个时刻的修正音高,包括:
在所述至少两个连续时刻的备选音高中***目标数量个差值音高;
基于所述目标数量个差值音高的插值位置,更新每个所述备选音高的时刻,以及每个所述差值音高的时刻,得到所述多个时刻中每个时刻的修正音高;
其中,所述目标数量等于所述初始音高的个数与所述备选音高的个数的差值,每个所述差值音高根据至少一个所述备选音高确定。
4.根据权利要求3所述的方法,其特征在于,
对于每个所述差值音高,所述差值音高等于所述差值音高***位置处相邻的一个所述备选音高,或者,所述差值音高等于所述差值音高***位置处相邻的两个所述备选音高的均值。
5.根据权利要求1所述的方法,其特征在于,所述对所述至少两个连续时刻的备选音高进行处理,得到所述多个时刻中每个时刻的修正音高,包括:
依次对所述至少两个连续时刻的备选音高中,相邻第一数量个所述备选音高加权求和,得到第二数量个候选音高,其中,所述第二数量等于所述初始音高的个数;
采用所述第二数量个候选音高替换所述多个时刻的初始音高,得到所述多个时刻中每个时刻的修正音高。
6.根据权利要求1至5任一所述的方法,其特征在于,在从所述多个时刻的初始音高中确定至少两个连续时刻的备选音高之前,所述方法还包括:
从所述多个时刻的初始音高中获取出现次数最多的目标音高;
基于所述目标音高确定音高范围,所述音高范围包含所述目标音高。
7.根据权利要求6所述的方法,其特征在于,所述基于所述目标音高确定音高范围,包括:
将所述目标音高减去音高偏差的差值,确定为音高范围的下限;
将所述目标音高与所述音高偏差之和,确定为音高范围的上限。
8.一种音高处理装置,其特征在于,所述装置包括:
采样模块,用于对目标音频片段的音高进行时域采样,得到多个时刻的初始音高;
第一确定模块,用于从所述多个时刻的初始音高中确定至少两个连续时刻的备选音高,其中,每个所述备选音高均处于音高范围内,且确定出的所述备选音高的个数小于所述初始音高的个数;
处理模块,用于对所述至少两个连续时刻的备选音高进行处理,得到所述多个时刻中每个时刻的修正音高,所述修正高音的个数与所述初始音高的个数相同。
9.一种音高处理设备,其特征在于,包括:存储器,处理器及存储在所述存储器上的计算机程序,所述处理器执行所述计算机程序时实现如权利要求1至7任一所述的音高处理方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有指令,当所述计算机可读存储介质在计算机上运行时,使得计算机执行如权利要求1至7任一所述的音高处理方法。
CN201911364543.0A 2019-12-26 2019-12-26 音高处理方法、装置、设备及存储介质 Active CN111081265B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911364543.0A CN111081265B (zh) 2019-12-26 2019-12-26 音高处理方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911364543.0A CN111081265B (zh) 2019-12-26 2019-12-26 音高处理方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN111081265A CN111081265A (zh) 2020-04-28
CN111081265B true CN111081265B (zh) 2023-01-03

Family

ID=70317957

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911364543.0A Active CN111081265B (zh) 2019-12-26 2019-12-26 音高处理方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN111081265B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05265486A (ja) * 1992-03-18 1993-10-15 Sony Corp 音声分析合成方法
JP2001100777A (ja) * 1999-09-28 2001-04-13 Toshiba Corp 音声合成方法及び装置
WO2001093490A2 (de) * 2000-05-27 2001-12-06 Robert Bosch Gmbh Verfahren zur korrektur von taktabweichungen bei audiodaten
JP2011090218A (ja) * 2009-10-23 2011-05-06 Dainippon Printing Co Ltd 音素符号変換装置、音素符号データベース、および音声合成装置

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3966074B2 (ja) * 2002-05-27 2007-08-29 ヤマハ株式会社 ピッチ変換装置、ピッチ変換方法及びプログラム
US20050091044A1 (en) * 2003-10-23 2005-04-28 Nokia Corporation Method and system for pitch contour quantization in audio coding
JP4630980B2 (ja) * 2006-09-04 2011-02-09 独立行政法人産業技術総合研究所 音高推定装置、音高推定方法およびプログラム
US9484061B2 (en) * 2007-10-23 2016-11-01 Adobe Systems Incorporated Automatically correcting audio data
JP5605066B2 (ja) * 2010-08-06 2014-10-15 ヤマハ株式会社 音合成用データ生成装置およびプログラム
JP6171711B2 (ja) * 2013-08-09 2017-08-02 ヤマハ株式会社 音声解析装置および音声解析方法
CN106057208B (zh) * 2016-06-14 2019-11-15 科大讯飞股份有限公司 一种音频修正方法及装置
US10431236B2 (en) * 2016-11-15 2019-10-01 Sphero, Inc. Dynamic pitch adjustment of inbound audio to improve speech recognition
CN106782460B (zh) * 2016-12-26 2018-10-30 广州酷狗计算机科技有限公司 生成乐谱的方法和装置
CN108257609A (zh) * 2017-12-05 2018-07-06 北京小唱科技有限公司 音频内容修正的方法及其智能装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05265486A (ja) * 1992-03-18 1993-10-15 Sony Corp 音声分析合成方法
JP2001100777A (ja) * 1999-09-28 2001-04-13 Toshiba Corp 音声合成方法及び装置
WO2001093490A2 (de) * 2000-05-27 2001-12-06 Robert Bosch Gmbh Verfahren zur korrektur von taktabweichungen bei audiodaten
JP2011090218A (ja) * 2009-10-23 2011-05-06 Dainippon Printing Co Ltd 音素符号変換装置、音素符号データベース、および音声合成装置

Also Published As

Publication number Publication date
CN111081265A (zh) 2020-04-28

Similar Documents

Publication Publication Date Title
KR101255402B1 (ko) 대안들의 목록을 사용하는 오인된 단어들의 다시 받아쓰기
JP2020536265A (ja) 作成者が提供したコンテンツに基づいて対話型ダイアログアプリケーションを調整すること
CN109346109B (zh) 基频提取方法和装置
JP2006526160A (ja) 語彙強調予測
US9082401B1 (en) Text-to-speech synthesis
JP6248415B2 (ja) 楽曲評価装置
CN110688518B (zh) 节奏点的确定方法、装置、设备及存储介质
US9099091B2 (en) Method and apparatus of adaptive textual prediction of voice data
CN114503191A (zh) 利用对抗网络的高保真度语音合成
CN116386677A (zh) 故事读者阅读中断的算法确定
CN112216284B (zh) 训练数据更新方法及***、语音识别方法及***、设备
CN108711415B (zh) 纠正伴奏和干音之间的时延的方法、装置及存储介质
CN111081265B (zh) 音高处理方法、装置、设备及存储介质
CN111508478A (zh) 语音识别方法和装置
CN113140230B (zh) 音符音高值的确定方法、装置、设备及存储介质
EP3979142A1 (en) Generating output examples using bit blocks
JP6082657B2 (ja) ポーズ付与モデル選択装置とポーズ付与装置とそれらの方法とプログラム
CN112509581B (zh) 语音识别后文本的纠错方法、装置、可读介质和电子设备
CN113658581B (zh) 声学模型的训练、语音处理方法、装置、设备及存储介质
CN111652002B (zh) 文本划分方法、装置、设备和计算机可读介质
CN114020774A (zh) 多轮问答语句的处理方法、装置、设备及存储介质
CN108959163B (zh) 有声电子书的字幕显示方法、电子设备及计算机存储介质
CN111968616A (zh) 一种语音合成模型的训练方法、装置、电子设备和存储介质
CN113868445A (zh) 续播位置确定方法、续播***
CN111291186A (zh) 一种基于聚类算法的上下文挖掘方法、装置和电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant