CN117524240A - 语音变声方法、装置、设备及存储介质 - Google Patents

语音变声方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN117524240A
CN117524240A CN202311447295.2A CN202311447295A CN117524240A CN 117524240 A CN117524240 A CN 117524240A CN 202311447295 A CN202311447295 A CN 202311447295A CN 117524240 A CN117524240 A CN 117524240A
Authority
CN
China
Prior art keywords
signal
formant
original
voice signal
original voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311447295.2A
Other languages
English (en)
Inventor
宋明辉
王红丽
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Zhongke Lanxun Technology Co ltd
Original Assignee
Shenzhen Zhongke Lanxun Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Zhongke Lanxun Technology Co ltd filed Critical Shenzhen Zhongke Lanxun Technology Co ltd
Priority to CN202311447295.2A priority Critical patent/CN117524240A/zh
Publication of CN117524240A publication Critical patent/CN117524240A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • G10L21/007Changing voice quality, e.g. pitch or formants characterised by the process used
    • G10L21/013Adapting to target pitch
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/12Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being prediction coefficients
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/15Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being formant information
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • G10L21/007Changing voice quality, e.g. pitch or formants characterised by the process used
    • G10L21/013Adapting to target pitch
    • G10L2021/0135Voice conversion or morphing

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Electrophonic Musical Instruments (AREA)

Abstract

本申请提供语音变声方法、装置、设备及存储介质,方法包括:获取待处理的原始语音信号;对所述原始语音信号进行共振峰倒谱修正和共振峰线性预测系数修正,得到所述原始语音信号对应的变声语音信号。该技术方案通过从倒谱信息和线性预测系数两个方面对原始语音信号的共振峰进行修正,能够对原始语音信号的共振峰结构进行更准确地调整,从而使得变声后的声音音色更加自然和真实,提升变声效果。

Description

语音变声方法、装置、设备及存储介质
技术领域
本申请涉及语音处理领域,尤其涉及语音变声方法、装置、设备及存储介质。
背景技术
语音伪装设备,又称为***,被广泛应用于社会的各个领域中。例如,***可以应用于对举报人的声音进行变声,防止打击报复;又如,***还可以应用于对独居女士和小孩的声音进行变声,以应对骚扰电话和陌生人来访;又如,***还可以应用于需要变声的小游戏中,等等。
目前,大多数的***主要是通过改变人声声调来实现变声,变声效果不够好。
发明内容
本申请提供语音变声方法、装置、设备及存储介质,以解决通过改变人声声调来实现变声带来的变声效果不够好的技术问题。
第一方面,提供一种语音变声方法,包括:
获取待处理的原始语音信号;
对所述原始语音信号进行共振峰倒谱修正和共振峰线性预测系数(linearpredictive coefficients,LPC)修正,得到所述原始语音信号对应的变声语音信号。
在该技术方案中,在获取到待处理的原始语音信号后,通过对原始语音信号进行共振峰倒谱修正和共振峰线性预测系数修正,得到原始语音信号对应的变声语音信号;通过对原始语音信号的共振峰进行修正,可以改变原始语音信号的声音音色,从而达到变声的效果;通过从倒谱信息和线性预测系数两个方面对原始语音信号的共振峰进行修正,能够对原始语音信号的共振峰结构进行更准确地调整,从而使得变声后的声音音色更加自然和真实,提升变声效果。
结合第一方面,在一种可能的实现方式中,所述对所述原始语音信号进行共振峰倒谱修正和共振峰线性预测系数修正,得到所述原始语音信号对应的变声语音信号,包括:对所述原始语音信号进行倒谱信息变换,得到第一共振峰修正因子;对所述原始语音信号进行线性预测系数变换,得到第二共振峰修正因子;根据所述第一共振峰修正因子和所述第二共振峰修正因子,对所述原始语音信号的共振峰进行修正,得到所述原始语音信号对应的变声语音信号。
结合第一方面,在一种可能的实现方式中,所述对所述原始语音信号进行倒谱信息变换,得到第一共振峰修正因子,包括:计算所述原始语音信号的对数谱,得到第一对数谱信号;对所述第一对数谱信号进行伸缩处理,得到第二对数谱信号;计算所述第二对数谱信号与所述第一对数谱信号之间的信号差值,得到差值对数谱信号;对所述差值对数谱信号进行傅里叶逆变换,得到差分倒谱信号;根据所述差分倒谱信号,确定第一共振峰修正因子。通过对原始语音信号的对数谱进行伸缩处理,并将伸缩处理得到的对数谱信号与原始的对数谱信号求信号差值来得到第一共振峰修正因子,可以从倒谱信号方面修正原始语音信号的共振峰结构。
结合第一方面,在一种可能的实现方式中,所述对所述第一对数谱信号进行伸缩处理,得到第二对数谱信号,包括:对所述第一对数谱信号进行插值运算,得到所述第二对数谱信号。
结合第一方面,在一种可能的实现方式中,所述对所述原始语音信号进行线性预测系数变换,得到第二共振峰修正因子,包括:计算所述原始语音信号的线性预测归一化包络系数;对所述线性预测归一化包络系数进行伸缩处理,得到所述第二共振峰修正因子。通过对原始语音信号的线性预测归一化包络系数进行伸缩处理来得到第二共振峰修正因子,可以从LPC方面修正原始语音信号的共振峰结构。
结合第一方面,在一种可能的实现方式中,所述对所述线性预测归一化包络系数进行伸缩处理,得到所述第二共振峰修正因子,包括:对所述线性预测归一化包络系数进行插值运算,得到所述第二共振峰修正因子。
结合第一方面,在一种可能的实现方式中,所述根据所述第一共振峰修正因子和所述第二共振峰修正因子,对所述原始语音信号的共振峰进行修正,得到所述原始语音信号对应的变声语音信号,包括:对所述第一共振峰修正因子和所述第二共振峰修正因子进行融合,得到共振峰拟合因子;利用所述共振峰拟合因子对所述原始语音信号的共振峰进行修正,得到所述变声语音信号。
结合第一方面,在一种可能的实现方式中,所述利用所述共振峰拟合因子对所述原始语音信号的共振峰进行修正,得到所述变声语音信号,包括:将所述共振峰拟合因子与所述原始语音信号对应的频域信号相乘,得到所述变声语音信号。
第二方面,提供一种语音变声装置,包括:
语音信号获取模块,用于获取待处理的原始语音信号;
修正模块,用于对所述原始语音信号进行共振峰倒谱修正和共振峰线性预测系数修正,得到所述原始语音信号对应的变声语音信号。
第三方面,提供一种计算机设备,包括存储器以及一个或多个处理器,所述存储器连接至所述一个或多个处理器,一个或多个处理器用于执行存储在存储器中的一个或多个计算机程序,一个或多个处理器在执行一个或多个计算机程序时,使得该计算机设备实现上述第一方面的语音变声方法。
第四方面,提供一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,计算机程序包括程序指令,上述程序指令当被处理器执行时使上述处理器执行上述第一方面的语音变声方法。
本申请可以实现如下技术效果:通过对原始语音信号的共振峰进行修正,可以改变原始语音信号的声音音色,从而达到变声的效果;通过从倒谱信息和线性预测系数两个方面对原始语音信号的共振峰进行修正,能够对原始语音信号的共振峰结构进行更准确地调整,从而使得变声后的声音音色更加自然和真实,提升变声效果。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种语音变声方法的流程示意图;
图2为本申请实施例提供的一种语音变声装置的结构示意图;
图3是本申请实施例提供的一种计算机设备的结构示意图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本申请,并不用于限定本申请。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
需要说明的是,如果不冲突,本申请实施例中的各个特征可以相互结合,均在本申请的保护范围之内。另外,虽然在装置示意图中进行了功能模块划分,在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于装置中的模块划分,或流程图中的顺序执行所示出或描述的步骤。再者,本申请所采用的“第一”、“第二”、“第三”等字样并不对数据和执行次序进行限定,仅是对功能和作用基本相同的相同项或相似项进行区分。
本申请的技术方案可适用于信号处理场景,具体可适用于语音信号处理场景。本申请的技术方案可用于在语音信号处理场景中对原始语音信号进行变声,得到原始语音信号对应的变声语音信号。
其中,本申请的技术方案可应用于具有信号处理功能的计算机设备上。以下具体介绍本申请的技术方案。
参见图1,图1为本申请实施例提供的一种语音变声方法的流程示意图,如图1所示,该方法包括如下步骤:
S101,获取待处理的原始语音信号。
这里,原始语音信号为需进行变声的语音信号,可以从设备本地或远端设备处获取待处理的原始语音信号。当从设备本地获取待处理的原始语音信号时,可以通过设备中的麦克风等声音检测部件检测语音信号,从而获得待处理的原始语音信号;当从远端设备处获取待处理的原始语音信号时,可以接收该远端设备发送的原始语音信号。
由于语音信号为连续信号,基于语音信号的短时不变特性,对语音信号的处理一般是按帧进行。在获取到待处理的原始语音信号后,可以对待处理的原始语音信号进行分帧处理,得到该原始语音信号对应的多个语音信号帧,每个语音信号帧均可以表示为xK(n),n=1,2,…,M,M为原始语音信号对应的语音信号帧的长度,也即一帧语音信号帧中包含的采样点个数,K表示语音信号帧的帧序。其中,在对原始语音信号进行分帧时,相邻两个语音信号帧之间可以相互重叠,即分帧得到的语音信号帧xK(n)中的后m个采样点对应的语音信号为分帧得到的语音信号帧xK+1(n)中的前m个采样点对应的语音信号,语音信号帧xK(n)和语音信号帧xK+1(n)为分帧得到的相邻两个语音信号帧,语音信号帧xK+1(n)为语音信号帧xK(n)的下一个语音信号帧。相邻两个语音信号帧之间的采样点重叠占比可以为50%或75%等,即m/M为50%或75%等。以M=8,采样点重叠占比为50%为例,假设xK(n)={yt-4,y t-3,y t-2,yt-1,yt,y t+1,y t+2,y t+3},则xK+1(n)={yt,y t+1,y t+2,y t+3,y t+4,y t+5,yt+6,y t+7},yt表示任意一个采样点对应的时域语音信号。
S102,对原始语音信号进行共振峰倒谱修正和共振峰线性预测系数修正,得到原始语音信号对应的变声语音信号。
这里,对原始语音信号进行共振峰倒谱修正和共振峰线性预测系数修正,得到原始语音信号对应的变声语音信号,是指从原始语音信号的倒谱信息和线性预测系数两个方面,综合对原始语音信号的共振峰结构进行修改,得到原始语音信号对应的变声语音信号。
在一些可能的情况中,可以通过如下步骤A1-A3,对原始语音信号进行共振峰倒谱修正和共振峰线性预测系数修正,得到原始语音信号对应的变声语音信号:
A1、对原始语音信号进行倒谱信息变换,得到第一共振峰修正因子。
这里,可以通过如下步骤A11-A15对原始语音信号进行倒谱信息变换,得到第一共振峰修正因子:
A11、计算原始语音信号的对数谱,得到第一对数谱信号。
其中,可以对原始语音信号进行快速傅里叶变换(fast fourier transform,FFT)运算,将原始语音信号从时域转换到频域,得到原始语音信号对应的频域信号;然后对原始语音信号对应的频域信号取绝对值,得到原始语音信号的幅度谱;最后对原始语音信号的幅度谱取对数,得到第一对数谱信号。
每个语音信号帧对应的第一对数谱信号可以表示为:LF1=log|XK(n)|,XK(n)=FFT[xK(n)],xK(n)表示原始语音信号中的第K个语音信号帧,XK(n)表示第K个语音信号帧对应的频域信号,|XK(n)|表示第K个语音信号帧的幅度谱,XK(n)和|XK(n)|中的n表示语音信号帧对应的频域信号的频点索引,n=1,2,…,M,频域信号的一个频点对应时域信号的一个采样点。
A12、对第一对数谱信号进行伸缩处理,得到第二对数谱信号。
在一种可行的实施方式中,可以对第一对数谱信号进行插值运算,得到第二对数谱信号,第二对数谱信号可以表示为:LF2。其中,可以通过单线性插值、双线性插值、拉格朗日插值方法对第一对数谱信号进行插值运算,得到第二对数谱信号。
以通过单线性插值方法对第一对数谱信号进行插值运算为例,对于第一对数谱信号,可以通过如下公式对第一对数谱信号进行插值,得到第二对数谱信号:
其中,(X0,Y0)和(X1,Y1)为第一对数谱信号中的相邻两个频点对应的坐标,(X,Y)为插值得到的频点对应的坐标,X是指频点值,Y是指频点对应的信号值。
通过插值运算对第一对数谱信号进行伸缩处理,能够不改变对数谱信号的整体形状。
可选地,也可以通过对第一对数谱信号进行重采样,得到第二对数谱信号。本申请不进行限制。
A13、计算第二对数谱信号与第一对数谱信号之间的信号差值,得到差值对数谱信号。
这里,计算第二对数谱信号与第一对数谱信号之间的信号差值,是指计算同一频点对应的第二对数谱信号的信号值与第一对数谱信号的信号值之间的差值,得到差值对数谱信号。
差值对数谱信号的计算公式为:LF3=LF2-LF1。LF3为差值对数谱信号的信号值,即差值对数谱信号的Y值;LF2为第二对数谱信号的信号值,即第二对数谱信号的Y值;LF1为第一对数谱信号的信号值,即第一对数谱信号的Y值,LF3、LF2以及LF1对应同一X值。
A14、对差值对数谱信号进行傅里叶逆变换,得到差分倒谱信号。
其中,差分倒谱信号可以表示为:CEP=IFFT(LF3)。
A15、根据差分倒谱信号,确定第一共振峰修正因子。
其中,可以对差分倒谱信号进行FFT运算,然后对FFT运算得到的第一运算结果取实数,再以取实数得到的第二运算结果作为指数,进行以自然常数e为底数的指数运算,得到第一共振峰修正因子。
第一共振峰修正因子的计算公式如下:
f1=ereal(FFT(CEP))
f1为第一共振峰修正因子,real()表示取实数。
A2、对原始语音信号进行线性预测系数变换,得到第二共振峰修正因子。
这里,可以通过如下步骤A21-A22对原始语音信号进行线性预测系数变换,得到第二共振峰修正因子:
A21、计算原始语音信号的线性预测归一化包络系数。
这里,可以计算原始语音信号的p阶预测系数,然后根据原始语音信号的p阶预测系数确定线性预测归一化包络系数。
在一种可行的实施的方法中,可以基于莱文逊-杜宾(Levinson-Durbin)递推算法计算原始语音信号的p阶预测系数。基于莱文逊-杜宾(Levinson-Durbin)递推算法计算原始语音信号的p阶预测系数的具体计算方式如下:
(1)对原始语音信号进行FFT运算,将原始语音信号从时域转换到频域,得到原始语音信号对应的频域信号,原始语音信号对应的频域信号表示为XK(n),XK(n)的含义可参见前述步骤A11的描述。
(2)计算原始语音信号对应的频域信号的自相关系数r(j),自相关系数r(j)的计算公式可参见下述公式:
(3)根据自相关系数r(j)确定p阶预测系数,具体计算公式如下:
Ai=aj(p)1≤j≤p
Ai即为p阶预测系数。
可选地,也可以基于舒尔递推算法计算原始语音信号的p阶预测系数;或者,还可以基于协方差法、格型法等方法计算原始语音信号的p阶预测系数;本申请不做限制。
在计算得到原始语音信号的p阶预测系数后,可以根据如下公式计算原始语音信号的线性预测归一化包络系数:
FK=|FFT[Ai*RK]|
FK为原始语音信号的线性预测归一化包络系数。
A22、对线性预测归一化包络系数进行伸缩处理,得到第二共振峰修正因子。
在一种可行的实施方式中,可以对线性预测归一化包络系数进行插值运算,得到第二共振峰修正因子,第二共振峰修正因子可以表示为:f2。与上述插值得到第二对数谱信号同理,可以通过单线性插值、双线性插值、拉格朗日插值方法对线性预测归一化包络系数进行插值运算,得到第二共振峰修正因子。
A3、根据第一共振峰修正因子和第二修正因子,对原始语音信号的共振峰进行修正,得到原始语音信号对应的变声语音信号。
在一种可行的实施方式中,可以对第一共振峰修正因子和第二共振峰修正因子进行融合,得到共振峰拟合因子;利用共振峰拟合因子对原始语音信号的共振峰进行修正,得到变声语音信号。
其中,可以通过如下公式对第一共振峰修正因子和第二共振峰修正因子进行融合,得到共振峰拟合因子:
f1K(n)为第K个语音信号帧对应的第n个频点对应的第一共振峰修正因子,f2K(n)为第K个语音信号帧对应的第n个频点对应的第二共振峰修正因子,Th为融合判断阈值,eps为除法保护因子,eps为接近于0的常数,f3K(n)为第K个语音信号帧对应的第n个频点对应的共振峰拟合因子。
在计算得到共振峰拟合因子后,可以将共振峰拟合因子与原始语音信号对应的频域信号相乘,得到变声语音信号。变声语音信号的计算公式如下:
X’K(n)=XK(n)*f3K(n)
y’K(n)=IFFT[X’K(n)]
y’K(n)为变声语音信号。
在另一种可行的实施方式中,也可以分别利用第一共振峰修正因子和第二共振峰修正因子分别对原始语音信号的共振峰进行修正,得到第一修正信号和第二修正信号;然后对第一修正信号和第二修正信号进行融合,得到原始语音信号对应的变声语音信号。
在通过上述过程对原始语音信号对应的每个语音信号帧进行处理,得到每个语音信号帧对应的变声语音信号后,再对每个语音信号帧对应的变声语音信号进行重叠相加,可以得到原始语音信号对应的变声语音信号。
在图1对应的技术方案中,在获取到待处理的原始语音信号后,通过对原始语音信号进行共振峰倒谱修正和共振峰线性预测系数修正,得到原始语音信号对应的变声语音信号;通过对原始语音信号的共振峰进行修正,可以改变原始语音信号的声音音色,从而达到变声的效果;通过从倒谱信息和线性预测系数两个方面对原始语音信号的共振峰进行修正,能够对原始语音信号的共振峰结构进行更准确地调整,从而使得变声后的声音音色更加自然和真实,提升变声效果。
上述介绍了本申请的方法,下面介绍本申请的装置。
参见图2,图2为本申请实施例提供的一种语音变声装置的结构示意图。如图2所示,该语音变声装置20包括:
语音信号获取模块201,用于获取待处理的原始语音信号;
修正模块202,用于对所述原始语音信号进行共振峰倒谱修正和共振峰线性预测系数修正,得到所述原始语音信号对应的变声语音信号。
在一种可能的设计中,上述修正模块202具体用于:对所述原始语音信号进行倒谱信息变换,得到第一共振峰修正因子;对所述原始语音信号进行线性预测系数变换,得到第二共振峰修正因子;根据所述第一共振峰修正因子和所述第二共振峰修正因子,对所述原始语音信号的共振峰进行修正,得到所述原始语音信号对应的变声语音信号。
在一种可能的设计中,上述修正模块202具体用于:计算所述原始语音信号的对数谱,得到第一对数谱信号;对所述第一对数谱信号进行伸缩处理,得到第二对数谱信号;计算所述第二对数谱信号与所述第一对数谱信号之间的信号差值,得到差值对数谱信号;对所述差值对数谱信号进行傅里叶逆变换,得到差分倒谱信号;根据所述差分倒谱信号,确定第一共振峰修正因子。
在一种可能的设计中,上述修正模块202具体用于:对所述第一对数谱信号进行插值运算,得到所述第二对数谱信号。
在一种可能的设计中,上述修正模块202具体用于:计算所述原始语音信号的线性预测归一化包络系数;对所述线性预测归一化包络系数进行伸缩处理,得到所述第二共振峰修正因子。
在一种可能的设计中,上述修正模块202具体用于:对所述第一共振峰修正因子和所述第二共振峰修正因子进行融合,得到共振峰拟合因子;利用所述共振峰拟合因子对所述原始语音信号的共振峰进行修正,得到所述变声语音信号。
在一种可能的设计中,上述修正模块202具体用于:对所述第一共振峰修正因子和所述第二共振峰修正因子进行融合,得到共振峰拟合因子;利用所述共振峰拟合因子对所述原始语音信号的共振峰进行修正,得到所述变声语音信号。
在一种可能的设计中,上述修正模块202具体用于:将所述共振峰拟合因子与所述原始语音信号对应的频域信号相乘,得到所述变声语音信号。
需要说明的是,图2对应的实施例中未提及的内容可参见前述方法实施例的描述,这里不再赘述。
上述装置,在获取到待处理的原始语音信号后,通过对原始语音信号进行共振峰倒谱修正和共振峰线性预测系数修正,得到原始语音信号对应的变声语音信号;通过对原始语音信号的共振峰进行修正,可以改变原始语音信号的声音音色,从而达到变声的效果;通过从倒谱信息和线性预测系数两个方面对原始语音信号的共振峰进行修正,能够对原始语音信号的共振峰结构进行更准确地调整,从而使得变声后的声音音色更加自然和真实,提升变声效果。
参见图3,图3是本申请实施例提供的一种计算机设备的结构示意图,该计算机设备30包括处理器301、存储器302。存储器302连接至处理器301,例如通过总线连接至处理器301。
处理器301被配置为支持该计算机设备30执行上述方法实施例中的方法中相应的功能。该处理器301可以是中央处理器(central processing unit,CPU),网络处理器(network processor,NP),硬件芯片或者其任意组合。上述硬件芯片可以是专用集成电路(application specific integrated circuit,ASIC),可编程逻辑器件(programmablelogic device,PLD)或其组合。上述PLD可以是复杂可编程逻辑器件(complexprogrammable logic device,CPLD),现场可编程逻辑门阵列(field-programmable gatearray,FPGA),通用阵列逻辑(generic array logic,GAL)或其任意组合。
存储器302用于存储程序代码等。存储器302可以包括易失性存储器(volatilememory,VM),例如随机存取存储器(random access memory,RAM);存储器302也可以包括非易失性存储器(non-volatile memory,NVM),例如只读存储器(read-only memory,ROM),快闪存储器(flash memory),硬盘(hard disk drive,HDD)或固态硬盘(solid-state drive,SSD);存储器302还可以包括上述种类的存储器的组合。
可选地,计算机设备还可以包括麦克风等部件。
处理器301可以调用所述程序代码以执行以下操作:
获取待处理的原始语音信号;
对所述原始语音信号进行共振峰倒谱修正和共振峰线性预测系数修正,得到所述原始语音信号对应的变声语音信号。
本申请实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被计算机执行时使所述计算机执行如前述实施例所述的方法。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only memory,ROM)或随机存储记忆体(Random Accessmemory,RAM)等。
以上所揭露的仅为本申请较佳实施例而已,当然不能以此来限定本申请之权利范围,因此依本申请权利要求所作的等同变化,仍属本申请所涵盖的范围。

Claims (11)

1.一种语音变声方法,其特征在于,包括:
获取待处理的原始语音信号;
对所述原始语音信号进行共振峰倒谱修正和共振峰线性预测系数修正,得到所述原始语音信号对应的变声语音信号。
2.根据权利要求1所述的方法,其特征在于,所述对所述原始语音信号进行共振峰倒谱修正和共振峰线性预测系数修正,得到所述原始语音信号对应的变声语音信号,包括:
对所述原始语音信号进行倒谱信息变换,得到第一共振峰修正因子;
对所述原始语音信号进行线性预测系数变换,得到第二共振峰修正因子;
根据所述第一共振峰修正因子和所述第二共振峰修正因子,对所述原始语音信号的共振峰进行修正,得到所述原始语音信号对应的变声语音信号。
3.根据权利要求2所述的方法,其特征在于,所述对所述原始语音信号进行倒谱信息变换,得到第一共振峰修正因子,包括:
计算所述原始语音信号的对数谱,得到第一对数谱信号;
对所述第一对数谱信号进行伸缩处理,得到第二对数谱信号;
计算所述第二对数谱信号与所述第一对数谱信号之间的信号差值,得到差值对数谱信号;
对所述差值对数谱信号进行傅里叶逆变换,得到差分倒谱信号;
根据所述差分倒谱信号,确定第一共振峰修正因子。
4.根据权利要求3所述的方法,其特征在于,所述对所述第一对数谱信号进行伸缩处理,得到第二对数谱信号,包括:
对所述第一对数谱信号进行插值运算,得到所述第二对数谱信号。
5.根据权利要求2所述的方法,其特征在于,所述对所述原始语音信号进行线性预测系数变换,得到第二共振峰修正因子,包括:
计算所述原始语音信号的线性预测归一化包络系数;
对所述线性预测归一化包络系数进行伸缩处理,得到所述第二共振峰修正因子。
6.根据权利要求5所述的方法,其特征在于,所述对所述线性预测归一化包络系数进行伸缩处理,得到所述第二共振峰修正因子,包括:
对所述线性预测归一化包络系数进行插值运算,得到所述第二共振峰修正因子。
7.根据权利要求2-6任一项所述的方法,其特征在于,所述根据所述第一共振峰修正因子和所述第二共振峰修正因子,对所述原始语音信号的共振峰进行修正,得到所述原始语音信号对应的变声语音信号,包括:
对所述第一共振峰修正因子和所述第二共振峰修正因子进行融合,得到共振峰拟合因子;
利用所述共振峰拟合因子对所述原始语音信号的共振峰进行修正,得到所述变声语音信号。
8.根据权利要求7所述的方法,其特征在于,所述利用所述共振峰拟合因子对所述原始语音信号的共振峰进行修正,得到所述变声语音信号,包括:
将所述共振峰拟合因子与所述原始语音信号对应的频域信号相乘,得到所述变声语音信号。
9.一种语音变声装置,其特征在于,包括:
语音信号获取模块,用于获取待处理的原始语音信号;
修正模块,用于对所述原始语音信号进行共振峰倒谱修正和共振峰线性预测系数修正,得到所述原始语音信号对应的变声语音信号。
10.一种计算机设备,其特征在于,包括存储器、处理器,所述存储器连接至所述处理器,所述处理器用于执行存储在所述存储器中的一个或多个计算机程序,所述处理器在执行所述一个或多个计算机程序时,使得所述计算机设备实现如权利要求1-8任一项所述的方法。
11.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时使所述处理器执行如权利要求1-8任一项所述的方法。
CN202311447295.2A 2023-11-02 2023-11-02 语音变声方法、装置、设备及存储介质 Pending CN117524240A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311447295.2A CN117524240A (zh) 2023-11-02 2023-11-02 语音变声方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311447295.2A CN117524240A (zh) 2023-11-02 2023-11-02 语音变声方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
CN117524240A true CN117524240A (zh) 2024-02-06

Family

ID=89765446

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311447295.2A Pending CN117524240A (zh) 2023-11-02 2023-11-02 语音变声方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN117524240A (zh)

Similar Documents

Publication Publication Date Title
KR101266894B1 (ko) 특성 추출을 사용하여 음성 향상을 위한 오디오 신호를 프로세싱하기 위한 장치 및 방법
CN106486131B (zh) 一种语音去噪的方法及装置
US11475907B2 (en) Method and device of denoising voice signal
CN111128213B (zh) 一种分频段进行处理的噪声抑制方法及其***
US20190172480A1 (en) Voice activity detection systems and methods
JP5875414B2 (ja) 雑音抑制方法、プログラム及び装置
WO2018223727A1 (zh) 识别声纹的方法、装置、设备及介质
US20050143997A1 (en) Method and apparatus using spectral addition for speaker recognition
CN109256138B (zh) 身份验证方法、终端设备及计算机可读存储介质
JPH0916194A (ja) 音声信号の雑音低減方法
US20140148933A1 (en) Sound Feature Priority Alignment
WO2021000498A1 (zh) 复合语音识别方法、装置、设备及计算机可读存储介质
Nongpiur et al. Impulse-noise suppression in speech using the stationary wavelet transform
CN113593604A (zh) 检测音频质量方法、装置及存储介质
US20040199381A1 (en) Restoration of high-order Mel Frequency Cepstral Coefficients
Sun et al. An adaptive speech endpoint detection method in low SNR environments
JP7077645B2 (ja) 音声認識装置
CN117524240A (zh) 语音变声方法、装置、设备及存储介质
JPS628800B2 (zh)
CN112397087B (zh) 共振峰包络估计、语音处理方法及装置、存储介质、终端
CN112687284B (zh) 混响语音的混响抑制方法及装置
CN114360572A (zh) 语音去噪方法、装置、电子设备及存储介质
Mallidi et al. Robust speaker recognition using spectro-temporal autoregressive models.
JP7152112B2 (ja) 信号処理装置、信号処理方法および信号処理プログラム
CN112216285A (zh) 多人会话检测方法、***、移动终端及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination