CN113205794B - 基于生成网络的虚拟低音转换方法 - Google Patents

基于生成网络的虚拟低音转换方法 Download PDF

Info

Publication number
CN113205794B
CN113205794B CN202110468881.XA CN202110468881A CN113205794B CN 113205794 B CN113205794 B CN 113205794B CN 202110468881 A CN202110468881 A CN 202110468881A CN 113205794 B CN113205794 B CN 113205794B
Authority
CN
China
Prior art keywords
virtual bass
training
data
network
signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN202110468881.XA
Other languages
English (en)
Other versions
CN113205794A (zh
Inventor
史创
郭嘉祺
杨浩聪
陶盛奇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Priority to CN202110468881.XA priority Critical patent/CN113205794B/zh
Publication of CN113205794A publication Critical patent/CN113205794A/zh
Application granted granted Critical
Publication of CN113205794B publication Critical patent/CN113205794B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/04Details of speech synthesis systems, e.g. synthesiser structure or memory management
    • G10L13/047Architecture of speech synthesisers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • G06F18/2132Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on discrimination criteria, e.g. discriminant analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Signal Processing (AREA)
  • Stereophonic System (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

本发明公开了一种基于生成网络的虚拟低音转换方法,属于音频处理技术领域。本发明于基于循环生成网络设置初始虚拟低音生成网络,两个生成器和两个判别器,并基于所设置的训练数据对初始虚拟低音生成网络进行训练,当满足收敛条件时,将初始虚拟低音生成网络的第一生成器作为虚拟低音生成网络;再将待转换的原始音频数据输入其中,基于虚拟低音生成网络的输出得到转换结果。经本发明生成的虚拟低音的时域波形与传统方法生成虚拟低音的时域波形在低音轮廓上近乎一致。此外,本发明则仅仅基于所训练好的虚拟低音生成网络即可,无需在每次生成时都进行繁琐的参数设置和调整。

Description

基于生成网络的虚拟低音转换方法
技术领域
本发明属于音频处理技术领域,具体涉及一种虚拟低音转换方法。
背景技术
由于制造工艺的限制,普通扬声器的一般都存在严格的工作带宽限制,尤其是声音信号的低频部分,也因此使其无法对原信号的全部频段进行无损失的还原。在如今多样化的扬声器***中,低成本扬声器依旧占据主要地位,所以亟需一种通用的解决方案,或者说需要为带宽限制外的频率分量寻找一个合适的替代。在这样的背景下,一种名叫虚拟低音(Virtual Bass)的技术应运而生。
虚拟低音又名“消失的基频分量”(Missing fundamental),这个概念最早由J.C.R.LICKLIDER在1951年的论文《A duplex theory of pitch perception》中提出。这项基于心里声学的研究表明,人类的听觉***可以从声音信号基频分量(Fundamentalcomponent)的高频谐波中感知出低音基频。举个例子来说,如果让一个人听取一段频率分别为200Hz,300Hz,400Hz的谐波序列(Harmonic series),其大脑可以有效的感知到他们之间100Hz的共差频率,即想要替换的基频分量。
虚拟低音技术最早通过非线性元件***(Nonlinear device system)实现,其中运用最为广泛的一套NLD-based***是由B.T.Daniel在1999年的《The effect of theMaxxBass psychoacoustic bass enhancement system on loudspeaker design》中提出的MaxxBass。参见图1,输入信号首先通过一个低通滤波器(LPF)来获得需要的低频分量,紧接着这个低通信号(低频分量)由非线性元件(NLD)处理,产生谐波分量。这些连续的谐波分量通过一个特定带通滤波器(BFP)来获得合适的频段,并添加一个大小为G的增益。此后,这些处理后的信号将与经过延迟处理的原信号叠加,最后输出。
在这之后M.R.BAI于2006年在论文《Synthesis and Implementation of VirtualBass System with a Phase-Vocoder Approach》中提出了相位声码器(Phase Vocoder)来替代非线性元件产生谐波。相位声码器用小时间窗口将输入信号采样,经过快速傅里叶变换(FFT)转换之后再进行相关处理,较为有效的保证了信号相位的一致性。相比于非线性元件***,相位声码器几乎完全作用于信号的频域,也因此可以有效避免***输出的互调失真。但是相位声码器的缺点在于难以权衡时域和频域的分辨率关系:fres=1/tw,其中fres是频域分辨率(Hz),tw是所选窗口长度。因为虚拟低音转换对于频域分辨率有着较高的要求,所以时间窗口的长度选择实际上是一个很难抉择的问题。
最终,来自英国埃塞克斯大学的学者A.J.Hill提出了混合虚拟低音(Hybridvirtual bass)方法,它混合了此前两种信号处理方法。这个方法结合了非线性元件***对时域信号变化的高敏感性和相位编码器对于非瞬态信号的良好处理效果的两种优势,设计了一个瞬态成分探测器(Transient content detector)。换句话说,所谓的混合***(Hybrid system)其本质上就是对同一时间窗口中两个***输出的权重分配。尽管混合虚拟低音***有效兼顾了非线性元件***和相位声码器的优势,但它存在时间效率低下,同时需要设置大量的参数等缺点。这直接导致该技术无法被广泛应用。
发明内容
本发明的发明目的在于:针对上述存在的问题,提供一种通过生成网络实现虚拟低音转换方法,简化虚拟低音的设置过程,缩减虚拟低音的处理时间。
本发明的基于生成网络的虚拟低音转换方法,包括下列步骤:
步骤1:设置基于循环生成网络的初始虚拟低音生成网络的网络结构:
所述虚拟低音生成网路包括生成器GX→Y和生成器GY→X,以及判别器DX和判别器DY;其中,生成器GX→Y分别与生成器GY→X和判别器DY相连,生成器GY→X分别与判别器DX和判别器DY相连,X表示输入数据所在的特征空间,Y表示输出数据所在的特征空间;
步骤2:对初始虚拟低音生成网络进行深度学习训练:
步骤201:设置第一训练数据集:
采集原始音频信号集,所述原始音频信号集包括多帧原始音频信号;
对当前帧的原始音频信号进行快速傅里叶变换,得到频域信号,再基于预设的截止频率对所述频域信号进行低通滤波,得到原始低频信号;
根据预设的第一虚拟低音处理方式(基于硬件实现,即传统的虚拟低音处理方式),对当前帧的原始音频信号进行第一虚拟低音处理,得到第一虚拟低音信号;
对当前帧的原始低频信号和第一虚拟低音信号相加,得到当前帧的第一重构虚拟低音信号;
将当前帧的原始音频信号作为一个训练样本数据,并将当前帧的第一重构虚拟低音信号作为该训练样本的目标数据,得到第一训练数据集;
步骤202:基于第一训练数据集对初始虚拟低音生成网络进行第一网络参数训练:
将当前训练样本数据xi分别输入生成器GX→Y和判别器DX
训练样本数据经生成器GX→Y得到生成音频GX→Y(xi),再将生成音频GX→Y(xi)分别输入生成器GY→X和判别器DY
所述生成音频GX→Y(xi)经生成器GY→X得到生成音频GY→X(GX→Y(xi));
将当前训练样本数据的目标数据yi分别输入判别器DY和生成器GY→X,目标数据yi经生成器GY→X得到生成音频GY→X(yi);
将所述生成音频GY→X(yi)分别输入生成器GX→Y和判别器DX,生成音频G(y)经生成器GX→Y得到生成音频GX→Y(GY→X(yi));
其中,判别器DX用于判决生成音频GY→X(yi)与训练样本数据xi之间是否存在的差异,判别器DY用于判决GX→Y(xi)与目标数据yi之间是否存在的差异;
训练时,所采用的损失函数为Lfull
Lfull=Ladv(GX→Y,DY)+Ladv(GY→X,DX)+λcycLcyc(GX→Y,GY→X)+λidLid(GX→Y,GY→X)
其中,λcyc和λid分别表示损失函数Lcyc(GX→Y,GY→X)和Lid(GX→Y,GY→X)的权重;
损失函数
Figure BDA0003044542530000031
损失函数
Figure BDA0003044542530000032
损失函数
Figure BDA0003044542530000033
损失函数
Figure BDA0003044542530000034
其中,E[]表示数学期望,PData()表示括号中对象的分布,DY(yi)表示判别器对真实目标样本的打分,DY(GX→Y(xi))表示判别器对生成目标样本的打分,DX(xi)表示判别器对真实原始样本的打分,DX(GY→X(yi))表示判别器对生成原始样本的打分,|| ||1表示L1范数;
当满足预设的第一网络参数训练的收敛条件时,将生成器GX→Y作为虚拟低音生成网络;
步骤3:对待转换的原始音频信号进行分帧后对单帧进行快速傅里叶变换,以使得到的单帧数据与步骤2训练得到的虚拟低音生成网络的输入相匹配;
再将各帧数据输入所述虚拟低音生成网络,得到当前帧的网络输出信号;
对各帧的网络输出信号进行高通滤波处理得到各帧的虚拟低音数据,按单帧数据的时序对快速逆傅里叶变换后的单帧虚拟低音数据进行拼接,得到对应待转换的原始音频信号的虚拟低音信号。
进一步的,本发明的步骤2还包括:
步骤201还包括,将原始音频信号集分为两部分,其中一部分的数据量大于另一部分,并将数量较大的部分记为第一原始音频信号子集,数据量较小的部分记为第二原始音频信号子集;
步骤202中,仅对第一原始音频信号子集中的各原始音频信号进行第一虚拟低音处理,得到第一虚拟低音信号;并且当满足预设的第一网络参数训练的收敛条件时,执行步骤203;
所述步骤203包括:
设置第二训练数据集:
根据预设的第二虚拟低音处理方式(基于混合虚拟低音调参实现,如对现有的混合虚拟低音的参数进行人工调整),对第二原始音频信号子集进行第二虚拟低音处理,得到当前帧的第二虚拟低音信号;并对当前帧的原始低频信号和第二虚拟低音信号相加,得到当前帧的第二重构虚拟低音信号;
将当前帧的原始音频信号作为一个训练样本数据,将当前帧的第二重构虚拟低音信号作为该训练样本的目标数据,得到第二训练数据集;
设置第二训练数据集对步骤202训练后的初始虚拟低音生成网络进行第二网络参数训练(即迁移学习),训练时,数据处理过程与步骤202相同,变化的是训练样本数据;
即训练时采用的损失函数为Lfull,当满足预设的第二网络参数训练的收敛条件时,将生成器GX→Y作为虚拟低音生成网络。
综上所述,由于采用了上述技术方案,本发明的有益效果是:
经本发明生成的虚拟低音的时域波形与传统方法生成虚拟低音的时域波形在低音轮廓上近乎一致。本发明可以极大的缩减信号处理过程中所需时间,克服了虚拟低音技术实时性不足的缺陷,进一步拓展了其适用范围。此外,传统虚拟低音技术需要进行繁琐的参数设置和调整,而本发明则仅仅基于所训练好的虚拟低音生成网络即可,无需每次生成虚拟低音时都进行繁琐的参数设置和调整,即将原始音频信号输入至所训练好的虚拟低音生成网络,基于其输出则可得到对应的虚拟低音信号。
附图说明
图1为传统虚拟低音处理流程;
图2为具体实施方式中,采用CycleGan网络处理音频数据的处理过程示意图;
图3为具体实施方式中,正反向网络循环一致性损失的示意图;
图4为具体实施方式中,本发明的虚拟低音生成方法处理流程图;
图5为具体实施方式中,原始信号的时域波形;
图6为具体实施方式中,通过对抗网络生成虚拟低音信号的时域波形;
图7为具体实施方式中,通过传统方法处理生成虚拟低音信号的时域波形。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面结合实施方式和附图,对本发明作进一步地详细描述。
在本发明中,所采用的生成网络是为了学***行数据的序号,X表示输入数据数据所在的特征空间,Y表示输出数据所在的特征空间。
参考图2,本具体实施方式中,训练时,采用CycleGan网络处理音频数据的处理过程为:
将原始音频X输入生成器Generator GX-Y得到生成音频G(X),再将生成音频G(X)输入生成器Generator GY-X,从而得到生成音频Cyclic X;将传统方法生成音频y输入到生成器Generator GY-X得到生成音频G(y),再将生成音频G(y)输入生成器GX-Y,从而得到生成音频Cyclic y。同时将原始音频X和生成音频G(y)输入判别器DX,用于判别两者的区别并输出;以及同时将生成音频G(X)和音频y输入输入判别器DY,用于判别两者的区别并输出。
其中,采用的损失函数主要由对抗损失(Adversarial loss)和循环一致性损失(Cycle-consistency loss)两部分组成。
对抗损失作为度量转换数据Gx→Y(xi)与目标数据yi之间的区别的一个重要参数,可以表示为:
Figure BDA0003044542530000051
其中,GX→Y表示从X到Y的映射函数,即从X到Y的生成器,GX→Y()表示生成器GX→Y()的输出,即生成器输出的生成音频,DY表示关于Y的判别器,判别器DY的输出表示为DY(),E[]表示数学期望,PData()表示括号中对象的分布。即GX→Y(xi))表示生成器GX→Y将试图生成一段新的音频信号G(xi),使其听起来像它对应的经过虚拟低音技术预处理过后的音频yi,于此同时,判别器DY将试图去区分生成的音频信号G(xi)和实际信号yi之间的差异,此关系可以用数学表达式表示为:
Figure BDA0003044542530000061
同理,可以获得循环一致性损失Ladv(GY→X,DX)的表达式:
Figure BDA0003044542530000062
其中,GY→X表示从Y到X的生成器,其生成输出表示为GY→X();DX表示关于X的判别器,其输出表示为DX()。
由于对抗性损失的局限性,即无法保证神经网络能将单个输入的xi映射到期望的输出yi上。所以,为了进一步缩小可能的映射的空间,CycleGan网络通过引入循环一致性损失来保证映射函数(mapping function)GX→Y和GY→X应当是循环一致(cycle-consistent)的,如图3所示。
本发明将这个关系表达如下:
Figure BDA0003044542530000063
其中,||||1表示L1范数。
此外,为了保证语言信息的完整性,现有的CycleGan VC中通过引入Lid来表示映射损失(Identity-mapping loss):
Figure BDA0003044542530000064
综上所述,本发明结合(1)-(4)式,设置网络的总损失函数Lfull为:
Lfull=Ladv(GX→Y,DY)+Ladv(GY→X,DX)+λcycLcyc(GX→Y,GY→X)+λidLid(GX→Y,GY→X) (5)
其中,λcyc和λid为两个权重参数,用于调控循环一致性损失Lcyc和映射损失Lid对网络总损失Lfull的相对重要性。
当网络收敛时(训练次数达到预设的最大训练次数,或者网络的总损失达到指定值),可将待处理的音频数据输入生成器Generator GX-Y,进而基于其输出得到转换后的虚拟低音数据。
参见图4,本发明基于上述对网络的设置处理,基于所设置的生成对抗网络生成虚拟低音的具体处理为:
训练集数据预处理:
为了提升生成音频的质量,并且尽可能缩短训练所需要的时间。
本发明首先从原数据(原始音频信号X[n])中随机抽取了100条样本作为测试数据,它们将不参与训练。
接着,在剩下的数据按照7:1的比例分成一大一小两个数据集,然后将大数据集,也就是大部分数据,用默认参数设置生成虚拟低音(如图1所示的方式),得到输出xdi[n]。将其余的小部分数据,使用调整过后的参数生成虚拟低音,得到输出xai[n]。
其中,调整过后的参数生成虚拟低音可以是:谐波生成器采用的非线性方程从指数修改为反正切平方根;以及提高相位声码器(PV)最高谐波分量(start harm)来确保能够产生满足要求的高频谐波。
即本发明实施例中,为了提升网络的准确性,分别采用基于非线性元件和调参后的混合虚拟低音方式来得到两组训练数据集,该两组训练数据集对应生成网络的第一和第二网络参数训练,其中第一网络参数训练即为常规训练,第二网络参数训练即为迁移学习训练。且在两种获取虚拟低音的方式中,混合虚拟低音的准确性高于基于非线性元件***的方式,将准确度较高方式获取的虚拟低音作为迁移学习时的生成音频y,准确度较低的方式获取的虚拟低音作为第一网络参数训练时的生成音频y。
接着,对xdi[n]和xai[n]进行快速傅里叶变换(Fast Fourier Transform,FFT)可以得到Xdi[k]和Xai[k]。本实施例中的截至频率(Cutoff frequency)fcutoff=120Hz,所有音频的采样率(Sampling rate)都调整为8000Hz,单个音频帧长为32ms。需要说明的是,本实例中,将音频样本中低于截至频率120Hz的频率分量为低频分量Xl
然后,对单个音频样本的一帧X[n]进行快速傅里叶变换,得到频域信号X[k],并将频域信号X[k]中的对应低频分量Xli[k]提取出来(小于截止频率的频段),并与Xai[k]以及Xdi[k]相加后获得两个最终数据集的目标生成信号,这一步是为了补充Xai[k]以及Xdi[k]缺失的低频部分方便网络的收敛。由于低频部分在截止频率以上的位置的值都为0,相加(对位相加)的目的就是为了将虚拟低音处理后的音频缺失的低频补上,从而能保证训练的时候网络不容易出数值问题。即本发明实施例中,将X[k]作为第一原始输入信号X,用于输入生成器Generator GX-Y以获得生成音频G(X),以及将第一原始信号输入判别器DX,而将低频分量Xli[k]与Xdi[k]的相加结果作为其对应的目标虚拟低音信号,即传统方法得到的生成音频y,实现对生成网络的第一网络参数训练。以及将X[k]作为第二原始输入信号X,用于输入生成器Generator GY-X以获得生成音频G(y),而将Xli[k]与xai[n]的相加结果作为其对应的真实音频,即调参后的混合虚拟低音方法得到的生成音频y,实现对生成网络的第二网络参数训练。
训练过程:首先,将大的数据集作为训练集,训练3轮,每轮300个epochs,本实例中,没有直接的使用整段音频信号,而是从成对的数据中分别抽取帧固定长度的数据段(afixed-length segment)(256点)来进行训练。
此外,本实施例中,将λcyc和λid分别设置为10和5,λid仅存在于前104次迭代中用于引导网络训练,除此之外它将被置零,以进一步降低计算量。训练过程中,将优化器选择为Adam Optimize,并将batch size设置为1,生成器的学习率为0.0005,学习速率衰减等于2.5×10-9;判别器的学习率为0.0001,学习速率衰减为5×10-10。在每一轮最初的2×105次迭代中,使学习率保持初始值恒定不变,之后使学习率在迭代中呈现线性衰减,直到为0,以此来获得较好的收敛效果。在先前得到的模型的基础上,用小数据集(利用传统的人工调参的方法生成)进行迁移学习,进而获得最终的网络模型,将训练好的生成器GX-Y作为最终的虚拟低音生成网路。
最后,将测试数据输入至训练好的虚拟低音生成网路,得到对应的网络输出信号,对网络输出信号进行高通滤波(滤掉低频部分),再进行频域到时域的还原,从而得到测试数据的虚拟低音信号。因为虚拟低音本质就是虽然没有低频但是听起来像是有低频,所以需要对网络输出信号进行高通滤波。
为了验证本发明的生成性能,使用预先分离的验证数据,将其分别用传统方法(混合虚拟低音)和本发明的生成网络进行虚拟低音处理,并将得到的虚拟低音数据中的低频分量移除后,从而得到用于验证虚拟低音转换性能的音频信号。生成的音频数据的时域波形分别如图7和6所示,与图5所示的原始信号以及传统方式进行对比,可以发现,经本发明生成的虚拟低音的时域波形与传统方法生成虚拟低音的时域波形在低音轮廓上近乎一致。尽管在音质方面有待提升,但是用传统方法处理一条10秒长度的音频需要消耗大约40秒,本发明处理一条相同长度音频信号仅需要大约3秒,因此本发明可以极大的缩减信号处理过程中所需时间,克服了虚拟低音技术实时性不足的缺陷,进一步拓展了其适用范围。此外,传统虚拟低音技术需要进行繁琐的参数设置和调整,对使用者的专业知识能力有一定要求,本发明巧妙跳过了这一过程,极大程度提升了虚拟低音技术的易用性和泛化能力,为这项技术大规模应用提供了一个可能的实现途径。综上可以看出,本发明所提出的音频信号处理方法具有可观的实际利用价值。
以上所述,仅为本发明的具体实施方式,本说明书中所公开的任一特征,除非特别叙述,均可被其他等效或具有类似目的的替代特征加以替换;所公开的所有特征、或所有方法或过程中的步骤,除了互相排斥的特征和/或步骤以外,均可以任何方式组合。

Claims (7)

1.基于生成网络的虚拟低音转换方法,其特征在于,包括下列步骤:
步骤1:设置基于循环生成网络的初始虚拟低音生成网络的网络结构:
所述虚拟低音生成网路包括生成器GX→Y和生成器GY→X,以及判别器DX和判别器DY;其中,生成器GX→Y分别与生成器GY→X和判别器DY相连,生成器GY→X分别与判别器DX和判别器DY相连,X表示输入数据所在的特征空间,Y表示输出数据所在的特征空间;
步骤2:对初始虚拟低音生成网络进行深度学习训练:
步骤201:设置第一训练数据集:
采集原始音频信号集,所述原始音频信号集包括多帧原始音频信号;
对当前帧的原始音频信号进行快速傅里叶变换,得到频域信号,再基于预设的截止频率对所述频域信号进行低通滤波,得到原始低频信号;
将原始音频信号集分为两部分,其中一部分的数据量大于另一部分,并将数量较大的部分记为第一原始音频信号子集,数据量较小的部分记为第二原始音频信号子集;
根据预设的第一虚拟低音处理方式,对第一原始音频信号子集中的当前帧的原始音频信号进行第一虚拟低音处理,得到第一虚拟低音信号;
对当前帧的原始低频信号和第一虚拟低音信号相加,得到当前帧的第一重构虚拟低音信号;
将当前帧的原始音频信号作为一个训练样本数据,并将当前帧的第一重构虚拟低音信号作为该训练样本的目标数据,得到第一训练数据集;
其中,第一虚拟低音处理方式为:基于非线性元件,用默认参数设置生成虚拟低音;
步骤202:基于第一训练数据集对初始虚拟低音生成网络进行第一网络参数训练:
将当前训练样本数据xi分别输入生成器GX→Y和判别器DX
训练样本数据经生成器GX→Y得到生成音频GX→Y(xi),再将生成音频GX→Y(xi)分别输入生成器GY→X和判别器DY
所述生成音频GX→Y(xi)经生成器GY→X得到生成音频GY→X(GX→Y(xi));
将当前训练样本数据的目标数据yi分别输入判别器DY和生成器GY→X,目标数据yi经生成器GY→X得到生成音频GY→X(yi);
将所述生成音频GY→X(yi)分别输入生成器GX→Y和判别器DX,生成音频GY→X(yi)经生成器GX→Y得到生成音频GX→Y(GY→X(yi));
训练时,所采用的损失函数为Lfull
Lfull=Ladv(GX→Y,DY)+Ladv(GY→X,DX)+λcycLcyc(GX→Y,GY→X)+λidLid(GX→Y,GY→X)
其中,λcyc和λid分别表示损失函数Lcyc(GX→Y,GY→X)和Lid(GX→Y,GY→X)的权重;
损失函数
Figure FDA0003742586520000021
损失函数
Figure FDA0003742586520000022
损失函数
Figure FDA0003742586520000023
损失函数
Figure FDA0003742586520000024
其中,E[]表示数学期望,PData()表示括号中对象的分布,DY(yi)表示判别器DY对真实目标样本的打分,DY(GX→Y(xi))表示判别器DY对生成目标样本的打分,DX(xi)表示判别器DX对真实原始样本的打分,DX(GY→X(yi))表示判别器DX对生成原始样本的打分,|| ||1表示L1范数;
当满足预设的第一网络参数训练的收敛条件时,将生成器GX→Y作为虚拟低音生成网络;
步骤3:对待转换的原始音频信号进行分帧后对单帧进行快速傅里叶变换,以使得到的单帧数据与步骤2训练得到的虚拟低音生成网络的输入相匹配;
再将各帧数据输入所述虚拟低音生成网络,得到当前帧的网络输出信号;
对各帧的网络输出信号进行高通滤波处理得到各帧的虚拟低音数据,按单帧数据的时序对快速逆傅里叶变换后的单帧虚拟低音数据进行拼接,得到对应待转换的原始音频信号的虚拟低音信号。
2.如权利要求1所述的方法,其特征在于,所述步骤2还包括:
步骤202中,当满足预设的第一网络参数训练的收敛条件时,执行步骤203;
所述步骤203包括:
设置第二训练数据集:
根据预设的第二虚拟低音处理方式,对第二原始音频信号子集中的单帧的原始音频信号进行第二虚拟低音处理,得到当前帧的第二虚拟低音信号;并对当前帧的原始低频信号和第二虚拟低音信号相加,得到当前帧的第二重构虚拟低音信号;
将当前帧的原始音频信号作为一个训练样本数据,将当前帧的第二重构虚拟低音信号作为该训练样本的目标数据,得到第二训练数据集;
基于第二训练数据集对步骤202训练后的初始虚拟低音生成网络进行第二网络参数训练,训练时所采用的损失函数为Lfull,当满足预设的第二网络参数训练的收敛条件时,将生成器GX→Y作为虚拟低音生成网络;
其中,第二虚拟低音处理方式为:基于非线性元件,采用调整过后的参数生成虚拟低音。
3.如权利要求2所述的方法,其特征在于,在进行第一或第二网络参数训练时,当训练次数达到训练次数指定值时,将权重λid的值置为0。
4.如权利要求3所述的方法,其特征在于,所述训练次数指定值的数量级为104
5.如权利要求3或4所述的方法,其特征在于,当训练次数未达到训练次数指定值时,将权重λcyc和λid的取值分别设置为10和5。
6.如权利要求1或2所述的方法,其特征在于,步骤201中,单帧长度为32ms,低通滤波的截止频率为120Hz。
7.如权利要求1所述的方法,其特征在于,第一原始音频信号子集与第二原始音频信号子集的数据量比值为7:1。
CN202110468881.XA 2021-04-28 2021-04-28 基于生成网络的虚拟低音转换方法 Expired - Fee Related CN113205794B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110468881.XA CN113205794B (zh) 2021-04-28 2021-04-28 基于生成网络的虚拟低音转换方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110468881.XA CN113205794B (zh) 2021-04-28 2021-04-28 基于生成网络的虚拟低音转换方法

Publications (2)

Publication Number Publication Date
CN113205794A CN113205794A (zh) 2021-08-03
CN113205794B true CN113205794B (zh) 2022-10-14

Family

ID=77029771

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110468881.XA Expired - Fee Related CN113205794B (zh) 2021-04-28 2021-04-28 基于生成网络的虚拟低音转换方法

Country Status (1)

Country Link
CN (1) CN113205794B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101964190A (zh) * 2009-07-24 2011-02-02 敦泰科技(深圳)有限公司 扬声器截止频率以下信号还原原声的方法和装置
CN102354500A (zh) * 2011-08-03 2012-02-15 华南理工大学 一种基于谐波控制的虚拟低音增强处理方法
CN105632509A (zh) * 2014-11-07 2016-06-01 Tcl集团股份有限公司 一种音频处理方法和音频处理装置
CN106653049A (zh) * 2015-10-30 2017-05-10 国光电器股份有限公司 时域中的虚拟低音的相加
CN108877832A (zh) * 2018-05-29 2018-11-23 东华大学 一种基于gan的音频音质还原***
CN110459232A (zh) * 2019-07-24 2019-11-15 浙江工业大学 一种基于循环生成对抗网络的语音转换方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8971551B2 (en) * 2009-09-18 2015-03-03 Dolby International Ab Virtual bass synthesis using harmonic transposition
US11102577B2 (en) * 2017-07-23 2021-08-24 Waves Audio Ltd. Stereo virtual bass enhancement
DE102018121309A1 (de) * 2018-08-31 2020-03-05 Sennheiser Electronic Gmbh & Co. Kg Verfahren und Vorrichtung zur Audiosignalverarbeitung

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101964190A (zh) * 2009-07-24 2011-02-02 敦泰科技(深圳)有限公司 扬声器截止频率以下信号还原原声的方法和装置
CN102354500A (zh) * 2011-08-03 2012-02-15 华南理工大学 一种基于谐波控制的虚拟低音增强处理方法
CN105632509A (zh) * 2014-11-07 2016-06-01 Tcl集团股份有限公司 一种音频处理方法和音频处理装置
CN106653049A (zh) * 2015-10-30 2017-05-10 国光电器股份有限公司 时域中的虚拟低音的相加
CN108877832A (zh) * 2018-05-29 2018-11-23 东华大学 一种基于gan的音频音质还原***
CN110459232A (zh) * 2019-07-24 2019-11-15 浙江工业大学 一种基于循环生成对抗网络的语音转换方法

Non-Patent Citations (9)

* Cited by examiner, † Cited by third party
Title
"A hybrid virtual bass system for optimized steady-state and transient performance";Hill A J;《Computer Science & Electronic Engineering Conference》;20101231;全文 *
"A hybrid virtual bass system with improved phase vocoder and high efficiency";Zhang S;《International Symposium on Chinese Spoken Language Processing》;20141231;全文 *
"Analytical and Perceptual Evaluation of Nonlinear Devices for Virtual Bass System";Oo N;《audio engineering society convention》;20101231;全文 *
"Synthesis and Implementation of Virtual Bass System with a Phase-Vocoder Approach";Bai M;《Journal of the Audio Engineering Society》;20061231;全文 *
"The Effect of MaxxBass Psychoacoustic Bass Enhancement on Loudspeaker Design";Ben-Tzur D;《 Preprint of Aes Convention Munic. audio Eng.soc》;19991231;全文 *
"Virtual bass system based on a multiband harmonic generation";Lee T;《IEEE International Conference on Consumer Electronics》;20131231;全文 *
"基于谐波控制的虚拟低音算法";吴东海;《中国优秀硕士学位论文全文数据库信息科技辑》;20130115;全文 *
"虚拟低音的研究与实现";郑荣辉;《中国优秀硕士学位论文全文数据库信息科技辑》;20160915;全文 *
"虚拟低音算法的设计与实现";王红梅;《电声技术》;20141231;全文 *

Also Published As

Publication number Publication date
CN113205794A (zh) 2021-08-03

Similar Documents

Publication Publication Date Title
CN107358966B (zh) 基于深度学习语音增强的无参考语音质量客观评估方法
CN105741849B (zh) 数字助听器中融合相位估计与人耳听觉特性的语音增强方法
CN108447495B (zh) 一种基于综合特征集的深度学习语音增强方法
CN104485114B (zh) 一种基于听觉感知特性的语音质量客观评估的方法
CN110619885A (zh) 基于深度完全卷积神经网络的生成对抗网络语音增强方法
CN108417228A (zh) 乐器音色迁移下的人声音色相似性度量方法
Kaya et al. A temporal saliency map for modeling auditory attention
CN108490349A (zh) 基于Mel频率倒谱系数的电机异音检测方法
CN107767859A (zh) 噪声环境下人工耳蜗信号的说话人可懂性检测方法
CN108615533A (zh) 一种基于深度学习的高性能语音增强方法
CN112185410B (zh) 音频处理方法及装置
CN109920439A (zh) 基于音调能量和人耳频率选择性的减变速机啸叫评判方法
CN109473091A (zh) 一种语音样本生成方法及装置
CN103413557A (zh) 语音信号带宽扩展的方法和装置
WO1999001942A2 (en) A method of noise reduction in speech signals and an apparatus for performing the method
CN104616665B (zh) 基于语音类似度的混音方法
CN113205794B (zh) 基于生成网络的虚拟低音转换方法
Shifas et al. A non-causal FFTNet architecture for speech enhancement
US6453253B1 (en) Impulse response measuring method
CN112837670B (zh) 语音合成方法、装置及电子设备
CN113066466A (zh) 一种基于带限噪声的音频注入调控声设计方法
CN111816208B (zh) 一种语音分离质量评估方法、装置及计算机存储介质
CN103971697B (zh) 基于非局部均值滤波的语音增强方法
Sabin et al. A method for rapid personalization of audio equalization parameters
Lei et al. A low-latency hybrid multi-channel speech enhancement system for hearing aids

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20221014

CF01 Termination of patent right due to non-payment of annual fee