CN116959476A - 音频降噪处理方法和装置、存储介质及电子设备 - Google Patents

音频降噪处理方法和装置、存储介质及电子设备 Download PDF

Info

Publication number
CN116959476A
CN116959476A CN202311112850.6A CN202311112850A CN116959476A CN 116959476 A CN116959476 A CN 116959476A CN 202311112850 A CN202311112850 A CN 202311112850A CN 116959476 A CN116959476 A CN 116959476A
Authority
CN
China
Prior art keywords
ith
noisy
noise reduction
branch
result
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311112850.6A
Other languages
English (en)
Inventor
邹欢彬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202311112850.6A priority Critical patent/CN116959476A/zh
Publication of CN116959476A publication Critical patent/CN116959476A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Noise Elimination (AREA)

Abstract

本申请公开了一种音频降噪处理方法和装置、存储介质及电子设备。该方法包括:获取待处理的目标音频信号;对目标音频信号进行频域转换处理,得到与目标音频信号对应的带噪频域表征;将带噪频域表征划分为N个带噪频段,并将N个带噪频段分别输入音频处理网络内对应的N个降噪支路中,得到N个支路掩码估计结果,音频处理网络中第i个降噪支路处理第i个带噪频段以得到与第i个带噪频段对应的第i个支路掩码估计结果;利用带噪频域表征,对N个支路掩码估计结果进行调制处理,得到N个支路掩码的目标语音频域表征;对N个支路掩码的目标语音频域表征进行时域转换处理,获取目标语音信号。本申请解决了音频降噪处理的处理结果不准确的技术问题。

Description

音频降噪处理方法和装置、存储介质及电子设备
技术领域
本申请涉及计算机领域,具体而言,涉及一种音频降噪处理方法和装置、存储介质及电子设备。
背景技术
如今,为了对携带有噪声的音频信号实现语音增强降噪的处理,通常会使用单一采样率对音频信号进行采样,再结合具体应用场景做出进一步处理。例如,若采用全带语音增强方法处理宽带信号,则需要对音频信号进行上采样,并将高频成分置零,但这样将引入额外不必要的计算量;若采用宽带语音增强方法处理全带信号,则需要对音频信号进行下采样,但这样将丢失高频信息。
也就是说,相关技术提供的音频降噪方法存在降噪处理结果不准确的问题。
针对上述的问题,目前尚未提出有效的解决方案。
发明内容
本申请实施例提供了一种音频降噪处理方法和装置、存储介质及电子设备,以至少解决音频降噪处理的处理结果不准确的技术问题。
根据本申请实施例的一个方面,提供了一种音频降噪处理方法,包括:获取待处理的目标音频信号,其中,目标音频信号中包含已被噪声信号干扰的待识别的目标语音信号;对目标音频信号进行频域转换处理,得到与目标音频信号对应的带噪频域表征;将带噪频域表征划分为N个带噪频段,并将N个带噪频段分别输入音频处理网络内对应的N个降噪支路中,得到N个支路掩码估计结果,其中,音频处理网络中第i个降噪支路处理第i个带噪频段以得到与第i个带噪频段对应的第i个支路掩码估计结果,N个降噪支路具有相同的信号处理结构,i为大于等于1且小于等于N的自然数,N为大于1的自然数;利用带噪频域表征,对N个支路掩码估计结果进行调制处理,得到N个支路掩码的目标语音频域表征;对N个支路掩码的目标语音频域表征进行时域转换处理,获取从目标音频信号中提取出的目标语音信号。
根据本申请实施例的另一方面,还提供了一种音频降噪处理装置,包括:获取单元,用于获取待处理的目标音频信号,其中,目标音频信号中包含已被噪声信号干扰的待识别的目标语音信号;提取单元,用于对目标音频信号进行频域转换处理,得到与目标音频信号对应的带噪频域表征;输入单元,用于将带噪频域表征划分为N个带噪频段,并将N个带噪频段分别输入音频处理网络内对应的N个降噪支路中,得到N个支路掩码估计结果,其中,音频处理网络中第i个降噪支路处理第i个带噪频段以得到与第i个带噪频段对应的第i个支路掩码估计结果,N个降噪支路具有相同的信号处理结构,i为大于等于1且小于等于N的自然数,N为大于1的自然数;调制单元,用于利用带噪频域表征,对N个支路掩码估计结果进行调制处理,得到N个支路掩码的目标语音频域表征;转换单元,用于对N个支路掩码的目标语音频域表征进行时域转换处理,获取从目标音频信号中提取出的目标语音信号。
根据本申请实施例的又一方面,还提供了一种计算机可读的存储介质,该计算机可读的存储介质中存储有计算机程序,其中,该计算机程序被设置为运行时执行上述音频降噪处理方法。
根据本申请实施例的又一个方面,提供一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行如以上音频降噪处理方法。
根据本申请实施例的又一方面,还提供了一种电子设备,包括存储器和处理器,上述存储器中存储有计算机程序,上述处理器被设置为通过上述计算机程序执行上述的音频降噪处理方法。
在本申请实施例中,获取待处理的目标音频信号,其中,目标音频信号中包含已被噪声信号干扰的待识别的目标语音信号。然后,对目标音频信号进行频域转换处理,得到与目标音频信号对应的带噪频域表征。接着,将带噪频域表征划分为N个带噪频段,并将N个带噪频段分别输入音频处理网络内对应的N个降噪支路中,得到N个支路掩码估计结果,其中,音频处理网络中第i个降噪支路处理第i个带噪频段以得到与第i个带噪频段对应的第i个支路掩码估计结果,N个降噪支路具有相同的信号处理结构,i为大于等于1且小于等于N的自然数,N为大于1的自然数。进而,利用带噪频域表征,对N个支路掩码估计结果进行调制处理,得到N个支路掩码的目标语音频域表征。从而,对N个支路掩码的目标语音频域表征进行时域转换处理,获取从目标音频信号中提取出的目标语音信号。换言之,在本申请实施例中,采用多个降噪支路,分别为目标音频信号所对应的多个带噪频域段进行降噪处理,进而获取到不受噪声信号干扰的目标语音信号。从而避免了现有技术中采用针对固定采样率的音频信号处理模型,对音频信号进行降噪处理所导致的降噪处理结果不准确的问题。从而实现了提高音频信号降噪处理的准确性的技术效果。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是根据本申请实施例的一种可选的音频降噪处理方法的应用环境的示意图;
图2是根据本申请实施例的一种可选的音频降噪处理方法的流程图;
图3是根据本申请实施例的一种可选的音频降噪处理方法的示意图;
图4是根据本申请实施例的另一种可选的音频降噪处理方法的示意图;
图5是根据本申请实施例的又一种可选的音频降噪处理方法的示意图;
图6是根据本申请实施例的又一种可选的音频降噪处理方法的示意图;
图7是根据本申请实施例的又一种可选的音频降噪处理方法的示意图;
图8是根据本申请实施例的又一种可选的音频降噪处理方法的示意图;
图9是根据本申请实施例的又一种可选的音频降噪处理方法的示意图;
图10是根据本申请实施例的又一种可选的音频降噪处理方法的示意图;
图11是根据本申请实施例的又一种可选的音频降噪处理方法的示意图;
图12是根据本申请实施例的又一种可选的音频降噪处理方法的示意图;
图13是根据本申请实施例的又一种可选的音频降噪处理方法的示意图;
图14是根据本申请实施例的又一种可选的音频降噪处理装置的结构示意图;
图15是根据本申请实施例的又一种可选的电子设备的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
根据本申请实施例的一个方面,提供了一种音频降噪处理方法,可选地,作为一种可选的实施方式,上述音频降噪处理方法可以但不限于应用于如图1所示的环境中。图1所示,终端设备102包括了存储器104,用于存储终端设备102运行过程中产生的各项数据、处理器106,用于处理运算上述各项数据、显示器108。终端设备102可以通过网络110与服务器112之间进行数据交互。服务器112与数据库114相连,数据库114用于存储各项数据。
进一步地,上述方法在图1所示环境中对应的具体应用过程,如以下步骤所示:
执行步骤S102-S104,终端设备102获取待处理的目标音频信号,其中,目标音频信号中包含已被噪声信号干扰的待识别的目标语音信号。终端设备102通过网络110将目标音频信号发送给服务器112。
然后,执行步骤S106-S112,服务器112对目标音频信号进行频域转换处理,得到与目标音频信号对应的带噪频域表征。服务器112将带噪频域表征划分为N个带噪频段,并将N个带噪频段分别输入音频处理网络内对应的N个降噪支路中,得到N个支路掩码估计结果,其中,音频处理网络中第i个降噪支路处理第i个带噪频段以得到与第i个带噪频段对应的第i个支路掩码估计结果,N个降噪支路具有相同的信号处理结构,i为大于等于1且小于等于N的自然数,N为大于1的自然数。服务器112利用带噪频域表征,对N个支路掩码估计结果进行调制处理,得到N个支路掩码的目标语音频域表征。服务器112对N个支路掩码的目标语音频域表征进行时域转换处理,获取从目标音频信号中提取出的目标语音信号。
接着执行步骤S114,服务器112将目标语音信号通过网络110发送给终端设备102。
在本申请实施例中,获取待处理的目标音频信号,其中,目标音频信号中包含已被噪声信号干扰的待识别的目标语音信号。然后,对目标音频信号进行频域转换处理,得到与目标音频信号对应的带噪频域表征。接着,将带噪频域表征划分为N个带噪频段,并将N个带噪频段分别输入音频处理网络内对应的N个降噪支路中,得到N个支路掩码估计结果,其中,音频处理网络中第i个降噪支路处理第i个带噪频段以得到与第i个带噪频段对应的第i个支路掩码估计结果,N个降噪支路具有相同的信号处理结构,i为大于等于1且小于等于N的自然数,N为大于1的自然数。进而,利用带噪频域表征,对N个支路掩码估计结果进行调制处理,得到N个支路掩码的目标语音频域表征。从而,对N个支路掩码的目标语音频域表征进行时域转换处理,获取从目标音频信号中提取出的目标语音信号。换言之,在本申请实施例中,采用多个降噪支路,分别为目标音频信号所对应的多个带噪频域段进行降噪处理,进而获取到不受噪声信号干扰的目标语音信号。从而避免了现有技术中采用针对固定采样率的音频信号处理模型,对音频信号进行降噪处理所导致的降噪处理结果不准确的问题。从而实现了提高音频信号降噪处理的准确性的技术效果。
可选地,在本实施例中,上述终端设备可以是配置有目标客户端的终端设备,可以包括但不限于以下至少之一:手机(如Android手机、iOS手机等)、笔记本电脑、平板电脑、掌上电脑、MID(Mobile Internet Devices,移动互联网设备)、PAD、台式电脑、智能电视等。目标客户端可以是视频客户端、即时通信客户端、浏览器客户端、教育客户端等。上述网络可以包括但不限于:有线网络,无线网络,其中,该有线网络包括:局域网、城域网和广域网,该无线网络包括:蓝牙、WIFI及其他实现无线通信的网络。上述服务器可以是单一服务器,也可以是由多个服务器组成的服务器集群,或者是云服务器。上述仅是一种示例,本实施例中对此不作任何限定。
可选地,作为一种可选的实施方式,如图2所示,上述音频降噪处理方法包括:
S202,获取待处理的目标音频信号,其中,目标音频信号中包含已被噪声信号干扰的待识别的目标语音信号;
S204,对所述目标音频信号进行频域转换处理,得到与所述目标音频信号对应的带噪频域表征;
S206,将带噪频域表征划分为N个带噪频段,并将N个带噪频段分别输入音频处理网络内对应的N个降噪支路中,得到N个支路掩码估计结果,其中,音频处理网络中第i个降噪支路处理第i个带噪频段以得到与第i个带噪频段对应的第i个支路掩码估计结果,N个降噪支路具有相同的信号处理结构,i为大于等于1且小于等于N的自然数,N为大于1的自然数;
S208,利用带噪频域表征,对N个支路掩码估计结果进行调制处理,得到N个支路掩码的目标语音频域表征;
S210,对N个支路掩码的目标语音频域表征进行时域转换处理,获取从目标音频信号中提取出的目标语音信号。
需要说明的是,上述音频降噪处理方法可以但不限于应用于语音通话、视频通话、视频会议、摄像设备、智能家电等的音频信号降噪处理的场景中。假设上述音频降噪处理方法应用于语音通话的音频信号降噪处理场景中,上述方法则可以用于对语音通话过程中所采集到的音频信号,进行降噪处理,以获取到不受噪音干扰的语音信号。假设上述音频降噪处理方法应用于摄像设备的音频信号降噪处理场景中,上述方法则可以用于对摄像设备所采集的音频信号,进行降噪处理,以获取到不受噪音干扰的语音信号。假设上述音频降噪处理方法应用于智能家电的音频信号降噪处理场景中,上述方法则可以用于对智能家电所采集的音频信号,进行降噪处理,以获取到不受噪音干扰的语音信号。
进一步地,上述目标音频信号可以但不限于用于指示,终端设备所采集到的原始语音信号,在该语音信号中包括无用的噪音以及待提取的目标语音信号。举例而言,假设上述音频降噪处理方法应用于语音通话的音频信号降噪处理场景中,当前用户对象A在通过终端设备a与用户对象B进行通话,那么上述目标音频信号则可以为终端设备a采集到的用户对象A所在的环境中发出的音频信号,该音频信号中包括用户对象A所在的环境中存在的噪音以及用户对象A所发出的语音。
可选地,在本实施例中,在上述对目标音频信号进行频域转换处理,得到与目标音频信号对应的带噪频域表征之前可以但不限于包括:对上述目标音频信号进行分帧加窗处理,以防止频谱泄露。举例而言,可以但不限于按照单帧包括1024采样点(即,但帧长1024)、帧移512(即,每两个相邻的帧之间存在的重叠长度为512),将目标音频信号分割成多帧固定长度的短信号。进而采用汉明窗对目标音频信号中的各帧信号进行调制处理,防止频谱泄露。
需要说明的是,对目标音频信号的加窗处理所采用的加窗处理方式,不仅限于汉明窗,还可以采用其他方式,如,矩形窗、汉宁窗等等,在本实施例中对此并不进行任何限定。
进一步地,上述对目标音频信号进行频域转换处理,得到与目标音频信号对应的带噪频域表征可以但不限于包括:对分帧加窗处理后的目标音频信号,执行离散余弦变换(Discrete cosine transform,简称DCT)操作,以获取到目标音频信号的带噪频域特征。需要说明的是,对目标音频信号进行分帧加窗处理以及离散余弦变换操作的过程,实际上就是对目标音频信号执行短时余弦变换(Short-time discrete cosine transform,简称SDCT)的过程。
需要说明的是,在对目标音频信号执行分帧加窗处理后,还可以采用其他的方法,得到与目标音频信号对应的带噪频域表征,如,采用短时傅里叶变换(Short-time FourierTransform,简称STFT)法。此外,在本实施例中在对目标音频信号执行分帧加窗处理后,还可以将目标音频信号转化为其他声学特征进行分析,如幅度谱、功率谱、梅尔谱等等。在本实施例中对此并不进行任何限定。
具体而言,1)短时傅里叶变换(Short-time Fourier Transform,简称STFT)是和傅里叶变换相关的一种数学变换,用以确定时变信号其局部区域正弦波的频率与相位。其核心逻辑是选择一个时频局部化的窗函数,假定分析窗函数g(t)在一个短时间间隔内是平稳(伪平稳)的,移动窗函数,使f(t)、g(t)在不同的有限时间宽度内是平稳信号,从而计算出各个不同时刻的功率谱。
2)离散余弦变换是与傅里叶变换相关的一种变换,它类似于离散傅里叶变换(DFTfor Discrete Fourier Transform),但是只使用实数。离散余弦变换相当于一个长度大概是它两倍的离散傅里叶变换,这个离散傅里叶变换是对一个实偶函数进行的(因为一个实偶函数的傅里叶变换仍然是一个实偶函数),在有些变形中需要将输入或者输出的位置移动半个单位。离散余弦变换公式的基本原理是将一个长度为N的时域信号x(n)转换为一个长度为N的频域信号X(k),其中k表示频率。离散余弦变换公式的表达式为:X(k)=∑[n=0,N-1]x(n)cos[(π/N)(n+1/2)k],其中,k=0,1,2,…,N-1。该公式可以看作是一种基于余弦函数的傅里叶变换,用于将时域信号分解为一系列余弦函数的加权和,从而得到频域信号。
3)幅度谱就是信号幅度和频率(角频率)曲线。在信号的频域描述中,以频率作为自变量,以组成信号的各个频率成分的幅值作为因变量,这样的频率函数称为幅值谱,它表征信号的幅值随频率的分布情况。对于随机信号的频域描述,常使用功率谱,它是表征信号的能量随着频率的分布情况。
4)功率谱是功率谱密度函数的简称,它定义为单位频带内的信号功率。它表示了信号功率随着频率的变化情况,即信号功率在频域的分布状况。功率谱表示了信号功率随着频率的变化关系。
5)梅尔频谱是频率转换为梅尔刻度的频谱,梅尔频谱能够适应于人耳的听觉,广泛应用于语音领域。
进一步地,假设上述目标音频信号的采样率为48kHZ,那么得到带噪频域表征的采样率范围则为[0kHZ,24kHZ]。上述将带噪频域表征划分为N个带噪频段则可以但不限于包括:将带噪频域表征划分为带噪低频段[0,8kHz]和带噪高频段(8kHz,24kHz],或,将带噪频域表征划为[0,8kHz]的带噪频段、(8kHz,16kHz]的带噪频段以及(16kHz,24kHz]的带噪频段。在本实施例中对此并不进行任何限定。
需要说明的是,假设上述N个带噪频段包括:带噪低频段[0,8kHz]和带噪高频段(8kHz,24kHz],那么上述N个降噪支路则可以但不限于包括:分别基于低频段[0,8kHz]和高频段(8kHz,24kHz]的音频进行建模分析所获取到的双路音频处理网络。假设上述N个带噪频段包括:[0,8kHz]的带噪频段、(8kHz,16kHz]的带噪频段以及(16kHz,24kHz]的带噪频段,那么上述N个降噪支路则可以但不限于包括:分别基于[0,8kHz]、(8kHz,16kHz]以及(16kHz,24kHz]的音频进行建模分析所获取到的三路音频处理网络。
可选地,在本申请实施例中,上述音频处理网络可以但不限于采用编码-解码(Encoder-Decoder)的交互结构。具体而言,假设上述N个带噪频段包括:带噪低频段[0,8kHz]和带噪高频段(8kHz,24kHz],那么上述音频处理网络中包括两个支路,分别为基于低频段[0,8kHz]的音频信息训练得到的低频支路,以及基于高频段(8kHz,24kHz]的音频信息训练得到的高频支路。此外,上述音频处理网络中还包括用于将低频支路的信息传递至高频支路的门控结构。其中,上述低频支路与上述高频支路可以采用(Encoder-Decoder)的交互结构。需要说明的是,上述音频处理网络还可以采用其他结构,而不仅限于Encoder-Decoder,在本实施例中对此并不进行任何限定。
可选地,在本实施例中,上述利用带噪频域表征,对N个支路掩码估计结果进行调制处理,得到N个支路掩码的目标语音频域表征可以但不限于包括:对带噪频域表征与N个支路掩码估计结果进行叉乘运算,得到N个支路掩码的目标语音频域表征。
作为一种可选的实施方式,以将上述带噪频域表征划分为2个带噪频段,分别为带噪低频段[0,8kHz]和带噪高频段(8kHz,24kHz]为例,由如图3所示的以下步骤对上述方法进行举例说明:
获取包括噪音的目标音频信号,对目标音频信号执行短时余弦变换处理,以获取到目标音频信号的频域特征Xk。接着,对频域特征Xk执行分段处理,以获取到带噪低频段以及带噪高频段/>然后,将带噪低频段/>输入至低频降噪支路302进行处理,以获取到带噪低频段所对应的掩码估计结果/>进而,对/>与/>执行调制处理得到调制结果,对该调制结果执行逆短时余弦变换处理,以得到不受噪声干扰的宽带语音信号。
将带噪高频段输入至高频降噪支路304进行处理,同时利用门控结构306将低频降噪支路302中的数据进行调制后的指导信息,辅助高频降噪支路304的运算,以获取到带噪高频段所对应的掩码估计结果/>进而,对掩码估计结果/>与掩码估计结果/>进行拼接处理,对拼接处理后的掩码估计结果与Xk执行调制处理得到运算结果,对该调制结果执行逆短时余弦变换处理,以得到不受噪声干扰的全带语音信号。
在本申请实施例中,获取待处理的目标音频信号,其中,目标音频信号中包含已被噪声信号干扰的待识别的目标语音信号。然后,对目标音频信号进行频域转换处理,得到与目标音频信号对应的带噪频域表征。接着,将带噪频域表征划分为N个带噪频段,并将N个带噪频段分别输入音频处理网络内对应的N个降噪支路中,得到N个支路掩码估计结果,其中,音频处理网络中第i个降噪支路处理第i个带噪频段以得到与第i个带噪频段对应的第i个支路掩码估计结果,N个降噪支路具有相同的信号处理结构,i为大于等于1且小于等于N的自然数,N为大于1的自然数。进而,利用带噪频域表征,对N个支路掩码估计结果进行调制处理,得到N个支路掩码的目标语音频域表征。从而,对N个支路掩码的目标语音频域表征执行时域转换处理,获取从目标音频信号中提取出的目标语音信号。换言之,在本申请实施例中,采用多个降噪支路,分别为目标音频信号所对应的多个带噪频域段进行降噪处理,进而获取到不受噪声信号干扰的目标语音信号。从而避免了现有技术中采用针对固定采样率的音频信号处理模型,对音频信号进行降噪处理所导致的降噪处理结果不准确的问题。从而实现了提高音频信号降噪处理的准确性的技术效果。
作为一种可选的方案,将N个带噪频段分别输入音频处理网络内对应的N个降噪支路中,得到N个支路掩码估计结果包括:
在第i个降噪支路中对第i个带噪频段执行以下操作:
S1,对第i个带噪频段进行特征维度变换,得到具有目标特征长度的第i个带噪特征向量;
S2,对第i个带噪特征向量进行降噪处理,得到第i个降噪结果;
S3,对第i个降噪结果进行特征维度反变换,得到与第i个带噪频段具有相同特征长度的第i个支路处理结果;
S4,对第i个支路处理结果进行掩码估计运算,得到与第i个带噪频段匹配的第i个支路掩码估计结果。
可选地,在本实施例中,假设上述带噪频域表征被划分为2个带噪频段,分别为带噪低频段和带噪高频段,其中,上述带噪高频段的频率高于上述带噪低频段的频率,上述带噪高频段所对应的采样点多于上述带噪低频段所对应的采样点。针对带噪低频段而言,对带噪低频段进行特征维度变换,得到具有目标特征长度的带噪特征向量可以但不限于包括:对带噪低频段进行特征维度变换,并对维度变化后得到的特征向量进行提升,以获取到具有目标特征长度的带噪特征向量。针对带噪高频段而言,对带噪高频段进行特征维度变换,得到具有目标特征长度的带噪特征向量可以但不限于包括:对带噪高频段进行特征维度变换,并对维度变化后得到的特征向量进行压缩,以获取到具有目标特征长度的带噪特征向量。换言之,在本实施例中,分别对各个带噪频段所对应的带噪特征向量进行特征维度的处理,以使得各个频段分别对应的带噪特征向量具有相同的特征长度,保证各个频段分别对应的降噪支路之间可以进行信息交互。
进一步地,需要说明的是,上述N个降噪支路中的各个降噪支路的网络结构可以但不限于完全相同。具体而言,上述降噪支路中可以但不限于包括:
1)全连接特征维度变换Dense输入层,用于对带噪频段所对应的带噪特征向量的维度进行调整;
2)编码Encoder模块,用于降低带噪特征向量的频域特维度,但保持带噪特征向量的时域特征维度不变,以降低计算量。具体而言,Encoder模块可以但不限于由EncConv2d模块层层堆叠而成。具体而言,EncConv2d模块由卷积层(即,二维卷积(Conv2d))、标准化层(即,标准化(BatchNorm))以及激活层(即,激活函数(PReLU))构成。其中,每一层EncConv2d的卷积核大小(Kernel Size)都是(5,2),表示频域视野为5,时域视野为2,即,每一帧信号特征的分析处理都会参考前一帧的信号,可视作流式卷积结构,保证了网络的因果性。卷积的步进(Stride)为可以但不限于设置为(2,1),即,卷积的频域步进为2,时域步进为1。这能让信号频域特征数目逐层减半,时域特征维度不变,既保持了信息的时域连续性,又能够降低计算量。
3)提取模块,用于获取提取Encoder输出结果中的时序信息,具体而言,提取模块可以为由循环神经网络(Gated Recurrent Units,简称GRU)堆叠构成的循环神经网络(Recurrent Neural Network,简称RNN),也可以为其他类型的神经网络,如,注意力机制(Residual Convolution and Attention,简称RA),两层长短时记忆神经网络(LongShort-term Memory Network,简称LSTM)等等,在本实施例中对此并不进行任何限定。其中,RNN是一类具有短期记忆能力的神经网络。在RNN中,神经元不但可以接收其它神经元的信息,也可以接收自身的信息,形成具有环路的网络结构。和前馈神经网络相比,RNN更加符合生物神经网络的结构。RNN已经被广泛应用在语音识别、语言模型以及自然语言生成等任务上。RA一种基于神经网络的注意力模型,用于处理可变大小和方向的图像。RA旨在模仿人类视觉***的注意力机制,即在不同的时间点将视线聚焦于图像的不同部分,以便对其进行更深入的处理。LSTM是一种递归神经网络(RNN)的变体,适用于许多时序或序列数据的建模任务。基本结构由三个门组成,分别是输入门、遗忘门和输出门,以及一个记忆单元。
4)解码Decoder模块,用于还原带噪特征向量的频域特征数。具体而言,Decoder模块可以但不限于由DecTConv2d模块堆叠组成。DecTConv2d结构与EncConv2d高度相似,其中包括:与EncConv2d中的卷积层(即,二维卷积(Conv2d))相对应的转置卷积层(即,转置卷积网络(ConvTranspose2d))、标准化层(即,标准化(BatchNorm))以及激活层(即,激活函数(PReLU))。Decoder中包括的DecTConv2d的层数与Encoder中包括的EncConv2d的层数相同。每一层DecTConv2d的参数与对应层的EncConv2d的参数也相同。此外,还可以采用跳连接的方式将每一层Encoder的输出作为Decoder中对应层的影响参数,进而实现信号特征维度的逐层还原。
5)全连接特征维度变换Dense输出层,用于对带噪频段所对应的带噪特征向量的维度进行还原。
作为一种可选的实施例,假设上述带噪频域表征被划分为2个带噪频段,分别为带噪低频段[0,8kHz]和带噪高频段(8kHz,24kHz]。以上述第i个带噪频段为带噪低频段为例,由以下步骤对上述方法进行举例说明:
利用Dense输入层对带噪低频段进行特征维度变换,将带噪低频段所对应的原始特征长度为342的特征向量提升至特征长度为512的带噪特征向量,其中,带噪低频段所对应的原始特征长度是基于带噪低频段所对应的频点的数量所确定的。接着,利用Encoder模块、提取模块以及Decoder模块对带噪特征向量进行降噪处理,得到降噪结果。然后,利用Dense输出层对特征长度为512的降噪结果进行特征维度反变换,得到特征长度为342的处理结果。进而,对特征长度为342的处理结果进行掩码估计运算,得到与带噪低频段匹配的掩码估计结果。
作为一种可选的实施例,假设上述带噪频域表征被划分为2个带噪频段,分别为带噪低频段[0,8kHz]和带噪高频段(8kHz,24kHz]。以上述第i个带噪频段为带噪高频段为例,由以下步骤对上述方法进行举例说明:
利用Dense输入层对带噪高频段进行特征维度变换,将带噪高频段所对应的原始特征长度为682的特征向量压缩至特征长度为512的带噪特征向量,其中,带噪高频段所对应的原始特征长度是基于带噪高频段所对应的频点的数量所确定的。接着,利用Encoder模块、提取模块以及Decoder模块对带噪特征向量进行降噪处理,得到降噪结果。然后,利用Dense输出层对特征长度为512的降噪结果进行特征维度反变换,得到特征长度为682的处理结果。进而,对特征长度为682的处理结果进行掩码估计运算,得到与带噪高频段匹配的掩码估计结果。
在本申请实施例中,在第i个降噪支路中对第i个带噪频段执行以下操作:对第i个带噪频段进行特征维度变换,得到具有目标特征长度的第i个带噪特征向量。然后,对第i个带噪特征向量进行降噪处理,得到第i个降噪结果;对第i个降噪结果进行特征维度反变换,得到与第i个带噪频段具有相同特征长度的第i个支路处理结果。进而,对第i个支路处理结果进行掩码估计运算,得到与第i个带噪频段匹配的第i个支路掩码估计结果。换言之,在本申请实施例中,采用第i个降噪支路对第i个带噪频段执行降噪处理,进而获取到不受噪声信号干扰的目标语音信号。从而避免了现有技术中采用针对固定采样率的音频信号处理模型,对音频信号进行降噪处理所导致的降噪处理结果不准确的问题。从而实现了提高音频信号降噪处理的准确性的技术效果。
作为一种可选的方案,对第i个带噪特征向量进行降噪处理,得到第i个降噪结果包括:
S1,通过基于流式卷积结构所构建的编码网络对第i个带噪特征向量进行编码处理,以得到第i个编码结果;
S2,通过基于门控循环单元所构建的循环神经网络对第i个编码结果进行分析,得到携带有时序信息的第i个中间结果;
S3,通过基于流式卷积结构所构建的解码网络对第i个中间结果进行解码处理,以得到第i个降噪结果,其中,解码网络中的子网络是基于对编码网络中的子网络的进行调整后得到的。
需要说明的是,上述基于流式卷积结构所构建的编码网络可以但不限于用于指示Encoder模块。具体而言,Encoder模块可以但不限于用于降低带噪特征向量的频域特维度,但保持带噪特征向量的时域特征维度不变,以降低计算量。具体而言,Encoder模块可以但不限于由EncConv2d模块层层堆叠而成。EncConv2d模块的结构如图4所示,由卷积层402(即,二维卷积(Conv2d))、标准化层404(即,标准化(BatchNorm))以及激活层406(即,激活函数(PReLU))所构成。其中,每一层EncConv2d的卷积核大小(Kernel Size)都是(5,2),表示频域视野为5,时域视野为2,即,每一帧信号特征的分析处理都会参考前一帧的信号,可视作流式卷积结构,保证了网络的因果性。卷积的步进(Stride)为可以但不限于设置为(2,1),即,卷积的频域步进为2,时域步进为1。这能让信号频域特征数目逐层减半,时域特征维度不变,既保持了信息的时域连续性,又能够降低计算量。举例而言,假设上述编码网络为Encoder模块,那么上述编码网络的结构可以但不限于如图5所示,由t个EncConv2d模块所构成,其中,t为大于2的正整数。
需要说明的是,上述基于门控循环单元所构建的循环神经网络可以但不限于用于指示上述提取模块。具体而言,提取模块可以为由循环神经网络(Gated Recurrent Units,简称GRU)堆叠构成的循环神经网络(Recurrent Neural Network,简称RNN),用于获取提取Encoder输出结果中的时序信息。
需要说明的是,上述基于流式卷积结构所构建的解码网络可以但不限于用于指示上述Decoder模块。具体而言,用于还原带噪特征向量的频域特征数。Decoder模块可以但不限于由DecTConv2d模块堆叠组成。DecTConv2d结构与EncConv2d高度相似,其中包括:与EncConv2d中的卷积层(即,二维卷积(Conv2d))相对应的转置卷积层(即,转置卷积网络(ConvTranspose2d))、标准化层(即,标准化(BatchNorm))以及激活层(即,激活函数(PReLU))。Decoder中包括的DecTConv2d的层数与Encoder中包括的EncConv2d的层数相同。每一层DecTConv2d的参数与对应层的EncConv2d的参数也相同。此外,还可以采用跳连接的方式将每一层Encoder的输出作为Decoder模块中对应层的影响参数,进而实现信号特征维度的逐层还原。举例而言,假设上述解码网络为上述Decoder模块,上述解码网络结构可以但不限于如图6所示,由t个DecTConv2d模块所构成,其中,t为大于2的正整数。
作为一种可选的实施例,以上述带噪频域表征被划分为2个带噪频段,分别为带噪低频段[0,8kHz]和带噪高频段(8kHz,24kHz]为例,由以下步骤对上述方法进行举例说明:
通过低频降噪支路中的Encoder模块对带噪低频段对应的带噪特征向量进行编码处理,以得到第一编码结果。然后,通过低频降噪支路中的RNN神经网络对第一编码结果进行分析,得到携带有时序信息的第一中间结果。进而,通过低频降噪支路中的Decoder模块对第一中间结果进行解码处理,以得到第一降噪结果。
接着,通过高频降噪支路中的Encoder模块对带噪高频段对应的带噪特征向量进行编码处理,以得到第二编码结果。然后,通过高频降噪支路中的RNN神经网络对第二编码结果进行分析,得到携带有时序信息的第二中间结果。进而,通过高频降噪支路中的Decoder模块对第二中间结果进行解码处理,以得到第二降噪结果。
在本申请实施例中,通过基于流式卷积结构所构建的编码网络对第i个带噪特征向量进行编码处理,以得到第i个编码结果。然后,通过基于门控循环单元所构建的循环神经网络对第i个编码结果进行分析,得到携带有时序信息的第i个中间结果。进而,通过基于流式卷积结构所构建的解码网络对第i个中间结果进行解码处理,以得到第i个降噪结果。换言之,在本申请实施例中,采用第i个降噪支路对第i个带噪频段执行降噪处理,进而获取到不受噪声信号干扰的目标语音信号。从而避免了现有技术中采用针对固定采样率的音频信号处理模型,对音频信号进行降噪处理所导致的降噪处理结果不准确的问题。从而实现了提高音频信号降噪处理的准确性的技术效果。
作为一种可选的方案,通过基于流式卷积结构所构建的编码网络对第i个带噪特征向量进行编码处理,以得到第i个编码结果包括:通过编码网络中具有连接关系的M个编码子网络对第i个带噪特征向量进行编码处理,得到第i个编码结果,其中,每个编码子网络中分别包括:卷积层、标准化层及激活层,在卷积层中对每一帧对应的带噪特征向量进行卷积处理时将参考相邻的前一帧对应的带噪特征向量,M为大于等于2的自然数;
通过基于流式卷积结构所构建的解码网络对第i个中间结果进行解码处理,以得到第i个降噪结果包括:通过解码网络中具有连接关系的M个解码子网络对第i个中间结果进行解码处理,得到第i个降噪结果,其中,每个解码子网络中分别包括:与卷积层关联的转置卷积层、标准化层及激活层,其中,第k个编码子网络与第M-(k-1)个解码子网络之间设置有跳连接,k为大于等于1且小于等于M的自然数。
需要说明的是,以上述编码网络为Encoder模块为例,上述编码子网络可以但不限于用于指示用于构成Encoder模块的EncConv2d模块,具体而言,EncConv2d模块由卷积层(即,二维卷积(Conv2d))、标准化层(即,标准化(BatchNorm))以及激活层(即,激活函数(PReLU))构成。其中,每一层EncConv2d的卷积核大小(Kernel Size)都是(5,2),表示频域视野为5,时域视野为2,即,每一帧信号特征的分析处理都会参考前一帧的信号,可视作流式卷积结构,保证了网络的因果性。卷积的步进(Stride)为可以但不限于设置为(2,1),即,卷积的频域步进为2,时域步进为1。这能让信号频域特征数目逐层减半,时域特征维度不变,既保持了信息的时域连续性,又能够降低计算量。
进一步地,以上述解码网络为Decoder模块为例,上述解码子网络可以但不限于用于指示,用于构成Decoder模块的DecTConv2d模块,DecTConv2d结构与EncConv2d高度相似,其中包括:与EncConv2d中的卷积层(即,二维卷积(Conv2d))相对应的转置卷积层(即,转置卷积网络(ConvTranspose2d))、标准化层(即,标准化(BatchNorm))以及激活层(即,激活函数(PReLU))。Decoder中包括的DecTConv2d的层数与Encoder中包括的EncConv2d的层数相同。每一层DecTConv2d的参数与对应层的EncConv2d的参数也相同。此外,还可以采用跳连接的方式将每一层Encoder的输出作为Decoder中对应层的影响参数,进而实现信号特征维度的逐层还原。
作为一种可选的实施方式,以上述带噪频域表征被划分为2个带噪频段,分别为带噪低频段[0,8kHz]和带噪高频段(8kHz,24kHz]为例。以当前处理的带噪频段为带噪低频段为例,假设低频降噪支路中的编码网络是Encoder模块,Encoder模块由3层EncConv2d模块所构成。低频降噪支路中的解码网络是Decoder模块,Decoder模块由3层DecTConv2d模块构成。由如图7所示的以下步骤,对上述方法进行举例说明:
执行步骤S702,获取带噪低频段。然后执行步骤S704将带噪低频段输入至全连接特征维度变换输入层(即,Dense输入层),通过Dense输入层将带噪低频段所对应的原始特征长度为342的特征向量提升至特征长度为512的带噪特征向量。
然后执行步骤S706,将特征长度为512的带噪特征向量输入至编码网络,通过编码网络中的EncConv2d-1将频域特征维度为512的带噪特征向量,换为频域特征长度为256的编码结果;通过EncConv2d-2将频域特征长度为256的编码结果,转换为频域特征长度为128的编码结果;通过EncConv2d-3将频域特征长度为128的编码结果,转换为频域特征长度为64的编码结果。
接着执行步骤S708,将频域特征长度为64的编码结果输入至RNN神经网络,以利用RNN获取到上述的编码结果中的时序信息,进而获取到携带有时序信息的频域特征长度为64的中间结果。
进而执行步骤S710,将携带有时序信息的频域特征长度为64的中间结果输入至解码网络当中,通过解码网络模块中的DecTConv2d-1将频域特征维度为64的中间结果,转换为频域特征长度为128的降噪结果,同时利用EncConv2d-3的输出来对DecTConv2d-1的计算进行影响;通过DecTConv2d-2将频域特征长度为128的降噪结果,转换为频域特征长度为256的降噪结果,同时利用EncConv2d-2的输出来对DecTConv2d-2的计算进行影响;通过DecTConv2d-3将频域特征长度为256的降噪结果,转换为频域特征长度为512降噪结果,同时利用EncConv2d-1的输出来对DecTConv2d-3的计算进行影响。
进一步执行步骤S712-S714,将频域特征长度为512降噪结果输入全连接特征维度变换输出层(即,Dense输出层),通过Dense输出层对频域特征长度为512降噪结果进行维度还原处理,以获取到特征长度为342的降噪结果。对特征长度为342的降噪结果执行掩码估计运算,以获得带噪低频段所对应的掩码估计结果。
具体而言,上述掩码估计运算可以但不限于包括:对降噪结果与带噪高频段进行除法运算,即,带噪低频段所对应的掩码估计结果=特征长度为342的降噪结果/带噪低频段。可选地,还可以采用其他方式,对降噪结果进行掩码估计运算,在本实施例中对此并不进行任何限定。
作为一种可选的实施方式,以上述带噪频域表征被划分为2个带噪频段,分别为带噪低频段[0,8kHz]和带噪高频段(8kHz,24kHz]为例。以当前处理的带噪频段为带噪高频段为例,假设高频降噪支路中的编码网络是Encoder模块,Encoder模块由3层EncConv2d模块所构成。高频降噪支路中的解码网络是Decoder模块,Decoder模块由3层DecTConv2d模块构成。由以下步骤,对上述方法进行举例说明:
将带噪高频段输入至Dense输入层,通过Dense输入层将带噪高频段所对应的原始特征长度为682的特征向量压缩至特征长度为512的带噪特征向量。
然后,将特征长度为512的带噪特征向量输入至编码网络,通过编码网络中的EncConv2d-4将频域特征维度为512的带噪特征向量,转换为频域特征长度为256的编码结果;通过EncConv2d-5将频域特征长度为256的编码结果,转换为频域特征长度为128的编码结果;通过EncConv2d-6将频域特征长度为128的编码结果,转换为频域特征长度为64的编码结果。
接着,将频域特征长度为64的编码结果输入至RNN神经网络,以获取到上述的编码结果中的时序信息,进而获取到携带有时序信息的频域特征长度为64的中间结果。
进一步地,将携带有时序信息的频域特征长度为64的中间结果输入至解码网络当中,通过解码网络中的DecTConv2d-4将频域特征维度为64的中间结果,转换为频域特征长度为128的降噪结果,同时利用EncConv2d-6的输出来对DecTConv2d-4的计算进行影响;通过DecTConv2d-5将频域特征长度为128的降噪结果,转换为频域特征长度为256的降噪结果,同时利用EncConv2d-5的输出来对DecTConv2d-5的计算进行影响;通过DecTConv2d-6将频域特征长度为256的降噪结果,转换为频域特征长度为512降噪结果,同时利用EncConv2d-4的输出来对DecTConv2d-6的计算进行影响。
接着,将频域特征长度为512降噪结果输入Dense输出层,通过Dense输出层对频域特征长度为512降噪结果进行维度还原处理,以获取到特征长度为682的降噪结果。
进而,对特征长度为682的降噪结果进行掩码估计运算,以获得带噪高频段所对应的掩码估计结果。
具体而言,上述掩码估计运算可以但不限于包括:对降噪结果与带噪高频段进行除法运算,即,带噪高频段所对应的掩码估计结果=特征长度为682的降噪结果/带噪高频段。可选地,还可以采用其他方式,对降噪结果进行掩码估计运算,在本实施例中对此并不进行任何限定。
在本申请实施例中,通过流式卷积结构所构建的编码网络对第i个带噪特征向量进行编码处理,以得到第i个编码结果。基于流式卷积结构所构建的解码网络对第i个中间结果进行解码处理,以得到第i个降噪结果。并采用对编码子网络与解码子网络之间设置跳连接的方式,使得解码子网络的输出结果更加准确,从而实现了提高音频信号的降噪处理的准确性的技术效果。
作为一种可选的方案,在通过解码网络中具有连接关系的M个解码子网络对第i个中间结果进行解码处理,得到第i个降噪结果时,还包括:
S1,在第i个降噪支路并非首个降噪支路的情况下,对第i个降噪支路内编码网络中M个编码子网络各自对应的输出结果,及与第i-1个降噪支路关联的M个门控处理结果分别进行加权求和处理,得到M个解码参考结果,其中,第j个门控处理结果为第i-1个降噪支路内第j个编码子网络的输出结果通过音频处理网络内的第j个信息传递门控结构处理后得到的结果,每个信息传递门控结构内的卷积层中包括至少两个卷积结构,j为大于等于1且小于等于M的自然数;
S2,将M个解码参考结果中的每个解码参考结果,分别输入第i个降噪支路内M个解码子网络中对应的解码子网络中。
需要说明的是,假设上述带噪频域表征被划分为2个带噪频段,分别为带噪低频段和带噪高频段。在用于处理带噪低频段的低频降噪支路与用于处理带噪高频段的高频降噪支路之间,还设置有门控结构。上述门控结构,用于将低频降噪支路编码网络的输出经过调制后的结果作为指导信息,与高频降噪支路编码网络的输出一起作用于高频降噪支路解码网络。具体而言,上述门控结构可以但不限于如图8所示,由两个二维卷积(Conv2d)、一层标准化(BatchNorm)以及一层激活函数(PReLU)所构成。其中,门控结构的输入为编码网络中包括的各个编码子网络(即,EncConv2d模块)的输出结果,门控结构的输出为编码网络中包括的各个编码子网络(即,EncConv2d模块)的输出结果所对应的门控处理结果。以图8为例,假设编码网络中包括3个EncConv2d模块,分别为EncConv2d-1、EncConv2d-2、EncConv2d-3,那么门控结构的输入则为EncConv2d-1所输出的输出结果1、EncConv2d-2所输出的输出结果2以及EncConv2d-3所输出的输出结果3。门控结构的输出则为通过门控结构对输出结果1进行计算后得到的门控处理结果1,通过门控结构对输出结果2进行计算后得到的门控处理结果2,以及通过门控结构对输出结果3进行计算后得到的门控处理结果3。
作为一种可选的实施方式,以上述带噪频域表征被划分为2个带噪频段,分别为带噪低频段[0,8kHz]和带噪高频段(8kHz,24kHz]为例。假设上述M为3,假设编码网络为Encoder模块,解码网络为Decoder模块。
由如图9所示的以下步骤对上述方法进行举例说明:
执行步骤S902,获取带噪低频段,进而执行步骤S904,通过低频降噪支路对带噪低频段进行处理,得到第一处理结果。具体而言,将带噪低频段输入至低频降噪支路的全连接特征维度变换(即,Dense)输入层1,将带噪低频段进行特征维度变换,得到具有目标特征长度的第一带噪特征向量。然后,将第一带噪特征向量输入至低频降噪支路的编码网络1,进而利用编码网络1中的EncConv2d-1、EncConv2d-2、EncConv2d-3对第一带噪特征向量进行编码处理。然后,将编码网络1输出的第一编码结果,输入至低频降噪支路的RNN1神经网络。利用RNN1神经网络对第一编码结果进行处理,以获取到携带有时序信息的第一中间结果。接着,将第一中间结果输入至低频降噪支路的解码网络1。然后依次利用解码网络1中的DecTConv2d-1、DecTConv2d-2、DecTConv2d-3对第一中间结果进行解码处理。同时将低频降噪支路的EncConv2d-3的输出结果输入至DecTConv2d-1,将低频降噪支路的EncConv2d-2的输出结果输入至DecTConv2d-2,将低频降噪支路的EncConv2d-1的输出结果输入至DecTConv2d-3中。以通过低频降噪支路的EncConv2d-3的输出结果影响DecTConv2d-1的计算,通过低频降噪支路的EncConv2d-2的输出结果影响DecTConv2d-2的计算,通过低频降噪支路的EncConv2d-1的输出结果影响DecTConv2d-3的计算。进而获取到解码网络1所输出的第一降噪结果。接着,将第一降噪结果输入至低频降噪支路的全连接特征维度变换(即,Dense)输出层1,以将第一降噪结果的特征维度恢复为带噪低频段所对应的原维度,获取到第一处理结果。
接着,执行步骤S906,对第一处理结果进行掩码估计运算,获取到带噪低频段所对应的第一掩码估计结果。
然后,执行步骤S908,利用门控结构对编码网络1的输出结果进行计算,以获取其对应的门控处理结果。具体而言,将EncConv2d-1的输出结果输入门控结构中,以获取到门控处理结果1;将EncConv2d-2的输出结果输入门控结构中,以获取到门控处理结果2;将EncConv2d-3的输出结果输入门控结构中,以获取到门控处理结果3。
进一步地,执行步骤S910,获取带噪高频段。进而执行步骤S912,通过高频降噪支路对带噪高频段进行处理,得到第二处理结果。具体而言,将带噪高频段输入至高频降噪支路的全连接特征维度变换(即,Dense)输入层2。将带噪高频段进行特征维度变换,得到具有目标特征长度的第二带噪特征向量。然后,将第二带噪特征向量输入至高频降噪支路的编码网络2,依次利用编码网络2中的EncConv2d-4、EncConv2d-5、EncConv2d-6对第二带噪特征向量进行编码处理。然后,将编码网络2输出的第二编码结果,输入至高频降噪支路的RNN2神经网络。以利用RNN2获取到携带有时序信息的第二中间结果。同时,对门控处理结果1与EncConv2d-4执行异或处理,以获取到解码参考结果1;对门控处理结果2与EncConv2d-5执行异或处理,以获取到解码参考结果2;对门控处理结果3与EncConv2d-6执行异或处理,以获取到解码参考结果3。接着,将第二中间结果输入至高频降噪支路的解码网络2中,然后依次利用解码网络2中的DecTConv2d-4、DecTConv2d-5、DecTConv2d-6对第二中间结果进行解码处理,同时将解码参考结果3输入至DecTConv2d-4,将解码参考结果2输入至DecTConv2d-5,将解码参考结果1输入至DecTConv2d-6中。以通过解码参考结果3影响DecTConv2d-4的计算,通过解码参考结果2影响DecTConv2d-5的计算,通过解码参考结果1影响DecTConv2d-6的计算。进而获取到解码网络2所输出的第二降噪结果。接着,将第二降噪结果输入至高频降噪支路的全连接特征维度变换(即,Dense)输出层2,以将第二降噪结果的特征维度恢复为带噪高频段所对应的原维度,获取到第二处理结果。
进而,执行步骤S914,对第二处理结果进行掩码估计运算,获取到带噪高频段所对应的第二掩码估计结果。
在本申请实施例中,通过采用第i-1个降噪支路关联的M个门控处理结果,对第i个降噪支路内编码网络中M个编码子网络各自对应的输出结果进行处理的方式。提升了第i个降噪支路中的解码子网络的输出结果的准确性。进而实现了提高音频信号的降噪处理结果准确性的技术效果。
作为一种可选的方案,利用带噪频域表征,对N个支路掩码估计结果进行调制处理,得到N个支路掩码的目标语音频域表征包括:
对N个支路掩码估计结果进行拼接,得到拼接表达;
利用带噪频域表征对拼接表达进行调制处理,得到全带语音频域表征。
可选地,在本实施例中,上述利用带噪频域表征对拼接表达进行调制处理,得到全带语音频域表征可以但不限于包括:对带噪频域表征与拼接表达进行叉乘法运算,得到全带语音频域表征。
作为一种可选的实施例,假设将上述带噪频域表征划分为2个带噪频段,分别为带噪低频段和带噪高频段。假设带噪低频段所对应的掩码估计结果为第一掩码估计结果带噪高频段所对应的掩码估计结果为第二掩码估计结果/>那么上述对N个支路掩码估计结果进行拼接,得到拼接表达可以但不限于包括:对第一掩码估计结果/>与第二掩码估计结果/>进行拼接,以得到拼接表达(mk),即/>具体而言,上述对第一掩码估计结果/>与第二掩码估计结果/>进行拼接的方式可以但不限于包括:将/>拼接至/>的末尾处,或,将/>拼接至/>的末尾处等等,在本实施例中对此并不进行任何限定。
在本申请实施例中,对N个支路掩码估计结果进行拼接,得到拼接表达。然后,利用带噪频域表征对拼接表达进行调制处理,得到全带语音频域表征。换言之,在本申请实施例中,采用多个降噪支路,分别为目标音频信号所对应的多个带噪频域段进行降噪处理。然后对分别通过N个支路获取到的掩码估计结果进行拼接以及计算变换,以得到目标语音信号的全带估计结果。从而避免了现有技术中采用针对固定采样率的音频信号处理模型,对音频信号进行降噪处理所导致的降噪处理结果不准确的问题。从而实现了提高音频信号降噪处理的准确性的技术效果。
作为一种可选的方案,对N个支路掩码的目标语音频域表征进行时域转换处理,获取从目标音频信号中提取出的目标语音信号包括:
对全带语音频域表征进行时域转换处理,得到目标语音信号的全带估计结果。
进一步地,上述对全带语音频域表征进行时域转换处理可以但不限于用于指示,对全带语音频域表征执行逆短时余弦变换(Inverse Short Time Discrete Transform,简称ISDCT)处理。
作为一种可选的实施方式,假设带噪频域表征为Xk,将上述带噪频域表征Xk划分为2个带噪频段,分别为带噪低频段和带噪高频段。假设带噪低频段所对应的掩码估计结果为第一掩码估计结果带噪高频段所对应的掩码估计结果为第二掩码估计结果/>由以下步骤对上述方法进行举例说明:
对第一掩码估计结果与第二掩码估计结果/>进行拼接以得到拼接表达(mk),即/>
然后,对拼接表达(mk)与目标音频信号带噪频域表征(Xk)执行叉乘计算,得到全带频谱估计即,/>
接着,对执行逆短时余弦变换(Inverse Short Time Discrete Transform,简称ISDCT)处理,得到目标语音信号的全带估计结果/>(即,不存在噪音的全带语音信号)。
在本申请实施例中,对N个支路掩码估计结果进行拼接,得到拼接表达。然后,利用带噪频域表征对拼接表达进行调制处理,得到全带语音频域表征。换言之,在本申请实施例中,采用多个降噪支路,分别为目标音频信号所对应的多个带噪频域段进行降噪处理。然后对分别通过N个支路获取到的掩码估计结果进行拼接以及计算变换,以得到目标语音信号的全带估计结果。从而避免了现有技术中采用针对固定采样率的音频信号处理模型,对音频信号进行降噪处理所导致的降噪处理结果不准确的问题。从而实现了提高音频信号降噪处理的准确性的技术效果。
作为一种可选的方案,在对N个支路掩码估计结果进行拼接,得到拼接表达之前,还包括:
S1,利用第i个带噪频段对应的第i个支路掩码估计结果,对第i个带噪频段的带噪频域表征进行调制处理,得到第i个语音频域表征;
S2,对第i个语音频域表征进行时域转换处理,得到目标语音信号的第i频段估计结果。
作为一种可选的实施方式,假设带噪频域表征为Xk,将上述带噪频域表征(Xk)划分为2个带噪频段,分别为带噪低频段和带噪高频段/>假设带噪低频段所对应的掩码估计结果为第一掩码估计结果/>带噪高频段所对应的掩码估计结果为第二掩码估计结果/>由以下步骤对上述方法进行举例说明:
针对带噪低频段来说,对带噪低频段与第一掩码估计结果/>执行叉乘计算,得到带噪低频段所对应的频谱估计/>即,/>进而,对带噪低频段所对应的频谱估计/>执行逆短时余弦变换(Inverse Short Time Discrete Transform,简称ISDCT)处理,得到低频段估计结果/>(即,不存在噪音的宽带语音信号)。
针对带噪高频段来说,对带噪高频段与第二掩码估计结果/>执行叉乘计算,得到带噪高频段所对应的频谱估计/>即,/>进而,对带噪高频段所对应的频谱估计/>执行逆短时余弦变换(Inverse Short Time Discrete Transform,简称ISDCT)处理,得到高频段估计结果/>
在本申请实施例中,利用第i个带噪频段对应的第i个支路掩码估计结果,对第i个带噪频段的带噪频域表征进行调制处理,得到第i个语音频域表征。然后,对第i个语音频域表征进行时域转换处理,得到目标语音信号的第i频段估计结果。换言之,在本申请实施例中,采用多个降噪支路,分别为目标音频信号所对应的多个带噪频域段进行降噪处理。从而避免了现有技术中采用针对固定采样率的音频信号处理模型,对音频信号进行降噪处理所导致的降噪处理结果不准确的问题。实现了提高音频信号降噪处理的准确性的技术效果。
作为一种可选的方案,在对目标音频信号进行频域转换处理,得到与目标音频信号对应的带噪频域表征之前,还包括:
对目标音频信号按照目标采样率进行采样,得到采样后的音频数据;
对采样后的音频数据进行时域分帧处理,得到处理后的音频信号。
需要说明的是,上述目标采样率可以根据实际需求预先设置。具体而言,上述目标采样率可以但不限于设置为48kHZ、44.1kHZ等等,在本实施例中对此并不进行任何限定。
进一步地,上述对采样后的音频数据进行时域分帧处理可以但不限于包括:对上述音频数据进行分帧加窗调制处理,以防止频谱泄露。举例而言,可以但不限于按照单帧包括1024采样点(即,但帧长1024)、帧移512(即,每两个相邻的帧之间存在的重叠长度为512),将音频数据分割成多帧固定长度的短信号。进而采用汉明窗对音频数据中的各帧信号进行调制处理,以得到调制后的音频信号,防止频谱泄露。
需要说明的是,对音频数据的加窗处理所采用的加窗处理方式,不仅限于汉明窗,还可以采用其他方式,如,矩形窗、汉宁窗等等,在本实施例中对此并不进行任何限定。
作为一种可选的实施例,由以下步骤对上述方法进行举例说明:
对目标音频信号按照48kHZ的采样率进行采样,得到采样后的音频数据。然后,对采样后的音频数据进行分帧加窗调制处理,获取到处理后的音频信号。
在本申请实施例中,对目标音频信号按照目标采样率进行采样,得到采样后的音频数据。然后,对采样后的音频数据进行时域分帧处理,得到处理后的音频信号。从而实现了提高音频信号降噪处理的准确性的技术效果。
作为一种可选的方案,在获取待处理的目标音频信号之前,还包括:
获取语音数据集和噪声数据集;
对语音数据集和噪声数据集进行混合,得到样本带噪音频信号;
利用样本带噪音频信号对初始化的音频处理网络进行训练,直至音频处理网络的损失函数达到收敛条件,其中,损失函数用于计算语音数据集中语音信号和训练中的音频处理网络从样本带噪音频信号中识别出的候选参考语音信号二者之间的差异。
可选地,在本实施例中,上述语音数据集可以但不限于用于指示不包含噪声的纯净的语音集。上述噪声数据集就可以但不限于用于指示无用的噪声语音集合。
作为一种可选的实施方式,假设语音数据集为sn,噪声数据集为dn。由以下步骤对上述方法进行举例说明:
获取语音数据集为sn,噪声数据集为dn。然后,对语音数据集sn和噪声数据集dn进行混合,得到样本带噪音频信号xn。然后,将xn输入至初始化的音频处理网络,获取到输出结果(即,不包含噪声的语音数据集),以对初始化的音频处理网络进行训练。直至音频处理网络的损失函数达到预定阈值,其中,损失函数的表达式可以但不限于如下所示:
其中,上述sn为不包含噪声的语音数据集,上述为音频处理网络在训练过程中的输出结果。需要说明的是,上述损失函数可以但不限于采用均方误差损失函数(MSELoss,简称MSE),误差损失函数(Mean Absolute Error,简称MAE),标度不变信噪比(Scaleinvariant Signal-to-Noise Ratio,简称SI-SNR)等中的任意一种,在本实施例中对此并不进行任何限定。
在本申请实施例中,预先通过丰富的样本信息对初始化的音频处理网络进行训练,以获取到已训练完成的音频处理网络。从而利用该音频处理网络对目标音频信号进行降噪处理。进而实现了提高降噪处理的准确性的技术效果。
作为一种可选的实施例,由如图10所示的以下步骤,对上述音频降噪处理方法进行举例说明:
获取包括噪音的目标音频信号xn,对xn目标音频信号执行短时余弦变换处理,以获取到目标音频信号的频域特征Xk。接着,对频域特征Xk执行分段处理,以获取到带噪低频段以及带噪高频段/>
然后,将带噪低频段输入至低频降噪支路中,依次通过全连接特征维度变换输入层、编码网络、RNN网络、全连接特征维度变换输出层进行处理,以获取到带噪低频段所对应的掩码估计结果/>进而,对/>与/>执行叉乘运算处理得到运算结果,对该计算结果执行掩码估计运算后获取到带噪低频段所对应的频谱估计/>进而对/>执行逆短时余弦变换处理,以得到不受噪声干扰的宽带语音信号/>其中,采用编码网络中的EncConv2d的输出结果辅助解码网络中的DecTConv2d的计算。
将带噪高频段输入至高频降噪支路中,依次通过全连接特征维度变换输入层、编码网络、RNN网络、全连接特征维度变换输出层进行处理,以获取到带噪高频段所对应的掩码估计结果/>进而,对掩码估计结果/>与掩码估计结果/>进行拼接处理,以获取到拼接后的掩码估计结果mk。对拼接处理后的掩码估计结果mk与Xk执行叉乘运算处理得到运算结果,对该运算结果执行掩码估计运算,得到全带语音信号所对应的频谱估计/>对/>该运算结果执行逆短时余弦变换处理,以得到不受噪声干扰的全带语音信号/>其中,利用门控结构将低频降噪支路中的编码网络中的EncConv2d的输出进行调制后的指导信息,与高频降噪支路中的编码网络中的EncConv2d的输出,辅助高频降噪支路中解码网络中的DecTConv2d的运算。
在本实施例中,采用多个降噪支路,分别为目标音频信号所对应的多个带噪频域段进行降噪处理,进而获取到不受噪声信号干扰的目标语音信号。从而避免了现有技术中采用针对固定采样率的音频信号处理模型,对音频信号进行降噪处理所导致的降噪处理结果不准确的问题。从而实现了提高音频信号降噪处理的准确性的技术效果。
作为另一种可选的实施例,由以下步骤,对上述音频降噪处理方法所采用的***框架进行举例说明:
1)前处理及特征提取模块:对带噪语音信号xn进行重采样处理,将所有采样率类型的音频数据重采样至48kHz。重采样操作完成后,接下来对长音频信号进行时域分帧加窗处理,按照单帧长1024、帧移512(重叠512),将原音频信号分割成多帧固定长度的短信号,并且采用汉明窗对各帧信号进行调制,防止频谱泄露。分帧加窗操作结束后,对调制信号进行离散余弦变换操作,提取频域特征,得到带噪语音信号xn的频域表征Xk。音频信号分帧加窗与余弦变换操作结合又可称之为短时余弦变换。得到带噪语音的短时余弦变换Xk之后,将其进行划分,8kHz频率以下的频点组成,可以视作宽带信号的余弦谱,8kHz以上的频点组成/>,带宽是/>的两倍。
2)神经网络前向推理模块:采用了双路Encoder-Decoder交互结构,分别对音频的低频段[0,8kHz]和高频段[8kHz,24kHz]进行建模分析。网络模型主要分成三部分,分别是低频支路、高频支路以及传递低频信息至高频支路的门控结构。低频支路与高频支路结构对称,都是由四部分组成,分别是全连接特征维度变换层Dense、Encoder模块、循环神经网络模块(RNN)以及Decoder模块。Dense输入层的作用是将进入两个支路的低频和高频特征进行维度变换,低频特征长度从342变成512,高频从682压缩成512,这样可以将高频支路和低频支路的数据特征长度统一,便于交互,Dense输出层则是将特征维度反变换回去。Encoder部分主要由以二维卷积(Conv2d)为核心、配以批标准化(BatchNorm)以及PReLU激活函数等操作构成的EncConv2d模块层层堆叠组成的,每一层EncConv2d的卷积核大小(Kernel Size)都是(5,2),表示频域视野为5,时域视野为2,每一帧信号特征的分析处理都会参考前一帧信号,可视作流式卷积结构,保证了网络的因果性。卷积的步进(Stride)为(2,1),这能让信号频域特征数目逐层减半,时域特征维度不变,既保持了信息的时域连续性,又能够降低计算量。Decoder部分主要由DecTConv2d模块堆叠组成,而DecTConv2d结构与EncConv2d高度相似,只是将其中的卷积结构替换成转置卷积网络(ConvTranspose2d)。Decoder的层数与Encoder相同,并且每一层DecTConv2d参数都与对应的EncConv2d相同,采用跳连接的方式将Encoder的输出作为Decoder的输入,实现了信号特征维度的逐层还原。在Encoder与Decoder模块之间,采用了由GRU(Gated Recurrent Units)堆叠构成的循环神经网络模块RNN,用于时序信息的分析提取。信息传递模块主要作用是将低频支路Encoder输出经过调制后作为指导信息与高频支路Encoder输出一起作用于高频支路Decoder,该模块采用了门控结构实现了信息的提取。两个支路的最终输出目标是信号的短时余弦变换掩码估计,低频支路掩码估计值为高频支路掩码估计值为/>
3)后处理语音生成模块:在得到低频和高频信号成分的短时余弦变换掩码之后,对原始带噪语音短时余弦谱进行调制,分别得到低频和高频的短时余弦谱估计,表达式如下:
/>
对低频余弦谱进行逆短时余弦变换可以得到宽带纯净语音信号的估计值而将低频和高频余弦谱结合之后进行iSDCT可以得到全带纯净语音信号的估计值/>
需要说明的是,在本实施例中,给出频带分离的语音增强降噪模型的设计模式,在不引入额外计算量的前提下,同时解决宽带信号和全带信号的噪声抑制问题。提出了基于Encoder-Decoder双路交互结构的频带分离降噪***。通过对带噪音频的低频段和高频段分别进行建模分析,有效压制各个频带中的噪声成分。常规的语音增强降噪方案只针对一种采样率信号进行建模分析,而采用本实施例可以利用双路结构对宽带信号(16kHz)和全带信号(48kHz)进行处理,用一套***适配两个不同的应用场景。
进一步地,利用信噪比范围为[-10,30]dB,步进为2dB,的1000组测试数据,获取本实施例的测试结果。其中,选取语音可感知质量参数PESQ,尺度不变性信噪比参数SI-SNR,模拟主观音频质量感知参数DNSMOS作为效果评价指标,来确定测试结果价。具体而言,图11为PESQ指标测试结果,图12为SI-SNR指标测试结果,图13为MOS_OVL指标测试结果。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本申请所必须的。
根据本申请实施例的另一个方面,还提供了一种用于实施上述音频降噪处理方法的音频降噪处理装置。如图14所示,该装置包括:
获取单元1402,用于获取待处理的目标音频信号,其中,目标音频信号中包含已被噪声信号干扰的待识别的目标语音信号;
提取单元1404,用于对目标音频信号进行频域转换处理,得到与目标音频信号对应的带噪频域表征;
输入单元1406,用于将带噪频域表征划分为N个带噪频段,并将N个带噪频段分别输入音频处理网络内对应的N个降噪支路中,得到N个支路掩码估计结果,其中,音频处理网络中第i个降噪支路处理第i个带噪频段以得到与第i个带噪频段对应的第i个支路掩码估计结果,N个降噪支路具有相同的信号处理结构,i为大于等于1且小于等于N的自然数,N为大于1的自然数;
调制单元1408,用于利用带噪频域表征,对N个支路掩码估计结果进行调制处理,得到N个支路掩码的目标语音频域表征;
转换单元1410,用于对N个支路掩码的目标语音频域表征进行时域转换处理,获取从目标音频信号中提取出的目标语音信号。
可选地,上述输入单元包括:
执行模块,用于在第i个降噪支路中对第i个带噪频段执行以下操作:对第i个带噪频段进行特征维度变换,得到具有目标特征长度的第i个带噪特征向量;对第i个带噪特征向量进行降噪处理,得到第i个降噪结果;对第i个降噪结果进行特征维度反变换,得到与第i个带噪频段具有相同特征长度的第i个支路处理结果;对第i个支路处理结果进行掩码估计运算,得到与第i个带噪频段匹配的第i个支路掩码估计结果。
可选地,上述执行模块还用于通过基于流式卷积结构所构建的编码网络对第i个带噪特征向量进行编码处理,以得到第i个编码结果;通过基于门控循环单元所构建的循环神经网络对第i个编码结果进行分析,得到携带有时序信息的第i个中间结果;通过基于流式卷积结构所构建的解码网络对第i个中间结果进行解码处理,以得到第i个降噪结果,其中,解码网络中的子网络是基于对编码网络中的子网络的进行调整后得到的。
可选地,上述执行模块还用于通过编码网络中具有连接关系的M个编码子网络对第i个带噪特征向量进行编码处理,得到第i个编码结果,其中,每个编码子网络中分别包括:卷积层、标准化层及激活层,在卷积层中对每一帧对应的带噪特征向量进行卷积处理时将参考相邻的前一帧对应的带噪特征向量,M为大于等于2的自然数;通过解码网络中具有连接关系的M个解码子网络对第i个中间结果进行解码处理,得到第i个降噪结果,其中,每个解码子网络中分别包括:与卷积层关联的转置卷积层、标准化层及激活层,其中,第k个编码子网络与第M-(k-1)个解码子网络之间设置有跳连接,k为大于等于1且小于等于M的自然数。
可选地,上述执行模块还用于在第i个降噪支路并非首个降噪支路的情况下,对第i个降噪支路内编码网络中M个编码子网络各自对应的输出结果,及与第i-1个降噪支路关联的M个门控处理结果分别进行加权求和处理,得到M个解码参考结果,其中,第j个门控处理结果为第i-1个降噪支路内第j个编码子网络的输出结果通过音频处理网络内的第j个信息传递门控结构处理后得到的结果,每个信息传递门控结构内的卷积层中包括至少两个卷积结构,j为大于等于1且小于等于M的自然数;将M个解码参考结果中的每个解码参考结果,分别输入第i个降噪支路内M个解码子网络中对应的解码子网络中。
可选地,上述调制单元包括:
拼接模块,用于对N个支路掩码估计结果进行拼接,得到拼接表达;
调制模块,用于利用带噪频域表征对拼接表达进行调制处理,得到全带语音频域表征。
可选地,上述转换单元还用于对全带语音频域表征进行时域转换处理,得到目标语音信号的全带估计结果。
可选地,上述调制单元,还包括:
第一调制模块,用于利用第i个带噪频段对应的第i个支路掩码估计结果,对第i个带噪频段的带噪频域表征进行调制处理,得到第i个语音频域表征;
转换模块,用于对第i个语音频域表征进行时域转换处理,得到目标语音信号的第i频段估计结果。
可选地,上述装置还包括:
采样单元,用于对目标音频信号按照目标采样率进行采样,得到采样后的音频数据;
处理单元,用于对采样后的音频数据进行时域分帧处理,得到处理后的音频信号。
可选地,上述装置还包括:
第一获取单元,用于获取语音数据集和噪声数据集;
混合单元,用于对语音数据集和噪声数据集进行混合,得到样本带噪音频信号;
训练单元,用于利用样本带噪音频信号对初始化的音频处理网络进行训练,直至音频处理网络的损失函数达到收敛条件,其中,损失函数用于计算语音数据集中语音信号和训练中的音频处理网络从样本带噪音频信号中识别出的候选参考语音信号二者之间的差异。
具体实施例请参考上述音频降噪处理方法中所示实例,本实施例在此不再赘述。
根据本申请实施例的又一个方面,还提供了一种用于实施上述音频降噪处理方法的电子设备。本实施例以该电子设备为终端为例来说明。如图15所示,该电子设备包括存储器1502和处理器1504,该存储器1502中存储有计算机程序,该处理器1504被设置为通过计算机程序执行上述任一项方法实施例中的步骤。
可选地,在本实施例中,上述电子设备可以位于计算机网络的多个网络设备中的至少一个网络设备。
可选地,在本实施例中,上述处理器可以被设置为通过计算机程序执行以下步骤:
S1,获取待处理的目标音频信号,其中,目标音频信号中包含已被噪声信号干扰的待识别的目标语音信号;
S2,对目标音频信号进行频域转换处理,得到与目标音频信号对应的带噪频域表征;
S3,将带噪频域表征划分为N个带噪频段,并将N个带噪频段分别输入音频处理网络内对应的N个降噪支路中,得到N个支路掩码估计结果,其中,音频处理网络中第i个降噪支路处理第i个带噪频段以得到与第i个带噪频段对应的第i个支路掩码估计结果,N个降噪支路具有相同的信号处理结构,i为大于等于1且小于等于N的自然数,N为大于1的自然数;
S4,利用带噪频域表征,对N个支路掩码估计结果进行调制处理,得到N个支路掩码的目标语音频域表征;
S5,对N个支路掩码的目标语音频域表征进行时域转换处理,获取从目标音频信号中提取出的目标语音信号。
可选地,本领域普通技术人员可以理解,图15所示的结构仅为示意,电子设备也可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌上电脑以及移动互联网设备(Mobile Internet Devices,MID)、PAD等终端设备。图15其并不对上述电子设备的结构造成限定。例如,电子设备还可包括比图15中所示更多或者更少的组件(如网络接口等),或者具有与图15所示不同的配置。
其中,存储器1502可用于存储软件程序以及模块,如本申请实施例中的音频降噪处理方法和装置对应的程序指令/模块,处理器1504通过运行存储在存储器1502内的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现上述的音频降噪处理方法。存储器1502可包括高速随机存储器,还可以包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器1502可进一步包括相对于处理器1504远程设置的存储器,这些远程存储器可以通过网络连接至终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。其中,存储器1502具体可以但不限于用于存储目标音频信号等信息。作为一种示例,如图15所示,上述存储器1502中可以但不限于包括上述音频降噪处理装置中的获取单元1402、提取单元1404、输入单元1406、调制单元1408及转换单元1410。此外,还可以包括但不限于上述音频降噪处理装置中的其他模块单元,本示例中不再赘述。
可选地,上述的传输装置1506用于经由一个网络接收或者发送数据。上述的网络具体实例可包括有线网络及无线网络。在一个实例中,传输装置1506包括一个网络适配器(Network Interface Controller,NIC),其可通过网线与其他网络设备与路由器相连从而可与互联网或局域网进行通讯。在一个实例中,传输装置1506为射频(Radio Frequency,RF)模块,其用于通过无线方式与互联网进行通讯。
此外,上述电子设备还包括:连接总线1508,用于连接上述电子设备中的各个模块部件。
在其他实施例中,上述终端设备或者服务器可以是一个分布式***中的一个节点,其中,该分布式***可以为区块链***,该区块链***可以是由该多个节点通过网络通信的形式连接形成的分布式***。其中,节点之间可以组成点到点的网络,任意形式的计算设备,比如服务器、终端等电子设备都可以通过加入该点到点的网络而成为该区块链***中的一个节点。
根据本申请的一个方面,提供了一种计算机程序产品,该计算机程序产品包括计算机程序/指令,该计算机程序/指令包含用于执行上述方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分从网络上被下载和安装,和/或从可拆卸介质被安装。在该计算机程序被中央处理器执行时,执行本申请实施例提供的各种功能。
根据本申请的一个方面,提供了一种计算机可读存储介质,计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述音频降噪处理方法。
可选地,在本实施例中,上述计算机可读存储介质可以被设置为存储用于执行以下步骤的计算机程序:
S1,获取待处理的目标音频信号,其中,目标音频信号中包含已被噪声信号干扰的待识别的目标语音信号;
S2,对目标音频信号进行频域转换处理,得到与目标音频信号对应的带噪频域表征;
S3,将带噪频域表征划分为N个带噪频段,并将N个带噪频段分别输入音频处理网络内对应的N个降噪支路中,得到N个支路掩码估计结果,其中,音频处理网络中第i个降噪支路处理第i个带噪频段以得到与第i个带噪频段对应的第i个支路掩码估计结果,N个降噪支路具有相同的信号处理结构,i为大于等于1且小于等于N的自然数,N为大于1的自然数;
S4,利用带噪频域表征,对N个支路掩码估计结果进行调制处理,得到N个支路掩码的目标语音频域表征;
S5,对N个支路掩码的目标语音频域表征进行时域转换处理,获取从目标音频信号中提取出的目标语音信号。
可选地,在本实施例中,本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:闪存盘、只读存储器(Read-Only Memory,ROM)、随机存取器(Random Access Memory,RAM)、磁盘或光盘等。
上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在上述计算机可读取的存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在存储介质中,包括若干指令用以使得一台或多台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。
在本申请的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的客户端,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
以上所述仅是本申请的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。

Claims (14)

1.一种音频降噪处理方法,其特征在于,包括:
获取待处理的目标音频信号,其中,所述目标音频信号中包含已被噪声信号干扰的待识别的目标语音信号;
对所述目标音频信号进行频域转换处理,得到与所述目标音频信号对应的带噪频域表征;
将所述带噪频域表征划分为N个带噪频段,并将所述N个带噪频段分别输入音频处理网络内对应的N个降噪支路中,得到N个支路掩码估计结果,其中,所述音频处理网络中第i个降噪支路处理第i个带噪频段以得到与所述第i个带噪频段对应的第i个支路掩码估计结果,所述N个降噪支路具有相同的信号处理结构,i为大于等于1且小于等于N的自然数,N为大于1的自然数;
利用所述带噪频域表征,对所述N个支路掩码估计结果进行调制处理,得到所述N个支路掩码的目标语音频域表征;
对所述N个支路掩码的目标语音频域表征进行时域转换处理,获取从所述目标音频信号中提取出的所述目标语音信号。
2.根据权利要求1所述的方法,其特征在于,所述将所述N个带噪频段分别输入音频处理网络内对应的N个降噪支路中,得到N个支路掩码估计结果包括:
在所述第i个降噪支路中对所述第i个带噪频段执行以下操作:
对所述第i个带噪频段进行特征维度变换,得到具有目标特征长度的第i个带噪特征向量;
对所述第i个带噪特征向量进行降噪处理,得到第i个降噪结果;
对所述第i个降噪结果进行特征维度反变换,得到与所述第i个带噪频段具有相同特征长度的第i个支路处理结果;
对所述第i个支路处理结果进行掩码估计运算,得到与所述第i个带噪频段匹配的所述第i个支路掩码估计结果。
3.根据权利要求2所述的方法,其特征在于,对所述第i个带噪特征向量进行降噪处理,得到第i个降噪结果包括:
通过基于流式卷积结构所构建的编码网络对所述第i个带噪特征向量进行编码处理,以得到第i个编码结果;
通过基于门控循环单元所构建的循环神经网络对所述第i个编码结果进行分析,得到携带有时序信息的第i个中间结果;
通过基于流式卷积结构所构建的解码网络对所述第i个中间结果进行解码处理,以得到所述第i个降噪结果,其中,所述解码网络中的子网络是基于对所述编码网络中的子网络的进行调整后得到的。
4.根据权利要求3所述的方法,其特征在于,
所述通过基于流式卷积结构所构建的编码网络对所述第i个带噪特征向量进行编码处理,以得到第i个编码结果包括:通过所述编码网络中具有连接关系的M个编码子网络对所述第i个带噪特征向量进行编码处理,得到所述第i个编码结果,其中,每个所述编码子网络中分别包括:卷积层、标准化层及激活层,在所述卷积层中对每一帧对应的所述带噪特征向量进行卷积处理时将参考相邻的前一帧对应的所述带噪特征向量,M为大于等于2的自然数;
所述通过基于流式卷积结构所构建的解码网络对所述第i个中间结果进行解码处理,以得到所述第i个降噪结果包括:通过所述解码网络中具有连接关系的M个解码子网络对所述第i个中间结果进行解码处理,得到所述第i个降噪结果,其中,每个所述解码子网络中分别包括:与所述卷积层关联的转置卷积层、标准化层及激活层,其中,第k个编码子网络与第M-(k-1)个解码子网络之间设置有跳连接,k为大于等于1且小于等于M的自然数。
5.根据权利要求4所述的方法,其特征在于,在所述通过所述解码网络中具有连接关系的M个解码子网络对所述第i个中间结果进行解码处理,得到所述第i个降噪结果时,还包括:
在所述第i个降噪支路并非首个降噪支路的情况下,对所述第i个降噪支路内所述编码网络中所述M个编码子网络各自对应的输出结果,及与第i-1个降噪支路关联的M个门控处理结果分别进行加权求和处理,得到M个解码参考结果,其中,第j个所述门控处理结果为所述第i-1个降噪支路内第j个编码子网络的输出结果通过所述音频处理网络内的第j个信息传递门控结构处理后得到的结果,每个所述信息传递门控结构内的卷积层中包括至少两个卷积结构,j为大于等于1且小于等于M的自然数;
将所述M个解码参考结果中的每个解码参考结果,分别输入所述第i个降噪支路内所述M个解码子网络中对应的解码子网络中。
6.根据权利要求1所述的方法,其特征在于,所述利用所述带噪频域表征,对所述N个支路掩码估计结果进行调制处理,得到所述N个支路掩码的目标语音频域表征包括:
对所述N个支路掩码估计结果进行拼接,得到拼接表达;
利用所述带噪频域表征对所述拼接表达进行调制处理,得到全带语音频域表征。
7.根据权利要求6所述的方法,其特征在于,所述对所述N个支路掩码的目标语音频域表征进行时域转换处理,获取从所述目标音频信号中提取出的所述目标语音信号包括:
对所述全带语音频域表征进行时域转换处理,得到所述目标语音信号的全带估计结果。
8.根据权利要求6所述的方法,其特征在于,在对所述N个支路掩码估计结果进行拼接,得到拼接表达之前,还包括:
利用所述第i个带噪频段对应的所述第i个支路掩码估计结果,对所述第i个带噪频段的带噪频域表征进行调制处理,得到第i个语音频域表征;
对所述第i个语音频域表征进行时域转换处理,得到所述目标语音信号的第i频段估计结果。
9.根据权利要求1所述的方法,其特征在于,对所述目标音频信号进行频域转换处理,得到与所述目标音频信号对应的带噪频域表征之前,还包括:
对所述目标音频信号按照目标采样率进行采样,得到采样后的音频数据;
对所述采样后的音频数据进行时域分帧处理,得到处理后的音频信号。
10.根据权利要求1至9中任一项所述的方法,其特征在于,在所述获取待处理的目标音频信号之前,还包括:
获取语音数据集和噪声数据集;
对所述语音数据集和所述噪声数据集进行混合,得到样本带噪音频信号;
利用所述样本带噪音频信号对初始化的所述音频处理网络进行训练,直至所述音频处理网络的损失函数达到收敛条件,其中,所述损失函数用于计算所述语音数据集中语音信号和训练中的所述音频处理网络从所述样本带噪音频信号中识别出的候选参考语音信号二者之间的差异。
11.一种音频降噪处理装置,其特征在于,包括:
获取单元,用于获取待处理的目标音频信号,其中,所述目标音频信号中包含已被噪声信号干扰的待识别的目标语音信号;
提取单元,用于对所述目标音频信号进行频域转换处理,得到与所述目标音频信号对应的带噪频域表征;
输入单元,用于将所述带噪频域表征划分为N个带噪频段,并将所述N个带噪频段分别输入音频处理网络内对应的N个降噪支路中,得到N个支路掩码估计结果,其中,所述音频处理网络中第i个降噪支路处理第i个带噪频段以得到与所述第i个带噪频段对应的第i个支路掩码估计结果,所述N个降噪支路具有相同的信号处理结构,i为大于等于1且小于等于N的自然数,N为大于1的自然数;
调制单元,用于利用所述带噪频域表征,对所述N个支路掩码估计结果进行调制处理,得到所述N个支路掩码的目标语音频域表征;
转换单元,用于对所述N个支路掩码的目标语音频域表征进行时域转换处理,获取从所述目标音频信号中提取出的所述目标语音信号。
12.一种计算机可读的存储介质,其特征在于,所述计算机可读的存储介质包括存储的程序,其中,所述程序被处理器运行时执行所述权利要求1至10任一项中所述的方法。
13.一种计算机程序产品,包括计算机程序/指令,其特征在于,该计算机程序/指令被处理器执行时实现权利要求1至10任一项所述方法的步骤。
14.一种电子设备,包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,所述处理器被设置为通过所述计算机程序执行所述权利要求1至10任一项中所述的方法。
CN202311112850.6A 2023-08-30 2023-08-30 音频降噪处理方法和装置、存储介质及电子设备 Pending CN116959476A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311112850.6A CN116959476A (zh) 2023-08-30 2023-08-30 音频降噪处理方法和装置、存储介质及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311112850.6A CN116959476A (zh) 2023-08-30 2023-08-30 音频降噪处理方法和装置、存储介质及电子设备

Publications (1)

Publication Number Publication Date
CN116959476A true CN116959476A (zh) 2023-10-27

Family

ID=88458527

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311112850.6A Pending CN116959476A (zh) 2023-08-30 2023-08-30 音频降噪处理方法和装置、存储介质及电子设备

Country Status (1)

Country Link
CN (1) CN116959476A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117174105A (zh) * 2023-11-03 2023-12-05 深圳市龙芯威半导体科技有限公司 一种基于改进型深度卷积网络的语音降噪与去混响方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117174105A (zh) * 2023-11-03 2023-12-05 深圳市龙芯威半导体科技有限公司 一种基于改进型深度卷积网络的语音降噪与去混响方法

Similar Documents

Publication Publication Date Title
CN110415686B (zh) 语音处理方法、装置、介质、电子设备
CN112820315B (zh) 音频信号处理方法、装置、计算机设备及存储介质
CN116959476A (zh) 音频降噪处理方法和装置、存储介质及电子设备
CN113345460B (zh) 音频信号处理方法、装置、设备及存储介质
JP2023548707A (ja) 音声強調方法、装置、機器及びコンピュータプログラム
CN111508519A (zh) 一种音频信号人声增强的方法及装置
CN113707167A (zh) 残留回声抑制模型的训练方法和训练装置
CN117174105A (zh) 一种基于改进型深度卷积网络的语音降噪与去混响方法
CN112289343A (zh) 音频修复方法、装置及电子设备和计算机可读存储介质
CN116013344A (zh) 一种多种噪声环境下的语音增强方法
CN114783459A (zh) 一种语音分离方法、装置、电子设备和存储介质
CN117351983B (zh) 一种基于Transformer的语音降噪方法及***
Zhou et al. A new online Bayesian NMF based quasi-clean speech reconstruction for non-intrusive voice quality evaluation
CN114333893A (zh) 一种语音处理方法、装置、电子设备和可读介质
Raj et al. Multilayered convolutional neural network-based auto-CODEC for audio signal denoising using mel-frequency cepstral coefficients
CN116959469A (zh) 语音增强模型的训练方法、装置、电子设备和存储介质
CN114974281A (zh) 语音降噪模型的训练方法、装置、存储介质及电子装置
CN115295002A (zh) 一种基于交互性时频注意力机制的单通道语音增强方法
CN116129927A (zh) 一种语音处理方法、装置及计算机可读存储介质
CN115113855A (zh) 音频数据处理方法、装置、电子设备和存储介质
CN114333892A (zh) 一种语音处理方法、装置、电子设备和可读介质
CN114333891A (zh) 一种语音处理方法、装置、电子设备和可读介质
CN115881157A (zh) 音频信号的处理方法及相关设备
Skariah et al. Review of speech enhancement methods using generative adversarial networks
CN112750469A (zh) 语音中检测音乐的方法、语音通信优化方法及对应的装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication