CN118197343A - 车载音频信号的降噪方法、***、电子设备及介质 - Google Patents

车载音频信号的降噪方法、***、电子设备及介质 Download PDF

Info

Publication number
CN118197343A
CN118197343A CN202410360269.4A CN202410360269A CN118197343A CN 118197343 A CN118197343 A CN 118197343A CN 202410360269 A CN202410360269 A CN 202410360269A CN 118197343 A CN118197343 A CN 118197343A
Authority
CN
China
Prior art keywords
audio
noise reduction
noise
spectrum
frequency
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202410360269.4A
Other languages
English (en)
Inventor
李响
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dalian Thundersoft Co ltd
Original Assignee
Dalian Thundersoft Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dalian Thundersoft Co ltd filed Critical Dalian Thundersoft Co ltd
Priority to CN202410360269.4A priority Critical patent/CN118197343A/zh
Publication of CN118197343A publication Critical patent/CN118197343A/zh
Pending legal-status Critical Current

Links

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Circuit For Audible Band Transducer (AREA)

Abstract

本申请公开了一种车载音频信号的降噪方法、***、电子设备及介质,该方法包括:对待处理音频进行快速傅里叶变换,得到其对应的原始频谱特征;将所述原始频谱特征输入至预先训练完成的音频降噪模型中,以使所述音频降噪模型输出所述原始频谱特征对应的降噪频谱特征;对所述降噪频谱特征进行逆快速傅里叶变换,得到所述降噪频谱特征对应的时域信号;根据所述降噪频谱特征对应的时域信号进行语音识别,得到对应的文字信息;根据所述文字信息进行语音合成,得到目标输出音频。本申请实施例的技术方案可以实现与硬件设备之间解耦,并保证在不同噪音环境中的降噪效果。

Description

车载音频信号的降噪方法、***、电子设备及介质
技术领域
本申请涉及数据处理技术领域,尤其涉及一种车载音频信号的降噪方法、***、电子设备及介质。
背景技术
随着车载通信工具/娱乐的飞速发展,车载耳机、车载音响等车载音频设备已成为汽车座舱中必不可少的工具。由于受到音频发送端所在环境的干扰(风声、轮胎摩擦声、轰鸣声、汽笛声、刹车声和马达声等),造成原音频在传输过程中融合了各种噪音,从而使得这些车载音频设备获取的音频具有刺耳等非舒适感,原音频内容的辨析也受到了极大影响。在目前的技术方案中,降噪算法要么强依赖音频设备的硬件架构,要么是基于先验知识进行降噪,只能适配某些特定场景且有失真。因此,如何实现与硬件设备之间解耦,并保证在不同噪音环境中的降噪效果成为了亟待解决的技术问题。
发明内容
有鉴于此,本申请提供一种车载音频信号的降噪方法、***、电子设备及介质,以实现与硬件设备之间解耦,并保证在不同噪音环境中的降噪效果。
根据本申请的一个方面,提供了一种车载音频信号的降噪方法,所述方法包括:
对待处理音频进行快速傅里叶变换,得到其对应的原始频谱特征;
将所述原始频谱特征输入至预先训练完成的音频降噪模型中,以使所述音频降噪模型输出所述原始频谱特征对应的降噪频谱特征;
对所述降噪频谱特征进行逆快速傅里叶变换,得到所述降噪频谱特征对应的时域信号;
根据所述降噪频谱特征对应的时域信号进行语音识别,得到对应的文字信息;
根据所述文字信息进行语音合成,得到目标输出音频。
在本申请的一个实施例中,根据所述降噪频谱特征对应的时域信号进行语音识别,得到对应的文字信息,包括:
采用语音识别模型对所述降噪频谱特征对应的时域信号进行语音识别,得到初始文字信息;
对所述初始文字信息进行文字解析并修正,得到目标文字信息。
在本申请的一个实施例中,根据所述降噪频谱特征对应的时域信号进行语音识别,得到对应的文字信息,包括:
在检测到接收到针对音频信号的辅助降噪请求的情况下,根据所述降噪频谱特征对应的时域信号进行语音识别,得到对应的文字信息以供进行语音合成;
在检测到没有接收到针对音频信号的辅助降噪请求的情况下,根据所述降噪频谱特征对应的时域信号进行音频输出。
在本申请的一个实施例中,在将所述原始频谱特征输入至预先训练完成的音频降噪模型中,以使所述音频降噪模型输出所述原始频谱特征对应的降噪频谱特征之前,所述方法还包括:
从噪声库中获取一噪声音频,以及从无噪音频库中获取一无噪音频;
将获取到的所述噪声音频和所述无噪音频按照预先设定的信噪比进行音频合成,得到带噪音频;
分别对所述带噪音频和所述无噪音频进行频谱特征提取,得到所述带噪音频对应的带噪频谱特征以及所述无噪音频对应的原始无噪频谱特征;
根据所述带噪频谱特征和所述原始无噪频谱特征,对预先构建的音频降噪模型进行模型训练,得到目标音频降噪模型。
在本申请的一个实施例中,所述音频降噪模型包括噪音学习器和残差网络;
根据所述带噪频谱特征和所述原始无噪频谱特征,对预先构建的音频降噪模型进行模型训练,包括:
将所述带噪频谱特征输入至所述噪音学习器中,以使所述噪音学习器基于注意力机制学习并输出所述带噪频谱特征中的无噪音频特征;
将所述无噪音频特征和所述带噪频谱特征输入至所述残差网络中以对所述带噪频谱特征进行频谱特征修正;
根据所述原始无噪频谱特征和频谱特征修正后的所述带噪频谱特征,通过计算损失函数以进行模型优化。
在本申请的一个实施例中,根据以下公式计算损失函数:
Loss=αLossRSD+βLossSNR
其中,LossRSD为相关谱损失,计算公式如下:
其中,Y为原始无噪频谱特征,F为频谱特征修正后的带噪频谱特征;
LossSNR为频谱特征修正后的带噪频谱特征经过逆快速傅里叶变换后的时域信号与所述无噪音频之间的均方误差;α和β均为系数,且α+β=1。
在本申请的一个实施例中,在将获取到的所述噪声音频和所述干净音频按照预先设定的信噪比进行音频合成,得到带噪音频之前,所述方法还包括:
从预先构建的信噪比集合中选取一信噪比,所述信噪比集合与实际应用环境相对应。
根据本申请的一个方面,提供了一种车载音频信号的降噪装置,包括:
第一变换模块,用于对待处理音频进行快速傅里叶变换,得到其对应的原始频谱特征;
降噪模块,用于将所述原始频谱特征输入至预先训练完成的音频降噪模型中,以使所述音频降噪模型输出所述原始频谱特征对应的降噪频谱特征;
第二变换模块,用于对所述降噪频谱特征进行逆快速傅里叶变换,得到所述降噪频谱特征对应的时域信号;
语音识别模块,用于根据所述降噪频谱特征对应的时域信号进行语音识别,得到对应的文字信息;
语音合成模块,用于根据所述文字信息进行语音合成,得到目标输出音频。
根据本申请的一个方面,提供了一种电子设备,包括处理器和存储器;
所述处理器通过调用所述存储器存储的程序或指令,用于执行如上所述方法的步骤。
根据本申请的一个方面,提供了一种非瞬时性计算机可读存储介质,所述非瞬时性计算机可读存储介质存储程序或指令,所述程序或指令使计算机执行如上所述方法的步骤。
在本申请的一些实施例所提供的技术方案中,通过对待处理音频进行快速傅里叶变换,得到对应的原始频谱特征,将该原始频谱特征输入至预先训练完成的音频降噪模型中,以使该音频降噪模型输出原始频谱特征对应的降噪频谱特征,接着,对降噪频谱特征进行逆快速傅里叶变换,得到对应的时域信号,根据该时域信号进行语音识别,得到对应的文字信息,并根据文字信息进行语音合成,得到目标输出音频,由此,通过采用音频降噪模型对待处理音频进行初步降噪,接着利用跨模态技术,即通过语音识别和合成,得到高质音频,降低了对硬件设备的依赖性,同时也保证了在不同噪音环境下的降噪效果。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1示出了根据本申请的一个实施例的车载音频信号的降噪方法的流程示意图。
具体实施方式
下面结合附图对本申请实施例进行详细描述。
需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合;并且,基于本公开中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本公开保护的范围。
需要说明的是,下文描述在所附权利要求书的范围内的实施例的各种方面。应显而易见,本文中所描述的方面可体现于广泛多种形式中,且本文中所描述的任何特定结构及/或功能仅为说明性的。基于本公开,所属领域的技术人员应了解,本文中所描述的一个方面可与任何其它方面独立地实施,且可以各种方式组合这些方面中的两者或两者以上。举例来说,可使用本文中所阐述的任何数目个方面来实施设备及/或实践方法。另外,可使用除了本文中所阐述的方面中的一或多者之外的其它结构及/或功能性实施此设备及/或实践此方法。
图1示出了根据本申请的一个实施例的车载音频信号的降噪方法的流程示意图。该方法可以应用于终端设备,该终端设备可以包括但不限于智能手机、平板电脑、便携式电脑、车载多媒体、音响、耳机、对讲机等具有音频采集或者音频输出功能的电子设备。在其他实施例中,该音频信号的降噪方法也可以应用于服务器中,例如物理服务器或者云服务器。
如图1所示,该车载音频信号的降噪方法至少包括步骤S110至步骤S150,详细介绍如下(以下以该方法应用于终端设备为例进行说明,下简称终端):
在步骤S110中,对待处理音频进行快速傅里叶变换,得到其对应的原始频谱特征。
其中,待处理音频可以是待输出或者待传输的音频信号。以车载音频设备为例,当车载音频设备作为音频采集设备(即音频发送端)时,车载音频设备可以在采集到音频信号后,对其执行本申请所提供的音频信号的降噪方法,并将得到的目标输出音频向音频接收端(例如智能手机等)进行发送。
而当车载音频设备作为音频输出设备(即音频接收端)时,车载音频设备可以对接收到由音频发送端发送的音频信号执行本申请所提供的音频信号的降噪方法,并将得到的目标输出音频进行播放。
在该实施例中,当终端采集或者接收到待处理音频后,其可以对其进行快速傅里叶变换,从而将时域信号转换为频谱信号,以得到对应的频谱特征。
在步骤S120中,将所述原始频谱特征输入至预先训练完成的音频降噪模型中,以使所述音频降噪模型输出所述原始频谱特征对应的降噪频谱特征。
其中,音频降噪模型可以是由本领域技术人员预先构建并训练完成的深度学习模型,该音频降噪模型用以识别出待处理音频的原始频谱特征中的噪音特征并对其进行降噪。
在该实施例中,终端可以从自身的存储空间中获取已经训练完成的音频降噪模型,并将原始频谱特征作为预先训练完成的音频降噪模型的输入,以使音频降噪模型输出原始频谱特征对应的降噪频谱特征。
在步骤S130中,对所述降噪频谱特征进行逆快速傅里叶变换,得到所述降噪频谱特征对应的时域信号。
在该实施例中,当由音频降噪模型得到降噪频谱特征后,终端可以对其进行逆快速傅里叶变换,从而将频谱信号转换为时域信号。应该理解的,通过音频降噪模型的处理,可以对待处理音频进行一定程度上的降噪,而基于降噪频谱特征转换得到的时域信号已经可以作为输出音频进行传输或者播放。
在步骤S140中,根据所述降噪频谱特征对应的时域信号进行语音识别,得到对应的文字信息。
在该实施例中,为保证音频播放时的语音清晰程度,终端可以采用语音识别技术对降噪频谱特征对应的时域信号进行语音识别,从而将音频信号转换为对应文字信息以备后续处理。在一示例中,终端可以将降噪频谱特征对应的时域信号输入至语音识别模型中,以使该语音识别模型输出对应的文字信息。其中,该语音识别模型可以包括但不限于PaddleSpeech、Whisper和DeepSpeech中的一种或者多种,需要说明的是,本领域技术人员可以根据实际实现需要,选择对应的语音识别模型,本申请对此不作特殊限定。
由此,通过上述方式,保留了待处理音频中所携带的有用信息,可以避免出现信息缺失的情况。
在步骤S150中,根据所述文字信息进行语音合成,得到目标输出音频。
在该实施例中,终端可以通过语音合成技术,将文字信息转化为对应的语音,以得到高音质的目标输出音频。在得到目标输出音频后,终端可以将其进行播放或者向音频接收端进行传输。
在一示例中,终端可以通过学习待处理音频中人物的音色,并在语音合成时对该音色进行应用,以相同音色得到目标输出音频,保证了目标输出音频的播放效果,提升用户体验。
基于图1所示的实施例,通过对待处理音频进行快速傅里叶变换,得到对应的原始频谱特征,将该原始频谱特征输入至预先训练完成的音频降噪模型中,以使该音频降噪模型输出原始频谱特征对应的降噪频谱特征,接着,对降噪频谱特征进行逆快速傅里叶变换,得到对应的时域信号,根据该时域信号进行语音识别,得到对应的文字信息,并根据文字信息进行语音合成,得到目标输出音频。
由此,通过采用音频降噪模型对待处理音频进行初步降噪,接着利用跨模态技术,即通过语音识别和合成,得到高质音频,降低了对硬件设备的依赖性,同时也保证了在不同噪音环境下的降噪效果。
在本申请的一个实施例中,根据所述降噪频谱特征对应的时域信号进行语音识别,得到对应的文字信息,包括:
采用语音识别模型对所述降噪频谱特征对应的时域信号进行语音识别,得到初始文字信息;
对所述初始文字信息进行文字解析并修正,得到目标文字信息。
在该实施例中,由于降噪频谱特征对应的时域信号中可能还带有一定的模糊语音,容易导致在进行语音识别时出现个别文字遗漏或者识别错误的情况。为此,当对降噪频谱特征对应的时域信号进行语音识别得到初始文字信息之后,可以对该初始文字信息进行文字解析并修正,尽可能地还原原音频表达内容,得到目标文字信息。
在一示例中,可以采用大语言模型(Large Language Model,LLM)对初始文字信息进行文字解析和修正,从而对初始文字信息的内容进行修正。该大语言模型是一种人工智能模型,可以理解和生成人类语言,其通过在大量的文本数据上进行训练,可以执行广泛的任务,包括文本总结、翻译、情感分析等等。由此,通过调用大语言模型对初始文字信息进行解析和修正,可以保证修正效果,极大程度还原原音频的表达内容。
需要说明的是,本领域技术人员也可以采用其他语言处理模型对初始文字信息进行解析和修正,本申请对此不作特殊限定。
在本申请的一个实施例中,根据所述降噪频谱特征对应的时域信号进行语音识别,得到对应的文字信息,包括:
在检测到接收到针对音频信号的辅助降噪请求的情况下,根据所述降噪频谱特征对应的时域信号进行语音识别,得到对应的文字信息以供进行语音合成;
在检测到没有接收到针对音频信号的辅助降噪请求的情况下,根据所述降噪频谱特征对应的时域信号进行音频输出。
在该实施例中,针对音频信号的辅助降噪请求可以是用以请求开启辅助降噪功能的信息,用户可以根据实际场景或者自身需求决定是否开启辅助降噪功能。在一示例中,当需要开启辅助功能时,用户可以通过点击终端的显示界面上某一特定区域(例如“开启辅助降噪”按钮等),以生成针对音频信号的辅助降噪请求。
终端在执行本申请提供的音频信号的降噪方法时,当得到降噪频谱特征对应的时域信号后,终端可以检测是否接收到该辅助降噪请求,即确定用户是否选择开启辅助降噪功能。当确定用户选择开启该功能时,即检测到接收到针对音频信号的辅助降噪请求,终端可以对降噪频谱特征对应的时域信号进行语音识别,得到对应的文字信息以供后续进行语音合成。若确定用户未选择开启该功能时,即检测到没有接收到针对音频信号的辅助降噪请求,终端则可以直接根据降噪频谱特征对应的时域信号进行音频输出,即进行音频播放或者音频传输。
由此,通过上述实施例,用户可以自主选择是否开启辅助降噪功能,以适应不同应用场景和需求,同时也可以节省一定的计算资源。
在本申请的一个实施例中,在将所述原始频谱特征输入至预先训练完成的音频降噪模型中,以使所述音频降噪模型输出所述原始频谱特征对应的降噪频谱特征之前,上述音频信号的降噪方法还包括:
从噪声库中获取一噪声音频,以及从无噪音频库中获取一无噪音频;
将获取到的所述噪声音频和所述无噪音频按照预先设定的信噪比进行音频合成,得到带噪音频;
分别对所述带噪音频和所述无噪音频进行频谱特征提取,得到所述带噪音频对应的带噪频谱特征以及所述无噪音频对应的原始无噪频谱特征;
根据所述带噪频谱特征和所述原始无噪频谱特征,对预先构建的音频降噪模型进行模型训练,得到目标音频降噪模型。
在该实施例中,本领域技术人员可以预先构建噪声库和无噪音频库,其中,该噪声库中所包含的噪声音频可以与实际应用场景相对应,例如在车载音频设备这一应用场景中,噪声库中包含的噪声音频可以是风声、轮胎摩擦声、轰鸣声、汽车鸣笛声、刹车声或者发动机声等等。应该理解的,噪声库中可以包含不同种类的噪音音频,以保证后续训练的有效性。
无噪音频库中可以包含预先录制且未带有噪音的音频信息即无噪音频。在对音频降噪模型进行训练时,终端可以从噪声库和无噪音频库中依次或者随机选择并获取噪声音频和无噪音频,并将获取到的噪声音频和无噪音频按照预先设定的信噪比进行音频合成,得到带噪音频。需要说明的是,在进行音频合成时,同一无噪音频可以同时与一个或多个噪声音频进行音频合成,以模拟更真实的应用场景。
在得到带噪音频之后,可以对带噪音频和对应的无噪音频进行频谱特征提取,得到带噪音频对应的带噪频谱特征和无噪音频对应的原始无噪频谱特征。
具体地,假设带噪音频x∈R1×M,M为采样点个数,对带噪音频x进行音频分帧,帧长为W(W=2j,j为大于7的正整数),帧移为S,一共分为N帧。分帧后的时域信号经过快速傅里叶变换后,一共有W个频点,由于频点具有对称共轭性,可取1+W/2个频点,记为S;
同理,假设带噪音频对应的无噪音频y∈R1×M,M为采样点个数。对其进行音频分帧,帧长为W(W=2j,j为大于7的正整数),帧移为S,一共分为N帧。分帧后的时域信号经过快速傅里叶变换后,一共有W个频点,由于频点具有对称共轭性,可取1+W/2个频点,记为S。
在对带噪音频x进行快速傅里叶变换后,将时域信号转换为频谱信号,得到相应的带噪频谱特征,其带噪频谱特征为复数域表达X=Xr+iXi,实部为Xr∈RS×N,虚部为Xi∈RS×N,其中,N表示带噪音频或带噪音频对应的无噪音频的总帧数,S表示每帧可取的频点数,可计算对应幅度对应相位α=arctan(Xi/Xr),其中,|X|为频域的幅值特征,α为频域的相位特征,arctan为反正切函数;
同理,对带噪音频x对应的无噪音频进行快速傅里叶变换,将时域信号转换为频谱信号,得到相应的原始无噪频谱特征,其原始无噪频谱特征为复数域表达Y=Yr+iYi,实部为Yr∈RS×N,虚部为Yi∈RS×N,可计算对应幅度对应相位α=arctan(Yi/Yr),其中,|Y|为频域的幅值特征,α为频域的相位特征,arctan为反正切函数。
接着,根据该带噪频谱特征和原始无噪频谱特征,对预先构建的音频降噪模型进行模型训练,从而得到训练完成后的目标音频降噪模型。在模型训练过程中,音频降噪模型可以通过比较带噪频谱特征和原始无噪频谱特征,从而区分并学习带噪频谱特征中的噪音特征和无噪音频特征,进而实现对带噪频谱特征进行降噪,输出带噪频谱特征中的无噪音频特征。再根据无噪音频特征与原始无噪频谱特征之间的误差构建损失函数,根据损失函数对音频降噪模型进行调优,得到目标音频降噪模型。
应该理解的,为保证目标音频降噪模型的降噪效果,可以对目标音频降噪模型进行多次训练直至达到一定训练次数或者损失函数小于一定阈值。
在本申请的一个实施例中,所述音频降噪模型包括噪音学习器和残差网络;
根据所述带噪频谱特征和所述原始无噪频谱特征,对预先构建的音频降噪模型进行模型训练,包括:
将所述带噪频谱特征输入至所述噪音学习器中,以使所述噪音学习器基于注意力机制学习并输出所述带噪频谱特征中的无噪音频特征;
将所述无噪音频特征和所述带噪频谱特征输入至所述残差网络中以对所述带噪频谱特征进行频谱特征修正;
根据所述原始无噪频谱特征和频谱特征修正后的所述带噪频谱特征,通过计算损失函数以进行模型优化。
在该实施例中,预先构建的音频降噪模型至少包括噪音学习器和残差网络,该噪音学习器可以解析输入的带噪频谱特征,并且利用注意力机制区分带噪频谱特征中的噪音特征和无噪音频特征。
具体地,在进行模型训练时,预先设立辅助矩阵Q和辅助矩阵K,其中,Q∈RS×C,K∈RS×C,其中,S表示每帧可取的频点数,C为辅助矩阵Q和K的列数,即二者的列数相同。噪音学习器可设为矩阵P,P∈RS×S,其中,KT表示矩阵K的转置矩阵。将带噪频谱特征的Xr和Xi输入到噪音学习器中,计算E=PXr+iPXi,其中,E∈RS×C。在频谱特征矩阵Xr和Xi中,将二者分别与矩阵P相乘,P中元素值越靠近0,表明Xr和Xi中对应元素是噪声特征成分的可能性越大,越靠近1则表明Xr和Xi中对应元素是无噪特征成分的可能性越大,由此,通过计算E=PXr+iPXi可以弱化频谱矩阵中的噪声特征,得到去噪后的频谱特征即无噪音频特征。
接着,采用残差网络对带噪频谱特征进行频谱特征修正,得到频谱特征修正后的带噪频谱特征。具体频谱特征修正公式如下所示:
F=D(X)+X
其中,D(X)=E。
即该残差网络可以将得到的无噪音频特征叠加到带噪频谱特征中,此时,带噪频谱特征中的无噪音频特征会凸显,其余噪声频谱特征会弱化,从而有利于音频的降噪保真。
然后,根据无噪音频对应的原始无噪频谱特征以及频谱特征修正后的带噪频谱特征之间的误差,构建并计算损失函数以对音频降噪模型进行模型优化。
在一实施例中,可以根据以下公式计算损失函数:
Loss=αLossRSD+βLossSNR
其中,LossRSD为相关谱损失,计算公式如下:
其中,Y为原始无噪频谱特征,F为频谱特征修正后的带噪频谱特征;
LossSNR为频谱特征修正后的带噪频谱特征经过逆快速傅里叶变换后的时域信号与无噪音频之间的均方误差;α和β均为系数,且α+β=1。
由此,基于上述损失函数对上述神经网络进行迭代训练,从而得到降噪效果最佳的目标音频降噪模型。其中,该神经网络包含噪音学习器及相应辅助矩阵Q与K以及残差网络。该神经网络的输入为经过快速傅里叶变换后的频谱特征,输出为降噪频谱特征。
在本申请的一个实施例中,在将获取到的所述噪声音频和所述干净音频按照预先设定的信噪比进行音频合成,得到带噪音频之前,所述方法还包括:
从预先构建的信噪比集合中选取一信噪比,所述信噪比集合与实际应用环境相对应。
在该实施例中,本领域技术人员可以根据上述音频信号的降噪方法的实际应用环境,根据可能的信噪比预先构建信噪比集合,当需要音频合成时,可以从该信噪比集合中依次选取或随机选取一信噪比以指导音频合成。
需要说明的是,根据实际应用环境的不同,本领域技术人员也可以预先构建多个信噪比集合,从而可以根据实际应用环境,选择相适配的信噪比集合进行选取,保证了信噪比确定的合理性,进而提高了后续音频降噪模型的训练效果。
以下介绍本申请的装置实施例,可以用于执行本申请上述实施例中的音频信号的降噪方法。对于本申请***实施例中未披露的细节,请参照本申请上述的车载音频信号的降噪方法的实施例。
在本申请的一个实施例中提供了一种车载音频信号的降噪装置,该装置包括:
第一变换模块,用于对待处理音频进行快速傅里叶变换,得到其对应的原始频谱特征;
降噪模块,用于将所述原始频谱特征输入至预先训练完成的音频降噪模型中,以使所述音频降噪模型输出所述原始频谱特征对应的降噪频谱特征;
第二变换模块,用于对所述降噪频谱特征进行逆快速傅里叶变换,得到所述降噪频谱特征对应的时域信号;
语音识别模块,用于根据所述降噪频谱特征对应的时域信号进行语音识别,得到对应的文字信息;
语音合成模块,用于根据所述文字信息进行语音合成,得到目标输出音频。
由此,通过对待处理音频进行快速傅里叶变换,得到对应的原始频谱特征,将该原始频谱特征输入至预先训练完成的音频降噪模型中,以使该音频降噪模型输出原始频谱特征对应的降噪频谱特征,接着,对降噪频谱特征进行逆快速傅里叶变换,得到对应的时域信号,根据该时域信号进行语音识别,得到对应的文字信息,并根据文字信息进行语音合成,得到目标输出音频,由此,通过采用音频降噪模型对待处理音频进行初步降噪,接着利用跨模态技术,即通过语音识别和合成,得到高质音频,降低了对硬件设备的依赖性,同时也保证了在不同噪音环境下的降噪效果。
在本申请的一个实施例中,根据所述降噪频谱特征对应的时域信号进行语音识别,得到对应的文字信息,包括:
采用语音识别模型对所述降噪频谱特征对应的时域信号进行语音识别,得到初始文字信息;
对所述初始文字信息进行文字解析并修正,得到目标文字信息。
在本申请的一个实施例中,根据所述降噪频谱特征对应的时域信号进行语音识别,得到对应的文字信息,包括:
在检测到接收到针对音频信号的辅助降噪请求的情况下,根据所述降噪频谱特征对应的时域信号进行语音识别,得到对应的文字信息以供进行语音合成;
在检测到没有接收到针对音频信号的辅助降噪请求的情况下,根据所述降噪频谱特征对应的时域信号进行音频输出。
在本申请的一个实施例中,在将所述原始频谱特征输入至预先训练完成的音频降噪模型中,以使所述音频降噪模型输出所述原始频谱特征对应的降噪频谱特征之前,所述降噪模块还用于:
从噪声库中获取一噪声音频,以及从无噪音频库中获取一无噪音频;
将获取到的所述噪声音频和所述无噪音频按照预先设定的信噪比进行音频合成,得到带噪音频;
分别对所述带噪音频和所述无噪音频进行频谱特征提取,得到所述带噪音频对应的带噪频谱特征以及所述无噪音频对应的原始无噪频谱特征;
根据所述带噪频谱特征和所述原始无噪频谱特征,对预先构建的音频降噪模型进行模型训练,得到目标音频降噪模型。
在本申请的一个实施例中,所述音频降噪模型包括噪音学习器和残差网络;
根据所述带噪频谱特征和所述原始无噪频谱特征,对预先构建的音频降噪模型进行模型训练,包括:
将所述带噪频谱特征输入至所述噪音学习器中,以使所述噪音学习器基于注意力机制学习并输出所述带噪频谱特征中的无噪音频特征;
将所述无噪音频特征和所述带噪频谱特征输入至所述残差网络中以对所述带噪频谱特征进行频谱特征修正;
根据所述原始无噪频谱特征和频谱特征修正后的所述带噪频谱特征,通过计算损失函数以进行模型优化。
在本申请的一个实施例中,根据以下公式计算损失函数:
Loss=αLossRSD+βLossSNR
其中,LossRSD为相关谱损失,计算公式如下:
其中,Y为原始无噪频谱特征,F为频谱特征修正后的带噪频谱特征;
LossSNR为频谱特征修正后的带噪频谱特征经过逆快速傅里叶变换后的时域信号与所述无噪音频之间的均方误差;α和β均为系数,且α+β=1。
在本申请的一个实施例中,在将获取到的所述噪声音频和所述干净音频按照预先设定的信噪比进行音频合成,得到带噪音频之前,所述降噪模块还用于:
从预先构建的信噪比集合中选取一信噪比,所述信噪比集合与实际应用环境相对应。
此外,尽管在附图中以特定顺序描述了本公开中方法的各个步骤,但是,这并非要求或者暗示必须按照该特定顺序来执行这些步骤,或是必须执行全部所示的步骤才能实现期望的结果。附加的或备选的,可以省略某些步骤,将多个步骤合并为一个步骤执行,以及/或者将一个步骤分解为多个步骤执行等。
通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本公开实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、移动终端、或者网络设备等)执行根据本公开实施方式的方法。
在本公开的示例性实施例中,还提供了一种能够实现上述方法的电子设备。
所属技术领域的技术人员能够理解,本申请的各个方面可以实现为***、方法或程序产品。因此,本申请的各个方面可以具体实现为以下形式,即:完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等),或硬件和软件方面结合的实施方式,这里可以统称为“电路”、“模块”或“***”。
根据本申请的这种实施方式的电子设备。电子设备仅仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
电子设备以通用计算设备的形式表现。电子设备的组件可以包括但不限于:上述至少一个处理器、上述至少一个储存器、连接不同***组件(包括储存器和处理器)的总线。
其中,所述储存器存储有程序代码,所述程序代码可以被所述处理器执行,使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本申请各种示例性实施方式的步骤。
储存器可以包括易失性储存器形式的可读介质,例如随机存取储存器(RAM)和/或高速缓存储存器,还可以进一步包括只读储存器(ROM)。
储存器还可以包括具有一组(至少一个)程序模块的程序/实用工具,这样的程序模块包括但不限于:操作***、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
总线可以为表示几类总线结构中的一种或多种,包括储存器总线或者储存器控制器、***总线、图形加速端口、处理器或者使用多种总线结构中的任意总线结构的局域总线。
电子设备也可以与一个或多个外部设备(例如键盘、指向设备、蓝牙设备等)通信,还可与一个或者多个使得用户能与该电子设备交互的设备通信,和/或与使得该电子设备能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口进行。并且,电子设备还可以通过网络适配器与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。网络适配器通过总线与电子设备的其它模块通信。应当明白,尽管图中未示出,可以结合电子设备使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、RAID***、磁带驱动器以及数据备份存储***等。
通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本公开实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、终端装置、或者网络设备等)执行根据本公开实施方式的方法。
在本公开的示例性实施例中,还提供了一种计算机可读存储介质,其上存储有能够实现本说明书上述方法的程序产品。在一些可能的实施方式中,本申请的各个方面还可以实现为一种程序产品的形式,其包括程序代码,当所述程序产品在终端设备上运行时,所述程序代码用于使所述终端设备执行本说明书上述“示例性方法”部分中描述的根据本申请各种示例性实施方式的步骤。
所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的***、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行***、装置或者器件使用或者与其结合使用的程序。
可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、有线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言的任意组合来编写用于执行本申请操作的程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(LAN)或广域网(WAN),连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
此外,上述附图仅是根据本申请示例性实施例的方法所包括的处理的示意性说明,而不是限制目的。易于理解,上述附图所示的处理并不表明或限制这些处理的时间顺序。另外,也易于理解,这些处理可以是例如在多个模块中同步或异步执行的。
应当注意,尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元,但是这种划分并非强制性的。实际上,根据本公开的实施方式,上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之,上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。

Claims (10)

1.一种车载音频信号的降噪方法,其特征在于,所述方法包括:
对待处理音频进行快速傅里叶变换,得到其对应的原始频谱特征;
将所述原始频谱特征输入至预先训练完成的音频降噪模型中,以使所述音频降噪模型输出所述原始频谱特征对应的降噪频谱特征;
对所述降噪频谱特征进行逆快速傅里叶变换,得到所述降噪频谱特征对应的时域信号;
根据所述降噪频谱特征对应的时域信号进行语音识别,得到对应的文字信息;
根据所述文字信息进行语音合成,得到目标输出音频。
2.根据权利要求1所述的方法,其特征在于,根据所述降噪频谱特征对应的时域信号进行语音识别,得到对应的文字信息,包括:
采用语音识别模型对所述降噪频谱特征对应的时域信号进行语音识别,得到初始文字信息;
对所述初始文字信息进行文字解析并修正,得到目标文字信息。
3.根据权利要求1所述的方法,其特征在于,根据所述降噪频谱特征对应的时域信号进行语音识别,得到对应的文字信息,包括:
在检测到接收到针对音频信号的辅助降噪请求的情况下,根据所述降噪频谱特征对应的时域信号进行语音识别,得到对应的文字信息以供进行语音合成;
在检测到没有接收到针对音频信号的辅助降噪请求的情况下,根据所述降噪频谱特征对应的时域信号进行音频输出。
4.根据权利要求1-3任一项所述的方法,其特征在于,在将所述原始频谱特征输入至预先训练完成的音频降噪模型中,以使所述音频降噪模型输出所述原始频谱特征对应的降噪频谱特征之前,所述方法还包括:
从噪声库中获取一噪声音频,以及从无噪音频库中获取一无噪音频;
将获取到的所述噪声音频和所述无噪音频按照预先设定的信噪比进行音频合成,得到带噪音频;
分别对所述带噪音频和所述无噪音频进行频谱特征提取,得到所述带噪音频对应的带噪频谱特征以及所述无噪音频对应的原始无噪频谱特征;
根据所述带噪频谱特征和所述原始无噪频谱特征,对预先构建的音频降噪模型进行模型训练,得到目标音频降噪模型。
5.根据权利要求4所述的方法,其特征在于,所述音频降噪模型包括噪音学习器和残差网络;
根据所述带噪频谱特征和所述原始无噪频谱特征,对预先构建的音频降噪模型进行模型训练,包括:
将所述带噪频谱特征输入至所述噪音学习器中,以使所述噪音学习器基于注意力机制学习并输出所述带噪频谱特征中的无噪音频特征;
将所述无噪音频特征和所述带噪频谱特征输入至所述残差网络中以对所述带噪频谱特征进行频谱特征修正;
根据所述原始无噪频谱特征和频谱特征修正后的所述带噪频谱特征,通过计算损失函数以进行模型优化。
6.根据权利要求5所述的方法,其特征在于,根据以下公式计算损失函数:
Loss=αLossRSD+βLossSNR
其中,LossRSD为相关谱损失,计算公式如下:
其中,Y为原始无噪频谱特征,F为频谱特征修正后的带噪频谱特征;
LossSNR为频谱特征修正后的带噪频谱特征经过逆快速傅里叶变换后的时域信号与所述无噪音频之间的均方误差;α和β均为系数,且α+β=1。
7.根据权利要求4所述的方法,其特征在于,在将获取到的所述噪声音频和所述干净音频按照预先设定的信噪比进行音频合成,得到带噪音频之前,所述方法还包括:
从预先构建的信噪比集合中选取一信噪比,所述信噪比集合与实际应用环境相对应。
8.一种车载音频信号的降噪装置,其特征在于,包括:
第一变换模块,用于对待处理音频进行快速傅里叶变换,得到其对应的原始频谱特征;
降噪模块,用于将所述原始频谱特征输入至预先训练完成的音频降噪模型中,以使所述音频降噪模型输出所述原始频谱特征对应的降噪频谱特征;
第二变换模块,用于对所述降噪频谱特征进行逆快速傅里叶变换,得到所述降噪频谱特征对应的时域信号;
语音识别模块,用于根据所述降噪频谱特征对应的时域信号进行语音识别,得到对应的文字信息;
语音合成模块,用于根据所述文字信息进行语音合成,得到目标输出音频。
9.一种电子设备,其特征在于,包括处理器和存储器;
所述处理器通过调用所述存储器存储的程序或指令,用于执行如权利要求1至7任一项所述方法的步骤。
10.一种非瞬时性计算机可读存储介质,其特征在于,所述非瞬时性计算机可读存储介质存储程序或指令,所述程序或指令使计算机执行如权利要求1至7任一项所述方法的步骤。
CN202410360269.4A 2024-03-27 2024-03-27 车载音频信号的降噪方法、***、电子设备及介质 Pending CN118197343A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410360269.4A CN118197343A (zh) 2024-03-27 2024-03-27 车载音频信号的降噪方法、***、电子设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202410360269.4A CN118197343A (zh) 2024-03-27 2024-03-27 车载音频信号的降噪方法、***、电子设备及介质

Publications (1)

Publication Number Publication Date
CN118197343A true CN118197343A (zh) 2024-06-14

Family

ID=91409737

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202410360269.4A Pending CN118197343A (zh) 2024-03-27 2024-03-27 车载音频信号的降噪方法、***、电子设备及介质

Country Status (1)

Country Link
CN (1) CN118197343A (zh)

Similar Documents

Publication Publication Date Title
CN112820315B (zh) 音频信号处理方法、装置、计算机设备及存储介质
CN113539283A (zh) 基于人工智能的音频处理方法、装置、电子设备及存储介质
CN112767959B (zh) 语音增强方法、装置、设备及介质
CN113192528B (zh) 单通道增强语音的处理方法、装置及可读存储介质
CN113571078B (zh) 噪声抑制方法、装置、介质以及电子设备
CN111883135A (zh) 语音转写方法、装置和电子设备
CN114792524B (zh) 音频数据处理方法、装置、程序产品、计算机设备和介质
CN111508519A (zh) 一种音频信号人声增强的方法及装置
CN111369968B (zh) 语音合成方法、装置、可读介质及电子设备
CN114333893A (zh) 一种语音处理方法、装置、电子设备和可读介质
CN115188389A (zh) 基于神经网络的端到端语音增强方法、装置
CN115223244B (zh) 触觉动作仿真方法、装置、设备和存储介质
CN118197343A (zh) 车载音频信号的降噪方法、***、电子设备及介质
CN115376538A (zh) 用于交互的语音降噪方法、***、电子设备和存储介质
CN113823312B (zh) 语音增强模型生成方法和装置、语音增强方法和装置
CN114333892A (zh) 一种语音处理方法、装置、电子设备和可读介质
CN114333891A (zh) 一种语音处理方法、装置、电子设备和可读介质
CN111326166B (zh) 语音处理方法及装置、计算机可读存储介质、电子设备
CN114220451A (zh) 音频消噪方法、电子设备和存储介质
CN117219107B (zh) 一种回声消除模型的训练方法、装置、设备及存储介质
CN117316160B (zh) 无声语音识别方法、装置、电子设备和计算机可读介质
CN117153178B (zh) 音频信号处理方法、装置、电子设备和存储介质
CN112201229B (zh) 一种语音处理方法、装置及***
CN116741193B (zh) 语音增强网络的训练方法、装置、存储介质及计算机设备
CN117392994B (zh) 一种音频信号处理方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination