CN116110418A - 音频降噪方法和装置、存储介质及电子装置 - Google Patents

音频降噪方法和装置、存储介质及电子装置 Download PDF

Info

Publication number
CN116110418A
CN116110418A CN202211625879.XA CN202211625879A CN116110418A CN 116110418 A CN116110418 A CN 116110418A CN 202211625879 A CN202211625879 A CN 202211625879A CN 116110418 A CN116110418 A CN 116110418A
Authority
CN
China
Prior art keywords
target
noisy
neural network
data
audio
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211625879.XA
Other languages
English (en)
Inventor
黄景标
方瑞东
林聚财
黄威震
毛亚朋
刘克柱
薛晗
殷俊
王国龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Dahua Technology Co Ltd
Original Assignee
Zhejiang Dahua Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Dahua Technology Co Ltd filed Critical Zhejiang Dahua Technology Co Ltd
Priority to CN202211625879.XA priority Critical patent/CN116110418A/zh
Publication of CN116110418A publication Critical patent/CN116110418A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0264Noise filtering characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Soundproofing, Sound Blocking, And Sound Damping (AREA)

Abstract

本发明实施例提供了一种音频降噪方法和装置、存储介质及电子装置,该方法包括:获取当前时刻的第一带噪音频数据和历史时刻的第二带噪音频数据;依据所述第一带噪音频数据和所述第二带噪音频数据进行特征提取,得到目标特征信息;将所述目标特征信息输入到目标神经网络结构中,得到所述第一带噪音频数据对应的目标音频信号。通过本发明,解决了相关技术中通过纯净音频信号对降噪模型进行训练,导致降噪模型的降噪的准确度比较低的问题。

Description

音频降噪方法和装置、存储介质及电子装置
技术领域
本发明实施例涉及音频降噪技术领域,具体而言,涉及一种音频降噪方法和装置、存储介质及电子装置。
背景技术
在现实生活中,当人们使用手机开启免提电话或是视频会议终端进行视频会议时,由于环境的随机性,设备在采集到目标人声的同时还会采集到环境的各种噪声,而这些噪声会严重影响人们对目标人声的获取,因此需要采用音频降噪对环境的各种噪声进行抑制,一般来说,噪声分为稳态噪声和非稳态噪声,对于稳态噪声,目前有许多经典的降噪算法可以对其进行降噪处理,如维纳滤波等,而对于非稳态噪声,经典的降噪算法无法对其进行处理,而随着神经网络的兴起,凭借神经网络强大的非线性拟合能力,非稳态噪声可以通过该方案进行有效的去除;但是现有技术中的神经网络都是使用理想情况下的语音数据作为纯净数据进行训练,使得神经网络的音频降噪效果比较差。
针对相关技术中通过纯净音频信号对降噪模型进行训练,导致降噪模型的降噪的准确度比较低的问题,目前尚未提出有效的解决方案。
发明内容
本发明实施例提供了一种音频降噪方法和装置、存储介质及电子装置,以至少解决相关技术中通过纯净音频信号对降噪模型进行训练,导致降噪模型的降噪的准确度比较低的问题。
根据本发明的一个实施例,提供了一种音频降噪方法,包括:获取当前时刻的第一带噪音频数据和历史时刻的第二带噪音频数据;依据所述第一带噪音频数据和所述第二带噪音频数据进行特征提取,得到目标特征信息;将所述目标特征信息输入到目标神经网络结构中,得到所述第一带噪音频数据对应的目标音频信号,其中,所述目标神经网络结构由带噪音频训练样本集训练得到的,所述带噪音频训练样本集由多个带噪音频训练样本和每个带噪音频训练样本对应的预设音频信号组成,每个带噪音频训练样本通过所述预设音频信号和目标噪声信号得到。
在一个示例性实施例中,所述目标神经网络结构由编码模块、时序传递模块、跨层连接模块和解码模块组成,其中,所述跨层连接模块用于连接所述编码模块中的卷积层和所述解码模块中的转置卷积层,所述跨层连接模块中的卷积核由所述编码模块输出的数据的层数决定。
在一个示例性实施例中,依据所述第一带噪音频数据和所述第二带噪音频数据进行特征提取,得到目标特征信息包括:对所述第一带噪音频数据中的每帧信号进行短时傅里叶变换,得到所述第一带噪音频数据对应的第一时频域信息;对所述第二带噪音频数据中的每帧信号进行短时傅里叶变换,得到所述第二带噪音频数据对应的第二时频域信息;对所述第一时频域信息和所述第二时频域信息进行拼接处理,得到所述目标特征信息。
在一个示例性实施例中,将所述目标特征信息输入到目标神经网络结构中,得到所述第一带噪音频数据对应的目标音频信号包括:通过所述编码模块对所述目标特征信息进行编码处理,得到目标特征矩阵;通过所述时序传递模块将所述目标特征矩阵传递到所述解码模块中;通过所述跨层连接模块将所述编码模块中的每个卷积层的输出特征矩阵传递到所述解码模块的每个转置卷积层中;通过所述解码模块对所述目标特征矩阵和所述输出特征矩阵进行解码处理,得到所述第一带噪音频数据对应的目标音频信号。
在一个示例性实施例中,所述目标神经网络结构采用以下步骤训练得到:获取所述带噪音频训练样本集;对所述带噪音频训练样本集中的带噪音频训练样本进行特征提取,得到训练特征集;依据所述训练特征集对初始目标神经网络结构进行训练,得到所述目标神经网络结构。
在一个示例性实施例中,获取所述带噪音频训练样本集包括:获取所述预设音频信号;获取所述目标噪声信号;对所述预设音频信号和所述目标噪声信号进行混合和构造处理,得到所述带噪音频训练样本;依据所述带噪音频训练样本和所述预设音频信号确定所述带噪音频训练样本集。
在一个示例性实施例中,获取所述预设音频信号包括:在目标环境下采集得到第三带噪音频数据,并将所述第三带噪音频数据进行降噪处理,得到处理后的第三带噪音频数据;对所述处理后的第三带噪音频数据进行评分,得到第一目标分数;若所述第一目标分数大于第一阈值,则确定所述处理后的第三带噪音频数据为所述预设音频信号。
在一个示例性实施例中,获取所述目标噪声信号包括:在目标环境下采集得到初始噪声数据;对所述初始噪声数据进行评分,得到第二目标分数;若所述第二目标分数大于第二阈值,则确定所述初始噪声数据为所述目标噪声信号。
在一个示例性实施例中,依据所述训练特征集对初始目标神经网络结构进行训练,得到所述目标神经网络结构包括:将所述训练特征集输入到所述初始目标神经网络结构中,得到每个带噪音频训练样本对应的预测音频信号;依据所述预测音频信号和所述预设音频信号进行损失函数计算,得到目标损失函数;依据所述目标损失函数对所述初始目标神经网络结构进行训练,得到所述目标神经网络结构。
根据本发明的另一个实施例,提供了一种音频降噪装置,包括:第一获取单元,用于获取当前时刻的第一带噪音频数据和历史时刻的第二带噪音频数据;第一提取单元,用于依据所述第一带噪音频数据和所述第二带噪音频数据进行特征提取,得到目标特征信息;输入单元,用于将所述目标特征信息输入到目标神经网络结构中,得到所述第一带噪音频数据对应的目标音频信号,其中,所述目标神经网络结构由带噪音频训练样本集训练得到的,所述带噪音频训练样本集由多个带噪音频训练样本和每个带噪音频训练样本对应的预设音频信号组成,每个带噪音频训练样本通过所述预设音频信号和目标噪声信号得到。
在一个示例性实施例中,所述目标神经网络结构由编码模块、时序传递模块、跨层连接模块和解码模块组成,其中,所述跨层连接模块用于连接所述编码模块中的卷积层和所述解码模块中的转置卷积层,所述跨层连接模块中的卷积核由所述编码模块输出的数据的层数决定。
在一个示例性实施例中,第一提取单元包括:第一变换模块,用于对所述第一带噪音频数据中的每帧信号进行短时傅里叶变换,得到所述第一带噪音频数据对应的第一时频域信息;第二变换模块,用于对所述第二带噪音频数据中的每帧信号进行短时傅里叶变换,得到所述第二带噪音频数据对应的第二时频域信息;拼接模块,用于对所述第一时频域信息和所述第二时频域信息进行拼接处理,得到所述目标特征信息。
在一个示例性实施例中,所述输入单元包括:编码模块,用于通过所述编码模块对所述目标特征信息进行编码处理,得到目标特征矩阵;第一传递模块,用于通过所述时序传递模块将所述目标特征矩阵传递到所述解码模块中;第二传递模块,用于通过所述跨层连接模块将所述编码模块中的每个卷积层的输出特征矩阵传递到所述解码模块的每个转置卷积层中;解码模块,用于通过所述解码模块对所述目标特征矩阵和所述输出特征矩阵进行解码处理,得到所述第一带噪音频数据对应的目标音频信号。
在一个示例性实施例中,所述目标神经网络结构采用以下步骤训练得到:第二获取单元,用于获取所述带噪音频训练样本集;第二提取单元,用于对所述带噪音频训练样本集中的带噪音频训练样本进行特征提取,得到训练特征集;训练单元,用于依据所述训练特征集对初始目标神经网络结构进行训练,得到所述目标神经网络结构。
在一个示例性实施例中,所述第二获取单元包括:第一获取模块,用于获取所述预设音频信号;第二获取模块,用于获取所述目标噪声信号;处理模块,用于对所述预设音频信号和所述目标噪声信号进行混合和构造处理,得到所述带噪音频训练样本;确定模块,用于依据所述带噪音频训练样本和所述预设音频信号确定所述带噪音频训练样本集。
在一个示例性实施例中,所述第一获取模块包括:降噪子模块,用于在目标环境下采集得到第三带噪音频数据,并将所述第三带噪音频数据进行降噪处理,得到处理后的第三带噪音频数据;第一评分子模块,用于对所述处理后的第三带噪音频数据进行评分,得到第一目标分数;第一确定子模块,用于若所述第一目标分数大于第一阈值,则确定所述处理后的第三带噪音频数据为所述预设音频信号。
在一个示例性实施例中,所述第二获取模块包括:采集子模块,用于在目标环境下采集得到初始噪声数据;第二评分子模块,用于对所述初始噪声数据进行评分,得到第二目标分数;第二确定子模块,用于若所述第二目标分数大于第二阈值,则确定所述初始噪声数据为所述目标噪声信号。
在一个示例性实施例中,所述训练单元包括:输入模块,用于将所述训练特征集输入到所述初始目标神经网络结构中,得到每个带噪音频训练样本对应的预测音频信号;计算模块,用于依据所述预测音频信号和所述预设音频信号进行损失函数计算,得到目标损失函数;训练模块,用于依据所述目标损失函数对所述初始目标神经网络结构进行训练,得到所述目标神经网络结构。
根据本发明的又一个实施例,还提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。
根据本发明的又一个实施例,还提供了一种电子装置,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行上述任一项方法实施例中的步骤。
在本发明中,通过对当前时刻的第一带噪音频数据和历史时刻的第二带噪音频数据的进行特征提取,既获取到了当前时刻的音频特征,又融合历史时刻的音频特征,将目标特征信息输入到目标神经网络结构中,通过目标神经网络结构进行降噪处理,得到对应的目标音频信号。由于目标神经网络结构是通过预设音频信号和目标噪声信号训练得到,相较于现有技术中的神经网络模型直接使用消声室得到的数据作为纯净数据具有更好的贴近实际场景数据的优点,因此,可以解决相关技术中通过纯净音频信号对降噪模型进行训练,导致降噪模型的降噪的准确度比较低问题,达到了提高目标神经网络结构的降噪的准确度的效果,进而能够有效提升语音通话的通话质量。
附图说明
图1是根据本发明实施例的移动终端的硬件结构框图;
图2是根据本发明实施例的音频降噪方法的流程图;
图3是根据本发明实施例的目标神经网络结构的示意图;
图4是根据本发明实施例的可选的音频降噪方法的流程图;
图5是根据本发明实施例的目标神经网络结构的训练流程图;
图6是根据本发明实施例的音频降噪装置的示意图。
具体实施方式
下文中将参考附图并结合实施例来详细说明本发明的实施例。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。
本申请实施例中所提供的方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。以运行在移动终端上为例,图1是本发明实施例的一种音频降噪方法的移动终端的硬件结构框图。如图1所示,移动终端可以包括一个或多个(图1中仅示出一个)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)和用于存储数据的存储器104,其中,上述移动终端还可以包括用于通信功能的传输设备106以及输入输出设备108。本领域普通技术人员可以理解,图1所示的结构仅为示意,其并不对上述移动终端的结构造成限定。例如,移动终端还可包括比图1中所示更多或者更少的组件,或者具有与图1所示不同的配置。
存储器104可用于存储计算机程序,例如,应用软件的软件程序以及模块,如本发明实施例中的音频降噪方法对应的计算机程序,处理器102通过运行存储在存储器104内的计算机程序,从而执行各种功能应用以及数据处理,即实现上述的方法。存储器104可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器104可进一步包括相对于处理器102远程设置的存储器,这些远程存储器可以通过网络连接至移动终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
传输装置106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括移动终端的通信供应商提供的无线网络。在一个实例中,传输装置106包括一个网络适配器(Network Interface Controller,简称为NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输装置106可以为射频(Radio Frequency,简称为RF)模块,其用于通过无线方式与互联网进行通讯。
在本实施例中提供了一种运行于上述移动终端的音频降噪方法,图2是根据本发明实施例的音频降噪方法的流程图,如图2所示,该流程包括如下步骤:
步骤S202,获取当前时刻的第一带噪音频数据和历史时刻的第二带噪音频数据;
具体地,在进行音频降噪时,采集当前时刻的第一带噪音频数据,以及获取历史时刻的第二带噪音频数据。例如,现在需要处理当前10帧的带噪音频数据,那么采集当前10帧的第一带躁音频数据,和获取历史10帧的第二带噪音频数据。
步骤S204,依据第一带噪音频数据和第二带噪音频数据进行特征提取,得到目标特征信息;
具体地,提取上述的第一带噪音频数据和第二带噪音频数据的特征信息。可以通过对第一带噪音频数据和第二带噪音频数据中的每帧信号进行短时傅里叶变换从而获取含噪信号在时频域上的特征,从而得到上述的目标特征信息。
步骤S206,将目标特征信息输入到目标神经网络结构中,得到第一带噪音频数据对应的目标音频信号,其中,目标神经网络结构由带噪音频训练样本集训练得到的,带噪音频训练样本集由多个带噪音频训练样本和每个带噪音频训练样本对应的预设音频信号组成,每个带噪音频训练样本通过预设音频信号和目标噪声信号得到。
具体地,将目标特征信息输入到目标神经网络结构中,通过目标神经网络结构进行音频降噪处理,输出第一待噪音频数据对应的纯净音频信号(即上述的目标音频信号)。目标神经网络结构是通过带噪音频训练样本集训练得到的,每个带噪音频训练样本通过预设音频信号(也就是真实环境下的纯净音频信号)和目标噪声信号得到。
需要说明的是,目标神经网络结构可以是U-net网络结构,U-net网络结构能够更好更准确地提取音频信号的特征,进而提高降噪效果。
通过上述步骤,由于目标神经网络结构是通过预设音频信号和目标噪声信号训练得到,相较于现有技术中的神经网络模型直接使用消声室得到的数据作为纯净数据具有更好的贴近实际场景数据的优点,解决了相关技术中通过纯净音频信号对降噪模型进行训练,导致降噪模型的降噪的准确度比较低问题,达到了提高目标神经网络结构的降噪的准确度的效果,进而能够有效提升语音通话的通话质量。
需要说明的是,上述步骤的执行主体可以为基站、终端等,但不限于此。
目标神经网络结构是本实施中实现音频降噪的重要的部分,因此,在本实施例中提供的音频降噪方法中,目标神经网络结构由编码模块、时序传递模块、跨层连接模块和解码模块组成,其中,跨层连接模块用于连接编码模块中的卷积层和解码模块中的转置卷积层,跨层连接模块中的卷积核由编码模块输出的数据的层数决定。
具体地,如图3所示的目标神经网络结构,目标神经网络结构由编码模块(ENCODE)、时序传递模块、跨层连接模块和解码模块(DECODE)组成。编码模块(ENCODE)由3层CONV层,BN层以及ACTIVATION级联组成,解码模块由3层TRANSCONV层,BN层以及ACTIVATION级联组成;时序传递模块由1层GRU网络组成,跨层连接模块由1层CONV组成;其中,跨层连接模块用于对称连接ENCODE的ACTIVATE层输出和DECODE模块内部的TRANSCONV层输入,且跨层连接模块的使用的CONV所对应的卷积核的大小需根据不同层的TRANSCONV输入维度进行确认,也就是编码模块的输出维度决定。通过跨层连接模块将原有的单维度信息传递转化为多维度信息传递,使其在不明显增加模型的大小的情况下能够更快的收敛模型,从而达到更好的降噪效果。
在一可选的实施例中,编解模块:CONV层使用的卷积核大小均为[3,3],卷积步长设置均为[2,1],卷积个数为[16,32,64];ACTIVATION使用的激活函数为RELU,其公式如下:RELU(x)=max(x,0);
解码模块:TRANSCONV层使用的卷积核大小均为[3,1],卷积步长设置均为[2,1],卷积个数为[16,32,64];ACTIVATION使用的激活函数为RELU;
时序传递模块:GRU为:
Figure BDA0004004429070000091
其中,h(x)为卷积模块的输出,w,b,v,c都是可学习的参数,
Figure BDA0004004429070000092
为元素积,σ(·)是sigmoid函数;
跨层连接模块:其CONV层使用的卷积核大小为[[5,1],[3,1],[1,1]],卷积步长设置均为[1,1],卷积个数为[16,32,64]。跨层连接模型包含不局限于使用不同的卷积核大小进行设计。
在本实施例中,如何提取音频信号的特征信息是至关重要的,因此,在本实施例中提供的音频降噪方法中,依据第一带噪音频数据和第二带噪音频数据进行特征提取,得到目标特征信息包括:对第一带噪音频数据中的每帧信号进行短时傅里叶变换,得到第一带噪音频数据对应的第一时频域信息;对第二带噪音频数据中的每帧信号进行短时傅里叶变换,得到第二带噪音频数据对应的第二时频域信息;对第一时频域信息和第二时频域信息进行拼接处理,得到目标特征信息。
具体地,对第一带噪音频数据中的每帧信号进行短时傅里叶变换,从而获取第一带噪音频数据在时频域上的特征信息,对第二带噪音频数据中的每帧信号进行短时傅里叶变换,从而获取第二带噪音频数据在时频域上的特征信息,然后将第一时频域信息和第二时频域信息进行拼接处理,从而得到目标特征信息。通过上述步骤,可以更加准确地得到音频信号的特征信息。
在本实施例中提供的音频降噪方法中,将目标特征信息输入到目标神经网络结构中,得到第一带噪音频数据对应的目标音频信号包括:通过编码模块对目标特征信息进行编码处理,得到目标特征矩阵;通过时序传递模块将目标特征矩阵传递到解码模块中;通过跨层连接模块将编码模块中的每个卷积层的输出特征矩阵传递到解码模块的每个转置卷积层中;通过解码模块对目标特征矩阵和输出特征矩阵进行解码处理,得到第一带噪音频数据对应的目标音频信号。
具体地,目标神经网络结构中的编码模块对目标特征信息进行编码处理,输出目标特征矩阵,时序传递模块将目标特征矩阵传递到解码模块,同时,跨层连接模块会将编码模块中每一层卷积层的输出特征矩阵都传输至解码模块的每个转置卷积层中,解码模块对目标特征矩阵和输出特征矩阵进行解码处理,从而得到第一带噪音频数据对应的纯净音频信号。
通过上述模型结构,在跨层连接模块上考虑了历史多帧多维度的信息,相较于只使用当前帧的跨层连接模块具有更好的效果与模型训练收敛速度。
在一可选的实施例中,可以采用如图4所示的流程图实现音频降噪过程,采集当前时刻的带噪音频信号和历史时刻的带噪音频信号,并对当前时刻的带噪音频信号和历史时刻的带噪音频信号进行短时傅里叶变换,得到当前时刻的时频域信号与历史帧的时频域信号,将当前时刻的时频域信号与历史帧的时频域信号进行拼接,从而构造得到网络输入的信号特征。将构造得到的信号特征输入到目标神经网络结构,并得到目标神经网络结构输出的纯净音频信号。
在本实施例中提供的音频降噪方法中,目标神经网络结构采用以下步骤训练得到:获取带噪音频训练样本集;对带噪音频训练样本集中的带噪音频训练样本进行特征提取,得到训练特征集;依据训练特征集对初始目标神经网络结构进行训练,得到目标神经网络结构。
具体地,获取带噪音频训练样本集,带噪音频训练样本集由多个带噪音频训练样本和每个带噪音频训练样本对应的预设音频信号组成,每个带噪音频训练样本通过预设的纯净音频信号和目标噪声信号得到,通过对每个带噪音频训练样本进行短时傅里叶变换,从而得到带噪音频训练样本集的训练特征集,最后,通过训练特征集对初始目标神经网络结构进行训练,从而得到目标神经网络结构。
为了提高对初始目标神经网络结构的训练效果,在本实施例中提供的音频降噪方法中,获取带噪音频训练样本集包括:获取预设音频信号;获取目标噪声信号;对预设音频信号和目标噪声信号进行混合和构造处理,得到带噪音频训练样本;依据带噪音频训练样本和预设音频信号确定带噪音频训练样本集。
具体地,预设音频信号是从真实环境中采集得到的,目标噪声信号同样由真实环境中采集得到。对预设音频信号和目标噪声信号进行混合和构造处理,得到带噪音频训练样本,即对预设音频信号和目标噪声信号进行数据增强处理。将混合和构造处理后的预设音频信号和目标噪声信号作为带噪音频训练样本,进而得到带噪音频训练样本集。上述获取带噪音频训练样本集的方案相较于现有技术中直接使用消声室得到的数据作为纯净数据具有更好的贴近实际场景数据的优点,可以使得训练得到的模型能够更好的贴近实际应用场景,进而达到更好的降噪效果。
在一可选的实施例中,可以采用以下方式进行数据增强处理:不同信噪比,不同脉冲响应卷积,不同信道滤波设计以及不同扬声器器失真响应设计,上述的这些数据增强的方式可以结合使用也可以单独使用。
在本实施例中提供的音频降噪方法中,获取预设音频信号包括:在目标环境下采集得到第三带噪音频数据,并将第三带噪音频数据进行降噪处理,得到处理后的第三带噪音频数据;对处理后的第三带噪音频数据进行评分,得到第一目标分数;若第一目标分数大于第一阈值,则确定处理后的第三带噪音频数据为预设音频信号。
获取目标噪声信号包括:在目标环境下采集得到初始噪声数据;对初始噪声数据进行评分,得到第二目标分数;若第二目标分数大于第二阈值,则确定初始噪声数据为目标噪声信号。
具体地,在真实的语音通话的环境(即上述的目标环境)中采集得到第三带噪音频数据,然后通过现有技术中的降噪方法对第三带噪音频数据进行降噪处理,得到处理后的第三带噪音频数据,然后将处理后的第三带噪音频数据送入到现有技术中已有的语音打分***进行打分,当打分***得到的分值大于设定的阈值(即上述的第一阈值)时,将该训练数据作为正式的训练的纯净语音数据(即上述的预设音频信号)。
需要说明的是,第一阈值可以根据语音打分***以及实际需求进行设置,在满分是5分的情况下,第一阈值可以设置在3.5左右。
对于目标噪声信号:在真实的语音通话的环境(即上述的目标环境)中采集得到初始噪声数据,然后将初始噪声数据输入到现有技术中已有的噪声打分***进行打分,当打分***得到的分值大于设定的阈值(即上述的第二阈值)时,将该训练噪声数据作为正式的训练的噪声数据(即上述的目标噪声信号。
需要说明的是,第二阈值可以根据噪声打分***以及实际需求进行设置,在满分是5分的情况下,第一阈值可以设置在3.5左右。
综上所述,将真实环境下采集得到的含噪信号通过降噪处理,并打分,从而获取后续训练所需要的纯净信号,相较于现有技术中直接使用消声室得到的数据作为纯净数据具有更好的贴近实际场景数据的优点,使得训练得到的模型能够更好的贴近实际应用场景,进而达到更好的降噪效果。
为了对初始目标神经网络结构进行更有效的训练,在本实施例中提供的音频降噪方法中,依据训练特征集对初始目标神经网络结构进行训练,得到目标神经网络结构包括:将训练特征集输入到初始目标神经网络结构中,得到每个带噪音频训练样本对应的预测音频信号;依据预测音频信号和预设音频信号进行损失函数计算,得到目标损失函数;依据目标损失函数对初始目标神经网络结构进行训练,得到目标神经网络结构。
具体地,将上述的训练特征集输入到初始目标神经网络结构中,目标神经网络结构输出降噪后的预测音频信号,然后,对预测音频信号和预设音频信号(即纯净音频信号)进行损失函数计算,从而使用目标损失函数对初始目标神经网络结构进行训练,以得到目标神经网络结构。
在一可选的实施例中,该预测音频信号和纯净音频信号同时送入到LOSS函数中进行计算误差,LOSS函数的设计如下:
Figure BDA0004004429070000131
Figure BDA0004004429070000132
LOSS(est,ref)=0.5*LOSSabs(est,ref)+0.5*LOSSri(est,ref)
其中,k为音频信号的频率点的个数,n为时间维度上的帧数,est和ref分别表示模型输出信号和纯净信号在时频域的表现形式;其中(·)r,(·)i,(·)abs分别表示对该信号进行取实部,取虚部以及取绝对值。
通过上述的LOSS函数实现对初始目标神经网络结构的训练和优化过程。
在一可选的实施例中,可以采用如图5所述的流程图实现模型训练过程。步骤1.数据增强:对训练集中的语音数据和噪声数据进行筛选,获取合格的训练数据,将训练数据通过数据增强的方式进行混合并通过短时傅里叶变换从时域转换到时频域;
步骤2.特征提取:将当前时刻的时频域信号与历史帧的时频域信号进行拼接,从而构造得到网络输入的信号特征;
步骤3.网络训练:构建UNET网络结构,其中,ENCODE和DECODE中的每层CONV通过定制的跨层连接进行相连;该定制的跨层连接需根据ENCODE中每层CONV所需要的历史信号的帧数对CONV卷积核的大小进行制定;
步骤4.将步骤1中构造的信号特征送入到步骤2中构建的UNET网络中,并得到网络的输出;
步骤5.将网络的输出和纯净信号送入到损失函数中进行计算,并通过Adam优化算法(一种梯度下降算法)进行训练模型;
步骤6.最后使用训练模型对测试信号进行降噪。
在本实施例提供的音频降噪方法中,通过对当前时刻的第一带噪音频数据和历史时刻的第二带噪音频数据的进行特征提取,既获取到了当前时刻的音频特征,又融合历史时刻的音频特征,充分考虑了历史多帧多维度的音频信息,将目标特征信息输入到目标神经网络结构中,通过目标神经网络结构进行降噪处理,得到对应的目标音频信号。由于目标神经网络结构是通过预设音频信号和目标噪声信号训练得到,相较于现有技术中的神经网络模型直接使用消声室得到的数据作为纯净数据具有更好的贴近实际场景数据的优点,因此,可以解决相关技术中通过纯净音频信号对降噪模型进行训练,导致降噪模型的降噪的准确度比较低问题,达到了提高目标神经网络结构的降噪的准确度的效果,进而能够有效提升语音通话的通话质量。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例的方法。
在本实施例中还提供了一种音频降噪装置,该装置用于实现上述实施例及优选实施方式,已经进行过说明的不再赘述。如以下所使用的,术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
图6是根据本发明实施例的音频降噪装置的结构框图,如图6所示,该装置包括:第一获取单元602,第一提取单元604和输入单元606。
第一获取单元602,用于获取当前时刻的第一带噪音频数据和历史时刻的第二带噪音频数据;
第一提取单元604,用于依据第一带噪音频数据和第二带噪音频数据进行特征提取,得到目标特征信息;
输入单元606,用于将目标特征信息输入到目标神经网络结构中,得到第一带噪音频数据对应的目标音频信号,其中,目标神经网络结构由带噪音频训练样本集训练得到的,带噪音频训练样本集由多个带噪音频训练样本和每个带噪音频训练样本对应的预设音频信号组成,每个带噪音频训练样本通过预设音频信号和目标噪声信号得到。
可选地,在本实施例中提供的音频降噪装置中,目标神经网络结构由编码模块、时序传递模块、跨层连接模块和解码模块组成,其中,跨层连接模块用于连接编码模块中的卷积层和解码模块中的转置卷积层,跨层连接模块中的卷积核由编码模块输出的数据的层数决定。
可选地,在本实施例中提供的音频降噪装置中,第一提取单元包括:第一变换模块,用于对第一带噪音频数据中的每帧信号进行短时傅里叶变换,得到第一带噪音频数据对应的第一时频域信息;第二变换模块,用于对第二带噪音频数据中的每帧信号进行短时傅里叶变换,得到第二带噪音频数据对应的第二时频域信息;拼接模块,用于对第一时频域信息和第二时频域信息进行拼接处理,得到目标特征信息。
可选地,在本实施例中提供的音频降噪装置中,输入单元包括:编码模块,用于通过编码模块对目标特征信息进行编码处理,得到目标特征矩阵;第一传递模块,用于通过时序传递模块将目标特征矩阵传递到解码模块中;第二传递模块,用于通过跨层连接模块将编码模块中的每个卷积层的输出特征矩阵传递到解码模块的每个转置卷积层中;解码模块,用于通过解码模块对目标特征矩阵和输出特征矩阵进行解码处理,得到第一带噪音频数据对应的目标音频信号。
可选地,在本实施例中提供的音频降噪装置中,目标神经网络结构采用以下步骤训练得到:第二获取单元,用于获取带噪音频训练样本集;第二提取单元,用于对带噪音频训练样本集中的带噪音频训练样本进行特征提取,得到训练特征集;训练单元,用于依据训练特征集对初始目标神经网络结构进行训练,得到目标神经网络结构。
可选地,在本实施例中提供的音频降噪装置中,第二获取单元包括:第一获取模块,用于获取预设音频信号;第二获取模块,用于获取目标噪声信号;处理模块,用于对预设音频信号和目标噪声信号进行混合和构造处理,得到带噪音频训练样本;确定模块,用于依据带噪音频训练样本和预设音频信号确定带噪音频训练样本集。
可选地,在本实施例中提供的音频降噪装置中,第一获取模块包括:降噪子模块,用于在目标环境下采集得到第三带噪音频数据,并将第三带噪音频数据进行降噪处理,得到处理后的第三带噪音频数据;第一评分子模块,用于对处理后的第三带噪音频数据进行评分,得到第一目标分数;第一确定子模块,用于若第一目标分数大于第一阈值,则确定处理后的第三带噪音频数据为预设音频信号。
可选地,在本实施例中提供的音频降噪装置中,第二获取模块包括:采集子模块,用于在目标环境下采集得到初始噪声数据;第二评分子模块,用于对初始噪声数据进行评分,得到第二目标分数;第二确定子模块,用于若第二目标分数大于第二阈值,则确定初始噪声数据为目标噪声信号。
可选地,在本实施例中提供的音频降噪装置中,训练单元包括:输入模块,用于将训练特征集输入到初始目标神经网络结构中,得到每个带噪音频训练样本对应的预测音频信号;计算模块,用于依据预测音频信号和预设音频信号进行损失函数计算,得到目标损失函数;训练模块,用于依据目标损失函数对初始目标神经网络结构进行训练,得到目标神经网络结构。
需要说明的是,上述各个模块是可以通过软件或硬件来实现的,对于后者,可以通过以下方式实现,但不限于此:上述模块均位于同一处理器中;或者,上述各个模块以任意组合的形式分别位于不同的处理器中。
本发明的实施例还提供了一种计算机可读存储介质,该计算机可读存储介质中存储有计算机程序,其中,该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。
在一个示例性实施例中,上述计算机可读存储介质可以包括但不限于:U盘、只读存储器(Read-Only Memory,简称为ROM)、随机存取存储器(Random Access Memory,简称为RAM)、移动硬盘、磁碟或者光盘等各种可以存储计算机程序的介质。
本发明的实施例还提供了一种电子装置,包括存储器和处理器,该存储器中存储有计算机程序,该处理器被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。
在一个示例性实施例中,上述电子装置还可以包括传输设备以及输入输出设备,其中,该传输设备和上述处理器连接,该输入输出设备和上述处理器连接。
本实施例中的具体示例可以参考上述实施例及示例性实施方式中所描述的示例,本实施例在此不再赘述。
显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,并且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (12)

1.一种音频降噪方法,其特征在于,包括:
获取当前时刻的第一带噪音频数据和历史时刻的第二带噪音频数据;
依据所述第一带噪音频数据和所述第二带噪音频数据进行特征提取,得到目标特征信息;
将所述目标特征信息输入到目标神经网络结构中,得到所述第一带噪音频数据对应的目标音频信号,其中,所述目标神经网络结构由带噪音频训练样本集训练得到的,所述带噪音频训练样本集由多个带噪音频训练样本和每个带噪音频训练样本对应的预设音频信号组成,每个带噪音频训练样本通过所述预设音频信号和目标噪声信号得到。
2.根据权利要求1所述的方法,其特征在于,所述目标神经网络结构由编码模块、时序传递模块、跨层连接模块和解码模块组成,其中,所述跨层连接模块用于连接所述编码模块中的卷积层和所述解码模块中的转置卷积层,所述跨层连接模块中的卷积核由所述编码模块输出的数据的层数决定。
3.根据权利要求1所述的方法,其特征在于,依据所述第一带噪音频数据和所述第二带噪音频数据进行特征提取,得到目标特征信息包括:
对所述第一带噪音频数据中的每帧信号进行短时傅里叶变换,得到所述第一带噪音频数据对应的第一时频域信息;
对所述第二带噪音频数据中的每帧信号进行短时傅里叶变换,得到所述第二带噪音频数据对应的第二时频域信息;
对所述第一时频域信息和所述第二时频域信息进行拼接处理,得到所述目标特征信息。
4.根据权利要求2所述的方法,其特征在于,将所述目标特征信息输入到目标神经网络结构中,得到所述第一带噪音频数据对应的目标音频信号包括:
通过所述编码模块对所述目标特征信息进行编码处理,得到目标特征矩阵;
通过所述时序传递模块将所述目标特征矩阵传递到所述解码模块中;
通过所述跨层连接模块将所述编码模块中的每个卷积层的输出特征矩阵传递到所述解码模块的每个转置卷积层中;
通过所述解码模块对所述目标特征矩阵和所述输出特征矩阵进行解码处理,得到所述第一带噪音频数据对应的目标音频信号。
5.根据权利要求1所述的方法,其特征在于,所述目标神经网络结构采用以下步骤训练得到:
获取所述带噪音频训练样本集;
对所述带噪音频训练样本集中的带噪音频训练样本进行特征提取,得到训练特征集;
依据所述训练特征集对初始目标神经网络结构进行训练,得到所述目标神经网络结构。
6.根据权利要求5所述的方法,其特征在于,获取所述带噪音频训练样本集包括:
获取所述预设音频信号;
获取所述目标噪声信号;
对所述预设音频信号和所述目标噪声信号进行混合和构造处理,得到所述带噪音频训练样本;
依据所述带噪音频训练样本和所述预设音频信号确定所述带噪音频训练样本集。
7.根据权利要求6所述的方法,其特征在于,获取所述预设音频信号包括:
在目标环境下采集得到第三带噪音频数据,并将所述第三带噪音频数据进行降噪处理,得到处理后的第三带噪音频数据;
对所述处理后的第三带噪音频数据进行评分,得到第一目标分数;
若所述第一目标分数大于第一阈值,则确定所述处理后的第三带噪音频数据为所述预设音频信号。
8.根据权利要求6所述的方法,其特征在于,获取所述目标噪声信号包括:
在目标环境下采集得到初始噪声数据;
对所述初始噪声数据进行评分,得到第二目标分数;
若所述第二目标分数大于第二阈值,则确定所述初始噪声数据为所述目标噪声信号。
9.根据权利要求5所述的方法,其特征在于,依据所述训练特征集对初始目标神经网络结构进行训练,得到所述目标神经网络结构包括:
将所述训练特征集输入到所述初始目标神经网络结构中,得到每个带噪音频训练样本对应的预测音频信号;
依据所述预测音频信号和所述预设音频信号进行损失函数计算,得到目标损失函数;
依据所述目标损失函数对所述初始目标神经网络结构进行训练,得到所述目标神经网络结构。
10.一种音频降噪装置,其特征在于,包括:
第一获取单元,用于获取当前时刻的第一带噪音频数据和历史时刻的第二带噪音频数据;
第一提取单元,用于依据所述第一带噪音频数据和所述第二带噪音频数据进行特征提取,得到目标特征信息;
输入单元,用于将所述目标特征信息输入到目标神经网络结构中,得到所述第一带噪音频数据对应的目标音频信号,其中,所述目标神经网络结构由带噪音频训练样本集训练得到的,所述带噪音频训练样本集由多个带噪音频训练样本和每个带噪音频训练样本对应的预设音频信号组成,每个带噪音频训练样本通过所述预设音频信号和目标噪声信号得到。
11.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机程序,其中,所述计算机程序被处理器执行时实现所述权利要求1至9任一项中所述的音频降噪方法的步骤。
12.一种电子装置,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现所述权利要求1至9任一项中所述的音频降噪方法的步骤。
CN202211625879.XA 2022-12-16 2022-12-16 音频降噪方法和装置、存储介质及电子装置 Pending CN116110418A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211625879.XA CN116110418A (zh) 2022-12-16 2022-12-16 音频降噪方法和装置、存储介质及电子装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211625879.XA CN116110418A (zh) 2022-12-16 2022-12-16 音频降噪方法和装置、存储介质及电子装置

Publications (1)

Publication Number Publication Date
CN116110418A true CN116110418A (zh) 2023-05-12

Family

ID=86253585

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211625879.XA Pending CN116110418A (zh) 2022-12-16 2022-12-16 音频降噪方法和装置、存储介质及电子装置

Country Status (1)

Country Link
CN (1) CN116110418A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116705013A (zh) * 2023-07-28 2023-09-05 腾讯科技(深圳)有限公司 语音唤醒词的检测方法、装置、存储介质和电子设备

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116705013A (zh) * 2023-07-28 2023-09-05 腾讯科技(深圳)有限公司 语音唤醒词的检测方法、装置、存储介质和电子设备
CN116705013B (zh) * 2023-07-28 2023-10-10 腾讯科技(深圳)有限公司 语音唤醒词的检测方法、装置、存储介质和电子设备

Similar Documents

Publication Publication Date Title
US10832696B2 (en) Speech signal cascade processing method, terminal, and computer-readable storage medium
CN109326299B (zh) 基于全卷积神经网络的语音增强方法、装置及存储介质
CN104980337B (zh) 一种音频处理的性能提升方法及装置
Lin et al. Speech enhancement using multi-stage self-attentive temporal convolutional networks
CN116110418A (zh) 音频降噪方法和装置、存储介质及电子装置
CN114822578A (zh) 语音降噪方法、装置、设备及存储介质
CN115884032A (zh) 一种后馈式耳机的智慧通话降噪方法及***
CN113053400A (zh) 音频信号降噪模型的训练方法、音频信号降噪方法及设备
CN111368858B (zh) 用户满意度评估方法及装置
CN111081269B (zh) 通话过程中的噪声检测方法及***
CN111144347A (zh) 一种数据处理方法、装置、平台及存储介质
US20240105198A1 (en) Voice processing method, apparatus and system, smart terminal and electronic device
CN112992189B (zh) 语音音频的检测方法及装置、存储介质及电子装置
CN109065066B (zh) 一种通话控制方法、装置及设备
CN115273880A (zh) 语音降噪方法、模型训练方法、装置、设备、介质及产品
CN115174724A (zh) 通话降噪方法、装置、设备及可读存储介质
CN114333912A (zh) 语音激活检测方法、装置、电子设备和存储介质
CN113571079A (zh) 语音增强方法、装置、设备及存储介质
CN113763976A (zh) 音频信号的降噪方法、装置、可读介质和电子设备
CN114067785B (zh) 语音深度神经网络训练方法、装置、存储介质及电子装置
CN112002343B (zh) 语音纯度的识别方法、装置、存储介质及电子装置
CN114155883B (zh) 基于进阶式的语音深度神经网络训练方法、装置
CN110602332B (zh) 通信线路特征提取方法、通信线路识别方法及装置
WO2024021270A1 (zh) 语音激活检测方法、装置、终端设备以及计算机存储介质
CN117219107B (zh) 一种回声消除模型的训练方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination