CN117174102A - 音频信号噪声抑制的***和方法 - Google Patents
音频信号噪声抑制的***和方法 Download PDFInfo
- Publication number
- CN117174102A CN117174102A CN202211131790.8A CN202211131790A CN117174102A CN 117174102 A CN117174102 A CN 117174102A CN 202211131790 A CN202211131790 A CN 202211131790A CN 117174102 A CN117174102 A CN 117174102A
- Authority
- CN
- China
- Prior art keywords
- noise
- signal
- estimation
- software application
- frequency domain
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000001629 suppression Effects 0.000 title claims abstract description 118
- 238000000034 method Methods 0.000 title claims abstract description 101
- 230000005236 sound signal Effects 0.000 title claims abstract description 27
- 238000013528 artificial neural network Methods 0.000 claims abstract description 49
- 238000001914 filtration Methods 0.000 claims abstract description 39
- 230000000694 effects Effects 0.000 claims abstract description 25
- 230000008569 process Effects 0.000 claims description 34
- 238000013473 artificial intelligence Methods 0.000 claims description 29
- 238000001514 detection method Methods 0.000 claims description 20
- 238000012545 processing Methods 0.000 claims description 20
- 238000013507 mapping Methods 0.000 claims description 13
- 238000009499 grossing Methods 0.000 claims description 9
- 230000001131 transforming effect Effects 0.000 claims description 9
- 230000015572 biosynthetic process Effects 0.000 claims description 7
- 238000003786 synthesis reaction Methods 0.000 claims description 7
- 230000004927 fusion Effects 0.000 claims description 6
- 230000000306 recurrent effect Effects 0.000 claims description 6
- 230000003139 buffering effect Effects 0.000 claims description 5
- 230000015654 memory Effects 0.000 claims description 5
- 238000004364 calculation method Methods 0.000 claims description 4
- 230000006872 improvement Effects 0.000 claims description 3
- 230000007787 long-term memory Effects 0.000 claims 1
- 238000012549 training Methods 0.000 description 7
- 230000006978 adaptation Effects 0.000 description 6
- 238000001228 spectrum Methods 0.000 description 6
- 238000007499 fusion processing Methods 0.000 description 5
- 230000006403 short-term memory Effects 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 239000000872 buffer Substances 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012805 post-processing Methods 0.000 description 2
- 230000003595 spectral effect Effects 0.000 description 2
- 108010076504 Protein Sorting Signals Proteins 0.000 description 1
- 230000002159 abnormal effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000007500 overflow downdraw method Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 238000007493 shaping process Methods 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0224—Processing in the time domain
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0232—Processing in the frequency domain
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/57—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for processing of video signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L25/84—Detection of presence or absence of voice signals for discriminating voice from noise
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Signal Processing (AREA)
- Human Computer Interaction (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Circuit For Audible Band Transducer (AREA)
- Noise Elimination (AREA)
Abstract
本发明提供了一种抑制音频信号中噪声的计算机实现方法,该方法通过结合统计噪声估计和神经网络噪声估计,从而实现更理想的降噪效果。该方法由运行在电子设备上的噪声抑制计算机软件应用程序执行。噪声抑制计算机软件应用程序首先将时域中的语音信号转换为频域,然后确定统计噪声估计和神经网络噪声估计。噪声抑制计算机软件应用程序融合两种噪声估计以得出最终的噪声估计,并根据估计得到的噪声确定和微调噪声抑制滤波。将滤波应用于频域中的语音信号以获得增强信号。并将所述增强信号转换回时域。
Description
相关申请的交叉引用
本申请要求申请号为17751935,申请日为2022年5月24日的美国在先申请的优先权。
技术领域
本发明整体涉及语音通信中的噪声抑制技术,具体而言,本发明涉及一种音频数据中噪声抑制的***和方法。更具体而言,本发明涉及一种通过基于统计噪声处理和基于神经网络的噪声处理来抑制语音噪声的***和方法。
背景技术
在互联网上进行实时通信时,声音从信号源被传输至目的地。声音以音频信号表示,音频信号对接收端再现声音所需的所有必要信息进行编码。但是发送端经常会出现各种类型的噪声,因此需要进行噪声抑制。有一些噪声抑制方法是基于统计信号处理技术。数字音频信号处理通常包括从音频信号中提取音频特征。音频特征用于描述声音或声音的音频信号。不同的音频特征对声音的各方面特征进行捕捉。
如果能够用一组规则或音频特征(简称特征)对噪声进行建模,则通常可以采用基于统计信号处理的噪声抑制技术。在这种情况下,可以根据实际情况方便地更新规则和特征,从而使噪声抑制具有可扩展性和可解释性。但是,在线获取准确估计的音频特征会使噪声抑制模块对噪声变化的响应速度变慢。因此,基于统计信号处理的噪声抑制方法只有在噪声统计数据稳定的情况下才有效。当噪声发生频繁变化时,基于统计信号处理的噪声抑制方法将无法发挥效力甚至适得其反。此外,描述噪声的规则是基于先验知识并为了简化音频信号处理而引入的。因此,基于统计信号处理的噪声抑制方法性能通常不能达到最优。当噪声情况复杂时,其性能就会变差。
神经网络(NN),也称为人工神经网络(ANN)或模拟神经网络(SNN),是一种包括深度学习算法的机器学习方法。随着时间的推移,神经网络依靠训练数据来学习和提高其准确性。神经网络具有强大的建模不同种类噪声的能力。因此,使用神经网络(也称为人工智能(AI))的噪声抑制方法可以有效地抑制复杂噪声,例如快速时变噪声、多重混合噪声和混响噪声等。但是基于神经网络的噪声抑制方法(也称为基于AI的噪声抑制方法)的性能在很大程度上取决于训练数据。换句话说,如果训练数据集丰富,则噪声抑制方法可以达到最佳性能。可是收集涵盖一整套场景的训练数据通常既耗时又昂贵。因此,基于神经网络的噪声抑制方法通常可用于抑制某些特定场景的噪声。当基于神经网络的噪声抑制方法无法有效抑制某些噪声时,应将此类噪声添加到训练数据集中。此后重复基于神经网络的噪声抑制模型的训练过程,直到噪声抑制方法对处理此类噪声有效。基于神经网络的噪声抑制方法的训练-测试-再训练过程很难进行快速调优。如果频繁出现一些在线的小状况,这个问题就显得尤为突出。
因此,需要一种新的噪声抑制***和方法来克服基于神经网络的噪声抑制方法和基于统计信号处理的噪声抑制方法的缺点。尤其需要一种新的噪声抑制***和方法,它可以将基于神经网络的噪声抑制方法和基于统计信号处理的噪声抑制方法的优势融合在一起。
发明内容
总体而言,本发明基于各个实施方案,第一方面,提供了一种用于抑制来自音频信号噪声的计算机实现方法。该方法由噪声抑制计算机软件应用程序执行,具体包括:在时域中接收音频输入信号;分析音频输入信号并将音频输入信号映射到频域信号;根据频域信号确定语音存在的概率;使用神经网络对频域信号进行人工智能(AI)分析处理,以获得语音活动检测(VAD)信息和基于人工智能的噪声估计结果;使用统计噪声估计方法,根据语音存在概率和语音活动检测信息进行噪声估计,得到统计估计噪声;通过在基于AI的噪声估计结果上应用VAD模型,检测频域噪声信号中的语音活动从而获得神经网络估计噪声;将统计估计的噪声与神经网络估计的噪声进行融合处理,生成最终的噪声估计结果;根据最终的噪声估计结果计算增益滤波;将增益滤波应用于频域信号以抑制频域信号中的噪声,从而生成增强的语音信号;和,将增强的语音信号转换为时域噪声抑制语音信号。
估计语音存在的概率这一操作包括从频域信号中提取语音特征集,并将该语音特征集映射为语音存在概率。所述语音特征集至少包括以下特征之一:信号分类特征、语音/噪声对数似然比、后验信噪比和先验信噪比等。
神经网络是指循环神经网络(Recurrent Neural Network,RNN)或长短期记忆网络(Long Short-Term Memory network,LSTM)。统计估计的噪声根据时间递归平均公式计算获得。
噪声抑制计算机软件应用程序采用取最大值操作算子将统计估计的噪声和神经网络估计的噪声进行融合处理。
增益滤波是指维纳滤波(Wiener filter)或对数最小均方误差滤波(log MinimumMean-Square Error filter)。在将增益滤波应用于频域信号之前,使用平滑过程和/或映射过程来改善增益滤波性能。
分析音频输入信号包括,将音频输入信号的音频样本进行缓存、将缓存的音频输入信号加窗,并将加窗的音频样本变换为频域信号。
将缓存的音频输入信号加窗包括将缓存的音频输入信号乘以汉明窗或正弦波形;将加窗的音频样本变换为频域信号包括应用离散傅里叶变换。
第二方面,本发明还提供了一种用于抑制音频信号中噪声的噪声抑制计算机软件应用程序。噪声抑制计算机软件应用程序包括:音频信号分析模块、语音存在概率估计模块、第一轮噪声估计模块、基于人工智能的噪声估计模块、语音活动检测模块、估计噪声融合模块、噪声抑制增益滤波计算模块、噪声抑制增益滤波性能改善模块、噪声抑制增益滤波应用模块以及语音信号合成模块。噪声抑制计算机软件应用程序由电子设备运行。该电子设备包括:处理器;适配处理器的存储器;适配处理器的音频输入接口;适配处理器的音频输出接口;适配处理器的视频输入接口;适配处理器的视频输出接口,以及适配处理器的无线网络接口。噪声抑制计算机软件应用程序用于在时域中接收音频输入信号;分析音频输入信号并将音频输入信号映射到频域信号;根据频域信号确定语音存在的概率;使用神经网络对频域信号进行人工智能(AI)分析处理,以获得语音活动检测(VAD)信息和基于人工智能的噪声估计结果;使用统计噪声估计方法,根据语音存在概率和语音活动检测信息进行噪声估计,得到统计估计噪声;通过在基于AI的噪声估计结果上应用VAD模型,检测频域噪声信号中的语音活动,从而获得神经网络估计噪声;将统计估计的噪声与神经网络估计的噪声进行融合处理,生成最终的噪声估计结果;根据最终的噪声估计结果计算增益滤波;将增益滤波应用于频域信号以抑制频域信号中的噪声,从而生成增强的语音信号;和,将增强的语音信号转换为时域噪声抑制语音信号。
估计语音存在的概率包括从频域信号中提取语音特征集,并将该语音特征集映射为语音存在概率。所述语音特征集至少包括以下特征之一:信号分类特征、语音/噪声对数似然比、后验信噪比和先验信噪比等。神经网络是指循环神经网络(RNN)或长短期记忆网络(LSTM)。统计估计的噪声根据时间递归平均公式计算获得。噪声抑制计算机软件应用程序采用取最大值操作算子将统计估计的噪声和神经网络估计的噪声进行融合处理。增益滤波是指维纳滤波(Wiener filter)或对数最小均方误差滤波(log Minimum Mean-SquareError filter)。在将增益滤波应用于频域信号之前,使用平滑过程和/或映射过程来改善增益滤波的性能。噪声抑制计算机软件应用程序对音频输入信号进行分析处理包括,将音频输入信号的音频样本进行缓存、将缓存的音频输入信号加窗并将加窗的音频样本变换为频域信号。噪声抑制计算机软件应用程序通过将缓存的音频输入信号乘以汉明窗或正弦波形来对缓存的音频输入信号加窗,将加窗的音频样本变换为频域信号包括应用离散傅里叶变换。
附图说明
在权利要求书中将会特别指出本发明的技术特征,同时也可通过参考以下说明书及作为说明书一部分的说明书附图来更好地理解本发明本身以及本发明的构成和使用方法。本发明的全部附图也是构成本发明的一部分,其中相同的附图标记表示相同的部件:
图1是根据本发明实施例所绘制的电子设备抑制音频信号中的噪声这一过程的流程图。
图2是根据本发明实施例所绘制的电子设备抑制音频信号中的噪声这一过程的流程图。
图3是根据本发明实施例所绘制的电子设备抑制音频信号中的噪声这一过程的流程图。
图4是根据本发明实施例所绘制的电子设备抑制音频信号中的噪声这一过程的流程图。
图5是根据本发明实施例所绘制的用于抑制音频信号中的噪声的一台电子设备的示意框图。
本领域的普通技术人员应当可以理解,附图中的各个部件并不一定是按比例绘制的,以便于简单明了地展示以上附图。附图中的一些部件的尺寸可能相对于其他部件被放大,以便帮助理解本发明。此外,本文描述或说明的某些元件、零件、组件、模块、步骤、操作、事件和/或过程的特定顺序在实际应用中也许并非是必需的。本领域普通技术人员应当理解,为简单明了地阐述,在现有可行的实施方案中,那些众所周知且易于理解的有用和/或必需的元件可能在本文中并未进行描述,以便能清晰地呈现本发明的各种实施方案。
具体实施方式
图1和2展示了一种抑制音频信号中噪声的新方法的示意流程图,其整体流程以100表示。示意流程100从图1一直延续至图2,气泡A表示两图的延续。所述噪声抑制方法100克服了基于神经网络的噪声抑制方法和基于统计信号处理的噪声抑制方法的缺点。方法100同时也延续了基于神经网络的噪声抑制方法和基于统计信号处理的噪声抑制方法的优点。在一种实施方案中,方法100通过电子设备上运行的新型噪声抑制软件应用程序来执行,所述电子设备包括如笔记本电脑、平板电脑、智能手机、台式计算机或其他类型的电子设备等。噪声抑制软件应用程序和电子设备详见图5所示,在图中分别以522和500表示。
噪声抑制方法100的各个步骤由噪声抑制软件应用程序522的一个或多个组件或模块执行,或者也可以由一个或多个噪声抑制软件应用程序522执行,每个所述应用程序包括一个或多个相关应用程序模块。在本发明中,为表述简洁清晰起见,噪声抑制方法100的每个步骤被视为由噪声抑制软件应用程序522的相应软件组件(本文中也称为模块)执行;因此,噪声抑制软件应用程序522在本文中也被称为噪声抑制***,噪声抑制方法100在本文中也被称为噪声抑制***。因此,噪声抑制计算机软件应用程序522包括音频信号分析模块、语音存在概率估计模块、第一轮噪声估计模块、基于AI的噪声估计模块、语音活动检测模块、估计噪声融合模块、噪声抑制增益滤波计算模块、噪声抑制增益滤波性能改善模块、噪声抑制增益滤波应用模块以及语音信号合成模块。
噪声抑制方法100包括四个主要过程:信号分析过程102、噪声估计过程104、噪声抑制过程106和信号合成过程108。信号分析过程102在输入语音帧y(t)上运行,图中以160表示。音频输入帧160是带有噪声的语音信号。在102处,噪声抑制软件应用程序522接收音频输入信号160、分析处理音频输入帧160并将其映射到频域信号Y(t,k)。y(t)表示包含特定长度语音的时域语音信号序列。t表示时间索引,k表示频率仓索引。信号分析过程102将时域语音输入信号160映射到频域频谱。不同类型噪声源之间的差异在频域中比在时域中更明显。因此更需要在频域中进行噪声抑制,信号分析过程102让噪声抑制得以在频域中进行。
噪声估计过程104包括四个步骤:语音存在概率估计120、AI分析122、第一轮噪声估计124、不同的噪声估计融合126和语音活动检测(VAD)130。噪声抑制过程106包括三个步骤:增益计算130、增益后处理132和增益应用134。信号合成过程108将频域增强信号转换回时域。信号合成过程108输出估计的语音帧162。
在120处,噪声抑制软件应用程序522根据从信号分析过程102输出的频域中的音频信号对语音存在的概率进行预估。语音存在概率估计在噪声估计和语音增强中具有重要作用,其在频域中定位语音部分。语音存在概率越大,语音出现的可能性就越大。同样,语音存在概率越小,则音频输入帧160中噪声的可能性就越大。在120处,噪声抑制软件应用程序522从来自信号分析过程102的输入Y(t,k)中提取语音特征集F(t,k),如信号分类特征。特征数据可以是输入语音的函数。例如,特征可以包括语音/噪声对数似然比、语音频谱模板差异、语音频谱平坦度、后验信噪比、先验信噪比(signal to noise ratio,SNR)或其他类型的特征数据等。基于音频信号的特征数据F(t,k),语音存在概率P(t,k)由映射函数f(·)确定:
P(t,k)=f(F(t,k)),其中f(·)表示将特征数据映射到语音存在概率的函数。
在122处,噪声抑制软件应用程序522对频域信号Y(t,k)执行人工智能(AI)分析以获得基于AI的噪声估计结果。AI分析使用已被良好训练的语音增强模型,例如循环神经网络(RNN)或长短期记忆网络(LSTM)。在122处,噪声抑制软件应用程序522更新语音活动检测信息,并估计来自输入语音160中的噪声,尤其是复杂噪声。语音活动检测(Voice activitydetection,VAD),也称为声音活动检测(speech activity detection)、以及时域和频域中的语音检测,用于检测音频中是否存在人类的语音。
神经网络(NN)具有对不同种类的噪声建模的强大能力。备用的噪声语音数据可用于训练RNN或LSTM网络以获得AI模型。AI模型用于确定VAD信息V(t,k)和基于AI的噪声估计结果Nai(t,k)。V(t,k)用于检测是否存在人类语音,用于语音处理通道。在一种实施方案中,V(t,k)=0表示时频数据是噪声,V(t,k)=1则表示时频数据是语音。
在124处,噪声抑制软件应用程序522使用基于统计的噪声估计方法执行第一轮噪声估计,将估计的语音存在概率和VAD信息作为输入以更新当前时间上的噪声估计。在进一步的实施方案中,在124处,噪声抑制软件应用程序522及时执行当前噪声估计的递归平滑处理,以获得第一轮噪声估计结果。在本发明中,也可以认为:在124处,噪声抑制软件应用程序522执行统计方法的噪声估计,以确定统计估计的噪声。
在124处,基于语音存在概率P(t,k)和VAD信息V(t,k),使用时间递归平均方法,根据以下公式获得第一轮噪声估计结果N1(t,k):
N1(t,k)=ΔN1(t-1,k)+(1-α)Ninst(t,k),
其中0<α<1是一个平滑因子。0<P0<1,0<P1<1是用于决策阈值的常数值,|Y(t,k)|是Y(t,k)的幅度。
在一种实施方案中,N1(t,k)表示长时间平滑处理得到的噪声平均值,而并不是噪声的准确值。在126处,噪声抑制软件应用程序522通过在AI噪声估计Nai(t,k)上应用VAD模型来检测音频帧中的语音活动,以过滤错误的噪声估计信号。此外,在126处,噪声抑制软件应用程序522将包含在AI噪声估计Nai(t,k)中的人声语音信号保留下来。由VAD模块在126处生成的神经网络估计噪声以N2(t,k)表示:
在128处,噪声抑制软件应用程序522将估计的噪声N1(t,k)和N2(t,k)进行融合处理,以生成最终的噪声估计结果N(t,k)。在一种实施方案中,使用以下公式获得最终估计噪声N(t,k):
N(t,k)=max(N1(t,k),N2(t,k))
其中max(·)是决定N1(t,k)和N2(t,k)最大值的算子。
使用统计估计噪声和AI估计噪声的最大值有助于抑制更多的噪声。如上所述,N2(t,k)对于大多数具有复杂噪声的情况能够准确估计,例如快速时变噪声、多重混合噪声和混响噪声。但是,如果基于AI的噪声估计不是很准确,即N2(t,k)被低估时,则考虑将N1(t,k)作为最终的噪声估计。
在130处,噪声抑制软件应用程序522根据最终噪声估计N(t,k)计算增益。计算得出的增益G0(t,k)是一组介于0和1之间的时频域滤波系数(filter coefficient)。增益是使用诸如Wiener、log-MMSE等方法获得的噪声抑制滤波。如使用Wiener方法,则计算得到的增益滤波被称为Wiener滤波。如使用log-MMSE(即最小均方误差)方法,则计算得到的增益滤波被称为log-MMSE滤波。
在132处,噪声抑制软件应用程序522对在130处确定的增益滤波加以改善以获得最终增益滤波G(t,k)。根据不同的特定要求,后处理132步骤包括平滑、映射和/或其他处理过程。平滑噪声抑制滤波可用于避免不连续性。映射操作提高了目标频谱上的噪声抑制滤波并降低了噪声频谱增益。它还根据人类的听觉特征改善了频率增益曲线。
在134处,噪声抑制软件应用程序522将噪声抑制滤波应用于语音频域输入信号Y(t,k)以抑制不需要的噪声,从而生成增强的语音信号增益应用如下所示:
在108处,噪声抑制软件应用程序522将频域增强信号转换回时域信号/>162。时域信号/>162在本文中也称为噪声抑制音频输出帧、噪声抑制语音信号或噪声抑制音频帧。
在一种实施方案中,信号分析过程102包括缓存、加窗和离散傅里叶变换(DFT);信号合成过程108包括逆离散傅里叶变换、加窗和重叠添加。这些步骤详见图3和图4。参考图3和图4,在302处,噪声抑制软件应用程序522将音频输入帧160的音频样本进行缓存。在302处,噪声抑制软件应用程序522将音频样本存储在内存的缓存区。音频样本被存储、编辑、参考或以其他方式进行处理。
在304处,噪声抑制软件应用程序522对缓存的音频样本进行加窗处理。在304处,噪声抑制软件应用程序522通过将信号乘以存储在缓存区中的汉明窗或正弦波形来对音频样本进行加窗处理。加窗过程304是在将缓存的音频样本变换到频域之前对其进行整形的过程。通过对缓存的待测样本的两端进行衰减操作以消除不连续性,来减少光谱泄漏。加窗对于减少由输入波形中的不连续性造成的错误频率至关重要。同时,对重新合成的时域波形中出现的任何不连续性进行平滑也至关重要。在306处,噪声抑制软件应用程序522将音频输入帧160的声波(即加窗音频样本或加窗音频波)的时域表示变换为频域频谱。在一种实施方案中,所述变换可以是DFT变换。
如图4所示,在402处,噪声抑制软件应用程序522执行与步骤306相反的变换。在一种实施方案中,在402处,噪声抑制软件应用程序522将表示声波的频域频谱变换回时域波形。在404处,噪声抑制软件应用程序522将时域波形中声波的音频样本进行加窗处理。在406处,噪声抑制软件应用程序522可以使用数学工具如Overlap Add来重构音频信号。
如图5所示,图5是电子设备的示意框图,其整体表示为电子设备500。电子设备500包括处理器502、适配处理器502的具有一定容量的存储器504、适配处理器502的音频输入接口506(如麦克风)、适配处理器502的音频输出接口508(例如扬声器)、适配处理器502的视频输入接口510(如相机)、适配处理器502的视频输出接口512(如显示屏)以及适配处理器502的网络接口514(如Wi Fi网络接口)。电子设备500还包括在处理器502上运行的操作***520(如 等)。噪声抑制软件应用程序以522表示。其可由操作***520在电子设备500上加载并运行。噪声抑制计算机软件应用程序522使用一种或多种计算机软件编程语言(如C语言、C++、C#、Java等)来实现。
根据本发明,使用统计信号处理的噪声抑制方法,结合基于AI的噪声抑制的特征,以形成一种融合的***和方法,用于抑制音频信号的噪声。噪声抑制的融合方法结合了先验知识中的规则和特征,可以对异常复杂的噪声情况进行建模和抑制。使用人工智能的噪声抑制方法,结合基于统计方法的噪声抑制的能力,以形成一种融合的***和方法来抑制音频信号中的噪声。这种融合方案从训练数据中学习噪声,并利用关于噪声的先验知识对噪声进行建模。融合方案避免了复杂的训练-测试-再训练过程并从中获益。它还能够对噪音相关的规则和/或特征进行微调和增强,以快速响应轻微的在线问题。
根据以上描述,本发明显然可以存在许多其他的修改和变化。因此,应理解,在所附权利要求的范围内,本发明可以采用不同于以上具体描述的方式来实施。
本发明的上述说明书是为了更好地说明和解释,而并非有排他性意图或将本发明限定在上述的特定形式。以上的描述是为了更好地解释本发明的原理和这些原理的实际应用,以使本领域的相关技术人员能够最好地利用本发明在所预期的合适用途中实现各种实施方案和进行各种修改。应该认识到的是,本文中“一”或“一个”等词同时包括单数和复数形式。而与此相反,在适当情况下,本文所提到的多个元素的情况也应包括其单数形式。
本发明的范围并不仅限于以上说明书的内容,而是由权利要求书来确定保护范围。此外,尽管提出的权利要求可能范围较窄,但是应该认识到,本发明的范围比权利要求所提出的范围要宽泛得多。我们将在要求本申请优先权的一个或多个申请中提出范围更宽的权利要求。在以上说明书和附图中公开的部分内容如果没有包含在权利要求书的范围之内,则所述这些发明内容并不对外公开,并且我们保留今后针对上述这些发明内容提出一项或多项专利申请的权利。
Claims (20)
1.一种抑制音频信号中噪声的计算机实现方法,所述方法由噪声抑制计算机软件应用程序执行,包括:
1)在时域中接收音频输入信号;
2)分析所述音频输入信号并将音频输入信号映射到频域信号;
3)根据所述频域信号确定语音存在概率;
4)使用神经网络对所述频域信号进行人工智能分析处理,以获得语音活动检测信息和基于人工智能的噪声估计结果;
5)使用统计噪声估计方法,根据所述语音存在概率和语音活动检测信息进行噪声估计,得到统计估计噪声;
6)在基于人工智能的噪声估计结果上应用语音活动检测模型,以进行语音活动检测,从而获得神经网络估计噪声;
7)将所述统计估计噪声与所述神经网络估计噪声进行融合,生成最终噪声估计结果;
8)根据所述最终噪声估计结果计算增益滤波;
9)将所述增益滤波应用于所述频域信号以抑制频域信号中的噪声,从而生成增强的语音信号;以及
10)将所述增强的语音信号转换为时域噪声抑制语音信号。
2.根据权利要求1所述的方法,其中,所述语音存在概率通过以下方法进行预测:
1)从所述信号中提取语音特征集;以及
2)将所述语音特征集映射为所述语音存在概率。
3.根据权利要求2所述的方法,其中所述语音特征集至少包括以下特征之一:信号分类特征、语音/噪声对数似然比、后验信噪比和先验信噪比。
4.根据权利要求1所述的方法,其中神经网络为循环神经网络或长短期记忆网络。
5.根据权利要求1所述的方法,其中所述统计估计噪声根据时间递归平均公式计算获得。
6.根据权利要求1所述的方法,其中所述噪声抑制计算机软件应用程序采用取最大值操作算子将统计估计噪声和神经网络估计噪声进行融合。
7.根据权利要求1所述的方法,其中所述增益滤波为维纳滤波或对数最小均方误差滤波。
8.根据权利要求1所述的方法,其中在将所述增益滤波应用于所述频域信号之前,使用平滑过程和/或映射过程来改善所述增益滤波的性能。
9.根据权利要求1所述的方法,其中所述分析音频输入信号的操作包括:将所述音频输入信号的音频样本进行缓存、将缓存的音频输入信号加窗,并将加窗的音频样本变换为频域信号。
10.根据权利要求9所述的方法,其中,所述将缓存的音频输入信号加窗的操作包括将缓存的音频输入信号乘以汉明窗或正弦波形;和,所述将加窗的音频样本变换为频域信号的操作包括离散傅里叶变换。
11.一种用于抑制音频信号中噪声的噪声抑制计算机软件应用程序,所述噪声抑制计算机软件应用程序包括:音频信号分析模块、语音存在概率估计模块、第一轮噪声估计模块、基于人工智能的噪声估计模块、语音活动检测模块、估计噪声融合模块、噪声抑制增益滤波计算模块、噪声抑制增益滤波性能改善模块、噪声抑制增益滤波应用模块以及语音信号合成模块,其中:
1)所述噪声抑制计算机软件应用程序在电子设备上运行,所述电子设备包括:
(i)处理器;
(ii)适配所述处理器的存储器;
(iii)适配所述处理器的的音频输入接口;
(iv)适配所述处理器的的音频输出接口;
(v)适配所述处理器的视频输入接口;
(vi)适配所述处理器的视频输出接口;以及
(vii)适配所述处理器的无线网络接口;
2)所述噪声抑制计算机软件应用程序被配置为可执行以下操作:
(i)在时域中接收音频输入信号;
(ii)分析所述音频输入信号并将音频输入信号映射至频域信号;
(iii)根据所述频域信号确定语音存在概率;
(iv)使用神经网络对所述频域信号进行人工智能分析处理,以获得语音活动检测信息和基于人工智能的噪声估计结果;
(v)使用统计噪声估计方法,根据所述语音存在概率和所述语音活动检测信息进行噪声估计,得到统计估计噪声;
(vi)在所述基于人工智能的噪声估计结果上应用语音活动检测模型,以进行语音活动检测,从而获得神经网络估计噪声;
(vii)将所述统计估计噪声与所述神经网络估计噪声融合,生成最终噪声估计结果;
(viii)根据所述最终噪声估计结果计算增益滤波;
(ix)将所述增益滤波应用于所述频域信号以抑制频域信号中的噪声,从而生成增强的语音信号;以及
(x)将所述增强的语音信号转换为时域噪声抑制语音信号。
12.根据权利要求11所述的噪声抑制计算机软件应用程序,其中所述估计语音存在概率包括:
1)从所述频域信号中提取语音特征集;以及
2)将所述语音特征集映射为语音存在概率。
13.根据权利要求12所述的噪声抑制计算机软件应用程序,其中所述语音特征集至少包括以下特征之一:信号分类特征、语音/噪声对数似然比、后验信噪比和先验信噪比。
14.根据权利要求11所述的噪声抑制计算机软件应用程序,其中所述神经网络为循环神经网络或长短期记忆网络。
15.根据权利要求11所述的噪声抑制计算机软件应用程序,其中所述统计估计噪声根据时间递归平均公式计算获得。
16.根据权利要求11所述的噪声抑制计算机软件应用程序,其中所述噪声抑制计算机软件应用程序采用取最大值操作算子将所述统计估计噪声和所述神经网络估计噪声进行融合处理。
17.根据权利要求11所述的噪声抑制计算机软件应用程序,其中所述增益滤波为维纳滤波或对数最小均方误差滤波。
18.根据权利要求11所述的噪声抑制计算机软件应用程序,其中在将所述增益滤波应用于频域信号之前,使用平滑过程和/或映射过程来改善所述增益滤波的性能。
19.根据权利要求11所述的噪声抑制计算机软件应用程序,其中所述噪声抑制计算机软件应用程序对所述音频输入信号进行分析处理的操作包括:将所述音频输入信号的音频样本进行缓存、将缓存的音频输入信号加窗,并将加窗的音频样本变换为频域信号。
20.根据权利要求19所述的噪声抑制计算机软件应用程序,其中所述将缓存的音频输入信号加窗的操作包括将缓存的音频输入信号乘以汉明窗或正弦波形,所述将加窗的音频样本变换为频域信号的操作包括离散傅里叶变换。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US17/751,935 US20230386492A1 (en) | 2022-05-24 | 2022-05-24 | System and method for suppressing noise from audio signal |
US17/751,935 | 2022-05-24 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117174102A true CN117174102A (zh) | 2023-12-05 |
Family
ID=88876634
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211131790.8A Pending CN117174102A (zh) | 2022-05-24 | 2022-09-16 | 音频信号噪声抑制的***和方法 |
Country Status (2)
Country | Link |
---|---|
US (1) | US20230386492A1 (zh) |
CN (1) | CN117174102A (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117854536B (zh) * | 2024-03-09 | 2024-06-07 | 深圳市龙芯威半导体科技有限公司 | 一种基于多维语音特征组合的rnn降噪方法及*** |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100145687A1 (en) * | 2008-12-04 | 2010-06-10 | Microsoft Corporation | Removing noise from speech |
WO2016034915A1 (en) * | 2014-09-05 | 2016-03-10 | Intel IP Corporation | Audio processing circuit and method for reducing noise in an audio signal |
US10546593B2 (en) * | 2017-12-04 | 2020-01-28 | Apple Inc. | Deep learning driven multi-channel filtering for speech enhancement |
US10672414B2 (en) * | 2018-04-13 | 2020-06-02 | Microsoft Technology Licensing, Llc | Systems, methods, and computer-readable media for improved real-time audio processing |
WO2020041497A1 (en) * | 2018-08-21 | 2020-02-27 | 2Hz, Inc. | Speech enhancement and noise suppression systems and methods |
KR102137151B1 (ko) * | 2018-12-27 | 2020-07-24 | 엘지전자 주식회사 | 노이즈 캔슬링 장치 및 그 방법 |
TWI779261B (zh) * | 2020-01-22 | 2022-10-01 | 仁寶電腦工業股份有限公司 | 風切濾波裝置 |
US20230162758A1 (en) * | 2021-11-19 | 2023-05-25 | Massachusetts Institute Of Technology | Systems and methods for speech enhancement using attention masking and end to end neural networks |
-
2022
- 2022-05-24 US US17/751,935 patent/US20230386492A1/en active Pending
- 2022-09-16 CN CN202211131790.8A patent/CN117174102A/zh active Pending
Also Published As
Publication number | Publication date |
---|---|
US20230386492A1 (en) | 2023-11-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR101120679B1 (ko) | 이득-제한된 잡음 억제 | |
WO2020107269A1 (zh) | 自适应语音增强方法和电子设备 | |
KR100549133B1 (ko) | 노이즈 감소 방법 및 장치 | |
JP4842583B2 (ja) | 多感覚音声強調のための方法および装置 | |
JP4824286B2 (ja) | 漸進的ベイズ学習を使用する雑音推定の方法 | |
CN106558315B (zh) | 异质麦克风自动增益校准方法及*** | |
JP2010521704A (ja) | スピーチ明瞭度強化のためのノイズ分散推定器 | |
CN112735456A (zh) | 一种基于dnn-clstm网络的语音增强方法 | |
CN112767959B (zh) | 语音增强方法、装置、设备及介质 | |
JP6748304B2 (ja) | ニューラルネットワークを用いた信号処理装置、ニューラルネットワークを用いた信号処理方法及び信号処理プログラム | |
Zhang et al. | A novel fast nonstationary noise tracking approach based on MMSE spectral power estimator | |
CN117174102A (zh) | 音频信号噪声抑制的***和方法 | |
Labied et al. | An overview of automatic speech recognition preprocessing techniques | |
Zhang et al. | Fast nonstationary noise tracking based on log-spectral power mmse estimator and temporal recursive averaging | |
Saleem et al. | Variance based time-frequency mask estimation for unsupervised speech enhancement | |
WO2017128910A1 (zh) | 一种语音出现概率的确定方法、装置及电子设备 | |
US20230186943A1 (en) | Voice activity detection method and apparatus, and storage medium | |
Thimmaraja Yadava et al. | Amalgamation of noise elimination and TDNN acoustic modelling techniques for the advancements in continuous Kannada ASR system | |
KR100413797B1 (ko) | 음성 신호 보상 방법 및 그 장치 | |
Rehr et al. | An analysis of adaptive recursive smoothing with applications to noise PSD estimation | |
Saleem et al. | Time domain speech enhancement with CNN and time-attention transformer | |
CN114360572A (zh) | 语音去噪方法、装置、电子设备及存储介质 | |
Tang et al. | Speech Recognition in High Noise Environment. | |
JPH10133688A (ja) | 音声認識装置 | |
Jia et al. | Speech enhancement using modified mmse-lsa and phase reconstruction in voiced and unvoiced speech |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |