CN116324985A - 自适应噪声估计 - Google Patents

自适应噪声估计 Download PDF

Info

Publication number
CN116324985A
CN116324985A CN202180064939.2A CN202180064939A CN116324985A CN 116324985 A CN116324985 A CN 116324985A CN 202180064939 A CN202180064939 A CN 202180064939A CN 116324985 A CN116324985 A CN 116324985A
Authority
CN
China
Prior art keywords
speech
spectrum
noise
noise spectrum
speech segment
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202180064939.2A
Other languages
English (en)
Inventor
D·斯卡伊尼
叶宗鑫
G·琴加莱
M·D·德伯格
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dolby International AB
Dolby Laboratories Licensing Corp
Original Assignee
Dolby International AB
Dolby Laboratories Licensing Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dolby International AB, Dolby Laboratories Licensing Corp filed Critical Dolby International AB
Publication of CN116324985A publication Critical patent/CN116324985A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • G10L21/028Voice signal separating using properties of sound source
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • G10L21/0324Details of processing therefor
    • G10L21/034Automatic adjustment
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • G10L21/0364Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude for improving intelligibility
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/21Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/84Detection of presence or absence of voice signals for discriminating voice from noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

在一些实施例中,一种方法包括:使用至少一个处理器将音频输入划分为语音片段和非语音片段;对于每个非语音片段中的每个帧,使用至少一个处理器估计非语音片段的时变噪声频谱;对于每个语音片段中的每个帧,使用至少一个处理器估计语音片段的语音频谱;对于每个语音片段中的每个帧,识别语音频谱中的一个或多个非语音频率分量;将一个或多个非语音频率分量与多个估计的噪声频谱中的一个或多个相对应的频率分量进行比较;以及基于比较的结果,从多个估计的噪声频谱中选择估计的噪声频谱。

Description

自适应噪声估计
相关申请的交叉引用
本申请要求于2020年12月2日提交的美国临时申请第63/120,253号、于2021年3月31日提交的美国临时申请第63/168,998号以及于2020年9月23日提交的西班牙专利申请第P202030960号的优先权,所述专利申请中的每一个均通过引用以其全文并入本文。
技术领域
本公开总体上涉及音频信号处理,并且具体地涉及估计音频信号中的本底噪声以用于降低噪声。
背景技术
噪声估计通常用于降低音频录音中的稳态噪声。通常,噪声估计是通过分析仅包含噪声的音频录音片段的每个频带中的能量来获得的。然而,在一些音频录音中,稳态噪声会随时间平滑地和/或突然地变化。这种突然变化的一些示例包括:背景环境噪声随时间突然变化的音频录音(例如,房间中的风扇被打开或关闭),以及通过将各自具有不同本底噪声的不同音频录音编辑在一起而获得的音频内容(诸如包含在不同位置处录制的一系列采访的播客)。另外,在足够长的非语音片段期间通常不会发生噪声变化,因此可能无法在音频录音的早期检测到和估计噪声变化。
一些现有方法使用仅包含噪声的音频录音片段对本底噪声进行单一估计。其他现有方法对收敛到单一底层本底噪声的整个音频录音进行分析。然而,这两种方法的缺点是它们无法适应变化的噪声水平或频谱。其他现有方法估计每个频带中的能量的最小包络,并随时间跟踪估计的最小包络(例如,通过使用合适的时间常数来平滑估计的最小包络)。然而,这些现有方法通常用于实时在线音频信号处理架构中,并且无法对音频录音中噪声的突然变化做出准确反应。
发明内容
公开了用于自适应噪声估计的实施方式。
在一些实施例中,一种自适应噪声估计方法包括:使用至少一个处理器将音频输入划分为语音片段和非语音片段;对于每个非语音片段中的每个帧,使用所述至少一个处理器估计所述非语音片段的时变噪声频谱;对于每个语音片段中的每个帧,使用所述至少一个处理器估计所述语音片段的语音频谱;对于每个语音片段中的每个帧,识别所述语音频谱中的一个或多个非语音频率分量;将所述一个或多个非语音频率分量与多个估计的噪声频谱中的一个或多个相对应的频率分量进行比较;以及基于所述比较的结果,从所述多个估计的噪声频谱中选择估计的噪声频谱。在实施例中,所述方法还包括:使用所述至少一个处理器,使用所选择的估计的噪声频谱降低所述音频输入中的噪声。
在一些实施例中,所述方法还包括:获得所述音频输入的每个帧中的语音的概率,以及基于所述概率将帧识别为包含语音。
在一些实施例中,所述时变噪声频谱是通过计算所述非语音片段的功率频谱的移动平均值并对当前非语音片段和至少一个过去非语音片段的功率频谱进行平均来估计的。
在一些实施例中,在所述非语音片段期间,时变估计的噪声频谱被馈送到噪声降低单元,所述噪声降低单元被配置为使用所选择的估计的噪声频谱降低所述音频输入中的噪声。
在一些实施例中,对于每个语音片段,使用所述语音片段之前的过去估计的噪声频谱、所述语音片段之后的未来估计的噪声频谱和当前语音帧确定最有可能表示所述当前语音片段中的噪声的估计的噪声频谱。
在一些实施例中,确定最有可能表示所述当前语音片段的噪声的估计的噪声频谱还包括:分别从所述语音片段之前的过去非语音片段的过去噪声频谱和所述语音片段之后的未来非语音片段的未来噪声频谱获得平均噪声频谱;确定所述过去噪声频谱和所述未来噪声频谱的频率上限;将截止频率确定为两个频率上限中的最低者;计算所述语音频谱中的频率分量与噪声频谱中的频率分量之间的距离度量;以及选择所述过去噪声频谱或所述未来噪声频谱中直到所述截止频率为止具有最小距离度量的噪声频谱作为所述音频输入的估计的噪声频谱。
在一些实施例中,所述距离度量在语音片段中的一组语音帧上进行平均。
在一些实施例中,在所述音频信号的语音片段中估计语音分量,然后从实际语音分量中减去所述语音分量,以获得剩余频谱作为非语音频率分量的估计。
在一些实施例中,一种音频处理器包括:划分器单元,被配置为将音频输入划分为重叠帧的片段;多个缓存器,被配置为存储所述重叠帧的片段;频谱分析单元,被配置为计算存储在每个缓存器中的每个片段的频谱;话音活动检测器(VAD),被配置为检测所述音频输入中的语音片段和非语音片段;平均单元,耦接到所述VAD的输出,并且被配置为对于由所述VAD输出标识的每个语音片段计算语音频谱,并且对于由所述VAD输出标识的每个非语音片段计算噪声频谱。
在实施例中,一种音频处理器包括:VAD,被配置为检测音频输入中的语音片段和非语音片段;平均单元,耦接到所述VAD的输出,并且被配置为对于由所述VAD输出标识的每个语音片段获得语音频谱,并且对于由所述VAD输出标识的每个非语音片段获得噪声频谱;相似性度量单元,被配置为计算当前语音频谱中的一个或多个频率分量与每个噪声频谱中相对应的一个或多个频率分量之间的相似性度量,以及基于所述相似性度量从噪声频谱中选择一个噪声频谱;以及噪声降低单元,被配置为使用所选择的噪声频谱降低所述音频输入中的噪声。
本文公开的其他实施方式涉及一种***、装置和计算机可读介质。下文的附图和描述中阐述了所公开的实施方式的细节。根据所述描述、附图和权利要求,其他特征、目的和优点是显而易见的。
本文公开的特定实施方式提供了以下优点中的一个或多个。公开了一种在存在语音的情况下自适应地估计音频录音中的噪声的方法。在实施例中,自适应噪声估计是在音频录音上离线执行的,以通过查看音频录音的给定帧之前和之后来估计噪声变化。与传统的自适应噪声估计方法相比的优点是,通过在当前语音片段之前和之后的计算出的最佳可用候选本底噪声估计中进行选择来估计语音之下的本底噪声。
附图说明
在附图中,为了便于描述,示出了示意性元素的特定布置或排序,诸如那些表示设备、单元、指令块和数据元素的示意性元素。然而,本领域技术人员应当理解,附图中示意性元素的特定排序或布置并不意味着暗示需要特定处理次序或顺序或者过程分离。进一步地,在附图中包括示意性元素并不意味着暗示在所有实施例中都需要这种元素,或者在一些实施方式中,由这种元素表示的特征可以不包括在其他元素中或与其他元素组合。
进一步地,在附图中,在使用诸如实线或虚线或箭头的连接元素来说明两个或更多个其他示意性元素之间的连接、关系或关联的情况下,不存在任何这种连接元素并不意味着暗示不可能存在连接、关系或关联。换句话说,未在附图中示出元素之间的一些连接、关系或关联性,以免模糊本发明。另外,为了便于图示,使用单个连接元素来表示元素之间的多个连接、关系或关联性。例如,在连接元素表示信号、数据或指令的通信的情况下,本领域的技术人员应理解,这样的元素表示为了影响通信而可能需要的一个或多个信号路径。
图1是根据一些实施例的示出了音频波形、随时间的话音活动和用于确定音频波形的非语音片段的阈值的二维(2D)曲线图。
图2是根据一些实施例的随时间的话音活动、用于确定音频波形的非语音片段的阈值和话音活动低于阈值的噪声片段的2D曲线图。
图3示出了根据一些实施例的与语音片段相对应的平均语音频谱和与语音片段之前和之后的非语音片段相对应的两个噪声频谱。
图4是根据一些实施例的用于自适应噪声估计和噪声降低的***的框图。
图5是根据一些实施例的用于本底噪声估计和噪声降低的过程的流程图。
图6是根据一些实施例的用于实施参考图1至图5描述的特征和过程的***的框图。
各附图中使用的相同附图标记指示相似的元素。
具体实施方式
在以下具体实施方式中,阐述了若干具体细节以提供对所描述的各种实施例的全面理解。对于本领域普通技术人员而言将明显的是,可以在没有这些具体细节的情况下实践所描述的各种实施方式。在其他实例中,并未详细描述公知方法、过程、组件以及电路以免不必要地模糊实施例的各方面。下文描述了若干特征,每个特征可以彼此独立使用或者与其他特征的任何组合一起使用。
术语解释
如本文所使用的,术语“包括”及其变体应被理解为意思是“包括但不限于”的开放式术语。除非上下文另外明确指出,否则术语“或”应被理解为“和/或”。术语“基于”应被理解为“至少部分地基于”。术语“一个示例实施方式”和“示例实施方式”应被理解为“至少一个示例实施方式”。术语“另一个实施方式”应被理解为“至少一个其他实施方式”。术语“确定”应被理解为获得、接收、计算、估算、估计、预测或得到。另外,在以下描述和权利要求中,除非另外定义,否则本文所使用的所有技术和科学术语具有与本公开所属领域的普通技术人员通常理解的含义相同的含义。
***概述
所公开的实施例使用话音活动检测(VAD)分类器将音频输入划分为包含语音的语音片段和不包含语音的非语音片段。在非语音片段中,在非语音片段中的每个帧处,通过对当前帧周围的时间区域的每个频率的能量进行平均来估计噪声频谱。在语音片段中,对于语音片段中的每个帧,通过识别语音频谱中的一个或多个非语音频率分量来选择时间上的先前非语音区域或后续非语音区域的估计的噪声频谱。使用相似性度量(例如,频率分量之间的距离),将一个或多个非语音频率分量与先前非语音区域和后续非语音区域的估计的噪声频谱中相对应一个或多个频率分量进行比较。
图1是根据实施例的示出了音频波形、随时间的话音活动和用于确定音频波形的非语音片段的阈值的二维(2D)曲线图。为简单起见,音频波形的幅度值未在图1中示出。横轴以时间(例如,毫秒)为单位。包含包括语音的音频录音的音频输入(例如,音频文件)被划分为重叠帧。在实施例中,VAD被用于获得每个帧中的语音的概率并且随后基于语音概率与阈值的比较将音频输入划分为语音片段和非语音片段。在所示示例中,竖轴表示VAD值(存在语音的概率),并且由水平线指示的示例VAD阈值约为0.18。图2示出了图1中所示的噪声片段的特写,在所述噪声片段中,VAD值低于VAD阈值。
可以使用任何合适的用于检测音频录音中的语音片段和非语音片段的VAD算法,包括但不限于基于以下的VAD算法:过零率和能量测量、基于线性的能量检测、基于自适应线性的能量检测、模式识别和统计度量。
在实施例中,非语音片段中的噪声频谱是使用自适应话音感知噪声估计(AVANE)并推断语音片段中最相似的鲁棒噪声估计来估计的。AVANE计算非语音帧的功率频谱的移动平均值,并且对于每个非语音帧,通过对当前非语音帧和一个或多个过去非语音帧的功率进行平均来计算非语音帧中噪声的功率频谱。在实施例中,要平均的过去帧的数量由时间常数确定。可以使用任何合适的移动平均算法,包括但不限于:算术平均、指数平均、平滑平均和加权移动平均。
AVANE生成以两种方式被使用的时变噪声频谱。第一,在非语音片段期间,将时变估计噪声馈送(例如,逐个缓存器地馈送)到噪声降低***。第二,在语音片段期间,将当前语音片段之前的最后一个AVANE估计和当前语音片段之后的第一个AVANE估计与当前语音帧一起馈送到推理组件。推理组件确定哪个AVANE估计最有可能表示当前语音帧中的噪声。
AVANE估计的替代性方法包括:例如Doblinger,G.(1995),Computationallyefficient speech enhancement by spectral minima tracking in subbands,Proc.EUROSPEECH'95,马德里,1513-1516页中所描述的子带中的频谱最小值跟踪;或者例如Martin,R.(2001),Noise power spectral density estimation based on optimalsmoothing and minimum statistics,IEEE Transactions on Speech and AudioProcessing,9(5)504-512中所描述的基于最优平滑和最小统计的噪声功率频谱密度估计。
在给定的语音片段内,提出了估计语音片段的底层噪声频谱的两个实施例。在第一实施例中,估计语音分量,然后从实际语音分量中减去估计的语音分量,以得到残余频谱作为噪声估计。该实施例导致对背景噪声的直接估计,因此与AVANE不相关或不与AVANE结合。假设语音由谐波分量主导,则首先估计基音,然后识别谐波分量。基于正弦模型及其参数估计,从语音信号中减去谐波分量以获得残差信号。该方法例如在Stylianou,Y.(1996),Harmonic plus Noise Models for Speech combined with Statistical Methods forSpeech and Speaker Modification,PhD Thesis,Telecom Paris中进行了描述。另一种可能性是在没有基频(F0)信息的情况下在给定短时频谱中识别并减去正弦曲线。该方法例如在Yeh,C.(2008),Multiple Fundamental Frequency Estimation of PolyphonicRecordings,Ph.D.thesis,University Paris中进行了描述。
在另一个实施例中,在倒谱域中估计和衰减谐波分量,例如Z.Zhang、K.Honda和J.Wei,"Retrieving Vocal-Tract Resonance and anti-Resonance From High-PitchedVowels Using a Rahmonic Subtraction Technique,"ICASSP 2020-2020IEEEInternational Conference on Acoustics,Speech and Signal Processing(ICASSP),巴塞罗那,西班牙,2020,7359-7363页,doi:10.1109/ICASSP40776.2020.9054741中所描述的。
AVANE方法假设底层噪声频谱更接近语音片段之前的最后一个AVANE或语音片段之后的第一个AVANE。在该实施例中,识别语音(例如,高频)不占主导的频谱片段,并在仅考虑频谱的主要含噪声分量的非语音片段的情况下计算语音频谱与AVANE之间的频谱相似性度量(例如,距离度量)。在实施例中,频谱相似性度量基于语音频谱与AVANE之间的距离。假设信噪比(SNR)(定义为语音频带中语音能量与噪声能量之比,其以分贝为单位)为正,可以添加进一步的约束,以便仅当感兴趣区域中(在与AVANE相同长度的持续时间内)的平均语音频谱高于要选择的AVANE时,才接受所选择的AVANE。
在谐波减法用于计算噪声频谱估计的实施例中,频谱相似性度量可以不限于语音频谱的非语音频率区域,而是可以扩展到整个频谱,或者限于高于特定语音频率的频率,例如语音的其中谐波估计有效的最低频率范围。因此,在从语音片段减去谐波之后的残差信号与语音片段之前和之后的AVANE估计之间计算相似性度量。
在实施例中,给定音频帧,计算音频帧的能量频谱并将其转换为分贝标度。在当前音频帧是语音帧(即,在语音片段中)时,语音片段之前和之后的先前计算的平均噪声频谱(以dB为单位)是从例如存储(例如存储器、光盘)中获得的。图3示出了根据一些实施例的平均语音频谱和与语音片段之前和之后的非语音片段相对应的两个噪声频谱。
给定这两个噪声频谱和当前语音频谱,计算噪声频谱的频率上限fc,并将两个上限中的最低值保留为“截止”频率fcutof。接下来,在从例如音频频谱的一半到截止频率的片段中计算相似性度量(在该示例中是语音频谱与两个噪声频谱之间的差(“距离”)的绝对值之和)。将具有最小(如前定义的)距离的噪声频谱保留为音频录音的噪声频谱的当前估计。在替代性实施例中,可以在一组语音帧上计算距离度量并进行平均,并且选择给出最低平均距离的噪声频谱作为噪声频谱的当前估计。
假设audioframe是帧中音频样本的向量,而spectrum是使用audioframe的快速傅里叶变换(FFT)计算的音频样本的频谱:
spectrum=fft(audioframe)。[1]
可以通过下式将spectrum转换为dB标度spectrumdB
spectrumdB=20log10(abs(spectrum))。[2]
如果当前帧是噪声帧,则保留其spectrumdB并与在给定长度(例如5秒)的窗口中的过去频谱进行平均,以下称为avg_spectrumdB。如果当前帧是语音帧,则将其频谱与过去噪声频谱和未来噪声频谱进行比较。在下文中,语音频谱被称为speech_spectrumdB,过去噪声频谱和未来噪声频谱分别被称为past_spectrumdB和future_speechdB
在一些实施例中,past_spectrumdB和future_spectrumdB中的每一个的频率上限fc通过以下方式确定:1)选择要在其以上范围估计fc的第一频率;2)将第一频率以上的噪声频谱划分为具有指定长度和重叠(例如50%)的块;3)在每个块中,计算平均导数,以其对应块的频率递增排序,找到具有小于预定义负值(例如,-20dB)的值的第一个导数;以及4)计算fc之前的小区域的噪声频谱的平均值,并用平均噪声频谱代替fc以上的噪声频谱的值。注意,步骤(3)应被解释为噪声频谱上的显著降低,并且对应块的频率被认为是频率上限。
给定截止频率fcutoff作为所确定的频率上限fc中的较低者以及语音以上频率f1,则当前语音频谱与噪声频谱之间的距离被计算为:
Figure BDA0004139221530000081
Figure BDA0004139221530000082
noise_spectrumselected=argmin(distance_past,distance_future)。[4]
如等式[4]所示,f1与fcutoff之间的频率范围定义了几乎不存在语音谐波且背景噪声为主导的频谱区域。distance_past和distance_future中的最小值(由argmin()给出)给出了更接近当前频谱的噪声频谱,并被选为噪声候选。这种方法可以扩展到多个候选噪声频谱。
注意,在使用谐波减法来估计和去除语音谐波的实施例中,可以通过用较低的频率索引(例如,语音的最低频率或残差估计被认为可靠的最低频率)代替起始索引f1来将等式3a、3b和4中描述的方法扩展到语音频率。
注意,给出本文描述的能够在存在语音的情况下估计噪声的任何方法(例如,AVANE方法),如上所述,可以通过将当前帧与从相邻非语音片段中的AVANE获得的估计进行比较并选择过去噪声估计或未来噪声估计,计算估计频谱与两个已知噪声频谱之间的距离。
图4是根据实施例的用于自适应噪声估计和噪声降低的***400的框图。划分器单元401将音频输入(例如,包含语音内容的音频文件)划分为重叠的帧片段,并且将得到的片段存储在多个缓存器402中,通过例如短时傅里叶变换(STFT)块403将所述片段变换为频谱405。话音活动检测(VAD)块404计算给定音频帧包含语音的概率。频谱405和VAD输出(语音概率)被馈送到平均单元406,所述平均单元针对每个语音帧产生当前语音频谱和多个噪声频谱407。语音频谱和多个噪声频谱407被输入到相似性度量单元408,所述相似性度量单元选择噪声频谱之一(例如,基于等式[3a,3b]的距离度量)作为要由噪声降低块409用来降低音频输入中的噪声的噪声频谱410。
在一些实施例中,噪声降低单元409使用所选择的噪声频谱410,通过将音频输入的频谱与所选择的噪声频谱410进行比较,并且将增益降低应用于输入信号的能量小于噪声频谱的能量加上预定义的阈值的那些频带,来降低音频输入中的噪声。
其他实施例
进一步实施例的以下描述侧重于进一步实施例与先前描述的实施例之间的差异。因此,将从以下描述中省略两个实施例共同的特征,并且因此应当假设先前描述的实施例的特征可以或至少可以在进一步的实施例中实施,除非以下对进一步的实施例的描述另有要求。
在一些实施例中,多个预先计算的噪声频谱是可用的,
noise_spectrumi,其中i=1,..,N,[5]
并且相似性度量是当前语音频谱与多个噪声频谱(以dB标度)之间的距离,由下式给出:
Figure BDA0004139221530000091
与较小距离相对应的噪声频谱被选择为:
noise_spectrumK,其中K=argmin(distacei)。[7]
多个噪声频谱可以先验地提供,例如在已知并提前测量在音频录音中发现的不同噪声条件的应用中,诸如在具有多个端点的电话会议中。替代性地,可以通过应用于非语音帧的多个频谱的聚类算法来确定多个噪声频谱。聚类算法可以是例如应用于多个非语音频谱向量的k均值聚类算法、或任何其他合适的聚类算法。
在线实施例
上述用于离线计算的实施例可以扩展到实时、在线、低时延场景。注意,在这种情况下,不能使用当前语音帧之后的未来噪声频谱。当候选噪声频谱被先验地提供时,使用可用的(存储的)噪声频谱在每个语音帧在线应用选择过程。当候选噪声频谱未被先验地提供时,可以在线构建噪声频谱。例如,从第一非语音帧获得第一噪声频谱。在接收到附加的非语音帧时,如果其与每个先前保留的噪声频谱的距离大于预定义的阈值,则计算非语音帧的噪声频谱并将其保留为附加的噪声频谱。在接收到附加的非语音帧时,计算非语音帧的噪声频谱并通过聚类算法(例如,k均值聚类)进行聚类,并将获得的聚类用作候选噪声频谱。每次接收到足够数量的新的非语音帧,或者每次接收到相对于现有聚类具有较大差异的非语音帧,重复和改进聚类过程。
音乐录音
在实施例中,音频录音包括音乐(或另一类音频内容)而不是语音内容。在该实施例中,语音分类器VAD被合适的音乐(或另一类)分类器代替。
音乐加语音录音
在实施例中,音频录音包括语音和音乐两者。在该实施例中,希望从语音和音乐部分清除噪声但保留音乐信号。在该实施例中,语音分类器被多类分类器(例如,音乐和语音分类器)或用于音乐和语音的两个单独的分类器代替。将由分类器输出的语音的概率和音乐概率与预定义的阈值进行比较,当语音的概率和音乐概率两者都小于预定义的阈值时,帧被认为是噪声。然后,应用先前描述的方法来为语音区域、并且可选地也为音乐区域估计合适的噪声频谱。
示例过程
图5是根据实施例的用于本底噪声估计和噪声降低的过程500的流程图。过程500可以使用图6所示的设备架构来实施。
过程500开始于将音频输入划分为语音片段和非语音片段(501),并且对于每个非语音片段中的每个帧,估计非语音片段的时变噪声频谱(503)和语音片段的语音频谱(504)。
过程500继续到:对于每个语音片段中的每个帧,识别语音频谱中的一个或多个非语音频率分量(505),将一个或多个非语音频率分量与多个估计的噪声频谱中的一个或多个相对应的频率分量进行比较(506);以及基于比较的结果,从多个估计的噪声频谱中选择估计的噪声频谱(507)。
在一些实施例中,多个估计的噪声频谱包括过去非语音片段的估计的噪声频谱和未来非语音片段的估计的噪声频谱。在一些实施例中,可以通过应用于非语音帧的多个噪声频谱的聚类算法来确定多个估计的噪声频谱。聚类算法可以是例如应用于多个非语音频谱向量的k均值聚类算法、或任何其他合适的聚类算法。
在一些实施例中,过程500可以继续到使用所选择的估计的噪声频谱降低音频输入中的噪声。
示例***架构
图6示出了根据实施例的用于实施参考图1至图5描述的特征和过程的示例***的框图。***600包括能够播放音频的任何设备,包括但不限于:智能电话、平板计算机、可穿戴计算机、车载计算机、游戏控制台、环绕***、信息亭。
如所示出的,***600包括中央处理单元(CPU)601,所述中央处理单元能够根据存储在例如只读存储器(ROM)602中的程序或者从例如存储单元608加载到随机存取存储器(RAM)603的程序来执行各种进程。在RAM 603中,根据需要,还存储CPU 601执行各种进程时所需的数据。CPU 601、ROM 602和RAM 603经由总线609相互连接。输入/输出(I/O)接口605也连接到总线604。
以下组件连接到I/O接口605:输入单元606,其可以包括键盘、鼠标等;输出单元607,其可以包括诸如液晶显示器(LCD)的显示器以及一个或多个扬声器;存储单元608,其包括硬盘或另一种合适的存储设备;以及通信单元609,其包括诸如网卡(例如,有线或无线)的网络接口卡。
在一些实施方式中,输入单元606包括位于不同位置(取决于主机设备)的一个或多个麦克风,所述一个或多个麦克风使得能够捕获各种格式(例如,单声道、立体声、空间、沉浸式和其他合适的格式)的音频信号。
在一些实施方式中,输出单元607包括具有各种数量的扬声器的***。如图6所图示的,输出单元607(取决于主机设备的能力)可以呈现各种格式(例如,单声道、立体声、沉浸式、双耳和其他合适的格式)的音频信号。
通信单元609被配置为(例如,经由网络)与其他设备通信。根据需要,驱动器610也连接到I/O接口605。根据需要,诸如磁盘、光盘、磁光盘、闪存驱动器或其他合适的可移动介质的可移动介质611被安装在驱动器610上,使得从中读取的计算机程序被安装到存储单元608中。本领域技术人员将理解,尽管***600被描述为包括上文所描述的组件,但是在实际应用中,可以添加、移除和/或替换这些组件中的一些组件,并且所有这些修改或变更都落入本公开的范围内。
根据本公开的示例实施例,上文所描述的过程可以实施为计算机软件程序或者在计算机可读存储介质上实施。例如,本公开的实施例包括计算机程序产品,所述计算机程序产品包括有形地体现在机器可读介质上的计算机程序,所述计算机程序包括用于执行方法的程序代码。在这种实施例中,计算机程序可以经由通信单元609从网络下载和安装,和/或从可移动介质611安装,如图6所示。
通常,本公开的各种示例实施例可以以硬件或专用电路(例如,控制电路)、软件、逻辑或其任何组合来实施。例如,上文所讨论的单元可以由控制电路(例如,与图6的其他组件组合的CPU)执行,因此,控制电路可以执行本公开中描述的动作。一些方面可以以硬件来实施,而其他方面可以以可以由控制器、微处理器或其他计算设备执行的固件或软件(例如,控制电路)来实施。尽管本公开的示例实施例的各个方面被图示和描述为框图、流程图或使用一些其他图形表示,但应当理解,本文所描述的框、装置、***、技术或方法可以以硬件、软件、固件、专用电路或逻辑、通用硬件或控制器、或其他计算设备、或其某种组合来实施,作为非限制性示例。
另外,流程图中所示的各个框可以被视为方法步骤、和/或由计算机程序代码的操作产生的操作、和/或被构造为执行相关联的功能的多个耦接逻辑电路元件。例如,本公开的实施例包括计算机程序产品,所述计算机程序产品包括有形地体现在机器可读介质上的计算机程序,所述计算机程序包含被配置为执行上文所描述的方法的程序代码。
在本公开的上下文中,机器可读介质可以是可以包含或存储用于由指令执行***、装置或设备使用或与指令执行***、装置或设备结合使用的程序的任何有形介质。机器可读介质可以是机器可读信号介质或机器可读存储介质。机器可读介质可以是非暂态的并且可以包括但不限于电子、磁性、光学、电磁、红外或半导体***、装置或设备、或前述各项的任何合适的组合。机器可读存储介质的更具体的示例将包括具有一条或多条导线的电连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或闪存)、光纤、便携式致密盘只读存储器(CD-ROM)、光存储设备、磁存储设备、或者前述各项的任何合适的组合。
用于执行本公开的方法的计算机程序代码可以用一种或多种编程语言的任何组合来编写。这些计算机程序代码可以被提供给通用计算机、专用计算机或具有控制电路的其他可编程数据处理装置的处理器,使得程序代码在由计算机的处理器或其他可编程数据处理装置的处理器执行时,实施流程图和/或框图中指定的功能/操作。程序代码可以完全在计算机上执行,部分在计算机上执行,作为独立的软件包,部分在计算机上执行、并且部分在远程计算机上执行,或者完全在远程计算机或服务器上执行,或者分布在一个或多个远程计算机和/或服务器上。
所列举的示例实施例(EEE)
本公开的实施例可以涉及下面列出的所列举的实施例(EEE)之一。
EE1是一种音频处理器,包括:划分器单元,被配置为将音频输入划分为重叠帧的片段;多个缓存器,被配置为存储所述重叠帧的片段;频谱分析单元,被配置为计算存储在每个缓存器中的每个片段的频谱;话音活动检测器(VAD),被配置为检测所述音频输入中的语音片段和非语音片段;平均单元,耦接到所述VAD的输出,并且被配置为对于由所述VAD输出标识的每个语音片段计算语音频谱,并且对于由所述VAD输出标识的每个非语音片段计算噪声频谱;相似性度量单元,被配置为计算当前语音频谱中的一个或多个频率分量与每个噪声频谱之间的相似性度量,以及基于所述相似性度量从所述多个噪声频谱中选择一个噪声频谱;以及噪声降低单元,被配置为使用所选择的噪声频谱降低所述音频输入中的噪声。
EEE2是如EEE1所述的音频处理器,其中,所述VAD被配置为获得所述音频输入的每个帧中的语音的概率,并基于所述概率将所述帧识别为包含语音。
EEE3是一种音频处理器,包括:话音活动检测器(VAD),被配置为检测所述音频输入中的语音片段和非语音片段;平均单元,耦接到所述VAD的输出,并且被配置为对于由所述VAD输出标识的每个语音片段获得语音频谱,并且对于由所述VAD输出标识的每个非语音片段获得噪声频谱;相似性度量单元,被配置为计算当前语音频谱中的一个或多个频率分量与每个噪声频谱中相对应的一个或多个频率分量之间的相似性度量,以及基于所述相似性度量从噪声频谱中选择一个噪声频谱;以及噪声降低单元,被配置为使用所选择的噪声频谱降低所述音频输入中的噪声。
虽然本文档包含许多具体实施方式细节,但是这些细节不应被解释为对可能要求保护的事物的范围的限制,而是被解释为对可能特定于特定实施例的特征的描述。本说明书中在单独实施例的上下文中描述的特定特征还可以在单个实施例中以组合形式实施。相反,在单一实施例的上下文中描述的各种特征也可以被单独地或以任何适合的子组合的方式实施在多个实施例中。此外,尽管特征在上文可以被描述为以某些组合起作用并且甚至最初也是如此要求保护的,但是在一些情况下可以从组合中去除要求保护的组合的一个或多个特征,并且所要求保护的组合可以涉及子组合或子组合的变体。在附图中描绘的逻辑流程不需要所示出的特定顺序或者有序顺序来实现期望的结果。另外,可以从所描述的流程中提供其他步骤,或者可以从中删除步骤,并且可以向所描述的***添加其他组件,或者从中移除其他组件。因此,其他实施方式在所附权利要求的范围内。

Claims (22)

1.一种自适应噪声估计方法,包括:
使用至少一个处理器,将音频输入划分为语音片段和非语音片段;
对于每个非语音片段中的每个帧,使用所述至少一个处理器估计所述非语音片段的时变噪声频谱;
对于每个语音片段中的每个帧,使用所述至少一个处理器估计所述语音片段的语音频谱;
对于每个语音片段中的每个帧,
识别所述语音频谱中的一个或多个非语音频率分量;
将所述一个或多个非语音频率分量与多个估计的噪声频谱中的一个或多个相对应的频率分量进行比较;以及
基于所述比较的结果,从所述多个估计的噪声频谱中选择估计的噪声频谱。
2.如权利要求1所述的方法,其中,所述多个估计的噪声频谱包括过去非语音片段的估计的噪声频谱和未来非语音片段的估计的噪声频谱。
3.如权利要求1或2所述的方法,还包括:
使用所述至少一个处理器,使用所选择的估计的噪声频谱降低所述音频输入中的噪声。
4.如权利要求1-3所述的方法,还包括获得所述音频输入的每个帧中的语音的概率,以及基于所述概率识别包含语音的帧。
5.如前述权利要求1-4中任一项所述的方法,其中,所述时变噪声频谱是通过计算所述非语音片段的功率频谱的移动平均值并对当前非语音片段和至少一个过去非语音片段的功率频谱进行平均来估计的。
6.如前述权利要求1-5中任一项所述的方法,其中,在所述非语音片段期间,时变估计的噪声频谱被馈送到噪声降低单元,所述噪声降低单元被配置为使用所选择的估计的噪声频谱降低所述音频输入中的噪声。
7.如前述权利要求2-6中任一项所述的方法,其中,对于每个语音片段,使用所述语音片段之前的过去估计的噪声频谱、所述语音片段之后的未来估计的噪声频谱和当前语音帧确定最有可能表示所述当前语音片段中的噪声的估计的噪声频谱。
8.如权利要求7所述的方法,其中,确定最有可能表示所述当前语音片段的噪声的估计的噪声频谱还包括:
分别从所述语音片段之前的过去非语音片段的过去噪声频谱和所述语音片段之后的未来非语音片段的未来噪声频谱获得平均噪声频谱;
确定所述过去噪声频谱和所述未来噪声频谱的频率上限;
将截止频率确定为两个频率上限中的最低者;
计算所述语音频谱中的频率分量与噪声频谱中的频率分量之间的距离度量;以及
选择所述过去噪声频谱或所述未来噪声频谱中直到所述截止频率为止具有最小距离度量的噪声频谱作为所述音频输入的估计的噪声频谱。
9.如权利要求8所述的方法,其中,所述距离度量在语音片段中的一组语音帧上进行平均。
10.如前述权利要求1-9中任一项所述的方法,其中,在所述音频信号的所述语音片段中估计语音分量,然后从实际语音分量中减去所述语音分量,以获得剩余频谱作为估计的非语音频率分量。
11.一种非暂态计算机可读存储介质,具有存储在其上的指令,所述指令在由一个或多个处理器执行时使得所述一个或多个处理器执行如前述方法权利要求1-9中任一项所述的操作。
12.一种音频处理器,包括:
划分器单元,被配置为将音频输入划分为语音片段和非语音片段;
平均单元,被配置为对于每个语音片段估计语音频谱,并且对于每个非语音片段估计时变噪声频谱;
相似性度量单元,被配置为:
识别所述语音频谱中的一个或多个非语音频率分量;
将所述一个或多个非语音频率分量与多个估计的噪声频谱中的一个或多个相对应的频率分量进行比较;以及
基于所述比较的结果,从所述多个估计的噪声频谱中选择估计的噪声频谱。
13.如权利要求12所述的音频处理器,其中,所述多个估计的噪声频谱包括过去非语音片段的估计的噪声频谱和未来非语音片段的估计的噪声频谱。
14.如权利要求12或13所述的音频处理器,还包括:
噪声降低单元,被配置为使用所选择的估计的噪声频谱降低所述音频输入中的噪声。
15.如权利要求13或14所述的音频处理器,其中,在所述非语音片段期间,所述噪声降低单元被配置为接收所述非语音片段并使用所选择的估计的噪声频谱降低所述音频输入中的噪声。
16.如权利要求14或15所述的音频处理器,其中,所述噪声降低单元被配置为使用所选择的估计的噪声频谱,通过将所述音频输入的频谱与所选择的估计的噪声频谱进行比较,并且将增益降低应用于所述音频输入的能量小于噪声频谱的能量加上预定义的阈值的频带,降低所述音频输入中的噪声。
17.如前述权利要求12-16中任一项所述的音频处理器,其中,话音活动检测器(VAD)被配置为获得所述音频输入的每个帧中的语音的概率,并且基于所述概率识别包含语音的帧。
18.如前述权利要求12-17中任一项所述的音频处理器,其中,所述平均单元被配置为通过计算所述非语音片段的功率频谱的移动平均值并对当前非语音片段和至少一个过去非语音片段的功率频谱进行平均来估计所述时变噪声频谱。
19.如前述权利要求12-18中任一项所述的音频处理器,其中,对于每个语音片段,所述相似性度量单元被配置为基于所述语音片段之前的过去估计的噪声频谱、所述语音片段之后的未来估计的噪声频谱和当前语音帧确定最有可能表示所述当前语音片段中的噪声的估计的噪声频谱。
20.如权利要求19所述的音频处理器,其中,所述相似性度量单元被配置为通过以下方式确定最有可能表示所述当前语音片段的噪声的估计的噪声频谱:
分别从所述语音片段之前的过去非语音片段的过去噪声频谱和所述语音片段之后的未来非语音片段的未来噪声频谱获得平均噪声频谱;
确定所述过去噪声频谱和所述未来噪声频谱的频率上限;
将截止频率确定为两个频率上限中的最低者;
计算所述语音频谱中的频率分量与噪声频谱中的频率分量之间的距离度量;以及
选择所述过去噪声频谱或所述未来噪声频谱中直到所述截止频率为止具有最小距离度量的噪声频谱作为所述音频输入的估计的噪声频谱。
21.如权利要求20所述的音频处理器,其中,所述相似性度量单元被配置为在语音片段中的一组语音帧上对所述距离度量进行平均。
22.如权利要求12所述的音频处理器,其中,所述相似性度量单元被配置为在所述音频输入的语音片段中估计一个或多个语音分量,然后从实际语音分量中减去所述一个或多个估计的语音分量,以获得剩余频谱作为估计的非语音频谱。
CN202180064939.2A 2020-09-23 2021-09-21 自适应噪声估计 Pending CN116324985A (zh)

Applications Claiming Priority (7)

Application Number Priority Date Filing Date Title
ES202030960 2020-09-23
ESP202030960 2020-09-23
US202063120253P 2020-12-02 2020-12-02
US63/120,253 2020-12-02
US202163168998P 2021-03-31 2021-03-31
US63/168,998 2021-03-31
PCT/US2021/051162 WO2022066590A1 (en) 2020-09-23 2021-09-21 Adaptive noise estimation

Publications (1)

Publication Number Publication Date
CN116324985A true CN116324985A (zh) 2023-06-23

Family

ID=78402218

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202180064939.2A Pending CN116324985A (zh) 2020-09-23 2021-09-21 自适应噪声估计

Country Status (5)

Country Link
US (1) US20240013799A1 (zh)
EP (1) EP4218012A1 (zh)
JP (1) JP2023542927A (zh)
CN (1) CN116324985A (zh)
WO (1) WO2022066590A1 (zh)

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2426167B (en) * 2005-05-09 2007-10-03 Toshiba Res Europ Ltd Noise estimation method
JP5245714B2 (ja) * 2008-10-24 2013-07-24 ヤマハ株式会社 雑音抑圧装置及び雑音抑圧方法
US20110099007A1 (en) * 2009-10-22 2011-04-28 Broadcom Corporation Noise estimation using an adaptive smoothing factor based on a teager energy ratio in a multi-channel noise suppression system

Also Published As

Publication number Publication date
WO2022066590A1 (en) 2022-03-31
EP4218012A1 (en) 2023-08-02
JP2023542927A (ja) 2023-10-12
US20240013799A1 (en) 2024-01-11

Similar Documents

Publication Publication Date Title
CN109643552B (zh) 用于可变噪声状况中语音增强的鲁棒噪声估计
US9536547B2 (en) Speaker change detection device and speaker change detection method
EP2979359B1 (en) Equalizer controller and controlling method
US10319391B2 (en) Impulsive noise suppression
US11943604B2 (en) Spatial audio processing
US9384760B2 (en) Sound processing device and sound processing method
EP2866229A2 (en) Voice activity detector
WO2012158156A1 (en) Noise supression method and apparatus using multiple feature modeling for speech/noise likelihood
KR20120080409A (ko) 잡음 구간 판별에 의한 잡음 추정 장치 및 방법
WO2013142652A2 (en) Harmonicity estimation, audio classification, pitch determination and noise estimation
US10021483B2 (en) Sound capture apparatus, control method therefor, and computer-readable storage medium
US20230162754A1 (en) Automatic Leveling of Speech Content
JP6724290B2 (ja) 音響処理装置、音響処理方法、及び、プログラム
CN116324985A (zh) 自适应噪声估计
CN111508512A (zh) 语音信号中的摩擦音检测
KR20070061216A (ko) Gmm을 이용한 음질향상 시스템
KR101811635B1 (ko) 스테레오 채널 잡음 제거 장치 및 방법
US20230290367A1 (en) Hum noise detection and removal for speech and music recordings
EP4094254B1 (en) Noise floor estimation and noise reduction
KR20200026587A (ko) 음성 구간을 검출하는 방법 및 장치
US12033649B2 (en) Noise floor estimation and noise reduction
US20230410829A1 (en) Machine learning assisted spatial noise estimation and suppression
KR101357381B1 (ko) 강인한 음성 검출을 위한 신호 처리 장치 및 방법
Wu et al. Perception auditory factor for speaker recognition in noisy environment
CN117037853A (zh) 一种音频信号的端点检测方法、装置、介质及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination