CN108140399A

CN108140399A - 用于超宽带音乐的自适应噪声抑制

Info

Publication number: CN108140399A
Application number: CN201680054867.2A
Authority: CN
Inventors: 杜明达·阿斯霍卡·德瓦苏伦德拉; 维韦克·拉金德朗; 苏巴辛格哈·夏敏达·苏巴辛格哈
Original assignee: Qualcomm Inc
Current assignee: Qualcomm Inc
Priority date: 2015-09-25
Filing date: 2016-07-27
Publication date: 2018-06-08
Also published as: US10186276B2; KR20180056752A; BR112018006076A2; WO2017052756A1; JP2018528479A; EP3353788A1; US20170092288A1

Abstract

本发明描述用于执行自适应噪声抑制以改进对至少高达超宽带SWB带宽的语音信号和音乐信号两者的处置的技术。所述技术包含识别俘获音频数据的上下文或环境和在基于所述上下文进行带宽压缩(例如，编码)之前自适应地改变施加到所述音频数据的噪声抑制等级。对于有效语音上下文，音频预处理器可设定相对侵略性的第一等级的噪声抑制以便抑制所述语音信号中的噪声(包含音乐)。对于有效音乐上下文，所述音频预处理器可设定侵略性较低的第二等级的噪声抑制以便使得所述音乐信号未失真。以此方式，发射器侧无线通信装置处的声码器可在最小失真的情况下对语音和音乐信号两者适当地进行编码。

Description

用于超宽带音乐的自适应噪声抑制

技术领域

本公开涉及音频信号处理，并且更具体地说，涉及将噪声抑制施加到音频信号。

背景技术

无线通信装置(例如，移动电话、智能电话、智能板、膝上型计算机、平板计算机等等)可用于有噪声的环境中。举例来说，移动电话可用于发射器侧处引入的环境、背景或环境噪声在接收器侧处降低可懂度且降低语音质量的音乐会、酒吧或餐馆。因此，无线通信装置通常将噪声抑制并入发射器侧音频预处理器以便在将语音信号呈现给声码器以供译码和发射之前减小噪声且净化语音信号。

在用户在音乐中以发射器侧无线通信装置谈话的状况下，或在用户尝试俘获音乐本身以供发射到接收器侧装置的状况下，噪声抑制将音乐信号处理为待消除的噪声以便改善任何语音信号的可懂度。因此，在带宽压缩(例如，编码)和发射之前通过噪声抑制来抑制音乐信号且使其失真，使得接收器侧处的听者将听到对发射器侧处的音乐信号的低质量再创造。

发明内容

一般来说，本公开描述用于执行自适应噪声抑制以改进对至少高达超宽带(SWB)带宽的语音信号和音乐信号两者的处置的技术。所公开的技术包含识别俘获音频数据的上下文或环境，和基于所述上下文在对音频数据进行带宽压缩(例如，编码)之前自适应地改变施加到音频数据的噪声抑制的等级。在音频数据具有有效语音上下文(即，用户意图主要发射语音信号)的状况下，音频预处理器可设定相对侵略性的第一等级的噪声抑制以便抑制语音信号中的噪声(包含音乐)。在音频数据具有有效音乐上下文(即，用户意图主要发射音乐信号或音乐和语音信号两者)的状况下，音频预处理器可设定侵略性较低的第二等级的噪声抑制以便使得音乐信号未失真。以此方式，发射器侧无线通信装置处的声码器可在最小失真的情况下对语音和音乐信号两者适当地进行压缩或编码。

在一个实例中，本公开涉及经配置以提供话音和数据通信的装置，所述装置包括一或多个处理器，其经配置以将可变等级的噪声抑制施加到输入音频数据之前获得输入音频数据的音频上下文，其中所述输入音频数据包含语音信号、音乐信号和噪声信号；在基于音频上下文使用音频编码器对输入音频数据进行带宽压缩之前将可变等级的噪声抑制施加到输入音频数据；以及对输入音频数据进行带宽压缩以产生至少一个音频编码器包。所述装置进一步包括存储器，其电耦合到所述一或多个处理器、经配置以存储所述至少一个音频编码器包；和发射器，其经配置以发射所述至少一个音频编码器包。

在另一实例中，本公开涉及能够噪声抑制的设备，包括：用于在将可变等级的噪声抑制施加到输入音频数据之前获得输入音频数据的音频上下文的装置，其中所述输入音频数据包含语音信号、音乐信号和噪声信号；用于在基于音频上下文使用音频编码器对输入音频数据进行带宽压缩之前将可变等级的噪声抑制施加到输入音频数据的装置；用于对输入音频数据进行带宽压缩以产生至少一个音频编码器包的装置；以及用于发射所述至少一个音频编码器包的装置。

在另一实例中，本公开涉及在话音和数据通信中使用的方法，包括在源装置的用户与目的地装置的用户之间的会话期间获得输入音频数据的音频上下文，其中在将可变等级的噪声抑制施加到来自所述源装置的所述用户的所述输入音频数据之前在源装置的用户的背景中播放音乐，且其中所述输入音频数据包含所述源装置的所述用户的话音和在所述源装置的所述用户的背景中播放的音乐；在基于包含为语音或音乐或语音和音乐两者的音频上下文的音频上下文使用音频编码器对输入音频数据进行带宽压缩之前将可变等级的噪声抑制施加到输入音频数据；对输入音频数据进行带宽压缩以产生至少一个音频编码器包；以及将至少一个音频编码器包从源装置发射到目的地装置。

在附图和以下描述中阐述所述技术的一或多个方面的细节。这些技术的其它特征、目标及优点将从所述描述及图式以及权利要求书而显而易见。

附图说明

图1是说明可利用本公开中所描述的技术的实例音频编码和解码***10的框图。

图2是说明可实施本公开中描述的技术的源装置的音频预处理器的实例的框图。

图3是说明可实施本公开中描述的技术的源装置的音频预处理器的替代实例的框图。

图4是说明根据本公开中描述的技术的经配置以执行自适应噪声抑制的音频预处理器的实例操作的流程图。

具体实施方式

本公开描述用于执行自适应噪声抑制以改进对至少高达超宽带(SWB)带宽的语音信号和音乐信号两者的处置的技术。无线通信装置的音频预处理器中包含的常规噪声抑制单元经配置以将任何非语音信号压缩为噪声以便改进待编码的语音信号的可懂度。此样式的噪声抑制与经配置以根据传统的语音编解码器而操作的声码器一起很好地起作用，例如自适应多速率(AMR)或自适应多速率宽带(AMRWB)。这些传统的语音编解码器能够例如使用代数码激励线性预测(ACELP)对带宽较低的语音信号进行译码(即，编码或解码)，但并不能够对高质量音乐信号进行译码。最近标准化的增强型话音服务(EVS)编解码器能够对高达超宽带带宽(即，0到16kHz)或甚至全频带带宽(即，0到24kHz)的语音信号以及音乐信号进行译码。然而，常规噪声抑制单元在编码之前继续抑制音乐信号且使其失真。

本公开中描述的技术包含识别俘获音频数据(语音、音乐或语音和音乐)的上下文或环境，和在基于所述上下文对音频数据进行编码之前自适应地改变施加到所述音频数据的噪声抑制的等级。举例来说，根据所公开的技术，无线通信装置可包含语音音乐(SPMU)分类器、接近传感器或用于确定是在有效语音上下文还是在有效音乐上下文中俘获音频数据的在发射器侧音频预处理器内的其它检测器中的一或多个。

在音频数据具有有效语音上下文(即，用户意图主要发射语音信号以参与与听者的会话)的状况下，音频预处理器可设定相对侵略性的第一等级的噪声抑制以便在将语音信号传递到声码器以供译码和发射之前抑制噪声(包含音乐)。在音频数据具有有效音乐上下文(即，用户意图主要发射音乐信号或音乐和语音信号两者以供听者体验)的状况下，音频预处理器可设定侵略性较低的第二等级的噪声抑制以允许未失真音乐信号传递到声码器以供译码和发射。以此方式，经配置以在发射器侧无线通信装置处根据EVS编解码器而操作的声码器可对语音和音乐信号两者适当地进行编码以使得能够在SWB音乐信号的最小失真的情况下完成对接收器侧装置处音频场景的再创造。

图1是说明可利用本公开中描述的技术的实例音频编码和解码***10的框图。如图1中所示，***10包含提供稍后将由目的地装置14解码的经编码音频数据的源装置12。具体来说，源装置12包含用于通过计算机可读媒体16将音频数据发射到包含在目的地装置14中的接收器(RX)31的发射器(TX)21。源装置12和目的地装置14可包括广泛范围的装置中的任一者，包含台式计算机、笔记本型(即，膝上型)计算机、平板计算机、机顶盒、移动电话手持机(例如所谓的“智能”电话)、所谓的“智能”板、电视机、相机、显示装置、数字媒体播放器、视频游戏控制台、视频流式传输装置、音频流式传输装置、可佩戴装置等。在一些状况下，可装备源装置12和目的地装置14以用于无线通信。

目的地装置14可通过计算机可读媒体16接收待解码的经编码音频数据。计算机可读媒体16可包括能够将经编码音频数据从源装置12移动到目的地装置14的任何类型的媒体或装置。在一个实例中，计算机可读媒体16可包括使得源装置12能够实时将经编码音频数据直接发射到目的地装置14的通信媒体。经编码音频数据可根据通信标准(例如无线通信协议)而调制，且被发射到目的地装置14。通信媒体可包括任何无线或有线通信媒体，例如射频(RF)频谱或一或多个物理发射线。通信媒体可形成分组网络(例如局域网、广域网或全球网络，例如因特网)的部分。通信媒体可包括路由器、交换器、基站或可用于促进从源装置12到目的地装置14的通信的任何其它设备。

在一些实例中，经编码音频数据可从源装置12输出到存储装置(未展示)。类似地，经编码音频数据可通过目的地装置14从存储装置存取。存储装置可包含多种分布式或本地存取式数据存储媒体中的任一者，例如硬盘驱动器、蓝光光盘、DVD、CD-ROM、快闪存储器、易失性或非易失性存储器或用于存储经编码音频数据的任何其它合适的数字存储媒体。在另一实例中，所述存储装置可对应于文件服务器或可存储由源装置12产生的经编码音频的另一中间存储装置。目的地装置14可通过流式传输或下载从存储装置存取所存储音频数据。文件服务器可为能够存储经编码音频数据且将经编码音频数据发射到目的地装置14的任何类型的服务器。实例文件服务器包含网络服务器(例如，用于网站)、FTP服务器、网络附接存储(NAS)装置或本地磁盘驱动器。目的地装置14可通过任何标准数据连接(包含因特网连接)来存取经编码音频数据。所述标准数据连接可包含无线信道(例如，Wi-Fi连接)、有线连接(例如，DSL、电缆调制解调器等等)或适合于存取存储于文件服务器上的经编码音频数据的两者的组合。经编码音频数据从存储装置的发射可为流式传输发射、下载发射或其组合。

图1的所说明的***10仅为一个实例。用于处理音频数据的技术可通过任何数字音频编码或解码装置执行。尽管本公开的技术通常通过音频预处理器执行，但所述技术还可通过通常被称作“编解码器”或“声码器”的音频编码装置或音频编码器/解码器执行。源装置12和目的地装置14仅为源装置12在其中产生经译码音频数据以供发射到目的地装置14的此些译码装置的实例。在一些实例中，装置12、14可以大体上对称的方式操作，使得装置12、14中的每一个包含音频编码和解码组件。因此，***10可支持装置12、14之间的单向或双向音频发射例如以供音频流式传输、音频回放、音频广播或音频电话。

在图1的实例中，源装置12包含麦克风18、音频预处理器22和音频编码器20。目的地装置14包含音频解码器30和扬声器32。在其它实例中，源装置12还可包含其自身的音频解码器且目的地装置14还可包含其自身的音频编码器。在所说明实例中，源装置12从可包括经配置以俘获输入音频数据的麦克风阵列的一或多个外部麦克风18接收音频数据。同样，目的地装置14与可包括扬声器阵列的一或多个外部扬声器32介接。在其它实例中，源装置和目的地装置可包含其它组件或布置。举例来说，源装置12可从例如一或多个集成麦克风的集成音频源接收音频数据。同样，目的地装置14可将音频数据输出到例如一或多个集成扬声器的集成音频输出装置。

在一些实例中，麦克风18可以物理方式耦合到源装置12，或可与源装置12无线地通信。为了说明与源装置12的无线通信，图1展示源装置12外部的麦克风18。在其它实例中，麦克风18还可已经展示于源装置12内部以说明源装置12与麦克风18的物理耦合。类似地，扬声器32可以物理方式耦合到目的地装置14，或可与目的地装置14无线地通信。为了说明与目的地装置14的无线通信，图1展示目的地装置14外部的扬声器32。在其它实例中，扬声器32还可已经展示于目的地装置14内部以说明目的地装置14到与扬声器32的物理耦合。

在一些实例中，源装置12的麦克风18可包含集成到源装置12中的至少一个麦克风。在源装置12包括移动电话的一个实例中，麦克风18可包含位于用户的嘴附近以获取用户的话音的至少一“前部”麦克风。在源装置12包括移动电话的另一实例中，麦克风18可包含位于用户的嘴附近的“前部”麦克风和位于移动电话的背侧以获取环境、背景或环境噪声的“后部”麦克风两者。在另一实例中，麦克风18可包括集成到源装置12中的麦克风的阵列。在其它实例中，源装置12可通过音频接口从一或多个外部麦克风接收音频数据；从含有先前俘获的音频的存储器或音频存档检索音频数据；或自身产生音频数据。可通过音频编码器20对所俘获、预俘获或计算机产生的音频进行带宽压缩和编码。至少一个音频编码器包中的经编码音频数据可接着通过源装置12的TX 21发射到计算机可读媒体16上。

计算机可读媒体16可包含瞬时媒体，例如无线广播或有线网络发射，或存储媒体(即，非暂时性存储媒体)，例如硬盘、快闪驱动器、压缩光盘、数字视频光盘、蓝光光盘或其它计算机可读媒体。在一些实例中，网络服务器(未展示)可从源装置12接收经编码音频数据且例如通过网络发射将经编码音频数据提供到目的地装置14。类似地，媒体生产设施(例如，光盘冲压设施)的计算装置可从源装置12接收经编码音频数据且生产含有经编码音频数据的光盘。因此，在各种实例中，计算机可读媒体16可理解为包含各种形式的一或多个计算机可读媒体。

目的地装置14可使用RX 31从计算机可读媒体16接收至少一个音频编码器包中的经编码音频数据以供通过音频解码器30进行解码。扬声器32将经解码音频数据向用户回放。目的地装置14的扬声器32可包含集成到目的地装置14中的至少一个扬声器。在目的地装置14包括移动电话的一个实例中，扬声器32可包含位于用户的耳部附近的至少一“前部”扬声器以用作传统的电话。在目的地装置14包括移动电话的另一实例中，扬声器32可包含位于用户的耳部附近的“前部”扬声器和位于移动电话上其它处以促进用作免提电话的“侧部”或“后部”扬声器两者。在另一实例中，扬声器32可包括集成到目的地装置14中的扬声器的阵列。在其它实例中，目的地装置14可通过音频接口发送经解码音频数据以供在一或多个外部扬声器上回放。以此方式，目的地装置14包含经配置以呈现音频解码器30的输出的扬声器32中的至少一个，所述音频解码器经配置以对通过目的地装置14接收的至少一个音频编码器包进行解码。

音频编码器20和音频解码器30各自可实施为各种合适的编码器电路中的任一者，例如一或多个微处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)、离散逻辑、软件、硬件、固件或其任何组合。当部分地以软件实施所述技术时，装置可将用于所述软件的指令存储于合适的非暂时性计算机可读媒体中且使用一或多个处理器以硬件执行所述指令以执行本公开的技术。音频编码器20和音频解码器30中的每一个可包含在一或多个编码器或解码器中，所述编码器或解码器中的任一个可集成为相应装置中的组合式编码器/解码器(编解码器或声码器)的部分。

另外，源装置12包含存储器13且目的地装置14包含经配置以在操作期间存储信息的存储器15。集成存储器可包含计算机可读存储媒体或计算机可读存储装置。在一些实例中，集成存储器可包含短期存储器或长期存储器中的一或多个。集成存储器可包含例如随机存取存储器(RAM)、动态随机存取存储器(DRAM)、静态随机存取存储器(SRAM)、磁性硬盘、光盘、软盘、快闪存储器、或各形式的电可编程存储器(EPROM)或电可擦除且可编程存储器(EEPROM)。在一些实例中，集成存储器可用于存储程序指令以供由一或多个处理器执行。集成存储器可由源装置12和目的地装置14中的每一个上运行的软件或应用程序用以在程序执行期间暂时存储信息。

以此方式，源装置12包含电耦合到一或多个处理器且经配置以存储至少一个音频编码器包的存储器13和经配置以无线发射至少一个音频编码器包的发射器21。如本文中所使用，“耦合”可包含“以通信方式耦合”、“电耦合”或“以物理方式耦合”和其组合。两个装置(或组件)可通过一或多个其它装置、组件、电线、总线、网络(例如，有线网络、无线网络或其组合)等等直接或间接耦合(例如，以通信方式耦合、电耦合或以物理方式耦合)。电耦合的两个装置(或组件)可包含在同一装置或不同装置中且可通过作为说明性非限制性实例的电子件、一或多个连接器或电感藕合而连接。在一些实施方案中,以通信方式耦合(例如电连通)的两个装置(或组件)可例如通过一或多个电线、总线、网络等等直接或间接发送和接收电信号(数字信号或模拟信号)。举例来说，存储器13可与源装置12的一或多个处理器电连通，所述源装置可包含音频编码器20和执行噪声抑制单元24的预处理器22。作为另一实例，存储器15可电耦合到目的地装置14的一或多个处理器，所述目的地装置可包含音频解码器30。

在一些实例中，源装置12和目的地装置14为可在有噪声的环境下使用的移动电话。举例来说，源装置12可在源装置12处引入的环境、背景或环境噪声会降低可懂度且降低目的地装置14处的语音质量的音乐会、酒吧或餐馆使用。因此，源装置12包含音频预处理器22内的噪声抑制单元24以便在将语音信号呈现给音频编码器20以供带宽压缩、译码和发射到目的地装置14之前减小噪声且改进(或换句话说，净化)语音信号。

一般来说，噪声抑制为用于在用户正在发射器侧环境中说话时抑制由麦克风俘获的背景噪声的发射器侧技术。噪声抑制不应与有源噪声消除(ANC)混淆，所述有源噪声消除为用于消除在接收器侧环境中遇到的任何噪声的接收器侧技术。在发射器侧在预处理期间执行噪声抑制以便使所俘获音频数据准备好进行编码。即，噪声抑制可减小噪声以准许在编码期间实现更高效压缩，从而相较于尚未使用噪声抑制预处理的经编码音频数据产生较小(在大小方面)的经编码音频数据。因而，并不在音频编码器20内执行噪声抑制，但替代地在音频预处理器22中执行噪声抑制且音频预处理器22中噪声抑制的输出为到音频编码器20的输入，有时会在所述输出与所述输入之间进行其它少量处理。

噪声抑制可以窄带(NB)(即，0到4kHz)、宽带(WB)(即，0到7kHz)、超宽带(SWB)(即，0到16kHz)或全频带(FB)(即，0到24kHz)带宽操作。举例来说，如果待噪声抑制的输入音频数据为SWB内容，那么噪声抑制可处理所述音频数据以抑制呈0到16kHz范围内的所有频率的噪声，且预期输出为0到16kHz范围内的干净语音信号。如果输入音频数据带宽较高，例如FB带宽，那么噪声抑制的快速傅里叶变换(FFT)可将输入音频数据***到更多频带中且可针对所述频带中的每一个而确定和施加后处理增益。稍后，噪声抑制的逆FFT(IFFT)可将***在所述频带当中的音频数据组合成噪声抑制的单个输出信号。

在用户在音乐中对源装置12谈话的状况下，或在用户尝试自身俘获音乐以供发射到目的地装置14的状况下，在音频预处理期间的常规噪声抑制将音乐信号视为待消除的噪声以便改进语音信号的可懂度。因此，在编码和发射之前通过常规噪声抑制来抑制音乐信号且使其失真，使得在目的地装置14处倾听的用户将听到音乐信号的低质量再创造。

常规噪声抑制与经配置以根据传统的语音编解码器而操作的声码器一起很好地起作用，例如自适应多速率(AMR)或自适应多速率宽带(AMRWB)。这些传统的语音编解码器能够例如使用代数码激励线性预测(ACELP)对带宽较低的语音信号进行译码(即，编码或解码)，但并不能够对高质量音乐信号进行译码。举例来说，AMR和AMRWB编解码器并不将传入音频数据分类为语音内容或音乐内容，且相应地对其进行编码。替代地，AMR和AMRWB编解码器将所有非噪声信号处理为语音内容且使用ACELP对所述语音内容进行译码。因此，根据AMR或AMRWB编解码器经译码的音乐的质量较差。另外，AMR编解码器限于呈窄带(NB)带宽(即，0到4kHz)的音频数据，且AMRWB编解码器限于呈宽带(WB)带宽(即，0到7kHz)的音频信号。然而，大多数音乐信号包含高于7kHz的大量内容，其被AMR和AMRWB编解码器丢弃。

最近标准化的增强型话音服务(EVS)编解码器能够对高达超宽带(SWB)带宽(即，0到16kHz)或甚至全频带(FB)带宽(即，0到24kHz)的语音信号以及音乐信号进行译码。一般来说，存在的其它编解码器能够对音乐信号进行译码，但这些编解码器并不用以或意图还对移动电话域(例如，第三代合作伙伴计划(3GPP))中的会话语音进行译码，这需要低延迟操作。EVS编解码器为低延迟会话编解码器，其还可对高质量(例如，SWB或FB带宽)的呼叫中音乐信号进行译码。

因此，EVS编解码器为用户提供在会话内发射音乐信号且重新创造存在于例如源装置12的发射器侧装置、接收器侧装置(即，目的地装置14)处的丰富音频场景的能力。然而，在音频预处理期间的常规噪声抑制在编码之前继续抑制音乐信号且使其失真。即使在所俘获音频数据包含信噪比(SNR)等级较高而非在背景中的主要音乐信号的状况下，也通过常规噪声抑制使所述音乐信号高度失真。

在图1的实例中，源装置12的音频编码器20和目的地装置14的音频解码器30经配置以根据EVS编解码器而操作。以此方式，音频编码器20可在源装置12处对SWB或FB音乐信号进行完全编码，且音频解码器30可在目的地装置14处适当地再现SWB或FB音乐信号。如图1中所说明，音频编码器20包含语音音乐(SPMU)分类器26、话音活动检测器(VAD)27、低频带(LB)编码单元28A和高频带(HB)编码单元28B。音频编码器20通过分开地使用LB编码单元28A对音频数据的低频带(0到8kHz)部分进行编码且使用HB编码单元28B对高频带(8到16kHz或8到24kHz)部分进行编码(取决于这些带中内容的可用性)而执行呈两个部分的编码。

在音频编码器20处，VAD 27可在输入音频数据包含语音内容时将输出提供为1，且在输入音频数据包含非语音内容(例如音乐、音调、噪声等等)时将输出提供为0。SPMU分类器26确定音频编码器20的音频数据输入是包含语音内容、音乐内容还是语音和音乐内容两者。基于此确定，音频编码器20选择用于输入音频数据的最佳LB和HB编码方法。在LB编码单元28A内，当音频数据包含语音内容时选择一个编码方法，且当音频数据包含音乐内容时选择另一编码方法。在HB编码单元28B内也是这样。SPMU分类器26将控制输入提供到LB编码单元28A和HB编码单元28B，从而指示在LB编码单元28A和HB编码单元28B中的每一个内应选择哪一译码方法。音频编码器20还可以将选定编码方法传达到音频解码器30，使得音频解码器30可选择对应LB和HB解码方法以对经编码音频数据进行解码。

EVS编解码器中SPMU分类器的操作更详细地描述于Malenovsky等人的“在EVS编解码器中进行决策平滑化和锐化的二级语音/音乐分类器(Two-Stage Speech/MusicClassifier with Decision Smoothing and Sharpening in the EVS Codec)”，关于声学、语音和信号处理的第40次IEEE国际会议(ICASSP)2015，澳大利亚布里斯班，2015年4月19到24日中。可选模式声码器(SMV)中SPMU分类器的操作更详细地描述于Song等人的“基于GMM对用于3GPP2SMV的语音/音乐分类的分析和改进(Analyasis and Improvement ofSpeech/Music Classification for 3GPP2 SMV Based on GMM)”，IEEE SignalProcessing Letters，第15卷，2008中。

倘若SPMU分类器26将输入音频数据分类为音乐内容，可使用变换域译码技术实现最佳质量音频编码。然而，如果在预处理期间将常规噪声抑制施加到音频数据的音乐信号，那么可通过侵略性等级的噪声抑制将失真引入到音乐信号中。失真的音乐信号可致使SPMU分类器26将输入音频数据错误分类为语音内容。音频编码器20可接着为输入音频数据选择不太理想的编码方法，这将降低音频解码器30的输出处音乐信号的质量。此外，即使SPMU分类器26能够将输入音频数据适当地分类为音乐内容，选定编码方法也将对失真音乐信号进行编码，这也将降低音频解码器30的输出处音乐信号的质量。

本公开描述用于执行自适应噪声抑制以改进对至少高达SWB带宽的语音信号和音乐信号两者的处置的技术。在一些实例中，自适应噪声抑制技术可用于基于变为俘获音频数据的上下文或环境而在电话呼叫期间改变施加到音频数据的噪声抑制的等级。

在图1的所说明实例中，源装置12的音频预处理器22内的噪声抑制单元24经配置以识别用于由麦克风18俘获的音频数据的有效音乐上下文。在有效音乐上下文的状况下，噪声抑制单元24可进一步经配置以将低等级噪声抑制施加到音频数据或不施加噪声抑制以在最小失真情况下允许所俘获音频数据的音乐信号传递通过噪声抑制单元24且使得经配置以根据EVS编解码器而操作的音频编码器20能够对音乐信号进行适当地编码。另外，在有效语音上下文的状况下，噪声抑制单元24可经配置以通过施加侵略性或高等级噪声抑制且将干净语音信号呈现给音频编码器20而类似于常规噪声抑制技术处置较高噪声环境中的语音信号。

本文中所公开的裝置、设备、***和方法可适用于各种计算装置。计算装置的实例包含移动电话、蜂窝式电话、智能电话、头戴式耳机、视频摄像机、音频播放器(例如，移动图像专家组-1(MPEG-1)或MPEG-2音频层3(MP3)播放器)、视频播放器、音频记录器、台式计算机/膝上型计算机、个人数字助理(PDA)、游戏***等等。一种类别的计算装置为可与另一装置通信的通信装置。通信装置的实例包含移动电话、膝上型计算机、台式计算机、蜂窝式电话、智能电话、电子阅读器、平板计算机装置、游戏***等等。

计算装置或通信装置可根据某些业界标准操作，例如国际电信联盟(ITU)标准或电气和计算工程师(IEEE)协会标准(例如，如802.11a、802.11b、802.11g、802.11n或802.11ac的无线保真或“Wi-Fi”标准)。通信设备可遵守的标准的其它实例包含IEEE802.16(例如，全球微波接入互操作性或“WiMAX”)、第三代合作伙伴计划(3GPP)、3GPP长期演进(LTE)、全球移动通讯***(GSM)等(其中通信设备可被称为例如用户设备(UE)、基站、演进的基站(eNB)、移动装置、移动站、用户站、远程站、接入终端、移动终端、终端、用户终端、用户单元等等)。尽管本文中所公开的一些裝置、设备、***和方法可依据一或多个标准来描述，但由于所述裝置、设备、***和方法可适用于多个***和标准，因此所述技术应不限于本公开的范围。

应注意，一些通信装置可无线通信或可使用有线连接或链接通信。举例来说，一些通信装置可使用以太网协议与其它装置通信。本文中所公开的装置、设备、***和方法可适用于无线通信或使用有线连接或链接通信的通信装置。

图2是说明可实施本公开中描述的技术的源装置12的音频预处理器22的实例的框图。在图2的实例中，音频预处理器22包含噪声抑制单元24、接近传感器40、语音音乐(SPMU)分类器42、声音分离(SS)单元45和控制单元44。噪声抑制单元24进一步包含快速傅里叶变换(FFT)46、噪声参考产生单元48、后处理增益单元50、自适应波束成形单元52、增益施加和平滑化单元54和逆FFT(IFFT)56。

图2的所说明实例包含用于在源装置12处俘获语音、音乐和噪声信号的双麦克风18A、18B。双麦克风18A、18B包括来自图1的麦克风18中的两个。因此，双麦克风18A、18B可包括位于源装置12外部的麦克风阵列中的两个麦克风。在源装置12包括移动电话的状况下，主要麦克风18A可为移动电话的“前部”麦克风，且辅助麦克风18B可为移动电话的“后部”麦克风。由双麦克风18A、18B俘获的音频数据为预处理器22的输入。

在一些实例中，SS单元45可在将音频数据馈入到噪声抑制单元24之前接收由双麦克风18A、18B俘获的音频数据。SS单元45包括将语音从包含在输入音频数据中的噪声分离出来且将语音(加上少许残余噪声)放置在一个通道中而将噪声(加上少许残余语音)放置在另一通道中的声音分离单元。在图2中所说明的双麦克风***中，所述噪声可包含并不被分类为语音的所有声音。举例来说，如果源装置12的用户正处棒球比赛且存在欢呼和人们的喝彩且空中有飞机飞过且正播放音乐，那么所有那些声音都将被置于“噪声”通道中。在三个麦克风的***中，可有可能将音乐分离到其自身的通道中，使得存在(1)语音通道、(2)音乐通道和(3)包含任何剩余声音的噪声通道，例如欢呼、人们的喝彩和空中的飞机。随着麦克风数目的增加，SS单元45可配置有更高自由度以便将输入音频数据的声音源的相异类型分离出来。在一些实例中，麦克风阵列中的每个麦克风都可与一个通道相关。在其它实例中，两个或多于两个麦克风可俘获与同一通道相关的声音。

在噪声抑制单元24内，使用FFT 46将所俘获音频数据变换到频域。举例来说，FFT46可将输入音频数据***到多个频带中以供在所述频带中的每一个处进行处理。举例来说，FFT 46的每个频带或频点可包含频域中所述通道中的一个中的噪声频谱和所述通道中的另一个中的语音频谱。

自适应波束成形单元52接着用于使输入音频数据中的语音信号和噪声信号在空间上分离，且由通过双麦克风18A、18B俘获的输入音频数据而产生语音参考信号和噪声参考信号。自适应波束成形单元52包含空间滤波以识别语音的方向且将来自其它空间扇区的所有噪声滤出。自适应波束成形单元52将语音参考信号馈送到增益施加和平滑化单元54。噪声参考产生单元48从自适应波束成形单元52接收经变换音频数据和经分离噪声信号。噪声参考产生单元48可产生一或多个噪声参考信号以供输入到后处理增益单元50。

后处理增益单元50执行对多个频带内的噪声参考信号的进一步处理以计算用于噪声参考信号的增益因数。后处理增益单元50接着将计算出的增益因数馈送到增益施加和平滑化单元54。在一个实例中，增益施加和平滑化单元54可使用一定增益和平滑化从语音参考信号减去噪声参考信号以便抑制音频数据中的噪声。增益施加和平滑化单元54接着将噪声受抑制的信号馈送到IFFT 56。IFFT 56可将***在所述频带当中的音频数据组合成单个输出信号。

通过后处理增益单元50计算出的增益因数为确定在增益施加和平滑化单元54处噪声信号的减除的侵略性将如何且因此确定施加到输入音频数据的噪声抑制的侵略性如何的因数当中的一个主要因数。增益施加和平滑化单元54在每一帧基础上，例如通常每5到40毫秒，将噪声抑制施加到输入音频数据。

在一些实例中，后处理增益单元50可使用基于更高级SNR的后处理方案。在这些实例中，在对语音参考信号X(n，f)与噪声参考信号N(n，f)，单独频带内的能量进行比较之后，后处理增益单元50根据下式计算在每一帧n期间对应于每个频带f的SNR值S(n，f)。

接着，后处理增益单元50使用所述SNR值(n，f)以计算增益因数G(n，f)，其通过增益施加和平滑化单元54施加到语音参考信号以根据下式计算噪声受抑制的信号Y(n，f)。

Y(n，f)＝G(n，f)·X(n，f)

在有效音乐上下文中俘获输入音频数据的状况下，如果将较低或较小增益因数施加到某些频带内的语音参考信号，那么输入音频数据内的音乐信号可严重失真。

在图2的所说明实例中，音频预处理器22包含接近传感器40、SPMU分类器42和与噪声抑制单元24并行运行的控制单元44。根据本公开中描述的技术，这些额外模块经配置以确定通过双麦克风18A、18B俘获输入音频数据的上下文或环境，且控制噪声抑制单元24的后处理增益单元50以基于音频数据的所确定上下文而设定用于输入音频数据的噪声抑制的等级。

以此方式，源装置12的音频预处理器22可经配置以在将可变等级的噪声抑制施加到输入音频数据之前获得输入音频数据的音频上下文，其中所述输入音频数据包含语音信号、音乐信号和噪声信号；且在基于所述音频上下文使用音频编码器20对所述输入音频数据进行带宽压缩之前将可变等级的噪声抑制施加到输入音频数据。在一些状况下，输入音频数据的第一部分可通过麦克风18A俘获，且输入音频数据的第二部分可通过麦克风18B俘获。

接近传感器40可为通常包含于移动电话内的识别移动电话相对于用户的位置的硬件单元。接近传感器40可将信号输出到控制单元44，从而指示移动电话是位于用户的脸部附近还是远离用户的脸部。以此方式，接近传感器40可辅助控制单元44确定移动电话是否接近于用户的嘴而定向或确定所述装置是否远离用户的嘴向远端定向。在一些实例中，当移动电话旋转某一角度，例如用户正在倾听但并不谈话时，移动电话的听筒可在用户的脸部或耳部附近但前部麦克风可不在用户的嘴附近。在此状况下，即使移动电话更远离用户但直接定位在用户前方，接近传感器40仍可确定移动电话接近于用户定向。

举例来说，接近传感器40可包含一或多个基于红外(IR)的接近传感器以在将移动电话放置于用户的脸部附近(例如，正好紧邻用户的脸颊或耳部以用作传统的电话)时检测人的皮肤的存在。通常，移动装置出于两个目的而执行此接近性感测：通过关闭显示屏背光而减小显示器电力消耗，且停用触摸屏以避免用户的脸颊的无意触碰。在本公开中，接近传感器40可用于又一目的，即控制噪声抑制单元24的行为。以此方式，接近传感器40可经配置以辅助控制单元44确定输入音频数据的音频上下文。

SPMU分类器42可为由源装置12的音频预处理器22执行的软件模块。以此方式，将SPMU分类器42集成到源装置12的一或多个处理器中。SPMU分类器42可将信号输出到控制单元44，从而将输入音频数据分类为语音内容或音乐内容中的一个或两个。举例来说，SPMU分类器42可基于线性鉴别、基于SNR的度量或高斯混合模型化(GMM)中的一或多个而执行音频数据分类。SPMU分类器42可与噪声抑制单元24并行地运行而无延迟的增加。

SPMU分类器42可经配置以提供输入音频数据的至少两个分类输出。在一些实例中，SPMU分类器42可基于用于俘获输入音频数据的麦克风的数目而提供额外分类输出。在一些状况下，至少两个分类输出中的一个为音乐，且所述至少两个分类输出中的另一个为语音。根据本公开的技术，控制单元44可控制噪声抑制单元24以基于至少两个分类输出中的所述一个为音乐而调节用于输入音频数据的一个增益值。此外，控制单元44可控制噪声抑制单元24以基于至少两个分类输出中的所述一个为语音而调节一个增益值。

如图2中所说明，SPMU分类器42可经配置以分开地分类来自主要麦克风18A和辅助麦克风18B中的每一个的输入音频数据。在此实例中，SPMU分类器42可包含两个单独SPMU分类器，一个用于双麦克风18A、18B中的每一个。在一些实例中，SPMU分类器42内所述分类器中的每一个可包括经配置以将输入音频数据分类为语音内容(例如，值0)、音乐内容(例如，值1)或语音和音乐内容(例如，值2)的三级分类器。在其它实例中，SPMU分类器42内所述分类器中的每一个可包括甚至更高数目的等级以包含其它特定类型的声音，例如口哨声、音调等等。

一般来说，SPMU分类器通常包含在经配置以根据EVS编解码器而操作的音频编码器中，例如来自图1的音频编码器20的SPMU分类器26。根据本公开的技术，例如SPMU分类器42的一或多个额外SPMU分类器包含于音频预处理器22内以分类通过双麦克风18A、18B俘获的输入音频数据，以供控制单元44用以将输入音频数据的上下文确定为有效语音上下文或有效音乐上下文。在一些实例中，EVS声码器内的SPMU分类器，例如来自图1的音频编码器20的SPMU分类器26可通过反馈环路由音频预处理器22使用而不是包含音频预处理器22内的一或多个额外SPMU分类器。

在图2中所说明的实例中，包含在预处理器22中的SPMU分类器42可包括语音音乐分类器的较低复杂度版本。虽然类似于可提供每20ms帧的语音内容、音乐内容或语音和音乐内容的分类的音频编码器20的SPMU分类器26，但预处理器22的SPMU分类器42可经配置以大致每200到500ms对输入音频数据进行分类。以此方式，预处理器22的SPMU分类器42相较于EVS编码器内使用的SMPU分类器，例如来自图1的音频编码器20的SPMU分类器26可为较低复杂度。

控制单元44可通过一定滞后组合来自接近传感器40和SPMU分类器42两者的信号以将输入音频数据的上下文确定为有效语音上下文(即，用户意图主要发射语音信号以参与与听者的会话)或有效音乐上下文(即，用户意图主要发射音乐信号或音乐和语音信号两者以供听者体验)中的一个。以此方式，控制单元44可在经俘获具有待抑制的环境、背景或环境噪声的音频数据与在有效音乐上下文中俘获的音乐信号应保持经编码以再造丰富音频场景的音频数据之间进行区分。控制单元44将所确定音频上下文馈送到噪声抑制单元24的后处理增益单元50。以此方式，控制单元44可集成到源装置12的一或多个处理器中且经配置以在所述一或多个处理器经配置以获得输入音频数据的音频上下文时确定输入音频数据的音频上下文。

在一些实例中，通过控制单元44确定的音频上下文可充当用于在噪声抑制单元24内产生噪声受抑制的信号的默认等级的噪声抑制的超控，例如后处理增益G(n，f)。举例来说，如果通过控制单元44识别有效音乐上下文，那么在噪声抑制单元24内的变化当中，后处理增益可经修改，从而设定侵略性较低的等级的噪声抑制以便保持SWB或FB音乐的质量。一个实例技术为根据下式基于所识别音频上下文而修改后处理增益G(n，f)。

G_mod(n，f)＝G(n，f)·M(n)

在上式中，M(n)通过控制单元44导出且表示可认为输入音频数据具有有效音乐上下文的程度。

在图2的实例噪声抑制配置中，后处理增益被描述为经改变以修改施加到输入音频数据的噪声抑制的等级的主要因数。在其它实例中，可改变噪声抑制中所使用的若干其它参数以便修改所施加噪声抑制的等级以促进较高音乐质量。举例来说，除修改后处理增益G(n，f)之外，还可基于所确定音频上下文而执行噪声抑制单元24内的其它变化。所述其它变化可包含对由噪声抑制单元24的各种组件使用的某些阈值的修改，所述组件例如噪声参考产生单元48或图2中未说明的其它组件，包含话音活动检测单元、频谱差异评估单元、遮蔽单元、频谱平坦度估计单元、基于话音活动检测(VAD)的残余噪声抑制单元等等。

在控制单元44确定输入音频数据是在有效音乐上下文中俘获，例如在主要麦克风18A中检测到音乐信号且移动电话远离用户的脸部的状况下，噪声抑制单元24可暂时设定侵略性较低的等级的噪声抑制以允许音频数据的音乐信号在最小失真的情况下传递通过噪声抑制单元24。当控制单元44再次确定输入音频数据具有有效语音上下文，例如在主要麦克风18A中检测到语音信号或移动电话接近于用户的脸部时，噪声抑制单元24可接着退回到噪声抑制的默认的侵略性等级。

在一些实例中，噪声抑制单元24可存储用于所述侵略性等级的噪声抑制的一组默认噪声抑制参数和用于一或多个侵略性较低的等级的噪声抑制的其它组噪声抑制参数。在一些实例中，可基于用户输入在有限时间段内超控噪声抑制的默认侵略性等级。关于图3更详细地描述此实例。

以此方式，增益施加和平滑化单元54可经配置以在输入音频数据的音频上下文为音乐时使输入音频数据衰减一个等级且在输入音频数据的音频上下文为语音时使输入音频数据衰减不同等级。在一个实例中，当所述输入音频数据的所述音频上下文为第一音频帧中的语音时所述输入音频数据的第一等级衰减可在当所述输入音频数据的所述音频上下文为第二音频帧中的音乐时所述输入音频数据的第二等级衰减的15％内。在此实例中，第一帧可在第二音频帧之前或之后的五十个音频帧内。在一些状况下，噪声抑制单元24可被称作噪声抑制器，且增益施加和平滑化单元54可被称为噪声抑制器内的增益调节器。

在第一实例用例中，移动电话的用户可在具有响亮的噪声和音乐的环境(例如，有噪声的酒吧、派对或在街道上)下在电话呼叫期间进行谈话。在此状况下，接近传感器40检测到移动电话位于用户的脸部附近，且SPMU分类器42确定来自主要麦克风18A的输入音频数据包含高语音内容以及高等级的噪声和音乐内容，且来自辅助麦克风18B的输入音频数据具有高等级的噪声和音乐内容且有可能具有类似于多路重合噪声的一些语音内容。在此状况下，控制单元44可确定输入音频数据的上下文为有效语音上下文，且控制噪声抑制单元24以设定用于施加到输入音频数据的噪声抑制的侵略性等级。

在第二实例用例中，移动电话的用户可在具有响亮的噪声和音乐的环境下在电话呼叫期间倾听。在此状况下，接近传感器40检测到移动电话位于用户的脸部附近，且SPMU分类器42确定来自主要麦克风18A的输入音频数据包含高噪声和音乐内容而不具有语音内容，且来自辅助麦克风18B的输入音频数据包含类似内容。在此状况下，即使输入音频数据不包含语音内容，控制单元44也可使用移动装置与用户的脸部的接近性以确定输入音频数据的上下文为有效语音上下文，且控制噪声抑制单元24以设定用于施加到输入音频数据的噪声抑制的侵略性等级。

在第三实例用例中，用户可在具有音乐和极少噪声或无噪声的环境下将移动电话举起到空中或远离用户的脸部(例如，以在家用环境或音乐厅中俘获某人唱歌或弹奏乐器)。在此状况下，接近传感器40检测到移动电话远离用户的脸部定位，且SPMU分类器42确定来自主要麦克风18A的输入音频数据包含高音乐内容，且来自辅助麦克风18B的输入音频数据也包含一些音乐内容。在此状况下，基于不存在背景噪声，控制单元44可确定输入音频数据的上下文为有效音乐上下文，且控制噪声抑制单元24以设定用于施加到输入音频数据的低等级的噪声抑制或不设定噪声抑制。

在第四实例用例中，用户可在具有响亮的噪声和音乐的环境下将移动电话举起到空中或远离用户的脸部(例如，以俘获在有噪声的酒吧、派对或室外音乐会中播放的音乐)。在此状况下，接近传感器40检测到移动电话远离用户的脸部定位，且SPMU分类器42确定来自主要麦克风18A的输入音频数据包含高级噪声和音乐内容，且来自辅助麦克风18B的输入音频数据也包含类似内容。在此状况下，即使存在背景噪声，控制单元44也可使用输入音频数据中不存在语音内容和移动装置的远离用户的脸部的位置以确定输入音频数据的上下文为有效音乐上下文，且控制噪声抑制单元24以设定用于施加到输入音频数据的低等级的噪声抑制或不设定噪声抑制。

在第五实例用例中，用户可在具有极少噪声或无噪声的环境下记录某人跟着音乐唱歌(例如，以在家庭或私人包厢环境中俘获唱歌和卡拉OK音乐)。在此状况下，接近传感器40检测到移动电话远离用户的脸部定位，且SPMU分类器42确定来自主要麦克风18A的输入音频数据包含高音乐内容，且来自辅助麦克风18B的输入音频数据包含一些音乐内容。在此状况下，控制单元44可确定输入音频数据的上下文为有效音乐上下文，且控制噪声抑制单元24以设定用于施加到输入音频数据的低等级的噪声抑制或不设定噪声抑制。在某一实例中，相对于图3更详细地描述，控制单元44可直接从卡拉OK机器接收额外输入信号以进一步改进由控制单元44执行的音频上下文确定。

在第六实例用例中，用户可在具有响亮的噪声的环境下记录某人跟着音乐唱歌(例如，以在派对或酒吧环境中俘获唱歌和卡拉OK音乐)。在此状况下，接近传感器40检测到移动电话远离用户的脸部定位，且SPMU分类器42确定来自主要麦克风18A的输入音频数据包含高噪声和音乐内容，且来自辅助麦克风18B的输入音频数据包含类似内容。在此状况下，即使存在背景噪声，控制单元44也可使用多个指示符的组合，例如输入音频数据中不存在语音内容、移动装置的远离用户的脸部的位置、由卡拉OK机器给定的控制信号或由用户佩戴的可佩戴装置给定的控制信号，以确定输入音频数据的上下文为有效音乐上下文；且控制噪声抑制单元24以设定用于施加到输入音频数据的低等级的噪声抑制或不设定噪声抑制。

一般来说，根据本公开的技术，当控制单元44确定输入音频数据的上下文为有效音乐上下文时，将更有利于保持包含在输入音频数据中的音乐信号的质量的等级的噪声抑制施加到输入音频数据。相反地，当控制单元44确定输入音频数据的上下文为有效语音上下文时，将默认侵略性等级的噪声抑制施加到输入音频数据以便高度抑制背景噪声(包含音乐)。

作为一个实例，以dB为单位的不同等级的噪声抑制可映射如下：侵略性或高级的噪声抑制可大于大致15dB，中级噪声抑制可在大致10dB到大致15dB范围内，且低级噪声抑制可在无噪声抑制(即，0dB)到大致10dB范围内。应注意，所提供值仅为实例且不应被理解为限制性的。

图3是说明可实施本公开中描述的技术的源装置12的音频预处理器22的替代实例的框图。在图3的实例中，音频预处理器22包含噪声抑制单元24、接近传感器40、SPMU分类器42、用户超控信号检测器60、卡拉OK机器信号检测器62、传感器信号检测器64和控制单元66。噪声抑制单元24可如上文相对于图2所描述而操作。控制单元66可大体上类似于来自图2的控制单元44而操作，但可分析从一或多个外部装置检测到的额外信号以确定从麦克风18接收的音频数据的上下文。

如图3中所说明，控制单元44从接近传感器40、SPMU分类器42、用户超控信号检测器60、卡拉OK机器信号检测器62和传感器信号检测器64中的一或多个接收输入。用户超控信号检测器60可检测用于源装置12中的噪声抑制的用户超控的选择。举例来说，源装置12的用户可感知到通过麦克风18俘获的音频数据的上下文为有效音乐上下文，且可选择源装置12中的设定以超控默认等级的噪声抑制。默认等级的噪声抑制可为适合于有效语音上下文的侵略性等级的噪声抑制。通过选择超控设定，用户可特定地请求通过噪声抑制单元24将侵略性较低的等级的噪声抑制施加于所俘获音频数据，或不请求噪声抑制。

基于所检测到的用户超控信号，控制单元66可确定当前通过麦克风18俘获的音频数据具有有效音乐上下文且控制噪声抑制单元24以设定用于音频数据的较低等级的噪声抑制。在一些实例中，可将超控设定在预定时间段内设定成自动地停用使得噪声抑制单元24返回到默认等级的噪声抑制，即侵略性等级的噪声抑制。在无此超控暂停的情况下，用户可忽略以停用或不选择所述超控设定。在此状况下，噪声抑制单元24可继续将侵略性较低的噪声抑制施加到所有所接收的音频信号，或不施加噪声抑制，这可在有噪声的环境下俘获时导致劣化或低质量语音信号。

卡拉OK机器信号检测器62可检测来自与源装置12通信的外部卡拉OK机器的信号。检测到的信号可指示卡拉OK机器正播放音乐，同时源装置12的麦克风18正记录由用户唱的人声。通过卡拉OK机器信号检测器62检测到的信号可用于超控默认等级的噪声抑制，即侵略性等级的噪声抑制。基于所检测到的卡拉OK机器信号，控制单元66可确定当前通过麦克风18俘获的音频数据具有有效音乐上下文且控制噪声抑制单元24以设定用于音频数据的较低等级的噪声抑制，从而在源装置12用于记录用户的歌唱时避免音乐失真。

卡拉OK为通过卡拉OK机器播放的音乐和用户唱的人声都需要记录以供稍后回放或发射到接收器端装置，例如来自图1的目的地装置14，以在朋友当中共享而不会失真的有效音乐上下文的共同实例。然而，常规地，使用例如移动电话等无线通信装置共享对卡拉OK音乐以及歌唱的高质量记录是不可能的，归因于传统语音编解码器中例如自适应多速率(AMR)或自适应多速率宽带(AMRWB)等限制。根据本公开的技术，使用用于音频编码器20的EVS编解码器和通过控制单元66对有效音乐上下文的确定(例如，由于从卡拉OK机器检测到的直接超控信号)，可极大地改进经由移动电话的用户的卡拉OK共享体验。

另外，传感器信号检测器64可检测来自与源装置12通信的例如可佩戴装置的一或多个外部传感器的信号。作为实例，可佩戴装置可为用户佩戴在其身上的装置，例如智能手表、智能项链、健身追踪器等等，且检测到的信号可指示用户正在跳舞。基于所检测到的传感器信号以及来自接近传感器40和SPMU分类器42中的一个或两个的输入，控制单元66可确定当前通过麦克风18俘获的音频数据具有有效音乐上下文且控制噪声抑制单元24以设定用于音频数据的较低等级的噪声抑制。在其它实例中，传感器信号检测器64可检测来自其它外部传感器的信号或控制单元66可从额外检测器接收输入以进一步改进由控制单元66执行的音频上下文确定。

图4是说明根据本公开中描述的技术的经配置以执行自适应噪声抑制的音频预处理器的实例操作的流程图。相对于来自图1和2的源装置12的音频预处理器22来描述图4的实例操作。在此实例中，源装置12被描述为移动电话。

根据所公开的技术，在话音和数据通信中使用的操作包括在源装置的用户与目的地装置的用户之间的会话期间获得输入音频数据的音频上下文，其中在将可变等级的噪声抑制施加到来自所述源装置的所述用户的所述输入音频数据之前在源装置的用户的背景中播放音乐，且其中所述输入音频数据包含所述源装置的所述用户的话音和在所述源装置的所述用户的背景中播放的音乐；在基于包含为语音或音乐或语音和音乐两者的音频上下文的音频上下文使用音频编码器对输入音频数据进行带宽压缩之前将可变等级的噪声抑制施加到输入音频数据；对输入音频数据进行带宽压缩以产生至少一个音频编码器包；以及将至少一个音频编码器包从源装置无线发射到目的地装置。话音和数据通信中所使用的操作的个别步骤更详细地描述于下文中。

音频预处理器22从麦克风18接收包含语音信号、音乐信号和噪声信号的音频数据(70)。如上文所描述，麦克风18可包含双麦克风，其中主要麦克风18A为用户的嘴附近的定位在移动电话的前侧上的“前部”麦克风且辅助麦克风18B为定位在移动电话的后侧处的“后部”麦克风。

音频预处理器22的SPMU分类器42将所接收的音频数据分类为语音内容、音乐内容或语音和音乐内容两者(72)。如上文所描述，SPMU分类器42可基于线性鉴别、基于SNR的度量或高斯混合模型化(GMM)中的一或多个而执行信号分类。举例来说，SPMU分类器42可将通过主要麦克风18A俘获的音频数据分类为语音内容、音乐内容或语音和音乐内容两者，且将用于主要麦克风18A的音频数据分类馈送到控制单元44。另外，SPMU分类器42还可以将通过第二麦克风18B俘获的音频数据分类为语音内容、音乐内容或语音和音乐内容两者，且将用于辅助麦克风18B的音频数据分类馈送到控制单元44。

接近传感器40检测移动电话相对于移动电话的用户的位置(74)。如上文所描述，接近传感器40可检测移动电话是固持在用户的脸部附近还是远离用户的脸部固持。常规地，移动装置内的接近传感器40通常可用于确定何时停用移动装置的触摸屏以避免在如传统电话的使用期间用户脸颊的无意激活。根据本公开的技术，接近传感器40可检测移动电话是否固持在用户的脸部附近以在如传统电话的使用期间俘获用户的话音，或检测移动电话是否远离用户的脸部固持以在如免提电话的使用期间俘获来自多个人的音乐或语音。

音频预处理器22的控制单元44基于经分类音频数据和移动电话的位置而将音频数据的上下文确定为有效语音上下文或有效音乐上下文(76)。一般来说，通过主要麦克风18A俘获的内容的类型和移动电话的位置可指示用户主要意图将语音信号还是音乐信号发射给接收器侧装置处的听者，所述接收器侧装置例如来自图1的目的地装置14。举例来说，控制单元44可基于通过主要麦克风18A俘获的音频数据被SPMU分类器42分类为语音内容或移动电话被接近传感器40检测为接近于用户的脸部定位中的至少一个而确定所俘获音频数据的上下文为有效语音上下文。作为另一实例，控制单元44可基于通过主要麦克风18A俘获的音频数据被SPMU分类器42分类为音乐内容且移动电话被接近传感器40检测为远离用户的脸部定位而确定所俘获音频数据的上下文为有效音乐上下文。

以此方式，音频预处理器22在源装置12的用户与目的地装置14的用户之间的会话期间获得输入音频数据的音频上下文，其中在源装置12的用户的背景中播放音乐。音频预处理器22在将可变等级的噪声抑制施加到来自源装置12的用户的输入音频数据之前获得音频上下文。所述输入音频数据包含源装置12的用户的话音和在源装置12的用户的背景中播放的音乐两者。在一些状况下，在源装置12的用户的背景中播放的音乐来自卡拉OK机器。

在一些实例中，音频预处理器22基于SPMU分类器42将输入音频数据分类为语音、音乐或语音和音乐两者而获得输入音频数据的音频上下文。SPMU分类器42可在音乐与语音一起存在的时间的至少80％将输入音频数据分类为音乐。在其它实例中，音频预处理器22基于接近传感器40基于源装置的位置确定源装置12是接近于源装置12的用户的嘴还是远离所述用户的嘴而获得输入音频数据的音频上下文。在一个实例中，预处理器22基于源装置12的用户佩戴智能手表或其它可佩戴装置而获得音频上下文。

控制单元44将所俘获音频数据的所确定音频上下文馈送到音频预处理器22的噪声抑制单元24。噪声抑制单元24接着基于音频数据的所确定音频上下文而设定用于所俘获音频数据的噪声抑制的等级(78)。如上文所描述，噪声抑制单元24可通过基于音频数据的所确定上下文修改增益值而设定用于所俘获音频数据的噪声抑制的等级。更具体地说，噪声抑制单元24可基于音频数据的上下文为有效音乐上下文而增大后处理增益值以便降低用于音频数据的噪声抑制的等级。

在音频数据的上下文为有效语音上下文的状况下，噪声抑制单元24可设定相对侵略性的第一等级的噪声抑制以便抑制噪声信号(包含音乐信号)且净化音频数据中的语音信号。在音频数据的上下文为有效音乐上下文的状况下，噪声抑制单元24可设定侵略性较低的第二等级的噪声抑制以使音频数据中的音乐信号保持未失真。在以上实例中，噪声抑制的第二等级低于噪声抑制的第一等级。举例来说，噪声抑制的第二等级可低于噪声抑制的第一等级至少50％。更具体地说，在一些实例中，侵略性或高级噪声抑制可大于大致15dB，中级噪声抑制可在大致10dB到大致15dB范围内，且低级噪声抑制可在无噪声抑制(即，0dB)到大致10dB范围内。

噪声抑制单元24接着在将音频数据发送到EVS声码器以供带宽压缩或编码之前将所述等级的噪声抑制施加到音频数据(80)。举例来说，来自图1的音频编码器20可经配置以根据能够对语音和音乐信号两者进行适当地编码的EVS编解码器而操作。因此，本公开的技术实现在最小失真情况下例如来自图1的目的地装置14的接收器侧装置处所俘获的音频场景到SWB音乐信号的完整高质量再创造。

以此方式，音频预处理器22在基于包含为语音或音乐或语音和音乐两者的音频上下文的音频上下文通过音频编码器20对输入音频数据进行带宽压缩之前将可变等级的噪声抑制施加到输入音频数据。音频编码器20接着对输入音频数据进行带宽压缩以产生至少一个音频编码器包；且源装置12将所述至少一个音频编码器包从源装置12无线发射到目的地装置14。

在一些实例中，音频预处理器22调节噪声抑制增益以使得当输入音频数据的音频上下文为音乐时存在一个衰减等级的输入音频数据且当输入音频数据的音频上下文为语音时存在不同衰减等级的输入音频数据。在一种状况下，所述一个衰减等级和所述不同衰减等级都具有同一值。在所述状况下，在源装置12的用户的背景中播放的音乐与源装置12的用户的话音在相同衰减等级下传递通过噪声抑制单元24。

当源装置12的用户的谈话比在源装置12的所述用户的所述背景中播放的音乐响至少3dB时可施加对所述输入音频数据的第一等级的衰减，且当在源装置12的所述用户的所述背景中播放的所述音乐比源装置12的所述用户的所述谈话响至少3dB时可施加对所述输入音频数据的第二等级的衰减。同时对源装置12的所述用户的所述话音和在源装置12的所述用户的所述背景中播放的音乐的输入音频数据进行带宽压缩相较于同时对源装置12的所述用户的所述话音和在源装置12的所述用户的所述背景中播放的音乐的输入音频数据进行带宽压缩可提供在所述背景中播放的所述音乐的低至少30％的失真而无需在将噪声抑制施加到所述输入音频数据之前获得所述输入音频数据的所述音频上下文。

应理解，贯穿本公开对术语“和/或”的任何使用均指代任一者或两者。换句话说，应理解A和/或B提供(A和B)或(A或B)。

在一或多个实例中，所描述功能可用硬件、软件、固件或其任何组合来实施。如果以软件实施，那么所述功能可作为一或多个指令或代码在计算机可读媒体上存储或发射，并且由基于硬件的处理单元执行。计算机可读媒体可以包含计算机可读存储媒体，其对应于例如数据存储媒体或通信媒体等有形媒体，通信媒体(例如)根据通信协议包含促进将计算机程序从一处传送到另一处的任何媒体。以此方式，计算机可读媒体通常可对应于(1)非暂时性的有形计算机可读存储媒体，或(2)通信媒体，例如，信号或载波。数据存储媒体可为可由一或多个计算机或者一或多个处理器存取以检索用于实施本公开中描述的技术的指令、代码或数据结构的任何可用媒体。计算机程序产品可包含计算机可读媒体。

借助于实例而非限制，此类计算机可读存储媒体可包括RAM、ROM、EEPROM、CD-ROM或其它光盘存储装置、磁盘存储装置或其它磁性存储装置、快闪存储器，或可用以存储呈指令或数据结构形式的所要程序代码且可由计算机存取的任何其它媒体。并且，适当地将任何连接称作计算机可读媒体。举例来说，如果使用同轴电缆、光纤缆线、双绞线、数字订户线(DSL)或例如红外线、无线电及微波等无线技术从网站、服务器或其它远程源发射指令，那么同轴电缆、光纤缆线、双绞线、DSL或例如红外线、无线电及微波等无线技术包含在媒体的定义中。但是，应理解，所述计算机可读存储媒体及数据存储媒体并不包含连接、载波、信号或其它暂时性媒体，而是实际上针对于非暂时性有形存储媒体。如本文中所使用，磁盘和光盘包含压缩光盘(CD)、激光光盘、光学光盘、数字多功能光盘(DVD)、软性磁盘及蓝光光盘，其中磁盘通常以磁性方式再现数据，而光盘用激光以光学方式再现数据。以上各项的组合也应包含在计算机可读媒体的范围内。

指令可以由一或多个处理器执行，所述一或多个处理器例如是一或多个数字信号处理器(DSP)、通用微处理器、专用集成电路(ASIC)、现场可编程逻辑阵列(FPGA)或其它等效的集成或离散逻辑电路。因此，如本文中所使用的术语“处理器”可指代上述结构或适用于实施本文中所描述的技术的任何其它结构中的任一者。另外，在一些方面中，本文中所描述的功能性可在经配置以用于编码和解码的专用硬件或软件模块内提供，或并入在组合编解码器中。并且，所述技术可完全实施于一或多个电路或逻辑元件中。

本公开的技术可在广泛多种装置或设备中实施，包含无线通信装置、无线手持机、移动电话、集成电路(IC)或一组IC(例如，芯片组)。本公开中描述各种组件、模块或单元是为了强调经配置以执行所公开的技术的装置的功能方面，但未必需要通过不同硬件单元实现。确切地，如上文所描述，各种单元可结合合适的软件或固件组合在编解码器硬件单元中，或由互操作硬件单元的集合来提供，所述硬件单元包含如上文所描述的一或多个处理器。

已描述本发明的各种实施例。这些及其它实施例在所附权利要求书的范围内。

Claims

1.一种经配置以提供话音和数据通信的装置，所述装置包括：

一或多个处理器，所述处理器经配置以：

在将可变等级的噪声抑制施加到输入音频数据之前获得所述输入音频数据的音频上下文，其中所述输入音频数据包含语音信号、音乐信号和噪声信号；

在基于所述音频上下文使用音频编码器对所述输入音频数据进行带宽压缩之前将所述可变等级的噪声抑制施加到所述输入音频数据；以及

对所述输入音频数据进行带宽压缩以产生至少一个音频编码器包；

存储器，其电耦合到所述一个或多个处理器，经配置以存储所述至少一个音频编码器包；以及

发射器，其经配置以发射所述至少一个音频编码器包。

2.根据权利要求1所述的装置，其进一步包括经配置以俘获所述输入音频数据的麦克风阵列。

3.根据权利要求1所述的装置，其中经配置以施加所述可变等级的噪声抑制的所述一或多个处理器包含所述装置的噪声抑制器内的增益调节器，且其中所述一或多个处理器经配置以：

当所述输入音频数据的所述音频上下文为音乐时，使所述输入音频数据衰减一个等级；且

当所述输入音频数据的所述音频上下文为语音时，使所述输入音频数据衰减不同等级。

4.根据权利要求3所述的装置，其中当所述输入音频数据的所述音频上下文为第一音频帧中的语音时所述输入音频数据的第一等级的衰减是在当所述输入音频数据的所述音频上下文为第二音频帧中的音乐时所述输入音频数据的第二等级的衰减的15％内。

5.根据权利要求4所述的装置，其中所述第一帧在所述第二音频帧之前或之后的五十个音频帧内。

6.根据权利要求1所述的装置，其进一步包括经配置以提供所述输入音频数据的至少两个分类输出的分类器。

7.根据权利要求6所述的装置，其中将所述分类器集成到所述一或多个处理器中。

8.根据权利要求6所述的装置，其中所述至少两个分类输出中的一个为音乐，且所述至少两个分类输出中的另一个为语音。

9.根据权利要求8所述的装置，其中经配置以施加所述可变等级的噪声抑制的所述一或多个处理器进一步经配置以基于所述至少两个分类输出中的所述一个为音乐而调节所述装置的噪声抑制器中的一个增益值。

10.根据权利要求8所述的装置，其中经配置以施加所述可变等级的噪声抑制的所述一或多个处理器进一步经配置以基于所述至少两个分类输出中的所述一个为语音而调节所述装置的噪声抑制器中的一个增益值。

11.根据权利要求1所述的装置，其进一步包括经配置以在所述一或多个处理器经配置以获得所述输入音频数据的所述音频上下文时确定所述输入音频数据的所述音频上下文的集成到所述一或多个处理器中的控制单元。

12.根据权利要求11所述的装置，其进一步包括经配置以辅助所述控制单元确定所述输入音频数据的所述音频上下文的接近传感器。

13.根据权利要求12所述的装置，其中所述接近传感器经配置以辅助所述控制单元确定所述装置是否接近于所述装置的用户的嘴而定向或所述装置是否远离所述装置的所述用户的所述嘴向远端定向。

14.根据权利要求1所述的装置，其进一步包括经配置以呈现音频解码器的输出的至少一个扬声器，所述音频解码器经配置以对来自目的地装置的所述至少一个音频编码器包进行解码。

15.一种经配置以执行噪声抑制的设备，其包括：

用于在将可变等级的噪声抑制施加到输入音频数据之前获得所述输入音频数据的音频上下文的装置，其中所述输入音频数据包含语音信号、音乐信号和噪声信号；

用于在基于所述音频上下文使用音频编码器对所述输入音频数据进行带宽压缩之前将可变等级的噪声抑制施加到所述输入音频数据的装置；

用于对所述输入音频数据进行带宽压缩以产生至少一个音频编码器包的装置；以及

用于发射所述至少一个音频编码器包的装置。

16.根据权利要求15所述的设备，其中所述设备进一步包括：

基于用于从第一麦克风俘获所述输入音频数据的第一部分的装置和用于从第二麦克风俘获所述输入音频数据的第二部分的装置的用于确定所述输入音频数据的所述音频上下文的装置。

17.根据权利要求16所述的设备，其中所述设备进一步包括：

用于所述用于将所述可变等级的噪声抑制施加到所述输入音频数据的装置的用于获得用户超控信号的装置。

18.根据权利要求15所述的设备，其中所述设备进一步包括：

用于与不同设备通信的装置，其中所述不同设备为可佩戴装置或卡拉OK机器。

19.一种在话音和数据通信中使用的方法，其包括：

在源装置的用户与目的地装置的用户之间的会话期间，获得输入音频数据的音频上下文，其中在将可变等级的噪声抑制施加到来自所述源装置的所述用户的所述输入音频数据之前，正在所述源装置的所述用户的背景中播放音乐，且其中所述输入音频数据包含所述源装置的所述用户的话音和在所述源装置的所述用户的所述背景中播放的所述音乐；

在基于包含为语音或音乐或语音和音乐两者的所述音频上下文的所述音频上下文使用音频编码器对所述输入音频数据的带宽压缩之前，将可变等级的噪声抑制施加到所述输入音频数据；

对所述输入音频数据进行带宽压缩以产生至少一个音频编码器包；以及

将所述至少一个音频编码器包从所述源装置发射到所述目的地装置。

20.根据权利要求19所述的方法，其中施加所述可变等级的噪声抑制包含调节噪声抑制增益以使得当所述输入音频数据的所述音频上下文为音乐时存在所述输入音频数据的一个等级的衰减且当所述输入音频数据的所述音频上下文为语音时存在所述输入音频数据的不同等级的衰减。

21.根据权利要求20所述的方法，其中所述一个衰减等级和所述不同衰减等级两者均具有同一值。

22.根据权利要求21所述的方法，其中在所述源装置的所述用户的所述背景中播放的所述音乐与所述源装置的所述用户的所述话音在相同衰减等级下通过噪声抑制器传递。

23.根据权利要求19所述的方法，其中当所述源装置的所述用户的谈话比在所述源装置的所述用户的所述背景中播放的所述音乐响至少3dB时施加对所述输入音频数据的第一等级的衰减，且当在所述源装置的所述用户的所述背景中播放的所述音乐比所述源装置的所述用户的所述谈话响至少3dB时施加对所述输入音频数据的第二等级的衰减。

24.根据权利要求19所述的方法，其中同时对所述源装置的所述用户的所述话音和在所述源装置的所述用户的所述背景中播放的所述音乐的所述输入音频数据进行带宽压缩相较于同时对所述源装置的所述用户的所述话音和在所述源装置的所述用户的所述背景中播放的所述音乐的所述输入音频数据进行带宽压缩提供在所述背景中播放的所述音乐的低至少30％的失真而无需在将噪声抑制施加到所述输入音频数据之前获得所述输入音频数据的所述音频上下文。

25.根据权利要求19所述的方法，其中获得所述输入音频数据的所述音频上下文是基于将所述输入音频数据分类为语音、音乐或语音和音乐两者。

26.根据权利要求25所述的方法，其进一步包括在所述音乐与语音一起存在的时间的至少80％将所述输入音频数据分类为音乐。

27.根据权利要求19所述的方法，其进一步包括基于所述源装置的位置确定所述源装置是接近于所述源装置的所述用户的嘴还是远离所述源装置的所述用户的嘴。

28.根据权利要求19所述的方法，其中所述获得所述音频上下文是基于佩戴手表的所述源装置的所述用户。

29.根据权利要求19所述的方法，其中在所述源装置的所述用户的所述背景中播放的所述音乐来自卡拉OK机器。