CN109155135B

CN109155135B - 用于降噪的方法、装置和计算机程序

Info

Publication number: CN109155135B
Application number: CN201780028292.1A
Authority: CN
Inventors: M·维莱莫; T·马基南; L·拉克索南; A·拉莫
Original assignee: Nokia Technologies Oy
Current assignee: Nokia Technologies Oy
Priority date: 2016-03-24
Filing date: 2017-03-20
Publication date: 2024-03-19
Anticipated expiration: 2037-03-20
Also published as: WO2017162915A1; EP3433857B1; GB201605009D0; GB2548614A; US20190088267A1; US10748550B2; CN109155135A; EP3433857A1; EP3433857A4; EP4113514A1

Abstract

一种方法、装置和计算机程序包括：从多个麦克风获得空间音频信号；将获得的空间音频信号划分成至少第一分量和第二分量；将第一音频信号优化***应用到第一分量，并且将第二音频信号优化***应用到第二分量；以及使得包括优化后的分量的信号能够被提供给扬声器以用于呈现。

Description

用于降噪的方法、装置和计算机程序

技术领域

本公开的示例涉及用于降噪的方法，装置和计算机程序。特别地，它们涉及用于在空间音频信号中的降噪的方法，装置和计算机程序。

背景技术

用于在记录的音频信号中提供降噪的***是已知的。这种***与空间音频信号一起使用可能是有问题的，因为它们可能使记录的信号失真，这可能使空间分析变得困难。在一些情况下，降噪***可以去除所有环境噪声，这可能使得记录的信号不适合在临场***(诸如虚拟现实***)中使用。

发明内容

根据本公开的各种但不一定是所有的示例，可以提供一种方法，该方法包括：从多个麦克风获得空间音频信号；将获得的空间音频信号划分成至少第一分量和第二分量；将第一音频信号优化***应用到第一分量，并且将第二音频信号优化***应用到第二分量；以及使得包括优化后的分量的信号能够被提供给扬声器以用于呈现。

在一些示例中，第一分量可以包括直接音频分量，并且第二分量包括环境音频分量。该方法可以包括：使用由一个或多个摄像头获得的图像数据，来使得获得的空间音频信号中的直接分量能够被识别。

该方法可以包括：使用指示当前在使用中的摄像头的信息，来使得获得的空间音频信号中的直接分量能够被识别。

第一音频信号优化***可以包括第一降噪***，并且第二音频信号优化***包括第二降噪***。第一降噪***和第二降噪***可以是不同的。第一降噪***可以用与第二降噪***不同的量来降噪。

音频信号优化***可以由用户选择。

音频信号优化***可以由正被使用的应用来选择。

该方法可以包括：将空间音频信号划分为第三分量，并且将第三音频信号优化***应用到第三分量。

根据本公开的各种但不一定是所有的示例，可以提供一种装置，该装置包括：处理电路；以及包括计算机程序代码的存储器电路，存储器电路和计算机程序代码被配置为，与处理电路一起，使得装置能够执行：使用多个麦克风来获得空间音频信号；将获得的空间音频信号划分成至少第一分量和第二分量；将第一音频信号优化***应用到第一分量，并且将音频信号优化***应用到第二分量；以及使得包括优化后的分量的信号能够被提供给扬声器以用于呈现。

在一些示例中，第一分量可以包括直接音频分量，并且第二分量可以包括环境音频分量。

存储器电路和计算机程序代码可以被配置为，与处理电路一起，使得装置能够执行：使用由一个或多个摄像头获得的图像数据，来使得获得的空间音频信号中的直接分量能够被识别。

存储器电路和计算机程序代码可以被配置为，与处理电路一起，使得装置能够执行：使用指示当前在使用中的摄像头的信息，来使得获得的空间音频信号中的直接分量能够被识别。

音频信号优化***可以由用户选择。

音频信号优化***可以由该装置正使用的应用来选择。

存储器电路和计算机程序代码可以被配置为，与处理电路一起，使得装置能够执行：将空间音频信号划分为第三分量，并且将第三音频信号优化***应用到第三分量。

根据本公开的各种但不一定是所有的示例，可以提供一种电子设备，该电子设备包括如上面描述的装置。

根据本公开的各种但不一定是所有的示例，可以提供一种包括计算机程序指令的计算机程序，计算机程序指令当由处理电路执行时使能：使用多个麦克风来获得空间音频信号；将获得的空间音频信号划分成至少第一分量和第二分量；将音频信号优化***应用到第一分量，并且将第二音频信号优化***应用到第二分量；以及使得包括优化后的分量的信号能够被提供给扬声器以用于呈现。

根据本公开的各种但不一定是所有的示例，可以提供一种包括程序指令的计算机程序，程序指令用于使计算机执行如上面描述的方法。

根据本公开的各种但不一定是所有的示例，可以提供一种具体化如上面描述的计算机程序的物理实体。

根据本公开的各种但不一定是所有的示例，可以提供一种承载如上面描述的计算机程序的电磁载波信号。

根据本公开的各种但不一定是所有的示例，可以提供如下文中所描述的示例。

附图说明

为了更好地理解对于理解详细描述有用的各种示例，现在将仅通过示例的方式来参考附图，在附图中：

图1图示了一种装置；

图2图示了一种包括装置的电子设备；

图3图示了一种方法；

图4图示了一种方法；

图5图示了一种方法；

图6图示了一种方法；

图7图示了示例用户界面；

图8图示了一种方法；

图9图示了一种方法；

图10图示了一种方法；

图11图示了示例***；以及

图12图示了示例层。

具体实施方式

附图图示了示例方法、装置1和计算机程序9。在一些示例中，该方法包括：从多个麦克风23获得31空间音频信号41；将获得的空间音频信号41划分33为至少第一分量45和第二分量46；将第一音频信号优化***47应用35到第一分量45，并且将第二音频信号优化***48应用到第二分量46；以及使得37包括噪声优化后的分量的信号能够被提供给扬声器27以用于呈现。

该方法可以由一个或多个装置1实施。装置1可以用于使得空间音频信号被记录和/或使得空间音频信号能够被呈现。空间音频信号可以是具有方向特性的信号。空间音频信号可以是使得声音的方向特性能够被重建的信号。在一些示例中，空间音频信号可以包括多声道音频信号。多声道音频信号可以包括多个声道，其中每个声道可以表示由多个麦克风23中的一个麦克风获得的信号。

图1示意性地图示了可以在本公开的示例中使用的示例装置1。图1中图示的装置1可以是芯片或芯片组。在一些示例中，装置1可以被提供在电子设备21内，电子设备21可以被布置为检测音频信号，诸如移动电话、相机、平板计算机、摄像机、电视、计算机、或任何其他适当的电子设备21。

示例装置1包括控制电路3。控制电路3可以提供用于控制电子设备21的部件。控制电路3还可以提供用于执行本公开的示例的方法或这些方法的至少一部分的部件。

处理电路5可以被配置为从存储器电路7进行读取和向其进行写入。处理电路5可以包括一个或多个处理器。处理电路5还可以包括输出接口和输入接口，数据和/或命令经由输出接口由处理电路5输出，数据和/或命令经由输入接口被输入到处理电路5。

存储器电路7可以被配置为存储计算机程序9，计算机程序9包括计算机程序指令(计算机程序代码11)，计算机程序9在被加载到处理电路5中时控制装置1的操作。计算机程序9的计算机程序指令提供逻辑和例程，该逻辑和例程使得装置1能够执行图4至图12中图示的示例方法。通过读取存储器电路7，处理电路5能够加载和执行计算机程序9。

在一些示例中，计算机程序9可以包括音频信号优化应用，诸如降噪应用。音频信号优化应用可以被配置为使得音频信号优化***能够被应用到获得的空间音频信号。装置1因此包括：处理电路5；以及包括计算机程序代码11的存储器电路7，存储器电路7和计算机程序代码11被配置为，与处理电路5一起，使得装置1至少执行：从多个麦克风23获得31空间音频信号41；将获得的空间音频信号41划分33为至少第一分量45和第二分量46；将第一音频信号优化***47应用35到第一分量45，并且将第二音频信号优化***48应用到第二分量46；以及使得37优化的分量能够被提供给扬声器27以用于呈现。

计算机程序9可以经由任何适当的递送机制到达装置1。递送机制可以是，例如，非暂时性计算机可读存储介质、计算机程序产品、存储器设备、记录介质(诸如紧致盘只读存储器(CD-ROM)或数字通用盘(DVD))、或有形地具体化计算机程序的制品。递送机制可以是被配置为可靠地传送计算机程序9的信号。该装置可以将计算机程序9作为计算机数据信号来传播或传输。在一些示例中，可以使用无线协议(诸如蓝牙、蓝牙低功耗、蓝牙智能、6LoWPan(低功率个域网上的IPv6)、ZigBee、ANT+、近场通信(NFC)、射频识别、无线局域网(无线LAN))或任何其他适当的协议，将计算机程序代码11传输到装置1。

尽管存储器电路7在附图中被图示为单个组件，但是将明白，它可以被实施为一个或多个分离的组件，其中的一些或全部可以是集成的/可移除的，和/或可以提供永久的/半永久性的/动态的/缓存的存储。

尽管处理电路5在附图中被图示为单个组件，但是将明白，它可以被实施为一个或多个分离的组件，其中的一些或全部可以是集成的/可移除的。

对“计算机可读存储介质”、“计算机程序产品”、“有形地具体化的计算机程序”等或“控制器”、“计算机”、“处理器”等的引用应当被理解为不仅涵盖具有不同架构的计算机，诸如单处理器/多处理器架构，精简指令集计算(RISC)和顺序(冯诺依曼)/并行架构，而且还涵盖专用电路、诸如现场可编程门阵列(FPGA)、专用集成电路(ASIC)、信号处理设备和其他处理电路。对计算机程序、指令、代码等的引用应当被理解为涵盖用于可编程处理器的软件或固件，诸如，例如硬件设备的可编程内容，无论是用于处理器的指令，还是用于固定功能设备、门阵列或可编程逻辑器件等的配置设置。

如本申请中所使用的，术语“电路”是指以下所有：

(a)仅硬件的电路实施方式(诸如仅在模拟和/或数字电路中的实施方式)以及

(b)电路和软件(和/或固件)的组合，诸如(如适用)：(i)(多个)处理器的组合或(ii)(多个)处理器的部分/软件(包括(多个)数字信号处理器)、软件和(多个)存储器，它们一起工作以使得装置(诸如移动电话或服务器)执行各种功能)以及

(c)要求软件或固件用于操作的电路，诸如(多个)微处理器或(多个)微处理器的一部分，即使软件或固件不是物理存在的。

“电路”的该定义适用于该术语在本申请中的所有使用。作为另一示例，如在本申请中所使用的，术语“电路”还将覆盖仅处理器(或多个处理器)或处理器的一部分以及它的(或它们的)伴随软件和/或固件的实施方式。术语“电路”还将覆盖，例如并且如果适用的话，用于移动电话的基带集成电路或应用处理器集成电路，或者服务器、蜂窝网络设备或其他网络设备中的类似集成电路。

图2示意性地图示了示例电子设备21。图2的示例电子设备21可以被配置为使得空间音频信号41能够被检测或以其他方式被获得。示例电子设备21可以使得检测到的空间音频信号的降噪或其他音频信号优化成为可能。

电子设备21包括如上面描述的装置1。对应的参考标号用于对应的特征。除了装置1之外，图2的示例电子设备21还包括多个麦克风23、一个或多个收发器25、以及一个或多个扬声器27。在一些示例中，电子设备21还可以包括一个或多个摄像头29以及用户接口30。将明白，电子设备21可以包括图2中未图示的其他特征，诸如，电源或任何其他适当的特征。

多个麦克风23可以包括使得音频信号41能够被检测的任何部件。多个麦克风23可以使得空间音频信号41能够被检测。多个麦克风23可以包括可以被配置为将声输入信号转换为电输出信号的任何部件。多个麦克风23可以耦合到装置1，以使得装置1能够处理由多个麦克风23检测到的音频信号。在一些示例中，装置1可以通过将检测到的音频信号划分成多个不同的分量来处理音频信号。不同的分量可以包括一个或多个直接音频分量以及一个或多个环境音频分量。如下面描述的，在一些示例中，装置1可以将音频信号优化***(诸如降噪***)应用至检测到的音频信号。

多个麦克风23可以位于电子设备21内的任何适当的位置。麦克风23可以位于电子设备21内的不同位置，以使得空间音频信号能够被记录。麦克风23中的一个或多个麦克风可以定位在电子设备的与其他麦克风23中的一个或多个麦克风不同的侧部。例如，在一些示例中，电子设备21可以是移动电话或其他类似设备，一个或多个麦克风23位于正面，并且一个或多个麦克风23位于背面。

一个或多个收发器25可以包括一个或多个发射器和/或接收器。一个或多个收发器25可以包括使得电子设备21能够建立与另一电子设备的通信连接并且与另一电子设备交换信息的任何部件。通信连接可以包括无线连接。

在一些示例中，一个或多个收发器25可以使得装置1能够连接到网络，诸如蜂窝网络。在一些示例中，一个或多个收发器25可以使得装置1能够在局域网(诸如无线局域网、蓝牙网络、或任何其他适当的网络)中进行通信。

一个或多个收发器25可以耦合到电子设备21内的装置1。一个或多个收发器25可以被配置为从装置1接收信号以使得信号能够被传输。将被传输的信号可以包括检测到的空间音频信号。在一些示例中，将被传输的信号可以包括检测到的空间音频信号的经降噪的分量。

扬声器27可以包括可以被配置为将电输入信号转换为声输出信号的任何部件。扬声器27可以被配置为呈现检测到的空间音频信号，以使得空间音频输出信号能够被提供。

在一些示例中，多个扬声器27可以被提供在电子设备21内。多个扬声器27可以被布置为提供多声道回放，诸如双耳式、立体声式、或任何其他合适类型的音频回放。

在一些示例中，扬声器27可以被提供在电子设备21内。例如，移动电话可以包括定位在移动电话的壳体内的一个或多个扬声器27。在一些示例中，扬声器27可以作为***设备被提供。例如，耳机或耳麦可以耦合到电子设备21。在这样的示例中，收发器25可以被配置为使用有线连接或无线连接向耳机提供电子信号。

图2的示例电子设备21还包括摄像头29。摄像头29可以包括使得电子设备21能够获得图像的任何部件。摄像头29可以包括图像传感器，该图像传感器可以被配置为将入射在图像传感器上的光转换为电信号，以使得图像能够被产生。图像传感器可以包括例如数字图像传感器，诸如电荷耦合器件(CCD)或互补金属氧化物半导体(CMOS)。获得的图像可以提供位于摄像头29前方的场景和/或对象的表示。

在一些示例中，多个摄像头29可以被提供。例如，电子设备21可以包括后置摄像头和前置摄像头。不同的摄像头可以用于电子设备21的不同应用。在一些示例中，电子设备21可以包括摄像头29的阵列，其可以被布置以获得全景图像。

摄像头29可以被布置为获得静止图像和/或视频图像。摄像头29可以被布置为在麦克风23检测到空间音频信号的同时获得图像。由摄像头29获得的图像可以包括创建检测到的空间音频信号的一部分的对象。

摄像头29可以耦合到装置1，从而包括所捕获的图像信息的电信号可以被提供给装置1。装置1可以被配置为对捕获的图像信息执行图像处理。这可以使得图像中的对象能够被识别。

用户接口30可以包括使得用户能够与电子设备21交互的任何部件。用户接口30可以被配置为向用户提供输出并且使得用户能够进行用户输入。用户接口30可以使得用户能够作出输入命令，输入命令使得用户能够控制电子设备21。

用户接口30可以包括用于向用户提供输出的部件，诸如显示器。用户接口30还可以包括用于使得用户能够进行输入的部件，诸如触摸板、手势识别设备、或任何其他适当的部件。在一些示例中，用于使得用户能够进行输入的部件可以集成在用于提供输出的部件内。例如，电子设备21可以包括触敏显示器或其他适当的设备。

图3图示了可以使用如上面描述的装置1和/或电子设备21来实施的示例方法。

该方法包括：在框31处，从多个麦克风23获得空间音频信号41。在框33处，该方法包括：将获得的空间音频信号41划分为至少第一分量45和第二分量46，并且在框35处，该方法包括：将第一音频信号优化***47应用到第一分量45，并且将第二音频信号优化***48应用到第二分量46。在框37处，该方法包括：使得包括优化后的分量的信号能够被提供给扬声器27以用于呈现。

通过向扬声器27提供包括经降噪的分量的信号，可以使得经降噪的分量的呈现成为可能。在一些示例中，扬声器可以是与麦克风23相同的电子设备21的一部分。在一些示例中，扬声器27可以被提供在单独的设备中。在这样的示例中，收发器25可以被配置为传输经降噪的分量，以使得信号能够由该单独的设备来呈现。

图4至图12更详细地图示了示例方法。

图4图示了一种方法，在该方法中，获得的音频信号被划分成两个分量。图4的示例方法可以由如上面描述的电子设备21执行。

在图4的示例方法中，多个麦克风23检测多个音频信号41。在图4的示例中，三个麦克风23用来检测音频信号。其他数目的麦克风23可以使用在本公开的其他示例中。麦克风23可以被布置以使得空间音频信号能够被获得。

获得的音频信号41可以被提供给处理电路5，以使能对获得的音频信号执行空间音频分析43。空间音频分析43可以包括使得所获得的音频信号41的空间分量能够被识别的任何方法或过程。空间音频分析43可以将获得的音频信号41划分为多个分量。在一些示例中，空间音频分析43可以将获得的音频信号划分为层次分量。在图4的示例中，获得的音频信号41被划分成两个分量。在一些示例中，所获得的音频信号可以被划分成多于两个分量。

在图4的示例中，所获得的空间音频信号41被划分为直接音频分量45和环境音频分量46。直接音频分量45可以包括获得的音频信号41的部分，人类听众将把这些部分感知为来自某个方向。直接音频分量45可以包括例如语音、歌唱、乐器噪声、或任何其他适当的声音。直接音频分量45可以被认为是所获得的音频信号41的最感兴趣的部分，并且可以包括来自所获得的音频信号41的用户最可能想要听到的信息。

环境音频分量46可以包括人类听众不会将其感知为来自某个方向的信号。在一些示例中，环境音频分量46可以包括人类听众将把其感知为来自所有方向的信号。环境音频分量46可以包括背景噪声，诸如风、海、交通、人群噪声、或其他适当的分量。

环境音频分量46对于一些应用(诸如虚拟现实或临场应用)可能是重要的，在这些应用中，它们对音频输出的氛围有贡献。在其他示例中，环境音频分量46可能是不合需要的。例如，如果为了电话呼叫或其他类似通信正检测音频信号，则减小环境音频分量46可能是有用的，以确保说话者可以被听到。

一旦已经获得直接音频分量45和环境音频分量46，降噪***被应用到这些分量。在图4的示例中，不同的降噪***被应用到音频分量中的每个音频分量。第一降噪***47被应用到直接音频分量45，并且第二降噪***48被应用到环境音频分量46。

降噪***47、48可以包括用于降低所获得的音频信号41的分量内的噪声的任何适当的过程和技术。

在一些示例中，降噪***47、48可以包括安静帧方法。安静帧方法可以包括：将获得的音频信号41的分量45、46划分成短片段，并且识别最安静的帧。在一些示例中，某个百分比的最安静的帧可以被识别。最安静的帧可以被假设为代表背景噪声。片段可以是任何适当的长度。在一些示例中，片段可以是20ms。

背景噪声的平均值在频域中被估计，作为安静帧能量的平均值。然后，通过从分量45、46中的所有帧中减去平均背景噪声或平均背景噪声的一部分，来减小所获得的音频信号41的分量45、46中的噪声。通过改变减去的平均背景噪声的该部分，可以控制降噪量。例如，如果背景噪声的平均值乘以0.5并且然后从所有帧中减去，则相比于只减去平均值，这将导致较少的降噪。

对于可能存在导致安静帧的暂停的所获得的音频信号，诸如语音信号，安静帧方法可能工作良好。因此，安静帧方法可以适合于在远程通信、远程会议或其他类似应用中使用。然而，安静帧方法可能不适合于在所获得的音频信号包括稳定噪声或恒定噪声的其他应用中使用。

在一些示例中，降噪***47、48可以包括噪声门方法。噪声门方法可以包括：将获得的音频信号41划分为短片段，并且将这些片段转换到频域中。片段可以是任何适当的长度。在一些示例中，片段可以是20ms。

一旦片段已经被转换到频域中，低于门限值的任何片段被置零。门限值可以是预定值，或者可以从平均信号值来确定。平均信号值可以针对每个频率被获得。

在噪声门方法被使用的***中，可以通过改变门限来改变降噪量。例如，强降噪***可以使用比平均信号值低20dB的门限，并且弱降噪***可以使用比平均信号值低30dB的门限。其他门限值可以使用在本公开的其他示例中。

其他降噪***可以使用在本公开的其他示例中。在一些示例中，第一降噪***47和第二降噪***48可以是不同的。在一些示例中，不同的方法可以用于第一降噪***47和第二降噪***48。例如，在一些示例中，第一降噪***47可以包括安静帧方法，而第二降噪***48可以包括噪声门方法或任何其他适当的方法。这可以允许所使用的降噪***47、48针对不同类型的音频分量被优化。

在一些示例中，第一降噪***47和第二降噪***48可以将音频分量中的噪声减小不同的量。例如，第一降噪***47可以比第二降噪***48更强，从而直接音频分量45中的噪声比环境音频分量46中的噪声降低得更多。通过使用不同类型的降噪***，或者通过使用相同类型的但具有不同参数的降噪***，可以实现不同的降噪量。

在一些示例中，降噪***47、48中的一个降噪***可以被配置，以使得对音频分量45、46的噪声水平不进行改变。例如，在一些示例中，第二降噪***48可以被布置，以使得没有降噪被应用到环境音频分量46。这可以使得所有环境音频分量46能够被保留。

在图4的示例中，应用到所获得的音频信号的音频信号优化***是降噪***。将明白，其他类型的音频信号优化***可以应用在本公开的其他示例中。例如，在一些示例中，音频信号优化***可以包括滤波***和/或均衡***、或任何其他合适类型的***。

一旦降噪***47、48已经被应用到音频信号的分量45、46，包括经降噪的分量的信号被提供给扬声器27以用于呈现。在一些示例中，空间音频信号可以被构造包括经降噪的分量，并且被提供给扬声器27以用于呈现。扬声器27可以提供音频输出信号51。在图4的示例中，音频输出信号51包括六个声道。在本公开的其他示例中可以使用不同数目的输出声道。

扬声器27还可以从空间音频分析43接收方向信息50。方向信息50可以包括指示直接音频分量45的感知方向的信息，并且可以使得空间音频输出信号51能够被提供。

该示例方法使得直接音频分量45和环境音频分量46两者能够具有如下的降噪，该降噪特定于用例或正被记录的信号的类型。这可以使得直接音频分量45和环境音频分量46两者能够被优化用于在不同的应用中使用，或用于不同的用户偏好，或用于任何其他目的。这对于诸如虚拟现实应用之类的应用可能是有用的，其中音频信号可以按360°被记录，并且环境音频分量46作为***的存在的一部分是重要的。

在图4的示例中，降噪***47、48的数目不依赖于麦克风23的数目和音频输出信号51中的声道的数目。在本公开的示例中，降噪***47、48被应用到音频信号的分量45、46，并且因此所需的降噪***47、48的数目由所获得的音频信号41被划分成的分量的数目来确定，而不是由麦克风23的数目或输出声道的数目来确定。

在图4的示例中，所获得的音频信号41被划分成两个分量，并且因此需要两个降噪***47、48。在其他示例中，所获得的音频信号41可以被划分成多于两个分量，并且因此可能需要多于两个降噪***。例如，在一些示例中，所获得的音频信号41可以被划分为直接音频分量45、环境音频分量46、以及一个或多个混响分量。混响分量可以具有直接音频分量45和/或环境音频分量46。

在图4的示例中，在空间音频分析43已经被执行之后，降噪***47、48被应用。这可以使得更准确的空间音频分析43能够被执行，因为在空间分析被执行之前，没有从获得的音频信号41中去除噪声或其他信息。

图5图示了根据本公开的示例的另一方法。在图5的示例中，音频特征检测被用来控制被应用到音频分量47、48的降噪***47、48。图5的示例方法类似于图4的方法，另外的是，该方法包括框音频特征检测53，以使得降噪***47、48能够被控制。对应的参考标号用于对应的特征。

音频特征检测53可以包括分析所获得的音频信号41以识别所获得的音频信号41内的特征的任何方法或技术。音频特征检测53可以检测音频特征的类型，诸如稳态或恒定声源。在一些示例中，音频特征检测53可以识别特定音频特征，诸如语音或特定用户说话。

一旦所获得的音频信号41中的特征已经被识别，该信息可以用来控制降噪***47、48。在一些示例中，一旦音频特征或音频特征的类型已经被识别，降噪***47、48可以被选择而针对所识别的音频特征来优化降噪。在一些示例中，降噪***47、48的类型可以根据所识别的音频特征来选择。在一些示例中，所应用的降噪量可以根据所识别的音频特征来控制。

在一些示例中，由音频特征检测53识别的特征可以包括提供恒定或稳定声源的特征，诸如瀑布或火车引擎，从而直接音频分量45可以包括由恒定或稳定声源提供的声音。在这样的示例中，可能不希望降低直接音频分量内的噪声，因为这可能会衰减所识别的音频特征53。在这样的示例中，第一降噪***47可以比第二降噪***48弱，从而环境音频分量46中的噪声比直接音频分量45中的噪声减小得更多。

任何适当的方法可以用来确定直接音频分量45包括恒定或稳定的声源。如果直接音频分量45包括恒定或稳定的声源，则在直接音频分量45的不同帧之间可能存在非常小的能量变化。在一些示例中，直接音频分量45中的噪声量可以被确定，以识别直接音频分量45中的特征。在一些示例中，频谱平坦度测量可以针对直接音频分量45被计算。如果频谱平坦度高于门限，则直接音频分量45可以被确定为具有高噪声水平，并且可以被确定为包括恒定或稳定的声源。

在一些示例中，频谱平坦度还可以针对环境音频信号被计算。这可以使得环境音频分量46的噪声性能够与直接音频分量45的噪声性相比较。如果直接音频分量45具有比环境音频分量46更多的噪声，则直接音频分量45可以被确定为包括恒定或稳定的声源。

在一些示例中，由音频特征检测53识别的音频特征的类型可以用来选择所使用的降噪***47、48。例如，如果音频特征检测53检测到直接音频分量45包括恒定或稳定的声源，则安静帧降噪将不适合使用，因为将不存在安静的帧。在这样的情况下，装置1可以选择不同类型的降噪***来与直接音频分量45一起使用。相反地，如果音频特征检测53检测到直接音频分量45包括语音分量，则安静帧降噪将是要使用的适合***，因为将存在安静帧。在这样的情况下，装置1可以选择安静帧降噪来与直接音频分量45一起使用。

在一些示例中，由音频特征检测53识别的音频特征的数目可以用来选择所使用的降噪***47、48。如果音频特征检测53检测到所获得的音频信号41中存在小数目的音频对象，则这可能是如下的指示：所获得的音频信号41对应于景观记录，其中用户可能正在拍摄和/或记录与景观有关的声音。在这样的示例中，降噪***47、48可以被选择或调整，从而弱降噪或无降噪被应用到直接音频分量45和环境音频分量46两者。

如果音频特征检测53检测到所获得的音频信号41中存在大数目的音频对象，则这可能是如下的指示：所获得的音频信号对应于用户可能感兴趣的对象，诸如其他人、汽车、或任何其他适当的对象。在这样的示例中，用户可能对直接音频分量45比环境音频分量46更感兴趣。在这样的示例中，降噪***47、48可以被选择或调整，从而弱降噪或无降噪被应用到直接音频分量45，但是大量降噪被应用到环境音频分量46。

应用到环境音频分量46的降噪量可以与检测到的音频对象的数目成比例，从而检测到的音频对象的数目越高，应用到环境音频分量的降噪越强。

在一些示例中，音频特征检测53可能未可靠地识别直接音频分量45内的特征。例如，在一些示例中，音频特征检测53可能无法可靠地估计直接音频分量45的方向。任何适当的部件可以用来确定所估计的直接音频分量45的方向的可靠性。在一些示例中，由不同麦克风23检测的信号之间的互相关值可以被计算，以确定所估计的方向的可靠性。如果相关值低于门限，则方向的估计不认为是可靠的。这样的情况可能发生在说话者或多个说话者为沉默的语音之间的间隙期间，或者发生在仅出现环境噪声(诸如人群场景或其他环境)的情形下。在这样的示例中，可能不期望将降噪应用到直接音频分量45，因为这可能降低音频输出信号51的清晰度。在这种情况下，第一降噪***47可以被布置为不提供降噪或仅提供弱降噪，从而原始直接音频分量45可以被保留。保留原始直接音频分量45可以提供改进的输出音频信号51以用于临场捕获体验。

在一些示例中，音频特征检测53可以包括对环境音频分量46的分析，以确定环境音频分量46是否包括用户可能感兴趣的任何音频特征。用户可能感兴趣的环境噪声特征可以包括诸如鸟鸣或警报器之类的声音，或可能添加到音频输出信号51的临场的其他声音。

在音频特征已经在环境音频分量46中被识别的场合，第二降噪***48可以被布置为对环境音频分量46进行频谱滤波。该滤波可以增强环境音频分量46内的音频特征的清晰度。在环境音频分量46包括高音调特征(例如鸟鸣或警报器)的场合，低通滤波可以被执行。相反地，在环境音频分量46包括低音调特征(诸如在有回声的停车大厅中的运转中的汽车发动机或远处的挖掘机)的场合，高通滤波可以被执行。所使用的滤波器可以被设计，以使得不想要的频率范围的衰减级别仅是适中的。在一些示例中，滤波器可以被设计以使得不想要的频率范围的衰减级别是可调整的。这可以确保原始环境音频特征被充分保留以提供适当级别的环境声音。

在一些示例中，降噪***47、48可以由用户61选择。图6图示了一种示例方法，其中用户可以控制降噪***47、48。图6的示例方法类似于图4的方法，另外的是，用户接口30被布置为使得用户61能够控制降噪***47、48。对应的参考标号用于对应的特征。

在图6的示例中，用户接口30被布置为使得用户能够向装置1输入命令。用户61可以是正在记录音频信号41的电子设备21的用户。在一些示例中，用户61可以是正在呈现音频输出信号51的电子设备21的用户。

在一些示例中，电子设备21可以被配置为使得用户能够选择降噪***47、48的类型。在一些示例中，电子设备21可以被配置为使得用户能够选择将被应用到分量45、46中的每个分量的降噪***47、48。例如，用户接口30可以被配置为显示可用的降噪***47、48的菜单，并且检测用户对菜单选项中的一个或多个菜单选项的选择。响应于用户选择，装置1可以被配置为应用用户选择的降噪***47、48。

在一些示例中，电子设备21可以被配置为使得用户能够选择所应用的降噪量。电子设备21可以被配置为使得用户能够选择将被应用到分量45、46中的每个分量的降噪量。例如，用户接口30可以被配置为显示控制条或用户可选择的图标或其他输入设备，其使得用户能够选择将被应用的降噪级别。响应于用户选择，装置1被配置为应用用户选择的降噪级别。

作为示例，降噪***47、48可以具有多个可用级别。可用级别的范围可以是从级别1到级别5，其中级别5应用最大级别的降噪，并且级别1应用最低级别的降噪。

在一些示例中，五个级别可以是：

用户接口30可以被布置成使得用户能够选择五个级别之一，并且响应于用户选择，装置1被配置为根据所选择的级别来实施降噪***47、48。

将明白，本公开的其他示例中可以提供任何数目的级别，并且降噪***47、48的任何合适布置可以与相应分量中的每个分量相关联。

在上面描述的示例中，应用到直接音频分量45和环境音频分量46两者的降噪***47、48被同时控制。在其他示例中，应用到直接音频分量45和环境音频分量46两者的降噪***47、48可以被分开地控制。

在一些示例中，电子设备21可以具有多个应用。例如，电子设备21(诸如移动电话)可以具有远程通信或远程会议应用，它们使得视频图像和声音能够被记录以便传输到另一设备。移动电话还可以具有多个摄像头，这些摄像头可以用来在视频记录应用中获得视频图像。用户接口30可以被配置为使得用户61能够针对不同的应用选择不同的降噪***47、48和/或不同的降噪级别。

在一些示例中，每个应用可以具有默认的降噪设置。用户接口30可以被配置为使得用户能够将降噪***47、48的设置控制到他们偏好的级别。对于不同的应用，可用的设置可能不同。

作为示例，如果使用中的应用是远程通信应用，则这可能是语音可以被记录的指示。在这样的示例中，用于环境音频分量46和直接音频分量45两者的高级别的降噪可以被选择。如果使用中的应用是视频记录应用，则用于环境音频分量46和直接音频分量45两者的低级别的降噪可以被选择。这可以确保所记录的视频可以使用在虚拟现实或临场应用中。

图7图示了可以用来实施图6的示例方法的示例图形用户界面71。图形用户界面71可以显示在触敏显示器上，该触敏显示器可以作为用户接口30的一部分被提供。

示例图形用户界面71包括直接音频分量45的图形表示73和环境音频分量46的图形表示75。图形表示73、75以如下的方式被显示：该方式使得用户61能够区分直接音频分量45和环境音频分量46。在图7的示例中，直接音频分量45的图形表示73显示在边界77内，并且环境音频分量46的图形表示75显示在边界77的外部。在图7的示例中，边界77是云轮廓。其他类型的边界77或使得用户能够区分直接音频分量45和环境音频分量46的手段可以使用在本公开的其他示例中。

在图7的示例中，还显示了用户61的图形表示79。直接音频分量45的图形表示73可以显示在相对于用户61的图形表示79的位置，以对应于所识别的直接音频分量45的方向。这可以使用户更容易选择他们想要应用的降噪量。

用户接口30可以被配置为使得用户61能够通过在图形表示73、75被显示的区域中进行用户输入，来控制应用到直接音频分量45和环境音频分量46中的每个音频分量的降噪量。例如，用户61可以做出捏放(pinch out)手势以增大所应用的降噪量，或者做出捏合(pinch in)手势以减小降噪量。

在图7的示例中，直接音频分量45的图形表示73的亮度已经降低，这表明用户61已经针对直接音频分量选择低降噪。环境音频分量46的图形表示75的亮度已经增加，这表明用户61已经针对环境音频分量46选择高降噪。

在一些示例中，降噪***47、48可以根据电子设备21当前正在使用的一个或多个应用来选择。图8图示了一种示例方法，其中降噪***47、48基于使用中的应用被选择。图8的示例方法类似于图4的方法，另外的是，降噪***47、48基于使用中的应用被选择。对应的参考标号用于对应的特征。

在图8的方法中的框81处，电子设备21当前使用中的应用被识别。一旦使用中的应用已经被识别，针对该应用的降噪***47、48的最佳类型和/或降噪的最佳级别可以被识别。一旦降噪***47、48的类型和/或降噪级别已经被识别，装置1可以控制电子设备21来提供所选择的类型级别和/或降噪级别。将明白，根据已经识别的应用，可以向不同的音频分量45、46提供不同类型和/或级别的降噪。

在一些示例中，取决于电子设备21使用中的应用，降噪***47、48可以自动被选择。自动选择可以无需任何特定用户输入而发生。

作为示例，可以检测到远程会议或电话应用可能在使用中。可以识别出，针对这种应用的最佳降噪是高级别的降噪，其使得检测到的语音信号的可懂度能够被改进。降噪***47、48的类型和降噪***的级别可以被选择以提供高级别的降噪。在这样的示例中，降噪***47、48可以包括带通滤波，其对语音中发现的频率进行滤波。被滤波的频率可以在400Hz-4kHz的范围内。降噪级别对于环境音频分量46可以高于对于直接音频分量45。

作为另一示例，可以检测到诸如视频记录、虚拟现实捕获、远程呈现或其他类似应用之类的应用在使用中。在这样的示例中，环境音频分量46可以包括诸如风、交通和人群之类的声音，其可以在所获得的音频信号41中提供气氛。在这样的情况下，可能可取的是针对总体的音频信号来优化降噪***47、48。可以识别出，针对这种应用的最佳降噪是使直接音频分量45具有比环境音频分量46更高的降噪级别，从而所获得的音频信号41的气氛被保留。

图9图示了一种示例方法，其中降噪***47、48基于图像特征检测来选择。图9的示例方法类似于图4的方法，另外的是，降噪***47、48基于图像特征检测被选择。对应的参考标号用于对应的特征。

在图9的方法中的框91处，图像特征检测被执行。图像特征检测可以包括：分析由一个或多个摄像头29获得的图像以识别可能的声源。任何适当的图像识别过程可以用来分析所获得的图像。图像可以包括静止图像或视频图像或任何其他合适类型的图像。

一旦图像中的一个或多个对象已经被识别，用于由这样的对象生成的声音类型的降噪***47、48的最佳类型和/或最佳降噪级别可以被识别。一旦降噪***47、48的类型和/或降噪级别已经被识别，装置1可以控制电子设备21来提供所选择的类型级别和/或降噪级别。将明白，根据已经识别的对象，可以向不同的音频分量45、46提供不同类型和/或级别的降噪。

例如，如果识别出电子设备21正被用来拍摄人物，则可能的是正被记录的声音包括语音。在这样的情况下，降噪***47、48可以被选择来针对语音应用优化降噪。

在一些示例中，图像特征检测可以使得移动对象能够在获得的视频图像中被识别。如果没有移动对象被识别，则这可以是如下的指示：视频图像是景观图像，并且降噪***47、48可以针对景观视频记录被最优。降噪***47、48可以包括用于直接音频分量45和环境音频分量46两者的低级别降噪。

如果在视频图像中识别出一些移动对象，则降噪***47、48可以针对所识别的移动对象被优化。如果移动对象在摄像头29附近被检测到，则这可能是如下的指示：用户61正在拍摄诸如人或车辆或其他类型的对象之类的对象。在这样的情况下，环境音频分量46可能不如直接音频分量45重要。在这样的情况下，高级别的降噪可以被应用到环境音频分量46和直接音频分量45两者。应用到环境音频分量46的降噪可以大于应用到直接音频分量45的降噪。

在一些示例中，所应用的降噪可以基于移动对象的数目和对象相对于摄像头29的位置来控制。如果移动对象的数目增加，则降噪可以增加，并且如果移动对象的数目减少，则降噪可以降低。降噪可以随着对象移动靠近摄像头29而增加，并且可以随着对象移动远离摄像头29而减小。

在一些示例中，指示使用中的摄像头29的信息可以用来选择降噪***47、48。例如，电子设备21可以包括安装在电子设备21的正面上的第一摄像头29和安装在电子设备21的背面上第二摄像头29。如果检测到安装在背面的摄像头29正用于视频记录，则可以确定用户61正在拍摄环境声音可能为重要的景观或区域。在这样的情况下，低级别的降噪可以应用到直接音频分量45和环境音频分量46两者。如果检测到安装在正面的摄像头29正用于视频记录，则可以确定用户61正在拍摄他们自己。例如，他们可能正在使用远程通信应用。在这样的情况下，高级别的降噪可以应用到直接音频分量45和环境音频分量46两者，从而可以清楚地提供任何语音信号。

在一些示例中，关于使用中的摄像头29的信息可以与电子设备21获得的另外信息组合使用来控制降噪***47、48。例如，关于获得的音频信号41的方向信息，可以与关于当前使用中的摄像头29的信息组合，用来确定将被使用的降噪***47、48的类型。作为示例，可以检测到安装在背面上的摄像头29当前在使用中，但是关于所获得的音频信号41的方向信息指示直接音频分量主要来自电子设备21的正面侧。在这样的情况下，可以确定用户61正在记录视频，但是提供关于视频的评论。在这样的情况下，降噪***47、48可以针对用户的评论被优化。这可以包括用于直接音频分量45和环境音频分量46两者的强降噪***。

图10图示了一种方法，其中音频信号由第一电子设备21检测，并且获得的音频信号41然后被传输到另一电子设备101以用于由扬声器27的呈现和/或存储器电路5中的存储。

在图10的示例中，在信号被传输到另一电子设备101之前，降噪***47、48由第一电子设备21应用到直接音频分量和环境音频分量45、46。在其他示例中，直接音频分量和环境音频分量45、46可以在应用降噪***47、48之前被传输，从而降噪***47、48可以由另一电子设备101应用。

信号可以从电子设备21经由传输信道103传输到另一电子设备101。传输信道可以包括在第一电子设备21的收发器25与另一电子设备101的收发器25之间建立的有线连接或无线连接。

在信号从电子设备21被传输到另一电子设备101之前，任何适当的部件可以用来对信号编码。在一些示例中，信号可以使用mp3，AAC或任何其他适当的编解码器被编码。

图11图示了一种示例***，其中多个不同的降噪***47、48被应用到直接分量和环境分量45、46。具有不同降噪级别的不同的直接分量和环境分量45、46然后可以在多个层中从电子设备21被传输到另一电子设备101。

在图11的示例中，两个不同的降噪***47A、47B被应用到直接音频分量45。降噪***47A之一可以提供高级别的降噪，并且另一降噪***47B可以应用低级别的降噪。类似地，在图11中，两个不同的降噪***48A、48B被应用到环境音频分量46。降噪***48A之一可以提供高级别的降噪，并且另一降噪***48B可以应用低级别的降噪。这可以使得不同级别的降噪能够被提供给另一电子设备101，从而降噪可以由另一电子设备101来调整。

在图11的示例中，嵌入式编码被用来将多个不同层从电子设备21发送到另一电子设备101。较低的层可以具有低比特率和低复杂水平，并且较高的层可以具有高比特率和高复杂水平。

在图11的示例中，编码器的每层包括不同的信号。图12图示了示例层。第一层121可以包括对于直接音频分量45具有高降噪的低比特率层。第二层123可以包括对于环境音频分量46具有中降噪的低比特率层。第三层125可以包括对于直接音频分量45具有低降噪的高比特率层。第四层127可以包括对于环境音频分量46没有降噪的高比特率层。层的其他布置可以使用在本公开的其他示例中。

术语“包括”以包含性而非排他性含义在本文件中使用。也就是说，对于包括Y的X的任何引用是指X可以仅包括一个Y，或者可以包括多于一个Y。如果意图以排他性含义使用“包括”，则将在上下文中通过提及“仅包括一个……”或通过使用“由……组成”来澄清。

在本简要描述中，已经参考了各种示例。关于示例的特征或功能的描述表明那些特征或功能存在于该示例中。无论是否明确说明，在文本中使用术语“示例”或“例如”或“可以”表示这样的特征或功能至少在所描述的示例中存在，无论是否作为示例描述，并且它们可以但不一定存在于某些或所有其他示例中。因此，“示例”，“例如”或“可以”是指一类示例中的特定实例。实例的性质可以仅是该实例的性质、或该类的性质、或包括该类中的一些但不是所有实例的该类的子类的性质。因此，隐含地公开了：参考一个示例而不是参考另一示例描述的特征，在可能的情况下可以在该另一示例中使用，但不一定必须在该另一示例中使用。

尽管已经在之前的段落中参考各种示例描述了本发明的实施例，但是应当明白，不脱离所要求保护的本发明的范围，可以进行对给出的示例的修改。例如，在上面描述的示例中，所使用的所有麦克风都是真实的麦克风。在一些示例中，用于获得波束形成信号的麦克风中的一个或多个麦克风可以是虚拟麦克风，也即，至少两个真实麦克风信号的算术组合。

前面描述中描述的特征可以使用在除了明确描述的组合之外的其他组合中。

尽管已经参考某些特征描述了功能，但是这些功能可以通过其他特征来执行，无论是否被描述。

尽管已经参考某些实施例描述了特征，但是这些特征也可以存在于其他实施例中，无论是否被描述。

尽管在前述说明书中努力将注意力吸引到被认为具有特别重要性的本发明的那些特征，但应当理解，申请人要求保护上文提及和/或在附图中示出的任何可专利的特征或特征的组合，无论是否对其特别强调。

Claims

1.一种用于降噪的方法，包括：

从多个麦克风获得空间音频信号；

确定所获得的空间音频信号的至少第一分量和所获得的空间音频信号的至少第二分量，其中，所述第一分量包括直接音频分量，并且所述第二分量包括环境音频分量；

将第一降噪***应用到所述第一分量以产生经处理的第一分量，并且将第二降噪***应用到所述第二分量以产生经处理的第二分量，其中，所述第一降噪***和所述第二降噪***被配置为降低所获得的空间音频信号的分量内的噪声；以及

使得所述空间音频信号的经处理版本能够被提供给一个或多个扬声器以用于呈现，其中，所述空间音频信号的所述经处理版本包括经处理的第一分量和经处理的第二分量。

2.根据权利要求1所述的方法，其中：

所述直接音频分量包括所获得的空间音频信号中的人类听众将感知为来自某个方向的部分；和/或

所述环境音频分量包括所获得的空间音频信号中的人类听众将不会感知为来自某个方向的部分；和/或

所述环境音频分量对于当所获得的空间音频信号由所述一个或多个扬声器呈现时，人类听众将感知到的所获得的空间音频信号的环境氛围有贡献。

3.根据权利要求1所述的方法，进一步包括：使用利用一个或多个摄像头获得的图像数据，来使得所获得的空间音频信号中的所述直接音频分量能够被识别。

4.根据权利要求3所述的方法，进一步包括：使用指示当前在使用中的摄像头的信息，来使得所获得的空间音频信号中的所述直接音频分量能够被识别。

5.根据权利要求1所述的方法，其中，所述第一降噪***和所述第二降噪***是不同的。

6.根据权利要求1所述的方法，其中，所述第一降噪***以与所述第二降噪***不同的量来降噪。

7.根据权利要求1所述的方法，其中，至少部分地基于以下中的至少一项来选择所述第一降噪***和所述第二降噪***：

用户；

所获得的空间音频信号的一个或多个特征；

接收的视频信号；

选择的摄像头；或

正被使用的一个或多个应用。

8.根据权利要求1所述的方法，进一步包括：确定所获得的空间音频信号的第三分量，并且将第三降噪***应用到所述第三分量。

9.根据权利要求8所述的方法，其中，所述第三分量包括混响分量。

10.一种用于降噪的装置，包括：

处理电路；以及

包括计算机程序代码的非暂时性存储器电路，所述存储器电路和所述计算机程序代码被配置为，与所述处理电路一起，使得所述装置能够执行：

使用多个麦克风来获得空间音频信号；

11.根据权利要求10所述的装置，其中：

12.根据权利要求10所述的装置，其中，所述存储器电路和所述计算机程序代码被配置为，与所述处理电路一起，使得所述装置能够执行：使用利用一个或多个摄像头获得的图像数据，来使得所获得的空间音频信号中的所述直接音频分量能够被识别。

13.根据权利要求12所述的装置，其中，所述存储器电路和所述计算机程序代码被配置为，与所述处理电路一起，使得所述装置能够执行：使用指示当前在使用中的摄像头的信息，来使得所获得的空间音频信号中的所述直接音频分量能够被识别。

14.根据权利要求10所述的装置，其中，所述第一降噪***和所述第二降噪***是不同的。

15.根据权利要求10所述的装置，其中，所述第一降噪***以与所述第二降噪***不同的量来降噪。

16.根据权利要求10所述的装置，其中，至少部分地基于以下中的至少一项来选择所述第一降噪***和所述第二降噪***：

用户；

所获得的空间音频信号的一个或多个特征；

接收的视频信号；

选择的摄像头；或

所述装置正使用的一个或多个应用。

17.根据权利要求10所述的装置，其中，所述存储器电路和所述计算机程序代码被配置为，与所述处理电路一起，使得所述装置能够执行：确定所获得的空间音频信号的第三分量，并且将第三降噪***应用到所述第三分量。

18.根据权利要求17所述的装置，其中，所述第三分量包括混响分量。

19.根据权利要求10所述的装置，其中，所述装置是电子设备。

20.一种非暂时性计算机可读存储介质，在其上存储有计算机程序指令，所述计算机程序指令当由处理电路执行时使所述处理电路：

使用多个麦克风来获得空间音频信号；