CN109314832A

CN109314832A - 音频信号处理方法和设备

Info

Publication number: CN109314832A
Application number: CN201780033291.6A
Authority: CN
Inventors: 全世云; 徐正勋; 吴贤午; 李泰圭; 白墉铉
Original assignee: Gaudio Lab Inc
Current assignee: Gaudio Lab Inc
Priority date: 2016-05-31
Filing date: 2017-05-30
Publication date: 2019-02-05
Anticipated expiration: 2037-05-30
Also published as: US10271157B2; CN109314832B; US20170347218A1; WO2017209477A1

Abstract

公开一种音频信号处理设备。该音频信号处理设备包括接收单元，被配置成接收与由第一声音采集设备采集的声音对应的第一音频信号和与由第二声音采集设备采集的声音对应的第二音频信号；处理器，被配置成基于第一音频信号和第二音频信号之间的相关性来处理第二音频信号；以及输出单元，被配置成输出经处理的第二音频信号。第一音频信号是用于再现特定声音对象的输出声音的信号，并且第二音频信号是用于所述特定声音对象位于其中的空间的环境再现的信号。

Description

音频信号处理方法和设备

技术领域

本发明涉及一种音频信号处理方法和设备。更具体地，本发明涉及用于处理可表达为环绕声(ambisonics)信号的音频信号的音频信号处理方法和设备。

背景技术

3D音频通常指的是一系列信号处理、传输、编码和回放技术，用于通过向由传统环绕音频提供的水平面(2D)上的声音场景提供与高度方向对应的附加轴来提供给出三维空间中的存在感的声音。特别地，3D音频需要用于在不存在扬声器的虚拟位置处形成声像的渲染技术，即使使用比传统技术更多的扬声器或更少数量的扬声器。

期待3D音频成为超高清电视(UHDTV)的音频解决方案，并且期待除了车辆中的声音之外还被应用于影院声音、个人3D电视、平板电脑、无线通信终端和云游戏等各个领域，演变成高质量的信息娱乐空间。

同时，提供给3D音频的声源可以包括基于声道的信号和基于对象的信号。此外，声源可以是基于声道的信号和基于对象的信号的混合类型，并且通过此配置，可以向用户提供新类型的收听体验。

环绕声信号可以被用于提供基于场景的沉浸式声音。特别地，可以使用更高阶环绕声(HoA)信号以给出生动的存在感。在使用HoA信号的情况下，简化声音获取过程。此外，在使用HoA信号的情况下，可以有效地再现整个三维空间的音频场景。因此，HoA信号处理技术对于给出存在感的声音是重要的虚拟现实(VR)来说可能是有用的。然而，根据HoA信号处理技术，难以准确地表示音频场景内的单个声音对象的位置。

发明内容

技术问题

本发明的实施例的目的是为了提供一种用于处理多个音频信号的音频信号处理方法和设备。

具体地，本发明的实施例的目的是为了提供一种用于处理可表达为环绕声信号的音频信号的音频信号处理方法和设备。

技术方案

根据本发明的示例性实施例，音频信号处理设备包括：接收单元，被配置成接收与由第一声音采集设备采集的声音对应的第一音频信号和与由第二声音采集设备采集的声音对应的第二音频信号；处理器，被配置成基于第一音频信号和第二音频信号之间的相关性来处理第二音频信号；以及输出单元，被配置成输出经处理的第二音频信号。这里，第一音频信号是用于再现特定声音对象的输出声音的信号，并且第二音频信号是用于所述特定声音对象位于其中的空间的环境再现的信号。

处理器可以从第二音频信号中减去基于第一音频信号生成的音频信号。

可以基于通过将时间延迟应用于第一音频信号获得的音频信号来生成基于第一音频信号生成的音频信号。

可以通过将第一音频信号延迟与第一音频信号和第二音频信号之间的时间差一样多的时间来获得基于第一音频信号生成的音频信号。

可以通过基于第一音频信号和第二音频信号之间的水平差来对通过将所述时间延迟应用于第一音频信号而获得的音频信号进行缩放来获得基于第一音频信号生成的音频信号。

处理器可以通过从第一音频信号中减去基于第二音频信号生成的音频信号来处理第一音频信号。这里，输出单元可以输出经处理的第一音频信号和经处理的第二音频信号。

处理器可以基于第一音频信号和第二音频信号之间的相关性来获得与特定声音对象的位置有关的参数。这里，处理器可以通过基于与特定声音对象的位置有关的参数在三维空间中定位特定声音对象来渲染第一音频信号。

处理器可以基于第一音频信号和第二音频信号之间的相关性以及第一音频信号和第二音频信号之间的时间差来获得与特定声音对象的位置有关的参数。

处理器可以基于第一音频信号和第二音频信号之间的相关性、第一音频信号和第二音频信号之间的时间差以及对每个坐标轴应用的距离的可变常数来获得与特定声音对象的位置有关的参数。这里，可以基于从特定声音对象输出的声音的方向性特性来确定距离的可变常数。

此外，可以基于第二声音采集设备的辐射特性来确定距离的可变常数。

此外，可以基于所述第二声音采集设备位于其中的空间的物理特性来确定距离的可变常数。

处理器可以根据用户的输入确定其中特定声音对象将要在三维空间中被定位的位置，并且可以根据确定的位置调节与特定声音对象的位置有关的参数。

处理器通过使用输出单元，可以以对象信号格式输出第一音频信号，并以环绕声信号格式输出第二音频信号。

处理器通过使用输出单元，基于与特定声音对象的位置有关的参数，可以以环绕声信号格式输出第一音频信号，并且可以以环绕声信号格式输出第二音频信号。

处理器可以基于第一音频信号和第二音频信号之间的相关性来增强第二音频信号的分量的一部分。

根据本发明的另一示例性实施例，一种用于操作音频信号处理设备的方法包括：接收与由第一声音采集设备采集的声音对应的第一音频信号和与由第二声音采集设备采集的声音对应的第二音频信号；基于第一音频信号和第二音频信号之间的相关性处理第二音频信号；以及输出经处理的第二音频信号。这里，第一音频信号是用于再现特定声音对象的输出声音的信号，并且第二音频信号是用于所述特定声音对象位于其中的空间的环境再现的信号。

处理第二音频信号可以包括：从第二音频信号中减去基于第一音频信号生成的音频信号。

可以基于通过将时间延迟应用于第一音频信号而获得的音频信号来生成基于第一音频信号生成的音频信号。

有益效果

本发明的实施例提供一种用于处理多个音频信号的音频信号处理方法和设备。

具体地，本发明的实施例可以提供用于处理可表达为环绕声信号的音频信号的音频信号处理方法和设备。

附图说明

图1是图示根据本发明的实施例的音频信号处理设备的框图。

图2是图示根据本发明的实施例的音频信号处理设备同时处理环绕声信号和对象信号的框图。

图3图示根据本发明的实施例的音频信号处理设备处理对象信号和环绕声信号的方法对声音输出质量的认知评估结果；

图4图示根据本发明的实施例的音频信号处理设备根据渲染器的类型处理音频信号的方法；

图5图示通过根据本发明的实施例的音频信号处理设备基于关系处理空间音频信号和对象信号之间的关系处理空间音频信号和对象信号的方法；

图6图示根据本发明的实施例的音频信号处理设备根据用户的输入调节声音对象的位置；

图7图示根据本发明的实施例的音频信号处理设备根据再现布局渲染音频信号；以及

图8图示根据本发明的实施例的音频信号处理设备的操作。

具体实施方式

在下文中，将参考附图详细地描述本发明的实施例，使得本领域的技术人员能够容易地实施本发明的实施例。然而，本发明可以以各种不同的形式实现，并且不限于这里描述的实施例。为了清楚地描述本发明的实施例，在附图中未图示与描述无关的实施例的一些部分。贯穿说明书，相同的附图标记指的是相同的元件。

当提及某个部分“包括”某些元件时，除非另有说明，否则该部件可以进一步包括其他元件。

本申请要求韩国专利申请No.10-2016-0067792(2016.05.31)和10-2016-0067810(2017.05.31)的优先权，其实施例和描述被认为被合并在此。

图1是图示根据本发明的实施例的音频信号处理设备的框图。

根据本发明的实施例的音频信号处理设备包括接收单元10、处理器30和输出单元70。

接收单元10接收输入音频信号。这里，输入音频信号可以是通过转换由声音采集设备采集的声音而获得的信号。声音采集设备可以是麦克风。声音采集设备可以是包括多个麦克风的麦克风阵列。

处理器30处理由接收单元10接收的输入音频信号。详细地，处理器30可以包括格式转换器、渲染器和后处理单元。格式转换器将输入音频信号的格式转换成另一种格式。详细地，格式转换器可以将对象信号转换成环绕声信号。这里，环绕声信号可以是通过麦克风阵列记录的信号。此外，环绕声信号可以是通过将通过麦克风阵列记录的信号转换成球面谐波的基的系数而获得的信号。此外，格式转换器可以将环绕声信号转换成对象信号。详细地，格式转换器可以改变环绕声信号的阶。例如，格式转换器可以将更高阶环绕声(HoA)信号转换成一阶环绕声(FoA)信号。此外，格式转换器可以获得与输入音频信号有关的位置信息，并且可以基于所获得的位置信息来转换输入音频信号的格式。这里，位置信息可以是关于已经采集与音频信号对应的声音的麦克风阵列的信息。详细地，关于麦克风阵列的信息可以包括组成麦克风阵列的麦克风的排列信息、数量信息、位置信息、频率特性信息或波束图案信息中的至少一个。此外，与输入音频信号有关的位置信息可以包括指示声源位置的信息。

渲染器渲染输入音频信号。详细地，渲染器可以渲染格式转换的输入音频信号。这里，输入音频信号可以包括扬声器声道信号、对象信号或环绕声信号中的至少一个。在特定实施例中，渲染器可以通过使用由音频信号格式指示的信息将输入音频信号渲染成使输入音频信号能够由位于三维空间中的虚拟声音对象表示的音频信号。例如，渲染器可以与多个扬声器相关联地渲染输入音频信号。此外，渲染器可以双耳渲染输入音频信号。

输出单元70输出渲染的音频信号。详细地，输出单元70可以通过至少两个音箱输出音频信号。在另一特定实施例中，输出单元70可以通过双声道环绕声耳机输出音频信号。

音频信号处理设备可以同时处理环绕声信号和对象信号。将参考图2描述音频信号处理设备的具体操作。

上述环绕声是用于使音频信号处理设备能够获得关于声场的信息并通过使用所获得的信息再现声音的方法之一。详细地，环绕声可以表示音频信号处理设备如下处理音频信号。

为了理想地处理环绕声信号，需要音频信号处理设备从入射到空间中的一个点的所有方向的声音获得关于声源的信息。然而，因为在减小麦克风的尺寸方面存在限制，所以音频信号处理设备可以通过根据从球面采集的声音计算入射到无限小的点的信号来获得关于声源的信息，并且可以使用获得的信息。详细地，在球面坐标系中，麦克风阵列的每个麦克风的位置可以由距坐标系的中心的距离、方位角(或水平角)和仰角(或垂直角)表示。音频信号处理设备可以使用球面坐标系中的每个麦克风的坐标值来获得球面谐波的基。这里，音频信号处理设备可以基于球面谐波的每个基将麦克风阵列信号投射到球面谐波域中。

例如，麦克风阵列信号可以通过球形麦克风阵列记录。当球面坐标系的中心与麦克风阵列的中心匹配时，从麦克风阵列的中心到每个麦克风的距离是恒定的。因此，每个麦克风的位置可以由方位角θ和仰角φ表示。假设麦克风阵列的第q个麦克风的位置是(θ_q,φ_q)，则通过麦克风记录的信号p_a可以在球面谐波域中表示为以下等式。

[等式1]

p_a表示通过麦克风记录的信号。(θ_q,φ_q)表示第q个麦克风的方位角和仰角。Y表示具有方位角和仰角作为因子的球面谐波。m表示球面谐波的阶数，并且n表示度。B表示对应于球面谐波的环绕声系数。在本公开中，环绕声系数可以被称为环绕声信号。详细地，环绕声信号可以表示FoA信号或HoA信号。

这里，音频信号处理设备可以使用球面谐波的伪逆矩阵来获得环绕声信号。详细地，音频信号处理设备可以使用以下等式获得环绕声信号。

[等式2]

p_a＝YB

如上所述，p_a表示通过麦克风记录的信号，并且B表示对应于球面谐波的环绕声系数。pinv(Y)表示Y的伪逆矩阵。

上述对象信号表示与单个声音对象相对应的音频信号。详细地，对象信号可以是由特定声音对象附近的声音采集设备获得的信号。与在空间中表示在特定点可采集的所有声音的环绕声信号不同，对象信号被用于表示从特定单个声音对象输出的声音被递送到特定点。音频信号处理设备可以使用与对象信号对应的声音对象的位置以环绕声信号的格式表示对象信号。这里，音频信号处理设备可以使用安装在采集与声音对象对应的声音的麦克风中的外部传感器和安装在用于位置测量的参考点上的外部传感器来测量声音对象的位置。在另一特定实施例中，音频信号处理设备可以分析由麦克风采集的音频信号以估计声音对象的位置。详细地，音频信号处理设备可以使用以下等式将对象信号表示为环绕声信号。

[等式3]

θ_s和φ_s分别表示方位角和仰角，其表示与对象对应的声音对象的位置。Y表示具有方位角和仰角作为因子的球面谐波。BSnm表示从对象信号转换的环绕声信号。

因此，当音频信号处理设备同时处理对象信号和环绕声信号时，音频信号处理设备可以使用以下方法中的至少一种。详细地，音频信号处理设备可以单独输出对象信号和环绕声信号。此外，音频信号处理设备可以将对象信号转换成环绕声信号格式以输出环绕声信号和转换成环绕声信号格式的对象信号。这里，环绕声信号和转换成环绕声信号格式的对象信号可以是HoA信号。可替选地，环绕声信号和转换成环绕声信号格式的对象信号可以是FoA信号。在另一特定实施例中，音频信号处理设备可以仅输出环绕声信号没有对象信号。这里，环绕声信号可以是FoA信号。因为假设环绕声信号包括从空间中的一个点采集的所有声音，所以可以假定环绕声信号包括与对象信号对应的信号分量。因此，音频信号处理设备可以通过仅处理环绕声信号同时没有以上述实施例的方式单独处理对象信号来再现与对象信号对应的声音对象。

在特定实施例中，音频信号处理设备可以以图2的实施例的方式处理环绕声信号和对象信号。环绕声转换器31将环境声音转换成环绕声信号。格式转换器33改变对象信号和环绕声信号的格式。这里，格式转换器33可以将对象信号转换成环绕声信号格式。详细地，格式转换器33可以将对象信号转换成HoA信号。此外，格式转换器33可以将对象信号转换成FoA信号。此外，格式转换器33可以将HoA信号转换成FoA信号。后处理器35对格式转换的音频信号进行后处理。双耳渲染器37双耳地渲染经后处理的音频信号。

图3图示根据由根据本发明的实施例的音频信号处理设备处理对象信号和环绕声信号的方法的声音输出质量的认知评估(具有95％置信区间)的结果。

如上所述，音频信号处理设备可以将HoA信号转换成FoA信号。详细地，音频信号处理设备可以从HoA信号中去除除了零阶和一阶分量之外的高阶分量，以将HoA信号转换成FoA信号。在生成环绕声信号时使用的球面谐波的阶数越高，音频信号可表达的空间分辨率越高。因此，当音频信号从HoA信号转换成FoA信号时，音频信号的空间分辨率降低。结果，如图3中所图示，当音频信号处理设备分别输出HoA信号和对象信号时，输出声音被评估为具有最高音质。此外，当音频信号处理设备将对象信号转换成HoA信号并同时输出HoA信号和被转换成HoA信号的对象信号时，输出声音被评估为具有下一个最高音质。当音频信号处理设备将对象信号转换成FoA信号并同时输出FoA信号和转换成FoA信号的对象信号时，输出声音被评估为具有次高的音质。当音频信号处理设备在没有基于对象信号的信号的情况下仅输出FoA信号时，输出声音被评估为具有最低音质。

图4图示根据本发明的实施例的音频信号处理设备根据通过双声道环绕声耳机输出音频信号的渲染器处理音频信号的方法。

根据本发明的实施例的音频信号处理设备可以根据渲染器支持的音频信号格式来改变输入音频信号的格式。详细地，根据本发明的实施例的音频信号处理设备可以使用多个渲染器。这里，音频信号处理设备可以根据由渲染器支持的音频信号格式改变输入音频信号的格式。详细地，当渲染器仅支持渲染FoA信号时，音频信号处理设备可以将对象信号或HoA信号改变成FoA信号。图4图示用于根据渲染器改变输入音频信号的格式的音频信号处理设备的具体操作。

在图4的实施例中，第一渲染器41支持渲染对象信号和HoA信号。第二渲染器43支持渲染FoA信号。在图4中，虚线表示基于FoA信号的音频信号，并且实线表示基于HoA信号的音频信号。这里，渲染器相关的格式转换器34根据使用第一渲染器41和第二渲染器43中的哪一个来改变输入音频信号的格式。详细地，当音频信号处理设备使用第一渲染器41时，渲染器相关格式转换器34将FoA信号转换成HoA信号或对象信号。当音频信号处理设备使用第二渲染器43时，渲染器相关格式转换器34将对象信号或HoA信号转换成FoA信号。

如上所述，音频信号处理设备可以处理由不同声音采集设备采集的音频信号。可以在一个空间中使用多个声音采集设备来采集立体声。这里，可以使用一个声音采集设备来采集环境声音，并且可以使用另一个声音采集设备来采集来自特定声音对象的声音输出。具体地，被用于采集来自特定声音对象的声音输出的声音采集设备可以附接到声音对象，以最小化声音对象或空间结构的位置或方向的影响。

音频信号处理设备可以根据声音的特性渲染针对不同位置处的不同角色采集的多个声音。例如，音频信号处理设备可以使用环境声音来表示空间特性。这里，音频信号处理设备可以使用从特定声音对象输出的声音来表示特定声音对象被定位在三维空间中的特定点处。详细地，音频信号处理设备可以通过基于用户的位置调节从声音对象输出的声音的相对位置来表示声音对象。这里，音频信号处理设备可以输出环境声音，不论用户的位置如何。

因为从声音对象输出的环境声音和声音在相同空间中被采集，所以可以通过用于采集环境声音的麦克风来采集从声音对象输出的声音。此外，可以通过用于采集声音对象的声音的麦克风来采集环境声音。使用此特性，音频信号处理设备可以处理具有不同特性的声音。将参考图5至图7描述此操作。

图5图示由根据本发明的实施例的音频信号处理设备基于其间的关系处理空间音频信号和对象信号的方法。

音频信号处理设备可以基于在与第一声音采集设备采集的声音对应的第一音频信号和与第二声音采集设备采集的声音对应的第二音频信号之间的相关性来处理第一音频信号或第二音频信号中的至少一个。这里，第一声音采集设备可以被定位成比第二声音采集设备更靠近特定声音对象。详细地，第一音频信号是用于再现特定声音对象的输出声音的信号，并且第二音频信号是用于特定声音对象所定位的空间的环境再现的信号。在特定实施例中，第一声音采集设备可以被定位在比与来自特定声音对象的参考频率的波长相对应的距离更短的距离内。这里，第一声音采集设备可以在没有来自特定声音对象的混响的情况下采集干(dry)声。此外，第一声音采集设备可以被用于获得与从特定声音对象输出的声音对应的对象信号。第一音频信号可以是单声道或立体声音频信号。第二声音采集设备可以被用于采集环境声音。第二声音采集设备可以通过多个麦克风采集声音。音频信号处理设备可以将第二音频信号转换成环绕声信号。

在第二声音采集设备是用于获得环绕声信号的声音采集设备的情况下，第二声音采集设备可以假设声音对象的直接声音被同时递送到多个麦克风，即使第二声音采集设备通过多个麦克风采集声音。这是因为可以假定用于采集环境的声音采集设备从入射到空间中的一个点的所有方向采集声音。当第二声音采集设备与声音对象隔开至少一定距离时，第二声音采集设备从声音对象接收较少的声音。因此，可以假定由第二声音采集设备采集的环境声音的能量大小不会根据第二声音采集设备和声音对象之间的距离而改变。结果，确定第一音频信号和第二音频信号之间的相关性的最重要因素可以是与声音对象的位置有关的参数，诸如声音对象的方向、声音对象和第二声音采集设备之间的距离等。倘若第二声音采集设备被定位在原点处，并且声音对象被定位为靠近x轴，音频信号处理设备可以获得相对于x轴的第一音频信号和第二音频信号之间的相关性作为与相对于另一轴的第一音频信号和第二音频信号之间的相关值相比更高的值。因此，音频信号处理设备可以基于第一音频信号和第二音频信号之间的相关性，获得与输出由第一声音采集设备采集的声音的声音对象的位置有关的参数。这里，与声音对象的位置有关的参数可以包括声音对象的坐标、声音对象的方向或声音对象与第二声音采集设备之间的距离中的至少一个。

详细地，音频信号处理设备可以基于第一音频信号和第二音频信号之间的相关性以及第一音频信号和第二音频信号之间的时间差来获得与由第一声音采集设备采集的声音对象的位置有关的参数。音频信号处理设备可以通过使用以下等式获得与输出由第一声音采集设备采集的声音的声音对象的位置有关的参数。

[等式4]

对于m∈(x，y，z)

m表示指示空间中的基本方向的坐标轴。根据空间分辨率，m可以指示x、y和z方向或更多方向。φ_m表示相对于由m指示的轴的第一信号和第二信号之间的互相关。s表示第一音频信号，并且c_m表示通过以空间x、y和z轴作为基本方向投射第二音频信号而获得的环绕声信号。d表示指示时间延迟的参数。这里，可以基于与声音对象的位置有关的参数来确定时间延迟的值。详细地，可以基于第一声音采集设备和第二声音采集设备之间的距离来确定时间延迟的值。音频信号处理设备可以通过计算最大化等式4的互相关的d的值来获得第一音频信号和第二音频信号之间的时间差。详细地，音频信号处理设备可以通过使用下述等式获得第一音频信号和第二音频信号之间的时间差。

[等式5]

对于m∈(x,y,z)

ITD_m表示相对于由m指示的轴的第一音频信号和第二音频信号之间时间差。表示最大化x的d。如上所述，φ_m表示相对于由m指示的轴的第一音频信号和第二音频信号之间的互相关。

音频信号处理设备可以通过使用第一音频信号和第二音频信号之间的相关性来获得声音对象的坐标，该相关性对应于第一音频信号和第二音频信号之间的时间差。详细地，音频信号处理设备可以通过将每个坐标轴的距离的可变常数应用于使用等式1和2获得的互相关来获得声音对象的坐标。这里，可以基于从声音对象输出的特性来确定距离的可变常数。详细地，可以基于从声音对象输出的声音的方向性特性(源指向性图案)来确定距离的可变常数。此外，可以基于第二声音采集设备的设备特性来确定距离的可变常数。详细地，可以基于第二声音采集设备的方向性图案来确定距离的可变常数。此外，可以基于声音对象和第二声音采集设备之间的距离来确定距离的可变常数。此外，可以基于其中第二声音采集设备位于的空间(房间)的物理特性来确定距离的可变常数。距离的可变常数越大，第二声音采集设备在应用可变常数的坐标轴的方向上采集的声音越多。详细地，音频信号处理设备可以使用以下等式获得声音对象的坐标。

[等式6]

x_s、y_s和z_s分别表示声音对象的x、y和z坐标值。w_m表示应用于与m对应的坐标轴的距离的可变常数值。φ_m[ITD_m]表示与m对应的坐标轴上的第一音频信号和第二音频信号之间的相关性。

音频信号处理设备可以将声音对象的x、y和z坐标转换成球面坐标系的坐标。详细地，音频信号处理设备可以使用以下等式获得方位角和仰角。

[等式7]

[等式8]

θ表示方位角，并且φ表示仰角。如上所述，x_s、y_s和z_s分别表示声音对象的x、y和z坐标值。

音频信号处理设备可以获得与声音对象的位置有关的参数，并且可以基于所获得的参数生成指示声音对象的位置的元数据。

图5图示其中在特定实施例中音频信号处理设备基于第一音频信号和第二音频信号之间的相关性获得与声音对象的位置有关的参数的过程。在图5的示例中，第一采集设备3输出第一音频信号(声音对象信号#1，...，声音对象信号#n)。第二采集设备5输出第二音频信号(空间音频信号)。这里，音频信号处理设备通过输入单元(未示出)接收第一音频信号(声音对象信号#1，...，声音对象信号#n)和第二音频信号(空间音频信号)。上述处理器包括3D空间分析器45和信号增强器47。3D空间分析器45基于第一音频信号(声音对象信号#1，...，声音对象信号#n)和第二音频信号(空间音频信号)之间的相关性获得与声音对象的位置有关的参数。信号增强器47基于与声音对象的位置有关的参数输出指示声音对象的位置的元数据。将参考图6描述此操作。

图6图示根据本发明的实施例的音频信号处理设备根据用户的输入调节声音对象的位置。

如上面参考图5所述，音频信号处理设备可以基于第一音频信号和第二音频信号之间的相关性来获得与声音对象的位置有关的参数。这里，音频信号处理设备可以通过使用所获得的与声音对象的位置有关的参数来表示声音对象被定位在特定位置处。详细地，音频信号处理设备可以调节与声音对象的位置有关的参数，并且可以基于调节后的参数来渲染第一音频信号。此外，音频信号处理设备可以调节与声音对象的位置有关的参数，并且可以生成指示调节后的参数的元数据。详细地，音频信号处理设备可以根据用户的输入确定其中声音对象将在三维空间中定位的位置，并且可以根据确定的位置来调节与声音对象的位置有关的参数。这里，用户的输入可以包括跟踪用户的动作的信号。详细地，跟踪用户的运动的信号可以包括头部跟踪信号。

再次参考图5，将描述根据本发明的实施例的音频信号处理设备。信号增强器47可以基于与声音对象位置有关的参数来增强第一音频信号(声音对象信号#1，...，声音对象信号#n)或第二音频信号(空间音频信号)中的至少一个。详细地，可以根据以下实施例操作信号增强器47。

第一音频信号可以是用于再现从声音对象输出的声音的信号，并且第二音频信号可以是用于再现环境声音的信号。这里，与环境声音对应的音频信号分量可以包括在第一音频信号中，或者与从声音对象输出的声音对应的音频信号分量可以包括在第二音频信号中。因此，由第一音频信号和第二音频信号表示的三维性可能劣化。因此，在由第一声音采集设备采集的声音和由第二声音采集设备采集的声音中，需要减小使用第一音频信号表示的声音和使用第二音频信号表示的声音之间的影响。

音频信号处理设备可以通过从第二音频信号中减去基于第一音频信号生成的音频信号来处理第二音频信号。基于第一音频信号生成的音频信号可以是基于通过将时间延迟应用于第一音频信号而获得的音频信号生成的信号。这里，时间延迟的值可以是第一音频信号和第二音频信号之间的时间差。此外，基于第一音频信号生成的音频信号可以是通过对通过将所述时间延迟应用于第一音频信号而获得的音频信号进行缩放而获得的信号。这里，可以基于第一音频信号和第二音频信号之间的水平差来确定缩放值。详细地，音频信号处理设备可以使用以下等式处理第二音频信号。

[等式9]

并且

c_m ^new表示通过从第二音频信号中减去基于第一音频信号生成的音频信号而获得的信号。因此，c_m ^new可以表示被生成以最小化包括在第二音频信号中的声音对象的声音分量的音频信号。d表示指示时间延迟的参数。第一音频信号和第二音频信号之间的时间差可以被应用于d。α_m表示缩放变量。ILD_m表示第一音频信号和第二音频信号之间的水平差。音频信号处理设备可以通过使用以下等式来计算第一音频信号和第二音频信号之间的水平差。

[等式10]

对于m＝[x，y，z]

ILD_m表示第一音频信号和第二音频信号之间相对于由m指示的轴的水平差。如上所述，s表示第一音频信号，并且c_m表示第二音频信号。

音频信号处理设备可以通过从第一音频信号中减去基于第二音频信号生成的音频信号来处理第二音频信号。这里，基于第二音频信号生成的音频信号可以是通过从第二音频信号中减去基于第一音频信号生成的音频信号而获得的信号。为了方便起见，通过从第二音频信号中减去基于第一音频信号产生的音频信号而获得的音频信号被称为第三音频信号。可以通过对第三音频信号求平均来获得基于第二音频信号生成的音频信号。详细地，音频信号处理设备可以使用以下等式处理第一音频信号。

[等式11]

s^new[n]表示通过从第一音频信号中减去基于第二音频信号生成的音频信号而获得的信号。因此，s^new[n]可以表示被生成以最小化与来自第一音频信号的环境声音相对应的声音分量的音频信号。s[n]表示第一音频信号。c_m ^new表示关于等式9在上面描述并且通过从第二音频信号中减去基于第一音频信号产生的音频信号而获得的第三音频信号。M表示在上面关于等式9和11描述的实施例中使用的空间中的轴的数量。

当声音对象不输出声音时，音频信号处理设备可以确定由第一声音采集设备采集的声音对应于稳态噪声。然而，因为非稳态噪声的特性随着时间流逝而改变，所以音频信号处理设备不能仅基于由第一声音采集设备采集的声音来确定哪个声音对应于非稳态噪声。在音频信号处理设备使用与处理第一音频信号和第二音频信号有关的上述实施例的情况下，音频信号处理设备不仅可以从第一音频信号去除稳态噪声而且可以去除非稳态噪声。

在另一特定实施例中，音频信号处理设备可以基于第一音频信号与第二音频信号之间的相关性来增强第二音频信号中的分量的一部分。详细地，音频信号处理设备可以基于第一音频信号和第二音频信号之间的相关性来增加第二音频信号中的分量的一部分的增益。在特定实施例中，音频信号处理设备可以增强第二音频信号的具有比某个参考值更高的与第一音频信号的相关值的信号分量。这里，在没有输出第一音频信号的情况下，音频信号处理设备可以仅输出增强具有与第一音频信号高相关性的信号分量的第二音频信号。此外，音频信号处理设备可以以环绕声信号格式输出第二音频信号，其中第二音频信号的具有与第一音频信号高的相关性的信号分量被增强。

图7图示根据本发明的实施例的音频信号处理设备根据再现布局渲染音频信号。

音频信号处理设备可以基于与声音对象的位置有关的参数根据再现布局来渲染音频信号。这里，再现布局可以表示用于输出音频信号的扬声器排列布局。详细地，音频信号处理设备可以基于指示声音对象的位置的元数据根据再现布局来渲染音频信号。音频信号处理设备可以通过上面参考图5和图6描述的实施例获得与对象的位置有关的参数。此外，音频信号处理设备可以通过上面参考图5和图6描述的实施例生成指示声音对象的位置的元数据。

在图7的实施例中，增强空间音频编码器49将增强的第一音频信号(增强的声音对象信号)和增强的第二音频信号(增强的空间音频信号)的元数据编码成比特流。增强空间音频解码器51对比特流进行解码。这里，空间定位指导器53可以根据用户的输入调节声音对象的位置。3D空间合成器55将与位置调节的声音对象相对应的音频信号与包括在比特流中的另一音频信号合成。3D音频渲染器57通过根据与声音对象的位置有关的参数在三维空间中定位声音对象来渲染音频信号。这里，3D音频渲染器57可以根据再现布局渲染音频信号。

根据这些实施例，音频信号处理设备可以给出真实感，使得声音对象被感觉为好像该声音对象被定位在三维空间中的特定点处。特别地，音频信号处理设备可以给出真实感，使得即使再现环境改变，能够感觉到声音对象好像声音对象被定位在三维空间中的特定点处。

图8是图示根据本发明的实施例的音频信号处理设备的操作的流程图。

音频信号处理设备接收第一音频信号和第二音频信号(S801)。这里，第一音频信号可以对应于由第一声音采集设备采集的声音，并且第二音频信号可以对应于由第二声音采集设备采集的声音。第一音频信号可以是用于再现特定声音对象的输出声音的信号，并且第二音频信号可以是用于所述特定声音对象位于其中的空间的环境再现的信号。详细地，第一声音采集设备可以定位成比第二声音采集设备更靠近特定声音对象。详细地，第一声音采集设备可以定位在距离特定声音对象比与参考频率的波长相对应的距离更短的距离内。这里，第一声音采集设备可以从特定声音对象采集没有混响的干声或具有比由第二声音采集设备采集的第二音频信号的混响更少的混响的干声。此外，第一声音采集设备可以被用于获得与特定声音对象相对应的对象信号。第二声音采集设备可以被用于采集环绕声信号。第二声音采集设备可以通过多个麦克风采集声音。音频信号处理设备可以将第二音频信号转换成环绕声信号。因此，第二音频信号可以被转换成环绕声信号格式。可以将第一音频信号转换成与声音对象相对应的单声道或立体声音频信号格式。

音频信号处理设备基于第一音频信号和第二音频信号之间的相关性来处理第一音频信号或第二音频信号中的至少一个(S803)。详细地，音频信号处理设备可以从第二音频信号中减去基于第一音频信号生成的音频信号。这里，基于第一音频信号生成的音频信号可以是基于通过将时间延迟应用于第一音频信号而获得的音频信号生成的信号。详细地，基于第一音频信号生成的音频信号可以是通过将第一音频信号延迟与第一音频信号和第二音频信号之间的时间差一样多的时间来获得的信号。此外，基于第一音频信号生成的音频信号可以是通过基于第一音频信号和第二音频信号之间的水平差来对通过将所述时间延迟应用于第一音频信号而获得的音频信号进行缩放而获得的信号。详细地，音频信号处理设备可以如上面关于等式9和10所述处理第二音频信号。

音频信号处理设备可以通过从第一音频信号中减去基于第二音频信号生成的音频信号来处理第一音频信号。这里，音频信号处理设备输出处理的第一音频信号和处理的第二音频信号。详细地，音频信号处理设备可以如上面关于等式11所述处理第一音频信号。

音频信号处理设备可以基于第一音频信号和第一音频信号之间的相关性来增强第二音频信号中的分量的一部分。详细地，音频信号处理设备可以增强第二音频信号的信号分量，其具有比与某个参考值更高的与第一音频信号的相关值。这里，在没有输出第一音频信号的情况下，音频信号处理设备可以输出第二音频信号，其具有与第一音频信号的高的相关性的信号分量被增强。此外，音频信号处理设备可以以环绕声信号格式输出第二音频信号，其具有与第一音频信号高的相关性的信号分量被增强。

音频信号处理设备可以基于第一音频信号和第二音频信号之间的相关性来获得与特定声音对象的位置有关的参数。这里，音频信号处理设备可以通过基于与特定声音对象的位置有关的参数在三维空间中定位特定声音对象来渲染第一音频信号。音频信号处理设备可以基于第一音频信号和第二音频信号之间的相关性以及第一音频信号和第二音频信号之间的时间差来获得与特定声音对象的位置有关的参数。音频信号处理设备可以基于第一音频信号和第二音频信号之间的相关性、第一音频信号和第二音频信号之间的时间差以及对每个坐标轴应用的距离的可变常数来获得与特定声音对象的位置有关的参数。这里，可以基于从特定声音对象输出的声音的特性来确定距离的可变常数。详细地，可以基于从特定声音对象输出的声音的方向性特性来确定距离的可变常数。此外，可以基于第二声音采集设备的设备特性来确定距离的可变常数。详细地，可以基于第二声音采集设备的辐射图案来确定距离的可变常数。此外，可以基于特定声音对象和第二声音采集设备之间的距离来确定距离的可变常数。此外，可以基于其中第二声音采集设备位于的空间(房间)的物理特性来确定距离的可变常数。详细地，音频信号处理设备可以获得与特定声音对象的位置有关的参数，如上面关于等式4至6所述。

音频信号处理设备可以根据用户的输入确定其中特定声音对象将在三维空间中定位的位置，并且可以根据被确定的位置调节与特定声音对象的位置有关的参数。详细地，音频信号处理设备可以渲染第一音频信号，如在上面参考图6和图7所述。

音频信号处理设备输出经处理的第一音频信号或经处理的第二音频信号中的至少一个(S805)。音频信号处理设备可以以对象信号格式输出第一音频信号，并且可以以环绕声信号格式输出第二音频信号。这里，对象信号格式可以是单声道信号格式或立体声信号格式。音频信号处理设备可以以环绕声信号格式输出第一音频信号，并且可以基于与特定声音对象的位置有关的参数以环绕声信号格式输出第二音频信号。这里，音频信号处理设备可以基于与特定声音对象的位置有关的参数将第一音频信号转换成环绕声信号格式。音频信号处理设备可以使用上面关于等式3描述的实施例将第一音频信号转换成环绕声信号格式。在特定实施例中，音频信号处理设备可以根据在上面参考图2至图4描述的实施例输出第一音频信号和第二音频信号。

尽管已经使用特定实施例描述本发明，但是本领域的技术人员可以在不脱离本发明的精神和范围的情况下进行改变和修改。也就是说，尽管已经描述用于处理多音频信号的实施例，但是本发明能够被同样地应用和扩展到不仅包括音频信号而且包括视频信号的各种多媒体信号。因此，本领域的技术人员从本发明的详细描述和实施例中可以容易地推断的任何衍生物应被解释为落入本发明的权利范围内。

Claims

1.一种音频信号处理设备，包括：

接收单元，所述接收单元被配置成接收与由第一声音采集设备采集的声音对应的第一音频信号和与由第二声音采集设备采集的声音对应的第二音频信号；

处理器，所述处理器被配置成基于所述第一音频信号和所述第二音频信号之间的相关性来处理所述第二音频信号；以及

输出单元，所述输出单元被配置成输出经处理的第二音频信号，其中，所述第一音频信号是用于再现特定声音对象的输出声音的信号，并且所述第二音频信号是用于所述特定声音对象位于其中的空间的环境再现的信号。

2.根据权利要求1所述的音频信号处理设备，其中，所述处理器从所述第二音频信号中减去基于所述第一音频信号生成的音频信号。

3.根据权利要求2所述的音频信号处理设备，其中，基于通过将时间延迟应用于所述第一音频信号获得的音频信号来生成基于所述第一音频信号生成的所述音频信号。

4.根据权利要求3所述的音频信号处理设备，其中，通过将所述第一音频信号延迟与所述第一音频信号和所述第二音频信号之间的时间差一样多的时间来获得基于所述第一音频信号生成的所述音频信号。

5.根据权利要求3所述的音频信号处理设备，其中，通过基于所述第一音频信号和所述第二音频信号之间的水平差来对通过将所述时间延迟应用于所述第一音频信号而获得的所述音频信号进行缩放来获得基于所述第一音频信号生成的所述音频信号。

6.根据权利要求2所述的音频信号处理设备，

其中，所述处理器通过从所述第一音频信号中减去基于所述第二音频信号生成的音频信号来处理所述第一音频信号，

其中，所述输出单元输出经处理的第一音频信号和所述经处理的第二音频信号。

7.根据权利要求6所述的音频信号处理设备，其中，所述处理器基于所述第一音频信号和所述第二音频信号之间的所述相关性来获得与所述特定声音对象的位置有关的参数，并且通过基于与所述特定声音对象的所述位置有关的所述参数在三维空间中定位所述特定声音对象来渲染所述第一音频信号。

8.根据权利要求7所述的音频信号处理设备，其中，所述处理器基于所述第一音频信号和所述第二音频信号之间的所述相关性以及所述第一音频信号和所述第二音频信号之间的时间差来获得与所述特定声音对象的所述位置有关的所述参数。

9.根据权利要求8所述的音频信号处理设备，

其中，所述处理器基于所述第一音频信号和所述第二音频信号之间的所述相关性、所述第一音频信号和所述第二音频信号之间的所述时间差以及对每个坐标轴应用的距离的可变常数来获得与所述特定声音对象的所述位置有关的所述参数，

其中，基于从所述特定声音对象输出的声音的方向性特性来确定所述距离的可变常数。

10.根据权利要求8所述的音频信号处理设备，

其中，基于所述第一音频信号和所述第二音频信号之间的所述相关性、所述第一音频信号和所述第二音频信号之间的所述时间差以及对每个坐标轴应用的距离的可变常数来获得与所述特定声音对象的所述位置有关的所述参数，

其中，基于所述第二声音采集设备的辐射特性确定所述距离的可变常数。

11.根据权利要求8所述的音频信号处理设备，

其中，基于所述第二声音采集设备位于其中的空间的物理特性来确定所述距离的可变常数。

12.根据权利要求7所述的音频信号处理设备，其中，所述处理器根据用户的输入确定其中所述特定声音对象将要在三维空间中被定位的位置，并且根据确定的位置调节与所述特定声音对象的所述位置有关的所述参数。

13.根据权利要求7所述的音频信号处理设备，其中，所述处理器通过使用所述输出单元，以对象信号格式输出所述第一音频信号，并且以环绕声信号格式输出所述第二音频信号。

14.根据权利要求7所述的音频信号处理设备，其中，所述处理器通过使用所述输出单元，基于与所述特定声音对象的所述位置有关的所述参数，以环绕声信号格式输出所述第一音频信号，并且以所述环绕声信号格式输出所述第二音频信号。

15.根据权利要求1所述的音频信号处理设备，其中，所述处理器基于所述第一音频信号和所述第二音频信号之间的所述相关性来增强所述第二音频信号的分量的一部分的增益。

16.一种用于操作音频信号处理设备的方法，所述方法包括：

接收与由第一声音采集设备采集的声音对应的第一音频信号和与由第二声音采集设备采集的声音对应的第二音频信号；

基于所述第一音频信号和所述第二音频信号之间的相关性处理所述第二音频信号；以及

输出经处理的第二音频信号，

其中，所述第一音频信号是用于再现特定声音对象的输出声音的信号，并且所述第二音频信号是用于所述特定声音对象位于其中的空间的环境再现的信号。

17.根据权利要求16所述的方法，其中，处理所述第二音频信号包括：从所述第二音频信号中减去基于所述第一音频信号生成的音频信号。

18.根据权利要求17所述的方法，其中，基于通过将时间延迟应用于所述第一音频信号而获得的音频信号来生成基于所述第一音频信号生成的所述音频信号。

19.根据权利要求18所述的方法，其中，通过将所述第一音频信号延迟与所述第一音频信号和所述第二音频信号之间的时间差一样多的时间来获得基于所述第一音频信号生成的所述音频信号。

20.根据权利要求18所述的方法，通过基于所述第一音频信号和所述第二音频信号之间的水平差来对通过将所述时间延迟应用于所述第一音频信号而获得的所述音频信号进行缩放来获得基于所述第一音频信号生成的所述音频信号。