CN105075294B

CN105075294B - 音频信号处理装置

Info

Publication number: CN105075294B
Application number: CN201380074097.4A
Authority: CN
Inventors: 彼得·格罗舍; 大卫·维雷特
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2013-04-30
Filing date: 2013-04-30
Publication date: 2018-03-09
Anticipated expiration: 2033-04-30
Also published as: EP2946573A1; CN105075294A; EP2946573B1; US20160044432A1; WO2014177202A1

Abstract

本发明涉及一种用于处理音频信号的音频信号处理装置(400)，所述音频信号处理装置(400)包括：转换器(401)，用于将立体声音频信号转换为双耳音频信号；确定器(403)，用于根据指示信号(405)确定所述音频信号是立体声音频信号还是双耳音频信号，该指示信号(405)指示所述音频信号是立体声音频信号还是双耳音频信号，所述确定器(403)还用于：如果所述音频信号是立体声音频信号，则向所述转换器(401)提供所述音频信号。

Description

音频信号处理装置

技术领域

本发明涉及音频信号处理领域。

背景技术

正如2008年Pekonen,J.在赫尔辛基理工大学音频信号处理研讨会上的《空间声音的麦克风技术》中所描述的，音频信号可以分为两种不同类别。第一类包括如传统麦克风录制的立体声音频信号。第二类包括如采用仿真头录制的双耳音频信号。

立体声音频信号是为在听者前采用两个扬声器进行立体声呈现所设计，以实现在与所述扬声器的位置不同的位置上感知声源位置的目标。这些声源也称为幻象声源。还可以使用耳机进行立体声音频信号呈现。声源在空间位置的布置通过改变强度和/或适当延迟提供给左右扬声器和/或耳机的源信号来实现，其中，所述强度的改变和/或源信号的适当延迟称为幅度、强度平移或延迟平移。通过合理配置两个麦克风，如A-B或X-Y，立体声录制也可以营造声源在不同位置的感觉。

当通过耳机收听时，立体声音频信号不能在所述两个扬声器之间的线段外营造声源的效果，导致声源在头部内的定位。所述幻象声源的位置是限制的，且听觉体验并不是浸入式的。

然而，正如2011年Blauert,J.和Braasch,J.在IEEE DSP的《双耳信号处理》中所描述的，由于发生在真实的声音场景中，双耳音频录制可以在听者的两个耳膜上捕获声压。在向听者展示双耳音频信号时，会在所述听者的两个耳膜上产生所述信号的副本，就如同在录制位置体验到双耳音频信号一样。从所述两路音频信号中捕获到如双耳时间差和/或双耳电平差等双耳线索，营造出一种浸入式听觉体验，其中，声源可以放置在所述听者的四周。

对于向所述听者呈现双耳音频信号，期望保证每个声道单独展示并且没有任何串扰。串扰指的是将在所述听者右耳膜边录制的部分信号展示给了左耳的非期望情况，反之亦然。当采用传统耳机展示双耳音频信号时，防止串扰可以自然地得以实现。使用传统立体声扬声器呈现要求进行合适处理来主动消除非期望的串扰，这种处理避免了所述左扬声器产生的信号到达右耳膜，反之亦然。串扰消除可以通过使用逆滤波技术实现。这种加强型扬声器也称为一对串扰消除扬声器。没有串扰的双耳音频信号可以提供完全浸入式听觉体验，其中，声源的位置没有限制但大体上跨越围绕所述听者的整个三维空间。

对于获得营造完全浸入式听觉体验的双耳音频信号，在所述听者的耳膜边捕获信号是可取的。尽管所述听者可以佩戴专门设计的麦克风，大多数双耳音频信号是通过采用仿真头获得的。仿真头是一种模拟真实人头的声学特性和在所述耳膜的位置上嵌入两个麦克风的人工头。

对于立体声音频信号，现有方法增加了所述声音场景的宽度。正如2011年Floros,A.和Tatlas,N.A.在IEEE-DSP《用于浸入式立体声音频应用的空间增强》中所描述的，这类方法众所周知且在称为立体声增强或声音外化的技术中广为应用。主要的策略是引进合成双耳线索，并把合成双耳线索加入到立体声音频信号中，从而支持在所述扬声器或耳机之间的线段外的声源的定位。

因此，正如2006年Liitola,T.在赫尔辛基大学的博士论文《耳机声音外化》中所描述的，虚拟声场的宽度可以增加至超出典型扬声器跨度±30°，且使用耳机可以实现更加自然的浸入式体验。所产生信号的呈现一般需要采用串扰防止手段，如使用耳机或一对串扰消除扬声器。

立体声增强方法的应用只适合不含双耳线索的立体声音频信号。对于双耳录制，引进额外的合成双耳线索以增强立体声像，导致双耳线索与所述双耳信号中已包含的自然线索冲突。这类冲突的线索使得人类听觉***无法实现所述声源的定位，以及三维声音场景的任何感知都被破坏了。

在现有的方法中，所述听者手工完成了是否应该将立体声增强应用到加强所述感知的决策。所述听者必须决定是否开启立体声增强。

在以立体声增强方法为特征的典型听觉场景中，如智能手机、MP3播放器或PC声卡，立体声增强通常被默认应用。为通过使用现有技术获得最佳的听觉体验，所述听者将必须在所述设备的设置中关闭立体声增强。这就需要所述听者意识到自己正在听双耳音频信号，自己的设备正在使用立体声增强方法，以及应该为双耳音频信号去激活立体声增强。因此，听者在听双耳音频信号时通常体验到较差的三维听觉体验。

发明内容

本发明的目的是在无需听者进行任何人工干预的情况下，对于如立体声音频信号和双耳音频信号等任何一种音频信号，提供营造浸入式听觉体验的改进方案。

该目的是通过独立权利要求的特征来实现的。结合独立权利要求、说明书和附图会使具体实现方式更易于理解。

根据第一方面，本发明涉及一种用于处理音频信号的音频信号处理装置，所述音频信号处理装置包括：转换器，用于将立体声音频信号转换为双耳音频信号；确定器，用于根据指示信号确定所述音频信号是立体声音频信号还是双耳音频信号，该指示信号指示所述音频信号是立体声音频信号还是双耳音频信号，所述确定器还用于：如果所述音频信号是立体声音频信号，则向所述转换器提供所述音频信号。

因此，所述音频信号处理装置使得在无需听者进行任何人工干预的情况下，对于任何一种音频信号都能够提供浸入式听觉体验。

因此，所述立体声音频信号通过使用例如基于合成双耳线索的立体声增强技术来进行处理，以增大所述声音场景的宽度和营造浸入式的体验。然而，呈现了未被修改的双耳音频信号，以重现原来录制的三维场景。

所述音频信号可以是立体声音频信号或双耳音频信号。立体声音频信号例如可以通过采用传统的立体声麦克风来进行录制。双耳音频信号例如可以通过采用仿真头上的麦克风来进行录制。

所述音频信号还可以作为双声道音频信号或参数音频信号提供。双声道音频信号可以包括第一声道音频信号，如左声道，和第二声道音频信号，如右声道。参数音频信号可以包括下混音频信号和参数边信息。下混音频信号可以通过将双声道音频信号混合到单个声道或单声道音频声道中获得。所述参数边信息可以对应所述下混音频信号且可以包括定位线索或空间线索。

因此，所述音频信号可以由四种不同组合中的其中一种提供。所述音频信号可以是双声道立体声音频信号、双声道双耳音频信号、参数立体声音频信号或参数双耳音频信号。

所述转换器可以用于将立体声音频信号转换为双耳音频信号。为实现此目的，可以应用立体声增强技术和/或声音外化技术，其可以将合成双耳线索加入到所述立体声音频信号中。

所述确定器可以用于根据指示信号确定所述音频信号是立体声音频信号还是双耳音频信号。所述确定器还可以用于：如果所述音频信号是立体声音频信号，则向所述转换器提供所述音频信号。为实现此目的，所述确定器例如可以将所述指示信号提供的值如0.6与预先定义的阈值如0.4进行比较，如果所述值小于所述预先定义的阈值，则确定所述音频信号是立体声音频信号；如果所述值大于所述预先定义的阈值，则确定所述音频信号是双耳音频信号，反之亦然。可选地，所述确定器例如可以基于所述指示信号提供的标志确定所述音频信号是立体声音频信号还是双耳音频信号。

所述转换器和所述确定器可以在处理器上实现。

所述指示信号可以指示所述音频信号是立体声音频信号还是双耳音频信号。所述指示信号可以向所述确定器提供一个值，如某个数值，或一个用于指示所述音频信号是立体声音频信号还是双耳音频信号的标志。

根据第一方面，在第一种实现方式中，所述音频信号处理装置包括用于输出所述双耳音频信号的输出终端，其中，所述确定器用于：如果所述音频信号是双耳音频信号，则直接向所述输出终端提供所述音频信号。

因此，不向所述转换器提供所述双耳音频信号，且不向所述双耳信号加入合成双耳线索。这样，所述双耳音频信号的原始双耳声音场景得以保留，并实现浸入式听觉体验。

所述输出终端可以用于立体声音频信号和/或双耳音频信号。所述输出终端还可以用于双声道音频信号和/或参数音频信号。因此，所述输出终端可以用于双声道立体声音频信号、双声道双耳音频信号、参数立体声音频信号、参数双耳音频信号或其组合。

根据第一方面或根据第一方面的第一种实现方式，在第二种实现方式中，所述音频信号处理装置还包括用于分析所述音频信号以生成所述指示信号的分析器。

因此，无需外部提供所述指示信号，所述装置就可以应用到任何传统的音频信号中。

所述分析器可以用于分析所述音频信号以生成指示所述音频信号是立体声音频信号还是双耳音频信号的指示信号。所述分析器还可以用于从所述音频信号中提取定位线索，该定位线索指示音频源的位置；并分析所述定位线索以生成所述指示信号。

所述分析器可以在处理器上实现。

根据第一方面的第二种实现方式，在第三种实现方式下，所述分析器用于从所述音频信号中提取定位线索，该定位线索指示音频源的位置；并分析所述定位线索以生成所述指示信号。

因此，可以分析所述音频信号浸入感的深刻标准，以生成可靠且具有代表性的指示信号。

所述定位线索或空间线索可以包括所述音频信号中一个或若干个音频源空间位置分布的信息。所述定位线索或空间线索例如可以包括双耳时间差(ITD)、双耳相位差(IPD)、双耳电平差(ILD)、外耳上的方向选择性频率滤波、头部、肩膀和身体上的方向选择性反射，和/或环境线索。双耳电平差、双耳相干性差、双耳相位差和双耳时间差分别表示为所述录制的音频信号中的声道间电平差、声道间声道差、声道间相位差和声道间时间差。所述术语“定位线索”和所述术语“空间线索”可以替换使用。

所述音频源可以由麦克风录制的声波源来表征。所述声波源例如可以是乐器或说话的人。

所述音频源的位置可以表示为相对于所述音频录制位置的中心轴的一个角度，例如25°。所述中心轴例如可以表示为0°。左边方向和右边方向例如可以表示为+90°和-90°。因此，在所述音频录制位置如空间音频录制位置内，所述音频源的位置可以通过相对于所述中心轴的角度来表示。

所述定位线索的提取可以包括音频信号处理技术的进一步应用。所述提取可采用子带分解技术以频率选择的方式作为预处理步骤执行。

所述定位线索的分析可以包括分析所述音频信号中音频源的位置。此外，所述定位线索的分析可以包括分析一致性，比如左/右一致性、线索间一致性和/或感知模型一致性。此外，所述定位线索的分析可以包括更多标准的分析，例如相干性和/或互关联性。

所述定位线索的分析还可以包括通过采用和/或结合上述标准，如声源的位置和一致性以及所述更多的标准来确定所述音频信号的浸入感，以获得浸入程度。

所述指示信号的生成可以基于所述定位线索的分析和/或所述音频信号沉浸感的确定。此外，所述指示信号的生成可以基于所获得的浸入程度。所述指示信号的生成可以产生一个值，如某个数值，或一个用于指示所述音频信号是立体声音频信号还是双耳音频信号的标志。

根据第一方面或第一方面的前述的任一种实现方式，在第四种实现方式中，所述转换器用于向所述立体声音频信号加入合成双耳线索，以获得所述双耳音频信号。

因此，所述立体声音频信号可以转换为提供浸入式听觉体验的所述双耳音频信号。

因此，所述转换器可以应用立体声增强技术和/或声音外化技术，其可以加强所述声音场景的感知。

所述合成双耳线索可以涉及双耳线索，所述音频信号中不存在所述双耳线索，其基于音频感知模型以合成的方式生成。所述双耳线索可以由定位线索或空间线索来表征。

根据第一方面或第一方面的前述的任一种实现方式，在第五种实现方式中，所述音频信号是包括第一声道音频信号和第二声道音频信号的双声道音频信号，其中，所述分析器用于基于所述第一声道音频信号和所述第二声道音频信号之间的声道间相干性、声道间时间差、声道间电平差或其组合来确定浸入程度，并分析所述浸入程度以生成所述指示信号。

因此，所述浸入程度可以基于所述音频信号沉浸感的深刻标准，可以生成可靠且具有代表性的指示信号。

所述第一声道音频信号可以涉及左声道音频信号。所述第二声道音频信号可以涉及右声道音频信号。

声道间相干性可以采用0和1之间的值描述所述声道音频信号的相似度，如关联性的量。声道间相干性的较小值可以表示感知到的所述音频信号较大的宽度。感知到的所述音频信号较大的宽度可以表示双耳音频信号。

所述声道间时间差可以涉及所述第一声道音频信号和所述第二声道音频信号中声源出现之间的相对延迟或相对时间差。所述声道间时间差可以用于确定所述声源的方向或角度。

所述声道间电平差可以涉及所述第一声道音频信号和所述第二声道音频信号中声源的声功率电平之间的相对电平差或相对衰减。所述声道间电平差可以用于确定所述声源的方向或角度。

所述浸入程度可以基于所述声道间相干性、声道间时间差、声道间相位差、声道间电平差或其组合。所述浸入程度可以涉及所述声道音频信号的相似度、所述声道音频信号的音频源位置和/或所述声道音频信号中的定位线索的一致性。

根据第一方面或第一方面的前述的任一种实现方式，在第六种实现方式中，所述音频信号是包含第一声道音频信号和第二声道音频信号的双声道音频信号，其中，所述分析器用于通过若干头部相关传输函数对进行逆滤波处理，来确定所述第一声道音频信号的若干第一原始信号和所述第二声道音频信号的若干第二原始信号，并分析所述若干第一原始信号和所述若干第二原始信号以生成所述指示信号。

因此，可以评估针对所述音频信号沉浸感的另一深刻标准，可以生成可靠且具有代表性的指示信号。

所述若干第一原始信号可以涉及源于所述音频源的原始音频信号。可以认为所述若干第一原始信号是通过若干第一头部相关传输函数对进行了滤波。

所述若干第二原始信号可以涉及源于所述音频源的原始音频信号。可以认为所述若干第二原始信号是通过若干第二头部相关传输函数对进行了滤波。

通过所述若干头部相关传输函数对所述第一声道音频信号和所述第二声道音频信号进行逆滤波，可以获得并评估所述若干第一原始信号和所述若干第二原始信号。

所述逆滤波可以包括例如通过最小均方差(MMSE)方法来确定逆滤波器并在所述音频信号上应用所述逆滤波器。

每对头部相关传输函数可以对应一个给出的音频源角度。所述头部相关传输函数在时域上例如可以表示为脉冲响应，和/或在频域上例如可以表示为频率响应。所述头部相关传输函数可以表示给出的源角度的一套完整的定位线索。

对所述若干第一原始信号和所述若干第二原始信号的分析可以包括分析每对第一原始信号和第二原始信号的关联性，且确定产生最大关联值的这对信号。所述确定的这对信号可以对应所述音频源的角度。所述最大关联值可以指示所述定位线索的一致性程度，并提供所述音频信号浸入程度。

根据第一方面或第一方面的前述的任一种实现方式，在第七种实现方式中，所述音频信号是包含下混音频信号和参数边信息的参数音频信号，其中，所述分析器用于提取和分析所述参数边信息以生成所述指示信号。

因此，可以实现有效分析所述参数音频信号和有效生成所述指示信号。

所述参数音频信号可以包括下混音频信号和参数边信息。

所述下混音频信号可以通过将双声道音频信号混合到单声道音频信号中获得。

所述参数边信息可以对应所述下混音频信号且可以包括定位线索或空间线索。

可以进一步处理所述参数边信息来确定所述音频信号是立体声音频信号还是双耳音频信号。

从所述参数音频信号提取所述参数边信息可以包括选择或摈弃一部分所述参数音频信号。

分析所述参数边信息可以包括将所述参数音频信号中存在的定位线索或空间线索转换成不同的格式。

根据第一方面或第一方面的前述的任一种实现方式，在第八种实现方式中，所述确定器用于：如果所述指示信号包括第一信号值，则确定所述音频信号是立体声音频信号，和/或如果所述指示信号包括第二信号值，则确定所述音频信号是双耳音频信号。

因此，可以采用表示所述音频信号是立体声音频信号还是双耳音频信号的有效方式。

所述第一信号值可以包括一个数值如0.4，或者一个二进制值如0或1。此外，所述第一信号值可以包括指示所述音频信号是立体声音频信号还是双耳音频信号的标志。

所述第二信号值不同于所述第一信号值，可以包括一个数值如0.6，或者一个二进制值如1或0。此外，所述第二信号值可以包括指示所述音频信号是立体声音频信号还是双耳音频信号的标志。

根据第一方面或第一方面的前述的任一种实现方式，在第九种实现方式中，所述指示信号是所述音频信号的一部分，且所述确定器用于从所述音频信号中提取所述指示信号。

因此，可以避免所述音频信号的内部生成，并能够实现简化使用所述音频信号处理装置。

一部分所述音频信号和/或所述音频信号可以作为比特流提供。所述比特流可以包括所述音频信号的数字表示，并能够采用如脉冲编码调制(PCM)等音频编码方式进行编码。所述比特流还可以包括元数据容器格式的元数据，如ID3v1、ID3v2、APEv1、APEv2、CD文本或Vorbis注释。

从所述音频信号中提取所述指示信号可以包括选择或摈弃一部分所述音频信号和/或比特流。

根据第二方面，本发明涉及一种用于分析音频信号以生成指示所述音频信号是立体声音频信号还是双耳音频信号的指示信号的分析器，其中，所述分析器用于从所述音频信号中提取定位线索，该定位线索指示音频源的位置；并分析所述定位线索以生成所述指示信号。

因此，分析所述音频信号和生成所述指示信号可以各自独立地执行。

所述分析器可以在处理器上实现。

所述定位线索或空间线索可以包括所述音频信号中一个或若干个音频源空间位置分布的信息。所述定位线索或空间线索例如可以包括双耳时间差(ITD)、双耳电平差(ILD)、外耳上的方向选择性频率滤波、头部、肩膀和身体上的方向选择性反射，和/或环境线索。双耳电平差和双耳时间差分别表示为所述录制的音频信号中的声道间电平差和声道间时间差。所述术语“定位线索”和所述术语“空间线索”可以替换使用。

所述音频源可以由麦克风录制的声波源来表征。所述声波源例如可以是乐器。

所述定位线索的分析可以包括分析所述音频信号中音频源的位置。此外，所述定位线索的分析可以包括分析一致性，比如左/右一致性、线索间一致性和/或感知模型一致性。此外，所述定位线索的分析可以包括更多标准的分析，例如声道间相干性和/或互关联性。

根据第三方面，本发明涉及一种用于处理音频信号的方法，所述方法包括：根据指示信号确定所述音频信号是立体声音频信号还是双耳音频信号，该指示信号指示所述音频信号是立体声音频信号还是双耳音频信号；且如果所述音频信号是立体声音频信号，则将所述立体声音频信号转换为双耳音频信号。

因此，所述用于处理音频信号的方法可以在无需听者进行任何人工干预的情况下，对于任何一种音频信号都能够提供浸入式听觉体验。

所述用于处理音频信号的方法可以由根据本发明第一方面所述的音频信号处理装置实现。

所述用于处理音频信号的方法的更多特征可以从本发明第一方面所述的音频信号处理装置的功能中得到。

根据第三方面，在第一种实现方式中，所述方法还包括：从所述音频信号中提取所述指示信号。

因此，可以避免所述音频信号的内部生成，并能够实现简化使用所述用于处理音频信号的方法。

所述音频信号可以作为比特流提供。所述比特流可以包括所述音频信号的数字表示，并能够采用如脉冲编码调制(PCM)等音频编码方式进行编码。所述比特流还可以包括元数据容器格式的元数据，如ID3v1、ID3v2、APEv1、APEv2、CD文本或Vorbis注释。

根据第四方面，本发明涉及一种用于分析所述音频信号以生成指示所述音频信号是立体声音频信号还是双耳音频信号的指示信号的方法，所述方法包括：从所述音频信号中提取定位线索，该定位线索指示音频源的位置；并分析所述定位线索以生成所述指示信号。

所述用于分析音频信号的方法可以由根据本发明第二方面所述的分析器实现。

所述用于分析音频信号的方法的更多特征可以从本发明第二方面所述的分析器的功能中得到。

根据第五方面，本发明涉及一种音频信号处理***，包括：根据第一方面或第一方面的前述的任一种实现方式中所述的音频信号处理装置，和根据第二方面所述的用于分析所述音频信号以生成指示信号的分析器。

所述音频信号处理装置和所述分析器可以在不同时间和/或不同位置运行。

根据第六方面，本发明涉及一种计算机程序，当其在计算机上执行时，用于执行所述第三方面的方法、所述第三方面的第一种实现方式的方法或所述第四方面的方法。

因此，所述方法可以以自动和重复的方式应用。

该计算机程序以机器可读代码的形式提供。该计算机程序可以包括计算机处理器的一系列命令。所述计算机的处理器可用于执行该计算机程序。

所述计算机可以包括处理器、存储器，和/或输入/输出装置。

该计算机程序可以用于执行所述第三方面的方法、所述第三方面的第一种实现方式的方法和/或所述第四方面的方法。

该计算机程序的更多特征可以从所述第三方面的方法、所述第三方面的第一种实现方式的方法和/或所述第四方面中的方法的功能中得到。

根据第七方面，本发明涉及一种可编程音频信号处理装置，用于执行该计算机程序以执行所述第三方面的方法、所述第三方面的第一种实现方式的方法或所述第四方面的方法。

根据第八方面，本发明涉及一种用于处理音频信号的音频信号处理装置，所述音频信号处理装置用于将立体声音频信号转换为双耳音频信号；根据指示信号确定所述音频信号是立体声音频信号还是双耳音频信号，该指示信号指示所述音频信号是立体声音频信号还是双耳音频信号；如果所述音频信号是立体声音频信号，则转换所述音频信号。

本发明可以以硬件和/或软件形式来实现。

附图说明

本发明的具体实施方式将结合以下附图进行描述，其中：

图1示出了采用两个扬声器或耳机向听者呈现立体声信号的示意图；

图2示出了采用耳机或一对串扰消除扬声器向听者呈现双耳信号的示意图；

图3示出了采用一对串扰消除扬声器或立体声加强音频信号耳机向听者呈现音频信号的示意图；

图4示出了本发明实施例提供的一种音频信号处理装置的示意图；

图5示出了本发明实施例提供的一种针对双声道输入音频信号的分析器的示意图；

图6示出了本发明实施例提供的一种针对参数输入音频信号的分析器的示意图；

图7示出了本发明实施例提供的一种分析方法的示意图；

图8示出了本发明实施例提供的一种音频信号处理***的示意图；

图9示出了本发明实施例提供的一种用于处理音频信号的方法的示意图；

图10示出了本发明实施例提供的一种用于分析音频信号的方法的示意图。

在下文附图描述中，相同或者同等元素都是通过相同或者同等参考信号指示。

具体实施方式

图1示出了采用两个扬声器103和105或耳机107向听者101呈现立体声信号的示意图。采用两个扬声器103和105向所述听者101呈现立体声信号如图1a所示，采用耳机107向所述听者101呈现立体声信号如图1b所示。所述左扬声器103和所述左扬声器103输出的左声道音频用“L”来表示，所述右扬声器105和右声道音频用“R”来表示。

如图1a所示，所述左扬声器103和所述右扬声器105之间是示例性的幻象声源109。如示意图的方式所表明，所述幻象声源109可能的位置111限于所述两个扬声器103和105之间或耳机107之间的线段。

图2示出了采用耳机107或一对串扰消除扬声器103和105向听者101呈现双耳信号的示意图。采用耳机107向所述听者101呈现双耳信号如图2a所示，采用一对串扰消除扬声器103和105向所述听者101呈现双耳信号如图2b所示。所述左扬声器103、所述耳机107的左扬声器和所述左扬声器103输出的左声道音频用“L”来表示，所述右扬声器105、所述耳机107的右扬声器和右声道音频用“R”来表示。

在图2a和图2b中，一些示例性的幻象声源109在所述听者101周围。如示意图的方式所表明，所述幻象声源109可能的位置111围绕所述听者101，使得能够营造完全浸入式3D听觉体验。

图3示出了采用一对串扰消除扬声器103和105或耳机107来增强立体声音频信号向听者101呈现音频信号的示意图。采用一对串扰消除扬声器103和105向所述听者101呈现信号如图3a所示，采用耳机107向所述听者101呈现信号如图3b所示。所述左扬声器103和所述左扬声器103输出的左声道音频用“L”来表示，所述右扬声器105和右声道音频用“R”来表示。

如图3所示，通过描述在所述左物理扬声器103和所述右物理扬声器105之间的空间或线段外的示例性的幻象声源109，所述增强立体声音频信号即可通过在所述立体声音频信号中加入合成双耳线索实现。

一些示例性的幻象声源109在所述听者101前面。所述幻象声源可能的位置111不再局限于所述左扬声器103和所述右扬声器105之间的所述线段(对比图1a，参照图3a)，也不局限于耳机107的头部位置(对比图1b，参照图3b)。加强了所述3D听觉体验。

图4示出了一种音频信号处理装置400的示意图。所述音频信号处理装置400包括转换器401和确定器403。向所述确定器403提供指示信号405和输入音频信号407。所述音频信号处理装置400提供了输出音频信号409。所述确定器403提供了确定器信号411和确定器信号413。所述转换器401提供了转换器信号415。

所述音频信号处理装置400用于在无需所述听者101进行人工干预的情况下向所述音频信号自适应加入合成双耳线索。

所述转换器401用于将立体声音频信号如所述输入音频信号407转换为双声道音频信号，并将所述双声道音频信号作为转换器信号415输出。

所述确定器403用于根据所述指示信号405确定所述输入音频信号407是立体声音频信号还是双耳音频信号。所述确定器403还用于：如果所述输入音频信号407是立体声音频信号，则向所述转换器401提供所述输入音频信号407。

所述指示信号405指示所述输入音频信号407是立体声音频信号还是双耳音频信号。

所述输入音频信号407可以是立体声音频信号或双耳音频信号。此外，所述输入音频信号407可以是双声道音频信号或参数音频信号。

所述输出音频信号409可以是立体声音频信号或双耳音频信号。此外，所述输出音频信号409可以是双声道音频信号或参数音频信号。

如果所述确定器403确定所述输入音频信号407是双耳音频信号，所述确定器信号411包括所述输入音频信号407。在这种情况下，所述输入音频信号407作为输出音频信号409直接提供。

如果所述确定器403确定所述输入音频信号407是立体声音频信号，所述确定器信号413包括所述输入音频信号407。在这种情况下，向所述转换器401提供所述确定器信号413，以向所述立体声音频信号加入合成双耳线索。

所述转换器信号415包括所述含加入的合成双耳线索的立体声音频信号，并作为输出音频信号409提供。

在一种实现方式中，所述确定器403包括接收器或接收单元，用于接收所述指示信号405以确定所述音频场景是否是浸入式的。

在一种实现方式中，所述指示信号405从如内容提供者等外部源获得或从所述音频信号的先前分析中获得。所述指示信号405可以作为元数据(标记)在现有的元数据容器中存储和传输。

在一种实现方式中，所述指示信号405并不是通过分析所述输入信号获得的，而是作为边信息405和所述音频信号407一起提供的。可能在不同的场景获得所述指示信号405。例如，所述指示信号405可以在所述信号的产生过程中确定，并以描述模拟信号内容的元数据和标题信息的形式向专家等提供。这样可以允许所述内容提供者指示对所述信号的最佳处理。另外，所述指示信号405可以从所述音频信号407的先前分析中自动获得，这将基于图5至图7在后面进行更详细的说明。

在一种实现方式中，如果有输入音频信号407和指示信号405，确定器403基于所述指示信号405对所述信号进行如下处理：如果所述输入音频信号407的声音场景是浸入式，所述原始双耳线索和所述原始声音场景能够得以保留。如果所述输入音频信号407的声音场景不是浸入式，可以应用立体声增强技术，以创造更宽的立体声声场和/或声源在头部以外的感觉。可以返回输出音频信号409，这样可以营造浸入式听觉体验。

在一种实现方式中，所述指示信号405作为边带信息(元数据)和所述音频信号一起传输，并用于调整所述处理。

图5示出了一种针对双声道输入音频信号501的分析器500的示意图。所述双声道输入音频信号501是所述输入音频信号407的一种实现方式。所述分析器500用于提供指示信号405。

所述分析器500可以用于分析所述双声道输入音频信号501，以生成指示所述双声道输入音频信号501是立体声音频信号还是双耳音频信号的指示信号405。所述分析器500还可以用于从所述双声道输入音频信号501中提取定位线索，其中，所述定位线索可以指示音频源的位置。另外，所述分析器500可以用于分析所述定位线索以生成所述指示信号405。

所述双声道输入音频信号501可以包括第一声道音频信号和第二声道音频信号。所述双声道输入音频信号501可以是立体声音频信号或双耳音频信号。所述双声道输入音频信号501对应图4、图7和图8中的所述输入音频信号407。

在一种实现方式中，所述指示信号405作为特定指示符(如标志)和所述音频信号一起存储和/或传输，以避免多次分析同一个输入音频信号。

在一种实现方式中，如果有所述双声道输入音频信号501，所述分析器500分析所述信号，以确定所述信号的声音场景是否营造了浸入式听觉体验。所述分析结果可以以所述指示信号405的形式提供，该指示信号指示所述声音场景是否是浸入式。所述指示信号405可以以新标记的形式在如ID3v1、ID3v2、APEv1、APEv2、CD文本或Vorbis注释等已有的元数据容器中可选地存储和/或传输。

在一种实现方式中，结合浸入感分析所述双声道输入音频信号501，并以所述指示信号405的形式提供所述结果。所述指示信号405可以作为边带信息(元数据)和所述信号一起存储和/或传输。

在一种实现方式中，所述分析器500用于确定所述双声道输入音频信号501是否为双耳音频信号。

图6示出了一种针对参数输入音频信号的分析器600的示意图。所述参数输入音频信号是所述输入音频信号407的一种实现方式。所述参数输入音频信号包括下混输入音频信号601和参数边信息603。所述分析器600用于提供指示信号405。

所述分析器600可以用于分析所述参数输入音频信号，以生成指示所述参数输入音频信号是立体声音频信号还是双耳音频信号的指示信号405。所述分析器600还可以用于从所述参数输入音频信号中提取定位线索，其中，所述定位线索可以指示音频源的位置。另外，所述分析器600可以用于分析所述定位线索以生成所述指示信号405。

所述参数输入音频信号可以是立体声音频信号或双耳音频信号。所述参数输入音频信号对应图4、图7和图8中的所述输入音频信号407。

下混输入音频信号601可以通过将双声道音频信号混合到单个声道或单声道音频信号中获得。

所述参数边信息603可以对应所述下混输入音频信号601且可以包括定位线索或空间线索。

在一种实现方式中，所述分析器600用于提取和分析所述参数边信息603，以生成所述指示信号405。

在一种实现方式中，所述输入音频信号可以作为参数信号以编码后的表述形式给出，其中，所述参数信号包括单声道信号或者双声道的下混信号和含空间线索的边带信息。

在一种实现方式中，所述输入音频信号不包括双声道音频信号，但是作为参数音频信号以编码后的表述形式给出，其中，所述参数音频信号包括双声道信号的单声道下混信号和含空间线索的边带信息。所述分析结果可以基于所述边信息中明确给出的所述空间线索。

图7示出了一种分析方法700的示意图。所述分析方法包括：提取701、分析703、确定705和生成707。所述分析方法700用于分析输入音频信号407以提供指示信号405。

所述指示信号405可以指示所述输入音频信号407是立体声音频信号还是双耳音频信号。

所述输入音频信号407可以包括双声道输入音频信号501或参数输入音频信号，该参数输入音频信号可以包括下混输入音频信号601和参数边信息603。

所述分析方法700用于分析所述输入音频信号407以生成指示信号405，该指示信号指示所述输入音频信号407是立体声音频信号还是双耳音频信号。

所述提取701包括从所述输入音频信号407中提取定位线索。在一种实现方式中，所述提取701包括提取双耳线索，如声道间时间差(ITD)和/或声道间电平差(ILD)。

所述分析703包括分析所述提取701提供的所述定位线索。在一种实现方式中，所述分析703包括分析双耳线索以估计所述声音场景，如音频源的位置。

所述确定705包括基于所述分析703的分析结果来确定所述声音场景的浸入感。在一种实现方式中，所述确定705包括对所述音频源位置的统计分析以测量所述声音场景的浸入程度。

所述生成707包括基于所述确定705的确定结果来生成或创造所述指示信号405。在一种实现方式中，所述生成707是基于是否将所述声音场景是看作浸入式的决策。

在一种实现方式中，所述分析方法700分析所述输入音频信号407，以判断对所述信号进行立体声增强操作来加强所述听觉体验是否合适。为此，可以结合感知特性估计和评估所述声音场景的空间特性。主要的目标是检测音频信号是否是通过采用仿真头录制的。

在一种实现方式中，如果有输入音频信号407，在提取701中提取定位线索。然后，在分析703中，结合感知标准分析所述定位线索。在确定705中，确定所述场景的浸入感，最后在生成707中，生成所述指示信号405。

在一种实现方式中，所述分析方法700应用于双声道输入音频信号501和包含下混输入音频信号601和参数边信息603的参数输入音频信号。

在一种实现方式中，可能有不同的分析策略，每种策略针对立体声音频信号和双耳音频信号之间的一个主要区别。特别地，与立体声音频信号相反，双耳音频信号呈现以下特性：声道间时间差和声道间电平差可以对应于在30度扬声器跨度以外的声源；同步定位线索之间的一致性以及模型假设可以将人体的听觉***和形状如头部、耳廓和/或躯干等考虑在内。

在一种实现方式中，所述提取701以如下方式实现：正如2003年C.Faller和F.Baumgarte在《IEEE语音与音频处理汇刊》第十一卷(第六期)中刊登的《双耳线索编码第二部分：方案及其应用》中所描述的，可以采用适当的信号处理方法从所述音频信号中提取所述定位线索。所述分析可采用子带分解技术以频率选择的方式作为预处理步骤执行。然后，可以得到以下线索的组合或子集：可以通过分析所述信号的能量、振幅、功率、响度或强度来测量声道间电平差；可以通过分析相位延迟、组延迟、声道间关联性和/或到达时间差来测量声道间时间差或声道间相位差；频谱形状匹配可以用于检测声道间的频谱差，所述频谱差是由于在耳廓上不同位置反射造成的。

在一种实现方式中，所述分析703以如下方式实现：所述定位线索可以结合感知标准进行分析。为了确定所述音频信号是否提供了浸入式听觉体验，可以根据一种或若干种以下特征分析所述空间线索或定位线索。

作为第一种可能的特征，可以分析声源的位置。采用所述定位线索，可以确定各自的音频源和在所述音频信号内相关的位置。正如2006年Heckmann等人在国际语音会议《嘈杂有回声的环境中双耳音源定位的优先效应建模》中所描述的，典型的方法中可使用声道间时间差或电平差；正如2003年Ichikawa,O、Takiguchi,T.以及Nishimura,M.在IWAENC中《采用基于耳廓的轮廓拟合方法的声源定位》所描述的，典型的方法中可使用耳廓反射模型；正如1993年Gaik,W.在JASA 94(1):98-110中《双耳时间差和电平差的综合评估：心理声学结果和计算机建模》所描述的，典型的方法中可使用声道间时间差或电平差以及耳廓反射模型两者；或者正如2006年Keyrouz,F.、Naous,Y.以及Diepold,K.在ICASSP的《基于HRTF的双耳3D定位的新方法》中所描述的，典型的方法中甚至可以使用完整的HRTF。

作为第二种可能的特征，可以分析一致性。通过采用创造自然双耳线索的仿真头录制信号的另一指示符可以是定位线索的一致性。如下，所述一致性可以涉及左一致性/右一致性。在双耳录制中，可从两个声道分别获得的单声道定位线索，如从耳廓反射得到的频谱形状可以在双耳间匹配，即，对于单个声源这些单声道定位线索是一致的。对于立体声录制，它们没必要保持一致。如下，所述一致性也涉及线索间的一致性。在立体声录制中，所述声源可以手动平移到空间中某个位置。由于此人工干预，所述定位线索就可能不是一致的。例如，对于一个声源，所述声道间时间差可能与所述声道间电平差不匹配。如下，所述一致性还涉及感知模型的一致性。高感知相关性的自然定位线索不仅取决于两个麦克风之间的距离，还取决于人体头部、躯干和耳廓的特有形状。在立体声信号产生过程中手动添加的振幅和延迟也许没有考虑到这些特征。例如，由于人体头部的自然遮蔽，采用仿真头录制的双耳信号的声道间电平差主要取决于频率。对于低频率，人体头部与波长比较可以较小，且ILD较低。对于高频率，人体头部可以较大，导致高遮蔽和较大的ILD值。表现出依靠频率的ILD的信号可以认为是采用仿真头录制的。此外，根据所述耳廓的特有形状，对于在某些声源位置特有的频率依赖是可以预料到的。

作为第三种可能的特征，可以考虑更多的标准。正如2003年C.Faller和F.Baumgarte在《IEEE语音和音频处理汇刊》第十一卷(第六期)中刊登的《双耳线索编码第二部分：方案及其应用》中所描述的，更多的标准如声道间相干性或互关联性可以用来评估音频信号的浸入感。

在一种实现方式中，所述确定705以如下方式实现：可以确定所述信号的浸入感。为实现此目的，所有上述的标准可以用来获得所述信号浸入程度。例如，对于包含大量声源的场景，且这些声源有位于两个扬声器和/或耳机之间的线段外的感知相关的一致的定位线索，进一步增强立体声基线的处理可能没有益处。所述声源位置标准可以与一致性标准或程度结合。在感知中，定位线索的一致性非常重要。如果有更多一致的定位线索，所述感知就会更加自然且所述场景就更具有浸入感。

在一种实现方式中，所述生成707以如下方式实现：基于根据上述任一标准的分析，可以生成所述指示信号405，该指示信号指示立体声增强技术是否应该应用到所述立体声音频信号中以加强所述听觉体验。

下面给出了所述分析方法700的四种可选的实现方式，以增大复杂性。

在一种实现方式中，所述分析方法700包括分析所述音频声道的相似度。所述定位线索可以包括描述所述音频信号的音频声道的相似度如关联性的量的声道间相干性(IC)程度，其值在0和1之间。可以分析所述IC程度来获得所述边信息信号。IC越低，所感知的宽度越大，所述音频信号更可能是双耳音频信号，从立体声增强中受益越小。这可以通过基于阈值的决策来实现。

因此，在一种实现方式中，例如，所述方法700包括：从所述输入音频信号407中提取IC值，例如，全频带IC值或一个、若干或所有子带的IC值；将所述IC值与预先确定的IC阈值比较，并生成包含第一值的所述指示信号，其中，如果所述全频带IC值、所述一个IC值或者所述若干或所有IC值的子集小于所述预先确定的IC阈值，则所述第一值指示所述音频信号是双耳信号，和/或生成包含第二值的所述指示信号，其中，如果全频带IC值、所述一个IC值或者若干或所有IC值的子集大于或等于所述预先确定的IC阈值，则所述第二值表示所述音频信号是立体声信号。

在一种实现方式中，所述分析方法700包括分析声源的位置。所述定位线索可以包括声道间时间差以及声道间电平差的大小。简单的三角测量可以以角度的方式测量声源的方向。0度角可以认为是在中心，±90°可以在左边或右边。声源的角度偏离0度越多，感知到的宽度越大，且所述信号更不可能从增强中获益。这可以是一个基于阈值的简单判决。典型地，对于立体声信号，可以假设声源在±45°或±60°的范围内。

因此，在一种实现方式中，所述方法700包括：从所述输入音频信号407中提取如ITD和/或ILD值等IC值，例如，全频带IC值或一个、若干或所有子带的IC值；确定所述全频带IC值的角度或一个、若干或所有子带的角度，以将所述角度与预先确定的角度阈值±45°或±60°比较，并生成包含第一值的所述指示信号，其中，如果全频带IC值的角度、所述一个角度或者若干或所有角度的子集大于所述预先确定的角度阈值，则所述第一值指示所述音频信号是双耳信号，和/或生成包含第二值的所述指示信号，其中，如果全频带IC值的角度、所述一个角度或者若干或所有角度的子集小于或等于所述预先确定的角度阈值，则所述第二值表示所述音频信号是立体声信号。

在一种实现方式中，所述分析方法700包括分析定位线索的一致性。所述定位线索可以包括声道间时间差和声道间电平差的大小。对于所述声道间时间差和声道间电平差，可以分别确定声源的方向或角度。对于每一个声源，可以获得两个单独的声源角度估算结果。可以确定两个角度估算间的绝度角度差。差值大于10°或20°会造成不一致的定位结果。大量的不一致定位结果可以表示音频信号是立体声信号，其中，声源位置是手动平移的。对于双耳信号，所述定位结果通常是一致的，因为这些结果是从自然场景的描述中得到的。

因此，在一种实现方式中，所述方法700包括：从所述输入音频信号407中提取如ITD和ILD值的两种IC值，比如，两个全频段IC值或一个子带、若干或所有子带中每个子带的两个IC值；确定两个全频段IC值的角度、以及所述一个、若干或所有子带中每个子带的两个角度，以将第一IC类型的角度与第二IC类型的角度比较，将所述角度间的差与预先确定的角度差阈值如±10°或±20°比较，且生成包含第一值的所述指示信号，其中，如果全频带角度差、所述一个角度差或者若干或所有角度差的子集小于所述预先确定的角度阈值，则所述第一值指示所述音频信号是双耳信号，和/或生成包含第二值的所述指示信号，其中，如果全频带角度差、所述一个角度差或者若干或所有角度差的子集大于或等于所述预先确定的角度阈值，则所述第二值指示所述音频信号是立体声信号。

在一种实现方式中，所述分析方法700包括HRTF匹配。所述定位线索可以使用头部相关传输函数(HRTF)进行编码。头部相关传输函数(HRTF)可以针对给定的声源角度，捕获一套完整的定位线索。所述一套完整的定位线索可能存在于双耳音频信号中，但不可能在立体声音频信号中存在。当采用仿真头录制双耳音频信号时，声源发出的信号可以被与所述声源的角度对应的一对左耳HRTF和/或右耳HRTF滤波，以获得所述双耳音频信号。因此，通过采用与所述声源角度对应的这对左耳HRTF和/或右耳HRTF来对双耳音频信号进行逆滤波，可以获得两个信道的原始信号。在双耳音频信号的情况下，这两个信号是几乎完全相同的。在一种实现方式中，所述HRTF匹配以如下方式实现：对于所有可能的声源角度，可以给出一套左耳和/或右耳HRTF对。可以采用每对HRTF对所述信号进行逆滤波以及计算所述产生的左耳信号和/或右耳信号之间的关联性。得出最大关联性的这对HRTF可以定义声源的位置和/或角度。关联性在0到1之间相对应的值可以说明所述信号中定位线索的一致性程度。较大的值可以说明所述音频信号是双耳信号，较小的值可以说明所述音频信号是立体声信号。该步骤通常是最准确的步骤，但在计算中却花费更多。

图8示出了一种音频信号处理***800的示意图。所述音频信号处理***800包括基于图4示例性地描述的音频信号处理装置400和基于图5和图6示例性地描述的分析器500和600。

所述音频信号处理装置400包括转换器401和确定器403。向所述确定器403提供指示信号405和输入音频信号407。所述音频信号处理装置400提供了输出音频信号409。所述确定器403提供了确定器信号411和确定器信号413。所述转换器401提供了转换器信号415。

所述分析器500和600用于分析所述输入音频信号407，以生成指示所述输入音频信号407是立体声音频信号还是双耳音频信号的所述指示信号405。所述分析器500和600还用于从所述输入音频信号407中提取定位线索，其中，所述定位线索指示音频源的位置。另外，所述分析器500和600用于分析所述定位线索以生成所述指示信号405。

在这种实现方式中，所述分析器500和600还用于在所述分析器500和600的输出端口向所述确定器403提供所述输入音频信号407。

在一种实现方式中，所述音频信号处理***800根据所述信号的内容实现了用于自适应处理输入音频信号407的全自动化***。

在一种实现方式中，所述音频信号处理***800实现了对输入音频信号407基于内容的全自动自适应处理。该***可以在智能手机、MP3播放器和PC声卡中实现，以在无需听者的进行任何人工干预的情况下提供浸入式听觉体验。所述***可以接收输入音频信号407并输出输出音频信号409，该输出音频信号409营造了浸入式听觉体验。特别地，所述***可以自动地决策是应该加入合成双耳线索以增强立体声信号的宽度还是保留所述输入音频信号407的原始双耳线索。所述决策可以基于对所述输入音频信号407的内容分析。

在一种实现方式中，如果有输入音频信号407，所述分析器500和600分析所述信号，以确定所述信号的声音场景是否营造了浸入式听觉体验。所述分析结果可以以所述指示信号405的形式提供，该指示信号指示所述声音场景是否是浸入式。基于所述指示信号405，所述确定器403可以对所述信号进行处理。如果所述输入音频信号407的声音场景是浸入式，所述原始双耳线索和所述原始声音场景能够得以保留。如果所述输入音频信号407的声音场景不是浸入式，应用立体声增强技术，以创造更宽的立体声声场和/或声源在头部以外的感觉。返回所述输出音频信号409，以营造浸入式听觉体验。

在一种实现方式中，根据所述信号的内容全自动地对所述输入音频信号407进行处理。不需要任何人工干预。

在一种实现方式中，所述分析器500和600用于确定所述输入音频信号407是否为双耳音频信号。

图9示出了一种用于处理音频信号的方法900的示意图。所述方法900包括：根据指示信号405确定901所述音频信号是立体声音频信号还是双耳音频信号，该指示信号405指示所述音频信号是立体声音频信号还是双耳音频信号。所述方法900还包括：如果所述音频信号是立体声音频信号，则将所述立体声音频信号转换903为双耳音频信号。

图10示出了一种用于分析音频信号的方法1000的示意图。所述方法1000用于分析所述音频信号以生成指示所述音频信号是立体声音频信号还是双耳音频信号的指示信号405。所述方法1000包括从所述音频信号中提取1001定位线索，所述定位线索指示音频源的位置。所述方法1000还包括分析1003所述定位线索以生成所述指示信号405。

在一种实现方式中，所述用于分析音频信号的方法1000包括所述分析方法700。

在本发明上述的实现方式中，如所述分析器、确定器以及所述分析结果的存储和传输可以应用到一些不同的可能的实施例中。这些实施例可以针对不同的场景并在所有考虑到的场景中，在无需听者进行任何人工干预的情况下就能提供浸入式听觉体验。

正如1997年Blauert,J.在马萨诸塞州剑桥市的MIT出版社出版的《空间听觉：人类声定位的心理物理学》中所描述的，人类听觉***可以采用若干种线索来定位声源。空间上特定位置的声源和人耳之间的传输函数可以称为头部相关传输函数(HRTF)。这类HRTF可以捕获定位线索，如双耳时间差(ITD)、双耳电平差(ILD)、外耳上的方向选择性频率滤波、头部、肩膀和身体上的方向选择性反射，和环境线索。

双耳时间差(ITD)具有以下特征：由于距离差异，信号到达双耳具有延迟。基于频率，该延迟可以作为相位延迟、群延迟和/或到达时间差来测量，使得能够区分左和/或右。双耳电平差(ILD)具有以下特征：由于头部遮蔽，可能出现双耳间的电平差。这种效应在更高频率上更加显著，使得能够区分左和/或右。外耳上的方向选择性频率滤波具有以下特征：人耳(耳廓)具有特有的形状，其可以在频率响应上施加特定方向的模式，使得能够区分前和/或后以及上和/或下。头部、肩膀和身体上的方向选择性反射具有以下特征：人体上的特有反射可以通过人类听觉***检测和评估。环境线索具有以下特征：为评估声源的距离，可以考虑环境的特性，如房间的反射和回响、音量以及高频率比低频率在空气中衰减更大的事实。

在真实的听觉场景中，可以综合考虑这些线索来定位声源。线索感知方向的相关性可以基于频率、稳定性和一致性等多种参数。此外，与来自不同方向的后到达的弱波前声源相比，一般先检测到的具有高响度的波前声源对于方向感知的重要性更大。这个效应涉及哈斯或优先效应，其中，正如1968年Gardner,M.B在JASA刊登的《哈斯和/或优先效应的历史背景》中所描述的，方向主要可以根据来自发声起始位置的定位线索来确定。

在一种实现方式中，本发明涉及一种自适应处理音频信号的方法，其中，基于指示信号的自适应决策包括：接收音频信号，接收指示信号，及根据所述指示信号调整所述音频信号。

在一种实现方式中，本发明还涉及根据上述实现方式所述的方法，其中，所述指示信号是从分析器中获得，且基于分析结果的决策包括：检测音频录制中的定位线索，结合所述声音场景的感知特性分析所述定位线索，及基于所述分析结果生成指示信号。

在一种实现方式中，本发明还涉及根据上述实现方式所述的方法，其中，所述分析结果作为指示信号进行存储和传输。

在一种实现方式中，本发明还涉及根据上述任一种实现方式所述的方法，其中，所述输入音频信号包括单声道音频信号和含空间线索的边带信息，例如参数音频。

在一种实现方式中，本发明涉及一种用于自适应处理音频信号的方法和装置。

在一种实现方式中，所述音频信号处理装置包括从所述音频信号中提取双耳线索并分析所述声音场景的分析器，和根据所述分析结果确定是否应该进行立体声增强处理的确定器。

在一种实现方式中，所述分析结果以指示信号的方式进行存储和传输。

在一种实现方式中，所述确定器的确定是基于所述指示信号进行的。因此，本发明可以促进音频录制的自适应，以在无需听者进行任何人工干预的情况下营造浸入式听觉体验。

在一种实现方式中，浸入式声音场景的特征是音频源围绕听者。

在一种实现方式中，从所述音频信号中提取双耳线索以确定所述音频信号中所有声源的位置。这可以形成所述声音场景的描述。

在一种实现方式中，分析所述声音场景的统计和/或心理声学特性来评估浸入式感觉的程度。例如，包含位于两个扬声器和/或耳机之间的线段外的大量一致声源的场景可以营造浸入式听觉体验。

在一种实现方式中，分析所述音频信号来确定所述声音场景是否营造了浸入式感觉。

在一种实现方式中，本发明涉及一种采用分析器和确定器进行自适应音频信号处理的方法，其中，所述确定是由例如编码器和/或解码器基于所述分析结果进行的，该方法包括：检测音频录制中的双耳定位线索，结合声音场景的特性分析所述定位线索，并根据所述声音场景的特性调整所述音频信号。

在一种实现方式中，本发明涉及一种采用分析器和确定器进行自适应音频信号处理的方法，其中，所述分析结果是作为指示信号进行存储和传输的。

在一种实现方式中，本发明涉及一种采用接收器和/或确定器进行自适应音频信号处理的方法，其中，所述确定是基于指示信号进行的。

在一种实现方式中，本发明涉及基于内容的分析器/确定器，所述分析器/确定器用于促进音频录制的自适应调整。

在一种实现方式中，本发明用于在移动和家用音响、电影院、视频游戏、MP3播放器和电话会议应用中使用扬声器或耳机呈现声音。

在一种实现方式中，本发明用于音频***中终端约束的自适应渲染。

Claims

1.一种用于处理音频信号的音频信号处理装置(400)，其特征在于，所述音频信号处理装置(400)包括：

转换器(401)，用于将立体声音频信号转换为双耳音频信号；

确定器(403)，用于根据指示信号(405)确定所述音频信号是立体声音频信号还是双耳音频信号，该指示信号(405)指示所述音频信号是立体声音频信号还是双耳音频信号，所述确定器(403)还用于：如果所述音频信号是立体声音频信号，则向所述转换器(401)提供所述音频信号；

所述音频信号处理装置(400)还包括用于分析所述音频信号以生成所述指示信号(405)的分析器(500，600)；

包括用于输出所述双耳音频信号的输出终端，其中，所述确定器(403)用于：如果所述音频信号是双耳音频信号，则直接向所述输出终端提供所述音频信号；

所述分析器(500，600)用于从所述音频信号中提取定位线索，该定位线索指示音频源的位置；并分析所述定位线索以生成所述指示信号(405)。

2.根据前述权利要求1所述的音频信号处理装置(400)，其特征在于，所述转换器(401)用于向所述立体声音频信号加入合成双耳线索，以获得所述双耳音频信号。

3.根据前述权利要求1所述的音频信号处理装置(400)，其特征在于，所述音频信号是包含第一声道音频信号和第二声道音频信号的双声道音频信号，其中，所述分析器(500)用于根据所述第一声道音频信号和所述第二声道音频信号之间的声道间相干性、声道间时间差、声道间相位差、声道间电平差或其组合确定浸入程度，并分析所述浸入程度以生成所述指示信号(405)。

4.根据前述权利要求1所述的音频信号处理装置(400)，其特征在于，所述音频信号是包含第一声道音频信号和第二声道音频信号的双声道音频信号，其中，所述分析器(500)用于通过若干头部相关传输函数对进行逆滤波处理，来确定所述第一声道音频信号和所述第二声道音频信号的若干第一原始信号和若干第二原始信号，并分析所述若干第一原始信号和所述若干第二原始信号以生成所述指示信号(405)。

5.根据前述权利要求1所述的音频信号处理装置(400)，其特征在于，所述音频信号是包含下混音频信号和参数边信息的参数音频信号，其中，所述分析器(600)用于提取和分析所述参数边信息以生成所述指示信号(405)。

6.根据前述权利要求1所述的音频信号处理装置(400)，其特征在于，所述确定器(403)用于：如果所述指示信号(405)包括第一信号值，则确定所述音频信号是立体声音频信号，和/或如果所述指示信号(405)包括第二信号值，则确定所述音频信号是双耳音频信号。

7.根据前述权利要求1所述的音频信号处理装置(400)，其特征在于，所述指示信号(405)是所述音频信号的一部分，其中，所述确定器(403)用于从所述音频信号中提取所述指示信号(405)。

8.根据前述权利要求1所述的音频信号处理装置(400)，其特征在于，所述分析器(500，600)用于从所述音频信号中提取定位线索，该定位线索指示音频源的位置；并分析所述定位线索以生成所述指示信号(405)。

9.一种用于处理音频信号的方法(900)，其特征在于，所述方法(900)包括：

根据指示信号(405)确定(901)所述音频信号是立体声音频信号还是双耳音频信号，该指示信号(405)指示所述音频信号是立体声音频信号还是双耳音频信号；

如果所述音频信号是立体声音频信号，则将所述立体声音频信号转换(903)为双耳音频信号；

还包括：从所述音频信号中提取所述指示信号(405)。

10.根据前述权利要求9所述的用于处理音频信号的方法(900)，其特征在于，所述方法(900)还包括：

从所述音频信号中提取(1001)定位线索，该定位线索指示音频源的位置；

分析(1003)所述定位线索以生成所述指示信号(405)。

11.一种音频信号处理***(800)，其特征在于，包括：

根据权利要求1至8任一项所述的音频信号处理装置(400)。