CN112075092B

CN112075092B - 经双耳化立体声内容的盲检测

Info

Publication number: CN112075092B
Application number: CN201980028700.2A
Authority: CN
Inventors: 张春茂; 陈联武; 杨子瑜; J·B·兰多; D·M·费舍尔; 芦烈
Original assignee: Dolby Laboratories Licensing Corp
Current assignee: Dolby Laboratories Licensing Corp
Priority date: 2018-04-27
Filing date: 2019-04-24
Publication date: 2021-12-28
Anticipated expiration: 2039-04-24
Also published as: WO2019209930A1; EP4093057A1; JP2021524174A; JP2023090914A; EP3785453A1; US20210056984A1; CN112075092A; JP7279080B2; EP3785453B1; US11264050B2

Abstract

本发明提供一种经双耳化音频的盲检测的设备及方法。如果输入内容被检测为双耳的，那么可避免再次双耳化。以此方式，用户体验避免了由多次双耳化引入的音频伪迹。

Description

经双耳化立体声内容的盲检测

相关申请案交叉参考

本申请案主张于2018年4月27日提出申请的PCT申请案第PCT/CN2018/084787号、于2018年5月30日提出申请的美国临时申请案第62/677,829号，及于2018年6月14日提出申请的EP申请案第18177821.8号的优先权，所述申请案中的每一者特此以全文引用的方式并入。

背景技术

本发明涉及双耳音频，且特定来说涉及经双耳化音频数据的盲检测。

除非本文中另有指示，否则本章节中所描述的材料并非本申请案中的权利要求书的现有技术且并不因包含于本章节中而承认为现有技术。

多声道或基于对象的音频内容的双耳化是用于模拟耳机上的环绕声效果的常见技术。通常，经模拟或经合成头部相关传递函数(HRTF)用于执行此模拟，从而导致量值及相位响应改变。双耳化也可称为虚拟化，且所产生的声音也称为双耳音频或经虚拟化音频。

存在双耳化的消费者应用的多个实例，例如杜比的耳机双耳再现解决方案。实现双耳化的一种典型配置是将能够执行处理的源装置连接到耳机。另一选择是，可将内容传输到能够执行双耳处理的高级耳机。

存在源装置及耳机都可应用双耳处理的情况。这可对音频产生不利影响，因为来自两种双耳处理的量值及相位响应将复合，从而导致负面用户体验。

在以上配置中避免双处理的一种方式是支持从源到耳机的单向通信，这指示双耳处理何时有效，使得耳机可停用其处理阶段。然而，在例如IEEE 802.15.1标准(例如，Bluetooth^TM音频)的无线应用中，不存在用于传达此信息的共享简档。此外，如果存在此简档，那么不保证源装置将正确地发出此处理信号。

美国专利第9,311,923号论述对音频信号执行特征提取以产生用于音频信号的后续处理的条件概率得分。然而，此论述不提供关于双耳处理中涉及的具体问题的许多细节。

美国专利第9,933,989号论述使用双耳再现元数据将输入音频再现成双耳音频。然而，此论述不考虑输入音频已被双耳化的情形。

发明内容

考虑到以上内容，需要能够确定上游内容何时经双耳化的盲检测过程。实施例涉及使用机器学习技术来执行经双耳化音频的盲检测。

根据实施例，一种设备检测音频信号的双耳化。所述设备包括：特征提取器、分类器、虚拟化器及混合器。所述特征提取器接收输入音频信号，并从所述输入音频信号提取多个特征。所述分类器接收由所述特征提取器提取的所述多个特征，执行所述多个特征的分类，及基于所述分类产生结果。所述结果指示所述输入音频信号相对于立体声信号为双耳信号的概率。所述虚拟化器接收所述输入音频信号，并对所述输入音频信号执行虚拟化以产生双耳音频信号。所述混合器接收所述输入音频信号、所述双耳音频信号及所述结果，且所述混合器根据所述结果混合所述输入音频信号与所述双耳音频信号以产生输出音频信号。当所述结果指示所述输入音频信号为所述立体声信号时，所述输出音频信号对应于所述双耳音频信号，且当所述结果指示所述输入音频信号为所述双耳信号时，所述输出音频信号对应于所述输入音频信号。

所述设备可进一步包括平滑器，其平滑来自所述分类器的所述结果，并将已被平滑的所述结果提供到所述混合器，其中所述混合器根据已由所述平滑器平滑的所述结果混合所述输入音频信号与所述双耳音频信号。已由所述平滑器平滑的所述结果可被提供到所述虚拟化器，且所述虚拟化器可基于已被平滑的所述结果执行虚拟化。

所述特征提取器可将所述输入音频信号变换成变换域信息。

所述特征提取器可提取包含以下各项中的至少一者的特征：声道间时间差(ICTD)特征、声道间相位差(ICPD)特征、声道间电平差(ICLD)特征及声道间相干性(ICC)特征。

所述特征提取器可将所述输入音频信号变换成混合复数正交镜像滤波器(HCQMF)域信息。所述特征提取器可提取包含所述HCQMF域信息的频带的子集的声道间相位差(ICPD)的特征。所述HCQMF域信息可包含77个频带，且其中频带的所述子集包含频带21到60。

所述特征提取器可将所述输入音频信号变换成混合复数正交镜像滤波器(HCQMF)域信息，其中所述特征提取器将所述HCQMF域信息分组成多个子频带，其中所述特征提取器提取包含以下各项的特征：所述多个子频带的第一子集的声道间相位差(ICPD)特征、所述多个子频带的所述第一子集的声道间相干性(ICC)特征，及所述多个子频带的第二子集的声道间电平差(ICLD)特征。

所述特征提取器可包括：信号变换器、特征计算器、参数掩模、直方图分析器及统计计算器。所述信号变换器从所述输入音频信号产生变换域信息。所述特征计算器从所述变换域信息计算多个原始特征。所述参数掩模将掩蔽应用于所述多个原始特征以产生多个经修改特征。所述直方图分析器针对所述多个经修改特征中的每一者计算多个参数频带上的多个直方图。所述统计计算器从所述多个经修改特征及所述多个直方图计算多个窗口级统计，其中所述多个窗口级统计对应于由所述特征提取器提取的所述多个特征。

所述分类器可实施机器学习模型以执行所述多个特征的所述分类。所述机器学习模型可为自适应增强模型、深度神经网络模型及稀疏深度神经网络模型中的一者。

所述设备可包括处理器及存储器，其中所述处理器实施所述特征提取器、所述分类器、所述虚拟化器及所述混合器。所述存储器可存储计算机程序，其中所述处理器执行所述计算机程序以实施所述特征提取器、所述分类器、所述虚拟化器及所述混合器。

所述设备可进一步包括左扬声器及右扬声器，其中所述输出音频信号包含左输出分量及右输出分量，其中所述左扬声器输出所述左输出分量，且其中所述右扬声器输出所述右输出分量。

所述设备可进一步包括第一耳塞及第二耳塞，其中所述第一耳塞包含：第一扬声器、第一处理器及第一存储器，其中所述第一处理器实施所述特征提取器、所述分类器、所述虚拟化器及所述混合器；且其中所述第二耳塞包含：第二扬声器、第二处理器及第二存储器，其中所述第二处理器实施第二特征提取器、第二分类器、第二虚拟化器及第二混合器。

根据另一实施例，一种方法检测音频信号的双耳化。所述方法包括：接收输入音频信号。所述方法进一步包括：由特征提取器从所述输入音频信号提取多个特征。所述方法进一步包括：由分类器执行由所述特征提取器提取的所述多个特征的分类。所述方法进一步包括：由所述分类器基于所述分类产生结果，其中所述结果指示所述输入音频信号相对于立体声信号为双耳信号的概率。所述方法进一步包括：由虚拟化器对所述输入音频信号执行虚拟化以产生双耳音频信号。所述方法进一步包括：由混合器根据所述结果混合所述输入音频信号与所述双耳音频信号以产生输出音频信号。当所述结果指示所述输入音频信号为所述立体声信号时,所述输出音频信号对应于所述双耳音频信号，且当所述结果指示所述输入音频信号为所述双耳信号时，所述输出音频信号对应于所述输入音频信号。

所述方法可包含与上文关于所述设备论述的那些类似的细节。

根据另一实施例，一种非暂时性计算机可读媒体存储计算机程序，当所述计算机程序由处理器执行时，控制设备以执行包含上文所论述的方法中的一或多者的处理。

以下详细说明及附图提供对各种实施方案的性质及优点的进一步理解。

附图说明

图1是耳机装置100的框图。

图2是双耳化检测器200的框图。

图3是检测音频信号的双耳化的方法300的流程图。

图4是展示特征提取器202(参见图2)的额外细节的框图。

具体实施方式

本文中描述用于经双耳化音频的盲检测的技术。在以下说明中，出于解释的目的，陈述众多实例及具体细节以便提供对本发明的透彻理解。然而，所属领域的技术人员将显而易见，如由权利要求书所界定，本发明可单独或结合下文所描述的其它特征包含这些实例中的特征中的一些特征或所有特征，且可进一步包含本文中所描述的特征及概念的修改及等效形式。

在以下说明中，详述各种方法、处理及过程。尽管可以特定次序描述特定步骤，但此次序主要是为了方便及清晰。特定步骤可重复不止一次，可发生在其它步骤之前或之后(即使那些步骤以其它次序描述)，且可与其它步骤并行发生。仅当必须在第二步骤开始之前完成第一步骤时，才需要第二步骤跟随第一步骤。此情形将在根据上下文不清楚时具体指出。

在此文件中，使用术语“及”、“或”以及“及/或”。此些术语将被解读为具有包含性含义。举例来说，“A及B”可意指至少以下：“A及B两者”、“至少A及B两者”。作为另一实例，“A或B”可意指至少以下：“至少A”、“至少B”、“A及B两者”、“至少A及B两者”。作为另一实例，“A及/或B”可意指至少以下：“A及B”、“A或B”。当打算异或时，此将被特别注明(例如，“A或B”、“A及B中的至多一者”)。

图1是耳机装置100的框图。(应注意，此框图未以耳机的形状因数展示。)耳机装置100包含：主体102、电力组件104、无线组件106、处理器108、存储器110、左扬声器112及右扬声器114。耳机装置100可包含(为清晰起见)未展示的其它组件。一般来说，用户佩戴耳机装置100以便收听无线地接收的音频信号。

主体102通常为耳机装置100提供结构支持并紧固其它组件。主体102的细节可不同，此取决于形状因数。对于传统耳机形状因数，主体102包含头箍，其连结含有扬声器112及114的耳垫。对于耳塞耳机形状因数，耳塞为耳机对(例如，左耳塞及右耳塞)，其中每一耳塞的主体102包含扬声器112或114及其它组件(处理器、无线组件等)中的一者。作为耳塞形状因数的实例实施方案，耳塞中的一者操作为主装置且执行大多数处理；另一耳塞操作为从装置，且通过有限近场磁感应(NFMI)声道从主装置接收经处理音频。

电力组件104通常将电力提供到其它组件。电力组件104可包含电池，例如，可再充电电池。

无线组件106通常传输及接收无线信号。无线组件106可实施IEEE 802.15.1标准(例如，Bluetooth^TM)。无线组件106通常接收输入音频信号，并将所述输入音频信号提供到其它组件。

处理器108与存储器110一起工作以处理从无线组件106接收的音频信号。处理器108通常实施机器学习过程(如下文进一步详述)以执行经双耳化音频的盲检测。存储器110通常存储机器学习参数。处理器108也实施双耳化处理，如下文进一步详述。

左扬声器112输出左声道输出音频信号，且右扬声器114输出右声道输出音频信号(统称为输出音频信号)。当处理器108根据盲检测过程检测到输入音频信号为双耳信号时，输出音频信号对应于输入音频信号。当处理器108检测到输入音频信号并非双耳信号时(例如，其为立体声信号)，输出音频信号对应于由处理器108产生的经双耳化音频信号。以此方式，输出信号对应于已被双耳化仅一次的信号，且不对应于接着再次被双耳化的已被双耳化输入信号。由此，避免了负面的用户体验。

图2是双耳化检测器200的框图。一般来说，双耳化检测器200执行双耳化的盲检测，并产生适当输出信号(例如，并非经两次双耳化的信号)，如上文关于图1所论述。双耳化检测器200可由处理器108及存储器110(参见图1)，举例来说通过存储及执行一或多个计算机程序来实施。

双耳化检测器200接收输入音频信号220，并产生输出音频信号230。输入音频信号220可为两声道音频信号，例如两声道立体声信号或两声道双耳信号。举例来说，输入音频信号220可包含左声道信号及右声道信号，每一者为以44.1kHz或48kHz采样的脉冲编码调制(PCM)信号且每采样具有16个位或24个位。(应注意，输入音频信号220是由图1的无线组件106对经接收无线信号执行解码产生的，所述经接收无线信号可为不同于PCM的格式。)双耳化检测器200可在输入音频信号220的每帧的基础上(例如，20ms帧大小)操作，且也可在多帧或每窗口的基础(例如，48帧或1秒)上操作。

双耳化检测器200包含：特征提取器202、分类器204、平滑器206、虚拟化器208及混合器210。

特征提取器202通常从输入音频信号220提取特征240。如上文所提及，特征240可包含帧级特征、窗口级特征，以及帧级特征及窗口级特征的统计(平均值、标准差等)。下文参考图4提供特征提取器202的进一步细节。

分类器204通常对由特征提取器202提取的特征240执行分类，并基于所述分类产生结果250。结果250可呈置信得分的形式。如上文所提及，分类器204可实施机器学习过程，如下文进一步详述。结果250指示输入音频信号220为双耳信号对立体声信号的概率。举例来说，结果250可为输入音频信号220有95％概率是双耳信号(或相反，输入音频信号220有5％概率是立体声信号)。

平滑器206通常平滑来自分类器204的结果250以产生经平滑结果252。当分类器204基于帧级特征执行分类时，分类器204可能将帧误分类为双耳的(相对于立体声)。在缺乏平滑的情况下，归因于双耳化检测器200在通过已被双耳化信号与产生双耳信号之间切换，此误分类可引入音频伪迹。举例来说，如果双耳化检测器200通过已被双耳化信号达100帧，那么会将一个帧误分类为立体声且执行双耳化，接着切换回以通过已被双耳化的信号，这可导致音频伪迹。因此，平滑器206操作以平滑结果250，由此减少误分类的影响。

平滑器206可应用自适应平滑来防止不稳定性问题，并减少在立体声与双耳之间转变的延迟。平滑可经由中值滤波器与单极滤波器的组合来实现。对于由分类器204产生的置信得分s(t)，经平滑得分s′(t)由以下方程式来计算：

s′(t)＝α·m(t)+(1-α)·s(t) (1)

m(t)＝median(s(t)，s(t-1)，...，s(t-D+1)) (2)

其中中值(*)表示矢量的中间值。

延迟时间D根据初始得分的稳定性自适应地变化。特定地，当初始得分不稳定时，将应用大平滑延迟，而当初始得分稳定时采用小平滑延迟。延迟时间D可预设为数个模式(例如，快速、中等及慢速)，这可在实际应用中进一步自适应地选择。举例来说，对于快速模式，延迟时间D可设定为4秒，对于中等模式可设定为6秒，且对于慢速模式可设定为10秒。α的值可视需要根据应用调整；α的典型值为0.89。

(应注意，平滑器206可在实施例中省略，在此情形中，来自分类器204的结果250在不进行平滑的情况下提供到虚拟化器208或混合器210。)

虚拟化器208通常对输入音频信号执行虚拟化220以产生双耳音频信号222。虚拟化器208可接收来自分类器204的结果250(或如由平滑器206平滑的经平滑结果252)，且可在执行其虚拟化时使用结果250(或经平滑结果252)。举例来说，如果结果250(或经平滑结果252)一致地指示输入音频信号220在10秒内为双耳信号的概率高，那么虚拟化器208可解除启动其虚拟化，或以其他方式减少其对输入音频信号220的处理。

根据替代实施例，虚拟化器208连续地操作，且不接收来自分类器204的结果250(或如由平滑器206平滑的经平滑结果252)。

虚拟化器208可根据设计准则或用户选择实施各种双耳化处理中的一或多者。实例双耳化处理包含：

耳机双耳化处理、DTS耳机X^TM双耳化处理、MaxxSpace^TM双耳化处理、Fraunhofer

双耳化处理等。

在其它实施例中，虚拟化器208可在不接收来自分类器204的结果250(或来自平滑器206的经平滑结果252)的情况下操作。

混合器210通常根据来自分类器204的结果250(或来自平滑器206的经平滑结果252)混合输入音频信号220与双耳音频信号222以产生输出音频信号230。(混合器210也可例如通过延迟输入音频信号220对其输入进行时间对准来执行其它功能，以匹配在产生双耳音频信号222中所涉及的任何延迟。)当结果250(或经平滑结果252)指示输入音频信号220为立体声信号时，输出音频信号230对应于双耳音频信号222，且当结果250(或经平滑结果252)指示输入音频信号220为双耳信号时，输出音频信号230对应于输入音频信号220。举例来说，如果结果250指示输入音频信号220有95％概率是双耳信号，那么混合器210混合输出音频信号230以将95％对应于输入音频信号220且5％对应于双耳音频信号222。相反，如果结果250指示输入音频信号220有5％概率是双耳信号，那么混合器210混合输出音频信号230以将5％对应于输入音频信号220且95％对应于双耳音频信号222。

作为另一实例，混合器210使用分类结果250(或经平滑结果252)来操纵耳机虚拟化器的开/关，用于2声道音频双耳化。分别使用x_vir(t)及x_ori(t)来表示应用耳机虚拟化器的音频信号(例如，双耳音频信号222)及初始信号(例如，输入音频信号220)。接着，双耳化混合y(t)可通过以下混合方法来实现：

y(t)＝g(t)x_vir(t)+(1-g(t))x_ori(t) (3)

其中g(t)为时变增益。增益可为二进制的(1或0)以指示初始内容是否经双耳化。在此情形中，耳机虚拟化器由双耳化检测器操纵(例如，根据结果250或经平滑结果252)。另一方面，可将增益设定为用于输入音频的双耳化的连续数字。在那种情形中，可使用结果250(或经平滑置信得分252s′(t))本身，而不是二进制值作为增益。

图3是检测音频信号的双耳化的方法300的流程图。方法300可由耳机装置100(参见图1)(如由处理器108控制)，举例来说根据一或多个计算机程序的执行来实施。

在302处，接收输入音频信号。举例来说，无线组件106(参见图1)可接收输入音频信号220(参见图2)。

在304处，从所述输入音频信号提取多个特征。举例来说，特征提取器202(参见图2)可从输入音频信号220提取特征240。

在306处，执行由特征提取器提取的多个特征的分类。举例来说，分类器204(参见图2)可执行由特征提取器202提取的特征240的分类。

在308处，基于分类产生结果。举例来说，分类器204(参见图2)可基于所述分类(参见306)产生结果250。所述结果指示输入音频信号相对于立体声信号为双耳信号的概率。

在310处，平滑来自所述分类器的所述结果。举例来说，平滑器206(参见图2)可平滑来自分类器204的结果250以产生经平滑结果252。(应注意，310为任选的，且可在不实施平滑的实施例中省略。)

在312处，将已被平滑的结果提供到混合器。举例来说，平滑器206(参见图2)可将经平滑结果252提供到混合器210。(应注意，312是任选的，且可在不实施平滑的实施例中省略。)

在314处，对输入音频信号执行虚拟化以产生双耳音频信号。举例来说，虚拟化器208(参见图2)可对输入音频信号220执行虚拟化以产生双耳音频信号222。

在316处，根据所述结果混合输入音频信号与双耳音频信号以产生输出音频信号。举例来说，混合器210(参见图2)可根据来自分类器204的结果250混合输入音频信号220与双耳音频信号222以产生输出音频信号230。以此方式，当结果指示输入音频信号为立体声信号时，输出音频信号对应于双耳音频信号，且当结果指示输入音频信号为双耳信号时，输出音频信号对应于输入音频信号。

在包含平滑(例如，310及312)的实施例中，根据已由平滑器平滑的结果混合输入音频信号与双耳音频信号。举例来说，混合器210(参见图2)可根据来自平滑器206的经平滑结果252执行混合。在不包含平滑(例如，当省略310及312)的实施例中，根据来自分类器的所述结果混合输入音频信号与双耳音频信号。举例来说，混合器210(参见图2)可根据来自分类器204的结果250执行混合(例如，在不由平滑器206平滑的情况下)。

图4是展示特征提取器202(参见图2)的额外细节的框图。特征提取器202包含：信号变换器402、特征计算器404、参数掩模406、直方图分析器408及统计计算器410。这些组件可由处理器108及存储器110(参见图1)，举例来说通过存储及执行一或多个计算机程序来实施。

信号变换器402通常接收输入音频信号220并执行变换以产生变换域信息420。一般来说，变换是指将信号从一个信号域转换到另一信号域。举例来说，输入音频信号220可为时域信号(例如，PCM信号)，且变换域信息420可为频域信息、正交镜像滤波器(QMF)域信息、复数QMF(CQMF)域信息、混合CQMF(HCQMF)域信息等。一般来说，QMF域信息由滤波器产生，所述滤波器的量值响应是另一滤波器的量值响应的约π/2的镜像；这些滤波器一起称为QMF对。一般来说，当QMF滤波器系数包含复值时，产生CQMF域信息。一般来说，HCQMF域信息对应于CQMF域信息，其中CQMF滤波器组已延伸到混合结构以获得与人类听觉***的频率分辨率匹配的有效非均匀频率分辨率。根据特定HCQMF实施方案，HCQMF信息被产生为77个频带，其中较低CQMF子频带进一步被分割以便获得用于较低频率的较高频率分辨率。如下文进一步详述，信号变换器402产生HCQMF域信息作为变换域信息420。根据特定实施方案，输入音频信号220为在两个声道中的48kHz采样的时域信号，且信号变换器402将每一声道变换成在HCQMF域中的60个子划分的频带以形成变换域信息420。根据另一特定实施方案，信号变换器402将每一声道变换成64个CQMF子频带，且将最低的3个子频带进一步划分成如下子子频带：第一子频带被划分成8个子子频带，且第二及第三子频带各自被划分成4个子子频带。

对于由输入信号对x₁(n)、x₂(n)表示的输入音频信号220，信号变换器402执行变换域变换以将信号分解成若干个子频带(频带)信号，以形成变换域信息420，其表示为x₁(k)及x₂(k)。特征提取对变换域信息(例如，频带表示)进行操作。

特征计算器404通常从变换域信息420计算一或多个特征422。这些特征422，也称为原始特征，可包含以下各项中的一或多者：声道间电平差(ICLD)、声道间相位差(ICPD)、声道间相干性(ICC)及声道间时间差(ICTD)。(应注意，ICTD特征可在变换域处理中，例如在HCQMF实施方案中省略。)

复值信号x₁(k)及x₂(k)的ICLDΔL(k)可通过以下方程式来计算：

其中(*)表示复共轭性。

x₁(k)及x₂(k)的ICPDφ(k)可通过以下方程式来计算：

其中∠(*)表示复数的方向角。

x₁(k)及x₂(k)的ICCc(k)可通过以下方程式来计算：

其中Φ₁₂(d，k)是归一化互相关函数。

其中

d₁＝max{-d，0} (8.1)

d₂＝max{d，0} (8.2)

且p(*)是平均值的短期估计。

应注意，所有原始特征是频带k的函数。为了标记简单，使用r(k)来表示以上原始特征中的一或多者。

参数掩模406通常将掩蔽应用于特征422以产生经修改特征424，其中掩蔽被应用到所关注频带。频带{1、……、K}可被划分成数个参数频带{k_b}_{b＝1，...，B}以模仿临界频带的概念。应注意，划分方式取决于音频信号的采样速率。

对于每一原始特征r(k)(其可为ICLD、ICPD、ICC等中的一者)，特征特定参数频带掩蔽M_r(k)被应用到对应原始特征以获得经修改特征r′(k)：

r′(k)＝M_r(k)·r(k) (9)

其中掩蔽M_r(k)界定为：

且S_r是具有用于特征r的经选择参数频带的集合。举例来说，对于特征422中的每一者，集合S_r可经选择以包含仅所关注频带。作为一个实施例中的特定实例，且如下文更详细论述，集合S_r可经选择以包含仅ICPD的频带21到60。作为一个实施例中的另一特定实例，集合S_r可经选择以包含各种子频带或频率仓的集合(例如，如以下关于减少数据的维度所论述)。

直方图分析器408通常针对经修改特征424中的每一者计算参数频带(也称为子频带)上的直方图426。特定地，每一参数频带b具有具备n_BarsPerHist条的直方图。直方图基于属于参数频带b的特征(即r′(k)，k∈{k_b})产生。

考虑到频带能量及参数频带能量，针对经修改特征分别取两个加权系数，即频带能量加权g_F及参数频带能量加权g_P。

频带能量加权g_F(k)通过以下方程式来计算：

参数频带能量加权g_P(k)通过以下方程式来计算：

接着，参数频带上的直方图h(i)通过以下方程式来计算：

其中

且

表示地板函数。

统计计算器410通常针对形成窗口长度的N个帧针对经修改特征424及直方图426计算窗口级统计。统计计算器410计算例如直方图(关于N)的平均值及标准差的统计，作为最终特征。统计计算器410将这些统计作为特征240提供到分类器204(参见图2)。

模型训练

如上文所论述，分类器204(参见图2)实施机器学习过程来执行分类。根据实施例，由分类器204存储的机器学习模型为静态模型。一般来说，静态模型已进行离线训练(例如，在制造或初始化装置时，例如在固件的软件构建期间)，且在装置的操作期间不改变(例如，除非装置的固件更新)。静态模型可与动态模型相对比，所述动态模型在装置***作时根据改变的输入而改变。一般来说，静态模型的创建是对训练数据执行的，且静态模型–一旦创建–则对操作数据进行操作。

训练数据可基于与操作***所预期操作的数据类别类似的数据类别来选择。实例类别包含：影片内容(例如，各种体裁的电影，例如戏剧、喜剧、动作等)、广播内容(例如，各种体裁的运动、广告、节目，例如戏剧、喜剧、新闻等)、音乐内容(例如，选自各种体裁，例如古典、流行等)、游戏内容等。对于每一一般类别，用于训练目的内容的长度可介于从低至5小时到高达20小时或更多的范围内，应理解，多样的内容将改进模型的稳健性。

模型可使用纯双耳数据(例如，使用双耳麦克风捕获的音频)，使用经再现双耳(例如，举例来说已使用头部相关传递函数再现为双耳格式的非双耳捕获的音频)或两者来训练。模型可偏向于避免将双耳检测为立体声；当决策在双耳对立体声之间不确定时，决策偏向双耳。

以下段落描述可用于产生静态模型的各种训练过程。为简洁起见，在操作***的上下文(例如，图1到4)中描述它们，应理解，训练***应类似于操作***，以便静态模型为准确的。

选项1：单个特征

一个选项是使用单个特征，举例来说ICPD。参考图4，信号变换器402经配置以将输入音频信号220变换成对应于变换域信息420的77个HCQMF仓(也称为频带)中的信息。特征计算器404经配置以从对应于特征422的77个HCQMF仓中的信息计算ICPD(参见方程式5)。

根据模型训练的分析，(77个HCQMF仓中的)仓21到60经确定以提供尤为稳健的分类结果。因此，参数掩模406经配置以应用掩蔽使得经修改特征424对应于被选择的仓21到60。

直方图分析器408经配置以计算经修改特征424的每一仓上具有B条的直方图，并计算频带能量及参数频带能量(参见方程式11到12)以产生最终帧级特征(对应于直方图426)。

最后，统计计算器410经配置以计算例如1秒的界定周期内的直方图426的平均值及标准差。

选项2：多个特征

另一选项是使用多个特征。在此选项中，所选择特征为ICPD、ICLD及ICC。参考图4，信号变换器402经配置以将输入音频信号220变换成对应于变换域信息420的HCQMF仓(例如，根据一个实施例，77个HCQMF仓)中的信息。另外，信号变换器402经配置以将HCQMF仓分组成子频带。根据一个实施例，77个HCQMF仓被分组成4个子频带；一实例是将仓1到10分组成子频带1，仓11到18分组成子频带2，仓19到30分组成子频带3，且仓31到77分组成子频带4。特征计算器404、参数掩模406、直方图分析器408及统计计算器410经配置以处理如下输入信息。

436维度中的八个特征可分类为表1到3(应注意，存在某一重叠)：

表1

表2

表3

在表1到3中，ICPD、ICC及ICLD如上文所描述。一般来说，计算每一88维度特征，并从经计算特征导出其它特征。weightedICPD对应于ICPD与ICC的乘积的直方图。特征rWICPD对应于以下方程式：

其中b是子频带指数，且{k_b}是含有子频带b中的所有频带的集合。值n可为小于

的任何值。n的典型值包含1或3。

特征rICPD对应于以下方程式：

其中φ(k)是方程式(5)中界定的ICPD。

特征histICGD对应于ICGD的直方图，其中ICGD由Φ(k)/f_c(k)计算，其中φ(k)是方程式(5)中界定的ICPD，且f_c(k)是频带k的中心频率。特征ratioICC对应于当前子频带的经加权ICC与总体经加权ICC之间的得分，即，

其中g_F及g_P分别在方程式(11)及(12)中界定。应注意，weightedICPD、rWICPD及histICGD是跨类别特征。每一特征包含如上文所论述的平均值及标准差。举例来说，88维度ICPD包含44维度平均值及44维度标准差。

在模型测试期间，各种特征选择排列在可见情形(例如，使用由已知双耳化器产生的数据)及不可见情形(例如，使用由未知双耳化器产生的数据)两者下评估。若干个结论从这些实验产生。第一、如果选择相同数目的特征，那么将特征分组成三个类别(如在表1到3中)可比使用两个类别实现更好的性能。第二、保留ratioICC(6维度)及histICGD(62维度)通常改进不可见情形的准确性；这两个特征对于不可见情形起着显著作用。第三、具有高维度(例如，ICPD为88维度)的特征对可见情形有一些影响。第四、添加ICLD(88维度)通常改进两个情形的准确性。

接着，子频带用于将436维度减少到200维度。特定地，对于44维度，使用子频带1及2来计算ICPD(子频带3及4不予考虑)；对于44维度，使用子频带1及2来计算ICC(子频带3及4不予考虑)；对于44维度，使用子频带3及4来计算ICLD(子频带1及2不予考虑)；对于62维度，保留histICD；对于6维度，保留ratioICC；且摈弃weightedICPD、rWICPD及rICPD。作为此减少的结果，准确性对于可见情形保持不变，且准确性对于不可见情形稍微改进。

机器学习模型选项

如上文所论述，各种机器学习模型可用于实施分类器204(参见图2)或执行模型训练。适合机器学习模型包含AdaBoost(自适应增强)模型、深度神经网络(DNN)模型及稀疏DNN模型。

AdaBoost模型通常从一组弱分类器产生强分类器。在一个实施例中，每一弱分类器是基于一个特征做出二进制决策的朴素贝叶斯分类器。第一弱分类器通过搜索最可区分特征来构建。基于此弱分类器的分类结果，当构建下一弱分类器时，增加那些误分类样本的权重。即，下一弱分类器更多地关注由先前弱分类器产生的那些错误，且因此任选择互补特征且相应地增加强分类器的总体准确性。

DNN模型通常聚合多个阶段的互连节点。此“深”方面可与具有更少阶段的互连节点的“浅”神经网络形成对比。本文中使用的DNN可为含有隐藏层的多层网络。在一个实施例中，使用3隐藏层DNN，其中每一隐藏层含有200个节点，应用50％遗漏且使用sigmoid作为激活函数。

稀疏DNN模型通常是指已应用方法来正规化结构(例如，滤波器、节点权重等)以便减少模型的存储器占用面积的DNN。在一个实施例中，训练模型的权重基于以下方程式来量化：

其中w_q是经量化权重，s_i是以步长0.1的量化标度，如：

s＝[-1.05 -0.95 -0.85 -0.75 -0.65 -0.55 -0.45 -0.35 -0.25 -0.15 0.150.25 0.35 0.45 0.55 0.65 0.75 0.85 0.95 1.05]

使用类似技术，如稀疏矩阵存储，可减少模型的占用面积。同时，也可减少模型的计算复杂性，同时可增加模型的泛化能力。

实施方案细节

实施例可在硬件、存储在计算机可读媒体上的可执行模块或两者的组合(例如，可编程逻辑阵列)中实施。除非另有规定，否则由实施例执行的步骤不需要固有地与任何特定计算机或其他设备相关，尽管它们可能在某些实施例中。特定来说，各种通用机器可与根据本文中的教示编写的程序一起使用，或构造更专用的设备(例如，集成电路)来执行所需方法步骤可更方便。因此，实施例可在于一或多个可编程计算机***上执行的一或多个计算机程序中实施，每个可编程计算机***包括：至少一个处理器、至少一个数据存储***(包含易失性及非易失性存储器及/或存储元件)、至少一个输入装置或端口及至少一个输出装置或端口。程序代码被应用于输入数据以执行本文中所描述的功能并产生输出信息。输出信息以已知方式应用于一或多个输出装置。

每一此类计算机程序优选地存储在或下载到可由通用或专用可编程计算机读取的存储媒体或装置(例如，固态存储器或媒体，或磁性或光学媒体)，用于在所述存储媒体或装置被计算机***读取以执行本文中所描述的过程时配置及操作计算机。本发明的***也可以被认为被实施为配置有计算机程序的计算机可读存储媒体，其中如此配置的存储媒体导致计算机***以特定及预定义方式操作以执行本文中所描述的功能。(软件本身及无形或暂时性信号被排除到它们是不能获得专利的标的物的程度。)

以上说明图解说明本发明的各种实施例，连同可如何实施本发明的方面的实例。以上实例及实施例不应被认为是唯一实施例，且经呈现以图解说明如由以下权利要求书界定的本发明的灵活性及优点。基于以上揭示内容及以下权利要求书，所属领域的技术人员将显而易见其它布置、实施例、实施方案及等效形式，且可在不背离如由权利要求书所界定的本发明的精神及范围的情况下采用其它布置、实施例、实施方案及等效形式。

Claims

1.一种用于检测音频信号的双耳化的设备，所述设备包括：

特征提取器，其经配置以接收输入音频信号，且经配置以从所述输入音频信号提取多个特征；

分类器，其经配置以接收由所述特征提取器提取的所述多个特征，经配置以执行所述多个特征的分类，且经配置以基于分类产生结果，其中所述结果指示所述输入音频信号相对于立体声信号为双耳信号的概率；

虚拟化器，其经配置以接收所述输入音频信号，且经配置以对所述输入音频信号执行虚拟化以产生双耳音频信号；及

混合器，其经配置以接收所述输入音频信号、所述双耳音频信号及所述结果，且经配置以根据所述结果混合所述输入音频信号与所述双耳音频信号以产生输出音频信号，

其中当所述结果指示所述输入音频信号为所述立体声信号时,所述输出音频信号对应于所述双耳音频信号，且

其中当所述结果指示所述输入音频信号为所述双耳信号时，所述输出音频信号对应于所述输入音频信号。

2.根据权利要求1所述的设备，其进一步包括：

平滑器，其经配置以平滑来自所述分类器的所述结果，且经配置以将已被平滑的所述结果提供到所述混合器，

其中所述混合器经配置以根据已由所述平滑器平滑的所述结果混合所述输入音频信号与所述双耳音频信号。

3.根据权利要求2所述的设备，其中已由所述平滑器平滑的所述结果被提供到所述虚拟化器，且其中所述虚拟化器经配置以基于已被平滑的所述结果执行虚拟化。

4.根据权利要求1到3中任一权利要求所述的设备，其中所述特征提取器经配置以将所述输入音频信号变换成变换域信息。

5.根据权利要求1到3中任一权利要求所述的设备，其中所述特征提取器经配置以提取包含以下各项中的至少一者的特征：声道间时间差ICTD特征、声道间相位差ICPD 特征、声道间电平差ICLD特征及声道间相干性ICC特征。

6.根据权利要求1到3中任一权利要求所述的设备，其中所述特征提取器经配置以将所述输入音频信号变换成混合复数正交镜像滤波器HCQMF域信息。

7.根据权利要求1到3中任一权利要求所述的设备，其中所述特征提取器经配置以将所述输入音频信号变换成混合复数正交镜像滤波器HCQMF域信息，且其中所述特征提取器经配置以提取包含所述HCQMF域信息的频带的子集的声道间相位差ICPD的特征。

8.根据权利要求7所述的设备，其中所述HCQMF域信息包含77个频带，且其中频带的所述子集包含频带21到60。

9.根据权利要求1到3中任一权利要求所述的设备，其中所述特征提取器经配置以将所述输入音频信号变换成混合复数正交镜像滤波器HCQMF域信息，其中所述特征提取器经配置以将所述HCQMF域信息分组成多个子频带，其中所述特征提取器经配置以提取包含以下各项的特征：所述多个子频带的第一子集的声道间相位差ICPD特征、所述多个子频带的所述第一子集的声道间相干性ICC特征及所述多个子频带的第二子集的声道间电平差ICLD特征。

10.根据权利要求1到3中任一权利要求所述的设备，其中所述特征提取器包括：

信号变换器，其经配置以从所述输入音频信号产生变换域信息；

特征计算器，其经配置以从所述变换域信息计算多个原始特征；

参数掩模，其经配置以将掩蔽应用于所述多个原始特征以产生多个经修改特征；

直方图分析器，其经配置以针对所述多个经修改特征中的每一者计算多个参数频带上的多个直方图；及

统计计算器，其经配置以从所述多个经修改特征及所述多个直方图计算多个窗口级统计，其中所述多个窗口级统计对应于由所述特征提取器提取的所述多个特征。

11.根据权利要求1到3中任一权利要求所述的设备，其中所述分类器经配置以实施机器学习模型以执行所述多个特征的所述分类。

12.根据权利要求11所述的设备，其中所述机器学习模型为自适应增强模型、深度神经网络模型及稀疏深度神经网络模型中的一者。

13.根据权利要求1到3中任一权利要求所述的设备，其进一步包括：

处理器；及

存储器，

其中所述处理器经配置以实施所述特征提取器、所述分类器、所述虚拟化器及所述混合器。

14.根据权利要求13所述的设备，其中所述存储器存储计算机程序，且其中所述处理器经配置以执行所述计算机程序以实施所述特征提取器、所述分类器、所述虚拟化器及所述混合器。

15.根据权利要求1到3中任一权利要求所述的设备，其中所述输出音频信号包含左输出分量及右输出分量，所述设备进一步包括：

左扬声器，其经配置以输出所述左输出分量；及

右扬声器，其经配置以输出所述右输出分量。

16.根据权利要求1到3中任一权利要求所述的设备，其进一步包括：

第一耳塞；及

第二耳塞，

其中所述第一耳塞包含：第一扬声器、第一处理器及第一存储器，其中所述第一处理器经配置以实施所述特征提取器、所述分类器、所述虚拟化器及所述混合器，且

其中所述第二耳塞包含：第二扬声器、第二处理器及第二存储器，其中所述第二处理器经配置以实施第二特征提取器、第二分类器、第二虚拟化器及第二混合器。

17.一种检测音频信号的双耳化的方法，所述方法包括：

接收输入音频信号；

由特征提取器从所述输入音频信号提取多个特征；

由分类器执行由所述特征提取器提取的所述多个特征的分类；

由所述分类器基于分类产生结果，其中所述结果指示所述输入音频信号相对于立体声信号为双耳信号的概率；

由虚拟化器对所述输入音频信号执行虚拟化以产生双耳音频信号；及

由混合器根据所述结果混合所述输入音频信号与所述双耳音频信号以产生输出音频信号，

其中当所述结果指示所述输入音频信号为所述立体声信号时，所述输出音频信号对应于所述双耳音频信号，且

18.根据权利要求17所述的方法，其进一步包括：

由平滑器平滑来自所述分类器的所述结果；及

将已由所述平滑器平滑的所述结果提供到所述混合器，

其中所述混合器根据已由所述平滑器平滑的所述结果混合所述输入音频信号与所述双耳音频信号。

19.根据权利要求17到18中任一权利要求所述的方法，其中所述输出音频信号包含左输出分量及右输出分量，所述方法进一步包括：

从左扬声器输出所述左输出分量；及

从右扬声器输出所述右输出分量。

20.一种存储计算机程序的非暂时性计算机可读媒体，所述计算机程序在由处理器执行时控制设备以执行包含权利要求17到19中任一权利要求的方法的处理。