CN104811891B

CN104811891B - 多通道音频中语音相关通道的缩放回避的方法和***

Info

Publication number: CN104811891B
Application number: CN201410830734.2A
Authority: CN
Inventors: H·缪施
Original assignee: Dolby Laboratories Licensing Corp
Current assignee: Dolby Laboratories Licensing Corp
Priority date: 2010-03-08
Filing date: 2011-02-28
Publication date: 2017-06-27
Anticipated expiration: 2031-02-28
Also published as: CN102792374A; EP2545552A1; CN104811891A; CN102792374B; RU2012141463A; JP5674827B2; US9881635B2; TW201215177A; WO2011112382A1; US20160071527A1; JP2013521541A; RU2520420C2; EP2545552B1; BR112012022571B1; US20130006619A1; US9219973B2; ES2709523T3; BR122019024041B1; BR112012022571A2; TWI459828B

Abstract

本发明涉及多通道音频中语音相关通道的缩放回避的方法和***。一种用于对具有语音通道和至少一个非语音通道的多通道音频信号进行滤波以改善由该信号确定的语音的可辨识度的方法和***。在典型实施例中，该方法包括步骤：确定指示由该语音通道确定的语音相关内容与由该非语音通道确定的语音相关内容之间的相似程度的至少一个衰减控制值，以及响应于该至少一个衰减控制值对该非语音通道进行衰减。典型地，该衰减步骤包括响应于该至少一个衰减控制值对该非语音通道的原始衰减控制信号，例如回避增益控制信号，进行缩放。一些实施例是通用或专用处理器，用软件或固件编程和/或以其他方式配置为执行根据本发明的滤波。

Description

多通道音频中语音相关通道的缩放回避的方法和***

本申请是申请日为2011年2月28日、申请号为201180012782.5发明名称为“多通道音频中语音相关通道的缩放回避的方法和***”的发明专利申请的分案申请。

相关申请的交叉引用

本申请要求2010年3月8日提交的美国专利临时申请No.61/311,437的优先权，其整体通过引用合并于此。

技术领域

本发明涉及用于改善由多通道音频信号确定的人类语音(例如对话)的可辨识度的***和方法。在一些实施例中，本发明是一种方法和***，其通过确定指示由语音通道确定的语音相关内容与由非语音通道确定的语音相关内容之间的相似程度的至少一个衰减控制值，并响应于该衰减控制值对该非语音通道进行衰减，来对具有语音通道和非语音通道的音频信号进行滤波以改善由信号确定的语音可辨识度。

背景技术

贯穿本公开，包括在权利要求书中，术语“语音”用于广义上指示人类语音。因此，由音频信号确定的“语音”是指信号中在由扬声器(或其他发声换能器)再现信号时感知为人类语音(例如对话、独白、歌声或其他人类语音)的音频内容。根据本发明的典型实施例，由音频信号确定的语音的可听度相对于由信号确定的其他音频内容(例如乐器音乐或非语音声音效果)得到改善，由此改善语音的可辨识度(例如，清楚性或理解容易度)。

贯穿本公开，包括在权利要求书中，多通道音频信号中的一通道的“语音增强内容”这一表述是指增强由信号的另一通道(例如语音通道)确定的语音内容的可辨识度或其他感知品质的内容(由该通道确定)。

本发明的典型实施例假定多通道输入音频信号确定的语音的大部分由信号的中央通道确定。该假定与环绕声音产品惯例一致，根据该惯例，大部分语音通常置于仅一个通道(中央通道)中，大部分音乐、环境声音和音效通常混合到所有通道中(例如左通道、右通道、左环绕通道和右环绕通道以及中央通道)。

因此，多通道音频信号的中央通道将有时在这里称为“语音”通道，信号的全部其它通道(例如左通道、右通道、左环绕通道和右环绕通道)有时在这里称为“非语音”通道。类似地，由立体声信号的左和右通道之和产生的“中央”通道(其语音被移位到中央)有时在这里称为“语音”通道，通过从立体信号的左(或右)通道减去这样的中央通道而产生的“侧”通道将有时在这里称为“非语音”通道。

贯穿本公开，包括在权利要求书中，“对”信号或数据进行操作的表述(例如对信号或数据进行滤波、缩放或变换)用于广义上指示直接对信号或数据进行操作，或者对信号或数据的处理变体(例如，在对其执行操作之前已经经历了初步滤波的信号变体)执行操作。

贯穿本公开，包括在权利要求书中，表述“***”用于广义上指示器件、***或子***。例如，实现解码器的子***可以称为解码器***，包括这样的子***的***(例如，响应于多个输入产生X个输出信号的***，其中该子***产生M个输入，其它X-M个输入从外部源接收)也可以称为解码器***。

贯穿本公开，包括在权利要求书中，第一值(“A”)对第二值(“B”)的“比”这一表述广义上用于表示A/B、或B/A、或A和B之一的缩放或偏移变体对A和B中的另一个的缩放或偏移变体的比(例如(A+x)/(B+y)，其中x和y表示偏移值)。

贯穿本公开，包括在权利要求书中，信号通过发声换能器(例如扬声器)的“再现”这一表述表示使换能器响应于信号产生声音，包括通过进行任何所需的放大和/或其它信号处理。

当在存在竞争声音的情况下听语音时(诸如在餐馆中克服人群噪声倾听朋友说话)，指示语音的音素内容的部分声学特征(语音提示(speech cue))被竞争声音所掩盖且不再可用于倾听者来解码讯息。随着竞争声音的水平相对于语音水平升高，正确接收的语音提示的数量降低且语音感知逐渐变得更难，直到在某竞争声音水平下，语音感知过程中断。虽然这种关系对于所有倾听者有效，但是对于任意语音水平而言能容忍的竞争声音水平对于所有倾听者并不相同。有些倾听者，例如由于年老而损失听力者(老年聋)或倾听***之后学会的语言者，与具有良好听力或运用母语的倾听者相比，更不能容忍竞争声音。

存在竞争声音时倾听者理解语音的能力不同的事实暗示了新闻或娱乐音频中环境声音和背景音乐与语音混合的水平。损失听力或运用外语的倾听者通常喜欢与内容产生者所提供的相比相对更低水平的非语音音频。

为了迎合这些特殊需要，已知对多通道音频信号的非语音通道应用衰减(回避)，而更小(或没有)衰减应用到信号的语音通道，以改善信号所确定的语音的可辨识度。

例如，PCT国际申请公开No.WO2010/011377，发明人为Hannes Muesch且转让给Dolby Laboratories Licensing Corporation(2010年1月28日公开)，公开了多通道音频信号的非语音通道(例如，左通道和右通道)可以掩盖信号的语音通道(例如，中央通道)中的语音到不再满足期望水平的语音可辨识度的程度。WO2010/011377描述了如何确定由回避电路应用到非语音通道的衰减函数以尝试显露语音通道中的语音，同时尽可能多地感知内容创建者的意图。WO2010/011377中描述的技术基于如下假设：非语音通道中的内容从不增强语音通道确定的语音内容的可辨识度(或者其它感知品质)。

本发明部分地基于如下认识，即虽然该假设对于绝大多数多通道音频内容而言是正确的，但是并非总是有效。发明人意识到，当多通道音频信号中的至少一个非语音通道包括增强信号的语音通道确定的语音内容的可辨识度(或其它感知品质)的内容时，根据WO2010/011377的方法对信号的滤波可能负面影响倾听再现的滤波了的信号的听众的娱乐体验。根据本发明的典型实施例，在内容不符合WO2010/011377的方法蕴含的假设时，WO2010/011377描述的方法的应用被暂停或被修改。

需要一种方法和***，用于在音频信号的至少一个非语音通道包括增强音频信号的语音通道中的语音内容的可辨识度的内容的一般情况下，对多通道音频信号进行滤波以改善语音可辨识度。

发明内容

在第一类实施例中，本发明是一种方法，用于对具有语音通道和至少一个非语音通道的多通道音频信号进行滤波，以改善信号所确定的语音的可辨识度。该方法包括步骤：(a)确定指示多通道语音信号的语音通道确定的语音相关内容与至少一个非语音通道确定的语音相关内容之间的相似程度的至少一个衰减控制值；以及(b)响应于该至少一个衰减控制值，对该多通道音频信号的至少一个非语音通道进行衰减。典型地，该衰减步骤包括响应于该至少一个衰减控制值，缩放用于该非语音通道的原始衰减控制信号(例如回避增益控制信号)。优选地，该非语音通道被衰减从而改善由语音通道确定的语音的可辨识度，而没有不期望地衰减由该非语音通道确定的语音增强内容。在一些实施例中，步骤(a)确定的每个衰减控制值指示由音频信号的语音通道确定的语音相关内容与一个非语音通道确定的语音相关内容之间的相似程度，步骤(b)包括响应于所述每个衰减控制值对该非语音通道进行衰减的步骤。在另一些实施例中，步骤(a)包括从音频信号的至少一个非语音通道得到衍生非语音通道的步骤，该至少一个衰减控制值指示由该语音通道确定的语音相关内容与由该衍生非语音通道确定的语音相关内容之间的相似程度。例如，该衍生非语音通道可以通过叠加或以另外的方式混合或组合音频信号的至少两个非语音通道而产生。相对于从不同非语音通道确定一组衰减值的不同子集的成本和复杂度而言，从单个衍生非语音通道确定每个衰减控制值可以减小实施本发明某些实施例的成本和复杂度。在其中输入音频信号具有至少两个非语音通道的实施例中，步骤(b)可以包括响应于该至少一个衰减控制值(例如，响应于衰减控制值的单个序列)，对非语音通道(例如，从其已经衍生出衍生非语音通道的每个非语音通道)的子集或者所有非语音通道进行衰减的步骤。

在一些第一类实施例中，步骤(a)包括产生指示衰减控制值的序列的衰减控制信号的步骤，每个衰减控制值指示由语音通道确定的语音相关内容与由至少一个非语音通道确定的语音相关内容之间在不同时间(例如，在不同时间段中)的相似程度，步骤(b)包括如下步骤：响应于该衰减控制信号缩放回避增益控制信号以产生缩放了的增益控制信号，以及应用该缩放了的增益控制信号以对该至少一个非语音通道进行衰减(例如，将该缩放了的增益控制信号断言到回避电路从而通过该回避电路来控制该至少一个非语音通道的衰减)。例如，在一些这样的实施例中，步骤(a)包括比较第一语音相关特征序列(指示由该语音通道确定的语音相关内容)与第二语音相关特征序列(指示由该至少一个非语音通道确定的语音相关内容)以产生该衰减控制信号，由该衰减控制信号指示的每个衰减控制值指示该第一语音相关特征序列和该第二语音相关特征序列之间在不同时间(例如，在不同时间段中)的相似程度。在一些实施例中，每个衰减控制值是增益控制值。

在一些第一类实施例中，每个衰减控制值与音频信号的至少一个非语音通道指示增强由语音通道确定的语音内容的可辨识度(或者另一感知品质)的语音增强内容的可能性单调相关。在另一些第一类实施例中，每个衰减控制值被单调关联到至少一个非语音通道的预期语音增强值(例如，至少一个非语音通道指示语音增强内容的或然率的度量，乘以由至少一个非语音通道确定的语音增强内容将对由多通道信号确定的语音内容提供的感知品质增强的度量)。例如，当步骤(a)包括比较指示由语音通道确定的语音相关内容的第一语音相关特征序列和指示由至少一个非语音通道确定的语音相关内容的第二语音相关特征序列的步骤时，第一语音相关特征序列可以是语音可能性值的序列，每个该语音可能性值表明在不同时间(例如，在不同时间段中)语音通道指示语音(而不是语音之外的音频内容)的可能性，第二语音相关特征序列也可以是语音可能性值的序列，每个该语音可能性值表明在不同时间(例如，在不同时间段中)至少一个非语音通道指示语音的可能性。从音频信号自动生成这种语音可能性值的序列的各种方法是已知的。例如，一种这样的方法由Robinson和Vinton描述于“Automated Speech/Other Discrimination for LoudnessMonitoring”(Audio Engineering Society,Preprint number 6437of Convention118，2005年5月)中。备选地，预期语音可能性值的序列可以手工创建(例如，通过内容创建器)且与多通道音频信号一起传输到终端用户。

在其中多通道音频信号具有语音通道以及包括第一非语音通道和第二非语音通道的至少两个非语音通道的第二类实施例中，本发明的方法包括步骤：(a)确定至少一个第一衰减控制值，该至少一个第一衰减控制值指示由该语音通道确定的语音相关内容与由该第一非语音通道确定的第二语音相关内容之间的相似程度(例如，包括通过比较指示由该语音通道确定的语音相关内容的第一语音相关特征序列和指示该第二语音相关内容的第二语音相关特征序列)；以及(b)确定至少一个第二衰减控制值，该至少一个第二衰减控制值指示由该语音通道确定的语音相关内容与由该第二非语音通道确定的第三语音相关内容之间的相似程度(例如，包括通过比较指示由该语音通道确定的语音相关内容的第三语音相关特征序列和指示该第三语音相关内容的第四语音相关特征序列，其中该第三语音相关特征序列可以与步骤(a)的第一语音相关特征序列相同)。典型地，该方法包括响应于该至少一个第一衰减控制值对该第一非语音通道进行衰减(例如，缩放该第一非语音通道的衰减)和响应于该至少一个第二衰减控制值对该第二非语音通道进行衰减(例如，缩放该第二非语音通道的衰减)的步骤。优选地，每个非语音通道都被衰减从而改善由语音通道确定的语音的可辨识度，而没有不期望地对任一非语音通道确定的语音增强内容进行衰减。

在一些第二类实施例中：

在步骤(a)中确定的该至少一个第一衰减控制值是衰减控制值的序列，每个衰减控制值是用于缩放增益量的增益控制值，该增益量通过回避电路施加到第一非语音通道以改善由语音通道确定的语音的可辨识度，而没有不期望地对由第一非语音通道确定的语音增强内容进行衰减；且

在步骤(b)中确定的该至少一个第二衰减控制值是第二衰减控制值的序列，每个第二衰减控制值是用于缩放增益量的增益控制值，该增益量通过回避电路施加到第二非语音通道以改善由该语音通道确定的语音的可辨识度，而没有不期望地对由第二非语音通道确定的语音增强内容进行衰减。

在第三类实施例中，本发明是一种用于对具有语音通道和至少一个非语音通道的多通道音频信号进行滤波以改善由该信号确定的语音的可辨识度的方法。该方法包括步骤：(a)比较语音通道的特性和非语音通道的特性以产生用于控制该非语音通道相对于该语音通道的衰减的至少一个衰减值；以及(b)响应于至少一个语音增强可能性值调节该至少一个衰减值，以产生用于控制该非语音通道相对于该语音通道的衰减的至少一个调节衰减值。典型地，该调节步骤为(包括)响应于一个所述语音增强可能性值缩放每个所述衰减值以产生一个所述调节衰减值。典型地，每个语音增强可能性值表明(例如单调关联到)非语音通道(或者从非语音通道或从输入音频信号的一组非语音通道衍生的非语音通道)指示语音增强内容(增强由语音通道确定的语音内容的可辨识度或其它感知品质的内容)的可能性。在一些实施例中，语音增强可能性值表明非语音通道的预期语音增强值(例如，非语音通道指示语音增强内容的或然率的度量乘以由非语音通道确定的语音增强内容将对由多通道音频信号确定的语音内容提供的感知品质增强的度量)。在一些第三类实施例中，至少一个语音增强可能性值是由包括比较指示由语音通道确定的语音相关内容的第一语音相关特征序列与指示由非语音通道确定的语音相关内容的第二语音相关特征序列的步骤的方法确定的比较值(例如，差异值)的序列，每个比较值是在不同时间(例如在不同时间段中)第一语音相关特征序列和第二语音相关特征序列之间的相似程度。在典型的第三类实施例中，该方法还包括响应于该至少一个调节衰减值，对该非语音通道进行衰减的步骤。步骤(b)可包括响应于该至少一个语音增强可能性值，缩放至少一个衰减值(其典型地是回避增益控制信号或其它原始衰减控制信号，或者由其决定)。

在一些第三类实施例中，在步骤(a)中产生的每个衰减值是指示限制非语音通道中的信号功率对语音通道中的信号功率的比值不超过预定阈值所需的非语音通道衰减量的第一因子，其被单调关联到语音通道指示语音的可能性的第二因子缩放。典型地，这些实施例中的调节步骤是(或包括)通过一个所述语音增强可能性值缩放每个所述衰减值以产生一个所述调节衰减值，其中所述语音增强可能性值是单调关联到以下之一的因子：非语音通道指示语音增强内容(增强由多通道信号确定的语音内容的可辨识度或其它感知品质的内容)的可能性；以及非语音通道的预期语音增强值(例如，非语音通道指示语音增强内容的或然率的度量乘以非语音通道中的语音增强内容将对由多通道信号确定的语音内容提供的感知品质增强的度量)。

在一些第三类实施例中，在步骤(a)中产生的每个衰减值是指示足以使存在由非语音通道确定的内容时由语音通道确定的语音的预测可辨识度超过预定阈值的非语音通道的衰减量(例如，最小量)的第一因子，其被与该语音通道指示语音的可能性单调相关的第二因子缩放。优选地，存在由该非语音通道确定的内容时由该语音通道确定的语音的预测可辨识度根据基于心理声学的可辨识度预测模型来确定。典型地，这些实施例中的调节步骤是(或者包括)通过一个所述语音增强可能性值缩放每个所述衰减值以产生一个所述调节了的衰减值，其中该语音增强可能性值是与以下之一单调相关的因子：该非语音通道指示语音增强内容的可能性，以及该非语音通道的预期语音增强值。

在一些第三类实施例中，步骤(a)包括产生每个所述衰减值的步骤，包括通过如下步骤来进行：确定该语音通道和该非语音通道中的每个的功率谱(指示作为频率函数的功率)，以及响应于每个所述功率谱执行衰减值的频率确定。优选地，以此方式产生的衰减值确定将要应用到非语音通道的频率成分的作为频率函数的衰减。

在一类实施例中，本发明是一种用于增强由多通道音频输入信号确定的语音的方法和***。在一些实施例中，本发明的***包括：分析模块(子***)，配置为分析该输入多通道信号以产生衰减控制值；以及衰减子***。该衰减子***配置为由至少一些衰减控制值掌控地应用回避衰减到该输入信号的每个非语音通道以产生滤波音频输出信号。在一些实施例中，该衰减子***包括回避电路(由至少一些衰减控制值掌控)，其耦接且配置为应用衰减(回避)到该输入信号的每个非语音通道以产生滤波音频输出信号。在应用到非语音通道的衰减由控制信号的当前值确定的意义上来说，该回避电路被控制值所掌控。

在典型实施例中，本发明的***是或者包括通用或专用处理器，其用软件(或固件)编程和/或以其他方式配置为执行本发明的方法的实施例。在一些实施例中，本发明的***是通用处理器，耦接为接收指示音频输入信号的输入数据且编程(用适当的软件)为通过执行本发明的方法的实施例响应于该输入数据产生指示音频输出信号的输出数据。在另一些实施例中，本发明的***通过适当地配置(例如，通过编程)一可配置音频数字信号处理器(DSP)来实现。该音频DSP可以是常规音频DSP，其可配置(例如，可通过适当的软件或固件来编程，或者响应于控制数据以其他方式配置)为对输入音频执行多种操作中的任意操作。运行时，已经配置为执行根据本发明的主动语音增强的音频DSP耦接为接收音频输入信号，除了(包括)语音增强之外，该DSP典型地还对输入音频信号执行多种操作。根据本发明的各种实施例，音频DSP可在配置(例如编程)之后操作来执行本发明的方法的实施例以通过对输入音频信号执行该方法而响应于输入音频信号产生输出音频信号。

本发明的各方面包括配置(例如编程)为执行本发明的方法的任意实施例的***、以及存储用于实现本发明的方法的任意实施例的代码的计算机可读介质(例如，盘)。

附图说明

图1是本发明的***的实施例的框图；

图1A是本发明的***的另一实施例的框图；

图2是本发明的***的另一实施例的框图；

图2A是本发明的***的另一实施例的框图；

图3是本发明的***的另一实施例的框图；

图4是作为本发明的***的实施例的音频数字信号处理器(DSP)的框图；以及

图5是计算机***的框图，包括计算机可读存储介质504，其存储用于对***进行编程以执行本发明的方法的实施例的计算机代码。

具体实施方式

本发明的许多实施例在技术上是可行的。根据本公开，如何实现它们将对本领域普通技术人员变得显然。本发明的***、方法和介质的实施例将参照图1、1A、2、2A和3-5进行描述。

发明人已经发现，一些多通道音频内容在语音通道和至少一个非语音通道中具有不同但相关的语音内容。例如，一些舞台表演的多通道音频记录被混合使得“干”语音(即没有明显回响的语音)被置于语音通道中(典型地，信号的中央通道C)且相同但具有显著回响成分的语音(“湿”语音)被置于信号的非语音通道中。在典型情况中，干语音是来自舞台表演者持有的靠近其嘴部的麦克风的信号，湿语音是来自置于听众中的麦克风的信号。湿语音与干语音相关，因为它是剧场中的听众听到的表演。但是它不同于干语音。典型地，湿语音相对于干语音被延迟，具有不同的波谱和不同的附加成分(例如，听众噪声和回响)。

根据干湿语音的相对水平，湿语音成分可能将干语音成分掩盖到回避电路中非语音通道的衰减(例如，如在上面引用的WO2010/011377描述的方法中那样)不期望地使湿语音信号衰减的程度。尽管干和湿语音成分可以描述为单独实体，但是聆听者感知上融合这两种且将它们听为单个语音流。衰减湿语音成分(例如，在回避电路中)可具有降低所融合的语音流的感知响度以及降低其图景宽度的效果。本发明人已经意识到，对于具有所述类型的干湿语音成分的多通道音频信号，如果湿语音成分的水平在信号的语音增强处理期间不改变的话，通常感知上将更愉悦且将更有助于语音可辨识度。

本发明部分基于如下认识：当多通道音频信号的至少一个非语音通道包括增强由信号的语音通道确定的语音内容的可辨识度(或者其它感知品质)的内容时，使用回避电路对信号的非语音通道进行滤波(例如，根据WO2010/011377的方法)会负面影响聆听所再现的滤波信号的听众的娱乐体验。根据本发明的典型实施例，多通道音频信号的至少一个非语音通道的衰减(在回避电路中)在非语音通道包括语音增强成分(增强由信号的语音通道确定的语音内容的可辨识度或其它感知品质的内容)的时间期间被暂停或修改。在非语音通道不包括语音增强内容(或者不包括满足预定标准的语音增强内容)的时间期间，非语音通道被正常衰减(衰减不暂停或修改)。

回避电路中的常规滤波对其不合适的典型多通道信号(具有语音通道)是包括至少一个非语音通道的信号，该至少一个非语音通道承载与语音通道中的语音提示基本相同的语音提示。根据本发明的典型实施例，语音通道中语音相关特征的序列与非语音通道中语音相关特征的序列相比较。两种特征序列的实质相似性表明非语音通道(即，非语音通道中的信号)贡献了理解语音通道中的语音有用的信息，且表明非语音通道的衰减应被避免。

为了意识到检查这种语音相关特征序列而不是信号本身之间的相似性的重要意义，重要的是认识到“干”和“湿”语音成分(由语音和非语音通道确定)不相同；指示这两类语音成分的信号通常在时间上错开，且已经经历了不同的滤波处理并已经添加有不同的外来成分。因此，两种信号之间的直接比较将产生低相似度，无论非语音通道贡献了与语音通道相同的语音提示(如在干和湿语音的情况中那样)，不相关的语音提示(如在语音和非语音通道中有两种不相关的声音[例如，语音通道中的目标谈话和非语音通道中模糊不清的背景说话]的情况中那样)，还是根本没有语音提示(例如，非语音通道承载音乐和效果)。通过将比较基于语音特征(如在本发明的优选实施例中那样)，实现了一定水平的抽象化(abstraction)，其减少了不相关信号方面的影响，诸如小量延迟、谱差异以及附加外部信号。因此，本发明的优选实现一般产生至少两个语音特征流：一个表示语音通道中的信号，至少一个表示非语音通道中的信号。

本发明的***的第一实施例(125)将参照图1来进行描述。响应于包括语音通道101(中央通道C)以及两个非语音通道102和103(左通道L和右通道R)的多通道音频信号，图1的***对非语音通道进行滤波以产生包括语音通道101以及滤波的非语音通道118和119(滤波的左通道L'和右通道R')的滤波多通道输出音频信号。备选地，非语音通道102和103之一或二者可以是多通道音频信号的另一类型的非语音通道(例如，5.1通道音频信号的左后和/或右后通道)，或者可以是从多通道音频信号的非语音通道中的许多不同子集中的任意子集衍生出的衍生非语音通道(例如，是它们的组合)。备选地，本发明的***的实施例可以实现为对多通道音频信号的仅一个非语音通道或者超过两个非语音通道进行滤波。

再次参照图1，非语音通道102和103分别断言到回避放大器117和116。运行时，回避放大器116由从乘法元件114输出的控制信号S3(其指示控制值的序列，因此也称为控制值序列S3)掌控，回避放大器117由从乘法元件115输出的控制信号S4(其指示控制值的序列，因此也称为控制值序列S4)掌控。

多通道输入信号的每个通道的功率由一组功率评估器(104、105和106)测量且表达在对数标度上[dB]。这些功率评估器可以实施平滑机构，诸如泄露积分器，从而所测量的功率电平反映在句子或整段的持续时间上平均的功率电平。语音通道中的信号的功率电平从每个非语音通道中的功率电平扣除(通过减法元件107和108)以给出两种信号类型之间的功率比值的度量。元件107的输出是非语音通道103中的功率对语音通道101中的功率的比值的度量。元件108的输出是非语音通道102中的功率对语音通道101中的功率的比值的度量。

比较电路109确定对于每个非语音通道，为了使非语音通道的功率电平保持为比语音通道中的信号的功率电平低至少θdB，非语音通道必须衰减的分贝(dB)数(其中符号“θ”也称为手写体西塔，指代预定阈值)。在电路109的一个实现中，加法元件120添加阈值θ(存储于可以是寄存器的元件110中)到非语音通道103和语音通道101之间的功率电平差(或“余量”)，加法元件121添加阈值θ到非语音通道102和语音通道101之间的功率电平差。元件111-1和112-1分别改变加法元件120和121的输出的符号。该符号改变操作将衰减值转换为增益值。元件111和112将每个结果限制为等于或小于零(元件111-1的输出被断言到限制器111，元件112-1的输出被断言到限制器112)。从限制器111输出的当前值C1确定为了将非语音通道103的功率电平保持为比语音通道101的功率电平低θdB(在多通道输入信号的相关时间处或者相关时间窗中)，必须应用到非语音通道103的以dB计的增益(负衰减)。从限制器112输出的当前值C2确定为了将非语音通道102的功率电平保持为比语音通道101的功率电平低θdB(在多通道输入信号的相关时间处或者相关时间窗中)，必须应用到非语音通道102的以dB计的增益(负衰减)。θ的典型合适值为5dB。

因为在对数标度(dB)上表达的度量和在线性标度上表达的相同度量之间有唯一关系，所以可以构建与图1的元件104、105、106、107、108和109等价的电路(或者被编程或以其他方式配置的处理器)，其中功率、增益和阈值全部都在线性标度上表达。替选实现可以用与信号强度诸如信号的绝对值相关的度量来代替功率度量。

从限制器111输出的信号C1是用于非语音通道103的原始衰减控制信号(用于回避放大器116的增益控制信号)，其可以直接断言到放大器116以控制非语音通道103的回避衰减。从限制器112输出的信号C2是用于非语音通道102的原始衰减控制信号(用于回避放大器117的增益控制信号)，其可以直接断言到放大器117以控制非语音通道102的回避衰减。

然而，根据本发明，原始衰减控制信号C1和C2在乘法元件114和115中被缩放以产生用于通过放大器116和117来控制非语音通道的回避衰减的增益控制信号S3和S4。信号C1响应于衰减控制值S1的序列被缩放，信号C2响应于衰减控制值S2的序列被缩放。每个控制值S1从处理元件134(将在下面描述)的输出断言到乘法元件114的输入，信号C1(进而由其确定的每个“原始”增益控制值C1)从限制器111断言到元件114的另一输入。元件114响应于当前值S1缩放当前值C1，将这些值乘到一起以产生当前值S3，其被断言到放大器116。每个控制值S2从处理元件135(将在下面描述)的输出断言到乘法元件115的输入，信号C2(进而由其确定的每个“原始”增益控制值C2)从限制器112断言到元件115的另一输入。元件115响应于当前值S2缩放当前值C2，将这些值乘到一起以产生当前值S4，其被断言到放大器117。

根据本发明如下生成控制值S1和S2。在语音可能性处理元件130、131和132中，对于多通道输入信号的每个通道生成语音可能性信号(图1中的信号P、Q和T中的每个)。语音可能性信号P表示用于非语音通道102的语音可能性值的序列；语音可能性信号Q表示用于语音通道101的语音可能性值的序列；语音可能性信号T表示用于非语音通道103的语音可能性值的序列。

语音可能性信号Q是与语音通道中的信号实际上表示语音的可能性单调相关的值。语音可能性信号P是与非语音通道102中的信号是语音的可能性单调相关的值。语音可能性信号T是与非语音通道103中的信号是语音的可能性单调相关的值。处理器130、131和132(其通常彼此相同，但是在一些实施例中彼此不同)可以实现自动确定断言到其的输入信号表示语音的可能性的各种方法中的任意方法。在一实施例中，语音可能性处理器130、131和132彼此相同，处理器130产生信号P(根据非语音通道102中的信息)，使得信号P表示语音可能性值的序列，每个语音可能性值与不同时间(或时间窗)处通道102中的信号是语音的可能性单调相关。处理器131产生信号Q(根据通道101中的信息)，使得信号Q表示语音可能性值的序列，每个语音可能性值与不同时间(或时间窗)处通道101中的信号是语音的可能性单调相关。处理器132产生信号T(根据非语音通道103中的信息)，使得信号T表示语音可能性值的序列，每个语音可能性值与不同时间(或时间窗)处通道103中的信号是语音的可能性单调相关。处理器130、131和132中的每个通过实现(在相关的一个通道102、101和103上)Robinson和Vinton在“Automated Speech/Other Discrimination for LoudnessMonitoring”(Audio Engineering Society,Preprint number 6437of Convention 118，2005年5月)中描述的机构来实现所述功能。替选地，信号P可以手工产生，例如由内容创建者产生，并且与通道102中的音频信号一起发送到终端用户，处理器130可以简单地从通道102提取这种先前创建的信号P(或者处理器130可以被去除，先前创建的信号P直接断言到处理器134)。类似地，信号Q可以手工产生并与通道101中的音频信号一起发送，处理器131可以简单地从通道101提取这种先前创建的信号Q(或者处理器131可以被去除，先前创建的信号Q直接断言到处理器134和135)，信号T可以手工产生并与通道103中的音频信号一起发送，处理器132可以简单地从通道103提取这种先前创建的信号T(或者处理器132可以被去除，先前创建的信号T直接断言到处理器135)。

在处理器134的典型实现中，由信号P和Q确定的语音可能性值成对比较以确定对于信号P的当前值序列中的每个，信号P和Q的当前值之间的差异。在处理器135的典型实现中，由信号T和Q确定的语音可能性值成对比较，以确定对于信号Q的当前值序列中的每个，确定信号T和Q的当前值之间的差异。结果，处理器134和135中的每个产生成对的语音可能性信号的差异值的时间序列。

处理器134和135优选实现为通过时间平均来平滑每个这样的差异值序列，并且可选地缩放每个所得平均化差异值序列。平均化差异值序列的缩放可以是必需的，从而从处理器134和135输出的所缩放的平均化值所在的范围使得放大元件114和115的输出对于掌控回避放大器116和117而言是有用的。

在典型实现中，从处理器134输出的信号S1是缩放了的平均化差异值的序列(这些缩放了的平均化差异值中的每个是信号P和Q的当前值之间的差异在不同时间窗中的缩放平均)。信号S1是用于非语音通道102的回避增益控制信号，用来缩放用于非语音通道102的独立生成的原始回避增益控制信号C1。类似地，在典型实现中，从处理器135输出的信号S2是缩放了的平均化差异值的序列(这些缩放了的平均化差异值中的每个是信号T和Q的当前值之间的差异在不同时间窗中的缩放平均)。信号S2是用于非语音通道103的回避增益控制信号，用来缩放用于非语音通道103的独立生成的原始回避增益控制信号C2。

根据本发明响应于回避增益控制信号S1对原始回避增益控制信号C1进行缩放可以通过将信号C1的每个原始增益控制值乘以(在元件114中)信号S1的对应的一个缩放平均差异值以生成信号S3来进行。根据本发明响应于回避增益控制信号S2对原始回避增益控制信号C2进行缩放可以通过将信号C2的每个原始增益控制值乘以(在元件115中)信号S2的对应的一个缩放平均差异值以生成信号S4来进行。

本发明的***的另一实施例(125')将参照图1A来描述。响应于包括语音通道101(中央通道C)以及两个非语音通道102和103(左通道L和右通道R)的多通道音频信号，图1A的***对非语音通道进行滤波以产生包括语音通道101以及滤波了的非语音通道118和119(滤波了的左通道L'和右通道R')的滤波多通道输出音频信号。

在图1A的***中(如图1的***中那样)，非语音通道102和103分别断言到回避放大器117和116。运行时，回避放大器117由从乘法元件115输出的控制信号S4(其指示控制值的序列，因此也称为控制值序列S4)掌控，回避放大器116由从乘法元件114输出的控制信号S3(其指示控制值的序列，因此也称为控制值序列S3)掌控。图1A的元件104、105、106、107、108、109(包括元件110、120、121、111-1、112-1、111和112)、114、115、130、131、132、134和135与图1的相同编号的元件相同，不再重复上面对它们的描述。

图1A的***与图1的***的不同之处在于，用于缩放控制信号C1(在限制器元件111的输出处断言)的是控制信号V1(在乘法器214的输出处断言)，而不是控制信号S1(在处理器134的输出处断言)，用于缩放控制信号C2(在限制器元件112的输出处断言)的是控制信号V2(在乘法器215的输出处断言)，而不是控制信号S2(在处理器135的输出处断言)。在图1A中，根据本发明响应于衰减控制值V1的序列对原始回避增益控制信号C1进行缩放可以通过将信号C1的每个原始增益控制值乘以(在元件114中)对应的一个衰减控制值V1以产生信号S3来进行，根据本发明响应于衰减控制值V2的序列对原始回避增益控制信号C2进行缩放可以通过将信号C2的每个原始增益控制值乘以(在元件115中)对应的一个衰减控制值V2以产生信号S4来进行。

为了产生衰减控制值V1的序列，信号Q(在处理器131的输出处断言)被断言到乘法器214的输入，控制信号S1(在处理器134的输出处断言)被断言到乘法器214的另一个输入。乘法器214的输出是衰减控制值V1的序列。衰减控制值V1中的每个是由信号Q确定的语音可能性值之一被对应的一个衰减控制值S1缩放后的值。

类似地，为了产生衰减控制值V2的序列，信号Q(在处理器131的输出处断言)被断言到乘法器215的输入，控制信号S2(在处理器135的输出处断言)被断言到乘法器215的另一个输入。乘法器215的输出是衰减控制值V2的序列。衰减控制值V2中的每个是由信号Q确定的语音可能性值之一被对应的一个衰减控制值S2缩放后的值。

图1的***(或图1A的***)可以通过处理器(例如，图5的处理器501)以软件实现，该处理器已被编程以实现所描述的图1(或1A)的***的操作。替选地，可以以硬件实现，该硬件具有如图1(或1A)所示地连接的电路元件。

在图1(或图1A)的实施例的变型中，根据本发明响应于回避增益控制信号S1(或V1)对原始回避增益控制信号C1进行缩放(以产生用于掌控放大器116的回避增益控制信号)可以按非线性方式进行。例如，这种非线性缩放可以产生回避增益控制信号(代替信号S3)，当信号S1(或V1)的当前值在阈值以下时，该回避增益控制信号导致放大器116没有进行回避(即，通过放大器116应用等于一的增益，因此通道103没有衰减)，当信号S1(或V1)的当前值超过阈值时，该回避增益控制信号导致该回避增益控制信号(代替信号S3)的当前值等于信号C1的当前值(从而信号S1(或V1)不改变C1的当前值)。替选地，可以进行信号C1的其他线性或非线性缩放(响应于本发明的回避增益控制信号S1或V1)以产生用于掌控放大器116的回避增益控制信号。例如，信号C1的这种缩放可以产生回避增益控制信号(代替信号S3)，当信号S1(或V1)的当前值在阈值以下时，该回避增益控制信号导致放大器116没有进行回避(即，放大器116应用等于一的增益)，当信号S1(或V1)的当前值超过阈值时，该回避增益控制信号导致该回避增益控制信号(代替信号S3)的当前值等于信号C1的当前值乘以信号S1或V1的当前值的乘积(或者由该乘积确定的某些其他值)。

类似地，在图1(或图1A)的实施例的变型中，根据本发明响应于回避增益控制信号S2(或V2)对原始回避增益控制信号C2进行缩放(以产生用于掌控放大器117的回避增益控制信号)可以按非线性方式进行。例如，这种非线性缩放可以产生回避增益控制信号(代替信号S4)，当信号S2(或V2)的当前值在阈值以下时，该回避增益控制信号导致放大器117没有进行回避(即，通过放大器117应用等于一的增益，因此通道102没有衰减)，当信号S2(或V2)的当前值超过阈值时，该回避增益控制信号导致该回避增益控制信号(代替信号S4)的当前值等于信号C2的当前值(从而信号S2或V2不改变C2的当前值)。替选地，可以进行信号C2的其他线性或非线性缩放(响应于本发明的回避增益控制信号S2或V2)以产生用于掌控放大器117的回避增益控制信号。例如，信号C2的这种缩放可以产生回避增益控制信号(代替信号S4)，当信号S2(或V2)的当前值在阈值以下时，该回避增益控制信号导致放大器117没有进行回避(即，放大器117应用等于一的增益)，当信号S2(或V2)的当前值超过阈值时，该回避增益控制信号导致该回避增益控制信号(代替信号S4)的当前值等于信号C2的当前值乘以信号S2或V2的当前值的乘积(或者由该乘积确定的某些其他值)。

本发明的***的另一实施例(225)将参照图2来进行描述。响应于包括语音通道101(中央通道C)以及两个非语音通道102和103(左通道L和右通道R)的多通道音频信号，图2的***对非语音通道进行滤波以产生包括语音通道101以及滤波的非语音通道118和119(滤波的左通道L'和右通道R')的滤波多通道输出音频信号。

在图2的***中(如图1的***中那样)，非语音通道102和103分别断言到回避放大器117和116。运行时，回避放大器117由从乘法元件115输出的控制信号S6(其指示控制值的序列，因此也称为控制值序列S6)掌控，回避放大器116由从乘法元件114输出的控制信号S5(其指示控制值的序列，因此也称为控制值序列S5)掌控。图2的元件114、115、130、131、132、134和135与图1的相同编号的元件相同(且起相同的作用)，不再重复上面对它们的描述。

图2的***用一组功率评估器201、202和203测量通道101、102和103每个中的信号的功率。与图1中的对等物不同，功率评估器201、202和203中的每个测量信号功率在频率上的分布(即，相关通道的一组频带中每个不同频带中的功率)，产生用于每个通道的功率谱，而不是单个数字。每个功率谱的谱分辨率理想上匹配元件205和206实现的可辨识度预测模型(下面论述)的谱分辨率。

功率谱被馈送到比较电路204中。电路204的目的是确定将要施加到每个非语音通道的衰减以确保非语音通道中的信号不把语音通道中的信号的可辨识度减弱到小于预定标准。该功能通过采用可辨识度预测电路(205和206)来实现，可辨识度预测电路(205和206)根据语音通道信号(201)和非语音通道信号(202和203)的功率谱预测语音可辨识度。可辨识度预测电路205和206可以根据设计选择和权衡实现合适的可辨识度预测模型。例子是ANSI S3.5-1997(“Methods for Calculation of the Speech IntelligibilityIndex”)中规范的语音可辨识度指数和Muesch&Buus语音识别灵敏度模型(“Usingstatistical decision theory to predict speech intelligibility.I.Modelstructure”Journal of Acoustical Society of America,2001,Vol.109,p 2896－2909)。清楚的是，当语音通道中的信号是语音之外的事物时，可辨识度预测模型的输出没有意义。尽管如此，在下面可辨识度预测模型的输出将称为预测语音可辨识度。感知错误在后面的处理中通过用参数S1和S2缩放从比较单元204输出的增益值来解决，参数S1和S2中的每个涉及语音通道中的信号指示语音的可能性。

可辨识度预测模型的共同点在于，作为降低非语音信号水平的结果，它们预测提高或未改变的语音可辨识度。继续图2的处理流程，比较电路207和208比较预测可辨识度和预定标准值。如果元件205确定非语音通道103的水平低到使所预测的可辨识度超过标准，那么从电路209取得初始化为0dB的增益参数且提供到电路211，作为比较电路204的输出C3。如果元件206确定非语音通道102的水平低到使所预测的可辨识度超过标准，那么从电路210取得初始化为0dB的增益参数且提供到电路212，作为比较电路204的输出C4。如果元件205或206确定标准未得到满足，则增益参数(元件209和210中的相关一个中)下降固定量且可辨识度预测被重复。降低增益的合适阶梯大小为1dB。继续如刚才所述的迭代，直到所预测的可辨识度满足或超过标准值。

当然可能的是，语音通道中的信号使得即使在非语音通道中没有信号时也不能达到标准可辨识度。这种情况的例子是非常低水平或有严格限制的带宽的语音信号。如果发生这种情况，那么会造成如下情况：施加到非语音通道的增益的任何进一步减小不影响所预测的语音可辨识度，且标准永远得不到满足。在这种状况下，元件205、207和209(或元件206、208和210)形成的循环无限地继续，可以应用额外逻辑器(未示出)来中断该循环。这样的逻辑器的一种特别简单的例子是对迭代次数进行计数，一旦超过预定迭代次数就跳出循环。

根据本发明响应于回避增益控制信号S1对原始回避增益控制信号C3进行缩放可以通过将信号C3的每个原始增益控制值乘以(在元件114中)信号S1的对应一个缩放平均差异值以产生信号S5来进行。根据本发明响应于回避增益控制信号S2对原始回避增益控制信号C4进行缩放可以通过将信号C4的每个原始增益控制值乘以(在元件115中)信号S2的对应一个缩放平均差异值以产生信号S6来进行。

图2的***可以通过处理器(例如，图5的处理器501)以软件实现，该处理器已被编程以实现所描述的图2的***的操作。替选地，可以以硬件实现，该硬件具有如图2所示地连接的电路元件。

在图2的实施例的变型中，根据本发明响应于回避增益控制信号S1对原始回避增益控制信号C3进行缩放(以产生用于掌控放大器116的回避增益控制信号)可以按非线性方式进行。例如，这种非线性缩放可以产生回避增益控制信号(代替信号S5)，当信号S1的当前值在阈值以下时，该回避增益控制信号导致放大器116没有进行回避(即，通过放大器116应用等于一的增益，因此通道103没有衰减)，当信号S1的当前值超过阈值时，该回避增益控制信号导致该回避增益控制信号(代替信号S5)的当前值等于信号C3的当前值(从而信号S1不改变C3的当前值)。替选地，可以进行信号C3的其他线性或非线性缩放(响应于本发明的回避增益控制信号S1)以产生用于掌控放大器116的回避增益控制信号。例如，信号C3的这种缩放可以产生回避增益控制信号(代替信号S5)，当信号S1的当前值在阈值以下时，该回避增益控制信号导致放大器116没有进行回避(即，放大器116应用等于一的增益)，当信号S1的当前值超过阈值时，该回避增益控制信号导致该回避增益控制信号(代替信号S5)的当前值等于信号C3的当前值乘以信号S1的当前值的乘积(或者由该乘积确定的某些其他值)。

类似地，在图2的实施例的变型中，根据本发明响应于回避增益控制信号S2对原始回避增益控制信号C4进行缩放(以产生用于掌控放大器117的回避增益控制信号)可以按非线性方式进行。例如，这种非线性缩放可以产生回避增益控制信号(代替信号S6)，当信号S2的当前值在阈值以下时，该回避增益控制信号导致放大器117没有进行回避(即，通过放大器117应用等于一的增益，因此通道102没有衰减)，当信号S2的当前值超过阈值时，该回避增益控制信号导致该回避增益控制信号(代替信号S6)的当前值等于信号C4的当前值(从而信号S2不改变C4的当前值)。替选地，可以进行信号C4的其他线性或非线性缩放(响应于本发明的回避增益控制信号S2)以产生用于掌控放大器117的回避增益控制信号。例如，信号C4的这种缩放可以产生回避增益控制信号(代替信号S6)，当信号S2的当前值在阈值以下时，该回避增益控制信号导致放大器117没有进行回避(即，放大器117应用等于一的增益)，当信号S2的当前值超过阈值时，该回避增益控制信号导致该回避增益控制信号(代替信号S6)的当前值等于信号C4的当前值乘以信号S2的当前值的乘积(或者由该乘积确定的某些其他值)。

本发明的***的另一实施例(225')将参照图2A来进行描述。响应于包括语音通道101(中央通道C)以及两个非语音通道102和103(左通道L和右通道R)的多通道音频信号，图2A的***对非语音通道进行滤波以产生包括语音通道101以及滤波的非语音通道118和119(滤波的左通道L'和右通道R')的滤波多通道输出音频信号。

在图2A的***中(如图2的***中那样)，非语音通道102和103分别断言到回避放大器117和116。运行时，回避放大器117由从乘法元件115输出的控制信号S6(其指示控制值的序列，因此也称为控制值序列S6)掌控，回避放大器116由从乘法元件114输出的控制信号S5(其指示控制值的序列，因此也称为控制值序列S5)掌控。图2A的元件201、202、203、204、114、115、130和134与图2的相同编号的元件相同(且起相同的作用)，不再重复上面对它们的描述。

图2A的***与图2的***的不同之处在两个主要方面。第一，该***配置为从输入音频信号的两个独立非语音通道(102和103)产生(即，衍生)“衍生”非语音通道(L+R)，且响应于该衍生非语音通道确定衰减控制值(V3)。作为对照，图2的***响应于输入音频信号中的一个非语音通道(通道102)确定衰减控制值S1，且响应于输入音频信号中的另一个非语音通道(通道103)确定衰减控制值S2。运行时，图2A的***响应于同一组衰减控制值V3对输入音频信号的每个非语音通道(通道102和103中的每个)进行衰减。运行时，图2的***响应于衰减控制值S2对输入音频信号的非语音通道102进行衰减，且响应于一组不同的衰减控制值(值S1)对输入音频信号的非语音通道103进行衰减。

图2A的***包括加法元件129，其输入耦接为接收输入音频信号的非语音通道102和103。衍生非语音通道(L+R)断言在元件129的输出处。语音可能性处理元件130响应于来自元件129的衍生非语音通道L+R断言语音可能性信号P。在图2A中，信号P指示用于衍生非语音通道的语音可能性值的序列。典型地，图2A的语音可能性信号P是与衍生非语音通道中的信号是语音的可能性单调相关的值。图2A的语音可能性信号Q(由处理器131产生)与上述图2的语音可能性信号Q相同。

图2A的***不同于图2的***的第二主要方面如下。在图2A中，控制信号V3(在乘法器214的输出处断言)用于(而不是在处理器134的输出处断言的控制信号S1)缩放原始回避增益控制信号C3(在元件211的输出处断言)，控制信号V3也用于(而不是在图2的处理器135的输出处断言的控制信号S2)缩放原始回避增益控制信号C4(在元件212的输出处断言)。在图2A中，根据本发明响应于由信号V3指示的衰减控制值的序列(将称为衰减控制值V3)对原始回避增益控制信号C3进行缩放可以通过将信号C3的每个原始增益控制值乘以(在元件114中)对应的一个衰减控制值V3以产生信号S5来进行，根据本发明响应于衰减控制值V3的序列对原始回避增益控制信号C4进行缩放可以通过将信号C4的每个原始增益控制值乘以(在元件115中)对应的一个衰减控制值V3以产生信号S6来进行。

运行时，图2A的***如下产生衰减控制值V3的序列。语音可能性信号Q(在图2A的处理器131的输出处断言)被断言到乘法器214的输入，衰减控制信号S1(在处理器134的输出处断言)被断言到乘法器214的另一输入。乘法器214的输出是衰减控制值V3的序列。衰减控制值V3中的每个是由信号Q确定的语音可能性值之一被对应的一个衰减控制值S1缩放后的值。

本发明的***的另一实施例(325)将参照图3来进行描述。响应于包括语音通道101(中央通道C)以及两个非语音通道102和103(左通道L和右通道R)的多通道音频信号，图3的***对非语音通道进行滤波以产生包括语音通道101以及滤波了的非语音通道118和119(滤波了的左通道L'和右通道R')的滤波多通道输出音频信号。

在图3的***中，三个输入通道中的每个信号被滤波器组301(用于通道101)、滤波器组302(用于通道102)和滤波器组303(用于通道103)分成其谱成分。谱分析可以用时域N通道滤波器组实现。根据一实施例，每个滤波器组将频率范围分成1/3倍频带或者模仿推测发生在人内耳中的滤波。从每个滤波器组输出的信号包括N个子信号的事实通过使用粗线来示出。

在图3的***中，非语音通道102和103中的信号的频率成分分别被断言到回避放大器117和116。运行时，回避放大器117由从乘法元件115'输出的控制信号S8(其指示控制值的序列，因此也称为控制值序列S8)掌控，回避放大器116由从乘法元件114'输出的控制信号S7(其指示控制值的序列，因此也称为控制值序列S7)掌控。图3的元件130、131、132、134和135与图1的相同编号的元件相同(且起相同的作用)，不再重复上面对它们的描述。

图3的过程可以视为旁枝过程。顺着图3所示的信号路径，用于非语音通道102的滤波器组302中产生的N个子信号每个通过回避放大器117被一组N个增益值中的一员缩放，用于非语音通道103的滤波器组303中产生的N个子信号每个通过回避放大器116被一组N个增益值中的一员缩放。这些增益值的产生将稍后描述。接下来，缩放了的子信号重新组合成单个音频信号。这可以经由简单累积(通过用于通道102的累积电路313且通过用于通道103的累积电路314)来进行。备选地，可以使用匹配到分析滤波器组的合成滤波器组。该过程导致修改的非语音信号R'(118)和修改的非语音信号L'(119)。

现在描述图3的过程的旁枝路径，使每个滤波器组输出可用于一组对应的N功率评估器(304、305和306)。用于通道101和102的所得功率谱用作优化电路307的输入，优化电路307具有作为输出的N维增益矢量C6。用于通道101和103的所得功率谱用作优化电路308的输入，优化电路308具有作为输出的N维增益矢量C5。优化采用可辨识度预测电路(309和310)和响度计算电路(311和312)二者来发现最大化每个非语音通道的响度且同时维持通道101中的语音信号的预定水平的预测可辨识度的增益矢量。预测可辨识度的合适模型已经参考图2进行了描述。响度计算电路311和312可以根据设计选择和折衷实现合适的响度预测模型。合适的模型的例子是美国国家标准ANSI S3.4-2007“Procedure for theComputation of Loudness of Steady Sounds”和德国标准DIN 45631“Berechnung desund der Lautheit aus dem”。

取决于可获得的计算资源和所强加的限制，优化电路(307、308)的形式和复杂度可以大地改变。根据一实施例，使用N个自由参数的迭代多维度约束优化。每个参数表示施加到非语音通道的频带之一的增益。标准计数，诸如跟踪N维度搜索空间的最陡梯度，可以应用来发现最大值。在另一实施例中，需要更少计算的方案将增益对频率的函数约束为可能的增益对频率的函数的小集合中的成员，诸如一组不同的谱梯度或架滤波器(shelffilter)。采用该额外约束，优化问题可以缩减到少量一维优化。在又一实施例中，在非常小的可能增益函数集合上进行穷举搜索。该后一方案在期望恒定计算负载和搜索速度的实时应用中可能是特别合适的。

本领域普通技术人员将容易意识到根据本发明的其他实施例可能加于优化上的其他约束。一个例子是将修改了的非语音通道的响度限制为不大于修改之前的响度。另一个例子是对相邻频带之间的增益差异施加限制以限制重构滤波器组(313、314)中的短暂混淆的可能或者减小负面音质修改的几率。合意的约束既依赖于滤波器组的技术实现，又依赖于可辨识度改善与音质修改之间的所选折衷。为了图示清楚，这些约束从图3省略。

根据本发明响应于回避增益控制信号S2对N维原始回避增益控制矢量C6进行缩放可以通过将矢量C6的每个原始增益控制值乘以(在元件115'中)信号S2的对应的一个缩放平均差异值以产生N维回避增益控制矢量S8来进行。根据本发明响应于回避增益控制信号S1对N维原始回避增益控制矢量C5进行缩放可以通过将矢量C5的每个原始增益控制值乘以(在元件114'中)信号S1的对应的一个缩放平均差异值以产生N维回避增益控制矢量S7来进行。

图3的***可以通过处理器(例如，图5的处理器501)以软件实现，该处理器已被编程以实现所描述的图3的***的操作。替选地，可以以硬件实现，该硬件具有如图3所示地连接的电路元件。

在图3的实施例的变型中，根据本发明响应于回避增益控制信号S1对原始回避增益控制矢量C5进行缩放(以产生用于掌控放大器116的回避增益控制矢量)可以按非线性方式进行。例如，这种非线性缩放可以产生回避增益控制矢量(代替矢量S7)，当信号S1的当前值在阈值以下时，该回避增益控制矢量导致放大器116没有进行回避(即，通过放大器116应用等于一的增益，因此通道103没有衰减)，当信号S1的当前值超过阈值时，该回避增益控制矢量导致该回避增益控制矢量(代替矢量S7)的当前值等于矢量C5的当前值(从而信号S1不改变C5的当前值)。替选地，可以进行矢量C5的其他线性或非线性缩放(响应于本发明的回避增益控制信号S1)以产生用于掌控放大器116的回避增益控制矢量。例如，矢量C5的这种缩放可以产生回避增益控制矢量(代替矢量S7)，当信号S1的当前值在阈值以下时，该回避增益控制矢量导致放大器116没有进行回避(即，放大器116应用等于一的增益)，当信号S1的当前值超过阈值时，该回避增益控制矢量导致该回避增益控制矢量(代替矢量S7)的当前值等于矢量C5的当前值乘以信号S1的当前值的乘积(或者由该乘积确定的某些其他值)。

类似地，在图3的实施例的变型中，根据本发明响应于回避增益控制信号S2对原始回避增益控制矢量C6进行缩放(以产生用于掌控放大器117的回避增益控制矢量)可以按非线性方式进行。例如，这种非线性缩放可以产生回避增益控制矢量(代替矢量S8)，当信号S2的当前值在阈值以下时，该回避增益控制矢量导致放大器117没有进行回避(即，通过放大器117应用等于一的增益，因此通道102没有衰减)，当信号S2的当前值超过阈值时，该回避增益控制矢量导致该回避增益控制矢量(代替矢量S8)的当前值等于矢量C6的当前值(从而信号S2不改变C6的当前值)。替选地，可以进行矢量C6的其他线性或非线性缩放(响应于本发明的回避增益控制信号S2)以产生用于掌控放大器117的回避增益控制矢量。例如，矢量C6的这种缩放可以产生回避增益控制矢量(代替矢量S8)，当信号S2的当前值在阈值以下时，该回避增益控制矢量导致放大器117没有进行回避(即，放大器117应用等于一的增益)，当信号S2的当前值超过阈值时，该回避增益控制矢量导致该回避增益控制矢量(代替矢量S8)的当前值等于矢量C6的当前值乘以信号S2的当前值的乘积(或者由该乘积确定的某些其他值)。

将从本公开对本领域普通技术人员而言变得显然的是，图1、1A、2、2A或3的***(以及它们中的任一个的变型)可被如何修改以对具有语音通道和任意数量的非语音通道的多通道音频输入信号进行滤波。将为每个非语音通道设置回避放大器(或者其软件等价物)，且将产生回避增益控制信号(例如通过对原始回避增益控制信号进行缩放)以用于掌控每个回避放大器(或者其软件等价物)。

如所述，图1、1A、2、2A或3的***(以及它们的许多变型中的每个)可操作来执行本发明的方法的实施例，本发明的方法的实施例用于对具有语音通道和至少一个非语音通道的多通道音频信号进行滤波以改善由该信号确定的语音的可辨识度。在第一类这样的实施例中，该方法包括步骤：

(a)确定指示由音频信号的语音通道确定的语音相关内容与由至少一个非语音通道确定的语音相关内容之间的相似程度的至少一个衰减控制值(例如，图1、2或3的信号S1或S2或者图1A或2A的信号V1、V2或V3)；以及

(b)响应于该至少一个衰减控制值，对音频信号的至少一个非语音通道进行衰减(例如，在图1、1A、2、2A或3的元件114和放大器116中，或者元件115和放大器117中)。

典型地，该衰减步骤包括响应于至少一个衰减控制值对用于非语音通道的原始衰减控制信号(例如，图1或1A的回避增益控制信号C1或C2，或者图2或2A的信号C3或C4)进行缩放。优选地，非语音通道被衰减从而改善由语音通道确定的语音的可辨识度，而没有不期望地对由非语音通道确定的语音增强内容进行衰减。在一些第一类实施例中，步骤(a)包括生成衰减控制信号(例如，图1、2或3的信号S1或S2，或者图1A或2A的信号V1、V2或V3)的步骤，衰减控制信号表示衰减控制值的序列，每个衰减控制值表示在不同时间(或在不同时间段中)由音频信号的语音通道确定的语音相关内容和由至少一个非语音通道确定的语音相关内容之间的相似程度，步骤(b)包括如下步骤：响应于衰减控制信号对回避增益控制信号(例如，图1或1A的信号C1或C2，或者图2或2A的信号C3或C4)进行缩放以产生缩放了的增益控制信号(例如，图1或1A的信号S3或S4，或者图2或2A的信号S5或S6)，并应用缩放了的增益控制信号来对非语音通道进行衰减(例如，将缩放了的增益控制信号断言到图1、1A、2或2A的回避电路116或117，以通过回避电路控制至少一个非语音通道的衰减)。例如，在一些这样的实施例中，步骤(a)包括比较指示由语音通道确定的语音相关内容的第一语音相关特征序列(例如，图1或2的信号Q)和指示由非语音通道确定的语音相关内容的第二语音相关特征序列(例如，图1或2的信号P)以生成衰减控制信号的步骤，由衰减控制信号表示的每个衰减控制值指示在不同时间(例如在不同时间段中)第一语音相关特征序列与第二语音相关特征序列之间的相似程度。在一些实施例中，每个衰减控制值是增益控制值。

在一些第一类实施例中，每个衰减控制值与非语音通道指示语音增强内容的可能性单调相关，语音增强内容增强由语音通道确定的语音内容的可辨识度(或者另一种感知品质)。在另一些第一类实施例中，每个衰减控制值与非语音通道的预期语音增强值单调相关(例如，非语音通道指示语音增强内容的或然性的度量，乘以由非语音通道确定的语音增强内容将对由多通道信号确定的语音内容提供的感知品质增强的度量)。例如，当步骤(a)包括比较(例如，在图1或图2的元件134或135中)指示由语音通道确定的语音相关内容的第一语音相关特征序列和指示由非语音通道确定的语音相关内容的第二语音相关特征序列的步骤时，第一语音相关特征序列可以是语音可能性值的序列，每个该语音可能性值表示在不同时间(例如，在不同时间段中)语音通道指示语音(而不是语音之外的音频内容)的可能性，第二语音相关特征序列也可以是语音可能性值的序列，每个该语音可能性值表示在不同时间(例如，在不同时间段中)非语音通道指示语音的可能性。

如所述，图1、1A、2、2A或3的***(以及它们的许多变型中的每个)也可操作来实施本发明的方法的第二类实施例，本发明的方法的第二类实施例用于对具有语音通道和至少一个非语音通道的多通道音频信号进行滤波以改善由该信号确定的语音的可辨识度。在第二类实施例中，该方法包括步骤：

(a)比较语音通道的特性和非语音通道的特性以产生至少一个衰减值(例如由图1的信号C1或C2确定的值，或者由图2的信号C3或C4确定的值，或者由图3的信号C5或C6确定的值)以用于控制非语音通道相对于语音通道的衰减；以及

(b)响应于至少一个语音增强可能性值(例如，图1、2或3的信号S1或S2)调节该至少一个衰减值以产生用于控制非语音通道相对于语音通道的衰减的至少一个调节衰减值(例如，由图1的信号S3或S4确定的值，或者由图2的信号S5或S6确定的值，或者由图3的信号S7或S8确定的值)。典型地，调节步骤是或者包括响应于一个所述语音增强可能性值缩放(例如，在图1、2或3的元件114或115中)每个所述衰减值以产生一个所述调节衰减值。典型地，每个语音增强可能性值指示(例如，单调关联到)非语音通道指示语音增强内容(增强由语音通道确定的语音内容的可辨识度或其他感知品质的内容)的可能性。在一些实施例中，语音增强可能性值指示非语音通道的预期语音增强值(例如，非语音通道指示语音增强内容的或然率的度量乘以由非语音通道确定的语音增强内容对多通道音频信号确定的语音内容提供的感知品质增强的度量)。在一些第二类实施例中，语音增强可能性值是由包括比较指示由语音通道确定的语音相关内容的第一语音相关特征序列与指示由非语音通道确定的语音相关内容的第二语音相关特征序列的步骤的方法确定的比较值(例如，差异值)的序列，每个比较值是第一语音相关特征序列和第二语音相关特征序列之间在不同时间(例如，在不同时间段中)的相似程度。在典型的第二类实施例中，该方法还包括响应于至少一个调节衰减值对非语音通道进行衰减(例如在图1、2或3的放大器116或117中)进行衰减的步骤。步骤(b)可以包括响应于该至少一个语音增强可能性值(例如由图1的信号S1或S2确定的对应值)缩放该至少一个衰减值(例如，由图1的信号C1或C2确定的每个衰减值)，或者由回避增益控制信号或其他原始衰减控制信号确定的另一衰减值。

在图1的***运行来执行第二类实施例时，由信号C1或C2确定的每个衰减值是指示限制非语音通道中的信号功率对语音通道中的信号功率的比率不超过预定阈值所需的非语音通道的衰减量的第一因子，其被与语音通道指示语音的可能性单调相关的第二因子缩放。典型地，这些实施例中的调节步骤是(或者包括)通过一个语音增强可能性值(由信号S1或S2确定)缩放每个衰减值C1或C2以产生一个调节了的衰减值(由信号S3或S4确定)，其中语音增强可能性值是单调关联到以下之一的因子：非语音通道指示语音增强内容(增强由多通道信号确定的语音内容的可辨识度或其它感知品质的内容)的可能性；以及非语音通道的预期语音增强值(例如，非语音通道指示语音增强内容的或然率的度量乘以非语音通道中的语音增强内容将对由多通道信号确定的语音内容提供的感知品质增强的度量)。

在图2的***操作来执行第二类实施例时，由信号C3或C4确定的每个衰减值是指示足以使存在由非语音通道确定的内容时由语音通道确定的语音的预测可辨识度超过预定阈值的非语音通道衰减量(例如，最小量)的第一因子，其被与语音通道指示语音的可能性单调相关的第二因子缩放。优选地，存在由非语音通道确定的内容时由语音通道确定的语音的预测可辨识度根据基于心理声学的可辨识度预测模型来确定。典型地，这些实施例中的调节步骤是(或包括)通过一个所述语音增强可能性值(由信号S1或S2确定)缩放每个所述衰减值以产生一个调节了的衰减值(由信号S5或S6确定)，其中该语音增强可能性值是单调关联到以下之一的因子：非语音通道指示语音增强内容的可能性；以及非语音通道的预期语音增强值。

在图3的***运行来执行第二类实施例时，由信号C1或C2确定的每个衰减值由以下步骤决定，所述步骤包括：确定(在元件301、302或303中)语音通道101以及非语音通道102和103中的每个的功率谱，该功率谱指示作为频率的函数的功率；以及执行衰减值的频域确定，由此确定将要应用到非语音通道的频率成分的作为频率的函数的衰减。

在一类实施例中，本发明是一种用于增强由多通道音频输入信号确定的语音的方法和***。在一些这样的实施例中，本发明的***包括：分析模块或子***(例如图1的元件130-135、104-109、114和115，或者图2的元件130-135、201-204、114和115)，配置为分析输入多通道信号以产生衰减控制值；以及衰减子***(例如图1或图2的放大器116和117)。该衰减子***包括回避电路(由至少一些衰减控制值来掌控)，耦接且配置为应用衰减(回避)到输入信号的每个非语音通道以产生滤波了的音频输出信号。在回避电路应用到非语音通道的衰减由控制值的当前值确定的意义上来说，回避电路由控制值掌控。

在一些实施例中，语音通道(例如中央通道)功率对非语音通道(例如侧通道和/或后通道)功率的比值用于确定应该应用多少回避(衰减)到每个非语音通道。例如，在图1的实施例中，假定非语音通道包括增强由语音通道确定的语音内容的语音增强内容的可能性(在分析模块中确定)没有改变，则由回避放大器116和117中的每个应用的增益响应于在分析模块中确定的增益控制值(从元件114或元件115输出)的降低而减小，增益控制值的降低指示语音通道101的功率相对于非语音通道(左通道102和右通道103)的功率的减小(在限制之内)(即，当语音通道功率相对于非语音通道的功率降低(在限制之内)时，相对于语音通道，回避放大器更多地衰减非语音通道)。

在一些替选实施例中，图1或图2的分析模块的修改变型独立地处理输入信号的每个通道的一个或更多子频带中的每个。具体而言，每个通道中的信号可经过带通滤波器组，产生三组n子带：{L₁、L₂、...、L_n}、{C₁、C₂、...、C_n}和{R₁、R₂、...、R_n}。匹配的子带被传送到图1(或图2)的分析模块的n个实例，滤波了的子信号(用于非语音通道的回避放大器的输出，以及未滤波的语音通道子信号)被累积电路重新组合以产生滤波多通道音频输出信号。为了对每个子带执行由图1的元件109所执行的操作，可以为每个子带选择单独阈值θ_n(对应于元件109的阈值θ)。好的选择是其中θn与对应的频率区域中携载的语音提示的平均数成比例的集合；即，在频谱极端的带比与主要语音频率对应的带分配更低的阈值。本发明的这种实现可以提供计算复杂度和性能之间非常好的折衷。

图4是***420(可配置音频DSP)的框图，***420已配置成执行本发明的方法的实施例。***420包括可编程DSP电路422(***420的主动语音增强模块)，其耦接来接收多通道音频输入信号。例如，信号的非语音通道Lin和Rin可对应于参照图1、1A、2、2A和3描述的输入信号的通道102和103，该信号还可包括其他非语音通道(例如左后通道和右后通道)，信号的语音通道Cin可以对应于参照图1、1A、2、2A和3描述的输入信号的通道101。响应于来自控制接口421的控制数据，电路422配置成执行本发明的方法的实施例，以响应于音频输入信号产生语音增强多通道输出音频信号。为了对***420进行编程，适当的软件从外部处理器断言到控制接口421，接口421响应地将适当的控制数据断言到电路422以配置电路422来执行本发明的方法。

运行时，已配置成执行根据本发明的语音增强的音频DSP(例如，图4的***420)耦接成接收N通道音频输入信号，除了语音增强之外(包括语音增强)，该DSP典型地还对输入音频(或其处理变体)执行多种操作。例如，图4的***可以实现为在处理子***423中执行其他操作(对电路422的输出)。根据本发明的各种实施例，音频DSP可在被配置(例如编程)之后操作来执行本发明的方法的实施例，以响应于输入音频信号通过对输入音频信号执行该方法来产生输出音频信号。

在一些实施例中，本发明的***是或者包括通用处理器，该通用处理器耦接成接收或产生指示多通道音频信号的输入数据。该处理器用软件(或固件)编程和/或以其他方式配置(例如，响应于控制数据)以对输入数据执行多种操作中的任意操作，包括本发明的方法的实施例。图5的计算机***是这样的***的一个例子。图5的***包括通用处理器501，其被编程为对输入数据执行多种操作中的任意操作，包括本发明的方法的实施例。

图5的计算机***还包括耦接到处理器501的输入设备503(例如，鼠标和/或键盘)、耦接到处理器501的存储介质504、以及耦接到处理器501的显示设备505。处理器501被编程为响应于通过输入设备503的用户操作输入的指令和数据实施本发明的方法。计算机可读存储介质504(例如，光盘或其他有形物体)具有存储于其上的计算机代码，其适于对处理器501进行编程以执行本发明的方法的实施例。运行时，处理器501执行计算机代码以根据本发明处理指示多通道音频输入信号的数据，从而产生指示多通道音频输出信号的输出数据。

上述图1、1A、2、2A或3的***可以实现在通用处理器501中，输入信号通道101、102和103是指示中央(语音)以及左和右(非语音)音频输入通道(例如，环绕声音信号的)的数据，输出信号通道118和119是指示语音强化的左和右音频输出通道(例如，语音增强的环绕声音信号的)的输出数据。常规数模转换器(DAC)可对输出数据进行操作以产生输出音频通道信号的模拟变体以供物理扬声器再现。

本发明的某些方面是一种计算机***，其编程来执行本发明的方法的任意实施例，还是一种计算机可读介质，其存储计算机可读代码以用于实施本发明的方法的任意实施例。

虽然本发明的特定实施例以及本发明的应用已经描述于此，但是本领域普通技术人员将理解，所述实施例和应用的许多变型是可行的，而不偏离这里描述和主张的本发明的范围。应理解，虽然已经显示和描述了本发明的某些形式，但是本发明不限于所描述和显示的特定实施例和所述特定方法。

Claims

1.一种对具有语音通道和至少一个非语音通道的多通道音频信号进行滤波以改善由该信号确定的语音的可辨识度的方法，所述方法包括如下步骤：

(a)比较该语音通道的特性和该非语音通道的对应的特性以产生用于控制该非语音通道的衰减的至少一个衰减值；

(b)比较指示由该语音通道确定的语音相关内容的第一语音相关特征序列和指示由该非语音通道确定的语音相关内容的第二语音相关特征序列来确定比较值的序列作为该非语音通道的语音增强可能性值，其中每个该比较值是该第一语音相关特征序列和该第二语音相关特征序列之间在不同时间的相似程度；以及

(c)响应于所述语音增强可能性值调节该至少一个衰减值以产生用于控制该非语音通道相对于该语音通道的衰减的至少一个调节了的衰减值。

2.如权利要求1所述的方法，其中，步骤(c)包括响应于一个所述语音增强可能性值缩放每个所述衰减值以产生一个所述调节了的衰减值。

3.如权利要求1所述的方法，其中，每个所述语音增强可能性值与该非语音通道指示增强由该语音通道确定的语音内容的感知品质的语音增强内容的可能性单调相关。

4.如权利要求1所述的方法，还包括如下步骤：

响应于该至少一个调节了的衰减值，对该非语音通道进行衰减。

5.如权利要求1所述的方法，其中，在步骤(a)中产生的每个所述衰减值是：指示将该非语音通道中的信号功率对该语音通道中的信号功率的比值限制为不超过预定阈值所需的该非语音通道的衰减量的第一因子，其被与该语音通道指示语音的可能性单调相关的第二因子缩放。

6.如权利要求1所述的方法，其中，在步骤(a)中产生的每个所述衰减值是指示足以使在存在由该非语音通道确定的内容时由该语音通道确定的语音的预测可辨识度超过预定阈值的该非语音通道的衰减量的第一因子，其被与该语音通道指示语音的可能性单调相关的第二因子缩放。

7.如权利要求1所述的方法，其中，在步骤(a)中每个所述衰减值的产生包括如下步骤：

确定该语音通道的指示作为频率函数的功率的功率谱和该非语音通道的指示作为频率函数的功率的第二功率谱；以及

响应于该功率谱和该第二功率谱，执行该衰减值的频域确定。

8.一种用于对具有语音通道和至少一个非语音通道的多通道音频信号进行滤波以改善由该信号确定的语音的可辨识度的设备，包括：

用于比较该语音通道的第一特性和该非语音通道的对应的第一特性以产生用于控制该非语音通道的衰减的至少一个衰减值的装置；

用于通过比较指示由该语音通道确定的语音相关内容的第一语音相关特征序列和指示由该非语音通道确定的语音相关内容的第二语音相关特征序列来确定比较值的序列以作为该非语音通道的语音增强可能性值的装置，其中，每个该比较值是该第一语音相关特征序列和该第二语音相关特征序列之间在不同时间的相似程度；以及

用于响应于所述语音增强可能性值调节该至少一个衰减值，以产生用于控制该非语音通道相对于该语音通道的衰减的至少一个调节了的衰减值的装置。

9.如权利要求8所述的设备，还包括用于响应于一个所述语音增强可能性值缩放每个所述衰减值以产生一个所述调节了的衰减值的装置。

10.如权利要求8所述的设备，其中，每个所述语音增强可能性值与该非语音通道指示增强由该语音通道确定的语音内容的感知品质的语音增强内容的可能性单调相关。

11.如权利要求8所述的设备，其中，每个所述衰减值是指示将该非语音通道中的信号功率对该语音通道中的信号功率的比值限制为不超过预定阈值所需的该非语音通道的衰减量的第一因子，其被与该语音通道指示语音的可能性单调相关的第二因子缩放。

12.如权利要求8所述的设备，其中，每个所述衰减值是指示足以使在存在由该非语音通道确定的内容时由该语音通道确定的语音的预测可辨识度超过预定阈值的该非语音通道的衰减量的第一因子，其被与该语音通道指示语音的可能性单调相关的第二因子缩放。

13.如权利要求8所述的设备，还包括用于确定该语音通道的指示作为频率函数的功率的功率谱和该非语音通道的指示作为频率函数的功率的第二功率谱的装置，以及用于响应于该功率谱和该第二功率谱在频域中确定每个所述衰减值的装置。