CN103220595B

CN103220595B - 音频处理装置和音频处理方法

Info

Publication number: CN103220595B
Application number: CN201210587249.8A
Authority: CN
Inventors: 大谷猛; 外川太郎; 铃木政直
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2012-01-23
Filing date: 2012-12-28
Publication date: 2016-06-29
Anticipated expiration: 2032-12-28
Also published as: US9420370B2; JP2013150250A; EP2624254A1; US20150350781A1; CN103220595A; JP5923994B2; US20130188799A1

Abstract

提供一种音频处理装置和音频处理方法。该装置包括：混响特性评估单元，基于第一音频信号和第二音频信号评估每一频率处的混响特性，通过使用音频输出单元输出第一音频信号并且通过使用音频输入单元收集所输出的第一音频信号而获得第二音频信号；增益计算单元，确定第一音频信号的每一频率分量的由增益表示的衰减比；校正单元，根据对每个频率确定的衰减比来衰减每一频率处的第一音频信号，其中增益计算单元计算指示混响特性大小的混响量与由乘以衰减比引起的第一音频信号的变形量的比率，并且确定衰减比，使得比率越大则衰减比变得越大，变形量对应于第一音频信号和通过根据相应衰减比衰减第一音频信号的每一频率分量所获得的信号之间的差。

Description

音频处理装置和音频处理方法

技术领域

这里讨论的实施例涉及音频处理装置和音频处理方法，其抑制由从扬声器输出的音频信号引起的混响。

背景技术

从布置在由容易反射声音的物体围绕的空间中的扬声器产生的声音不仅从扬声器直接到达听者，而且在物体至少一次地反射声音之后从扬声器间接地到达听者。间接到达听者的声音称为混响声音。混响声音到达听者的定时晚于声音从扬声器直接到达听者的定时。相应地，当混响声音出现时，直接到达听者的声音与混响声音交叠，从而使得听者难以听到被交叠的声音。近来，已经可以得到具有防水功能和免提功能的手机。当在诸如容易出现混响的浴室之类的空间中使用这种手机时，混响声音可能使得听者难以听到从手机产生的声音。出于该原因，已经研究抑制从扬声器产生的混响声音(例如，参照日本专利公开2009-5274号公报)。

例如，在日本专利公开2009-5274号公报中公开的声学装置使用梳状滤波器对从声学信号转换的数字信号进行滤波，使得衰减或消除来自特定频带的频率分量。

然而，混响特性取决于扬声器周围的环境而变化。相应地，梳状滤波器给出衰减效果的频带有时与混响特性相对大的频带不匹配。当出现这种情况时，即使梳状滤波器对将从扬声器输出的音频信号进行滤波，也无法高效地抑制混响。结果，无法提高从扬声器输出的声音的声音质量，并且相反，可能使声音质量劣化。

发明内容

因此，本申请的目的在于提供一种音频处理装置，其不管扬声器周围的环境如何，都可以抑制由来自扬声器的声音引起的混响。

根据一个实施例，提供一种音频处理装置。该音频处理装置包括：混响特性评估单元，基于第一音频信号和第二音频信号评估在每一频率处的混响特性，其中通过使用音频输出单元输出第一音频信号并且通过使用音频输入单元收集所输出的第一音频信号而获得第二音频信号；增益计算单元，确定第一音频信号的每一频率分量的由增益表示的衰减比；以及校正单元，根据针对每一频率确定的衰减比衰减在每一频率处的第一音频信号，其中，该增益计算单元计算指示混响特性的大小的混响量与由乘以衰减比引起的第一音频信号的变形量的比率，并且确定衰减比，使得比率越大，则衰减比变得越大，该变形量对应于第一音频信号和通过根据相应的衰减比衰减第一音频信号的每一频率分量所获得的信号之间的差。

根据一个实施例，提供一种音频处理方法。该音频处理方法包括：基于第一音频信号和第二音频信号评估在每一频率处的混响特性，其中通过使用音频输出单元输出第一音频信号并且通过使用音频输入单元收集所输出的第一音频信号而获得第二音频信号；确定第一音频信号的每一频率分量的由增益表示的衰减比；以及根据衰减比衰减在每一频率处的第一音频信号，其中，确定衰减比的步骤计算指示混响特性的大小的混响量与由乘以衰减比引起的第一音频信号的变形量的比率，并且确定衰减比，使得比率越大，则衰减比变得越大，该变形量对应于第一音频信号和通过根据相应的衰减比衰减第一音频信号的每一频率分量所获得的信号之间的差。

附图说明

图1示意性地图示设置有根据第一实施例的音频处理装置的手机的配置。

图2A是表示与从扬声器输出的再现音频信号对应的直接声音和混响声音的示意性图示。

图2B表示基于由麦克风校正的声音评估的混响特性的频谱的一个示例。

图2C表示用于对将从扬声器再现的再现音频信号进行校正的增益的频谱的一个示例。

图2D表示原始再现音频信号的频率特性和校正后的再现音频信号的频率特性的一个示例。

图3示意性地图示根据第一实施例的音频处理装置的配置。

图4是根据第一实施例的音频处理的操作流程图。

图5示意性地图示根据第二实施例的音频处理装置的配置。

图6示意性地图示增益与再现音频信号的质量的劣化之间的关系。

图7是根据第二实施例的音频处理的操作流程图。

图8图示通过计算机程序的操作而操作为音频处理装置的计算机的配置，该计算机程序实现根据每个实施例或其每个变型示例的音频处理装置的每个单元的每个功能。

具体实施方式

在下面将参照附图描述根据各种实施例的音频处理装置。

基于作为从扬声器输出的再现声音的声音以及由麦克风收集的声音，音频处理装置获得设置有音频处理装置的音频再现设备周围的混响特性。音频处理装置衰减再现音频信号的频率分量，使得在该频率处的混响越大，在该频率处的衰减量变得越大。然后声学处理装置从扬声器输出衰减后的再现音频信号。由此抑制混响。

图1示意性地图示设置有根据第一实施例的音频处理装置的手机的配置。如图1所示，手机1是音频处理装置的一个示例，并且包括控制单元2、通信单元3、麦克风4、模数转换器5、音频处理装置6、数模转换器7、扬声器8和存储单元9。

其中，控制单元2、通信单元3和音频处理装置6被分别配置为单独电路。可选择地，分别对应于这些元件的电路构成设置有手机1的集成电路。可选择地，这些元件中的每一个可以为通过在手机1的处理器上执行的计算机程序实现的功能模块。

控制单元2包括至少一个处理器、非易失性存储器、易失性存储器和***电路。控制单元2执行呼叫控制处理，诸如当通过经由操作单元(未示出)的操作发起电话呼叫时，根据手机1遵循的通信标准而在手机1与基站(未示出)之间进行无线连接和断开，该操作单元诸如手机1的键盘。根据呼叫控制处理的结果，控制单元2指令通信单元3开始或结束音频电话对话或数据通信。控制单元2提取在经由通信单元3从基站接收到的下行链路信号中包含的编码音频信号，并且对音频信号进行解码。当使用免提功能时，即，当用户远离扬声器8时，控制单元2向音频处理装置6输出解码后的音频信号作为再现音频信号。当不使用免提功能时，控制单元2可以将解码后的音频信号直接输出到数模转换器7。

控制单元2对经由麦克风4输入的音频信号进行编码，并且产生包含经编码的输入音频信号的上行链路信号。控制单元2将上行链路信号传送到通信单元3。作为用于音频信号的编码方法，例如可以使用通过第三代合作伙伴计划(3GPP)标准化的自适应多速率窄带(AMR-NB)方法或自适应多速率宽带(AMR-WB)方法。

可选择地，根据用户经由操作单元的操作，控制单元2可以读出存储在存储单元9中的经编码的音频信号或视频信号，并且可以对该音频信号或视频信号进行解码。控制单元2可以向音频处理装置6输出解码的音频信号或包含在视频信号中的解码的音频信号作为再现音频信号。当出现这种情况时，作为用于音频信号的编码方法，例如可以使用通过运动图像专家组(MPEG)标准化的MPEG-4先进音频编码(MPEG-4AAC)或高效AAC(HE-AAC)。

通信单元3执行与基站的无线通信。通信单元3接收无线信号，并且将无线信号转换成具有基带频率的下行链路信号。通信单元3执行接收处理，诸如对下行链路信号的分离、解调和误差校正解码，并且然后将下行链路信号传送到控制单元2。通信单元3执行发送处理，诸如对从控制单元2接收到的上行链路信号的误差校正编码、调制和多路复用，并且然后将上行链路信号叠加到具有无线频率的载波上，以将上行链路信号发送到基站。

麦克风4是音频输入单元的一个示例，并且收集手机1周围的声音，以产生取决于声音大小的模拟音频信号。由麦克风收集的声音不仅包括从声音来源直接到达麦克风4的直接声音，而且有时包括在由周围壁等反射之后从声音来源间接地到达麦克风4的混响声音。麦克风4将模拟音频信号输出到模数转换器5。例如，当用户使用免提功能来在电话上谈话时，麦克风4也收集从扬声器8输出的再现声音以及从再现声音产生的混响声音。

模数转换器5以预定采样间隔(pitch)来采样从麦克风4接收到的模拟音频信号，以产生数字化的输入音频信号。模数转换器5可以包括放大器，并且可以将模拟音频信号放大，以便然后将放大后的模拟音频信号数字化。

模数转换器5将输入音频信号输出到音频处理装置6和控制单元2。

音频处理装置6分析输入音频信号，以评估手机1周围的混响特性。根据评估的混响特性，音频处理装置6衰减再现音频信号的频率分量，使得在该频率处的混响越大，在该频率分量处的衰减量变得越大。由此，校正再现音频信号。音频处理装置6经由数模转换器7向扬声器8输出校正的再现音频信号。音频处理装置的细节将在稍后描述。

数模转换器7对从音频处理装置6接收到的再现音频信号执行数模转换，以产生模拟再现音频信号。数模转换器7包括放大器，并且使用放大器放大模拟再现音频信号。数模转换器7向扬声器8输出模拟再现音频信号。

扬声器8是音频输出单元的一个示例，并且再现从数模转换器7接收到的再现音频信号。

存储单元9包括例如非易失性半导体存储器，以存储在手机1中使用的各种数据。各种数据的示例为个人数据、用户的邮件的历史信息和电话号码，或者音频信号或视频信号。

接下来，将描述音频处理装置6的细节。

图2A是表示与从扬声器8输出的再现音频信号对应的直接声音和混响声音的示意性图示。在图2A中，箭头201表示直接到达用户210的直接声音。箭头202表示已经从扬声器8输出的混响声音，该混响声音已经由存在于扬声器8周围的壁表面211反射至少一次并且已经到达用户210。混响声音202的路径长度比直接声音201的路径长度长得多。相应地，直接声音201和混响声音202在不同的定时到达用户210，所以混响声音可能使得用户210难以听到该声音。

图2B表示基于通过麦克风收集的声音来评估混响特性的频谱的一个示例。图2C表示指示将从扬声器再现的再现音频信号的衰减比的增益的频谱的一个示例。在图2B中，水平轴指示频率，垂直轴指示混响的大小。曲线图220表示混响特性的频谱。在图2C中，水平轴指示频率，垂直轴指示增益。曲线图230表示增益的频谱。假设再现音频信号的衰减比越大，增益就越小。如图2B和图2C所示，音频处理装置6确定在每个频率处的增益，使得在该频率处的评估混响越大，在该频率处的增益变得越小，从而更多地减少再现音频信号在较大混响频率处的分量。例如，当混响在频率f0处取最大值时，音频处理装置6在频率f0处将增益减少到最小值。

图2D表示通过原始再现音频信号产生的混响声音的频谱以及通过校正的再现音频信号产生的混响的频谱的一个示例。在图2D中，水平轴指示频率，垂直轴指示混响的大小。曲线图241表示通过原始再现音频信号产生的混响的频谱。曲线图242表示通过已经由曲线图230的增益校正的再现音频信号产生的混响的频谱。在该频率处的混响越大，再现音频信号在该频率处的分量在从扬声器8输出再现音频信号之前被预先衰减得越多。由此，如图2D所示，可以抑制由来自扬声器8的再现声音引起的混响。

图3示意性地图示根据第一实施例的音频处理装置6的配置。音频处理装置6包括混响特性评估单元11、增益计算单元12和校正单元13。

在音频处理装置6中设置的各单元可以在音频处理装置6中分别实现为单独电路，或者可以为能够执行各个单元的功能的一个集成电路。

基于再现音频信号，并且基于已经由扬声器8根据再现音频信号再现的、且已经由麦克风4收集的声音的输入音频信号，混响特性评估单元11在包括从扬声器到麦克风4的路径的声音路径中获得脉冲响应。基于该脉冲响应，混响特性评估单元11针对从扬声器8输出的声音获得手机1周围的混响特性的频谱。

根据本实施例，混响特性评估单元11使用有限脉冲响应类型的自适应滤波器来计算声音路径的脉冲响应。当表示脉冲响应的自适应滤波器的系数通过最小二乘法更新时，根据下式计算脉冲响应。

\begin{matrix} w (t + 1) = w (t) + 2 \cdot μ \cdot e (t) \cdot y (t) \\ e (t) = r (t) - w (t) * y (t) \end{matrix} - - - (1)

在该式中，y(t)表示再现音频信号，r(t)表示输入音频信号。此外，e(t)表示误差信号。系数μ是用于确定脉冲响应w(t)的更新速度的收敛系数，并且例如设定为0.01至0.1。运算符“*”表示卷积。

混响特性评估单元11将脉冲响应w(t)变换成频域信号，以获得混响特性的频谱W(f)。频谱W(f)表示在每个频率处的混响特性。混响特性评估单元11可以使用快速傅里叶变换(FFT)或改进型离散余弦变换(MDCT)作为用于将w(t)变换成频域信号的时间-频率变换。

在从扬声器8输出的再现声音直接到达麦克风4之后，由再现声音引起的混响声音到达麦克风4。相应地，w1(t)是在预定时间t1时和在预定时间t1之后脉冲响应w(t)中包括的时间分量，该w1(t)可以通过混响特性评估单元11变换成频域信号。以此方式，混响特性评估单元11可以计算混响特性的频谱。时间t1设定为由从扬声器8输出的再现声音引起的混响声音到达麦克风4所经的时间，并且例如设定为50毫秒。

每次混响特性评估单元11更新脉冲响应w(t)，混响特性评估单元11也更新混响特性的频谱W(f)。混响特性评估单元11向增益计算单元12输出混响特性的频谱W(f)。

增益计算单元12确定在每个频率处的再现音频信号的衰减比，使得在该频率处的混响特性越大，在该频率处的衰减比变得越大。根据本实施例，针对每个频率的再现音频信号的衰减比由增益表示，再现音频信号的频谱乘以该增益。相应地，衰减比越大，增益变得越小。相应地，基于混响特性的频谱W(f)，增益计算单元12确定在每个频率处的增益，使得在该频率处的混响越大，在该频率处的增益变得越小。

例如，增益计算单元12根据下式计算增益。

G (f) = \frac{1}{{| W (f) |}^{2}} - - - (2)

在该式中，f表示频率，G(f)表示针对每个频率确定的增益。此外，|W(f)|²表示混响的功率谱。

增益计算单元12例如可以通过下式来校正增益G(f)，以适用于人的听觉特性。

G′(f)＝G(f)·A(f)(3)

在该式中，A(f)表示人的听觉特性的A特性，G’(f)表示基于A特性校正的增益。

增益计算单元12向校正单元13输出校正的增益G’(f)。

在将再现音频信号输出到扬声器8之前，校正单元13基于针对每个频率确定的衰减比来衰减再现音频信号。根据本实施例，在该频率处的混响越大，校正单元13基于从增益计算单元12接收到的增益G’(t)将再现音频信号在较大混响频率处的分量衰减得越多。

出于此目的，针对具有预定长度的每一帧，校正单元13将从控制单元2接收到的再现音频信号变换成频域中的再现声音谱。帧的长度例如为10毫秒至100毫秒。校正单元13可以使用例如FFT或MDCT来计算再现声音谱。

接下来，如下式所示，校正单元13将再现声音频谱乘以增益G’(t)以校正再现声音谱。

Y(n，f)＝G′(f)·X(n，f)(4)

在该式中，X(n,f)表示针对编号为n的帧的再现声音谱，Y(n,f)表示校正的再现声音谱。如从式(4)可见，增益G’(f)越小，校正的再现声音谱Y(n,f)变得越小。混响的功率谱越大，增益G’(f)变得越小。于是，在该频率处的混响越大，在该频率处的再现音频信号的分量衰减得越多。

校正单元13通过使用用于计算再现声音谱的时间-频率变换的逆变换来将校正的再现声音谱Y(n,f)转换成时域信号，以获得校正的再现音频信号。校正单元13经由手机1的数模转换器7向扬声器8输出校正的再现声音信号。

图4是通过音频处理单元6执行的音频处理的操作流程图。基于再现音频信号，并且基于已经由扬声器8从再现音频信号再现且已经通过麦克风4收集的声音的输入音频信号，混响特性评估单元11通过使用自适应滤波器获得从扬声器8到麦克风4的声音路径的脉冲响应w(t)(步骤S101)。混响特性评估单元11将脉冲响应w(t)变换成频域信号，以计算混响特性的频谱W(f)(步骤S102)。混响特性评估单元11向增益计算单元12输出混响特性的频谱W(f)。

增益计算单元12计算混响的功率谱|W(f)|²的倒数作为增益G(f)(步骤S103)。增益计算单元12根据人的听觉特性校正增益G(f)以计算校正的增益G’(f)(步骤S104)。增益计算单元12向校正单元13输出校正的增益G’(f)。

校正单元13将再现音频信号变换成频域信号，以获得再现声音谱。校正单元13将再现声音谱乘以增益G’(t)，使得在该频率处的混响越大，在该频率处的再现音频信号的分量可以衰减得越多(步骤S105)。校正单元13将校正的再现声音谱变换成时域信号，以计算校正的再现音频信号(步骤S106)。音频处理装置6经由数模转换器7向扬声器8输出再现音频信号，以结束音频信号处理。

如上所述，基于已经从扬声器输出的声音和已经通过麦克风收集的声音，音频处理装置评估扬声器周围的混响特性。评估的混响特性越大，音频处理装置使该频率处的再现音频信号的分量衰减得越多。相应地，不管扬声器周围的环境如何，该音频处理装置都可以适当地抑制从由扬声器输出的再现声音产生的混响声音。

接下来，将描述根据第二实施例的音频处理装置。根据第二实施例的音频处理装置根据噪声的功率与音频处理装置周围的混响声音的功率之间的比较结果，并且根据混响量和变形量之间的比较结果来校正增益。以下在根据第二实施例的音频处理装置设置在图1所示的手机1中的假设下进行描述。

图5示意性地图示根据第二实施例的音频处理装置61的配置。音频处理装置61包括混响特性评估单元11、增益计算单元12、校正单元13和噪声谱评估单元14。

以与第一实施例相同的方式，基于再现音频信号和已经由扬声器8从再现音频信号再现且已经通过麦克风4收集的声音的输入音频信号，混响特性评估单元11获得手机1周围在每个频率处的混响特性。与第一实施例不同，根据本实施例，混响特性评估单元11将再现音频信号和输入音频信号变换成频域信号，并且然后计算表示混响特性的传输函数。根据传输函数，混响特性评估单元11获得由扬声器8再现的声音引起的混响声音谱。

针对具有预定长度的每个帧，混响特性评估单元11使用例如FFT或MDCT来将再现音频信号和输入音频信号分别转换成频域信号。帧的长度设定为例如10毫秒至100毫秒。混响特性评估单元11使用有限脉冲响应类型的自适应滤波器来计算传输函数。当表示传输函数的自适应滤波器的***通过最小二乘法更新时，通过下式计算传输函数。

\begin{matrix} W (n + 1, f) = W (n, f) + 2 \cdot μ \cdot Σ_{d = D 1}^{D 2} (E (d, f) \cdot Y (n - d, f)) \\ E (n, f) = R (n, f) - Σ_{d = D 1}^{D 2} (W (d, f) \cdot Y (n - d, f)) \end{matrix} - - - (5)

在该式中，Y(n,f)表示帧n中的再现音频信号的频谱，R(n,f)表示帧n中的输入音频信号的频谱。此外，W(n,f)表示针对帧n计算的传输函数。此外，E(n,f)表示帧n中的误差信号的频谱。系数μ表示用于确定传输函数的更新速度的收敛系数，并且设定为例如0.01至0.1。此外，D1和D2分别表示在卷积计算中使用的时段中的第一帧和最后一帧。

混响特性评估单元11通过下式对再现音频信号的频谱与混响特性的传输函数执行加权相加，以评估表示混响声音的频谱的混响谱。

R v (n, f) = Σ_{m = 0}^{M - 1} W (m, f) \cdot Y (n - m, f) - - - (6)

在该式中，Rv(n，f)表示帧n中的混响谱。混响特性评估单元11向增益计算单元12输出针对每帧的混响谱Rv(n，f)和混响的传输函数W(n，f)。

噪声谱评估单元14评估设置有音频处理装置61的手机周围的噪声谱。根据本实施例，噪声谱评估单元14基于输入音频信号评估静态噪声模型，以评估在输入音频信号中包含的噪声的谱。

一般而言，从麦克风4到噪声源的长度大于从麦克风4到扬声器8的长度。相应地，噪声的功率小于从扬声器8输出的再现声音的功率。鉴于此，为了评估噪声谱，噪声谱评估单元14针对帧计算每个频带中的功率的平均值，该帧具有由音频处理装置61输入的输入音频信号的小功率谱。

具体而言，基于通过将每个帧中的输入音频信号变换成频域信号获得的输入音频信号的频谱，噪声谱评估单元14通过下式计算功率谱的平均值p。

p = \frac{1}{F} \underset{f}{Σ} (R {(n, f)}^{2}) - - - (7)

在该式中，F表示频带的总数。此外，R(n,f)表示帧n中的输入音频信号的频谱。

接下来，噪声谱评估单元14将最近帧的功率谱的平均值p与阈值Thr进行比较，该阈值Thr对应于噪声分量的功率的上限。当平均值p小于阈值Thr时，噪声谱评估单元14通过下式针对每个频带在时间方向上对功率谱求平均，以针对最近帧计算评估的噪声谱。

N(n+1，f)＝α·R(n，f)+(1-α)·N(n，f)(8)

在该式中，N(n+1,f)和N(n,f)分别表示在帧(n+1)和n中的评估的噪声谱。当计算式(8)时，例如从设置在噪声谱评估单元14中的缓冲器读取N(n,f)。系数α为遗忘因子，并且设定为例如在0.01至0.1的范围内的任意值。与此同时，当平均值p大于阈值Thr时，因为评估到最近帧包含除了噪声以外的分量，所以噪声谱评估单元14不更新评估的噪声谱。换言之，使得N(n+1,f)等于N(n,f)。

代替计算功率谱的平均值p，噪声谱评估单元14可以获得所有频带的功率谱的最大值，并且将该最大值与阈值Thr进行比较。

特别是，当包含在输入音频信号中的噪声为白噪声时，在帧的功率谱之间不存在相互关联。因此，仅当在所有频带的功率谱上最近帧和紧挨最近帧之前的帧之间的相关值(correlationvalue)小于预定阈值时，噪声谱评估单元14可以更新评估的噪声功率谱。预定阈值可以为例如0.1。

噪声谱评估单元14向增益计算单元12输出针对每帧评估的噪声谱，并且将评估的噪声谱存储在噪声谱评估单元14中设置的缓冲器中。

以与第一实施例相同的方式，增益计算单元12针对每个频率计算增益，使得在该频率处的混响越大，再现音频信号在该频率处的分量衰减得越多。根据本实施例，增益计算单元12通过下式计算增益，使得混响特性的谱越大，在该频率处的增益变得越小。

G (n, f) = 1 / {\frac{1}{M} Σ_{m = 0}^{M - 1} W (n - m, f)} - - - (9)

在该式中，G(n,f)表示帧n中的针对频率f的增益。此外，M表示在计算混响特性的频谱的平均值时使用的帧的数目，并且例如设定为10到20。

在该式中，增益越小，再现声音的变形量变得越大，该变形量是由再现音频信号乘以增益产生的。出于这个原因，再现音频信号的声音质量由于变形量而劣化。

图6示意性地图示增益与声音质量的劣化之间的关系。在图6中，水平轴指示增益，垂直轴指示声音质量的劣化的程度。曲线图600表示增益与再现音频信号的声音质量劣化的程度之间的关系，该劣化是由通过再现音频信号乘以增益产生的变形量引起的。与此同时，曲线图610表示增益与再现音频信号的声音质量劣化的程度之间的关系，该劣化是由通过将再现音频信号乘以增益而抑制的混响引起的。如曲线图600所表达的，增益越大，即，再现音频信号乘以的衰减比越小，变形量就变得越小，减小了由变形量引起的声音质量劣化的程度。与此同时，如曲线图600所表达的，增益越大，混响抑制得越少，增加了由混响引起的声音质量劣化的程度。鉴于此，例如，使用与曲线图600和610的交点对应的增益G0来平衡由变形量引起的声音劣化与由混响引起的声音劣化。

对于这种平衡，根据本实施例，当再现声音的变形量以一超出量超过表示混响声音的大小与再现音频信号的比率的混响量时，增益计算单元12校正该增益，使得超出量越大，再现音频信号的衰减比变得越小。由此，可以减少由变形量引起的劣化度和由混响量引起的劣化度之和。

为此目的，增益计算单元12通过下式针对预定数目的当前帧和紧挨当前帧n之前的帧中的每一个计算混响声音谱之和与再现音频信号谱之和的比率，并且将所计算的比率加起来以计算针对帧n的混响量。

R R (n) = Σ_{m = 0}^{L - 1} (\frac{\underset{f}{Σ} R v (n - m, f)}{\underset{f}{Σ} Y (n - m, f)}) - - - (10)

其中RR(n)表示帧n的混响量，L表示用于计算混响量的帧的数目，并且例如设定为10至20。

此外，通过下式，增益计算单元12将1与增益之间的差值加起来，针对每个频率计算该差值，针对预定数目的当前帧和紧挨当前帧之前的帧中的每一个计算该差值。以此方式，增益计算单元12计算差值之和，作为针对帧n的变形量。

D (n) = Σ_{m = 0}^{L - 1} (\underset{f}{Σ} (1 - G (n - m, f))) - - - (11)

其中D(n)表示帧n中的变形量，L表示用于计算变形量的帧的数目，并且优选地等于用于计算混响量的帧的数目。

当变形量大于混响量时，评估通过将再现音频信号乘以增益引起的再现音频的变形比混响更多地影响再现音频的劣化。相反，当混响量大于变形量时，评估混响比通过将再现音频信号乘以增益引起的再现音频的变形更多地影响再现音频的劣化。相应地，混响量与变形量的比率(RR(n)/D(n))越大，增益计算单元12减小增益越多，以更多地衰减再现音频信号，从而更多地抑制混响。相反，混响量与变形量的比率越小，增益计算单元12增加增益越多，以更小地衰减再现音频信号。例如，增益计算单元12通过下式校正增益。

G^{'} (n, f) = G (n, f) \frac{D (n)}{R R (n)} - - - (12)

在该式中，G(n，f)表示在校正之前的帧n中的针对频率f的增益，并且G’(n，f)表示在校正之后的帧n中的针对频率f的增益。

设置有音频处理装置61的手机1周围的噪声的音量越大，人就变得越难以听到混响声音。当人无法听到混响时，抑制混响几乎无法提高再现声音的声音质量，相反，通过再现声音的变形量引起再现声音的声音质量劣化，该变形是由于抑制混响而引起的。出于这个原因，增益计算单元12校正增益，使得噪声谱越大，再现音频信号的衰减量越小。增益计算单元12例如通过下式校正增益。

G^{''} (n, f) = G^{'} (n, f) \frac{N (n, f)}{Y (n - 1, f)} - - - (13)

其中G”(n，f)表示帧n中的针对频率f的增益，该增益是已经基于噪声谱校正的。

增益计算单元12向校正单元13输出校正的增益G”(n，f)。

校正单元13执行与第一实施例的校正单元13执行的相同处理，以校正再现音频信号。在本实施例中，校正单元13在式(4)的计算中将再现音频信号谱X(n，f)乘以增益G”(n，f)而不是G’(n，f)。

图7是根据本实施例的音频处理装置61执行的音频处理的操作流程图。

基于再现音频信号和已经由扬声器8根据再现音频信号再现且已经由麦克风4收集的声音的输入音频信号，混响特性评估单元11计算自适应滤波器的传输函数W(n，f)(步骤S201)。混响特性评估单元11将再现音频信号的谱Y(n,f)乘以传输函数W(n,f)，以计算混响谱Rv(n,f)(步骤S202)。混响特性评估单元11向增益计算单元12输出针对每帧的混响谱Rv(n,f)和传输函数W(n,f)。

噪声谱评估单元14基于输入音频信号评估针对每帧的噪声谱(步骤S203)。噪声谱评估单元14向增益计算单元12输出针对每帧的噪声谱。

增益计算单元12针对每个频率计算预定数目的传输函数W(n,f)的平均值的倒数作为增益G(n,f)(步骤S204)。增益计算单元12基于再现音频信号的变形量与混响量的比率校正增益G(n,f)，该变形量是由针对预定数目的当前帧和紧挨当前帧之前的帧的增益引起的(步骤S205)。根据再现音频信号谱和噪声谱的SNR(信噪比)，增益计算单元12进一步校正已经基于变形量与混响量的比率校正过的增益(步骤S206)。增益计算单元12向校正单元13输出校正的增益G”(n,f)。

校正单元13将再现音频信号变换成频域信号，以获得再现声音谱，并且将再现声音谱乘以增益G”(n,f)，使得在该频率处的评估的混响越大，再现声音谱的频率分量可以衰减得越多(步骤S207)。校正单元13将校正的再现声音谱变换成时域信号，以产生校正的再现音频信号(步骤S208)。音频处理装置61经由数模转换器7向扬声器8输出校正的再现音频信号，以终止音频信号处理。在颠倒步骤S205和S206的顺序的情况下，音频处理装置61可以执行步骤S206的处理，然后执行步骤S205的处理。

如上所述，根据第二实施例的音频处理装置根据再现声音的变形量与混响量的比率校正增益。相应地，音频处理装置可以校正再现音频信号，以减少由混响声音引起的再现音频信号的劣化和由乘以增益产生的变形引起的再现音频信号的劣化之和。因为音频处理装置减少了大噪声使得人难以听到混响声音的频率处的再现音频信号的衰减量，所以音频处理装置在抑制混响的同时也可以抑制再现音频的劣化。

根据变型示例，增益计算单元12可以仅针对再现音频信号谱与噪声谱的SNR大于预定阈值处的频率衰减再现音频信号，并且不需要针对其他频率衰减再现音频信号。为了实现这种衰减，例如通过下式确定增益。

G^{''} (n, f) = \{\begin{matrix} G^{'} (n, f) & i f (S N R (n, f) > {Th}_{S N R}) \\ 1 & e l s e \end{matrix} - - - (14)

S N R (n, f) = \frac{Y (n - 1, f)}{N (n, f)}

在该式中，Th_SNR表示阈值，并且设定为例如1至1.2。

根据另一变型示例，增益计算单元12可以仅基于变形量与混响量的比率来校正增益。当执行这种校正时，增益计算单元12向校正单元13输出通过式(12)计算的增益G’(n,f)。

根据又一变型示例，增益计算单元12可以仅基于再现音频信号谱与噪声谱的SNR来校正增益，而无需使用变型量与混响量的比率。当执行这种校正时，增益计算单元12可以使用右侧上的G’(n,f)被替换为由式(9)计算的G(n,f)的式(13)或(14)来计算增益G”(n,f)，并且可以向校正单元13输出G”(n,f)。

根据另一变型示例，增益计算单元12可以校正增益，以减少由混响量RR(n)引起的再现音频信号的声音质量的劣化度与由变形量D(n)引起的再现音频信号的声音质量的劣化度之间的差异。当执行这种校正时，增益计算单元12可以根据预定的有关等式来评估由变形量D(n)引起的再现音频信号的声音质量的劣化度Degsd。类似地，增益计算单元12可以根据预定的有关等式来评估由混响量RR(n)引起的再现音频信号的声音质量的劣化度Degrev。表示这些有关等式的参数，或者表示变形量D(n)与声音质量劣化度Degsd之间关系的参考表和表示混响量RR(n)与声音质量劣化度Degrev之间关系的参考表可以存储在例如设置于增益计算单元12中的非易失性半导体存储器中。增益计算单元12参照参考表来获得分别与变形量D(n)和混响量RR(n)相对应的声音质量劣化Degsd和Degrev。

例如，可以通过将对应于每个变形量的声音质量与对应于每个混响量的声音质量进行比较来确定声音质量劣化的程度，每个声音质量基于主观或客观地评估声音质量的手段来获得。例如，客观地评估声音质量的手段包括由国际电信联盟电信标准化部(ITU-T)标准化的语音质量感知评估(PESQ)或音频质量感知评估(PEAQ)。

在本变型示例中，增益计算单元12可以通过下式代替式(12)来校正增益。

G^{'} (n, f) = \{\begin{matrix} G (n, f) \times 1.1 & i f (D e g r e v / D e g s d > {Th}_{\deg}) \\ G (n, f) \times 0.9 & e l s e i f (D e g s d / D e g r e g > {Th}_{\deg}) \\ G (n, f) & e l s e \end{matrix} - - - (15)

在该式中，Thdeg表示阈值，并且例如设定为1.4至1.6。

根据上述每个实施例或每个变型示例的音频处理装置可以设置在各种音频再现装置中，该各种音频再现装置诸如为可以连接到麦克风和扬声器的各种类型的音频装置或个人计算机。

根据上述每个实施例或每个变型示例的音频处理装置的每个单元的每个功能可以通过计算机程序实现，并且该计算机程序可以存储在诸如磁记录介质或光记录介质之类的计算机可读介质中。计算机可读介质不包括载波。

图8图示通过计算机程序的操作而操作为音频处理装置的计算机的配置，该计算机程序实现根据上述每个实施例或每个变型示例的音频处理装置的每个单元的每个功能。

计算机100包括用户接口单元101、音频接口单元102、通信接口单元103、存储单元104、存储介质访问装置105和处理器106。处理器106例如经由总线连接到用户接口单元101、音频接口单元102、通信接口单元103、存储单元104和存储介质访问装置105。

用户接口单元101包括诸如键盘和鼠标之类的输入装置和诸如液晶显示器之类的显示装置。用户接口单元101可以包括诸如触摸面板显示器之类的装置，该装置是通过将输入装置和显示装置集成而配置的。用户接口装置101根据用户的操作向处理器106输出用于开始音频处理的操作信号。

音频接口单元102包括用于将计算机100连接到麦克风和扬声器的接口电路(未示出)。音频接口单元102向扬声器输出已经校正过以便抑制混响的再现音频信号，从处理器6接收到该再现音频信号。可选择地，音频接口单元102向处理器106传送从麦克风接收到的输入音频信号。

通信接口单元103包括通信接口和用于通信接口的控制电路，以与遵循诸如以太网(Ethernet，注册商标)之类的通信标准的通信网络进行连接。通信接口单元103从连接到通信网络的其它装置获得再现音频信号，并且将所获得的再现音频信号传送到处理器106。通信接口单元103可以经由通信网络向其它装置输出从处理器106接收到的输入音频信号。

存储单元104包括随机存取半导体存储器和只读半导体存储器。存储单元104存储用于执行音频处理且由处理器106执行的计算机程序，并且存储用于音频处理的各种数据。

存储介质访问装置105接入存储介质，诸如磁盘、半导体存储器卡和光存储器介质。例如，存储介质访问装置105读取存储在存储介质107中的用于音频处理的计算机程序，并且将该程序传送到处理器106，该程序由处理器106执行。

处理器106根据上述实施例和变型示例中的任一个执行用于音频处理的程序，以衰减将经由扬声器输出的再现音频信号，使得混响越大，衰减量变得越大。处理器106经由音频接口单元102向扬声器输出校正后的音频信号。

这里列举的所有示例和条件语言旨在教示目的，以帮助读者理解本发明人贡献的用于改进现有技术的概念和发明，并且认为是不限于这些具体列举的示例和条件，说明书中的这些示例的组织也不涉及对本发明的优势和劣势的显示。尽管已经详细描述了本发明的实施例，但是应当理解在不脱离本发明的精神和范围的情况下可以对其进行各种改变、替代和变更。

Claims

1.一种音频处理装置，包括：

混响特性评估单元，基于第一音频信号和第二音频信号评估在每一频率处的混响特性，其中通过使用音频输出单元输出所述第一音频信号并且通过使用音频输入单元收集所输出的第一音频信号而获得所述第二音频信号；

增益计算单元，确定所述第一音频信号的每一频率分量的由增益表示的衰减比；以及

校正单元，根据所述衰减比来衰减在每一频率处的所述第一音频信号，

其中，所述增益计算单元计算指示所述混响特性的大小的混响量与由乘以所述衰减比引起的所述第一音频信号的变形量的比率，并且确定所述衰减比，使得所述比率越大，则所述衰减比变得越大，所述变形量对应于所述第一音频信号和通过根据相应的衰减比衰减所述第一音频信号的每一频率分量所获得的信号之间的差。

2.根据权利要求1所述的音频处理装置，其中，所述增益计算单元评估由所述变形量引起的所述第一音频信号的声音质量的第一劣化度以及由所述混响量引起的所述第一音频信号的声音质量的第二劣化度，并且校正基于所述混响特性计算的所述衰减比，以减小所述第一劣化度和所述第二劣化度之和。

3.根据权利要求2所述的音频处理装置，其中，当所述第一劣化度大于所述第二劣化度时，所述增益计算单元减小基于所述混响特性获得的所述衰减比，并且当所述第一劣化度小于所述第二劣化度时，所述增益计算单元增加基于所述混响特性获得的所述衰减比。

4.根据权利要求1至3中任一个所述的音频处理装置，还包括噪声谱评估单元，其评估包含在所述第二音频信号中的噪声分量的频谱，

其中所述增益计算单元确定基于所述混响特性计算的所述衰减比，使得在该频率处的噪声分量越大，在该频率处的衰减比减小得越多。

5.根据权利要求1至3中任一个所述的音频处理装置，还包括噪声谱评估单元，其评估包含在所述第二音频信号中的噪声分量的频谱，

其中所述增益计算单元使得在所述第一音频信号的谱大于所述噪声分量的谱的频率处的衰减比大于在所述第一音频信号的谱小于等于所述噪声分量的谱的频率处的衰减比。

6.一种音频处理方法，包括：

基于第一音频信号和第二音频信号评估在每一频率处的混响特性，其中通过使用音频输出单元输出所述第一音频信号并且通过使用音频输入单元收集所输出的第一音频信号而获得所述第二音频信号；

确定所述第一音频信号的每一频率分量的由增益表示的衰减比；以及

根据所述衰减比衰减在每一频率处的所述第一音频信号，

其中，所述确定衰减比计算指示所述混响特性的大小的混响量与由乘以所述衰减比引起的所述第一音频信号的变形量的比率，并且确定所述衰减比，使得所述比率越大，则所述衰减比变得越大，所述变形量对应于所述第一音频信号和通过根据相应的衰减比衰减所述第一音频信号的每一频率分量所获得的信号之间的差。

7.根据权利要求6所述的音频处理方法，其中，确定衰减比的步骤评估由所述变形量引起的所述第一音频信号的声音质量的第一劣化度以及由所述混响量引起的所述第一音频信号的声音质量的第二劣化度，并且校正基于所述混响特性计算的所述衰减比，以减小所述第一劣化度和所述第二劣化度之和。

8.根据权利要求7所述的音频处理方法，其中，当所述第一劣化度大于所述第二劣化度时，确定衰减比的步骤减小基于所述混响特性获得的所述衰减比，并且当所述第一劣化度小于所述第二劣化度时，确定衰减比的步骤增大基于所述混响特性获得的所述衰减比。

9.根据权利要求6至8中任一个所述的音频处理方法，还包括评估包含在所述第二音频信号中的噪声分量的频谱，

其中确定衰减比的步骤确定基于所述混响特性计算的所述衰减比，使得在所述频率处的噪声分量越大，在所述频率处的衰减比减小得越多。

10.根据权利要求6至8中任一个所述的音频处理方法，还包括评估包含在所述第二音频信号中的噪声分量的频谱，

其中确定衰减比的步骤使得在所述第一音频信号的谱大于所述噪声分量的谱的频率处的衰减比大于在所述第一音频信号的谱小于等于所述噪声分量的谱的频率处的衰减比。