CN111445916B

CN111445916B - 一种会议***中音频去混响方法、装置及存储介质

Info

Publication number: CN111445916B
Application number: CN202010160669.2A
Authority: CN
Inventors: 黄景标; 林聚财; 殷俊
Original assignee: Zhejiang Dahua Technology Co Ltd
Current assignee: Zhejiang Dahua Technology Co Ltd
Priority date: 2020-03-10
Filing date: 2020-03-10
Publication date: 2022-10-28
Anticipated expiration: 2040-03-10
Also published as: CN111445916A

Abstract

本发明公开了一种会议***中音频去混响方法、装置及存储介质。该会议***中音频去混响方法包括：利用声学回声路径计算音频场景下的第一混响时间；利用麦克风接收到的音频信号计算音频场景下的第二混响时间；计算所述声学回声路径的路径偏差，根据所述路径偏差对所述第一混响时间和第二混响时间进行权重分配，使得权重分配后的第一混响时间和第二混响时间相同，定义所述权重分配后的第一混响时间和第二混响时间均为第三混响时间；根据所述第三混响时间对所述音频信号进行去混响处理。本发明可以提高估计混响时间的有效性和鲁棒性，更加有效的去除音频信号中的混响成分。

Description

一种会议***中音频去混响方法、装置及存储介质

技术领域

本发明涉及音频信号处理技术领域，特别是涉及一种会议***中音频去混响方法、装置及存储介质。

背景技术

通常在声音信号采集或录制的情况下,传声器除了接收到所需要的声源发射声波直接到达的部分外，还会接收声源发出的、经过其它途径传递而到达的声波,以及所在环境其它声源产生的不需要的声波(即背景噪声)。在声学上,延迟时间达到约50ms以上的反射波称为回声,其余的反射波产生的效应称为混响。混响现象将对期望声信号的接收效果产生影响。在许多场合,混响往往会带来干扰,导致声学接收***性能变差。因此,如何减少混响对声音接收***的影响,即去混响(dereverberation)显得十分重要。

本申请的发明人发现，目前去混响处理的效果不好。

发明内容

本发明提供了一种会议***中音频去混响方法、装置及存储介质，能够解决现有技术中存在的去混响效果不好的技术问题。

为解决上述技术问题，本发明采用的技术方案为：

一种会议***中音频去混响方法，包括以下步骤：

利用声学回声路径计算音频场景下的第一混响时间，以及

利用麦克风接收到的音频信号计算所述音频场景下的第二混响时间；

计算所述声学回声路径的路径偏差，根据所述路径偏差对所述第一混响时间和第二混响时间进行权重分配，使得权重分配后的第一混响时间和第二混响时间相同，定义所述权重分配后的第一混响时间和第二混响时间均为第三混响时间；

根据所述第三混响时间对所述音频信号进行去混响处理。

本发明采用的技术方案还包括：所述利用声学回声路径计算音频场景下的第一混响时间之前包括：

利用回声消除算法获取所述音频场景下扬声器与麦克风之间的所述声学回声路径。

本发明采用的技术方案还包括：所述根据所述路径偏差对所述第一混响时间和第二混响时间进行权重分配还包括：

如果所述路径偏差大于设定的路径偏差阈值，表示回声消除算法收敛不成功，则为所述第一混响时间分配较小的权重；如果路径偏差小于设定的路径偏差阈值，表示回声消除算法收敛成功，则为所述第一混响时间分配较大的权重；

所述第二混响时间的权重为：总权重减去为第一混响时间分配的权重。

本发明采用的技术方案还包括：所述根据所述第三混响时间对所述音频信号进行去混响处理还包括：

利用所述第三混响时间计算得到音频信号的晚期混响功率谱密度。

对所述音频信号进行短时傅里叶变换，得到所述音频信号在短时频域上的表征，并利用噪声估计算法计算音频信号的噪声功率谱密度。

基于所述噪声功率谱密度和晚期混响功率谱密度计算结果，利用语音增强方式对所述音频信号中的每个频点进行语音增强处理，消除所述音频信号中的混响部分。

本发明采用的技术方案还包括：所述语音增强方式包括谱减法、维纳滤波或mmse估计器。

本发明采用的另一技术方案为：一种会议***中音频去混响装置，所述装置包括：

第一混响时间估计模块：用于利用声学回声路径计算音频场景下的第一混响时间；

第二混响时间估计模块：用于利用麦克风接收到的音频信号计算所述音频场景下的第二混响时间；

权重分配模块：用于计算所述声学回声路径的路径偏差，根据所述路径偏差对所述第一混响时间和第二混响时间进行权重分配，使得权重分配后的第一混响时间和第二混响时间相同，定义所述权重分配后的第一混响时间和第二混响时间均为第三混响时间；

语音增强模块：用于根据所述第三混响时间对所述音频信号进行去混响处理。

为解决上述技术问题，本发明采用的再一个技术方案是：提供一种会议***中音频去混响装置，包括处理器、与所述处理器耦接的存储器，其中，

所述存储器存储有用于实现权利上述的会议***中音频去混响方法的程序指令；

所述处理器用于执行所述存储器存储的所述程序指令以对音频信号进行去混响处理。

为解决上述技术问题，本发明采用的再一个技术方案是：一种存储介质，存储有处理器可运行的程序指令，所述程序指令用于执行上述的会议***中音频去混响方法。

本发明的有益效果是：本发明实施例的会议***中音频去混响方法、装置及存储介质通过利用声学回声路径估计音频信号的混响时间，提高估计混响时间的有效性和鲁棒性；同时，为了防止由于声学回声路径在时变过程中发生变化，对计算得到的混响时间进行权重分配，进一步提升混响时间估计的准确性，并更加有效的去除音频信号中的混响成分。

附图说明

图1是本发明第一实施例的会议***中音频去混响方法流程示意图；

图2是本发明第二实施例的会议***中音频去混响方法流程示意图；

图3是本发明实施例的会议***中音频去混响装置第一结构示意图；

图4是本发明实施例的会议***中音频去混响装置第二结构示意图；

图5是本发明实施例的存储介质结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明中的术语“第一”、“第二”、“第三”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”、“第三”的特征可以明示或者隐含地包括至少一个该特征。本发明的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。本发明实施例中所有方向性指示(诸如上、下、左、右、前、后……)仅用于解释在某一特定姿态(如附图所示)下各部件之间的相对位置关系、运动情况等，如果该特定姿态发生改变时，则该方向性指示也相应地随之改变。此外，术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、***、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本发明的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

实施例一

请参阅图1，是本发明第一实施例的会议***中音频去混响方法流程示意图。本发明第一实施例的会议***中音频去混响方法包括以下步骤：

S100：利用声学回声路径计算音频场景下的第一混响时间；

S100中，首先，采用自适应滤波对声学回声路径进行估计：

式(1)中，ω₁表示对ω的估计，μ_adp为步长因子，范围在[0，1]；

为残差信号；

为参考音频信号的平均功率，其计算方式如下：

式(2)中，λ为平滑因子，通常设为0.98。

然后，利用声学回声路径计算第一混响时间；

将声学回声路径转换成DB表示：

采用线性拟合的方式估计相关回归系数c，设拟合的曲线为cn+b，相关回归系数c的计算方式为：

其中，

利用声学回声路径计算的第一混响时间为：

其中

为调节因子。

S101：利用麦克风接收到的音频信号计算音频场景下的第二混响时间；

S101中，假设麦克风接收的音频信号表示为：

式(7)中，

为扬声器播放的音频经过会议房间的传播从而到达麦克风中的信号，长度为N的声学回声路径ω(n)＝[ω₀(n),…,ω_N-1(n)]^T，

x_revb(n)为音频混响信号，v(n)为背景噪声。

对麦克风接受的音频信号d(n)进行回声消除算法处理得到d′(n)，对d′(n)进行第二混响时间估计：

d′(n)＝x_revb(n)+v(n) (8)

式(8)中，x_revb(n)可以表示为

其中T_s为采样率的倒数，

称为混响衰减因子；

利用最大似然估计对混响衰减因子进行估计：

ρ＝arg{max{L(d′,ρ)}} (9)

式(9)中，

为噪声的功率。

S102：计算声学回声路径的路径偏差，根据路径偏差对第一混响时间和第二混响时间进行权重分配，使得权重分配后的第一混响时间和第二混响时间相同，定义权重分配后的第一混响时间和第二混响时间均为第三混响时间；

S102中，本发明采用的权重分配策略为：首先计算声学回声路径的路径偏差，如果路径偏差大于设定的路径偏差阈值，表示回声消除算法收敛不成功，则为第一混响时间分配较小的权重；如果路径偏差小于设定的路径偏差阈值，表示回声消除算法收敛成功，则为第一混响时间分配较大的权重；第二混响时间的权重分配为：总权重减去为第一混响时间分配的权重。

S103：根据第三混响时间对音频信号进行去混响处理；

S103中，去混响具体包括：利用噪声估计算法计算音频信号的噪声功率谱密度，利用第三混响时间计算得到音频信号的晚期混响功率谱密度，并基于噪声功率谱密度和晚期混响功率谱密度计算结果，利用语音增强的方式对音频信号进行去混响处理。

本发明第一实施例的会议***中音频去混响方法通过利用声学回声路径估计音频信号的第一混响时间，并利用麦克风接收的音频信号计算第二混响时间，然后对两个混响时间进行权重分配，根据权重分配后的混响时间对音频信号进行去混响处理，提高了音频信号的去混响效果。

实施例二

请参阅图2，是本发明第二实施例的会议***中音频去混响方法流程示意图。本发明第二实施例的会议***中音频去混响方法包括以下步骤：

S200：获取当前音频场景下扬声器与麦克风之间的声学回声路径；

S200中，声学回声路径获取方式为：利用会议场景中的回声消除算法计算得到。本发明实施例采用自适应滤波对声学回声路径进行估计：

为残差信号；

为参考音频信号的平均功率，其计算方式如下：

式(2)中，λ为平滑因子，通常设为0.98。

S201：利用声学回声路径计算当前音频场景下的第一混响时间；

S201中，混响时间指声源停止播放声音，声源能量衰减60dB所需要的时间，可用来表征房间混响的程度，也可以用来估计晚期混响的功率；利用声学回声路径计算第一混响时间的计算方式为：

将声学回声路径转换成DB表示：

其中，

利用声学回声路径计算的第一混响时间为：

其中

为调节因子。

S202：获取麦克风接收的音频信号，利用接收到的音频信号计算当前音频场景下的第二混响时间，并分别执行S203和S204；

S202中，在会议场景中，通常会存在扬声器和麦克风，其中扬声器播放的音频来自于网络端发送的音频信号，麦克风接收的音频信号包括扬声器播放的音频信号以及当前会议场景内说话人的音频信号。假设麦克风接收的音频信号表示为：

式(7)中，

x_revb(n)为音频混响信号，v(n)为背景噪声。

d′(n)＝x_revb(n)+v(n) (8)

式(8)中，x_revb(n)可以表示为

其中T_s为采样率的倒数，

称为混响衰减因子；

利用最大似然估计对混响衰减因子进行估计：

ρ＝arg{max{L(d′,ρ)}} (9)

式(9)中，

为噪声的功率。

S203：对声学回声路径进行分析，计算声学回声路径的路径偏差，并根据声学回声路径的路径偏差对第一混响时间和第二混响时间进行权重分配，使得权重分配后的第一混响时间和第二混响时间相同，得到最终的第三混响时间，并执行S205；

S203中，由于混响时间不受麦克风到声源之间的距离影响，因此，相对于利用音频信号计算得到的第二混响时间，利用声学回声路径计算得到的第一混响时间的精度更高。而由于环境的因素，声学回声路径是时变的，因此，利用回声消除算法计算得到的声学回声路径在更新时会发生变化，针对该情况，本发明采用的权重分配策略为：首先计算利用回声消除算法计算得到的声学回声路径的路径偏差，如果路径偏差大于设定的路径偏差阈值，表示回声消除算法收敛不成功，则为声学回声路径计算得到的第一混响时间分配较小的权重；反之，如果路径偏差小于设定的路径偏差阈值，表示回声消除算法收敛成功，则为声学回声路径计算得到的第一混响时间分配较大的权重。通过声学回声路径的路径偏差对第一混响时间和第二混响时间进行权重分配，即利用音频信号所计算得到的第二混响时间对利用声学回声路径计算得到的第一混响时间进行校正，使得最终的第三混响时间更为准确，从而在后续的去混响中能够更加有效的去除音频信号中的混响成分。

本发明实施例中，第一混响时间的权重为：

Sx＝11+e-x；第二混响时间的权重为：1-w；可以理解，权重分配包括但不局限于上述方式，具体可根据实际操作进行相应调整或设定。

S204：对麦克风接收的音频信号进行短时傅里叶变换，得到音频信号在短时频域上的表征，并利用噪声估计算法计算音频信号中的噪声功率谱密度；

S205：利用第三混响时间计算得到音频信号的晚期混响功率谱密度；

S205中，晚期混响功率谱密度的计算方式为：

η_nlk(n,k)＝e^-2β(n)Rη(n-N_e,k) (10)

式(10)中，η_nlk(n,k)为晚期混响成分的功率，n表示时间帧，k表示频率点，η(n,k)为信号的平均功率，η(n,k)＝αη(n-1,k)+(1-α)|d′(n,k)|²,其中α为平滑因子，通常取0.95；N_e为调节参数，通常为8，R为每次时间帧滑动的大小；

fs为采样率；

其中

表示对声学传递路径估计的第一混响时间，

表示对音频信号估计的第二混响时间。

S206：基于噪声功率谱密度和晚期混响功率谱密度计算结果，利用语音增强的方式对音频信号中的每个频点进行语音增强处理，消除音频信号中的混响部分；

S206中，语音增强方式包括但不局限于谱减法、维纳滤波或是mmse估计器等。以维纳滤波为例，维纳滤波可以表示为：

式(11)中，ξ(n,k)表示先验信噪比,

ξ_min为先验信噪比下限，可根据实际情况进行设定。

最终得到去混响后的音频信号：x_e(n,k)＝H(n,k)d′(n,k)。

本发明第二实施例的会议***中音频去混响方法通过利用声学回声路径估计音频信号的混响时间，提高估计混响时间的有效性和鲁棒性；同时，为了防止由于声学回声路径在时变过程中发生变化，对计算得到的混响时间进行权重分配，进一步提升混响时间估计的准确性，并更加有效的去除音频信号中的混响成分。

请参阅图3，图3展示了本发明实施例的会议***中音频去混响装置的第一结构示意图。该装置40包括：

第一混响时间估计模块41：用于利用声学回声路径计算音频场景下的第一混响时间；

第二混响时间估计模块42：用于利用麦克风接收到的音频信号计算音频场景下的第二混响时间；

权重分配模块43：用于计算声学回声路径的路径偏差，根据路径偏差对第一混响时间和第二混响时间进行权重分配，使得权重分配后的第一混响时间和第二混响时间相同，定义权重分配后的第一混响时间和第二混响时间均为第三混响时间；

语音增强模块44：用于根据第三混响时间对音频信号进行去混响处理。

请参阅图4，图4展示了本发明会议***中音频去混响装置的第二结构示意图。如图4所示，该装置50包括处理器51、与处理器51耦接的存储器52。

存储器52存储有用于实现上述会议***中音频去混响方法的程序指令。

处理器51用于执行存储器52存储的程序指令以对音频信号进行去混响处理。

其中，处理器51还可以称为CPU(Central Processing Unit，中央处理单元)。处理器51可能是一种集成电路芯片，具有信号的处理能力。处理器51还可以是通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

请参阅图5，图5为本发明实施例的存储介质的结构示意图。本发明实施例的存储介质存储有能够实现上述所有方法的程序文件61，其中，该程序文件61可以以软件产品的形式存储在上述存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本发明各个实施方式方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质，或者是计算机、服务器、手机、平板等终端设备。

在本发明所提供的几个实施例中，应该理解到，所揭露的***，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。以上仅为本发明的实施方式，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种会议***中音频去混响方法，其特征在于，包括以下步骤：

利用声学回声路径计算音频场景下的第一混响时间，以及利用麦克风接收到的音频信号计算所述音频场景下的第二混响时间；

计算所述声学回声路径的路径偏差，根据所述路径偏差对所述第一混响时间和第二混响时间进行权重分配，使得权重分配后的第一混响时间和第二混响时间相同，定义第一乘积与第二乘积的和值为第三混响时间，所述第一乘积为所述第一混响时间与分配给所述第一混响时间的权重的乘积，所述第二乘积为所述第二混响时间与分配给所述第二混响时间的权重的乘积；

根据所述第三混响时间对所述音频信号进行去混响处理。

2.根据权利要求1所述的会议***中音频去混响方法，其特征在于，所述利用声学回声路径计算音频场景下的第一混响时间之前包括：

3.根据权利要求2所述的会议***中音频去混响方法，其特征在于，

所述根据所述路径偏差对所述第一混响时间和第二混响时间进行权重分配还包括：

4.根据权利要求1至3任一项所述的会议***中音频去混响方法，其特征在于，所述根据所述第三混响时间对所述音频信号进行去混响处理还包括：

利用所述第三混响时间计算得到所述音频信号的晚期混响功率谱密度。

5.根据权利要求4所述的会议***中音频去混响方法，其特征在于，所述根据所述第三混响时间对所述音频信号进行去混响处理还包括：

对所述音频信号进行短时傅里叶变换，得到所述音频信号在短时频域上的表征，并利用噪声估计算法计算所述音频信号的噪声功率谱密度。

6.根据权利要求5所述的会议***中音频去混响方法，其特征在于，所述根据所述第三混响时间对所述音频信号进行去混响处理还包括：

7.根据权利要求6所述的会议***中音频去混响方法，其特征在于，所述语音增强方式包括谱减法、维纳滤波或mmse估计器。

8.一种会议***中音频去混响装置，其特征在于，所述装置包括：

权重分配模块：用于计算所述声学回声路径的路径偏差，根据所述路径偏差对所述第一混响时间和第二混响时间进行权重分配，使得权重分配后的第一混响时间和第二混响时间相同，定义第一乘积与第二乘积的和值为第三混响时间，所述第一乘积为所述第一混响时间与分配给所述第一混响时间的权重的乘积，所述第二乘积为所述第二混响时间与分配给所述第二混响时间的权重的乘积；

9.一种会议***中音频去混响装置，其特征在于，所述装置包括处理器、与所述处理器耦接的存储器，其中，

所述存储器存储有用于实现权利要求1-7任一项所述的会议***中音频去混响方法的程序指令；

10.一种存储介质，其特征在于，存储有处理器可运行的程序指令，所述程序指令用于执行权利要求1至7任一项所述的会议***中音频去混响方法。