CN107393549A

CN107393549A - 时延估计方法及装置

Info

Publication number: CN107393549A
Application number: CN201710599217.2A
Authority: CN
Inventors: 王行; 李骊; 杨高峰; 李朔; 盛赞
Original assignee: Beijing HJIMI Technology Co Ltd
Current assignee: Beijing HJIMI Technology Co Ltd
Priority date: 2017-07-21
Filing date: 2017-07-21
Publication date: 2017-11-24

Abstract

本发明提供一种时延估计方法及装置，该方法包括：检测到第一音频信号的当前帧为语音帧时，计算所述当前帧的信噪比；根据所述当前帧的信噪比对所述当前帧对应的音频信号数据块进行自适应调整，所述音频信号数据块是用于构建估计声学传递函数比的线性方程组的；根据所述调整后的数据块构建所述线性方程组，并求解得到所述声学传递函数比的估计值，以及根据所述声学传递函数比的估计值确定时延估计值。因此，采用本申请可以提高时延估计的准确性。

Description

时延估计方法及装置

技术领域

本发明涉及声源定位领域，特别涉及一种时延估计方法及装置。

背景技术

现有的声源定位技术中，基于时延估计的方法应用最为广泛，并且该方法的核心问题是时延估计的准确性。

目前，广义互相关法(Generalized Cross Correlation，GCC)是最常见的一种时延估计方法。其一般需要计算两路信号的互相关函数，时延值就是两路信号互相关函数的峰值位置。

但是，该方法抗混响、抗噪声能力较差，准确性不高。

发明内容

有鉴于此，本发明提供一种时延估计方法及装置，以提高时延估计的准确性。

第一方面，本发明实施例提供了一种时延估计方法，所述方法包括：

检测到第一音频信号的当前帧为语音帧时，计算所述当前帧的信噪比；

根据所述当前帧的信噪比对所述当前帧对应的音频信号数据块进行自适应调整，所述音频信号数据块是用于构建估计声学传递函数比的线性方程组的；

根据所述调整后的数据块构建所述线性方程组，并求解得到所述声学传递函数比的估计值，以及根据所述声学传递函数比的估计值确定时延估计值。

可选的，所述方法还包括：

对所述第一音频信号进行语音激活检测，得到所述第一音频信号当前帧的对数能量值和当前帧的归一化自相关函数；

若所述对数能量值大于能量阈值、且所述归一化自相关函数的最大值大于指定阈值时，则确定当前帧为语音帧；

若所述对数能量值小于或等于所述能量阈值、且所述归一化自相关函数的最大值小于或等于所述指定阈值时，则确定当前帧为噪声帧。

可选的，所述第一音频信号是参考麦克风接收的音频信号；

所述根据所述当前帧的信噪比对所述当前帧对应的音频信号数据块进行自适应调整，包括：

对所述第一音频信号、以及其他麦克风接收的第二音频信号均进行频域转换，得到对应的频域信息；

根据所述对应的频域信息计算所述第一音频信号当前帧的自功率谱、以及所述第一音频信号当前帧与所述第二音频信号当前帧之间的互功率谱；

若所述当前帧的信噪比大于预设的信噪比阈值，则确定所述当前帧为强语音帧，并将所述当前帧对应的谱信息作为所述音频数据块内的谱信息；其中，所述当前帧对应的谱信息包括所述第一音频信号当前帧的自功率谱、以及所述第一音频信号当前帧与所述第二音频信号当前帧之间的互功率谱；

若所述当前帧的信噪比小于或等于所述预设的信噪比阈值，则确定所述当前帧为弱语音帧，并根据所述当前帧对应的谱信息与下一语音帧对应的谱信息生成一个新的谱信息，并将所述新的谱信息作为所述音频数据块内的谱信息；其中，所述下一语音帧对应的谱信息包括所述第一音频信号下一语音帧的自功率谱、以及所述第一音频信号下一语音帧与所述第二音频信号下一语音帧之间的互功率谱。

可选的，所述根据所述当前帧对应的谱信息与下一语音帧对应的谱信息生成一个新的谱信息，包括：

计算所述当前帧对应的谱信息与下一语音帧对应的谱信息的平均值，所述平均值为所述新的谱信息。

将所述当前帧对应的谱信息与下一语音帧对应的谱信息进行加权求和，所述加权求和值为所述新的谱信息。

可选的，所述方法还包括：

根据所述第一音频信号当前帧的信噪比与所述第一音频信号下一语音帧的信噪比，计算用于所述加权求和的加权系数。

可选的，所述方法还包括：

检测到所述第一音频信号的当前帧为噪声帧时，计算所述当前帧的背景噪声能量；

利用所述当前帧的背景噪声能量对本地背景噪声能量进行平滑更新。

可选的，所述计算所述当前帧的信噪比，包括：

将所述当前帧的能量除以本地背景噪声能量，得到所述当前帧的信噪比。

第二方面，本发明实施例提供了一种时延估计装置，所述装置包括：

计算模块，用于检测到第一音频信号的当前帧为语音帧时，计算所述当前帧的信噪比；

自适应调整模块，用于根据所述当前帧的信噪比对所述当前帧对应的音频信号数据块进行自适应调整，所述音频信号数据块是用于构建估计声学传递函数比的线性方程组的；

时延估计值确定模块，用于根据所述调整后的数据块构建所述线性方程组，并求解得到所述声学传递函数比的估计值，以及根据所述声学传递函数比的估计值确定时延估计值。

第三方面，本发明实施例提供了一种时延估计装置，所述装置包括：

处理器；

被配置为存储处理器可执行指令的存储器；

其中，所述处理器被配置为：

第四方面，一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器处理时实现：

本申请的实施例提供的技术方案可以包括以下有益效果：

本申请中，当检测到第一音频信号的当前帧为语音帧时，可以根据当前帧信噪比的大小对用于构建求解声传递函数比的线性方程组的音频信号数据块做出自适应调整，这样最终得到的时延估计值会比较准确，从而提高了时延估计的准确性。

本申请中，针对音频信号，不仅区分语音帧还是噪声帧，还根据语音帧的信噪比区分是强语音帧还是弱语音帧，这样可以根据不同程度的语音帧对当前帧对应的音频信号数据块进行自适应调整，使得最终得到的时延估计值更加准确，从而进一步提高了时延估计的准确性。

附图说明

图1是本申请根据一示例性实施例示出的一种时延估计方法流程图；

图2是本申请根据一示例性实施例示出的另一种时延估计方法流程图；

图3是本公开根据一示例性实施例示出的一种时延估计装置的框图；

图4是本公开根据一示例性实施例示出的一种时延估计装置所在设备的硬件结构示意图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

在本申请使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本申请。在本申请和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本申请中可能采用术语第一、第二、第三等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本申请范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

如图1所示，图1是本申请根据一示例性实施例示出的一种时延估计方法流程图，该方法可以用于声源定位设备中，可以包括以下步骤：

在步骤110中，检测到第一音频信号的当前帧为语音帧时，计算该当前帧的信噪比。

本申请中，声源定位设备需要对输入信号区分语音帧和噪声帧，针对语音帧进行时延估计；针对噪声帧只进行背景噪声能量的更新，而不进行时延估计，并且，更新后的背景噪声能量还可以用于计算后续语音帧的信噪比。

在一实施例中，至于如何区分语音帧和噪声帧，方法有很多，可以采用但不限于以下区分方式：

对第一音频信号进行语音激活检测，得到第一音频信号当前帧的对数能量值和当前帧的归一化自相关函数；

若当前帧的对数能量值大于能量阈值、且当前帧的归一化自相关函数的最大值大于指定阈值时，则确定当前帧为语音帧；

若当前帧的对数能量值小于或等于所述能量阈值、且当前帧的归一化自相关函数的最大值小于或等于所述指定阈值时，则确定当前帧为噪声帧。

比如：第一音频信号为参考麦克风接收的音频信号x₁(n)，对x₁(n)进行话音激活检测(Voice Activity Detection，VAD)。首先，计算x₁(n)的对数能量值ELP，如公式(1)所示。

其中，ε是一个很小的正常数，L为当前帧的帧长。

当ELP的值大于能量阈值Eth时，计算x₁(n)的归一化自相关函数ρ(τ)，如公式(2)所示。

其中，τ是待搜索的延迟，τ的搜索范围可以根据人类发音的基频范围及信号的采样率来具体确定。

若当前帧满足ELP的值大于能量阈值Eth，且归一化自相关函数的最大值ρ_max(τ)大于指定阈值ρ_th时，则确定当前帧为语音帧，否则为噪声帧。

在一实施例中，本申请时延估计方法还包括针对噪声帧的处理方式，具体如下：

检测到第一音频信号的当前帧为噪声帧时，计算当前帧的背景噪声能量；

利用当前帧的背景噪声能量对本地背景噪声能量进行平滑更新。

比如：第一音频信号为参考麦克风接收的音频信号x₁(n)，计算x₁(n)的背景噪声能量如公式(3)所示。

其中，L为当前帧的帧长，k为当前帧的帧号。

然后利用当前帧背景噪声能量对本地背景噪声能量进行平滑更新，其平滑更新如公式(4)所示。

其中，α是一个小于1的平滑因子，且初始背景噪声能量E₀为0。

在一实施例中，在计算该当前帧的信噪比时，可以采用但不限于以下计算方式：

将当前帧的能量除以本地背景噪声能量，得到当前帧的信噪比。

比如：第一音频信号为参考麦克风接收的音频信号x₁(n)，计算当前帧的能量如公式(5)所示。

其中，L为当前帧的帧长，k为当前帧的帧号。

计算当前帧的信噪比SNR_k，如公式(6)所示。

其中，是当前语音帧的能量，E_N是只在噪声帧进行更新的背景噪声能量。

在步骤120中，根据当前帧的信噪比对当前帧对应的音频信号数据块进行自适应调整，该音频信号数据块是用于构建估计声学传递函数比的线性方程组的。

本申请中，声源定位设备计算当前帧的信噪比后，会根据该当前帧的信噪比的大小，自动对音频信号数据块中的内容进行调整。具体为：根据当前帧的信噪比的大小判断当前帧是强语音帧，还是弱语音帧，并根据不同的语音帧采取不同的调整方式。

在一实施例中，第一音频信号是参考麦克风接收的音频信号x₁(n)，当根据当前帧的信噪比对当前帧对应的音频信号数据块进行自适应调整时，可以采用以下方式：

对第一音频信号x₁(n)、以及其他麦克风接收的第二音频信号x_m(n)均进行频域转换，得到对应的频域信息；

根据对应的频域信息计算第一音频信号x₁(n)当前帧的自功率谱以及第一音频信号x₁(n)当前帧与第二音频信号x_m(n)当前帧之间的互功率谱

若当前帧的信噪比大于预设的信噪比阈值，则将当前帧对应的谱信息作为当前帧对应的音频数据块内的谱信息；其中，当前帧对应的谱信息包括第一音频信号x₁(n)当前帧的自功率谱以及第一音频信号x₁(n)当前帧与第二音频信号x_m(n)当前帧之间的互功率谱

若当前帧的信噪比小于或等于所述预设的信噪比阈值，则根据当前帧对应的谱信息与下一语音帧对应的谱信息生成一个新的谱信息，并将该新的谱信息作为当前帧对应的音频数据块内的谱信息；其中，下一语音帧对应的谱信息包括第一音频信号x₁(n)下一语音帧的自功率谱以及第一音频信号x₁(n)下一语音帧与第二音频信号x_m(n)下一语音帧之间的互功率谱

其中，根据当前帧对应的谱信息与下一语音帧对应的谱信息生成一个新的谱信息时，可以采用但不限于以下两种方式：

第一种生成方式：计算当前帧对应的谱信息与下一语音帧对应的谱信息的平均值，该平均值为新的谱信息。其计算过程，如公式(7)所示。

其中，k为当前帧的帧号，i是数据块号，其范围从1到D(构建线性方程组时一般需要D个数据块)，ω是频率，是第一音频信号x₁(n)当前帧的自功率谱，是第一音频信号x₁(n)下一语音帧的自功率谱，是第i个数据块内的自功率谱，是第一音频信号x₁(n)当前帧与第二音频信号x_m(n)当前帧之间的互功率谱，是第一音频信号x₁(n)下一语音帧与第二音频信号x_m(n)下一语音帧之间的互功率谱，是第i个数据块内的互功率谱。

第二种生成方式：将当前帧对应的谱信息与下一语音帧对应的谱信息进行加权求和，加权求和值为所述新的谱信息。其中，加权系数是根据第一音频信号当前帧的信噪比与第一音频信号下一语音帧的信噪比计算得到的。

上述加权求和的过程，如公式(8)所示。

其中，SNR_k是第一音频信号当前帧的信噪比，SNR_k+1是第一音频信号下一语音帧的信噪比，其余与公式(7)中相同，在此不再赘述。

在步骤130中，根据调整后的数据块构建线性方程组，并求解得到声学传递函数比的估计值，以及根据声学传递函数比的估计值确定时延估计值。

本申请中，当获得D个数据块的谱信息时，即D个数据块的自功率谱和互功率谱时，即可构建如下线性方程组，如公式(9)所示。

其中，是与混响与噪声有关的方向性干扰的偏置分量,H_m(ω)是声学传递函数比,其余与公式(7)中相同，在此不再赘述。

本申请中可以利用最小二乘法求解上述线性方程组即可获得声学传递函数比H_m(ω)的估计值。然后，再将估计得到的声学传递函数比H_m(ω)进行傅里叶反变换得到时域序列，并对该序列进行峰值搜索，序列最大值所在的位置即为时延估计值。

由上述实施例可见，当检测到第一音频信号的当前帧为语音帧时，可以根据当前帧信噪比的大小对用于构建求解声传递函数比的线性方程组的音频信号数据块做出自适应调整，这样最终得到的时延估计值会比较准确，从而提高了时延估计的准确性。

如图2所示，图2是本申请根据一示例性实施例示出的另一种时延估计方法流程图。该时延估计方法是以参考麦克风1、麦克风m为例来描述时延估计的具体过程。但不表明只包括参考麦克风1、麦克风m，本申请中可以多个其他麦克风，比如：参考麦克风1、麦克风2、麦克风3、…麦克风m。其时延估计的具体过程与参考麦克风1、麦克风m相同，在这里不再重复描述。

在步骤210中，输入参考麦克风1接收到的第一音频信号x₁(n)和麦克风m接收到的第二音频信号x_m(n)。

在步骤220中，对第一音频信号x₁(n)进行VAD。

在步骤230中，判断第一音频信号x₁(n)当前帧是否为语音帧。若是，则执行步骤250；若否，则执行步骤240。

本申请中，可以根据x₁(n)的对数能量值ELP和x₁(n)的归一化自相关函数ρ(τ)来判断第一音频信号x₁(n)当前帧是否为语音帧。比如：若当前帧满足ELP的值大于能量阈值Eth，且归一化自相关函数的最大值ρ_max(τ)大于指定阈值ρ_th时，则确定当前帧为语音帧，否则为噪声帧。其中，计算x₁(n)的对数能量值ELP，如公式(1)所示，计算x₁(n)的归一化自相关函数ρ(τ)，如公式(2)所示。

在步骤240中，计算当前帧的背景噪声能量，并利用当前帧的背景噪声能量对本地背景噪声能量进行平滑更新，然后执行步骤210，接收下一帧的输入信号。

本申请中，计算x₁(n)的背景噪声能量如公式(3)所示，平滑更新如公式(4)所示。

在步骤250中，计算第一音频信号x₁(n)当前帧的信噪比、以及对第一音频信号x₁(n)和第二音频信号x_m(n)均进行快速傅里叶变换(Fast Fourier Transformation，FFT)，并计算第一音频信号x₁(n)当前帧的自功率谱、以第一音频信号x₁(n)和第二音频信号x_m(n)之间的互功率谱。

在步骤260中，判断第一音频信号当前帧的信噪比是否大于预设的信噪比阈值。若是，则执行步骤270；若否，则执行步骤280。

在步骤270中，确定当前帧为强语音帧，将第一音频信号x₁(n)当前帧的自功率谱、以及第一音频信号x₁(n)当前帧与第二音频信号x_m(n)当前帧之间的互功率谱作为音频数据块内的谱信息。

在步骤280中，确定当前帧为弱语音帧，并根据当前帧对应的谱信息与下一语音帧对应的谱信息生成一个新的谱信息，并将新的谱信息作为音频数据块内的谱信息。

本申请中，根据当前帧对应的谱信息与下一语音帧对应的谱信息生成一个新的谱信息时，可以采用公式(7)所示的方式，也可以采用公式8所示的方式。

在步骤290中，构建线性方程组，并求解得到声学传递函数比的估计值，以及根据声学传递函数比的估计值确定时延估计值。

本申请中，当获得D个数据块的谱信息时，即D个数据块的自功率谱和互功率谱时，即可构建如下线性方程组，如公式(9)所示；然后，利用最小二乘法求解上述线性方程组即可获得声学传递函数比H_m(ω)的估计值，再将估计得到的声学传递函数比H_m(ω)进行傅里叶反变换得到时域序列；最后，对该序列进行峰值搜索，序列最大值所在的位置即为时延估计值。

由上述实施例可见，针对音频信号，不仅区分语音帧还是噪声帧，还根据语音帧的信噪比区分是强语音帧还是弱语音帧，这样可以根据不同程度的语音帧对当前帧对应的音频信号数据块进行自适应调整，使得最终得到的时延估计值更加准确，从而进一步提高了时延估计的准确性。

对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。

其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于可选实施例，所涉及的动作和模块并不一定是本发明所必须的。

如图3所示，图3是本申请根据一示例性实施例示出的一种时延估计装置的框图，所述装置可以应用于可以用于声源定位设备中，并用于执行图1或图2所示的时延估计方法，所述装置可以包括：计算模块31、自适应调整模块32和时延估计值确定模块33。

计算模块31，用于检测到第一音频信号的当前帧为语音帧时，计算所述当前帧的信噪比；

自适应调整模块32，用于根据所述当前帧的信噪比对所述当前帧对应的音频信号数据块进行自适应调整，所述音频信号数据块是用于构建估计声学传递函数比的线性方程组的；

时延估计值确定模块33，用于根据所述调整后的数据块构建所述线性方程组，并求解得到所述声学传递函数比的估计值，以及根据所述声学传递函数比的估计值确定时延估计值。

与图3相应的，本公开还提供另一种时延估计装置的框图，所述装置可以应用于可以用于声源定位设备中，并用于执行图1或图2所示的时延估计方法，所述装置包括：

处理器；

被配置为存储处理器可执行指令的存储器；

其中，所述处理器被配置为：

需要说明的是，对于装置实施例而言，由于其基本对应于方法实施例，所以相关之处参见方法实施例的部分说明即可，在此不进行赘述。

本发明的时延估计装置的实施例可以应用在声源定位设备上。装置实施例可以通过软件实现，也可以通过硬件或者软硬件结合的方式实现。以软件实现为例，作为一个逻辑意义上的装置，是通过其所在设备的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言，如图4所示，为本发明的时延估计检测装置所在设备的一种硬件结构图，除了图4所示的处理器、网络接口、内存以及非易失性存储器之外，实施例中装置所在的设备通常还可以包括其他硬件，如负责处理报文的转发芯片等等；从硬件结构上来讲该设备还可能是分布式的设备，可能包括多个接口卡，以便在硬件层面进行报文处理的扩展。

本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器处理时实现：

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。

Claims

1.一种时延估计方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

3.根据权利要求1所述的方法，其特征在于，所述第一音频信号是参考麦克风接收的音频信号；

4.根据权利要求3所述的方法，其特征在于，所述根据所述当前帧对应的谱信息与下一语音帧对应的谱信息生成一个新的谱信息，包括：

5.根据权利要求3所述的方法，其特征在于，所述根据所述当前帧对应的谱信息与下一语音帧对应的谱信息生成一个新的谱信息，包括：

6.根据权利要求5所述的方法，其特征在于，所述方法还包括：

7.根据权利要求2所述的方法，其特征在于，所述方法还包括：

8.根据权利要求1所述的方法，其特征在于，所述计算所述当前帧的信噪比，包括：

9.一种时延估计装置，其特征在于，所述装置包括：

10.一种时延估计装置，其特征在于，所述装置包括：

处理器；

被配置为存储处理器可执行指令的存储器；

其中，所述处理器被配置为：

11.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器处理时实现：