CN110148421B

CN110148421B - 一种残余回声检测方法、终端和装置

Info

Publication number: CN110148421B
Application number: CN201910498719.5A
Authority: CN
Inventors: 陈烈
Original assignee: Zhejiang Dahua Technology Co Ltd
Current assignee: Zhejiang Dahua Technology Co Ltd
Priority date: 2019-06-10
Filing date: 2019-06-10
Publication date: 2021-07-20
Anticipated expiration: 2039-06-10
Also published as: CN110148421A

Abstract

本申请涉及回声检测技术领域，尤其涉及一种残余回声检测方法、终端和装置。该方法包括：根据设定的时间段内回声消除***输出的残余回声信号中语音信号帧的分类特征、远端信号与近端信号的第一相关系数，以及近端信号与残余回声信号的第二相关系数确定语音信号帧存在残声的概率值，统计残余回声信号中存在残声的概率值大于第一预定概率阈值的语音信号帧的数量；根据残余回声信号中存在残声的概率值大于第一预定概率阈值的语音信号帧的数量和残余回声信号的能量均方根对残余回声信号进行残声检测，从而能够提高残声的检测效率和检测精度，提升可靠性。

Description

一种残余回声检测方法、终端和装置

技术领域

本申请涉及音频信号处理技术领域，特别是涉及一种残余回声检测方法、终端和装置。

背景技术

在网络语音聊天中，近端通话者的声音被自己的麦克风拾取后通过网络传到远端，远端通话者的声音通过麦克风后通过网络传输到近端，实现了两端语音交互。现有技术中，由于网络和数据处理等各种延迟的影响，使得近端通话者能听到自己的回声，从而严重影响了通话的质量和用户体验度。现有技术中，采用回声消除***来对回声进行消除。比如采用自适应回声消除算法对回声信号消除，所使用的核心元件是自适应滤波器。它的基本工作原理就是对回声信道进行模拟，对远端信号可能形成的回声信号进行估计，然后再在麦克风的输入信号中减去这个估计信号，从而输入的语音信号中不再包含回声，以此来达到回声消除的目的。对于经过回声消除***的语音，可能还是会残留回声，所以需要用残声检测算法来检测是否有残声。

传统的残声检测算法通过计算近端信号与误差信号之间的相关性来进行残余回声检测，检测的准确度低。

发明内容

本申请实施例提供了一种残余回声检测方法、终端和装置，用以检测残余回声，提高残余回声的检测精度，提升可靠性。

第一方面，本申请实施例提供了一种残余回声检测的方法，包括：

根据设定的时间段内回声消除***输出的残余回声信号中语音信号帧的分类特征、远端信号与近端信号的第一相关系数，以及近端信号与残余回声信号的第二相关系数确定所述语音信号帧存在残声的概率值，其中所述远端信号和所述近端信号为所述回声消除***的输入信号；统计所述残余回声信号中存在残声的概率值大于第一预定概率阈值的语音信号帧的数量；根据所述残余回声信号中存在残声的概率值大于第一预定概率阈值的语音信号帧的数量和所述残余回声信号的能量均方根对所述残余回声信号进行残声检测。

上述方法，采用大于预定概率阈值的语音信号帧的数量和残余回声信号的能量均方根来对残余回声信号进行残声检测，只是统计数量与简单的运算，没有延迟，提高了效率。

在一种可能的实现方式中，所述根据所述残余回声信号中存在残声的概率值大于第一预定概率阈值的语音信号帧的数量和所述残余回声信号的能量均方根对所述残余回声信号进行残声检测，包括：

如果检测出所述残余回声信号中存在残声的概率值大于所述第一预定概率阈值的语音信号帧的数量与所述残余回声信号中的语音信号帧的总数的比例大于第一比例阈值，并且所述残余回声信号的能量均方根值大于预定的均方根阈值，则确定当前所述残余回声信号有残声。

上述方法，用残余回声信号中存在残声的概率值大于预定概率值的信号帧的数量在总量中所占的比例来衡量是否有残声，只是简单的除法计算，与现有技术相比，没有计算的延迟，提高了效率。

在一种可能的实现方式中，所述方法还包括：统计所述残余回声信号中的存在残声的概率值小于第二预定概率阈值的语音信号帧的数量；

根据所述残余回声信号中的存在残声的概率值小于第二预定概率阈值的语音信号帧的数量对所述残余回声信号进行残声检测，包括：

如果检测出所述残余回声信号中存在残声的概率值小于第二预定概率阈值的语音信号帧的数量与所述残余回声信号中的语音信号帧的总数的比例大于第二比例阈值，则确定当前环境为静音；或

如果检测出所述残余回声信号中存在残声的概率值大于第一预定概率阈值的语音信号帧的数量与所述残余回声信号中的语音信号帧的总数的比例小于第三比例阈值，并且，所述残余回声信号中存在残声的概率值小于第二预定概率阈值的语音信号帧的数量与所述残余回声信号中的语音信号帧的总数的比例大于第二比例阈值，则确定当前环境为静音。

上述方法，给出了两种确定当前环境为静音的方式，简单而直观，只是简单的除法运算和语音帧存在残声的概率计算，与现有技术相比，提高了效率。

在一种可能的实现方式中，根据设定的时间段内回声消除***输出的残余回声信号中语音信号帧的分类特征、远端信号与近端信号的第一相关系数，以及近端信号与残余回声信号的第二相关系数确定所述语音信号帧存在残声的概率值，包括：

获取所述语音信号帧的多个分类特征的特征值；

根据分类特征的特征值确定分类特征对应的存在残声的过程概率值；

根据分类特征对应的存在残声的过程概率值与分类特征对应的权值确定分类特征存在残声的概率值；

根据所述第一相关系数和所述第二相关系数与对应的权值确定所述第一相关系数和所述第二相关系数存在残声的概率值；

根据所述分类特征存在残声的概率值和所述第一相关系数和所述第二相关系数存在残声的概率值确定所述语音信号帧存在残声的概率值。

上述方法，把语音信号帧存在残声的概率分解为每一个分类特征对应的残声概率，从而使得对于每一个语音信号帧的存在残声的概率的计算更加精确。

在一种可能的实现方式中，根据分类特征的特征值确定分类特征对应的存在残声的过程概率值，包括：

针对任意一个分类特征，将所述分类特征的特征值作为映射函数的输入；将映射函数的输出作为每一个分类特征对应的存在残声的过程概率值。

上述方法，采用映射函数来计算残声的过程概率值，可以发挥映射函数的输入无穷大，输出趋近于1的优点，并且函数曲线平滑，可以精确的实现映射转换。

在一种可能的实现方式中，该方法还包括：

根据所述第一相关系数和所述第二相关系数对所述第一相关系数和所述第二相关系数的权值进行调整。

上述方法，由于对权值进行了调整，所以对计算的残声概率值也会调整，达到了根据相关系数的值来调整残声概率值的效果。

在一种可能的实现方式中，根据所述第一相关系数和所述第二相关系数对所述第一相关系数和所述第二相关系数的权值进行调整，包括：

当所述第一相关系数和所述第二相关系数从不满足第一条件变化到满足所述第一条件时，将所述第一相关系数和所述第二相关系数的权值调高；

当所述第一相关系数和所述第二相关系数从满足所述第一条件变化到不满足所述第一条件时，将所述第一相关系数和所述第二相关系数的权值调低。

上述方法中，根据相关系数是否满足第一条件来对权值进行高低的调整，从而可以达到对输出的概率值进行大小的调整。

在一种可能的实现方式中，所述第一条件为：所述第一相关系数小于第一阈值并且所述第二相关系数大于第二阈值。

上述方法，第一条件是不可靠的条件，当第一相关系数和第二相关系数满足上述第一条件时，说明第一相关系数和第二相关系数是不可靠的，所以将相关系数的权值调低，从而能够降低不可靠的相关系数对计算的残声概率值负面影响，如此就提高了残声计算的精确度。

第二方面，本申请实施例还提供了一种残余回声检测的终端，包括存储器和处理器，所述存储器上存储有可在所述处理器上运行的计算机程序，当所述计算机程序被所述处理器执行时，使得所述处理器执行如下步骤：根据设定的时间段内回声消除***输出的残余回声信号中语音信号帧的分类特征、远端信号与近端信号的第一相关系数，以及近端信号与残余回声信号的第二相关系数确定所述语音信号帧存在残声的概率值，其中所述远端信号和所述近端信号为所述回声消除***的输入信号；统计所述残声回声信号中存在残声的概率值大于第一预定概率阈值的语音信号帧的数量；根据所述残声回声信号中存在残声的概率值大于第一预定概率阈值的语音信号帧的数量和所述残余回声信号的能量均方根对所述残余回声信号进行残声检测。

在一种可能的实现方式中，所述处理器具体用于：如果检测出残余回声信号中存在残声的概率值大于所述第一预定概率阈值的语音信号帧的数量与所述残余回声信号中的语音信号帧的总数的比例大于第一比例阈值，并且所述残余回声信号的能量均方根值大于预定的均方根阈值，则确定当前所述残余回声信号有残声。

在一种可能的实现方式中，所述处理器还用于：统计所述残余回声信号中存在残声的概率值小于第二预定概率阈值的语音信号帧的数量；

在一种可能的实现方式中，所述处理器具体于：获取所述语音信号帧的多个分类特征的特征值；根据分类特征的特征值确定分类特征对应的存在残声的过程概率值；根据分类特征对应的存在残声的过程概率值与分类特征对应的权值确定分类特征存在残声的概率值；

在一种可能的实现方式中，所述处理器具体用于：针对任意一个分类特征，将所述分类特征的特征值作为映射函数的输入；将映射函数的输出作为每一个分类特征对应的存在残声的过程概率值。

在一种可能的实现方式中，所述处理器还用于：根据所述第一相关系数所述和第二相关系数对所述第一相关系数和所述第二相关系数的权值进行调整。

在一种可能的实现方式中，所述处理器还用于：

第三方面，本申请实施例还提供了一种残余回声检测装置，包括：残声概率确定模块，用于根据设定的时间段内回声消除***输出的残余回声信号中语音信号帧的分类特征、远端信号与近端信号的第一相关系数，以及近端信号与残余回声信号的第二相关系数确定所述语音信号帧存在残声的概率值，其中所述远端信号和所述近端信号为所述回声消除***的输入信号；统计模块，用于统计所述残余回声信号中存在残声的概率值大于第一预定概率阈值的语音信号帧的数量；以及环境确定模块，用于根据所述残余回声信号中存在残声的概率值大于第一预定概率阈值的语音信号帧的数量和所述残余回声信号的能量均方根对所述残余回声信号进行残声检测。

第四方面，本申请实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述第一方面中任一一项方法的步骤。

第二方面至第四方面中任意一种实现方式所带来的技术效果可参见第一方面中对应的实现方式所带来的技术效果，此处不再赘述

附图说明

图1为回声消除***应用场景示意图；

图2为本申请实施例提供的一种残余回声检测方法流程图；

图3为本申请实施例提供的根据设定的时间段内的语音信号帧的分类特征确定语音信号帧存在残声的概率值的方法流程图；

图4为本申请实施例提供的一种残余回声检测方法的整体流程图；

图5为本申请实施例提供的一种残余回声检测终端示意图；

图6为本申请实施例提供的一种残余回声检测装置示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

在双方进行语音通话，多人组织的电话会议，三方通话等语音通信的场景当中，通话的一端为了消除回声而设置了回声消除***，参见附图1所示的回声消除***应用场景示意图，在通话双方中的每一方都设置了回声消除***。

以左侧的本端为例说明，对端的语音信号传输到本端的扬声器，会产生回声，如果不对回声进行处理，该回声会通过本端的麦克风又传输回到对端，从而对端的说话者会听到自己的回声。为了对回声进行消除，分别在本端和对端设置了回声消除***，包括两个输入，一个输出；一个输入是本端信号，本端信号又包括对端信号产生的回声信号和本端的语音信号，其中，本端的语音信号称为近端信号，对端信号称为远端信号。另一个输入是对端语音的参考信号，也称为远端信号。输出信号：由于回声消除***对于回声的消除不可能达到百分之百，会有一部分回声残留，称为残余回声信号，该信号传送回对端。

对经过回声消除***消除后的残余回声信号，还设置残声检测***来检测该语音信号中是否有残声，但是现有技术的残声检测算法的效率低下，本申请的残声检测算法应用在此场景中，可以提高残声检测的效率。

本申请实施例描述的应用场景是为了更加清楚的说明本申请实施例的技术方案，并不构成对于本申请实施例提供的技术方案的限定，本领域普通技术人员可知，随着新应用场景的出现，本申请实施例提供的技术方案对于类似的技术问题，同样适用。

针对上述场景，基于此，本申请提出了一种残余回声检测方法，参见附图2所示的残余回声检测方法流程图，该方法包括如下步骤：

步骤S201，根据设定的时间段内回声消除***输出的残余回声信号中语音信号帧的分类特征、远端信号与近端信号的第一相关系数，以及近端信号与残余回声信号的第二相关系数确定所述语音信号帧存在残声的概率值，其中所述远端信号和所述近端信号为所述回声消除***的输入信号；

其中，所述残声是指语音信号帧经过回声消除***进行回声消除处理之后，残留的回声。

步骤S202，统计所述残余信号中存在残声的概率值大于第一预定概率阈值的语音信号帧的数量；

步骤S203，根据所述残余回声信号中存在残声的概率值大于第一预定概率阈值的语音信号帧的数量和所述残余回声信号的能量均方根对所述残余回声信号进行残声检测。

语音信号经过分帧、加窗、快速傅氏变换(Fast Fourier Transform，FFT)，以及经过回声消除***进行回声消除处理之后，进入到了残声检测的环节。

分帧、加窗、快速傅氏变换是为了将时域信号转变为频域信号，将模拟信号转变为数字信号，是为了对语音以帧为单位进一步地分析而进行的。

语音信号是一种随着时间变化的信号，具有短时平稳性，语音信号的分帧可以采用可移动的有限长度窗口进行加权的方法来实现。每秒帧数一般为33-100帧，前一帧和后一帧之间的交叠部分为帧移，帧移和帧长的比值为0-0.5。窗口为矩形窗或者汉明窗，明确了窗函数之后，对语音信号的分帧处理即为对各帧进行某种变换或运算。

对于经过回声消除处理***处理过的语音信号，为了节省工作量，本申请选取出任意一个时间段的语音作为采样标本来进行分析，当然，选取的时间段越长，计算结果就越精确。

语音信号帧的分类特征可以包括但不限于：残声与噪声对数似然比、频谱平坦度和频带方差。

残声存在概率由残声与噪声对数似然比、频谱平坦度和频带方差这三个分类特征来表征。

残余回声信号的能量均方根是用来辅助判断残余能量的大小，能量均方根大，则残余能量大，但残余能量不一定是残留回声，因此需要结合概率值来判断。对经过回声消除处理***处理之后的语音信号，选取任意一个时间段内的多个语音信号帧，以帧为单位进行频谱分析，计算得到每一个帧的多个分类特征，并计算每一个分类特征存在残声的概率值和远端信号与近端信号的第一相关系数存在残声的概率值，以及近端信号与残余回声信号的第二相关系数存在残声的概率值；将分类特征存在残声的概率值、第一相关系数和第二相关系数对应的残声的概率值求和，便得到回声消除***输出的残余回声信号中的语音信号帧存在残声的概率值。

如果回声消除***输出的残余回声信号中的一个语音段中帧的数量为100，而存在残声的概率大于0.8的帧的数量为95，显然该语音段可以认为是有残声的。所以本申请采用了大于预定概率阈值的语音信号帧的数量和总的帧数来检测是否有残声。

其中，本申请中所指的阈值，不限于上述阈值，获得方法和值的大小设置可以是多种方式来实现，比如可以是计算机仿真得到的，可以是根据每一个不同的实际的应用场景中的需要而设置的，还可以是人为随机设置的，还可以是通过人工智能领域中的机器学习的方法得到的，本申请不做具体的限制。上述方法，通过语音信号帧的分类特征确定所述语音信号帧存在残声的过程概率值，使得对于单个语音信号帧存在残声的概率值的计算更加准确。采用大于预定概率阈值的语音信号帧的数量和残余回声能量均方根来确定当前环境有残声，只是统计数量与简单的运算，没有延迟，提高了效率。

为了检测出残声，需要设定残声条件，在一种实施方式中，所述残声条件为：

检测出残余回声信号中存在残声的概率值大于所述第一预定概率阈值的语音信号帧的数量与所述残余回声信息中的语音信号帧的总数的比例大于第一比例阈值，并且所述残余回声信号的能量均方根值大于预定的均方根阈值。

以下举例说明，均方根阈值可以设置为-40db；第一预定概率阈值为0.5；

则残声条件为：若检测出残余回声信号中的存在残声的概率值大于0.5的帧数超过总帧数的三分之一，并且残余回声信号的能量均方根值>-40db，则确定当前环境存在残声。

以上实施例表明，本申请是用比较直观符合条件的帧的数量的占比来确定该整个语音的状态，如上所述，如果语音概率比较大的语音帧的数量在总数中的占比较大，则认定该语音信号的状态有残声，而现有技术中采用的算法往往延迟比较大，效率很低。所以本申请与现有技术相比较，显著提高了残声检测的效率。

上述是符合残声条件的情况，对于不符合残声条件的情况，其主要包括静音的情况和非静音的情况。

如果能确定是静音状态，则可以表示回声消除***对于回声消除比较好。

本发明实施例还给出判断是否为静音的方式：

方式一、

在确定残声条件不符合后，统计所述残余回声信号中的所述存在残声的概率值小于第二预定概率阈值的语音信号帧的数量；

如果小于第二预定概率阈值的语音信号帧的数量与所述残余回声信号中的语音信号帧的总数的比例大于第二比例阈值，则确定当前环境为静音。不难理解，如果单个帧存在残声的概率比较小，如果语音概率比较小的帧的数量又比较多，在帧总数中所占的比例比较大，则可以认为当前环境为静音。

举例说明如下：假设第二预定概率阈值为0.2，第二比例阈值为90％；如果概率值小于0.2的语音信号帧的数量与语音信号帧的总数的比例大于90％，则确定当前环境为静音。

方式二、

在确定残声条件不符合后，如果检测出残余回声信号中存在残声的概率值大于第一预定概率阈值的语音信号帧的数量与所述语音信号帧的总数的比例小于第三比例阈值，并且，残余回声信号中存在残声的概率值小于第二预定概率阈值的语音信号帧的数量与所述语音信号帧的总数的比例大于第二比例阈值，则确定当前环境为静音。

举例说明如下：假设第一预定概率阈值为0.5，第三比例阈值为5％，第二预定概率阈值为0.2，第二比例阈值为90％；

存在残声的概率值大于0.5的语音信号帧的数量占语音信号帧的总数的比例小于5％，并且，存在残声的概率值小于0.2的语音信号帧的数量占语音信号帧的总数的比例大于90％，则确定当前环境为静音。与上一个实施方式相比，该实施例考虑到了两个阈值和两个比例阈值，对于确定该语音信号为静音的判断更加准确。

为了确定出单个语音帧的存在残声的概率值，在一种实施方式中，参见附图3所示的根据设定的时间段内回声消除***输出的残余回声信号中的语音信号帧的分类特征、远端信号与近端信号的第一相关系数，以及近端信号与残余回声信号的第二相关系数确定所述语音信号帧存在残声的概率值的方法流程图，上述步骤S201包括：

步骤S301，获取所述语音信号帧的多个分类特征的特征值；

具体实施时，通过对语音信号帧进行频谱分析和计算得到该语音信号帧的多个分类特征，得到每一个分类特征的特征值。

其中，所述分类特征包括但不限于下列中的部分或全部：

残声与噪声对数似然比、频谱平坦度、频带方差。

残声与噪声对数似然比主要是用来区别残声和噪声的特征参数，该值大，残声存在的概率大；该值小，残声存在的概率小。

频谱平坦度和频带方差也主要是用来区别残声和噪声的特征参数，频谱平坦度大，残声存在的概率小；频谱平坦度小，残声存在的概率大。

频带方差大，残声存在的概率大；频带方差小，残声存在的概率小。

本申请主要是利用上述三个特征辅助判断残声存在的概率值，再结合远端信号与近端信号的相关系数和近端信号与残余回声信号的相关系数，来得到残声存在的概率值。

远端信号与近端信号的相关系数和近端信号与残余回声信号的相关系数主要用来表征残声存在的概率值。

远端信号与近端信号的相关系数大，残声存在的概率大；远端信号与近端信号的相关系数小，残声存在的概率小。

近端信号与残余回声信号的相关系数大，残声存在的概率小；近端信号与残余回声信号的相关系数小，残声存在的概率大。

步骤S302，根据分类特征的特征值确定分类特征对应的存在残声的过程概率值；

步骤S303，根据分类特征对应的存在残声的过程概率值与分类特征对应的权值确定分类特征存在残声的概率值；

步骤S304，根据所述第一相关系数和第二相关系数与对应的权值确定所述第一相关系数和第二相关系数存在残声的概率值；

步骤S305，根据所述分类特征存在残声的概率值和所述第一相关系数和第二相关系数存在残声的概率值确定所述语音信号帧存在残声的概率值。

为了计算出分类特征对应的存在残声的概率值，在一种可能的实施方式中，根据分类特征的特征值确定分类特征对应的存在残声的过程概率值，包括：

针对任意一个分类特征，将所述分类特征的特征值作为映射函数的输入；

将映射函数的输出作为每一个分类特征对应的存在残声的过程概率值。

其中，映射函数可以为sigmoid或者tanh。sigmoid与tanh是两种典型的非线性函数。当输入值趋于无穷大时，输出值趋近于1。为每一个分类特征设置一个单独的映射函数，分别单独设置三个映射函数，将三个映射函数的输出求和便是单个语音帧的残声概率值；单个语音帧的残声概率值再与相关系数的残声概率求和便得到了总的概率值，也就是语音帧的存在残声的概率值。

在一种实施方式中，所述方法还包括：根据所述第一相关系数和第二相关系数对第一相关系数和第二相关系数的权值进行调整。

在一种实施方式中，根据所述第一相关系数和第二相关系数对第一相关系数和第二相关系数的权值进行调整，包括：

当所述第一相关系数和第二相关系数从不满足第一条件变化到满足第一条件时，将所述第一相关系数和第二相关系数的权值调高；

当所述第一相关系数和第二相关系数从满足第一条件变化到不满足第一条件时，将所述第一相关系数和第二相关系数的权值调低；

所述第一条件为：第一相关系数小于第一阈值并且第二相关系数大于第二阈值。本申请的上述第一阈值和第二阈值，可以通过计算机仿真得到，也可以通过实际的场景进行设置，或者通过人工智能机器学习的方法获得，具体的获得方式和具体的取值是灵活的，本申请不做具体的限制。

其中，第一条件是不稳定条件。

在具体实施时，可以设置两个不同的权值；当远端信号与近端信号之间的相关系数和近端信号与残余回声信号之间的相关系数满足第一条件时，两个相关系数的权值可以相同，权值取第一权值；比如第一权值可以设置为1。

当远端信号与近端信号之间的相关系数和近端信号与残余回声信号之间的相关系数不满足条件时，两个相关系数的权值相同，权值取第二权值，比如第二权值可以设置为2；其中，第一权值小于第二权值。远端信号与近端信号之间的相关系数和近端信号与残余回声信号之间的相关系数也可以不同。

值得说明的是，上述的权值的设置，可以通过计算机仿真得到，可以根据回声消除场景的实际具体情况设置得到，还可以通过当下的人工智能领域中的机器学习的方法来得到，权值的获取方式和权值大小的设置方法，是多种多样的，本申请不做具体的限制。

下面以一个具体实施例具体说明：当远端信号与近端信号之间的相关系数和近端信号与残余回声信号之间的相关系数满足以下条件：

远端信号与近端信号之间的相关系数<0.1，同时近端信号与残余回声信号之间的相关系数>0.95；

则表明此时远端信号与近端信号的相关系数、近端信号与残余回声信号的相关系数这两个参数不可靠，将对应的权值调低。从而实现了将相关系数对于帧中的存在残声的概率值贡献调低。否则，将远端信号与近端信号之间的相关系数、近端信号与残余回声信号之间的相关系数对应的权值调高。表明远端信号与近端信号之间的相关系数、近端信号与残余回声信号之间的相关系数对应存在残声的概率影响变大。

分类特征中的残声与噪声对数似然比、频谱平坦度和频带方差的对应的权值采用***默认配置。

本申请实施例提供了一种残声检测方法的整体流程图，参见附图4所示的残声检测方法整体流程图，该方法包括：

步骤401，接收经过回声消除***处理过的语音信号；

其中，可以从该语音信号中选取采样任意一个时间段，该时间段内包括了多个语音信号帧。用该时间段的残声状态来代表整个语音信号的残声状态。

步骤402，确定任一时间段内的单个语音信号帧残声存在概率；

步骤403，统计该时间段内的残声概率大于预定阈值的语音信号帧的数量和语音帧的总数；

步骤404，计算该时间段内的语音信号的能量均方根；

步骤405，判断是否符合残声条件，如果是，则执行步骤406，否则，执行步骤407；

步骤406，确定有残声；

其中，残声条件为大于所述第一预定概率阈值的语音信号帧的数量与所述语音信号帧的总数的比例大于第一比例阈值并且所述均方根值大于预定的均方根阈值。

步骤407，判断是否符合静音条件，如果是，则执行步骤408，否则执行步骤409；

步骤408，确定为静音；

步骤409，确定为无残声非静音。

与上述方法对应，本申请实施例还提供了一种残余回声检测的终端，参见附图5所示的残余回声检测的终端结构示意图；该终端包括存储器501和处理器502，所述存储器501上存储有可在所述处理器502上运行的计算机程序，当所述计算机程序被所述处理器502执行时，使得所述处理器502执行如下步骤：

在一种可能的实施方式中，所述处理器502具体用于：

如果检测出残余回声信号中的存在残声的概率值大于所述第一预定概率阈值的语音信号帧的数量与所述残余回声信号中的语音信号帧的总数的比例大于第一比例阈值，并且所述残余回声信号的能量均方根值大于预定的均方根阈值，则确定当前所述残余回声信号有残声。

在一种可能的实施方式中，所述处理器502还用于：

统计所述残余回声信号中的存在残声的概率值小于第二预定概率阈值的语音信号帧的数量；如果检测出残余回声信号中的存在残声的概率值小于第二预定概率阈值的语音信号帧的数量与所述残余回声信号中语音信号帧的总数的比例大于第二比例阈值，则确定当前环境为静音；或如果检测出残余信号中的存在残声的概率值大于第一预定概率阈值的语音信号帧的数量与所述残余回声信号中的语音信号帧的总数的比例小于第三比例阈值，并且，残余回声信号中存在残声的概率值小于第二预定概率阈值的语音信号帧的数量与所述残余回声信号中的语音信号帧的总数的比例大于第二比例阈值，则确定当前环境为静音。

在一种可能的实施方式中，所述处理器502具体用于：获取所述语音信号帧的多个分类特征的特征值；

根据分类特征的特征值确定分类特征对应的存在残声的过程概率值；根据分类特征对应的存在残声的过程概率值与分类特征对应的权值确定分类特征存在残声的概率值；

根据所述第一相关系数和第二相关系数与对应的权值确定所述第一相关系数和第二相关系数存在残声的概率值；

根据所述分类特征存在残声的概率值和所述第一相关系数和第二相关系数存在残声的概率值确定所述语音信号帧存在残声的概率值。

在一种可能的实施方式中，所述处理器502还用于：针对任意一个分类特征，将所述分类特征的特征值作为映射函数的输入；

在一种可能的实施方式中，所述处理器502还用于：根据所述第一相关系数和第二相关系数对第一相关系数和第二相关系数的权值进行调整。

在一种可能的实施方式中，所述处理器502还用于：当所述第一相关系数和第二相关系数从不满足第一条件变化到满足第一条件时，将所述第一相关系数和第二相关系数的权值调高；

当所述第一相关系数和第二相关系数从满足第一条件变化到不满足第一条件时，将所述第一相关系数和第二相关系数的权值调低。

在一种可能的实施方式中，所述第一条件为：第一相关系数小于第一阈值并且第二相关系数大于第二阈值。

本申请实施例还提供了另一种残余回声检测装置，参见附图6所示的残余回声检测装置结构示意图，该检测装置包括：

残声概率确定模块61，用于根据设定的时间段内回声消除***输出的残余回声信号中语音信号帧的分类特征、远端信号与近端信号的第一相关系数，以及近端信号与残余回声信号的第二相关系数确定所述语音信号帧存在残声的概率值，其中所述远端信号和所述近端信号为所述回声消除***的输入信号；

统计模块62，用于统计所述残余回声信号中存在残声的概率大于第一预定概率阈值的语音信号帧的数量；

环境确定模块63，用于根据所述残余回声信号中存在残声的概率值大于第一预定概率阈值的语音信号帧的数量和所述残余回声信号的能量均方根对所述残余回声信号进行检测。

本申请的残余回声检测装置，通过语音概率确定模块61确定语音信号帧存在残声的概率值，环境确定模块63根据所述残余回声信号中存在残声的概率值大于第一预定概率阈值的语音信号帧的数量和所述残余回声信号的能量均方根对所述残余回声信号进行残声检测，从而提高了残声的检测效率，提升可靠性。

可选的，环境确定模块63具体用于：如果检测出残余回声信号中存在残声的概率值大于所述第一预定概率阈值的语音信号帧的数量与所述残余回声信号中的语音信号帧的总数的比例大于第一比例阈值，并且所述残余回声信号的能量均方根值大于预定的均方根阈值，则确定当前所述残余回声信号有残声。

可选的，环境确定模块63还用于：

统计所述残余回声信号中的存在残声的概率小于第二预定概率阈值的语音信号帧的数量；

如果检测出所述残余回声信号中的存在残声的概率值小于第二预定概率阈值的语音信号帧的数量与所述残余回声信号中的语音信号帧的总数的比例大于第二比例阈值，则确定当前环境为静音；或

如果检测出所述残余回声信号中的存在残声的概率值大于第一预定概率阈值的语音信号帧的数量与所述残余回声信号中的语音信号帧的总数的比例小于第三比例阈值，并且，所述残余回声信号中存在残声的概率值小于第二预定概率阈值的语音信号帧的数量与所述残余回声信号中的语音信号帧的总数的比例大于第二比例阈值，则确定当前环境为静音。

可选的，残声概率确定模块61还用于：

获取所述语音信号帧的多个分类特征的特征值；

可选的，残声概率确定模块61还用于：

根据所述第一相关系数和第二相关系数对第一相关系数和第二相关系数的权值进行调整。

可选的，残声概率确定模块61还用于：

可选的，所述第一条件为：第一相关系数小于第一阈值并且第二相关系数大于第二阈值。

本发明实施例还提供一种计算机可读非易失性存储介质，包括程序代码，当所述程序代码在计算设备上运行时，所述程序代码用于使所述计算设备执行本发明实施例上述方法的步骤。

本领域内的技术人员应明白，本申请的实施例可提供为方法、***、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

1.一种残余回声检测的方法，其特征在于，包括：

将设定的时间段内回声消除***输出的残余回声信号中语音信号帧的分类特征存在残声的概率值、第一相关系数存在残声的概率值、第二相关系数存在残声的概率值的和，作为所述语音信号帧存在残声的概率值，其中所述语音信号帧的分类特征包括下列中的部分或全部：残声与噪声对数似然比、频谱平坦度和频带方差，所述第一相关系数为远端信号与近端信号的相关系数，所述第二相关系数为近端信号与残余回声信号的相关系数，所述远端信号和所述近端信号为所述回声消除***的输入信号；

统计所述残余回声信号中存在残声的概率值大于第一预定概率阈值的语音信号帧的数量；

根据所述残余回声信号中存在残声的概率值大于第一预定概率阈值的语音信号帧的数量和所述残余回声信号的能量均方根对所述残余回声信号进行残声检测。

2.如权利要求1所述的方法，其特征在于，所述根据所述残余回声信号中存在残声的概率值大于第一预定概率阈值的语音信号帧的数量和所述残余回声信号的能量均方根对所述残余回声信号进行残声检测，包括：

3.如权利要求1所述的方法，其特征在于，所述方法还包括：

统计所述残余回声信号中存在残声的概率值小于第二预定概率阈值的语音信号帧的数量；

根据所述残余回声信号中存在残声的概率值小于第二预定概率阈值的语音信号帧的数量对所述残余回声信号进行残声检测，包括：

4.如权利要求1所述的方法，其特征在于，所述将设定的时间段内回声消除***输出的残余回声信号中语音信号帧的分类特征存在残声的概率值、第一相关系数存在残声的概率值、第二相关系数存在残声的概率值的和，作为所述语音信号帧存在残声的概率值，包括：

获取所述语音信号帧的多个分类特征的特征值；

将所述分类特征存在残声的概率值、所述第一相关系数存在残声的概率值、所述第二相关系数存在残声的概率值的和，作为所述语音信号帧存在残声的概率值。

5.如权利要求4所述的方法，其特征在于，根据分类特征的特征值确定分类特征对应的存在残声的过程概率值，包括：

6.如权利要求4所述的方法，其特征在于，所述方法还包括：

7.如权利要求6所述的方法，其特征在于，根据所述第一相关系数和所述第二相关系数对所述第一相关系数和所述第二相关系数的权值进行调整，包括：

8.如权利要求7所述的方法，其特征在于，所述第一条件为：所述第一相关系数小于第一阈值并且所述第二相关系数大于第二阈值。

9.一种残余回声检测的终端，其特征在于，包括存储器和处理器，所述存储器上存储有可在所述处理器上运行的计算机程序，当所述计算机程序被所述处理器执行时，使得所述处理器执行如权利要求1-8中任一权利要求所述的方法。

10.一种残余回声检测的装置，其特征在于，包括：

残声概率确定模块，用于将设定的时间段内回声消除***输出的残余回声信号中语音信号帧的分类特征存在残声的概率值、第一相关系数存在残声的概率值、第二相关系数存在残声的概率值的和，作为所述语音信号帧存在残声的概率值，其中所述语音信号帧的分类特征包括下列中的部分或全部：残声与噪声对数似然比、频谱平坦度和频带方差，所述第一相关系数为远端信号与近端信号的相关系数，所述第二相关系数为近端信号与残余回声信号的相关系数，所述远端信号和所述近端信号为所述回声消除***的输入信号；

统计模块，用于统计所述残余回声信号中存在残声的概率值大于第一预定概率阈值的语音信号帧的数量；以及

环境确定模块，用于根据所述残余回声信号中存在残声的概率值大于第一预定概率阈值的语音信号帧的数量和所述残余回声信号的能量均方根对所述残余回声信号进行残声检测。