CN109767780A

CN109767780A - 一种语音信号处理方法、装置、设备及可读存储介质

Info

Publication number: CN109767780A
Application number: CN201910195602.XA
Authority: CN
Inventors: 朱赛男; 浦宏杰; 鄢仁祥; 曹李军
Original assignee: Suzhou Keda Technology Co Ltd
Current assignee: Suzhou Keda Technology Co Ltd
Priority date: 2019-03-14
Filing date: 2019-03-14
Publication date: 2019-05-17
Anticipated expiration: 2039-03-14
Also published as: WO2020181766A1; US11869528B2; US20220223166A1; CN109767780B; EP3929919A4; EP3929919A1

Abstract

本发明公开了一种语音信号处理方法，该方法包括以下步骤：获取状态系数、待处理的目标语音信号以及目标语音信号的衍生信号；利用衍生信号计算目标语音信号中各信号帧分别对应的初始回波损耗，并利用状态系数对初始回波损耗进行调整，获得目标回波损耗；利用衍生信号计算目标语言信号的近远端相干值；判断目标回波损耗与单讲回声状态是否匹配；如果是，则在状态统计数据中记录近远端相干值，并更新统计信息；利用统计信息更新状态系数，并在更新状态系数时对目标语音信号进行音量控制。应用本发明实施例所提供的方法，可保证声音质量，可进一步改善用户体验。本发明还公开了一种语音信号处理装置、设备及可读存储介质，具有相应的技术效果。

Description

一种语音信号处理方法、装置、设备及可读存储介质

技术领域

本发明涉及通信技术领域，特别是涉及一种语音信号处理方法、装置、设备及可读存储介质。

背景技术

在VOIP应用(如软件视频会议、VOIP电话会议等)中，回声消除扮演着一个至关重要的角色，其性能的好坏直接影响用户会议通话的质量。在理论上，回声是由目标声音经过房间信道冲激响应后形成的，因此，可以通过自适应滤波器对回声信道的模拟，从而实现回声消除的效果。但在实际的会议通话场景中，往往存在自适应滤波收敛的局限、扬声器的非线性失真、环境背景噪声、时延抖动等各种问题。

目前的回音消除技术一般都采用线性回声消除器后级联残留回声抑制器的方法来实现消除回声的效果。实现残留回声估计最常用的方法是利用自适应滤波器输出估计的回声和泄露因子来实现残留回声估计，从而来实现残留回声的抑制。该方法在声学环境良好、滤波器收敛的情况下，才能得到较好的残留回声估计，但实际复杂环境下，滤波器很难得到真正意义上的收敛，往往估计出回声偏小，导致残留回声估计偏小，因此出现轻微回声泄露的问题。另外，为了保证会议上互动声音的质量，往往在残留回声抑制器后面级联动态范围控制器，来确保声音音量的平稳。而常用的动态范围控制器，仅仅根据声音幅度的大小来判断语音的存在与否，从而进行声音包络的跟踪和音量增益的调节。但是在出现前级回声消除较差、有回声泄露的单讲情况下，此时的动态范围控制器仍认定有语音并进行包络的错误跟踪，致使音量增益调节快速变大或变小，从而引起了回声变大以及后续正常本地声音忽然放大或是后续正常本地声音忽然变小等一系列声音质量低下的问题。

综上所述，如何有效地提高语音信号处理质量等问题，是目前本领域技术人员急需解决的技术问题。

发明内容

本发明的目的是提供一种语音信号处理方法、装置、设备及可读存储介质，以提高语音信号处理质量。

为解决上述技术问题，本发明提供如下技术方案：

一种语音信号处理方法，包括：

获取状态系数、待处理的目标语音信号以及所述目标语音信号的衍生信号；

利用所述衍生信号计算所述目标语音信号中各信号帧分别对应的初始回波损耗，并利用所述状态系数对所述初始回波损耗进行调整，获得目标回波损耗；

利用所述衍生信号计算所述目标语言信号的近远端相干值；

判断所述目标回波损耗与单讲回声状态是否匹配；

如果是，则在状态统计数据中记录所述近远端相干值，并更新统计信息；

利用所述统计信息更新所述状态系数，并在更新所述状态系数时对所述目标语音信号进行音量控制。

优选地，所述衍生信号包括残差信号、估计回声信号、远端参考信号和近端信号；利用所述衍生信号计算所述目标语音信号中各信号帧分别对应的初始回波损耗，包括：

将所述衍生信号转换为频域信号，并计算自相关功率谱；其中，频域信号包括残差频域信号、估计回声频域信号、远端参考频域信号和近端频域信号，所述信号自相关功率谱包括残差信号自相关功率谱、估计回声信号自相关功率谱和远端参考信号自相关功率谱；

结合所述频域信号和所述自相关功率谱，计算所述初始回波损耗。

优选地，所述利用所述频域信号和所述自相关功率谱，计算所述初始回波损耗，包括：

对所述残差信号和所述估计回声信号进行一元线性回归分析，获得所述目标语音信号中各个所述信号帧的泄漏系数；

按照预设所述泄漏系数与所述信号自相关功率谱的对应关系，并结合所述信号自相关功率谱，确定残留回声估计值；

利用残留回声抑制函数对残留回声进行抑制，获得残留回声抑制信号；

利用所述残留回声抑制信号和所述近端信号，确定出所述目标语音信号中各信号帧分别对应的初始回波损耗。

优选地，利用所述衍生信号计算所述目标语言信号的近远端相干值，包括：

在人类语音频率范围内，利用所述频域信号计算所述近远端相干值。

优选地，判断所述目标回波损耗与单讲回声状态是否匹配，包括：

判断所述目标回波损耗是否小于预设阈值；

如果是，则确定所述目标回波损耗与所述单讲回声状态匹配；

如果否，则确定所述目标回波损耗与所述单讲回声状态不匹配。

优选地，在所述状态统计数据以统计直方图的方式存储时，利用所述统计信息更新所述状态系数，包括：

所述统计信息中的统计量大于预设统计阈值时，获取所述统计直方图的中位值；

利用所述中位值重新计算所述状态系数，并利用计算结果更新所述状态系数。

优选地，在更新所述状态系数时对所述目标语音信号进行音量控制，包括：

在更新所述状态系数时，计算所述目标语音信号的瞬态包络值；

在所述瞬态包络值大于预设噪音阈值时，进行包络更新；

利用更新后的包络进行分贝值计算，获得分贝计算结果；

按照分贝与增益的映射关系，确定与所述分贝计算结果匹配的增益值，并利用所述增益值对所述目标语音信号进行音量控制。

一种语音信号处理装置，包括：

信号获取模块，用于获取状态系数、待处理的目标语音信号以及所述目标语音信号的衍生信号；

目标回波损耗获取模块，用于利用所述衍生信号计算所述目标语音信号中各信号帧分别对应的初始回波损耗，并利用所述状态系数对所述初始回波损耗进行调整，获得目标回波损耗；

近远端相干值计算模块，用于利用所述衍生信号计算所述目标语言信号的近远端相干值；

判断模块，用于判断所述目标回波损耗与单讲回声状态是否匹配；

近远端相干值记录模块，用于在所述目标回波损耗与所述单讲回波状态匹配时，在状态统计数据中记录所述近远端相干值，并更新统计信息；

音量控制模块，用于利用所述统计信息更新所述状态系数，并在更新所述状态系数时对所述目标语音信号进行音量控制。

一种语音信号处理设备，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现上述语音信号处理方法的步骤。

一种可读存储介质，所述可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现上述语音信号处理方法的步骤。

应用本发明实施例所提供的方法，获取状态系数、待处理的目标语音信号以及目标语音信号的衍生信号；利用衍生信号计算目标语音信号中各信号帧分别对应的初始回波损耗，并利用状态系数对初始回波损耗进行调整，获得目标回波损耗；利用衍生信号计算目标语言信号的近远端相干值；判断目标回波损耗与单讲回声状态是否匹配；如果是，则在状态统计数据中记录近远端相干值，并更新统计信息；利用统计信息更新状态系数，并在更新状态系数时对目标语音信号进行音量控制。

在获取到状态系数和待处理的目标语音信号以及目标语音信号的衍生信号之后，可利用衍生信号计算目标语音信号中各个信号帧分别对应的初始回波损耗。然后，利用状态系数对初始回波损耗进行调整，得到目标回波损耗。为了避免在单讲回声情况下，错误地认为存在语音并对包络进行错误跟踪，进一步导致音量增益调节快速变大或变小，从而引起回声变大以及后续本地语音信号忽大忽小等一系列声音信号质量低下的问题。在确定出目标回波损耗，并计算出近远端相干值之后，便可判断该目标回波损耗与单讲回声状态是否匹配，若匹配，则在状态统计数据中进行记录，并更新统计信息。然后再利用统计信息更新状态系数，并在更新状态系数时，对目标语音进行音量控制。

该方法相对与现有技术，具有环境适用度高、回声抑制能力强、声音质量高的优点。其中，环境适应度高，即无论是会议环境中混响、噪声、非线性失真等客观因素有多么复杂多变，利用状态统计数据更新状态系数，不需受理论值的限制，更能自适应地反应出当前环境单讲情况下，近远端信号的相似程度；声音质量高，即在状态系数更新时对目标语音信号进行音量控制，可避免单讲情况下回音未消除干净(回声残留轻微或很大)时响度包络的错误跟踪和增益的错误调节，可提高声音的质量。也就是说，本发明实施例所提供的方法，对目标语音信号进行处理之后，可提高目标语音信号的信号质量，能够在目标语音信号被播放时，保证声音质量，可进一步改善用户体验。

相应地，本发明实施例还提供了与上述语音信号处理方法相对应的语音信号处理装置、设备和可读存储介质，具有上述技术效果，在此不再赘述。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例中一种语音信号处理方法的实施流程图；

图2为本发明实施例中一种语音信号处理方法的技术框图；

图3为本发明实施例中一种语音信号处理方法的具体实施流程图；

图4为本发明实施例中一种语音信号处理装置的结构示意图；

图5为本发明实施例中一种语音信号处理设备的结构示意图；

图6为本发明实施例中一种语音信号处理设备的具体结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面结合附图和具体实施方式对本发明作进一步的详细说明。显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例一：

请参考图1，图1为本发明实施例中一种语音信号处理方法的流程图，该方法包括以下步骤：

S101、获取状态系数、待处理的目标语音信号以及目标语音信号的衍生信号。

需要说明的是，在本发明实施例中，所处理的目标语音信号可为利用自适应滤波器对原始语音信号进行回声消除处理后得到的信号，目标语音的衍生信号可包括残差信号、估计回声信号、远端参考信号和近端信号。为便于描述，本文中的e(n)表示残差信号、y(n)表示估计回声信号、x(n)表示远端参考信号和d(n)表示近端信号。另外，状态系数即为表征目标语音信号的状态情况的系数，可从前序语音信号处理过程中获得，状态系数根据被处理的目标语音信号的具体信号状态进行调整，调整过程可具体参见下文中状态系数的更新过程。

S102、利用衍生信号计算目标语音信号中各信号帧分别对应的初始回波损耗，并利用状态系数对初始回波损耗进行调整，获得目标回波损耗。

获得状态系数和目标语音信号，以及目标语音信号的衍生信号之后，便可利用衍生信号计算目标语音信号中各个信号帧分别对应的初始回波损耗。为了提高回波损耗的准确率，可利用状态系数对初始回波信号进行调整，获得更为准确的目标回波损耗。

其中，利用衍生信号计算目标语音信号中各信号帧分别对应的初始回波损耗的过程，包括：

步骤一、将衍生信号转换为频域信号，并计算自相关功率谱；其中，频域信号包括残差频域信号、估计回声频域信号、远端参考频域信号和近端频域信号，信号自相关功率谱包括残差信号自相关功率谱、估计回声信号自相关功率谱和远端参考信号自相关功率谱；

步骤二、结合频域信号和自相关功率谱，计算初始回波损耗。

为了便于描述，下面将上述两个步骤结合起来进行说明。

具体的，将时域的衍生信号转换为频域信号，可通过傅立叶变换实现，具体的转变过程可参见傅里叶变换的实现过程，在此不再一一赘述。由于衍生信号包括残差信号、估计回声信号、远端参考信号和近端信号，因而进行信号转变之后，所得的频域信号相应包括残差频域信号、估计回声频域信号、远端参考频域信号和近端频域信号。为了便于描述，本文中的e(w)表示残差频域信号、Y(w)表示估计回声频域信号、X(w)表示远端参考频域信号和D(w)表示近端频域信号。得到频域信号之后，便可利用频域信号计算目标语音信号中各种组成信号的自相关功率谱。具体的，可计算出得残差信号自相关功率谱S_EE(w)、估计回声自相关功率谱S_YY(w)和远端参考信号自相关功率谱S_XX(w)。

其中，结合频域信号和自相关功率谱，计算初始回波损耗的具体实现过程，包括：

步骤一、对残差信号和估计回声信号进行一元线性回归分析，获得目标语音信号中各个信号帧的泄漏系数；

步骤二、按照预设泄漏系数与信号自相关功率谱的对应关系，并结合信号自相关功率谱，确定残留回声估计值；

步骤三、利用残留回声抑制函数对残留回声进行抑制，获得残留回声抑制信号；

步骤四、利用残留回声抑制信号和近端信号，确定出目标语音信号中各信号帧分别对应的初始回波损耗。

为了便于描述，下面将上述四个步骤结合起来进行说明。

计算当前帧(第l帧)残留回声的泄露系数Leak(l)，该值反应回声相对于远端信号的泄露程度，由残差信号e(n)和估计回声y(n)一元线性回归分析得到，其表达为其中，R_EY(l，w)是残差信号与估计回声信号的递归平均得到的频域互相干值，R_YY(l，w)是估计回声信号的递归平均得到的自相关值，其表达式分别为

R_EY(l，w)＝(1-β)*R_EY(l-1，w)+β*E(w)*Y(w)，R_YY(l，w)＝(1-β)*R_YY(l-1，w)+β*S_YY(w)，其中，R_EY(0，w)＝1，R_EY(0，w)＝1，β为平滑系数(β的取值范围在0-1区间内，如可取0.93)。

然后按照预设泄漏系数与信号自相关功率谱的对应关系，计算残留回声的估计值REcho(w)：当泄露因子Leak大于0.5时，残留回声的估计值REcho(w)＝S_YY(w)，否则REcho(w)＝2*S_YY(w)。优选地，在***趋于稳定时，可利用状态系数进行微调，进一步获得残留回声估计值为：REcho(w)＝REcho(w)*Ralpha(w)，其中，Ralpha(w)为状态系数。

其中，残留回声抑制函数为SEE(w)为残差信号自相关功率谱、S_YY(w)为估计回声信号自相关功率谱，REcho(w)为残留回声估计值。利用残留回声抑制函数进行回声抑制，从而获得残留回声抑制器输出的信号e2(n)。

然后，计算目标回波损耗ERLE：

其中，N为帧长。

需要说明的是，以上计算回波损耗的方式仅仅是本发明所列举的一种可选实施方式，对于本领域技术人员而言，完全可以采用与上述方式相关或者相似的方式计算，例如，修改和增加相关参数的权重系数、增加误差偏移等等。本发明实施例中所述的计算相干值、瞬态包络值、功率等都同理，仅仅只是一种可选的计算方式，并没有不当限定。

S103、利用衍生信号计算目标语言信号的近远端相干值。

具体的，可将衍生信号中的远端参考信号和近端信号转换为频域信号之后，利用远端参考频域信号和近端频域信号来计算目标语音信号的近远端相干值。

优选地，由于本发明实施例所处理的目标语音信号主要声音源为人发出的声音，经声音传感器转换而得，因此为了减少其他噪音干扰，在计算近远端相干值时，可在人类语音频率范围内，利用频域信号计算近远端相干值。其中，人类语音频率范围即(300Hz～3000Hz)，也就是说，计算近远端相干值时，频率搜索范围即为(300Hz～3000Hz)。

S104、判断目标回波损耗与单讲回声状态是否匹配。

在本发明实施例中，可预设设置用于判断目标回波损耗是否匹配单讲回声状态匹配的判断阈值，即预设阈值T_erle。(根据ITU G.167标准，此处T_erle值建议选-40dB)具体的判断过程，包括：

步骤一、判断目标回波损耗是否小于预设阈值；

步骤二、如果是，则确定目标回波损耗与单讲回声状态匹配；

步骤三、如果否，则确定目标回波损耗与单讲回声状态不匹配。

为便于描述，下面将上述三个步骤结合起来进行说明。

当回波损耗ERLR＜T_erle值时，初定为单讲回声状态，则执行步骤S105的操作；否则，则可无需进行处理，即可无操作。

S105、在状态统计数据中记录近远端相干值，并更新统计信息。

在计算出近远端相干值之后，并在目标回波损耗与单讲回声状态匹配时，将计算所得的近远端相干值记录在状态统计数据中。为了便于统计，可以以状态统计直方图的形式存储状态统计数据。当然，在本发明的其他实施例中，还可以表格或序列等常见数据统计形式存储该状态统计数据。其中，统计信息可包括所记录近远端相干值的统计量、统计时间。

S106、利用统计信息更新状态系数，并在更新状态系数时对目标语音信号进行音量控制。

由于统计信息的是对满足单讲回声状态下所记录的近远端相干值的状态统计数据的进一步统计结果，结合统计信息便可知目标语音信号的状态情况，即可利用统计信息对状态系数进行更新。具体的，在状态统计数据以统计直方图的方式存储时，可在统计信息中的统计量大于预设统计阈值时，获取统计直方图的中位值；利用中位值重新计算状态系数，并利用计算结果更新状态系数。基于中位值计算状态系数，无需受理论值的限制，能够更好的反应目标语音信号的状态情况。

具体的，在更新状态系数时，计算目标语音信号的瞬态包络值；在瞬态包络值大于预设噪音阈值时，进行包络更新；利用更新后的包络进行分贝值计算，获得分贝计算结果；按照分贝与增益的映射关系，确定与分贝计算结果匹配的增益值，并利用增益值对目标语音信号进行音量控制。其中，瞬态包络值的具体计算过程即计算目标语音信号的能量平均值。包络线就是反映信号幅度变化的曲线，包络线上各个点所对应的值，即可视为瞬态包络值。得到瞬态包络值之后，便可通过判断瞬态包络值是否大于预设噪音阈值，确定是否进行包络更新。即，当瞬态包络值大于预设阈值时，视为存在语音，此时可进行包络更新。然后，对更新后的包络进行封闭计算，最终基于分贝值确定出增益值。如此，便可对目标语音信号进行增益控制，即可对语音信号的音量进行控制。

实施例二：

为了便于本领域技术人员更好地理解本发明实施例所提供的语音信号处理方法，下面将上述步骤所实现的功能模拟为相应器件后，对本发明实施例所提供的语音信号处理方法，进行详细说明。

请参考图2，图2为本发明实施例中一种语音信号处理方法的技术框图。可见，本发明所提供在语音信号处理方法，可由残留回声抑制器、状态统计分析器、动态范围控制器三部分组成，其中，状态系数作为状态统计分析器的输出，反馈调节残留回声抑制器中回声的估计，同时又为动态范围控制器的响度跟踪作为一种判断依据。

请参考图3，图3为本发明实施例中一种语音信号处理方法的具体实施流程图。该方法的具体实现过程，包括：

S201：信号预处理：残留回声抑制器获得自适应滤波器的残差信号e(n)、估计回声信号y(n)、远端参考信号x(n)和近端信号d(n)，并分别进行傅里叶变换，得到残差信号频域信号e(w)、估计回声频域信号Y(w)、远端参考频域信号X(w)和近端频域信号D(w)。同时，分别计算残差信号自相关功率谱S_EE(w)、估计回声信号自相关功率谱S_YY(w)和远端参考信号自相关功率谱S_XX(w)；

S202：计算泄露系数：计算当前帧(第l帧)残留回声的泄露系数Leak(l)，该值反应回声相对于远端信号的泄露程度，由残差信号e(n)和估计回声y(n)一元线性回归分析得到，其表达为其中，R_EY(l，w)是残差信号与估计出回声的递归平均得到的频域互相干值，R_YY(l，w)是估计回声的递归平均得到的自相关值，其表达式分别为：

R_EY(l，w)＝(1-β)*R_EY(l-1，w)+β*E(w)*Y(w)，R_YY(l，w)＝(1-β)*R_YY(l-1，w)+β*S_YY(w)，其中，R_EY(0，w)＝1，R_EY(0，w)＝1，β为平滑系数，取0.93。

S203：计算估计残留回声：即计算残留回声的估计值REcho(w)，当泄露因子Leak大于0.5时，残留回声的估计值REcho(w)＝S_YY(w)，否则REcho(w)＝2*S_YY(w)。此处，如果统计直方图统计数量超过T_N帧，***趋于稳定时：进而采用状态统计分析器反馈的状态系数进行微调，进一步获得残留回声估计值为：REcho(w)＝REcho(w)*Ralpha(w)，其中，Ralpha(w)为状态统计分析器反馈的状态系数；

S204：对残留回声进行抑制：利用残留回声抑制的函数进行回声抑制，从而获得残留回声抑制器输出的信号e2(n)；

S205：计算目标回波损耗：利用计算目标回波损耗，其中，N为帧长；

S206：计算远近端相干值分布情况：远近端相干平均值为其中startbin与endbin对应的频率搜索范围分别为300Hz～3000Hz，此频率段为说话人语音的主要频率范围。其中S_XD(w)、S_X(w))和S_D(w)的计算方式分别如下：S_XD(w)＝gcoh*S_XD(w)+(1-gcoh)*X(w)*D(w)；S_X(w)＝gcoh*S_X(w)+(1-gcoh)*X(w)*X(w)；S_D(w)＝gcoh*S_D(w)+(1-gcoh)*D(w)*D(w)，其中gcoh为遗忘因子，此处取0.93。

S207：更新状态分析统计器中的状态统计直方图：当目标回波损耗ERLR＜T_erle值(根据ITU G.167标准，此处T_erle值建议选-40dB)时，初定为单讲回声状态，则将当前的C_XD加入进行状态统计直方图进行更新，同时，状态统计直方图的统计数量加一；否则不加入直方图统计。

S208：计算状态系数：如果状态统计直方图的统计数量大于T_N，则取直方图统计的中位值T_XD。在此，计算状态系数其中alpha为权重系数，取值范围为0～1，建议选取0.5，并该值还可根据环境和计算因子的可靠性选择进行微调。同时，状态系数的范围控制在：之间。如果直方图的统计数量大于T_N，则将状态系数反馈给残留回声抑制器和动态范围控制器。

S209：计算输出语音的包络：当前目标语音信号的瞬态包络值为当EvenlopTemp>T_noise，认为当前状态有语音，考虑到噪声一般分布在-60dB以下，此处T_noise取0.000001。在语音信号存在的条件下，当且仅在这两个情况(直方图的统计数量小于T_N、直方图的统计数量大于T_N且C_XD＜(0.75*T_XD)，其中，不等式中的数值0.75，其设置原因主要考虑平均值偏上的值，更具有可靠性，当然，这个数值也可以在0～1之间选择)下，才进行包络更新：

Evenlop＝factor*Evenlop+(1-factor)*EvenlopTemp，其中factor为遗忘系数，取0.5；反之，不进行包络更新。

S210：动态增益控制器进行分贝值计算：计算当前帧声音对应的分贝值可表示为：

EvenlopdB(l)＝10*log₁₀(Evenlop)。对信号进行平滑，如果EvenlopdB(l)＞EvenlopdB(l-1)，则信号的二次平滑值EvenlopdBSmooth可表示为：EvenlopdBSmooth＝EvenlopdBSmooth*attact+(1-attact)*EvenlopdB(l)，其中attact为启动时间系数，取值范围0～1之间，比如可取0.933；如果EvenlopdB(l)＜EvenlopdB(l-1)，则信号的二次平滑值EvenlopdBSmooth可表示为：EvenlopdBSmooth＝EvenlopdBSmooth*release+(1-release)*EvenlopdB(l)，其中release为释放时间系数，取值范围0～1之间，比如可取0.966。

S211：动态增益控制器进行增益值计算：动态增益控制的增益函数可表示为：其中G_Target为目标分贝值，根据说话人正常的音量范围分布，此处建议取-30dB。为了避免增益值出现毛刺，对增益值进行平滑g_out＝g_out*β+g*(1-β)，其中β的取值范围在0-1之间，如可取0.93，从而进行增益调节后输出。

可见，本发明所提供的语音信号处理方法，即为基于统计反馈的回声消除后处理方法，由残留回声抑制器、状态统计分析器、动态范围控制器三部分组成。其中状态统计分析器根据残留回声抑制器输出的残差信号e(n)，以及近端信号d(n)，实时计算回波损耗ERLE，并实时分析300Hz～3000Hz(人的语音主要频率范围，有利于减少噪声的干扰)之间近远端互相干性的平均值Cxd。在不同复杂环境下，由于混响、噪声、非线性失真等因素的存在，纯单讲情况下近远端互相关值往往不在是理论上的1，因此，当ERLE小于临界值T_erle时，认定位单讲场景(与单讲回声状态匹配)，则将此时的Cxd加入状态统计直方图进行统计，从而确定该环境单讲情况下近远端相干值大致分布情况。

当状态统计直方图统计量超过T_N帧时，认定趋于稳定时，实时取统计值的中值位置所对应的互相干值Txd。由当前时刻下，互相干平均值Cxd与Txd之间的隐射关系，确定当前回声的可能性，从而计算出状态系数，并将该状态系数反馈给前级的残留回声抑制器，用于残留回声的估计一个依据，从而避免残留回声的过小估计，避免回声的泄露；另外，将状态系数输出给动态范围控制器，当状态系数值大于阈值T_thre时，尽管语音检测存在时，也不进行包络的跟踪，认为此刻语音中含有的回声比较大地影响包络跟踪，瞬间增益值仍取上个状态的值，从而避免了回声的放大以及本地语音忽然放大或是本地语音忽然变小等互动声音质量低下的问题。

实施例三：

相应于上面的方法实施例，本发明实施例还提供了一种语音信号处理装置，下文描述的语音信号处理装置与上文描述的语音信号处理方法可相互对应参照。

参见图4所示，该装置包括以下模块：

信号获取模块101，用于获取状态系数、待处理的目标语音信号以及目标语音信号的衍生信号；

目标回波损耗获取模块102，用于利用衍生信号计算目标语音信号中各信号帧分别对应的初始回波损耗，并利用状态系数对初始回波损耗进行调整，获得目标回波损耗；

近远端相干值计算模块103，用于利用衍生信号计算目标语言信号的近远端相干值；

判断模块104，用于判断目标回波损耗与单讲回声状态是否匹配；

近远端相干值记录模块105，用于在目标回波损耗与单讲回波状态匹配时，在状态统计数据中记录近远端相干值，并更新统计信息；

音量控制模块106，用于利用统计信息更新状态系数，并在更新状态系数时对目标语音信号进行音量控制。

应用本发明实施例所提供的装置，获取状态系数、待处理的目标语音信号以及目标语音信号的衍生信号；利用衍生信号计算目标语音信号中各信号帧分别对应的初始回波损耗，并利用状态系数对初始回波损耗进行调整，获得目标回波损耗；利用衍生信号计算目标语言信号的近远端相干值；判断目标回波损耗与单讲回声状态是否匹配；如果是，则在状态统计数据中记录近远端相干值，并更新统计信息；利用统计信息更新状态系数，并在更新状态系数时对目标语音信号进行音量控制。

该装置相对与现有技术，具有环境适用度高、回声抑制能力强、声音质量高的优点。其中，环境适应度高，即无论是会议环境中混响、噪声、非线性失真等客观因素有多么复杂多变，利用状态统计数据更新状态系数，不需受理论值的限制，更能自适应地反应出当前环境单讲情况下，近远端信号的相似程度；声音质量高，即在状态系数更新时对目标语音信号进行音量控制，可避免单讲情况下回音未消除干净(回声残留轻微或很大)时响度包络的错误跟踪和增益的错误调节，可提高声音的质量。也就是说，本发明实施例所提供的装置，对目标语音信号进行处理之后，可提高目标语音信号的信号质量，能够在目标语音信号被播放时，保证声音质量，可进一步改善用户体验。

在本发明的一种具体实施方式中，衍生信号包括残差信号、估计回声信号、远端参考信号和近端信号，相应地，目标回波损耗获取模块102，具体用于将衍生信号转换为频域信号，并计算自相关功率谱；其中，频域信号包括残差频域信号、估计回声频域信号、远端参考频域信号和近端频域信号，信号自相关功率谱包括残差信号自相关功率谱、估计回声信号自相关功率谱和远端参考信号自相关功率谱；结合频域信号和自相关功率谱，计算初始回波损耗。

在本发明的一种具体实施方式中，目标回波损耗获取模块102，具体用于对残差信号和估计回声信号进行一元线性回归分析，获得目标语音信号中各个信号帧的泄漏系数；按照预设泄漏系数与信号自相关功率谱的对应关系，并结合信号自相关功率谱，确定残留回声估计值；利用残留回声抑制函数对残留回声进行抑制，获得残留回声抑制信号；利用残留回声抑制信号和近端信号，确定出目标语音信号中各信号帧分别对应的初始回波损耗。

在本发明的一种具体实施方式中，近远端相干值记录模块105，具体用于在人类语音频率范围内，利用频域信号计算近远端相干值。

在本发明的一种具体实施方式中，判断模块104，具体用于判断目标回波损耗是否小于预设阈值；如果是，则确定目标回波损耗与单讲回声状态匹配；如果否，则确定目标回波损耗与单讲回声状态不匹配。

在本发明的一种具体实施方式中，近远端相干值记录模块105，用于状态统计数据以统计直方图的方式存储，并在统计信息中的统计量大于预设统计阈值时，获取统计直方图的中位值；利用中位值重新计算状态系数，并利用计算结果更新状态系数。

在本发明的一种具体实施方式中，音量控制模块106，具体用于在更新状态系数时，计算目标语音信号的瞬态包络值；在瞬态包络值大于预设噪音阈值时，进行包络更新；利用更新后的包络进行分贝值计算，获得分贝计算结果；按照分贝与增益的映射关系，确定与分贝计算结果匹配的增益值，并利用增益值对目标语音信号进行音量控制。

实施例四：

相应于上面的方法实施例，本发明实施例还提供了一种语音信号处理设备，下文描述的一种语音信号处理设备与上文描述的一种语音信号处理方法可相互对应参照。

参见图5所示，该语音信号处理设备包括：

存储器D1，用于存储计算机程序；

处理器D2，用于执行计算机程序时实现上述方法实施例的语音信号处理方法的步骤。

具体的，请参考图6，图6为本实施例提供的一种语音信号处理设备的具体结构示意图，该语音信号处理设备可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(central processing units，CPU)322(例如，一个或一个以上处理器)和存储器332，一个或一个以上存储应用程序342或数据344的存储介质330(例如一个或一个以上海量存储设备)。其中，存储器332和存储介质330可以是短暂存储或持久存储。存储在存储介质330的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对数据处理设备中的一系列指令操作。更进一步地，中央处理器322可以设置为与存储介质330通信，在语音信号处理设备301上执行存储介质330中的一系列指令操作。

语音信号处理设备301还可以包括一个或一个以上电源326，一个或一个以上有线或无线网络接口350，一个或一个以上输入输出接口358，和/或，一个或一个以上操作***341。例如，Windows ServerTM，Mac OS XTM，UnixTM，LinuxTM，FreeBSDTM等。

上文所描述的语音信号处理方法中的步骤可以由语音信号处理设备的结构实现。

实施例五：

相应于上面的方法实施例，本发明实施例还提供了一种可读存储介质，下文描述的一种可读存储介质与上文描述的一种语音信号处理方法可相互对应参照。

一种可读存储介质，可读存储介质上存储有计算机程序，计算机程序被处理器执行时实现上述方法实施例的语音信号处理方法的步骤。

该可读存储介质具体可以为U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可存储程序代码的可读存储介质。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

Claims

1.一种语音信号处理方法，其特征在于，包括：

利用所述衍生信号计算所述目标语言信号的近远端相干值；

判断所述目标回波损耗与单讲回声状态是否匹配；

2.根据权利要求1所述的语音信号处理方法，其特征在于，所述衍生信号包括残差信号、估计回声信号、远端参考信号和近端信号；利用所述衍生信号计算所述目标语音信号中各信号帧分别对应的初始回波损耗，包括：

3.根据权利要求2所述的语音信号处理方法，其特征在于，所述利用所述频域信号和所述自相关功率谱，计算所述初始回波损耗，包括：

4.根据权利要求2所述的语音信号处理方法，其特征在于，利用所述衍生信号计算所述目标语言信号的近远端相干值，包括：

5.根据权利要求1所述的语音信号处理方法，其特征在于，判断所述目标回波损耗与单讲回声状态是否匹配，包括：

判断所述目标回波损耗是否小于预设阈值；

6.根据权利要求1所述的语音信号处理方法，其特征在于，在所述状态统计数据以统计直方图的方式存储时，利用所述统计信息更新所述状态系数，包括：

在所述统计信息中的统计量大于预设统计阈值时，获取所述统计直方图的中位值；

7.根据权利要求1所述的语音信号处理方法，其特征在于，在更新所述状态系数时对所述目标语音信号进行音量控制，包括：

在所述瞬态包络值大于预设噪音阈值时，进行包络更新；

利用更新后的包络进行分贝值计算，获得分贝计算结果；

8.一种语音信号处理装置，其特征在于，包括：

9.一种语音信号处理设备，其特征在于，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现如权利要求1至7任一项所述语音信号处理方法的步骤。

10.一种可读存储介质，其特征在于，所述可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述语音信号处理方法的步骤。