CN118230703A

CN118230703A - 一种语音处理方法、装置和电子设备

Info

Publication number: CN118230703A
Application number: CN202211648341.0A
Authority: CN
Inventors: 肖畅; 马晔; 黄锦; 李京
Original assignee: Beijing Zitiao Network Technology Co Ltd
Current assignee: Beijing Zitiao Network Technology Co Ltd
Priority date: 2022-12-21
Filing date: 2022-12-21
Publication date: 2024-06-21
Also published as: WO2024131371A1

Abstract

本公开实施例公开了一种语音处理方法、装置和电子设备，方法包括：接收远端语音帧；基于所述远端语音帧的语音频谱估计结果和环境噪声场景对应的噪声帧的噪声频谱估计结果，确定滤波器的滤波系数；基于具有所述滤波系数的所述滤波器对所述远端语音帧进行滤波处理以得到滤波后语音帧；基于终端设备缓存的多个输出语音帧、所述远端语音帧和所述终端设备的当前***音量对应的预设响度，确定所述远端语音帧对应的输出语音帧的期望响度，其中，所述终端设备缓存的多个输出语音帧包括与所述远端语音帧时序邻近的多个接收语音帧分别对应的输出语音帧；基于所述期望响度和所述滤波后语音帧，确定所述远端语音帧对应的输出语音帧。

Description

一种语音处理方法、装置和电子设备

技术领域

本公开涉及语音处理领域，尤其涉及一种语音处理方法、装置和电子设备。

背景技术

随着移动终端在日常生活的广泛应用，通过移动终端与远端进行语音通信已是很普遍的场景。在嘈杂的环境中，用户难免会受到环境噪声的干扰。主动噪声消除(ActiveNoise Control，ANC)技术是一种较为有效的噪声消除方案。然而，现有的ANC技术往往需要实时采集环境噪音，以通过分析抑制环境噪音提高远端语音的近场可懂度，这将会消耗移动终端较多的计算资源。

如何在保持远端语音的近场可懂度不低于预设阈值的情况下尽量减少噪声消除所使用的计算资源，是亟待解决的技术问题。

发明内容

本公开实施例提供一种语音处理方法，能够在保持远端语音的近场可懂度不低于某个预定阈值的情况下尽量减少移动终端的计算资源，大大减小了移动终端在进行噪音消除时的计算资源消耗。

本公开实施例还提供一种语音处理装置、电子设备和计算机可读存储介质。

本公开实施例采用下述技术方案：

第一方面，提出了一种语音处理方法，应用于终端设备，包括：

接收远端语音帧；；

基于所述远端语音帧的语音频谱估计结果和环境噪声场景对应的噪声帧的噪声频谱估计结果，确定滤波器的滤波系数；

基于具有所述滤波系数的所述滤波器对所述远端语音帧进行滤波处理以得到滤波后语音帧；

基于所述终端设备缓存的多个输出语音帧、所述远端语音帧和所述终端设备的当前***音量对应的预设响度，确定所述远端语音帧对应的输出语音帧的期望响度，其中，所述终端设备缓存的多个输出语音帧包括与所述远端语音帧时序邻近的多个接收语音帧分别对应的输出语音帧；

基于所述期望响度和所述滤波后语音帧，确定所述远端语音帧对应的输出语音帧。

第二方面，提出了一种语音处理装置，包括：

接收模块，用于接收远端语音帧；

第一确定模块，用于基于所述远端语音帧的语音频谱估计结果和环境噪声场景对应的噪声帧的噪声频谱估计结果，确定滤波器的滤波系数；

滤波模块，用于基于具有所述滤波系数的所述滤波器对所述远端语音帧进行滤波处理以得到滤波后语音帧；

第二确定模块，用于基于所述终端设备缓存的多个输出语音帧、所述远端语音帧和所述终端设备的当前***音量对应的预设响度，确定所述远端语音帧对应的输出语音帧的期望响度，其中，所述终端设备缓存的多个输出语音帧包括与所述远端语音帧时序邻近的多个接收语音帧分别对应的输出语音帧；

第三确定模块，用于基于所述期望响度和所述滤波后语音帧，确定所述远端语音帧对应的输出语音帧。

第三方面，提出了一种电子设备，包括：

处理器；以及

存储器，用于存储计算机可执行指令，所述可执行指令在被执行时使所述处理器执行以下操作：

接收远端语音帧；

基于终端设备缓存的多个输出语音帧、所述远端语音帧和所述终端设备的当前***音量对应的预设响度，确定所述远端语音帧对应的输出语音帧的期望响度，其中，所述终端设备缓存的多个输出语音帧包括与所述远端语音帧时序邻近的多个接收语音帧分别对应的输出语音帧；

第四方面，提出了一种计算机可读存储介质，所述计算机可读存储介质存储一个或多个可执行指令，所述可执行指令在被包括电子设备执行时，使得所述电子设备执行以下操作：

接收远端语音帧；

本公开实施例采用的上述至少一个技术方案能够达到以下有益效果：

通过利用环境噪声场景中的噪声帧的噪声频谱估计结果和远端语音帧的语音频谱估计结果确定滤波器的滤波系数并基于具有该滤波系数的滤波器进行滤波，并根据终端设备缓存的输出语音帧调整输出响度以得到输出语音帧，能够在保持远端语音的近场可懂度不低于某个预定阈值的情况下，尽量减少移动终端的计算资源，大大减小了移动终端在进行噪音消除时的计算资源消耗。

附图说明

此处所说明的附图用来提供对本公开的进一步理解，构成本公开的一部分，本公开的示意性实施例及其说明用于解释本公开，并不构成对本公开的不当限定。在附图中：

图1是本公开实施例的一种语音处理方法流程图。

图2是本公开实施例确定滤波器系数的一种流程示意图。

图3是本公开实施例的一种实时动态范围压缩语音的方法流程图。

图4是本公开实施例的一种语音处理装置的结构示意图。

图5是本公开的一个实施例电子设备的结构示意图。

具体实施方式

为使本公开的目的、技术方案和优点更加清楚，下面将结合本公开具体实施例及相应的附图对本公开技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本公开一部分实施例，而不是全部的实施例。基于本公开中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本公开保护的范围。为便于理解本公开实施例的技术方案，引入以下几个概念。

声场：可分近场和远场两部分。近场声束集中，呈圆柱形，声强分布不均匀。远场声束扩散，呈喇叭形，声强分布均匀，但因声束的扩散角，声束开始发散，逐渐增宽。

可懂度：也称为可懂度指数(Speech Intellibility Index，SII)，一般用听者能听懂通过一定传声***传递的言语信号的百分率来衡量。例如给听者听100个单词，听对了50个，其可懂度就是50％。以听者为常量，以通话***或通话条件为变量，听者的不同可懂度即可作为***或条件质量好坏的指标。

近场可懂度：指听者在近场能听懂通过一定传声***传递的言语信号的百分率。例如，在用户用智能手机接听电话的场景中，就可以用近场可懂度衡量用户对接听语音的识别效果。

人类听感等响曲线：指典型听音者感觉响度相同的纯音的声压级与频率关系的曲线。人的耳朵对不同频率的声音的灵敏度是不一样的。例如，在播放同样大小声音的时候，4000hz左右的声音，耳朵是比较敏感的，所以这部分声音听起来就会比较大声一点；而8000hz左右的声音耳朵就比较不敏感，所以听起来就会比较小声一点。让很多人去描绘自己听到每个频率的声音大小，最后再综合起来，就形成了一条曲线，也就是人类听感等响曲线。这条曲线在1927年被总结出来，1933年被“国际标准化组织”所采纳，形成了iso/r266标准。

以下结合附图，详细说明本公开各实施例提供的技术方案。

图1是本公开实施例的一种语音处理方法流程图。应理解，本公开实施例的语音处理方法，可适用于各种可接收远端设备语音的终端设备，例如智能手机、平板电脑等等。该方法可包括：

S102，接收远端语音帧。

应理解，本公开实施例的远端语音帧，可以是与本地的终端设备进行交互的远端设备发送的语音帧，也可以是远端设备单方向终端设备发送的语音帧，并不局限于交互的场景。例如，终端设备A和终端设备B进行语音通信，终端设备A的远端语音帧就是指终端设备B发送给终端设备A的语音帧；终端设备A向终端设备B发送语音录音，终端设备B的远端语音帧就是指终端设备A发送给终端设备B的语音录音中的语音帧。此外，本公开实施例的远端语音帧，可包括只有音频的语音帧，也可包括从具有图像和音频的视频帧提取出的语音帧。

S104，基于远端语音帧的语音频谱估计结果和环境噪声场景对应的噪声帧的噪声频谱估计结果，确定滤波器的滤波系数。。

应理解，本公开实施例中，远端语音帧的语音频谱估计结果，可包括远端语音帧的频谱分布。噪声帧的噪声频谱估计结果，可包括噪声帧的频谱分布。在本公开实施例中，可通过多种频谱估计方式得到语音频谱估计结果或噪声频谱估计结果，本公开实施例对此不作限制。

应理解，由于终端设备的计算资源相对有限，对实际环境噪声进行实时采集，将会导致终端设备消耗较多的计算资源。为此，本公开实施例可在确定滤波系数之前，先将环境噪声场景对应的音频片段存储在终端设备中，以便在确定滤波系数时可以直接从终端设备读取环境噪声场景对应的音频片段而不需要实时通过终端设备的麦克风设备采集外部音频。

可选地，作为一个实施例，该环境噪声场景可以是终端设备默认配置的。此时，可直接使用默认的环境噪声场景对应的音频片段以得到噪声帧的噪声频谱估计结果。

可选地，作为另一个实施例，终端设备中存储有多个候选环境噪声场景分别对应的音频片段。此时，在确定滤波系数之前，终端设备的用户可选择一个候选环境噪声场景作为用于确定滤波系数的环境噪声场景。具体地，在步骤S104之前，该方法可包括：

展示包含多个候选环境噪声场景的选择界面，一个所述候选环境噪声场景对应一个预先存储的噪声音频片段；

确认选中的候选环境噪声场景为所述环境噪声场景。

当然，应理解，在展示包含多个候选环境噪声场景的选择界面之前，还可通过接收所述终端设备的用户的场景选择操作以触发展示选择界面的动作。

或者，可选地，当终端设备判断存在多个候选环境噪声场景，且不存在默认的环境噪声场景时，可直接展示该选择界面。

可选地，作为再一个实施例，如果终端设备中不存在与当前实际环境噪声场景匹配的场景时，可直接现场录制并存储为用于确定滤波系数的环境噪声场景。具体地，在步骤S104之前，该方法可包括：

接收所述终端设备的用户的场景录制操作；

通过所述终端设备的音频采集设备录制所述终端设备当前所处环境的音频；

基于录制的音频新建场景并作为所述环境噪声场景使用。

本公开实施例中，通过使用终端设备存储的环境噪声场景对应的音频片段确定滤波系数以进行滤波，可以大大减少实时采集环境噪声场景所需的计算资源。

当然，应理解，环境噪声场景对应的音频片段中有很多帧，可通过多种方式确定远端语音帧在境噪声场景对应的噪声帧，以得到噪声帧的噪声频谱估计结果。

可选地，可将环境噪声场景对应的噪声音频片段循环处理与实时的远端语音帧对齐，即相当于环境噪声场景对应的噪声音频片段循环拼接模拟实时场景噪声。如果环境噪声场景对应的噪声音频片段为N帧，则第一帧远端语音帧对应噪声音频片段的第一帧，第二帧远端语音帧对应噪声音频片段的第二帧，……第N帧远端语音帧对应噪声音频片段的第N帧；然后，第N+1远端语音帧对应噪声音频片段的第1帧，以此类推。

或者，可选地，可假定噪声是平稳的，那么在求得环境噪声场景对应的噪声音频片段的时频谱后，可在时间维度上做个平均得到噪声的平均频谱。此时的噪声帧就是一个常数帧，噪声帧的噪声频谱估计结果就是前面提到的噪声的平均频谱。

应理解，前述的两种方案中，第一种方案一般适用于超过预设时长/帧长的噪声音频片段，第二种方案一般适用于小于时长/帧长的噪声音频片段。例如，时长超过2秒可选择第一种方案，时长小于2秒可选择第二种方案。当然，这也不是绝对的，大于预设时长/帧长的噪声音频片段可选择第二种方案，小于预设时长/帧长的噪声音频片段也可选择第一种方案。应理解，本公开实施例中，在获得远端语音帧和环境噪声场景的噪声帧之后，即可根据远端语音帧和噪声帧确定滤波器的系数。

图2是本公开实施例确定滤波器系数的一种流程示意图。

可选地，作为一个实施例，步骤S104如图2所示，具体可实现为：

202，基于远端语音帧的关键频带分布和环境噪声场景中噪声帧的关键频带分布，获取所述远端语音帧中各关键频带的当前信噪比。

应理解，本公开实施例中，远端语音帧的语音频谱估计结果可包括所述远端语音帧的关键频带分布，环境噪声场景对应的噪声帧的噪声频谱估计结果包括噪声帧的关键频带分布。

应理解，由于频谱估计方式的不同，得到远端语音帧或噪声帧的关键频带分布也不同。一般来说，通过给定一个上下限频率和频带个数，可以得出一组关键频带。例如，如果选取巴克频谱，规定频谱上下限为20Hz和16000Hz，频带数量为8，就可以得到[175.27,526.8,1008.95,1741.27,2905.36,4789.86,7862.05,12883.7]这8个频带中心，也即巴克频谱里面的滤波器组频带。这八个频带在人耳听起来覆盖的音高范围大致相等。举例来说，人耳会觉得[20-330.54Hz]和[330.54-723.06Hz]这两段频率覆盖的音高范围差不多。这就是巴克频谱的前两个关键频带，分别以175.27Hz和526.8Hz为频带中心。当然，应理解，在选择远端语音帧的语音频谱估计结果和噪声帧的噪声频谱估计结果时，除了选择巴克频谱的滤波器组频带，还可选择其他的滤波器组频带，例如梅尔频谱的滤波器组频带，等等，本公开实施例对此不作限制。

具体地，步骤202可包括：

基于所述远端语音帧的关键频带分布，确定所述远端语音帧中各关键频带对应的能量；

基于所述噪声帧的关键频带分布，确定所述噪声帧中各关键频带对应的能量；

基于所述远端语音帧的各关键频带对应的能量和所述噪声帧的各关键频带对应的能量，确定所述远端语音帧的各关键频带的当前信噪比。

例如，根据远端语音帧在巴克频谱的8个关键频带分布，可以获得远端语音帧在这8个关键频带上的能量P_y1、P_y2……P_y8。根据噪声帧在巴克频谱的8个关键频带分布，可以获得噪声帧在这8个关键频带上的能量P_z1、P_z2……P_z8。然后根据能量P_y1、P_y2……P_y8和能量P_z1、P_z2……P_z8，可确定远端语音帧在这8个关键频带的当前信噪比P_y1/P _z1、P_y2/P _z2……P_y8/P _z8。此处列举的确定信噪比的方式仅供参考，具体计算方法可参考现有技术。

212，基于所述远端语音帧中各关键频带的当前信噪比和所述远端语音帧对应的输出语音帧在所述远端语音帧中各关键频带的期望信噪比，确定所述滤波器的滤波系数。

应理解，在得到远端语音帧的各关键频带的实际SNR和所述远端语音帧对应的输出语音帧在远端语音帧的各关键频带的期望SNR后，即可基于远端语音帧的各关键频带的实际SNR和所述远端语音帧对应的输出语音帧在远端语音帧的各关键频带的期望SNR，确定滤波器的滤波系数，以通过对远端语音帧进行滤波得到与各关键频带的期望SNR相匹配的输出语音帧。

当然，应理解，在步骤212之前，该方法还可包括步骤204：

204，基于人类听感等响曲线、所述远端语音帧的各关键频带的能量和噪声帧的各关键频带的能量确定所述远端语音帧对应的输出语音帧在所述远端语音帧的各关键频带的期望SNR。

具体地，该步骤204进一步可包括：

基于所述远端语音帧和所述噪声帧在所述远端语音帧的各关键频带的响度，以及终端设备的当前***音量对应的人类听感等响曲线，确定所述远端语音帧的各关键频带对应的人类平均响度感知修正系数；

基于所述远端语音帧的各关键频带对应的人类平均响度感知修正系数，以及预设的基准信噪比，确定所述远端语音帧的各关键频带各自的修正后信噪比，以得到所述远端语音帧对应的输出语音帧在所述远端语音帧的各关键频带的期望信噪比。

其中，所述远端语音帧的各关键频带的基准信噪比相同，所述远端语音帧的各关键频带中目标关键频带的人类平均响度感知修正系数用于修正所述目标关键频带的响度以调整所述目标关键频带的信噪比，使得人耳在各关键频带上感知的响度保持一致。

可选地，确定人类平均响度感知修正系数的步骤具体可包括：

基于所述远端语音帧和所述噪声帧在所述远端语音帧的各关键频带的响度，以及所述终端设备的当前***音量对应的人类听感等响曲线，确定所述远端语音帧的各关键频带的实际感知响度及平均实际感知响度；

根据所述远端语音帧的各关键频带的实际感知响度及平均实际感知响度，确定所述远端语音帧的多个关键频带各自的人类平均响度感知修正系数。

此外，应理解，对远端语音帧的多个关键频带选取的相同的基准SNR，可取决于增强预期，例如选择10dB，或5dB，等等。

下面将结合具体公式，说明如何计算所述远端语音帧对应的输出语音帧在各关键频带的期望SNR。不妨将第k个关键频带的人类平均响度感知修正系数记录为N[k]。

首先，可根据远端语音帧和噪声帧在当前第k个关键频带的响度,以及当前***音量对应的人类听感等响曲线，计算第k个关键频带的实际感知响度P[k]。

其次，在得到所有关键频带的实际感知响度后，即可得到所有关键频带的平均实际感知响度M。

然后，可计算N[k]＝w[k]*(M-P[k])，其中w[k]是调节每个具体频带权重的系数，通常取1.0上下波动。

最后，对于对第k个关键频带，其期望SNR可表示为基准SNR+N[k]。

本公开实施例中，通过引入人类听感等响曲线，可以兼顾到人类对不同频率下的响度感知的区别，从而使得增强后的音频在人耳听起来比随机选取的SNR更加清晰。

S106，基于具有所述滤波系数的所述滤波器对所述远端语音帧进行滤波处理以得到滤波后语音帧。

在确定滤波器系数之后，即可对远端语音帧进行滤波，具体实现可参考现有技术。

S108，基于终端设备缓存的多个输出语音帧、所述远端语音帧和所述终端设备的当前***音量对应的预设响度确定所述远端语音帧对应的输出语音帧的期望响度。

其中，所述终端设备缓存的多个输出语音帧包括与所述远端语音帧时序邻近的多个接收语音帧分别对应的输出语音帧。

应理解，远端语音帧为当前接收的语音帧，与远端语音帧时序临近的多个接收语音帧，即当前语音帧之前的若干个接收语音帧。例如，假设远端语音帧为第P帧接收语音帧，则与所述远端语音帧时序邻近的N个接收语音帧为第P-1帧、第P-2帧、……第P-N帧，终端设备缓存的输出语音帧为第P-1帧接收语音帧对应的输出语音帧、第P-2帧接收语音帧对应的输出语音帧、……第P-N帧接收语音帧对应的输出语音帧。

本公开实施例中，可通过统一响度的方式，使得音频可以进行实时动态范围压缩且保证响度没有突变。

S110，基于所述期望响度和所述滤波后语音帧确定所述远端语音帧对应的输出语音帧。

本公开实施例中，通过利用环境噪声场景中的噪声帧的噪声频谱估计结果和远端语音帧的语音频谱估计结果确定滤波器的滤波系数并基于具有该滤波系数的滤波器进行滤波，并根据终端设备缓存的输出语音帧调整输出响度以得到输出语音帧。由于无需全程打开麦克风，能够在保持远端语音的近场可懂度不低于某个预定阈值的情况下尽量减少移动终端的计算资源，大大减小了移动终端在进行噪音消除时的计算资源消耗。

图3是本公开实施例的一种实时动态范围压缩语音的方法流程图。步骤S108和步骤S110的具体实现可如图3所示，其中，步骤S108可包括302、304和306，其中S110可包括308和310。

302，获取终端设备的当前***音量对应的预设响度。

304，获取终端设备缓存的前N个输出语音帧的响度。

306，基于该预设响度和前N个输出语音帧的响度确定远端语音帧对应的输出语音帧的期望响度。

不妨假设终端设备的当前***音量对应的预设响度为S₀，前N个输出语音帧的响度为S₁到S_N，所述远端语音帧对应的输出语音帧的期望响度为S，则S＝(N+1)S₀-(S₁+…+S_N)

308，基于远端语音帧对应的滤波后语音帧的实际响度和远端语音帧对应的输出语音帧的期望响度确定响度增益。

不妨假设滤波后语音帧的实际响度S_z，则响度增益可表示为S/S_z。

310，基于响度增益对滤波后语音帧进行增益以得到远端语音帧对应的输出语音帧。

本公开实施例中，通过上述实时动态范围压缩语音的方法统一响度，从而使得远端音频可以进行实时动态范围压缩且保证输出语音的响度没有突变。

当然，应理解，在前述生成输出语音帧的方法之后，还需要按照先进先出的策略，将输出语音帧存储到终端设备的缓存中，以便后续接收远端语音帧时统一各远端语音帧对应的输出语音帧的响度，以避免输出语音帧的语音突变。

需要说明的是，本公开各方法流程图所提供方法的各步骤的执行主体均可以是同一设备，或者，该方法也由不同设备作为执行主体。比如，步骤21和步骤22的执行主体可以为设备1，步骤23的执行主体可以为设备2；又比如，步骤21的执行主体可以为设备1，步骤22和步骤23的执行主体可以为设备2；等等。

图4是本公开实施例的一种语音处理装置400的结构示意图。如图4所示，该装置400包括：

接收模块410，用于接收远端语音帧；

第一确定模块420，用于基于所述远端语音帧的语音频谱估计结果和环境噪声场景对应的噪声帧的噪声频谱估计结果，确定滤波器的滤波系数；

滤波模块430，用于基于具有所述滤波系数的所述滤波器对所述远端语音帧进行滤波处理以得到滤波后语音帧；

第二确定模块440，用于基于终端设备缓存的多个输出语音帧、所述远端语音帧和所述终端设备的当前***音量对应的预设响度，确定所述远端语音帧对应的输出语音帧的期望响度，其中，所述终端设备缓存的多个输出语音帧包括与所述远端语音帧时序邻近的多个接收语音帧分别对应的输出语音帧；

第三确定模块450，用于基于所述期望响度和所述滤波后语音帧，确定所述远端语音帧对应的输出语音帧。

应理解，本公开实施例提到的终端设备，即部署有装置400的终端设备。

本公开实施例中，装置400通过利用环境噪声场景中的噪声帧的噪声频谱估计结果和远端语音帧的语音频谱估计结果确定滤波器的滤波系数并基于具有该滤波系数的滤波器进行滤波，并根据终端设备缓存的输出语音帧调整输出响度以得到输出语音帧。由于无需全程打开麦克风，能够在保持远端语音的近场可懂度不低于某个预定阈值的情况下尽量减少移动终端的计算资源，大大减小了移动终端在进行噪音消除时的计算资源消耗。

可选地，第一确定模块420具体用于：

基于所述远端语音帧的关键频带分布和所述噪声帧的关键频带分布，获取所述远端语音帧中各关键频带的当前信噪比；

基于所述远端语音帧中各关键频带的当前信噪比和所述远端语音帧对应的输出语音帧在所述远端语音帧中各关键频带的期望信噪比，确定所述滤波器的滤波系数。

可选的，装置400还可包括：

第四确定模块，用于基于人类听感等响曲线、所述远端语音帧的各关键频带的能量和所述噪声帧的各关键频带的能量，确定所述远端语音帧对应的输出语音帧在所述远端语音帧的各关键频带的期望信噪比。

进一步地，第四确定模块具体用于：

基于所述远端语音帧和所述噪声帧在所述远端语音帧的各关键频带的响度，以及终端设备的当前***音量对应的人类听感等响曲线，确定所述远端语音帧的各关键频带对应的人类平均响度感知修正系数，其中，所述远端语音帧的各关键频带中目标关键频带的人类平均响度感知修正系数用于修正所述目标关键频带的响度以调整所述目标关键频带的信噪比；

基于所述远端语音帧的各关键频带对应的人类平均响度感知修正系数，以及预设的基准信噪比，确定所述远端语音帧的各关键频带各自的修正后信噪比，以得到所述远端语音帧对应的输出语音帧在所述远端语音帧的各关键频带的期望信噪比，其中，所述远端语音帧的各关键频带的基准信噪比相同。

可选地，所述预设的环境噪声场景是默认配置的。

或者，可选地，装置400还可包括：

展示模块，用于展示包含多个候选环境噪声场景的选择界面，一个所述候选环境噪声场景对应一个预先存储的噪声音频片段；

第五确定模块，确认选中的候选环境噪声场景为所述环境噪声场景。

或者，可选地，装置400还可包括：

第二接收模块，用于接收所述终端设备的用户的场景录制操作；

录制模块；用于通过所述终端设备的音频采集设备录制所述终端设备当前所处环境的音频；

场景存储模块，用于基于录制的音频新建场景并作为所述环境噪声场景使用。

可选地，第二确定模块440具体用于：

获取所述终端设备的当前***音量对应的预设响度；

获取所述终端设备缓存的多个输出语音帧的响度；

基于所述终端设备缓存的多个输出语音帧的响度和所述终端设备的当前***音量对应的预设响度，确定所述远端语音帧对应的输出语音帧的期望响度，其中，所述远端语音帧对应的输出语音帧的响度取值为所述期望响度时，所述远端语音帧对应的输出语音帧和所述终端设备缓存的所述多个语音帧的平均响度等于所述终端设备的当前***音量对应的预设响度。

可选地，装置400还可包括缓存模块，用于按照先进先出的策略，将所述远端语音帧对应的输出语音帧存储到所述缓存中。

装置400可执行图1-图3所示实施例的方法，并实现各模块在图1-图3所示实施例中对应方法步骤的功能，具体实现可参考图1-图3所示实施例。

图5是本公开的一个实施例电子设备的结构示意图。请参考图5，在硬件层面，该电子设备包括处理器，可选地还包括内部总线、网络接口、存储器。其中，存储器可能包含内存，例如高速随机存取存储器(Random-Access Memory，RAM)，也可能还包括非易失性存储器(non-volatile memory)，例如至少1个磁盘存储器等。当然，该电子设备还可能包括其他业务所需要的硬件。

处理器、网络接口和存储器可以通过内部总线相互连接，该内部总线可以是工业标准体系结构(Industry Standard Architecture，ISA)总线、外设部件互连标准(Peripheral Component Interconnect，PCI)总线或扩展工业标准结构(ExtendedIndustry Standard Architecture，EISA)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示，图5中仅用一个双向箭头表示，但并不表示仅有一根总线或一种类型的总线。

存储器，用于存放程序。具体地，程序可以包括程序代码，所述程序代码包括计算机可执行指令。存储器可以包括内存和非易失性存储器，并向处理器提供指令和数据。

处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行，在逻辑层面上形成语音处理装置。处理器，执行存储器所存放的计算机可执行指令，并具体用于执行以下操作：

接收远端语音帧；

本公开实施例提供的电子设备，通过利用环境噪声场景中的噪声帧的噪声频谱估计结果和远端语音帧的语音频谱估计结果确定滤波器的滤波系数并基于具有该滤波系数的滤波器进行滤波，并根据终端设备缓存的输出语音帧调整输出响度以得到输出语音帧。由于无需全程打开麦克风，能够在保持远端语音的近场可懂度不低于某个预定阈值的情况下尽量减少移动终端的计算资源，大大减小了移动终端在进行噪音消除时的计算资源消耗。

上述如本公开图1～图3所示实施例揭示的语音处理装置执行的方法可以应用于处理器中，或者由处理器实现。处理器可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，CPU)、网络处理器(Network Processor，NP)等；还可以是数字信号处理器(Digital SignalProcessor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field－Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本公开实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本公开实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器，处理器读取存储器中的信息，结合其硬件完成上述方法的步骤。

该电子设备还可执行图1～图3的方法，并实现语音处理装置在图1～图3所示实施例的功能，本公开实施例在此不再赘述。

本公开实施例还提出了一种计算机可读存储介质，该计算机可读存储介质存储计算机可执行指令，该计算机可执行指令当被包括多个应用程序的便携式电子设备执行时，能够使该便携式电子设备执行图1～图3所示实施例的方法，并具体用于执行以下操作：

接收远端语音帧；

当然，除了软件实现方式之外，本公开的电子设备并不排除其他实现方式，比如逻辑器件抑或软硬件结合的方式等等，也就是说以下处理流程的执行主体并不限定于各个逻辑单元，也可以是硬件或逻辑器件。

上述对本公开特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

总之，以上所述仅为本公开的较佳实施例而已，并非用于限定本公开的保护范围。凡在本公开的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本公开的保护范围之内。

上述实施例阐明的***、装置、模块或单元，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的，计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

本公开中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于***实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

Claims

1.一种语音处理方法，其特征在于，所述方法由终端设备执行，包括：

接收远端语音帧；

2.如权利要求1所述的方法，其特征在于，所述语音频谱估计结果包括所述远端语音帧的关键频带分布，所述噪声频谱估计结果包括所述噪声帧的关键频带分布，所述基于所述远端语音帧的语音频谱估计结果和环境噪声场景对应的噪声帧的噪声频谱估计结果，确定滤波器的滤波系数，包括：

3.如权利要求2所述的方法，其特征在于，

所述基于所述远端语音帧的关键频带分布和所述噪声帧的关键频带分布，获取所述远端语音帧中各关键频带的当前信噪比包括：

4.如权利要求2所述的方法，其特征在于，在所述基于所述远端语音帧的频谱分布中各关键频带的当前信噪比和所述远端语音帧对应的输出语音帧在所述远端语音帧的频谱分布中各关键频带的期望信噪比，确定所述滤波器的滤波系数之前，所述方法还包括：

基于人类听感等响曲线、所述远端语音帧的各关键频带的能量和所述噪声帧的各关键频带的能量，确定所述远端语音帧对应的输出语音帧在所述远端语音帧的各关键频带的期望信噪比。

5.如权利要求4所述的方法，其特征在于，所述基于人类听感等响曲线.所述远端语音帧的各关键频带的能量和所述噪声帧的各关键频带的能量，确定所述远端语音帧对应的输出语音帧在所述远端语音帧的各关键频带的期望信噪比，包括：

6.根据权利要求5所述的方法，其特征在于，

所述基于所述远端语音帧和所述噪声帧在所述远端语音帧的各关键频带的响度，以及终端设备的当前***音量对应的人类听感等响曲线，确定所述远端语音帧的各关键频带对应的人类平均响度感知修正系数，包括：

7.如权利要求1所述的方法，其特征在于，

所述环境噪声场景是默认配置的，所述环境噪声场景对应的噪声音频是预先存储的。

8.如权利要求1所述的方法，其特征在于，在所述基于所述远端语音帧的语音频谱估计结果和环境噪声场景对应的噪声帧的噪声频谱估计结果，确定滤波器的滤波系数之前，所述方法还包括：

确认选中的候选环境噪声场景为所述环境噪声场景。

9.如权利要求1所述的方法，其特征在于，在所述基于所述远端语音帧的语音频谱估计结果和环境噪声场景对应的噪声帧的噪声频谱估计结果，确定滤波器的滤波系数之前，所述方法还包括：

接收所述终端设备的用户的场景录制操作；

基于录制的音频新建场景并作为所述环境噪声场景使用。

10.如权利要求1所述的方法，其特征在于，所述基于所述终端设备缓存的多个输出语音帧、所述远端语音帧和所述终端设备的当前***音量对应的预设响度，确定所述远端语音帧对应的输出语音帧的期望响度，包括：

获取所述终端设备的当前***音量对应的预设响度；

获取所述终端设备缓存的多个输出语音帧的响度；

11.如权利要求1所述的方法，其特征在于，所述方法还包括：按照先进先出的策略，将所述远端语音帧对应的输出语音帧存储到所述终端设备的缓存中。

12.一种语音处理装置，其特征在于，包括：

接收模块，用于接收远端语音帧；

第二确定模块，用于基于终端设备缓存的多个输出语音帧、所述远端语音帧和所述终端设备的当前***音量对应的预设响度，确定所述远端语音帧对应的输出语音帧的期望响度，其中，所述终端设备缓存的多个输出语音帧包括与所述远端语音帧时序邻近的多个接收语音帧分别对应的输出语音帧；

13.一种电子设备，包括：

处理器；以及

存储器，用于存储计算机可执行指令，所述可执行指令在被执行时使所述处理器执行如权利要求1-11中任一项所述的方法的操作。

14.一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机可执行指令，所述计算机可执行指令被处理器执行时实现如权利要求1-11中任一项所述的方法的操作。