CN105991103A

CN105991103A - 一种音量控制方法及装置

Info

Publication number: CN105991103A
Application number: CN201510206110.8A
Authority: CN
Inventors: 王育军
Original assignee: Leshi Zhixin Electronic Technology Tianjin Co Ltd
Current assignee: Leshi Zhixin Electronic Technology Tianjin Co Ltd
Priority date: 2015-04-27
Filing date: 2015-04-27
Publication date: 2016-10-05
Also published as: US20160314802A1

Abstract

本发明公开一种音量控制方法及装置，用以降低音量调整时延。所述方法获取当前时刻语音信号采样点的平滑音量和平滑包络；根据所述当前时刻的平滑包络和预存的多个历史时刻的平滑包络，确定第一时间段内的平滑包络与每个第二时间段内的平滑包络的自相关值；在确定出的各自相关值中，确定出数值最大的一个自相关值作为最大自相关值；根据当前时刻的平滑音量和最大自相关值确定当前时刻的组合平滑音量；根据组合平滑音量和预设参考音量确定当前时刻的音量增益；根据所述当前时刻的音量增益对下一时刻语音信号的音量进行控制。经实测，该方法可有效降低音量调整时延。

Description

一种音量控制方法及装置

技术领域

本发明涉及电子信息技术领域，尤其涉及一种音量控制方法及装置。

背景技术

在电子信息技术领域，语音交互已经成为人机交互、或机器与机器交互的必要手段。在语音交互过程中，音量给用户的听觉感受(即听感)是衡量语音交互质量的指标之一。

实际应用场景中，信号源的语音信号音量可能存在忽高忽低的情况，这种情况为音量跳跃。若对该跳跃式的音量进行调整时，调整音量的延时超过一定时间范围(如100ms)，则用户也会听到音量忽高忽低，用户的听感就较差。

通常情况下，当前时刻采集到语音信号之后，通过上一时刻的音量增益控制当前时刻的语音信号输出。然后根据当前时刻的语音信号确定当前时刻的音量增益。具体的，若当前时刻的音量未发生突变，则可将上一时刻的音量增益作为当前时刻的音量增益(即不需要对上一时刻的音量进行调整)，若当前时刻的音量发生突变(即存在音量跳跃)，则需要重新确定当前时刻的音量增益(即，需要调整上一时刻的音量增益)，以对下一时刻的音量输出进行控制。

上述的音量调整包括对音量增益的调整，且音量调整时延与音量增益的调整时延成正比。若对上一时刻的音量增益的调整时延较大时，音量调整时延也较大，这样就无法及时对下一时刻突变的音量的输出进行控制，从而导致用户也会听到音量忽高忽低。

然而，在现有技术中，主要通过当前时刻(如，t时刻)采集的语音信号采样点的平滑音量和用户预设的参考音量确定音量增益，通过该音量增益控制音量输出。然而，由于平滑音量无法及时反映两个相邻时刻的音量突变的情况，因此，也就无法及时对两个相邻时刻音量的音量差进行调整(如补偿)，导致对音量增益的调整延时较大，大约在100ms以上，人耳可清楚的识别出音量跳跃的存在，相应的，用户听感也较差。

发明内容

本发明实施例提供一种音量控制方法及装置，用以降低音量调整的时延，以解决音量跳跃的问题，进而提高用户的听感。

本发明实施例提供一种音量控制方法，包括：

获取当前时刻语音信号的平滑音量和平滑包络；

根据所述当前时刻的平滑包络和预存的多个历史时刻的平滑包络，确定第一时间段内的平滑包络与每个第二时间段内的平滑包络的自相关值；其中，所述第一时间段为包含当前时刻和最近历史时刻的一个时间段，所述第二时间段为包含历史时刻的多个时间段；

在确定出的各自相关值中，确定出数值最大的自相关值，作为最大自相关值；

根据所述当前时刻的平滑音量和所述最大自相关值确定当前时刻的组合平滑音量；

根据所述组合平滑音量和预设参考音量确定当前时刻的音量增益；

根据所述当前时刻的音量增益对下一时刻语音信号的音量进行控制。

本发明实施例提供一种音量控制装置，包括：

获取模块，用于获取当前时刻语音信号的平滑音量和平滑包络；

第一确定模块，用于根据所述当前时刻的平滑包络和预存的多个历史时刻的平滑包络，确定第一时间段内的平滑包络与每个第二时间段内的平滑包络的自相关值；其中，所述第一时间段为包含当前时刻和最近历史时刻的一个时间段，所述第二时间段为包含历史时刻的多个时间段；

第二确定模块，用于在确定出的各自相关值中，确定出数值最大的自相关值，作为最大自相关值；

第三确定模块，用于根据所述当前时刻的平滑音量和所述最大自相关值确定当前时刻的组合平滑音量；

第四确定模块，用于根据所述组合平滑音量和预设参考音量确定当前时刻的音量增益；

控制模块，用于根据所述当前时刻的音量增益对下一时刻语音信号的音量进行控制。

本发明实施例提供的一种音量控制方法及装置，该方法根据当前时刻的平滑包络和预存的多个历史时刻的平滑包络，确定第一时间段内的平滑包络与每个第二时间段内的平滑包络的自相关值；其中，第一时间段为包含当前时刻和最近历史时刻的一个时间段，所述第二时间段为包含历史时刻的多个时间段；确定出数值最大的自相关值作为最大自相关值；根据当前时刻的平滑音量和最大自相关值确定当前时刻的组合平滑音量；根据该组合平滑音量确定当前时刻的音量增益并对下一时刻的音量进行控制。经实测，使用该方法确定当前时刻的音量增益时，调整音量增益的时延有效缩短，从而使得音量调整时延也有效缩短，控制音量输出后，可有效降低人耳感觉到音量跳跃的几率，甚至可消除音量跳跃。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本发明的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1为本发明实施例提供的语音控制方法流程示意图；

图2为本发明实施例提供的原始语音信号的时域波形图；

图3为本发明实施例提供的第一时间段和各第二时间段与平滑包络的对应关系示意图；

图4为本发明实施例提供的经实测得到包括平滑音量、组合平滑音量、最大自相关值、增益等的谱线图；

图5为本发明实施例提供的输出后的语音信号的时域波形图；

图6为本发明实施例提供的语音控制方法流程图；

图7为本发明实施例提供的语音控制方法流程图；

图8为本发明实施例提供的语音控制装置结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明具体实施例及相应的附图对本发明技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1为本发明实施例提供的一种音量控制方法，具体包括以下步骤：

S101：获取当前时刻语音信号的平滑音量和平滑包络。

在本发明实施例中，上一时刻确定出的音量增益用于对当前时刻的语音信号的音量进行控制并输出，类似的，当前时刻的音量增益用于对下一时刻的语音信号的音量进行控制并输出。

本发明以确定当前时刻的音量增益并控制下一时刻音量为例说明。

在本发明实施例中，获取当前时刻(以下称为t时刻)语音信号的平滑音量和平滑包络时，需要首先获取t时刻语音信号的音量和包络，然后对该音量和包络进行平滑，得到平滑音量和平滑包络。

获取t时刻语音信号的音量和包络，具体的：假设在语音对话***中，存在一段时间长度为T的原始语音信号，该原始语音信号的时间(如横轴所示)和振幅(如纵轴所示)关系图，如图2所示；从图2所示的原始语音信号中，获取t时刻语音信号的m(m为正整数)个采样点的振幅x₁～x_m，确定该每个振幅x_i(i＝1，…，m)和上一时刻(以下称为t-1时刻)音量增益g_t-1的乘积g_t-1x_i，将各g_t-1x_i的平均值作为平均振幅增益将该平均振幅增益的平方值s²作为当前时刻的音量V_t，将该平均振幅增益的绝对值作为当前时刻的音量包络Z_t。

上述确定出t时刻的音量V_t后，可通过公式(1-1)确定t时刻的平滑音量V_t’。

V_t’＝(1-λ)(λV_t-1’+V_t) (1-1)

在公式(1-1)中，λ为平滑音量的衰减因子，V_t-1’为t-1时刻的平滑音量。

公式(1-1)中，λ的值越大，平滑音量V_t’相对于平滑音量V_t-1’变化越平缓。其中，λ可以在0.50～0.99范围内，比如，λ的值可以为0.75。在实际应用中λ的值可根据实际需求确定，这里不做具体限制。

上述确定出t时刻的包络Z_t后，可通过公式(1-2)确定t时刻的平滑包络Z_t’。

Z_t’＝(1-ω)(ωZ_t-1’+Z_t) (1-2)

公式(1-2)中，ω为平滑包络的衰减因子，Z_t-1’为t-1时刻的平滑包络。ω的值越大，平滑包络Z_t’越容易被平滑包络Z_t-1’平滑掉。其中，ω的值可接近于0，比如，在0.00～0.50范围内，具体可以为0.25，在实际应用中可根据实际需求确定，此处不作具体限制。

S102：根据所述当前时刻的平滑包络和预存的多个历史时刻的平滑包络，确定第一时间段内的平滑包络与每个第二时间段内的平滑包络的自相关值。

其中，所述第一时间段为包含当前时刻和最近历史时刻的一个时间段，所述第二时间段为仅包含历史时刻的多个时间段。其中，相邻的两个时间段的时刻可部分重叠。

所述的多个历史时刻可以为当前时刻之前设定b时间段内的历史时刻，比如，多个历史时刻可以为t-5～t-1时间段(b时间段)之间的任一个历史时刻。第一时间段可以为包含当前时刻t和距离t时刻最近的一个或多个历史时刻，比如，第一时间段可以为t-2～t，第二时间段为仅包含历史时刻的多个时间段，比如，第二时间段可以为t-3～t-1、t-4～t-2、t-5～t-3、t-6～t-4。

在实际应用场景中，在每次确定出t时刻的平滑包络后，可保存设定b时间段内的各平滑包络，上例中，可保存t-5～t时间段内的各平滑包络Z_t-5’～Z_t’。保存的各平滑包络Z_t-5’～Z_t’和各时间段的对应关系如图3所示。

在实际应用场景中，确定t时刻的音量增益是指确定浊音段语音信号(即基音周期信号)的音量增益，而不是确定无基音周期且类似随机噪声的轻音段语音信号的音量增益。这就需要根据自相关函数来检测t时刻的语音信号是否为基音周期信号。

具体的，第一时间段内的多个平滑包络与第二时间段内的多个平滑包络的自相关函数存在极大值时，就可以确定该第一时间段对应的语音信号为基音周期信号。

需要说明的是，一个时刻产生一个包络值，由于第一时间段包括当前时刻和至少一个历史时刻，因此，第一时间段内包括多个时刻对应的多个平滑包络(如，至少包括两个平滑包络)。

因此，在本发明实施例中，确定第一时间段内的多个平滑包络与每个第二时间段内的各平滑包络的自相关值，就可以从多个自相关值中确定出极大值，根据该极大值，从而就可以确定语音信号中存在基音周期信号。本发明所述的自相关函数为短时自相关函数(也称即时自相关函数)。

在本发明实施例中，确定第一时间段内的多个平滑包络与每个第二时间段内的各平滑包络的自相关值，具体通过滑动窗口来计算两个时间段的平滑包络的自相关值。

沿用上例，假设滑动窗口的窗口长度对应三个包络值(也对应三个时刻)，且滑动窗口从t～t-2时间段(即第一时间段)开始，向历史时刻方向滑动，每滑动一次向历史时刻方向移动一个时刻，则针对t-5～t的时间长度，该滑动窗口相对于当前时刻需要滑动三次，滑动三次对应的时间段(即第二时间段)t-3～t-1、t-4～t-2、t-5～t-3。

则第一时间段Z_t-2’～Z_t’与第二时间段Z_t-3’～Z_t-1’的自相关值C1可通过公式确定；第一时间段Z_t-2’～Z_t’与第二时间段Z_t-4’～Z_t-2’的自相关值C2可通过公式确定，第一时间段Z_t-2’～Z_t’与第二时间段Z_t-5’～Z_t-3’的自相关值C3可通过公式确定。

当然，各自相关值不限于采用上述公式计算，具体的，C1、C2和C3可分别通过如下公式计算：

C 1 = Σ_{i = 0}^{i = 2} {Z^{'}}_{t - i} {Z^{'}}_{t - 1 - i}; C 2 = Σ_{i = 0}^{i = 2} {Z^{'}}_{t - i} {Z^{'}}_{t - 2 - i}; C 3 = Σ_{i = 0}^{i = 2} {Z^{'}}_{t - i} {Z^{'}}_{t - 3 - i} .

S103：在确定出的各自相关值中，确定出数值最大的自相关值，作为最大自相关值C_max。

沿用上例，在确定出的各自相关值C1～C3中，确定出数值最大的一个自相关值，作为最大自相关值。假设C1最大，则C1为最大自相关值C_max，该最大自相关值也就是自相关函数的极大值，该极大值说明t时刻的语音信号存在基音周期信号。

S104：根据当前时刻的平滑音量和最大自相关值C_max确定当前时刻的组合平滑音量

具体的，根据步骤S101确定出的t时刻的平滑音量V_t’，以及步骤S103确定出的最大自相关值C_max，来确定t时刻的组合平滑音量

在本发明实施例中，所述的组合平滑音量为t时刻的平滑音量和最大自相关值的线性组合。

具体的，组合平滑音量可通过公式(1-3)确定。

\hat{V} = α {V_{t}}^{,} + β C_{\max} - - - (1 - 3)

公式(1-3)中，α为t时刻的平滑音量V_t’的系数，β为最大自相关值C_max的系数，α和β可根据实际需求预设。

具体的，α和β的关系可以为：β＝(1-α)/I，其中，I为第一时间段内的多个时刻分别对应的多个平滑包络的个数。

则公式(1-3)的变形如公式(1-4)所示。

\hat{V} = α {V_{t}}^{,} + (1 - α) C_{\max} / I - - - (1 - 4)

也就是说，根据t时刻的平滑音量和最大自相关值确定t时刻的组合平滑音量，具体的，可确定最大自相关值C_max与第一时间段内的平滑包络的数量I的比值C_max/I，作为平均最大自相关值；确定t时刻的平滑音量V_t’和平均最大自相关值C_max/I的加权平均值αV_t’+(1-α)C_max/I，其中α和1-α分别为平滑音量V_t’和C_max/I的权重，该α和1-α的和值为1，将加权平均值αV_t’+(1-α)C_max/I作为t时刻采样点的组合平滑音量。

所述的权重α可以为0.60～0.99，可选的，该权重α可以为0.80、0.85等，权重α的具体值还需要根据实际需求设定，这里不做具体限制。

S105：根据组合平滑音量和预设参考音量确定t时刻的音量增益。

具体的，计算组合平滑音量和预设参考音量V_r之间的差值将该差值g_t作为t时刻的音量增益。

S106：根据当前时刻的音量增益对下一时刻语音信号采样点的音量进行控制。

具体的，假设采样率为16/ms，音量控制装置在t+1时刻采集到16个采样点的振幅x₁～x₁₆，获取t时刻的音量增益g_t，然后分别计算x_i与g_t的乘积，得到x_ig_t(i＝1,…,16)，将该16个x_ig_t(i＝1,…,16)作为语音信号输出值。

上述图1所示的方法中，根据t时刻的平滑包络和预存的最近设定时间段内的多个历史时刻的平滑包络，确定第一时间段内的多个平滑包络与每个第二时间段内的各平滑包络的自相关值；在确定出的各自相关值中，确定出数值最大的一个自相关值，作为最大自相关值；根据t时刻的平滑音量和最大自相关值确定t时刻的组合平滑音量；根据组合平滑音量和预设参考音量确定t时刻采样点的音量增益；根据当前时刻的音量增益对下一时刻语音信号采样点的音量进行控制。经实测，使用该方法确定当前时刻的音量增益时，调整音量增益的时延有效缩短，从而使得音量调整时延也有效缩短，控制音量输出后，可有效降低人耳感觉到音量跳跃的几率，甚至可消除音量跳跃。

具体的，图4为实测得到的谱线图。在图4中，横轴表示图2所示的一段原始语音信号的时间，纵轴表示谱线图中各曲线的幅度值，至上而下的曲线分别为：

第一条曲线表示图2所示的原始语音信号随时间变化的平滑音量V_t’变化曲线图；第二条曲线表示图2所示的原始语音信号随时间变化的组合平滑音量变化曲线图；第三条曲线表示图2所示的原始语音信号随时间变化的最大自相关值C_max变化曲线图；第四条曲线表示根据组合平滑音量和预设参考音量值确定出的音量增益g_t的变化曲线图，即根据本发明图1所示的方法确定出的音量增益变化曲线图；第五条曲线表示仅根据t时刻的平滑音量V_t’和预设参考音量值确定出的音量增益g_L的变化曲线图，即根据现有技术确定出的音量增益变化曲线图。

由第四条曲线g_t和第五条曲线g_L的各拐点以及拐点的变化趋势可知，拐点对应的浊音语音信号(基音周期信号)的音量突然增加，拐点处的音量增益相比较上一时刻的音量增益有所下降，并且，由第四条曲线g_t和第五条曲线g_L的第一个拐点可知，第四条曲线g_t的各拐点对应的时间早于第五条曲线g_L的各拐点对应的时间；也就是说，根据t时刻的平滑音量V_t’和预设参考音量值确定出的音量增益g_L的变化曲线图，在时间上滞后于根据组合平滑音量和预设参考音量值确定出的音量增益g_t的变化曲线图，滞后时间大约为图4所示的△t。相应的，相比较语音信号音量突变的时间点，根据本发明图1所示的方法确定出的音量增益，调整音量增益的延时小于现有技术仅根据平滑音量调整音量增益的延时，由于本发明图1所示的方法调整音量增益的延时较小，相应的，对调整音量的延时也相应就减小，控制音量输出后，可有效降低人耳感觉到音量跳跃的几率，甚至可消除音量跳跃。

此外，对比图2和图5(音量控制输出结果)所示的曲线图可知，本发明图1所示的方法控制音量后，使得较高的音量得到抑制，较低的音量得到提高，从而使得一段时间内的语音信号的音量的变化率保持在一个较小的范围内，这样，可有效提高语音信号输出的质量，从而有效提高用户听感。

需要说明的是，所述的组合平滑音量和预设参考音量分别可以为归一化后组合平滑音量和预设参考音量。

比如，在通过步骤S101获取到平滑音量和平滑包络之后，可以对平滑音量进行归一化处理，对平滑包络进行归一化处理。当然，也可以对平滑之前的音量和包络进行归一化处理，则平滑之后就不需要再次进行归一化处理。若平滑音量和平滑包络为归一化值，则预设参考音量也需要调整为归一化值，例如，将预设参考音量设置在0-1的范围内。用户在调整预设参考音量时，可以调整一个浮点数来控制预设参考音量的取值，从而控制输出音量的大小。

考虑到在实际应用场景中，当前时刻的语音信号的音量相比较t-1时刻的音量，音量变化率较小(如，可能不存在音量突变，而是缓慢变化)。因此，t时刻采集到语音信号采样点之后，可能不需要对t时刻的音量增益进行调整。

因此，在本发明实施例中，根据t时刻的平滑音量和最大自相关值确定t时刻的组合平滑音量之前，需要确定t时刻的最大自相关值是否满足设定条件，若是，则可根据本发明图1所示的方法，对t-1时刻的音量增益g_t-1进行调整，将调整后的g_t-1(即通过图1所示的方法确定出的t时刻的音量增益g_t)作为t时刻的音量增益g_t，否则，将t-1时刻的音量增益g_t-1作为t时刻的音量增益g_t，来对下一时刻的音量增益进行调整。

其中，确定t时刻的最大自相关值是否满足设定条件，具体为：

若当前时刻的最大自相关值的超过预设最大自相关阈值，以及在当前时刻t和历史时刻t-j之间确定出的各最大自相关值存在局部峰值，其中，j为大于1的正整数，则确定当前时刻t的最大自相关值满足设定条件，否则，确定当前时刻t的最大自相关值不满足设定条件。

比如，假设t时刻的最大自相关值为C_max1，预设最大自相关阈值为C_ys；最近历史时间段为t-4～t-1，历史时间段内各历史时刻的最大自相关值为C_max5(对应t-4时刻)、C_max4(对应t-3时刻)、C_max3(对应t-2时刻)、C_max2(对应t-1时刻)；判断C_max1是否大于C_ys，且判断判断t-4～t时刻之间的最大自相关值C_max0～C_max5中，中间值C_max3是否为峰值(即最大值)；若C_max1大于C_ys且C_max3为峰值，则确定t时刻的最大自相关值满足设定条件；若C_max1不大于C_ys，或者C_max3不是峰值，则确定t时刻的最大自相关值不满足设定条件。

考虑到在实际应用场景中，当确定出t时刻的音量增益g_t之后，该音量增益g_t很可能相比较t-1时刻的音量增益g_t-1产生突变。因此，在本发明实施例中，确定出t时刻的音量增益g_t之后，根据该音量增益对下一时刻的音量进行控制之前，所述方法还包括：对音量增益进行平滑处理。

具体的，可采用公式(1-5)确定平滑音量增益g_t’。

g_t’＝(1-θ)(θg_t-1’+g_t) (1-5)

在公式(1-5)中，θ为平滑音量增益的衰减因子，g_t-1’为t-1时刻的平滑音量增益，g_t为t时刻的音量增益(即，未平滑的音量增益)，衰减因子θ可根据实际需求设定。

进一步的，考虑到实际应用场景中，由于确定出的音量增益具有滞后效应，这可能会导致根据平滑音量增益g_t’控制后续时刻的音量时，输出的音量超出用户预设参考音量。

因此，在根据平滑处理后的音量增益(即平滑音量增益)对下一时刻的音量进行控制之前，所述方法还包括：

对平滑处理后的音量增益进行增益限制处理，比如，可以预设一个增益阈值，当该平滑处理后的音量增益超过增益阈值时，将该平滑处理后的音量增益降低到增益阈值或增益阈值范围内。当然，本发明实施例对平滑处理后的音量增益进行增益限制处理可通过现有常规手段进行处理，这里不再赘述。

考虑到实际应用场景中，频繁调整音量增益，可能会产生额外的信道噪声，该额外的信道噪声可能会提高音量增益的变化率，从而导致音量增益不准确的问题。

因此，为了避免上述问题，在根据音量增益对下一时刻的音量进行控制之前，所述方法还包括：

对增益限制后的音量增益进行增益差分限制，然后根据该增益差分限制后得到的音量增益对下一时刻的音量进行控制。增益差分限制也就是说，对t时刻的增益限制后的音量增益的方差进行限制，具体的，若所述方差大于预设方差，就需要对该增益限制后的音量增益进行调整，使得调整后的音量增益的方差在预设方差范围内。

为了更清楚地说明本发明整体技术方案，以下将结合附图简要说明本发明语音控制的流程。

参见图6和图7，本发明实施例提供的音量控制方法主要包括以下步骤：

S601：接收t时刻各采样点的振幅，如x1～x16，如图7中所示的x(x可以是x1～x16中的任一个值)为各采样点的振幅。

S602：根据t-1时刻的音量增益g_t-1对各采样点的振幅x进行控制并输出，如图7中的y值为输出值。

S603：对t时刻各采样点的振幅进行采样抽取，该采样抽取也就是说确定t时刻的平均增益振幅

S604：根据平均增益振幅确定音量和包络，然后对音量进行平滑，对包络进行平滑。

S605：根据平滑后的包络确定t时刻的最大自相关值。

S606：根据预设条件判断是否需要调整t-1时刻音量增益g_t-1，若是，执行步骤S608，否则，执行步骤S607。

S607：将t-1时刻音量增益g_t-1作为t时刻的音量增益g_t，即g_t＝g_t-1，然后执行步骤S613。

S608：根据平滑音量和最大自相关值确定组合平滑音量。

S609：根据组合平滑音量和预设参考音量确定t时刻音量增益。

S610：对音量增益进行平滑处理。

S611：对平滑处理后的音量增益进行增益限制。

S612：对增益限制后的音量增益进行增益差分限制，将增益差分限制后的音量增益作为t时刻确定出的音量增益g_t。

S613：根据t时刻确定出的音量增益g_t对下一时刻或后续时刻的语音信号的音量进行控制。

需要说明的是，根据预设条件判断是否需要调整t-1时刻音量增益g_t-1，具体是指：判断步骤S606确定出的最大自相关值是否满足设定条件：若当前时刻的最大自相关值超过预设最大自相关阈值，以及在当前时刻t和历史时刻t-j之间确定出的各最大自相关值存在局部峰值，则确定当前时刻的最大自相关值满足设定条件；其中，j为大于1的正整数，若当前时刻的最大自相关值未超过预设最大自相关阈值，或，在当前时刻t和历史时刻t-j之间确定出的各最大自相关值不存在局部峰值，则确定当前时刻的最大自相关值不满足设定条件。

以上为本发明实施例提供的音量控制方法，基于同样的思路，本发明实施例还提供了一种音量控制装置，如图8所示。

图8为本发明实施例提供的一种音量控制装置，包括：

获取模块81，用于获取当前时刻语音信号采样点的平滑音量和平滑包络；

第一确定模块82，用于根据所述当前时刻的平滑包络和预存的多个历史时刻的平滑包络，确定第一时间段内的平滑包络与每个第二时间段内的平滑包络的自相关值；其中，所述第一时间段为包含当前时刻和最近历史时刻的一个时间段，所述第二时间段为包含历史时刻的多个时间段；

第二确定模块83，用于在确定出的各自相关值中，确定出数值最大的自相关值，作为最大自相关值；

第三确定模块84，用于根据所述当前时刻的平滑音量和所述最大自相关值确定当前时刻的组合平滑音量；

第四确定模块85，用于根据所述组合平滑音量和预设参考音量确定当前时刻的音量增益；

控制模块86，用于根据当前时刻的音量增益对下一时刻语音信号的音量进行控制。

可选的，所述第三确定模块84具体用于：确定最大自相关值与第一时间段内的平滑包络的数量的比值，作为平均最大自相关值；其中，所述第一时间段内的平滑包络为第一时间段内每个时刻的平滑包络；确定所述当前时刻的平滑音量和所述平均最大自相关值的加权平均值；将所述加权平均值作为当前时刻的组合平滑音量。

可选的，所述获取模块81具体用于：获取当前时刻语音信号的多个采样点的振幅；计算每个采样点的振幅与上一时刻音量增益的乘积，作为增益振幅；确定所述多个采样点的增益振幅的平均值，作为平均振幅；根据所述平均振幅确定所述平滑音量和平滑包络。

可选的，所述装置还包括：

处理模块87，用于对所述音量增益进行平滑处理；

第一限制模块88，用于对平滑处理后的音量增益进行增益限制；

第二限制模块89，用于对增益限制后的音量增益进行增益差分限制，将该增益差分限制后的音量增益作为当前时刻的音量增益。可选的，所述装置还包括：

第五确定模块90，用于根据所述当前时刻的平滑音量和所述最大自相关值确定当前时刻的组合平滑音量之前，确定所述最大自相关值为满足设定条件的最大自相关值；

其中，若当前时刻的最大自相关值超过预设最大自相关阈值，以及在当前时刻t和历史时刻t-j之间确定出的各最大自相关值存在局部峰值，则确定当前时刻的最大自相关值满足设定条件；其中，j为大于1的正整数。

综上所述，本发明实施例提供的一种音量控制方法及装置，该方法根据当前时刻的平滑包络和预存的最近设定时间段内的多个历史时刻的平滑包络，确定第一时间段内的多个平滑包络与每个第二时间段内的各平滑包络的自相关值；确定出数值最大的一个自相关值作为最大自相关值；根据当前时刻的平滑音量和最大自相关值确定当前时刻的组合平滑音量；根据该组合平滑音量确定当前时刻的音量增益并进行音量控制。经实测，使用该方法确定当前时刻的音量增益时，调整音量增益的时延有效缩短，从而使得音量调整时延也有效缩短，控制音量输出后，可有效降低人耳感觉到音量跳跃的几率，甚至可消除音量跳跃。

本发明是参照根据本发明实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flashRAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

本领域技术人员应明白，本发明的实施例可提供为方法、***或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

以上所述仅为本发明的实施例而已，并不用于限制本发明。对于本领域技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本发明的权利要求范围之内。

Claims

1.一种音量控制方法，其特征在于，包括：

获取当前时刻语音信号的平滑音量和平滑包络；

2.如权利要求1所述的方法，其特征在于，根据所述当前时刻的平滑音量和所述最大自相关值确定当前时刻的组合平滑音量，具体包括：

确定最大自相关值与第一时间段内的平滑包络的数量的比值，作为平均最大自相关值；其中，所述第一时间段内的平滑包络为第一时间段内每个时刻的平滑包络；

确定所述当前时刻的平滑音量和所述平均最大自相关值的加权平均值；

将所述加权平均值作为当前时刻的组合平滑音量。

3.如权利要求1所述的方法，其特征在于，获取当前时刻语音信号的平滑音量和平滑包络，具体包括：

获取当前时刻语音信号的多个采样点的振幅；

计算每个采样点的振幅与上一时刻音量增益的乘积，作为增益振幅；

确定所述多个采样点的增益振幅的平均值，作为平均振幅；

根据所述平均振幅确定所述平滑音量和平滑包络。

4.如权利要求1所述的方法，其特征在于，根据所述确定出的音量增益对下一时刻语音信号的音量进行控制之前，所述方法还包括：

对所述音量增益进行平滑处理；

对平滑处理后的音量增益进行增益限制；

对增益限制后的音量增益进行增益差分限制，将该增益差分限制后的音量增益作为当前时刻的音量增益。

5.如权利要求1所述的方法，其特征在于，根据所述当前时刻的平滑音量和所述最大自相关值确定当前时刻的组合平滑音量之前，所述方法还包括：

确定所述最大自相关值为满足设定条件的最大自相关值；

6.一种音量控制装置，其特征在于，包括：

7.根据权利要求6所述的装置，其特征在于，所述第三确定模块具体用于：确定最大自相关值与第一时间段内的平滑包络的数量的比值，作为平均最大自相关值；其中，所述第一时间段内的平滑包络为第一时间段内每个时刻的平滑包络；确定所述当前时刻的平滑音量和所述平均最大自相关值的加权平均值；将所述加权平均值作为当前时刻的组合平滑音量。

8.根据权利要求6所述的装置，其特征在于，所述获取模块具体用于：获取当前时刻语音信号的多个采样点的振幅；计算每个采样点的振幅与上一时刻音量增益的乘积，作为增益振幅；确定所述多个采样点的增益振幅的平均值，作为平均振幅；根据所述平均振幅确定所述平滑音量和平滑包络。

9.根据权利要求6所述的装置，其特征在于，所述装置还包括：

处理模块，用于对所述音量增益进行平滑处理；

第一限制模块，用于对平滑处理后的音量增益进行增益限制；

第二限制模块，用于对增益限制后的音量增益进行增益差分限制，将该增益差分限制后的音量增益作为当前时刻的音量增益。

10.根据权利要求6所述的装置，其特征在于，所述装置还包括：

第五确定模块，用于根据所述当前时刻的平滑音量和所述最大自相关值确定当前时刻的组合平滑音量之前，确定所述最大自相关值为满足设定条件的最大自相关值；