CN105991103A - 一种音量控制方法及装置 - Google Patents

一种音量控制方法及装置 Download PDF

Info

Publication number
CN105991103A
CN105991103A CN201510206110.8A CN201510206110A CN105991103A CN 105991103 A CN105991103 A CN 105991103A CN 201510206110 A CN201510206110 A CN 201510206110A CN 105991103 A CN105991103 A CN 105991103A
Authority
CN
China
Prior art keywords
volume
current time
gain
autocorrelation value
time
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510206110.8A
Other languages
English (en)
Inventor
王育军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Leshi Zhixin Electronic Technology Tianjin Co Ltd
Original Assignee
Leshi Zhixin Electronic Technology Tianjin Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Leshi Zhixin Electronic Technology Tianjin Co Ltd filed Critical Leshi Zhixin Electronic Technology Tianjin Co Ltd
Priority to CN201510206110.8A priority Critical patent/CN105991103A/zh
Priority to US15/139,083 priority patent/US20160314802A1/en
Publication of CN105991103A publication Critical patent/CN105991103A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • G10L21/0324Details of processing therefor
    • G10L21/034Automatic adjustment
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03GCONTROL OF AMPLIFICATION
    • H03G3/00Gain control in amplifiers or frequency changers
    • H03G3/001Digital control of analog signals
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03GCONTROL OF AMPLIFICATION
    • H03G3/00Gain control in amplifiers or frequency changers
    • H03G3/002Control of digital or coded signals
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03GCONTROL OF AMPLIFICATION
    • H03G3/00Gain control in amplifiers or frequency changers
    • H03G3/20Automatic control
    • H03G3/30Automatic control in amplifiers having semiconductor devices
    • H03G3/3005Automatic control in amplifiers having semiconductor devices in amplifiers suitable for low-frequencies, e.g. audio amplifiers
    • H03G3/301Automatic control in amplifiers having semiconductor devices in amplifiers suitable for low-frequencies, e.g. audio amplifiers the gain being continuously variable
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03GCONTROL OF AMPLIFICATION
    • H03G7/00Volume compression or expansion in amplifiers
    • H03G7/002Volume compression or expansion in amplifiers in untuned or low-frequency amplifiers, e.g. audio amplifiers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/06Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being correlation coefficients

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Quality & Reliability (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Telephone Function (AREA)

Abstract

本发明公开一种音量控制方法及装置,用以降低音量调整时延。所述方法获取当前时刻语音信号采样点的平滑音量和平滑包络;根据所述当前时刻的平滑包络和预存的多个历史时刻的平滑包络,确定第一时间段内的平滑包络与每个第二时间段内的平滑包络的自相关值;在确定出的各自相关值中,确定出数值最大的一个自相关值作为最大自相关值;根据当前时刻的平滑音量和最大自相关值确定当前时刻的组合平滑音量;根据组合平滑音量和预设参考音量确定当前时刻的音量增益;根据所述当前时刻的音量增益对下一时刻语音信号的音量进行控制。经实测,该方法可有效降低音量调整时延。

Description

一种音量控制方法及装置
技术领域
本发明涉及电子信息技术领域,尤其涉及一种音量控制方法及装置。
背景技术
在电子信息技术领域,语音交互已经成为人机交互、或机器与机器交互的必要手段。在语音交互过程中,音量给用户的听觉感受(即听感)是衡量语音交互质量的指标之一。
实际应用场景中,信号源的语音信号音量可能存在忽高忽低的情况,这种情况为音量跳跃。若对该跳跃式的音量进行调整时,调整音量的延时超过一定时间范围(如100ms),则用户也会听到音量忽高忽低,用户的听感就较差。
通常情况下,当前时刻采集到语音信号之后,通过上一时刻的音量增益控制当前时刻的语音信号输出。然后根据当前时刻的语音信号确定当前时刻的音量增益。具体的,若当前时刻的音量未发生突变,则可将上一时刻的音量增益作为当前时刻的音量增益(即不需要对上一时刻的音量进行调整),若当前时刻的音量发生突变(即存在音量跳跃),则需要重新确定当前时刻的音量增益(即,需要调整上一时刻的音量增益),以对下一时刻的音量输出进行控制。
上述的音量调整包括对音量增益的调整,且音量调整时延与音量增益的调整时延成正比。若对上一时刻的音量增益的调整时延较大时,音量调整时延也较大,这样就无法及时对下一时刻突变的音量的输出进行控制,从而导致用户也会听到音量忽高忽低。
然而,在现有技术中,主要通过当前时刻(如,t时刻)采集的语音信号采样点的平滑音量和用户预设的参考音量确定音量增益,通过该音量增益控制音量输出。然而,由于平滑音量无法及时反映两个相邻时刻的音量突变的情况,因此,也就无法及时对两个相邻时刻音量的音量差进行调整(如补偿),导致对音量增益的调整延时较大,大约在100ms以上,人耳可清楚的识别出音量跳跃的存在,相应的,用户听感也较差。
发明内容
本发明实施例提供一种音量控制方法及装置,用以降低音量调整的时延,以解决音量跳跃的问题,进而提高用户的听感。
本发明实施例提供一种音量控制方法,包括:
获取当前时刻语音信号的平滑音量和平滑包络;
根据所述当前时刻的平滑包络和预存的多个历史时刻的平滑包络,确定第一时间段内的平滑包络与每个第二时间段内的平滑包络的自相关值;其中,所述第一时间段为包含当前时刻和最近历史时刻的一个时间段,所述第二时间段为包含历史时刻的多个时间段;
在确定出的各自相关值中,确定出数值最大的自相关值,作为最大自相关值;
根据所述当前时刻的平滑音量和所述最大自相关值确定当前时刻的组合平滑音量;
根据所述组合平滑音量和预设参考音量确定当前时刻的音量增益;
根据所述当前时刻的音量增益对下一时刻语音信号的音量进行控制。
本发明实施例提供一种音量控制装置,包括:
获取模块,用于获取当前时刻语音信号的平滑音量和平滑包络;
第一确定模块,用于根据所述当前时刻的平滑包络和预存的多个历史时刻的平滑包络,确定第一时间段内的平滑包络与每个第二时间段内的平滑包络的自相关值;其中,所述第一时间段为包含当前时刻和最近历史时刻的一个时间段,所述第二时间段为包含历史时刻的多个时间段;
第二确定模块,用于在确定出的各自相关值中,确定出数值最大的自相关值,作为最大自相关值;
第三确定模块,用于根据所述当前时刻的平滑音量和所述最大自相关值确定当前时刻的组合平滑音量;
第四确定模块,用于根据所述组合平滑音量和预设参考音量确定当前时刻的音量增益;
控制模块,用于根据所述当前时刻的音量增益对下一时刻语音信号的音量进行控制。
本发明实施例提供的一种音量控制方法及装置,该方法根据当前时刻的平滑包络和预存的多个历史时刻的平滑包络,确定第一时间段内的平滑包络与每个第二时间段内的平滑包络的自相关值;其中,第一时间段为包含当前时刻和最近历史时刻的一个时间段,所述第二时间段为包含历史时刻的多个时间段;确定出数值最大的自相关值作为最大自相关值;根据当前时刻的平滑音量和最大自相关值确定当前时刻的组合平滑音量;根据该组合平滑音量确定当前时刻的音量增益并对下一时刻的音量进行控制。经实测,使用该方法确定当前时刻的音量增益时,调整音量增益的时延有效缩短,从而使得音量调整时延也有效缩短,控制音量输出后,可有效降低人耳感觉到音量跳跃的几率,甚至可消除音量跳跃。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本发明的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1为本发明实施例提供的语音控制方法流程示意图;
图2为本发明实施例提供的原始语音信号的时域波形图;
图3为本发明实施例提供的第一时间段和各第二时间段与平滑包络的对应关系示意图;
图4为本发明实施例提供的经实测得到包括平滑音量、组合平滑音量、最大自相关值、增益等的谱线图;
图5为本发明实施例提供的输出后的语音信号的时域波形图;
图6为本发明实施例提供的语音控制方法流程图;
图7为本发明实施例提供的语音控制方法流程图;
图8为本发明实施例提供的语音控制装置结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明具体实施例及相应的附图对本发明技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1为本发明实施例提供的一种音量控制方法,具体包括以下步骤:
S101:获取当前时刻语音信号的平滑音量和平滑包络。
在本发明实施例中,上一时刻确定出的音量增益用于对当前时刻的语音信号的音量进行控制并输出,类似的,当前时刻的音量增益用于对下一时刻的语音信号的音量进行控制并输出。
本发明以确定当前时刻的音量增益并控制下一时刻音量为例说明。
在本发明实施例中,获取当前时刻(以下称为t时刻)语音信号的平滑音量和平滑包络时,需要首先获取t时刻语音信号的音量和包络,然后对该音量和包络进行平滑,得到平滑音量和平滑包络。
获取t时刻语音信号的音量和包络,具体的:假设在语音对话***中,存在一段时间长度为T的原始语音信号,该原始语音信号的时间(如横轴所示)和振幅(如纵轴所示)关系图,如图2所示;从图2所示的原始语音信号中,获取t时刻语音信号的m(m为正整数)个采样点的振幅x1~xm,确定该每个振幅xi(i=1,…,m)和上一时刻(以下称为t-1时刻)音量增益gt-1的乘积gt-1xi,将各gt-1xi的平均值作为平均振幅增益将该平均振幅增益的平方值s2作为当前时刻的音量Vt,将该平均振幅增益的绝对值作为当前时刻的音量包络Zt
上述确定出t时刻的音量Vt后,可通过公式(1-1)确定t时刻的平滑音量Vt’。
Vt’=(1-λ)(λVt-1’+Vt) (1-1)
在公式(1-1)中,λ为平滑音量的衰减因子,Vt-1’为t-1时刻的平滑音量。
公式(1-1)中,λ的值越大,平滑音量Vt’相对于平滑音量Vt-1’变化越平缓。其中,λ可以在0.50~0.99范围内,比如,λ的值可以为0.75。在实际应用中λ的值可根据实际需求确定,这里不做具体限制。
上述确定出t时刻的包络Zt后,可通过公式(1-2)确定t时刻的平滑包络Zt’。
Zt’=(1-ω)(ωZt-1’+Zt) (1-2)
公式(1-2)中,ω为平滑包络的衰减因子,Zt-1’为t-1时刻的平滑包络。ω的值越大,平滑包络Zt’越容易被平滑包络Zt-1’平滑掉。其中,ω的值可接近于0,比如,在0.00~0.50范围内,具体可以为0.25,在实际应用中可根据实际需求确定,此处不作具体限制。
S102:根据所述当前时刻的平滑包络和预存的多个历史时刻的平滑包络,确定第一时间段内的平滑包络与每个第二时间段内的平滑包络的自相关值。
其中,所述第一时间段为包含当前时刻和最近历史时刻的一个时间段,所述第二时间段为仅包含历史时刻的多个时间段。其中,相邻的两个时间段的时刻可部分重叠。
所述的多个历史时刻可以为当前时刻之前设定b时间段内的历史时刻,比如,多个历史时刻可以为t-5~t-1时间段(b时间段)之间的任一个历史时刻。第一时间段可以为包含当前时刻t和距离t时刻最近的一个或多个历史时刻,比如,第一时间段可以为t-2~t,第二时间段为仅包含历史时刻的多个时间段,比如,第二时间段可以为t-3~t-1、t-4~t-2、t-5~t-3、t-6~t-4。
在实际应用场景中,在每次确定出t时刻的平滑包络后,可保存设定b时间段内的各平滑包络,上例中,可保存t-5~t时间段内的各平滑包络Zt-5’~Zt’。保存的各平滑包络Zt-5’~Zt’和各时间段的对应关系如图3所示。
在实际应用场景中,确定t时刻的音量增益是指确定浊音段语音信号(即基音周期信号)的音量增益,而不是确定无基音周期且类似随机噪声的轻音段语音信号的音量增益。这就需要根据自相关函数来检测t时刻的语音信号是否为基音周期信号。
具体的,第一时间段内的多个平滑包络与第二时间段内的多个平滑包络的自相关函数存在极大值时,就可以确定该第一时间段对应的语音信号为基音周期信号。
需要说明的是,一个时刻产生一个包络值,由于第一时间段包括当前时刻和至少一个历史时刻,因此,第一时间段内包括多个时刻对应的多个平滑包络(如,至少包括两个平滑包络)。
因此,在本发明实施例中,确定第一时间段内的多个平滑包络与每个第二时间段内的各平滑包络的自相关值,就可以从多个自相关值中确定出极大值,根据该极大值,从而就可以确定语音信号中存在基音周期信号。本发明所述的自相关函数为短时自相关函数(也称即时自相关函数)。
在本发明实施例中,确定第一时间段内的多个平滑包络与每个第二时间段内的各平滑包络的自相关值,具体通过滑动窗口来计算两个时间段的平滑包络的自相关值。
沿用上例,假设滑动窗口的窗口长度对应三个包络值(也对应三个时刻),且滑动窗口从t~t-2时间段(即第一时间段)开始,向历史时刻方向滑动,每滑动一次向历史时刻方向移动一个时刻,则针对t-5~t的时间长度,该滑动窗口相对于当前时刻需要滑动三次,滑动三次对应的时间段(即第二时间段)t-3~t-1、t-4~t-2、t-5~t-3。
则第一时间段Zt-2’~Zt’与第二时间段Zt-3’~Zt-1’的自相关值C1可通过公式确定;第一时间段Zt-2’~Zt’与第二时间段Zt-4’~Zt-2’的自相关值C2可通过公式确定,第一时间段Zt-2’~Zt’与第二时间段Zt-5’~Zt-3’的自相关值C3可通过公式确定。
当然,各自相关值不限于采用上述公式计算,具体的,C1、C2和C3可分别通过如下公式计算: C 1 = Σ i = 0 i = 2 Z ′ t - i Z ′ t - 1 - i ; C 2 = Σ i = 0 i = 2 Z ′ t - i Z ′ t - 2 - i ; C 3 = Σ i = 0 i = 2 Z ′ t - i Z ′ t - 3 - i .
S103:在确定出的各自相关值中,确定出数值最大的自相关值,作为最大自相关值Cmax
沿用上例,在确定出的各自相关值C1~C3中,确定出数值最大的一个自相关值,作为最大自相关值。假设C1最大,则C1为最大自相关值Cmax,该最大自相关值也就是自相关函数的极大值,该极大值说明t时刻的语音信号存在基音周期信号。
S104:根据当前时刻的平滑音量和最大自相关值Cmax确定当前时刻的组合平滑音量
具体的,根据步骤S101确定出的t时刻的平滑音量Vt’,以及步骤S103确定出的最大自相关值Cmax,来确定t时刻的组合平滑音量
在本发明实施例中,所述的组合平滑音量为t时刻的平滑音量和最大自相关值的线性组合。
具体的,组合平滑音量可通过公式(1-3)确定。
V ^ = α V t , + β C max - - - ( 1 - 3 )
公式(1-3)中,α为t时刻的平滑音量Vt’的系数,β为最大自相关值Cmax的系数,α和β可根据实际需求预设。
具体的,α和β的关系可以为:β=(1-α)/I,其中,I为第一时间段内的多个时刻分别对应的多个平滑包络的个数。
则公式(1-3)的变形如公式(1-4)所示。
V ^ = α V t , + ( 1 - α ) C max / I - - - ( 1 - 4 )
也就是说,根据t时刻的平滑音量和最大自相关值确定t时刻的组合平滑音量,具体的,可确定最大自相关值Cmax与第一时间段内的平滑包络的数量I的比值Cmax/I,作为平均最大自相关值;确定t时刻的平滑音量Vt’和平均最大自相关值Cmax/I的加权平均值αVt’+(1-α)Cmax/I,其中α和1-α分别为平滑音量Vt’和Cmax/I的权重,该α和1-α的和值为1,将加权平均值αVt’+(1-α)Cmax/I作为t时刻采样点的组合平滑音量。
所述的权重α可以为0.60~0.99,可选的,该权重α可以为0.80、0.85等,权重α的具体值还需要根据实际需求设定,这里不做具体限制。
S105:根据组合平滑音量和预设参考音量确定t时刻的音量增益。
具体的,计算组合平滑音量和预设参考音量Vr之间的差值将该差值gt作为t时刻的音量增益。
S106:根据当前时刻的音量增益对下一时刻语音信号采样点的音量进行控制。
具体的,假设采样率为16/ms,音量控制装置在t+1时刻采集到16个采样点的振幅x1~x16,获取t时刻的音量增益gt,然后分别计算xi与gt的乘积,得到xigt(i=1,…,16),将该16个xigt(i=1,…,16)作为语音信号输出值。
上述图1所示的方法中,根据t时刻的平滑包络和预存的最近设定时间段内的多个历史时刻的平滑包络,确定第一时间段内的多个平滑包络与每个第二时间段内的各平滑包络的自相关值;在确定出的各自相关值中,确定出数值最大的一个自相关值,作为最大自相关值;根据t时刻的平滑音量和最大自相关值确定t时刻的组合平滑音量;根据组合平滑音量和预设参考音量确定t时刻采样点的音量增益;根据当前时刻的音量增益对下一时刻语音信号采样点的音量进行控制。经实测,使用该方法确定当前时刻的音量增益时,调整音量增益的时延有效缩短,从而使得音量调整时延也有效缩短,控制音量输出后,可有效降低人耳感觉到音量跳跃的几率,甚至可消除音量跳跃。
具体的,图4为实测得到的谱线图。在图4中,横轴表示图2所示的一段原始语音信号的时间,纵轴表示谱线图中各曲线的幅度值,至上而下的曲线分别为:
第一条曲线表示图2所示的原始语音信号随时间变化的平滑音量Vt’变化曲线图;第二条曲线表示图2所示的原始语音信号随时间变化的组合平滑音量变化曲线图;第三条曲线表示图2所示的原始语音信号随时间变化的最大自相关值Cmax变化曲线图;第四条曲线表示根据组合平滑音量和预设参考音量值确定出的音量增益gt的变化曲线图,即根据本发明图1所示的方法确定出的音量增益变化曲线图;第五条曲线表示仅根据t时刻的平滑音量Vt’和预设参考音量值确定出的音量增益gL的变化曲线图,即根据现有技术确定出的音量增益变化曲线图。
由第四条曲线gt和第五条曲线gL的各拐点以及拐点的变化趋势可知,拐点对应的浊音语音信号(基音周期信号)的音量突然增加,拐点处的音量增益相比较上一时刻的音量增益有所下降,并且,由第四条曲线gt和第五条曲线gL的第一个拐点可知,第四条曲线gt的各拐点对应的时间早于第五条曲线gL的各拐点对应的时间;也就是说,根据t时刻的平滑音量Vt’和预设参考音量值确定出的音量增益gL的变化曲线图,在时间上滞后于根据组合平滑音量和预设参考音量值确定出的音量增益gt的变化曲线图,滞后时间大约为图4所示的△t。相应的,相比较语音信号音量突变的时间点,根据本发明图1所示的方法确定出的音量增益,调整音量增益的延时小于现有技术仅根据平滑音量调整音量增益的延时,由于本发明图1所示的方法调整音量增益的延时较小,相应的,对调整音量的延时也相应就减小,控制音量输出后,可有效降低人耳感觉到音量跳跃的几率,甚至可消除音量跳跃。
此外,对比图2和图5(音量控制输出结果)所示的曲线图可知,本发明图1所示的方法控制音量后,使得较高的音量得到抑制,较低的音量得到提高,从而使得一段时间内的语音信号的音量的变化率保持在一个较小的范围内,这样,可有效提高语音信号输出的质量,从而有效提高用户听感。
需要说明的是,所述的组合平滑音量和预设参考音量分别可以为归一化后组合平滑音量和预设参考音量。
比如,在通过步骤S101获取到平滑音量和平滑包络之后,可以对平滑音量进行归一化处理,对平滑包络进行归一化处理。当然,也可以对平滑之前的音量和包络进行归一化处理,则平滑之后就不需要再次进行归一化处理。若平滑音量和平滑包络为归一化值,则预设参考音量也需要调整为归一化值,例如,将预设参考音量设置在0-1的范围内。用户在调整预设参考音量时,可以调整一个浮点数来控制预设参考音量的取值,从而控制输出音量的大小。
考虑到在实际应用场景中,当前时刻的语音信号的音量相比较t-1时刻的音量,音量变化率较小(如,可能不存在音量突变,而是缓慢变化)。因此,t时刻采集到语音信号采样点之后,可能不需要对t时刻的音量增益进行调整。
因此,在本发明实施例中,根据t时刻的平滑音量和最大自相关值确定t时刻的组合平滑音量之前,需要确定t时刻的最大自相关值是否满足设定条件,若是,则可根据本发明图1所示的方法,对t-1时刻的音量增益gt-1进行调整,将调整后的gt-1(即通过图1所示的方法确定出的t时刻的音量增益gt)作为t时刻的音量增益gt,否则,将t-1时刻的音量增益gt-1作为t时刻的音量增益gt,来对下一时刻的音量增益进行调整。
其中,确定t时刻的最大自相关值是否满足设定条件,具体为:
若当前时刻的最大自相关值的超过预设最大自相关阈值,以及在当前时刻t和历史时刻t-j之间确定出的各最大自相关值存在局部峰值,其中,j为大于1的正整数,则确定当前时刻t的最大自相关值满足设定条件,否则,确定当前时刻t的最大自相关值不满足设定条件。
比如,假设t时刻的最大自相关值为Cmax1,预设最大自相关阈值为Cys;最近历史时间段为t-4~t-1,历史时间段内各历史时刻的最大自相关值为Cmax5(对应t-4时刻)、Cmax4(对应t-3时刻)、Cmax3(对应t-2时刻)、Cmax2(对应t-1时刻);判断Cmax1是否大于Cys,且判断判断t-4~t时刻之间的最大自相关值Cmax0~Cmax5中,中间值Cmax3是否为峰值(即最大值);若Cmax1大于Cys且Cmax3为峰值,则确定t时刻的最大自相关值满足设定条件;若Cmax1不大于Cys,或者Cmax3不是峰值,则确定t时刻的最大自相关值不满足设定条件。
考虑到在实际应用场景中,当确定出t时刻的音量增益gt之后,该音量增益gt很可能相比较t-1时刻的音量增益gt-1产生突变。因此,在本发明实施例中,确定出t时刻的音量增益gt之后,根据该音量增益对下一时刻的音量进行控制之前,所述方法还包括:对音量增益进行平滑处理。
具体的,可采用公式(1-5)确定平滑音量增益gt’。
gt’=(1-θ)(θgt-1’+gt) (1-5)
在公式(1-5)中,θ为平滑音量增益的衰减因子,gt-1’为t-1时刻的平滑音量增益,gt为t时刻的音量增益(即,未平滑的音量增益),衰减因子θ可根据实际需求设定。
进一步的,考虑到实际应用场景中,由于确定出的音量增益具有滞后效应,这可能会导致根据平滑音量增益gt’控制后续时刻的音量时,输出的音量超出用户预设参考音量。
因此,在根据平滑处理后的音量增益(即平滑音量增益)对下一时刻的音量进行控制之前,所述方法还包括:
对平滑处理后的音量增益进行增益限制处理,比如,可以预设一个增益阈值,当该平滑处理后的音量增益超过增益阈值时,将该平滑处理后的音量增益降低到增益阈值或增益阈值范围内。当然,本发明实施例对平滑处理后的音量增益进行增益限制处理可通过现有常规手段进行处理,这里不再赘述。
考虑到实际应用场景中,频繁调整音量增益,可能会产生额外的信道噪声,该额外的信道噪声可能会提高音量增益的变化率,从而导致音量增益不准确的问题。
因此,为了避免上述问题,在根据音量增益对下一时刻的音量进行控制之前,所述方法还包括:
对增益限制后的音量增益进行增益差分限制,然后根据该增益差分限制后得到的音量增益对下一时刻的音量进行控制。增益差分限制也就是说,对t时刻的增益限制后的音量增益的方差进行限制,具体的,若所述方差大于预设方差,就需要对该增益限制后的音量增益进行调整,使得调整后的音量增益的方差在预设方差范围内。
为了更清楚地说明本发明整体技术方案,以下将结合附图简要说明本发明语音控制的流程。
参见图6和图7,本发明实施例提供的音量控制方法主要包括以下步骤:
S601:接收t时刻各采样点的振幅,如x1~x16,如图7中所示的x(x可以是x1~x16中的任一个值)为各采样点的振幅。
S602:根据t-1时刻的音量增益gt-1对各采样点的振幅x进行控制并输出,如图7中的y值为输出值。
S603:对t时刻各采样点的振幅进行采样抽取,该采样抽取也就是说确定t时刻的平均增益振幅
S604:根据平均增益振幅确定音量和包络,然后对音量进行平滑,对包络进行平滑。
S605:根据平滑后的包络确定t时刻的最大自相关值。
S606:根据预设条件判断是否需要调整t-1时刻音量增益gt-1,若是,执行步骤S608,否则,执行步骤S607。
S607:将t-1时刻音量增益gt-1作为t时刻的音量增益gt,即gt=gt-1,然后执行步骤S613。
S608:根据平滑音量和最大自相关值确定组合平滑音量。
S609:根据组合平滑音量和预设参考音量确定t时刻音量增益。
S610:对音量增益进行平滑处理。
S611:对平滑处理后的音量增益进行增益限制。
S612:对增益限制后的音量增益进行增益差分限制,将增益差分限制后的音量增益作为t时刻确定出的音量增益gt
S613:根据t时刻确定出的音量增益gt对下一时刻或后续时刻的语音信号的音量进行控制。
需要说明的是,根据预设条件判断是否需要调整t-1时刻音量增益gt-1,具体是指:判断步骤S606确定出的最大自相关值是否满足设定条件:若当前时刻的最大自相关值超过预设最大自相关阈值,以及在当前时刻t和历史时刻t-j之间确定出的各最大自相关值存在局部峰值,则确定当前时刻的最大自相关值满足设定条件;其中,j为大于1的正整数,若当前时刻的最大自相关值未超过预设最大自相关阈值,或,在当前时刻t和历史时刻t-j之间确定出的各最大自相关值不存在局部峰值,则确定当前时刻的最大自相关值不满足设定条件。
以上为本发明实施例提供的音量控制方法,基于同样的思路,本发明实施例还提供了一种音量控制装置,如图8所示。
图8为本发明实施例提供的一种音量控制装置,包括:
获取模块81,用于获取当前时刻语音信号采样点的平滑音量和平滑包络;
第一确定模块82,用于根据所述当前时刻的平滑包络和预存的多个历史时刻的平滑包络,确定第一时间段内的平滑包络与每个第二时间段内的平滑包络的自相关值;其中,所述第一时间段为包含当前时刻和最近历史时刻的一个时间段,所述第二时间段为包含历史时刻的多个时间段;
第二确定模块83,用于在确定出的各自相关值中,确定出数值最大的自相关值,作为最大自相关值;
第三确定模块84,用于根据所述当前时刻的平滑音量和所述最大自相关值确定当前时刻的组合平滑音量;
第四确定模块85,用于根据所述组合平滑音量和预设参考音量确定当前时刻的音量增益;
控制模块86,用于根据当前时刻的音量增益对下一时刻语音信号的音量进行控制。
可选的,所述第三确定模块84具体用于:确定最大自相关值与第一时间段内的平滑包络的数量的比值,作为平均最大自相关值;其中,所述第一时间段内的平滑包络为第一时间段内每个时刻的平滑包络;确定所述当前时刻的平滑音量和所述平均最大自相关值的加权平均值;将所述加权平均值作为当前时刻的组合平滑音量。
可选的,所述获取模块81具体用于:获取当前时刻语音信号的多个采样点的振幅;计算每个采样点的振幅与上一时刻音量增益的乘积,作为增益振幅;确定所述多个采样点的增益振幅的平均值,作为平均振幅;根据所述平均振幅确定所述平滑音量和平滑包络。
可选的,所述装置还包括:
处理模块87,用于对所述音量增益进行平滑处理;
第一限制模块88,用于对平滑处理后的音量增益进行增益限制;
第二限制模块89,用于对增益限制后的音量增益进行增益差分限制,将该增益差分限制后的音量增益作为当前时刻的音量增益。可选的,所述装置还包括:
第五确定模块90,用于根据所述当前时刻的平滑音量和所述最大自相关值确定当前时刻的组合平滑音量之前,确定所述最大自相关值为满足设定条件的最大自相关值;
其中,若当前时刻的最大自相关值超过预设最大自相关阈值,以及在当前时刻t和历史时刻t-j之间确定出的各最大自相关值存在局部峰值,则确定当前时刻的最大自相关值满足设定条件;其中,j为大于1的正整数。
综上所述,本发明实施例提供的一种音量控制方法及装置,该方法根据当前时刻的平滑包络和预存的最近设定时间段内的多个历史时刻的平滑包络,确定第一时间段内的多个平滑包络与每个第二时间段内的各平滑包络的自相关值;确定出数值最大的一个自相关值作为最大自相关值;根据当前时刻的平滑音量和最大自相关值确定当前时刻的组合平滑音量;根据该组合平滑音量确定当前时刻的音量增益并进行音量控制。经实测,使用该方法确定当前时刻的音量增益时,调整音量增益的时延有效缩短,从而使得音量调整时延也有效缩短,控制音量输出后,可有效降低人耳感觉到音量跳跃的几率,甚至可消除音量跳跃。
本发明是参照根据本发明实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flashRAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本发明的实施例可提供为方法、***或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
以上所述仅为本发明的实施例而已,并不用于限制本发明。对于本领域技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本发明的权利要求范围之内。

Claims (10)

1.一种音量控制方法,其特征在于,包括:
获取当前时刻语音信号的平滑音量和平滑包络;
根据所述当前时刻的平滑包络和预存的多个历史时刻的平滑包络,确定第一时间段内的平滑包络与每个第二时间段内的平滑包络的自相关值;其中,所述第一时间段为包含当前时刻和最近历史时刻的一个时间段,所述第二时间段为包含历史时刻的多个时间段;
在确定出的各自相关值中,确定出数值最大的自相关值,作为最大自相关值;
根据所述当前时刻的平滑音量和所述最大自相关值确定当前时刻的组合平滑音量;
根据所述组合平滑音量和预设参考音量确定当前时刻的音量增益;
根据所述当前时刻的音量增益对下一时刻语音信号的音量进行控制。
2.如权利要求1所述的方法,其特征在于,根据所述当前时刻的平滑音量和所述最大自相关值确定当前时刻的组合平滑音量,具体包括:
确定最大自相关值与第一时间段内的平滑包络的数量的比值,作为平均最大自相关值;其中,所述第一时间段内的平滑包络为第一时间段内每个时刻的平滑包络;
确定所述当前时刻的平滑音量和所述平均最大自相关值的加权平均值;
将所述加权平均值作为当前时刻的组合平滑音量。
3.如权利要求1所述的方法,其特征在于,获取当前时刻语音信号的平滑音量和平滑包络,具体包括:
获取当前时刻语音信号的多个采样点的振幅;
计算每个采样点的振幅与上一时刻音量增益的乘积,作为增益振幅;
确定所述多个采样点的增益振幅的平均值,作为平均振幅;
根据所述平均振幅确定所述平滑音量和平滑包络。
4.如权利要求1所述的方法,其特征在于,根据所述确定出的音量增益对下一时刻语音信号的音量进行控制之前,所述方法还包括:
对所述音量增益进行平滑处理;
对平滑处理后的音量增益进行增益限制;
对增益限制后的音量增益进行增益差分限制,将该增益差分限制后的音量增益作为当前时刻的音量增益。
5.如权利要求1所述的方法,其特征在于,根据所述当前时刻的平滑音量和所述最大自相关值确定当前时刻的组合平滑音量之前,所述方法还包括:
确定所述最大自相关值为满足设定条件的最大自相关值;
其中,若当前时刻的最大自相关值超过预设最大自相关阈值,以及在当前时刻t和历史时刻t-j之间确定出的各最大自相关值存在局部峰值,则确定当前时刻的最大自相关值满足设定条件;其中,j为大于1的正整数。
6.一种音量控制装置,其特征在于,包括:
获取模块,用于获取当前时刻语音信号的平滑音量和平滑包络;
第一确定模块,用于根据所述当前时刻的平滑包络和预存的多个历史时刻的平滑包络,确定第一时间段内的平滑包络与每个第二时间段内的平滑包络的自相关值;其中,所述第一时间段为包含当前时刻和最近历史时刻的一个时间段,所述第二时间段为包含历史时刻的多个时间段;
第二确定模块,用于在确定出的各自相关值中,确定出数值最大的自相关值,作为最大自相关值;
第三确定模块,用于根据所述当前时刻的平滑音量和所述最大自相关值确定当前时刻的组合平滑音量;
第四确定模块,用于根据所述组合平滑音量和预设参考音量确定当前时刻的音量增益;
控制模块,用于根据所述当前时刻的音量增益对下一时刻语音信号的音量进行控制。
7.根据权利要求6所述的装置,其特征在于,所述第三确定模块具体用于:确定最大自相关值与第一时间段内的平滑包络的数量的比值,作为平均最大自相关值;其中,所述第一时间段内的平滑包络为第一时间段内每个时刻的平滑包络;确定所述当前时刻的平滑音量和所述平均最大自相关值的加权平均值;将所述加权平均值作为当前时刻的组合平滑音量。
8.根据权利要求6所述的装置,其特征在于,所述获取模块具体用于:获取当前时刻语音信号的多个采样点的振幅;计算每个采样点的振幅与上一时刻音量增益的乘积,作为增益振幅;确定所述多个采样点的增益振幅的平均值,作为平均振幅;根据所述平均振幅确定所述平滑音量和平滑包络。
9.根据权利要求6所述的装置,其特征在于,所述装置还包括:
处理模块,用于对所述音量增益进行平滑处理;
第一限制模块,用于对平滑处理后的音量增益进行增益限制;
第二限制模块,用于对增益限制后的音量增益进行增益差分限制,将该增益差分限制后的音量增益作为当前时刻的音量增益。
10.根据权利要求6所述的装置,其特征在于,所述装置还包括:
第五确定模块,用于根据所述当前时刻的平滑音量和所述最大自相关值确定当前时刻的组合平滑音量之前,确定所述最大自相关值为满足设定条件的最大自相关值;
其中,若当前时刻的最大自相关值超过预设最大自相关阈值,以及在当前时刻t和历史时刻t-j之间确定出的各最大自相关值存在局部峰值,则确定当前时刻的最大自相关值满足设定条件;其中,j为大于1的正整数。
CN201510206110.8A 2015-04-27 2015-04-27 一种音量控制方法及装置 Pending CN105991103A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201510206110.8A CN105991103A (zh) 2015-04-27 2015-04-27 一种音量控制方法及装置
US15/139,083 US20160314802A1 (en) 2015-04-27 2016-04-26 Volume controlling method and device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510206110.8A CN105991103A (zh) 2015-04-27 2015-04-27 一种音量控制方法及装置

Publications (1)

Publication Number Publication Date
CN105991103A true CN105991103A (zh) 2016-10-05

Family

ID=57039558

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510206110.8A Pending CN105991103A (zh) 2015-04-27 2015-04-27 一种音量控制方法及装置

Country Status (2)

Country Link
US (1) US20160314802A1 (zh)
CN (1) CN105991103A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109672961A (zh) * 2018-12-14 2019-04-23 歌尔科技有限公司 一种音量调节方法、设备及存储介质
CN114582365A (zh) * 2022-05-05 2022-06-03 阿里巴巴(中国)有限公司 音频处理方法和装置、存储介质和电子设备

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109450750A (zh) * 2018-11-30 2019-03-08 广东美的制冷设备有限公司 设备的语音控制方法、装置、移动终端和家电设备

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1624656A (zh) * 2003-08-19 2005-06-08 微软公司 实现平滑音量控制模型的***和方法
CN101022518A (zh) * 2006-02-14 2007-08-22 逐点半导体(上海)有限公司 一种自动音量调节的方法及***
CN101267189A (zh) * 2008-04-16 2008-09-17 深圳华为通信技术有限公司 音量自动调节装置、方法以及移动终端
US20130136277A1 (en) * 2011-11-28 2013-05-30 Kabushiki Kaisha Toshiba Volume controller, volume control method and electronic device
CN103595363A (zh) * 2012-08-14 2014-02-19 腾讯科技(北京)有限公司 一种音量控制方法、装置及终端
US20140376746A1 (en) * 2011-06-17 2014-12-25 Arkamys Method for normalizing the power of a sound signal and associated processing device

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8315398B2 (en) * 2007-12-21 2012-11-20 Dts Llc System for adjusting perceived loudness of audio signals

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1624656A (zh) * 2003-08-19 2005-06-08 微软公司 实现平滑音量控制模型的***和方法
CN101022518A (zh) * 2006-02-14 2007-08-22 逐点半导体(上海)有限公司 一种自动音量调节的方法及***
CN101267189A (zh) * 2008-04-16 2008-09-17 深圳华为通信技术有限公司 音量自动调节装置、方法以及移动终端
US20140376746A1 (en) * 2011-06-17 2014-12-25 Arkamys Method for normalizing the power of a sound signal and associated processing device
US20130136277A1 (en) * 2011-11-28 2013-05-30 Kabushiki Kaisha Toshiba Volume controller, volume control method and electronic device
CN103595363A (zh) * 2012-08-14 2014-02-19 腾讯科技(北京)有限公司 一种音量控制方法、装置及终端

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109672961A (zh) * 2018-12-14 2019-04-23 歌尔科技有限公司 一种音量调节方法、设备及存储介质
CN114582365A (zh) * 2022-05-05 2022-06-03 阿里巴巴(中国)有限公司 音频处理方法和装置、存储介质和电子设备
CN114582365B (zh) * 2022-05-05 2022-09-06 阿里巴巴(中国)有限公司 音频处理方法和装置、存储介质和电子设备

Also Published As

Publication number Publication date
US20160314802A1 (en) 2016-10-27

Similar Documents

Publication Publication Date Title
US20240186972A1 (en) Audio control using auditory event detection
CN100464509C (zh) 噪声抑制器
CN103325380B (zh) 用于信号增强的增益后处理
DE102008039276A1 (de) Tonverarbeitungsvorrichtung, Vorrichtung und Verfahren zum Steuern der Verstärkung und Computerprogramm
CN105991103A (zh) 一种音量控制方法及装置
CN101034878B (zh) 增益调整方法和增益调整装置
EP2660814B1 (en) Adaptive equalization system
GB2536727B (en) A speech processing device
Uezu et al. Articulatory compensation for low-pass filtered formant-altered auditory feedback
EP3531719B1 (en) Dereverberation device and hearing aid

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20161005

WD01 Invention patent application deemed withdrawn after publication