CN1619646A

CN1619646A - 使用共振峰增强对话的方法和装置

Info

Publication number: CN1619646A
Application number: CNA2004100911129A
Authority: CN
Inventors: 吴润学; 朴海光
Original assignee: Samsung Electronics Co Ltd
Current assignee: Samsung Electronics Co Ltd
Priority date: 2003-11-21
Filing date: 2004-11-18
Publication date: 2005-05-25
Anticipated expiration: 2024-11-18
Also published as: JP2005157363A; EP1533791A2; KR20050049103A; US20050114119A1; CN1303586C; EP1533791A3

Abstract

一种提升对话区域的共振峰而不改变声音区域的对话增强方法和装置，包括：基于来自输入信号的线性预测编码(LPC)来计算线谱对(LSP)系数；基于计算出的LSP系数确定输入信号中是否存在语音区域；和根据是否存在语音区域来从LSP系数中提取共振峰，并提升共振峰。

Description

使用共振峰增强对话的方法和装置

本申请要求2003年11月21日在韩国知识产权局提交的第2003-82976号的韩国专利申请的优先权，该申请全部公开于此以资参考。

技术领域

本发明总体构思涉及对话增强***，尤其涉及一种提升对话区域的共振峰而不改变声音区域的对话增强方法和装置。

背景技术

通常，对话增强***提高由背景噪音所降低的对话的清晰度。传统的对话增强***使用均衡器和消波电路以仅提高音量。然而，均衡器和消波电路将对话和背景噪音一起放大。

在授予klayman的题目为“公共演讲清晰***”(public address intelligibilitysystem)的第5459813号的U.S专利中公开了一种传统对话增强***。

如图1所示，该传统对话增强***包括：语音/非语音(voice/unvoice)确定器90、频谱分析器42、压控放大器(VCA)单元50、合成单元60、和合成器108。

参照图1，语音/非语音确定器90使用低通滤波器来确定输入信号是语音信号还是非语音信号。频谱分析器42包括30个滤波器组并通过分析输入信号的频率分量来确定共振峰。VCA单元50根据由语音/非语音确定器90确定的语音/非语音信号通过将存储在增益表中的增益施加到共振峰来控制共振峰的振幅。合成单元60将其振幅由VCA单元50控制的共振峰的频率分量和其它波段合成。

由于传统的对话增强***在频谱分析器42中使用许多滤波器组以分析频率，因此用于这种分析处理的计算量很大，并且由于共振峰的增益由VCA单元50控制，所以语音信号的包络变得扭曲。

发明内容

本发明总体构思在于提供一种对话增强方法和装置，以根据基于线谱对(LSP)系数的语音区域是否存在通过增强共振峰仅增强对话而不改变声音振幅。

本发明总体构思的另外的方面和优点将在下面的描述中部分提出，另外的部分，通过描述将是清楚的，或者通过实施本发明总体构思来了解。

通过提供这样一种对话增强方法，本发明总体构思的上述和/或其他方面和优点可基本实现，该方法包括：基于来自输入信号的线性预测编码(LPC)计算线谱对(LSP)系数；根据计算出的LSP系数来确定语音区域是否存在于输入信号中；和根据语音区域是否存在的确定从LSP系数中提取共振峰，并提升共振峰。

通过提供这样一种对话增强方法也可实现本发明总体构思的上述和/或其他方面和优点，该方法包括：合成左和右声道的输入信号；通过向下取样合成的信号基于LPC提取频谱参数；根据LSP系数的接近度来确定语音区域是否存在；根据语音区域是否存在的确定从LSP系数中提取多个共振峰；在多个共振峰的中心频率生成具有预定电平的多个波段的提升滤波器系数；和如果语音区域存在于左和右声道的输入信号中，则使用多个波段的提升滤波器系数将输入信号滤波。

通过提供这样一种对话增强装置，本发明总体构思的上述和/或其他方面和优点也可实现，该装置包括：提升滤波器系数提取器，用于通过基于来自输入信号的LPC计算LSP系数来提取多个共振峰，提取相应于多个共振峰的预定电平的提升滤波器系数，并基于LSP系数的接近度确定语音区域是否存在于输入信号中；和信号处理单元，用于根据语音区域是否存在的确定基于提升滤波器系数来增强语音区域的共振峰。

提升滤波器系数提取器可包括：向下取样器，用于以预定的倍数(multiplenumber)对输入信号进行向下取样；LPC提取器，用于从由向下取样器向下取样的信号中提取LPC系数；LSP转换器，用于将由LPC提取器提取的LPC系数转换为LSP系数；语音区域确定器，用于通过将由LSP转换器转换的LSP系数的接近度和阈值比较来确定语音区域是否存在；和提升滤波器系数生成器，用于从由LSP转换器转换的LSP系数计算多个共振峰的中心频率，并从多个共振峰的中心频率生成具有的相同的提升增益的提升滤波器系数。

附图说明

通过结合附图对实施例进行的下述描述，本发明总体构思的这些和/或其他方面和优点将会变得清楚和更易于理解，其中：

图1是传统的对话增强***的框图；

图2是根据本发明总体构思的实施例的对话增强装置的框图；

图3是图2的信号合成器的框图；

图4是图2的提升滤波器系数提取器的框图；

图5是根据本发明总体构思的另一实施例的对话增强方法的流程图；

图6是用于p不连续频率的语音的频谱包络的曲线图；和

图7是经过图2的第一和第二处理单元的提升滤波器的语音的频谱包络的曲线图。

具体实施方式

现在将详细描述本发明总体构思的实施例，其例子表示在附图中，其中，相同的标号始终表示相同的部件。下面参照附图描述实施例以解释本发明总体构思。

图2是根据本发明总体构思的实施例的对话增强装置的框图。

参照图2，信号合成器210将经左和右声道输入的信号合成以生成合成信号。这里，左和右声道信号包括语音信号和背景噪声。

提升滤波器系数提取器220通过计算线谱对(LSP)系数和来自合成信号的线性预测编码(LPC)系数来提取共振峰，从共振峰中提取提升滤波器系数，基于LSP系数的接近度来确定输入信号中是否存在语音区域，并根据语音区域是否存在的确定通过提升输入信号来生成增强选择模式(模式选择信号)。

第一信号处理单元230包括具有4个由提升滤波器系数提取器220提取的提升滤波器系数被施加到其的波段的提升滤波器，并根据增强选择模式通过控制左输入信号来增强左输入信号以通过4波段的提升滤波器。

第二信号处理单元240包括具有4个由提升滤波器系数提取器220提取的提升滤波器系数被施加到其的波段的提升滤波器，并根据增强选择模式通过控制右输入信号来增强右输入信号以通过4波段的提升滤波器。

图3是图2的信号合成器210的框图。

参照图2和图3，与声学分量相比，对话分量均匀地存在于左和右声道中。因此，左和右声道的输入信号分别在第一乘法器310和第二乘法器320中被乘以0.5。然后，这些信号在加法器330中相加。

图4是图2的提升滤波器系数提取器220的框图。

参照图2至图4，对话分量在4KHz中具有主要频率分量。向下取样器420使用取样频率44.1KHz来执行合成信号的1/5向下取样。

LPC提取器430提取LPC系数以表达关于由向下取样器420向下取样的信号的语音分量的频谱包络。这里，在语音分量的频谱中的4KHz中存在4个共振峰。

LSP转换器440将由LPC提取器430提取的LPC系数转换为LSP系数。这里，2个LSP系数表示一个共振峰。此外，共振峰越尖和越高，则相应于2个LSP系数的LSP的间隙越窄。

语音区域确定器450通过将由LSP转换器440转换的LSP的间隙和阈值比较来确定语音区域是否存在。即，如果LSP间隙大于阈值，则语音区域确定器450确定不存在语音区域，并生成旁路(bypass)信号，如果LSP间隙小于阈值，则语音区域确定器450确定存在语音区域，并生成提升滤波模式信号(模式选择信号)。

提升滤波系数生成器460从由LSP转换器440转换的LSP系数计算第一、第二、第三、和第四共振峰的中心频率，并从自第一、第二、第三、和第四共振峰的中心频率生成具有提升增益的提升滤波器系数。

图5是根据本发明总体构思的另一个实施例的对话增强方法的流程图。

参照图2至图4，在操作510中，经左和右声道输入的信号被合成。这里，左和右声道信号分别包括中心信号。

因此，左(L)和右(R)声道信号可分别由L＝Lt+Ct和R＝Rt+Ct表示。这里，Lt是真L声道信号，Rt是真R声道信号，Ct是真中心分量。因此，合成的输入信号可被表示为Xinput＝0.5*Lt+0.5*Rt+Ct。这里，Lt≠Rt。

当声音信号在频域中被表达时，大部分频率分量存在于6KHz中，并且几个频段占优势。语音共振峰可被应用于在频域中的占优势的波段。通常，在语音信号中发现4个共振峰。此外，这些共振峰位于每1KHz中。因此，第一、第二、第三、和第四共振峰存在于4KHz中。因此，在操作520中，使用取样频率44.1KHz的合成信号的1/5向下取样被执行以减少计算量。

在操作530中，使用LPC方法从向下取样的信号中提取LPC系数。这里，LPC方法作为使用具有全极点结构的数字滤波器将语音生成器官中的音轨(vocal tract)的特性建模的方法，被用于在假定语音信号在具有10-20ms的短区域(short zone)中是静止的情况下从语音信号的具有10-20ms的短区域预测数字滤波器的系数。这里，语音信号s(n)可由方程1来表示。

[方程1]

s (n) = Σ_{i = 1}^{p} a_{i} s (n - 1) + Gu (n)

这里，a_i是将音轨建模的线性滤波器系数，G是增益，u(n)是激励信号。

线性滤波器系数表示短区域语音信号的频率特性，更具体地讲，很好的表示关于作为有意义的声学特性的音轨的谐振频率(共振峰)的信息。

LPC系数采用例如使用自相关系数的Durbin方法在所示的方程2至方程8中被计算。

[方程2]

E⁰＝r(0)

这里，E⁰是输入信号的能量，r(0)是自相关系数的第一个值。

[方程3]

k_{i} = \frac{{r (i) - Σ_{j = 1}^{i - 1} α_{j}^{i - 1} r (| i - j |)}}{E^{i - 1}}, 1 \leq i \leq p

这里，k_i是第i反射系数(reflection coefficient)，r(i)是第i自相关系数(autocorrelation coefficient)。因此，使用方程4和5计算线性滤波器系数。

[方程4]

α_i ⁽ⁱ⁾＝k_i

[方程5]

α_j ⁽ⁱ⁾＝α_j ^(i-1)-k_iα_i-j ^(i-1)，1≤j≤i-1

[方程6]

Eⁱ＝(1-k_i ²)E^(i-1)

这里，预先使用方程7计算自相关系数r(m)。

[方程7]

r (m) = Σ_{n = 0}^{N - 1 - m} s (n) s (n + m), m = 0,1, . . ., p

这里，s(n)是语音信号。

最后，LPC系数可最终由方程8表示。

[方程8]

α_m＝LPC系数＝α_m ^(p)，1≤m≤p

为了指示语音信号的频谱信息，在操作540中，基于LPC系数提取LSP系数。如图6所示，线谱对(LSP)指示用于p不连续频率的频谱包络。即，LSP通过使用基于线性预测的系数从LPC模型中被获得并被建议为通过Itakura-Saito LPC频谱距离的LPC系数的另一个表达类型。

如方程1所示，语音信号s(n)可被表示为滤波器传递函数H(z)＝1/A(z)，其执行语音结构的建模。这里，A(z)等于方程9。

[方程9]

A(z)＝1+a₁ ^z-1+....+a_p ^z-p

这里，a_p是第p级LPC系数。

可使用如方程10和11中所表示的A(z)来定义LSP。

[方程10]

P(z)＝A(z)+Z^-(p+1)A(z^-1)

[方程11]

Q(z)＝A(z)-Z^-(p+1)A(z^-1)

这两个定义的多项式P(z)和Q(z)的根被定义为LSP。

LSP系数可从LPC系数获得，并且LPC系数可从LSP系数获得。

此外，由于多项式P(z)是偶函数，多项式Q(z)是奇函数，所以功率谱可被表示为方程12。

[方程12]

方程12示出A(z)的根与P(z)和Q(z)的根紧密相关。即，通过收集2或3个LSP频率来表示共振峰频率。此外，共振峰的带宽可根据LSP的线对的接近度来被表达。即，参照图6，由实线和虚线之间的间隙指示的接近度越大表示具有越窄带宽和越大振幅的共振峰。

在操作550中，使用LSP系数来确定语音区域是否存在。在语音中，共振峰具有窄的带宽和大的振幅。因此，使用LSP的接近度来确定语音区域是否存在。即，如果LSP间隙小于阈值，则确定存在语音区域，如果LSP的间隙大于阈值，则确定不存在语音区域。

在操作560中，如果使用LSP的接近度确定不存在语音区域，则输入的立体声信号如在操作582中被旁路。

在操作560中，如果使用LSP的接近度确定存在语音区域，则提升语音共振峰的操作572、574、和576被随后执行。

即，如果确定在输入信号中存在语音区域，则在操作572中使用LSP系数来确定第一、第二、第三、和第四共振峰的中心频率。

在操作574中，使用第一、第二、第三、和第四共振峰的中心频率来获得具有提升电平的4波段的提升滤波系数。这里，共振峰的提升电平全部相同，从而语音信号的频谱包络不被改变。

在操作576中，输入的立体声信号如左或右声道信号经过提升滤波器系数被施加到其的4波段的提升滤波器。图7示出在第一、第二、第三、和第四共振峰波段710、720、730、和740具有相同提升增益的信号的LPC频谱。

最后，如图7所示，通过将输入的立体声信号经过4波段的提升滤波器该输入的立体声信号的语音区域被提高。

该发明总体构思也可实施为存储在计算机可读记录介质上的计算机可读代码。计算机可读记录介质是能够存储随后可由计算机***读取的数据的任何数据存储设备。计算机可读存储介质的例子包括只读存储器(ROM)、随机存取存储器(RAM)、CD-ROM、磁带、软盘、光学数据存储设备、和载波(如通过网络的数据传输)。计算机可读记录介质也可被分布在连接在计算机***上的网络中，从而计算机可读代码以分布的方式被存储和执行。

如上所述，根据本发明，通过使用LPC系数预测共振峰，语音检测/增强操作的计算量可被减少。此外，由于通过在语音信号的第一、第二、第三、和第四共振峰中设置预定增益，语音信号的包络没有被扭曲，因此，音质没有被改变。

尽管已表示和描述了本发明总体构思的一些实施例，但是本领域的技术人员应该理解，在不脱离由所附权利要求及其等同物所限定其范围的本发明总体构思的原理和精神的情况下，可以对这些实施例进行修改。

Claims

1、一种对话增强方法，包括：

根据来自输入信号的线性预测编码(LPC)计算线谱对(LSP)系数；

根据计算的LSP系数确定输入信号中是否存在一个或更多的语音区域；

和

根据一个或更多语音区域是否存在的确定来从LSP系数中提取一个或更多共振峰，并提升共振峰。

2、如权利要求1所述的方法，其中，线谱对系数的计算包括：

通过将LPC模型应用到输入信号中来提取LPC系数；和

使用预定的LPC模型将LPC系数转换为LSP系数。

3、如权利要求1所述的方法，其中，语音区域是否存在的确定包括：如果LSP间隙小于阈值，则确定输入信号是语音信号；如果LSP间隙大于阈值则确定输入信号不是语音信号。

4、如权利要求1所述的方法，其中，共振峰的提取包括：

如果输入信号中存在语音区域，则使用LSP系数确定共振峰的中心频率；

在共振峰的中心频率生成具有提升电平的提升滤波器系数；和

使用提升滤波器系数来提升输入信号的共振峰。

5、如权利要求4所述的方法，其中，对每个共振峰提升电平被设置为相同的幅度。

6、如权利要求4所述的方法，还包括：

如果输入信号不是语音信号，则防止共振峰被提升。

7、如权利要求1所述的方法，其中，LSP系数的计算包括：

根据LSP系数确定一个或更多共振峰的中心频率；和

根据中心频率提取将被用于提升共振峰的提升滤波器系数。

8、如权利要求1所述的方法，其中，共振峰的提升包括：

根据提升滤波器系数将共振峰提升相同的提升电平。

9、一种对话增强方法，包括：

合成左和右声道的输入信号以生成合成的信号；

通过对合成的信号向下取样基于线性预测编码来提取频谱参数；

根据LSP间隙确定是否存在一个或更多语音区域；

根据是否存在一个或更多的语音区域来从相应于频谱参数的LSP中提取一个或更多的共振峰；

在一个或更多共振峰的中心频率生成具有预定电平的多个波段的提升滤波器系数；和

如果在输入信号中存在一个或更多语音区域，则使用多个波段的提升滤波器系数将输入信号滤波。

10、一种对话增强装置，包括：

提升滤波器系数提取器，用于通过基于来自输入信号的线性预测编码计算LSP系数来提取一个或更多共振峰，提取相应于一个或更多共振峰的预定电平的提升滤波器系数，并根据LSP间隙确定输入信号中是否存在一个或更多语音区域；和

信号处理单元，用于根据语音区域是否存在的确定基于提升滤波器系数增强语音区域的一个或更多共振峰。

11、如权利要求10所述的装置，还包括：

信号合成器，用于将经左和右声道输入的输入信号合成并将合成的信号输出到提升滤波器系数提取器。

12、如权利要求10所述的装置，其中，提升滤波器系数提取器包括：

向下取样器，用于以预定的倍数对输入信号向下取样；

LPC提取器，用于从由向下取样器向下取样的信号中提取LPC系数；

LSP转换器，用于将由LPC提取器提取的LPC系数转换为LSP系数；

语音区域确定器，用于通过将LSP间隙和阈值比较来确定是否存在语音区域；和

提升滤波器系数生成器，用于从自LSP系数计算一个或更多共振峰的中心频率，并从一个或更多共振峰的中心频率生成具有预定的提升增益的提升滤波器系数。

13、如权利要求12所述的装置，其中，如果LSP间隙大于阈值，则语音区域确定器通过确定输入信号不是语音信号生成旁路模式信号，如果LSP间隙小于阈值，则语音区域确定器通过确定输入信号是语音信号生成提升滤波模式。

14、如权利要求10所述的装置，其中，输入信号处理单元包括由提升滤波器系数提取器提取的提升滤波器系数被施加到其的4波段的提升滤波器。

15、如权利要求10所述装置，其中，输入信号包括左声道信号和右声道信号，信号处理单元包括用于根据确定和提升滤波器系数增强输入信号的左声道信号的第一信号处理单元，和用于根据确定和提升滤波器系数增强输入信号的右声道信号的第二信号处理单元。

16、如权利要求10所述的装置，其中，输入信号包括非语音区域，信号处理单元防止相应于非语音区域的输入信号被增强。

17、如权利要求10所述的装置，其中，提升滤波器系数具有相同的将被施加到一个或更多共振峰上的提升增益。

18、如权利要求10所述的装置，其中，信号处理单元包括多个提升滤波器，以将语音区域的一个或更多共振峰增强相同的电平。

19、如权利要求10所述的装置，其中，提升滤波器系数提取器根据LSP系数确定一个或更多共振峰的中心频率，并根据一个或更多共振峰的中心频率提取提升滤波器系数。

20、一种包含对话增强方法的计算机可读存储介质，该对话增强方法包括：

根据来自输入信号的线性预测编码(LPC)计算线谱对(LSP)系数；

根据计算出的LSP系数来确定输入信号中是否存在一个或更多语音区域；和

根据一个或更多语音区域是否存在的确定从LSP系数提取一个或更多共振峰，并提升一个或更多共振峰。