CN1216361C

CN1216361C - 利用二进制信号估计语音信号的音调

Info

Publication number: CN1216361C
Application number: CN018076890A
Authority: CN
Inventors: C·安德伦; H·约翰尼松
Original assignee: Telefonaktiebolaget LM Ericsson AB
Current assignee: Telefonaktiebolaget LM Ericsson AB
Priority date: 2000-04-06
Filing date: 2001-03-27
Publication date: 2005-08-24
Anticipated expiration: 2021-03-27
Also published as: WO2001077635A8; AU2001273904A1; CN1422382A; WO2001077635A1; US6954726B2; US20020010576A1

Abstract

一种估计语音信号(2)音调的方法包括以下步骤，对语音信号采样获得一系列样本，将样本序列划分成段，每段具有固定数目的连贯样本，对每段计算符合函数，和检测符合函数中峰值，该方法还包括以下步骤，提供从语音信号得到的中间信号，将中间信号变换成二进制信号，在中间信号超过预选阈值的场合被设置为逻辑“1”，在中间信号未超过预选阈值的场合被设置为逻辑“0”，计算二进制信号的自相关，和使用二进制信号自相关中峰值间的距离作为音调的估值。这样，在先前技术的算法中所需的大量运算被避免。一种类似的设备也被提供。

Description

利用二进制信号估计语音信号的音调

技术领域

本发明涉及一种估计语音信号的音调的方法，所述的方法是这样的类型，在其中将语音信号划分成段，对每段计算信号的符合函数，并检测该符合函数中的峰值。本发明也涉及本方法在移动电话中的使用。本发明还涉及一种用于估计语音信号的音调的设备。

背景技术

在许多语音处理***中，了解语音的音调周期是所希望的，作为一个例子，许多语音增加算法是取决于对音调周期的正确估计。语音处理算法被广泛使用的一种应用领域是移动电话。

一种众所周知的估计音调周期的方法是对语音信号使用自相关函数，或一种类似的符合函数。这样一种方法的例子被描述在文献中：D.A.Krubsack，R.J.Nieder john，“An Autocorrelation PitchDetector and Voicing Decision with Confidence MeasuresDeveloped for Noise-Corrupted Speech”，IEEE Transactions onSignal Processing，VOL.39，no.2，pp.319-329，Febr.1991。将语音信号划分为51.2ms的段，对每个相继的语音段计算标准的短期自相关函数。对每段的自相关函数应用一种峰值拾取算法。这种算法是通过在50到333Hz的音调范围内选取最大峰值(最大值)开始的。与这个峰值对应的周期被选作音调周期的估值。

然而，这样一种基本的音调估值算法是不充分的。在某些情况下可能出现双重音调，也就是，最高峰值出现在音调周期的两倍处，最高峰值也可以出现在实际音调周期的另一个倍数上。在这些情况下，简单选择最大峰值将提供错误的音调周期估值。

以上提到的文献也公开了一种在这些情况下改进该算法的方法。该算法在音调周期第一估值的1/2，1/3，1/4，1/5，和1/6处检查峰值。如果第一估值的一半是在该音调范围内，在这个一半值附近间隔内的自相关最大值被定位，如果这个新的峰值大于老的峰值的一半，则该新的相应的值代替老的估值，这样一来提供了一个新的估值，对于音调周期加倍的差借的可能性大体上得到校正，为了检查双重加倍差错(四倍差错)再次实施这种测试。如果这个最近的测试失败，对于这个新的估值的三倍差错实施类似的测试。这次测试检查音调周期的六倍差错。如果原来的测试失败，对于三倍差错和五倍差错测试原来的估值(用类似的方法)。将最后的值用于计算音调估值。

然而，这种已知的算法是相当复杂并需要大量的计算，这些缺点使其在实时环境下不大能够使用，如在将它们用在移动电话和类似设备时使用的小型数字信号处理器上。

发明内容

因此，本发明的一个目的是提供一种上述类型的方法，它没有现有技术的方法复杂，使得本方法可适用于小型数字信号处理器。

依据本发明，之所以达到这个目的在于，本发明的一种估计语音信号的音调的方法，所述的方法包括以下步骤：

·对语音信号采样获得一系列样本，

·将所述一系列样本划分成段，每段具有固定数目的连续样本，

·对每段计算信号的自相关函数，和

·检测自相关函数中的峰值，

其特征在于该方法还包括以下步骤：

·提供从语音信号的自相关函数得到的中间信号，

·将所述的中间信号变换成二进制信号，在中间信号的自相关峰值超过预选阈值的场合，所述的二进制信号被设置为逻辑“1”，在中间信号的自相关峰值未超过预选阈值的场合，所述二进制信号则被设置为逻辑“0”，

·计算二进制信号的自相关，和

·使用二进制信号的自相关中峰值之间的距离作为音调的估值。该二进制信号自相关的计算只采取了现有技术算法所需的计算资源的一部分，因为只在二进制信号的某些位置中有值，得到的自相关值将出现在零附近和语音信号的音调周期附近，将只有几个值与零分开。因此，很容易地将该音调周期估计为在位置零上的值和与零分开的值之间的距离。因而，在数字向量中必须找到特定值的现有技术算法中所需的大量运算被避免。

在一种实施方案中，将语音信号通过一个基于用线性预测分析(LPA)估计的一组滤波器参数的滤波器对该语音信号进行滤波可以提供中间信号。用这种方法除去原来的语音信号的许多污点。

另一种方案是，将语音信号通过一个基于用线性预测分析(LPA)估计的一组滤波器参数的滤波器进行滤波。计算从语音信号得到的信号的自相关，可以提供中间信号。这种解决方案也除去原来的语音信号的大部分污点，并进一步增进中间信号中更清晰的峰值的可能性。

如果峰值之间的距离所对应的峰值用许多样本表示，当具有所述的符合函数中最大幅度的样本被选作音调估值时，获得最佳的估值。

在本发明的一种简便的实施方案中，将本方法用在移动电话中，这是一种只具有有限计算资源的设备的典型例子。

正如所述，本发明还涉及一种用于估计语音信号音调的设备，该设备包括：

·用于对语音信号采样获得一系列的样本的装置，

·用于将所述一系列样本划分成段的装置，每段具有固定数目的连续样本，

·用于对每段计算信号的自相关函数的装置，和

·用于检测自相关函数中峰值的装置，其特征在于，该设备还包括：

·用于提供从语音信号的自相关函数得到的中间信号的装置，

·用于将所述的中间信号变换成二进制信号的装置，在中间信号的自相关峰值超过预选阈值的场合，所述的二进制信号被设置为逻辑“1”，在中间信号未超过预选阈值的场合，所述的二进制信号则被设置为逻辑“0”，

·用于计算二进制信号的自相关的装置，和

·用于使用二进制信号的自相关中峰值间距离作为音调的估值的装置。

在一种实施方案中，通过一个基于由线性预测分析(LPA)估计的一组滤波器参数的滤波器对该语音信号进行滤波可将该设备用于提供中间信号，用这种方法除去许多原来的语音信号的污点。

另一种方案是，通过一个基于由线性预测分析(LPA)估计的一组滤波器参数的滤波器对该语音信号进行滤波，计算从该语音信号得到的信号自相关，来将该设备用于提供中间信号。这种解决方案也除去原来的语音信号中大部分污点，并进一步增进中间信号中清晰峰值的可能性。

如果与峰值之间的距离对应的峰值用许多样本表示，当将该设备用于将具有所述符合函数的最大幅度的样本选作音调估值时，获得了最佳的估值。

在本发明的一种简便的实施方案中，该设备是一个移动电话，这是一种只有有限计算资源的设备的典型例子。

在另一种实施方案中，该设备是一种可用在不同类型装置中的集成电路。

附图说明

现在将参考附图更充分地描述本发明，其中：

图1示出一种依据本发明的音调检测器的方框图；

图2示出一种残差信号的产生，

图3a示出一种发声的语音信号的20ms段，

图3b示出与图3a的段对应的残差信号的自相关函数，和

图4示出可能产生音调加倍的一种自相关函数的例子。

具体实施方式

图1示出依据本发明的一种音调检测器1的一个例子的方框图，在采样电路3中语音信号2被以采样率8KHz采样，样本被划分成160个连贯的样本的段或帧。这样，每段对应于20ms的语音信号，这是通常在标准移动电话中语音处理所使用的采样和分段。

然后，每段160个样本在以下将被更详细描述的滤波器4中进行处理。

然而，首先，将简明地提一下语音信号的性质，在一种经典的方法中，语音信号被模型化为一个缓慢的时变线性滤波器的输出，滤波器或者被准周期的脉冲序列激励，或者被随机噪声激励，这取决于要产生的是话音声音还是非话音声音。产生话音声音的脉冲序列是通过挤压肺部出来的空气经振动的声带产生的。在脉冲之间的时间周期被称为音调周期，对于语音的单一性是极为重要的。另一方面，通过在声道中形成阻塞物产生非话音声音和迫使空气高速通过阻塞物产生扰动。这份描述涉及话音声音音调周期的检测，因此非话音声音将不再进一步考虑。

因为语音是一种变化的信号，滤波器也必须是时变的。然而，话音信号的性质随时间变化比较慢，相信在周期10-20ms内语音的一般性质仍然是固定的是合乎情理的，这已经导致这样的基本原则，即如果考虑短段的语音信号，每段可被有效地模型化为在该时间周期期间由线性时变***激励产生的，滤波器的影响可被看成由声道，舌，口和唇引起的。

正如所述，发声的语音可被解释为来自由激励信号驱动的线性滤波器的输出信号，这被示于图2的上部，在其中脉冲序列21被滤波器22处理，产生发声的语音信号23。如果可以从语音抽取激励信号就获得用于检测音调周期的良好信号。通过估计方框24中的滤波器参数A，然后使语音通过基于所估计的滤波器参数的倒置滤波器25进行滤波，可以获得与激励信号类似的信号26，这个过程被示于图2的下部，方框24和25被包括在图1的滤波器4中。

滤波器参数的估计是基于通过被称为线性预测分析(LPA)的方法实施的全极点模拟。这个名称是来自这样的事实，即该方法与线性预测等效。这种方法在技术上是众所周知的。在此将不作更详细的描述。

音调的估计是基于如以上所描述的那样获得的残差信号自相关。因此，来自滤波器4的输出信号被取自自相关计算单元5，图3a示出一个发声的语音信号20ms段的例子，图3b示出相应的残差信号自相关函数。将从图3a看到，实际的音调周期是大约5.25ms，对应于42个样本，所以音调估值应该以此值结束。

音调估值中的下一个步骤是对由单元5提供的自相关函数应用一种峰值拾取算法。这是在识别自相关函数中最大峰值(也就是最大值)的峰值检测器6中完成的。然后，索引值，也就是最大峰值的样本数或滞后数被用作音调周期的初步估值，在图3b所示的情况中将看到，最大峰值实际上位于滞后42个样本处，对最大峰值的搜索只在音调周期可能在的范围中进行。在这种情况下该范围被设置为60-333Hz。

然而，这种基本的音调估值算法并不始终是充分的，在某些情况下可能发生音调加倍，也就是由于畸变，与真正的音调周期对应的自相关函数中的峰值并不是最高的峰值，而代替的是在音调周期两倍处出现的最高峰值，最高峰值也可以出现在实际音调周期的其他倍数上(音调三倍，等)，虽然这种情况出现比较稀少。将出现音调加倍的一个典型例子示于图4中，其中再次示出残差信号的自相关函数，在此，正确的音调周期也将在42个样本附近，但峰值却在音调周期的两倍处，也就是大约84个样本，它实际上比在42样本处的峰值高。因此，基本的音调估值算法将音调周期估计为84个样本，这样就发生了音调加倍。

为了避免音调加倍的问题，音调检测算法被进行如以下所描述的改进。

在初步的音调估值已被确定后，在风险检查单元7中检查是否有任何音调加倍的风险。峰值的值高于最大峰值的75％的所有峰值被检测，进一步的处理取决于这种检测的结果。如果只有一个峰值被检测到，也就是原来的最大峰值，不需要实施一种避免音调加倍的处理。在这种情况下，初步的音调估值被用作最后的音调估值。然而，如果多于一个被检测到，有音调加倍的风险，必须实施一种进一步的算法以保证正确的峰值被选作音调估值，这在单元8中实施。

为了识别与实际的音调周期对应的峰值，根据在残差信号的自相关中峰值的位置提供一种修改的信号。这种修改的信号，被称为二进制信号，只由1和0组成，在自相关序列中找到高的峰值，则二进制信号被设置为1，所有其他的值被设置为0，然后计算二进制信号的自相关，因为只在二进制信号的某些位置上有值，所得的自相关将只有少量的与零分开的若干值，这些值将出现在信号的音调周期的附件。通过观测在零附近值的索引号和离开零的值的索引号之间的距离估计音调周期。如果离开零的值的组只包含单一的值，它就被选作音调周期的估值。如果在组中有多于一个值，选取残差信号自相关中最高幅度的一个。

有时可能出现这样的情况，在滞后于零处理的峰值是唯一存在的峰值。当一个峰值已被分离在两个样本上，在残差信号自相关中没有其他的高峰值时，将出现这种情况，在这种情况下，初步的音调估值被选作最后的音调估值。

这种算法是非常简单的，因此非常适合于在，例如计算资源被严格限制，因而对***提出低复杂性算法要求的移动电话中应用。该算法也可在集成电路中实现，然后可被用在其他类型的设备中。

虽然已描述和展示了本发明的一种优选实施方案，但本发明并不限于此，而是可以用在以下的权利要求所规定的主题范围内的其他方法来实施。

因此，可以代替残差信号直接计算语音信号的自相关函数，或者可以代替自相关函数使用其他的符合函数。作为一个例子，可以在语音信号和残差信号之间计算互相关。

可以使用不同的采样率和段的大小。

Claims

1.一种估计语音信号(2)的音调的方法，所述的方法包括以下步骤：

·对语音信号采样获得一系列样本，

·对每段计算信号的自相关函数，和

·检测自相关函数中的峰值，

其特征在于该方法还包括以下步骤：

·提供从语音信号的自相关函数得到的中间信号，

·计算二进制信号的自相关，和

·使用二进制信号的自相关中峰值之间的距离作为音调的估值。

2.一种依据权利要求1的方法，其特征在于将语音信号通过一个基于用线性预测分析(LPA)估计的一组滤波器参数的滤波器(4)进行滤波来提供中间信号。

3.一种依据权利要求1的方法，其特征在于将语音信号通过一个基于用线性预测分析(LPA)估计的一组滤波器参数的滤波器(4)进行滤波，计算从语音信号得到的信号的自相关来提供中间信号。

4.一种依据权利要求1到3中任何一项的方法，其特征在于还包括以下步骤：

·如果与峰值间的距离对应的峰值用许多样本表示，选择具有所述的自相关函数中最大幅度的样本作为音调的估值。

5.将依据权利要求1到4中任一项的方法使用在移动电话中。

6.一种用于估计语音信号的音调的设备，包括：

·用于对语音信号采样获得一系列的样本的装置(3)，

·用于对每段计算信号的自相关函数的装置(5)，和

·用于检测自相关函数中峰值的装置(6)，其特征在于该设备还包括：

·用于将所述的中间信号变换成二进制信号的装置(8)，在中间信号的自相关峰值超过预选阈值的场合，所述的二进制信号被设置为逻辑“1”，在中间信号未超过预选阈值的场合，所述的二进制信号则被设置为逻辑“0”，

·用于计算二进制信号的自相关的装置(5)，和

7.一种依据权利要求6的设备，其特征在于，通过一个基于用线性预测分析(LPA)估计的一组滤波器参数的滤波器(4)对该语音信号进行滤波，使该设备用于提供中间信号。

8.一种依据权利要求6的设备，其特征在于，通过一个基于用线性预测分析(LPA)估计的一组滤波器参数的滤波器(4)对该语音信号进行滤波，计算从该语音信号得到的信号的自相关，来将该设备配用于提供中间信号。

9.一种依据权利要求6到8中任一项的设备，其特征在于，如果与峰值间的距离对应的峰值由许多样本表示，所述设备被进一步适配成将具有所述的自相关函数的最大幅度的样本选作音调的估值。

10.一种依据权利要求6的设备，其特征在于该设备是一个移动电话。

11.一种依据权利要求6的设备，其特征在于该设备是一种集成电路。