CN105989834A

CN105989834A - 语音辨识装置及语音辨识方法

Info

Publication number: CN105989834A
Application number: CN201510059977.5A
Authority: CN
Inventors: 杜博仁; 张嘉仁; 曾凯盟
Original assignee: Acer Inc
Current assignee: Acer Inc
Priority date: 2015-02-05
Filing date: 2015-02-05
Publication date: 2016-10-05
Anticipated expiration: 2035-02-05
Also published as: CN105989834B

Abstract

本发明提供一种语音辨识装置及语音辨识方法。依据第一辅音频段信号能量与第二辅音频段信号能量的比值、第一辅音频段信号能量与原始语音取样信号能量的比值以及第二辅音频段信号能量与原始语音取样信号能量的比值判断对应目标语音帧的原始语音取样信号是否为噪声。本发明可有效地辨识出语音信号是否为辅音信号。

Description

语音辨识装置及语音辨识方法

技术领域

本发明是有关于一种辨识装置，且特别是有关于一种语音辨识装置及语音辨识方法。

背景技术

一般对于听障人士来说，其往往无法清楚地接收较高频的语音信号，例如辅音信号，但对于低频的语音信号却可以清楚地听到。现有的辅音信号判断方式为在频域中进行信号处理，判断方式主要有两种，非即时辅音信号判断和即时辅音判断。非即时辅音信号判断，主要通过能量和过零率来判断。即时的辅音信号判断，主要是依据高频信号与总能量的比例是否大于一固定的值以及低频信号和总能量的比例是否小于固定的值来决定语音信号是否为辅音信号。现有的辅音信号判断方式虽可区别辅音信号与噪声，但其准确度仍无法满足实际的需求。

发明内容

本发明提供一种语音辨识装置及语音辨识方法，可有效地辨识出语音信号是否为辅音信号。

本发明的语音辨识装置，包括带通滤波单元以及处理单元。其中带通滤波单元对语音信号进行第一辅音频段以及第二辅音频段的带通滤波，以分别产生第一带通滤波信号以及第二带通滤波信号。处理单元耦接带通滤波单元，将语音信号、第一带通滤波信号以及第二带通滤波信号分割为多个语音帧，其中各语音帧包括N个取样信号，N为正整数，处理单元还计算目标语音帧中取样信号的能量，以获得原始语音取样信号能量、第一辅音频段信号能量以及第二辅音频段信号能量，依据第一辅音频段信号能量与第二辅音频段信号能量的比值、第一辅音频段信号能量与原始语音取样信号能量的比值以及第二辅音频段信号能量与原始语音取样信号能量的比值判断对应目标语音帧的原始语音取样信号是否为噪声。

在本发明的一实施例中，上述处理单元判断第一辅音频段信号能量与第二辅音频段信号能量的比值、第一辅音频段信号能量与原始语音取样信号能量的比值以及第二辅音频段信号能量与原始语音取样信号能量的比值是否分别落于对应的预设比值范围，若第一辅音频段信号能量与第二辅音频段信号能量的比值、第一辅音频段信号能量与原始语音取样信号能量的比值以及第二辅音频段信号能量与原始语音取样信号能量的比值分别落于对应的预设比值范围，则目标语音帧的原始语音取样信号为噪声信号。

在本发明的一实施例中，上述处理单元还计算多个之前被判断为噪声信号的原始语音取样信号的语音帧的能量加权平均值，以得到噪声信号能量加权平均值，并依据目标语音帧所对应的原始语音取样信号能量是否大于该噪声信号能量加权平均值来判断目标语音帧所对应的原始语音取样信号是否为辅音信号。

在本发明的一实施例中，上述对应各个判断为噪声信号的原始语音取样信号的语音帧的加权值随对应各个被判断为噪声信号的原始语音取样信号的语音帧与目标语音帧之间的间隔长短不同而改变。

在本发明的一实施例中，上述处理单元还依据第二辅音频段信号能量与原始语音取样信号能量的比值以及第一辅音频段信号能量与原始语音取样信号能量的比值之和是否大于等于预设和值来判断目标语音帧所对应的原始语音取样信号是否为辅音信号。

在本发明的一实施例中，上述处理单元还计算多个之前被判断为噪声信号的原始语音取样信号的语音帧所对应的第一辅音频段信号能量与原始语音取样信号能量的比值的加权平均值，以得到第一辅音能量比例加权平均值，并依据目标语音帧所对应的第一辅音频段信号能量与原始语音取样信号能量的比值是否小于第一辅音能量比例加权平均值来判断目标语音帧所对应的原始语音取样信号是否为辅音信号。

在本发明的一实施例中，上述对应各个被判断为噪声信号的原始语音取样信号的语音帧所对应的第一辅音频段信号能量与原始语音取样信号能量的比值的加权值随对应各个被判断为噪声信号的原始语音取样信号的语音帧与目标语音帧之间的间隔长短不同而改变。

在本发明的一实施例中，上述处理单元还依据第二辅音频段信号能量与原始语音取样信号能量的比值是否大于等于预设比值来判断目标语音帧所对应的原始语音取样信号是否为辅音信号。

在本发明的一实施例中，上述处理单元还依据原始语音取样信号能量是否大于等于下限值来判断目标语音帧所对应的原始语音取样信号是否为辅音信号。

在本发明的一实施例中，上述处理单元还计算原始语音取样信号的第一过零率、第二过零率以及第三过零率，并计算目标语音帧与目标语音帧之前的多个语音帧的原始语音取样信号的平均过零率，以得到第一平均过零率、第二平均过零率以及第三平均过零率，并依据第一平均过零率、第二平均过零率以及第三平均过零率是否分别大于等于其对应的预设平均过零率来判断目标语音帧所对应的原始语音取样信号是否为辅音信号，其中第一过零率、第二过零率以及第三过零率分别为在目标语音帧中原始语音取样信号通过第一预设值、第二预设值以及第三预设值的次数，第二预设值小于第一预设值且大于第三预设值。

在本发明的一实施例中，上述处理单元还依据第二过零率是否大于等于预设过零率来判断目标语音帧所对应的原始语音取样信号是否为辅音信号。

本发明的语音辨识方法包括下列步骤。对语音信号进行第一辅音频段以及第二辅音频段的带通滤波，以分别产生第一带通滤波信号与第二带通滤波信号。将语音信号、第一带通滤波信号与第二带通滤波信号分为多个语音帧，其中各语音帧包括N个取样信号，N为正整数。计算目标语音帧中取样信号的能量，以获得原始语音取样信号能量、第一辅音频段信号能量以及第二辅音频段信号能量。依据第一辅音频段信号能量与第二辅音频段信号能量的比值、第一辅音频段信号能量与原始语音取样信号能量的比值以及第二辅音频段信号能量与原始语音取样信号能量的比值判断对应目标语音帧的原始语音取样信号是否为噪声。

在本发明的一实施例中，上述语音辨识方法还包括下列步骤。判断第一辅音频段信号能量与第二辅音频段信号能量的比值、第一辅音频段信号能量与原始语音取样信号能量的比值以及第二辅音频段信号能量与原始语音取样信号能量的比值是否分别落于对应的预设比值范围。若第一辅音频段信号能量与第二辅音频段信号能量的比值、第一辅音频段信号能量与原始语音取样信号能量的比值以及第二辅音频段信号能量与原始语音取样信号能量的比值分别落于对应的预设比值范围，则目标语音帧的原始语音取样信号为噪声信号。

在本发明的一实施例中，上述语音辨识方法还包括下列步骤。计算多个之前被判断为噪声信号的原始语音取样信号的语音帧的能量加权平均值，以得到噪声信号能量加权平均值。依据目标语音帧所对应的原始语音取样信号能量是否大于噪声信号能量加权平均值来判断目标语音帧所对应的原始语音取样信号是否为辅音信号。

在本发明的一实施例中，上述对应各个被判断为噪声信号的原始语音取样信号的语音帧的加权值随对应各个被判断为噪声信号的原始语音取样信号的语音帧与目标语音帧之间的间隔长短不同而改变。

在本发明的一实施例中，上述语音辨识方法还包括，依据第二辅音频段信号能量与原始语音取样信号能量的比值以及第一辅音频段信号能量与原始语音取样信号能量的比值之和是否大于等于预设和值来判断目标语音帧所对应的原始语音取样信号是否为辅音信号。

在本发明的一实施例中，上述语音辨识方法还包括下列步骤。计算多个之前被判断为噪声信号的原始语音取样信号的语音帧所对应的第一辅音频段信号能量与原始语音取样信号能量的比值的加权平均值，以得到第一辅音能量比例加权平均值。依据目标语音帧所对应的第一辅音频段信号能量与原始语音取样信号能量的比值是否小于第一辅音能量比例加权平均值来判断目标语音帧所对应的原始语音取样信号是否为辅音信号。

在本发明的一实施例中，上述对应各个被判断为噪声信号的原始语音取样信号所对应的第一辅音频段信号能量与原始语音取样信号能量的比值的加权值随对应各个被判断为噪声信号的原始语音取样信号的语音帧与目标语音帧之间的间隔长短不同而改变。

在本发明的一实施例中，上述语音辨识方法还包括，依据第二辅音频段信号能量与原始语音取样信号能量的比值是否大于等于预设比值来判断目标语音帧所对应的原始语音取样信号是否为辅音信号。

在本发明的一实施例中，上述语音辨识方法还包括，依据原始语音取样信号能量是否大于等于下限值来判断目标语音帧所对应的原始语音取样信号是否为辅音信号。

在本发明的一实施例中，上述语音辨识方法还包括下列步骤。计算原始语音取样信号的第一过零率、第二过零率以及第三过零率，并计算目标语音帧与目标语音帧之前多N个语音帧的原始语音取样信号的平均过零率，以得到第一平均过零率、第二平均过零率以及第三平均过零率，其中N为正整数，其中第一过零率、第二过零率以及第三过零率分别为在目标语音帧中原始语音取样信号通过第一预设值、第二预设值以及第三预设值的次数，第二预设值小于第一预设值且大于第三预设值。依据第一平均过零率、第二平均过零率以及第三平均过零率是否分别大于等于其对应的预设平均过零率来判断目标语音帧所对应的原始语音取样信号是否为辅音信号。

在本发明的一实施例中，上述语音辨识方法还包括，依据第二过零率是否大于等于预设过零率来判断目标语音帧所对应的原始语音取样信号是否为辅音信号。

基于上述，本发明的实施例依据第一辅音频段信号能量与第二辅音频段信号能量的比值、第一辅音频段信号能量与原始语音取样信号能量的比值以及第二辅音频段信号能量与原始语音取样信号能量的比值判断对应目标语音帧的原始语音取样信号是否为噪声，以减低将原始语音取样信号误判为辅音信号的情形发生，进而提高辅音信号的辨识准确度。

为让本发明的上述特征和优点能更明显易懂，下文特举实施例，并配合附图作详细说明如下。

附图说明

图1示出为本发明一实施例的语音辨识装置的示意图；

图2A～2B示出本发明一实施例的语音辨识方法的流程示意图；

图3A～3B示出本发明另一实施例的语音辨识方法的流程示意图。

附图标记说明：

102：带通滤波单元；

104：处理单元；

S1：语音信号；

S2：第一带通滤波信号；

S3：第二带通滤波信号；

S202～S230、S302：语音辨识方法的流程步骤。

具体实施方式

图1示出为本发明一实施例的语音辨识装置的示意图，请参照图1。语音辨识装置包括带通滤波单元102以及处理单元104，带通滤波单元102耦接处理单元104，带通滤波单元102可例如以带通滤波器来实施，而处理单元104可例如以中央处理单元来实施，但不以此为限。带通滤波单元102可对语音信号S1进行第一辅音频段以及第二辅音频段的带通滤波，以分别产生第一带通滤波信号S2以及第二带通滤波信号S3，在本实施例中第一辅音频段以及第二辅音频段分别为2kHz～4kHz以及4kHz～10kHz，但不以此为限。

处理单元104可对语音信号S1、第一带通滤波信号S2以及第二带通滤波信号S3进行取样，并将语音信号S1、第一带通滤波信号S2以及第二带通滤波信号S3分割为多个语音帧，其中各个语音帧可包括N个语音信号S1的取样信号、N个第一带通滤波信号S2的取样信号以及N个第二带通滤波信号S3的取样信号。处理单元104还可计算各个语音帧中取样信号的能量，以获得原始语音取样信号能量、第一辅音频段信号能量以及第二辅音频段信号能量，其中原始语音取样信号能量、第一辅音频段信号能量以及第二辅音频段信号能量分别对应语音帧中语音信号S1的取样信号、第一带通滤波信号S2的取样信号以及第二带通滤波信号S3的取样信号的能量。在获得原始语音取样信号能量、第一辅音频段信号能量以及第二辅音频段信号能量后，处理单元104便可依据第一辅音频段信号能量与第二辅音频段信号能量的比值、第一辅音频段信号能量与原始语音取样信号能量的比值以及第二辅音频段信号能量与原始语音取样信号能量的比值判断对应各个语音帧的原始语音取样信号是否为噪声。

详细来说，处理单元104可判断第一辅音频段信号能量与第二辅音频段信号能量的比值、第一辅音频段信号能量与原始语音取样信号能量的比值以及第二辅音频段信号能量与原始语音取样信号能量的比值是否分别落于其对应的预设比值范围，若第一辅音频段信号能量与第二辅音频段信号能量的比值、第一辅音频段信号能量与原始语音取样信号能量的比值以及第二辅音频段信号能量与原始语音取样信号能量的比值分别落于其对应的预设比值范围，则目标语音帧的原始语音取样信号为噪声信号。

举例来说，处理单元104判断对应一目标语音帧(例如第m个语音帧，m为正整数)的原始语音取样信号是否为噪声的方式，可以下列式子来判断：

0.7 < \frac{{EB 1}_{m}}{{EB 2}_{m}} < 1.3 - - - (1)

0.25 < \frac{{EB 2}_{m}}{E_{m}} < 0.5 - - - (2)

0.25 < \frac{{EB 1}_{m}}{E_{m}} < 0.5 - - - (3)

其中EB1_m为第一辅音频段信号能量、EB2_m为第二辅音频段信号能量，而E_m为原始语音取样信号能量，当式(1)、(2)、(3)皆满足时，处理单元104判断第m个语音帧的原始语音取样信号为噪声信号。

在判断出目标语音帧的原始语音取样信号为噪声信号后，处理单元104还计算在目标语音帧之前被判断为噪声信号的原始语音取样信号的多个语音帧的能量加权平均值，以得到噪声信号能量加权平均值，并依据目标语音帧所对应的原始语音取样信号能量是否大于噪声信号能量加权平均值来判断目标语音帧所对应的原始语音取样信号是否为辅音信号。

举例来说，噪声信号能量加权平均值可为计算在目标语音帧之前被判断为噪声信号的原始语音取样信号的3个语音帧的能量加权平均值而得到，假设在第m个语音帧之前，最近被判断为噪声的三个语音帧分别为第m-10个语音帧、第m-12个语音帧以及第m-20个语音帧，则对应第m个语音帧的噪声信号能量加权平均值AK_m可如下式子所示：

{AK}_{m} = \frac{a 0 \times E_{m - 10} + a 1 \times E_{m - 12} + a 2 \times E_{m - 20}}{a 0 + a 1 + a 2} - - - (4)

其中E_m-10、E_m-12、E_m-20分别为第m-10个语音帧、第m-12个语音帧以及第m-20个语音帧的原始语音取样信号能量，而a0、a1、a2分别为第m-10个语音帧、第m-12个语音帧以及第m-20个语音帧对应的加权值。其中加权值a0、a1、a2可为固定值或者是变动值。举例来说，对应各个被判断为噪声信号的原始语音取样信号的语音帧的加权值可随对应各个被判断为噪声信号的原始语音取样信号的语音帧与目标语音帧之间的间隔长短不同而改变。如在本实施例中，加权值a0、a1、a2可随语音帧与第m个语音帧之间的间隔长短不同而改变。当噪声信号能量加权平均值AK_m满足下列式子时，可判断对应第m个语音帧的原始语音取样信号为辅音信号：

E_m>AK_m (5)

另外，处理单元可计算多个之前被判断为噪声信号的原始语音取样信号的语音帧所对应的第一辅音频段信号能量与原始语音取样信号能量的比值的加权平均值，以得到第一辅音能量比例加权平均值，并依据目标语音帧所对应的第一辅音频段信号能量与原始语音取样信号能量的比值是否小于第一辅音能量比例加权平均值来判断目标语音帧所对应的原始语音取样信号是否为辅音信号。举例来说，第一辅音能量比例加权平均值可为计算在目标语音帧之前被判断为噪声信号的原始语音取样信号的3个语音帧的第一辅音频段信号能量与原始语音取样信号能量的比值的加权平均值而得到，假设在第m个语音帧之前，最近被判断为噪声的三个语音帧分别为第m-10个语音帧、第m-12个语音帧以及第m-20个语音帧，则对应第m个语音帧的第一辅音能量比例加权平均值AF_m可如下式子所示：

{AK}_{m} = \frac{c 0 \times \frac{{EB 1}_{m - 10}}{E_{m - 10}} + c 1 \times \frac{{EB 1}_{m - 12}}{E_{m - 12}} + c 2 \times \frac{{EB 1}_{m - 20}}{E_{m - 20}}}{c 0 + c 1 + c 2} - - - (6)

其中EB1_m-10、EB1_m-12、EB1_m-20分别为第m-10个语音帧、第m-12个语音帧以及第m-20个语音帧的第一辅音频段信号能量、E_m-10、E_m-12、E_m-20分别为第m-10个语音帧、第m-12个语音帧以及第m-20个语音帧的原始语音取样信号能量，而c0、c1、c2分别为第m-10个语音帧、第m-12个语音帧以及第m-20个语音帧对应的加权值。其中加权值c0、c1、c2可为固定值或者是变动值。举例来说，对应各个被判断为噪声信号的原始语音取样信号的语音帧所对应的第一辅音频段信号能量与原始语音取样信号能量的比值的加权值可随对应各个被判断为噪声信号的原始语音取样信号的语音帧与目标语音帧之间的间隔长短不同而改变。如在本实施例中，加权值c0、c1、c2可随语音帧与第m个语音帧之间的间隔长短不同而改变。当第一辅音能量比例加权平均值AF_m满足下列式子时，可判断对应第m个语音帧的原始语音取样信号为辅音信号：

\frac{{EB 1}_{m}}{E_{m}} < {AF}_{m} - - - (7)

此外，处理单元104可依据第二辅音频段信号能量与原始语音取样信号能量的比值与第一辅音频段信号能量与原始语音取样信号能量的比值之和是否大于等于预设和值来判断目标语音帧所对应的原始语音取样信号是否为辅音信号。例如，对第m个语音帧而言，上述判断方式可以下列式子表示：

\frac{{EB 1}_{m}}{E_{m}} + - \frac{{EB 2}_{m}}{E_{m}} &GreaterEqual; 1 - - - (8)

在本实施例中，预设和值为1，但并不以此为限，预设和值也可依实际情形调整为其他值。

又，处理单元104也可依据第二辅音频段信号能量与原始语音取样信号能量的比值是否大于等于预设比值来判断目标语音帧所对应的原始语音取样信号是否为辅音信号。例如，对第m个语音帧而言，上述判断方式可以下列式子表示：

\frac{{EB 2}_{m}}{E_{m}} &GreaterEqual; 0.8 - - - (9)

在本实施例中，预设比值为0.8，但不以此为限，在部分实施例中预设比值也可为其他值，如下式所示：

\frac{{EB 2}_{m}}{E_{m}} &GreaterEqual; 0.35 - - - (10)

在式(7)中，预设比值为0.35。

另外，处理单元104还可依据原始语音取样信号能量是否大于等于下限值来判断目标语音帧所对应的原始语音取样信号是否为辅音信号。例如，对第m个语音帧而言，上述判断方式可以下列式子表示：

E_m≥50 (11)

在本实施例中，下限值为50，但不以此为限，在部分实施例中下限值也可依实际情形进行调整。

由于辅音信号可能会有能量大小不同的情形出现，在能量比较小的部分会可能会被视为噪声，为避免此情形，除了上述依据能量来判断原始语音取样信号是否为辅音信号外，处理单元104也可依据过零率来判断原始语音取样信号是否为辅音信号。处理单元104可计算原始语音取样信号的第一过零率、第二过零率以及第三过零率，并计算目标语音帧与目标语音帧之前的多个语音帧的原始语音取样信号的平均过零率，以得到第一平均过零率、第二平均过零率以及第三平均过零率，并依据第一平均过零率、第二平均过零率以及第三平均过零率是否分别大于等于其对应的预设平均过零率来判断目标语音帧所对应的原始语音取样信号是否为辅音信号。其中第一过零率、第二过零率以及第三过零率分别为在目标语音帧中原始语音取样信号通过第一预设值、第二预设值以及第三预设值的次数，其中第二预设值小于第一预设值且大于第三预设值。

对第m个语音帧而言，原始过零率可如下式所示：

Z_{m}^{0} = Σ_{j = 1}^{N - 1} 0.5 {sgn [{\hat{x}}_{m} (mL + j)] - sgn [{\hat{x}}_{m} (mL + j - 1)]} - - - (12)

其中N为正整数，其代表在第m个语音帧内的取样信号的个数，mL为幅度门槛值，而为在第m个语音帧内的原始语音取样信号。处理单元104可依据是否大于等于一预设过零率来判断原始语音取样信号是否为辅音信号，例如可依据下式来判断：

Z_{m}^{0} &GreaterEqual; 22 - - - (13)

其中预设过零率并不以22为限，在部分实施例中其值也可依实际情形进行调整。此外，处理单元104可另外依据原始语音取样信号包含能量条件的过零率来判断原始语音取样信号是否为辅音信号，过零率可如下式所示：

Z_{m}^{+} = Σ_{j = 1}^{N - 1} 0.5 {sgn [x_{m}^{+} (mL + j)] - sgn [x_{m}^{+} (mL + j - 1)]} - - - (14)

Z_{m}^{-} = Σ_{j = 1}^{N - 1} 0.5 {sgn [x_{m}^{-} (mL + j)] - sgn [x_{m}^{-} (mL + j - 1)]} - - - (15)

其中可以下式表示：

x_{m}^{+} (j) = {\hat{x}}_{m} (j + mL) - α_{x} F_{m} - - - (16)

x_{m}^{-} (j) = {\hat{x}}_{m} (j + mL) + α_{x} F_{m} - - - (17)

在本实施例中，α_x的值为0.5，但不以此为限，在部分实施例中其值也可依实际情形进行调整。如此通过调整计算过零率的基准，可更精确地判断原始语音取样信号是否为辅音信号。处理单元104还可依据多个语音帧的平均过零率来判断原始语音取样信号是否为辅音信号，举例来说，对第m个语音帧而言，可依据其与最近两个语音帧(也即第m-1、m-2个语音帧)的过零率的平均值来判断原始语音取样信号是否为辅音信号，其判断式可如下所示：

\frac{Z_{m}^{0} + Z_{m - 1}^{0} + Z_{m - 2}^{0}}{3} &GreaterEqual; 34 - - - (18)

\frac{Z_{m}^{+} + Z_{m - 1}^{+} + Z_{m - 2}^{+}}{3} &GreaterEqual; 30 - - - (19)

\frac{Z_{m}^{-} + Z_{m - 1}^{-} + Z_{m - 2}^{-}}{3} &GreaterEqual; 30 - - - (20)

如上实施例所述，处理单元104可依据能量或过零率至少其一来判断原始语音取样信号是否为辅音信号，也即处理单元104可综合上述式子的条件至少其一来判断对应目标语音帧的原始语音取样信号是否为辅音信号。举例来说，处理单元104可判断式(5)、(7)、(9)、(11)、(13)、(18)、(19)、(20)是否同时满足，若同时满足才判断对应目标语音帧的原始语音取样信号为辅音信号。又例如，处理单元104也可判断式(5)、(8)、(10)、(11)、(13)、(18)、(19)、(20)是否同时满足，若同时满足才判断对应目标语音帧的原始语音取样信号为辅音信号。

图2A～2B示出本发明一实施例的语音辨识方法的流程示意图，请参照图2A～2B。由上述实施例可知，语音辨识装置的语音辨识方法可包括下列步骤。首先，对语音信号进行第一辅音频段以及第二辅音频段的带通滤波，以分别产生第一带通滤波信号与第二带通滤波信号(步骤S202)。接着，将语音信号、第一带通滤波信号与第二带通滤波信号分为多个语音帧(步骤S204)，其中各语音帧包括N个取样信号，N为正整数。然后，计算目标语音帧中取样信号的能量，以获得一原始语音取样信号能量、一第一辅音频段信号能量以及一第二辅音频段信号能量(步骤S206)。之后，依据第一辅音频段信号能量与第二辅音频段信号能量的比值、第一辅音频段信号能量与原始语音取样信号能量的比值以及第二辅音频段信号能量与原始语音取样信号能量的比值判断对应目标语音帧的原始语音取样信号是否为噪声(步骤S208)。例如，可判断第一辅音频段信号能量与第二辅音频段信号能量的比值、第一辅音频段信号能量与原始语音取样信号能量的比值以及第二辅音频段信号能量与原始语音取样信号能量的比值是否分别落于对应的预设比值范围，若第一辅音频段信号能量与第二辅音频段信号能量的比值、第一辅音频段信号能量与原始语音取样信号能量的比值以及第二辅音频段信号能量与原始语音取样信号能量的比值分别落于对应的预设比值范围，则目标语音帧的原始语音取样信号为噪声信号。

之后，计算多个之前被判断为噪声信号的原始语音取样信号的语音帧的能量加权平均值，以得到噪声信号能量加权平均值(步骤S210)。然后判断目标语音帧所对应的原始语音取样信号能量是否大于噪声信号能量加权平均值(步骤S212)，其中对应各个被判断为噪声信号的原始语音取样信号的语音帧的加权值可随对应各个被判断为噪声信号的原始语音取样信号的语音帧与目标语音帧之间的间隔长短不同而改变。若目标语音帧所对应的原始语音取样信号能量未大于噪声信号能量加权平均值，则判断目标语音帧所对应的原始语音取样信号非辅音信号(步骤S214)。相反地，若目标语音帧所对应的原始语音取样信号能量大于噪声信号能量加权平均值，则计算多个之前被判断为噪声信号的原始语音取样信号所对应的第一辅音频段信号能量与原始语音取样信号能量的比值的加权平均值，以得到第一辅音能量比例加权平均值(步骤S216)。然后再判断目标语音帧所对应的第一辅音频段信号能量与原始语音取样信号能量的比值是否小于第一辅音能量比例加权平均值(步骤S218)，其中对应各个被判断为噪声信号的原始语音取样信号所对应的第一辅音频段信号能量与原始语音取样信号能量的比值的加权值随对应各个被判断为噪声信号的原始语音取样信号的语音帧与目标语音帧之间的间隔长短不同而改变。

若目标语音帧所对应的第一辅音频段信号能量与原始语音取样信号能量的比值未小于第一辅音能量比例加权平均值，则目标语音帧所对应的原始语音取样信号非辅音信号(步骤S214)。相反地，若目标语音帧所对应的第一辅音频段信号能量与原始语音取样信号能量的比值小于第一辅音能量比例加权平均值，则接着判断第二辅音频段信号能量与原始语音取样信号能量的比值是否大于等于预设比值(步骤S220)。若第二辅音频段信号能量与原始语音取样信号能量的比值未大于等于预设比值，则目标语音帧所对应的原始语音取样信号非辅音信号(步骤S214)。相反地，若第二辅音频段信号能量与原始语音取样信号能量的比值大于等于预设比值，则判断原始语音取样信号能量是否大于等于下限值(步骤S222)。若原始语音取样信号能量未大于等于下限值，则目标语音帧所对应的原始语音取样信号非辅音信号(步骤S214)。

相反地，若原始语音取样信号能量大于等于下限值，则接着计算该原始语音取样信号的第一过零率、第二过零率以及第三过零率，并计算目标语音帧与目标语音帧之前的多个语音帧的原始语音取样信号的平均过零率，以得到一第一平均过零率、一第二平均过零率以及一第三平均过零率(步骤S224)。其中第一过零率、第二过零率以及第三过零率分别为在目标语音帧中原始语音取样信号通过第一预设值、第二预设值以及第三预设值的次数，其中第二预设值小于第一预设值且大于第三预设值。然后再判断第一平均过零率、第二平均过零率以及第三平均过零率是否分别大于等于其对应的预设平均过零率(步骤S226)。若第一平均过零率、第二平均过零率以及第三平均过零率未皆大于等于其对应的预设平均过零率，则目标语音帧所对应的原始语音取样信号非辅音信号(步骤S214)。相反地，若第一平均过零率、第二平均过零率以及第三平均过零率大于等于其对应的预设平均过零率，则接着判断第二过零率是否大于等于预设过零率(步骤S228)。若第二过零率未大于等于预设过零率，则目标语音帧所对应的原始语音取样信号非辅音信号(步骤S214)。相反地，若第二过零率大于等于预设过零率，则目标语音帧所对应的原始语音取样信号为辅音信号(步骤S230)。

图3A～3B示出本发明一实施例的语音辨识方法的流程示意图，请参照图3A～3B。本实施例与图2A～2B实施例的不同之处在于，本实施例在步骤S212判断出目标语音帧所对应的原始语音取样信号能量大于噪声信号能量加权平均值后，接着判断第二辅音频段信号能量与原始语音取样信号能量的比值以及第一辅音频段信号能量与原始语音取样信号能量的比值之和是否大于等于预设和值(步骤S302)，若第二辅音频段信号能量与原始语音取样信号能量的比值与第一辅音频段信号能量与原始语音取样信号能量的比值之和未大于等于预设和值，则目标语音帧所对应的原始语音取样信号非辅音信号(步骤S214)。相反地，若第二辅音频段信号能量与原始语音取样信号能量的比值与第一辅音频段信号能量与原始语音取样信号能量的比值之和大于等于预设和值，则直接进入步骤S220，判断第二辅音频段信号能量与原始语音取样信号能量的比值是否大于等于预设比值，并如图2A～2B实施例继续执行后面语音辨识方法的步骤。

综上所述，本发明的实施例可综合上述式子的条件至少其一来判断对应目标语音帧的原始语音取样信号是否为辅音信号，以提高辅音信号的辨识准确度。例如可依据第一辅音频段信号能量与第二辅音频段信号能量的比值、第一辅音频段信号能量与原始语音取样信号能量的比值以及第二辅音频段信号能量与原始语音取样信号能量的比值判断对应目标语音帧的原始语音取样信号是否为噪声，以减低将原始语音取样信号误判为辅音信号的情形发生，进而提高辅音信号的辨识准确度。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种语音辨识装置，其特征在于，包括：

一带通滤波单元，对一语音信号进行一第一辅音频段以及一第二辅音频段的带通滤波，以分别产生一第一带通滤波信号以及一第二带通滤波信号；以及

一处理单元，耦接该带通滤波单元，将该语音信号、该第一带通滤波信号以及该第二带通滤波信号分割为多个语音帧，其中各该语音帧包括N个取样信号，N为正整数，计算目标语音帧中取样信号的能量，以获得一原始语音取样信号能量、一第一辅音频段信号能量以及一第二辅音频段信号能量，依据该第一辅音频段信号能量与该第二辅音频段信号能量的比值、该第一辅音频段信号能量与该原始语音取样信号能量的比值以及该第二辅音频段信号能量与该原始语音取样信号能量的比值判断对应该目标语音帧的原始语音取样信号是否为噪声。

2.根据权利要求1所述的语音辨识装置，其特征在于，该处理单元还判断该第一辅音频段信号能量与该第二辅音频段信号能量的比值、该第一辅音频段信号能量与该原始语音取样信号能量的比值以及该第二辅音频段信号能量与该原始语音取样信号能量的比值是否分别落于对应的预设比值范围，若该第一辅音频段信号能量与该第二辅音频段信号能量的比值、该第一辅音频段信号能量与该原始语音取样信号能量的比值以及该第二辅音频段信号能量与该原始语音取样信号能量的比值分别落于对应的预设比值范围，则该目标语音帧的原始语音取样信号为噪声信号。

3.根据权利要求1所述的语音辨识装置，其特征在于，该处理单元还计算多个之前被判断为噪声信号的原始语音取样信号的语音帧的能量加权平均值，以得到一噪声信号能量加权平均值，并依据该目标语音帧所对应的原始语音取样信号能量是否大于该噪声信号能量加权平均值来判断该目标语音帧所对应的原始语音取样信号是否为辅音信号。

4.根据权利要求3所述的语音辨识装置，其特征在于，对应各该被判断为噪声信号的原始语音取样信号的语音帧的加权值随对应各该被判断为噪声信号的原始语音取样信号的语音帧与该目标语音帧之间的间隔长短不同而改变。

5.根据权利要求3所述的语音辨识装置，其特征在于，该处理单元还依据该第二辅音频段信号能量与该原始语音取样信号能量的比值与该第一辅音频段信号能量与该原始语音取样信号能量的比值之和是否大于等于一预设和值来判断该目标语音帧所对应的原始语音取样信号是否为辅音信号。

6.根据权利要求5所述的语音辨识装置，其特征在于，该处理单元还计算多个之前被判断为噪声信号的原始语音取样信号的语音帧所对应的该第一辅音频段信号能量与该原始语音取样信号能量的比值的加权平均值，以得到一第一辅音能量比例加权平均值，并依据该目标语音帧所对应的该第一辅音频段信号能量与该原始语音取样信号能量的比值是否小于该第一辅音能量比例加权平均值来判断该目标语音帧所对应的原始语音取样信号是否为辅音信号。

7.根据权利要求6所述的语音辨识装置，其特征在于，对应各该被判断为噪声信号的原始语音取样信号的语音帧所对应的该第一辅音频段信号能量与该原始语音取样信号能量的比值的加权值随对应各该被判断为噪声信号的原始语音取样信号的语音帧与该目标语音帧之间的间隔长短不同而改变。

8.根据权利要求6所述的语音辨识装置，其特征在于，该处理单元还依据该第二辅音频段信号能量与该原始语音取样信号能量的比值是否大于等于一预设比值来判断该目标语音帧所对应的原始语音取样信号是否为辅音信号。

9.根据权利要求8所述的语音辨识装置，其特征在于，该处理单元还依据该原始语音取样信号能量是否大于等于一下限值来判断该目标语音帧所对应的原始语音取样信号是否为辅音信号。

10.根据权利要求9所述的语音辨识装置，其特征在于，该处理单元还计算该原始语音取样信号的第一过零率、第二过零率以及第三过零率，并计算该目标语音帧与该目标语音帧之前的多个语音帧的原始语音取样信号的平均过零率，以得到一第一平均过零率、一第二平均过零率以及一第三平均过零率，并依据该第一平均过零率、该第二平均过零率以及该第三平均过零率是否分别大于等于其对应的预设平均过零率来判断该目标语音帧所对应的原始语音取样信号是否为辅音信号，该第一过零率、该第二过零率以及该第三过零率分别为在该目标语音帧中该原始语音取样信号通过一第一预设值、一第二预设值以及一第三预设值的次数，该第二预设值小于该第一预设值且大于该第三预设值。

11.根据权利要求10所述的语音辨识装置，其特征在于，该处理单元还依据该第二过零率是否大于等于一预设过零率来判断该目标语音帧所对应的原始语音取样信号是否为辅音信号。

12.一种语音辨识方法，其特征在于，包括：

对一语音信号进行一第一辅音频段以及一第二辅音频段的带通滤波，以分别产生一第一带通滤波信号与一第二带通滤波信号；

将该语音信号、该第一带通滤波信号与该第二带通滤波信号分为多个语音帧，其中各该语音帧包括N个取样信号，N为正整数；

计算目标语音帧中取样信号的能量，以获得一原始语音取样信号能量、一第一辅音频段信号能量以及一第二辅音频段信号能量；以及

依据该第一辅音频段信号能量与该第二辅音频段信号能量的比值、该第一辅音频段信号能量与该原始语音取样信号能量的比值以及该第二辅音频段信号能量与该原始语音取样信号能量的比值判断对应该目标语音帧的原始语音取样信号是否为噪声。

13.根据权利要求12所述的语音辨识方法，其特征在于，还包括：

判断该第一辅音频段信号能量与该第二辅音频段信号能量的比值、该第一辅音频段信号能量与该原始语音取样信号能量的比值以及该第二辅音频段信号能量与该原始语音取样信号能量的比值是否分别落于对应的预设比值范围；以及

若该第一辅音频段信号能量与该第二辅音频段信号能量的比值、该第一辅音频段信号能量与该原始语音取样信号能量的比值以及该第二辅音频段信号能量与该原始语音取样信号能量的比值分别落于对应的预设比值范围，则该目标语音帧的原始语音取样信号为噪声信号。

14.根据权利要求12所述的语音辨识方法，其特征在于，还包括：

计算多个之前被判断为噪声信号的原始语音取样信号的语音帧的能量加权平均值，以得到一噪声信号能量加权平均值；以及

依据该目标语音帧所对应的原始语音取样信号能量是否大于该噪声信号能量加权平均值来判断该目标语音帧所对应的原始语音取样信号是否为辅音信号。

15.根据权利要求14所述的语音辨识方法，其特征在于，对应各该被判断为噪声信号的原始语音取样信号的语音帧的加权值随对应各该被判断为噪声信号的原始语音取样信号的语音帧与该目标语音帧之间的间隔长短不同而改变。

16.根据权利要求14所述的语音辨识方法，其特征在于，还包括：

依据该第二辅音频段信号能量与该原始语音取样信号能量的比值与该第一辅音频段信号能量与该原始语音取样信号能量的比值之和是否大于等于一预设和值来判断该目标语音帧所对应的原始语音取样信号是否为辅音信号。

17.根据权利要求16所述的语音辨识方法，其特征在于，还包括：

计算多个之前被判断为噪声信号的原始语音取样信号的语音帧所对应的该第一辅音频段信号能量与该原始语音取样信号能量的比值的加权平均值，以得到一第一辅音能量比例加权平均值；以及

依据该目标语音帧所对应的该第一辅音频段信号能量与该原始语音取样信号能量的比值是否小于该第一辅音能量比例加权平均值来判断该目标语音帧所对应的原始语音取样信号是否为辅音信号。

18.根据权利要求17所述的语音辨识方法，其特征在于，对应各该被判断为噪声信号的原始语音取样信号所对应的该第一辅音频段信号能量与该原始语音取样信号能量的比值的加权值随对应各该被判断为噪声信号的原始语音取样信号的语音帧与该目标语音帧之间的间隔长短不同而改变。

19.根据权利要求17所述的语音辨识方法，其特征在于，还包括：

依据该第二辅音频段信号能量与该原始语音取样信号能量的比值是否大于等于一预设比值来判断该目标语音帧所对应的原始语音取样信号是否为辅音信号。

20.根据权利要求19所述的语音辨识方法，其特征在于，还包括：

依据该原始语音取样信号能量是否大于等于一下限值来判断该目标语音帧所对应的原始语音取样信号是否为辅音信号。

21.根据权利要求20所述的语音辨识方法，其特征在于，还包括：

计算该原始语音取样信号的第一过零率、第二过零率以及第三过零率，并计算该目标语音帧与该目标语音帧之前多N个语音帧的原始语音取样信号的平均过零率，以得到一第一平均过零率、一第二平均过零率以及一第三平均过零率，其中N为正整数，该第一过零率、该第二过零率以及该第三过零率分别为在该目标语音帧中该原始语音取样信号通过一第一预设值、一第二预设值以及一第三预设值的次数，该第二预设值小于该第一预设值且大于该第三预设值；以及

依据该第一平均过零率、该第二平均过零率以及该第三平均过零率是否分别大于等于其对应的预设平均过零率来判断该目标语音帧所对应的原始语音取样信号是否为辅音信号。

22.根据权利要求21所述的语音辨识方法，其特征在于，还包括：

依据该第二过零率是否大于等于一预设过零率来判断该目标语音帧所对应的原始语音取样信号是否为辅音信号。