CN110047519B

CN110047519B - 一种语音端点检测方法、装置及设备

Info

Publication number: CN110047519B
Application number: CN201910311947.7A
Authority: CN
Inventors: 张承云; 梁龙腾
Original assignee: Guangzhou University
Current assignee: Guangzhou University
Priority date: 2019-04-16
Filing date: 2019-04-16
Publication date: 2021-08-24
Anticipated expiration: 2039-04-16
Also published as: CN110047519A

Abstract

本发明公开了一种语音端点检测方法，包括对所接收的语音信号进行滤波并分帧，得到一次信号；计算每帧所述一次信号的短时幅值和频谱；根据所述短时幅值构造加权因子，并利用所述加权因子对所述频谱进行谱加权，得到二次信号；计算每帧所述二次信号的功率谱，并计算谱能量总和；根据所述功率谱和所述谱能量总和，计算每帧所述二次信号的短时谱熵值；以若干帧的短时谱熵值的倒数的平均值作为语音端点的检测阈值，进行语音帧和噪声帧的判断。本发明提供的语音端点检测方法能够适用于功率谱分布相对较为集中的噪声类型，并提高语音端点检测的准确性。

Description

一种语音端点检测方法、装置及设备

技术领域

本发明涉及语音识别技术领域，尤其是涉及一种语音端点检测方法、装置及设备。

背景技术

语音端点检测是一种应用于语音前端处理的技术，其通过端点检测算法把信号中的含噪语音信号提取出来，为后期声源定位、语音增强、语音识别、语音编码等算法和技术提供有效的信息。现有技术中的语音端点检测方法的步骤主要分为两步：语音信号特征提取和检测语音信号。首先通过不同的算法进行语音信号的特征提取，把声音信号和噪声信号进行区分；然后通过不同的检测方法检验提取的语音信号。语音信号的特征提取是语音端点检测技术的核心部分，决定了最终语音端点检测的准确率。

语音端点检测技术在处理域上主要是频域端点检测，其中频域端点检测是一种基于谱熵法的语音端点检测方法，其利用语音信号与噪声信号具备不同谱熵的特点对信号进行区分，然后通过检测功率谱的平坦程度进行语音端点检测，即需要根据谱概率密度函数(Probability Density Function,PDF)计算谱熵。当信号的功率谱分布较为平坦或均匀时，趋向于等概率分布，熵函数取较大值，其倒数取较小值；反之，当信号的功率谱分布较为集中或不均匀，熵函数取较小值，其倒数取较大值。由于语音信号具有共振峰结构，功率谱分布较为集中和不均匀，所以谱熵比较低，其倒数为较大值；噪声信号(白噪声、粉噪声等)的功率谱较为发散，谱熵比较大，其倒数为较小值，从而可将语音信号和噪声信号区分开来。基于谱熵法的端点检测方法具备受声音信号能量影响较少的特点，因此对噪声具有一定的鲁棒性；但是在实际的嘈杂环境下，如餐厅或地铁等充斥着嘈杂人噪声、汽车行驶噪声等环境下，噪声信号与声音信号都具备较为集中的功率谱分布，使基于谱熵法的语音端点检测方法难以准确估计。

发明内容

本发明提供了一种语音端点检测的方法，以解决现有技术中的语音端点检测方法在功率谱分布较为集中的噪声下难以准确估计的技术问题；本发明能够适用于功率谱分布相对较为集中的噪声类型，并提高语音端点检测的准确性。

为了解决上述技术问题，本发明实施例提供了一种语音端点检测方法，包括：

对所接收的语音信号进行滤波并分帧，得到一次信号；

计算每帧所述一次信号的短时幅值和频谱；

根据所述短时幅值构造加权因子，并利用所述加权因子对所述频谱进行谱加权，得到二次信号；具体为：对每帧所述一次信号的短时幅值E(n)进行归一化处理，并构造加权因子e(n)；利用所述加权因子e(n)对每帧所述一次信号的频谱X(n,l)进行谱加权，得到每帧所述二次信号X_g(n,l)；其中，e(n)为加权因子， e(n)＝1-E_g(n)，E_g(n)＝E(n)/max(E(n))；X_g(n,l)＝X(n,l)./|X(n,l)|^e(n)；其中，

，所述一次信号为x(n,m)，n＝1,2,3,…,N， m＝1,2,3,…,M，N为帧数，M为帧长；X(n,l)＝fft(x(n,m))，fft为快速傅里叶变换， l为频率；

计算每帧所述二次信号的功率谱，并计算谱能量总和；

根据所述功率谱和所述谱能量总和，计算每帧所述二次信号的短时谱熵值；

以若干帧的短时谱熵值的倒数的平均值作为语音端点的检测阈值，进行语音帧和噪声帧的判断。

作为优选方案，所述以若干帧的短时谱熵值的倒数的平均值作为语音端点的检测阈值，进行语音帧和噪声帧的判断，具体为：

将所述检测阈值与每帧所述二次信号的短时谱熵值进行比较；

当所述短时谱熵值大于所述检测阈值时，则判定对应所述短时谱熵值的信号帧为语音帧；

当所述短时谱熵值小于或等于所述检测阈值时，判定对应所述短时谱熵值的信号帧为噪声帧。

作为优选方案，所述计算每帧所述一次信号的短时幅值和频谱，具体为：

基于能量的端点检测方法计算每帧所述一次信号的短时幅值E(n)；

利用傅里叶变换计算每帧所述一次信号的频谱X(n,l)；

其中，，所述一次信号为x(n,m)，n＝1,2,3,…,N，m＝1,2,3,…,M，N为帧数，M为帧长；

X(n,l)＝fft(x(n,m))，fft为快速傅里叶变换，l为频率。

作为优选方案，其特征在于，所述根据所述短时幅值构造加权因子，并利用所述加权因子对所述频谱进行谱加权，得到二次信号，具体为：

对每帧所述一次信号的短时幅值E(n)进行归一化处理，并构造加权因子e(n)；

利用所述加权因子e(n)对每帧所述一次信号的频谱X(n,l)进行谱加权，得到每帧所述二次信号X_g(n,l)；

其中，e(n)为加权因子，e(n)＝1-E_g(n)，E_g(n)＝E(n)/max(E(n))；

X_g(n,l)＝X(n,l)./|X(n,l)|^e(n)。

作为优选方案，所述计算每帧所述二次信号的功率谱，并计算谱能量总和，具体为：

计算每帧所述二次信号的功率谱模值S(n,l)，并计算谱能量总和Y(n)；

其中，S(n,l)＝|X_g(n,l).*X_g(n,l)|，

L为傅里叶变换的长度；

作为优选方案，所述根据所述功率谱和所述谱能量总和，计算每帧所述二次信号的短时谱熵值，具体为：

根据所述功率谱模值S(n,l)和所述谱能量总和Y(n)计算每帧所述二次信号的谱概论密度函数P(n,l)；

根据每帧所述二次信号的谱概论密度函数P(n,l)计算每帧所述二次信号的短时谱熵值H(n)；

其中，P(n,l)＝S(n,l)/Y(n)；

将N帧所述谱熵值中的连续前Z帧谱熵值的倒数的平均值作为语音端点的检测阈值K；

其中，

Z<<N，J(n)＝1/H(n)。

为了解决相同的技术问题，本发明实施例提供了一种语音端点检测装置，包括：

预处理模块，用于对所接收的语音信号进行滤波并分帧，得到一次信号；

第一计算模块，用于计算每帧所述一次信号的短时幅值和频谱；

谱加权模块，用于根据所述短时幅值构造加权因子，并利用所述加权因子对所述频谱进行谱加权，得到二次信号；具体为：对每帧所述一次信号的短时幅值E(n)进行归一化处理，并构造加权因子e(n)；利用所述加权因子e(n)对每帧所述一次信号的频谱X(n,l)进行谱加权，得到每帧所述二次信号X_g(n,l)；其中， e(n)为加权因子，e(n)＝1-E_g(n)，E_g(n)＝E(n)/max(E(n))；X_g(n,l)＝X(n,l)./|X(n,l)|^e(n)；其中，，所述一次信号为x(n,m)，n＝1,2,3,…,N， m＝1,2,3,…,M，N为帧数，M为帧长；X(n,l)＝fft(x(n,m))，fft为快速傅里叶变换，l为频率；

第二计算模块，用于计算每帧所述二次信号的功率谱，并计算谱能量总和；

第三计算模块，用于根据所述功率谱和所述谱能量总和，计算每帧所述二次信号的短时谱熵值；

判断模块，用于以若干帧的短时谱熵值的倒数的平均值作为语音端点的检测阈值，进行语音帧和噪声帧的判断。

为了解决上述技术问题，本发明实施例提供了一种语音端点检测设备，包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序，所述处理器执行所述计算机程序时实现如上述的语音端点检测方法。

相比于现有技术，本发明实施例的有益效果在于，本发明实施例提供了一种语音端点检测方法，包括对所接收的语音信号进行滤波并分帧，得到一次信号；计算每帧所述一次信号的短时幅值和频谱；根据所述短时幅值构造加权因子，并利用所述加权因子对所述频谱进行谱加权，得到二次信号；计算每帧所述二次信号的功率谱，并计算谱能量总和；根据所述功率谱和所述谱能量总和，计算每帧所述二次信号的短时谱熵值；以若干帧的短时谱熵值的倒数的平均值作为语音端点的检测阈值，进行语音帧和噪声帧的判断。

在功率谱分布相对较为集中的噪声类型下，利用短时幅值计算结果构造的加权因子和每帧所述一次信号的频谱进行谱加权处理以得到所述二次信号，从而对噪声信号的频谱进行一定程度的白化，能够使噪声信号的功率谱分布更加平坦和均匀，进而增大噪声信号短时谱熵值，使得噪声信号短时谱熵值的倒数取较小值；同时，对语音信号功率谱进行保留，语音信号短时谱熵值较小，其短时谱熵值的倒数取较大值；从而能够区分语音信号和噪声信号，进而提高语音端点检测的准确性。通过将基于能量的端点检测方法融入到谱熵法中，并将短时幅值通过指数形式加权到谱白化上，能够起到控制谱白化程度的作用，从而在功率谱分布相对较为集中的噪声类型下能够进行较为准确的端点检测，进而有效地提高谱熵法语音端点检测的准确率。

附图说明

图1是本发明提供的一种语音端点检测方法的步骤流程图；

图2是本发明提供的一种语音端点检测方法的流程示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明第一实施例：

请参见图1，本发明第一实施例提供了一种语音端点检测方法，至少包括：

S1：对所接收的语音信号进行滤波并分帧，得到一次信号；

S2：计算每帧所述一次信号的短时幅值和频谱；

S3：根据所述短时幅值构造加权因子，并利用所述加权因子对所述频谱进行谱加权，得到二次信号；

通过将基于能量的端点检测方法融入到谱熵法中，并将短时幅值通过指数形式加权到谱白化上，能够起到控制谱白化程度的作用，从而在功率谱分布相对较为集中的噪声类型下能够进行较为准确的利用谱熵法进行端点检测，进而有效地提高语音端点检测的准确率。

S4：计算每帧所述二次信号的功率谱，并计算谱能量总和；

S5：根据所述功率谱和所述谱能量总和，计算每帧所述二次信号的短时谱熵值；

S6：以若干帧的短时谱熵值的倒数的平均值作为语音端点的检测阈值，进行语音帧和噪声帧的判断。

本实施例在功率谱分布相对较为集中的噪声类型下，利用短时幅值计算结果构造的加权因子和每帧所述一次信号的频谱进行谱加权处理得到所述二次信号，能够对噪声信号的频谱进行一定程度的白化，使噪声信号的功率谱分布更加平坦和均匀，使噪声信号短时谱熵值增大，使得噪声信号短时谱熵值的倒数取较小值，而对语音信号功率谱进行保留，语音信号短时谱熵值较小，语音信号短时谱熵值的倒数为较大值，从而能够区分语音信号和噪声信号，进而提高谱熵法语音端点检测的准确性。

在本发明实施例中，所述以若干帧的短时谱熵值的倒数的平均值作为语音端点的检测阈值，进行语音帧和噪声帧的判断，具体为：

在本发明实施例中，所述计算每帧所述一次信号的短时幅值和频谱，具体为：

利用傅里叶变换计算每帧所述一次信号的频谱X(n,l)；

其中，，所述一次信号为x(n,m)， n＝1,2,3,…,N，m＝1,2,3,…,M，N为帧数，M为帧长；

X(n,l)＝fft(x(n,m))，fft为快速傅里叶变换，l为频率。

在本发明实施例中，所述根据所述短时幅值构造加权因子，并利用所述加权因子对所述频谱进行谱加权，得到二次信号，具体为：

其中，e(n)为加权因子，e(n)＝1-E_g(n)，E_g(n)＝E(n)/max(E(n))；

X_g(n,l)＝X(n,l)./|X(n,l)|^e(n)。

这样通过将基于能量的端点检测方法融入到谱熵法中，并将短时幅值通过指数形式加权到谱白化上，能够起到控制谱白化程度的作用，从而在功率谱分布相对较为集中的噪声类型下能够进行较为准确的利用谱熵法进行端点检测，进而提高语音端点检测的准确率。

在本发明实施例中，所述计算每帧所述二次信号的功率谱，并计算谱能量总和，具体为：

其中，S(n,l)＝|X_g(n,l).*X_g(n,l)|，

L为傅里叶变换的长度；

在本发明实施例中，所述根据所述功率谱和所述谱能量总和，计算每帧所述二次信号的短时谱熵值，具体为：

其中，P(n,l)＝S(n,l)/Y(n)；

其中，

Z<<N，J(n)＝1/H(n)。

请参见图2，本发明的语音端点检测方法，其中一种可行的具体实施例的流程如下：

1、通过传声器对待测语音信号进行接收，待测语音信号记为x(t)；

2、对所接收的语音信号进行滤波并分帧处理，得到一次信号并记为x(n,m)，其中，n＝1,2,3,…,N，N帧数，m＝1,2,3,…,M，M为每帧的帧长；

3、对每帧所述一次信号x(n,m)的短时幅值进行估计，计算每帧所述一次信号的短时幅值E(n)，计算过程如下：

，

4、对每帧所述一次信号的短时幅值E(n)进行归一化处理得到E_g(n)，并构造加权因子e(n)，计算过程如下：

E_g(n)＝E(n)/max(E(n))，

e(n)＝1-E_g(n)；

5、对每帧所述一次信号x(n,m)进行傅里叶变换，得到每帧所述一次信号的频谱X(n,l)，计算过程如下：

X(n,l)＝fft(x(n,m))，

其中，fft为快速傅里叶变换，l为频率；

6、利用所述加权因子对所述频谱X(n,l)进行谱加权处理，得到二次信号 X_g(n,l)，计算过程如下：

X_g(n,l)＝X(n,l)./|X(n,l)|^e(n)；

7、计算每帧所述二次信号的功率谱模值S(n,l)，计算过程如下：

S(n,l)＝|X_g(n,l).*X_g(n,l)|；

8、计算每帧所述二次信号的谱能量总和Y(n)，计算过程如下：

其中，L为傅里叶变换的长度；

9、计算每帧所述二次信号的谱概论密度函数P(n,l)，计算结果如下：

P(n,l)＝S(n,l)/Y(n)

10、计算每帧所述二次信号的短时谱熵H(n)，计算结果如下：

11、计算每帧所述二次信号的短时谱熵值的倒数J(n)，计算结果如下：

J(n)＝1/H(n)；

12、取前20帧的谱熵值的平均值作为所述检测阈值K，计算结果如下：

相比于现有技术，本发明实施例提供的一种语音端点检测方法具有如下有益效果：

(1)在功率谱分布相对较为集中的噪声类型下，利用短时幅值计算结果构造的加权因子和每帧所述一次信号的频谱进行谱加权处理以得到所述二次信号，从而对噪声信号的频谱进行一定程度的白化，能够使噪声信号的功率谱分布更加平坦和均匀，进而增大噪声信号短时谱熵值，使得噪声信号短时谱熵值的倒数取较小值；同时，对语音信号功率谱进行保留，语音信号短时谱熵值较小，其短时谱熵值的倒数取较大值；从而能够区分语音信号和噪声信号，进而提高语音端点检测的准确性。

(2)通过将基于能量的端点检测方法融入到谱熵法中，并将短时幅值通过指数形式加权到谱白化上，能够起到控制谱白化程度的作用，从而在功率谱分布相对较为集中的噪声类型下能够进行较为准确的端点检测，进而有效地提高谱熵法语音端点检测的准确率。

(3)利用谱白化技术对噪声部分信号的频谱进行一定程度的白化，使噪声信号的功率谱分布更加平坦和均匀，从而使谱熵增大；语音信号功率谱进行保留，谱熵较少，能够使语音信号和噪声信号的谱熵区分开来，从而提高了在多种噪声下检测的准确性。

(4)利用基于能量的端点检测方法融入谱熵法中，具备对于噪声类型不敏感的优点，将短时幅值通过指数的形式加权到谱白化方法上，从而控制谱白化程度；对频谱进行加权的方法结合将短时幅值通过指数的形式加权到谱白化上的方法，在各种噪声类型下都能够进行较为准确的端点检测，从而提高在多种噪声下检测的准确性。

本发明第二实施例：

本发明第二实施例提供了一种语音端点检测装置，包括：

谱加权模块，用于根据所述短时幅值构造加权因子，并利用所述加权因子对所述频谱进行谱加权，得到二次信号；

在本发明实施例中，所述判断模块，还用于：

所述第一计算模块，还用于：

利用傅里叶变换计算每帧所述一次信号的频谱X(n,l)；

X(n,l)＝fft(x(n,m))，fft为快速傅里叶变换，l为频率。

所述谱加权模块，还用于：

其中，e(n)为加权因子，e(n)＝1-E_g(n)，E_g(n)＝E(n)/max(E(n))；

X_g(n,l)＝X(n,l)./|X(n,l)|^e(n)。

所述第二计算模块，还用于：

其中，S(n,l)＝|X_g(n,l).*X_g(n,l)|，

L为傅里叶变换的长度。

所述第三计算模块，还用于：

其中，P(n,l)＝S(n,l)/Y(n)；

所述判断模块，还用于：

其中，

Z<<N，J(n)＝1/H(n)。

本发明第三实施例：

本发明第三实施例还提供了一种语音端点检测设备，包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序，例如对象固定程序。所述处理器执行所述计算机程序时实现如上述的语音端点检测方法的步骤，例如图1所示的步骤S1。或者，所述处理器执行所述计算机程序时实现上述各装置实施例中各模块/单元的功能，例如评估分析模块。

示例性的，所述计算机程序可以被分割成一个或多个模块/单元，所述一个或者多个模块/单元被存储在所述存储器中，并由所述处理器执行，以完成本发明。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述所述计算机程序在所述语音端点检测设备中的执行过程。

所述语音端点检测设备可以是桌上型计算机、笔记本、掌上电脑及智能平板等计算设备。所述语音端点检测设备可包括，但不仅限于，处理器、存储器。本领域技术人员可以理解，上述部件仅仅是语音端点检测设备的示例，并不构成对语音端点检测设备的限定，可以包括比上述更多或更少的部件，或者组合某些部件，或者不同的部件，例如所述语音端点检测设备还可以包括输入输出设备、网络接入设备、总线等。

所称处理器可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等，所述处理器是所述语音端点检测设备的控制中心，利用各种接口和线路连接整个语音端点检测设备的各个部分。

所述存储器可用于存储所述计算机程序和/或模块，所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块，以及调用存储在存储器内的数据，实现所述语音端点检测设备的各种功能。所述存储器可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作***、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器可以包括高速随机存取存储器，还可以包括非易失性存储器，例如硬盘、内存、插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital, SD)卡，闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

其中，所述语音端点检测设备集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM， Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

需说明的是，以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。另外，本发明提供的装置实施例附图中，模块之间的连接关系表示它们之间具有通信连接，具体可以实现为一条或多条通信总线或信号线。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也视为本发明的保护范围。

Claims

1.一种语音端点检测方法，其特征在于，包括以下步骤：

对所接收的语音信号进行滤波并分帧，得到一次信号；

计算每帧所述一次信号的短时幅值和频谱；

根据所述短时幅值构造加权因子，并利用所述加权因子对所述频谱进行谱加权，得到二次信号；具体为：对每帧所述一次信号的短时幅值E(n)进行归一化处理，并构造加权因子e(n)；利用所述加权因子e(n)对每帧所述一次信号的频谱X(n,l)进行谱加权，得到每帧所述二次信号X_g(n,l)；其中，e(n)为加权因子，e(n)＝1-E_g(n)，E_g(n)＝E(n)/max(E(n))；X_g(n,l)＝X(n,l)./|X(n,l)|^e(n)；其中，

，所述一次信号为x(n,m)，n＝1,2,3,…,N，m＝1,2,3,…,M，N为帧数，M为帧长；X(n,l)＝fft(x(n,m))，fft为快速傅里叶变换，l为频率；

计算每帧所述二次信号的功率谱，并计算谱能量总和；

2.如权利要求1所述的语音端点检测方法，其特征在于，所述以若干帧的短时谱熵值的倒数的平均值作为语音端点的检测阈值，进行语音帧和噪声帧的判断，具体为：

3.如权利要求1所述的语音端点检测方法，其特征在于，所述计算每帧所述一次信号的短时幅值和频谱，具体为：

利用傅里叶变换计算每帧所述一次信号的频谱X(n,l)；

其中，

，所述一次信号为x(n,m)，n＝1,2,3,…,N，m＝1,2,3,…,M，N为帧数，M为帧长；

X(n,l)＝fft(x(n,m))，fft为快速傅里叶变换，l为频率。

4.如权利要求1所述的语音端点检测方法，其特征在于，所述计算每帧所述二次信号的功率谱，并计算谱能量总和，具体为：

计算每帧所述二次信号的功率谱模值S(n,l)并计算谱能量总和Y(n)；

其中，S(n,l)＝|X_g(n,l).*X_g(n,l)|，

L为傅里叶变换的长度。

5.如权利要求4所述的语音端点检测方法，其特征在于，所述根据所述功率谱和所述谱能量总和，计算每帧所述二次信号的短时谱熵值，具体为：

根据所述功率谱模值S(n,l)和所述谱能量总和Y(n)计算每帧所述二次信号的谱概率密度函数P(n,l)；

根据每帧所述二次信号的谱概率密度函数P(n,l)计算每帧所述二次信号的短时谱熵值H(n)；

其中，P(n,l)＝S(n,l)/Y(n)；

6.如权利要求5所述的语音端点检测方法，其特征在于，所述以若干帧的短时谱熵值的倒数的平均值作为语音端点的检测阈值，进行语音帧和噪声帧的判断，具体为：

其中，

7.一种语音端点检测装置，其特征在于，包括：

谱加权模块，用于根据所述短时幅值构造加权因子，并利用所述加权因子对所述频谱进行谱加权，得到二次信号；具体为：对每帧所述一次信号的短时幅值E(n)进行归一化处理，并构造加权因子e(n)；利用所述加权因子e(n)对每帧所述一次信号的频谱X(n,l)进行谱加权，得到每帧所述二次信号X_g(n,l)；其中，e(n)为加权因子，e(n)＝1-E_g(n)，E_g(n)＝E(n)/max(E(n))；X_g(n,l)＝X(n,l)./|X(n,l)|^e(n)；其中，

8.一种语音端点检测设备，其特征在于，包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序，所述处理器执行所述计算机程序时实现如权利要求1-6任一项所述的语音端点检测方法。