CN110444194B

CN110444194B - 一种语音检测方法和装置

Info

Publication number: CN110444194B
Application number: CN201910579539.XA
Authority: CN
Inventors: 汪法兵; 李健; 张连毅; 武卫东
Original assignee: Beijing Sinovoice Technology Co Ltd
Current assignee: Beijing Sinovoice Technology Co Ltd
Priority date: 2019-06-28
Filing date: 2019-06-28
Publication date: 2021-08-20
Anticipated expiration: 2039-06-28
Also published as: CN110444194A

Abstract

本发明实施例提供了一种语音检测方法和装置，该方法和装置应用于语音信号处理、语音交互、IP电话等***，具体为在接收到信号时，基于能量或信噪比的方法提取信号的第一特征矢量和第一语音存在概率；同时，基于浊音判断的方法提取信号的第二特征矢量和第二语音存在概率；将第一特征矢量和第二特征矢量进行融合，得到联合特征矢量；根据联合特征矢量、第一语音存在概率和第二语音存在概率计算似然比；根据似然比对信号是否为语音进行判断。由于本发明的技术方案利用两种不同特征矢量在静音、浊音和清音三种状态下的对语音、静音分类的能力不同，将两者进行融合，从而使对语音的检测效果更好。

Description

一种语音检测方法和装置

技术领域

本发明涉及语音识别技术领域，特别是涉及一种语音检测方法和装置。

背景技术

在语音信号处理、语音交互等领域，语音端点检测(Voice activity detection，VAD)是一个重要的功能。其目的是从声音信号流里识别和消除长时间的静音期，以达到在不降低业务质量的情况下节省话路或带宽资源，从而有利于减少时延。

目前在语音端点检测技术方面，主要有基于能量和信噪比的方案和基于浊音判断的方案。然而，前者的错误率较低，但误报率较高；后者的误报率较低，但错误率较高。也就是说无论哪种方案的语音端点检测的效果均较差，无法得到精准的检测结果。

发明内容

有鉴于此，本发明提供了一种语音检测方法和装置，以解决目前检测方法效果较差的问题。

为了解决上述问题，本发明公开了一种语音检测方法，包括步骤：

在接收到信号时，基于能量或信噪比的方法提取所述信号的第一特征矢量，并根据所述第一特征矢量计算第一语音存在概率；

同时，基于浊音判断的方法提取所述信号的第二特征矢量，并根据所述第二特征矢量计算第二语音存在概率；

将所述第一特征矢量和所述第二特征矢量进行融合，得到联合特征矢量；

根据所述联合特征矢量和第一语音存在概率和所述第二语音存在概率计算似然比；

根据所述似然比对所述信号是否语音进行判断。

可选的，所述似然比通过利用预设计算公式对所述语音信号的先验概率进行计算得到。

可选的，所述根据所述似然比对语音端点进行判断，包括：

当所述似然比大于或等于预设判断阈值时，判定所述信号为语音；

当所述似然比小于所述预设判断阈值时，判定所述信号为静音或噪声。

还提供了一种语音端点检测装置，包括：

第一检测模块，用于在接收到信号时，基于能量或信噪比的方法提取所述信号的第一特征矢量，并根据所述第一特征矢量计算第一语音存在概率；

第二检测模块，用于基于浊音判断的方法提取所述信号的第二特征矢量，并根据所述第二特征矢量计算第二语音存在概率；

特征融合模块，用于将所述第一特征矢量和所述第二特征矢量进行融合，得到联合特征矢量；

概率计算模块，用于根据所述联合特征矢量、所述第一语音存在概率、所述第二语音存在概率计算似然比；

语音判断模块，用于根据所述似然比对所述信号是否为语音进行判断。

可选的，所述语音判断模块用于当所述似然比大于或等于预设判断阈值时，判定所述信号为语音，当所述似然比小于所述预设判断阈值时，判定所述信号为静音或噪声。

从上述技术方案可以看出，本发明提供了一种语音检测方法和装置，该方法和装置应用于语音信号处理、语音交互、IP电话等***，具体为在接收到信号时，基于能量或信噪比的方法提取信号的第一特征矢量和第一语音存在概率；同时，基于浊音判断的方法提取信号的第二特征矢量和第二语音存在概率；将第一特征矢量和第二特征矢量进行融合，得到联合特征矢量；根据联合特征矢量、第一语音存在概率和第二语音存在概率计算似然比；根据似然比对信号是否为语音进行判断。由于本发明的技术方案利用两种不同特征矢量在静音、浊音和清音三种状态下的对语音、静音分类的能力不同，将两者进行融合，从而使对语音的检测效果更好。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种语音检测方法的步骤流程图；

图2为本发明实施例提供的一种语音检测装置的结构框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例一

图1为本发明实施例提供的一种语音检测方法的步骤流程图。

参照图1所示，本实施例提供的语音检测方法应用于语音信号处理、语音交互、IP电话等***，该方案具体包括如下步骤：

S1、基于能量或信噪比的方法检测信号的第一特征矢量，并根据第一特征矢量计算信号的第一语音存在概率。

当接收到待处理的相应信号时，通过能量或信噪比的方法提取其特征矢量，具体来说是判断语音信号的能量阈值，利用噪声和语音信号在不同时间尺度上的平稳性不同区分噪声和语音，自然，在确定噪声和语音后，其交接点就是我们所说的语音端点，为了便于与下面的语音端点区分，将其称为第一特征矢量，并将其记为X1。

另外，还可以根据GMM方法对语音和噪声建模，从而区分语音信号的噪声和语音，同样根据噪声和语音的分解点得到第一特征矢量。

在得到第一特征矢量的基础上，根据第一特征矢量计算当前信号是否为语音的第一语音存在概率。

S2、基于浊音判断的方法提取信号的第二特征矢量，并根据第二特征矢量计算信号的第二语音存在概率。

在取得上述语音信号的第一特征矢量的同时，我们还利用浊音判断的方法提取该信号的特征矢量，并将其记为第二特征矢量X2。浊音判断的根据是我们可以利用浊音语谱的结构性特征判断清音和浊音。在得到第二特征矢量的基础上，根据该第二特征矢量计算第二语音存在概率。

S3、将第一特征矢量和第二特征矢量融合为联合特征矢量。

一般来说，语音端点检测把一段音频分为静音(或噪声)、语音两个状态，记为：

H0：静音或噪声；

H1：语音。

语音又可分为清音和浊音，联合静音状态，可以把这三种状态记为：

S：静音或噪声；

V：浊音；

U：清音。

这里，H0＝{S}，H1＝{V,U}。

根据前面记载可知，基于能量和信噪比的方法得到第一特征矢量为X1，基于浊音检测得到第二特征矢量X2，联合上述两个特征矢量，得到联合特征矢量X＝{X1,X2}。

S4、根据联合特征矢量、第一语音存在概率和第二语音存在概率计算似然比。

具体而言就是根据联合特征矢量、第一语音存在概率和第二语音存在概率计算语音存在概率p，即

p＝P(H1|X) (1)

第一特征矢量对应的第一语音存在概率为p1，

p₁＝P(H1|X1) (2)

第二特征矢量对应的第二语音存在概率为p2，

p₂＝P(V|X2) (3)

假设静音(H0)和语音(H1)出现的先验概率为π₀、π₁，浊音(V)和清音(U)出现的先验概率为π_v、π_u。他们满足如下关系，

π₀+π₁＝1 (4)

π_v+π_u＝1 (5)

将上述似然比归一化，

P(V|X2)+P(U|X2)+P(S|X2)＝1 (6)

P(V|X1)+P(U|X1)+P(S|X1)＝1 (7)

利用公式(3)(5)(6)，可以得到，

利用公式(2)(4)(7)，可以得到，

P(V|X1)＝π_vp₁ (10)

P(U|X1)＝π_up₁ (11)

P(S|X1)＝1-p₁ (12)

假设第一特征矢量X1，第二特征矢量X2统计独立，

P(H1|X1，X2)＝P(H1|X1)P(H1|X2) (13)

P(H0|X1，X2)＝P(H0|X1)P(H0|X2) (14)

联合公式(8)-(14)，最终得到，

根据上述公式的原理，可以最终得到语音点的似然比R。

S5、根据似然比对语音进行判断。

即根据似然比、即语音出现的概率对是否语音进行判断，具体是将该似然比与一个预设判断阈值Thr进行比较得到结果，该预设判断阈值是根据在实际判实施时根据所需判断精度进行选取的，这一阈值的取值范围是(0，1)，可根据经验调整。

当似然比R大于或等于该阈值时，VAD等于1，此时判定该信号为语音；相应的，如果似然比R小于该阈值，VAD等于0，此时判定该信号为静音或者噪音，从而得到精确的检测结果。

从上述技术方案可以看出，本实施例提供了一种语音检测方法，该方法应用于语音信号处理、语音交互、IP电话等***，具体为在接收到信号时，基于能量或信噪比的方法提取信号的第一特征矢量和第一语音存在概率；同时，基于浊音判断的方法提取信号的第二特征矢量和第二语音存在概率；将第一特征矢量和第二特征矢量进行融合，得到联合特征矢量；根据联合特征矢量、第一语音存在概率和第二语音存在概率计算似然比；根据似然比对信号是否为语音进行判断。由于本发明的技术方案利用两种不同特征矢量在静音、浊音和清音三种状态下的对语音、静音分类的能力不同，将两者进行融合，从而使对语音的检测效果更好。。

需要说明的是，对于方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明实施例并不受所描述的动作顺序的限制，因为依据本发明实施例，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作并不一定是本发明实施例所必须的。

实施例二

图2为本发明实施例提供的一种语音检测装置的结构框。

参照图2所示，本实施例提供的语音检测装置应用于语音信号处理、语音交互、IP电话等***，该方案具体包括第一检测模块10、第二检测模块20、特征融合模块30、概率计算模块40和语音判断模块50。

第一检测模块用于基于能量或信噪比的方法提取信号的第一特征矢量，并根据第一特征矢量计算信号的第一语音存在概率。

第二检测模块用于基于浊音判断的方法提取信号的第二特征矢量，并根据第二特征矢量计算信号的第二语音存在概率。

特征融合模块用于将第一特征矢量和第二特征矢量融合为联合特征矢量。

H0：静音或噪声；

H1：语音。

S：静音或噪声；

V：浊音；

U：清音。

这里，H0＝{S}，H1＝{V,U}。

概率计算模块用于根据联合特征矢量、第一语音存在概率和第二语音存在概率计算似然比。

具体而言就是根据联合特征矢量、第一语音存在概率和第二语音存在概率计算语音的存在概率p，即

p＝P(H1|X) (1)

第一特征矢量对应的第一语音存在概率为p1，

p₁＝P(H1|X1) (2)

第二特征矢量对应的第二语音存在概率为p2，

p₂＝P(V|X2) (3)

π₀+π₁＝1 (4)

π_v+π_u＝1 (5)

将上述似然比归一化，

P(V|X2)+P(U|X2)+P(S|X2)＝1 (6)

P(V|X1)+P(U|X1)+P(S|X1)＝1 (7)

利用公式(3)(5)(6)，可以得到，

利用公式(2)(4)(7)，可以得到，

P(V|X1)＝π_vp₁ (10)

P(U|X1)＝π_up₁ (11)

P(S|X1)＝1-p₁ (12)

假设第一特征矢量X1，第二特征矢量X2统计独立，

P(H1|X1，X2)＝P(H1|X1)P(H1|X2) (13)

P(H0|X1，X2)＝P(H0|X1)P(H0|X2) (14)

联合公式(8)-(14)，最终得到，

根据上述公式的原理，可以最终得到语音点的似然比R。

S5、根据似然比对语音进行判断。

即根据似然比、即语音出现的概率对是否语音进行判断，具体是将该似然比与一个预设判断阈值Thr进行比较得到结果，该预设判断阈值是根据在实际判实施时根据所需判断精度进行选取的，这一阈值的取值范围是(0,1)，可根据经验调整。

当似然比R大于或等于该阈值时，VAD等于1，此时判定该语音信号为语音；相应的，如果似然比R小于该阈值，VAD等于0，此时判定该信号为静音或噪音，从而得到精确的检测结果。

从上述技术方案可以看出，本实施例提供了一种语音检测装置，该装置应用于语音信号处理、语音交互、IP电话等***，具体为在接收到信号时，基于能量或信噪比的方法提取信号的第一特征矢量和第一语音存在概率；同时，基于浊音判断的方法提取信号的第二特征矢量和第二语音存在概率；将第一特征矢量和第二特征矢量进行融合，得到联合特征矢量；根据联合特征矢量、第一语音存在概率和第二语音存在概率计算似然比；根据似然比对信号是否为语音进行判断。由于本发明的技术方案利用两种不同特征矢量在静音、浊音和清音三种状态下的对语音、静音分类的能力不同，将两者进行融合，从而使对语音的检测效果更好。

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

本领域内的技术人员应明白，本发明实施例的实施例可提供为方法、装置、或计算机程序产品。因此，本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明实施例是参照根据本发明实施例的方法、终端设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明实施例的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

以上对本发明所提供的技术方案进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种语音端点检测方法，其特征在于，包括步骤：

根据所述联合特征矢量、所述第一语音存在概率和所述第二语音存在概率计算语音的似然比；

根据所述似然比对所述信号是否语音进行判断。

2.如权利要求1所述的语音端点检测方法，其特征在于，所述似然比通过利用预设计算公式对语音信号的先验概率进行计算得到。

3.如权利要求1所述的语音端点检测方法，其特征在于，所述根据所述似然比对所述信号是否语音进行判断，包括：

当所述似然比小于所述预设判断阈值时，判定所述信号为静音或噪音。

4.一种语音端点检测装置，其特征在于，包括：

第二检测模块，用于基于浊音判断的方法提取语音信号的第二特征矢量，并根据所述第二特征矢量计算第二语音存在概率；

概率计算模块，用于根据所述联合特征矢量、所述第一语音存在概率和所述第二语音存在概率计算语音的似然比；

端点判断模块，用于根据所述似然比对所述信号是否语音进行判断。

5.如权利要求4所述的语音端点检测装置，其特征在于，所述似然比通过利用预设计算公式对所述信号的先验概率进行计算得到。

6.如权利要求4所述的语音端点检测装置，其特征在于，所述端点判断模块用于当所述似然比大于或等于预设判断阈值时，判定所述信号为语音，当所述似然比小于所述预设判断阈值时，判定所述信号为静音或噪音。