CN107527630A

CN107527630A - 语音端点检测方法、装置和计算机设备

Info

Publication number: CN107527630A
Application number: CN201710866643.8A
Authority: CN
Inventors: 孙占海; 钱胜
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Baidu Online Network Technology Beijing Co Ltd; Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2017-09-22
Filing date: 2017-09-22
Publication date: 2017-12-29
Anticipated expiration: 2037-09-22
Also published as: CN107527630B

Abstract

本申请提出一种语音端点检测方法、装置和计算机设备，其中，上述语音端点检测方法包括：通过DNNVAD对输入的音频信号进行检测；当在所述音频信号中未检测到语音信号时，通过EVAD在所述音频信号中每N帧计算一次平均能量值；如果当前计算的N帧的音频信号的平均能量值大于或等于第一阈值，则通过DNNVAD从当前N帧的起始帧开始对所述音频信号进行语音检测，确定所述音频信号中语音信号的端点。本申请可以实现通过EVAD对音频信号中声音的起点进行检测，提高语音端点检测的速度，降低功耗，并在检测到声音起点之后，通过DNNVAD对音频信号进行语音检测，确定上述音频信号中语音信号的端点，提高了语音端点检测的精度。

Description

语音端点检测方法、装置和计算机设备

技术领域

本申请涉及语音识别技术领域，尤其涉及一种语音端点检测方法、装置和计算机设备。

背景技术

在语音识别***中，输入的音频信号包括语音和背景噪声等，在输入信号中找到语音段，称为语音端点检测、起终点检测或语音活动性检测(Voice Activity Detection；以下简称：VAD)。简单地说就是要找出语音段的起点和终点，语音端点检测的准确与否，会直接影响到语音识别***的性能。

现有相关技术提供的语音端点检测的技术方案，存在语音端点检测不准确，以及计算量大、功耗大和处理速度慢的缺点，降低了语音识别***的性能。

发明内容

本申请旨在至少在一定程度上解决相关技术中的技术问题之一。

为此，本申请的第一个目的在于提出一种语音端点检测方法，以实现通过增强型语音活动检测(Enhanced Voice Activity Detection；以下简称：EVAD)对音频信号中声音的起点进行检测，提高语音端点检测的速度，降低功耗，并在检测到声音起点之后，通过深度神经网络语音活动检测(Deep Neural Networks Voice Activity Detection；以下简称：DNNVAD)对音频信号进行语音检测，确定上述音频信号中语音信号的端点，提高了语音端点检测的精度，进而可以提高语音识别***的性能。

本申请的第二个目的在于提出一种语音端点检测装置。

本申请的第三个目的在于提出一种计算机设备。

本申请的第四个目的在于提出一种非临时性计算机可读存储介质。

为达上述目的，本申请第一方面实施例提出一种语音端点检测方法，包括：通过深度神经网络语音活动检测对输入的音频信号进行检测；当在所述音频信号中未检测到语音信号时，通过增强型语音活动检测在所述音频信号中每N帧计算一次平均能量值，N为正整数；如果当前计算的N帧的音频信号的平均能量值大于或等于第一阈值，则通过深度神经网络语音活动检测从当前N帧的起始帧开始对所述音频信号进行语音检测，确定所述音频信号中语音信号的端点。

本申请实施例的语音端点检测方法中，通过DNNVAD对输入的音频信号进行检测，当在上述音频信号中未检测到语音信号时，通过EVAD在上述音频信号中每N帧计算一次平均能量值，如果当前计算的N帧的音频信号的平均能量值大于或等于第一阈值，则通过DNNVAD从当前N帧的起始帧开始对上述音频信号进行语音检测，确定上述音频信号中语音信号的端点，从而可以实现通过EVAD对音频信号中声音的起点进行检测，提高语音端点检测的速度，降低功耗，并在检测到声音起点之后，通过DNNVAD对音频信号进行语音检测，确定上述音频信号中语音信号的端点，提高了语音端点检测的精度，进而可以提高语音识别***的性能。

为达上述目的，本申请第二方面实施例提出了一种语音端点检测装置，包括：检测模块，用于通过深度神经网络语音活动检测对输入的音频信号进行检测；计算模块，用于当所述检测模块在所述音频信号中未检测到语音信号时，通过增强型语音活动检测在所述音频信号中每N帧计算一次平均能量值，N为正整数；所述检测模块，还用于在当前计算的N帧的音频信号的平均能量值大于或等于第一阈值时，通过深度神经网络语音活动检测从当前N帧的起始帧开始对所述音频信号进行语音检测，确定所述音频信号中语音信号的端点。

本申请实施例的语音端点检测装置中，检测模块通过DNNVAD对输入的音频信号进行检测，当在上述音频信号中未检测到语音信号时，计算模块通过EVAD在上述音频信号中每N帧计算一次平均能量值，如果当前计算的N帧的音频信号的平均能量值大于或等于第一阈值，则检测模块通过DNNVAD从当前N帧的起始帧开始对上述音频信号进行语音检测，确定上述音频信号中语音信号的端点，从而可以实现通过EVAD对音频信号中声音的起点进行检测，提高语音端点检测的速度，降低功耗，并在检测到声音起点之后，通过DNNVAD对音频信号进行语音检测，确定上述音频信号中语音信号的端点，提高了语音端点检测的精度，进而可以提高语音识别***的性能。

为达上述目的，本申请第三方面实施例提出了一种计算机设备，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时，实现如上所述的方法。

为达上述目的，本申请第四方面实施例提出了一种非临时性计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如上所述的方法。

本申请附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本申请的实践了解到。

附图说明

本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为本申请语音端点检测方法一个实施例的流程图；

图2为本申请语音端点检测方法另一个实施例的流程图；

图3为本申请语音端点检测方法再一个实施例的流程图；

图4为本申请语音端点检测装置一个实施例的结构示意图；

图5为本申请语音端点检测装置另一个实施例的结构示意图；

图6为本申请计算机设备一个实施例的结构示意图。

具体实施方式

下面详细描述本申请的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本申请，而不能理解为对本申请的限制。

图1为本申请语音端点检测方法一个实施例的流程图，如图1所示，上述语音端点检测方法可以包括：

步骤101，通过DNNVAD对输入的音频信号进行检测。

步骤102，当在上述音频信号中未检测到语音信号时，通过EVAD在上述音频信号中每N帧计算一次平均能量值。

其中，N为正整数，N的大小可以在具体实现时根据***性能和/或实现需求等自行设定，本实施例对上述N的大小不作限定，举例来说，N可以为1。当N为1时，上述平均能量值为能量值，即通过EVAD在上述音频信号中每一帧计算一次能量值。

步骤103，如果当前计算的N帧的音频信号的平均能量值大于或等于第一阈值，则通过DNNVAD从当前N帧的起始帧开始对上述音频信号进行语音检测，确定上述音频信号中语音信号的端点。

也就是说，本实施例中，当通过EVAD计算获得当前N帧的音频信号的平均能量值大于或等于第一阈值时，可以确定在当前N帧的音频信号中存在声音信号，实现了对上述音频信号中声音起点的检测，这时切换到DNNVAD，为了提高语音端点检测的准确性，在切换到DNNVAD之后，需要回溯一段音频信号，因此需要再次从当前N帧的起始帧开始对上述音频信号进行语音检测，确定上述音频信号中语音信号的端点。

上述语音端点检测方法中，通过DNNVAD对输入的音频信号进行检测，当在上述音频信号中未检测到语音信号时，通过EVAD在上述音频信号中每N帧计算一次平均能量值，如果当前计算的N帧的音频信号的平均能量值大于或等于第一阈值，则通过DNNVAD从当前N帧的起始帧开始对上述音频信号进行语音检测，确定上述音频信号中语音信号的端点，从而可以实现通过EVAD对音频信号中声音的起点进行检测，提高语音端点检测的速度，降低功耗，并在检测到声音起点之后，通过DNNVAD对音频信号进行语音检测，确定上述音频信号中语音信号的端点，提高了语音端点检测的精度，进而可以提高语音识别***的性能。

图2为本申请语音端点检测方法另一个实施例的流程图，如图2所示，本申请图1所示实施例中，步骤102之前，还可以包括：

步骤201，当在上述音频信号中未检测到语音信号时，通过DNNVAD计算上述音频信号中当前帧的音频信号的能量值。

则步骤102可以为：

步骤202，如果上述当前帧的音频信号的能量值小于或等于第二阈值，则通过EVAD在所述音频信号中每N帧计算一次平均能量值。

其中，上述第二阈值可以在具体实现时，根据***性能和/或实现需求等自行设定，本实施例对上述第二阈值的大小不作限定。

也就是说，本实施例中，如果通过DNNVAD在上述音频信号中未检测到语音信号，则DNNVAD先计算一下当前帧的音频信号的能量值，如果当前帧的音频信号的能量值小于或等于第二阈值，则可以确定上述音频信号当前帧处于相对静音的状态，这时可以切换到EVAD进行声音起点的检测，提高语音端点检测的速度，降低功耗。

图3为本申请语音端点检测方法再一个实施例的流程图，如图3所示，本申请图2所示实施例中，步骤202之前，还可以包括：

步骤301，如果上述当前帧的音频信号的能量值小于或等于第二阈值，计算上述音频信号中当前帧之前预定数量帧的音频信号的平均能量值。

其中，上述预定数量的大小可以在具体实现时，根据***性能和/或实现需求等自行设定，本实施例对上述预定数量的大小不作限定，举例来说，上述预定数量可以为10。

步骤302，根据上述预定数量帧的音频信号的平均能量值确定第一阈值。

具体地，可以将上述预定数量帧的音频信号的平均能量值与预定系数的乘积作为上述第一阈值，其中，上述预定系数可以在具体实现时，根据***性能和/或实现需求等自行设定，本实施例对上述预定系数的大小不作限定，举例来说，上述预定系数可以为1.2。

这时，步骤202为：

步骤303，通过EVAD在所述音频信号中每N帧计算一次平均能量值。

进一步地，本实施例中，步骤303之后，还可以包括：

步骤304，判断计算获得的N帧的平均能量值是否大于或等于上述第一阈值。如果是，则执行步骤103；如果否，即计算获得的N帧的平均能量值小于上述第一阈值，则返回执行步骤303。

也就是说，本实施例中，在切换到EVAD之后，需要回溯一段音频信号，通过EVAD计算当前帧之前预定数量帧的音频信号的平均能量值，然后根据上述预定数量帧的音频信号的平均能量值确定第一阈值，进而在通过EVAD在上述音频信号中每N帧计算一次平均能量值之后，判断计算获得的N帧的平均能量值是否大于或等于上述第一阈值，然后执行步骤103。

上述语音端点检测方法可以实现通过EVAD对音频信号中声音的起点进行检测，提高语音端点检测的速度，降低功耗，并在检测到声音起点之后，通过DNNVAD对音频信号进行语音检测，确定上述音频信号中语音信号的端点，提高了语音端点检测的精度，进而可以提高语音识别***的性能。

图4为本申请语音端点检测装置一个实施例的结构示意图，本申请实施例中的语音端点检测装置可以作为计算机设备，或者计算机设备的一部分实现本申请实施例提供的语音端点检测方法。

上述计算机设备可以为终端设备，也可以为服务器，本实施例对上述计算机设备的形态不作限定，其中，上述终端设备可以为智能手机、平板电脑、笔记本电脑或个人计算机(Personal Computer；以下简称：PC)等智能终端设备，本实施例对此不作限定。

如图4所示，上述语音端点检测装置可以包括：检测模块41和计算模块42；

其中，检测模块41，用于通过DNNVAD对输入的音频信号进行检测；

计算模块42，用于当检测模块41在上述音频信号中未检测到语音信号时，通过EVAD在上述音频信号中每N帧计算一次平均能量值，N为正整数；其中，N的大小可以在具体实现时根据***性能和/或实现需求等自行设定，本实施例对上述N的大小不作限定，举例来说，N可以为1。当N为1时，上述平均能量值为能量值，即通过EVAD在上述音频信号中每一帧计算一次能量值。

检测模块41，还用于在当前计算的N帧的音频信号的平均能量值大于或等于第一阈值时，通过DNNVAD从当前N帧的起始帧开始对上述音频信号进行语音检测，确定上述音频信号中语音信号的端点。

也就是说，本实施例中，当计算模块42通过EVAD计算获得当前N帧的音频信号的平均能量值大于或等于第一阈值时，可以确定在当前N帧的音频信号中存在声音信号，实现了对上述音频信号中声音起点的检测，这时切换到DNNVAD，为了提高语音端点检测的准确性，在切换到DNNVAD之后，需要回溯一段音频信号，因此检测模块41需要再次从当前N帧的起始帧开始对上述音频信号进行语音检测，确定上述音频信号中语音信号的端点。

上述语音端点检测装置中，检测模块41通过DNNVAD对输入的音频信号进行检测，当在上述音频信号中未检测到语音信号时，计算模块42通过EVAD在上述音频信号中每N帧计算一次平均能量值，如果当前计算的N帧的音频信号的平均能量值大于或等于第一阈值，则检测模块41通过DNNVAD从当前N帧的起始帧开始对上述音频信号进行语音检测，确定上述音频信号中语音信号的端点，从而可以实现通过EVAD对音频信号中声音的起点进行检测，提高语音端点检测的速度，降低功耗，并在检测到声音起点之后，通过DNNVAD对音频信号进行语音检测，确定上述音频信号中语音信号的端点，提高了语音端点检测的精度，进而可以提高语音识别***的性能。

图5为本申请语音端点检测装置另一个实施例的结构示意图，与图4所示的语音端点检测装置相比，不同之处在于，图5所示的语音端点检测装置中，检测模块41，还用于当在上述音频信号中未检测到语音信号时，通过DNNVAD计算上述音频信号中当前帧的音频信号的能量值；

本实施例中，计算模块42，具体用于当上述当前帧的音频信号的能量值小于或等于第二阈值时，通过EVAD在上述音频信号中每N帧计算一次平均能量值。

也就是说，本实施例中，如果通过DNNVAD在上述音频信号中未检测到语音信号，则检测模块41通过DNNVAD先计算一下当前帧的音频信号的能量值，如果当前帧的音频信号的能量值小于或等于第二阈值，则可以确定上述音频信号当前帧处于相对静音的状态，这时可以切换到EVAD进行声音起点的检测，提高语音端点检测的速度，降低功耗。

进一步地，上述语音端点检测装置还可以包括：确定模块43；

计算模块42，还用于在通过EVAD在上述音频信号中每N帧计算一次平均能量值之前，计算上述音频信号中当前帧之前预定数量帧的音频信号的平均能量值；其中，上述预定数量的大小可以在具体实现时，根据***性能和/或实现需求等自行设定，本实施例对上述预定数量的大小不作限定，举例来说，上述预定数量可以为10。

确定模块43，用于根据计算模块42计算的预定数量帧的音频信号的平均能量值确定第一阈值。具体地，确定模块43可以将上述预定数量帧的音频信号的平均能量值与预定系数的乘积作为上述第一阈值，其中，上述预定系数可以在具体实现时，根据***性能和/或实现需求等自行设定，本实施例对上述预定系数的大小不作限定，举例来说，上述预定系数可以为1.2。

进一步地，上述语音端点检测装置还可以包括：判断模块44；

判断模块44，用于在计算模块42通过EVAD在上述音频信号中每N帧计算一次平均能量值之后，判断计算获得的N帧的平均能量值是否大于或等于上述第一阈值。

也就是说，本实施例中，在切换到EVAD之后，需要回溯一段音频信号，计算模块42通过EVAD计算当前帧之前预定数量帧的音频信号的平均能量值，然后确定模块43根据上述预定数量帧的音频信号的平均能量值确定第一阈值，进而在计算模块42通过EVAD在上述音频信号中每N帧计算一次平均能量值之后，判断模块44判断计算获得的N帧的平均能量值是否大于或等于上述第一阈值，然后在当前计算的N帧的音频信号的平均能量值大于或等于第一阈值时，检测模块41通过DNNVAD从当前N帧的起始帧开始对上述音频信号进行语音检测，确定上述音频信号中语音信号的端点。

上述语音端点检测装置可以实现通过EVAD对音频信号中声音的起点进行检测，提高语音端点检测的速度，降低功耗，并在检测到声音起点之后，通过DNNVAD对音频信号进行语音检测，确定上述音频信号中语音信号的端点，提高了语音端点检测的精度，进而可以提高语音识别***的性能。

图6为本申请计算机设备一个实施例的结构示意图，如图6所示，上述计算机设备可以包括存储器、处理器及存储在上述存储器上并可在上述处理器上运行的计算机程序，上述处理器执行上述计算机程序时，可以实现本申请实施例提供的语音端点检测方法。

其中，上述计算机设备可以为终端设备，也可以为服务器，本实施例对上述计算机设备的形态不作限定，其中，上述终端设备可以为智能手机、平板电脑、笔记本电脑或PC等智能终端设备，本实施例对此不作限定。

图6示出了适于用来实现本申请实施方式的示例性计算机设备12的框图。图6显示的计算机设备12仅仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

如图6所示，计算机设备12以通用计算设备的形式表现。计算机设备12的组件可以包括但不限于：一个或者多个处理器或者处理单元16，***存储器28，连接不同***组件(包括***存储器28和处理单元16)的总线18。

总线18表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器，***总线，图形加速端口，处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说，这些体系结构包括但不限于工业标准体系结构(Industry StandardArchitecture；以下简称：ISA)总线，微通道体系结构(Micro Channel Architecture；以下简称：MAC)总线，增强型ISA总线、视频电子标准协会(Video Electronics StandardsAssociation；以下简称：VESA)局域总线以及***组件互连(Peripheral ComponentInterconnection；以下简称：PCI)总线。

计算机设备12典型地包括多种计算机***可读介质。这些介质可以是任何能够被计算机设备12访问的可用介质，包括易失性和非易失性介质，可移动的和不可移动的介质。

***存储器28可以包括易失性存储器形式的计算机***可读介质，例如随机存取存储器(Random Access Memory；以下简称：RAM)30和/或高速缓存存储器32。计算机设备12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机***存储介质。仅作为举例，存储***34可以用于读写不可移动的、非易失性磁介质(图6未显示，通常称为“硬盘驱动器”)。尽管图6中未示出，可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器，以及对可移动非易失性光盘(例如：光盘只读存储器(Compact Disc Read OnlyMemory；以下简称：CD-ROM)、数字多功能只读光盘(Digital Video Disc Read OnlyMemory；以下简称：DVD-ROM)或者其它光介质)读写的光盘驱动器。在这些情况下，每个驱动器可以通过一个或者多个数据介质接口与总线18相连。存储器28可以包括至少一个程序产品，该程序产品具有一组(例如至少一个)程序模块，这些程序模块被配置以执行本申请各实施例的功能。

具有一组(至少一个)程序模块42的程序/实用工具40，可以存储在例如存储器28中，这样的程序模块42包括——但不限于——操作***、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本申请所描述的实施例中的功能和/或方法。

计算机设备12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信，还可与一个或者多个使得用户能与该计算机设备12交互的设备通信，和/或与使得该计算机设备12能与一个或多个其它计算设备进行通信的任何设备(例如网卡，调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22进行。并且，计算机设备12还可以通过网络适配器20与一个或者多个网络(例如局域网(Local Area Network；以下简称：LAN)，广域网(Wide Area Network；以下简称：WAN)和/或公共网络，例如因特网)通信。如图6所示，网络适配器20通过总线18与计算机设备12的其它模块通信。应当明白，尽管图6中未示出，可以结合计算机设备12使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID***、磁带驱动器以及数据备份存储***等。

处理单元16通过运行存储在***存储器28中的程序，从而执行各种功能应用以及数据处理，例如实现本申请实施例提供的语音端点检测方法。

本申请还提供一种非临时性计算机可读存储介质，其上存储有计算机程序，上述计算机程序被处理器执行时实现本申请实施例提供的语音端点检测方法。

上述非临时性计算机可读存储介质可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的***、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(Read Only Memory；以下简称：ROM)、可擦式可编程只读存储器(ErasableProgrammable Read Only Memory；以下简称：EPROM)或闪存、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行***、装置或者器件使用或者与其结合使用。

计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括——但不限于——电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行***、装置或者器件使用或者与其结合使用的程序。

计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括——但不限于——无线、电线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本申请操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LocalArea Network；以下简称：LAN)或广域网(Wide Area Network；以下简称：WAN)连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本申请的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本申请的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本申请的实施例所属技术领域的技术人员所理解。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行***、装置或设备(如基于计算机的***、包括处理器的***或其他可以从指令执行***、装置或设备取指令并执行指令的***)使用，或结合这些指令执行***、装置或设备而使用。就本说明书而言，“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行***、装置或设备或结合这些指令执行***、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(Random AccessMemory；以下简称：RAM)，只读存储器(Read Only Memory；以下简称：ROM)，可擦除可编辑只读存储器(Erasable Programmable Read Only Memory；以下简称：EPROM)或闪速存储器，光纤装置，以及便携式光盘只读存储器(Compact Disc Read Only Memory；以下简称：CD-ROM)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行***执行的软件或固件来实现。如，如果用硬件来实现和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(ProgrammableGate Array；以下简称：PGA)，现场可编程门阵列(Field Programmable Gate Array；以下简称：FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本申请各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。尽管上面已经示出和描述了本申请的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本申请的限制，本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种语音端点检测方法，其特征在于，包括：

通过深度神经网络语音活动检测对输入的音频信号进行检测；

当在所述音频信号中未检测到语音信号时，通过增强型语音活动检测在所述音频信号中每N帧计算一次平均能量值，N为正整数；

如果当前计算的N帧的音频信号的平均能量值大于或等于第一阈值，则通过深度神经网络语音活动检测从当前N帧的起始帧开始对所述音频信号进行语音检测，确定所述音频信号中语音信号的端点。

2.根据权利要求1所述的方法，其特征在于，所述通过增强型语音活动检测在所述音频信号中每N帧计算一次平均能量值之前，还包括：

当在所述音频信号中未检测到语音信号时，通过深度神经网络语音活动检测计算所述音频信号中当前帧的音频信号的能量值；

所述通过增强型语音活动检测在所述音频信号中每N帧计算一次平均能量值包括：

如果所述当前帧的音频信号的能量值小于或等于第二阈值，则通过增强型语音活动检测在所述音频信号中每N帧计算一次平均能量值。

3.根据权利要求2所述的方法，其特征在于，所述如果所述当前帧的音频信号的能量值小于或等于第二阈值，则通过增强型语音活动检测在所述音频信号中每N帧计算一次平均能量值之前，还包括：

计算所述音频信号中当前帧之前预定数量帧的音频信号的平均能量值；

根据所述预定数量帧的音频信号的平均能量值确定第一阈值。

4.根据权利要求3所述的方法，其特征在于，所述通过增强型语音活动检测在所述音频信号中每N帧计算一次平均能量值之后，还包括：

判断计算获得的N帧的平均能量值是否大于或等于所述第一阈值。

5.一种语音端点检测装置，其特征在于，包括：

检测模块，用于通过深度神经网络语音活动检测对输入的音频信号进行检测；

计算模块，用于当所述检测模块在所述音频信号中未检测到语音信号时，通过增强型语音活动检测在所述音频信号中每N帧计算一次平均能量值，N为正整数；

所述检测模块，还用于在当前计算的N帧的音频信号的平均能量值大于或等于第一阈值时，通过深度神经网络语音活动检测从当前N帧的起始帧开始对所述音频信号进行语音检测，确定所述音频信号中语音信号的端点。

6.根据权利要求5所述的装置，其特征在于，

所述检测模块，还用于当在所述音频信号中未检测到语音信号时，通过深度神经网络语音活动检测计算所述音频信号中当前帧的音频信号的能量值；

所述计算模块，具体用于当所述当前帧的音频信号的能量值小于或等于第二阈值时，通过增强型语音活动检测在所述音频信号中每N帧计算一次平均能量值。

7.根据权利要求6所述的装置，其特征在于，还包括：确定模块；

所述计算模块，还用于在通过增强型语音活动检测在所述音频信号中每N帧计算一次平均能量值之前，计算所述音频信号中当前帧之前预定数量帧的音频信号的平均能量值；

所述确定模块，用于根据所述计算模块计算的预定数量帧的音频信号的平均能量值确定第一阈值。

8.根据权利要求7所述的装置，其特征在于，还包括：

判断模块，用于在所述计算模块通过增强型语音活动检测在所述音频信号中每N帧计算一次平均能量值之后，判断计算获得的N帧的平均能量值是否大于或等于所述第一阈值。

9.一种计算机设备，其特征在于，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时，实现如权利要求1-4中任一所述的方法。

10.一种非临时性计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1-4中任一所述的方法。