CN111354378B

CN111354378B - 语音端点检测方法、装置、设备及计算机存储介质

Info

Publication number: CN111354378B
Application number: CN202010089292.6A
Authority: CN
Inventors: 邱广; 冯大航; 陈孝良; 常乐
Original assignee: Beijing SoundAI Technology Co Ltd
Current assignee: Beijing SoundAI Technology Co Ltd
Priority date: 2020-02-12
Filing date: 2020-02-12
Publication date: 2020-11-24
Anticipated expiration: 2040-02-12
Also published as: CN111354378A

Abstract

本申请公开了一种语音端点检测方法、装置、设备及计算机存储介质，属于语音端点检测技术领域。所述方法包括：对音频信号进行处理，得到所述音频信号的频谱图；将所述频谱图输入目标检测模型，所述目标检测模型用于检测所述频谱图中的有效语音部分；获取所述目标检测模型输出的所述频谱图中有效语音部分的起始位置和终止位置。解决了相关技术中语音端点检测方法难以准确判断一段音频信号中是否存在有效语音部分的问题。达到了提高语音端点检测方法准确性的效果。

Description

语音端点检测方法、装置、设备及计算机存储介质

技术领域

本申请涉及语音端点检测技术领域，特别涉及一种语音端点检测方法、装置、设备及计算机存储介质。

背景技术

语音端点检测(Voice Activity Detection，VAD)是一种用于检测音频信号中有效语音部分的起始位置以及终止位置的方法，是语音增强、语音识别等技术的预处理步骤，有效语音部分是音频信号中有人说话的部分。

相关技术中一种语音端点检测方法，使用能量阈值判断一段音频信号中是否存在有效语音部分，音频信号的能量是背景噪声的能量与有效语音部分的能量的和，当音频信号的能量大于某一预设的阈值，即可认为该段音频信号中存在有效语音部分，进而获取有效语音部分的开始位置与结束位置。

但是，在信噪比较低时，这种语音端点检测方法难以准确判断一段音频信号中是否存在有效语音部分。

发明内容

本申请实施例提供了一种语音端点检测方法、装置、设备及计算机存储介质，能够解决相关技术中在信噪比较低时，语音端点检测方法难以准确判断一段音频信号中是否存在有效语音部分的问题。所述技术方案如下：

根据本申请的第一方面，提供了一种语音端点检测方法，所述语音端点检测方法包括：

对音频信号进行处理，得到所述音频信号的频谱图；

将所述频谱图输入目标检测模型，所述目标检测模型用于检测所述频谱图中的有效语音部分；

获取所述目标检测模型输出的所述频谱图中有效语音部分的起始位置和终止位置。

可选的，所述将所述频谱图输入目标检测模型之前，包括：

获取初始目标检测模型；

获取训练数据，所述训练数据包括样本频谱图，所述样本频谱图具有多个先验框以及与所述多个先验框一一对应的损失函数，所述多个先验框包括多个正样本和多个负样本，所述正样本为有效语音部分大于阈值的先验框，所述负样本为有效语音部分不大于所述阈值的先验框；

根据所述训练数据对所述初始目标检测模型进行训练，得到所述目标检测模型。

可选的，所述获取训练数据，包括：

获取所述样本频谱图，所述样本频谱图具有多个先验框；

根据损失函数公式确定与所述多个先验框一一对应的损失函数，所述损失函数公式包括：

L(x，c，l，g)＝(L_conf(x，c)/N+αL_loc(x，l，g))；

所述L为所述损失函数，所述L_loc为位置误差函数，所述L_conf为置信度误差函数，所述cx为每个先验框、边界框以及有效语音部分的中心坐标在时间轴上的数值，每个所述边界框为所述初始目标检测模型对每个所述先验框经过变换之后得到的框，所述w为每个先验框、边界框以及有效语音部分在所述时间轴的方向上的宽度，所述i表示所述多个先验框中的第i个先验框，所述j为所述样本频谱图中第j个有效语音部分，所述N为所述先验框的正样本数，所述α为指定参数，所述p为有效语音部分，当第i个先验框与第j个有效语音部分匹配时

不匹配时

所述c为先验框属于有效语音部分的置信度，所述

表示第i个先验框属于有效语音部分的置信度，所述

表示第i个先验框属于有效语音部分的预测置信度，所述

表示第i个先验框不属于有效语音部分的预测置信度，所述Pos为正样本先验框，所述Neg为负样本先验框，所述m为(cx，w)中的任意一个值，所述l为边界框的位置预测值，所述

为第i个先验框所对应边界框的位置预测值，所述g为所述有效语音部分的位置参数，所述

表示第j个有效语音部分中心坐标在时间轴上的数值，所述

表示第j个有效语音部分在所述时间轴的方向上的宽度，所述

表示第j个有效语音部分中心坐标在时间轴上的预测值，所述

表示第j个有效语音部分在所述时间轴的方向上的预测宽度，所述

表示第i个先验框中心坐标在时间轴上的数值，所述

表示第i个先验框在所述时间轴的方向上的宽度。

可选的，所述获取所述目标检测模型输出的所述频谱图中有效语音部分的起始位置和终止位置之后，包括：

将所述有效语音部分的起始位置以及终止位置转换为时域上的位置。

可选的，所述对音频信号进行处理，得到所述音频信号的频谱图，包括：

对所述音频信号进行短时傅里叶变换，得到所述音频信号的频谱图。

可选的，所述目标检测模型包括单发多框检测器。

另一方面，提供了一种语音端点检测装置，所述语音端点检测装置包括：

处理模块，用于对音频信号进行处理，得到所述音频信号的频谱图；

输入模块，用于将所述频谱图输入目标检测模型，所述目标检测模型用于检测所述频谱图中的有效语音部分；

获取模块，用于获取所述目标检测模型输出的所述频谱图中有效语音部分的起始位置和终止位置。

可选的，所述语音端点检测装置还包括：

初始模型获取模块，用于获取初始目标检测模型；

训练数据获取模块，用于获取训练数据，所述训练数据包括样本频谱图，所述样本频谱图具有多个先验框以及与所述多个先验框一一对应的损失函数，所述多个先验框包括多个正样本和多个负样本，所述正样本为有效语音部分大于阈值的先验框，所述负样本为有效语音部分不大于所述阈值的先验框；

训练模块，用于根据所述训练数据对所述初始目标检测模型进行训练，得到所述目标检测模型。

又一方面，提供了一种语音端点检测设备，其特征在于，所述语音端点检测设备包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如第一方面所述的语音端点检测方法。

再一方面，提供了一种计算机存储介质，其特征在于，所述计算机存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如第一方面所述的语音端点检测方法。

本申请实施例提供的技术方案带来的有益效果至少包括：

提供了一种语音端点检测方法，该方法通过对音频信号进行处理，得到音频信号的频谱图，将频谱图输入目标检测模型，目标检测模型用于检测频谱图中的有效语音部分，获取目标检测模型输出的频谱图中有效语音的起始位置和终止位置，将音频信号的频谱图输入目标检测模型以获取频谱图中有效语音的起始位置与终止位置，可以在信噪比较低时较为准确地获取频谱图中有效语音的起始位置与终止位置。解决了相关技术中语音端点检测方法难以准确判断一段音频信号中是否存在有效语音部分的问题。达到了提高语音端点检测方法准确性的效果。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的语音端点检测方法的实施环境的示意图；

图2是本申请实施例提供的一种语音端点检测方法的流程图；

图3是本申请实施例提供的另一种语音端点检测方法的流程图；

图4是图3所示获取训练数据的示意图；

图5是本申请实施例提供的一种语音端点检测装置；

图6是本申请实施例提供的另一种语音端点检测装置；

图7是本申请实施例提供的一种语音端点检测设备的结构示意图。

通过上述附图，已示出本申请明确的实施例，后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本申请构思的范围，而是通过参考特定实施例为本领域技术人员说明本申请的概念。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

目前，在一种语音端点检测方法中，使用能量阈值判断一段音频信号中是否存在有效语音部分，音频信号的能量是背景噪声的能量与有效语音部分的能量的和，当音频信号的能量大于某一预设的阈值，即可认为该段音频信号中存在有效语音部分，进而获取有效语音部分的开始位置与结束位置。

本申请实施例提供了一种语音端点检测方法、装置、设备及计算机存储介质。

图1是本申请实施例提供的语音端点检测方法的实施环境的示意图，该实施环境可以包括服务器11以及终端12。

服务器11可以为一个服务器或服务器集群。

终端12可以为手机、平板电脑、笔记本电脑、智能可穿戴设备等各种终端。终端12可以通过有线或无线的方式(图1示出的是以无线的方式进行连接的情况)与服务器连接。

图2是本申请实施例提供的一种语音端点检测方法的流程图。该语音端点检测方法可以应用于上述实施环境的终端或服务器中。该语音端点检测方法可以包括：

步骤201，对音频信号进行处理，得到音频信号的频谱图。

步骤202，将频谱图输入目标检测模型，目标检测模型用于检测频谱图中的有效语音部分。

步骤203，获取目标检测模型输出的频谱图中有效语音部分的起始位置和终止位置。

综上所述，本申请实施例提供了一种语音端点检测方法，该方法通过对音频信号进行处理，得到音频信号的频谱图，将频谱图输入目标检测模型，目标检测模型用于检测频谱图中的有效语音部分，获取目标检测模型输出的频谱图中有效语音的起始位置和终止位置，将音频信号的频谱图输入目标检测模型以获取频谱图中有效语音的起始位置与终止位置，可以在信噪比较低时较为准确地获取频谱图中有效语音的起始位置与终止位置。解决了相关技术中语音端点检测方法难以准确判断一段音频信号中是否存在有效语音部分的问题。达到了提高语音端点检测方法准确性的效果。

图3是本申请实施例提供的另一种语音端点检测方法的流程图，该语音端点检测方法可以应用于上述实施环境的终端或服务器中，本申请实施例提供的语音端点检测方法可以作为语音识别以及语音增强等处理器的前置处理方法。参考图3可以看出，该语音端点检测方法可以包括：

步骤301，获取初始目标检测模型。

目标检测模型可以包括单发多框检测器(Single Shot MultiBox Detector，SSD)，循环神经网络(Recurrent Neural Network，RNN)以及一次检测模型(You Only LookOnce，YOLO)。SSD模型与其他的目标检测模型(例如YOLO模型)相比，SSD模型的检测精度较高，检测速度较快。

SSD模型直接在视觉几何组(Visual Geometry Group，VGG)16模型的基础上修改得到。SSD首先使用2个卷积层替换VGG16模型的最后2个全连接层，然后在VGG16网络的后面增加4个卷积层。为了检测频谱图中的有效语音部分，SSD模型分别使用两个卷积核为3×3的卷积层对其中5个卷积层的输出进行卷积。其中一个卷积层输出有效语音部分作为类别预测结果(也即是有效语音部分)，另一个卷积层输出包含回归时的目标位置作为位置预测结果(也即是有效语音部分的起始位置与终止位置)。SSD的核心是结合回归思想使用一系列检测器来预测频谱图中的有效语音部分以及有效语音部分的位置。主要从两个方面实现快速高检测精度的目标检测效果，一是对不同尺寸的卷积层输出进行回归，二是通过增加检测器的宽高比来检测不同形状的目标。

步骤302，获取训练数据。

该训练数据可以包括样本频谱图，样本频谱图具有多个先验框以及与多个先验框一一对应的损失函数，多个先验框包括多个正样本和多个负样本，正样本为有效语音部分大于阈值的先验框，负样本为有效语音部分不大于阈值的先验框。

频谱图可以将声音频率与能量的关系用频谱表示。因此，使用目标检测模型可以在信噪比较低时，较为准确地获取频谱图中有效语音的起始位置与终止位置。

可以预先对样本频谱图进行处理，也即是对样本频谱图中的有效语音部分进行人工标记(标记可以对有效语音部分画边框，并标记该边框所包括的部分为有效语音部分)，可以使训练完成的SSD模型识别出频谱图中的有效语音部分。

样本频谱图可以包括多个有效语音部分以及不存在有效语音的部分，初始目标检测模型可以对频谱图生成遍布该频谱图的多个先验框，可以设置阈值(例如0.5)，当先验框与有效语音部分的匹配值大于该阈值时，可以将大于该阈值的先验框与有效语音部分匹配，与有效语音部分匹配的先验框为正样本，反之则为负样本。多个先验框可以与一个有效语音部分匹配，但一个先验框不能与多个有效语音部分匹配，若一个先验框与多个有效语音部分的匹配值均大于阈值，则该先验框与匹配值最大的有效语音部分匹配。

在本申请实施例中，先验框的宽度与中心坐标在频率轴上的数值是固定值，可以根据频谱图的宽度进行设置。

如图4所示，其为图3所示步骤302中获取训练数据的示意图：

步骤3021，获取样本频谱图，样本频谱图具有多个先验框。

步骤3022，根据损失函数公式确定与多个先验框一一对应的损失函数。

损失函数公式包括：

L(x，c，l，g)＝(L_conf(x，c)/N+αL_loc(x，l，g))；

L为损失函数，L_loc为位置误差函数，L_conf为置信度误差函数，cx为每个先验框、边界框以及有效语音部分的中心坐标在时间轴上的数值，每个边界框为初始目标检测模型对每个先验框经过变换之后得到的框，w为每个先验框、边界框以及有效语音部分在时间轴的方向上的宽度，i表示多个先验框中的第i个先验框，j为样本频谱图中第j个有效语音部分，N为先验框的正样本数，α为指定参数(可以根据实际需要进行设置，例如可以将α设置为1)，p为有效语音部分，当第i个先验框与第j个有效语音部分匹配时

不匹配时

c为先验框属于有效语音部分的置信度，

表示第i个先验框属于有效语音部分的置信度，

表示第i个先验框属于有效语音部分的预测置信度，

表示第i个先验框不属于有效语音部分的预测置信度，Pos为正样本先验框，Neg为负样本先验框，m为(cx，w)中的任意一个值，l为边界框的位置预测值，

第i个先验框所对应边界框的位置预测值，g为有效语音部分的位置参数，

表示第j个有效语音部分中心坐标在时间轴上的数值，

表示第j个有效语音部分在时间轴的方向上的宽度，

表示第j个有效语音部分中心坐标在时间轴上的预测值，

表示第j个有效语音部分在时间轴的方向上的预测宽度，

表示第i个先验框中心坐标在时间轴上的数值，

表示第i个先验框在时间轴的方向上的宽度。

本申请实施例在确定有效语音部分在时间轴上的起始位置和终止位置时，由于先验框、边界框以及有效语音部分的在频率轴方向上的高度是根据频谱图预先设置的固定值，相应的先验框、边界框以及有效语音部分的中心坐标在频率轴上的数值也是固定值。因此，在训练初始SSD模型以及使用训练完成的SSD模型时，可以不考虑先验框、边界框以及有效语音部分的在频率轴方向上的高度和它们的中心坐标在频率轴上的数值，进而减少了训练初始SSD模型时的参数，减少了训练初始SSD模型的时间以及获取SSD模型的输出的时间。

每个先验框均对应一个边界框，SSD模型可以将与有效语音部分匹配的先验框经过缩放以及平移变为边界框，边界框中的部分为有效语音部分。

在本申请实施例中，根据具有多个先验框的样本频谱图训练初始SSD模型，训练并修正初始SSD模型的内部参数，得到SSD模型，可以在后续使用SSD模型时较为准确地识别出有效语音部分。

步骤303，根据训练数据对初始目标检测模型进行训练，得到目标检测模型。

根据具有多个先验框以及与多个先验框一一对应的损失函数的样本频谱图训练初始SSD模型。

由于在使用本申请实施例提供的SSD模型时，先验框的宽度与中心坐标在频率轴上的数值是固定值，因此可以减少训练SSD模型的时间，且在使用训练完成的SSD模型时，也可以减小得到SSD模型输出的时间。

步骤301至步骤303为训练目标检测模型的步骤，这些步骤可以由服务器或终端执行，本申请实施例对此并不进行限制。后续步骤可以为训练完成的目标检测模型的使用步骤。

步骤304，对音频信号进行处理，得到音频信号的频谱图。

可以对音频信号进行短时傅里叶变换，得到音频信号的频谱图。该音频信号可以是待确定有效语音部分的音频信号。

其中，短时傅里叶变换是一种数学变换，可以确定音频信号其局部区域正弦波的频率与相位。

步骤305，将频谱图输入目标检测模型。目标检测模型用于检测频谱图中的有效语音部分。

终端(或服务器)可以将频谱图输入训练完成的SSD模型。使用本申请实施例提供的SSD模型可以较为准确地获取有效语音部分的起始位置与终止位置，且获取SSD模型的输出的时间较短。目标检测模型在检测有效语音部分时受背景噪声的影响较小，可以提高有效语音部分的检测准确率。

步骤306，获取目标检测模型输出的频谱图中有效语音部分的起始位置和终止位置。

终端(或服务器)可以获取SSD模型输出的频谱图中有效语音部分的起始位置和终止位置，频谱图中有效语音部分的起始位置与终止位置为频域上的位置。

步骤307，将有效语音部分的起始位置以及终止位置转换为时域上的位置。

终端(或服务器)可以将频域上的有效语音部分的起始位置以及终止位置转换为时域上的位置，上述时域上的位置也即是有效语音部分的开始时间以及结束时间。

在得到有效语音部分的开始时间以及结束时间之后，可以针对有效语音部分进行语音增强、语音识别以及语音合成等操作。

在一个示例性实施例中，先获取初始SSD模型，并获取样本频谱图，标记样本频谱图中的有效语音部分，将样本频谱图输入初始SSD模型，初始SSD模型根据样本频谱图的长宽比生成遍布样本频谱图的多个先验框，且多个先验框在频率轴的方向上的高度相同，根据损失函数公式确定与多个先验框一一对应的损失函数，根据具有多个先验框以及与多个先验框一一对应的损失函数的样本频谱图训练初始SSD模型。由于多个先验框在频率轴的方向上的高度相同，也即是多个先验框的中心坐标在频率轴上的数值是一个固定值，因此，在训练训练初始SSD模型时可以减少参数，并减少训练初始SSD模型的时间。

在应用训练完成的SSD模型时，终端可以获取音频信号经过短时傅里叶变换得到的频谱图，并将该频谱图输入训练完成的SSD模型，得到SSD模型输出的有效语音部分的起始位置以及终止位置，该起始位置以及终止位置为频域上的位置，终端可以将上述位置转为时域上的位置，也即是转换为音频信号中有效语音部分的开始时间以及结束时间。

图5是本申请实施例提供的一种语音端点检测装置。参考图5可以看出，该语音端点检测装置500可以包括：

处理模块501，用于对音频信号进行处理，得到音频信号的频谱图。

输入模块502，用于将频谱图输入目标检测模型，目标检测模型用于检测频谱图中的有效语音部分。

获取模块503，用于获取目标检测模型输出的频谱图中有效语音部分的起始位置和终止位置。

综上所述，本申请实施例提供了一种语音端点检测装置，该装置通过对音频信号进行处理，得到音频信号的频谱图，将频谱图输入目标检测模型，目标检测模型用于检测频谱图中的有效语音部分，获取目标检测模型输出的频谱图中有效语音的起始位置和终止位置，将音频信号的频谱图输入目标检测模型以获取频谱图中有效语音的起始位置与终止位置，可以在信噪比较低时较为准确地获取频谱图中有效语音的起始位置与终止位置。解决了相关技术中语音端点检测方法难以准确判断一段音频信号中是否存在有效语音部分的问题。达到了提高语音端点检测方法准确性的效果。

图6是本申请实施例提供的另一种语音端点检测装置。参考图6可以看出，该语音端点检测装置600可以包括：

初始模型获取模块601，用于获取初始目标检测模型。

训练数据获取模块602，用于获取训练数据，训练数据包括样本频谱图，样本频谱图具有多个先验框以及与多个先验框一一对应的损失函数，多个先验框包括多个正样本和多个负样本，正样本为有效语音部分大于阈值的先验框，负样本为有效语音部分不大于阈值的先验框。

训练模块603，用于根据训练数据对初始目标检测模型进行训练，得到目标检测模型。

处理模块604，用于对音频信号进行处理，得到音频信号的频谱图。

输入模块605，用于将频谱图输入目标检测模型，目标检测模型用于检测频谱图中的有效语音部分。

获取模块606，用于获取目标检测模型输出的频谱图中有效语音部分的起始位置和终止位置。

图7是本申请实施例提供的一种语音端点检测设备的结构示意图。该语音端点检测设备700可以是：计算机、平板电脑、智能手机、车载导航仪、多媒体播放器或者可穿戴式设备等。语音端点检测设备700还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。

通常，语音端点检测设备700包括有：处理器701和存储器702。

处理器701可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器701可以采用数字信号处理(digital signal processing，DSP)、现场可编程门阵列(field-programmable gate array，FPGA)、可编程逻辑阵列(programmable logic array，PLA)中的至少一种硬件形式来实现。处理器701也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称中央处理器(central processingunit，CPU)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器701可以在集成有图像处理器(graphics processing unit，GPU)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器701还可以包括人工智能(artificial intelligence，AI)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器702可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器702还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器702中的非暂态的计算机可读存储介质用于存储至少一个指令，该至少一个指令用于被处理器701所执行以实现本申请中方法实施例提供的语音端点检测方法。

在一些实施例中，语音端点检测设备700还可选包括有：***设备接口703和至少一个***设备。处理器701、存储器702和***设备接口703之间可以通过总线或信号线相连。各个***设备可以通过总线、信号线或电路板与***设备接口703相连。具体地，***设备包括：射频电路504、触摸显示屏705、摄像头706、音频电路707、定位组件708和电源709中的至少一种。

***设备接口703可被用于将输入/输出(input/output，I/O)相关的至少一个***设备连接到处理器701和存储器702。在一些实施例中，处理器701、存储器702和***设备接口703被集成在同一芯片或电路板上；在一些其他实施例中，处理器701、存储器702和***设备接口703中的任意一个或两个可以在单独的芯片或电路板上实现，本实施例对此不加以限定。

射频电路704用于接收和发射射频(radio frequency，RF)信号，也称电磁信号。射频电路704通过电磁信号与通信网络以及其他通信设备进行通信。射频电路704将电信号转换为电磁信号进行发送，或者，将接收到的电磁信号转换为电信号。可选地，射频电路704包括：天线***、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路704可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于：城域网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或无线保真(wireless fidelity，WiFi)网络。在一些实施例中，射频电路704还可以包括近距离无线通信(near field communication，NFC)有关的电路，本申请对此不加以限定。

显示屏705用于显示用户界面(user interface，UI)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏705是触摸显示屏时，显示屏705还具有采集在显示屏705的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器701进行处理。此时，显示屏705还可以用于提供虚拟按钮和/或虚拟键盘，也称软按钮和/或软键盘。在一些实施例中，显示屏705可以为一个，设置语音端点检测设备700的前面板；在另一些实施例中，显示屏705可以为至少两个，分别设置在语音端点检测设备700的不同表面或呈折叠设计；在再一些实施例中，显示屏705可以是柔性显示屏，设置在语音端点检测设备700的弯曲表面上或折叠面上。甚至，显示屏705还可以设置成非矩形的不规则图形，也即异形屏。显示屏705可以采用液晶显示屏(liquid crystal display，LCD)、有机发光二极管(organic light-emitting diode，OLED)等材质制备。

摄像头组件706用于采集图像或视频。可选地，摄像头组件706包括前置摄像头和后置摄像头。通常，前置摄像头设置在语音端点检测设备的前面板，后置摄像头设置在语音端点检测设备的背面。在一些实施例中，后置摄像头为至少两个，分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种，以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及虚拟现实(virtual reality，VR)拍摄功能或者其它融合拍摄功能。在一些实施例中，摄像头组件706还可以包括闪光灯。闪光灯可以是单色温闪光灯，也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合，可以用于不同色温下的光线补偿。

音频电路707可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波，并将声波转换为电信号输入至处理器701进行处理，或者输入至射频电路704以实现语音通信。出于立体声采集或降噪的目的，麦克风可以为多个，分别设置在语音端点检测设备700的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器701或射频电路704的电信号转换为声波。扬声器可以是传统的薄膜扬声器，也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时，不仅可以将电信号转换为人类可听见的声波，也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中，音频电路707还可以包括耳机插孔。

定位组件708用于定位语音端点检测设备700的当前地理位置，以实现导航或基于位置的服务(location based service，LBS)。定位组件708可以是基于美国的全球定位***(global positioning system，GPS)、中国的北斗***、俄罗斯的格雷纳斯***或欧盟的伽利略***的定位组件。

电源709用于为语音端点检测设备700中的各个组件进行供电。电源709可以是交流电、直流电、一次性电池或可充电电池。当电源709包括可充电电池时，该可充电电池可以支持有线充电或无线充电。该可充电电池还可以用于支持快充技术。

在一些实施例中，语音端点检测设备700还包括有一个或多个传感器710。该一个或多个传感器710包括但不限于：加速度传感器711、陀螺仪传感器712、压力传感器713、指纹传感器714、光学传感器715以及接近传感器716。

加速度传感器711可以检测以语音端点检测设备700建立的坐标系的三个坐标轴上的加速度大小。比如，加速度传感器711可以用于检测重力加速度在三个坐标轴上的分量。处理器701可以根据加速度传感器711采集的重力加速度信号，控制触摸显示屏705以横向视图或纵向视图进行用户界面的显示。加速度传感器711还可以用于游戏或者用户的运动数据的采集。

陀螺仪传感器712可以检测语音端点检测设备700的机体方向及转动角度，陀螺仪传感器712可以与加速度传感器711协同采集用户对语音端点检测设备700的3D动作。处理器701根据陀螺仪传感器712采集的数据，可以实现如下功能：动作感应(比如根据用户的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。

压力传感器713可以设置在语音端点检测设备700的侧边框和/或触摸显示屏705的下层。当压力传感器713设置在语音端点检测设备700的侧边框时，可以检测用户对语音端点检测设备700的握持信号，由处理器701根据压力传感器713采集的握持信号进行左右手识别或快捷操作。当压力传感器713设置在触摸显示屏705的下层时，由处理器701根据用户对触摸显示屏705的压力操作，实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。

指纹传感器714用于采集用户的指纹，由处理器701根据指纹传感器714采集到的指纹识别用户的身份，或者，由指纹传感器714根据采集到的指纹识别用户的身份。在识别出用户的身份为可信身份时，由处理器701授权该用户执行相关的敏感操作，该敏感操作包括解锁屏幕、查看加密信息、下载软件、支付及更改设置等。指纹传感器714可以被设置语音端点检测设备700的正面、背面或侧面。当语音端点检测设备700上设置有物理按键或厂商Logo时，指纹传感器714可以与物理按键或厂商Logo集成在一起。

光学传感器715用于采集环境光强度。在一个实施例中，处理器701可以根据光学传感器715采集的环境光强度，控制触摸显示屏705的显示亮度。具体地，当环境光强度较高时，调高触摸显示屏705的显示亮度；当环境光强度较低时，调低触摸显示屏705的显示亮度。在另一个实施例中，处理器701还可以根据光学传感器715采集的环境光强度，动态调整摄像头组件706的拍摄参数。

接近传感器716，也称距离传感器，通常设置在语音端点检测设备700的前面板。接近传感器716用于采集用户与语音端点检测设备700的正面之间的距离。在一个实施例中，当接近传感器716检测到用户与语音端点检测设备700的正面之间的距离逐渐变小时，由处理器701控制触摸显示屏705从亮屏状态切换为息屏状态；当接近传感器716检测到用户与语音端点检测设备700的正面之间的距离逐渐变大时，由处理器701控制触摸显示屏705从息屏状态切换为亮屏状态。

本领域技术人员可以理解，图7中示出的结构并不构成对语音端点检测设备700的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

本申请实施例还提供了一种计算机存储介质，该计算机存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，该至少一条指令、该至少一段程序、该代码集或指令集由处理器加载并执行以实现如上述方法实施例所提供的语音端点检测方法。

以上所述仅为本申请的可选实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。