CN109473092A

CN109473092A - 一种语音端点检测方法及装置

Info

Publication number: CN109473092A
Application number: CN201811468244.7A
Authority: CN
Inventors: 韩雪; 张新; 毛跃辉; 陶梦春; 王慧君
Original assignee: Gree Electric Appliances Inc of Zhuhai
Current assignee: Gree Electric Appliances Inc of Zhuhai
Priority date: 2018-12-03
Filing date: 2018-12-03
Publication date: 2019-03-15
Anticipated expiration: 2038-12-03
Also published as: CN109473092B

Abstract

本发明提供了一种语音端点检测方法及装置，其中，该方法包括：检测是否接收到唤醒家用电器的唤醒词；根据检测的结果调节能量阈值E0和音频帧数M0；根据调节后的所述能量阈值E0和所述音频帧数M0对语音进行端点检测，其中，所述语音的前端点为之前连续音频帧数M0的音频能量小于所述能量阈值E0，且之后连续音频帧数M0的音频能量大于所述能量阈值E0的时间转折点；所述语音的后端点为之前连续音频帧数M0的音频能量大于所述能量阈值E0，且之后连续音频帧数M0的音频能量小于所述能量阈值E0的时间转折点，解决了相关技术中针对不同声音大小的环境下端点检测存在漏识别和误识别的问题，提高了语音识别的准确度。

Description

一种语音端点检测方法及装置

技术领域

本发明涉及通信领域，具体而言，涉及一种语音端点检测方法及装置。

背景技术

语音端点检测是指从连续的一段语音中检测出有效语音段，包括检测有效语音的起始点与结束点。语音端点检测可以提取出语音流中提取用户想要的信息，减小传输与存储过程中的数据量，节省存储空间，提高传输速度。

目前，常用的语音端点检测的方法中，规定音频前面部分连续M0帧的能量值低于事先指定的能量值阈值E0，接下来连续M0帧能量值大于E0，则语音能量值增大的地方为有效语音的前端点。同样的，如果连续的若干帧语音能量值较大，随后的帧能量值变小，并且持续一段时长，则语音能量减小的地方为有效语音的后端点。

虽然该方法能够满足大部分语音起始点与结束点的检测，但在不同的场景下，环境声音大小不同，可能导致语音端点的漏识别与误识别。

针对相关技术中针对不同声音大小的环境下端点检测存在漏识别和误识别的问题，尚未提出解决方案。

发明内容

本发明实施例提供了一种语音端点检测方法及装置，以至少解决相关技术中针对不同声音大小的环境下端点检测存在漏识别和误识别的问题。

根据本发明的一个实施例，提供了一种语音端点检测方法，包括：

检测是否接收到唤醒家用电器的唤醒词；

根据检测的结果调节能量阈值E0和音频帧数M0；

根据调节后的所述能量阈值E0和所述音频帧数M0对语音进行端点检测，其中，所述语音的前端点为之前连续音频帧数M0的音频能量小于所述能量阈值E0，且之后连续音频帧数M0的音频能量大于所述能量阈值E0的时间转折点；所述语音的后端点为之前连续音频帧数M0的音频能量大于所述能量阈值E0，且之后连续音频帧数M0的音频能量小于所述能量阈值E0的时间转折点。

可选地，根据检测的结果调节能量阈值E0和音频帧数M0包括：

在检测的结果为未接收到唤醒家用电器的唤醒词的情况下，截取当前环境下语音中预定数量的音频帧数；

计算所述预定数量的音频帧数的第一平均能量值，将所述第一平均能量值确定为所述能量值阈值E0；

确定所述音频帧数M0为第一预设值。

可选地，根据检测的结果调节能量阈值E0和音频帧数M0包括：

在检测的结果为接收到唤醒所述家用电器的唤醒词的情况下，截取当前环境下语音中所述预定数量的音频帧数，其中，所述语音为接收到唤醒所述家用电器的唤醒词时刻至反馈唤醒所述家用电器的反馈消息时刻之间的语音；

计算所述预定数量的音频帧数的第二平均能量值，根据所述第二平均能量值更新所述能量阈值E0。

可选地，根据检测的结果调节能量阈值E0和音频帧数M0包括：

在检测的结果为接收到唤醒所述家用电器的唤醒词的情况下，调节所述能量阈值E0；

将所述音频帧数M0调节为第二预设值，其中，所述第二预设值小于所述第一预设值。

可选地，调节所述能量阈值E0包括：

将所述能量阈值E0由所述第一平均能量值调节为预先设置的预定阈值，其中，所述预定阈值小于所述第一平均能量值。

根据本发明的另一个实施例，还提供了一种语音端点检测装置，包括：

检测模块，用于检测是否接收到唤醒家用电器的唤醒词；

调节模块，用于根据检测的结果调节能量阈值E0和音频帧数M0；

端点检测模块，用于根据调节后的所述能量阈值E0和所述音频帧数M0对语音进行端点检测，其中，所述语音的前端点为之前连续音频帧数M0的音频能量小于所述能量阈值E0，且之后连续音频帧数M0的音频能量大于所述能量阈值E0的时间转折点；所述语音的后端点为之前连续音频帧数M0的音频能量大于所述能量阈值E0，且之后连续音频帧数M0的音频能量小于所述能量阈值E0的时间转折点。

可选地，所述调节模块包括：

第一截取单元，用于在检测的结果为未接收到唤醒家用电器的唤醒词的情况下，截取当前环境下语音中预定数量的音频帧数；

第一计算单元，用于计算所述预定数量的音频帧数的第一平均能量值，将所述第一平均能量值确定为所述能量值阈值E0；

第一确定单元，用于确定所述音频帧数M0为第一预设值。

可选地，所述调节模块包括：

第二截取单元，用于在检测的结果为接收到唤醒所述家用电器的唤醒词的情况下，截取当前环境下语音中所述预定数量的音频帧数，其中，所述语音为接收到唤醒所述家用电器的唤醒词时刻至反馈唤醒所述家用电器的反馈消息时刻之间的语音；

第二计算单元，用于计算所述预定数量的音频帧数的第二平均能量值，根据所述第二平均能量值更新所述能量阈值E0。

可选地，所述调节模块包括：

第一调节单元，用于在检测的结果为接收到唤醒所述家用电器的唤醒词的情况下，调节所述能量阈值E0；

第二调节单元，用于将所述音频帧数M0调节为第二预设值，其中，所述第二预设值小于所述第一预设值。

可选地，所述第一调节单元，还用于

根据本发明的又一个实施例，还提供了一种存储介质，所述存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。

根据本发明的又一个实施例，还提供了一种电子装置，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行上述任一项方法实施例中的步骤。

通过本发明，一般家用电器唤醒前环境音较大，在用户的控制下唤醒后环境音会变小，通过在唤醒前后采用不同的能量阈值E0和音频帧数M0来进行语音端点检测，根据不同的环境音大小采用不同灵敏度进行检测，因此，可以解决相关技术中针对不同声音大小的环境下端点检测存在漏识别和误识别的问题，提高了语音识别的准确度，提高了用户体验的效果。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是本发明实施例的一种语音端点检测方法的移动终端的硬件结构框图；

图2是根据本发明实施例的语音端点检测方法的流程图；

图3是根据本发明实施例的语音端点检测装置的框图；

图4是根据本发明优选实施例的语音端点检测装置的框图一；

图5是根据本发明优选实施例的语音端点检测装置的框图二；

图6是根据本发明优选实施例的语音端点检测装置的框图三。

具体实施方式

下文中将参考附图并结合实施例来详细说明本发明。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。

实施例1

本申请实施例一所提供的方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。以运行在移动终端上为例，图1是本发明实施例的一种语音端点检测方法的移动终端的硬件结构框图，如图1所示，移动终端10可以包括一个或多个(图1中仅示出一个)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)和用于存储数据的存储器104，可选地，上述移动终端还可以包括用于通信功能的传输设备106以及输入输出设备108。本领域普通技术人员可以理解，图1所示的结构仅为示意，其并不对上述移动终端的结构造成限定。例如，移动终端10还可包括比图1中所示更多或者更少的组件，或者具有与图1所示不同的配置。

存储器104可用于存储计算机程序，例如，应用软件的软件程序以及模块，如本发明实施例中的报文接收方法对应的计算机程序，处理器102通过运行存储在存储器104内的计算机程序，从而执行各种功能应用以及数据处理，即实现上述的方法。存储器104可包括高速随机存储器，还可包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器104可进一步包括相对于处理器102远程设置的存储器，这些远程存储器可以通过网络连接至移动终端10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

传输装置106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括移动终端10的通信供应商提供的无线网络。在一个实例中，传输装置106包括一个网络适配器(Network Interface Controller，简称为NIC)，其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，传输装置106可以为射频(Radio Frequency，简称为RF)模块，其用于通过无线方式与互联网进行通讯。

本发明实施例通过上述的移动终端扫描二维码或条形码，并在上述的移动终端中绘制家电维护的预约界面，用户在该预约界面主填写维护信息便可生成预约维护单，之后上传到服务器做进一步的处理。

本实施例提供了一种语音端点检测方法，应用于家用电器，与上述的移动终端建立无线连接，图2是根据本发明实施例的语音端点检测方法的流程图，如图2所示，该流程包括如下步骤：

步骤S202，检测是否接收到唤醒家用电器的唤醒词；

步骤S204，根据检测的结果调节能量阈值E0和音频帧数M0；

步骤S206，根据调节后的所述能量阈值E0和所述音频帧数M0对语音进行端点检测，其中，所述语音的前端点为之前连续音频帧数M0的音频能量小于所述能量阈值E0，且之后连续音频帧数M0的音频能量大于所述能量阈值E0的时间转折点；所述语音的后端点为之前连续音频帧数M0的音频能量大于所述能量阈值E0，且之后连续音频帧数M0的音频能量小于所述能量阈值E0的时间转折点。

通过上述步骤，一般家用电器唤醒前环境音较大，在用户的控制下唤醒后环境音会变小，通过在唤醒前后采用不同的能量阈值E0和音频帧数M0来进行语音端点检测，根据不同的环境音大小采用不同灵敏度进行检测，因此，可以解决相关技术中针对不同声音大小的环境下端点检测存在漏识别和误识别的问题，提高了语音识别的准确度，提高了用户体验的效果。

本发明实施例中，针对E0和M0的调节，主要考虑的是家用电器唤醒前后的调节，一般情况下，在家用电器激活前，家用电器所处的环境可能噪音比较大，此时对于语音识别不需要那么灵敏，当用户准备唤醒家用电器时，会刻意控制一下环境噪音，此时需要提高识别的灵敏度，故根据家用电器唤醒前后需要的不同灵敏度的对语音识别，在一个可选的实施例中，在检测的结果为未接收到唤醒家用电器的唤醒词的情况下，根据检测的结果调节能量阈值E0和音频帧数M0具体可以包括：截取当前环境下语音中预定数量的音频帧数；计算所述预定数量的音频帧数的第一平均能量值，将所述第一平均能量值确定为所述能量值阈值E0；确定所述音频帧数M0为第一预设值。

在另一个可选的实施例中，在检测的结果为接收到唤醒所述家用电器的唤醒词的情况下，根据检测的结果调节能量阈值E0和音频帧数M0具体可以包括：截取当前环境下语音中所述预定数量的音频帧数，其中，所述语音为接收到唤醒所述家用电器的唤醒词时刻至反馈唤醒所述家用电器的反馈消息时刻之间的语音；计算所述预定数量的音频帧数的第二平均能量值，根据所述第二平均能量值更新所述能量阈值E0。

另外，在检测的结果为接收到唤醒所述家用电器的唤醒词的情况下，根据检测的结果调节能量阈值E0和音频帧数M0还可以是直接调节能力阈值E0和音频帧数M0，可以调节为某一预先设置的值，具体地可以包括：调节所述能量阈值E0；将所述音频帧数M0调节为第二预设值，其中，所述第二预设值小于所述第一预设值。进一步地，调节所述能量阈值E0具体可以包括：将所述能量阈值E0由所述第一平均能量值调节为预先设置的预定阈值，其中，所述预定阈值小于所述第一平均能量值。

针对上述M0与E0的值，提出一种根据场景自适应调节E0、M0的方法。在被唤醒前，设备不需要检测用户语音，可以将端点检测的灵敏度设置的较小，以此达到节能的目的；在语音设备被唤醒后自动提高该灵敏度，避免遗漏用户语音指令，即使用户语音指令很短，也能被准确检测到。提高语音端点检测的准确性，也达到节能的作用。

本发明实施例中，通过分贝检测仪检测当前环境声音分贝大小来确定能量值阈值E0，灵敏度调节模型用于计算能量值阈值E0与端点检测灵敏度M0的值。根据场景当前声音分贝值设定E0，根据设备是否被唤醒调节M0，以此提高有效语音端点检测的准确性。

在语音设备被唤醒前，利用麦克风采集房间中当前的音频声音，截取一定数量的音频帧数，计算其平均能量值，以此作为能量值阈值E0。确定E0后，还需确定M0。由于用户没有语音控制设备的打算，房间中的声音分贝可能较大，比如多人对话的声音，电视、电脑上传出来的音频的声音。故需要将语音端点检测的灵敏度调小，增大M0，提高语音端点检测的要求，即需要一段较长的连续的M0帧音频的能量由低于E0转变为高于E0，该转折点才能作为有效语音段的前端点，要求一段较长的连续的M0音频的能量由高于E0转变为低于E0，该转折点才能作为有效语音段的后端点。

在语音设备被唤醒后，因为用户此时有语音控制设备的打算，故用户可能会刻意减小房间中其他的声音，设备唤醒前计算的E0可能并不适用。此时，将用户下达唤醒词后到用户等待设备唤醒反馈(反馈信息可以是灯光或者语音)的这段时间中房间的环境声音作为E0计算的样本，计算其平均能量值更新E0。并且由于房间相对安静，可将语音端点检测的灵敏度调高，减小M0，减小语音端点检测的要求，即要求满足端点检测条件的M0帧音频的长度不需要很长，这样，即使用户下达的语音指令很短，语速很快，也能准确检测出语音指令的端点。

例如，在语音唤醒前，M0的值为1000ms，语音唤醒后，M0的值为500ms。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

实施例2

在本实施例中还提供了一种语音端点检测装置，应用于家用电器，该装置用于实现上述实施例及优选实施方式，已经进行过说明的不再赘述。如以下所使用的，术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现，但是硬件，或者软件和硬件的组合的实现也是可能并被构想的。

图3是根据本发明实施例的语音端点检测装置的框图，如图3所示，包括：

检测模块32，用于检测是否接收到唤醒家用电器的唤醒词；

调节模块34，用于根据检测的结果调节能量阈值E0和音频帧数M0；

端点检测模块36，用于根据调节后的所述能量阈值E0和所述音频帧数M0对语音进行端点检测，其中，所述语音的前端点为之前连续音频帧数M0的音频能量小于所述能量阈值E0，且之后连续音频帧数M0的音频能量大于所述能量阈值E0的时间转折点；所述语音的后端点为之前连续音频帧数M0的音频能量大于所述能量阈值E0，且之后连续音频帧数M0的音频能量小于所述能量阈值E0的时间转折点。

图4是根据本发明优选实施例的语音端点检测装置的框图一，如图4所示，所述调节模块34包括：

第一截取单元42，用于在检测的结果为未接收到唤醒家用电器的唤醒词的情况下，截取当前环境下语音中预定数量的音频帧数；

第一计算单元44，用于计算所述预定数量的音频帧数的第一平均能量值，将所述第一平均能量值确定为所述能量值阈值E0；

第一确定单元46，用于确定所述音频帧数M0为第一预设值。

图5是根据本发明优选实施例的语音端点检测装置的框图二，如图5所示，所述调节模块34包括：

第二截取单元52，用于在检测的结果为接收到唤醒所述家用电器的唤醒词的情况下，截取当前环境下语音中所述预定数量的音频帧数，其中，所述语音为接收到唤醒所述家用电器的唤醒词时刻至反馈唤醒所述家用电器的反馈消息时刻之间的语音；

第二计算单元54，用于计算所述预定数量的音频帧数的第二平均能量值，根据所述第二平均能量值更新所述能量阈值E0。

图6是根据本发明优选实施例的语音端点检测装置的框图三，如图6所示，所述调节模块34包括：

第一调节单元62，用于在检测的结果为接收到唤醒所述家用电器的唤醒词的情况下，调节所述能量阈值E0；

第二调节单元64，用于将所述音频帧数M0调节为第二预设值，其中，所述第二预设值小于所述第一预设值。

可选地，所述第一调节单元62，还用于

需要说明的是，上述各个模块是可以通过软件或硬件来实现的，对于后者，可以通过以下方式实现，但不限于此：上述模块均位于同一处理器中；或者，上述各个模块以任意组合的形式分别位于不同的处理器中。

实施例3

本发明的实施例还提供了一种存储介质，该存储介质中存储有计算机程序，其中，该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。

可选地，在本实施例中，上述存储介质可以被设置为存储用于执行以下步骤的计算机程序：

S11，检测是否接收到唤醒家用电器的唤醒词；

S12，根据检测的结果调节能量阈值E0和音频帧数M0；

S13，根据调节后的所述能量阈值E0和所述音频帧数M0对语音进行端点检测，其中，所述语音的前端点为之前连续音频帧数M0的音频能量小于所述能量阈值E0，且之后连续音频帧数M0的音频能量大于所述能量阈值E0的时间转折点；所述语音的后端点为之前连续音频帧数M0的音频能量大于所述能量阈值E0，且之后连续音频帧数M0的音频能量小于所述能量阈值E0的时间转折点。

可选地，在本实施例中，上述存储介质可以包括但不限于：U盘、只读存储器(Read-Only Memory，简称为ROM)、随机存取存储器(Random Access Memory，简称为RAM)、移动硬盘、磁碟或者光盘等各种可以存储计算机程序的介质。

实施例4

本发明的实施例还提供了一种电子装置，包括存储器和处理器，该存储器中存储有计算机程序，该处理器被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。

可选地，上述电子装置还可以包括传输设备以及输入输出设备，其中，该传输设备和上述处理器连接，该输入输出设备和上述处理器连接。

可选地，在本实施例中，上述处理器可以被设置为通过计算机程序执行以下步骤：

S11，检测是否接收到唤醒家用电器的唤醒词；

S12，根据检测的结果调节能量阈值E0和音频帧数M0；

可选地，本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例，本实施例在此不再赘述。

显然，本领域的技术人员应该明白，上述的本发明的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，并且在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的硬件和软件结合。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种语音端点检测方法，其特征在于，包括：

检测是否接收到唤醒家用电器的唤醒词；

根据检测的结果调节能量阈值E0和音频帧数M0；

2.根据权利要求1所述的方法，其特征在于，所述根据所述检测的结果调节能量阈值E0和音频帧数M0包括：

在所述检测的结果为未接收到唤醒家用电器的唤醒词的情况下，截取当前环境下语音中预定数量的音频帧数；

确定所述音频帧数M0为第一预设值。

3.根据权利要求2所述的方法，其特征在于，所述根据所述检测的结果调节能量阈值E0和音频帧数M0包括：

在所述检测的结果为接收到唤醒所述家用电器的唤醒词的情况下，截取当前环境下语音中所述预定数量的音频帧数，其中，所述语音为接收到唤醒所述家用电器的唤醒词时刻至反馈唤醒所述家用电器的反馈消息时刻之间的语音；

4.根据权利要求2所述的方法，其特征在于，所述根据所述检测的结果调节能量阈值E0和音频帧数M0包括：

在所述检测的结果为接收到唤醒所述家用电器的唤醒词的情况下，调节所述能量阈值E0；

5.根据权利要求4所述的方法，其特征在于，所述调节所述能量阈值E0包括：

6.一种语音端点检测装置，其特征在于，应用于家用电器，包括：

检测模块，用于检测是否接收到唤醒家用电器的唤醒词；

7.根据权利要求6所述的装置，其特征在于，所述调节模块包括：

第一确定单元，用于确定所述音频帧数M0为第一预设值。

8.根据权利要求7所述的装置，其特征在于，所述调节模块包括：

9.一种存储介质，其特征在于，所述存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行所述权利要求1至5任一项中所述的方法。

10.一种电子装置，包括存储器和处理器，其特征在于，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行所述权利要求1至5任一项中所述的方法。