CN110047471A

CN110047471A - 语音唤醒方法

Info

Publication number: CN110047471A
Application number: CN201910395636.3A
Authority: CN
Inventors: 唐远兵
Original assignee: Shenzhen Zhiyumeng Technology Co Ltd
Current assignee: Shenzhen Zhiyumeng Technology Co Ltd
Priority date: 2019-05-13
Filing date: 2019-05-13
Publication date: 2019-07-23

Abstract

本发明公开了一种语音唤醒方法，具体包括以下步骤：开启录音：获取采样pcm音频数据；缓存PCM数据：将采集的pcm音频数据缓存在buffer里；语音端点检测：通过计算一定时间内采样数据的能量值，判断语音的开始点；AMR编码：通过C步骤确定语音的开始点后，将保留当前的缓存PCM音频数据，并对pcm音频数据做AMR编码，直到确定语音结束；上传AMR数据：将D步骤编码后的AMR音频数据上传到服务器；服务器语音识别：服务器识别AMR音频数据，检测是否为预先设定的指令；服务器下发指令：如果F步骤中服务器识别成功并检测为预先设定的指令，向设备发送唤醒指令。设备唤醒：设备收到唤醒指令后唤醒。本发明检测效率较高，占用资源少，同时方便功能扩展，降低了成本。

Description

语音唤醒方法

技术领域

本发明涉及一种语音唤醒方法。

背景技术

现有的语音唤醒功能，将语音的检测和语音识别同时集成在嵌入式设备中。由于需要在vad检测的同时做语音识别，这样加大了算法的复杂性，对cpu和内存的占用会比较高。对于某些低成本，低配置的嵌入式设备，由于cpu处理能力的限制和内部存储资源的限制，这样的实现方式响应比较慢，识别率不高，关键词有限。

发明内容

本发明提出一种语音唤醒方法，相对现有的一些嵌入方式的语音唤醒功能，本发明检测效率较高，占用资源少，同时方便功能扩展，降低了成本。

本发明的技术方案是这样实现的：

一种语音唤醒方法，其特征在于，具体包括以下步骤：

A.开启录音：获取采样pcm音频数据；

B.缓存PCM数据：将采集的pcm音频数据缓存在buffer里；

C.语音端点检测：通过计算一定时间内采样数据的能量值，判断语音的开始点；

D.AMR编码：通过C步骤确定语音的开始点后，将保留当前的缓存PCM音频数据，并对pcm音频数据做AMR编码，直到确定语音结束；

E.上传AMR数据：将D步骤编码后的AMR音频数据上传到服务器；

F.服务器语音识别：服务器识别AMR音频数据，检测是否为预先设定的指令；

G.服务器下发指令：如果F步骤中服务器识别成功并检测为预先设定的指令，向设备发送唤醒指令。

H.设备唤醒：设备收到唤醒指令后唤醒。

优选的，步骤B.缓存PCM数据：将采集的pcm音频数据缓存在buffer里具体指的是

步骤B.缓存PCM数据：申请***内存，初始化为ringBuffer，用于缓存PCM数据，将采集的pcm音频数据缓存在ringBuffer。

优选的，步骤C.语音端点检测：通过计算一定时间内采样数据的能量值，判断语音的开始点和结束点具体包括以下步骤：

C1.检测ringBuffer中存入的PCM音频数据的长度是否达到最小能量的检测长度，如果达到则开始检测，如果没达到则继续缓存；

C2.根据当前录音的采样率，计算固定时间内PCM音频数据的长度，将这个固定时间的所有采样点的绝对值算出一个平均值，得到上述固定时间的能量值；

C3.将步骤C2得到的能量值与设定阈值比较，若大于设定阈值，则判断为语音的开始点，执行步骤D。

优选的，步骤D中确定语音结束具体包含以下步骤：

根据当前录音的采样率，计算固定时间内PCM音频数据的长度，将这个固定时间的所有采样点的绝对值算出一个平均值，得到上述固定时间的能量值；

判断得到的能量值是否小于设定阈值，若是，判断当前pcm音频数据是否为AMR编码状态，若是，则确定为语音的结束点，停止AMR编码，若不是AMR编码状态，执行步骤A。

优选的，步骤D对pcm音频数据做AMR编码具体包括

对pcm音频数据分段做AMR编码，每段pcm音频数据编码完成后，清楚ringBuffer中与该段pcm音频数据长度相对应的数据。

优选的，步骤D中，语音结束后，释放ringBuffer。

优选的，步骤A.开启录音：获取采样pcm音频数据具体包括

A.开启录音：开启设备的codec芯片，获取采样pcm音频数据。

优选的，所述设备为嵌入式设备。

本发明的有益效果在于：相对现有的一些嵌入方式的语音唤醒功能，本发明检测效率较高，占用资源少，同时方便功能扩展，降低了成本。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明语音唤醒方法实施例一的流程图；

图2为本发明语音唤醒方法实施例二的流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1和图2所示，本发明提出了一种语音唤醒方法，具体包括以下步骤：

A.开启录音：获取采样pcm音频数据；

B.缓存PCM数据：将采集的pcm音频数据缓存在buffer里；

E.上传AMR数据：将D步骤编码后的AMR音频数据上传到服务器；

H.设备唤醒：设备收到唤醒指令后唤醒。

以上为本发明的基本实施例，以下对上述实施例的某一步骤进行详细阐述或者在上述实施例的基础上增加一些步骤。

优选的，步骤D中确定语音结束具体包含以下步骤：

优选的，步骤D对pcm音频数据做AMR编码具体包括

优选的，步骤D中，语音结束后，释放ringBuffer。

优选的，步骤A.开启录音：获取采样pcm音频数据具体包括

A.开启录音：开启设备的codec芯片，获取采样pcm音频数据。

优选的，所述设备为嵌入式设备。

本发明还可以用于对现有的未设置语言唤醒硬件装置的嵌入式设备做改进，在现有的嵌入式设备基础上增加语音采集电路、编解码电路和通信电路，语音采集电路用于采集pcm音频数据，编解码电路用于对pcm音频数据进行编码，通信电路用于上传编码后的语音数据，获取服务器返回的唤醒指令。现有的语音识别芯片价格较高，本申请将语音识别的过程上传至服务器进行，无需嵌入式设备装配语音识别芯片，能够进一步降低硬件成本。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种语音唤醒方法，其特征在于，具体包括以下步骤：

A.开启录音：获取采样pcm音频数据；

B.缓存PCM数据：将采集的pcm音频数据缓存在buffer里；

E.上传AMR数据：将D步骤编码后的AMR音频数据上传到服务器；

H.设备唤醒：设备收到唤醒指令后唤醒。

2.根据权利要求1所述的语音唤醒方法，其特征在于，步骤B.缓存PCM数据：将采集的pcm音频数据缓存在buffer里具体指的是

3.根据权利要求2所述的语音唤醒方法，其特征在于，步骤C.语音端点检测：通过计算一定时间内采样数据的能量值，判断语音的开始点和结束点具体包括以下步骤：

4.根据权利要求3所述的语音唤醒方法，其特征在于，步骤D中确定语音结束具体包含以下步骤：

5.根据权利要求4所述的语音唤醒方法，其特征在于，步骤D对pcm音频数据做AMR编码具体包括

6.根据权利要求4或5所述的语音唤醒方法，其特征在于，步骤D中，语音结束后，释放ringBuffer。

7.根据权利要求1-5任一项所述的语音唤醒方法，其特征在于，步骤A.开启录音：获取采样pcm音频数据具体包括

A.开启录音：开启设备的codec芯片，获取采样pcm音频数据。

8.根据权利要求7所述的语音唤醒方法，其特征在于，所述设备为嵌入式设备。