CN110047471A - 语音唤醒方法 - Google Patents
语音唤醒方法 Download PDFInfo
- Publication number
- CN110047471A CN110047471A CN201910395636.3A CN201910395636A CN110047471A CN 110047471 A CN110047471 A CN 110047471A CN 201910395636 A CN201910395636 A CN 201910395636A CN 110047471 A CN110047471 A CN 110047471A
- Authority
- CN
- China
- Prior art keywords
- audio data
- voice
- pcm audio
- amr
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 19
- 238000001514 detection method Methods 0.000 claims abstract description 10
- 238000005070 sampling Methods 0.000 claims abstract description 10
- 230000000717 retained effect Effects 0.000 claims abstract 2
- 230000006870 function Effects 0.000 description 5
- 230000037007 arousal Effects 0.000 description 3
- 238000002360 preparation method Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/04—Segmentation; Word boundary detection
- G10L15/05—Word boundary detection
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Telephonic Communication Services (AREA)
Abstract
本发明公开了一种语音唤醒方法,具体包括以下步骤:开启录音:获取采样pcm音频数据;缓存PCM数据:将采集的pcm音频数据缓存在buffer里;语音端点检测:通过计算一定时间内采样数据的能量值,判断语音的开始点;AMR编码:通过C步骤确定语音的开始点后,将保留当前的缓存PCM音频数据,并对pcm音频数据做AMR编码,直到确定语音结束;上传AMR数据:将D步骤编码后的AMR音频数据上传到服务器;服务器语音识别:服务器识别AMR音频数据,检测是否为预先设定的指令;服务器下发指令:如果F步骤中服务器识别成功并检测为预先设定的指令,向设备发送唤醒指令。设备唤醒:设备收到唤醒指令后唤醒。本发明检测效率较高,占用资源少,同时方便功能扩展,降低了成本。
Description
技术领域
本发明涉及一种语音唤醒方法。
背景技术
现有的语音唤醒功能,将语音的检测和语音识别同时集成在嵌入式设备中。由于需要在vad检测的同时做语音识别,这样加大了算法的复杂性,对cpu和内存的占用会比较高。对于某些低成本,低配置的嵌入式设备,由于cpu处理能力的限制和内部存储资源的限制,这样的实现方式响应比较慢,识别率不高,关键词有限。
发明内容
本发明提出一种语音唤醒方法,相对现有的一些嵌入方式的语音唤醒功能,本发明检测效率较高,占用资源少,同时方便功能扩展,降低了成本。
本发明的技术方案是这样实现的:
一种语音唤醒方法,其特征在于,具体包括以下步骤:
A.开启录音:获取采样pcm音频数据;
B.缓存PCM数据:将采集的pcm音频数据缓存在buffer里;
C.语音端点检测:通过计算一定时间内采样数据的能量值,判断语音的开始点;
D.AMR编码:通过C步骤确定语音的开始点后,将保留当前的缓存PCM音频数据,并对pcm音频数据做AMR编码,直到确定语音结束;
E.上传AMR数据:将D步骤编码后的AMR音频数据上传到服务器;
F.服务器语音识别:服务器识别AMR音频数据,检测是否为预先设定的指令;
G.服务器下发指令:如果F步骤中服务器识别成功并检测为预先设定的指令,向设备发送唤醒指令。
H.设备唤醒:设备收到唤醒指令后唤醒。
优选的,步骤B.缓存PCM数据:将采集的pcm音频数据缓存在buffer里具体指的是
步骤B.缓存PCM数据:申请***内存,初始化为ringBuffer,用于缓存PCM数据,将采集的pcm音频数据缓存在ringBuffer。
优选的,步骤C.语音端点检测:通过计算一定时间内采样数据的能量值,判断语音的开始点和结束点具体包括以下步骤:
C1.检测ringBuffer中存入的PCM音频数据的长度是否达到最小能量的检测长度,如果达到则开始检测,如果没达到则继续缓存;
C2.根据当前录音的采样率,计算固定时间内PCM音频数据的长度,将这个固定时间的所有采样点的绝对值算出一个平均值,得到上述固定时间的能量值;
C3.将步骤C2得到的能量值与设定阈值比较,若大于设定阈值,则判断为语音的开始点,执行步骤D。
优选的,步骤D中确定语音结束具体包含以下步骤:
根据当前录音的采样率,计算固定时间内PCM音频数据的长度,将这个固定时间的所有采样点的绝对值算出一个平均值,得到上述固定时间的能量值;
判断得到的能量值是否小于设定阈值,若是,判断当前pcm音频数据是否为AMR编码状态,若是,则确定为语音的结束点,停止AMR编码,若不是AMR编码状态,执行步骤A。
优选的,步骤D对pcm音频数据做AMR编码具体包括
对pcm音频数据分段做AMR编码,每段pcm音频数据编码完成后,清楚ringBuffer中与该段pcm音频数据长度相对应的数据。
优选的,步骤D中,语音结束后,释放ringBuffer。
优选的,步骤A.开启录音:获取采样pcm音频数据具体包括
A.开启录音:开启设备的codec芯片,获取采样pcm音频数据。
优选的,所述设备为嵌入式设备。
本发明的有益效果在于:相对现有的一些嵌入方式的语音唤醒功能,本发明检测效率较高,占用资源少,同时方便功能扩展,降低了成本。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明语音唤醒方法实施例一的流程图;
图2为本发明语音唤醒方法实施例二的流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1和图2所示,本发明提出了一种语音唤醒方法,具体包括以下步骤:
A.开启录音:获取采样pcm音频数据;
B.缓存PCM数据:将采集的pcm音频数据缓存在buffer里;
C.语音端点检测:通过计算一定时间内采样数据的能量值,判断语音的开始点;
D.AMR编码:通过C步骤确定语音的开始点后,将保留当前的缓存PCM音频数据,并对pcm音频数据做AMR编码,直到确定语音结束;
E.上传AMR数据:将D步骤编码后的AMR音频数据上传到服务器;
F.服务器语音识别:服务器识别AMR音频数据,检测是否为预先设定的指令;
G.服务器下发指令:如果F步骤中服务器识别成功并检测为预先设定的指令,向设备发送唤醒指令。
H.设备唤醒:设备收到唤醒指令后唤醒。
以上为本发明的基本实施例,以下对上述实施例的某一步骤进行详细阐述或者在上述实施例的基础上增加一些步骤。
优选的,步骤B.缓存PCM数据:将采集的pcm音频数据缓存在buffer里具体指的是
步骤B.缓存PCM数据:申请***内存,初始化为ringBuffer,用于缓存PCM数据,将采集的pcm音频数据缓存在ringBuffer。
优选的,步骤C.语音端点检测:通过计算一定时间内采样数据的能量值,判断语音的开始点和结束点具体包括以下步骤:
C1.检测ringBuffer中存入的PCM音频数据的长度是否达到最小能量的检测长度,如果达到则开始检测,如果没达到则继续缓存;
C2.根据当前录音的采样率,计算固定时间内PCM音频数据的长度,将这个固定时间的所有采样点的绝对值算出一个平均值,得到上述固定时间的能量值;
C3.将步骤C2得到的能量值与设定阈值比较,若大于设定阈值,则判断为语音的开始点,执行步骤D。
优选的,步骤D中确定语音结束具体包含以下步骤:
根据当前录音的采样率,计算固定时间内PCM音频数据的长度,将这个固定时间的所有采样点的绝对值算出一个平均值,得到上述固定时间的能量值;
判断得到的能量值是否小于设定阈值,若是,判断当前pcm音频数据是否为AMR编码状态,若是,则确定为语音的结束点,停止AMR编码,若不是AMR编码状态,执行步骤A。
优选的,步骤D对pcm音频数据做AMR编码具体包括
对pcm音频数据分段做AMR编码,每段pcm音频数据编码完成后,清楚ringBuffer中与该段pcm音频数据长度相对应的数据。
优选的,步骤D中,语音结束后,释放ringBuffer。
优选的,步骤A.开启录音:获取采样pcm音频数据具体包括
A.开启录音:开启设备的codec芯片,获取采样pcm音频数据。
优选的,所述设备为嵌入式设备。
本发明还可以用于对现有的未设置语言唤醒硬件装置的嵌入式设备做改进,在现有的嵌入式设备基础上增加语音采集电路、编解码电路和通信电路,语音采集电路用于采集pcm音频数据,编解码电路用于对pcm音频数据进行编码,通信电路用于上传编码后的语音数据,获取服务器返回的唤醒指令。现有的语音识别芯片价格较高,本申请将语音识别的过程上传至服务器进行,无需嵌入式设备装配语音识别芯片,能够进一步降低硬件成本。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (8)
1.一种语音唤醒方法,其特征在于,具体包括以下步骤:
A.开启录音:获取采样pcm音频数据;
B.缓存PCM数据:将采集的pcm音频数据缓存在buffer里;
C.语音端点检测:通过计算一定时间内采样数据的能量值,判断语音的开始点;
D.AMR编码:通过C步骤确定语音的开始点后,将保留当前的缓存PCM音频数据,并对pcm音频数据做AMR编码,直到确定语音结束;
E.上传AMR数据:将D步骤编码后的AMR音频数据上传到服务器;
F.服务器语音识别:服务器识别AMR音频数据,检测是否为预先设定的指令;
G.服务器下发指令:如果F步骤中服务器识别成功并检测为预先设定的指令,向设备发送唤醒指令。
H.设备唤醒:设备收到唤醒指令后唤醒。
2.根据权利要求1所述的语音唤醒方法,其特征在于,步骤B.缓存PCM数据:将采集的pcm音频数据缓存在buffer里具体指的是
步骤B.缓存PCM数据:申请***内存,初始化为ringBuffer,用于缓存PCM数据,将采集的pcm音频数据缓存在ringBuffer。
3.根据权利要求2所述的语音唤醒方法,其特征在于,步骤C.语音端点检测:通过计算一定时间内采样数据的能量值,判断语音的开始点和结束点具体包括以下步骤:
C1.检测ringBuffer中存入的PCM音频数据的长度是否达到最小能量的检测长度,如果达到则开始检测,如果没达到则继续缓存;
C2.根据当前录音的采样率,计算固定时间内PCM音频数据的长度,将这个固定时间的所有采样点的绝对值算出一个平均值,得到上述固定时间的能量值;
C3.将步骤C2得到的能量值与设定阈值比较,若大于设定阈值,则判断为语音的开始点,执行步骤D。
4.根据权利要求3所述的语音唤醒方法,其特征在于,步骤D中确定语音结束具体包含以下步骤:
根据当前录音的采样率,计算固定时间内PCM音频数据的长度,将这个固定时间的所有采样点的绝对值算出一个平均值,得到上述固定时间的能量值;
判断得到的能量值是否小于设定阈值,若是,判断当前pcm音频数据是否为AMR编码状态,若是,则确定为语音的结束点,停止AMR编码,若不是AMR编码状态,执行步骤A。
5.根据权利要求4所述的语音唤醒方法,其特征在于,步骤D对pcm音频数据做AMR编码具体包括
对pcm音频数据分段做AMR编码,每段pcm音频数据编码完成后,清楚ringBuffer中与该段pcm音频数据长度相对应的数据。
6.根据权利要求4或5所述的语音唤醒方法,其特征在于,步骤D中,语音结束后,释放ringBuffer。
7.根据权利要求1-5任一项所述的语音唤醒方法,其特征在于,步骤A.开启录音:获取采样pcm音频数据具体包括
A.开启录音:开启设备的codec芯片,获取采样pcm音频数据。
8.根据权利要求7所述的语音唤醒方法,其特征在于,所述设备为嵌入式设备。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910395636.3A CN110047471A (zh) | 2019-05-13 | 2019-05-13 | 语音唤醒方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910395636.3A CN110047471A (zh) | 2019-05-13 | 2019-05-13 | 语音唤醒方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110047471A true CN110047471A (zh) | 2019-07-23 |
Family
ID=67281747
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910395636.3A Pending CN110047471A (zh) | 2019-05-13 | 2019-05-13 | 语音唤醒方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110047471A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110634483A (zh) * | 2019-09-03 | 2019-12-31 | 北京达佳互联信息技术有限公司 | 人机交互方法、装置、电子设备及存储介质 |
CN116346267A (zh) * | 2023-03-24 | 2023-06-27 | 广州市迪士普音响科技有限公司 | 音频触发广播检测方法、装置、设备及可读存储介质 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102780767A (zh) * | 2012-06-27 | 2012-11-14 | 华立仪表集团股份有限公司 | 一种amr***中集中器自动升级的方法及amr*** |
CN107527614A (zh) * | 2016-06-21 | 2017-12-29 | 瑞昱半导体股份有限公司 | 语音控制***及其方法 |
US20180018964A1 (en) * | 2016-07-15 | 2018-01-18 | Sonos, Inc. | Voice Detection By Multiple Devices |
CN107808670A (zh) * | 2017-10-25 | 2018-03-16 | 百度在线网络技术(北京)有限公司 | 语音数据处理方法、装置、设备及存储介质 |
CN108122556A (zh) * | 2017-08-08 | 2018-06-05 | 问众智能信息科技(北京)有限公司 | 减少驾驶人语音唤醒指令词误触发的方法及装置 |
CN108986822A (zh) * | 2018-08-31 | 2018-12-11 | 出门问问信息科技有限公司 | 语音识别方法、装置、电子设备及非暂态计算机存储介质 |
CN109065037A (zh) * | 2018-07-10 | 2018-12-21 | 福州瑞芯微电子股份有限公司 | 一种基于语音交互的音频流控制方法 |
CN109378000A (zh) * | 2018-12-19 | 2019-02-22 | 科大讯飞股份有限公司 | 语音唤醒方法、装置、***、设备、服务器及存储介质 |
CN109410934A (zh) * | 2018-10-19 | 2019-03-01 | 深圳魔听文化科技有限公司 | 一种基于声纹特征的多人声音分离方法、***及智能终端 |
CN109741753A (zh) * | 2019-01-11 | 2019-05-10 | 百度在线网络技术(北京)有限公司 | 一种语音交互方法、装置、终端及服务器 |
-
2019
- 2019-05-13 CN CN201910395636.3A patent/CN110047471A/zh active Pending
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102780767A (zh) * | 2012-06-27 | 2012-11-14 | 华立仪表集团股份有限公司 | 一种amr***中集中器自动升级的方法及amr*** |
CN107527614A (zh) * | 2016-06-21 | 2017-12-29 | 瑞昱半导体股份有限公司 | 语音控制***及其方法 |
US20180018964A1 (en) * | 2016-07-15 | 2018-01-18 | Sonos, Inc. | Voice Detection By Multiple Devices |
CN108122556A (zh) * | 2017-08-08 | 2018-06-05 | 问众智能信息科技(北京)有限公司 | 减少驾驶人语音唤醒指令词误触发的方法及装置 |
CN107808670A (zh) * | 2017-10-25 | 2018-03-16 | 百度在线网络技术(北京)有限公司 | 语音数据处理方法、装置、设备及存储介质 |
CN109065037A (zh) * | 2018-07-10 | 2018-12-21 | 福州瑞芯微电子股份有限公司 | 一种基于语音交互的音频流控制方法 |
CN108986822A (zh) * | 2018-08-31 | 2018-12-11 | 出门问问信息科技有限公司 | 语音识别方法、装置、电子设备及非暂态计算机存储介质 |
CN109410934A (zh) * | 2018-10-19 | 2019-03-01 | 深圳魔听文化科技有限公司 | 一种基于声纹特征的多人声音分离方法、***及智能终端 |
CN109378000A (zh) * | 2018-12-19 | 2019-02-22 | 科大讯飞股份有限公司 | 语音唤醒方法、装置、***、设备、服务器及存储介质 |
CN109741753A (zh) * | 2019-01-11 | 2019-05-10 | 百度在线网络技术(北京)有限公司 | 一种语音交互方法、装置、终端及服务器 |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110634483A (zh) * | 2019-09-03 | 2019-12-31 | 北京达佳互联信息技术有限公司 | 人机交互方法、装置、电子设备及存储介质 |
CN110634483B (zh) * | 2019-09-03 | 2021-06-18 | 北京达佳互联信息技术有限公司 | 人机交互方法、装置、电子设备及存储介质 |
US11620984B2 (en) | 2019-09-03 | 2023-04-04 | Beijing Dajia Internet Information Technology Co., Ltd. | Human-computer interaction method, and electronic device and storage medium thereof |
CN116346267A (zh) * | 2023-03-24 | 2023-06-27 | 广州市迪士普音响科技有限公司 | 音频触发广播检测方法、装置、设备及可读存储介质 |
CN116346267B (zh) * | 2023-03-24 | 2023-10-31 | 广州市迪士普音响科技有限公司 | 音频触发广播检测方法、装置、设备及可读存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107919130B (zh) | 基于云端的语音处理方法和装置 | |
CN106691382B (zh) | 一种基于时频相似性的鼾声检测方法及装置 | |
CN110364143B (zh) | 语音唤醒方法、装置及其智能电子设备 | |
US9502028B2 (en) | Acoustic activity detection apparatus and method | |
CN105448303B (zh) | 语音信号的处理方法和装置 | |
CN110428810B (zh) | 一种语音唤醒的识别方法、装置及电子设备 | |
CN110047471A (zh) | 语音唤醒方法 | |
KR20160007527A (ko) | 타깃 키워드를 검출하기 위한 방법 및 장치 | |
US20120078397A1 (en) | System and method of smart audio logging for mobile devices | |
CN102971787A (zh) | 录音结束点检测方法及*** | |
CN111653276B (zh) | 一种语音唤醒***及方法 | |
CN111833902B (zh) | 唤醒模型训练方法、唤醒词识别方法、装置及电子设备 | |
WO2021098153A1 (zh) | 目标用户改变的检测方法、***、电子设备和存储介质 | |
JPH10210075A (ja) | 有音検知装置および方法 | |
CN112116927A (zh) | 实时检测音频信号中的语音活动 | |
KR20080059881A (ko) | 음성 신호의 전처리 장치 및 방법 | |
CN105609118B (zh) | 语音检测方法及装置 | |
CN112802498B (zh) | 语音检测方法、装置、计算机设备和存储介质 | |
CN108182953B (zh) | 音频尾部pop音处理方法和装置 | |
CN113689847A (zh) | 语音交互方法、装置及语音芯片模组 | |
CN109147783B (zh) | 基于k歌***的语音识别方法、介质及*** | |
CN110556128A (zh) | 一种语音活动性检测方法、设备及计算机可读存储介质 | |
CN110689898A (zh) | 用于生猪的音频信号的压缩方法及*** | |
CN110706712A (zh) | 家居环境下的录音重放检测方法 | |
CN104702366B (zh) | 一种处理无线体域网数据的方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190723 |