CN112669830A - 一种端到端多唤醒词的识别*** - Google Patents

一种端到端多唤醒词的识别*** Download PDF

Info

Publication number
CN112669830A
CN112669830A CN202011500211.3A CN202011500211A CN112669830A CN 112669830 A CN112669830 A CN 112669830A CN 202011500211 A CN202011500211 A CN 202011500211A CN 112669830 A CN112669830 A CN 112669830A
Authority
CN
China
Prior art keywords
awakening
voice
wake
recognition
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011500211.3A
Other languages
English (en)
Inventor
王建兵
厉伟成
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Rongda Digital Technology Co ltd
Original Assignee
Shanghai Rongda Digital Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Rongda Digital Technology Co ltd filed Critical Shanghai Rongda Digital Technology Co ltd
Priority to CN202011500211.3A priority Critical patent/CN112669830A/zh
Publication of CN112669830A publication Critical patent/CN112669830A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Telephonic Communication Services (AREA)

Abstract

本发明属于语音识别技术领域,尤其是一种端到端多唤醒词的识别***,现提出以下方案,包括唤醒***,所述唤醒***包括有VAD检测模块、唤醒识别模块和唤醒确认模块,且唤醒***的工作流程包括以下步骤:S1:首先进行音频采集,然后对采集的语音做VAD(Voice Activity Detection语音活动检测)检测,即语音活动检测,可过滤掉大部分的静音和噪音音频;S2:其次对通过VAD检测的语音做唤醒识别,通过神经网络对输入的音频做判断,输出识别结果。本发明通过使用神经网络算法解决传统语音识别的问题,此技术及***目的就是为了减少语音识别中不必要的音频采集,避免出现语音误识别,减少能量消耗,通过语音唤醒还可以让处于休眠中的设备进入工作状态。

Description

一种端到端多唤醒词的识别***
技术领域
本发明涉及语音识别技术领域,尤其涉及一种端到端多唤醒词的识别***。
背景技术
早期的语音唤醒采用基于模板匹配的方式,把提前收集的唤醒的语料数据转换为特征序列,使用DTW(dynamic time warping,动态时间规整)等方法将这些序列作为标准模板。在进行唤醒识别的时候对输入的音频流进行同样的特征处理,将处理的结果与标准模板比对。当比对结果高于唤醒触发阈值时便触发唤醒条件。
现阶段的音唤醒项目中一般通过提取到的语音MFCC(Mel-scale FrequencyCepstral Coefficient,梅尔倒谱系数)特征,再将这些特征输入到DNN(Deep NeuralNetwork,深度神经网络)中进行预测,通过后处理方法得到最终输出的预测结果与设定的唤醒词进行比对当触发唤醒词时抛出唤醒信息。
但是目前的同类产品和处理方法还存在有以下的不足之处:基于HMM-DNN模型的语音唤醒项目中,不能有效利用历史信息来辅助当前任务,可能会导致识别的准确率不高,传统的语音唤醒技术只能识别出特定的唤醒词,无法实现多唤醒词唤醒,无法适用于复杂环境。
发明内容
基于背景技术中提出的技术问题,本发明提出了一种端到端多唤醒词的识别***。
本发明提出的一种端到端多唤醒词的识别***,所述唤醒***包括有VAD检测模块、唤醒识别模块和唤醒确认模块,且唤醒***的工作流程包括以下步骤:
S1:首先进行音频采集,然后对采集的语音做VAD(Voice Activity Detection语音活动检测)检测,即语音活动检测,可过滤掉大部分的静音和噪音音频;
S2:其次对通过VAD检测的语音做唤醒识别,通过神经网络对输入的音频做判断,输出识别结果;
S3:最后对唤醒识别输出的结果进行判断,触发唤醒词时对外抛出唤醒信息;
本发明通过使用神经网络算法解决传统语音识别的问题,此技术及***目的就是为了减少语音识别中不必要的音频采集,避免出现语音误识别,减少能量消耗,通过语音唤醒还可以让处于休眠中的设备进入工作状态,通过不同的唤醒语音可以让设备进入不同的工作状态。
优选地,所述语音活动检测(Voice Activity Detection,VAD)又称语音端点检测,可以有效的将语音段开始端点以及结束端点判断出来,这能有效的减少对不必要语音的计算和识别,降低计算的复杂度。
优选地,所述唤醒识别模块只需要计算有效音频片段即可,在实际应用中,需要准确的判断等级和测试语音的开头和结尾,这会影响整个语音唤醒***的识别效果,VAD是语音唤醒***的基础。
优选地,所述VAD检测是人声的话,会对人声的特征进行提取,然后传递到神经网络,利用唤醒识别模块进行唤醒判断。
优选地,所述唤醒判断出的词是唤醒词,唤醒确认模块就会抛出唤醒信息。
优选地,所述唤醒判断出的词不是唤醒词,***会回到音频采集阶段。
优选地,所述唤醒词识别框架中采用的是基于注意力机制的唤醒识别技术,它主要由编码器和注意力模块和解码端组成。
优选地,述编码器的作用是对输入特征的进一步提取得到更有代表性的特征,x是输入的特征,编码器是可以利用语音上下文信息的RNN(Recurrent Neural Network,循环神经网络)网络,分别为前向网络和后向网络,双向网络可以传递过去与将来的信息,从而达到提升高层特征的信息量。输入特征在经历过编码器处理后特征进入注意力层,注意力机制选择更可能包含唤醒词的特征信息部分,忽略不相关的部分,之后解码网络计算注意力自网络输出序列,在通过线性变换和Softmax函数计算解码器处理后的结果在预设唤醒词中对应的概率分布,最后按照概率大小取概率分布中的前N个结果对外输出N*2的唤醒词矩阵,矩阵中包含预设的唤醒词以及当前识别结果中对应的识别概率,N为预设唤醒词数量。
优选地,在经历过所述语音唤醒识别后,识别模块抛出N*2的唤醒词矩阵,唤醒确认模块对矩阵进行后处理,计算出矩阵中概率最大的唤醒词,当该唤醒词超过设定阈值时,对外抛出该唤醒词以及对应的概率信息。
本发明中的有益效果为:
1、该端到端多唤醒词的识别***,本发明通过使用神经网络算法解决传统语音识别的问题,此技术及***目的就是为了减少语音识别中不必要的音频采集,避免出现语音误识别,减少能量消耗,通过语音唤醒还可以让处于休眠中的设备进入工作状态,通过不同的唤醒语音可以让设备进入不同的工作状态。
2、该端到端多唤醒词的识别***,通过设置有语音活动检测可以有效的将语音段开始端点以及结束端点判断出来,这能有效的减少对不必要语音的计算和识别,降低计算的复杂度。
3、该端到端多唤醒词的识别***,本发明可以利用历史信息来辅助当前任务,识别的准确率高,可实现多唤醒词唤醒,可有效适用于复杂环境,提高了装置的实用性。
该装置中未涉及部分均与现有技术相同或可采用现有技术加以实现。
附图说明
图1为本发明提出的一种端到端多唤醒词的识别***的主要框架图;
图2为本发明提出的一种端到端多唤醒词的识别***的算法方案的流程图;
图3为本发明提出的一种端到端多唤醒词的识别***的唤醒词识别框架流程图;
图4为本发明提出的一种端到端多唤醒词的识别***的基于注意力机制的语音唤醒框架图。
具体实施方式
下面结合具体实施方式对本专利的技术方案作进一步详细地说明。
下面详细描述本专利的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本专利,而不能理解为对本专利的限制。
在本专利的描述中,需要理解的是,术语“中心”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本专利和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本专利的限制。
在本专利的描述中,需要说明的是,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”、“设置”应做广义理解,例如,可以是固定相连、设置,也可以是可拆卸连接、设置,或一体地连接、设置。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本专利中的具体含义。
参照图1-4,一种端到端多唤醒词的识别***,包括唤醒***,唤醒***包括有VAD检测模块、唤醒识别模块和唤醒确认模块,且唤醒***的工作流程包括以下步骤:
S1:首先进行音频采集,然后对采集的语音做VAD(Voice Activity Detection语音活动检测)检测,即语音活动检测,可过滤掉大部分的静音和噪音音频;
S2:其次对通过VAD检测的语音做唤醒识别,通过神经网络对输入的音频做判断,输出识别结果;
S3:最后对唤醒识别输出的结果进行判断,触发唤醒词时对外抛出唤醒信息;
本发明通过使用神经网络算法解决传统语音识别的问题,此技术及***目的就是为了减少语音识别中不必要的音频采集,避免出现语音误识别,减少能量消耗,通过语音唤醒还可以让处于休眠中的设备进入工作状态,通过不同的唤醒语音可以让设备进入不同的工作状态。
本发明中,语音活动检测(Voice Activity Detection,VAD)又称语音端点检测,可以有效的将语音段开始端点以及结束端点判断出来,这能有效的减少对不必要语音的计算和识别,降低计算的复杂度。
本发明中,唤醒识别模块只需要计算有效音频片段即可,在实际应用中,需要准确的判断等级和测试语音的开头和结尾,这会影响整个语音唤醒***的识别效果,VAD是语音唤醒***的基础。
本发明中,VAD检测是人声的话,会对人声的特征进行提取,然后传递到神经网络,利用唤醒识别模块进行唤醒判断。
本发明中,唤醒判断出的词是唤醒词,唤醒确认模块就会抛出唤醒信息。
本发明中,唤醒判断出的词不是唤醒词,***会回到音频采集阶段。
本发明中,唤醒词识别框架中采用的是基于注意力机制的唤醒识别技术,它主要由编码器和注意力模块和解码端组成。
本发明中,编码器的作用是对输入特征的进一步提取得到更有代表性的特征,x是输入的特征,编码器是可以利用语音上下文信息的RNN(Recurrent Neural Network,循环神经网络)网络,分别为前向网络和后向网络,双向网络可以传递过去与将来的信息,从而达到提升高层特征的信息量。输入特征在经历过编码器处理后特征进入注意力层,注意力机制选择更可能包含唤醒词的特征信息部分,忽略不相关的部分,之后解码网络计算注意力自网络输出序列,在通过线性变换和Softmax函数计算解码器处理后的结果在预设唤醒词中对应的概率分布,最后按照概率大小取概率分布中的前N个结果对外输出N*2的唤醒词矩阵,矩阵中包含预设的唤醒词以及当前识别结果中对应的识别概率,N为预设唤醒词数量。
本发明中,在经历过语音唤醒识别后,识别模块抛出N*2的唤醒词矩阵,唤醒确认模块对矩阵进行后处理,计算出矩阵中概率最大的唤醒词,当该唤醒词超过设定阈值时,对外抛出该唤醒词以及对应的概率信息。
本发明中,语音唤醒的效果为:
Figure BDA0002843380580000071
Figure BDA0002843380580000081
总体召回率R效果达到98.7%以上,精确率高达100%
计算公式如下:
精确率=正常唤醒/(正常唤醒+非正常唤醒)即P=TP/(TP+FP);
召回率=正常唤醒/(正常唤醒+正常不唤醒)即R=TP/(TP+FN);
通过不断的优化,语音唤醒的召回率达到98.7%、精确率更是高达100%处于行业领先水平。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。

Claims (9)

1.一种端到端多唤醒词的识别***,其特征在于,所述唤醒***包括有VAD检测模块、唤醒识别模块和唤醒确认模块,且唤醒***的工作流程包括以下步骤:
S1:首先进行音频采集,然后对采集的语音做VAD(Voice Activity Detection语音活动检测)检测,即语音活动检测,可过滤掉大部分的静音和噪音音频;
S2:其次对通过VAD检测的语音做唤醒识别,通过神经网络对输入的音频做判断,输出识别结果;
S3:最后对唤醒识别输出的结果进行判断,触发唤醒词时对外抛出唤醒信息。
2.根据权利要求1所述的一种端到端多唤醒词的识别***,其特征在于,所述语音活动检测(Voice Activity Detection,VAD)又称语音端点检测,可以有效的将语音段开始端点以及结束端点判断出来,这能有效的减少对不必要语音的计算和识别,降低计算的复杂度。
3.根据权利要求1所述的一种端到端多唤醒词的识别***,其特征在于,所述唤醒识别模块只需要计算有效音频片段即可,在实际应用中,需要准确的判断等级和测试语音的开头和结尾,这会影响整个语音唤醒***的识别效果,VAD是语音唤醒***的基础。
4.根据权利要求1所述的一种端到端多唤醒词的识别***,其特征在于,所述VAD检测是人声的话,会对人声的特征进行提取,然后传递到神经网络,利用唤醒识别模块进行唤醒判断。
5.根据权利要求4所述的一种端到端多唤醒词的识别***,其特征在于,所述唤醒判断出的词是唤醒词,唤醒确认模块就会抛出唤醒信息。
6.根据权利要求4所述的一种端到端多唤醒词的识别***,其特征在于,所述唤醒判断出的词不是唤醒词,***会回到音频采集阶段。
7.根据权利要求6所述的一种端到端多唤醒词的识别***,其特征在于,所述唤醒词识别框架中采用的是基于注意力机制的唤醒识别技术,它主要由编码器和注意力模块和解码端组成。
8.根据权利要求7所述的一种端到端多唤醒词的识别***,其特征在于,所述编码器的作用是对输入特征的进一步提取得到更有代表性的特征,x是输入的特征,编码器是可以利用语音上下文信息的RNN(Recurrent Neural Network,循环神经网络)网络,分别为前向网络和后向网络,双向网络可以传递过去与将来的信息,从而达到提升高层特征的信息量。输入特征在经历过编码器处理后特征进入注意力层,注意力机制选择更可能包含唤醒词的特征信息部分,忽略不相关的部分,之后解码网络计算注意力自网络输出序列,在通过线性变换和Softmax函数计算解码器处理后的结果在预设唤醒词中对应的概率分布,最后按照概率大小取概率分布中的前N个结果对外输出N*2的唤醒词矩阵,矩阵中包含预设的唤醒词以及当前识别结果中对应的识别概率,N为预设唤醒词数量。
9.根据权利要求8所述的一种端到端多唤醒词的识别***,其特征在于,在经历过所述语音唤醒识别后,识别模块抛出N*2的唤醒词矩阵,唤醒确认模块对矩阵进行后处理,计算出矩阵中概率最大的唤醒词,当该唤醒词超过设定阈值时,对外抛出该唤醒词以及对应的概率信息。
CN202011500211.3A 2020-12-18 2020-12-18 一种端到端多唤醒词的识别*** Pending CN112669830A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011500211.3A CN112669830A (zh) 2020-12-18 2020-12-18 一种端到端多唤醒词的识别***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011500211.3A CN112669830A (zh) 2020-12-18 2020-12-18 一种端到端多唤醒词的识别***

Publications (1)

Publication Number Publication Date
CN112669830A true CN112669830A (zh) 2021-04-16

Family

ID=75405186

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011500211.3A Pending CN112669830A (zh) 2020-12-18 2020-12-18 一种端到端多唤醒词的识别***

Country Status (1)

Country Link
CN (1) CN112669830A (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106157950A (zh) * 2016-09-29 2016-11-23 合肥华凌股份有限公司 语音控制***及其唤醒方法、唤醒装置和家电、协处理器
US20170206895A1 (en) * 2016-01-20 2017-07-20 Baidu Online Network Technology (Beijing) Co., Ltd. Wake-on-voice method and device
US9818407B1 (en) * 2013-02-07 2017-11-14 Amazon Technologies, Inc. Distributed endpointing for speech recognition
CN108198548A (zh) * 2018-01-25 2018-06-22 苏州奇梦者网络科技有限公司 一种语音唤醒方法及其***
CN111091839A (zh) * 2020-03-20 2020-05-01 深圳市友杰智新科技有限公司 语音唤醒方法、装置、存储介质及智能设备

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9818407B1 (en) * 2013-02-07 2017-11-14 Amazon Technologies, Inc. Distributed endpointing for speech recognition
US20170206895A1 (en) * 2016-01-20 2017-07-20 Baidu Online Network Technology (Beijing) Co., Ltd. Wake-on-voice method and device
CN106157950A (zh) * 2016-09-29 2016-11-23 合肥华凌股份有限公司 语音控制***及其唤醒方法、唤醒装置和家电、协处理器
CN108198548A (zh) * 2018-01-25 2018-06-22 苏州奇梦者网络科技有限公司 一种语音唤醒方法及其***
CN111091839A (zh) * 2020-03-20 2020-05-01 深圳市友杰智新科技有限公司 语音唤醒方法、装置、存储介质及智能设备

Similar Documents

Publication Publication Date Title
CN105632486B (zh) 一种智能硬件的语音唤醒方法和装置
EP3522153B1 (en) Voice control system, wakeup method and wakeup apparatus therefor, electrical appliance and co-processor
CN108198548B (zh) 一种语音唤醒方法及其***
CN110364143B (zh) 语音唤醒方法、装置及其智能电子设备
CN105529028B (zh) 语音解析方法和装置
CN107767861B (zh) 语音唤醒方法、***及智能终端
WO2020220439A9 (zh) 基于深度神经网络的高速公路交通流量状态识别方法
CN106601230B (zh) 基于连续混合高斯hmm模型的物流分拣地名语音识别方法、***及物流分拣***
CN106448663A (zh) 语音唤醒方法及语音交互装置
CN110570873B (zh) 声纹唤醒方法、装置、计算机设备以及存储介质
CN109243446A (zh) 一种基于rnn网络的语音唤醒方法
WO2021082572A1 (zh) 一种唤醒模型生成方法、智能终端唤醒方法及装置
US11100932B2 (en) Robust start-end point detection algorithm using neural network
CN103065629A (zh) 一种仿人机器人的语音识别***
CN111429901B (zh) 一种面向IoT芯片的多级语音智能唤醒方法及***
CN110232933A (zh) 音频检测方法、装置、存储介质及电子设备
CN108332843A (zh) 一种电气设备故障电弧的噪声诊断方法
CN111833902B (zh) 唤醒模型训练方法、唤醒词识别方法、装置及电子设备
CN101645269A (zh) 一种语种识别***及方法
CN103543814B (zh) 信号处理装置以及信号处理方法
CN109887511A (zh) 一种基于级联dnn的语音唤醒优化方法
CN111462756A (zh) 声纹识别方法、装置、电子设备及存储介质
Shrivastava et al. Optimize what matters: Training dnn-hmm keyword spotting model using end metric
CN111179944B (zh) 语音唤醒及年龄检测方法、装置及计算机可读存储介质
CN111508475A (zh) 一种机器人唤醒的语音关键词识别方法、装置及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20210416