CN112669830A

CN112669830A - 一种端到端多唤醒词的识别***

Info

Publication number: CN112669830A
Application number: CN202011500211.3A
Authority: CN
Inventors: 王建兵; 厉伟成
Original assignee: Shanghai Rongda Digital Technology Co ltd
Current assignee: Shanghai Rongda Digital Technology Co ltd
Priority date: 2020-12-18
Filing date: 2020-12-18
Publication date: 2021-04-16

Abstract

本发明属于语音识别技术领域，尤其是一种端到端多唤醒词的识别***，现提出以下方案，包括唤醒***，所述唤醒***包括有VAD检测模块、唤醒识别模块和唤醒确认模块，且唤醒***的工作流程包括以下步骤：S1：首先进行音频采集，然后对采集的语音做VAD(Voice Activity Detection语音活动检测)检测，即语音活动检测，可过滤掉大部分的静音和噪音音频；S2：其次对通过VAD检测的语音做唤醒识别，通过神经网络对输入的音频做判断，输出识别结果。本发明通过使用神经网络算法解决传统语音识别的问题，此技术及***目的就是为了减少语音识别中不必要的音频采集，避免出现语音误识别，减少能量消耗，通过语音唤醒还可以让处于休眠中的设备进入工作状态。

Description

一种端到端多唤醒词的识别***

技术领域

本发明涉及语音识别技术领域，尤其涉及一种端到端多唤醒词的识别***。

背景技术

早期的语音唤醒采用基于模板匹配的方式，把提前收集的唤醒的语料数据转换为特征序列，使用DTW(dynamic time warping，动态时间规整)等方法将这些序列作为标准模板。在进行唤醒识别的时候对输入的音频流进行同样的特征处理，将处理的结果与标准模板比对。当比对结果高于唤醒触发阈值时便触发唤醒条件。

现阶段的音唤醒项目中一般通过提取到的语音MFCC(Mel-scale FrequencyCepstral Coefficient，梅尔倒谱系数)特征，再将这些特征输入到DNN(Deep NeuralNetwork，深度神经网络)中进行预测，通过后处理方法得到最终输出的预测结果与设定的唤醒词进行比对当触发唤醒词时抛出唤醒信息。

但是目前的同类产品和处理方法还存在有以下的不足之处：基于HMM-DNN模型的语音唤醒项目中，不能有效利用历史信息来辅助当前任务，可能会导致识别的准确率不高，传统的语音唤醒技术只能识别出特定的唤醒词，无法实现多唤醒词唤醒，无法适用于复杂环境。

发明内容

基于背景技术中提出的技术问题，本发明提出了一种端到端多唤醒词的识别***。

本发明提出的一种端到端多唤醒词的识别***，所述唤醒***包括有VAD检测模块、唤醒识别模块和唤醒确认模块，且唤醒***的工作流程包括以下步骤：

S1：首先进行音频采集，然后对采集的语音做VAD(Voice Activity Detection语音活动检测)检测，即语音活动检测，可过滤掉大部分的静音和噪音音频；

S2：其次对通过VAD检测的语音做唤醒识别，通过神经网络对输入的音频做判断，输出识别结果；

S3：最后对唤醒识别输出的结果进行判断，触发唤醒词时对外抛出唤醒信息；

本发明通过使用神经网络算法解决传统语音识别的问题，此技术及***目的就是为了减少语音识别中不必要的音频采集，避免出现语音误识别，减少能量消耗，通过语音唤醒还可以让处于休眠中的设备进入工作状态，通过不同的唤醒语音可以让设备进入不同的工作状态。

优选地，所述语音活动检测(Voice Activity Detection,VAD)又称语音端点检测，可以有效的将语音段开始端点以及结束端点判断出来，这能有效的减少对不必要语音的计算和识别，降低计算的复杂度。

优选地，所述唤醒识别模块只需要计算有效音频片段即可，在实际应用中，需要准确的判断等级和测试语音的开头和结尾，这会影响整个语音唤醒***的识别效果，VAD是语音唤醒***的基础。

优选地，所述VAD检测是人声的话，会对人声的特征进行提取，然后传递到神经网络，利用唤醒识别模块进行唤醒判断。

优选地，所述唤醒判断出的词是唤醒词，唤醒确认模块就会抛出唤醒信息。

优选地，所述唤醒判断出的词不是唤醒词，***会回到音频采集阶段。

优选地，所述唤醒词识别框架中采用的是基于注意力机制的唤醒识别技术，它主要由编码器和注意力模块和解码端组成。

优选地，述编码器的作用是对输入特征的进一步提取得到更有代表性的特征，x是输入的特征，编码器是可以利用语音上下文信息的RNN(Recurrent Neural Network，循环神经网络)网络，分别为前向网络和后向网络，双向网络可以传递过去与将来的信息，从而达到提升高层特征的信息量。输入特征在经历过编码器处理后特征进入注意力层，注意力机制选择更可能包含唤醒词的特征信息部分，忽略不相关的部分，之后解码网络计算注意力自网络输出序列，在通过线性变换和Softmax函数计算解码器处理后的结果在预设唤醒词中对应的概率分布，最后按照概率大小取概率分布中的前N个结果对外输出N*2的唤醒词矩阵，矩阵中包含预设的唤醒词以及当前识别结果中对应的识别概率，N为预设唤醒词数量。

优选地，在经历过所述语音唤醒识别后，识别模块抛出N*2的唤醒词矩阵，唤醒确认模块对矩阵进行后处理，计算出矩阵中概率最大的唤醒词，当该唤醒词超过设定阈值时，对外抛出该唤醒词以及对应的概率信息。

本发明中的有益效果为：

1、该端到端多唤醒词的识别***，本发明通过使用神经网络算法解决传统语音识别的问题，此技术及***目的就是为了减少语音识别中不必要的音频采集，避免出现语音误识别，减少能量消耗，通过语音唤醒还可以让处于休眠中的设备进入工作状态，通过不同的唤醒语音可以让设备进入不同的工作状态。

2、该端到端多唤醒词的识别***，通过设置有语音活动检测可以有效的将语音段开始端点以及结束端点判断出来，这能有效的减少对不必要语音的计算和识别，降低计算的复杂度。

3、该端到端多唤醒词的识别***，本发明可以利用历史信息来辅助当前任务，识别的准确率高，可实现多唤醒词唤醒，可有效适用于复杂环境，提高了装置的实用性。

该装置中未涉及部分均与现有技术相同或可采用现有技术加以实现。

附图说明

图1为本发明提出的一种端到端多唤醒词的识别***的主要框架图；

图2为本发明提出的一种端到端多唤醒词的识别***的算法方案的流程图；

图3为本发明提出的一种端到端多唤醒词的识别***的唤醒词识别框架流程图；

图4为本发明提出的一种端到端多唤醒词的识别***的基于注意力机制的语音唤醒框架图。

具体实施方式

下面结合具体实施方式对本专利的技术方案作进一步详细地说明。

下面详细描述本专利的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本专利，而不能理解为对本专利的限制。

在本专利的描述中，需要理解的是，术语“中心”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本专利和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本专利的限制。

在本专利的描述中，需要说明的是，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”、“设置”应做广义理解，例如，可以是固定相连、设置，也可以是可拆卸连接、设置，或一体地连接、设置。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本专利中的具体含义。

参照图1-4，一种端到端多唤醒词的识别***，包括唤醒***，唤醒***包括有VAD检测模块、唤醒识别模块和唤醒确认模块，且唤醒***的工作流程包括以下步骤：

本发明中，语音活动检测(Voice Activity Detection,VAD)又称语音端点检测，可以有效的将语音段开始端点以及结束端点判断出来，这能有效的减少对不必要语音的计算和识别，降低计算的复杂度。

本发明中，唤醒识别模块只需要计算有效音频片段即可，在实际应用中，需要准确的判断等级和测试语音的开头和结尾，这会影响整个语音唤醒***的识别效果，VAD是语音唤醒***的基础。

本发明中，VAD检测是人声的话，会对人声的特征进行提取，然后传递到神经网络，利用唤醒识别模块进行唤醒判断。

本发明中，唤醒判断出的词是唤醒词，唤醒确认模块就会抛出唤醒信息。

本发明中，唤醒判断出的词不是唤醒词，***会回到音频采集阶段。

本发明中，唤醒词识别框架中采用的是基于注意力机制的唤醒识别技术，它主要由编码器和注意力模块和解码端组成。

本发明中，编码器的作用是对输入特征的进一步提取得到更有代表性的特征，x是输入的特征，编码器是可以利用语音上下文信息的RNN(Recurrent Neural Network，循环神经网络)网络，分别为前向网络和后向网络，双向网络可以传递过去与将来的信息，从而达到提升高层特征的信息量。输入特征在经历过编码器处理后特征进入注意力层，注意力机制选择更可能包含唤醒词的特征信息部分，忽略不相关的部分，之后解码网络计算注意力自网络输出序列，在通过线性变换和Softmax函数计算解码器处理后的结果在预设唤醒词中对应的概率分布，最后按照概率大小取概率分布中的前N个结果对外输出N*2的唤醒词矩阵，矩阵中包含预设的唤醒词以及当前识别结果中对应的识别概率，N为预设唤醒词数量。

本发明中，在经历过语音唤醒识别后，识别模块抛出N*2的唤醒词矩阵，唤醒确认模块对矩阵进行后处理，计算出矩阵中概率最大的唤醒词，当该唤醒词超过设定阈值时，对外抛出该唤醒词以及对应的概率信息。

本发明中，语音唤醒的效果为：

总体召回率R效果达到98.7％以上，精确率高达100％

计算公式如下：

精确率＝正常唤醒/(正常唤醒+非正常唤醒)即P＝TP/(TP+FP)；

召回率＝正常唤醒/(正常唤醒+正常不唤醒)即R＝TP/(TP+FN)；

通过不断的优化，语音唤醒的召回率达到98.7％、精确率更是高达100％处于行业领先水平。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，根据本发明的技术方案及其发明构思加以等同替换或改变，都应涵盖在本发明的保护范围之内。

Claims

1.一种端到端多唤醒词的识别***，其特征在于，所述唤醒***包括有VAD检测模块、唤醒识别模块和唤醒确认模块，且唤醒***的工作流程包括以下步骤：

S3：最后对唤醒识别输出的结果进行判断，触发唤醒词时对外抛出唤醒信息。

2.根据权利要求1所述的一种端到端多唤醒词的识别***，其特征在于，所述语音活动检测(Voice Activity Detection,VAD)又称语音端点检测，可以有效的将语音段开始端点以及结束端点判断出来，这能有效的减少对不必要语音的计算和识别，降低计算的复杂度。

3.根据权利要求1所述的一种端到端多唤醒词的识别***，其特征在于，所述唤醒识别模块只需要计算有效音频片段即可，在实际应用中，需要准确的判断等级和测试语音的开头和结尾，这会影响整个语音唤醒***的识别效果，VAD是语音唤醒***的基础。

4.根据权利要求1所述的一种端到端多唤醒词的识别***，其特征在于,所述VAD检测是人声的话，会对人声的特征进行提取，然后传递到神经网络，利用唤醒识别模块进行唤醒判断。

5.根据权利要求4所述的一种端到端多唤醒词的识别***，其特征在于，所述唤醒判断出的词是唤醒词，唤醒确认模块就会抛出唤醒信息。

6.根据权利要求4所述的一种端到端多唤醒词的识别***，其特征在于，所述唤醒判断出的词不是唤醒词，***会回到音频采集阶段。

7.根据权利要求6所述的一种端到端多唤醒词的识别***，其特征在于，所述唤醒词识别框架中采用的是基于注意力机制的唤醒识别技术，它主要由编码器和注意力模块和解码端组成。

8.根据权利要求7所述的一种端到端多唤醒词的识别***，其特征在于，所述编码器的作用是对输入特征的进一步提取得到更有代表性的特征，x是输入的特征，编码器是可以利用语音上下文信息的RNN(Recurrent Neural Network，循环神经网络)网络，分别为前向网络和后向网络，双向网络可以传递过去与将来的信息，从而达到提升高层特征的信息量。输入特征在经历过编码器处理后特征进入注意力层，注意力机制选择更可能包含唤醒词的特征信息部分，忽略不相关的部分，之后解码网络计算注意力自网络输出序列，在通过线性变换和Softmax函数计算解码器处理后的结果在预设唤醒词中对应的概率分布，最后按照概率大小取概率分布中的前N个结果对外输出N*2的唤醒词矩阵，矩阵中包含预设的唤醒词以及当前识别结果中对应的识别概率，N为预设唤醒词数量。

9.根据权利要求8所述的一种端到端多唤醒词的识别***，其特征在于，在经历过所述语音唤醒识别后，识别模块抛出N*2的唤醒词矩阵，唤醒确认模块对矩阵进行后处理，计算出矩阵中概率最大的唤醒词，当该唤醒词超过设定阈值时，对外抛出该唤醒词以及对应的概率信息。