CN114863915A

CN114863915A - 一种基于语义保留的语音唤醒方法及***

Info

Publication number: CN114863915A
Application number: CN202210780418.3A
Authority: CN
Inventors: 李郡; 付冠宇; 王啸; 尚德龙; 周玉梅
Original assignee: Zhongke Nanjing Intelligent Technology Research Institute
Current assignee: Zhongke Nanjing Intelligent Technology Research Institute
Priority date: 2022-07-05
Filing date: 2022-07-05
Publication date: 2022-08-05

Abstract

本发明涉及一种基于语义保留的语音唤醒方法及***。该方法包括：获取语音样本数据，并对所述语音样本数据进行特征提取，确定连续声学特征帧相关信息；所述连续声学特征帧相关信息包括：梅尔频率倒谱系数、帧移和单帧帧长；利用关键词对所述连续声学特征帧进行标记，确定流式帧级别标签；所述流式帧级别标签包括：关键词语义帧标签和非关键词语义帧标签；根据连续声学特征帧以及对应的流式帧级别标签训练神经网络，确定流式语音唤醒***神经网络；利用流式语音唤醒***神经网络进行语音数据的识别，并根据识别结果相应的进行语音唤醒。本发明能够提高语音唤醒的准确率和稳定性。

Description

一种基于语义保留的语音唤醒方法及***

技术领域

本发明涉及语音唤醒领域，特别是涉及一种基于语义保留的语音唤醒方法及***。

背景技术

随着智能设备的发展，语音交互被广泛应用，而语音唤醒***是启用语音交互的关键。语音唤醒***的目标，是在无手动操作的情况下，在连续语音输入中找到设定关键词。为达到一定的用户体验，语音唤醒***应满足高准确率和高稳定性的要求。

因此，为了提高语音唤醒的准确率和稳定性，亟需提供一种新的语音唤醒方法或***。

发明内容

本发明的目的是提供一种基于语义保留的语音唤醒方法及***，能够提高语音唤醒的准确率和稳定性。

为实现上述目的，本发明提供了如下方案：

一种基于语义保留的语音唤醒方法，包括：

获取语音样本数据，并对所述语音样本数据进行特征提取，确定连续声学特征帧相关信息；所述连续声学特征帧相关信息包括：梅尔频率倒谱系数、帧移和单帧帧长；

利用关键词对所述连续声学特征帧进行标记，确定流式帧级别标签；所述流式帧级别标签包括：关键词语义帧标签和非关键词语义帧标签；

根据连续声学特征帧以及对应的流式帧级别标签训练神经网络，确定流式语音唤醒***神经网络；

利用流式语音唤醒***神经网络进行语音数据的识别，并根据识别结果相应的进行语音唤醒。

可选地，所述利用关键词对所述连续声学特征帧进行标记，确定流式帧级别标签，具体包括：

对每一语音样本数据的连续声学特征帧标记保留语义的音素级别标签；保留语义的音素级别标签包括：关键词语义段和非关键词语义段；

将保留语义的音素级别标签转换为流式帧级别标签。

可选地，所述根据连续声学特征帧以及对应的流式帧级别标签训练神经网络，确定流式语音唤醒***神经网络，之前还包括：

判断连续声学特征帧是否满足设定帧数；所述设定帧数应涵盖语音样本数据中所有关键词长度；

若不满足，则在连续声学特征帧的前方进行补零，进而达到设定帧数；并且将补零相应的位置标记为非关键词语义帧标签。

对连续声学特征帧以及对应的流式帧级别标签进行数据增强处理。

可选地，所述根据连续声学特征帧以及对应的流式帧级别标签训练神经网络，确定流式语音唤醒***神经网络，具体包括：

根据神经网络的识别结果进行反向传播，进而更新神经网络的参数，完成语音唤醒神经网络模型的训练。

一种基于语义保留的语音唤醒***，包括：

语音样本数据获取模块，用于获取语音样本数据，并对所述语音样本数据进行特征提取，确定连续声学特征帧相关信息；所述连续声学特征帧相关信息包括：梅尔频率倒谱系数、帧移和单帧帧长；

流式帧级别标签确定模块，用于利用关键词对所述连续声学特征帧进行标记，确定流式帧级别标签；所述流式帧级别标签包括：关键词语义帧标签和非关键词语义帧标签；

流式语音唤醒***神经网络确定模块，用于根据连续声学特征帧以及对应的流式帧级别标签训练神经网络，确定流式语音唤醒***神经网络；

语音唤醒模块，用于利用流式语音唤醒***神经网络进行语音数据的识别，并根据识别结果相应的进行语音唤醒。

可选地，所述流式帧级别标签确定模块具体包括：

音素级别标签确定单元，用于对每一语音样本数据的连续声学特征帧标记保留语义的音素级别标签；保留语义的音素级别标签包括：关键词语义段和非关键词语义段；

流式帧级别标签确定单元，用于将保留语义的音素级别标签转换为流式帧级别标签。

可选地，还包括：

判断模块，用于判断连续声学特征帧是否满足设定帧数；所述帧数应涵盖语音样本数据中所有关键词长度；

补零模块，用于若不满足，则在连续声学特征帧的前方进行补零，进而达到设定帧数；并且将补零相应的位置标记为非关键词语义帧标签。

可选地，还包括：

数据增强模块，用于对连续声学特征帧以及对应的流式帧级别标签进行数据增强处理。

可选地，所述流式语音唤醒***神经网络确定模块具体包括：

流式语音唤醒***神经网络训练单元，用于根据神经网络的识别结果进行反向传播，进而更新神经网络的参数，完成语音唤醒神经网络模型的训练。

根据本发明提供的具体实施例，本发明公开了以下技术效果：

本发明所提供的一种基于语义保留的语音唤醒方法及***，利用关键词对所述连续声学特征帧进行标记，确定流式帧级别标签，利用保留了标签语义的输出帧进行识别和训练流式语音唤醒***神经网络，进而，当关键词一旦出现，即可保留一定时间的稳定唤醒状态，能够有效减少误唤醒，提高了语音唤醒***整体的稳定性和准确性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明所提供的一种基于语义保留的语音唤醒方法流程示意图；

图2为本发明所提供的一种基于语义保留的语音唤醒***结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

图1为本发明所提供的一种基于语义保留的语音唤醒方法流程示意图，如图1所示，本发明所提供的一种基于语义保留的语音唤醒方法，包括：

S101，获取语音样本数据，并对所述语音样本数据进行特征提取，确定连续声学特征帧相关信息；所述连续声学特征帧相关信息包括：梅尔频率倒谱系数、帧移和单帧帧长；

S102，利用关键词对所述连续声学特征帧进行标记，确定流式帧级别标签；所述流式帧级别标签包括：关键词语义帧标签和非关键词语义帧标签；其中，将包含关键词的非关键词语音段相应的标记为非关键词语义帧标签。

S102具体包括：

将保留语义的音素级别标签转换为流式帧级别标签。

若数据集中未写明每条语音的包含多少音素，每个音素处于语音哪段时间，可使用Montreal Forced Aligner工具获取。对关键词数据，从最后一个音素开始时间和结束时间的2/3处开始，到最后一个音素往后延长时间的1/2段为止，这段时间标记为关键词语义段，其他时间标记为非关键词语义段。对非关键词语音，所有时间均标记为非关键词语义段。

S103，根据连续声学特征帧以及对应的流式帧级别标签训练神经网络，确定流式语音唤醒***神经网络；神经网络的输入为二维特征，由连续声学特征帧按照时间顺序堆叠而成，时间帧总长度应能够覆盖训练数据集中的每个关键词样本。

所述神经网络是由若干卷积层和一层全连接层与softmax堆叠而成。

S103之前还包括：

对连续声学特征帧以及对应的流式帧级别标签进行数据增强处理；数据增强处理包括：加噪。

训练时，为了保证该神经网络为流式输出，若一个批次中存在样本的声学特征帧长度不一致，取最长的声学特征帧帧数的若干倍作为整个批次的标准帧数T_n，在每个样本的声学特征帧后进行补零达到标准帧数；除S102中已确定的关键词的帧级别关键词语义标签，每个样本剩余的后补零帧对应的标签均标记为帧级别非关键词语义帧；同时，也在声学特征帧的前方补零T-1帧，这些前方补零帧也标记为帧级别非关键词语义标签。

训练时，每个样本的输入尺寸应为（T_n+T-1）×F，其中（T_n+T-1）为时间帧数，F为每帧的特征数，每个样本的流式帧级别标签长度为T_n+T-1。按照时间帧顺序，依次取T×F尺寸大小的特征作为特征提取模块的输入，最后得到T_n帧输出特征，每帧输出特征展平后数目为F_e，因此特征提取模块对每个样本的输出尺寸为T_n×F_e。

神经网络在特征提取后的一层网络为全连接层与softmax的组合，它作为分类层，输出1+n类，包括1个非关键词类别和n个关键词类别。分类层的输入为神经网络的特征提取模块的输出，分类层的输出尺寸对每个样本为T_n×（1+n）。

S103具体包括：

每个样本的流式帧级别标签长度为T_n+T-1，每个样本的神经网络分类层输出为T_n×（1+n），则流式帧级别标签后T_n个帧级别标签可用于反向传播。对关键词，选择帧级别标签中所有标记为关键词语义的帧，以及部分或所有标记为非关键词语义的帧进行反向传播；对非关键词，选择流式帧级别标签中的后T_n个非关键词语义帧用于反向传播。

S104，利用流式语音唤醒***神经网络进行语音数据的识别，并根据识别结果相应的进行语音唤醒。

与已有方法相比，例如与用时间移动进行数据增强以识别不同时间段的语音相比，本发明提出的基于语义保留的流式语音唤醒模型训练方法，直接使用所有保留了标签语义的输出帧参与训练，这样在语音唤醒***进行实际部署时，关键词一旦出现，即可保留一定时间的稳定唤醒状态，提高了语音唤醒***整体的稳定性和准确性。

图2为本发明所提供的一种基于语义保留的语音唤醒***结构示意图，如图2所示，本发明所提供的一种基于语义保留的语音唤醒***，包括：

语音样本数据获取模块201，用于获取语音样本数据，并对所述语音样本数据进行特征提取，确定连续声学特征帧相关信息；所述连续声学特征帧相关信息包括：梅尔频率倒谱系数、帧移和单帧帧长；

流式帧级别标签确定模块202，用于利用关键词对所述连续声学特征帧进行标记，确定流式帧级别标签；所述流式帧级别标签包括：关键词语义帧标签和非关键词语义帧标签；

流式语音唤醒***神经网络确定模块203，用于根据连续声学特征帧以及对应的流式帧级别标签训练神经网络，确定流式语音唤醒***神经网络；

语音唤醒模块204，用于利用流式语音唤醒***神经网络进行语音数据的识别，并根据识别结果相应的进行语音唤醒。

所述流式帧级别标签确定模块202具体包括：

本发明所提供的一种基于语义保留的语音唤醒***，还包括：

所述流式语音唤醒***神经网络确定模块203具体包括：

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的***而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种基于语义保留的语音唤醒方法，其特征在于，包括：

2.根据权利要求1所述的一种基于语义保留的语音唤醒方法，其特征在于，所述利用关键词对所述连续声学特征帧进行标记，确定流式帧级别标签，具体包括：

将保留语义的音素级别标签转换为流式帧级别标签。

3.根据权利要求1所述的一种基于语义保留的语音唤醒方法，其特征在于，所述根据连续声学特征帧以及对应的流式帧级别标签训练神经网络，确定流式语音唤醒***神经网络，之前还包括：

4.根据权利要求1所述的一种基于语义保留的语音唤醒方法，其特征在于，所述根据连续声学特征帧以及对应的流式帧级别标签训练神经网络，确定流式语音唤醒***神经网络，之前还包括：

5.根据权利要求1所述的一种基于语义保留的语音唤醒方法，其特征在于，所述根据连续声学特征帧以及对应的流式帧级别标签训练神经网络，确定流式语音唤醒***神经网络，具体包括：

6.一种基于语义保留的语音唤醒***，其特征在于，包括：

7.根据权利要求6所述的一种基于语义保留的语音唤醒***，其特征在于，所述流式帧级别标签确定模块具体包括：

8.根据权利要求6所述的一种基于语义保留的语音唤醒***，其特征在于，还包括：

判断模块，用于判断连续声学特征帧是否满足设定帧数；所述设定帧数应涵盖语音样本数据中所有关键词长度；

9.根据权利要求6所述的一种基于语义保留的语音唤醒***，其特征在于，还包括：

10.根据权利要求6所述的一种基于语义保留的语音唤醒***，其特征在于，所述流式语音唤醒***神经网络确定模块具体包括：