CN113192537A

CN113192537A - 唤醒程度识别模型训练方法及语音唤醒程度获取方法

Info

Publication number: CN113192537A
Application number: CN202110462278.0A
Authority: CN
Inventors: 邵池; 黄东延
Original assignee: Shenzhen Ubtech Technology Co ltd
Current assignee: Shenzhen Ubtech Technology Co ltd
Priority date: 2021-04-27
Filing date: 2021-04-27
Publication date: 2021-07-30
Anticipated expiration: 2041-04-27
Also published as: WO2022227507A1; CN113192537B

Abstract

本申请实施例提供了一种唤醒程度识别模型训练方法及语音唤醒程度获取方法，其中方法包括：获取样本语音的唤醒程度标签，并根据所述样本语音的唤醒程度标签对部分所述样本语音进行数据增强；提取所述样本语音对应帧序列的特征矩阵；将各类唤醒程度标签对应帧序列的特征矩阵及对应的唤醒程度标签输入神经网络进行训练。通过所提供的唤醒程度识别模型训练方案，针对不同唤醒程度的样本语音进行特征提取，并输入到神经网络中进行训练，这样即可得到能够识别语音唤醒程度的唤醒程度识别模型。将唤醒程度识别模型应用于语音识别场景，在基础语音识别的基础上增加唤醒程度的识别，增强语音识别的准确性和多样性。

Description

唤醒程度识别模型训练方法及语音唤醒程度获取方法

技术领域

本发明涉及语音处理领域，尤其涉及一种唤醒程度识别模型训练方法及语音唤醒程度获取方法。

背景技术

在许多与医疗健康、教育和安全相关的场景中，情感识别成为现代人机交互***不可或缺的一部分。在情感识别***中，可以将语音、文本、视频等作为单独的输入，也可以使用它们的组合作为多模态的输入，本文主要关注基于语音的情感识别。通常，语音情感识别是采用经过切分的简短语句以有监督的方式进行识别，情感的标签可以采用两种格式，即离散标签，例如幸福，悲伤，愤怒和中性，或连续标签，例如激活(镇静)对(唤起)、效价(负对正)和优势(弱对强)。近年来，连续情绪属性因在描述更复杂的情绪状态方面更加灵活，而受到许多关注。连续属性分类在语音情绪识别中有极其重要的作用，唤醒程度也影响了情感识别的速度和准确度，一般来讲，唤醒程度越高，情感识别就越迅速，识别准确率也相应越高，通过预先识别唤醒程度也可以一定程度上提高语义情感识别的准确度。

可见，亟需一种能识别语音的连续情感中的唤醒程度高低的方法。

发明内容

为了解决上述技术问题，本发明实施例提供了一种唤醒程度识别模型训练方法及语音唤醒程度获取方法。

第一方面，本发明实施例提供了一种唤醒程度识别模型训练方法，包括：

获取样本语音的唤醒程度标签，并根据所述样本语音的唤醒程度标签对部分所述样本语音进行数据增强；

提取所述样本语音对应帧序列的特征矩阵；

将各类唤醒程度标签对应帧序列的特征矩阵及对应的唤醒程度标签输入神经网络进行训练。

根据本公开的一种具体实施方式，所述获取样本语音的唤醒程度标签的步骤，包括：

从预设数据集中，选取对应第一唤醒程度标签的第一类样本语音、对应第二唤醒程度标签的第二类样本语音和对应第三唤醒程度标签的第三类样本语音。

判断各类唤醒程度标签的样本语音的数量之间的差值是否大于或者等于预设数量差值；

若各类唤醒程度标签的样本语音的数量之间的差值大于或者等于预设数量差值，对数量较少的样本语音进行数据增强处理，直至各类唤醒程度标签的样本语音的数量之间的差值小于所述预设数量差值。

根据本公开的一种具体实施方式，所述对数量较少的样本语音进行数据增强处理的步骤，包括：

为初始的样本语音添加噪声，得到扩增语音；

将初始的样本语音和扩增语音相加后的语音作为用于训练的样本语音。

根据本公开的一种具体实施方式，所述为样本语音添加噪声，得到扩增语音的步骤，包括：

利用librosa库加载所述样本音频，得到浮点型时间序列；

对浮点型时间序列S进行以下公式的计算，得到加噪后的扩增语音SN_i，

其中，i＝1,2,...,L，S_i表示浮点型时间序列，L表示浮点型时间序列的长度，r为w的系数，r的取值范围为[0.001，0.002]，w为服从高斯分布的浮点数。

根据本公开的一种具体实施方式，所述提取所述样本语音对应帧序列的特征矩阵的步骤，包括：

将样本语音划分为预设数量的语音帧；

按照帧序列提取各语音帧的低级描述符特征及一阶导；

根据帧序列和各语音帧的低级描述符特征及一阶导，得到对应各类样本语音的特征矩阵。

根据本公开的一种具体实施方式，所述神经网络包括门控循环单元、注意力层和用于情感分类的第一全连接层；

所述将各类唤醒程度标签对应帧序列的特征矩阵及对应的唤醒程度标签输入神经网络进行训练的步骤，包括：

将样本语音对应帧序列的特征矩阵及对应的唤醒程度标签馈入所述门控循环单元，在所述门控循环单元内部形成对应各时间步的隐藏状态；

将对应时间序列的隐藏状态模型输入注意力层，确定各时间步的特征权重值；

将对应各时间步的隐藏状态及特征权重值加权求和，得到对应样本语音的级别；

将所述样本语音的级别输入所述第一全连接层，得到所述样本语音的唤醒程度标签分类结果。

根据本公开的一种具体实施方式，所述将样本语音对应帧序列的特征矩阵及对应的唤醒程度标签馈入所述门控循环单元，在所述门控循环单元内部形成对应各时间步的隐藏状态的步骤，包括：

将样本语音对应帧序列的特征矩阵及对应的唤醒程度标签馈入所述门控循环单元，在所述门控循环单元内部形成内部隐藏状态h_t；

在每个时间步使用特征x_t和先前时间步的隐藏状态h_t-1更新；其中，隐藏状态更新公式为h_t＝f_θ(h_t-1,x_t)，f_θ是权重参数为θ的RNN函数，h_t表示第t个时间步的隐藏状态，x_t表示x＝{x_1：t}中的第t个特征。

根据本公开的一种具体实施方式，所述将对应时间序列的隐藏状态模型输入注意力层，确定各时间步的特征权重值，将对应各时间步的隐藏状态及特征权重值加权求和，得到对应样本语音的级别的步骤，包括：

计算得到的各时间步的特征权重值

以及，样本语音的级别

其中，α_t表示时间步t的特征权重值，h_t为门控循环单元输出的隐藏状态，W表示要学习的参数向量，C表示样本语音的级别。

根据本公开的一种具体实施方式，所述神经网络还包括用于性别分类的第二全连接层；

所述将对应各时间步的隐藏状态及特征权重值加权求和，得到对应样本语音的级别的步骤之后，所述方法还包括：

将所述样本语音的级别输入所述第二全连接层，得到所述样本语音的说话人性别分类结果。

第二方面，本发明实施例提供了一种语音唤醒程度获取方法，所述方法包括：

获取待识别语音；

将所述待识别语音输入唤醒程度识别模型，输出所述待识别语音的唤醒程度标签，所述唤醒程度识别模型是根据上述任一项所述的唤醒程度识别模型训练方法获得的。

第三方面，本发明实施例提供了一种唤醒程度识别模型训练装置，所述装置包括：

获取模块，用于获取样本语音的唤醒程度标签，并根据所述样本语音的唤醒程度标签对部分所述样本语音进行数据增强；

提取模块，用于提取所述样本语音对应帧序列的特征矩阵；

训练模块，用于将各类唤醒程度标签对应帧序列的特征矩阵及对应的唤醒程度标签输入神经网络进行训练。

第四方面，本发明实施例提供了一种语音唤醒程度获取装置，所述装置包括：

获取模块，用于获取待识别语音；

识别模块，用于将所述待识别语音输入唤醒程度识别模型，输出所述待识别语音的唤醒程度标签，所述唤醒程度识别模型是根据第一方面中任一项所述的唤醒程度识别模型训练方法获得的。

第五方面，本发明实施例提供了一种计算机设备，包括存储器以及处理器，所述存储器用于存储计算机程序，所述计算机程序在所述处理器运行时执行第一方面中任一项所述的唤醒程度识别模型训练方法，或者第二方面所述的语音唤醒程度获取方法。

第六方面，本发明实施例提供了一种计算机可读存储介质，其存储有计算机程序，所述计算机程序在处理器上运行时执行第一方面中任一项所述的唤醒程度识别模型训练方法，或者第二方面所述的语音唤醒程度获取方法。

上述本申请提供的唤醒程度识别模型训练方法及语音唤醒程度获取方法，针对不同唤醒程度的样本语音进行特征提取，并输入到神经网络中进行训练，这样即可得到能够识别语音唤醒程度的唤醒程度识别模型。将唤醒程度识别模型应用于语音识别场景，在基础语音识别的基础上增加唤醒程度的识别，增强语音识别的准确性和多样性。

附图说明

为了更清楚地说明本发明的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对本发明保护范围的限定。在各个附图中，类似的构成部分采用类似的编号。

图1示出了本申请实施例提供的一种唤醒程度识别模型训练方法的流程示意图；

图2示出了本申请实施例提供的唤醒程度识别模型训练方法所涉及的数据增强的部分流程示意图；

图3示出了本申请实施例提供的唤醒程度识别模型训练方法所涉及的提取特征矩阵的部分流程示意图；

图4示出了本申请实施例提供的唤醒程度识别模型训练方法所涉及的模型训练的部分流程示意图；

图5示出了本申请实施例提供的唤醒程度识别模型训练方法所涉及的神经网络的部分结构示意图；

图6示出了本申请实施例提供的一种语音唤醒程度获取方法的流程示意图；

图7示出了本申请实施例提供的一种唤醒程度识别模型训练装置的模块框图；

图8示出了本申请实施例提供的一种语音唤醒程度获取装置的模块框图；

图9示出了本申请实施例提供的一种计算机设备的硬件结构图。

具体实施方式

下面将结合本发明实施例中附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。

通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

在下文中，可在本发明的各种实施例中使用的术语“包括”、“具有”及其同源词仅意在表示特定特征、数字、步骤、操作、元件、组件或前述项的组合，并且不应被理解为首先排除一个或更多个其它特征、数字、步骤、操作、元件、组件或前述项的组合的存在或增加一个或更多个特征、数字、步骤、操作、元件、组件或前述项的组合的可能性。

此外，术语“第一”、“第二”、“第三”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

除非另有限定，否则在这里使用的所有术语(包括技术术语和科学术语)具有与本发明的各种实施例所属领域普通技术人员通常理解的含义相同的含义。所述术语(诸如在一般使用的词典中限定的术语)将被解释为具有与在相关技术领域中的语境含义相同的含义并且将不被解释为具有理想化的含义或过于正式的含义，除非在本发明的各种实施例中被清楚地限定。

实施例1

参见图1，为本发明实施例提供的一种唤醒程度识别模型训练方法(以下简称模型训练方法)的流程示意图。如图1所示，所述模型训练方法主要包括以下步骤：

S101，获取样本语音的唤醒程度标签，并根据所述样本语音的唤醒程度标签对部分所述样本语音进行数据增强；

本实施例提供的模型训练方法，主要是利用已知唤醒程度Arousal的样本语音来训练基础的神经网络，以训练得到具备唤醒程度识别功能的唤醒程度识别模型。唤醒程度表示情绪生理激活水平，例如相对平静来说，“愤怒”或“兴奋”的唤醒程度更高。

唤醒程度标签通常为连续情感属性，其原始标签的值分布在[1，5]之间。为便于进行区分，可以将连续的情感属性离散化为三类，例如将连续的唤醒值划分为3个区间，例如将[1，2]之间的唤醒程度归类为唤醒程度相对较低的第一唤醒程度，将(2，4)之间的唤醒程度归类为唤醒程度居中的第二唤醒程度，将[4，5]之间的唤醒程度归类为唤醒程度相对较高的第三唤醒程度。为便于描述，还可以对属于这三类的语音重新赋予标签1、2、3等，这样就可以将问题转化为在唤醒标签上的情感三分类问题。当然，也可以有其他的分类方案，例如划分为零、低、中和高这四类标签等，不作限定。

在准备样本语音时，为训练唤醒程度识别模型，需要分别准备不同唤醒程度的样本语音并为各类唤醒程度的样本语音添加唤醒程度标签，以使神经网络学习不同唤醒程度的语音特征。

获取样本语音的方式可以有多种，根据本公开的一种具体实施方式，S101所述的获取对应各类唤醒程度的样本语音的步骤，可以包括：

针对唤醒程度的覆盖范围，可以将要识别语音的唤醒程度划分为三个级别，对应标签分别定义为第一唤醒程度标签、第二唤醒程度标签和第三唤醒程度标签，可以设定这三个唤醒程度标签对应的唤醒程度依次增强。再根据各类唤醒程度标签，获取对应的样本语音。即，选择唤醒程度相对较低的第一类样本语音对应第一唤醒程度标签，选择唤醒程度相对居中的第二类样本语音对应第二唤醒程度标签，选择唤醒程度相对较高的第三类样本语音对应第三唤醒程度标签。

进一步的，考虑到IEMOCAP数据集是语音情感识别领域内广泛使用的数据集之一，整个数据集从对话设计到情感标注都比较规范，且数据集包含对话较多，标注中包含离散的情感标签和连续的情感标签，符合本发明的要求。因此，在本实施例中，所述预设数据集选择互动式情感和弦动捕捉(IEMOCAP)数据集。在其他实施例中，亦可选择其他符合条件的数据集。

在利用IEMOCAP数据集提取样本语音时，可以根据数据集内记录的各样本语音的唤醒程度值，例如将唤醒程度值范围为[1，2]的样本语音作为所述第一类样本语音，将唤醒程度值范围为(2，4)的样本语音作为所述第二类样本语音，将唤醒程度值为[4，5]的样本语音作为所述第三类样本语音。当然也可以有其他的划分方式和语音选取方式，不作限定。此外，考虑到在进行模型训练时，所需要的样本语音的数量较多才能训练更高的识别进度。考虑到从预设数据集或者IEMOCAP数据集内获取的样本语音的数量较少，可以通过数据增强的方式来扩充样本语音的总数，以提高所训练模型的识别进度。

为优化模型训练效果，输入的各类样本语音的数量最好相同或者数量接近。根据本公开的一种具体实施方式，如图2所示，S101所述获取样本语音的唤醒程度标签，并根据所述样本语音的唤醒程度标签对部分所述样本语音进行数据增强的步骤，包括：

S201，判断各类唤醒程度标签的样本语音的数量之间的差值是否大于或者等于预设数量差值；

S202，若各类唤醒程度标签的样本语音的数量之间的差值大于或者等于预设数量差值，对数量较少的样本语音进行数据增强处理，直至各类唤醒程度标签的样本语音的数量之间的差值小于所述预设数量差值。

本实施方式中，预先设定训练所允许的样本语音的数量可以为约3000，各类样本语音之间的差值为预设数量差值，该预设数量差值可以设为0，即要求各类样本语音数量完全相同，也可以设为大于0的其他数值，即允许各类样本语音数量之间存在部分差值。

具体实施时，在获取样本语音之后，先判断各类唤醒程度标签的样本语音的数量之间的差值是否大于或者等于预设数量差值。若实际数量差值大于或者等于预设数量差值，则需要对数量较少的样本语音进行数据增强处理，若实际数量差值小于预设数量差值，则可以不需要对样本语音进行数据增强处理。

具体实施时，上述对数量较少的样本语音进行数据增强处理的步骤，可以包括：

为初始的样本语音添加噪声，得到扩增语音；

进一步的，所述为样本语音添加噪声，得到扩增语音的步骤，包括：

利用librosa库加载所述样本音频，得到浮点型时间序列；

其中，i＝1,2,...,L，S_i表示浮点型时间序列，L表示浮点型时间序列的长度，r为w的系数，r的取值范围为[0.001，0.002]，w为服从高斯分布的浮点数。在本实施例中，所述噪声为高斯白噪声。

例如，初始情况下，低类别样本1000个，中类别样本4000个，高类别样本3500个。对于低类别样本，可以先取r＝0.001，在初始的样本语音添加噪声得到新的1000个样本，此时，用于训练的低类别的样本语音增加至2000。若在此基础上再取r＝0.002，在原来的样本语音再次增加噪声，即可实现将低类别的样本语音增加至3000甚至更多。具体差值可以根据具体样本类型或者模型识别精度进行自定义设置。w在python中由numpy.random.normal(0，1，len(S))生成，本质就是长度为L的一系列符合高斯分布的数。

通过添加噪声的方式进行语音数据增强，可以避免和原来的语音一模一样，加了噪声之后的音频，和原来的语音有所不同，而且由于r值设置的较小，人耳听到的差别不大，加噪声前后的情感不会受到影响。

本实施方式中，通过对样本量少的类别的语音加噪声，达到扩增数据的效果，缓解低、中和高三个类别的样本之间数量的差异，保证每个批次中不会出现某一类样本过多的情况，从而在一定程度上防止训练出的模型总是偏向于预测为样本多的那一类。当然也可以在获取样本语音时直接限定获取的各类样本语音的数量小于预设数量差值，或者直接将样本语音原样复制以实现数据增强，以减少对模型训练效果的影响。

S102，提取所述样本语音对应帧序列的特征矩阵；

获取对应各类唤醒程度的样本语音之后，将样本语音进行分帧，得到对应各样本语音的帧序列。提取对应帧序列的特征矩阵，用于对各类唤醒程度的语音特征进行学习总结。

具体的，根据本公开的一种具体实施方式，S102所述的提取所述样本语音对应帧序列的特征矩阵的步骤，如图3所示，可以具体包括：

S301，将样本语音划分为预设数量的语音帧；

S302，按照帧序列提取各语音帧的低级描述符特征及一阶导；

S303，根据帧序列和各语音帧的低级描述符特征及一阶导，得到对应各类样本语音的特征矩阵。

语音情感识别时，将样本语音划分为对应时间轴的语音帧，相邻的语音帧之间的特征在相邻时段上是关联的甚至是重合的。在特征提取阶段，可以采用Opensmile工具提取低级描述符(Low-Level Descriptor，简称LLD)特征及其一阶导，低级描述符可以为IS13_compare。低级描述符特征为65个，低级描述符特征的一阶导也为65个，得到的特征总数为65+65＝130。

在对样本语音进行分帧时，帧长可以设置为20ms，帧移设为10ms。在IEMOCAP数据集中，每个语音的长度并不是固定的，所以每个语音提取出的帧数也不同。具体实施时，每条语音设置最大帧数可以统一设为750，若实际帧数(frame_num)不足750，则进行扩增padding操作，即在提取的二维特征后面补上(750-frame_num)行零。若实际帧数大于750，则进行截断操作，最终使得每个样本语音的特征矩阵是帧数*特征数，即750*130大小的二维矩阵。

S103，将各类唤醒程度标签对应帧序列的特征矩阵及对应的唤醒程度标签输入神经网络，学习训练得到唤醒程度识别模型。

依据上述步骤获取各类唤醒程度标签的样本语音对应的特征矩阵之后，即可将各类特征矩阵及对应唤醒程度标签输入预先准备好的神经网络进行训练，对特征进行学习总结，这样即可得到能够识别不同语音唤醒程度的唤醒程度识别模型。

根据本公开的一种具体实施方式，如图2和4所示，为各类唤醒程度标签对应帧序列的特征矩阵及对应的唤醒程度标签输入神经网络进行训练的步骤。如图5所示，所述神经网络包括门控循环单元、注意力层和用于情感分类的第一全连接层。本实施方式中，对特征矩阵进行编码的神经网络采用递归神经网络(Recurrent Neural Network，简称RNN)，RNN内依次包括变体门控单元(Gated Recurrent Unit，简称GRU)、注意力层和第一全连接层，相邻层之间为数据传输关系，通常上层输出数据为下层的输入。当然，进行特征编码的门变体控制单元也可以为其他编码单元，例如长短期记忆层(Long Short-Term Memory，简称LSTM)，不作限定。

如图4和图5所示，所述方法可以具体包括：

S401，将样本语音对应帧序列的特征矩阵及对应的唤醒程度标签馈入所述门控循环单元，在所述门控循环单元内部形成对应各时间步的隐藏状态；

在每个时间步使用特征x_t和先前时间步的隐藏状态h_t-1更新；其中，隐藏状态更新公式为：

h_t＝f_θ(h_t-1,x_t)， (2)

其中，f_θ是权重参数为θ的RNN函数，h_t表示第t个时间步的隐藏状态，x_t表示x＝{x_1：t}中的第t个特征。

S402，将对应时间序列的隐藏状态模型输入注意力层，确定各时间步的特征权重值；

注意力层被用于关注与情感相关的部分，具体来说，如图4所示，在时间步t，GRU的输出为h_t，首先通过softmax函数计算归一化重要性的特征权重：

α_t表示时间步t的特征权重值，h_t为门控循环单元输出的隐藏状态，W表示要学习的参数向量。

S403，将对应各时间步的隐藏状态及特征权重值加权求和，得到对应样本语音的级别；

根据权重执行加权和，将对应各时间步的隐藏状态及特征权重值加权求和，得到对应样本语音的级别：

S404，将所述样本语音的级别输入所述第一全连接层，得到所述样本语音的唤醒程度分类结果。

将经过注意力层得到的句子级别C输入到情感分类网络即第一全连接层，进行情感分类。此外，为了进行多任务分类，在第一全连接层的基础上，根据本公开的一种具体实施方式，所述神经网络还包括用于性别分类的第二全连接层。

本实施方式，设定多分类任务包括情感分类和性别分类，其中性别分类为二分类任务，作为情感分类的辅助任务。情感分类网络包括第一全连接层和softmax层；性别分类网络包括第二全连接层和softmax层，结构如图5所示，其中yE表示预测的某个句子所属低、中、高三类情感类别的概率；yG表示预测的某个句子说话人性别所属男、女类别的概率。多任务分类的损失方程如下：

其中，l_emotion和l_gender分别表示情感分类和性别分类的损失。α和β表示两个任务的权重，在本研究中，两者值都设置为1。两个任务的损失函数都为交叉熵损失，计算方法如下：

其中，N表示样本总数，K为总情感类别数，y_i,k表示第i个样本属于第k类的真实概率，p_i,k表示第i个样本属于第k类的预测概率。

其中，y_i表示样本真实标签，p_i样本属于第1类的预测概率。

综上所述，本申请提供的唤醒程度获取方法，针对不同唤醒程度标签的样本语音进行特征提取，并输入到神经网络中进行训练，这样即可得到能够识别语音唤醒程度标签的唤醒程度识别模型。将唤醒程度识别模型应用于语音识别场景，在基础语音识别的基础上增加唤醒程度的识别，增强语音识别的准确性和多样性。

实施例2

参见图6，为本发明实施例提供的一种语音唤醒程度获取方法的流程示意图。如图6所示，所述方法包括以下步骤：

S601，获取待识别语音；

S602，将所述待识别语音输入唤醒程度识别模型，输出所述待识别语音的唤醒程度标签。

其中，所述唤醒程度识别模型是根据上述实施例所述的唤醒程度识别模型训练方法获得的。

本实施方式，将上述实施例简历的唤醒程度识别模型加载到计算机设备内，应用于语音唤醒程度获取场景。将待识别语音输入加载有唤醒程度识别模型的计算机设备，即可输出该待识别语音的唤醒程度。所指待识别语音可以为计算机设备采集的语音，或者是从网络等其他渠道获取的语音等。

本实施例提供的语音滑行程度获取方法的具体实施过程，可以参见上述图1所示的实施例提供的唤醒程度识别模型训练方法的具体实施过程，在此不再一一赘述。

实施例3

参见图7，为本发明实施例提供的一种唤醒程度识别模型训练装置的模块框图。如图7所示，所述唤醒程度识别模型训练装置700主要包括：

获取模块701，用于获取样本语音的唤醒程度标签，并根据所述样本语音的唤醒程度标签对部分所述样本语音进行数据增强；

提取模块702，用于提取所述样本语音对应帧序列的特征矩阵；

训练模块703，用于将各类唤醒程度标签对应帧序列的特征矩阵及对应的唤醒程度标签输入神经网络进行训练。

实施例4

参见图8，为本发明实施例提供的一种语音唤醒程度获取装置的模块框图。如图8所示，所述语音唤醒程度获取装置800包括：

获取模块801，用于获取待识别语音；

识别模块802，用于将所述待识别语音输入唤醒程度识别模型，输出所述待识别语音的唤醒程度标签，所述唤醒程度识别模型是根据上述实施例所述的唤醒程度识别模型训练方法获得的。

此外，本公开实施例提供了一种计算机设备，包括存储器以及处理器，所述存储器存储有计算机程序，所述计算机程序在所述处理器上运行时执行上述方法实施例所提供的唤醒程度识别模型训练方法或者语音唤醒程度获取方法。

具体的，如图9所示，为实现本发明各个实施例的一种计算机设备，该计算机设备900包括但不限于：射频单元901、网络模块902、音频输出单元903、输入单元904、传感器905、显示单元906、用户输入单元907、接口单元908、存储器909、处理器910、以及电源911等部件。本领域技术人员可以理解，图9中示出的计算机设备结构并不构成对计算机设备的限定，计算机设备可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。在本发明实施例中，计算机设备包括但不限于手机、平板电脑、笔记本电脑、掌上电脑、车载终端、可穿戴设备、以及计步器等。

应理解的是，本发明实施例中，射频单元901可用于收发信息或通话过程中，信号的接收和发送，具体的，将来自基站的下行数据接收后，给处理器910处理；另外，将上行的数据发送给基站。通常，射频单元901包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器、双工器等。此外，射频单元901还可以通过无线通信***与网络和其他设备通信。

计算机设备通过网络模块902为用户提供了无线的宽带互联网访问，如帮助用户收发电子邮件、浏览网页和访问流式媒体等。

音频输出单元903可以将射频单元901或网络模块902接收的或者在存储器909中存储的音频数据转换成音频信号并且输出为声音。而且，音频输出单元903还可以提供与计算机设备900执行的特定功能相关的音频输出(例如，呼叫信号接收声音、消息接收声音等等)。音频输出单元903包括扬声器、蜂鸣器以及受话器等。

输入单元904用于接收音频或视频信号。输入单元904可以包括图形处理器(Graphics Processing Unit，简称GPU)9041和麦克风9042，图形处理器9041对在视频捕获模式或图像捕获模式中由图像捕获计算机设备(如摄像头)获得的静态图片或视频的图像数据进行处理。处理后的图像帧可以视频播放在显示单元906上。经图形处理器9041处理后的图像帧可以存储在存储器909(或其它存储介质)中或者经由射频单元901或网络模块902进行发送。麦克风9042可以接收声音，并且能够将这样的声音处理为音频数据。处理后的音频数据可以在电话通话模式的情况下转换为可经由射频单元901发送到移动通信基站的格式输出。

计算机设备900还包括至少一种传感器905，至少包含上述实施例提到的气压计。此外，传感器905还可以为其他传感器比如光传感器、运动传感器以及其他传感器。具体地，光传感器包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示面板9061的亮度，接近传感器可在计算机设备900移动到耳边时，关闭显示面板9061和/或背光。作为运动传感器的一种，加速计传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别计算机设备姿态(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等；传感器905还可以包括指纹传感器、压力传感器、虹膜传感器、分子传感器、陀螺仪、气压计、湿度计、温度计、红外线传感器等，在此不再赘述。

显示单元906用于视频播放由用户输入的信息或提供给用户的信息。显示单元906可包括显示面板9061，可以采用液晶面板(Liquid Crystal Display，简称LCD)、有机发光二极管(Organic Light-Emitting Diode，简称OLED)面板等形式。

用户输入单元907可用于接收输入的数字或字符信息，以及产生与计算机设备的用户设置以及功能控制有关的键信号输入。具体地，用户输入单元907包括触控面板9071以及其他输入设备9072。触控面板9071，也称为触摸屏，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板9071上或在触控面板9071附近的操作)。触控面板9071可包括触摸检测计算机设备和触摸控制器两个部分。其中，触摸检测计算机设备检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测计算机设备上接收触摸信息，并将它转换成触点坐标，再送给处理器910，接收处理器910发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板9071。除了触控面板9071，用户输入单元907还可以包括其他输入设备9072。具体地，其他输入设备9072可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆，在此不再赘述。

进一步的，触控面板9071可覆盖在显示面板9061上，当触控面板9071检测到在其上或附近的触摸操作后，传送给处理器910以确定触摸事件的类型，随后处理器910根据触摸事件的类型在显示面板9061上提供相应的视觉输出。虽然在图9中，触控面板9071与显示面板9061是作为两个独立的部件来实现计算机设备的输入和输出功能，但是在某些实施例中，可以将触控面板9071与显示面板9061集成而实现计算机设备的输入和输出功能，具体此处不做限定。

接口单元908为外部计算机设备与计算机设备900连接的接口。例如，外部计算机设备可以包括有线或无线头戴式耳机端口、外部电源(或电池充电器)端口、有线或无线数据端口、存储卡端口、用于连接具有识别模块的计算机设备的端口、音频输入/输出(I/O)端口、视频I/O端口、耳机端口等等。接口单元908可以用于接收来自外部计算机设备的输入(例如，数据信息、电力等等)并且将接收到的输入传输到计算机设备900内的一个或多个元件或者可以用于在计算机设备900和外部计算机设备之间传输数据。

存储器909可用于存储软件程序以及各种数据。存储器909可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作***、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器909可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

处理器910是计算机设备的控制中心，利用各种接口和线路连接整个计算机设备的各个部分，通过运行或执行存储在存储器909内的软件程序和/或模块，以及调用存储在存储器909内的数据，执行计算机设备的各种功能和处理数据，从而对计算机设备进行整体监控。处理器910可包括一个或多个处理单元；优选的，处理器910可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作***、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器910中。

计算机设备900还可以包括给各个部件供电的电源911(比如电池)，优选的，电源911可以通过电源管理***与处理器910逻辑相连，从而通过电源管理***实现管理充电、放电、以及功耗管理等功能。

另外，计算机设备900包括一些未示出的功能模块，在此不再赘述。

所述存储器用于存储计算机程序，所述计算机程序在所述处理器运行时执行上述的唤醒程度识别模型训练方法或者语音唤醒程度获取方法。

另外，本发明实施例提供了一种计算机可读存储介质，其存储有计算机程序，所述计算机程序在处理器上运行上述的唤醒程度识别模型训练方法或者语音唤醒程度获取方法。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，附图中的流程图和结构图显示了根据本发明的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在作为替换的实现方式中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，结构图和/或流程图中的每个方框、以及结构图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的***来实现，或者可以用专用硬件与计算机指令的组合来实现。

另外，在本发明各个实施例中的各功能模块或单元可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或更多个模块集成形成一个独立的部分。

所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是智能手机、个人计算机、服务器、或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，简称ROM)、随机存取存储器(Random Access Memory，简称RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。

Claims

1.一种唤醒程度识别模型训练方法，其特征在于，所述方法包括：

提取所述样本语音对应帧序列的特征矩阵；

2.根据权利要求1所述的方法，其特征在于，所述获取样本语音的唤醒程度标签的步骤，包括：

3.根据权利要求2所述的方法，其特征在于，所述根据所述样本语音的唤醒程度标签对部分所述样本语音进行数据增强的步骤，包括：

4.根据权利要求3所述的方法，其特征在于，所述对数量较少的样本语音进行数据增强处理的步骤，包括：

为初始的样本语音添加噪声，得到扩增语音；

5.根据权利要求4所述的方法，其特征在于，所述为样本语音添加噪声，得到扩增语音的步骤，包括：

利用librosa库加载所述样本语音，得到浮点型时间序列；

6.根据权利要求1至5中任一项所述的方法，其特征在于，所述提取所述样本语音对应帧序列的特征矩阵的步骤，包括：

将样本语音划分为预设数量的语音帧；

按照帧序列提取各语音帧的低级描述符特征及一阶导；

7.根据权利要求6所述的方法，其特征在于，所述神经网络包括门控循环单元、注意力层和用于情感分类的第一全连接层；

8.根据权利要求7所述的方法，其特征在于，所述将样本语音对应帧序列的特征矩阵及对应的唤醒程度标签馈入所述门控循环单元，在所述门控循环单元内部形成对应各时间步的隐藏状态的步骤，包括：

9.根据权利要求8所述的方法，其特征在于，所述将对应时间序列的隐藏状态模型输入注意力层，确定各时间步的特征权重值，将对应各时间步的隐藏状态及特征权重值加权求和，得到对应样本语音的级别的步骤，包括：

计算得到的各时间步的特征权重值

以及，样本语音的级别

10.根据权利要求9所述的方法，其特征在于，所述神经网络还包括用于性别分类的第二全连接层；

11.一种语音唤醒程度获取方法，其特征在于，所述方法包括：

获取待识别语音；

将所述待识别语音输入唤醒程度识别模型，输出所述待识别语音的唤醒程度标签，所述唤醒程度识别模型是根据权利要求1-10中任一项所述的唤醒程度识别模型训练方法获得的。

12.一种唤醒程度识别模型训练装置，其特征在于，所述装置包括：

提取模块，用于提取所述样本语音对应帧序列的特征矩阵；

训练模块，用于将各类唤醒程度对应帧序列的特征矩阵及对应的唤醒程度标签输入神经网络进行训练。

13.一种语音唤醒程度获取装置，其特征在于，所述装置包括：

获取模块，用于获取待识别语音；

识别模块，用于将所述待识别语音输入唤醒程度识别模型，输出所述待识别语音的唤醒程度标签，所述唤醒程度识别模型是根据权利要求1-10中任一项所述的唤醒程度识别模型训练方法获得的。

14.一种计算机设备，其特征在于，包括存储器以及处理器，所述存储器用于存储计算机程序，所述计算机程序在所述处理器运行时执行权利要求1至10中任一项所述的唤醒程度识别模型训练方法，或者权利要求11所述的语音唤醒程度获取方法。

15.一种计算机可读存储介质，其特征在于，其存储有计算机程序，所述计算机程序在处理器上运行时执行权利要求1至10中任一项所述的唤醒程度识别模型训练方法，或者权利要求11所述的语音唤醒程度获取方法。