CN108320733A

CN108320733A - 语音数据处理方法及装置、存储介质、电子设备

Info

Publication number: CN108320733A
Application number: CN201711364085.1A
Authority: CN
Inventors: 吴国兵; 潘嘉
Original assignee: Iflytek Shanghai Mdt Infotech Ltd
Current assignee: Iflytek Shanghai Mdt Infotech Ltd
Priority date: 2017-12-18
Filing date: 2017-12-18
Publication date: 2018-07-24
Anticipated expiration: 2037-12-18
Also published as: CN108320733B

Abstract

本公开提供一种语音数据处理方法及装置、存储介质、电子设备。该方法包括：获取用户输入的语音数据，所述语音数据包括成功唤醒智能终端的唤醒语音数据，以及表示操作意图的控制语音数据；提取所述语音数据的声学层面特征和/或语义层面特征，所述声学层面特征用于表示用户的发音特征，所述语义层面特征用于表示所述语音数据的文本特征；将所述声学层面特征和/或语义层面特征作为输入，经预先构建的语音判别模型处理后，确定所述唤醒语音数据是否为误唤醒数据。如此方案，利用筛除了误唤醒数据的唤醒语音数据进行模型优化，有助于提高唤醒模型的优化性能。

Description

语音数据处理方法及装置、存储介质、电子设备

技术领域

本公开涉及语音信号处理技术领域，具体地，涉及一种语音数据处理方法及装置、存储介质、电子设备。

背景技术

语音唤醒技术是语音信号处理技术领域的重要分支，在智能家居、智能机器人、智能车机、智能手机等方面有着重要的应用。

通常，智能终端的语音唤醒过程可以体现为：智能终端监听用户是否输入语音数据，如果接收到用户输入的语音数据，可以提取语音数据的声学特征；然后将声学特征作为输入，由预先构建的唤醒模型进行唤醒词识别，若识别结果为唤醒词，则唤醒成功，可以继续监听用户是否输入了操作意图；反之则唤醒失败，可以继续监听用户是否再次进行智能终端唤醒。其中，声学特征可以体现为语音数据的频谱特征，例如，梅尔频率倒谱系数(英文：Mel Frequency Cepstrum Coefficient，简称：MFCC)特征、感知线性预测(英文：Perceptual Linear Predictive，简称：PLP)特征等。

通常，初始唤醒模型的性能并不能达到最优水平，需要在使用过程中不断进行模型优化，来提高模型的识别准确率。具体地，可以将唤醒成功的语音数据视为正例语音数据，将唤醒失败的语音数据视为反例语音数据，基于区分性准则对当前唤醒模型进行训练优化。

在实际应用过程中，由于初始唤醒模型性能不高，导致唤醒成功的语音数据中可能存在误唤醒数据，例如，背景噪音、人声干扰、与唤醒词相近发音的非唤醒词等，均可能误唤醒智能终端，若将误唤醒数据作为正例语音数据进行模型优化，很可能导致唤醒模型的性能越来越差。

发明内容

本公开的主要目的是提供一种语音数据处理方法及装置、存储介质、电子设备，有助于提高唤醒模型的优化性能。

为了实现上述目的，本公开提供一种语音数据处理方法，所述方法包括：

获取用户输入的语音数据，所述语音数据包括成功唤醒智能终端的唤醒语音数据，以及表示操作意图的控制语音数据；

提取所述语音数据的声学层面特征和/或语义层面特征，所述声学层面特征用于表示用户的发音特征，所述语义层面特征用于表示所述语音数据的文本特征；

将所述声学层面特征和/或语义层面特征作为输入，经预先构建的语音判别模型处理后，确定所述唤醒语音数据是否为误唤醒数据。

可选地，获取所述唤醒语音数据的方式为：

判断预设时间段内是否连续采集到至少两条用于唤醒所述智能终端的语音数据；

如果所述预设时间段内连续采集到至少两条用于唤醒所述智能终端的语音数据，且所述至少两条用于唤醒所述智能终端的语音数据经当前唤醒模型处理后的得分值d满足以下条件：d₂≤d<d₁，则将所述至少两条用于唤醒所述智能终端的语音数据确定为所述唤醒语音数据，d₁为第一唤醒得分门限值，d₂为第二唤醒得分门限值。

可选地，所述声学层面特征包括当前唤醒模型的声学得分，则提取所述语音数据的声学层面特征包括：

获取所述当前唤醒模型针对所述唤醒语音数据的每个语音单元输出的前N个识别结果；

若各语音单元的前N个识别结果中包含该语音单元的正确发音，则判定该语音单元的识别结果为识别正确；

根据各语音单元的识别结果，统计所述唤醒语音数据的识别准确度，作为所述当前唤醒模型的声学得分。

可选地，所述声学层面特征还包括基频均值、短时平均能量、短时过零率中的至少一个；

和/或，

所述声学层面特征还包括清浊序列特征，则提取所述语音数据的声学层面特征包括：将基频均值、短时平均能量、短时过零率中的至少一个作为输入，经预先构建的清浊分类器处理后，输出所述唤醒语音数据的清浊序列{a₁，a₂，…，a_i，…，a_m}，其中，a_i表示所述唤醒语音数据的第i个音素对应的清浊类别；计算所述唤醒语音数据的清浊序列与所述唤醒语音数据对应的唤醒词的清浊序列之间的相似度，作为所述清浊序列特征；

和/或，

所述声学层面特征还包括音调序列特征，则提取所述语音数据的声学层面特征包括：将基频均值、短时平均能量、短时过零率中的至少一个作为输入，经预先构建的音调分类器处理后，输出所述唤醒语音数据的音调序列{b₁，b₂，…，b_j，…，b_n}，其中，b_j表示所述唤醒语音数据的第j个音节对应的音调类别；计算所述唤醒语音数据的音调序列与所述唤醒语音数据对应的唤醒词的音调序列之间的相似度，作为所述音调序列特征；

和/或，

所述声学层面特征还包括语音单元的时间特征，则提取所述语音数据的声学层面特征包括：统计所述唤醒语音数据的每个语音单元的持续时间；利用各语音单元的持续时间，计算时间均值以及时间方差，作为所述语音单元的时间特征；

和/或，

所述声学层面特征还包括声纹特征，则提取所述语音数据的声学层面特征包括：利用预先构建的声纹提取模型提取所述唤醒语音数据的i-vector特征，作为所述声纹特征；

和/或，

所述声学层面特征还包括能量分布特征，则提取所述语音数据的声学层面特征包括：将所述语音数据切分为三部分c_t-1、c_t、c_t+1，统计各部分的平均能量分布，作为所述能量分布特征；其中，c_t表示所述唤醒语音数据，c_t+1表示在所述唤醒语音数据之后采集到的包括所述控制语音数据的语音数据集，c_t-1表示在所述唤醒语音数据之前采集到的语音数据集。

可选地，所述语义层面特征包括语义顺滑度，则提取所述语音数据的语义层面特征包括：对所述语音数据进行分词处理，得到单词序列{w₁，w₂，…，w_k，…，w_f}，其中，w_k表示所述语音数据的第k个单词；计算f个单词按照所述单词序列的顺序依序出现的概率，作为所述语义顺滑度；

和/或，

所述语义层面特征包括词性序列的编辑距离，则提取所述语音数据的语义层面特征包括：对所述语音数据进行分词处理，得到词性序列{q₁，q₂，…，q_k，…，q_f}，其中，q_k表示所述语音数据的第k个单词的词性；计算所述语音数据的词性序列与每个样本语音数据的词性序列之间的编辑距离，并从中选取最小编辑距离，作为所述词性序列的编辑距离，所述样本语音数据为参与训练所述语音判别模型的数据；

和/或，

所述语义层面特征包括意图特征，则提取所述语音数据的语义层面特征包括：利用预先构建的意图分析模型提取所述控制语音数据的意图特征，所述意图特征包括有明确意图或无明确意图，或者，所述意图特征包括所述控制语音数据对应的意图类别。

可选地，构建所述语音判别模型的方式为：

采集样本语音数据，所述样本语音数据包括样本唤醒语音数据以及样本控制语音数据，所述样本唤醒语音数据的数据类型标注为正例唤醒语音数据或者反例唤醒语音数据，所述反例唤醒语音数据包括误唤醒数据以及唤醒失败的语音数据；

提取所述样本语音数据的声学层面特征和/或语义层面特征；

确定所述语音判别模型的拓扑结构；

利用所述拓扑结构，以及所述样本语音数据的声学层面特征和/或语义层面特征，训练所述语音判别模型，直至所述语音判别模型输出的样本唤醒语音数据的数据类型与标注的数据类型相同。

可选地，所述方法还包括：

利用筛除了所述误唤醒数据的唤醒语音数据，优化当前唤醒模型。

本公开提供一种语音数据处理装置，所述装置包括：

语音数据获取模块，用于获取用户输入的语音数据，所述语音数据包括成功唤醒智能终端的唤醒语音数据，以及表示操作意图的控制语音数据；

特征提取模块，用于提取所述语音数据的声学层面特征和/或语义层面特征，所述声学层面特征用于表示用户的发音特征，所述语义层面特征用于表示所述语音数据的文本特征；

模型处理模块，用于将所述声学层面特征和/或语义层面特征作为输入，经预先构建的语音判别模型处理后，确定所述唤醒语音数据是否为误唤醒数据。

可选地，所述语音数据获取模块，用于判断预设时间段内是否连续采集到至少两条用于唤醒所述智能终端的语音数据；如果所述预设时间段内连续采集到至少两条用于唤醒所述智能终端的语音数据，且所述至少两条用于唤醒所述智能终端的语音数据经当前唤醒模型处理后的得分值d满足以下条件：d₂≤d<d₁，则将所述至少两条用于唤醒所述智能终端的语音数据确定为所述唤醒语音数据，d₁为第一唤醒得分门限值，d₂为第二唤醒得分门限值。

可选地，所述声学层面特征包括当前唤醒模型的声学得分，

所述特征提取模块，用于获取所述当前唤醒模型针对所述唤醒语音数据的每个语音单元输出的前N个识别结果；若各语音单元的前N个识别结果中包含该语音单元的正确发音，则判定该语音单元的识别结果为识别正确；根据各语音单元的识别结果，统计所述唤醒语音数据的识别准确度，作为所述当前唤醒模型的声学得分。

和/或，

所述声学层面特征还包括清浊序列特征，所述特征提取模块，用于将基频均值、短时平均能量、短时过零率中的至少一个作为输入，经预先构建的清浊分类器处理后，输出所述唤醒语音数据的清浊序列{a₁，a₂，…，a_i，…，a_m}，其中，a_i表示所述唤醒语音数据的第i个音素对应的清浊类别；计算所述唤醒语音数据的清浊序列与所述唤醒语音数据对应的唤醒词的清浊序列之间的相似度，作为所述清浊序列特征；

和/或，

所述声学层面特征还包括音调序列特征，所述特征提取模块，用于将基频均值、短时平均能量、短时过零率中的至少一个作为输入，经预先构建的音调分类器处理后，输出所述唤醒语音数据的音调序列{b₁，b₂，…，b_j，…，b_n}，其中，b_j表示所述唤醒语音数据的第j个音节对应的音调类别；计算所述唤醒语音数据的音调序列与所述唤醒语音数据对应的唤醒词的音调序列之间的相似度，作为所述音调序列特征；

和/或，

所述声学层面特征还包括语音单元的时间特征，所述特征提取模块，用于统计所述唤醒语音数据的每个语音单元的持续时间；利用各语音单元的持续时间，计算时间均值以及时间方差，作为所述语音单元的时间特征；

和/或，

所述声学层面特征还包括声纹特征，所述特征提取模块，用于利用预先构建的声纹提取模型提取所述唤醒语音数据的i-vector特征，作为所述声纹特征；

和/或，

所述声学层面特征还包括能量分布特征，所述特征提取模块，用于将所述语音数据切分为三部分c_t-1、c_t、c_t+1，统计各部分的平均能量分布，作为所述能量分布特征；其中，c_t表示所述唤醒语音数据，c_t+1表示在所述唤醒语音数据之后采集到的包括所述控制语音数据的语音数据集，c_t-1表示在所述唤醒语音数据之前采集到的语音数据集。

可选地，所述语义层面特征包括语义顺滑度，所述特征提取模块，用于对所述语音数据进行分词处理，得到单词序列{w₁，w₂，…，w_k，…，w_f}，其中，w_k表示所述语音数据的第k个单词；计算f个单词按照所述单词序列的顺序依序出现的概率，作为所述语义顺滑度；

和/或，

所述语义层面特征包括词性序列的编辑距离，所述特征提取模块，用于对所述语音数据进行分词处理，得到词性序列{q₁，q₂，…，q_k，…，q_f}，其中，q_k表示所述语音数据的第k个单词的词性；计算所述语音数据的词性序列与每个样本语音数据的词性序列之间的编辑距离，并从中选取最小编辑距离，作为所述词性序列的编辑距离，所述样本语音数据为参与训练所述语音判别模型的数据；

和/或，

所述语义层面特征包括意图特征，所述特征提取模块，用于利用预先构建的意图分析模型提取所述控制语音数据的意图特征，所述意图特征包括有明确意图或无明确意图，或者，所述意图特征包括所述控制语音数据对应的意图类别。

可选地，所述装置还包括：

样本语音数据采集模块，用于采集样本语音数据，所述样本语音数据包括样本唤醒语音数据以及样本控制语音数据，所述样本唤醒语音数据的数据类型标注为正例唤醒语音数据或者反例唤醒语音数据，所述反例唤醒语音数据包括误唤醒数据以及唤醒失败的语音数据；

样本特征提取模块，用于提取所述样本语音数据的声学层面特征和/或语义层面特征；

拓扑结构确定模块，用于确定所述语音判别模型的拓扑结构；

模型训练模块，用于利用所述拓扑结构，以及所述样本语音数据的声学层面特征和/或语义层面特征，训练所述语音判别模型，直至所述语音判别模型输出的样本唤醒语音数据的数据类型与标注的数据类型相同。

可选地，所述装置还包括：

模型优化模块，用于利用筛除了所述误唤醒数据的唤醒语音数据，优化当前唤醒模型。

本公开提供一种存储设备，其中存储有多条指令，所述指令由处理器加载，执行上述语音数据处理方法的步骤。

本公开提供一种电子设备，所述电子设备包括；

上述的存储设备；以及

处理器，用于执行所述存储设备中的指令。

本公开方案，可以采集成功唤醒智能终端的唤醒语音数据，以及表示操作意图的控制语音数据，从中提取出表示用户发音特征的声学层面特征，和/或，表示语音数据文本特征的语义层面特征，将声学层面特征和/或语义层面特征作为语音判别模型的输入，经模型处理后确定出唤醒语音数据是否为误唤醒数据。如此方案，可以从唤醒语音数据中筛除误唤醒数据，相对于现有技术将误唤醒数据作为正例语音数据进行模型优化，本公开方案有助于提高模型优化性能。

本公开的其他特征和优点将在随后的具体实施方式部分予以详细说明。

附图说明

附图是用来提供对本公开的进一步理解，并且构成说明书的一部分，与下面的具体实施方式一起用于解释本公开，但并不构成对本公开的限制。在附图中：

图1为本公开方案语音数据处理方法的流程示意图；

图2为本公开方案中构建语音判别模型的流程示意图；

图3为本公开方案语音数据处理装置的构成示意图；

图4为本公开方案用于语音数据处理的电子设备的结构示意图。

具体实施方式

以下结合附图对本公开的具体实施方式进行详细说明。应当理解的是，此处所描述的具体实施方式仅用于说明和解释本公开，并不用于限制本公开。

参见图1，示出了本公开语音数据处理方法的流程示意图。可以包括以下步骤：

S101，获取用户输入的语音数据，所述语音数据包括成功唤醒智能终端的唤醒语音数据，以及表示操作意图的控制语音数据。

通常，用户与智能终端之间的唤醒交互过程可以体现为：智能终端监听用户是否输入用于唤醒智能终端的语音数据，如果输入了语音数据且据此识别出唤醒词，则唤醒成功，可以继续监听用户是否输入用于操控智能终端的语音数据，如果输入了语音数据且据此识别出操作意图，则可控制智能终端执行相关操作。

本公开方案中，可以将识别出唤醒词、成功唤醒智能终端的语音数据，称为唤醒语音数据；可以将识别出操作意图、控制智能终端执行相关操作的语音数据，称为控制语音数据。

可以理解地，与其他类型的语音交互过程相比，唤醒交互过程存在明显的间断感，可以抽象为“静音+唤醒词+短停顿+操作意图”。例如，“sil叮咚叮咚sp我想听刘德华的音乐”，其中，“sil”表示用户唤醒智能终端之前，智能终端监听到的静音或背景噪声；“叮咚叮咚”表示唤醒词；“sp”表示唤醒语音数据与控制语音数据之间的短停顿；“我想听刘德华的音乐”表示操作意图。

本公开方案为了提高模型优化的性能，可以从唤醒语音数据中筛除误唤醒数据，即，判断唤醒语音数据是否为误唤醒数据，如果是误唤醒数据，则可将其确定为反例语音数据。相对于现有技术将误唤醒数据视为正例语音数据进行模型优化，本公开方案有助于提高模型优化性能。

作为一种示例，本公开方案可以在智能终端被成功唤醒时，即被触发执行语音数据处理过程；或者，可以在满足其他预设条件时再被触发执行语音数据处理过程，例如，预设条件可以为采集到预设数目的语音数据、到达预定时间，等等，本公开方案对执行语音数据处理的时机可不做限定，具体可结合实际应用需求设定。

作为一种示例，本公开方案中的智能终端可以为具有语音唤醒功能的电子设备，例如，可以为智能电器、手机、个人电脑、平板电脑等；在实际应用过程中，可以通过智能终端的麦克风采集用户输入的语音数据，本公开方案对智能终端的表现形式、获取语音数据的设备等可不做具体限定。

作为一种示例，本公开方案中的唤醒语音数据可以是，经当前唤醒模型识别出唤醒词的语音数据。举例来说，可以设置第一唤醒得分门限值d₁，若用于唤醒智能终端的语音数据，经当前唤醒模型处理后输出的分值不低于d₁，则认为该语音数据的识别结果为唤醒词，可将其确定为唤醒语音数据。

作为一种示例，本公开方案还可以按照以下方式获取唤醒语音数据：判断预设时间段内是否连续采集到至少两条用于唤醒智能终端的语音数据；如果预设时间段内连续采集到至少两条用于唤醒智能终端的语音数据，且至少两条用于唤醒智能终端的语音数据经当前唤醒模型处理后的得分值d满足以下条件：d₂≤d<d₁，则将至少两条用于唤醒智能终端的语音数据确定为唤醒语音数据。

结合实际应用可知，若用户第一次进行唤醒交互时唤醒失败，通常会快速进行第二次唤醒交互，甚至进行多次唤醒交互直至唤醒成功或用户主动停止唤醒交互，基于这一特性，本公开方案还提供一种新的确定唤醒语音数据的方案。举例来说，可以在上文d₁的基础上，设置第二唤醒得分门限值d₂，且d₂<d₁，若预设时间段内连续采集的至少两条用于唤醒智能终端的语音数据，经当前唤醒模型处理后输出的分值d均位于区间[d₂，d₁)，则可将这两条语音数据确定为唤醒语音数据。如此，可在一定程度上保留得分低于d₁的唤醒语音数据，丰富了可用于优化当前唤醒模型的数据。

S102，提取所述语音数据的声学层面特征和/或语义层面特征，所述声学层面特征用于表示用户的发音特征，所述语义层面特征用于表示所述语音数据的文本特征。

获取到用户输入的语音数据后，可以提取语音数据的声学层面特征和/或语义层面特征，供语音判别模型处理使用。

作为一种示例，声学层面特征可以包括当前唤醒模型的声学得分。可选地，除当前唤醒模型的声学得分之外，声学层面特征还可以包括以下可选特征中的至少一个：基频均值、短时平均能量、短时过零率、清浊序列特征、音调序列特征、语音单元的时间特征、声纹特征、能量分布特征。可以理解地，可选特征可以划分为两种类型：一种是直接从唤醒语音数据中提取出的原始特征，例如，基频均值、短时平均能量、短时过零率；另一种是唤醒语音数据的处理后特征，例如，清浊序列特征、音调序列特征、语音单元的时间特征、声纹特征、能量分布特征。

作为一种示例，语义层面特征可以包括以下特征中的至少一个：语义顺滑度、词性序列的编辑距离、意图特征。

关于各特征表示的含义以及具体提取过程，可参见下文所做介绍，此处暂不详述。

S103，将所述声学层面特征和/或语义层面特征作为输入，经预先构建的语音判别模型处理后，确定所述唤醒语音数据是否为误唤醒数据。

从语音数据中提取出声学层面特征和/或语义层面特征后，可以利用预先构建的语音判别模型进行模型处理，确定唤醒语音数据是否为误唤醒数据，如果是误唤醒数据，则可将其归为反例语音数据；如果不是误唤醒数据，则可继续作为正例语音数据。

以当前唤醒模型体现为当前前景唤醒模型和当前背景唤醒模型为例，下面对利用筛除了误唤醒数据的唤醒语音数据，优化当前唤醒模型的过程进行简单说明。

可以理解地，前景唤醒模型用于描述唤醒词，可以采用包含唤醒词的语音数据进行模型训练；背景唤醒模型用于描述非唤醒词，可以采用不含唤醒词的语音数据进行模型训练。

本公开方案进行唤醒模型优化时，可以使用筛除了误唤醒数据的唤醒语音数据，更新当前前景唤醒模型；可以使用反例语音数据，例如，唤醒失败的语音数据、误唤醒数据，更新当前背景唤醒模型。如此，可以使两个路径的距离拉远一些，有助于提高更新后唤醒模型的语音识别准确率。具体优化过程可参照相关技术实现，此处不做详述。

作为一种示例，可以只更新当前前景唤醒模型，即，可以只利用筛除了误唤醒数据的唤醒语音数据，优化当前前景唤醒模型。具体可结合实际应用需求，确定模型更新的方式，本公开方案对此可不做限定。

下面对本公开方案中的声学层面特征、语义层面特征，分别进行解释说明。

1.声学层面特征

(1)当前唤醒模型的声学得分，用于反映唤醒词的识别准确率

作为一种示例，可以获取当前唤醒模型针对唤醒语音数据的每个语音单元输出的前N个识别结果；若各语音单元的前N个识别结果中包含该语音单元的正确发音，则判定该语音单元的识别结果为识别正确；根据各语音单元的识别结果，统计唤醒语音数据的识别准确度，作为当前唤醒模型的声学得分。

举例来说，语音单元可以体现为当前唤醒模型的基本识别单元，例如，音素、音节等，本公开方案对此可不做具体限定。

以语音单元为音节为例，唤醒词“叮咚叮咚”可以划分为“ding”、“dong”、“ding”、“dong”4个语音单元，若N的取值为3，针对第一个语音单元“ding”来说，可以获取当前唤醒模型针对该语音单元输出的识别概率，将概率最高的前3个确定为语音单元“ding”的识别结果，若这3个识别结果中存在“ding”的正确发音，则判定该语音单元的识别结果为识别正确。以此类推，分别获得其他3个语音单元的识别结果，再计算出唤醒语音数据的识别准确度，即，计算识别正确的语音单元数目、语音单元总数目之间的比值，作为当前唤醒模型的声学得分。

可以理解地，本公开方案中N的取值可以为N≥1，具体可结合实际应用需求设定，本公开方案对此可不做限定。

(2)唤醒语音数据的原始特征，例如，基频均值、短时平均能量、短时过零率

通常，人在发音的时候，根据声带是否震动可以将语音信号分为清音、浊音两种。浊音又称有声语言，携带着语言中大部分的能量，浊音在时域上呈现出明显的周期性；清音类似于白噪声，没有明显的周期性。发浊音时，气流通过声门使声带产生张弛震荡式振动，产生准周期的激励脉冲串，这种声带振动的频率可以称为基音频率，简称基频。基音频率一般与个人的声带、发音习惯等有关系，能在一定程度上反应个人的特征。

作为一种示例，提取基频均值的方式可以体现为：对唤醒语音数据进行分帧处理，得到多个语音数据帧，然后提取每帧对应的基频，进而利用每帧对应的基频，计算唤醒语音数据对应的基频均值。

另外，需要说明的是，短时平均能量可以作为区分清音、浊音的特征参数；或者，在信噪比高的情况下，可以作为区分有声、无声的特征参数。

短时过零率，指的是一个语音数据帧中语音信号波形穿过横轴(零电平)的次数。通常，浊音时的能量集中在低频段，清音时的能量集中在高频段，可一定程度上反应频率的高低，在浊音段有较低的过零率，在清音段有较高的过零率。

本公开方案对获取基频均值、短时平均能量、短时过零率的方式可不做限定，具体可参照相关技术实现，此处不做详述。

(3)清浊序列特征，用于反映唤醒语音数据中音素的清浊特性

作为一种示例，可以将基频均值、短时平均能量、短时过零率中的至少一个作为输入，经预先构建的清浊分类器处理后，输出唤醒语音数据的清浊序列{a₁，a₂，…，a_i，…，a_m}，其中，a_i表示唤醒语音数据的第i个音素对应的清浊类别；计算唤醒语音数据的清浊序列与唤醒语音数据对应的唤醒词的清浊序列之间的相似度，作为清浊序列特征。

举例来说，音素的清浊类别可以为：清音、浊音，例如，可以用“0”表示清音，用“1”表示浊音，本公开方案对此可不做具体限定。

可以理解地，智能终端可能只保存一个唤醒词，也即，预先知晓唤醒语音数据对应的唤醒词是什么；或者，智能终端可能保存有多个唤醒词，针对于此，可以利用当前唤醒模型识别出唤醒语音数据对应的唤醒词是什么，本公开方案对此可不做具体限定。

作为一种示例，可以将唤醒词的清浊序列保存于智能终端，并在需要计算相似度时直接读取；或者，可以在需要计算相似度时，实时利用清浊分类器确定出唤醒词的清浊序列，本公开方案对此可不做具体限定。

作为一种示例，计算清浊序列的相似度可以体现为：采用异或运算的方式计算相似度，如果相应位置上音素的清浊类别相同，例如均为“1”表示的浊音，则该位置上音素的异或结果为0；反之异或结果为1。如此，可以统计非零个数得到相似度，通常非零个数越少相似度越高。

可以理解地，本公开方案中的清浊分类器可以采用常用分类模型，例如，支持向量机模型、神经网络模型等，本公开方案对此可不做具体限定。

(4)音调序列特征，用于反映唤醒语音数据中音节的音调特性

作为一种示例，可以将基频均值、短时平均能量、短时过零率中的至少一个作为输入，经预先构建的音调分类器处理后，输出唤醒语音数据的音调序列{b₁，b₂，…，b_j，…，b_n}，其中，b_j表示唤醒语音数据的第j个音节对应的音调类别；计算唤醒语音数据的音调序列与唤醒语音数据对应的唤醒词的音调序列之间的相似度，作为音调序列特征。

以中文为例，音节的音调类别可以体现为常见的4种声调，可以用标识符“1”、“2”、“3”、“4”表示不同的声调；或者还可以结合其他语种确定音节的音调类别，本公开方案对此可不做具体限定。

由上文介绍可知，不论智能终端保存一个唤醒词，还是保存多个唤醒词，均可确定出唤醒语音数据对应的唤醒词，进而得到唤醒词的音调序列，具体可参照(3)清浊序列特征处所做介绍，此处不再详述。

作为一种示例，计算音调序列的相似度可以体现为：采用异或运算的方式计算相似度，如果相应位置上音节的音调类别相同，例如均为“4”表示的中文第四声调，则该位置上音节的异或运算结果为0；反之异或结果为1。如此，可以统计非零个数得到相似度，通常非零个数越少相似度越高。

可以理解地，本公开方案中的音调分类器可以采用常用分类模型，例如，支持向量机模型、神经网络模型等，本公开方案对此可不做具体限定。

(5)语音单元的时间特征，用于反映唤醒语音数据在语音单元切分时存在的异常情况

作为一种示例，可以基于当前唤醒模型得到的语音识别结果，对唤醒语音数据进行强制切分，得到各语音单元的开始时间、结束时间，进而获得各语音单元的持续时间；可以利用各语音单元的持续时间，计算时间均值以及时间方差，作为语音单元的时间特征。

通常，语音单元的时间特征能够反映语音单元在切分过程中存在的异常情况，例如，个别语音单元的持续时间过长或太短，不符合正常语音形态。作为一种示例，语音单元可以体现为音素、音节等，本公开方案对此可不做具体限定。

(6)声纹特征，用于反映说话人的生理特征和行为特征

作为一种示例，可以利用预先构建的声纹提取模型提取唤醒语音数据的i-vector特征，作为声纹特征。例如，可以利用DNN I-Vector、GMM-UBM I-Vector等声纹提取模型提取声纹特征，本公开方案对此可不做具体限定。

可以理解地，声纹特征反映的是说话人的个性化特征，通常，说话人的声纹特征在短时间内是不会发生变化的，故还可以利用声纹提取模型在控制语音数据、或者包括唤醒语音数据和控制语音数据的整体语音数据中提取i-vector特征，本公开方案对此可不做具体限定。

(7)能量分布特征，用于反映唤醒交互过程的特性

作为一种示例，可以将语音数据切分为三部分c_t-1、c_t、c_t+1，并统计各部分的平均能量分布，例如三部分的平均能量分布可以表示为g_t-1、g_t、g_t+1，得到能量分布特征。

作为一种示例，提取能量分布特征的方式可以体现为：分别对3部分语音数据进行分帧处理，得到每部分包括的语音数据帧，然后提取每帧对应的能量，进而利用每帧对应的能量，计算各部分的平均能量。

结合上文所举唤醒交互过程的示例，“sil叮咚叮咚sp我想听刘德华的音乐”，可以通过识别唤醒词的方式，将语音数据划分为3个部分。其中，c_t表示唤醒语音数据；c_t-1表示在唤醒语音数据之前采集到的语音数据集，通常为静音段或者背景噪声；c_t+1表示在唤醒语音数据之后采集到的语音数据集，通常为短停顿和操作意图。可以理解地，c_t-1、c_t+1的时长可以灵活确定，例如，可以依据VAD(英文：Voice Activity Detection，中文：语音活动检测)信息确定，也可以设置为固定时长，如1s～5s，本公开方案对此可不做具体限定。

相对于日常交谈提到唤醒词导致智能终端被误唤醒，例如“我认为叮咚叮咚是个好名字”，本公开方案的唤醒交互过程的能量分布与之相比，具有明显区别。

2.语义层面特征

(1)语义顺滑度

作为一种示例，可以对语音数据进行分词处理，得到单词序列{w₁，w₂，…，w_k，…，w_f}，其中，w_k表示语音数据的第k个单词；然后计算f个单词按照单词序列的顺序依序出现的概率，作为语义顺滑度。

举例来说，本公开方案中的语义顺滑度可以体现为w₁到w_f方向的正向语义顺滑度P(w₁，w₂，…，w_f)；和/或，w_f到w₁方向的逆向语义顺滑度P(w_f，w_f-1，…，w₁)。以正向语义顺滑度为例，可以通过以下公式计算得到：

其中，P(w_k|w_k-1)可以基于参与语音判别模型训练的样本语音数据统计获得。

(2)词性序列的编辑距离

作为一种示例，可以对语音数据进行分词处理，得到词性序列{q₁，q₂，…，q_k，…，q_f}，其中，q_k表示语音数据的第k个单词的词性；计算语音数据的词性序列与每个样本语音数据的词性序列之间的编辑距离，并从中选取最小编辑距离，作为词性序列的编辑距离。其中，样本语音数据为参与训练语音判别模型的数据。

词性序列特征可以在一定程度上反映语义信息，特别针对唤醒交互过程词性序列特征更为显著。本公开方案中，词性序列特征可以体现为词性序列的编辑距离(EditDistance)，具体指两个字串之间，由一个转成另一个所需的最少编辑操作次数，通常编辑距离越小，两个字串的相似度越大。

若样本语音数据的词性序列表示为{p₁，p₂，…，p_h}，则可利用以下公式计算{q₁，q₂，…，q_f}与{p₁，p₂，…，p_h}的编辑距离d_[f，h]：

可以理解地，样本语音数据可以是参与语音判别模型训练的所有数据；或者，可以将从所有数据中筛选出的正例数据作为样本语音数据，进行编辑距离计算，本公开方案对此可不做具体限定，只要确定出最小编辑距离即可。

(3)意图特征

作为一种示例，可以利用预先构建的意图分析模型提取控制语音数据的意图特征，意图特征包括有明确意图或无明确意图，或者，意图特征包括控制语音数据对应的意图类别。

本公开方案可以预先构建意图分析模型，用于确定操作意图倾向。举例来说，意图分析模型可以体现为二分类器，模型输出表示有明确意图、无明确意图；或者，意图分析模型可以体现为回归模型，模型输出表示各种意图类别的得分，根据得分高低可以确定出控制语音数据对应的意图类别，例如，将得分最高的前M意图类别作为控制语音数据对应的意图类别，本公开方案中M的取值可以为M≥1，具体可结合实际应用需求设定，本公开方案对此可不做限定。举例来说，意图类别可以是播放音乐、查询天气等等，具体可由实际应用需求而定。

下面对本公开方案中构建语音判别模型的过程进行解释说明。具体可参见图2所示流程图，可以包括以下步骤：

S201，采集样本语音数据，所述样本语音数据包括样本唤醒语音数据以及样本控制语音数据，所述样本唤醒语音数据的数据类型标注为正例唤醒语音数据或者反例唤醒语音数据，所述反例唤醒语音数据包括误唤醒数据以及唤醒失败的语音数据。

在进行模型训练时，可以采集大量的样本语音数据，其中，样本语音数据可以体现为样本唤醒语音数据、样本控制语音数据。此外，还可以对样本唤醒语音数据进行数据类型标注，例如，数据类型可以为正例唤醒语音数据、反例唤醒语音数据，针对反例唤醒语音数据，还可以进一步细致标注为误唤醒数据、唤醒失败的语音数据。

S202，提取所述样本语音数据的声学层面特征和/或语义层面特征。

具体实现过程可参照上文所做介绍，此处不做详述。

S203，确定所述语音判别模型的拓扑结构。

作为一种示例，本公开方案中的拓扑结构可以体现为：CNN(英文：ConvolutionalNeural Network，中文：卷积神经网络)、RNN(英文：Recurrent neural Network，中文：循环神经网络)、DNN(英文：Deep Neural Network，中文：深度神经网络)等，本公开方案对此可不做具体限定。

作为一种示例，神经网络的输出层可以包含2个输出节点，分别代表正例唤醒语音数据、误唤醒数据，例如，可以用“0”表示正例唤醒语音数据，用“1”表示误唤醒数据。或者，神经网络的输出层可以包含1个输出节点，表示唤醒语音数据被确定为误唤醒数据的概率。本公开方案对神经网络的具体表现形式可不做限定。

S204，利用所述拓扑结构，以及所述样本语音数据的声学层面特征和/或语义层面特征，训练所述语音判别模型，直至所述语音判别模型输出的样本唤醒语音数据的数据类型与标注的数据类型相同。

确定出模型的拓扑结构，提取到样本语音数据的声学层面特征和/或语义层面特征后，便可进行模型训练。作为一种示例，训练过程可以采用交叉熵准则，使用常用的随机梯度下降法更新优化模型参数，确保模型训练完成时，模型输出的样本唤醒语音数据的数据类型与标注的数据类型相同。

作为一种示例，语音判别模型可以是通用模型，即不是针对某个或某些特定唤醒词构建；或者，语音判别模型可以是个性化模型，即针对不同唤醒词构建不同的语音判别模型，本公开方案对此可不做具体限定。

参见图3，示出了本公开语音数据处理装置的构成示意图。所述装置可以包括：

语音数据获取模块301，用于获取用户输入的语音数据，所述语音数据包括成功唤醒智能终端的唤醒语音数据，以及表示操作意图的控制语音数据；

特征提取模块302，用于提取所述语音数据的声学层面特征和/或语义层面特征，所述声学层面特征用于表示用户的发音特征，所述语义层面特征用于表示所述语音数据的文本特征；

模型处理模块303，用于将所述声学层面特征和/或语义层面特征作为输入，经预先构建的语音判别模型处理后，确定所述唤醒语音数据是否为误唤醒数据。

可选地，所述声学层面特征包括当前唤醒模型的声学得分，

和/或，

可选地，所述装置还包括：

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

参见图4，示出了本公开用于语音数据处理的电子设备400的结构示意图。参照图4，电子设备400包括处理组件401，其进一步包括一个或多个处理器，以及由存储介质402所代表的存储设备资源，用于存储可由处理组件401的执行的指令，例如应用程序。存储介质402中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外，处理组件401被配置为执行指令，以执行上述语音数据处理方法。

电子设备400还可以包括一个电源组件403，被配置为执行电子设备400的电源管理；一个有线或无线网络接口404，被配置为将电子设备400连接到网络；和一个输入输出(I/O)接口405。电子设备400可以操作基于存储在存储介质402的操作***，例如WindowsServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM或类似。

以上结合附图详细描述了本公开的优选实施方式，但是，本公开并不限于上述实施方式中的具体细节，在本公开的技术构思范围内，可以对本公开的技术方案进行多种简单变型，这些简单变型均属于本公开的保护范围。

另外需要说明的是，在上述具体实施方式中所描述的各个具体技术特征，在不矛盾的情况下，可以通过任何合适的方式进行组合，为了避免不必要的重复，本公开对各种可能的组合方式不再另行说明。

此外，本公开的各种不同的实施方式之间也可以进行任意组合，只要其不违背本公开的思想，其同样应当视为本公开所公开的内容。

Claims

1.一种语音数据处理方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，获取所述唤醒语音数据的方式为：

3.根据权利要求1或2所述的方法，其特征在于，所述声学层面特征包括当前唤醒模型的声学得分，则提取所述语音数据的声学层面特征包括：

4.根据权利要求3所述的方法，其特征在于，

所述声学层面特征还包括基频均值、短时平均能量、短时过零率中的至少一个；

和/或，

5.根据权利要求1或2所述的方法，其特征在于，

所述语义层面特征包括语义顺滑度，则提取所述语音数据的语义层面特征包括：对所述语音数据进行分词处理，得到单词序列{w₁，w₂，…，w_k，…，w_f}，其中，w_k表示所述语音数据的第k个单词；计算f个单词按照所述单词序列的顺序依序出现的概率，作为所述语义顺滑度；

和/或，

6.根据权利要求1或2所述的方法，其特征在于，构建所述语音判别模型的方式为：

提取所述样本语音数据的声学层面特征和/或语义层面特征；

确定所述语音判别模型的拓扑结构；

7.根据权利要求1或2所述的方法，其特征在于，所述方法还包括：

8.一种语音数据处理装置，其特征在于，所述装置包括：

9.根据权利要求8所述的装置，其特征在于，

所述语音数据获取模块，用于判断预设时间段内是否连续采集到至少两条用于唤醒所述智能终端的语音数据；如果所述预设时间段内连续采集到至少两条用于唤醒所述智能终端的语音数据，且所述至少两条用于唤醒所述智能终端的语音数据经当前唤醒模型处理后的得分值d满足以下条件：d₂≤d<d₁，则将所述至少两条用于唤醒所述智能终端的语音数据确定为所述唤醒语音数据，d₁为第一唤醒得分门限值，d₂为第二唤醒得分门限值。

10.根据权利要求8或9所述的装置，其特征在于，所述声学层面特征包括当前唤醒模型的声学得分，

11.根据权利要求10所述的装置，其特征在于，

和/或，

12.根据权利要求8或9所述的装置，其特征在于，

所述语义层面特征包括语义顺滑度，所述特征提取模块，用于对所述语音数据进行分词处理，得到单词序列{w₁，w₂，…，w_k，…，w_f}，其中，w_k表示所述语音数据的第k个单词；计算f个单词按照所述单词序列的顺序依序出现的概率，作为所述语义顺滑度；

和/或，

13.根据权利要求8或9所述的装置，其特征在于，所述装置还包括：

14.根据权利要求8或9所述的装置，其特征在于，所述装置还包括：

15.一种存储设备，其中存储有多条指令，其特征在于，所述指令由处理器加载，执行权利要求1至7任一项所述方法的步骤。

16.一种电子设备，其特征在于，所述电子设备包括；

权利要求15所述的存储设备；以及

处理器，用于执行所述存储设备中的指令。