CN112786050B

CN112786050B - 一种语音识别的方法、装置及设备

Info

Publication number: CN112786050B
Application number: CN201911083012.4A
Authority: CN
Inventors: 高博; 王皓; 刘文超; 吴艳召; 熊伟凝
Original assignee: Beijing Zhiyue Internet Technology Co ltd; Gulfstream Beijing Intelligent Technology Co ltd
Current assignee: Beijing Zhiyue Internet Technology Co ltd; Gulfstream Beijing Intelligent Technology Co ltd
Priority date: 2019-11-07
Filing date: 2019-11-07
Publication date: 2024-02-02
Anticipated expiration: 2039-11-07
Also published as: CN112786050A

Abstract

本发明公开了一种语音识别的方法、装置及设备，该语音识别的方法包括：获取指定长度的待识别语音数据以及第一设定个数的参考者的参考语音数据，其中，所述参考者不包括指定用户；根据所述参考语音数据集以及梅尔频率倒谱系数，对所述待识别语音数据进行语音编码，以获取所述待识别语音数据的语音编码；根据所述语音编码识别所述待识别语音数据是否为所述指定用户的语音。本发明实施例的技术方案，通过参考者的语音数据及梅尔频率倒谱系数对待识别语音进行编码，在待识别语音数据中包含未知话语者的情况下，有效提高了语音识别的准确度，实现了特定话语者语音的识别。

Description

一种语音识别的方法、装置及设备

技术领域

本发明实施例涉及语音识别技术领域，尤其涉及一种语音识别的方法、装置及设备。

背景技术

汽车销售人员每天需要接待不同的顾客，并为顾客提供汽车相关的介绍或咨询，为了考核汽车销售人员的业务水平，往往需要对汽车销售人员工作时对用户讲解的内容进行录音。

然而，由于录音文件不仅包括汽车销售人员的语音，还包括如顾客等其他与考核无关的人员，从而导致考核效率大大降低，因此，需要将录音文件中指定汽车销售人员的语音筛选出来。但是在实际营销场景中，汽车销售部门由于无法事先获得全部顾客的语音数据，无法直接使用分类模型或算法进行销售人员与顾客语音的分类识别。此外，汽车销售行业流动性大的特点，也使得直接采用多分类算法的解决方案面临极大挑战。汽车销售行业因此需要一种可以在顾客语音与标签数据缺失情况下，有效识别汽车销售人员语音的技术方案，并保证该方案在实施中不会因为人员流动导致因模型频繁训练引起的性能下降。

发明内容

本发明提供了一种语音识别的方法、装置、设备及存储介质，以实现在语音数据中将指定用户的语音识别出来，识别速度快、准确度高。

第一方面，本发明实施例提供了一种语音识别的方法，该方法包括：

获取指定长度的待识别语音数据以及第一设定个数的参考者的参考语音数据，其中，所述参考者不包括指定用户；

根据所述参考语音数据集以及梅尔频率倒谱系数，对所述待识别语音数据进行语音编码，以获取所述待识别语音数据的语音编码；

根据所述语音编码识别所述待识别语音数据是否为所述指定用户的语音。

第二方面，本发明实施例还提供了一种语音识别的装置，该装置包括：

数据获取模块，用于获取指定长度的待识别语音数据以及第一设定个数的参考者的参考语音数据，其中，所述参考者不包括指定用户；

语音编码模块，用于根据所述参考语音数据集以及梅尔频率倒谱系数，对所述待识别语音数据进行语音编码，以获取所述待识别语音数据的语音编码；

语音识别模块，用于根据所述语音编码识别所述待识别语音数据是否为所述指定用户的语音。

第三方面，本发明实施例还提供了一种设备，该设备包括：

一个或多个处理器；

存储器，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现本发明任意实施例提供的语音识别的方法。

本发明实施例的技术方案，基于梅尔频率倒谱系数，将待识别的语音用多个参考者的参考语音数据进行语音编码，以实现用多个参考者的声音特征来表征待识别者声音特征的目的，提高了编码的唯一性。此后，通过使用指定用户的语音编码作为编码神经网络模型的唯一训练样本，从而编码神经网络模型仅可以有效还原指定用户的语音编码。通过编码神经网络模型对输入的语音编码的还原程度以及输入语音编码与指定用户的对应关系，可以实现在未分类语音数据(即顾客语音)出现情况下，快速而准确地识别指定用户语音。

附图说明

图1是本发明实施例一中的一种语音识别的方法的流程图；

图2是本发明实施例二中的一种语音识别的方法的流程图；

图3是本发明实施例三中的一种语音识别的方法的流程图；

图4是本发明实施例四中的一种语音识别的装置的示意图；

图5是本发明实施例五中的一种设备的示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构。

实施例一

图1是本发明实施例一提供的一种语音识别的方法的流程图，本实施例可适用于对指定用户的语音识别的情况，该方法可以由语音识别的装置来执行，该装置可以通过软件和/或硬件的方式实现，如图1所示，该方法具体包括如下步骤：

步骤110、获取指定长度的待识别语音数据以及第一设定个数的参考者的参考语音数据。

其中，所述参考者不包括指定用户，参考者可以是一个公开语音数据集中的话语者，如WVU(West Virginia University)-Multimodal 2013公开语音数据集。使用公开语音集中的用户的语音的好处在于，参考者的特征多样化，基数大，且获取方便，不会造成侵权。指定长度可以是0.5s、0.8s、1s或者其他数值。第一设定个数的值应越大越好，采用越多的参考者的语音特征来描述指定用户的语音，则指定用户语音的识别准确度就越高，然而，相应的计算量和复杂度也会增加，同时也会降低后续语音切分的准确性。因此，第一设定个数可以是500、800、1000或其他数值。参考语音数据可以是包括多个指定长度的语音数据，如50、100或者更多指定长度的语音数据。

可选的，获取指定长度的待识别语音数据，包括：获取原始语音数据；对所述原始语音数据进行划分，以获取各个指定长度的待识别语音数据。

示例性的，如原始语音数据为指定销售人员的录音设备在考核时间段采集的所有语音数据，那么指定长度的待识别语音数据可以是0.8秒的待识别语音数据，可以按照设定频率获取指定长度的待识别语音数据，如16KHz。

可选的，在获取指定长度的待识别语音数据之后，还包括：对所述待识别语音数据进行降噪。具体的，可以采用低通滤波器，也可以采用任意降噪算法降低所述待识别语音数据中的噪声。

步骤120、根据所述参考语音数据集以及梅尔频率倒谱系数，对所述待识别语音数据进行语音编码，以获取所述待识别语音数据的语音编码。

其中，梅尔频率倒谱系数((Mel-Frequency Cepstral Coefficients，MFCCs)即为组成梅尔频率倒谱的系数，采用梅尔频率倒谱系数来描述声音的特征更符合人类的听觉特性。

可选的，根据所述参考语音数据集以及梅尔频率倒谱系数，对所述待识别语音数据进行语音编码，包括：将所述待识别语音数据以及各个所述参考者的参考语音数据分别划分为设定长度的语音子数据和参考子数据；采用设定维度的梅尔频率倒谱系数对各个所述语音子数据和参考子数据进行处理，以获得各个语音子数据的语音特征向量和各个参考子数据的参考特征向量；根据所述语音特征向量和参考特征向量确定所述待识别语音数据的语音编码。

其中，设定长度可以是10ms、15ms、20ms、25ms或者其他数值，设定维度可以是25、40、50或者其他维度。

示例性的，以0.8s的待识别语音数据为例，使用WVU-Multimodal 2013公开语音数据集，该数据集包括1083人语音的数据集，随机从该数据集中抽取800个参照人，每个参照人抽取一段8秒的语音数据，由800个参考者每人8s的语音组成参考语音数据。将0.8s的待识别语音数据和各个参考者8s的参考语音数据划分长度为20ms的语音子数据和参考子数据。具体的，可以以20ms重叠窗口以10ms为步长进行数据划分。从而0.8s的待识别语音数据可以被划分为80个长度为20ms的语音子数据，而8s的参考语音数据则被划分为800个长度为20ms的参考子数据。进而，采用40维的梅尔频率倒谱系数对各个20ms的语音子数据和参考子数据进行语音编码，从而获得各个语音子数据的语音特征向量V_q(1×40)和各个参考子数据的参考特征向量V_r(1×40)。

进一步地，根据所述语音特征向量和参考特征向量确定所述待识别语音数据的语音编码，根据各个所述语音特征向量确定所述待识别语音的语音特征矩阵；根据各个参考特征向量确定第三设定个数的参考特征矩阵；根据所述语音特征矩阵与所述各个参考特征矩阵的关系确定所述待识别语音数据的语音编码。

示例性的，将所有(80个)语音子数据的语音特征向量V_q(1×40)组合成所述待识别语音数据的语音特征矩阵M_q(80×40)。将800个参考者平均分为10组，每组80人，从而每组对应80个参考者的100个参考特征向量V_r，对每个参考者的参考特征向量取平均，获取平均参考向量每组便可以得到80个平均参考向量/>进而由该80个平均参考向量便可以组成该组的参考特征矩阵M_r(80×40)。建立语音特征矩阵M_q各行向量与各个参考特征矩阵M_r的行向量在对应特征空间中的距离。这些距离即为所述待识别语音数据的语音编码。

步骤130、根据所述语音编码识别所述待识别语音数据是否为所述指定用户的语音。

其中，指定用户即为待识别的用户，可以是销售人员、培训师、客服等，进一步地，可以是4S店的销售人员。

可选的，可以预先获取指定用户的语音编码，记为预先编码，通过对比所述语音编码和所述预先编码识别所述识别语音数据是否为所述指定用户的语音。具体的，若所述语音编码和所述预先编码匹配，则所述识别语音数据为所述指定用户的语音；反之，则所述识别语音数据不是所述指定用户的语音。

示例性的，可以预先采集所述指定用户朗读特定内容的语音数据，记为预先语音数据，并采用步骤120所记载的编码方式获取所述预先语音数据的语音编码，记为预先编码，通过对比预先编码和语音编码确定所述识别语音数据是否为所述指定用户的语音。

进一步地，若原始语音数据包括多个待识别语音数据，则需要循环执行上述步骤，以对每个待识别语音数据进行识别，在识别各个待识别语音数据是否为所述指定用户的语音之后，还可以将所述指定用户的语音筛选出来，进行关键词提取，已根据关键词对所述指定用户进行考核。

实施例二

图2为本发明实施例二提供的一种语音识别的预测方法的流程图，本实施例是对上一实施例的进一步细化，如图2所示，该方法包括如下步骤：

步骤210、获取指定长度的待识别语音数据以及第一设定个数的参考者的参考语音数据。

步骤220、将所述待识别语音数据以及各个所述参考者的参考语音数据分别划分为设定长度的语音子数据和参考子数据。

步骤230、采用设定维度的梅尔频率倒谱系数对各个所述语音子数据和参考子数据进行处理，以获得各个语音子数据的语音特征向量和各个参考子数据的参考特征向量。

步骤240、对所述第一设定个数的参考者进行分组，并计算各组的所述参考特征向量的平均值，以获取各组的参考均值向量。

具体的，可以将全部参考者平均分为8组、10组、15组或者其他数值。计算各组的所述参考特征向量的平均值，包括两步，先计算当前分组的各个参考者的参考特征向量的平均值，再根据各个参考者的参考特征向量的平均值计算当前分组的参考均值向量。

示例性的，第一设定个数为800，将800个参考者平均分为10组，每组80人。一个参考者的参考语音为8s被划分为100个长度为20ms的参考子数据，相应的，每个参考者便对应100个参考特征向量V_r，求取该100个参考特征向量的平均值，便得到每个参考者的参考特征向量的平均值每组便对应80个/>进一步对这80个/>取平均，便得到该组的参考均值向量/>

具体的，参考均值向量的表达式如下：

其中，M表示当前分组包括的参考者的个数，N表示每个参考者包括的参考特征向量的个数，V_r(ij)表示当前分组第i个参考者的第j个参考特征向量。

步骤250、根据各组的所述参考均值向量确定各组的各个所述参考者的特征映射矩阵。

其中，所述特征映射矩阵为当前组的所述参考者的参考特征矩阵与当前组的特征向量矩阵的内积矩阵，所述参考特征矩阵为所述参考者的各个参考特征向量减去当前组的所述参考均值向量所得的向量组成的矩阵，所述特征向量矩阵为当前组的所述参考特征矩阵的协方差矩阵的特征向量组成的矩阵。

具体的，参考特征向量V_r为特征向量矩阵M_r的行向量，特征向量矩阵M_r的协方差矩阵为M_v计算方法为：将特征向量矩阵M_r的每一行减去参考均值向量从而得到新的特征向量矩阵，即参考特征矩阵/>则协方差矩阵M_v的表达式为：/>其中，N表示该组参考者的人数，对协方差矩阵M_v进行特征向量分解，得到其特征向量，当前分组的协方差矩阵M_v的各个特征向量便组成特征向量矩阵M_eig。特征映射矩阵M_r-map则为：

步骤260、计算所述指定用户的各个所述语音特征向量与所述参考均值向量的差，记为差值向量，并将所述指定用户的各个差值向量组成差值矩阵。

具体的，差值矩阵M_d的行向量为语音特征向量V_q与参考均值向量的差值向量。

步骤270、将所述差值矩阵与所述特征向量矩阵的内积记为语音映射矩阵。

具体的，语音映射矩阵M_q-map的表达式为：

M_g-map＝M_d.M_eig

步骤280、根据所述特征映射矩阵与所述语音映射矩阵确定所述待识别语音数据的语音编码。

可选的，根据所述特征映射矩阵与所述语音映射矩阵确定所述待识别语音数据的语音编码，包括：

计算所述语音映射矩阵的每个行向量分别与所述特征映射矩阵的所有行向量的L₂范数，各个所述L₂范数即为所述待识别语音数据的语音编码。

具体的，所述待识别语音数据的语音编码M_q-f的表达式为：

其中，R_q为M_q-map的行数，R_q为M_r-map的行数，||·||表示L₂范数。

步骤290、根据所述语音编码识别所述待识别语音数据是否为所述指定用户的语音。

实施例三

图3为本发明实施例二提供的一种语音识别的预测方法的流程图，本实施例是对实施例一的进一步细化，如图3所示，该方法包括如下步骤：

步骤310、获取指定长度的待识别语音数据以及第一设定个数的参考者的参考语音数据。

步骤320、根据所述参考语音数据集以及梅尔频率倒谱系数，对所述待识别语音数据进行语音编码，以获取所述待识别语音数据的语音编码。

步骤330、获取所述指定用户的编号信息。

其中，编号信息可以是所述指定用户的工号，是用于区别该指定用户与其他用户的依据。

步骤340、根据所述编号信息确定所述指定用户的编码神经网络模型。

具体的，可以预先建立的编号信息与编号神经网络模型的映射关系，根据该映射关系和编号信息确定指定用户的编码神经网络模型。

步骤350、将所述语音编码输入所述编码神经网络模型，以获取所述编码神经网络模型输出的模型编码。

具体的，编码神经网络模型的个数与参考组的数目相同。设置多个编码神经网络模型的好处在于，可以并行处理数据，以提高识别的速度。编码神经网络模型包括一个输入层和输出层，以及使用Sigmoid函数作为激活函数的隐层，编码神经网络模型的损失函数为Mean Square Error(均方误差函数，MSE)，训练的目的为使得输入与输出的MSE值达到设定要求。其中，隐层全连接神经元的数目设置分为两部分，第一部分隐层中的神经元数目随着隐层的深入不断减少，当减少到选定值后，第二部分隐层中的神经元数目随着隐层的深入不断增加。

可选的，所述编码神经网络模型的训练过程为：

获取所述指定用户的训练语音数据集，所述训练语音数据集包括第一指定个数的所述指定长度的训练语音数据；对各个所述训练语音数据进行语音编码，以获取各个所述训练语音数据的训练编码，其中，对所述训练语音进行语音编码的方式与对所述待识别语音数据进行语音编码的方式相同；将所述训练编码输入所述编码神经网络模型，获取所述编码神经网络模型输出的模型编码，以所述模型编码与所述训练编码的均方误差满足设定条件为目的，对所述编码神经网络模型进行训练。

其中，第一指定个数可以是100个、150个、200个、300个或者其他数值，训练语音数据的个数越多，训练结果的准确度也会相应的越高，然而，训练时间也会相应增加，综合考虑，可以其个数可以是200个。

具体的，在编码神经网络模型的训练过程中，对指定用户的训练语音数据集进行语音编码的方式如前述的待识别语音数据的编码方式相同，具体的可以是本发明任意实施例所提供的特征编码的方式，采用相同的编码方式可以有效保证模型的准确性。训练语音数据集可以是与指定用户工作内容相关的内容。示例性的，如指定用户为4S店的销售人员，则训练语音数据集可以是汽车手册，或者员工培训手册的内容。

示例性的，可以让指定用户，如指定销售人员朗读指定的内容，如产品手册或员工培训手册，并从中截取160s的语音，并对其进行划分，以获得200个长度为0.8s的训练语音数据。对各个训练语音数据采用前述的编码方式进行编码，从而得到200个训练编码，将该200个训练编码作为编码神经网络模型的训练集对模型进行训练。假设所得到的各个训练编码为6400维的行向量，可以训练10个编码神经网络模型，每个网络模型的输入层和输出层均为6400维，隐层包括6层，从前到后其维度依次为：2000、1000、500、500、1000、2000，从高到低，再从低到高，隐层的激活函数可以采用Sigmoid函数，损失函数为MSE函数，训练的目标为使输入与输出的MSE的值达到设定条件，如小于设定阈值。

可选的，在得到模型编码之后，便可以根据语音编码和模型编码确定所述待识别语音数据是否为所述指定用户的语音。具体的，语音编码和模型编码匹配则待识别语音数据是所述指定用户的语音，反之，则不是。具体判断两者是否匹配可以根据两者所代表的行向量的距离是否小于设定值。

可选的，在得到模型编码之后，也可以采用后续步骤进行语音识别。

步骤360、根据所述编号信息确定所述指定用户的语音识别主模型。

其中，语音识别主模型可以是机器学习模型或神经网络模型，如GBDT(GradientBoosting Decision Tree，梯度提升迭代决策树)模型、CNN(Convolutional NeuralNetworks，卷积神经网络)模型。

可选的，语音识别主模型的训练过程为：

获取所述指定用户的主模型训练语音数据集，所述主模型训练语音数据集包括第二指定个数的所述指定长度的主模型训练语音数据；获取第二设定个数的主模型参考者的主模型参考语音数据集，其中，所述主模型参考者不包括所述指定用户和所述参考者，所述主模型参考语音数据集包括所述第二指定个数的所述指定长度的主模型参考语音数据；对各个所述主模型训练语音数据和各个主模型参考语音数据分别进行语音编码，以分别获取各个主模型语音编码和各个主模型参考编码，其中，对所述主模型训练语音数据进行语音编码以及对所述主模型参考语音数据进行语音编码的编码方式均与对所述待识别语音数据进行语音编码的编码方式相同；根据所述编号信息确定所述指定用户的编码神经网络模型；将各个所述主模型语音编码和各个主模型参考编码分别输入所述编码神经网络模型，以分别获取所述编码神经网络模型输出的各个主模型语音网络编码和各个主模型参考网络编码；将各个所述主模型语音编码与其对应的所述主模型语音网络编码的差值的平方作为所述语音识别主模型的输入，并标记该输入的标签为指定用户；将各个所述主模型参考编码与其对应的所述主模型参考网络编码的差值的平方作为所述语音识别主模型的输入，并标记该输入的标签为未知者。

其中，第二指定个数可以是100、150、200或者其他数值。语音识别主模型训练所涉及的参考者，即主模型参考者，不包括指定用户以及编码神经网络模型训练所涉及的参考者。主模型参考者的个数可以是100、200、300或者其他数值。主模型参考语音数据集可以是公开语音数据集，如可以是与编码神经网络模型所涉及的公开语音数据相同，但其所涉及的参考者不同。

具体的，一个语音识别主模型可以对应多个编号信息，如5、8、10或者其他数值。可以预先建立的编号信息与语音识别主模型的映射关系，根据该映射关系和编号信息确定指定用户的语音识别主模型。当然，语音识别主模型也可以对应全部的编号信息，这样步骤360便可以省略。然而，这样设置会导致当存在***时需要重新进行模型训练。因此，可以选择将所有需要识别的用户划分成为几组，每组对应一个不同的语音识别主模型，如可以设置5个指定用户的编号信息对应一个语音识别主模型。

示例性的，当接收到4S店销售人员的编号信息(工号)时，可根据编号信息与语音识别主模型的对应关系确定其对应的语音识别主模型，再进一步根据编号信息确定与之对应的编码神经网络模型，将该销售人员对应的原始语音数据划分为各个0.8s的待识别语音，对每一个0.8s长的待识别语音按照上述编码方法进行特征编码，并将编码输入编码神经网络模型进行还原，再根据输入和输出编码以及语音识别主模型进行语音识别，以确定该待识别语音是否是该销售人员的语音，循环执行，以识别所有的原始语音数据，从而可以从原始语音数据中将该销售人员的语音识别或筛选出来。

示例性的，语音识别主模型的训练过程为：让指定用户朗读设定内容，如让销售人员朗读产品手册，并从中截取120s的语音，并对其进行划分，以获得150个长度为0.8s的训练语音数据，以作为主模型训练语音数据。采用前述编码方式对各个主模型训练语音数据进行特征编码，得到各个主模型语音编码从WVU-Multimodal 2013公开语音数据集中排除已经用于编码神经网络模型训练的语音数据，从剩余的语音数据中选取200参考者作为主模型参考者，每个参考者选取120s的语音数据，作为主模型参考语音数据，采用前述编码方式对各个主模型参考语音数据进行特征编码，得到各个主模型参考编码/>将各个主模型语音编码/>输入指定用户对应的编码神经网络模型，得到模型输出的主模型语音网络编码/>假设主模型语音编码/>的个数为10，则其对应的主模型语音网络编码/>也是10个，将/> 作为语音识别主模型的训练正样本的输入，并将1作为语音识别主模型的训练正样本的标签。同样的，将主模型参考编码/>输入指定用户对应的编码神经网络模型，得到模型输出的主模型参考网络编码/>假设主模型参考编码/>的个数为10，则其对应的主模型参考网络编码/>也是10个，将/> 作为语音识别主模型的训练负样本的输入，并将0作为语音识别主模型的训练负样本的标签。

步骤370、将所述语音编码与所述模型编码的差值的平方输入所述语音识别主模型。

具体的，语音编码和模型编码可以是一个行向量或者矩阵的形式，若为矩阵的形式则需要将其转换为行向量，如通过行拼接的方式，假设原语音编码或模型编码为80×80的矩阵，则通过将矩阵各个行依次拼接得到1×6400的行向量。由于编码神经网络模型的个数可以是多个，与之对应的语音编码也会被分为多个分组分别输入各个编码神经网络模型，那么便会得到多个模型编码。将各个编码神经网络模型的输入与输出差值的平方最为语音识别主模型的输入。

示例性的，若存在10个语音编码V_q-f，则对应10个模型编码C_q-f，则将[(V_q-f,1-C_q-f,1)²,(V_q-f,2-C_q-f,2)²,…,(V_q-f,10-C_q-f,10)²]作为语音识别主模型的输入，其中，下角标的数字1～10表示序号。

步骤380、根据所述语音识别主模型的输出确定所述待识别语音数据是否为所述指定用户的语音。

相应的，根据所述语音识别主模型的输出确定所述待识别语音数据是否为所述指定用户的语音，包括：当所述语音识别主模型输出的标签为指定用户时，确定所述待识别语音数据为所述指定用户的语音，当所述语音识别主模型输出的标签为未知者时，确定所述待识别语音数据不是所述指定用户的语音。

本发明实施例的技术方案，基于梅尔频率倒谱系数，将待识别的语音用多个参考者的参考语音数据进行语音编码，用多个未知的参考者的声音特征来表征待识别者的声音特征，提高了编码的唯一性；建立编码神经网络模型和语音识别主模型，基于模型进行语音编码的识别，实现了对不完全样本的特征识别，语音识别准确度高。

实施例四

图4是本发明实施例四提供的一种语音识别的装置的示意图，如图4所示，该装置包括：数据获取模块410、语音编码模块420和语音识别模块430。

其中，数据获取模块410，用于获取指定长度的待识别语音数据以及第一设定个数的参考者的参考语音数据，其中，所述参考者不包括指定用户；语音编码模块420，用于根据所述参考语音数据集以及梅尔频率倒谱系数，对所述待识别语音数据进行语音编码，以获取所述待识别语音数据的语音编码；语音识别模块430，用于根据所述语音编码识别所述待识别语音数据是否为所述指定用户的语音。

本发明实施例的技术方案，基于梅尔频率倒谱系数，将待识别的语音用多个参考者的参考语音数据进行语音编码，用多个未知的参考者的声音特征来表征待识别者的声音特征，提高了编码的唯一性，根据语音编码对语音数据进行识别，有效识别指定用户的语音，识别速度快、准确度高。

可选的，语音编码模块420，包括：

语音划分单元，用于将所述待识别语音数据以及各个所述参考者的参考语音数据分别划分为设定长度的语音子数据和参考子数据；特征工程单元，用于采用设定维度的梅尔频率倒谱系数对各个所述语音子数据和参考子数据进行处理，以获得各个语音子数据的语音特征向量和各个参考子数据的参考特征向量；语音编码单元，用于根据所述语音特征向量和参考特征向量确定所述待识别语音数据的语音编码。

可选的，语音编码单元，包括：

分组子单元，用于对所述第一设定个数的参考者进行分组；取平均子单元，用于计算各组的所述参考特征向量的平均值，以获取各组的参考均值向量；特征映射矩阵确定子单元，用于根据各组的所述参考均值向量确定各组的各个所述参考者的特征映射矩阵，其中，所述特征映射矩阵为当前组的所述参考者的参考特征矩阵与当前组的特征向量矩阵的内积矩阵，所述参考特征矩阵由所述参考者的各个参考特征向量组成的矩阵，所述特征向量矩阵为当前组的所述参考特征矩阵的协方差矩阵的特征向量组成的矩阵；求差子单元，用于计算所述指定用户的各个所述语音特征向量与所述参考均值向量的差，记为差值向量，并将所述指定用户的各个差值向量组成差值矩阵；语音映射矩阵确定子单元，用于将所述差值矩阵与所述特征向量矩阵的内积记为语音映射矩阵；语音编码子单元，用于根据所述特征映射矩阵与所述语音映射矩阵确定所述待识别语音数据的语音编码。

可选的，语音编码子单元，具体用于：

计算所述语音映射矩阵的每个行向量分别与所述特征映射矩阵的行向量的L₂范数，各个所述L₂范数即为所述待识别语音数据的语音编码。

可选的，语音识别模块430，包括：

主模型确定单元，用于根据所述编号信息确定所述指定用户的语音识别主模型；语音识别单元，用于将所述语音编码与所述模型编码的差值的平方输入所述语音识别主模型；根据所述语音识别主模型的输出确定所述待识别语音数据是否为所述指定用户的语音。

本发明实施例所提供的语音识别的装置可执行本发明任意实施例所提供的语音识别的方法，具备执行方法相应的功能模块和有益效果。

实施例五

图5为本发明实施例四提供的一种语音识别的设备的结构示意图，如图5所示，该设备包括处理器510、存储器520、输入装置530和输出装置540；设备处理器510的数量可以是一个或多个，图5中以一个处理器510为例；设备中的处理器510、存储器520、输入装置530和输出装置540可以通过总线或其他方式连接，图5中以通过总线连接为例。

存储器520作为一种计算机可读存储介质，可用于存储软件程序、计算机可执行程序以及模块，如本发明实施例中的语音识别的方法对应的程序指令/模块(例如，语音识别的装置中的数据获取模块410、语音编码模块420和语音识别模块430)。处理器510通过运行存储在存储器520中的软件程序、指令以及模块，从而执行设备的各种功能应用以及数据处理，即实现上述的语音识别的方法。

存储器520可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作***、至少一个功能所需的应用程序；存储数据区可存储根据终端的使用所创建的数据等。此外，存储器520可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中，存储器520可进一步包括相对于处理器510远程设置的存储器，这些远程存储器可以通过网络连接至设备/终端/服务器。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

输入装置530可用于接收输入的数字或字符信息，以及产生与设备的用户设置以及功能控制有关的键信号输入。输出装置540可包括显示屏等显示设备。

实施例六

发明实施例六还提供一种包含计算机可执行指令的存储介质，所述计算机可执行指令在由计算机处理器执行时用于执行一种语音识别的方法，该方法包括：

当然，本发明实施例所提供的一种包含计算机可执行指令的存储介质，其计算机可执行指令不限于如上所述的方法操作，还可以执行本发明任意实施例所提供的语音识别的方法中的相关操作。

通过以上关于实施方式的描述，所属领域的技术人员可以清楚地了解到，本发明可借助软件及必需的通用硬件来实现，当然也可以通过硬件实现，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如计算机的软盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory,RAM)、闪存(FLASH)、硬盘或光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

值得注意的是，上述语音识别的装置的实施例中，所包括的各个单元和模块只是按照功能逻辑进行划分的，但并不局限于上述的划分，只要能够实现相应的功能即可；另外，各功能单元的具体名称也只是为了便于相互区分，并不用于限制本发明的保护范围。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

1.一种语音识别的方法，其特征在于，包括：

基于梅尔频率倒谱系数，将所述待识别语音数据用所述第一设定个数的参考者的参考语音数据进行语音编码，以获取所述待识别语音数据的语音编码；其中，所述梅尔频率倒谱系数是组成梅尔频率倒谱的系数，用于描述声音的特征；

根据所述语音编码识别所述待识别语音数据是否为所述指定用户的语音；

所述基于梅尔频率倒谱系数，将所述待识别语音数据用所述第一设定个数的参考者的参考语音数据进行语音编码，包括：

将所述待识别语音数据以及各个所述参考者的参考语音数据分别划分为设定长度的语音子数据和参考子数据；

采用设定维度的梅尔频率倒谱系数对各个所述语音子数据和参考子数据进行处理，以获得各个语音子数据的语音特征向量和各个参考子数据的参考特征向量；

根据所述语音特征向量和参考特征向量确定所述待识别语音数据的语音编码；

所述根据所述语音特征向量和参考特征向量确定所述待识别语音数据的语音编码，包括：

对所述第一设定个数的参考者进行分组；

计算各组的所述参考特征向量的平均值，以获取各组的参考均值向量；

根据各组的所述参考均值向量确定各组的各个所述参考者的特征映射矩阵，其中，所述特征映射矩阵为当前组的所述参考者的参考特征矩阵与当前组的特征向量矩阵的内积矩阵，所述参考特征矩阵为所述参考者的各个参考特征向量减去当前组的所述参考均值向量所得的向量组成的矩阵，所述特征向量矩阵为当前组的所述参考特征矩阵的协方差矩阵的特征向量组成的矩阵；

计算所述指定用户的各个所述语音特征向量与所述参考均值向量的差，记为差值向量，并将所述指定用户的各个差值向量组成差值矩阵；

将所述差值矩阵与所述特征向量矩阵的内积记为语音映射矩阵；

根据所述特征映射矩阵与所述语音映射矩阵确定所述待识别语音数据的语音编码；

所述根据所述特征映射矩阵与所述语音映射矩阵确定所述待识别语音数据的语音编码，包括：

计算所述语音映射矩阵的每个行向量分别与所述特征映射矩阵的所有行向量的L₂范数，各个所述L₂范数即为所述待识别语音数据的语音编码；

所述根据所述语音编码识别所述待识别语音数据是否为所述指定用户的语音，包括：

获取所述指定用户的编号信息；

根据所述编号信息确定所述指定用户的编码神经网络模型；

将所述语音编码输入所述编码神经网络模型，以获取所述编码神经网络模型输出的模型编码；

根据所述语音编码和模型编码确定所述待识别语音数据是否为所述指定用户的语音；

所述编码神经网络模型的训练过程为：

获取所述指定用户的训练语音数据集，所述训练语音数据集包括第一指定个数的所述指定长度的训练语音数据；

对各个所述训练语音数据进行语音编码，以获取各个所述训练语音数据的训练编码，其中，对所述训练语音进行语音编码的方式与对所述待识别语音数据进行语音编码的方式相同；

将所述训练编码输入所述编码神经网络模型，获取所述编码神经网络模型输出的模型编码，以所述模型编码与所述训练编码的均方误差满足设定条件为目的，对所述编码神经网络模型进行训练；

所述根据所述语音编码和模型编码确定所述待识别语音数据是否为所述指定用户的语音，包括：

根据所述编号信息确定所述指定用户的语音识别主模型；

将所述语音编码与所述模型编码的差值的平方输入所述语音识别主模型；

根据所述语音识别主模型的输出确定所述待识别语音数据是否为所述指定用户的语音；

所述语音识别主模型的训练过程为：

获取所述指定用户的主模型训练语音数据集，所述主模型训练语音数据集包括第二指定个数的所述指定长度的主模型训练语音数据；获取第二设定个数的主模型参考者的主模型参考语音数据集，其中，所述主模型参考者不包括所述指定用户和所述参考者，所述主模型参考语音数据集包括所述第二指定个数的所述指定长度的主模型参考语音数据；

对各个所述主模型训练语音数据和各个主模型参考语音数据分别进行语音编码，以分别获取各个主模型语音编码和各个主模型参考编码，其中，对所述主模型训练语音数据进行语音编码以及对所述主模型参考语音数据进行语音编码的编码方式均与对所述待识别语音数据进行语音编码的编码方式相同；

根据所述编号信息确定所述指定用户的编码神经网络模型；

将各个所述主模型语音编码和各个主模型参考编码分别输入所述编码神经网络模型，以分别获取所述编码神经网络模型输出的各个主模型语音网络编码和各个主模型参考网络编码；

将各个所述主模型语音编码与其对应的所述主模型语音网络编码的差值的平方作为所述语音识别主模型的输入，并标记该输入的标签为指定用户；

将各个所述主模型参考编码与其对应的所述主模型参考网络编码的差值的平方作为所述语音识别主模型的输入，并标记该输入的标签为未知者；

相应的，根据所述语音识别主模型的输出确定所述待识别语音数据是否为所述指定用户的语音，包括：

当所述语音识别主模型输出的标签为指定用户时，确定所述待识别语音数据为所述指定用户的语音，当所述语音识别主模型输出的标签为未知者时，确定所述待识别语音数据不是所述指定用户的语音。

2.一种语音识别的装置，其特征在于，包括：

语音编码模块，用于基于梅尔频率倒谱系数，将所述待识别语音数据用所述第一设定个数的参考者的参考语音数据进行语音编码，以获取所述待识别语音数据的语音编码；其中，所述梅尔频率倒谱系数是组成梅尔频率倒谱的系数，用于描述声音的特征；

语音识别模块，用于根据所述语音编码识别所述待识别语音数据是否为所述指定用户的语音；

所述语音编码模块，包括：

语音划分单元，用于将所述待识别语音数据以及各个所述参考者的参考语音数据分别划分为设定长度的语音子数据和参考子数据；

特征工程单元，用于采用设定维度的梅尔频率倒谱系数对各个所述语音子数据和参考子数据进行处理，以获得各个语音子数据的语音特征向量和各个参考子数据的参考特征向量；

语音编码单元，用于根据所述语音特征向量和参考特征向量确定所述待识别语音数据的语音编码；

所述语音编码单元，包括：

分组子单元，用于对所述第一设定个数的参考者进行分组；

取平均子单元，用于计算各组的所述参考特征向量的平均值，以获取各组的参考均值向量；

特征映射矩阵确定子单元，用于根据各组的所述参考均值向量确定各组的各个所述参考者的特征映射矩阵，其中，所述特征映射矩阵为当前组的所述参考者的参考特征矩阵与当前组的特征向量矩阵的内积矩阵，所述参考特征矩阵由所述参考者的各个参考特征向量组成的矩阵，所述特征向量矩阵为当前组的所述参考特征矩阵的协方差矩阵的特征向量组成的矩阵；

求差子单元，用于计算所述指定用户的各个所述语音特征向量与所述参考均值向量的差，记为差值向量，并将所述指定用户的各个差值向量组成差值矩阵；

语音映射矩阵确定子单元，用于将所述差值矩阵与所述特征向量矩阵的内积记为语音映射矩阵；

语音编码子单元，用于根据所述特征映射矩阵与所述语音映射矩阵确定所述待识别语音数据的语音编码；

所述语音编码子单元，具体用于：

计算所述语音映射矩阵的每个行向量分别与所述特征映射矩阵的行向量的L₂范数，各个所述L₂范数即为所述待识别语音数据的语音编码；

所述语音识别模块，具体用于：

获取所述指定用户的编号信息；

根据所述编号信息确定所述指定用户的编码神经网络模型；

所述编码神经网络模型的训练过程为：

所述语音识别模块，还包括：

主模型确定单元，用于根据所述编号信息确定所述指定用户的语音识别主模型；

语音识别单元，用于将所述语音编码与所述模型编码的差值的平方输入所述语音识别主模型；

所述语音识别主模型的训练过程为：

根据所述编号信息确定所述指定用户的编码神经网络模型；

3.一种语音识别的设备，其特征在于，所述设备包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1所述的语音识别的方法。