CN105895087B

CN105895087B - 一种语音识别方法及装置

Info

Publication number: CN105895087B
Application number: CN201610172175.XA
Authority: CN
Inventors: 高伟杰; 任晓楠; 王峰
Original assignee: Hisense Group Co Ltd
Current assignee: Hisense Group Co Ltd
Priority date: 2016-03-24
Filing date: 2016-03-24
Publication date: 2020-02-07
Anticipated expiration: 2036-03-24
Also published as: CN105895087A

Abstract

本发明的实施例提供一种语音识别方法及装置，涉及计算机技术领域，用以解决现有的语音识别技术对语音进行语音分类时，所导致的语音分类区分度不高的问题。该方法包括：提取待识别语音的至少两个语音特征；基于多层受限玻尔兹曼机RBM对至少两个语音特征中的每个语音特征分别进行训练，得到每个语音特征对应的深度语音特征；将每个语音特征对应的深度语音特征进行特征融合，得到待识别语音的深度语音特征；将待识别语音的深度语音特征输入分类器进行分类，得到待识别语音的语音类别。本发明应用于语音识别。

Description

一种语音识别方法及装置

技术领域

本发明涉及计算机技术领域，尤其涉及一种语音识别方法及装置。

背景技术

目前，随着语音识别技术在人机交互领域的不断发展，在人机交互的过程中，具有像人一样的情感能力是机器智能的必要基础。在已有技术中，计算机在进行语音情感识别或语音乡音识别时，通常是基于直接提取的语音特征参数(例如，短时能量、共振峰以及基音频率等能够表征说话人情绪的韵律特征以及音质特征的特征参数)以及浅层结构算法(例如、支持向量机(英文：Support Vector Machine，简称：SVM))得到的分类器对语音进行分类的。

但是，由于直接提取的语音特征参数中本身包含的信息量比较少，且语音特征间的区分度不高，从而导致分类器无法对这些语音特征进行精细化的区分，对于复杂的语音分类问题存在一定制约，无法正确及精细的对语音实现分类。

发明内容

本发明的实施例提供一种语音识别方法及装置，用以解决现有的语音识别技术对语音进行语音识别时所导致的语音分类区分度不高的问题。

第一方面，提供一种语音识别方法，包括：

提取待识别语音的至少两个语音特征；

基于多层受限玻尔兹曼机RBM对所述至少两个语音特征中的每个语音特征分别进行训练，得到所述每个语音特征对应的深度语音特征；

将所述每个语音特征对应的深度语音特征进行特征融合，得到所述待识别语音的深度语音特征；

将所述待识别语音的深度语音特征输入分类器进行分类，得到所述待识别语音的语音类别。

第二方面，提供一种语音识别装置，包括：

提取模块，用于提取待识别语音的至少两个语音特征；

训练模块，用于基于多层受限玻尔兹曼机RBM对所述提取模块提取出的所述至少两个语音特征中的每个语音特征分别进行训练，得到所述每个语音特征对应的深度语音特征；

融合模块，用于将所述训练模块得到的所述每个语音特征对应的深度语音特征进行特征融合，得到所述待识别语音的深度语音特征；

分类模块，用于将所述同和模块得到的所述待识别语音的深度语音特征输入分类器进行分类，得到所述待识别语音的语音类别。

本发明的实施例提供的语音识别方法及装置，基于多层RBM对待识别语音的至少两个语音特征中的每个语音特征分别进行训练，得到上述的每个语音特征对应的深度语音特征，然后将每个语音特征对应的深度语音特征进行特征融合，得到该待识别语音的深度语音特征，最后将该待识别语音的深度语音特征输入分类器进行分类，得到该待识别语音的语音类别。相比于现有技术通过直接提取的语音特征对语音进行分类，本申请通过对待识别语音的多个不同语音特征分别进行多层RBM训练，由于多层RBM网络具有多层分线性映射的深层结构，会对待训练的语音特征实现逐层训练，每层提取出的深度特征会作为下一层的待训练特征进行进一步的深度挖掘，从而使得提取出的每个语音特征的深度语音特征保留了其关键信息，提高了语音特征的敏感度，使得语音特征间的区分度变大，然后将提取出的不同语音特征的深度语音特征进行信息融合组合成新的语音特征，从而最大限度的保留了待识别语音的不同特征以及关键信息，这样将该新的语音特征作为分类器的输入分类器进行分类，从而有效的提高语音识别的准确度，提升了各种语音类别间的区分度。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种RBM的典型结构示意图；

图2为本发明实施例提供的一种多层RBM的级联构成的深度神经网络结构示意图；

图3为本发明实施例提供的一种语音识别方法的流程示意图；

图4为本发明实施例提供的一种基于RBM的语音识别过程的流程示意图；

图5为本发明实施例提供的一种语音识别***框图；

图6为本发明实施例提供的一种语音识别装置的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提供的语音识别方法的执行主体可以为语音识别装置，或者用于执行上述语音识别方法的终端设备。具体的，该移动终端可以为智能电视、智能手机、平板电脑、笔记本电脑、超级移动个人计算机(英文：Ultra-mobile Personal Computer，简称：UMPC)、上网本、个人数字助理(英文：Personal Digital Assistant，简称：PDA)等终端设备。其中，语音识别装置可以为上述终端设备中的中央处理器(英文：Central ProcessingUnit，简称CPU)或者可以为上述终端设备的中的控制单元或者功能模块。

深度学习的概念源于人工神经网络的研究。含多隐层的多层感知器就是一种深度学习结构。深度学习通过组合低层特征形成更加抽象的高层表示属性类别或特征，以发现数据的分布式特征表示。深度学习动机在于建立、模拟人脑进行分析学习的神经网络，它模仿人脑的机制来解释数据，例如图像，声音和文本。而深度学习区别于浅层学习，主要表现为：1)强调了模型结构的深度，通常有5层，6层，甚至十几层的隐层节点；2)明确突出了特征学习的重要性，即通过逐层特征变换，将样本在原空间的特征表示变换到一个新特征空间，从而使得分类和预测更加容易。较人工规则构造特征的方法相比，利用大数据来学习特征，更能够表达数据的丰富内在信息。

本发明实施例中的多层受限玻尔兹曼机(英文：Restricted Boltzmann Machine，简称：RBM)是深度学习的一个常用模型，也是目前使用较为广泛的深度学习模型。其中，上述的多层RBM是一个包含多层隐藏变量的概率生成模型，这些网络被“限制”为一个可视层和一个隐藏层，层间存在连接，但层内的单元间不存在连接，其中隐层单元被训练去捕捉在可视层表现出来的一个高阶相关过程。而多层RBM网络的连接是通过自顶向下的生成权值来指导确定的。

具体的，参照图1所示的RBM的典型结构图可知，典型RBM模型是两层结构，一层为可视层，一层为隐藏层，该可见层的m个节点单元(如图1中的节点a)相互独立，该隐藏层的n个节点单元(如图2中的节点b)相互独立，上述的可见层的m个节点单元与上述的隐藏层的n个节点单元之间的连接权重值为W。

本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。

本发明的实施例提供一种语音识别方法，如图3所示，该方法包括如下步骤：

101、语音识别装置提取待识别语音的至少两个语音特征。

本实施例语音特征包括用于表征语音情感的语音情感特征和/或用于表征语音乡音的语音乡音特征。具体的，本实施例中的语音特征包括短时能量、持续时间、短时过零率、共振峰、基音频率、线性预测倒谱系数(英文：Linear Prediction CepstrumCoefficient,，简称：LPCC)、Mel频率倒谱系数(英文：Mel Frequency CepstrumCoefficient,，简称MFCC)、Mel频带能量及其衍生参数中的至少两个。

当语音特征为语音情感特征时，对应的，语音特征类别为语音情感类别。示例性的，用户的语音情感通常情况下可以分为六类：“高兴”、“愤怒”、“悲伤”、“惊讶”、“恐惧”、“平静”，这样语音识别装置在识别出待识别语音所反映的用户情感类型后，该语音识别装置便可针对用户不同的情绪进行相应的语音合成应答，电视主题类型设置及电视服务类型推荐。例如，终端设备可以根据用户当前的语音所反馈的语音情感，为用户推荐不同的节目，如，在“愤怒”的情况下，温馨、励志、文艺等类型的影片比较有利于情绪的放松，当用户“悲伤”时，观看喜剧片、娱乐综艺等幽默搞笑的节目有助于排解情绪；无明显情绪变化(“平静”)时，用户观看的节目类型一般与日常观影习惯相似。此外，由于终端的主题界面的设置对用户的心理有着正面和积极的影响，而根据UI设计的色彩心理学知识，不同色彩会引起不同的情绪和情感的波动，因此，终端设备也可根据用户当前语音所反馈的语音情感对终端设备的主题进行人性化设置。

当语音特征为语音乡音特征时，对应的，语音特征类别为语音乡音类别。示例性的，我国是个多方言地区的国家，不同区域的人语音特性及说话方式具有一定的差异，除了标准的普通话，还有七种主要的方言——官话方言、吴方言、客家方言、粤方言、闽方言、赣方言、湘方言，以上几种方言下还可细分为更多的方言支系，此外，语音特性因人而异，同一个人的语音数据受很多外部因素的影响，如说话人的性别、年龄、语速、教育程度，语音采集设备的质量以及环境噪声等。因此，本发明实施例中的语音识别装置在识别出待识别语音所反映的语音乡音类别后，该语音识别装置便可针对用户不同的乡音类型进行相应的语音合成应答，电视主题类型设置及电视服务类型推荐。

示例性的，语音识别装置在提取待识别语音的语音情感特征时，可以将训练语音样本中可以表征语音情感的韵律特征和音质特性作为语音情感特征，例如：短时能量、持续时间、短时过零率、共振峰、基音频率、LPCC、MFCC、Mel频带能量及其衍生参数。而语音识别装置在提取待识别语音的语音乡音特征时，可以将训练语音样本中可以表征地方口音特性的特征参数作为语音乡音特征，例如：MFCC、能量以及共振峰频率等。需要说明的是，由于以上各种语音特征参数的提取过程均为现有算法，此处不再就各特征参数的计算过程进行介绍。

此外，为了方便获取提取待识别语音的语音特征，本发明实施例在提取待识别语音的语音特征之前，还可以对待识别语音进行预处理，即对待识别语音进行预加重、分帧加窗以及端点检测处理，其中帧长取16ms，即256个采样点，帧移为128个采样点，对每一语音帧加上汉明窗，利用短时能量和过零率的双阈值法，来判断语音的起始点。

102、语音识别装置基于多层RBM对至少两个语音特征中的每个语音特征分别进行训练，得到每个语音特征对应的深度语音特征。

示例性的，语音识别装置对待识别语音的多个语音特征中的每个语音特征分别进行多层RBM训练时，可以针对每种语音特征分别构建多层RBM网络，然后基于构建的多层RBM网络，得到对应的语音特征的深度语音特征。

具体的，参照图3所示的多层RBM网络的结构图可知，若本实施例中的多层RBM网络的层数以3层为例时，语音识别装置对任一语音特征构建三层RBM网络进行深度语音特征提取的过程，可以参照下述过程来实现：

1)构建二层RBM网络(可以参照图1)；

若一个二层RBM网络的可视层包括M个节点，隐藏层包括n个节点，对于一个待训练的语音特征向量X＝(x₁,x₁,......,x_m)来说，X向量中的每个分量对应着可视层的一个节点，通过可视层输入经过一些列语音得到一个向量Y＝(y₁,y₁,......,y_n)，Y向量中的每个分量对应着隐藏层的一个节点，上述的X向量与Y向量的分量都对应着每个节点单独偏置量。基于上述内容，我们可以理解，RBM模型就是将一个维度为m的语音特征向量映射到一个维度为n的语音特征向量。

2)对构建的二层RBM网络进行训练；

具体的，RBM网络的训练过程包括：a、初始化该构建的二层RBM网络的相关参数，其中，该相关参数θ＝{W_ij,a_i,b_j}，W_ij为可视层的节点单元i和隐藏层的节点单元j之间的权重系数，W_ij是服从均值为0，标准差为1的正态分布，a_i为可见层的节点单元的偏置量，b_j为隐藏层的节点单元的偏置量，a_i，b_j初始值均为0；i∈1,2,……，m；j,v∈1,2,……，n；b、将待识别语音的任一语音特征赋给该二层RBM网络的可视层进行RBM训练，得到该第一语音特征对应的深度语音特征。

3)将训练好的二层RBM网络的二层隐藏层作为可视层，即可以认为隐藏层是可视层的另一种表达形式，因此隐藏层可以作为可视层输入数据的特征，继续构造二层RBM网络，重复上述步骤(1)(2)，直到完成三层RBM网络的构建，并将该三层RBM网络的输出特征作为该待识别语音的任一语音特征的深度语音特征。

103、语音识别装置将每个语音特征对应的深度语音特征进行特征融合，得到待识别语音的深度语音特征。

示例性的，参照图4所示基于RBM的语音识别过程的流程示意图。语音识别装置在该待识别语音的多个语音特征中的每个语音特征的深度语音特征数据进行融合时所使用的融合方法可以参照下述方法：例如，加权特征融合、基于核空间的投影特征融合、基于相关分析的特征融合等等，这里不做限制。

具体的，加权特征融合的具体过程包括：语音识别装置获取预设的语音特征权重阈值，根据所述语音特征权重阈值与所述语音的每个语音特征对应的深度语音特征，得到该语音的深度语音特征，从而保留了语音的所有语音特征的关键信息及特征信息。例如，可以将所有需要融合的语音特征的权重设为1，然后将所有语音特征的深度语音特征进行简单的串联累加。

104、语音识别装置将待识别语音的深度语音特征输入分类器进行分类，得到待识别语音的语音类别。

此外，语音是被装置在对分类器训练后，可以对训练后的分类器进行微调，利用最顶层的输出标签，通过反向传播网络将错误信息自顶向下传播至每一层深度神经网络，从而微调整个深度神经网络网络，进而对整体的分类器参数实现了微调。

本发明的实施例提供的语音识别方法，基于多层RBM对待识别语音的至少两个语音特征中的每个语音特征分别进行训练，得到上述的每个语音特征对应的深度语音特征，然后将每个语音特征对应的深度语音特征进行特征融合，得到该待识别语音的深度语音特征，最后将该待识别语音的深度语音特征输入分类器进行分类，得到该待识别语音的语音类别。相比于现有技术通过直接提取的语音特征对语音进行分类，本申请通过对待识别语音的多个不同语音特征分别进行多层RBM训练，由于多层RBM网络具有多层分线性映射的深层结构，会对待训练的语音特征实现逐层训练，每层提取出的深度特征会作为下一层的待训练特征进行进一步的深度挖掘，从而使得提取出的每个语音特征的深度语音特征保留了其关键信息，提高了语音特征的敏感度，使得语音特征间的区分度变大，然后将提取出的不同语音特征的深度语音特征进行信息融合组合成新的语音特征，从而最大限度的保留了待识别语音的不同特征以及关键信息，这样将该新的语音特征作为分类器的输入分类器进行分类，从而有效的提高语音识别的准确度，提升了各种语音类别间的区分度。

示例性的，如图5所示的语音识别***框图可知，当步骤104中的分类器为训练后的分类器时，在步骤104之前，该方法还包括：

104a、语音识别装置提取所述训练语音样本的至少两个语音特征及语音类别。

示例性的，本发明实施例中的训练语音样本集中包含了所有语音类别对应的训练语音样本。

104b、语音识别装置基于多层RBM对训练语音样本的至少两个语音特征中的每个语音特征分别进行训练，得到训练语音样本的每个语音特征对应的深度语音特征。

104c、语音识别装置将训练语音样本的每个语音特征对应的深度语音特征进行特征融合，得到训练语音样本的深度语音特征。

104d、语音识别装置将训练语音样本的深度语音特征作为分类器输入特征，并将训练语音样本的语音类别作为分类器的输出特征，对分类器进行训练，得到经过训练的分类器。

这样通过上述的步骤104a-104d，便可得到经过训练的分类器，由于该分类器的训练样本均经过多层RBM网络进行深度学习训练，这样将经过深度学习训练的训练语音样本的深度语音特征作为分类器的输入特征，使得所得到的分类器中的语音类别与深度语音特征间存在更精细的对应关系，从而能够对区分度低的语音类别进行精确区分，有效的提高语音识别的准确度，

需要说明的是，步骤104a-104c中提取训练语音样本的语音特征的提取过程、对训练语音样本的语音特征进行多层RBM训练过程以及对多个语音特征的深度语音特征进行特征融合的过程可以参照步骤101-步骤103的描述，这里不再赘述。

此外，语音识别装置在经过上述过程识别出语音的情感类别或乡音类别后，便可将所得的情感识别结果或乡音识别结果结合视频推荐***为用户推荐多媒体文件。

以情感类别为例，终端根据用户的情感状态对电视主题界面进行调整，从视觉角度对用户产生积极的正面影响。同时对语音合成进行调整，并推荐相应的节目类型，例如：当用户情感状态为“平静”时，语音合成保持正常的语速和语气，推荐的节目类型主要根据用户日常习惯进行推荐；“高兴”时，语音合成应答的语速稍快，语气也较为欢快，此时可以向用户推荐最新、最热的影视剧集和歌曲；当情绪为“愤怒”时，语音合成的语速降低，语气也较为舒缓，可以起到一定的安抚作用，此时会向该用户推荐温馨、励志、文艺等类型的影片以利于情绪的放松；当用户“悲伤”时，语音合成的语速稍低，语气低缓，而此时喜剧片、娱乐综艺等幽默搞笑的节目有助于用户排解消极的情绪；“惊讶”时采用语速稍快，疑问的语气进行语音合成，推荐的节目类型以新、热为主；“恐惧”状态下，语音播报应较为舒缓，节目应以欢快、轻松为主，排除恐怖惊悚类节目的推送。这样终端根据用户在不同情绪下的需求差异，从而为用户进行个性化主题设置、应答及电视服务推荐。当用户根据个人的需求爱好使用助手查找用户所喜爱的电视节目、广告或影片等，***会自动记录下用户的观影记录并进行影视数据分析，如高兴时观看节目，愤怒时观看记录等，将分类后的观影信息反馈到不同的情绪推荐列表，实时更新推荐列表中的热门节目。

以乡音类别为例，终端可以根据用户的乡音类别为用户推荐或使用户进入至同乡社交网络中，从而可以结合用户所属的区域进入电视的同乡社交网络，即根据用户的乡音判断用户可能的家乡信息，即可建立用户特有的老乡圈。由于电视具备社交的特征属性，无论在现实生活还是网络中，人们习惯对各类电视节目评头论足，老乡之间具有一定的文化和观念认同感。结合用户的IP信息将处于同一城市且来自同一地区的正在观看相同节目的用户联系起来，用户可通过该社交网络利用家乡话进行实时的交流和讨论，并分享各自的观影感受；基于这一特性，也可对有相同兴趣爱好并具有同乡属性的用户的观影记录进行分析，为影视推荐提供相关依据。

本发明的实施例提供一种语音识别装置，如图6所示，该装置包括：提取模块21、训练模块22、融合模块23和分类模块24，其中：

提取模块21，用于提取待识别语音的至少两个语音特征。

训练模块22，用于基于多层受限玻尔兹曼机RBM对所述提取模块21提取出的所述至少两个语音特征中的每个语音特征分别进行训练，得到所述每个语音特征对应的深度语音特征。

融合模块23，用于将所述训练模块22得到的所述每个语音特征对应的深度语音特征进行特征融合，得到所述待识别语音的深度语音特征；

分类模块24，用于将所述融合模块23得到的所述待识别语音的深度语音特征输入分类器进行分类，得到所述待识别语音的语音类别。

可选的，提取模块21，还用于提取训练语音样本的至少两个语音特征及语音类别。

训练模块22，用于基于多层RBM对提取模块21提取出的训练语音样本的至少两个语音特征中的每个语音特征分别进行训练，得到训练语音样本的每个语音特征对应的深度语音特征。

融合模块23，用于将训练模块22得到的训练语音样本的每个语音特征对应的深度语音特征进行特征融合，得到训练语音样本的深度语音特征。

训练模块22，还用于将融合模块23得到的训练语音样本的深度语音特征作为分类器输入特征，并将训练语音样本的语音类别作为分类器的输出特征，对分类器进行训练，得到经过训练的分类器。

可选的，上述融合模块23具体用于：获取预设的语音特征权重阈值，根据语音特征权重阈值与语音的每个语音特征对应的深度语音特征，得到语音的深度语音特征。

示例性的，上述的语音特征包括：短时能量、持续时间、短时过零率、共振峰、基音频率、LPCC、MFCC、Mel频带能量中的至少两个。

示例性的，上述的语音特征包括用于表征语音情感的语音情感特征或用于表征语音乡音的语音乡音特征中的至少一种；当语音特征为语音情感特征时，对应的，语音类别为语音情感类别；当语音特征为语音乡音特征时，对应的，语音类别为语音乡音类别。

本发明的实施例提供的语音识别装置，基于多层RBM对待识别语音的至少两个语音特征中的每个语音特征分别进行训练，得到上述的每个语音特征对应的深度语音特征，然后将每个语音特征对应的深度语音特征进行特征融合，得到该待识别语音的深度语音特征，最后将该待识别语音的深度语音特征输入分类器进行分类，得到该待识别语音的语音类别。相比于现有技术通过直接提取的语音特征对语音进行分类，本申请通过对待识别语音的多个不同语音特征分别进行多层RBM训练，由于多层RBM网络具有多层分线性映射的深层结构，会对待训练的语音特征实现逐层训练，每层提取出的深度特征会作为下一层的待训练特征进行进一步的深度挖掘，从而使得提取出的每个语音特征的深度语音特征保留了其关键信息，提高了语音特征的敏感度，使得语音特征间的区分度变大，然后将提取出的不同语音特征的深度语音特征进行信息融合组合成新的语音特征，从而最大限度的保留了待识别语音的不同特征以及关键信息，这样将该新的语音特征作为分类器的输入分类器进行分类，从而有效的提高语音识别的准确度，提升了各种语音类别间的区分度。

本申请所提供的几个实施例中，应该理解到，所揭露的终端和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理包括，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

上述以软件功能单元的形式实现的集成的单元，可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，简称ROM)、随机存取存储器(Random Access Memory，简称RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种语音识别方法，其特征在于，包括：

提取待识别语音的至少两个语音特征；

将所述待识别语音的深度语音特征输入分类器进行分类，得到所述待识别语音的语音类别；

其中，所述分类器为经过训练的分类器，所述分类器中的语音类别与深度语音特征间存在的对应关系，所述对应关系是通过将经过深度学习训练的训练语音样本的深度语音特征作为分类器的输入特征得出的，所述训练语音样本通过多层RBM网络进行深度学习训练。

2.根据权利要求1所述的方法，其特征在于，所述将所述待识别语音的深度语音特征输入分类器进行分类，得到所述待识别语音的语音类别之前，所述方法还包括：

提取所述训练语音样本的至少两个语音特征及语音类别；

基于所述多层RBM对所述训练语音样本的至少两个语音特征中的每个语音特征分别进行训练，得到所述训练语音样本的每个语音特征对应的深度语音特征；

将所述训练语音样本的每个语音特征对应的深度语音特征进行特征融合，得到所述训练语音样本的深度语音特征；

将所述训练语音样本的深度语音特征作为所述分类器输入特征，并将所述训练语音样本的语音类别作为所述分类器的输出特征，对所述分类器进行训练，得到所述经过训练的分类器。

3.根据权利要求1或2所述的方法，其特征在于，将语音的每个语音特征对应的深度语音特征进行特征融合，得到所述语音的深度语音特征具体包括：

获取预设的语音特征权重阈值，根据所述语音特征权重阈值与语音的每个语音特征对应的深度语音特征，得到所述语音的深度语音特征。

4.根据权利要求1所述的方法，其特征在于，所述语音特征包括：短时能量、持续时间、短时过零率、共振峰、基音频率、线性预测倒谱系数LPCC、Mel频率倒谱系数(MFCC)、Mel频带能量中的至少两个。

5.根据权利要求1所述的方法，其特征在于，所述语音特征包括用于表征语音情感的语音情感特征或用于表征语音乡音的语音乡音特征中；当所述语音特征为语音情感特征时，对应的，所述语音类别为语音情感类别；当所述语音特征为语音乡音特征时，对应的，所述语音类别为语音乡音类别。

6.一种语音识别装置，其特征在于，包括：

提取模块，用于提取待识别语音的至少两个语音特征；

分类模块，用于将所述融合模块得到的所述待识别语音的深度语音特征输入分类器进行分类，得到所述待识别语音的语音类别；

7.根据权利要求6所述的装置，其特征在于：

提取模块，还用于提取所述训练语音样本的至少两个语音特征及语音类别；

训练模块，用于基于所述多层RBM对所述提取模块提取出的所述训练语音样本的至少两个语音特征中的每个语音特征分别进行训练，得到所述训练语音样本的每个语音特征对应的深度语音特征；

融合模块，用于将所述训练模块得到的所述训练语音样本的每个语音特征对应的深度语音特征进行特征融合，得到所述训练语音样本的深度语音特征；

所述训练模块，还用于将所述融合模块得到的所述训练语音样本的深度语音特征作为所述分类器输入特征，并将所述训练语音样本的语音类别作为所述分类器的输出特征，对所述分类器进行训练，得到所述经过训练的分类器。

8.根据权利要求6或7所述的装置，其特征在于，所述融合模块具体用于：

9.根据权利要求6所述的装置，其特征在于，所述语音特征包括：短时能量、持续时间、短时过零率、共振峰、基音频率、线性预测倒谱系数LPCC、Mel频率倒谱系数(MFCC)、Mel频带能量中的至少两个。

10.根据权利要求6所述的装置，其特征在于，所述语音特征包括用于表征语音情感的语音情感特征或用于表征语音乡音的语音乡音特征；当所述语音特征为语音情感特征时，对应的，所述语音类别为语音情感类别；当所述语音特征为语音乡音特征时，对应的，所述语音类别为语音乡音类别。