CN102737278A

CN102737278A - 联合非线性随机投影、受限波尔兹曼机、以及基于批量的可并行优化来使用的深凸网络

Info

Publication number: CN102737278A
Application number: CN2012100894880A
Authority: CN
Inventors: L·邓; D·余; A·埃西罗
Original assignee: Microsoft Corp
Current assignee: Microsoft Technology Licensing LLC
Priority date: 2011-03-31
Filing date: 2012-03-30
Publication date: 2012-10-17
Anticipated expiration: 2032-03-30
Also published as: US20120254086A1; US20130282634A1; CN102737278B; US8489529B2; US9390371B2

Abstract

本发明涉及结合非线性随机投影、受限波尔兹曼机、以及基于批量的可并行优化来使用的深凸网络。本文公开了一种包括以下动作的方法：使得处理器访问深结构化的、已分层的、或分等级的模型(称为深凸网络，被保持在计算机可读介质中)，其中该深结构化的模型包括具有所分配的权重的多个层。这一已分层模型可以产生输出，该输出担当用于与隐马尔科夫模型中的各状态之间的转移概率相组合的分数，以及担当用于形成全语音识别器的语言模型分数。该方法联合使用非线性随机投影和RBM权重，并且它将较低模块的输出与原始数据进行堆叠以建立它的紧接的较高模块。执行基于批量的凸优化来学习深凸网络的权重的一部分，从而使它适于并行计算来完成训练。该方法还可包括使用基于序列而非一组不相关帧的优化准则来对该深度结构化的模型的权重、转移概率和语言模型分数进行联合地充分优化的动作。

Description

联合非线性随机投影、受限波尔兹曼机、以及基于批量的可并行优化来使用的深凸网络

技术领域

本发明涉及与自动分类有关的技术。

背景技术

语音识别已经是大量研究和商业开发的课题。例如，语音识别***已经合并到移动电话、台式计算机、汽车等等中以便提供对用户所提供的语音输入的特定响应。例如，在配备有语音识别技术的移动电话中，用户可以讲出移动电话中所列出的联系人的姓名，并且移动电话可以发起对该联系人的呼叫。此外，许多公司当前正在使用语音识别技术来在标识公司雇员、标识产品或服务的问题等等方面帮助顾客。

部分地被利用人类语音生成和感知***中某些类似属性的要求所激励，对自动语音识别(ASR)的研究已经开拓了分层的体系结构来执行语音识别。在这些研究中，对模型参数的学习已经是最显著且最困难的问题之一。与ASR研究中的发展并行，来自神经网络研究的学习方法中所取得的当前进展已经点燃了对探查深度结构化模型的兴趣。一个具体的进步是深度信任网络(DBN)的有效学习技术的开发，该深度信任网络是具有许多隐藏层的密集连接的、有向的信任网络。一般而言，DBN可被认为是具有多层隐藏单元和至少一层可见单元的高度复杂的非线性特征提取器，其中隐藏单元的每一层进行学习来表示在原始输入数据中捕捉更高阶相关的特征。

尽管DBN已经显示了在结合执行识别/分类任务时很强大，但对DBN进行训练已经证明是有点困难的。具体而言，用于训练DBN的常规技术涉及对随机梯度下降学习算法的利用。尽管这一学习算法已经显示了在结合对分配给DBN的权重进行微调时很强大，但这样的学习算法极其难以在各机器之间并行化，从而使得学习有点冗长。

发明内容

以下是在本文详细描述的主题的简要的发明内容。本发明内容不旨在是关于权利要求的范围的限制。

本文描述了与自动分类有关的各种技术。更具体而言，本文描述了与自动语音识别(ASR)和自动字符识别有关的各种技术。再具体一点，本文描述了与通过利用凸优化来训练深凸网络有关的各种技术。

深凸网络包括多个已分层模块，其中每一模块包括包含单个隐藏层的专用神经网络。更具体而言，深凸网络中的最低模块包括第一线性层、非线性层和第二线性层，该第一线性层包括多个线性输入单元，该非线性层包含多个非线性隐藏单元，该第二线性层包括通过将原始训练数据馈送到该模块而产生的多个线性输出单元。例如，如果结合对图像进行分析来使用深凸网络，则该多个输入单元可以对应于图像中的多个像素(或所提取的特征)，并且可至少部分地基于与各像素相对应的强度值、RGB值等来向这些输入单元分配值。在另一示例中，如果结合ASR来使用深凸网络，该多个输入单元可对应于音频文件的各样本，其中分配给输入单元的值基于相应样本的特性，或对应于从语音波形中提取的特征(如功率谱或倒谱系数)。

最低模块的隐藏层包括通过第一权重矩阵来映射到各输入单元的多个非线性单元。例如，权重矩阵可包括0和1之间的多个随机生成的值。非线性单元可以是被配置成对来自输入单元的已加权输出(根据第一权重矩阵进行了加权)执行非线性操作的S(sigmoidal)单元。

第二线性层包括表示分类任务的目标的多个输出单元。例如，如果深凸网络被配置成执行图像形式或语音形式的数字识别(例如，数字1-10)，则该多个输出单元可以表示值1、2、3等等，直至10。类似地，如果深凸网络被配置成执行音素识别(或更一般地，大词汇量语音识别)，则该多个输出单元可以表示单音素、上下文相关音素或音素状态。该多个非线性单元可通过第二权重矩阵来映射到该多个输出单元。该第二权重矩阵可通过基于批量的学习过程来习得，使得学习可以并行进行。具体而言，可以结合学习第二权重矩阵来使用凸优化。作为示例，第二权重矩阵可以至少部分基于第一权重矩阵、分类的目标值、以及输入单元的值来学习。

如上所示，深凸网络包括多个已分层模块，其中每一模块包括上述三个层(包括多个线性输入单元的第一线性层、包括多个非线性单元的隐藏层、以及包括多个线性输出单元的第二线性层)。各模块在本文中被称为已分层的，因为在深凸网络中，较低模块的输出单元是相邻较高模块的输入单元的子集。更具体而言，在深凸网络中直接处于最低模块之上的第二模块中，输入单元可包括最低模块的输出单元。输入单元可另外包括与原始训练数据相对应的输入单元——换言之，最低模块的输出单元可以附加在第二模块的输入单元上，使得第二模块的输入单元还包括最低模块的输出单元。

如上所述，第二模块中的与原始训练数据相对应的输入单元可通过第一权重矩阵来映射到多个隐藏层。第二模块中的作为最低模块的输出单元的输入单元可通过第三权重矩阵来映射到多个隐藏层，其中这些权重可以在预训练阶段习得。此后，可通过凸优化来再次学习上述第二权重矩阵(其描述第二模块的隐藏单元与线性输出单元之间的连接的权重)。将较低模块的输出单元作为深凸网络中相邻的较高模块的输入单元的一部分来包括并随后经由凸优化来学习描述隐藏单元和线性输出单元之间的连接权重的权重矩阵的这一模式可针对多个模块(例如，数十到数百模块)继续进行。所得的学习到的深凸网络随后可结合自动分类/标识任务来部署。

在阅读并理解了附图和描述后，可以明白其他方面。

附图说明

图1示出包括多个已分层模块的示例性深凸网络。

图2示出深凸网络中的示例性最低模块。

图3示出深凸网络中的示例性第N模块。

图4示出便于通过并行计算来学习深凸网络中的权重矩阵的示例性***的功能框图。

图5是示出用于以基于批量的方式来训练深凸网络的示例性方法的流程图。

图6是示出用于通过凸优化来学习深凸网络中的矩阵权重的示例性方法的流程图。

图7是示例性计算***。

具体实施方式

现在将参考附图来描述关于深凸网络(DCN)的各种技术，在全部附图中相同的附图标记表示相同的元素。另外，本文出于解释的目的示出并描述了各示例***的若干功能框图；然而可以理解，被描述为由特定***组件执行的功能可以由多个组件来执行。类似地，例如可以将一组件配置为执行被描述为由多个组件执行的功能，并且在此所述的方法中的一些步骤可以被省略、重排序、或者组合。

参考图1，示出了示例性DCN 100，其中DCN(在进行了训练之后)可结合执行自动分类/识别来使用。根据一示例，DCN 100可被用于执行自动语音识别(ASR)。在另一示例中，DCN 100可被用于执行字符识别(手写识别)。在又一示例中，DCN 100可被用于执行脸部识别。在又一示例中，DCN 100可被用于执行文本到一个或多个主题的分类。自动分类/识别领域的技术人员将容易理解DCN 100的其他应用。

DCN 100包括多个已分层模块102-104，其中DCN 100中的已分层模块的数量可取决于应用、被用于训练DCN 100和/或利用DCN 100来进行自动分类/识别的计算装置中的可用计算资源(例如，处理和存储器资源)而变化。例如，模块的数量可以是数十、或数百、或数千。

模块102-104中的每一个模块可以是具有单个隐藏层的神经网络，其中可通过凸优化来学习该模块中的权重矩阵，如将在下文更详细地描述的。这便于以基于批量的方式来训练DCN 100，使得对DCN 100的训练(对模块102-104的权重矩阵进行学习)可以跨多个计算设备来并行化。

另外，模块102-104中的每一个模块可包括围绕该单个隐藏层的一组线性层。这些线性层可分别包括多个输入单元和多个输出单元。隐藏层包括多个非线性单元。利用在一个或多个权重矩阵中定义的权重，输入单元被映射到隐藏单元，并且利用由按需习得的权重矩阵所定义的权重，隐藏单元被映射到输出单元。将在下文更详细地描述对定义DCN 100中的模块的隐藏单元与输出单元之间的连接的权重的权重矩阵的学习。

更具体而言，第一模块102(DCN 100中的最低模块)包括包含多个线性输入单元的底部线性层108、包含多个非线性单元的隐藏层110、以及包含多个线性输出单元的顶部线性层112。第一线性层108中的多个线性输入单元可对应于原始数据的各参数。例如，如果DCN 100被配置成分析数字图像以识别其中的字符，则原始数据可包括大约800个像素。线性层108中的各线性输入单元中的每一个可对应于图像中的单个像素，使得线性层108包括800个线性输入单元。这些输入单元的值可以是与对应于像素的强度值、对应于像素的梯度，等等。在另一示例中，如果DCN 100被配置成分析音频信号以识别一个或多个音素，则原始数据可以是被采样成多个分开的样本的音频信号。因此，底部线性层108中的线性输入单元的数量可对应于样本的数量，并且这些输入的值可对应于样本的特定特征。

底部线性层108的线性输入单元可全连接到第一模块102的隐藏层110中的非线性单元，其中权重矩阵W_RAN表示分配给线性输入单元与非线性单元之间的连接的权重。对于第一模块102，这样的权重矩阵W_RAN可以通过利用随机数生成器来生成，其中W_RAN的值是在0和1之间随机分布的，例如均匀分布或高斯分布。构想了用于在对应于原始训练数据的输入单元与非线性单元之间分配权重的其他机制，并且这些机制旨在落在所附权利要求书的范围内。

如上所述，隐藏层110包括被配置成对与输入单元相对应的已加权值执行非线性数学计算的多个非线性单元。根据一示例，非线性单元可以是S单元，它可以是σ(x)＝1/(1+exp(-x))的形式，其中x是输入单元的加权和。

顶部线性层112中的多个输出单元可以表示学习的目标。例如，如果DCN100被配置成执行数字(例如，1-10)识别，则顶部线性层112中的输出单元可以表示数字1、2、3等等，直至10(例如，存在10个输出单元)。在另一示例中，如果DCN 100被配置成执行音素识别，则顶部线性层112中的输出单元可以表示可能的音素。

隐藏层110中的多个非线性单元可以全连接到顶部线性层112的多个输入单元，其中这些连接的权重由另一权重矩阵U来定义，其中U是按需习得的。对于第一模块102，U可至少部分基于W_RAN来习得。更具体而言，可结合学习U来利用凸优化。例如，可使用伪逆操作来学习U，其中U＝pinv(H)T，其中pinv是伪逆操作，T表示训练集中要学习的所有目标(受监督的输出值)，H＝σ(∑W_RANX)，其中X表示训练集中的所有输入值，并且上述S函数是在元素级应用的。分配给顶部线性层112中的输出单元的值可至少部分基于权重矩阵U。

如上所述，DCN 100包括多个已分层模块-换言之，第一模块102的输出单元作为输入单元包括在第二模块104的底部线性层114中。第二模块104可包括隐藏层116和顶部线性层118，这些层包括与第一模块102基本上类似的(等同的)单元。第二模块102的底部线性层114中的输入单元还包括同原始训练数据相对应的、与被包括在第一模块102的底部线性层108中的输入单元相同的输入单元。因此，第一模块102的顶部线性层112中的输出单元被附加到与原始数据相对应的输入单元，以形成第二模块104的底部线性层114，并且这两组单元可被共同称为第二模块104的输入单元。

第二模块104还包括包含全连接到第二模块104的底部层114的输入单元的多个非线性单元的单个隐藏层116。底部线性层114中的输入单元与隐藏层116中的非线性单元之间的连接的权重可被定义为一组权重矩阵：W_RAN和W_RBM，其中W_RBM表示受限波尔兹曼机。W_RAN可担当对应于原始数据的输入单元与隐藏层116中的多个非线性单元之间的连接的权重，而W_RBM是与RBM相关联的权重且可担当从第一模块102接收到的输入单元(第一模块102的输出单元)与隐藏层116中的多个非线性单元之间的连接的权重。以下描述对W_RBM的学习。

同样，对定义第二模块104的隐藏层116中的多个非线性单元与顶部线性层118中的多个输出单元之间的连接的权重的权重矩阵U进行学习是合乎需要的。在DCN 110中的非最低模块(除第一模块102之外的任何模块)的情况下，可以至少部分基于W_RAN和W_RBM来计算U。根据一示例，可如下计算U：U＝pinv(H)t，其中H＝σ(∑WX)，其中上文中已经描述了T和X(在此，X是第二模块的底部线性层114中的所有输入单元)，W是W_RAN和W_RBM的串接，且σ(∑WX)＝1/(1+exp(-∑WX))是在元素级应用的。第二模块104中的顶部线性层118中的输出单元的值随后可至少部分基于第二模块的习得的U来计算。这些输出单元随后可作为又一模块的底部线性层中的输入单元来包括。因而，多个模块能以此方式来被分层，并且可学习每一已分层模块的U。

简要参考图2，示出了便于学习第一模块102的U的***200如上所述，第一模块104包括底部线性层108、隐藏层110、以及顶部线性层112。底部线性层包括输入单元202，其对应于上述原始训练数据。隐藏层包括多个非线性单元204，其可以是S单元。输入单元202全连接到非线性单元204。分配给输入单元202与非线性单元204之间的连接的权重由W_RAN来定义。根据一示例，随机数生成器208可被配置成生成W_RAN，其中W_RAN的值可随机分布在预定义范围(如0到1)上。非线性单元204对输入单元202的按W_RAN 206中的权重加权了的值执行非线性计算。W_RAN可部分或全部被W_RBM所替代。

第一模块102的顶部线性层112包括全连接到隐藏层110中的非线性单元204的多个输出单元210。如上所述，学习非线性单元204与输出单元210之间的连接的权重矩阵U 212是合乎需要的。学习组件214可以从随机数生成器208(或从数据存储)接收W_RAN 206，可以从非线性单元204接收输出计算h，输入单元202的值x(原始训练数据)，学习的目标的身份t(输出单元210的身份)，并可以通过利用凸优化算法至少部分基于这些来计算U 212。已在上文中描述了示例性凸优化算法。随后至少部分基于权重矩阵U 212来向输出单元210分配各值。另外，尽管学习组件214被示为直接从第一模块104接收某些数据，但将理解，W_RAN 206、x、以及t可以是预先知道的，并且学习组件214可以在需要时检索这些数据(在非线性单元204计算了h之后立即检索)。

现在参考图3，示出了便于学习第二模块104的U的示例性***300。尽管在***300中示出了第二模块104，但将理解，***300可被用于学习DCN100中的不是最低模块(例如，第一模块102)的任何模块的U。***300包括第二模块104，它包括底部线性层114、隐藏层116、以及顶部线性层118。底部线性层114包括两组输入节点：输入单元202以及第二组输入单元302，输入单元202也是第一模块102的输入单元，输入单元302是来自第一模块102的输出单元210。

第二模块104的隐藏层116包括多个非线性单元304，它基本上类似于第一模块102的隐藏层110中的非线性单元204。底部线性层114中的第一组输入单元202全连接到隐藏层116中的非线性单元304，其中各连接的权重由W_RAN 206来定义。另外，底部线性层114中的第二组输入单元302也全连接到隐藏层116中的非线性单元304，其中各连接的权重由W_RBM 305来定义，它可在预训练阶段中被预先计算。现在描述第二组输入单元302的W_RBM 305的计算。

DCN 100的一模块中的一对层可被当作受限波尔兹曼机(RBM)。更具体地，RBM是具有一层(通常为柏努利)随机隐藏单元和一层(通常为柏努利或高斯)随机可见单元的特定类型的马尔可夫随机场(MRF)。RBM可被表示为二分图，因为全部可见单元都被连接到全部隐藏单元，但不存在可见-可见或隐藏-隐藏的连接。

在RBM中，给定模型参数θ，可见单元v和隐藏单元q上的联合分布p(v，q；θ)可按照以下算法的能量函数E(v，q；θ)来定义：

P (v, q; θ) = \frac{\exp (- E (v, q; θ))}{Z}, - - - (1)

其中Z＝∑_v∑_qexp(-E(v，q；θ))是归一化因子或分割函数，并且该模型分配给可见矢量v的边缘概率可如下定义：

p (v; θ) = \frac{Σ_{q} \exp (- E (v, q; θ))}{Z} - - - (2)

对于柏努利(可见)-柏努利(隐藏)RBM，能量如下：

E (v, q; θ) = - Σ_{i = 1}^{V} Σ_{j = 1}^{Q} w_{ij} v_{i} q_{j} - Σ_{i = 1}^{V} b_{i} v_{i} - Σ_{j = 1}^{Q} a_{j} q_{j}, - - - (3)

其中，w_ij表示可见单元v_i与隐藏单元q_j之间对称交互项，b_i和a_j表示偏置项，以及V和Q是可见和隐藏单元的数量。条件概率可如下计算：

p (q_{j} = 1 | v; θ) = σ (Σ_{i = 1}^{V} w_{ij} v_{i} + a_{j}) - - - (4)

p (v_{i} = 1 | a; θ) = σ (Σ_{j = 1}^{Q} w_{ij} h_{j} + b_{j}) - - - (5)

其中σ(x)＝1/(1+exp(-x))。

类似地，对于高斯-柏努利RBM，在假定方差为一个单位的情况下，该能量如下：

E (v, q, θ) = - Σ_{i = 1}^{V} Σ_{j = 1}^{Q} w_{ij} v_{i} q_{j} + \frac{1}{2} Σ_{i = 1}^{V} {(v_{i} - b_{i})}^{2} - Σ_{j = 1}^{Q} a_{j} q_{j}, - - - (6)

对应的条件概率变成：

p (q_{j} = 1 | v; θ) = σ (Σ_{i = 1}^{V} w_{ij} v_{i} + a_{j}) - - - (7)

p (v_{i} | q; θ) = N (Σ_{j = 1}^{Q} w_{ij} q_{j} + b_{i}, 1) - - - (8)

其中，v_i可取实值，并且可遵循均值为

且方差为1的高斯分布。可使用高斯-柏努利RBM来将实值随机变量转换成二元随机变量，该二元随机变量可随后使用柏努利-柏努利RBM来进一步处理。

在对数概率logp(v；θ)的梯度之后，可如下获得权重的更新规则：

Δw_ij＝<v_iq_j>_数据-<v_iq_j>_模型， (9)

其中，<v_iq_j>_数据是在训练数据中观测到的期望值，并且<v_iq_j>_模型是在DCN 100的所定义分布下相同的期望值。不幸的是，精确地计算<v_iq_j>_模型可能是极其昂贵的，因此可使用该梯度的对比散度(CD)逼近，其中，通过对一整个步骤运行在该数据处所初始化的吉布斯(Gibbs)采样器来替换<v_iq_j>_模型。

从解码的观点来看，可将DCN 100作为具有许多层的多层感知器来对待。

输入信号(来自训练数据)可通过利用方程(4)来逐层处理直到最后一层。

可使用以下softmax运算来将最后一层转换成多项式分布：

p (l = k | q; θ) = \frac{\exp (Σ_{i = 1}^{Q} λ_{ik} q_{i} + a_{k})}{Z (q)}, - - - (10)

其中，l＝k表示输入已被分类成第k类，并且λ_ik是最后的层处的隐藏单元q_i与类标签k之间的权重。

根据一示例，可以使用帧级数据来以生成性方式训练RBM栈，从而得到W_RBM 305的输出。W_RBM 305随后可用作从DCN 100中的较低模块获得的各输入单元的每一全连接的权重矩阵。

因此，非线性单元304可以从根据W_RBM 305来加权的第二组输入单元302接收各值。至少部分基于分别根据W_RAN 206和W_RBM 305来加权的第一组输入单元202和第二组输入单元302，隐藏层116中的非线性单元304可以计算H。如上所述，非线性单元304全连接到第二模块的顶部线性层118中的多个输出单元306，其中这些输出单元306表示学习的目标。对定义多个非线性单元304与多个输出单元306之间的连接的权重的权重矩阵U进行学习是合乎需要的。

学习组件214被配置成至少部分基于W_RAN 206、W_RBM 305、X(第一组输入单元202和第二组输入单元302的值)、T、以及H来计算第二模块104的U 212。根据一示例，***300可包括包含W_RAN 206、W_RBM 305、以及T 310的数据存储308，因为这些值可被预先计算或是已知的。X的一部分(第一组输入单元202)也可被保持在数据存储308中，因为这些值是静态的，而x的其余部分可以从DCN 110中紧接的较低模块来接收。至少部分基于这些值，学习组件214可以通过上述凸优化来计算U。

现在参考图4，示出了便于通过利用并行计算来学习DCN 100中各模块的U的示例性***400。***400包括多个计算设备402-404。计算设备402-404中的每一个可在其上加载有DCN 100的实例。第一计算设备402可包括包含第一训练批量数据408的第一数据存储406。第一训练批量数据可包括大量训练数据。数据接收机组件410可从第一训练批量数据408接收数据，并向DCN 100的第一实例提供训练。学习组件可以逐层学习DCN 100中的各模块的U，直至获得了所有模块的U为止。

第N计算设备404包括包含第N训练批量数据414的第N数据存储412。数据接收机组件410从数据存储412中的第N训练批量数据414接收数据，并将这些训练数据提供给第N计算设备404上的DCN 100的实例学习组件214可以学习DCN 100的第N实例中的所有模块的U。因此，批量模式的处理可跨多个计算设备并行进行，因为学习组件214利用凸优化函数来学习U。U的最终值可稍后根据学习组件214在计算设备402-404上针对DCN 100的各实例学习到的U的值来设置。

现在参考图5-6，示出并描述了各示例性方法。尽管各方法被描述为顺序地执行的一系列动作，但可以理解，这些方法不受该顺序的次序的限制。例如，一些动作能以与本文描述的不同的次序发生。另外，动作可以与另一动作同时发生。此外，在一些情况下，实现本文描述的方法并不需要所有动作。

此外，本文描述的动作可以是可由一个或多个处理器实现的和/或存储在一个或多个计算机可读介质上的计算机可执行指令。计算机可执行指令可包括例程、子例程、程序、执行的线程等。另外，这些方法的动作的结果可以存储在计算机可读介质中，显示在显示设备上，等等。计算机可读介质可以是任何合适的计算机可读存储设备，如存储器、硬盘驱动器、CD、DVD、闪存驱动器等。本文中所使用的术语“计算机可读介质”并不旨在涵盖传播的信号。

现在参考图5，示出了便于以基于批量的方式来训练DCN的示例性方法500。方法500在502处开始，并且在504处，接收用于训练深凸网络的训练数据。如上所述，深凸网络包括多个互连的模块，并且每一模块包括至少一个线性层以及至少一个非线性(隐藏)层。在506，至少部分基于训练数据来以基于批量的方式来训练深凸网络，其中训练深凸网络包括学习与多个互连的模块中的至少一个模块的非线性层的输出相对应的权重矩阵。方法500在508完成。

现在参考图6，示出了便于通过凸优化来学习多个权重矩阵的示例性方法600。方法600在602处开始，并在604处接收语音训练数据。在606处，通过利用训练数据来以批量方式训练深凸网络，其中深凸网络包括多个已分层模块，每一已分层模块包括单隐藏层神经网络。第一模块中的隐藏层包括互连到第二模块的线性层中的多个线性输入单元的多个非线性单元。训练深凸网络包括学习与多个已分层模块相对应的多个权重矩阵，使得习得每一已分层模块的权重矩阵，并且其中权重矩阵是通过凸优化来习得的。方法600在608完成。

现在参考图7，示出了可以根据本文公开的***和方法使用的示例性计算设备700的高级图示。例如，计算设备700可以用在支持ASR的***中。在另一示例中，计算设备700的至少一部分可以用在支持通过凸优化来学习DCN中的权重矩阵的***中。计算设备700包括执行存储在存储器704中的指令的至少一个处理器702。存储器704可以是或可以包括RAM、ROM、EEPROM、闪存、或其他合适的存储器。这些指令可以是例如用于实现被描述为由上述一个或多个组件执行的功能的指令或用于实现上述方法中的一个或多个的指令。处理器702可以通过***总线706访问存储器704。除了存储可执行指令之外，存储器704还可以存储训练数据集、确认数据集、DCN等等。

计算设备700还包括可由处理器702通过***总线706访问的数据存储708。数据存储708可以是或可以包括任何合适的计算机可读存储，包括硬盘、存储器等。数据存储708可以包括可执行指令、DCN、训练数据集、确认数据集、权重矩阵等等。计算设备700还包括允许外部设备与计算设备700进行通信的输入接口710。例如，可以使用输入接口710来从外部计算机设备、用户等接收指令。计算设备700还包括将计算设备700与一个或多个外部设备进行接口的输出接口712。例如，计算设备700可以通过输出接口712显示文本、图像等。

另外，尽管被示为单个***，但可以理解，计算设备700可以是分布式***。因此，例如，若干设备可以通过网络连接进行通信并且可共同执行被描述为由计算设备700执行的任务。

如此处所使用的，术语“组件”和“***”旨在涵盖硬件、软件、或硬件和软件的组合。因此，例如，***或组件可以是进程、在处理器上执行的进程、或处理器。另外，组件或***可以位于单个设备上或分布在若干设备之间。此外，组件或***可指存储器的一部分和/或一系列晶体管。

注意，出于解释目的提供了若干示例。这些示例不应被解释为限制所附权利要求书。另外，可以认识到，本文提供的示例可被改变而仍然落入权利要求的范围内。

Claims

1.一种方法，包括以下计算机可执行动作：

接收用于训练包括多个互连的模块的深凸网络的训练数据，其中所述多个互连的模块中的每一模块包括线性层和非线性层；以及

使得处理器至少部分基于所述训练数据来以基于批量的方式来训练所述深凸网络的一部分，其中训练所述深凸网络包括学习与至少一个模块的非线性层的输出相对应的权重矩阵。

2.如权利要求1所述的方法，其特征在于，每一模块是单隐藏层神经网络。

3.如权利要求2所述的方法，其特征在于，所述单隐藏层神经网络中的隐藏层包括多个S单元。

4.如权利要求1所述的方法，其特征在于，所述深凸网络包括最低模块，并且其中所述最低模块的输入是原始训练数据。

5.如权利要求4所述的方法，其特征在于，所述深凸网络包括与所述最低模块互连的较高模块，并且其中所述较高模块的输入包括较低模块的输出加上所述原始训练数据。

6.如权利要求5所述的方法，其特征在于，关于所述原始训练所对应的线性层中的各单元与所述较高模块中的非线性层中的各单元之间的连接的第一权重矩阵包括由随机数生成器生成的随机数，其中关于来自所述最低模块的各输出单元所对应的线性层中的各单元与所述较高模块中的非线性层中的各单元之间的连接的第二权重矩阵包括分开训练的受限波尔兹曼机的权重，并且其中关于所述较高模块的非线性层中的各单元与其各输出单元之间的连接的第三权重矩阵是通过凸优化来习得的。

7.如权利要求6所述的方法，其特征在于，被用来执行所述凸优化的算法是U＝pinv(H)T，其中H＝σ(∑WX)，其中T表示所述训练数据中的受监督的输出值，W是各输入模块与所述非线性层中的各单元之间的权重矩阵，且X表示与所述原始训练数据相对应的输入单元，并且其中σ(∑WX)＝1/(1+exp(-∑WX))是在元素级应用的。

8.一种***，包括：

处理器(702)；以及

包括能由所述处理器执行的多个组件的存储器(704)，所述多个组件包括：

接收训练数据的数据接收机组件(410)；以及

至少部分基于所述训练数据以批量训练的方式来训练深凸网络的学习组件(214)，其中所述深凸网络包括多个互连的模块，每一互连的模块包括包含多个输入单元的线性层和包含多个隐藏单元的非线性层，其中第一模块的输入单元包括第二模块中的多个隐藏单元所输出的单元。

9.如权利要求8所述的***，其特征在于，所述训练组件通过利用凸优化来学习与所述第一模块的多个隐藏单元相对应的第一权重矩阵和所述第一模块的多个隐藏单元。

10.如权利要求9所述的***，其特征在于，所述第一权重矩阵至少部分基于第二权重矩阵，所述第二权重矩阵被分配给所述第一模块的输入单元与所述第一模块的隐藏单元之间的连接。