CN102737278A - 联合非线性随机投影、受限波尔兹曼机、以及基于批量的可并行优化来使用的深凸网络 - Google Patents

联合非线性随机投影、受限波尔兹曼机、以及基于批量的可并行优化来使用的深凸网络 Download PDF

Info

Publication number
CN102737278A
CN102737278A CN2012100894880A CN201210089488A CN102737278A CN 102737278 A CN102737278 A CN 102737278A CN 2012100894880 A CN2012100894880 A CN 2012100894880A CN 201210089488 A CN201210089488 A CN 201210089488A CN 102737278 A CN102737278 A CN 102737278A
Authority
CN
China
Prior art keywords
module
unit
weight matrix
layer
linear
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2012100894880A
Other languages
English (en)
Other versions
CN102737278B (zh
Inventor
L·邓
D·余
A·埃西罗
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Technology Licensing LLC
Original Assignee
Microsoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Corp filed Critical Microsoft Corp
Publication of CN102737278A publication Critical patent/CN102737278A/zh
Application granted granted Critical
Publication of CN102737278B publication Critical patent/CN102737278B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及结合非线性随机投影、受限波尔兹曼机、以及基于批量的可并行优化来使用的深凸网络。本文公开了一种包括以下动作的方法:使得处理器访问深结构化的、已分层的、或分等级的模型(称为深凸网络,被保持在计算机可读介质中),其中该深结构化的模型包括具有所分配的权重的多个层。这一已分层模型可以产生输出,该输出担当用于与隐马尔科夫模型中的各状态之间的转移概率相组合的分数,以及担当用于形成全语音识别器的语言模型分数。该方法联合使用非线性随机投影和RBM权重,并且它将较低模块的输出与原始数据进行堆叠以建立它的紧接的较高模块。执行基于批量的凸优化来学习深凸网络的权重的一部分,从而使它适于并行计算来完成训练。该方法还可包括使用基于序列而非一组不相关帧的优化准则来对该深度结构化的模型的权重、转移概率和语言模型分数进行联合地充分优化的动作。

Description

联合非线性随机投影、受限波尔兹曼机、以及基于批量的可并行优化来使用的深凸网络
技术领域
本发明涉及与自动分类有关的技术。
背景技术
语音识别已经是大量研究和商业开发的课题。例如,语音识别***已经合并到移动电话、台式计算机、汽车等等中以便提供对用户所提供的语音输入的特定响应。例如,在配备有语音识别技术的移动电话中,用户可以讲出移动电话中所列出的联系人的姓名,并且移动电话可以发起对该联系人的呼叫。此外,许多公司当前正在使用语音识别技术来在标识公司雇员、标识产品或服务的问题等等方面帮助顾客。
部分地被利用人类语音生成和感知***中某些类似属性的要求所激励,对自动语音识别(ASR)的研究已经开拓了分层的体系结构来执行语音识别。在这些研究中,对模型参数的学习已经是最显著且最困难的问题之一。与ASR研究中的发展并行,来自神经网络研究的学习方法中所取得的当前进展已经点燃了对探查深度结构化模型的兴趣。一个具体的进步是深度信任网络(DBN)的有效学习技术的开发,该深度信任网络是具有许多隐藏层的密集连接的、有向的信任网络。一般而言,DBN可被认为是具有多层隐藏单元和至少一层可见单元的高度复杂的非线性特征提取器,其中隐藏单元的每一层进行学习来表示在原始输入数据中捕捉更高阶相关的特征。
尽管DBN已经显示了在结合执行识别/分类任务时很强大,但对DBN进行训练已经证明是有点困难的。具体而言,用于训练DBN的常规技术涉及对随机梯度下降学习算法的利用。尽管这一学习算法已经显示了在结合对分配给DBN的权重进行微调时很强大,但这样的学习算法极其难以在各机器之间并行化,从而使得学习有点冗长。
发明内容
以下是在本文详细描述的主题的简要的发明内容。本发明内容不旨在是关于权利要求的范围的限制。
本文描述了与自动分类有关的各种技术。更具体而言,本文描述了与自动语音识别(ASR)和自动字符识别有关的各种技术。再具体一点,本文描述了与通过利用凸优化来训练深凸网络有关的各种技术。
深凸网络包括多个已分层模块,其中每一模块包括包含单个隐藏层的专用神经网络。更具体而言,深凸网络中的最低模块包括第一线性层、非线性层和第二线性层,该第一线性层包括多个线性输入单元,该非线性层包含多个非线性隐藏单元,该第二线性层包括通过将原始训练数据馈送到该模块而产生的多个线性输出单元。例如,如果结合对图像进行分析来使用深凸网络,则该多个输入单元可以对应于图像中的多个像素(或所提取的特征),并且可至少部分地基于与各像素相对应的强度值、RGB值等来向这些输入单元分配值。在另一示例中,如果结合ASR来使用深凸网络,该多个输入单元可对应于音频文件的各样本,其中分配给输入单元的值基于相应样本的特性,或对应于从语音波形中提取的特征(如功率谱或倒谱系数)。
最低模块的隐藏层包括通过第一权重矩阵来映射到各输入单元的多个非线性单元。例如,权重矩阵可包括0和1之间的多个随机生成的值。非线性单元可以是被配置成对来自输入单元的已加权输出(根据第一权重矩阵进行了加权)执行非线性操作的S(sigmoidal)单元。
第二线性层包括表示分类任务的目标的多个输出单元。例如,如果深凸网络被配置成执行图像形式或语音形式的数字识别(例如,数字1-10),则该多个输出单元可以表示值1、2、3等等,直至10。类似地,如果深凸网络被配置成执行音素识别(或更一般地,大词汇量语音识别),则该多个输出单元可以表示单音素、上下文相关音素或音素状态。该多个非线性单元可通过第二权重矩阵来映射到该多个输出单元。该第二权重矩阵可通过基于批量的学习过程来习得,使得学习可以并行进行。具体而言,可以结合学习第二权重矩阵来使用凸优化。作为示例,第二权重矩阵可以至少部分基于第一权重矩阵、分类的目标值、以及输入单元的值来学习。
如上所示,深凸网络包括多个已分层模块,其中每一模块包括上述三个层(包括多个线性输入单元的第一线性层、包括多个非线性单元的隐藏层、以及包括多个线性输出单元的第二线性层)。各模块在本文中被称为已分层的,因为在深凸网络中,较低模块的输出单元是相邻较高模块的输入单元的子集。更具体而言,在深凸网络中直接处于最低模块之上的第二模块中,输入单元可包括最低模块的输出单元。输入单元可另外包括与原始训练数据相对应的输入单元——换言之,最低模块的输出单元可以附加在第二模块的输入单元上,使得第二模块的输入单元还包括最低模块的输出单元。
如上所述,第二模块中的与原始训练数据相对应的输入单元可通过第一权重矩阵来映射到多个隐藏层。第二模块中的作为最低模块的输出单元的输入单元可通过第三权重矩阵来映射到多个隐藏层,其中这些权重可以在预训练阶段习得。此后,可通过凸优化来再次学习上述第二权重矩阵(其描述第二模块的隐藏单元与线性输出单元之间的连接的权重)。将较低模块的输出单元作为深凸网络中相邻的较高模块的输入单元的一部分来包括并随后经由凸优化来学习描述隐藏单元和线性输出单元之间的连接权重的权重矩阵的这一模式可针对多个模块(例如,数十到数百模块)继续进行。所得的学习到的深凸网络随后可结合自动分类/标识任务来部署。
在阅读并理解了附图和描述后,可以明白其他方面。
附图说明
图1示出包括多个已分层模块的示例性深凸网络。
图2示出深凸网络中的示例性最低模块。
图3示出深凸网络中的示例性第N模块。
图4示出便于通过并行计算来学习深凸网络中的权重矩阵的示例性***的功能框图。
图5是示出用于以基于批量的方式来训练深凸网络的示例性方法的流程图。
图6是示出用于通过凸优化来学习深凸网络中的矩阵权重的示例性方法的流程图。
图7是示例性计算***。
具体实施方式
现在将参考附图来描述关于深凸网络(DCN)的各种技术,在全部附图中相同的附图标记表示相同的元素。另外,本文出于解释的目的示出并描述了各示例***的若干功能框图;然而可以理解,被描述为由特定***组件执行的功能可以由多个组件来执行。类似地,例如可以将一组件配置为执行被描述为由多个组件执行的功能,并且在此所述的方法中的一些步骤可以被省略、重排序、或者组合。
参考图1,示出了示例性DCN 100,其中DCN(在进行了训练之后)可结合执行自动分类/识别来使用。根据一示例,DCN 100可被用于执行自动语音识别(ASR)。在另一示例中,DCN 100可被用于执行字符识别(手写识别)。在又一示例中,DCN 100可被用于执行脸部识别。在又一示例中,DCN 100可被用于执行文本到一个或多个主题的分类。自动分类/识别领域的技术人员将容易理解DCN 100的其他应用。
DCN 100包括多个已分层模块102-104,其中DCN 100中的已分层模块的数量可取决于应用、被用于训练DCN 100和/或利用DCN 100来进行自动分类/识别的计算装置中的可用计算资源(例如,处理和存储器资源)而变化。例如,模块的数量可以是数十、或数百、或数千。
模块102-104中的每一个模块可以是具有单个隐藏层的神经网络,其中可通过凸优化来学习该模块中的权重矩阵,如将在下文更详细地描述的。这便于以基于批量的方式来训练DCN 100,使得对DCN 100的训练(对模块102-104的权重矩阵进行学习)可以跨多个计算设备来并行化。
另外,模块102-104中的每一个模块可包括围绕该单个隐藏层的一组线性层。这些线性层可分别包括多个输入单元和多个输出单元。隐藏层包括多个非线性单元。利用在一个或多个权重矩阵中定义的权重,输入单元被映射到隐藏单元,并且利用由按需习得的权重矩阵所定义的权重,隐藏单元被映射到输出单元。将在下文更详细地描述对定义DCN 100中的模块的隐藏单元与输出单元之间的连接的权重的权重矩阵的学习。
更具体而言,第一模块102(DCN 100中的最低模块)包括包含多个线性输入单元的底部线性层108、包含多个非线性单元的隐藏层110、以及包含多个线性输出单元的顶部线性层112。第一线性层108中的多个线性输入单元可对应于原始数据的各参数。例如,如果DCN 100被配置成分析数字图像以识别其中的字符,则原始数据可包括大约800个像素。线性层108中的各线性输入单元中的每一个可对应于图像中的单个像素,使得线性层108包括800个线性输入单元。这些输入单元的值可以是与对应于像素的强度值、对应于像素的梯度,等等。在另一示例中,如果DCN 100被配置成分析音频信号以识别一个或多个音素,则原始数据可以是被采样成多个分开的样本的音频信号。因此,底部线性层108中的线性输入单元的数量可对应于样本的数量,并且这些输入的值可对应于样本的特定特征。
底部线性层108的线性输入单元可全连接到第一模块102的隐藏层110中的非线性单元,其中权重矩阵WRAN表示分配给线性输入单元与非线性单元之间的连接的权重。对于第一模块102,这样的权重矩阵WRAN可以通过利用随机数生成器来生成,其中WRAN的值是在0和1之间随机分布的,例如均匀分布或高斯分布。构想了用于在对应于原始训练数据的输入单元与非线性单元之间分配权重的其他机制,并且这些机制旨在落在所附权利要求书的范围内。
如上所述,隐藏层110包括被配置成对与输入单元相对应的已加权值执行非线性数学计算的多个非线性单元。根据一示例,非线性单元可以是S单元,它可以是σ(x)=1/(1+exp(-x))的形式,其中x是输入单元的加权和。
顶部线性层112中的多个输出单元可以表示学习的目标。例如,如果DCN100被配置成执行数字(例如,1-10)识别,则顶部线性层112中的输出单元可以表示数字1、2、3等等,直至10(例如,存在10个输出单元)。在另一示例中,如果DCN 100被配置成执行音素识别,则顶部线性层112中的输出单元可以表示可能的音素。
隐藏层110中的多个非线性单元可以全连接到顶部线性层112的多个输入单元,其中这些连接的权重由另一权重矩阵U来定义,其中U是按需习得的。对于第一模块102,U可至少部分基于WRAN来习得。更具体而言,可结合学习U来利用凸优化。例如,可使用伪逆操作来学习U,其中U=pinv(H)T,其中pinv是伪逆操作,T表示训练集中要学习的所有目标(受监督的输出值),H=σ(∑WRANX),其中X表示训练集中的所有输入值,并且上述S函数是在元素级应用的。分配给顶部线性层112中的输出单元的值可至少部分基于权重矩阵U。
如上所述,DCN 100包括多个已分层模块-换言之,第一模块102的输出单元作为输入单元包括在第二模块104的底部线性层114中。第二模块104可包括隐藏层116和顶部线性层118,这些层包括与第一模块102基本上类似的(等同的)单元。第二模块102的底部线性层114中的输入单元还包括同原始训练数据相对应的、与被包括在第一模块102的底部线性层108中的输入单元相同的输入单元。因此,第一模块102的顶部线性层112中的输出单元被附加到与原始数据相对应的输入单元,以形成第二模块104的底部线性层114,并且这两组单元可被共同称为第二模块104的输入单元。
第二模块104还包括包含全连接到第二模块104的底部层114的输入单元的多个非线性单元的单个隐藏层116。底部线性层114中的输入单元与隐藏层116中的非线性单元之间的连接的权重可被定义为一组权重矩阵:WRAN和WRBM,其中WRBM表示受限波尔兹曼机。WRAN可担当对应于原始数据的输入单元与隐藏层116中的多个非线性单元之间的连接的权重,而WRBM是与RBM相关联的权重且可担当从第一模块102接收到的输入单元(第一模块102的输出单元)与隐藏层116中的多个非线性单元之间的连接的权重。以下描述对WRBM的学习。
同样,对定义第二模块104的隐藏层116中的多个非线性单元与顶部线性层118中的多个输出单元之间的连接的权重的权重矩阵U进行学习是合乎需要的。在DCN 110中的非最低模块(除第一模块102之外的任何模块)的情况下,可以至少部分基于WRAN和WRBM来计算U。根据一示例,可如下计算U:U=pinv(H)t,其中H=σ(∑WX),其中上文中已经描述了T和X(在此,X是第二模块的底部线性层114中的所有输入单元),W是WRAN和WRBM的串接,且σ(∑WX)=1/(1+exp(-∑WX))是在元素级应用的。第二模块104中的顶部线性层118中的输出单元的值随后可至少部分基于第二模块的习得的U来计算。这些输出单元随后可作为又一模块的底部线性层中的输入单元来包括。因而,多个模块能以此方式来被分层,并且可学习每一已分层模块的U。
简要参考图2,示出了便于学习第一模块102的U的***200如上所述,第一模块104包括底部线性层108、隐藏层110、以及顶部线性层112。底部线性层包括输入单元202,其对应于上述原始训练数据。隐藏层包括多个非线性单元204,其可以是S单元。输入单元202全连接到非线性单元204。分配给输入单元202与非线性单元204之间的连接的权重由WRAN来定义。根据一示例,随机数生成器208可被配置成生成WRAN,其中WRAN的值可随机分布在预定义范围(如0到1)上。非线性单元204对输入单元202的按WRAN 206中的权重加权了的值执行非线性计算。WRAN可部分或全部被WRBM所替代。
第一模块102的顶部线性层112包括全连接到隐藏层110中的非线性单元204的多个输出单元210。如上所述,学习非线性单元204与输出单元210之间的连接的权重矩阵U 212是合乎需要的。学习组件214可以从随机数生成器208(或从数据存储)接收WRAN 206,可以从非线性单元204接收输出计算h,输入单元202的值x(原始训练数据),学习的目标的身份t(输出单元210的身份),并可以通过利用凸优化算法至少部分基于这些来计算U 212。已在上文中描述了示例性凸优化算法。随后至少部分基于权重矩阵U 212来向输出单元210分配各值。另外,尽管学习组件214被示为直接从第一模块104接收某些数据,但将理解,WRAN 206、x、以及t可以是预先知道的,并且学习组件214可以在需要时检索这些数据(在非线性单元204计算了h之后立即检索)。
现在参考图3,示出了便于学习第二模块104的U的示例性***300。尽管在***300中示出了第二模块104,但将理解,***300可被用于学习DCN100中的不是最低模块(例如,第一模块102)的任何模块的U。***300包括第二模块104,它包括底部线性层114、隐藏层116、以及顶部线性层118。底部线性层114包括两组输入节点:输入单元202以及第二组输入单元302,输入单元202也是第一模块102的输入单元,输入单元302是来自第一模块102的输出单元210。
第二模块104的隐藏层116包括多个非线性单元304,它基本上类似于第一模块102的隐藏层110中的非线性单元204。底部线性层114中的第一组输入单元202全连接到隐藏层116中的非线性单元304,其中各连接的权重由WRAN 206来定义。另外,底部线性层114中的第二组输入单元302也全连接到隐藏层116中的非线性单元304,其中各连接的权重由WRBM 305来定义,它可在预训练阶段中被预先计算。现在描述第二组输入单元302的WRBM 305的计算。
DCN 100的一模块中的一对层可被当作受限波尔兹曼机(RBM)。更具体地,RBM是具有一层(通常为柏努利)随机隐藏单元和一层(通常为柏努利或高斯)随机可见单元的特定类型的马尔可夫随机场(MRF)。RBM可被表示为二分图,因为全部可见单元都被连接到全部隐藏单元,但不存在可见-可见或隐藏-隐藏的连接。
在RBM中,给定模型参数θ,可见单元v和隐藏单元q上的联合分布p(v,q;θ)可按照以下算法的能量函数E(v,q;θ)来定义:
P ( v , q ; θ ) = exp ( - E ( v , q ; θ ) ) Z , - - - ( 1 )
其中Z=∑vqexp(-E(v,q;θ))是归一化因子或分割函数,并且该模型分配给可见矢量v的边缘概率可如下定义:
p ( v ; θ ) = Σ q exp ( - E ( v , q ; θ ) ) Z - - - ( 2 )
对于柏努利(可见)-柏努利(隐藏)RBM,能量如下:
E ( v , q ; θ ) = - Σ i = 1 V Σ j = 1 Q w ij v i q j - Σ i = 1 V b i v i - Σ j = 1 Q a j q j , - - - ( 3 )
其中,wij表示可见单元vi与隐藏单元qj之间对称交互项,bi和aj表示偏置项,以及V和Q是可见和隐藏单元的数量。条件概率可如下计算:
p ( q j = 1 | v ; θ ) = σ ( Σ i = 1 V w ij v i + a j ) - - - ( 4 )
p ( v i = 1 | a ; θ ) = σ ( Σ j = 1 Q w ij h j + b j ) - - - ( 5 )
其中σ(x)=1/(1+exp(-x))。
类似地,对于高斯-柏努利RBM,在假定方差为一个单位的情况下,该能量如下:
E ( v , q , θ ) = - Σ i = 1 V Σ j = 1 Q w ij v i q j + 1 2 Σ i = 1 V ( v i - b i ) 2 - Σ j = 1 Q a j q j , - - - ( 6 )
对应的条件概率变成:
p ( q j = 1 | v ; θ ) = σ ( Σ i = 1 V w ij v i + a j ) - - - ( 7 )
p ( v i | q ; θ ) = N ( Σ j = 1 Q w ij q j + b i , 1 ) - - - ( 8 )
其中,vi可取实值,并且可遵循均值为
Figure BDA0000148729810000088
且方差为1的高斯分布。可使用高斯-柏努利RBM来将实值随机变量转换成二元随机变量,该二元随机变量可随后使用柏努利-柏努利RBM来进一步处理。
在对数概率logp(v;θ)的梯度之后,可如下获得权重的更新规则:
Δwij=<viqj>数据-<viqj>模型,    (9)
其中,<viqj>数据是在训练数据中观测到的期望值,并且<viqj>模型是在DCN 100的所定义分布下相同的期望值。不幸的是,精确地计算<viqj>模型可能是极其昂贵的,因此可使用该梯度的对比散度(CD)逼近,其中,通过对一整个步骤运行在该数据处所初始化的吉布斯(Gibbs)采样器来替换<viqj>模型
从解码的观点来看,可将DCN 100作为具有许多层的多层感知器来对待。
输入信号(来自训练数据)可通过利用方程(4)来逐层处理直到最后一层。
可使用以下softmax运算来将最后一层转换成多项式分布:
p ( l = k | q ; &theta; ) = exp ( &Sigma; i = 1 Q &lambda; ik q i + a k ) Z ( q ) , - - - ( 10 )
其中,l=k表示输入已被分类成第k类,并且λik是最后的层处的隐藏单元qi与类标签k之间的权重。
根据一示例,可以使用帧级数据来以生成性方式训练RBM栈,从而得到WRBM 305的输出。WRBM 305随后可用作从DCN 100中的较低模块获得的各输入单元的每一全连接的权重矩阵。
因此,非线性单元304可以从根据WRBM 305来加权的第二组输入单元302接收各值。至少部分基于分别根据WRAN 206和WRBM 305来加权的第一组输入单元202和第二组输入单元302,隐藏层116中的非线性单元304可以计算H。如上所述,非线性单元304全连接到第二模块的顶部线性层118中的多个输出单元306,其中这些输出单元306表示学习的目标。对定义多个非线性单元304与多个输出单元306之间的连接的权重的权重矩阵U进行学习是合乎需要的。
学习组件214被配置成至少部分基于WRAN 206、WRBM 305、X(第一组输入单元202和第二组输入单元302的值)、T、以及H来计算第二模块104的U 212。根据一示例,***300可包括包含WRAN 206、WRBM 305、以及T 310的数据存储308,因为这些值可被预先计算或是已知的。X的一部分(第一组输入单元202)也可被保持在数据存储308中,因为这些值是静态的,而x的其余部分可以从DCN 110中紧接的较低模块来接收。至少部分基于这些值,学习组件214可以通过上述凸优化来计算U。
现在参考图4,示出了便于通过利用并行计算来学习DCN 100中各模块的U的示例性***400。***400包括多个计算设备402-404。计算设备402-404中的每一个可在其上加载有DCN 100的实例。第一计算设备402可包括包含第一训练批量数据408的第一数据存储406。第一训练批量数据可包括大量训练数据。数据接收机组件410可从第一训练批量数据408接收数据,并向DCN 100的第一实例提供训练。学习组件可以逐层学习DCN 100中的各模块的U,直至获得了所有模块的U为止。
第N计算设备404包括包含第N训练批量数据414的第N数据存储412。数据接收机组件410从数据存储412中的第N训练批量数据414接收数据,并将这些训练数据提供给第N计算设备404上的DCN 100的实例学习组件214可以学习DCN 100的第N实例中的所有模块的U。因此,批量模式的处理可跨多个计算设备并行进行,因为学习组件214利用凸优化函数来学习U。U的最终值可稍后根据学习组件214在计算设备402-404上针对DCN 100的各实例学习到的U的值来设置。
现在参考图5-6,示出并描述了各示例性方法。尽管各方法被描述为顺序地执行的一系列动作,但可以理解,这些方法不受该顺序的次序的限制。例如,一些动作能以与本文描述的不同的次序发生。另外,动作可以与另一动作同时发生。此外,在一些情况下,实现本文描述的方法并不需要所有动作。
此外,本文描述的动作可以是可由一个或多个处理器实现的和/或存储在一个或多个计算机可读介质上的计算机可执行指令。计算机可执行指令可包括例程、子例程、程序、执行的线程等。另外,这些方法的动作的结果可以存储在计算机可读介质中,显示在显示设备上,等等。计算机可读介质可以是任何合适的计算机可读存储设备,如存储器、硬盘驱动器、CD、DVD、闪存驱动器等。本文中所使用的术语“计算机可读介质”并不旨在涵盖传播的信号。
现在参考图5,示出了便于以基于批量的方式来训练DCN的示例性方法500。方法500在502处开始,并且在504处,接收用于训练深凸网络的训练数据。如上所述,深凸网络包括多个互连的模块,并且每一模块包括至少一个线性层以及至少一个非线性(隐藏)层。在506,至少部分基于训练数据来以基于批量的方式来训练深凸网络,其中训练深凸网络包括学习与多个互连的模块中的至少一个模块的非线性层的输出相对应的权重矩阵。方法500在508完成。
现在参考图6,示出了便于通过凸优化来学习多个权重矩阵的示例性方法600。方法600在602处开始,并在604处接收语音训练数据。在606处,通过利用训练数据来以批量方式训练深凸网络,其中深凸网络包括多个已分层模块,每一已分层模块包括单隐藏层神经网络。第一模块中的隐藏层包括互连到第二模块的线性层中的多个线性输入单元的多个非线性单元。训练深凸网络包括学习与多个已分层模块相对应的多个权重矩阵,使得习得每一已分层模块的权重矩阵,并且其中权重矩阵是通过凸优化来习得的。方法600在608完成。
现在参考图7,示出了可以根据本文公开的***和方法使用的示例性计算设备700的高级图示。例如,计算设备700可以用在支持ASR的***中。在另一示例中,计算设备700的至少一部分可以用在支持通过凸优化来学习DCN中的权重矩阵的***中。计算设备700包括执行存储在存储器704中的指令的至少一个处理器702。存储器704可以是或可以包括RAM、ROM、EEPROM、闪存、或其他合适的存储器。这些指令可以是例如用于实现被描述为由上述一个或多个组件执行的功能的指令或用于实现上述方法中的一个或多个的指令。处理器702可以通过***总线706访问存储器704。除了存储可执行指令之外,存储器704还可以存储训练数据集、确认数据集、DCN等等。
计算设备700还包括可由处理器702通过***总线706访问的数据存储708。数据存储708可以是或可以包括任何合适的计算机可读存储,包括硬盘、存储器等。数据存储708可以包括可执行指令、DCN、训练数据集、确认数据集、权重矩阵等等。计算设备700还包括允许外部设备与计算设备700进行通信的输入接口710。例如,可以使用输入接口710来从外部计算机设备、用户等接收指令。计算设备700还包括将计算设备700与一个或多个外部设备进行接口的输出接口712。例如,计算设备700可以通过输出接口712显示文本、图像等。
另外,尽管被示为单个***,但可以理解,计算设备700可以是分布式***。因此,例如,若干设备可以通过网络连接进行通信并且可共同执行被描述为由计算设备700执行的任务。
如此处所使用的,术语“组件”和“***”旨在涵盖硬件、软件、或硬件和软件的组合。因此,例如,***或组件可以是进程、在处理器上执行的进程、或处理器。另外,组件或***可以位于单个设备上或分布在若干设备之间。此外,组件或***可指存储器的一部分和/或一系列晶体管。
注意,出于解释目的提供了若干示例。这些示例不应被解释为限制所附权利要求书。另外,可以认识到,本文提供的示例可被改变而仍然落入权利要求的范围内。

Claims (10)

1.一种方法,包括以下计算机可执行动作:
接收用于训练包括多个互连的模块的深凸网络的训练数据,其中所述多个互连的模块中的每一模块包括线性层和非线性层;以及
使得处理器至少部分基于所述训练数据来以基于批量的方式来训练所述深凸网络的一部分,其中训练所述深凸网络包括学习与至少一个模块的非线性层的输出相对应的权重矩阵。
2.如权利要求1所述的方法,其特征在于,每一模块是单隐藏层神经网络。
3.如权利要求2所述的方法,其特征在于,所述单隐藏层神经网络中的隐藏层包括多个S单元。
4.如权利要求1所述的方法,其特征在于,所述深凸网络包括最低模块,并且其中所述最低模块的输入是原始训练数据。
5.如权利要求4所述的方法,其特征在于,所述深凸网络包括与所述最低模块互连的较高模块,并且其中所述较高模块的输入包括较低模块的输出加上所述原始训练数据。
6.如权利要求5所述的方法,其特征在于,关于所述原始训练所对应的线性层中的各单元与所述较高模块中的非线性层中的各单元之间的连接的第一权重矩阵包括由随机数生成器生成的随机数,其中关于来自所述最低模块的各输出单元所对应的线性层中的各单元与所述较高模块中的非线性层中的各单元之间的连接的第二权重矩阵包括分开训练的受限波尔兹曼机的权重,并且其中关于所述较高模块的非线性层中的各单元与其各输出单元之间的连接的第三权重矩阵是通过凸优化来习得的。
7.如权利要求6所述的方法,其特征在于,被用来执行所述凸优化的算法是U=pinv(H)T,其中H=σ(∑WX),其中T表示所述训练数据中的受监督的输出值,W是各输入模块与所述非线性层中的各单元之间的权重矩阵,且X表示与所述原始训练数据相对应的输入单元,并且其中σ(∑WX)=1/(1+exp(-∑WX))是在元素级应用的。
8.一种***,包括:
处理器(702);以及
包括能由所述处理器执行的多个组件的存储器(704),所述多个组件包括:
接收训练数据的数据接收机组件(410);以及
至少部分基于所述训练数据以批量训练的方式来训练深凸网络的学习组件(214),其中所述深凸网络包括多个互连的模块,每一互连的模块包括包含多个输入单元的线性层和包含多个隐藏单元的非线性层,其中第一模块的输入单元包括第二模块中的多个隐藏单元所输出的单元。
9.如权利要求8所述的***,其特征在于,所述训练组件通过利用凸优化来学习与所述第一模块的多个隐藏单元相对应的第一权重矩阵和所述第一模块的多个隐藏单元。
10.如权利要求9所述的***,其特征在于,所述第一权重矩阵至少部分基于第二权重矩阵,所述第二权重矩阵被分配给所述第一模块的输入单元与所述第一模块的隐藏单元之间的连接。
CN201210089488.0A 2011-03-31 2012-03-30 联合非线性随机投影、受限波尔兹曼机、以及基于批量的可并行优化来使用的深凸网络 Active CN102737278B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US13/077,978 US8489529B2 (en) 2011-03-31 2011-03-31 Deep convex network with joint use of nonlinear random projection, Restricted Boltzmann Machine and batch-based parallelizable optimization
US13/077,978 2011-03-31

Publications (2)

Publication Number Publication Date
CN102737278A true CN102737278A (zh) 2012-10-17
CN102737278B CN102737278B (zh) 2019-02-12

Family

ID=46928584

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210089488.0A Active CN102737278B (zh) 2011-03-31 2012-03-30 联合非线性随机投影、受限波尔兹曼机、以及基于批量的可并行优化来使用的深凸网络

Country Status (2)

Country Link
US (2) US8489529B2 (zh)
CN (1) CN102737278B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103345656A (zh) * 2013-07-17 2013-10-09 中国科学院自动化研究所 一种基于多任务深度神经网络的数据识别方法及装置
CN104143327A (zh) * 2013-07-10 2014-11-12 腾讯科技(深圳)有限公司 一种声学模型训练方法和装置
US9508347B2 (en) 2013-07-10 2016-11-29 Tencent Technology (Shenzhen) Company Limited Method and device for parallel processing in model training
CN108763360A (zh) * 2018-05-16 2018-11-06 北京旋极信息技术股份有限公司 一种分类方法及装置、计算机可读存储介质
TWI643138B (zh) * 2016-10-03 2018-12-01 三菱電機股份有限公司 Network construction device and network construction method

Families Citing this family (41)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012047857A2 (en) * 2010-10-04 2012-04-12 Mind Over Matter Ai, Llc. Coupling of rational agents to quantum processes
US8489529B2 (en) 2011-03-31 2013-07-16 Microsoft Corporation Deep convex network with joint use of nonlinear random projection, Restricted Boltzmann Machine and batch-based parallelizable optimization
US9235799B2 (en) 2011-11-26 2016-01-12 Microsoft Technology Licensing, Llc Discriminative pretraining of deep neural networks
CN103366782B (zh) * 2012-04-06 2014-09-10 腾讯科技(深圳)有限公司 在虚拟形象上自动播放表情的方法和装置
US9141916B1 (en) 2012-06-29 2015-09-22 Google Inc. Using embedding functions with a deep network
US9418334B2 (en) * 2012-12-06 2016-08-16 Nuance Communications, Inc. Hybrid pre-training of deep belief networks
US9842585B2 (en) 2013-03-11 2017-12-12 Microsoft Technology Licensing, Llc Multilingual deep neural network
US9099083B2 (en) 2013-03-13 2015-08-04 Microsoft Technology Licensing, Llc Kernel deep convex networks and end-to-end learning
US11842270B1 (en) 2013-05-28 2023-12-12 Deepmind Technologies Limited Learning abstractions using patterns of activations of a neural network hidden layer
US9728184B2 (en) 2013-06-18 2017-08-08 Microsoft Technology Licensing, Llc Restructuring deep neural network acoustic models
US9589565B2 (en) 2013-06-21 2017-03-07 Microsoft Technology Licensing, Llc Environmentally aware dialog policies and response generation
US9311298B2 (en) 2013-06-21 2016-04-12 Microsoft Technology Licensing, Llc Building conversational understanding systems using a toolset
US10152676B1 (en) * 2013-11-22 2018-12-11 Amazon Technologies, Inc. Distributed training of models using stochastic gradient descent
US9324321B2 (en) 2014-03-07 2016-04-26 Microsoft Technology Licensing, Llc Low-footprint adaptation and personalization for a deep neural network
US9529794B2 (en) 2014-03-27 2016-12-27 Microsoft Technology Licensing, Llc Flexible schema for language model customization
US10579922B2 (en) 2014-04-08 2020-03-03 Microsoft Technology Licensing, Llc Deep learning using alternating direction method of multipliers
US9614724B2 (en) 2014-04-21 2017-04-04 Microsoft Technology Licensing, Llc Session-based device configuration
US9520127B2 (en) 2014-04-29 2016-12-13 Microsoft Technology Licensing, Llc Shared hidden layer combination for speech recognition systems
US9384334B2 (en) 2014-05-12 2016-07-05 Microsoft Technology Licensing, Llc Content discovery in managed wireless distribution networks
US10111099B2 (en) 2014-05-12 2018-10-23 Microsoft Technology Licensing, Llc Distributing content in managed wireless distribution networks
US9384335B2 (en) 2014-05-12 2016-07-05 Microsoft Technology Licensing, Llc Content delivery prioritization in managed wireless distribution networks
US9430667B2 (en) 2014-05-12 2016-08-30 Microsoft Technology Licensing, Llc Managed wireless distribution network
US9874914B2 (en) 2014-05-19 2018-01-23 Microsoft Technology Licensing, Llc Power management contracts for accessory devices
US10037202B2 (en) 2014-06-03 2018-07-31 Microsoft Technology Licensing, Llc Techniques to isolating a portion of an online computing service
US9367490B2 (en) 2014-06-13 2016-06-14 Microsoft Technology Licensing, Llc Reversible connector for accessory devices
US10432711B1 (en) * 2014-09-15 2019-10-01 Amazon Technologies, Inc. Adaptive endpoint selection
WO2016134183A1 (en) 2015-02-19 2016-08-25 Digital Reasoning Systems, Inc. Systems and methods for neural language modeling
CN105184303B (zh) * 2015-04-23 2019-08-09 南京邮电大学 一种基于多模态深度学习的图像标注方法
US9734436B2 (en) * 2015-06-05 2017-08-15 At&T Intellectual Property I, L.P. Hash codes for images
EP3374932B1 (en) 2016-02-03 2022-03-16 Google LLC Compressed recurrent neural network models
US9858340B1 (en) 2016-04-11 2018-01-02 Digital Reasoning Systems, Inc. Systems and methods for queryable graph representations of videos
JP6714690B2 (ja) * 2016-04-26 2020-06-24 株式会社日立製作所 情報処理システム、情報処理システムの運用方法、および機械学習演算器
US10338931B2 (en) 2016-04-29 2019-07-02 International Business Machines Corporation Approximate synchronization for parallel deep learning
US10417566B2 (en) * 2016-05-22 2019-09-17 Microsoft Technology Licensing, Llc Self-learning technique for training a PDA component and a simulated user component
JPWO2018011842A1 (ja) * 2016-07-11 2019-04-25 株式会社Uei 階層ネットワークを用いた演算処理システム
US10685285B2 (en) * 2016-11-23 2020-06-16 Microsoft Technology Licensing, Llc Mirror deep neural networks that regularize to linear networks
US10373049B2 (en) * 2016-12-20 2019-08-06 Google Llc Generating an output for a neural network output layer
US20180197080A1 (en) * 2017-01-11 2018-07-12 International Business Machines Corporation Learning apparatus and method for bidirectional learning of predictive model based on data sequence
US10657426B2 (en) * 2018-01-25 2020-05-19 Samsung Electronics Co., Ltd. Accelerating long short-term memory networks via selective pruning
CN108416434B (zh) * 2018-02-07 2021-06-04 复旦大学 针对神经网络的卷积层与全连接层进行加速的电路结构
CN109784356B (zh) * 2018-07-18 2021-01-05 北京工业大学 基于Fisher判别分析的矩阵变量受限玻尔兹曼机图像分类方法

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1990010270A1 (en) * 1989-02-28 1990-09-07 E.I. Du Pont De Nemours And Company Apparatus and method for controlling a process using a trained parallel distributed processing network
US20050089215A1 (en) * 2003-10-25 2005-04-28 Carl Staelin Image artifact reduction using a neural network
CN1627251A (zh) * 2003-12-09 2005-06-15 微软公司 使用图形处理单元加速并优化机器学习技术的处理
CN1643920A (zh) * 2002-03-19 2005-07-20 皇家飞利浦电子股份有限公司 使用多个推荐得分的推荐***
WO2006042142A2 (en) * 2004-10-07 2006-04-20 Bernard Widrow Cognitive memory and auto-associative neural network based pattern recognition and searching
CN101071412A (zh) * 2006-05-10 2007-11-14 何千军 一种基于自定义模型的神经网络分析***及方法
CN101266145A (zh) * 2008-04-14 2008-09-17 西安理工大学 用多层感知机神经网络实现测量的气压高度计及测量方法
CN101939833A (zh) * 2007-08-31 2011-01-05 恪纳腾公司 用于跨晶片区域预测半导体参数的装置和方法

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5226092A (en) 1991-06-28 1993-07-06 Digital Equipment Corporation Method and apparatus for learning in a neural network
US5479579A (en) 1992-09-04 1995-12-26 The United States Of America As Represented By The Administrator Of The National Aeronautics And Space Administration Cascaded VLSI neural network architecture for on-line learning
US5572028A (en) 1994-10-20 1996-11-05 Saint-Gobain/Norton Industrial Ceramics Corporation Multi-element dosimetry system using neural network
DE60130742T2 (de) 2001-05-28 2008-07-17 Honda Research Institute Europe Gmbh Mustererkennung mit hierarchischen Netzen
US7233931B2 (en) 2003-12-26 2007-06-19 Lee Shih-Jong J Feature regulation for hierarchical decision learning
US8234228B2 (en) 2008-02-07 2012-07-31 Nec Laboratories America, Inc. Method for training a learning machine having a deep multi-layered network with labeled and unlabeled training data
US8457409B2 (en) 2008-05-22 2013-06-04 James Ting-Ho Lo Cortex-like learning machine for temporal and hierarchical pattern recognition
US8489529B2 (en) 2011-03-31 2013-07-16 Microsoft Corporation Deep convex network with joint use of nonlinear random projection, Restricted Boltzmann Machine and batch-based parallelizable optimization

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1990010270A1 (en) * 1989-02-28 1990-09-07 E.I. Du Pont De Nemours And Company Apparatus and method for controlling a process using a trained parallel distributed processing network
CN1643920A (zh) * 2002-03-19 2005-07-20 皇家飞利浦电子股份有限公司 使用多个推荐得分的推荐***
US20050089215A1 (en) * 2003-10-25 2005-04-28 Carl Staelin Image artifact reduction using a neural network
CN1627251A (zh) * 2003-12-09 2005-06-15 微软公司 使用图形处理单元加速并优化机器学习技术的处理
WO2006042142A2 (en) * 2004-10-07 2006-04-20 Bernard Widrow Cognitive memory and auto-associative neural network based pattern recognition and searching
CN101071412A (zh) * 2006-05-10 2007-11-14 何千军 一种基于自定义模型的神经网络分析***及方法
CN101939833A (zh) * 2007-08-31 2011-01-05 恪纳腾公司 用于跨晶片区域预测半导体参数的装置和方法
CN101266145A (zh) * 2008-04-14 2008-09-17 西安理工大学 用多层感知机神经网络实现测量的气压高度计及测量方法

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104143327A (zh) * 2013-07-10 2014-11-12 腾讯科技(深圳)有限公司 一种声学模型训练方法和装置
WO2015003436A1 (en) * 2013-07-10 2015-01-15 Tencent Technology (Shenzhen) Company Limited Method and device for parallel processing in model training
CN104143327B (zh) * 2013-07-10 2015-12-09 腾讯科技(深圳)有限公司 一种声学模型训练方法和装置
US9508347B2 (en) 2013-07-10 2016-11-29 Tencent Technology (Shenzhen) Company Limited Method and device for parallel processing in model training
CN103345656A (zh) * 2013-07-17 2013-10-09 中国科学院自动化研究所 一种基于多任务深度神经网络的数据识别方法及装置
CN103345656B (zh) * 2013-07-17 2016-01-20 中国科学院自动化研究所 一种基于多任务深度神经网络的数据识别方法及装置
TWI643138B (zh) * 2016-10-03 2018-12-01 三菱電機股份有限公司 Network construction device and network construction method
US11373110B2 (en) 2016-10-03 2022-06-28 Mitsubishi Electric Corporation Apparatus and network construction method for determining the number of elements in an intermediate layer of a neural network
CN108763360A (zh) * 2018-05-16 2018-11-06 北京旋极信息技术股份有限公司 一种分类方法及装置、计算机可读存储介质

Also Published As

Publication number Publication date
US20120254086A1 (en) 2012-10-04
US20130282634A1 (en) 2013-10-24
CN102737278B (zh) 2019-02-12
US8489529B2 (en) 2013-07-16
US9390371B2 (en) 2016-07-12

Similar Documents

Publication Publication Date Title
CN102737278A (zh) 联合非线性随机投影、受限波尔兹曼机、以及基于批量的可并行优化来使用的深凸网络
KR102071582B1 (ko) 딥 뉴럴 네트워크(Deep Neural Network)를 이용하여 문장이 속하는 클래스(class)를 분류하는 방법 및 장치
Su et al. Convolutional tensor-train LSTM for spatio-temporal learning
Chien et al. Tensor-factorized neural networks
US9292787B2 (en) Computer-implemented deep tensor neural network
Sharma et al. Era of deep neural networks: A review
CN109446430B (zh) 产品推荐的方法、装置、计算机设备及可读存储介质
Deng et al. Deep convex net: A scalable architecture for speech pattern classification
CN102436811B (zh) 用于语音识别的深度结构的全序列训练
Le A tutorial on deep learning part 1: Nonlinear classifiers and the backpropagation algorithm
EP3685316A1 (en) Capsule neural networks
Pandey et al. Attention gated tensor neural network architectures for speech emotion recognition
WO2018220700A1 (ja) 新規学習データセット生成方法、新規学習データセット生成装置および生成された学習データセットを用いた学習方法
Nasien et al. Statistical learning theory and support vector machines
Gouda et al. Speech recognition: keyword spotting through image recognition
Wang et al. A new delay connection for long short-term memory networks
Rajagede et al. Recognizing Arabic letter utterance using convolutional neural network
CN117349402A (zh) 一种基于机器阅读理解的情绪原因对识别方法及***
Tripathi et al. When sub-band features meet attention mechanism while knowledge distillation for sound classification
Bao et al. Tensor classification network
Aryal et al. Using pre-trained models as feature extractor to classify video styles used in MOOC videos
De Bortoli et al. A fast face recognition CNN obtained by distillation
Hallyal et al. Optimized recognition of CAPTCHA through attention models
Cuevas-Tello et al. A tutorial on deep neural networks for intelligent systems
Singh Speaker emotion Recognition System using Artificial neural network classification method for brain-inspired application

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 1175279

Country of ref document: HK

C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
ASS Succession or assignment of patent right

Owner name: MICROSOFT TECHNOLOGY LICENSING LLC

Free format text: FORMER OWNER: MICROSOFT CORP.

Effective date: 20150728

C41 Transfer of patent application or patent right or utility model
TA01 Transfer of patent application right

Effective date of registration: 20150728

Address after: Washington State

Applicant after: Micro soft technique license Co., Ltd

Address before: Washington State

Applicant before: Microsoft Corp.

GR01 Patent grant
GR01 Patent grant