CN109313721A

CN109313721A - 训练机器学习模型

Info

Publication number: CN109313721A
Application number: CN201780030921.4A
Authority: CN
Inventors: 米沙·万·雷·德尼尔; 汤姆·绍尔; 马尔钦·安德里霍维奇; 若昂·费迪南多·戈梅斯·德弗雷塔斯; 塞尔吉奥·戈梅斯·科梅纳雷霍; 马修·威廉·霍夫曼; 戴维·本杰明·普福
Original assignee: Yin Hui Technology Co Ltd
Current assignee: Yin Hui Technology Co Ltd; DeepMind Technologies Ltd
Priority date: 2016-05-20
Filing date: 2017-05-19
Publication date: 2019-02-05
Also published as: EP3446259A1; US20230376771A1; WO2017201511A1; US11615310B2; US20190220748A1

Abstract

用于训练机器学习模型的方法、***和装置，包括在计算机存储介质上编码的计算机程序。一种方法包括获得机器学习模型，其中机器学习模型包括一个或多个模型参数，并且使用梯度下降技术来训练机器学习模型以优化目标函数；使用递归神经网络(RNN)确定模型参数的更新规则；以及将用于多个时步序列中的最终时步的确定的更新规则应用于模型参数。

Description

训练机器学习模型

技术领域

本说明书涉及神经网络。

背景技术

背神经网络是机器学习模型，其采用一层或多层非线性单元以针对接收到的输入预测输出。除了输出层之外，一些神经网络还包括一个或多个隐藏层。每个隐藏层的输出用作网络中下一层(即，下一个隐藏层或输出层)的输入。网络的每个层根据相应参数集的当前值从接收的输入生成输出。

发明内容

本说明书描述在一个或多个位置中的一个或多个计算机上实现为计算机程序的***能够如何用可训练的深度递归神经网络替换硬编码的参数优化算法，例如，梯度下降优化算法。针对机器学习模型的参数的手工设计的更新规则被替换成学习更新规则。

通常，本说明书中描述的主题的一个创新方面能够体现在包括获得机器学习模型的方法中，其中(i)机器学习模型包括一个或多个模型参数，并且(ii)使用梯度下降技术来训练机器学习模型以优化目标函数；对于多个时步中的每个时步：使用递归神经网络(RNN)确定针对时步的用于模型参数的更新规则，包括：向RNN提供目标函数相对于用于时步的模型参数的梯度作为输入；从针对时步提供的输入生成相应的RNN输出，其中RNN输出包括取决于一个或多个RNN参数的针对时步的用于模型参数的更新规则；使用所生成的输出和取决于多个时步中的每个先前时步的RNN目标函数训练RNN，包括使用梯度下降技术确定针对时步使RNN目标函数最小化的RNN参数；基于所确定的RNN参数，确定针对时步使目标函数最小化的模型参数的更新规则；以及将确定的用于时步的更新规则应用于模型参数。

此方面的其他实施例包括记录在一个或多个计算机存储设备上的相应的计算机***、装置和计算机程序，每个计算机***、装置和计算机程序被配置成执行方法的动作。一个或多个计算机的***能够被配置成借助于安装在***上的在操作中可以使***执行动作的软件、固件、硬件或其任何组合来执行特定操作或动作。一个或多个计算机程序能够被配置成借助于包括当由数据处理装置执行时使装置执行动作的指令来执行特定操作或动作。

前述和其他实施例能够均可选地包括一个或多个下述特征，单独或组合。在一些实施方式中，将针对多个时步中的最终时步的所确定的更新规则应用于模型参数，生成训练的模型参数。

在一些实施方式中，机器学习模型包括神经网络。

在一些实施方式中，通过下述给出针对最小化目标函数的模型参数的被确定的更新规则

其中θ_t表示在时间t处的模型参数，表示目标函数f的梯度，φ表示RNN参数并且g_t表示在时步t处的RNN输出。

在一些实施方式中，RNN在目标函数参数上以坐标方式操作。

在一些实施方式中，RNN为每个模型参数实现单独的激活。

在一些实施方式中，将针对时步的被确定的更新规则应用于模型参数包括使用长短期记忆(LSTM)神经网络。

在一些实施方式中，LSTM神经网络包括两个LSTM层。

在一些实施方式中，LSTM神经网络跨目标函数的不同坐标共享参数。

在一些实施方式中，每个LSTM层中的元胞的子集包括全局平均单元，其中全局平均单元是其更新包括跨越不同坐标方式的LSTM在每个步骤全局地对单元的激活取平均的步骤的单元。

在一些实施方式中，在每个坐标上独立地应用相同的更新规则。

在一些实施方式中，RNN对于模型参数的顺序是不变的。

在一些实施方式中，该方法还包括向RNN提供用于时步的RNN的先前隐藏状态作为输入。

在一些实施方式中，针对时步最小化目标函数的用于模型参数的所确定的更新规则取决于用于时步的RNN的隐藏状态。

在一些实施方式中，通过下述给出RNN目标函数

其中θ_t+1＝θ_t+g_t，表示RNN参数，f(θ_t)表示机器学习模型目标函数，其取决于在时间t的机器学习模型参数θ，表示与每个时步t相关联的权重，g_t表示时间t的RNN输出，表示在时间t的RNN的隐藏状态，m表示RNN，并且

在一些实施方式中，该方法还包括预处理到RNN的输入以忽略小于预定阈值的梯度。

在一些实施方式中，可以基于所获得的机器学习模型输出训练的机器学习模型，所述机器学习模型具有基于上述实施方式的更新的参数。机器学习模型可以被用于处理输入数据以生成输出数据。输入数据可以是与现实世界环境相关联的数据，并且输出数据可以提供与现实世界环境相关联的输出。

本说明书中描述的主题能够在特定实施例中实现使得实现下述优点中的一个或多个。

如本说明书中所描述的，用于使用递归神经网络训练机器学习模型的***可以胜过使用例如使用硬编码优化算法的其他方法训练机器学习模型的***。例如，已经使用递归神经网络训练的机器学习模型可以更准确和有效地执行相应的机器学习任务。

如本说明书中所描述的用于使用递归神经网络训练机器学习模型的***可以实现高度转移。例如，在具有第一数量的任务参数的机器学习任务上训练的递归神经网络可以推广到具有第二更高数量的任务参数的机器学习任务。可替选地或另外，递归神经网络可以推广到进一步的机器学习任务和/或不同类型的神经网络输入。因此，实施例可以提供机器学习模型的生成的改进，其可以提供用于处理数据的改进性能。

在附图和以下描述中阐述本说明书的主题的一个或多个实施例的细节。根据说明书、附图和权利要求，本主题的其他特征、方面和优点将变得显而易见。

附图说明

图1A是用于训练机器学习模型的示例***的图示。

图1B是用于计算递归神经网络目标函数的梯度的数据流图的图示。

图2是用于训练机器学习模型的示例过程的流程图。

图3是用于使用递归神经网络确定机器学习模型参数的更新规则的示例过程的流程图。

各附图中相同的附图标记和名称指示相同的元件。

具体实施方式

图1A是用于训练机器学习模型的示例***100的框图。***100是在一个或多个位置中的一个或多个计算机上实现为计算机程序的***的示例，其中能够实现下面描述的***、组件和技术。

***100包括机器学习模型102、训练模块104和递归神经网络(RNN)106。能够训练机器学习模型102以执行机器学习任务。例如，可以训练机器学习模型以执行分类任务。分类任务通常是与真实世界输入数据相关联的任务，诸如语音识别、图像识别或自然语言处理、回归任务或机器人学习任务。例如，机器学习模型可以包括深度神经网络，例如，卷积神经网络，或支持向量机。

机器学习模型102具有机器学习模型参数集。例如，在机器学习模型102包括神经网络的情况下，机器学习模型参数可以包括神经网络的神经网络权重。作为另一示例，在机器学习模型102包括支持向量机的情况下，机器学习模型参数可以包括用于支持向量机的内核参数或软余量参数。

能够训练机器学习模型102以使用梯度下降技术来执行机器学习任务以优化机器学习模型目标函数。例如，在机器学习模型102是神经网络的情况下，可以训练机器学习模型以使用误差的反向传播来执行相应的机器学习任务。在反向传播训练过程期间，训练输入由神经网络处理以生成相应的神经网络输出。然后使用目标函数，例如，损失函数，将输出与期望或已知输出进行比较，并确定误差值。误差值被用于计算目标函数相对于神经网络参数的梯度。然后将该梯度用作更新规则的输入以确定最小化目标函数的神经网络参数的更新。传统更新规则的一个示例由下面的等式(1)给出。

在等式(1)中，θ_t表示在时间t处的神经网络参数，α_t表示在时间t处的学习速率，并且f(θ_t)表示目标函数。

训练模块104与机器学习模型102和RNN 106通信。训练模块104被配置成通过使用RNN 106确定机器学习模型参数的学习参数更新规则来训练机器学习模型102。用于机器学习模型参数的学习参数更新规则能够在一系列时步t＝1,…,T上实现以将机器学习模型参数的值从例如在时间t＝1的初始值或当前值调节成例如在时间t＝T的训练值。用于时步t+1的机器学习模型参数集的学习更新规则由下面的等式(2)给出。

在等式(2)中，θ_t表示在时间t处的机器学习模型参数，表示机器学习模型目标函数f的梯度，φ表示RNN 106参数，并且g_t表示根据RNN参数的当前值的对于时步t的RNN输出。

为了确定针对时间t+1的上述学习更新规则，训练模块104被配置成计算或获得在时间t处的机器学习模型目标函数相对于在时间t处的机器学习模型参数的梯度。例如，训练模块104可以被配置成接收表示在时间t的机器学习模型参数和在时间t 108目标函数的数据，并且计算表示在时间t处机器学习模型目标函数相对于机器学习模型参数的梯度的数据。训练模块104被配置成将获得的或计算的梯度作为输入提供给RNN 106。例如，训练模块104可以被配置成向RNN 106提供表示在时间t 112处的机器学习模型目标函数的梯度的数据作为输入。

RNN 106被配置成处理表示在时间t 112处的机器学习模型目标函数的梯度的接收的数据，以生成用于时间t的相应的RNN输出，该时间t取决于一个或多个RNN参数φ，例如，由上面参考等式(2)描述的g_t所表示的。下面更详细地描述处理所接收的RNN输入以生成相应的RNN输出。

训练模块104被配置成在训练机器学习模型102时更新RNN参数φ的值。更新RNN参数的值包括确定使用梯度下降技术最小化RNN目标函数的RNN参数φ的值。在一些实施方式中，RNN目标函数由下面的等式(3)给出。

其中

θ_t+1＝θ_t+g_t,

在等式(3)中，φ表示RNN参数，f(θ_t)表示取决于机器学习模型参数θ在时间t的机器学习模型目标函数，表示与每个时步t相关联的权重，例如，预定的权重，g_t表示用于时间t的RNN输出，h_t表示在时间t的RNN的隐藏状态，m表示RNN，并且

训练模块104被配置成使用用于时间t的RNN参数φ的值和相应的机器学习模型目标函数f的梯度来确定上面的等式(2)中的时间t+1的学习的更新规则。然后可以将学习的更新规则110应用于机器学习模型参数以更新机器学习模型102。可以在一系列时步t＝1，...，T上迭代地重复此过程以生成训练的机器学习模型。在一些实施方式中，时步T的数量可以是预定数，例如，基于***100中的可用存储器选择的数量。例如，考虑到可用存储器约束，可以选择T作为可能的最大数。在一些情况下，当机器学习模型收敛，例如，机器学习模型参数朝向训练值收敛时，可以生成训练的机器学习模型。在这些情况下，时步T的数量取决于收敛速度。

如上所述，递归神经网络106具有RNN参数，例如，RNN权重。RNN 106被配置成在一序列的多个时步的每个时步处接收RNN输入，例如，表示机器学习模型目标函数相对于机器学习模型参数112的梯度的数据。在一些实施方式中，RNN 106可以对机器学习模型参数的顺序是不变的。也就是说，RNN 106与机器学习模型102之间的接口可能需要固定机器学习模型102的参数的特定顺序，例如，对机器学习模型102的参数进行编号并将它们放入列表中。排序可以是任意的，例如，预定顺序，但必须被固定，使得RNN 106的输出可以与机器学习模型102的参数匹配。RNN 106与机器学习模型参数的顺序的不变性使无论选择哪种排序都能够得到相同的结果。

RNN 106处理每个接收的RNN输入以根据RNN参数，例如，取决于一个或多个RNN参数的机器学习模型参数的更新规则，生成用于时步的相应RNN输出。可以使用梯度下降技术训练RNN 106以从接收的输入生成RNN输出以优化RNN目标函数。

在一些实施方式中，RNN 106可以是被完全连接的RNN。在其他实施方式中，RNN106可以是坐标方式的RNN，其对每个RNN参数单独地运算。当RNN参数的数量超过参数阈值时，例如，当RNN参数的数量大约是数万个参数时，可以使用此架构。RNN 106可以被配置成通过对每个机器学习模型参数使用单独的激活来对RNN参数单独地进行运算。以这种方式，RNN 106可以对网络中的参数的顺序不变，因为可以对每个参数独立地使用相同的参数更新规则。

在一些实施方式中，RNN 106可以包括一个或多个长短期记忆(LSTM)神经网络层，例如，两个LSTM神经网络层。LSTM神经网络层是具有一个或多个LSTM存储块的神经网络层。在这些实施方式中，在每个时步，RNN 106可以被配置成接收表示机器学***均元胞，即，其更新包括下述步骤的单元，跨不同的坐标方式的LSTM在每个步骤全局地对单元的激活取平均。

在一些实施方式中，RNN输入，例如，表示机器学习模型目标函数112的梯度的数据和表示针对机器学习模型参数的所生成的更新规则的数据可以使用一个或多个常数来重新缩放。例如，训练模块104可以被配置成重新缩放RNN输入或输出以确保RNN输入和输出既不太小也不太大。例如，训练模块104可以被配置成根据下面的等式(4)预处理RNN输入。

在等式(4)中，p>0是控制如何忽略小梯度的参数。在一些实施方式中，p＝10。等式(4)分别考虑梯度的量级和方向分量——在一些情况下，量级分量是有问题的分量，因此将其映射到对数空间(从上方缓和并从下方截断)。保存对优化很重要的方向分量。根据等式(4)预处理RNN减小其中梯度的规模随着训练而改变的范围。

图1B是用于计算递归神经网络目标函数的梯度的示例数据流图150的图示。例如，数据流图150可以被用于使用机器学习模型102的机器学习模型参数来计算RNN 106的梯度。

在示例数据流图150中，θ_t表示机器学习模型102在时间t的参数，并且f_t表示在时间t的机器学习模型102目标函数，表示目标函数f_t相对于参数θ_t的梯度，h_t表示在时间t的RNN状态，g_t表示在时间t的RNN输出，并且m表示RNN 106。

图2是用于训练机器学习模型的示例过程200的流程图。为了方便起见，过程200将被描述为由位于一个或多个位置的一个或多个计算机的***执行。例如，机器学习模型训练模块，例如，图1A的训练模块104，能够执行过程200。

***获得指定机器学习模型的数据(步骤202)。例如，机器学习模型可以包括下述机器学习模型，其可以被训练以执行机器学习任务，包括诸如语音识别、图像识别或自然语言处理的分类任务、回归任务或机器人学习任务。

机器学习模型具有相应的机器学习模型参数集。例如，如上面参考图1所述，在一些实施方式中，机器学习模型可以包括神经网络。在这些实施方式中，机器学习模型参数可以包括用于神经网络的神经网络参数，例如，神经网络权重。机器学习模型是机器学习模型，其使用梯度下降技术来训练以优化相应的目标函数。

对于一系列时步中的每个时步，***使用递归神经网络(RNN)确定用于时步的机器学习模型参数的更新规则(步骤204)。RNN包括一个或多个RNN参数，并使用梯度下降技术训练以优化RNN目标函数。用于时步的机器学习模型参数的更新规则是参数化更新规则——其是更新规则参数的函数——可以被用于调节机器学习模型参数的值。使用RNN确定机器学习模型参数的更新规则包括训练RNN以确定最小化RNN目标函数的RNN参数，以及使用训练的RNN参数来确定用于生成训练的机器学习模型的最终更新规则。下面参考图3更详细地描述使用RNN确定模型参数的更新规则。

对于时步序列中的每个时步，***将所确定的时步的更新规则应用于机器学习模型参数(步骤206)。在一些实施方式中，例如，使用如在上面参考图1A所述的坐标网络架构，相同的更新规则被独立地应用于每个机器学习模型参数。

对于时步t＝1，...，T序列中的每个时步的所确定的更新规则的顺序应用将机器学习模型参数的值从例如在时间t＝1处的初始值调节成例如在时间t＝T处的训练的值。一旦被训练，机器学习模型可以被用于执行其相应的机器学习任务。

图3是用于使用递归神经网络(RNN)确定用于机器学习模型参数集的更新规则的示例过程300的流程图。可以针对多个时步的序列中的每个时步执行示例性过程300。为了方便起见，过程300将被描述为由位于一个或多个位置的一个或多个计算机的***执行。例如，机器学习模型训练模块，例如，图1A的训练模块104，能够执行过程300。

***向RNN提供机器学习模型目标函数相对于时步t的机器学习模型参数的梯度作为输入(步骤302)。可选地，***还可以向RNN提供作为输入的用于时步的RNN的先前隐藏状态。

***从用于时步的所提供的输入生成相应的RNN输出(步骤304)。RNN输出对应于上面的等式(2)中的g_t，并且可以用于确定用于取决于一个或者多个RNN参数的在时步处的机器学习模型参数的上面的等式(2)给出的更新规则。

***使用取决于多个时步的序列中的每个先前时步的所生成的输出和RNN目标函数来训练RNN(步骤306)。在一些实施方式中，RNN目标函数由上面的等式(3)给出，为了清楚起见，在下面重复。

其中，

在等式(3)中，φ表示RNN参数，f(θ_t)表示取决于在时间t的机器学习模型参数θ的机器学习模型目标函数，表示与每个时步相关联的权重，例如，预定权重，g_t表示用于时间t的RNN输出，h_t表示在时间t的RNN的隐藏状态，m表示RNN，并且使用标记法在一些实施方式中，w_t＞0，例如，在沿着轨迹的中间点处。例如，在某些情况下，对于所有t，w_t＝1。

***通过使用梯度下降技术确定使用于时步的RNN目标函数最小化的RNN参数φ的值来训练RNN。例如，***可以通过对随机函数f进行采样并应用反向传播技术来计算梯度估计如上面参考图1A和图1B所述。在一些实施方式中，假设机器学习模型的梯度不取决于RNN参数φ，即，

基于所确定的RNN参数φ，***确定机器学习模型参数的更新规则，其最小化用于时步的机器学习模型目标函数(步骤308)。在一些实施方式中，用于最小化机器学习模型目标函数的机器学习模型参数的确定的更新规则由上面的等式(2)给出，为了清楚起见，在下面重复。

在等式(2)中，θ_t表示在时间t的机器学习模型参数，表示目标函数f的梯度，如上参考步骤402所述，φ表示RNN参数的确定值，并且g_t表示用于时步的RNN输出。尽管未在上面的等式中示出，但是在一些实施方式中，用于最小化时步的目标函数的模型参数的确定的更新规则还取决于用于时步的RNN的隐藏状态h_t。

在一些实施方式中，如上面的等式(2)所给出的学习的更新规则可以应用于被配置成执行类似的机器学习任务，例如，具有类似结构的机器学习任务的其他机器学习模型。例如，学习的更新规则可以应用于第二机器学习模型，该第二机器学习模型被配置成执行与第一机器学习模型(例如，图1A的机器学习模型102)相同的机器学习任务，但是其中第二机器学习模型机器学习模型包括与第一机器学习模型不同数量的隐藏单元或神经网络层。作为另一示例，所学习的更新规则可以应用于第二机器学习模型，该第二机器学习模型被配置成执行与第一机器学习模型相同的机器学习任务，但是其中第二机器学习模型包括与第一机器学习模型不同的激活功能。

将学习的更新规则应用于这些示例中的其他机器学习模型能够使用上面参考图1描述的坐标方式RNN，例如，使用单个坐标来定义RNN并共享跨不同机器学习模型参数的RNN参数的神经网络来实现。对于每个目标函数参数，可以使用单独的激活函数来实现每个坐标上的不同行为。可以使用遗忘门架构，使用例如双层LSTM网络的RNN为每个坐标实现所学习的更新规则。网络采用用于单个坐标的机器学习模型梯度以及先前的隐藏状态作为输入，并输出用于相应机器学习模型参数的更新。

本说明书中描述的主题和功能操作的实施例能够在数字电子电路中，在有形体现的计算机软件或固件中，在计算机硬件中实现，其包括本说明书中公开的结构及其结构等同物，或者它们中的一个或多个的组合。

本说明书中描述的主题的实施例能够被实现为一个或多个计算机程序，即，在用于由数据处理装置执行或控制数据处理装置的操作的有形非暂时性程序载体上编码的一个或多个计算机程序指令模块。可替代地或另外，程序指令能够在人工生成的传播信号，例如，机器生成的电、光或电磁信号被编码，其被生成以编码用于传输到合适的接收器装置以由数据处理装置执行的信息。计算机存储介质能够是机器可读存储设备、机器可读存储基板、随机或串行存取存储器设备、或它们中的一个或多个的组合。然而，计算机存储介质不是传播信号。

术语“数据处理装置”包括用于处理数据的所有类型的装置、设备和机器，包括例如可编程处理器、计算机或多个处理器或计算机。该装置能够包括专用逻辑电路，例如，FPGA(现场可编程门阵列)或ASIC(专用集成电路)。除了硬件之外，该装置还能够包括为讨论中的计算机程序创建执行环境的代码，例如，组成处理器固件、协议栈、数据库管理***、操作***或它们中的一个或者多个的组合的代码。

计算机程序(也可以称为或描述为程序、软件、软件应用程序、模块、软件模块、脚本或代码)可以用任何形式的编程语言，包括编译或者解释性语言、或声明性或程序性语言编写，并且其能够以任何形式部署，包括作为独立程序或作为模块、组件、子例程或适合在计算环境中使用的其他单元。计算机程序可以但不必对应于文件***中的文件。程序能够存储在保存其他程序或数据的文件的一部分中，例如，存储在标记语言文档中的一个或多个脚本，专用于所讨论的程序的单个文件中，或者多个协调文件，例如，存储一个或多个模块、子程序或代码部分的文件中。能够部署计算机程序以在一个计算机上或位于一个站点上或分布在多个站点上并通过通信网络互连的多个计算机上执行。

如在本说明书中所使用的，“引擎”或“软件引擎”指的是软件实现的输入/输出***，其提供与输入不同的输出。引擎能够是编码的功能块，例如库、平台、软件开发工具包(“SDK”)或对象。每个引擎能够在任何适当类型的计算设备，例如，服务器、移动电话、平板计算机、笔记本计算机、音乐播放器、电子书阅读器、膝上型或台式计算机、PDA、智能电话或其他固定或便携式设备上实现，其包括一个或多个处理器和计算机可读介质。另外，两个或更多个引擎可以在同一计算设备上或在不同的计算设备上实现。

本说明书中描述的过程和逻辑流程能够由执行一个或多个计算机程序的一个或多个可编程计算机执行以通过对输入数据进行操作并生成输出来执行功能。过程和逻辑流程也能够由专用逻辑电路，例如，FPGA(现场可编程门阵列)或ASIC(专用集成电路)执行，并且装置也能够被实现为专用逻辑电路，例如，FPGA(现场可编程门阵列)或ASIC(专用集成电路)。

作为示例，适合于执行计算机程序的计算机能够基于通用或专用微处理器或两者，或任何其他种类的中央处理单元。通常，中央处理单元将从只读存储器或随机存取存储器或两者接收指令和数据。计算机的基本元件是用于执行或执行指令的中央处理单元和用于存储指令和数据的一个或多个存储器设备。通常，计算机还将包括或可操作地耦合以从一个或多个大容量存储设备接收数据或将数据传输到一个或多个大容量存储设备，该大容量存储设备用于存储数据，例如，磁盘、磁光盘或光盘。但是，计算机不需要这样的设备。此外，计算机能够被嵌入在另一个设备，例如，移动电话、个人数字助理(PDA)、移动音频或视频播放器、游戏控制台、全球定位***(GPS)接收器或便携式存储设备，例如，通用串行总线(USB)闪存驱动器中，仅举几例。

适用于存储计算机程序指令和数据的计算机可读介质包括所有形式的非易失性存储器、介质和存储器设备，包括例如半导体存储器设备，例如，EPROM、EEPROM和闪存设备；磁盘，例如，内部硬盘或可移动磁盘；磁光盘；和CD ROM和DVD-ROM磁盘。处理器和存储器能够由专用逻辑电路补充或被合并在专用逻辑电路中。

为了提供与用户的交互，本说明书中描述的主题的实施例能够在计算机上实现，该计算机具有显示设备，例如，CRT(阴极射线管)或LCD(液晶显示器)监视器，用于向用户显示信息；以及键盘和指示设备，例如，鼠标或轨迹球，用户能够通过其向计算机提供输入。其他种类的设备也能够被用于提供与用户的交互；例如，提供给用户的反馈能够是任何形式的感觉反馈，例如，视觉反馈、听觉反馈或触觉反馈；并且能够以包括声学、语音或触觉输入的任何形式接收来自用户的输入。另外，计算机能够通过向用户使用的设备发送文档和从用户使用的设备接收文档；例如，通过响应于从web浏览器接收的请求将网页发送到用户的客户端设备上的web浏览器，来与用户交互。

本说明书中描述的主题的实施例能够在计算***中实现，该计算***包括例如作为数据服务器的后端组件，或者包括中间件组件，例如，应用服务器，或者包括前端组件，例如，具有图形用户界面或Web浏览器的客户端计算机，通过其用户能够与本说明书中描述的主题的实施方式进行交互，或者一个或多个这样的后端、中间件或前端组件的任何组合。***的组件能够通过任何形式或介质的数字数据通信，例如，通信网络互连。通信网络的示例包括局域网(“LAN”)和广域网(“WAN”)，例如，因特网。

计算***能够包括客户端和服务器。客户端和服务器通常彼此远离，并且通常通过通信网络进行交互。客户端和服务器的关系由于在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序而产生。

虽然本说明书包含许多具体实现细节，但是这些不应被解释为对任何发明或可要求保护的范围的限制，而是作为可以特定于特定发明的特定实施例的特征的描述。在单独实施例的上下文中在本说明书中描述的某些特征也能够在单个实施例中组合实现。相反，在单个实施例的上下文中描述的各种特征也能够在多个实施例中单独地或以任何合适的子组合来实现。此外，尽管在上面特征可以描述为以某些组合起作用并且甚至最初如此声明，但是在一些情况下能够从组合中切除来自所要求保护的组合的一个或多个特征，并且所要求保护的组合可以针对子组合或子组合的变化。

类似地，虽然操作在附图中以特定的顺序，但是这不应被理解为要求这样的操作以所示的特定顺序或以连续顺序执行，或者执行所有图示的操作来执行，以实现期望的结果。在某些情况下，多任务处理和并行处理可能是有利的。此外，上述实施例中的各种***模块和组件的分离不应被理解为在所有实施例中都需要这种分离，并且应理解，所描述的程序组件和***通常能够一起集成在单个软件产品中或打包成多个软件产品。

已经描述主题的特定实施例。其他实施例在以下权利要求的范围内。例如，权利要求中引用的动作能够以不同的顺序执行并且仍然实现期望的结果。作为一个示例，附图中描绘的过程不一定需要所示的特定顺序或顺序次序来实现期望的结果。在某些实施方式中，多任务和并行处理可能是有利的。

Claims

1.一种由一个或者多个计算机实现的方法，包括：

获得机器学习模型，其中(i)所述机器学习模型包括一个或多个模型参数，并且(ii)使用梯度下降技术来训练所述机器学习模型以优化目标函数；

对于多个时步中的每个时步：

使用递归神经网络RNN确定针对该时步的用于所述模型参数的更新规则，包括：

向所述RNN提供所述目标函数相对于用于该时步的所述模型参数的梯度作为输入；

从针对该时步提供的输入生成相应的RNN输出，其中所述RNN输出包括取决于一个或多个RNN参数的用于在该时步的所述模型参数的更新规则；

使用生成的输出和取决于所述多个时步中的每个先前时步的RNN目标函数来训练所述RNN，包括使用梯度下降技术来确定对于该时步使所述RNN目标函数最小化的RNN参数；

基于确定的RNN参数，确定对于该时步使所述目标函数最小化的用于所述模型参数的更新规则；以及

将确定的针对该时步的更新规则应用于所述模型参数。

2.根据权利要求1所述的方法，其中，将针对所述多个时步中的最终时步的确定的更新规则应用于所述模型参数生成训练的模型参数。

3.根据权利要求1或者2所述的方法，其中，所述机器学习模型包括神经网络。

4.根据权利要求1、2或者3所述的方法，其中，通过给出使所述目标函数最小化的用于所述模型参数的确定的更新规则，其中θ_t表示在时间t处的模型参数，表示目标函数f的梯度，φ表示RNN参数，并且g_t表示在时步t处的RNN输出。

5.根据任意前述权利要求所述的方法，其中，所述RNN在所述目标函数参数上以坐标方式操作。

6.根据任意前述权利要求所述的方法，其中，所述RNN为每个模型参数实现单独的激活。

7.根据任意前述权利要求所述的方法，其中，将针对所述时步的确定的更新规则应用于所述模型参数包括使用长短期记忆LSTM神经网络。

8.根据权利要求7所述的方法，其中，所述LSTM神经网络包括两个LSTM层。

9.根据权利要求7或者8所述的方法，其中，所述LSTM神经网络跨目标函数的不同坐标共享参数。

10.根据权利要求7、8或者9所述的方法，其中，每个LSTM层中的元胞的子集包括全局平均单元，其中全局平均单元是其更新包括下述步骤的单元，跨越不同坐标方式的LSTM在每个步骤全局地对单元的激活取平均。

11.根据任意前述权利要求所述的方法，其中，在每个坐标上独立地应用相同的更新规则。

12.根据任意前述权利要求所述的方法，其中，所述RNN对于所述模型参数的顺序是不变的。

13.根据任意前述权利要求所述的方法，还包括：对于所述时步，向所述RNN提供所述RNN的先前隐藏状态作为输入。

14.根据任意前述权利要求所述的方法，其中，针对所述时步使所述目标函数最小化的用于所述模型参数的确定的更新规则取决于用于所述时步的所述RNN的隐藏状态。

15.根据任意前述权利要求所述的方法，其中，通过给出所述RNN目标函数，其中θ_t+1＝θ_t+g_t, φ表示所述RNN参数，f(θ_t)表示取决于在时间t的机器学习模型参数θ的机器学习模型目标函数，表示与每个时步t相关联的权重，g_t表示时间t的RNN输出，h_t表示在时间t的RNN的隐藏状态，m表示所述RNN，并且

16.根据任意前述权利要求所述的方法，还包括：预处理到所述RNN的输入以忽略小于预定阈值的梯度。

17.一种***，包括一个或多个计算机和存储指令的一个或多个存储设备，所述指令在由所述一个或多个计算机执行时使所述一个或多个计算机执行包括根据任意前述权利要求所述的方法的操作。

18.一种编码有指令的计算机存储介质，所述指令在由一个或多个计算机执行时使所述一个或多个计算机执行包括根据权利要求1至16中的任意一项所述的方法的操作。