CN111652664A

CN111652664A - 训练混合元学习网络的装置和方法

Info

Publication number: CN111652664A
Application number: CN201910160233.0A
Authority: CN
Inventors: 杨铭; 石自强; 孙俊
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2019-03-04
Filing date: 2019-03-04
Publication date: 2020-09-11
Also published as: JP2020144852A

Abstract

公开了一种训练混合元学习网络的装置和方法。装置包括进行下述处理的单元：获得推荐神经网络的损失并计算泛化损失，每个推荐神经网络具有嵌入层；计算泛化损失相对每个推荐神经网络的权重参数的梯度；将梯度分别输入到第一元学习网络，获得每个推荐神经网络的权重参数的更新量；基于更新量更新推荐神经网络的权重参数；使得朝向推荐神经网络的损失更小的方向训练第一元学习网络；计算过时推荐项集中的每个推荐项与新出现推荐项集中的每个推荐项之间的第一相似度和第二相似度；朝向相似度损失更小的方向训练嵌入层和第二元学习网络的权重参数；迭代地进行上述处理直到满足第一迭代终止条件为止。

Description

训练混合元学习网络的装置和方法

技术领域

本公开涉及信息处理领域，具体涉及一种训练混合元学习网络的装置和方法、以及利用训练混合元学习网络的装置而训练得到的混合元学习网络对神经网络进行训练的装置和方法。

背景技术

神经网络推荐***(例如用于向用户推荐购物网站的物品列表的神经网络推荐***)得到了学术与工业界的广泛认可。但是旧事物的消失与新事物的产生，使得神经网络推荐***需随时间更新。然而，神经网络中广泛采用的mini-batch随机梯度下降法无法满足神经网络推荐***更新的时效性与小样本训练约束。

在神经网络推荐***中，嵌入层为必有结构。学习作为元信息的任务神经网络的梯度信息的元学习方法可以学会预测更高效的任务神经网络的权重参数的优化路径。但对于含有嵌入层的任务神经网络，该元学习方法却性能不佳。

发明内容

在下文中给出了关于本公开的简要概述，以便提供关于本公开的某些方面的基本理解。但是，应当理解，这个概述并不是关于本公开的穷举性概述。它并不是意图用来确定本公开的关键性部分或重要部分，也不是意图用来限定本公开的范围。其目的仅仅是以简化的形式给出关于本公开的某些概念，以此作为稍后给出的更详细描述的前序。

鉴于以上问题，本公开的目的是提供能够解决现有技术中的一个或多个缺点的训练混合元学习网络的装置和方法、以及利用训练混合元学习网络的装置而训练得到的混合元学习网络对神经网络进行训练的装置和方法。

根据本公开的一方面，提供了一种训练混合元学习网络的装置，包括：计算泛化损失单元，被配置成利用训练数据，分别获得用于按时间排序的不同推荐任务的多个推荐神经网络中的每个推荐神经网络的损失，并基于每个推荐神经网络的损失来计算反映所述多个推荐神经网络的总体损失的泛化损失，其中，所述不同推荐任务具有相似性，每个推荐神经网络具有其输入为不存在关联的离散值的嵌入层，并且所述多个推荐神经网络的结构互不相同；计算梯度单元，被配置成计算所述泛化损失相对于每个推荐神经网络的权重参数的梯度；学习单元，被配置成将所述梯度分别输入到至少一个第一元学习网络中的一个第一元学习网络，从而分别获得每个推荐神经网络的权重参数的更新量，其中，所述第一元学习网络是对梯度进行学习的神经网络；第一更新单元，被配置成基于所述更新量，更新每个推荐神经网络的权重参数；第二更新单元，被配置成在迭代地进行所述计算泛化损失单元、所述计算梯度单元、所述学习单元以及所述第一更新单元中的处理之后满足第一预定条件时，基于在满足所述第一预定条件时的所述泛化损失，使得朝向所述多个推荐神经网络的损失更小的方向训练所述至少一个第一元学习网络，从而获得更新后的所述至少一个第一元学习网络；第一相似度计算单元，被配置成针对所述多个推荐神经网络中的、包括第一推荐神经网络和用于紧接在所述第一推荐神经网络对应的推荐任务之后的推荐任务的第二推荐神经网络的每两个推荐神经网络，将所述第一推荐神经网络的推荐项词表和所述第二推荐神经网络的推荐项词表的交集作为活跃推荐项集，将从所述第一推荐神经网络的推荐项词表排除了所述活跃推荐项集之后获得的集合作为过时推荐项集，将从所述第二推荐神经网络的推荐项词表排除了所述活跃推荐项集之后获得的集合作为新出现推荐项集，并且分别计算所述过时推荐项集中的每个推荐项与所述新出现推荐项集中的每个推荐项相对于所述活跃推荐项集的共现词频率特征之间的第一相似度；第二相似度计算单元，被配置成迭代地进行所述计算泛化损失单元、所述计算梯度单元、所述学习单元、所述第一更新单元、以及所述第二更新单元中的处理之后满足第二预定条件时，基于在满足所述第二预定条件时、所述每两个推荐神经网络中的所述第一推荐神经网络的所述活跃推荐项集中的推荐项的词嵌入特征和所述第二推荐神经网络的所述活跃推荐项集中的对应推荐项的词嵌入特征，通过第二元学习网络计算所述过时推荐项集中的每个推荐项与所述新出现推荐项集中的每个推荐项之间的第二相似度，其中，所述第二元学习网络是对所述第二相似度进行学习的神经网络；相似度损失计算单元，被配置成针对所述每两个推荐神经网络计算所述第一相似度与所述第二相似度之间的相似度损失，并且使得朝向所述相似度损失更小的方向训练所述每两个推荐神经网络中的第二推荐神经网络的嵌入层的权重参数和所述第二元学习网络的权重参数，从而得到更新后的所述每两个推荐神经网络中的第二推荐神经网络的嵌入层和所述第二元学习网络；以及第三更新单元，被配置成基于更新后的所述多个推荐神经网络的嵌入层和所述第二元学习网络，迭代地进行所述计算泛化损失单元、所述计算梯度单元、所述学习单元、所述第一更新单元、所述第二更新单元、所述第二相似度计算单元、所述计算相似度损失计算单元中的处理，直到满足第一迭代终止条件为止，其中，所述混合元学习网络包括所述至少一个第一元学习网络和所述第二元学习网络。

根据本公开的另一方面，提供了一种训练混合元学习网络的方法，包括：计算泛化损失步骤，利用训练数据，分别获得用于按时间排序的不同推荐任务的多个推荐神经网络中的每个推荐神经网络的损失，并基于每个推荐神经网络的损失来计算反映所述多个推荐神经网络的总体损失的泛化损失，其中，所述不同推荐任务具有相似性，每个推荐神经网络具有其输入为不存在关联的离散值的嵌入层，并且所述多个推荐神经网络的结构互不相同；计算梯度步骤，计算所述泛化损失相对于每个推荐神经网络的权重参数的梯度；学习步骤，将所述梯度分别输入到至少一个第一元学习网络中的一个第一元学习网络，从而分别获得每个推荐神经网络的权重参数的更新量，其中，所述第一元学习网络是对梯度进行学习的神经网络；第一更新步骤，基于所述更新量，更新每个推荐神经网络的权重参数；第二更新步骤，在迭代地进行所述计算泛化损失步骤、所述计算梯度步骤、所述学习步骤以及所述第一更新步骤中的处理之后满足第一预定条件时，基于在满足所述第一预定条件时的所述泛化损失，使得朝向所述多个推荐神经网络的损失更小的方向训练所述至少一个第一元学习网络，从而获得更新后的所述至少一个第一元学习网络；第一相似度计算步骤，针对所述多个推荐神经网络中的、包括第一推荐神经网络和用于紧接在所述第一推荐神经网络对应的推荐任务之后的推荐任务的第二推荐神经网络的每两个推荐神经网络，将所述第一推荐神经网络的推荐项词表和所述第二推荐神经网络的推荐项词表的交集作为活跃推荐项集，将从所述第一推荐神经网络的推荐项词表排除了所述活跃推荐项集之后获得的集合作为过时推荐项集，将从所述第二推荐神经网络的推荐项词表排除了所述活跃推荐项集之后获得的集合作为新出现推荐项集，并且分别计算所述过时推荐项集中的每个推荐项与所述新出现推荐项集中的每个推荐项相对于所述活跃推荐项集的共现词频率特征之间的第一相似度；第二相似度计算步骤，迭代地进行所述计算泛化损失步骤、所述计算梯度步骤、所述学习步骤、所述第一更新步骤、以及所述第二更新步骤中的处理之后满足第二预定条件时，基于在满足所述第二预定条件时、所述每两个推荐神经网络中的所述第一推荐神经网络的所述活跃推荐项集中的推荐项的词嵌入特征和所述第二推荐神经网络的所述活跃推荐项集中的对应推荐项的词嵌入特征，通过第二元学习网络计算所述过时推荐项集中的每个推荐项与所述新出现推荐项集中的每个推荐项之间的第二相似度，其中，所述第二元学习网络是对所述第二相似度进行学习的神经网络；相似度损失计算步骤，针对所述每两个推荐神经网络计算所述第一相似度与所述第二相似度之间的相似度损失，并且使得朝向所述相似度损失更小的方向训练所述每两个推荐神经网络中的第二推荐神经网络的嵌入层的权重参数和所述第二元学习网络的权重参数，从而得到更新后的所述每两个推荐神经网络中的第二推荐神经网络的嵌入层和所述第二元学习网络；以及第三更新步骤，基于更新后的所述多个推荐神经网络的嵌入层和所述第二元学习网络，迭代地进行所述计算泛化损失步骤、所述计算梯度步骤、所述学习步骤、所述第一更新步骤、所述第二更新步骤、所述第二相似度计算步骤、所述计算相似度损失步骤中的处理，直到满足第一迭代终止条件为止，其中，所述混合元学习网络包括所述至少一个第一元学习网络和所述第二元学习网络。

根据本公开的另一方面，提供了一种利用经训练的混合元学习网络对神经网络进行训练的装置，包括：获得损失单元，被配置成利用训练数据，获得待训练的神经网络的损失；计算神经网络梯度单元，被配置成计算所述损失相对于所述待训练的神经网络的权重参数的梯度；梯度学习单元，被配置成将所述梯度分别输入到在满足所述第一迭代终止条件时获得的经训练的所述至少一个第一元学习网络中的一个第一元学习网络，从而获得所述待训练的神经网络的权重参数的更新量；第一参数更新单元，被配置成基于所述更新量，更新所述待训练的神经网络的权重参数，计算第一相似度单元，被配置成针对所述待训练的神经网络和用于紧挨在所述待训练的神经网络对应的推荐任务之前的推荐任务的在前推荐神经网络，将所述在前推荐神经网络的推荐项词表和所述待训练的神经网络的推荐项词表的交集作为活跃推荐项集，将从所述在前推荐神经网络的推荐项词表排除了所述活跃推荐项集之后获得的集合作为过时推荐项集，将从所述待训练的神经网络的推荐项词表排除了所述活跃推荐项集之后获得的集合作为新出现推荐项集，并且分别计算所述过时推荐项集中的每个推荐项与所述新出现推荐项集中的每个推荐项相对于所述活跃推荐项集的共现词频率特征之间的第一相似度；计算第二相似度单元，被配置成迭代地进行所述获得损失单元、所述计算神经网络梯度单元、所述梯度学习单元、所述第一参数更新单元的处理之后满足第三预定条件时，基于在满足所述第三预定条件时、所述在前推荐神经网络的所述活跃推荐项集中的推荐项的词嵌入特征和所述待训练的神经网络的所述活跃推荐项集中的对应推荐项的词嵌入特征，通过在满足所述第一迭代终止条件时获得的经训练的所述第二元学习网络计算所述过时推荐项集中的每个推荐项与所述新出现推荐项集中的每个推荐项之间的第二相似度；计算相似度损失单元，被配置成计算所述第一相似度与所述第二相似度之间的相似度损失，并且使得朝向所述相似度损失更小的方向训练所述待训练的神经网络的嵌入层的权重参数，从而得到更新后的待训练的神经网络的嵌入层；以及第二参数更新单元，被配置成基于更新后的所述待训练的神经网络的嵌入层，迭代地进行所述获得损失单元、所述计算神经网络梯度单元、所述梯度学习单元、所述第一参数更新单元、所述计算第二相似度单元、以及所述相似度损失计算单元中的处理，直到满足第二迭代终止条件为止。

根据本公开的其它方面，还提供了用于实现上述根据本公开的方法的计算机程序代码和计算机程序产品。

在下面的说明书部分中给出本公开实施例的其它方面，其中，详细说明用于充分地公开本公开实施例的优选实施例，而不对其施加限定。

附图说明

本公开可以通过参考下文中结合附图所给出的详细描述而得到更好的理解，其中在所有附图中使用了相同或相似的附图标记来表示相同或者相似的部件。所述附图连同下面的详细说明一起包含在本说明书中并形成说明书的一部分，用来进一步举例说明本公开的优选实施例和解释本公开的原理和优点。其中：

图1是示出根据本公开实施例的训练混合元学习网络的装置的功能配置示例的框图；

图2A和2B分别是示出根据本公开实施例的包括嵌入层的多个推荐神经网络的结构示例的图；

图3是示出根据本公开实施例的第一元学习网络所进行的处理的示例图；

图4是示出根据本公开实施例的基于多个推荐神经网络的梯度信息的第一元学习网络和传统的基于数据的任务网络对于单个任务的二元损失曲面的俯视图；

图5示出了根据本公开实施例的时间段相邻的两个推荐神经网络的推荐项词表之间的集合关系的图；

图6示出了根据本公开实施例的利用第一相似度和第二相似度对第二元学习网络和嵌入层进行训练的示例图；

图7是示出根据本公开实施例的训练混合元学习网络的方法的流程示例的流程图；

图8是示出利用经训练的混合元学习网络对神经网络进行训练的装置的功能配置示例的框图；

图9是示出利用经训练的混合元学习网络对神经网络进行训练的方法的流程示例的流程图；以及

图10是示出作为本公开实施例中可采用的个人计算机的示例结构的框图。

具体实施方式

在下文中将结合附图对本公开的示范性实施例进行描述。为了清楚和简明起见，在说明书中并未描述实际实施方式的所有特征。然而，应该了解，在开发任何这种实际实施例的过程中必须做出很多特定于实施方式的决定，以便实现开发人员的具体目标，例如，符合与***及业务相关的那些限制条件，并且这些限制条件可能会随着实施方式的不同而有所改变。此外，还应该了解，虽然开发工作有可能是非常复杂和费时的，但对得益于本公开内容的本领域技术人员来说，这种开发工作仅仅是例行的任务。

在此，还需要说明的一点是，为了避免因不必要的细节而模糊了本公开，在附图中仅仅示出了与根据本公开的方案密切相关的设备结构和/或处理步骤，而省略了与本公开关系不大的其它细节。

下面结合附图详细说明根据本公开的实施例。

首先，将参照图1描述根据本公开实施例的训练混合元学习网络的装置100的功能框图。图1是示出根据本公开实施例的训练混合元学习网络的装置100的功能配置示例的框图。如图1所示，根据本公开实施例的训练混合元学习网络的装置100包括计算泛化损失单元102、计算梯度单元104、学习单元106、第一更新单元108、第二更新单元110、第一相似度计算单元112、第二相似度计算单元114、相似度损失计算单元116以及第三更新单元118。

计算泛化损失单元102可以被配置成利用训练数据，分别获得用于按时间排序的不同推荐任务的多个推荐神经网络中的每个推荐神经网络的损失，并基于每个推荐神经网络的损失来计算反映多个推荐神经网络的总体损失的泛化损失，其中，不同推荐任务具有相似性，每个推荐神经网络具有其输入为不存在关联的离散值的嵌入层，并且多个推荐神经网络的结构互不相同。

作为示例，可以采用本领域常用的计算损失的函数例如softmax等来获得个推荐神经网络的损失。

例示而非限制，不同推荐任务具有相似性指的是推荐任务的业务场景相似，例如，不同推荐任务的推荐神经网络的输入相似和/或不同推荐任务的推荐神经网络的输出相似，或者不同推荐任务的推荐神经网络的结构相似。

优选地，计算泛化损失单元102可以进一步被配置成对多个推荐神经网络的损失进行平均，并且将平均后的损失作为泛化损失。本领域技术人员可以理解，还可以将对多个推荐神经网络的损失进行其他处理后的结果作为泛化损失，这里不再累述。

例示而非限制，按时间排序的不同推荐任务的多个推荐神经网络中的每个推荐神经网络分别是用于向用户推荐购物网站的物品列表的推荐神经网络，上述推荐任务具有均用于向用户推荐购物网站的物品列表的相似性，每个推荐神经网络均具有其输入为不存在关联的浏览物品的嵌入层，以及所述多个推荐神经网络的结构互不相同。在下文中，为了清楚，以每个推荐神经网络分别是用于向用户推荐购物网站的物品列表的推荐神经网络为例来进行描述。例示而非限制，物品列表可以是商品列表。

根据本公开实施例的多个推荐神经网络以基本单元构成的序列(例如，物品浏览序列)为输入，预测下一个基本单元(例如，下一个可能浏览的物品)。推荐神经网络的可选框架很多。例示而非限制，在2A和2B中示出了每个推荐神经网络由嵌入层、循环神经网络层以及仿射层构成的示例，尽管每个推荐神经网络均由以上三个层构成，但多个推荐神经网络的结构即权重参数互不相同。图2A和2B是示出根据本公开实施例的包括嵌入层的多个推荐神经网络的结构示例的图。其中，图2A是根据本公开实施例的多个推荐神经网络的简要结构图，而图2B是根据本公开实施例的多个推荐神经网络的详细结构图。

在图2A和2B中，Q_1:n-1＝[Q₁,Q₂,…,Q_n-1]为上下文基本单元索引序列，每个Q_i(i＝1,2,…,n-1)代表基本单元的索引号，其中，在推荐神经网络是用于向用户推荐购物网站的物品列表的推荐神经网络的情况下，上下文基本单元是所浏览的物品名称。嵌入层将基本单元索引号转换为低维连续非稀疏词向量。循环神经网络(例示而非限制，循环神经网络可以是长短期记忆网络LSTM)以上下文基本单元索引序列对应的词向量序列作为输入，通过循环展开，输出与Q_n-1对应的n-1位置的上下文特征h_n-1，其中，h₀为初始特征。仿射层将h_n-1变换到基本单元词典大小维度的向量O_n-1。最后，计算当前推荐神经网络的权重参数下的O_n-1(其对应于所推荐的物品)与真实下一个基本单元(与Q_n对应的单元)的独热向量(其对应于真实的浏览物品)之间的损失值作为泛化损失。通过使泛化损失尽可能小，优化推荐神经网络的权重参数。

如下面将描述的，将泛化损失相对于每个推荐神经网络的权重参数的梯度作为第一元学习网络的输入样本，可以为第一元学习网络提供更多数量的输入样本，从而有效地解决了推荐神经网络的样本少的问题。

计算梯度单元104可以被配置成计算泛化损失相对于每个推荐神经网络的权重参数的梯度。

具体地，将泛化损失关于每个推荐神经网络的权重参数求偏导的结果作为梯度。

推荐神经网络学习过程的本质是推荐神经网络的权重参数连续更新从而使泛化损失尽可能小的过程。上述梯度可以用于控制推荐神经网络的权重参数更新的方向，此外，上述梯度还可以控制推荐神经网络的权重参数更新的幅度。

优选地，计算梯度单元104可以被配置成计算泛化损失相对于每个推荐神经网络中的各网络层的权重参数的梯度。

作为示例，推荐神经网络可以包括多个网络层(例示而非限制，在推荐神经网络为卷积神经网络的情况下，卷积神经网络可以包括多个卷积层、多个全连接层等等)。学习推荐神经网络的权重参数就是学习推荐神经网络中的每个网络层的权重参数。因此，计算梯度单元104要计算泛化损失相对于推荐神经网络中的每个网络层的权重参数的梯度。

学习单元106可以被配置成将梯度分别输入到至少一个第一元学习网络中的一个第一元学习网络，从而分别获得每个推荐神经网络的权重参数的更新量，其中，第一元学习网络是对梯度进行学习的神经网络。

如上所述，推荐神经网络学习过程可以具体化为推荐神经网络的各网络层的权重参数连续更新从而使泛化损失尽可能小的过程。

推荐神经网络中的一个网络层的权重参数的更新可以描述为：

W_i+1＝W_i+ΔW，其中，W_i是该网络层的更新前的权重参数，W_i+1是该网络层的更新后的权重参数，ΔW是该网络层的权重参数的更新量。

权重参数的更新量ΔW可以表示为：

ΔW＝λ*grad

其中，λ为学习率，用于控制权重参数的更新的幅度，是一个手工设计的参数，grad为泛化损失相对于该网络层的权重参数的梯度，用于控制权重参数更新的方向，此外，grad还可以控制权重参数更新的幅度。通过以上表达式可以发现，更新量ΔW直接影响推荐神经网络学习的快慢。

根据本公开实施例的第一元学习网络是对梯度进行学习的神经网络。将推荐神经网络的每个网络层的梯度grad分别输入到元学习网络，第一元学习网络输出该层的权重参数的更新量ΔW。

优选地，第一元学习网络基于推荐神经网络的每个网络层的权重参数的上一次更新的状态，输出该层的权重参数的更新量。

具体地，第一元学习网络基于推荐神经网络的每个网络层的权重参数的梯度和该层的权重参数的上一次更新产生的状态向量(初始的状态向量为零向量)，输出该层的权重参数的更新量以及该层的权重参数本次更新产生的状态向量。前面的权重参数更新结果会对后面的权重参数更新结果产生影响，由此可见，权重参数的更新具有后效性。

图3是示出根据本公开实施例的第一元学习网络所进行的处理的示例图。

在图3中，将推荐神经网络中的一个网络层的权重参数的梯度grad输入到第一元学习网络，其中，grad是一个二维矩阵。

在第一元学习网络中，首先，通过预处理操作将二维矩阵的grad按行方向展开为一维向量的预处理梯度向量。

可以利用循环神经网络来表达权重参数的更新的后效性，如图3所示，存在多个循环神经网络，例如在图3中用“1”、“2”“3”、“4”、“5”、“6”等标注的循环神经网络。在图3中，示出了循环神经网络为长短期记忆网络LSTM，本领域技术人员可以理解，循环神经网络还可以是长短期记忆网络之外的网络。将预处理梯度向量与循环神经网络上一次的状态向量(其对应于上面所述的、任务网络实例的权重参数的上一次更新产生的状态向量，在图3中被标注为“上一次更新产生的状态”中的“上一次更新产生的状态向量”)作为循环神经网络层的输入，输出为一系列的循环神经网络的输出向量(在图3中标注为“LSTM输出向量”)，其中，循环神经网络的状态向量被统一初始化为零向量。其中，预处理梯度向量的每一维共享循环神经网络层的权重参数。需要说明的是，因为同类型的网络层由于尺寸不一会导致循环神经网络内部的输入权重无法共享，为了解决尺寸不一的问题，故在循环神经网络采用了多向量中的每个元素进行循环展开和权重共享的策略。无需保存展开过程中的中间状态(例如图3中的斜线小块)，只需保存展开的最后一个位置的状态输出来作为本次更新产生的状态向量(即，图3中的用“本次更新产生的状态”中的“本次更新产生的状态向量”标注的向量)。

接着，通过一个线性变换层将每个循环神经网络的输出向量转换为标量元素,再将所有的标量元素合并为最终输出向量。

最后，通过后处理将最终输出向量转换为与grad尺寸相同的矩阵，作为ΔW。

第一更新单元108可以被配置成基于更新量，更新每个推荐神经网络的权重参数。

第二更新单元110可以被配置成在迭代地进行计算泛化损失单元102、计算梯度单元104、学习单元106以及第一更新单元108中的处理之后满足第一预定条件时，基于在满足所述第一预定条件时的泛化损失，使得朝向多个推荐神经网络的损失更小的方向训练所述至少一个第一元学习网络，从而获得更新后的所述至少一个第一元学习网络。

具体地，在进行上述迭代处理之前，首先初始化所述至少一个第一元学习网络的权重参数，作为示例，可以根据经验初始化所述至少一个第一元学习网络的权重参数，或者可以随机初始化所述至少一个第一元学习网络的权重参数，或者可以根据本领域技术人员可以想到的其他方法来初始化所述至少一个第一元学习网络的权重参数。而在迭代地更新推荐神经网络的权重参数的过程中，固定所述至少一个第一元学习网络的权重参数。

作为示例，上述预定条件可以是达到预定迭代次数。作为示例，在迭代地更新推荐神经网络的权重参数达到预定迭代次数时，固定所述多个推荐神经网络的参数，可以通过使得朝向多个推荐神经网络的损失更小的方向训练所述至少一个第一元学习网络来更新至少一个第一元学习网络的权重参数。例示而非限制，可以利用传统优化算法(例如，Adam算法)更新所述至少一个第一元学习网络的权重参数。

如上所述，根据本公开实施例的第一元学习网络是对梯度进行学习的神经网络。如以上所提及的，将泛化损失相对于每个推荐神经网络的权重参数的梯度作为第一元学习网络的输入样本，可以为第一元学习网络提供更多数量的推荐神经网络的梯度，从而有效地解决了推荐神经网络的样本少的问题。通过将这些更多数量的推荐神经网络的梯度作为第一元学习网络的样本数据来对第一元学习网络进行训练，经训练的第一元学习网络可以推断推荐神经网络的学习更新规律以预测更高效的推荐神经网络的权重参数的优化路径并计算出更优的权重参数的更新量，从而加快学习推荐神经网络的速度。

优选地，所述至少一个第一元学习网络的数量与多个推荐神经网络中的网络层的类型的数量相同，并且，将推荐神经网络的每个网络层的梯度输入到与该层的类型相对应的第一元学习网络。也就是说，分别采用不同的第一元学习网络来分别学习推荐神经网络中的不同类型的网络层的梯度信息，而采用相同的第一元学习网络来学习推荐神经网络中的相同类型的网络层的梯度信息。例示而非限制，在推荐神经网络为卷积神经网络并且卷积神经网络包括多个卷积层和多个全连接层的情况下，采用一个第一元学习网络来学习卷积神经网络实例中的所述多个卷积层的梯度信息，以及采用不同于所述一个第一元学习网络的另一个第一元学习网络来学习卷积神经网络实例中的所述多个全连接层的梯度信息。

图4是示出根据本公开实施例的基于多个推荐神经网络的梯度信息的第一元学习网络和传统的基于数据的任务网络对于单个任务的二元损失曲面的俯视图。

在图4中所示的损失曲面中，曲面颜色越深的位置表示损失值越小，每个箭头线段表示单次通过网络层权重参数更新后的损失下降的方向与步长。其中，白色箭头线段构成的路径为传统的基于数据的任务网络的损失下降方式；通过虚线方框包围起来的黑色箭头线段构成的路径为通过根据本公开实施例的基于多个推荐神经网络的梯度信息的第一元学习网络的损失下降方式。在传统的基于数据的任务网络中，例如，在利用mini-batch随机梯度下降法的任务网络中，收敛到较小损失的速度往往缓慢。原因主要是：基于局部batch数据上损失得到的更新梯度是有偏的，使得每次参数更新的方向不一定是最优的(可能会走弯路)，一旦前面的更新偏差过大，必然会导致收敛速度慢、不收敛或者收敛到非常不好的局部最小损失的地方。从图4中可以发现，黑色线段到达损失较低点所需的更新次数远远小于基于数据的任务网络的更新次数，从而，根据本公开实施例的基于多个推荐神经网络的梯度信息的第一元学习网络可以预测出更高效的多个推荐神经网络的权重参数的优化路径，从而加快学习多个推荐神经网络的速度。

如上所述，神经网络推荐***(例如，用于向用户推荐购物网站的物品列表的推荐神经网络***)更新是由于新事物的产生和旧事物的消亡。这样必然导致不同时间段对应的神经网络推荐***的推荐项词表发生变化。嵌入层是离散整型数值信号能应用神经网络的关键层，其质量好坏直接影响整个推荐任务的性能。但是其却是最不易训练的层。主要原因在于嵌入层接收的是离散整型数值信号(例如，浏览的物品的索引号)且离散整型数值信号之间不存在数值层面的相互关系。以上描述的学习作为元信息的推荐神经网络的梯度信息的第一元学习方法可以学会预测更高效的推荐神经网络的权重参数的优化路径，但对于推荐神经网络中的嵌入层，该第一元学习网络却性能不佳。

为了获取离散输入信号之间的相互关系以加快嵌入层的快速训练。本公开提出了一种基于共现频率特征的离散信号相似度度量的第二元学习网络(也可以被称为相似度度量元学习网络)。通过这个相似度度量信息来辅助嵌入层的快速学习。为了训练第二元学习网络和加快训练嵌入层，需要构造训练数据(第一相似度和第二相似度)。下面结合第一相似度计算单元112、第二相似度计算单元114以及相似度损失计算单元116来描述对第二元学习网络和嵌入层进行训练。

第一相似度计算单元112可以被配置成针对多个推荐神经网络中的、包括第一推荐神经网络和用于时间上紧接在第一推荐神经网络对应的推荐任务之后的推荐任务的第二推荐神经网络的每两个推荐神经网络，将第一推荐神经网络的推荐项词表和第二推荐神经网络的推荐项词表的交集作为活跃推荐项集，将从第一推荐神经网络的推荐项词表排除了活跃推荐项集之后获得的集合作为过时推荐项集，将从第二推荐神经网络的推荐项词表排除了活跃推荐项集之后获得的集合作为新出现推荐项集，并且分别计算过时推荐项集中的每个推荐项与新出现推荐项集中的每个推荐项相对于活跃推荐项集的共现词频率特征之间的第一相似度。

为了获得作为样本数据的第一相似度，可以将时间段相邻的两个推荐神经网络的推荐项词表(即，推荐物品列表)作为数据采样单元。需要说明的是，在计算第一相似度中使用的推荐项词表与推荐神经网络无关，而是预先确定的，例示而非限制，可以根据用户对物品的浏览记录预先确定推荐项词表。两个相邻时间段对应的推荐项词表存在如图5所示的集合关系。

图5示出了根据本公开实施例的时间段相邻的两个推荐神经网络的推荐项词表之间的集合关系的图。

如图5所示，对于第一推荐神经网络1和用于紧接在第一推荐神经网络对应的推荐任务之后的推荐任务的第二推荐神经网络2，将第一推荐神经网络1的推荐项词表和第二推荐神经网络2的推荐项词表的交集作为活跃推荐项集B，将从第一推荐神经网络1的推荐项词表排除了活跃推荐项集B之后获得的集合作为过时推荐项集A，将从第二推荐神经网络2的推荐项词表排除了活跃推荐项集B之后获得的集合作为新出现推荐项集C。

针对多个推荐神经网络中的、包括第一推荐神经网络和用于紧接在第一推荐神经网络对应的推荐任务之后的推荐任务的第二推荐神经网络的每两个推荐神经网络，可以根据第一推荐神经网络的推荐项词表和第二推荐神经网络的推荐项词表，分别获得上述过时推荐项集A、活跃推荐项集B以及新出现推荐项集C。

优选地，第一相似度计算单元112可以被配置成针对第一推荐神经网络和第二推荐神经网络，按预定长度的词窗分别构建过时推荐项集A、活跃推荐项集B、以及新出现推荐项集C的共现词频率矩阵，并且从共现词频率矩阵中分别抽取过时推荐项集A中的每个推荐项与新出现推荐项集C中的每个推荐项相对于活跃推荐项集B的共现词频率特征。其中，共现词频率指的是在不同的集合中共同出现的词的频率，共现词频率矩阵指的是记录共现词频率的矩阵。本领域技术人员可以根据经验确定所述预定长度，例如，可以根据用户的物品浏览记录确定所述预定长度。

可以分别计算过时推荐项集中A的每个推荐项相对于活跃推荐项集B的共现词频率特征与新出现推荐项集C中的每个推荐项相对于活跃推荐项集B的共现词频率特征之间的第一相似度，该数据样本的形式可以表示为(a’_1,i,c’_2,j,score)。其中，a’_1,i表示第一推荐神经网络1的过时推荐项集A中的第i个词相对于活跃推荐项集B的共现词频率特征，c’_2,j表示第二推荐神经网络2的新出现推荐项集C中的第j个词相对于活跃推荐项集B的共现词频率特征，score表示a’_1,i和c’_2,j之间的相似度。

第二相似度计算单元114可以被配置成迭代地进行计算泛化损失单元102、计算梯度单元104、学习单元106、第一更新单元108、以及第二更新单元110中的处理之后满足第二预定条件时，基于在满足所述第二预定条件时、所述每两个推荐神经网络中的第一推荐神经网络的活跃推荐项集中的推荐项的词嵌入特征和第二推荐神经网络的活跃推荐项集中的对应推荐项的词嵌入特征，通过第二元学习网络计算过时推荐项集中的每个推荐项与新出现推荐项集中的每个推荐项之间的第二相似度，其中，第二元学习网络是对第二相似度进行学习的神经网络。

如上所述，更新后的第一元学习网络可以准确地预测推荐神经网络中除了嵌入层之外的层的权重参数的优化路径并计算出更优的权重参数的更新量，因此，基于通过第二更新单元110更新后的至少一个第一元学习网络，再次迭代地更新推荐神经网络的权重参数，从而加快学习推荐神经网络的速度。重复上述过程，即交替地更新多个推荐神经网络的权重参数和所述至少一个第一元学习网络的权重参数(如上所述，在迭代地更新多个推荐神经网络的权重参数满足所述第一预定条件时，更新所述至少一个第一元学习网络的权重参数)，直到满足第二预定条件。作为示例，第二预定条件可以是交替地更新多个推荐神经网络的权重参数和所述至少一个第一元学习网络的权重参数达到预定次数。

优选地，第二相似度计算单元114可以被配置成学习在满足第二预定条件时、所述每两个推荐神经网络中的第一推荐神经网络的活跃推荐项集中的推荐项的词嵌入特征和第二推荐神经网络的活跃推荐项集中的对应推荐项的词嵌入特征之间的变换，并利用所学习到的变换将第一推荐神经网络的过时推荐项集中的推荐项的词嵌入特征映射到第二推荐神经网络的向量空间，从而得到映射后的推荐项的词嵌入特征，并且，第二相似度计算单元114可以被配置成基于所述映射后的推荐项的词嵌入特征和第二推荐神经网络的新出现推荐项集中的推荐项的词嵌入特征，计算第二相似度。

例示而非限制，词嵌入特征用于将标量的推荐项以向量来表示，也就是说，词嵌入特征是推荐项的特征表示。首先对词嵌入特征进行随机初始化，然后不断更新词嵌入特征，在迭代满足上述第二预定条件时，得到上述每两个推荐神经网络中的第一推荐神经网络的活跃推荐项集中的推荐项的词嵌入特征和第二推荐神经网络的活跃推荐项集中的对应推荐项的词嵌入特征。

上面提到过，在计算第一相似度中使用的推荐项词表与推荐神经网络无关，是预先确定的。而在计算第二相似度中使用的词嵌入特征是与推荐神经网络相关的，是在交替地更新多个推荐神经网络的权重参数和所述至少一个第一元学习网络的权重参数直到满足第二预定条件时所产生的推荐神经网络的词嵌入特征。

假设满足所述第二预定条件时、每两个推荐神经网络中的第一推荐神经网络1的活跃推荐项集B中的第i个推荐项的词嵌入特征为b_1,i和第二推荐神经网络2的活跃推荐项集B中的对应推荐项的词嵌入特征为b_2,i。第二相似度计算单元114学习在满足第二预定条件时b_1,i和b_2,i之间的变换b_2,i＝f(b_1,i)。

然后，第二相似度计算单元114利用所学习到的变换f将第一推荐神经网络1的过时推荐项集A中的推荐项的词嵌入特征a_1,i映射到第二推荐神经网络2的向量空间中，从而得到映射后的推荐项的词嵌入特征a_2,i＝f(a_1,i)。其中，a_1,i表示第一推荐神经网络1的过时推荐项集A中的第i个词的词嵌入特征，a_2,i表示第二推荐神经网络2的过时推荐项集A中的第i个词的映射后的词嵌入特征。之后，第二相似度计算单元114可以被配置成计算所述映射后的推荐项的词嵌入特征a_2,i和第二推荐神经网络的新出现推荐项集C中的推荐项的词嵌入特征c_2,j之间的第二相似度，其中，c_2,j表示第二推荐神经网络2的新出现推荐项集C中的第j个词的词嵌入特征。

优选地，第二相似度计算单元114可以被配置成基于映射后的推荐项的词嵌入特征a_2,i的归一化值和第二推荐神经网络2的新出现推荐项集C中的推荐项的词嵌入特征c_2,j的归一化值，计算第二相似度。需要说明的是，对a_2,i和c_2,j进行归一化处理以获得a_2,i的归一化值和c_2,j的归一化值是为了防止a_2,i和c_2,j数值变化太大。

图6示出了根据本公开实施例的利用第一相似度和第二相似度对第二元学习网络和嵌入层进行训练的示例图。

在图6中，|A|表示上述时间段相邻的两个推荐神经网络(第一推荐神经网络1和第二推荐神经网络2)的过时推荐项集的共现词频率矩阵、|B|表示活跃推荐项集的共现词频率矩阵，以及|C|表示新出现推荐项集的共现词频率矩阵。Score表示a’_1,i和c’_2,j之间的相似度。

如图6的左上角部分所示，学习b_1,i和b_2,i之间的变换b_2,i＝f(b_1,i)。然后，利用所学习到的变换f将a_1,i映射到第二推荐神经网络2的向量空间中，从而得到a_2,i＝f(a_1,i)。随后对a_2,i进行归一化，以及对c_2,j进行归一化。图6中的嵌入层表示第二推荐神经网络2的嵌入层。在图6中，例示而非限制，第二元学习网络包括匹配网络、线性化单元和Sigmoid单元。利用第二元学习网络来计算a_2,i的归一化值和c_2,j的归一化值之间的第二相似度。

最后，将利用第一相似度与第二相似度之间的相似度损失来训练第二元学习网络的权重参数和第二推荐神经网络的嵌入层，从而更新第二元学习网络的权重参数和第二推荐神经网络的权重参数。

相似度损失计算单元116可以被配置成针对每两个推荐神经网络计算第一相似度与第二相似度之间的相似度损失，并且使得朝向相似度损失更小的方向训练所述每两个推荐神经网络中的第二推荐神经网络的嵌入层的权重参数和第二元学习网络的权重参数，从而得到更新后的所述每两个推荐神经网络中的第二推荐神经网络的嵌入层和第二元学习网络。

需要说明的是，在交替地更新多个推荐神经网络的权重参数和所述至少一个第一元学习网络的权重参数直到满足第二预定条件时，固定多个推荐神经网络中的除了嵌入层之外的层的权重参数和所述至少一个第一元学习网络的权重参数，通过相似度损失计算单元116更新所述每两个推荐神经网络中的第二推荐神经网络的嵌入层和第二元学习网络的权重参数。

如上面所提及的，学习作为元信息的推荐神经网络的梯度信息的第一元学习方法可以准确且快速地学会预测推荐神经网络的除了嵌入层之外的层的权重参数的优化路径。但对于推荐神经网络中的嵌入层，该第一元学习网络却性能不佳。而通过相似度损失计算单元116可以训练每两个推荐神经网络中的第二推荐神经网络的嵌入层和第二元学习网络，由此为具有嵌入层的推荐神经网络预测更高效的权重参数优化路径。在每个推荐神经网络分别是用于向用户推荐购物网站的物品列表的推荐神经网络的情况下，可以为用户更快且准确地推荐要浏览的物品。

第三更新单元118可以被配置成基于更新后的多个推荐神经网络的嵌入层和第二元学习网络，迭代地进行计算泛化损失单元102、计算梯度单元104、学习单元106、第一更新单元108、第二更新单元110、第二相似度计算单元114、计算相似度损失计算单元116中的处理，直到满足第一迭代终止条件为止。上面提到的混合元学习网络包括所述至少一个第一元学习网络和第二元学习网络。

如上所述，通过相似度损失计算单元116更新每两个推荐神经网络中的第二推荐神经网络的嵌入层和第二元学习网络，可以为具有嵌入层的推荐神经网络预测更高效的权重参数优化路径。因此，可以基于更新后的多个推荐神经网络的嵌入层和第二元学习网络，再次交替地更新多个推荐神经网络的权重参数和所述至少一个第一元学习网络的权重参数，以及在满足第二预定条件时，固定多个推荐神经网络的权重参数和所述至少一个第一元学习网络的权重参数，通过相似度损失计算单元116又更新每两个推荐神经网络中的第二推荐神经网络的嵌入层和第二元学习网络。迭代地重复上述过程，直到满足第一迭代终止条件为止。

作为示例，第一迭代终止条件可以是达到预定迭代次数、泛化损失收敛、泛化损失下降很小、泛化损失上扬中至少之一。

通过上面的描述可知，上述训练推荐神经网络和混合元学习网络的方法是异步方法，推荐神经网络的权重参数的更新频率最高，第一元学习网络的权重参数的更新频率次之，第二元学习网络的权重参数的更新频率最低。

在满足第一迭代终止条件时，训练混合元学习网络的装置100中的对整个网络的训练结束。在满足第一迭代终止条件时所得到的混合元学习网络可以更准确快速地推断推荐神经网络的学习更新规律，从而可以用于指导新神经神经网络的快速学习。

在根据本公开实施例的训练混合元学习网络的装置100中，将泛化损失相对于每个推荐神经网络的权重参数的梯度作为第一元学习网络的输入样本，可以为第一元学习网络提供更多数量的输入样本，从而有效地解决了推荐神经网络的样本少的问题；第一元学习网络可以预测推荐神经网络中除了嵌入层之外的层的权重参数的优化路径以及计算当前更优的推荐神经网络中除了嵌入层之外的层的权重参数的更新量，从而加快新的任务神经网络的训练速度；通过相似度损失计算单元116可以训练每两个推荐神经网络中的第二推荐神经网络的嵌入层和第二元学习网络，由此为具有嵌入层的推荐神经网络预测更高效的权重参数优化路径；在每个推荐神经网络分别是用于向用户推荐购物网站的物品列表的推荐神经网络的情况下，可以为用户更快且准确地推荐要浏览的物品。

与上述训练混合元学习网络的装置实施例相对应地，本公开还提供了以下训练混合元学习网络的方法的实施例。

图7是示出根据本公开实施例的训练混合元学习网络的方法700的流程示例的流程图。

如图7所示，根据本公开实施例的训练混合元学习网络的方法700包括计算泛化损失步骤S702、计算梯度步骤S704、学习步骤S706、第一更新步骤S708、第二更新步骤S710、第一相似度计算步骤S712、第二相似度计算步骤S714、相似度损失计算步骤S716以及第三更新步骤S718。

在计算泛化损失步骤S702中，利用训练数据，分别获得用于按时间排序的不同推荐任务的多个推荐神经网络中的每个推荐神经网络的损失，并基于每个推荐神经网络的损失来计算反映多个推荐神经网络的总体损失的泛化损失，其中，不同推荐任务具有相似性，每个推荐神经网络具有其输入为不存在关联的离散值的嵌入层，并且多个推荐神经网络的结构互不相同。

优选地，在计算泛化损失步骤S702中，进一步对多个推荐神经网络的损失进行平均，并且将平均后的损失作为泛化损失。本领域技术人员可以理解，还可以将对多个推荐神经网络的损失进行其他处理后的结果作为泛化损失，这里不再累述。

例示而非限制，按时间排序的不同推荐任务的多个推荐神经网络中的每个推荐神经网络分别是用于向用户推荐购物网站的物品列表的推荐神经网络，上述推荐任务具有均用于向用户推荐购物网站的物品列表的相似性，每个推荐神经网络均具有其输入为不存在关联的浏览物品的嵌入层，以及所述多个推荐神经网络的结构互不相同。在下文中，为了清楚，以每个推荐神经网络分别是用于向用户推荐购物网站的物品列表的推荐神经网络为例来进行描述。

有关多个推荐神经网络的结构示例的详细描述可参见装置实施例中关于图2的描述，在此不再重复描述。

在计算梯度步骤S704中，计算泛化损失相对于每个推荐神经网络的权重参数的梯度。

优选地，在计算梯度步骤S704中，计算泛化损失相对于每个推荐神经网络中的各网络层的权重参数的梯度。

作为示例，推荐神经网络可以包括多个网络层(例示而非限制，在推荐神经网络为卷积神经网络的情况下，卷积神经网络可以包括多个卷积层、多个全连接层等等)。学习推荐神经网络的权重参数就是学习推荐神经网络中的每个网络层的权重参数。因此，在计算梯度步骤S704中，要计算泛化损失相对于推荐神经网络中的每个网络层的权重参数的梯度。

在学习步骤S706中，可以将梯度分别输入到至少一个第一元学习网络中的一个第一元学习网络，从而分别获得每个推荐神经网络的权重参数的更新量，其中，第一元学习网络是对梯度进行学习的神经网络。

具体地，第一元学习网络基于推荐神经网络的每个网络层的权重参数的梯度和该层的权重参数的上一次更新产生的状态向量(初始的状态向量为零向量)，输出该层的权重参数的更新量以及该层的权重参数本次更新产生的状态向量。由此可见，权重参数的更新具有后效性。

有关元学习网络的详细描述可参见装置实施例中关于学习单元106和图3的描述，在此不再重复描述。

在第一更新步骤S708中，基于更新量，更新每个推荐神经网络的权重参数。

在第二更新步骤S710中，在迭代地进行计算泛化损失步骤S702、计算梯度步骤S704、学习步骤S706以及第一更新步骤S708中的处理之后满足第一预定条件时，基于在满足所述第一预定条件时的泛化损失，使得朝向多个推荐神经网络的损失更小的方向训练所述至少一个第一元学习网络，从而获得更新后的所述至少一个第一元学习网络。

为了获取离散输入信号之间的相互关系以加快嵌入层的快速训练。本公开提出了一种基于共现频率特征的离散信号相似度度量的第二元学习网络(也可以被称为相似度度量元学习网络)。通过这个相似度度量信息来辅助嵌入层的快速学习。为了训练第二元学习网络和嵌入层，需要构造训练数据(第一相似度和第二相似度)。下面结合第一相似度计算步骤S712、第二相似度计算步骤S714以及相似度损失计算步骤S716来描述对第二元学习网络和嵌入层进行训练。

在第一相似度计算步骤S712中，针对多个推荐神经网络中的、包括第一推荐神经网络和用于紧接在第一推荐神经网络对应的推荐任务之后的推荐任务的第二推荐神经网络的每两个推荐神经网络，将第一推荐神经网络的推荐项词表和第二推荐神经网络的推荐项词表的交集作为活跃推荐项集，将从第一推荐神经网络的推荐项词表排除了活跃推荐项集之后获得的集合作为过时推荐项集，将从第二推荐神经网络的推荐项词表排除了活跃推荐项集之后获得的集合作为新出现推荐项集，并且分别计算过时推荐项集中的每个推荐项与新出现推荐项集中的每个推荐项相对于活跃推荐项集的共现词频率特征之间的第一相似度。

为了获得作为样本数据的第一相似度，可以将时间段相邻的两个推荐神经网络的推荐项词表(即，推荐物品列表)作为数据采样单元。需要说明的是，在计算第一相似度中使用的推荐项词表与推荐神经网络无关，而是预先确定的，例示而非限制，可以根据用户对物品的浏览记录预先确定推荐项词表。

优选地，在第一相似度计算步骤S712中，针对第一推荐神经网络和第二推荐神经网络，按预定长度的词窗分别构建过时推荐项集、活跃推荐项集、以及新出现推荐项集的共现词频率矩阵，并且从共现词频率矩阵中分别抽取过时推荐项集中的每个推荐项与新出现推荐项集中的每个推荐项相对于活跃推荐项集的共现词频率特征。其中，共现词频率指的是在不同的集合中共同出现的词的频率，共现词频率矩阵指的是记录共现词频率的矩阵。本领域技术人员可以根据经验确定所述预定长度，例如，可以根据用户的物品浏览记录确定所述预定长度。

在第二相似度计算步骤S714中，迭代地进行计算泛化损失步骤S702、计算梯度步骤S704、学习步骤S706、第一更新步骤S708、以及第二更新步骤S710中的处理之后满足第二预定条件时，基于在满足所述第二预定条件时、所述每两个推荐神经网络中的第一推荐神经网络的活跃推荐项集中的推荐项的词嵌入特征和第二推荐神经网络的活跃推荐项集中的对应推荐项的词嵌入特征，通过第二元学习网络计算过时推荐项集中的每个推荐项与新出现推荐项集中的每个推荐项之间的第二相似度，其中，第二元学习网络是对第二相似度进行学习的神经网络。

如上所述，更新后的第一元学习网络可以预测更高效的推荐神经网络中除了嵌入层之外的层的权重参数的优化路径并计算出更优的权重参数的更新量，因此，基于在第二更新步骤S710中更新后的至少一个第一元学习网络，再次迭代地更新推荐神经网络的权重参数，从而加快学习推荐神经网络的速度。重复上述过程，即交替地更新多个推荐神经网络的权重参数和所述至少一个第一元学习网络的权重参数(如上所述，在迭代地更新多个推荐神经网络的权重参数满足所述第一预定条件时，更新所述至少一个第一元学习网络的权重参数)，直到满足第二预定条件。作为示例，第二预定条件可以是交替地更新多个推荐神经网络的权重参数和所述至少一个第一元学习网络的权重参数达到预定次数。

优选地，在第二相似度计算步骤S714中，学习在满足第二预定条件时、所述每两个推荐神经网络中的第一推荐神经网络的活跃推荐项集中的推荐项的词嵌入特征和第二推荐神经网络的活跃推荐项集中的对应推荐项的词嵌入特征之间的变换，并利用所学习到的变换将第一推荐神经网络的过时推荐项集中的推荐项的词嵌入特征映射到第二推荐神经网络的向量空间，从而得到映射后的推荐项的词嵌入特征，并且，在第二相似度计算步骤S714中，基于所述映射后的推荐项的词嵌入特征和第二推荐神经网络的新出现推荐项集中的推荐项的词嵌入特征，计算第二相似度。

优选地，在第二相似度计算步骤S714中，基于映射后的推荐项的词嵌入特征的归一化值和第二推荐神经网络的新出现推荐项集中的推荐项的词嵌入特征的归一化值，计算第二相似度。需要说明的是，对映射后的推荐项的词嵌入特征和第二推荐神经网络的新出现推荐项集中的推荐项的词嵌入特征进行归一化处理来获得归一化值是为了防止映射后的推荐项的词嵌入特征和第二推荐神经网络的新出现推荐项集中的推荐项的词嵌入特征的数值变化太大。

有关第一相似度和第二相似度的详细描述可参见装置实施例中关于第一相似度计算单元112、第二相似度计算单元114、图5和图6的描述，在此不再重复描述。

在相似度损失计算步骤S716中，针对每两个推荐神经网络计算第一相似度与第二相似度之间的相似度损失，并且使得朝向相似度损失更小的方向训练所述每两个推荐神经网络中的第二推荐神经网络的嵌入层的权重参数和第二元学习网络的权重参数，从而得到更新后的所述每两个推荐神经网络中的第二推荐神经网络的嵌入层和第二元学习网络。

需要说明的是，在交替地更新多个推荐神经网络的权重参数和所述至少一个第一元学习网络的权重参数直到满足第二预定条件时，固定多个推荐神经网络中的除了嵌入层之外的层的权重参数和所述至少一个第一元学习网络的权重参数，通过相似度损失计算步骤S716更新所述每两个推荐神经网络中的第二推荐神经网络的嵌入层和第二元学习网络。

如上面所提及的，学习作为元信息的推荐神经网络的梯度信息的第一元学习方法可以学会预测推荐神经网络的除了嵌入层之外的层的权重参数的优化路径。但对于推荐神经网络中的嵌入层，该第一元学习网络却性能不佳。而通过相似度损失计算步骤S716可以训练每两个推荐神经网络中的第二推荐神经网络的嵌入层和第二元学习网络，由此为具有嵌入层的推荐神经网络预测更高效的权重参数优化路径。在每个推荐神经网络分别是用于向用户推荐购物网站的物品列表的推荐神经网络的情况下，可以为用户更快且准确地推荐要浏览的物品。

在第三更新步骤S718中，可以基于更新后的多个推荐神经网络的嵌入层和第二元学习网络，迭代地进行计算泛化损失步骤S702、计算梯度步骤S704、学习步骤S706、第一更新步骤S708、第二更新步骤S710、第二相似度计算步骤S714、计算相似度损失计算步骤S716中的处理，直到满足第一迭代终止条件为止。上面提到的混合元学习网络包括所述至少一个第一元学习网络和第二元学习网络。

如上所述，通过相似度损失计算步骤S716更新每两个推荐神经网络中的第二推荐神经网络的嵌入层和第二元学习网络，可以为具有嵌入层的推荐神经网络预测更高效的权重参数优化路径。因此，可以基于更新后的多个推荐神经网络的嵌入层和第二元学习网络，再次交替地更新多个推荐神经网络的权重参数和所述至少一个第一元学习网络的权重参数，以及在满足第二预定条件时，固定多个推荐神经网络的权重参数和所述至少一个第一元学习网络的权重参数，通过相似度损失计算步骤S716又更新每两个推荐神经网络中的第二推荐神经网络的嵌入层和第二元学习网络。迭代地重复上述过程，直到满足第一迭代终止条件为止。

在根据本公开实施例的训练混合元学习网络的方法700中，将泛化损失相对于每个推荐神经网络的权重参数的梯度作为第一元学习网络的输入样本，可以为第一元学习网络提供更多数量的输入样本，从而有效地解决了推荐神经网络的样本少的问题；第一元学习网络可以预测推荐神经网络中除了嵌入层之外的层的权重参数的优化路径以及计算当前更优的推荐神经网络中除了嵌入层之外的层的权重参数的更新量，从而加快新的任务神经网络的训练速度；通过相似度损失计算步骤S716可以训练每两个推荐神经网络中的第二推荐神经网络的嵌入层和第二元学习网络，由此为具有嵌入层的推荐神经网络预测更高效的权重参数优化路径；在每个推荐神经网络分别是用于向用户推荐购物网站的物品列表的推荐神经网络的情况下，可以为用户更快且准确地推荐要浏览的物品。

本公开还提供了一种利用上述训练混合元学习网络的装置100或训练混合元学习网络的方法700训练得到的混合元学习网络对神经网络进行训练的装置。图8是示出利用经训练的混合元学习网络对神经网络进行训练的装置800的功能配置示例的框图。如图8所示，根据本公开实施例的利用经训练的混合元学习网络对神经网络进行训练的装置800包括获得损失单元802、计算神经网络梯度单元804、梯度学习单元806、第一参数更新单元808、计算第一相似度单元810、计算第二相似度单元812、计算相似度损失单元814以及第二参数更新单元816。

作为示例，在待训练的神经网络是用于向用户推荐购物网站的物品列表的推荐神经网络的情况下，待训练的神经网络包括其输入为离散值(例如，浏览的物品的索引号)的嵌入层。

获得损失单元802可以被配置成利用训练数据，获得待训练的神经网络的损失。

作为示例，可以采用本领域常用的计算损失的函数例如softmax等来获得待训练的神经网络的损失。

计算神经网络梯度单元804可以被配置成计算损失相对于待训练的神经网络的权重参数的梯度。

具体地，将损失关于待训练的神经网络的权重参数求偏导的结果作为梯度。

待训练的神经网络学习过程的本质是待训练的神经网络的权重参数连续更新从而使损失尽可能小的过程。上述梯度可以用于控制待训练的神经网络的权重参数更新的方向，此外，上述梯度还可以控制待训练的神经网络的权重参数更新的幅度。

优选地，计算神经网络梯度单元804可以被配置成计算损失相对于待训练的神经网络的各网络层的权重参数的梯度。

作为示例，待训练的神经网络可以包括多个网络层(例示而非限制，在待训练的神经网络为卷积神经网络的情况下，卷积神经网络可以包括多个卷积层、多个全连接层等等)。学习待训练的神经网络的权重参数就是学习待训练的神经网络中的每个网络层的权重参数。因此，计算神经网络梯度单元804要计算损失相对于待训练的神经网络中的每个网络层的权重参数的梯度。

梯度学习单元806可以被配置成将梯度分别输入到在满足第一迭代终止条件时获得的经训练的所述至少一个第一元学习网络中的一个第一元学习网络，从而获得待训练的神经网络的权重参数的更新量。

参见对根据本公开实施例的训练混合元学习网络的装置100的描述，根据本公开实施例的第一元学习网络是对梯度进行学习的神经网络。将待训练的神经网络的每个网络层的梯度分别输入到第一元学习网络，第一元学习网络输出该层的权重参数的更新量。优选地，梯度学习单元806可以被配置成将待训练的神经网络中的各网络层的梯度分别输入所述至少一个第一元学习网络中的、与该层的类型相对应的一个元学习网络，从而获得该层的权重参数的更新量。

参见对根据本公开实施例的训练混合元学习网络的装置100的描述，元学习网络的数量与神经网络中的层的类型的数量相同。例示而非限制，在待训练的神经网络为卷积神经网络并且该卷积神经网络包括多个卷积层和多个全连接层的情况下，采用一个第一元学习网络来学习卷积神经网络中的所述多个卷积层的梯度信息，以及采用不同于所述一个第一元学习网络的另一个第一元学习网络来学习卷积神经网络中的所述多个全连接层的梯度信息。

优选地，第一元学习网络基于待训练的神经网络的各网络层的权重参数的上一次更新的状态，输出该层的权重参数的更新量。

参见对根据本公开实施例的训练混合元学习网络的装置100的描述，第一元学习网络基于待训练的神经网络的权重参数的梯度和该层的权重参数的上一次更新产生的状态向量，输出该层的权重参数的更新量以及该层的权重参数本次更新产生的状态向量。

第一参数更新单元808可以被配置成基于更新量，更新待训练的神经网络的权重参数。

优选地，第一参数更新单元808可以被配置成基于更新量，更新待训练的神经网络中的各网络层的权重参数。

参见对根据本公开实施例的训练混合元学习网络的装置100的描述，第一元学习网络可以预测神经网络中的除了嵌入层之外的层的权重参数的优化路径，但对于神经网络中的嵌入层，第一元学习网络却性能不佳。在根据本公开实施例的训练混合元学习网络的装置100中，结合第二元学习网络来训练待训练的神经网络的嵌入层。下面结合计算第一相似度单元810、计算第二相似度单元812以及计算相似度损失单元814来描述对嵌入层进行训练。

计算第一相似度单元810可以被配置成针对待训练的神经网络和用于紧挨在待训练的神经网络对应的推荐任务之前的推荐任务的在前推荐神经网络，将在前推荐神经网络的推荐项词表和待训练的神经网络的推荐项词表的交集作为活跃推荐项集，将从在前推荐神经网络的推荐项词表排除了活跃推荐项集之后获得的集合作为过时推荐项集，将从待训练的神经网络的推荐项词表排除了活跃推荐项集之后获得的集合作为新出现推荐项集，并且分别计算过时推荐项集中的每个推荐项与新出现推荐项集中的每个推荐项相对于活跃推荐项集的共现词频率特征之间的第一相似度。

需要说明的是，在计算第一相似度中使用的推荐项词表与神经网络无关，而是预先确定的，例示而非限制，可以根据用户对物品的浏览记录预先确定推荐项词表。

优选地，计算第一相似度单元810可以被配置成针对上述在前推荐神经网络和待训练的神经网络，按预定长度的词窗分别构建过时推荐项集、活跃推荐项集、以及新出现推荐项集的共现词频率矩阵，并且从共现词频率矩阵中分别抽取过时推荐项集中的每个推荐项与新出现推荐项集中的每个推荐项相对于活跃推荐项集的共现词频率特征。其中，共现词频率指的是在不同的集合中共同出现的词的频率，共现词频率矩阵指的是记录共现词频率的矩阵。本领域技术人员可以根据经验确定所述预定长度，例如，可以根据用户的物品浏览记录确定所述预定长度。

计算第二相似度单元812可以被配置成迭代地进行获得损失单元802、计算神经网络梯度单元804、梯度学习单元806、第一参数更新单元808的处理之后满足第三预定条件时，基于在满足所述第三预定条件时、在前推荐神经网络的活跃推荐项集中的推荐项的词嵌入特征和待训练的神经网络的活跃推荐项集中的对应推荐项的词嵌入特征，通过在满足所述第一迭代终止条件时获得的经训练的第二元学习网络计算过时推荐项集中的每个推荐项与新出现推荐项集中的每个推荐项之间的第二相似度。

具体地，在利用所述至少一个第一元学习网络迭代地更新待训练的神经网络的权重参数满足第三预定条件时，计算第二相似度。

优选地，计算第二相似度单元812可以被配置成学习在满足第三预定条件时、在前推荐神经网络的活跃推荐项集中的推荐项的词嵌入特征和待训练的神经网络的活跃推荐项集中的对应推荐项的词嵌入特征之间的变换，并利用所学习到的变换将在前推荐神经网络的过时推荐项集中的推荐项的词嵌入特征映射到待训练的神经网络的向量空间，从而得到映射后的推荐项的词嵌入特征，并且，计算第二相似度单元814可以被配置成基于所述映射后的推荐项的词嵌入特征和待训练的神经网络的新出现推荐项集中的推荐项的词嵌入特征，计算第二相似度。

上面提到过，在计算第一相似度中使用的推荐项词表与神经网络无关，是预先确定的。而在计算第二相似度中使用的词嵌入特征是与神经网络相关的，是在迭代地更新待训练的神经网络的权重参数直到满足第三预定条件时所产生的神经网络的词嵌入特征。

有关计算第一相似度和第二相似度的详细描述可参见训练元学习网络的装置100实施例中关于图6的描述，在此不再重复描述。

在获得第一相似度与第二相似度之后，将利用第一相似度与第二相似度之间的相似度损失来训练待训练的神经网络的嵌入层，从而更新待训练的神经网络的权重参数。

计算相似度损失单元814可以被配置成计算第一相似度与第二相似度之间的相似度损失，并且使得朝向相似度损失更小的方向训练待训练的神经网络的嵌入层的权重参数，从而得到更新后的待训练的神经网络的嵌入层。

通过计算相似度损失单元814可以训练待训练的神经网络的嵌入层，由此为具有嵌入层的神经网络预测更高效的权重参数优化路径。在待训练的神经网络是用于向用户推荐购物网站的物品列表的推荐神经网络的情况下，可以为用户更快且准确地推荐要浏览的物品。

第二参数更新单元816可以被配置成基于更新后的待训练的神经网络的嵌入层，迭代地进行获得损失单元802、计算神经网络梯度单元804、梯度学习单元806、第一参数更新单元808、计算第二相似度单元812、以及相似度损失计算单元814中的处理，直到满足第二迭代终止条件为止。

可以基于更新后的待训练的神经网络的嵌入层，再次迭代地更新待训练的神经网络中的除了嵌入层之外的层的权重参数，以及在满足第三预定条件时，通过计算相似度损失单元814又更新待训练的神经网络的嵌入层。迭代地重复上述过程，直到满足第二迭代终止条件为止。

作为示例，第二迭代终止条件可以是达到预定迭代次数、损失收敛、损失下降很小、损失上扬中至少之一。

在满足第二迭代终止条件时，利用经训练的混合元学习网络对神经网络进行训练的装置800中的对待训练的神经网络的训练结束。

如针对根据本公开实施例的训练混合元学习网络的装置100或训练混合元学习网络的方法700所描述的，根据本公开实施例的训练混合元学习网络的装置100或训练混合元学习网络的方法700可以为第一元学习网络提供更多数量的输入样本，从而有效地解决了推荐神经网络的样本少的问题；第一元学习网络可以预测推荐神经网络中除了嵌入层之外的层的权重参数的优化路径以及计算当前更优的推荐神经网络中除了嵌入层之外的层的权重参数的更新量，从而加快新的任务神经网络的训练速度；可以训练神经网络的嵌入层和第二元学习网络，由此为具有嵌入层的神经网络预测更高效的权重参数优化路径；在每个推荐神经网络分别是用于向用户推荐购物网站的物品列表的推荐神经网络的情况下，可以为用户更快且准确地推荐要浏览的物品。因此，利用上述经训练的混合元学习网络对神经网络进行训练的装置800可以快速且准确地预测具有嵌入层的神经网络的更高效的权重参数优化路径。

与利用训练混合元学习网络的装置100或训练混合元学习网络的方法700训练得到的混合元学习网络对神经网络进行训练的装置800实施例相对应地，本公开还提供了利用训练混合元学习网络的装置100或训练混合元学习网络的方法700训练得到的混合元学习网络对神经网络进行训练的方法的实施例。

图9是示出利用经训练的混合元学习网络对神经网络进行训练的方法900的流程示例的流程图。

如图9所示，根据本公开实施例的利用经训练的混合元学习网络对神经网络进行训练的方法900包括获得损失步骤S902、计算神经网络梯度步骤S904、梯度学习步骤S906、第一参数更新步骤S908、计算第一相似度步骤S910、计算第二相似度步骤S912、计算相似度损失步骤S914以及第二参数更新步骤S916。

在获得损失步骤S902中，利用训练数据，获得待训练的神经网络的损失。

在计算神经网络梯度步骤S904中，计算损失相对于待训练的神经网络的权重参数的梯度。

优选地，在计算神经网络梯度步骤S904中，计算损失相对于待训练的神经网络的各网络层的权重参数的梯度。

作为示例，待训练的神经网络可以包括多个网络层(例示而非限制，在待训练的神经网络为卷积神经网络的情况下，卷积神经网络可以包括多个卷积层、多个全连接层等等)。学习待训练的神经网络的权重参数就是学习待训练的神经网络中的每个网络层的权重参数。因此，在计算神经网络梯度步骤S904中，要计算损失相对于待训练的神经网络中的每个网络层的权重参数的梯度。

在梯度学习步骤S906中，将梯度分别输入到在满足第一迭代终止条件时获得的经训练的所述至少一个第一元学习网络中的一个第一元学习网络，从而获得待训练的神经网络的权重参数的更新量。

参见对根据本公开实施例的训练混合元学习网络的装置100的描述，根据本公开实施例的第一元学习网络是对梯度进行学习的神经网络。将待训练的神经网络的每个网络层的梯度分别输入到第一元学习网络，第一元学习网络输出该层的权重参数的更新量。优选地，在梯度学习步骤S906中，将待训练的神经网络中的各网络层的梯度分别输入所述至少一个第一元学习网络中的、与该层的类型相对应的一个元学习网络，从而获得该层的权重参数的更新量。

在第一参数更新步骤S908中，基于更新量，更新待训练的神经网络的权重参数。

优选地，在第一参数更新步骤S908中，基于更新量，更新待训练的神经网络中的各网络层的权重参数。

参见对根据本公开实施例的训练混合元学习网络的装置100的描述，第一元学习网络可以预测神经网络中的除了嵌入层之外的层的权重参数的优化路径，但对于神经网络中的嵌入层，第一元学习网络却性能不佳。在根据本公开实施例的训练混合元学习网络的装置100中，结合第二元学习网络来训练待训练的神经网络的嵌入层。下面结合计算第一相似度步骤S910、计算第二相似度步骤S912以及计算相似度损失步骤S914来描述对嵌入层进行训练。

在计算第一相似度步骤S910中，针对待训练的神经网络和用于紧挨在待训练的神经网络对应的推荐任务之前的推荐任务的在前推荐神经网络，将在前推荐神经网络的推荐项词表和待训练的神经网络的推荐项词表的交集作为活跃推荐项集，将从在前推荐神经网络的推荐项词表排除了活跃推荐项集之后获得的集合作为过时推荐项集，将从待训练的神经网络的推荐项词表排除了活跃推荐项集之后获得的集合作为新出现推荐项集，并且分别计算过时推荐项集中的每个推荐项与新出现推荐项集中的每个推荐项相对于活跃推荐项集的共现词频率特征之间的第一相似度。

优选地，在计算第一相似度步骤S910中，针对上述在前推荐神经网络和待训练的神经网络，按预定长度的词窗分别构建过时推荐项集、活跃推荐项集、以及新出现推荐项集的共现词频率矩阵，并且从共现词频率矩阵中分别抽取过时推荐项集中的每个推荐项与新出现推荐项集中的每个推荐项相对于活跃推荐项集的共现词频率特征。其中，共现词频率指的是在不同的集合中共同出现的词的频率，共现词频率矩阵指的是记录共现词频率的矩阵。本领域技术人员可以根据经验确定所述预定长度，例如，可以根据用户的物品浏览记录确定所述预定长度。

在计算第二相似度步骤S912中，迭代地进行获得损失步骤S902、计算神经网络梯度步骤S904、梯度学习步骤S906、第一参数更新步骤S908的处理之后满足第三预定条件时，基于在满足所述第三预定条件时、在前推荐神经网络的活跃推荐项集中的推荐项的词嵌入特征和待训练的神经网络的活跃推荐项集中的对应推荐项的词嵌入特征，通过在满足所述第一迭代终止条件时获得的经训练的第二元学习网络计算过时推荐项集中的每个推荐项与新出现推荐项集中的每个推荐项之间的第二相似度。

优选地，在计算第二相似度步骤S912中，学习在满足第三预定条件时、在前推荐神经网络的活跃推荐项集中的推荐项的词嵌入特征和待训练的神经网络的活跃推荐项集中的对应推荐项的词嵌入特征之间的变换，并利用所学习到的变换将在前推荐神经网络的过时推荐项集中的推荐项的词嵌入特征映射到待训练的神经网络的向量空间，从而得到映射后的推荐项的词嵌入特征，并且，在计算第二相似度步骤S914中，基于所述映射后的推荐项的词嵌入特征和待训练的神经网络的新出现推荐项集中的推荐项的词嵌入特征，计算第二相似度。

在计算相似度损失步骤S914中，计算第一相似度与第二相似度之间的相似度损失，并且使得朝向相似度损失更小的方向训练待训练的神经网络的嵌入层的权重参数，从而得到更新后的待训练的神经网络的嵌入层。

通过计算相似度损失步骤S914可以训练待训练的神经网络的嵌入层，由此为具有嵌入层的神经网络预测更高效的权重参数优化路径。在待训练的神经网络是用于向用户推荐购物网站的物品列表的推荐神经网络的情况下，可以为用户更快且准确地推荐要浏览的物品。

在第二参数更新步骤S916中，基于更新后的待训练的神经网络的嵌入层，迭代地进行获得损失步骤S902、计算神经网络梯度步骤S904、梯度学习步骤S906、第一参数更新步骤S908、计算第二相似度步骤S912、以及相似度损失计算步骤S914中的处理，直到满足第二迭代终止条件为止。

可以基于更新后的待训练的神经网络的嵌入层，再次迭代地更新待训练的神经网络中的除了嵌入层之外的层的权重参数，以及在满足第三预定条件时，通过计算相似度损失步骤S914又更新待训练的神经网络的嵌入层。迭代地重复上述过程，直到满足第二迭代终止条件为止。

在满足第二迭代终止条件时，利用经训练的混合元学习网络对神经网络进行训练的方法900中的对待训练的神经网络的训练结束。

如针对根据本公开实施例的训练混合元学习网络的装置100或训练混合元学习网络的方法700所描述的，根据本公开实施例的训练混合元学习网络的装置100或训练混合元学习网络的方法700可以为第一元学习网络提供更多数量的输入样本，从而有效地解决了推荐神经网络的样本少的问题；第一元学习网络可以预测推荐神经网络中除了嵌入层之外的层的权重参数的优化路径以及计算当前更优的推荐神经网络中除了嵌入层之外的层的权重参数的更新量，从而加快新的任务神经网络的训练速度；可以训练神经网络的嵌入层和第二元学习网络，由此为具有嵌入层的神经网络预测更高效的权重参数优化路径；在每个推荐神经网络分别是用于向用户推荐购物网站的物品列表的推荐神经网络的情况下，可以为用户更快且准确地推荐要浏览的物品。因此，利用上述经训练的混合元学习网络对神经网络进行训练的方法900可以快速且准确地预测具有嵌入层的神经网络的更高效的权重参数优化路径。

应指出，尽管以上描述了根据本公开实施例的训练混合元学习网络的装置和方法、以及利用根据上述训练混合元学习网络的装置或方法而训练得到的混合元学习网络对神经网络进行训练的装置和方法的功能配置以及操作，但是这仅是示例而非限制，并且本领域技术人员可根据本公开的原理对以上实施例进行修改，例如可对各个实施例中的功能模块和操作进行添加、删除或者组合等，并且这样的修改均落入本公开的范围内。

此外，还应指出，这里的方法实施例是与上述装置实施例相对应的，因此在方法实施例中未详细描述的内容可参见装置实施例中相应部分的描述，在此不再重复描述。

此外，本公开还提供了存储介质和程序产品。根据本公开实施例的存储介质和程序产品中的机器可执行的指令可以被配置成执行上述图像处理方法，因此在此未详细描述的内容可参考先前相应部分的描述，在此不再重复进行描述。

相应地，用于承载上述包括机器可执行的指令的程序产品的存储介质也包括在本发明的公开中。该存储介质包括但不限于软盘、光盘、磁光盘、存储卡、存储棒等等。

另外，还应该指出的是，上述系列处理和装置也可以通过软件和/或固件实现。在通过软件和/或固件实现的情况下，从存储介质或网络向具有专用硬件结构的计算机，例如图10所示的通用个人计算机1000安装构成该软件的程序，该计算机在安装有各种程序时，能够执行各种功能等等。

在图10中，中央处理单元(CPU)1001根据只读存储器(ROM)1002中存储的程序或从存储部分1008加载到随机存取存储器(RAM)1003的程序执行各种处理。在RAM 1003中，也根据需要存储当CPU 1001执行各种处理等时所需的数据。

CPU 1001、ROM 1002和RAM 1003经由总线1004彼此连接。输入/输出接口1005也连接到总线1004。

下述部件连接到输入/输出接口1005：输入部分1006，包括键盘、鼠标等；输出部分1007，包括显示器，比如阴极射线管(CRT)、液晶显示器(LCD)等，和扬声器等；存储部分1008，包括硬盘等；和通信部分1009，包括网络接口卡比如LAN卡、调制解调器等。通信部分1009经由网络比如因特网执行通信处理。

根据需要，驱动器1010也连接到输入/输出接口1005。可拆卸介质1011比如磁盘、光盘、磁光盘、半导体存储器等等根据需要被安装在驱动器1010上，使得从中读出的计算机程序根据需要被安装到存储部分1008中。

在通过软件实现上述系列处理的情况下，从网络比如因特网或存储介质比如可拆卸介质1011安装构成软件的程序。

本领域的技术人员应当理解，这种存储介质不局限于图10所示的其中存储有程序、与设备相分离地分发以向用户提供程序的可拆卸介质1011。可拆卸介质1011的例子包含磁盘(包含软盘(注册商标))、光盘(包含光盘只读存储器(CD-ROM)和数字通用盘(DVD))、磁光盘(包含迷你盘(MD)(注册商标))和半导体存储器。或者，存储介质可以是ROM 1002、存储部分1008中包含的硬盘等等，其中存有程序，并且与包含它们的设备一起被分发给用户。

以上参照附图描述了本公开的优选实施例，但是本公开当然不限于以上示例。本领域技术人员可在所附权利要求的范围内得到各种变更和修改，并且应理解这些变更和修改自然将落入本公开的技术范围内。

例如，在以上实施例中包括在一个单元中的多个功能可以由分开的装置来实现。替选地，在以上实施例中由多个单元实现的多个功能可分别由分开的装置来实现。另外，以上功能之一可由多个单元来实现。无需说，这样的配置包括在本公开的技术范围内。

在该说明书中，流程图中所描述的步骤不仅包括以所述顺序按时间序列执行的处理，而且包括并行地或单独地而不是必须按时间序列执行的处理。此外，甚至在按时间序列处理的步骤中，无需说，也可以适当地改变该顺序。

另外，根据本公开的技术还可以如下进行配置。

附记1.一种训练混合元学习网络的装置，包括：

计算泛化损失单元，被配置成利用训练数据，分别获得用于按时间排序的不同推荐任务的多个推荐神经网络中的每个推荐神经网络的损失，并基于每个推荐神经网络的损失来计算反映所述多个推荐神经网络的总体损失的泛化损失，其中，所述不同推荐任务具有相似性，每个推荐神经网络具有其输入为不存在关联的离散值的嵌入层，并且所述多个推荐神经网络的结构互不相同；

计算梯度单元，被配置成计算所述泛化损失相对于每个推荐神经网络的权重参数的梯度；

学习单元，被配置成将所述梯度分别输入到至少一个第一元学习网络中的一个第一元学习网络，从而分别获得每个推荐神经网络的权重参数的更新量，其中，所述第一元学习网络是对梯度进行学习的神经网络；

第一更新单元，被配置成基于所述更新量，更新每个推荐神经网络的权重参数；

第二更新单元，被配置成在迭代地进行所述计算泛化损失单元、所述计算梯度单元、所述学习单元以及所述第一更新单元中的处理之后满足第一预定条件时，基于在满足所述第一预定条件时的所述泛化损失，使得朝向所述多个推荐神经网络的损失更小的方向训练所述至少一个第一元学习网络，从而获得更新后的所述至少一个第一元学习网络；

第一相似度计算单元，被配置成针对所述多个推荐神经网络中的、包括第一推荐神经网络和用于紧接在所述第一推荐神经网络对应的推荐任务之后的推荐任务的第二推荐神经网络的每两个推荐神经网络，将所述第一推荐神经网络的推荐项词表和所述第二推荐神经网络的推荐项词表的交集作为活跃推荐项集，将从所述第一推荐神经网络的推荐项词表排除了所述活跃推荐项集之后获得的集合作为过时推荐项集，将从所述第二推荐神经网络的推荐项词表排除了所述活跃推荐项集之后获得的集合作为新出现推荐项集，并且分别计算所述过时推荐项集中的每个推荐项与所述新出现推荐项集中的每个推荐项相对于所述活跃推荐项集的共现词频率特征之间的第一相似度；

第二相似度计算单元，被配置成迭代地进行所述计算泛化损失单元、所述计算梯度单元、所述学习单元、所述第一更新单元、以及所述第二更新单元中的处理之后满足第二预定条件时，基于在满足所述第二预定条件时、所述每两个推荐神经网络中的所述第一推荐神经网络的所述活跃推荐项集中的推荐项的词嵌入特征和所述第二推荐神经网络的所述活跃推荐项集中的对应推荐项的词嵌入特征，通过第二元学习网络计算所述过时推荐项集中的每个推荐项与所述新出现推荐项集中的每个推荐项之间的第二相似度，其中，所述第二元学习网络是对所述第二相似度进行学习的神经网络；

相似度损失计算单元，被配置成针对所述每两个推荐神经网络计算所述第一相似度与所述第二相似度之间的相似度损失，并且使得朝向所述相似度损失更小的方向训练所述每两个推荐神经网络中的第二推荐神经网络的嵌入层的权重参数和所述第二元学习网络的权重参数，从而得到更新后的所述每两个推荐神经网络中的第二推荐神经网络的嵌入层和所述第二元学习网络；以及

第三更新单元，被配置成基于更新后的所述多个推荐神经网络的嵌入层和所述第二元学习网络，迭代地进行所述计算泛化损失单元、所述计算梯度单元、所述学习单元、所述第一更新单元、所述第二更新单元、所述第二相似度计算单元、所述计算相似度损失计算单元中的处理，直到满足第一迭代终止条件为止，

其中，所述混合元学习网络包括所述至少一个第一元学习网络和所述第二元学习网络。

附记2.根据附记1所述的装置，其中，所述多个推荐神经网络中的每个均是用于向用户推荐购物网站的物品列表的推荐神经网络。

附记3.根据附记1所述的装置，

其中，所述第二相似度计算单元被配置成学习在满足所述第二预定条件时、所述每两个推荐神经网络中的所述第一推荐神经网络的所述活跃推荐项集中的推荐项的词嵌入特征和所述第二推荐神经网络的所述活跃推荐项集中的对应推荐项的词嵌入特征之间的变换，并利用所学习到的变换将所述第一推荐神经网络的所述过时推荐项集中的推荐项的词嵌入特征映射到所述第二推荐神经网络的向量空间，从而得到映射后的推荐项的词嵌入特征，并且，所述第二相似度计算单元被配置成基于所述映射后的推荐项的词嵌入特征和所述第二推荐神经网络的所述新出现推荐项集中的推荐项的词嵌入特征，计算所述第二相似度。

附记4.根据附记3所述的装置，

其中，所述第二相似度计算单元被配置成基于所述映射后的推荐项的词嵌入特征的归一化值和所述第二推荐神经网络的所述新出现推荐项集中的推荐项的词嵌入特征的归一化值，计算所述第二相似度。

附记5.根据附记1所述的装置，

其中，所述第一相似度计算单元被配置成针对所述第一推荐神经网络和所述第二推荐神经网络，按预定长度的词窗构建共现词频率矩阵，并且从所述共现词频率矩阵中分别抽取所述共现词频率特征。

附记6.根据附记1所述的装置，

其中，所述计算泛化损失单元进一步被配置成对所述多个推荐神经网络的损失进行平均，并且将平均后的损失作为所述泛化损失。

附记7.根据附记1所述的装置，

其中，所述计算梯度单元被配置成计算所述泛化损失相对于每个推荐神经网络中的各网络层的权重参数的梯度。

附记8.根据附记7所述的装置，

其中，所述学习单元被配置成基于每个推荐神经网络的网络层的权重参数的上一次更新的状态，输出该层的权重参数的更新量。

附记9.根据附记1所述的装置，

其中，所述第一更新单元被配置成基于所述更新量，更新每个推荐神经网络中的各网络层的权重参数。

附记10.根据附记1所述的装置，

其中，所述至少一个第一元学习网络的数量与所述多个推荐神经网络中的网络层的类型的数量相同，并且，将每个推荐神经网络的各网络层的梯度输入到与该层的类型相对应的一个第一元学习网络。

附记11.一种训练混合元学习网络的方法，包括：

计算泛化损失步骤，利用训练数据，分别获得用于按时间排序的不同推荐任务的多个推荐神经网络中的每个推荐神经网络的损失，并基于每个推荐神经网络的损失来计算反映所述多个推荐神经网络的总体损失的泛化损失，其中，所述不同推荐任务具有相似性，每个推荐神经网络具有其输入为不存在关联的离散值的嵌入层，并且所述多个推荐神经网络的结构互不相同；

计算梯度步骤，计算所述泛化损失相对于每个推荐神经网络的权重参数的梯度；

学习步骤，将所述梯度分别输入到至少一个第一元学习网络中的一个第一元学习网络，从而分别获得每个推荐神经网络的权重参数的更新量，其中，所述第一元学习网络是对梯度进行学习的神经网络；

第一更新步骤，基于所述更新量，更新每个推荐神经网络的权重参数；

第二更新步骤，在迭代地进行所述计算泛化损失步骤、所述计算梯度步骤、所述学习步骤以及所述第一更新步骤中的处理之后满足第一预定条件时，基于在满足所述第一预定条件时的所述泛化损失，使得朝向所述多个推荐神经网络的损失更小的方向训练所述至少一个第一元学习网络，从而获得更新后的所述至少一个第一元学习网络；

第一相似度计算步骤，针对所述多个推荐神经网络中的、包括第一推荐神经网络和用于紧接在所述第一推荐神经网络对应的推荐任务之后的推荐任务的第二推荐神经网络的每两个推荐神经网络，将所述第一推荐神经网络的推荐项词表和所述第二推荐神经网络的推荐项词表的交集作为活跃推荐项集，将从所述第一推荐神经网络的推荐项词表排除了所述活跃推荐项集之后获得的集合作为过时推荐项集，将从所述第二推荐神经网络的推荐项词表排除了所述活跃推荐项集之后获得的集合作为新出现推荐项集，并且分别计算所述过时推荐项集中的每个推荐项与所述新出现推荐项集中的每个推荐项相对于所述活跃推荐项集的共现词频率特征之间的

第一相似度；

第二相似度计算步骤，迭代地进行所述计算泛化损失步骤、所述计算梯度步骤、所述学习步骤、所述第一更新步骤、以及所述第二更新步骤中的处理之后满足第二预定条件时，基于在满足所述第二预定条件时、所述每两个推荐神经网络中的所述第一推荐神经网络的所述活跃推荐项集中的推荐项的词嵌入特征和所述第二推荐神经网络的所述活跃推荐项集中的对应推荐项的词嵌入特征，通过第二元学习网络计算所述过时推荐项集中的每个推荐项与所述新出现推荐项集中的每个推荐项之间的第二相似度，其中，所述第二元学习网络是对所述第二相似度进行学习的神经网络；

相似度损失计算步骤，针对所述每两个推荐神经网络计算所述第一相似度与所述第二相似度之间的相似度损失，并且使得朝向所述相似度损失更小的方向训练所述每两个推荐神经网络中的第二推荐神经网络的嵌入层的权重参数和所述第二元学习网络的权重参数，从而得到更新后的所述每两个推荐神经网络中的第二推荐神经网络的嵌入层和所述第二元学习网络；以及

第三更新步骤，基于更新后的所述多个推荐神经网络的嵌入层和所述第二元学习网络，迭代地进行所述计算泛化损失步骤、所述计算梯度步骤、所述学习步骤、所述第一更新步骤、所述第二更新步骤、所述第二相似度计算步骤、所述计算相似度损失步骤中的处理，直到满足第一迭代终止条件为止，

附记12.根据附加11所述的方法，其中，所述多个推荐神经网络中的每个均是用于向用户推荐购物网站的物品列表的推荐神经网络。

附记13.根据附记11所述的方法，

其中，在所述第二相似度计算步骤中，学习在满足所述第二预定条件时、所述每两个推荐神经网络中的所述第一推荐神经网络的所述活跃推荐项集中的推荐项的词嵌入特征和所述第二推荐神经网络的所述活跃推荐项集中的对应推荐项的词嵌入特征之间的变换，并利用所学习到的变换将所述第一推荐神经网络的所述过时推荐项集中的推荐项的词嵌入特征映射到所述第二推荐神经网络的向量空间，从而得到映射后的推荐项的词嵌入特征，并且，所述第二相似度计算单元被配置成基于所述映射后的推荐项的词嵌入特征和所述第二推荐神经网络的所述新出现推荐项集中的推荐项的词嵌入特征，计算所述第二相似度。

附记14.根据附记13所述的方法，

其中，在所述第二相似度计算步骤中，基于所述映射后的推荐项的词嵌入特征的归一化值和所述第二推荐神经网络的所述新出现推荐项集中的推荐项的词嵌入特征的归一化值，计算所述第二相似度。

附记15.根据附记11所述的方法，

其中，在所述第一相似度计算步骤中，针对所述第一推荐神经网络和所述第二推荐神经网络，按预定长度的词窗构建共现词频率矩阵，并且从所述共现词频率矩阵中分别抽取所述共现词频率特征。

附记16.根据附记11所述的方法，

其中，在所述计算泛化损失步骤中，对所述多个推荐神经网络的损失进行平均，并且将平均后的损失作为所述泛化损失。

附记17.根据附记11所述的方法，

其中，在所述计算梯度单元步骤中，计算所述泛化损失相对于每个推荐神经网络中的各网络层的权重参数的梯度。

附记18.根据附记17所述的方法，

其中，在所述学习步骤中，基于每个推荐神经网络的网络层的权重参数的上一次更新的状态，输出该层的权重参数的更新量。

附记19.根据附记11所述的装置，

其中，在所述第一更新步骤中，基于所述更新量，更新每个推荐神经网络中的各网络层的权重参数。

附记20.一种利用根据附记1至10中任一项所述的训练混合元学习网络的装置而训练得到的混合元学习网络对神经网络进行训练的装置，包括：

获得损失单元，被配置成利用训练数据，获得待训练的神经网络的损失；

计算神经网络梯度单元，被配置成计算所述损失相对于所述待训练的神经网络的权重参数的梯度；

梯度学习单元，被配置成将所述梯度分别输入到在满足所述第一迭代终止条件时获得的经训练的所述至少一个第一元学习网络中的一个第一元学习网络，从而获得所述待训练的神经网络的权重参数的更新量；

第一参数更新单元，被配置成基于所述更新量，更新所述待训练的神经网络的权重参数，

计算第一相似度单元，被配置成针对所述待训练的神经网络和用于紧挨在所述待训练的神经网络对应的推荐任务之前的推荐任务的在前推荐神经网络，将所述在前推荐神经网络的推荐项词表和所述待训练的神经网络的推荐项词表的交集作为活跃推荐项集，将从所述在前推荐神经网络的推荐项词表排除了所述活跃推荐项集之后获得的集合作为过时推荐项集，将从所述待训练的神经网络的推荐项词表排除了所述活跃推荐项集之后获得的集合作为新出现推荐项集，并且分别计算所述过时推荐项集中的每个推荐项与所述新出现推荐项集中的每个推荐项相对于所述活跃推荐项集的共现词频率特征之间的第一相似度；

计算第二相似度单元，被配置成迭代地进行所述获得损失单元、所述计算神经网络梯度单元、所述梯度学习单元、所述第一参数更新单元的处理之后满足第三预定条件时，基于在满足所述第三预定条件时、所述在前推荐神经网络的所述活跃推荐项集中的推荐项的词嵌入特征和所述待训练的神经网络的所述活跃推荐项集中的对应推荐项的词嵌入特征，通过在满足所述第一迭代终止条件时获得的经训练的所述第二元学习网络计算所述过时推荐项集中的每个推荐项与所述新出现推荐项集中的每个推荐项之间的第二相似度；

计算相似度损失单元，被配置成计算所述第一相似度与所述第二相似度之间的相似度损失，并且使得朝向所述相似度损失更小的方向训练所述待训练的神经网络的嵌入层的权重参数，从而得到更新后的待训练的神经网络的嵌入层；以及

第二参数更新单元，被配置成基于更新后的所述待训练的神经网络的嵌入层，迭代地进行所述获得损失单元、所述计算神经网络梯度单元、所述梯度学习单元、所述第一参数更新单元、所述计算第二相似度单元、以及所述相似度损失计算单元中的处理，直到满足第二迭代终止条件为止。

Claims

1.一种训练混合元学习网络的装置，包括：

2.根据权利要求1所述的装置，其中，所述多个推荐神经网络中的每个均是用于向用户推荐购物网站的物品列表的推荐神经网络。

3.根据权利要求1所述的装置，

4.根据权利要求3所述的装置，

5.根据权利要求1所述的装置，

6.根据权利要求1所述的装置，

7.根据权利要求1所述的装置，

8.根据权利要求1所述的装置，

9.一种训练混合元学习网络的方法，包括：

第一相似度计算步骤，针对所述多个推荐神经网络中的、包括第一推荐神经网络和用于紧接在所述第一推荐神经网络对应的推荐任务之后的推荐任务的第二推荐神经网络的每两个推荐神经网络，将所述第一推荐神经网络的推荐项词表和所述第二推荐神经网络的推荐项词表的交集作为活跃推荐项集，将从所述第一推荐神经网络的推荐项词表排除了所述活跃推荐项集之后获得的集合作为过时推荐项集，将从所述第二推荐神经网络的推荐项词表排除了所述活跃推荐项集之后获得的集合作为新出现推荐项集，并且分别计算所述过时推荐项集中的每个推荐项与所述新出现推荐项集中的每个推荐项相对于所述活跃推荐项集的共现词频率特征之间的第一相似度；

10.一种利用根据权利要求1至8中任一项所述的训练混合元学习网络的装置而训练得到的混合元学习网络对神经网络进行训练的装置，包括：