CN114190102A

CN114190102A - 具有多门专家混合软演员评论家的视频推荐

Info

Publication number: CN114190102A
Application number: CN202080005171.7A
Authority: CN
Inventors: 李定成; 李旭; 王君; 李平
Original assignee: Baidu com Times Technology Beijing Co Ltd; Baidu USA LLC
Current assignee: Baidu com Times Technology Beijing Co Ltd; Baidu USA LLC
Priority date: 2020-07-15
Filing date: 2020-07-15
Publication date: 2022-03-15
Also published as: US20220019878A1; WO2022011603A1; US11922287B2

Abstract

本文中描述了基于强化学***台上的短视频推荐。用户反馈中的多重竞争排序目标和隐式选择偏差是现实世界平台中的主要挑战。为了解决这些挑战，将多门专家混合(MMoE)和软演员评论家(SAC)一起集成为MMoE_SAC***。实验结果表明，与仅基于单个策略的***相比，MMoE_SAC***的实施方式可大大降低损失函数。

Description

具有多门专家混合软演员评论家的视频推荐

技术领域

本公开总体上涉及用于计算机学习的***和方法，其可以提供改进的计算机性能、特征和使用。更具体地，本公开涉及用于视频推荐的计算机学习的***和方法。

背景技术

深度神经网络在诸如计算机视觉、自然语言处理，推荐***等领域取得了巨大的成功。

随着短视频应用的兴起，已构建各种短视频推荐***以增加用户的参与。通常，常规推荐***涉及具有候选项生成和排序的两阶段设计。在这两个阶段中，良好的排序策略与用户行为直接相关，因此在保持用户观看视频方面起到了必要的作用。排序策略首先试图吸引用户点击短视频，然后在完成观看之后，其次吸引用户点击推荐给他们的视频。在该阶段中，推荐器具有经由候选项生成检索的多个候选项，并且将大容量模型应用到排序。最后，它推荐用户选择最上面的一个或几个视频。在推荐***中存在两个主要挑战。首先，待优化的目标通常是不同的，甚至可能是冲突的，因为用户的偏好不同。其次，***往往具有隐含的选择偏差。例如，用户可能已经点击并观看了视频，这仅仅是因为它排序在前而不是他真正喜欢它。如何有效和高效地解决这些问题是成功的推荐***的关键。

因此，所需要的是用于视频推荐的计算机学习的***和方法。

发明内容

本公开的实施方式提供了一种用于多目标排序的计算机实施的方法、一种用于多目标排序的***以及一种非暂时性计算机可读介质或媒质。

根据第一方面，本公开的一些实施方式提供了一种用于多目标排序的计算机实施的方法，该方法包括：在包括多个专家和门控网络的多门专家混合(MMoE)层处，接收与一个或多个状态和一个或多个动作相对应的隐藏嵌入；由使用软演员评论家(SAC)的多个专家中的每个，基于隐藏嵌入生成预测，每个预测均包括分别对应于一个或多个动作的一个或多个预测参数；根据由门控网络为每个专家生成的权重，获取多个专家预测的加权和；以及基于加权和，从MMoE层生成MMoE布局输出。

根据第二方面，本公开的一些实施方式提供了一种用于多目标排序的***，该***包括：一个或多个处理器；以及非暂时性计算机可读介质或媒质，其包括一组或多组指令，所述一组或多组指令在由一个或多个处理器中的至少一个执行时使得执行以下步骤，所述步骤包括：将来自一个或多个数据源的特征转换为隐藏嵌入；在包括多个专家和门控网络的多门专家混合(MMoE)层处接收隐藏嵌入；由使用软演员评论家(SAC)的多个专家中的每个，基于输入生成预测，每个预测均包括分别对应于一个或多个动作的一个或多个预测参数；根据由门控网络为每个专家生成的权重，获取多个专家预测的加权和；以及基于加权和，从MMoE层生成MMoE布局输出。

根据第三方面，本公开的一些实施方式提供了一种包括一个或多个指令序列的非暂时性计算机可读介质或媒质，所述指令序列在由至少一个处理器执行时引起用于多目标排序的步骤，所述步骤包括：将来自一个或多个数据源的特征转换为隐藏嵌入；在包括多个专家和门控网络的多门专家混合(MMoE)层处接收隐藏嵌入；由使用软演员评论家(SAC)的多个专家中的每个，基于输入生成预测，每个预测均包括分别对应于一个或多个动作的一个或多个预测参数；根据由门控网络为每个专家生成的权重，获取多个专家预测的加权和；以及基于加权和，从MMoE层生成MMoE布局输出。

附图说明

将参考本公开的实施方式，其示例可在附图中示出。这些附图是说明性的，而非限制性的。尽管在这些实施方式的上下文中一般性地描述了本公开，但是应当理解，其并不旨在将本公开的范围限制于这些特定实施方式。图中的项目可能不是按比例绘制的。

图1描述根据本公开的实施方式的基于软演员评论家的框架，其中软演员评论家具有由多门专家混合学习的多个动作。

图2描述根据本公开的实施方式的用于实现多门专家混合(MMoE)网络的过程。

图3描述根据本公开的实施方式的用于生成特征嵌入的过程。

图4描述根据本公开的实施方式的用于动作预测的软演员评论家(SAC)过程。

图5图示根据本公开的实施方式的基于深度Q学习、SAC和MMoE_SAC的推荐***的损失。

图6描述根据本公开的实施方式的计算设备/信息处理***的简化框图。

具体实施方式

在以下描述中，出于解释目的，阐明具体细节以便提供对本公开的理解。然而，将对本领域的技术人员显而易见的是，可在没有这些细节的情况下实践本公开。此外，本领域的技术人员将认识到，下文描述的本公开的实施方式可以以各种方式(例如过程、装置、***、设备或方法)在有形的计算机可读介质上实施。

附图中示出的组件或模块是本公开实施方式的示例性说明，并且意图避免使本公开不清楚。还应理解，在本论述的全文中，组件可描述为单独的功能单元(可包括子单元)，但是本领域的技术人员将认识到，各种组件或其部分可划分成单独组件，或者可整合在一起(包括例如集成在单个的***或组件内)。应注意，本文论述的功能或操作可实施为组件。组件可以以软件、硬件、或它们的组合实施。

此外，附图内的组件或***之间的连接并不旨在限于直接连接。相反，在这些组件之间的数据可由中间组件修改、重格式化、或以其它方式改变。另外，可使用另外或更少的连接。还应注意，术语“联接”、“连接”、“通信地联接”、“接合”、“接口”或其派生词中的任一个，应理解为包括直接连接、通过一个或多个中间设备来进行的间接连接、和无线连接。还应注意，任何通信(诸如信号、响应、答复、确认、消息、查询等)可包括一个或多个信息交换。

在本说明书中对“一个或多个实施方式”、“优选实施方式”、“实施方式”、“多个实施方式”等的提及表示结合实施方式所描述的具体特征、结构、特性或功能包括在本公开的至少一个实施方式中，以及可包括在多于一个的实施方式中。另外，在本说明书的各个地方出现以上所提到的短语并不一定全都是指相同的实施方式或多个相同实施方式。

在本说明书的各个地方使用某些术语目的在于说明，并且不应被理解为限制。服务、功能或资源并不限于单个服务、单个功能或单个资源；这些术语的使用可指代相关服务、功能或资源的可分布或聚合的分组。术语“包括”、“包括有”、“包含”和“包含有”应理解为开放性的术语，并且其后任何列出内容都是实例，而不旨在限于所列项目。“层”可包括一个或多个操作。词“最佳”、“优化”、“最优化”等是指对结果或过程的改进，并非要求指定的结果或过程已达到“最佳”或峰值状态。存储器、数据库、信息库、数据存储、表、硬件、高速缓存等在本文中的使用，可用来指代可输入信息或以其它方式记录信息的一个或多个***组件。

在一个或多个实施方式中，停止条件可包括：(1)已执行了设定次数的迭代；(2)已达到一定量的处理时间；(3)收敛(例如，连续迭代之间的差小于第一阈值)；(4)发散(例如，性能劣化)；(5)已达到可接受的结果。

本领域的技术人员应认识到：(1)某些步骤可以可选地执行；(2)步骤可不限于本文中所阐述的特定次序；(3)某些步骤可以以不同次序执行；以及(4)某些步骤可同时地进行。

本文所使用的任何标题仅是为了组织目的，并且不应被用于限制说明书或权利要求的范围。本专利文献中提到的每个参考文献/文件以其整体通过引用并入本文。

应注意，本文提供的任何实验和结果均以说明性的方式提供，并且是在特定条件下使用特定实施方式进行的；因此，这些实验及其结果均不得用于限制当前专利文件的公开范围。

还应注意，尽管本文中描述的实施方式可在视频推荐的上下文内，但本公开的方面不限于此。因此，本公开的各方面可应用于或适于在其它环境中使用，包括但不限于音频推荐、多媒体推荐等。

A.一般介绍

随着短视频应用的兴起，已构建各种短视频推荐***以增加用户的参与。通常，常规推荐***涉及具有候选项生成和排序的两阶段设计。在这两个阶段中，良好的排序策略与用户行为直接相关，因此在保持用户观看视频方面起到了必要的作用。排序策略首先试图吸引用户点击短视频，然后在完成观看之后，吸引用户继续点击推荐给他们的视频。在排序阶段中，推荐器具有经由候选项生成检索的多个候选项，并且将大容量模型应用到排序。最后，它推荐用户选择最上面的一个或几个视频。在推荐***中存在两个主要挑战。首先，待优化的目标通常是不同的，甚至可能是冲突的，因为用户的偏好不同。其次，***往往具有隐含的选择偏差。例如，用户可能已经点击并观看了视频，这仅仅是因为它排序在前而不是他真正喜欢它。如何有效和高效地解决这些问题是成功的推荐***的关键。实质上，可用多任务学习来对多个排序目标建模。一些人探索了多种软参数共享技术，包括多门专家混合(MMoE)来优化排序目标。首先将多个目标分组为两类：参与目标和满意目标。然后使用MMoE自动学习参数以共享潜在冲突的目标。此外，添加浅塔以减少选择偏差。这种架构将训练数据中的标签分解为无偏用户效用和估计的倾向得分。实验证明，该框架对整个推荐***带来了改进。

尽管如此，这种方法关注于估计即时用户参与，而没有考虑推荐对用户行为的长期影响。强化学习(RL)方法为长期用户参与提供了优化建议的潜力。用户点击和观看行为被参数化为奖励，以及推荐被参数化为动作。然而，但是，由于经常向用户呈现多个项目的板块(可能对用户的选择具有交互影响)，因此需要方法来应对RL动作空间的组合。为了解决使用RL优化长期值的挑战，一些人提出了基于板块的深度Q-学习。

然而，Q-学习在处理大规模连续域方面具有其局限性。因此，扩展了深度确定性策略梯度(DDPG)，以弥补深度Q-学习的不足。通过添加参数化的策略梯度，DDPG将深度Q-学习扩展到演员(策略网络)和评论家(值网络)的复合网络。与深度Q-学习相比，它带来了改进。然而，DDPG学习确定性的政策，这限制了DDPG的探索。

相比之下，作为离线策略最大熵演员-评论家算法的软演员评论家(SAC)提供了样本有效的学习和稳定性。更显著的是，它扩展到非常复杂的高维任务，诸如具有21个动作维度的Humannoid基准。与使预期的奖励和最大化的通常的RL框架不同，SAC通过在由策略引起的轨迹分布的状态边界上添加策略的预期熵来引入更一般的最大熵目标。该设计激发了策略更广泛地探索和捕获多种接近最佳行为的模式。

尽管SAC在建模复杂的高维任务方面已经做得很好，但是在某些任务中，多个竞争的排序目标和隐含的选择偏差仍然构成大的挑战。在当MMoE和SAC被嵌入在合理的架构中时MMoE可大大增加SAC能够处理的限制的推测中，本公开提出了用于基于具有利用多门专家混合学习的多个动作的SAC(简称为MMoE_SAC)的用户推荐(例如，视频推荐)框架的实施方式。在一个或多个实验中，发现可形成更有效的学习曲线，同时性能也保持改善。

B.多门专家混合软演员评论家的实施方式

图1描述了根据本公开的一个或多个实施方式的用于用户推荐的MMoE_SAC框架。MMoE_SAC框架的一个或多个实施方式可应用于视频推荐。

如图1中所示，MMoE_SAC框架形成从状态t₁到状态t_n的链。每个状态110可包括深度神经网络，其中间是输入层112与输出层116之间的MMoE层114。在一个或多个实施方式中，MMoE层114包括多个专家126和门控网络124。专家和门控网络通过k个门彼此交互并最终产生MMoE层输出y，y表示为一个或多个动作学习的一个或多个权重。在一个或多个实施方式中，一个或多个动作包括点击率(ctr)、播放长度(p1)，连续ctr(cctr)、连续播放长度(cpl)，如图1的示例所示。在一个或多个实施方式中，多个专家本身中的每个均为使用SAC方法的神经网络。在一个或多个实施方式中，输入层112或输出层116可以是递归神经网络(RNN)层、卷积神经网络(CNN)层或长期记忆(LSTM)层。

1.MMoE网络的实施方式

在一个或多个实施方式中，MMoE网络的实现遵循具有RELU激活的多层感知。图2描述了根据本公开的一个或多个实施方式的用于MMoE实现的过程。

对于给定状态(例如，如图1中所示的在时间步骤t₁处的状态)，MMoE层从输入层112接收(205)输入。在一个或多个实施方式中，输入包括一个或多个特征嵌入。t₁

给定M个任务和K个专家，每个专家126均生成(210)预测

给定来自每个专家的预测128，根据由门控网络为每个专家生成的权重

获得(215)K个专家的预测的加权和125

使用最后的隐藏层

127，可使用以下等式基于加权和生成(220)MMoE层输出yⁱ。

yⁱ＝hⁱ(fⁱ(x)) (1)

其中i是动作数量，k是专家数量，以及x∈R^d是低级共享隐藏嵌入。在一个或多个实施方式中，x可以是分配给K个专家进行训练的随机抽样嵌入。在一个或多个实施方式中，x可包括状态嵌入和动作嵌入。

图3描述了根据本公开的实施方式的用于生成特征嵌入的过程。在一个或多个实施方式中，某些特征可涉及不同的数据源，诸如用户简档、视频ID和日志数据。首先将输入特征划分(305)为分类特征和数字特征。然后，限定通用动态特征嵌入词典，以将分类特征和数字特征映射或投影(310)到统一嵌入空间中。在一个或多个实施方式中，在映射或投影输入特征期间，对分类特征的每个嵌入查找首先使用单热或多热矢量e_i(例如，第i个位置是1，而其它位置是1，其中，i对应于第i个类别)。其次，利用

W获得嵌入的行向量，其中，W是变换权重矩阵

这样，分类特征可从稀疏特征变换为密集特征。

在一个或多个实施方式中，门控网络输出专家k的g^k，其中

是第k个条目，并且

是第k个专家对任务i的预测。在一个或多个实施方式中，门控网络应用具有softmax层的输入的线性变换：

其中，

是线性变换的权重，a是来自专家的预测的动作

在一个或多个实施方式中，权重

可在训练过程期间训练。在图1中所示的实施方式中，来自专家的输出包括一个或多个预测参数，例如，分别用于动作ctr、cctr、pl和cpl的ctr_param、cctr_param、pl_param、和cpl_param。

2.用于动作预测的SAC的实施方式

在一个或多个实施方式中，由每个专家部署的用于预测的函数fⁱ(x)使用SAC方法。在一个或多个实施方式中，每个专家均为结合SAC算法的深度神经网络(DNN)，如图1中的框126所示。

如框126中所示，对于某一状态的一个专家，它们是DNN的输入、隐藏层和输出。在一个或多个实施方式中，到DNN的输入可包括对应于状态s_t和动作a_t的嵌入。将对应于状态的特征用作每个专家的输入，而对应于动作的嵌入可用于进行训练的标签。在一个或多个实施方式中，标签的动作值用于计算训练期间的损失。

图4描述了根据本公开的实施方式的用于动作预测的SAC过程。在一个或多个实施方式中，将每个动作(例如，四个动作ctr、cctr、pl和cpl中的每个)视为(405)专家的任务。在一个或多个实施方式中，在对专家进行训练期间，尽管四个动作彼此相关，但是对于每个动作的损失计算是独立进行的。特征嵌入可在动作之间共享以控制动作之间的交互。

本框架中的一个要点是预测动作。在一个或多个实施方式中，动作包括多个类别中的动作，诸如对应于上述四个权重的ctr、cctr、p1和cpl。这些类别形成离散和连续动作空间的混合。在一个或多个实施方式中，将连续值分配给所有动作，因为SAC在连续域中工作得更好。

在一个或多个实施方式中，将熵正则化项以α的权重添加(410)到用于每个动作的策略函数的奖励项上，从而在每个时间步骤上获得动作估计的熵奖金奖励，如下所示。

其中，奖励项r(s_t，a_t，s_t+1)＝p_π(a_t，s_t)Q^π(s_t，a_t)，p_π是概率函数，Q^π是具有s_t和a_t的输入的软Q-函数。

是添加到策略函数不*的熵正则化项。在一个或多个实施方式中，概率函数用于使分类状态(或非连续状态)***。熵项包括值函数V(s_t+1)，用于计算下一时间步骤中的动作值。

在一个或多个实施方式中，为了学习具有收敛保证的最佳最大熵策略，导出(415)软策略迭代以交替地重复软策略评估和软策略改进。在一个或多个实施方式中，更新用于下一时间步骤(t+1)的值函数(3)，以包括来自当前时间步骤(t)的熵奖金奖励：

同样，在一个或多个实施方式中，Q^π可更新为：

在一个或多个实施方式中，这两个方程可连接以形成如以下的Bellman方程。

其中，P是输入特征x的密度函数。

因此，可通过最小化软Bellman残差来训练或学习(420)软Q-函数参数：

其中，Q_θ是由θ参数化的软Q-函数Q。

在一个或多个实施方式中，策略函数参数可通过使策略函数π_t+1(·|s_t)与通过将软Q-函数的指数与分配函数相除而获得的商

之间的以下预期Kullback-Leibler(KL)散度最小化来学习(425)：

其中，Φ(Q(s_t，·))＝∑π_t+1(·|s_t)exp(Q(s_t，·))表示分配函数。在一个或多个实施方式中，软演员网络可分化为确定性策略梯度(DPG)。

在一个或多个实施方式中，为了减轻策略改进步骤中的正偏差，在软策略迭代期间，使用多个软Q-函数，例如双延迟DDPG(TD3)中的限幅Double-Q技巧，并且对于每个策略改进步骤采用多个Q-函数的最小Q-值。

在本公开的一个或多个实施方式中，随着策略更新规则的一个或多个改变，SAC可进行升级以处理离散动作空间或离散和连续动作空间的混合。

C.实验结果

本部分描述了如何进行MMoE_SAC排序***的实验。在一个或多个实验设置中，将由短视频共享平台提供的隐式反馈用于训练排序模型实施方式并进行离线和实况实验。如前所述，该平台为用户提供了多种方式来与推荐的视频交互。将日志数据、ctr、cctr、pl和cpl用作标记，而将点赞或放弃、用户简档和视频内容用作特征。

应注意的是，这些实验和结果是通过举例说明的方式提供的，并且是使用一个或多个特定实施方案在特定条件下进行的；因此，这些实验和它们的结果都不应该用于限制本专利文件的公开范围。

1.评估度量

在一个或多个实验中，采用四个评价度量。第一评估度量简单地为从所选动作的状态值估计的Q-值与从不同特征嵌入计算的目标状态值之间的损失。

其中，

实际上是等式(6)，第二项

是等式(7)的第二项和第三项。

从在线视频观看日志收集一个或多个实验数据集。日志包括点击率(ctr)、播放长度(p1)、连续ctr(cctr)、连续播放长度(cpl)。此外，日志数据是按天组织的，并且使用7天的滑动窗口大小。将从上一天训练的模型用于预测当日的行动。然后，将损失限定为当日的实际动作与预测动作之间的差。

第二评估度量被称为直接方法(DM)，其目的是从给定数据估计奖励函数，并使用该估计代替实际奖励来评估一组上下文上的策略值。其估计如下：

其中，

和|D|是数据集大小。这种评估的问题是

可能有偏差。

称为逆倾向得分(IPS)的第三评估度量使用重要性权重来评估历史数据中正确与不正确的比例。

它不易有偏差。然而，它具有较大方差的问题。

在一个或多个实施方式中，考虑到这两种方法的缺点，包括被称为双重鲁棒(DR)估计的第四估计度量，以获得更全面的评估。

2.损失和动作预测的实施方式

图5分别列出了基于深度Q-学习(称为“deepQ”)(505)、SAC(510)和MMoE_SAC(515)的推荐***的损失。用等式9计算所有损失，即，从所选动作的状态值估计的Q-值与目标状态值之间的预期损失。显而易见的是，与深度-Q学习相比，SAC和MMoE_SAC具有更高的下降趋势，此外两者也具有更低的起始损失值。在约5000次迭代之后，所有这三个都看起来收敛到一些最小值。但是深度Q-学习在5左右波动，而其他两个则在2左右波动。在SAC和MMoE_SAC之中，后者具有甚至更低的损失。这似乎表明专家策略的混合产生了效果。

3.从IPS、DM和DR看模型精度

在该部分中，报告了一个或多个实验结果。为了比较，还列出了来自deepQ和SAC的结果。除了损失、DM、IPS和DR，还报告了动作预测的结果。

表1：用IPS、DM和DR评估的模型精度。

表1列出了用IPS、DM和DR评估的deepQ、SAC和MMoE_SAC模型的模型精度值。表1中报告的值是所有10000步的平均值。通常，得分反映了模型对动作进行预测的精确程度。只要这些得分在所有四个动作的合理范围内，则可认为该模型具有良好的性能。为了在模型之间进行比较，较小的得分意味着更稳定的性能。在一个或多个设置中，实验运行超过10,000步，并且在每步评估所有三个度量。然后，对每个动作采取它们平均值。从这些结果可观察到一些趋势。首先，三种模型的DR结果中的大部分都低于DM。与IPS相比，DR和DM结果中的一些较高，而结果中的一些较低。如上所述，IPS具有较大的方差。此外，看起来SAC和MMoE_SAC的DM得分彼此非常相似，尽管SAC的那些得分对于所有四个动作都是高的。相反，deepQ的DM得分彼此之间相当不同。

D.一些结论

在本公开中，提出了用于短视频推荐的基于MMoE_SAC的实施方式。在一个或多个实施方式中，使用软演员评论家来进行与MMoE组合的推荐工作。MMoE_SAC可充分利用专家混合和基于熵的离线策略算法的优点。它使得推荐器能够处理大量的连续动作，并且还鼓励MMoE_SAC模型的实施方式探索更大的空间来为用户发现更相关的视频。MMoE_SAC在利用历史日志从稀疏的高维特征空间生成有用特征方面表现良好。实验表明，MMoE_SAC的性能优于基于deepQ的***和基于单一SAC的***，且MMoE_SAC收敛于最低损失。MMoE_SAC的一个或多个实施方式可进一步扩展，以有效地处理分类动作和连续动作的组合。

E.计算***实施方式

在一个或多个实施方式中，本专利文献的方面可涉及、可包括一个或多个信息处理***/计算***，或者可在一个或多个信息处理***(或计算***)上实现。信息处理***/计算***可包括可操作来计算、运算、确定、分类、处理、传输、接收、检索、发起、路由、交换、存储、显示、通信、显现、检测、记录、再现、处理或利用任何形式信息、智能或数据的任何手段或手段的组合。例如，计算***可以是或可包括个人计算机(例如，膝上型计算机)、平板电脑、移动设备(例如，个人数字助理(PDA)、智能手机、平板手机、平板等)、智能手表、服务器(例如，刀片式服务器或机架式服务器)、网络存储设备、摄像机或任何其它合适设备，并且可在大小、形状、性能、功能和价格方面改变。计算***可包括随机存取存储器(RAM)、一个或多个处理资源(诸如中央处理单元(CPU)或硬件或软件控制逻辑)、只读存储器(ROM)和/或其它类型的存储器。计算***的另外组件可包括一个或多个盘驱动器、用于与外部设备通信的一个或多个网络端口、以及各种输入和输出(I/O)设备(例如键盘、鼠标、手写笔、触摸屏和/或视频显示器)。计算***还可包括可操作为在各种硬件组件之间传输通信的一个或多个总线。

图6描述了根据本公开的实施方式的信息处理***(或计算***)的简化框图。应理解，计算***可不同地配置并且包括不同组件，包括如图6中所示的更少或更多的部件，但应理解，针对***600所示出的功能可操作为支持计算***的各种实施方式。

如图6所示，计算***600包括一个或多个中央处理单元(CPU)601，CPU 601提供计算资源并控制计算机。CPU 601可用微处理器等实现，并且还可包括一个或多个图形处理单元(GPU)602和/或用于数学计算的浮点协处理器。在一个或多个实施方式中，一个或多个GPU 602可并入显示控制器609内，诸如一个或多个图卡的一部分。***600还可包括***存储器619，***存储器619可包括随机存取存储器(RAM)、只读存储器(ROM)或两者。

如图6中所示，还可提供多个控制器和***设备。输入控制器603表示至各种输入设备604的接口，例如键盘、鼠标、触摸屏和/或触笔。计算***600还可包括存储控制器607，该存储控制器607用于与一个或多个存储设备608对接，存储设备中的每个包括存储介质(诸如磁带或盘)或光学介质(其可用于记录用于操作***、实用工具和应用程序的指令的程序，它们可包括实施本公开的各方面的程序的实施方式)。存储设备608还可用于存储经处理的数据或是将要根据本公开处理的数据。***600还可包括显示控制器609，该显示控制器609用于为显示设备611提供接口，显示设备611可为阴极射线管(CRT)显示器、薄膜晶体管(TFT)显示器、有机发光二极管、电致发光面板、等离子面板或任何其它类型的显示器。计算***600还可包括用于一个或多个***设备606的一个或多个***设备控制器或接口605。***设备的示例可包括一个或多个打印机、扫描仪、输入设备、输出设备、传感器等。通信控制器614可与一个或多个通信设备615对接，这使***600能够通过各种网络(包括互联网、云资源(例如以太云、经以太网的光纤通道(FCoE)/数据中心桥接(DCB)云等)、局域网(LAN)、广域网(WAN)、存储区域网络(SAN))中的任一网络，或通过任何合适电磁载波信号(包括红外信号)来连接至远程设备。如描述的实施方式中所示，计算***600包括一个或多个风扇或风扇托盘618以及一个或多个冷却子***控制器617，其监视***600(或其组件)的热温度并操作风扇/风扇托盘618以助于调节温度。

在示出的***中，所有主要***组件可连接至总线616，总线616可表示多于一个的物理总线。然而，各种***组件可在物理上彼此接近或可不在物理上彼此接近。例如，输入数据和/或输出数据可远程地从一个物理位置传输到另一物理位置。另外，实现本公开的各方面的程序可经由网络从远程位置(例如，服务器)访问。此类数据和/或程序可通过各种机器可读介质中的任一机器可读介质来传送，机器可读介质包括例如：诸如硬盘、软盘和磁带的磁性介质；诸如光盘(CD-ROM)和全息设备的光学介质；磁光介质；以及专门配置成存储或存储并执行程序代码的硬件设备，诸如专用集合成电路(ASIC)、可编程逻辑器件(PLD)、闪存设备、其它非易失性存储器(NVM)设备(诸如基于XPoint的3D设备)、以及ROM和RAM设备。

本公开的方面可利用用于一个或多个处理器或处理单元以使步骤执行的指令在一个或多个非暂态计算机可读介质上编码。应注意，一个或多个非暂态计算机可读介质应包括易失性存储器和/或非易失性存储器。应注意，替代实现方式是可能的，其包括硬件实现方式或软件/硬件实现方式。硬件实施的功能可使用ASIC、可编程的阵列、数字信号处理电路等来实现。因此，任何权利要求中的术语“手段”旨在涵盖软件实现方式和硬件实现方式两者。类似地，如本文使用的术语“计算机可读媒介或介质”包括具有实施在其上的指令程序的软件和/或硬件或它们的组合。利用所构想的这些替代实现方式，应理解，附图以及随附描述提供本领域的技术人员编写程序代码(即，软件)和/或制造电路(即，硬件)以执行所需处理所要求的功能信息。

应注意，本公开的实施方式还可涉及具有其上具有用于执行各种计算机实施的操作的计算机代码的非暂态有形计算机可读介质的计算机产品。介质和计算机代码可为出于本公开的目的而专门设计和构造的介质和计算机代码，或者它们可为相关领域中的技术人员已知或可用的。有形计算机可读介质的示例包括例如：诸如硬盘、软盘和磁带的磁性介质；诸如CD-ROM和全息设备的光学介质；磁光介质；以及专门配置成存储或存储并执行程序代码的硬件设备，诸如转专用集成电路(ASIC)、可编程逻辑器件(PLD)、闪存设备、其它非易失性存储器(NVM)设备(诸如基于XPoint的3D设备)、以及ROM和RAM设备。计算机代码的示例包括机器代码(例如，编译器产生的代码)以及包含可由计算机使用解释器来执行的更高级代码的文件。本公开的实施方式可整体地或部分地实施为可在由处理设备执行的程序模块中的机器可执行指令。程序模块的示例包括库、程序、例程、对象、组件和数据结构。在分布的计算环境中，程序模块可物理上定位在本地、远程或两者的设定中。

本领域的技术人员将认识到，计算***或编程语言对本公开的实践来说均不重要。本领域的技术人员将还将认识到，多个上述元件可物理地和/或在功能上划分成模块和/或子模块或组合在一起。

本领域技术人员将理解，前文的示例和实施方式是示例性的，并且不限制本公开的范围。旨在说明的是，在本领域的技术人员阅读本说明书并研究附图后将对本领域的技术人员显而易见的本公开的所有、置换、增强、等同、组合或改进包括在本公开的真实精神和范围内。还应注意，任何权利要求书的元素可不同地布置，包括具有多个从属、配置和组合。

Claims

1.一种用于多目标排序的计算机实施的方法，包括：

在包括多个专家和门控网络的多门专家混合(MMoE)层处，接收与一个或多个状态和一个或多个动作相对应的隐藏嵌入；

由使用软演员评论家(SAC)的多个专家中的每个，基于所述隐藏嵌入生成预测，每个预测均包括分别对应于一个或多个动作的一个或多个预测参数；

根据由所述门控网络为每个专家生成的权重，获取所述多个专家预测的加权和；以及

基于所述加权和，从所述MMoE层生成MMoE布局输出。

2.如权利要求1所述的计算机实施的方法，其中，所述隐藏嵌入通过以下步骤生成：

将所述一个或多个状态和所述一个或多个动作的多个特征划分成分类特征和数字特征；以及

限定通用动态特征嵌入词典，以将所述多个特征映射或投影到用于所述隐藏嵌入的统一嵌入空间中。

3.如权利要求2所述的计算机实施的方法，其中，限定通用动态特征嵌入词典以将所述多个特征映射或投影到统一嵌入空间中包括：

对于针对分类特征的每个嵌入查找，使用单热或多热矢量；以及

使用变换权重矩阵，将所述分类特征从稀疏特征变换为密集特征。

4.如权利要求1所述的计算机实施的方法，其中，每个专家均为经训练的深度神经网络(DNN)，其使用对应于一个或多个状态的嵌入作为所述每个专家的输入，并且使用对应于一个或多个动作的嵌入作为用于训练的标记。

5.如权利要求4所述的计算机实施的方法，其中，在训练过程期间，所述一个或多个动作中的每个的损失计算彼此独立。

6.如权利要求4所述的计算机实施的方法，其中，所述训练过程包括以下步骤：

将每个动作视作为任务；

向用于每个动作的策略函数中添加熵正则化项；

导出软策略迭代，以交替地重复软策略评估和软策略改进；

通过使软Bellman残差最小化来学习软函数参数；以及

通过使所述策略函数与通过将所述软Q-函数的指数与分配函数相除而获得的商之间的KL散度最小化来学习策略参数。

7.如权利要求6所述的计算机实施的方法，其中，在所述软策略迭代期间，对每个策略改进步骤采用多个Q-函数之中具有最小Q值的Q-函数。

8.一种用于多目标排序的***，包括：

一个或多个处理器；以及

非暂时性计算机可读介质或媒质，包括一组或多组指令，所述一组或多组指令在由所述一个或多个处理器中的至少一个执行时使得执行以下步骤，所述步骤包括：

将来自一个或多个数据源的特征转换为隐藏嵌入；

在包括多个专家和门控网络的多门专家混合(MMoE)层处接收所述隐藏嵌入；

由使用软演员评论家(SAC)的多个专家中的每个，基于所述输入生成预测，每个预测均包括分别对应于一个或多个动作的一个或多个预测参数；

基于所述加权和，从所述MMoE层生成MMoE布局输出。

9.如权利要求8所述的***，其中，将来自一个或多个数据源的特征转换为隐藏嵌入包括以下步骤：

将所述特征划分成分类特征和数字特征；以及

限定通用动态特征嵌入词典，以将所述特征映射或投影到用于所述隐藏嵌入的统一嵌入空间中。

10.如权利要求9所述的***，其中，限定通用动态特征嵌入词典以将输入特征映射或投影到统一嵌入空间中包括以下步骤：

11.如权利要求9所述的***，其中，每个专家均为经训练的神经网络，在训练过程期间，其使用来自一个或多个状态的特征嵌入作为输入，以及使用来自一个或多个动作输入的特征嵌入作为用于训练的标记。

12.如权利要求11所述的***，其中，所述非暂时性计算机可读介质或媒质还包括一组或多组指令，所述一组或多组指令在由所述一个或多个处理器中的至少一个执行时，使得执行训练所述每个专家的步骤，所述步骤包括：

将每个动作视作为任务；

向用于每个动作的策略函数中添加熵正则化项；

导出软策略迭代，以交替地重复软策略评估和软策略改进；

通过使软Bellman残差最小化来学习软函数参数；以及

13.如权利要求12所述的***，其中，在所述软策略迭代期间，对每个策略改进步骤采用多个Q-函数之中具有最小Q值的Q-函数。

14.一种包括一个或多个指令序列的非暂时性计算机可读介质或媒质，所述一个或多个指令序列在由至少一个处理器执行时引起用于多目标排序的步骤，所述步骤包括：

将来自一个或多个数据源的特征转换为隐藏嵌入；

基于所述加权和，从所述MMoE层生成MMoE布局输出。

15.如权利要求14所述的非暂时性计算机可读介质或媒质，其中，将来自一个或多个数据源的特征转换成隐藏嵌入包括以下步骤：

16.如权利要求15所述的非暂时性计算机可读介质或媒质，其中，限定通用动态特征嵌入词典以将输入特征映射或投影到统一嵌入空间中包括以下步骤：

17.如权利要求14所述的非暂时性计算机可读介质或媒质，其中，每个专家均为经训练的神经网络，在训练过程期间，其使用来自一个或多个状态的特征嵌入作为输入，以及使用来自一个或多个动作输入的特征嵌入作为用于训练的标记。

18.如权利要求17所述的非暂时性计算机可读介质或媒质，其中，在所述训练过程期间，所述一个或多个动作中的每个的损失计算彼此独立。

19.如权利要求17所述的非暂时性计算机可读介质或媒质，还包括一组或多组指令，所述一组或多组指令在由一个或多个处理器中的至少一个执行时，使得执行训练所述每个专家的步骤，所述步骤包括：

将每个动作视作为任务；

向用于每个动作的策略函数中添加熵正则化项；

导出软策略迭代，以交替地重复软策略评估和软策略改进；

通过使软Bellman残差最小化来学习软函数参数；以及

通过使所述策略函数与通过将所述软Q函数的指数与分配函数相除而获得的商之间的KL散度最小化来学习策略参数。

20.如权利要求19所述的非暂时性计算机可读介质或媒质，其中，其中，在所述软策略迭代期间，对每个策略改进步骤采用多个Q-函数之中具有最小Q值的Q-函数。