CN109902823B

CN109902823B - 一种基于生成对抗网络的模型训练方法及设备

Info

Publication number: CN109902823B
Application number: CN201811654623.5A
Authority: CN
Inventors: 刘志容; 董振华; 张宇宙; 刘明瑞; 郭贵斌
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2018-12-29
Filing date: 2018-12-29
Publication date: 2024-06-07
Anticipated expiration: 2038-12-29
Also published as: CN109902823A; WO2020135642A1

Abstract

本申请实施例提供一种基于生成对抗网络的模型训练方法及设备，该方法包括：设备通过生成模型为第一用户生成正例伪造物品和负例伪造物品；所述设备训练多个真实物品对和多个伪造物品对以得到判别模型，所述判别模型用于分辨所述多个真实物品对与所述多个伪造物品对之间的差异；每个真实物品对包括一个正例真实物品和一个负例真实物品，每个伪造物品对包括一个所述正例伪造物品和一个所述负例伪造物品；所述设备根据所述判别模型的损失函数更新所述生成模型。采用本申请实施例，能够提高生成模型的生成能力和判别模型的判别能力。

Description

一种基于生成对抗网络的模型训练方法及设备

技术领域

本申请涉及大数据领域，尤其涉及一种基于生成对抗网络的模型训练方法及设备。

背景技术

随着信息化的不断发展，人们面对着日益严重的信息过载问题。个性化推荐***作为一种有效的信息过滤工具，能够为用户提供各种个性化的推荐服务。信息检索生成对抗网络(Information Retrieval GAN，IRGAN)是将生成对抗网络(GenerativeAdversarial Net，GAN)模型应用到物品推荐领域的模型，其会对输入的物品数据进行训练从而得到生成模型和判别模型，生成模型负责生成与真实物品相仿的伪造物品，而判别模型负责判别生成的伪造物品与真实样本。生成模型与判别模型的训练相互依赖，在物品推荐场景中，需要通过生成模型生成伪造物品及物品的评分，然后根据评分对物品进行排序从而得到推荐结果。

IRGAN常见的训练方法包括样本点(point-wise)方法和样本对(pair-wise)方法。Point-wise的主要思想是将推荐问题转化为分类问题或者回归问题，假设用户对每一个物品的喜好程度是独立的，对用户可能喜欢的物品抽取特征进行训练。Pair-wise的主要思想是将推荐问题转化为二分类问题，进行模型训练时pair-wise不再对物品做独立性假设，而是物品对作为训练的最小单位，通常每个物品对包括一个用户喜欢的物品和一个用户不喜欢的物品。目前来看pair-wise的训练效果还不如point-wise，如何对pair-wise进行优化，从而提高推荐场景中生成模型的生成能力和判别模型的判别能力是本领域的技术人员正在研究的技术问题。

申请内容

本申请实施例公开了一种基于生成对抗网络的模型训练方法及设备，能够提高生成模型的生成能力和判别模型的判别能力。

第一方面，本申请实施例提供一种基于生成对抗网络的模型训练方法，该方法包括：

设备通过生成模型为第一用户生成正例伪造物品和负例伪造物品，其中所述负例伪造物品为根据所述正例伪造物品生成的，所述第一用户的正例伪造物品为预测的受所述第一用户关注的物品，所述第一用户的负例伪造物品为预测的不受所述任第一用户关注的物品；所述设备训练多个真实物品对和多个伪造物品对以得到判别模型，所述判别模型用于分辨所述多个真实物品对与所述多个伪造物品对之间的差异；每个真实物品对包括一个正例真实物品和一个负例真实物品，每个伪造物品对包括一个所述正例伪造物品和一个所述负例伪造物品；所述正例真实物品为根据所述第一用户的操作行为认定的受所述第一用户关注的物品，所述负例真实物品为根据所述第一用户的操作行为认定的不受所述第一用户关注的物品；所述设备根据所述判别模型的损失函数更新所述生成模型。

通过执行上述方法，伪造物品对中的负例伪造物品是依赖正例伪造物品而生成的，充分地考虑了负例伪造物品与正例伪造物品之间的潜在关系，使得伪造物品对包含的信息量更丰富，提升了训练效果，增强了生成模型的生成能力，因此对该生成模型生成的物品和已有的真实物品进行排序所产生的推荐结果对用户而言更具有参考价值。

结合第一方面，在第一方面的第一种可能的实现方式中，所述设备根据所述判别模型的损失函数更新所述生成模型之后，还包括：所述设备通过更新后的生成模型生成伪造物品的评分，所述伪造物品包括所述为第一用户生成的正例伪造物品和负例伪造物品；所述设备根据伪造物品的评分和已有的真实物品的评分，对所述真实物品和所述伪造物品排序，并根据排序中的顺序向所述第一用户推荐物品。可以理解的是，对该生成模型生成的物品和已有的真实物品进行排序所产生的推荐结果对用户而言更具有参考价值。

结合第一方面，或者第一方面的上述任一可能的实现方式，在第一方面的第二种可能的实现方式中，所述设备通过生成模型为第一用户生成正例伪造物品和负例伪造物品之后，所述设备训练多个真实物品对和多个伪造物品对以得到判别模型之前，还包括：所述设备为多个第一正例伪造物品各匹配一个第一负例伪造物品以组成所述多个伪造物品对，所述第一负例伪造物品属于所述第一用户的负例伪造物品中评分排在前M位的负例伪造物品，M为所述第一正例伪造物品的数量，所述第一正例伪造物品为从所述生成模型生成的正例伪造物品中采样到的所述第一用户的正例伪造物品；另外，所述设备为多个第一正例真实物品各匹配一个第一负例真实物品以组成所述多个真实物品对，所述第一负例真实物品属于所述第一用户的负例真实物品中评分排在前N位的负例真实物品，N为所述第一正例真实物品的数量，所述第一正例真实物品为从所述第一用户已有的正例真实物品中采样到的一个正例真实物品。

可以理解的是，采集评分高的物品组成物品对，包括真实物品对和伪造物品对，由于评分高的物品更受用户的关注，因此其对用户而言这种方式得到的物品对包含的信息量更大且噪声更小，根据这样的物品对进行训练可以充分地分析受用户关注的特征，从而训练出生成能力更强的生成模型。

结合第一方面，或者第一方面的上述任一可能的实现方式，在第一方面的第三种可能的实现方式中，所述初始生成模型包括正例生成模型、负例生成模型和评分生成模型；所述设备通过生成模型为第一用户生成正例伪造物品和负例伪造物品，包括：

所述设备通过正例生成模型生成第一用户的正例伪造物品的分布，所述正例生成模型为：

所述设备通过负例生成模型生成第一用户的负例伪造物品的分布，所述负例生成模型为：

所述设备通过评分生成器生成每个正例伪造物品的评分和每个负例伪造物品的评分；

其中，g⁺(f⁺|u)为所述正例伪造物品的分布，e_u为第一用户的嵌入向量embedding，是待生成的正例伪造物品的embedding，e_i是第i个正例伪造物品的embedding，b代表所述第一用户的偏差值bias；g^-(f^-|u,f⁺)为所述负例伪造物品的分布，/>是待生成的负例伪造物品的embedding。

结合第一方面，或者第一方面的上述任一可能的实现方式，在第一方面的第四种可能的实现方式中，所述设备根据所述判别模型的损失函数更新所述生成模型，包括：所述设备确定所述第一用户对物品的注意力指标，所述第一用户对物品的注意力指标为采用注意力网络训练所述第一用户的真实物品评分和伪造物品评分得到；所述设备根据所述判别模型的损失函数获得奖励值reward，并通过所述第一用户对物品的注意力指标优化所述奖励值reward以得到新的奖励值；所述设备采用所述新的奖励值更新所述生成模型。

可以理解的是，每个物品对的重要性是不同的，通过引入注意力网络，得到每个物品对的重要性权重，可以有效地选择优质的物品对，减少劣质物品对的负面影响，让我们得到的生成模型、判别模型更具鲁棒性与自适应性。这里的物品对可以为真实物品对，也可以为伪造物品对。

结合第一方面，或者第一方面的上述任一可能的实现方式，在第一方面的第五种可能的实现方式中，所述设备确定所述第一用户对物品的注意力指标，包括：

所述设备采用注意力网络根据如下公式计算第一用户对物品的注意力指标；

α＝softmax(g(r⁺,r^-,f⁺,f^-|u))

其中，α为所述第一用户u的对物品的注意力指标，w_u表示训练出的所述第一用户的权重，表示训练出的第一用户的正例真实物品的权重，/>表示训练出的第一用户的负例真实物品的权重，/>表示训练出的所述第一用户的正例伪造物品的权重，/>表示训练出的所述第一用户的负例伪造物品的权重；b为所述第一用户的偏差值bias。

结合第一方面，或者第一方面的上述任一可能的实现方式，在第一方面的第六种可能的实现方式中，所述通过所述第一用户对物品的注意力指标优化所述奖励值reward以得到新的奖励值，包括：通过所述第一用户对物品的注意力指标α优化所述奖励值reward以得到所述第一用户对应的奖励值reward_1，其中，所述第一用户对物品的注意力指标α、奖励值reward和所述第一用户对应的奖励值reward_1满足如下关系：reward_1＝α*reward；根据所述第一用户对应的奖励值reward_1确定新的奖励值。

第二方面，本申请实施例提供一种基于生成对抗网络的模型训练设备，该设备包括：

生成模型，用于为第一用户生成正例伪造物品和负例伪造物品，其中所述负例伪造物品为根据所述正例伪造物品生成的，所述第一用户的正例伪造物品为预测的受所述第一用户关注的物品，所述第一用户的负例伪造物品为预测的不受所述任第一用户关注的物品；

训练模型，用于训练多个真实物品对和多个伪造物品对以得到判别模型，所述判别模型用于分辨所述多个真实物品对与所述多个伪造物品对之间的差异；每个真实物品对包括一个正例真实物品和一个负例真实物品，每个伪造物品对包括一个所述正例伪造物品和一个所述负例伪造物品；所述正例真实物品为根据所述第一用户的操作行为认定的受所述第一用户关注的物品，所述负例真实物品为根据所述第一用户的操作行为认定的不受所述第一用户关注的物品；

所述训练模型，用于根据所述判别模型的损失函数更新所述生成模型。

通过运行上述单元，伪造物品对中的负例伪造物品是依赖正例伪造物品而生成的，充分地考虑了负例伪造物品与正例伪造物品之间的潜在关系，使得伪造物品对包含的信息量更丰富，提升了训练效果，增强了生成模型的生成能力，因此对该生成模型生成的物品和已有的真实物品进行排序所产生的推荐结果对用户而言更具有参考价值。

结合第二方面，在第二方面的第一种可能的实现方式中，该设备还包括推荐模型，其中：

在所述训练模型根据所述判别模型的损失函数更新所述生成模型之后，更新后的生成模型用于生成伪造物品的评分，所述伪造物品包括所述为第一用户生成的正例伪造物品和负例伪造物品；

所述推荐模型，用于根据伪造物品的评分和已有的真实物品的评分，对所述真实物品和所述伪造物品排序，并根据排序中的顺序向所述第一用户推荐物品。

可以理解的是，对该生成模型生成的物品和已有的真实物品进行排序所产生的推荐结果对用户而言更具有参考价值。

结合第二方面，或者第二方面的上述任一可能的实现方式，在第二方面的第二种可能的实现方式中，在所述生成模型为第一用户生成正例伪造物品和负例伪造物品之后，所述训练模型训练多个真实物品对和多个伪造物品对以得到判别模型之前，所述训练模型还用于：

为多个第一正例伪造物品各匹配一个第一负例伪造物品以组成所述多个伪造物品对，所述第一负例伪造物品属于所述第一用户的负例伪造物品中评分排在前M位的负例伪造物品，M为所述第一正例伪造物品的数量，所述第一正例伪造物品为从所述生成模型生成的正例伪造物品中采样到的所述第一用户的正例伪造物品；

为多个第一正例真实物品各匹配一个第一负例真实物品以组成所述多个真实物品对，所述第一负例真实物品属于所述第一用户的负例真实物品中评分排在前N位的负例真实物品，N为所述第一正例真实物品的数量，所述第一正例真实物品为从所述第一用户已有的正例真实物品中采样到的一个正例真实物品。

结合第二方面，或者第二方面的上述任一可能的实现方式，在第二方面的第三种可能的实现方式中，所述初始生成模型包括正例生成模型、负例生成模型和评分生成模型；所述生成模型，用于为第一用户生成正例伪造物品和负例伪造物品，具体为：

用于通过正例生成模型生成第一用户的正例伪造物品的分布，所述正例生成模型为：

用于通过负例生成模型生成第一用户的负例伪造物品的分布，所述负例生成模型为：

用于通过评分生成器生成每个正例伪造物品的评分和每个负例伪造物品的评分；

结合第二方面，或者第二方面的上述任一可能的实现方式，在第二方面的第四种可能的实现方式中，用于根据所述判别模型的损失函数更新所述生成模型，具体为：

确定所述第一用户对物品的注意力指标，所述第一用户对物品的注意力指标为采用注意力网络训练所述第一用户的真实物品评分和伪造物品评分得到；

根据所述判别模型的损失函数获得奖励值reward，并通过所述第一用户对物品的注意力指标优化所述奖励值reward以得到新的奖励值；

采用所述新的奖励值更新所述生成模型。

结合第二方面，或者第二方面的上述任一可能的实现方式，在第二方面的第五种可能的实现方式中，所述训练模型确定所述第一用户对物品的注意力指标，具体为：

采用注意力网络根据如下公式计算第一用户对物品的注意力指标；

α＝softmax(g(r⁺,r^-,f⁺,f^-|u))

结合第二方面，或者第二方面的上述任一可能的实现方式，在第二方面的第六种可能的实现方式中，所述通过所述第一用户对物品的注意力指标优化所述奖励值reward以得到新的奖励值，具体为：

通过所述第一用户对物品的注意力指标α优化所述奖励值reward以得到所述第一用户对应的奖励值reward_1，其中，所述第一用户对物品的注意力指标α、奖励值reward和所述第一用户对应的奖励值reward_1满足如下关系：reward_1＝α*reward；

根据所述第一用户对应的奖励值reward_1确定新的奖励值。

第三方面，本申请实施例提供一种设备，该设备包括处理器和存储器，其中，存储器用于存储程序指令和训练模型所需的样本数据，处理器用于调用所述程序指令来执行第一方面或者第一方面的任一可能的实现方式所描述的方法。

第四方面，本申请实施例提供一种计算机可读存储介质，所述计算机可读存储介质中存储有程序指令，当其在处理器上运行时，实现第一方面或者第一方面的任一可能的实现方式所描述的方法。

附图说明

以下对本申请实施例用到的附图进行介绍。

图1A是本申请实施例提供的一种应用场景示意图；

图1B是本申请实施例提供的又一种应用场景示意图；

图1C是本申请实施例提供的又一种应用场景示意图；

图1D是本申请实施例提供的一种设备的结构示意图；

图2是本申请实施例提供的一种处理器处理流程示意图；

图3是本申请实施例提供的一种基于生成对抗网络的模型训练方法；

图4是本申请实施例提供的一种判别模型的训练流程示意图；

图5是本申请实施例提供的一种注意力机制的场景示意图；

图6是本申请实施例提供的一种生成模型的训练流程示意图；

图7是本申请实施例提供的一种判别模型和生成模型整体训练的场景示意图；

图8是本申请实施例提供的一种设备的结构示意图。

具体实施方式

下面结合本申请实施例中的附图对本申请实施例进行描述。

推荐***的目标是准确预测用户对于特定商品的喜好程度，推荐***的推荐效果不仅影响用户体验，也直接影响到推荐平台的收益，因此准确地推荐具有重要意义。

下面结合表1推荐***的推荐原理及目标进行简单的介绍。

表1

用户\物品	101	102	103	104	105	106
							A	5	3	2.5	？	？	？
B	2	2.5	5	2	？	？
							C	2	？	？	4	4.5	5
D	5	？	3	4.5	？	4
							E	4	3	2	4	3.5	4

表1中示意的用户包括用户A、用户B、用户C、用户D和用户E，示意的物品包括物品101、物品102、物品103、物品104、物品105和物品106，另外，表1还示意了相应的用户为相应的物品的评分，某个用户对某个物品对应的评分越高代表该用户对该物品的喜好越强。例如，用户A对物品101的评分为5分，表明用户A对物品101喜好程度非常高。表1中的问号代表目前用户对该物品尚没有进行过评分，推荐***的目标就是预测相应用户对未评价过的商品的喜好程度。例如，需要预测用户A对物品104、物品105和物品106的评分，需要预测用户B对物品105和物品106的评分，其余依此类推。经过推荐***的推荐算法计算以后，推荐***可以补全用户对未评分物品的评分。如表2所示，如果推荐***想要为用户A推荐新物品，那么物品106可能是一个比较好的选择，因为推荐***给物品106的评分是5分，高于给其他物品的评分，该用户A有很大的可能性喜欢物品106。

表2

用户\物品	101	102	103	104	105	106
							A	5	3	2.5	2	4	5
B	2	2.5	5	2	2	4
							C	2	4	3	4	4.5	5
D	5	3	3	4.5	3	4
							E	4	3	2	4	3.5	4

本申请实施例提出的基于生成对抗网络的模型训练方法能够训练出效果更好的生成模型，因此在进行物品推荐时以该生成模型对伪造物品的打分作为依据，能够得到更好的推荐效果。

本申请实施例中的基于生成对抗网络的模型训练方法能够应用在很多场景中，例如，广告点击预测、感兴趣的TopN物品推荐、与问题最相关的答案预测等等，下面进行举例说明。

在广告推荐场景中，广告推荐***需返回一个或多个排序好的广告列表展示用户。本申请实施例可以预测较受用户欢迎的广告，从而提高广告的点击率。本申请可以将用户点击过的广告和没有点击过的广告组成真实物品对，其中，点击过的广告相当于正例真实物品，没有点击过的广告相当于负例真实物品，采用IRGAN技术，可以通过生成模型生成伪造物品对，通过判别模型尽力判别哪些是生成的物品对，哪些是真实的物品对，在IRGAN对抗式训练下，可以预估用户对每个广告的点击概率(相当于对物品的评分)。如图1A所示，通过基于生成对抗网络的模型训练方法对用户针对广告的历史行为数据进行训练，即可得到用户对各个广告的点击概率预测值。

在topN物品推荐场景中，需要向用户推荐该用户最感兴趣的topN个物品，从而促进用户对物品的消费行为，其中，物品可以为电商产品、应用市场APP等。本申请可以将用户消费过或者下载过并且用户对其评分较高的物品和用户消费过并且用户评分较低的物品组成真实物品对，其中，评分较高的物品相当于正例真实物品，评分较低的物品相当于负例真实物品，采用IRGAN技术，可以通过生成模型生成伪造物品对，通过判别模型尽力判别哪些是生成的物品对，哪些是真实的物品对，在IRGAN对抗式训练下，可以预估用户对每个物品的评价比较高，这相当于对物品的评分。如图1B所示，通过基于生成对抗网络的模型训练方法对用户针对物品的历史行为数据进行训练，即可得到用户对各个物品的感兴趣程度的排名，从而向用户输出其感兴趣的topN物品。

在问答场景中，问答***需要针对用户的提出的问题给出尽量符合用户期望的答案，从而提高用户对问答***的友好度。本申请可以将用户收到的并且用户对其评分较高的答案和用户收到的并且用户对其评分较低的答案组成真实物品对，其中，评分较高的答案相当于正例真实物品，评分较低的答案相当于负例真实物品，，采用IRGAN技术，可以通过生成模型生成伪造物品对，通过判别模型尽力判别哪些是生成的物品对，哪些是真实的物品对，在IRGAN对抗式训练下，可以预估用户对每个答案的评价比较高，这相当于对物品的评分。如图1C所示，通过基于生成对抗网络的模型训练方法对用户针对问题及答案的历史行为数据进行训练，即可得到用户对各个答案的满意程度的排名，从而向用户输出其相对较满意的N个答案。

下面结合图1D对执行该基于生成对抗网络的模型训练方法的设备进行介绍。

请参见图1D，图1D是本申请实施例提供的一种设备的结构示意图，该设备用于对物品进行分类，该设备可以为一个设备，如服务器，或者好几个设备构成的一个集群，下面以该设备为一个服务器为例对该设备的结构进行简单的介绍。该设备10包括处理器101、存储器102和通信接口103，所述处理器101、存储器102和通信接口103通过总线相互连接，其中：

该通信接口103用于获取已有的物品的数据，例如，已有的物品的标识、评分，对已有的物品进行评分的用户的信息，等等。可选的，通信接口103可以与其他设备之间建立通信连接，因此可以接收其他设备发送的已有物品的数据或者从其他设备上读取已有的物品的数据；可选的，通信接口103可以连接一个外部的可读存储介质，因此可以从外部的可读存储介质上读取已有的物品的数据；该通信接口103还可能通过其他方式获取已有物品的数据。

存储器102包括但不限于是随机存储记忆体(random access memory，RAM)、只读存储器(read-only memory，ROM)、可擦除可编程只读存储器(erasable programmableread only memory，EPROM)、或便携式只读存储器(compact disc read-only memory，CD-ROM)，该存储器102用于存储相关程序指令，以及存储相关数据，该相关数据可以包括通过通信接口103获取到的数据，还可以包括对这些数据进行处理之后产生的新的数据、模型、以及基于模型预测的结果，等等，该数据也可称样本。

处理器101可以是一个或多个中央处理器(central processing unit，CPU)，在处理器101是一个CPU的情况下，该CPU可以是单核CPU，也可以是多核CPU。该处理器101用于读取所述存储器102中存储的程序执行，执行一种基于生成对抗网络的模型训练方法中涉及到的相关操作，例如，判别模型的训练、生成模型的训练、对物品进行评分预测，等等。请参见图2，图2示意了处理器的大致执行流程，包括将已有的物品的信息、对物品进行评分的用户的信息、对物品的评分值等信息输入到初始的判别模型201中，其中，已有的物品的信息可以包括物品标识ID，对物品进行评分的用户的信息可以包括该用户标识ID。生成模型202也会生成一些伪造的物品并将该伪造物品的相关信息输入到该初始的判别模型201，从而对该判别模型201进行训练，该判别模型201与该生成模型202之间不断进行对抗最终得到一个辨别真实样本和伪造样本能力很强的判别模型201，以及得到一个生成的伪造物品能够非常接近真实物品的生成模型202；之后通过该生成模型202生成伪造物品以及伪造物品的评分；然后排序预测203根据任意一个用户的全部物品的评分，来生成该用户的物品的排序，从而根据排序得到针对该任意一个用户的物品推荐列表，可选的，该物品包括真实物品和伪造物品。在本申请实施例中，该判别模型201包括判别器和注意力网络，判别器负责对真实物品和伪造物品进行分辨，注意力网络用于记录不同用户对真实物品以及伪造物品的注意力权重，从而对生成模型的生成提供参考；生成模型202包括物品生成器和评分生成器，物品生成器用于生成伪造物品，评分生成器用于为该伪造物品生成评分，其中，物品生成器还可以分为负例生成器和正例生成器，正例生成器用于生成正例伪造物品，负例生成器用于生成负例伪造物品。其中，在物品生成器中采用了动态采样技术进行采样。

可选的，该设备10还可以包括输出组件，例如，显示器、音响等，该输出组件用于向开发人员展示训练模型要用到的参数，因此开发人员可以获知这些参数，也可以对这些参数进行修改，并通过输入组件将修改后的参数输入到该设备10中，例如，输入组件可以包括鼠标、键盘等。另外，该设备10还可以通过输出组件将训练出的模型，以及基于模型预测的结果展示给开发人员。

下面结合图3对本申请实施例中的一种基于生成对抗网络的模型训练方法做更详细介绍。

请参见图3，图3是本申请实施例提供的一种基于生成对抗网络的模型训练方法，该方法可基于图1D所示的设备10来实现，也可以基于其他架构来实现，该方法包括如下步骤：

步骤S301：设备通过生成模型为第一用户生成伪造物品。

具体地，本申请实施例涉及到真实物品和伪造物品，其中，伪造物品包括正例伪造物品、负例伪造物品，真实物品包括正例真实物品和负例真实物品，多个用户中每个用户都有各自的正例伪造物品、负例伪造物品、正例真实物品和负例真实物品这几个概念，其中，对任意一个用户来说，该用户的正例真实物品为该用户有过操作行为且比较关注的物品，该用户的负例真实物品为该用户有过操作行为且不关注的物品，该用户的正例伪造物品为该用户未操作过且预测出比较关注的物品，该用户的负例伪造物品为该用户未操作过且预测出不关注的物品。本申请实施例中的第一用户为多个用户中的一个用户，为了便于理解这里以第一用户为例来进行说明，其他用户的特征可以参照对第一用户的描述。

第一用户对某个终端上展示的物品的操作行为包括下载、评价、点击、浏览等，这些行为会被终端记录下并根据操作其行为对相应的物品评分，例如，可以是用户打的分数也可以是该终端或者上述设备根据用户的行为数据打的分，评分用于衡量用户对该物品的关注程度，可以根据某个用户有操作行为的各个物品的评分来划分该某个用户的正例真实物品和负例真实物品，例如假若评分分值范围为1-5分，那么可以将评分处于4-5分范围的物品定义为该用户的正例真实物品，将评分处于1-3分范围的物品定义为该用户的负例真实物品。这里的物品为应用程序(APP)、或者广告、或者视频、或者歌曲、或者问答***的答案等等。

该生成模型为第一用户生成的正例伪造物品为预测的受所述第一用户关注的物品，为第一用户生成的负例伪造物品为预测的不受所述第一用户关注的物品。例如，生成模型为第一用户生成可能受第一用户关注的喜剧电影1、喜剧电影2、喜剧电影3，以及为第一用户生成可能不受第一用户关注的恐怖电影1、恐怖电影2和恐怖电影3，那么喜剧电影1、喜剧电影2、喜剧电影3就属于第一用户的正例伪造物品，恐怖电影1、恐怖电影2和恐怖电影3就属于第一用户的负例伪造物品，该生成模型还会为喜剧电影1、喜剧电影2、喜剧电影3、恐怖电影1、恐怖电影2和恐怖电影3生成评分，生成的评分属于预测的评分，用于表示第一用户对这些电影的喜好程度。该生成模型为其他用户生成正例伪造物品和负例伪造物品的原理可以参照以上针对第一用户的描述。不同用户的正例伪造物品和负例伪造物品可能相同也可能不相同，对应的评分也可能相同也可能不同。下面对生成模型进行介绍。

具体而言，生成模块的目标是生成伪造物品对并尽可能地逼近真实物品对的相关性分布，其中伪造物品对包括一个正例伪造物品和一个负例伪造物品，真实物品对包括一个正例真实物品和一个负例真实物品。这里生成的伪造物品对的相关线性分布如公式(1)所示：

G(f|u)＝G((f⁺,f^-)|u)＝g⁺(f⁺|u)·g^-(f^-|u,f⁺) (1)

在公式(1)中，f代表生成的伪造物品，f⁺是生成的正例伪造物品，f^-是生成的负例伪造物品。生成模型可以分为正例生成器和负例生成器两个子模型，g⁺代表正例生成器，和g^-代表负例生成器，u代表第一用户。正例生成器g⁺用于生成该第一用户的u正例伪造物品的分布，负例生成器g^-用于根据正例生成器g⁺生成的正例伪造物品生成该第一用户的负例伪造物品的分布，其中正例生成器g⁺生成的正例伪造物品的分布如公式(2)所示：

在公式(2)中，e_u表示第一用户的嵌入向量(embedding)，是正例伪造物品的embedding，e_i是第i个正例伪造物品的embedding，b代表着第一用户的bias。本申请实施例的嵌入相邻embedding、偏差值bias可以在第一次初始训练时配置默认值，在每次训练之后embedding、bias通常会更新。

在本申请实施例中，要求生成模型生成的正例伪造物品与负例伪造物品之间存在一些潜在的关系，因此负例伪造物品的生成是在正例伪造物品生成之后。举例来说，负例生成器用内积的方式计算正例伪造物品与负例伪造物品之间的关系，从而得到生成的伪造负例物品的分布如公式(3)所示：

在公式(3)中，是待生成的负例伪造物品的embedding。可选的，假若一个用户喜欢喜剧片而不喜欢恐怖片，那么设备一般会训练出喜剧片与恐怖片的这一层“对立”关系，因此在通过公式2为用户生成一个喜剧片作为正例伪造物品之后，很有可能会生成一个与该喜剧片类型相对立的电影作为负例伪造物品，即这里的恐怖片，而不太可能生成一个喜剧片作为负例伪造物品。这里作为负例伪造物品的“恐怖片”即是根据在先生成的正例伪造物品“喜剧片”生成的，而不是独立生成的，体现了负例伪造物品对正例伪造物品的依存关系。

可以理解的是，通过上述方式可以生成一系列的正例伪造物品和负例伪造物品，接下来该设备通过评分生成模型为生成的每个正例伪造物品和负例伪造物品生成评分，可选的，评分生成模型生成评分的原理可以如公式(4)所示：

r_u,t＝e_u·e_t+b (4)

在公式(4)中，r_u,t表示生成的第一用户对第t个伪造物品的评分，e_t是第t个伪造物品t的embedding。

在本申请实施例中，通过以上方式生成一系列正例伪造物品及其评分，以及一系列负例伪造物品及其评分之后，要从生成的正例伪造物品中采样部分正例伪造物品，并从生成的负例伪造物品中采样部分负例伪造物品，使得采样得到的正例伪造物品与采样得到的负例伪造物品构成多个伪造物品对，每个所述伪造物品对包括第一用户的一个为正例伪造物品和一个为负例伪造物品，生成多个伪造物品对的方式可以如下：

所述设备为第一正例伪造物品匹配一个负例伪造物品以组成一个所述伪造物品对，所述一个负例伪造物品为所述第一用户的所有负例伪造物品中评分排在前M位的负例伪造物品，M为所述第一用户的所有正例伪造物品的数量，所述第一正例伪造物品为生成的正例伪造物品中属于所述第一用户的任意一个采样到的正例伪造物品，M为正整数。可选的，针对一个被采样到的正例伪造物品，从生成的负例伪造物品中采集一个评分最高的负例伪造物品与该正例伪造物品构成一个伪造物品对，此时该被采样到的负例伪造物品从被采样的池子中剔除掉，然后针对下一个被采样到的正例伪造物品，从生成的负例伪造物品中采集一个评分最高的负例伪造物品与该正例伪造物品构成又一个伪造物品对，依此类推即可为采样到的每个正例伪造物品匹配一个负例伪造物品，从而得到多个伪造物品对。下面示意性的例举了一种实现代码：

可选的，该设备为第一正例真实物品匹配一个负例真实物品以组成一个所述真实物品对，所述一个负例真实物品为所述第一用户的所有负例真实物品中评分排在前N位的负例真实物品，N为所述第一用户的所有正例真实物品的数量，所述第一正例真实物品为已有的正例真实物品中任意一个被采样到的属于所述第一用户的正例真实物品，N为正整数。可选的，针对一个被采样到的正例真实物品，从生成的负例真实物品中采集一个评分最高的负例真实物品与该正例真实物品构成一个真实物品对，此时该被采样到的负例真实物品从被采样的池子中剔除掉，然后针对下一个被采样到的正例真实物品，从生成的负例真实物品中采集一个评分最高的负例真实物品与该正例真实物品构成又一个真实物品对，依此类推即可为采样到的每个正例真实物品匹配一个负例真实物品，从而得到多个真实物品对。

步骤S302：所述设备以最小化损失函数为目标训练多个真实物品对和多个伪造物品对以获得判别模型。

具体地，训练得到的判别模型如公式(5)所示：

在公式(5)中，v可以为r，也可以为f。当v为f时，p(f|u)代表该分布为生成模型生成的伪造物品对的分布，e_u表示第一用户的embedding，表示正例伪造物品的embedding，/>表示负例伪造物品的embedding，b表示第一用户的bias。当v为r时，p(r|u)代表该分布为从真实的物品中采样得到的真实物品对的分布，e_u表示第一用户的embedding，/>表示正例真实物品的embedding，/>表示负例真实物品的embedding，b表示第一用户的bias。判别模型负责分辨上述伪造物品对的分布和上述真实物品对的分布之间的差异，可以采用交叉熵(cross-entropy)损失函数(6)进行优化，使得该判别模型能够具有更高的识别真实物品和伪造物品的能力。

D(r,f|u)＝cross_entropy(p(r|u),p(f|u))(6)

可选的，在训练判别模型的过程中，可以针对每个用户执行如下流程：

1、从真实的数据集中采样真实物品对(r⁺，r^-)；

2、利用当前生成模型生成伪造物品，并从伪造的物品中采样得到伪造物品对(f⁺，f^-)；

3、将(r⁺，r^-)和(f⁺，f^-)一并交给判别模型进行训练，最小化判别模型的损失函数；

4、重复以上步骤直至所有用户对物品的打分都训练完毕。

可选的，将预先设置训练次数达到n次为目标，在这种情况下的训练流程如图4所示。

步骤S303：所述设备根据所述判别模型的损失函数更新所述生成模型。

在一种可选的方案中，所述设备根据所述判别模型的损失函数更新所述生成模型，可以包括：首先，所述设备根据所述判别模型的损失函数获得奖励值reward，其中，所述判别模型的损失函数如公式(6)所示，可以根据公式(6)中的参数D(r，f|u的来计算该奖励值reward，例如，reward＝log(1-D(r,f|u))；然后，所述设备采用所述新的奖励值更新所述生成模型以得到新的生成模型，其中，该生成模型可以采用策略梯度(policy gradient)的方式来训练，从而得到更新后的生成模型，策略梯度的公式如以公式(7)所示：

在公式(7)中，为期望函数，f～Gu表示f是从生成器G(f|u)中生成，另外，i从1到N取值，f_i代表生成器生成的第i个样本，公式(7)中reward即为前面得到的奖励值。

在又一种可选的方案中，所述设备根据所述判别模型的损失函数更新所述生成模型以得到新的生成模型，可以包括：第一步，所述设备确定第一用户对物品的注意力指标，第一用户对物品的注意力指标为采用注意力网络训练所述第一用户的真实物品评分和伪造物品评分得到；第二步，所述设备根据所述判别模型的损失函数获得奖励值reward，并通过所述第一用户对物品的注意力指标优化所述奖励值reward以得到新的奖励值；第三步，所述设备采用所述新的奖励值更新所述生成模型；下面对上述第一步、第二步、第三步展开描述。

第一步：所述设备确定所述第一用户对物品的注意力指标。

具体地，第一用户对物品的注意力指标为采用注意力网络训练所述第一用户的真实物品和伪造物品得到。在很多情况下，第一用户对真实物品对和伪造的物品对之间注意力的权重是不同的，我们可以考虑采用注意力网络记忆第一用户对真实物品对和伪造物品对之间的权重。物品对之间有很多潜在因素，以电影评分为例，一些用户喜欢对他们喜欢的电影评较高的分，而对他们不喜欢的电影评较低的分，例如正例电影为5分，负例电影为1分。一些用户喜欢评价他们喜欢和不喜欢的两部电影的中间分数，例如正例电影为4分和负例电影为3分。对于某个物品对，它们之间的电影分数的差距因不同用户而异。对于pair-wise模块，这些因素应该被关注。我们使用一种注意机制来记住这些潜在的成对因素。在这项工作中，注意力由一系列的权重向量表示，它代表了不同物品对每个用户的重要性。对于某个物品对，不同用户的注意力权重通常是不同的。注意力权重越高，他们就越重要。注意力网络可以是一层或多层的神经网络，它和用户，以及生成的伪造物品对和采样的真实物品对有关。通过该注意力网络可以学习第一用户对两对pair的不同的权重。注意力机制的网络结构如图5所示。

具体来说，第一用户对物品的注意力指标α可以通过公式(8)来计算，具体如下：

在公式(8)中，w_u代表第一用户的注意力权重，代表第一用户对正例真实物品的注意力权重，/>代表第一用户对负例真实物品的注意力权重，/>代表第一用户对正例伪造物品的注意力权重，/>代表第一用户对负例伪造物品的注意力权重，b代第一用户的bias(偏差值)。

第二步：所述设备根据所述判别模型的损失函数获得奖励值reward(获得reward的方式前面已经有描述)，所述设备通过所述第一用户对物品的注意力指标优化所述奖励值reward以得到新的奖励值。

具体地，所述设备通过所述第一用户对物品的注意力指标优化所述奖励值reward以得到新的奖励值，可以具体为：所述设备通过第一用户对物品的注意力指标α优化所述奖励值reward以得到所述第一用户对应的奖励值reward_1，其中，第一用户对物品的注意力指标α、奖励值reward和所述第一用户对应的奖励值reward_1满足如下关系：reward_1＝α*reward；其中，所述第一用户为所述多个用户中的一个用户，所述多个用户各自对应的奖励值用于构成新的奖励值，例如，该新的奖励值可以表示为reward0＝(reward_1₁，reward_1₂，reward_1₃，……，reward_1_i，……，reward_1_n-1，reward_1_n0，其中，reward_1_i为上述多个用户中第i个用户对应的奖励值。

第三步：所述设备采用所述新的奖励值更新所述生成模型。

具体地，该生成模型可以采用策略梯度(policy gradient)的方式来训练，从而得到新的生成模型，该策略梯度的公式如以下公式(9)所示：

在公式(9)的含义可以参照公式(7)，公式(9)中的reward0即为前面得到的更新后的奖励值。

新的生成模型的训练流程可以包括如下操作：

1、使用当前的生成模型生成伪造物品对(f⁺，f^-)；

2、从真实的数据集里采样真实的物品对(r⁺，r^-)；

3、将(r⁺，r^-)和(f⁺，f^-)喂给判别模块，计算奖励值reward；

4、计算attention网络的α；

5、更新reward值得到新的奖励值reward0；

6、利用新的奖励值reward0更新生成模型；

7、重复以上步骤。

可选的，将预先设置训练次数达到m次为目标，在这种情况下的训练流程如图6所示。

可以理解的是，每个物品对(pair)的重要性是不同的，通过引入注意力网络，得到每个pair的重要性权重，可以有效地选择优质的pair，减少劣质pair的负面影响，让我们得到的生成模型、判别模型更具鲁棒性与自适应性。

在本申请实施例中，对判别模型的训练和对生成模型的训练是比较关键的部分，以上也分别对判别模型的训练流程和生成模型的训练流程做了介绍，下面将两个流程结合起来进行介绍，以方便更好的理解本申请实施例，图7为对应的流程示意图。

准备阶段：

1、用随机的参数θ和φ初始化生成模型和判别模型；

2、确定采用由物品构成的数据集S进行预训练；

训练阶段：

1、Repeat

//训练判别模块

For d_epoch do

2、固定生成模型参数不变；

3、从已有的真实物品构成的数据集S中采样真实物品对(r⁺，r^-)；

4、生成模型生成伪造物品并从伪造物品中采集伪造物品对(f⁺，f^-)；

5、用(r⁺，r^-)和(f⁺，f^-)训练判别模型；

6、End for

//训练生成模型；

For g_epoch do

7、固定判别模型参数不变；

8、生成模型生成伪造物品并从伪造物品中采集伪造物品对(f⁺，f^-)；

9、根据策略梯度算法通过判别模块计算奖励值reward；

10、根据注意力网络更新reward，并使用更新后的奖励值reward0更新生成模型；

11、Until判断模型和生成模型收敛。

在本申请实施例中，更新后的生成模型相对于生成模型而言，具体表现在更新公式(2)、公式(3)和公式(4)中的embedding、bias。

步骤S304：所述设备通过更新后的生成模型生成伪造物品的评分。

具体地，所述伪造物品包括所述为多个用户中每个用户分别生成正例伪造物品和负例伪造物品；也即是说，在训练出新的生成模型之后需要通过该生成模型再次为之前生成的每个正例伪造物品和每个负例伪造物品打分，新的生成模型生成的打分更具有参考价值。

步骤S305：所述设备根据伪造物品的评分和已有的真实物品的评分，对所述真实物品和所述伪造物品排序，并根据排序中的顺序向第一用户推荐物品。

具体地，该设备可以为第一用户生成第一用户的真实物品和伪造物品进行排序，其中，排序可以按照分数由高到低的规则排序，也可以按照预定定义的其他规则进行排序；之后根据排序中的顺序向用户推荐物品。该设备还可以为其他用户的真实物品和伪造物品进行排序，例如，假若用户1的伪造物品包括正例伪造物品1且对应评分为4.7、正例伪造物品2且对应评分为4、负例伪造物品1且对应评分为0.5、负例伪造物品2且对应评分为1.1、负例伪造物品3且对应评分为1，用户1的真实物品包括正例真实物品1且对应评分为4.9、正例真实物品2且对应评分为4.5、负例真实物品1且对应评分为3.5、负例真实物品2且对应评分为3.3、负例真实物品3且对应评分为3.4；那么，按照分数从高到低的方式排序的话，得到的排序先后顺序依次为：正例真实物品11、正例伪造物品01、正例真实物品12、正例伪造物品02、负例真实物品11、负例真实物品03、负例真实物品12、负例伪造物品02、负例伪造物品13、负例伪造物品01。之后，按照这种顺序将这些真实物品和伪造物品推荐给用户1。

以上对本申请实施例的原理进行了详细介绍，下面结合一个具体的例子进行说明。

第一步：数据输入

本申请实施例向数据集中输入所有用户的身份标识ID和每个用户打分过的物品的标识ID。以物品推荐为例，本实施例一共有10个物品，输入的信息如表3所示：

表3

条目序号	用户ID	物品ID
			1	U1	I1
2	U1	I3
			3	U1	I5
4	U1	I8
			5	U2	I2
6	U2	I3
			7	U2	I4

在表3中，条目序号为1的第一条代表身份标识为U1的用户评价过物品I1，条目序号为2的第二条代表身份标识为U1的用户评价过物品I3，其余依此类推。

第二步：初始化生成模型的参数和判别模型的参数，包括用户embedding(表示向量)和物品embedding的大小，训练batch的大小，以及训练的速率，其中batch用于表征样本时一次取的样本的数量。

第三步：保持生成模型参数不变，训练判别模型。训练时对于每一个用户需要从真实的物品中采样物品对，物品对的数量与正例真实物品的数量相同，其中，正例真实物品指用户评分过的且评分较高的物品，如4分及以上的物品。在本实施例中，对于用户U1来说，其评价过的物品I1，I3，I5，I8就是正例真实物品，用户U1没评价过的物品I2，I4，I6，I7，I9，I10就是负例真实物品。用户U1有4个评价过的物品，所以采样的真实物品对是四对，具体如下：

(I1,I2)，(I3,I4)，(I5,I9)，(I8,I6)；

其中负例真实物品I2、I4、I9、I6是从该用户U1没有评价过的物品中抽取的，可以随机抽取，也可以按照预先规定的其他策略来抽取。在训练时，还需要生成模型生成伪造的物品对。生成模块中的正例生成器负责生成正例伪造物品，负例生成器负责生成负例伪造物品。

例如，对于用户U1，生成模型生成的物品对可以是：

(I1,I2)，(I2，I6)，(I5，I7)，(I8，I9)；

在训练判别模型时，需要真实物品对(I1,I2)，(I3,I4)，(I5,I9)，(I8,I6)和生成的伪造物品对(I1,I2)，(I2，I6)，(I5，I7)，(I8，I9)一并交给判别模型，判别模型会通过最小化损失函数来尽可能的区别真实物品对和伪造物品对，达到提升判别能力的目的。重复训练判别模型，直到每一个用户的物品对都被充分训练过。

第四步：保持判别模型参数不变，训练生成模型。和训练判别模型阶段类似，对于每一个用户，需要从已有的真实物品中采集真实物品对，并通过生成模型生成伪造物品对，依旧以用户U1为例：

针对该用户U1的真实物品对可以如下：

(I1,I2)，(I3,I4)，(I5,I9)，(I8,I6)；

针对该用户U1的伪造物品对可以如下：

(I1,I2)，(I2，I6)，(I5，I7)，(I8，I9)。

与训练判别模型时的不同之处在于，判别模型会根据输入的两组物品对计算出reward值。生成模块会根据在该reward的基础上更新得到的新奖励值reward0值来更新参数，重复训练生成模块，直到每一个用户的物品对都被充分训练过。

第五步：重复3-4步骤直至判断模型和生成模型训练至最佳。

第六步：设备根据最终训练得到的生成模型为生成的伪造的物品评分。

第七步：向设备中输入想要与测评分的用户ID，例如，用户U1，该设备会针对该用户U1对所有物品按照评分进行排序，评分高则喜好程度高，该所有物品包括已有的真实物品和生成的伪造物品，表4对该排序结果进行了例举性示意：

表4

用户ID	物品ID	评分
			U1	I3	2.54
U1	I5	2.35
			U1	I7	1.93
U1	I1	1.54
			U1	I8	1.32
U1	I2	1.14
			U1	I4	0.97
U1	I10	0.78
			U1	I9	0.76
U1	I6	0.54

根据表4所示的推荐列表，可以获知用户U1可能最喜欢的物品是物品I7。

通过执行上述方法，伪造物品对中的负例伪造物品是依赖正例伪造物品而生成的，充分地考虑了负例伪造物品与正例伪造物品之间的潜在关系，使得伪造物品对包含的信息量更丰富，提升了训练效果，增强了生成模型的生成能力，因此对该生成模型生成的物品和已有的真实物品进行排序所产生的推荐结果对用户而言更具有参考价值。进一步地，采集评分高的物品组成物品对，包括真实物品对和伪造物品对，由于评分高的物品更受用户的关注，因此其对用户而言这种方式得到的物品对包含的信息量更大且噪声更小，根据这样的物品对进行训练可以充分地分析受用户关注的特征，从而训练出生成能力更强的生成模型。

以上从硬件器件的角度介绍了一种设备，在实际应用中也有完全通过功能模块对终端结构进行描述的，为了本领域的技术人员能够更好的理解本申请的思想，如图8所示，本申请实施例还提供了一种基于生成对抗网络的模型训练设备80，该设备包括生成模型801、训练模型802和判别模型，其中，各个模型的介绍如下：

生成模型801用于为第一用户生成正例伪造物品和负例伪造物品，其中所述负例伪造物品为根据所述正例伪造物品生成的，所述第一用户的正例伪造物品为预测的受所述第一用户关注的物品，所述第一用户的负例伪造物品为预测的不受所述任第一用户关注的物品；

训练模型802用于训练多个真实物品对和多个伪造物品对以得到判别模型803，所述判别模型用于分辨所述多个真实物品对与所述多个伪造物品对之间的差异；每个真实物品对包括一个正例真实物品和一个负例真实物品，每个伪造物品对包括一个所述正例伪造物品和一个所述负例伪造物品；所述正例真实物品为根据所述第一用户的操作行为认定的受所述第一用户关注的物品，所述负例真实物品为根据所述第一用户的操作行为认定的不受所述第一用户关注的物品；

所述训练模型802用于根据所述判别模型的损失函数更新所述生成模型。

在一种可选的方案中，该设备还包括推荐模型，其中：

在又一种可选的方案中，在所述生成模型为第一用户生成正例伪造物品和负例伪造物品之后，所述训练模型训练多个真实物品对和多个伪造物品对以得到判别模型之前，所述训练模型还用于：

在又一种可选的方案中，所述初始生成模型包括正例生成模型、负例生成模型和评分生成模型；所述生成模型，用于为第一用户生成正例伪造物品和负例伪造物品，具体为：

在又一种可选的方案中，用于根据所述判别模型的损失函数更新所述生成模型，具体为：

采用所述新的奖励值更新所述生成模型。

在又一种可选的方案中，所述训练模型确定所述第一用户对物品的注意力指标，具体为：

α＝softmax(g(r⁺,r^-,f⁺,f^-|u))

在又一种可选的方案中，所述通过所述第一用户对物品的注意力指标优化所述奖励值reward以得到新的奖励值，具体为：

根据所述第一用户对应的奖励值reward_1确定新的奖励值。

需要说明的是，各个单元的实现还可以对应参照前述实施例中描述的基于生成对抗网络的模型训练方法，例如步骤S301-S305。

本申请实施例还提供一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在处理器上运行时，实现前述实施例中描述的基于生成对抗网络的模型训练方法，例如步骤S301-S305。

本申请实施例还提供一种计算机程序产品，当所述计算机程序产品在处理器上运行时，实现前述实施例中描述的基于生成对抗网络的模型训练方法，例如步骤S301-S305。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，该流程可以由计算机程序来指令相关的硬件完成，该程序可存储于计算机可读取存储介质中，该程序在执行时，可包括如上述各方法实施例的流程。而前述的存储介质包括：ROM或随机存储记忆体RAM、磁碟或者光盘等各种可存储程序代码的介质。

Claims

1.一种基于生成对抗网络的模型训练方法，其特征在于，包括：

设备通过生成模型为第一用户生成正例伪造物品和负例伪造物品，其中所述负例伪造物品为根据所述正例伪造物品生成的，所述第一用户的正例伪造物品为预测的受所述第一用户关注的物品，所述第一用户的负例伪造物品为预测的不受所述第一用户关注的物品；

所述设备训练多个真实物品对和多个伪造物品对以得到判别模型，所述判别模型用于分辨所述多个真实物品对与所述多个伪造物品对之间的差异；每个真实物品对包括一个正例真实物品和一个负例真实物品，每个伪造物品对包括一个所述正例伪造物品和一个所述负例伪造物品；所述正例真实物品为根据所述第一用户的操作行为认定的受所述第一用户关注的物品，所述负例真实物品为根据所述第一用户的操作行为认定的不受所述第一用户关注的物品；

所述设备根据所述判别模型的损失函数更新所述生成模型；

所述设备根据所述判别模型的损失函数更新所述生成模型，包括：

所述设备确定所述第一用户对物品的注意力指标，所述第一用户对物品的注意力指标为采用注意力网络训练所述第一用户的真实物品评分和伪造物品评分得到；

所述设备根据所述判别模型的损失函数获得奖励值reward，并通过所述第一用户对物品的注意力指标优化所述奖励值reward以得到新的奖励值；

所述设备采用所述新的奖励值更新所述生成模型。

2.根据权利要求1所述的方法，其特征在于，所述设备根据所述判别模型的损失函数更新所述生成模型之后，还包括：

所述设备通过更新后的生成模型生成伪造物品的评分，所述伪造物品包括所述为第一用户生成的正例伪造物品和负例伪造物品；

所述设备根据伪造物品的评分和已有的真实物品的评分，对所述真实物品和所述伪造物品排序，并根据排序中的顺序向所述第一用户推荐物品。

3.根据权利要求1或2所述的方法，其特征在于，所述设备通过生成模型为第一用户生成正例伪造物品和负例伪造物品之后，所述设备训练多个真实物品对和多个伪造物品对以得到判别模型之前，还包括：

所述设备为多个第一正例伪造物品各匹配一个第一负例伪造物品以组成所述多个伪造物品对，所述第一负例伪造物品属于所述第一用户的负例伪造物品中评分排在前M位的负例伪造物品，M为所述第一正例伪造物品的数量，所述第一正例伪造物品为从所述生成模型生成的正例伪造物品中采样到的所述第一用户的正例伪造物品；

所述设备为多个第一正例真实物品各匹配一个第一负例真实物品以组成所述多个真实物品对，所述第一负例真实物品属于所述第一用户的负例真实物品中评分排在前N位的负例真实物品，N为所述第一正例真实物品的数量，所述第一正例真实物品为从所述第一用户已有的正例真实物品中采样到的一个正例真实物品。

4.根据权利要求1或2所述的方法，其特征在于，所述生成模型包括正例生成模型、负例生成模型和评分生成模型；所述设备通过生成模型为第一用户生成正例伪造物品和负例伪造物品，包括：

其中，g⁺(f⁺|u)为所述正例伪造物品的分布，e_u为第一用户的嵌入向量embedding，是待生成的正例伪造物品的embedding，e_i是第i个正例伪造物品的embedding，b代表所述第一用户的偏差值bias；g^-(f^-|u,f⁺)为所述负例伪造物品的分布，e_f-是待生成的负例伪造物品的embedding。

5.根据权利要求1或2所述的方法，其特征在于，所述设备确定所述第一用户对物品的注意力指标，包括：

α＝softmax(g(r⁺,r^-,f⁺,f^-|u))

其中，α为所述第一用户u的对物品的注意力指标，w_u表示训练出的所述第一用户的权重，表示训练出的第一用户的正例真实物品的权重，/>表示训练出的第一用户的负例真实物品的权重，/>表示训练出的所述第一用户的正例伪造物品的权重，/>表示训练出的所述第一用户的负例伪造物品的权重；b为所述第一用户的偏差值bias，/>表示第一用户的负例真实物品的嵌入向量embedding，/>表示第一用户的正例真实物品的嵌入向量embedding。

6.根据权利要求1或2所述的方法，其特征在于，所述通过所述第一用户对物品的注意力指标优化所述奖励值reward以得到新的奖励值，包括：

根据所述第一用户对应的奖励值reward_1确定新的奖励值。

7.一种基于生成对抗网络的模型训练设备，其特征在于，包括：

生成模型，用于为第一用户生成正例伪造物品和负例伪造物品，其中所述负例伪造物品为根据所述正例伪造物品生成的，所述第一用户的正例伪造物品为预测的受所述第一用户关注的物品，所述第一用户的负例伪造物品为预测的不受所述第一用户关注的物品；

所述训练模型，用于根据所述判别模型的损失函数更新所述生成模型，包括：

采用所述新的奖励值更新所述生成模型。

8.根据权利要求7所述的设备，其特征在于，还包括推荐模型，其中：

9.根据权利要求7或8所述的设备，其特征在于，在所述生成模型为第一用户生成正例伪造物品和负例伪造物品之后，所述训练模型训练多个真实物品对和多个伪造物品对以得到判别模型之前，所述训练模型还用于：

10.根据权利要求7或8所述的设备，其特征在于，所述生成模型包括正例生成模型、负例生成模型和评分生成模型；所述生成模型，用于为第一用户生成正例伪造物品和负例伪造物品，具体为：

其中，g⁺(f⁺|u)为所述正例伪造物品的分布，e_u为第一用户的嵌入向量embedding，e_f+是待生成的正例伪造物品的embedding，e_i是第i个正例伪造物品的embedding，b代表所述第一用户的偏差值bias；g^-(f^-|u,f⁺)为所述负例伪造物品的分布，是待生成的负例伪造物品的embedding。

11.根据权利要求7或8所述的设备，其特征在于，所述训练模型确定所述第一用户对物品的注意力指标，具体为：

α＝softmax(g(r⁺,r^-,f⁺,f^-|u))

12.根据权利要求7或8所述的设备，其特征在于，所述通过所述第一用户对物品的注意力指标优化所述奖励值reward以得到新的奖励值，具体为：

根据所述第一用户对应的奖励值reward_1确定新的奖励值。

13.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有程序指令，当其在处理器上运行时，实现权利要求1-6任一所述的方法。