CN113420866A

CN113420866A - 基于双重生成对抗网络的评分预测方法

Info

Publication number: CN113420866A
Application number: CN202110698814.7A
Authority: CN
Inventors: 秦继伟; 武步尘
Original assignee: Xinjiang University
Current assignee: Xinjiang University
Priority date: 2021-06-23
Filing date: 2021-06-23
Publication date: 2021-09-21
Anticipated expiration: 2041-06-23
Also published as: CN113420866B

Abstract

本发明公开了基于双重生成对抗网络的评分预测方法，主要涉及深度学习领域；包括步骤：S1、将样本分为用户喜欢的样本、未购买的样本和用户不喜欢的样本三种类型；S2、使用两个GAN，第一个GAN的G为负样本生成器，第二个GAN的G为正样本生成器，负样本生成器用于生成高质量的负样本；S3、将负样本生成器生成的样本作为额外的标记数据输入到正样本生成器中，并随机选取一些未购买的样本作为输入输入到负样本生成器中以生成正样本；S4、第二个GAN输入用户喜欢的购买向量并要求在第一个GAN生成的负样本元素上生成接近0的输出，并将随机采样的未购买向量尽可能生成x(0＜x＜1)；本发明能够提高模型对推荐预测的精度和模型的泛化力。

Description

基于双重生成对抗网络的评分预测方法

技术领域

本发明涉及深度学习领域，具体是基于双重生成对抗网络的评分预测方法。

背景技术

协同过滤(CF:Collaborative Filtering)作为最成熟的推荐技术之一，以用户的历史评分记录为依据，计算用户间评分的相似度，建立用户偏好模型；用户偏好模型的建立是影响推荐算法质量高低的关键因素。当用户对推荐资源评分矩阵稀疏时，难以建立用户模型；面对新用户、新资源时会带来冷启动问题，无法有效完成资源推荐。因此，如何充分利用用户和资源信息，尤其是他们之间的隐含信息，建立用户偏好模型，一直以来是研究们关注的热点。

随着深度学习的不断发展，生成对抗神经网络(GAN：Generative AdversarialNetworks)已经被成功应用到推荐领域。生成对抗网络是通过生成模型G(Generator)和判别模型D(Discriminator)不断博弈，进而使G学习到数据的分布，在训练过程中，生成器试图欺骗鉴别器，并让其认为生成模型中的数据是真实数据。鉴别器试图正确判断真实数据。在GAN训练期间，生成模型试图通过输入假数据生成真实数据，而区别模型则估计数据为真或假的可能性(来自生成模型)。最终，鉴别器无法区分生成器中的数据，而生成器可以生成我们需要的数据。

CFGAN是基于生成对抗网络和协同过滤的非常成功的深度推荐框架。CFGAN是在协同过滤领域中引入GAN，将隐性特征与文件的关系，迁移到用户与项目中来，并且在数据预处理方面，采用矢量方式对抗训练，提出基于矢量方式对抗训练的GAN框架。由于数据更易于收集，因此它计划将重点放在具有隐式反馈的CF上。CFGAN的生成模型试图生成真实的购买向量。同样，D试图区分生成的用户购买向量和从地面真实情况获得的真实购买向量。生成器通过生成与购买向量类似的向量来与判别器进行博弈，但是最终生成器将训练得到一个全1向量，为此，将负采样技术引入CFGAN，并通过损失函数进行优化，保***G学习到用户购买过的物品为1、未购买过的为0从而生成非全1的购买向量。CFGAN在性能上取得了巨大的成功，然而其对负样本的选择过于随意，因为实际生活中，用户未购买的物品往往并不表示用户不喜欢的物品，反而有很大可能是用户没有见过的物品，同时，以往的算法都没有利用数据集中用户没有购买的样本这一信息，导致模型浪费了大量的隐含信息，没有达到模型性能的极限。

发明内容

本发明的目的在于解决现有技术中存在的问题，提供基于双重生成对抗网络的评分预测方法，利用了用户嵌入信息，增强用户与项目、用户与用户之间的亲密性，对模型作出改善，使其更好地适应数据稀疏及用户冷启动问题，以此提高模型对推荐预测的精度和模型的泛化力。

本发明为实现上述目的，通过以下技术方案实现：

基于双重生成对抗网络的评分预测方法，包括步骤：

S1、将样本分为用户喜欢的样本、未购买的样本和用户不喜欢的样本三种类型；

S2、使用两个GAN，第一个GAN的G为负样本生成器，第二个GAN的G为正样本生成器，负样本生成器用于生成高质量的负样本；

S3、将负样本生成器生成的样本作为额外的标记数据输入到正样本生成器中，并随机选取一些未购买的样本作为输入输入到负样本生成器中以生成正样本；

S4、第二个GAN输入用户喜欢的购买向量并要求第一个GAN生成的负样本元素上生成接近0的输出，并将随机采样的未购买向量尽可能生成x(0＜x＜1)。

对比现有技术，本发明的有益效果在于：

1、本发明充分利用了用户嵌入矩阵，增强用户与用户之间的潜在关系；将负样本和生成对抗网络相结合，提高了模型的准确度；利用了用户没有购买过的样本，使模型对用户项目之间的隐含关系得以应用；

2、本发明提出了一个基于GAN的通用CF框架名为DGAN，充分利用了用户-资源的隐含信息，将未购买的项目也利用起来，并通过对比实验证明本发明利用的隐含信息有效；通过在两个数据集上进行了大量的实验验证所获得的实验结果不仅证明了本发明的有效性，而且还证明了本发明的优越性，与最新的top-N相比，其准确性得到了显着提高。

附图说明

附图1是本发明的总体架构图；

附图2是基于本发明及对比算法评分预测结果(movielens-100K)；

附图3是基于本发明及对比算法评分预测结果(movielens-1M)。

具体实施方式

下面结合具体实施例，进一步阐述本发明。应理解，这些实施例仅用于说明本发明而不用于限制本发明的范围。此外应理解，在阅读了本发明讲授的内容之后，本领域技术人员可以对本发明作各种改动或修改，这些等价形式同样落于本申请所限定的范围。

实施例：如附图1所示，本发明所述是基于双重生成对抗网络的评分预测方法，包括步骤：

具体的：

1、负样本生成器

收集用户历史数据信息，进行数据处理，标记用户喜欢的样品、未购买样品和用户不喜欢样品三种不同类型的样品，我们随机选取一些用户不喜欢的样本作为输入输入到负样本生成器中。

2、正样本生成器

通过将负样本生成器生成的样本作为额外的标记数据输入到正样本生成器中，以生成正样本。正样本生成器输入用户喜欢的购买向量并要求负样本生成器生成的元素上产生接近0的输出，同时将随机采样的未购买向量尽可能生成x(0＜x＜1)，以此提高评分预测模型的精度。

3、评分预测推荐模型

参照图1，将负样本生成器和正样本生成器进行融合和学习并测试评分预测，以便更好地为用户推荐喜欢的项目，提高用户满意度。

具体步骤如下：

步骤1：从负样本生成器中提取出负样本。

步骤2：从正样本生成器中生成项目评分。

步骤3：将负样本生成器和正样本生成器进行融合和学习并测试评分预测。

4、实验证明

如附图2-3，采用2个数据集movielens-100K和movielens-1M，采用以下7种对比算法：Itempop、BPR、MPR、CDAE、IRGAN、CFGAN、GauphGAN以此验证本模型性能优于其它对比推荐算法。

Claims

1.基于双重生成对抗网络的评分预测方法，其特征在于，包括步骤：

S3、将负样本生成器生成的样本作为额外的标记数据输入到正样本生成器中，以生成正样本；

S4、第二个GAN输入用户喜欢的购买向量并要求在第一个GAN生成的负样本元素上生成接近0的输出，并将随机采样的未购买向量尽可能生成x(0＜x＜1)；本发明能够提高模型对推荐预测的精度和模型的泛化力。