CN111259244A - 一种在离散数据上使用对抗模型的方法 - Google Patents

一种在离散数据上使用对抗模型的方法 Download PDF

Info

Publication number
CN111259244A
CN111259244A CN202010044722.2A CN202010044722A CN111259244A CN 111259244 A CN111259244 A CN 111259244A CN 202010044722 A CN202010044722 A CN 202010044722A CN 111259244 A CN111259244 A CN 111259244A
Authority
CN
China
Prior art keywords
model
user
generator
items
virtual
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010044722.2A
Other languages
English (en)
Other versions
CN111259244B (zh
Inventor
叶阳东
孙中川
吴宾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhengzhou University
Original Assignee
Zhengzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhengzhou University filed Critical Zhengzhou University
Priority to CN202010044722.2A priority Critical patent/CN111259244B/zh
Publication of CN111259244A publication Critical patent/CN111259244A/zh
Application granted granted Critical
Publication of CN111259244B publication Critical patent/CN111259244B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0241Advertisements
    • G06Q30/0251Targeted advertisements
    • G06Q30/0255Targeted advertisements based on user history
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/06Buying, selling or leasing transactions
    • G06Q30/0601Electronic shopping [e-shopping]
    • G06Q30/0631Item recommendations

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Finance (AREA)
  • Theoretical Computer Science (AREA)
  • Accounting & Taxation (AREA)
  • Strategic Management (AREA)
  • Development Economics (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Marketing (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Economics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Business, Economics & Management (AREA)
  • Game Theory and Decision Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种在离散数据上使用对抗模型的方法。本发明中的模型包含两部分,生成器和判别器。其中,生成器被视为一个注意力网络,用于建模数据的特征并生成注意力评分;判别器用于判断生成注意力评分的正确性。以物品推荐为具体实例,生成器的目标是建模用户的历史反馈数据,生成合理的注意力评分,然后与物品的特征向量结合,在隐语义空间中生成一个特征向量(虚拟物品),该特征向量保存了用户喜欢物品的特征。判别器假设用户对已交互物品的偏爱大于虚拟物品。生成器和判别器的训练是一个对抗的过程:生成器通过最大化损失函数,生成用户喜欢的虚拟物品,以此生成合理的注意力评分;判别器通过最小化目标函数达到区分用户对虚拟物品和已交互物品的偏好。因为生成虚拟物品的过程是可微的,本发明中对抗模型的参数可以使用基于梯度的算法进行端到端地优化。

Description

一种在离散数据上使用对抗模型的方法
技术领域
本发明涉及机器学习领域,尤其是对抗模型在离散数据上的训练方法。
背景技术
推荐***通过对用户的历史反馈记录建模,然后向用户推荐个性化的物品。隐式反馈数据中只含有用户与物品的交互记录,但是已交互的物品并不代表用户喜欢,可能是用户的误点击;未交互的物品中可能存在用户喜欢的物品。因此隐式反馈数据中含有大量噪声。生成式对抗模型可以从无标签数据中学习数据的真实分布,具有建模隐式反馈数据的潜力。但是原始的生成式对抗模型是针对连续数据(如图像)的,并使用梯度下降的方法优化模型。推荐***中物品是离散数据,不能直接使用生成式对抗模型建模。现有解决方法是将物品推荐视为一个策略,然后使用策略梯度优化模型。但是在推荐***中,基于策略梯度的对抗模型具有训练不稳定、收敛缓慢且时间复杂度高等问题。
发明内容
针对建模隐式反馈数据的需求和现有方法的缺点,本发明引入注意力机制,构建一个整体可微的对抗模型,其目的是提高对抗模型在离散的物品推荐数据上的稳定性和收敛速度,更高效的建模用户的隐式反馈数据。
为了对本发明更清楚、完整地描述,此处使用物品推荐作为具体的实例解释本发明,但并不用于限定本发明。
为了更好的对用户和物品建模,推荐***通常将其映射到一个隐语义空间中,使用特征向量表示用户和物品;该类模型统称为隐语义模型。
物品的特征向量表示物品的特征,向量元素的值表示物品是否拥有该特征及显著程度。用户的特征向量表示用户的喜爱偏好,向量元素的值表示用户对物品特征的喜欢程度。
基于上述隐语义空间的特点,本发明结合用户对物品的注意力评分和物品的特征向量,使用注意力机制生成一个新的特征向量,该向量保留了用户所喜欢物品的特征,因此该特征向量可以被视为一个个性化的“虚拟物品”。
本发明中生成式对抗模型包含两部分:生成器和判别器。
对于给定用户,本发明中生成器的目的是对所有物品生成合理的注意力评分;本发明中判别器的目的是判断生成注意力评分的合理性或正确性。
由上述描述可知,在本发明中,生成器的输入是一个用户,输出是该用户对每个物品的注意力评分;判别器的输入是生成的注意力评分,然后将其与物品的特征向量结合,生成一个虚拟物品。基于该虚拟物品,判别器可以对注意力评分的合理性做出判断。
判别器假设用户对隐式反馈中已交互物品的喜欢程度大于生成的虚拟物品,并基于该假设计算模型的损失。判别器的目标是区分用户对已交互物品与虚拟物品的喜欢程度,需要最小化模型损失。生成器的目标是生成合理的注意力评分,然后使用注意力机制生成用户喜欢的虚拟物品,需要最大化模型损失。因此,判别器与生成器的训练是一个对抗的过程。
然而,使用所有物品的特征向量生成虚拟物品的时间复杂度较高,当物品数量较大时,模型的训练过程会非常耗时。
在大多数真实的推荐场景中,物品的流行度是服从长尾分布的,用户对大部分物品并不感兴趣或不关心。这部分物品对训练模型提供较少的信息,对模型的优化帮助有限。
为了降低模型时间复杂度,提升训练效率,本发明使用自适应采样获得少量但含有丰富训练信息的物品用于生成虚拟物品。
基于上述描述,本发明的训练步骤主要如下:
(1)固定生成器的参数,训练判别器:
遍历用户隐式反馈数据,对于每个用户-物品交互记录,做如下操作:
(1-1)使用生成器生成用户对所有物品的注意力评分;
(1-2)根据当前生成器的状态自适应地采样得到少量但还有丰富训练信息的物品;
(1-3)根据采样得到的物品的注意力评分和特征向量,生成虚拟物品;
(1-4)使用判别器计算用户对已交互物品和虚拟物品的成对损失;
(1-5)通过最小化(1-4)中的损失,优化判别器的参数;
(2)固定判别器的参数,训练生成器:
遍历用户隐式反馈数据,对于每个用户-物品交互记录,做如下操作:
(2-1)通过步骤(1-1)至步骤(1-4)计算成对损失;
(2-2)通过最大化(2-1)中的损失,优化生成器的参数。
(3)重复步骤(1)和步骤(2)直至模型收敛。
模型收敛之后,生成器已经成功地从用户的隐式反馈数据中建模用户的行为偏好。
对于给定用户,生成器能够合理地给出该用户对所有物品的注意力评分,将物品按照注意力评分从大到小排序,向用户推荐排序列表中排名靠前的物品。
由上述训练过程可知,本发明使用注意力机制生成虚拟物品,在离散数据上构建了一个可微的对抗模型,因此可以使用基于梯度的方法,端到端的训练对抗模型。本发明能够提升对抗模型在离散数据上训练的稳定性和收敛速度。
物品的流行度服从长尾分布,大部分物品对于模型的优化帮助较小。本发明使用自适应的采样方式,将该先验知识融入到对抗模型的训练过程中,降低了模型的时间复杂度,提高了训练效率。
采用本发明提供的上述方法,可以提高对抗训练在离散数据上训练的稳定性、收敛速度和训练效率。
采用本发明提供的上述方法,能够更准确有效地为用户推荐喜爱的物品。
附图说明
为了更清楚的说明本发明的技术方案,下面将对实施例或现有技术描述中所需要使用的附图简单地介绍。
图1是本发明的模型示意图;
图2是本发明以矩阵分解模型作为生成器和判别器的模型结构图;
图3是本发明中对抗模型的训练流程图;
图4是本发明的学习曲线图。
图5是本发明和对比算法训练时间的对比。
具体实施
图1是本发明的模型示意图。以下将结合具体实例及附图对本发明的技术方案进行清楚、完整地描述。此处的实例与描述仅用于解释本发明,并不用于限定本发明。
令U和I分别表示用户和物品的集合,m和n分别表示用户和物品数量。使用矩阵S表示用户与物品的交互记录:sui=1表示用户u和物品i存在交互记录,否则sui=0。
令矩阵P和Q表示生成器中用户和物品的特征矩阵,其中pu和qi表示用户和物品的特征向量,b表示所有物品的偏置向量,bi表示物品i的偏置。令矩阵W和V表示判别器中用户和物品的特征矩阵,其中wu和vi表示用户和物品的特征向量,c表示所有物品的偏置向量,ci表示物品i的偏置。
图2是本发明以矩阵分解模型作为生成器和判别器的模型结构图,以矩阵分解模型作为实例,本发明的详细步骤如下:
步骤(1)固定生成器的参数,训练判别器:
遍历用户-物品交互记录S,对每个用户-物品交互记录(u,i)做如下操作:
步骤(1-1)生成器的目标是根据排序评分为每个用户提供一个个性化的推荐列表。令ru表示所有物品的评分向量,其计算方式如下:
Figure BDA0002366292140000041
其中,b为物品偏置向量,T为矩阵转置操作。
步骤(1-2)将所有物品的评分向量归一化为概率分布向量:
Figure BDA0002366292140000042
其中τ是调控参数,k=1,2,…,n。
步骤(1-3)以步骤(2)中的概率向量,随机采取少量物品,将采样得到的物品集合记为Eui
步骤(1-4)将Eui中物品的评分矩阵归一化为注意力评分:
Figure BDA0002366292140000043
步骤(1-5)判别器的目标是判断生成器生成的注意力评分是否合理。从物品的角度来说,注意力评分表示用户对物品特征的喜欢程度。因此,基于隐语义空间的特点,可以结合注意力评分和物品特征向量生成一个新的特征向量:
Figure BDA0002366292140000044
其中,wk是物品k的特征向量。w’j是生成的特征向量,称为虚拟物品,该虚拟物品保留了用户所喜欢物品的特征。
步骤(1-6)虚拟物品的偏置计算如下:
Figure BDA0002366292140000051
其中ck是判别器中物品k的偏置。
步骤(1-7)基于生成的特征向量和偏置,判别器对虚拟物品的评分为:
Figure BDA0002366292140000052
步骤(1-8)计算判别器对已交互物品i的评分:
Figure BDA0002366292140000053
步骤(1-9)计算已交互物品与虚拟物品的成对损失:
L=-lnσ(yui-y′uj) (8)
步骤(1-10)固定生成器的参数,使用梯度下降算法最小化步骤(1-9)中的成对损失,优化判别器的参数。
步骤(2)固定判别器的参数,训练生成器:
遍历用户-物品交互记录S,对每个用户-物品交互记录(u,i)做如下操作:
步骤(2-1)通过步骤(1-1)计算生成器对所有物品的评分。
用户的偏好更多地表现在已交互物品上,为保证采样得到的已交互物品的数量,在训练生成器时,本发明对已交互物品和未交互物品的采样分别进行。
步骤(2-2)将用户u已交互物品的评分转为已交互物品的概率分布:
Figure BDA0002366292140000054
其中,τ是调控参数,i∈Su +,Su +表示用户u已交互物品的集合。
步骤(2-3)将用户u未交互物品的评分转为未交互物品的概率分布:
Figure BDA0002366292140000055
其中,τ是调控参数,j∈Su -,Su -表示用户u未交互物品的集合。
步骤(2-4)根据步骤(2-2)和步骤(2-3)中的物品概率分布,分别采取已交互物品和未交互物品,将采样得到的物品集合记为Eui
步骤(2-5)通过步骤(1-4)至步骤(1-9)计算已交互物品和虚拟物品的成对损失。
步骤(2-6)固定判别器的参数,使用梯度上升算法最大化步骤(2-5)中的成对损失,优化生成器的参数。
步骤(3)如果模型收敛,则终止训练,否则执行步骤(1)至步骤(2)。
本发明的训练流程如图3所示。
在物品推荐阶段,对于给定用户,使用生成器计算所有物品的注意力评分,将物品根据注意力评分降序排序,然后向用户推荐排序列表中排名靠前的物品。
图4是本发明在四个数据集上的学习曲线,其中AACF是本发明公开的算法。图中横坐标是训练的迭代次数,纵坐标是推荐性能的评价指标NDCG。该图展示了本发明公开算法优越的稳定性和收敛速度。
图5是本发明公开算法与对比算法训练时间的对比。本发明公开算法的具有更少的训练收敛时间。
本领域的技术人员容易理解本发明中的实施例。以上所述仅为本发明的基本实现的实例而已,并不用以限制本发明。

Claims (11)

1.一种在离散数据上使用对抗模型的方法,其特征在于:对抗模型的生成器被视为一个注意力网络,其目标是建模用户的历史反馈数据,生成用户对物品的注意力评分;判别器的目标是判断生成注意力评分的正确性或合理性。
2.根据权利要求1所述的对抗模型,其特征在于,将生成器的目标由离散的物品推荐转换为连续的注意力评分生成。
3.根据权利要求1和2所述的对抗模型,其特征在于,使用注意力机制和注意力评分在隐语义空间中生成虚拟物品,该虚拟物品保留了用户喜欢物品的特征。因此判别器可以通过判断用户对虚拟物品的喜欢程度来判断注意力评分的正确性。
4.根据权利要求1和3所述的对抗模型,其特征在于,以连续空间中的虚拟物品为媒介,判别器提供的训练信息能够可微地传递给生成器,判别器和生成器都可以使用基于梯度的方法训练。
5.模型高效训练的关键在于使用自适应采样降低生成虚拟物品的时间复杂度。物品流行度服从长尾分布,通过融入该先验知识,减少大量无效的运算,提高训练效率。
6.根据权利要求5所述的高效训练模型的方法,其特征在于,使用自适应采样降低模型时间复杂度,采样概率为:
Figure FDA0002366292130000011
Figure FDA0002366292130000012
Figure FDA0002366292130000013
其中,τ是调控参数,Su +和Su -表示用户u已交互物品的集合和未交互物品集合。记采样得到的物品集合为Eui
7.根据权利要求2和6所述的对抗模型,其特征在于,物品的注意力评分计算方式为:
Figure FDA0002366292130000014
8.根据权利要求3和7所述的对抗模型,其特征在于,生成虚拟物品的方式为:
Figure FDA0002366292130000021
Figure FDA0002366292130000022
9.根据权利要求3和8所述的对抗模型,其特征在于,用户对虚拟物品评分的计算方式为:
Figure FDA0002366292130000023
10.根据权利要求4和9所述的对抗模型,其特征在于,模型关于已交互物品和虚拟物品的损失计算:
L=-lnσ(yui-y′uj)
11.根据权利要求1和5所述的对抗模型,其特征在于,模型整体是可微的,判别器和生成器的参数都能使用基于梯度的算法高效地优化。
CN202010044722.2A 2020-01-14 2020-01-14 一种基于对抗模型的推荐方法 Active CN111259244B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010044722.2A CN111259244B (zh) 2020-01-14 2020-01-14 一种基于对抗模型的推荐方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010044722.2A CN111259244B (zh) 2020-01-14 2020-01-14 一种基于对抗模型的推荐方法

Publications (2)

Publication Number Publication Date
CN111259244A true CN111259244A (zh) 2020-06-09
CN111259244B CN111259244B (zh) 2022-12-16

Family

ID=70946985

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010044722.2A Active CN111259244B (zh) 2020-01-14 2020-01-14 一种基于对抗模型的推荐方法

Country Status (1)

Country Link
CN (1) CN111259244B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109360069A (zh) * 2018-10-29 2019-02-19 郑州大学 一种基于成对对抗训练的推荐模型
CN109509056A (zh) * 2018-10-16 2019-03-22 平安科技(深圳)有限公司 基于对抗网络的商品推荐方法、电子装置及存储介质
WO2019127231A1 (en) * 2017-12-28 2019-07-04 Intel Corporation Training data generators and methods for machine learning
KR20190093813A (ko) * 2018-01-19 2019-08-12 네이버 주식회사 인공지능 기반 상품 추천 방법 및 그 시스템
CN110442781A (zh) * 2019-06-28 2019-11-12 武汉大学 一种基于生成对抗网络的对级排序项目推荐方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019127231A1 (en) * 2017-12-28 2019-07-04 Intel Corporation Training data generators and methods for machine learning
KR20190093813A (ko) * 2018-01-19 2019-08-12 네이버 주식회사 인공지능 기반 상품 추천 방법 및 그 시스템
CN109509056A (zh) * 2018-10-16 2019-03-22 平安科技(深圳)有限公司 基于对抗网络的商品推荐方法、电子装置及存储介质
CN109360069A (zh) * 2018-10-29 2019-02-19 郑州大学 一种基于成对对抗训练的推荐模型
CN110442781A (zh) * 2019-06-28 2019-11-12 武汉大学 一种基于生成对抗网络的对级排序项目推荐方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
BING TIAN等: "DRGAN:A GAN-Based Framework for Doctor Recommendation in Chinese On-Line QA Communities", 《 DATABASE SYSTEMS FOR ADVANCED APPLICATIONS 》 *
吴宾等: "联合成对排序的物品推荐模型", 《通信学报》 *

Also Published As

Publication number Publication date
CN111259244B (zh) 2022-12-16

Similar Documents

Publication Publication Date Title
WO2021159776A1 (zh) 基于人工智能的推荐方法、装置、电子设备及存储介质
CN107273438B (zh) 一种推荐方法、装置、设备及存储介质
CN110569443A (zh) 一种基于强化学习的自适应学习路径规划***
CN111797321B (zh) 一种面向不同场景的个性化知识推荐方法及***
CN112232925A (zh) 一种融合知识图谱对商品进行个性化推荐的方法
CN109840833B (zh) 贝叶斯协同过滤推荐方法
CN110674407A (zh) 基于图卷积神经网络的混合推荐方法
CN109376261B (zh) 基于中级文本语义增强空间的模态独立检索方法和***
CN105404619B (zh) 一种基于相似度的语义Web服务聚类标注方法
CN114186084A (zh) 在线多模态哈希检索方法、***、存储介质及设备
Dai et al. Study of online learning resource recommendation based on improved BP neural network
Fang et al. Knowledge transfer for multi-labeler active learning
CN111259244B (zh) 一种基于对抗模型的推荐方法
Deng et al. Label propagation on k-partite graphs with heterophily
WO2022105780A1 (zh) 推荐方法、装置、电子设备、存储介质
Mangaravite et al. Improving the efficiency of a genre-aware approach to focused crawling based on link context
Shen et al. Online education course recommendation algorithm based on path factors
Wang et al. Multi‐feedback Pairwise Ranking via Adversarial Training for Recommender
CN115599990A (zh) 一种知识感知结合深度强化学习的跨域推荐方法及***
Gao et al. Multi-granularity competition-cooperation optimization algorithm with adaptive parameter configuration
Zhen et al. Improved Hybrid Collaborative Fitering Algorithm Based on Spark Platform
Du et al. An Overview of Recommendation System Based on Generative Adversarial Networks
Yao et al. Microblog Search Based on Deep Reinforcement Learning
Wu et al. Multi‐source to multi‐target domain adaptation method based on similarity measurement
CN116881230B (zh) 一种基于云平台的关系数据库自动优化方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant