CN117035914A - 产品的推荐方法、装置、计算机设备及存储介质 - Google Patents

产品的推荐方法、装置、计算机设备及存储介质 Download PDF

Info

Publication number
CN117035914A
CN117035914A CN202310922842.1A CN202310922842A CN117035914A CN 117035914 A CN117035914 A CN 117035914A CN 202310922842 A CN202310922842 A CN 202310922842A CN 117035914 A CN117035914 A CN 117035914A
Authority
CN
China
Prior art keywords
product
user
historical
target
recommended
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310922842.1A
Other languages
English (en)
Inventor
王志峰
徐进
朱春霖
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Minmetals Securities Co ltd
Original Assignee
Minmetals Securities Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Minmetals Securities Co ltd filed Critical Minmetals Securities Co ltd
Priority to CN202310922842.1A priority Critical patent/CN117035914A/zh
Publication of CN117035914A publication Critical patent/CN117035914A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/06Buying, selling or leasing transactions
    • G06Q30/0601Electronic shopping [e-shopping]
    • G06Q30/0631Item recommendations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Strategic Management (AREA)
  • Marketing (AREA)
  • Economics (AREA)
  • Development Economics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • General Business, Economics & Management (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种产品的推荐方法、装置、计算机设备及存储介质,包括:根据历史产品构建动作集,根据历史环境状态构建环境状态集,根据历史回报期望构建奖励反馈机制;构建基于深度Q网络构建的产品推荐模型;给定初始环境状态,对产品推荐模型进行训练;获取目标用户的用户画像;将目标用户的用户画像输入至已训练的产品推荐模型,利用已训练的产品推荐模型对产品被目标用户点击的概率进行预测和排序,选出待推荐给目标用户的目标产品。本申请基于深度Q网络对根据用户画像生成的环境状态和推荐的产品的潜在关系进行深度学习,可以为目标用户精准推荐目标产品。

Description

产品的推荐方法、装置、计算机设备及存储介质
技术领域
本申请涉及人工智能及互联网技术领域,尤其涉及一种产品的推荐方法、装置、计算机设备及存储介质。
背景技术
在互联网领域,根据用户的兴趣度进行相应的产品推荐,进而提高产品推荐的转化率,是本领域技术人员亟待解决的一大技术问题。
随着深度学习技术的快速发展,各种场景都出现了深度学习的身影,推荐场景尤其显著。但是目前的产品推荐算法不够精准,导致用户点击率低,用户满意度得不到改善。
发明内容
本申请的主要目的在于提供一种产品的推荐方法、装置、计算机设备及存储介质,可以解决现有技术中的产品推荐不精准的技术问题。
为实现上述目的,本申请第一方面提供一种产品的推荐方法,该方法包括:
获取历史数据集,其中,历史数据集包括多个历史数据,每个历史数据包括在一次历史推荐中向用户推荐的历史产品、推荐***所处的历史环境状态、对应的历史回报期望,其中,历史环境状态与被推荐用户的用户画像相关;
根据历史产品构建动作集,根据历史环境状态构建环境状态集,根据历史回报期望构建奖励反馈机制;
基于动作集、环境状态集和奖励反馈机制构建产品推荐模型,其中,产品推荐模型基于深度Q网络构建;
给定初始环境状态,对产品推荐模型进行训练,得到已训练的产品推荐模型;
获取目标用户的用户画像;
将目标用户的用户画像输入至已训练的产品推荐模型,利用已训练的产品推荐模型对产品被目标用户点击的概率进行预测和排序,其中,产品被点击的概率与奖励反馈相关;
根据排序结果,选出待推荐给目标用户的目标产品。
为实现上述目的,本申请第二方面提供一种产品的推荐装置,该装置包括:
第一数据获取模块,用于获取历史数据集,其中,历史数据集包括多个历史数据,每个历史数据包括在一次历史推荐中向用户推荐的历史产品、推荐***所处的历史环境状态、对应的历史回报期望,其中,历史环境状态与被推荐用户的用户画像相关;
模型数据构建模块,用于根据历史产品构建动作集,根据历史环境状态构建环境状态集,根据历史回报期望构建奖励反馈机制;
模型构建模块,用于基于动作集、环境状态集和奖励反馈机制构建产品推荐模型,其中,产品推荐模型基于深度Q网络构建;
模型训练模块,用于给定初始环境状态,对产品推荐模型进行训练,得到已训练的产品推荐模型;
第二数据获取模块,用于获取目标用户的用户画像;
预测排序模块,用于将目标用户的用户画像输入至已训练的产品推荐模型,利用已训练的产品推荐模型对产品被目标用户点击的概率进行预测,对得到的预测概率进行排序,其中,产品被点击的概率与奖励反馈相关;
推荐产品确定模块,用于根据排序结果,选出待推荐给目标用户的目标产品。
为实现上述目的,本申请第三方面提供一种计算机可读存储介质,存储有计算机程序,计算机程序被处理器执行时,使得处理器执行以下步骤:
获取历史数据集,其中,历史数据集包括多个历史数据,每个历史数据包括在一次历史推荐中向用户推荐的历史产品、推荐***所处的历史环境状态、对应的历史回报期望,其中,历史环境状态与被推荐用户的用户画像相关;
根据历史产品构建动作集,根据历史环境状态构建环境状态集,根据历史回报期望构建奖励反馈机制;
基于动作集、环境状态集和奖励反馈机制构建产品推荐模型,其中,产品推荐模型基于深度Q网络构建;
给定初始环境状态,对产品推荐模型进行训练,得到已训练的产品推荐模型;
获取目标用户的用户画像;
将目标用户的用户画像输入至已训练的产品推荐模型,利用已训练的产品推荐模型对产品被目标用户点击的概率进行预测,对得到的预测概率进行排序,其中,产品被点击的概率与奖励反馈相关;
根据排序结果,选出待推荐给目标用户的目标产品。
为实现上述目的,本申请第四方面提供一种计算机设备,包括存储器和处理器,存储器存储有计算机程序,计算机程序被处理器执行时,使得处理器执行以下步骤:
获取历史数据集,其中,历史数据集包括多个历史数据,每个历史数据包括在一次历史推荐中向用户推荐的历史产品、推荐***所处的历史环境状态、对应的历史回报期望,其中,历史环境状态与被推荐用户的用户画像相关;
根据历史产品构建动作集,根据历史环境状态构建环境状态集,根据历史回报期望构建奖励反馈机制;
基于动作集、环境状态集和奖励反馈机制构建产品推荐模型,其中,产品推荐模型基于深度Q网络构建;
给定初始环境状态,对产品推荐模型进行训练,得到已训练的产品推荐模型;
获取目标用户的用户画像;
将目标用户的用户画像输入至已训练的产品推荐模型,利用已训练的产品推荐模型对产品被目标用户点击的概率进行预测,对得到的预测概率进行排序,其中,产品被点击的概率与奖励反馈相关;
根据排序结果,选出待推荐给目标用户的目标产品。
采用本申请实施例,具有如下有益效果:
本申请基于深度Q网络对根据用户画像生成的环境状态和推荐的产品的潜在关系进行深度学习,可以为目标用户精准推荐目标产品。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
其中:
图1为本申请实施例中产品的推荐方法的应用环境图;
图2为本申请实施例中产品的推荐方法的流程图;
图3为本申请实施例中产品的推荐***的结构框图;
图4为本申请实施例中产品的推荐装置的结构框图;
图5为本申请实施例中计算机设备的结构框图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
图1为一个实施例中产品的推荐应用环境图。参照图1,该产品的推荐方法应用于产品的推荐***。该产品的推荐***包括终端110和服务器120。终端110和服务器120通过网络连接,终端110具体可以是台式终端或移动终端,移动终端具体可以是手机、平板电脑、笔记本电脑等中的至少一种。服务器120可以用独立的服务器或者是多个服务器组成的服务器集群来实现。服务器120用于获取历史数据集,其中,历史数据集包括多个历史数据,每个历史数据包括在一次历史推荐中向用户推荐的历史产品、推荐***所处的历史环境状态、对应的历史回报期望,其中,历史环境状态与被推荐用户的用户画像相关;根据历史产品构建动作集,根据历史环境状态构建环境状态集,根据历史回报期望构建奖励反馈机制;基于动作集、环境状态集和奖励反馈机制构建产品推荐模型,其中,产品推荐模型基于深度Q网络构建;给定初始环境状态,对产品推荐模型进行训练,得到已训练的产品推荐模型;获取目标用户的用户画像;将目标用户的用户画像输入至已训练的产品推荐模型,利用已训练的产品推荐模型对产品被目标用户点击的概率进行预测,对得到的预测概率进行排序,其中,产品被点击的概率与奖励反馈相关;根据排序结果,选出待推荐给目标用户的目标产品。终端110用于向目标用户展示服务器120确定的目标产品。
如图2所示,在一个实施例中,提供了一种产品的推荐方法。该方法应用于计算机设备。该产品的推荐方法具体包括如下步骤:
S100:获取历史数据集,其中,历史数据集包括多个历史数据,每个历史数据包括在一次历史推荐中向用户推荐的历史产品、推荐***所处的历史环境状态、对应的历史回报期望,其中,历史环境状态与被推荐用户的用户画像相关。
具体地,在推荐***中,推荐***会根据用户画像为不同用户推荐各种产品。用户会对推荐的产品做出不同响应而产生用户行为数据或用户交互数据。基于此,会产生大量历史数据。每个历史数据包括在一次历史推荐中推荐***为用户推荐的历史产品、推荐***所处的历史环境状态、以及该历史推荐对应的历史回报期望。
其中,推荐***是基于当前环境状态为用户推荐产品的。历史环境状态或当前环境状态可以包括被推荐用户的用户画像。当然,历史环境状态或当前环境状态还可以包括用户当前在应用中的状态或行为数据等。例如,用户当前所浏览的产品、用户在应用中操作的上下文等不局限于此。
本申请推荐的产品是一种泛化的含义,针对不同的场景可以为任意一种互联网产品,例如视频、文章、商品链接、歌曲、新闻资讯等等不局限于此。
用户画像可以包括用户的社会学特征和统计学特征,社会学特征例如包括性别、年龄、地理位置;统计学特征例如包括用户偏好的产品类别等等。
历史回报期望用于反映向用户推荐历史产品后,被推荐的用户对所推荐的历史产品的感兴趣程度。被推荐的用户对所推荐的历史产品越感兴趣,则历史回报期望越高。历史回报期望具体可以根据用户对历史产品的行为数据确定。
另外,历史数据可以通过对推荐***的日志进行分析获取到。
S200:根据历史产品构建动作集,根据历史环境状态构建环境状态集,根据历史回报期望构建奖励反馈机制。
具体地,历史产品是推荐***执行推荐动作所产生的结果,因此,可以将每个历史产品作为一个动作,构建动作集。
推荐***推荐产品的依据是历史环境状态,例如,推荐***根据用户画像来决定向对应用户推荐哪类或哪些产品。因此,可以根据用户的历史用户画像生成历史环境状态。
或者,
推荐***根据用户的历史用户画像和用户在应用中的历史状态或历史行为数据决定向对应用户推荐哪类或哪些产品。因此,可以根据用户的历史用户画像和用户在应用中的历史状态或历史行为数据生成历史环境状态。
所有历史数据对应的历史环境状态组成了环境状态集。
历史回报期望是在某种历史环境状态下向用户推荐某款历史产品后,根据用户对所推荐的历史产品的反馈或响应而确定的奖励。根据历史回报期望及其对应的历史环境状态和历史产品,可以确定奖励反馈机制。
S300:基于动作集、环境状态集和奖励反馈机制构建产品推荐模型,其中,产品推荐模型基于深度Q网络构建。
具体地,深度Q网络即Deep Q Network,适用于动作离散的强化学习任务。
本实施例的深度Q网络可以为DDQN模型或DQN模型等其中的一种,本实施例对此不作限制。
深度Q网络包括Q网络和目标Q网络(Target Q网络)。深度Q网络通过时序差分法或蒙特卡洛法进行强化学习,在策略一时可以训练出一个Q网络,通过Q网络探索验证策略二,如果策略二比策略一的奖励大,则取策略二,如此不断循环对策略进行优化,得到最优策略。其中,策略用于在某种环境状态下决定执行哪种动作。
S400:给定初始环境状态,对产品推荐模型进行训练,得到已训练的产品推荐模型。
具体地,Q网络输入是状态,输出是根据奖励反馈机制得到的各种动作对应的Q值。Q值越精准,说明Q网络训练得越好。基于策略通过不断带入环境状态得到不同行为的Q值,在给定环境状态s下,得到最大Q值的行为a,执行行为a又可以改变环境状态。如此循环,可以得到Q网络在不同环境状态下的Q值,并根据Q值更新Q网络的模型参数,直至训练完成。
S500:获取目标用户的用户画像。
具体地,获取目标用户的用户画像用于获取目标环境状态。
S600:将目标用户的用户画像输入至已训练的产品推荐模型,利用已训练的产品推荐模型对产品被目标用户点击的概率进行预测,对得到的预测概率进行排序,其中,产品被点击的概率与奖励反馈相关。
具体地,不同的用户画像表征不同的环境状态。产品推荐模型依据不同的环境状态适应性地向用户推荐产品。
产品推荐模型根据目标用户的用户画像所生成的目标环境状态,可以预测每个产品(产品即动作)的被目标用户点击的概率,预测概率越大,产品被目标用户点击的概率越大或者目标用户对产品的感兴趣程度越大。
其中,在建模过程中,对产品的点击概率进行了二值化处理,即,历史回报期望的取值为0或1。因此,在DDQN模型中是以点击概率二值化作为模型奖励的。在推荐过程中,以点击概率(概率值,0-1之间的)作为产品推荐的依据,点击概率越高,被推荐的产品展示的位置越靠前。
S700:根据排序结果,选出待推荐给目标用户的目标产品。
具体地,对预测概率进行升序排序或降序排序。选出预设数量的最大预测概率的产品作为目标产品。例如,选出预测概率中的top k的产品作为目标产品。
本实施例基于深度Q网络对根据用户画像生成的环境状态和推荐的产品的潜在关系进行深度学习,可以为目标用户精准推荐目标产品。
在一个实施例中,步骤S600具体包括:
确定可向目标用户推荐的候选产品,得到候选产品集合;
将目标用户的用户画像和候选产品集合输入至已训练的产品推荐模型,利用已训练的产品推荐模型对每个候选产品被目标用户点击的概率进行预测,得到预测概率,对预测概率进行排序;
步骤S700具体包括:根据得到的排序结果,从候选产品集合中选出待推荐给目标用户的、预设数量、预测概率最高的目标产品。
具体地,候选产品集合即召回集,是根据目标用户的用户画像和/或目标用户在应用中的行为数据获得的可向目标用户推荐的候选产品的集合。
候选产品为部分历史产品,产品推荐模型中的历史产品较多,本实施例预先选取候选产品,可以缩小产品推荐模型的探索范围。最终根据候选产品的预测概率,选出预设数量即top k的目标产品。
本实施例将增强学习应用于推荐召回集排序的场景中,可以更准确的为用户推荐目标产品。
在一个实施例中,产品推荐模型包括Q网络和目标Q网络;
步骤S400具体包括:
S01:将初始环境状态作为当前环境状态;
S02:将当前环境状态st作为输入向量输入至Q网络,得到每个动作ai在当前环境状态st下的输出Q(st,ai),i=1,2,..n,使用汤姆森采样策略选出动作at,n为动作的总数量,ai为第i个动作;
S03:在当前环境状态st下执行动作at,转换环境状态,得到执行动作at之后的环境状态st+1,以及,执行动作at得到的奖励反馈rt,将(st,at,rt,st+1)作为一个经验存入经验回放集合D中;
S04:从经验回放集合D中随机采样W个经验作为样本经验,利用样本经验更新Q网络的模型参数;
S05:每间隔预设时长或每间隔C轮迭代,利用Q网络的模型参数更新目标Q网络的模型参数;
S06:将环境状态st+1作为当前环境状态,循环至步骤S02进行下一轮迭代,直至训练完成。
具体地,指定奖励衰减因子γ,随机初始化Q网络的模型参数,构建目标Q网络(Target Q网络),目标Q网络的网络结构及网络参数与Q网络相同;指定经验回放梯度批量下降的每批次采样样本数W,清空经验回放合集D。
Q网络和目标Q网络的区别在于:Q网络是每步都会在经验池中更新,而目标Q网络是隔一段时间将Q的网络参数拷贝到目标Q网络中,实现目标Q网络的更新。这种“滞后”更新是为了保证在训练Q网络时训练的稳定性。
Q(st,ai)指在环境状态st下动作ai的Q值。总共有n个动作,因此,在环境状态st下有n个Q值。
本实施例采用汤普森采样策略来从n个动作中选取在环境状态st下的动作at
汤普森采样(Thompson Sampling)是MAB(Multi arm bandit)问题中经常被讨论的一种均衡exploit和explore的方法。汤普森采样适用于动态变化的环境下的无限选择,目标是平衡探索和利用。
由于exploitation(利用已知状态)和exploration(开发未知领域)的存在,在面对较大的动作域的时候,不同的探索策略诸如ε-greedy策略、boltzmann策略、以及dueling-bandit等,在不同程度存在探索不完全、探索效率低下的问题。本实施例采用汤普森采样可以平衡已知的用户兴趣(由用户画像表示)和用户未知兴趣的试探,相较其他探索策略,可以同时兼顾探索和利用,实现平衡策略,对提升推荐的产品的精准性有较大帮助。
经验回放集合D即经验回放池。Q网络的每轮迭代都会产生一个经验(st,at,rt,st+1),经验即experience。
以DQN网络(deep Q network)为例,例如从经验回放集合D中选择了一个经验experience:(st,at,rt,st+1)。确定环境状态st的动作为at,确定当前Q值为Q(st,at),为Q网络的网络预测值。在环境状态st下执行动作at转换环境状态,得到执行动作at之后的环境状态st+1,以及,执行动作at得到的奖励反馈rt。将下一环境状态st+1输入至目标Q网络,得到每种动作的Q值,即,Q(st+1,ai),选择Q(st+1,ai)中的最大Q值,将最大Q值记作Q(St+1,am)。将rt+γQ(St+1,am)作为网络实际值。根据网络预测值和网络实际值,进行误差反向传播。loss函数可以选择方差等。
以DDQN网络(doubledeep Q network)为例,例如从经验回放集合D中选择了一个经验experience:(st,at,rt,st+1)。确定环境状态st的动作为at,确定当前Q值为Q(st,at),为Q网络的网络预测值。在环境状态st下执行动作at转换环境状态,得到执行动作at之后的环境状态st+1,以及,执行动作at得到的奖励反馈rt。将下一环境状态st+1输入至Q网络中,得到每种动作的Q值,即,Q(st+1,ai),选择Q(st+1,ai)中的最大Q值对应的动作,记为动作aj。将下一环境状态st+1输入至目标Q网络中,找到动作aj对应的Q值,记为Q(st+1,aj2)。将rt+γQ(St+1,aj2)作为网络实际值。根据网络预测值和网络实际值,进行误差反向传播。loss函数可以选择方差等。
其中,对于任意的<si,ai>,表示在环境状态si下,执行动作ai,即推荐产品ai所获得的奖励期望为:Q(si,ai)=φθ(si)Twa,wa∈Rd,wa是回归层的参数,维度为d。目标Q网络的和Q网络具有相同的网络结构,φθtarget(·)∈Rd表示目标网络的特征表征,wtarget a,表示目标网络回归层的参数。对于给定的<si,ai,ri,si+1>,/>
在一个实施例中,历史回报期望根据以下步骤获取到:
获取推荐***在历史环境状态下向用户推荐历史产品后,用户的历史行为数据;
根据历史行为数据确定推荐***在历史环境状态下、向用户推荐历史产品后的回报期望。
具体地,推荐***在向用户推荐产品后,会通过日志记录用户对所推荐产品的响应和反馈,得到用户的历史行为数据。历史行为数据即历史交互数据。
用户的历史行为数据例如包括对推荐产品的操作(例如:点赞、转发、收藏、加入购物车、驻留观看、评论等等)、浏览时长、用户地理信息等相关数据。
用户对推荐产品如果有积极的反馈或行为(例如点赞、收藏、加入购物车、驻留观看、评论等不局限于此),则表明用户对推荐产品越感兴趣,回报期望越高。
相反,如果用户对推荐产品是消极的反馈或行为(例如,快速跳过推荐产品、快速退出产品页面、屏蔽推荐产品等不局限于此),则表明用户对推荐产品可能不感兴趣,回报期望越低。
例如,如果APP端展示的资讯用户有积极的交互或反馈,回报期望设定为1,没有交互或是消极的反馈或交互,则回报期望设定为0。
当然,具体的回报期望的设定规则根据实际应用场景设定,本申请对此不作限制。
本实施例通过收集产品推荐后用户对产品的用户行为数据来确定回报期望,可以根据实际应用场景真实的获取用户对产品的感兴趣度,增加数据的可靠性,进而有利于构建并训练出贴合实际应用场景的模型。
在一个实施例中,产品推荐模型的深度Q网络的输出层采用贝叶斯逻辑回归层。
具体地,原有的深度Q网络的输出层使用的是线性结构逻辑回归层。本实施例使用贝叶斯逻辑回归层(即Bayesian Logistic回归层)替换深度Q网络的线性结构逻辑回归层。
本实施例的产品推荐模型的Q网络和Target Q网络(目标Q网络)的输出层均使用贝叶斯逻辑回归层。
上述的wa为Q网络的Bayesian Logistic回归层的参数。wtarget a 表示目标Q网络的Bayesian Logistic回归层的参数。
由于在特征表征层后加的是贝叶斯逻辑回归层,可以近似每个wa的后验分布。假设目标值y的噪声服从均值为0,方差为σ2I的各向同性的高斯分布,即ε~N(ε|0,σ2I),推导可得y服从均值为φθ(si)wa,方差为σ2I的高斯分布,即y~N(y|φθ(s)wa2I)。目标值y是预测出来的用户点击产品的概率。其中,在建模过程中,对产品的点击概率进行了二值化处理,即,历史回报期望的取值为0或1。因此,在DDQN模型中是以点击概率二值化作为模型奖励的。在推荐过程中,以点击概率(概率值,0-1之间的)作为产品推荐的依据,点击概率越高,被推荐的产品展示的位置越靠前。
假设经验回放池为对每一个aτ=a我们构造|A|个不相交的数据集Da。对每个动作a,把特征向量/>连接起来构成特征矩阵所以,wa的近似后验解是:
在模型中,每隔Tsample,采样一个新的wa符合现有的决策策略,aTS:=maxawa Tφθ(s),模型的损失函数是:/>其中(sτ,aτ,yτ)是从经验回放池中以均匀分布采样获得。网络参数更新为:
在模型中,每隔Ttarg ettarget←θ,每隔TBayestarg et更新为后验分布的均值。一轮更新后,对后验分布来说,它的均值和方差都可能发生改变。
在一个实施例中,该方法还包括:
获取用户行为数据,其中,用户行为数据包括用户针对推荐***所推荐产品的用户交互数据;
根据用户行为数据更新用户的用户画像。
具体地,用户行为数据包括用户交互数据,用户交互数据主要包括用户对推荐***所推荐的产品的操作(点赞、转发、收藏等等)、浏览时长、用户的地理信息等等。
当然,用户行为数据还可以包括在应用中用户的自主行为数据,例如:用户的搜索数据、用户对非推荐产品的浏览数据、反馈数据以及产品关联数据等等。
本实施例通过收集的用户行为数据来更新用户画像,可以及时捕捉用户特征的变化以及兴趣爱好的变化,顺应用户的当前需求,及时调整推荐策略,为用户推荐符合用户当前需求的产品,以提升用户满意度。
在一个实施例中,确定可向目标用户推荐的候选产品,得到候选产品集合,包括:
根据目标用户的用户画像和产品库中的产品信息,确定可向目标用户推荐的候选产品;
和/或,
根据目标用户的搜索行为确定目标用户的感兴趣产品,
通过近似近邻检索算法,计算产品库中与感兴趣产品最相似的第一数量的产品作为候选产品。
具体地,产品库中存储有推荐***所有产品信息。
用户画像本身一定程度上反映了用户的年龄、性别等属性,可以根据普遍人群爱好的分布,确定目标用户可能感兴趣的候选产品。用户画像中也包含了目标用户在历史记录中的偏好,因此也可以根据目标用户的历史偏好确定目标用户可能感兴趣的候选产品。
近似近邻检索算法即(APPROXIMATE NEAREST NEIGHBORS,简称ANN),例如Annoy(Approximate Nearest Neighbors Oh Yeah)算法。
在搜索的业务场景下,基于一个现有的产品库,需要对新来的一个或者多个数据进行查询(query),返回在数据库中与该查询最相似的Top P数据。即,获取产品库中与感兴趣产品最相似的第一数量的产品作为候选产品。
近似近邻检索算法还可以选择HNSWlib(fast approximate nearest neighborsearch)算法、Faiss(Billion-scale similarity search with GPUs)算法、ScaNN(Scalable Nearest Neighbors)算法等,本申请对此不作限制。
本申请通过用户画像和/或近似近邻检索算法从产品库中粗略匹配出目标用户可能感兴趣的产品作为候选产品,缩小了产品推荐范围,有利于从候选产品中选出更优的目标产品推荐给目标用户,加快了产品推荐效率以及准确性。
图3为本申请实施例中产品的推荐***的结构框图;参考图3,该推荐***包括产品推荐模型、产品库、近似近邻检索模块、排序模块、用户画像管理模块、日志管理模块。
推荐***通过日志管理模块收集用户在应用中对各种产品的操作信息,根据操作信息更新用户的用户画像。即,日志管理模块用于收集历史数据,供产品推荐模型进行模型迭代。日志管理模块还用于收集用户行为数据和用户信息,以便用户画像管理模块根据用户行为数据和用户信息创建以及更新用户画像。近邻近似检索模块用于从产品库中匹配出可能推荐给用户的候选产品。用户画像管理模块还用于从产品库中匹配出可能推荐给用户的候选产品。候选产品组成候选产品集合提供给产品推荐模型。产品推荐模型根据用户画像和候选产品集合,预测每个候选产品可能被目标用户点击的概率。排序模块用于对点击概率进行排序,根据排序结果筛选出预设数量的点击概率最高的候选产品作为推荐给目标用户的目标产品。
其中,排序模块可以集成于产品推荐模块中。
参考图4,本申请还提供了一种产品的推荐装置,该装置包括:
第一数据获取模块100,用于获取历史数据集,其中,历史数据集包括多个历史数据,每个历史数据包括在一次历史推荐中向用户推荐的历史产品、推荐***所处的历史环境状态、对应的历史回报期望,其中,历史环境状态与被推荐用户的用户画像相关;
模型数据构建模块200,用于根据历史产品构建动作集,根据历史环境状态构建环境状态集,根据历史回报期望构建奖励反馈机制;
模型构建模块300,用于基于动作集、环境状态集和奖励反馈机制构建产品推荐模型,其中,产品推荐模型的输出层基于深度Q网络构建;
模型训练模块400,用于给定初始环境状态,对产品推荐模型进行训练,得到已训练的产品推荐模型;
第二数据获取模块500,用于获取目标用户的用户画像;
预测排序模块600,用于将目标用户的用户画像输入至已训练的产品推荐模型,利用已训练的产品推荐模型对产品被目标用户点击的概率进行预测,对得到的预测概率进行排序,其中,产品被点击的概率与奖励反馈相关;
推荐产品确定模块700,用于根据排序结果,选出待推荐给目标用户的目标产品。
在一个实施例中,预测排序模块600包括:
候选产品确定模块,用于确定可向目标用户推荐的候选产品,得到候选产品集合;
预测及排序模块,用于将目标用户的用户画像和候选产品集合输入至已训练的产品推荐模型,利用已训练的产品推荐模型对候选产品集合中的每个候选产品被目标用户点击的概率进行预测,得到预测概率,对预测概率进行排序;
推荐产品确定模块700,具体用于根据得到的排序结果,从候选产品集合中选出待推荐给目标用户的、预设数量、预测概率最高的目标产品。
在一个实施例中,产品推荐模型包括Q网络和目标Q网络;
模型训练模块400具体包括:
初始化模块,用于将初始环境状态作为当前环境状态;
选择策略模块,用于将当前环境状态st作为输入向量输入至Q网络,得到每个动作ai在当前环境状态st下的输出Q(st,ai),i=1,2,..n,使用汤姆森采样策略选出动作at,n为动作的总数量,ai为第i个动作;
执行模块,用于在当前环境状态st下执行动作at,转换环境状态,得到执行动作at之后的环境状态st+1,以及,执行动作at得到的奖励反馈rt,将(st,at,rt,st+1)作为一个经验存入经验回放集合D中;
第一参数更新模块,用于从经验回放集合D中随机采样W个经验作为样本经验,利用样本经验更新Q网络的模型参数;
第二参数更新模块,用于每间隔预设时长或每间隔C轮迭代,利用Q网络的模型参数更新目标Q网络的模型参数;
循环模块,用于将环境状态st+1作为当前环境状态,循环至选择策略模块进行下一轮迭代,直至训练完成。
在一个实施例中,该装置还包括:
第一收集模块,用于获取推荐***在历史环境状态下向用户推荐历史产品后,用户的历史行为数据;
期望确定模块,用于根据历史行为数据确定推荐***在历史环境状态下、向用户推荐历史产品后的回报期望。
在一个实施例中,产品推荐模型的深度Q网络的输出层采用贝叶斯逻辑回归层。
在一个实施例中,该装置还包括:
第二收集模块,用于获取用户行为数据,其中,用户行为数据包括用户针对推荐***所推荐产品的用户交互数据;
更新模块,用于根据用户行为数据更新用户的用户画像。
在一个实施例中,候选产品确定模块包括:
第一候选确定模块,用于根据目标用户的用户画像和产品库中的产品信息,确定可向目标用户推荐的候选产品;
和/或,
兴趣确定模块,用于根据目标用户的搜索行为确定目标用户的感兴趣产品,
第二候选确定模块,用于通过近似近邻检索算法计算产品库中与感兴趣产品最相似的第一数量的产品作为候选产品。
图5示出了一个实施例中计算机设备的内部结构图。该计算机设备具体可以是终端,也可以是服务器。如图5所示,该计算机设备包括通过***总线连接的处理器、存储器和网络接口。其中,存储器包括非易失性存储介质和内存储器。该计算机设备的非易失性存储介质存储有操作***,还可存储有计算机程序,该计算机程序被处理器执行时,可使得处理器实现上述方法实施例中的各个步骤。该内存储器中也可储存有计算机程序,该计算机程序被处理器执行时,可使得处理器执行上述方法实施例中的各个步骤。本领域技术人员可以理解,图5中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提出了一种计算机设备,包括存储器和处理器,存储器存储有计算机程序,计算机程序被处理器执行时,使得处理器执行以下步骤:
获取历史数据集,其中,历史数据集包括多个历史数据,每个历史数据包括在一次历史推荐中向用户推荐的历史产品、推荐***所处的历史环境状态、对应的历史回报期望,其中,历史环境状态与被推荐用户的用户画像相关;
根据历史产品构建动作集,根据历史环境状态构建环境状态集,根据历史回报期望构建奖励反馈机制;
基于动作集、环境状态集和奖励反馈机制构建产品推荐模型,其中,产品推荐模型基于深度Q网络构建;
给定初始环境状态,对产品推荐模型进行训练,得到已训练的产品推荐模型;
获取目标用户的用户画像;
将目标用户的用户画像输入至已训练的产品推荐模型,利用已训练的产品推荐模型对产品被目标用户点击的概率进行预测,对得到的预测概率进行排序,其中,产品被点击的概率与奖励反馈相关;
根据排序结果,选出待推荐给目标用户的目标产品。
在一个实施例中,提出了一种计算机可读存储介质,存储有计算机程序,计算机程序被处理器执行时,使得处理器执行以下步骤:
获取历史数据集,其中,历史数据集包括多个历史数据,每个历史数据包括在一次历史推荐中向用户推荐的历史产品、推荐***所处的历史环境状态、对应的历史回报期望,其中,历史环境状态与被推荐用户的用户画像相关;
根据历史产品构建动作集,根据历史环境状态构建环境状态集,根据历史回报期望构建奖励反馈机制;
基于动作集、环境状态集和奖励反馈机制构建产品推荐模型,其中,产品推荐模型基于深度Q网络构建;
给定初始环境状态,对产品推荐模型进行训练,得到已训练的产品推荐模型;
获取目标用户的用户画像;
将目标用户的用户画像输入至已训练的产品推荐模型,利用已训练的产品推荐模型对产品被目标用户点击的概率进行预测,对得到的预测概率进行排序,其中,产品被点击的概率与奖励反馈相关;
根据排序结果,选出待推荐给目标用户的目标产品。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,的程序可存储于一非易失性计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (10)

1.一种产品的推荐方法,其特征在于,所述方法包括:
获取历史数据集,其中,所述历史数据集包括多个历史数据,每个历史数据包括在一次历史推荐中向用户推荐的历史产品、推荐***所处的历史环境状态、对应的历史回报期望,其中,所述历史环境状态与被推荐用户的用户画像相关;
根据所述历史产品构建动作集,根据所述历史环境状态构建环境状态集,根据所述历史回报期望构建奖励反馈机制;
基于所述动作集、环境状态集和奖励反馈机制构建产品推荐模型,其中,所述产品推荐模型基于深度Q网络构建;
给定初始环境状态,对所述产品推荐模型进行训练,得到已训练的产品推荐模型;
获取目标用户的用户画像;
将所述目标用户的用户画像输入至已训练的产品推荐模型,利用所述已训练的产品推荐模型对产品被所述目标用户点击的概率进行预测,对得到的预测概率进行排序,其中,产品被点击的概率与奖励反馈相关;
根据排序结果,选出待推荐给所述目标用户的目标产品。
2.根据权利要求1所述的方法,其特征在于,所述将所述目标用户的用户画像输入至已训练的产品推荐模型,利用所述已训练的产品推荐模型对产品被所述目标用户点击的概率进行预测,对得到的预测概率进行排序,包括:
确定可向所述目标用户推荐的候选产品,得到候选产品集合;
将所述目标用户的用户画像和所述候选产品集合输入至已训练的产品推荐模型,利用所述已训练的产品推荐模型对所述候选产品集合中的每个所述候选产品被所述目标用户点击的概率进行预测,得到预测概率,对所述预测概率进行排序;
所述根据排序结果,选出待推荐给所述目标用户的目标产品,包括:根据得到的排序结果,从所述候选产品集合中选出待推荐给所述目标用户的、预设数量、预测概率最高的目标产品。
3.根据权利要求1所述的方法,其特征在于,所述产品推荐模型包括Q网络和目标Q网络;
所述给定初始环境状态,对所述产品推荐模型进行训练,得到已训练的产品推荐模型,包括:
S01:将初始环境状态作为当前环境状态;
S02:将当前环境状态st作为输入向量输入至Q网络,得到每个动作ai在当前环境状态st下的输出Q(st,ai),i=1,2,..n,使用汤姆森采样策略选出动作at,n为动作的总数量,ai为第i个动作;
S03:在当前环境状态st下执行动作at,转换环境状态,得到执行动作at之后的环境状态st+1,以及,执行动作at得到的奖励反馈rt,将(st,at,rt,st+1)作为一个经验存入经验回放集合D中;
S04:从经验回放集合D中随机采样W个经验作为样本经验,利用所述样本经验更新Q网络的模型参数;
S05:每间隔预设时长或每间隔C轮迭代,利用Q网络的模型参数更新目标Q网络的模型参数;
S06:将环境状态st+1作为当前环境状态,循环至步骤S02进行下一轮迭代,直至训练完成。
4.根据权利要求1所述的方法,其特征在于,所述历史回报期望根据以下步骤获取到:
获取推荐***在历史环境状态下向用户推荐历史产品后,所述用户的历史行为数据;
根据所述历史行为数据确定所述推荐***在所述历史环境状态下、向所述用户推荐所述历史产品后的回报期望。
5.根据权利要求1所述的方法,其特征在于,所述产品推荐模型的深度Q网络的输出层采用贝叶斯逻辑回归层。
6.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取用户行为数据,其中,所述用户行为数据包括用户针对推荐***所推荐产品的用户交互数据;
根据所述用户行为数据更新所述用户的用户画像。
7.根据权利要求2所述的方法,其特征在于,确定可向所述目标用户推荐的候选产品,得到候选产品集合,包括:
根据目标用户的用户画像和产品库中的产品信息,确定可向所述目标用户推荐的候选产品;
和/或,
根据所述目标用户的搜索行为确定所述目标用户的感兴趣产品,
通过近似近邻检索算法计算所述产品库中与所述感兴趣产品最相似的第一数量的产品作为候选产品。
8.一种产品的推荐装置,其特征在于,所述装置包括:
第一数据获取模块,用于获取历史数据集,其中,所述历史数据集包括多个历史数据,每个历史数据包括在一次历史推荐中向用户推荐的历史产品、推荐***所处的历史环境状态、对应的历史回报期望,其中,所述历史环境状态与被推荐用户的用户画像相关;
模型数据构建模块,用于根据所述历史产品构建动作集,根据所述历史环境状态构建环境状态集,根据所述历史回报期望构建奖励反馈机制;
模型构建模块,用于基于所述动作集、环境状态集和奖励反馈机制构建产品推荐模型,其中,所述产品推荐模型基于深度Q网络构建;
模型训练模块,用于给定初始环境状态,对所述产品推荐模型进行训练,得到已训练的产品推荐模型;
第二数据获取模块,用于获取目标用户的用户画像;
预测排序模块,用于将所述目标用户的用户画像输入至已训练的产品推荐模型,利用所述已训练的产品推荐模型对产品被所述目标用户点击的概率进行预测,对得到的预测概率进行排序,其中,产品被点击的概率与奖励反馈相关;
推荐产品确定模块,用于根据排序结果,选出待推荐给所述目标用户的目标产品。
9.一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时,使得所述处理器执行如权利要求1至7中任一项所述方法的步骤。
10.一种计算机设备,包括存储器和处理器,其特征在于,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行如权利要求1至7中任一项所述方法的步骤。
CN202310922842.1A 2023-07-25 2023-07-25 产品的推荐方法、装置、计算机设备及存储介质 Pending CN117035914A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310922842.1A CN117035914A (zh) 2023-07-25 2023-07-25 产品的推荐方法、装置、计算机设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310922842.1A CN117035914A (zh) 2023-07-25 2023-07-25 产品的推荐方法、装置、计算机设备及存储介质

Publications (1)

Publication Number Publication Date
CN117035914A true CN117035914A (zh) 2023-11-10

Family

ID=88623635

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310922842.1A Pending CN117035914A (zh) 2023-07-25 2023-07-25 产品的推荐方法、装置、计算机设备及存储介质

Country Status (1)

Country Link
CN (1) CN117035914A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117495458A (zh) * 2023-12-29 2024-02-02 河北华糖云商营销传播股份有限公司 一种基于用户画像的广告在线推送方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110276446A (zh) * 2019-06-26 2019-09-24 北京百度网讯科技有限公司 模型训练和选择推荐信息的方法和装置
CN113449183A (zh) * 2021-06-18 2021-09-28 华中科技大学 基于离线用户环境和动态奖励的交互式推荐方法和***
CN115311042A (zh) * 2022-07-18 2022-11-08 创优数字科技(广东)有限公司 商品推荐方法、装置、计算机设备和存储介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110276446A (zh) * 2019-06-26 2019-09-24 北京百度网讯科技有限公司 模型训练和选择推荐信息的方法和装置
CN113449183A (zh) * 2021-06-18 2021-09-28 华中科技大学 基于离线用户环境和动态奖励的交互式推荐方法和***
CN115311042A (zh) * 2022-07-18 2022-11-08 创优数字科技(广东)有限公司 商品推荐方法、装置、计算机设备和存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117495458A (zh) * 2023-12-29 2024-02-02 河北华糖云商营销传播股份有限公司 一种基于用户画像的广告在线推送方法
CN117495458B (zh) * 2023-12-29 2024-03-26 河北华糖云商营销传播股份有限公司 一种基于用户画像的广告在线推送方法

Similar Documents

Publication Publication Date Title
CN110321422B (zh) 在线训练模型的方法、推送方法、装置以及设备
Zhao et al. Deep reinforcement learning for list-wise recommendations
CN110717098B (zh) 基于元路径的上下文感知用户建模方法、序列推荐方法
US9239986B2 (en) Assessing accuracy of trained predictive models
US7853485B2 (en) Methods and systems for utilizing content, dynamic patterns, and/or relational information for data analysis
CN111159564A (zh) 信息推荐方法、装置、存储介质及计算机设备
CN111242310B (zh) 特征有效性评估方法、装置、电子设备及存储介质
CN111651671B (zh) 用户对象推荐方法、装置、计算机设备和存储介质
Zhang et al. Modeling the heterogeneous duration of user interest in time-dependent recommendation: A hidden semi-Markov approach
CN107590243A (zh) 基于随机游走和多样性图排序的个性化服务推荐方法
CN111177473B (zh) 人员关系分析方法、装置和可读存储介质
CN113051468B (zh) 一种基于知识图谱和强化学习的电影推荐方法及***
JP2022521445A (ja) 材料開発のための予測設計空間メトリック
CN115885297A (zh) 可区分用户-项目协同聚类
CN117035914A (zh) 产品的推荐方法、装置、计算机设备及存储介质
CN112508177A (zh) 一种网络结构搜索方法、装置、电子设备及存储介质
CN113742572A (zh) 一种数据的推荐方法、装置、电子设备及存储介质
CN113449176A (zh) 基于知识图谱的推荐方法及装置
CN114443671A (zh) 推荐模型的更新方法、装置、计算机设备和存储介质
CN113836388A (zh) 信息推荐方法、装置、服务器及存储介质
CN113256024B (zh) 一种融合群体行为的用户行为预测方法
Korotaev et al. Method for the Development of Recommendation Systems, Customizable to Domains, with Deep GRU Network.
CN114329167A (zh) 超参数学习、智能推荐、关键词和多媒体推荐方法及装置
CN113538030B (zh) 一种内容推送方法、装置及计算机存储介质
Boumaza et al. From neighbors to global neighbors in collaborative filtering: an evolutionary optimization approach

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination