CN115828107A - 基于离线环境的模型训练方法及装置 - Google Patents

基于离线环境的模型训练方法及装置 Download PDF

Info

Publication number
CN115828107A
CN115828107A CN202310027604.4A CN202310027604A CN115828107A CN 115828107 A CN115828107 A CN 115828107A CN 202310027604 A CN202310027604 A CN 202310027604A CN 115828107 A CN115828107 A CN 115828107A
Authority
CN
China
Prior art keywords
sequence
sample
commodity
state
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310027604.4A
Other languages
English (en)
Other versions
CN115828107B (zh
Inventor
肖荣昌
许先才
张家栋
熊磊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Yunintegral Technology Co ltd
Original Assignee
Shenzhen Yunintegral Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Yunintegral Technology Co ltd filed Critical Shenzhen Yunintegral Technology Co ltd
Priority to CN202310027604.4A priority Critical patent/CN115828107B/zh
Publication of CN115828107A publication Critical patent/CN115828107A/zh
Application granted granted Critical
Publication of CN115828107B publication Critical patent/CN115828107B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于离线环境的模型训练方法及装置,其中,该方法包括:获取多个样本用户的历史订单数据,其中,所述历史订单数据包括所述多个样本用户在多个时间分别购买的商品集合列表;采用所述多个样本用户的历史订单数据按照用户层级生成正样本序列集合,其中,所述用户层级用于表征对应样本用户的消费习惯类型;采用所述正样本序列离线生成负样本序列集合;采用所述正样本序列集合和所述负样本序列集合训练初始对抗式网络强化学习GRL网络,得到商品推荐模型。通过本发明,解决了相关技术训练模型效率低的技术问题,降低了模型训练时对样本数量和样本质量的要求,提高了模型的训练效率。

Description

基于离线环境的模型训练方法及装置
技术领域
本发明涉及计算机技术领域,具体而言,涉及一种基于离线环境的模型训练方法及装置。
背景技术
相关技术中,在实际电商运营场景中,同一个店铺的用户下个购买商品往往难以预测,准确推荐用户所需商品能大大提高用户的购买可能性,对提高店铺营业额和延长用户生命周期有重大意义。目前离线环境中,预测用户下个购买商品方法有:根据用户已购商品推已购商品,该方法实现简单,但无法预知未买过的商品;根据用户与商品的交互信息,利用协同过滤的思想进行推荐,该方法能有效利用用户信息、商品信息,挖掘商品相关性、用户相关性,但该方法如果数据稀疏,准确率不高,且无法学习用户购买的商品的先后次序;根据机器学习模型推荐,传统的机器学习根据用户与商品的交互信息,训练FM(因子分解机,Factorization Machine)模型,得到用户或商品的隐向量,利用隐向量相似性,完成商品推荐,该方法精度较高,效果较好,但无法得到购买序列信息,序列问题表现为当前推荐商品虽然是用户喜欢的,但不是当前阶段所需要的,会降低用户购买的可能性;利用深度学习进行推荐也有许多方法,典型如Deepwalk(深度游走)利用图节点的共现关系,学习用户或商品隐向量,该方法精度高,效果好,目前已有广泛应用,但仍存在购买序列次序问题;强化学习能够学习用户与商品的交互序列信息,得到用户或商品的embedding(对象表示)向量,推荐时,根据用户的所处购买状态,推荐商品会发生相应的变化,解决商品购买次序问题,因此备受研究推崇,但该方法训练需要大量交互数据,且训练难度较高。
针对相关技术中存在的上述问题,目前尚未发现有效的解决方案。
发明内容
本发明实施例提供了一种基于离线环境的模型训练方法及装置。
根据本申请实施例的一个方面,提供了一种基于离线环境的模型训练方法,包括:获取多个样本用户的历史订单数据,其中,所述历史订单数据包括所述多个样本用户在多个时间分别购买的商品集合列表;采用所述多个样本用户的历史订单数据按照用户层级生成正样本序列集合,其中,所述用户层级用于表征对应样本用户的消费习惯类型;采用所述正样本序列离线生成负样本序列集合;采用所述正样本序列集合和所述负样本序列集合训练初始对抗式网络强化学习GRL网络,得到商品推荐模型。
进一步,采用所述多个样本用户的历史订单数据按照用户层级生成正样本序列集合包括:获取每个样本用户的历史订单数据的商品集合列表;以样本用户的用户标识为第一键值,采用所述商品集合列表创建每个样本用户的购买序列,其中,所述购买序列包括多个按照时间升序购买的商品;按照单位序列长度截取所述购买序列,得到每个样本用户的截取序列,其中,所述单位序列长度为单个购买周期的时长;以序列状态为第二键值,聚合所有样本用户的截取序列,得到多个样本用户集合,其中,所述序列状态用于指示购买周期,每个单位的序列长度对应一个序列状态;采用所述多个样本用户集合分层生成正样本序列集合。
进一步,以序列状态为第二键值,聚合所有样本用户的截取序列,得到多个样本用户集合包括:从起始序列状态开始,迭代执行以下步骤,直到最后一个序列状态:确定第一序列状态对应的第一时段;在所有样本用户的截取序列中提取所述第一时段购买的第一商品集合;按照所述第一商品集合中的商品标识对所有的用户标识进行聚类,得到多个按照商品标识分类的第一用户集合;将所述第一序列状态更新为相邻的第二序列状态,其中,所述第一用户集合的数量与商品标识的数量相同;在迭代完成之后,按照序列状态存储所有的样本用户集合,得到多个样本用户集合。
进一步,采用所述多个样本用户集合分层生成正样本序列集合包括:从起始序列状态开始,迭代执行以下步骤,直到最后一个序列状态:确定第一序列状态;读取所述第一序列状态的所有历史序列,将所述所有历史序列中相同购买序列的用户划分到同一层,以使相同购买序列的多个样本用户具有同一层级表示,每个层级的若干个样本用户采用相同的商品标识进行层级表示;按照层级读取每个历史序列的下一个状态值;将下一个状态值分别添加至历史序列的末端,并配置正奖励值,得到所述第一序列状态的多个正样本序列;将所述第一序列状态更新为相邻的第二序列状态;在迭代完成之后,将所有序列状态的正样本序列确定为正样本序列集合。
进一步,采用所述正样本序列离线生成负样本序列集合包括:解析所述正样本序列的每个序列状态;从起始序列状态开始,迭代执行以下步骤,直到最后一个序列状态:确定第一序列状态;读取所述第一序列状态的所有历史序列,将所述所有历史序列按照商品标识进行用户分层,以使每个层级的若干个样本用户对应的商品标识相同;获取所述第一序列状态所有样本用户购买的第二商品集合,以及所述用户层级的层级商品,其中,所述用户层级为按照所述层级商品的商品标识分类的样本用户集合;计算所述第二商品集合与所述层级商品的差集,并为所述差集中的所有商品配置负奖励值,得到负样本序列;将所述第一序列状态更新为相邻的第二序列状态;在迭代完成之后,将所有序列状态的负样本序列确定为负样本序列集合。
进一步,采用所述正样本序列集合和所述负样本序列集合训练初始GRL网络,得到商品推荐模型包括:采用长短期记忆网络LSTM提取所述正样本序列集合的第一状态向量;为所述第一状态向量配置正反馈参数,为所述负样本序列集合配置负反馈参数,并训练所述初始GRL网络的判别网络,直到所述判别网络的损失函数的损失量小于预设量或者达到预设训练次数,得到商品推荐模型。
进一步,在采用所述正样本序列集合和所述负样本序列集合训练初始GRL网络,得到商品推荐模型之后,所述方法还包括:获取目标用户的历史订单记录;从所述历史订单记录中按时序提取预设序列长度的历史购买商品,并基于所述历史购买商品生成所述目标用户的当前状态序列,其中,所述当前状态序列包括若干个按照时间升序排序的历史购买商品;将所述当前状态序列输入所述商品推荐模型,输出所述当前状态序列之后的若干个推荐商品。
根据本申请实施例的另一个方面,还提供了一种基于离线环境的模型训练装置,包括:获取模块,用于获取多个样本用户的历史订单数据,其中,所述历史订单数据包括所述多个样本用户在多个时间分别购买的商品集合列表;第一生成模块,用于采用所述多个样本用户的历史订单数据按照用户层级生成正样本序列集合,其中,所述用户层级用于表征对应样本用户的消费习惯类型;第二生成模块,用于采用所述正样本序列离线生成负样本序列集合;训练模块,用于采用所述正样本序列集合和所述负样本序列集合训练初始对抗式网络强化学习GRL网络,得到商品推荐模型。
进一步,所述第一生成模块包括:获取单元,用于获取每个样本用户的历史订单数据的商品集合列表;创建单元,用于以样本用户的用户标识为第一键值,采用所述商品集合列表创建每个样本用户的购买序列,其中,所述购买序列包括多个按照时间升序购买的商品;截取单元,用于按照单位序列长度截取所述购买序列,得到每个样本用户的截取序列,其中,所述单位序列长度为单个购买周期的时长;聚合单元,用于以序列状态为第二键值,聚合所有样本用户的截取序列,得到多个样本用户集合,其中,所述序列状态用于指示购买周期,每个单位的序列长度对应一个序列状态;生成单元,用于采用所述多个样本用户集合分层生成正样本序列集合。
进一步,所述聚合单元包括:迭代子单元,用于从起始序列状态开始,迭代执行以下步骤,直到最后一个序列状态:确定第一序列状态对应的第一时段;在所有样本用户的截取序列中提取所述第一时段购买的第一商品集合;按照所述第一商品集合中的商品标识对所有的用户标识进行聚类,得到多个按照商品标识分类的第一用户集合;将所述第一序列状态更新为相邻的第二序列状态,其中,所述第一用户集合的数量与商品标识的数量相同;存储子单元,用于在迭代完成之后,按照序列状态存储所有的样本用户集合,得到多个样本用户集合。
进一步,所述生成单元包括:迭代子单元,用于从起始序列状态开始,迭代执行以下步骤,直到最后一个序列状态:确定第一序列状态;读取所述第一序列状态的所有历史序列,将所述所有历史序列中相同购买序列的用户划分到同一层,以使相同购买序列的多个样本用户具有同一层级表示,每个层级的若干个样本用户采用相同的商品标识进行层级表示;按照层级读取每个历史序列的下一个状态值;将下一个状态值分别添加至历史序列的末端,并配置正奖励值,得到所述第一序列状态的多个正样本序列;将所述第一序列状态更新为相邻的第二序列状态;确定子单元,用于在迭代完成之后,将所有序列状态的正样本序列确定为正样本序列集合。
进一步,所述第二生成模块包括:解析单元,用于解析所述正样本序列的每个序列状态;迭代单元,用于从起始序列状态开始,迭代执行以下步骤,直到最后一个序列状态:确定第一序列状态;读取所述第一序列状态的所有历史序列,将所述所有历史序列按照商品标识进行用户分层,以使每个层级的若干个样本用户对应的商品标识相同;获取所述第一序列状态所有样本用户购买的第二商品集合,以及所述用户层级的层级商品,其中,所述用户层级为按照所述层级商品的商品标识分类的样本用户集合;计算所述第二商品集合与所述层级商品的差集,并为所述差集中的所有商品配置负奖励值,得到负样本序列;将所述第一序列状态更新为相邻的第二序列状态;确定单元,用于在迭代完成之后,将所有序列状态的负样本序列确定为负样本序列集合。
进一步,所述训练模块包括:提取单元,用于采用长短期记忆网络LSTM提取所述正样本序列集合的第一状态向量;训练单元,用于为所述第一状态向量配置正反馈参数,为所述负样本序列集合配置负反馈参数,并训练所述初始GRL网络的判别网络,直到所述判别网络的损失函数的损失量小于预设量或者达到预设训练次数,得到商品推荐模型。
进一步,所述装置还包括:获取模块,用于在所述训练模块采用所述正样本序列集合和所述负样本序列集合训练初始GRL网络,得到商品推荐模型之后,获取目标用户的历史订单记录;处理模块,用于从所述历史订单记录中按时序提取预设序列长度的历史购买商品,并基于所述历史购买商品生成所述目标用户的当前状态序列,其中,所述当前状态序列包括若干个按照时间升序排序的历史购买商品;推荐模块,用于将所述当前状态序列输入所述商品推荐模型,输出所述当前状态序列之后的若干个推荐商品。
根据本申请实施例的另一方面,还提供了一种存储介质,该存储介质包括存储的程序,程序运行时执行上述的步骤。
根据本申请实施例的另一方面,还提供了一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;其中:存储器,用于存放计算机程序;处理器,用于通过运行存储器上所存放的程序来执行上述方法中的步骤。
本申请实施例还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述方法中的步骤。
通过本发明,获取多个样本用户的历史订单数据,其中,历史订单数据包括多个样本用户在多个时间分别购买的商品集合列表,采用多个样本用户的历史订单数据按照用户层级生成正样本序列集合,其中,用户层级用于表征对应样本用户的消费习惯类型,采用正样本序列离线生成负样本序列集合,采用正样本序列集合和负样本序列集合训练初始对抗式网络强化学习GRL网络,得到商品推荐模型,通过按照用户层级生成正样本序列集合,并采用正样本序列离线生成负样本序列集合,避免了样本用户维度大,推荐商品维度小的训练难题,生成负样本序列集合不依赖于样本用户的实际信息,从交互序列信息学习知识,模拟交互数据生成方法,能够避免离线订单环境,缺乏商品交互信息的难题,能解决样本用户数少,交互序列长的问题,解决了相关技术训练模型效率低的技术问题,降低了模型训练时对样本数量和样本质量的要求,提高了模型的训练效率。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是本发明实施例的一种计算机的硬件结构框图;
图2是根据本发明实施例的一种基于离线环境的模型训练方法的流程图;
图3是本发明实施例中GRL网络的数据流程图;
图4是本发明实施例中GRL网络的结构图;
图5是根据本发明实施例的一种基于离线环境的模型训练装置的结构框图;
图6是实施本发明实施例的一种电子设备的结构框图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
实施例1
本申请实施例一所提供的方法实施例可以在服务器、计算机、手机、或者类似的运算装置中执行。以运行在计算机上为例,图1是本发明实施例的一种计算机的硬件结构框图。如图1所示,计算机可以包括一个或多个(图1中仅示出一个)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)和用于存储数据的存储器104,可选地,上述计算机还可以包括用于通信功能的传输设备106以及输入输出设备108。本领域普通技术人员可以理解,图1所示的结构仅为示意,其并不对上述计算机的结构建成限定。例如,计算机还可包括比图1中所示更多或者更少的组件,或者具有与图1所示不同的配置。
存储器104可用于存储计算机程序,例如,应用软件的软件程序以及模块,如本发明实施例中的一种基于离线环境的模型训练方法对应的计算机程序,处理器102通过运行存储在存储器104内的计算机程序,从而执行各种功能应用以及数据处理,即实现上述的方法。存储器104可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器104可进一步包括相对于处理器102远程设置的存储器,这些远程存储器可以通过网络连接至计算机。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
传输设备106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括计算机的通信供应商提供的无线网络。在一个实例中,传输设备106包括一个网络适配器(Network Interface Controller,简称为NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输设备106可以为射频(Radio Frequency,简称为RF)模块,其用于通过无线方式与互联网进行通讯。
在本实施例中提供了一种基于离线环境的模型训练方法,图2是根据本发明实施例的一种基于离线环境的模型训练方法的流程图,如图2所示,该流程包括如下步骤:
步骤S202,获取多个样本用户的历史订单数据,其中,历史订单数据包括多个样本用户在多个时间分别购买的商品集合列表;
在本实施例的历史订单数据可以是从电商平台(如阿里,京东等),或者是从用户端的订单信息中采集得到。
可选的,历史订单数据中的每份订单数据包括订单产生的时间(交易时间,或支付时间),订单中的商品,若同一时间的组合订单中包括多个商品,可以只选择其中价格较高的,或者将组合订单中的所有商品确定为该时间的商品组合,该商品组合作为商品集合列表中的一个元素。
步骤S204,采用多个样本用户的历史订单数据按照用户层级生成正样本序列集合,其中,用户层级用于表征对应样本用户的消费习惯类型;
本实施例的用户层级按照每个样本用户的商品集合列表确定,按照商品的交易时间或者是商品序列的进度进行分层,相同购买序列的多个样本用户的层级相同,具有同一层级表示。通过用户层级,可以增加有限样本用户的样本量。
步骤S206,采用正样本序列离线生成负样本序列集合;
步骤S208,采用正样本序列集合和负样本序列集合训练初始对抗式网络强化学习GRL(Generative Reinforcement Learning)网络,得到商品推荐模型。
本实施例的业务端可以是需要使用目标标签数据的商户端,也可以是其他需要调用标签数据的客户端,由于目标标签数据不涉及到用户的隐私信息,因此可以快速动态导出,实现标签数据同步。
通过上述步骤,获取多个样本用户的历史订单数据,其中,历史订单数据包括多个样本用户在多个时间分别购买的商品集合列表,采用多个样本用户的历史订单数据按照用户层级生成正样本序列集合,其中,用户层级用于表征对应样本用户的消费习惯类型,采用正样本序列离线生成负样本序列集合,采用正样本序列集合和负样本序列集合训练初始对抗式网络强化学习GRL网络,得到商品推荐模型,通过按照用户层级生成正样本序列集合,并采用正样本序列离线生成负样本序列集合,避免了样本用户维度大,推荐商品维度小的训练难题,生成负样本序列集合不依赖于样本用户的实际信息,从交互序列信息学习知识,模拟交互数据生成方法,能够避免离线订单环境,缺乏商品交互信息的难题,能解决样本用户数少,交互序列长的问题,解决了相关技术训练模型效率低的技术问题,降低了模型训练时对样本数量和样本质量的要求,提高了模型的训练效率。
在本实施例的一个实施方式中,采用多个样本用户的历史订单数据按照用户层级生成正样本序列集合包括:
S11,获取每个样本用户的历史订单数据的商品集合列表;
S12,以样本用户的用户标识为第一键值,采用商品集合列表创建每个样本用户的购买序列,其中,购买序列包括多个按照时间升序购买的商品;
以用户A为例,其在2022-1-1号购买了商品a,2022-1-2号购买了商品b,2022-1-3号购买了商品c,则用户A的购买序列为[a, b, c]。
S13,按照单位序列长度截取购买序列,得到每个样本用户的截取序列,其中,单位序列长度为单个购买周期的时长;
可选的,单位序列长度可以选择为一天,12小时,两天等,可以根据商品类型或者商品上线周期,新品发布周期等进行设定,在本实施例中以单位序列长度为1天为例进行说明。
S14,以序列状态为第二键值,聚合所有样本用户的截取序列,得到多个样本用户集合,其中,序列状态用于指示购买周期,每个单位的序列长度对应一个序列状态;
本实施例的序列状态可以用进展值进行表示,如进展值i = 1时,对应第一序列状态,对应购买周期为2022-1-1,进展值i = 2时,对应第二序列状态,对应购买周期为2022-1-2。
在一个示例中,以序列状态为第二键值,聚合所有样本用户的截取序列,得到多个样本用户集合包括:从起始序列状态开始,迭代执行以下步骤,直到最后一个序列状态:确定第一序列状态对应的第一时段;在所有样本用户的截取序列中提取第一时段购买的第一商品集合;按照第一商品集合中的商品标识对所有的用户标识进行聚类,得到多个按照商品标识分类的第一用户集合;将第一序列状态更新为相邻的第二序列状态,其中,第一用户集合的数量与商品标识的数量相同;在迭代完成之后,按照序列状态存储所有的样本用户集合,得到多个样本用户集合。
S15,采用多个样本用户集合分层生成正样本序列集合。
在一个示例中,采用多个样本用户集合分层生成正样本序列集合包括:从起始序列状态开始,迭代执行以下步骤,直到最后一个序列状态:确定第一序列状态;读取第一序列状态的所有历史序列,将所有历史序列中相同购买序列的用户划分到同一层,以使相同购买序列的多个样本用户具有同一层级表示,每个层级的若干个样本用户采用相同的商品标识进行层级表示;按照层级读取每个历史序列的下一个状态值;将下一个状态值分别添加至历史序列的末端,并配置正奖励值,得到第一序列状态的多个正样本序列;将第一序列状态更新为相邻的第二序列状态;在迭代完成之后,将所有序列状态的正样本序列确定为正样本序列集合。
在一个实施场景中,用户分层过程包括:用户设定并输入训练的单位序列长度state_length(默认为1),读取样本用户的购买订单信息数据,得到每个用户的购买商品信息;以用户为key,对购买商品聚合(按时间升序),得到每个用户的购买序列信息列表ls,列表ls表现为:[购买商品1,购买商品2,购买商品3],根据输入参数state_length,截取相应长度的商品序列(如果用户最大长度小于该长度,则取用户最大长度,作为该用户的截取序列),以该序列为key,进行聚合,在同一个序列key中,视为同一类用户,并记录当前进展值为i;当用户状态转移时,进展值为i+1,则截取序列信息ls,整体往右移动一个商品位,重新以该序列状态为key,进行聚合,在同一个集合内,视为消费习惯类型相同的同一类用户。
例如:样本用户的历史订单数据为表1所示:
表1
user_id item_id is_buy time
A a 1 2022.1.1
B a 1 2022.1.1
C a 1 2022.1.1
D b 1 2022.1.1
A b 1 2022.1.2
B b 1 2022.1.2
C d 1 2022.1.2
D c 1 2022.1.2
A c 1 2022.1.3
B d 1 2022.1.3
C c 1 2022.1.3
D a 1 2022.1.3
包括如下字段:user_id(用户标识), item_id(商品标识), is_buy(是否购买,0为未购买,1为购买),time(购买时间),则以user_id为key聚合得到,每个样本用户的购买序列为:
A: [a, b, c]
B: [a, b, d]
C: [a, d, b]
D: [b, c, a]
假设用户输入state_length = 1, 截取序列长度为1。
当进展值i = 1的第一序列状态时,用户分层为:
商品a: [A, B, C],其中A,B,C视为统一用户,下个状态值为[b|d],添加之后,正样本序列为[a, b],[a, d]。
商品b: [D],下个状态值为[c] ,添加之后,正样本序列为[b, c]。
当进展值i = 2的第二序列状态时,用户分层为:
商品b: [A,B], 其中A,B视为统一用户,下个状态值为[c|d] ,添加之后,正样本序列为[b, c],[b, d];
商品d: [C],下个状态值为[b] ,添加之后,正样本序列为[d, b];
商品c: [D],下个状态值为[a] ,正样本序列为[c, a];
依次类推,直到最后一个序列状态。
在本实施例中,采用正样本序列离线生成负样本序列集合包括:解析正样本序列的每个序列状态;从起始序列状态开始,迭代执行以下步骤,直到最后一个序列状态:确定第一序列状态;读取第一序列状态的所有历史序列,将所有历史序列按照商品标识进行用户分层,以使每个层级的若干个样本用户对应的商品标识相同;获取第一序列状态所有样本用户购买的第二商品集合,以及用户层级的层级商品,其中,用户层级为按照层级商品的商品标识分类的样本用户集合;计算第二商品集合与层级商品的差集,并为差集中的所有商品配置负奖励值,得到负样本序列;将第一序列状态更新为相邻的第二序列状态;在迭代完成之后,将所有序列状态的负样本序列确定为负样本序列集合。
本实施例在生成负样本数据时,并不需要实时采集初始样本数据,可以直接使用生成正样本数据的初始数据即可,不需要与外部设备进行数据交互,可以离线生成,离线交互的负样本数据的生成过程包括:读取样本用户的历史订单数据,并按用户购买时间进行升序,作为初始数据集;按相同年月日进行聚合,把同一天的购买商品收集,并形成日期-商品集合列表的字典数据结构;设定补充虚拟交互数据长度参考k(可以大于或等于单位序列长度相同),获取当前进展值i和序列长度sate_length,根据上述实施例中的用户分层策略,对用户分层,根据当前分层的用户已购信息,获取每个分层用户的第i次购买日期,遍历所有日期,补充商品集合(去重取差集)=当天所有用户所有购买商品集合 - 该分层的购买商品,从补充商品集合不放回随机抽取k个商品,如果数量不够会从全量商品 - 当天用户购买商品集合抽取k个商品,抽取后,添加分层用户与商品的交互信息,并默认为不购买,表现为购买字段数据值为0(购买则为1),其字段表现形式为user_id, item_id, is_buy;将添加虚拟交互信息后的新数据集合,输出数据文件,格式为csv。
在一个示例中:假设补充序列长度为1。
当进展值i = 1,第一序列状态时,用户分层为:
商品a: [A, B, C],A,B,C用户第i=1次购买日期为2022.1.1,当天的所有商品集合为:[a,b],由于a是已有商品,则对于[A, B, C]分层用户补充交互商品b([a,b] - [a]),负样本序列为[b],交互行为是不购买0(负奖励值);
商品b: [D],D用户的第i=1次购买日期为2022.1.1,当天的所有商品集合为:[a,b],由于b是已有商品,则对于[D]分层用户补充交互商品a([a,b] - [b]),负样本序列为[a],交互行为是不购买0。
当进展值i = 2,第二序列状态时,用户分层为:
商品b: [A,B], A,B用户第i=2次购买日期为2022.1.2,当天的所有商品集合为:[b,c,d],由于b是已有商品,则对于[A, B]分层用户补充交互商品c或d([b,c,d] - [b]),负样本序列为[c|d],交互行为是不购买0;
商品d: [C],C用户第i=2次购买日期为2022.1.2,当天的所有商品集合为:[b,c,d],由于d是已有商品,则对于[C]分层用户补充交互商品b或c([b,c,d] - [d]),负样本序列为[b|c]],交互行为是不购买0;
商品c: [D],D用户第i=2次购买日期为2022.1.2,当天的所有商品集合为:[b,c,d],由于c是已有商品,则对于[D]分层用户补充交互商品b或d([b,c,d] - [c]),负样本序列为[b|d]],交互行为是不购买0。
在一个实施方式中,采用正样本序列集合和负样本序列集合训练初始GRL网络,得到商品推荐模型包括:采用长短期记忆网络(LSTM,Long Short-Term Memory)提取正样本序列集合的第一状态向量;为第一状态向量配置正反馈参数,为负样本序列集合配置负反馈参数,并训练初始GRL网络的判别网络,直到判别网络的损失函数的损失量小于预设量或者达到预设训练次数,得到商品推荐模型。
在本实施例中,采用GRL网络,GRL网络包括生成网络和判别网络,以及特征提取网络(LSTM),图3是本发明实施例中GRL网络的数据流程图,图4是本发明实施例中GRL网络的结构图,GRL网络的训练过程包括:用户输入序列长度state_length,交互数据生成个数k,初始化进展值i=1,读取用户初始购买订单数据;程序执行用户分层方法,得到n类用户,并执行交互数据生成方法,得到n * k 个补充数据,合成新的负样本数据;遍历n类用户的序列信息(由购买商品组成,按时间升序,长度为state_length),其中交互商品特征经神经网络Embedding(嵌入层)映射处理,并经feature representation (特征表示)网络加工,将序列购买商品加工特征输入LSTM提取时序特征,并得到状态码state表示向量(交互商品包含购买商品),以及n类用户的下个购买商品信息(next action);对判别网络(discriminator)训练,固定生成网络(generator)参数,输入用户交互商品特征和购买商品状态码state到生成网络,得到推荐商品fake next action(随机值)作为负样本,输入用户购买商品状态码state和用户下个购买商品real next action到判别网络作为正样本,得到生成网络loss和判别网络loss,梯度下降训练优化;生成网络训练,固定判别网络参数,生成网络随机生成推荐商品fake next action(假定为负样本中的购买商品)并经LSTM处理【购买商品+next action】得到下个状态码fake next state,将fake next state和下个状态从交互商品信息输入判别网络,基于判别网络输出的reward得到生成网络的损失,梯度下降训练优化;进入下个进展值i+1,重复步骤二至步骤四,直至生成网络和判别网络的loss损失趋于平缓,或达到设定的训练次数。
可选的,在采用正样本序列集合和负样本序列集合训练初始GRL网络,得到商品推荐模型之后,还包括:获取目标用户的历史订单记录;从历史订单记录中按时序提取预设序列长度的历史购买商品,并基于历史购买商品生成目标用户的当前状态序列,其中,当前状态序列包括若干个按照时间升序排序的历史购买商品;将当前状态序列输入商品推荐模型,输出当前状态序列之后的若干个推荐商品。
图4是本发明实施例中GRL网络的结构图,包括多个神经网络(NN),结合了对抗式网络和强化学习网络的网络结构。对抗式网络:该网络由两部分组成:生成网络和判别网络。生成网络根据随机噪声生成负样本,目标是生成接近真样本的数据,判别网络分辨负样本,目标是将生成网络输入样本判别为假,彼此形成对抗,相互学习进步,从而得到一个好的生成网络。强化学习网络:该网络由智能体(Agent)、状态空间(State)、动作空间(Action)、环境(Environment)、奖励信息(Reward)五部分组成,智能体根据所处的状态,做出行为,环境根据行为给到奖励正负信息,智能体根据奖励决定下步行为,如果是正奖励则保持,否则改变行为。
本实施例的GRL网络揉和了对抗式网络和强化学习网络两种网络,生成网络承担智能体和动作空间角色,判别网络承担环境给出奖励信息角色,有效利用对抗网络能学习优秀推荐策略特点,强化网络能学习购买序列信息特点。GRL训练过程为随机抽取一类用户,截取特定长度(可参数调节)的用户历史购买状态(State)长度,经LSTM网络处理得到状态表示信息,生成网络根据用户状态信息,输出推荐商品行为,判别网络根据用户后续状态信息,判别输出商品是否获得奖励,如果命中则传递正反馈信息,否则传递负反馈信息,根据反馈信息更新生成网络,用户状态进行迁移,用户重新分层,进入下个循环,直至用户类中的最长序列最后状态。该设计好处是不依赖于用户基础信息,仅关注用户当前交互序列信息,强调近期购买兴趣。
本实施例的方案提供了一种用户分层方法,根据用户的购买序列长度state_length,截取用户购买序列信息,按照层级划分用户组别,动态调整用户分组,可解决以下场景问题:当用户维度过大时,训练难度高,用户分层可以解决用户维度***,降低训练难度,更容易工业化应用;当待推荐商品数量小且用户基数大时,不需要太高的个性化程度,用户分层可满足任务要求,加快训练速度;当用户数量少,购买商品序列长时,可以根据截取购买序列长度,模拟出不同用户;用户分层可用聚类,但聚类强依赖于用户基础信息,在信息缺失下无法有效区分,且聚类中心多时,计算复杂度高;可根据用户行为进行矩阵分解,得到相似用户,但所求结果为两两相似,对于用户类别无法很好区分,如用户集合[A,B,C,D]中,A与B相似,B与C相似,C与D相似,则无法有效对用户分层;
本实施例的方案还提供一种负样本数据的生成方法,在离线环境中,面临主要问题是仅有用户购买数据,缺乏用户对其他商品的交互信息,且商品的上下架时间难把握,本实施例采用当天用户购买的商品且非该用户购买假定为该用户的无奖励交互商品,可参数调整交互数量,以满足数据量要求,解决学习效率问题;
用户分层方法,能够解决用户维度大,商品维度小的训练难度问题;能解决用户数少,交互序列长的问题;不依赖于用户的信息,从交互序列信息学习知识;模拟交互数据生成方法:能够解决离线订单环境,缺乏商品交互信息问题;GRL网络推荐,能够解决用户购买序列的有序推荐商品问题,关注用户的短时期兴趣和购买路径。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
实施例2
在本实施例中还提供了一种基于离线环境的模型训练装置,用于实现上述实施例及优选实施方式,已经进行过说明的不再赘述。如以下所使用的,术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
图5是根据本发明实施例的一种基于离线环境的模型训练装置的结构框图,如图5所示,该装置包括:获取模块50,第一生成模块52,第二生成模块54,训练模块56,其中,
获取模块50,用于获取多个样本用户的历史订单数据,其中,所述历史订单数据包括所述多个样本用户在多个时间分别购买的商品集合列表;
第一生成模块52,用于采用所述多个样本用户的历史订单数据按照用户层级生成正样本序列集合,其中,所述用户层级用于表征对应样本用户的消费习惯类型;
第二生成模块54,用于采用所述正样本序列离线生成负样本序列集合;
训练模块56,用于采用所述正样本序列集合和所述负样本序列集合训练初始对抗式网络强化学习GRL网络,得到商品推荐模型。
可选的,所述第一生成模块包括:获取单元,用于获取每个样本用户的历史订单数据的商品集合列表;创建单元,用于以样本用户的用户标识为第一键值,采用所述商品集合列表创建每个样本用户的购买序列,其中,所述购买序列包括多个按照时间升序购买的商品;截取单元,用于按照单位序列长度截取所述购买序列,得到每个样本用户的截取序列,其中,所述单位序列长度为单个购买周期的时长;聚合单元,用于以序列状态为第二键值,聚合所有样本用户的截取序列,得到多个样本用户集合,其中,所述序列状态用于指示购买周期,每个单位的序列长度对应一个序列状态;生成单元,用于采用所述多个样本用户集合分层生成正样本序列集合。
可选的,所述聚合单元包括:迭代子单元,用于从起始序列状态开始,迭代执行以下步骤,直到最后一个序列状态:确定第一序列状态对应的第一时段;在所有样本用户的截取序列中提取所述第一时段购买的第一商品集合;按照所述第一商品集合中的商品标识对所有的用户标识进行聚类,得到多个按照商品标识分类的第一用户集合;将所述第一序列状态更新为相邻的第二序列状态,其中,所述第一用户集合的数量与商品标识的数量相同;存储子单元,用于在迭代完成之后,按照序列状态存储所有的样本用户集合,得到多个样本用户集合。
可选的,所述生成单元包括:迭代子单元,用于从起始序列状态开始,迭代执行以下步骤,直到最后一个序列状态:确定第一序列状态;读取所述第一序列状态的所有历史序列,将所述所有历史序列中相同购买序列的用户划分到同一层,以使相同购买序列的多个样本用户具有同一层级表示,每个层级的若干个样本用户采用相同的商品标识进行层级表示;按照层级读取每个历史序列的下一个状态值;将下一个状态值分别添加至历史序列的末端,并配置正奖励值,得到所述第一序列状态的多个正样本序列;将所述第一序列状态更新为相邻的第二序列状态;确定子单元,用于在迭代完成之后,将所有序列状态的正样本序列确定为正样本序列集合。
可选的,所述第二生成模块包括:解析单元,用于解析所述正样本序列的每个序列状态;迭代单元,用于从起始序列状态开始,迭代执行以下步骤,直到最后一个序列状态:确定第一序列状态;读取所述第一序列状态的所有历史序列,将所述所有历史序列按照商品标识进行用户分层,以使每个层级的若干个样本用户对应的商品标识相同;获取所述第一序列状态所有样本用户购买的第二商品集合,以及所述用户层级的层级商品,其中,所述用户层级为按照所述层级商品的商品标识分类的样本用户集合;计算所述第二商品集合与所述层级商品的差集,并为所述差集中的所有商品配置负奖励值,得到负样本序列;将所述第一序列状态更新为相邻的第二序列状态;确定单元,用于在迭代完成之后,将所有序列状态的负样本序列确定为负样本序列集合。
可选的,所述训练模块包括:提取单元,用于采用长短期记忆网络LSTM提取所述正样本序列集合的第一状态向量;训练单元,用于为所述第一状态向量配置正反馈参数,为所述负样本序列集合配置负反馈参数,并训练所述初始GRL网络的判别网络,直到所述判别网络的损失函数的损失量小于预设量或者达到预设训练次数,得到商品推荐模型。
可选的,所述装置还包括:获取模块,用于在所述训练模块采用所述正样本序列集合和所述负样本序列集合训练初始GRL网络,得到商品推荐模型之后,获取目标用户的历史订单记录;处理模块,用于从所述历史订单记录中按时序提取预设序列长度的历史购买商品,并基于所述历史购买商品生成所述目标用户的当前状态序列,其中,所述当前状态序列包括若干个按照时间升序排序的历史购买商品;推荐模块,用于将所述当前状态序列输入所述商品推荐模型,输出所述当前状态序列之后的若干个推荐商品。
需要说明的是,上述各个模块是可以通过软件或硬件来实现的,对于后者,可以通过以下方式实现,但不限于此:上述模块均位于同一处理器中;或者,上述各个模块以任意组合的形式分别位于不同的处理器中。
实施例3
本发明的实施例还提供了一种存储介质,该存储介质中存储有计算机程序,其中,该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。
可选地,在本实施例中,上述存储介质可以被设置为存储用于执行以下步骤的计算机程序:
S1,获取多个样本用户的历史订单数据,其中,所述历史订单数据包括所述多个样本用户在多个时间分别购买的商品集合列表;
S2,采用所述多个样本用户的历史订单数据按照用户层级生成正样本序列集合,其中,所述用户层级用于表征对应样本用户的消费习惯类型;
S3,采用所述正样本序列离线生成负样本序列集合;
S4,采用所述正样本序列集合和所述负样本序列集合训练初始对抗式网络强化学习GRL网络,得到商品推荐模型。
可选地,在本实施例中,上述存储介质可以包括但不限于:U盘、只读存储器(Read-Only Memory,简称为ROM)、随机存取存储器(Random Access Memory,简称为RAM)、移动硬盘、磁碟或者光盘等各种可以存储计算机程序的介质。
本发明的实施例还提供了一种电子设备,包括存储器和处理器,该存储器中存储有计算机程序,该处理器被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。
可选地,上述电子设备还可以包括传输设备以及输入输出设备,其中,该传输设备和上述处理器连接,该输入输出设备和上述处理器连接。
可选地,在本实施例中,上述处理器可以被设置为通过计算机程序执行以下步骤:
S1,获取多个样本用户的历史订单数据,其中,所述历史订单数据包括所述多个样本用户在多个时间分别购买的商品集合列表;
S2,采用所述多个样本用户的历史订单数据按照用户层级生成正样本序列集合,其中,所述用户层级用于表征对应样本用户的消费习惯类型;
S3,采用所述正样本序列离线生成负样本序列集合;
S4,采用所述正样本序列集合和所述负样本序列集合训练初始对抗式网络强化学习GRL网络,得到商品推荐模型。
可选地,本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例,本实施例在此不再赘述。
图6是本发明实施例的一种电子设备的结构图,如图6所示,包括处理器61、通信接口62、存储器63和通信总线64,其中,处理器61,通信接口62,存储器63通过通信总线64完成相互间的通信,存储器63,用于存放计算机程序;处理器61,用于执行存储器63上所存放的程序。
上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。
在本申请的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅是本申请的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。

Claims (10)

1.一种基于离线环境的模型训练方法,其特征在于,包括:
获取多个样本用户的历史订单数据,其中,所述历史订单数据包括所述多个样本用户在多个时间分别购买的商品集合列表;
采用所述多个样本用户的历史订单数据按照用户层级生成正样本序列集合,其中,所述用户层级用于表征对应样本用户的消费习惯类型;
采用所述正样本序列离线生成负样本序列集合;
采用所述正样本序列集合和所述负样本序列集合训练初始对抗式网络强化学习GRL网络,得到商品推荐模型。
2.根据权利要求1所述的方法,其特征在于,采用所述多个样本用户的历史订单数据按照用户层级生成正样本序列集合包括:
获取每个样本用户的历史订单数据的商品集合列表;
以样本用户的用户标识为第一键值,采用所述商品集合列表创建每个样本用户的购买序列,其中,所述购买序列包括多个按照时间升序购买的商品;
按照单位序列长度截取所述购买序列,得到每个样本用户的截取序列,其中,所述单位序列长度为单个购买周期的时长;
以序列状态为第二键值,聚合所有样本用户的截取序列,得到多个样本用户集合,其中,所述序列状态用于指示购买周期,每个单位的序列长度对应一个序列状态;
采用所述多个样本用户集合分层生成正样本序列集合。
3.根据权利要求2所述的方法,其特征在于,以序列状态为第二键值,聚合所有样本用户的截取序列,得到多个样本用户集合包括:
从起始序列状态开始,迭代执行以下步骤,直到最后一个序列状态:确定第一序列状态对应的第一时段;在所有样本用户的截取序列中提取所述第一时段购买的第一商品集合;按照所述第一商品集合中的商品标识对所有的用户标识进行聚类,得到多个按照商品标识分类的第一用户集合;将所述第一序列状态更新为相邻的第二序列状态,其中,所述第一用户集合的数量与商品标识的数量相同;
在迭代完成之后,按照序列状态存储所有的样本用户集合,得到多个样本用户集合。
4.根据权利要求2所述的方法,其特征在于,采用所述多个样本用户集合分层生成正样本序列集合包括:
从起始序列状态开始,迭代执行以下步骤,直到最后一个序列状态:确定第一序列状态;读取所述第一序列状态的所有历史序列,将所述所有历史序列中相同购买序列的用户划分到同一层,以使相同购买序列的多个样本用户具有同一层级表示,每个层级的若干个样本用户采用相同的商品标识进行层级表示;按照层级读取每个历史序列的下一个状态值;将下一个状态值分别添加至历史序列的末端,并配置正奖励值,得到所述第一序列状态的多个正样本序列;将所述第一序列状态更新为相邻的第二序列状态;
在迭代完成之后,将所有序列状态的正样本序列确定为正样本序列集合。
5.根据权利要求1所述的方法,其特征在于,采用所述正样本序列离线生成负样本序列集合包括:
解析所述正样本序列的每个序列状态;
从起始序列状态开始,迭代执行以下步骤,直到最后一个序列状态:确定第一序列状态;读取所述第一序列状态的所有历史序列,将所述所有历史序列按照商品标识进行用户分层,以使每个层级的若干个样本用户对应的商品标识相同;获取所述第一序列状态所有样本用户购买的第二商品集合,以及所述用户层级的层级商品,其中,所述用户层级为按照所述层级商品的商品标识分类的样本用户集合;计算所述第二商品集合与所述层级商品的差集,并为所述差集中的所有商品配置负奖励值,得到负样本序列;将所述第一序列状态更新为相邻的第二序列状态;
在迭代完成之后,将所有序列状态的负样本序列确定为负样本序列集合。
6.根据权利要求1所述的方法,其特征在于,采用所述正样本序列集合和所述负样本序列集合训练初始GRL网络,得到商品推荐模型包括:
采用长短期记忆网络LSTM提取所述正样本序列集合的第一状态向量;
为所述第一状态向量配置正反馈参数,为所述负样本序列集合配置负反馈参数,并训练所述初始GRL网络的判别网络,直到所述判别网络的损失函数的损失量小于预设量或者达到预设训练次数,得到商品推荐模型。
7.根据权利要求1所述的方法,其特征在于,在采用所述正样本序列集合和所述负样本序列集合训练初始GRL网络,得到商品推荐模型之后,所述方法还包括:
获取目标用户的历史订单记录;
从所述历史订单记录中按时序提取预设序列长度的历史购买商品,并基于所述历史购买商品生成所述目标用户的当前状态序列,其中,所述当前状态序列包括若干个按照时间升序排序的历史购买商品;
将所述当前状态序列输入所述商品推荐模型,输出所述当前状态序列之后的若干个推荐商品。
8.一种基于离线环境的模型训练装置,其特征在于,包括:
获取模块,用于获取多个样本用户的历史订单数据,其中,所述历史订单数据包括所述多个样本用户在多个时间分别购买的商品集合列表;
第一生成模块,用于采用所述多个样本用户的历史订单数据按照用户层级生成正样本序列集合,其中,所述用户层级用于表征对应样本用户的消费习惯类型;
第二生成模块,用于采用所述正样本序列离线生成负样本序列集合;
训练模块,用于采用所述正样本序列集合和所述负样本序列集合训练初始对抗式网络强化学习GRL网络,得到商品推荐模型。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质包括存储的程序,其中,所述程序运行时执行上述权利要求1至7中任一项所述的方法的步骤。
10.一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;其中:
存储器,用于存放计算机程序;
处理器,用于通过运行存储器上所存放的程序来执行权利要求1至7中任一项所述的方法的步骤。
CN202310027604.4A 2023-01-09 2023-01-09 基于离线环境的模型训练方法及装置 Active CN115828107B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310027604.4A CN115828107B (zh) 2023-01-09 2023-01-09 基于离线环境的模型训练方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310027604.4A CN115828107B (zh) 2023-01-09 2023-01-09 基于离线环境的模型训练方法及装置

Publications (2)

Publication Number Publication Date
CN115828107A true CN115828107A (zh) 2023-03-21
CN115828107B CN115828107B (zh) 2023-05-05

Family

ID=85520471

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310027604.4A Active CN115828107B (zh) 2023-01-09 2023-01-09 基于离线环境的模型训练方法及装置

Country Status (1)

Country Link
CN (1) CN115828107B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108648049A (zh) * 2018-05-03 2018-10-12 中国科学技术大学 一种基于用户行为区别建模的序列推荐方法
CN111798273A (zh) * 2020-07-01 2020-10-20 中国建设银行股份有限公司 产品的购买概率预测模型的训练方法及购买概率预测方法
WO2021169367A1 (zh) * 2020-02-27 2021-09-02 深圳大学 一种基于多层注意力的推荐方法
CN114202061A (zh) * 2021-12-01 2022-03-18 北京航空航天大学 基于生成对抗网络模型及深度强化学习的物品推荐方法、电子设备及介质
WO2022151649A1 (zh) * 2021-01-15 2022-07-21 稿定(厦门)科技有限公司 基于深度兴趣网络的专题推荐方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108648049A (zh) * 2018-05-03 2018-10-12 中国科学技术大学 一种基于用户行为区别建模的序列推荐方法
WO2021169367A1 (zh) * 2020-02-27 2021-09-02 深圳大学 一种基于多层注意力的推荐方法
CN111798273A (zh) * 2020-07-01 2020-10-20 中国建设银行股份有限公司 产品的购买概率预测模型的训练方法及购买概率预测方法
WO2022151649A1 (zh) * 2021-01-15 2022-07-21 稿定(厦门)科技有限公司 基于深度兴趣网络的专题推荐方法及装置
CN114202061A (zh) * 2021-12-01 2022-03-18 北京航空航天大学 基于生成对抗网络模型及深度强化学习的物品推荐方法、电子设备及介质

Also Published As

Publication number Publication date
CN115828107B (zh) 2023-05-05

Similar Documents

Publication Publication Date Title
CN110009174B (zh) 风险识别模型训练方法、装置及服务器
CN107590688A (zh) 目标客户的识别方法及终端设备
CN110148023A (zh) 基于逻辑回归的电力积分商品推荐方法及***
CN108363821A (zh) 一种信息推送方法、装置、终端设备及存储介质
CN106326248A (zh) 数据库数据的存储方法和装置
CN110427560A (zh) 一种应用于推荐***的模型训练方法以及相关装置
CN111695965A (zh) 基于图神经网络的产品筛选方法、***及设备
CN110147389A (zh) 帐号处理方法和装置、存储介质及电子装置
CN110852785A (zh) 用户分级方法、装置及计算机可读存储介质
CN112288554A (zh) 商品推荐方法和装置、存储介质及电子装置
CN116127184A (zh) 产品的推荐方法及装置、非易失性存储介质、电子设备
CN113569162A (zh) 数据处理方法、装置、设备及存储介质
CN114398560B (zh) 基于web平台的营销界面设置方法、装置、设备及介质
CN116764236A (zh) 游戏道具推荐方法、装置、计算机设备和存储介质
CN114238764A (zh) 基于循环神经网络的课程推荐方法、装置及设备
CN111984842B (zh) 银行客户数据处理方法及装置
CN112395499B (zh) 信息推荐方法及装置、电子设备、存储介质
CN113435900A (zh) 交易风险确定方法、装置和服务器
CN110765350A (zh) 一种会员积分的数据融合方法和装置
CN113327154B (zh) 基于大数据的电商用户讯息推送方法及***
CN115828107B (zh) 基于离线环境的模型训练方法及装置
CN110457387A (zh) 一种应用于网络中用户标签确定的方法及相关装置
CN116127188A (zh) 目标反馈值确定方法、装置、电子设备及存储介质
CN115471260A (zh) 基于神经网络的销售预测方法、装置、设备及介质
CN114386688A (zh) 一种基于多数据融合的用户意图预测方法及***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant