CN116205700A

CN116205700A - 目标产品的推荐方法、装置、计算机设备和存储介质

Info

Publication number: CN116205700A
Application number: CN202111450911.0A
Authority: CN
Inventors: 石志林
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2021-11-30
Filing date: 2021-11-30
Publication date: 2023-06-02

Abstract

本申请涉及一种目标产品的推荐方法、装置、计算机设备和存储介质。所述方法可应用于车载终端的产品推送场景，包括：获取目标产品的产品推荐特征、候选对象的对象特征以及所述候选对象在各产品交互场景下进行产品交互所得的行为特征序列；基于所述行为特征序列中的行为特征和所述产品推荐特征，确定所述候选对象对所述目标产品的兴趣特征；根据所述产品推荐特征、所述对象特征和所述兴趣特征之间的拼接特征，确定所述候选对象对所述目标产品的兴趣得分；在所述候选对象中选取所述兴趣得分达到得分条件的目标对象；向所述目标对象推送所述目标产品的产品推荐信息。采用本方法能够提高产品推荐的准确性。

Description

目标产品的推荐方法、装置、计算机设备和存储介质

技术领域

本申请涉及互联网技术领域，特别是涉及一种目标产品的推荐方法、装置、计算机设备和存储介质。

背景技术

随着互联网技术的发展，通过互联获取信息成为人们生活、娱乐和工作的一部分。商家为了提高知名度或增加销量，往往通过互联网进行产品的推荐。

现有的产品推荐方法，往往是根据对象在单一场景下的行为数据，挖掘对象的兴趣，然后基于所挖掘兴趣进行建模以进行产品的推荐。然而，对象的兴趣通常是多种多样的，仅基于单一场景的兴趣并不能够真实全面的表达出对象的喜好，从而导致产品推荐的准确性较低。

发明内容

基于此，有必要针对上述技术问题，提供一种能够提高产品推荐的准确性的目标产品的推荐方法、装置、计算机设备和存储介质。

一种目标产品的推荐方法，所述方法包括：

获取目标产品的产品推荐特征、候选对象的对象特征以及所述候选对象在各产品交互场景下进行产品交互所得的行为特征序列；

基于所述行为特征序列中的行为特征和所述产品推荐特征，确定所述候选对象对所述目标产品的兴趣特征；

根据所述产品推荐特征、所述对象特征和所述兴趣特征之间的拼接特征，确定所述候选对象对所述目标产品的兴趣得分；

在所述候选对象中选取所述兴趣得分达到得分条件的目标对象；

向所述目标对象推送所述目标产品的产品推荐信息。

一种目标产品的推荐装置，所述装置包括：

特征获取模块，用于获取目标产品的产品推荐特征、候选对象的对象特征以及所述候选对象在各产品交互场景下进行产品交互所得的行为特征序列；

兴趣特征确定模块，用于基于所述行为特征序列中的行为特征和所述产品推荐特征，确定所述候选对象对所述目标产品的兴趣特征；

兴趣得分确定模块，用于根据所述产品推荐特征、所述对象特征和所述兴趣特征之间的拼接特征，确定所述候选对象对所述目标产品的兴趣得分；

对象选取模块，用于在所述候选对象中选取所述兴趣得分达到得分条件的目标对象；

产品推荐模块，用于向所述目标对象推送所述目标产品的产品推荐信息。

在一个实施例中，所述装置还包括：

行为信息排序模块，用于对所述行为信息集合中的行为信息按照行为时间进行排序；

所述特征获取模块，还用于：

对所述产品推荐信息、所述对象信息以及排序后所述行为信息集合中的各行为信息进行向量化处理。

在一个实施例中，所述兴趣特征确定模块，还用于：

获取所述行为特征序列中行为特征对应的行为时间和位置编码；

基于所述行为特征序列中的行为特征、所述行为时间、所述位置编码和所述产品推荐特征，确定各所述行为特征对应的子兴趣特征；

根据各所述子兴趣特征，确定所述候选对象对所述目标产品的兴趣特征。

在一个实施例中，所述兴趣特征确定模块，还用于：

基于多头注意力机制对所述行为特征序列进行特征提取，得到对应的注意力行为特征；每个所述行为特征对应的所述注意力行为特征的个数与所述多头注意力机制的头数一致；

针对每个所述注意力行为特征，基于当前所述注意力行为特征、所述目标产品的产品推荐特征、所述行为时间和所述位置编码，确定当前所述注意力行为特征对应的子兴趣特征，直至得到每个所述注意力行为特征对应的子兴趣特征；

对每个所述行为特征对应的各所述注意力行为特征的子兴趣特征进行拼接，得到每个所述行为特征对应的子兴趣特征。

在一个实施例中，所述特征获取模块，还用于：

获取所述候选对象在各产品交互场景下进行产品交互形成的上下文信息；

对所述上下文信息依序进行向量化处理以及降维处理，得到上下文特征；

所述兴趣得分确定模块，还用于：

对所述产品推荐特征、所述对象特征、所述兴趣特征和所述上下文特征进行拼接，得到拼接特征；

基于所述拼接特征确定所述候选对象对所述目标产品的兴趣得分。

在一个实施例中，所述产品推荐特征、所述对象特征、所述行为特征序列和上下文特征是通过产品推荐模型进行特征处理所得的；所述装置还包括：

训练特征获取模块，用于将样本产品对应的训练产品推荐信息、样本对象对应的训练对象信息以及所述样本对象在各所述产品交互场景下对所述样本产品进行交互所得的训练行为信息集合，输入至待训练的所述产品推荐模型，得到训练产品推荐特征、训练对象特征和训练行为特征序列；

训练兴趣特征获取模块，用于基于所述训练行为特征序列中的行为特征和所述训练产品推荐特征，确定所述样本对象对所述样本产品的训练兴趣特征；

训练兴趣分值确定模块，用于根据所述训练产品推荐特征、所述训练对象特征和所述训练兴趣特征之间的拼接特征，确定所述样本对象对所述样本产品的兴趣分值；

损失值确定模块，用于确定所述兴趣分值与兴趣标签之间的第一损失值；

模型参数调整模块，用于基于所述第一损失值对待训练的所述产品推荐模型调整参数。

在一个实施例中，所述损失值确定模块，还用于：

基于训练行为特征序列中的行为特征，确定下一时刻所述样本对象对应的预测行为特征；

基于所述预测行为特征与行为特征标签确定第二损失值；

所述模型参数调整模块，还用于：

基于所述第一损失值和所述第二损失值，对待训练的所述产品推荐模型进行参数调整。

在一个实施例中，所述模型参数调整模块，还用于：

获取所述第二损失值对应的损失系数；

根据所述损失系数、所述第一损失值和所述第二损失值确定模型损失值；

基于所述模型损失值对待训练的所述产品推荐模型进行参数调整，直至所得的模型损失值达到预设条件时停止训练。

在一个实施例中，所述训练特征获取模块，还用于：

获取所述样本对象在各所述产品交互场景下对所述样本产品进行交互形成的训练上下文信息；

将所述训练上下文信息输入至待训练的所述产品推荐模型，得到训练上下文特征；

所述训练兴趣分值确定模块，还用于：

根据所述训练产品推荐特征、所述训练对象特征、所述训练兴趣特征和所述训练上下文特征之间的拼接特征，确定所述样本对象对所述样本产品的兴趣分值。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

向所述目标对象推送所述目标产品的产品推荐信息。

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

向所述目标对象推送所述目标产品的产品推荐信息。

一种计算机程序，所述计算机程序包括计算机指令，所述计算机指令存储在计算机可读存储介质中，计算机设备的处理器从所述计算机可读存储介质读取所述计算机指令，所述处理器执行所述计算机指令，使得所述计算机设备执行以下步骤：

向所述目标对象推送所述目标产品的产品推荐信息。

上述目标产品的推荐方法、装置、计算机设备和存储介质，通过获取目标产品的产品推荐特征、候选对象的对象特征以及候选对象在各产品交互场景下进行产品交互所得的行为特征序列；基于行为特征序列中的行为特征和产品推荐特征，确定候选对象对目标产品的兴趣特征，从而可以综合考虑候选对象在各个场景下的兴趣以获取候选对象的真实喜好，进而在根据产品推荐特征、对象特征和兴趣特征之间的拼接特征，确定候选对象对目标产品的兴趣得分，并在候选对象中选取兴趣得分达到得分条件的目标对象，向目标对象推送目标产品的产品推荐信息时，提高了产品推荐的准确性。

附图说明

图1为一个实施例中目标产品的推荐方法的应用环境图；

图2为一个实施例中目标产品的推荐方法的流程示意图；

图3为一个实施例中产品推荐模型训练步骤的流程示意图；

图4为另一个实施例中目标产品的推荐方法的流程示意图；

图5为另一个实施例中目标产品的推荐方法的流程示意图；

图6为一个实施例中产品推荐模型的结构示意图；

图7为一个实施例中目标产品的推荐装置的结构框图；

图8为另一个实施例中目标产品的推荐装置的结构框图；

图9为一个实施例中计算机设备的内部结构图；

图10为另一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请提供的目标产品的推荐方法涉及人工智能的机器学习、自然语言处理等技术，其中：

人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用***。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互***、机电一体化等技术。人工智能软件技术主要包括计算机视角技术、语音处理技术、自然语言处理技术以及机器学习/深度学习、自动驾驶、智慧交通等几大方向。

机器学习(Machine Learning,ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

自然语言处理(Nature Language processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此，这一领域的研究将涉及自然语言，即人们日常使用的语言，所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。

随着人工智能技术研究和进步，人工智能技术在多个领域展开研究和应用，例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服、车联网、自动驾驶、智慧交通等，相信随着技术的发展，人工智能技术将在更多的领域得到应用，并发挥越来越重要的价值。

本申请提供的目标产品的推荐方法，可以应用于如图1所示的目标产品的推荐***。如图1所示，该目标产品的推荐***包括终端102和服务器104，终端102通过网络与服务器104进行通信。在一个实施例中，终端102和服务器104均可单独执行本申请实施例中提供的目标产品的推荐方法。终端102和服务器104也可协同用于执行本申请实施例中提供的目标产品的推荐方法。当服务器104协同用于执行本申请实施例中提供的目标产品的推荐方法时，服务器获取目标产品的产品推荐特征、候选对象的对象特征以及候选对象在各产品交互场景下进行产品交互所得的行为特征序列；基于行为特征序列中的行为特征和产品推荐特征，确定候选对象对目标产品的兴趣特征；根据产品推荐特征、对象特征和兴趣特征之间的拼接特征，确定候选对象对目标产品的兴趣得分；在候选对象中选取兴趣得分达到得分条件的目标对象；向目标对象推送目标产品的产品推荐信息。

需要说明的是，本申请所涉及的对象信息(包括但不限于对象设备信息、对象个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等)，均为经对象授权或者经过各方充分授权的信息和数据，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。

其中，终端102通过网络(如有线或无线网络)与服务器104进行通信。其中，终端102可以但不限于是各种台式计算机、笔记本电脑、智能手机、平板电脑、智能语音交互设备、智能家电、车载终端和携式可穿戴设备等，服务器104可以是独立的物理服务器，也可以是区块链***中的服务节点，该区块链***中的各服务节点之间形成组成点对点(P2P，Peer To Peer)网络，P2P协议是一个运行在传输控制协议(TCP，Transmission ControlProtocol)协议之上的应用层协议。此外，服务器104还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network，CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。

在一个实施例中，如图2所示，提供了一种目标产品的推荐方法，以该方法应用于图1中的服务器为例进行说明，包括以下步骤：

S202，获取目标产品的产品推荐特征、候选对象的对象特征以及候选对象在各产品交互场景下进行产品交互所得的行为特征序列。

其中，目标产品是可以用于推送给对象的产品，具体可以是各类信息和各类物品中的至少一种。各类信息包括应用程序、文本、表情、图片、音频、视频、文件或链接等中的至少一种，但不限于此。各类物品可包括实体物品和虚拟物品。实体物品包括各类实体产品，具体可以是手机、电脑、笔记本、手表等各种电子产品，还可以是衣服、鞋子等服饰类产品，在此不做过多限制。

虚拟物品包括但不限于保险产品、理财产品、虚拟馈赠资源、虚拟场景、虚拟角色、虚拟道具等。虚拟场景具体可以是游戏设备中的游戏场景、虚拟现实模拟场景等，虚拟角色具体可以是游戏中的各类角色，虚拟道具可以是游戏中的各种道具等。

候选对象是可以进行目标产品推荐的对象，产品交互场景是指与产品产生交互行为时所对应的场景，产品交互场景可以是线上购物场景、应用程序浏览场景、视频播放场景、社交聊天场景等，对产品进行交互即与产品产生交互行为，交互行为包括点击、访问、购买、下载、播放、收藏等行为。例如，当产品交互场景为线上购物场景时，产品即为作为商品的物品，候选对象可以对该产品进行购买，从而产生相应的行为信息，所产生的行为信息包括被交互的产品对应的产品推荐信息、交互行为、时间等，时间可以是交互行为发生的时间和/或交互行为发生的时间与当前时间的时间差。

目标产品的产品推荐特征是对目标产品的产品推荐信息进行特征化处理而得到的；候选对象的对象特征是对候选对象的对象信息进行特征化处理而得到的；行为特征序列是对行为信息集合进行特征化处理而得到的，具体是多个行为特征按照交互行为发生的时间进行排序所得到的序列。

产品推荐信息是指产品的属性信息，产品推荐信息包括产品名称、产品编号、产品类别、产品语义、产品图像等信息；对象信息包括对象的性别、年龄、学历、地域等信息；行为信息包括被交互的产品对应的产品推荐信息、交互行为、时间等信息，时间可以是交互行为发生的时间和/或交互行为发生的时间与当前时间的时间差。

可以理解的是，在获得各对象的授权的情况下，服务器可以采集并存储各对象的对象信息和各对象的行为信息，并在需要对各对象的对象信息和各对象的行为信息进行处理时，获取存储的对象信息和各对象的行为信息。其中，各对象的对象信息和各对象的行为信息进的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。

具体地，当满足产品推送条件时，服务器获取目标产品的产品推荐信息、候选对象的对象以及所述候选对象在各产品交互场景下进行产品交互所得的行为信息集合，并对所获取的各个信息进行特征化处理，得到目标产品的产品推荐特征、候选对象的对象特征以及所述候选对象在各产品交互场景下进行产品交互所得的行为特征序列。

其中，产品推送条件包括时间条件和请求条件，时间条件具体可以是预设的产品推送周期，例如，产品推送周期为24小时，推送时间为上午10点，则在到达每天的上午十点，即满足了产品推送条件；请求条件具体可以是接收到产品推送请求，服务器可以接收来自至少一个终端所发送的产品推荐请求。

特征化处理包括向量化处理和降维处理，其中向量化是指将信息转换为高维向量，以便通过人工智能模型对信息进行处理，降维处理是指对于高维向量形式的信息减少其冗余信息得到低维向量，以便提高后续对该信息的处理速度。

在一个实施例中，S202具体包括以下步骤：获取目标产品的产品推荐信息、候选对象的对象信息以及候选对象在各产品交互场景下进行产品交互所得的行为信息集合；对产品推荐信息、对象信息以及行为信息集合中的各行为信息进行向量化处理；对向量化处理后的结果进行降维处理，得到产品推荐特征、对象特征以及行为特征序列。

具体地，服务器在得到目标产品的产品推荐信息、候选对象的对象信息以及候选对象的行为信息集合之后，对目标产品的产品推荐信息、候选对象的对象信息以及候选对象的行为信息集合进行向量化处理，得到高维空间中的产品推荐信息向量、对象信息向量和行为信息向量集合，然后采用预设的降维算法对高维空间中的产品推荐信息向量、对象信息向量和行为信息向量集合进行降维处理，得到产品推荐特征、对象特征以及行为特征集合，根据行为特征集合确定行为特征序列。

其中，降维算法可以是主成分分析算法(PCA)、奇异值分解算法(SVD)、因子分析算法(FA)、独立成分分析算法(ICA)和线性判别分析算法(LDA)中的至少一种。

在一个实施例中，服务器根据行为特征集合确定行为特征序列的过程具体可以是，对行为特征集合中的各个行为特征按照行为时间进行排序，得到行为特征序列。

在一个实施例中，产品推荐信息向量、对象信息向量和行为信息向量集合中的行为信息向量均可以表示为one-hot向量形式，产品推荐特征、对象特征以及行为特征序列中的行为特征均可以表示为embedding向量。其中one-hot向量是一种稀疏向量表示，值为0或者1，一个向量只有一个1，其它的值为0；Embedding能够用低维向量对物体进行编码还能保留其含义，embedding向量的性质是能使距离相近的向量对应的物品有相近的含义。

例如，产品推荐特征为x_u，对象特征为x_v，行为特征序列为x_b，其中，x_b＝{e₁,e₂,…,e_i,…,e_n}，e_i为行为特征序列中第i个行为特征，n为行为特征序列中行为特征的数量，

为行为特征e_i的第j个信息，比如，/>

为行为特征e_i对应的商品名称，/>

为行为特征e_i对应的商品ID，/>

为行为特征e_i对应的交互行为，/>

为行为特征e_i对应的时间等等。可以理解的是，/>

是Embedding词典，/>

是长度为D的Embedding向量。

在一个实施例中，对于产品名称、产品编号、产品类别、产品语义等进行向量化处理，可以得到对应的文本向量，对于产品图像对其进行向量化处理，可以得到对应的图像特征向量；对候选对象的对象信息进行向量化处理，得到高维空间中对象信息向量，对于对象的性别、年龄、学历、地域等进行向量化处理，可以得到对应的文本向量；对交互行为、交互行为发生的时间等进行向量化处理，可以得到对应的文本向量。

在一个实施例中，服务器在对目标产品的产品推荐信息、候选对象的对象信息以及候选对象的行为信息集合进行向量化之前，还可对目标产品的产品推荐信息、候选对象的对象信息以及候选对象的行为信息集合进行向量化进行预处理，预处理方式包括归一化处理、数值转换和编码处理，具体包括以下步骤：确定目标产品的产品推荐信息、候选对象的对象信息以及候选对象的行为信息的信息类型，基于信息所属的信息类型确定目标预处理方式，按照目标预处理方式对产品推荐信息、对象信息和行为信息集合进行预处理，得到预处理后产品推荐信息、预处理后对象信息和预处理后行为信息集合。

其中，预处理方式包括归一化处理、数值转换和编码处理，信息类型包括连续型和离散型，与连续型匹配的目标预处理方式为归一化处理或数值转换处理，与离散型匹配的目标预处理方式为编码处理。属于连续型的信息是指数值型且在数值上连续的信息，例如，对象的年龄、交互行为发生的时间、交互行为发生的时间与当前时间的时间差等即属于连续型的信息，产品名称、产品编号、产品类别、产品语义、产品图像、性别、学历、地域、交互行为等即离散型的信息。

归一化处理是指对连续型的信息的数值进行缩放处理，以使所得到的处理后的数值处于目标数值范围内。例如，本申请实施例中，具体可以采用以下公式对年龄进行归一化处理：

W_age＝|Age/10| (1)

其中，Age为对象的年龄，W_age为对象的年龄对应的预处理后信息。

对于时间信息，可以采用以下公式(2)对时间信息数值转换处理，得到转换结果：

value＝e^-t*0.2 (2)

其中，t表示行为信息中的时间，value为转换结果。

特征编码处理是指对离散型的信息分别确定其对应的编码，并将编码作为该信息所对应的预处理后信息。

例如，针对用户的性别，可以用编码1表示性别“男”，用编码0表示性别“女”；针对地域，可以建立地域映射表，在地域映射表中，将北京映射为“1”，上海映射为“2”、广州映射为“3”、深圳映射为“4”等，以此类推，从而对每个城市分别映射为相应的数字。

上述实施例中，服务器通过对获取的目标产品的产品推荐信息、候选对象的对象信息以及所述候选对象在各产品交互场景下进行产品交互所得的行为信息集合，进行向量化处理和降维处理，一放面便于通过人工智能模型对各信息进行处理，另一方面减少了待处理信息中的冗余信息，提高于通过人工智能模型对各信息的处理速度。

S204，基于行为特征序列中的行为特征和产品推荐特征，确定候选对象对目标产品的兴趣特征。

可以理解的是，行为特征序列的行为特征中携带有候选对象的历史时间段内所交互产品的产品推荐信息以及对该产品所执行的交互行为，基于行为特征序列中的行为特征和目标产品推荐特征，可以确定出历史时间段内所交互产品的产品推荐信息与目标产品的产品推荐特征之间的相关性，进而基于该相关性和对象的历史时间段内对所交互产品执行的交互行为，确定出候选对象对目标产品的兴趣特征。

在一个实施例中，S204具体包括以下步骤：获取行为特征序列中行为特征对应的行为时间和位置编码；基于行为特征序列中的行为特征、行为时间、位置编码和产品推荐特征，确定各行为特征对应的子兴趣特征；根据各兴趣特征，确定候选对象对目标产品的兴趣特征。

其中，位置编码是指行为特征在行为特征序列中的位置的编码顺序，例如，行为特征序列x_b＝{e₁,e₂,…,e_i,…,e_n}中，行为特征e_i的位置编码即可表示为p_i，行为特征e_i的行为时间可表示为t_i。

具体地，服务器在得到行为特征序列中行为特征对应的行为时间和位置编码之后，根据行为时间确定时间系数，并根据行为特征、时间系数、位置编码和产品推荐特征确定各个行为特征对应的子兴趣特征，根据各行为特征对应的子兴趣特征，确定候选对象对目标产品的兴趣特征。

在一个实施例中，服务器根据行为特征的行为时间，确定出行为时间距当前时间的时间差，并对时间差进行离散化处理，得到时间系数，并通过以下子兴趣特征确定函数基于时间系数、行为特征、位置编码和产品推荐特征，确定行为特征对应的子兴趣特征。其中，子兴趣特征确定函数的表达式如下：

Interest_i＝α_i(e_i,x_u,p_i)×e_i (3)

其中，Interest_i为第i个行为特征e_i所对应的子兴趣特征，α_i为第i个行为特征e_i所对应的时间系数，x_u为目标产品的产品推荐特征，p_i为第i个行为特征e_i所对应的位置编码。

在一个实施例中，服务器得到各行为特征对应的子兴趣特征之后，对各个子兴趣特征进行叠加，从而得到候选对象对目标产品的兴趣特征，具体可以采用以下公式确定兴趣特征：

其中，Interest为候选对象对目标产品的兴趣特征，Interest_i为候选对象的第i个行为特征e_i所对应的子兴趣特征。

上述实施例中，服务器通过获取行为特征序列中行为特征对应的行为时间和位置编码，基于行为特征序列中的行为特征、行为时间、位置编码和产品推荐特征，确定各行为特征对应的子兴趣特征，根据各子兴趣特征，确定候选对象对目标产品的兴趣特征，即实现了基于行为特征序列中的产品与目标产品的相关性，确定出候选对象对目标产品的兴趣特征，进而在基于兴趣特征确定产品推送时可以提高产品推送的准确性。

S206，根据产品推荐特征、对象特征和兴趣特征之间的拼接特征，确定候选对象对目标产品的兴趣得分。

其中，兴趣得分用于表征候选对象对目标产品的感兴趣程度，也可以说是候选对象对目标产品进行交互的概率，可以理解的是，候选对象对目标产品感兴趣的程度越大，则将该目标产品推送给该候选对象后，该候选对象对该目标产品进行交互的概率也越大，其中交互行为可以是点击、访问、购买、下载、播放、收藏等行为。

具体地，服务器在得到产品推荐特征、对象特征和兴趣特征之后，可以将产品推荐特征、对象特征和兴趣特征输入产品推荐模型，通过产品推荐模型的MLP(多层感知器神经网络)层对产品推荐特征、对象特征和兴趣特征进行拼接得到拼接特征，并基于拼接特征预测候选对象对目标产品的兴趣得分。

S208，在候选对象中选取兴趣得分达到得分条件的目标对象。

其中，得分条件可以是分数排名条件或分数阈值条件。

在一个实施例中，得分条件为分数排名条件时，服务器在得到各候选对象对目标产品的兴趣得分之后，按照兴趣得分对各个候选对象进行排序，得到排序结果，并基于排序结果，从各候选对象中选取达到分数排名条件的目标对象。

例如，按照兴趣得分对各个候选对象进行降序排列，并将排序在前5名的候选对象确定为目标对象，或者将排序再前20％的候选对象确定为目标对象。

在一个实施例中，得分条件为分数阈值条件，服务器在得到各个候选对象对目标产品的兴趣得分之后，从各候选对象中选取兴趣得分大于分数阈值的目标对象。

具体的，服务器在得到各个候选对象对目标产品的兴趣得分之后，确定各个候选对象的兴趣得分是否大于分数阈值，若候选对象的兴趣得分大于分数阈值，则确定该候选对象为目标对象，若确定候选对象的兴趣得分不大于分数阈值，则确定该候选对象非目标对象。

S210，向目标对象推送目标产品的产品推荐信息。

具体地，服务器在确定出目标对象之后，将目标产品的产品推荐信息发送给目标对象所对应的终端，以使目标对象所对应的终端基于所接收到的产品推荐信息对目标产品进行展示。

在一个实施例中，服务器在确定出目标对象之后，还可以获取各目标对象所对应终端的产品展示配置信息，并根据产品展示配置信息对目标产品的产品推荐信息进行调整，得到目标产品的调整后产品推荐信息，并将目标产品的调整后产品推荐信息发送至目标对象所对应的终端，以使目标对象所对应的终端基于所接收到的调整后产品推荐信息对目标产品进行展示。

例如，终端产品展示配置信息中包括产品图片展示窗口的尺寸，服务器在获取到终端的产品图片展示窗口的尺寸之后，可以根据该尺寸对目标产品的产品图像的尺寸进行调整，以适应终端的产品图片展示窗口的尺寸，并将调整尺寸后的目标产品的产品图像发送至目标对象所对应的终端，以使目标对象所对应的终端对所接收到的目标产品的产品图像进行展示。

上述实施例中，服务器通过获取目标产品的产品推荐特征、候选对象的对象特征以及候选对象在各产品交互场景下进行产品交互所得的行为特征序列；基于行为特征序列中的行为特征和产品推荐特征，确定候选对象对目标产品的兴趣特征，从而可以综合考虑候选对象在各个场景下的兴趣以获取候选对象的真实喜好，进而在根据产品推荐特征、对象特征和兴趣特征之间的拼接特征，确定候选对象对目标产品的兴趣得分，并在候选对象中选取兴趣得分达到得分条件的目标对象，向目标对象推送目标产品的产品推荐信息时，提高了产品推荐的准确性。

在一个实施例中，服务器在得到候选对象在各产品交互场景下进行产品交互所得的行为信息集合之后，还可以对行为信息集合中的行为信息按照行为时间进行排序，并对产品推荐信息、对象信息和排序后行为信息集合中的各个行为信息进行向量化处理。

其中，排序后行为信息集合也可以称为行为信息序列，行为信息序列是指将行为信息按照行为时间进行排序所得到的序列。

可以理解的是，行为信息的行为时间的先后顺序中携带有对象的行为习惯或者喜好，因此通过对行为信息进行排序得到行为信息序列，进而基于行为信息序列预测对象对目标产品的兴趣得分时，可以使得预测结果更加准确。

具体地，服务器产品推荐信息、对象信息和排序后行为信息集合中的各个行为信息进行向量化处理，得到高维空间中的产品推荐信息向量、对象信息向量和行为信息向量序列，并采用预设的降维算法对高维空间中的产品推荐信息向量、对象信息向量和行为信息向量序列进行降维处理，得到产品推荐特征、对象特征以及行为特征序列。

上述实施例中，服务器对行为信息集合中的行为信息按照行为时间进行排序，可以得到行为信息序列，行为信息的行为时间的先后顺序中携带有候选对象的行为习惯或者喜好，因此通过对行为信息进行排序得到行为信息序列，进而基于行为信息序列预测对象对目标产品的兴趣得分时，可以使得预测结果更加准确。

在一个实施例中，服务器在获取到行为特征序列之后，还可以基于多头注意力机制对行为特征序列进行特征提取，得到对应的注意力行为特征。

其中，同一个行为特征所对应的注意力行为特征的个数与多头注意力机制的头数一致，头数是指多头注意力机制的注意力头的个数。多头注意力机制用于对行为特征序列之间的内部关系进行建模。

具体地，服务器在获取到行为特征序列之后，基于行为特征序列确定多头注意力机制的各个注意力头所对应的注意力矩阵，根据行为特征序列和各个注意力头所对应的注意力矩阵计算各个注意力头所对应的注意力行为特征序列。

例如，多头注意力机制的注意力头的个数为N，基于行为特征序列所确定的第h个注意力头所对应的注意力行为特征序列为：

其中，x_b为行为特征序列，head_h为第h个注意力头所对应的注意力行为特征序列，

和/>

为第h个注意力头所对应的注意力矩阵，softmax为激活函数，/>

缩放因子。

在一个实施例中，服务器在得到各个注意力头所对应的注意力行为特征序列之后，还可以根据各个注意力头所对应的注意力行为特征序列，确定行为特征序列所对应的注意力行为特征序列。

具体地，服务器可采用以下公式确定行为特征序列所对应的注意力行为特征序列：

Z＝MultiHead(x_b)＝concat(head₁,…,head_h,…,head_N)W^o (6)

其中，Z为注意力行为特征序列，head_h为第h个注意力头所对应的注意力行为特征序列，W^o为可学习的参数矩阵。

在一个实施例中，服务器基于行为特征序列中的行为特征、行为时间、位置编码和产品推荐特征，确定各行为特征对应的子兴趣特征的步骤包括：针对每个注意力行为特征序列，基于当前注意力行为特征序列、目标产品的产品推荐特征、行为时间和位置编码，确定当前注意力行为特征序列对应的子兴趣特征，直至得到每个注意力行为特征对应的子兴趣特征；对每个行为特征对应的各注意力行为特征的子兴趣特征进行拼接，得到每个行为特征对应的子兴趣特征。

可以理解的是，每个注意力头所对应注意力行为特征序列中的各个注意力行为特征，分别与行为特征序列中的行为特征对应，例如，行为特征序列x_b＝{e₁,e₂,…,e_i,…,e_n}，对应的第h个注意力头的注意力行为特征序列为head_h＝{I_1,h,I_2,h,…,I_i,h,…,I_n,h}，其中注意力特征I_1,h对应的行为特征为e₁，注意力特征I_2,h对应的行为特征为e₂，注意力特征I_i,h对应的行为特征为e_i，注意力特征I_n,h对应的行为特征为e_n。由此可见，当行为特征序列x_b＝{e₁,e₂,…,e_i,…,e_n}，对应的注意力头有N个时，行为特征e_i对应的注意力特征有N个，分别为I_i,1、I_i,2……I_i,h……I_i,N。

具体地，针对任意一个注意力行为特征序列中的任意一个注意力行为特征，服务器根据该注意力行为特征对应的行为特征的行为时间，确定出行为时间距当前时间的时间差，并对时间差进行离散化处理，得到时间系数，并通过以下子兴趣特征确定函数基于时间系数、注意力行为特征、位置编码和产品推荐特征，确定注意力行为特征对应的子兴趣特征。其中，子兴趣特征确定函数的表达式如下：

Interest_i,h＝α_i(I_i,h,x_u,p_i)×I_i,h (7)

其中，Interest_i,h为第h个注意力行为特征序列中第i个注意力行为特征I_i,h所对应的子兴趣特征，α_i为第i个注意力行为特征I_i,h所对应的行为特征e_i的时间系数，x_u为目标产品的产品推荐特征，p_i为第i个注意力行为特征I_i,h所对应的行为特征e_i的位置编码。

在一个实施例中，服务器得到任意一个注意力行为特征序列中各注意力行为特征对应的子兴趣特征之后，对该注意力行为特征序列各个子兴趣特征进行叠加，从而得到该注意力行为特征序列对应的子兴趣特征，具体可以采用以下公式确定注意力行为特征序列对应的子兴趣特征：

其中，Interest_h为第h个注意力行为特征序列对应的子兴趣特征，Interest_i,h为第h个注意力行为特征序列中第i个注意力行为特征I_i,h所对应的子兴趣特征，n为行为特征的数量。

在一个实施例中，服务器得到各个注意力行为特征序列中各注意力行为特征对应的子兴趣特征之后，即确定出任意一个行为特征所对应的各注意力行为特征对应的子兴趣特征之后，还可以对该行为特征对应的各注意力行为特征的子兴趣特征进行拼接，得到每个行为特征对应的子兴趣特征。其中，具体可以采用以下公式确定行为特征对应的子兴趣特征：

Interest_i＝(Interest_i,1,…,Interest_i,h,…,Interest_i,N) (9)

其中，Interest_i第i个行为特征e_i所对应的子兴趣特征，Interest_i,h第i个行为特征e_i所对应的第h个注意力行为特征的子兴趣特征。

上述实施例中，服务器基于多头注意力机制对行为特征序列进行特征提取，得到对应的注意力行为特征，从而实现了对行为特征的融合，进而基于融合后所得到的注意力行为特征确定各行为特征对应的子兴趣特征，并根据各子兴趣特征，确定候选对象对目标产品的兴趣特征，即实现了基于融合后行为特征中的产品与目标产品的相关性，确定出候选对象对目标产品的兴趣特征，进而在基于兴趣特征确定产品推送时可以进一步提高产品推送的准确性。

在一个实施例中，服务器还可以获取候选对象在各产品交互场景下进行产品交互形成的上下文信息，对上下文信息依序进行向量化处理以及降维处理，得到上下文特征。

其中，上下文信息可以是内容上下文、时间上下文或者地点上下文，比如，内容上下文为对象访问的物品的介绍信息的上下文，时间上下文为物品自己的生命周期，位置上下文为访问物品时所使用的终端的机型等。向量化是指将信息转换为高维向量，以便通过人工智能模型对信息进行处理，降维处理是指对于高维向量形式的信息减少冗余信息得到低维向量，以便提高后续对该信息的处理速度。

可以理解的是，内容、时间和地点往往会对候选对象的行为产生一定的影响，即上下文信息中也携带有候选对象的行为习惯或者喜好，因此通过获取下文信息，并提取上下文特征，进而在基于上下文特征预测对象对目标产品的兴趣得分时，可以使得预测结果更加准确。

具体地，服务器在得到候选对象在各产品交互场景下进行产品交互形成的上下文信息之后，对上下文信息进行向量化处理，得到高维空间中的上下文信息向量，然后采用预设的降维算法对高维空间中的上下文信息向量进行降维处理，得到上下文特征。

在一个实施例中，服务器根据产品推荐特征、对象特征和兴趣特征之间的拼接特征，确定候选对象对目标产品的兴趣得分的过程包括以下步骤：对产品推荐特征、对象特征、兴趣特征和上下文特征进行拼接，得到拼接特征；基于拼接特征确定候选对象对目标产品的兴趣得分。

具体地，服务器在得到产品推荐特征、对象特征、兴趣特征和上下文特征之后，可以将产品推荐特征、对象特征、兴趣特征和上下文特征输入产品推荐模型，通过产品推荐模型的MLP(多层感知器神经网络)层对产品推荐特征、对象特征、兴趣特征和上下文特征进行拼接得到拼接特征，并基于拼接特征预测候选对象对目标产品的兴趣得分。

上述实施例中，服务器通过获取候选对象在各产品交互场景下进行产品交互形成的上下文特征，进而在基于上下文特征预测对象对目标产品的兴趣得分时，可以使得预测结果更加准确。

在一个实施例中，产品推荐特征、对象特征、行为特征序列和上下文特征是通过产品推荐模型进行特征处理所得的，上述目标产品的推荐方法还包括对产品推荐模型进行训练的过程，如图3所示，该过程具体包括以下步骤：

S302，将样本产品对应的训练产品推荐信息、样本对象对应的训练对象信息以及样本对象在各产品交互场景下对样本产品进行交互所得的训练行为信息集合，输入至待训练的产品推荐模型，得到训练产品推荐特征、训练对象特征和训练行为特征序列。

其中，产品推荐模型包括嵌入(embedding)层，嵌入层用于对输入的高维向量进行降维处理。

具体地，服务器在得到样本产品对应的训练产品推荐信息、样本对象对应的训练对象信息以及样本对象在各产品交互场景下对样本产品进行交互所得的训练行为信息集合之后，对训练产品推荐信息、训练对象信息和训练行为信息集合进行向量化处理，得到高维空间中的训练产品推荐向量、训练对象向量和训练行为向量集合，然后将高维空间中的训练产品推荐向量、训练对象向量和训练行为向量集合输入至待训练的产品推荐模型，通过待训练的产品推荐模型的嵌入(embedding)层采用预设的降维算法对高维空间中的训练产品推荐向量、训练对象向量和训练行为向量集合进行降维处理，得到训练产品推荐特征、训练对象特征和训练行为特征序列。

S304，基于训练行为特征序列中的行为特征和训练产品推荐特征，确定样本对象对样本产品的训练兴趣特征。

在一个实施例中S304具体包括以下步骤，服务器获取训练行为特征序列中行为特征对应的行为时间和位置编码；基于训练行为特征序列中的行为特征、行为时间、位置编码和训练产品推荐特征，确定各行为特征对应的子训练兴趣特征；根据各子训练兴趣特征，确定样本对象对样本产品的训练兴趣特征。

其中，位置编码是指训练行为特征在训练行为特征序列中的位置的编码顺序。

具体地，服务器在得到训练行为特征序列中行为特征对应的行为时间和位置编码之后，根据行为时间确定时间系数，并根据行为特征、时间系数、位置编码和训练产品推荐特征确定各个行为特征对应的子训练兴趣特征，根据各行为特征对应的子训练兴趣特征，确定样本对象对样本产品的训练兴趣特征。

S306，根据训练产品推荐特征、训练对象特征和训练兴趣特征之间的拼接特征，确定样本对象对样本产品的兴趣分值。

具体地，服务器在得到训练产品推荐特征、训练对象特征和训练兴趣特征之后，可以将训练产品推荐特征、训练对象特征和训练兴趣特征输入产品推荐模型的MLP(多层感知器神经网络)层，通过MLP(多层感知器神经网络)层对训练产品推荐特征、训练对象特征和训练兴趣特征进行拼接得到拼接特征，并基于拼接特征确定样本对象对样本产品的兴趣分值。

S308，确定兴趣分值与兴趣标签之间的第一损失值。

其中，兴趣标签是指样本的真实标签，所表示的是样本对象实际交互的样本产品。

具体地，服务器在得到兴趣分值之后，还可以获取该兴趣分值所对应的兴趣标签，并通过第一损失函数基于兴趣分值和兴趣标签，确定第一损失值，其中第一损失函数的表达式如下：

其中，L_target为第一损失值，M和T均为样本总数量，即M＝T，y_i为样本的兴趣标签，即期望输出，f(x_i)为模型的实际输出，即兴趣分值。

S310，基于第一损失值对待训练的产品推荐模型调整参数。

具体地，服务器在得到第一损失值之后，基于第一损失值对待训练的产品推荐模型的参数进行调整，得到调整后产品推荐模型，然后重新执行步骤S302，直至模型收敛，并将此时所得到的调整后产品推荐模型确定为训练完成的产品推荐模型。

上述实施例中，服务器基于样本产品对应的训练产品推荐信息、样本对象对应的训练对象信息以及所述样本对象在各所述产品交互场景下对所述样本产品进行交互所得的训练行为信息集合，对产品推荐模型进行训练，从而使得训练后的产品推荐模型具备提取候选对象在各个场景下的兴趣以获取候选对象的真实喜好的能力，进而在基于产品推荐模型进行产品推荐时，提高了产品推荐的准确性。

在一个实施例中，服务器对产品推荐模型进行训练的过程还包括以下步骤：基于训练行为特征序列中的行为特征，确定下一时刻样本对象对应的预测行为特征；基于预测行为特征与行为特征标签确定第二损失值。

其中，第二损失值也可以称为辅助损失值。行为特征标签是指下一时刻样本对象的真实行为标签，所表示的是样本对象在下一时刻的真实行为。

具体地，服务器在得到训练行为序列中的行为特征后，基于所得到的各个行为特征中的至少一个行为特征，预测下一时刻样本对象对应的预测行为特征，获取行为特征标签，并通过第二损失函数基于预测行为特征和行为特征标签，确定第一损失值，其中第二损失函数的表达式如下：

其中，σ(.)表示sigmoid激活函数，<.>表示内积，L_aux为第二损失值，M为样本总数量，

为第i个样本在t时刻的行为特征，/>

第i个样本在t+1时刻的预测行为特征，/>

为第i个样本在t+1时刻的行为特征标签。可以理解的是，t时刻表示当前时刻，t+1时刻表示当前时刻的下一时刻。

在一个实施例中，服务器在得到第一损失值和第二损失值之后，还可以基于第一损失值和第二损失值，对待训练的产品推荐模型进行参数调整。

具体地，服务器基于第一损失值和第二损失值确定待训练的产品推荐模型的模型损失值，并根据训练损失值对待训练的产品推荐模型进行参数调整，得到调整后产品推荐模型，然后重新执行步骤S302，直至模型收敛，并将此时所得到的调整后产品推荐模型确定为训练完成的产品推荐模型。

上述实施例中，服务器通过基于训练行为特征序列中的行为特征，确定下一时刻样本对象对应的预测行为特征，基于预测行为特征与行为特征标签确定第二损失值，进而基于第一损失值和第二损失值，对待训练的产品推荐模型进行参数调整，从而使得训练后的产品推荐模型能够更好地提取候选对象在各个场景下的兴趣以获取候选对象的真实喜好，进而在基于产品推荐模型进行产品推荐时，进一步提高产品推荐的准确性。

在一个实施例中，服务器基于第一损失值和第二损失值，对待训练的产品推荐模型进行参数调整的过程包括以下步骤：获取第二损失值对应的损失系数；根据损失系数、第一损失值和第二损失值确定模型损失值；基于模型损失值对待训练的产品推荐模型进行参数调整，直至所得的模型损失值达到预设条件时停止训练。

其中，第二损失值的损失系数用于调整第二损失值在模型损失值中的权重，即条或者能第二损失值对模型损失值的影响。

具体地，服务器在获取第二损失值对应的损失系数之后，通过第三损失函数基于损失系数、第一损失值和第二损失值确定模型损失值，并基于模型损失值对待训练的产品推荐模型进行参数调整，得到调整后产品推荐模型，然后重新执行步骤S302，直至所得的模型损失值达到预设条件时停止训练，并将并将此时所得到的调整后产品推荐模型确定为训练完成的产品推荐模型。

其中预设条件可以是模型收敛或者模型损失值达到目标损失值。第三损失函数的表达式如下：

L_total＝L_target+λL_aux (12)

其中，L_total为模型损失值，L_target为第一损失值，L_aux为第二损失值，λ为第二损失值的损失系数。

上述实施例中，服务器通过获取所述第二损失值对应的损失系数，并根据损失系数、第一损失值和第二损失值确定模型损失值，基于模型损失值对待训练的产品推荐模型进行参数调整，直至所得的模型损失值达到预设条件时停止训练，从而使得训练后的产品推荐模型能够更好地提取候选对象在各个场景下的兴趣以获取候选对象的真实喜好，进而在基于产品推荐模型进行产品推荐时，进一步提高产品推荐的准确性。

在一个实施例中，服务器基于训练行为特征序列中的行为特征，确定下一时刻样本对象对应的预测行为特征的过程具体包括以下步骤：基于多头注意力机制对训练行为特征序列进行特征提取，得到对应的注意力行为特征；基于注意力行为特征确定下一时刻样本对象对应的预测行为特征。其中，每个行为特征对应的注意力行为特征的个数与多头注意力机制的头数一致。

具体地，服务器可以基于多头注意力机制对训练行为特征序列进行特征提取，得到各个注意力头所对应的注意力行为特征序列，并根据各个注意力头所对应的注意力行为特征序列，确定行为特征序列所对应的注意力行为特征序列，并根据所得到的注意力行为特征序列中的同一样本产品对应的各个注意力行为特征，确定下一时刻样本对象对应的预测行为特征。

在一个实施例中，服务器基于注意力行为特征确定下一时刻样本对象对应的预测行为特征，还可以获取行为特征标签，并通过第二损失函数基于预测行为特征和行为特征标签，确定第一损失值，其中第二损失函数的表达式如下：

为第i个样本在t时刻的注意力行为特征，/>

第i个样本在t+1时刻的预测行为特征，

上述实施例中，服务器通过基于多头注意力机制对训练行为特征序列进行特征提取，得到对应的注意力行为特征，基于注意力行为特征确定下一时刻样本对象对应的预测行为特征，基于预测行为特征与行为特征标签确定第二损失值，进而基于第一损失值和第二损失值，对待训练的产品推荐模型进行参数调整，从而使得训练后的产品推荐模型具备更好地对行为特征进行融合的能力，进而能够更好地提取候选对象在各个场景下的兴趣以获取候选对象的真实喜好，进而在基于产品推荐模型进行产品推荐时，进一步提高产品推荐的准确性。

在一个实施例中，服务器在对待训练的产品推荐模型进行训练时，还可以获取样本对象在各产品交互场景下对样本产品进行交互形成的训练上下文信息；将训练上下文信息输入至待训练的产品推荐模型，得到训练上下文特征。

其中，上下文信息可以是内容上下文、时间上下文或者地点上下文，比如，内容上下文为对象访问的物品的介绍信息的上下文，时间上下文为物品自己的生命周期，位置上下文为访问物品时所使用的终端的机型等。

具体地，服务器在获取到上下文信息之后，还可以将上下文信息输入至待训练的产品推荐模型，通过产品推荐模型对上下文信息依序进行向量化处理以及降维处理，得到上下文特征。

其中，向量化是指将信息转换为高维向量，以便通过人工智能模型对信息进行处理，降维处理是指对于高维向量形式的信息减少冗余信息得到低维向量，以便提高后续对该信息的处理速度。

在一个实施例中，服务器根据训练产品推荐特征、训练对象特征和训练兴趣特征之间的拼接特征，确定样本对象对样本产品的兴趣分值的过程还包括以下步骤：根据训练产品推荐特征、训练对象特征、训练兴趣特征和训练上下文特征之间的拼接特征，确定样本对象对样本产品的兴趣分值。

具体地，服务器在得到训练产品推荐特征、训练对象特征、训练兴趣特征和训练上下文特征之后，可以将训练产品推荐特征、训练对象特征、训练兴趣特征和训练上下文特征输入产品推荐模型，通过产品推荐模型的MLP(多层感知器神经网络)层对训练产品推荐特征、训练对象特征、训练兴趣特征和训练上下文特征进行拼接得到拼接特征，并基于拼接特征预测样本对象对样本产品的兴趣得分。

上述实施例中，服务器通过获取样本对象在各产品交互场景下对样本产品进行交互形成的训练上下文信息，进而基于上下文信息对产品推荐模型进行训练，从而使得训练后的产品推荐模型在基于上下文特征预测对象对目标产品的兴趣得分时，可以使得预测结果更加准确。

在一个实施例中，如图4所示，还提供了一种目标产品的推荐方法，以该方法应用于图1中的服务器为例进行说明，包括以下步骤：

S402，获取目标产品的产品推荐信息、候选对象的对象信息、候选对象在各产品交互场景下进行产品交互所得的行为信息集合、以及候选对象在各产品交互场景下进行产品交互形成的上下文信息。

S404，对行为信息集合中的行为信息按照行为时间进行排序。

S406，对产品推荐信息、对象信息、排序后行为信息集合中的各行为信息、以及上下文信息进行向量化处理。

S408，对向量化处理后的结果进行降维处理，得到产品推荐特征、对象特征、行为特征序列以及上下文特征。

S410，获取行为特征序列中行为特征对应的行为时间和位置编码。

S412，基于多头注意力机制对行为特征序列进行特征提取，得到对应的注意力行为特征。

其中，每个行为特征对应的注意力行为特征的个数与多头注意力机制的头数一致。

S414，针对每个注意力行为特征，基于当前注意力行为特征、目标产品的产品推荐特征、行为时间和位置编码，确定当前注意力行为特征对应的子兴趣特征，直至得到每个注意力行为特征对应的子兴趣特征。

S416，对每个行为特征对应的各注意力行为特征的子兴趣特征进行拼接，得到每个行为特征对应的子兴趣特征。

S418，根据各子兴趣特征，确定候选对象对目标产品的兴趣特征。

S420，根据产品推荐特征、对象特征和兴趣特征之间的拼接特征，确定候选对象对目标产品的兴趣得分。

S422，在候选对象中选取兴趣得分达到得分条件的目标对象。

S424，向目标对象推送目标产品的产品推荐信息。

本申请还提供一种应用场景，该应用场景应用上述的目标产品的推荐方法，该目标产品的推荐方法通过训练后的产品推荐模型实现。具体地，该目标产品的推荐方法在该应用场景的应用如下：

参考图5所示的流程图，服务器预先获取用于训练产品推荐模型的训练样本，训练样本包括样本产品对应的训练产品推荐信息、样本对象对应的训练对象信息以及样本对象在各产品交互场景下对样本产品进行交互所得的训练行为信息集合，并根据训练样本生成训练数据，并构建出产品推荐模型的结构，如图6所示产品推荐模型包括嵌入层(Embedding层)、行为抽取层、多序列融合层和MLP(多层感知器神经网络)层；然后采用所生成的训练数据对产品推荐模型进行训练，并通过产品推荐模型预测候选对象对目标产品的兴趣得分，然后将目标广告推送至兴趣得分达到得分条件的目标对象的，也就是将目标对象写入目标产品定向。

应该理解的是，虽然图2-5的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2-5中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图7所示，提供了一种目标产品的推荐装置，该装置可以采用软件模块或硬件模块，或者是二者的结合成为计算机设备的一部分，该装置具体包括：特征获取模块702、兴趣特征确定模块704、兴趣得分确定模块706、对象选取模块708和产品推荐模块710，其中：

特征获取模块702，用于获取目标产品的产品推荐特征、候选对象的对象特征以及候选对象在各产品交互场景下进行产品交互所得的行为特征序列。

兴趣特征确定模块704，用于基于行为特征序列中的行为特征和产品推荐特征，确定候选对象对目标产品的兴趣特征。

兴趣得分确定模块706，用于根据产品推荐特征、对象特征和兴趣特征之间的拼接特征，确定候选对象对目标产品的兴趣得分。

对象选取模块708，用于在候选对象中选取兴趣得分达到得分条件的目标对象。

产品推荐模块710，用于向目标对象推送目标产品的产品推荐信息。

上述实施例中，通过获取目标产品的产品推荐特征、候选对象的对象特征以及候选对象在各产品交互场景下进行产品交互所得的行为特征序列；基于行为特征序列中的行为特征和产品推荐特征，确定候选对象对目标产品的兴趣特征，从而可以综合考虑候选对象在各个场景下的兴趣以获取候选对象的真实喜好，进而在根据产品推荐特征、对象特征和兴趣特征之间的拼接特征，确定候选对象对目标产品的兴趣得分，并在候选对象中选取兴趣得分达到得分条件的目标对象，向目标对象推送目标产品的产品推荐信息时，提高了产品推荐的准确性。

在一个实施例中，特征获取模块702，还用于：获取目标产品的产品推荐信息、候选对象的对象信息以及候选对象在各产品交互场景下进行产品交互所得的行为信息集合；对产品推荐信息、对象信息以及行为信息集合中的各行为信息进行向量化处理；对向量化处理后的结果进行降维处理，得到产品推荐特征、对象特征以及行为特征序列。

在一个实施例中，如图8所示，装置还包括：行为信息排序模块712，用于对行为信息集合中的行为信息按照行为时间进行排序；特征获取模块702，还用于：对产品推荐信息、对象信息以及排序后行为信息集合中的各行为信息进行向量化处理。

在一个实施例中，兴趣特征确定模块704，还用于：获取行为特征序列中行为特征对应的行为时间和位置编码；基于行为特征序列中的行为特征、行为时间、位置编码和产品推荐特征，确定各行为特征对应的子兴趣特征；根据各子兴趣特征，确定候选对象对目标产品的兴趣特征。

在一个实施例中，兴趣特征确定模块704，还用于：基于多头注意力机制对行为特征序列进行特征提取，得到对应的注意力行为特征；每个行为特征对应的注意力行为特征的个数与多头注意力机制的头数一致；针对每个注意力行为特征，基于当前注意力行为特征、目标产品的产品推荐特征、行为时间和位置编码，确定当前注意力行为特征对应的子兴趣特征，直至得到每个注意力行为特征对应的子兴趣特征；对每个行为特征对应的各注意力行为特征的子兴趣特征进行拼接，得到每个行为特征对应的子兴趣特征。

在一个实施例中，特征获取模块702，还用于：获取候选对象在各产品交互场景下进行产品交互形成的上下文信息；对上下文信息依序进行向量化处理以及降维处理，得到上下文特征；兴趣得分确定模块706，还用于：对产品推荐特征、对象特征、兴趣特征和上下文特征进行拼接，得到拼接特征；基于拼接特征确定候选对象对目标产品的兴趣得分。

在一个实施例中，产品推荐特征、对象特征、行为特征序列和上下文特征是通过产品推荐模型进行特征处理所得的；如图8所示，装置还包括：

训练特征获取模块714，用于将样本产品对应的训练产品推荐信息、样本对象对应的训练对象信息以及样本对象在各产品交互场景下对样本产品进行交互所得的训练行为信息集合，输入至待训练的产品推荐模型，得到训练产品推荐特征、训练对象特征和训练行为特征序列。

训练兴趣特征获取模块716，用于基于训练行为特征序列中的行为特征和训练产品推荐特征，确定样本对象对样本产品的训练兴趣特征。

训练兴趣分值确定模块718，用于根据训练产品推荐特征、训练对象特征和训练兴趣特征之间的拼接特征，确定样本对象对样本产品的兴趣分值。

损失值确定模块720，用于确定兴趣分值与兴趣标签之间的第一损失值。

模型参数调整模块722，用于基于第一损失值对待训练的产品推荐模型调整参数。

在一个实施例中，损失值确定模块720，还用于：基于训练行为特征序列中的行为特征，确定下一时刻样本对象对应的预测行为特征；基于预测行为特征与行为特征标签确定第二损失值；模型参数调整模块722，还用于：基于第一损失值和第二损失值，对待训练的产品推荐模型进行参数调整。

在一个实施例中，模型参数调整模块722，还用于：获取第二损失值对应的损失系数；根据损失系数、第一损失值和第二损失值确定模型损失值；基于模型损失值对待训练的产品推荐模型进行参数调整，直至所得的模型损失值达到预设条件时停止训练。

在一个实施例中，训练特征获取模块714，还用于：获取样本对象在各产品交互场景下对样本产品进行交互形成的训练上下文信息；将训练上下文信息输入至待训练的产品推荐模型，得到训练上下文特征；

训练兴趣分值确定模块718，还用于：根据训练产品推荐特征、训练对象特征、训练兴趣特征和训练上下文特征之间的拼接特征，确定样本对象对样本产品的兴趣分值。

关于目标产品的推荐装置的具体限定可以参见上文中对于目标产品的推荐方法的限定，在此不再赘述。上述目标产品的推荐装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图9所示。该计算机设备包括通过***总线连接的处理器、存储器和网络接口。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作***、计算机程序和数据库。该内存储器为非易失性存储介质中的操作***和计算机程序的运行提供环境。该计算机设备的数据库用于存储产品信息和对象数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种目标产品的推荐方法。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是终端，其内部结构图可以如图10所示。该计算机设备包括通过***总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作***和计算机程序。该内存储器为非易失性存储介质中的操作***和计算机程序的运行提供环境。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信，无线方式可通过WIFI、运营商网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种目标产品的推荐方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图9或10中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，还提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现上述各方法实施例中的步骤。

在一个实施例中，提供了一种计算机可读存储介质，存储有计算机程序，该计算机程序被处理器执行时实现上述各方法实施例中的步骤。

在一个实施例中，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述各方法实施例中的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory，ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory，RAM)或外部高速缓冲存储器。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器(Static Random Access Memory，SRAM)或动态随机存取存储器(Dynamic Random Access Memory，DRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种目标产品的推荐方法，其特征在于，所述方法包括：

向所述目标对象推送所述目标产品的产品推荐信息。

2.根据权利要求1所述的方法，其特征在于，所述获取目标产品的产品推荐特征、候选对象的对象特征以及所述候选对象在各产品交互场景下进行产品交互所得的行为特征序列，包括：

获取目标产品的产品推荐信息、候选对象的对象信息以及所述候选对象在各产品交互场景下进行产品交互所得的行为信息集合；

对所述产品推荐信息、所述对象信息以及所述行为信息集合中的各行为信息进行向量化处理；

对向量化处理后的结果进行降维处理，得到所述产品推荐特征、所述对象特征以及所述行为特征序列。

3.根据权利要求2所述的方法，其特征在于，所述方法还包括：

对所述行为信息集合中的行为信息按照行为时间进行排序；

所述对所述产品推荐信息、所述对象信息以及所述行为信息集合中的各行为信息进行向量化处理，包括：

4.根据权利要求1所述的方法，其特征在于，所述基于所述行为特征序列中的行为特征和所述产品推荐特征，确定所述候选对象对所述目标产品的兴趣特征，包括：

5.根据权利要求4所述的方法，其特征在于，所述方法还包括：

所述基于所述行为特征序列中的行为特征、所述行为时间、所述位置编码和所述产品推荐特征，确定各所述行为特征对应的子兴趣特征，包括：

6.根据权利要求1所述的方法，其特征在于，所述方法还包括：

所述根据所述产品推荐特征、所述对象特征和所述兴趣特征之间的拼接特征，确定所述候选对象对所述目标产品的兴趣得分，包括：

7.根据权利要求1至6任一项所述的方法，其特征在于，所述产品推荐特征、所述对象特征、所述行为特征序列和上下文特征是通过产品推荐模型进行特征处理所得的；所述方法还包括：

将样本产品对应的训练产品推荐信息、样本对象对应的训练对象信息以及所述样本对象在各所述产品交互场景下对所述样本产品进行交互所得的训练行为信息集合，输入至待训练的所述产品推荐模型，得到训练产品推荐特征、训练对象特征和训练行为特征序列；

基于所述训练行为特征序列中的行为特征和所述训练产品推荐特征，确定所述样本对象对所述样本产品的训练兴趣特征；

根据所述训练产品推荐特征、所述训练对象特征和所述训练兴趣特征之间的拼接特征，确定所述样本对象对所述样本产品的兴趣分值；

确定所述兴趣分值与兴趣标签之间的第一损失值；

基于所述第一损失值对待训练的所述产品推荐模型调整参数。

8.根据权利要求7所述的方法，其特征在于，所述方法还包括：

基于所述预测行为特征与行为特征标签确定第二损失值；

所述基于所述第一损失值对待训练的所述产品推荐模型调整参数，包括：

9.根据权利要求8所述的方法，其特征在于，所述基于所述第一损失值和所述第二损失值，对待训练的所述产品推荐模型进行参数调整，包括：

获取所述第二损失值对应的损失系数；

10.根据权利要求7至9任意一项所述的方法，其特征在于，所述方法还包括：

所述根据所述训练产品推荐特征、所述训练对象特征和所述训练兴趣特征之间的拼接特征，确定所述样本对象对所述样本产品的兴趣分值，包括：

11.一种目标产品的推荐装置，其特征在于，所述装置包括：

12.根据权利要求11所述的装置，其特征在于，所述特征获取模块，还用于：

13.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至10中任一项所述的方法的步骤。

14.一种计算机可读存储介质，存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至10中任一项所述的方法的步骤。

15.一种计算机程序产品，包括计算机程序，其特征在于，所述计算机程序被控制器执行时实现权利要求1至10中任一项所述方法的步骤。