CN112905876B

CN112905876B - 基于深度学习的信息推送方法、装置和计算机设备

Info

Publication number: CN112905876B
Application number: CN202010181488.8A
Authority: CN
Inventors: 肖小粤; 曹星忠
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-03-16
Filing date: 2020-03-16
Publication date: 2024-03-15
Anticipated expiration: 2040-03-16
Also published as: CN112905876A

Abstract

本申请涉及一种基于深度学习的信息推送方法、装置和计算机设备，所述方法包括：获取候选项目信息，获取用户标识对应的历史行为信息；提取所述历史行为信息中各个行为类型对应的用户行为序列；将所述候选项目信息和所述用户行为序列输入至预测模型，提取所述用户行为序列对应的用户行为序列特征和所述候选项目信息的项目特征向量，根据所述用户行为序列特征和所述项目特征向量确定各个候选项目信息的预测值；根据所述候选项目信息的预测值筛选目标推送信息；将所述目标推送信息推送至所述用户标识对应的用户终端。本申请提供的方案能够有效提高信息推送的精准度。

Description

基于深度学习的信息推送方法、装置和计算机设备

技术领域

本申请涉及计算机技术领域，特别是涉及一种基于深度学习的信息推送方法、装置和计算机设备。

背景技术

随着互联网技术的迅速发展，越来越多的用户喜欢阅读互联网读物，针对海量的各种各样的读物，用户通常会选择感兴趣的信息阅读。随着人工智能技术的发展，为了提高信息的推送效率，出现了一些针对用户兴趣的信息推送方式。

传统的信息推荐方式通常包括基于协同过滤的推荐方式和基于内容的推荐方式，基于协同过滤的推荐方式是通过分析相似用户进行推荐，基于内容的推荐方是通过分析用户的历史访问记录，识别用户的阅读兴趣，以向用户推送相关信息。但对新发布的信息而言，难以准确识别用户的兴趣，存在目标信息推送的精准度不高的问题。

发明内容

基于此，有必要针对目标信息推送的精准度不高的技术问题，提供一种基于深度学习的信息推送方法、装置、计算机可读存储介质和计算机设备。

一种基于深度学习的信息推送方法，包括：

获取候选项目信息，获取用户标识对应的历史行为信息；

提取所述历史行为信息中各个行为类型对应的用户行为序列；

将所述候选项目信息和所述用户行为序列输入至预测模型，提取所述用户行为序列对应的用户行为序列特征和所述候选项目信息的项目特征向量，根据所述用户行为序列特征和所述项目特征向量确定各个候选项目信息的预测值；

根据所述候选项目信息的预测值筛选目标推送信息；

将所述目标推送信息推送至所述用户标识对应的用户终端。

一种基于深度学习的信息推送装置，所述装置包括：

信息获取模块，用于获取候选项目信息，获取用户标识对应的历史行为信息，提取所述历史行为信息中各个行为类型对应的用户行为序列；

信息预测模块，用于将所述候选项目信息和所述用户行为序列输入至预测模型，提取所述用户行为序列对应的用户行为序列特征和所述候选项目信息的项目特征向量，根据所述用户行为序列特征和所述项目特征向量确定各个候选项目信息的预测值；

信息提取模块，用于根据所述候选项目信息的预测值筛选目标推送信息；

信息推送模块，用于将所述目标推送信息推送至所述用户标识对应的用户终端。

一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行上述基于深度学习的信息推送方法的步骤。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行上述基于深度学习的信息推送方法的步骤。

上述基于深度学习的信息推送方法、装置和计算机设备，获取候选项目信息，以及用户标识对应的历史行为信息后，提取历史行为信息中多个行为类型对应的用户行为序列，从而能够有效获取用户的多种行为类型的异构行为序列。通过将候选项目信息和用户行为序列输入至预测模型，提取用户行为序列对应的用户行为序列特征和候选项目信息的项目特征向量后，利用基于深度学习的预测模型根据用户行为序列特征和项目特征向量确定各个候选项目信息的预测值，由此能够准确有效地输出每个候选项目信息的预测值。根据各个候选项目信息的预测值筛选目标推送信息，将目标推送信息推送至用户标识对应的用户终端，通过对用户的异构行为序列和候选项目信息进行学习，从而能够准确地识别出多模态的用户兴趣，从而有效提高了目标信息推送的精准度。

附图说明

图1为一个实施例中基于深度学习的信息推送方法的应用环境图；

图2为一个实施例中基于深度学习的信息推送方法的流程示意图；

图3为一个实施例中计算多个候选项目信息的预测值步骤的流程示意图；

图4为一个实施例中对多个用户行为序列进行特征组合步骤的流程示意图；

图5为一个实施例中提取目标推送信息步骤的流程示意图；

图6为一个实施例中训练预测模型步骤的流程示意图；

图7为一个实施例中预测模型的结构框图；

图8为一个实施例中基于深度学习的信息推送装置的结构框图；

图9为另一个实施例中基于深度学习的信息推送装置的结构框图；

图10为一个实施例中计算机设备的结构框图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

图1为一个实施例中基于深度学***板电脑、笔记本电脑等中的至少一种。服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

如图2所示，在一个实施例中，提供了一种基于深度学习的信息推送方法。本实施例主要以该方法应用于上述图1中的服务器104来举例说明。参照图2，该基于深度学习的信息推送方法具体包括如下步骤：

步骤202，获取候选项目信息，获取用户标识对应的历史行为信息。

其中，候选项目信息可以是服务器当前召回的多个待推送信息。比如，候选项目信息可以包括多种类别的文章信息、多种类别的新闻信息以及多种类别的视频信息等。候选项目信息中包括了用户感兴趣的待推送信息。

用户的历史行为信息是指用户在获取所需求的信息时所表现出来的需求表达、信息获取、信息利用等行为信息，例如可以包括对推送信息的点击行为信息、点赞行为信息、评论行为信息以及分享行为信息等多种行为类型。

具体地，服务器可以从信息推送平台获取多个候选项目信息，候选项目信息可以为预设时间段内产生的项目信息。服务器根据用户标识获取用户的历史行为信息，其中，服务器可以从本地平台获取用户的历史行为信息，也可以从第三方平台获取用户关联的历史行为信息。服务器还可以从日志信息中获取用户的历史行为信息。

步骤204，提取历史行为信息中各个行为类型对应的用户行为序列。

其中，用户行为序列也可以为基于时间序列的用户行为，表示某一时间段内，按照时间先后顺序记录的用户从事某种活动的每一步行为。例如，用户从访问网站到离开网站过程中的每一步行为的记录，被记录一条用户行为序列。一条用户行为序列中可以包括历史项目序列以及用户标识、动作行为标识和操作时间等信息。

用户的历史行为信息中包括多个行为类型的用户行为信息。服务器获取用户的历史行为信息后，提取历史行为信息中多个行为类型对应的用户行为序列。具体地，服务器可以识别每条历史行为信息对应的行为类型，根据行为类型从用户的历史行为信息中提取多个行为类型对应的用户行为序列。所提取的用户行为序列则为包括多个行为类型的用户的异构行为序列。

步骤206，将候选项目信息和用户行为序列输入至预测模型，提取用户行为序列对应的用户行为序列特征和候选项目信息的项目特征向量，根据用户行为序列特征和项目特征向量确定各个候选项目信息的预测值。

机器学习(Machine Learning, ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。本实施中的预测模型可以为基于机器学习的神经网络模型，

其中，预测模型为预先利用大量样本数据训练得到的基于深度学习的神经网络模型，预测模型中包括多层神经网络。具体地，预测模型可以包括输入层、嵌入层、序列表征层、语义映射层、专家网络层、注意力层、任务映射层和输出层。预测模型中还可以包括多种任务类型的预测网络层，从而可以分别计算出多种任务类型对应的预测值。预测值可以表示该用户对于候选项目信息的兴趣度预测值。

服务器提取出用户历史信息中的用户行为序列后，调用已训练的预测模型，将多个候选项目信息和用户行为序列输入至预测模型中，服务器通过预测模型分别对多个候选项目信息和用户行为序列进行特征提取，分别得到行为类型对应的用户行为序列特征和候选项目信息的项目特征向量。服务器进而通过预测模型对用户行为序列特征和项目特征向量进行深度特征提取和深度学习，提取兴趣特征向量和兴趣特征向量对应的兴趣特征权重，并利用兴趣特征向量和兴趣特征权重根据目标任务类型计算出每个候选项目信息对应的预测值。其中，兴趣特征向量表示该用户对应各个候选项目信息的兴趣特征向量。

具体地，服务器将多个候选项目信息和用户行为序列输入至预测模型后，可以通过输入层对候选项目信息和用户行为序列等数据进行预处理；利用嵌入层提取用户行为序列的用户行为序列特征和候选项目信息的项目特征向量；进一步通过序列表征层提取用户行为序列特征和项目特征向量对应的深度特征；语义映射层根据用户行为序列特征对应的深度特征提取用户行为序列特征的语义特征；利用专家网络层捕获各个用户行为序列特征的关联性与差异性；进而提高注意力层学习和提取用户行为序列特征的的多种组合特征信息，并利用多种组合特征信息结合项目特征向量的深度特征提取兴趣特征向量和兴趣特征向量对应的兴趣特征权重；映射层进而利用兴趣特征向量和兴趣特征权重根据目标任务类型计算出每个候选项目信息的预测值，并通过输出层输出各个候选项目信息对应的预测值。

步骤208，根据候选项目信息的预测值筛选目标推送信息。

服务器通过预测模型根据用户行为序列特征和项目特征向量计算出每个候选项目信息的预测值后，根据多个候选项目信息对应的预测值提取目标推送信息。具体地，服务器可以根据预测值从多个候选项目信息中筛选满足预设条件的目标推送信息，其中，服务器还可以根据预设条件筛选预设数量的候选项目信息作为目标推送信息。服务器进而利用提取的多个目标推送信息生成目标推送列表。其中，多个是指两个或两个以上，多个预测值则表示两个或两个以上的预测值。

进一步地，服务器还可以根据多个目标任务类型利用预测值确定各个候选项目信息的目标得分，从而得到多个目标任务类型对应的候选项目信息的目标得分，进而根据目标得分提取相应的目标推送信息。

步骤210，将目标推送信息推送至用户标识对应的用户终端。

服务器利用提取的多个目标推送信息生成目标推送列表后，进而将目标推送列表中的目标推送信息推送至用户标识对应的用户终端。其中，服务器可以直接将目标推送信息推送至用户终端，也可以将多个目标推送信息根据任务类型进行分类推送，从而能够准确有效地向用户推送符合用户兴趣和需求的推送信息。

上述基于深度学习的信息推送方法，服务器获取候选项目信息，以及获取用户标识对应的历史行为信息后，提取历史行为信息中多个行为类型对应的用户行为序列，从而能够有效获取用户的多种行为类型的异构行为序列。通过将候选项目信息和用户行为序列输入至预测模型，提取用户行为序列对应的用户行为序列特征和候选项目信息的项目特征向量后，利用基于深度学习的预测模型根据用户行为序列特征和项目特征向量确定各个候选项目信息的预测值，由此能够准确有效地输出每个候选项目信息的预测值。根据候选项目信息的预测值筛选目标推送信息，将目标推送信息推送至用户标识对应的用户终端，通过对用户的异构行为序列和候选项目信息进行学习，从而能够准确地识别出多模态的用户兴趣，从而有效提高了目标信息推送的精准度。

在一个实施例中，提取历史行为信息中各个行为类型对应的用户行为序列包括：识别用户行为序列的行为类型；获取历史行为信息对应的兴趣度；根据兴趣度对历史行为信息进行序列特征提取，得到各个行为类型对应的用户行为序列。

其中，每种行为类型所表示的兴趣程度不同，例如，点击行为、点赞行为、评论行为和分享行为对应用户的兴趣度是不同的。服务器可以预先配置每种行为类型与兴趣度的映射关系表。服务器将多个用户行为序列输入至预测模型后，预测模型首先对历史行为信息进行序列特征提取。

具体地，服务器首先识别历史行为信息的行为类型，根据预设的映射关系表获取每个行为类型对应的兴趣度，服务器进而根据行为类型和兴趣度对历史行为信息进行序列特征提取，从而可以得到多个行为类型对应的用户行为序列特征。根据行为类型和相应的兴趣度对用户行为序列进行序列特征提取，能够有效获取用户的多种行为类型的异构行为序列。

在一个实施例中，根据兴趣度对历史行为信息进行特征提取包括：提取历史行为信息对应的正反馈行为序列和负反馈行为序列；根据兴趣度对正反馈行为序列和负反馈行为序列进行序列特征提取。

其中，行为类型可以包括正反馈行为和负反馈行为，正反馈行为序列可以表示用户正向兴趣的用户行为序列，负反馈行为可以表示用户反向兴趣的用户行为序列，例如用户对历史项目信息的点赞行为、评论行为和分享行为等可以表示为用户的正向兴趣；而用户对历史项目信息的不感兴趣标记、投诉行为等则可以表示为用户的反向兴趣。

服务器可以根据正反馈行为类型从历史行为信息中提取出正反馈行为序列，并根据负反馈行为类型从用户行为序列中提取出负反馈行为序列。

具体地，服务器根据行为类型和兴趣度识别历史行为信息的正反馈行为类型和负反馈行为类型，根据正反馈行为类型和负反馈行为类型提取历史行为信息中的正反馈行为序列和负反馈行为序列，服务器进而根据行为类型和对应的兴趣度对正反馈行为序列和负反馈行为序列进行序列特征提取，从而可以生成各个行为类型对应的用户行为序列。通过识别用户的正反馈行为类型和负反馈行为类型，能够进一步准确有效地识别用户的正向兴趣，同时能够有效排除用户的反向兴趣，从而能够有效提高信息提取和推送的准确度。

在一个实施例中，通过预测模型提取各个候选项目信息对应的项目特征向量包括：通过预测模型的序列表征层捕获每个候选项目信息之间的项目关联性，根据项目关联性对候选项目信息进行深度特征提取，得到各个候选项目信息对应的项目特征向量。

其中，预测模型的序列表征层能够有效提取各个用户行为序列和各个候选项目信息中蕴含的深度信息。具体地，序列表征层可以为基于Transformer结构的网络层。服务器通过预测模型中的序列表征层对候选项目信息进行特征提取的过程中，可以通过基于Transformer结构的序列表征层捕获每个候选项目信息之间的项目关联性，从而每个候选项目信息之间的根据项目关联性，能够有效对候选项目信息进行深度特征提取，进而得到各个候选项目信息对应的项目特征向量。

进一步地，用户行为序列中包括一些用户操作过的行为项目信息。服务器过预测模型中的序列表征层对用户行为序列进行特征提取的过程中，还可以通过基于Transformer结构的序列表征层捕获每个行为项目信息之间的项目关联性，根据各个行为项目信息之间的项目关联性对用户行为序列进行更深层次的特征提取，进而生成各个用户行为序列对应的用户行为序列特征。通过预测模型中的序列表征层分别对用户行为序列和候选项目信息进行深度特征提取，从而能够精准有效地提取出用户行为序列和候选项目信息中的重要特征。

在一个实施例中，如图3所示，根据用户行为序列特征和项目特征向量确定各个候选项目信息的预测值的步骤，具体包括以下内容：

步骤302，对用户行为序列特征进行深度特征提取，得到用户行为序列的第一深度特征和第二深度特征。

步骤304，根据第一深度特征和第二深度特征对多个用户行为序列进行特征组合，得到多个组合特征信息。

步骤306，根据目标任务类型对组合特征信息分配相应的组合特征权重。

步骤308，根据组合特征信息提取各个项目特征向量对应的兴趣特征向量，根据组合特征权重确定各个兴趣特征向量的兴趣特征权重。

步骤310，根据兴趣特征向量和兴趣特征权重确定各个候选项目信息的预测值。

服务器将多个候选项目信息和用户行为序列输入至预测模型后，通过预测模型分别对多个候选项目信息和用户行为序列进行特征提取，分别得到行为类型对应的用户行为序列特征和候选项目信息的项目特征向量。服务器进而通过预测模型对用户行为序列特征和项目特征向量进行深度特征提取和深度学习。

具体地，预测模型中包括多个深度特征网络层，用于提取用户行为序列特征的多层深度特征。例如，预测模型中包括序列表征层和语义映射层，序列表征层用于提取用户行为序列特征的第一深度特征，语义映射层用于进一步提取根据第一深度特征提取用户行为序列特征的第二深度特征。例如，第一深度特征可以为基于行为的深度特征，第二深度特征可以为基于语义的深度特征。预测模型进而根据第一深度特征和第二深度特征对多个用户行为序列进行特征组合，得到多个组合特征信息。

例如，预测模型可以包括专家网络层，专家网络层包括多个专家网络，每个专家网络同样由多个全连接层组成。通过预测模型中的专家网络层根据深度学习得到的第一深度特征和第二深度特征获取各个用户行为序列特征之间的关联性和差异性，从而根据第一深度特征和第二深度特征对多个用户行为序列进行特征组合，由此能够有效得到多个组合特征信息。

预测模型中还可以包括注意力层，注意力层包括多个注意力网络以及注意力权重，其中注意力层可以基于不同的任务类型利用专家网络层学习到的组合特征信息分配相应的组合特征权重，并将分配的组合特征权重作为注意力层的注意力权重。

服务器通过预测模型中的专家网络层捕获用户行为序列的多个组合特征信息后，进而通过注意力层根据组合特征信息提取各个项目特征向量对应的兴趣特征向量，根据组合特征权重确定各个兴趣特征向量的兴趣特征权重。

服务器进而通过预测模型根据兴趣特征向量和兴趣特征权重确定各个候选项目信息的预测值。具体地，服务器可以通过预测模型中的映射层利用兴趣特征权重对兴趣特征向量进行加权求和，得到各个候选项目信息的预测值。通过预测模型对用户的异构行为序列和候选项目信息进行深度特征提取，能够准确有效地提取出多个用户行为序列的隐含特征信息，从而能够准确地计算候选项目信息的预测值，进而能够有效提高目标信息推送的精准度。

在一个实施例中，根据第一深度特征和第二深度特征对用户行为序列进行特征组合，得到多个组合特征信息包括：对用户行为序列的第一深度特征和第二深度特征进行深度关联特征提取，得到用户行为序列的序列关联特征；根据序列关联特征提取用户行为序列的序列语义特征；根据序列关联特征和语义特征对多个用户行为序列进行特征组合，得到多个组合特征信息。

其中，第一深度特征可以为用户行为序列的序列关联特征，第二深度特征可以为用户行为序列的序列语义特征。预测模型中包括序列表征层、语义映射层和专家网络层，其中，序列表征层用于对用户行为序列进行更深层次的特征提取。例如序列表征层可以为Transformer结构，并采用残差连接的方式，从而能够有效提取每个用户行为序列的序列关联特征。语义映射层可以为多层全连接层的方式构建，预测模型可以通过语义映射层将用户行为序列特征和序列关联特征映射至语义空间中，以对用户行为序列进行语义特征提取，从而提取出用户行为序列的序列语义特征。

预测模型进而根据序列关联特征和语义特征对多个用户行为序列进行特征组合，得到多个组合特征信息，从而能够准确有效地提取出多个用户行为序列的隐含特征信息。

在一个实施例中，如图4所示，根据序列关联性特征和语义特征对多个用户行为序列进行特征组合，得到多个组合特征信息的步骤，具体包括以下内容：

步骤402，对多个用户行为序列特征进行语义映射，得到每个用户行为序列特征的语义特征。

步骤404，根据语义特征将多个用户行为序列特征分别映射至多个语义空间集合。

步骤406，根据序列关联特征提取语义空间集合中多个用户行为序列特征之间的关联度和差异度，根据关联度和差异度对语义空间集合中的用户行为序列特征进行特征组合，得到多个组合特征信息。

服务器通过预测模型对用户行为序列特征进行深度关联特征提取，得到用户行为序列的序列关联特征后，根据序列关联特征提取用户行为序列的序列语义特征。具体地，预测模型可以通过语义映射层将用户行为序列特征和序列关联特征映射至语义空间集合中，以对用户行为序列进行语义特征提取，从而提取出用户行为序列的序列语义特征。

为了实现用户异构行为之间的同语义交互，语义映射层可以采用多层全连接层将用户行为序列特征和序列关联特征映射至语义空间集合。具体地，预测模型可以根据序列关联特征将用户行为序列特征映射至语义相同的语义空间集合中。在相同的语义空间集合中，异构行为序列表征的的相同语义成分才能够进行比较。

服务器通过预测模型根据序列关联特征提取语义空间集合中多个用户行为序列特征之间的关联度和差异度，进而根据关联度和差异度对语义空间集合中的用户行为序列特征进行学习。预测模型中包括多个专家网络层，用于从不同角度充分捕获各个行为序列信息之间的关联性与差异性，有利于后续不同任务达到更好的预测效果。每个专家网络同样由多个全连接层组成，不同的专家网络不共享彼此的网络参数，不同的任务间共享所有专家网络的网络参数。多个专家网络能够学习到用户的异构行为序列的多种组合信息。

预测模型则进一步通过各个专家网络层学习语义空间集合中多个用户行为序列特征之间的关联度和差异度，根据关联度和差异度对语义空间集合中的多个用户行为序列特征进行特征组合，从而得到多个组合特征信息。通过预测模型的多个深度特征网络层对用户的异构行为序列和候选项目信息进行深度特征提取，能够准确有效地提取出多个用户行为序列的深度特征信息。

在一个实施例中，如图5所示，提供了一种基于深度学习的信息推送方法具体包括以下步骤：

步骤502，获取候选项目信息，获取用户标识对应的历史行为信息。

步骤504，提取历史行为信息中各个行为类型对应的用户行为序列。

步骤506，将候选项目信息和用户行为序列输入至预测模型，提取用户行为序列对应的用户行为序列特征和候选项目信息的项目特征向量。

步骤508，对用户行为序列特征进行深度特征提取，得到用户行为序列的第一深度特征和第二深度特征。

步骤510，根据第一深度特征和第二深度特征对多个用户行为序列进行特征组合，得到多个组合特征信息。

步骤512，根据目标任务类型对组合特征信息分配相应的组合特征权重。

步骤514，根据组合特征信息提取各个项目特征向量对应的兴趣特征向量，根据组合特征权重确定各个兴趣特征向量的兴趣特征权重。

步骤516，将兴趣特征向量和兴趣特征权重输入至预测模型中各个目标任务类型对应的目标映射层，根据目标任务类型利用兴趣特征权重对兴趣特征向量进行加权求和，得到候选项目信息对应目标任务类型的预测值。

步骤518，根据预测值生成候选项目信息的目标得分，根据目标得分从所述候选项目信息中筛选满足预设条件的目标推送信息。

步骤520，将目标推送信息推送至用户标识对应的用户终端。

预测模型中包括多种任务类型的目标映射层，目标映射层可以分别计算出候选项目信息对应多种任务类型对应的预测值。其中，任务类型可以包括候选项目信息的浏览行为预测、点赞行为预测、评论行为预测和分享行为预测等多个任务类型。

服务器通过预测模型的注意力层提取出用户对应各个候选项目信息的兴趣特征向量的兴趣特征权重后，将兴趣特征向量和兴趣特征权重输入至预测模型中各个目标任务类型对应的目标映射层。每个目标映射层则根据相应的目标任务类型利用兴趣特征权重对兴趣特征向量进行加权求和，得到候选项目信息对应目标任务类型的预测值。由此，每个候选项目信息可以得到一个或多个目标任务类型对应的预测值。

服务器还可以进一步根据候选项目信息的一个或多个目标任务类型对应的预测值计算候选项目信息的目标得分。目标得分可以利用预设算法根据预测值计算得到，例如可以通过利用目标任务类型的权重对多个目标任务类型的预测值进行加权求和计算得到，从而得到每个候选项目信息的目标得分。服务器根据目标得分从多个候选项目信息中筛选出满足预设条件的目标推送信息，进而利用提取的多个目标推送信息生成目标推送列表，并将目标推送列表中的目标推送信息推送至用户标识对应的用户终端。通过预测模型计算多个目标任务类型的预测值进行信息推送，能够充分挖掘用户的兴趣程度，从而能够有效提高对候选项目信息的兴趣度预测值的预测准确度。

在一个实施例中，如图6所示，在将用户行为序列和候选项目信息输入至预测模型之前，还包括训练预测模型的步骤，具体包括以下内容：

步骤602，获取多个历史记录信息，提取多个历史记录信息的用户行为序列数据和项目标签。

步骤604，利用多个历史记录信息的用户行为序列数据和项目标签生成训练集和验证集。

步骤606，将训练集输入至预设机器学习模型中进行学习和训练，得到训练结果；根据训练结果迭代更新机器学习模型的模型参数，得到初始预测模型。

步骤608，利用验证集对初始预测模型进行验证，直到满足验证条件阈值时，得到训练完成的预测模型。

服务器在在将用户行为序列和候选项目信息输入至预测模型之前，需要预先构建和训练出预测模型。具体地，服务器可以预先从本地数据库或第三方数据库中获取大量的用户的历史记录信息。例如，服务器可以从大量历史日志信息中获取多个历史记录信息。其中，历史记录信息可以包括标注样本历史信息和未标注样本历史信息，标注样本历史信息包括历史行为序列和用户兴趣度。服务器利用若干历史记录信息生成训练集和验证集。训练集中的样本历史信息可以是经过人工标注后的标记信息，验证集中是未标注的多个样本历史信息。

服务器首先对历史记录信息进行数据清洗和数据预处理，具体地，服务器对历史记录信息进行向量化，得到多个历史行为序列对应的特征向量，并将特征向量转换为对应的特征变量。服务器进一步对特征变量进行衍生处理，得到处理后的多个特征变量。如对特征变量进行缺失值填充、异常值抽取更替等。

服务器则获取预设的深度学习模型，例如可以是基于自注意力网络机器学习模型。例如，深度习模型中包括多个神经网络模型，神经网络模型可以包括预设的输入层、嵌入层、序列表征层、语义映射层、专家网络层、注意力网络层、任务映射层和输出层。神经网络模型的网络层可以包括激活函数以及偏差损失函数。神经网络模型中还包括确定误差的计算方式，例如可以采用均方误差算法；还包括确定权重参数的迭代更新方式，例如可以采用Adam优化算法，基于训练数据迭代的更新网络中的参数。

服务器获取预设的深度学习模型后，则将训练集中的历史记录信息输入至深度学习模型中进行学习和训练，用训练集对模型进行多目标联合训练，直到模型在验证集上的预测效果不再提升为止。在训练过程中存在多个目标的损失函数，需要对多个目标损失函数进行融合以获得模型整体的损失函数。例如可以根据业务目标的指向性，对各个目标的损失函数进行加权处理，最终对多个目标的损失函数加权求和。在训练过程中可以利用Adam优化器基于训练数据迭代的更新网络中的参数，能够在合理的时间内基于最优化问题找到一个局部最优解，从而有效对预测模型进行训练和不断优化。由此能够训练得到初始预测模型。

服务器得到初始业务预测模型后，将验证集中的历史记录信息输入至初始预测模型进行进一步训练和验证，得到多个验证数据对应的类别概率。直到验证集数据中满足条件阈值的数量达到验证阈值时，则停止训练，进而得到训练完成的预测模型。通过对大量的历史记录信息进行训练和学习，进而能够有效构建和训练出预测准确率较高的预测模型，从而有效提高了候选项目信息的兴趣度的预测准确率。

在一个具体的实施例中，预测模型可以包括：输入层、嵌入层、序列表征层、语义映射层、专家网络层、注意力层、以及各种任务类型的任务映射层和输出层。服务器将候选项目信息和用户行为序列输入至预测模型，通过输入层将候选项目信息和用户行为序列作为预测模型的输入数据，用户行为序列中包括用户的感兴趣的项目信息。服务器进而通过预测模型中的嵌入层对候选项目信息和用户行为序列进行特征的嵌入表征，以提取候选项目信息和用户行为序列对应的特征信息。其中，嵌入层可以基于Embedding神经网络对候选项目信息和用户行为序列的特征进行表征，从而能够有效提取候选项目信息和用户行为序列的特征。如图7所示，为一个实施例中预测模型的结构框图。其中，用户行为序列1-用户行为序列N可以表示用户的多个用户行为序列，候选Item表示候选项目信息。如图7所示，预测模型包括输入层，用于将用户行为序列和候选项目信息输入至预测模型结构中；嵌入层包括Embedding网络结构；序列表征层中包括多个基于Transformer结构的网络层；语义映射层包括多层全连接层以及向量拼接层；专家网络层中包括多个专家网络；注意力层可以包括多个前馈神经网络，前馈神经网络可以为基于Feed Forward Attention结构的网络层；映射层中包括多个向量拼接层以及多个全连接层；预测模型还包括输出层，用于输出预测结果。

服务器进一步通过预测模型中的序列表征层对用户行为序列进行深度特征提取，序列表征层可以为基于Transformer的结构，通过Transformer结构对候选项目信息和用户行为序列进行特征提取，从而能够有效提取候选项目信息和用户行为序列的特征。

语义映射层可以为采用全连接层的方式连接的网络层，预测模型可以通过语义映射层对用户行为序列特征进行语义提取和语义交互，利用全连接层将异构行为序列表征映射至相同的语义空间中。在相同的语义空间中，异构行为序列表征的相同语义成分才能够进行比较。

专家网络层包括多个专家网络，用于对相同语义空间的用户行为序列特征进行学习。服务器可以通过专家网络层从不同角度充分捕获各个行为序列信息之间的关联性与差异性，有利于后续不同任务达到更好的预测效果。每个专家网络同样由多个全连接层组成，不同的专家网络不共享彼此的网络参数，不同的任务间共享所有专家网络的网络参数，多个专家网络能够学习到用户的异构行为序列的多种组合信息。

注意力层用于计算各个专家网络输出的隐含向量的权重，使用计算得到的权重对各个隐含向量进行加权求和，生成固定长度的表征向量。若对每个专家网络学到的组合信息进行等权利用，会导致与最终目标更相关的信息不能对预测产生更大的影响，而那些不太相关的信息会对预测产生一定的噪声。因此，需要基于不同的任务为每个专家网络学到的组合信息分配不同的重要性权重。例如，注意力层可以采用Feed Forward Attention结构，以对每个专家网络分配相应的注意力权重。注意力层可以通过一个前馈神经网络计算各个专家网络输出的隐含向量的权重，使用计算得到的权重对各个隐含向量进行加权求和，并生成固定长度的表征向量，从而能够有效提高各个组合信息的预测精度。

任务映射层用于对用户行为序列特征和项目特征向量进行非线性变化，不同的任务不共享彼此映射层和输出层的网络参数，从而提取出用户行为序列特征和项目特征向量中的大量隐含信息。

输出层用于根据提取到的隐含信息作出最终的预测值。预测模型中的输出层根据提取到的目标特征向量所对应的隐含信息作出最终的预测，不同任务的预测目标不同，最终输出层的激活函数也有所不同。例如，若目标任务类型是阅读时长等连续值目标，最终输出层的激活函数可采用ReLU函数；若目标任务类型是点击等离散值目标，最终输出层的激活函数可采取Sigmoid函数。

本实施例中，通过基于深度学习的预测模型对用户的异构行为序列和候选项目信息进行学习，从而能够准确地识别出多模态的用户兴趣，从而有效提高了目标信息推送的精准度。

在一个具体的应用场景中，上述基于深度学***台、新闻浏览平台以及通讯平台等，向用户个性化推送文章、视频、音乐等推送信息，从而实现根据用户的兴趣需求向用户进行个性化推送。

图2-6为一个实施例中基于深度学习的信息推送方法的流程示意图。应该理解的是，虽然图2-6的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2-6中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图8所示，提供了一种基于深度学习的信息推送装置800，该装置包括信息获取模块802、信息预测模块804、信息提取模块806和信息推送模块808，其中：

信息获取模块802，用于获取候选项目信息，获取用户标识对应的历史行为信息，提取历史行为信息中各个行为类型对应的用户行为序列；

信息预测模块804，用于将候选项目信息和用户行为序列输入至预测模型，提取用户行为序列对应的用户行为序列特征和候选项目信息的项目特征向量，根据用户行为序列特征和项目特征向量确定各个候选项目信息的预测值；

信息提取模块806，用于根据候选项目信息的预测值筛选目标推送信息；

信息推送模块808，用于将目标推送信息推送至用户标识对应的用户终端。

在一个实施例中，信息获取模块802还用于识别用户行为序列的行为类型；获取行为类型对应的兴趣度；根据兴趣度对用户行为序列进行特征提取，得到多个行为类型对应的用户行为序列特征。

在一个实施例中，信息获取模块802还用于提取用户行为序列的正反馈行为序列和负反馈行为序列；根据兴趣度对正反馈行为序列和负反馈行为序列进行特征提取，得到多个用户行为序列特征。

在一个实施例中，信息预测模块804还用于对用户行为序列特征进行深度特征提取，得到用户行为序列的第一深度特征和第二深度特征；根据第一深度特征和第二深度特征对用户行为序列进行特征组合，得到多个组合特征信息；根据目标任务类型对组合特征信息分配相应的组合特征权重；根据组合特征信息提取各个项目特征向量对应的兴趣特征向量，根据组合特征权重确定各个兴趣特征向量的兴趣特征权重；根据兴趣特征向量和兴趣特征权重确定各个候选项目信息的预测值。

在一个实施例中，信息预测模块804还用于对用户行为序列的第一深度特征和第二深度特征进行深度关联特征提取，得到用户行为序列的序列关联特征；根据序列关联特征提取用户行为序列的序列语义特征；根据序列关联特征和语义特征对多个用户行为序列进行特征组合，得到多个组合特征信息。

在一个实施例中，基于深度学习的信息推送装置中的信息预测模块804还用于执行如图4所示的步骤402至步骤406。

在一个实施例中，基于深度学习的信息推送装置中的信息提取模块806还用于执行如图5所示的步骤506至516。

在一个实施例中，如图9所示，该装置还包括模型训练模块801，如图9所示的基于深度学习的信息推送装置中的模型训练模块801还用于执行如图6所示的步骤602至步骤608。

图10示出了一个实施例中计算机设备的内部结构图。该计算机设备具体可以是图1中的服务器104。如图10所示，该计算机设备包括通过***总线连接的处理器、存储器和网络接口。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作***、计算机程序和数据库。该内存储器为非易失性存储介质中的操作***和计算机程序的运行提供环境。该计算机设备的数据库用于存储用户行为序列、候选项目信息等数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种基于深度学习的信息推送方法。

本领域技术人员可以理解，图10中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，本申请提供的基于深度学习的信息推送装置可以实现为一种计算机程序的形式，计算机程序可在如图10所示的计算机设备上运行。计算机设备的存储器中可存储组成该基于深度学习的信息推送装置的各个程序模块，比如，图8所示的信息获取模块802、信息预测模块804、信息提取模块806和信息推送模块808。各个程序模块构成的计算机程序使得处理器执行本说明书中描述的本申请各个实施例的基于深度学习的信息推送方法中的步骤。

例如，图10所示的计算机设备可以通过如图7所示的基于深度学习的信息推送装置中的信息获取模块802执行步骤202和步骤204；计算机设备可通过信息预测模块804执行步骤206；计算机设备可通过信息提取模块806执行步骤208；计算机设备可通过信息推送模块808执行步骤210。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，存储器存储有计算机程序，计算机程序被处理器执行时，使得处理器执行上述基于深度学习的信息推送方法的步骤。此处基于深度学习的信息推送方法的步骤可以是上述各个实施例的基于深度学习的信息推送方法中的步骤。

在一个实施例中，提供了一种计算机可读存储介质，存储有计算机程序，计算机程序被处理器执行时，使得处理器执行上述基于深度学习的信息推送方法的步骤。此处基于深度学习的信息推送方法的步骤可以是上述各个实施例的基于深度学习的信息推送方法中的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一非易失性计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器（ROM）、可编程ROM（PROM）、电可编程ROM（EPROM）、电可擦除可编程ROM（EEPROM）或闪存。易失性存储器可包括随机存取存储器（RAM）或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM（SRAM）、动态RAM（DRAM）、同步DRAM（SDRAM）、双数据率SDRAM（DDRSDRAM）、增强型SDRAM（ESDRAM）、同步链路（Synchlink） DRAM（SLDRAM）、存储器总线（Rambus）直接RAM（RDRAM）、直接存储器总线动态RAM（DRDRAM）、以及存储器总线动态RAM（RDRAM）等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种基于深度学习的信息推送方法，其特征在于，包括：

获取候选项目信息，获取用户标识对应的历史行为信息；

将所述候选项目信息和所述用户行为序列输入至预测模型，提取所述用户行为序列对应的用户行为序列特征和所述候选项目信息的项目特征向量；

对所述用户行为序列特征进行深度特征提取，得到所述用户行为序列的第一深度特征和第二深度特征；根据所述第一深度特征和所述第二深度特征对所述用户行为序列进行特征组合，得到多个组合特征信息；根据目标任务类型对所述组合特征信息分配相应的组合特征权重；根据所述组合特征信息提取各个项目特征向量对应的兴趣特征向量，根据所述组合特征权重确定各个兴趣特征向量的兴趣特征权重；根据所述兴趣特征向量和所述兴趣特征权重确定各个候选项目信息的预测值；

根据所述候选项目信息的预测值筛选目标推送信息；

将所述目标推送信息推送至所述用户标识对应的用户终端。

2.根据权利要求1所述的方法，其特征在于，所述提取所述历史行为信息中各个行为类型对应的用户行为序列包括：

识别所述历史行为信息的行为类型；

获取所述行为类型对应的兴趣度；

根据所述兴趣度对所述历史行为信息进行序列特征提取，得到各个行为类型对应的用户行为序列。

3.根据权利要求2所述的方法，其特征在于，所述根据所述兴趣度对所述历史行为信息进行序列特征提取包括：

提取所述历史行为信息对应的正反馈行为序列和负反馈行为序列；

根据所述兴趣度对所述正反馈行为序列和负反馈行为序列进行序列特征提取。

4.根据权利要求1所述的方法，其特征在于，所述根据所述第一深度特征和所述第二深度特征对所述用户行为序列进行特征组合，得到多个组合特征信息包括：

对所述用户行为序列的第一深度特征和第二深度特征进行深度关联特征提取，得到所述用户行为序列的序列关联特征；

根据所述序列关联特征提取所述用户行为序列的序列语义特征；

根据所述序列关联特征和所述语义特征对多个用户行为序列进行特征组合，得到多个组合特征信息。

5.根据权利要求4所述的方法，其特征在于，所述根据所述序列关联特征和所述语义特征对多个用户行为序列进行特征组合，得到多个组合特征信息包括：

对所述多个用户行为序列特征进行语义映射，得到每个用户行为序列特征的语义特征；

根据所述语义特征将所述多个用户行为序列特征分别映射至多个语义空间集合；

根据所述序列关联特征提取所述语义空间集合中多个用户行为序列特征之间的关联度和差异度，根据所述关联度和差异度对所述语义空间集合中的用户行为序列特征进行特征组合，得到多个组合特征信息。

6.根据权利要求1所述的方法，其特征在于，所述方法还包括：

将兴趣特征向量和兴趣特征权重输入至所述预测模型中各个目标任务类型对应的目标映射层，根据所述目标任务类型利用所述兴趣特征权重对所述兴趣特征向量进行加权求和，得到所述候选项目信息对应所述目标任务类型的预测值；

利用所述预测值生成所述候选项目信息的目标得分，根据所述目标得分从所述候选项目信息中筛选满足预设条件的目标推送信息。

7.一种基于深度学习的信息推送装置，其特征在于，所述装置包括：

信息预测模块，用于将所述候选项目信息和所述用户行为序列输入至预测模型，提取所述用户行为序列对应的用户行为序列特征和所述候选项目信息的项目特征向量，对所述用户行为序列特征进行深度特征提取，得到所述用户行为序列的第一深度特征和第二深度特征；根据所述第一深度特征和所述第二深度特征对所述用户行为序列进行特征组合，得到多个组合特征信息；根据目标任务类型对所述组合特征信息分配相应的组合特征权重；根据所述组合特征信息提取各个项目特征向量对应的兴趣特征向量，根据所述组合特征权重确定各个兴趣特征向量的兴趣特征权重；根据所述兴趣特征向量和所述兴趣特征权重确定各个候选项目信息的预测值；

8.根据权利要求7所述的装置，其特征在于，所述信息获取模块，还用于：

识别所述历史行为信息的行为类型；

获取所述行为类型对应的兴趣度；

9.根据权利要求8所述的装置，其特征在于，所述信息获取模块，还用于：

10.根据权利要求7所述的装置，其特征在于，所述信息预测模块，还用于：

11.根据权利要求10所述的装置，其特征在于，所述信息预测模块，还用于：

12.根据权利要求7所述的装置，其特征在于，所述装置还用于：

13.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述的方法的步骤。

14.一种计算机可读存储介质，存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。