CN111339415A

CN111339415A - 一种基于多交互式注意力网络的点击率预测方法与装置

Info

Publication number: CN111339415A
Application number: CN202010115100.4A
Authority: CN
Inventors: 陈恩红; 刘淇; 张凯; 刘杨; 吴李康
Original assignee: University of Science and Technology of China USTC
Current assignee: University of Science and Technology of China USTC
Priority date: 2020-02-25
Filing date: 2020-02-25
Publication date: 2020-06-26
Anticipated expiration: 2040-02-25
Also published as: CN111339415B

Abstract

本发明公开了一种基于多交互式注意力网络的点击率预测方法与装置，相关方法包括：获取原始特征数据，并划分为用户历史行为特征、商品特征、背景特征和用户特征；将各类特征数据进行向量表征，获得各类特征数据的初始向量；基于注意力机制与特征数据的初始向量，将用户历史行为特征、背景特征和用户特征分别与商品特征进行交互，获得三类交互向量；基于全局注意力机制，将各类特征数据的初始向量与三类交互向量进行处理，获得最终的向量表征；将最终的向量表征输入至深度神经网络，获得商品的点击率预测结果。上述方案中可以提高推荐***中点击率预测的准确性。

Description

一种基于多交互式注意力网络的点击率预测方法与装置

技术领域

本发明涉及机器学习、数据挖掘以及推荐***技术领域，尤其涉及一种基于多交互式注意力网络的点击率预测方法与装置。

背景技术

点击率预测(CTR)：CTR预测是推荐***中最核心的算法之一，其目的是对每次商品的点击情况做出预测，预测用户是点击还是不点击。CTR预估和很多因素相关，比如历史点击行为、商品位置、时间、用户信息等，CTR预测模型就是综合考虑各种因素、特征，在大量历史数据上训练得到的模型。CTR预测的训练样本一般从历史log、离线特征库获得。样本标签相对容易，用户点击标记为1，没有点击标记为0。特征则会考虑很多，例如用户的特征、商品自身特征、商品展示特征以及一些背景信息等。点击率预测对许多互联网公司来说很重要，不同公司已经开发了各种推荐***。例如，谷歌为其应用商店Google Play开发了基于Wide&Deep模型的推荐***，它结合了浅层线性模型和深层模型的优点，在应用推荐中表现出色。与此同时，点击率预测问题在学术界也在逐渐受到更多的多关注。

交互式特征学习：众所周知，由于线性模型的局限性，不能有效处理特征和目标之间的非线性关系，而特征组合是CTR模型能在推荐***能取得良好效果的关键因素之一。因此，特征交互便成为推荐***中的一个重要问题，许多研究都专注于挖掘特征之间的非线性关系。例如，因子分解机(FM)被提出用来学习特征间的二阶交叉特征，从而大大提高了预估的准确性。随着深度学习的发展，诸多研究者提出使用深度神经网络(DNN)来学习高阶的特征交互。然而，尽管目前的一些研究已经明确了特征交互的卓越效果，但解释哪些特征组合有用以及为什么有效仍是一个有待解决的挑战。

注意力机制：注意力机制是一种用于提升基于RNN(LSTM或GRU)的模型效果的的机制(Mechanism)，一般称为Attention Mechanism。注意力机制目前非常流行，广泛应用于机器翻译、语音识别、图像标注等很多领域，之所以它这么受欢迎，是因为其给模型赋予了区分辨别的能力。例如，在机器翻译、情感分析等应用中，为句子中的每个词赋予不同的权重，使神经网络模型的学习变得更加灵活。同时注意力机制本身也可以做为一种对齐关系，解释模型输入与输出之间的对齐关系，解释模型到底学到了什么知识，为我们在一定程度上打开了深度学习的黑箱。具体到推荐场景中，Attention机制可以揭示出不同特征的影响程度，从而使得推荐***更具有可解释性。

在目前的研究工作和专利中，关于点击预测的方法主要有以下方法：

1)基于浅层模型方法的低维特征提取分析。

在推荐***的早期，人们花费大量时间进行繁琐而繁琐的功能设计。那时，原始特征的数量相对较小，这使得可以较为简单地实现原始特征的不同组合。然后将新创建的特征输入一个浅层模型中，例如被广泛用于CTR预测任务中的线性逻辑斯谛回归(LR)和GBDT。这些方法的一个明显缺点是，由于每个推荐***数据集的人工特征工程的不同，因此缺乏方法、模型以及效果的可重复性。而随着数据样本和特征的数量变得越来越大，特征表示中的参数呈指数增长，因为特征是由one-hot向量表示的。因此计算复杂度和存储成本成为推荐***中执行CTR预测的瓶颈。在这种情形之下，出现了一些模型来解决特征的自动二阶交互。例如：因子分解机(FM)将用户和项目特征转换为共享的向量表征，然后学习特征向量的内积，以预测推荐***的点击率结果。然而，这些方法均存在一些问题，那就是他们不能学习到特征的高纬交互式特征！

2)基于深度神经网络的高维特征自动学习及提取分析。

特征的one-hot(独热)表征，稀疏、低维的向量限制了CTR预测模型的功能。幸运的是，深度学习在自然语言处理和计算机视觉中的巨大成功为推荐***带来了启发。其中，Wide&Deep将深度神经网络引入CTR预测。它与传统的浅型线性模型一起共同训练一个深度神经网络。深度神经网络将人们从特征工程中解放出来，同时实现了更好更充分的特征组合。由于浅层和深度学习彻底改变了点击率预测的发展方式。自此以来，已提出了诸多深度学习的方法以及许多变体方法。总体而言，上述深度模型通过结合嵌入层的表示能力和深度神经网络特征生成的能力，都具有相似的模型结构，从而大大减少了特征工程的难度。

3)基于序列性的用户历史行为挖掘的个性化挖掘分析。

上面的这些浅层和深层模型以类别和数值特征作为输入，同时丢弃了用户的顺序行为信息。例如，用户可以在电子商务应用程序上搜索商品，然后单击某些感兴趣的商品，然后可以添加到购物车或购买操作中。这些顺序的行为功特征可以明确表明用户的兴趣，因此，顺序行为特征在推荐***中得到了更多的关注。一些研究人员通过设计顺序行为模型在提取顺序行为特征上花费了很多精力。例如：DIN提出了一个本地激活单元，该单元从相对于潜在项目的顺序行为特征中学***，这增强了模型的序列表示能力。DIEN通过引入行为，兴趣提取器和兴趣演化层来提高相对于DIN的序列提取能力。行为层提取GRU行为之间的序列依赖性。兴趣提取层在用户行为之间引入了辅助损失，并在每个顺序步骤中学习隐藏状态。上面的研究认识到历史顺序行为的重要性。不幸的是，他们只是将其他信息投影到一个向量中，而没有同时关注特定于用户的信息和上下文感知的信息，而这些信息已在许多任务(例如搜索建议和知识提炼)中显示出广泛的进步。

上述三种现有的方法虽然认识到高阶、低阶以及用户序列性特征的重要性，并能够有较为效提取出这些特征，从而完成点击率预测的任务。但却没有充分考虑到特征具有的一些更多特征问题。即用户对某件商品的点击兴趣更有可能来自各种背景特征以及用户本身的信息特征。例如：机械键盘商品是否会被用户点击可能更与该用户的职业信息有关(游戏爱好者，代码工程师等)；而一件T恤衫是否会被用户点击则更可能依赖于当时的背景信息特征(天气，温度，季节等)。因此，如何充分利用用户自身的信息以及背景信息，是提高点击率预测表现的一个重要挑战。

发明内容

本发明的目的是提供一种基于多交互式注意力网络的点击率预测方法与装置，可以提高推荐***中点击率预测的准确性。

本发明的目的是通过以下技术方案实现的：

一种基于多交互式注意力网络的点击率预测方法，包括：

获取原始特征数据，并划分为用户历史行为特征、商品特征、背景特征和用户特征；

将各类特征数据进行向量表征，获得各类特征数据的初始向量；

基于注意力机制与特征数据的初始向量，将用户历史行为特征、背景特征和用户特征分别与商品特征进行交互，获得三类交互向量；

基于全局注意力机制，将各类特征数据的初始向量与三类交互向量进行处理，获得最终的向量表征；

将最终的向量表征输入至深度神经网络，获得商品的点击率预测结果。

由上述本发明提供的技术方案可以看出，其不仅可以自动学习特征之间的相互联系以及影响，还因为其引入了注意力机制，可以有效得出各部分特征对最终预测结果的影响力大小。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他附图。

图1为本发明实施例提供的一种基于多交互式注意力网络的点击率预测方法的流程图；

图2为本发明实施例提供的一种基于多交互式注意力网络的点击率预测方法的网络结构示意图；

图3为本发明实施例提供的全局注意力模块的示意图。

具体实施方式

下面结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明的保护范围。

预测用户点击广告或商品的概率(点击率预测)是许多应用程序(例如，在线广告和推荐***)的关键问题。点击率预测通常被定义为具有用户属性和项目属性作为输入特征的有监督学习任务，其预测的表现结果不仅可以想用户推荐更为适合的产品，而且将直接影响业务提供商的最终收入。由于其在推荐场景中所处的重要地位，因此吸引了学术界和工业界的广泛兴趣。在大量的研究方法中，机器学习逐渐在点击率预测中发挥起了关键作用。例如，因式分解机器(FM)，将多项式回归模型与分解技术相结合，用于学习特征之间的交叉组合，大大节省了人工成本。然而，它仅对低阶特征交互的建模有效，并且对于捕获高阶特征组合作用并不明显。最近，许多工作提出了许多基于深度神经网络的方法来建模高阶特征交叉。具体而言，通常使用多层非线性神经网络以及深度神经网络来捕获高阶特征的交互。然而，尽管这些神经网络模型在效果上有了一定的提升，却均缺乏一定的解释性。此外，由于其将所有特征映射为一个整体向量进行训练学习，因此对更细粒度特征间的交互信息挖掘程度有限。

本发明实施例提供一种基于多交互式注意力网络的点击率预测方法，其不仅可以自动学习特征之间的相互联系以及影响。还因为其引入了注意力机制，可以有效得出各部分特征对最终预测结果的影响力大小。如图1～图2所示，分别为该方法的流程图与网络结构图。主要包括：

步骤1、获取原始特征数据，并划分为用户历史行为特征、商品特征、背景特征和用户特征。

真实业务场景中，用户的个性化程度非常高，每个人浏览的东西不一样，个人的偏好也不同。幸运的是，在推荐场景中，用户的行为非常丰富，我们可以通过挖掘用户的行为来一定程度上揭示用户的个性化偏好。而根据前文所述，现有的方法通常都是将用户行为序列整合在一起作为用户的历史行为表达，而这样会损失大量的用户偏好信息。所以，在获取到原始的特征数据之后，本发明实施例将特征划分为四个大的类别，即用户历史行为特征(Behaviors)、商品特征(Items)、背景特征(Context)和用户特征(User-specific)。每个类别下都有一些更细粒度的特征，例如，用户特征中包括性别，年龄，职业等；背景特征包括时间，位置、天气等。用户的历史行为则按照时间片划分为具有时序特征的行为序列，以便后续学习不同阶段历史行为对用户偏好表达的影响。

步骤2、将各类特征数据进行向量表征，获得各类特征数据的初始向量。

本步骤主要是将原始的高维稀疏的特征表示成为标准的、低维稠密的特征，如图2所示，通过Embedding Layer(嵌入层)实现。

在经过步骤1的数据特征划分，确定了需要放进模型的特征X_i,X_b,X_u,X_c。之后，就需要对特征进行转换、加工、处理成模型能够识别的格式。而根据不同的数据类型，需要采取不同的处理方式。例如，对于连续型的数据采用标准化或离散化的方法进行向量表征；对于文本类型的数据则宜采用Word2vec的方式进行向量表征；对于类别型的数据(比如，性别)则使用One-hot的编码方式进行向量表征。

本发明实施例中，将一个特征的向量表征表示为

根据类型通过映射矩阵进行映射变换，获得各类特征数据的初始向量表示为：

其中，G_f是嵌入矩阵，

表示初始向量，scalar vector表示采用标准化或离散化的方法、或者Word2vec的方式得到的向量表征，one-hot vector表示采用One-hot的编码方式得到的向量表征；*＝i,b,u,c，i、b、u、c分别商品特征类型、用户历史行为特征类型、用户特征类型、背景特征类型；

将各类特征数据的初始向量记为：e_i(表示一个整体的特征)，

其中，T代表用户历史行为特征的数量，J代表用户特征的数量，K代表背景特征的数量。

步骤3、基于注意力机制与特征数据的初始向量，将用户历史行为特征、背景特征和用户特征分别与商品特征进行交互，获得三类交互向量。

针对以往的CTR预估模型不能充分挖掘特征之间的深层交互信息，本发明实施例中提出Multi-interactive Layer(特征多交互层)来进行特征之间的交互，并最终能够对不同用户产生不同的个性化表征。

本发明实施例中，特征的交互主要体现在三个方面。首先，由于用户的历史行为中，可能只有部分的行为与当前产品相关。例如，若当前候选推荐产品是衣服，则其与用户历史行为集中衣服相关的行为相关性较高，而与一些电子产品的行为相关性很低。因此，本发明希望通过用户历史行为的序列特征来分析用户的行为偏好，并引入Transformer与Attention机制，将其与item特征进行交互建模来挖掘用户历史的行为与当前item的交互关系。其次，在推荐场景中，用户的兴趣偏好往往是随时间、地点等因素的改变而改变的。特定的时间、地点对用户的影响是极其显著的，若不能充分考虑用户所处的特定阶段，无疑会损失大量的有效信息。然而以往的一些研究却仅将这些context特征与其他特征简单拼接后进行建模，不能够让模型学习到item与context的交互特征，因此模型一般都缺少针对context信息与item信息的挖掘。本发明提出将context特征与item特征进行交互学习，即将两者通过Attention机制来建模彼此之间的影响关系。通过这种方式，不仅充分探索了context特征与item的隐含关系，还作为建模用户偏好的一个补充，能够促使模型学习到更好的用户表征。最后，由于用户的历史行为一定程度上代表了用户的偏好，但却不能完全代表用户的全部信息。与之前的context特征类似，本发明拟通过用户个人信息User-specific与item信息的交互学习，来得到用户在当前item下更为准确的表征，以此来对用户整体进行更为全面，更为个性化的建模。具体来说：

对于用户历史行为特征，通过Transformer模型(主要用来学习历史行为之间的关系)，将用户历史行为特征的初始向量表征为h_b＝{h₁,…,h_t,…,h_T}，其中，T代表用户历史行为特征的数量，再与商品特征的初始向量e_i拼接得到交互向量V_t：

V_t＝concat(h_t,e_i)；

之后，通过注意力机制来学习不同历史行为之间的关系，得到最终的交互向量R_ibim，表示为：

其中，α_t表示交互向量V_t的权重，γ(V_t)表示评分函数，W_t表示交互向量V_t的权重矩阵，

表示注意力机制中的偏置矩阵；

按照相同的方式，将背景特征和用户特征分别与商品特征进行交互，获得对应的交互向量R_icim与R_iuim，即，先通过Transformer模型对向量做进一步表征，再通过注意力机制得到对应的交互向量。

步骤4、基于全局注意力机制，将各类特征数据的初始向量与三类交互向量进行处理，获得最终的向量表征。

在通过前述步骤3的处理后，得到了多交互向量R_ibim，R_iuim，R_icim；前文的步骤2得到了用户历史行为特征、商品特征、背景特征和用户特征的初始向量e_b，e_i，e_c，e_u。

初始的embedding向量保留了特征的原始信息，而交互输出的向量则是模型学习特征间隐含交互关系之后的输出。本发明旨在保留原始特征的基础之上，探索特征之间交互式影响对最终预估结果的影响。

如图3所示，将交互向量与初始向量输入至全局注意力模块，通过全局注意力机制进行影响力挖掘，得到最终的向量表征R_g，表示为：

r_g＝[e_b；R_ibim；e_i；R_iuim；e_u；R_icim；e_c；]

＝[r₁；r₂；r₃；r₄；r₅；r₆；r₇]

其中，W_l、

分别表示r_l对应的权重矩阵、偏置矩阵；W_l'、

分别表示r_l'对应的权重矩阵、偏置矩阵；

步骤5、将最终的向量表征输入至深度神经网络，获得商品的点击率预测结果。

如图2所示，步骤4～步骤5通过Hybrid Prediction Layer(混合预测层)实现。

本发明实施例中，将最终的向量表征R_g输入至深度神经网络(DNN)，由深度神经网络对R_g进行特征挖掘，最后通过softmax函数得到商品的点击率预测结果

表示为：

其中，R表示深度神经网络每一层的输出，W、b为每一层的权重矩阵、偏置矩阵，下标为层数序号，h为深度神经网络的总层数，W_q、b_q为全连接层的权重矩阵、偏置矩阵。

本发明实施例中所提到的深度神经网络可以直接采用现有的已经训练好的深度神经网络。

本发明另一实施例还提供一种基于多交互式注意力网络的点击率预测装置，其主要用于实现前述的方法，该装置包括：

数据获取与划分模块，用于获取原始特征数据，并划分为用户历史行为特征、商品特征、背景特征和用户特征；

向量表征模块，用于将各类特征数据进行向量表征，获得各类特征数据的初始向量；

特征多交互模块，基于注意力机制与特征数据的初始向量，将用户历史行为特征、背景特征和用户特征分别与商品特征进行交互，获得三类交互向量；

全局注意力模块，基于全局注意力机制，将各类特征数据的初始向量与三类交互向量进行处理，获得最终的向量表征；

预测模块，用于将最终的向量表征输入至深度神经网络，获得商品的点击率预测结果。

该装置具体实现过程中所涉及的技术细节在前述方法实施例中已经进行了详细的介绍，故不再赘述。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例可以通过软件实现，也可以借助软件加必要的通用硬件平台的方式来实现。基于这样的理解，上述实施例的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明披露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求书的保护范围为准。

Claims

1.一种基于多交互式注意力网络的点击率预测方法，其特征在于，包括：

2.根据权利要求1所述的一种基于多交互式注意力网络的点击率预测方法，其特征在于，所述用户特征包括性别，年龄，职业；背景特征包括时间、位置与天气；用户历史行为特征为按照时间片划分的具有时序特征的行为序列。

3.根据权利要求1所述的一种基于多交互式注意力网络的点击率预测方法，其特征在于，所述将各类特征数据进行向量表征，获得各类特征数据的初始向量包括：

对于连续型的数据采用标准化或离散化的方法进行向量表征；对于文本类型的数据则宜采用Word2vec的方式进行向量表征；对于类别型的数据则使用One-hot的编码方式进行向量表征；

将一个特征的向量表征表示为

其中，G_f是嵌入矩阵，

将各类特征数据的初始向量记为：e_i，

4.根据权利要求1所述的一种基于多交互式注意力网络的点击率预测方法，其特征在于，所述基于注意力机制与特征数据的初始向量，将用户历史行为特征、背景特征和用户特征分别与商品特征进行交互，获得三类交互向量包括：

对于用户历史行为特征，通过Transformer模型，将用户历史行为特征的初始向量表征为h_b＝{h₁,…,h_t,…,h_T}，其中，T代表用户历史行为特征的数量，再与商品特征的初始向量e_i拼接得到交互向量V_t：

V_t＝concat(h_t,e_i)；

表示注意力机制中的偏置矩阵；

按照相同的方式，将背景特征和用户特征分别与商品特征进行交互，获得对应的交互向量R_icim与R_iuim。

5.根据权利要求1所述的一种基于多交互式注意力网络的点击率预测方法，其特征在于，所述基于注意力机制，将各类特征数据的初始向量与三类交互向量进行处理，获得最终的向量表征包括：

将三类交互向量记为R_ibim，R_iuim，R_icim；用户历史行为特征、商品特征、背景特征和用户特征的初始向量依次记为e_b，e_i，e_c，e_u；

基于全局注意力机制，计算最终的向量表征R_g，表示为：

r_g＝[e_b；R_ibim；e_i；R_iuim；e_u；R_icim；e_c；]

＝[r₁；r₂；r₃；r₄；r₅；r₆；r₇]

其中，W_l、

分别表示r_l对应的权重矩阵、偏置矩阵；W_l'、

分别表示r_l'对应的权重矩阵、偏置矩阵。

6.根据权利要求1所述的一种基于多交互式注意力网络的点击率预测方法，其特征在于，将最终的向量表征R_g输入至深度神经网络，由深度神经网络对R_g进行特征挖掘，最后通过softmax函数得到商品的点击率预测结果

7.一种基于多交互式注意力网络的点击率预测装置，其特征在于，用于实现权利要求1～6任一项所述的方法，该装置包括：