CN110689376A

CN110689376A - 一种点击率的预测方法、装置及电子设备

Info

Publication number: CN110689376A
Application number: CN201910927957.3A
Authority: CN
Inventors: 赵嘉祥
Original assignee: Alipay Hangzhou Information Technology Co Ltd
Current assignee: Alipay Hangzhou Information Technology Co Ltd
Priority date: 2019-09-27
Filing date: 2019-09-27
Publication date: 2020-01-14

Abstract

本申请实施例提供一种点击率的预测方法、装置及电子设备。方法包括：提取待预测的目标推广项的基础特征；将目标推广项的基础特征输入至极端梯度提升xgboost模型，得到目标推广项的高阶特征；其中，xgboost模型是基于第一历史推广项的基础特征和第一历史推广项的标签训练得到的，第一历史推广项的标签指示第一历史推广项投放后的点击率；将目标推广项的高阶特征输入至预测模型，得到目标推广项的点击率；其中，预测模型是基于第二历史推广项的高阶特征和第二历史推广项的标签训练得到，第二历史推广项的标签指示第二历史推广项投放后的点击率，第二历史推广项的高阶特征与第一历史推广项的高阶特征具有相同的特征维度。

Description

一种点击率的预测方法、装置及电子设备

技术领域

本申请实施例涉及数据处理技术领域，尤其涉及一种点击率的预测方法、装置及电子设备。

背景技术

随着网络技术的快速发展，互联网广告成为互联网企业最重要的盈利手段之一。研究表明，互联网广告的精准投放除了能够获得更好的广告效益外，还可以有效减少用户因未实现搜索预期，而向服务器发起的搜索请求的次数，从而降低服务器的压力。

点击率(CTR，Click-Through-Rate)是反映互联网广告投放精准性的关键指标。如何实现点击率的预测，以为制定更合适的广告投放决策提供数据支持，是当前亟需解决的技术问题。

发明内容

本申请实施例目的是提供一种方法点击率的预测方法、装置及电子设备，能够实现点击率的预测，以为制定更合适的广告投放决策提供数据支持。

为了实现上述目的，本申请实施例是这样实现的：

第一方面，提供一种点击率的预测方法，包括：

提取待预测的目标推广项的基础特征；

将所述目标推广项的基础特征输入至极端梯度提升xgboost模型，得到所述目标推广项的高阶特征；其中，所述xgboost模型是基于第一历史推广项的基础特征和所述第一历史推广项的标签训练得到的，所述第一历史推广项的标签指示所述第一历史推广项投放后的点击率；

将所述目标推广项的高阶特征输入至预测模型，得到所述目标推广项的点击率；其中，所述预测模型是基于第二历史推广项的高阶特征和所述第二历史推广项的标签训练得到，所述第二历史推广项的标签指示所述第二历史推广项投放后的点击率，所述第二历史推广项的高阶特征与所述第一历史推广项的高阶特征具有相同的特征维度。

第二方面，提供一种点击率的预测装置，包括：

基础特征提取模块，提取待预测的目标推广项的基础特征；

高阶特征提取模块，将所述目标推广项的基础特征输入至极端梯度提升xgboost模型，得到所述目标推广项的高阶特征；其中，所述xgboost模型是基于第一历史推广项的基础特征和所述第一历史推广项的标签训练得到的，所述第一历史推广项的标签指示所述第一历史推广项投放后的点击率；

点击率预测模块，将所述目标推广项的高阶特征输入至预测模型，得到所述目标推广项的点击率；其中，所述预测模型是基于第二历史推广项的高阶特征和所述第二历史推广项的标签训练得到，所述第二历史推广项的标签指示所述第二历史推广项投放后的点击率，所述第二历史推广项的高阶特征与所述第一历史推广项的高阶特征具有相同的特征维度。

第三方面，提供一种电子设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行：

提取待预测的目标推广项的基础特征；

第四方面，提供一种算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如下步骤：

提取待预测的目标推广项的基础特征；

本申请实施例的方案先提取推广项的基础特征，之后将基础特征输入至xgboost模型，利用xgboost模型多线程***、防过拟合以及在缺少特征值情况下自动学习***方向等特点，高效机械化生成推广项的高阶特征，避免了人为设定高阶特征的局限性。之后，将高阶特征输入至预测模型，由预测模型进一步以高阶特征作为参考因子，预测推广项的点击率，从而为制定更合适的推广项投放决策提供数据支持，可提高推广项的投放命中率，进而在一定程度上降低了用户因未实现搜索预期而向服务器发起的搜索请求的次数，减少了服务器的压力。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请实施例中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的点击率的预测方法的第一种流程示意图。

图2为本申请实施例提供的点击率的预测装置的结构示意图。

图3为本申请实施例提供的电子设备的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请中的技术方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

如前所述，互联网广告的精准投放除了能够获得更好的广告效益外，还可以有效减少用户请求服务器的搜索次数，从而降低服务器的压力。点击率是反映互联网广告投放精准性的关键指标。为此，本申请旨在提供一种可以预测点击率的技术方案，能够为制定投放决策提供数据支持。

图1是本申请实施例点击率的预测方法的流程图。图1所示的方法可以由下文相对应的装置执行，包括：

步骤S102，提取待预测的目标推广项的基础特征。

其中，目标推广项可以是不以营利为目的的广告，如政府公告，宗教、教育、文化、市政、社会团体等方面的启事、声明等，也可以是以营利为目的的广告或优惠券，这类是传播商品或服务信息的手段。

具体地，在本步骤中可以对待预测的目标推广项进行结构化处理，得到目标推广项的结构化数据。之后，对目标推广项的结构化数据进行特征识别，得到目标推广项的基础特征。需要说明的是，特征识别的方法属于现有技术，由于本申请并不涉及该方面的改进，因此不再举例赘述。

此外，本步骤还可以对提取到的至少两种基础特征进行组合，在原有基础特征的基础之上，生成新的基础特征。

步骤S104，将目标推广项的基础特征输入至极端梯度提升xgboost模型，得到目标推广项的高阶特征；其中，xgboost模型是基于第一历史推广项的基础特征和第一历史推广项的标签训练得到的，第一历史推广项的标签指示第一历史推广项投放后的点击率。

应理解，第一历史推广项的数量并不限于是一个，可以泛指由多个历史推广项组成的数据集。

本步骤中，第一历史推广项的基础特征作为xgboost模型的输入，可以得到xgboost模型输出的训练结果。同时，基于最大似然估计推导得到xgboost模型的损失函数，并基于该损失函数计算出训练结果与标签之间的损失。最终，以降低损失为目的，对xgboost模型中的基础特征的权重值进行优化，达到训练效果。

步骤S106，将目标推广项的高阶特征输入至预测模型，得到目标推广项的点击率；其中，预测模型是基于第二历史推广项的高阶特征和第二历史推广项的标签训练得到，第二历史推广项的标签指示第二历史推广项投放后的点击率，第二历史推广项的高阶特征与第一历史推广项的高阶特征具有相同的特征维度。

应理解，预测模型的实现方式并不唯一，本申请实施例对此不作具体限定。作为示例性介绍：预测模型可以是具有分类功能的深度神经网络(DNN，Deep Neural Networks)模型，能够将推广项归类至对应的点击率下，从而达到预测目的。

同理，第二历史推广项的数量并不限于是一个，可以泛指由多个历史推广项组成的数据集。

本步骤可以采用上述xgboost模型的有监督训练方法，对预测模型进行训练。由于原理相同，本文不再举例赘述。

此外，作为合理的预测方案，应根据以前的数据，推理预测以后的结果。因此，第一历史推广项(训练xgboost模型)所对应的时间段应早于第二历史推广项(训练预测模型)所对应的时间段。

基于图1所示的点击率的预测方法可以知道：本申请实施例的方案先提取推广项的基础特征，之后将基础特征输入至xgboost模型，利用xgboost模型多线程***、防过拟合以及在缺少特征值情况下自动学习***方向等特点，高效机械化生成推广项的高阶特征，避免了人为设定高阶特征的局限性。之后，将高阶特征输入至预测模型，由预测模型进一步以高阶特征作为参考因子，预测推广项的点击率，从而为制定更合适的推广项投放决策提供数据支持，可提高推广项的投放命中率，进而在一定程度上降低了用户因未实现搜索预期而向服务器发起的搜索请求的次数，减少了服务器的压力。

下面对本申请实施例的方法进行详细介绍。

本申请实施例的方法基于“xgboost模型”+“DNN模型”的结构，预测推广项的点击率。其中，主要流程包括：

步骤S201，训练xgboost模型。

在本步骤中，首先构建xgboost模型的训练数据集，训练数据集中的样本对象即上文所述的第一历史推广项。训练数据包括第一历史推广项的基础特征和第一历史推广项的标签。其中，第一历史推广项的标签指示第一历史推广项投放后的点击率。

之后，基于xgboost模型的训练数据集，对基于xgboost模型进行训练。其中，第一历史推广项的基础特征作为xgboost模型的输入，第一历史推广项的标签作为xgboost模型的输出。

上述训练过程涉及到Xgboost算法的实现过程，下面对Xgboost算法的实现过程进行示例性介绍。

Boosting是一种用来提高弱分类算法准确度的方法。Boosting算法是属于串行的集成方法，其预测函数为多个基分类器的集成，其学习过程也是先学习前(t-1)个基分类器，再学习第t个基分类器。Xgboost算法是在Boosting算法基础上的改进，Xgboost算法中最主要的基学习器为CART(分类与回归树)，因此其预测函数为:

其中,K表示有K个决策树，f_k表示第k颗树，

表示样本x_i的预测结果。F＝{f(x)＝w_q(x)}(q：R^M→T，w∈R^T)表示决策树空间，其中m代表数据集的维数，T为叶子节点数量，q代表树的结构，w代表叶子节点的分数，R^M为样本实例，q(x)表示将输入样本x映射到树的叶子节点，其对应叶子节点的标号为w_q(x)。因此，正则化的目标函数可以写成：

其中

为样本x_i的训练误差，Ω(f_k)表示第k棵树的正则项。

其中γ和λ为惩罚力度，||w||²为权重L2正则化。

假设前t-1步迭代优化得到的模型为在第t步中，待求参数为f_t(x_i)，则第t步的目标函数为:

其中

为常数项。

将上式进行二介泰勒展开可以得到：

其中

g_i和h_i分别是一阶导数和阶导数。

去掉与待求参数无关的常数项，从而得到新的优化目标为：

将上式变形，将关于样本迭代转换为关于树的叶子节点迭代：

其中w_j是模型中叶子节点的结果值。

这样，对于给定的树结构，可以直接计算得到叶子节点的标号：

其中i_j为每个叶子节点的样本个数。

以及相对应的最优目标函数值：

其中，

代表叶子节点内所有样本的目标函数的一阶导数的累加值，

代表叶子节点内所有样本的目标函数的二阶导数的累加值。

因为对损失函数做了二阶泰勒展开，并在目标函数中加入了正则项，整体求最优解，用以权衡目标函数和模型的复杂程度，起到了防止过拟合的作用。但是，由于树的结构是未知的，而且也不可能去遍历所有的树结构。因此，采用贪婪算法来***节点，从根节点开始遍历所有属性。遍历属性的可能取值，记分到左子树的样本集为I_L，分到右子树的样本集为I_R，则***该节点导致的损失减少值为：

其中，λ用来降低分支收益灵敏度，γ为加入新节点后引起复杂度的变化，

i∈Ihi＝i∈iLhi+i∈iRhi。

这里需要找到一个属性以及其对应的大小，使得上式取值最大。因为树结构未知，只能采用贪心算法，从根节点出发，每次选择一个属性及其对应的值，使得损失函数减少最多。在此对贪心算法的类型不作具体限定，应由本领域技术人员根据实际情况作出相应的设定，通常采用用于分割搜索的精确贪心算法。

下面对用于分割搜索的精确贪心算法的实现过程进行介绍：

输入：I，当前节点的样本集；

输入：I_k＝{i∈I|xI_k≠missing}，其中xi_k为第i个样本第k列的特征值；

输入：d，特征维度；

gain←0；

G←∑_i∈Ig_i，H←∑_i∈Ih_i；

对k＝1,…,m计算：

G_L←0,H_L←0；

对在有序I_k(按x_jk升序排列)中的j，计算：

G_L←G_L+g_i，H_L←H_L+h_j，G_R←G-G_L，H_R←H-H_L；

其中，G_R为右子节点的一阶导数和，H_R为右子节点的二阶导数和，G_L为右子节点的一阶导数和，H_L为右子节点的二阶导数和。

结束；

输出：最大的score为分割和默认的方向。

步骤S202，提取待预测的目标推广项的基础特征。

具体地，先对待预测的目标推广项进行结构化处理，得到目标推广项的结构化数据。

其中，结构化处理可以但不限于包括以下内容：

1)缺失值清洗，去掉不需要的字段，合理填充缺失的内容。

2)格式内容清洗，对不符合格式的内容进行纠正或删除处理。

3)逻辑错误清洗，数据去重，去除不合理值，修正矛盾内容。

4)非需求数据清洗。

之后，从结构化数据中提取出目标推广项的基础特征。

步骤S203，将目标推广项的基础特征输入至xgboost模型，获得目标推广项的高阶特征。

步骤S204，将目标推广项的高阶特征输入至DNN模型，预测得到目标推广项的点击率。

在预测出目标推广项的点击率后，本申请实施例的方法还可以根据目标推广项的点击率，来决定是否对目标推广项进行投放。比如，目标推广项的点击率低于预设阈值，则决定不对其进行投放，从而使投放平台展示高质量的推广项。

此外，本申请实施例的方法还可以根据目标推广项的点击率，来决定目标推广项在投放平台的展示位置。比如，目标推广项的点击率可以与目标推广项在投放平台的展示位置具有对应关系。点击率越高，在投放平台越优先展示，从而使得用户在较少搜索次数的情况下就能获得期望的结果，避免对服务器造成压力。

综上所述，本申请实施例基于xgboost模型可以将树模型的复杂度加入到正则项中，来避免过拟合。xgboost模型的损失函数是用泰勒展开式展开的，同时用到了一阶导和二阶导，可以加快优化速度。xgboos在寻找最佳分割点时，考虑到传统的贪心算法效率较低，实现了一种近似贪心算法，用来加速和减小内存消耗，除此之外还考虑了稀疏数据集和缺失值的处理，对于特征的值有缺失的样本，XGBoost模型依然能自动找到其要***的方向。此外，xgboost模型集成了一种稀疏感知的分割搜寻算法来自动利用特征的稀疏性做并行化树的学习，因此它能很有效地处理推广项数据的高维稀疏特征，提高模型的训练效率。

与上述方法相对应地，如图2所示，本申请实施例还提供一种点击率的预测装置200，包括：

基础特征提取模块210，提取待预测的目标推广项的基础特征；

高阶特征提取模块220，将所述目标推广项的基础特征输入至极端梯度提升xgboost模型，得到所述目标推广项的高阶特征；其中，所述xgboost模型是基于第一历史推广项的基础特征和所述第一历史推广项的标签训练得到的，所述第一历史推广项的标签指示所述第一历史推广项投放后的点击率；

点击率预测模块230，将所述目标推广项的高阶特征输入至预测模型，得到所述目标推广项的点击率；其中，所述预测模型是基于第二历史推广项的高阶特征和所述第二历史推广项的标签训练得到，所述第二历史推广项的标签指示所述第二历史推广项投放后的点击率，所述第二历史推广项的高阶特征与所述第一历史推广项的高阶特征具有相同的特征维度。

基于图2所示的点击率的预测装置可以知道：本申请实施例的方案先提取推广项的基础特征，之后将基础特征输入至xgboost模型，利用xgboost模型多线程***、防过拟合以及在缺少特征值情况下自动学习***方向等特点，高效机械化生成推广项的高阶特征，避免了人为设定高阶特征的局限性。之后，将高阶特征输入至预测模型，由预测模型进一步以高阶特征作为参考因子，预测推广项的点击率，从而为制定更合适的推广项投放决策提供数据支持，可提高推广项的投放命中率，进而在一定程度上降低了用户因未实现搜索预期而向服务器发起的搜索请求的次数，减少了服务器的压力。

可选地，所述第一历史推广项对应的时间段早于所述第二历史推广项对应的时间段。

可选地，所述第二历史推广项的高阶特征是将所述第二历史推广项的基础特征输入至所述xgboost模型得到的。

可选地，推广项的基础特征包括以下至少一种特征维度：

推广项的受众对象的画像特征、推广项的权益特征和推广项对应的历史点击率特征。

可选地，所述目标推广项的点击率与所述目标推广项在投放平台的展示位置具有对应关系。

可选地，所述预测模型包括深度神经网络模型。

可选地，提取待预测的目标推广项的基础特征，包括：

对待预测的目标推广项的数据进行结构处理，得到所述目标推广项的结构化数据；

对所述目标推广项的结构化数据进行特征识别，得到所述目标推广项的基础特征。

显然，本申请实施例的预测装置可以作为上述图1所示的预测方法的执行主体，因此该预测装置能够实现预测方法在图1所实现的功能。由于原理相同，本文不再赘述。

图3是本申请的一个实施例电子设备的结构示意图。请参考图3，在硬件层面，该电子设备包括处理器，可选地还包括内部总线、网络接口、存储器。其中，存储器可能包含内存，例如高速随机存取存储器(Random-Access Memory，RAM)，也可能还包括非易失性存储器(non-volatile memory)，例如至少1个磁盘存储器等。当然，该电子设备还可能包括其他业务所需要的硬件。

处理器、网络接口和存储器可以通过内部总线相互连接，该内部总线可以是ISA(Industry Standard Architecture，工业标准体系结构)总线、PCI(PeripheralComponent Interconnect，外设部件互连标准)总线或EISA(Extended Industry StandardArchitecture，扩展工业标准结构)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示，图3中仅用一个双向箭头表示，但并不表示仅有一根总线或一种类型的总线。

存储器，用于存放程序。具体地，程序可以包括程序代码，所述程序代码包括计算机操作指令。存储器可以包括内存和非易失性存储器，并向处理器提供指令和数据。

处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行，在逻辑层面上形成点击率的预测装置。处理器，执行存储器所存放的程序，并具体用于执行以下操作：

提取待预测的目标推广项的基础特征；

基于图3所示的电子设备可以知道：本申请实施例的方案先提取推广项的基础特征，之后将基础特征输入至xgboost模型，利用xgboost模型多线程***、防过拟合以及在缺少特征值情况下自动学习***方向等特点，高效机械化生成推广项的高阶特征，避免了人为设定高阶特征的局限性。之后，将高阶特征输入至预测模型，由预测模型进一步以高阶特征作为参考因子，预测推广项的点击率，从而为制定更合适的推广项投放决策提供数据支持，可提高推广项的投放命中率，进而在一定程度上降低了用户因未实现搜索预期而向服务器发起的搜索请求的次数，减少了服务器的压力。

上述如本申请图1所示实施例揭示的点击率的预测方法可以应用于处理器中，或者由处理器实现。处理器可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，CPU)、网络处理器(Network Processor，NP)等；还可以是数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field－Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器，处理器读取存储器中的信息，结合其硬件完成上述方法的步骤。

应理解，本申请实施例的电子设备可以实现上述预测装置在图1所示的实施例的功能，本文不再赘述。

当然，除了软件实现方式之外，本申请的电子设备并不排除其他实现方式，比如逻辑器件抑或软硬件结合的方式等等，也就是说以下处理流程的执行主体并不限定于各个逻辑单元，也可以是硬件或逻辑器件。

此外，本申请实施例还提出了一种计算机可读存储介质，该计算机可读存储介质存储一个或多个程序，该一个或多个程序包括指令，该指令当被包括多个应用程序的便携式电子设备执行时，能够使该便携式电子设备执行图1所示实施例的方法，并具体用于执行以下方法：

提取待预测的目标推广项的基础特征；

应理解，上述指令当被包括多个应用程序的便携式电子设备执行时，能够使上文所述的预测装置实现图1所示实施例的功能，本文不再赘述。

本领域技术人员应明白，本说明书的实施例可提供为方法、***或计算机程序产品。因此，本说明书可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本说明书可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

以上仅为本说明书的实施例而已，并不用于限制本说明书。对于本领域技术人员来说，本说明书可以有各种更改和变化。凡在本说明书的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本说明书的权利要求范围之内。

Claims

1.一种点击率的预测方法，包括：

提取待预测的目标推广项的基础特征；

2.根据权利要求1所述的方法，

所述第一历史推广项对应的时间段早于所述第二历史推广项对应的时间段。

3.根据权利要求1所述的方法，

所述第二历史推广项的高阶特征是将所述第二历史推广项的基础特征输入至所述xgboost模型得到的。

4.根据权利要求1-3任一项所述的方法，

推广项的基础特征包括以下至少一种特征维度：

5.根据权利要求1-3任一项所述的方法，

所述目标推广项的点击率与所述目标推广项在投放平台的展示位置具有对应关系。

6.根据权利要求1-3任一项所述的方法，

所述预测模型包括深度神经网络模型。

7.根据权利要求1-3任一项所述的方法，

提取待预测的目标推广项的基础特征，包括：

对待预测的目标推广项进行结构化处理，得到所述目标推广项的结构化数据；

8.一种点击率的预测装置，包括：

基础特征提取模块，提取待预测的目标推广项的基础特征；

9.一种电子设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行：

提取待预测的目标推广项的基础特征；

10.一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如下步骤：

提取待预测的目标推广项的基础特征；