CN111815066B

CN111815066B - 一种基于梯度提升决策树的用户点击预测方法

Info

Publication number: CN111815066B
Application number: CN202010706668.3A
Authority: CN
Inventors: 项亮; 翁舟
Original assignee: Shanghai Shuming Artificial Intelligence Technology Co ltd
Current assignee: Shanghai Shuming Artificial Intelligence Technology Co ltd
Priority date: 2020-07-21
Filing date: 2020-07-21
Publication date: 2021-03-26
Anticipated expiration: 2040-07-21
Also published as: CN111815066A

Abstract

一种基于梯度提升决策树的用户点击预测方法，包括根据电信运营商DPI技术解析的用户网站访问行为数据及相关营销结果，建立训练数据集；对训练数据集的数据进行预处理；预处理后按照历史发送任务批次编号的升序进行排序，选择距离当前最近的一个历史发送任务批次编号的数据作为验证集，剩余的批次编号的数据作为训练集；提供所需建立的用户点击预测模型并初始化，使用训练集基于梯度提升决策树对用户点击预测模型进行训练，并使用验证集对用户点击预测模型进行参数调整，得到最终的用户点击预测模型；根据用户点击预测模型，预测用户群体中每个用户对待投放任务的点击概率值，并根据概率值，按一预定比例对用户群体进行待投放任务投放。

Description

一种基于梯度提升决策树的用户点击预测方法

技术领域

本发明涉及人工智能的技术领域，更具体地，涉及一种基于梯度提升决策树的用户点击预测方法。

背景技术

在大数据时代，人们在日常生活的方方面面都产生和消费了大量的信息，这使得用户从大量的信息中寻找自己感兴趣的内容变得困难，而对于信息生产者而言，让自己生产的信息有效触达目标用户也变得困难。因此，推荐***由此在此背景下诞生。

推荐***的主要任务是联系用户与信息，给真正有需求的用户提供最精准的信息。对于商家而言，推荐***可以给用户提供个性化服务，提高用户的信任度和粘性，增加营收，或者精确投放对应的广告，提高收入。

在推荐***中，点击率(Click-Through Rate，简称CTR)预估是至关重要的环节，CTR决定了信息推荐的决策和得到的效果。以往的推荐***主要使用用户的互联网行为数据和广告的上下文信息进行推荐和召回，但由于原始数据中用户行为的主要数据为其访问相关网站的URL和访问次数，相比于互联网企业的推荐***而言，信息量较少，其预测难度较大，因此，该方案的效果不是十分理想。

此外，在基于某些数据集的CTR预估场景中，例如，可以通过电信运营商的深度包解析技术(Deep Packet Inspection，DPI)解析的用户网站访问行作为数据集，然而，其数据集中数据的价值密度还是较低，在特征工程的基础之上，仍需要合适的算法模型提高预测效果。

发明内容

本发明的目的在于在特定的数据集(例如电信运营商DPI技术解析的用户网站访问行为数据)上，克服现有技术方法的缺点与不足，提出了一种基于梯度提升决策树的用户点击预测方法。

为实现上述目的，本发明的技术方案如下：

一种基于梯度提升决策树的用户点击预测方法，其包括

步骤S1：根据电信运营商DPI技术解析的用户网站访问行为数据及相关营销结果，建立训练数据集；其中，所述训练数据集中的一个数据项至少具有6个原始特征，第一原始特征为一个包括时间属性的历史发送任务批次编号，第二原始特征为用户手机号，第三原始特征为用户手机号归属地，第四原始特征为在一预定时间段内用户所访问网址，第五原始特征为网址访问频数，第六原始特征为用户在历史发送任务中的点击反馈结果；并且，所述第二原始特征和所述第一原始特征共同组成所述训练数据集中数据项的主键；

步骤S2：根据主键对所述训练数据集的数据进行预处理；其中，把所述训练数据集原始数据中所有不重复的所述第四原始特征在同一个所述历史发送任务批次编号中展开为多热点类型特征；把所述网址访问频数展开到相应的第四原始特征中去；以及将所述用户手机号归属地特征做单热点编码；

步骤S3：预处理之后的所述训练数据集的数据按照所述历史发送任务批次编号的升序进行排序，选择离当前最近的一个所述历史发送任务批次编号的数据作为验证集，剩余的所述历史发送任务批次编号的数据作为训练集；

步骤S4：提供所需建立的用户点击预测模型并初始化，基于梯度提升决策树，使用所述训练集对所述用户点击预测模型进行训练，并使用验证集验证后对所述用户点击预测模型进行参数调整，得到最终的用户点击预测模型。

进一步地，所述的基于梯度提升决策树的用户点击预测方法，其还包括步骤S5：根据所述用户点击预测模型，预测待投放任务的用户群体中每个用户对所述待投放任务的点击概率值，并根据所述概率值，按一预定比例对所述待投放任务的用户群体进行待投放任务投放。

进一步地，所述步骤S5具体包括：

步骤S51：获取至少一个待投放预测任务以及所述待投放预测任务的用户群体，得到在一预定时间内对所述用户群体进行DPI技术解析的所述待投放预测任务的用户网站访问行为数据及相关营销结果，得到所述用户群体的数据；其中，所述用户群体中的一个数据项至少具有6个原始特征，第一原始特征为一个包括时间属性的任务批次编号，第二原始特征为用户手机号，第三原始特征为用户手机号归属地，第四原始特征为在一预定时间段内用户所访问网址ID，第五原始特征为网址访问频数，第六原始特征为用户在历史发送任务中的点击反馈结果；

步骤S52：对所述用户群体的数据进行预处理；其中，把所述用户群体的数据中所有不重复的所述第四原始特征在所述任务批次编号中展开为多热点类型特征；把所述网址访问频数展开到相应的第四原始特征中去；以及将所述用户手机号归属地特征做单热点编码；

步骤S53：提供基于梯度提升决策树的所述用户点击预测模型，使用预处理后的所述用户群体的数据带入所述用户点击预测模型进行预测，得到每个用户的对所述待投放预测任务的用户网站的点击概率值；

步骤S54：通过对对所述待投放预测任务的用户网站的点击概率值进行阈值划分，按一预定比例对所述待投放任务的用户群体进行待投放任务投放。

进一步地，所述使用验证集验证后对所述用户点击预测模型进行参数调整的评价指标为交叉熵损失和ROC曲线下方的面积。

从上述方法可以知道，本发明的方法可基于电信运营商DPI技术解析的用户网站访问行为数据，并使用梯度提升决策树(Gradient Boosting Decision Tree，简称GBDT)作为主要建模手段。梯度提升决策树GBDT的Boosting集成策略对训练数据的拟合能力更强，一定程度上可以解决数据信息量较少的缺陷，其具有交叉特征能力且泛化和表达能力好的特点，能提高点击通过率(Click-Through-Rate，CTR)和转化率，从而更好的改进推荐***。在进行商业化营销时区分其中的高点击倾向用户群体和低点击倾向用户群体，与全量数据投放相比，经过本方法处理的CTR预估可提高5-10倍。

附图说明

图1所示为本发明基于梯度提升决策树的用户点击预测方法的流程图

图2所示为本发明实施例中梯度提升决策树的训练过程示意图

具体实施方式

下面结合附图，对本发明的具体实施方式作进一步的详细说明。在下述的具体实施方式中，在详述本发明的实施方式时，为了清楚地表示本发明的结构以便于说明，特对附图中的结构不依照一般比例绘图，并进行了局部放大、变形及简化处理，因此，应避免以此作为对本发明的限定来加以理解。

需要说明的是，本发明在特定的数据集(即通过电信运营商DPI技术解析的用户网站访问行为数据及相关营销结果)上，直接使用算法对用户是否会有广告点击行为进行概率预测，对高概率点击用户直接进行广告投放，是一种新的业务结合算法的应用形式。

由于原始数据中用户行为的主要数据为其访问相关网站的URL和访问次数，相比于互联网企业的推荐***而言，信息量较少，其预测难度较大。因此，本发明使用GBDT作为主要建模手段，其利用GBDT的Boosting集成策略对训练数据的拟合能力更强，一定程度上可以解决数据信息量较少的缺陷。

请参阅图1，图1所示为本发明基于梯度提升决策树的用户点击预测方法的流程图。如图1所示，该预测方法可以具体包括如下步骤：

步骤S1：根据电信运营商DPI技术解析的用户网站访问行为数据及相关营销结果，建立训练数据集。

在本发明的实施例中，使用的训练数据集(即通过电信运营商DPI技术解析的用户网站访问行为数据及相关营销结果)至少需要具有一下6个原始特征，该6个原始特征分别为：

第一原始特征：历史发送任务(即对用户的历史营销记录)编号BatchNum，任务编号具有时间属性，编号的数值越大表示任务的执行时间越靠后；

第二原始特征：用户手机号PhoneNum，代表用户的ID；

第三原始特征：用户手机号归属地PhoneArea，代表用户所处的省份区域；

第四原始特征：用户所访问网址URL-ID，即代表用户的网站访问行为，通常可以为营销任务执行前一日的访问行为；同一个批次中的用户可能访问多个DPI，因此可能会出现多次；

第五原始特征：网址URL的访问频数URL-FREQ，代表用户访问某一网址URL的频次，通常可以为前一日的访问频次；

第六原始特征：用户在历史发送任务中的点击反馈ClickResult，通常以“1”或者“0”表示是否点击。

其中，用户手机号PhoneNum和发送任务批次号BatchNum共同组成数据的主键，任务批次号具有时间属性，批次号的数值越大表示时间越靠后。

训练数据集的示例，请参阅下列表1所示：

表1

BatchNum	PhoneNum	PhoneArea	URL-ID	URL-FREQ	ClickResult
						B001	Num1	Area1	ID1	3	1
B001	Num2	Area2	ID1	1	0
						B001	Num2	Area2	ID2	1	0
B002	Num2	Area2	ID1	3	1
						B002	Num3	Area1	ID3	5	1
B003	Num3	Area1	ID4	8	1

步骤S2：根据主键对所述训练数据集的数据进行预处理；其中，把所述训练数据集原始数据中所有不重复的所述第四原始特征在同一个所述历史发送任务批次编号中展开为多热点(multi-hot)类型特征；把所述网址访问频数展开到相应的第四原始特征中去；以及将所述用户手机号归属地特征做单热点(one-hot)编码。

在本发明的实施例中，首先，把原始数据中所有不重复的网址URL-ID在同一个批次号内展开为multi-hot类型特征，例如，假设某用户在某批次内访问了URL-ID1和URL-ID2，则该用户特征URL-ID1和URL-ID2的值为1，其余DPI的值为0。进行过该处理后同一个批次内的用户不会再有重复。

其次，把URL访问频次展开到相应的URL特征中去，例如，某用户在某批次内访问了a次URL-ID1和b次URL-ID2，则URL-ID1和URL-ID2的频次特征的值分别为a和b，而未访问过的URL频次特征的取值为0。经过前两步的处理，如果原始数据中包含了n个不同的URL，则新的特征维数为2n-2。最后，将归属地特征做one-hot编码。

对训练数据集的数据进行预处理后的结果，请参阅下列表2所示：

表2

步骤S3：预处理之后的数据按照任务批次号升序的顺序进行排序，选择离当前最近的一个批次的数据作为验证集，其余的所有数据作为训练集。

请参阅表3，如表3所示，B001-B004为训练集，B005为验证集。

表3

在本发明的实施例中，上述使用验证集验证后对所述用户点击预测模型进行参数调整的评价指标为交叉熵损失和ROC曲线下方的面积(Area under the Curve of ROC,AUCof ROC)。

步骤S4：步骤S4：提供所需建立的用户点击预测模型并初始化，基于梯度提升决策树，使用所述训练集对所述用户点击预测模型进行训练，并使用验证集验证后对所述用户点击预测模型进行参数调整，得到最终的用户点击预测模型。

具体地，本方法使用的机器学习算法为梯度提升决策树GBDT，是通过采用加法模型，以及不断减小训练过程产生的残差来达到将数据分类或者回归的算法。算法表示示例如下：

本发明实施例中梯度提升决策树的训练过程请参阅图2。本发明使用梯度提升迭代决策树(Gradient Boosting Decision Tree，GBDT)作为主要建模手段，GBDT也是Boosting算法的一种。梯度提升决策树的训练原理和过程在此不再赘述。

步骤S5：根据所述用户点击预测模型，预测待投放任务的用户群体中每个用户对所述待投放任务的点击概率值，并根据所述概率值，按一预定比例对所述待投放任务的用户群体进行待投放任务投放。

在本发明的实施例中，所述步骤S5可以具体包括：

也就是说，对于待投放的预测任务，需进行和训练样本一样的数据预处理并带入用户点击预测模型中进行预测，就能够得到每个用户的对待投放的预测任务点击概率值。通过对连续的概率值进行阈值划分，就可以选择一定比例的高点击倾向用户进行待投放的预测任务投放。

以上所述的仅为本发明的优选实施例，所述实施例并非用以限制本发明的专利保护范围，因此凡是运用本发明的说明书及附图内容所作的等同结构变化，同理均应包含在本发明的保护范围内。

Claims

1.一种基于梯度提升决策树的用户点击预测方法，其特征在于，包括：

步骤S3：预处理之后的所述训练数据集的数据按照所述历史发送任务批次编号的升序进行排序，选择距离当前最近的一个所述历史发送任务批次编号的数据作为验证集，剩余的所述历史发送任务批次编号的数据作为训练集；

2.根据权利要求1所述的基于梯度提升决策树的用户点击预测方法，其特征在于，还包括步骤S5：根据所述用户点击预测模型，预测待投放任务的用户群体中每个用户对所述待投放任务的点击概率值，并根据所述概率值，按一预定比例对所述待投放任务的用户群体进行待投放任务投放。

3.根据权利要求2所述的基于梯度提升决策树的用户点击预测方法，其特征在于，所述步骤S5具体包括：

4.根据权利要求1所述的基于梯度提升决策树的用户点击预测方法，其特征在于，所述使用验证集验证后对所述用户点击预测模型进行参数调整的评价指标为交叉熵损失和ROC曲线下方的面积。