CN115293800A

CN115293800A - 基于阴影特征筛选的针对互联网点击率预测的预测方法

Info

Publication number: CN115293800A
Application number: CN202210889770.0A
Authority: CN
Inventors: 项亮; 裴智晖
Original assignee: Shanghai Shuming Artificial Intelligence Technology Co ltd
Current assignee: Shanghai Shuming Artificial Intelligence Technology Co ltd
Priority date: 2022-07-27
Filing date: 2022-07-27
Publication date: 2022-11-04

Abstract

一种基于阴影特征筛选的针对互联网点击率预测的预测方法，其包括数据预处理步骤、训练集的生成步骤和所述模型训练与模型建立步骤；其中，训练集的生成步骤包括特征工程的处理和阴影特征的构造和基于特征阴影的特征筛选。因此，本发明根据特征筛选策略、是否有每一个原特征重要性在M次重复后的均值大于阴影特征的情况出现以及原特征和阴影特征的两者的分布具是否有显著性差异，对每一个原特征进行保留或删除的操作，将保留的原特征用于模型的最终训练集和验证集的数据特征；即本发明通过构造阴影特征对于原始特征进行筛选，使筛选后的原始特征显著降低了树模型的过拟合风险，提升了算法的鲁棒性，并在实际业务中提升点击率预测结果都具有重要的意义。

Description

基于阴影特征筛选的针对互联网点击率预测的预测方法

技术领域

本发明涉及人工智能在互联网营销的技术领域，更具体地，涉及一种基于阴影特征筛选的针对互联网点击率预测的预测方法。

背景技术

点击率(Click-Through Rate，简称CTR)预估问题是互联网计算广告中的关键环节；对用户预估的准确性直接影响公司营销广告的收入。点击率预估问题是互联网计算广告中的关键环节，对用户预估的准确性直接影响公司营销广告的收入。

在广告投放过程中，一般会经历广告曝光、用户点击和用户注册(或称转化)这三个过程，CTR预估的一大目的是提高从广告曝光到用户点击的效率，即提高点击率。由于用户点击或不点击一般定义为用户行为的标签。

本领域技术人员清楚，传统的CTR预估可看作是一个有监督学习问题：即已知了用户点击行为等一系列特征后，将用户点击记为1，用户不点击记为0，从而进行二分类学习。

在点击率预估中，数据特征一般可以分为：

①、用户画像特征，其主要包括用户的年龄、性别、收入水平、使用设备类型等；

②、物品/商品特征，其主要包括用户访问DPI、用户点击频次等。

③、数据特征还可以通过结合具体的业务需求或通过算法对特征进行交互和组合，包括了各种统计特征等。

尤其是对于某些商品的类别特征，对其处理后(例如独热向量展开等)往往维度非常高，数据特征的组成也较为复杂。此外，在很多业务中，数据特征对于待预测结果的贡献也往往是人们关心的问题。因此，进行数据特征筛选对于提取重要特征、降低计算复杂度、降低过拟合风险等多方面都是非常有益的。

本领域技术人员清楚，对于很多基于树模型的算法，如XGBoost，LightGBM等，可以通过输出特征重要性来指导特征工程，但特征重要性却无法用于特征筛选，这主要原因如下：

首先，由于特征重要性只能说明哪些特征在训练时起到作用了，并不能说明特征和目标变量之间一定存在依赖关系。

第二，特征重要性一般是根据决策树***前后节点的不纯度的减少量(例如基尼系数)求得的，因此，特别容易高估数值特征和基数高的类别特征的重要性。

最后，当输出特征重要性后，一般需要人为的选定阈值来选择保留或删除某些特征，很难确保筛选后的特征能提升模型性能。

发明内容

本发明的目的在于提供一种基于阴影特征筛选的针对互联网点击率预测的预测方法，其通过构造阴影特征，与原始特征信息通过树模型训练后输出特征重要性并进行特征筛选，以提升用户点击率预测结果。

为实现上述目的，本发明的技术方案如下：

一种基于阴影特征筛选的针对互联网点击率预测的预测方法，其包括数据预处理步骤S1、训练集的生成步骤S2和模型训练与模型建立步骤S3；

所述数据预处理步骤S1包括如下步骤：

步骤S11：获取N个用户的原始数据信息，并从所述用户的原始数据信息提取原始特征信息；其中，所述原始特征信息包括用户ID、用户所在省份、用户所在城市、用户访问DPI、用户访问时间(频度)、设备类型和/或用户是否点击特征；其中，所述用户所在省份、用户所在城市、和用户访问DPI为类别特征，所述用户访问时间为连续特征，所述N大于等于2；

步骤S12：对所述用户的原始特征信息进行异常检测与处理步骤；

步骤S13：通过独热编码对类别特征进行处理，根据业务需求及求解模型选择进行归一化后梯度下降处理，或利用RankGauss方法对连续特征进行调整样本分布处理；

所述训练集的生成步骤S2包括特征工程的处理步骤S21和阴影特征的构造步骤S22和基于特征阴影的特征筛选步骤S23；

步骤S21具体包括如下步骤：

步骤S211：用户访问DPI处理步骤，建立用户ID与用户访问DPI的特征列；

步骤S212：采用通过独热编码对类别特征进行处理；

步骤S213：连续特征进行数值型特征改造处理；

步骤S214：进行特征筛选和特征构造，以形成新的特征；

步骤S215：执行连续特征离散化处理；

步骤S22阴影特征的构造具体包括如下步骤：

对连续特征和离散化后的连续特征与类别特征构造对应的阴影特征；将训练数据集的训练数据原特征和获得的阴影特征拼接，得到2倍于所述训练数据原特征M的混合特征。

步骤S23具体包括如下步骤：

步骤S231：形成对每一个原特征和其对应的阴影特征的M个特征重要性的分布情况；根据特征筛选策略、是否有每一个原特征重要性在M次重复后的均值大于阴影特征的情况出现以及原特征和阴影特征的两者的分布具是否有显著性差异，对每一个原特征进行保留或删除的操作；

步骤S232：将保留的原特征作为模型的最终训练集和验证集数据的特征；即使用保留下来的原特征作为基于树算法的神经网络模型的输入；

所述模型训练与模型建立步骤S3包括：

步骤S31：建立基于树算法的神经网络初始化模型，使用保留下来的原始数据的原特征，用所述训练集中的经过处理的原始数据，以是否点击作为训练标签，获得每个训练样本是否点击的输出概率；

步骤S32，将所述新的训练集中的每一个样本对基于树算法的神经网络模型进行训练和验证，得到参数优化后的所述神经网络模型，并使用验证集进行验证，得到最终的基于树算法的预测网络模型。

进一步地，所述步骤S31建立基于树算法的初始化模型为梯度提升决策树模型，其实现方式包括XGBoost或lightGBM。

进一步地，所述特征筛选策略包括：

①、将特征重要性均值小于其对应的阴影特征的原特征直接一起从数据集中删除，无论二者是否具有显著性差异；

②、对于特征重要性均值大于其对应的阴影特征的原特征，使用曼-惠特尼U检验来判断二者分布是否具有显著性差异；如果所选择的原特征其重要性均值显著大于对应阴影特征的重要性，则保留，否则，将原特征和其对应的阴影特征直接一起从数据集中删除。

进一步地，所述的预测方法还包括预测步骤S4，其具体包括：

步骤S41：获取拟对营销活动点击预测的用户群体和所述用户群体的用户原始数据信息，并从所述用户原始数据信息提取原始特征信息；其中，所述原始特征信息包括用户ID、用户所在省份、用户所在城市、用户访问DPI、用户访问时间、设备类型和/或用户是否点击特征；其中，所述用户所在省份、用户所在城市、和用户访问DPI为类别特征，所述用户访问时间为连续特征，所述N大于等于2；

步骤S42：对每一个所述用户的原始数据信息进行异常检测与处理步骤；通过独热编码对类别特征进行处理，根据业务需求及求解模型选择进行归一化后梯度下降处理，或利用RankGauss方法对连续特征进行调整样本分布处理；

步骤S43：对所述用户的原始数据信息进行特征筛选和特征构造，以形成新的特征；将连续特征根据多个阈值来进行离散化；对每个特征都通过随机重排的方式完成对应的阴影特征的构造，根据特征筛选策略、是否有每一个原特征重要性在M次重复后的均值大于阴影特征的情况出现以及原特征和阴影特征的两者的分布具是否有显著性差异，对每一个原特征进行保留或删除的操作；

步骤S44：提供建立训练好的梯度提升决策树模型，依次输入将具有保留下来原特征的所述用户原始数据信息，得到拟对营销活动点击预测的用户群体中所有所述用户的预测值；其中，所述用户的模型预测值为所述用户的点击意愿度。

进一步地，所述模型预测步骤S4还包括：

步骤S45：根据实际投放需求，选择全部或部分所述用户的模型预测值集中点击意愿度为1的用户进行精准营销的任务。

从上述技术方案可以看出，本发明的基于基于阴影特征筛选的针对互联网点击率预测的预测方法，通过开发出更可靠的特征筛选算法，其通过构造阴影特征对于原始特征进行筛选，使筛选后的原始特征显著降低了树模型的过拟合风险，提升了算法的鲁棒性，并在实际业务中提升点击率预测结果都具有重要的意义。

附图说明

图1所示为本发明实施例中基于阴影特征筛选的针对互联网点击率预测的预测方法流程示意图

图2所示为本发明实施例中阴影特征的构造方式示意图

图3所示为本发明实施例中原特征A的N个特征重要性和阴影特征A的M个特征重要性的分布示意图

图4所示为本发明实施例中特征筛选前的概率分布和特征筛选后的示意图

具体实施方式

下面结合附图1-4，对本发明的具体实施方式作进一步的详细说明。

在下述的具体实施方式中，在详述本发明的实施方式时，为了清楚地表示本发明的结构以便于说明，针对附图中的结构不依照一般比例绘图，并进行了局部放大、变形及简化处理，因此，应避免以此作为对本发明的限定来加以理解。

请参阅图1，图1所示为本发明基于阴影特征筛选的针对互联网点击率预测的预测方法流程示意图。如图1所示，该预测方法包括数据预处理步骤S1、训练集的生成步骤S2、预测模型建立步骤S3和营销活动预测步骤S4。

在本发明的实施例中，数据预处理步骤S1非常重要，所述数据预处理步骤S1包括如下步骤：

步骤S11：获取N个用户的原始数据信息，并从所述用户的原始数据信息提取原始特征信息；其中，所述原始特征信息包括用户ID(user_id)、用户所在省份(province)、用户所在城市(city)、用户访问DPI、用户访问时间(频度)、设备类型(phone_type)和/或用户是否点击特征；其中，所述用户所在省份、用户所在城市、和用户访问DPI为类别特征，所述用户访问时间为连续特征，所述N大于等于2。

请参阅下表1，表1为预处理之前的原始数据信息的表格描述，预处理之前的原始数据信息形式如下表1所示：

表1

请注意此时，对于数据的标签，即用户是否点击，只区分为正样本(1)和未标记样本(0)。

在本发明的实施例中，上述的原始数据信息还需要经过异常检测与处理、类别特征处理、连续特征处理和降维处理等步骤。

步骤S12：对所述用户的原始数据信息进行异常检测与处理步骤。

异常检测与处理：在结合业务要求的过程中，对于原始数据信息中的缺失值、过大值等需要进行删除、填充等处理。在原始数据信息的采集过程中，由于一般用户量为百万级别，因此，采集过程中可能出现缺失情况；若缺失量较小，一般可直接进行剔除；若无法判断缺失原始数据信息是否会影响最终的模型训练效果，则一般可根据取平均数、众数和中位数等方法来填补缺失值。

并且在原始数据信息采集过程中，可能还会遇到过大值的问题，比如某用户在一天之内访问了DPI上万次，这种情况一般在实际建模过程中对于提升模型的泛化能力并无特别帮助，因此，也可以采用剔除的处理，或者采用填补的方法进行相应的处理。

步骤S13：通过独热编码对类别特征进行处理，根据业务需求及求解模型选择进行归一化后梯度下降处理，或利用RankGauss方法对连续特征进行调整样本分布处理。

从上表中可以看出，相比于传统的用户访问数据，每一个用户ID对应多个DPI访问记录，同时还给出了访问的时间。

在本发明的实施例中，还包括用户访问DPI处理。由于每个用户所访问的DPI不唯一，因此，原始数据信息中同一用户ID可能会出现多次，即用户具有多条访问信息。也就是说，将所有DPI去重后，建立用户访问DPI的特征列，若某用户访问了某几个DPI，则这些DPI的统计次数加1。

步骤S2：训练集的生成步骤，其包括特征工程的处理步骤S21、阴影特征的构造步骤S22和基于特征阴影的特征筛选步骤S23。

步骤S21：特征工程的处理步骤，对所述用户的原始数据信息进行特征筛选和特征构造，以形成新的特征；其具体包括如下步骤：

步骤S211：用户访问DPI处理步骤，建立用户ID与用户访问DPI的特征列。由于每个用户所访问的DPI不唯一，因此原始数据信息中同一用户ID可能会出现多次，即用户具有多条访问信息。因此，将所有DPI去重后，建立用户DPI的特征列，若某用户访问了某几个DPI，则这些DPI的统计次数加1。

步骤S212：采用通过独热编码对类别特征进行处理步骤。对于用户号码所在省份、城市、设备类型等类别特征(categorical features)，可以通过独热编码(one-hotenconding)进行展开。例如，省份有(HN,JS,LN,SH,JL,BJ)，通过独热编码后，某个用户所在的省份则为1，其他省份则为0。以用户ID为199990为例，其省份为HN，于是经过独热编码后，其归属地向量为(1,0,0,0,0,0)；对应的，用户199991的归属地向量则为(0,1,0,0,0,0)。

步骤S213：连续特征进行数值型特征改造处理。

该步骤称为数值型特征(numerical features)改造步骤，其可根据业务需求及模型选择进行相关处理，例如对于采用梯度下降(gradient decent)进行求解的模型，如逻辑回归和神经网络等，一般归一化后梯度下降更加平滑，收敛速度更快。又比如某些机器学习模型是以特征服从高斯分布为前提，此时可通过GaussRank等方法调整样本分布。

步骤S214：进行特征筛选和特征构造，以形成新的特征。

特征筛选：根据嵌入法，建立随机森林基学习器对预处理后的数据进行训练，并输出各个特征的重要性，消除若干权重较低的特征，再基于新的特征集进行下一轮训练，重复M次递归的消除重要性较低的特征，较佳地，M为3。

特征构造：添加常用的统计特征，如偏度(skewness)、峰度(peakedness)等。

步骤S215：连续特征离散化。

对于一些机器学习算法如逻辑回归和前馈神经网络等，将连续特征根据多个阈值来进行离散化，可以有效增加算法优化的收敛速度，已经避免异常值对模型训练的影响，一定程度上起到了正则化的作用。例如，根据样本在某个连续特征上分布的不同分位数(假设分位数取0.25，0.5，0.75)，可以将样本在该连续特征上划分为5个区间。每个样本之可能分布在五个区间中的其中一个，则该样本在所位于的特征区间中取值为1，在其余四个区间中取值为0。连续特征离散化的效果即是将一个连续特征展开为独热编码的形式。

经过预处理和特征工程后，数据可用如下表2所示：

其中，连续特征为DPI访问频次、峰度、偏度等统计特征。类别特征为DPI访问的独热编码、号码归属地的独热编码和离散化后的DPI访问频次。

步骤S22：阴影特征的构造步骤；

在本发明的实施例中，阴影特征(shadow feature)是对训练数据集中的原特征进行打乱所得到的新特征，值得注意的是，阴影特征的特点在于其与训练标签理论上是不存在任何统计学关联的，因此，使用阴影特征建立统计模型，在理想的情况下是阴影特征对统计模型是无贡献的。

请参阅图2，图2所示为本发明实施例中阴影特征的构造方式示意图。如图2所示，在本发明的实施例中，对连续特征和离散化后的连续特征与类别特征都能够构造对应的阴影特征。

假设训练数据集中的训练数据有M个特征，则每个特征都通过随机重排的方式得到对应的阴影特征，因此，阴影特征数为M。之后将训练数据集的训练数据原特征和获得的阴影特征拼接，得到2M个特征，一起作为基于决策树的模型(如梯度提升决策树或随机森林等)中进行训练。

基于决策树的模型能够对2M个特征输出相应的特征重要性(如平均***信息增益或平均***次数等)。由于阴影特征的构建和如随机森林等算法具有一定的随机性，因此，上述获得特征重要性的过程执行N次。

重复执行后，每个特征具有N个不同的特征重要性，所有特征的重要性组成一个如下表2所示的特征重要性矩阵：

步骤S23：基于特征阴影的特征筛选。

步骤S231：形成对每一个原特征和其对应的阴影特征的M个特征重要性的分布情况；根据特征筛选策略、是否有每一个原特征重要性在M次重复后的均值大于阴影特征的情况出现以及原特征和阴影特征的两者的分布具是否有显著性差异，对每一个原特征进行保留或删除的操作。

在本发明实施例中的特征筛选，以原特征A及其对应的阴影特征A在N次重复建模后得到的2N个特征重要性为基础；原特征A的N个特征重要性和阴影特征A的N个特征重要性可以组成两个分布。

请参阅图3，图3所示为本发明实施例中原特征A的N个特征重要性和阴影特征A的M个特征重要性的分布示意图。如图3所示，根据其分布能够分为图(A)、图(B)、图(C)和图(D)四种情况。

其中，图(A)和图(B)所显示的情况为原特征的重要性在M次重复后的均值大于阴影特征的情况，而图(C)和图(D)所显示的情况则相反；图(A)和图(B)的区别在于图(A)中原特征和阴影特征的分布具有显著性差异，而图(B)中二者的分布并不具有显著性差异；图(C)和图(D)的区别也在于差异是否显著。

因此，针对本发明的实施例中的上述四种情况，可以设定如下的特征筛选策略：

②、对于特征重要性均值大于其对应的阴影特征的原特征，使用曼-惠特尼U检验来判断二者分布是否具有显著性差异；也就是说，选择该显著性检验是因为特征重要性分布不一定服从正态分布，且原特征和阴影特征的重要性分布也不一定服从同方差假设。该步骤所选择的特征一定是其重要性均值显著大于对应阴影特征的重要性。

步骤S232：将保留的原特征作为模型的最终训练集和验证集数据的特征；即使用保留下来的原特征作为基于树算法的神经网络模型的输入。

经过上述数据处理步骤后，将新生成的数据分成训练集和验证集，并执行模型训练与模型建立步骤S3：

本发明的模型建立步骤：

步骤S31：建立基于树算法的神经网络初始化模型，使用保留下来的原始数据的原特征，用所述训练集中的经过处理的原始数据，以是否点击作为训练标签，并获得每个训练样本是否点击的输出概率。

具体地，使用用户建模数据的所有留下的类别特征，以是否点击作为训练标签，来训练生成基于树算法的神经网络模型，较佳地，基于树算法的神经网络模型为梯度提升决策树模型(实现方式如XGBoost或lightGBM，无特殊要求)。

在本发明的实施例中，有了上述梯度提升决策树模型后，待预测的用户数据根据前述方式做相同的特征工程处理和阴影特征构造和处理。

具体地，上述所有处理步骤完成后，就可以通过将上述特征带入训练好的用户预测模型，能够提前在广告投放之前就筛选出意愿较高的部分用户，并对这些用户进行营销广告的精准投放，预测步骤S4具体包括：

请参阅图4，图4所示为本发明实施例中特征筛选前的概率分布和特征筛选后的示意图。如图4所示，左图为特征筛选前的概率分布，右图为特征筛选后的概率分布。对比两者可以看出，特征筛选前验证集的分布与训练集分布存在较为显著的偏差。在经过上述特征筛选后，验证集和训练集的预测概率分布则较为一致。从计算的评价指标AUC上，特征筛选前训练集和验证集的AUC分别为：0.7653和0.6657；经过特征筛选后两者的AUC分别为：0.6899和0.6568。上述结果表明，经过本方法的特征筛选后，过拟合风险大大降低，而在验证集上的预测性能几乎没有影响。

结果表明，通过本发明的上述特征筛选方案，对某实际点击率预估数据进行了相关实验，有效实现了通过构造阴影特征对于原特征进行筛选；筛选后的特征显著降低了树模型的过拟合风险，提升了用户点击率预测的结果。

以上所述的仅为本发明的优选实施例，所述实施例并非用以限制本发明的专利保护范围，因此凡是运用本发明的说明书及附图内容所作的等同结构变化，同理均应包含在本发明的保护范围内。

Claims

1.一种基于阴影特征筛选的针对互联网点击率预测的预测方法，其特征在于，包括数据预处理步骤S1、训练集的生成步骤S2和模型训练与模型建立步骤S3；

所述数据预处理步骤S1包括如下步骤：

步骤S21具体包括如下步骤：

步骤S212：采用通过独热编码对类别特征进行处理；

步骤S213：连续特征进行数值型特征改造处理；

步骤S214：进行特征筛选和特征构造，以形成新的特征；

步骤S215：执行连续特征离散化处理；

步骤S22阴影特征的构造具体包括如下步骤：

步骤S23具体包括如下步骤：

所述模型训练与模型建立步骤S3包括：

2.根据权利要求1所述的预测方法，其特征在于，所述步骤S31建立基于树算法的初始化模型为梯度提升决策树模型，其实现方式包括XGBoost或lightGBM。

3.根据权利要求1所述的预测方法，其特征在于，所述特征筛选策略包括：

4.根据权利要求1所述的预测方法，其特征在于，还包括预测步骤S4，其具体包括：

5.根据权利要求4所述的预测方法，其特征在于，所述模型预测步骤S4还包括：