CN115271784A

CN115271784A - 基于遗传算法进行特征交互和伪标签学习的点击预测方法

Info

Publication number: CN115271784A
Application number: CN202210666490.3A
Authority: CN
Inventors: 项亮; 裴智晖
Original assignee: Shanghai Shuming Artificial Intelligence Technology Co ltd
Current assignee: Shanghai Shuming Artificial Intelligence Technology Co ltd
Priority date: 2022-06-13
Filing date: 2022-06-13
Publication date: 2022-11-01

Abstract

一种基于遗传算法进行特征交互和伪标签学习的点击预测方法，包括据预处理步骤、特征交互步骤和预测模型建立步骤和营销活动预测步骤；本发明通过基于遗传算法的思想对特征进行交互构造新特征，并结合伪标签技术对无标签数据和有标签数据联合建模，得到最终的预测用户点击的二分类学习器；通过本方法，可以有效利用遗传算法迭代产生优质的新特征，并结合伪标签学习，有效利用了无标签数据，显著提升了对用户点击行为预测的准确性和鲁棒性。

Description

基于遗传算法进行特征交互和伪标签学习的点击预测方法

技术领域

本发明涉及人工智能在互联网营销的技术领域，更具体地，涉及一种基于遗传算法进行特征交互和伪标签学习的点击预测方法。

背景技术

点击率(Click-Through Rate，简称CTR)预估问题是互联网计算广告中的关键环节；对用户预估的准确性直接影响公司营销广告的收入。点击率预估问题是互联网计算广告中的关键环节，对用户预估的准确性直接影响公司营销广告的收入。

在广告投放过程中，一般会经历广告曝光、用户点击和用户注册(或称转化)这三个过程，CTR预估的一大目的是提高从广告曝光到用户点击的效率，即提高点击率。由于用户点击或不点击一般定义为用户行为的标签。

本领域技术人员清楚，传统的CTR预估可看做是一个有监督学习问题：即已知了用户点击行为等一系列特征后，将用户点击记为1，用户不点击记为0，从而进行二分类学习。

CTR预估是对确定的二分类问题进行预测，一般归类于有监督学习。在实际业务中，投放的数据一般大于回收的有效数据。通常由于数据通道和网络延迟等问题，并不是所有投放的广告都是可以发送到用户终端，而用户如果有相关的访问行为，也不是可以100％的将这些信息返回。

也就是说，在每次投放的数据中，最终只有一部分数据是带有的标签的，即是有效的。在对模型的训练中，一般只使用这些有效数据进行相关模型的训练。事实上，无标签数据也存有大量与用户画像等相关的特征信息，且其获得方便；另外，无标签数据可以提高分类决策边界的准确性，进而提高模型的鲁棒性。因此，怎样合理有效地利用无标签数据是目前业界急需解决的问题。

发明内容

本发明的目的在于克服现有技术存在的上述缺陷，提供一种基于遗传算法进行特征交互和伪标签学习的点击预测方法，其通过基于遗传算法的思想对特征进行交互构造新特征，并结合伪标签技术对无标签数据和有标签数据联合建模，得到最终的预测用户点击的二分类学习器。

为实现上述目的，本发明的技术方案如下：

一种基于遗传算法进行特征交互和伪标签学习的点击预测方法，其包括据预处理步骤S1、特征交互步骤S2和预测模型建立步骤S3；

所述数据预处理步骤S1包括如下步骤：

步骤S11：获取M个用户的原始信息，并从所述用户的原始信息提取第一原始特征信息，所述第一原始特征信息包括Y个特征；其中，所述第一原始特征信息包括用户ID、用户手机号码归属地、用户访问DPI、用户访问时间和/或用户是否点击特征；其中，所述用户号码归属地和用户访问DPI为类别特征，所述用户访问时间为连续特征，并且，在数据收集过程中，既包含了有标签数据，又包含无标签数据，所述M大于等于2；

步骤S12：对所述用户的原始特征信息进行异常检测与处理步骤；

步骤S13：通过独热编码对类别特征进行处理，利用RankGauss方法对连续特征进行处理；

有标签数据训练集的生成步骤S2包括：

基于遗传算法对所述第一原始特征信息的特征交互，筛选出X个优质的第二原始特征信息；其中，所述第三原始特征信息的特征数量等于所述第一原始特征信息数量Y加上所述第二原始特征信息数量X；

所述预测模型建立步骤S3包括：

步骤S31：提供初始神经网络模型；并将具有所述第三原始特征信息的有标签数据和无标签数据整理后区分开；

步骤S32：从所述有标签数据中切分出80％作为第一训练集，20％作为第一验证集；

步骤S33：采用所述第一训练集的数据训练所述初始神经网络模型，并用所述第一验证集进行验证，得到优化后的中间神经网络模型；

步骤S34：基于所述中间神经网络模型对每一个所述无标签数据进行预测，输出预测分类的概率，如果所述预测分类的概率大于设定的某一个阈值，则所述无标签数据的标签为1，否则所述无标签数据的标签为0，这样，每个无标签数据标上了预测的伪标签；

步骤S35：将从所述有标签数据中再重新切分出80％作为第二训练集，20％作为第二验证集；所述第二训练集的所述有标签数据与步骤S34得到的伪标签数据混合作为新的训练集；

步骤S36：将所述新的训练集中的每一个样本对所述初始化神经网络模型进行训练和验证，得到参数优化后的神经网络模型，并使用所述验证集进行验证，得到最终的预测网络模型。

进一步地，所述步骤S2包括如下步骤：

步骤S21：建立基于Y个特征间进行交互运算的二叉树随机初始化N棵树，每棵树的深度depth为可调节参数；

步骤S22：将生成的每棵树通过特征交互运算模型计算得到对应的适应度函数值；

步骤S23：判断所述适应度函数值是否满足收敛条件，若满足收敛，则输出相应的所述树的特征组合，执行步骤S26；若不满足收敛，则执行步骤S24；

步骤S24：对所述树执行选择、交叉和变异操作；

步骤S25：重复步骤S22到步骤S24，直到收敛；

步骤S26：直到完成每棵树的筛选优质交互特征的工作，得到X个筛选优质交互特征，从而确定所述第三原始特征信息的特征数量为X+Y。

进一步地，所述遗传算法的适应度函数为交叉熵损失。

进一步地，所述的点击预测方法还包括营销活动预测步骤S4，其具体包括：

步骤S41：获取拟对营销活动点击预测的用户群体和所述用户群体的用户原始信息，并从从所述用户的原始信息提取第一原始特征信息，所述第一原始特征信息包括Y个特征；其中，所述第一原始特征信息包括用户ID、用户手机号码归属地、用户访问DPI、用户访问时间和/或用户是否点击特征；并且，在数据收集过程中，既包含了有标签数据，又包含无标签数据；

步骤S42：对每一个所述用户的第一原始信息进行异常检测与处理步骤；通过独热编码对类别特征进行处理，利用RankGauss方法对连续特征进行处理；

步骤S43：基于遗传算法对所述第一原始特征信息的特征交互，筛选出X个优质的第二原始特征信息；其中，所述第三原始特征信息的特征数量等于所述第一原始特征信息数量Y加上所述第二原始特征信息数量X；

步骤S44：提供建立训练好的预测网络模型，依次使用所述第三原始特征信息，得到拟对营销活动点击预测的用户群体中所有所述用户的预测值；其中，所述用户的模型预测值为所述用户的点击意愿度。

进一步地，所述模型预测步骤S4还包括：

步骤S45：根据实际投放需求，选择全部或部分所述用户的模型预测值集中点击意愿度为1的用户进行精准营销的任务。

进一步地，所述步骤S3中还包括步骤S37，对所述预测网络模型进行模型评价指标处理和调优处理；所述模型评价指标包括AUC值、Log loss值和相对信息增益RIG值。

进一步地，所述模型调优处理包括如下一种或几种：

增加批归一化，解决数据的内部协变量偏移问题；

在网络中增加让部分神经元在训练过程中处于休眠状态的功能；

调整学习率，一般会通过指数式衰减等策略调整训练过程中的学习率；

设置多种子训练取平均，以提高由于数据方差较大引起的泛化能力不足的问题；

增加L1或者L2正则化，对损失函数施加惩罚，以降低过拟合风险；

对超参数的优化方法。

从上述技术方案可以看出，本发明的基于遗传算法进行特征交互和伪标签学习的点击预测方法，可以有效利用遗传算法迭代产生优质的新特征，并结合伪标签学习，有效利用了无标签数据，显著提升了对用户点击行为预测的准确性和鲁棒性。

附图说明

图1所示为本发明实施例中基于遗传算法进行特征交互和伪标签学习的点击预测方法的流程示意图

图2所示为本发明实施例中的特征间进行交互运算的二叉树示意图

图3所示为本发明实施例中的特征交互的遗传算法流程图

图4所示为本发明实施例中的遗传算法中特征树的交叉操作示意图

图5所示为本发明实施例中的伪标签学习框架示意图

具体实施方式

下面结合附图1-5，对本发明的具体实施方式作进一步的详细说明。

在下述的具体实施方式中，在详述本发明的实施方式时，为了清楚地表示本发明的结构以便于说明，针对附图中的结构不依照一般比例绘图，并进行了局部放大、变形及简化处理，因此，应避免以此作为对本发明的限定来加以理解。

需要说明的是，在本发明的实施例中，对于无标签数据，我们无需精确给出其所属的类别，仅给出了一个模糊的近似的标签，是有利于神经网络模型对于特征的有效学习的。因此，本发明基于现有的数据并结合无标签数据联合使用，提高CTR预估中模型整体的性能，在实际业务中具有重要的理论和应用价值。

请参阅图1，图1所示为本发明基于遗传算法进行特征交互和伪标签学习的点击预测方法的流程示意图。如图1所示，该预测方法包括数据预处理步骤S1、有标签数据训练集的生成步骤S2和预测模型建立步骤S3和营销活动预测步骤S4。

在本发明的实施例中，数据预处理步骤非常重要，所述数据预处理步骤S1包括如下步骤：

步骤S11：获取M个用户的原始信息，并从所述用户的原始信息提取第一原始特征信息，所述第一原始特征信息包括Y个特征；其中，所述第一原始特征信息包括用户ID、用户手机号码归属地、用户访问DPI、用户访问时间和/或用户是否点击特征；其中，所述用户号码归属地和用户访问DPI为类别特征，所述用户访问时间为连续特征，并且，在数据收集过程中，既包含了有标签数据，又包含无标签数据，所述M大于等于2。

请参阅下表1，表1为预处理之前的原始数据的表格描述，预处理之前的原始数据形式如下表1所示：

表1

用户id	访问DPI	归属地	访问时间	是否点击
					199990	dpi 1	HN	150702957019	1
199991	dpi 3	HN	150702957147	1
					199992	dpi 2	HN	150702960147	1
…	…	…	…	…
					299991	dpi 4	HN	150702953220	1
299992	dpi 3	LN	150702158424	0
					299993	dpi 5	LN	150702983485	0
299994	dpi 1	LN	150712478952	0
					…	…	…	…	…

请注意此时，对于有标签数据的标签，即用户是否点击，只区分为正样本(1)和未标记样本(0)。无标签数据格式(即特征)和有标签数据格式一样的，只是它缺少标签。

在本发明的实施例中，上述的第一原始特征信息还需要经过异常检测与处理、类别特征处理、连续特征处理和降维处理等步骤。

步骤S12：对所述用户的原始信息进行异常检测与处理步骤。

异常检测与处理：在结合业务要求的过程中，对于第一原始特征信息中的缺失值、过大值等需要进行删除、填充等处理。在数据的采集过程中，由于一般用户量为百万级别，因此，采集过程中可能出现缺失情况；若缺失量较小，一般可直接进行剔除；若无法判断缺失数据是否会影响最终的模型训练效果，则一般可根据取平均数、众数和中位数等方法来填补缺失值。

并且在数据采集中，可能还会遇到过大值的问题，比如某用户在一天之内访问了DPI上万次，这种情况一般在实际建模过程中对于提升模型的泛化能力并无特别帮助，因此，也可以采用剔除的处理，或者采用填补的方法进行相应的处理。

从上表中可以看出，相比于传统的用户访问数据，每一个用户ID对应多个DPI访问记录，同时还给出了访问的时间。

步骤S13：对其他连续型或类别型特征进行处理；通过独热编码对类别特征进行处理，利用RankGauss方法对连续特征进行处理。

类别特征处理：对于用户号码归属地等类别型特征，可以通过独热编码(one-hotenconding)进行展开。例如，归属地有(HN,LN,SH)，通过独热编码后，某个用户所在的归属地则为1，其他归属地则为0。以用户ID为199990为例，其归属地为HN，于是经过独热编码后，其归属地向量为(1,0,0)；对应的，用户199991和199992的归属地向量则为(0,1,0)和(0,0,1)。

连续特征处理：对于用户访问时间等连续特征，可利用RankGauss方法，调整数据分布。利用RankGauss方法对于连续特征调整数据分布处理和/或降维步骤；采用主成分分析法对经过类别特征处理后的髙维特征进行降维处理。

在本发明的实施例中，采用主成分分析(PCA)对髙维特征进行降维处理。由上述对于类别特征的处理可知，一般经过独热编码后，会形成高维稀疏矩阵，对于神经网络的训练而言，这意味着在误差反向传播时，很多地方没有办法求导，这显然是不利于网络训练的。同时，高维度特征，也增加了计算开销。因此有必要对于高维特征先进行降维处理。PCA通过求解原始数据在某投影方向的方差最大，实现降维目的；在减少特征维度的同时，尽量减少第一原始特征包含信息的损失，以达到对所收集数据进行全面分析的目的。

经过上述数据处理步骤后，就可以进行特征交互步骤S2。在本发明的实施例中，是基于遗传算法的特征交互。以所述第一原始特征信息中的两个特征Fet0和Fet1之间的两两交互为例，特征之间可以遵循算数运算(加、减、乘、除)；逻辑运算(与、或)以及指数和多项式等运算。

从理论上说，有些运算规则都可以生成一系列新特征(第二原始特征信息)用于训练，而某些运算规则对于实际业务是没有意义的，反而会给神经网络模型带来额外的噪声，因此，在本发明的实施例中，采用基于遗传算法的规则实现交互特征的迭代，遵循“物竞天择，适者生存”的自然法则，从而筛选出优质的第二原始特征信息。

请参阅图2，图2所示为本发明实施例中的特征间进行交互运算的二叉树示意图。上述第一原始特征间进行的所有运算描述为如图2所示的一个二叉树。在如图2所示的二叉树示意图中，所有的叶子节点(即最后一层)代表了输入的变量或常量，内部的节点则为特征交互所进行的运算。

遗传算法的核心在于衡量特征交互运算后的适应度(fitness)，适应度函数类似于机器学习算法中的目标函数或损失函数。较佳地，对于CTR预估的二分类问题，可以采用交叉熵损失作为遗传算法的适应度函数。

请参阅图3，图3所示为本发明实施例中的特征交互的遗传算法流程图。如图3所示，所述步骤S2可以具体包括如下步骤：

步骤S24：对所述树执行选择、交叉和变异操作；

步骤S25：重复步骤S22到步骤S24，直到收敛；

在上述遗传算法的流程中，算则、交叉和变异是特征“进化”的关键步骤。在这里重点阐述交叉操作。特征二叉树的交叉是指随机选择一个子树，替换为另一棵特征树的随机子树。此处的另一棵特征树通常是剩余特征树中适应度最高的。

请参阅图4，图4所示为本发明实施例中的遗传算法中特征树的交叉操作示意图。如图4所示，特征树的变异操作是指其子树完全被另外一棵随机初始的树所代替。经过遗传算法不断进化最终可以筛选出优质的交互特征，便于下一步进行模型训练。

上述生成步骤完成后，就可以执行所述预测模型建立步骤S3，可以具体包括将所述新的训练集中的每一个样本对所述神经网络模型进行训练和验证，得到参数优化后的所述神经网络模型，并使用验证集进行验证，得到最终的预测网络模型。

具体地，请参阅图5，图5所示为本发明实施例中的伪标签学习框架示意图。如图5所示，所述预测模型建立步骤S3包括：

在本发明的实施例中，步骤S3还可以包括对所述基于遗传算法进行特征交互和伪标签学习的点击预测方法模型的营销活动预测模型进行模型评价指标处理和调优处理(步骤S37)；所述模型评价指标包括AUC值、Log loss值和相对信息增益RIG值。

所述模型评价指标包括AUC(Area Under Curve)值、Log loss值和相对信息增益RIG(Relative Information Gain)值。一般来说，AUC值越接近1，则模型分类效果越好。Logloss值越小，说明点击率预估的准确度越高；相对信息增益值越大模型效果越好。

例如，在对数据按照上述步骤处理并通过模型训练后，通过本地验证的AUC值，可以判断该模型的训练效果；若效果较差，一般需要对模型进行调优，对于深度学习算法，一般可从如下几方面进行优化：

①、增加批归一化(Batch Normalization)，解决数据的内部协变量偏移问题(Internal Covariate Shift)。

②、在网络中增加Dropout，即让部分神经元在训练过程中处于休眠状态。

③、调整学习率，一般会通过指数式衰减等策略调整训练过程中的学习率。

④、设置多种子训练取平均，降低训练过程中的过拟合风险。

⑤、增加L1或者L2正则化，对损失函数施加惩罚，以降低过拟合风险。

⑥、超参数的优化。

在对超参数的优化方法上，一般可以采用网格搜索(Grid Search)或者随机搜索(Random Search)；但上述两种方法对于计算资源的消耗较大，且效率不高。在本发明的实施例中，采用贝叶斯优化(Bayesian Optimization)策略。贝叶斯优化通过高斯过程回归计算前面n个数据点的后验概率分布，得到每一个超参数在每一个取值点的均值和方差；贝叶斯优化通过均衡均值和方差，根据超参数间的联合概率分布，最终选择一组较好的超参数。

上述所有处理步骤完成后，就可以通过将上述特征带入训练好的用户预测模型，能够提前在广告投放之前就筛选出意愿较高的部分用户，并对这些用户进行营销广告的精准投放。即本发明还可以还包括营销活动预测步骤S4，所述步骤S4具体包括：

步骤S41：获取拟对营销活动点击预测的用户群体和所述用户群体的用户原始信息，所述第一原始特征信息包括Y个特征；其中，所述第一原始特征信息包括用户ID、用户手机号码归属地、用户访问DPI、用户访问时间和/或用户是否点击特征；并且，在数据收集过程中，既包含了有标签数据，又包含无标签数据；

步骤S44：提供建立训练好的预测网络模型，依次使用所述第三原始特征信息，得到拟对营销活动点击预测的用户群体中所有所述用户的预测值；其中，所述用户的模型预测值为所述用户的点击意愿度；

结果表明，通过本发明的方法，可以有效利用WaveNet在小样本情况下生成新特征序列，同时模拟退火算法保证了新序列的有效性，显著提升了对用户点击行为预测的准确性。

以上所述的仅为本发明的优选实施例，所述实施例并非用以限制本发明的专利保护范围，因此凡是运用本发明的说明书及附图内容所作的等同结构变化，同理均应包含在本发明的保护范围内。

Claims

1.一种基于遗传算法进行特征交互和伪标签学习的点击预测方法，其特征在于，包括据预处理步骤S1、特征交互步骤S2和预测模型建立步骤S3；

所述数据预处理步骤S1包括如下步骤：

步骤S11：获取M个用户的原始信息，并从所述用户的原始信息提取第一原始特征信息，所述第一原始特征信息包括Y个特征；其中，所述第一原始特征信息包括用户ID、用户手机号码归属地、用户访问DPI、用户访问时间和/或用户是否点击特征；并且，在数据收集过程中，既包含了有标签数据，又包含无标签数据，所述M大于等于2；

步骤S12：对所述用户的原第一始特征信息进行异常检测与处理步骤；

有标签数据训练集的生成步骤S2包括：

所述预测模型建立步骤S3包括：

2.根据权利要求1所述的点击预测方法，其特征在于，所述步骤S2包括如下步骤：

步骤S24：对所述树执行选择、交叉和变异操作；

步骤S25：重复步骤S22到步骤S24，直到收敛；

3.根据权利要求2所述的点击预测方法，其特征在于，所述遗传算法的适应度函数为交叉熵损失。

4.根据权利要求1所述的点击预测方法，其特征在于，还包括营销活动预测步骤S4，其具体包括：

5.根据权利要求4所述的点击预测方法，其特征在于，所述模型预测步骤S4还包括：

6.根据权利要求1所述的点击预测方法，其特征在于，所述步骤S3中还包括步骤S37，对所述预测网络模型进行模型评价指标处理和调优处理；所述模型评价指标包括AUC值、Logloss值和相对信息增益RIG值。

7.根据权利要求6所述的点击预测方法，其特征在于，所述模型调优处理包括如下一种或几种：

增加批归一化，解决数据的内部协变量偏移问题；

对超参数的优化方法。