CN113344615A

CN113344615A - 一种基于gbdt和dl融合模型的营销活动预测方法

Info

Publication number: CN113344615A
Application number: CN202110582495.3A
Authority: CN
Inventors: 项亮; 方同星
Original assignee: Shanghai Shuming Artificial Intelligence Technology Co ltd
Current assignee: Shanghai Shuming Artificial Intelligence Technology Co ltd
Priority date: 2021-05-27
Filing date: 2021-05-27
Publication date: 2021-09-03
Anticipated expiration: 2041-05-27
Also published as: CN113344615B

Abstract

一种基于GBDT和DL融合模型的营销活动预测方法，包括数据预处理、基于间谍技术的半监督正和负样本划分、预测模型建立和营销活动预测等步骤；即首先将广告投放原始数据中的样本只区分为点击用户，即正样本和未标记用户；接着从正样本数据集中划分M％，放入未标记用户数据集；然后通过迭代的EM算法进行计算；本发明的训练器为LightGBM与DNN的融合模型，其将稠密数值特征输入LightGBM，通过树模型的***得到0/1的特征，与类别特征一同输入神经网络进行学习，得到最终的预测用户点击的二分类学习器。结果显示，该方法不仅有效利用梯度提升决策树在特征构造方面的优势，且兼具了深度学习在对于高维稀疏矩阵中高阶特征的学习能力，显著提升对用户点击行为预测的准确性。

Description

一种基于GBDT和DL融合模型的营销活动预测方法

技术领域

本发明涉及人工智能在互联网营销的技术领域，更具体地，涉及一种基于GBDT和DL融合模型的营销预测方法。

背景技术

点击率(Click-Through Rate，简称CTR)预估问题是互联网计算广告中的关键环节；对用户预估的准确性直接影响公司营销广告的收入。由于点击率是典型的二分类(即点击或不点击)的问题，因此，CTR经典算法为逻辑回归(Logistic Regression，简称LR)。

LR是广义的线性模型，通过Logit变换将输入值映射到[0,1]区间。LR 算法适合并行计算，但由于线性模型自身算法的局限性，对于数据的学习能力有限。尤其是对于CTR中输入数据一般是包括用户画像、用户不同行为特征在内形成的髙维稀疏矩阵，LR对于特征的表达能力有限。一般需要大量特征工程预先分析出有效的特征和特征组合，从而去间接增强LR的非线性学习能力。LR模型中的特征组合很关键，一般只能依靠人工经验，但不一定会带来效果的显著提升。因此，如何自动进行特征的组合、挖掘有效特征，缩短LR算法中的特征实验周期，是亟需解决的问题。

梯度提升决策树(Gradient Boost Decision Tree，简称GBDT)算法是常用的非线性算法。GBDT基于集成学习中的boosting思想，在降低迭代前后的残差的梯度方向建立决策树。GBDT这种通过迭代建立决策树的思想使其具有可以发现多种有区分性的特征以及特征组合的优势。因此，通过GBDT 建立的决策树可以作为其他模型的输入特征；省去了人工寻找特征和特征组合的步骤。值得注意的是，GBDT算法难以处理稀疏的类别特征，容易造成过拟合。

另外一方面，深度学习模型由于对输入数据进行多次的非线性映射和组合，对于原始数据特征具有较强的非线性表达能力。然而，深度学习模型也存在自身的许多不足，例如梯度消失/***，计算资源消耗过大等。

基于GBDT拓展的树模型算法，如XGBoost和LightGBM等，在对表格类型的数据上其表现往往要优于深度学习，并且在数据预处理、连续型特征处理和模型调参方面前者也更具优势。CTR问题中涉及到的在线真实数据的分布有可能随着时间的推移与训练数据的分布存在明显差异，面对这种情况，基于树模型的算法无法做到快速的适应，需要结合最近的数据频繁地进行重新训练，获得模型参数。而深度学习由于天然地具有可以利用小批量数据进行训练的特点，实现模型参数的在线更新，于是可以很好的弥补这方面问题。

另外，在实际针对用户点击率的分类问题中，实际得到的数据一般为已标记的正样本(即用户点击)和未标记的样本(即用户未点击)。在数据预处理中，一般天然地将未标记样本直接作为负样本，进而将数据输入学习器进行分类任务的训练。这样区分正和负样本的方式存在以下几个问题：

①、从用户点击率的角度来看，一般点击用户和未点击用户存在不均衡，有时候甚至是极度不均衡，即将未标记的样本全部视为负样本后，负样本的数量要远远大于正样本，这对于很多基于高斯先验分布的算法来说会使得训练效果较差。

②、从广告点击的角度来看，相比于正样本，负样本应定义为那些不愿意点击广告的用户。而实际未标记的样本中，却无法满足这一定义，例如用户可能直接略过该条广告推送。因此，直接将未标记的样本视为负样本显然是不合理的。

发明内容

本发明的目的在于克服现有技术存在的上述缺陷，提供一种基于知识蒸馏的营销活动预测方法，提供一种基于GBDT和DL融合模型的营销预测方法，其结合LightGBM算法和深度学习算法各自的优势，进行模型融合，并寻找一种启发式的对于负样本的探索算法，实现探索计算广告和推荐算法在线上部署环节实际应用的一个重要环节。

为实现上述目的，本发明的技术方案如下：

一种基于GBDT和DL融合模型的营销预测方法，其包括数据预处理步骤S1、基于间谍技术的半监督正和负样本划分步骤S2和预测模型建立步骤 S3；所述数据预处理步骤S1包括如下步骤：

步骤S11：获取N个用户的原始信息，并从每一个所述用户的原始信息提取原始特征信息；其中，所述原始特征信息包括用户ID、用户手机号码归属地、任务批次号、用户当日访问DPI、用户当日访问DPI频次、用户访问时间、用户访问时长特征和/或用户是否点击的数字标签；所述任务批次号表示一个日期时间段中用户的原始信息，所述用户当日访问DPI和用户当日访问DPI频次为每一个任务批次号为计量单位；用户当日访问DPI和用户手机号码归属地为类别特征，用户访问时间和用户访问时长为连续特征；

步骤S12：依次处理具有所述任务批次号的所有批次中的所述原始特征信息，包括：对所述用户的原始信息进行异常检测与处理步骤、对类别特征进行One-hot编码处理，利用RankGauss方法对于连续特征调整数据分布处理和/或降维步骤；采用主成分分析法对经过类别特征处理后的髙维特征进行降维处理；其中，所述One-hot编码处理包括：依次按所述任务批次号将所有不同的用户当日访问DPI和/或用户手机号码归属地为类别特征作为单独的特征展开，以及在所述任务批次号中将DPI访问频次也按照所有不同的用户当日访问DPI展开为DPI与用户当日访问DPI的频次的关系特征；

所述基于间谍技术的半监督正样本和负样本划分步骤S2包括：

S21：确定迭代次数A；依次将每一个任务批次号中的所有正样本数据放入P集，所有负样本数据集放入U集；

S22：从所述P集中随机选取M％的样本作为间谍样本S集放入U集；即将所述原始数据集变为P-S集和U+S集；其中，将上述预处理之后的所述原始数据集中具有用户点击数字标签的样本数据作为正样本，将上述预处理之后所述原始数据集中具有用户未点击数字标签的样本数据作为负样本；

S23：使用P-S集作为新正样本集，U+S集作为负样本集，用所述间谍技术的半监督正样本和负样本划分技术进行自训练提纯，并用对所有样本进行预测概率；

S24：将S集中样本预测概率分布的最小值作为阈值，U集中所有低于该阈值的样本则认为是可靠负样本，并归入可靠负样本RN集中；

S25：判断迭代次数是否满足A次，如果否，将U集减去可靠负样本 RN集中的负样本，得到新的U集，则执行步骤S22，如果是，则执行步骤 S26；

S26：将每一个任务批次号中的正样本P集和可靠负样本RN集两者组成最终集合；并最后一个任务批次号的最终集合作为验证集，其余任务批次号最终集合中的样本作为训练集；其中，最后一个任务批次号为当天最晚任务批次号获得的样本数据；

所述预测模型建立步骤S3用于形成基于GBDT+DNN融合模型的营销活动预测模型，其使用所述训练集对所述预测模型进行训练，并使用验证集进行验证，得到最终的预测模型，包括如下步骤：

步骤S31：提供初始化的GBDT+DNN融合模型；将所述训练集样本中不同特征分为一个个域；所述GBDT+DNN融合模型的网络框架包括输入层、嵌入层、多头输入层、连接层、残差层和输出层；

步骤S32：依次将所述训练集中的所有样本进行One-hot编码处理后的类别特征作为所述训练集中样本的稀疏类别特征，并与稠密数值特征区别输入到所述输入层；

步骤S33：对输入到所述嵌入层特征进行信息抽提和降维；其中，对于稀疏类别特征采用DNN模型处理；对于稠密数值特征，采用GBDT训练生成新的稀疏特征矩阵；

步骤S34：将所述多头输入层处理后的稀疏类别特征和稠密数值特征分别输入神经网络中，进行嵌入处理，得到两个特征矩阵；

步骤S35：在所述连接层将两个特征矩阵相连接，并通过多个全连接的网络训练；

步骤S36：将所述连接层输出的特征矩阵与GBDT训练所得的稀疏特征矩阵构造短路连接，并做平均处理；

步骤S37：接收所述残差层的输入，通过sigmoid函数从所述输出层输出对于点击的二分类问题预测的概率，得到所述用户是否点击数字标签的预测值，即所述预测网络模型的预测值；

步骤S38：通过所述的预测值，计算所述预测网络模型的预测值和真实值之间的损失值大小，根据损失值按照深度学习的梯度回传自动更新所述预测网络模型中所有涉及到的网络参数，并使用验证集进行验证，得到最终的预测网络模型。

进一步地，所述GBDT和DL融合模型为LightGBM+DL融合模型。

进一步地，所述的营销预测方法，其还包括营销活动预测步骤S4，所述步骤S4具体包括，对所述基于GBDT+DNN融合模型的营销活动预测模型进行模型评价指标处理和调优处理；所述模型评价指标包括AUC(Area Under Curve)值、Log loss值和相对信息增益RIG(Relative Information Gain)值。

进一步地，所述的营销预测方法，其还包括营销活动预测步骤S4，其包括：

步骤S41：获取拟产品营销的用户群体和所述用户群体的用户原始信息，并从所述用户原始信息提取原始特征信息；其中，所述原始特征信息包括用户ID、用户手机号码归属地、任务批次号、用户当日访问DPI、用户当日访问DPI频次、用户访问时间、用户访问时长特征和/或用户是否点击的数字标签；其中，所述任务批次号表示一个日期时间段中用户的原始信息，用户当日访问DPI和用户手机号码归属地为类别特征，用户访问时间和用户访问时长为连续特征；

步骤S42：依次处理具有所述任务批次号的所有批次中的所述原始特征信息，包括：对所述用户的原始信息进行异常检测与处理步骤、对类别特征进行One-hot编码处理，利用RankGauss方法对于连续特征调整数据分布处理和/或降维步骤；采用主成分分析法对经过类别特征处理后的髙维特征进行降维处理；其中，所述One-hot编码处理包括：依次按所述任务批次号将所有不同的用户当日访问DPI和/或用户手机号码归属地为类别特征作为单独的特征展开，以及在所述任务批次号中将DPI访问频次也按照所有不同的用户当日访问DPI展开为DPI与用户当日访问DPI的频次的关系特征；

步骤S43：提供建立好的所述GBDT+DNN融合模型，使用所述原始特征信息进行预测，得到每一个用户的预测值，从而形成N个所述用户的模型预测值集；其中，所述因子分解机在处理二分类问题时，将使用sigmoid函数将预测值的范围限定在0和1之间，即所述用户的模型预测值为所述用户的点击意愿度。

进一步地，所述模型预测步骤S4还包括：

步骤S44：根据实际投放需求，选择全部或部分所述用户的模型预测值集中点击意愿度为1的用户进行精准营销的任务。

进一步地，所述的营销预测方法，其特征在于，还包括步骤S47，对所述基于GBDT和DL融合模型的营销活动预测模型进行模型评价指标处理和调优处理；所述模型评价指标包括AUC值、Log loss值和相对信息增益RIG 值。

进一步地，所述模型调优处理包括如下一种或几种：

增加批归一化，解决数据的内部协变量偏移问题；

在网络中增加让部分神经元在训练过程中处于休眠状态的功能；

调整学习率，一般会通过指数式衰减等策略调整训练过程中的学习率；

设置多种子训练取平均，以提高由于数据方差较大引起的泛化能力不足的问题；

增加L1或者L2正则化，对损失函数施加惩罚，以降低过拟合风险；

对超参数的优化方法。

进一步地，所述M％为15％。

从上述技术方案可以看出，本发明的基于GBDT和DL融合模型的营销预测方法，首先将广告投放原始数据中的样本只区分为点击用户，即正样本 (positive)和未标记用户(unlabelled)；接着，从正样本数据集中划分15％，放入未标记用户数据集；然后通过迭代的EM算法进行计算。其中，训练器为LightGBM与神经网络的融合模型，将数值特征输入LightGBM，通过树模型的***得到0/1的特征，与经过独热编码的类别特征一同输入神经网络进行学习，得到最终的预测用户点击的二分类学习器。

因此，本发明的方法可以有效利用梯度提升决策树在特征构造方面的优势，并兼具了深度学习在对于高维稀疏矩阵中高阶特征的学习能力。该融合模型可以有效扩展深度学习对于计算广告和推荐***算法问题的应用，并显著提升对用户点击行为预测的准确性。

附图说明

图1所示为本发明实施例中基于GBDT和DL融合模型的营销预测方法的流程示意图

图2所示为本发明实施例中GBDT和DL融合模型的网络整体架构示意图

图3所示为本发明实施例中LightGBM网络训练框架的示意图

具体实施方式

下面结合附图，对本发明的具体实施方式作进一步的详细说明。

在下述的具体实施方式中，在详述本发明的实施方式时，为了清楚地表示本发明的结构以便于说明，特对附图中的结构不依照一般比例绘图，并进行了局部放大、变形及简化处理，因此，应避免以此作为对本发明的限定来加以理解。

请参阅图1，图1所示为本发明实施例中基于知识蒸馏的营销活动预测方法的流程示意图。如图1所示，基于知识蒸馏的营销活动预测方法，其包括数据预处理步骤S1、基于间谍技术的半监督正和负样本划分步骤S2、预测模型建立步骤S3和营销活动预测步骤S4。

在本发明的实施例中，数据预处理步骤非常重要，所述数据预处理步骤 S1包括如下步骤：

步骤S11：获取N个用户的原始信息，并从所述用户的原始信息提取原始特征信息；其中，所述原始特征信息包括用户ID(id)、用户手机号码归属地(location)、任务批次号(batch number)、用户当日访问DPI(dpi) 和用户当日访问DPI频次(dpi frequency)，用户访问时间、用户访问时长特征和/或用户是否点击等特征的数字标签。

所述任务批次号表示一个日期时间段中用户的原始信息，所述用户当日访问DPI和用户当日访问DPI频次为每一个任务批次号为计量单位；用户当日访问DPI和用户手机号码归属地为类别特征，用户访问时间和用户访问时长为连续特征。

请参阅下表1，表1为预处理之前的原始数据的表格描述，以同一批次的数据为例，预处理之前的原始数据形式如下表1所示：

表1

请注意此时，对于数据的标签，即用户是否点击，只区分为正样本(1) 和未标记样本(0)。

步骤S12：依次处理具有所述任务批次号的所有批次中的所述原始特征信息，包括：对所述用户的原始信息进行异常检测与处理步骤、对类别特征进行One-hot编码处理，利用RankGauss方法对于连续特征调整数据分布处理和/或降维步骤；采用主成分分析法对经过类别特征处理后的髙维特征进行降维处理。

其中，所述One-hot编码处理包括：依次按所述任务批次号将所有不同的用户当日访问DPI和/或用户手机号码归属地为类别特征作为单独的特征展开，以及在所述任务批次号中将DPI访问频次也按照所有不同的用户当日访问DPI展开为DPI与用户当日访问DPI的频次的关系特征。

在本发明的实施例中，上述的原始数据还需要经过异常检测与处理、类别特征处理、连续特征处理和降维处理等步骤。

异常检测与处理：在结合业务要求的过程中，对于原始数据中的缺失值、过大值等需要进行删除、填充等处理。在数据的采集过程中，由于一般用户量为百万级别，因此，采集过程中可能出现缺失情况；若缺失量较小，一般可直接进行剔除；若无法判断缺失数据是否会影响最终的模型训练效果，则一般可根据取平均数、众数、中位数等方法来填补缺失值。

并且在数据采集中，可能还会遇到过大值的问题，比如某用户在一天之内访问了DPI上万次，这种情况一般在实际建模过程中对于提升模型的泛化能力并无特别帮助，因此，也可以采用剔除的处理，或者采用填补的方法进行相应的处理。

进一步地，在本发明的实施例中，还需要对类别特征处理：首先对用户当日访问DPI、用户的手机号码归属地特征进行One-hot独热编码，将其展开。以用户访问DPI为例，若某个用户访问了某DPI，则记该DPI为1，其余DPI为0；因此若总共有10个不同的DPI，则最后会形成10列特征，并且每一列特征中只有一个对应用户为1，其余都为0。

此外，在本发明的实施例中，还需要对连续特征进行处理，即将不同维度的用户访问时间和用户访问时长数据映射到一个统一区间。具体地，对于用户访问时间和用户访问时长等特征，例如，可以利用RankGauss方法，调整数据分布。RankGauss与常规的标准化或归一化方法类似，其基本功能都是将不同维度的数据映射到一个统一区间，如一般映射到0-1或-1到1之间。这对于基于梯度的算法，如深度学习是非常重要的。RankGauss在此基础上，进一步利用了误差函数的倒数，使得经过标准化后的数据呈现近似高斯分布。

在本发明的实施例中，还可以采用主成分分析(PCA)对髙维特征进行降维处理。由上述对于类别特征的处理可知，一般经过独热编码后，会形成高维稀疏矩阵，对于神经网络的训练而言，这意味着在误差反向传播时，很多地方没有办法求导，这显然是不利于网络训练的。同时，高维度特征也增加了计算开销。因此有必要对于高维特征先进行降维处理。

PCA通过求解原始数据在某投影方向的方差最大，实现降维目的；在减少特征维度的同时，尽量减少原始特征包含信息的损失，以达到可以对所收集的数据进行全面分析的目的。

经过预处理后，数据形式为表2所示：

用户id	批次号	dpi 1	dpi 2	dpi 3	dpi 1频次	dpi 2频次	dpi 3频次	HN	SH	JS	访问时间	访问时长	是否点击
														199990	#1	1	0	0	5	0	0	1	0	0	0.25	0.12	1
199991	#1	0	1	0	0	10	0	0	1	0	0.30	0.23	0
														199992	#1	0	0	1	0	0	3	0	0	1	0.18	0.45	1
…	…	…	…	…	…	…	…	…	…	…	…	…	…

经过上述数据处理步骤后，就可以执行基于间谍技术的半监督正和负样本划分步骤S2来生成可靠的训练集和验证集的样本数据集。

基于间谍技术的半监督正样本和负样本划分步骤S2可以包括：

S25：判断迭代次数是否满足，如果否，将U集减去可靠负样本RN集中的负样本，得到新的U集，则执行步骤S22，如果是，则执行步骤S26；

S26：将每一个任务批次号中的正样本P集和可靠负样本RN集两者组成最终集合；并最后一个任务批次号的最终集合作为验证集，其余任务批次号最终集合中的样本作为训练集；其中，最后一个任务批次号为当天最晚任务批次号获得的样本数据。

较佳地，所述M％为15％。

需要说明的是，上述过程迭代多次(A次)进行。例如，每次得到RN 集后不再放回至U集中；而下一次重新从P集中随机选取15％的间谍样本，并重复训练过程直至选出大部分可靠负样本数据集。

请参阅图2，图2所示为本发明实施例中GBDT和DL融合模型的网络整体架构示意图。如图2所示，所述GBDT(Gradient Boosting Decision Tree，梯度提升决策树+DNN(DeepNeural Networks，深度神经网络)融合模型的网络框架包括输入层、嵌入层、多头输入层、连接层、残差层和输出层。在本发明的实施例中，可以采用LightGBM+DNN的融合模型。

LightGBM(Light Gradient Boosting Machine)是一个实现GBDT算法的框架，支持高效率的并行训练，并且具有更快的训练速度、更低的内存消耗、更好的准确率、支持分布式可以快速处理海量数据等优点。DL为深度学习模型，其包括DNN、卷积神经网络(CNN，Convolutional Neural Network，简称CNN)、循环神经网络(Recurrent Neural Network，RNN) 等。

在本发明的实施例中，输入层(Input layer)，用于输入基于间谍技术的半监督正样本和负样本划分步骤S2所生成的训练集和验证集的样本数据，依次将所述训练集中的所有样本进行One-hot编码处理后的类别特征作为所述训练集中样本的稀疏类别特征，并与稠密数值特征；其可以根据不同特征 (如DPI时长，性别，年龄分布等信息)将特征分为一个个域(field)，并对类别特征做独热编码(One-hot encoding)；

嵌入层(Embedding layer)，用于对从所述输入层输入的数据特征进行信息抽提和降维；在这里，对于稀疏类别特征(Sparse categorical feats) 采用因式分解机器+深度学习模型处理；对于稠密数值特征(Dense numerical feats)，采用LightGBM训练生成新的稀疏特征矩阵。

请参阅图3，图3所示为本发明实施例中LightGBM网络训练框架的示意图。在上述网络整体架构中，通过梯度提升决策树构造新特征，即用 LightGBM构造新特征。

采用LightGBM新特征构造的步骤如下：

首先对原始训练数据做训练，得到一个二分类器；与通常做法不同的是，当LightGBM训练好做预测的时候，输出的并不是最终的二分类概率值，而是要把模型中的每棵树计算得到的预测概率值所属的叶子结点位置记为1，这样，就构造出了新的训练数据。

如图3所示，在本发明的实施例中，以构造2棵树为例，左边这棵树共产生3个叶子节点(leaf node)，分别为：0,1,0；右边这棵树产生2个叶子节点，分别为0,1。其中，“0”代表预测为负样本，“1”代表预测为负样本。

上述结果最终得到[0 1 0 0 1]这样一个向量，当生成的树的数目变多时，自然得到一个稀疏的新特征向量。由于每一弱分类器有且只有一个叶子节点输出预测结果，所以在一个具有n个弱分类器、共计m个叶子结点的GBDT 中，每一条训练数据都会被转换为1*m维稀疏向量，且有n个元素为1，其余m-n个元素全为0。

多头输入层(Multi-head input layer)：将处理后的稀疏类别特征和稠密数值特征分别输入神经网络中，进行嵌入(embedding)处理。

连接层(Concatenate layer)：将上述多头输入层输出的两个特征矩阵相连接，并通过多个全连接(Fully-connected layer)的网络训练。

残差层(Residual layer)：将连接层所得特征矩阵与嵌入层中得到的 LightGBM所得的特征矩阵构造短路连接(short-cut connection)，并做平均处理(average)。

输出层(Output layer)：对于点击的二分类问题，通过sigmoid函数即可输出预测的概率，通过划定阈值即可表示为0/1二分类，并通过划定阈值形成为点击或不点击的二分类问题，即划分为正标签或负标签的输出结果。因此网络结构最后添加一个输出层神经元。

上述模型建立后，就可以执行所述预测模型建立步骤S3。在本发明的实施例中，所述预测模型是基于GBDT+DNN融合模型的整体框架的。请再参阅图1，所述预测模型建立步骤S3包括如下步骤：

上述模型训练完成后，还包括步骤S39，对所述基于GBDT+DNN融合模型的营销活动预测模型进行模型评价指标处理和调优处理；所述模型评价指标包括AUC(Area UnderCurve)值、Log loss值和相对信息增益RIG (Relative Information Gain)值。一般来说，AUC值越接近1，则模型分类效果越好。Log loss值越小，说明点击率预估的准确度越高；相对信息增益值越大模型效果越好。

例如，在对数据按照上述步骤处理并通过模型训练后，通过本地验证的 AUC值，可以判断该模型的训练效果；若效果较差，一般需要对模型进行调优，对于深度学习算法，一般可从如下几方面进行优化：

①、增加批归一化(Batch Normalization)，解决数据的内部协变量偏移问题(Internal Covariate Shift)。

②、在网络中增加Dropout，即让部分神经元在训练过程中处于休眠状态。

③、调整学习率，一般会通过指数式衰减等策略调整训练过程中的学习率。

④、设置多种子训练取平均，降低训练过程中的过拟合风险。

⑤、增加L1或者L2正则化，对损失函数施加惩罚，以降低过拟合风险。

⑥、超参数的优化。

在对超参数的优化方法上，一般可以采用网格搜索(Grid Search)或者随机搜索(Random Search)；但上述两种方法对于计算资源的消耗较大，且效率不高。在本发明的实施例中，采用贝叶斯优化(Bayesian Optimization) 策略。贝叶斯优化通过高斯过程回归计算前面n个数据点的后验概率分布，得到每一个超参数在每一个取值点的均值和方差；贝叶斯优化通过均衡均值和方差，根据超参数间的联合概率分布，最终选择一组较好的超参数。

上述所有处理步骤完成后，就可以通过将上述特征带入用户预测模型 S4，能够提前在广告投放之前就筛选出意愿较高的部分用户，并对这些用户进行营销广告的精准投放。

即本发明还可以还包括营销活动预测步骤S4，所述步骤S4具体包括：

步骤S43：提供建立好的所述GBDT+DNN融合模型，使用所述原始特征信息进行预测，得到每一个用户的预测值，从而形成N个所述用户的模型预测值集；其中，所述因子分解机在处理二分类问题时，将使用sigmoid函数将预测值的范围限定在0和1之间，即所述用户的模型预测值为所述用户的点击意愿度；

结果表明，通过本发明的方法，可以有效利用梯度提升决策树在特征构造方面的优势，并兼具了深度学习在对于高维稀疏矩阵中高阶特征的学习能力。该融合模型可以有效扩展深度学习对于计算广告和推荐***算法问题的应用，并显著提升对用户点击行为预测的准确性，从而节省大量的营销成本，实现利润率的增加。

以上所述的仅为本发明的优选实施例，所述实施例并非用以限制本发明的专利保护范围，因此凡是运用本发明的说明书及附图内容所作的等同结构变化，同理均应包含在本发明的保护范围内。

Claims

1.一种基于GBDT和DL融合模型的营销预测方法，其特征在于，包括数据预处理步骤S1、基于间谍技术的半监督正和负样本划分步骤S2和预测模型建立步骤S3；

所述数据预处理步骤S1包括如下步骤：

步骤S11：获取N个用户的原始信息，并从每一个所述用户的原始信息提取原始特征信息；其中，所述原始特征信息包括用户ID、用户手机号码归属地、任务批次号、用户当日访问DPI、用户当日访问DPI频次、用户访问时间、用户访问时长特征和/或用户是否点击的数字标签；所述任务批次号表示一个日期时间段中用户的原始信息，所述用户当日访问DPI和用户当日访问DPI频次为每一个任务批次号为计量单位；用户当日访问DPI和用户手机号码归属地为类别特征，用户访问时间和用户访问时长为连续特征；其中，所述N大于等于2；

S25：判断迭代次数是否满足A次，如果否，将U集减去可靠负样本RN集中的负样本，得到新的U集，则执行步骤S22，如果是，则执行步骤S26；

2.根据权利要求1所述的营销预测方法，其特征在于，所述GBDT和DL融合模型为LightGBM+DL融合模型。

3.根据权利要求1所述的营销预测方法，其特征在于，还包括营销活动预测步骤S4，其包括：

4.根据权利要求3所述的营销活动预测方法，其特征在于，所述模型预测步骤S4还包括：

5.根据权利要求1所述的营销预测方法，其特征在于，还包括步骤S47，对所述基于GBDT和DL融合模型的营销活动预测模型进行模型评价指标处理和调优处理；所述模型评价指标包括AUC值、Log loss值和相对信息增益RIG值。

6.根据权利要求5所述的营销预测方法，其特征在于，所述模型调优处理包括如下一种或几种：

增加批归一化，解决数据的内部协变量偏移问题；

对超参数的优化方法。

7.根据权利要求1所述的营销预测方法，其特征在于，所述M％为15％。