CN112581177B

CN112581177B - 结合自动特征工程及残差神经网络的营销预测方法

Info

Publication number: CN112581177B
Application number: CN202011548360.7A
Authority: CN
Inventors: 项亮
Original assignee: Shanghai Shuming Artificial Intelligence Technology Co ltd
Current assignee: Shanghai Shuming Artificial Intelligence Technology Co ltd
Priority date: 2020-12-24
Filing date: 2020-12-24
Publication date: 2023-11-07
Anticipated expiration: 2040-12-24
Also published as: CN112581177A

Abstract

一种结合自动特征工程及残差神经网络的营销预测方法，包括数据预处理步骤、数据集划分步骤、模型建立步骤、模型预测步骤以及模型的评价与优化步骤；与传统的利用运营商数据的数据营销领域所采用的协同过滤相比，本发明有效利用神经网络中嵌入层的特点对CTR问题中类别特征在哑编号后形成的高维稀疏特征进行有效的信息提取和降维；并通过短路连接构造残差网络，有效解决训练过程中的梯度消失问题，其能提供用户对广告点击意愿进行直接预测的途径，也适合处理在广告营销等推荐***中具有大规模稀疏特征的数据。

Description

结合自动特征工程及残差神经网络的营销预测方法

技术领域

本发明涉及人工智能在互联网营销的技术领域，更具体地，涉及一种结合自动特征工程及残差神经网络的营销预测方法。

背景技术

随着经济全球化和市场经济的迅速发展，在企业营销战略中广告营销活动发挥着越来越重要的作用，是企业营销组合中的一个重要组成部分。网络广告营销是借助网络营销能最大化的传播给受众人群，而且也更为精准，网络广告营销需要广告主借助网络平台投入广告给目标性客户。

大数据智能获客***，以运营商大数据库为中心，直接抓取符合自定义条件用户的联系方式，直接与客户进行沟通。

网络广告营销是推荐***算法在真实场景中落地的一个重要应用，属于点击率预测问题(click-through rate,CTR)。一般会基于用户画像、行为以及商品等构造特征，并应用协同过滤(collaborative filtering)算法计算用户或商品之间的相似度并排序，给出排名最靠前的k个商品。

另外，由于CTR是预测用户对于投放广告的点击与不点击的概率，因此，常用的线性模型如逻辑回归(logistic regression,LR)、因式分解机器(factorization machine,FM)由于可解释性好、算法实施简单，也被广泛应用于求解CTR问题。

然而，上述线性模型算法存在的主要问题是：

①、线性模型由于自身较为简单，表达能力有限，对于特征之间的交互以及高阶特征的构造存在较大局限。另外，由于CTR问题的特征矩阵一般为髙维稀疏矩阵，即特征经过独热编码后形成大量的0/1矩阵，这对算力的消耗也造成了一定压力。

因此，如何在降低特征维度，同时兼顾模型精度上，对特征工程及算法的设计提出更高要求。

②、本领域技术人员清楚，在深度学习中通过添加的嵌入层(embedding layer)可以对稀疏矩阵中的特征信息进行浓缩和抽提，并有效的实现了降维；然而在许多实践中发现，在误差反向传播过程中，对损失函数的求导很容易造成梯度消失的问题。

因此，如何利用嵌入式方法对CTR问题中的大型稀疏矩阵进行有效的处理，并有效减少网络训练过程中的梯度消失等问题，是深度学习应用于CTR问题应着力突破的关键技术。

发明内容

本发明的目的在于克服现有技术存在的上述缺陷，提供一种结合自动特征工程及残差神经网络的营销预测方法，其利用自设计的多头残差神经网络，先利用embedding等方法对特征信息进行提取和降维，实现自动化特征工程；接着对原始特征和经过预处理后的特征增加三通道的卷积层分别进行处理，最后将两者合并后并添加短路连接(shortcutconnection)构造残差网络，进行最终的训练。

为实现上述目的，本发明的技术方案如下：

一种结合自动特征工程及残差神经网络的营销预测方法，其包括数据预处理步骤S1、数据集划分步骤S2和模型建立步骤S3；

所述数据预处理步骤S1包括如下步骤：

步骤S11：获取用户的原始信息，并从所述用户的原始信息提取原始特征信息；其中，所述原始特征信息包括用户ID、用户手机号码归属地、任务批次号、用户当日访问DPI、用户访问DPI频次、用户访问时间和/或用户访问时长；其中，所述任务批次号表示一个日期时间段中用户的原始信息，所述用户访问DPI、用户访问DPI频次、用户访问时间和/或用户访问时长为每一个任务批次号为计量单位，所述用户当日访问DPI和用户的手机号码归属地特征为类别特征；

步骤S12：对类别特征进行处理；即对所述用户手机号码归属地特征和用户访问DPI进行One-hot编码处理；其中，所述One-hot编码处理包括：

依次按所述任务批次号将所有不同的用户访问DPI作为单独的特征展开，以及在所述任务批次号中将DPI访问频次也按照所有不同的用户访问DPI展开为DPI与用户访问DPI的频次的关系特征；

步骤S13：对连续特征进行处理；即将不同维度的访问时间和访问时长数据映射到一个统一区间；

步骤S14：采用主成分分析对髙维特征进行降维处理；

所述数据集划分步骤S2包括如下步骤：

步骤S21：预处理之后，将所述归属地特征和用户当日访问DPI是否点击的特征看作稀疏特征，将所述用户访问DPI频次定义为连续特征；

步骤S22：将需要预测的时间点t+1之前时间序列为1,2,…t-1时间点的历史数据，即作为训练数据；而对时间点t所对应的数据作为本地验证集；

所述模型建立步骤S3包括如下步骤：

步骤S31：使用嵌入层，将所述类别特征进行降维处理，从M1维为降到M2维；其中，M2小于M1；

步骤S32：将降到M2维的所述类别特征与N1维的所述连续特征相连，组成特征维度为M2+N1维的数据；

步骤S33：提供神经网络模型，通过所述神经网络模型训练将M2+N1维的数据进一步降到H维的数据；建立与已经过嵌入层的H维特征的短路连接得到具有两个输出层神经元的用户预测模型，并采用所述本地验证集中数据对所述用户预测模型验证，其中，H小于M2+N1。

进一步地，结合自动特征工程及残差神经网络的营销预测方法还包括步骤S34，对所述用户预测模型进行模型评价指标处理和调优处理。

进一步地，所述模型评价指标包括采用召回率、ROC、曲线和AUC值。

进一步地，所述模型评价指标为AUC值，若所述AUC值小于一预定的阈值，再对所述用户预测模型进行模型调优处理。

进一步地，所述模型调优处理包括如下一种或几种：

增加批归一化，解决数据的内部协变量偏移问题；

在网络中增加Dropout，即让部分神经元在训练过程中处于休眠状态；

调整学习率，一般会通过指数式衰减等策略调整训练过程中的学习率；

设置多种子训练取平均，以更好的提高由于数据方差较大引起的泛化能力不足的问题；

增加L1或者L2正则化，对损失函数施加惩罚，以降低过拟合风险；

对超参数的优化方法。

进一步地，所述对超参数的优化方法采用贝叶斯优化策略。

进一步地，对所述连续特征处理为利用RankGauss方法。

进一步地，在步骤S11后，还包括对所述用户的原始信息进行异常检测与处理步骤。

进一步地，结合自动特征工程及残差神经网络的营销预测方法还包括，根据所述用户预测模型，得到需要预测的时间点t+1时筛选出的用户进行精准营销的任务。

从上述技术方案可以看出，本发明的结合自动特征工程及残差神经网络的营销预测方法，可以有效利用神经网络中嵌入层的特点对CTR问题中类别特征在哑编号后形成的高维稀疏特征进行有效的信息提取和降维；并通过短路连接构造残差网络，有效解决训练过程中的梯度消失问题。也就是说，本发明的混合模型可以有效扩展深度学习对于CTR问题的应用，并显著提升对用户点击行为预测的准确性。

附图说明

图1所示为本发明实施例中结合自动特征工程及残差神经网络的营销预测方法的流程示意图

图2所示为本发明实施例中原始数据和经过RankGauss后得到的数据的示意图

图3所示为本发明实施例中用户预测模型的建立过程示意图

具体实施方式

下面结合附图，对本发明的具体实施方式作进一步的详细说明。

在下述的具体实施方式中，在详述本发明的实施方式时，为了清楚地表示本发明的结构以便于说明，特对附图中的结构不依照一般比例绘图，并进行了局部放大、变形及简化处理，因此，应避免以此作为对本发明的限定来加以理解。

需要说明的是，在以下本发明的具体实施方式中，该结合自动特征工程及残差神经网络的营销预测方法可以包括数据预处理步骤、数据集划分步骤、模型建立步骤和模型预测步骤；与传统的利用运营商数据的数据营销领域所采用的协同过滤相比，本发明的数据进行更为精准的数据营销，其能提供用户对广告点击意愿进行直接预测的途径，也适合处理具有大规模稀疏特征的数据。

请参阅图1，图1所示为本发明实施例中结合自动特征工程及残差神经网络的营销预测方法的流程示意图。如图1所示，结合自动特征工程及残差神经网络的营销预测方法，其包括数据预处理步骤S1、数据集划分步骤S2、模型建立步骤S3和模型预测步骤S4。

在本发明的实施例中，数据预处理步骤非常重要，所述数据预处理步骤S1包括如下步骤：

步骤S11：获取用户的原始信息，并从所述用户的原始信息提取原始特征信息；其中，所述原始特征信息包括用户ID、用户手机号码归属地、任务批次号、用户当日访问DPI、用户访问DPI频次、用户访问时间和/或用户访问时长；其中，所述任务批次号表示一个日期时间段中用户的原始信息，所述用户访问DPI、用户访问DPI频次、用户访问时间和/或用户访问时长为每一个任务批次号为计量单位，所述用户当日访问DPI和用户的手机号码归属地特征为类别特征。

请参阅下表1，表1为预处理之前的原始数据的表格描述，以同一批次的数据为例，预处理之前的原始数据形式如下表1所示：

在本发明的实施例中，上述的原始数据还需要经过异常检测与处理、类别特征处理、连续特征处理和降维处理等步骤。

异常检测与处理：在结合业务要求的过程中，对于原始数据中的缺失值、过大值等需要进行删除、填充等处理。在数据的采集过程中，由于一般用户量为百万级别，因此，采集过程中可能出现缺失情况；若缺失量较小，一般可直接进行剔除；若无法判断缺失数据是否会影响最终的模型训练效果，则一般可根据取平均数、众数、中位数等方法来填补缺失值。

另外，在数据采集中，可能还会遇到过大值的问题，比如某用户在一天之内访问了DPI上万次，这种情况一般在实际建模过程中对于提升模型的泛化能力并无特别帮助，因此，也可以采用剔除的处理，或者采用填补的方法进行相应的处理。

步骤S12：对类别特征进行处理；即对所述用户手机号码归属地特征和用户访问DPI进行One-hot编码处理；其中，所述One-hot编码处理包括依次按所述任务批次号将所有不同的用户访问DPI作为单独的特征展开，以及在所述任务批次号中将DPI访问频次也按照所有不同的用户访问DPI展开为DPI与用户访问DPI的频次的关系特征。

具体地，首先，可以对用户当日访问DPI、用户的手机号码归属地特征进行One-hot独热编码，将其展开。以用户访问DPI为例，若某个用户访问了某DPI，则记录该DPI为1，其余DPI为0；因此，若总共有10个不同的DPI，则最后会形成10列特征，并且，每一列特征中只有一个对应用户为1，其余都为0。

步骤S13：对连续特征进行处理；即将不同维度的访问时间和访问时长数据映射到一个统一区间。

具体地，对于访问时间和访问时长等特征，例如，可以利用RankGauss方法，调整数据分布。RankGauss与常规的标准化或归一化方法类似，其基本功能都是将不同维度的数据映射到一个统一区间，如一般映射到0-1或-1到1之间。这对于基于梯度的算法，如深度学习是非常重要的。

RankGauss在此基础上，进一步利用了误差函数的倒数，使得经过标准化后的数据呈现近似高斯分布。请参阅图2，图2所示为本发明实施例中原始数据和经过RankGauss后得到的数据的示意图。其中，图(a)为原始数据，图(b)为经过RankGauss后得到的数据。

步骤S14：采用主成分分析对髙维特征进行降维处理。

在本发明的实施例中，可以采用主成分分析(PCA)对髙维特征进行降维处理。由上述对于类别特征的处理可知，一般经过独热编码后，会形成高维稀疏矩阵，对于神经网络的训练而言，这意味着在误差反向传播时，很多地方没有办法求导，这显然是不利于网络训练的。同时，高维度特征，也增加了计算开销。因此有必要对于高维特征先进行降维处理。PCA通过求解原始数据在某投影方向的方差最大，实现降维目的；在减少特征维度的同时，尽量减少原始特征包含信息的损失，以达到可以对所收集的数据进行全面分析的目的。

经过预处理后，数据形式为下表2：

经过上述数据处理步骤后，就可以执行数据集划分步骤S2，所述数据集划分步骤S2包括如下步骤：

步骤S22：将需要预测的时间点t+1之前时间序列为1,2,…t-1时间点的历史数据，即作为训练数据；而对时间点t所对应的数据作为本地验证集。

在本发明的实施例中，可以将归属地特征和用户访问DPI特征是否点击的特征看作稀疏特征，将用户访问DPI频数定义为连续特征。由于CTR问题一般涉及明显的时间顺序，即1,2,L,t-1,t；需要预测的是下一个时间点t+1用户的行为。因此一般将其之前的历史数据，即时间序列为1,2,L,t-1作为训练数据(training data)；而对时间点t所对应的数据进行本地验证(validation data)。

接下来，执行模型建立步骤S3，请参阅图3，图3所示为本发明实施例中用户预测模型的建立过程示意图。

所述模型建立步骤S3包括如下步骤：

步骤S31：使用嵌入层，将所述类别特征进行降维处理，从M1维为降到M2维；其中，M2小于M1。

假设在原始特征中，以访问时间、访问时长等为主的连续特征共200维；以用户当日访问DPI、用户的手机号码归属地、DPI访问频次为主的类别特征通过哑编号(如最常见的one-hot独热编码)后，特征维度为2000维(M1)。通过使用嵌入层后，类别特征维度降至500维(M2)。

步骤S32：将降到M2(500)维的所述类别特征与N1维(200)的所述连续特征相连，组成特征维度为M2+N1维的数据。如图所示，与连续特征相连接，组成特征维度为700维的数据。

具体地，通过几层神经网络训练后，维度进一步降至500维，然后建立与上述已经经过嵌入层的500维特征的短路连接，并在此基础上进行后一步的训练；最后输出的预测用户“点击”与“不点击”这一二分类问题，因此网络结构最后添加两个输出层神经元。

上述模型训练完成后，所述的结合自动特征工程及残差神经网络的营销预测方法还包括步骤S34，对所述用户预测模型进行模型评价指标处理和调优处理。所述模型评价指标包括通常可以(recall)；ROC(receiver operating characteristic curve)曲线和AUC(Area Under Curve)值等。一般来说，AUC值越接近1，则模型分类效果越好。

例如，在对数据按照上述步骤处理并通过模型训练后，通过本地验证的AUC值，可以判断该模型的训练效果；若效果较差，一般需要对模型进行调优，对于深度学习算法，一般可从如下几方面进行优化：

①、增加批归一化(Batch Normalization)，解决数据的内部协变量偏移问题(Internal Covariate Shift)。

②、在网络中增加Dropout，即让部分神经元在训练过程中处于休眠状态。

③、调整学习率，一般会通过指数式衰减等策略调整训练过程中的学习率。

④、设置多种子训练取平均，降低训练过程中的过拟合风险。⑤、增加L1或者L2正则化，对损失函数施加惩罚，以降低过拟合风险。

在对超参数的优化方法上，一般可以采用网格搜索(Grid Search)或者随机搜索(Random Search)；但上述两种方法对于计算资源的消耗较大，且效率不高。在本发明的实施例中，采用贝叶斯优化(Bayesian Optimization)策略。贝叶斯优化通过高斯过程回归计算前面n个数据点的后验概率分布，得到每一个超参数在每一个取值点的均值和方差；贝叶斯优化通过均衡均值和方差，根据超参数间的联合概率分布，最终选择一组较好的超参数。

上述所有处理步骤完成后，就可以通过将上述特征带入用户预测模型，能够提前在广告投放之前就筛选出意愿较高的部分用户，并对这些用户进行营销广告的精准投放。

即本发明还可以包括模型预测步骤S4，根据所述用户预测模型，得到需要预测的时间点t+1时筛选出的用户进行精准营销的任务。

结果表明，本用户预测模型算法选出的高意愿用户的点击率是低意愿用户点击率的10倍左右。通过该用户预测模型，可以将大量的低意愿用户直接从投放目标中筛出，从而节省大量的营销成本，实现利润率的增加。

以上所述的仅为本发明的优选实施例，所述实施例并非用以限制本发明的专利保护范围，因此凡是运用本发明的说明书及附图内容所作的等同结构变化，同理均应包含在本发明的保护范围内。

Claims

1.一种结合自动特征工程及残差神经网络的营销预测方法，其特征在于，包括数据预处理步骤S1、数据集划分步骤S2、模型建立步骤S3和模型预测步骤S4；

所述数据预处理步骤S1包括如下步骤：

步骤S13：对连续特征进行处理；即将不同维度的访问时间和访问时长数据映射到一个统一区间，并调整数据分布近似为高斯分布；

步骤S14：采用主成分分析对髙维特征进行降维处理；

所述数据集划分步骤S2包括如下步骤：

所述模型建立步骤S3包括如下步骤：

步骤S33：提供神经网络模型，通过所述神经网络模型训练将M2+N1维的数据进一步降到H维的数据；建立与已经过嵌入层的H维特征的短路连接得到具有两个输出层神经元的用户预测模型，并采用所述本地验证集中数据对所述用户预测模型验证，其中，H小于M2+N1；

步骤S34，对所述用户预测模型进行模型评价指标处理和调优处理；

模型预测步骤S4，根据所述用户预测模型，得到需要预测的时间点t+1时筛选出的用户进行精准营销的任务。

2.根据权利要求1所述的结合自动特征工程及残差神经网络的营销预测方法，其特征在于，所述模型评价指标包括采用召回率、ROC曲线和AUC值。

3.根据权利要求2所述的结合自动特征工程及残差神经网络的营销预测方法，其特征在于，所述模型评价指标为AUC值，若所述AUC值小于一预定的阈值，再对所述用户预测模型进行模型调优处理。

4.根据权利要求1所述的结合自动特征工程及残差神经网络的营销预测方法，其特征在于，所述模型调优处理包括如下一种或几种：

增加批归一化，解决数据的内部协变量偏移问题；

在网络中增加让部分神经元在训练过程中处于休眠状态的功能；

调整学习率，一般会通过指数式衰减策略调整训练过程中的学习率；

对超参数的优化方法。

5.根据权利要求4所述的结合自动特征工程及残差神经网络的营销预测方法，其特征在于，所述对超参数的优化方法采用贝叶斯优化策略。

6.根据权利要求1所述的结合自动特征工程及残差神经网络的营销预测方法，其特征在于，对所述连续特征处理为利用RankGauss方法。

7.根据权利要求1所述的结合自动特征工程及残差神经网络的营销预测方法，其特征在于，在步骤S11后，还包括对所述用户的原始信息进行异常检测与处理步骤。