CN111340537A

CN111340537A - 一种广告点击率预估模型的建立方法

Info

Publication number: CN111340537A
Application number: CN202010106887.8A
Authority: CN
Inventors: 吴迪; 李佩颖; 王欣
Original assignee: Dalian University of Technology
Current assignee: Dalian University of Technology
Priority date: 2020-02-20
Filing date: 2020-02-20
Publication date: 2020-06-26
Anticipated expiration: 2040-02-20
Also published as: CN111340537B

Abstract

一种广告点击率预估模型的建立方法，属于计算机技术领域，包括四个阶段：数据预处理、中间结果保存、历史数据处理、当前时刻数据训练或测试。其中在数据处理阶段将数据按照时间排序按照用户标签分组，并按照一定的时间间隔分段。在模型训练阶段，将数据按照时间顺序依次输入到所选模型进行训练，并保存训练后的中间结果。在模型测试阶段，对于当前测试数据，按照用户标签和时间间隔向前检索所保留的中间结果，将这些中间结果取出，并加入注意力机制，得到一个新的向量，作为当前训练数据的输入中的一部分输入到模型中进行训练，最终的输出作为预测值。本发明适用于解决考虑特征组合的同时，兼顾用户的行为序列信息的点击率预估问题。

Description

一种广告点击率预估模型的建立方法

技术领域

本发明属于计算机技术领域，涉及一种广告点击率预估的模型建立方法。

背景技术

在互联网平台展示广告的过程中，平台需要根据广告的竞价和点击率选择如何将广告呈现给用户，广告收入占据互联网公司收入的很大一部分。

特征组合在广告点击率预估技术中占据重要地位，线性模型LR需要大量的特征工程，造成人力和时间的消耗，深宽度模型融合的方式一定程度上解决了高阶特征的组合问题。

用户行为序列作为一项重要的信息被越来越多的研究人员重视。如果能在考虑到特征组合的同时兼顾用户的行为序列信息，将会给点击率的预估准确度带来一定的提升。

本发明得到国家自然科学基金(NO.61370201)的赞助。

发明内容

针对现有技术存在的问题，本发明提供一种广告点击率模型的建立方法，目的是在考虑特征组合方法的同时，能够将用户的行为序列信息加入到广告点击率预估的任务中，还能考虑到用户的各个历史行为对当前行为影响程度。该方法通过保存训练模型的中间输出(本发明使用DeepFM模型的最后一层输出)，再根据当前训练数据的用户识别号按照一定的时间间隔检索，得到当前训练数据前的历史数据对应的模型的输出，之后将检索到的历史数据加入一层attention进行训练，将训练的最终结果作为当前训练数据的一部分输入到所使用的模型中进行训练，将训练的结果作为预测的最终结果。与直接使用历史数据dense编码后的特征作为用户行为序列信息作为当前数据输入的方法不同，本发明使用历史数据经过模型训练后的中间结果作为当前数据输入的一部分来学习用户行为序列信息。

为了达到上述目的，本发明采用的技术方案为：

一种广告点击率预估模型的建立方法，能够兼顾特征组合和用户行为序列在广告点击率预估中的应用，包括数据预处理、中间结果保存、历史数据处理、当前数据训练或测试。首先，将数据处理成按照用户标签分组，时间顺序排列，时间间隔分段的格式。其次，将数据按照时间先后模型依次输入到所用模型中，保存该模型最后一层的输出，并将此输出与对应训练数据的标签拼接得到中间结果。再次，根据当前训练数据的用户标签，向前检索一定时间段的历史训练数据，将历史数据训练过后的中间结果使用attention机制进行处理，得到一个新的向量，若历史数据为空，则将向量初始化为0。最后，将上述得到的向量作为当前时刻数据输入的一部分，输入到模型中，获得最终的训练或预测结果。具体包括以下步骤：

步骤一：数据预处理：对全部训练数据按照用户识别号分组并按照用户浏览数据的时间先后顺序排列，得到最终的训练数据，其中训练数据由多个特征组成，其中每个特征具有多个类别。

步骤二：中间结果保存：将训练数据按照时间顺序依次输入到训练所使用的广告点击率预估模型中，并保留每条训练数据对应模型最后一层的输出，作为训练数据经过模型训练后的中间结果，如图2所示。

步骤三：历史数据处理：根据当前训练数据的用户识别号和时间戳，向前检索一定时间间隔的历史训练数据对应的训练后的中间结果，所述时间间隔由模型参数指定。并将按照时间顺序排列的这些中间结果加入Attention机制(注意力机制)，对历史数据训练后的中间结果进行加权处理得到新向量，新向量为处理后的历史数据。若根据当前训练数据用户识别号和时间戳向前检索历史数据结果为空，则将的新的向量初始化为0向量，向量的长度与历史结果不为空的情况下向量长度相同。

步骤四：当前数据训练或测试：对当前训练数据进行独热编码，对独热编码后的数据进行稠密嵌入处理作为当前训练数据的输入，并将当前训练数据的输入与步骤三处理完成的历史数据进行拼接，再输入到所用广告点击率预估模型中，训练得到最终的预测结果。然后根据一系列的评价指标来评价模型的好坏。

进一步，所述步骤一中，数据预处理方法包括python中的pandas库。

进一步，所述步骤二中，广告点击率预估模型为DeepFM模型，DeepFM模型最后一层的输出由宽度模型部分FM的输出与深度模型部分DNN的输出拼接，拼接后得到新向量，新向量长度为DNN部分最后一层神经元个数加上FM部分输出结果之和。

进一步，所述步骤三中，所述的Attention机制为：加入attention机制的模型能够学习用户历史行为序列中的行为对用户当前行为的影响程度。例如用户在前一时间段内浏览过家具和衣服，现在给用户呈现的桌子广告将受用户之前浏览的家具行为影响较大，受用户浏览的衣服行为影响较小。具体为：由于步骤二中训练数据是按照时间顺序输入到模型中的，所以将所述训练数据中第i时刻的中间结果表示为h_i，假设当前时刻为j，则将当前训练数据的输入表示为s_j，其中s_j为由当前训练数据进行独热编码和稠密嵌入处理后的向量。attention机制计算方法如下：

其中，W_a为注意力机制的权重计算矩阵，通过模型的训练得到；T_x为历史数据的条数；a_ji为最后的权重；a'_ji为h_i经过注意力机制处理过后的隐层表示；c_j为通过加权平均得到的最终的历史数据，将作为下一步骤模型的输入的一部分。

进一步，所述步骤四中采用的评价指标分别为AUC、准确率(Accuracy)和对数损失函数(Logloss)。

本发明的有益效果为：与普通的特征组合模型相比，本方法加入了用户行为序列信息的学习，能够显著提高点击率预估的准确度。

附图说明

图1为本发明的模型建立整体步骤示意图。

图2为本发明中间结果表示方式说明图。

图3为本发明中步骤三和步骤四的综合说明。

具体实施方式

本发明提供一种新型的广告点击率预估模型的建立方法，具体步骤如图1所示，包括：

步骤一：数据预处理步骤：将实验数据处理为符合模型输入格式的数据，包括：

将训练数据先按照用户识别号分组；

将训练数据按照时间顺序排序；

步骤二：中间结果保存步骤：将数据输入到所述模型中并保留最后一层的输出；

所述模型包括DeepFM模型。DeepFM模型是由华为诺亚方舟实验室提出的一种深宽度预测模型，模型分为两个部分，包括宽度模型部分FM的深度模型DNN，其中FM的全称是Factorization machines，是一种因子分解机算法，它在传统的LR算法的基础上加入了特征之间的交互信息，公式为：

式中，x_i为训练数据第i个特征值，w₀为偏置项，w_i为一次项权重矩阵，v_i为特征的隐向量表示，其长度由模型参数指定，n为每条训练数据特征的数量，y为FM的输出。

FM模型的输出为长度为数据特征数量加上特征的隐向量长度再加1的和的向量。

DNN部分：DNN为一深度神经网络，我们选择网络的深度为两层，每层的神经元个数分别为128和64，在每层全连接层我们选用relu激活函数。DNN的输出向量长度为其最后一层神经元的个数，本发明中为64。

本发明将DeepFM模型中FM部分的输出最后一层的输出与DNN部分最后一层的输出拼接为一个新的向量。新向量的长度为FM模型的输出向量长度与DNN模型的输出向量长度之和，将上述生成的新向量作为中间结果保存，由图2可知，其中间结果实为DeepFM模型的最后一层输出。

步骤三：历史数据处理步骤：现根据用户识别号和时间戳检索历史数据，取得其所保存的中间结果，将中间结果使用attention机制进行处理。attention机制可以计算出不同历史数据对当前用户行为的影响程度，得到历史数据对当前时刻数据的输入向量。若对于当前时刻的用户，其之前没有历史数据，则将向量初始化为0，其长度与历史数据不为空时，经过attention机制处理的向量长度一致。

所述attention机制具体为：由于步骤二中训练数据是按照时间顺序输入到模型中的，所以将训练数据中第i时刻的中间结果表示为h_i，假设当前时刻为j，则将当前训练数据的输入表示为s_j，其中s_j为由当前训练数据进行独热编码和稠密嵌入处理后的向量，则：

式中W_a为注意力机制的权重计算矩阵，是通过模型的训练得到的，T_x为历史数据的条数，a_ji为最后的权重，通过加权平均得到的c_j为得到的最终的历史数据，将作为下一步骤模型的输入的一部分。

步骤四：当前数据训练或测试：当前训练数据由多个特征组成，其中每个特征具有多个类别。对当前训练数据首先进行独热编码，对独热编码后的数据进行稠密嵌入处理作为当前训练数据的输入，再将步骤三处理完成的历史数据与当前训练数据的输入进行拼接，再输入到DeepFM模型中去，训练得到最终的预测结果。再根据一系列的评价指标来评价模型的好坏，其中采用的评价指标分别为AUC、准确率(Accuracy)和对数损失函数(Logloss)。

与当前流行的几个点击率预估模型进行了比较：

所述AUC为广告点击率预估模型常用评价指标，其实际为ROC曲线下面的面积，ROC曲线的横坐标为False Positive Rate(FPR)，纵坐标为True Positive Rate(TPR)；其中FPR的计算方式为：

TPR的计算方式为：

式中FP代表将正样本判定为负样本的样本数量，TN代表将负样本判定为负样本的样本数量，TP代表将正样本判定为正样本的样本数量。

所述Accuracy的计算方式为：

式中，P为实际正样本总量，N为实际负样本总量。

所述Logloss的计算方式为：

式中，M为训练数据总量，y_i代表真实的标签值取值为0和1，p_i代表预测值，取值为0到1。

最终的结果如表1所示：

表1：本发明建立的模型与其他模型实验结果对比表

Model	AUC	Accuracy	Logloss
				FM	0.7429	0.7014	0.5698
Wide&Deep	0.7436	0.7011	0.5681
				DeepFM	0.7439	0.7017	0.5680
本发明	0.7444	0.7019	0.5677

从表1可知：本发明的模型在AUC、准确率(accuracy)和对数损失函数(Logloss)三个评价指标上的表现均优于其他模型。

以上所述实施例仅表达本发明的实施方式，但并不能因此而理解为对本发明专利的范围的限制，应当指出，对于本领域的技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些均属于本发明的保护范围。

Claims

1.一种广告点击率预估模型的建立方法，其特征在于，包括数据预处理、中间结果保存、历史数据处理、当前数据训练或测试，具体步骤如下：

步骤一：数据预处理：对全部训练数据按照用户识别号分组并按照用户浏览数据的时间先后顺序排列，得到最终的训练数据，其中训练数据由多个特征组成，其中每个特征具有多个类别；

步骤二：中间结果保存：将训练数据按照时间顺序依次输入到训练所使用的广告点击率预估模型中，并保留每条训练数据对应模型最后一层的输出，作为训练数据经过模型训练后的中间结果；

步骤三：历史数据处理：根据当前训练数据的用户识别号和时间戳，向前检索一定时间间隔的历史训练数据对应的训练后的中间结果，所述时间间隔由模型参数指定；并将按照时间顺序排列的这些中间结果加入注意力机制，对历史数据训练后的中间结果进行加权处理得到新向量，新向量为处理后的历史数据；若根据当前训练数据用户识别号和时间戳向前检索历史数据结果为空，则将新向量初始化为0向量，向量的长度与历史结果不为空的情况下向量长度相同；

加入注意力机制的模型能够学习用户历史行为序列中的行为对用户当前行为的影响程度；由于训练数据是按照时间顺序广告点击率预估模型中的，所以将训练数据中第i时刻的中间结果表示为h_i，假设当前时刻为j，则将当前训练数据的输入表示为s_j，其中s_j为由当前训练数据进行独热编码和稠密嵌入处理后的向量；所述的注意力机制计算方法如下：

其中，W_a为注意力机制的权重计算矩阵，通过模型的训练得到；T_x为历史数据的条数；a_ji为最后的权重；a'_ji为h_i经过注意力机制处理过后的隐层表示；c_j为通过加权平均得到的最终的历史数据，将作为下一步骤模型的输入的一部分；

为s_j的转置；

步骤四：当前数据训练或测试：对当前训练数据进行独热编码，对独热编码后的数据进行稠密嵌入处理作为当前训练数据的输入，并将当前训练数据的输入与步骤三处理完成的历史数据进行拼接，再输入到所用广告点击率预估模型中，训练得到最终的预测结果；最后根据评价指标评价模型的好坏。

2.根据权利要求1所述的一种广告点击率预估模型的建立方法，其特征在于，所述步骤二中，广告点击率预估模型为DeepFM模型，DeepFM模型最后一层的输出由宽度模型部分FM的输出与深度模型部分DNN的输出拼接，拼接后得到新向量，新向量长度为DNN部分最后一层神经元个数加上FM部分输出结果之和。

3.根据权利要求1所述的一种广告点击率预估模型的建立方法，其特征在于，所述步骤一中，数据预处理方法包括python中的pandas库。

4.根据权利要求1所述的一种广告点击率预估模型的建立方法，其特征在于，所述步骤三中，所述步骤四中采用的评价指标包括AUC、准确率和对数损失函数。