CN111429175A

CN111429175A - 稀疏特征场景下进行点击转化预测的方法

Info

Publication number: CN111429175A
Application number: CN202010190795.2A
Authority: CN
Inventors: 杨昕梅; 余楚楚; 杨承; 高原; 李绍荣
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2020-03-18
Filing date: 2020-03-18
Publication date: 2020-07-17
Anticipated expiration: 2040-03-18
Also published as: CN111429175B

Abstract

本发明公开了稀疏特征场景下进行点击转化预测的方法，涉及点击转化率预测领域。建立了基于神经网络的CTR模型，此CTR模型采用全新的神经网络结构，既可学习低阶特征的交互信息，同时能获得高阶特征的交互信息。除此之外，低阶特征的交互信息不限于线形关系的低阶特征，还包括非线性关系的低阶特征。为了防止网络层次过于深层带来梯度更新的问题，我们选择增加残差网络结构来优化我们的算法模型。

Description

稀疏特征场景下进行点击转化预测的方法

技术领域

本发明涉及点击转化率预测领域，特别涉及稀疏特征场景下进行点击转化预测的方法。

背景技术

点击转化率(简称CTR)，通常是指点击特定链接的用户与查看页面、电子邮件或广告的总用户数量之比。它通常用于衡量某个网站的在线广告活动是否成功，以及电子邮件活动的有效性，是互联网公司进行流量分配的核心依据之一。由此可以看出，点击转换率越高，代表广告投放活动越成功，同时也意味着产品越受欢迎，或是产品销量越好。

基于此背景下，CTR预测一直都是机器学习应用的热门领域，但也是热门的难题。因为，在电子商务领域，用户的行为特征通常是稀疏且庞大的，这给建模带来了困难和挑战。早期的人工特征工程与逻辑回归(简称LR)结合的建模方式，需要大量的人工处理，所需人才不仅需要对业务和行业有所了解，对于算法处理也有较高的经验要求，且模型的好坏往往取决于人工处理特诊的效果；基于此进一步地，梯度提升树(简称GBDT)与LR结合的建模方式，虽然也需要大量的人工处理，但由于其可解释性与GBDT对于假例权重的提升，使得预测计算准确度有了较大的提高；紧接着，随着神经网络的大热，通过神经网络对CTR建模的方法也逐渐兴起，通过神经网络学习用户行为特征的方法很大程度上提高了模型性能，对于有着庞大用户群体的互联网公司来说，提高1％的CTR，带来的实际收益都无比可观，更不要说基于神经网络的CTR模型，提高的CTR远远不止1％。

在稀疏、庞大的用户行为特征下，在现有的CTR模型的基础上，进一步地提高CTR模型的性能，同时避免深层神经网络出现梯度***、梯度消失的问题，优化深层神经网络模型，是本发明所要探索解决的问题。

发明内容

本发明的目的在于：提供了稀疏特征场景下进行点击转化预测的方法，在现有的CTR模型的基础上，进一步地提高CTR模型的性能，同时避免深层神经网络出现梯度***、梯度消失的问题，优化深层神经网络模型。

本发明采用的技术方案如下：

稀疏特征场景下进行点击转化预测的方法，包括以下步骤：

S1：建立CTR模型，所述CTR模型包括第一层级、第二层级、第三层级和第四层级；

S2：采集用户稀疏行为特征，并将此用户稀疏行为特征输入步骤S1中的CTR模型，进行矩阵化，得到用户稀疏特征矩阵；

S3：输入用户稀疏特征矩阵，通过CTR模型第一层级，将用户稀疏特征矩阵转化为密集嵌入矩阵；

S4：将密集嵌入矩阵输入第二层级，学习低阶交互特征，得到低阶特征之间的交互特征关系；

S5：将步骤S4中的输出作为包含残差网络的第三层级的输入，学习高阶交互特征，得到高阶特征之间的交互特征关系；

S6：对步骤S5中第三层级的残差网络进行优化处理；

S7：将步骤S6中的输出作为第四层级的输入，最终由第四层级输出点击转化预测值。

学习特征交互对于稀疏且庞大的用户行为特征来说是非常重要的，许多现有的CTR模型或多或少都考虑过学习特征交互的问题，其实验结果也能够体现出学习特征交互的重要性。特征交互包括低阶特征交互与高阶特征交互，本技术方案中，对于CTR模型，既考虑了低阶交互特征之间的交互特征关系，还考虑了高阶交互特征之间的交互特征关系，对比其它传统预测模型来说，能够显而易见的看到，同时考虑低阶交互特征与高阶交互特征，CTR模型的预测准确性能会显著提高。

同时，我们知道增加神经网络的宽度和深度可以很好的提高神经网络的性能，但是在深层神经网络训练过程中，CTR模型的性能反而下降，这是由于对于更深层次的网络，更容易出现梯度***，梯度消失的问题，这就带来了网络层次越深，模型性能越差的问题。本技术方案中，对比其它传统预测模型，将残差网络应用到CTR模型中，残差网络的特点是容易优化，并且能够通过增加相当的深度来提高准确率，其内部的残差块使用了跳跃连接，缓解了由于输入CTR模型的用户行为特征过于稀疏而在CTR模型训练过程中出现的梯度问题，从而避免影响CTR模型性能。残差网络的应用，让此CTR模型在网络层次相对较深的情况下，依旧可以去的良好的预测效果。

进一步地，所述CTR模型的第一层级为嵌入层，将输入CTR模型的用户稀疏特征矩阵进行筛选，通过线性变化，得到密集嵌入矩阵。

嵌入层，即embedding layer，主要作用是将用户稀疏的行为特征矩阵通过一些线性变换，转换成一个密集矩阵，即上述的密集嵌入矩阵。此密集嵌入矩阵采用了n个特征来表征所有的用户特征，在此密集嵌入矩阵中，表象上代表着密集嵌入矩阵与单个特征之间一一对应的关系，实际上还蕴含着大量特征与特征之间的内在关系，这样的关系是实用嵌入层学习来的参数进行表征的。故而，嵌入，就是一个从稀疏矩阵转换到密集矩阵的一一对应的过程。在此技术方案中，使用通过嵌入层得到的密集嵌入矩阵，作为第二层级的输入，即为低阶交互特征的学习与高阶交互特征的学习的基础。

进一步地，所述CTR模型的第二层级为因子分解层与二阶交互层。

传统的预测模型在考虑低阶特征之间的交互特征信息时，只考虑线性关系的低阶特征，因此预测结果具有很大的局限性。本技术方案中，除了对具有线性关系的低阶特征进行训练学习，还对具有非线性关系的低阶特征进行训练学习，因此，此CTR模型的预测结果，打破了传统预测模型的局限性。其中，此CTR模型中，第二层级整体是对低阶特征进行训练学习，而因子分解层采用了FM模型，用于学习低阶且具有线性关系的特征之间的交互特征信息，二阶交互层采用了Non-interaction layer模型，用于学习低阶且具有非线性关系的特征之间的交互特征信息。

其中，所述因子分解层采用FM模型，学习低阶且具有线性关系的特征之间的交互特征信息。

FM模型具有以下几点优势：首先，FM模型即使在数据非常稀疏的情况下，依旧能够进行可靠的预测；其次，FM模型是线性时间复杂度的，可以直接使用原问题进行求解；另外，FM模型是一个通用模型，其训练数据的特征取值可以是任意实数，而其它先进的分解模型对于输入的数据有严格的限制。

其中，所述二阶交互层采用Non-interaction layer模型，学习低阶且具有非线性关系的特征之间的交互特征信息。

Non-interaction layer模型能够将多个矩阵转换成一个矩阵，通过将输入的密集嵌入矩阵，任意两两组合，得到新的矩阵，并最终将新的矩阵进行相加，最终就得到了Bi-interaction的输出，这Bi-interaction输出只有一个举证。Non-interaction layer模型的优势在于，实现了对二阶组合特征的建模，但是又没有引入额外的开销，包括参数数量和计算复杂度。

进一步地，所述CTR模型的第三层级为隐藏层，所述隐藏层采用了MLP模型。

MLP即多层感知器，是一种前向结构的人工神经网络，映射一组输入向量到一组输出向量。MLP模型可以被看做是一个有向图，由多个节点层组成，每一层全连接到下一层。除了输入节点，每个节点都是一个带有非线性激活函数的处理单元。MLP模型是感知器的推广，克服了感知器不能对线性不可分数据进行识别的弱点。而本技术方案在隐藏层中，通过MLP模型来学习高阶特征之间的交互特征信息。

进一步地，所述CTR模型的第四层级为预测层，基于残差网络的应用，从优化后的CTR模型中输出点击转化预测值。

综上所述，由于采用了上述技术方案，本发明的有益效果是：

1.本发明在学习特征交互中，既考虑了低阶交互特征之间的交互特征关系，还考虑了高阶交互特征之间的交互特征关系，对比其它传统预测模型来说，能够显而易见的看到，同时考虑低阶交互特征与高阶交互特征，CTR模型的预测准确性能会显著提高。

2.本发明在考虑低阶特征之间的交互特征信息时，除了对具有线性关系的低阶特征进行训练学习，还对具有非线性关系的低阶特征进行训练学习，因此，此CTR模型的预测结果，打破了传统预测模型的局限性。其中，此CTR模型中，第二层级整体是对低阶特征进行训练学习，而因子分解层采用了FM模型，用于学习低阶且具有线性关系的特征之间的交互特征信息，二阶交互层采用了Non-interaction layer模型，用于学习低阶且具有非线性关系的特征之间的交互特征信息。

3.本发明将残差网络应用到CTR模型中，残差网络的特点是容易优化，并且能够通过增加相当的深度来提高准确率，其内部的残差块使用了跳跃连接，缓解了由于输入CTR模型的用户行为特征过于稀疏而在CTR模型训练过程中出现的梯度问题，从而避免影响CTR模型性能。残差网络的应用，让此CTR模型在网络层次相对较深的情况下，依旧可以去的良好的预测效果。

附图说明

本发明将通过例子并参照附图的方式说明，其中：

图1是本发明的CTR模型示意图；

图2是本技术方案的主要步骤流程图；

图3是Frappe-Train曲线图；

图4是Frappe-Val曲线图；

图5是MovieLens-Train曲线图；

图6是MovieLens-Val曲线图。

具体实施方式

本说明书中公开的所有特征，或公开的所有方法或过程中的步骤，除了互相排斥的特征和/或步骤以外，均可以以任何方式组合。

需要说明的是，术语“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

下面结合图1、图2对本发明作详细说明。

实施例1

稀疏特征场景下进行点击转化预测的方法，包括以下步骤：

S5：将步骤S4中的输出作为第三层级的输入，学习高阶交互特征，得到高阶特征之间的交互特征关系；

S6：将步骤S5中的输出作为第四层级的输入，最终由第四层级输出点击转化预测值。

实施例2

如图1所示，稀疏特征场景下进行点击转化预测的方法，包括以下步骤：

S4：将密集嵌入矩阵分别输入第二层级的因子分解层和二阶交互层，其中因子分解层用于学习低阶且具有线性关系的特征之间的交互特征信息，二阶交互层用于学习低阶且具有非线性关系的特征之间的交互特征信息。

传统的预测模型在考虑低阶特征之间的交互特征信息时，只考虑线性关系的低阶特征，因此预测结果具有很大的局限性。本技术方案中，除了对具有线性关系的低阶特征进行训练学习，还对具有非线性关系的低阶特征进行训练学习，因此，此CTR模型的预测结果，打破了传统预测模型的局限性。其中，此CTR模型中，第二层级整体是对低阶特征进行训练学习，而因子分解层用于学习低阶且具有线性关系的特征之间的交互特征信息，二阶交互层用于学习低阶且具有非线性关系的特征之间的交互特征信息。

实施例3

本实施例为实施例2的补充说明。

如图1所示，所述因子分解层采用FM模型，学习低阶且具有线性关系的特征之间的交互特征信息。

实施例4

本实施例为实施例2的补充说明。

如图1所示，所述二阶交互层采用Non-interaction layer模型，学习低阶且具有非线性关系的特征之间的交互特征信息。

实施例5

如图2所示，稀疏特征场景下进行点击转化预测的方法，包括以下步骤：

S6：对步骤S5中第三层级的残差网络进行优化处理；

我们知道增加神经网络的宽度和深度可以很好的提高神经网络的性能，但是在深层神经网络训练过程中，CTR模型的性能反而下降，这是由于对于更深层次的网络，更容易出现梯度***，梯度消失的问题，这就带来了网络层次越深，模型性能越差的问题。本技术方案中，对比其它传统预测模型，将残差网络应用到CTR模型中，残差网络的特点是容易优化，并且能够通过增加相当的深度来提高准确率，其内部的残差块使用了跳跃连接，缓解了由于输入CTR模型的用户行为特征过于稀疏而在CTR模型训练过程中出现的梯度问题，从而避免影响CTR模型性能。残差网络的应用，让此CTR模型在网络层次相对较深的情况下，依旧可以去的良好的预测效果。

实施例6

本实施例为实施例1、实施例2、实施例5的补充说明。

如图1所示，所述CTR模型的第一层级为嵌入层，将输入CTR模型的用户稀疏特征矩阵进行筛选，通过线性变化，得到密集嵌入矩阵。

实施例7

本实施例为实施例1、实施例2、实施例5的补充说明。

如图1所示，所述CTR模型的第三层级为隐藏层，所述隐藏层采用了MLP模型。

实施例6

本实施例为实施例1-7的补充说明。

采用以下对比模型：FM模型、NFM模型、AFM模型；

采用以下数据集：Frappe数据集和MovieLens数据集。

得到的训练结果如表1所示：

表1

本申请文件中的模型在Frappe数据集下与其他模型对比的loss曲线如图3、图4所示。

本申请文件中的模型在MovieLens数据集下与其他模型对比的loss曲线如图5、图6所示。

结果说明：从训练结果我们可以看出，本申请的模型通过结合线性特征之间的交互关系和非线性特征之间的交互关系的信息，提高了模型性能，训练结果优于用于对比的主流模型。FM模型是常见的用来处理推荐***问题的线性模型，但是在庞大稀疏的数据集下，与神经网络相结合的CTR模型取得了更好的效果。Wide&Deep是谷歌提出了CTR模型，结合wide和deep模块获取用户信息，NFM是在Wide&Deep基础上增加FM模块发展起来的。这些模型在某些领域的确解决的一些问题，但是他们并没有考虑非线性特征之间的交互信息，对于应用于稀疏特征的场景有着局限性。很明显，在我们训练的两个数据集上，我们提出的DNFM模型都优于以上模型，这进一步的体现了我们非线性特征之间交互信息的重要性以及我们模型的优势和实用性。

以上所述，仅为本发明的优选实施方式，但本发明的保护范围并不局限于此，任何熟悉本领域的技术人员在本发明所揭露的技术范围内，可不经过创造性劳动想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求书所限定的保护范围为准。

Claims

1.稀疏特征场景下进行点击转化预测的方法，其特征在于：包括以下步骤：

S6：对步骤S5中第三层级的残差网络进行优化处理；

2.根据权利要求1所述的稀疏特征场景下进行点击转化预测的方法，其特征在于：所述CTR模型的第一层级为嵌入层，将输入CTR模型的用户稀疏特征矩阵进行筛选，通过线性变化，得到密集嵌入矩阵。

3.根据权利要求1所述的稀疏特征场景下进行点击转化预测的方法，其特征在于：所述CTR模型的第二层级为因子分解层与二阶交互层。

4.根据权利要求3所述的稀疏特征场景下进行点击转化预测的方法，其特征在于：所述因子分解层采用FM模型，学习低阶且具有线性关系的特征之间的交互特征信息。

5.根据权利要求3所述的稀疏特征场景下进行点击转化预测的方法，其特征在于：所述二阶交互层采用Non-interaction layer模型，学习低阶且具有非线性关系的特征之间的交互特征信息。

6.根据权利要求1所述的稀疏特征场景下进行点击转化预测的方法，其特征在于：所述CTR模型的第三层级为隐藏层，所述隐藏层采用了MLP模型。

7.根据权利要求1所述的稀疏特征场景下进行点击转化预测的方法，其特征在于：所述CTR模型的第四层级为预测层，基于残差网络的应用，从优化后的CTR模型中输出点击转化预测值。