CN109544241A

CN109544241A - 一种点击率预估模型的构建方法、点击率预估方法和装置

Info

Publication number: CN109544241A
Application number: CN201811428618.2A
Authority: CN
Inventors: 陈晓爽; 郑胤; 马文晔; 黄俊洲
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2018-11-27
Filing date: 2018-11-27
Publication date: 2019-03-29
Anticipated expiration: 2038-11-27
Also published as: CN109544241B

Abstract

本申请实施例公开了一种点击率预估模型的构建方法、点击率预估方法和装置，点击率预估模型设置了N个不同的候选维数，从所述N个不同的候选维数中确定一个候选维数作为目标特征对应的最大维数，将所述N个不同的候选维数中小于所述最大维数的i个候选维数确定为所述特征对应的投影维数；目标特征具有一个对应的最大维数和i个对应的投影维数，可以为目标特征分别训练i+1个特征向量。由此，最大维数对应的特征向量可以合理的体现目标特征在训练样本中的信息，不会出现对过拟合或者欠拟合的问题。而且，不会影响目标特征与最大维数小于自己的其他特征进行特征向量的内积计算，从而达到较高的预估精度。

Description

一种点击率预估模型的构建方法、点击率预估方法和装置

技术领域

本申请涉及数据处理领域，特别是涉及一种点击率预估模型的构建方法、点击率预估方法和相关装置。

背景技术

点击率是客户端上某一内容(新闻、广告或产品)被用户点击的次数与被显示次数之比，也就是该内容被用户点击的概率。在在线应用中，对于用户对某个内容的点击率进行预测，从而决定是否向用户推荐该类信息，是提高用户体验的重要方式。对点击率进行预估的模型称为点击率预估模型，该类模型根据用户和内容的相关信息等，通过点击率预估模型可以预估出用户在某一背景下点击某个内容的概率。

分解机(Factorization Machine,FM)模型是一种常用的点击率预估模型。在FM模型中，将用户、内容等分别作为不同的特征，每个特征分配有对应的特征向量，在预估用户对某内容的点击率时，可以通过FM模型计算用户和内容各自对应的特征向量间的内积，以得到预估结果。

计算特征向量间内积的前提是计算所涉及的特征向量的维数相同。因此，在传统方式中，为了便于计算特征向量间的内积，在FM模型中，为不同的特征所分配的特征向量必须具有相同的维数。

然而，在真实的数据中，大量的特征都只有较少的非零样本，只有少量的特征由较多的非零样本。以内容具体是电影为例，少量的热门电影的观看次数(即样本数)很多，而大量的冷门电影的观看次数都会相对较少。非零样本较少的特征采用维数较少的特征向量即可体现该特征的内容，非零样本较多的特征需要采用维数较多的特征向量才可体现该特征的内容。

但是传统方式中的FM模型等点击率预估模型为了能够计算不同特征的特征向量间的内积，针对不同特征所分配的特征向量维数均相同，由此导致某些特征对应的特征向量过拟合，例如冷门电影的特征向量，某些特征向量欠拟合，例如热门电影的特征向量，从而影响点击率的预估精度。

发明内容

为了解决上述技术问题，本申请提供了一种点击率预估模型的构建方法、点击率预估方法和装置，构建的点击率预估模型不会出现对过拟合或者欠拟合的问题，且不会影响目标特征与最大维数小于自己的其他特征进行特征向量的内积计算，从而达到较高的预估精度。

本申请实施例公开了如下技术方案：

第一方面，本申请实施例提供了一种点击率预估模型的构建方法，所述点击率预估模型设置了N个不同的候选维数，N为大于等于2的自然数；所述候选维数用于标识特征向量的维数，所述方法包括：

从所述N个不同的候选维数中确定一个候选维数作为目标特征对应的最大维数；

将所述N个不同的候选维数中小于所述最大维数的i个候选维数确定为所述目标特征对应的投影维数；i为小于N、大于等于1的自然数；

根据所述目标特征对应的训练样本，为所述目标特征分别训练i+1个不同维数的特征向量，所述i+1个不同维数的特征向量中，任意一个特征向量的维数为所述目标特征对应的所述最大维数和所述投影维数中的一个。

第二方面，本申请实施例提供了一种点击率预估方法，所述方法包括：

获取包括多个特征的待估计样本，所述多个特征至少包括第一特征和第二特征；

根据所述多个特征分别对应的特征向量，通过点击率预估模型计算所述待估计样本的点击率预估值；所述点击率预估模型设置了N个不同的候选维数，所述候选维数用于标识特征向量的维数；若所述点击率预估模型中一个特征对应的最大维数大于所述N个不同的候选维数中的i个，这个特征具有i+1个不同维数的特征向量；所述多个特征中任意一个特征对应的最大维数用于标识这个特征所对应特征向量的最大维数；N为大于等于2的自然数，i为小于N、大于等于1的自然数；

针对第一特征和第二特征，所述通过所述点击率预估模型计算所述待估计样本的点击率预估值，包括：

若确定点击率预估模型中所述第一特征对应的第一最大维数与所述第二特征对应的第二最大维数不同，将所述第一最大维数和所述第二最大维数中最小的作为待计算维数；

计算所述第一特征的具有所述待计算维数的特征向量和所述第二特征的具有所述待计算维数的特征向量的内积。

第三方面，本申请实施例提供了一种点击率预估模型的构建装置，所述点击率预估模型设置了N个不同的候选维数，所述候选维数用于标识特征向量的维数，所述装置包括第一确定单元、第二确定单元、训练单元：

所述第一确定单元，用于从所述N个不同的候选维数中确定一个候选维数作为目标特征对应的最大维数；

所述第二确定单元，用于将所述N个不同的候选维数中小于所述最大维数的i个候选维数确定为所述目标特征对应的投影维数；i为小于N、大于等于1的自然数；

所述训练单元，用于根据所述目标特征对应的训练样本，为所述目标特征分别训练i+1个不同维数的特征向量，所述i+1个不同维数的特征向量中，任意一个特征向量的维数为所述目标特征对应的所述最大维数和所述投影维数中的一个。

第四方面，本申请实施例提供了一种点击率预估装置，所述装置包括获取单元和计算单元：

所述获取单元，用于获取包括多个特征的待估计样本，所述多个特征至少包括第一特征和第二特征；

所述计算单元，用于根据所述多个特征分别对应的特征向量，通过点击率预估模型计算所述待估计样本的点击率预估值；所述点击率预估模型设置了N个不同的候选维数，所述候选维数用于标识特征向量的维数；若所述点击率预估模型中一个特征对应的最大维数大于所述N个不同的候选维数中的i个，这个特征具有i+1个不同维数的特征向量；所述多个特征中任意一个特征对应的最大维数用于标识这个特征所对应特征向量的最大维数；N为大于等于2的自然数，i为小于N、大于等于1的自然数；

针对第一特征和第二特征，所述计算单元还用于：

第五方面，本申请实施例提供了一种用于点击率预估模型的构建设备，所述设备包括处理器以及存储器：

所述存储器用于存储程序代码，并将所述程序代码传输给所述处理器；

所述处理器用于根据所述程序代码中的指令执行以上第一方面所述的点击率预估模型的构建方法。

第六方面，本申请实施例提供了一种用于点击率预估的设备，所述设备包括处理器以及存储器：

所述处理器用于根据所述程序代码中的指令执行以上第二方面所述的点击率预估方法。

第七方面，本申请实施例提供了一种计算机可读存储介质，所述计算机可读存储介质用于存储程序代码，所述程序代码用于执行以上第一方面中所述的点击率预估模型的构建方法，或者，用于执行以上第二方面中所述的点击率预估方法。

由上述技术方案可以看出，点击率预估模型设置了N个不同的候选维数，每一个候选维数用于标识点击率预估模型中特征向量的维数。在确定目标特征的特征向量时，从所述N个不同的候选维数中确定一个候选维数作为目标特征对应的最大维数，将所述N个不同的候选维数中小于所述最大维数的i个候选维数确定为所述特征对应的投影维数；目标特征具有一个对应的最大维数和i个对应的投影维数，在根据目标特征对应的训练样本为目标特征寻特征向量时，可以分别训练i+1个特征向量，不同特征向量对应的维数为所述最大维数和所述投影维数中的一个。由此，最大维数对应的特征向量可以合理的体现目标特征在训练样本中的信息，不会出现对过拟合或者欠拟合的问题。而且，为了能够实现不同最大维数的特征间特征向量内积，点击率预估模型为目标特征训练出i+1个不同维数的特征向量，从而不会影响目标特征与最大维数小于自己的其他特征进行特征向量的内积计算，并达到较高的预估精度。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种点击率预估***的结构示意图；

图2为本申请实施例提供的一种点击率预估模型中特征向量与FM模型中特征向量的对比示意图；

图3为本申请实施例提供的一种点击率预估模型的构建方法的方法流程图；

图4为本申请实施例提供的一种点击率预估方法的方法流程图；

图5为本申请实施例提供的一种计算点击率预估值的原理示意图；

图6为本申请实施例提供的一种点击率预估模型的构建装置的装置结构图；

图7为本申请实施例提供的一种点击率预估装置的装置结构图；

图8为本申请实施例提供的一种用于点击率预估模型的构建设备的结构示意图；

图9为本申请实施例提供的一种用于点击率预估模型的构建设备的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

由于预估点击率的计算中需要计算特征向量间的内积，而计算内积的特征向量的维数必须相同，故传统的点击率预估模型在为特征训练对应的特征向量时，不论特征对应的非零样本数量多寡，均训练相同维数的特征向量。由此导致某些特征对应的特征向量过拟合，例如冷门电影的特征向量，某些特征向量欠拟合，例如热门电影的特征向量，从而影响点击率的预估精度。

为此，本申请实施例提供了一种点击率预估模型的构建方法和对应的点击率预估方法，应用于点击率预估***中。

图1所示的为一种点击率预估***的结构示意图。

其中，特征提取模块用于从用户的用户数据、内容平台的内容数据、背景数据库的背景数据中提取特征，并将特征发送给训练数据库。训练数据库将特征和获取的用户实际点击数据发送给模型训练模块，由模型训练模块根据获取的特征和用户实际点击数据训练各特征对应的特征向量，从而构建出点击率预估模型。训练数据库可以将构建得到的点击率预估模型发送给预估模块，由预估模块根据点击率预估模型对携带特征的样本进行点击率预估。预估模块将得到的点击率预估结果发送给重排序模块，由重排序模块整理、排序点击率预估结果并将得到的推荐结果返回给用户。

本申请实施例提供的点击率预估模型的构建方法主要通过图1的模型训练模块实施，对应的点击率预估方法主要通过图1的预估模块实施。

本申请实施例所提供的点击率预估模型属于一种可变参数的分解机模型(又称：集成分解机模型，Ensemble Factorization Machine,EFM)。在该点击率预估模型中，设置了N个不同的候选维数，N为大于等于2的自然数，每一个候选维数用于标识点击率预估模型中特征向量的维数。即在该点击率预估模型中，所有的特征向量的维数均是多个候选维数中的一个。

针对需要训练特征向量的目标特征，可以为目标特征从该N个不同的候选维数中确定一个作为目标特征对应的最大维数，目标特征的具有最大维数的特征向量可以合理的体现目标特征在训练样本中的信息，不会出现对过拟合或者欠拟合的问题，从而达到较高的预估精度。

而且，为了能够实现不同最大维数的特征间特征向量内积，点击率预估模型为目标特征训练出i+1个不同维数的特征向量，，i为小于N、大于等于1的自然数，由此不会影响目标特征与最大维数小于自己的其他特征进行特征向量的内积计算，具有较高的实用性。

例如图2所示的是本申请实施例的点击率预估模型(EFM模型)与传统点击率预估模型中特征向量的区别，图2中a部分示出了EFM模型中特征向量的情况，b部分示出了传统高维FM模型中特征向量的情况，c部分示出了传统低维FM模型中特征向量的情况。

图2示出的例子中，针对四个特征：用户“张三”、用户“李四”、电影“A”和电影“B”。假设在包括了两个用户“张三”和“李四”对电影“A”、电影“B”的评分的训练数据库中，有张三的大量评分数据，而李四的评分数据相对较少。同时，电影A的观看人数比电影B少。

在本申请实施例提供的点击率预估模型(EFM模型)中设置有两个候选维数，分别为D1＝4,D2＝8。由于特征“张三”对应的训练样本较多，特征“李四”对应的训练样本较少，由于特征“B”对应的训练样本较多，特征“A”对应的训练样本较少，可以为特征“张三”分配D2作为其最大维数，为特征“李四”分配D2作为其最大维数，同时为特征“B”分配D2作为其最大维数，为特征“A”分配D2作为其最大维数。由于特征“张三”和特征“B”对应的最大维数D2比候选维数中的D1要大，故可以将D1作为特征“张三”和特征“B”对应的投影维数。

由此，可以对特征“张三”和特征“B”分别训练，各自得到两个特征训练，维数分别为D1和D2，例如图2的a部分所示。对“李四”和特征“A”分别训练，各自得到一个特征训练，维数为D1，例如图2的a部分中所示。

特征“张三”和特征“B”具有可以合理的体现目标特征在训练样本中信息的特征向量，维数为D2，特征“李四”和特征“A”具有可以合理的体现目标特征在训练样本中信息的特征向量，维数为D1。这四个特征均不会出现对过拟合或者欠拟合的问题。

同时，为了能够计算特征“张三”和特征“B”与特征“李四”和特征“A”的特征向量间的内积，特征“张三”和特征“B”还具有维数为D1的特征向量，例如若需要预估张三点击电影A的点击率时，可以通过计算特征“张三”的维数为D1的特征向量与特征“A”的维数为D1的特征向量间的内积实现。若需要预估张三对电影B的点击率，其特征向量的维数均为D2，其交互项即为两者的内积。若需要预估李四对电影A的点击率，两者的特征向量的维数均为D1，其交互项同样为两者的内积。

在上述例子中，传统点击率预估模型会出现过拟合的问题，例如统一设置的维数较高的高维FM模型(如图2的b部分所示)。该点击率预估模型对所有特征都分配8维的特征向量，这样，由于李四和电影A的非零样本数量不足，因此他们的交互会出现过拟合，从而影响预估精度。

传统点击率预估模型也会出现欠拟合的问题，例如统一设置的维数较低的低维FM模型(如图2的c部分所示)。该点击率预估模型所有特征都分配4维的特征向量，这样，由于张三和电影B的非零样本数较多，而特征向量维度数量数量(反映了模型的表现力)较小，他们之间的内积会出现欠拟合，同样会影响预估精度。

在真实的数据中，大量的特征都只有较少的非零样本，只有少量的特征由较多的非零样本。例如，如果某些特征是电影的id，那么，少量的热门电影的观看次数(即样本数量)很多(类似于电影B)，而大量的电影的观看次数都会相对较少(类似于电影A)。故相比传统点击率预估模型，本申请实施例提供的EFM模型为大量的特征分配了低维向量，只为少量的特征分配了高维向量及其低维投影。在这种情况下，EFM模型的参数数量会略多于图2中c部分所示低维FM模型中为所有特征分配低维向量的情况，同时明显少于图2的b部分所示高维FM模型中为所有特征分配高维向量的情况。因此，EFM模型可以在提升预测效果的同时，保持合理的模型规模。

接下来将首先针对本申请实施例中的点击率预估模型的构建进行介绍。

图3为本申请实施例提供的一种点击率预估模型的构建方法的方法流程图。在所构建的点击率预估模型中，设置了N个不同的候选维数，所述候选维数用于标识特征向量的维数。

候选维数属于超参数，其大小可以根据点击率预估模型实际对应的场景、问题确定。可以预先指定候选维数，假定不同数量的候选维数共有m个，记为D₁,D₂，…,D_m，维数大小为D₁<D₂<…<D_m。后续计算中，每个特征对应的特征向量的维数只能在这些候选维数中选择，即在该点击率预估模型中，所有的特征向量的维数均是多个候选维数中的一个。

所述方法包括：

S301：从所述N个不同的候选维数中确定一个候选维数作为目标特征对应的最大维数。

目标特征可以是通过图1所示的特征提取模块提取的一个特征，目标特征可以是标识用户的相关信息的特征，也可以是标识被点击对象例如内容数据的相关信息的特征。确定出的最大维数用于标识目标特征的一个特征向量的维数，这个特征向量为可以合理体现目标特征在训练样本中信息的特征向量。

在一种可能的实现方式中，本步骤可以通过下列方式实施：

根据目标特征所对应的非零训练样本的数量，从所述N个不同的候选维数中确定一个候选维数作为所述目标特征对应的最大维数。

例如候选维数包括5维，10维这两个，当目标特征的非零训练样本较多时，可以选取10维作为目标特征的最大维数，当目标特征的非零训练样本较少时，可以选取5维作为目标特征的最大维数。

本申请实施例提供一种具体的确定最大维数的可选方式，如公式(1)所示：

k_i＝argmin_k|logn_i-log D_k| (1)

其中，n_i为包括该特征的非零训练样本的数量，D_k为任意一个候选维数。

公式(1)表示：特征的维数应该尽量接近该特征所对应的非零训练样本的数量。

S302：将所述N个不同的候选维数中小于所述最大维数的i个候选维数确定为所述目标特征对应的投影维数。

由于目标特征在S301中所确定的最大维数并不是候选维数中最小的，故可以将N个不同的候选维数中小于所述最大维数的i个候选维数确定为所述目标特征对应的投影维数，i为大于等于1的整数。

例如候选维数包括5维、10维、50维和100维这四个，当目标特征对应的最大维数为50维，则候选维数中的5维和10维被确定为目标特征的投影维数。

S303：根据所述目标特征对应的训练样本，为所述目标特征分别训练i+1个不同维数的特征向量，所述i+1个不同维数的特征向量中，任意一个特征向量的维数为所述目标特征对应的所述最大维数和所述投影维数中的一个。

若目标特征的最大维数为前述例子中D₁,D₂，…,D_m中的任意一个D_k，则为其分配一个维数为D_k的特征向量v^(k)，称为该特征的特征向量。同时，对于所有的D₁-D_k-1中的任意一个D_n，为该目标特征分配维数为D_n的特征向量v⁽ⁿ⁾，称为特征向量v^(k)的维数为D_n的投影。之所以称为投影，是因为这些特征向量是由v^(k)决定的。在本申请实施例中，不论是v^(k)还是v⁽ⁿ⁾均为目标特征对应的特征向量。这里的所有特征向量的具体数值均为参数，可以在S303的训练过程中由训练算法计算得到。

例如当目标特征对应的最大维数为50维，候选维数中的5维和10维被确定为目标特征的投影维数，相当于i＝2，通过对目标特征对应的训练样本进行训练，可以为目标特征训练得到1+2＝3个特征向量，包括一个50维的特征向量，一个10维的特征向量和一个5维的特征向量。

可见，点击率预估模型设置了N个不同的候选维数，每一个候选维数用于标识点击率预估模型中特征向量的维数。在确定目标特征的特征向量时，从所述N个不同的候选维数中确定一个候选维数作为目标特征对应的最大维数，将所述N个不同的候选维数中小于所述最大维数的i个候选维数确定为所述特征对应的投影维数；由此，目标特征具有一个对应的最大维数和i个对应的投影维数，在根据目标特征对应的训练样本为目标特征寻特征向量时，可以分别训练i+1个特征向量，不同特征向量对应的维数为所述最大维数和所述投影维数中的一个。由此，最大维数对应的特征向量可以合理的体现目标特征在训练样本中的信息，不会出现对过拟合或者欠拟合的问题。而且，为了能够实现不同最大维数的特征间特征向量内积，点击率预估模型为目标特征训练出i+1个不同维数的特征向量，由此不会影响目标特征与最大维数小于自己的其他特征进行特征向量的内积计算，从而达到较高的预估精度。

由于与传统模型中一个特征对应一个特征向量不同，在本申请实施例中，目标特征具有至少两个不同维数的特征向量，故为了能够训练出准确的、可以合理的体现目标特征在训练样本中信息的特征向量，本申请实施例采用了分别训练的方式，即目标特征的N个不同维数的特征向量是分别训练得到的。

接下来介绍目标特征的任意一个特征向量是如何训练的，针对S303，本申请实施例提供了两种计算方式。

第一种计算方式：

第一特征向量为所述i+1个不同维数的特征向量中的任意一个，也就是说，第一特征向量可以是具有最大维数的特征向量，也可以是具有投影维数的特征向量。

针对所述第一特征向量，在一种可能的实现方式中，S303可以包括：

S3031：从所述目标特征对应的训练样本中获取目标训练样本和所述目标训练样本对应的点击率。

目标特征对应的训练样本是包括有目标特征的非零训练样本，目标训练样本可以是一个，也可以是多个。由于是训练样本，具有已知的针对该特征的点击率。

S3032：根据所述目标特征对应的第一特征向量，通过所述点击率预估模型计算所述目标训练样本的第一点击率预估值。

在第一次训练时，可以对第一特征向量中所以未知参数进行随机初始化。在之后的第i次训练中，第一特征向量采用的是第i-1次训练所修正的参数。

S3033：根据通过所述点击率和所述第一点击率预估值确定的损失函数计算对所述第一特征向量的梯度。

在一种可能的实现方式中，损失函数可以根据公式(2)计算得到：

其中，为损失函数，第一特征向量的维数为D_k，为第一点击率预估值，y为点击率。

在一种可能的实现方式中，损失函数对所述第一特征向量的梯度可以根据公式(3)计算得到：

其中，第一特征向量的维数为D_k，为目标训练样本中第i个特征的维数为D_k的特征向量(其中包括第一特征向量)的第f个分量，所包括特征的特征向量，为目标训练样本中第j个特征的维数大于等于D_k的特征向量的第f个分量，x_i为第i个特征的值，x_j为第j个特征的值，为学习率。

该式的含义为：应朝着更准确地预估y的方向更新。

S3034：根据对所述第一特征向量的梯度修正所述第一特征向量的参数。

修正参数后，可以重新执行S3031以继续进行下一次训练，直至算法收敛或者达到预先设定的最大训练次数。

第二种计算方式：

针对目标特征所对应的特征向量中不是最大维数的特征向量，本申请实施例提供了一种通过高维特征向量作为低维特征向量训练依据的方式。

第二特征向量为所述i+1个不同维数的特征向量中的任意一个、且所述第二特征向量的维数不是所述最大维数。若所述第一特征向量的维数为所述最大维数，在一种可能的实现方式中，针对第二特征向量，S303可以包括：

S3035：从所述目标特征对应的训练样本中获取目标训练样本。

S3036：根据所述目标特征对应的第二特征向量，通过所述点击率预估模型计算所述目标训练样本的第二点击率预估值。

S3037：根据通过所述第一点击率预估值和所述第二点击率预估值确定的损失函数计算对所述第二特征向量的梯度。

其中，特别的，在本式中，为维数为D_k+1的特征向量的点击率预估值，可以为第一点击率预估值，为第二点击率预估值。

该式的含义为：应朝着更准确地预估的方向更新。该式更能体现被称为更高维向量的低维投影的原因含义，这是因为是用更高维的特征向量计算得到的，因此在该计算方法下，可以认为由更高维的特征向量决定。

S3038：根据对所述第二特征向量的梯度修正所述第二特征向量的参数。

修正参数后，可以重新执行S3035以继续进行下一次训练，直至算法收敛或者达到预先设定的最大训练次数。

值得注意的是，这两种计算方式本质上并无不同。这是因为，高维向量预测得到的通常比低维投影预测到的更接近真实的y，因此让逼近y和让逼近具有相似的效果。

本申请实施例提供的训练方式上和现有技术的一个不同点在于：本申请实施例在计算的梯度时，选择的是让更接近y或者可以理解为“不超过维数为D_k的特征向量所得到的点击率预估值”。这实际上反映了不同维数的特征向量在训练时具有不同的目标。

在现有技术中，对所有的参数都采用相同的训练目标。而本申请实施例的训练方法的优势在于，假设本申请实施例的点击率预估模型中存在2维特征和4维特征。利用本申请实施例的训练方法，4维特征会在4维空间做出预测，尽可能逼近真实值，而2维特征会在2维空间尽可能逼近真实值(也可以逼近4维特征的预测值)。因此，每个维度数量的特征向量都表达了该维度数量下最重要的信息。这和我们所希望的“2维特征是4维特征在2维空间的投影”是一致的，因为投影的含义即为保留和2维空间相匹配的部分，除去不匹配的部分。

作为对比，如果直接采用如现有技术中的统一的训练目标，则2维特征和4维特征会“合作”给出预测值，它们给出的信息有可能是6维空间的特征信息，而不是我们所希望的维和4维空间的特征，这种情况下很容易出现过拟合(即训练误差小，但测试误差变大)。

接下来将接着针对本申请实施例中的点击率预估进行介绍。

图4为本申请实施例提供的一种点击率预估方法的方法流程图，所述方法包括：

S401：获取包括多个特征的待估计样本。

该待估计样本属于所包括特征的非零样本，待估计样本所包括的多个特征中至少包括一个与用户相关的特征，以及与被点击对象相关的特征，通过点击率预估模型对带估计样本的计算，可以预估出具有前述相关特征的用户点击前述具有相关特征的被点击对象的概率。

所述多个特征至少包括第一特征和第二特征，其中，第一特征可以是与用户相关的特征，也可以是与被点击对象相关的特征，第二特征可以是与用户相关的特征，也可以是与被点击对象相关的特征。

S402：根据所述多个特征分别对应的特征向量，通过点击率预估模型计算所述待估计样本的点击率预估值。

在本步骤中，所使用的点击率预估模型为本申请实施例提供的点击率预估模型，例如图3所对应实施例中说明的，所述点击率预估模型设置了N个不同的候选维数，所述候选维数用于标识特征向量的维数。若所述点击率预估模型中一个特征对应的最大维数大于所述N个不同的候选维数中的i个，这个特征具有i+1个不同维数的特征向量；所述多个特征中任意一个特征对应的最大维数用于标识这个特征所对应特征向量的最大维数。

也就是说，在该点击率预估模型中，一个特征可以具有N个不同维度数量的特征向量，故在通过该点击率预估模型预估待估计样本的点击率预估值时，会采用与传统模型不同的计算方式。

由于计算点击率预估值的过程中包括确定不同特征的特征向量间内积的计算，而本申请实施例提供的点击率预估模型中包括不同维数的特征向量，故如何计算特征向量间内积属于本申请的核心改进点之一，为了能够清楚说明本申请实施例提供的计算点击率预估值的特定方式，接下来以所述多个特征中的第一特征和第二特征为例，说明如何计算第一特征的特征向量与第二特征的特征向量的内积。针对第一特征和第二特征，S402可以具体包括：

S4021：若确定点击率预估模型中所述第一特征对应的第一最大维数与所述第二特征对应的第二最大维数不同，将所述第一最大维数和所述第二最大维数中最小的作为待计算维数。

也就是说，当第一特征对应的第一最大维数和第二特征对应的第二最大维数不同时，为了能够计算第一特征的特征向量与第二特征的特征向量间的内积，需要从第一特征的特征向量与第二特征的特征向量中选择出维数相同的特征向量作为计算内积的依据。

例如候选维数为三个，分别为5维、10维和50维，第一最大维数为50维，第二最大维数为10维。故第一特征具有三个特征向量，分别为一个50维的特征向量，一个10维的特征向量和一个5维的特征向量，第二特征具有两个特征向量，分别为一个10维的特征向量和一个5维的特征向量。第一特征和第二特征的特征向量中具有相同维数且最大的就是10维，即第一最大维数和第二最大维数中最小的那个维数。从而可以将10维作为计算第一特征和第二特征的特征向量间内积的特征向量的维数，即待计算维数。

S4022：计算所述第一特征的具有所述待计算维数的特征向量和所述第二特征的具有所述待计算维数的特征向量的内积。

在确定出待计算维数后，可以实施第一特征的特征向量和所述第二特征的特征向量内积的计算，计算时所采用的特征向量为第一特征的具有所述待计算维数的特征向量和第二特征的具有所述待计算维数的特征向量。

可以通过公式(5)和(6)实施S4022的计算。

其中，b为常数项，w_i为第i个参数值，K_ij是第i个特征和第j个特征的交互项，其计算方法为公式(6)：

其中，k_i为第i个特征的最大维数(例如第一最大维数)，k_j为第j个特征的最大维数(例如第二最大维数)。

公式(5)和(6)表达的含义为，假设，k₁＝8维，k₂＝4维，那么第1个特征的特征向量是8维向量，第2个特征的特征向量是4维向量。这两个特征向量的交互项，等于8维向量的“4维投影”和该4维向量的内积。

可见，本申请实施例通过提出了一种为不同特征分配不同的特征向量长度的方法，该方法为每个特征的高维特征向量分配低维的投影向量，从而解决了不同维数长度的特征向量之间的交互项计算的问题。

需要注意的是，在实际计算中，假设一共有n个输入特征，根据公式(5)和(6)，我们需要针对输入特征的两两组合，计算K_ijx_ix_j。而n个特征的两两组合共有n(n+1)/2个。在实际应用中，特征的数量通常在百万到亿的量级，即使考虑稀疏性，实际需要计算的数量也非常庞大。在此情况下，n(n+1)/2个次计算的计算量相对不少，为此，本申请实施例提供了一种高效的计算方式，降低***对计算性能的需求。

若根据所述多个特征分别对应的最大维数，确定用于计算所述待估计样本的点击率预估值的特征向量的维数为维数依次递增的D₁至D_m，k为1至m中的任意一个，在一种可能的实现方式中，S402可以通过以下方式实施：

根据D_k-1对应的预估值加上所述多个特征所对应特征向量中维数为D_k的特征向量的内积再减去目标特征所对应特征向量中维数为D_k-1的特征向量的内积计算D_k对应的预估值；所述目标特征为所述多个特征中具有维数为D_k的特征向量的特征。

将D_m对应的预估值作为所述待估计样本的点击率预估值。

具体计算可以通过公式(7)和(8)实施：

其中，为第i个特征的维数为D₁的特征向量与第j个特征的维数为D₁的特征向量间的内积，为第i个特征的维数为D_k的特征向量与第j个特征的维数为D_k的特征向量间的内积。

公式(7)和(8)是根据公式(5)和(6)等价变形得到。

由此计算得到的即可作为待估计样本的点击率预估值

经过对公式(5)和(6)等价变形得到公式(7)和(8)之后，公式(7)和(8)中含有三个交互项，分别是这三个交互项和公式(5)和(6)的主要区别在于：公式(5)和(6)中对于不同的i和j，特征向量的维数是不同的，但是公式(7)和(8)中的每个交互项，不同的i和j对应的特征向量的维数都是相同的。

该条件使可以对公式(7)和(8)中的上述三个交互项进行进一步的等价变换，得到公式(9)：

根据该式，即可高效地计算EFM的预测值。以公式(9)的第一个式子为例，该式的右侧共有两项，分别为和而对于每一项来说，我们都只需要做n次乘法和加法运算，即可得到结果。当n较大时，n次运算远小于前述公式(5)和(6)的n(n+1)/2次运算，当然，公式(7)和(8)中有多项需要用公式(9)的方法计算，因此最终的运算次数是n的整数倍。即便如此，由于这个倍数通常较低(大约为10到20)，公式(7)、(8)和(9)给出的算法与直接用公式(5)和(6)计算相比，仍会有显著的提升。

接下来，通过举例说明公式(7)和(8)的原理，如图5所示。图5中的待估计样本所包括的4个特征记作特征1、2、3、4，EFM模型中设置的候选维数包括两个，分别为高维维数和低维维数，其中特征1和特征4的最大维数大于特征2和特征3的最大维数。在本例中，若希望计算这4个特征两两之间的交互，再进行求和，以预估出待估计样本的点击率预估值。

在计算过程中，首先只考虑低维向量，计算它们之间的两两交互，并相加得到在中，特征1和特征4之间的交互采用的是两个低维投影之间的内积，只要将其替换为原本的两个高维向量之间的内积即可。在这个替换中，首先减去特征1和特征4的低维投影的内积，再加上高维向量的内积，这样就得到了也就是最终的点击率预估值。

基于前述实施例提供的一种点击率预估模型的构建方法，本实施例提供一种点击率预估模型的构建装置600，参见图6，所述装置600包括第一确定单元601、第二确定单元602、训练单元603。针对图6所对应实施例中各个单元的说明可以参见图3所对应实施例中的相关描述，这里不再一一赘述。

所述第一确定单元601，用于从所述N个不同的候选维数中确定一个候选维数作为目标特征对应的最大维数；

所述第二确定单元602，用于将所述N个不同的候选维数中小于所述最大维数的i个候选维数确定为所述目标特征对应的投影维数；

所述训练单元603，用于根据所述目标特征对应的训练样本，为所述目标特征分别训练i+1个不同维数的特征向量，所述i+1个不同维数的特征向量中，任意一个特征向量的维数为所述目标特征对应的所述最大维数和所述投影维数中的一个。

在一种可能的实现方式中，第一特征向量为所述i+1个不同维数的特征向量中的任意一个，针对所述第一特征向量，所述训练单元603还用于：

从所述目标特征对应的训练样本中获取目标训练样本和所述目标训练样本对应的点击率；

根据所述目标特征对应的第一特征向量，通过所述点击率预估模型计算所述目标训练样本的第一点击率预估值；

根据通过所述点击率和所述第一点击率预估值确定的损失函数计算对所述第一特征向量的梯度；

根据对所述第一特征向量的梯度修正所述第一特征向量的参数。

在一种可能的实现方式中，第二特征向量为所述i+1个不同维数的特征向量中的任意一个、且所述第二特征向量的维数不是所述最大维数；若所述第一特征向量的维数为所述最大维数，针对所述第二特征向量，所述训练单元603还用于：

从所述目标特征对应的训练样本中获取目标训练样本；

根据所述目标特征对应的第二特征向量，通过所述点击率预估模型计算所述目标训练样本的第二点击率预估值；

根据通过所述第一点击率预估值和所述第二点击率预估值确定的损失函数计算对所述第二特征向量的梯度；

根据对所述第二特征向量的梯度修正所述第二特征向量的参数。

在一种可能的实现方式中，所述第一确定单元601还用于根据目标特征所对应的非零训练样本的数量，从所述N个不同的候选维数中确定一个候选维数作为所述目标特征对应的最大维数。

基于前述实施例提供的一种点击率预估方法，本实施例提供一种点击率预估装置700，参见图7，所述装置700包括获取单元701和计算单元702。针对图7所对应实施例中各个单元的说明可以参见图4所对应实施例中的相关描述，这里不再一一赘述。

所述获取单元701，用于获取包括多个特征的待估计样本，所述多个特征至少包括第一特征和第二特征；

所述计算单元702，用于根据所述多个特征分别对应的特征向量，通过点击率预估模型计算所述待估计样本的点击率预估值；所述点击率预估模型设置了N个不同的候选维数，所述候选维数用于标识特征向量的维数；若所述点击率预估模型中一个特征对应的最大维数大于所述N个不同的候选维数中的i个，这个特征具有i+1个不同维数的特征向量；所述多个特征中任意一个特征对应的最大维数用于标识这个特征所对应特征向量的最大维数；

针对第一特征和第二特征，所述计算单元702还用于：

在一种可能的实现方式中，若根据所述多个特征分别对应的最大维数，确定用于计算所述待估计样本的点击率预估值的特征向量的维数为维数依次递增的D₁至D_m，k为1至m中的任意一个，所述计算单元702还用于：

根据D_k-1对应的预估值加上所述多个特征所对应特征向量中维数为D_k的特征向量的内积再减去目标特征所对应特征向量中维数为D_k-1的特征向量的内积计算D_k对应的预估值；所述目标特征为所述多个特征中具有维数为D_k的特征向量的特征；

将D_m对应的预估值作为所述待估计样本的点击率预估值。

本申请实施例还提供了一种用于点击率预估模型的构建设备，下面结合附图对用于点击率预估模型的构建设备进行介绍。请参见图8所示，本申请实施例提供了一种用于点击率预估模型的构建设备800，该设备800可以是服务器，可因配置或性能不同而产生比较大的差异，可以包括一个或一个以***处理器(Central Processing Units，简称CPU)822(例如，一个或一个以上处理器)和存储器832，一个或一个以上存储应用程序842或数据844的存储介质830(例如一个或一个以上海量存储设备)。其中，存储器832和存储介质830可以是短暂存储或持久存储。存储在存储介质830的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器822可以设置为与存储介质830通信，在用于深度学习网络的动态存储800上执行存储介质830中的一系列指令操作。

用于深度学习网络的动态存储设备800还可以包括一个或一个以上电源826，一个或一个以上有线或无线网络接口850，一个或一个以上输入输出接口858，和/或，一个或一个以上操作***841，例如Windows ServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM等等。

上述实施例中由服务器所执行的步骤可以基于该图8所示的服务器结构。

其中，CPU 822用于执行如下步骤：

将所述N个不同的候选维数中小于所述最大维数的i个候选维数确定为所述目标特征对应的投影维数；

本申请实施例还提供了一种用于点击率预估的设备，用于点击率预估的设备的结构也可以参见图8所示，其中，在本设备中，CPU 822用于执行如下步骤：

根据所述多个特征分别对应的特征向量，通过点击率预估模型计算所述待估计样本的点击率预估值；所述点击率预估模型设置了N个不同的候选维数，所述候选维数用于标识特征向量的维数；若所述点击率预估模型中一个特征对应的最大维数大于所述N个不同的候选维数中的i个，这个特征具有i+1个不同维数的特征向量；所述多个特征中任意一个特征对应的最大维数用于标识这个特征所对应特征向量的最大维数；

请参见图9所示，本申请实施例提供了一种用于点击率预估模型的构建设备900，该设备900同样可以为本申请实施例所提供的一种用于点击率预估的设备。

该设备900还可以是终端设备，该终端设备可以为包括手机、平板电脑、个人数字助理(Personal Digital Assistant，简称PDA)、销售终端(Point of Sales，简称POS)、车载电脑等任意终端设备，以终端设备为手机为例：

图9示出的是与本申请实施例提供的终端设备相关的手机的部分结构的框图。参考图9，手机包括：射频(Radio Frequency，简称RF)电路910、存储器920、输入单元930、显示单元940、传感器950、音频电路960、无线保真(wireless fidelity，简称WiFi)模块970、处理器980、以及电源990等部件。本领域技术人员可以理解，图9中示出的手机结构并不构成对手机的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

下面结合图9对手机的各个构成部件进行具体的介绍：

RF电路910可用于收发信息或通话过程中，信号的接收和发送，特别地，将基站的下行信息接收后，给处理器980处理；另外，将设计上行的数据发送给基站。通常，RF电路910包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器(Low NoiseAmplifier，简称LNA)、双工器等。此外，RF电路910还可以通过无线通信与网络和其他设备通信。上述无线通信可以使用任一通信标准或协议，包括但不限于全球移动通讯***(Global System of Mobile communication，简称GSM)、通用分组无线服务(GeneralPacket Radio Service，简称GPRS)、码分多址(Code Division Multiple Access，简称CDMA)、宽带码分多址(Wideband Code Division Multiple Access，简称WCDMA)、长期演进(Long Term Evolution，简称LTE)、电子邮件、短消息服务(Short Messaging Service，简称SMS)等。

存储器920可用于存储软件程序以及模块，处理器980通过运行存储在存储器920的软件程序以及模块，从而执行手机的各种功能应用以及数据处理。存储器920可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作***、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器920可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

输入单元930可用于接收输入的数字或字符信息，以及产生与手机的用户设置以及功能控制有关的键信号输入。具体地，输入单元930可包括触控面板931以及其他输入设备932。触控面板931，也称为触摸屏，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板931上或在触控面板931附近的操作)，并根据预先设定的程式驱动相应的连接装置。可选的，触控面板931可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器980，并能接收处理器980发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板931。除了触控面板931，输入单元930还可以包括其他输入设备932。具体地，其他输入设备932可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。

显示单元940可用于显示由用户输入的信息或提供给用户的信息以及手机的各种菜单。显示单元940可包括显示面板941，可选的，可以采用液晶显示器(Liquid CrystalDisplay，简称LCD)、有机发光二极管(Organic Light-Emitting Diode，简称OLED)等形式来配置显示面板941。进一步的，触控面板931可覆盖显示面板941，当触控面板931检测到在其上或附近的触摸操作后，传送给处理器980以确定触摸事件的类型，随后处理器980根据触摸事件的类型在显示面板941上提供相应的视觉输出。虽然在图9中，触控面板931与显示面板941是作为两个独立的部件来实现手机的输入和输入功能，但是在某些实施例中，可以将触控面板931与显示面板941集成而实现手机的输入和输出功能。

手机还可包括至少一种传感器950，比如光传感器、运动传感器以及其他传感器。具体地，光传感器可包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示面板941的亮度，接近传感器可在手机移动到耳边时，关闭显示面板941和/或背光。作为运动传感器的一种，加速计传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等；至于手机还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器，在此不再赘述。

音频电路960、扬声器961，传声器962可提供用户与手机之间的音频接口。音频电路960可将接收到的音频数据转换后的电信号，传输到扬声器961，由扬声器961转换为声音信号输出；另一方面，传声器962将收集的声音信号转换为电信号，由音频电路960接收后转换为音频数据，再将音频数据输出处理器980处理后，经RF电路910以发送给比如另一手机，或者将音频数据输出至存储器920以便进一步处理。

WiFi属于短距离无线传输技术，手机通过WiFi模块970可以帮助用户收发电子邮件、浏览网页和访问流式媒体等，它为用户提供了无线的宽带互联网访问。虽然图9示出了WiFi模块970，但是可以理解的是，其并不属于手机的必须构成，完全可以根据需要在不改变发明的本质的范围内而省略。

处理器980是手机的控制中心，利用各种接口和线路连接整个手机的各个部分，通过运行或执行存储在存储器920内的软件程序和/或模块，以及调用存储在存储器920内的数据，执行手机的各种功能和处理数据，从而对手机进行整体监控。可选的，处理器980可包括一个或多个处理单元；优选的，处理器980可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作***、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器980中。

手机还包括给各个部件供电的电源990(比如电池)，优选的，电源可以通过电源管理***与处理器980逻辑相连，从而通过电源管理***实现管理充电、放电、以及功耗管理等功能。

尽管未示出，手机还可以包括摄像头、蓝牙模块等，在此不再赘述。

本申请实施例还提供一种计算机可读存储介质，用于存储程序代码，该程序代码用于执行前述各个实施例所述的一种用于点击率预估模型的构建方法中的任意一种实施方式，也可以用于执行前述各个实施例所述的一种点击率预估方法中的任意一种实施方式。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质可以是下述介质中的至少一种：只读存储器(英文：read-only memory，缩写：ROM)、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

需要说明的是，本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于设备及***实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的设备及***实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上所述，仅为本申请的一种具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应该以权利要求的保护范围为准。

Claims

1.一种点击率预估模型的构建方法，其特征在于，所述点击率预估模型设置了N个不同的候选维数，N为大于等于2的自然数，所述候选维数用于标识特征向量的维数，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，第一特征向量为所述i+1个不同维数的特征向量中的任意一个，针对所述第一特征向量，所述根据所述目标特征对应的训练样本，为所述目标特征分别训练i+1个不同维数的特征向量，包括：

3.根据权利要求2所述的方法，其特征在于，第二特征向量为所述i+1个不同维数的特征向量中的任意一个、且所述第二特征向量的维数不是所述最大维数；若所述第一特征向量的维数为所述最大维数，针对所述第二特征向量，所述根据所述目标特征对应的训练样本，为所述目标特征分别训练i+1个不同维数的特征向量，包括：

从所述目标特征对应的训练样本中获取目标训练样本；

4.根据权利要求1-3任意一项所述的方法，其特征在于，所述从所述N个不同的候选维数中确定一个候选维数作为所述目标特征对应的最大维数，包括：

5.一种点击率预估方法，其特征在于，所述方法包括：

6.根据权利要求5所述的方法，其特征在于，若根据所述多个特征分别对应的最大维数，确定用于计算所述待估计样本的点击率预估值的特征向量的维数为维数依次递增的D₁至D_m，k为1至m中的任意一个，所述根据所述多个特征分别对应的特征向量，通过所述点击率预估模型计算所述待估计样本的点击率预估值，包括：

将D_m对应的预估值作为所述待估计样本的点击率预估值。

7.一种点击率预估模型的构建装置，其特征在于，所述点击率预估模型设置了N个不同的候选维数，所述候选维数用于标识特征向量的维数，所述装置包括第一确定单元、第二确定单元、训练单元：

所述第一确定单元，用于从所述N个不同的候选维数中确定一个候选维数作为目标特征对应的最大维数；N为大于等于2的自然数；

8.根据权利要求7所述的装置，其特征在于，第一特征向量为所述i+1个不同维数的特征向量中的任意一个，针对所述第一特征向量，所述训练单元还用于：

9.根据权利要求8所述的装置，其特征在于，第二特征向量为所述i+1个不同维数的特征向量中的任意一个、且所述第二特征向量的维数不是所述最大维数；若所述第一特征向量的维数为所述最大维数，针对所述第二特征向量，所述训练单元还用于：

从所述目标特征对应的训练样本中获取目标训练样本；

10.根据权利要求7-9任意一项所述的装置，其特征在于，所述第一确定单元还用于根据目标特征所对应的非零训练样本的数量，从所述N个不同的候选维数中确定一个候选维数作为所述目标特征对应的最大维数。

11.一种点击率预估装置，其特征在于，所述装置包括获取单元和计算单元：

针对第一特征和第二特征，所述计算单元还用于：

12.根据权利要求11所述的装置，其特征在于，若根据所述多个特征分别对应的最大维数，确定用于计算所述待估计样本的点击率预估值的特征向量的维数为维数依次递增的D₁至D_m，k为1至m中的任意一个，所述计算单元还用于：

将D_m对应的预估值作为所述待估计样本的点击率预估值。