CN107688582B

CN107688582B - 资源推荐模型的获取方法及装置

Info

Publication number: CN107688582B
Application number: CN201610640205.5A
Authority: CN
Inventors: 周琦; 尹程果; 袁林
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2016-08-05
Filing date: 2016-08-05
Publication date: 2020-07-07
Anticipated expiration: 2036-08-05
Also published as: CN107688582A

Abstract

本发明公开了一种资源推荐模型的获取方法及装置，属于网络技术领域。所述方法包括：获取多个相似推荐位的用户数据；对所述多个相似推荐位的用户数据进行分区，得到多个数据分区；对每个数据分区内的用户数据进行训练，得到所述多个数据分区的推荐子模型；对所述多个数据分区的推荐子模型进行合并，得到资源推荐模型。本发明通过采用多个相似推荐位的用户数据进行建模，从而避免了训练数据较少的情况，大大扩展了模型建立方法的可用场景，通过上述用户数据建模得到的模型进行资源推荐，可以大大提高推荐位的推荐效率以及推荐位的曝光点击率。

Description

资源推荐模型的获取方法及装置

技术领域

本发明涉及网络技术领域，特别涉及一种资源推荐模型的获取方法及装置。

背景技术

随着网络技术的发展，在线资源成为一种主流的网络服务形式。资源提供商可以通过推荐等手段，将在线资源有针对性的推荐给一些可能感兴趣的用户。

在资源推荐过程中，一般会通过在推荐位上显示资源，供用户进行查看。为了提高推荐的准确率，对推荐位来说，一般会采取数据挖掘、机器学习等方式，利用该推荐位上的用户的历史行为数据与用户画像，建立该推荐位的资源推荐模型，从而基于该资源推荐模型，来确定对该推荐位上资源的感兴趣的人群，并进行资源推荐。

在实现本发明的过程中，发明人发现现有技术至少存在以下问题：

对于模型建立过程来说，一旦该推荐位的训练数据较少，则可能出现无法建立模型或者建立的模型不准确等情况，该模型建立方法的局限性较大，导致后续该推荐位的推荐效率低、推荐位的曝光点击率也会较低。

发明内容

为了解决现有技术的问题，本发明实施例提供了一种资源推荐模型的获取方法及装置。所述技术方案如下：

一方面，提供了一种资源推荐模型的获取方法，所述方法包括：

获取多个相似推荐位的用户数据；对所述多个相似推荐位的用户数据进行分区，得到多个数据分区；对每个数据分区内的用户数据进行训练，得到所述多个数据分区的推荐子模型；对所述多个数据分区的推荐子模型进行合并，得到资源推荐模型。

另一方面，提供了一种资源推荐模型的获取装置，所述装置包括：

用户数据获取模块，用于获取多个相似推荐位的用户数据；

分区模块，用于对所述多个相似推荐位的用户数据进行分区，得到多个数据分区；

训练模块，用于对每个数据分区内的用户数据进行训练，得到所述多个数据分区的推荐子模型；

合并模块，用于对所述多个数据分区的推荐子模型进行合并，得到资源推荐模型。

本发明实施例提供的技术方案带来的有益效果是：

通过采用多个相似推荐位的用户数据进行建模，从而避免了训练数据较少的情况，大大扩展了模型建立方法的可用场景，通过上述用户数据建模得到的模型进行资源推荐，可以大大提高推荐位的推荐效率以及推荐位的曝光点击率。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种资源推荐模型的获取方法的流程图；

图2是本发明实施例提供的一种资源推荐模型的获取方法的流程图；

图3是本发明实施例提供的数据分区的划分示意图；

图4是本发明实施例提供的一种资源推荐模型的获取装置的结构示意图；

图5是根据一示例性实施例示出的一种资源推荐模型的获取装置500的框图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。

图1是本发明实施例提供的一种资源推荐模型的获取方法的流程图。参见图1，所述方法包括：

101、获取多个相似推荐位的用户数据。

102、对所述多个相似推荐位的用户数据进行分区，得到多个数据分区。

103、对每个数据分区内的用户数据进行训练，得到所述多个数据分区的推荐子模型。

104、对所述多个数据分区的推荐子模型进行合并，得到资源推荐模型。

本发明实施例提供的方法，通过采用多个相似推荐位的用户数据进行建模，从而避免了训练数据较少的情况，大大扩展了模型建立方法的可用场景，通过上述用户数据建模得到的模型进行资源推荐，可以大大提高推荐位的推荐效率以及推荐位的曝光点击率。

需要说明的是，该资源推荐模型可以是针对于相似推荐位中某一个推荐位，例如，用户数据量未达到预设值的推荐位。该资源推荐模型还可以是针对相似推荐位中的所有推荐位，即对相似推荐位中的每个推荐位，都可以使用该资源推荐模型进行资源推荐。

进一步地，在步骤104之后，在推荐位的任一曝光机会下，获取当前用户的用户数据，将所述用户数据输入该资源推荐模型，输出该推荐位的待推荐资源，并在该推荐位上展示该输出的资源。通过上述过程，可以大大提高推荐位的推荐效率以及推荐位的曝光点击率。

其中，曝光机会可以是指推荐位所在页面被查看等情形，本发明实施例对此不做限定。

在一种可能实现方式中，所述相似推荐位是指平台类型相同或相似的推荐位。

在一种可能实现方式中，对所述多个相似推荐位的用户数据进行分区，得到多个数据分区包括：

将属于相同推荐位的用户数据分至同一个数据分区，使得所述多个数据分区内的用户数据量之间的数据量差异小于预设阈值。

根据每个相似推荐位的用户数据量，平衡所述多个数据分区内的用户数据量。

在一种可能实现方式中，推荐位是指广告投放位，所述用户数据是指点击所述广告投放位所投放广告的用户的行为数据和用户属性中至少一项。

上述所有可选技术方案，可以采用任意结合形成本公开的可选实施例，在此不再一一赘述。

图2是本发明实施例提供的一种资源推荐模型的获取方法的流程图。参见图2，所述方法包括：

201、获取多个相似推荐位的用户数据。

在本发明实施例中，该相似推荐位是指平台类型相同或相似的推荐位。对于一些访问量较少的推荐位来说，可能没有足够的用户数据来训练出一个收敛的模型。而由于相同平台类型的用户群体和用户行为均可以具有相似性，因此，可以将多个推荐位的数据混合训练，可以获取更多数据，从而使得模型对用户的偏好预测更为准确。例如，对于酷狗平台的广告位来说，可以采用酷狗、爱奇艺以及土豆等播放平台的广告位的用户数据进行混合训练。

在本发明实施例中，推荐位的用户是指曝光、点击或购买过该推荐位所推荐资源的用户，用户数据是指用户行为数据和用户属性中至少一项。其中，用户行为数据可以是指针对推荐位的曝光、点击以及购买等用于描述用户的网络行为的数据。用户属性可以是指用户年龄段、用户性别、用户标签等等用于描述用户本身或是网络行为属性的数据，本发明实施例对上述数据不作具体限定。

具体地，获取多个相似推荐位的用户数据可以包括：根据待建模推荐位的投放平台类型，确定与该投放平台类型相同或相似的多个推荐位，根据该多个推荐位的投放平台标识，从该多个投放平台的用户数据库中，获取该多个推荐位的用户数据，将所获取的数据作为多个相似推荐位的用户数据。

发明人认识到，不同推荐位出现相同用户的概率不大，但是不同推荐位出现相同人群的概率是非常大的。例如，有推荐位i,j,k，其中推荐位i包含年龄20-25，性别男的用户群体的行为数为2000，其中推荐位j包含用户年龄20-25，性别男的用户群体的行为数为3000，其中推荐位k包含用户年龄20-25，性别男的用户群体的行为数为5000,那么将这三个推荐位的数据放在一起混合训练，就可以得到a的10000条行为，这样模型对年龄20-25，性别男的这类群体刻画就更准确，对于推荐位的偏好预测就更精准，为此，在建模之前，可以获取多个相似推荐位的用户数据，以进行后续的模型训练过程。

202、将属于相同推荐位的用户数据分至同一个数据分区，得到多个数据分区。

发明人认识到，在针对每个推荐位训练模型的时候，为了提高训练速度，会采用并行计算，在多个分区来进行模型训练，最后将各个分区的模型综合为一个模型。然而，对于不同平台来说，其推荐位的用户数据量可能会有多有少，对于将多个推荐位数据混合在一起训练的场景，如果像现有训练方法进行一个随机的分区处理，那么就会导致每个数据分区中包含该推荐位的用户数据量过小，从而每个数据分区的训练会不充分。例如，若有10个广告位的数据放在一起训练，广告位1包含了10000条行为数据，如果模型训练分为5个分区并行计算，将广告位a1的数据随机分配到所有分区上，那么平分到每个分区的数据只有2000条行为，每个分区的数据过少，从而导致每个分区的模型关于该广告的训练不充分。

为了避免每个数据分区的训练不充分问题，本发明实施例在开始训练模型之前，尽量将相同推荐位的用户数据放在一个数据分区去训练，这样可以避免一个推荐位的用户数据分散到太多数据分区中。进一步地，在进行分区时，根据每个相似推荐位的用户数据量，平衡该多个数据分区内的用户数据量，使得该多个数据分区内的用户数据量之间的数据量差异小于预设阈值，各个数据分区的用户数据量平均，每个数据分区对于其所包含的推荐位的训练数据会较充分，可以使得训练得到的模型的收敛性更好。如图3中，以推荐位为广告位为例，广告位k的数据量与广告位i与广告位j的数据量之和近似，所以这样分区，使得各个分区的训练样本数目近似。

203、对每个数据分区内的用户数据进行训练，得到该多个数据分区的推荐子模型。

在训练过程中，对于训练数据的落地处理等，可以采用Apache Storm***，实际训练过程中可以采用Apache Spark***，而所建立的推荐子模型以及后续的资源推荐模型可以为逻辑回归模型。当然，上述均为对可能采用***或者模型的举例，实际上，还可以采用其他训练***和模型形式，本发明实施例对此不做具体限定。

204、对该多个数据分区的推荐子模型进行合并，得到资源推荐模型。

上述合并可以是指均衡各个推荐子模型的模型参数，获取资源推荐模型的过程，本发明实施例对此不做具体限定。

需要说明的是，上述实施例中进行推荐的资源，可以是指广告，而推荐位则可以是指广告投放位，而用户数据是指点击所述广告投放位所投放广告的用户的行为数据和用户属性中至少一项。在实际场景中，任一种涉及到利用目标相似性来进行数据迁移的场景均可以采取该上述实施例提供的获取方法，以获取相应模型。

在训练过程中，是基于上述用户数据以及推荐位所推荐的资源类型等信息进行训练，以获取用户数据与资源类型之间的对应关系，使得一旦有曝光机会，可以根据该曝光机会对应的用户的用户数据，在该推荐位上为该用户推荐最可能引起其查看兴趣的资源，由于在建模时对多个相似推荐位的用户数据进行了混合训练，可以获取某类用户群体的更多行为数据，从而使得模型对该类用户群体的偏好预测更为准确。

图4是本发明实施例提供的一种资源推荐模型的获取装置的结构示意图。参见图4，所述装置包括：

用户数据获取模块401，用于获取多个相似推荐位的用户数据；

分区模块402，用于对所述多个相似推荐位的用户数据进行分区，得到多个数据分区；

训练模块403，用于对每个数据分区内的用户数据进行训练，得到所述多个数据分区的推荐子模型；

合并模块404，用于对所述多个数据分区的推荐子模型进行合并，得到资源推荐模型。

在一种可能实现方式中，所述分区模块用于将属于相同推荐位的用户数据分至同一个数据分区。

在一种可能实现方式中，所述分区模块用于根据每个相似推荐位的用户数据量，平衡所述多个数据分区内的用户数据量，使得所述多个数据分区内的用户数据量之间的数据量差异小于预设阈值。

需要说明的是：上述实施例提供的资源推荐模型的获取装置在资源推荐模型的获取时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的资源推荐模型的获取装置与资源推荐模型的获取方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

图5是根据一示例性实施例示出的一种资源推荐模型的获取装置500的框图。例如，装置500可以被提供为一服务器。参照图5，装置500包括处理组件522，其进一步包括一个或多个处理器，以及由存储器532所代表的存储器资源，用于存储可由处理部件522的执行的指令，例如应用程序。存储器532中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外，处理组件522被配置为执行指令，以执行上述资源推荐模型的获取方法。

装置500还可以包括一个电源组件526被配置为执行装置500的电源管理，一个有线或无线网络接口550被配置为将装置500连接到网络，和一个输入输出(I/O)接口558。装置500可以操作基于存储在存储器532的操作***，例如Windows Server^TM，Mac OS X^TM，Unix^TM,Linux^TM，FreeBSD^TM或类似。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种资源推荐模型的获取方法，其特征在于，所述方法包括：

获取多个相似推荐位的用户数据；

对所述多个相似推荐位的用户数据进行分区，将属于相同推荐位的用户数据分至同一个数据分区，得到多个数据分区；

对每个数据分区内的用户数据进行训练，得到所述多个数据分区的推荐子模型；

对所述多个数据分区的推荐子模型进行合并，得到资源推荐模型。

2.根据权利要求1所述的方法，其特征在于，所述相似推荐位是指平台类型相同或相似的推荐位。

3.根据权利要求1所述的方法，其特征在于，对所述多个相似推荐位的用户数据进行分区，得到多个数据分区还包括：

4.根据权利要求1所述的方法，其特征在于，推荐位是指广告投放位，所述用户数据是指点击所述广告投放位所投放广告的用户的行为数据和用户属性中至少一项。

5.一种资源推荐模型的获取装置，其特征在于，所述装置包括：

用户数据获取模块，用于获取多个相似推荐位的用户数据；

分区模块，用于对所述多个相似推荐位的用户数据进行分区，将属于相同推荐位的用户数据分至同一个数据分区，得到多个数据分区；

6.根据权利要求5所述的装置，其特征在于，所述相似推荐位是指平台类型相同或相似的推荐位。

7.根据权利要求5所述的装置，其特征在于，所述分区模块还用于根据每个相似推荐位的用户数据量，平衡所述多个数据分区内的用户数据量。

8.根据权利要求5所述的装置，其特征在于，推荐位是指广告投放位，所述用户数据是指点击所述广告投放位所投放广告的用户的行为数据和用户属性中至少一项。