CN105243063A

CN105243063A - 信息推荐的方法和装置

Info

Publication number: CN105243063A
Application number: CN201410274081.4A
Authority: CN
Inventors: 邓利利
Original assignee: Beijing Feinno Communication Technology Co Ltd
Current assignee: Beijing Feinno Communication Technology Co Ltd
Priority date: 2014-06-18
Filing date: 2014-06-18
Publication date: 2016-01-13
Anticipated expiration: 2034-06-18
Also published as: CN105243063B

Abstract

本发明公开了一种信息推荐的方法和装置，属于数据处理领域。所述方法包括：获取源数据；确定所述源数据的维度以及每个维度对应的MapReduce模型；利用确定的各个MapReduce模型并行对所述源数据进行计算；将计算得到的推荐信息存储在Hbase***中；当接收到客户端的推荐请求时，从所述Hbase***获取与所述客户端的用户有关的推荐信息并发送给所述客户端。所述装置包括：获取模块、确定模块、计算模块、存储模块和推荐模块。本发明极大地提高了数据处理的速度，降低了计算的复杂度，节省了运算开销，提高了信息推荐的效率和准确性。

Description

信息推荐的方法和装置

技术领域

本发明涉及数据处理领域，特别涉及一种信息推荐的方法和装置。

背景技术

随着信息技术的发展，数据对企业已经越来越重要，数据量也在成倍地增长，数据的存储和处理等技术正在成为热点。而如何从庞大的数据中提取有价值的内容，并以此做各种推荐目前已成为主流业务。

目前有一种推荐技术，是基于协同过滤算法对数据进行计算，并将计算得到的推荐结果发送给用户进行信息推荐。但是，该算法复杂度高，对于大规模的数据集而言算法开销会变得非常庞大，从而导致数据处理速度慢、结果不准确，严重时还会导致数据库崩溃。

发明内容

有鉴于此，本发明实施例提供了一种信息推荐的方法和装置，以提高信息推荐时的速度和准确性。所述技术方案如下：

第一方面，提供了一种信息推荐的方法，所述方法包括：

获取源数据；

确定所述源数据的维度以及每个维度对应的MapReduce模型；

利用确定的各个MapReduce模型并行对所述源数据进行计算；

将计算得到的推荐信息存储在Hbase***中；

当接收到客户端的推荐请求时，从所述Hbase***获取与所述客户端的用户有关的推荐信息并发送给所述客户端。

可选的，所述获取源数据，包括：

按照预设的周期定时获取源数据；和/或，

当源数据发生变化时，实时获取发生变化的源数据。

进一步地，所述利用确定的各个MapReduce模型并行对所述源数据进行计算，包括：

对于定时获取的源数据，按照预设的静态策略定时利用对应的MapReduce模型并行进行计算；

对于实时获取的源数据，按照预设的动态策略实时利用对应的MapReduce模型进行计算。

可选的，所述将计算得到的推荐信息存储在Hbase***中，包括：

将客户端的用户ID和推荐列表存储在Hbase***中，所述客户端的用户ID作为主键，所述推荐列表包括所述用户的各个维度的推荐信息。

进一步地，所述推荐列表中各个维度的推荐信息由指定符号进行拼接，每个维度的推荐信息包括：推荐ID、推荐原因和权重。

第二方面，提供了一种信息推荐的装置，所述装置包括：

获取模块，用于获取源数据；

确定模块，用于确定所述源数据的维度以及每个维度对应的MapReduce模型；

计算模块，用于利用确定的各个MapReduce模型并行对所述源数据进行计算；

存储模块，用于将计算得到的推荐信息存储在Hbase***中；

推荐模块，用于当接收到客户端的推荐请求时，从所述Hbase***获取与所述客户端的用户有关的推荐信息并发送给所述客户端。

可选的，所述获取模块包括：

定时获取单元，用于按照预设的周期定时获取源数据；和/或，

实时获取单元，用于当源数据发生变化时，实时获取发生变化的源数据。

进一步地，所述计算模块包括：

计算单元，用于对于定时获取的源数据，按照预设的静态策略定时利用对应的MapReduce模型并行进行计算；对于实时获取的源数据，按照预设的动态策略实时利用对应的MapReduce模型进行计算。

可选的，所述存储模块包括：

存储单元，用于将客户端的用户ID和推荐列表存储在Hbase***中，所述客户端的用户ID作为主键，所述推荐列表包括所述用户的各个维度的推荐信息。

本发明实施例提供的技术方案带来的有益效果是：获取源数据；确定所述源数据的维度以及每个维度对应的MapReduce模型；利用确定的各个MapReduce模型并行对所述源数据进行计算；将计算得到的推荐信息存储在Hbase***中；当接收到客户端的推荐请求时，从所述Hbase***获取与所述客户端有关的推荐信息并发送给所述客户端，实现了信息推荐，由于采用了适合于大规模数据集运算的MapReduce模型，而且使用不同的MapReduce模型对不同维度的源数据进行并行处理，极大地提高了数据处理的速度，降低了计算的复杂度，节省了运算开销，提高了信息推荐的效率和准确性。另外，采用Hbase***存储推荐信息，具有高可靠性、高性能、可伸缩等优势，提高了数据存储的安全性。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一实施例提供的信息推荐的方法流程图；

图2是本发明另一实施例提供的二度好友推荐示意图；

图3是本发明另一实施例提供的信息推荐的方法流程图；

图4是本发明另一实施例提供的信息推荐的交互示意图；

图5是本发明另一实施例提供的信息推荐的装置结构图；

图6是本发明另一实施例提供的信息推荐的装置结构图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。

本发明实施例涉及Hadoop平台，一个分布式***基础架构。Hadoop平台的两个特性是，利用HDFS(HadoopDistributedFileSystem，Hadoop分布式文件***)存储数据，并基于MapReduce模型来进行大数据的运算。MapReduce模型是一种编程模型，通过指定一个Map函数把一组键值对映射成一组新的键值对，并通过指定并发的Reduce函数来保证所有映射的键值对中的每一个共享相同的键组。

参见图1，本发明一实施例提供了一种信息推荐的方法，包括：

101：获取源数据。

其中，源数据可以存储在一台或者多台服务器上。

102：确定该源数据的维度以及每个维度对应的MapReduce模型。

源数据的维度是由用户关系链决定的。通常，一个用户关系链就是一个维度，包括但不限于以下任意一种：共同好友、Boss话单、共同IP、共同群组、通讯录、陌生人通讯、共同分组等等。

103：利用确定的各个MapReduce模型并行对该源数据进行计算。

其中，每一个维度都采用对应的MapReduce模型对该维度的源数据进行计算，多个维度的源数据分别采用各自的MapReduce模型并行进行计算，从而极大地提高了数据的处理能力，提高了计算速度和效率。

而且，在源数据增加新的维度时，可以设计新的MapReduce模型并行处理，对已有的MapReduce模型运算不造成影响，互不干扰，具有良好的扩展性。

本实施例中，不同维度的源数据对应不同的MapReduce模型，具体地，可以根据维度的特性来设计MapReduce模型，本实施例对此不做具体限定。

例如，源数据为“PC和手机通讯数次+全量好友关系对”，PC和手机通讯数次的格式为：用户UID1，用户UIDn，用户UID1在PC上与用户UIDn进行通讯的次数，用户UID1在手机上与用户UIDn进行通讯的次数。其中，用户UID1与用户UIDn都是即时通讯的用户，用户UIDn代表若干个可以和用户UID1进行即时通讯的用户，n为正整数，用户UID1可以与用户UIDn中的任一个互相进行即时通讯。该全量好友关系对是指即时通讯应用中所有的好友关系对，格式为UIDi，UIDj。目的是为进行即时通讯的用户推荐彼此不是好友的用户。推荐信息为密友，是指通讯天数达到指定的X天以上才互相推荐，上述通讯次数也可以是通讯天数。首先，确定该源数据的维度为通讯维度，设计与该维度对应的MapReduce模型按如下步骤进行推荐计算：首先，对PC和手机的通讯次数进行除重处理，所述除重处理是指每一个用户UIDn记录一个通讯总次数，具体为PC通讯次数和手机通讯次数的累加。然后，根据全量好友关系对，将用户UID1与用户UIDn中的好友对删除，得到非好友关系的用户对集合。最后，在该集合内提取通讯用户UIDn列表且按照通讯总次数由高到低排序，得到推荐列表。当用户UID1的客户端发来推荐请求时，可以将该推荐列表直接推荐给客户端，或者也可以将该推荐列表中通讯天数超过指定天数的用户UIDn作为密友推荐给客户端。

例如，源数据为“A的好友列表+D的好友列表”，推荐信息为“二度好友”。参见图2，A的好友列表包括B和C，D的好友列表包括B和E，并且A和D是好友。根据源数据可以确定维度为好友列表，设计与该维度对应的MapReduce模型按如下步骤进行推荐计算：在A的好友列表(B，C)中过滤掉D的好友B，得到结果C，作为D的推荐信息。在D的好友列表(B，E)中过滤掉A的好友B得到结果E，作为A的推荐信息。当A请求推荐时，将E作为好友推荐给A，当D请求推荐时，将C作为好友推荐给D。

例如，源数据为“群组关系+全量好友关系对”，目标是对同一群组中的成员，不是好友的进行互相推荐。确定源数据的维度为“共同群组”。根据该维度设计的对应的MapReduce模型按如下步骤进行推荐计算：首先，将同一群组中的所有成员做笛卡尔积，得到多组朋友对；然后，将已经是好友的朋友对过滤掉；最后，将过滤后得到的朋友对中的朋友互作为推荐信息。当收到某一个用户的推荐请求时，将该用户的所有朋友作为好友进行推荐。

104：将计算得到的推荐信息存储在Hbase***中。

Hbase***具有高可靠性、高性能的特点，是面向列、可伸缩的分布式存储***，尤其适用于海量数据的存储。而且基于列模式的存储，表与表之间没有任何关联，查询的效率非常高。

所述推荐信息可以包括多种信息，如即时通讯ID、手机号码、群组ID等等，本实施例对此不做具体限定。

105：当接收到客户端的推荐请求时，从该Hbase***获取与该客户端的用户有关的推荐信息并发送给该客户端。

其中，推荐信息可以按照用户的ID(Identity，身份识别号)进行存储，因此，在收到某一个客户端的推荐请求时，可以根据该客户端的用户ID来查询对应的推荐信息，从而推荐给该客户端的用户。

本实施例涉及的客户端可以是手机、PC机、平板电脑等等，本实施例对此不做具体限定。

本实施例中，可选的，获取源数据，可以包括：

按照预设的周期定时获取源数据；和/或，

当源数据发生变化时，实时获取发生变化的源数据。

进一步地，利用确定的各个MapReduce模型并行对该源数据进行计算，可以包括：

本实施例中，可选的，将计算得到的推荐信息存储在Hbase***中，可以包括：

将客户端的用户ID和推荐列表存储在Hbase***中，该客户端的用户ID作为主键，该推荐列表包括该用户的各个维度的推荐信息。

本实施例提供的上述方法，获取源数据；确定所述源数据的维度以及每个维度对应的MapReduce模型；利用确定的各个MapReduce模型并行对所述源数据进行计算；将计算得到的推荐信息存储在Hbase***中；当接收到客户端的推荐请求时，从所述Hbase***获取与所述客户端的用户有关的推荐信息并发送给所述客户端，实现了信息推荐，由于采用了适合于大规模数据集运算的MapReduce模型，而且使用不同的MapReduce模型对不同维度的源数据进行并行处理，极大地提高了数据处理的速度，降低了计算的复杂度，节省了运算开销，提高了信息推荐的效率和准确性。另外，采用Hbase***存储推荐信息，具有高可靠性、高性能、可伸缩等优势，提高了数据存储的安全性。

参见图3，本发明另一实施例提供了一种信息推荐的方法，包括：

301：按照预设的周期定时获取源数据；和/或，当源数据发生变化时，实时获取发生变化的源数据。

其中，可以通过实现FTP(FileTransferProtocol，文件传输协议)客户端功能来执行定时获取源数据，该预设的周期可以根据需要设置，本实施例对具体数值不限定。定时获取的源数据可以存储在HDFS中，该HDFS可以是一台设备，或者也可以是一个集群***。

实时获取源数据可以采用HTTP(HyperTextTransferProtocol，超文本传输协议)模式或者GET(获取命令)模式来实现，优选地，采用HTTP模式来实现实时获取源数据，安全性更高。实时获取的源数据可以存储在Hbase***中，该Hbase***可以包括一台设备，或者多台设备。

定时获取适用于时效性不高的推荐请求，实时获取更适用于时效性要求较高的推荐请求。因此，优选地，将定时获取与实时获取结合起来应用，能够适应各种推荐请求，应用更灵活。

302：确定该源数据的维度以及每个维度对应的MapReduce模型。

本实施例中，可以预先为每种维度设计对应的MapReduce模型，而且每种MapReduce模型内的推荐算法都不同。由于算法依据维度而定，更具有针对性，因此，推荐计算的结果更准确，实现了智能推荐。

303：对于定时获取的源数据，按照预设的静态策略定时利用对应的MapReduce模型并行进行计算。

其中，静态策略用于定时获取的源数据，由于定时获取的源数据通常都为批量数据，数据量较大，但时效性要求不高，因此，可以采用定时计算的静态策略。如可以每个月计算一次，或者每半个月计算一次等等，本实施例对此不做具体限定。

定时获取的源数据通常都涉及多个维度，因此，可以对该多个维度的源数据进行并行处理，利用各自的MapReduce模型来并行进行计算。

304：对于实时获取的源数据，按照预设的动态策略实时利用对应的MapReduce模型进行计算。

其中，动态策略用于实时获取的源数据，由于实时获取的都是发生变化的数据，通常数据量较小，但是时效性较高，因此，可以采用实时计算的动态策略。多数情况下，实时获取的源数据都是单一用户的数据，如某个手机中变化的通讯录，或者某个PC机中新增的即时通讯好友等等，本实施例对此不做具体限定。

上述两个步骤303和304可以同时进行，从而达到并行处理的效果。

另外，本实施例中，在使用MapReduce模型的基础上，进一步地，还可以使用combiner函数和Partitioner函数等来优化算法，以有效的提高算法的性能，此处不做过多说明。

通过对实时获取的源数据进行实时计算处理，能够保证推荐的高时效性，实现了实时推荐。

305：将客户端的用户ID和推荐列表存储在Hbase***中，该客户端的用户ID作为主键，该推荐列表包括该用户的各个维度的推荐信息。

优选地，该推荐列表中各个维度的推荐信息由指定符号进行拼接，每个维度的推荐信息包括：推荐ID、推荐原因和权重。

本实施例中，可以将客户端的用户ID和推荐列表设计成一个主表存储。例如，可以如表1所示。

表1

其中，主键KEY是长度为10位的用户UID，不能为空。Reasonlist为推荐列表，包括所有维度的推荐信息。其中，以UID为KEY，可以保证存储和查询的速度。通常，UID为大于8位小于10位的长整型数字，在KEY中不足10位的UID需要在前面补0以保证长度为10位。建表后，可以根据KEY的分布范围对表进行区域划分，以此保证数据存储的均匀分布，以达到存储和查询速度的最优化。推荐列表采用符号拼接各种维度的推荐信息的形式存储，从而可以将推荐信息数字化，比文字形式存储更加节省存储空间。拼接的分隔符可以根据需要定义，本实施例对此不做具体限定。

如表1所示，推荐列表可以包括多条记录，每条记录包括：推荐UID、推荐原因和权重；多条记录可以按照推荐权重从大到小排序。其中，各条记录之间的分隔符可以为“$”；推荐UID、推荐原因和权重之间的分隔符可以为“#”；多个推荐原因之间的分隔符可以为“|”；推荐原因包括KEY和VALUE，且分隔符可以为“:”等等。例如，一个包含两条记录的推荐列表如下：289367798#0:1#5$11111111#0:1#4。第一条记录为“289367798#0:1#5”，那么，将此UID用户推荐给key；其中，推荐用户的UID为“289367798”；推荐原因为“0:1”，“0”为KEY值，“1”为VALUE值，不同的VALUE值可以对应不同的含义，根据需要定义，如“0”对应Boss话单维度(原因)，“1”对应Boss话单通话次数；根据规则计算出权重为5。第二条记录为“11111111#0:1#4”，那么，将此UID用户推荐给key；其中，推荐用户的UID为“11111111”，推荐原因为“0:1”，权重为4。值得一提的是，当有新维度增加时，只需在推荐列表后追加记录即可，简单方便，极易扩展。

另外，为了进一步提高查询速度，还可以将部分计算结果存入分布式高速缓存***Memcached中，当有客户端发送推荐请求时，首先从Memcached中查询是否有对应的推荐信息，如果有，则直接将该推荐信息返回给客户端；如果没有，则再从Hbase***中查询对应的推荐信息进行推荐，从而避免每次推荐都从Hbase***查询，减轻了Hbase***的压力，极大地提高了查询速度。

因此，本实施例中的数据存储可以由三部分组成，HDFS、Hbase和Memcached。其中，定时获取的源数据存储在HDFS中，适用于大规模数据存储；实时获取的源数据以及并行计算的结果都存储在Hbase中，数据更安全、高效；Memcahed用来缓存部分计算结果，以进一步提高查询能力。

306：当接收到客户端的推荐请求时，从该Hbase***获取与该客户端的用户有关的推荐信息并发送给该客户端。

上述方法可以由信息推荐的装置来执行。客户端的推荐请求可以通过服务器来发送给该装置，由该装置执行查询后返回推荐信息给客户端。该过程可以如图4所示，具体流程如下：S1、客户端发送推荐请求给服务器；S2、服务器接收到该推荐请求后转发给信息推荐装置；S3、信息推荐装置收到该请求后，向Hbase查询该客户端的推荐信息；S4、信息推荐装置将查询得到的推荐信息发送给服务器，由服务器转发给客户端进行推荐。

本实施例提供的上述方法，按照预设的周期定时获取源数据；和/或，当源数据发生变化时，实时获取发生变化的源数据；确定该源数据的维度以及每个维度对应的MapReduce模型；对于定时获取的源数据，按照预设的静态策略定时利用对应的MapReduce模型并行进行计算；对于实时获取的源数据，按照预设的动态策略实时利用对应的MapReduce模型进行计算；将客户端的用户ID和推荐列表存储在Hbase***中，该客户端的用户ID作为主键，该推荐列表包括该客户端的各个维度的推荐信息；当接收到客户端的推荐请求时，从该Hbase***获取与该客户端的用户有关的推荐信息并发送给该客户端；实现了信息推荐，由于采用了适合于大规模数据集运算的MapReduce模型，而且使用不同的MapReduce模型对不同维度的源数据进行并行处理，极大地提高了数据处理的速度，降低了计算的复杂度，节省了运算开销，提高了信息推荐的效率和准确性。另外，采用Hbase***存储推荐信息，具有高可靠性、高性能、可伸缩等优势，提高了数据存储的安全性。

参见图5，本发明另一实施例提供了一种信息推荐的装置，包括：

获取模块501，用于获取源数据；

确定模块502，用于确定该源数据的维度以及每个维度对应的MapReduce模型；

计算模块503，用于利用确定的各个MapReduce模型并行对该源数据进行计算；

存储模块504，用于将计算得到的推荐信息存储在Hbase***中；

推荐模块505，用于当接收到客户端的推荐请求时，从该Hbase***获取与该客户端的用户有关的推荐信息并发送给该客户端。

参见图6，本实施例中，可选的，获取模块501可以包括：

定时获取单元501a，用于按照预设的周期定时获取源数据；和/或，

实时获取单元501b，用于当源数据发生变化时，实时获取发生变化的源数据。

本实施例中，进一步地，计算模块503可以包括：

计算单元503a，用于对于定时获取的源数据，按照预设的静态策略定时利用对应的MapReduce模型并行进行计算；对于实时获取的源数据，按照预设的动态策略实时利用对应的MapReduce模型进行计算。

本实施例中，可选的，存储模块504可以包括：

存储单元，用于将客户端的用户ID和推荐列表存储在Hbase***中，该客户端的用户ID作为主键，该推荐列表包括该用户的各个维度的推荐信息。

本实施例中，进一步地，所述推荐列表中各个维度的推荐信息由指定符号进行拼接，每个维度的推荐信息包括：推荐ID、推荐原因和权重。

本实施例中，还可以将上述装置按照逻辑划分为：第一接口层、数据计算层、数据存储层和第二接口层。其中，第一接口层包括上述获取模块501，负责获取源数据；数据计算层包括上述确定模块502和计算模块503，负责利用MapReduce模型进行计算；数据存储层包括上述存储模块504，负责存储计算结果；第二接口层包括上述推荐模块505，负责与客户端交互，在客户端请求时发送推荐信息，从而完成推荐。

本实施例提供的上述装置可以执行上述任一方法实施例提供的方法，详见方法实施例中的描述，此处不赘述。

本实施例提供的上述装置，获取源数据；确定所述源数据的维度以及每个维度对应的MapReduce模型；利用确定的各个MapReduce模型并行对所述源数据进行计算；将计算得到的推荐信息存储在Hbase***中；当接收到客户端的推荐请求时，从所述Hbase***获取与所述客户端的用户有关的推荐信息并发送给所述客户端，实现了信息推荐，由于采用了适合于大规模数据集运算的MapReduce模型，而且使用不同的MapReduce模型对不同维度的源数据进行并行处理，极大地提高了数据处理的速度，降低了计算的复杂度，节省了运算开销，提高了信息推荐的效率和准确性。另外，采用Hbase***存储推荐信息，具有高可靠性、高性能、可伸缩等优势，提高了数据存储的安全性。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种信息推荐的方法，其特征在于，所述方法包括：

获取源数据；

确定所述源数据的维度以及每个维度对应的MapReduce模型；

利用确定的各个MapReduce模型并行对所述源数据进行计算；

将计算得到的推荐信息存储在Hbase***中；

2.根据权利要求1所述的方法，其特征在于，所述获取源数据，包括：

按照预设的周期定时获取源数据；和/或，

当源数据发生变化时，实时获取发生变化的源数据。

3.根据权利要求2所述的方法，其特征在于，所述利用确定的各个MapReduce模型并行对所述源数据进行计算，包括：

4.根据权利要求1所述的方法，其特征在于，所述将计算得到的推荐信息存储在Hbase***中，包括：

5.根据权利要求4所述的方法，其特征在于，所述推荐列表中各个维度的推荐信息由指定符号进行拼接，每个维度的推荐信息包括：推荐ID、推荐原因和权重。

6.一种信息推荐的装置，其特征在于，所述装置包括：

获取模块，用于获取源数据；

存储模块，用于将计算得到的推荐信息存储在Hbase***中；

7.根据权利要求6所述的装置，其特征在于，所述获取模块包括：

8.根据权利要求7所述的装置，其特征在于，所述计算模块包括：

9.根据权利要求6所述的装置，其特征在于，所述存储模块包括：

10.根据权利要求9所述的装置，其特征在于，所述推荐列表中各个维度的推荐信息由指定符号进行拼接，每个维度的推荐信息包括：推荐ID、推荐原因和权重。