CN104778177A

CN104778177A - 数据处理方法及装置

Info

Publication number: CN104778177A
Application number: CN201410014401.2A
Authority: CN
Inventors: 荆艳影; 张丹; 于晓明; 杨建武
Original assignee: Peking University; Peking University Founder Group Co Ltd; Beijing Founder Electronics Co Ltd
Current assignee: Peking University; Peking University Founder Group Co Ltd; Beijing Founder Electronics Co Ltd
Priority date: 2014-01-13
Filing date: 2014-01-13
Publication date: 2015-07-15

Abstract

本发明提供一种数据处理方法及装置，包括：接收请求设备发送的处理请求，所述处理请求包括目标网站的标识；根据采集到的历史原始数据，获得用户在预设的目标时间范围内，在所述目标网站中发布的各类型对应的信息的平均数量，所述历史原始数据包括各用户在各网站中发布的信息；针对每个所述类型对应的信息的平均数量，计算其与所述类型对应的预设权值的乘积，其中，所述各类型对应的权值之和为1；计算所述各类型对应的乘积之和，获得所述用户在所述目标时间范围内相对于所述目标网站的用户活跃度；向所述请求设备发送处理结果，所述处理结果包括所述用户活跃度。本发明提供的数据处理方法及装置，能够准确快捷地获取用户的用户活跃度。

Description

数据处理方法及装置

技术领域

本发明涉及数据处理领域，尤其涉及一种数据处理方法及装置。

背景技术

随着在线社会网络如社交网站、微博、在线社区等的快速发展，一个真正的双向传播和新媒体时代逐步形成。在线社会网络让每个用户都能创造自己的内容，并且快速传播出去。据不完全统计，国内大型微博网站平均每秒有超过3000条的新数据产生。

在如此规模的数据基础上，在线社会网络管理者如何快速准确地获取用户活跃度成为亟待解决的问题。对此，现有技术中，还没有能够准确快捷地获取用户活跃度的方案。

发明内容

本发明提供一种数据处理方法及装置，用于解决现有技术无法准确快捷地获取用户活跃度的问题。

本发明的第一个方面是提供一种数据处理方法，包括：

接收请求设备发送的处理请求，所述处理请求包括目标网站的标识；

根据采集到的历史原始数据，获得用户在预设的目标时间范围内，在所述目标网站中发布的各类型对应的信息的平均数量，所述历史原始数据包括各用户在各网站中发布的信息；

针对每个所述类型对应的信息的平均数量，计算其与所述类型对应的预设权值的乘积，其中，所述各类型对应的权值之和为1；

计算所述各类型对应的乘积之和，获得所述用户在所述目标时间范围内相对于所述目标网站的用户活跃度；

向所述请求设备发送处理结果，所述处理结果包括所述用户活跃度。

本发明的另一个方面是提供一种数据处理装置，包括：

接收模块，用于接收请求设备发送的处理请求，所述处理请求包括目标网站的标识；

获取模块，用于根据采集到的历史原始数据，获得用户在预设的目标时间范围内，在所述目标网站中发布的各类型对应的信息的平均数量，所述历史原始数据包括各用户在各网站中发布的信息；

处理模块，用于针对每个所述类型对应的信息的平均数量，计算其与所述类型对应的预设权值的乘积，其中，所述各类型对应的权值之和为1；

所述处理模块，还用于计算所述各类型对应的乘积之和，获得所述用户在所述目标时间范围内相对于所述目标网站的用户活跃度；

发送模块，用于向所述请求设备发送处理结果，所述处理结果包括所述用户活跃度。

本发明提供的数据处理方法及装置，根据集到的历史原始数据，获得目标用户在预设的目标时间范围内，在预设的目标网站中发布的各类型对应的信息的平均数量，进而基于各类型对应的权值，获得目标用户在所述目标时间范围内相对于该目标网站的用户活跃度，实现准确快捷地获取用户的用户活跃度。

附图说明

图1为本发明实施例一提供的一种数据处理方法的流程示意图；

图2为本发明实施例二提供的一种数据处理装置的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。

图1为本发明实施例一提供的一种数据处理方法的流程示意图，如图1所示，所述方法包括：

101、接收请求设备发送的处理请求，所述处理请求包括目标网站的标识。

其中，网站具体可以为各微博网站，例如，新浪微博、腾讯微博等，具体的，网站的标识可以采用服务配置文件标识符（Service Profile Identifier，简称spID）标识。

102、根据采集到的历史原始数据，获得用户在预设的目标时间范围内，在所述目标网站中发布的各类型对应的信息的平均数量，所述历史原始数据包括各用户在各网站中发布的信息。

在实际应用中，可以以大规模的社交网络信息为基础，通过对数据结构进行设计，利用分布式架构存储并压缩，获得所述历史原始数据。具体的，所述社交网络信息可以包括发布时间、网站、发布信息的类型和用户的标识等。其中，所述类型可以包括多种情形，例如，原创、转发、评论及分享等。

进一步的，在本实施例的数据处理过程中，为了能够快速读取所述历史原始数据，可以将所述社交网络信息中的信息拼接起来，并在各信息之间使用“#”分隔。具体的，所述用户的标识可以采用用户代码（usercode）标识，所述类型的标识可以采用assetType标识，发布时间的标识可以采用date标识。举例来说，最后存储的历史原始数据的形式可以为：发布时间#网站标识#类型标识#用户的标识，即date#spID#assetType#usercode。例如，假设用户A的用户在时刻B时，在网站C中发布了类型为D的信息，则该信息对应的历史原始数据可以为B#C#D#A。

进一步的，为了节约存储空间和传输带宽，在存储之前可以对拼接后获得的数据进行压缩，具体的，可以采用压缩比和传输速度较快的Lempel-Ziv-Oberhumer，简称LZO压缩算法进行压缩。

具体的，在本实施例中所述信息的平均数量，可以为单位时长内的信息数量，则相应的，102可以包括：

根据所述历史原始数据，获得所述用户在所述目标时间范围内，在所述目标网站中发布的各类型对应的信息的数量；

分别将所述各类型对应的信息的数量除以所述目标时间范围对应的时长，获得用户在所述目标时间范围内，在所述目标网站中发布的各类型对应的信息的平均数量。

其中，所述目标时间范围对应的时长为所述目标时间范围内单位时长的个数。具体的，所述单位时长可以预先设定。需要说明的是，对于不同的单位时长，计算出的信息的平均数量也会不同，具体举例来说，假设某用户在最近一周内，在某网站中发布的某类型的信息的数量为70，则若以一天为单位时长，则所述目标时间范围对应的时长为7/1=7，相应的所述信息的平均数量为70/7=10；而若直接以一周为单位时长，则所述目标时间范围对应的时长为7/7=1，相应的所述信息的平均数量为70/1=70。

再具体的，在实际应用中，获得所述用户在所述目标时间范围内，在所述目标网站中发布的各类型对应的信息的数量的具体流程可以包括：

根据预设的目标时间范围，获得在该目标时间范围内各用户在各网站中发布的各类型对应的信息，其数据格式为：spID#assetType#usercode；

通过对上述数据进行降维处理，获得所述目标用户在所述目标时间范围内，在所述目标网站中发布的各类型对应的信息的数量，其数据格式为spID#assetType#usercode num。

具体的，可以利用格式（key，value）进行降维处理，其中的value值为key值出现的次数。进一步的，为了更加直观的理解本实施例的方案，现通过以下举例进行说明，需要说明的是，以下举例只是一种具体的实施方式，其并未对本实施例的其它实施方式进行限制。

假设当前需要统计在所述目标时间范围内，用户A在网站C中发布的类型为D的信息的数量，则可以将C#D#A作为key值，查询在所述目标时间范围内各用户在各网站中发布的各类型对应的信息。具体的，经过上述操作，输出数据的格式为C#D#A[1,1,…]，其中，当key值每出现一次，则在[1,1,…]中记一个“1”。查询完毕后，统计“1”的个数，即将key值出现的次数进行求和计算，获得value值，也就是用户A在所述目标时间范围内在网站C中，发布的类型为D的信息的数量。进一步的，输出的结果数据为C#D#A num，其中，num为value值。

103、针对每个所述类型对应的信息的平均数量，计算其与所述类型对应的预设权值的乘积，其中，所述各类型对应的权值之和为1。

具体的，不同类型的信息对于用户活跃度的贡献存在差异性，例如，原创、转发和评论类型中，原创类型的信息更能反映用户活跃度。因此，可以根据不同类型对用户活跃度的影响，设定不同类型对应的权值。例如，假设所述类型包括原创、转发和评论类型，原创类型对应的权值为0.7，转发类型对应的权值为0.2，评论类型对应的权值为0.1。则相应的，假设用户在所述目标时间范围内在所述目标网站中发布的原创、转发和评论类型对应的信息的平均数量分别为30，20，10，则原创类型对应的乘积为0.7×30=21，转发类型对应的乘积为0.2×20=4，评论类型对应的乘积为0.1×10=1。

104、计算所述各类型对应的乘积之和，获得所述用户在所述目标时间范围内相对于所述目标网站的用户活跃度。

具体的，在上述举例中，所述用户在所述目标时间范围内相对于所述目标网站的用户活跃度为21+4+1=26。

105、向所述请求设备发送处理结果，所述处理结果包括所述用户活跃度。

在实际应用中，还可以将获得的所述处理结果存储至分布式文件***中，相应的，应用***可以从所述分布式文件***中读取所述处理结果，用作进行数据分析、前台页面展示等。

此外，在实际应用场景中，为了更深入的对用户活跃度进行分析，还可以对上述历史数据进行一次性分析和历史数据对比。其中，一次性分析包括用户活跃度分析和目标网站的活跃用户分析等。历史数据对比包括分析用户活跃度的变化规律，将一段时间的分析数据进行多维比较，例如根据某用户在各时间范围内相对目标网站的用户活跃度，获得该用户的用户活跃度的变化规律和变化曲线等，能够使用户活跃度的变化规律一目了然。可选的，所述处理结果还可以包括在所述目标时间范围内，所述目标网站的活跃用户的标识；所述方法还可以包括：

针对每个所述类型，根据所述用户在所述目标时间范围内，在所述目标网站中发布的所述类型对应的信息的数量，对所述用户进行降序排名；

将排名前n的用户，确定为在所述目标时间范围内，所述目标网站的活跃用户，其中，n为预设的值。

具体的，在实际应用中，实现上述步骤的具体流程可以包括：根据spID#assetType#usercode num对应的数据，将spID#assetType#INTmax-num作为key值，对所述用户进行降序排名，其数据格式为spID#assetType#INTmax-num[usercode,usercode,…]，其中，[usercode,usercode,…]为排名后的用户标识；将[usercode,usercode,…]的各用户标识中的前n个用户标识对应的用户确定为在所述目标时间范围内，所述目标网站的活跃用户。其中，INTmax-num用于实现降序排列。

通过本实施方式，能够方便快捷地确定在目标时间范围内，目标网站的活跃用户。

可选的，在获得用户的用户活跃度之前，还可以通过本实施方式对用户进行筛选，从而节省资源。相应的，104具体可以包括：计算所述各类型对应的乘积之和，获得所述活跃用户在所述目标时间范围内相对于所述目标网站的用户活跃度。

可选的，所述处理结果还可以包括在所述目标网站中发表各类型对应的信息的用户数；在获得所述用户在所述目标时间范围内，在所述目标网站中发布的各类型对应的信息的数量之后，还可以进行以下流程：

根据spID#assetType#usercode num对应的数据，以spID#assetType为key，将usercode过滤掉，输出的数据格式为：spID#assetType[num,num,…]；

将各num进行求和，得到在所述目标网站中发表所述类型对应的信息的用户总数，其数据格式为：spID#assetType sum(num)。

通过本实施方式，能够方便快捷地统计出在所述目标网站中发表所述类型对应的信息的用户总数。

再可选的，所述处理结果还可以包括在所述目标网站中发布信息的用户总数；在获得所述用户在所述目标时间范围内，在所述目标网站中发布的各类型对应的信息的数量之后，还可以进行以下流程：

根据spID#assetType#usercode num对应的数据，以spID#usercode为key值，输出文件格式如下的数据：spID#usercode[1,1,…]；

以spID为key值，以usercode为value值，过滤掉不同类型对应的相同的value值，输出文件格式如下的数据：spId usercode；

以spID为key值，将每个usercode值记为“1”，输出文件格式如下的数据：spID[1,1,…]；

统计“1”的个数，得到所述目标网站中发布信息的用户总数，其数据格式为：spID sum(1)。

通过本实施方式，能够方便快捷地统计出在所述目标网站中发布信息的用户总数。

本发明提供的数据处理方法，根据集到的历史原始数据，获得用户在预设的目标时间范围内，在目标网站中发布的各类型对应的信息的平均数量，进而基于各类型对应的权值，获得用户在所述目标时间范围内相对于该目标网站的用户活跃度，实现准确快捷地获取用户的用户活跃度。

图2为本发明实施例二提供的一种数据处理装置的结构示意图，如图2所示，所述装置包括：接收模块21、获取模块22、处理模块23和发送模块24；其中，

接收模块21，用于接收请求设备发送的处理请求，所述处理请求包括目标网站的标识；

获取模块22，用于根据采集到的历史原始数据，获得用户在预设的目标时间范围内，在所述目标网站中发布的各类型对应的信息的平均数量，所述历史原始数据包括各用户在各网站中发布的信息；

处理模块23，用于针对每个所述类型对应的信息的平均数量，计算其与所述类型对应的预设权值的乘积，其中，所述各类型对应的权值之和为1；

处理模块23，还用于计算所述各类型对应的乘积之和，获得所述用户在所述目标时间范围内相对于所述目标网站的用户活跃度；

发送模块24，用于向所述请求设备发送处理结果，所述处理结果包括所述用户活跃度。

在实际应用中，所述装置还可以包括：采集模块，用于采集并利用分布式架构存储所述历史原始数据。

进一步的，在本实施例的数据处理过程中，为了能够快速读取所述历史原始数据，所述历史原始数据的存储形式可以为：发布时间#网站标识#类型标识#用户的标识，即date#spID#assetType#usercode。

进一步的，为了节约存储空间和传输带宽，所述装置还可以包括压缩模块，用于在存储所述历史原始数据之前，对所述历史原始数据进行压缩。具体的，可以采用压缩比和传输速度较快的Lempel-Ziv-Oberhumer，简称LZO压缩算法进行压缩。

具体的，所述获取模块可以包括：统计单元，用于根据所述历史原始数据，获得所述用户在所述目标时间范围内，在所述目标网站中发布的各类型对应的信息的数量；计算单元，用于分别将所述各类型对应的信息的数量除以所述目标时间范围对应的时长，获得用户在所述目标时间范围内，在所述目标网站中发布的各类型对应的信息的平均数量。

其中，所述目标时间范围对应的时长为所述目标时间范围内单位时长的个数，所述单位时长可以预先设定。再具体的，所述统计单元具体包括：

第一处理子单元，用于根据预设的目标时间范围，获得在该目标时间范围内各用户在各网站中发布的各类型对应的信息，其数据格式为：spID#assetType#usercode；

第二处理子单元，用于通过对上述数据进行降维处理，获得所述目标用户在所述目标时间范围内，在所述目标网站中发布的各类型对应的信息的数量，其数据格式为spID#assetType#usercode num。

在实际应用中，所述装置还可以包括：存储模块，用于将所述处理结果存储至分布式文件***中。相应的，应用***可以从所述分布式文件***中读取所述处理结果，用作进行数据分析、前台页面展示等。

此外，在实际应用场景中，为了更深入的对用户活跃度进行分析，所述处理结果还包括在所述目标时间范围内，所述目标网站的活跃用户的标识；相应的，所述装置还可以包括：

排序模块，用于针对每个所述类型，根据所述用户在所述目标时间范围内，在所述目标网站中发布的所述类型对应的信息的数量，对所述用户进行降序排名；

筛选模块，用于将排名前n的用户，确定为在所述目标时间范围内，所述目标网站的活跃用户，其中，n为预设的值。

实际应用中，所述排序模块，具体可以用于根据spID#assetType#usercodenum对应的数据，将spID#assetType#INTmax-num作为key值，对所述用户进行降序排名，其数据格式为spID#assetType#INTmax-num[usercode,usercode,…]，其中，[usercode,usercode,…]为排名后的用户标识；

所述筛选模块，具体可以用于将[usercode,usercode,…]的各用户标识中的前n个用户标识对应的用户确定为在所述目标时间范围内，所述目标网站的活跃用户。

其中，INTmax-num用于实现降序排列。通过本实施方式，能够方便快捷地确定在目标时间范围内，目标网站的活跃用户。

可选的，在获得用户的用户活跃度之前，还可以通过本实施方式对用户进行筛选，从而节省资源。相应的，处理模块23，具体用于计算所述各类型对应的乘积之和，获得所述活跃用户在所述目标时间范围内相对于所述目标网站的用户活跃度。

可选的，所述处理结果还可以包括在所述目标网站中发表各类型对应的信息的用户数；处理模块23，还可以用于根据spID#assetType#usercode num对应的数据，以spID#assetType为key，将usercode过滤掉，输出的数据格式为：spID#assetType[num,num,…]；

处理模块23，还可以用于将各num进行求和，得到在所述目标网站中发表所述类型对应的信息的用户总数，其数据格式为：spID#assetTypesum(num)。

再可选的，所述处理结果还可以包括在所述目标网站中发布信息的用户总数；处理模块23，还可以用于根据spID#assetType#usercode num对应的数据，以spID#usercode为key值，输出文件格式如下的数据：spID#usercode[1,1,…]；

处理模块23，还可以用于以spID为key值，以usercode为value值，过滤掉不同类型对应的相同的value值，输出文件格式如下的数据：spIdusercode；

处理模块23，还可以用于以spID为key值，将每个usercode值记为“1”，输出文件格式如下的数据：spID[1,1,…]；

处理模块23，还可以用于统计“1”的个数，得到所述目标网站中发布信息的用户总数，其数据格式为：spID sum(1)。

通过本实施方式，能够方便快捷地统计出在所述目标网站中发布信息的用户总数。此外，处理模块23，还可以用于根据用户在各时间范围内相对目标网站的用户活跃度，获得该用户的用户活跃度的变化规律和变化曲线。

本发明提供的数据处理装置，根据集到的历史原始数据，获得用户在预设的目标时间范围内，在目标网站中发布的各类型对应的信息的平均数量，进而基于各类型对应的权值，获得用户在所述目标时间范围内相对于该目标网站的用户活跃度，实现准确快捷地获取用户的用户活跃度。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的装置的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

本领域普通技术人员可以理解：实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时，执行包括上述各方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种数据处理方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述根据采集到的历史原始数据，获得用户在预设的目标时间范围内，在所述目标网站中发布的各类型对应的信息的平均数量，包括：

3.根据权利要求2所述的方法，其特征在于，所述处理结果还包括在所述目标时间范围内，所述目标网站的活跃用户的标识；所述获得所述用户在所述目标时间范围内，在所述目标网站中发布的各类型对应的信息的数量之后，还包括：

4.根据权利要求3所述的方法，其特征在于，所述计算所述各类型对应的乘积之和，获得所述用户在所述目标时间范围内相对于所述目标网站的用户活跃度，具体包括：

计算所述各类型对应的乘积之和，获得所述活跃用户在所述目标时间范围内相对于所述目标网站的用户活跃度。

5.根据权利要求1-4中任一项所述的方法，其特征在于，所述方法还包括：

将所述处理结果存储至分布式文件***中，以使应用***从所述分布式文件***中读取所述处理结果。

6.一种数据处理装置，其特征在于，包括：

7.根据权利要求6所述的装置，其特征在于，所述获取模块包括：

统计单元，用于根据所述历史原始数据，获得所述用户在所述目标时间范围内，在所述目标网站中发布的各类型对应的信息的数量；

计算单元，用于分别将所述各类型对应的信息的数量除以所述目标时间范围对应的时长，获得用户在所述目标时间范围内，在所述目标网站中发布的各类型对应的信息的平均数量。

8.根据权利要求7所述的装置，其特征在于，所述处理结果还包括在所述目标时间范围内，所述目标网站的活跃用户的标识；所述装置还包括：

9.根据权利要求8所述的装置，其特征在于，

所述处理模块，具体用于计算所述各类型对应的乘积之和，获得所述活跃用户在所述目标时间范围内相对于所述目标网站的用户活跃度。

10.根据权利要求6-9中任一项所述的装置，其特征在于，所述装置还包括：

存储模块，用于将所述处理结果存储至分布式文件***中，以使应用***从所述分布式文件***中读取所述处理结果。