CN104216889A

CN104216889A - 基于云服务的数据传播性分析预测方法及***

Info

Publication number: CN104216889A
Application number: CN201310210101.7A
Authority: CN
Inventors: 许立志; 张丹; 杨建武; 梁汝峰
Original assignee: Peking University; Peking University Founder Group Co Ltd; Beijing Founder Electronics Co Ltd
Current assignee: New Founder Holdings Development Co ltd; Peking University; Beijing Founder Electronics Co Ltd
Priority date: 2013-05-30
Filing date: 2013-05-30
Publication date: 2014-12-17
Anticipated expiration: 2033-05-30
Also published as: CN104216889B

Abstract

本发明公开了一种基于云服务的数据传播性分析预测方法及***，首先在需要进行数据分析预测的多个地点分别建立云端，并建立与云端相对应的多个数据分析云平台，每个分析云平台对其对应云端所采集或接收到的网络数据进行数据分类，然后建立所有云端共享的数据模型库，将分析云平台分类后的网络数据加入数据模型库的数据模型中，对不同数据模型进行网络数据的监控、挖掘和分析，最后通过数据交互平台，展示数据模型库的分析和挖掘结果。通过本发明所述的方法及***，能够提供有效的数据挖掘模型库，可以根据用户需要通过交互平台展示给用户最有效最关心的信息，并可监控分析信息的传播趋势，提供有效的数据传播性分析预测。

Description

基于云服务的数据传播性分析预测方法及***

技术领域

本发明涉及数据挖掘分析及前端交互技术领域，具体涉及一种基于云服务的数据传播性分析预测方法及***。

背景技术

研究机构We are social日前发布了中国社交、数字、移动行业数据报告，值得注意的是，中国互联网用户超过欧盟总人口，18至27岁中国网民平均每天上网5个小时，中国网民每秒钟搜索量达1万次。此外，中国的社交网络使用率增速迅猛，2011年微博服务实现***性增长，街旁等LBS服务也大踏步起飞。中国网民4.85亿，互联网普及率36%。手机用户近9.2亿，手机普及率67%。中国每月新增互联网用户约1000万。

网民的高速增长，以及各种社交平台的普及，包括新浪微博，腾讯微信，人人网，开心网等，尤其移动客户端的数据流量要远超PC端，人们交流习惯的改变，使得信息传播的速度大大加快。如何及时获取有效的信息，并加以分析，预测出未来的传播方向，以及如何及时的将这部分信息展示给关心数据传播方向的人们，将是一个很重要的课题。目前市场上少有对数据传播性的分析预测方法，一方面是由于数据传播太快，一方面是由于没有***的对数据传播地域进行规划。每个应用***都有自己的一套规则，一套模型，数据来源大多是各自的数据库，根据数据之间的关联关系挖掘数据。在各自的业务领域内，有的发现了好的数据挖掘模型，从而获得了正确的分析结果，从中获得商机，而有的却没办法挖掘出有价值的结果，当然有的是因为数据的问题，有的是因为缺乏良好的数据模型。本发明能够***的解决上述问题，提供有效的数据挖掘模型库，完整的挖掘各领域数据，并展示给用户最有效最关心的信息。

发明内容

针对现有技术中存在的缺陷以及实际应用的需要，本发明的目的在于提供一种基于云服务的数据传播性分析预测方法及***，提供有效的网络数据分析预测方法和实时的数据交互平台。

为实现上述目的，本发明采用的技术方案如下：

一种基于云服务的数据传播性分析预测方法，包括以下步骤：

（1）在需要进行数据分析预测的多个地点分别建立云端；所述的云端用于本地采集各自地点内的网络数据或者接收其它云端所发送的网络数据；

（2）建立与所述云端相对应的多个数据分析云平台，每个分析云平台对其对应云端所采集或接收到的网络数据进行数据分类；

（3）建立所有云端共享的数据模型库，将分析云平台分类后的网络数据加入数据模型库的数据模型中，对不同数据模型进行网络数据的监控、挖掘和分析；

（4）建立数据交互平台，展示数据模型库的分析和挖掘结果；所述的数据交互平台还用于分析云平台间的数据交互。

一种基于云服务的数据传播性分析预测***，包括：

云端建立模块：用于在需要进行数据传播性分析预测的多个地点内分别建立云端；所述的云端用于本地采集各自地点内的网络数据或者接收其它云端所发送的网络数据；

分析云平台建立模块：用于建立与所述云端相对应的多个数据分析云平台，每个分析云平台对其对应云端所采集到或接收到的网络数据进行数据分类；

数据模型库建立模块：用于建立所有云端共享的数据模型库，将分析云平台分类后的网络数据加入数据模型库的数据模型中，对不同数据模型进行网络数据的监控、挖掘和分析；

交互平台建立模块：用于建立数据交互平台，展示数据模型库的分析和挖掘结果；所述的数据交互平台还用于分析云平台间的数据交互。

本发明的有益效果在于：本发明所述的方法及***，能够提供有效的数据挖掘模型库，记录完善各领域数据，并进行数据分类，可以根据用户需要通过交互平台展示给用户最有效最关心的信息，并可监控分析信息的传播趋势，提供有效的数据传播性分析预测，提供数据分析挖掘结果。

附图说明

图1为本发明一种基于云服务的数据传播性分析预测***的结构框图；

图2为本发明基于云服务的数据传播性分析预测方法的流程图；

图3为具体实施方式中云端的框架布置示意图；

图4为具体实施方式中云分析平台的框架布置示意图；

图5为具体实施方式中数据交互平台的示意图。

具体实施方式

下面结合说明书附图与具体实施方式对本发明做进一步的详细说明。

图1示出了本发明一种基于云服务的数据传播性分析预测***的结构框图，该***主要包括云端建立模块11、分析云平台建立模块12、数据模型库建立模块13和交互平台建立模块14，其中：

云端建立模块11用于在需要进行数据传播性分析预测的多个地点内分别建立云端；所述的云端用于本地采集各自地点内的网络数据或者接收其它云端所发送的网络数据；

分析云平台建立模块12用于建立与所述云端相对应的多个数据分析云平台，每个分析云平台对其对应云端所采集到或接收到的网络数据进行数据分类；

数据模型库建立模块13用于建立所有云端共享的数据模型库，将分析云平台分类后的网络数据加入数据模型库的数据模型中，对不同数据模型进行网络数据的监控、挖掘和分析；

交互平台建立模块14用于建立数据交互平台，展示数据模型库的分析和挖掘结果；所述的数据交互平台还用于分析云平台间的数据交互；该模块包括还包括了以下几个单元：

数据挖掘单元：用于在交互平台展示数据分析挖掘结果；

传播分析单元：用于由数据交互平台提供网络数据的传播性分析图；

预警单元：用于对数据分析挖掘结果以及数据传播性分析可能引起的结果，作出预警；

预处理单元：用于针对预警单元作出的预警，提供有效的解决方案。

当然，数据挖掘单元、传播分析单元、预警单元以及预处理单元都是可以根据需要的不同的数据信息类型进行定制，由数据交互平台提供数据。

图2示出了基于图1中基于云服务的数据传播性分析预测***的一种基于云服务的数据传播性分析预测方法的流程图，该方法包括以下步骤：

步骤S21：在需要进行数据分析预测的多个地点分别建立云端;

首先，建立基于云的数据中心，本发明云数据中心的建立时在需要进行数据分析预测的多个地点分别建立云端，云端用于本地采集各自地点内的网络数据或者接收其它云端所发送的网络数据。

建立云端的地点是指具有数据特征分布的多个地点，数据特征是指具有相同属性的数据，所述的属性相同包括数据的来源区域相同、来源网站相同或者数据的发布平台相同。例如希望网络数据以目标网站分开，像微博数据，可以分别建立新浪，腾讯，网易，搜狐的数据云端。大多数情况下，需求目标决定原始的数据特征，而在中国，海量数据的传播性分析，无疑以区域分布是最合适的，所以本实施方式中以区域为数据特征，在不同的多个区域内分别建立云端，如以省市自治区、香港、澳门等N个区域分别建立云端，N个云端组成云网络，每个云端负责收集器所在区域的网络数据，并接收其它云端发送的带有该云端区域数据特征（即属于该区域）的数据。

云端，即为数据云，以云端为中心，本地采集或者接收其他云端发送的带有该云端数据特征的数据，云端的建立的技术已经很成熟，在数据共享传输上，则需要定义更加好的接口条件。本实施方式中云端进行网络数据采集的方式包括以下几种级别的采集方式：

级别一：云端通过雷达，配置相应的模板采集数据；或是通过各社交平台提供的数据获取接口，获取数据。日数量级在千万级。

级别二：由各大门户网站，社交平台主动的推送数据，对各个社交平台，门户网站建立数据通道，对方累积一定数量的数据，即通过通道实时传输。再加上级别一收集的数据，日数量级亿级。

级别三：由各地区电信，联通部门数据分流，所有中转部门（即数据筛选层，对所有接收到的数据，根据定义好的格式进行筛选）在接收到数据包准备转发的时候，复制一份发往该地区的云端，云端接收并针对不同的数据包，进行解析入库。日数量级十亿-百亿级。

步骤S22：建立与所述云端相对应的多个数据分析云平台;

建立与步骤S21中的所述云端相对应的多个数据分析云平台，每个分析云平台对其对应云端所采集或接收到的网络数据进行数据分类。如建立了N个云端，N个云端都辅以分析云平台，建立N个分析云平台，由分析云平台完成其所对应的云端的网络数据的整理分析，该整理分析是指数据的基础分类，进行分类的具体方式如下：

①首先，根据网络数据的来源进行数据分类，将网络数据分为来自移动端和PC端的数据；

②然后，根据网络数据的数据类型进行分类；所述的数据类型包括新闻、论坛、博客和微博等；

③之后，对同一数据类型下的网络数据进行再分类，同一数据类型下的数据包括政治、经济、文化、体育、社交和生活等；

④对再分类后的网络数据建立索引，建立索引时，根据数据的发布区域、发布时间、内容（关键词）、发布人建立索引。

步骤S23：建立所有云端共享的数据模型库，对不同数据模型进行数据监控、挖掘和分析;

建立所有云端共享的数据模型库，将分析云平台分类后的网络数据加入数据模型库的数据模型中，对不同数据模型进行网络数据的监控、挖掘和分析。

不同的行业，不同的领域，分析数据的模式，观看问题的角度是不一样的，因此，不同的领域即使是面对相同的数据也会建立不同的数据模型去分析。所以，数据模型库的建立就尤为重要，可谓是分析云平台的核心。数据模型库为所有数据提供不同的分析方法。各个地区的云端共享一个数据模型库，根据地区的需求，或是总的需求，从数据模型库中选取适当的数据模型进行分析。数据模型库的建立可以收集已有的数据模型，如连锁超市的雪花模型，电商数据分析模型等；或是根据不同领域的需求，建立新的数据模型，新数据模型的建立基于对行业数据分析的理解，用户也可以自行提供数据模型。建立模型的技术已经很成熟，但是最后需要建立成什么样的模型，不同的人对该行业的理解可能建立出不同的模型，所以需要在不断的实践中总结出最适合某一行业的模型，加入数据模型库，模型库的建立是一个需要积累，并不断完善的过程。

完成数据模型库的建立后，将各分析云平台分类后的网络数据加入到数据库的不同数据模型中，对数据进行监控、分析及挖掘，具体方式如下：

数据实时性变化监控

数据实时性变化监控应该按照需求，同时在N个云端对需求的数据进行监控。在数据存储到各个云端之前建立过滤墙，对监控点的数据进行过滤（所谓过滤，即筛选出符合某一数据模型的数据），记录设定时间间隔内增长的数据量。对某一监控点的数据变化，实时传输给交互平台，交互平台搜集来自N个分析云端的数据变化，并且提供Map方式查看各个区域内信息量的增长变化，这样既可达到判断未来的传播方向，以及时做出解决方案的安排的目的。

数据挖掘，行为习惯分析

对于庞大数据的数据挖掘，是一直以来非常重要的课题。数据类型的不同分类，事物之间的关联关系，有完整的数据挖掘***，然而一直缺少的是好的数据挖掘模型。中国是一个多民族的国家，属于季风性气候区，我国南北相距5500千米，东西相距5200千米，地形复杂，丘陵，平原，高原等等，东西横跨5个时区，这也导致各个地区之间的行为习惯，生活习惯的不同，所以，分区域的搜集数据进行挖掘，及区域之间的对比，非常的重要。

所以，挖掘的第一步是针对各自区域内的数据进行挖掘，根据区域内某个领域的模型库中已存在的数据模型进行数据分析挖掘，得到分析挖掘结果；然后，分析不同区域内的数据分析挖掘结果的异同性，以判断区域内分析挖掘结果的正确性。

还可以对数据交互平台不同时间段内讨论的话题（热门话题）进行聚类分析。将单独区域内的聚类结果，挖掘结果提供给交互平台，由交互平台直观的展示给用户。挖掘的方向大致包括，在不同的时间段内，数据流向，上网习惯，即按浏览新闻，游戏，社交等方式区分。

历史数据归档策略

对于历史数据，由于每日互联网上的数据太多，淘汰率非常高。但并不是所有的历史数据都是无用的，有效历史数据的积累，对于数据挖掘很重要。在进行历史数据的归档时，处理方式如下：

首先，需要建立关键词库，涉及关键词部分的即可认为是有效数据，即云端有关键词的历史网络数据保留；

第二，对于已被分析挖掘过的历史网络数据不再做保留，否则积攒的无用数据太多，被分析挖掘的数据的分析挖掘结果当成是有效数据，即保留，可作为二次挖掘使用，二次挖掘，对每日的数据挖掘结果进行长期的跟踪及再次分析，对比异同性，确保挖掘结果的正确性。

步骤S24：建立数据交互平台，展示数据模型库的分析和挖掘结果。

建立数据交互平台，展示数据模型库的分析和挖掘结果；所述的数据交互平台还用于分析云平台间的数据交互。数据交互平台的建立依赖于分析云平台。交互平台按照不同用户的需求建立各自的账号，用户可通过自己的账号登陆平台，查看自己关心的数据传播变化，以及结果预测。

前端的框架（数据交互平台）尤其需要注重稳定的性能，优异的交互速度以及易扩展性，易维护性。所有的一切，都是为了保证优秀的交互体验。在服务器环境中，处理二进制数据通常是必不可少的，但JavaScript对此支持不足，因此，如果像GoogleV8引擎.Node增加了Buffer类，方便并且高效地处理二进制数据，这样就能有效的提高运行速度，例如node.js框架。以目前的技术和发展来说，基于HTML5框架的数据交互平台是最为合适的。

目前随着移动客户端的快速发展，各种触摸屏实现了非常好的交互体验，而且也让数据传播更加具有时效性，人们可以随时随地的查看自己想要的信息。实现触控交互，就需要专业的手势控制JavaScript库，基于HTML5的多点触控技术，提供了多种的手势操作，例如hammer.js。页面需要良好的框架以便于维护和扩展，加上HTML5多点触控技术提高用户体验。同样CSS端也需要严谨的架构，便于维护或个性化定制，例如SimpLess。

数据交互平台因为需要提供分析结果，那么统计图是必不可少的，HTML5的Canvas技术，同样提供了一个很好的平台，可扩展性非常强，可设计汇出自己想要的各种统计图。Flotr2就是这样的一款插件，在主流的移动浏览器上均可提供良好的展示效果

数据交互平台，除了提供数据挖掘后的分析结果（数据挖掘单元），以及所关心类型的传播性分析预测，还应提供所关心信息类型的预警以及预处理，也就是说数据交互平台还应根据数据的分析挖掘结果进行数据的传播性分析，提供网络数据的传播性分析图（传播分析单元），并根据分析挖掘结果以及数据的传播性分析可能引起的结果，作出预警（预警单元），根据预警提供有效的解决方案（预处理单元）。

图3、图4和图5分别示出了本实施方式中云端的框架布置示意图、云分析平台的框架布置示意图和数据交互平台的框架布置示意图。图3中，数据云端采集来自移动端和PC端的各种网络数据，通过过滤墙过滤后，由分析云平台进行分析处理，如图4所示，分析云平台将数据云端采集到的各种数据首先分类为来自移动端和PC端的数据，然后再根据数据的类型将数据分为新闻、论坛、博客和微博等数据，之后再将同一类型下的数据进行再分类，分为政治、经济、文化、体育、社交和生活等。由分析云平台完成网络数据的基本分类后，再通过数据模型库对数据进行挖掘分析，最后通过图5中所示的数据交互平台将各分析云平台的数据分析挖掘结果展示出来，用户也可以根据需要登录数据交互平台定制所需的信息。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其同等技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种基于云服务的数据传播性分析预测方法，包括以下步骤：

（4）建立数据交互平台，展示数据模型库的分析挖掘结果；所述的数据交互平台还用于分析云平台间的数据交互。

2.如权利要求1所述的一种基于云服务的数据传播性分析预测方法，其特征在于：所述的地点是指具有数据特征分布的多个地点，数据特征是指具有相同属性的数据，所述的属性相同包括数据的来源区域相同、来源网站相同或者数据的发布平台相同。

3.如权利要求2所述的一种基于云服务的数据传播性分析预测方法，其特征在于：步骤（1）中，在将采集到或者接收到的网络数据存储到各个云端前建立过滤墙，按照某一数据模型对网络数据进行过滤存储。

4.如权利要求3所述的一种基于云服务的数据传播性分析预测方法，其特征在于，步骤（1）中，当以数据的来源区域相同作为数据特征，在多个不同的区域分别建立云端时，每个云端进行网络数据采集的具体方式为：

a.云端通过雷达，配置相应的数据采集模块进行数据采集，或者通过各社交平台提供的数据获取接口，获取网络数据；

b．对各大门户网站和社交平台建立数据通道，各大门户网站和社交平台主动将网络数据推送到云端；

c．由区域的电信、联通部门的数据中转部门在接收到数据包准备转发时，复制一份发送到该区域的云端；所述的数据中转部分是指数据筛选层，数据筛选层根据设置好的格式进行数据的筛选。

5.如权利要求4所述的一种基于云服务的数据传播性分析预测方法，其特征在于，步骤（2）中，分析云平台对其对应云端所采集到或接收到的网络数据进行数据分类的具体方式为：

①根据网络数据的来源进行数据分类，将网络数据分为来自移动端和PC端的数据；

②根据网络数据的数据类型进行分类；所述的数据类型包括新闻、论坛、博客和微博；

③对同一数据类型下的网络数据进行再分类，同一数据类型下的数据包括政治、经济、文化、体育、社交和生活；

④对再分类后的网络数据建立索引。

6.如权利要求5所述的一种基于云服务的数据传播性分析预测方法，其特征在于，步骤④中，按照再分类后的网络数据的区域、发布时间、内容和发布人对分类后的网络数据建立索引。

7.如权利要求6所述的一种基于云服务的数据传播性分析预测方法，其特征在于，步骤（3）中，建立数据模型库的具体方式为：

收集已有的数据模型，加入数据模型库；或者根据不同行业领域的需求，建立新的数据模型，加入数据模型库。

8.如权利要求1所述的一种基于云服务的数据传播性分析预测方法，其特征在于，步骤（3）中，对不同数据模型进行网络数据监控、挖掘和分析的具体方式为：

根据需求，同时在多个云端对需求的数据进行实时监控，记录设定时间间隔内增长的数据量，并将监控点的数据变化实时传输给数据交互平台；

根据区域内某个领域的数据模型进行数据分析挖掘，得到分析挖掘结果，并分析不同区域内该领域分析挖掘结果的异同性，以判断区域内分析挖掘结果的正确性；

对数据交互平台不同时间段内热门的话题进行聚类分析，并将单独区域的聚类分析结果发送到数据交互平台。

9.如权利要求8所述的一种基于云服务的数据传播性分析预测方法，其特征在于，步骤（3）中，还包括对历史网络数据进行归档处理，对历史网络数据进行归档的具体方式为：

建立关键词库，查看云端所存储的历史网络数据是否包含有关键词，若是则保留该历史网络数据，若否则删除；

删除已经进行过数据分析挖掘的历史网络数据，保留该历史网络数据的分析挖掘结果。

10.如权利要求8所述的一种基于云服务的数据传播性分析预测方法，其特征在于：所述的数据交互平台还用于根据数据的分析挖掘结果进行数据的传播性分析，提供网络数据的传播性分析图，并根据分析挖掘结果以及数据的传播性分析可能引起的结果，作出预警，根据预警提供有效的解决方案。

11.一种基于云服务的数据传播性分析预测***，包括：

12.如权利要求11所述的一种基于云服务的数据传播性分析预测***，其特征在于，所述的交互平台建立模块包括：

数据挖掘单元：用于在交互平台展示数据分析挖掘结果；