CN106971011A

CN106971011A - 一种基于云平台的大数据分析方法

Info

Publication number: CN106971011A
Application number: CN201710356074.2A
Authority: CN
Inventors: 陈彬强; 蔡勇
Original assignee: Zhaoqing Chicco Motor Co Ltd
Current assignee: Zhaoqing Chicco Motor Co Ltd
Priority date: 2017-05-19
Filing date: 2017-05-19
Publication date: 2017-07-21

Abstract

本发明实施例公开了一种基于云平台的大数据分析方法，所述方法包括：确定数据分析目标和计划；根据确定的数据分析目标和计划，创建基于云平台的大数据的分析架构；获得待分析的大数据，并进行数据准备和处理；对数据进行数据过滤，得到完整且不重复的数据；对数据进行聚类，并对数据分析；对结果进行测试、验证、评估和部署。利用本发明实施例，提高了大数据分析的准确性、及时性和灵活性。

Description

一种基于云平台的大数据分析方法

技术领域

本发明涉及大数据分析技术领域，特别涉及一种基于云平台的大数据分析方法。

背景技术

随着社会工业化、信息化水平的不断提高，如今数据已取代计算成为信息计算的中心，云计算、大数据正在成为一种趋势和潮流。包括存储容量、可用性、I/O 性能、数据安全性、可扩展性等诸多方面。大数据是规模非常巨大和复杂的数据集。大数据有4V：Volume(大量)，数据量持续快速增加；Velocity(高速)，数据 I/O速度更快；Variety(多样)，数据类型和来源多样化；Value(价值)，其存在各方面的可用价值。由于大数据中包含海量的信息，在对海量信息中的可用数据资源进行分布式的大数据分析和挖掘是最优选方式。然而，现有技术中的分布式数据***和相关联的数据库不能满足于日益增长的数据量和分析挖掘需求，而且数据处理效率不够高，响应不够及时，因为其不能够有效地获得、存储、管理、挖掘和分析这种特征的数据，难以体现数据处理的准确性、及时性和灵活性。

因此，为了能够迎接大数据时代的挑战，提高大数据分析的准确性、及时性和灵活性，特别是提高分析结果的准确性、及时性和灵活性并改善其质量，本领域中需要一种能够有效解决上述技术问题的大数据信息分析方法。

发明内容

本发明实施例的目的在于提供一种基于云平台的大数据分析方法，提高大数据分析的准确性、及时性和灵活性。

为达到上述目的，本发明实施例公开了一种基于云平台的大数据分析方法，方法包括：

确定数据分析目标和计划；

根据确定的数据分析目标和计划，创建基于云平台的大数据的分析架构；

获得待分析的大数据，并进行数据准备和处理；

对数据进行数据过滤，得到完整且不重复的数据；

对数据进行聚类，并对数据分析；

对结果进行测试、验证、评估和部署。

可选的，其中针对不同数据具有的不同特征、特性和/或属性来挖掘分析要求和属性对象。

可选的，所述分析架构可采用中央数据处理架构，或者分布式数据处理架构。

可选的，所述分析架构可以是基于大数据的特性的任意形式的架构。

可选的，所述获得待分析的大数据，并进行数据准备和处理，包括：

为了处理数据，先传载数据；

存储数据；

将数据转换为一种形式，该形式是一对二进制格式的值；

获取数据的标识符及对应的描述；

每隔预定的时间段更新数据，但需确保不能传载所有的数据。

可选的，所述时间段为根据需要或者数据特点来人工或机器自动设置的。

可选的，所述对数据进行聚类，并对数据分析，包括：

识别相关联的数据；

确定每个待处理的数据点；

使用聚类机器学习算法来减少数据量；

使用该聚类机器学习算法来分析数据集。

可选的，所述对数据进行聚类，并对数据分析，包括：

针对每个待处理的数据点，生成一对二进制格式的值；

一对二进制格式的值进一步包括聚类标识符并且对应于该数据点的坐标值；

为每个聚类生成输入的和；

发送与相同的聚类有关的值；

将聚类的结果存储为不相关的数据。

可选的，所述机器学习算法是均值算法。

可选的，所述对数据进行数据过滤，得到完整且不重复的数据，包括：

利用Hadoop分布式模式，对数据进行数据过滤，得到完整且不重复的数据。

可见，利用本发明实施例提供的一种基于云平台的大数据分析方法，确定数据分析目标和计划；根据确定的数据分析目标和计划，创建基于云平台的大数据的分析架构；获得待分析的大数据，并进行数据准备和处理；对数据进行数据过滤，得到完整且不重复的数据；对数据进行聚类，并对数据分析；对结果进行测试、验证、评估和部署。从而，能够迎接大数据时代的挑战，提高大数据分析的准确性、及时性和灵活性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种基于云平台的大数据分析方法的流程示意图。

图2为本发明实施例提供的图1中步骤S103的一种流程图。

图3为本发明实施例提供的图1中步骤S105的一种流程图。

图4为本发明实施例提供的图1中步骤S105的另一种流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1为本发明实施例提供的一种基于云平台的大数据分析方法的流程示意图。如图1所示，该方法可以包括如下步骤：

S101，确定数据分析目标和计划；

S102，根据确定的数据分析目标和计划，创建基于云平台的大数据的分析架构；

S103，获得待分析的大数据，并进行数据准备和处理；

S104，对数据进行数据过滤，得到完整且不重复的数据；

S105，对数据进行聚类，并对数据分析；

S106，对结果进行测试、验证、评估和部署。

根据本发明的实施例，首先，在步骤 S101中，确定数据分析目标和计划。其中针对不同数据具有的不同特征、特性和/或属性来挖掘分析要求和属性对象。因为不同的数据具有不同的特征、特性和/或属性，例如社交媒体的大数据基于人与人之间的交互；军事新闻的大数据隐含或集中了军用武器或军事动向的数据；社会新闻的大数据反映了舆论导向和包括自媒体发布人员的意识倾向；针对某一个国家、地区或研究机构的技术新闻的大数据包含了其研究重点、人员和资金投入情况、产出效率、可能应用范围以及对研究和应用领域的引领作用/影响，等等。针对这些上下文背景，需要有针对不同数据的挖掘分析要求和属性对象，从而可以增强大数据分析的针对性，为之后的聚类分析的准确性奠定坚实的基础。

其次，在步骤 S102 中，根据确定的数据分析目标和计划，创建基于大数据的分析架构。具体的，所述分析架构可以是基于大数据的特性的任意形式的架构。因为不同的数据具有不同的特征、特性和/或属性，所以基于此，可针对性的结合其来搭建架构。该架构可基于任意的架构，例如但不限于：可采用中央数据处理架构，或者分布式数据处理架构，当然也可以采用其它形式的架构，但前提是基于大数据的特性。

再次，在步骤 S103中，获得待分析的大数据，并进行数据准备和处理。图2为本发明实施例提供的S103的流程图。如图2所示，获得待分析的大数据，并进行数据准备和处理，数据的准备工作能够为后续分析提供保障。具体而言，可以包括如下步骤：A1：为了处理数据，先传载数据；A2：存储数据；A3：将数据转换为一种形式，该形式是一对二进制格式的值；A4：获取数据的标识符及对应的描述；A5：每隔预定的时间段更新数据，但需确保不能传载所有的数据，该时间段可根据需要或者数据特点来人工或机器自动设置。通过上述步骤，数据得以进行初步处理，为准确分析作准备。

再次，在步骤S104中，可以利用Hadoop分布式模式，对数据进行数据过滤，得到完整且不重复的数据。

其中，Hadoop是一个由Apache基金会所开发的分布式***基础架构。用户可以在不了解分布式底层细节的情况下，开发分布式程序。充分利用集群的威力进行高速运算和存储。

Hadoop实现了一个分布式文件***（Hadoop Distributed File System），简称HDFS。HDFS有高容错性的特点，并且设计用来部署在低廉的（low-cost）硬件上；而且它提供高吞吐量（high throughput）来访问应用程序的数据，适合那些有着超大数据集（largedata set）的应用程序。HDFS放宽了（relax）POSIX的要求，可以以流的形式访问（streamingaccess）文件***中的数据。

Hadoop的框架最核心的设计就是：HDFS和MapReduce。HDFS为海量的数据提供了存储，则MapReduce为海量的数据提供了计算。

再次，在步骤S105中，对数据进行聚类，并对数据分析。根据本发明的实施例，图3为本发明实施例提供的一种S105的流程图，图示了对数据进行聚类以及分析的流程图。具体而言，可以包括如下步骤：B1：识别相关联的数据；B2：确定每个待处理的数据点；B3：使用聚类机器学习算法来减少数据量；B4：使用该聚类机器学习算法来分析数据集。

并且，图4为本发明实施例提供的另一种S105的流程图。如图4所示，所述对数据进行聚类，并对数据分析，可以包括如下步骤：B1：识别相关联的数据；B2：确定每个待处理的数据点；B3：使用聚类机器学习算法来减少数据量；B4：使用该聚类机器学习算法来分析数据集；B5：针对每个待处理的数据点，生成一对二进制格式的值；B6：一对二进制格式的值进一步包括聚类标识符并且对应于该数据点的坐标值；B7：为每个聚类生成输入的和；B8：发送与相同的聚类有关的值；B9：将聚类的结果存储为不相关的数据。通过上述步骤，基于大数据所获得的数据被详细分析，从而极大地提高了大数据分析的准确性。优选地，在步骤B3和B4中，机器学习算法例如可以是均值算法。

最后，在步骤 S106中，对结果进行测试、验证、评估和部署。具体地，在步骤 S106中，对结果进行测试、验证、评估和部署的方式是任意的，可采用现有的和以后开发的各种方式。

可见，通过以上处理，大数据的信息分析方法能够完全迎接大数据时代的挑战，提高大数据分析的准确性、及时性和灵活性。

需要说明的是，在本文中，诸根据第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本领域普通技术人员可以理解实现上述方法实施方式中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，所述的程序可以存储于计算机可读取存储介质中，这里所称得的存储介质，根据：ROM/RAM、磁碟、光盘等。

以上所述仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种基于云平台的大数据分析方法，其特征在于，所述方法包括：

确定数据分析目标和计划；

获得待分析的大数据，并进行数据准备和处理；

对数据进行数据过滤，得到完整且不重复的数据；

对数据进行聚类，并对数据分析；

对结果进行测试、验证、评估和部署。

2.根据权利要求1所述的方法，其特征在于，其中针对不同数据具有的不同特征、特性和/或属性来挖掘分析要求和属性对象。

3.根据权利要求2所述的方法，其特征在于，所述分析架构可采用中央数据处理架构，或者分布式数据处理架构。

4.根据权利要求2所述的方法，其特征在于，所述分析架构可以是基于大数据的特性的任意形式的架构。

5.根据权利要求1-4任一项所述的方法，其特征在于，所述获得待分析的大数据，并进行数据准备和处理，包括：