CN105787064A

CN105787064A - 一种基于大数据的挖掘平台构建方法

Info

Publication number: CN105787064A
Application number: CN201610113818.3A
Authority: CN
Inventors: 李丽; 陈鹏; 唐彬
Original assignee: Guangzhou Mc Science And Technology Co Ltd
Current assignee: Guangzhou Mc Science And Technology Co Ltd
Priority date: 2016-03-01
Filing date: 2016-03-01
Publication date: 2016-07-20

Abstract

本发明公开一种基于大数据的挖掘平台构建方法，适用于处理不同规模、类型多样的数据集。本发明体系架构如图1所示，自底向上分为三层：数据集成平台、Java驱动引擎、可视化展示与应用层，适用于处理不同规模、类型多样的海量数据，允许结果在PC端及移动端展示，并应用于智慧医疗、智慧公安、智慧通信等方面。

Description

一种基于大数据的挖掘平台构建方法

技术领域

本发明涉及一种基于海量数据的挖掘平台构建方法，分数据集成平台、Java驱动引擎、可视化展示与应用层三部分，适用于处理不同规模、类型多样的海量数据，允许结果在PC端及移动端展示，并应用于智慧医疗、智慧公安、智慧通信等方面。

背景技术

在理想的世界中，大数据是巨大的杠杆，可以改变公司的影响力，带来竞争差异、节省金钱、增加利润、愉悦买家、奖赏忠诚用户、将潜在客户转化为客户、增加吸引力、打败竞争对手、开拓用户群并创造市场。

大数据在当下的杰出表现有：

大数据帮助政府实现市场经济调控、公共卫生安全防范、灾难预警、社会舆论监督；

大数据帮助城市预防犯罪，实现智慧交通，提升紧急应急能力；

大数据帮助医疗机构建立患者的疾病风险跟踪机制，帮助医药企业提升药品的临床使用效果，帮助艾滋病研究机构为患者提供定制的药物；

大数据帮助航空公司节省运营成本，帮助电信企业实现售后服务质量提升，帮助保险企业识别欺诈骗保行为，帮助快递公司监测分析运输车辆的故障险情以提前预警维修，帮助电力公司有效识别预警即将发生故障的设备；

大数据帮助电商公司向用户推荐商品和服务，帮助旅游网站为旅游者提供心仪的旅游路线，帮助二手市场的买卖双方找到最合适的交易目标，帮助用户找到最合适的商品购买时期、商家和最优惠价格。

发明内容

本发明提供一种基于大数据的挖掘平台构建方法，利用该平台进行数据挖掘，解决社会问题，商业营销问题，科学技术问题。未来还有一个可预见的趋势是以人为本的大数据方针，人才是地球的主宰，大部分的数据都与人类有关，要通过大数据解决人的问题。

为了实现上述目的，所构建***的体系结构从下往上包括如下几个层级：数据集成平台，Java驱动引擎，可视化展示与应用层。

一种基于大数据的挖掘平台构建方法，其中所述数据集成平台包括如下几个步骤：

步骤一：自主研发爬虫平台，爬虫平台抓取外部数据及网页数据，其中外部数据包括用户数据、竞争者数据、供应商数据等；网页数据包括利用网络爬虫技术对相关网站进行信息抓取，形成半结构化以及非结构化的信息，网络信息抓取的时候，一开始指定的抓取对象非常重要，如对于行业政策，指定抓取相关的政府官方网站、行业协会网站会使得抓取的效果更好；

步骤二：对外部数据及抓取下来的信息进行数据预处理，包括页面信息解析、数据清洗和内容提取，对重复文章信息进行去重，并进行文本分词、特征提取以及关键词提取，以从噪音数据中分离出有用的信息以及减少数据的维数；

步骤三：Hadoop平台用来存储数据，包括：Hadoop分布式文件***（HDFS）子平台，ZooKeeper子平台，Hbase子平台，Hive子平台，HadoopMapReduce子平台；其中Hadoop分布式文件***（HDFS），支持对应用数据高吞吐量访问的分布式文件***；其中HadoopMapReduce是基于YARN的大数据并行处理***；其中Hive是用于Hadoop的一个数据仓库***，它提供了类似于SQL的查询语言，通过使用该语言，可以方便地进行数据汇总，特定查询以及分析存放在Hadoop兼容文件***中的大数据；其中Hbase是一种分布的、可伸缩的大数据储存库，支持随机、实时读/写访问；其中ZooKeeper是一种集中服务，其用于维护配置信息，命名，提供分布式同步，以及提供分组服务，安装这些项目，并手动地将它们集成到Hadoop中。

一种基于大数据的挖掘平台的构建方法，其中所述Java驱动引擎包括如下几个模块：分布式数据缓存管理模块，数据可视化视图管理、配置引擎模块；

所述分布式数据缓存管理模块，包括可扩展模块和大数据底层引擎模块，其中可扩展模块包括ORM数据持久模块，MySQL数据驱动引擎和Druid数据源连接池引擎；其中ORM数据持久模块是为整个项目提供一个高层、统一、安全和并发的数据持久机制，完成对各种数据进行持久化的编程工作，并为***业务逻辑层提供服务，合理的数据持久层和设计能够简化数据增、删、改、查等功能的开发过程，同时又不丧失多层结构的天然优势，继承延续J2EE特有的可伸缩性和可扩展性；其中MySQL数据驱动引擎包含Innodb和MyIASM两种引擎，MyIASM是MySQL默认的引擎，但是它没有提供对数据库事务的支持，也不支持行级锁和外键，Innodb引擎提供了对数据库ACID事务的支持，并且实现了SQL标准的四种隔离级别；其中Druid数据源连接池引擎可以监控数据库访问性能，Druid内置提供了一个功能强大的StatFilter插件，能够详细统计SQL的执行性能，还可对数据库密码加密，直接把数据库密码写在配置文件中，容易导致安全问题，DruidDruiver和DruidDataSource都支持PasswordCallback，Druid提供了不同的LogFilter，能够支持Common-Logging、Log4j和JdkLog，可以按需要选择相应的LogFilter，监控应用的数据库访问情况；其中大数据底层引擎模块包括Hadoop、Hive、Hbase数据源连接管理引擎和Hadoop、Hive、Hbase驱动引擎，其中Hadoop、Hive、Hbase数据源连接管理引擎从体系架构到数据定义到数据存储再到数据处理，为Hadoop平台上大规模的数据存储和任务处理打下基础，并通过MR来实现对分布式并行任务处理的程序支持；其中Hadoop、Hive、Hbase驱动引擎在遇到对数据进行一连串的操作时只需要定义好各个action，然后把他们串在一个工作流里面即可以自动执行；

所述数据可视化视图管理、配置引擎包括用户管理模块，区域、机构管理模块，权限管理模块，站台设置管理模块，日志、其他管理模块，以上各模块将存储的数据分类，并作相应的配置。

一种基于大数据的挖掘平台构建方法，其中所述可视化展示与应用层包括展示层面和应用层面；所述展示层面指在PC端和移动端来展示，通过主题和图表的方式，或者通过计算机对信息进行更高层次的提炼，形成信息简报。

本发明采用上述方案，具有以下有益效果：

（1）提供主流的挖掘算法，数据收集接口众多，且能够支持处理各种类型的数据；

（2）缓存管理模块能够减轻数据库的负载压力，加速应用访问，并能够提供高吞吐率、低延时的解决方案，支持高并发事务请求处理；

（3）Hadoop集群的并行处理能力能明显提高分析速度，并能够故障容错。

附图说明：

图1是基于大数据的挖掘平台体系架构图。

图2是可视化展现体系图。

具体实施方式：

下面结合具体实施例，进一步阐明本发明，应理解这些实施例仅用于说明本发明而不用于限制本发明的范围，在阅读了本发明之后，本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。

基于大数据的挖掘平台体系架构，如图1所示，所构建***的体系结构从下往上包括如下几个层级：数据集成平台，Java驱动引擎，可视化展示与应用层。

所述分布式数据缓存管理模块，包括可扩展模块和大数据底层引擎模块，其中可扩展模块包括ORM数据持久模块，MySQL数据驱动引擎和Druid数据源连接池引擎；其中ORM数据持久模块是为整个项目提供一个高层、统一、安全和并发的数据持久机制，完成对各种数据进行持久化的编程工作，并为***业务逻辑层提供服务，合理的数据持久层和设计能够简化数据增、删、改、查等功能的开发过程，同时又不丧失多层结构的天然优势，继承延续J2EE特有的可伸缩性和可扩展性，这部分安装Hibernate框架，通过配置文件(hibernate.properties或hibernate.cfg.xml)和映射文件(***.hbm.xml)把JAVA对象或PO(PersistentObject,持久化对象)映射到数据库中的数据库，然后通过操作PO，对数据表中的数据进行增，删，改，查等操作；

MySQL数据驱动引擎包含Innodb和MyIASM两种引擎，MyIASM是MySQL默认的引擎，但是它没有提供对数据库事务的支持，也不支持行级锁和外键，Innodb引擎提供了对数据库ACID事务的支持，并且实现了SQL标准的四种隔离级别，大尺寸的数据集趋向于选择InnoDB引擎，因为它支持事务处理和故障恢复，数据库的大小决定了故障恢复的时间长短，InnoDB可以利用事务日志进行数据恢复，这会比较快，主键查询在InnoDB引擎下也会相当快，不过需要注意的是如果主键太长也会导致性能问题。

Druid数据源连接池引擎可以监控数据库访问性能，Druid内置提供了一个功能强大的StatFilter插件，能够详细统计SQL的执行性能，还可对数据库密码加密，直接把数据库密码写在配置文件中，容易导致安全问题，DruidDruiver和DruidDataSource都支持PasswordCallback，Druid提供了不同的LogFilter，能够支持Common-Logging、Log4j和JdkLog，可以按需要选择相应的LogFilter，监控应用的数据库访问情况，Druid是一个JDBC组件，它包括三部分：DruidDriver代理Driver，能够提供基于Filter－Chain模式的插件体系，DruidDataSource高效可管理的数据库连接池，SQLParser；Druid能够扩展JDBC，如果对JDBC层有编程的需求，可以通过Druid提供的Filter-Chain机制，很方便编写JDBC层的扩展插件；

大数据底层引擎模块包括Hadoop、Hive、Hbase数据源连接管理引擎和Hadoop、Hive、Hbase驱动引擎，其中Hadoop、Hive、Hbase数据源连接管理引擎从体系架构到数据定义到数据存储再到数据处理，为Hadoop平台上大规模的数据存储和任务处理打下基础，并通过MR来实现对分布式并行任务处理的程序支持；其中Hadoop、Hive、Hbase驱动引擎在遇到对数据进行一连串的操作时只需要定义好各个action，然后把他们串在一个工作流里面即可以自动执行，本平台基于Centos6.x+CDH5.x安装Oozie，分服务端和客户端，配置Oozie使用的MapReduce版本。

一种基于大数据的挖掘平台构建方法，其中所述可视化展示与应用层包括展示层面和应用层面；所述展示层面指在PC端和移动端来展示，通过主题和图表的方式，或者通过计算机对信息进行更高层次的提炼，形成信息简报，具体的可视化展现体系如图2所示。

Claims

1.一种基于大数据的挖掘平台的构建，其特征在于，从下往上包括如下几个层级：数据集成平台，Java驱动引擎，可视化展示与应用层。

2.如权利要求1所述，一种基于大数据的挖掘平台的构建方法，其中数据集成平台包括如下几个步骤：

3.如权利要求1所述，一种基于大数据的挖掘平台的构建方法，其中Java驱动引擎包括如下几个模块：分布式数据缓存管理模块，数据可视化视图管理、配置引擎模块；

4.如权利要求1所述，可视化展示与应用层包括展示层面和应用层面；所述展示层面指在PC端和移动端来展示，通过主题和图表的方式，或者通过计算机对信息进行更高层次的提炼，形成信息简报。

5.如权利要求2所述的基于大数据的挖掘平台构建方法，其特征在于：使用Hadoop集群存储数据，并使用分布式缓存模块来减轻数据库的负载压力，支持高并发事务请求处理。

6.如权利要求4所述的基于大数据的挖掘平台构建方法，其特征在于：所述应用层中，可以在PC端和移动端同步展示，用户只需进行图形化的界面操作。