CN106682071A

CN106682071A - 一种基于大数据的高校图书馆数字资源共享方法

Info

Publication number: CN106682071A
Application number: CN201611013729.8A
Authority: CN
Inventors: 王学杰; 汪千松
Original assignee: Anhui Huabo Shengxun Information Technologies Co Ltd
Current assignee: Anhui Huabo Shengxun Information Technologies Co Ltd
Priority date: 2016-11-17
Filing date: 2016-11-17
Publication date: 2017-05-17

Abstract

本发明公开了一种基于大数据的高校图书馆数字资源共享方法，可以将分散的数字资源集中起来，从中进行数据挖掘和分析，发挥其数据量大的作用，可以完成对高校图书馆联盟的全部数据进行分析和利用，利用云计算和可视化技术得出精确的结果，并预测未来趋势，可解决物理设备之间无法共享的问题；将高校图书馆联盟现有的硬件设备整合在一起，对硬件设备进行统一调配；利用云计算技术中的虚拟化技术将各高校图书馆的硬件设施都利用起来，降低了高校图书馆联盟的硬件建设成本，为实现数字资源共享提供硬件保障；借助云存储技术，将分散存储在不同高校图书馆的数字资源进行整合与存储，数字资源由云端统一存储和管理。

Description

一种基于大数据的高校图书馆数字资源共享方法

技术领域

本发明涉及信息管理领域，特别是涉及一种基于大数据的高校图书馆数字资源共享方法。

背景技术

大数据的概念是随着信息技术的不断改进被提出的，是由于利用传统数据技术无法有效解决海量数据问题，而出现的一种解决问题的技术。美国自然杂志(Nature)早在2008年就推出了BigData专刊。科学杂志(Science)在2011年2月推出专刊《DealingwithData》，主要围绕着科学研究中大数据问题展开讨论，说明大数据对于科学研究的重要性。2011年5月，麦肯锡公司(MckinseyandCompany)发布了一份关于大数据的详尽报告，报告中指出:数据已经渗透到每一个行业和业务职能领域，逐渐成为重要的生产因素。2012年3月份美国奥巴马政府发布了《大数据研究和发展倡议》(BigDataResearchandDevelopmentInitiative)，投资2亿以上美元，正式启动“大数据发展计划”。计划在科学研究、环境、生物医学等领域利用大数据技术进行突破。大数据目前尚没有统一的定义，***对大数据的定义为:大数据是指利用常用软件工具捕获、管理和处理数据所耗时间超过了可容忍时间的数据集。百度百科上给出的大数据(bigdata)定义是:或称巨量资料，指的是所涉及的资料量规模巨大到无法透过目前主流软件工具，在合理时间内达到撷取、管理、处理，并整理成为帮助企业经营决策更积极目的的资讯。

大数据是互联网发展到一定阶段的必然产物。随着博客、微博、社交网络的发展，以及云计算、物联网等技术的兴起，互联网上的数据正以前所未有的速度在不断的增加和累积。当前，一些高校图书馆的数据量已达到PB(1PB＝1024TB)量级，而一些大企业的数据量已经接近EB(1EB＝1024PB)量级。

数据的类型一般分为结构化数据、半结构化数据、非结构化数据。随着互联网的快速发展，数据类型早已不是单一的结构化数据。互联网用户的互动，各种机构的信息发布，物联网传感器感应的实时信息每时每刻都在产生大量的半结构化数据和非结构化数据，这其中包括了大量的网络日志、微博、音频、视频、图片、邮件、地理位置信息等大量的半结构化与非结构化数据。

涉及到交流、感应、传输、决策等的大数据，对数据快速处理有着极高的要求。大数据里面很多是实时数据，像微博、社会网络、SNS这些，需要对它们进行即时的分析和处理。

数据的价值大小与数据总量的大小成反比。当然，大数据中有很多垃圾数据，只有一些有用的数据隐藏在大数据里面。这些有用的大数据中蕴含了对经济、科技、教育等领域非常宝贵的信息，大数据的研究就是通过数据挖掘、知识发现等方式将这些数据进行整理、分析，形成有价值的数据产品。

高校图书馆联盟的数字资源具有不同域互联网大数据的独特特征：

一是随着高校图书馆数字化建设的深入以及在Web2.0时代用户对高校图书馆的文献资源数字化需求的提高，单个高校图书馆的数字资源虽然不具备具有了“大数据”的特征，但高校图书馆联盟的数字资源在已经具有了“大数据”的特征。二是高校图书馆的数字资源总量在不断的增长之中，伴随着高校图书馆的数字资源用户的增加，用户信息以及访问信息，高校图书馆对用户进行服务的信息也是在不断产生非结化数据，高校图书馆联盟的数字资源和服务信息产生的非结化数据是个海量的数据集。三是随着信息技术的发展，用户对高校图书馆的数字资源的信息服务的要求也在不断的提高，不再仅仅局限于对数字资源的的查询、查找等一些常规的信息服务，转向更深层次的对数字资源的数据挖掘与数据分析。高校图书馆联盟必须根据用户的需求做出数字资源的信息服务策略的改变，以迎合用用户对数字资源的信息服务要求。

发明内容

本发明的目的是提供一种基于大数据的高校图书馆数字资源共享方法。

本发明的目的可以通过以下技术方案实现：

一种基于大数据的高校图书馆数字资源共享方法，包括：

步骤S1，采用基于Flume的分布式大数据采集，使用大数据软件flume，负责从各节点上实时采集数据，实现对结构化、半结构化、非结构化数据的采集；

步骤S2，采用基于kafka的数据接入，使用消息中间件kafka来作为采集数据的缓冲，处理采集数据的速度和数据处理的速度不同步问题；

步骤S3，采用基于storm的实时数据流分析计算，采用大数据实时处理工具storm，完成大数据的集成、数据建模、重复数据删除、数据加密、数据备份等工作；

步骤S4，采用基于HBase的大数据存储，将步骤S3处理好的数据存入大数据平台；

步骤S5，采用基于Pentaho的数据挖掘，提供只能化的数据挖掘与共享，包括信息检索、数据挖掘、数据可视化、学科化服务、知识服务。

本发明的有益效果：

本发明所提供的一种基于大数据的高校图书馆数字资源共享方法，将分散的数字资源集中起来，从中进行数据挖掘和分析，发挥其数据量大的作用，可以完成对高校图书馆联盟的全部数据进行分析和利用，利用云计算和可视化技术得出精确的结果，并预测未来趋势，可解决物理设备之间无法共享的问题。将高校图书馆联盟现有的硬件设备整合在一起，对硬件设备进行统一调配。利用云计算技术中的虚拟化技术将各高校图书馆的硬件设施都利用起来，降低了高校图书馆联盟的硬件建设成本，为实现数字资源共享提供硬件保障。借助云存储技术，将分散存储在不同高校图书馆的数字资源进行整合与存储，数字资源由云端统一存储和管理，同时，将用户需要的数据进行动态部署，加快了信息服务的进程。采用合理的网络协议，对云计算网络进行严格监控，并由高校图书馆联盟的技术管理人员进行统一管理、维护和监管，提升高校图书馆的数字资源的安全程度。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1是本发明的方法示意图。

具体实施方式

本发明的核心是提供一种基于大数据的高校图书馆数字资源共享方法。

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明提供了一种基于大数据的高校图书馆数字资源共享方法，该方法包括：

一种基于大数据的高校图书馆数字资源共享方法，包括：

步骤S1，采用基于Flume的分布式大数据采集，使用大数据软件flume，负责从各节点上实时采集数据，实现对结构化、半结构化、非结构化数据的采集。

Flume是Cloudera提供的一个分布式、可靠、和高可用的海量日志采集、聚合和传输的日志收集***，支持在日志***中定制各类数据发送方，用于收集数据；同时，Flume提供对数据进行简单处理，并写到各种数据接受方(可定制)的能力。

Flume提供了从console(控制台)、RPC(Thrift-RPC)、text(文件)、tail(UNIXtail)、syslog(syslog日志***，支持TCP和UDP等2种模式)，exec(命令执行)等数据源上收集数据的能力,在我们的***中目前使用exec方式进行日志采集。

Flume的数据接受方，可以是console(控制台)、text(文件)、dfs(HDFS文件)、RPC(Thrift-RPC)和syslogTCP(TCPsyslog日志***)等，本发明中采用kafka来接收。

步骤S2，采用基于kafka的数据接入，使用消息中间件kafka来作为采集数据的缓冲，处理采集数据的速度和数据处理的速度不同步问题。

kafka的目的是提供一个发布订阅解决方案，它可以处理大规格的数字资源网站中的所有动作流数据，这种动作(网页浏览，搜索和其他用户的行动)是在现代网络上的许多社会功能的一个关键因素。这些数据通常是由于吞吐量的要求而通过处理日志和日志聚合来解决，对于像Hadoop的一样的日志数据和离线分析***，但又要求实时处理的限制，这是一个可行的解决方案，kafka的目的是通过Hadoop的并行加载机制来统一线上和离线的消息处理，也是为了通过集群机来提供实时的消费。

步骤S3，采用基于storm的实时数据流分析计算，采用大数据实时处理工具storm，完成大数据的集成、数据建模、重复数据删除、数据加密、数据备份等工作。

Storm是一种分布式实时计算***，可以用来处理源源不断流进来的消息，处理之后将结果写入到某个存储中去，由于storm的处理组件是分布式的，而且处理延迟极低，所以可以作为一个通用的分布式rpc框架来使用。

步骤S4，采用基于HBase的大数据存储，将步骤S3处理好的数据存入大数据平台。

HBase是一个分布式的、面向列的开源数据库，HBase不同于一般的关系数据库，它是一个适合于非结构化数据存储的数据库，基于这个特性，HBase非常适合存储图书馆数字资源，并且，HBase是一个高可靠性、高性能、面向列、可伸缩的分布式存储***，利用HBase技术可在廉价PCServer上搭建起大规模结构化存储集群；

步骤S5，采用基于Pentaho的数据挖掘，提供只能化的数据挖掘与共享，包括信息检索、数据挖掘、数据可视化、学科化服务、知识服务等。

pentaho是顶尖的开源的BI***，提供如下的核心功能:

报表功能:可视化(client,web)的报表设计；

分析功能:可以生成分析视图，作数据作动态分析；

Dashboard功能:可以定制动态图表(image/flash)页面；

调度功能:可对指定的任务进行crontab式调度，定期发送日/周/月报；

工作流:任意组合复杂的任务流程；

ETL:原生提供在各种数据库之间进行数据提取/转换/导入,可以自行扩展数据源；

webservice接口:可由任意外部程序进行调用，可以很好的结合进SOA架构，提供资源共享。

以上内容仅仅是对本发明结构所作的举例和说明，所属本技术领域的技术人员对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代，只要不偏离发明的结构或者超越本权利要求书所定义的范围，均应属于本发明的保护范围。

Claims

1.一种基于大数据的高校图书馆数字资源共享方法，其特征在于，包括：