CN115484276A - 一种基于虚拟数据湖的气象数据文件目录服务生成方法及*** - Google Patents

一种基于虚拟数据湖的气象数据文件目录服务生成方法及*** Download PDF

Info

Publication number
CN115484276A
CN115484276A CN202211016098.0A CN202211016098A CN115484276A CN 115484276 A CN115484276 A CN 115484276A CN 202211016098 A CN202211016098 A CN 202211016098A CN 115484276 A CN115484276 A CN 115484276A
Authority
CN
China
Prior art keywords
virtual
file
service
directory
data lake
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211016098.0A
Other languages
English (en)
Inventor
刘鑫
何文春
刘媛媛
徐拥军
倪学磊
周薇薇
韩同欣
李江涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National Meteorological Information Center Meteorological Data Center Of China Meteorological Administration
Original Assignee
National Meteorological Information Center Meteorological Data Center Of China Meteorological Administration
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National Meteorological Information Center Meteorological Data Center Of China Meteorological Administration filed Critical National Meteorological Information Center Meteorological Data Center Of China Meteorological Administration
Priority to CN202211016098.0A priority Critical patent/CN115484276A/zh
Publication of CN115484276A publication Critical patent/CN115484276A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/1097Protocols in which an application is distributed across nodes in the network for distributed storage of data in networks, e.g. transport arrangements for network file system [NFS], storage area networks [SAN] or network attached storage [NAS]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/10Network architectures or network communication protocols for network security for controlling access to devices or network resources
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Computer Hardware Design (AREA)
  • Computer Security & Cryptography (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于虚拟数据湖的气象数据文件目录服务生成方法及***,其中方法包括以下步骤:S1、对虚拟数据湖的节点位置进行布设;S2、管理员对异构文件***相关信息进行配置;S3、管理员通过虚拟数据湖服务端创建对外虚拟服务目录,将多套异构文件***中的数据聚合形成统一服务虚拟目录视图,实现数据虚拟入湖;S4、在虚拟数据湖服务端创建用户及用户所属分组,并对所属分组进行授权,授权完成后,用户获得该分组对目录的读写权限;S5、用户挂载文件目录访问客户端,用户可将虚拟数据湖服务端的虚拟文件***中有权限目录直接作为本地存储进行读写使用。本发明能够解决目前一台存储设备已无法满足容量的需求的技术问题。

Description

一种基于虚拟数据湖的气象数据文件目录服务生成方法及 ***
技术领域
本发明属于大数据技术领域,具体涉及一种基于虚拟数据湖的气象数据文件目录服务生成方法及***。
背景技术
气象数据是开展气象工作的基础,而地域范围广、时空密度大、种类类型多、时效性强、价值密度高的气象数据资源,尤其是伴随高分气象卫星发射、高时空分辨率数值模式发展、高探测精度雷达站的广泛部署等情况所产生的卫星、模式、雷达等非结构化气象数据对气象预报预测、应对气候变化、公共气象服务以及农业、能源、交通等各行业应用均起到了巨大的支撑保障作用。
气象数据在增长的同时其存储***还需满足应用对存储时效和数据的分级存储需求,就目前存储技术而言,单独一台存储设备已无法满足此容量的需求,多样异构存储***的复杂性使气象数据底层存储集约化管理面临巨大的挑战;尤其是面对需要长历史序列气象数据的科学分析研究,如气候变化预测和气象数据挖掘分析等应用场景需求的扩大,数据访问服务已经不能够为用户无感知地提供各类数据的历史序列,且并不能够根据应用场景的不同支持多种数据访问方式,如FTP,S3,CIFS,NFS等。对于非结构化气象数据的使用者而言,以直接访问目录方式进行数据访问获取是较为便捷和理想状态,所以如何建立一种气象数据文件目录服务方式,将非结构化气象数据以更加高效、便捷并且规范化的文件目录方式提供给气象业务***以及科研人员使用具有重大的研究意义。
发明内容
本发明的目的在于克服现有技术的不足,提供一种基于虚拟数据湖的气象数据文件目录服务生成方法及***。
本发明的第一个目的是提供一种基于虚拟数据湖的气象数据文件目录服务生成方法,包括以下步骤:
S1、对虚拟数据湖的节点位置进行布设;
S2、管理员通过虚拟数据湖服务端上的后台管理服务***对异构文件***相关信息进行配置;
S3、管理员通过虚拟数据湖服务端上的后台管理服务***界面创建对外虚拟服务目录,将多套异构文件***中的数据聚合形成统一的服务虚拟目录视图,实现数据虚拟入湖;
S4、根据用户使用需求,在虚拟数据湖服务端上的后台管理服务***创建用户及用户所属分组,并对所属分组进行授权,授权完成后,用户获得该分组对目录的读写权限;
S5、用户挂载虚拟数据湖文件目录访问客户端,根据管理员为该用户配置的读写权限,用户可将虚拟数据湖服务端的虚拟文件***中有权限目录直接作为本地存储进行读写使用。
优选的,步骤S2中,所述相关信息为存储类型、读写控制、挂载点和网络地址。
优选的,步骤S4中,所述授权方式为直接按照目录层级结构进行授权的方式和按照目录层级中时间信息实现按时间段或近期天数进行授权的方式中的任意一种。
本发明的第二个目的是提供一种基于虚拟数据湖的气象数据文件目录服务生成***,包括虚拟数据湖服务端和虚拟数据湖文件目录访问客户端;
所述虚拟数据湖服务端包含worker节点和master节点,所述master节点用于集群状态和元数据管理,worker节点用于负责处理文件***的读写操作请求;
所述虚拟数据湖文件目录访问客户端,用于将虚拟文件***挂载到用户端,通过调用虚拟数据湖worker节点提供的文件共享接口,实现将远端的虚拟文件***挂载到本地的文件***。
优选的,所述master节点包含后台管理服务***和元数据服务模块,所述后台管理服务***用于负责异构文件***统一管理与服务,***日志审计及用户行为记录可视化分析;所述元数据服务模块用于负责***元数据信息存储,并将元数据信息同步给worker节点。
优选的,所述worker节点包含存储接入服务模块、文件块缓存服务模块、虚拟文件***服务模块和文件共享服务模块,所述存储接入服务模块用于负责适配异构存储***,集成各种后端存储,所述文件块缓存服务模块用于负责在读写后端存储***的文件后缓存数据,所述虚拟文件***服务模块用于负责管理虚拟文件***与后端存储的数据读写管理和用户权限校验,所述文件共享服务模块用于负责对外提供文件访问接口。
本发明与现有技术相比,其有益效果在于:
(1)本发明通过虚拟数据湖整合多套NAS、对象存储等异构存储***进行统一配置,能够提供稳定、逻辑统一的非结构化数据访问目录,不再需要各应用程序对底层存储***进行配置,从而简化了程序的配置管理;
(2)本发明通过虚拟数据湖构建的虚拟目录,统一了数据管理的命名空间,并支持常见的存储接口,用户可以通过其所需要的接口或者客户端访问所有数据,而不需要考虑源数据的API。促进并支持用户整体架构设计上计算与存储的分离。这种类型的架构为现代数据处理提供了极大的灵活性;
(3)本发明通过虚拟数据湖构建的虚拟目录满足了用户对非结构化数据快速、便捷获取的需求。
(4)本发明中用户权限管理控制灵活,权限管理模块支持restAPI调用***提供的服务接口和其他业务应用进行集成。
附图说明
图1为本发明实施例提供的基于虚拟数据湖的气象数据文件目录服务生成方法的流程图;
图2为本发明实施例提供的基于虚拟数据湖的气象数据文件目录服务生成***的结构框图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
如图1所示,本发明实施例提供了一种基于虚拟数据湖的气象数据文件目录服务生成方法,具体包括以下步骤:
S1、对虚拟数据湖的节点位置进行布设,具体在对虚拟数据湖的节点位置进行布设时,需要虚拟数据湖的节点均能够访问到数据实际存储的异构文件***,如果是NAS存储,需要在worker和master节点通过NFSClient挂载上共享目录,如果是S3、Hdfs等存储***,则需要确认网络上各节点与这些存储设备连通;
S2、管理员通过虚拟数据湖服务端上的后台管理服务***的物理存储管理功能对异构文件***的存储类型、读写控制、挂载点和网络地址进行配置;
S3、管理员在虚拟数据湖服务端的后台管理服务***界面上根据业务逻辑创建统一命名空间,即对外虚拟服务目录,将多套异构文件***中的数据聚合形成统一服务虚拟目录视图,实现数据虚拟入湖,后台管理服务***支持灵活的创建虚拟目录及其与实际目录的映射方式:(a)可在EXCEL文件内批量创建虚拟目录及其对应的实际数据存储的物理目录,EXCEL可在后台管理服务***上传,***将自动解析所有配置信息;(b)可通过后台管理服务***的虚拟目录管理功能逐条创建虚拟目录,并通过虚拟目录挂载功能将各虚拟目录与实际存储的物理目录进行关联挂载管理;
S4、根据用户使用需求,在虚拟数据湖服务端上的后台管理服务***创建用户及用户所属分组,并对所属分组进行授权,用户组为最小的被授权对象,可根据实际需求从不同维度为分组授权控制:(a)直接按照目录层级结构授权;(b)按照目录层级中时间信息实现按时间段或近期天数授权,授权完成后,用户获得该分组对目录的读写权限;
S5、用户挂载虚拟数据湖文件目录访问客户端,根据管理员为该用户配置的读写权限,用户可将服务端的虚拟文件***中有权限目录直接作为本地存储进行读写使用,目前,该客户端支持主流64位操作***,具体支持:Redhat/centos/oracleLinux6以上版本;Ubuntu12以上版本;Fedora21以上版本;OpenSuse10以上版本;Windows7以上版本;Linux系列国产操作***。
如图2所示,本发明实施例还提供了一种基于虚拟数据湖的气象数据文件目录服务生成***,具体包括虚拟数据湖服务端和虚拟数据湖文件目录访问客户端;
所述虚拟数据湖服务端包含worker节点和master节点,构成一个分布式虚拟文件***,所述master节点用于负责***的目录、文件、以及文件块存储位置、用户权限信息等元数据信息,worker节点用于负责处理文件***的读写操作请求;
master节点包含后台管理服务***和元数据服务模块,负责***的目录、文件、以及文件块存储位置、用户权限信息等元数据信息,元数据信息存储采用Postgresql数据库实现。客户端读取文件时,先通过master获取文件存储位置,然后分发到各个worker节点读写数据,元数据信息同步由Redis分布式缓存服务实现;***管理员可在后台管理服务***上,实现异构文件***统一管理与服务,同时还可以在后台管理服务***上查看***审计日志,日志通过ElasticSearch和Kibana实现多维度可视化用户行为分析。
worker节点包含存储接入服务模块、文件块缓存服务模块、虚拟文件***服务模块和文件共享服务模块,存储接入服务模块用于负责适配异构存储***,集成各种后端存储,支持NFS、S3、Swift、Ceph、HDFS、GFS等存储协议或存储***;文件块缓存服务模块用于负责在读写后端存储***的文件后缓存数据,从而加速客户端读写文件的速度,并且支持分层缓存,缓存数据根据热度从Memory、SSD、HDD逐层逐出和转移;虚拟文件***服务模块用于负责管理虚拟文件***与后端存储的数据读写管理和用户权限校验,文件共享服务模块用于负责对外提供文件访问接口,支持NFS/CIFS、S3、Ftp/Sftp等访问协议。worker节点功能实现采用springboot、netty等技术组件实现。
虚拟数据湖文件目录访问客户端,是基于Fuse实现的目录访问客户端,用于将虚拟文件***以POSIX(PortableOperatingSystemInterface,可移植操作***接口,通过该接口标准可实现源码级别的软件可移植性)兼容的方式挂载到服务器,通过调用虚拟数据湖worker节点提供的文件共享接口,实现将远端的虚拟文件***挂载到本地的文件***,用户像本地文件***一样使用服务的虚拟文件***,无缝对接已有应用,无业务侵入性。此外,也可以使用其他通用协议客户端(NFS、CIFS、S3、FTP),访问虚拟文件***。
综上所述,本发明实施例通过虚拟数据湖整合多套NAS、对象存储等异构存储***进行统一配置,能够提供稳定、逻辑统一的非结构化数据访问目录,不再需要各应用程序对底层存储***进行配置,从而简化了程序的配置管理;且通过虚拟数据湖构建的虚拟目录,统一了数据管理的命名空间,并支持常见的存储接口,用户可以通过其所需要的接口或者客户端访问所有数据,而不需要考虑源数据的API,促进并支持用户整体架构设计上计算与存储的分离,为现代数据处理提供了极大的灵活性,满足了用户对非结构化数据快速、便捷获取的需求。
以上所述实施例仅表达了本发明的具体实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。

Claims (6)

1.一种基于虚拟数据湖的气象数据文件目录服务生成方法,其特征在于,包括以下步骤:
S1、对虚拟数据湖的节点位置进行布设;
S2、管理员通过虚拟数据湖服务端上的后台管理服务***对异构文件***相关信息进行配置;
S3、管理员通过虚拟数据湖服务端上的后台管理服务***界面创建对外虚拟服务目录,将多套异构文件***中的数据聚合形成统一的服务虚拟目录视图,实现数据虚拟入湖;
S4、根据用户使用需求,在虚拟数据湖服务上的后台管理服务***创建用户及用户所属分组,并对所属分组进行授权,授权完成后,用户获得该分组对目录的读写权限;
S5、用户挂载虚拟数据湖文件目录访问客户端,根据管理员为该用户配置的读写权限,用户可将虚拟数据湖服务端的虚拟文件***中有权限目录直接作为本地存储进行读写使用。
2.如权利要求1所述的基于虚拟数据湖的气象数据文件目录服务生成方法,其特征在于,步骤S2中,所述相关信息为存储类型、读写控制、挂载点和网络地址。
3.如权利要求1所述的基于虚拟数据湖的气象数据文件目录服务生成方法,其特征在于,步骤S4中,所述授权方式为直接按照目录层级结构进行授权的方式和按照目录层级中时间信息实现按时间段或近期天数进行授权的方式中的任意一种。
4.一种基于虚拟数据湖的气象数据文件目录服务生成***,其特征在于,包括虚拟数据湖服务端和虚拟数据湖文件目录访问客户端;
所述虚拟数据湖服务端包含worker节点和master节点,所述master节点用于集群状态和元数据管理,worker节点用于负责处理文件***的读写操作请求;
所述虚拟数据湖文件目录访问客户端,用于将虚拟文件***挂载到用户端服务器,通过调用虚拟数据湖worker节点提供的文件共享接口,实现将远端的虚拟文件***挂载到本地的文件***。
5.如权利要求4所述的基于虚拟数据湖的气象数据文件目录服务生成***,其特征在于,所述master节点包含后台管理服务***和元数据服务模块,所述后台管理服务***用于负责异构文件***统一管理与服务,***日志审计及用户行为记录可视化分析;所述元数据服务模块用于负责***元数据信息存储,并将元数据信息同步给worker节点。
6.如权利要求4所述的基于虚拟数据湖的气象数据文件目录服务生成***,其特征在于,所述worker节点包含存储接入服务模块、文件块缓存服务模块、虚拟文件***服务模块和文件共享服务模块,所述存储接入服务模块用于负责适配异构存储***,集成各种后端存储,所述文件块缓存服务模块用于负责在读写后端存储***的文件后缓存数据,所述虚拟文件***服务模块用于负责管理虚拟文件***与后端存储的数据读写管理和用户权限校验,所述文件共享服务模块用于负责对外提供文件访问接口。
CN202211016098.0A 2022-08-24 2022-08-24 一种基于虚拟数据湖的气象数据文件目录服务生成方法及*** Pending CN115484276A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211016098.0A CN115484276A (zh) 2022-08-24 2022-08-24 一种基于虚拟数据湖的气象数据文件目录服务生成方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211016098.0A CN115484276A (zh) 2022-08-24 2022-08-24 一种基于虚拟数据湖的气象数据文件目录服务生成方法及***

Publications (1)

Publication Number Publication Date
CN115484276A true CN115484276A (zh) 2022-12-16

Family

ID=84421769

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211016098.0A Pending CN115484276A (zh) 2022-08-24 2022-08-24 一种基于虚拟数据湖的气象数据文件目录服务生成方法及***

Country Status (1)

Country Link
CN (1) CN115484276A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116760850A (zh) * 2023-08-17 2023-09-15 浪潮电子信息产业股份有限公司 一种数据处理方法、装置、设备、介质及***
CN117591038A (zh) * 2024-01-18 2024-02-23 济南浪潮数据技术有限公司 一种数据访问方法、装置、分布式存储***及设备和介质

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116760850A (zh) * 2023-08-17 2023-09-15 浪潮电子信息产业股份有限公司 一种数据处理方法、装置、设备、介质及***
CN116760850B (zh) * 2023-08-17 2024-01-12 浪潮电子信息产业股份有限公司 一种数据处理方法、装置、设备、介质及***
CN117591038A (zh) * 2024-01-18 2024-02-23 济南浪潮数据技术有限公司 一种数据访问方法、装置、分布式存储***及设备和介质
CN117591038B (zh) * 2024-01-18 2024-06-11 济南浪潮数据技术有限公司 一种数据访问方法、装置、分布式存储***及设备和介质

Similar Documents

Publication Publication Date Title
CN115484276A (zh) 一种基于虚拟数据湖的气象数据文件目录服务生成方法及***
CN109241161B (zh) 一种气象数据管理方法
CN109783438B (zh) 基于librados的分布式NFS***及其构建方法
US11048591B1 (en) Efficient name space organization in a global name space cluster
CN108536778B (zh) 一种数据应用共享平台及方法
CN103067461A (zh) 一种文件的元数据管理***以及元数据管理方法
CN106570113B (zh) 一种海量矢量切片数据云存储方法及***
US20150242311A1 (en) Hybrid dram-ssd memory system for a distributed database node
US10579597B1 (en) Data-tiering service with multiple cold tier quality of service levels
Yin et al. Scalable real time data management for smart grid
CN105704218A (zh) 云计算平台中数据存储与管理方法
CN110457307B (zh) 元数据管理***、用户集群创建方法、装置、设备和介质
CN109669916B (zh) 一种基于cmsp和kudu的分布式对象存储架构和平台
CN104301354A (zh) 一种基于云计算的空间类业务数据gis化服务的实现方法和***
CN116848517A (zh) 使用基于数据指纹的数据地址的高速缓存编索引
Wrzeszcz et al. Metadata organization and management for globalization of data access with onedata
CN116049144A (zh) 一种数据存储方法、数据读取方法、装置及电子设备
CN116996575A (zh) 资源访问方法、装置、设备及存储介质
Rezgui et al. High-resolution spatial interpolation on cloud platforms
CN109936594A (zh) 一种基于电力数据的云存储***
Zhou et al. Information intelligent management system based on Hadoop
Mellone et al. A novel approach for large‐scale environmental data partitioning on cloud and on‐premises storage for compute continuum applications
CN116010677B (zh) 空间索引方法、装置及其电子设备
WO2022170544A1 (en) Using object properties for facilitating object storage
CN118349165A (zh) 微电网的数据存储方法及相关设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination