CN110191128A - 一种基于hdfs的税务文件共享***及实现方法 - Google Patents

一种基于hdfs的税务文件共享***及实现方法 Download PDF

Info

Publication number
CN110191128A
CN110191128A CN201910462960.2A CN201910462960A CN110191128A CN 110191128 A CN110191128 A CN 110191128A CN 201910462960 A CN201910462960 A CN 201910462960A CN 110191128 A CN110191128 A CN 110191128A
Authority
CN
China
Prior art keywords
file
server end
tax
user
hdfs
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910462960.2A
Other languages
English (en)
Inventor
苗坡
杨培强
程林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong Inspur Business System Co Ltd
Original Assignee
Shandong Inspur Business System Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong Inspur Business System Co Ltd filed Critical Shandong Inspur Business System Co Ltd
Priority to CN201910462960.2A priority Critical patent/CN110191128A/zh
Publication of CN110191128A publication Critical patent/CN110191128A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/11File system administration, e.g. details of archiving or snapshots
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/16File or folder operations, e.g. details of user interfaces specifically adapted to file systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/17Details of further file system functions
    • G06F16/176Support for shared access to files; File sharing support
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/17Details of further file system functions
    • G06F16/178Techniques for file synchronisation in file systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/182Distributed file systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/10Tax strategies
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/10Network architectures or network communication protocols for network security for controlling access to devices or network resources
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/02Protocols based on web technology, e.g. hypertext transfer protocol [HTTP]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/06Protocols specially adapted for file transfer, e.g. file transfer protocol [FTP]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/1001Protocols in which an application is distributed across nodes in the network for accessing one among a plurality of replicated servers
    • H04L67/1004Server selection for load balancing
    • H04L67/1008Server selection for load balancing based on parameters of servers, e.g. available memory or workload
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/1095Replication or mirroring of data, e.g. scheduling or transport for data synchronisation between network nodes
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/1097Protocols in which an application is distributed across nodes in the network for distributed storage of data in networks, e.g. transport arrangements for network file system [NFS], storage area networks [SAN] or network attached storage [NAS]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Business, Economics & Management (AREA)
  • Finance (AREA)
  • Development Economics (AREA)
  • Accounting & Taxation (AREA)
  • Computer Hardware Design (AREA)
  • Economics (AREA)
  • General Business, Economics & Management (AREA)
  • Technology Law (AREA)
  • Human Computer Interaction (AREA)
  • Strategic Management (AREA)
  • Marketing (AREA)
  • Computer Security & Cryptography (AREA)
  • Computing Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于HDFS的税务文件共享***及实现方法,属于税务技术领域,本发明要解决的技术问题为如何能够更加精细地对税局文件进行管理,充分提高税局内部文件的安全性,提高各部门、各税务人员文件共享的效率,采用的技术方案为:该***包括至少一个Web客户端、至少一个第三方应用***以及至少一个服务器端;Web客户端的功能模块包括文件管理模块、***管理模块和分享管理模块;第三方应用***包括至少一个大数据集群***、至少一个集群管理模块、至少一个接口管理模块和至少一个文档转换***;服务器端包括至少一个数据库。本发明还公开了一种基于HDFS的税务文件共享***的实现方法。

Description

一种基于HDFS的税务文件共享***及实现方法
技术领域
本发明涉及税务技术领域,具体地说是一种基于HDFS的税务文件共享***及实现方法。
背景技术
随着云计算和移动互联网技术的快速发展,基于云存储的网盘技术得到了很大程度的应用。通过使用网盘,用户可以方便的共享自己的文件,并能快速的对数据进行备份和恢复,规避可能发生的数据危险。
随着金税三期工程的推广和税务大数据平台的建立,统一了全国征管数据标准和口径,实现了全国征管数据大集中,金税三期工程采用“应用省级集中,生产数据省局落地,然后集中到总局”的模式,因此税务机构对内部文件共享***有着极大的需求。
由于目前的云存储服务大多是商业化产品,对国家税务信息化建设来说,存在如下显著的缺陷:
(1)、现有的云存储服务需要依托第三方提供的数据中心设施,将数据托管给第三方,通过公有云、私有云或混合云形式对数据进行按需存取操作,这种非完全自主的管理模式存在泄密的风险;
(2)、第三方提供的存储服务平台价格高昂,对上层用户完全透明,缺乏可靠性保障。
综上所述,如何能够更加精细地对税局文件进行管理,充分提高税局内部文件的安全性,提高各部门、各税务人员的文件共享的效率成为了亟待解决的问题。
专利号为CN108985915A的专利文献公开了一种财税共享***,包括出纳客户端、财务客户端和税务客户端;出纳客户端为企业出纳提供上传、打印、查询票据服务,企业出纳通过出纳客户端上传业务票据的照片到服务平台、打印条码、扫码枪扫描条码打印凭证;财务客户端使用者从财务客户端接单,实时处理会计业务并将结果交由出纳客户端确认。但是该技术方案不能精细地对税局文件进行管理,充分提高税局内部文件的安全性,提高各部门、各税务人员的文件共享的效率。
专利号为CN107943958A的专利文献公开了一种个税主数据共享***及方法,通过横向共享模块利用数据库复制方式,将核心个税***生产的法人主数据复制至个税***,通过共享服务将法人主数据共享至个税***内部各子***;通过共享服务和数据库复制方式,将个税***的自然人主数据复制至纳税服务平台,通过共享服务向核心个税***发布主数据接口;总分共享模块通过数据库复制方式将总税务***待共享主数据同步至目标分税务***;调用主数据更新记录统一分发服务,将主数据变化记录数据通过消息队列下发至目标税务***缓存。该技术方案利用共享服务和数据库复制方式保证个税主数据横向共享实时性;通过消息队列和数据库复制方式,保证总税务***和分税务***间个税主数据的实时性,但是不能精细地对税局文件进行管理,充分提高税局内部文件的安全性,提高各部门、各税务人员文件共享的效率。
发明内容
本发明的技术任务是提供一种基于HDFS的税务文件共享***及实现方法,来解决如何能够更加精细地对税局文件进行管理,充分提高税局内部文件的安全性,提高各部门、各税务人员文件共享的效率的问题。
本发明的技术任务是按以下方式实现的,一种基于HDFS的税务文件共享***,该***包括,
至少一个Web客户端,用于通过浏览器访问部署在服务器端的采用BS架构的网盘***并通过Web页面显示;Web客户端的功能模块包括文件管理模块、***管理模块和分享管理模块;
至少一个第三方应用***,用于通过服务器端部署大数据集群***;第三方应用***包括至少一个大数据集群***、至少一个集群管理模块、至少一个接口管理模块和至少一个文档转换***;大数据集群***用于实现云存储中多个存储设备之间的协同工作,使多个存储设备可以对外提供同一种服务,并提供更大、更强、更好的数据访问性能;集群管理模块用于大数据集群***中集群的管理;接口管理模块用于大数据集群***中集群接口的管理;文档转换***用于将word、excel、ppt、txt的文件转换为pdf文件并将pdf文件发送到大数据集群***中;
至少一个服务器端,用于部署网盘***,并通过服务器端部署大数据集群***;服务器端包括至少一个数据库;数据库用于存储文件管理模块、***管理模块和分享管理模块的数据,文件管理模块、***管理模块和分享管理模块通过DAO数据访问对象访问数据库;数据库的数据加密采用kerberos权限验证技术。
作为优选,所述文件管理模块用于管理网盘***中的文件,文件管理模块包括目录管理子模块、文件管理子模块和文件预览子模块;目录管理子模块用于管理目录文件;文件管理子模块用于管理文件;文件预览子模块用于文件的预览;
所述***管理模块用于设置***参数;***管理模块包括用户管理子模块和权限管理子模块;用户管理子模块用于设置用户参数并管理用户信息;权限管理子模块用于设置用户的权限参数并管理用户的权限;
所述分享管理模块用于管理网盘***中税务文件的共享;分享管理模块包括分享管理子模块、分享给网盘用户子模块以及公开分享子模块。
更优地,该***采用Java、JavaScript语言进行开发;BS架构采用LouShang6、Spring MVC、Spring、MyBatis的框架;大数据集群***由HDFS、HBase存储文件和逻辑目录组成;数据库采用Oracle;服务器端采用Tomcat或Weblogic的主流中间件服务器。
一种基于HDFS的税务文件共享***的实现方法,该实现方法具体步骤如下:
S1、将上述一种基于HDFS的税务文件共享***通过服务器端部署Hadoop集群,实现云存储中多个存储设备之间的协同工作,使多个存储设备对外提供同一服务并提供更大、更强、更好的数据访问性能;
S2、步骤S1中的基于HDFS的税务文件共享***中的数据库采用kerberos权限验证技术,保证网盘***中数据库不会被未授权的用户所访问;
S3、通过多数据备份技术保证网盘***中的数据库不会丢失,保证云存储自身的安全和稳定;
S4、通过动态负载均衡技术将每次用户连接指派到负载最低的服务器端,实现高效服务;
S5、用户利用Web客户端或移动客户端上的浏览器访问步骤S1中的基于HDFS的税务文件共享***,用户将文件上传至个人网盘,对文件进行重命名、移动、复制、删除的文件操作,同时将自己的文件分享给除用户本人以外的用户,通过Web页面上实现文件管理和文件分享,完成文件上传、文件下载、文件分享、文件在线预览、大文件断点续传以及重复文件MD5秒传。
作为优选,所述文件上传的过程如下:
(1)、Web客户端前端获取文件大小;
(2)、Web客户端前端想服务器端发出获取用户限额的请求;
(3)、服务器端计算大数据集群***(HDFS集群***)的用户限额并返回用户限额到Web客户端前端,Web客户端前端根据服务器端返回的用户限额的情况判断大数据集群***的用户是否满额:
①、若是,则返回至步骤(2);
②、若否,则下一步执行步骤(4);
(4)、Web客户端前端上传文件至服务器端,服务器端上传文件至大数据集群***;
(5)、文件上传完成后,大数据集群***更新用户限额并发送至服务器端;
(6)、大数据集群***返回上传结束的消息到服务器端,服务器端返回上传结束的消息到Web服务前端。
作为优选,所述文件下载的过程如下:
(1)、Web客户端前端向服务器端发送下载文件请求;
(2)、服务器端向大数据集群***发送下载文件请求;
(3)、大数据集群***返回文件读写流到服务器端;
(4)、服务器端返回文件读写流到Web客户端前端;
(5)、Web客户端前端从大数据集群***下载文件;
(6)、文件下载完成,大数据集群***返回下载文件结束的消息到Web客户端前端。
作为优选,所述文件分享的过程如下:
(1)、Web客户端前端向服务器端发送分享文件请求;
(2)、服务器端获取分享类型和分享对象并返回分享类型到Web客户端前端;
(3)、Web客户端前端将请求所选分享对象发送到服务器端;
(4)、服务器端绑定分享文件和分享对象并返回分享成功的消息到Web客户端前端。
作为优选,所述文件在线预览的过程如下:
(1)、服务器端通过第三方应用***的openoffice工具,将word、excel、ppt、txt的文件转换为pdf文件;
(2)、服务器端通过swfTools将pdf文件转换成swf格式的文件;
(3)、Web客服端的前端通过FlexPaper文档组件在Web页面上进行展示。
作为优选,所述大文件断点续传的过程如下:
(1)、在准备上传文件之前,先将大文件分成相同大小的文件块并编号;
(2)、开启多个线程同时上传多个文件块到服务器端;
(3)、在发送每个文件块之前,先向服务器端查询,该文件块是否已经上传过:
①、若该文件块已经成功上传,则跳过该文件块的上传;
②、若该文件块未上传或者未完全上传,则执行步骤(4);
(4)、上传该文件块;
(5)、当Web客户端上传完所有的文件块之后,通知服务器端合并所有的文件块。
其中,断点是在上传过程中,将一个要上传的文件分成了多个部分,使用多个并发线程进行多个部分的上传,当某个时间点,由于某种原因,任务被暂停,此时上传暂停的位置就是断点;此时已经成功上传的部分将会被服务器保存;续传就是当用户再次继续上传之前未完成的文件时,***不会重新上传之前已经成功上传的部分,而是直接从之前暂停的部分开始上传。
作为优选,所述重复文件MD5秒传的过程如下:
(1)、在文件上传之初,将本地文件进行HASH计算,得出文件指纹;
(2)、将文件指纹数据上传到服务器端;
(3)、服务器端将文件指纹和现存的文件指纹进行比对,并返回比对结果给Web客户端;
(4)、Web客户端获取比对结果,并比对是否成功:
①、若比对成功,则说明服务器端已经有同样的文件存在,下一步执行步骤(5);
②、若比对不成功,则跟普通上传一样,通过HTTP的方式,将文件上传到服务器端;
(5)、直接将文件名、文件指纹及文件标识符上传到服务器端,而服务端在接受到之后,将文件名存放在客户的名下,文件则是映射到原有文件的路径中,返回秒传成功信息。
本发明的基于HDFS的税务文件共享***及实现方法具有以下优点:
(一)、本发明充分发挥大数据平台的优势,利用大数据和大数据安全技术,为税务部门文件安全和共享提供了技术支撑;
(二)、本发明实现了文本、图片、音乐、视频等各类文件的分布式存储,实现了文件上传、下载、移动、复制、删除、转存等网盘文件操作,实现了多种类型的文件在线预览,实现了按税务人员、税务机构、岗位、公开分享等多种文件及文件夹共享方式,实现了大文件断点续传以及实现了重复文件秒传;
(三)、本发明利用税务行业基于大数据基础平台,并在此基础上开发Web访问层对外提供服务,将大数据基础平台通过服务器部署Hadoop集群,实现云存储中多个存储设备之间的协同工作,使多个存储设备可以对外提供同一种服务,并提供更大、更强、更好的数据访问性能;数据加密采用kerberos权限验证技术保证云存储中的数据不会被未授权的用户所访问;通过多数据备份技术保证云存储中的数据不会丢失,保证云存储自身的安全和稳定;通过动态负载均衡技术将每次用户连接指派到负载最低的服务器,实现***的高效服务;同时任何一个授权用户都可以登录到***享受独立的网盘服务,通过Web页面,用户可对文件夹进行管理,对文件进行上传、下载、分享等功能;
(四)本发明实现了安全可靠,自主可控的大数据文件存储服务,同时能够方便快捷完成文件管理操作,实现简单多样的文件共享服务,提高税局内部的文件共享效率。
附图说明
下面结合附图对本发明进一步说明。
附图1为基于HDFS的税务文件共享***结构框图;
附图2为Web客户端的结构框图;
附图3为文件上传的流程示意图;
附图4为文件下载的流程示意图;
附图5为文件分享的流程示意图。
具体实施方式
参照说明书附图和具体实施例对本发明的一种基于HDFS的税务文件共享***及实现方法作以下详细地说明。
实施例1:
如附图1所示,本发明的基于HDFS的税务文件共享***,其结构主要包括Web客户端、第三方应用***和服务器端。Web客户端用于通过浏览器访问部署在服务器端的采用BS架构的网盘***并通过Web页面显示;如附图2所示,Web客户端的功能模块包括文件管理模块、***管理模块和分享管理模块;文件管理模块用于管理网盘***中的文件,文件管理模块包括目录管理子模块、文件管理子模块和文件预览子模块;目录管理子模块用于管理目录文件;文件管理子模块用于管理文件;文件预览子模块用于文件的预览;***管理模块用于设置***参数;***管理模块包括用户管理子模块和权限管理子模块;用户管理子模块用于设置用户参数并管理用户信息;权限管理子模块用于设置用户的权限参数并管理用户的权限;分享管理模块用于管理网盘***中税务文件的共享;分享管理模块包括分享管理子模块、分享给网盘用户子模块以及公开分享子模块。第三方应用***用于通过服务器端部署大数据集群***;第三方应用***包括大数据集群***、集群管理模块、接口管理模块和文档转换***;大数据集群***用于实现云存储中多个存储设备之间的协同工作,使多个存储设备可以对外提供同一种服务,并提供更大、更强、更好的数据访问性能;集群管理模块用于大数据集群***中集群的管理;接口管理模块用于大数据集群***中集群接口的管理;文档转换***用于将word、excel、ppt、txt的文件转换为pdf文件并将pdf文件发送到大数据集群***中;服务器端用于部署网盘***,并通过服务器端部署大数据集群***;服务器端包括数据库;数据库用于存储文件管理模块、***管理模块和分享管理模块的数据,文件管理模块、***管理模块和分享管理模块通过DAO数据访问对象访问数据库;数据库的数据加密采用kerberos权限验证技术。该***采用Java、JavaScript语言进行开发;BS架构采用LouShang6、Spring MVC、Spring、MyBatis的框架;大数据集群***由HDFS、HBase存储文件和逻辑目录组成;数据库采用Oracle;服务器端采用Tomcat或Weblogic的主流中间件服务器。
实施例2:
本发明的基于HDFS的税务文件共享***的实现方法,该实现方法具体步骤如下:
S1、将实施例1中的一种基于HDFS的税务文件共享***通过服务器端部署Hadoop集群,实现云存储中多个存储设备之间的协同工作,使多个存储设备对外提供同一服务并提供更大、更强、更好的数据访问性能;
S2、步骤S1中的基于HDFS的税务文件共享***中的数据库采用kerberos权限验证技术,保证网盘***中数据库不会被未授权的用户所访问;
S3、通过多数据备份技术保证网盘***中的数据库不会丢失,保证云存储自身的安全和稳定;
S4、通过动态负载均衡技术将每次用户连接指派到负载最低的服务器端,实现高效服务;
S5、用户利用Web客户端或移动客户端上的浏览器访问步骤S1中的基于HDFS的税务文件共享***,用户将文件上传至个人网盘,对文件进行重命名、移动、复制、删除的文件操作,同时将自己的文件分享给除用户本人以外的用户,通过Web页面上实现文件管理和文件分享,完成文件上传、文件下载、文件分享、文件在线预览、大文件断点续传以及重复文件MD5秒传。
如附图3所示,文件上传的过程如下:
(1)、Web客户端前端获取文件大小;
(2)、Web客户端前端想服务器端发出获取用户限额的请求;
(3)、服务器端计算大数据集群***(HDFS集群***)的用户限额并返回用户限额到Web客户端前端,Web客户端前端根据服务器端返回的用户限额的情况判断大数据集群***的用户是否满额:
①、若是,则返回至步骤(2);
②、若否,则下一步执行步骤(4);
(4)、Web客户端前端上传文件至服务器端,服务器端上传文件至大数据集群***;
(5)、文件上传完成后,大数据集群***更新用户限额并发送至服务器端;
(6)、大数据集群***返回上传结束的消息到服务器端,服务器端返回上传结束的消息到Web服务前端。
如附图4所示,文件下载的过程如下:
(1)、Web客户端前端向服务器端发送下载文件请求;
(2)、服务器端向大数据集群***发送下载文件请求;
(3)、大数据集群***返回文件读写流到服务器端;
(4)、服务器端返回文件读写流到Web客户端前端;
(5)、Web客户端前端从大数据集群***下载文件;
(6)、文件下载完成,大数据集群***返回下载文件结束的消息到Web客户端前端。
如附图5所示,文件分享的过程如下:
(1)、Web客户端前端向服务器端发送分享文件请求;
(2)、服务器端获取分享类型和分享对象并返回分享类型到Web客户端前端;
(3)、Web客户端前端将请求所选分享对象发送到服务器端;
(4)、服务器端绑定分享文件和分享对象并返回分享成功的消息到Web客户端前端。
文件在线预览的过程如下:
(1)、服务器端通过第三方应用***的openoffice工具,将word、excel、ppt、txt的文件转换为pdf文件;
(2)、服务器端通过swfTools将pdf文件转换成swf格式的文件;
(3)、Web客服端的前端通过FlexPaper文档组件在Web页面上进行展示。
大文件断点续传的过程如下:
(1)、在准备上传文件之前,先将大文件分成相同大小的文件块并编号;
(2)、开启多个线程同时上传多个文件块到服务器端;
(3)、在发送每个文件块之前,先向服务器端查询,该文件块是否已经上传过:
①、若该文件块已经成功上传,则跳过该文件块的上传;
②、若该文件块未上传或者未完全上传,则执行步骤(4);
(4)、上传该文件块;
(5)、当Web客户端上传完所有的文件块之后,通知服务器端合并所有的文件块。
其中,断点是在上传过程中,将一个要上传的文件分成了多个部分,使用多个并发线程进行多个部分的上传,当某个时间点,由于某种原因,任务被暂停,此时上传暂停的位置就是断点;此时已经成功上传的部分将会被服务器保存;续传就是当用户再次继续上传之前未完成的文件时,***不会重新上传之前已经成功上传的部分,而是直接从之前暂停的部分开始上传。
重复文件MD5秒传的过程如下:
(1)、在文件上传之初,将本地文件进行HASH计算,得出文件指纹;
(2)、将文件指纹数据上传到服务器端;
(3)、服务器端将文件指纹和现存的文件指纹进行比对,并返回比对结果给Web客户端;
(4)、Web客户端获取比对结果,并比对是否成功:
①、若比对成功,则说明服务器端已经有同样的文件存在,下一步执行步骤(5);
②、若比对不成功,则跟普通上传一样,通过HTTP的方式,将文件上传到服务器端;
(5)、直接将文件名、文件指纹及文件标识符上传到服务器端,而服务端在接受到之后,将文件名存放在客户的名下,文件则是映射到原有文件的路径中,返回秒传成功信息。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (10)

1.一种基于HDFS的税务文件共享***,其特征在于,该***包括,
至少一个Web客户端,用于通过浏览器访问部署在服务器端的采用BS架构的网盘***并通过Web页面显示;Web客户端的功能模块包括文件管理模块、***管理模块和分享管理模块;
至少一个第三方应用***,用于通过服务器端部署大数据集群***;第三方应用***包括至少一个大数据集群***、至少一个集群管理模块、至少一个接口管理模块和至少一个文档转换***;大数据集群***用于实现云存储中多个存储设备之间的协同工作,使多个存储设备可以对外提供同一种服务,并提供更大、更强、更好的数据访问性能;集群管理模块用于大数据集群***中集群的管理;接口管理模块用于大数据集群***中集群接口的管理;文档转换***用于将word、excel、ppt、txt的文件转换为pdf文件并将pdf文件发送到大数据集群***中;
至少一个服务器端,用于部署网盘***,并通过服务器端部署大数据集群***;服务器端包括至少一个数据库;数据库用于存储文件管理模块、***管理模块和分享管理模块的数据,文件管理模块、***管理模块和分享管理模块通过DAO数据访问对象访问数据库;数据库的数据加密采用kerberos权限验证技术。
2.根据权利要求1所述的基于HDFS的税务文件共享***,其特征在于,所述文件管理模块用于管理网盘***中的文件,文件管理模块包括目录管理子模块、文件管理子模块和文件预览子模块;目录管理子模块用于管理目录文件;文件管理子模块用于管理文件;文件预览子模块用于文件的预览;
所述***管理模块用于设置***参数;***管理模块包括用户管理子模块和权限管理子模块;用户管理子模块用于设置用户参数并管理用户信息;权限管理子模块用于设置用户的权限参数并管理用户的权限;
所述分享管理模块用于管理网盘***中税务文件的共享;分享管理模块包括分享管理子模块、分享给网盘用户子模块以及公开分享子模块。
3.根据权利要求1或2所述的基于HDFS的税务文件共享***,其特征在于,该***采用Java、JavaScript语言进行开发;BS架构采用LouShang6、Spring MVC、Spring、MyBatis的框架;大数据集群***由HDFS、HBase存储文件和逻辑目录组成;数据库采用Oracle;服务器端采用Tomcat或Weblogic的主流中间件服务器。
4.一种基于HDFS的税务文件共享***的实现方法,其特征在于,该实现方法具体步骤如下:
S1、将权利要求1-3中任意一种基于HDFS的税务文件共享***通过服务器端部署Hadoop集群,实现云存储中多个存储设备之间的协同工作,使多个存储设备对外提供同一服务并提供数据访问性能;
S2、步骤S1中的基于HDFS的税务文件共享***中的数据库采用kerberos权限验证技术,保证网盘***中数据库不会被未授权的用户所访问;
S3、通过多数据备份技术保证网盘***中的数据库不会丢失,保证云存储自身的安全和稳定;
S4、通过动态负载均衡技术将每次用户连接指派到负载最低的服务器端,实现高效服务;
S5、用户利用Web客户端或移动客户端上的浏览器访问步骤S1中的基于HDFS的税务文件共享***,用户将文件上传至个人网盘,对文件进行重命名、移动、复制、删除的文件操作,同时将自己的文件分享给除用户本人以外的用户,通过Web页面上实现文件管理和文件分享,完成文件上传、文件下载、文件分享、文件在线预览、大文件断点续传以及重复文件MD5秒传。
5.根据权利要求4所述的基于HDFS的税务文件共享***的实现方法,其特征在于,所述文件上传的过程如下:
(1)、Web客户端前端获取文件大小;
(2)、Web客户端前端想服务器端发出获取用户限额的请求;
(3)、服务器端计算大数据集群***的用户限额并返回用户限额到Web客户端前端,Web客户端前端根据服务器端返回的用户限额的情况判断大数据集群***的用户是否满额:
①、若是,则返回至步骤(2);
②、若否,则下一步执行步骤(4);
(4)、Web客户端前端上传文件至服务器端,服务器端上传文件至大数据集群***;
(5)、文件上传完成后,大数据集群***更新用户限额并发送至服务器端;
(6)、大数据集群***返回上传结束的消息到服务器端,服务器端返回上传结束的消息到Web服务前端。
6.根据权利要求4所述的基于HDFS的税务文件共享***的实现方法,其特征在于,所述文件下载的过程如下:
(1)、Web客户端前端向服务器端发送下载文件请求;
(2)、服务器端向大数据集群***发送下载文件请求;
(3)、大数据集群***返回文件读写流到服务器端;
(4)、服务器端返回文件读写流到Web客户端前端;
(5)、Web客户端前端从大数据集群***下载文件;
(6)、文件下载完成,大数据集群***返回下载文件结束的消息到Web客户端前端。
7.根据权利要求4所述的基于HDFS的税务文件共享***的实现方法,其特征在于,所述文件分享的过程如下:
(1)、Web客户端前端向服务器端发送分享文件请求;
(2)、服务器端获取分享类型和分享对象并返回分享类型到Web客户端前端;
(3)、Web客户端前端将请求所选分享对象发送到服务器端;
(4)、服务器端绑定分享文件和分享对象并返回分享成功的消息到Web客户端前端。
8.根据权利要求4所述的基于HDFS的税务文件共享***的实现方法,其特征在于,所述文件在线预览的过程如下:
(1)、服务器端通过第三方应用***的openoffice工具,将word、excel、ppt、txt的文件转换为pdf文件;
(2)、服务器端通过swfTools将pdf文件转换成swf格式的文件;
(3)、Web客服端的前端通过FlexPaper文档组件在Web页面上进行展示。
9.根据权利要求4所述的基于HDFS的税务文件共享***的实现方法,其特征在于,所述大文件断点续传的过程如下:
(1)、在准备上传文件之前,先将大文件分成相同大小的文件块并编号;
(2)、开启多个线程同时上传多个文件块到服务器端;
(3)、在发送每个文件块之前,先向服务器端查询,该文件块是否已经上传过:
①、若该文件块已经成功上传,则跳过该文件块的上传;
②、若该文件块未上传或者未完全上传,则执行步骤(4);
(4)、上传该文件块;
(5)、当Web客户端上传完所有的文件块之后,通知服务器端合并所有的文件块。
10.根据权利要求4所述的基于HDFS的税务文件共享***的实现方法,其特征在于,所述重复文件MD5秒传的过程如下:
(1)、在文件上传之初,将本地文件进行HASH计算,得出文件指纹;
(2)、将文件指纹数据上传到服务器端;
(3)、服务器端将文件指纹和现存的文件指纹进行比对,并返回比对结果给Web客户端;
(4)、Web客户端获取比对结果,并比对是否成功:
①、若比对成功,则说明服务器端已经有同样的文件存在,下一步执行步骤(5);
②、若比对不成功,则跟普通上传一样,通过HTTP的方式,将文件上传到服务器端;
(5)、直接将文件名、文件指纹及文件标识符上传到服务器端,而服务端在接受到之后,将文件名存放在客户的名下,文件则是映射到原有文件的路径中,返回秒传成功信息。
CN201910462960.2A 2019-05-30 2019-05-30 一种基于hdfs的税务文件共享***及实现方法 Pending CN110191128A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910462960.2A CN110191128A (zh) 2019-05-30 2019-05-30 一种基于hdfs的税务文件共享***及实现方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910462960.2A CN110191128A (zh) 2019-05-30 2019-05-30 一种基于hdfs的税务文件共享***及实现方法

Publications (1)

Publication Number Publication Date
CN110191128A true CN110191128A (zh) 2019-08-30

Family

ID=67718802

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910462960.2A Pending CN110191128A (zh) 2019-05-30 2019-05-30 一种基于hdfs的税务文件共享***及实现方法

Country Status (1)

Country Link
CN (1) CN110191128A (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110888853A (zh) * 2019-11-26 2020-03-17 廊坊新奥燃气有限公司 资料管理***及方法
CN111784296A (zh) * 2020-07-01 2020-10-16 山东爱城市网信息技术有限公司 一种政务事项材料管理工具及其业务办理方法
CN112104740A (zh) * 2020-09-21 2020-12-18 浪潮云信息技术股份公司 基于国产cpu和os的软件自动推送升级***及方法
CN112328566A (zh) * 2020-11-10 2021-02-05 天元大数据信用管理有限公司 一种共享文件存储服务组件
CN112702380A (zh) * 2020-08-20 2021-04-23 纬领(青岛)网络安全研究院有限公司 私有云盘移动版
CN112988166A (zh) * 2021-03-10 2021-06-18 中国电建集团昆明勘测设计研究院有限公司 一种基于用户端的模型转化服务提供方法
CN113179230A (zh) * 2021-03-18 2021-07-27 深圳微众信用科技股份有限公司 一种数据采集方法及装置
CN114185484A (zh) * 2021-11-04 2022-03-15 福建升腾资讯有限公司 一种文档存储集群化的方法、装置、设备和介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102571916A (zh) * 2011-12-02 2012-07-11 曙光信息产业(北京)有限公司 一种云存储空间的租赁软件的架构与操作方法
CN102761521A (zh) * 2011-04-26 2012-10-31 上海格尔软件股份有限公司 云安全存储及共享服务平台
CN103442037A (zh) * 2013-08-09 2013-12-11 华南理工大学 一种基于ftp协议实现超大文件多线程断点上传的方法
CN103729338A (zh) * 2013-12-29 2014-04-16 国云科技股份有限公司 一种文件在线预览方法
CN104010016A (zh) * 2013-02-27 2014-08-27 联想(北京)有限公司 数据管理方法、云端服务器及终端设备
US9141814B1 (en) * 2014-06-03 2015-09-22 Zettaset, Inc. Methods and computer systems with provisions for high availability of cryptographic keys

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102761521A (zh) * 2011-04-26 2012-10-31 上海格尔软件股份有限公司 云安全存储及共享服务平台
CN102571916A (zh) * 2011-12-02 2012-07-11 曙光信息产业(北京)有限公司 一种云存储空间的租赁软件的架构与操作方法
CN104010016A (zh) * 2013-02-27 2014-08-27 联想(北京)有限公司 数据管理方法、云端服务器及终端设备
CN103442037A (zh) * 2013-08-09 2013-12-11 华南理工大学 一种基于ftp协议实现超大文件多线程断点上传的方法
CN103729338A (zh) * 2013-12-29 2014-04-16 国云科技股份有限公司 一种文件在线预览方法
US9141814B1 (en) * 2014-06-03 2015-09-22 Zettaset, Inc. Methods and computer systems with provisions for high availability of cryptographic keys

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
高正九: ""基于HDFS的云存储***的设计与实现"", 《万方》 *

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110888853A (zh) * 2019-11-26 2020-03-17 廊坊新奥燃气有限公司 资料管理***及方法
CN111784296A (zh) * 2020-07-01 2020-10-16 山东爱城市网信息技术有限公司 一种政务事项材料管理工具及其业务办理方法
CN112702380A (zh) * 2020-08-20 2021-04-23 纬领(青岛)网络安全研究院有限公司 私有云盘移动版
CN112104740A (zh) * 2020-09-21 2020-12-18 浪潮云信息技术股份公司 基于国产cpu和os的软件自动推送升级***及方法
CN112104740B (zh) * 2020-09-21 2023-03-28 浪潮云信息技术股份公司 基于国产cpu和os的软件自动推送升级***及方法
CN112328566A (zh) * 2020-11-10 2021-02-05 天元大数据信用管理有限公司 一种共享文件存储服务组件
CN112988166A (zh) * 2021-03-10 2021-06-18 中国电建集团昆明勘测设计研究院有限公司 一种基于用户端的模型转化服务提供方法
CN112988166B (zh) * 2021-03-10 2022-12-02 中国电建集团昆明勘测设计研究院有限公司 一种基于用户端的模型转化服务提供方法
CN113179230A (zh) * 2021-03-18 2021-07-27 深圳微众信用科技股份有限公司 一种数据采集方法及装置
CN114185484A (zh) * 2021-11-04 2022-03-15 福建升腾资讯有限公司 一种文档存储集群化的方法、装置、设备和介质

Similar Documents

Publication Publication Date Title
CN110191128A (zh) 一种基于hdfs的税务文件共享***及实现方法
CN110443658B (zh) 基于区块链***的税务管理方法、装置、介质及电子设备
WO2021213065A1 (zh) 一种区块链数据归档方法、装置和计算机可读存储介质
CN108111585B (zh) 基于区块链的分布式存储方法
CN109639406A (zh) 基于区块链和ipfs的高效信任解决方法
CN108076148A (zh) 基于区块链的存储***
DE102021123128A1 (de) Mittels blockchains realisiertes datenmigrationsprüfprotokoll
WO2018057719A1 (en) Systems and methods for using a distributed ledger for data handling
US20090144183A1 (en) Managing user accounts for storage delivery network
CN108848080A (zh) 基于联盟链存储校验的数据共享***
CN110688261A (zh) 一种基于区块链的数字档案异构电子文件云灾备***
CN104580395A (zh) 一种基于现存云存储平台的多云协同存储中间件***
DE112021001413T5 (de) Verwaltung eines privilegierten zugriffs mit geringer vertrauenswürdigkeit
CN110138881A (zh) 一种分布式存储***及其存储方法
Nair et al. Blockchain‐Based Decentralized Cloud Solutions for Data Transfer
CN111625873A (zh) 一种基于混合区块链的可控信息公示方法及***
CN102932443A (zh) 基于hdfs集群的分布式云存储***
Daraghmi et al. A Blockchain‐Based Editorial Management System
US20240031157A1 (en) Multi-level Access Distributed Ledger System
WO2023221719A1 (zh) 一种数据处理方法、装置、计算机设备以及可读存储介质
US11533377B2 (en) Hybrid cloud
CN107483571A (zh) 一种动态云存储方法及***
CN113190609A (zh) 数据仓库管理方法及***、装置、存储介质、电子设备
TW583539B (en) Internet-based document management system and method of providing Internet-based document management
CN105844171B (zh) 用来进行档案同步控制的方法与装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20190830