CN115269524A - 一种端到端小文件归集传输和存储的一体化***及方法 - Google Patents

一种端到端小文件归集传输和存储的一体化***及方法 Download PDF

Info

Publication number
CN115269524A
CN115269524A CN202211172818.2A CN202211172818A CN115269524A CN 115269524 A CN115269524 A CN 115269524A CN 202211172818 A CN202211172818 A CN 202211172818A CN 115269524 A CN115269524 A CN 115269524A
Authority
CN
China
Prior art keywords
file
files
transmission
small
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202211172818.2A
Other languages
English (en)
Other versions
CN115269524B (zh
Inventor
张颖
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chuangyun Rongda Information Technology Tianjin Co ltd
Original Assignee
Chuangyun Rongda Information Technology Tianjin Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chuangyun Rongda Information Technology Tianjin Co ltd filed Critical Chuangyun Rongda Information Technology Tianjin Co ltd
Priority to CN202211172818.2A priority Critical patent/CN115269524B/zh
Publication of CN115269524A publication Critical patent/CN115269524A/zh
Application granted granted Critical
Publication of CN115269524B publication Critical patent/CN115269524B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/17Details of further file system functions
    • G06F16/172Caching, prefetching or hoarding of files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/16File or folder operations, e.g. details of user interfaces specifically adapted to file systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/16File or folder operations, e.g. details of user interfaces specifically adapted to file systems
    • G06F16/162Delete operations
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/06Protocols specially adapted for file transfer, e.g. file transfer protocol [FTP]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种端到端小文件归集传输和存储的一体化***及方法,其涉及小文件保存保护和备份技术领域。该***包括:依次通讯连接的客户端归集***、跨网络传输复制***和目标端存储***。本发明通过在笔记本、台式机、应用服务器的源端的开始将需要传输的小文件归集重构为大文件,同时在传输和最后的保存存储过程中都保持大文件形式,实现端到端的传输、保存、备份,整体过程无需重新拆解为小文件,理想条件下对小文件传输、保存、备份的效率可提升10倍以上,大幅度缩短传输保存的时间,且在目标端存储保存的归集重构的大文件在保持小文件原格式实体数据内容的同时可用于小文件在线读取访问。

Description

一种端到端小文件归集传输和存储的一体化***及方法
技术领域
本发明涉及小文件保存保护和备份技术领域,特别涉及一种端到端小文件归集传输和存储的一体化***及方法。
背景技术
计算机***文件可分为大文件和小文件。大小文件的定义根据具体场景的定义不同。通常认为大小在1MB以内的文件称为小文件,也可以根据***特点选择比如1MB、4MB、10MB做为是否小文件的判断依据。各行业每天都在产生大量的小文件。以医疗核磁影像为例,虽然患者拿到手的只有几张片子,而实际上,一张完整核磁影像是由上千张原始小文件组成,每个小文件大小在150K-300KB左右。以芯片制造的产线为例,每个芯片制造的重要环节需要留存多个点的拍摄图片,以进行人工和大数据检查,同时做为后期问题芯片的问题分析依据,其中大量图片小于1MB。再以银行柜台票据为例,每笔柜面交易都会通过高拍仪产生多张200KB左右的票据影像,按照普通200TB容量其文件数量多达10亿个。这些小文件根据合规性要求都需要长期保存。
小文件的传输和保存是一个业界难题,即使网络带宽足够,但是海量小文件顺序传输保存会极大降低传输效率,极端情况下,1MB以下的小文件比10MB以上大文件的传输保存时间会高出10倍以上,这也是很多企业重要生产数据小文件因为数量庞大没有时间窗口进行传输、保存、保护和备份迁移的原因。现有技术中也缺少对这些小文件进行端到端高效传输、保存、保护的一体化解决方案。
有些产品在文件保存的存储端采用小文件打包合并存储以提高数据存储效率,但是从应用服务器的源端到目标存储端的传输还是小文件顺序传输,即使存储效率很高,也会因为小文件传输瓶颈导致端到端效率很低;有些产品在传输过程中采用将小文件打包合并后进行传送的技术,但是到达目标端存储之前还需要解包后保存,也会因为小文件保存瓶颈导致端到端效率很低。
针对上述的问题,目前业界尚未提出有效的端到端小文件传输和保存一体化解决方案。
发明内容
基于此,有必要针对上述技术问题,提供一种端到端小文件归集传输和存储的一体化***及方法。
本发明实施例提供的一种端到端小文件归集传输和存储的一体化***,包括:依次通讯连接的客户端归集***、跨网络传输复制***和目标端存储***;
所述客户端归集***,用于将小文件实体数据归集重构形成大文件,并在大文件后段写入归集信息:自身归集信息的起始位置、以及每个归集小文件的起始位置和长度;
所述跨网络传输复制***,用于将所述客户端归集***中归集重构的大文件通过IP网络传输至所述目标端存储***中;
所述目标端存储***,其包括文件地址索引层和文件实体层;用于对接收的归集重构的大文件,根据归集信息将归集重构的大文件中小文件归集索引地址转换为包含归集信息的文件索引地址保存到文件地址索引层,再将归集重构的大文件中的实体部分文件保存到文件实体层。
进一步地,所述客户端归集***,部署于产生海量小文件的应用服务器;所述跨网络传输复制***,部署于独立服务器或共用应用服务器;所述目标端存储***,部署于独立的单台服务器或多台服务器集群。
进一步地,所述客户端归集***,还用于:
对获取文件的大小进行判断:当文件小于等于设定的标准值时,则认为该文件为小文件;当文件大于设定的标准值时,则认为该文件为大文件;其中所述标准值为1MB、4MB、10MB中的任一种,或者在小于10MB范围内自定义标准值。
进一步地,所述客户端归集***,还用于:
通过预设值判断是否结束小文件实体数据归集;其中,所述预设值为10MB、20MB、40MB中的任一种,或者在10MB-100MB之间自定义标准值。
进一步地,所述跨网络传输复制***,具体用于:
通过扫描建立源端文件索引库以识别源端当前文件和新增、删除、修改的文件、及通过传输记录目标端文件索引库;
对比源端和目标端文件的差异,当源端有新增或修改文件时,通过任务管理来调度客户端归集***读取文件并导入传输队列;当源端有删除文件时,通过任务管理来调度目标端存储***删除对应文件索引;
将源端的传输队列与目标端的接收队列对接,通过任务调度以文件复制方式将传输队列中的文件通过IP网络传输到目标端存储。
进一步地,所述目标端存储***,还用于:
对于修改的文件,在目标端存储***中更新地址索引,并逐项记录修改前旧文件地址,再定期进行统一后台空间回收;
对于删除文件,在目标端存储***中删除地址索引,并逐项记录删除文件地址,再定期进行统一后台空间回收。
进一步地,所述目标端存储***,还用于:
对于存在于归集重构的大文件实体中的小文件,通过查找小文件地址索引和归集信息并对应找到大文件实体中的小文件地址和长度、以实现对小文件的读取访问。
进一步地,当同时传输和存储原始大文件时,
所述客户端归集***,还用于将原始大文件直接加入传输队列;
所述跨网络传输复制***,还用于将原始大文件通过IP网络传输至所述目标端存储***中;
所述目标端存储***,还用于将原始大文件直接接收地址索引后保存到文件实体层。
本发明实施例还提供一种端到端小文件归集传输和存储的方法,包括:
将小文件实体数据归集重构形成大文件,并在大文件后段写入归集信息:自身归集信息的起始位置、以及每个归集小文件的起始位置和长度;
通过IP网络对归集重构的大文件进行传输;
对接收的归集重构的大文件,根据归集信息将归集重构的大文件中小文件归集索引地址转换为包含归集信息的文件索引地址保存到文件地址索引层,再将归集重构的大文件中的实体部分文件保存到文件实体层。
进一步地,所述通过IP网络对归集重构的大文件进行传输,具体包括:
通过扫描建立源端文件索引库以识别源端当前文件和新增、删除、修改的文件、及通过传输记录目标端文件索引库;
对比源端和目标端文件的差异,当源端有新增或修改文件时,通过任务管理来调度客户端归集***读取文件并导入传输队列;当源端有删除文件时,通过任务管理来调度目标端存储***删除对应文件索引;
将源端的传输队列与目标端的接收队列对接,通过任务调度以文件复制方式将传输队列中的文件通过IP网络传输到目标端存储。
本发明实施例提供的一种端到端小文件归集传输和存储的方法、及一体化***,与现有技术相比,其有益效果如下:
当生产***包含海量小文件的数据需要实现第二份的长期保存、保护和备份时,通过针对小文件端到端归集重构为大文件进行传输和保存,可以极大程度减少传输和保存时间,在网络和计算能力等条件理想的情况下,传输和保存时间可减少到传统方式的1/10,使得海量文件的长期备份保存可以在有限的时间窗口内进行;当生产***包含海量小文件的数据需要迁移到新的存储空间时,通过针对小文件端到端归集重构为大文件进行传输和保存,同样可以极大程度减少数据迁移时间;目标端存储所保存的小文件归集重构的大文件,通过地址索引和大文件解析,可以实现小文件的在线读取访问。
附图说明
图1为一个实施例中提供的端到端小文件归集传输和存储的一体化***原理示意图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本发明实施例公开了一种端到端小文件归集传输和存储的一体化***,目标是对企业生产***海量小文件数据实现高效的保存、保护、复制备份,实现方法是在企业生产***的不同异构应用服务器端,将其各自的海量小文件在应用服务器的源端归集重构为大文件,通过大文件的高效跨网络传输保存到另一个目标端存储***并结合归集读写技术可对保存在大文件实体中的小文件直接读取访问,无需拆解恢复为每个小文件。
参见图1,该***由客户端归集重构***、跨网络传输复制***、目标端存储***的三部分构成。具体地:
目标端存储***部署于独立的单台服务器或多台服务器集群,***分为文件地址索引层和文件实体层。对于未归集的原始大文件,在第一层的文件地址索引层直接解析记录地址索引后保存到第二层文件实体层;对于小文件归集重构的大文件,在第一层的文件地址索引层解析记录小文件索引地址并包含从属大文件实体部分的归集索引信息,之后接收重构大文件中的实体部分文件保存到第二层文件实体层。对于修改文件做更新地址索引处理,对于删除文件做删除地址索引处理,并有后台的空间回收处理。复制备份和保存到目标端存储***的所有文件可以按原文件格式读取访问。
(1)“客户端归集***”,即源端归集重构
客户端归集***部署于产生海量小文件的应用服务器,本地读取应用服务器需要传输的文件,以可选设定的标准值(如不小于1MB、4MB、10MB等)为是否大文件的阈值判断依据,如果不低于阈值判断为大文件直接进入传输队列,如果为低于阈值的小文件则读取到应用服务器内存进行归集重构为大文件,并在大文件的后段记录所有小文件的地址信息,以实现传输到目标端存储后转换为存储的索引地址信息。
小文件归集重构为大文件,在文件的前段是小文件实体数据的归集,重构文件通过预设值(如达到10MB、20MB、40MB)判断是否结束小文件实体数据归集。小文件实体数据归集结束后,首先记录自身归集信息的起始标记便于目标端存储开始解析归集小文件的索引地址信息,接下来在大文件的后段依次根据缓存记录写入所有小文件的起始位置和长度,以实现传输到目标端存储后转换为存储识别大文件中的每个小文件的索引地址信息。小文件归集重构后的大文件也进入传输队列。
(2)“跨网络传输复制***”,即归集重构处理后传输
跨网络传输复制***部署于独立服务器或共用应用服务器,通过扫描建立源端应用服务器的文件索引库以识别源端当前文件和新增、删除、修改的文件,通过传输记录目标端存储的文件索引库,***定期检查对比源端和目标端文件差异,以记录需要传输保存的新增、修改的文件,同时记录源端删除后需要在目标端存储删除的文件,如果源端有新增或修改文件,通过任务管理来调度客户端归集***读取源端应用服务器文件并导入传输队列,如果为低于阈值小文件由客户端归集***进行归集重构为大文件后导入传输队列。文件端到端的传输、保存和删除通过任务调度对接客户端归集***和目标端存储***来实现。
源端的传输队列与目标端的接收队列对接,通过任务调度以文件复制方式将传输队列中的文件通过IP网络传输到目标端存储。如果源端有删除文件,通过任务管理来调度目标端存储***删除对应文件索引。
(3)“目标端存储***”,即地址索引结合大文件实体的保存
目标端存储***部署于独立的单台服务器或多台服务器集群,***分为文件地址索引层和文件实体层,第一层为所有文件地址索引,对于未归集原始直接接收地址索引后保存到文件实体层,对于小文件归集重构的大文件,首先接收重构大文件中小文件归集索引地址并转换为包含归集信息的文件索引地址,之后接收重构大文件中的实体部分文件保存到文件实体层。即所有文件的写入保存与目标端存储***的文件地址索引进行交互,对于未归集原始直接记录地址索引后保存,对于小文件归集重构的大文件进行解析,将重构大文件中小文件归集实体部分直接保存,将重构大文件中的小文件归集索引地址分别对应目标存储***的文件索引地址记录保存。
目标端存储***,对于未归集的原始大文件,在第一层的文件地址索引层直接解析记录地址索引后保存到第二层文件实体层;对于小文件归集重构的大文件,在第一层的文件地址索引层解析记录小文件索引地址并包含从属大文件实体部分的归集索引信息,之后接收重构大文件中的实体部分文件保存到第二层文件实体层。对于修改文件做更新地址索引处理,对于删除文件做删除地址索引处理,并有后台的空间回收处理。复制备份和保存到目标端存储***的所有文件可以按原文件格式读取访问。
对于修改的文件在目标端存储更新地址索引,并逐项记录修改前旧文件地址定期进行统一后台空间回收;对于删除文件在目标端存储删除地址索引,逐项记录删除文件地址定期进行统一后台空间回收。
(4)“目标端存储***”,即文件访问
复制备份和保存到目标端存储***的所有文件可以按原文件格式读取访问,如果为未归集原始直接通过地址索引找到文件实体进行读取,如果小文件存在于归集重构的大文件实体中,通过查找小文件地址索引和归集信息,对应找到大文件实体中的小文件地址和长度,可实现对小文件快速读取。
通过以上技术方案可知:
本发明实施例提供的端到端的小文件归集为大文件的传输和存储一体化处理,通过归集客户端***在生产应用服务器的源端数据开始,根据传输要求采集识别小文件归集重构为大文件后,直到进行网络复制传输和保存到目标存储***,都是以大文件形式进行,不需要再恢复为单体小文件,大幅度加快了在网络上传输和在目标端保存的速度,同时目标存储***内保存的小文件数据可以通过地址索引和解析重构大文件实体数据中的小文件归集信息快速获得并在线读取;
在端到端的采集、传输、保存过程中,从归集客户端***在生产应用服务器的采集需传输数据开始,即采用阈值判断来区分小文件和大文件的处理,根据保存保护的传输要求采集识别小文件归集重构为大文件后,直到进行网络复制传输和保存到目标存储***,都保持大文件形式进行,不需要再恢复为单体小文件,大幅度加快了在网络上传输和在目标端保存的速度;
在端到端的采集、传输、保存过程中,从生产应用服务器根据保存保护的传输要求采集数据文件开始,针对小文件归集重构处理充分考虑从采集开始到保存到目标端存储的一体化解析对接,小文件归集重构的大文件后段包括自身归集信息的起始位置,以及每个所归集小文件的起始位置和长度等归集信息,以保证目标存储***在保存小文件归集重构的大文件时,可以快速对接转换每个小文件的地址索引信息,并解析归集重构大文件中的实体数据进行保存。即设计针对小文件归集重构后保存到目标端存储的一体化解析和地址索引对接,小文件归集重构的大文件后段包括自身归集信息的起始位置标志,以及每个所归集小文件的起始位置和长度等归集信息,以保证目标存储***在保存小文件归集重构的大文件时,可以快速对接转换每个小文件的地址索引信息,并解析归集重构大文件中的实体数据进行保存。
在源端到目标端存储数据跨网络传输复制中,一方面通过扫描建立源端应用服务器的文件索引库以识别源端当前文件和新增、删除、修改的文件,另一方面通过传输记录目标端存储的文件索引库,***定期检查对比源端和目标端文件差异以记录需要传输保护的新增或已修改的文件数据,同时记录需要在目标端删除的文件数据,并通过任务调度实现快速增量的传输复制。即通过扫描建立源端应用服务器的文件索引库和目标端存储的文件索引库,并通过定期检查对比源端和目标端文件差异以确定需要传输保护的新增或已修改的文件数据,同时记录需要在目标端删除的文件数据,进一步实现快速增量的传输复制和目标端存储的对应文件删除。
总之,本发明实施例通过在应用服务器的源端的开始即将需要传输的小文件归集重构为大文件,同时在传输和最后的保存存储过程中都保持大文件形式,实现端到端的传输、保存、备份,整体过程无需重新拆解为小文件,理想条件下对小文件传输、保存、备份的效率可提升10倍以上,大幅度缩短传输保存的时间,且在目标端存储保存的归集重构的大文件可用于小文件在线读取访问。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (10)

1.一种端到端小文件归集传输和存储的一体化***,其特征在于,包括:依次通讯连接的客户端归集***、跨网络传输复制***和目标端存储***;
所述客户端归集***,用于将小文件实体数据归集重构形成大文件,并在大文件后段写入归集信息:自身归集信息的起始位置、以及每个归集小文件的起始位置和长度;
所述跨网络传输复制***,用于将所述客户端归集***中归集重构的大文件通过IP网络传输至所述目标端存储***中;
所述目标端存储***,其包括文件地址索引层和文件实体层;用于对接收的归集重构的大文件,根据归集信息将归集重构的大文件中小文件归集索引地址转换为包含归集信息的文件索引地址保存到文件地址索引层,再将归集重构的大文件中的实体部分文件保存到文件实体层。
2.如权利要求1所述的端到端小文件归集传输和存储的一体化***,其特征在于,
所述客户端归集***,部署于产生海量小文件的应用服务器;
所述跨网络传输复制***,部署于独立服务器或共用应用服务器;
所述目标端存储***,部署于独立的单台服务器或多台服务器集群。
3.如权利要求1所述的端到端小文件归集传输和存储的一体化***,其特征在于,所述客户端归集***,还用于:
对获取文件的大小进行判断:当文件小于等于设定的标准值时,则认为该文件为小文件;当文件大于设定的标准值时,则认为该文件为大文件;其中所述标准值为1MB、4MB、10MB中的任一种,或者在小于10MB范围内自定义标准值。
4.如权利要求1所述的端到端小文件归集传输和存储的一体化***,其特征在于,所述客户端归集***,还用于:
通过预设值判断是否结束小文件实体数据归集;其中,所述预设值为10MB、20MB、40MB中的任一种,或者在10MB-100MB之间自定义标准值。
5.如权利要求1所述的端到端小文件归集传输和存储的一体化***,其特征在于,所述跨网络传输复制***,具体用于:
通过扫描建立源端文件索引库以识别源端当前文件和新增、删除、修改的文件、及通过传输记录目标端文件索引库;
对比源端和目标端文件的差异,当源端有新增或修改文件时,通过任务管理来调度客户端归集***读取文件并导入传输队列;当源端有删除文件时,通过任务管理来调度目标端存储***删除对应文件索引;
将源端的传输队列与目标端的接收队列对接,通过任务调度以文件复制方式将传输队列中的文件通过IP网络传输到目标端存储。
6.如权利要求1所述的端到端小文件归集传输和存储的一体化***,其特征在于,所述目标端存储***,还用于:
对于修改的文件,在目标端存储***中更新地址索引,并逐项记录修改前旧文件地址,再定期进行统一后台空间回收;
对于删除文件,在目标端存储***中删除地址索引,并逐项记录删除文件地址,再定期进行统一后台空间回收。
7.如权利要求1所述的端到端小文件归集传输和存储的一体化***,其特征在于,所述目标端存储***,还用于:
对于存在于归集重构的大文件实体中的小文件,通过查找小文件地址索引和归集信息并对应找到大文件实体中的小文件地址和长度、以实现对小文件的读取访问。
8.如权利要求1所述的端到端小文件归集传输和存储的一体化***,其特征在于,当同时传输和存储原始大文件时,
所述客户端归集***,还用于将原始大文件直接加入传输队列;
所述跨网络传输复制***,还用于将原始大文件通过IP网络传输至所述目标端存储***中;
所述目标端存储***,还用于将原始大文件直接接收地址索引后保存到文件实体层。
9.一种端到端小文件归集传输和存储的方法,其特征在于,包括:
将小文件实体数据归集重构形成大文件,并在大文件后段写入归集信息:自身归集信息的起始位置、以及每个归集小文件的起始位置和长度;
通过IP网络对归集重构的大文件进行传输;
对接收的归集重构的大文件,根据归集信息将归集重构的大文件中小文件归集索引地址转换为包含归集信息的文件索引地址保存到文件地址索引层,再将归集重构的大文件中的实体部分文件保存到文件实体层。
10.如权利要求9所述的端到端小文件归集传输和存储的方法,其特征在于,所述通过IP网络对归集重构的大文件进行传输,具体包括:
通过扫描建立源端文件索引库以识别源端当前文件和新增、删除、修改的文件、及通过传输记录目标端文件索引库;
对比源端和目标端文件的差异,当源端有新增或修改文件时,通过任务管理来调度客户端归集***读取文件并导入传输队列;当源端有删除文件时,通过任务管理来调度目标端存储***删除对应文件索引;
将源端的传输队列与目标端的接收队列对接,通过任务调度以文件复制方式将传输队列中的文件通过IP网络传输到目标端存储。
CN202211172818.2A 2022-09-26 2022-09-26 一种端到端小文件归集传输和存储的一体化***及方法 Active CN115269524B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211172818.2A CN115269524B (zh) 2022-09-26 2022-09-26 一种端到端小文件归集传输和存储的一体化***及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211172818.2A CN115269524B (zh) 2022-09-26 2022-09-26 一种端到端小文件归集传输和存储的一体化***及方法

Publications (2)

Publication Number Publication Date
CN115269524A true CN115269524A (zh) 2022-11-01
CN115269524B CN115269524B (zh) 2023-03-24

Family

ID=83756429

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211172818.2A Active CN115269524B (zh) 2022-09-26 2022-09-26 一种端到端小文件归集传输和存储的一体化***及方法

Country Status (1)

Country Link
CN (1) CN115269524B (zh)

Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102332027A (zh) * 2011-10-15 2012-01-25 西安交通大学 一种基于Hadoop的海量非独立小文件关联存储方法
CN103577123A (zh) * 2013-11-12 2014-02-12 河海大学 一种基于hdfs的小文件优化存储方法
CN103856567A (zh) * 2014-03-26 2014-06-11 西安电子科技大学 基于Hadoop分布式文件***的小文件存储方法
CN104462185A (zh) * 2014-10-13 2015-03-25 南京邮电大学 一种基于混合结构的数字图书馆云存储***
CN104536959A (zh) * 2014-10-16 2015-04-22 南京邮电大学 一种Hadoop存取海量小文件的优化方法
CN104572670A (zh) * 2013-10-15 2015-04-29 方正国际软件(北京)有限公司 一种小文件的存储、查询及删除方法和***
CN104978330A (zh) * 2014-04-04 2015-10-14 西南大学 一种数据存储的方法及装置
CN108053863A (zh) * 2017-12-22 2018-05-18 中国人民解放军第三军医大学第附属医院 适合大小文件的海量医疗数据存储***及数据存储方法
CN109582643A (zh) * 2018-11-20 2019-04-05 中国石油大学(华东) 一种基于HBase的实时动态数据管理***
CN109726177A (zh) * 2018-12-29 2019-05-07 北京赛思信安技术股份有限公司 一种基于HBase的海量文件分区索引方法
CN110515920A (zh) * 2019-08-30 2019-11-29 北京浪潮数据技术有限公司 一种基于Hadoop的海量小文件存取方法和***
CN111723056A (zh) * 2020-06-09 2020-09-29 北京青云科技股份有限公司 小文件的处理方法、装置、设备和存储介质
CN112328549A (zh) * 2020-10-29 2021-02-05 无锡先进技术研究院 小文件的存储方法、电子设备及存储介质
CN112347055A (zh) * 2020-11-11 2021-02-09 汪礼君 一种基于云计算的医疗数据处理方法及***

Patent Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102332027A (zh) * 2011-10-15 2012-01-25 西安交通大学 一种基于Hadoop的海量非独立小文件关联存储方法
CN104572670A (zh) * 2013-10-15 2015-04-29 方正国际软件(北京)有限公司 一种小文件的存储、查询及删除方法和***
CN103577123A (zh) * 2013-11-12 2014-02-12 河海大学 一种基于hdfs的小文件优化存储方法
CN103856567A (zh) * 2014-03-26 2014-06-11 西安电子科技大学 基于Hadoop分布式文件***的小文件存储方法
CN104978330A (zh) * 2014-04-04 2015-10-14 西南大学 一种数据存储的方法及装置
CN104462185A (zh) * 2014-10-13 2015-03-25 南京邮电大学 一种基于混合结构的数字图书馆云存储***
CN104536959A (zh) * 2014-10-16 2015-04-22 南京邮电大学 一种Hadoop存取海量小文件的优化方法
CN108053863A (zh) * 2017-12-22 2018-05-18 中国人民解放军第三军医大学第附属医院 适合大小文件的海量医疗数据存储***及数据存储方法
CN109582643A (zh) * 2018-11-20 2019-04-05 中国石油大学(华东) 一种基于HBase的实时动态数据管理***
CN109726177A (zh) * 2018-12-29 2019-05-07 北京赛思信安技术股份有限公司 一种基于HBase的海量文件分区索引方法
CN110515920A (zh) * 2019-08-30 2019-11-29 北京浪潮数据技术有限公司 一种基于Hadoop的海量小文件存取方法和***
CN111723056A (zh) * 2020-06-09 2020-09-29 北京青云科技股份有限公司 小文件的处理方法、装置、设备和存储介质
CN112328549A (zh) * 2020-10-29 2021-02-05 无锡先进技术研究院 小文件的存储方法、电子设备及存储介质
CN112347055A (zh) * 2020-11-11 2021-02-09 汪礼君 一种基于云计算的医疗数据处理方法及***

Also Published As

Publication number Publication date
CN115269524B (zh) 2023-03-24

Similar Documents

Publication Publication Date Title
US10176225B2 (en) Data processing service
CN105144142B (zh) 使用对象多个维度的信息存储对象
US8626717B2 (en) Database backup and restore with integrated index reorganization
US8799238B2 (en) Data deduplication
US8972347B1 (en) Recovering a file system to any point-in-time in the past with guaranteed structure, content consistency and integrity
US8396839B1 (en) Representing de-duplicated file data
US8239348B1 (en) Method and apparatus for automatically archiving data items from backup storage
US10417265B2 (en) High performance parallel indexing for forensics and electronic discovery
US20140012867A1 (en) Method And Process For Enabling Distributing Cache Data Sources For Query Processing And Distributed Disk Caching Of Large Data And Analysis Requests
CN106909651A (zh) 一种基于hdfs小文件写入和读取的方法
KR101078287B1 (ko) 다중 복제를 지원하는 분산 파일 시스템에서 데이터 서버의복구 방법 및 그에 적당한 메타데이터 스토리지 및 저장방법
US20090271456A1 (en) Efficient backup data retrieval
US11422721B2 (en) Data storage scheme switching in a distributed data storage system
US5963961A (en) Database reconstruction using embedded database backup codes
CN110727406A (zh) 一种数据存储调度方法及装置
KR101674176B1 (ko) 파일 단위 순서 모드 저널링 기법을 이용한 fsync 시스템 호출 처리 장치 및 방법
CN110287201A (zh) 数据访问方法、装置、设备及存储介质
CN113448946B (zh) 数据迁移方法及装置、电子设备
CN111796767A (zh) 一种分布式文件***及数据管理方法
US8880478B2 (en) Scan-free archiving
CN115269524B (zh) 一种端到端小文件归集传输和存储的一体化***及方法
CN115858471A (zh) 业务数据变更记录方法、装置、计算机设备及介质
US20210011685A1 (en) System and Method for Storing Data Records
US20240143213A1 (en) Fingerprint tracking structure for storage system
Yuan et al. A Focused Garbage Collection Approach for Primary Deduplicated Storage with Low Memory Overhead

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant