CN105653393B - 一种基于usn日志方式进行海量文件备份的方法 - Google Patents

一种基于usn日志方式进行海量文件备份的方法 Download PDF

Info

Publication number
CN105653393B
CN105653393B CN201410647661.3A CN201410647661A CN105653393B CN 105653393 B CN105653393 B CN 105653393B CN 201410647661 A CN201410647661 A CN 201410647661A CN 105653393 B CN105653393 B CN 105653393B
Authority
CN
China
Prior art keywords
backup
file
incremental
usn
synthetic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201410647661.3A
Other languages
English (en)
Other versions
CN105653393A (zh
Inventor
刘金亚
许萍萍
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Aerospace One System Jiangsu Information Technology Co ltd
Original Assignee
Nanjing Basic Information Technology Ltd By Share Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Basic Information Technology Ltd By Share Ltd filed Critical Nanjing Basic Information Technology Ltd By Share Ltd
Priority to CN201410647661.3A priority Critical patent/CN105653393B/zh
Publication of CN105653393A publication Critical patent/CN105653393A/zh
Application granted granted Critical
Publication of CN105653393B publication Critical patent/CN105653393B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于USN日志方式进行海量文件备份的方法。用户只需将NTFS格式分区的USN日志开启,通过相应的程序便可以简单快速的备份海量文件中发生变化的文件。备份过程中,读线程将文件的内容存入内存,写线程根据偏移量和文件大小,将文件内容从内存写入存储目录磁盘,提高读写速度,节约备份时间;同时,汇总海量文件备份过程中产生的增量备份集,形成合成备份,恢复一个合成备份等于恢复多个增量备份。

Description

一种基于USN日志方式进行海量文件备份的方法
技术领域
本发明涉及一种海量文件备份方法,特别是涉及基于USN日志方式进行海量文件备份的方法。
背景技术
数据安全是信息社会的重要诉求之一,并随着互联网和电脑的大规模普及,在政府调控、企业运行、个人生活中占据越来越重要的地位。作为数据安全的应对方案,数据备份成为当前数据安全的核心问题。
现有的文件备份方法,主要是用户根据需要设定备份目标,对备份目标进行实时或定时的监控,发现文件有修改,则进行备份,已达到备份文件的目的。
但在实际备份过程中,现有海量文件备份方法存在以下不足之处:
1、扫描次数过多。一次备份至少需要2次扫描,第一次是预扫描,获取本次备份的文件总数和文件总大小;第二次扫描,生成备份列表,根据列表来进行备份。另外,第二次备份往后,为了保证源目录与备份存储目录文件的一致性,还需要第3次扫描,扫描备份存储目录,将备份存储目录中多余的文件(对应源目录的文件已经被删除)删除。
2、扫描时间过长。海量文件,顾名思义就是有很多文件,一般是指1000W个文件,假设扫描一个文件的时间是固定的N秒,所花费的时间就是1000W*N秒。事实上,由于文件***的束缚,随着文件数的增多,扫描时间不是线性增加的,更像是指数级增加,所以扫描时间可能远大于1000W*N秒。
3、加剧硬盘的损坏。每次备份都要扫描,需要进行大量的磁盘IO操作,因此对硬盘的伤害较大。
4、备份速度慢。对于海量文件的备份,由于文件数较多,因此所需时间较长。因此,从用户的需求出发,备份速度越快越好。
发明内容
本发明的目的是提供一种基于USN日志进行海量文件备份的方法,用户只需将NTFS格式分区的USN日志开启,通过相应的程序便可以简单快速的备份海量文件中发生变化的文件。
为解决上述技术问题,本发明采取以下技术方案:
第二,基于USN日志节约扫描时间。
开启USN日志,解析USN日志,解析后生成文件变化记录,备份程序直接读取变化记录进行增量备份,不需要扫描源目录的文件。
第二,通过读写线程和额外内存节约拷贝时间。
当文件进行备份时,备份是从一个磁盘备份到另一个磁盘上,跨磁盘备份是通过两个线程进行工作(一个读线程,一个写线程)。一个文件进行完读写线程后再进行下一个文件的读写进程。
本发明通过读写线程和额外内存,读线程将文件的内容存入内存,写线程根据偏移量和文件大小,将文件内容从内存写入存储目录磁盘。读写线程的分工优化了跨分区的备份速度,读线程无需等待写线程完成,才能读取下一个文件,两个线程并发进行,极大的提高了读写速度,从备份文件过程上节约了备份时间。
假设内存无限大的话,所有文件都可以这样进行拷贝。但是内存大小是有限的,所以可以将小文件通过上述方式进行备份。
第三,通过合成备份减少备份集,节约恢复时间。
随着海量文件进行的增量备份的次数越来越多,产生的备份集也相应增多,恢复时需要依次恢复,经过的阶段数较多,同时备份集的管理也变的麻烦。
现提出一种合成备份,合成备份的对象是增量备份集,是对现有的增量备份集的一种管理汇总,将上一次完全备份或合成备份之后所有的增量备份集进行汇总,形成一个备份集,效果等于从上一次完全备份时间点到最后一次增量备份时间点之间做的一次增量备份。完成合成备份后,可以删除已经做过合成备份的增量备份。这样可以大大减少备份集,恢复时,恢复一个合成备份就等同于恢复多个增量备份。
合成备份的对象是增量备份集;差异备份的对象是源文件。合成备份的时间点状态是最后一次增量备份时间点源目录的状态;差异备份的时间点状态是当时进行备份的源目录的状态,由此可知,合成备份不等同于差异备份。
附图说明
图1是本发明通过USN日志方式进行备份的示意图
图2是单线与读写线程拷贝消耗时间对比的示意图。
图3是小文件在内存中的存放形式的示意图。
图4是合成备份的示意图。
具体实施方式
下面结合附图对本发明的技术方案进行详细说明。
图1是本发明通过USN日志方式进行备份的示意图,具体步骤如下:
第一步,开启源目录所在磁盘的分区的USN日志。USN日志功能是***自带功能。
开启条件:源目录所在分区必须是非网络映射磁盘,并且是NTFS格式分区。
开启方式:
①通过***的cmd.exe的相关指令来开启。
fsutil usn createjournal m=1000 a=100D:
这是开启D盘的USN日志,同时给日志分配1000B的大小空间。
②通过编程实现一个设置工具来开启。
第二步,编写一个监控程序,定时监控源目录分区的USN日志,并进行解析,过滤多余记录,生成文件变化记录。
①解析USN日志:
USN日志记录包含多个USN记录块,每一个USN记录块包括reason号(用于判定文件操作类型)、文件名(非全路径)、文件引用号和父目录引用号等信息。解析USN日志,筛选出文件创建、修改、删除和重命名等记录,通过reason号和文件全路径生成对应源目录下的文件变化记录。
同时,USN日志里还记录了文件修改的起始位置和每一个USN记录块的大小,程序可以记录解析结束的位置,下次解析时可以从该位置开始继续解析。
②过滤多余记录:
USN日志记录的是该分区所有的文件操作记录,包括临时文件等。因此需要过滤其中非指定源目录下文件的操作记录。
例如,打开word文件,本身就会产生临时文件.tmp,而这个临时文件不需要进行备份,因此需要对其进行过滤。
第三步,备份应用程序,直接读取通过监控USN日志获得的文件变化记录,直接对对变化的文件进行增量备份。
备份程序指定需要备份的目录和备份策略(定时运行时间),监控程序会自动运行并进行监控,备份程序会按照备份策略自动进行备份。
第四步,如图1中的备份进程所示,对于需要备份的大文件,直接通过读写进程进行拷贝,对于小文件,将小文件内容加入内存,写线程根据偏移量和文件大小,将文件内容从内存写入存储目录磁盘,与普通备份方式相比,耗时少,速度快。
如图2所示,具体介绍通过读写线程和额外内存节约拷贝时间。
一般的备份方式,是通过一个线程完成,先对文件进行拷贝后再依次进行下一个文件的拷贝。如图所示,三个文件进行备份的时间为r1+w1+r2+w2+r3+w3。而本发明,将小文件内容加入内存,读写线程的分工优化了跨分区的备份速度,读线程无需等待写线程完成,才能读取下一个文件,两个线程并发进行,极大的提高了读写速度,三个文件的备份时间大大少于原备份时间。
如图3所示,为小文件在内存中的存放形式。
假设内存无限大的话,所有文件都可以这样进行拷贝。但是内存大小是有限的,所以可以将小文件通过上述方式进行备份。
如,我们可以固定申请800MB的内存(使用固定内存可有效防止内存碎片),将1MB的大小以下的文件内容加入到内存,内存中最多放800个小文件,等取出一个后,再存入一个。
图4是合成备份的示意图。正方形代表完全备份,三角形代表增量备份,圆形代表合成备份
合成备份的对象是增量备份集,是对现有的很多增量备份集的一种管理汇总,将上一次完全备份或合成备份之后所有的增量备份集进行汇总,汇总成一个备份集,效果等于从上一次完全备份时间点到最后一次增量备份时间点之间做的一次增量备份。完成合成备份后,可以删除已经做过合成备份的增量备份,大大减少备份集,恢复时,恢复一个合成备份就等同于恢复多个增量备份。
如图4所示,在t1时间点,有完全备份F1和增量备份A1、A2,将增量备份A1+A2汇总形成合成备份H1。当需要恢复到t1时间点,可直接通过完全备份F1和合成备份H1进行恢复。在t3时间点时,新增增量备份A3、A4,此时将合成备份H1和增量备份A3、A4汇总形成合成备份H2。当需要恢复到t3时间点,可直接通过完全备份F1和合成备份H2进行恢复。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所做的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (5)

1.一种基于USN日志方式进行海量文件备份的方法,其主要技术特征在于:
第一,开启源目录所在磁盘分区的USN日志,设置监控程序解析USN日志,筛选出文件创建、修改、删除和重命名等记录,同时过滤其中非指定源目录下文件的操作记录,通过reason号和文件全路径生成对应源目录下的文件变化记录,备份程序直接读取变化记录进行增量备份;
第二,备份过程中,读线程将文件的内容存入内存,写线程根据偏移量和文件大小,将文件内容从内存写入存储目录磁盘,提高读写速度,节约备份时间;
第三,汇总海量文件备份过程中产生的增量备份集,形成合成备份,所述合成备份是将上一次完全备份或合成备份之后所有的增量备份集进行汇总,形成一个备份集,效果等于从上一次完全备份时间点到最后一次增量备份时间点之间做的一次增量备份,恢复一个合成备份等于恢复多个增量备份。
2.如权利要求1所述的方法,其特征在于:源目录所在分区必须是非网络映射磁盘,并且是NTFS格式分区。
3.如权利要求1所述的方法,其特征在于:内存大小是有限的,因此将小文件通过所述方式进行备份。
4.如权利要求1所述的方法,其特征在于:完成所述合成备份后,可以删除已经做过合成备份的增量备份。
5.如权利要求1所述的方法,其特征在于:所述备份程序指定需要备份的目录和备份策略,所述监控程序会自动运行并进行监控USN日志,所述备份程序会直接读取文件操作记录,按照备份策略自动进行备份。
CN201410647661.3A 2014-11-11 2014-11-11 一种基于usn日志方式进行海量文件备份的方法 Active CN105653393B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410647661.3A CN105653393B (zh) 2014-11-11 2014-11-11 一种基于usn日志方式进行海量文件备份的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410647661.3A CN105653393B (zh) 2014-11-11 2014-11-11 一种基于usn日志方式进行海量文件备份的方法

Publications (2)

Publication Number Publication Date
CN105653393A CN105653393A (zh) 2016-06-08
CN105653393B true CN105653393B (zh) 2018-09-21

Family

ID=56479951

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410647661.3A Active CN105653393B (zh) 2014-11-11 2014-11-11 一种基于usn日志方式进行海量文件备份的方法

Country Status (1)

Country Link
CN (1) CN105653393B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108153790A (zh) * 2016-12-06 2018-06-12 杭州亿方云网络科技有限公司 一种本地文件监控方法及装置
CN107908501A (zh) * 2017-10-26 2018-04-13 南京壹进制信息技术股份有限公司 一种基于索引的VMware虚拟机合成备份方法
CN111625397B (zh) * 2020-04-14 2023-09-12 北京捷通华声科技股份有限公司 业务日志备份方法、集群、装置、电子设备及存储介质
CN111581023B (zh) * 2020-05-06 2023-08-22 中国银行股份有限公司 银行内存数据处理方法及装置
CN112784253B (zh) * 2021-02-09 2024-06-11 珠海豹趣科技有限公司 文件***的信息获取方法、装置、电子设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5276860A (en) * 1989-12-19 1994-01-04 Epoch Systems, Inc. Digital data processor with improved backup storage
CN101453490A (zh) * 2008-12-23 2009-06-10 上海爱数软件有限公司 一种合成备份方法和装置
CN102521075A (zh) * 2011-12-01 2012-06-27 浪潮电子信息产业股份有限公司 一种快速可靠的文件增量备份方法
CN103902227A (zh) * 2012-12-28 2014-07-02 南京壹进制信息技术有限公司 一种支持追加写和共享读的文件存储方式

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4173673B2 (ja) * 2002-03-20 2008-10-29 株式会社日立製作所 ファイルバックアップ方法および記憶装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5276860A (en) * 1989-12-19 1994-01-04 Epoch Systems, Inc. Digital data processor with improved backup storage
CN101453490A (zh) * 2008-12-23 2009-06-10 上海爱数软件有限公司 一种合成备份方法和装置
CN102521075A (zh) * 2011-12-01 2012-06-27 浪潮电子信息产业股份有限公司 一种快速可靠的文件增量备份方法
CN103902227A (zh) * 2012-12-28 2014-07-02 南京壹进制信息技术有限公司 一种支持追加写和共享读的文件存储方式

Also Published As

Publication number Publication date
CN105653393A (zh) 2016-06-08

Similar Documents

Publication Publication Date Title
CN105653393B (zh) 一种基于usn日志方式进行海量文件备份的方法
US8296264B1 (en) Method and system for file-level continuous data protection
CN1331063C (zh) 基于数据卷快照的在线数据备份方法
KR100437199B1 (ko) 컴퓨터시스템및그에저장된데이터를액세싱하기위한방법
US8005797B1 (en) File-level continuous data protection with access to previous versions
US5684991A (en) Modification metadata set, abstracted from database write requests
US5758359A (en) Method and apparatus for performing retroactive backups in a computer system
US8335768B1 (en) Selecting data in backup data sets for grooming and transferring
EP0745934A3 (en) File system for a data storage device having a power fail recovery mechanism for write/replace operations
JP2006510984A (ja) 事前設定されたバックアップ用dvd−rws
US20070061540A1 (en) Data storage system using segmentable virtual volumes
KR20030017532A (ko) 데이터 기억 시스템 및 방법
CN105302488B (zh) 一种存储***的数据写入方法及***
US20100312807A1 (en) Recording device, recording method and program
US7941619B1 (en) Space-optimized backup set conversion
CN101739311A (zh) 一种安全备份内存数据的方法及装置
CN111338844A (zh) 一种数据库备份管理的方法及电子设备
JP5956971B2 (ja) LTFS(LinearTapeFileSystem)によって実現するWORMカートリッジのサポート
US7836025B1 (en) Method and apparatus for using pointers within a nonvolatile system memory of a network file computer system
WO2008136563A1 (en) Method of storing meta-data and system for storing meta-data
KR101258589B1 (ko) 저널링 파일 시스템에 따라 데이터를 기록한 정보저장매체,저널링 파일 시스템을 이용해서 데이터를 기록/복구하는방법 및 장치
CN103699456A (zh) 文件记录设备、文件***管理方法、和换片器驱动器
US7600151B2 (en) RAID capacity expansion interruption recovery handling method and system
US7865472B1 (en) Methods and systems for restoring file systems
JP2007128448A (ja) ファイルシステム及びファイル情報処理方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: Guanghua Road Qinhuai District of Nanjing City, Jiangsu province 210014 (No. 1 Baixia High-tech Park) stenden networking tower 8

Applicant after: NANJING UNARY INFORMATION TECHNOLOGY Inc.,Ltd.

Address before: Guanghua Road Qinhuai District of Nanjing City, Jiangsu province 210014 (No. 1 Baixia High-tech Park) stenden networking tower 8

Applicant before: Nanjing Unary Information Technology Co.,Ltd.

COR Change of bibliographic data
CB02 Change of applicant information

Address after: 210014 three floor, building five, five, Bai Xia hi tech park, No. 5, Yong Zhi Road, Qinhuai District, Nanjing, Jiangsu.

Applicant after: NANJING UNARY INFORMATION TECHNOLOGY Inc.,Ltd.

Address before: 210014, 8 floor, South Tower, stander Internet of things, 1 Guanghua Road, Qinhuai District, Nanjing, Jiangsu.

Applicant before: NANJING UNARY INFORMATION TECHNOLOGY Inc.,Ltd.

CB02 Change of applicant information
GR01 Patent grant
GR01 Patent grant
CP01 Change in the name or title of a patent holder
CP01 Change in the name or title of a patent holder

Address after: 210014 three floor, building five, five, Bai Xia hi tech park, No. 5, Yong Zhi Road, Qinhuai District, Nanjing, Jiangsu.

Patentee after: NANJING UNARY INFORMATION TECHNOLOGY Co.,Ltd.

Address before: 210014 three floor, building five, five, Bai Xia hi tech park, No. 5, Yong Zhi Road, Qinhuai District, Nanjing, Jiangsu.

Patentee before: NANJING UNARY INFORMATION TECHNOLOGY Inc.,Ltd.

CP03 Change of name, title or address
CP03 Change of name, title or address

Address after: Building 1, 6th Floor, Changfeng Building, No.14 Xinghuo Road, Research and Innovation Park, Jiangbei New District, Nanjing City, Jiangsu Province, 210000

Patentee after: Aerospace One System (Jiangsu) Information Technology Co.,Ltd.

Address before: 210014 three floor, building five, five, Bai Xia hi tech park, No. 5, Yong Zhi Road, Qinhuai District, Nanjing, Jiangsu.

Patentee before: NANJING UNARY INFORMATION TECHNOLOGY Co.,Ltd.