CN102929789B - 记录组织方法和记录组织结构 - Google Patents

记录组织方法和记录组织结构 Download PDF

Info

Publication number
CN102929789B
CN102929789B CN201210357225.3A CN201210357225A CN102929789B CN 102929789 B CN102929789 B CN 102929789B CN 201210357225 A CN201210357225 A CN 201210357225A CN 102929789 B CN102929789 B CN 102929789B
Authority
CN
China
Prior art keywords
record
data file
file
offsets
records
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201210357225.3A
Other languages
English (en)
Other versions
CN102929789A (zh
Inventor
马照云
杨浩
马振杰
苗艳超
刘新春
邵宗有
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dawning Information Industry Beijing Co Ltd
Dawning Information Industry Co Ltd
Original Assignee
Dawning Information Industry Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dawning Information Industry Beijing Co Ltd filed Critical Dawning Information Industry Beijing Co Ltd
Priority to CN201210357225.3A priority Critical patent/CN102929789B/zh
Publication of CN102929789A publication Critical patent/CN102929789A/zh
Application granted granted Critical
Publication of CN102929789B publication Critical patent/CN102929789B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了记录组织方法和记录组织结构,其中,该方法包括:为每种记录分配一个唯一标识;在对应的磁盘文件中建立与每种记录相对应的数据文件和元数据文件,其中,每种记录的数据文件对应于一个磁盘文件;以及使数据文件只进行连续追加写入操作。通过本发明的技术方案,能够提高大压力下元数据服务器的性能并且具有很好的扩展性。

Description

记录组织方法和记录组织结构
技术领域
本发明涉及数据服务器的存储***,更具体地,涉及记录的记录组织方法和记录组织结构。
背景技术
在并行存储***中,经常需要记录一些辅助记录或者索引。例如当磁盘损坏后为了对其上面的数据进行快速恢复,需要记录该磁盘上都存在哪些对象,这就需要在文件创建时添加记录、删除时删除对应记录。此外,由于数据服务器是多副本的,所以还需要记录不一致对象,修复完成后删除对应记录。为了提高元数据性能,删除采用了异步方式,即,在元数据服务器上置删除标志后即应答客户端,真正的inode(索引节点)及数据的清除是由垃圾回收线程处理的。此外,配额功能也需要记录哪些文件发生了所有者修改等操作,由后台线程向数据服务器发送消息修改相关配额信息。为了防止断电记录丢失进而导致部分操作不能完成,这些记录需要记录到底层磁盘文件,同时为了进一步提高可靠性,这些记录还需要利用元数据的日志机制记录日志(这样这些记录也就能达到主从互备,与元数据具有同等可靠性)。
为了充分利用元数据的已有机制,现有的实现方式是每种记录对应一个目录inode,其中每条记录当做inode的一个dentry项进行管理,这样只需要很少的额外工作便可以加入记录,当记录无效时也可以直接利用dentry项删除接口进行删除。
然而,这种实现方式存在以下问题:
1)不利于扩展:由于记录的元数据即文件***的inode,而inode的预留字段是有限的,当记录元数据需要增加的属性超出限制时就会难以加入(为了辅助信息而修改作为文件***元数据的最重要的结构inode是不太可取的);
2)浪费空间:由于每个记录当做一个dentry项进行记录,所以当然会继承dentry项的所有属性,但是并非所有属性都是本记录所必须的;
3)也是这种方式最严重的缺陷,这种实现方式会影响日志的应用性能,当元数据压力比较大时会成为***的瓶颈,影响整体性能:元数据扩展hash追求的目标是dentry项在各个hash桶内尽量均匀,而这些辅助记录的记录量是非常大的(因为每个ParaStor文件***的文件会用到多个磁盘),当扩展hash比较大时,日志应用会导致磁头来回扫描,进而大大降低应用效率,当日志压力堆到一定程度就会暂时拒绝元数据日志提交请求,进而影响整个元数据的性能。
针对相关技术中的问题,目前尚未提出有效的解决方案。
发明内容
针对相关技术中的问题,本发明提出一种记录组织方法和记录组织结构,能够提高元数据服务器的性能并且能够进行很好的扩展。
根据本发明的一个方面,提供了一种记录组织方法,包括:为每种记录分配一个唯一标识;在对应的磁盘文件中建立与每种记录相对应的数据文件和元数据文件,其中,每种记录的数据文件对应于一个磁盘文件;以及使数据文件只进行连续追加写入操作。
优选地,元数据信息在元数据文件中以唯一标识为索引。
优选地,当数据文件中的一条记录无效时,在数据文件的末尾***一条与无效记录对应的对消记录。
优选地,当需要使用记录时,对数据文件进行回收处理,将无效记录和对消记录进行对消。
更优选地,利用预先注册的回收函数进行回收处理。
更优选地,顺序扫描数据文件来进行回收处理。
更优选地,回收处理包括:将所有对消记录加入一个哈希链表;顺序扫描数据文件,对于每个有效记录,在哈希链表中查找对消记录;如果找到对应的对消记录,则从哈希链表中摘除该对消记录;如果没有找到对应的对消记录,则将该有效记录写入一个新的临时文件。
优选地,在扫描完所有的有效记录之后,用新的临时文件代替数据文件。
优选地,在生成日志时只记录逻辑日志。
根据本发明的另一方面,提供了一种记录组织结构,该记录组织结构包括对应于一种记录的数据文件和元数据文件,其中,为每一种记录分配一个唯一标识并且使每种记录的数据文件对应于一个磁盘文件,并且对数据文件只进行连续追加写入操作。
本发明通过这种简单的元数据组织方式,消除了数据文件记录的索引需求,通过追加写入对消记录来实现记录删除,将对objfile文件的访问简化为追加写入顺序读取,提高了磁盘读写性能,并且用逻辑日志来解决线程并发带来的日志生成时某些信息不能确定的问题。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是根据本发明的记录组织方法的流程图;
图2是根据本发明实施例的数据组织结构的示意图;以及
图3是示出根据本发明实施例的记录组织方式和对消结果的示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员所获得的所有其他实施例,都属于本发明保护的范围。
针对现有技术中存在的问题,本发明的发明人提出了一种简单的记录组织方式。以下参照图1至图3进行详细描述。
图1是根据本发明的记录组织方法的流程图。
参照图1,根据本发明的记录组织方法包括:S102,为每种记录分配一个唯一标识;S104,在对应的磁盘文件中建立与每种记录相对应的数据文件和元数据文件,其中,每种记录的数据文件对应于一个磁盘文件;以及S106,使数据文件只进行连续追加写入操作。
图2是根据本发明实施例的数据组织结构的示意图。
参照图2,根据本发明的数据组织结构为:为每种记录分配一个唯一标识(我们称之为fid,从1开始),每种记录对应一个磁盘文件用来存放具体记录(文件以fid命名,我们称为objfile文件(数据文件)),一个结构用来存放相关元数据信息(如当前记录数等等),元数据信息存放在以0命名的文件中(称为objfile元数据文件),元数据信息在objfile元数据文件中以fid为索引。
图2中仅示出了“inode异步删除:1”和“不一致对象:2”两种记录对应的数据文件,但本领域技术人员应该理解,还可以具有其他多种记录及其对应的数据文件。
为了简化处理,当数据文件中的一条记录A无效时,不会立即将其从objfile文件中删除,而是在文件末尾***一条对消记录A’。
这里的一个难点是日志***写磁盘文件是根据日志记录的文件名及偏移量进行的,objfile记录产生线程有可能是并发的,而且每个产生线程可能一次产生多个objfile文件记录,当日志生成时记录在文件中的偏移量是不确定的(objfile锁不能加到整个日志事物生命周期,因为这是关键路径会降低元数据性能,所以先生成的日志不一定先提交)。针对该问题,本发明的发明人提出了一种解决办法,即在日志生成时只记录逻辑日志,而逻辑日志展开线程是唯一的(日志***碰到逻辑日志会调用逻辑日志回调函数进行展开)。
当需要使用记录时,首先对objfile文件进行回收,将A与A’进行对消,只留下有效记录供使用。
为了提高可扩展性,objfile支持回收函数注册,各类记录可以根据特定需要预先注册特定的回收函数,在进行回收处理时使用注册的回收函数。
此外,也可以使用默认方式进行回收。默认回收方式为顺序扫描objfile文件,将对消记录加入一个hash链表,扫描完成后再次顺序扫描文件,本次扫描只关注有效记录,对于每个有效记录,首先在hash链表查找对消记录,如果找到则将对消记录从hash链表摘除,否则将记录写入一个新的临时文件,本次扫描完成后用临时文件替代objfile文件。objfile文件记录组织方式及对消结果在图3中示出。
通过采用上述组织方式,可以实现如下优点:
1)由于对objfile文件只有连续的追加写入,而且记录组织方式简单,不会由于新记录的加入导致hash桶扩展,进而搬迁已写入记录。所以极大地提高了日志应用效率,进行提高了大压力下元数据服务器的性能。
2)没有无用属性写入磁盘文件,与原来方式相比节省了空间,objfile元数据结构及记录结构专门为这一目的而设,所以没有冗余信息。
3)具有很好的扩展性,不仅体现在objfile相关结构成员添加/删除上,而且当有新的辅助记录类型产生时,能够很方便的使用本框架进行扩展,而且可以通过注册函数达到特定要求。
综上所述,借助于本发明的上述技术方案,通过提出简单的objfile元数据组织方式,为每种记录分配特定fid,以fid作为相关元数据在objfile元数据文件中的索引,消除了objfile文件记录的索引需求,通过追加写入对消记录来实现记录删除,从而将对objfile文件的访问简化为追加写入顺序读取,提高了磁盘读写性能。此外,用逻辑日志来解决线程并发带来的日志生成时某些信息不能确定的问题。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (9)

1.一种记录组织方法,其特征在于,所述方法包括:
为每种记录分配一个唯一标识;
在对应的磁盘文件中建立与每种记录相对应的数据文件和元数据文件,所述数据文件包括多条记录,其中,每种记录的数据文件对应于一个磁盘文件;以及
当所述数据文件中的一条记录无效时,在所述数据文件的末尾***一条与无效记录对应的对消记录,使所述数据文件只进行连续追加写入操作。
2.根据权利要求1所述的方法,其特征在于,元数据信息在所述元数据文件中以所述唯一标识为索引。
3.根据权利要求1所述的方法,其特征在于,当需要使用记录时,对所述数据文件进行回收处理,将所述无效记录和所述对消记录进行对消。
4.根据权利要求3所述的方法,其特征在于,利用预先注册的回收函数进行所述回收处理。
5.根据权利要求3所述的方法,其特征在于,顺序扫描所述数据文件来进行所述回收处理。
6.根据权利要求5所述的方法,其特征在于,所述回收处理包括:
将所有对消记录加入一个哈希链表;
顺序扫描所述数据文件,对于每个有效记录,在所述哈希链表中查找对消记录;
如果找到对应的对消记录,则从所述哈希链表中摘除该对消记录;
如果没有找到对应的对消记录,则将该有效记录写入一个新的临时文件。
7.根据权利要求6所述的方法,其特征在于,在扫描完所有的有效记录之后,用所述新的临时文件代替所述数据文件。
8.根据权利要求1至7中任一项所述的方法,其特征在于,在生成日志时只记录逻辑日志。
9.一种记录组织装置,其特征在于,所述记录组织装置包括用于对应于一种记录的数据文件和元数据文件的装置,所述数据文件包括多条记录;用于为每一种记录分配一个唯一标识并且使每种记录的数据文件对应于一个磁盘文件的装置;以及当所述数据文件中的一条记录无效时,用于在所述数据文件的末尾***一条与无效记录对应的对消记录的装置,并且对所述数据文件只进行连续追加写入操作。
CN201210357225.3A 2012-09-21 2012-09-21 记录组织方法和记录组织结构 Active CN102929789B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210357225.3A CN102929789B (zh) 2012-09-21 2012-09-21 记录组织方法和记录组织结构

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210357225.3A CN102929789B (zh) 2012-09-21 2012-09-21 记录组织方法和记录组织结构

Publications (2)

Publication Number Publication Date
CN102929789A CN102929789A (zh) 2013-02-13
CN102929789B true CN102929789B (zh) 2016-06-08

Family

ID=47644592

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210357225.3A Active CN102929789B (zh) 2012-09-21 2012-09-21 记录组织方法和记录组织结构

Country Status (1)

Country Link
CN (1) CN102929789B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104615652B (zh) * 2014-12-29 2018-05-29 曙光云计算集团有限公司 一种辅助记录的组织方法
CN107704462B (zh) * 2016-08-08 2021-07-06 阿里巴巴集团控股有限公司 资源的元数据维护方法、设备及存储装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1521682A (zh) * 2003-02-10 2004-08-18 但汉雷 一种电子病历计算机管理***和病历信息处理方法
EP2053608A2 (en) * 2001-11-29 2009-04-29 Sharp Kabushiki Kaisha Data recording method, data deletion method, data display method, recording apparatus, recording medium and program
CN102195781A (zh) * 2011-05-30 2011-09-21 武汉理工大学 一种基于电子记录关联签名的电子证据取证***

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100375047C (zh) * 2004-03-17 2008-03-12 联想(北京)有限公司 一种计算机日志的管理方法
CN1936864B (zh) * 2005-09-22 2010-09-08 康佳集团股份有限公司 不定长记录的数据组织方法
CN101295310A (zh) * 2008-06-12 2008-10-29 上海交通大学 在磁盘上存储数据和元数据的方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2053608A2 (en) * 2001-11-29 2009-04-29 Sharp Kabushiki Kaisha Data recording method, data deletion method, data display method, recording apparatus, recording medium and program
CN1521682A (zh) * 2003-02-10 2004-08-18 但汉雷 一种电子病历计算机管理***和病历信息处理方法
CN102195781A (zh) * 2011-05-30 2011-09-21 武汉理工大学 一种基于电子记录关联签名的电子证据取证***

Also Published As

Publication number Publication date
CN102929789A (zh) 2013-02-13

Similar Documents

Publication Publication Date Title
CN102110146B (zh) 基于键值key-value存储的分布式文件***元数据管理方法
US8868624B2 (en) Blob manipulation in an integrated structured storage system
CN102779180B (zh) 数据存储***的操作处理方法,数据存储***
CN104850598B (zh) 一种实时数据库备份恢复方法
US8620884B2 (en) Scalable blob storage integrated with scalable structured storage
CN102012933B (zh) 分布式文件***及利用其存储数据和提供服务的方法
JP6309103B2 (ja) スナップショットおよびクローンの複製
CN101866305B (zh) 支持数据查询和快速恢复的连续数据保护方法及***
KR100946986B1 (ko) 파일 저장 시스템 및 파일 저장 시스템에서의 중복 파일관리 방법
US8606759B2 (en) Apparatus, system and method for recovering meta data using fragmentary information
US20110082835A1 (en) Periodic file system checkpoint manager
CN103617277A (zh) 一种还原误删除的数据表内容的方法
CN105574187A (zh) 一种异构数据库复制事务一致性保障方法及***
CN102567427A (zh) 一种对象数据处理方法及装置
CN104217174A (zh) 分布式文件安全存储***及其存储方法
CN103268291B (zh) 在闪存存储***中延迟持久化索引元数据的方法
CN107229540A (zh) 一种基于时间点的数据库恢复方法及***
CN104156474A (zh) 一种分布式文件***中文件的快速删除方法
CN104239438A (zh) 基于分离存储的文件信息存储方法和文件信息读写方法
CN102541982B (zh) 一种组织和访问元数据文件日志的方法
CN102929789B (zh) 记录组织方法和记录组织结构
CN103544081B (zh) 双元数据服务器的管理方法和装置
CN104951475A (zh) 分布式文件***和实现方法
CN113821476B (zh) 数据处理方法及装置
CN101425095A (zh) 一种管理内容资源的方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20220727

Address after: 100089 building 36, courtyard 8, Dongbeiwang West Road, Haidian District, Beijing

Patentee after: Dawning Information Industry (Beijing) Co.,Ltd.

Patentee after: DAWNING INFORMATION INDUSTRY Co.,Ltd.

Address before: 100193 No. 36 Building, No. 8 Hospital, Wangxi Road, Haidian District, Beijing

Patentee before: Dawning Information Industry (Beijing) Co.,Ltd.