CN105095294B - 一种分布式存储***中管理异构副本的方法及装置 - Google Patents

一种分布式存储***中管理异构副本的方法及装置 Download PDF

Info

Publication number
CN105095294B
CN105095294B CN201410206795.1A CN201410206795A CN105095294B CN 105095294 B CN105095294 B CN 105095294B CN 201410206795 A CN201410206795 A CN 201410206795A CN 105095294 B CN105095294 B CN 105095294B
Authority
CN
China
Prior art keywords
copy
file
isomery
request parameter
storage
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201410206795.1A
Other languages
English (en)
Other versions
CN105095294A (zh
Inventor
程宁
韩盛中
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ZTE Corp
Original Assignee
ZTE Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ZTE Corp filed Critical ZTE Corp
Priority to CN201410206795.1A priority Critical patent/CN105095294B/zh
Priority to PCT/CN2014/086658 priority patent/WO2015172478A1/zh
Publication of CN105095294A publication Critical patent/CN105095294A/zh
Application granted granted Critical
Publication of CN105095294B publication Critical patent/CN105095294B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种分布式存储***中管理异构副本的方法及装置,其中方法包括:获取用于存储文件的副本的写请求参数;根据写请求参数从元数据服务器获取分布式存储***中每个存储服务器的位置信息;根据写请求参数将文件的副本按照预先指定的格式转换得到多个不同格式的文件的异构副本;根据从元数据服务器获取的存储服务器的位置信息,将转换得到的多个不同格式的文件的异构副本分别存储在指定的存储服务器上。通过本发明的实施例可以将一个文件在多个存储服务器中分别存储多个不同的异构副本,在读取文件的异构副本时,可以根据需要读取对应的异构副本,能够有效提高用户处理数据的工作效率。

Description

一种分布式存储***中管理异构副本的方法及装置
技术领域
本发明涉及数据存储技术领域,尤其涉及一种分布式存储***中管理异构副本的方法及装置。
背景技术
大数据在通讯、互联网、金融、医疗、军工、科学等各个领域均有应用。大数据分析相比于传统的数据仓库应用,具有数据量大、查询分析复杂等特点。而针对分布式文件***来说,要管理的自然是海量数据。就以电信的流量分析数据为例,每天都会有新的数据,每个地区也会有不同的数据,时间一长比如说十年的数据,就会是海量数据。如果运营商要根据这些数据统计出规律,指定更合理的计费方案,那么,这些庞大的数据存储在分布式文件***中,怎样提高读取效率是一件很重要的事情。
相关技术中,这些庞大的表格以一些大文件的方式存储,一开始存储时,是以追加写的方式存入,而需要读取时,再顺序读出来。如果写入时是按行的方式写进去,顺序读出来的时候就是以行的格式读出来。但是如果业务想分析每一列的数据,就会比较麻烦,需要读出来重新整合,数据量越大工作量也就越大。
发明内容
鉴于上述技术问题,本发明提供了一种克服上述技术问题或者至少部分地解决上述技术问题的分布式存储***中管理异构副本的方法及装置,通过将一个文件在多个存储服务器中分别存储多个不同的异构副本,在读取文件的异构副本时,可以根据需要读取对应的异构副本,能够有效提高用户处理数据的工作效率。
依据本发明的一个方面,提供了一种分布式存储***中管理异构副本的方法,包括:
获取用于存储文件的副本的写请求参数;
根据所述写请求参数从元数据服务器获取每个存储服务器的位置信息;
根据所述写请求参数将所述文件的副本按照预先指定的格式转换得到多个不同格式的所述文件的异构副本;
根据从所述元数据服务器获取的所述存储服务器的位置信息,将转换得到的多个不同格式的所述文件的异构副本分别存储在指定的存储服务器上。
可选地,在根据所述写请求参数将所述文件的副本按照预先指定的格式转换得到多个不同格式的所述文件的异构副本的步骤之前,所述方法还包括:
根据所述写请求参数判断是否启用所述文件的异构副本;
如果启用所述文件的异构副本,则进入根据所述写请求参数将所述文件的副本按照预先指定的格式转换得到多个不同格式的所述文件的异构副本的步骤。
可选地,所述将所述文件的副本按照预先指定的格式转换得到多个不同格式的所述文件的异构副本的步骤为:
根据所述写请求参数将所述文件的副本按照行模式存储、列模式存储或块模式存储的格式转换成多个不同格式的所述文件的异构副本,并缓存转换得到的多个不同格式的所述文件的异构副本。
可选地,所述方法还包括:
获取用于读取文件的副本的读请求参数;
根据所述读请求参数从所述元数据服务器获取要读的存储服务器的位置信息;
根据读请求参数判断是否启用所述文件的异构副本;
如果启用所述文件的异构副本,则根据从所述元数据服务器获取要读的存储服务器的位置信息,从指定的存储服务器上读取所述文件的异构副本。
可选地,所述写请求参数包括:文件句柄、文件偏移量、文件长度和文件的副本的格式,其中所述文件的副本的格式包括:按照行模式存储、按照列模式存储或者按照块模式存储;
所述读请求参数包括:文件句柄、文件偏移量、文件长度和所述文件的副本的读取模式,所述读取模式包括按照行模式读取副本、按照列模式读取副本或者按照块模式读取副本。
依据本发明的另一个方面,还提供了一种分布式存储***中管理异构副本的装置,包括:
写请求获取模块,用于获取用于存储文件的副本的写请求参数;
第一位置获取模块,用于根据所述写请求参数从元数据服务器获取每个所述存储服务器的位置信息;
格式转换模块,用于根据所述写请求参数将所述文件的副本按照预先指定的格式转换得到多个不同格式的所述文件的异构副本;
副本存储模块,用于根据从所述元数据服务器获取的所述存储服务器的位置信息,将转换得到的多个不同格式的所述文件的异构副本分别存储在指定的存储服务器上。
可选地,所述装置还包括:
第一判断模块,用于根据所述写请求参数判断是否启用所述文件的异构副本;如果启用所述文件的异构副本,则触发所述格式转换模块;。
可选地,所述格式转换模块进一步用于根据所述写请求参数将所述文件的副本按照行模式存储、列模式存储或块模式存储的格式转换成多个不同格式的所述文件的异构副本,并缓存转换得到的多个不同格式的所述文件的异构副本。
可选地,所述装置还包括:
读请求获取模块,用于获取用于读取文件的副本的读请求参数;
第二位置获取模块,用于根据所述读请求参数从所述元数据服务器获取要读的存储服务器的位置信息;
第二判断模块,用于根据所述读请求参数判断是否启用所述文件的异构副本;
副本读取模块,用于如果启用所述文件的异构副本,则根据从所述元数据服务器获取要读的存储服务器的位置信息,从指定的存储服务器上读取所述文件的异构副本。
可选地,所述写请求参数包括:文件句柄、文件偏移量、文件长度和文件的副本的格式,其中所述文件的副本的格式包括:按照行模式存储、按照列模式存储或者按照块模式存储;
所述读请求参数包括:文件句柄、文件偏移量、文件长度和所述文件的副本的读取模式,所述读取模式包括按照行模式读取副本、按照列模式读取副本或者按照块模式读取副本。
本发明的有益效果是:在本发明的实施例中,由于客户端程序可以将文件的副本按照预先指定的格式转换得到多个不同格式的文件的异构副本,并将转换得到的多个不同格式的文件的异构副本分别存储在指定的存储服务器上,通过将一个文件存多个异构副本,每个异构副本之间是可以相互转换,多个异构副本起到冗余的作用,以提高文件***的可靠性。而且由于每个存储服务器中存储的文件的异构副本的格式不同,使得用户可以根据需要(例如根据数据分析的需要)选择读取文件的异构副本,例如当用户需要按行分析文件的副本时,就可以选择读取按行模式存储的文件的异构副本;当用户需要按列分析文件的副本时,就可以选择读取按列模式存储的文件的异构副本;当用户需要按块分析文件的副本(一些多维表格数据)时,就可以选择读取按块模式存储的文件的异构副本。由于用户可以根据需要选择读取文件的异构副本,能够有效提高用户处理数据的工作效率,特别适用于海量的规则性数据操作和大数据库的管理。
附图说明
图1表示本发明的实施例中分布式存储***中管理异构副本的方法中存储文件的异构副本的流程图之一;
图2表示本发明的实施例中分布式文件***中的副本冗余架构的示意图;
图3表示本发明的实施例中按行模式存储的文件的异构副本的示意图;
图4表示本发明的实施例中按列模式存储的文件的异构副本的示意图;
图5表示本发明的实施例中按块模式存储的文件的异构副本的示意图;
图6表示本发明的实施例中分布式存储***中管理异构副本的方法中存储文件的异构副本的流程图之二;
图7表示本发明的实施例中分布式存储***中管理异构副本的方法中读取文件的异构副本的流程图;
图8表示本发明的实施例中分布式存储***中管理异构副本的方法中修复异构副本的流程图;以及
图9表示本发明的实施例中分布式存储***中管理异构副本的装置的框图。
具体实施方式
依据本发明的一个方面公开了一种分布式存储***中管理异构副本的方法,首先获取用于存储文件的副本的写请求参数;然后根据写请求参数从元数据服务器获取每个存储服务器的位置信息;然后根据写请求参数将文件的副本按照预先指定的格式转换得到多个不同格式的文件的异构副本;最后根据从元数据服务器获取的存储服务器的位置信息,将转换得到的多个不同格式的文件的异构副本分别存储在指定的存储服务器上。
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
如图1所示,为本发明的实施例中分布式存储***中管理异构副本的方法中存储文件的异构副本的流程图之一,该方法中各个步骤的执行主体可以是客户端程序,该方法包括:
步骤S101、获取用于存储文件的副本的写请求参数。
在本发明的实施例中,文件的副本与文件具有相同的内容,副本技术是一种数据管理机制,将数据项复制多份分别放在分布式***的多个节点(存储服务器)上,用以提高***的可靠性和访问效率。
具体地,在步骤S101中该客户端程序调用文件***的写数据接口,以获取用于存储文件的副本的写请求参数,其中该写请求参数包括:文件句柄、文件偏移量、文件长度和文件的副本的格式等,其中文件的副本的格式包括:按照行模式存储(可参见图3)、按照列模式存储(可参见图4)或者按照块模式存储(可参见图4)。
步骤S103、根据写请求参数从元数据服务器获取分布式存储***中每个存储服务器的位置信息。
通常情况下,为了确保文件***的可靠性,可以将不同格式的文件的副本存储在不同的存储服务器中,即每个存储服务器存储一种格式的文件的副本,例如写请求参数中还包括文件的副本的格式,此时客户端程序可以根据该写请求参数通过元数据服务器查询与文件的副本的格式对应的多个存储服务器的位置信息,并将查询得到的多个存储服务器的位置信息作为文件的副本的存储位置。
如图2所示,为本发明的实施例中分布式文件***中的副本冗余架构的示意图,其中分布式文件***包括:客户端程序201、元数据服务器203、以及与客户端程序201连接的多个存储服务器205,其中元数据服务器203中可以记录分布式文件***中每个存储服务器205的位置信息,存储服务器205用于存储文件的异构副本或文件的副本。
步骤S105、根据写请求参数将文件的副本按照预先指定的格式转换得到多个不同格式的文件的异构副本。
在本发明的实施例中,文件的异构副本是指对文件的副本进行数据格式的转换得到的副本,文件的异构副本中的内容与文件的副本以及文件中的内容相同,其中每个异构副本可以适用于不同的应用场景(例如按行模式存储文件的副本、按列模式存储文件的副本、按块模式存储文件的副本等),同样每个异构副本之间也可以互为冗余。
可选地,在本发明的一个实施例中,在步骤S105中,根据写请求参数将文件的副本按照行模式存储、列模式存储或块模式存储的格式转换成多个不同格式的文件的异构副本,并缓存转换得到的多个不同格式的文件的异构副本。
如图3所示,为本发明的实施例中按行模式存储的文件的副本的示意图,其中文件的副本2中的内容以表格的方式存储,该表格包括多个行21和多个列23,其中行21包括a行、b行、c行和d行,列23包括1列、2列、3列和4列,其中a行记录的内容:50、28、352和120,b行记录的内容:21、99、66和112,c行记录的内容:32、52、123和13,d行记录的内容:65、23、87和344。可选地,在步骤S105中将如图3所示的文件的副本2按照行模式存储的格式转换成如图3所示的文件的异构副本3,并缓存转换得到的文件的异构副本3,文件的异构副本3记录的内容:50、28、352、120、21、99、66、112、32、52、123、13、65、23、87和344,当然可以理解的是,在本发明的实施例中并不限定文件的副本2中记录的具体内容。
如图4所示,为本发明的实施例中按列模式存储的文件的副本的示意图,其中文件的副本2中的内容以表格的方式存储,表格包括多个行21和多个列23,行21包括a行、b行、c行和d行,列23包括1列、2列、3列和4列,其中1列记录的内容:50、21、32和65,2列记录的内容:28、99、52和23,3列记录的内容:352、66、123和87,4列记录的内容:120、112、13和344。可选地,在步骤S105中将如图4所示的文件的副本2按照列模式存储的格式转换成如图4所示的文件的异构副本4,并缓存转换得到的文件的异构副本4,文件的异构副本4中记录的内容:50、21、32、65、28、99、52、23、352、66、123、87、120、112、13和344,当然可以理解的是,在本发明的实施例中并不限定文件的副本2中记录的具体内容。
如图5所示,表示本发明的实施例中按块模式存储的文件的副本的示意图,其中文件的副本2中的内容以表格的方式存储,该表格包括多个行21和多个列23,其中行21包括a行、b行、c行和d行,列23包括1列、2列、3列和4列,图中对多个行和多个列进行划分得到多个块,其中块25记录的内容:50、28、21和99,块27记录的内容:352、120、66和112,块29记录的内容:123、13、87和344,块31记录的内容:32、52、65和23。可选地,在步骤S105中将如图5所示的文件的副本2按照块模式存储的格式转换成如图5所示的文件的异构副本5,并缓存转换得到的文件的异构副本5,文件的异构副本5中记录的内容:50、28、21、99、352、120、66、112、32、52、65、23、123、13、87和344,当然可以理解的是,在本发明的实施例中并不限定文件的副本2中记录的具体内容。当然可以理解的是,图3~图5中仅列举了三种格式转换的方式,在本发明的实施例中并不限定格式转换的方式。在具体实施时,用户可以根据具体情况来调整格式转换的方式。
可选地,在本发明的实施例中,执行完步骤S101之后,可以进入步骤S103,或者进入步骤S105,或者同时进入步骤S103和步骤S105,即在本发明的实施例中并不限定上述步骤S103和步骤S105之间的先后顺序。
步骤S107、根据从元数据服务器获取的存储服务器的位置信息,将转换得到的多个不同格式的文件的异构副本分别存储在指定的存储服务器上。
继续参见图2,客户端程序201可以根据从元数据服务器203获取的存储服务器的位置信息,将转换得到的多个不同格式的文件的异构副本分别存储在指定的存储服务器205上,即每个存储服务器205中存储不同格式的文件的异构副本。
在本发明的实施例中,由于客户端程序可以将文件的副本按照预先指定的格式转换得到多个不同格式的文件的异构副本,并将转换得到的多个不同格式的文件的异构副本分别存储在指定的存储服务器上,通过将一个文件存多个异构副本,而每个异构副本的内容都是一样的,多个异构副本起到冗余的作用,以提高文件***的可靠性。而且在本发明的实施例中用户可以根据需要选择读取文件的副本,例如当用户需要按行分析文件的异构副本时,就可以选择读取按行模式存储的文件的副本;当用户需要按列分析文件的异构副本时,就可以选择读取按列模式存储的文件的副本时;当用户需要按块分析文件的异构副本(一些多维表格数据)时,就可以选择读取按块模式存储的文件的异构副本。由于用户可以根据需要选择读取文件的异构副本,能够有效提高用户处理数据的工作效率。
如图6所示,为本发明的实施例中分布式存储***中管理异构副本的方法中存储文件的副本的流程图之二,与图1中所示的存储文件的副本的流程图之一的区别是,在图6中在步骤S105之前,方法还包括:步骤S109、客户端程序判断是否启用文件的异构副本;如果启用文件的异构副本,则进入步骤S105;如果没有启用文件的异构副本,则进入步骤S111,在步骤S111中,客户端程序根据从元数据服务器获取每个存储服务器的位置信息,将文件的副本分别存储在指定的存储服务器上。可选地,在本发明的实施例客户端程序可以根据用户输入的参数来判断是否启用文件的异构副本,当然可以理解的是,在本发明的实施例中并不限定判断是否启用文件的异构副本的具体条件。
如图7所示,为本发明的实施例中分布式存储***中管理异构副本的方法中读取文件的异构副本的流程图,当分布式存储***中的存储服务器中存储有文件的副本或文件的异构副本时,该方法还包括:
步骤S113、获取用于读取文件的副本的读请求参数。
可选地,在本发明的实施例中,读请求参数包括:文件句柄、文件偏移量、文件长度、文件的副本的读取模式,其中读取模式包括行模式读取副本、列模式读取副本或者块模式读取副本。例如当用户需要按行分析文件的副本时,该读请求参数中包括行模式读取副本;当用户需要按列分析文件的副本时,该读请求参数中包括列模式读取副本;当用户需要按块分析文件的副本时,该读请求参数中包括块模式读取副本。由于读请求参数中包括读取模式,使得用户可以根据需要选择读取文件的副本。
步骤S115、根据读请求参数从元数据服务器获取要读的存储服务器的位置信息。
可选地,在元数据服务器中记录有存储服务器与该存储服务器中存储的文件的副本的格式的对应关系,例如存储服务器A中存储的文件的副本为按照行模式存储的异构副本;存储服务器B中存储的文件的副本为按照列模式存储的异构副本;存储服务器C中存储的文件的副本为按照块模式存储的异构副本。
步骤S117、判断是否启用文件的异构副本。
如果启用所述文件的异构副本,则进入步骤S119,在步骤S119中,客户端程序根据从元数据服务器获取要读的存储服务器的位置信息,从指定的存储服务器上读取文件的异构副本。例如客户端程序要读取按照行模式存储的异构副本,客户端程序可以根据元数据服务器中记录有存储服务器中文件的副本的格式的对应关系,查询得到存储服务器A的位置信息,然后在步骤S119中,从存储服务器A中读取按照行模式存储的异构副本。
如果没有启用所述文件的异构副本,则进入步骤S121,在步骤S121中,客户端程序根据从元数据服务器获取要读的存储服务器的位置信息,从指定的多个存储服务器中的任意一个存储服务器上读取文件的副本。由于多个存储服务器中所存储的文件的副本的格式并未转换,多个存储服务器中存储的文件的副本格式相同,因此可以从多个存储服务器中的任意一个存储服务器中读取文件的副本。
在本发明的实施例中为了提高异构副本存储的可靠性,可以在存储服务器上存储的异构副本出现问题的时候,对该异构副本进行修复处理。如图8所示,为本发明的实施例中分布式存储***中管理异构副本的方法中修复异构副本的流程图,包括如下步骤:
步骤S801、服务器端程序发起副本修复处理。
可选地,在本发明的实施例中,异构副本进行修复处理的触发条件有两个:
触发条件之一、客户端程序请求读副本时(比如是行模式),发现指定的副本已经丢失(可能是磁盘坏了或者对应的存储服务器关闭了),此时服务器端程序发起副本修复处理。
触发条件之二、文件***内部定期检测磁盘状态,发现有磁盘损坏或者移除,在达到老化时间后,也发起对应的副本修复处理。
步骤S803、服务器端程序判断是否启用异构副本,如果是,则进入步骤S805;如果否,则进入步骤S809。
如果启用异构副本,则进入步骤S805,在步骤S805中,服务器端程序从其他存储服务器中读取对应的异构副本,然后进入步骤S807。
步骤S807、服务器端程序将从其他存储服务器读取的文件的异构副本,转化成本存储服务器对应的异构副本,并将新的异构副本存到指定的存储服务器中的磁盘上。
可选地,步骤S807中关于异构副本的数据恢复算法,描述如下:
(1)行->列,列->行的转换,只需要知道行数(或列数),将二维矩阵进行转置运算。如图3~图5,数据在表格中都有具体的位置信息,例如可以通过行数和列数来表示数据的位置信息,因此,当需要进行行->列或列->行的转换时,根据数据的行数或列数,将二维矩阵进行转置运算。
(2)行->块,块->行的转换。当行->块转化时,根据行列数和块数,将对应的行数据取出来,组成块数据。如图3~图5,数据在表格中都有具体的位置信息,例如可以通过行数、列数和块数来表示数据的位置信息,因此,当行->块转化时,可根据行数、列数和块数,将对应的行数据取出来,组成块数据。
(3)列->块,块->列的转换方式同(2)类似,在此不再敷述。
步骤S809,如果没有启用异构副本,则可以将其他存储服务器的副本直接拷贝至本存储服务器上。
依据本发明的另一个方面还公开了一种分布式存储***中管理异构副本的装置。如图9所示,分布式存储***中管理异构副本的装置900包括:
写请求获取模块901,用于获取用于存储文件的副本的写请求参数,其中该写请求参数包括:文件句柄、文件偏移量和文件长度;
第一位置获取模块903,用于根据写请求参数从元数据服务器获取分布式存储***中每个存储服务器的位置信息。如图2所示,为本发明的实施例中分布式文件***中的副本冗余架构的示意图,其中元数据服务器203中可以存储多个存储服务器的位置信息。
格式转换模块905,用于根据所述写请求参数将文件的副本按照预先指定的格式转换得到多个不同格式的所述文件的异构副本。在本发明的实施例中,文件的异构副本是指对文件的副本进行数据格式的转换得到的副本,文件的异构副本所记录的内容与文件的副本以及文件中的内容相同,每个异构副本适用于不同的应用场景(例如按行模式存储文件的副本、按列模式存储文件的副本、按块模式存储文件的副本等),同样也可以互为冗余。具体可参见图3~图5。
副本存储模块907,用于根据从元数据服务器获取存储服务器的位置信息,将转换得到的多个不同格式的所述文件的异构副本分别存储在指定的存储服务器上。继续参见图2,客户端程序201可以根据从元数据服务器203获取的存储服务器的位置信息,将转换得到的多个不同格式的文件的异构副本分别存储在指定的存储服务器205上。
在本发明的实施例中,由于客户端程序可以将文件的副本按照预先指定的格式转换得到多个不同格式的文件的异构副本,并将转换得到的多个不同格式的文件的异构副本分别存储在指定的存储服务器上,通过将一个文件存多个异构副本,异构副本之间可以相互转换,使得多个异构副本起到冗余的作用,以提高文件***的可靠性。而且在本发明的实施例中用户可以根据需要选择读取文件的副本,例如当用户需要按行分析文件的副本时,就可以选择读取按行模式存储的文件的异构副本;当用户需要按列分析文件的副本时,就可以选择读取按列模式存储的文件的异构副本;当用户需要按块分析文件的异构副本(一些多维表格数据)时,就可以选择读取按块模式存储的文件的异构副本。由于用户可以根据需要选择读取文件的异构副本,能够有效提高用户处理数据的工作效率。
可选地,在本发明的另一个实施例中,所述装置900还包括:
第一判断模块909,用于根据写请求参数判断是否启用所述文件的异构副本;如果启用异构文件的副本,则触发格式转换模块905;如果没有启用所述文件的异构副本,则触发副本存储模块907根据从元数据服务器获取每个存储服务器的位置信息,将所述文件的副本分别存储在指定的存储服务器上。
可选地,在本发明的另一个实施例中,格式转换模块905进一步用于根据写请求参数将所述文件的副本按照行模式存储、列模式存储或块模式存储的格式转换成多个不同格式的所述文件的异构副本,并缓存转换得到的多个不同格式的所述文件的异构副本。
可选地,在本发明的另一个实施例中,所述装置900还包括:
读请求获取模块911,用于获取用于读取文件的副本的读请求参数;
第二位置获取模块913,用于根据所述读请求参数从所述元数据服务器获取要读的存储服务器的位置信息;
第二判断模块915,用于根据读请求参数判断是否启用所述文件的异构副本;
副本读取模块917,用于如果启用所述文件的异构副本,则根据从所述元数据服务器获取要读的存储服务器的位置信息,从指定的存储服务器上读取所述文件的异构副本;以及用于如果没有启用所述文件的异构副本,则根据从所述元数据服务器获取要读的存储服务器的位置信息,从指定的多个存储服务器上读取任意一个文件的副本。
可选地,在本发明的另一个实施例中,所述写请求参数包括:文件句柄、文件偏移量、文件长度和文件的副本的格式,其中所述文件的副本的格式包括:按照行模式存储、按照列模式存储或者按照块模式存储;所述读请求参数包括:文件句柄、文件偏移量、文件长度和所述文件的副本的读取模式,所述读取模式包括行模式读取副本、列模式读取副本或者块模式读取副本。
以上所述的是本发明的优选实施方式,应当指出对于本技术领域的普通人员来说,在不脱离本发明所述的原理前提下还可以作出若干改进和润饰,这些改进和润饰也在本发明的保护范围内。

Claims (10)

1.一种分布式存储***中管理异构副本的方法,其特征在于,包括:
获取用于存储文件的副本的写请求参数;
根据所述写请求参数从元数据服务器获取分布式存储***中每个存储服务器的位置信息;
根据所述写请求参数将所述文件的副本按照预先指定的格式转换得到多个不同格式的所述文件的异构副本,文件的异构副本是指对文件的副本进行数据格式的转换得到的副本,文件的异构副本中的内容与文件的副本以及文件中的内容相同,每个异构副本适用于不同的应用场景;
根据从所述元数据服务器获取的所述存储服务器的位置信息,将转换得到的多个不同格式的所述文件的异构副本分别存储在指定的存储服务器上。
2.根据权利要求1所述的方法,其特征在于,在根据所述写请求参数将所述文件的副本按照预先指定的格式转换得到多个不同格式的所述文件的异构副本的步骤之前,所述方法还包括:
根据所述写请求参数判断是否启用所述文件的异构副本;
如果启用所述文件的异构副本,则进入根据所述写请求参数将所述文件的副本按照预先指定的格式转换得到多个不同格式的所述文件的异构副本的步骤。
3.根据权利要求1或2所述的方法,其特征在于,所述根据所述写请求参数将所述文件的副本按照预先指定的格式转换得到多个不同格式的所述文件的异构副本的步骤为:
根据所述写请求参数将所述文件的副本按照行模式存储、列模式存储或块模式存储的格式转换成多个不同格式的所述文件的异构副本,并缓存转换得到的多个不同格式的所述文件的异构副本。
4.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取用于读取文件的副本的读请求参数;
根据所述读请求参数从所述元数据服务器获取要读的所述存储服务器的位置信息;
根据所述读请求参数判断是否启用所述文件的异构副本;
如果启用所述文件的异构副本,则根据从所述元数据服务器获取要读的存储服务器的位置信息,从指定的存储服务器上读取所述文件的异构副本。
5.根据权利要求4所述的方法,其特征在于,所述写请求参数包括:文件句柄、文件偏移量、文件长度和文件的副本的格式,其中所述文件的副本的格式包括:按照行模式存储、按照列模式存储或者按照块模式存储;
所述读请求参数包括:文件句柄、文件偏移量、文件长度和所述文件的副本的读取模式,所述读取模式包括按照行模式读取副本、按照列模式读取副本或者按照块模式读取副本。
6.一种分布式存储***中管理异构副本的装置,其特征在于,包括:
写请求获取模块,用于获取用于存储文件的副本的写请求参数;
第一位置获取模块,用于根据所述写请求参数从元数据服务器获取分布式存储***中每个存储服务器的位置信息;
格式转换模块,用于根据所述写请求参数将所述文件的副本按照预先指定的格式转换得到多个不同格式的所述文件的异构副本,文件的异构副本是指对文件的副本进行数据格式的转换得到的副本,文件的异构副本中的内容与文件的副本以及文件中的内容相同,每个异构副本适用于不同的应用场景;
副本存储模块,用于根据从所述元数据服务器获取的所述存储服务器的位置信息,将转换得到的多个不同格式的所述文件的异构副本分别存储在指定的存储服务器上。
7.根据权利要求6所述的装置,其特征在于,所述装置还包括:
第一判断模块,用于根据所述写请求参数判断是否启用所述文件的异构副本;如果启用所述文件的异构副本,则触发所述格式转换模块。
8.根据权利要求6或7所述的装置,其特征在于,所述格式转换模块进一步用于根据所述写请求参数将所述文件的副本按照行模式存储、列模式存储或块模式存储的格式转换成多个不同格式的所述文件的异构副本,并缓存转换得到的多个不同格式的所述文件的异构副本。
9.根据权利要求6所述的装置,其特征在于,所述装置还包括:
读请求获取模块,用于获取用于读取文件的副本的读请求参数;
第二位置获取模块,用于根据所述读请求参数从所述元数据服务器获取要读的所述存储服务器的位置信息;
第二判断模块,用于根据所述读请求参数判断是否启用所述文件的异构副本;
副本读取模块,用于如果启用所述文件的异构副本,则根据从所述元数据服务器获取要读的所述存储服务器的位置信息,从指定的存储服务器上读取所述文件的异构副本。
10.根据权利要求9所述的装置,其特征在于,所述写请求参数包括:文件句柄、文件偏移量、文件长度和文件的副本的格式,其中所述文件的副本的格式包括:按照行模式存储、按照列模式存储或者按照块模式存储;
所述读请求参数包括:文件句柄、文件偏移量、文件长度和所述文件的副本的读取模式,所述读取模式包括按照行模式读取副本、按照列模式读取副本或者按照块模式读取副本。
CN201410206795.1A 2014-05-15 2014-05-15 一种分布式存储***中管理异构副本的方法及装置 Active CN105095294B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201410206795.1A CN105095294B (zh) 2014-05-15 2014-05-15 一种分布式存储***中管理异构副本的方法及装置
PCT/CN2014/086658 WO2015172478A1 (zh) 2014-05-15 2014-09-16 一种分布式存储***中管理异构副本的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410206795.1A CN105095294B (zh) 2014-05-15 2014-05-15 一种分布式存储***中管理异构副本的方法及装置

Publications (2)

Publication Number Publication Date
CN105095294A CN105095294A (zh) 2015-11-25
CN105095294B true CN105095294B (zh) 2019-08-09

Family

ID=54479238

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410206795.1A Active CN105095294B (zh) 2014-05-15 2014-05-15 一种分布式存储***中管理异构副本的方法及装置

Country Status (2)

Country Link
CN (1) CN105095294B (zh)
WO (1) WO2015172478A1 (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107180031B (zh) * 2016-03-09 2021-04-09 华为技术有限公司 分布式存储方法及装置、数据处理方法及装置
CN107451138A (zh) * 2016-05-30 2017-12-08 中兴通讯股份有限公司 一种分布式文件***存储方法和***
CN107515863A (zh) * 2016-06-15 2017-12-26 上海宽带技术及应用工程研究中心 一种基于分布式数据库的sdn集群实现的方法及***
CN106202396A (zh) * 2016-07-08 2016-12-07 乐视控股(北京)有限公司 对象存储方法和对象存储***
CN107295070B (zh) * 2017-05-31 2019-10-29 上海交通大学 文件大小异构的分布式编码缓存放置方法及***
CN109428861A (zh) * 2017-08-29 2019-03-05 阿里巴巴集团控股有限公司 网络通信方法及设备
CN107807793B (zh) * 2017-10-27 2019-11-08 清华大学 分布式计算机存储***中数据副本异构存储与访问方法
CN108304471A (zh) * 2017-12-28 2018-07-20 ***股份有限公司 一种数据异构存储方法以及数据异构存储装置
CN108334565A (zh) * 2018-01-15 2018-07-27 贵州易鲸捷信息技术有限公司 一种数据混合存储结构、数据存储查询方法、终端及介质

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6601072B1 (en) * 2000-06-21 2003-07-29 International Business Machines Corporation Method and system for distribution of application data to distributed databases of dissimilar formats
CN102004743B (zh) * 2009-09-02 2013-08-14 ***股份有限公司 一种用于异构数据库之间数据复制的***及方法
US20120215763A1 (en) * 2011-02-18 2012-08-23 Microsoft Corporation Dynamic distributed query execution over heterogeneous sources
CN102314375A (zh) * 2011-03-18 2012-01-11 北京神州数码思特奇信息技术股份有限公司 一种异构数据库存储统一接口和数据库访问方法

Also Published As

Publication number Publication date
CN105095294A (zh) 2015-11-25
WO2015172478A1 (zh) 2015-11-19

Similar Documents

Publication Publication Date Title
CN105095294B (zh) 一种分布式存储***中管理异构副本的方法及装置
CN107169083B (zh) 公安卡口海量车辆数据存储与检索方法及装置、电子设备
CN104618482B (zh) 访问云数据的方法、服务器、传统存储设备、***
CN103890709B (zh) 基于缓存的键值数据库映射和复制
CN104301360B (zh) 一种日志数据记录的方法、日志服务器及***
CN104408111B (zh) 一种删除重复数据的方法及装置
CN103248645B (zh) Bt离线数据下载***及方法
CN109791594A (zh) 为了在多个不可变数据结构上持续存储而对数据进行分段
CN103810224B (zh) 信息持久化和查询方法及装置
US20160314160A1 (en) Database system and method
US8615502B2 (en) Method of and system for reverse mapping vnode pointers
US9530075B2 (en) Presentation and organization of content
CN109997126A (zh) 事件驱动提取、变换、加载(etl)处理
JP2012098934A (ja) 文書管理システム、文書管理システムの制御方法、プログラム
US20110016353A1 (en) Systems and methods for distributed system scanning
CN106294352B (zh) 一种文件处理方法、装置和文件***
FR3031604A1 (fr) Appareil et procedes de synchronisation des donnees
CN105224532B (zh) 数据处理方法及装置
CN104184812B (zh) 一种基于私有云的多点数据传输方法
CN110263014A (zh) 面向时序型数据的区块链存储***及方法
EP2572289A1 (en) Data storage and processing service
CN105095247B (zh) 符号数据分析方法和***
KR101790766B1 (ko) 데이터의 검색 방법, 장치 및 단말기
Gupta et al. Faster as well as early measurements from big data predictive analytics model
CN104281980B (zh) 基于分布式计算的火力发电机组远程诊断方法及***

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant