TW201423424A - 儲存集群中的資料塊去重系統及方法 - Google Patents

儲存集群中的資料塊去重系統及方法 Download PDF

Info

Publication number
TW201423424A
TW201423424A TW101148552A TW101148552A TW201423424A TW 201423424 A TW201423424 A TW 201423424A TW 101148552 A TW101148552 A TW 101148552A TW 101148552 A TW101148552 A TW 101148552A TW 201423424 A TW201423424 A TW 201423424A
Authority
TW
Taiwan
Prior art keywords
data block
storage
document
server
hash
Prior art date
Application number
TW101148552A
Other languages
English (en)
Other versions
TWI477981B (zh
Inventor
Zhi-Quan Chai
Da-Peng Li
Hai-Hong Lin
Chung-I Lee
Original Assignee
Hon Hai Prec Ind Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hon Hai Prec Ind Co Ltd filed Critical Hon Hai Prec Ind Co Ltd
Publication of TW201423424A publication Critical patent/TW201423424A/zh
Application granted granted Critical
Publication of TWI477981B publication Critical patent/TWI477981B/zh

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0602Interfaces specially adapted for storage systems specifically adapted to achieve a particular effect
    • G06F3/0608Saving storage space on storage systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/17Details of further file system functions
    • G06F16/174Redundancy elimination performed by the file system
    • G06F16/1748De-duplication implemented within the file system, e.g. based on file segments
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0628Interfaces specially adapted for storage systems making use of a particular technique
    • G06F3/0638Organizing or formatting or addressing of data
    • G06F3/064Management of blocks
    • G06F3/0641De-duplication techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0668Interfaces specially adapted for storage systems adopting a particular infrastructure
    • G06F3/067Distributed or networked storage systems, e.g. storage area networks [SAN], network attached storage [NAS]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一種儲存集群中的資料塊去重系統及方法,該方法包括:監視儲存集群中各伺服器內每個儲存區的儲存容量;當有伺服器中儲存區的儲存容量達到預設去重值時,獲取該伺服器的哈希資料庫中的所有記錄,並通知儲存集群中其他伺服器上傳其哈希資料庫的記錄;確定哈希資料庫間所有相同的哈希值,並由此確定重復資料塊;根據重復資料塊的儲存指針找出剩餘空間最大的儲存區,將重復資料塊在該儲存區內的儲存指針發送給包含該重復資料塊的其他儲存區所在的伺服器;及刪除包含該重復資料塊的其他儲存區中的該重復資料塊。

Description

儲存集群中的資料塊去重系統及方法
本發明涉及一種雲端技術,尤其涉及一種透過雲端技術去除儲存集群中的重復資料塊的系統及方法。
在分散式雲儲存中,一台伺服器可能會有多個儲存區。當其中某台伺服器的儲存區中儲存了一文檔的某個資料塊,而該伺服器的其他儲存區或儲存集群中的另一台伺服器的儲存區中也儲存了該資料塊時,會導致相同資料塊被重複儲存,儲存空間被過多浪費。
鑒於以上內容,有必要提供一種儲存集群中的資料塊去重系統及方法,能夠合理分配資料塊的儲存區。
所述儲存集群中的資料塊去重系統,應用於一台電子設備中,該電子設備透過網路連接一個儲存集群中的多台伺服器,該方法包括:監視步驟,監視儲存集群中各伺服器內每個儲存區的儲存容量;獲取步驟,當有伺服器中儲存區的儲存容量達到預設去重值時,獲取該伺服器的哈希資料庫中的所有記錄,並通知儲存集群中其他伺服器上傳其哈希資料庫的記錄;分析步驟一,確定哈希資料庫間所有相同的哈希值,並由此確定重復資料塊;分析步驟二,根據重復資料塊的儲存指針找出剩餘空間最大的儲存區,將重復資料塊在該儲存區內的儲存指針發送給包含該重復資料塊的其他儲存區所在的伺服器;及去重步驟,刪除包含該重復資料塊的其他儲存區中的該重復資料塊。
所述儲存集群中的資料塊去重方法,應用於一台電子設備中,該電子設備透過網路連接一個儲存集群中的多台伺服器,該方法包括:監視步驟,監視儲存集群中各伺服器內每個儲存區的儲存容量;獲取步驟,當有伺服器中儲存區的儲存容量達到預設去重值時,獲取該伺服器的哈希資料庫中的所有記錄,並通知儲存集群中其他伺服器上傳其哈希資料庫的記錄;分析步驟一,確定哈希資料庫間所有相同的哈希值,並由此確定重復資料塊;分析步驟二,根據重復資料塊的儲存指針找出剩餘空間最大的儲存區,將重復資料塊在該儲存區內的儲存指針發送給包含該重復資料塊的其他儲存區所在的伺服器;及去重步驟,刪除包含該重復資料塊的其他儲存區中的該重復資料塊。
所述儲存集群中的資料塊去重方法,應用於一台電子設備中,該電子設備透過網路連接一個儲存集群中的多台伺服器,該方法包括:在各哈希資料庫中寫入一個觸發事件,當哈希資料庫的記錄總數達到該觸發事件中設置的數量時,觸發該哈希資料庫將所有記錄上傳至所述電子設備中;所述電子設備通知儲存集群中的其他伺服器上傳其哈希資料庫的記錄,確定哈希資料庫間所有相同的哈希值,並由此確定重復資料塊;所述電子設備根據重復資料塊的儲存指針找出剩餘空間最大的儲存區,將重復資料塊在該儲存區內的儲存指針發送給包含該重復資料塊的其他儲存區所在的伺服器,及刪除包含該重復資料塊的其他儲存區中的該重復資料塊。
相較於習知技術,所述儲存集群中的資料塊去重系統及方法,能夠快速地查找出儲存集群中的重復資料塊,刪除重復資料塊,保留一份該重復資料塊,並合理分配所保留的重復資料塊的儲存區。
如圖1所示,是本發明儲存集群中的資料塊去重系統較佳實施例的運行環境示意圖。該儲存集群中的資料塊去重系統100運行於一個資料庫分析器1中,該資料庫分析器1透過網路連接一個儲存集群。該儲存集群是一個分散式的伺服器集群,其中有多台伺服器3。所述資料庫分析器1可以為電腦、手機、掌上電腦等能安裝軟體的電子設備。
本實施例中,一台或多台伺服器3共用一個哈希資料庫30。例如,A伺服器3、B伺服器3和C伺服器3共用一個M哈希資料庫30,A伺服器3、B伺服器3和C伺服器3中的文檔資訊均儲存在M哈希資料庫30中。D伺服器3單獨用一個N哈希資料庫30,D伺服器3中的文檔資訊儲存在該N哈希資料庫30中。其中,所述哈希資料庫30可以為內置於某個伺服器3中的資料庫,也可以為外置的資料庫。例如,哈希資料庫30內置於A伺服器3,並被A伺服器3、B伺服器3和C伺服器3共用。
所述文檔資訊包括文檔的名稱和文檔的屬性。每個文檔對應一個哈希列表,及每個文檔對應一個哈希值。為了節省儲存空間、避免重複儲存,本實施例中的文檔由資料塊組成。哈希列表中記錄了文檔多個資料塊的名稱、各資料塊的哈希值及資料塊的分割順序。本實施例中,所述資料塊的名稱可依據資料塊的哈希值來命名。
另外,所述儲存集群中的伺服器3還可以透過網路連接一個或多個用戶端(圖中未示出)。
如圖2所示,是圖1中資料庫分析器1的主要組成示意圖。該資料庫分析器1主要包括儲存設備10和至少一台處理設備12。
所述儲存設備10用於儲存所述儲存集群中的資料塊去重系統100的電腦程式化代碼。該儲存設備10可以為資料庫分析器1內置的記憶體,也可以為資料庫分析器1外接的記憶體。
處理設備12用於執行所述儲存集群中的資料塊去重系統100的電腦程式代碼,實現儲存集群中的資料塊去重。此處,去重指的是去掉重複的資料塊,保留一份該資料塊,以避免重複儲存,佔用儲存空間。
所述儲存集群中的資料塊去重系統100包括監視模組1000、獲取模組1002、分析模組1004和去重模組1006。本發明所稱的模組是完成一特定功能的電腦程式段,比程式更適合於描述軟體在電腦中的執行過程,因此在本發明以下對軟體描述都以模組描述。
所述監視模組1000用於監視儲存集群中各伺服器3內每個儲存區的儲存容量。本實施例中,每個伺服器3的儲存空間可以被分成一個或多個儲存區。
當有伺服器3中儲存區的儲存容量達到預設去重值時,例如A伺服器3中儲存區A的儲存容量達到所述預設去重值時,所述獲取模組1002用於獲取該伺服器3(如A伺服器3)的哈希資料庫30中的所有記錄,並通知儲存集群中其他伺服器3上傳其哈希資料庫30的記錄。該記錄包括哈希資料庫30中所有哈希列表中的內容。
在此需要說明的是,由於存在多個伺服器3共用一個哈希資料庫30的情況,因此,當獲取模組1002獲取了某個哈希資料庫30(如A伺服器3、B伺服器3和C伺服器3共用一個M哈希資料庫30)中的所有記錄時,所通知的伺服器3中不包括共用該哈希資料庫30的伺服器。例如,A伺服器3、B伺服器3和C伺服器3共用M哈希資料庫30,該M哈希資料庫30為內置於A伺服器3的資料庫,當獲取模組1002獲取了該M哈希資料庫30中的所有記錄後,會通知所述儲存集群中除了該A伺服器3、B伺服器3和C伺服器3之外的所有伺服器3,內置了哈希資料庫30的伺服器3會將其哈希資料庫30中的所有記錄上傳至資料庫分析器1,獲取模組1002接收所上傳的記錄。
所述分析模組1004用於確定哈希資料庫30間所有相同的哈希值,並由此確定重復資料塊。需要說明的是,重復資料塊實質為內容相同的資料塊,相同的哈希值也有可能存在同一個哈希資料庫30中。
例如,所述分析模組1004經比對確定M哈希資料庫30中有相同的哈希值,且M哈希資料庫30中還有哈希值與N哈希資料庫30中的哈希值相同,則確定M哈希資料庫30對應的伺服器3中儲存了重復資料塊,且M哈希資料庫30對應的伺服器3和N哈希資料庫30對應的伺服器3中有重復資料塊被儲存。例如,分析模組1004確定M哈希資料庫30對應的A伺服器3中儲存了相同的資料塊,N哈希資料庫30對應的D伺服器3中也儲存了與A伺服器3所儲存的資料塊相同的資料塊。如圖4所示,A伺服器3的儲存區A和儲存區B中有重復資料塊b,D伺服器3的儲存區N與A伺服器3的儲存區A有重復資料塊a和c。
所述分析模組1004還用於根據重復資料塊的儲存指針找出剩餘空間最大的儲存區,並將重復資料塊在該儲存區內的儲存指針發送給包含該重復資料塊的其他儲存區所在的伺服器3。
具體地,所述分析模組1004找出儲存了重復資料塊的儲存區中誰的剩餘空間最大,並將該剩餘空間最大的儲存區的編號、該儲存區所在的伺服器3等資訊發送給其他包含該重復資料塊的伺服器3。
如圖4所示,儲存區A和儲存區B中有重復資料塊b,儲存區B的剩餘空間比儲存區A的剩餘空間大,因此,分析模組1004將資料塊b於儲存區B的儲存指針發送給儲存區A所在的伺服器3。儲存區A與儲存區N有重復資料塊a和c,儲存區N的剩餘空間比儲存區A的剩餘空間大,因此,分析模組1004將資料塊a和c於D伺服器儲存區N的儲存指針發送給儲存區A所在的伺服器3。
去重模組1006用於利用上述發送的儲存指針更新該重復資料塊於各哈希資料庫30中的記錄,並刪除包含該重復資料塊的其他儲存區中的該重復資料塊,即保留剩餘空間最大的儲存區中所儲存的該重復資料塊。例如,去重模組1006將資料塊a和c的儲存指針(如該儲存指針為“資料塊a和c存於D伺服器的儲存區N中)更新至A伺服器儲存區A對應的M哈希資料庫30中,及將資料塊b的儲存指針(如該儲存指針為“資料塊b存於A伺服器的儲存區B中)更新至A伺服器儲存區B對應的M哈希資料庫30中。去重模組1006刪除圖4中A伺服器儲存區A內的資料塊a、b和c。
如圖3所示,是本發明儲存集群中的資料塊去重方法較佳實施例的作業流程圖。
步驟S100,監視模組1000監視儲存集群中各伺服器3內每個儲存區的儲存容量,並於步驟S102中判斷是否有儲存區達到預設去重值。
當判斷結果為沒有儲存區的儲存容量達到預設去重值時,流程返回至步驟S100。
當有儲存區的儲存容量達到預設去重值時,例如A伺服器3中儲存區A的儲存容量達到所述預設去重值時,步驟S104,獲取模組1002獲取該伺服器3(如A伺服器3)的哈希資料庫30中的所有記錄,並通知儲存集群中其他伺服器3上傳其哈希資料庫30的記錄。該記錄包括哈希資料庫30中所有哈希列表中的內容。
步驟S106,分析模組1004確定哈希資料庫30間所有相同的哈希值,並由此確定重復資料塊。需要說明的是,重復資料塊實質為內容相同的資料塊,相同的哈希值也有可能存在同一個哈希資料庫30中。
步驟S108,所述分析模組1004根據重復資料塊的儲存指針找出剩餘空間最大的儲存區,並將重復資料塊在該儲存區內的儲存指針發送給包含該重復資料塊的其他儲存區所在的伺服器3。
在其他實施例中,還可以在各哈希資料庫30中寫入一個觸發事件來觸發哈希資料庫30上傳記錄至資料庫分析器1。具體地,當某個哈希資料庫30中的記錄總數達到觸發事件中設置的數量時,觸發該哈希資料庫30將所有記錄上傳至所述資料庫分析器1中,同時,所述資料庫分析器1通知儲存集群中的其他伺服器3上傳其哈希資料庫30中的記錄。
如圖4所示,儲存區A和儲存區B中有重復資料塊b,儲存區B的剩餘空間比儲存區A的剩餘空間大,因此,分析模組1004將資料塊b於儲存區B的儲存指針發送給儲存區A所在的伺服器3。
步驟S110,去重模組1006利用上述發送的儲存指針更新該重復資料塊於各哈希資料庫30中的記錄,並刪除包含該重復資料塊的其他儲存區中的該重復資料塊,即保留剩餘空間最大的儲存區中所儲存的該重復資料塊。例如,去重模組1006將資料塊b的儲存指針(如該儲存指針為“資料塊b存於A伺服器的儲存區B中”)更新至儲存區B對應的M哈希資料庫30中,並刪除圖4中儲存區A內的資料塊b。
如圖5所示,是本發明用戶於用戶端下載伺服器3中文檔的作業流程圖。
步驟S200,用戶端根據要下載的文檔的儲存指針從對應的伺服器3中獲取文檔各資料塊的哈希值與儲存指針。具體地,每個文檔都有一個儲存指針,該儲存指針由文檔多個資料塊的儲存指針組成。文檔各資料塊的哈希值是從伺服器3的哈希資料庫30中獲取。
步驟S202,根據該文檔各資料塊的儲存指針從相應的儲存區下載資料塊。
步驟S204,校驗各資料塊的哈希值與從哈希資料庫30的哈希列表中獲取的相應資料塊的哈希值是否相同。
當校驗結果為不同時,流程返回至步驟S200,重新獲取哈希值及重新下載資料塊。
當校驗結果為相同時,步驟S206,用戶端將通過校驗的資料塊寫入臨時儲存區中,按照所述資料塊的分割順序將上述通過校驗的資料塊進行排序組合,生成文檔。
步驟S208,校驗組合後文檔的哈希值與上傳到伺服器3之前文檔的哈希值是否相同。
當校驗結果為相同時,於步驟S210,將通過校驗的文檔返回給用戶端的用戶。當校驗結果為不同時,流程返回至步驟S200。
最後所應說明的是,以上實施例僅用以說明本發明的技術方案而非限制,儘管參照以上較佳實施例對本發明進行了詳細說明,本領域的普通技術人員應當理解,可以對本發明的技術方案進行修改或等同替換,而不脫離本發明技術方案的精神和範圍。
1...資料庫分析器
3...伺服器
30...哈希資料庫
10...儲存設備
12...處理設備
100...儲存集群中的資料塊去重系統
1000...監視模組
1002...獲取模組
1004...分析模組
1006...去重模組
圖1是本發明儲存集群中的資料塊去重系統較佳實施例的運行環境示意圖。
圖2是圖1中資料庫分析器的主要組成示意圖。
圖3是本發明儲存集群中的資料塊去重方法較佳實施例的作業流程圖。
圖4以示意圖的形式舉例說明本發明的去重方法。
圖5是本發明用戶於用戶端下載儲存伺服器中文檔的作業流程圖。
1...資料庫分析器
10...儲存設備
100...儲存集群中的資料塊去重系統
1000...監視模組
1002...獲取模組
1004...分析模組
1006...去重模組
12...處理設備

Claims (10)

  1. 一種儲存集群中的資料塊去重方法,應用於一台電子設備中,該電子設備透過網路連接一個儲存集群中的多台伺服器,該方法包括:
    監視步驟,監視儲存集群中各伺服器內每個儲存區的儲存容量;
    獲取步驟,當有伺服器中儲存區的儲存容量達到預設去重值時,獲取該伺服器的哈希資料庫中的所有記錄,並通知儲存集群中其他伺服器上傳其哈希資料庫的記錄;
    分析步驟一,確定哈希資料庫間所有相同的哈希值,並由此確定重復資料塊;
    分析步驟二,根據重復資料塊的儲存指針找出剩餘空間最大的儲存區,將重復資料塊在該儲存區內的儲存指針發送給包含該重復資料塊的其他儲存區所在的伺服器;及
    去重步驟,刪除包含該重復資料塊的其他儲存區中的該重復資料塊。
  2. 如申請專利範圍第1項所述之儲存集群中的資料塊去重方法,其中所述去重步驟還包括:
    利用所發送的儲存指針更新該重復資料塊於各哈希資料庫中的記錄。
  3. 如申請專利範圍第1項所述之儲存集群中的資料塊去重方法,其中所述儲存集群中的多台伺服器透過網路連接一個或多個用戶端,當用戶需要透過用戶端從伺服器下載文檔時,所述用戶端執行以下步驟:
    根據文檔的儲存指針從對應的伺服器中獲取文檔各資料塊的哈希值;
    根據各資料塊的儲存指針從相應的儲存區下載各資料塊;
    校驗各資料塊的哈希值與從哈希資料庫中獲取的相應資料塊的哈希值是否相同;
    當校驗結果為不相同時,返回上述根據文檔的儲存指針從對應的伺服器中獲取文檔各資料塊的哈希值的步驟,當校驗結果為相同時,將通過校驗的資料塊寫入臨時儲存區中;
    按照所述資料塊的分割順序將上述通過校驗的資料塊進行排序組合,生成文檔;及
    校驗組合後文檔的哈希值與上傳到伺服器之前文檔的哈希值是否相同,當校驗結果為相同時,將通過校驗的文檔返回給用戶端的用戶,當校驗結果為不相同時,返回上述根據文檔的儲存指針從對應的伺服器中獲取文檔各資料塊的哈希值的步驟。
  4. 一種儲存集群中的資料塊去重系統,運行於一台電子設備中,該電子設備透過網路連接一個儲存集群中的多台伺服器,該系統包括:
    監視模組,用於監視儲存集群中各伺服器內每個儲存區的儲存容量;
    獲取模組,用於當有伺服器中儲存區的儲存容量達到預設去重值時,獲取該伺服器的哈希資料庫中的所有記錄,並通知儲存集群中其他伺服器上傳其哈希資料庫的記錄;
    分析模組,用於確定哈希資料庫間所有相同的哈希值,並由此確定重復資料塊,根據重復資料塊的儲存指針找出剩餘空間最大的儲存區,將重復資料塊在該儲存區內的儲存指針發送給包含該重復資料塊的其他儲存區所在的伺服器;及
    去重模組,用於刪除包含該重復資料塊的其他儲存區中的該重復資料塊。
  5. 如申請專利範圍第4項所述之儲存集群中的資料塊去重系統,其中所述去重模組還用於:
    利用所發送的儲存指針更新該重復資料塊於各哈希資料庫中的記錄。
  6. 如申請專利範圍第4項所述之儲存集群中的資料塊去重系統,其中所述儲存集群中的多台伺服器透過網路連接一個或多個用戶端,當用戶需要透過用戶端從伺服器下載文檔時,所述用戶端用於:
    根據文檔的儲存指針從對應的伺服器中獲取文檔各資料塊的哈希值;
    根據各資料塊的儲存指針從相應的儲存區下載各資料塊;
    校驗各資料塊的哈希值與從哈希資料庫中獲取的相應資料塊的哈希值是否相同;
    當校驗結果為不相同時,返回上述根據文檔的儲存指針從對應的伺服器中獲取文檔各資料塊的哈希值的步驟,當校驗結果為相同時,將通過校驗的資料塊寫入臨時儲存區中;
    按照所述資料塊的分割順序將上述通過校驗的資料塊進行排序組合,生成文檔;及
    校驗組合後文檔的哈希值與用戶端上傳的文檔的哈希值是否相同,當校驗結果為相同時,將通過校驗的文檔返回給用戶端的用戶,當校驗結果為不相同時,返回上述根據文檔的儲存指針從對應的伺服器中獲取文檔各資料塊的哈希值的步驟。
  7. 一種儲存集群中的資料塊去重方法,應用於一台電子設備中,該電子設備透過網路連接一個儲存集群中的多台伺服器,該方法包括:
    在各伺服器的哈希資料庫中寫入一個觸發事件,當哈希資料庫的記錄總數達到該觸發事件中設置的數量時,觸發該哈希資料庫將所有記錄上傳至所述電子設備中;
    所述電子設備通知儲存集群中的其他伺服器上傳其哈希資料庫的記錄,確定哈希資料庫間所有相同的哈希值,並由此確定重復資料塊;
    所述電子設備根據重復資料塊的儲存指針找出剩餘空間最大的儲存區,將重復資料塊在該儲存區內的儲存指針發送給包含該重復資料塊的其他儲存區所在的伺服器,及刪除包含該重復資料塊的其他儲存區中的該重復資料塊。
  8. 如申請專利範圍第7項所述之儲存集群中的資料塊去重方法,還包括:
    利用所發送的儲存指針更新該重復資料塊於各哈希資料庫中的記錄。
  9. 如申請專利範圍第7項所述之儲存集群中的資料塊去重方法,其中所述儲存集群中的多台伺服器透過網路連接一個或多個用戶端,當用戶需要透過用戶端從伺服器下載文檔時,所述用戶端執行以下步驟:
    根據文檔的儲存指針從對應的伺服器中獲取文檔各資料塊的哈希值;
    根據各資料塊的儲存指針從相應的儲存區下載各資料塊;
    校驗各資料塊的哈希值與從哈希資料庫中獲取的相應資料塊的哈希值是否相同;
    當校驗結果為相同時,將通過校驗的資料塊寫入臨時儲存區中;
    按照所述資料塊的分割順序將上述通過校驗的資料塊進行排序組合,生成文檔;及
    校驗組合後文檔的哈希值與上傳到伺服器之前文檔的哈希值是否相同,當校驗結果為相同時,將通過校驗的文檔返回給用戶端的用戶。
  10. 如申請專利範圍第9項所述之儲存集群中的資料塊去重方法,在用戶透過用戶端從伺服器下載文檔過程中,資料塊的哈希值校驗結果為不相同,或者文檔的哈希值校驗結果為不相同時,返回上述根據文檔的儲存指針從對應的伺服器中獲取文檔各資料塊的哈希值的步驟。
TW101148552A 2012-12-12 2012-12-20 儲存集群中的資料塊去重系統及方法 TWI477981B (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210534073.XA CN103873506A (zh) 2012-12-12 2012-12-12 存储集群中的数据块去重***及方法

Publications (2)

Publication Number Publication Date
TW201423424A true TW201423424A (zh) 2014-06-16
TWI477981B TWI477981B (zh) 2015-03-21

Family

ID=50882109

Family Applications (1)

Application Number Title Priority Date Filing Date
TW101148552A TWI477981B (zh) 2012-12-12 2012-12-20 儲存集群中的資料塊去重系統及方法

Country Status (3)

Country Link
US (1) US9552161B2 (zh)
CN (1) CN103873506A (zh)
TW (1) TWI477981B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108280048A (zh) * 2017-01-05 2018-07-13 腾讯科技(深圳)有限公司 信息处理方法和装置
US11388233B2 (en) 2019-04-30 2022-07-12 Clumio, Inc. Cloud-based data protection service

Families Citing this family (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104462106A (zh) * 2013-09-17 2015-03-25 鸿富锦精密工业(深圳)有限公司 数据更新方法及***
CN105487818B (zh) * 2015-11-27 2018-11-09 清华大学 针对云存储***中重复冗余数据的高效去重方法
CN105955675B (zh) * 2016-06-22 2018-11-09 南京邮电大学 一种用于去中心云环境的重复数据删除***及方法
CN107870922B (zh) * 2016-09-23 2022-02-22 伊姆西Ip控股有限责任公司 一种用于数据去重的方法、设备和***
CN108073521B (zh) * 2016-11-11 2021-10-08 深圳市创梦天地科技有限公司 一种数据去重的方法和***
CN108241639B (zh) * 2016-12-23 2019-07-23 中科星图股份有限公司 一种数据去重方法
CN106487937A (zh) * 2016-12-30 2017-03-08 郑州云海信息技术有限公司 一种云存储***文件去重方法及***
CN107402725B (zh) * 2017-03-20 2020-08-25 威盛电子股份有限公司 非易失性存储装置及其数据去重复方法
JP6733620B2 (ja) * 2017-07-12 2020-08-05 京セラドキュメントソリューションズ株式会社 画像読取装置、及び画像読取方法
CN107817950B (zh) * 2017-10-31 2021-07-23 新华三技术有限公司 一种数据处理方法及装置
US11025600B1 (en) * 2017-11-08 2021-06-01 Massachusetts Institute Of Technology System for de-duplicating network coded distributed storage and related techniques
CN108563649B (zh) * 2017-12-12 2021-12-07 南京富士通南大软件技术有限公司 基于GlusterFS分布式文件***的离线去重方法
CN108009025A (zh) * 2017-12-13 2018-05-08 北京小米移动软件有限公司 数据存储方法及装置
CN108427538B (zh) * 2018-03-15 2021-06-04 深信服科技股份有限公司 全闪存阵列的存储数据压缩方法、装置、及可读存储介质
CN109828968B (zh) * 2019-02-19 2021-12-21 广州虎牙信息科技有限公司 一种数据去重处理方法、装置、设备、集群及存储介质
CN110191187A (zh) * 2019-06-04 2019-08-30 湖北五五互联科技有限公司 Cdn服务器数据管理方法、设备及计算机可读存储介质
EP3867739B1 (en) * 2019-07-23 2024-06-19 Huawei Technologies Co., Ltd. Devices, system and methods for deduplication
CN114138756B (zh) * 2020-09-03 2023-03-24 金篆信科有限责任公司 数据去重方法、节点及计算机可读存储介质
CN112988684A (zh) * 2021-03-15 2021-06-18 浪潮云信息技术股份公司 一种基于哈希算法电子公文数据的提取和去重方法及***
CN114265551B (zh) * 2021-12-02 2023-10-20 阿里巴巴(中国)有限公司 存储集群中的数据处理方法、存储集群、存储节点及设备

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002189781A (ja) * 2000-12-20 2002-07-05 Ricoh Co Ltd 物流業務管理方法、物流業務管理システム及び記録媒体
TW200614017A (en) * 2004-10-26 2006-05-01 Via Tech Inc Instantaneous integrated system and method of heterogeneous databases
US8412682B2 (en) * 2006-06-29 2013-04-02 Netapp, Inc. System and method for retrieving and using block fingerprints for data deduplication
CN100547555C (zh) * 2007-12-10 2009-10-07 华中科技大学 一种基于指纹的数据备份***
US8612439B2 (en) * 2009-06-30 2013-12-17 Commvault Systems, Inc. Performing data storage operations in a cloud storage environment, including searching, encryption and indexing
CN101917396B (zh) * 2010-06-25 2013-06-19 清华大学 一种网络文件***中数据的实时去重和传输方法
US8954401B2 (en) * 2011-01-14 2015-02-10 Symantec Corporation Systems and methods for providing increased scalability in deduplication storage systems
CN102385554B (zh) * 2011-10-28 2014-01-15 华中科技大学 重复数据删除***的优化方法
US8930648B1 (en) * 2012-05-23 2015-01-06 Netapp, Inc. Distributed deduplication using global chunk data structure and epochs
US9251186B2 (en) * 2012-06-13 2016-02-02 Commvault Systems, Inc. Backup using a client-side signature repository in a networked storage system

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108280048A (zh) * 2017-01-05 2018-07-13 腾讯科技(深圳)有限公司 信息处理方法和装置
US11388233B2 (en) 2019-04-30 2022-07-12 Clumio, Inc. Cloud-based data protection service
TWI798547B (zh) * 2019-04-30 2023-04-11 美商克魯密爾公司 從基於雲端的資料保護服務進行還原

Also Published As

Publication number Publication date
CN103873506A (zh) 2014-06-18
US20140164339A1 (en) 2014-06-12
TWI477981B (zh) 2015-03-21
US9552161B2 (en) 2017-01-24

Similar Documents

Publication Publication Date Title
TWI477981B (zh) 儲存集群中的資料塊去重系統及方法
JP6419319B2 (ja) 共有フォルダ及び共有ファイルの同期
US10983868B2 (en) Epoch based snapshot summary
US10983961B2 (en) De-duplicating distributed file system using cloud-based object store
KR102461943B1 (ko) 변경할 수 없는 저장소 내의 데이터베이스 메타데이터
CN107423426B (zh) 一种区块链块数据的数据归档方法及电子设备
TW201423427A (zh) 資料塊備份系統及方法
US10019459B1 (en) Distributed deduplication in a distributed system of hybrid storage and compute nodes
TWI594138B (zh) 壓縮包上傳去重系統及方法
TWI528191B (zh) File Handling Method Based on Cloud Storage, System and Server Cluster System
TW201423426A (zh) 資料分塊上傳與儲存系統及方法
US7941409B2 (en) Method and apparatus for managing data compression and integrity in a computer storage system
TW201423425A (zh) 資料分塊儲存至分散式伺服器的系統及方法
US9710336B2 (en) File deduplication in a file system
US20180060348A1 (en) Method for Replication of Objects in a Cloud Object Store
US20180107404A1 (en) Garbage collection system and process
US11734229B2 (en) Reducing database fragmentation
US10452487B2 (en) Data processing apparatus and method
CN111198856A (zh) 文件管理方法、装置、计算机设备和存储介质
TWI420333B (zh) 分散式的重複數據刪除系統及其處理方法
EP3532939A1 (en) Garbage collection system and process
CN114461446A (zh) 一种双活容灾方法及装置、电子设备

Legal Events

Date Code Title Description
MM4A Annulment or lapse of patent due to non-payment of fees