TW201640352A

TW201640352A - 資料處理方法和流計算系統

Info

Publication number: TW201640352A
Application number: TW104142282A
Authority: TW
Inventors: Mei-Fang Li; Pu-Meng Wei; Pei-Le Duan; Shan Li
Original assignee: Alibaba Group Services Ltd
Priority date: 2015-05-14
Filing date: 2015-12-16
Publication date: 2016-11-16
Also published as: WO2016183507A1; EP3295294A1; US20160335287A1; EP3295294A4; TWI710897B; CN106294357B; US10877935B2; CN106294357A

Abstract

本申請提出一種資料處理方法和流計算系統，該資料處理方法包括資料接收模組接收到要處理的資料後，將所述資料寫入檔案系統中，並在所述資料被寫入檔案系統後，發送所述資料給邏輯處理模組；邏輯處理模組根據對資料的接收情況獲取有效資料，並且，定期對預設的檢查點進行更新；以及，在發生失效轉移時，確定最新的檢查點，獲取與所述最新的檢查點對應的有效資料，並恢復所述有效資料。該方法能夠滿足對外服務化的訴求，以及在發生失效轉移時避免資料來源頭重發。

Description

資料處理方法和流計算系統

本申請涉及資料處理技術領域，尤其涉及一種資料處理方法和流計算系統。

流計算是指利用分散式的思想和方法，對海量“流”式資料進行即時處理，它源自對海量資料“時效”價值上的挖掘訴求。流計算針對的資料可以稱為流資料，流資料是沒有邊界的、未知的，而計算是事先定義(已知)的，流計算系統按照已定義的計算邏輯來處理流資料。

現在最常用的流計算系統是Storm，在實際應用中常常和消息中間軟體(如Kafka)或儲存系統(如HBase)結合，通過拉資料模式來獲取資料，其缺點在於和消息中間軟體緊耦合，難以滿足對外服務化的訴求。此外，Storm在失效轉移(Failover)時，採用“源頭重發”的消息機制，這種方式的缺點是故障恢復代價高，在某些場景下可能會造成雪崩效應，集群規模在水準擴展性上有較多局限。

本申請旨在至少在一定程度上解決相關技術中的技術問題之一。

為此，本申請的一個目的在於提出一種資料處理方法，該方法在處理流資料時可以滿足對外服務化的訴求，以及在發生失效轉移時避免資料來源頭重發。

本申請的另一個目的在於提出一種流計算系統。

為達到上述目的，本申請第一方面實施例提出的資料處理方法，包括：資料接收模組接收到要處理的資料後，將所述資料寫入檔案系統中，並在所述資料被寫入檔案系統後，發送所述資料給邏輯處理模組；邏輯處理模組根據對資料的接收情況獲取有效資料，並且，定期對預設的檢查點進行更新；以及，在發生失效轉移時，確定最新的檢查點，獲取與所述最新的檢查點對應的有效資料，並恢復所述有效資料。

本申請第一方面實施例提出的資料處理方法，通過不設置消息中間軟體，從而滿足對外服務化的訴求；通過將資料寫入檔案系統中，實現資料落地，進而實現資料與後續的流計算分離，落地的資料可以應用到其他系統；通過記錄檢查點和有效資料，可以在發生失效轉移時，恢復相應的有效資料，避免資料來源頭重發。

為達到上述目的，本申請第二方面實施例提出的流計算系統，包括：資料接收模組和邏輯處理模組；所述資料接收模組用於接收到要處理的資料後，將所述資料寫入檔案系統中，並在所述資料被寫入檔案系統後，發送所述資料給邏輯處理模組；所述邏輯處理模組用於根據對資料的接收情況獲取有效資料，並且，定期對預設的檢查點進行更新；以及，在發生失效轉移時，確定最新的檢查點，獲取與所述最新的檢查點對應的有效資料，並恢復所述有效資料。

本申請第二方面實施例提出的流計算系統，通過不設置消息中間軟體，從而滿足對外服務化的訴求；通過將資料寫入檔案系統中，實現資料落地，進而實現資料與後續的流計算分離，落地的資料可以應用到其他系統；通過記錄檢查點和有效資料，可以在發生失效轉移時，恢復相應的有效資料，避免資料來源頭重發。

本申請附加的方面和優點將在下面的描述中部分給出，部分將從下面的描述中變得明顯，或通過本申請的實踐瞭解到。

31‧‧‧Shard

32‧‧‧AppContainer

33‧‧‧Processors

34‧‧‧分散式檔案系統

50‧‧‧系統

51‧‧‧資料接收模組

52‧‧‧邏輯處理模組

521‧‧‧父單元

522‧‧‧子單元

本申請上述的和/或附加的方面和優點從下面結合附圖對實施例的描述中將變得明顯和容易理解，其中：圖1是本申請一實施例提出的資料處理方法的流程示意圖；圖2是本申請另一實施例提出的資料處理方法的流程示意圖；圖3是圖2對應的流計算系統的結構示意圖；圖4是本申請實施例中檢查點的示意圖；圖5是本申請另一實施例提出的流計算系統的結果示意圖；圖6是本申請另一實施例提出的流計算系統的結果示意圖。

下面詳細描述本申請的實施例，所述實施例的示例在附圖中示出，其中自始至終相同或類似的標號表示相同或類似的模組或具有相同或類似功能的模組。下面通過參考附圖描述的實施例是示例性的，僅用於解釋本申請，而不能理解為對本申請的限制。相反，本申請的實施例包括落入所附加申請專利範圍的精神和內涵範圍內的所有變化、修改和等同物。

圖1是本申請一實施例提出的資料處理方法的流程示意圖，該方法可以應用到流計算系統中，用於流資料的處理，該方法包括：S11：資料接收模組接收到要處理的資料後，將所述資料寫入檔案系統中，並在所述資料被寫入檔案系統後，發送所述資料給邏輯處理模組。

要處理的資料可以是流資料。

檔案系統可以具體是指分散式檔案系統，分散式檔案系統(Distributed File System)是指檔案系統管理的物理儲存資源不一定直接連接在本地節點上，而是通過電腦網路與節點相連。

現有技術中，流資料通過消息中間軟體傳輸給流計算系統，而本實施例中，沒有設置消息中間軟體，支援兩種資料接入方式，一種是推，用戶從自己的資料來源，通過Restful API把資料推(push)過來，此時邏輯由使用者在外部實現；另一種是拉，此時用戶只需要在自己的資料來源開放拉資料的介面，在本系統的拓撲(topology)中實現拉資料的邏輯即可獲取資料。無論哪種方式都不依賴特定的消息中間軟體，不同使用者可以使用不同的資料來源。資料接收模組通過提供Restful API實現對外服務。

另外，本實施例通過將資料寫入檔案系統中，可以實現資料落地，寫入檔案系統中的資料還可以用於其他系統，例如，寫入檔案系統的資料作為批量計算的來源資料。

資料接收模組在將資料寫入檔案系統後，將資料發送給邏輯處理模組進行具體的流計算。

可選的，所述將所述資料寫入檔案系統中，包括：將所述資料以記錄為細微性進行劃分，得到至少一條記錄，並為每條記錄生成版本號，以及將所述記錄與所述版本號對應寫入檔案系統中。

可選的，所述發送所述資料給邏輯處理模組，包括：將所述資料以塊為細微性進行劃分，得到至少一個塊，並為每個塊生成塊標識，以及將所述塊與所述塊標識對應發送給邏輯處理模組，其中，每個塊包括至少一條記錄。

S12：邏輯處理模組根據對資料的接收情況獲取有效資料，並且，定期對預設的檢查點進行更新；以及，在發生失效轉移時，確定最新的檢查點，獲取與所述最新的檢查點對應的有效資料，並恢復所述有效資料。

其中，有效資料是指未發生丟失且不重複(簡稱為不丟不重)的資料。

接收情況可以包括：接收到未發生丟失且不重複的資料，發生資料丟失或者發生資料重複。其中，當發生資料丟失時，可以通過補資料保證不丟失，發生資料重複時，通過資料去重保證不重複。

可選的，所述根據對資料的接收情況獲取有效資料，包括：判斷是否發生資料丟失和資料重複中的至少一項；如果未發生資料丟失和資料重複中的任一項，則將接收的未丟失且不重複的資料，確定為有效資料；如果發生資料丟失和資料重複中的至少一項，則對應執行如下項中的至少一項，並將處理後的資料確定為有效資料：如果發生資料丟失，則確定丟失的版本號，並從所述檔案系統中補入所述丟失的版本號對應的資料；如果發生資料重複，則去掉重複的資料。

可選的，所述記錄所述有效資料，包括：將所述有效資料記錄在重做日誌檔中，所述重做日誌檔中還包含所述有效資料對應的重做日誌檔中繼資料；且，所述檢查點中包含重做日誌檔中繼資料；所述獲取與所述最新的檢查點對應的有效資料，包括：根據所述最新的檢查點中包含的重做日誌檔中繼資料，從所述重做日誌檔中，獲取與所述重做日誌檔中繼資料對應的有效資料。

具體的，本實施例中可以設置檢查點(CheckPoint)，檢查點中可以記錄重做日誌檔中繼資料(RedoLogMeta)，以及有效資料可以記錄在重做日誌檔(RedoLog)中，並與RedoLogMeta對應記錄。因此，在發生失效轉移(Failover)時，可以先查找到CheckPoint中記錄的RedoLogMeta，再在RedoLog中查找到與查找到的RedoLogMeta對應的有效資料，並恢復查找到的有效資料，從而可以避免源頭重發。

本實施例中，通過不設置消息中間軟體，從而滿足對外服務化的訴求；通過將資料寫入檔案系統中，實現資料落地，進而實現資料與後續的流計算分離，落地的資料可以應用到其他系統；通過記錄檢查點和有效資料，可以在發生失效轉移時，恢復相應的有效資料，避免資料來源頭重發。

圖2是本申請另一實施例提出的資料處理方法的流程示意圖，圖3是圖2對應的流計算系統的結構示意圖。

通常流計算系統包括作為前端(frontend)的超文字傳輸協定(HyperText Transfer Protocol，HTTP)伺服器，以及作為後端(backend)的用於處理資料以及應用邏輯的伺服器。

本實施例中主要針對用於處理資料以及應用邏輯的伺服器進行優化，因此，為了簡化說明，本實施例中的流計算系統具體是指用於處理資料以及應用邏輯的伺服器。

本實施例的流計算系統可以包括資料接收模組和邏輯處理模組，資料接收模組和邏輯處理模組可以由軟體實現，當然，可以理解的是，該軟體也可以基於硬體資源安裝以及運行。參見圖3，資料接收模組用Shard 31表示，邏輯處理模組包括：AppContainer 32和Processors 33。AppContainer(作業容器)包含多個Task運行實例，Processors(處理器組)包含多個Processor(處理器)，每個Processor對應一個Task運行實例，Task是資料和應用邏輯處理的抽象單元。

另外，參見圖3，流計算系統還包括：分散式檔案系統34。

流計算中，每個應用實現的計算邏輯稱為拓撲(Topology)，一個Topology可以包含多級任務(Task)，Task是流計算中的邏輯處理單元，一個Task可以有多個物理運行實例(instance)。

本實施例的流計算系統支援多級Task，由於通常首級Task處理的資料格式和處理邏輯比較特殊，因此，本實施例中，將Task分為首級Task和非首級Task，相應的，邏輯處理模組分為用於處理首級Task的邏輯處理模組和用於處理非首級Task的邏輯處理模組。如圖3所示，用於處理首級Task的邏輯處理模組用AppContainer表示，用於處理非首級Task的邏輯處理模組用Processors表示。

資料處理涉及三個功能元件：Shard、AppContainer和Processors。Shard用於接收用戶端資料，它先把資料寫到分散式檔案系統中，保證資料正常落地(這一層落地的資料同時可以用於其他服務，比如離線計算)，然後再發送給AppContainer。一個AppContainer包含一個或多個Task的運行實例。Task是流計算中的邏輯處理單元，一個Task可以有多個實體運行實例(Instance)。由於首級Task處理的資料格式和處理邏輯的特殊性，所以把它和其他Task區別開。其他的Task都在功能模組Processors中。每個Processor接收到資料後，會先寫RedoLog(通常稱為重做日誌檔)，該RedoLog類似於傳統資料庫的RedoLog，它包含資料及其元資訊，可以在發生失效轉移(failover)時用於恢復系統，再把資料發給Task執行計算處理。Task之間的資料流程稱為Pipe(資料管道)。

參見圖2，本實施例的資料處理流程包括：

S201：Shard接收到資料後，為資料分配版本號，並將資料與版本號對應寫入分散式檔案系統中。

其中，資料可以具體是指流資料，參見圖3，流資料可以來自上游業務。

版本號可以用<BatchID，SequenceID>表示。BatchID和時間軸相關，比如每100ms遞增一次，SequenceID表示一條記錄在這個Batch中的序號。分散式檔案系統中，可以以記錄(record)為細微性記錄資料，每條記錄由一個版本號<BatchID，SequenceID>唯一標識。

S202：Shard將資料寫入分散式檔案系統後，將資料發送給AppContainer。

本實施例中，Shard將資料發送給AppContainer時，可以以塊(Block)為單位進行資料傳輸，每個塊包括一條或者多條記錄(record)，每個塊對應唯一的塊標識(BlockID)。

Shard在傳輸資料之前，可以將一條或多條記錄封裝為一個資料塊(Block)(以下可以簡稱為塊)，並為每個塊分配唯一的塊標識。Shard還可以維護一個塊緩衝區(Block Buffer)，塊緩衝區用於緩衝資料塊，例如，Shard在將資料封裝為塊後，可以將塊(Block)緩衝到記憶體中，背景執行緒會不斷讀取緩衝到記憶體中的塊並廣播發給AppContainer。

Shard先把資料寫到分散式檔案系統中，落地成功後再發給流計算處理，這種方式可以實現資料落地和流計算處理分離，保證資料正常落地，不會受到後續流計算的影響(比如系統Failover)。

S203：AppContainer獲取不丟不重的資料後，發送給本機的Task進行處理。

其中，AppContainer會保存已接收的最新塊標識(LatestBlockID)，當接收到的BlockID<=LatestBlockID時，它會判斷該Block為重復資料，直接丟棄，保證資料不重。

BlockID是連續值，當BlockID>LatestBlockID+1時，則表示中間資料丟失(在兩種情況下會發生，一是buffer滿時會丟掉部分資料，二是網路異常)，AppContainer會通過讀取Shard落地的資料來補資料，保證資料不丟。例如，AppContainer接收的資料不僅包括BlockID，還包括版本號<BatchID，SequenceID>，在發現資料丟失後，可以先確定丟失資料的<BatchID，SequenceID>，之後再從分散式檔案系統中獲取丟失資料的<BatchID，SequenceID>對應的資料，實現補資料。

AppContainer可以通過檔案控制代碼將不丟不重的資料發送給本機的Task。

S204：Task對資料進行處理，把處理後的需要發送給下一級Task的資料向上發送給Appcontainer。

由於系統對外服務，Task中運行著使用者代碼，為了保證系統安全，Task是在受限的沙箱環境中運行，禁止存取網路，所以每級Task是通過把資料向上發送給本機的AppContainer或Processor進行中轉，再發送給下一級Task。

由於Task的資料是來自本機的AppContainer，在 AppContainer保證資料不丟後，Task也可以保證資料不丟，該步驟只需再保證資料不重。Task會持有已接收的最新版本號<LatestBatchID,LastetSequenceID>。類似地，通過比較接收到版本號的和最新版本號，可以判斷資料是否重複並去重。

S205：如果下一級Task位於processor內，AppContainer將資料發送給Processor。

S206：Processor對資料進行去重處理，把去重後的資料寫入分散式檔案系統內的RedoLog中。

由於對一條記錄的處理，系統支援輸出多條記錄，因此對版本號添加一個標記OutputID，即版本號<BatchID,SequenceID,OutputID>可以唯一標識輸出的一條資料。Processor保存了最新的版本號<LatestBatchID，LatestSequenceID，LatestOutputID>，在接收到資料後，它會先通過版本號進行去重，然後寫RedoLog。

另外，Shard在寫資料時，具體也可以是寫入分散式檔案系統內的Shard對應的RedoLog中。

Processor保存了接收到的資料的<BatchID,SequenceID,OutputID>，這個三元組是有序遞增的。當Processor接收資料時，會先通過版本號<BatchID,SequenceID,OutputID>判斷資料是否重複，如果重複則丟棄，保證不重；如果是新資料，則會把資料寫到分散式檔案系統中，然後返回給AppContainer成功，保證不丟。基於以上分析，RedoLog可以保證資料不丟不重。

S207：Processor在將資料寫入RedoLog後，將資料發送給本機的Task進行處理。

另外，在發生失效轉移(Failover)時，如果Processor發現資料丟失，則可以從之前記錄的RedoLog中讀取資料。

S208：Task對資料進行處理，把處理後的需要發送給下一級Task的資料向上發送給Processor。

S209：如果下一級Task位於Processor內，Processor將資料發送給下一級的Processor。

S207-S209的具體內容可以參照AppContainer的流程類似處理。

需要說明的是，由於Task是運行在AppContainer或Processor中的，因此，本實施例中接收到資料並將資料發送給本機Task的AppContainer可以具體是指AppContainer內的父進程(或者稱為父單元)，AppContainer內的Task是子進程(或者稱為子單元)，類似的，接收到資料並將資料發送給本機Task的Processor可以具體是指Processor內的父進程(或者稱為父單元)，Processor內的task是子進程(或者稱為子單元)。

另外，在上述的資料處理過程中，Shard會定時寫CheckPoint，比如Shard的CheckPoint資訊如下： { "BlockID": 10, "BatchID": 1, "SequenceID": 1, "TimestampForBatch": 1426622776, "ShardID": 123, "RedoLogMeta": { "DirID": 12, "DirName": "/stream_demo/test", "FileID": 17, "Offset": 134217728 } }

另外，邏輯處理模組內部包括父單元和子單元，例如，上述的AppContainer是父單元，AppContainer內的Task是對應AppContainer的子單元，上述的Processor是父單元，Processor內的Task是對應Processor的子單元。

對應父單元，所述定期對預設的檢查點進行更新，包括：定期生成檢查點，並判斷是否需要對生成的檢查點進行持久化；如果確定需要對生成的檢查點進行持久化，將預設的檢查點更新為需要持久化的檢查點。

可選的，在記錄所述有效資料時還記錄所述有效資料的版本號，所述版本號包括批編號，所述判斷是否需要對生成的檢查點進行持久化，包括：獲取第一批編號和第二批編號，所述第一批編號是所述父單元自身記錄的最新的有效資料的批編號，所述第二批編號是所述子單元記錄的最新的有效資料的批編號；如果所述第一批編號小於或等於所述第二批編號，確定需要對生成的檢查點進行持久化。

可選的，當所述第一批編號大於所述第二批編號時，所述方法還包括：所述父單元在恢復自身的有效資料後，繼續獲取新資料，並將所述新資料發送給所述子單元；所述子單元在恢復自身的有效資料後，對接收的新資料中的重復資料進行去重處理。

具體的，Task會根據使用者邏輯，寫CheckPoint。AppContainter會定時生成CheckPoint，它會依賴Task的CheckPoint中BatchID，判斷是否要對自己的CheckPoint持久化。當AppContainer的CheckPoint BatchID<=TaskCheckPoint BatchID時，AppContainer會寫CheckPoint；否則判斷生成的CheckPoint無效，不做持久化。

這樣在Failover時，AppContainer和Task分別載入自己的CheckPoint恢復快照，AppContainer會重複發送部分資料(如圖4中重發部分)，Task通過比較版本號，丟棄重復資料。

Processor的寫CheckPoint機制和AppContainer類似。

這樣在整個過程中，通過RedoLog、CheckPoint和版本號，保證流資料處理的不丟不重，並且在Failover時，可以通過RedoLog和CheckPoint快速恢復，避免了從源頭重發資料。

本實施例中，Shard將資料寫入分散式檔案系統，實現資料落地；通過為資料分配版本號以及塊標識，保證資料不丟不重；通過CheckPoint和RedoLog避免源頭重發。

圖5是本申請另一實施例提出的流計算系統的結果示意圖，該系統50包括：資料接收模組51和邏輯處理模組52。

所述資料接收模組51用於接收到要處理的資料後，將所述資料寫入檔案系統中，並在所述資料被寫入檔案系統後，發送所述資料給邏輯處理模組52；要處理的資料可以是流資料。

檔案系統可以具體是指分散式檔案系統，分散式檔案系統(Distributed File System)是指檔案系統管理的實體儲存資源不一定直接連接在本地節點上，而是通過電腦網路與節點相連。

可選的，所述資料接收模組51用於將所述資料寫入檔案系統中，包括：將所述資料以記錄為細微性進行劃分，得到至少一條記錄，並為每條記錄生成版本號，以及將所述記錄與所述版本號對應寫入檔案系統中。

可選的，所述資料接收模組51用於發送所述資料給邏輯處理模組，包括：將所述資料以塊為細微性進行劃分，得到至少一個塊，並為每個塊生成塊標識，以及將所述塊與所述塊標識對應發送給邏輯處理模組，其中，每個塊包括至少一條記錄。

本實施例中的資料接收模組對應上述方法實施例中的Shard，具體流程可以參見方法實施例，在此不再贅述。

所述邏輯處理模組52用於根據對資料的接收情況獲取有效資料，並且，定期對預設的檢查點進行更新；以及，在發生失效轉移時，確定最新的檢查點，獲取與所述最新的檢查點對應的有效資料，並恢復所述有效資料。

可選的，所述邏輯處理模組52用於根據對資料的接收情況獲取有效資料，包括：判斷是否發生資料丟失和資料重複中的至少一項；如果未發生資料丟失和資料重複中的任一項，則將接收的未丟失且不重複的資料，確定為有效資料；如果發生資料丟失和資料重複中的至少一項，則對應執行如下項中的至少一項，並將處理後的資料確定為有效資料：如果發生資料丟失，則確定丟失的版本號，並從所述檔案系統中補入所述丟失的版本號對應的資料；如果發生資料重複，則去掉重複的資料。

可選的，所述邏輯處理模組52用於記錄所述有效資料，包括：將所述有效資料記錄在重做日誌檔中，所述重做日誌檔中還包含所述有效資料對應的重做日誌檔中繼資料；且，所述檢查點中包含重做日誌檔中繼資料；所述邏輯處理模組用於獲取與所述最新的檢查點對應的有效資料，包括：根據所述最新的檢查點中包含的重做日誌檔中繼資料，從所述重做日誌檔中，獲取與所述重做日誌檔中繼資料對應的有效資料。

參見圖6，所述邏輯處理模組52內部包括父單元521和子單元522，所述父單元521用於定期對預設的檢查點進行更新，包括：定期生成檢查點，並判斷是否需要對生成的檢查點進行持久化；如果確定需要對生成的檢查點進行持久化，將預設的檢查點更新為需要持久化的檢查點。

可選的，所述父單元521用於判斷是否需要對生成的檢查點進行持久化，包括：獲取第一批編號和第二批編號，所述第一批編號是所述父單元自身記錄的最新的有效資料的批編號，所述第二批編號是所述子單元記錄的最新的有效資料的批編號；如果所述第一批編號小於或等於所述第二批編號，確定需要對生成的檢查點進行持久化。

可選的，當所述第一批編號大於所述第二批編號時，所述父單元521還用於：在恢復自身的有效資料後，繼續獲取新資料，並將所述新資料發送給所述子單元；所述子單元522還用於：在恢復自身的有效資料後，對接收的新資料中的重復資料進行去重處理。

本實施例中的邏輯處理模組可以對應方法實施例中的AppContainer和Processors，父單元和子單元分別是指AppContainer和本機內的Task，以及Processor和本機內的Task，具體流程可以參見方法實施例，在此不再贅述。

需要說明的是，在本申請的描述中，術語“第一”、“第二”等僅用於描述目的，而不能理解為指示或暗示相對重要性。此外，在本申請的描述中，除非另有說明，“多個”的含義是指至少兩個。

流程圖中或在此以其他方式描述的任何過程或方法描述可以被理解為，表示包括一個或更多個用於實現特定邏輯功能或過程的步驟的可執行指令的代碼的模組、片段或部分，並且本申請的優選實施方式的範圍包括另外的實現，其中可以不按所示出或討論的順序，包括根據所涉及的功能按基本同時的方式或按相反的順序，來執行功能，這應被本申請的實施例所屬技術領域的技術人員所理解。

應當理解，本申請的各部分可以用硬體、軟體、韌體或它們的組合來實現。在上述實施方式中，多個步驟或方法可以用儲存在記憶體中且由合適的指令執行系統執行的軟體或韌體來實現。例如，如果用硬體來實現，和在另一實施方式中一樣，可用本領域公知的下列技術中的任一項或他們的組合來實現：具有用於對資料信號實現邏輯功能的邏輯門電路的離散邏輯電路，具有合適的組合邏輯門電路的專用積體電路，可程式設計閘陣列(PGA)，現場可程式設計閘陣列(FPGA)等。

所屬技術領域中具有通常知識者可以理解實現上述實施例方法攜帶的全部或部分步驟是可以通過程式來指令相關的硬體完成，所述的程式可以儲存於一種電腦可讀儲存媒介中，該程式在執行時，包括方法實施例的步驟之一或其組合。

此外，在本申請各個實施例中的各功能單元可以整合在一個邏輯處理模組中，也可以是各個單元單獨實體存在，也可以兩個或兩個以上單元整合在一個模組中。上述整合的模組既可以採用硬體的形式實現，也可以採用軟體功能模組的形式實現。所述整合的模組如果以軟體功能模組的形式實現並作為獨立的產品銷售或使用時，也可以儲存在一個電腦可讀取儲存媒介中。

上述提到的儲存媒介可以是唯讀記憶體，磁片或光碟等。

在本說明書的描述中，參考術語“一個實施例”、“一些實施例”、“示例”、“具體示例”、或“一些示例”等的描述意指結合該實施例或示例描述的具體特徵、結構、材料或者特點包含於本申請的至少一個實施例或示例中。在本說明書中，對上述術語的示意性表述不一定指的是相同的實施例或示例。而且，描述的具體特徵、結構、材料或者特點可以在任何的一個或多個實施例或示例中以合適的方式結合。

儘管上面已經示出和描述了本申請的實施例，可以理解的是，上述實施例是示例性的，不能理解為對本申請的限制，本領域的普通技術人員在本申請的範圍內可以對上述實施例進行變化、修改、替換和變型。

Claims

一種資料處理方法，其特徵在於，包括：資料接收模組接收到要處理的資料後，將所述資料寫入檔案系統中，並在所述資料被寫入檔案系統後，發送所述資料給邏輯處理模組；邏輯處理模組根據對資料的接收情況獲取有效資料，並且，定期對預設的檢查點進行更新；以及，在發生失效轉移時，確定最新的檢查點，獲取與所述最新的檢查點對應的有效資料，並恢復所述有效資料。
根據請求項1所述的方法，其中，所述將所述資料寫入檔案系統中，包括：將所述資料以記錄為細微性進行劃分，得到至少一條記錄，並為每條記錄生成版本號，以及將所述記錄與所述版本號對應寫入檔案系統中。
根據請求項2所述的方法，其中，所述發送所述資料給邏輯處理模組，包括：將所述資料以塊為細微性進行劃分，得到至少一個塊，並為每個塊生成塊標識，以及將所述塊與所述塊標識對應發送給邏輯處理模組，其中，每個塊包括至少一條記錄。
根據請求項1所述的方法，其中，所述根據對資料的接收情況獲取有效資料，包括：判斷是否發生資料丟失和資料重複中的至少一項；如果未發生資料丟失和資料重複中的任一項，則將接收的未丟失且不重複的資料，確定為有效資料；如果發生資料丟失和資料重複中的至少一項，則對應執行如下項中的至少一項，並將處理後的資料確定為有效資料：如果發生資料丟失，則確定丟失的版本號，並從所述檔案系統中補入所述丟失的版本號對應的資料；如果發生資料重複，則去掉重複的資料。
根據請求項1所述的方法，其中，所述邏輯處理模組內部包括父單元和子單元，對應父單元，所述定期對預設的檢查點進行更新，包括：定期生成檢查點，並判斷是否需要對生成的檢查點進行持久化；如果確定需要對生成的檢查點進行持久化，將預設的檢查點更新為需要持久化的檢查點。
根據請求項5所述的方法，其中，在記錄所述有效資料時還記錄所述有效資料的版本號，所述版本號包括批編號，所述判斷是否需要對生成的檢查點進行持久化，包括：獲取第一批編號和第二批編號，所述第一批編號是所述父單元自身記錄的最新的有效資料的批編號，所述第二批編號是所述子單元記錄的最新的有效資料的批編號；如果所述第一批編號小於或等於所述第二批編號，確定需要對生成的檢查點進行持久化。
根據請求項6所述的方法，其中，當所述第一批編號大於所述第二批編號時，所述方法還包括：所述父單元在恢復自身的有效資料後，繼續獲取新資料，並將所述新資料發送給所述子單元；所述子單元在恢復自身的有效資料後，對接收的新資料中的重復資料進行去重處理。
根據請求項1所述的方法，其中，所述記錄所述有效資料，包括：將所述有效資料記錄在重做日誌檔中，所述重做日誌檔中還包含所述有效資料對應的重做日誌檔中繼資料；且，所述檢查點中包含重做日誌檔中繼資料；所述獲取與所述最新的檢查點對應的有效資料，包括：根據所述最新的檢查點中包含的重做日誌檔中繼資料，從所述重做日誌檔中，獲取與所述重做日誌檔中繼資料對應的有效資料。
一種流計算系統，其特徵在於，包括：資料接收模組和邏輯處理模組；所述資料接收模組用於接收到要處理的資料後，將所述資料寫入檔案系統中，並在所述資料被寫入檔案系統後，發送所述資料給邏輯處理模組；所述邏輯處理模組用於根據對資料的接收情況獲取有效資料，並且，定期對預設的檢查點進行更新；以及，在發生失效轉移時，確定最新的檢查點，獲取與所述最新的檢查點對應的有效資料，並恢復所述有效資料。
根據請求項9所述的系統，其中，所述資料接收模組用於將所述資料寫入檔案系統中，包括：將所述資料以記錄為細微性進行劃分，得到至少一條記錄，並為每條記錄生成版本號，以及將所述記錄與所述版本號對應寫入檔案系統中。
根據請求項10所述的系統，其中，所述資料接收模組用於發送所述資料給邏輯處理模組，包括：將所述資料以塊為細微性進行劃分，得到至少一個塊，並為每個塊生成塊標識，以及將所述塊與所述塊標識對應發送給邏輯處理模組，其中，每個塊包括至少一條記錄。
根據請求項9所述的系統，其中，所述邏輯處理模組用於根據對資料的接收情況獲取有效資料，包括：判斷是否發生資料丟失和資料重複中的至少一項；如果未發生資料丟失和資料重複中的任一項，則將接收的未丟失且不重複的資料，確定為有效資料；如果發生資料丟失和資料重複中的至少一項，則對應執行如下項中的至少一項，並將處理後的資料確定為有效資料：如果發生資料丟失，則確定丟失的版本號，並從所述檔案系統中補入所述丟失的版本號對應的資料；如果發生資料重複，則去掉重複的資料。
根據請求項9所述的系統，其中，所述邏輯處理模組內部包括父單元和子單元，所述父單元用於定期對預設的檢查點進行更新，包括：定期生成檢查點，並判斷是否需要對生成的檢查點進行持久化；如果確定需要對生成的檢查點進行持久化，將預設的檢查點更新為需要持久化的檢查點。
根據請求項13所述的系統，其中，所述父單元用於判斷是否需要對生成的檢查點進行持久化，包括：獲取第一批編號和第二批編號，所述第一批編號是所述父單元自身記錄的最新的有效資料的批編號，所述第二批編號是所述子單元記錄的最新的有效資料的批編號；如果所述第一批編號小於或等於所述第二批編號，確定需要對生成的檢查點進行持久化。
根據請求項14所述的系統，其中，當所述第一批編號大於所述第二批編號時，所述父單元還用於：在恢復自身的有效資料後，繼續獲取新資料，並將所述新資料發送給所述子單元；所述子單元還用於：在恢復自身的有效資料後，對接收的新資料中的重復資料進行去重處理。