TWI534704B - 時間序列資料處理方法及其系統 - Google Patents

時間序列資料處理方法及其系統 Download PDF

Info

Publication number
TWI534704B
TWI534704B TW103140555A TW103140555A TWI534704B TW I534704 B TWI534704 B TW I534704B TW 103140555 A TW103140555 A TW 103140555A TW 103140555 A TW103140555 A TW 103140555A TW I534704 B TWI534704 B TW I534704B
Authority
TW
Taiwan
Prior art keywords
data
value
time series
group
new input
Prior art date
Application number
TW103140555A
Other languages
English (en)
Other versions
TW201619817A (zh
Inventor
古永忠
蔡宗融
陳立群
Original Assignee
財團法人資訊工業策進會
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 財團法人資訊工業策進會 filed Critical 財團法人資訊工業策進會
Priority to TW103140555A priority Critical patent/TWI534704B/zh
Priority to CN201410705190.7A priority patent/CN105608096A/zh
Priority to US14/563,392 priority patent/US20160147824A1/en
Application granted granted Critical
Publication of TWI534704B publication Critical patent/TWI534704B/zh
Publication of TW201619817A publication Critical patent/TW201619817A/zh

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2455Query execution
    • G06F16/24552Database cache management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/23Updating
    • G06F16/2308Concurrency control
    • G06F16/2315Optimistic concurrency control
    • G06F16/2322Optimistic concurrency control using timestamps

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Complex Calculations (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

時間序列資料處理方法及其系統
本發明提出一種資料處理方法,特別是關於一種時間序列的資料處理方法及其系統。
在這資訊***的時代,時間序列資料與我們的生活息息相關,例如社群網站上的個人喜好、某個觀光景點的造訪人數、甚至是股票價格、物價指數、通貨膨脹率、利率、匯率等等,都是我們在日常訊息或是財金議題中時時刻刻都會接觸到的資料。然而,為了理解及利用這些巨量的時間序列資料,一般會透過資料編制索引、搜索和進行處理計算,以得到相關的統計數據,藉以呈現相關的搜尋結果或趨勢來達到商業策略或金融交易之目的是相當重要的。
目前資料序列處理以傳統的資料處理方式進行處理,使用傳統資料庫之資料統計方式來進行處理時,仍考慮使用全面的資料,對於巨量的時間序列資料而言,效率將緩慢得不切實際。因此,在重視趨勢的應用上,處理巨量資料所耗費的時間成本並非我們所樂見的。
本發明實施例提出一種時間序列資料處理方法,包括以下步驟:首先,將時間序列資料的多筆資料分配於複數個資料組,以對各資料組中的多筆資料執行統計計算,並產生對應的統計結 果,其中統計結果係為各資料組分別對應的結果數值,以及對應時間序列資料的多筆資料的紀錄數值;接著,暫存各資料組對應的統計結果;其後,根據時間序列資料的新輸入資料之數值與各資料組對應的統計結果進行比較,以據此選擇所述資料組的其中之一,並將新輸入資料加入被選擇的資料組,重新對被選擇的資料組執行統計計算並產生結果數值;最後,選取所述資料組的其中之一,以被選取的資料組的結果數值更新紀錄數值。
本發明實施例提出一種時間序列資料處理系統。時間序列資料處理系統包括資料分配處理模組以及資料查詢處理模組。資料分配處理模組包括資料暫存器以及分配器。資料查詢處理模組包括選擇器以及分析器。資料查詢處理模組耦接於資料分配處理模組。分配器耦接於資料暫存器。分析器耦接於選擇器。資料分配處理模組用以接收時間序列資料的多筆資料並分配於複數個資料組,以提供各資料組執行統計計算。資料暫存器用以暫存各資料組對應的統計結果,其中統計結果係為各資料組分別對應的結果數值,以及對應時間序列資料的多筆資料的紀錄數值。分配器用以比較時間序列資料的新輸入資料之數值與各資料組對應的統計結果以據此選擇所述資料組的其中之一,並將新輸入資料之數值加入被選擇的資料組,重新對被選擇的資料組執行統計計算並產生結果數值。選擇器用以選取所述資料組的其中之一。分析器用以以被選取的資料組的結果數值更新紀錄數值。
綜上所述,本發明實施例所提出之時間序列資料處理方法及其系統能夠在重視趨勢的決策情境下,提供稍低精確度但快速的計算結果。更仔細地說,將原本巨量的資料的透過分散式的處理方式並考慮各分散式索引之誤差平衡,在維持常態分配模型的情況下能夠提供相當精確度以及可預期回應時間之計算結果。更值得一提的是,本發明實施例於各分散式索引之資料中以取樣的方式確保計算量,以維持穩定的回應時間。
簡單來說,本發明實施例兼顧分群取樣之效率與系統取樣之精確度,並維持穩定的回應時間。
為使能更進一步瞭解本發明之特徵及技術內容,請參閱以下有關本發明之詳細說明與附圖,但是此等說明與所附圖式僅係用來說明本發明,而非對本發明的權利範圍作任何的限制。
1‧‧‧時間序列資料處理系統
11‧‧‧時間標記模組
12‧‧‧資料分配處理模組
13‧‧‧記憶體模組
14‧‧‧資料查詢處理模組
121‧‧‧分配器
122‧‧‧資料暫存器
141‧‧‧選擇器
142‧‧‧分析器
DATA‧‧‧資料
DATA_S‧‧‧時間序列資料
DATA_V‧‧‧新輸入資料
RS‧‧‧查詢指令
ID1、ID2、ID3、ID4、ID5‧‧‧資料組
k‧‧‧預設數量個資料
kn‧‧‧第n個資料
M1、M2‧‧‧動態計算數值
S101~S104、S201~S209、S301~S310‧‧‧為方法步驟流程
圖1為本發明實施例之時間序列資料處理系統之示意圖。
圖2為本發明實施例之時間序列資料處理方法之流程圖。
圖3為本發明實施例之平均計算的時間序列資料處理方法之流程圖。
圖4為本發明實施例之資料分配處理模組分配時間序列資料於複數個資料組之示意圖。
圖5為本發明實施例之動態計算的時間序列資料處理方法之流程圖。
圖6為本發明實施例之動態計算的資料分配處理模組分配時間序列資料之示意圖。
在下文將參看隨附圖式更充分地描述各種例示性實施例,在隨附圖式中展示一些例示性實施例。然而,本發明概念可能以許多不同形式來體現,且不應解釋為限於本文中所闡述之例示性實施例。確切而言,提供此等例示性實施例使得本發明將為詳盡且完整,且將向熟習此項技術者充分傳達本發明概念的範疇。在諸圖式中,可為了清楚而誇示層及區之大小及相對大小。類似數字始終指示類似元件。
本發明實施例主要係將時間序列資料的多筆資料以分散的方式分配於多個資料組並各別執行統計計算。接著,將時間序列資料的新輸入資料之數值與各資料組進行比較並據此將新輸入資料加入被選擇的資料組中。也就是說,本發明實施例之分散的方式考慮各分散式索引之誤差平衡來維持常態分配模型,以提供快速且具有相當精確度之計算方法。後續將進一步進行詳細說明本發 明實施例。
請參閱圖1,圖1為本發明實施例之時間序列資料處理系統之示意圖。時間序列資料處理系統1包括時間標記模組11、資料分配處理模組12、記憶體模組13以及資料查詢處理模組14。資料分配處理模組12包括資料暫存器121以及分配器122。資料查詢處理模組14包括選擇器141以及分析器142。資料分配處理模組12耦接於時間標記模組11,記憶體模組13耦接於資料分配處理模組12,資料查詢處理模組14耦接於記憶體模組13與資料分配處理模組12。資料暫存器121耦接於分配器122,分析器142耦接於選擇器141。
時間標記模組11包括適當的電路、邏輯和/或編碼,用以將序列資料DATA的多筆資料標記時間戳以產生時間序列資料DATA_S。時間序列資料DATA_S表示由離散事件組成的某些類型活動。
在本發明實施例中,資料分配處理模組12用以接收時間序列資料DATA_S的多筆資料,並將所述多筆資料分配於複數個資料組,以提供各資料組執行統計計算,並產生對應的統計結果。其中統計結果係為各資料組分別對應的結果數值,以及對應時間序列資料DATA_S的多筆資料的紀錄數值。值得一提的是,資料分配處理模組12所提供之統計計算為平均計算與動態計算兩者其中之一,結果數值為平均計算數值與動態計算數值兩者其中之一。更仔細地說,平均計算為將資料組中之所有資料的數值(或取樣之資料的數值)加總平均;動態計算為先於資料組中取樣一預設數量的資料來產生資料列表,並且將資料列表以預設數量的資料之數值依大小進行排序,以提供時間序列資料DATA_S的新輸入資料之數值與資料列表上之資料進行取代之相關運算。
進一步地說,資料分配處理模組12之資料暫存器121包括適當的電路、邏輯和/或編碼,用以暫存各資料組對應的統計結果。其中統計結果係為各資料組分別對應的結果數值,以及對應時間序列資料DATA_S的多筆資料的紀錄數值。換句話說,資料暫存 器121提供資料分配處理模組12一快取空間(Statistics cache)來暫存各資料組相關統計計算的結果。
資料分配處理模組12之分配器122包括適當的電路、邏輯和/或編碼,用以比較資料分配處理模組12所接收之時間序列資料DATA_S的新輸入資料之數值與各資料組對應的統計結果,以據此選擇所述資料組的其中之一。其後,分配器122將新輸入資料之數值加入被選擇的資料組,以重新對被選擇的資料組執行統計計算並產生結果數值。
舉例來說,當資料分配處理模組12所執行之統計計算為平均計算時,各資料組分別對應的結果數值為各資料組之所有資料之平均計算數值。分配器122判斷時間序列資料DATA_S之新輸入資料之數值大於的紀錄數值時,將新輸入資料加入至所述資料組中其平均計算數值為最小的資料組;當分配器122判斷時間序列資料DATA_S之新輸入資料之數值小於紀錄數值時,將新輸入資料加入至所述資料組中其平均計算數值為最大的資料組。在本發明實施例中,新輸入資料加入至所述資料組後直接進行加總平均。然而,紀錄數值為各資料組對應的平均計算數值進一步的平均值。另一方面來說,紀錄數值可代表時間序列資料DATA_S所有資料的平均值。
再另一舉例,當資料分配處理模組12所執行之統計計算為動態計算時,各資料組分別對應的結果數值為各資料組之各資料組之資料列表中的動態計算數值,分配器122判斷時間序列資料DATA_S之新輸入資料之數值大於動態計算數值時,在被選取的資料組中取代資料列表上小於新輸入資料之數值之最大值;當分配器122判斷時間序列資料DATA_S之新輸入資料之數值小於動態計算數值時,在被選取的資料組中取代資料列表上大於新輸入資料之數值之最小值。值得一提的是,動態計算數值為最接近預設數量的資料之數值的平均值的資料之數值。在本發明實施例中,紀錄數值亦為各資料組對應的動態計算數值的平均值。
值得一提的是,上述雖分別以平均計算與動態計算分別實施 與說明,但在實際應用上仍可將兩者同時實施。更仔細地說,當分配器122將時間序列資料DATA_S之新輸入資料之數值與紀錄數值進行比較,依各資料組之平均計算數值將新輸入資料加入至所述資料組的其中之一。同時,分配器122進一步對被選擇加入的資料組取樣預設數量的資料來產生資料列表,並且將資料列表以預設數量的資料之數值依大小進行排序。接著,分配器122判斷時間序列資料DATA_S之新輸入資料之數值與動態計算數值的大小,取代資料列表上之數值並進一步更新紀錄數值。
記憶體模組13包括適當的電路、邏輯和/或編碼,用以儲存分配於所述資料組之時間序列資料DATA_S的多筆資料。更仔細地說,當時間序列資料DATA_S經由資料分配處理模組12進行比較分配後,將時間序列資料DATA_S的資料數值儲存於記憶體模組13。
資料查詢處理模組14之選擇器141包括適當的電路、邏輯和/或編碼,用以選取所述資料組的其中之一。更仔細地說,選擇器141用以接收查詢指令RS以執行隨機選取所述資料組的其中之一。使用者能夠透過查詢指令RS對記憶體模組13中巨量的時序資料進行查詢,以獲得使用者所欲了解之行為特性的趨勢。在本發明實施例中,係以趨勢作為查詢之目的,並非需精確取得每一筆資料。其中選擇器141所接收之查詢指令RS包括時間顆粒度(Time granularity)之資訊。值得一提的是,當時間顆粒度小於預設範圍值(可依使用者或營運商之經驗所設置)時,執行被選取的資料組於預設範圍值內的資料。換句話說,當時間顆粒度較小時亦可進行精確計算。
資料查詢處理模組14之分析器142包括適當的電路、邏輯和/或編碼,用以透過被選取的資料組的結果數值更新紀錄數值。更仔細地說,在本發明實施例中,資料分配處理模組12在分配完時間序列資料DATA_S之新輸入資料與計算出新的結果數值後,並未直接更新資料暫存器121之紀錄數值。直到下一個時間點選擇器141接收到查詢指令RS後才讀取記憶體模組13中關於各資料 組的統計結果並透過分析器142進行更新資料暫存器121中的紀錄數值。然而,在實際應用上亦可以資料分配處理模組12在分配完時間序列資料DATA_S之新輸入資料與計算出新的結果數值後直接對資料暫存器121之紀錄數值,本發明並不此做為限制。
接著將進一步說明本發明實施例之時間序列資料處理方法。請參閱圖2,圖2為本發明實施例之時間序列資料處理方法之流程圖。時間序列資料處理方法包括以下步驟:步驟S101,將時間序列資料的多筆資料分配於複數個資料組,以對各資料組中的多筆資料執行統計計算,並產生對應的統計結果;步驟S102,暫存各資料組對應的統計結果;步驟S103,根據時間序列資料的新輸入資料之數值與各資料組對應的統計結果進行比較,以據此選擇所述資料組的其中之一,並將新輸入資料加入被選擇的資料組,重新對被選擇的資料組執行平均計算並產生結果數值;步驟S104,選取所述資料組的其中之一,以被選取的資料組的結果數值更新紀錄數值。
請同時參閱圖1與圖2。在步驟S101中,資料分配處理模組12用以接收時間序列資料DATA_S的多筆資料,並將所述多筆資料分配於複數個資料組,以提供各資料組執行統計計算並產生對應的統計結果。
在步驟S102中,資料暫存器121暫存各資料組對應的統計結果。也就是說,資料暫存器121提供資料分配處理模組12一快取空間(Statistics cache)來暫存各資料組相關統計計算的結果以及對應時間序列資料的多筆資料之紀錄數值。
在步驟S103中,分配器122比較資料分配處理模組12所接收之時間序列資料DATA_S的新輸入資料之數值與各資料組對應的統計結果,以據此選擇所述資料組的其中之一。其後,分配器122將新輸入資料之數值加入被選擇的資料組,以重新對被選擇的資料組執行統計計算並產生結果數值。
在步驟S104中,使用者輸入之查詢指令RS至選擇器141以隨機或依順序選擇儲存於記憶體模組13的所述資料組的其中之一 之結果數值。接著,選擇器141進一步傳送所述查詢指令RS所選擇之結果數值至分析器142。分析器142透過被選取的資料組的結果數值更新資料暫存器121之紀錄數值。
請參閱圖3,圖3為本發明實施例之平均計算的時間序列資料處理方法之流程圖。後續將進一步以統計計算為平均計算進行說明。平均計算的時間序列資料處理方法包括以下步驟:步驟S201,將時間序列資料的多筆資料分配於複數個資料組,以對各資料組中的多筆資料執行平均計算;步驟S202,產生對應的各資料組之所有資料之平均計算數值;步驟S203,暫存各平均計算數值以及紀錄數值;步驟S204,將時間序列資料的新輸入資料之數值與紀錄數值進行比較;步驟S205,判斷新輸入資料之數值是否大於紀錄數值;步驟S206,將新輸入資料加入至所述資料組中其平均計算數值為最小的資料組;步驟S207,將新輸入資料加入至所述資料組中其平均計算數值為最大的資料組;步驟S208,重新對被選擇的資料組執行平均計算並產生平均計算數值;步驟S209,選取所述資料組的其中之一,將被選取的資料組的平均計算數值更新紀錄數值。
請同時參閱圖1、3與4。圖4為本發明實施例之資料分配處理模組分配時間序列資料於複數個資料組之示意圖。在步驟S201中,資料分配處理模組12用以接收時間序列資料DATA_S的多筆資料,並且分配器122將所述多筆資料分配於5個資料組ID1~ID5。接著,在步驟S202中,分配器122對被所選擇各資料組ID1~ID5執行平均計算,並產生對應各資料組ID1~ID5之平均計算數值。其中平均計算數值為將資料組ID1~ID5中之所有資料的數值加總平均(或取樣之資料的數值之平均計算數值)。舉例來說,本發明實施例之資料組ID1~ID5的平均計算數值大小依序為ID5>ID4>ID3>ID2>ID1
在步驟S203中,資料暫存器121暫存各資料組ID1~ID5對應的平均計算數值。值得一提的是,資料暫存器121除了暫存各資料組ID1~ID5對應的平均計算數值外,亦儲存了所有平均計算數 值的平均值(亦及為前述實施例之紀錄數值)。
在步驟S204中,分配器122比較資料分配處理模組12所接收之時間序列資料DATA_S的新輸入資料之數值與紀錄數值,以據此選擇所述資料組ID1~ID5的其中之一。
延續步驟S204,在步驟S205中分配器122進一步判斷時間序列資料DATA_S的新輸入資料之數值是否大於紀錄數值(亦即為各資料組ID1~ID5之平均計算數值的平均值)。若是,進入步驟S207;若否,進入步驟S206。更仔細地說,當分配器122判斷時間序列資料DATA_S之新輸入資料之數值大於的紀錄數值時進入步驟S207中,將新輸入資料加入至所述資料組ID1~ID5中其平均計算數值為最小的資料組ID1;相反地,當分配器122判斷時間序列資料DATA_S之新輸入資料之數值小於紀錄數值時進入步驟S206,將新輸入資料加入至所述資料組中其平均計算數值為最大的資料組ID5。更仔細地說,為了使各資料組ID1~ID5之間誤差平衡,分配器122依據各資料組ID1~ID5的平均計算數值來選擇要加入哪個資料組ID1~ID5
接著,在步驟S208中,分配器122重新對加入新輸入資料的被選擇的資料組ID1(判斷新輸入資料之數值為大於時)或ID5(判斷新輸入資料之數值為小於時)執行平均計算並重新產生新平均計算數值。
最後,在步驟S209中,使用者輸入之查詢指令RS至選擇器141以隨機或依順序選擇儲存於記憶體模組13的所述資料組ID1~ID5的其中之一的平均計算數值。接著,選擇器141進一步傳送所述查詢指令RS所選擇之平均計算數值至分析器142。分析器142透過被選取的資料組ID1或ID5的平均計算數值更新資料暫存器121之紀錄數值。
接著,請參閱圖5。圖5為本發明實施例之動態計算的時間序列資料處理方法之流程圖。後續將進一步以統計計算為動態計算進行說明。動態計算的時間序列資料處理方法包括以下步驟:步驟S301,將時間序列資料的多筆資料分配於複數個資料組,以對 各資料組中的多筆資料執行動態計算;步驟S302,產生對應的各資料組之所有資料之動態計算數值;步驟S303,暫存各動態計算數值以及紀錄數值;步驟S304,將時間序列資料的新輸入資料之數值與紀錄數值進行比較,以據此選擇所述資料組的其中之一;步驟S305,對被選擇的資料組取樣預設數量的資料來產生資料列表,其中資料列表以預設數量的資料之數值依大小進行排序;步驟S306,判斷新輸入資料之數值是否大於被選取的資料組的動態計算數值;步驟S307,取代資料列表上小於新輸入資料之數值之最大值;步驟S308,取代資料列表上大於新輸入資料之數值之最小值;步驟S309,重新對被選擇的資料組執行動態計算並產生動態計算數值;步驟S310,將被選取的資料組的動態計算數值更新紀錄數值。
請復參閱圖1、4與5,在本發明實施例中,步驟S301~S303、S306分別與步驟S201~204相似,其差異在於為兩者實施例利用不同的計算方式,於此不再贅述。需注意的是,在本發明實施例中步驟S304對應包含步驟S204~S207之判斷新輸入資料加入被選取的資料組之動作。然而,在其他實施例中,步驟S304亦可直接以隨機選取或依序選取的方式實施,本發明並不以此做為限制。
值得注意的是,在步驟S305中,分配器122進一步對被選擇加入的資料組取樣預設數量的資料來產生資料列表,並且將資料列表以預設數量的資料之數值依大小進行排序。
請同時參閱圖1、5與6,圖6為本發明實施例之動態計算的資料分配處理模組分配時間序列資料之示意圖。分配器122取樣k個資料以進行排序並產生資料列表。接著,在步驟S306中,如圖6所示,當新輸入資料DATA_V加入被選擇的資料組後,判斷新輸入資料之數值是否大於被選取的資料組的動態計算數值M1。若是,進入步驟S307;若否,進入步驟S308。
更仔細地說,分配器122判斷時間序列資料DATA_S之新輸入資料DATA_V之數值大於被選擇的資料組中的動態計算數值M1時進入步驟S307,在被選取的資料組中取代資料列表上小於新輸 入資料DATA_V之數值之最大值;當分配器122判斷時間序列資料DATA_S之新輸入資料DATA_V之數值小於動態計算數值M1時進入步驟S308,在被選取的資料組中取代資料列表上大於新輸入資料DATA_V之數值之最小值(如圖6所示之kn被取代)。
接著,在步驟S309中,分配器122重新對加入新輸入資料的被選擇的資料組執行動態計算並重新產生動態計算數值。舉例來說,例如圖6中在新輸入資料DATA_S被判斷為小於舊動態計算數值M1時,重新產生新的動態計算數值M2
最後,在步驟S310中,使用者輸入之查詢指令RS至選擇器141以隨機或依順序選取儲存於記憶體模組13的所述資料組的其中之一的動態計算數值。選擇器141進一步傳送所述查詢指令RS所選取之新的動態計算數值M2至分析器142。分析器142透過被選取的資料組的動態計算數值更新資料暫存器121之紀錄數值。
〔本發明可能之功效〕
綜上所述,本發明實施例所提出之時間序列資料處理方法及其系統能夠在重視趨勢的決策情境下,提供稍低精確度但快速的計算結果。更仔細地說,將原本巨量的資料的透過分散式的處理方式並考慮各分散式索引之誤差平衡,在維持常態分配模型的情況下能夠提供相當精確度以及可預期回應時間之計算結果。更值得一提的是,本發明實施例於各分散式索引之資料中以取樣的方式確保計算量,以維持穩定的回應時間。
以上所述,僅為本發明最佳之具體實施例,惟本本發明之特徵並不侷限於此,任何熟悉該項技藝者在本發明之領域內,可輕易思及之變化或修飾,皆可涵蓋在以下本案之專利範圍。
S101~S104‧‧‧為方法步驟流程

Claims (17)

  1. 一種時間序列資料處理方法,包括:步驟A:將一時間序列資料的多筆資料分配於複數個資料組,以對各該資料組中的多筆資料執行一統計計算,並產生對應的一統計結果,其中該統計結果係為各該資料組分別對應的一結果數值,以及對應該時間序列資料的多筆資料的一紀錄數值;步驟B:暫存各該資料組對應的該統計結果;步驟C:根據該時間序列資料的一新輸入資料之數值與各該資料組對應的該統計結果進行比較,以據此選擇該些資料組的其中之一,並將該新輸入資料加入被選擇的該資料組,重新對被選擇的該資料組執行統計計算並產生該結果數值;及步驟D:選取該些資料組的其中之一,以被選取的該資料組的該結果數值更新該紀錄數值。
  2. 如請求項1所述之時間序列資料處理方法,其中在該步驟A中,該統計計算係為一平均計算與一動態計算兩者其中之一,該結果數值係為一平均計算數值與一動態計算數值兩者其中之一。
  3. 如請求項2所述之時間序列資料處理方法,其中在該步驟C中,當該統計計算為該平均計算時,各該資料組分別對應的該結果數值係為各該資料組之所有資料之該平均計算數值;當該新輸入資料之數值大於該紀錄數值時,將該新輸入資料加入至該些資料組中其該平均計算數值為最小的該資料組;及當該新輸入資料之數值小於該紀錄數值時,將該新輸入資料加入至該些資料組中其該平均計算數值為最大的該資料組。
  4. 如請求項2所述之時間序列資料處理方法,其中在該步驟C中,進一步對被選取的該資料組取樣一預設數量的資料來產生一 資料列表,其中該資料列表以該預設數量的資料之數值依大小進行排序。
  5. 如請求項4所述之時間序列資料處理方法,其中在該步驟C中,當該統計計算為該動態計算時,各該資料組分別對應的該結果數值係為各該資料組之各該資料組之該資料列表中的該動態計算數值;當該新輸入資料之數值大於被選取的該資料組的該動態計算數值時,取代該資料列表上小於該新輸入資料之數值之最大值;及當該新輸入資料之數值小於被選取的該資料組的該動態計算數值時,取代該資料列表上大於該新輸入資料之數值之最小值。
  6. 如請求項5所述之時間序列資料處理方法,其中該動態計算數值為最接近該預設數量的資料之數值的平均值的該資料之數值。
  7. 如請求項1所述之時間序列資料處理方法,其中在該步驟D中,根據一查詢指令執行隨機選取該些資料組的其中之一,其中該查詢指令包括一時間顆粒度(Time granularity)之資訊,當該時間顆粒度小於一預設範圍值時,執行被選取的該資料組於該預設範圍值內的資料。
  8. 一種時間序列資料處理系統,包括:一資料分配處理模組,用以接收一時間序列資料的多筆資料並分配於複數個資料組,以提供各該資料組執行一統計計算,該資料分配處理模組包括:一資料暫存器,用以暫存各該資料組對應的一統計結果,其中該統計結果係為各該資料組分別對應的一結果數值,以及對應該時間序列資料的多筆資料的一紀錄數值;及一分配器,耦接於該資料暫存器,用以比較該時間序列資 料的一新輸入資料之數值與各該資料組對應的該統計結果以據此選擇該些資料組的其中之一,並將該新輸入資料之數值加入被選擇的該資料組,重新對被選擇的該資料組執行統計計算並產生該結果數值;以及一資料查詢處理模組,耦接於該資料分配處理模組,該資料查詢處理模組包括:一選擇器,用以選取該些資料組的其中之一;及一分析器,耦接於該選擇器,用以以被選取的該資料組的該結果數值更新該紀錄數值。
  9. 如請求項8所述之時間序列資料處理系統,其中該資料分配處理模組提供之該統計計算係為一平均計算與一動態計算兩者其中之一,該結果數值係為一平均計算數值與一動態計算數值兩者其中之一。
  10. 如請求項9所述之時間序列資料處理系統,其中當該統計計算為該平均計算時,各該資料組分別對應的該結果數值係為各該資料組之所有資料之該平均計算數值;當該分配器判斷該新輸入資料之數值大於的該紀錄數值時,將該新輸入資料加入至該些資料組中其平均計算數值為最小的該資料組;及當該新輸入資料之數值小於該紀錄數值時,將該新輸入資料加入至該些資料組中其平均計算數值為最大的該資料組。
  11. 如請求項9所述之時間序列資料處理系統,其中該分析器更用以進一步對被選取的該資料組取樣一預設數量的資料來產生一資料列表,並且將該資料列表以該預設數量的資料之數值依大小進行排序。
  12. 如請求項11所述之時間序列資料處理系統,其中當該統計計算為該動態計算時,各該資料組分別對應的該結果數值係為各該資料組之各該資料組之該資料列表中的該動態計算數值;當該分配器判斷該新輸入資料之數值大於被選取的該資料組的該紀錄數值時,取代該資料列表上小於該新輸入資料之數值之最大值;及當該新輸入資料之數值小於被選取的該資料組的該紀錄數值時,取代該資料列表上大於該新輸入資料之數值之最小值。
  13. 如請求項12所述之時間序列資料處理系統,其中該動態計算數值為最接近該預設數量的資料之數值的平均值的該資料之數值。
  14. 如請求項8所述之時間序列資料處理系統,其中該選擇器接收一查詢指令執行隨機選取該些資料組的其中之一,且所接收之該查詢指令包括一時間顆粒度之資訊。
  15. 如請求項14所述之時間序列資料處理系統,其中該分析器更用以當該查詢指令的該時間顆粒度小於一預設範圍值時,執行被選取的該資料組於該預設範圍值內的資料。
  16. 如請求項8所述之時間序列資料處理系統,更包括:一記憶體模組,耦接於該資料分配處理模組與該資料查詢處理模組,用以儲存分配於該些資料組之該時間序列資料的多筆資料。
  17. 如請求項8所述之時間序列資料處理系統,更包括:一時間標記模組,耦接於該資料分配處理模組,用以將一序列資料的多筆資料標記時間戳以產生該時間序列資料。
TW103140555A 2014-11-21 2014-11-21 時間序列資料處理方法及其系統 TWI534704B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
TW103140555A TWI534704B (zh) 2014-11-21 2014-11-21 時間序列資料處理方法及其系統
CN201410705190.7A CN105608096A (zh) 2014-11-21 2014-11-27 时间序列数据处理方法及其***
US14/563,392 US20160147824A1 (en) 2014-11-21 2014-12-08 Method for processing time series and system thereof

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
TW103140555A TWI534704B (zh) 2014-11-21 2014-11-21 時間序列資料處理方法及其系統

Publications (2)

Publication Number Publication Date
TWI534704B true TWI534704B (zh) 2016-05-21
TW201619817A TW201619817A (zh) 2016-06-01

Family

ID=55988038

Family Applications (1)

Application Number Title Priority Date Filing Date
TW103140555A TWI534704B (zh) 2014-11-21 2014-11-21 時間序列資料處理方法及其系統

Country Status (3)

Country Link
US (1) US20160147824A1 (zh)
CN (1) CN105608096A (zh)
TW (1) TWI534704B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6150934B1 (ja) * 2016-10-17 2017-06-21 三菱重工業株式会社 情報処理方法、情報処理装置、プログラム、及び情報処理システム
CN107516114B (zh) * 2017-08-28 2020-06-19 湖南大学 一种时间序列处理方法及装置
TWI676109B (zh) * 2018-08-10 2019-11-01 崑山科技大學 巨量資料及時處理與排班之方法
CN110737696A (zh) * 2019-10-12 2020-01-31 北京百度网讯科技有限公司 数据抽样方法、装置、电子设备及存储介质

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6871165B2 (en) * 2003-06-20 2005-03-22 International Business Machines Corporation Method and apparatus for classifying time series data using wavelet based approach
US20050234896A1 (en) * 2004-04-16 2005-10-20 Nobuyuki Shima Image retrieving apparatus, image retrieving method and image retrieving program
CN101286897B (zh) * 2008-05-16 2010-12-29 华中科技大学 一种基于超统计理论的网络流量异常检测方法
US9245000B2 (en) * 2008-08-05 2016-01-26 Vmware, Inc. Methods for the cyclical pattern determination of time-series data using a clustering approach
CN101753381B (zh) * 2009-12-25 2012-10-10 华中科技大学 一种检测网络攻击行为的方法
WO2011142026A1 (ja) * 2010-05-14 2011-11-17 株式会社日立製作所 時系列データ管理装置、システム、方法、およびプログラム
CN101964034B (zh) * 2010-09-30 2012-08-15 浙江大学 一种模式信息损失最小化的序列类数据隐私保护方法
US8768878B2 (en) * 2011-01-21 2014-07-01 International Business Machines Corporation Characterizing business intelligence workloads

Also Published As

Publication number Publication date
US20160147824A1 (en) 2016-05-26
TW201619817A (zh) 2016-06-01
CN105608096A (zh) 2016-05-25

Similar Documents

Publication Publication Date Title
CN106407207B (zh) 一种实时新增数据更新方法和装置
US10402427B2 (en) System and method for analyzing result of clustering massive data
US9684671B1 (en) Parallel streaming of external data
US10565022B2 (en) Systems for parallel processing of datasets with dynamic skew compensation
TWI534704B (zh) 時間序列資料處理方法及其系統
CN111126495B (zh) 模型训练方法、信息预测方法、装置、存储介质及设备
US10846298B2 (en) Record profiling for dataset sampling
CN110209686A (zh) 数据的存储、查询方法及装置
CN108932257A (zh) 多维度数据的查询方法及装置
WO2015074477A1 (zh) 路径分析方法和装置
CN110941602B (zh) 数据库的配置方法、装置、电子设备及存储介质
US10552399B2 (en) Predicting index fragmentation caused by database statements
US9679012B1 (en) Parallel streaming of external data
CN109669995A (zh) 数据存储、质量计算方法、装置、存储介质及服务器
CN108550019B (zh) 一种简历筛选方法及装置
Mai et al. Dynamic Data Migration in Hybrid Main Memories for In‐Memory Big Data Storage
CN110516164A (zh) 一种信息推荐方法、装置、设备及存储介质
CN110187836A (zh) 一种数据删除方法、装置、计算机及存储介质
CN105589853B (zh) 一种类目目录确定方法及装置、自动分类方法及装置
CN110891087B (zh) 一种日志传输方法、装置及电子设备和存储介质
CN106649374B (zh) 导航标签排序的方法及装置
CN104239520A (zh) 一种基于历史信息的hdfs数据块放置策略
US10671644B1 (en) Adaptive column set composition
CN108536759B (zh) 一种样本回放数据存取方法及装置
CN110851515A (zh) 一种基于Spark分布式环境下的大数据ETL模型执行方法及介质