TWI591489B - Intelligent monitoring and warning device and method for distributed software defined storage system - Google Patents

Intelligent monitoring and warning device and method for distributed software defined storage system Download PDF

Info

Publication number
TWI591489B
TWI591489B TW105141327A TW105141327A TWI591489B TW I591489 B TWI591489 B TW I591489B TW 105141327 A TW105141327 A TW 105141327A TW 105141327 A TW105141327 A TW 105141327A TW I591489 B TWI591489 B TW I591489B
Authority
TW
Taiwan
Prior art keywords
data
early warning
storage system
software definition
definition storage
Prior art date
Application number
TW105141327A
Other languages
English (en)
Other versions
TW201822018A (zh
Inventor
Hsu Fang Lai
Original Assignee
Chunghwa Telecom Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chunghwa Telecom Co Ltd filed Critical Chunghwa Telecom Co Ltd
Priority to TW105141327A priority Critical patent/TWI591489B/zh
Application granted granted Critical
Publication of TWI591489B publication Critical patent/TWI591489B/zh
Publication of TW201822018A publication Critical patent/TW201822018A/zh

Links

Landscapes

  • Debugging And Monitoring (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

應用於分散式軟體定義儲存系統之智慧式監控與預警裝置及其方法
本發明是有關於一種應用於分散式軟體定義儲存系統之智慧式監控與預警裝置及其方法,以透過自動化的監控與反應流程,降低分散式軟體定義儲存系統的維運成本,並提升服務品質。
儲存系統的運用,在當前的資料中心環境當中,受到極大重視,因為不論是為了開拓創新的業務型態所引發的新型系統建置需求,或導入發展已久、已經很成熟的各式IT應用,都需要儲存系統來保管資料或作為分析之用;而基於系統所需配置的容量越來越大,現有一種分散式儲存系統可將資料切割儲存,讓使用者能使用平行技術加速資料的運算,並透過備份機制提升資料的容錯率,使大資料儲存不再是問題。
為了確保儲存系統的服務品質,並解決傳統儲存系統架構之缺點,例如儲存資源集中管控不易等等,因此目前市場上係有發展出一套軟體定義儲存(Software-Defined Storage,SDS)系統。軟體定義儲存是電腦數據儲存的一個進化概念,以軟體控制的方法來決定資料儲存的方針及管理方 式,其可從管理儲存基礎架構的軟體中,獨立出儲存硬體的計算機資料儲存技術。在軟體定義儲存下,可以啟動一些功能選項,例如重複數據刪除、複製、自動精簡配置、快照及備份,並可提供儲存資源的政策管理。
而當中,軟體定義儲存可結合分散式儲存系統以成為分散式軟體定義儲存系統;分散式軟體定義儲存系統可使用軟體來處理資料的保護,讓軟體可以更彈性的達到高等級的防護,允許更多的磁碟機同時失效時仍不會造成資料流失,並且分散式軟體定義儲存系統同時還具備效能可隨意的擴充、自我修護機制之功能。然而,雖然分散式軟體定義儲存系統具備有多項優點,但現階段之分散式軟體定義儲存系統中並無提早防範異常發生之機制,即使其具有自我修護之功能,但仍無法即時阻擋異常發生時所產生的衝擊,進而將影響儲存系統效能之穩定。
有鑑於上述習知技藝之問題,本發明之目的就是在提供一種應用於分散式軟體定義儲存系統之智慧式監控與預警裝置及其方法,以透過自動化的監控與反應流程,降低分散式軟體定義儲存系統的維運成本,並提升服務品質。
根據本發明之目的,提出一種應用於分散式軟體定義儲存系統之智慧式監控與預警裝置,其包含:一狀態資料收集模組,係收集分散式軟體定義儲存系統之各節點運行之一狀態資料;一智慧分析模組,係連接該狀態資料收集模組,以接收狀態資料並進行分析,且智慧分析模組係進一步將狀態資料與一異常模型資料進行比對,進而產生一異常比 對結果資料;以及一預警與反應模組,係連接智慧分析模組,所述預警與反應模組係讀取分散式軟體定義儲存系統之一目前配置資料,並在接收到異常比對結果資料後係依據異常程度運算出一目標配置資料,且預警與反應模組係比較目前配置資料與目標配置資料之差異程度,進而以漸近方式逐步調整分散式軟體定義儲存系統之配置。
根據本發明之目的,又提出一種應用於分散式軟體定義儲存系統之智慧式監控與預警方法,其包含下列步驟:利用一狀態資料收集模組收集分散式軟體定義儲存系統之各節點運行之一狀態資料;利用一智慧分析模組接收狀態資料並進行分析,並進一步將狀態資料與一異常模型資料進行比對,進而產生一異常比對結果資料;利用一預警與反應模組讀取分散式軟體定義儲存系統之一目前配置資料,並在接收到異常比對結果資料後係依據異常程度運算出一目標配置資料;以及利用預警與反應模組比較目前配置資料與目標配置資料之差異程度,進而以漸近方式逐步調整分散式軟體定義儲存系統之配置。
依據上述技術特徵,本發明更包含一狀態資料庫,係連接狀態資料收集模組,以儲存狀態資料。
依據上述技術特徵,所述智慧分析模組係連接狀態資料庫,且智慧分析模組係讀取狀態資料庫中的既存資料並進行運算與分析,以比對正常狀態資料與異常狀態資料來建構出所述異常模型資料,以及智慧分析模組係接收使用者所輸入之分析回饋資料來更新與調整所述異常模型資料。
依據上述技術特徵,狀態資料係包含處理器使用率、記憶體使用率、磁碟存取吞吐流量、磁碟存取操作速率、 磁碟存取反應時間、磁碟健康度資訊、網路使用流量及節點反應時間。
依據上述技術特徵,所述預警與反應模組以漸近方式進行調整配置係於一特定時間內執行單一次之調整,並於分散式軟體定義儲存系統資料回復狀態穩定後再進行下一次的調整。
綜上所述,本發明之應用於分散式軟體定義儲存系統之智慧式監控與預警裝置及其方法,係具有下列一或多個特點:
1、本發明透過自動化的狀態資料收集與分析,建立異常模型,在系統運行時可即時判別各個受監控之裝置或設備是否有異常傾向,進而偵測出潛在異常,並藉由人工判讀的回饋修正異常模型,提升判斷準確度。
2、本發明預警與反應模組以智慧分析模組分析之異常狀況,決策出新的分散式軟體定義儲存系統配置,並比較現行配置,以漸進的方式逐步調整配置,控制調整幅度使分散式軟體定義儲存系統能在一定時間內回復至穩定狀態,可有效避免影響分散式軟體定義儲存系統之服務品質。
3、在本發明監控與反應之流程下,維運人員可針對預期之異常提早準備,在異常發生時第一時間處理,使得維運工作更有效率。。
10‧‧‧狀態資料收集模組
20‧‧‧智慧分析模組
21‧‧‧異常模型資料
30‧‧‧預警與反應模組
40‧‧‧狀態資料庫
100‧‧‧分散式軟體定義儲存系統
101‧‧‧節點
S11~S14‧‧‧步驟流程
S21~S28‧‧‧步驟流程
S31~S38‧‧‧步驟流程
圖1為本發明之智慧式監控與預警裝置之示意圖。
圖2為本發明之智慧式監控與預警方法之流程圖。
圖3為本發明之智慧分析模組分析狀態資料之流程圖。
圖4為本發明之預警與反應模組處理異常分析結果之流程圖。
為利 貴審查員瞭解本發明之技術特徵、內容與優點及其所能達成之功效,茲將本發明配合附圖,並以實施例之表達形式詳細說明如下,而其中所使用之圖式,其主旨僅為示意及輔助說明書之用,未必為本發明實施後之真實比例與精準配置,故不應就所附之圖式的比例與配置關係解讀、侷限本發明於實際實施上的權利範圍,合先敘明。
本發明主要係提出一種應用於分散式軟體定義儲存系統之智慧式監控與預警裝置及其方法,其可收集並儲存分散式軟體定義儲存系統中各節點監控數據與軟體運行記錄,再使用數據統計、異常偵測與機器學習等方法即時分析,以於硬體障礙發生時找出可能引發障礙的異常數據建立異常模型資料。若後續分散式軟體定義儲存系統運行時偵測到異常數據模式發生,則可針對異常提前發出預警,並調整資料存放比重,使分散式軟體定義儲存系統將資料移出異常發生區域,提早對異常做準備,除了可降低異常發生時對分散式軟體定義儲存系統服務所產生的衝擊,也可一併加速損壞硬體更換流程,藉此維持分散式軟體定義儲存系統之穩定效能。
為更清楚敘明本發明之技術特徵,請參閱圖1,其係為本發明之智慧式監控與預警裝置之示意圖。本發明可應用於分散式軟體定義儲存系統之智慧式監控與預警裝置主 要係包含有狀態資料收集模組10、智慧分析模組20、預警與反應模組30及狀態資料庫40,狀態資料收集模組10係連接狀態資料庫40,且智慧分析模組20係連接狀態資料收集模組10、預警與反應模組30及狀態資料庫40。
受監控之分散式軟體定義儲存系統100當中之各節點101佈建用以收集狀態資料之代理程式,所述代理程式會定期傳送狀態資料至狀態資料收集模組10,而所述狀態資料收集模組10在接收到最新之狀態資料後,會將狀態資料儲存至狀態資料庫40,並傳送至智慧分析模組20進行異常分析。其中,狀態資料係包含處理器使用率、記憶體使用率、磁碟存取吞吐流量、磁碟存取操作速率、磁碟存取反應時間、磁碟健康度資訊、網路使用流量、節點反應時間等數據。
智慧分析模組20啟動時會讀取狀態資料庫40中既有的狀態資料以建構出異常模型資料21,且智慧分析模組20在接收到狀態收集模組10所傳送之最新之狀態資料時會依據該異常模型資料21進行分析,接著將分析後產生之異常比對結果資料傳送至預警與反應模組30。詳細地來說,智慧分析模組20會讀取狀態資料庫40中的既存資料並進行運算與分析,以比對正常狀態資料與異常狀態資料來建構出所述異常模型資料21,而智慧分析模組20在接收到狀態收集模組10傳送之狀態資料後,可偵測是否有潛在異常存在,此時會先將狀態資料正規化並初步過濾明顯異常數據後,再進一步將狀態資料與異常模型資料21進行比對,進而可產生所述異常比對結果資料。
預警與反應模組30運行時會偵測目前分散式軟體定義儲存系統100的設定與配置,且預警與反應模組30在 接收到智慧分析模組20所傳送之異常比對結果資料時,將會發送預警訊息給予維運人員,以及依據該異常比對結果資料運算出新的配置並比對現行配置,進而以漸近的方式逐步調整分散式軟體定義儲存系統100,使其維持狀態穩定提供服務。詳細地來說,預警與反應模組30係讀取分散式軟體定義儲存系統100之目前配置資料,並在接收到異常比對結果資料時依據異常程度運算出一目標配置資料,且預警與反應模組30在比較目前配置資料與目標配置資料的差異程度後,將以漸近的方式逐步調整分散式軟體定義儲存系統100之配置,而其中漸近調整之方式係在每一次的調整皆會等待分散式軟體定義儲存系統100之資料回復狀態穩定後再進行下一次的調整,並且控制每一次的調整在一定時間內完成,藉以可確保分散式軟體定義儲存系統100的運作與服務品質。
上述中,維運人員可實際在分散式軟體定義儲存系統100上確認異常情況,並將一分析回饋資料回饋至預警與反應模組30,而預警與反應模組30則可將該分析回饋資料傳送至智慧分析模組20,使智慧分析模組20在收到分析回饋資料後更新與調整異常模型資料21與狀態資料庫50,以修正後續分析,藉此可避免誤判之情事發生。
請參閱圖2,其係為本發明之智慧式監控與預警方法之流程圖,其流程步驟為:
步驟S11:利用一狀態資料收集模組收集分散式軟體定義儲存系統之各節點運行之一狀態資料。
步驟S12:利用一智慧分析模組接收狀態資料並進行分析,並進一步將狀態資料與一異常模型資料進行比對,進而產生一異常比對結果資料。
步驟S13:利用一預警與反應模組讀取分散式軟體定義儲存系統之一目前配置資料,並在接收到異常比對結果資料後係依據異常程度運算出一目標配置資料。
步驟S14:利用預警與反應模組比較目前配置資料與目標配置資料之差異程度,進而以漸近方式逐步調整分散式軟體定義儲存系統之配置。
再請參閱圖3,其係為本發明之智慧分析模組分析狀態資料之流程圖,其流程步驟為:步驟S21:接收狀態收集模組傳送之狀態資料訊息。步驟S22:辨別該狀態資料所監控之標的狀態是否已在先前被標記為異常,若是,則跳至步驟S28維持判斷異常,否則繼續進行下列步驟。步驟S23:依照不同類型之狀態資料進行正規化,以利後續分析。步驟S24:判斷所接收之狀態資料是否在異常模型中統計之正常範圍內,若是,則跳至步驟S27判斷所監控之標的為正常,否則繼續進行下列步驟。步驟S25:計算該狀態資料不在正常範圍內的持續時間,是否超過可容忍之觀察期,若是,則跳至步驟S28判斷所監控之標的為異常,否則繼續進行下列步驟。步驟S26:依據該狀態資料監控標的比對異常模型資料,判斷是否符合先前發生異常的特徵,並計算相似程度表示其異常可能性,超過一定值即判斷該監控之標的為異常,否則判斷為正常。
再請參閱第圖4,其係為本發明之預警與反應模組處理異常分析結果之流程圖,其流程步驟為:步驟S31:接收智慧分析模組傳送之異常比對結果資料,觸發步驟S32,並由步驟S35判斷該結果中是否有新的潛在異常監控標的,若是則一併觸發步驟S36。步驟S32:依據異常比對結果資料,運算新的目標配置,包括資料放置比重等策略。步驟S33:讀 取目前配置並與新的目標配置比較,計算其間差異。步驟S34:以漸近的方式逐步調整配置,每次的調整會依上次調整花費時間進行幅度微調,使其調整時間可控制在一定範圍內,維持儲存系統穩定性。步驟S36:向維運人員發出新的潛在異常預警。步驟S37:維運人員實際確認狀況後給予回饋,印證該潛在異常存在與否。步驟S38:將維運人員之回饋傳送回智慧分析模組,以利修正異常模組資料與後續判斷。
具體而言,本發明分為三大模組,包含狀態資料收集模組、智慧分析模組以及預警與反應模組。狀態資料收集模組負責收集分散式軟體定義儲存系統中各節點之狀態資料,並存放至狀態資料庫中;智慧分析模組負責分析狀態資料,建構異常模型並判斷各狀態資料監控目標之異常程度;預警與反應模組負責回報發現之潛在異常,並依據異常程度調整儲存系統配置。藉由本發明以自動化及智慧化的方式輔助分散式軟體定義儲存系統的運作,事先預警使維運人員得以提前準備或處理異常設備,針對潛在異常調整儲存系統配置避免因異常發生影響效能,可大幅降低分散式軟體定義儲存系統管理與維運之成本。
綜觀上述,可見本發明在突破先前之技術下,確實已達到所欲增進之功效,且也非熟悉該項技藝者所易於思及,再者,本發明申請前未曾公開,且其所具之進步性、實用性,顯已符合專利之申請要件,爰依法提出專利申請,懇請 貴局核准本件發明專利申請案,以勵發明,至感德便。
以上所述之實施例僅係為說明本發明之技術思想及特點,其目的在使熟習此項技藝之人士能夠瞭解本發明之內容並據以實施,當不能以之限定本發明之專利範圍,即 大凡依本發明所揭示之精神所作之均等變化或修飾,仍應涵蓋在本發明之專利範圍內。
10‧‧‧狀態資料收集模組
20‧‧‧智慧分析模組
21‧‧‧異常模型資料
30‧‧‧預警與反應模組
40‧‧‧狀態資料庫
100‧‧‧分散式軟體定義儲存系統
101‧‧‧節點

Claims (10)

  1. 一種應用於分散式軟體定義儲存系統之智慧式監控與預警裝置,其包含:一狀態資料收集模組,係收集分散式軟體定義儲存系統之各節點運行之一狀態資料;一智慧分析模組,係連接該狀態資料收集模組,以接收該狀態資料並進行分析,且該智慧分析模組係進一步將該狀態資料與一異常模型資料進行比對,進而產生一異常比對結果資料;以及一預警與反應模組,係連接該智慧分析模組,該預警與反應模組係讀取分散式軟體定義儲存系統之一目前配置資料,並在接收到該異常比對結果資料後係依據異常程度運算出一目標配置資料,且該預警與反應模組係比較該目前配置資料與該目標配置資料之差異程度,進而以漸近方式逐步調整分散式軟體定義儲存系統之配置。
  2. 如申請專利範圍第1項所述之智慧式監控與預警裝置,其更包含一狀態資料庫,係連接該狀態資料收集模組,以儲存該狀態資料。
  3. 如申請專利範圍第2項所述之智慧式監控與預警裝置,其中該智慧分析模組係連接該狀態資料庫,且該智慧分析模組係讀取該狀態資料庫中的既存資料並進行運算與分析,以比對正常狀態資料與異常狀態資料來建構出該異常模型資料,以及該智慧分析模組係接收使用者所輸入之分析回饋資料來更新與調整該異常模型資料。
  4. 如申請專利範圍第1項所述之智慧式監控與預警裝置,其中該狀態資料係包含處理器使用率、記憶體使用率、磁碟 存取吞吐流量、磁碟存取操作速率、磁碟存取反應時間、磁碟健康度資訊、網路使用流量及節點反應時間。
  5. 如申請專利範圍第1項所述之智慧式監控與預警裝置,其中該預警與反應模組以漸近方式進行調整配置係於一特定時間內執行單一次之調整,並於分散式軟體定義儲存系統資料回復狀態穩定後再進行下一次的調整。
  6. 一種應用於分散式軟體定義儲存系統之智慧式監控與預警方法,其包含下列步驟:利用一狀態資料收集模組收集分散式軟體定義儲存系統之各節點運行之一狀態資料;利用一智慧分析模組接收該狀態資料並進行分析,並進一步將該狀態資料與一異常模型資料進行比對,進而產生一異常比對結果資料;利用一預警與反應模組讀取分散式軟體定義儲存系統之一目前配置資料,並在接收到該異常比對結果資料後依據異常程度運算出一目標配置資料;以及利用該預警與反應模組比較該目前配置資料與該目標配置資料之差異程度,進而以漸近方式逐步調整分散式軟體定義儲存系統之配置。
  7. 如申請專利範圍第6項所述之應用於分散式軟體定義儲存系統之智慧式監控與預警方法,其更包含下列步驟:利用一狀態資料庫儲存該狀態資料。
  8. 如申請專利範圍第7項所述之應用於分散式軟體定義儲存系統之智慧式監控與預警方法,其更包含下列步驟:利用該智慧分析模組讀取該狀態資料庫中的既存資料並進行運算與分析,以比對正常狀態資料與異常狀態資料來建構 出該異常模型資料,並利用該智慧分析模組接收使用者所輸入之分析回饋資料來更新與調整該異常模型資料。
  9. 如申請專利範圍第6項所述之應用於分散式軟體定義儲存系統之智慧式監控與預警方法,其中該狀態資料係包含處理器使用率、記憶體使用率、磁碟存取吞吐流量、磁碟存取操作速率、磁碟存取反應時間、磁碟健康度資訊、網路使用流量及節點反應時間。
  10. 如申請專利範圍第6項所述之應用於分散式軟體定義儲存系統之智慧式監控與預警方法,其中該預警與反應模組以漸近方式進行調整配置係於一特定時間內執行單一次之調整,並於分散式軟體定義儲存系統資料回復狀態穩定後再進行下一次的調整。
TW105141327A 2016-12-14 2016-12-14 Intelligent monitoring and warning device and method for distributed software defined storage system TWI591489B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
TW105141327A TWI591489B (zh) 2016-12-14 2016-12-14 Intelligent monitoring and warning device and method for distributed software defined storage system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
TW105141327A TWI591489B (zh) 2016-12-14 2016-12-14 Intelligent monitoring and warning device and method for distributed software defined storage system

Publications (2)

Publication Number Publication Date
TWI591489B true TWI591489B (zh) 2017-07-11
TW201822018A TW201822018A (zh) 2018-06-16

Family

ID=60048583

Family Applications (1)

Application Number Title Priority Date Filing Date
TW105141327A TWI591489B (zh) 2016-12-14 2016-12-14 Intelligent monitoring and warning device and method for distributed software defined storage system

Country Status (1)

Country Link
TW (1) TWI591489B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111913656A (zh) * 2019-05-10 2020-11-10 香港商希瑞科技股份有限公司 分布式共享储存***中的计算机储存节点及方法

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109344026A (zh) 2018-07-27 2019-02-15 阿里巴巴集团控股有限公司 数据监控方法、装置、电子设备及计算机可读存储介质
TWI829895B (zh) * 2020-03-20 2024-01-21 中華電信股份有限公司 基於健康度之模型監控系統及其方法

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111913656A (zh) * 2019-05-10 2020-11-10 香港商希瑞科技股份有限公司 分布式共享储存***中的计算机储存节点及方法
US11042459B2 (en) 2019-05-10 2021-06-22 Silicon Motion Technology (Hong Kong) Limited Method and computer storage node of shared storage system for abnormal behavior detection/analysis
TWI747199B (zh) * 2019-05-10 2021-11-21 香港商希瑞科技股份有限公司 用以異常行為偵測或分析的共用儲存系統的方法與計算機儲存節點
US11507484B2 (en) 2019-05-10 2022-11-22 Silicon Motion Technology (Hong Kong) Limited Ethod and computer storage node of shared storage system for abnormal behavior detection/analysis
CN111913656B (zh) * 2019-05-10 2024-04-19 香港商希瑞科技股份有限公司 分布式共享储存***中的计算机储存节点及方法

Also Published As

Publication number Publication date
TW201822018A (zh) 2018-06-16

Similar Documents

Publication Publication Date Title
KR102118670B1 (ko) Ict 인프라 관리 시스템 및 이를 이용한 ict 인프라 관리 방법
CN102231681B (zh) 一种高可用集群计算机***及其故障处理方法
CN106202075B (zh) 一种数据库主备切换的方法及装置
US20160224277A1 (en) Monitoring storage cluster elements
CN110287081A (zh) 一种服务监控***和方法
CN111212038A (zh) 基于大数据人工智能的开放数据api网关***
TWI591489B (zh) Intelligent monitoring and warning device and method for distributed software defined storage system
CN113282635B (zh) 一种微服务***故障根因定位方法及装置
CN107872457B (zh) 一种基于网络流量预测进行网络操作的方法及***
CN109362235A (zh) 对网络可访问存储装置处的事务进行分类
CN109274557A (zh) 一种云环境下的智能cmdb管理及云主机监控方法
WO2009110329A1 (ja) 障害分析装置、障害分析方法および記録媒体
CN102857371A (zh) 一种面向集群***的动态配置管理方法
CN102902615A (zh) 一种Lustre并行文件***错误报警方法及其***
US10574552B2 (en) Operation of data network
JP2007249373A (ja) 分散型プログラムの監視システム
CN112272107A (zh) 一种基于云计算的数据中心容灾***
CN109218401A (zh) 日志采集方法、***、计算机设备和存储介质
CN117632897A (zh) 动态扩缩容方法及装置
CN115794588A (zh) 内存故障预测方法、装置、***及监测服务器
JP6252309B2 (ja) 監視漏れ特定処理プログラム,監視漏れ特定処理方法及び監視漏れ特定処理装置
TW202306347A (zh) 基站運行的健康管理方法、裝置及計算機可讀存儲介質
CN103701657A (zh) 用于不间断运行的数据处理***的异常监控及处理装置和方法
CN116991947B (zh) 一种自动化数据同步方法及***
KR102221052B1 (ko) Sdn 오픈플로우 프로토콜을 지원하는 네트워크 장비의 장애처리 시스템

Legal Events

Date Code Title Description
MM4A Annulment or lapse of patent due to non-payment of fees