TWM622216U - 用於服務異常偵測告警的設備 - Google Patents

用於服務異常偵測告警的設備 Download PDF

Info

Publication number
TWM622216U
TWM622216U TW110210722U TW110210722U TWM622216U TW M622216 U TWM622216 U TW M622216U TW 110210722 U TW110210722 U TW 110210722U TW 110210722 U TW110210722 U TW 110210722U TW M622216 U TWM622216 U TW M622216U
Authority
TW
Taiwan
Prior art keywords
monitored
monitoring
parameter
group
monitored system
Prior art date
Application number
TW110210722U
Other languages
English (en)
Inventor
林柏州
Original Assignee
伊雲谷數位科技股份有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 伊雲谷數位科技股份有限公司 filed Critical 伊雲谷數位科技股份有限公司
Priority to TW110210722U priority Critical patent/TWM622216U/zh
Publication of TWM622216U publication Critical patent/TWM622216U/zh

Links

Images

Landscapes

  • Debugging And Monitoring (AREA)

Abstract

一種用於服務異常偵測告警的設備,其考量了營運資料與系統資料來進行服務異常的偵測告警,以及根據營運資料(例如,商務運營面、公開資料如社群、公開新聞等資料)與系統資料(例如,系統軟硬體資訊、運行日誌)對提供服務的受監控系統進行分群,以判斷其服務特性。甚至,為了進一步提升偵測告警的精準度,在偵測到有異常行為時,會進一步地判斷此異常行為的情況是否在同一服務特性的群組中也出現,以判定此偵測到的異常行為是否非為異常事件。相較於先前技術,此設備具有系統監控效率提昇與維運風險降低的有益技術效果。

Description

用於服務異常偵測告警的設備
本新型涉及一種用於分析受監控系統的服務是否有異常的偵測告警設備,且特別是一種智慧化的服務異常偵測告警設備。
在一般企業中,無論是對內或對外的線上服務,通常都有數個到幾十個系統與上百個軟硬體模組於伺服器中,其中每日(甚至每分或每秒)都可能記錄了非常多的系統監控數值,或是數量龐大的日誌文件 (Log),當發生服務或系統異常、資安攻擊等事件時,系統管理者或維運人員便需要針對監控數值與日誌等做判讀(或偵測),找出異常原因並加以排除。於傳統資訊技術(Information Technology,簡稱IT)的維運中,系統管理者會根據過去的經驗來定義異常事件的規則,但隨著IT基礎設施以及雲端服務的普及與擴充、系統架構與維運環境變得複雜,錯誤或複雜的規則常會觸發大量錯誤告警,讓系統管理者疲於奔命,更可能因疏失反而忽略嚴重的威脅。另外,傳統維運人員往往在異常事件或訊號發生後,才能被動地處理問題。
近年來,由人為判斷的維運已不止進步到自動化監控,更有許多維運方法、企業與服務將人工智慧(Artificial Intelligence,簡稱AI)與機器學習引入IT基礎架構與維運管理之中。例如利用過去的歷史系統負載監控值(例如,但不限於中央處理單元(CPU)的使用率或記憶體的負載),運用機器學習訓練出正常的系統負載曲線與容許值,未來當即時的監控值偏離容許值,即可觸發系統告警,加速維運與反應時間。
另亦有技術方法利用人工智慧進行異常事件的關聯分析,透過演算法與文字分析等技術來分析歷史日誌,將看似無關的事件分群,進而找出事件的隱性關聯。例如,發現服務網頁中斷(記錄超文本傳輸協定錯誤的回應碼)、CPU使用率過高以及網頁瀏覽量過低此類看似無關的情況常常同時發生,就能透過異常事件關聯演算法將這些事件進行根因分析(Root Cause Analysis),未來即有可能做到提前預警,增加 IT維運效率。
現有技術的其中一種做法可完整採集單位內全域設備的設備健康狀態、單位使用網路的流量多寡與各種日誌(包含資安事件)三種異質資料,並作關聯分析,省去人工比對查找所耗的時間並利用人工智慧的趨勢演算法則。接著,據蒐集到的各種日誌與/或單位使用網路的流量多寡之歷史資料,自動學習建立動態基準,持續比對每一分鐘進來的各種日誌與/或單位使用網路的流量多寡之資料,以即時發覺事件次數(Hit Count)、流量封包數或是位元組(Byte)數異常突增的事件、來源網際網路協定(IP)位址(通常是攻擊端)以及目的IP位址(通常是被攻擊端)。此作法無需人工逐條設定閥值,故能讓維運以及資安防護工作變得更輕鬆容易。
現有技術的其中另一種做法則是比對各個異常事件後,利用機器學習演算法可以將類似行為表現的事件整理出來,自動偵測系統服務的延遲性是否驟升、系統錯誤率是否上升以及甚至公有雲廠商的網路是否出現異常。此作法讓使用者不需要設定警報觸發條件,系統就會自動監測平臺是否出現效能異常的事件。
上述的人工智慧偵測只收集了單一公司或服務的系統監測資料等,此種人工智慧維運的相關領域知識無法與現實商業營運面連結,且未考量不同的服務系統有相同或不同的特性,故監控的準確度仍有改善空間。
根據本新型之目的,本新型實施例提出一種用於服務異常偵測告警的設備,其包括多個電性連接的硬體電路,該等硬體電路組態成多個單元,且該等單元用於:接收對應一服務之多個受監控系統的其中一個受監控系統的營運資料與系統資料,並對該受監控系統的該營運資料與該系統資料進行資料前處理,以獲得該受監控系統的多個狀態參數;對該受監控系統的每一個該狀態參數進行分群,以獲得該受監控系統的每一個該狀態參數對應的一群集標籤;根據該受監控系統的該等狀態參數的該等群集標籤對該受監控系統分群,以獲得該受監控系統對應的一群組號碼; 根據該受監控系統的至少一個該等狀態參數偵測該受監控系統是否有一異常行為;以及於偵測到該受監控系統有該異常行為時,判斷於該受監控系統的該群組號碼對應的一群組中是否有超出一特定數量的該等受監控系統也有異常行為,若該群組號碼對應的該群組未有超出該特定數量的該等受監控系統也有異常行為,則產生一告警。
本新型實施例還提供一種服務異常偵測告警方法,其與前述的服務異常偵測告警方法近似,但多個受監控系統是預先被分好群組,而不具有相關的分群步驟。
本新型實施例還提供一種偵測異常並發出告警之設備,其組態有多個單元,以執行上述服務異常/風險偵測告警方法,以及本新型實施例更提供一種儲存媒介,係用於儲存關聯於上述服務異常偵測告警方法的多個程式碼。
本新型實施例還提供多個用於判定受監控系統發生異常事件並針對該異常事件產生異常告警之電腦軟體程式。
綜上所述,本新型實施例的服務異常/風險偵測告警方法、使用此方法的雲端設備與儲存此方法的儲存媒介可以精準地偵測出服務異常/風險。
為了進一步理解本新型的技術、手段和效果,可以參考以下詳細描述和附圖,從而可以徹底和具體地理解本新型的目的、特徵和概念。然而,以下詳細描述和附圖僅用於參考和說明本新型的實現方式,其並非用於限制本新型。
現在將詳細參考本新型的示範實施例,其示範實施例會在附圖中被繪示出。在可能的情況下,在附圖和說明書中使用相同的元件符號來指代相同或相似的部件。另外,示範實施例的做法僅是本新型之設計概念的實現方式之一,下述的該等示範皆非用於限定本新型。
先前技術透過人工智慧偵測服務異常的作法大概有以下技術問題:(1) 無法與現實商業營運面連結,舉例如每日中午午休時間新聞網站流量常會暴增,但此種暴增為正常現象,若管理者與AI告警將此段期間的CPU的使用率與系統負載提升視為異常,即有可能發出誤報;(2) 一般IT監控值或歷史日誌大都為單一系統或單一企業內的基礎設施維運資料,不同的服務系統有不同的特性,即使相類似的系統,對不同產業的企業間而言也可能有不同的反應監控紀錄或日誌,若沒有針對不同的業務或服務特性作機器學習模型的建立,其預防性告警的正確性往往不足;以及(3)傳統的AI需要大量的資料訓練模型,但服務異常的狀況並非常發生,因此僅用基礎設施與環境資料會使機器學習無足夠的異常資料、標註去訓練模型,即便以訓練出正常服務狀態的曲線,仍要設定較為保守的告警觸發閥值,以因應意外風險。
為了解決上述技術問題,本新型實施例提供服務異常偵測告警方法與使用此方法的設備與系統考量了營運資料與系統資料來進行服務異常的偵測告警,以及根據營運資料(例如,商務運營面、公開資料如社群、公開新聞等資料)與系統資料(例如,系統軟硬體資訊、運行日誌)對提供服務的受監控系統進行分群,以判斷其服務特性,為了進一步提升偵測告警的精準度,在偵測到有異常時,會進一步地判斷偵測到的異常行為是否在同一服務特性的群組中也是經常出現,或其為尋常行為而並非真正的異常,也就是說,判斷這個偵測到的異常行為是否相同或類似於在同一服務特性的群組中發生頻率較高的尋常行為或頻率發生較低的異常行為。因此,相較於先前技術,本新型實施例提供的服務異常偵測告警方法與使用此方法的設備與系統具有系統監控效率提昇與維運風險降低的有益技術效果。
在本新型數個實施例中,服務泛指藉由資訊設備軟硬體所構成的數位化的服務,其包括線上商務系統、企業營運系統等,或者,服務可以泛指數位化的資訊互動系統,例如線上的實體或虛擬商品購買交易、金融交易、訊息交換發佈、影音圖文上傳瀏覽下載等。服務可由實際的工作負載辨識與反映,且與服務相關的資料可以是結構化或非結構化的資料,其中這些與服務相關的資料可指與此服務有關之營運或系統方面的各種資料,例如經由服務或系統處理的輸入、輸出、運算數據,或是服務或系統本身之設定、運行、監測數據,或是前述數據之衍生數據等。於本新型數個實施例中,所蒐集之與服務相關的資料包括營運資料與系統資料,其中營運資料包括即時訂單數(Gross Merchandise Volume,簡稱為GMV)、營業額、上線人數、頁面瀏覽數(Page View,簡稱為PV)、回頭客數(Repeat Visitors,簡稱維RV)、造訪次數(Unique Visitor,簡稱為UV)、IP位址數、流量來源、地區、使用裝置、使用者瀏覽事件、服務網站或應用程式操作行為與客服通話記錄的至少其中一者,以及系統資料包括系統日誌文件(Log)、基礎設施運行資料與系統指標的至少其中一者。基礎設施可指IT設備、其軟硬體、或其軟硬體之環境或架構等。基礎設施運行資料可指提供這些服務時,系統所需要使用到的基礎設施在運行時的能耗資料、流量資料、所使用之基礎設施之其他資源的資料或所使用之基礎設施之效能的資料。系統指標可指提供這些服務的受監控系統所使用之資源的資料或效能的資料,且例如為CPU使用率、記憶體用量、I/O數(Read/Write PS)、網路流出/入量、封包流出/入量、彈性開啟的機器/叢集數量、交換(Swap)數、每秒查詢數(Queries Per Second,簡稱QPS)、每秒回覆數(Responses Per Second,簡稱RPS)、資料庫連線數與機器回應時間的至少其中一者,但本新型不以上述營運資料與系統資料的類型為限制。
首先請參照圖1,圖1是本新型實施例之使用服務異常偵測告警方法的異常告警系統的方塊圖。本新型亦可應用於地端系統(On-Premises System)或地端與雲端之混合系統;例如圖1之雲端設備11可被替代為地端設備或混合雲設備等。本新型實施例的異常告警系統1包括雲端設備11,多個受監控系統121~12N與雲端設備11通訊連接,例如透過有線或無線直接或間接連接。受監控系統121~12N可以包含以下至少一者:系統提供之服務、系統承載之工作負載、提供服務的伺服器、網路、網路相關設備如交換器、閘道器等、防火牆或儲存設備等設備、此等設備之元件如CPU、記憶體、I/O埠等、此等設備上運行之虛擬機、容器、虛擬私有雲、資料庫、軟體程式等。受監控系統121~12N可以包含雲端設備、地端設備、終端設備等。受監控系統121~12N可以分屬於多個不同服務提供者,或者,也可以是屬於同一個服務者,又或者,受監控系統121~12N的一部分屬於其中一個服務提供者,受監控系統121~12N的另一部分屬於另一個服務提供者。
受監控系統121~12N用以提供上述各種服務,其中多個服務的服務特性彼此可能不全部相同,服務的服務特性是可以事先透過人工方式貼標(在預先知道服務類型時,即可以分群,例如涉及線上購物服務的受監控系統貼標為同一群組,而涉及線上諮詢服務的受監控系統貼標為另一同一群組),或透過其他監督式機器學習分群方法判讀。服務的服務特性也可以不用事先知道,而是在蒐集資料後,透過蒐集的資料找出狀態參數配合非監督式機器學習分群方法判讀,其中多個狀態參數包括CPU使用率、上線人數、營業額、頁面瀏覽數、記憶體使用量與輸入/輸出的數量等營運資料及系統資料。進行非監督式機器學習分群後,各個群集可進行貼標,各標籤可表示不同群集之服務特性。標籤可以次序變數、類型或類別變數、索引值、獨特值、號碼等方式自動標示,例如標籤可藉由分群模型之程式化方式而自動取得。標籤亦可附加標籤描述。例如,群集可依服務之商業性質標記或描述為「直播」、「入口網站」、「電商平台」、「論壇」等,或依負載或流量趨勢標記或描述為「晚間密集」、「週末活躍」、「冬季期間」、「上班族模式」等,或依技術型態或監視參數如I/O趨勢、連線頻率、等性質標記或描述,或依據該群集出現過之異常問題的特徵如過載、欠載、超頻、超時、尖峰等標記或描述。事先透過人工方式貼標而標註相同服務特性的多個服務,在根據資料分群後也可能屬於不同服務特性的群組,透過人工方式貼標而標註不同服務特性的多個服務,在根據資料分群後也可能屬於同一服務特性的群組。雲端設備11用於接受受監控系統121~12N提供的營運資料與系統資料,並藉此監控受監控系統121~12N是否有服務異常,以達到服務異常偵測告警的目的,其中營運資料與系統資料可以如上所述,故不再贅述。
請接著參照圖2,圖2是本新型實施例之使用服務異常偵測告警方法的雲端設備的方塊圖。如圖2所示,雲端設備11包括資料前處理單元111、狀態參數分群單元112、個體分群單元113、同群比對單元114與偵測單元115,其中可以透過硬體電路與軟體程式的執行來實現上述多個功能單元111~115,但本新型不以功能單元111~115的實現方式為限制。資料前處理單元111信號連接狀態參數分群單元112與偵測單元115,狀態參數分群單元112信號連接個體分群單元113,以及個體分群單元113信號連接同群比對單元114。雲端設備11尚可包含與同群比對單元114信號連接之告警單元116。
資料前處理單元111接收前述各受監控系統121~12N的營運資料與系統資料,並對營運資料與系統資料進行資料前處理。舉例來說,前處理為對系統日誌文件進行文字分析,建立在不同時間點的關鍵字詞頻,例如各時間段網頁受監控系統的接取日誌文件(Access.log)或錯誤日誌文件(Error.log)中會有不同關鍵字如「emerg」、「alert」、「err」、「warning」(關鍵字可能會因不同受監控系統不同而不同),進行TF-IDF(Term Frequency–Inverse Document Frequency)的詞頻分析以獲取詞頻,所獲取的詞頻則之後將作為不同的狀態參數,例如透過解析錯誤日誌文件知悉記憶體溢出頻率或數量。前處理還可以是記錄基礎設施運行指標,例如CPU使用率、記憶體用量與I/O數等,或者是將客戶服務輸出的業務營運資料進行匿名化處理。前處理的目的是為了從營運資料與系統資料獲取各受監控系統121~12N的多個狀態參數(狀態參數可用來表示受監控系統之資源所被使用或其效能的量化指標),以在後面進行服務特性的分群。在某些實施例中,要觀察1000個狀態參數,並以一週七天做為一個觀察週期,且每一個狀態參數以一分鐘為單位蒐集其參數值,則每一個狀態參數會有7*24*60=10080個資料點(各資料點有一參數值)。
狀態參數分群單元112則是接收各受監控系統121~12N的多個狀態參數,並對每一個狀態參數(參數值)基於分群模型來進行分群,並可給予相關的分群標籤。例如,受監控系統121的CPU使用率基於分群模型進行分群,並可標記各類對應的群集標籤,自分群結果分析,所對應的群集標籤可能代表晚上較忙碌、早上較忙碌或中午較忙碌之不同CPU使用模式的服務特性。在本新型數個實施例中,分群模型可以定期地根據即時資料來更新與訓練,或者可以預先訓練後才拿來使用,且訓練或更新分群模型可以以非監督式機器學習的方式(不用預先知悉類型與貼標)來實現。例如,定期獲取各受監控系統121~12N的CPU使用率,並根據K均值(K-means)、層次凝聚聚類演算法(HAC)或基於密度聚類演算法(DBSCAN)來建立分群模型,將CPU使用率分群,並可依據分群結果給予群集標籤。訓練或更新分群模型也可以使用監督式學習的分群演算法(對已知的類別進行貼標)來實現,例如支持向量機(SVM)、K-近鄰演算法(KNN)、決策樹(Decision Tree)或隨機森林(Random Forests)。
個體分群單元113對各受監控系統121~12N進行分群,以給予受監控系統121~12N對應的群組號碼(或標籤、次序變數、類型變數、索引值、獨特值等),其中對各受監控系統121~12N進行分群的方式可基於分群模型根據各受監控系統121~12N的多個狀態參數的多個群集標籤進行分群。某些實施例中,可將受監控系統視為其所提供之服務或所承載之工作負載,則個體分群單元113可謂對此等服務或工作負載進行分群;亦可將受監控系統視為所有人、客戶、用戶、企業、使用者、服務對象等,則個體分群單元113可謂對此等所有人、客戶、用戶、企業、使用者、或服務對象進行分群。例如,單一受監控系統代表單一用戶時,受監控系統之分群可視為對用戶之分群;單一受監控系統代表單一服務時,受監控系統之分群可視為對服務之分群;單一受監控系統代表單一設備或軟體程式時,受監控系統之分群可視為對設備或軟體程式之分群。例如,基於分群模型根據受監控系統121~12N的CPU使用率的群集標籤、上線人數的群集標籤、營業額的群集標籤與網路流出/入量的群集標籤等來決定受監控系統121~12N提供的服務屬於哪些群組,各群組可代表分群至各群組內之服務彼此間具有某種相同或相似之服務特性,並可給予相關的群組號碼、變數、或標籤。同樣地,用於分群的模型也同樣地可以以非監督式機器學習或監督式機器學習來進行訓練與更新。可以不特別指定服務特性,將多個狀態參數的群集標籤進行非監督式學習之模型訓練(例如K-means、HAC或DBSCAN),或者,事先針對某些已知特性的服務貼標,例如電商服務、企業資源規劃系統(ERP)系統、交易系統、直播系統等,將貼標完的服務的多個狀態參數的群集標籤進行監督式學習之模型訓練(例如SVM、KNN、決策樹或隨機森林),之後有未知的服務即可用此模型進行分群,歸納服務的服務特性。
偵測單元115基於模型根據各受監控系統121~12N的多個狀態參數進行建模,以偵測各受監控系統121~12N是否有異常(例如,預測出未來或現在的狀態參數超出門限值,或者,未來可能有特定異常事件的發生),其中此處的模型可以是時間序列模型、歷史資料模型與/或風險預測模型。各受監控系統121~12N的歷史資料模型可以使用機器學習演算法等套用到過去蒐集的多個狀態參數來建立其正常狀況下的時間序列模型,使用演算法可以是差分整合移動平均自迴歸演算法(ARIMA)、長短期記憶演算法(LSTM)或隨機切割森林(Random Cut Forests,簡稱RCF)。舉例來說,可以建立受監控系統121之CPU使用率的時間序列模型,透過時間序列模型的預測可以知悉CPU使用率是否目前有異常或未來可能會異常。某些實施例中,若已知某些已發生的系統問題、資安事件、遭受攻擊等異常狀況,則可將受監控系統多個狀態參數的參數值聯集進行風險值標註,以訓練出各受監控系統121~12N於單一時間點的風險預測模型,其中訓練風險預測模型的演算法可以是隨機森林或極限梯度提升演算法(XGBoost)。舉例來說,受監控系統121之風險預測模型中,可根據實際發生異常之情況標註單筆資料之風險值(該筆資料之參數觀察值可能為CPU使用率=0.5、記憶體使用量=15GB、輸入/輸出的數量=2500等),如此藉由對歷史資料集中每筆資料進行風險標註,對該資料集進行擬合以訓練出該風險預測模型,則可對新資料預測此受監控系統121是否遭受異常。對此等風險值可形成一風險值序列,並對此風險值序列訓練出一時間序列模型,藉此可預測如下一時間點之風險值。如下開將說明,藉由利用風險預測模型及時間序列模型所預測之風險值進行比對,並藉由同群比對單元114之判斷,可判斷是否遭受異常。
某些實施例中,針對受監控系統所提供之服務,對於某一種服務特性的服務,偵測單元115所偵測的異常行為未必真的是異常,可能在同一個服務特性的群組中,此偵測到的異常行為實際上在群組內會被判斷為尋常行為。因此,同群比對單元114判斷此偵測到的異常行為在其同一服務特性(如同一群組號碼)的群組之受監控系統中是否為異常行為或尋常行為。舉例來說,受監控系統121、122、129與12N都是提供線上購物服務,且在母親節檔期,受監控系統121之上線人數被偵測為暴增為因而先被判斷為異常行為,且透過同群比對單元114發現受監控系統122、129與12N亦偵測到上線人數為暴增,因此,同群比對單元114判斷偵測到之受監控系統121之上線人數暴增的異常行為屬於群組內之尋常行為,因此判斷受監控系統121未發生異常。又例如,受監控系統123、126與129都是財會系統,且在報稅期間,受監控系統123的流量來源飛快增加,而透過風險預測模型被偵測成有被攻擊的風險,但同群比對單元114偵測到受監控系統126與129的流量來源也飛快增加,故同群比對單元114不會將偵測到受監控系統121之流量來源飛快增加的風險當作異常事件,即不會認為受監控系統121有被攻擊的風險。雲端設備11可信號連接一告警單元116,告警單元116可根據前述判斷出之異常事件產生一異常告警,並可將該異常告警發送至與雲端設備11信號連接之一終端裝置(未繪示),使該終端裝置顯示該異常告警。如此,雲端設備11可以避免錯誤地向系統管理者告警,讓服務提供者在運營上更有效率。
請參照圖3,圖3是本新型實施例之服務異常偵測告警方法操作於判讀模式的流程圖。服務異常偵測告警方法可以被上述雲端設備11所執行。在訓練或更新各模型後,雲端設備11可以操作於判讀模式,並於判讀模式執行下述步驟。首先,在步驟S31中,接收各受監控系統對應的營運資料與系統資料,並進行資料前處理,以產生各受監控系統的多個狀態參數。然後,在步驟S32中,基於用於分群每一個狀態參數之類別的模型,對各受監控系統的每一個狀態參數進行分群,以給予各受監控系統的每一個狀態參數一個群集標籤。然後,在步驟S33中,基於用於分群每一個服務之服務特性的模型,依據各受監控系統的多個狀態參數對應的多個群集標籤對各受監控系統分群,以給予各受監控系統一個群組號碼(或稱之為另一組群集標籤)。
在步驟S34中,基於各受監控系統之多個歷史資料模型與/或多個風險預測模型,根據各受監控系統的多個狀態參數偵測各受監控系統是否有異常行為。若無偵測到異常行為,則無需告警,若有偵測到異常行為,則進行步驟S35。在步驟S35中,判斷偵測到之各受監控系統之異常行為在其群組號碼的群組中是否為異常行為或尋常行為,亦即判斷是否為異常,判斷的方式可以是,同一群組號碼的多個受監控系統中有至少一特定數量者也被偵測到有此異常行為,其中此特定數量可以是同一群組號碼的多個受監控系統的一半、全部、四分之一或其他數值,例如「1」(群組內一個受監控系統)、「2」(群組內二個受監控系統)等。簡單地說,只要同一群組號碼的群組有超過特定數量的受監控系統都有被偵測到相同或相似的異常行為,則此被偵測到的異常行為並非群組內真的異常行為而應該是尋常行為,故不用進行告警。若同一群組號碼的群組沒有超過特定數量的受監控系統都有被偵測到相同的異常行為,則進行步驟S36。在步驟S36中,向與雲端設備11電性連接之一終端裝置發送一異常告警,並使該終端裝置顯示該異常告警,以向對應的系統管理者或維運人員進行告警。
接著,請參照圖4,圖4是本新型實施例之服務異常偵測告警方法操作於建模模式的流程圖。判讀模式下的模型是雲端設備11在建模模式所建立,且建模模式的步驟如下。在步驟S41,接收多個受監控系統對應的營運資料與系統資料,並進行資料前處理,以產生多個受監控系統之每一者的多個狀態參數。接著,在步驟S42中,針對每一種狀態參數,依據多個受監控系統的多個同一種狀態參數,建立用於分群狀態參數的模型。之後,在步驟S43中,針對每一個受監控系統,對受監控系統的每一個狀態參數進行分群,以給予每一個狀態參數一個群集標籤。然後,在步驟S44中,根據多個受監控系統的多個狀態參數的群集標籤建立用於針對受監控系統之服務特性的分群模型。接著,在步驟S45中,針對每一個受監控系統的每一個狀態參數,依據每一個狀態參數之一段時間的數值序列建立出用於偵測異常的模型。
本新型實施例還提供一種儲存媒介,此儲存媒介為非揮發性的儲存媒介,例如快閃記憶體、光碟或硬碟等,其儲存有多個程式碼,且此等程式碼可以被計算機裝置所讀取,以藉此讓讀取此等程式碼的計算機裝置進行如圖3與圖4之服務異常偵測告警方法的步驟。
基於上述內容,以下使用一個實際例子來說明。在某些實施例中,受監控系統的CPU使用率大於80%持續超過5分鐘即告警,或某外部同一個IP連線在1分鐘內超過50次即告警,但門限值往往需要跟系統實際運行的業務、服務有關係,而隨著業務運行,告警的門限值也需要根據不同時間週期作調整,而不一定是固定值。加上 時間一久、規則持續新增,系統管理者很難釐清不同規則間的關係或邏輯,不同服務之系統間的系統差異也容易造成雜訊或噪音的誤報。
因此,本新型實施例之系統或設備使用的服務異常偵測告警方法則可以解決上述技術問題。首先,以狀態參數「上線人數」為例, 經營某一類型之電子商務的系統的線上人數通常在20至24點人數較多,而某一類型之新聞類網站系統,其線上人數的高峰值通常在於7至9點、12至13點與18點21點。於對狀態參數分群階段,可將每種狀態參數利用無監督式學習的分群方法, 例如使用 K-means歸納出受監控系統之上線人數模式的10種態樣,以及整理出各受監控系統的線上人數模式各屬於何種態樣,並給予相應的群集標籤(如採1、2、3…的次序變數標籤)。類似地,各受監控系統的CPU使用率各屬於何種態樣也可以利用上述分群方法獲得。在獲得各受監控系統的各狀態參數的各群集標籤後,即可以對各受監控系統進行分群。於下面表一至表三,明白舉出狀態參數分群與受監控系統分群的例子。
表一:線上人數分群後之群集標籤之舉例
  時間點1 時間點2 時間點3 時間點4 時間點5 時間點6 時間點N 上線人數的群集標籤
受監控系統#1 100人 2人 4人 5人 111人 121人 4人 1
受監控系統#2 101人 6人 3人 5人 100人 151人 4人 1
受監控系統#3 0人 55人 55人 55人 0人 0人 7人 6
受監控系統#4 21人 22人 19人 18人 20人 23人 21人 7
受監控系統#N 80人 77人 75人 4人 3人 0人 0人 3
表二: CPU使用率分群後的群集標籤之舉例
  時間點1 時間點2 時間點3 時間點4 時間點5 時間點6 時間點N CPU使用率的群集標籤
受監控系統#1 55% 3% 6% 50% 9% 54% 51% 9
受監控系統#2 50% 3% 4% 57% 9% 51% 45% 9
受監控系統#3 3% 3% 3% 20% 40% 80% 88% 2
受監控系統#4 20% 22% 21% 22% 21% 21% 22% 1
受監控系統#N 50% 49% 49% 3% 1% 1% 1% 3
表三:各受監控系統分群之舉例
  上線人數的群集標籤 CPU使用率的群集標籤 頁面瀏覽數的群集標籤 營業額的群集標籤 群組號碼
受監控系統#1 1 9 4 5 1
受監控系統#2 1 9 4 6 1
受監控系統#3 6 2 1 1 4
受監控系統#4 7 1 2 2 5
 
受監控系統#N 3 3 2 2 3
如上表的舉例,受監控系統#1與受監控系統#2的各狀態參數之群集標籤近似,所以被給予同一個群組號碼,以表示被歸類到服務特性相同的群組。接著,受監控系統#1的上線人數與CPU使用率於未來的觀察值可以與其上線人數與CPU使用率的歷史資料模型與/或風險預測模型的預測值進行比較,以偵測上線人數與CPU使用率是否有異常行為。若任一狀態參數有異常行為,則比較群組號碼為1之群組的各受監控系統(即群組內其他受監控系統)的上線人數或CPU使用率多數是否也有被偵測到異常行為,若無,則表示偵測到之受監控系統#1之上線人數或CPU使用率的異常行為在群組內為異常事件,並且需要向受監控系統#1的系統管理者或維運人員告警。再者,當在偵測到之受監控系統#1之上線人數或CPU使用率的異常行為被認為是異常事件時,該異常的資料或異常發生前的歷史資料可以拿來訓練另一個歷史資料模型或風險預測模型,以讓同一群組的受監控系統可以使用此歷史資料模型或風險預測模型來偵測異常。
基於上述內容,某些實施例中,多個受監控系統對應的營運資料與系統資料仍被接收與進行資料前處理,以產生多個受監控系統之每一者的多個狀態參數。然而,多個受監控系統是預先透過人工方式分好群組,或者透過非監督式學習分群方法分群。針對每一個受監控系統,根據過去實際異常行為發生的與否(例如,駭客入侵、服務中斷與系統當機等)對受監控系統的多個狀態參數的參數值聯集標註風險值。在某一個實施例中,已知某個受監控系統被駭客入侵時的CPU使用率為0.6,其記憶體使用量為20GB,且其輸入/輸出的數量為3000,則可以將該筆資料標註風險值為1。其他無異常發生的資料則將風險值標註為0。接著,利用機器學習演算法(例如XGBoost),根據標記有風險值的資料建立(訓練)受監控系統的風險預測模型,此風險預測模型可以預測未來時間點的風險值。附帶一提的是,受監控系統的風險預測模型可能會有週期性,或經過一段較長時間後改變,或經過特定事件(如系統軟硬體版本更新、新模組加入系統、商業模式改變、市場需求變化等)後會改變。例如,本新型可藉如進行季節性、週期性等時間序列分析,由歷史資料所學習的時間序列圖形判斷風險趨勢,以找出風險值的變化趨勢,藉此重新訓練模型或調整模型超參數等,以得到適用新週期之模型。在建立完對應受監控系統的風險預測模型後,在獲得受監控系統的新的多個狀態參數(參數值),則可以根據新的多個狀態參數(參數值)基於風險預測模型計算預測風險值,可將值的範圍界定在0至1之間。若預測風險值大於特定值,例如0.5,則等同於偵測到異常行為,此時再根據同一群組是否也有超過特定數量的其他受監控系統也有預測風險值大於特定值的情況,如果沒有,則將此偵測到的異常行為當作異常(異常事件),反之,則視為非異常(非異常事件)。在此實際例子中,預測風險值的結果可能來自於許多參數的影響,而參數間關係太複雜無法以人工規則去理解 ,但此時隱性的參數間關係與時間序列關係則可藉由模型的訓練來獲取。
附帶一提的是,若受監控系統#1之上線人數或CPU使用率等狀態參數有被偵測到異常行為的原因在於推出特定活動(例如,受監控系統#1提供線上購物服務舉辦如週年慶之特定線上活動)或發生特定事件(如調整CPU使用率政策)等,則群組號碼為1的其他受監控系統的上線人數與CPU使用率並沒有被偵測到有異常行為,故雖然本新型實施例提供的服務異常偵測告警方法與使用此方法的設備與系統會將偵測到的受監控系統#1之上線人數或CPU使用率的異常行為認定為異常,但在使用非監督式的即時學習方式時,在受監控系統1的系統管理者或維運人員確認為此偵測到的異常實際原因可以確定後,接下來的偵測到之受監控系統#1之上線人數與CPU使用率的異常便可與該特定活動綜合判斷,此外歷史資料模型或風險預測模型也可藉由調整風險值等進行修正、更新或重新訓練,以使該特定活動不會成被預測為異常行為。
某些實施例中,本新型可藉由一種用於判定受監控系統發生異常事件並針對該異常事件產生異常告警之電腦軟體程式來實施,該程式可載入如伺服器之電腦設備。該電腦軟體程式可於載入電腦設備後,執行以下之步驟:接收複數個第一監控資料集,該等第一監控資料集每一者包含複數個監控資料,該等監控資料包含第一監控參數及第二監控參數,該第一監控參數及該第二監控參數分別包含複數個監控資料點,該等資料點每一者包含一監控參數值,該等第一監控資料集係分別包含不同受監控系統之監控資料,該等第一監控資料集每一者之複數個監控資料包含營運資料及系統資料;利用第一分群模型對該等第一監控資料集之第一監控參數的監控參數值進行分群並產生複數個第一群集標籤,使該等第一監控資料集每一者對應該等第一群集標籤其中一者,且利用該第一分群模型對該等第一監控資料集之第二監控參數的監控參數值進行分群並產生複數個第二群集標籤,使該等第一監控資料集每一者對應該等第二群集標籤其中一者;利用第二分群模型對該等第一監控資料集之第一群集標籤及第二群集標籤進行分群並產生複數個第三群集標籤,使該等第一監控資料集每一者對應該等第三群集標籤其中一者,該等第一監控資料集其中至少複數者係對應該等第三群集標籤中某一者而形成第一監控群組,該第一監控群組依其所對應的複數個第一監控資料集包含相對應的複數個受監控系統,該第一監控群組中的複數個受監控系統包含第一受監控系統;自該第一監控群組接收複數個第二監控資料集,該等第二監控資料集係分別接收自該第一監控群組中的複數個受監控系統,該等第二監控資料集每一者包含該第一監控參數及該第二監控參數;基於該等第二監控資料集,利用一時間序列演算法預測分別對應該第一監控群組之該第一監控參數及該第二監控參數的複數個第一監控參數預測值及複數個第二監控參數預測值,使該第一監控群組中的複數個受監控系統每一者對應其第一監控參數預測值及第二監控參數預測值;自該第一監控群組中的複數個受監控系統接收針對該第一監控參數之複數個第一監控參數觀測值,該等第一監控參數觀測值係分別對應該等第一監控參數預測值;對該第一監控群組中的複數個受監控系統每一者所對應的第一監控參數觀測值及第一監控參數預測值進行比對,判斷對應該第一受監控系統的第一監控參數觀測值不符合其對應的第一監控參數預測值,並判斷該第一監控群組中除了該第一受監控系統之外的其他受監控系統中所對應之第一監控參數觀測值不符合相對應第一監控參數預測值的受監控系統的數量低於一受監控系統數量閾值,藉此判斷該第一受監控系統發生一異常事件,其中該受監控系統數量閾值係小於該第一監控群組的受監控系統數量;以及根據該異常事件之判斷產生一異常告警。
某些實施例中,對於包含前述電腦軟體程式所進行之步驟,可包含以下之實施方式。一監控資料集可自一受監控系統直接或間接接收;監控資料集可為一歷史資料集,如受監控系統已發生或已藉由監控所蒐集之資料集。監控資料集可於不同時段或時間點接收,例如第一監控資料集可於第一時間點接收,第二監控資料集可於第二時間點接收。第一監控資料集及第二監控資料集可包含相同特徵維度之監控資料,例如第一監控資料集及第二監控資料集可包含相同之監控參數,如當第一監控資料集包含線上人數、CPU使用率等二十五個監控參數時,第二監控資料集亦包含相同的二十五個監控參數。第一監控參數及第二監控參數可為受監控系統不同之監控參數,例如第一監控參數可為線上人數,第二監控參數可為CPU使用率。監控參數可以是受監控系統之營運相關之參數,亦可為受監控系統之系統相關之參數。可對監控資料集進行資料前處理,以形成複數個監控參數及/或監控資料點。監控資料可指受監控系統受監控而產生之資料,而該等資料可包含本揭露所例示者。監控資料所包含之監控參數可包含營運資料參數及/或系統資料參數,且監控資料亦可包含表示該等參數之狀態的狀態值。一個監控資料可指自一受監控系統接收之一筆包含監控參數之資料。若以表格方式處理資料,監控資料可以「列」(row)之方式為其資料形態。監控資料點可指不同之時間點,複數個監控資料點可包含一時間序列形態。監控資料點可為表一中之時間點,且監控參數值可為受監控系統於各時間點之對應的參數值。第一監控資料集與第二監控資料集可包含不同時段或時間點之監控資料,例如每個監控資料包含有一時間值,該時間值可作為所述時間點或是所關注時段內之一時間點。第一監控資料集可包含第一時段之監控資料,第二監控資料集可包含第二時段之監控資料。第一分群模型及第二分群模型可採用相同之分群演算法。第一分群模型及第二分群模型可包含不同之超參數,如可包含不同之群集數。第一分群模型及第二分群模型之區分可僅為依所進行之分群階段不同所做之區分。監控資料集與群集標籤之關係可為多對一關係,即一或多個監控資料集可對應至一個群集標籤。當監控資料集與受監控系統具有一對一的關係時,受監控系統與群集標籤因此具有多對一關係,即一個群集標籤可指派或對應一或多個受監控系統。藉由本揭露之分群方式,可產生複數個監控群組,各監控群組對應或指派有一群集標籤,如第三群集標籤中其中一者,各第三群集標籤可以是獨特之標籤,使各監控群組得以彼此間區分,亦即相似之受監控系統可分群至同一群組,使各監控群組可包含一或多個受監控系統。時間序列演算法可採ARIMA、LSTM、RCF等可適用於時間序列型態資料的演算法。第二監控資料集可輸入由時間序列演算法所建立之模型,藉以產出基於第二監控資料集所預測之預測值。例如,第二監控資料集可以是欲預測之資料點的前一週的資料點,若每分鐘為一資料點,對單一監控參數而言,第二監控資料集可包含10080個資料點。時間序列模型可先經歷史資料訓練而建模,例如利用各受監控系統之各監控參數的歷史資料來建立各受監控系統的時間序列模型,因此產出各受監控系統所對應的時間序列模型。第二監控資料集包含如線上人數、CPU使用率等二十五個監控參數時,歷史資料可包含與第二監控資料集相同的二十五個監控參數。可設定一信賴區間,使監控參數預測值包含一範圍內之值,例如信賴區間可設為95%。對於不同之監控參數,可設定不同數值之信賴區間。信賴區間可藉由採用一時間序列模組或涵式庫來自動計算、設定。監控參數觀測值可於同一時間點上對應監控參數預測值,例如,對於某一監控參數而言,預測一受監控系統的下一個資料點的監控參數預測值,並可取得該受監控系統於同一個資料點的監控參數觀測值。進行監控參數觀測值與監控參數預測值的比對時,可將監控參數觀測值比對監控參數預測值的信賴區間,若監控參數觀測值不在信賴區間內,可判斷為監控參數觀測值不符合監控參數預測值。監控參數觀測值不在信賴區間可指該觀測值超出該信賴區間,例如該觀測值大於或小於該信賴區間的上限值或下限值。監控參數觀測值與監控參數預測值之比對,可包含計算或接收多個時間點的多個值後進行整體比對,例如可於相同時段內建立一監控參數預測值時間序列及其所對應之一監控參數觀測值時間序列,各時間序列包含該時段內之多個時間點對應的監控參數預測值或監控參數觀測值,進行該二時間序列之比對,若該二時間序列之間判斷有一組觀測值與預測值不符合、有數組觀測值與預測值不符合、有數組觀測值與預測值連續不符合、有數組觀測值與預測值連續不符合後又有一組觀測值與預測值不符合、或有數組觀測值與預測值連續不符合後又緊接一組觀測值與預測值不符合等,則可判斷為監控參數觀測值不符合監控參數預測值。或者,對於發生一組觀測值與預測值後連續數組觀測值與預測值皆無不符合,則可判斷未發生監控參數觀測值不符合監控參數預測值。受監控系統數量閾值可以根據監控群組的受監控系統數量來設定。受監控系統數量閾值可設定為「2」,使群組內除了所關注之受監控系統(如第一受監控系統)判斷有監控參數觀測值不符合監控參數預測值之情形之外,僅有另一個受監控系統亦判斷有監控參數觀測值不符合監控參數預測值之情形或沒有另外的受監控系統判斷有監控參數觀測值不符合監控參數預測值之情形時,便可判斷發生異常事件;若欲將判斷異常事件的標準設為較寬鬆,換言之欲使異常偵測敏感度降低,則該閾值可設為較高之值,如「3」等;若欲採較嚴格標準,則該閾值可設為「1」,使當群組內只有所關注之受監控系統判斷有監控參數觀測值不符合監控參數預測值之情形時,便可判斷發生異常事件。受監控系統數量閾值亦可設為一比例,例如10%。此外,對於群組內除了所關注之受監控系統之外的其他受監控系統中判斷有觀察值不符合預測值者,可將之判斷為發生異常事件,亦即判斷該其他受監控系統中判斷有觀察值不符合預測值者每一者發生一異常事件,藉此對各異常事件發出告警;在此情況下,可基於群組中判斷為發生異常事件的受監控系統的數量少於同群組中未判斷為發生異常事件的受監控系統的數量,而此數量比例可藉由類似本揭露設定閾值方式設定。依本揭露之群組內判斷異常事件的原理,本新型亦包含依相同原理採相反之判斷方式,例如可判斷第一監控群組中除了第一受監控系統之外的其他受監控系統中所對應之第一監控參數觀測值符合相對應第一監控參數預測值的受監控系統的數量高於一受監控系統數量閾值,藉此判斷第一受監控系統發生異常事件,將該閾值設定為較高數值則反映出較嚴格標準等。異常告警可包含訊息、通知、旗標、標籤、音訊等。異常告警可包含與所欲關注之受監控系統(如該第一受監控系統)的相關資訊,例如指示發生異常者為所欲關注之受監控系統,以使異常告警及/或受監控系統可進行如記錄、統計、反映等後續處理。
某些實施例中,本新型可藉由一種產生異常告警之電腦軟體程式,經由電腦載入該程式後,執行包含以下之步驟:接收複數個受監控系統每一者的第一組監控資料,該等第一組監控資料每一者包含所對應之受監控系統受監控的營運資料及系統資料,該等營運資料及系統資料以複數個狀態參數分類;利用該等第一組監控資料之狀態參數對該等受監控系統進行分群,以產生複數個狀態參數群集標籤,使該等受監控系統每一者對應該等狀態參數群集標籤其中一者;利用該等狀態參數的該等狀態參數群集標籤對該等受監控系統進行分群,以產生複數個受監控系統群集標籤,使該等受監控系統每一者對應該等受監控系統群集標籤其中一者,該等受監控系統形成複數個受監控系統群集,該等受監控系統群集分別對應至該等受監控系統群集標籤,該等受監控系統群集包含第一受監控系統群集,該第一受監控系統群集包含對應至同一受監控系統群集標籤的複數個受監控系統;針對該等狀態參數每一者,接收該第一受監控系統群集之複數個受監控系統每一者的一監控觀測值,且針對該第一受監控系統群集之複數個受監控系統每一者產生對應該等狀態參數每一者的一監控資料時間序列,並依據各監控資料時間序列產生一監控預測值,該監控預測值於一時間軸上係對應該監控觀測值;判斷該第一受監控系統群集之複數個受監控系統每一者的監控觀測值是否符合其對應之監控預測值,若不符合則判斷為所對應之受監控系統發生一異常行為,並當該第一受監控系統群集內判斷為發生異常行為的受監控系統的數量大於一且小於或等於一異常閾值時,判斷發生異常行為之該至少一受監控系統發生異常事件,該異常閾值係小於該第一受監控系統群集中全部受監控系統的數量;以及當判斷發生該異常事件時,產生一異常告警,該異常告警係指示發生異常事件者為該至少一受監控系統。
某些實施例中,前述各步驟更可藉由以下方式實施。所謂異常行為,可意指或代表參數值不符合之判斷結果,並非一定指據以產生異常告警之異常事件。異常行為可視為異常判斷之初步結果或中繼結果,並藉由多個異常行為之綜合判斷,例如判斷發生異常行為之受監控系統的數量等,再判斷最終結果,例如將最終結果判斷為異常事件,以異常事件為產生異常告警之依據。異常行為可作為單一受監控系統的異常判斷結果,由於本新型可進行群組內多個受監控系統的整體判斷,因此群組內多個異常行為可整體作為單一受監控系統是否發生異常事件之判斷依據。例如,第一受監控系統群集包含15個受監控系統時,異常閾值可設為50%,則判斷群集內至少一個且不超過七個的受監控系統發生異常行為時,可判斷該等發生異常行為的受監控系統發生異常事件,據此可產生異常告警,所產生之異常告警可指示該至少一個且不超過七個的受監控系統發生異常事件。此外,若判斷超過七個受監控系統發生異常行為時,可對群集內未發生異常行為的受監控系統產生異常告警,亦即不將判斷發生異常行為的受監控系統判斷為發生異常事件,而是將未發生異常行為的受監控系統判斷為發生異常事件,此方式可使群集內在行為上與其他受監控系統不同的少數者被判斷為發生異常事件。據此,此方式可藉由下列步驟實施為:判斷該第一受監控系統群集之複數個受監控系統每一者的監控觀測值是否符合其對應之監控預測值,若不符合則判斷為所對應之受監控系統發生一異常行為,並當該第一受監控系統群集內判斷為發生異常行為的受監控系統的數量大於該群集內未判斷為發生異常行為的受監控系統的數量時,將該未判斷為發生異常行為的至少一受監控系統判斷為發生一異常事件,當判斷發生該至少一異常事件時,產生一異常告警,該異常告警係指示該發生異常事件之至少一受監控系統。當然,此方式中對於群集內之數量判斷(如多數/少數判斷,或以判斷異常行為來區分群集內的二個次群集)可視為等同設定一閾值,或是可藉由設定一閾值來控制此判斷方式。例如,針對包含多個受監控系統的一特定受監控系統群集,利用本揭露判斷異常行為的方式,建立第一異常事件判斷條件,即當群集內少於半數的受監控系統有異常行為時,判斷該少於半數的受監控系統發生異常事件;此外,可再建立第二異常事件判斷條件,即當群集內多於半數的受監控系統有異常行為時,判斷所剩的、未判斷為發生異常行為的受監控系統發生異常事件,而第二異常事件判斷條件可獨立作為群集內異常事件的判斷,或是與第一異常事件判斷條件一同使用。此外,此方式可同時利用本揭露其他閾值的方式一同實施,以建立不同情況下的判斷條件,且本新型可藉由設定複數個閾值來對不同的異常事件判斷方式進行告警。例如,可設定不同或層級化的數值門檻之閾值來表示不同等級之異常事件,如可設第一類型異常閾值為「2」及第二類型中度異常閾值為「5」,將二個以內之受監控系統的異常行為視為第一類型異常事件時,異常告警可指示發生第一類型異常事件,而將三個以上至五個以內之受監控系統的異常行為視為第二類型異常事件時,異常告警可指示發生第二類型異常事件等;不同類型之異常事件可代表不同異常程度等。針對各個受監控系統群集,可採本揭露之群集內異常告警方式,因此可確保每一受監控系統在其自身的群集內皆可受到監控而在發生異常事件時產生告警。
某些實施例中,本新型可藉由一種產生異常告警之電腦軟體程式來實施,經由電腦載入該程式後可執行包含以下之步驟:對複數個受監控系統的複數個狀態參數進行分群並產生每一者包含複數個第一群集標籤之複數個第一群集標籤集,使該等受監控系統每一者被指派該等第一群集標籤集每一者中的一個第一群集標籤,該等第一群集標籤集係分別對應該等狀態參數,該複數個狀態參數係包含該等受監控系統之營運資料及系統資料的狀態參數;以該等第一群集標籤集的複數個第一群集標籤對該等受監控系統進行分群並產生包含複數個第二群集標籤之第二群集標籤集,使該等受監控系統每一者被指派該第二群集標籤集中的一個第二群集標籤,其中,該等受監控系統中有複數個受監控系統形成第一受監控系統群組,使該第一受監控系統群組之全部受監控系統係被指派同一個第二群集標籤,該第一受監控系統群組包含一目標受監控系統;針對該第一受監控系統群組,形成該群組中各受監控系統之一訓練資料集,該等訓練資料集每一者包含該等狀態參數且更包含一異常值參數,該異常值參數係指示所對應之受監控系統的一異常狀態;基於該等訓練資料集建立對應該第一受監控系統群組中各受監控系統的第一異常預測模型,該等第一異常預測模型每一者係用以預測所對應之受監控系統的第一異常值參數預測值;自該等訓練資料集每一者中之異常值參數形成一異常值參數時間序列,基於該等異常值參數時間序列建立對應該第一受監控系統群組中各受監控系統的第二異常預測模型,該等第二異常預測模型每一者係用以預測所對應之受監控系統的第二異常值參數預測值;針對該第一受監控系統群組中各受監控系統,利用該等第一異常預測模型中所對應者預測於一目標時間點之第一異常值參數預測值,利用該等第二異常預測模型中所對應者預測於該目標時間點之第二異常值參數預測值,於該第一異常值參數預測值不符合該第二異常值參數預測值時判斷所對應之受監控系統發生異常行為,依前述異常行為判斷方式判斷該目標受監控系統發生異常行為,並依前述異常行為判斷方式判斷該第一受監控系統群組中除了該目標受監控系統之外有低於一特定數量之其他受監控系統發生異常行為,該數量低於該第一受監控系統群組的受監控系統數量;以及產生關聯於該目標受監控系統之一異常告警。
某些實施例中,前述訓練資料集的異常值參數係代表一異常值或風險值,如可為本揭露所述之風險值。異常值參數可以包含多個時間點或一時間序列的異常值,該等異常值可以有無異常或有無風險來標註,如有異常者標註為「1」,無異常者標註為「0」;針對此異常值參數,訓練資料集中標註為「1」的資料可代表受監控系統的異常狀態為異常,而標註為「0」的資料可代表受監控系統的異常狀態為非異常。訓練資料集可包含歷史資料,例如包含異常值或風險值的資料。訓練資料集的每筆資料可包含一特定時間點之資料,據此,異常值參數反映受監控系統於該特定時間點之異常狀態。利用訓練資料集可訓練出第一異常預測模型,此模型所用之演算法可包含適合之監督式機器學習演算法。或者可說,異常值參數係對狀態參數聯集進行標註之資料,使在不需針對個別狀態參數進監控之情況下,可針對全部狀態參數來整體監控,並據此以第一異常預測模型來預測異常。此外,各個時間點的異常值可藉由形成一時間序列,所形成之異常值參數時間序列可用以訓練如採用LSTM演算法等所形成之第二異常預測模型。例如,針對一受監控系統,每分鐘為一資料點,對每一資料點標註異常值參數,若有標註了一週之資料,則有10080個異常值參數的參數值(或說異常值參數包含了該週各資料點),此等參數值便可形成一異常值參數時間序列並用以建立時間序列模型。針對一筆新資料,如新的觀察值,該新資料可包含狀態參數但不包含異常值參數,利用第一及第二異常預測模型便可分別預測出各模型的預測值,該等預測值若有差異時,便可據以判斷有異常行為產生。例如,將第二異常預測模型作為基準模型時,第二異常值參數預測值可作為預測基準值,若第一異常值參數預測值不符合第二異常值參數預測值或超出其信賴區間之上、下限值時,便可判斷發生異常行為。
綜合以上所述,本新型實施例提供的服務異常偵測告警方法與使用此方法的設備與系統,相較於先前技術,可包含下述優點:(1)可避免僅從 IT維運等資料與日誌來監控或判斷異常事件,提升早期告警機會,亦降低誤報可能性;(2)藉由同類型服務或公司的資料判斷或訓練,避免資料不足狀況,提升模型準確性;(3)藉由同類型服務或公司的資料與建模,提升異常狀況的比對與告警效率;(4)可以事前防範在不明顯特徵或特徵組合下,即可預測異常,不再需要人為定義邏輯;(5)可考量事件的週期性、季節性,以及長短期資料的影響;以及(6)綜合時間序列趨勢的預防性告警,以及風險值評估方法 ,避免傳統風險預測方法的主觀偏差,以及對處理大量資料效率與準確率過低的狀況。另外,本新型實施例提供的服務異常偵測告警方法與使用此方法的設備與系統可以應用於各類AI相關產品與服務,例如電商、遊戲業的異常偵測、 製造業的異常偵測、 財務報表保險制度(FSI)金融保險產業的詐欺偵測,以及管理服務提供商(MSP)的自動化維運等。
應當理解,本文描述的示例和實施例僅用於說明目的,所揭露之實施例及技術特徵在符合本新型之精神之下可有各種組合,並且鑑於其的各種修改或改變將被建議給本領域技術人員,並且將被包括在本申請的精神和範圍以及所附權利要求的範圍之內。
1:異常告警系統 11:雲端設備 121~12N:受監控系統 111:資料前處理單元 112:個體參數分群單元 113:個體分群單元 114:同群比對單元 115:偵測單元 116:告警單元 S31~S45:步驟
提供的附圖用以使本新型所屬技術領域具有通常知識者可以進一步理解本新型,並且被併入與構成本新型之說明書的一部分。附圖示出了本新型的示範實施例,並且用以與本新型之說明書一起用於解釋本新型的原理。
圖1是本新型實施例之使用服務異常偵測告警方法的異常告警系統的方塊圖。
圖2是本新型實施例之使用服務異常偵測告警方法的雲端設備的方塊圖。
圖3是本新型實施例之服務異常偵測告警方法操作於判讀模式的流程圖。
圖4是本新型實施例之服務異常偵測告警方法操作於建模模式的流程圖。
11:雲端設備
111:資料前處理單元
112:個體參數分群單元
113:個體分群單元
114:同群比對單元
115:偵測單元
116:告警單元

Claims (10)

  1. 一種用於服務異常偵測告警的設備,其包括多個電性連接的硬體電路,該等硬體電路組態成多個單元,且該等單元用於: 接收對應一服務之多個受監控系統的其中一個受監控系統的營運資料與系統資料,並對該受監控系統的該營運資料與該系統資料進行資料前處理,以獲得該受監控系統的多個狀態參數; 對該受監控系統的每一個該狀態參數進行分群,以獲得該受監控系統的每一個該狀態參數對應的一群集標籤; 根據該受監控系統的該等狀態參數的該等群集標籤對該受監控系統分群,以獲得該受監控系統對應的一群組號碼; 根據該受監控系統的至少一個該等狀態參數偵測該受監控系統是否有一異常行為;以及 於偵測到該受監控系統有該異常行為時,判斷於該受監控系統的該群組號碼對應的一群組中是否有超出一特定數量的該等受監控系統也有異常行為,若該群組號碼對應的該群組未有超出該特定數量的該等受監控系統也有異常行為,則產生一告警。
  2. 如請求項1所述之用於服務異常偵測告警的設備,其中該等單元用以基於一模型對該受監控系統的每一個該狀態參數進行分群,且該模型是根據該等受監控系統之每一者之對應的該狀態參數進行訓練而獲得。
  3. 如請求項1所述之用於服務異常偵測告警的設備,其中該等單元用以基於一模型根據該受監控系統的該等狀態參數的該等群集標籤對該受監控系統分群,且該模型是根據該等受監控系統的該等狀態參數的該等群集標籤進行訓練而獲得。
  4. 如請求項1所述之用於服務異常偵測告警的設備,其中該等單元用以基於至少一模型根據該受監控系統的至少一個該等狀態參數判斷該受監控系統是否有該異常行為,其中至少一該模型包括一風險預測模型。
  5. 如請求項4所述之用於服務異常偵測告警的設備,其中該等單元用以將該受監控系統過去發生異常時對應的該等狀態參數標註一風險值為1,以及將該受監控系統過去未發生異常時對應的該等狀態參數標註一風險值為0,依據該等風險值建立該風險預測模型。
  6. 如請求項5所述之用於服務異常偵測告警的設備,其中該等單元用以根據該受監控系統現在的該等狀態參數基於該風險預測模型計算一預測風險值是否超過一特定值,以偵測該受監控系統是否有該異常行為。
  7. 一種偵測異常並發出告警之設備,包括: 一資料前處理單元,接收對應一服務之一被監控設備的營運資料與系統資料,並對該被監控設備的營運資料與該系統資料進行資料前處理,以獲得該被監控設備的多個狀態參數; 一狀態參數分群單元,對該被監控設備的每一個該狀態參數進行分群,以獲得該被監控設備的每一個該狀態參數對應的一群集標籤; 一個體分群單元,根據該被監控設備的該等狀態參數的該等群集標籤對該被監控設備分群,以獲得該被監控設備對應的一群組號碼; 一偵測單元,根據該被監控設備的至少一個該等狀態參數偵測該被監控設備是否有一異常行為;以及 一同群比對單元,於偵測到該被監控設備有該異常行為時,判斷於該被監控設備的該群組號碼對應的一群組中是否有超出一特定數量的多個被監控設備也被偵測到有該異常行為,若該群組號碼對應的該群組未有超出該特定數量的該等被監控設備也有該異常行為,則判斷偵測到該被監控設備的該異常行為為一異常事件;以及 一告警單元,根據該異常事件產生一異常告警。
  8. 一種用於判定受監控系統發生異常事件並針對該異常事件產生異常告警之的設備,其包括多個電性連接的硬體電路,該等硬體電路組態成多個單元,且該等單元用於: 接收複數個第一監控資料集,該等第一監控資料集每一者包含複數個監控資料,該等監控資料包含第一監控參數及第二監控參數,該第一監控參數及該第二監控參數分別包含複數個監控資料點,該等資料點每一者包含一監控參數值,該等第一監控資料集係分別包含不同受監控系統之監控資料,該等第一監控資料集每一者之複數個監控資料包含營運資料及系統資料; 利用一第一分群模型對該等第一監控資料集之第一監控參數的監控參數值進行分群並產生複數個第一群集標籤,使該等第一監控資料集每一者對應該等第一群集標籤其中一者,且利用該第一分群模型對該等第一監控資料集之第二監控參數的監控參數值進行分群並產生複數個第二群集標籤,使該等第一監控資料集每一者對應該等第二群集標籤其中一者; 利用第二分群模型對該等第一監控資料集之第一群集標籤及第二群集標籤進行分群並產生複數個第三群集標籤,使該等第一監控資料集每一者對應該等第三群集標籤其中一者,該等第一監控資料集其中至少複數者係對應該等第三群集標籤中某一者而形成第一監控群組,該第一監控群組依其所對應的複數個第一監控資料集包含相對應的複數個受監控系統,該第一監控群組中的複數個受監控系統包含第一受監控系統; 自該第一監控群組接收複數個第二監控資料集,該等第二監控資料集係分別接收自該第一監控群組中的複數個受監控系統,該等第二監控資料集每一者包含該第一監控參數及該第二監控參數; 基於該等第二監控資料集,利用一時間序列演算法預測分別對應該第一監控群組之該第一監控參數及該第二監控參數的複數個第一監控參數預測值及複數個第二監控參數預測值,使該第一監控群組中的複數個受監控系統每一者對應其第一監控參數預測值及第二監控參數預測值; 自該第一監控群組中的複數個受監控系統接收針對該第一監控參數之複數個第一監控參數觀測值,該等第一監控參數觀測值係分別對應該等第一監控參數預測值; 對該第一監控群組中的複數個受監控系統每一者所對應的第一監控參數觀測值及第一監控參數預測值進行比對,判斷對應該第一受監控系統的第一監控參數觀測值不符合其對應的第一監控參數預測值,並判斷該第一監控群組中除了該第一受監控系統之外的其他受監控系統中所對應之第一監控參數觀測值不符合相對應第一監控參數預測值的受監控系統的數量低於一受監控系統數量閾值,藉此判斷該第一受監控系統發生一異常事件,其中該受監控系統數量閾值係小於該第一監控群組的受監控系統數量;以及 根據該異常事件之判斷產生一異常告警。
  9. 一種產生異常告警之設備,其包括多個電性連接的硬體電路,該等硬體電路組態成多個單元,且該等單元用於: 接收複數個受監控系統每一者的第一組監控資料,該等第一組監控資料每一者包含所對應之受監控系統受監控的營運資料及系統資料,該等營運資料及系統資料以複數個狀態參數分類; 利用該等第一組監控資料之狀態參數對該等受監控系統進行分群,以產生複數個狀態參數群集標籤,使該等受監控系統每一者對應該等狀態參數群集標籤其中一者; 利用該等狀態參數的該等狀態參數群集標籤對該等受監控系統進行分群,以產生複數個受監控系統群集標籤,使該等受監控系統每一者對應該等受監控系統群集標籤其中一者,該等受監控系統形成複數個受監控系統群集,該等受監控系統群集分別對應至該等受監控系統群集標籤,該等受監控系統群集包含第一受監控系統群集,該第一受監控系統群集包含對應至同一受監控系統群集標籤的複數個受監控系統; 針對該等狀態參數每一者,接收該第一受監控系統群集之複數個受監控系統每一者的一監控觀測值,且針對該第一受監控系統群集之複數個受監控系統每一者產生對應該等狀態參數每一者的一監控資料時間序列,並依據各監控資料時間序列產生一監控預測值,該監控預測值於一時間軸上係對應該監控觀測值; 判斷該第一受監控系統群集之複數個受監控系統每一者的監控觀測值是否符合其對應之監控預測值,若不符合則判斷為所對應之受監控系統發生一異常行為,並當該第一受監控系統群集內判斷為發生異常行為的受監控系統的數量大於一且小於或等於一異常閾值時,判斷該發生異常行為之至少一受監控系統發生一異常事件,該異常閾值係小於該第一受監控系統群集中全部受監控系統的數量;以及 根據該至少一異常事件,產生一異常告警,該異常告警係指示該發生異常事件之至少一受監控系統。
  10. 一種產生異常告警之設備,其包括多個電性連接的硬體電路,該等硬體電路組態成多個單元,且該等單元用於: 對複數個受監控系統的複數個狀態參數進行分群並產生每一者包含複數個第一群集標籤之複數個第一群集標籤集,使該等受監控系統每一者被指派該等第一群集標籤集每一者中的一個第一群集標籤,該等第一群集標籤集係分別對應該等狀態參數,該複數個狀態參數係包含該等受監控系統之營運資料及系統資料的狀態參數; 以該等第一群集標籤集的複數個第一群集標籤對該等受監控系統進行分群並產生包含複數個第二群集標籤之第二群集標籤集,使該等受監控系統每一者被指派該第二群集標籤集中的一個第二群集標籤,其中,該等受監控系統中有複數個受監控系統形成第一受監控系統群組,使該第一受監控系統群組之全部受監控系統係被指派同一個第二群集標籤,該第一受監控系統群組包含一目標受監控系統; 針對該第一受監控系統群組,形成該群組中各受監控系統之一訓練資料集,該等訓練資料集每一者包含該等狀態參數且更包含一異常值參數,該異常值參數係指示所對應之受監控系統的一異常狀態; 基於該等訓練資料集建立對應該第一受監控系統群組中各受監控系統的第一異常預測模型,該等第一異常預測模型每一者係用以預測所對應之受監控系統的第一異常值參數預測值; 自該等訓練資料集每一者中之異常值參數形成一異常值參數時間序列,基於該等異常值參數時間序列建立對應該第一受監控系統群組中各受監控系統的第二異常預測模型,該等第二異常預測模型每一者係用以預測所對應之受監控系統的第二異常值參數預測值; 針對該第一受監控系統群組中各受監控系統,利用該等第一異常預測模型中所對應者預測於一目標時間點之第一異常值參數預測值,利用該等第二異常預測模型中所對應者預測於該目標時間點之第二異常值參數預測值,於該第一異常值參數預測值不符合該第二異常值參數預測值時判斷所對應之受監控系統發生異常行為,依前述異常行為判斷方式判斷該目標受監控系統發生異常行為,並依前述異常行為判斷方式判斷該第一受監控系統群組中除了該目標受監控系統之外有低於一特定數量之其他受監控系統發生異常行為,該數量低於該第一受監控系統群組的受監控系統數量;以及 產生關聯於該目標受監控系統之一異常告警。
TW110210722U 2021-09-10 2021-09-10 用於服務異常偵測告警的設備 TWM622216U (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
TW110210722U TWM622216U (zh) 2021-09-10 2021-09-10 用於服務異常偵測告警的設備

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
TW110210722U TWM622216U (zh) 2021-09-10 2021-09-10 用於服務異常偵測告警的設備

Publications (1)

Publication Number Publication Date
TWM622216U true TWM622216U (zh) 2022-01-11

Family

ID=80785755

Family Applications (1)

Application Number Title Priority Date Filing Date
TW110210722U TWM622216U (zh) 2021-09-10 2021-09-10 用於服務異常偵測告警的設備

Country Status (1)

Country Link
TW (1) TWM622216U (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI789003B (zh) * 2021-09-10 2023-01-01 伊雲谷數位科技股份有限公司 服務異常偵測告警方法、使用此方法的設備、儲存此方法的儲存媒介及產生異常告警之電腦軟體程式
TWI814587B (zh) * 2022-09-22 2023-09-01 台灣大哥大股份有限公司 告警系統及其方法
US11775502B2 (en) * 2021-03-12 2023-10-03 Adobe Inc. Facilitating efficient and effective anomaly detection via minimal human interaction

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11775502B2 (en) * 2021-03-12 2023-10-03 Adobe Inc. Facilitating efficient and effective anomaly detection via minimal human interaction
TWI789003B (zh) * 2021-09-10 2023-01-01 伊雲谷數位科技股份有限公司 服務異常偵測告警方法、使用此方法的設備、儲存此方法的儲存媒介及產生異常告警之電腦軟體程式
TWI814587B (zh) * 2022-09-22 2023-09-01 台灣大哥大股份有限公司 告警系統及其方法

Similar Documents

Publication Publication Date Title
US10692032B2 (en) Pervasive, domain and situational-aware, adaptive, automated, and coordinated big data analysis, contextual learning and predictive control of business and operational risks and security
CN110351150B (zh) 故障根源确定方法及装置、电子设备和可读存储介质
EP2487860B1 (en) Method and system for improving security threats detection in communication networks
TWM622216U (zh) 用於服務異常偵測告警的設備
US20220263860A1 (en) Advanced cybersecurity threat hunting using behavioral and deep analytics
US20190089725A1 (en) Deep Architecture for Learning Threat Characterization
US11201865B2 (en) Change monitoring and detection for a cloud computing environment
EP3465515B1 (en) Classifying transactions at network accessible storage
US11886276B2 (en) Automatically correlating phenomena detected in machine generated data to a tracked information technology change
US11074652B2 (en) System and method for model-based prediction using a distributed computational graph workflow
US20210136120A1 (en) Universal computing asset registry
Lambert II Security analytics: Using deep learning to detect cyber attacks
CN115033450A (zh) 一种基于分布式的贝叶斯集群监控预警分析方法
US20220058745A1 (en) System and method for crowdsensing-based insurance premiums
Wang et al. Anomaly detection with a container-based stream processing framework for industrial internet of things
WO2021178649A1 (en) An algorithmic learning engine for dynamically generating predictive analytics from high volume, high velocity streaming data
TWI789003B (zh) 服務異常偵測告警方法、使用此方法的設備、儲存此方法的儲存媒介及產生異常告警之電腦軟體程式
US20210092159A1 (en) System for the prioritization and dynamic presentation of digital content
WO2021055964A1 (en) System and method for crowd-sourced refinement of natural phenomenon for risk management and contract validation
Anand et al. Anomaly Detection in Disaster Recovery: A Review, Current Trends and New Perspectives
Liu Data Quality and Data Preprocessing on an IoT-based Ecosystem for Smart Maintenance in the Manufacturing Industry
EP4149075B1 (en) Automatic suppression of non-actionable alarms with machine learning
US20240036963A1 (en) Multi-contextual anomaly detection
Kamel et al. Novel Data Mining Approach Predicting Alerts in The Telecom Industry
Pekarčík et al. Real-time processing of cybersecurity system data for attacker profiling