TW201933189A - 無須先備領域知識建立活動或行為模型及自動偵測目標系統異常活動或行為之偵測方法及系統 - Google Patents

無須先備領域知識建立活動或行為模型及自動偵測目標系統異常活動或行為之偵測方法及系統 Download PDF

Info

Publication number
TW201933189A
TW201933189A TW107145582A TW107145582A TW201933189A TW 201933189 A TW201933189 A TW 201933189A TW 107145582 A TW107145582 A TW 107145582A TW 107145582 A TW107145582 A TW 107145582A TW 201933189 A TW201933189 A TW 201933189A
Authority
TW
Taiwan
Prior art keywords
activity
behavior
detector
item
file
Prior art date
Application number
TW107145582A
Other languages
English (en)
Other versions
TWI746914B (zh
Inventor
林風
張濤
葉恩豪
林昕學
李家朋
張惜隆
Original Assignee
國立臺灣大學
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 國立臺灣大學 filed Critical 國立臺灣大學
Publication of TW201933189A publication Critical patent/TW201933189A/zh
Application granted granted Critical
Publication of TWI746914B publication Critical patent/TWI746914B/zh

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Testing And Monitoring For Control Systems (AREA)

Abstract

本發明揭露之偵測方法包括:使用非監督式機器學習演算法預處理及分析取自被監控之目標系統之原始偵測資料以產生後資料;以後資料為輸入,使用自然語言處理技術以發現目標系統執行的活動或行為;及以自然語言處理技術之輸出作為輸入,使用監督式機器學習演算法以建立活動或行為模型,用以預測目標系統的未來行為及自動偵測目標系統的異常活動或行為;其中,活動或行為模型可處理自多個偵測資料流輸入之多維度偵測資料及合併偵測資料值與選擇的時間資訊,其與偵測資料流及介於不同的偵測資料流相關。

Description

無須先備領域知識建立活動或行為模型及自動偵測目標系統異常活動或行為之偵測方法及系統
本發明有關於建立活動或行為模型及自動偵測目標系統異常活動或行為(abnormal activities or behaviors)之偵測方法及系統,尤其是與無須先備領域知識建立活動或行為模型及自動偵測目標系統異常活動或行為之偵測方法及系統相關。
請參圖3顯示之三類偵測方法所解決的問題領域。基於是否一解決方案可偵測資料反常(資料 反常)、異常活動或行為,是否一解決方案只能處理單一類型偵測器(sensors)或多種類型偵測器,及是否一解決方案需要領域知識(domain knowledge),這些偵測方法可被區分為下列三種類別:C1:可具備或未具備領域知識以多種偵測器偵測物聯網(IoT)系統反常資料之解決方案。舉例包括大部分的時間序列分析法(time series analysis methods);C2:具備領域知識以多種偵測器偵測物聯網系統反常活動之解決方案;C3:未具備領域知識以多種偵測器偵測物聯網系統反常活動之解決方案。
C1是最廣泛的類別,然而多數習知偵測方法聚焦在偵測接收自一目標系統(subject system)之感測資料的反常,而非目標系統的行為。在此,基於主要技術的不同將傳統偵測資料反常之偵測方法區分為三大類別:機率模型(statistical modeling)、非監督式學習(unsupervised machine learning)及監督式學習(supervised machine learning)。
機率模型,如時間序列分析法,可用來創造資料的機率模型,其可藉驗證反常未來資料樣本(abnormal future 資料 samples)是否符合模型而偵測以異常未來資料樣本表示之數據異常。這樣的技術常用來偵測如資料樣本離群值(資料 sample outliers)及資料樣本平均數顯著改變之統計偏差(statistical aberrations)。這些統計分析工具需要具備能判斷模型中怎樣的統計標準差(statistical deviations)代表著反常資料之領域知識。今日,機率模型通常可處理一維或小維度的資料。然而,物聯網系統通常以許多參數特徵化,此特質需要高維度分析(high-dimensional analysis),因此單獨分析各個參數通常無法適切地反映出一系統的行為。
非監督式學習可用來資料群集抽樣(cluster 資料 samples)。群集可藉驗證是否表示反常的未來資料樣本落在至少一群中來偵測其是否異常。這種非監督式學習技術不需具備領域知識並可處理多維資料,但是由於無法簡單考慮到資料樣本的時間關聯性或偵測每個資料樣本單獨看來都是正常時的資料樣本序列表示之一異常行為,因此限制了偵測功能。
監督式學習可用來建立反常偵測模型。然而傳統的監督式學習都需要具備領域知識來獲得指示是否每個輸入訓練資料樣本(input training 資料 sample)是正常或異常(與反常相關)所必需的輸入標籤值(input 標籤值s)。意謂著當應用來偵測異常活動時,需要人類專家辨識哪些訓練資料樣本表示一活動及那些活動是正常或異常。
近來,相對於只有來自目標系統的異常偵測資料,開始出現偵測物聯網系統反常活動的習知方法。這些習知方法都需要具備關於目標系統得領域知識,且通常依賴手動程序來定義或預定義系統執行的正常或異常活動或從訓練資料組中辨識此些活動,每個相關訓練資料樣本及其對應的正常或異常活動。
依賴先備(prior)領域知識之偵測方法只能施行在具有先備領域知識之系統或應用,因此限制其可用性。更新此些偵測模型也需要先備領域知識,因此困難度高且成本高。此外,當系統很大或複雜時,人類專家也很難從訓練資料中抽取(extract)活動。
本發明之一目的在於提供無須先備領域知識建立活動或行為模型及自動偵測目標系統異常活動或行為之偵測方法及系統。依據本發明之一實施例,偵測方法可應用於一偵測系統,其包括一活動或行為模型建構單元(用以建立活動或行為模型)及一偵測模組(用以偵測目標系統的異常活動或行為)。偵測方法包括下列步驟:使用非監督式機器學習演算法預處理及分析取自被監控之該目標系統之原始偵測資料以產生後資料(post 資料);以該後資料為輸入,使用一自然語言處理技術(Natural Language Processing technique,簡稱NLP)以發現該目標系統執行的活動或行為;及以該自然語言處理技術之輸出作為輸入,使用監督式機器學習演算法以建立一活動或行為模型,用以預測該目標系統的未來行為及自動偵測該目標系統的異常活動或行為。偵測模組可自動偵測目標系統的異常活動或行為,其中該活動或行為模型可處理自複數個偵測資料流輸入之多維度偵測資料及合併偵測資料值與一選擇的時間資訊,該選擇的時間資訊是關於至少一偵測資料流及介於不同的偵測資料流。
依據本發明之一面向,本發明之一實施例提供一種偵測系統,包括一活動或行為模型建構單元係被配置以執行前述方法之至少一步驟。
在此描述之偵測方法及偵測系統為嶄新的解決方案,其在多種類型感測器之環境中建立至少一活動或行為模型 及偵測目標系統的異常活動或行為,而無須有關裝置的先備領域知識。
為進一步說明各實施例及其優點,本發明乃配合圖式提供下列說明。此些圖式乃為本發明揭露內容之一部分,其主要係用以說明實施例,並可配合說明書之相關描述來解釋實施例的運作原理。配合參考這些內容,本領域具有通常知識者應能理解其他可能的實施方式以及本發明之優點。圖中的元件並未按比例繪製,而類似的元件符號通常用來表示類似的元件。如在此揭露,「實施例」、「示例」及「本實施例」並非專指單一實施例,而可及於依據本發明不同結合方式實施之例子,不悖于本發明之精神與範圍。此處使用之詞彙僅用以闡明本發明原則之具體實施例,應不拘限本發明。故而,如「之中」可包括「之內」及「之上」,「一」及「該」可包括單數或複數;「藉」可指「從」,「若」可指「當」或「一旦」,端示於前後文字內容。此外,「及/或」可包括有關元件的任何可能的組合。
本說明書揭露無須先備領域知識用以自動偵測一系統異常活動或行為之偵測方法 及系統之多個示例。請參考圖1及圖2,其中圖1顯示依據本發明之一示例應用如圖2顯示之方法之一偵測系統。偵測系統100包括一活動或行為模型建構單元101經由多個偵測資料流及一偵測模組102接收自用來監控目標系統200之多類型的偵測器301、302、303輸入之多維偵測器資料。目標系統200可為任意系統,如一車輛、製造設備、列車、網路、網路節點、智慧居家系統(smart home)、油氣管道系統及其他種類之系統。
在本實施例中,依據應用於偵測系統100以偵測目標系統200異常活動或行為之方法,偵測系統100首先預處理(preprocess)及分析來自目標系統200之原始偵測器資料以產生後資料(post 資料)。後資料示例但不限於標籤值、標籤報告之項目(entries)、標籤報告、狀態,後續會詳細說明。基於後資料,偵測系統100接著使用自然語言處理技術(Natural Language Processing technique,簡稱NLP)以發現目標系統200進行的異常活動或行為及可使用機器學習來建立至少一活動或行為模型,用以預測目標系統200之至少一未來活動及偵測目標系統200的至少一異常活動或行為。活動或行為模型可處理自多個偵測資料流輸入之多維偵測器資料及合併多維偵測器資料之偵測器資料值和一選擇的時間資訊,此選擇的時間資訊是關於至少一偵測資料流及介於不同的偵測資料流。選擇的時間資訊可示例但不限於狀態之屬性,後續會詳細說明。
在一實施例中,偵測方法可包括兩部分:其一是用以建立活動或行為模型及另一是用以偵測反常、異常活動或行為。建立活動或行為模型之部分之一示例流程包括三步驟。步驟1為使用一非監督式機器學習演算法欲處理及分析來自用以監控目標系統200之偵測器301-303之原始偵測器資料以產生後資料,如標籤報告、合併的標籤報告等。例如,在步驟1,原始偵測器資料被轉換為一系列的標籤值。尤其是,偵測系統100中的活動或行為模型建構單元101接收來自目標系統200中的偵測器301-303的一系列原始偵測器資料,其格式可舉例但不限於<偵測器資料值,時間段,日,偵測器ID>。活動或行為模型建構單元101可應用非監督式機器學習演算法,如:K-近鄰演算法(K-Nearest Neighbor algorithm)、K-平均演算法(K-mean algorithm)來分類來自每個偵測器之原始偵測器資料及轉換原始偵測器資料的時間序列(time series)為標籤值的時間序列,其格式舉例為<偵測器資料值的標籤值,時間段,日,偵測器ID>。例如,從所有開關氣壓偵測器(On-Off pressure sensor)之原始偵測器資料的時間序列為0.11,0.13,0.99,0.09,0.98,0.11,這些原始資料點可被轉換為標籤值Li1 ,Li1 ,Li2 ,Li1 ,Li2 ,Li1
接著,活動或行為模型建構單元101可產生多個標籤報告,指示每個偵測器301-303在每個時間段的標籤值。活動或行為模型建構單元101可合併來自所有偵測器301-303的標籤報告為單一檔案,稱為合併的標籤報告,及依據時間排序合併的標籤報告的項目(entries)。合併的標籤報告可包括一多維時間序列(multidimensional time series),其作為包括步驟2A及步驟2B之步驟2的輸入,以後資料作為輸入使用NLP來發現目標系統200進行的活動與行為。
在後續步驟中,偵測方法及系統可處理合併的標籤報告之內容,作為自然語言的本文。本文中的獨特項目與其屬性被當作自然語言的字母(letters)。在其他實施例,被選擇的一群項目及其屬性可被用作自然語言的字母。這些字母可接著映入(map into)目標系統200的活動或行為模型的多個狀態。接著,可以活動或行為模型中的一狀態序列或一包括自然語言中某些字母組成的一序列之字(word)建立目標系統200的活動或行為的模型。
在步驟2A中,合併的標籤報告可被轉換為一D檔案,為了活動或行為模型,用來識別的狀態,接著D檔案中的每個項目係被掃描及以其對應狀態標示以產生一D+檔案。首先,狀態,即字母,為了活動或行為模型,可從合併的標籤報告中抽取出來,且可藉NLP產生一狀態轉換圖(status transition graph),來識別狀態之間的關係。例如,對合併的標籤報告中的每個項目偵測器標籤值及選擇的屬性(如,時間資訊)可形成活動或行為模型中的一狀態,其格式可為<標籤值 偵測器值 301,標籤值 偵測器值 302,...,標籤值 偵測器值 i,...>。活動或行為模型建構單元101可加入選擇的時間屬性至合併的標籤報告中的每一項目以產生一D檔案,為了活動或行為模型,其可用來識別狀態。
活動或行為模型建構單元101接著可掃描D檔案的每個項目,以對應狀態標示D檔案的每個項目而產生一D+檔案。活動或行為模型建構單元101更可以D+檔案識別狀態之間的關係(例,狀態轉換圖)。
D檔案及D+檔案之示例可為後續方案1、2、3、4及5所述之樣本資料再處理程序。
對於不同類型的目標系統,偵測方法及系統可應用不同的資料預處理方案來 增加、移除或改變用來建立活動或行為模型的狀態的屬性,以調整偵測效能。後續說明五種不同的樣本資料預處理方案。可施用方案1、2及3於智慧居家應用[如,資料組A1、A2、A3、A4],可施用方案4於聯網自動駕駛者(connected and autonomous vehicles) [如,資料組A5],及可施用方案5於具有數據採及監控系統(SCADA scaning systems)之油氣管道[如,資料sets A6]。
方案1:在此方案,在相同時間段所有偵測器301-302的標籤值可形成目標IoT系統之活動或行為模型中的一狀態。此即,對於時間段I,狀態ci之格式可為<標籤值 偵測器值301,標籤值 偵測器302,….,標籤值 偵測器值 i,….>。不同時間段可為相同狀態。活動或行為模型建構單元101轉換合併的標籤報告為D檔案,其每個項目的格式為<時間段,日,偵測器301的標籤值,偵測器302的標籤值,….,偵測器i的標籤值,….>。活動或行為模型建構單元101可以對應狀態標示D檔案的每一項目而產生D+檔案,其格式為<時間段,日,狀態>。
在本實施例中,活動或行為模型建構單元101可在自然語言處理中應用 n元模型(n-Gram Model),如二元模型(2-Gram Model)掃描D+檔案,以發現目標系統具有的所有活動或行為,及以<活動或行為起始時間段,日,活動或行為>的格式產生D*檔案。
活動或行為模型建構單元101可以用監督式機器學習演算法建立活動或行為模型,其中D*檔案中的一項目的時間屬性<時間段,日>作為屬性輸入至監督式機器學習演算法,其中「日」指的是一周的哪一天,及項目的對應<活動或行為>是標示輸入至監督式機器學習演算法。
將<時間段,日>作為屬性輸入至活動或行為模型,然後可應用實施例之反常偵測部分來決定是否正常或異常。
方案2:考量到開關偵測器,合併的標籤報告中的每個項目,活動或行為模型建構單元101可對偵測器301-303計算留在高標籤值的持續時間,即<toff ->on ,ton->off -toff ->on ,日,偵測器ID>,排序合併的標籤報告的此些項目,及獲得D檔案。
在此方案中,可定義狀態ci為<被標籤的持續時間,偵測器ID>。對於D檔案中屬於相同偵測器301-303的每個項目,活動或行為模型建構單元101可使用非監督式機器學習演算法來群集(cluster)及標籤(label)持續時間及標示D檔案中每個項目的對應狀態,及以<toff ->on ,偵測器被標籤的持續時間,日,偵測器ID,狀態>的格式產生D+檔案。
與實施例1類似地,活動或行為模型建構單元101可使用二元模型掃描D+檔案已發現目標系統具有的所有活動與行為,及以<活動或行為起始時間段,該活動或行為標籤值之持續時間,日,活動或行為>的格式產生D*檔案。
活動或行為模型建構單元101可使用監督式機器學習演算法建立活動或行為模型,其中D*檔案中的一項目之<活動起始時間段,該活動或行為被標籤的持續時間,日>作為屬性輸入至監督式機器學習演算法,及項目的對應<活動或行為>是標籤輸入至監督式機器學習演算法。
將<活動或行為起始時間段,被標籤的持續時間,日>作為活動或行為模型的屬性,活動或行為模型建構單元101可藉施用主要方案裡的反常偵測部份決定目標系統是正常或異常。
方案3:與方案2相同,活動或行為模型建構單元101可產生D檔案,及接著產生D+檔案,其中D檔案及D+檔案的格式與方案2揭露的相同。本方案的狀態ci可與實施例2揭露的相同,且ci 可為<偵測器被標籤的持續時間,偵測器ID>。
與方案1類似,活動或行為模型建構單元101可使用二元模型掃描D+檔案來發現目標系統具有的所有活動或行為,及以<活動或行為起始時間段,日,活動或行為被標籤的持續時間,感測器的持續時間比,活動或行為>的格式產生D*檔案。偵測器301-303的持續時間比可由被標籤的持續時間(當偵測器301-303在活動或行為時停留在高標籤值的時間)除以活動的持續時間而獲得。
活動或行為模型建構單元101可使用監督式機器學習演算法建立活動或行為模型,其中D*檔案中的一項目的<活動或行為起始時間段,日,活動或行為標籤值的持續時間,偵測器的持續時間比>可為屬性輸入至監督式機器學習演算法,及項目的對應<活動或行為>可為標籤輸入至監督式機器學習演算法。
將<活動或行為起始時間段,日,活動或行為標籤值的持續時間,偵測器的持續時間比>輸入至活動或行為模型作為屬性,活動或行為模型建構單元101可藉施用主要方案的反常偵測部份決定目標系統是正常或異常。
方案4:與方案1相同,活動或行為模型建構單元101可合併標籤報告為一合併的標籤報告,產生D檔案,及接著產生與方案1相同格式的D+檔案。
與方案1類似,活動或行為模型建構單元101可使用二元模型掃描D+檔案以發現目標系統可進行的所有活動或行為,及產生格式為<活動或行為起始時間段,日,偵測器在活動或行為發生時間每個偵測器的偵測器期望值,活動或行為>的D*檔案。
活動或行為模型建構單元101可使用監督式機器學習演算法建立活動或行為模型,其中在D*檔案中的所有項目的<活動或行為起始時間段,日,偵測器在活動或行為發生時間每個偵測器的偵測器期望值>作為屬性輸入至監督式機器學習演算法,及項目的對應<活動或行為 >可作為標籤輸入至監督式機器學習演算法。
方案5:從偵測器301-303取得的偵測器資料可以是不完整的。例如,在資料組[A6],可遺失每個偵測器301-303在大量時間段的偵測器值。方案5可處理此種問題。在方案5,合併的標籤報告中遺失的偵測器值可以藉後述方法填滿。
假設偵測器i在時間段j的偵測器值(以vi,j 表示)是遺失的,可藉由下列遞迴函數設定vi,j 的值(即,vi,j =f (i,j)): Functionf (i,j) if j = 0:return null; else if vi,j -1 is missed:returnf (i,j-1); else:return vi,j -1
藉此,在時間段j遺失的偵測器值與在時間段j-1的偵測器值相同,即,偵測器值並未變化。
實施前述遞迴函數後,若vi,j 為空(null),則刪除合併的標籤報告中vi,j 之項目。
活動或行為模型建構單元101可以方案4相同方法產生D檔案、D+檔案及D*檔案。
活動或行為模型建構單元101可使用監督式機器學習演算法建立活動或行為模型,其中D*檔案中的一項目的<活動或行為起始時間段,日,偵測器在活動或行為發生時間每個偵測器的偵測器期望值>可作為屬性輸入至監督式機器學習演算法,及項目對應的<活動或行為>可作為標籤輸入至監督式機器學習演算法。
接著,在步驟2B,可使用NLP技術辨識及/或發現活動或行為,即「字」。藉掃描D+檔案,活動或行為模型建構單元101可使用NLP之一分詞技術(word-segmentation technique)辨識及/或發現目標系統200的至少一活動或行為。分詞技術示例但不限於n元模型(n-Gram Model)、隱藏式馬可夫模型(Hidden Markov Model)等。辨識活動之後,活動或行為模型建構單元101可以對應活動或行為標示D+檔案中的項目以將D+檔案轉換為一D*檔案,其中每個項目皆被標示相關的活動或行為模型、狀態的屬性及/或狀態相關的活動與行為。
例如,在此以二元模型為例,顯示如何使用NLP的分詞技術於步驟2B,而從偵測器資料輸入中發現目標系統200進行的活動與行為。二元模型可為:對每一對的狀態ci 及cj ,活動或行為模型建構單元101可計算狀態從ci 改變至cj 的機率(probability)P(cj |ci )。掃描D+檔案,可將P(cj |ci )計算為狀態從ci 改變至cj 的次數除以狀態ci出現(occurrence)的次數。接著,活動或行為模型建構單元101可使用P(cj |ci )在狀態組中建立一馬可夫程序,其可為狀態轉換圖。藉由此馬可夫程序,活動或行為模型建構單元101可使用二元模型來計算發生任何活動或行為的機率。考量到一狀態序列c1 ,c2 ,c3 ,…,cr ,cr+1 ,一活動或行為Wi="c1 c2 c3 …cr "以下列一選項的方式發生。
選項1:假使P(c2 |c1 )P(c3 |c2 )….P(cr |cr-1 )³θa 及P(c2 |c1 )P(c3 |c2 )….P(cr |cr-1 )P(cr+1 |cr )<θa ,其中預定臨界值θa 是用來切字(cut a word),及0<θa £1。
選項2:假使P(c1 )P(c2 |c1 )P(c3 |c2 )….P(cr |cr-1 )³θa 及P(c1 )P(c2 |c1 )P(c3 |c2 )….P(cr |cr-1 )P(cr+1 |cr )<θa ,其中預定臨界值θa 是用來切字,及0<θa £1。
選項1考量一字母序列的出現機率。選項2也考量一字母序列的第一字母c1 (即i.e.,P(c1 ))的出現機率。換句話說,假使P(c1 )太小,可能無法考量活動或行為Wi
假使將θa 值調整為大於1,選項1或選項2的條件將不可能為真,因此所有活動或行為可能包括單一狀態。如此設定θa 時,偵測方法可涵蓋偵測出僅有數據異常之情形。
接著,在步驟3,以NLP技術輸出資料作為輸入,使用監督式機器學習演算法以建立一活動或行為模型用以預測目標系統的至少一未來行為及自動偵測目標系統的至少一異常活動或行為。可建立活動或行為模型。以D*檔案作為輸入,活動或行為模型建構單元101可使用監督式機器學習演算法對目標系統200建立活動或行為模型。監督式機器學習演算法示例但不限於隨機森林、支持向量機等。活動或行為模型中,一活動或行為的狀態的屬性(如,偵測器標籤值及/或其時間屬性)可作為屬性輸入至監督式機器學習演算法及其相關的活動或型為可作為標籤輸入至監督式機器學習演算法。
在此詳細說明偵測部份。使用活動或行為模型,將一活動或行為的狀態的屬性(如,時間屬性及被標籤的偵測器值)作為屬性輸入至監督式機器學習演算法,偵測模組102可使用監督式機器學習演算法及輸出一組預期的活動或行為,以A表示,(即,監督式機器學習演算法的輸出標籤)。例如,A={a1 ,a2 ,….,an }。對A中的每個活動或行為ai ,監督式機器學習演算法也可輸出一對應的出現機率p(a1 )。當滿足下列至少一條件時,偵測系統100可決定目標系統200是異常的:(1)實際的活動或行為a* 並未落在A中,及(2)實際的活動或行為a* 落在A中及p(a* )<Δ,其中0<Δ<1是一預定臨界值。適當調整Δ可改善IoT偵測效能。
此處說明的偵測方法及系統為無須關於裝置的先備領域知識在包括多種類型偵測器的環境中偵測一系統或一裝置的異常活動或行為的嶄新技術。此偵測方法及系統創新地結合機器學習技術及自然語言處理技術,藉辨識狀態及建立狀態轉換圖來轉換偵測器資料序列及其相關的時間資訊為目標系統200的活動或行為模型。偵測方法及系統更嶄新地使用活動或行為模型來辨識目標系統200的活動與行為,及預測是否一新活動或行為為異常。偵測方法及系統可處理來自相同或不同類型偵測器的多資料流。
偵測方法及系統可無須關於目標系統200的先備領域知識偵測目標系統200的異常活動或行為。不須了解目標系統200進行的活動或行為之先備領域知識,偵測方法及系統可藉助嶄新地應用自然語言處理技術,從來自目標系統200的偵測器資料自動發現目標系統200進行的活動或行為偵測器資料。一但發現活動或行為,偵測方法及系統可使用機器學習來建立可用來偵測未來異常活動或行為的一活動或行為模型。
偵測方法及系統可將目標系統當作一黑箱並偵測任何類型的目標系統200的異常活動或行為。可實施及操作偵測方法及系統而無須改變目標系統,因此可應用偵測方法及系統於新的或舊的系統中。傳統技術通常無法處理高維度偵測器輸入資料及同時處理資料樣本之間的時間關係。在此揭露的偵測方法及系統可處理來自不同類型的任何偵測器的輸入並考量到時間資訊及因此得以偵測傳統技術無法偵測的基於時間的反常。
在此揭露的偵測方法及系統可補足物聯網安全的技術落差,即為無須關於系統的先備領域知識偵測系統的異常活動或行為。多數傳統技術仍依賴關於目標系統的先備領域知識來定義系統進行的活動與行為,在使用機器學習建立偵測模型時從訓練資料辨識此些活動與行為,因此難以應用在不同類型的裝置、系統或不同的產業中。在此揭露的偵測方法及系統毋需依賴先備領域知識而因此可使用在不同的產業及應用領域。偵測方法及系統還克服了現存試圖在無須先備領域知識的條件下進行反常偵測的反常偵測方法的重要限制,例如,與現存技術只能處理單一類型偵測器不同地,偵測方法及系統可整合相同或不同類型的多偵測器輸入。現存技術只能考量偵測器資料值,偵測方法及系統可考量與每個偵測器資料流相關的及介於不同選擇偵測資料流相關的的時間資訊。
以上敍述依據本發明多個不同實施例,其中各項特徵可以單一或不同結合方式實施。因此,本發明實施方式之揭露為闡明本發明原則之具體實施例,應不拘限本發明於所揭示的實施例。進一步言之,先前敍述及其附圖僅為本發明示範之用,並不受其限囿。其他元件之變化或組合皆可能,且不悖于本發明之精神與範圍。
1、2A、2B、3‧‧‧步驟
100‧‧‧偵測系統
101‧‧‧活動或行為模型建構單元
102‧‧‧偵測模組
200‧‧‧目標系統
301、302、303‧‧‧偵測器
C1、C2、C3‧‧‧類別
在此圖式可用以更為理解本發明之目的與優點,其中: 圖1顯示依據本發明之一例示偵測系統; 圖2繪示依據本發明之一例示偵測方法之流程圖;及 圖3顯示三類偵測方法所解決的問題領域。

Claims (20)

  1. 一種偵測方法,應用於包括一活動或行為模型建構單元之一偵測系統,用以建立活動或行為模型及自動偵測一目標系統之異常活動或行為,包括下列步驟: 使用非監督式機器學習演算法預處理及分析取自被監控之該目標系統之原始偵測資料以產生後資料; 以該後資料為輸入,使用一自然語言處理技術以發現該目標系統執行的活動或行為;及 以該自然語言處理技術之輸出作為輸入,使用監督式機器學習演算法以建立一活動或行為模型,用以預測該目標系統的未來行為及自動偵測該目標系統的異常活動或行為; 其中,該活動或行為模型可處理自複數個偵測資料流輸入之多維度偵測資料及合併偵測資料值與一選擇的時間資訊,該選擇的時間資訊是關於至少一偵測資料流及介於不同的偵測資料流。
  2. 如申請專利範圍第1項所述的偵測方法,其中該非監督式機器學習演算法包括K-近鄰演算法、K-平均演算法及高斯混合模型演算法(Gaussian Mixture Model algorithm,GMM algorithm)之一者。
  3. 如申請專利範圍第1項所述的偵測方法,其中使用非監督式機器學習演算法預處理及分析取自被監控之該目標系統之原始偵測資料以產生後資料之該步驟包括: 轉換該原始偵測資料為一系列標籤值; 產生指出該些標籤值的每個偵測器在每個時間段之標籤值報告; 合併標籤值報告為一合併的標籤值報告;及 依據時間排序該合併的標籤值報告的項目。
  4. 如申請專利範圍第1項所述的偵測方法,其中該自然語言處理技術包括一分詞技術,其包括隱藏式馬可夫模型、n元模型及二元模型之一者。
  5. 如申請專利範圍第3項所述的偵測方法,其中以該後資料為輸入,使用一自然語言處理技術以發現該目標系統執行的活動或行為之步驟包括: 對該合併的標籤值報告之每個項目以標籤值及選擇的屬性抽取該活動或行為模型之狀態; 增加該些選擇的屬性至該合併的標籤值報告的每個項目以產生一D檔案識別活動模型之狀態;及 以對應狀態標示D檔案中的每個項目以產生一D+檔案。
  6. 如申請專利範圍第5項所述的偵測方法,其中以該後資料為輸入,使用一自然語言處理技術以發現該目標系統執行的活動或行為之步驟包括: 藉掃描該D+檔案辨識及/或發現該目標系統的至少一活動或行為;及 以對應活動或行為標示該D+檔案中的項目以轉換該D+檔案至一D*檔案,其每一項目以其關聯之狀態、狀態之屬性及/或狀態關聯之活動或行為標示。
  7. 如申請專利範圍第1項所述的偵測方法,其中該監督式機器學習演算法包括隨機森林及支持向量機之一者。
  8. 如申請專利範圍第6項所述的偵測方法,更包括下列步驟: 掃描該D+檔案以發現該目標系統可具有之所有活動或行為並以<活動或行為起始時間段,日,活動或行為>之格式產生該D*檔案; 其中,時間段I的狀態的格式是<標籤值 偵測器值,標籤值 偵測器值,….,標籤值 偵測器值 i,….>, 該D檔案的每個項目的格式是<時間段,日,標籤值 偵測器值,標籤值 偵測器值,….,標籤值 偵測器值 i,….>, 該D+檔案的格式是<時間段,日,狀態>,及 該屬性輸入檔案的格式是<時間段,日>。
  9. 如申請專利範圍第6項所述的偵測方法,更包括下列步驟: 以<toff ->on ,ton->off -toff ->on ,日,偵測器ID>的格式對一偵測器計算留在高標籤值中的持續時間; 排序該合併的標籤值報告的項目以獲得該D檔案;及 掃描該D+檔案以找到該目標系統具有的所有活動或行為及以<活動或行為起始時間段,該活動或行為標籤值的持續時間,日,活動或行為>的格式產生該D*檔案; 其中,該狀態的格式是<標籤值的持續時間,偵測器ID>, 該D+檔案的格式是< toff ->on ,該偵測器標籤值的持續時間,日,偵測器ID,狀態>, 該屬性輸入檔案的格式是<活動起始時間段,活動或行為標籤值的持續時間,日>,及 項目的<活動或行為>是標籤值輸入至該監督式機器學習演算法。
  10. 如申請專利範圍第6項所述的偵測方法,更包括下列步驟: 掃描該D+檔案以找到該目標系統具有的所有活動或行為及以<活動或行為起始時間段,日,活動或行為標籤值的持續時間,偵測器的持續時間比,活動或行為>的格式產生該D*檔案; 其中,該狀態的格式是<標籤值的持續時間,偵測器ID>, 該D+檔案的格式是< toff ->on ,偵測器標籤值的持續時間,日,偵測器ID,狀態>, 在該D*檔案的一項目,該屬性輸入至該監督式機器學習演算法的格式是<活動或行為起始時間段,日,活動或行為標籤值的持續時間,偵測器的持續時間比>, 該項目的對應<活動或行為 >可為該標籤值輸入至該監督式機器學習演算法。
  11. 如申請專利範圍第6項所述的偵測方法,更包括下列步驟: 產生該D*檔案,其格式為<活動或行為起始時間段,日,在活動或行為發生時間每個偵測器的偵測器期望值,活動或行為>; 其中,該D檔案的每個項目的格式是<時間段,日,標籤值 偵測器值,標籤值 偵測器值,….,標籤值 偵測器值 i,….>, 該D+檔案的格式是<時間段,日,狀態>,及 在該D*檔案的一項目,該屬性輸入至該監督式機器學習演算法的格式是<活動或行為起始時間段,日,偵測器在活動或行為發生時間每個偵測器的偵測器期望值>, 該項目對應的<活動或行為 >可為該標籤值輸入至該監督式機器學習演算法。
  12. 如申請專利範圍第6項所述的偵測方法,更包括下列步驟: 藉由下列遞迴函數設定一偵測器i在時間段j的偵測器值vi,jf (i,j)): Functionf (i,j) if j = 0:return null; else if vi,j -1 is missed:returnf (i,j-1); else:return vi,j -1
  13. 如申請專利範圍第1項所述的偵測方法,更包括下列步驟: 以該活動或行為模型,藉該偵測系統之一偵測模型預測該目標系統之至少一未來活動及預測該目標系統之至少一異常活動或行為。
  14. 如申請專利範圍第6項所述的偵測方法,更包括下列步驟: 藉該監督式機器學習演算法,提供一活動或行為該狀態的該屬性作為該屬性輸入至一組預期活動或行為A; 其中,A={a1 ,a2 ,….,an },及對A中各個活動或行為ai ,該監督式機器學習演算法輸出一對應出現機率p(a1 )。
  15. 如申請專利範圍第14項所述的偵測方法,更包括下列步驟: 當下列至少一條件滿足時決定該目標系統異常:(1)實際活動或行為a* 不在A中,及(2)實際活動或行為a* 在A中,且p(a* )<Δ,其中0<Δ<1是一預定臨界值。
  16. 一種偵測系統,用以建立活動或行為模型及自動偵測一目標系統之異常活動或行為,包括一活動或行為模型建構單元,係被裝配以: 使用非監督式機器學習演算法預處理及分析取自被監控之該目標系統之原始偵測資料以產生後資料; 以該後資料為輸入,使用一自然語言處理技術以發現該目標系統執行的活動或行為;及 以該自然語言處理技術之輸出作為輸入,使用監督式機器學習演算法以建立一活動或行為模型,用以預測該目標系統的未來行為及自動偵測該目標系統的異常活動或行為; 其中,該活動或行為模型可處理自複數個偵測資料流輸入之多維度偵測資料及合併偵測資料值與一選擇的時間資訊,該選擇的時間資訊是關於至少一偵測資料流及介於不同的偵測資料流。
  17. 如申請專利範圍第16項所述的偵測系統,其中該非監督式機器學習演算法包括K-近鄰演算法及K-平均演算法之一者。
  18. 如申請專利範圍第16項所述的偵測系統,其中該自然語言處理技術包括一分詞技術,其包括隱藏式馬可夫模型、n元模型及二元模型之一者。
  19. 如申請專利範圍第16項所述的偵測系統,其中該監督式機器學習演算法包括隨機森林及支持向量機之一者。
  20. 如申請專利範圍第16項所述的偵測系統,更包括一偵測模組係被配置以: 以該活動或行為模型,預測該目標系統的至少一未來活動及偵測該目標系統的至少一異常活動或行為。
TW107145582A 2017-12-28 2018-12-18 無須先備領域知識建立活動或行為模型及自動偵測目標系統異常活動或行為之偵測方法及系統 TWI746914B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US15/857,247 2017-12-28
US15/857,247 US11301759B2 (en) 2017-12-28 2017-12-28 Detective method and system for activity-or-behavior model construction and automatic detection of the abnormal activities or behaviors of a subject system without requiring prior domain knowledge

Publications (2)

Publication Number Publication Date
TW201933189A true TW201933189A (zh) 2019-08-16
TWI746914B TWI746914B (zh) 2021-11-21

Family

ID=67058282

Family Applications (1)

Application Number Title Priority Date Filing Date
TW107145582A TWI746914B (zh) 2017-12-28 2018-12-18 無須先備領域知識建立活動或行為模型及自動偵測目標系統異常活動或行為之偵測方法及系統

Country Status (2)

Country Link
US (1) US11301759B2 (zh)
TW (1) TWI746914B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI725543B (zh) * 2019-09-11 2021-04-21 中華電信股份有限公司 預測造成系統異常之稀有事件的方法

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11544374B2 (en) * 2018-05-07 2023-01-03 Micro Focus Llc Machine learning-based security threat investigation guidance
US11366680B2 (en) * 2018-07-19 2022-06-21 Twistlock, Ltd. Cloud native virtual machine runtime protection
US11567914B2 (en) 2018-09-14 2023-01-31 Verint Americas Inc. Framework and method for the automated determination of classes and anomaly detection methods for time series
US20200097852A1 (en) * 2018-09-20 2020-03-26 Cable Television Laboratories, Inc. Systems and methods for detecting and grouping anomalies in data
US11334832B2 (en) 2018-10-03 2022-05-17 Verint Americas Inc. Risk assessment using Poisson Shelves
US11610580B2 (en) * 2019-03-07 2023-03-21 Verint Americas Inc. System and method for determining reasons for anomalies using cross entropy ranking of textual items
US11984199B2 (en) * 2019-08-02 2024-05-14 Kpn Innovations, Llc Methods and systems for generating compatible substance instruction sets using artificial intelligence
JP2022545969A (ja) * 2019-09-02 2022-11-01 アイキュー、ワークス、リミテッド イベント認識のためのシステム及び方法
US11224359B2 (en) * 2019-12-17 2022-01-18 Robert Bosch Gmbh Repetitive human activities abnormal motion detection
CA3163408A1 (en) * 2019-12-30 2021-07-08 Howard Hugh HAMILTON Creating predictor variables for prediction models from unstructured data using natural language processing
CN111417021B (zh) * 2020-03-16 2022-07-08 广州虎牙科技有限公司 外挂识别方法、装置、计算机设备和可读存储介质
US11805140B2 (en) * 2021-03-22 2023-10-31 Verizon Patent And Licensing Inc. Systems and methods for utilizing a machine learning model to detect anomalies and security attacks in software-defined networking
US20230063489A1 (en) * 2021-08-25 2023-03-02 Bank Of America Corporation Malware Detection with Multi-Level, Ensemble Artificial Intelligence Using Bidirectional Long Short-Term Memory Recurrent Neural Networks and Natural Language Processing
US12021895B2 (en) 2021-08-25 2024-06-25 Bank Of America Corporation Malware detection with multi-level, ensemble artificial intelligence using bidirectional long short-term memory recurrent neural networks and natural language processing
US20230186121A1 (en) * 2021-12-10 2023-06-15 International Business Machines Corporation Computer optimization of task performance through dynamic sensing
CN114697081B (zh) * 2022-02-28 2024-05-07 国网江苏省电力有限公司淮安供电分公司 基于iec61850 sv报文运行态势模型的入侵检测方法和***

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7383238B1 (en) * 2004-02-24 2008-06-03 The United States Of America As Represented By The Administrator Of The National Aeronautics And Space Administration Inductive monitoring system constructed from nominal system data and its use in real-time system monitoring
US20120137367A1 (en) * 2009-11-06 2012-05-31 Cataphora, Inc. Continuous anomaly detection based on behavior modeling and heterogeneous information analysis
US8972815B1 (en) * 2012-03-20 2015-03-03 Xilinx, Inc. Recovery of media datagrams
US11321784B2 (en) * 2013-03-06 2022-05-03 AppZen, Inc. Methods and systems for automatically detecting fraud and compliance issues in expense reports and invoices
US9319421B2 (en) * 2013-10-14 2016-04-19 Ut-Battelle, Llc Real-time detection and classification of anomalous events in streaming data
US20160012544A1 (en) * 2014-05-28 2016-01-14 Sridevi Ramaswamy Insurance claim validation and anomaly detection based on modus operandi analysis
WO2017019860A1 (en) * 2015-07-29 2017-02-02 Illinois Tool Works Inc. System and method to facilitate welding software as a service
US11367149B2 (en) * 2016-01-15 2022-06-21 Carnegie Mellon University Pattern identification in time-series social media data, and output-dynamics engineering for a dynamic system having one or more multi-scale time-series data sets
CN106294324B (zh) * 2016-08-11 2019-04-05 上海交通大学 一种基于自然语言句法分析树的机器学习情感分析器
CN107392015B (zh) * 2017-07-06 2019-09-17 长沙学院 一种基于半监督学习的入侵检测方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI725543B (zh) * 2019-09-11 2021-04-21 中華電信股份有限公司 預測造成系統異常之稀有事件的方法

Also Published As

Publication number Publication date
US20190205771A1 (en) 2019-07-04
TWI746914B (zh) 2021-11-21
US11301759B2 (en) 2022-04-12

Similar Documents

Publication Publication Date Title
TWI746914B (zh) 無須先備領域知識建立活動或行為模型及自動偵測目標系統異常活動或行為之偵測方法及系統
Khan et al. HML-IDS: A hybrid-multilevel anomaly prediction approach for intrusion detection in SCADA systems
Hayes et al. Contextual anomaly detection in big sensor data
US10140576B2 (en) Computer-implemented system and method for detecting anomalies using sample-based rule identification
Vodenčarević et al. Identifying behavior models for process plants
US20140046878A1 (en) Method and system for detecting sound events in a given environment
CN107003992B (zh) 用于神经语言行为识别***的感知联想记忆
Pavlovski et al. Hierarchical convolutional neural networks for event classification on PMU measurements
CN107111610B (zh) 用于神经语言行为识别***的映射器组件
Schwalbe et al. Structuring the safety argumentation for deep neural network based perception in automotive applications
CN114116397A (zh) 一种监控指标的预警归因方法、装置、设备及存储介质
US20240070388A1 (en) Lexical analyzer for a neuro-linguistic behavior recognition system
KR20170035892A (ko) 온라인 서비스의 거동 변화의 인식 기법
US20230221684A1 (en) Explaining Machine Learning Output in Industrial Applications
Yassin et al. Signature-Based Anomaly intrusion detection using Integrated data mining classifiers
CN116451139B (zh) 一种基于人工智能的直播数据快速分析方法
Pal et al. DLME: distributed log mining using ensemble learning for fault prediction
CN114079579A (zh) 一种恶意加密流量检测方法及装置
Wu et al. Testing Artificial Intelligence System Towards Safety and Robustness: State of the Art.
KR20210011822A (ko) 인공 지능 기반 비정상 로그를 탐지하는 방법 및 이를 구현하는 시스템
US11334581B2 (en) System and method for providing an enriched sensory response to analytics queries
Gaykar et al. A Hybrid Supervised Learning Approach for Detection and Mitigation of Job Failure with Virtual Machines in Distributed Environments.
KR101904643B1 (ko) 의사결정트리를 이용한 기사 생성 방법
CN113326412B (zh) 汽车主机厂网络数据的识别方法及装置
Noor et al. Generative Adversarial Networks for Anomaly Detection: A Systematic Literature Review