TW201939932A - Url異常定位方法、裝置、伺服器及儲存媒體 - Google Patents

Url異常定位方法、裝置、伺服器及儲存媒體 Download PDF

Info

Publication number
TW201939932A
TW201939932A TW107147125A TW107147125A TW201939932A TW 201939932 A TW201939932 A TW 201939932A TW 107147125 A TW107147125 A TW 107147125A TW 107147125 A TW107147125 A TW 107147125A TW 201939932 A TW201939932 A TW 201939932A
Authority
TW
Taiwan
Prior art keywords
url
sample
abnormal
package
exception
Prior art date
Application number
TW107147125A
Other languages
English (en)
Other versions
TWI703846B (zh
Inventor
張雅淋
李龍飛
Original Assignee
香港商阿里巴巴集團服務有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 香港商阿里巴巴集團服務有限公司 filed Critical 香港商阿里巴巴集團服務有限公司
Publication of TW201939932A publication Critical patent/TW201939932A/zh
Application granted granted Critical
Publication of TWI703846B publication Critical patent/TWI703846B/zh

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • H04L63/1416Event detection, e.g. attack signature detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • G06F16/9566URL specific, e.g. using aliases, detecting broken or misspelled links
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • H04L63/1425Traffic logging, e.g. anomaly detection
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1441Countermeasures against malicious traffic
    • H04L63/1483Countermeasures against malicious traffic service impersonation, e.g. phishing, pharming or web spoofing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Computer Hardware Design (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Medical Informatics (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本說明書實施例提供了一種URL異常定位方法,通過對URL表示為多個示例組成的包,並利用URL異常定位模型對異常示例進行預測,從而定位出URL中的異常欄位。基於多示例學習的URL異常定位,能夠較好的預測出資料中未發現的潛在威脅。

Description

URL異常定位方法、裝置、伺服器及儲存媒體
本說明書實施例涉及網際網路技術領域,尤其涉及一種URL異常定位方法、裝置、伺服器及儲存媒體。
在網際網路的應用場景中,每天會有大量的對於網址URL(Uniform Resource Locator,統一資源定位符)的存取;與此同時,不乏不法分子試圖通過不合法的URL存取進行攻擊。
本說明書實施例提供及一種URL異常定位方法、裝置、伺服器及儲存媒體。
第一方面,本說明書實施例提供一種URL異常定位方法,包括:對URL進行欄位切分,得到由對應各個欄位的各個示例組成的多示例包;將所述多示例包輸入基於多示例學習的URL異常定位模型進行異常示例預測;根據異常示例定位出對應的異常欄位。
第二方面,本說明書實施例提供一種URL異常定位訓練方法,包括:收集由多個URL樣本組成的URL樣本集;對URL樣本集中各個URL樣本進行欄位切分,針對每個URL樣本得到由對應各個欄位的各個示例組成的多示例包;集合各個URL樣本的多示例包得到多示例包集;基於多示例學習演算法,對多示例包集進行異常示例及非異常示例分類訓練;基於所述分類訓練,得到所述URL異常定位模型。
第三方面,本說明書實施例提供一種URL異常定位裝置,包括:切分單元,用於對URL進行欄位切分,得到由對應各個欄位的各個示例組成的多示例包;預測單元,用於將所述多示例包輸入基於多示例學習的URL異常定位模型進行異常示例預測;定位單元,用於根據異常示例定位出對應的異常欄位。
第四方面,本說明書實施例提供一種URL異常定位訓練裝置,包括:樣本獲取單元,用於收集由多個URL樣本組成的URL樣本集;樣本切分單元,用於對URL樣本集中各個URL樣本進行欄位切分,針對每個URL樣本得到由對應各個欄位的各個示例組成的多示例包;示例包集合單元,用於集合各個URL樣本的多示例包得到多示例包集;訓練單元,用於基於多示例學習演算法,對多示例包集進行異常示例及非異常示例分類訓練,得到所述URL異常定位模型。
第五方面,本說明書實施例提供一種伺服器,包括記憶體、處理器及儲存在記憶體上並可在處理器上運行的電腦程式,所述處理器執行所述程式時實現上述任一項所述方法的步驟。
第六方面,本說明書實施例提供一種電腦可讀儲存媒體,其上儲存有電腦程式,該程式被處理器執行時實現上述任一項所述方法的步驟。
本說明書實施例有益效果如下:
在本說明書實施例中,通過對URL表示為對應多個欄位的多個示例組成的包,利用URL異常定位模型對異常示例進行預測,從而定位出URL中的異常欄位。基於多示例學習的URL異常定位,能夠較好的預測出每天的存取資料中未發現的潛在威脅,由於可以針對異常URL確定異常所在,從而可為發現潛在威脅、建立新的安全規則、構建安全系統提供巨大的支援。
為了更好的理解上述技術方案,下面通過附圖以及具體實施例對本說明書實施例的技術方案做詳細的說明,應當理解本說明書實施例以及實施例中的具體特徵是對本說明書實施例技術方案的詳細的說明,而不是對本說明書技術方案的限定,在不衝突的情況下,本說明書實施例以及實施例中的技術特徵可以相互組合。
本說明書實施例URL異常定位場景示意圖請參見圖1。客戶端(使用者側)向服務端(網路側)提出URL存取請求,服務端解析URL存取請求得到URL,並對URL進行基於多示例學習的異常定位。具體的,服務端預先基於多示例學習演算法訓練出URL異常定位模型,通過URL異常定位模型預測出異常示例,再由異常示例確定出對應的URL所在欄位,達到定位URL異常的目的。本發明實施例中所謂“URL異常定位”,區別於僅僅給出整個URL是否異常的方式,而是確定出URL中具體的異常欄位位置,從而可便於對異常進行更為準確的分析和預防。
第一方面,本說明書實施例提供一種URL異常定位方法。
請參考圖2,本說明書實施例提供的URL異常定位方法包括如下步驟S201-S203。
S201:對URL進行欄位切分,得到由對應各個欄位的各個示例組成的多示例包。
基於多示例學習(Multiple Instance Learning,MIL),對URL進行切分得到多示例構成的包。區別於傳統的監督學習,在多示例學習中,資料是以包(bag)的形式給出,一個包(bag)中通常具有多個示例(instance)。可以理解,本說明書實施例中每一個URL對應一個包(bag)、而包中又包括多個示例,因此以“多示例包”表示一個URL。
基本URL包含模式(或稱協定)、伺服器名稱(或IP地址)、路徑和檔案名,如“協議://授權/路徑?查詢”。完整的、帶有授權部分的普通統一資源標誌符語法可如下:協議://使用者名:密碼@子功能變數名稱.功能變數名稱.頂層網域名:埠號/目錄/檔案名.文件尾碼?參數=值#標誌。本說明書實施例中可以對URL整個構成進行欄位切分,也可以僅對高風險欄位進行切分。
例如,僅對伺服器名稱欄位進行進一步切分為多個示例;或者僅對#(井號)後面的部分進行欄位切分得到多個示例。
其中,示例可由對應欄位的特徵向量表示。例如,將某欄位的pattern、字元數、字母數等表示為特徵向量,得到該欄位對應的示例。
S202:將多示例包輸入預設的URL異常定位模型進行異常示例預測。
本說明書實施例中,首先,可預先根據多示例學習演算法基於多個URL樣本進行訓練,得到URL異常定位模型(訓練過程請參考圖3及相關描述);然後,將待預測URL對應的多示例包輸入URL異常定位模型,根據URL異常定位模型,預測多示例包中的各個示例的異常標記的值,從而預測多示例包中的各個示例是否為異常示例。
在傳統多示例學習演算法中,僅在包的層面給出標記(label)。例如,對於標準的多示例學習而言,以二分類為例,對於一個包,只要其中有一個示例是正示例,該包就是正包;而負包中的所有示例都是負示例。要說明的是,包的標記是已知的,樣本的標記是未知的。因此,相比傳統監督學習,多示例學習的監督資訊更少,難度更大。
本說明書實施例中,通過給出示例的標記的方式,區別出異常示例和非異常示例(而不僅限於包層面的標記)。
對於一個正包(positive bag),其中至少有一個正示例(positive instance),而負包(negative bag)中的所有示例都是負示例(negative instance)。需要說明的是,本說明書實施例中,所謂正示例是指異常示例(例如異常標記的值為1或者具有正標記),正包也即異常包;所謂負示例是指非異常示例(例如異常標記的值為0或者具有負標記),負包也即非異常包。
S203:根據異常示例定位出對應的異常欄位。
由於每一個示例都是確定對應某個欄位的,因此在預測出異常示例之後,即可確定出異常示例對應的異常欄位,也即確定出URL中異常位置。
本發明實施例中:對於一個包,只要其中有一個示例是正的,該包就是正包;而負包中的所有示例都是負的。因此,如果某個URL對應的多示例包中,只要包括一個異常示例,則確定該URL為異常URL;如果該URL對應的多示例包中不包括任何異常示例,則確定該URL為非異常URL。因此,如果確定出URL對應有異常示例,則可確定URL為異常URL。
參考圖3,為本說明書實施例第二方面的URL異常定位訓練方法流程圖,包括:
S301:收集由多個URL樣本組成的URL樣本集。
S302:對URL樣本集中各個URL樣本進行欄位切分,針對每個URL樣本得到由對應各個欄位的各個示例組成的多示例包。
對於一條URL樣本原始資料,將其切分,對於每一個切分好的欄位,可以提取不同的特徵來對欄位以示例進行表示,最終集合一個URL的不同示例作為一個包(bag)。
S303:集合各個URL樣本的多示例包得到多示例包集。
S304:基於多示例學習演算法,對多示例包集進行異常示例及非異常示例分類訓練。
對示例分類訓練的過程可以理解為,是從每個包裡面試圖挖掘其示例的標記,從而來訓練對於示例進行分類的分類器。其中:異常示例和非異常示例通過示例的異常標記的值進行區分。
在一種可選方式中,對多示例包集進行異常示例及非異常示例分類訓練的具體過程包括:對多示例包集中每個示例的異常標記的值進行初始化,並對異常標記的值進行疊代學習,更新調整出每個示例最終的異常標記的值。
由於示例的標記不可見,因此先初始化一個可能的標記,進而在訓練的過程中疊代的更新示例標記,以達到優化結果的目的。隨著訓練的進行,示例標記會越來越趨於接近事實,從而使模型能夠漸漸發現可能的異常示例(有害示例),使得最終的模型能對未來的URL預測其可能的異常欄位。
具體而言,如前所述的,對於一個正包(positive bag),其中至少有一個正示例(positive instance),而負包(negative bag)中的所有示例都是負示例(negative instance)。需要說明的是,本說明書實施例中,所謂正示例是指異常示例(例如異常標記的值為1或者具有正標記),正包也即異常包;所謂負示例是指非異常示例(例如異常標記的值為0或者具有負標記),負包也即非異常包。
因而,在初始化時,隨機選擇正包(positive bag)中的一個或幾個示例(instance)賦予正標記(positive label), 正包(positive bag)中的其餘示例賦予負標記(negative label),對於負包(negative bag),其中的所有示例(instance)均賦予負標記(negative label)。
基於以上的初始化,每個示例(instance)都會獲得一個示例標記(label),依據這些示例訓練一個分類器(Classifier)。當得到分類器(Classifier)之後,又可以對所有的示例(instance)來進行預測,從而更新示例(instance)的標記(label)。例如,具體的更新過程為,對於負包(negative bag),其中示例(instance)的標記(label)保持不變(均為負標記),對於正包(positive bag)中的示例(instance),首先根據分類器(Classifier)的結果來修改示例的標記;之後進行一輪檢查,即如果某一個正包(positive bag)的所有示例(instance)都被賦予了負標記(negative label),需要選擇其中得分最低的(即判斷為負示例的置信度最低的),賦予其正標記(positive label)。如此,完成對示例標記的更新,再給予更新的結果訓練新的分類器(Classifier)。
循環以上過程,直至前後兩輪之間示例的標記不發生改變為止。
需要注意的是,一開始的示例標記(instance label)的賦予是比較隨機的,而在分類器訓練的過程中,會漸漸的對示例標記(instance label)進行修正,修正之後的示例標記(instance label)又會使得訓練的分類器更加準確。從而達到優化的效果。
S305:基於分類訓練,得到URL異常定位模型。
下面針對一個具體url進行異常定位的過程,對本說明書實施例做示例性說明。
對於一條正常的URL,例如:
http://render.alipay.com/p/s/alipay_site/wait?mintime
=3&maxtime=5&fromspanner=goldetfprod_502
對於攻擊者而言,往往通過修改其中的任何可能的部分,來達到攻擊的目的,在實際業務中,由於功能變數名稱欄位(例如上述:http://render.alipay.com)基本都是固定的,只有參數請求部分會存在被修改的可能性,因而攻擊往往由此產生。如下例中,攻擊者通過手動的修改一個正常的URL,來達到執行script的目的。
例如,異常URL示例為:
http://render.alipay.com/p/s/alipay_site/wait?mintime=
3>SCRiPT={Sleep}&maxtime=5&fromspanner=goldetfprod_502
這裡的異常欄位就是“mintime=3>SCRiPT={Sleep}”。
傳統的技術手段,都是試圖將URL進行統一的表示,即將每個URL表示成一個一定維度的特徵向量的形式,這樣的方法,可能發現異常的URL,但沒法準確定位到上面的示例中的異常欄位。而準確的發現異常存在的欄位,是希望能夠看到的,因而,這一方法的目的就在於對異常欄位進行檢測。
具體而言,將這一問題形式化成一個多示例學習的問題,在獲取資料時,往往可得知哪些URL是正常的,哪些是異常的,這也就意味著,對於一個URL的標記,往往是在URL整個層面的,對於每個欄位是否有問題,往往是不可見的。這剛好符合多示例學習的假設:在多示例學習中,資料是以包(bag)的形式給出,一個包具有一個標記(label),包中具有多個示例(instance),示例(instance)的標記(label)是不知道的,如果一個包中有一個示例(instance)是正示例(positive instance),那麼這個包就是正包(positive bag),若所有示例(instance)都是負示例(negative instance),那麼這個包就是負包(negative bag)。
還是以上述正常URL舉例來說明:通過對URL的切分,得到不同的子欄位,即“mintime=3”;“maxtime=5”;“fromspanner=goldetfprod_502”這三部分(instance)(其中這三部分的value分別為“3”、“5”、“goldetfprod_502”);這裡一個URL就是一個包,它被表示成包含三個instance的形式。進一步的,對於每一欄位的資訊提取和表示,可以有各種不同的模式,例如,提取value不同的pattern:字元總數、字母總數、數位總數、符號總數、不同字元數、不同字母數、不同數位數、不同符號數,由此,以上示例中的包中的三個向量就可以分別表示為[1,0,1,0,1,0,1,0], [1,0,1,0,1,0,1,0],[15,11,3,1,13,9,3,1],該URL是一個正常的URL,因而該包的標記是負的(即非異常URL)。
同理,對於上述被修改的異常URL,可通過模型識別出具體哪個示例異常,由該異常示例確定出對應的異常欄位(異常子欄位),即“SCRiPT={Sleep}”。由此便於異常分析和異常預防。
在本說明書實施例中,通過對URL表示為對應多個欄位的多個示例組成的包,利用URL異常定位模型對異常示例進行預測,從而定位出URL中的異常欄位。基於多示例學習的URL異常定位,能夠較好的預測出每天的存取資料中未發現的潛在威脅,由於可以針對異常URL確定異常所在,從而可為發現潛在威脅、建立新的安全規則、構建安全系統提供巨大的支援。
第三方面,基於同一發明構思,本說明書實施例提供一種URL異常定位裝置,請參考圖4,包括:
切分單元401,用於對所述URL進行欄位切分,得到由對應各個欄位的各個示例組成的多示例包;
預測單元402,用於將所述多示例包輸入預設的URL異常定位模型進行異常示例預測;
定位單元403,用於根據異常示例定位出對應的異常欄位。
在一種可選方式中,還包括:
模型訓練單元404,用於基於多示例學習演算法對多個URL樣本進行訓練,得到所述URL異常定位模型。
在一種可選方式中,所述模型訓練單元404包括:
樣本切分在單元4041,用於對URL樣本集中各個URL樣本進行欄位切分,針對每個URL樣本得到由對應各個欄位的各個示例組成的多示例包;
示例包集合子單元4042,用於集合各個URL樣本的多示例包得到多示例包集;
訓練子單元4043,用於基於多示例學習演算法,對多示例包集進行異常示例及非異常示例分類訓練,得到所述URL異常定位模型。
在一種可選方式中,所述異常示例和非異常示例通過示例的異常標記的值進行區分;
所述訓練子單元4043具體用於:對多示例包集中每個示例的異常標記的值進行初始化,並對異常標記的值進行疊代學習,更新調整出每個示例最終的異常標記的值。
在一種可選方式中,所述預測單元402具體用於:根據所述URL異常定位模型,預測所述多示例包中的各個示例的異常標記的值,從而確定各個示例是否為異常示例。
在一種可選方式中,還包括:
異常URL確定單元405,用於確定所述URL是否為異常URL:如果所述URL對應的示例包中包括異常示例,則確定所述URL為異常URL;如果所述URL對應的示例包中不包括異常示例,則確定所述URL為非異常URL。
在一種可選方式中,所述示例是由對應欄位的特徵向量表示的。
在一種可選方式中,所述欄位為URL中參數請求欄位。
第四方面,基於同一發明構思,本說明書實施例提供一種URL異常定位訓練裝置,請參考圖5,包括:
樣本獲取單元501,用於收集由多個URL樣本組成的URL樣本集;
樣本切分單元502,用於對URL樣本集中各個URL樣本進行欄位切分,針對每個URL樣本得到由對應各個欄位的各個示例組成的多示例包;
示例包集合單元503,用於集合各個URL樣本的多示例包得到多示例包集;
訓練單元504,用於基於多示例學習演算法,對多示例包集進行異常示例及非異常示例分類訓練,得到所述URL異常定位模型。
在一種可選方式中,所述異常示例和非異常示例通過示例的異常標記的值進行區分;
所述訓練單元504具體用於:對多示例包集中每個示例的異常標記的值進行初始化,並對異常標記的值進行疊代學習,更新調整出每個示例最終的異常標記的值。
第四方面,基於與前述實施例中基於流式計算的資料處理控制方法同樣的發明構思,本發明還提供一種伺服器,如圖6所示,包括記憶體604、處理器602及儲存在記憶體604上並可在處理器602上運行的電腦程式,所述處理器602執行所述程式時實現前文所述URL異常定位方法的步驟。
其中,在圖6中,匯流排架構(用匯流排600來代表),匯流排600可以包括任意數量的互聯的匯流排和橋,匯流排600將包括由處理器602代表的一個或多個處理器和記憶體604代表的記憶體的各種電路連結在一起。匯流排600還可以將諸如週邊設備、穩壓器和功率管理電路等之類的各種其他電路連結在一起,這些都是本領域所公知的,因此,本文不再對其進行進一步描述。匯流排介面606在匯流排600和接收器601和發送器603之間提供介面。接收器601和發送器603可以是同一個元件,即收發機,提供用於在傳輸媒體上與各種其他裝置通信的單元。處理器602負責管理匯流排600和通常的處理,而記憶體604可以被用於儲存處理器602在執行操作時所使用的資料。
第六方面,基於與前述實施例中URL異常定位方法的發明構思,本發明還提供一種電腦可讀儲存媒體,其上儲存有電腦程式,該程式被處理器執行時實現前文所述URL異常定位的任一方法的步驟。
本說明書是參照根據本說明書實施例的方法、設備(系統)、和電腦程式產品的流程圖和/或方塊圖來描述的。應理解可由電腦程式指令實現流程圖和/或方塊圖中的每一流程和/或方塊、以及流程圖和/或方塊圖中的流程和/或方塊的結合。可提供這些電腦程式指令到通用電腦、專用電腦、嵌入式處理機或其他可程式設計資料處理設備的處理器以產生一個機器,使得通過電腦或其他可程式設計資料處理設備的處理器執行的指令產生用於實現在流程圖一個流程或多個流程和/或方塊圖一個方塊或多個方塊中指定的功能的設備。
這些電腦程式指令也可儲存在能引導電腦或其他可程式設計資料處理設備以特定方式工作的電腦可讀記憶體中,使得儲存在該電腦可讀記憶體中的指令產生包括指令設備的製造品,該指令設備實現在流程圖一個流程或多個流程和/或方塊圖一個方塊或多個方塊中指定的功能。
這些電腦程式指令也可裝載到電腦或其他可程式設計資料處理設備上,使得在電腦或其他可程式設計設備上執行一系列操作步驟以產生電腦實現的處理,從而在電腦或其他可程式設計設備上執行的指令提供用於實現在流程圖一個流程或多個流程和/或方塊圖一個方塊或多個方塊中指定的功能的步驟。
儘管已描述了本說明書的較佳實施例,但本領域內的技術人員一旦得知了基本進步性概念,則可對這些實施例作出另外的變更和修改。所以,所附申請專利範圍意欲解釋為包括較佳實施例以及落入本說明書範圍的所有變更和修改。
顯然,本領域的技術人員可以對本說明書進行各種改動和變型而不脫離本說明書的精神和範圍。這樣,倘若本說明書的這些修改和變型屬於本說明書申請專利範圍及其等同技術的範圍之內,則本說明書也意圖包含這些改動和變型在內。
401‧‧‧切分單元
402‧‧‧預測單元
403‧‧‧定位單元
404‧‧‧模型訓練單元
405‧‧‧異常URL確定單元
501‧‧‧樣本獲取單元
502‧‧‧樣本切分單元
503‧‧‧示例包集合單元
504‧‧‧訓練單元
600‧‧‧匯流排
601‧‧‧接收器
602‧‧‧處理器
603‧‧‧發送器
604‧‧‧記憶體
606‧‧‧匯流排介面
4041‧‧‧樣本切分在單元
4042‧‧‧示例包集合子單元
4043‧‧‧訓練子單元
圖1為本說明書實施例的URL異常定位場景示意圖;
圖2為本說明書實施例第一方面的URL異常定位方法流程圖;
圖3為本說明書實施例第二方面的URL異常定位訓練方法流程圖;
圖4為本說明書實施例第三方面的URL異常定位裝置結構示意圖;
圖5為本說明書實施例第四方面的URL異常定位訓練裝置結構示意圖;
圖6為本說明書實施例第五方面提供的URL異常定位伺服器結構示意圖。

Claims (22)

  1. 一種統一資源定位符(URL)異常定位方法,包括: 對URL進行欄位切分,得到由對應各個欄位的各個示例組成的多示例包; 將所述多示例包輸入基於多示例學習的URL異常定位模型進行異常示例預測; 根據異常示例定位出對應的異常欄位。
  2. 根據申請專利範圍第1項所述的方法,還包括: 基於多示例學習演算法對多個URL樣本進行訓練,得到所述URL異常定位模型。
  3. 根據申請專利範圍第2項所述的方法,其中所述基於多示例學習演算法對多個URL樣本進行訓練,得到所述URL異常定位模型,包括: 對URL樣本集中各個URL樣本進行欄位切分,針對每個URL樣本得到由對應各個欄位的各個示例組成的多示例包; 集合各個URL樣本的多示例包得到多示例包集; 基於多示例學習演算法,對多示例包集進行異常示例及非異常示例分類訓練; 基於所述分類訓練,得到所述URL異常定位模型。
  4. 根據申請專利範圍第3項所述的方法,其中所述異常示例和非異常示例通過示例的異常標記的值進行區分; 所述對多示例包集進行異常示例及非異常示例分類訓練包括: 對多示例包集中每個示例的異常標記的值進行初始化,並對異常標記的值進行疊代學習,更新調整出每個示例最終的異常標記的值。
  5. 根據申請專利範圍第4項所述的方法,其中所述將所述多示例包輸入預設的URL異常定位模型進行異常示例預測包括: 根據所述URL異常定位模型,預測所述多示例包中的各個示例的異常標記的值,從而預測所述多示例包中的各個示例是否為異常示例。
  6. 根據申請專利範圍第1項所述的方法,還包括: 確定所述URL是否為異常URL: 如果所述URL對應的示例包中包括異常示例,則確定所述URL為異常URL; 如果所述URL對應的示例包中不包括異常示例,則確定所述URL為非異常URL。
  7. 根據申請專利範圍第1項所述的方法,其中所述示例是由對應欄位的特徵向量表示的。
  8. 根據申請專利範圍第1項所述的方法,其中所述欄位為URL中參數請求欄位。
  9. 一種URL異常定位訓練方法,包括: 收集由多個URL樣本組成的URL樣本集; 對URL樣本集中各個URL樣本進行欄位切分,針對每個URL樣本得到由對應各個欄位的各個示例組成的多示例包; 集合各個URL樣本的多示例包得到多示例包集; 基於多示例學習演算法,對多示例包集進行異常示例及非異常示例分類訓練; 基於所述分類訓練,得到所述URL異常定位模型。
  10. 根據申請專利範圍第9項所述的方法,其中所述異常示例和非異常示例通過示例的異常標記的值進行區分; 所述對多示例包集進行異常示例及非異常示例分類訓練包括: 對多示例包集中每個示例的異常標記的值進行初始化,並對異常標記的值進行疊代學習,更新調整出每個示例最終的異常標記的值。
  11. 一種URL異常定位裝置,包括: 切分單元,用於對URL進行欄位切分,得到由對應各個欄位的各個示例組成的多示例包; 預測單元,用於將所述多示例包輸入基於多示例學習的的URL異常定位模型進行異常示例預測; 定位單元,用於根據異常示例定位出對應的異常欄位。
  12. 根據申請專利範圍第11項所述的裝置,還包括: 模型訓練單元,用於基於多示例學習演算法對多個URL樣本進行訓練,得到所述URL異常定位模型。
  13. 根據申請專利範圍第12項所述的裝置,其中所述模型訓練單元,包括: 樣本切分在單元,用於對URL樣本集中各個URL樣本進行欄位切分,針對每個URL樣本得到由對應各個欄位的各個示例組成的多示例包; 示例包集合子單元,用於集合各個URL樣本的多示例包得到多示例包集; 訓練子單元,用於基於多示例學習演算法,對多示例包集進行異常示例及非異常示例分類訓練,得到所述URL異常定位模型。
  14. 根據申請專利範圍第13項所述的裝置,其中所述異常示例和非異常示例通過示例的異常標記的值進行區分; 所述訓練子單元具體用於:對多示例包集中每個示例的異常標記的值進行初始化,並對異常標記的值進行疊代學習,更新調整出每個示例最終的異常標記的值。
  15. 根據申請專利範圍第14項所述的裝置,其中所述預測單元具體用於:根據所述URL異常定位模型,預測所述多示例包中的各個示例的異常標記的值,從而確定各個示例是否為異常示例。
  16. 根據申請專利範圍第11-15項之任一項所述的裝置,還包括: 異常URL確定單元,用於確定所述URL是否為異常URL:如果所述URL對應的示例包中包括異常示例,則確定所述URL為異常URL;如果所述URL對應的示例包中不包括異常示例,則確定所述URL為非異常URL。
  17. 根據申請專利範圍第11-15項之任一項所述的裝置,其中所述示例是由對應欄位的特徵向量表示的。
  18. 根據申請專利範圍第11-15項之任一項所述的裝置,其中所述欄位為URL中參數請求欄位。
  19. 一種URL異常定位訓練裝置,包括: 樣本獲取單元,用於收集由多個URL樣本組成的URL樣本集; 樣本切分單元,用於對URL樣本集中各個URL樣本進行欄位切分,針對每個URL樣本得到由對應各個欄位的各個示例組成的多示例包; 示例包集合單元,用於集合各個URL樣本的多示例包得到多示例包集; 訓練單元,用於基於多示例學習演算法,對多示例包集進行異常示例及非異常示例分類訓練,得到所述URL異常定位模型。
  20. 根據申請專利範圍第19項所述的裝置,其中所述異常示例和非異常示例通過示例的異常標記的值進行區分; 所述訓練單元具體用於:對多示例包集中每個示例的異常標記的值進行初始化,並對異常標記的值進行疊代學習,更新調整出每個示例最終的異常標記的值。
  21. 一種伺服器,包括記憶體、處理器及儲存在記憶體上並可在處理器上運行的電腦程式,所述處理器執行所述程式時實現申請專利範圍第1-10項之任一項所述方法的步驟。
  22. 一種電腦可讀儲存媒體,其上儲存有電腦程式,該程式被處理器執行時實現申請專利範圍第1-10項之任一項所述方法的步驟。
TW107147125A 2018-03-06 2018-12-26 Url異常定位方法、裝置、伺服器及儲存媒體 TWI703846B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201810182571.XA CN108366071B (zh) 2018-03-06 2018-03-06 Url异常定位方法、装置、服务器及存储介质
CN201810182571.X 2018-03-06
??201810182571.X 2018-03-06

Publications (2)

Publication Number Publication Date
TW201939932A true TW201939932A (zh) 2019-10-01
TWI703846B TWI703846B (zh) 2020-09-01

Family

ID=63003692

Family Applications (1)

Application Number Title Priority Date Filing Date
TW107147125A TWI703846B (zh) 2018-03-06 2018-12-26 Url異常定位方法、裝置、伺服器及儲存媒體

Country Status (6)

Country Link
US (1) US10819745B2 (zh)
EP (1) EP3716571B1 (zh)
CN (1) CN108366071B (zh)
SG (1) SG11202005828UA (zh)
TW (1) TWI703846B (zh)
WO (1) WO2019169982A1 (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108366071B (zh) 2018-03-06 2020-06-23 阿里巴巴集团控股有限公司 Url异常定位方法、装置、服务器及存储介质
US11762990B2 (en) * 2020-04-07 2023-09-19 Microsoft Technology Licensing, Llc Unstructured text classification
US12003535B2 (en) 2021-03-01 2024-06-04 Microsoft Technology Licensing, Llc Phishing URL detection using transformers

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8019700B2 (en) * 2007-10-05 2011-09-13 Google Inc. Detecting an intrusive landing page
US8261342B2 (en) * 2008-08-20 2012-09-04 Reliant Security Payment card industry (PCI) compliant architecture and associated methodology of managing a service infrastructure
CN101702660B (zh) * 2009-11-12 2011-12-14 中国科学院计算技术研究所 异常域名检测方法及***
KR20140061654A (ko) * 2012-11-14 2014-05-22 한국인터넷진흥원 고위험 악성코드 식별 시스템
US9904893B2 (en) * 2013-04-02 2018-02-27 Patternex, Inc. Method and system for training a big data machine to defend
US10079876B1 (en) * 2014-09-30 2018-09-18 Palo Alto Networks, Inc. Mobile URL categorization
US10178107B2 (en) * 2016-04-06 2019-01-08 Cisco Technology, Inc. Detection of malicious domains using recurring patterns in domain names
CN106055574B (zh) * 2016-05-19 2019-12-24 微梦创科网络科技(中国)有限公司 一种识别非法统一资源标识符url的方法与装置
EP3475822B1 (en) * 2016-06-22 2020-07-22 Invincea, Inc. Methods and apparatus for detecting whether a string of characters represents malicious activity using machine learning
CN106131071B (zh) * 2016-08-26 2019-06-04 北京奇虎科技有限公司 一种Web异常检测方法和装置
CN107577945B (zh) * 2017-09-28 2021-03-23 创新先进技术有限公司 Url攻击检测方法、装置以及电子设备
CN107992741B (zh) * 2017-10-24 2020-08-28 阿里巴巴集团控股有限公司 一种模型训练方法、检测url的方法及装置
CN108111489B (zh) * 2017-12-07 2020-06-30 阿里巴巴集团控股有限公司 Url攻击检测方法、装置以及电子设备
CN108229156A (zh) 2017-12-28 2018-06-29 阿里巴巴集团控股有限公司 Url攻击检测方法、装置以及电子设备
CN108366071B (zh) * 2018-03-06 2020-06-23 阿里巴巴集团控股有限公司 Url异常定位方法、装置、服务器及存储介质

Also Published As

Publication number Publication date
WO2019169982A1 (zh) 2019-09-12
EP3716571A4 (en) 2021-01-20
TWI703846B (zh) 2020-09-01
CN108366071B (zh) 2020-06-23
US10819745B2 (en) 2020-10-27
EP3716571A1 (en) 2020-09-30
SG11202005828UA (en) 2020-07-29
CN108366071A (zh) 2018-08-03
EP3716571B1 (en) 2023-08-09
US20200280583A1 (en) 2020-09-03

Similar Documents

Publication Publication Date Title
TWI706273B (zh) 統一資源定位符(url)攻擊檢測方法、裝置及電子設備
US11805136B2 (en) Scanning container images and objects associated with building the container images
TWI703846B (zh) Url異常定位方法、裝置、伺服器及儲存媒體
US20220222372A1 (en) Automated data masking with false positive detection and avoidance
US10601847B2 (en) Detecting user behavior activities of interest in a network
CN110572399B (zh) 漏洞检测处理方法、装置、设备及存储介质
CN110012037B (zh) 基于不确定性感知攻击图的网络攻击预测模型构建方法
EP4066465A1 (en) System and method for determining device attributes using a classifier hierarchy
US20220019676A1 (en) Threat analysis and risk assessment for cyber-physical systems based on physical architecture and asset-centric threat modeling
US9800540B2 (en) System and method for providing services
CN114024761B (zh) 网络威胁数据的检测方法、装置、存储介质及电子设备
Aiello et al. Unsupervised learning and rule extraction for Domain Name Server tunneling detection
CN112839055B (zh) 面向tls加密流量的网络应用识别方法、装置及电子设备
CN110598794A (zh) 一种分类对抗的网络攻击检测方法及***
CN110581857B (zh) 一种虚拟执行的恶意软件检测方法及***
CN113221144A (zh) 一种隐私保护机器学习的虚拟化终端异常检测方法及***
US20200162339A1 (en) Extending encrypted traffic analytics with traffic flow data
US11880488B2 (en) Fast and flexible remediation of sensitive information using document object model structures
WO2017095391A1 (en) Label management
do Vale Dalarmelina et al. Using ML and DL algorithms for intrusion detection in the industrial internet of things
US11232202B2 (en) System and method for identifying activity in a computer system
Sreerag et al. Reinforce NIDS using GAN to detect U2R and R2L attacks
CN112532562A (zh) 一种对抗性网络的恶意数据流检测方法及***
EP4272377B1 (en) Network adaptive alert prioritization system
CN113127872B (zh) 一种判别对抗网络的恶意应用检测方法和***