JP7439916B2 - 学習装置、検出装置、学習方法、検出方法、学習プログラムおよび検出プログラム - Google Patents

学習装置、検出装置、学習方法、検出方法、学習プログラムおよび検出プログラム Download PDF

Info

Publication number
JP7439916B2
JP7439916B2 JP2022522467A JP2022522467A JP7439916B2 JP 7439916 B2 JP7439916 B2 JP 7439916B2 JP 2022522467 A JP2022522467 A JP 2022522467A JP 2022522467 A JP2022522467 A JP 2022522467A JP 7439916 B2 JP7439916 B2 JP 7439916B2
Authority
JP
Japan
Prior art keywords
information
web page
communication
feature
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2022522467A
Other languages
English (en)
Other versions
JPWO2021229786A1 (ja
Inventor
駿 小出
大紀 千葉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Publication of JPWO2021229786A1 publication Critical patent/JPWO2021229786A1/ja
Application granted granted Critical
Publication of JP7439916B2 publication Critical patent/JP7439916B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1441Countermeasures against malicious traffic
    • H04L63/1483Countermeasures against malicious traffic service impersonation, e.g. phishing, pharming or web spoofing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/50Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
    • G06F21/55Detecting local intrusion or implementing counter-measures
    • G06F21/56Computer malware detection or handling, e.g. anti-virus arrangements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/50Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
    • G06F21/55Detecting local intrusion or implementing counter-measures
    • G06F21/56Computer malware detection or handling, e.g. anti-virus arrangements
    • G06F21/562Static detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2221/00Indexing scheme relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F2221/21Indexing scheme relating to G06F21/00 and subgroups addressing additional information or applications relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F2221/2119Authenticating web pages, e.g. with suspicious links

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Hardware Design (AREA)
  • General Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Computing Systems (AREA)
  • Virology (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、学習装置、検出装置、学習方法、検出方法、学習プログラムおよび検出プログラムに関する。
近年、攻撃者は、ユーザの端末を不正に操作したり、個人情報を窃取するために、偽アンチウイルスソフトを用いたりすることがある。偽アンチウイルスソフトは、ユーザの端末からマルウェア(悪意のあるソフトウェアの総称)を除去するアンチウイルスソフトに偽装したマルウェアの一種である。従来、攻撃者はWebページ上で嘘のウイルス感染警告を表示したり、端末の高速化を謳ったWeb広告を表示したりすることで、ユーザを心理的に誘導し、偽アンチウイルスソフトをインストールさせる。
攻撃者は、偽のウイルス感染警告やWeb広告を用いてユーザを騙すほかに、偽のウイルス除去方法を紹介するWebページを用意してユーザに偽アンチウイルスソフトをインストールさせることがある。このようなWebページを偽除去情報紹介サイトと呼ぶ。偽除去情報紹介サイトは、マルウェアに感染していたり、悪性サイトにアクセスしていたりといったすでにセキュリティ被害を受けているユーザを標的にする。偽除去情報紹介サイトはそれらのセキュリティ被害を対処する偽の方法を紹介することでユーザを騙す。偽除去情報紹介サイトは、偽アンチウイルスソフトのインストールを提案し、騙されたユーザは偽アンチウイルスソフトを自らダウンロードしてインストールする。
偽アンチウイルスソフトを配布する悪性なWebページを検出する既存の方法として、たとえば、ドメイン名の登録情報やIPアドレスといったネットワークの情報を特徴量としてグラフに基づくクラスタリングにより悪性なWebページを検出する方法が存在する(例えば、非特許文献1参照)。その方法が検出の対象とする悪性なWebページは、ユーザのシステムに存在する脆弱性を狙う攻撃を行うWebページや、偽の感染警告を表示することでユーザを騙すWebページである。
また、Webブラウザを用いてWebページにアクセスし、テクニカルサポート詐欺やサーベイ詐欺といった悪性なWebページに固有の特徴を抽出してそれらのWebページを特定する方法が知られている(非特許文献2、3参照)。特定した悪性なWebページにWebブラウザを用いてアクセスして巡回を行うことで、偽の感染警告を表示して偽アンチウイルスソフトを配布する悪性なWebページに到達することがある。
M. Cova, C. Leita, O. Thonnard, A.D. Keromytis, M. Dacier, "An Analysis of Rogue AV Campaigns," Proc. Recent Advances in Intrusion Detection, RAID 2010, pp.442-463, 2010. A. Kharraz, W. Robertson, and E. Kirda, "Surveylance: Automatically Detecting Online Survey Scams," Proc. - IEEE Symp. Secur. Priv., vol.2018-May, pp.70-86, 2018. B. Srinivasan, A. Kountouras, N. Miramirkhani, M. Alam, N. Nikiforakis, M. Antonakakis, and M. Ahamad, "Exposing Search and Advertisement Abuse Tactics and Infrastructure of Technical Support Scammers," Proceedings of the 2018 World Wide Web Conference on World Wide Web - WWW ’18, pp.319-328, 2018.
上述の既存技術は、システムの脆弱性を狙ってユーザのシステムに偽アンチウイルスソフトをインストールしたり、偽の感染警告を表示してユーザをだまして偽アンチウイルスソフトを自らインストールさせる悪性なWebページを検出したり、効率的に収集する技術である。しかし、偽除去情報紹介サイトは、システムの脆弱性を狙って偽アンチウイルスソフトをインストールさせるのではなく、心理的な誘導のテクニックによりユーザを騙して偽アンチウイルスソフトをインストールさせる。
また、その心理的な誘導のテクニックは、偽の感染警告を表示してユーザを騙す従来の方法ではなく、実際にマルウェア感染といったセキュリティ被害を受けているユーザを標的として、その解決方法を紹介することでユーザを騙す。したがって、偽除去情報紹介サイトは、既存技術が対象とする悪性なWebページとは攻撃方法の観点で異なるため、それらの攻撃の方法に固有の特徴を捉えて悪性なWebページを検出する既存技術では特定することができない。
つまり、従来の方法では、心理的な誘導のテクニックにより、セキュリティ被害を受けているユーザを標的に、その解決方法を紹介することで偽アンチウイルスソフトをインストールさせるようなWebページを検出することはできないという課題があった。
本発明は、上記に鑑みてなされたものであって、Webブラウザを用いてWebページにアクセスしたときのWebページ情報を用いて、すでにセキュリティ被害を受けているユーザを偽の除去情報を紹介することで騙し、偽アンチウイルスソフトをインストールさせる悪性なWebページである、偽除去情報紹介サイトを検出することを目的とする。
上述した課題を解決し、目的を達成するために、本発明の学習装置は、偽のウイルス除去方法を紹介する悪性サイトであるか否かが既知であるWebページに関する情報の入力を受け付ける入力部と、前記Webページに関する情報に含まれる、語句に関する特徴量、画像に関する特徴量、HTMLソースコードに関する特徴量、および、通信ログに関する特徴量のうち、いずれか一つまたは複数の特徴量を訓練データとして用いて、訓練モデルを生成する学習部とを有することを特徴とする。
また、本発明の検出装置は、Webページに関する情報の入力を受け付ける入力部と、前記Webページに関する情報に含まれる、語句に関する特徴量、画像に関する特徴量、HTMLソースコードに関する特徴量、および、通信ログに関する特徴量のうち、いずれか一つまたは複数の特徴量を入力データとして、予め学習された訓練モデルに入力し、前記訓練モデルの出力結果に応じて、前記Webページが偽のウイルス除去方法を紹介する悪性サイトであることを検出する検出部とを有することを特徴とする。
本発明によれば、偽アンチウイルスソフトをインストールさせる悪性なWebページである、偽除去情報紹介サイトを検出することができるという効果を奏する。
図1は、実施の形態における検出システムの構成の一例を示す図である。 図2は、図1に示す学習装置の構成の一例を示す図である。 図3は、図1に示す検出装置の構成の一例を示す図である。 図4は、Webブラウザを用いてWebページにアクセスしたときにWebブラウザから取得できるWebページ情報の一例を示す図である。 図5は、Webページ情報の一部である通信ログ情報の一例を示す図である。 図6は、語句出現頻度を計測する対象の一例を示す図である。 図7は、出現頻度を計測する語句の一例を示す図である。 図8は、語句出現頻度の特徴ベクトルの一例を示す図である。 図9は、偽除去情報紹介サイトのWebページの画像の一例を示す図である。 図10は、出現頻度を計測する画像データのカテゴリの一例を示す図である。 図11は、画像出現頻度の特徴ベクトルの一例を示す図である。 図12は、HTMLタグ出現頻度の特徴ベクトルの一例を示す図である。 図13は、リンク先URL出現頻度の特徴ベクトルの一例を示す図である。 図14は、通信先URL出現頻度の特徴ベクトルの一例を示す図である。 図15は、特徴量を統合した特徴ベクトルの一例を示す図である。 図16は、訓練モデル生成処理のフローチャートを示す図である。 図17は、検出処理のフローチャートを示す図である。 図18は、プログラムを実行するコンピュータを示す図である。
以下に、本願に係る学習装置、検出装置、学習方法、検出方法、学習プログラムおよび検出プログラムの実施の形態を図面に基づいて詳細に説明する。なお、この実施の形態により本願に係る学習装置、検出装置、学習方法、検出方法、学習プログラムおよび検出プログラムが限定されるものではない。
[実施形態]
本発明の実施の形態について説明する。図1は、実施の形態における検出システムの構成の一例を示す図である。図1に示すように、実施の形態に係る検出システム1は、学習装置10と、検出装置20とを有する。学習装置10は、Webページが偽除去情報紹介サイトであることを検出するための訓練モデルを生成する。具体的には、学習装置10は、Webブラウザを用いてWebページにアクセスしたときのWebページに関する情報(以下Webページ情報と記載)の入力を受け付ける。
学習装置10は、Webページ情報から抽出した語句出現頻度の特徴量、画像出現頻度の特徴量、HTMLの特徴量、通信ログの特徴量のうち、いずれか一つまたは複数の特徴量を訓練データとして用いて、訓練モデルを生成する。
検出装置20は、学習装置10によって生成された訓練モデルを受信し、訓練モデルを用いて、Webページが偽除去情報紹介サイトであることを検出する。具体的には、検出装置20は、Webブラウザを用いてWebページにアクセスしたときのWebページ情報の入力を受け付ける。検出装置20は、Webページ情報から抽出した語句出現頻度の特徴量、画像出現頻度の特徴量、HTMLの特徴量、通信ログの特徴量のうち、いずれか一つまたは複数の特徴量を入力データとして用いて、予め学習された訓練モデルに入力し、訓練モデルの出力結果に応じてWebページが偽除去情報紹介サイトであることを検出する。
[学習装置および検出装置の構成]
次に、学習装置10の構成について説明する。図2は、図1に示す学習装置の構成の一例を示す図である。学習装置10は、Webページ情報入力部11、語句出現頻度特徴量抽出部(第一の特徴量抽出部)12、画像出現頻度特徴量抽出部(第二の特徴量抽出部)13、HTML特徴量抽出部(第三の特徴量抽出部)14、通信ログ特徴量抽出部(第四の特徴量抽出部)15、学習部16、記憶部17を有する。
次に、検出装置20の構成について説明する。図3は、図1に示す検出装置の構成の一例を示す図である。検出装置20は、Webページ情報入力部21、語句出現頻度特徴量抽出部22、画像出現頻度特徴量抽出部23、HTML特徴量抽出部24、通信ログ特徴量抽出部25、検出部26、出力部27、記憶部28を有する。
以下に、学習装置10の各部について説明する。Webページ情報入力部11は、偽のウイルス除去方法を紹介する偽除去情報紹介サイトであるか否かが既知であるWebページに関する情報の入力を受け付ける。具体的には、Webページ情報入力部11は、Webブラウザを用いてWebページにアクセスし、Webブラウザから取得したWebページ情報の入力を受け付ける。例えば、Webページ情報入力部11は、複数の既知の偽除去情報紹介サイトのWebページ情報と複数の偽除去情報紹介サイト以外のWebページ情報を入力する。ここでWebページ情報とは、WebブラウザによってWebページにアクセスした際に、Webブラウザから取得できる情報である。
Webページ情報入力部11が取得するWebページ情報は、図4に示す項目を構成する。図4は、Webブラウザを用いてWebページにアクセスしたときにWebブラウザから取得できるWebページ情報の一例を示す図である。図4では、Webページ情報を構成する項目の一例を示す。Webページ情報の項目の例は、Webブラウザを用いてWebページにアクセスしたときに、Webブラウザから取得したWebページの画像、HTMLソースコード、通信ログである。Webページ情報は、Webブラウザに導入したブラウザ拡張機能、Webブラウザの開発者用デバッグツールなどを用いることで、Webブラウザのアクセスを操作し、取得することができる。
図5の例を用いて、Webページの通信ログの一例について説明する。図5は、Webページ情報の一部である通信ログ情報の一例を示す図である。通信ログの項目の例は、通信が発生した時間であるタイムスタンプ、通信先URL、通信先のIPアドレス、直前にアクセスした通信先を表すHTMLリファラー、HTMLの通信内容を表すHTMLステータスコードである。
語句出現頻度特徴量抽出部12は、語句に関する特徴量として、Webページ情報から通信先情報とテキスト情報を抽出し、当該通信先情報と当該テキスト情報に含まれる語句の出現回数を計測する。つまり、Webページ情報に含まれる偽除去情報紹介サイトに固有の言語的な特徴を捉えることを目的として、語句出現頻度特徴量抽出部12は、Webページ情報に含まれるWebページの特徴量として、語句の出現頻度を計測し、特徴ベクトルを生成する。計測する対象の一例を図6に示す。図6は、語句出現頻度を計測する対象の一例を示す図である。
図6に例示するように、語句出現頻度特徴量抽出部12は、タイトル、テキスト、ドメイン名、URLパスのうち、いずれか一つまたは複数の計測対象から語句の出現頻度をそれぞれ計測する。語句出現頻度特徴量抽出部12は、WebページのHTMLソースコードからWebページに表示されるタイトル、テキストを抽出する。タイトルは、titleタグで囲まれた文字列を抽出することで取得できる。テキストは、各HTMLタグに囲まれた文字列を抽出し、Webブラウザが処理するためのJavaScript(登録商標)ソースコードをあらわすscriptタグやWebページのメタ情報を表すmetaタグに囲まれた文字列を除外することで取得できる。
また、語句出現頻度特徴量抽出部12は、通信ログから通信先URLを取得し、通信先URLからドメイン名とURLパスを取得する。出現頻度を計測する対象の語句は、同一の役割を持つ語句のカテゴリごとに予め設定する。図7は、出現頻度を計測する語句の一例を示す図である。図7の例では、語句とそのカテゴリの一例を示している。語句出現頻度特徴量抽出部12は、「方法」、「除去」、「脅威」、「デバイス」のうち、いずれか一つまたは複数のカテゴリごとに、既知の偽除去情報紹介サイトから頻出する語句を事前に抽出しておき、各カテゴリの語句の出現頻度を計測する。
図8では、語句出現頻度特徴量抽出部12が抽出した特徴量の特徴ベクトルの一例を示す。図8は、語句出現頻度の特徴ベクトルの一例を示す図である。語句出現頻度特徴量抽出部12は、計測対象ごとに、それぞれのカテゴリに設定した語句の出現頻度を計測し、その数値をベクトル化することで、特徴ベクトルを生成する。
画像出現頻度特徴量抽出部13は、画像に関する特徴量として、Webページ情報から画像情報を抽出し、当該画像情報に含まれる画像の出現回数を計測する。つまり、Webページ情報に含まれる偽除去情報紹介サイトに固有の画像的な特徴を捉えることを目的として、画像出現頻度特徴量抽出部13は、Webページ情報に含まれるWebページの特徴量として、画像の出現頻度を計測し、特徴ベクトルを生成する。画像出現頻度特徴量抽出部13は、Webブラウザによって描画されたWebページの画像の内部に含まれる、画像データの出現頻度を計測する。偽除去情報紹介サイトのWebページの画像の一例を図9に示す。図9は、偽除去情報紹介サイトのWebページの画像の一例を示す図である。
画像データは、既知の偽除去情報紹介サイトに頻出する画像をカテゴリごとに予め設定する。画像データのカテゴリの一例を図10に示す。図10は、出現頻度を計測する画像データのカテゴリの一例を示す図である。偽認証ロゴは、Webページの安全性を主張するために、偽除去情報紹介サイトが悪用するセキュリティベンダ企業やOSベンダ企業のロゴ画像である。
偽アンチウイルスソフトのパッケージは、偽アンチウイルスソフト製品のパッケージ画像である。ダウンロードボタンは偽アンチウイルスソフトのダウンロードを促すためのダウンロードボタンである。画像出現頻度特徴量抽出部13は、HTMLソースコードのaタグやimgタグに一致するHTMLエレメントの画像領域をWebページから抽出し、予め設定した画像データとの類似度を測定する。類似度の測定方法として、perceptual hashといった画像のハッシュ化アルゴリズムを利用することができる。
図11では、画像出現頻度特徴量抽出部13が抽出した特徴量の特徴ベクトルの一例を示す。図11は、画像出現頻度の特徴ベクトルの一例を示す図である。画像出現頻度特徴量抽出部13は、画像データのカテゴリごとに画像の出現頻度を計測し、その数値をベクトル化することで、特徴ベクトルを生成する。
HTML特徴量抽出部14は、HTMLソースコードに関する特徴量として、Webページ情報からHTMLソースコード情報を抽出し、HTML情報に含まれるリンク先の出現回数と構造情報を計測する。つまり、Webページ情報に含まれる偽除去情報紹介サイトに固有のHTMLの構造的な特徴を捉えることを目的として、HTML特徴量抽出部14は、Webページ情報に含まれるWebページの特徴量として、HTMLタグやリンク先のURLの出現頻度を計測し、特徴ベクトルを生成する。HTML特徴量抽出部14は、HTMLソースコードから通常使用されるHTMLタグのうち、いずれか一つまたは複数のHTMLタグの出現頻度を計測する。
また、HTML特徴量抽出部14は、aタグに含まれるWebページ内のリンク先のURLの出現頻度を計測する。予め、偽除去情報紹介サイトに頻出する外部サイトのリンク先URLを設定しておく。図12において、HTML特徴量抽出部14が抽出したHTMLタグの出現頻度の特徴量の特徴ベクトルの一例を示す。図12は、HTMLタグ出現頻度の特徴ベクトルの一例を示す図である。また、図13において、HTML特徴量抽出部14が抽出したリンク先URLの出現頻度の特徴量の特徴ベクトルの一例を示す。図13は、リンク先URL出現頻度の特徴ベクトルの一例を示す図である。HTML特徴量抽出部14は、HTMLタグの出現頻度とリンク先URLの出現頻度を計測し、その数値をベクトル化することで、特徴ベクトルを生成する。
通信ログ特徴量抽出部15は、通信ログに関する特徴量として、Webページ情報から通信ログ情報を抽出し、当該通信ログ情報に含まれる通信先の出現回数を計測する。つまり、Webページ情報に含まれる偽除去情報紹介サイトに固有の通信的な特徴を捉えることを目的として、通信ログ特徴量抽出部15は、Webページ情報に含まれるWebページの特徴量として、通信先URLの出現頻度を計測し、特徴ベクトルを生成する。通信ログ特徴量抽出部は、Webブラウザを用いてWebページにアクセスしたときに発生した通信のうち、外部サイトに対する通信内容から、通信先URLの出現頻度を計測する。予め、偽除去情報紹介サイトにアクセスしたときの通信に頻繁に含まれる外部サイトのURLを設定しておく。
図14において、HTML特徴量抽出部が抽出した通信先URLの出現頻度の特徴量の特徴ベクトルの一例を示す。図14は、通信先URL出現頻度の特徴ベクトルの一例を示す図である。通信ログ特徴量抽出部15は、通信先URLの出現頻度を計測し、その数値をベクトル化することで、特徴ベクトルを生成する。
学習部16は、Webページに関する情報に含まれる、語句に関する特徴量、画像に関する特徴量、HTMLソースコードに関する特徴量、および、通信ログに関する特徴量のうち、いずれか一つまたは複数の特徴量を訓練データとして用いて、訓練モデルを生成する。例えば、学習部16は、Webページ情報から抽出した語句出現頻度の特徴量、画像出現頻度の特徴量、HTMLの特徴量、通信ログの特徴量のうち、いずれか一つまたは複数の特徴量を統合した特徴ベクトルを訓練データとして用いて、訓練モデルを生成する。
図15において、Webページ情報から抽出した語句出現頻度の特徴量、画像出現頻度の特徴量、HTMLの特徴量、通信ログの特徴量を統合した訓練データの一例を示す。図15は、特徴量を統合した特徴ベクトルの一例を示す図である。学習部16は、2クラス分類を実施可能な教師あり機械学習手法を用いて訓練モデルの生成を行い、記憶部17に訓練モデルを記録する。2クラス分類を実施可能な教師あり機械学習手法の例としてサポートベクターマシンやランダムフォレストがあるが、これらに限るものではない。学習部16は、既知の偽除去情報紹介サイトとそれ以外のWebページから特徴量を抽出して訓練データを作成し、教師あり機械学習手法を用いて訓練モデルを生成する。
続いて、以下に、検出装置20の各部について説明する。なお、Webページ情報入力部21、語句出現頻度特徴量抽出部22、画像出現頻度特徴量抽出部23、HTML特徴量抽出部24、通信ログ特徴量抽出部25は、それぞれ、上述したWebページ情報入力部11、語句出現頻度特徴量抽出部12、画像出現頻度特徴量抽出部13、HTML特徴量抽出部14、通信ログ特徴量抽出部15と同様の処理を行っているため、重複する説明は省略して簡単に説明する。
Webページ情報入力部21は、検出対象のWebページに関する情報の入力を受け付ける。具体的には、Webページ情報入力部21は、Webブラウザを用いてWebページにアクセスし、Webブラウザから取得したWebページ情報の入力を受け付ける。
語句出現頻度特徴量抽出部22は、語句に関する特徴量として、Webページ情報から通信先情報とテキスト情報を抽出し、当該通信先情報と当該テキスト情報に含まれる語句の出現回数を計測する。画像出現頻度特徴量抽出部23は、画像に関する特徴量として、Webページ情報から画像情報を抽出し、当該画像情報に含まれる画像の出現回数を計測する。
HTML特徴量抽出部24は、HTMLソースコードに関する特徴量として、Webページ情報からHTMLソースコード情報を抽出し、HTML情報に含まれるリンク先の出現回数と構造情報を計測する。通信ログ特徴量抽出部25は、通信ログに関する特徴量として、Webページ情報から通信ログ情報を抽出し、当該通信ログ情報に含まれる通信先の出現回数を計測する。
検出部26は、Webページに関する情報に含まれる、語句に関する特徴量、画像に関する特徴量、HTMLソースコードに関する特徴量、および、通信ログに関する特徴量のうち、いずれか一つまたは複数の特徴量を入力データとして、予め学習された訓練モデルに入力し、訓練モデルの出力結果に応じて、検出対象のWebページが偽除去情報紹介サイトであることを検出する。
具体的には、検出部26は、記憶部28から訓練モデルを読み出し、学習部16と同様に、Webページ情報から抽出した特徴ベクトルを入力データとして、予め学習された訓練モデルに入力し、訓練モデルの出力結果に応じてWebページが偽除去情報紹介サイトであることを検出する。なお、検出部26は、検出対象のWebページが偽除去情報紹介サイトであるか否かを判定するだけでなく、訓練モデルの出力結果に応じて検出対象のWebページが偽除去情報紹介サイトである確率を示す数値をもとめてもよい。
出力部27は、検出部26によって検出された結果を出力する。例えば、出力部27は、検出対象のWebページが偽除去情報紹介サイトであるか否かを示すメッセージを出力してもよいし、検出対象のWebページが偽除去情報紹介サイトである確率を示すメッセージを出力してもよい。なお、出力態様は、メッセージ限定されるものではなく、画像や音声等どのようなものであってもよい。
[学習処理および検出処理の処理手順]
次に、図16および図17を用いて、実施の形態に係る学習処理および検出処理の処理手順について説明する。図16は、訓練モデル生成処理のフローチャートを示す図である。図17は、検出処理のフローチャートを示す図である。
図16に示すように、学習装置10のWebページ情報入力部11は、偽除去情報紹介サイトである、またはそうでないことが既知のWebページのWebページ情報の入力を受け付ける(ステップS101)。そして、語句出現頻度特徴量抽出部12は、語句出現頻度特徴量の抽出処理を行う(ステップS102)。具体的には、語句出現頻度特徴量抽出部12は、語句に関する特徴量として、Webページ情報から通信先情報とテキスト情報を抽出する処理をし、当該通信先情報と当該テキスト情報に含まれる語句の出現回数を計測する。
続いて、画像出現頻度特徴量抽出部13は、画像出現頻度特徴量の抽出処理を行う(ステップS103)。具体的には、画像出現頻度特徴量抽出部13は、画像に関する特徴量として、Webページ情報から画像情報を抽出し、当該画像情報に含まれる画像の出現回数を計測する。そして、HTML特徴量抽出部14は、HTML特徴量の抽出処理を行う(ステップS104)。具体的には、HTML特徴量抽出部14は、HTMLソースコードに関する特徴量として、Webページ情報からHTMLソースコード情報を抽出し、HTML情報に含まれるリンク先の出現回数と構造情報を計測する。
続いて、通信ログ特徴量抽出部15は、通信ログ特徴量の抽出を行う(ステップS105)。具体的には、通信ログ特徴量抽出部15は、通信ログに関する特徴量として、Webページ情報から通信ログ情報を抽出し、当該通信ログ情報に含まれる通信先の出現回数を計測する。その後、学習部16は、各特徴量を統合して訓練データを生成する(ステップS106)。そして、学習部16は、教師あり機械学習手法により訓練モデルを生成する(ステップS107)。
また、図17に示すように、検出装置20のWebページ情報入力部21は、検出対象のWebページのWebページ情報の入力を受け付ける(ステップS201)。そして、語句出現頻度特徴量抽出部22は、語句出現頻度特徴量の抽出処理を行う(ステップS202)。具体的には、語句出現頻度特徴量抽出部22は、語句に関する特徴量として、Webページ情報から通信先情報とテキスト情報を抽出する処理をし、当該通信先情報と当該テキスト情報に含まれる語句の出現回数を計測する。
続いて、画像出現頻度特徴量抽出部23は、画像出現頻度特徴量の抽出処理を行う(ステップS203)。具体的には、画像出現頻度特徴量抽出部23は、画像に関する特徴量として、Webページ情報から画像情報を抽出し、当該画像情報に含まれる画像の出現回数を計測する。そして、HTML特徴量抽出部24は、HTML特徴量の抽出処理を行う(ステップS204)。具体的には、HTML特徴量抽出部24は、HTMLソースコードに関する特徴量として、Webページ情報からHTMLソースコード情報を抽出し、HTML情報に含まれるリンク先の出現回数と構造情報を計測する。
続いて、通信ログ特徴量抽出部25は、通信ログ特徴量の抽出を行う(ステップS205)。具体的には、通信ログ特徴量抽出部25は、通信ログに関する特徴量として、Webページ情報から通信ログ情報を抽出し、当該通信ログ情報に含まれる通信先の出現回数を計測する。
そして、検出部26は、特徴量を統合して入力データを生成する(ステップS206)。続いて、検出部26は、学習済みの訓練モデルに入力データを入力し、Webページが偽除去情報紹介サイトであることを検出する(ステップS207)。
[実施形態の効果]
このように、第1の実施形態に係る学習装置10は、偽のウイルス除去方法を紹介する偽除去情報紹介サイトであるか否かが既知であるWebページに関する情報の入力を受け付け、Webページに関する情報に含まれる、語句に関する特徴量、画像に関する特徴量、HTMLソースコードに関する特徴量、および、通信ログに関する特徴量のうち、いずれか一つまたは複数の特徴量を訓練データとして用いて、訓練モデルを生成する。
また、検出装置20は、Webページに関する情報の入力を受け付け、Webページに関する情報に含まれる、語句に関する特徴量、画像に関する特徴量、HTMLソースコードに関する特徴量、および、通信ログに関する特徴量のうち、いずれか一つまたは複数の特徴量を入力データとして、予め学習された訓練モデルに入力し、訓練モデルの出力結果に応じて、Webページが偽除去情報紹介サイトであることを検出する。
このため、実施形態に係る検出システム1は、Webブラウザから取得したWebページ情報から、言語的特徴、画像的特徴、HTMLの構造的特徴、リンク先の特徴、通信先の特徴を分析することで、偽除去情報紹介サイトに固有の特徴をとらえ、従来技術で検出できなかった偽除去情報紹介サイトを精度良く検出することができる。
つまり、検出システム1では、Webブラウザを用いてWebページにアクセスしたときのWebページ情報を用いて、セキュリティ被害を受けたユーザに対処する偽の方法を紹介する悪性なWebページである偽除去情報紹介サイトの言語的、画像的、HTMLの構造的特徴を、ユーザに対する心理的な働きかけと、それに伴うシステムの構造という観点でとらえ、入力した任意のWebページから偽除去情報紹介サイトを検出することができるという効果を奏する。
[システム構成等]
また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。さらに、各装置にて行なわれる各処理機能は、その全部または任意の一部が、CPUおよび当該CPUにて解析実行されるプログラムにて実現され、あるいは、ワイヤードロジックによるハードウェアとして実現され得る。
また、本実施の形態において説明した各処理のうち、自動的におこなわれるものとして説明した処理の全部または一部を手動的におこなうこともでき、あるいは、手動的におこなわれるものとして説明した処理の全部または一部を公知の方法で自動的におこなうこともできる。この他、上記文書中や図面中で示した処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。
[プログラム]
図18は、プログラムを実行するコンピュータを示す図である。図18では、プログラムが実行されることにより、学習装置10または検出装置20が実現されるコンピュータの一例を示す。コンピュータ1000は、例えば、メモリ1010、CPU1020を有する。また、コンピュータ1000は、ハードディスクドライブインタフェース1030、ディスクドライブインタフェース1040、シリアルポートインタフェース1050、ビデオアダプタ1060、ネットワークインタフェース1070を有する。これらの各部は、バス1080によって接続される。
メモリ1010は、ROM(Read Only Memory)1011及びRAM1012を含む。ROM1011は、例えば、BIOS(Basic Input Output System)等のブートプログラムを記憶する。ハードディスクドライブインタフェース1030は、ハードディスクドライブ1090に接続される。ディスクドライブインタフェース1040は、ディスクドライブ1100に接続される。例えば磁気ディスクや光ディスク等の着脱可能な記憶媒体が、ディスクドライブ1100に挿入される。シリアルポートインタフェース1050は、例えばマウス1051、キーボード1052に接続される。ビデオアダプタ1060は、例えばディスプレイ1061に接続される。
ハードディスクドライブ1090は、例えば、OS1091、アプリケーションプログラム1092、プログラムモジュール1093、プログラムデータ1094を記憶する。すなわち、学習装置10または検出装置20の各処理を規定するプログラムは、コンピュータにより実行可能なコードが記述されたプログラムモジュール1093として実装される。プログラムモジュール1093は、例えばハードディスクドライブ1090に記憶される。例えば、装置における機能構成と同様の処理を実行するためのプログラムモジュール1093が、ハードディスクドライブ1090に記憶される。なお、ハードディスクドライブ1090は、SSD(Solid State Drive)により代替されてもよい。
また、上述した実施の形態の処理で用いられるデータは、プログラムデータ1094として、例えばメモリ1010やハードディスクドライブ1090に記憶される。そして、CPU1020が、メモリ1010やハードディスクドライブ1090に記憶されたプログラムモジュール1093やプログラムデータ1094を必要に応じてRAM1012に読み出して実行する。
なお、プログラムモジュール1093やプログラムデータ1094は、ハードディスクドライブ1090に記憶される場合に限らず、例えば着脱可能な記憶媒体に記憶され、ディスクドライブ1100等を介してCPU1020によって読み出されてもよい。あるいは、プログラムモジュール1093及びプログラムデータ1094は、ネットワーク、WANを介して接続された他のコンピュータに記憶されてもよい。そして、プログラムモジュール1093及びプログラムデータ1094は、他のコンピュータから、ネットワークインタフェース1070を介してCPU1020によって読み出されてもよい。
1 検出システム
10 学習装置
11、21 Webページ情報入力部
12、22 語句出現頻度特徴量抽出部
13、23 画像出現頻度特徴量抽出部
14、24 HTML特徴量抽出部
15、25 通信ログ特徴量抽出部
16 学習部
17、28 記憶部
26 検出部
27 出力部

Claims (6)

  1. 偽のウイルス除去方法を紹介する悪性サイトであるか否かが既知であるWebページに関する情報の入力を受け付ける入力部と、
    前記Webページに関する情報に含まれる、語句に関する特徴量、画像に関する特徴量、HTMLソースコードに関する特徴量、および、通信ログに関する特徴量を訓練データとして用いて、訓練モデルを生成する学習部とを有し、
    前記語句に関する特徴量として、前記Webページに関する情報から通信先情報とテキスト情報を抽出し、当該通信先情報と当該テキスト情報に含まれる語句のうち、偽のウイルス除去方法を紹介する既知の悪性サイトにおいて頻出する語句として予め設定された語句の出現回数を計測する第一の特徴量抽出部と、
    前記画像に関する特徴量として、前記Webページに関する情報から画像情報を抽出し、当該画像情報に含まれる画像のうち、偽のウイルス除去方法を紹介する既知の悪性サイトにおいて頻出する画像として予め設定された画像の出現回数を計測する第二の特徴量抽出部と、
    前記HTMLソースコードに関する特徴量として、前記Webページに関する情報からHTMLソースコード情報を抽出し、当該HTMLソースコード情報に含まれるリンク先のうち、偽のウイルス除去方法を紹介する既知の悪性サイトにおいて頻出するリンク先として予め設定されたリンク先の出現回数と構造情報を計測する第三の特徴量抽出部と、
    前記通信ログに関する特徴量として、前記Webページに関する情報から通信ログ情報を抽出し、当該通信ログ情報に含まれる通信先のうち、偽のウイルス除去方法を紹介する既知の悪性サイトにアクセスしたときの通信に頻繁に含まれる通信先として予め設定された通信先の出現回数を計測する第四の特徴量抽出部と
    さらに有することを特徴とする学習装置。
  2. Webページに関する情報の入力を受け付ける入力部と、
    前記Webページに関する情報に含まれる、語句に関する特徴量、画像に関する特徴量、HTMLソースコードに関する特徴量、および、通信ログに関する特徴量を入力データとして、予め学習された訓練モデルに入力し、前記訓練モデルの出力結果に応じて、前記Webページが偽のウイルス除去方法を紹介する悪性サイトであることを検出する検出部とを有し、
    前記語句に関する特徴量として、前記Webページに関する情報から通信先情報とテキスト情報を抽出し、当該通信先情報と当該テキスト情報に含まれる語句のうち、偽のウイルス除去方法を紹介する既知の悪性サイトにおいて頻出する語句として予め設定された語句の出現回数を計測する第一の特徴量抽出部と、
    前記画像に関する特徴量として、前記Webページに関する情報から画像情報を抽出し、当該画像情報に含まれる画像のうち、偽のウイルス除去方法を紹介する既知の悪性サイトにおいて頻出する画像として予め設定された画像の出現回数を計測する第二の特徴量抽出部と、
    前記HTMLソースコードに関する特徴量として、前記Webページに関する情報からHTMLソースコード情報を抽出し、当該HTMLソースコード情報に含まれるリンク先のうち、偽のウイルス除去方法を紹介する既知の悪性サイトにおいて頻出するリンク先として予め設定されたリンク先の出現回数と構造情報を計測する第三の特徴量抽出部と、
    前記通信ログに関する特徴量として、前記Webページに関する情報から通信ログ情報を抽出し、当該通信ログ情報に含まれる通信先のうち、偽のウイルス除去方法を紹介する既知の悪性サイトにアクセスしたときの通信に頻繁に含まれる通信先として予め設定された通信先の出現回数を計測する第四の特徴量抽出部と
    さらに有することを特徴とする検出装置。
  3. 学習装置によって実行される学習方法であって、
    偽のウイルス除去方法を紹介する悪性サイトであるか否かが既知であるWebページに関する情報の入力を受け付ける入力工程と、
    前記Webページに関する情報に含まれる、語句に関する特徴量、画像に関する特徴量、HTMLソースコードに関する特徴量、および、通信ログに関する特徴量を訓練データとして用いて、訓練モデルを生成する学習工程とを含み、
    前記語句に関する特徴量として、前記Webページに関する情報から通信先情報とテキスト情報を抽出し、当該通信先情報と当該テキスト情報に含まれる語句のうち、偽のウイルス除去方法を紹介する既知の悪性サイトにおいて頻出する語句として予め設定された語句の出現回数を計測する第一の特徴量抽出工程と、
    前記画像に関する特徴量として、前記Webページに関する情報から画像情報を抽出し、当該画像情報に含まれる画像のうち、偽のウイルス除去方法を紹介する既知の悪性サイトにおいて頻出する画像として予め設定された画像の出現回数を計測する第二の特徴量抽出工程と、
    前記HTMLソースコードに関する特徴量として、前記Webページに関する情報からHTMLソースコード情報を抽出し、当該HTMLソースコード情報に含まれるリンク先のうち、偽のウイルス除去方法を紹介する既知の悪性サイトにおいて頻出するリンク先として予め設定されたリンク先の出現回数と構造情報を計測する第三の特徴量抽出工程と、
    前記通信ログに関する特徴量として、前記Webページに関する情報から通信ログ情報を抽出し、当該通信ログ情報に含まれる通信先のうち、偽のウイルス除去方法を紹介する既知の悪性サイトにアクセスしたときの通信に頻繁に含まれる通信先として予め設定された通信先の出現回数を計測する第四の特徴量抽出工程と
    さらに含むことを特徴とする学習方法。
  4. 検出装置によって実行される検出方法であって、
    Webページに関する情報の入力を受け付ける入力工程と、
    前記Webページに関する情報に含まれる、語句に関する特徴量、画像に関する特徴量、HTMLソースコードに関する特徴量、および、通信ログに関する特徴量を入力データとして、予め学習された訓練モデルに入力し、前記訓練モデルの出力結果に応じて、前記Webページが偽のウイルス除去方法を紹介する悪性サイトであることを検出する検出工程とを含み、
    前記語句に関する特徴量として、前記Webページに関する情報から通信先情報とテキスト情報を抽出し、当該通信先情報と当該テキスト情報に含まれる語句のうち、偽のウイルス除去方法を紹介する既知の悪性サイトにおいて頻出する語句として予め設定された語句の出現回数を計測する第一の特徴量抽出工程と、
    前記画像に関する特徴量として、前記Webページに関する情報から画像情報を抽出し、当該画像情報に含まれる画像のうち、偽のウイルス除去方法を紹介する既知の悪性サイトにおいて頻出する画像として予め設定された画像の出現回数を計測する第二の特徴量抽出工程と、
    前記HTMLソースコードに関する特徴量として、前記Webページに関する情報からHTMLソースコード情報を抽出し、当該HTMLソースコード情報に含まれるリンク先のうち、偽のウイルス除去方法を紹介する既知の悪性サイトにおいて頻出するリンク先として予め設定されたリンク先の出現回数と構造情報を計測する第三の特徴量抽出工程と、
    前記通信ログに関する特徴量として、前記Webページに関する情報から通信ログ情報を抽出し、当該通信ログ情報に含まれる通信先のうち、偽のウイルス除去方法を紹介する既知の悪性サイトにアクセスしたときの通信に頻繁に含まれる通信先として予め設定された通信先の出現回数を計測する第四の特徴量抽出工程と
    さらに含むことを特徴とする検出方法。
  5. 偽のウイルス除去方法を紹介する悪性サイトであるか否かが既知であるWebページに関する情報の入力を受け付ける入力ステップと、
    前記Webページに関する情報に含まれる、語句に関する特徴量、画像に関する特徴量、HTMLソースコードに関する特徴量、および、通信ログに関する特徴量を訓練データとして用いて、訓練モデルを生成する学習ステップとをコンピュータに実行させ、
    前記語句に関する特徴量として、前記Webページに関する情報から通信先情報とテキスト情報を抽出し、当該通信先情報と当該テキスト情報に含まれる語句のうち、偽のウイルス除去方法を紹介する既知の悪性サイトにおいて頻出する語句として予め設定された語句の出現回数を計測する第一の特徴量抽出ステップと、
    前記画像に関する特徴量として、前記Webページに関する情報から画像情報を抽出し、当該画像情報に含まれる画像のうち、偽のウイルス除去方法を紹介する既知の悪性サイトにおいて頻出する画像として予め設定された画像の出現回数を計測する第二の特徴量抽出ステップと、
    前記HTMLソースコードに関する特徴量として、前記Webページに関する情報からHTMLソースコード情報を抽出し、当該HTMLソースコード情報に含まれるリンク先のうち、偽のウイルス除去方法を紹介する既知の悪性サイトにおいて頻出するリンク先として予め設定されたリンク先の出現回数と構造情報を計測する第三の特徴量抽出ステップと、
    前記通信ログに関する特徴量として、前記Webページに関する情報から通信ログ情報を抽出し、当該通信ログ情報に含まれる通信先のうち、偽のウイルス除去方法を紹介する既知の悪性サイトにアクセスしたときの通信に頻繁に含まれる通信先として予め設定された通信先の出現回数を計測する第四の特徴量抽出ステップと
    さらにコンピュータに実行させることを特徴とする学習プログラム。
  6. Webページに関する情報の入力を受け付ける入力ステップと、
    前記Webページに関する情報に含まれる、語句に関する特徴量、画像に関する特徴量、HTMLソースコードに関する特徴量、および、通信ログに関する特徴量を入力データとして、予め学習された訓練モデルに入力し、前記訓練モデルの出力結果に応じて、前記Webページが偽のウイルス除去方法を紹介する悪性サイトであることを検出する検出ステップとをコンピュータに実行させ、
    前記語句に関する特徴量として、前記Webページに関する情報から通信先情報とテキスト情報を抽出し、当該通信先情報と当該テキスト情報に含まれる語句のうち、偽のウイルス除去方法を紹介する既知の悪性サイトにおいて頻出する語句として予め設定された語句の出現回数を計測する第一の特徴量抽出ステップと、
    前記画像に関する特徴量として、前記Webページに関する情報から画像情報を抽出し、当該画像情報に含まれる画像のうち、偽のウイルス除去方法を紹介する既知の悪性サイトにおいて頻出する画像として予め設定された画像の出現回数を計測する第二の特徴量抽出ステップと、
    前記HTMLソースコードに関する特徴量として、前記Webページに関する情報からHTMLソースコード情報を抽出し、当該HTMLソースコード情報に含まれるリンク先のうち、偽のウイルス除去方法を紹介する既知の悪性サイトにおいて頻出するリンク先として予め設定されたリンク先の出現回数と構造情報を計測する第三の特徴量抽出ステップと、
    前記通信ログに関する特徴量として、前記Webページに関する情報から通信ログ情報を抽出し、当該通信ログ情報に含まれる通信先のうち、偽のウイルス除去方法を紹介する既知の悪性サイトにアクセスしたときの通信に頻繁に含まれる通信先として予め設定された通信先の出現回数を計測する第四の特徴量抽出ステップと
    さらにコンピュータに実行させることを特徴とする検出プログラム。
JP2022522467A 2020-05-15 2020-05-15 学習装置、検出装置、学習方法、検出方法、学習プログラムおよび検出プログラム Active JP7439916B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2020/019390 WO2021229786A1 (ja) 2020-05-15 2020-05-15 学習装置、検出装置、学習方法、検出方法、学習プログラムおよび検出プログラム

Publications (2)

Publication Number Publication Date
JPWO2021229786A1 JPWO2021229786A1 (ja) 2021-11-18
JP7439916B2 true JP7439916B2 (ja) 2024-02-28

Family

ID=78525565

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022522467A Active JP7439916B2 (ja) 2020-05-15 2020-05-15 学習装置、検出装置、学習方法、検出方法、学習プログラムおよび検出プログラム

Country Status (4)

Country Link
US (1) US20230179627A1 (ja)
EP (1) EP4137976A4 (ja)
JP (1) JP7439916B2 (ja)
WO (1) WO2021229786A1 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11539745B2 (en) * 2019-03-22 2022-12-27 Proofpoint, Inc. Identifying legitimate websites to remove false positives from domain discovery analysis
US20230344867A1 (en) * 2022-04-25 2023-10-26 Palo Alto Networks, Inc. Detecting phishing pdfs with an image-based deep learning approach

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012022419A (ja) 2010-07-13 2012-02-02 Yahoo Japan Corp 学習データ作成装置、学習データ作成方法及びプログラム
JP2012043285A (ja) 2010-08-20 2012-03-01 Kddi Corp 文書情報の文章的特徴及び外形的特徴に基づく文書分類プログラム、サーバ及び方法
WO2017217163A1 (ja) 2016-06-17 2017-12-21 日本電信電話株式会社 アクセス分類装置、アクセス分類方法及びアクセス分類プログラム
US20200067861A1 (en) 2014-12-09 2020-02-27 ZapFraud, Inc. Scam evaluation system

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8448245B2 (en) * 2009-01-17 2013-05-21 Stopthehacker.com, Jaal LLC Automated identification of phishing, phony and malicious web sites
US8631498B1 (en) * 2011-12-23 2014-01-14 Symantec Corporation Techniques for identifying potential malware domain names
US9979748B2 (en) * 2015-05-27 2018-05-22 Cisco Technology, Inc. Domain classification and routing using lexical and semantic processing
EP3599753A1 (en) * 2018-07-25 2020-01-29 Cyren Inc. Phishing detection system and method

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012022419A (ja) 2010-07-13 2012-02-02 Yahoo Japan Corp 学習データ作成装置、学習データ作成方法及びプログラム
JP2012043285A (ja) 2010-08-20 2012-03-01 Kddi Corp 文書情報の文章的特徴及び外形的特徴に基づく文書分類プログラム、サーバ及び方法
US20200067861A1 (en) 2014-12-09 2020-02-27 ZapFraud, Inc. Scam evaluation system
WO2017217163A1 (ja) 2016-06-17 2017-12-21 日本電信電話株式会社 アクセス分類装置、アクセス分類方法及びアクセス分類プログラム

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
STRINGHINI Gianluca, KRUEGEL Christopher, and VIGNA Giovanni,Shady Paths:Leveraging Surfing Crowds to Detect Malicious Web Pages,CCS'13: Proceedings of the 2013ACM SIGSAC conference on Computer & communications security,Association for Computing Machinery,2013年11月04日,pp.133-144,ISBN978-1-4503-2477-9
三須剛史, 佐藤順子, 花田真樹, 山口崇志, 布広永示,セキュリティインシデント解析支援を目的とした悪性Webサイト発見システムの提案,CSS2016 コンピュータセキュリティシンポジウム2016 論文集 [CD-ROM] ,日本,2016年10月04日,第2016巻, 第2号, pp.1240-1244

Also Published As

Publication number Publication date
EP4137976A1 (en) 2023-02-22
WO2021229786A1 (ja) 2021-11-18
US20230179627A1 (en) 2023-06-08
JPWO2021229786A1 (ja) 2021-11-18
EP4137976A4 (en) 2024-01-03

Similar Documents

Publication Publication Date Title
Jeeva et al. Intelligent phishing url detection using association rule mining
CN110233849B (zh) 网络安全态势分析的方法及***
Liu et al. A novel approach for detecting browser-based silent miner
US9253208B1 (en) System and method for automated phishing detection rule evolution
US20110041179A1 (en) Malware detection
US20220030029A1 (en) Phishing Protection Methods and Systems
KR20180081053A (ko) 도메인 생성 알고리즘(dga) 멀웨어 탐지를 위한 시스템 및 방법들
Shahzad et al. Detecting scareware by mining variable length instruction sequences
JP7439916B2 (ja) 学習装置、検出装置、学習方法、検出方法、学習プログラムおよび検出プログラム
Jain et al. Detection of phishing attacks in financial and e-banking websites using link and visual similarity relation
Gorji et al. Detecting obfuscated JavaScript malware using sequences of internal function calls
CN112817877B (zh) 异常脚本检测方法、装置、计算机设备和存储介质
Burgess et al. Manic: Multi-step assessment for crypto-miners
CN116932381A (zh) 小程序安全风险自动化评估方法及相关设备
JP7180765B2 (ja) 学習装置、判定装置、学習方法、判定方法、学習プログラムおよび判定プログラム
Luh et al. LLR-based sentiment analysis for kernel event sequences
Simms et al. Keylogger detection using a decoy keyboard
Jawhar A Survey on Malware Attacks Analysis and Detected
Deepserish et al. PET-Droid: Android Malware Detection Using Static Analysis
Dabral et al. Malicious PDF files detection using structural and javascript based features
Vishnu et al. Static and dynamic learning-based PDF malware detection classifiers—A comparative study
Suresh Analyzing Android Adware
JP7013297B2 (ja) 不正検知装置、不正検知ネットワークシステム、及び不正検知方法
Al Shamsi Mapping, Exploration, and Detection Strategies for Malware Universe
Biedermann et al. Data-centric phishing detection based on transparent virtualization technologies

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220829

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230919

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20231024

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20240116

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20240129

R150 Certificate of patent or registration of utility model

Ref document number: 7439916

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150