JP6894058B2 - 危険アドレス識別方法及びコンピュータ可読記憶媒体、並びに電子装置 - Google Patents

危険アドレス識別方法及びコンピュータ可読記憶媒体、並びに電子装置 Download PDF

Info

Publication number
JP6894058B2
JP6894058B2 JP2019542684A JP2019542684A JP6894058B2 JP 6894058 B2 JP6894058 B2 JP 6894058B2 JP 2019542684 A JP2019542684 A JP 2019542684A JP 2019542684 A JP2019542684 A JP 2019542684A JP 6894058 B2 JP6894058 B2 JP 6894058B2
Authority
JP
Japan
Prior art keywords
address
word
address word
dangerous
computer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019542684A
Other languages
English (en)
Other versions
JP2020524314A (ja
Inventor
スン,チンチン
Original Assignee
アドバンスド ニュー テクノロジーズ カンパニー リミテッド
アドバンスド ニュー テクノロジーズ カンパニー リミテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by アドバンスド ニュー テクノロジーズ カンパニー リミテッド, アドバンスド ニュー テクノロジーズ カンパニー リミテッド filed Critical アドバンスド ニュー テクノロジーズ カンパニー リミテッド
Publication of JP2020524314A publication Critical patent/JP2020524314A/ja
Application granted granted Critical
Publication of JP6894058B2 publication Critical patent/JP6894058B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/50Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
    • G06F21/55Detecting local intrusion or implementing counter-measures
    • G06F21/56Computer malware detection or handling, e.g. anti-virus arrangements
    • G06F21/562Static detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/10Machine learning using kernel methods, e.g. support vector machines [SVM]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/29Graphical models, e.g. Bayesian networks
    • G06F18/295Markov models or related models, e.g. semi-Markov models; Markov random fields; Networks embedding Markov models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/50Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
    • G06F21/55Detecting local intrusion or implementing counter-measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2221/00Indexing scheme relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F2221/21Indexing scheme relating to G06F21/00 and subgroups addressing additional information or applications relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F2221/2119Authenticating web pages, e.g. with suspicious links
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/06Buying, selling or leasing transactions
    • G06Q30/0601Electronic shopping [e-shopping]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computer Hardware Design (AREA)
  • Evolutionary Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Virology (AREA)
  • Algebra (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Analysis (AREA)
  • Computational Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Business, Economics & Management (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • Development Economics (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)

Description

技術分野
本明細書は、コンピュータ技術の分野に関し、特に危険アドレス識別方法及び機器、並びに電子装置に関する。
技術背景
オンライン金融取引は、ますます発展しており、マネーロンダリングなどの違法なマネー操作を行うためにオンライン金融を不法に用いるユーザもいる。違法なオンライン金融取引の発生を防ぐために、危険アドレスを識別するための幾つかの解決法が既に存在するが、それらの解決法は、一般に、比較的通常の危険アドレスを識別することを目標とする解決法である。
例えば、単語分割及びラベル付けが、単語分割アルゴリズムを用いて、入力アドレスに対して実行されてもよく、最後に、照合結果を介して、入力アドレスが危険アドレスであるかどうかを識別するために、アドレス語照合が、相異なるアドレス語のラベル付けされた情報に従って一つずつ実行される。
先行技術に基づいて、より正確な危険アドレス識別解決法が必要とされる。
発明の概要
本明細書の実施形態は、次の技術的問題、即ちより正確な危険アドレス識別解決法が必要とされるという問題を解決するための危険アドレス識別方法及び機器、並びに電子装置を提供する。
上記の技術的問題を解決するために、本明細書の実施形態は、次のように実施される。
本明細書の実施形態は、危険アドレス識別方法であって、
入力アドレスに対応するアドレス語シーケンスを取得することと、
アドレス語シーケンスに含まれる様々なアドレス語において、各危険アドレスに対応する危険語にヒットするアドレス語を決定することと、
決定されたアドレス語に従って、アドレス語シーケンスに対応する観察シーケンスを生成することと、
決定ベクトルを取得するために、アドレス語の前後のセマンティクス学習に基づいて取得された隠れマルコフモデルを用いて観察シーケンスを処理することであって、決定ベクトルが、アドレス語シーケンスに含まれる様々なアドレス語によってヒットされる危険アドレスの確率を表すことと、
決定ベクトルに対して分類決定を行うことによって、入力アドレスが危険アドレスであるかどうかを識別することと、
を含む方法を提供する。
本明細書の実施形態は、危険アドレス識別機器であって、
入力アドレスに対応するアドレス語シーケンスを取得するための受信モジュールと、
アドレス語シーケンスに含まれる様々なアドレス語において、各危険アドレスに対応する危険語にヒットするアドレス語を決定するための照合モジュールと、
決定されたアドレス語に従って、アドレス語シーケンスに対応する観察シーケンスを生成するための生成モジュールと、
決定ベクトルを取得するために、アドレス語の前後のセマンティクス学習に基づいて取得された隠れマルコフモデルを用いて観察シーケンスを処理するためのラベル付けモジュールであって、決定ベクトルが、アドレス語シーケンスに含まれる様々なアドレス語によってヒットされる危険アドレスの確率を表すラベル付けモジュールと、
決定ベクトルに対して分類決定を行うことによって、入力アドレスが危険アドレスであるかどうかを識別するための識別モジュールと、
を含む機器を提供する。
本明細書の実施形態は、電子装置であって、
少なくとも1つのプロセッサと、
少なくとも1つのプロセッサと通信接続するメモリとを含み、
メモリが、少なくとも1つのプロセッサによって実行可能な命令を格納し、少なくとも1つのプロセッサが、
入力アドレスに対応するアドレス語シーケンスを取得することと、
アドレス語シーケンスに含まれる様々なアドレス語において、各危険アドレスに対応する危険語にヒットするアドレス語を決定することと、
決定されたアドレス語に従って、アドレス語シーケンスに対応する観察シーケンスを生成することと、
決定ベクトルを取得するために、アドレス語の前後のセマンティクス学習に基づいて取得された隠れマルコフモデルを用いて観察シーケンスを処理することであって、決定ベクトルが、アドレス語シーケンスに含まれる様々なアドレス語によってヒットされる危険アドレスの確率を表すことと、
決定ベクトルに対して分類決定を行うことによって、入力アドレスが危険アドレスであるかどうかを識別することとをできるようにするために、命令が、少なくとも1つのプロセッサによって実行される、
電子装置を提供する。
本明細書の実施形態において用いられる上記の技術的解決法の少なくとも1つは、次の有益な効果を達成することができる。即ち、入力アドレスの処理後に取得されたアドレス語及び当該アドレス語の前後のセマンティクスに従って、入力アドレスの分類決定結果を取得するために、アドレス語の前後のセマンティクス学習に基づいて取得された隠れマルコフモデル、及びサポートベクトルマシンモデルを用い、その結果、危険アドレスが、より正確に識別され得る。
図面の簡単な説明
本明細書の実施形態における技術的解決法又は先行技術をより明確に示すために、実施形態又は先行技術の説明において用いられる添付の図面が、以下で簡単に導入される。明らかに、以下の説明における添付の図面は、単に、本明細書で言明される幾つかの実施形態を示すだけであり、当業者は、どんな創造的な労力もなしに、これらの添付の図面から他の図面を導き出すことが可能である。
実用化シナリオにおいて本明細書の解決法に含まれる全体的なアーキテクチャの概略図である。 本明細書の実施形態において提供される危険アドレス識別方法の概略流れ図である。 本明細書の実施形態において提供される隠れマルコフモデル用のモデリング方法の概略流れ図である。 本明細書の実施形態において提供されるサポートベクトルマシンモデル用のモデリング方法の概略流れ図である。 本明細書の実施形態において提供される危険アドレス識別機器の概略構造図である。 アドレスが危険を有しないことを危険アドレス識別が示す、本明細書の実施形態において提供される概略流れ図である。 アドレスが危険であることを危険アドレス識別が示す、本明細書の実施形態において提供される概略流れ図である。 本明細書の実施形態において提供される危険アドレス識別のモデリング及び識別の概略流れ図である。
詳細な説明
本明細書の実施形態は、危険アドレス識別方法及び機器、並びに電子装置を提供する。
本明細書における技術的解決法を当業者に一層よく理解させるために、本明細書の実施形態における技術的解決法は、本明細書の実施形態における添付の図面に関連して以下で明確に且つ完全に説明される。説明される実施形態が、本出願の実施形態の全てではなく、それらの単に幾つかだけであることが明白である。創造的な労力なしに、本明細書の実施形態に基づいて当業者によって取得される全ての他の実施形態は、本出願の保護範囲内に入るものとする。
図1は、実用化シナリオにおける本明細書の解決法に関わる全体的なアーキテクチャの概略図である。全体的なアーキテクチャにおいて、入力アドレスに対応する決定ベクトルを取得するために、アドレスが、最初に入力され、且つ隠れマルコフモデル(HMM)を含む装置によって処理され、次に、決定ベクトルは、サポートベクトルマシン(SVM)を含む装置によって更に処理され、最後に、入力アドレスが、危険アドレスであるかどうかが決定される。
上記の全体的なアーキテクチャに基づいて、本明細書の解決法は、以下で詳細に説明される。
本明細書の実施形態は、危険アドレス識別方法を提供する。図2は、危険アドレス識別方法の概略流れ図であり、図2におけるフローは、以下のステップを含んでもよい。
S102:入力アドレスに対応するアドレス語シーケンスが取得される。
アドレス語シーケンスは、入力アドレスを処理した後に取得することができる。
例えば、入力アドレスが多くの干渉文字を含む場合に、干渉文字除去動作が入力アドレスに対して最初に実行され得、次に、アドレス語シーケンスが更に取得される。入力アドレスがスペースなどの単語区切り文字を含む場合か、又は、干渉文字の排除に関して、後続のステップにおける危険アドレス識別の処理能力が優れている場合に、アドレス語シーケンスは入力アドレス自体であってもよい。
S104:各危険アドレスに対応する危険語にヒットするアドレス語が、アドレス語シーケンスに含まれる様々なアドレス語において決定される。
様々な危険アドレスは、複数の危険アドレスで構成される危険アドレスライブラリとして理解することができる。
危険語は、危険アドレスに含まれる危険アドレス語として理解され得る。危険アドレスは、1つ又は複数の危険語を含んでもよく、これらの危険語は、或る規則に従って危険アドレスを連続的に構成してもよく、又は相対的に独立していてもよい。
ヒットを決定するための方法は、例えば、アドレス語シーケンスにおける各アドレス語をそれぞれ走査し、且つその各アドレス語を危険アドレスにおける各アドレス語と照合することと、ヒットしたアドレス語(説明の容易さのために、かかるアドレス語は、以下でヒットアドレス語と呼ばれ得る)を決定することと、を含んでもよい。
例えば、アドレス語シーケンスが、複数のアドレス語を含み、且つアドレスシーケンスにおけるアドレス語Aが、危険アドレスに含まれる危険語と一致してヒットする場合に、アドレス語シーケンスは、1つの多次元ベクトルとして表すことができ、ベクトルの各次元は、アドレス語シーケンスにおける一アドレス語にそれぞれ対応する。更に、ベクトルにおける、アドレス語Aに対応する次元は、走査によって決定することができ、次元は、アドレス語Aがヒットされることを決定するために、1としてラベル付けされ、ヒットされない他のアドレス語用に、対応する次元は、0としてラベル付けされる。
S106:アドレス語シーケンスに対応する観察シーケンスが、決定されたアドレス語に従って生成される。
アドレス語シーケンスに対応する観察シーケンスを生成する多くの方法が存在する。要求されるアドレス語のそれぞれは、決定されたアドレス語及びその前後のセマンティクスに従って、アドレス語シーケンスから取得することができ、観察シーケンスは、決定されたアドレス語及び取得されたアドレス語に従って生成され、抽出されるアドレス語は、連続アドレス語であってもよく、且つまた或る規則に従う不連続アドレス語であってもよい。
アドレス語シーケンスに対応する観察シーケンスを生成する方法はまた、最初に、複数のアドレス語サブシーケンスを取得するために、アドレス語シーケンスを分割すること、次に、要求されるアドレス語サブシーケンスに従って観察シーケンスを生成することであってもよい。
S108:観察シーケンスは、決定ベクトルを取得するために、アドレス語の前後におけるセマンティクス学習に基づいて取得された隠れマルコフモデルを用いて処理され、決定ベクトルは、アドレス語シーケンスに含まれる様々なアドレス語によってヒットされる危険アドレスの確率を表す。
アドレス語の前後のセマンティクスは、現在のアドレス語の前後のアドレス語、現在のアドレス語に関連するアドレス語、及び現在のアドレス語のセマンティクスに関連していてもよく、関連するアドレス語の数は、2つ又は3つであってもよく、関連するアドレス語は、現在のアドレス語に隣接するアドレス語か、又は現在のアドレス語から一語だけ離間されたアドレス語のいずれかであってもよい。
特に、上記の現在のアドレス語は、ステップS106における決定されたアドレス語であってもよい。アドレス語の前後のセマンティクスは、決定されたアドレス語の前後の及びそれに隣接するアドレス語が、アドレス語の前後のセマンティクスとして働くことであってよく、例えばChaoyang District, Beijing, Chinaの場合、Beijingの前後のセマンティクスは、China及びChaoyang Districtを含む。アドレス語シーケンスにおいて、決定された単語の前後のセマンティクスとして、互いに隣接していないアドレス語を用いることも可能である。
更に、処理ステップを単純化するために、観察シーケンスは、アドレス語シーケンス又は入力アドレス自体であってもよい。この場合に、危険アドレスにヒットする確率は、アドレス語シーケンス又は入力アドレスにおけるヒットアドレス語のラベル付け結果に従って、ヒットアドレス語及びその前後のセマンティクスに直接基づいてラベル付けすることができる。
S110:決定ベクトルに対して分類決定を行うことによって、入力アドレスが危険アドレスかどうかが識別される。
分類決定は、決定ベクトルに対して行われる2値分類決定であってもよい。例えば、1つのクラスは、危険アドレスに対応する決定ベクトルであってもよく、もう一方のクラスは、非危険アドレスに対応する決定ベクトルであってもよい。更に、決定ベクトルに対応する入力アドレスが、危険アドレスであるかどうかが決定されてもよい。
本明細書の実施形態において、ステップS102に関して、入力アドレスに対応するアドレス語シーケンスの取得は、
入力アドレスを受信すること、並びに入力アドレスに対応するアドレス語シーケンスを取得するために、入力アドレスに対してデータクリーニング処理及び単語分割処理を実行すること
を特に含んでもよい。
データクリーニング処理の方法は、標準アドレス文字列を取得するために、入力アドレスから干渉文字を除去すること、又は入力アドレスにおける様々なアドレス語の配置順序を調整することを含んでもよい。
単語分割処理の方法は、入力アドレスに対応するアドレス語シーケンスを取得するために、スペース又はセミコロンなどの特定の文字を用いて、標準アドレス文字列を分割することを含んでもよい。
前述のように、入力アドレスが多くの干渉文字を含む場合に、干渉文字除去動作を入力アドレスに対して最初に実行することができ、次にアドレス語シーケンスが更に取得される。
例えば、最初に、データクリーニングが、干渉文字を除去するために、入力アドレスに存在する幾つかの干渉文字に対して実行され、干渉文字は、例えば、次のもの、即ち余分なスペース、半角文字、「|」、「:」、「〜」等の少なくとも1つを含んでもよく、クリーニングされた入力アドレスは、例えば、スペースによって分離された標準アドレス文字列とすることができる。次に、単語分割ラベル付けが実行される。クリーニングされたアドレス文字列は、スペースによって分離され、アドレス文字列に現れる補助語は、辞書的にラベル付けされ、これらの補助語は、後続のアドレス照合及び識別において使用できないことが多い。最後に、アドレス語で構成されるアドレス語シーケンスは、単語分割ラベル付け後に取得される。入力アドレスに対してクリーニング及び単語分割を実行した後で、アドレス語シーケンスが取得され、その結果、危険アドレス語の識別などの迅速で効率的で正確な動作が、その後アドレス語シーケンスに対して実行され得る。
前述のように、入力アドレスがスペースなどの単語区切り文字を含む場合か、又は、干渉文字の排除に関して、後続のステップにおける危険アドレス識別の処理能力が優れている場合は、アドレス語シーケンスは入力アドレス自体であってもよい。この場合、入力アドレスを処理するステップは、省略することができる。
本明細書の実施形態において、ステップS104用に、アドレス語シーケンスに含まれる様々なアドレス語において、各危険アドレスに対応する危険語にヒットするアドレス語を決定することは、
各危険アドレスに対応する危険語を用いて、アドレス語シーケンスにおいて様々なアドレス語をそれぞれ照合することと、
アドレス語の1つが成功裏に一致する場合に、そのアドレス語を各危険アドレスに対応する危険語にヒットするアドレス語としてラベル付けし決定することと、
を特に含んでもよい。
それに応じて、ラベル付けは、アドレス語シーケンスにおける照合後に、ヒットを示す結果にラベル付けすること及びヒットを示さない結果にラベル付けすることを含む、数又は文字を用いて、アドレス語シーケンスにおける様々なアドレス語の照合結果にそれぞれラベル付けすることと、ラベル付け結果を示すこれらの数又は文字を合わせてラベル付けベクトルを構成することと、であってもよい。
例えば、アドレス語シーケンス、又はアドレス語シーケンスに対応する観察シーケンスにおける様々なアドレス語は、全体的に走査され、照合され、且つラベル付けされ、或るアドレス語シーケンスにおける第2のアドレス語Aが、危険アドレスに対応するアドレス語セットにおけるアドレス語と一致する場合に、アドレス語Aは、1としてラベル付けされ、そうでなければ、アドレス語Aは、0としてラベル付けされる。更に、[0,0,1,0,0,0]など、初期ラベル付けベクトルとも呼ばれ得るラベル付けベクトルが取得される。
アドレス語シーケンスにおける様々なアドレス語は、それぞれ照合され、特定の照合方法は、アドレス語シーケンスに対する全世界的な危険アドレス走査及び照合(危険アドレス情報は、国、地域及び主要都市を含む)を実行することを含んでもよく、用いられる照合アルゴリズムは、例えば、文字列類似度照合アルゴリズム、発音類似度照合アルゴリズム、及び編集距離照合アルゴリズム等を含んでもよい。
更に、アドレス語シーケンスに含まれる様々なアドレス語において、各危険アドレスに対応する危険語にヒットするアドレス語を決定することは、
成功裏に一致するアドレス語が存在しない場合に、入力アドレスが危険アドレスでないと決定すること
を更に含む。
或るアドレス語シーケンスにおける様々なアドレス語が、危険アドレスにおける危険語と一致しない場合に、アドレス語シーケンスは危険語を含まないと見なすことができ、それに応じて、入力アドレスが危険アドレスでない確率はより大きくなり、その結果、入力アドレスに対する更なる操作を終了することができる。
本明細書の実施形態において、ステップS106に関して、決定されたアドレス語に従ってアドレス語シーケンスに対応する観察シーケンスを生成することは、
決定されたアドレス語に関して、アドレス語シーケンスにおけるアドレス語及びアドレス語の関連語に従って、アドレス語シーケンスに対応する観察シーケンスを生成することをそれぞれ実行することを特に含んでもよく、関連語は、アドレス語シーケンスにおけるアドレス語の前後のセマンティクスを反映する。
アドレス語シーケンスが、複数の決定されたアドレス語を含む場合に、複数の対応する観察シーケンスが、生成されてもよく、決定されたアドレス語の1つに対応する1つの観察シーケンスを生成することが選択されてもよい。関連語は、アドレス語の前後の単語との或る論理関係若しくは特定の結合関係を有する単語として、又はアドレス語の前後の単語との結合関係を生成するように人為的に定義された単語として理解することができる。一般に、関連語は、現在の単語に隣接する。例えば、関連語は、現在の単語の前又は後の隣接する2単語とすることができる。
本明細書の実施形態において、隠れマルコフモデルが、アドレス語の前後のセマンティクス学習に基づいて、予め取得され得る。
本明細書の実施形態は、隠れマルコフモデルのモデリング方法を提供する。図3は、モデリング方法の概略流れ図であり、図3におけるフローは、次のステップを含んでもよい。即ち、
S202:所定の訓練サンプルに従って初期パラメータを抽出し、初期パラメータに従って、隠れマルコフモデルパラメータを含む初期モデルを確立することであって、訓練サンプルが、危険アドレス又は非危険アドレスであることと、
S204:訓練サンプルに含まれるアドレス語、及びアドレス語の前後のセマンティクスに従って、訓練サンプルに対応する観察シーケンスを生成することと、
S206:隠れマルコフモデルを取得するために、訓練サンプルに対応する初期モデル及び観察シーケンスに従って、隠れマルコフモデルパラメータを訓練することと、である。
訓練サンプルは、ポジティブサンプル及びネガティブサンプルを含む。危険アドレスは、ポジティブサンプルとすることができ、非危険アドレスは、ネガティブサンプルとすることができる。ポジティブ及びネガティブサンプルで隠れマルコフモデルを訓練することによって、よりよい訓練効果が達成され得る。
例えば、一実装形態において、ネガティブサンプルは、全世界の235の非制裁国又は地域のアドレスであってもよく、ポジティブサンプルは、全ての制裁国及び地域用のアドレスデータであってもよい。一般に、危険アドレスが危険語を含むが、もちろん非危険アドレスもまた危険語を含み得ることに留意されたい。
ステップS204におけるアドレス語は、訓練サンプルにおける、危険アドレスに対応する危険語と一致するアドレス語として理解することができる。所定のサンプルアドレスにおいて、サンプルアドレスが危険語を含むかどうか、及びどのアドレス語が危険語かが、前もってラベル付けされている。ここで、サンプルアドレスは、訓練サンプルに含まれる訓練サンプルアドレスである。
更に、要求される観察シーケンスが、サンプルアドレスにおけるラベル付けされたアドレス語及びその前後のセマンティクスに従って抽出される。一般に、ラベル付けされたアドレス語の前後の関連する2つ又は3つの単語が、アドレス語の前後のセマンティクスとして選択され、それらは、全て一緒に観察シーケンスを形成する。
更に、取得された初期ラベル付けモデル及び観察シーケンスに従って、隠れマルコフモデルパラメータは、適切な隠れマルコフモデルパラメータが取得されるまで訓練され、次に、必要とされる隠れマルコフモデルが、訓練を通じて取得された隠れマルコフモデルパラメータに従って決定される。
図3の隠れマルコフモデル用のモデリング方法において、訓練サンプルアドレスの量及びスケールは、訓練結果の質に直接影響する。訓練サンプルアドレス用に用いられるアドレスライブラリが、より包括的であり、より広いカバレッジを有する場合に、モデルの識別の精度を改善することに対して有利であり、従って、方法は、十分な訓練サンプルアドレスを有する場合に、大きなモデリング効果を達成することができる。
初期パラメータは、初期確率ベクトルπ、状態遷移行列aij等を含み、
所定の訓練サンプルに従って初期パラメータを抽出することは、
訓練サンプルに基づいて、訓練サンプルに含まれるアドレス語に対して確率ラベル付けをそれぞれ実行することによって、初期確率ベクトルを取得することと、危険語と非危険語との間の、訓練サンプルに含まれるアドレス語の状態遷移確率に従って、サンプルアドレスの状態遷移行列を取得することと、
を特に含む。ここで、危険語は、危険アドレスに含まれるアドレス語であり、非危険語は、非危険アドレスに含まれるアドレス語であり、幾つかのアドレス語は、危険語及び非危険語の両方であり得る。
複数の訓練サンプルが存在してもよい。一般に、各訓練サンプルは、サンプルアドレスであってもよい。確率ラベル付けが実行される場合に、サンプルアドレスは、訓練サンプルとしてセットから選択される。例えば、確率ラベル付けが、或るサンプルアドレスにおけるアドレス語に対して実行された後、サンプルアドレスにおける第2のアドレス語がヒットアドレス語である場合、初期確率ベクトルπ=[0,1,0,0,0,0]が取得され、ここで1は、ヒットアドレス語を表し、0は、ヒットされないアドレス語を表す。
更に、サンプルアドレスの状態遷移行列が、危険語と非危険語との間の、訓練サンプルに含まれるアドレス語の状態遷移確率に従って取得される。本明細書の1つ又は複数の実施形態において、状態遷移確率は、2つの隠れ状態、即ち危険アドレス及び非危険アドレス間のアドレス語の状態遷移が発生し得る確率を指す。
本明細書の実施形態において、隠れマルコフモデルを取得するために、訓練サンプルに対応する初期モデル及び観察シーケンスに従って、隠れマルコフモデルパラメータを訓練することは、
訓練サンプルに対応する初期モデル及び観察シーケンスに従って、隠れマルコフモデルを取得するために隠れマルコフモデルパラメータを訓練するようにバウム−ウェルチアルゴリズムを用いること
を特に含んでもよい。
加えて、隠れマルコフモデルパラメータを訓練するための他のデータ、例えば、O=o・・・o・・・on−1もまた取得することができ、この式で、シーケンスOは、ヒット危険国/地域単語を含むアドレス語シーケンスであり、oは、ラベル付けされるアドレス語である。一般に、n=10を取ることが可能である。観察シーケンスが、ラベル付けされるoの文脈におけるアドレス語の前後の3つの単語に従って取得され、S=s・・・s・・・sn−1は、アドレス語シーケンスOに対応するラベル付けベクトルであり、且つアドレス語シーケンスにおける様々なアドレス語によってヒットされる危険アドレスの確率を表す。次に、様々なアドレス語のヒット確率は、ラベル付けベクトルを形成し、ラベル付けベクトルは、初期ラベル付けベクトルとして理解することができる。
P(o,s|λ)は、アドレス語シーケンスo及びそのヒットラベルsが正確である確率を示し、且つ必要とされる隠れマルコフモデルパラメータλを選択するために用いられる。
次に、隠れマルコフモデルパラメータλは、隠れマルコフモデルを取得するために、上記のパラメータに従って訓練される。
更に、モデルの目的関数が、必要とされる決定ベクトルの取得を容易にするために、argmaxP(o,s|λ)として定義される。
本明細書の実施形態において、ステップS108用に、決定ベクトルを取得するために、アドレス語の前後のセマンティクス学習に基づいて取得された隠れマルコフモデルを用いて観察シーケンスを処理することは、
決定ベクトルを取得するために、アドレス語の前後のセマンティクス学習によって取得された隠れマルコフモデル、及びビタビアルゴリズムを用いて観察シーケンスを処理することであって、
決定ベクトルが、アドレス語シーケンスに含まれる様々なアドレス語によってヒットされる危険アドレスの確率を表すこと
を特に含んでもよい。加えて、決定ベクトルはまた、アドレス語シーケンスに対応する観察シーケンスに含まれる様々なアドレス語によってヒットされる危険アドレスの確率を表してもよく、観察シーケンスに含まれないアドレス語は、0として直接ラベル付けされてもよい。
例えば、アドレス語シーケンス[A,B,C,D,E,F]が、対応する観察シーケンス[B,C,D]を有する場合に、取得される決定ベクトルは、[0,0.5,1,0.3,0,0]として表されてもよい。
本明細書の実施形態において、ステップS110に関して、決定ベクトルに対して分類決定を行うことは、
訓練を通じて取得されたSVMモデルを用いて、決定ベクトルに対して分類決定を行うこと
を特に含んでもよい。
一般に、決定ベクトルは、隠れマルコフモデルを通じた計算によって取得され、次に2値以上の分類を伴う決定が、決定ベクトルに対して行われる。説明は、例として2値分類決定を主として取り上げることによって以下で行われる。
本明細書の実施形態において、サポートベクトルマシンモデル用のモデリング方法が提供される。図4は、サポートベクトルマシンモデル用のモデリング方法の概略流れ図であり、図4におけるフローは、以下のステップを含んでもよい。即ち、
S302:サポートベクトルマシン用の訓練サンプルを取得することと、
S304:サポートベクトルマシンの訓練サンプルに対応するサンプル特徴空間を取得するために、サポートベクトルマシンの訓練サンプルを高次元特徴空間にマッピングすることと、
S306:サンプル特徴を表すパラメータをサンプル特徴空間から取得し、サンプル特徴のパラメータに従って、サンプル特徴のカテゴリを決定するための判別関数を確立することと、
S308:SVMモデルを取得するために、サポートベクトルマシンの訓練サンプルに基づいて、判別関数において、対応するSVMモデルパラメータを訓練することと、
である。
サポートベクトルマシンの訓練サンプルは、上記の隠れマルコフモデルを通じた訓練サンプルアドレスによって取得された訓練サンプルに対応する決定ベクトルであってもよく、又は入力アドレスを特徴付ける他の未決定のデータであってもよい。
特に、SVMは、多累乗多項式カーネル関数を選択することによって、決定ベクトルアドレスを高次元特徴空間にマッピングすることができ、式は、以下の通りである。
K(x,x)=((x・x)+1)
SVMは、サンプルアドレスの高次元特徴空間におけるサンプル特徴及び他の特徴の各カテゴリ用の最適分類超平面を見つけるために用いられ、様々なサンプル特徴を表すサポートベクトル集合及びその対応するVC信頼性が取得され、各特徴のカテゴリを決定するための判別関数が形成される。
Figure 0006894058
SVMモデルパラメータαが、サポートベクトルマシンモデルを更に最適化するために、全世界的なアドレスライブラリデータなどの大量のアドレスデータに基づいて訓練することによって取得される。
セマンティック識別に基づいたアドレス照合学習によって、危険アドレスの分類決定結果が、各アドレス語及びその前後のセマンティクスの照合結果に従って取得され、分類決定結果は、危険アドレス又は偽造された危険アドレスを効果的に識別することができ、且つ非危険アドレスの誤判定を回避することができる。
同じ考えに基づいて、本明細書の実施形態は、危険アドレス識別機器を更に提供する。図5は、本明細書の実施形態において提供される図2に対応する危険アドレス識別機器の概略構造図である。図5に示されているような構造は、
入力アドレスに対応するアドレス語シーケンスを取得するための受信モジュール101と、
アドレス語シーケンスに含まれる様々なアドレス語において、各危険アドレスに対応する危険語にヒットするアドレス語を決定するための照合モジュール102と、
決定されたアドレス語に従って、アドレス語シーケンスに対応する観察シーケンスを生成するための生成モジュール103と、
決定ベクトルを取得するために、アドレス語の前後のセマンティクス学習に基づいて取得された隠れマルコフモデルを用いて、観察シーケンスを処理するためのラベル付けモジュール104であって、決定ベクトルが、アドレス語シーケンスに含まれる様々なアドレス語によってヒットされる危険アドレスの確率を表す、ラベル付けモジュール104と、
決定ベクトルに対する分類決定を行うことによって、入力アドレスが危険アドレスかどうかを識別するための識別モジュール105と、
を特に含んでもよい。
アドレス語の前後のセマンティクス学習に基づいて取得された隠れマルコフモデル、及びサポートベクトルマシンモデルを用いて、入力アドレスの分類決定結果が、入力アドレスの処理後に取得されたアドレス語、及びアドレス語の前後のセマンティクスに従って取得され、分類決定結果は、危険アドレス又は偽造された危険アドレスを効果的に識別することができ、且つ非危険アドレスの誤判定を回避することができる。従って、先行技術における問題は、部分的に又は完全に解決することができる。
更に、入力アドレスに対応するアドレス語シーケンスを取得する受信モジュール101は、
入力アドレスを受信する、且つ入力アドレスに対応するアドレス語シーケンスを取得するために、入力アドレスに対してデータクリーニング処理及び単語分割処理を実行する受信モジュール101
を特に含んでもよい。入力アドレスに対する更なるクリーニング処理及び単語分割処理を通じて、標準アドレス語シーケンスが、後続のステップにおいてアドレス語シーケンスに対するラベル付け動作を容易にするために取得され、それは、アドレス語シーケンスにおける決定されたアドレス語の確率ラベル付けの作業効率を改善することができる。
更に、アドレス語シーケンスに含まれる様々なアドレス語において、各危険アドレスに対応する危険語にヒットするアドレス語を決定する照合モジュール102は、
照合モジュール102が、各危険アドレスに対応する危険語を用いて、アドレス語シーケンスにおける様々なアドレス語をそれぞれ照合することと、
アドレス語の1つが成功裏に一致する場合に、そのアドレス語を各危険アドレスに対応する危険語にヒットするアドレス語としてラベル付けし決定することと、
を特に含んでもよい。


更に、アドレス語シーケンスに含まれる様々なアドレス語において、各危険アドレスに対応する危険語にヒットするアドレス語を決定する照合モジュール102は、
成功裏に一致するアドレス語がない場合に、入力アドレスが危険アドレスではないと決定すること
を更に含んでもよい。
照合モジュール102を通じてアドレス語にラベル付けすることによって、危険入力アドレス及び非危険入力アドレスの迅速なプレフィルタリングが実行され得、それは、危険アドレス識別の作業効率を改善することができる。
更に、決定されたアドレス語に従って、アドレス語シーケンスに対応する観察シーケンスを生成する生成モジュール103は、
決定されたアドレス語用に、次のこと、即ち、アドレス語シーケンスにおけるアドレス語及びアドレス語の関連語に従って、アドレス語シーケンスに対応する観察シーケンスを生成することであって、関連語が、アドレス語シーケンスにおけるアドレス語の前後のセマンティクスを反映することをそれぞれ実行すること
を特に含んでもよい。ここで、アドレス語の前後のセマンティクスは、ヒットアドレス語の前後の及びヒットアドレス語に関連する複数のアドレス語を指し、関連アドレス語の数は、2又は3であってもよく、関連アドレス語は、ヒットアドレス語と連続的に関連するアドレス語であってもよく、且つまたヒットアドレス語に関連する且つヒットアドレス語から離間されたアドレス語であってもよい。
更に、アドレス語の前後のセマンティクス学習に基づいて隠れマルコフモデルを取得することは、
所定の訓練サンプルに従って初期パラメータを抽出し、初期パラメータに従って、隠れマルコフモデルパラメータを含む初期モデルを確立することであって、訓練サンプルが、危険アドレス又は非危険アドレスであることと、
訓練サンプルに含まれるアドレス語及びアドレス語の前後のセマンティクスに従って、訓練サンプルに対応する観察シーケンスを生成することと、
隠れマルコフモデルを取得するために、訓練サンプルに対応する初期モデル及び観察シーケンスに従って、隠れマルコフモデルパラメータを訓練することと、
を含む。
隠れマルコフモデルのために、ヒット危険語、及び危険語の前後のセマンティクスからなる観察シーケンスは、隠れマルコフモデルパラメータを訓練するように用いられ、その結果、要求される隠れマルコフモデル(HMM)を取得され、これにより、隠れマルコフモデルによる入力アドレス危険識別の精度を改善することができる。
更に、初期パラメータは、初期確率ベクトル及び状態遷移行列を含み、且つ
所定の訓練サンプルに従って初期パラメータを抽出することは、
複数の訓練サンプルに基づいて、訓練サンプルに含まれるアドレス語に対して確率ラベル付けをそれぞれ実行することによって、初期確率ベクトルを取得することと、危険語と非危険語との間の、訓練サンプルに含まれるアドレス語の状態遷移確率に従って、サンプルアドレスの状態遷移行列を取得することと、
を特に含んでもよい。ここで、危険語は、危険アドレスに含まれるアドレス語であり、非危険語は、非危険アドレスに含まれるアドレス語であり、幾つかのアドレス語は、危険語及び非危険語の両方とすることができる。
更に、隠れマルコフモデルを取得するために、訓練サンプルに対応する初期モデル及び観察シーケンスに従って、隠れマルコフモデルパラメータを訓練することは、
訓練サンプルに対応する初期モデル及び観察シーケンスに従って、隠れマルコフモデルを取得するために隠れマルコフモデルパラメータを訓練するようにバウム−ウェルチアルゴリズムを用いること
を特に含んでもよい。
隠れマルコフモデルのモデリング中に、訓練サンプルアドレスの量及びスケールが、訓練結果の質に直接影響することに留意されたい。訓練サンプルアドレスに用いられる全世界的なアドレスライブラリが、より包括的で、より広いカバレッジを有する場合に、モデルを用いる間の識別の速度は大いに改善され、従って、大きなモデリング効果が、十分な訓練サンプルアドレスを有する場合に達成され得る。
更に、決定ベクトルを取得するために、アドレス語の前後のセマンティクス学習に基づいて取得された隠れマルコフモデルを用いて観察シーケンスを処理するラベル付けモジュール104は、
決定ベクトルを取得するために、アドレス語の前後のセマンティクス学習によって取得された隠れマルコフモデル、及びビタビアルゴリズムを用いて観察シーケンスを処理すること
を特に含んでもよい。決定ベクトルは、アドレス語シーケンスに含まれる様々なアドレス語によってヒットされる危険アドレスの確率を表す。
更に、決定ベクトルに対して分類決定を行う識別モジュール105は、
訓練を通じて取得されたサポートベクトルマシン(SVM)モデルを用いて、決定ベクトルに対して分類決定を行うこと
を特に含んでもよい。
更に、訓練を通じてサポートベクトルマシンモデルを取得することは、
サポートベクトルマシン用の訓練サンプルを取得することと、
サポートベクトルマシンの訓練サンプルに対応するサンプル特徴空間を取得するために、サポートベクトルマシンの訓練サンプルを高次元特徴空間にマッピングすることと、
サンプル特徴を表すパラメータをサンプル特徴空間から取得し、サンプル特徴のパラメータに従って、サンプル特徴のカテゴリを決定するための判別関数を確立することと、
SVMモデルを取得するために、SVM用の訓練サンプルに基づいて、判別関数において、対応するSVMモデルパラメータを訓練することと、
を含む。
訓練サンプルは、上記の実施形態における決定ベクトル、又は入力アドレスを特徴付ける他の未決定のデータとして理解することができる。
一般に、隠れマルコフモデルを通じて計算される決定ベクトルのために、SVMでは、決定ベクトルを高次元特徴空間にマッピングし、次に2値分類決定を行う必要がある。もちろん、分類決定は、決定ベクトルを高次元特徴空間にマッピングせずに、処理が容易である幾つかの決定ベクトルに対して行うことができる。例えば、線形分類決定を行うことができ、それは、計算上の困難を低減し、且つ処理速度を促進することができる。
同じ考えに基づいて、本明細書の実施形態は、電子装置であって、
少なくとも1つのプロセッサと、
少なくとも1つのプロセッサと通信接続するメモリとを含み、メモリが、少なくとも1つのプロセッサによって実行可能な命令を格納し、少なくとも1つのプロセッサが、
入力アドレスに対応するアドレス語シーケンスを取得することと、
アドレス語シーケンスに含まれる様々なアドレス語において、各危険アドレスに対応する危険語にヒットするアドレス語を決定することと、
決定されたアドレス語に従って、アドレス語シーケンスに対応する観察シーケンスを生成することと、
決定ベクトルを取得するために、アドレス語の前後のセマンティクス学習に基づいて取得された隠れマルコフモデルを用いて観察シーケンスを処理し、決定ベクトルが、アドレス語シーケンスに含まれる様々なアドレス語によってヒットされる危険アドレスの確率を表すことと、
決定ベクトルに対して分類決定を行うことによって、入力アドレスが危険アドレスであるかどうかを識別することとをできるようにするために、命令が、少なくとも1つのプロセッサに従って実行される、
電子装置を提供する。
本明細書の1つ又は複数の実施形態の発明概念をよりよく説明するために、2つの実施形態が、以下で特に挙げられる。
図6は、アドレスが危険を有しないことを危険アドレス識別が示す、本明細書の実施形態において提供される概略流れ図であり、それは、
最初に、入力アドレスのテキストが、REPUBLICA DE SIRIA 7495 SANTA FE Santa Fe ARであることと、
次に、入力アドレスを全世界的に走査し、且つその入力アドレスを制裁アドレス(国又は都市)語:SIRIAにヒットするものとしてラベル付けすること、及び入力アドレスの初期ラベル付けベクトル[0,0,1,0,0,0,0,0,0]を取得することであって、初期ラベル付けベクトルが、初期確率ベクトルとして理解され得ることと、
更に、隠れマルコフラベル付けモデルを通じて決定ベクトル[0.01,0.02,0.02,0.02,0.01,0,0,0,0]を取得することと、
最後に、入力アドレスが制裁アドレスにヒットしないという決定をSVM分類モデルが行うこととを特に含み、、ここで説明される制裁アドレスは危険アドレスとして理解され得る。
図7は、アドレスが危険であることを危険アドレス識別が示す、本明細書の実施形態において提供される概略流れ図であり、それは、
最初に、入力アドレスのテキストが、Rostovskaya, 31a, Simferopol 5 Other RUであることと、
次に、入力アドレスを全世界的に走査し、且つその入力アドレスを制裁アドレス(国又は都市)語:Simferopolにヒットするものとしてラベル付けすること、及び入力アドレスの初期ラベル付けベクトル[0,0,1,0,0,0]を取得することと、
更に、隠れマルコフラベル付けモデルを通じて決定ベクトル[0.9,0.9,0.9,0.9,0.5,0.1]を取得することと、
最後に、入力アドレスが制裁アドレスにヒットするという決定をSVM分類モデルが行うことと、
を特に含み、
ここで説明される制裁アドレスは、上記の危険アドレスとして理解することができる。
図8は、本明細書の実施形態において提供される危険アドレス識別のモデリング及び識別の概略流れ図であり、それは、
危険アドレス識別モデルをモデル化する場合に、パラメータ訓練を実行すること、及び最初に訓練アドレスコーパスを取得することであって、それが、サンプルアドレスとして理解され得ることと、
次に、訓練アドレスコーパスをクリーニングすること、及び訓練アドレスコーパスを標準アドレス文字列に分離することであって、それらが、アドレス語シーケンスとして理解され得ることと、
次に、初期ラベル付けモデル及び初期パラメータを取得するために、入力訓練アドレスコーパスを全世界的に走査し、照合し、且つラベル付けすることと、
を特に含んでもよい。
更に、初期ラベル付けモデルに従って、隠れマルコフモデルパラメータは、必要とされる隠れマルコフモデルを取得するために訓練される。更に再び、SVMのパラメータは、必要とされるSVMモデルを最終的に取得するために、隠れマルコフモデルを通じた決定ベクトル出力に従って訓練される。
危険アドレス走査及び識別を実行する場合に、ユーザが、最初にアドレスを入力する。次に、標準化処理並びに全世界的な危険アドレス走査及びラベル付けが、ラベル付けされたアドレス語シーケンスを取得するために、入力アドレスに対して実行され、更に、観察シーケンスが、危険語及びその前後のセマンティクスに基づいて取得される。
更に再び、危険確率計算及びラベル付けが、決定ベクトルを生成するために、隠れマルコフモデルを通じてアドレス語シーケンス(観察シーケンス)に対して実行される。
最後に、SVMは、入力アドレスが危険アドレスかどうかを決定するために、決定ベクトルに従って2値分類決定を行う。
隠れマルコフモデル及びサポートベクトルマシンは、危険アドレス語及びその前後のセマンティクスに基づいて、入力アドレスを判断し識別するために用いられ、識別の精度は、効果的に改善することができる。
本明細書の特定の実施形態が、上記で説明される。他の実施形態は、添付の特許請求の範囲内に入る。幾つかの場合に、特許請求の範囲において明記される動作又はステップは、実施形態における順序とは異なっている順序で実行することができ、且つやはり所望の結果を達成することができる。加えて、図面に描かれているプロセスは、所望の結果を達成するために、必ずしも、示されているような特定の順序又は連続する順序ではない。幾つかの実装形態において、多重タスク処理及び並列処理もまた、可能であるか又は有利になり得る。
説明における様々な実施形態は、全て漸進的方法で説明される。実施形態間の同じ又は類似の部分用に、互いに参照することができる。各実施形態用に、他の実施形態と相異なる実施形態の部分が、主として説明される。特に機器、電子装置、不揮発性コンピュータ記憶媒体実施形態は、それらが方法実施形態に実質的に似ているので、比較的単純な方法で説明され、関連部分用に、方法実施形態における説明の部分を参照することができる。
本明細書の実施形態において提供される機器、電子装置及び不揮発性コンピュータ記憶媒体は、方法に対応する。従って、機器、電子装置及び不揮発性コンピュータ記憶媒体はまた、対応する方法の効果と類似の有益な技術的効果を有する。方法の有益な技術的効果が、上記で詳細に説明されたので、対応する機器、電子装置及び不揮発性コンピュータ記憶媒体の有益な技術的効果は、ここでは説明されない。
1990年代に、技術の改善が、ハードウェアの改善(例えば、ダイオード、トランジスタ及びスイッチなどの回路構造の改善)又はソフトウェアの改善(方法手順の改善)として明らかに区別され得た。しかしながら、様々な技術の発展と共に、現在における多くの方法手順の改善は、ハードウェア回路構造の直接の改善と見なされ得る。ほとんど全ての設計者は、対応するハードウェア回路構造を取得するために、改善された方法手順をハードウェア回路にプログラムする。従って、方法手順の改善が、ハードウェアエンティティモジュールを用いて実行され得ないとは言うことができない。例えば、プログラマブル論理装置(PLD)(例えばフィールドプログラマブルゲートアレイ(FPGA))は、かかる集積回路であり、その論理機能は、ユーザプログラミング装置によって決定される。設計者は、チップ製造業者に専用集積回路チップを設計及び製造するように要請することなく、デジタルシステムを一片のPLDに「集積する」ために自分でプログラムする。更に、現在、プログラミングは、集積回路チップを手動で作製するのではなく、「論理コンパイラ」ソフトウェアを用いてほとんど実行される。「論理コンパイラ」ソフトウェアは、プログラムの開発及び書き込み用に用いられるソフトウェアコンパイラに似ており、コンパイリング前のオリジナルコードもまた、特定のプログラミング言語で書かれる必要があり、プログラミング言語は、ハードウェア記述言語(HDL)と呼ばれる。ABEL(高度ブール演算式言語)、AHDL(アルテラハードウェア記述言語)、Confluence、CUPL(コーネル大学プログラミング言語)、HDCal、JHDL(Java(登録商標)ハードウェア記述言語)、Lava、Lola、MyHDL、PALASM、及びRHDL(ルビーハードウェア記述言語)などの多くの種類のHDLが存在し、それらの間で、VHDL(超高速集積回路ハードウェア記述言語)及びVerilogが、現在最も一般的に用いられる。当業者はまた、論理方法手順を実行するためのハードウェア回路が、上記の幾つかのハードウェア記述言語を用いて方法手順を少し論理的にプログラムすること、及び方法手順を集積回路にプログラムすることによってのみ容易に取得され得ることを知っているはずである。
コントローラが、任意の適切な方法で実現されてもよい。例えば、コントローラは、マイクロプロセッサ又はプロセッサと、(マイクロ)プロセッサ、論理ゲート、スイッチ、特定用途向け集積回路(ASIC)、プログラマブル論理コントローラ及び埋め込みマイクロコントローラによって実行可能なコンピュータ可読プログラムコード(例えばソフトウェア又はファームウェア)を格納するコンピュータ可読媒体と、の形態であってもよい。コントローラの例には、限定するわけではないが、次のマイクロコントローラ、即ち、ARC 625D、Atmel AT91SAM、Microchip PIC18F26K20、及びSilicone Labs C8051F320が含まれる。メモリコントローラもまた、メモリの制御論理の一部として実現されてもよい。当業者はまた、純粋なコンピュータ可読プログラムコードによってコントローラを実現することに加えて、論理ゲート、スイッチ、特定用途向け集積回路、プログラマブル論理コントローラ、及び埋め込みマイクロコントローラの形態でコントローラが同じ機能を実現できるようにするために、方法ステップが、論理的にプログラムされてもよいことを知っている。従って、かかるコントローラは、ハードウェアコンポーネントと見なされてもよく、様々な機能を実行するためにハードウェアコンポーネントに含まれる機器もまた、ハードウェアコンポーネント内の構造と見なされてもよい。代替として、様々な機能を実行するための機器は、方法を実行するためのソフトウェアモジュール及びハードウェアコンポーネント内の構造の両方とさえ見なされてもよい。
上記の実施形態に示されているシステム、機器、モジュール又はユニットは、コンピュータチップ若しくはエンティティによって実現できるか、又は特定の機能を有する製品によって実現することができる。典型的な実装形態装置が、コンピュータである。例えば、コンピュータは、パーソナルコンピュータ、ラップトップコンピュータ、携帯電話、カメラ付き携帯電話、スマートフォン、携帯情報端末、メディアプレーヤ、ナビゲーション装置、電子メール装置、ゲーム機、タブレットコンピュータ、ウェアラブル装置、又はこれらの装置のいずれかの組み合わせであってもよい。
説明をし易くするために、上記の機器は、機能に基づいて様々なモジュールに分割され、モジュールは別々に説明される。もちろん、本明細書の1つ又は複数の実施形態が実施される場合に、様々なユニットの機能は、ソフトウェア及び/又はハードウェアの1つ又は複数の部分において実行することができる。
当業者は、本明細書の実施形態が、方法、システム又はコンピュータプログラムプロダクトとして提供され得ることを理解すべきである。従って、本明細書の実施形態は、完全なハードウェア実施形態、完全なソフトウェア実施形態、又はソフトウェア及びハードウェアを組み合わせる実施形態の形で実施されてもよい。更に、本明細書の実施形態は、コンピュータ使用可能プログラムコードを自らに含む1つ又は複数のコンピュータ使用可能記憶媒体(限定するわけではないが、磁気ディスクメモリ、CD−ROM、光メモリなどを含む)上に実現されたコンピュータプログラムプロダクトの形態であってもよい。
本明細書は、本発明の実施形態に従って、方法、装置(システム)及びコンピュータプログラムプロダクトの流れ図及び/又はブロック図に関連して説明される。コンピュータプログラム命令が、流れ図及び/又はブロック図における各プロセス及び/又はブロック、並びに流れ図及び/又はブロック図におけるプロセス及び/又はブロックの組み合わせを実行してもよいことを理解されたい。これらのコンピュータプログラム命令は、汎用コンピュータ、専用コンピュータ、埋め込みプロセッサ、又はマシンを作製するための他のプログラマブルデータ処理装置のプロセッサに提供されてもよく、その結果、流れ図における1つ若しくは複数のプロセス、及び/又はブロック図における1つ若しくは複数のブロックにおける特定の機能を実行するための機器が、コンピュータ又は他のプログラマブルデータ処理装置のプロセッサにより実行される命令によって作製される。
コンピュータ可読メモリに格納された命令が、命令機器を含む製造製品を作製するように、特定の方法で動作するようにコンピュータ又は他のプログラマブルデータ処理装置を誘導できるこれらのコンピュータプログラム命令はまた、コンピュータ可読メモリに格納されてもよい。命令機器は、流れ図における1つ若しくは複数のプロセス及び/又はブロック図における1つ若しくは複数のブロックにおいて特定の機能を実行する。
これらのコンピュータプログラム命令はまた、一連の動作ステップが、コンピュータ又は他のプログラマブル装置上で実行され、従ってコンピュータ実行処理を生成するように、コンピュータ又は他のプログラマブルデータ処理装置上にロードされてもよい。従って、コンピュータ又は他のプログラマブル装置上で実行される命令は、流れ図における1つ若しくは複数のプロセス及び/又はブロック図における1つ若しくは複数のブロックにおいて特定された機能を実行するためのステップを提供する。
典型的な構成において、コンピューティング装置は、1つ又は複数の中央処理装置(CPU)、入力/出力インタフェース、ネットワークインタフェース、及びメモリを含む。
メモリは、非永続的メモリ、ランダムアクセスメモリ(RAM)、及び/又は不揮発性メモリ、例えば読み出し専用メモリ(ROM)若しくはフラッシュRAMなどのコンピュータ可読媒体を含んでもよい。メモリは、コンピュータ可読媒体の例である。
コンピュータ可読媒体は、着脱可能及び着脱不能媒体と同様に永続及び非永続媒体を含み、且つ任意の方法又は技術によって情報を格納してもよい。情報は、コンピュータ可読命令、データ構造、プログラムのモジュール、又は他のデータであってもよい。コンピュータの記憶媒体の例は、限定するわけではないが、相変化メモリ(PRAM)、スタティックランダムアクセスメモリ(SRAM)、ダイナミックランダムアクセスメモリ(DRAM)、他のタイプのランダムアクセスメモリ(RAM)、読み出し専用メモリ(ROM)、電気的消去可能プログラマブル読み出し専用メモリ(EEPROM)、フラッシュメモリ若しくは他のメモリ技術、コンパクトディスク読み出し専用メモリ(CD−ROM)、デジタル多用途ディスク(DVD)若しくは他の光記憶装置、カセットテープ、磁気テープ/磁気ディスク記憶装置若しくは他の磁気記憶装置、又は任意の他の非伝送媒体を含み、且つコンピューティング装置にとってアクセス可能な情報を格納するために用いることができる。本明細書における定義によれば、コンピュータ可読媒体は、変調データ信号及びキャリアなど、コンピュータ可読の一時的媒体を含まない。
用語「含む(include)」、「含む(comprise)」、又はそれらの任意の他の変形が、非排他的な包含をカバーするように意図され、その結果、一連の要素を含むプロセス、方法、品物若しくは装置が、要素を含むだけでなく、明確に挙げられていない他の要素も含むか、又は更にプロセス、方法、品物若しくは装置に固有の要素も更に含むことに更に留意されたい。より多くの制限がない状態で、「〜を含む(including a/an…)」によって定義される要素は、要素を含むプロセス、方法、品物又は装置が、他の同一の要素を更に有することを排除しない。
本明細書は、コンピュータ、例えばプログラムモジュールによって実行されるコンピュータ実行可能命令の一般的文脈で説明されてもよい。一般に、プログラムモジュールは、特定のタスクを実行するか又は特定の抽象データ型を実現するためのルーチン、プログラム、オブジェクト、コンポーネント、データ構造などを含む。本明細書はまた、分散コンピューティング環境において実施されてもよい。分散コンピューティング環境において、タスクは、通信ネットワークを通じて接続される遠隔処理装置によって実行される。分散コンピューティング環境において、プログラムモジュールは、記憶装置を含むローカル及び遠隔コンピュータ記憶媒体に位置してもよい。
説明における様々な実施形態は、全て漸進的方法で説明される。実施形態間の同じ又は類似の部分用に、互いに参照することができる。各実施形態用に、他の実施形態と相異なる実施形態の部分が、主として説明される。特に、システム実施形態は、それらが、方法実施形態に実質的に似ているので、比較的簡単な方法で説明され、関連部分用に、方法実施形態における説明の部分に対して参照することができる。
上記で説明されているのは、単に本明細書の実施形態であり、本出願を限定するためには用いられない。当業者にとって、本出願は、様々な変更及び変形を有し得る。本出願の趣旨及び原理内で行われるどんな修正、等価な代替、改善などは、本出願の請求項の範囲に含まれるべきである。

Claims (21)

  1. コンピュータによって実施される危険アドレス識別方法であって、
    前記コンピュータが、入力アドレスに対応するアドレス語シーケンスを取得することと、
    前記コンピュータが、前記アドレス語シーケンスにおけるアドレス語を決定することであって、前記決定されたアドレス語が、危険アドレスに対応する危険語に一致することと、
    前記コンピュータが、前記決定されたアドレス語に従って、前記アドレス語シーケンスに対応する観察シーケンスを生成することと、
    前記コンピュータが、決定ベクトルを取得するために、アドレス語の前後のセマンティクス学習に基づいて取得された隠れマルコフモデルを用いて前記観察シーケンスを処理することであって、前記決定ベクトルが、前記アドレス語シーケンスに含まれるアドレス語に対応する前記危険アドレスの確率を表すことと、
    前記コンピュータが、前記決定ベクトルに対して分類決定を行うことによって、前記入力アドレスが危険アドレスかどうかを識別することと、
    を含み、
    前記コンピュータが、前記決定されたアドレス語に従って、前記アドレス語シーケンスに対応する観察シーケンスを生成することが、
    前記コンピュータが、前記アドレス語シーケンスにおける前記決定されたアドレス語及び前記決定されたアドレス語の関連語に従って、前記アドレス語シーケンスに対応する観察シーケンスを生成することを含み、前記関連語が、前記アドレス語シーケンスにおける前記決定されたアドレス語の前後のセマンティクスを反映する、
    方法。
  2. 前記コンピュータが、入力アドレスに対応するアドレス語シーケンスを取得することが、
    前記コンピュータが、入力アドレスを受信することと、
    前記コンピュータが、前記入力アドレスに対応する前記アドレス語シーケンスを取得するために、前記入力アドレスに対してデータクリーニング処理及び単語分割処理を実行することと、
    を含む、請求項1に記載の方法。
  3. 前記コンピュータが、前記アドレス語シーケンスにおけるアドレス語を決定することであって、前記決定されたアドレス語が、危険アドレスに対応する危険語に一致することが、
    前記コンピュータが、前記危険アドレスに対応する危険語を用いて、前記アドレス語シーケンスにおける前記アドレス語をそれぞれ照合することと、
    前記コンピュータが、前記アドレス語の1つが、成功裏に一致する場合に、前記一致したアドレス語を前記危険アドレスに対応する危険語に一致するアドレス語としてラベル付けし決定することと、
    を含む、請求項1に記載の方法。
  4. 前記コンピュータが、前記アドレス語シーケンスにおけるアドレス語を決定することであって、前記決定されたアドレス語が、危険アドレスに対応する危険語に一致することが、
    前記コンピュータが、成功裏に一致するアドレス語がない場合に、前記入力アドレスが危険アドレスではないと決定することを更に含む、請求項3に記載の方法。
  5. 前記コンピュータが、アドレス語の前後のセマンティクス学習に基づいて隠れマルコフモデルを取得することが、
    前記コンピュータが、所定の訓練サンプルに従って初期パラメータを抽出し、前記初期パラメータに従って、隠れマルコフモデルパラメータを含む初期モデルを確立することであって、前記訓練サンプルが、危険アドレス又は非危険アドレスであることと、
    前記コンピュータが、前記訓練サンプルに含まれるアドレス語及び前記アドレス語の前後のセマンティクスに従って、前記訓練サンプルに対応する観察シーケンスを生成することと、
    前記コンピュータが、前記隠れマルコフモデルを取得するために、前記訓練サンプルに対応する前記初期モデル及び前記観察シーケンスに従って、前記隠れマルコフモデルパラメータを訓練することと、を含む、請求項1に記載の方法。
  6. 前記初期パラメータが、初期確率ベクトル及び状態遷移行列を含み、且つ
    前記コンピュータが、所定の訓練サンプルに従って初期パラメータを抽出することが、
    前記コンピュータが、複数の所定の訓練サンプルに基づいて、前記訓練サンプルに含まれるアドレス語に対して確率ラベル付けをそれぞれ実行することによって、初期確率ベクトルを取得することと、
    前記コンピュータが、危険語と非危険語との間の、前記訓練サンプルに含まれる前記アドレス語の状態遷移確率に従って、サンプルアドレスの状態遷移行列を取得することと、
    を含む、請求項5に記載の方法。
  7. 前記コンピュータが、前記隠れマルコフモデルを取得するために、前記訓練サンプルに対応する前記初期モデル及び前記観察シーケンスに従って、前記隠れマルコフモデルパラメータを訓練することが、
    前記コンピュータが、前記訓練サンプルに対応する前記初期モデル及び前記観察シーケンスに従って、前記隠れマルコフモデルを取得するために前記隠れマルコフモデルパラメータを訓練するようにバウム−ウェルチアルゴリズムを用いることを含む、請求項5に記載の方法。
  8. 前記コンピュータが、前記決定ベクトルを取得するために、アドレス語の前後のセマンティクス学習に基づいて取得された隠れマルコフモデルを用いて前記観察シーケンスを処理することが、
    前記コンピュータが、決定ベクトルを取得するために、アドレス語の前後のセマンティクス学習によって取得された前記隠れマルコフモデル、及びビタビアルゴリズムを用いて前記観察シーケンスを処理することを含む、請求項1に記載の方法。
  9. 前記コンピュータが、前記決定ベクトルに対して分類決定を行うことが、
    前記コンピュータが、訓練を通じて取得されたサポートベクトルマシンモデルを用いて、前記決定ベクトルに対して分類決定を行うことを含む、請求項1に記載の方法。
  10. 前記コンピュータが、訓練を通じてサポートベクトルマシンモデルを取得することが、
    前記コンピュータが、サポートベクトルマシン用の訓練サンプルを取得することと、
    前記コンピュータが、前記サポートベクトルマシンの前記訓練サンプルに対応するサンプル特徴空間を取得するために、前記サポートベクトルマシンの前記訓練サンプルを高次元特徴空間にマッピングすることと、
    前記コンピュータが、サンプル特徴を表すパラメータを前記サンプル特徴空間から取得し、前記サンプル特徴の前記パラメータに従って、前記サンプル特徴のカテゴリを決定するための判別関数を確立することと、
    前記コンピュータが、前記サポートベクトルマシンモデルを取得するために、前記サポートベクトルマシンの前記訓練サンプルに基づいて、前記判別関数において、対応するサポートベクトルマシンモデルパラメータを訓練することと、
    を含む、請求項9に記載の方法。
  11. 電子装置であって、
    プロセッサと
    前記プロセッサによって実行可能な命令を格納するメモリとを含み、
    前記プロセッサが、
    入力アドレスに対応するアドレス語シーケンスを取得することと、
    前記アドレス語シーケンスにおけるアドレス語を決定することであって、前記決定されたアドレス語が、危険アドレスに対応する危険語に一致することと、
    前記決定されたアドレス語に従って、前記アドレス語シーケンスに対応する観察シーケンスを生成することと、
    決定ベクトルを取得するために、アドレス語の前後のセマンティクス学習に基づいて取得された隠れマルコフモデルを用いて前記観察シーケンスを処理することであって、前記決定ベクトルが、前記アドレス語シーケンスに含まれるアドレス語に対応する前記危険アドレスの確率を表すことと、
    前記決定ベクトルに対して分類決定を行うことによって、前記入力アドレスが危険アドレスかどうかを識別することと、
    を行うように構成され
    前記決定されたアドレス語に従って、前記アドレス語シーケンスに対応する観察シーケンスを生成することにおいて、前記プロセッサが、
    前記アドレス語シーケンスにおける前記決定されたアドレス語及び前記決定されたアドレス語の関連語に従って、前記アドレス語シーケンスに対応する観察シーケンスを生成することを行うように更に構成され、前記関連語が、前記アドレス語シーケンスにおける前記決定されたアドレス語の前後のセマンティクスを反映する、
    電子装置。
  12. 入力アドレスに対応するアドレス語シーケンスを取得することにおいて、前記プロセッサが、
    入力アドレスを受信することと、
    前記入力アドレスに対応する前記アドレス語シーケンスを取得するために、前記入力アドレスに対してデータクリーニング処理及び単語分割処理を実行することと、
    を行うように更に構成される、請求項11に記載の装置。
  13. 前記アドレス語シーケンスにおけるアドレス語を決定することであって、前記決定されたアドレス語が、危険アドレスに対応する危険語に一致することにおいて、前記プロセッサが、
    前記危険アドレスに対応する危険語を用いて、前記アドレス語シーケンスにおける前記アドレス語をそれぞれ照合することと、
    前記アドレス語の1つが、成功裏に一致する場合に、前記一致したアドレス語を前記危険アドレスに対応する危険語に一致するアドレス語としてラベル付けし決定することと、
    を行うように更に構成される、請求項11に記載の装置。
  14. 前記アドレス語シーケンスにおけるアドレス語を決定することであって、前記決定されたアドレス語が、危険アドレスに対応する危険語に一致することにおいて、前記プロセッサが、
    成功裏に一致するアドレス語がない場合に、前記入力アドレスが危険アドレスではないと決定することを行うように更に構成される、請求項13に記載の装置。
  15. 前記プロセッサが、
    所定の訓練サンプルに従って初期パラメータを抽出し、前記初期パラメータに従って、隠れマルコフモデルパラメータを含む初期モデルを確立することであって、前記訓練サンプルが、危険アドレス又は非危険アドレスであることと、
    前記訓練サンプルに含まれるアドレス語及び前記アドレス語の前後のセマンティクスに従って、前記訓練サンプルに対応する観察シーケンスを生成することと、
    前記隠れマルコフモデルを取得するために、前記訓練サンプルに対応する前記初期モデル及び前記観察シーケンスに従って、前記隠れマルコフモデルパラメータを訓練することと、
    を行うように更に構成される、請求項11に記載の装置。
  16. 前記初期パラメータが、初期確率ベクトル及び状態遷移行列を含み、且つ
    所定の訓練サンプルに従って初期パラメータを抽出することにおいて、前記プロセッサが、
    複数の所定の訓練サンプルに基づいて、前記訓練サンプルに含まれるアドレス語に対して確率ラベル付けをそれぞれ実行することによって、初期確率ベクトルを取得することと、
    危険語と非危険語との間の、前記訓練サンプルに含まれる前記アドレス語の状態遷移確率に従って、サンプルアドレスの状態遷移行列を取得することと、
    を行うように更に構成される、請求項15に記載の装置。
  17. 前記隠れマルコフモデルを取得するために、前記訓練サンプルに対応する前記初期モデル及び前記観察シーケンスに従って、前記隠れマルコフモデルパラメータを訓練することにおいて、前記プロセッサが、
    前記訓練サンプルに対応する前記初期モデル及び前記観察シーケンスに従って、前記隠れマルコフモデルを取得するために前記隠れマルコフモデルパラメータを訓練するようにバウム−ウェルチアルゴリズムを用いることを行うように更に構成される、請求項15に記載の装置。
  18. 決定ベクトルを取得するために、アドレス語の前後のセマンティクス学習に基づいて取得された隠れマルコフモデルを用いて前記観察シーケンスを処理することにおいて、前記プロセッサが、
    決定ベクトルを取得するために、アドレス語の前後のセマンティクス学習によって取得された前記隠れマルコフモデル、及びビタビアルゴリズムを用いて前記観察シーケンスを処理することを行うように更に構成される、請求項11に記載の装置。
  19. 前記決定ベクトルに対して分類決定を行うことにおいて、前記プロセッサが、
    訓練を通じて取得されたサポートベクトルマシンモデルを用いて、前記決定ベクトルに対して分類決定を行うことを行うように更に構成される、請求項11に記載の装置。
  20. 訓練を通じてサポートベクトルマシンモデルを取得することにおいて、前記プロセッサが、
    サポートベクトルマシン用の訓練サンプルを取得することと、
    前記サポートベクトルマシンの前記訓練サンプルに対応するサンプル特徴空間を取得するために、前記サポートベクトルマシンの前記訓練サンプルを高次元特徴空間にマッピングすることと、
    サンプル特徴を表すパラメータを前記サンプル特徴空間から取得し、前記サンプル特徴の前記パラメータに従って、前記サンプル特徴のカテゴリを決定するための判別関数を確立することと、
    前記サポートベクトルマシンモデルを取得するために、前記サポートベクトルマシンの前記訓練サンプルに基づいて、前記判別関数において、対応するサポートベクトルマシンモデルパラメータを訓練することと、
    を含む、請求項19に記載の装置。
  21. コンピュータプログラムを格納するコンピュータ可読記憶媒体であって、前記コンピュータプログラムが装置のプロセッサによって実行されると、前記装置に危険アドレス識別方法を実行させ、前記方法が、
    入力アドレスに対応するアドレス語シーケンスを取得することと、
    前記アドレス語シーケンスにおけるアドレス語を決定することであって、前記決定されたアドレス語が、危険アドレスに対応する危険語に一致することと、
    前記決定されたアドレス語に従って、前記アドレス語シーケンスに対応する観察シーケンスを生成することと、
    決定ベクトルを取得するために、アドレス語の前後のセマンティクス学習に基づいて取得された隠れマルコフモデルを用いて前記観察シーケンスを処理することであって、前記決定ベクトルが、前記アドレス語シーケンスに含まれるアドレス語に対応する前記危険アドレスの確率を表すことと、
    前記決定ベクトルに対して分類決定を行うことによって、前記入力アドレスが危険アドレスであるかどうかを識別することとを含み、
    前記決定されたアドレス語に従って、前記アドレス語シーケンスに対応する観察シーケンスを生成することが、
    前記アドレス語シーケンスにおける前記決定されたアドレス語及び前記決定されたアドレス語の関連語に従って、前記アドレス語シーケンスに対応する観察シーケンスを生成することを含み、前記関連語が、前記アドレス語シーケンスにおける前記決定されたアドレス語の前後のセマンティクスを反映する、
    コンピュータ可読記憶媒体。
JP2019542684A 2017-07-05 2018-06-29 危険アドレス識別方法及びコンピュータ可読記憶媒体、並びに電子装置 Active JP6894058B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201710543805.4A CN107526967B (zh) 2017-07-05 2017-07-05 一种风险地址识别方法、装置以及电子设备
CN201710543805.4 2017-07-05
PCT/CN2018/093791 WO2019007288A1 (zh) 2017-07-05 2018-06-29 一种风险地址识别方法、装置以及电子设备

Publications (2)

Publication Number Publication Date
JP2020524314A JP2020524314A (ja) 2020-08-13
JP6894058B2 true JP6894058B2 (ja) 2021-06-23

Family

ID=60748842

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019542684A Active JP6894058B2 (ja) 2017-07-05 2018-06-29 危険アドレス識別方法及びコンピュータ可読記憶媒体、並びに電子装置

Country Status (10)

Country Link
US (2) US10762296B2 (ja)
EP (1) EP3637295B1 (ja)
JP (1) JP6894058B2 (ja)
KR (1) KR102244417B1 (ja)
CN (1) CN107526967B (ja)
MY (1) MY201873A (ja)
PH (1) PH12019501823A1 (ja)
SG (1) SG11201907079QA (ja)
TW (1) TWI682302B (ja)
WO (1) WO2019007288A1 (ja)

Families Citing this family (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107423883B (zh) * 2017-06-15 2020-04-07 创新先进技术有限公司 待处理业务的风险识别方法及装置、电子设备
CN107526967B (zh) * 2017-07-05 2020-06-02 阿里巴巴集团控股有限公司 一种风险地址识别方法、装置以及电子设备
CN108920457B (zh) * 2018-06-15 2022-01-04 腾讯大地通途(北京)科技有限公司 地址识别方法和装置及存储介质
CN108876545A (zh) * 2018-06-22 2018-11-23 北京小米移动软件有限公司 订单识别方法、装置和可读存储介质
CN109102303B (zh) * 2018-06-28 2021-06-08 招联消费金融有限公司 风险检测方法和相关装置
CN109191226B (zh) * 2018-06-29 2021-10-12 创新先进技术有限公司 风险控制方法和装置
CN112598321B (zh) * 2018-07-10 2024-07-02 创新先进技术有限公司 一种风险防控方法、***及终端设备
CN109598000B (zh) * 2018-12-28 2023-06-16 百度在线网络技术(北京)有限公司 语义关系识别方法、装置、计算机设备和存储介质
CN111488334B (zh) * 2019-01-29 2023-04-14 阿里巴巴集团控股有限公司 数据处理方法及电子设备
CN110322252B (zh) * 2019-05-30 2023-07-04 创新先进技术有限公司 风险主体识别方法以及装置
CN110335115A (zh) * 2019-07-01 2019-10-15 阿里巴巴集团控股有限公司 一种业务订单处理方法及装置
CN110348730A (zh) * 2019-07-04 2019-10-18 创新奇智(南京)科技有限公司 风险用户判断方法及其***、电子设备
CN112579713B (zh) * 2019-09-29 2023-11-21 ***通信集团辽宁有限公司 地址识别方法、装置、计算设备及计算机存储介质
US11132512B2 (en) * 2019-11-08 2021-09-28 International Business Machines Corporation Multi-perspective, multi-task neural network model for matching text to program code
CN112988989B (zh) * 2019-12-18 2022-08-12 ***通信集团四川有限公司 一种地名地址匹配方法及服务器
CN113111232A (zh) * 2020-02-13 2021-07-13 北京明亿科技有限公司 基于正则表达式的接处警文本地址提取方法和装置
CN111738358B (zh) * 2020-07-24 2020-12-08 支付宝(杭州)信息技术有限公司 一种数据识别方法、装置、设备和可读介质
CN112818667B (zh) * 2021-01-29 2024-07-02 上海寻梦信息技术有限公司 地址纠正方法、***、设备及存储介质
CN113343670B (zh) * 2021-05-26 2023-07-28 武汉大学 基于隐马尔可夫与分类算法耦合的地址文本要素提取方法
CN114528908A (zh) * 2021-12-31 2022-05-24 安徽航天信息有限公司 网络请求数据分类模型训练方法、分类方法及存储介质

Family Cites Families (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8812300B2 (en) * 1998-03-25 2014-08-19 International Business Machines Corporation Identifying related names
JP4497834B2 (ja) * 2003-04-28 2010-07-07 パイオニア株式会社 音声認識装置及び音声認識方法並びに音声認識用プログラム及び情報記録媒体
JP4545540B2 (ja) * 2004-10-01 2010-09-15 三菱電機株式会社 アクセス防止装置
JP4639784B2 (ja) * 2004-12-06 2011-02-23 ソニー株式会社 学習装置および学習方法、並びにプログラム
US7590536B2 (en) * 2005-10-07 2009-09-15 Nuance Communications, Inc. Voice language model adjustment based on user affinity
EP2013791A4 (en) * 2006-05-04 2011-04-20 Jpmorgan Chase Bank Na SYSTEM AND METHOD FOR RESOLUTION AND FILTERING SERVICES OF LIMITED PARTICIPANTS
US7668921B2 (en) * 2006-05-30 2010-02-23 Xerox Corporation Method and system for phishing detection
JPWO2008004663A1 (ja) * 2006-07-07 2009-12-10 日本電気株式会社 言語モデル更新装置、言語モデル更新方法、および言語モデル更新用プログラム
US7590707B2 (en) * 2006-08-07 2009-09-15 Webroot Software, Inc. Method and system for identifying network addresses associated with suspect network destinations
US7984500B1 (en) * 2006-10-05 2011-07-19 Amazon Technologies, Inc. Detecting fraudulent activity by analysis of information requests
KR100897553B1 (ko) * 2007-01-04 2009-05-15 삼성전자주식회사 사용자의 기기 사용 패턴을 이용한 음성 인식 방법 및 장치
US8805861B2 (en) * 2008-12-09 2014-08-12 Google Inc. Methods and systems to train models to extract and integrate information from data sources
CN101923618B (zh) * 2010-08-19 2011-12-21 中国航天科技集团公司第七一0研究所 一种基于隐马尔可夫模型的汇编指令级漏洞检测方法
US8468167B2 (en) * 2010-10-25 2013-06-18 Corelogic, Inc. Automatic data validation and correction
CN102339320B (zh) * 2011-11-04 2013-08-28 华为数字技术(成都)有限公司 恶意网页的识别方法以及识别装置
US9275339B2 (en) * 2012-04-24 2016-03-01 Raytheon Company System and method for probabilistic name matching
CN103810425B (zh) * 2012-11-13 2015-09-30 腾讯科技(深圳)有限公司 恶意网址的检测方法及装置
TWI461952B (zh) * 2012-12-26 2014-11-21 Univ Nat Taiwan Science Tech 惡意程式偵測方法與系統
US9178901B2 (en) * 2013-03-26 2015-11-03 Microsoft Technology Licensing, Llc Malicious uniform resource locator detection
CN103220302A (zh) * 2013-05-07 2013-07-24 腾讯科技(深圳)有限公司 恶意网址的访问防御方法和相关装置
CN103530562A (zh) * 2013-10-23 2014-01-22 腾讯科技(深圳)有限公司 一种恶意网站的识别方法和装置
CN104217160B (zh) * 2014-09-19 2017-11-28 中国科学院深圳先进技术研究院 一种中文钓鱼网站检测方法及***
CN106205220A (zh) * 2015-01-07 2016-12-07 江苏理工学院 空中交通管制方法
US10049099B2 (en) * 2015-04-10 2018-08-14 Facebook, Inc. Spell correction with hidden markov models on online social networks
CN104766014B (zh) * 2015-04-30 2017-12-01 安一恒通(北京)科技有限公司 用于检测恶意网址的方法和***
CN106296195A (zh) * 2015-05-29 2017-01-04 阿里巴巴集团控股有限公司 一种风险识别方法及装置
CN104933443A (zh) * 2015-06-26 2015-09-23 北京途美科技有限公司 一种敏感数据自动识别与分类的方法
CN105574146A (zh) * 2015-12-15 2016-05-11 北京奇虎科技有限公司 网址拦截方法及装置
CN105447204B (zh) * 2016-01-04 2017-12-12 北京百度网讯科技有限公司 网址识别方法和装置
CN106682502B (zh) * 2016-12-13 2019-07-19 重庆邮电大学 基于隐马尔可夫和概率推断的入侵意图识别***及方法
CN107526967B (zh) * 2017-07-05 2020-06-02 阿里巴巴集团控股有限公司 一种风险地址识别方法、装置以及电子设备

Also Published As

Publication number Publication date
KR20200015444A (ko) 2020-02-12
JP2020524314A (ja) 2020-08-13
SG11201907079QA (en) 2019-08-27
CN107526967A (zh) 2017-12-29
TWI682302B (zh) 2020-01-11
US20200167526A1 (en) 2020-05-28
MY201873A (en) 2024-03-21
WO2019007288A1 (zh) 2019-01-10
EP3637295A4 (en) 2020-04-29
US20200034426A1 (en) 2020-01-30
TW201907325A (zh) 2019-02-16
EP3637295B1 (en) 2021-08-04
CN107526967B (zh) 2020-06-02
EP3637295A1 (en) 2020-04-15
US10699076B2 (en) 2020-06-30
US10762296B2 (en) 2020-09-01
PH12019501823A1 (en) 2019-10-07
KR102244417B1 (ko) 2021-04-28

Similar Documents

Publication Publication Date Title
JP6894058B2 (ja) 危険アドレス識別方法及びコンピュータ可読記憶媒体、並びに電子装置
CN110363049B (zh) 图形元素检测识别和类别确定的方法及装置
JP6335898B2 (ja) 製品認識に基づく情報分類
CN110276023B (zh) Poi变迁事件发现方法、装置、计算设备和介质
TW202020691A (zh) 特徵詞的確定方法、裝置和伺服器
US20210358570A1 (en) Method and system for claim scope labeling, retrieval and information labeling of gene sequence
CN109948140B (zh) 一种词向量嵌入方法及装置
JP2011150546A (ja) 認識装置
CN114239566B (zh) 基于信息增强实现两步中文事件精准检测的方法、装置、处理器及其计算机可读存储介质
CN111401062B (zh) 文本的风险识别方法、装置及设备
CN111159354A (zh) 一种敏感资讯检测方法、装置、设备及***
CN112417093A (zh) 一种模型训练的方法及装置
CN110033092B (zh) 数据标签生成、模型训练、事件识别方法和装置
WO2012085923A1 (en) Method and system for classification of moving objects and user authoring of new object classes
CN111368902A (zh) 一种数据标注的方法及装置
CN114860905A (zh) 意图识别方法、装置及设备
CN110781292A (zh) 文本数据多层次分类方法、装置、电子设备和存储介质
CN107562715B (zh) 词向量处理方法、装置以及电子设备
CN111046658B (zh) 一种乱序文本识别方法、装置及设备
CN110399984B (zh) 一种信息的预测方法、***以及电子设备
CN111598092A (zh) 图像中目标区域的确定方法、目标识别方法及装置
CN112579774B (zh) 模型训练方法、模型训练装置及终端设备
CN117334186B (zh) 一种基于机器学***台
CN115905456B (zh) 一种数据识别方法、***、设备及计算机可读存储介质
CN117094032B (zh) 一种基于隐私保护的用户信息加密方法及***

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20191218

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20191218

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200622

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20200622

A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20200902

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200908

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20201130

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20201218

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20210113

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210114

R150 Certificate of patent or registration of utility model

Ref document number: 6894058

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250