JP2022548501A

JP2022548501A - 暗号通貨取引を分析するためのデータ取得方法及び装置

Info

Publication number: JP2022548501A
Application number: JP2022512809A
Authority: JP
Inventors: サンドクソ; チャンフンユン; スンヒョンリ
Original assignee: エスツーダブリューインコーポレイテッド
Priority date: 2019-09-05
Filing date: 2020-01-30
Publication date: 2022-11-21
Anticipated expiration: 2040-01-30
Also published as: KR102051350B1; CN114730387A; JP7372707B2; WO2021045332A1; US20220358493A1

Abstract

本開示は、不正な暗号通貨口座を検出するための機械学習モデルを生成するために、学習データを取得する方法及び装置に関し、さらに詳しくは、報告された不正なアドレスに関する情報が格納されている第１のデータベースから不正なアドレスに関連するレポートを受信するステップと、レポートから、第１の不正なアドレス及び第１の不正なアドレスに関連する第１のディスクリプション（ｄｅｓｃｒｉｐｔｉｏｎ）を取得するステップと、自然言語処理（ＮａｔｕｒａｌＬａｎｇｕａｇｅＰｒｏｃｅｓｓｉｎｇ）を用いて、第１のディスクリプションから第１の不正なアドレスに関連する複数の第１のキーワードを抽出するステップと、第１の不正なアドレスを第２のデータベースに格納するステップとを含むことを特徴とする。
【選択図】図３

Description

本開示は、不正な暗号通貨口座を検出するための機械学習モデルを生成するために、学習データを取得する方法及び装置に関する。

暗号通貨（ｃｒｙｐｔｏｃｕｒｒｅｎｃｙ）は、交換手段として機能するように設計されたデジタル資産であり、ブロックチェーン（ｂｌｏｃｋｃｈａｉｎ）技術で暗号化され、分散発行され、一定のネットワーク上で通貨として使用できる電子情報である。暗号通貨は、中央銀行が発行するものではなく、ブロックチェーン技術に基づいて、金銭的価値がデジタル方式で表示された電子情報であって、インターネット上のＰ２Ｐ方式で分散保存されて運用・管理される。暗号通貨を発行して管理する重要な手法は、ブロックチェーン（ｂｌｏｃｋｃｈａｉｎ）技術である。ブロックチェーンは、継続して増え続ける記録（ブロック）の一覧表であり、ブロックは、暗号化方法を用いて連結されるので、セキュリティが確保される。各ブロックは、典型的には、前のブロックの暗号ハッシュ、タイムスタンプと取引データを含んでいる。ブロックチェーンは、最初からデータの修正に対する抵抗力を有しており、両当事者間の取引を有効且つ永久的に証明できる公開された分散帳簿である。従って、暗号通貨は、不正操作防止を基に透明な運用が可能である。

そのほか、暗号通貨は、従来の通貨とは異なり、匿名性を有しているので、送金した人と送金された人以外の第三者は、取引履歴を一切知ることができないという特徴がある。口座の匿名性のために取引の流れを追跡することが困難であり（Ｎｏｎ－ｔｒａｃｋａｂｌｅ）、送金記録、集金記録などの一切の記録はすべて公開されているものの、取引主体を知ることはできない。

暗号通貨は、前述したような自由性及び透明性のために、従来の基軸通貨を代替することのできる代案であると言われており、従来の通貨に比較して安価な手数料と簡単な送金手続きのために国際間取引などに効果的に用いられることができると考えられる。但し、その匿名性のために、暗号通貨は、不正な取引に用いられるなど、犯罪の手段として悪用されることもある。

また、暗号通貨取引のデータは膨大であるので、不正な取引の特徴を手動で判別し、詐欺主体を特定することが困難であるといった課題があった。これに関して、機械学習を用いると、膨大なデータの関係を自動的に学習することができる。

よって、機械学習を用いて暗号通貨を犯罪手段として用いる取引主体を特定する方法が求められている。

本開示に係る不正な暗号通貨口座を検出するための機械学習モデルを生成するために、学習データを取得する方法は、報告された不正なアドレスに関する情報が格納されている第１のデータベースから不正なアドレスに関連するレポートを受信するステップと、レポートから、第１の不正なアドレス及び第１の不正なアドレスに関連する第１のディスクリプション（ｄｅｓｃｒｉｐｔｉｏｎ）を取得するステップと、自然言語処理（ＮａｔｕｒａｌＬａｎｇｕａｇｅＰｒｏｃｅｓｓｉｎｇ）を用いて、第１のディスクリプションから第１の不正なアドレスに関連する複数の第１のキーワードを抽出するステップと、第１の不正なアドレスを第２のデータベースに格納するステップとを含むことを特徴とする。

本開示に係る学習データを取得する方法は、公開的にアクセス可能なウェブサイトからテキスト情報を受信するステップと、テキスト情報から暗号通貨アドレスが含まれたメインテキスト情報を抽出するステップと、自然言語処理を用いて、メインテキスト情報から複数の第２のキーワードを抽出するステップと、不正情報検出モデルを取得するステップと、複数の第２のキーワードを不正情報検出モデルに適用し、メインテキストに含まれている暗号通貨アドレスが不正なアドレスであるか否かを判定するステップと、暗号通貨アドレスが不正なアドレスである場合、暗号通貨アドレスを第２の不正なアドレスとして取得するステップと、第２の不正なアドレスを第２のデータベースに格納するステップとを含むことを特徴とする。

本開示に係る学習データを取得する方法において、不正情報検出モデルを取得するステップは、良好な暗号通貨アドレスが含まれていると判定されたウェブサイトから取得した良好な暗号通貨アドレスに関連する単語を取得するステップと、良好な暗号通貨アドレスに関連するそれぞれの単語がウェブサイトに出現する第１の頻度数を取得するステップと、第１のキーワードのそれぞれが第１のディスクリプションに出現する第２の頻度数を取得するステップと、良好であるとラベル付けされた良好な暗号通貨アドレスに関連する単語、第１の頻度数、第２の頻度数、及び不正であるとラベル付けされた複数の第１のキーワードを機械学習して、不正情報検出モデルを取得するステップとを含むことを特徴とする。

本開示に係る学習データを取得する方法は、暗号通貨アドレスに対応するタグ（ｔａｇ）を提供するサービスから第２のディスクリプションを取得するステップと、複数の第１のキーワードに基づいて不正なキーワードセットを取得するステップと、不正なキーワードセットに含まれた単語が第２のディスクリプションに出現する場合、第２のディスクリプションに対応する暗号通貨アドレスを第３の不正なアドレスとして判定するステップと、第３の不正なアドレスを第２のデータベースに格納するステップとを含むことを特徴とする。

本開示に係る学習データを取得する方法において、不正なキーワードセットを取得するステップは、複数の第１のキーワードのそれぞれに対して第１のディスクリプションに出現する頻度数を取得するステップと、複数の第１のキーワードのうち、頻度数の高い所定数の単語を不正なキーワードセットとして判定するステップとを含むことを特徴とする。

本開示に係る学習データを取得する方法は、暗号通貨アドレスに対応するタグ（ｔａｇ）を提供するサービスからアドレスの信頼度を示すスコア情報を取得するステップと、スコア情報が良好（ｂｅｎｉｇｎ）を示しており、第２のディスクリプションに不正なキーワードセットに含まれた単語が出現しない場合、暗号通貨アドレスを良好なアドレスとして判定するステップと、スコア情報が不正（ｓｃａｍ）を示しており、第２のディスクリプションに不正なキーワードセットに含まれた単語が出現する場合、暗号通貨アドレスを第３の不正なアドレスとして判定するステップと、良好なアドレス及び第３の不正なアドレスを第２のデータベースに格納するステップとをさらに含むことを特徴とする。

本開示に係る不正な暗号通貨口座を検出するための機械学習モデルを生成するために、学習データを取得する装置は、プロセッサ及びメモリを含み、プロセッサは、メモリに記憶された命令語に従って、報告された不正なアドレスに関する情報が格納されている第１のデータベースから不正なアドレスに関連するレポートを受信するステップと、レポートから、第１の不正なアドレス及び第１の不正なアドレスに関連する第１のディスクリプション（ｄｅｓｃｒｉｐｔｉｏｎ）を取得するステップと、自然言語処理（ＮａｔｕｒａｌＬａｎｇｕａｇｅＰｒｏｃｅｓｓｉｎｇ）を用いて、第１のディスクリプションから第１の不正なアドレスに関連する複数の第１のキーワードを抽出するステップと、第１の不正なアドレスを第２のデータベースに格納するステップとを行うことを特徴とする。

本開示に係る学習データを取得する装置のプロセッサは、メモリに記憶された命令語に従って、公開的にアクセス可能なウェブサイトからテキスト情報を受信するステップと、テキスト情報から暗号通貨アドレスが含まれたメインテキスト情報を抽出するステップと、自然言語処理を用いて、メインテキスト情報から複数の第２のキーワードを抽出するステップと、不正情報検出モデルを取得するステップと、複数の第２のキーワードを不正情報検出モデルに適用し、メインテキストに含まれている暗号通貨アドレスが不正なアドレスであるか否かを判定するステップと、暗号通貨アドレスが不正なアドレスである場合、暗号通貨アドレスを第２の不正なアドレスとして取得するステップと、第２の不正なアドレスを第２のデータベースに格納するステップとを行うことを特徴とする。

本開示に係る学習データを取得する装置のプロセッサは、メモリに記憶された命令語に従って、良好な暗号通貨アドレスが含まれていると判定されたウェブサイトから取得した良好な暗号通貨アドレスに関連する単語を取得するステップと、良好な暗号通貨アドレスに関連するそれぞれの単語がウェブサイトに出現する第１の頻度数を取得するステップと、第１のキーワードのそれぞれが第１のディスクリプションに出現する第２の頻度数を取得するステップと、良好であるとラベル付けされた良好な暗号通貨アドレスに関連する単語、第１の頻度数、第２の頻度数、及び不正であるとラベル付けされた複数の第１のキーワードを機械学習して、不正情報検出モデルを取得するステップとを行うことを特徴とする。

本開示に係る学習データを取得する装置のプロセッサは、メモリに記憶された命令語に従って、暗号通貨アドレスに対応するタグ（ｔａｇ）を提供するサービスから第２のディスクリプションを取得するステップと、複数の第１のキーワードに基づいて不正なキーワードセットを取得するステップと、不正なキーワードセットに含まれた単語が第２のディスクリプションに出現する場合、第２のディスクリプションに対応する暗号通貨アドレスを第３の不正なアドレスとして判定するステップと、第３の不正なアドレスを第２のデータベースに格納するステップとを行うことを特徴とする。

本開示に係る学習データを取得する装置のプロセッサは、メモリに記憶された命令語に従って、複数の第１のキーワードのそれぞれに対して第１のディスクリプションに出現する頻度数を取得するステップと、複数の第１のキーワードのうち、頻度数の高い所定数の単語を不正なキーワードセットとして判定するステップとを行うことを特徴とする。

本開示に係る学習データを取得する装置のプロセッサは、メモリに記憶された命令語に従って、暗号通貨アドレスに対応するタグ（ｔａｇ）を提供するサービスからアドレスの信頼度を示すスコア情報を取得するステップと、スコア情報が良好（ｂｅｎｉｇｎ）を示しており、第２のディスクリプションに不正なキーワードセットに含まれた単語が出現しない場合、暗号通貨アドレスを良好なアドレスとして判定するステップと、スコア情報が不正（ｓｃａｍ）を示しており、第２のディスクリプションに不正なキーワードセットに含まれた単語が出現する場合、暗号通貨アドレスを第３の不正なアドレスとして判定するステップと、良好なアドレス及び第３の不正なアドレスを第２のデータベースに格納するステップとをさらに行うことを特徴とする。

さらに、前述のような学習データを取得する方法を実現するためのプログラムは、コンピュータ可読記録媒体に記録されてもよい。

本開示の一実施形態に係る学習データ取得装置のブロック図である。本開示の一実施形態に係る学習データ取得装置を示す図である。本開示の一実施形態に係る学習データ取得装置の動作を説明するためのフローチャートである。本開示の一実施形態に係る学習データ取得装置の動作を示す説明図である。本開示の一実施形態に係る学習データ取得装置の動作を説明するためのフローチャートである。本開示の一実施形態に係る学習データ取得装置の動作を示す説明図である。本開示の一実施形態に従って不正情報検出モデルを取得する方法を示すフローチャートである。本開示の一実施形態に係る学習データ取得装置の動作を説明するためのフローチャートである。本開示の一実施形態に係る学習データ取得装置の動作を説明するためのフローチャートである。本開示の一実施形態に係る学習データ取得装置の動作を示す説明図である。本開示の一実施形態に従って機械学習モデルを導出する構成を示す図である。

開示された実施形態の利点、特徴及びそれらを達成する方法は、添付図面と共に後述する実施形態を参照することにより明確になるであろう。しかしながら、本開示は、以下に開示する実施形態に限定されるものではなく、様々な形態で実現することができ、これらの実施形態は、単に本開示が完全なものとなるように、本開示の属する技術分野における通常の知識を有する者に発明の範囲を完全に理解させるために提供するものに過ぎない。

本明細書で用いられる用語について簡単に説明し、開示された実施形態について詳しく説明する。

本明細書で用いられる用語は、本開示における機能を考慮しつつ、可能な限り現在広く用いられている一般的な用語を選択しているが、これは関連分野に属する技術者の意図または判例、新しい技術の出現などによって変わり得る。また、特定の場合は、出願人が任意に選定した用語もあり、その場合、該当する発明の詳細な説明部分においてその意味を詳しく記載する。よって、本開示で用いられる用語は、単なる用語の名称ではなく、その用語が有する意味と本開示の全体に亘った内容に基づいて定義されるべきである。

本明細書における単数の表現は、文脈からみて明らかに単数であると特定しない限り、複数の表現を含む。また、複数の表現は、文脈からみて明らかに複数であると特定しない限り、単数の表現を含む。

明細書全体において、ある部分がある構成要素を「含む」という場合、これは特に断らない限り、他の構成要素を除外するのではなく、他の構成要素をさらに含んでもよいことを意味する。

さらに、本明細書で用いられる「部」なる用語は、ソフトウェアまたはハードウェアコンポーネントを意味し、「部」は、所定の役割を果たす。但し、「部」は、ソフトウェアまたはハードウェアに限定される意味ではない。「部」は、アドレス指定可能な記憶媒体に含まれるように構成されてもよく、１つまたはそれ以上のプロセッサを再生するように構成されてもよい。よって、一例として、「部」は、ソフトウェアコンポーネント、オブジェクト指向ソフトウェアコンポーネント、クラスコンポーネント、及びタスクコンポーネントなどのコンポーネントと、プロセス、関数、属性、プロシージャ、サブルーチン、プログラムコードのセグメント、ドライバ、ファームウェア、マイクロコード、回路、データ、データベース、データ構造、テーブル、アレイ、及び変数とを含む。コンポーネント及び「部」の中で提供される機能は、より少ない数のコンポーネント及び「部」で組み合わせられるか、あるいは更なるコンポーネントと「部」に再度分離されてもよい。

本開示の一実施形態によれば、「部」は、プロセッサ及びメモリで実現されてもよい。「プロセッサ」なる用語は、汎用プロセッサ、中央処理装置（ＣＰＵ）、マイクロプロセッサ、デジタル信号プロセッサ（ＤＳＰ）、コントローラ、マイクロコントローラ、状態マシンなどを含むように広く解釈されるべきである。ある環境では、「プロセッサ」は、特定用途向け集積回路（ＡＳＩＣ）、プログラマブルロジックデバイス（ＰＬＤ）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）などを指してもよい。「プロセッサ」なる用語は、例えば、ＤＳＰとマイクロプロセッサの組み合わせ、複数のマイクロプロセッサの組み合わせ、ＤＳＰコアと結合した１つ以上のマイクロプロセッサの組み合わせ、または他の任意のそのような構成の組み合わせなどの処理装置の組み合わせを指してもよい。

「メモリ」なる用語は、電子情報を記憶可能な任意の電子コンポーネントを含むように広く解釈されるべきである。用語メモリは、ランダムアクセスメモリ（ＲＡＭ）、読み出し専用メモリ（ＲＯＭ）、不揮発性ランダムアクセスメモリ（ＮＶＲＡＭ）、プログラマブル読み出し専用メモリ（ＰＲＯＭ）、消去可能プログラマブル読み出し専用メモリ（ＥＰＲＯＭ）、電気的消去可能ＰＲＯＭ（ＥＥＰＲＯＭ）、フラッシュメモリ、磁気または光学データ記憶装置、レジスタなどのようなプロセッサ可読媒体の様々な種類を指してもよい。プロセッサがメモリから情報を読み取り、及び／またはメモリに情報を書き込むことができる場合、メモリは、プロセッサと電子通信状態にあると称される。プロセッサに集積されたメモリは、プロセッサと電子通信状態にある。

以下では、添付図面を参照して、本開示の属する技術分野における通常の知識を有する者が容易に実施できるように、実施例について詳しく説明する。なお、図面において、本開示を明確に説明するために、説明に関係ない部分は省略する。

図１は、本開示の一実施形態に係る学習データ取得装置１００のブロック図である。

図１を参照すると、一実施形態に係る学習データ取得装置１００は、データ学習部１１０またはデータ認識部１２０のうち少なくとも１つを含む。前述したような学習データ取得装置１００は、プロセッサ及びメモリを含む。

データ学習部１１０は、データセットを用いてターゲットタスク（ｔａｒｇｅｔｔａｓｋ）を実行するための機械学習モデルを学習する。データ学習部１１０は、データセット及びターゲットタスクに関するラベル情報を受信する。データ学習部１１０は、データセットとラベル情報との関係について機械学習を行うことで機械学習モデルを取得する。データ学習部１１０が取得した機械学習モデルは、データセットを用いてラベル情報を生成するためのモデルである。

データ認識部１２０は、データ学習部１１０の機械学習モデルを受信して記憶する。データ認識部１２０は、入力データに機械学習モデルを適用してラベル情報を出力する。また、データ認識部１２０は、入力データ、ラベル情報、及び機械学習モデルによって出力された結果を機械学習モデルを更新するために用いる。

データ学習部１１０及びデータ認識部１２０のうち少なくとも１つは、少なくとも１つのハードウェアチップの形態で作製され、電子装置に搭載される。例えば、データ学習部１１０及びデータ認識部１２０のうち少なくとも１つは、人工知能（ＡＩ；ａｒｔｉｆｉｃｉａｌｉｎｔｅｌｌｉｇｅｎｃｅ）のための専用ハードウェアチップの形態で作られてもよく、あるいは既存の汎用プロセッサ（例えば、ＣＰＵまたはａｐｐｌｉｃａｔｉｏｎｐｒｏｃｅｓｓｏｒ）またはグラフィック専用プロセッサ（例えば、ＧＰＵ）の一部として作製され、既に説明した様々な電子装置に搭載されてもよい。

また、データ学習部１１０及びデータ認識部１２０は、個別の電子装置にそれぞれ搭載される。例えば、データ学習部１１０及びデータ認識部１２０のうちの一方は電子装置に含まれ、他方はサーバに含まれてもよい。また、データ学習部１１０及びデータ認識部１２０は、有線または無線を介して、データ学習部１１０が構築した機械学習モデル情報をデータ認識部１２０に提供してもよく、データ認識部１２０に入力されたデータを、追加学習データとしてデータ学習部１１０に提供してもよい。

さらに、データ学習部１１０及びデータ認識部１２０のうち少なくとも１つは、ソフトウェアモジュールで実現される。データ学習部１１０及びデータ認識部１２０のうち少なくとも一方がソフトウェアモジュール（またはインストラクション（ｉｎｓｔｒｕｃｔｉｏｎ）を含むプログラムモジュール）で実現される場合、ソフトウェアモジュールは、メモリまたはコンピュータで読み取り可能な非一時的に読み取り可能な記録媒体（ｎｏｎ－ｔｒａｎｓｉｔｏｒｙｃｏｍｐｕｔｅｒｒｅａｄａｂｌｅｍｅｄｉａ）に格納されてもよい。また、その場合、少なくとも１つのソフトウェアモジュールは、ＯＳ（ＯｐｅｒａｔｉｎｇＳｙｓｔｅｍ）によって提供されてもよく、所定のアプリケーションによって提供されてもよい。あるいは、少なくとも１つのソフトウェアモジュールの一部はＯＳ（ＯｐｅｒａｔｉｎｇＳｙｓｔｅｍ）によって提供され、残りの部分は所定のアプリケーションによって提供されてもよい。

本開示の一実施形態に係るデータ学習部１１０は、データ取得部１１１、前処理部１１２、学習データ選択部１１３、モデル学習部１１４、及びモデル評価部１１５を含む。

データ取得部１１１は、機械学習に必要なデータを取得する。学習には多量のデータが必要であるため、データ取得部１１１は、複数のデータを含むデータセットを受信してもよい。

複数のデータのそれぞれにラベル情報が割り当てられる。ラベル情報は、複数のデータのそれぞれを説明する情報であってもよい。ラベル情報は、ターゲットタスク（ｔａｒｇｅｔｔａｓｋ）が導出したい情報であってもよい。ラベル情報は、ユーザ入力によって取得したり、メモリから取得したり、機械学習モデルの結果から取得したりしてもよい。例えば、ターゲットタスクが暗号通貨アドレスの取引履歴から暗号通貨アドレスが詐欺師の所有するアドレスであるか否かを判定するためのものであれば、機械学習に用いられる複数のデータは、暗号通貨アドレスの取引履歴に関連するデータとなり、ラベル情報は、暗号通貨アドレスが詐欺師の所有するアドレスであるか否かになる。

前処理部１１２は、受信したデータを機械学習に利用できるように、取得したデータを前処理する。前処理部１１２は、後述するモデル学習部１１４が利用できるように、取得したデータセットを予め設定されたフォーマットに加工する。

学習データ選択部１１３は、前処理済みのデータの中から学習に必要なデータを選択する。選択されたデータはモデル学習部１１４に提供される。学習データ選択部１１３は、予め設定された基準に基づいて、前処理済みのデータの中から学習に必要なデータを選択する。また、学習データ選択部１１３は、後述するモデル学習部１１４による学習によって予め設定された基準に基づいてデータを選択してもよい。

モデル学習部１１４は、データセットに基づいて所定のラベル情報を出力するかに関する基準を学習する。また、モデル学習部１１４は、データセット及びデータセットに対するラベル情報を学習データとして用いることで機械学習を行う。さらに、モデル学習部１１４は、予め取得された機械学習モデルを追加利用して機械学習を行ってもよい。その場合、予め取得された機械学習モデルは予め構築されたモデルである。例えば、機械学習モデルは、基本学習データを入力して事前に構築されたモデルであってもよい。

機械学習モデルは、学習モデルの適用分野、学習の目的または装置のコンピュータ性能などを考慮して構築される。機械学習モデルは、例えば、神経回路網（ＮｅｕｒａｌＮｅｔｗｏｒｋ）に基づくモデルであってもよい。例えば、ＤｅｅｐＮｅｕｒａｌＮｅｔｗｏｒｋ（ＤＮＮ）、ＲｅｃｕｒｒｅｎｔＮｅｕｒａｌＮｅｔｗｏｒｋ（ＲＮＮ）、ＬｏｎｇＳｈｏｒｔ－ＴｅｒｍＭｅｍｏｒｙｍｏｄｅｌｓ（ＬＳＴＭ）、ＢＲＤＮＮ（ＢｉｄｉｒｅｃｔｉｏｎａｌＲｅｃｕｒｒｅｎｔＤｅｅｐＮｅｕｒａｌＮｅｔｗｏｒｋ）、ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋｓ（ＣＮＮ）などのモデルが機械学習モデルとして用いられてもよいが、これらに限定されるものではない。

様々な実施形態によれば、モデル学習部１１４は、予め構築された機械学習モデルが複数存在する場合、入力された学習データと基本学習データとの関連性の高い機械学習モデルを学習する機械学習モデルとして決定する。その場合、基本学習データは、データの種類ごとに予め分類されていてもよく、機械学習モデルは、データの種類ごとに予め構築されていてもよい。例えば、基本学習データは、学習データが生成された場所、学習データが生成された時間、学習データのサイズ、学習データの生成者、学習データ中のオブジェクトの種類などのような様々な基準で予め分類されている。

また、モデル学習部１１４は、例えば、誤差逆伝搬法（ｅｒｒｏｒｂａｃｋ－ｐｒｏｐａｇａｔｉｏｎ）または傾斜降下法（ｇｒａｄｉｅｎｔｄｅｓｃｅｎｔ）を含む学習アルゴリズムなどを用いて機械学習モデルを学習する。

さらに、モデル学習部１１４は、例えば、学習データを入力値とする教師あり学習（ｓｕｐｅｒｖｉｓｅｄｌｅａｒｎｉｎｇ）によって機械学習モデルを学習する。また、モデル学習部１１４は、例えば、特に指導を受けることなくターゲットタスク（ｔａｒｇｅｔｔａｓｋ）のために必要なデータの種類を自ら学習することにより、ターゲットタスクのための基準を発見する教師なし学習（ｕｎｓｕｐｅｒｖｉｓｅｄｌｅａｒｎｉｎｇ）によって、機械学習モデルを取得する。さらに、モデル学習部１１４は、例えば、学習に伴うターゲットタスクの結果が正しいかどうかに関するフィードバックを利用する強化学習（ｒｅｉｎｆｏｒｃｅｍｅｎｔｌｅａｒｎｉｎｇ）によって、機械学習モデルを学習する。

また、機械学習モデルが学習されると、モデル学習部１１４は、学習済みの機械学習モデルを記憶する。その場合、モデル学習部１１４は、学習済みの機械学習モデルをデータ認識部１２０を含む電子装置のメモリに記憶してもよい。あるいは、モデル学習部１１４は、学習済みの機械学習モデルを電子装置と有線または無線ネットワークで接続されたサーバのメモリに記憶してもよい。

学習済みの機械学習モデルが記憶されるメモリは、例えば、電子装置の少なくとも１つの他の構成要素に関連する命令またはデータを併せて記憶する。さらに、メモリは、ソフトウェア及び／またはプログラムを記憶する。プログラムは、例えば、カーネル、ミドルウェア、アプリケーションプログラミングインターフェース（ＡＰＩ）及び／またはアプリケーションプログラム（または「アプリケーション」）などを含んでもよい。

モデル評価部１１５は、機械学習モデルに評価データを入力し、評価データから出力された結果が所定の基準を満たさない場合、モデル学習部１１４に再学習させる。その場合、評価データは、機械学習モデルを評価するために予め設定されたデータであってもよい。

例えば、モデル評価部１１５は、評価データに対する学習済みの機械学習モデルの結果のうち、認識結果が不正確である評価データの数または割合が予め設定された閾値を超える場合、所定の基準を満たさないと評価する。例えば、所定の基準が比率２％と定義された場合、学習済みの機械学習モデルが合計１０００個の評価データのうち２０個を超える評価データに対して誤認識結果を出力すると、モデル評価部１１５は、学習済みの機械学習モデルが適切ではないと評価する。

なお、学習済みの機械学習モデルが複数存在する場合、モデル評価部１１５は、それぞれの学習済みの機械学習モデルに対して所定の基準を満たすか否かを評価し、所定の基準を満たすモデルを最終機械学習モデルとして決定する。その場合、所定基準を満たすモデルが複数ある場合、モデル評価部１１５は、評価スコアの高い順に予め設定されたいずれか１つまたは所定数のモデルを最終機械学習モデルとして決定する。

さらに、データ学習部１１０中のデータ取得部１１１、前処理部１１２、学習データ選択部１１３、モデル学習部１１４、及びモデル評価部１１５のうち少なくとも１つは、少なくとも１つのハードウェアチップの形態で作製され、電子装置に搭載される。例えば、データ取得部１１１、前処理部１１２、学習データ選択部１１３、モデル学習部１１４、及びモデル評価部１１５のうち少なくとも１つは、人工知能（ＡＩ；ａｒｔｉｆｉｃｉａｌｉｎｔｅｌｌｉｇｅｎｃｅ）のための専用のハードウェアチップの形態で作製されてもよく、あるいは既存の汎用プロセッサ（例えば、ＣＰＵまたはａｐｐｌｉｃａｔｉｏｎｐｒｏｃｅｓｓｏｒ）またはグラフィック専用プロセッサ（例えば、ＧＰＵ）の一部として作製され、前述の様々な電子装置に搭載されてもよい。

また、データ取得部１１１、前処理部１１２、学習データ選択部１１３、モデル学習部１１４、及びモデル評価部１１５は、１つの電子装置に搭載されてもよく、あるいは別途の電子装置にそれぞれ搭載されてもよい。例えば、データ取得部１１１、前処理部１１２、学習データ選択部１１３、モデル学習部１１４、及びモデル評価部１１５の一部は電子装置に含まれ、残りの一部はサーバに含まれる。

また、データ取得部１１１、前処理部１１２、学習データ選択部１１３、モデル学習部１１４、及びモデル評価部１１５のうち少なくとも１つは、ソフトウェアモジュールで実現される。データ取得部１１１、前処理部１１２、学習データ選択部１１３、モデル学習部１１４、及びモデル評価部１１５のうち少なくとも１つがソフトウェアモジュール（または、インストラクション（ｉｎｓｔｒｕｃｔｉｏｎ）を含むプログラムモジュール）で実現される場合、ソフトウェアモジュールは、コンピュータで読み取り可能な非一時的に読み取り可能な記録媒体（ｎｏｎ－ｔｒａｎｓｉｔｏｒｙｃｏｍｐｕｔｅｒｒｅａｄａｂｌｅｍｅｄｉａ）に格納されてもよい。また、その場合、少なくとも１つのソフトウェアモジュールは、ＯＳ（ＯｐｅｒａｔｉｎｇＳｙｓｔｅｍ）によって提供されてもよく、所定のアプリケーションによって提供されてもよい。あるいは、少なくとも１つのソフトウェアモジュールの一部はＯＳ（ＯｐｅｒａｔｉｎｇＳｙｓｔｅｍ）によって提供され、残りの部分は所定のアプリケーションによって提供されてもよい。

本開示の一実施形態に係るデータ認識部１２０は、データ取得部１２１、前処理部１２２、認識データ選択部１２３、認識結果提供部１２４、及びモデル更新部１２５を含む。

データ取得部１２１は、入力データを受信する。前処理部１２２は、取得した入力データを認識データ選択部１２３または認識結果提供部１２４で利用できるように、取得した入力データを前処理する。

認識データ選択部１２３は、前処理済みのデータの中から必要なデータを選択する。選択されたデータは認識結果提供部１２４に提供される。認識データ選択部１２３は、予め設定された基準に基づいて、前処理済みのデータの中から一部または全部を選択する。また、認識データ選択部１２３は、モデル学習部１１４による学習によって予め設定された基準に基づいてデータを選択してもよい。

認識結果提供部１２４は、選択されたデータを機械学習モデルに適用して結果データを取得する。機械学習モデルは、モデル学習部１１４によって生成された機械学習モデルであってもよい。認識結果提供部１２４は、結果データを出力する。

モデル更新部１２５は、認識結果提供部１２４によって提供される認識結果に対する評価に基づいて、機械学習モデルを更新する。例えば、モデル更新部１２５は、認識結果提供部１２４によって提供される認識結果をモデル学習部１１４に提供することにより、モデル学習部１１４に機械学習モデルを更新させる。

なお、データ認識部１２０中のデータ取得部１２１、前処理部１２２、認識データ選択部１２３、認識結果提供部１２４、及びモデル更新部１２５のうち少なくとも１つは、少なくとも１つのハードウェアチップの形態で作製され、電子装置に搭載される。例えば、データ取得部１２１、前処理部１２２、認識データ選択部１２３、認識結果提供部１２４、及びモデル更新部１２５のうち少なくとも１つは、人工知能（ＡＩ；ａｒｔｉｆｉｃｉａｌｉｎｔｅｌｌｉｇｅｎｃｅ）のための専用のハードウェアチップの形態で作製されてもよく、あるいは既存の汎用プロセッサ（例えば、ＣＰＵまたはａｐｐｌｉｃａｔｉｏｎｐｒｏｃｅｓｓｏｒ）またはグラフィック専用プロセッサ（例えば、ＧＰＵ）の一部として作製され、前述の様々な電子装置に搭載されてもよい。

また、データ取得部１２１、前処理部１２２、認識データ選択部１２３、認識結果提供部１２４、及びモデル更新部１２５は、１つの電子装置に搭載されてもよく、あるいは別途の電子装置にそれぞれ搭載されてもよい。例えば、データ取得部１２１、前処理部１２２、認識データ選択部１２３、認識結果提供部１２４、及びモデル更新部１２５の一部は電子装置に含まれ、残りの一部はサーバに含まれる。

さらに、データ取得部１２１、前処理部１２２、認識データ選択部１２３、認識結果提供部１２４、及びモデル更新部１２５のうち少なくとも１つは、ソフトウェアモジュールで実現される。データ取得部１２１、前処理部１２２、認識データ選択部１２３、認識結果提供部１２４、及びモデル更新部１２５のうち少なくとも１つがソフトウェアモジュール（または、インストラクション（ｉｎｓｔｒｕｃｔｉｏｎ）を含むプログラムモジュール）で実現される場合、ソフトウェアモジュールは、コンピュータで読み取り可能な非一時的に読み取り可能な記録媒体（ｎｏｎ－ｔｒａｎｓｉｔｏｒｙｃｏｍｐｕｔｅｒｒｅａｄａｂｌｅｍｅｄｉａ）に格納されてもよい。また、その場合、少なくとも１つのソフトウェアモジュールは、ＯＳ（ＯｐｅｒａｔｉｎｇＳｙｓｔｅｍ）によって提供されてもよく、所定のアプリケーションによって提供されてもよい。あるいは、少なくとも１つのソフトウェアモジュールの一部はＯＳ（ＯｐｅｒａｔｉｎｇＳｙｓｔｅｍ）によって提供され、残りの部分は所定のアプリケーションによって提供されてもよい。

以下では、データ学習部１１０のデータ取得部１１１、前処理部１１２、及び学習データ選択部１１３が学習データを受信して処理する方法及び装置についてより詳しく説明する。

図２は、本開示の一実施形態に係る学習データ取得装置を示す図である。

学習データ取得装置１００は、プロセッサ２１０及びメモリ２２０を含む。プロセッサ２１０は、メモリ２２０に記憶された命令語を実行する。

前述したように、学習データ取得装置１００は、データ学習部１１０を含む。データ学習部１１０のデータ取得部１１１、前処理部１１２、または学習データ選択部１１３は、プロセッサ２１０及びメモリ２２０によって実現される。

以下では、図３及び図４を参照して学習データ取得装置を詳しく説明する。

図３は、本開示の一実施形態に係る学習データ取得装置の動作を説明するためのフローチャートである。また、図４は、本開示の一実施形態に係る学習データ取得装置の動作を示す説明図である。

学習データ取得装置１００は、不正な口座を検出するための機械学習モデルを生成するために、学習データを取得する。学習データ取得装置１００は、データ取得部１１１、前処理部１１２、または学習データ選択部１１３を含む。

学習データ取得装置１００は、報告された不正なアドレスに関する情報が格納されている第１のデータベースから不正なアドレスに関連するレポートを受信するステップ３１０を行う。

学習データ取得装置１００は、第１のデータベース４３０からデータを受信するための受信部４１０をさらに含む。受信部４１０は、有線または無線でデータを受信してもよい。

第１のデータベース４３０は、暗号通貨の不正なアドレスに関連するレポートを提供するサービスに組み込まれたデータベースであってもよい。また、第１のデータベース４３０は、暗号通貨詐欺ブラックリストサービス（Ｂｉｔｃｏｉｎｓｃａｍｂｌａｃｋｌｉｓｔｓｅｒｖｉｃｅｓ）に組み込まれたデータベースであってもよい。例えば、不正なアドレスに関連するレポートを提供するサービスには、ＢｉｔｃｏｉｎＷｈｏｓＷｈｏまたはＢｉｔｃｏｉｎＡｂｕｓｅなどのサービスがある。第１のデータベース４３０には、暗号通貨アドレスごとにレポートが格納されている。学習データ取得装置１００は、レポートを受信する。学習データ取得装置１００は、レポートに基づいて暗号通貨アドレスが不正なアドレスであるか否かを判定する。

学習データ取得装置１００は、レポートから、第１の不正なアドレス及び第１の不正なアドレスに関連する第１のディスクリプション（ｄｅｓｃｒｉｐｔｉｏｎ）を取得するステップ３２０を行う。

学習データ取得装置１００は、第１の不正なアドレス及び第１の不正なアドレスに関連する第１のディスクリプションを取得して処理するために、第１の分析部４２０をさらに含む。第１の分析部は、第１のデータベースから受信したデータを分析する。第１の分析部４２０は、ソフトウェアまたはハードウェアで実現される。第１の分析部４２０は、第２の分析部または第３の分析部と異なるデータを処理するが、同じハードウェアで実現されてもよい。

第１の不正なアドレスは、暗号通貨を送付・預入することのできる口座のアドレスである。第１の不正なアドレスは、第１のデータベース４３０を含むサービスによって既に詐欺に用いられた暗号通貨アドレスであると判定されたアドレスであってもよい。第１のディスクリプションは、第１の不正なアドレスが不正なアドレスとして判定されたことをテキストで説明する。

学習データ取得装置１００は、特定の言語で記載されている第１のディスクリプションのみを利用する。第１のディスクリプションは自然言語で記載されているので、学習データ取得装置１００が正しい言語分析を行えない場合、不正なアドレスの分析精度が低下する虞がある。よって、学習データ取得装置１００は、分析可能な言語からなる第１のディスクリプションのみを利用する。しかしながら、これに限定されるものではない。

学習データ取得装置１００は、自然言語処理（ＮａｔｕｒａｌＬａｎｇｕａｇｅＰｒｏｃｅｓｓｉｎｇ）を用いて、第１のディスクリプションから第１の不正なアドレスに関連する複数の第１のキーワードを抽出するステップ３３０を行う。第１のデータベースを含む暗号通貨詐欺ブラックリストサービスは、不正なアドレスの判別に関して信頼度の高いサービスである。よって、学習データ取得装置１００は、第１のディスクリプションのテキストから第１のキーワードを導出して、他のデータベースから取得された暗号通貨アドレスに関する情報を分析する。

学習データ取得装置１００は、第１のディスクリプションにおいて、特殊文字、ＵＲＬ、及びストップワード（ｓｔｏｐｗｏｒｄ）などの分析に不要な文字を削除する。また、学習データ取得装置１００は、第１のディスクリプションから不要な文字を削除してから残りの単語が所定数未満である場合、当該第１のディスクリプションを使用しない。所定数は、例えば１５個である。残りの単語が所定数未満である場合、単語の数が少なすぎて不正なアドレスを判別するためのキーワードとして使用するには不適である。学習データ取得装置１００は、不要な文字を削除してから、所定数以上の第１のディスクリプションを用いることで、学習データ取得装置１００の信頼度を高める。加えて、学習データ取得装置１００が取得したデータに基づく機械学習モデルの信頼度も高める。

学習データ取得装置１００は、第１の不正なアドレスを第２のデータベース４４０に格納するステップ３４０を行う。第２のデータベース４４０は、学習データ取得装置１００に含まれる。第２のデータベース４４０は、機械学習モデルを生成するためのデータを格納する。さらに、第２のデータベース４４０は、他の不正なアドレスを判別し、不正なアドレスに対するディスクリプションを分析するためのデータを格納する。

以下では、暗号通貨詐欺ブラックリストサービス（Ｂｉｔｃｏｉｎｓｃａｍｂｌａｃｋｌｉｓｔｓｅｒｖｉｃｅｓ）以外の場所で取得されたデータから不正なアドレス及び不正なアドレスに関する情報を取得する方法及び装置について説明する。

図５は、本開示の一実施形態に係る学習データ取得装置の動作を説明するためのフローチャートである。また、図６は、本開示の一実施形態に係る学習データ取得装置の動作を示す説明図である。

学習データ取得装置１００は、公開的にアクセス可能なウェブサイトからテキスト情報を受信するステップ５１０を行う。学習データ取得装置１００は、受信部４１０を用いてウェブサイトからテキスト情報を受信する。

公開的にアクセス可能なウェブサイト６１０には、個人的にまたは技術的に用いられるブログが含まれる。また、サイバーセキュリティ会社の不正行為分析レポートである。ウェブサイト６１０には、暗号通貨アドレスに関する様々な情報が記載されている。例えば、ウェブサイト６１０は、特定の暗号通貨アドレスが詐欺に用いられたという内容、特定の暗号通貨アドレスとの取引に満足したという内容、または特定の暗号通貨アドレスと単に取引したという内容などが記載されている。学習データ取得装置１００は、そのうち特定の暗号通貨アドレスが詐欺に用いられたことを抽出するために、以下のようなステップを行う。

ウェブサイト６１０は、第１のデータベース４３０とは異なり、一定の形式を有していない。さらに、ウェブサイト６１０には、不正なアドレスに関連する情報以外の様々な情報が含まれている。

学習データ取得装置１００は、所定のウェブサイト６１０をクロール（ｃｒａｗｌｉｎｇ）する。しかしながら、これに限定されるものではなく、学習データ取得装置１００は、任意のウェブサイト６１０をクロールして必要なデータを自動的に抽出してもよい。

ウェブサイト６１０のソースコードは、ＨＴＭＬ文書で構成される。ＨＴＭＬ文書は、ウェブサイト６１０に表示されるべき内容のみならず、内容を表示するためのフォーマットに関連するコードを含んでいてもよい。学習データ取得装置１００は、ウェブサイト６１０からＨＴＭＬｂｏｄｙをテキスト情報として抽出する。

学習データ取得装置１００は、テキスト情報から暗号通貨アドレスが含まれたメインテキスト情報を抽出するステップ５２０を行う。

学習データ取得装置１００は、第２の分析部６２０をさらに含む。第２の分析部６２０は、ウェブサイト６１０から受信したテキスト情報を分析する。第２の分析部６２０は、ソフトウェアまたはハードウェアで実現される。学習データ取得装置１００は、第２の分析部６２０を用いてメインテキスト情報を抽出する。

学習データ取得装置１００は、ウェブサイト６１０のテキスト情報のうち暗号通貨アドレスが含まれているページのみを利用してもよい。暗号通貨アドレスは特定の形式を有している。よって、学習データ取得装置１００は、ウェブサイト６１０のページの内容に基づいて、ページに暗号通貨アドレスが記載されているか否かを判断する。学習データ取得装置１００は、暗号通貨アドレスの含まれたページのテキスト情報から不要な情報を除去してもよい。例えば、学習データ取得装置１００は、バナーとＨＴＭＬタグを削除する。そのために、学習データ取得装置１００は、Ｂｏｉｌｅｒｐｉｐｅを利用してもよい。

学習データ取得装置１００の第２の分析部６２０は、自然言語処理を用いて、メインテキスト情報から複数の第２のキーワードを抽出するステップ５３０を行う。例えば、学習データ取得装置１００は、メインテキストから特殊文字、ＵＲＬ、及びストップワード（ｓｔｏｐｗｏｒｄ）などの分析に不要な文字を削除する。

学習データ取得装置１００の第２の分析部６２０は、不正情報検出モデルを取得するステップ５４０を行う。不正情報検出モデルは、Ｎｅｕｒａｌｎｅｔｗｏｒｋｃｌａｓｓｉｆｉｅｒであってもよい。不正情報検出モデルは、機械学習を実行して取得されたモデルである。不正情報検出モデルは、暗号通貨アドレスに関連するキーワードに基づいて、暗号通貨アドレスが詐欺師によって用いられているかどうかを判断するための機械学習モデルである。

学習データ取得装置１００は、不正情報検出モデルを直接生成してもよい。学習データ取得装置１００は、不正情報検出モデルを生成するために、データ学習部１１０を含む。また、学習データ取得装置１００は、他の装置から不正情報検出モデルを受信する。学習データ取得装置１００が不正情報検出モデルを生成する過程については、図７を参照して詳しく説明する。

学習データ取得装置１００の第２の分析部６２０は、複数の第２のキーワードを不正情報検出モデルに適用し、メインテキストに含まれている暗号通貨アドレスが不正なアドレスであるか否かを判定するステップ５５０を行う。より具体的には、学習データ取得装置１００は、複数の第２のキーワードのそれぞれがメインテキストに出現する頻度数を導出してもよい。学習データ取得装置１００は、複数の第２のキーワード及び頻度数を不正情報検出モデルに適用する。学習データ取得装置１００は、不正情報検出モデルによって、メインテキストに含まれている暗号通貨アドレスが不正なアドレスであるか否かに関する情報を取得する。

学習データ取得装置１００の第２の分析部６２０は、暗号通貨アドレスが不正なアドレスである場合、暗号通貨アドレスを第２の不正なアドレスとして取得するステップ５６０を行う。より具体的には、メインテキストに含まれている暗号通貨アドレスが不正なアドレスであるか否かに関する情報が不正なアドレスであることを示すと、学習データ取得装置１００は、メインテキストに含まれている暗号通貨アドレスを第２の不正なアドレスとして取得する。

学習データ取得装置１００は、第２の不正なアドレスを第２のデータベース４４０に格納するステップ５７０を行う。第２のデータベース４４０は、第２の不正なアドレスと第１の不正なアドレスが重複している場合、第２の不正なアドレスまたは第１の不正なアドレスのいずれかを無視するか、あるいは第２の不正なアドレスまたは第１の不正なアドレスのいずれかに対する情報を更新する。

図７は、本開示の一実施形態に従って不正情報検出モデルを取得する方法を示すフローチャートである。

学習データ取得装置１００は、良好な暗号通貨アドレスが含まれていると判定されたウェブサイトから取得した良好な暗号通貨アドレスに関連する単語を取得するステップ７１０を行う。良好な暗号通貨アドレスは、詐欺師の所有する暗号通貨アドレスではないことを示す。

良好な暗号通貨アドレスが含まれていると判定されたウェブサイトは、暗号通貨アドレスの信頼度情報を提供するウェブサイトの意味である。暗号通貨ユーザは、暗号通貨取引の後、ウェブサイトに暗号通貨取引に関するレビューを残すことができる。ユーザは、レビューをスコアで表示するか、あるいはテキストで表示する。

良好な暗号通貨アドレスを含むウェブサイトをユーザが決定する。あるいは、学習データ取得装置１００は、自動的に良好な暗号通貨アドレスを含むウェブサイトを決定する。また、学習データ取得装置１００は、良好な暗号通貨アドレスを含むウェブサイトまたはウェブページから良好な暗号通貨アドレスに関連する単語を取得する。例えば、学習データ取得装置１００は、ウェブサイトまたはウェブページから不要な文字を除去する。学習データ取得装置１００は、ウェブサイトまたはウェブページから不要な文字を削除してから、良好な暗号通貨アドレスに関連する単語を取得する。良好な暗号通貨アドレスに関連する単語は、良好な暗号通貨アドレスを説明するためのキーワードである。

学習データ取得装置１００は、良好な暗号通貨アドレスに関連する単語のそれぞれがウェブサイト６１０に出現する第１の頻度数を取得するステップ７２０を行う。学習データ取得装置１００は、良好な暗号通貨アドレスに関連する単語のみならず、第１の頻度数に基づいて不正情報検出モデルの精度を高めることができる。

学習データ取得装置１００は、第１のキーワードのそれぞれが第１のディスクリプションに出現する第２の頻度数を取得するステップ７３０を行う。学習データ取得装置１００は、第１のキーワードを第１のデータベース４３０から取得する。第１のキーワードの取得過程については、図３及び図４を参照して説明しているので、重複する説明は省略する。

学習データ取得装置１００は、良好であるとラベル付けされた良好な暗号通貨アドレスに関連する単語、第１の頻度数、第２の頻度数、及び不正であるとラベル付けされた複数の第１のキーワードを機械学習して、不正情報検出モデルを取得するステップ７４０を行う。不正情報検出モデルは、第１の頻度数及び良好な暗号通貨アドレスに関連する単語に基づいて良好なアドレスに関する情報を学習し、第２の頻度数及び複数の第１のキーワードに基づいて不正なアドレスに関する情報を学習する。

学習データ取得装置１００は、不正情報検出モデルを他の学習データ取得装置１００に有線または無線で送信してもよい。学習データ取得装置１００は、不正情報検出モデルをメモリ２２０に記憶してもよい。

学習データ取得装置１００は、新しい暗号通貨アドレス、新しい暗号通貨アドレスに対応する第２のキーワード及び第２のキーワードの頻度数を取得する。学習データ取得装置１００は、第２のキーワード及び第２のキーワードの頻度数を不正情報検出モデルに適用し、新しい暗号通貨アドレスが不正であるか良好であるかを判定する。

以上では、学習データ取得装置１００が不正情報検出モデルを用いてウェブサイトに記載された情報から不正なアドレスを判別する構成について説明したが、これらに限定されるものではない。学習データ取得装置１００は、不正情報検出モデルを用いてウェブサイトに記載された情報から良好なアドレスを判別する。

なお、学習データ取得装置１００が不正情報検出モデルを取得する方法は、前述した方法に限定されるものではない。ユーザは、ウェブサイトを検討してから、不正なアドレスが記載されているウェブページを「不正」とラベル付けして不正なアドレスと共に保存し、良好なアドレスが記載されているウェブページを「良好」とラベル付けして良好なアドレスと共に保存する。学習データ取得装置１００は、不正なアドレス、「不正」とラベル付けされたウェブページ、「良好」とラベル付けされたウェブページ、及び良好なアドレスを機械学習して不正情報検出モデルを取得する。学習データ取得装置１００は、単にウェブページを不正情報検出モデルに適用するだけで、ウェブページからアドレスまたはアドレスが詐欺師と関係があるか否かを判定することができる。

図８は、本開示の一実施形態に係る学習データ取得装置の動作を説明するためのフローチャートである。また、図１０は、本開示の一実施形態に係る学習データ取得装置の動作を示す説明図である。

学習データ取得装置１００は、暗号通貨アドレスに対応するタグ（ｔａｇ）を提供するサービス１０１０から第２のディスクリプションを取得するステップ８１０を行う。学習データ取得装置１００は、受信部４１０を用いて第２のディスクリプションを取得する。

タグは、暗号通貨アドレスに付随するメタ情報（ｍｅｔａｉｎｆｏｒｍａｔｉｏｎ）であってもよい。暗号通貨アドレスに対応するタグを提供するサービスには、「ｂｌｏｃｋｃｈａｉｎ．ｉｎｆｏ」、「ＢｉｔｃｏｉｎＴａｌｋｃｏｍｍｕｎｉｔｙ」、または「ｂｉｔｃｏｉｎ－ｏｔｃ．ｃｏｍ」などのサイトがある。

タグには、Ｓｕｂｍｉｔｔｅｄｌｉｎｋｔａｇ、Ｓｉｇｎｅｄｍｅｓｓａｇｅｔａｇ、Ｂｉｔｃｏｉｎｔａｌｋｐｒｏｆｉｌｅｔａｇ、またはＢｉｔｃｏｉｎ－ＯＴＣｐｒｏｆｉｌｅｔａｇ（Ｂｉｔｃｏｉｎｏｖｅｒ－ｔｈｅ－ｃｏｕｎｔｅｒｐｒｏｆｉｌｅｔａｇ）が含まれる。Ｓｕｂｍｉｔｔｅｄｌｉｎｋｔａｇは、タグ付き暗号通貨アドレスについて簡単な説明を提供する。報告した人は、時々不正情報源を示すページリンクと共に不正ディスクリプションを提供する。

Ｓｉｇｎｅｄｍｅｓｓａｇｅｔａｇは、アドレスの所有者を提供する。しかしながら、この識別子は所有者が選択するので、詐欺師が偽の所有権を主張することもある。

Ｂｉｔｃｏｉｎｔａｌｋｐｒｏｆｉｌｅｔａｇは、暗号通貨コミュニティでユーザ識別子のみを提供する。

Ｂｉｔｃｏｉｎ－ＯＴＣｐｒｏｆｉｌｅｔａｇは、Ｂｉｔｃｏｉｎ－ＯＴＣのウェブサイトにおいてユーザ識別子を提供する。Ｂｉｔｃｏｉｎｔａｌｋコミュニティとは異なり、このウェブサイトは、各ユーザの別名に対して評判スコアを提供する。このスコアは、当該暗号通貨アドレスで金融取引を行った取引相手が付ける。さらに、相手が何故当該暗号通貨アドレスにそのスコアを付けたのかを簡単に説明する。よって、ｂｉｔｃｏｉｎ－ＯＴＣｐｒｏｆｉｌｅｔａｇを利用して、暗号通貨の不正なアドレスと良好なアドレスに関する情報を両方得ることができる。

第２のディスクリプションは、ＳｉｇｎｅｄｍｅｓｓａｇｅｔａｇまたはＢｉｔｃｏｉｎ－ＯＴＣｐｒｏｆｉｌｅｔａｇから取得する。第２のディスクリプションは、暗号通貨アドレスに関連する評判を表すテキスト情報である。

学習データ取得装置１００は、複数の第１のキーワードに基づいて不正なキーワードセットを取得するステップ８２０を行う。

学習データ取得装置１００は、第３の分析部１０２０をさらに含んでもよい。第３の分析部１０２０は、タグを提供するサービス１０１０から受信した第２のディスクリプションを分析する。第３の分析部１０２０は、ソフトウェアまたはハードウェアで実現される。学習データ取得装置１００は、第２の分析部１０２０を用いて第１のキーワードから不正なキーワードセットを取得する。

学習データ取得装置１００は、第１のキーワードを第１のデータベース４３０から取得する。第１のキーワードの取得過程については、図３及び図４を参照して説明しているので、重複する説明は省略する。

不正なキーワードセットには名詞のみが含まれる。また、学習データ取得装置１００は、第１のキーワードの中から分析に不要な文字を除去する。例えば、学習データ取得装置１００は、第１のキーワードのうち、詐欺に関連しないツイッター（登録商標）、タンブラー（登録商標）、及びインスタグラム（登録商標）に関する用語を削除する。

学習データ取得装置１００は、複数の第１のキーワードのそれぞれに対して第１のディスクリプションに出現する頻度数を取得するステップを行う。学習データ取得装置１００は、複数の第１のキーワードのうち、頻度数の高い所定数の単語を不正なキーワードセットとして判定するステップを行う。例えば、学習データ取得装置１００は、第１のキーワードのうち、最も頻度数の高い１１の単語を選択して、不正なキーワードセットを取得する。

学習データ取得装置１００は、不正なキーワードセットに含まれた単語が第２のディスクリプションに出現する場合、第２のディスクリプションに対応する暗号通貨アドレスを第３の不正なアドレスとして判定するステップ８３０を行う。タグに含まれた単語の数は多くないため、学習データ取得装置１００は、第１のキーワードから導出された不正なキーワードセットに基づいてタグが不正であるか否かを判定する。

学習データ取得装置１００は、第１のディスクリプション上において、不正なキーワードセットに含まれた単語の頻度数をさらに利用してもよい。例えば、第２のディスクリプションに不正なキーワードセットの単語が含まれていても、その単語が第２のディスクリプションの中で頻繁に出現する単語でない場合、学習データ取得装置１００は、第２のディスクリプションに対応する暗号通貨アドレスを第３の不正なアドレスとして判定しない。また、第２のディスクリプションに不正なキーワードセットの単語が含まれており、その単語が第２のディスクリプションの中で頻繁に出現する単語である場合、学習データ取得装置１００は、第２のディスクリプションに対応する暗号通貨アドレスを第３の不正なアドレスとして判定する。

学習データ取得装置１００は、第３の不正なアドレスを第２のデータベース４４０に格納するステップ８４０を行う。第２のデータベース４４０は、第３の不正なアドレスが第１の不正なアドレスまたは第３の不正なアドレスと重複する場合、第３の不正なアドレス、第１の不正なアドレス、または第２の不正なアドレスのいずれかを無視するか、あるいは第３の不正なアドレス、第１の不正なアドレスまたは第２の不正なアドレスのいずれかに対する情報を更新する。

図９は、本開示の一実施形態に係る学習データ取得装置の動作を説明するためのフローチャートである。

図８では、学習データ取得装置１００がタグを提供するサービス１０１０から第２のディスクリプションを取得する場合について説明した。図９では、第２のディスクリプションのみならず、暗号通貨アドレスの信頼度スコア情報を取得する場合について説明する。

学習データ取得装置１００は、暗号通貨アドレスに対応するタグ（ｔａｇ）を提供するサービスからアドレスの信頼度を示すスコア情報を取得するステップ９１０を行う。アドレスの信頼度を示すスコア情報は、暗号通貨アドレスと取引した相手が残したスコアであってもよい。また、複数の取引相手がスコアを残した場合、そのスコアの平均がアドレスの信頼度を示すスコア情報であってもよい。

学習データ取得装置１００は、スコア情報が良好（ｂｅｎｉｇｎ）を示しており、第２のディスクリプションに不正なキーワードセットに含まれた単語が出現しない場合、暗号通貨アドレスを良好なアドレスとして判定するステップ９２０を行う。学習データ取得装置１００は、スコア情報が閾値以上であると、良好であると判定する。しかしながら、これに限定されるものではなく、学習データ取得装置１００は、スコア情報が閾値以下であれば、良好であると判定してもよい。

学習データ取得装置１００は、スコア情報が不正（ｓｃａｍ）を示しており、第２のディスクリプションに不正なキーワードセットに含まれた単語が出現する場合、暗号通貨アドレスを第３の不正なアドレスとして判定するステップ９３０を行う。学習データ取得装置１００は、スコア情報が閾値以下であると、不正であると判定する。しかしながら、これに限定されるものではなく、学習データ取得装置１００は、スコア情報が閾値以上であれば、不正であると判定してもよい。

学習データ取得装置１００は、スコア情報が不正を示しているが、第２のディスクリプションに不正なキーワードセットに含まれた単語が含まれていないか、あるいはスコア情報が良好を示すが、第２のディスクリプションに不正なキーワードセットに含まれた単語が含まれている場合は、暗号通貨アドレスに対する判定を保留する。学習データ取得装置１００は、確実な場合にのみ暗号通貨アドレスを良好なアドレスとして判定するか、あるいは不正なアドレスとして判定するので、後で確実なデータに基づいて機械学習を行うことができる。

学習データ取得装置１００は、良好なアドレス及び第３の不正なアドレスを第２のデータベース４４０に格納するステップ９４０を行う。第２のデータベース４４０は、第３の不正なアドレスが第１の不正なアドレスまたは第３の不正なアドレスと重複する場合、第３の不正なアドレス、第１の不正なアドレス、または第２の不正なアドレスのいずれかを無視するか、あるいは第３の不正なアドレス、第１の不正なアドレスまたは第２の不正なアドレスのいずれかに対する情報を更新する。

図１１は、本開示の一実施形態に従って機械学習モデルを導出する構成を示す図である。

以上、学習データ取得装置１００が第１の不正なアドレス、第２の不正なアドレス、第３の不正なアドレス、及び良好なアドレスを導出して第２のデータベース４４０に格納する方法について説明した。データ学習部１１０は、第２のデータベース４４０に格納されたデータに基づいて機械学習を行い、機械学習モデル１１３０を導出する。

データ学習部１１０は、第１の不正なアドレス、第２の不正なアドレス、第３の不正なアドレス及び、良好なアドレスのみならず、第１の不正なアドレス、第２の不正なアドレス、第３の不正なアドレス、及び良好なアドレスに関する情報を利用してもよい。第１の不正なアドレス、第２の不正なアドレス、第３の不正なアドレス、及び良好なアドレスに関する情報は、取引履歴を含む。取引履歴には、取引日時、取引した相手のアドレス、または取引金額の多寡が含まれる。

データ学習部１１０は、第１の不正なアドレス、第２の不正なアドレス、第３の不正なアドレス、及び良好なアドレスに関する情報を分析してアドレスの特徴を取得する。データ学習部１１０は、アドレスの特徴を利用して機械学習を行い、機械学習モデル１１３０を生成する。

データ学習部１１０は、生成された機械学習モデル１１３０をメモリに記憶したり、他の装置に送信したりしてもよい。データ認識部１２０は、機械学習モデル１１３０に基づいて、暗号通貨アドレスが不正なアドレスであるか否かを判定する。データ認識部１２０は、新しい暗号通貨アドレスを受信し、新しい暗号通貨アドレスを機械学習モデル１１３０に適用して、暗号通貨アドレスが不正なアドレスであるか否かを判定する。

これまで様々な実施形態を挙げて説明した。本発明の属する技術分野における通常の知識を有する者であれば、本発明が、本発明の本質的な特性から逸脱しない範囲で変形された形で実装され得ることを理解できるであろう。よって、開示された実施例は、限定的な観点ではなく、説明的な観点で考慮されるべきである。本発明の範囲は、前述した説明ではなく、特許請求の範囲に示されており、それと同等の範囲内にあるすべての相違点は、本発明に含まれるものと解釈されるべきである。

なお、前述した本発明の実施形態は、コンピュータで実行可能なプログラムとして作成されてもよく、コンピュータで読み取り可能な記録媒体を用いて前記プログラムを動作させる汎用デジタルコンピュータにて実現されてもよい。前記コンピュータで読み取り可能な記録媒体としては、磁気記憶媒体（例えば、ロム、フロッピーディスク、ハードディスクなど）、光学的読取媒体（例えば、シーディーロム、ディブイディなど）のような記憶媒体が含まれる。

Claims

学習データ取得装置から、不正な暗号通貨口座を検出するための機械学習モデルを生成するために、学習データを取得する方法において、
報告された不正なアドレスに関する情報が格納されている第１のデータベースから不正なアドレスに関連するレポートを受信するステップと、
前記レポートから、第１の不正なアドレス及び前記第１の不正なアドレスに関連する第１のディスクリプション（ｄｅｓｃｒｉｐｔｉｏｎ）を取得するステップと、
自然言語処理（ＮａｔｕｒａｌＬａｎｇｕａｇｅＰｒｏｃｅｓｓｉｎｇ）を用いて、前記第１のディスクリプションから第１の不正なアドレスに関連する複数の第１のキーワードを抽出するステップと、
前記第１の不正なアドレスを第２のデータベースに格納するステップと、
公開的にアクセス可能なウェブサイトからテキスト情報を受信するステップと、
前記テキスト情報から暗号通貨アドレスが含まれたメインテキスト情報を抽出するステップと、
自然言語処理を用いて、前記メインテキスト情報から複数の第２のキーワードを抽出するステップと、
不正情報検出モデルを取得するステップと、
前記複数の第２のキーワードを前記不正情報検出モデルに適用し、前記メインテキストに含まれている暗号通貨アドレスが不正なアドレスであるか否かを判定するステップと、
前記暗号通貨アドレスが不正なアドレスである場合、前記暗号通貨アドレスを第２の不正なアドレスとして取得するステップと、
前記第２の不正なアドレスを前記第２のデータベースに格納するステップとを含むことを特徴とする、学習データ取得方法。
前記不正情報検出モデルを取得するステップが、
良好な暗号通貨アドレスが含まれていると判定されたウェブサイトから取得した良好な暗号通貨アドレスに関連する単語を取得するステップと、
前記良好な暗号通貨アドレスに関連するそれぞれの単語がウェブサイトに出現する第１の頻度数を取得するステップと、
前記第１のキーワードのそれぞれが前記第１のディスクリプションに出現する第２の頻度数を取得するステップと、
良好であるとラベル付けされた前記良好な暗号通貨アドレスに関連する単語、第１の頻度数、第２の頻度数、及び不正であるとラベル付けされた前記複数の第１のキーワードを機械学習して、前記不正情報検出モデルを取得するステップとを含むことを特徴とする、請求項１に記載の学習データ取得方法。
暗号通貨アドレスに対応するタグ（ｔａｇ）を提供するサービスから第２のディスクリプションを取得するステップと、
前記複数の第１のキーワードに基づいて不正なキーワードセットを取得するステップと、
前記不正なキーワードセットに含まれた単語が前記第２のディスクリプションに出現する場合、前記第２のディスクリプションに対応する暗号通貨アドレスを第３の不正なアドレスとして判定するステップと、
前記第３の不正なアドレスを前記第２のデータベースに格納するステップとを含むことを特徴とする、請求項１に記載の学習データ取得方法。
前記不正なキーワードセットを取得するステップが、
前記複数の第１のキーワードのそれぞれに対して前記第１のディスクリプションに出現する頻度数を取得するステップと、
前記複数の第１のキーワードのうち、頻度数の高い所定数の単語を前記不正なキーワードセットとして判定するステップとを含むことを特徴とする、請求項３に記載の学習データ取得方法。
前記暗号通貨アドレスに対応するタグ（ｔａｇ）を提供するサービスからアドレスの信頼度を示すスコア情報を取得するステップと、
前記スコア情報が良好（ｂｅｎｉｇｎ）を示しており、前記第２のディスクリプションに前記不正なキーワードセットに含まれた単語が出現しない場合、前記暗号通貨アドレスを良好なアドレスとして判定するステップと、
前記スコア情報が不正（ｓｃａｍ）を示しており、前記第２のディスクリプションに前記不正なキーワードセットに含まれた単語が出現する場合、前記暗号通貨アドレスを前記第３の不正なアドレスとして判定するステップと、
前記良好なアドレス及び前記第３の不正なアドレスを前記第２のデータベースに格納するステップとをさらに含むことを特徴とする、請求項３に記載の学習データ取得方法。
不正な暗号通貨口座を検出するための機械学習モデルを生成するために、学習データを取得する装置が、
プロセッサ及びメモリを含み、
前記プロセッサが、前記メモリに記憶された命令語に従って、
報告された不正なアドレスに関する情報が格納されている第１のデータベースから不正なアドレスに関連するレポートを受信するステップと、
前記レポートから、第１の不正なアドレス及び前記第１の不正なアドレスに関連する第１のディスクリプション（ｄｅｓｃｒｉｐｔｉｏｎ）を取得するステップと、
自然言語処理（ＮａｔｕｒａｌＬａｎｇｕａｇｅＰｒｏｃｅｓｓｉｎｇ）を用いて、前記第１のディスクリプションから第１の不正なアドレスに関連する複数の第１のキーワードを抽出するステップと、
前記第１の不正なアドレスを第２のデータベースに格納するステップと、
公開的にアクセス可能なウェブサイトからテキスト情報を受信するステップと、
前記テキスト情報から暗号通貨アドレスが含まれたメインテキスト情報を抽出するステップと、
自然言語処理を用いて、前記メインテキスト情報から複数の第２のキーワードを抽出するステップと、
不正情報検出モデルを取得するステップと、
前記複数の第２のキーワードを前記不正情報検出モデルに適用し、前記メインテキストに含まれている暗号通貨アドレスが不正なアドレスであるか否かを判定するステップと、
前記暗号通貨アドレスが不正なアドレスである場合、前記暗号通貨アドレスを第２の不正なアドレスとして取得するステップと、
前記第２の不正なアドレスを前記第２のデータベースに格納するステップとを行うことを特徴とする、学習データ取得装置。
前記プロセッサが、前記メモリに記憶された命令語に従って、
良好な暗号通貨アドレスが含まれていると判定されたウェブサイトから取得した良好な暗号通貨アドレスに関連する単語を取得するステップと、
前記良好な暗号通貨アドレスに関連するそれぞれの単語がウェブサイトに出現する第１の頻度数を取得するステップと、
前記第１のキーワードのそれぞれが第１のディスクリプションに出現する第２の頻度数を取得するステップと、
良好であるとラベル付けされた前記良好な暗号通貨アドレスに関連する単語、第１の頻度数、第２の頻度数、及び不正であるとラベル付けされた前記複数の第１のキーワードを機械学習して、前記不正情報検出モデルを取得するステップとを行うことを特徴とする、請求項６に記載の学習データ取得装置。
前記プロセッサが、前記メモリに記憶された命令語に従って、
暗号通貨アドレスに対応するタグ（ｔａｇ）を提供するサービスから第２のディスクリプションを取得するステップと、
前記複数の第１のキーワードに基づいて不正なキーワードセットを取得するステップと、
前記不正なキーワードセットに含まれた単語が前記第２のディスクリプションに出現する場合、前記第２のディスクリプションに対応する暗号通貨アドレスを第３の不正なアドレスとして判定するステップと、
前記第３の不正なアドレスを前記第２のデータベースに格納するステップとを行うことを特徴とする、請求項６に記載の学習データ取得装置。
前記プロセッサが、前記メモリに記憶された命令語に従って、
前記複数の第１のキーワードのそれぞれに対して前記第１のディスクリプションに出現する頻度数を取得するステップと、
前記複数の第１のキーワードのうち、頻度数の高い所定数の単語を前記不正なキーワードセットとして判定するステップとを行うことを特徴とする、請求項８に記載の学習データ取得装置。
前記プロセッサが、前記メモリに記憶された命令語に従って、
前記暗号通貨アドレスに対応するタグ（ｔａｇ）を提供するサービスからアドレスの信頼度を示すスコア情報を取得するステップと、
前記スコア情報が良好（ｂｅｎｉｇｎ）を示しており、前記第２のディスクリプションに前記不正なキーワードセットに含まれた単語が出現しない場合、前記暗号通貨アドレスを良好なアドレスとして判定するステップと、
前記スコア情報が不正（ｓｃａｍ）を示しており、前記第２のディスクリプションに前記不正なキーワードセットに含まれた単語が出現する場合、前記暗号通貨アドレスを前記第３の不正なアドレスとして判定するステップと、
前記良好なアドレス及び前記第３の不正なアドレスを前記第２のデータベースに格納するステップとをさらに行うことを特徴とする、請求項８に記載の学習データ取得装置。