JP6789934B2 - 変換されたデータを用いた学習 - Google Patents

変換されたデータを用いた学習 Download PDF

Info

Publication number
JP6789934B2
JP6789934B2 JP2017522385A JP2017522385A JP6789934B2 JP 6789934 B2 JP6789934 B2 JP 6789934B2 JP 2017522385 A JP2017522385 A JP 2017522385A JP 2017522385 A JP2017522385 A JP 2017522385A JP 6789934 B2 JP6789934 B2 JP 6789934B2
Authority
JP
Japan
Prior art keywords
training
data
value
values
determining
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2017522385A
Other languages
English (en)
Other versions
JP2017535857A (ja
Inventor
ノック、リチャード
パトリーニ、ジョージオ
ケータノ、ティベリオ
Original Assignee
ナショナル・アイシーティ・オーストラリア・リミテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from AU2014904261A external-priority patent/AU2014904261A0/en
Application filed by ナショナル・アイシーティ・オーストラリア・リミテッド filed Critical ナショナル・アイシーティ・オーストラリア・リミテッド
Publication of JP2017535857A publication Critical patent/JP2017535857A/ja
Application granted granted Critical
Publication of JP6789934B2 publication Critical patent/JP6789934B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Description

関連出願の相互参照
本願は、2014年10月24日に出願されたオーストラリア国仮特許出願第2014904261号の優先権を主張するものであり、そのすべての内容が参照によって本願に援用される。本願はまた、2015年2月2日に出願されたオーストラリア国仮特許出願第2015900308号の優先権を主張するものであり、そのすべての内容が参照によって本願に援用される。
本開示は、変換されたデータを用いた学習に関する。
インターネットを介してサービスまたは製品を提供する企業は多くの場合、顧客から広範なデータを収集し、クライアントの行動に関する集約された洞察を得るためにこのデータを処理する。
図1は、スマートフォン108、110、112などの3つのそれぞれのインターネット対応通信デバイスを動作させる3名の参加する顧客またはユーザ102、104、106を伴う、従来技術の企業中心型コンピュータネットワーク100を示す。ユーザ102、104、106は、ソーシャルメディアプロバイダ114に登録されており、自身の好みの指示を与えること、コメントを投稿すること、または写真をアップロードおよびタグ付けすることによって、互いにインタラクトする。本質的に、これらのアクティビティは、ソーシャルメディアプロバイダ114によって操作されるデータベース116に3名のユーザ102、104、106に関係する個人データを記憶することを伴う。
サーバ118がデータベース116に接続されており、このサーバ118は、集約された情報を導出するために、データベース116に記憶されたユーザデータを分析する。次いで、その結果は、広告会社120などのサードパーティに販売され得る。しかしながら、ユーザ102、104、および106は、プライベートなまたは機密の情報を共有することに消極的である。したがって、ユーザ102、104、および106に関連するプライベートなまたは極秘のデータに基づいて集約的な洞察を導き出すことは困難である。
本明細書に含められている文書、行為、材料、デバイス、物品などの議論は、これらの事項のいずれかまたはすべてが先行技術の基礎の一部を形成するか、または、本願の各請求項の優先日の前に存在していたものとして、本開示に関連する分野における共通の一般知識であることを認めるものとはみなされない。
本明細書の全体を通じて、「備える(comprise)」という単語、または「備える(comprises)」または「備えている(comprising)」などの変化形は、記載された要素、整数もしくはステップ、または要素、整数もしくはステップのグループを含むことを意味するが、他の要素、整数、もしくはステップ、または要素、整数、もしくはステップのグループを除外することを意味しないと理解されよう。
複数のデータサンプルから、複数のトレーニングサンプルを決定するためのコンピュータ実装される方法であって、複数のデータサンプルの各々が1つまたは複数の特徴値とそのデータサンプルを分類するラベルとを備える方法が提供される。その方法は、
複数のデータサンプルのサブセットをランダムに選択し、そのサブセットのデータサンプルの各々のラベルに基づいて、サブセットのデータサンプルの特徴値を組み合わせることによって、複数のトレーニングサンプルの各々を決定することを備える。
トレーニングサンプルは、ランダムに選定されたデータサンプルの組合せであるため、トレーニングサンプルは、実際のトレーニングデータを開示することなく、サードパーティに提供され得る。このことは、たとえば、データが極秘であり、したがって分類器の学習器と共有されるべきでない場合に、既存の方法と比べて有利である。
この方法は、複数のトレーニングサンプルを記憶することを備え得る。この方法は、それらを記憶してまたはそれらを記憶することなく、コンピュータシステムに複数のトレーニングサンプルを送ることを備え得る。2つの組合せは共通のデータサンプルを有し得る。
複数のデータサンプルのサブセットをランダムに選択することは、複数のデータサンプルの各々に、そのデータサンプルを選択するためにゼロに等しくないランダム選択値を、またはそのデータサンプルを選択解除するためにゼロに等しいランダム選択値を乗算することを備え得る。
ゼロに等しくないランダム選択値は「1」であってもよい。
データサンプルの特徴値を組み合わせることは、トレーニングサンプルの特徴の特徴値がデータサンプルのその特徴の特徴値の和となるように、データサンプルの特徴値の和を決定することを備え得る。
和を決定することは、データサンプルの各々のラベルに基づいて重み付けされる加重和を決定することを備え得る。
和を決定することは、複数のデータサンプルのサブセット中のデータサンプルの数に基づいて重み付けされる加重和を決定することを備え得る。
ラベル依存重みの結果として、同一のデータサンプルではあるが異なるラベルを有するデータサンプルは、加重和の結果に対する影響を低減させる。したがって、和の結果は、この特徴が種々のラベルへの分類にいかに関係するかを示す。
加重和は、複数のデータサンプルのサブセットをランダムに選択することが特徴値を組み合わせることと同時に実施されるように、乱数に基づいて重み付けされ得る。
複数のデータサンプルのサブセットをランダムに選択することは、非一様分布に基づいて複数のデータサンプルのサブセットをランダムに選択することを備え得る。
データセット全体にわたるトレーニングサンプルの非一様分布が、一様分布の場合と比較してデータセットの再構築をより困難にすることが有利である。
データサンプルは、符号付きの実数値を特徴値として有し得、ラベルは「−1」および「+1」のいずれかであり得る。
複数のトレーニングサンプルの各々を決定することは、複数のトレーニングサンプルの各々が少なくとも所定数のデータサンプルに基づくように、複数のトレーニングサンプルの各々を決定することを備え得る。
複数のデータサンプルのサブセットをランダムに選択することは、少なくとも所定数のデータサンプルを備える複数のデータサンプルのサブセットをランダムに選択することを備え得る。
複数のトレーニングサンプルを決定するためのコンピュータ実装される方法は、
上記の方法に従ってトレーニングサンプルを受信することと、
修正されたトレーニングサンプルを決定するために、トレーニングサンプルの各特徴値ごとにランダム値を決定し、その特徴値にランダム値を加えることとを備える。
ランダム値の追加は低い複雑性を有するが、それと同時に、トレーニングサンプルに付加的な差分プライバシーをもたらすことが有利である。データに直接ノイズを加える他の技法は、重要な保護層がデータを破壊するのに必要とされるノイズのレベルを、学習した分類器が低い品質を有する程度にする。対照的に、提案する方法は、複数のデータサンプルをすでに組み合わせているトレーニングサンプルにノイズを加えるものである。その結果、データに対するノイズの破壊的影響はより少なく、要求されるプライバシー保護を考慮すれば、分類の結果はより良好となる。
修正されたトレーニングサンプルを決定することは、トレーニングサンプルを決定することとは異なるコンピュータシステムによって実施され得る。
コンピュータにインストールされると、上記の方法をコンピュータに実施させるソフトウェア。
複数のデータサンプルから複数のトレーニングサンプルを決定するためのコンピュータシステムが提供される。そのコンピュータシステムは、
複数のデータサンプルを受信する入力ポートと、複数のデータサンプルの各々は、1つまたは複数の特徴値と、そのデータサンプルを分類するラベルとを備え、
複数のデータサンプルのサブセットをランダムに選択し、サブセットのデータサンプルの各々のラベルに基づいて、サブセットのデータサンプルの特徴値を組み合わせることによって、複数のトレーニングサンプルの各々を決定するプロセッサとを備える。
特徴インデックスに関係付けられる分類器係数を決定するためのコンピュータ実装される方法が提供される。その方法は、
特徴インデックスに関係付けられる複数のトレーニング値を受信することと、各トレーニング値は、複数のデータラベルに基づいた複数のデータ値のサブセットの組合せに基づき、複数のデータラベルの各々は複数のデータ値のうちの1つと関係付けられる、
相関値が複数のデータ値の各々とそのデータ値に関係付けられるデータラベルとの間の相関を示すように、複数のトレーニング値に基づいて相関値を決定することと、
相関値に基づいて分類器係数を決定することとを備える。
相関値はトレーニング値に対して決定され、データ値に対して決定されるものではないので、実際のデータ値を知ることなく分類器をトレーニングすることが可能である。このことは、データが極秘であり、したがって分類器の学習器と共有されるべきでない場合に、既存のブースティングアルゴリズムと比べて有利である。分類器係数を決定することは、分類器係数の以前の値に基づいて分類器を更新することを備え得る。
本方法は、複数のトレーニング値の各々に対して、そのトレーニング値に関係付けられるトレーニング値重みを決定すること、ここにおいて、相関値を決定することは、複数のトレーニング値の各々に関係付けられるトレーニング値重みに基づき得る、をさらに備え得る。
相関値を決定することは、複数のトレーニング値の各々に関係付けられるトレーニング値重みによって重み付けされたトレーニング値の和を決定することを備え得る。
相関値を決定することは、
最大トレーニング値を決定することと、
和を最大トレーニング値で除算することとを備え得る。
トレーニング値の各々に関係付けられるトレーニング値重みを決定することは、相関値に基づいて、複数のトレーニング値の各々に関係付けられるトレーニング値重みを決定することを備え得る。
トレーニング値重みを決定することは、トレーニング値重みの以前の値に基づいて、トレーニング値重みを更新することを備え得る。
複数のトレーニング値のうちの1つに関係付けられる各トレーニング値重みを決定することは、
最大トレーニング値を決定することと、
最大トレーニング値に対する複数のトレーニング値のうちの1つの割合に基づいて、トレーニング値重みを決定することとを備え得る。
本方法は、複数の分類器係数を決定するために方法の複数の繰り返しを実施すること、各分類器係数は複数の特徴インデックスのうちの1つに関係付けられる、をさらに備え得る。
第1の特徴インデックスに関係付けられる第1の分類器重みは第1の繰り返しで決定され得、第2の特徴インデックスに関係付けられる第2の分類器重みは第2の繰り返しで決定され得る。第1の特徴インデックスは、第2の特徴インデックスと等しくても異なっていてもよい。
トレーニング値重みを決定することは、現在の繰り返しの正則化関数の第1の値と、以前の繰り返しの正則化関数の第2の値との差に基づいて、トレーニング値重みを決定することを備え得る。
正則化関数は、対応する繰り返しに関係付けられる複数の分類器係数に依存し得る。
トレーニング値重みを決定することは、指数を有する指数関数に基づいて、差を指数に加えることによって、トレーニング値重みを決定することを備え得る。
正則化関数は、
リッジ関数、
ラッソ関数、
正則化、および
SLOPE正則化のうちの1つまたは複数を備え得る。
本方法は、複数の特徴インデックスの順序付けに基づいて特徴インデックスを選択すること、ここにおいて、順序付けは差に基づく、をさらに備え得る。
方法を繰り返すことは、複数のデータ値のコスト関数を最適化するために方法を繰り返すことを備え得る。
本方法は、
テスト値を受信することと、
分類器係数に基づいてテスト値の分類を決定することとをさらに備え得る。
コンピュータにインストールされると、特徴インデックスに関係付けられる分類器係数を決定するための上記の方法をコンピュータに実施させるソフトウェア。
特徴インデックスに関係付けられる分類器重みを決定するためのコンピュータシステムが提供される。そのコンピュータシステムは、
特徴インデックスに関係付けられる複数のトレーニング値を受信する入力ポートと、各トレーニング値は、複数のデータラベルに基づいた複数のデータ値のサブセットの組合せに基づき、複数のデータラベルの各々は複数のデータ値のうちの1つと関係付けられる、
プロセッサと、そのプロセッサは、
相関値が複数のデータ値の各々とそのデータ値に関係付けられるデータラベルとの間の相関を示すように、複数のトレーニング値に基づいて相関値を決定し、
相関値に基づいて分類器係数を決定する、を備える。
機械学習システムをトレーニングするためのコンピュータ実装される方法であって、凸損失関数を最適化すること、凸損失関数は、複数のデータサンプルから複数のトレーニングサンプルを決定するための上記の方法に従って決定されたトレーニングサンプルに基づく方法が提供される。
方法、コンピュータ可読媒体またはコンピュータシステムの任意の態様の任意選択の特徴が、必要に応じて、同様に本明細書で説明した他の態様に同様に当てはまる。
ソーシャルメディアプロバイダを有する従来技術の企業中心型コンピュータネットワークを示す図。 3つのサービスプロバイダを有するユーザ中心型コンピュータネットワークを示す図。 薬物の投薬量を計算するためのモバイルアプリケーションのスクリーンショットを示す図。 薬物の投薬量を計算するためのモバイルアプリケーションのスクリーンショットを示す図。 変換されたデータを用いて学習するためのコンピュータシステムを示す図。 複数のデータサンプルから複数のトレーニングサンプルを決定するための方法を示す図。 変換されたデータを用いて学習するためのコンピュータネットワークを示す図。 特徴インデックスに関係する分類器係数を決定するための方法を示す図。 異なる特徴インデックスが各反復において選択される、図7の方法の様々な反復を示す図。 異なる特徴インデックスが各反復において選択される、図7の方法の様々な反復を示す図。 図7の方法をより詳細に示す図。 変換されたデータを用いて学習するための例示的な設定を示す図。 変換されたデータを用いて学習するための例示的な設定を示す図。 変換されたデータを用いて学習するための例示的な設定を示す図。 トレーニングサンプルの特徴的な差分プライバシー準拠解放のためのアルゴリズムを示す図。 等価な例示的ラド損失を示す図。
図2は、スマートフォンまたはタブレットコンピュータ204などの通信デバイスを操作するユーザ202を備える人中心型コンピュータネットワーク200を示す。ユーザ202は、プロバイダ206、208および210から製品またはサービスを受信する。サービスプロバイダ206、208および210は、そのユーザ202に関するデータを収集し、通信デバイス204に格納されるようにそのデータを再びユーザ202に提供する。結果として、通信デバイス204は、ユーザ202に関する個人データの豊富なコレクションを保持する。言うまでもなく、このデータは、たとえば、ユーザ202がプリファレンスを提供すること、写真を撮ること、質問に答えること、またはコメントを提供することなどにより、ユーザ202によって生成されるデータを備え得る。
ユーザデバイス204と複数のさらなるユーザデバイス(図示せず)が、集約システム214に接続される(212)。ユーザデバイス204と集約システム214との間の通信である接続212は、集約システム214が、集約されたデータを決定または学習し得るが、ユーザデバイス204に記憶された使用済みデータは、集約システム214と共有されないようなものである。
その結果、個人202は、契約しているすべての企業206、208、および210からデータを収集および集約して、すべての契約からの深い洞察を可能にし、結果として個人のニーズ、欲求および行動のより個人的な理解を可能にする。
このアーキテクチャ200は、多くの意義を有している。最も重要なことには、個人が自身のデータを所有するようになっている。第1に、このことは、プライバシーがローカルな人中心の問題であり、企業または組織がデータをどのようにデータを共有するかという問題ではないことを意味する。これは、プライバシーに関する議論を完全に覆すものである。第2に、個人の行動に関する非常に豊富なデータが、単一のロケーションにおいて利用可能になる。そのような豊富なデータは、組織自体がこの深い情報を共有しないかまたは多くの場合、共有し得ないため、個人によって集約され得る。そのような豊富なデータにより、個人の行動に関するより深い洞察が可能となり、新たな個人化された分析パラダイム、「N=1に関する分析」が推進される。
この技術に関する1つの重要な用途は、個人的健康の管理である。個人は自身の個人的健康情報を所有し得、また個人は、考えられる最良の健康予測および管理のソリューションを提供するために、自身のデバイス上にこの情報をローカルに集約し得る。
健康情報は、個人(差異)ゲノム配列、個人の表現型、医師または病院への訪問中に採取された情報、およびデバイス自体から収集された、またはFuelBandなどの現在普及している活動測定デバイスから採取された個人の(食および活動の)ライフスタイル情報を含み得る。
健康関連の用途には、医師への訪問とその結果としての特定の薬剤の処方、集団全体にわたってコホート研究を実施しようと試みる医学研究者、および、世界最高の医師から供給される、自身の個人的なニーズに合わせた最良のアドバイスを受けたい個人という、3つのユースケースがある。
図3aおよび3bは、ワルファリン投与スマートフォンアプリケーションからの2つのスクリーンショットを示す。図3aは個人のゲノムおよび表現型情報を示し、図3bは、ワルファリン投与量の安全な計算の結果を示す。
このシナリオでは、個人のゲノムおよび表現型は、モバイルフォン上に安全に内密に保持される。医師は、ワルファリン(その最適な投与量が遺伝情報と表現型情報の両方に依存する血液希釈剤)の適切な投与量を決定することを望む。投薬量が計算され、医師に返される。正しい投薬量を計算するために内密の個人データが使用されている間、この情報は個人によって安全に保たれ、医師にも製薬会社にも提供されない。
もう1つの健康に関するシナリオは、がん研究者が個々に保持しているゲノム情報を照会するためのツールを提供することである。集団遺伝学は、がんの理解およびがん治療の発展に対して大きな影響を及ぼす可能性を有しており、全ゲノム配列決定のコストが1,000ドル以下に下がるとますます重要になる。しかしながら、ゲノムデータベースへのアクセスは、種々の機関が種々のデータにアクセスするため、また倫理的および制度的制約がこのデータが共有されることを妨げるため、非常に困難であることが判明している。このことが、がん研究の大きな障害となっている。
1つのシナリオでは、すべての個人が、パーソナルデバイス上でまたはパーソナルクラウド上で維持される自身の遺伝情報を所有する。個人は次いで、計算が安全に保たれること、および、データが機密に、結果が匿名に保たれることを確信しながら、デバイスに参加することを志願する。
健康関連のアプリケーションでは、どのぐらいの人がSNPのこの組合せを有するか、これらの体重の間にあるか、過去6カ月間にこの薬を服用したか、そして週に3回以上運動するかなどの質問を研究者が行うことが可能である。より豊かでより多くの個人情報を研究者に提供すると同時に、倫理およびデータプライバシーの問題に対する解決策が提供される。
健康において多く存在するプライバシー、セキュリティ、データの豊富さの問題の多くは、銀行業務および個人金融のアプリケーションにおいても同様に重要である。消費と投資、リスクと保険、短期対長期行動に関する決定は、個人と、関係する金融機関の双方にとって重要である。N=1のアナリティクスである個々の顧客に適用される分析を用いて豊富な新しい機能を可能にする一方で、データ集約とデータプライバシーの両方の問題に対してソリューションが提供される。
第1の例では、個人がデータを集約し、金融機関は、金融商品およびアドバイスをより良好に目標とし、予測し、個人化することを望む。第2の例では、ビジネスおよびビジネス部門も、各個人のデータベースのセキュリティおよびプライバシーを保証しながら、分析を引き受けるか、または多数の種々のデータベースにわたって情報を共有することを望む。
個人は、自身の個人的な財務情報へのアクセスだけでなく、生活様式、家庭環境、社会的行動、第三者との出資および投資のプロファイルへの直接的なアクセスをも有する。提案されるソリューションは、単一のロケーションに豊富な情報源を作成するために、この個人データの集約を可能にする。さらに、金融機関は、さらに方向性を持った金融アドバイスおよび個人的な製品の方向性を提供するために、この情報を用い得る。これにより、方向性を持った個人向けの個人化された分析を可能にしながら、個人に関する情報のプライバシーおよびセキュリティが保証される。
サードパーティの組織(メディア、マーケティング、販売など)により深い個人の洞察を販売することによって個人が自身のデータを収益化することを可能にする、幅広い潜在的な商用アプリケーションを予想することも可能である。
図4は、変換されたデータを用いて学習するためのコンピュータシステム400を示す。一例では、コンピュータシステム400は、複数のデータサンプルから複数のトレーニングサンプルを決定するために使用される。別の例では、コンピュータシステム400は、分類器係数を決定するために使用される。
コンピュータシステム400は、モバイルフォンであってもよく、プログラムメモリ404、データメモリ406、通信ポート408、およびユーザポート410に接続されたプロセッサ402を備える。プログラムメモリ404は、ハードドライブ、ソリッドステートディスクまたはCD−ROMなど、非一時的コンピュータ可読媒体である。ソフトウェア、すなわちプログラムメモリ404上に記憶された実行可能なプログラムは、プロセッサ402に図5の方法を実行させ、すなわち、プロセッサ402は、複数のデータサンプルのサブセットをランダムに選択し、その選択したデータサンプルの特徴値を組み合わせることによって、複数のトレーニングサンプルの各々を決定する。
本開示は、コンピュータシステム400と同様の要素を有する複数のコンピュータシステムについて説明しているので、コンピュータシステム400は一度しか説明および図示されない。スマートフォンまたはサーバなどの特定のデバイスが特定のステップを実行すると以下の説明で述べられている場合、このステップはその特定のスマートフォンまたはサーバのプロセッサ402によって実行されることを理解されたい。
プロセッサ402は、RAMまたはプロセッサレジスタなどのデータストア406に、決定されたトレーニングサンプルまたは分類器係数を記憶し得る。プロセッサ402はまた、通信ポート408を介して別のモバイルフォンなどの別のコンピュータシステムに、決定されたトレーニングサンプルまたは分類器係数を送り得る。
プロセッサ402は、データメモリ406からだけでなく、データセットまたはデータセットの特徴付けの視覚的表現414をユーザ416に示すディスプレイ412に接続された通信ポート408およびユーザポート410からも、データサンプルまたはトレーニングサンプルのデータなどのデータを受信し得る。一例では、プロセッサ402は、IEEE802.11に準拠したWi−Fiネットワークを使用することなどによって、通信ポート408を介してストレージデバイスからデータを受信する。Wi−Fiネットワークは、ルータなどの専用の管理インフラストラクチャが必要とされないか、または、ネットワークを管理するルータまたはアクセスポイントを備えた集中型ネットワークが必要とされないような、分散型のアドホックネットワークであり得る。
一例では、プロセッサ402は、リアルタイムでデータセットを受信および処理する。これは、プロセッサ402が、新たなデータサンプルが受信されるたびにトレーニングサンプルを決定し、次のデータ更新が提供される前にこの計算を完了することを意味する。
通信ポート408およびユーザポート410は別個のエンティティとして示されているが、ネットワーク接続、メモリインターフェース、プロセッサ402のチップパッケージのピンなど、またはIPソケットもしくはプログラムメモリ404に記憶されプロセッサ402によって実行される機能のパラメータなどの論理ポートなど、任意の種類のデータポートがデータを受信するために使用され得ることを理解されたい。これらのパラメータは、データメモリ406に記憶されてもよく、また、ソースコード内で、値によって、または参照によって、すなわちポインタとして扱われてもよい。
プロセッサ402は、キャッシュもしくはRAMなどの揮発性メモリ、または、光ディスクドライブ、ハードディスクドライブ、ストレージサーバもしくはクラウドストレージなどの不揮発性メモリのメモリアクセスを含む、すべてのこれらのインターフェースを介してデータを受信し得る。コンピュータシステム400はさらに、動的な台数の仮想マシンをホストする相互接続サーバの管理グループなどのクラウドコンピューティング環境内に実装されてもよい。
任意の受信ステップが、後に受信されるデータを決定または計算するプロセッサ402によって先行され得ることを理解されたい。たとえば、プロセッサ402は、トレーニングサンプルまたは分類器係数を決定し、それらをRAMまたはプロセッサレジスタなどのデータメモリ406に記憶する。プロセッサ402は次いで、メモリアドレスとともに読み取り信号を供給することなどによって、データメモリ406にデータを要求する。データメモリ406は、データを物理的ビットライン上の電圧信号として供給し、プロセッサ402は、メモリインターフェースを介してトレーニングサンプルまたは分類子係数を受信する。
図5は、複数のデータサンプルから複数のトレーニングサンプルを決定するための、プロセッサ402によって実施される方法500を示す。複数のデータサンプルの各々は、1つ以上の特徴値と、そのデータサンプルを分類するラベルとを備える。
図6は、複数のコンピュータシステムを備えるコンピュータネットワーク600を示す。具体的に言えば、図6は、第1のコンピュータシステム602、第2のコンピュータシステム604、第3のコンピュータシステム606および収集サーバ608を示す。3つのコンピュータシステム602、604、606および収集サーバ608の各々は、図4を参照して説明した要素を備える。
一例では、その目的は、レギュライザを用いたロジスティック回帰分析などの予測モデルを学習することである。これは、目的関数を最小にするパラメータベクトルθ*を発見することを伴う。
ここで、Nはデータプロバイダの数であり、Niはデータプロバイダiによって保持されている、見本とも呼ばれるデータサンプルの数であり、xijはデータプロバイダiによって保持されているj番目の特徴ベクトルであり、yijは特徴ベクトルxijに対応するバイナリラベルであり、λは正則化パラメータである。この目的は、トレーニング見本(xij、yij)のプライバシーを維持しながら、θ*または近くのパラメータベクトルを発見することである。
最適なパラメータベクトルを発見するための1つの手順は、初期推定値θ1を反復的に改善するデータ処理サーバにデータサンプルを送ることを伴う。しかしながら、データサンプルを送ることは、処理サーバにデータサンプルを公開することになる。したがって、このタイプの手順は、プライバシーを保護するものではない。
図6の例では、収集サーバ608は、デバイス602、604および606からデータを収集する。しかしながら、収集サーバ608は、データサンプルを開示しないが、デバイス602、604および606から受信されたデータサンプルを学習サーバ620に開示することなく、分類器のトレーニングを可能にするトレーニングサンプルを学習サーバ620に供給する。
この例では、タスクは、単純なアンケートに基づいてロジスティック回帰分類器を決定することである。アンケートは3つの質問を備える。2つの質問は機能に関するものであるが、第3の質問はラベルに関するものである。第1の質問は、ある人が喫煙者であるかどうかであり、第2の質問は、その人が完全菜食主義者であるかどうかである。第3の質問は、その人ががん患者であるかどうかであり、すなわち、各サンプルのラベルは、その人が「がん患者」であるかどうかである。
タスクは、喫煙者であるか完全菜食主義者であるかに基づいてある人ががん患者であるかどうかを予測し得る分類器を構築することである。しかし、がん患者であることは、ほとんどのユーザが公然と共有することを望まない情報であり、アンケートではプライバシーが保護されることが重要であるが、これは、特定のユーザががん患者であるかどうかの情報が、信頼された収集サーバ608以外のいかなる関係者にもデバイスにも開示されないことを意味する。
この例では、3つのコンピュータシステム602、604および606はスマートフォンであり、アンケートの質問はそれぞれの画面に表示される。陰影は、アクティブ化または選択されたユーザコントロール要素を示す。第1のスマートフォン602のユーザは、喫煙者であることに対して「はい」、完全菜食主義者であることに対して「いいえ」、がん患者であることに対して「はい」と回答している。回答は、第1のコンピュータシステム602のデータメモリ(図4に406と称される)に記憶される第1のデータサブセット610として記憶される。第1の行は、「喫煙者」である特徴「1」に関連し、第2の行は、「完全菜食主義者」である特徴「2」に関連し、第3の行は、「がん」であるラベル「L」に関連する。この例では、2番目の列は、それぞれの特徴の特徴値を記憶するものであり、「1」は「はい」の回答を表し、「−1」は「いいえ」の回答を表す。
第1のスマートフォン602に提供された結果に基づくと、喫煙することと完全菜食主義者でないことはがん患者であることにつながるように見える。しかし、この結論は単一のサンプルに基づくものであり、したがって統計的に有意ではない。より多くの参加者を組み込むことは、結果をより有意にすることになる。
同様に、第2のスマートフォン604のユーザは、彼が喫煙者ではなく、完全菜食主義者ではなく、がん患者でないことを示しており、このことは、第2のコンピュータシステム604に第2のデータサブセット612として記憶される。第3のスマートフォン606のユーザは、彼女が喫煙者であり、完全菜食主義者であり、がん患者であることを示しており、このことは、第3のコンピュータシステム606に第3のデータサブセット614として記憶される。
他の例では、データサブセット610、612、および614は、顔画像またはゲノムおよび特定の疾病など、他のタイプのデータを記憶してもよい。たとえば、データサブセット610、612および614は、多数の一塩基多型(SNP)の各々について1つの特徴を含み得、そのため、サブセットは、その人のDNAがそのSNPを示す場合は「1」、そうでない場合は「−1」を記憶するようになる。ラベルはここでも、糖尿病などの特定の疾病であってよい。
別の例では、データサブセット610、612、および614は、年齢、性別、住所、国籍、民族性などのユーザデータに関連する特徴を備える。このユーザデータは、他の当事者に開示されるべきではなく、または他の当事者と共有されるべきではない。
ラベルは、購入した品目、視聴した動画、読んだ書籍、または、「いいね(like)」もしくは「好き(love it)」のリンクを選択することなどによってユーザが自身の好みとして指示したコメント、ウェブサイトキーワードもしくは写真の個々の単語など、それぞれのユーザの履歴行動データを表し得る。
ネットワーク600は次いでレコメンダシステムとして機能し、ここで、データセットを特徴付けすることは、ユーザの履歴行動、好みとユーザデータとの間の関係を学習することを意味し得る。その結果、追加の品目、動画、書籍、コメント、ウェブサイトの写真などが、ユーザデータまたは好みに応じてユーザに推薦され得る。
各例では、データサブセット610、612、および614の各々が厳密に1つのデータサンプルを含み、デバイス602、604および606は、データテーブル616にデータサンプルを記憶する収集サーバ608に、それらのデータサンプルを送る。
データテーブル616は3つの列を有し、ここで、最初の2つの列は特徴値を保持するものであり、第3の列は各データサンプルのラベルを保持するものである。テーブルヘッダを除いて、データテーブル616は3つのデータサンプルを備える。ここで、この例における方法500は収集サーバ608によって実施されることに留意されたい。しかしながら、他の例では、スマートフォン602、604および606の各々は、複数のデータサンプルを保持してもよく、またそれらのデータサンプルから複数のトレーニングサンプルを決定してもよい。
一例では、収集サーバ608は、データサンプル616のプライバシーを保証する法的義務を負う収集当事者によって操作される。学習サーバ620は、顧客の年齢に応じた特定の製品の人気など、マーケティング関連の結論を導出するために、データセット616を取得することを望む第三者によって動作される。収集当事者は、第三者にデータサンプル616を提供することが許可されていないが、データセット616のプライバシーを維持するトレーニングサンプルを決定し、学習サーバ620にそのトレーニングサンプルを提供し得る。
ここで説明は、トレーニングサンプルを決定するための、図5の方法500に戻る。収集サーバ608のプロセッサ402は、複数の訓練サンプルを決定するために方法500の複数回の繰り返しを実施する。各トレーニングサンプルについて、プロセッサ402は最初に、複数のデータサンプルのサブセットをランダムに選択する(502)。一例では、これは、複数のデータサンプルの各々に、そのデータサンプルを選択するためにゼロに等しくないランダム選択値を、またはそのデータサンプルを選択解除するためにゼロに等しいランダム選択値を乗算することによって達成される。
図6は、ランダム選択変数の第1のベクトル622およびランダム選択変数の第2のベクトル624を示す。プロセッサ402は、乱数生成方法を実施することまたはランド疑似デバイスを読み取ることによってこれらのベクトル622および624を生成し、また第1のトレーニングサンプル626を決定するために第1のベクトル622を使用し、第2のトレーニングサンプル628を決定するために第2のベクトル624を使用する。第1のベクトル622の場合、第1および第3のエントリは「1」であり、第2のエントリは「0」であることが分かる。その結果、第1および第3のデータサンプルが選択される。第2のベクトル624の場合、第1および第2のデータサンプルが選択される。
プロセッサ402は次いで、サブセットのデータサンプルの各々のラベルに基づいて、選択されたデータサンプルの特徴値を結合する。たとえば、プロセッサ402は、両方の特徴値をラベルで乗算し、各特徴の値を決定するためにその結果を加算する。図6の例では、第1のトレーニングサンプル626の第1の値は、表616の第1の列の第1および第3の行の値の合計に「1」を乗算したもの、すなわち1+1=2である。同様に、プロセッサ402は、第1のトレーニングサンプル626の第2の特徴値および第2のトレーニングサンプル628の特徴を決定する。
注意深く見ると、第1のベクトル622は、正のトレーニング特徴値「2」によって表される、「喫煙者」の特徴と「がん」ラベルとの間の正の相関を表すサンプルを選択することが分かる。対照的に、選択されたサンプルは、「0」の特徴値によって表される「完全菜食主義者」の特徴に関連して決定的ではない。他方では、第2のトレーニングサンプル628のために選択されたサンプルは、「−2」の大きな負値によって表される、「完全菜食主義者」の特徴と「がん」のラベルとの間の強い負相関を表し、このことは、選択された完全菜食主義者ががん患者でないかまたは選択された非完全菜食主義者ががん患者であることを意味する。
上記の説明は、データサンプルの情報がどのように保持されるかを示しているが、ランダム選択ベクトル622および624を知らずにトレーニングサンプルに対する個人の寄与を決定することは困難である。
一例では、トレーニングサンプルはRADemacher OperatorSの略称として、ラドスと呼ばれる。
以下の説明は、Rademacher演算子の集合Uを定義するための例を提供するものである。
本発明者らは[n]={1,2,...,n}とする。例は、X×{−1,1}にわたる未知の、ただし不変の分布Dに従う、想定サンプリングされたi.i.d.であり、ここで
である。
を学習サンプルとし、
とする。yは、
となるようなσ∈Σmを表す。プロセッサ402は以下を決定する。
・非中央Rademacher演算子
・中央ラドス(以下ではラドスと呼ばれる)
すべての量において、学習サンプルSへの言及は暗黙的である。
では、σはマスキング変数のように働き、σi≠yiであるとき、見本iの寄与yiiはラドから除去される。要約すると、
が得られる。
それらの名前は、σisに対するi.i.dの均一なピッキングを示唆するが、プロセッサ402はまた、データ依存の選択肢を提供するために、より洗練された手順を構築し得る。また、Uの最大基数は2mであり、可能な限り大きなUを構成することは、計算上は困難であるが、たとえば|U|=2mはS内におけるyi・xisの容易な再構成を意味するので望ましくない。データについて、より多くの知識がない限り、クラスを観測から切り離すことは困難となるが、クラス、Rademacher変数および観測の特徴値の符号を反転してもS*は変化しない。最後に、S*は、クラスに関する別々の情報を統合していないので、Sよりも1つ少ない列を有しており、このことは、トレーニングサンプル626および628の列(2つの列)をデータテーブル616の列(3つの列)と比較することによって図6で分かる。
上記の式(2)は、データサンプルのサブセットをランダムに選択し、データサンプルの各々のラベルに基づいてデータサンプルを組み合わせることによって、プロセッサ402がトレーニングサンプルの各々をどのように決定するかを数学的に示す。具体的に言えば、プロセッサ402は、トレーニングサンプルの特徴の特徴値がデータサンプルの特徴の特徴値の合計となるように、データサンプルの特徴値の合計を決定するために式(2)を計算する。さらに、式(2)における和の決定は、データサンプルの各々のラベルに基づいて重み付けされた加重和である。
図6の例でも分かるように、加重和は乱数に基づいて重み付けされ、複数のデータサンプルのサブセットをランダムに選択することは、特徴値を組み合わせることと同時に実施され、すなわち、両方の操作は同じ式を計算することによって実施される。
一例では、ランダムな選択は非一様分布に基づく。さらに、一例では、データサンプルは、符号付きの実数を特徴値として有し、ラベルは「−1」または「+1」である。
別の例では、プロセッサ402は、各ラドの座標をデータサンプルの数で除算する。データサンプルに対するこれらの非負の重みは、学習の結果を著しく向上させる。
上述したように、収集サーバ608は、学習サーバ620に決定されたトレーニングサンプル626および628を送り得る。学習サーバ620は、図4を参照して説明したコンポーネントを有する。具体的に言えば、学習サーバは、プロセッサ402に図7の方法を実施させるソフトウェアを記憶したプログラムメモリ404を有する。サーバ620は、トレーニングサンプルおよび決定された分類器係数を記憶するデータメモリ406をさらに有する。上述のように、サーバ620のプロセッサ402は、LANもしくはWi−Fiネットワークアダプタおよび/またはNASもしくはSANストレージインターフェースであり得る通信ポート408を介して、トレーニングサンプルを受信する。
図7は、特徴インデックスkに関係する分類器係数θを決定するための方法700を示す。本開示の全体を通じて、特に明記しない限り、「トレーニング」サンプル/値と「データ」サンプル/値との間になされた重要な区別があることを再び強調しておく。「トレーニング」サンプルは、学習サーバ620に開示されるが、「データ」サンプルのプライバシーを保護する。それにもかかわらず、学習サーバ620は、「データ」サンプルからの「トレーニング」サンプルの特別な構成のために、「トレーニング」サンプルのみに基づいて「データ」サンプルの分類器を学習することが可能である。
通信ポート408を通じて、プロセッサ402は、方法500に従って決定された特徴インデックスに関係する複数のトレーニング値を受信する(702)。上記で説明したように、各トレーニング値は、複数のデータラベルに基づく複数のデータ値のサブセットの組合せに基づくものである。複数のデータラベルの各々は、複数のデータ値のうちの1つに関係付けられる。
図8aおよび図8bは、2つのトレーニングサンプル626および628の簡略化された例を継続し、方法700の種々の繰り返しを示すものであり、ここで、異なる特徴インデックスが各繰り返しで選択される。方法700は、プロセッサ402が1つの特徴に対する分類器係数をどのように決定するかを説明するものである。したがって、方法700の説明のため、各トレーニングサンプルが複数の特徴を備えるという事実は、明確さのために無視される。結果として、サンプルは簡単に値を参照される。図8aの例では、第1の特徴が選択され、すなわち、選択された特徴インデックスはι(t)=1である。トレーニング値は、第1の列の各行値、すなわち「2」および「2」である。
図9は、より詳細にアルゴリズム900の形態で方法700を示す。図9における各ステップの参照符号は、該当する場合、図7における方法700の各ステップに対応する。
プロセッサ402は、相関値rが複数のデータ値の各々とそのデータ値に関係するデータラベルとの間の相関を示すように、複数のトレーニング値に基づいて相関値rを決定する(704)。ここでもまた、相関値rは、データサンプルの特性を示すが、プロセッサ402は、トレーニング値に基づいて、そしてデータサンプルに基づかずにその特性を決定する。
この例では、各トレーニング値は1つのトレーニング値重みwに関係付けられ、相関値rはトレーニング値重みに基づくものである。重みは、トレーニング値の数の逆数で初期化され、以下に説明するアルゴリズム900の各繰り返しにおいて決定され、すなわち更新され得る。
プロセッサは次いで、相関値に基づいて分類器係数を決定する(706)。図9で分かるように、プロセッサ402は、複数のトレーニング値の各々に関係付けられるトレーニング値重みwによって重み付けされたトレーニング値
の和を計算することによって相関値を決定する。プロセッサ402は次いで、π*ι(t)で示される最大トレーニング値を決定し、その合計を最大トレーニング値π*ι(t)で除算する。
図7の例では、第1の特徴インデックスを考慮し、各トレーニング値について0.5の初期重みを仮定すると、rに対する結果は「1」であり、したがって係数に対する結果は∞である。「喫煙者」に「はい」と答えたすべてのユーザが、がんに「はい」と回答し、逆も同様であるため、この結果は驚くべきことではない。その結果、アルゴリズム900のステップ704に従って相関値を計算することにより、複数のデータ値の各々、すなわち「喫煙者」に対する回答と、そのデータ値に関係付けられるデータラベル「がん」との間の相関を示す相関値が得られる。しかしながら、その相関は、データ値自体に基づくものではなく、方法500によって決定されたトレーニング値に基づくものである。
重みwは、分布の要素として選定され得るものであり、これはrの値が区間[−1,1]にあることを意味することに留意されたい。
同様に、第2の特徴値について、プロセッサ402は再び方法700を実施し、rに対する結果は、第2の特徴に対する係数に対して−0.5および−0.54である。このことは、「完全菜食主義者」のデータ値とそのデータ値に関係付けられるラベル「がん」との間に弱い負相関があることを示唆する。
プロセッサ402は、相関値rに基づいて、更新ステップ902に従ってトレーニング値重みwを更新する。さらに、プロセッサ402は、最大トレーニング値π*ι(t)を決定し、最大トレーニング値π*ι(t)に対する複数のトレーニング値πjι(t)のうちの1つの割合に基づいて、トレーニング値重みwを決定し得る。言い換えれば、最大トレーニング値π*ι(t)に対する個々のトレーニング値πjι(t)の割合は、どの程度に各特徴がラドjに統合されたデータサンプルのラベルと相関しているかを示す。説明した更新方法の結果として、弱い相関を有するトレーニング値、すなわち、
は、増加した重みwを招き、その一方で、強い相関を有するトレーニング値、すなわち
は減少した重みwを招く。このように、不正確に分類された特徴が優先される。
上述したように、プロセッサ402は、複数の特徴インデックスに対して複数の分類子係数を決定するために、この方法を繰り返し得る。各繰り返しにおいて、プロセッサ402は、弱い特徴予測インデックスとしてインデックスを決定し得る。一例では、プロセッサ402は、以下の方法によってインデックスを決定する。
ステップ1:initialise jmax=−1,rmax=0
ステップ2:for j=1 to d
ステップ2.1:if((j=1)or(|rj|>rmax)) then jmax<−j
出力:jmax
ここで、rjは、(t)をjで置き換えた以下の式(30)である。したがって、プロセッサ402は、重みの現在のセット上のすべての特徴について、(30)のようにrtを計算する。プロセッサ402は次いで、rtがデータストア406に記憶されている絶対値において最大となるインデックスを保持する。
方法700を2回、繰り返すことで、異なる特徴インデックスまたは同じ特徴インデックスに対する分類器係数および重みを複数回、計算し得ることに留意されたい。
たとえば、プロセッサ402が方法700を10回繰り返し、特徴「1」を7回、特徴「2」を3回、選択する場合、式(22)の和は、特徴「1」に対する7つの要素と、特徴「2」に対する3つの要素を有することになる。たとえば、特徴「2」が、3回、5回、6回の繰り返しで選択された場合、式(22)の和はθ10,2=α3+α5+α7に展開されることになる。第1の繰り返しで決定された更新済みの重みwは次いで、特徴の選択にかかわらず第2の繰り返しで使用されることにさらに留意されたい。
この意味において、プロセッサ402は、トレーニング値に基づいて、変更されたブースティングアルゴリズムを実施し、また、この方法を繰り返すことによってプロセッサ402は、実際のデータ値を使用せず、トレーニング値のみを使用して複数のデータ値のコスト関数を最適化する。繰り返しが1000回などの最大反復数など、終了基準に到達すると、結果として得られる分類器係数は、分類器係数に基づいて試験値の分類を決定するための試験値を受信するように適用され得る。
以下の説明は、上記で定義したRademacher演算子(ラドス)に基づく方法500および700のより詳細で数学的な説明を提供するものである。
ディプティク(損失、トレーニングサンプル)、(F(.,θ),S)は、別のもの、(F*(.,θ),S*)によって置き換えられ得るが、ここで、S*は、理想的にはSを「曝露」しないサンプルの変換であり、F*は、最小化するF(S,θ)が最適化するF*(S*,θ)と「等価」となることを主な目的としてS*に対して定義される凹または凸関数である。たとえば、後者の最適化を実現する分類器は、前者の最適化を実現する分類器に「近い」ものであるべきである。「新しいサンプル」であるS*
は、SおよびセットUに依存し、セットUは、この新しいサンプルを構築するために使用されたパラメータの(おそらくは無作為化された)セットである。
両方の損失の引数における分類子が同じであり得ること、すなわち、いくつかは特徴をさらに「隠す」ように考案され得るが、本発明者らは分類器の変換を仮定していないことに留意されたい。設定に関して本発明者らが設けた主な特性または仮定は以下の通りである。
・θが線形である。少なくともいくつかの結果については、分類器のカーネル化が可能となり得る。
・変換
は、|S|において線形であり、すなわち、時間および空間の複雑さを低減して実施され得る。さらに、大きなデータセットに対する計算をスケールアップするために、異なるプロセッサもしくはコンピュータまたはコンピューティングクラスタにわたって並列化され得る。
・データが「ワンショット」で伝達される、すなわち、S*が学習者に伝達され、他には何も伝達されない。したがって、
・UがF*を最適化するために知られる必要がなく、また通信される必要もない。
本発明者らのタスクが関連する1つの設定が図10に提示されている。データベースDは、Uを、次いでSからS*を計算し、次いで学習器LにS*を伝達する。学習器は、S*を介して分類器θを学習し、Dにその分類子を送り返す。
たとえば、S*またはデータ(またはパラメータU)を共有し得るか、学習器がデータのサブセットを同様に有し得る場合など、S*を共有する(そしてそれらのデータは共有しない)いくつかのデータベースが存在するとき、より多数の設定が本発明者らのタスクに関連し得る。図11は別の例を示す。
この設定は、Duchiら「Privacy Aware Learning」、Journal of ACM、2014に記載されているプライバシー認識学習に関連する。この場合、図12に示すように、データベースと学習器との間に、繰り返される通信が存在する。学習器はデータベース(ここでは分類子θ)にパラメータを送り、データベースは、学習器によって最適化された損失関数を知っており、難読化された勾配を再び通信する。これは、雑音で畳み込まれた勾配の形態を取り得る。
損失F*の定義
表記を多くしないために、表記においてSとUのみを維持してS*への参照を回避することにする。原理は以下の通りである。損失F(S,θ)が与えられると、プロセッサ402は、
となるような機能F*(.,.,.)を発見し、gは狭義に単調である。次いで、プロセッサ402は、少なくとも最適なθの観点から、F*(S,θ,U)がF*(S、θ、Σm)の良好な近似となるという目的で、あるU⊂ΣmについてF*(S,θ,U)を最適化する。F*の最小化に関する1つの重要な点は、これがS*のみに依存することである。
そのため、分類器θは、以下の定量的知識なしに推定される。
・観測xi(i=1,2,...,m)
・クラスyi(i=1,2,...,m)
・パラメータセットU
・見本の数m
これは、m・d+m+m・|U|+1=(|U|+d+1)・m+1個の未知数を表す。
ロジスティック損失の場合
本発明者らはロジスティック損失を以下のように考える。
以下の補助定理は、F*が指数損失となり、g(z)=log(2)+(1/m)・logzとなり得ることを示す。card(U)=nである任意のU⊆Σmに対して、
を平均指数ラド損失とする。その場合は、以下のようになる。
ロジスティック損失を最小限にすることは、指数関数的なラド損失を、ただしΣm全体にわたって最小限に抑えることと同等である。本発明者らは、U⊂Σmによってその最小化を近似している。
提案するアルゴリズムは、ラドスを用いてモデルを学習し得る唯一の手順ではない。ラド損失の式(たとえば、式(8))が与えられると、凸関数を最小化するための任意のアルゴリズムがトレーニングのために実行され得る。結果として、機械学習システムのプロセッサは、機械学習システムをトレーニングするための方法を実施し得、その方法は、式(8)などの凸損失関数を最適化することを備え、凸損失関数は、図5における方法500に従って決定されるトレーニングサンプルに基づくものである。
2乗損失の場合
本発明者らは2乗損失を以下のように考える。
以下の補助定理は、F*が平均分散基準となり、g(z)=1−(2/m)・zとなり得ることを示す。本発明者らは、Fsql(S,θ)=1−(2/m)・J(S,θ,Σm)としており、ここで、任意のU⊆Σmに対して、
であり、分布は一様である。
ラドベースの勾配を通じた最適化
本発明者らは、上記となり得る設定で、手近の損失の勾配の通信を研究している。Ulogを、サポートUを伴った、以下のような離散分布であるとする。
sqlを、サポートUを伴った、以下のような重みのセットであるとする。
ティルド記号は、重みの和が1であるが、一部は負であり得ることを示す。本発明者らは、ティルド記号を期待値に拡張して、そのような種類の重み分布への参照を示している。θΤπσがUにわたってゼロの期待値を有する[−1,1]に属していることを確実にした場合、
は分布となることに注意されたい。また、πσ
で置き換えた場合も、どちらの分布も変化しないことに注意されたい。本発明者らは以下を得た。
指数ラド損失によるラドブースト
プロセッサ402が、その要素
が略して
と新たに名付けられる中央ラドスS*のセットをトレーニング値として与えられるとすると、πnの座標n(対応分類子θt)はπnj(対応θtj)と表される。
は絶対値で最大ラド特徴値を表すものとする。wfiは、これは、中央ラドスのセットおよびラドスにわたる離散分布(1Tt=1、wtj≧0、∀j∈[n])である重みベクトルwtを入力として与えられる、弱い特徴指数オラクルを表すものとする。wfiは、レバレッジ係数が更新される特徴のインデックスを出力する。
[t]Rademacher演算子ブースト(RadoBoost)
card(S*)=n、反復回数を
として中央ラドスS*のセットを入力する。ステップ1:θ0←0、W0←(1/n)1://初期分類器および重み ステップ2:for t=1,2,...,T ステップ2.1:[d]∋(t)←wfi(S*,wt);//弱い特徴予測子インデックス(t)を得る ステップ2.2:
ステップ2.3:for j=1,2,...,n
次式で定義されるθTを返す。
アルゴリズム900を実施すると、RadoBoostプロセッサ402は、ラドセットS*および反復回数Tから線形分類器を学習し記憶する。RadoBoost900は、学習するために見本の数mを知る必要はない。本発明者らは、弱い学習仮定(WLA:Weak Learning Assumption)の観点からRadoBoostを以下のように分析している。
・wfiによって返される特徴は次式を満たす。
(WLA)が成立するとする。その場合、T回のブースティングの後、指数関数的なθTのラド損失に対して以下の上限が成立する。
そして、S*、すなわちθTの近似ロジスティック損失に対して以下の上限が成立する。
ラドブースティングのために行う弱い学習仮定と、Sに対して行われるようなブースティングのための弱い学習仮定とが「等価」であるかどうかに関する質問が問われ得る。本発明者らはここで、本質的にある定数になるまでそれらが実際に等価であり、そのため、ラドブースティングが弱い学習仮定を人為的に「伸ばす」ことはないことを示している。
本発明者らの結果を述べるために、次の定義が必要である。
となるようなσj∈Σmを略して表す。重みw,(S*|w)に対するS*の平均加重ラベル類似度は、以下のように定義される。
ここでH(.,.)はハミング距離である。Sにわたってブースティングする状況における弱い学習仮定を定義するために、本発明者らは、
としており、ここでwは、見本
にわたる重みベクトルを表し、j∈[d]は特徴インデックスである。式(38)は、ブースティングで実行される弱い学習仮定において(34)でrtに取って代わるものであり、したがって、Sにわたる任意の重みベクトルwに対して、|μ(S|w;k)|≧γ’となるような特徴kが存在するようなγ’>0が存在することになる。
(WLA)が特徴
に対して成立するとする。その場合、以下のような重みベクトルwがSにわたって存在する。
特徴はセンタリングされ得、すなわち、
となる。予測する実数値クラスを有するドメインは、クラスが平均よりも大きいかどうか、すなわちセンタリング後にプロセッサ402がその符号でクラスを置き換え得るかどうかを予測することによって、バイナリ分類問題に変換され得る。
プロセッサ402は、固定された|S*|=min{1000,トレーンサイズ/2}で総数T=1000回の反復にわたってブースティングアルゴリズム900を実行して、ラドスの数がトレーニングセットのサイズの半分を超えないことを保証し得る。
差分プライバシーの結果
本発明者らは、すべてのd記述変数が符号付きバイナリ値(xik∈{−1,1})であるデータセットを考える。|S|=mとし、一般性を失うことなく、以下を仮定する。
式(42)は、その特徴が学習の観点から自明ではないことを等価に述べている。さもなければ、|{i:yiik>0}|=mの場合に、そしてその場合に限りsign(α)=+1、|{i:yiik>0}|=0の場合に、そして場合に限りsign(α)=−1とした(式(42)に違反するkに対する)形式θ=αxkは、ゼロの経験的リスクを有することになる。アルゴリズムDP−Featは、表記
を使用する。
ラドスの差分プライバシー準拠のリリースの鍵は、Σmの厳密なサブセット上におけるσsの一様な分布、すなわちそれらの一様なi.i.d生成のクランピングであると思われる。また、ラドスからの一定の肯定的な学習結果のためには、平均的なオペレータへの期待を保つ分布に従うラドスの生成が(たとえば、ブースティングのために)重要であると思われる。
これは、次の定義を導く。
がサポート⊂Σmの分布を表すとする。
は、
の場合に、そしてその場合に限り、平均演算子に準拠するものであるとする。
がラド
のk番目の座標を表すとする。最初に、ラドスの特徴的な差分プライバシーを調べる。この設定では、ユーザは、1つの選択された「重要な」特徴k∈[d]の差分プライバシーをターゲットにする。
図13は、式(2)のΣm,βが空でないこと、すなわち、アルゴリズム1300が式(2)によるラドスの生成に対するアドオンであることをステップ2が保証する別のアルゴリズム1300を示す。基本的に、αは1より大きい定数で除算される。
ステップ4ではΣmにサンプリングσsを用いるため、同様に、Σm,βはΣm,βにわたる一様分布を示すものとする。ステップ4は、Σmにおけるσsの簡単なRademacher i.i.d拒否サンプリングによって実装され得る。このスキームを略してRademacher拒否サンプリングと呼ぶことにする。
任意のδ>0に対し、以下を定義する。
n個のRademacher演算子のセットが得られる前に、Rademacher拒否サンプリングにおけるランダムに生成されたσsの総数をTRrsとする。TRrsが、最低の取り得る値nに可能な限り近くなることが望まれる。
次の3つの特性がアルゴリズムDP−Featに対して成立する。
1.アルゴリズムDP−Featは特徴k上のε−差分プライバシーを与える。
2.アルゴリズムDP−Featは平均演算子に準拠する。
3.δ>0とする。確率≧1−δ、
、ここで、
したがって、Rademacher拒否サンプリングは単純であり、εが0に近すぎない場合は非常に効率的となり得る。これは、特徴ごとに差分プライバシーを扱うものである。
計算上の複雑さの結果
・スパース近似I(SA−I)
・P={π1、π2,...,πn}、中央ラドのセット、整数m∈N*、最大誤差
、最大ノルムl、pノルム||.||p、ここでp=∞
・次式のような、m個のスパース見本{(xj,yj),j∈[m]}のセットおよびn個のRademacher割当てσ1,σ2,...,σn∈{−1,1}mのセットが存在するか。
SA−IはNP−Completeである。
備考:
・SA−1の硬度は、Rademacher変数をピッキングする組合せ硬度には依存しないが、サイズが制限されている(見本の数と見本のノルム)見本のセットをフィットさせることに依存する。
・フィーチャサインリークがある場合、すなわち、各特徴を取る得る可能性のある兆候を開示する場合、問題は依然としてNP完全である。
・プライバシーリークチェックI(PLC−I)。
・S見本のセット、P={π1、π2,...,πn}、中央ラドのセット、整数m∈N*、最大誤差
、pノルム||.||p、ここでp=∞
・観測されたラドスに近似的につながるSのm個の見本のサブセットが存在するか。より正確に言えば、次式のような、{(xj,yj),j∈[m]}⊆Sおよびn個のRademacher割当てσ1,σ2,...,σn∈{−1,1}mのセットが存在するか。
PLC−IはNP−Completeである。
備考:
・PLC−Iの硬度は、Rademacher変数をピッキングする組合せ硬度には依存しないが、観測されたラドスにつながり得るデータセットの限定されたサブセットを発見することに依存する。
・フィーチャサインリークがある場合、すなわち、各特徴を取る得る可能性のある兆候を開示する場合、問題は依然としてNP完全である。
・この問題は、ドメインに関するすべてのデータを所有する第三者(エージェント、ビジネス)が、そのデータの一部をデータセットエンティティが所有し得るかどうかをチェックすることを望む状況で関心を引くものとなる。
上記の例ではトレーニングサンプルはRADemacher OperatorSの略称としてラドスと呼ばれているが、他の例では、ラドという用語はRADemacher ObservationSを表す。式(2)に代わるものとして、Rademacher Observationはまた、πσ=(1/2)・Σi(σi+yi)xiと定義され得、これによって表記が単純化され得る。
上記のいくつかの例では、データサンプルは、DNAサンプル、調査の回答、財務データなど、測定値から受信されたクリーンなオリジナルデータであると仮定され得る。しかしながら、いくつかの例ではプライバシー要件が存在し、その結果、クリーンデータは利用可能ではなく、実際のデータを秘密に保つためにランダムノイズの影響を受けるデータのみが利用可能となる。そのようなノイズの多いデータの一例が、差分プライバシー(DP)準拠のデータである。
データに加えられるランダムノイズが球形などのように対称である場合、それらのランダムノイズは「打ち消される」ため、多数のサンプルに対する平均は依然として正確となる。しかしながら、ラドスは、これらのノイズの多いサンプルのサブセット上で生成され、生成されたラドスのいくつかは、少数のノイズの多いサンプルのみに基づくことが可能である。図7、8a、8bおよび9に関連して説明したRadoBoost方法は、ノイズの量が一定のしきい値を超える場合に、低下した性能を示し得る。これは、この方法がより緩徐に収束し、したがって同等の精度に対してより多くのサンプルが必要とされることを意味する。
一例では、プロセッサ402は、クリーンデータを使用して達成される収束速度をほぼ維持するように、DP準拠の見本からラドを生成する。より正確に言えば、本発明者らは、エッジベクトルがDP準拠であることを仮定している。DPフレームワークのデータを保護するための判断基準は、データをノイズと畳み込むことである。1つの一般的なメカニズムは、その標準偏差
がDP要件(ε、δ)に依存する独立したガウス雑音変数
でデータを畳み込むガウスメカニズムである。
厳しい構造仮定が成立しない限り、すぐれた特性がノイズで急速に低下し得るという意味で、強力なDPレジームは、多くの効率的な学習アルゴリズムに対して扱うことが困難である。たとえば、ノイズの多い電力法のDPノイズ下における特異ベクトルの近似係数ρは、Δ=O(d)が2つの特異値の間の差である場合、おおよそ、
として振る舞う。
が小さいとき、これは非常に良好な境界となる。しかしながら、DP要件が発生するとき、この境界はあまり適切ではない。
特徴ベクトルを有するラベルの積は、「エッジベクトル」と呼ばれ、すなわち、各ラドは見本にわたってエッジベクトルのサブセットを合計する(1エッジ=1観測時間掛けるラベル)。本発明者らは、IおよびI’を1つのエッジベクトルだけ異なるm個のベクトルエッジの2つのセットとして、不等式
を考え、Oは、ガウスメカニズムを通じて生成されるm個のエッジベクトルのノイズ付加されたセットである。
ここで次の重要な結果を示すが、プロセッサ402が別の特定のΣrを設計する場合、非ノイズラドス上で測定されたRadoBoostの収束速度は、mが十分大きい限り、(その振幅に関係なく)ガウスメカニズムを通じたエッジベクトルへのノイズ注入に本質的に耐える。プロセッサ402は、多数のエッジベクトルを合計するラドスのみをピッキングするため(これはΣrの設計である)、i.i.d.ノイズ成分は、雑音のない設定とほぼ同じくらい迅速にアルゴリズムが学習することが可能となるよう十分に集中する。
言うまでもなくRadoBoostが認識しない非ノイズのラドスにわたって収束速度が測定されるという重要な事実を、本発明者らは強調している。その結果は、図9における|rt|(19)が上限を定められる特徴をピッキングする、プルーデンシャルと呼ばれる特定の弱い学習器を使用するので、ブースティングフレームワークにおいて、独立に関心を引くものである。
プロセッサ402は、入力として与えられたパラメータκ≧1によって、RadoBoostのレバレッジ係数αt(図9の式(20))を最初に再正規化するので、ここでステップ2.2におけるαt←(1/(κπ*ι(t)))log((1+rt)/(1−rt))が得られる。現在の収束速度は、(WLA)を適用する前に、次のようになる。
WFIは、|rt|≦pとなるような特徴が反復ごとに選択される場合に、そしてその場合に限り、λp>0に対してλpプルーデンシャルである。ベクトルエッジは、(i∈[m]に対して)
として
を計算することによって、DP保護されている。ある
に対して、
とし、mσ=|{i:σi=yi}|がラドのサポートを表すとする。
これらの例では、各ラドのサポートは所定のしきい値よりも大きく、これは、複数のトレーニングサンプルの各々が少なくとも所定数のデータサンプルに基づくことを意味する。
このしきい値は、データサンプルのランダム選択に統合されてもよく、このことは、少なくとも所定のしきい値数のデータサンプルを備える複数のデータサンプルのサブセットをプロセッサ402がランダムに選択することを意味する。一例では、このしきい値はデータサンプルの数の半分である。
以下のDP定理では、「
」におけるティルダは、式のパラメータ以外の項における依存関係を隠す。
DP定理:∀t>0、で
である場合、λpプルーデンシャルの弱い学習器の出力θTを使用して、確率≧1−τで
を満たすλp>0が存在する。
この証明は、ステートメントに隠されたパラメータと依存関係を詳述するものである。|rt|が1に近いときは、αtが膨張するので、プルーデンシャルな弱い学習器の使用は、ノイズの多い状況においてはいくぶんか直感的となる。
DP定理は本質的に、ラドスに対する十分に大きなサポートが、RadoBoostの収束速度をノイズフリーレジーム内に高確率で維持するのに十分となることをもたらす。もちろん、弱い学習器はプルーデンシャルであり、これは、有界の|rt|<1を意味し、さらに、レバレッジ係数αtは正則化され、これはより小さいマージンを意味する。それでもやはり、DP定理は、DP準拠のエッジベクトルから学習するときにラドスを利用するためのすぐれた議論である。
一般的なロジスティック損失を伴う教師あり学習は、クラス:Rademacher observations(rados)に関する十分な統計を用いて指数損失を最適化することと等価になり得ることに留意されたい。本開示は、4つのラド損失で例示される、等価となるべき損失に対する条件を提示する。その等価物に含められる損失は、指数(ブースティング)、平均分散(ファイナンス)、リニアヒンジ(オンライン学習)、ReLU(深層学習)、および不安定(統計)損失を含む。
4つのラド損失に対して成立する十分な条件が提供され、その条件下では、見本に対する損失を正規化することは、等価なラド損失においてラドスを正則化することと等価であり、すなわち、ミンコフスキー和でデータを正規化することは、分類器のマージンにペナルティを課すことに等しい。これは、スパース制御正則化の状況下で当てはまり得るものであり、また、正式なブーストアルゴリズムは、一般的なリッジおよびラッソの選定を含めた正則化のために、正則化された指数ラド損失に対して提案される。差別的にプライベートなメカニズムは、代理正則化の一形態としてラドスの見本を保護するために適用され得、保護されたラドスを用いた学習は、保護された見本を用いた学習よりも著しくすぐれたものとなり得る。
1つの例は、凸損失の2人プレイゼロサムゲーム表現を使用するものであり、これは、1つの主要な違いを用いたブースティングアルゴリズムを分析するのに有用となり得、ペイオフは非線形凸であり、最終的には区別不能である。これらはまた、エントロピーの双対損失に似ているが、提案する方法はシンプレックスに対して共役を強制しないという違いがある。
例示的なゲームでは、学習器の敵は、学習する分類器のワーストピクチャをもたらす重みに適合する。学習者の戦略は次いで、このワーストケースの分布を仮定する分類器に適合することであり、これは次いで、データから分類器を学習するために使用され得る損失を生じさせる。ゲームの条件は、合計の重みがラドスに対して1でなければならないため、見本とラドスとでわずかに異なる。
見本に対する結果的な損失とラドスが等価となるための必要十分条件が与えられる。非公式には、ゲームの凸関数が対称関係を満たし、重みが線形連立方程式を満たす場合に、またその場合に限り等価性が生じる。
含まれる損失は、指数、ロジスティック、2乗、平均分散、ReLU、リニアヒンジ、および不安定損失(およびその他多数)を含む。
さらに、例示的な損失を正則化することが、ラド損失におけるラドスを正則化すること、すなわち、その要素が分類器に比例するシングルトンでラドセットのミンコフスキー和を作ることと等価となる等価性のための十分条件が提供される。この特性は、レギュラライザとは無関係である。たとえば、見本に対するリッジ回帰は、ラド損失のマージンに、等価的にペナルティを課す。等価性の4つのすべての例がこの十分条件を満たすことが分かる。
さらに、指数正規化ラド損失を使用して、リッジ(の一般化)および/またはラッソ正則化、ならびにL正則化を使用して、ラドスからの分類器に適合する効率的なブースティングアルゴリズムが提供される。正規化のこの最後のケースは、通常はスパース性の低減を促進するので、一般的ではない。
本発明者らの実験は、実際に、一般的なケースで単に節減を増すのではなく、モデルの節減を制御することが望ましいことを示している。理論的な観点から、これらの正則化のいずれについても、アルゴリズムは、通常の弱い学習仮定の下で、指数正規化ラド損失の指数関数的な迅速な収束を伴うブースティングアルゴリズムであることを、本発明者らは示している。したがって、正則化されたフレームワークにおける非常に速い収束のために、付加的な特定の仮定は必要ではない。ブースティングの鍵は、正則化されていない学習ケースと比較して、弱い学習者を修正することに依存していることを、この理論的な分析は明らかにしている。
さらに、ε差分プライバシーへの直接的な適用が提供され、ここで、この方法は見本を直接的に保護し、すべての後続のステージが同様に差分的にプライベートであることを認める。見本を保護する1つのメカニズムは、たとえば、ラプラス分布からサンプリングされたi.i.d.ランダムノイズベクトルを追加することにある。
ラドスにおけるこの保護メカニズムは、クリーンサンプルの損失の正則化の代理形式を意味し、さらに、ラドスに入れるノイズの量は、見本自体を保護するためにピッキングするものに釣り合い得ることを、本発明者らは理論的に示している。言い換えれば、ラドスのノルムは見本のノルムよりも大きくなり得るので(大きなドメインではさらに)、保護されたラドスから学習するときに、ノイズははるかに与えるダメージの小さいものとなり得、したがって、正確さをほとんど犠牲にすることなく、プライバシーの予算を小さく(たとえば、ε<10-4)することが可能となり得る。実験により、これが実際に起こることが示される。
ゲームおよび等価な見本/ラド損失
まず、本発明者らの一般的な2人プレイゲーム設定を定義および分析することから始める。表記の負担を避けるために、学習器がデータ(見本またはラドス)と分類器との両方に依存する一般的なベクトル
に適合する瞬間を考慮して、学習設定を直ちにプレイにはしないものとする。m>0に対して、[m]{1,2,...,m}およびΣm{−1,1}mとする。
および
を2つの凸および下半連続ジェネレータとする。関数
および
を定義する。
ここで、e,r>0はzに依存しない。表記を有意味にするために、qにおける座標は、2[m]による全単射にあると仮定される(wlog)。それぞれのジェネレータにおける両方の問題の依存性は暗黙的であり、文脈から明らかとなるはずである。敵の目標は、以下にフィットすることであり、
ただし、
であり、そのため、
が得られ、
および
はそれらの劣微分を表すとする。本発明者らは、学習器のタスクを、式(67)(見本による)もしくは(68)(ラドスによる)における対応する問題を最大化するか、または、本発明者らが損失関数と呼ぶ対応する問題を負に等価に最小化する問題と考えている。これらの2つの問題が学習器の立場からいつ等価になるかという問題は、以下の定義を動機付けるものである。
定義1:2つのジェネレータ
は、任意のm>0に対して、
となるようなe,rが存在する場合に、そしてその場合にのみ比例と呼び、ここで、bはzに依存しない。いかなる
に対しても、行列
は、m>1の場合、
のように定義し、その他の場合はG1[0 1]である(zd
におけるベクトルを表す)。Gmの各列は、ラドにおいて考慮されるエッジベクトルのためのバイナリインジケータベクトルであり、本発明者らは、一般性を失うことなく、これらが2[m]とq(*)(z)の座標との間の全単射に対応すると仮定している。
定理2:
は、式(65)および(66)に対する最適解p*(z)およびq*(z)が、次式を満たす場合に、そしてその場合に限り、比例する。
が微分可能である場合、それらは、p*(z)=Gm*(z)を満たす場合に、そしてその場合に限り、比例する。
定理2は、2つのジェネレータが比例するための必要十分条件を与える。これは、一方から他方をどのように構築するかを述べるものではない。ここで、探索空間をプルーニングし、
が、ある
に比例する場合、これは、以下の定義によれば、
の「対称化」バージョンでなければならない。
定義3:
となるものであるとする。
の対称化と呼ぶ。
補助定理4:
および
が比例する場合、
であり、ここでbは式(69)に現れるものである。
要約すると、
は、(i)
が(定理2に従って)
の対称化バージョンである(に比例する)という構造的特性を満たす場合、(ii)問題(63)および(64)に対する最適解p*(z)およびq*(z)が定理2の条件を満たす場合に、そしてその場合にのみ比例する。方向に応じて、本発明者らは、比例ジェネレータを作成する2つのケースを有する。第1に、
を有する場合、必然的に
であり、したがって、単純に定理2をチェックするだけでよい。第2に、
を有する場合、これは定義2に適合する。代替的に、
が許可される。この場合、
を発見せねばならず、ここで、g(z)=−g(1−z)および
である。
ここで、定義2で定義した
に戻り、見本とラド損失とを結びつける。次の定義では、e−loss le(z)はzの座標に対して定義される関数であり、r−loss lr(z)は、座標の和のサブセットに対して定義される関数である。関数は他のパラメータにも同様に依存し得る。
定義5:e−loss le(z)およびr−loss lr(z)が、(i) ともに真に増加する
が存在するような、そして、
に対して
となるようなものであると仮定する。
その場合、対(le,lr)は等価な見本−ラド損失の対と呼ばれる。
以後、
の代わりに、単に
と書く。
補助定理6:μe=μrである限りは、
に比例する。
系7:次の見本およびラド損失は、いかなる>0に対しても等価である。
補助定理8:μe=μr/2m-1である限りは、
に比例する。
系9:次の見本およびラド損失は、いかなる>0に対しても等価である。
ここで、
および
は、I⊆[m]に対する一様な重みに関するXの期待値および分散を表す。
ここで、微分不可能な比例ジェネレータの場合を調べるが、その第1は、自己比例
である。ΧA(z)はインジケータ関数を表すものとする。
A=[0,1]は凸であるので、上式も凸である。
補助定理10:
は自己比例する∀μe,μrである。
系11:次の見本およびラド損失は、いかなるμe,μrに対しても等価である。
補助定理12:
は、いかなるμe,μrに対しても、
に比例する。
系13:次の見本およびラド損失は、いかなるμe,μrに対しても等価である。
図14は、等価なラド損失の見本を有するテーブル1400を示す。ラド損失lr(z,μr)の名前は、それぞれ、指数(I)、平均分散(II)、ReLU(III)および不安定(IV)ラド損失である。本発明者らは略記
および
を使用している。パラメータaeが式(85)に現れる。列「μeおよびμr」は等価性が成立するための制約条件を与える。
(ラド)正則化損失を用いた学習
ここで学習設定について述べる。学習器は、見本S={(xi,yi),i=1,2,...,m}のセットを与えられ、ここで、
、yi∈Σ1(i=1,2,...,mに対し)である。これは所定のセットHから分類器
を返す。
とし、z(h)を
における対応するベクトルとして定義し、これを、対応する見本およびラド損失を得るためにテーブル1400の損失において利用する。損失は、ある
に対して、Hが線形分類器、
からなるとき、好都合にも簡潔化する。この場合、見本損失は、zi=θT(yi・xi)であるため、エッジベクトル
を用いて記述され得、ラド損失は、i∈I(および他の場合−yi)であり、
である場合に、そしてその場合に限り、σi=yiに対してΣi∈I i=θTπσであるので、Rademacher観測[?]を用いて記述され得る。
をすべてのRademacher観測のセットと定義することにする。等価性が成立するように前もって修正されると仮定して、パラメータμeおよびμrを省略して、等価な見本およびラド損失の任意のカップルをそれぞれle(Se,θ)および
として書き直す(テーブル1400を参照)。表記上の過度な負担を防ぐために、(ポイントワイズ)損失と(サンプルワイズ)リスクの概念を単に「損失」として混合する。
見本損失を正則化し、それによって、学習器の目標が、
を最小化することであり、ここで
はSeに依存しない正則化関数である。
見本はリッジ(
)およびラッソ(Ω∝||.||1)正則化を含む。
次の定理は、式(73)におけるfeが線形であるとき、Ωの任意の選択に対し、この正則化された見本損失に等価なラド損失が存在することを示す。
定理14:Hが線形分類器を含むとする。
を等価な見本ラド損失の任意のカップルであるとすると、式(73)におけるfeは、ある
に対して、
のように線形となる。その場合、任意のレギュラライザΩ(.)に対し、正則化見本損失le(Se,θ,Ω)は、正則化されたラドス
にわたって計算されたラド損失
と等価となる。ここで、
は、ミンコフスキー和であり、θ≠0(およびその他の場合は0)の場合、
ある。
定理14はテーブル1400におけるすべてのラド損失(I〜IV)に当てはまる。ラドスに対する正則化の効果は、マージンの観点からは直感的であり、「すぐれた」分類器θは、あるマージンしきい値τに対して下限付きの内積θTz≧τを保証するものである。次いで、正則化されたラドスに対するすぐれた分類器は実際には、正則化されていないラドスに対して、
を満たし、したがって、正則化によってマージンしきい値τを「叩く」。1つの重要な問題は、ラドスをサブサンプリングし、ある
からθを学習するときに、正則化ラド損失の最小化が正則化見本損失の最小化に影響を及ぼす様式である。
本発明者らは、ログ損失に対する回答をテーブル1400の行Iに示し、この目的で、|Sr|=nとし、>0のユーザを固定して、Srに対して計算されたΩ正則化指数見本ラド損失を定義する。
これはθ≠0のときに常に成立する(その他の場合、公式中のωに応じて因子を棄却する)。Ωはノルムであると仮定し、
は非正則化損失(式(88)でω=0)を表すとし、
はΩ正則化ログ損失を表すとする。
損失を正則化していることに留意されたい。オープンボール
および
を定義し、ここでΩ*はΩの双対ノルムである。
定理15:あるrθ>0に対し、Θ⊆B(0,rΘ)を仮定する。次式が成立するとする。
すると、mが十分に大きく、∀>0、である場合、ある定数u>0に対して≧umである限り、任意のθ∈Θが
を満たす、Srのサンプリングにわたって≧1の確率が存在する。
(ラド)正則化損失を用いたブースティング
図15は、式(88)における損失
を最小化するためにペナルティΩで正則化されたラドスで学習するための、プログラムメモリ404に記憶され、プロセッサ402によって実行されるプログラムコードに実装されるアルゴリズム1500を示している。このステートメントでは、パラメータのセットが、Ωに依存する弱い学習器に通信される。
分類器θは以下のように定義される。
ここで、1kはk番目の標準基底ベクトルである。フレームボックスはブースト[?]との違いを強調する。式(90)においてαtを計算するために使用される予想エッジrtは、次の基本割当てに基づく。
図16は、弱い学習器によるrtの計算を微調整するための、プログラムメモリ404に記憶され、プロセッサ402によって実行されるプログラムコードに実装されるアルゴリズム1600を示している。許可されたものから選定された正則化Ωに関係なく、アルゴリズム1500および1600のペアは、同じ基本的特性を維持し、アルゴリズム1500のステップ2.1においてアルゴリズム1600がどのようにl(t)をピッキングするかに関する標準的な弱い学習仮定の下で、図9のアルゴリズム900にほぼ匹敵する(指数における定数以下)アルゴリズム1500の正則化指数ラド損失の収束制限を得ることが可能であり、それによって、アルゴリズム1500が正則化のすべての選定に対して(高速な)ラドブースティングアルゴリズムであることが示される。
アルゴリズム1600におけるステップ1に関して、方向は示されておらず、これは、ブースティング理論における弱い学習器の定義と一致するものであり、弱い学習器に要求することは、弱い学習しきい値>0以上である
がすべてである。
しかしながら、弱い形式でも述べる、弱い学習器のためのオプションのステップが提供されており、これは、ある特徴が別の特徴よりも好まれる簡単なテストを提供するものであり、たとえば、弱い学習器が、同じr≧を有する特徴のセットにおいて、その特徴を選定しなければならない場合、この順序は不確定性を解決するのに役立ち得る。
定義16:任意の定数γWL∈(0,1)を固定する。アルゴリズム1600は、反復tにおいてピッキングする特徴ι(t)が任意のt=1,2,...,Tに対して|rι(t)|≧γWLを満たす場合に、そしてその場合に限り、γWLの弱い学習器であると言われる。
この弱い学習の定義は、ブースティングフレームワークで実行されるものと本質的に等価である。
ここで、ある固定された対称行列
に対し、
で開始して、アルゴリズム1600におけるΩのすべてのインスタンシエイションに対するアルゴリズム1500の収束性の証明を提供する。
とする。任意の0<a<1/5を固定し、Γおよび反復数Tは、次のように選定されたものであると仮定する。
ここで、λΓ>0はΓの最大固有値である。
すると、任意の固定された0<γWL<γに対し、アルゴリズム1600がγWL−Weak Learnerである場合に、Tブースティング反復の最後に、次式
を満たす分類器θTを返すようなγ>0(aに依存し、アルゴリズム1600に与えられる)が存在する。
さらに、a=1/7に固定すると、γ=0.98に固定し得、またa=1/10を考慮する場合、γ=0.999に固定し得る。
2つの所見を順に述べる。第1に、a=1/7,1/10の場合は、アルゴリズム1600が依然として式(96)で大きな強みを持ち得るため、「強固な」弱い学習器であっても、その強みを負わせることなく、アルゴリズム1600に適合し得る。
第2に、不等式(97)の右辺は、
がm2に比例し得ることを考慮する場合、非常に大きくなり得る。そのため、ωに対する制約は実際には非常に緩いものであり、またωは定理15の制約条件を容易に満たし得る。
ここで、Ω(.)∈{||||1,||.||}に対するアルゴリズム1500の収束性を証明する。
定理18:Ω(.)∈{||.||1,||.||}とする。任意のγWL>0を考え、アルゴリズム1600がγWLーWeak Learnerであると仮定する。任意のa<3/11を固定し、次のようにωが選定されたと仮定する。
すると、アルゴリズム1500は、Tブースティング反復の最後に、次式を満たす分類器θTを返す。
ここで、
であり、T*は反復数であり、ここで、Lノルムを計算する特徴が更新された。いくつかの特徴がこの基準に適合する場合、対応するT*のうちの最小のものが選定される。
ここで、定理15で示したように、見本に対するθTの正則化された対数損失を検討することができ、また、見本によって出力され、見本に対して計算される正則化対数損失θTは、m→∞のときτ(m)→0として、高確率
を満たし、κはTに依存しないことから、正則化のいかなる適用可能な選定に対しても、高い確率でTに伴う単調減少が保証されていることを示す。
正則化された損失および差分プライバシー
上記の説明は、一例では、単一の機密特徴の差別的プライベート(DP)保護を調べるものである。ここで、見本の完全な保護について調べる。
はラプラス分布の確率密度関数を表すものとする。
図17は、その座標がLap(z|.)に従う固定ベクトルzを各ラドに加えることによって、ラドスにおける見本を保護するための簡潔な様式を与える、アルゴリズム1700を示す。2つのトレーニングサンプルSeおよびS’eを、それらがある見本と異なる場合に、そしてその場合に限り、Se≒S’eとして記されるネイバーとして定義することにする。本発明者らは、どのようにしてアルゴリズム1700のラプラスメカニズムが低ノイズでε差分プライバシー(Srのラドスはランダムに一様にサンプリングされる)を与え得るか、さらに、保護されたラドスに対するラド損失の最小化が、クリーンな見本に対する等価な見本の正則化への楽観的制約の最小化に似ていることを示している。
任意の2つのエッジベクトル、e,e’が||e−e’||1≦reを満たすことを仮定しており、これは、たとえば、すべての見本が直径reのL1ボールに属する場合に保証される。
定理19:アルゴリズム1700はε差分プライバシーをもたらす。さらに、双対ノルムの任意のカップル(Ω,Ω’)を選び、
を仮定する。すると、∀θ、
およびzσがラドπσに関してステップ2.2でサンプリングされる。
一例では、アルゴリズム1600は、その順序における最上位の特徴を回収するために示唆された順序を使用する。したがって、弱い学習器は、|rl|−δlを最大にする特徴を返す。
に対して弱い学習器をクランプしなくてもよい。
提案するアルゴリズムは、合計T=1000回の反復にわたって実行され得、この反復の最後に、実験的損失を最小化するシーケンスの分類器が保持される。したがって、ラドベースの分類器は、ラドスを計算するトレーニングセット上で評価されることに留意されたい(等価的に、学習器は分類器のシーケンスをデータハンドラに送り、データハンドラは次いでそのトレーニングサンプルに従って最良のものを選択する)。
一例では、ラドスの数はn=100に固定される。プロセッサ402は、フルトレーニングフォールドからランダムに、トレーニングされたn=100の見本のサブセットをサンプリングし得る。これによって単にサンプルが小さすぎるがためにアルゴリズムを損なわれないことを確かにするために、プロセッサ402は、非常に大きな値のε(したがって、ほとんどノイズは存在しない)ごとにテストエラーをベースラインとして計算する。
指数正則化ラド損失を最小化するブースティングアルゴリズムが提供され、正則化は、構築されたモデルのスパース性のよりタイトな制御を介して結果をさらに改善するのに有益である。また、クリーン見本に対する等価な見本損失を正則化することに関連する、ラドスにおける見本の差分的にプライベートな保護のためのメカニズムが提供される。ラドスにおけるこの保護は、大きなドメインにおける正確性を危うくしない小さなプライバシー予算をピッキングすることを可能にし、このことは、保護された見本に対して学習するときには生じないものである。
一例では、上記のレギュラライザ機能はSLOPE正則化に基づいている。SLOPEは、Bogdan、M、van den Berg、E.、Sabatti、C.、Su、W.、およびCandeses、E.−J.などの「Sorted L−One Penalized Estimation」の略である。SLOPEとは、参照によって本明細書に組み込まれる、凸最適化による適応的変数選択、Annals of Applied Statistics,2015である。プロセッサ402は、θ、||θ||ΦのSLOPEノルムを次のように計算する。
・最初に、θ1≧θ2≧θ3≧・・・≧θdとなるようにθの座標を順序付ける。
・次いで以下を計算する。
ここで
である。
ここでΦ-1は、分位点としても知られる、標準正規分布の逆累積分布関数であり、すなわち、Φ-1(α)=z⇔PrX〜N(0,1)[X≦z]=αである。qは推測統計学における標準q値である。
したがって、θの最大座標は、最小の座標よりも大きなペナルティを課される。SLOPEの正則化は、誤検出率、すなわち、モデルに含まれる無関係な変数の割合を(すべての無関係な変数から)制御するのに役立ち得る。
ここで、Ω=||.||Φに対するアルゴリズム1500の収束性を証明する。
定理20:(SLOPEを用いたブースティング)Ω(.)=||.||Φとする。|θTk|≧|θT(k+1)|、∀kとし、ω=1を固定する。次のようにする。
(i)はある>0に対するWeak Learnerであり、(ii)q値は次式を満たすように選定されるとする。
すると、Tブースティング反復の最後に返された分類器θTは次式を満たす。
当業者であれば、特許請求の範囲で規定された範囲から逸脱することなく、多くの変形および/または修正が特定の実施形態になされ得ることが理解されよう。
本開示の技術は様々な技術を使用して実装され得ることを理解されたい。たとえば、本明細書に記載された方法は、適切なコンピュータ可読媒体上に存在する一連のコンピュータ実行可能命令によって実施され得る。適切なコンピュータ可読媒体には、揮発性(たとえば、RAM)および/または不揮発性(たとえば、ROM、ディスク)メモリ、搬送波および伝送媒体が含まれ得る。例示的な搬送波は、ローカルネットワークまたはインターネットなどの公開アクセス可能なネットワークを通じてデジタルデータストリームを搬送する電気、電磁気または光信号の形態を取り得る。
また、別段の明確な定めがない限り、以下の議論から明らかなように、説明の全体を通じて、「推定する」または「処理する」または「計算する」または「算出する」または「最適化する」または「決定する」または「表示する」または「最大化する」などの用語を利用する議論は、コンピュータシステムのレジスタおよびメモリ内で物理(電子的)量として表現されるデータを、コンピュータシステムのメモリもしくはレジスタ、または他のそのような情報記憶、送信もしくは表示デバイス内で物理量として同様に表現される他のデータへと処理および変換する、コンピュータシステムまたは類似の電子計算デバイスの動作および処理を指していることを理解されたい。
本実施形態は、したがって、すべての点で例示的であり、限定的ではないとみなされるべきである。 以下に、本願出願の当初の特許請求の範囲に記載された発明を付記する。
[1]
複数のデータサンプルから複数のトレーニングサンプルを決定するためのコンピュータ実装される方法であって、前記複数のデータサンプルの各々は1つまたは複数の特徴値とそのデータサンプルを分類するラベルとを備え、前記方法は、
前記複数のデータサンプルのサブセットをランダムに選択し、前記サブセットの前記データサンプルの各々の前記ラベルに基づいて、前記サブセットの前記データサンプルの前記特徴値を組み合わせることによって、前記複数のトレーニングサンプルの各々を決定することを備える方法。
[2] 前記複数のデータサンプルの前記サブセットをランダムに選択することは、前記複数のデータサンプルの各々に、そのデータサンプルを選択するためにゼロに等しくないランダム選択値を、またはそのデータサンプルを選択解除するためにゼロに等しいランダム選択値を乗算することを備える、[1]に記載の方法。
[3] 前記データサンプルの前記特徴値を組み合わせることは、前記トレーニングサンプルの特徴の前記特徴値が前記データサンプルのその特徴の前記特徴値の和となるように、前記データサンプルの前記特徴値の和を決定することを備える、[1]または[2]に記載の方法。
[4] 前記和を決定することは、前記データサンプルの各々の前記ラベルに基づいて重み付けされる加重和を決定することを備える、[3]に記載の方法。
[5] 前記和を決定することは、前記複数のデータサンプルの前記サブセット中のデータサンプルの数に基づいて重み付けされる加重和を決定することを備える、[3]または[4]に記載の方法。
[6] 前記加重和は、前記複数のデータサンプルの前記サブセットをランダムに選択することが前記特徴値を組み合わせることと同時に実施されるように、乱数に基づいて重み付けされる、[4]または[5]に記載の方法。
[7] 複数のデータサンプルのサブセットをランダムに選択することが、非一様分布に基づいて複数のデータサンプルのサブセットをランダムに選択することを備える、[1]〜[6]のいずれか一項に記載の方法。
[8] 前記データサンプルは符号付きの実数値を特徴値として有し、
前記ラベルは「−1」および「+1」のいずれかである、[1]〜[7]のいずれか一項に記載の方法。
[9] 前記複数のトレーニングサンプルの各々を決定することは、前記複数のトレーニングサンプルの各々が少なくとも所定数のデータサンプルに基づくように、前記複数のトレーニングサンプルの各々を決定することを備える、[1]〜[8]のいずれか一項に記載の方法。
[10] 前記複数のデータサンプルのサブセットをランダムに選択することは、少なくとも所定数のデータサンプルを備える前記複数のデータサンプルのサブセットをランダムに選択することを備える、[9]に記載の方法。
[11] 複数のトレーニングサンプルを決定するためのコンピュータ実装される方法であって、 [1]に従ってトレーニングサンプルを受信することと、
修正されたトレーニングサンプルを決定するために、前記トレーニングサンプルの各特徴値ごとにランダム値を決定し、その特徴値に前記ランダム値を加えることとを備える方法。
[12] コンピュータにインストールされると、[1]〜[11]のいずれか一項に記載の方法を前記コンピュータに実施させるソフトウェア。
[13] 複数のデータサンプルから複数のトレーニングサンプルを決定するためのコンピュータシステムであって、
前記複数のデータサンプルを受信する入力ポートと、前記複数のデータサンプルの各々は、1つまたは複数の特徴値およびそのデータサンプルを分類するラベルを備え、
前記複数のデータサンプルのサブセットをランダムに選択し、前記サブセットの前記データサンプルの各々の前記ラベルに基づいて、前記サブセットの前記データサンプルの前記特徴値を組み合わせることによって、前記複数のトレーニングサンプルの各々を決定するプロセッサとを備えるコンピュータシステム。
[14] 特徴インデックスに関係付けられる分類器係数を決定するためのコンピュータ実装される方法であって、
前記特徴インデックスに関係付けられる複数のトレーニング値を受信することと、各トレーニング値は、複数のデータラベルに基づいた複数のデータ値のサブセットの組合せに基づき、前記複数のデータラベルの各々は前記複数のデータ値のうちの1つと関係付けられ、
相関値が複数のデータ値の各々とそのデータ値に関係付けられる前記データラベルとの間の相関を示すように、前記複数のトレーニング値に基づいて前記相関値を決定することと、
前記相関値に基づいて前記分類器係数を決定することとを備える方法。
[15] 前記複数のトレーニング値の各々に対して、そのトレーニング値に関係付けられるトレーニング値重みを決定すること、ここにおいて、前記相関値を決定することは、前記複数のトレーニング値の各々に関係付けられる前記トレーニング値重みに基づく、をさらに備える、[14]に記載の方法。
[16] 前記相関値を決定することは、前記複数のトレーニング値の各々に関係付けられる前記トレーニング値重みによって重み付けされたトレーニング値の和を決定することを備える、[15]に記載の方法。
[17] 前記相関値を決定することは、
最大トレーニング値を決定することと、
前記和を前記最大トレーニング値で除算することとを備える、[16]に記載の方法。
[18] 前記トレーニング値の各々に関係付けられる前記トレーニング値重みを決定することは、前記相関値に基づいて、前記複数のトレーニング値の各々に関係付けられる前記トレーニング値重みを決定することを備える、[15]〜[17]のいずれか一項に記載の方法。
[19] 前記複数のトレーニング値のうちの1つに関係付けられる各トレーニング値重みを決定することは、
最大トレーニング値を決定することと、
前記最大トレーニング値に対する前記複数のトレーニング値のうちの前記1つの割合に基づいて、前記トレーニング値重みを決定することとを備える、[18]に記載の方法。
[20] 複数の分類器係数を決定するために前記方法の複数の繰り返しを実施すること、ここにおいて、各分類器係数は複数の特徴インデックスのうちの1つに関係付けられる、をさらに備える、[14]〜[19]のいずれか一項に記載の方法。
[21] 前記トレーニング値重みを決定することは、現在の繰り返しの正則化関数の第1の値と、以前の繰り返しの前記正則化関数の第2の値との差に基づいて、前記トレーニング値重みを決定することを備える、[20]に記載の方法。
[22] 前記正則化関数は、前記対応する繰り返しに関係付けられる前記複数の分類器係数に依存する、[21]に記載の方法。
[23] 前記トレーニング値重みを決定することは、指数を有する指数関数に基づいて、前記差を前記指数に加えることによって、前記トレーニング値重みを決定することを備える、[21]または[22]に記載の方法。
[24] 前記正則化関数は、
リッジ関数、
ラッソ関数、
正則化、および
SLOPE正則化のうちの1つまたは複数を備える、[21]〜[23]のいずれか一項に記載の方法。
[25] 複数の特徴インデックスの順序付けに基づいて前記特徴インデックスを選択すること、ここにおいて、前記順序付けは前記差に基づく、をさらに備える、[21]〜[24]のいずれか一項に記載の方法。
[26] 前記方法を繰り返すことは、前記複数のデータ値のコスト関数を最適化するために前記方法を繰り返すことを備える、[20]〜[25]のいずれか一項に記載の方法。
[27] テスト値を受信することと、
前記分類器係数に基づいて前記テスト値の分類を決定することとをさらに備える、[14]〜[26]のいずれか一項に記載の方法。
[28] コンピュータにインストールされると、[14]〜[27]のいずれか一項に記載の方法を前記コンピュータに実施させるソフトウェア。
[29] 特徴インデックスに関係付けられる分類器重みを決定するためのコンピュータシステムであって、
前記特徴インデックスに関係付けられる複数のトレーニング値を受信する入力ポートと、各トレーニング値は、複数のデータラベルに基づいた複数のデータ値のサブセットの組合せに基づき、前記複数のデータラベルの各々は前記複数のデータ値のうちの1つと関係付けられ、
前記相関値が前記複数のデータ値の各々とそのデータ値に関係付けられる前記データラベルとの間の相関を示すように、前記複数のトレーニング値に基づいて相関値を決定し、 前記相関値に基づいて前記分類器係数を決定するプロセッサとを備えるシステム。
[30] 機械学習システムをトレーニングするためのコンピュータ実装される方法であって、凸損失関数を最適化することを備え、前記凸損失関数は、[1]に記載の方法に従って決定されたトレーニングサンプルに基づく、方法。

Claims (30)

  1. 複数のデータサンプルから複数のトレーニングサンプルを決定するためのコンピュータ実装される方法であって、前記複数のデータサンプルの各々は1つまたは複数の特徴値とそのデータサンプルを分類するラベルとを備え、前記方法は、
    前記複数のデータサンプルのサブセットをランダムに選択し、前記トレーニングサンプルの特徴の前記特徴値が前記データサンプルのその特徴の前記特徴値の組み合わせとなるように、前記サブセットの前記データサンプルの各々の前記ラベルに基づいて、前記サブセットの前記データサンプルの前記特徴値を組み合わせることによって、前記複数のトレーニングサンプルの各々を決定することを備える方法。
  2. 前記複数のデータサンプルの前記サブセットをランダムに選択することは、前記複数のデータサンプルの各々に、そのデータサンプルを選択するためにゼロに等しくないランダム選択値を、またはそのデータサンプルを選択解除するためにゼロに等しいランダム選択値を乗算することを備える、請求項1に記載の方法。
  3. 前記データサンプルの前記特徴値を組み合わせることは、前記トレーニングサンプルの特徴の前記特徴値が前記データサンプルのその特徴の前記特徴値の和となるように、前記データサンプルの前記特徴値の和を決定することを備える、請求項1または2に記載の方法。
  4. 前記和を決定することは、前記データサンプルの各々の前記ラベルに基づいて重み付けされる加重和を決定することを備える、請求項3に記載の方法。
  5. 前記和を決定することは、前記複数のデータサンプルの前記サブセット中のデータサンプルの数に基づいて重み付けされる加重和を決定することを備える、請求項3または4に記載の方法。
  6. 前記加重和は、前記複数のデータサンプルの前記サブセットをランダムに選択することが前記特徴値を組み合わせることと同時に実施されるように、乱数に基づいて重み付けされる、請求項4または5に記載の方法。
  7. 複数のデータサンプルのサブセットをランダムに選択することが、非一様分布に基づいて複数のデータサンプルのサブセットをランダムに選択することを備える、請求項1〜6のいずれか一項に記載の方法。
  8. 前記データサンプルは符号付きの実数値を特徴値として有し、
    前記ラベルは「−1」および「+1」のいずれかである、請求項1〜7のいずれか一項に記載の方法。
  9. 前記複数のトレーニングサンプルの各々を決定することは、前記複数のトレーニングサンプルの各々が少なくとも所定数のデータサンプルに基づくように、前記複数のトレーニングサンプルの各々を決定することを備える、請求項1〜8のいずれか一項に記載の方法。
  10. 前記複数のデータサンプルのサブセットをランダムに選択することは、少なくとも所定数のデータサンプルを備える前記複数のデータサンプルのサブセットをランダムに選択することを備える、請求項9に記載の方法。
  11. 複数のトレーニングサンプルを決定するためのコンピュータ実装される方法であって、 請求項1に従ってトレーニングサンプルを受信することと、
    修正されたトレーニングサンプルを決定するために、前記トレーニングサンプルの各特徴値ごとにランダム値を決定し、その特徴値に前記ランダム値を加えることとを備える方法。
  12. コンピュータにインストールされると、請求項1〜11のいずれか一項に記載の方法を前記コンピュータに実施させるソフトウェア。
  13. 複数のデータサンプルから複数のトレーニングサンプルを決定するためのコンピュータシステムであって、
    前記複数のデータサンプルを受信する入力ポートと、前記複数のデータサンプルの各々は、1つまたは複数の特徴値およびそのデータサンプルを分類するラベルを備え、
    前記複数のデータサンプルのサブセットをランダムに選択し、前記トレーニングサンプルの特徴の前記特徴値が前記データサンプルのその特徴の前記特徴値の組み合わせとなるように、前記サブセットの前記データサンプルの各々の前記ラベルに基づいて、前記サブセットの前記データサンプルの前記特徴値を組み合わせることによって、前記複数のトレーニングサンプルの各々を決定するプロセッサとを備えるコンピュータシステム。
  14. 特徴インデックスに関係付けられる分類器係数を決定するためのコンピュータ実装される方法であって、
    前記特徴インデックスに関係付けられる複数のトレーニング値を受信することと、ここにおいて、
    前記複数のトレーニング値は複数のデータ値から決定され、
    前記複数のデータ値の各々は、データラベルと関連し、
    各トレーニング値は、各々のデータ値に関連した前記データラベルに基づいた前記複数のデータ値のサブセットの組合せに基づいており、
    相関値が複数のデータ値の各々とそのデータ値に関係付けられる前記データラベルとの間の相関を示すように、前記複数のトレーニング値に基づいて前記相関値を決定することと、
    前記相関値に基づいて前記分類器係数を決定することとを備える方法。
  15. 前記複数のトレーニング値の各々に対して、そのトレーニング値に関係付けられるトレーニング値重みを決定すること、ここにおいて、前記相関値を決定することは、前記複数のトレーニング値の各々に関係付けられる前記トレーニング値重みに基づく、をさらに備える、請求項14に記載の方法。
  16. 前記相関値を決定することは、前記複数のトレーニング値の各々に関係付けられる前記トレーニング値重みによって重み付けされたトレーニング値の和を決定することを備える、請求項15に記載の方法。
  17. 前記相関値を決定することは、
    最大トレーニング値を決定することと、
    前記和を前記最大トレーニング値で除算することとを備える、請求項16に記載の方法。
  18. 前記トレーニング値の各々に関係付けられる前記トレーニング値重みを決定することは、前記相関値に基づいて、前記複数のトレーニング値の各々に関係付けられる前記トレーニング値重みを決定することを備える、請求項15〜17のいずれか一項に記載の方法。
  19. 前記複数のトレーニング値のうちの1つに関係付けられる各トレーニング値重みを決定することは、
    最大トレーニング値を決定することと、
    前記最大トレーニング値に対する前記複数のトレーニング値のうちの1つの割合に基づいて、前記トレーニング値重みを決定することとを備える、請求項18に記載の方法。
  20. 複数の分類器係数を決定するために前記方法の複数の繰り返しを実施すること、ここにおいて、各分類器係数は複数の特徴インデックスのうちの1つに関係付けられる、をさらに備える、請求項14〜19のいずれか一項に記載の方法。
  21. 前記複数のトレーニング値の各々に対して、そのトレーニング値に関係付けられるトレーニング値重みを決定すること、ここにおいて、前記相関値を決定することは、前記複数のトレーニング値の各々に関係付けられる前記トレーニング値重みに基づく、をさらに備え、
    前記トレーニング値重みを決定することは、現在の繰り返しの正則化関数の第1の値と、以前の繰り返しの前記正則化関数の第2の値との差に基づいて、前記トレーニング値重みを決定することを備える、請求項20に記載の方法。
  22. 前記正則化関数は、前記対応する繰り返しに関係付けられる前記複数の分類器係数に依存する、請求項21に記載の方法。
  23. 前記トレーニング値重みを決定することは、指数を有する指数関数に基づいて、前記差を前記指数に加えることによって、前記トレーニング値重みを決定することを備える、請求項21または22に記載の方法。
  24. 前記正則化関数は、
    リッジ関数、
    ラッソ関数、
    正則化、および
    SLOPE正則化のうちの1つまたは複数を備える、請求項21〜23のいずれか一項に記載の方法。
  25. 複数の特徴インデックスの順序付けに基づいて前記特徴インデックスを選択すること、ここにおいて、前記順序付けは前記差に基づく、をさらに備える、請求項21〜24のいずれか一項に記載の方法。
  26. 前記方法を繰り返すことは、前記複数のデータ値のコスト関数を最適化するために前記方法を繰り返すことを備える、請求項20〜25のいずれか一項に記載の方法。
  27. テスト値を受信することと、
    前記分類器係数に基づいて前記テスト値の分類を決定することとをさらに備える、請求項14〜26のいずれか一項に記載の方法。
  28. コンピュータにインストールされると、請求項14〜27のいずれか一項に記載の方法を前記コンピュータに実施させるソフトウェア。
  29. 特徴インデックスに関係付けられる分類器重みを決定するためのコンピュータシステムであって、
    前記特徴インデックスに関係付けられる複数のトレーニング値を受信する入力ポートと、ここにおいて、
    前記複数のトレーニング値は複数のデータ値から決定され、
    前記複数のデータ値の各々は、データラベルと関連し、
    各トレーニング値は、各々のデータ値に関連した前記データラベルに基づいた前記複数のデータ値のサブセットの組合せに基づいており、
    相関値が前記複数のデータ値の各々とそのデータ値に関係付けられる前記データラベルとの間の相関を示すように、前記複数のトレーニング値に基づいて前記相関値を決定し、前記相関値に基づいて前記分類器重みを決定するプロセッサとを備えるシステム。
  30. 機械学習システムをトレーニングするためのコンピュータ実装される方法であって、凸損失関数を最適化することを備え、前記凸損失関数は、請求項1に記載の方法に従って決定されたトレーニングサンプルに基づく、方法。
JP2017522385A 2014-10-24 2015-10-23 変換されたデータを用いた学習 Active JP6789934B2 (ja)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
AU2014904261 2014-10-24
AU2014904261A AU2014904261A0 (en) 2014-10-24 Learning with transformed data
AU2015900308 2015-02-02
AU2015900308A AU2015900308A0 (en) 2015-02-02 Learning with transformed data
PCT/AU2015/050653 WO2016061628A1 (en) 2014-10-24 2015-10-23 Learning with transformed data

Publications (2)

Publication Number Publication Date
JP2017535857A JP2017535857A (ja) 2017-11-30
JP6789934B2 true JP6789934B2 (ja) 2020-11-25

Family

ID=55759954

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017522385A Active JP6789934B2 (ja) 2014-10-24 2015-10-23 変換されたデータを用いた学習

Country Status (6)

Country Link
US (1) US11521106B2 (ja)
EP (1) EP3210154A4 (ja)
JP (1) JP6789934B2 (ja)
AU (1) AU2015336942B2 (ja)
SG (1) SG11201703247WA (ja)
WO (1) WO2016061628A1 (ja)

Families Citing this family (37)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10805331B2 (en) 2010-09-24 2020-10-13 BitSight Technologies, Inc. Information technology security assessment system
US9438615B2 (en) 2013-09-09 2016-09-06 BitSight Technologies, Inc. Security risk management
US11182720B2 (en) 2016-02-16 2021-11-23 BitSight Technologies, Inc. Relationships among technology assets and services and the entities responsible for them
CN107292326A (zh) * 2016-03-31 2017-10-24 阿里巴巴集团控股有限公司 一种模型的训练方法和装置
US11106809B2 (en) * 2016-12-28 2021-08-31 Samsung Electronics Co., Ltd. Privacy-preserving transformation of continuous data
WO2018174873A1 (en) * 2017-03-22 2018-09-27 Visa International Service Association Privacy-preserving machine learning
US10425380B2 (en) 2017-06-22 2019-09-24 BitSight Technologies, Inc. Methods for mapping IP addresses and domains to organizations using user activity data
CN109214404A (zh) * 2017-07-07 2019-01-15 阿里巴巴集团控股有限公司 基于隐私保护的训练样本生成方法和装置
US11030324B2 (en) * 2017-11-30 2021-06-08 Koninklijke Philips N.V. Proactive resistance to re-identification of genomic data
US10198399B1 (en) * 2018-03-06 2019-02-05 KenSci Inc. Cryptographically secure machine learning
US10257219B1 (en) 2018-03-12 2019-04-09 BitSight Technologies, Inc. Correlated risk in cybersecurity
US10812520B2 (en) 2018-04-17 2020-10-20 BitSight Technologies, Inc. Systems and methods for external detection of misconfigured systems
CN110163366B (zh) * 2018-05-10 2022-08-26 腾讯科技(深圳)有限公司 深度学习前向预测的实现方法、装置和机器设备
US11537742B2 (en) * 2018-08-28 2022-12-27 Koninklijke Philips N.V. Sampling from a remote dataset with a private criterion
KR20200044173A (ko) 2018-10-05 2020-04-29 삼성전자주식회사 전자 장치 및 그의 제어 방법
US11200323B2 (en) 2018-10-17 2021-12-14 BitSight Technologies, Inc. Systems and methods for forecasting cybersecurity ratings based on event-rate scenarios
US10521583B1 (en) 2018-10-25 2019-12-31 BitSight Technologies, Inc. Systems and methods for remote detection of software through browser webinjects
CN109447461B (zh) * 2018-10-26 2022-05-03 北京三快在线科技有限公司 用户信用评估方法及装置、电子设备、存储介质
BR112021010468A2 (pt) * 2018-12-31 2021-08-24 Intel Corporation Sistemas de segurança que empregam inteligência artificial
CN111506617B (zh) * 2019-01-31 2023-10-20 华为技术有限公司 一种基于用户数据生成标签的方法及装置
US11281999B2 (en) * 2019-05-14 2022-03-22 International Business Machines Corporation Armonk, New York Predictive accuracy of classifiers using balanced training sets
US11468148B2 (en) 2019-06-29 2022-10-11 Wipro Limited Method and system for data sampling using artificial neural network (ANN) model
US10726136B1 (en) * 2019-07-17 2020-07-28 BitSight Technologies, Inc. Systems and methods for generating security improvement plans for entities
US11755884B2 (en) 2019-08-20 2023-09-12 Micron Technology, Inc. Distributed machine learning with privacy protection
US11636334B2 (en) * 2019-08-20 2023-04-25 Micron Technology, Inc. Machine learning with feature obfuscation
US11956265B2 (en) 2019-08-23 2024-04-09 BitSight Technologies, Inc. Systems and methods for inferring entity relationships via network communications of users or user devices
US11443240B2 (en) * 2019-09-06 2022-09-13 Oracle International Corporation Privacy preserving collaborative learning with domain adaptation
US10848382B1 (en) 2019-09-26 2020-11-24 BitSight Technologies, Inc. Systems and methods for network asset discovery and association thereof with entities
US11032244B2 (en) 2019-09-30 2021-06-08 BitSight Technologies, Inc. Systems and methods for determining asset importance in security risk management
US10791140B1 (en) 2020-01-29 2020-09-29 BitSight Technologies, Inc. Systems and methods for assessing cybersecurity state of entities based on computer network characterization
US10893067B1 (en) 2020-01-31 2021-01-12 BitSight Technologies, Inc. Systems and methods for rapidly generating security ratings
US10764298B1 (en) 2020-02-26 2020-09-01 BitSight Technologies, Inc. Systems and methods for improving a security profile of an entity based on peer security profiles
US20210304039A1 (en) * 2020-03-24 2021-09-30 Hitachi, Ltd. Method for calculating the importance of features in iterative multi-label models to improve explainability
CN111523668B (zh) * 2020-05-06 2021-08-20 支付宝(杭州)信息技术有限公司 基于差分隐私的数据生成***的训练方法及装置
US11023585B1 (en) 2020-05-27 2021-06-01 BitSight Technologies, Inc. Systems and methods for managing cybersecurity alerts
CN113836345A (zh) * 2020-06-23 2021-12-24 索尼公司 信息处理设备、信息处理方法以及计算机可读存储介质
US11122073B1 (en) 2020-12-11 2021-09-14 BitSight Technologies, Inc. Systems and methods for cybersecurity risk mitigation and management

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6789069B1 (en) * 1998-05-01 2004-09-07 Biowulf Technologies Llc Method for enhancing knowledge discovered from biological data using a learning machine
US7382286B2 (en) 2003-06-09 2008-06-03 Megadata Corp. System and method for the correlation of multiple data feeds
US7720675B2 (en) * 2003-10-27 2010-05-18 Educational Testing Service Method and system for determining text coherence
US7698250B2 (en) 2005-12-16 2010-04-13 Microsoft Corporation Differential data privacy
US7818335B2 (en) 2005-12-22 2010-10-19 Microsoft Corporation Selective privacy guarantees
US20070239444A1 (en) * 2006-03-29 2007-10-11 Motorola, Inc. Voice signal perturbation for speech recognition
US7668790B2 (en) * 2006-07-27 2010-02-23 The United States Of America As Represented By The Secretary Of The Navy System and method for fusing data from different information sources with shared-sampling distribution based boosting
US20080288292A1 (en) 2007-05-15 2008-11-20 Siemens Medical Solutions Usa, Inc. System and Method for Large Scale Code Classification for Medical Patient Records
US7827123B1 (en) 2007-08-16 2010-11-02 Google Inc. Graph based sampling
US8140502B2 (en) * 2008-06-27 2012-03-20 Microsoft Corporation Preserving individual information privacy by providing anonymized customer data
US8862614B2 (en) * 2010-08-05 2014-10-14 Carnegie Mellon University Planning-based automated fusing of data from multiple heterogeneous sources
US8972307B1 (en) * 2011-09-15 2015-03-03 Google Inc. Method and apparatus for machine learning
US9501749B1 (en) * 2012-03-14 2016-11-22 The Mathworks, Inc. Classification and non-parametric regression framework with reduction of trained models
US8837820B2 (en) * 2012-05-25 2014-09-16 Xerox Corporation Image selection based on photographic style
US9093069B2 (en) * 2012-11-05 2015-07-28 Nuance Communications, Inc. Privacy-sensitive speech model creation via aggregation of multiple user models
CN102968796A (zh) 2012-11-30 2013-03-13 西安电子科技大学 基于采样学习的sar图像分割方法
WO2014118978A1 (ja) 2013-02-01 2014-08-07 富士通株式会社 学習方法、情報処理装置および学習プログラム
US9245191B2 (en) * 2013-09-05 2016-01-26 Ebay, Inc. System and method for scene text recognition
US20150278707A1 (en) * 2014-03-31 2015-10-01 International Business Machines Corporation Predictive space aggregated regression
US9639807B2 (en) * 2014-06-10 2017-05-02 Jose Oriol Lopez Berengueres Method and system for forecasting future events

Also Published As

Publication number Publication date
US20170337487A1 (en) 2017-11-23
SG11201703247WA (en) 2017-05-30
US11521106B2 (en) 2022-12-06
AU2015336942B2 (en) 2018-02-01
EP3210154A1 (en) 2017-08-30
EP3210154A4 (en) 2018-08-01
WO2016061628A1 (en) 2016-04-28
JP2017535857A (ja) 2017-11-30
AU2015336942A1 (en) 2017-05-18

Similar Documents

Publication Publication Date Title
JP6789934B2 (ja) 変換されたデータを用いた学習
US20210042645A1 (en) Tensor Exchange for Federated Cloud Learning
El Emam et al. Practical synthetic data generation: balancing privacy and the broad availability of data
Lamont et al. Identification of predicted individual treatment effects in randomized clinical trials
Yang et al. Modeling interdependent consumer preferences
US11468471B2 (en) Audience expansion according to user behaviors
US20150154646A1 (en) Storage, retrieval, analysis, pricing, and marketing of personal health care data using social networks, expert networks, and markets
WO2020053854A1 (en) Systems and methods for secure prediction using an encrypted query executed based on encrypted data
Dittrich et al. Network autocorrelation modeling: A Bayes factor approach for testing (multiple) precise and interval hypotheses
Corcoran Divine exchanges: Applying social exchange theory to religious behavior
Eckles et al. Bootstrap thompson sampling and sequential decision problems in the behavioral sciences
US20150347926A1 (en) Fast Naive Bayesian Framework with Active-Feature Ordering
Anand et al. Using deep learning to overcome privacy and scalability issues in customer data transfer
Caille et al. A comparison of imputation strategies in cluster randomized trials with missing binary outcomes
Negeri et al. Robust bivariate random-effects model for accommodating outlying and influential studies in meta-analysis of diagnostic test accuracy studies
Conlon et al. Surrogacy assessment using principal stratification and a Gaussian copula model
Limon et al. Reliability estimation considering usage rate profile and warranty claims
Yang et al. A fully Bayesian approach to sparse reduced-rank multivariate regression
Sengupta et al. Simple surveys: Response retrieval inspired by recommendation systems
Gallacher et al. Extrapolating parametric survival models in health technology assessment using model averaging: a simulation study
Urkup et al. Customer mobility signatures and financial indicators as predictors in product recommendation
US11301879B2 (en) Systems and methods for quantifying customer engagement
Quintero et al. Estimation for finite mixture of simplex models: applications to biomedical data
Thekkat et al. Luxury shopping websites: The impact of ‘hygiene’design factors on trust and distrust
Tekwe et al. Generalized multiple indicators, multiple causes measurement error models

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20181017

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20190927

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20191008

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200108

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200623

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200923

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20201006

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20201104

R150 Certificate of patent or registration of utility model

Ref document number: 6789934

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250