JP2023548915A - 深層顔認識のためのメタ学習を用いたドメイン一般化マージン - Google Patents
深層顔認識のためのメタ学習を用いたドメイン一般化マージン Download PDFInfo
- Publication number
- JP2023548915A JP2023548915A JP2023528160A JP2023528160A JP2023548915A JP 2023548915 A JP2023548915 A JP 2023548915A JP 2023528160 A JP2023528160 A JP 2023528160A JP 2023528160 A JP2023528160 A JP 2023528160A JP 2023548915 A JP2023548915 A JP 2023548915A
- Authority
- JP
- Japan
- Prior art keywords
- training
- batch
- samples
- sample
- training batch
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012549 training Methods 0.000 claims abstract description 147
- 238000000034 method Methods 0.000 claims abstract description 53
- 238000010200 validation analysis Methods 0.000 claims abstract description 37
- 238000012545 processing Methods 0.000 claims description 24
- 230000001815 facial effect Effects 0.000 claims description 20
- 238000004590 computer program Methods 0.000 claims description 17
- 238000003860 storage Methods 0.000 claims description 17
- 238000010586 diagram Methods 0.000 abstract description 24
- 238000012546 transfer Methods 0.000 abstract description 3
- 230000015654 memory Effects 0.000 description 23
- 238000009826 distribution Methods 0.000 description 19
- 230000006870 function Effects 0.000 description 13
- 238000004891 communication Methods 0.000 description 9
- 238000005070 sampling Methods 0.000 description 9
- 238000011161 development Methods 0.000 description 6
- 238000004422 calculation algorithm Methods 0.000 description 5
- 238000013500 data storage Methods 0.000 description 5
- 238000005065 mining Methods 0.000 description 5
- 230000002093 peripheral effect Effects 0.000 description 5
- 230000005540 biological transmission Effects 0.000 description 4
- 239000000654 additive Substances 0.000 description 3
- 230000000996 additive effect Effects 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 3
- 230000014509 gene expression Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 230000006978 adaptation Effects 0.000 description 2
- 238000003491 array Methods 0.000 description 2
- 230000000295 complement effect Effects 0.000 description 2
- 239000000835 fiber Substances 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000001902 propagating effect Effects 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- RYGMFSIKBFXOCR-UHFFFAOYSA-N Copper Chemical compound [Cu] RYGMFSIKBFXOCR-UHFFFAOYSA-N 0.000 description 1
- 241000699670 Mus sp. Species 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 229910052802 copper Inorganic materials 0.000 description 1
- 239000010949 copper Substances 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000009472 formulation Methods 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000003825 pressing Methods 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
- 238000009827 uniform distribution Methods 0.000 description 1
- 230000004580 weight loss Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/172—Classification, e.g. identification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/217—Validation; Performance evaluation; Active pattern learning techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computing Systems (AREA)
- Multimedia (AREA)
- Evolutionary Biology (AREA)
- Mathematical Physics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Medical Informatics (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- Databases & Information Systems (AREA)
- Image Analysis (AREA)
Abstract
深層顔認識のためのモデルを訓練する方法であって、顔認識モデルw(t)を形成するためにサンプルの訓練バッチにフォワード訓練を実行し、メタ学習器に基づき訓練バッチのサンプルの重みを計算し、訓練バッチのモデルの重みに関する訓練バッチの勾配を取得し、訓練バッチの勾配を用いて顔認識モデルw(t)を顔認識モデルwhat(t)に更新し、サンプルの検証バッチを顔認識モデルwhat(t)に転送し、メタ学習器シータ(t)に対する検証バッチの勾配を取得し、検証バッチの勾配及び顔認識モデルwhat(t)を用いて訓練バッチにおけるサンプルのサンプルレベルの重要度の重みを更新し、更新されたサンプルレベルの重要度の重みに基づいて訓練バッチのアップグレードされた勾配を取得し、訓練バッチのアップグレードされた勾配を用いて、顔認識モデルw(t)を次の繰り返しに対応する訓練されたモデルw(t+1)に更新する。【選択図】図6
Description
この出願は、2021年11月8日に出願された米国特許出願第17/521,252号、2020年11月10日に出願された米国仮特許出願第63/111,658号及び2020年11月16日に出願された米国仮特許出願第63/114,014号を基礎とする優先権を主張し、これらの開示の全てをここに取り込む。
本発明は、顔認識に関し、より詳細には、深層顔認識のためのメタ学習を用いたドメイン一般化マージンに関する。
深層顔認識は、いくつかの方法が公のベンチマークで強力な結果を達成することで目覚ましい進歩を遂げた。但し、訓練データの分布には依然として偏りがあり、データが均一なサンプリングで訓練された方法は、特定のファクタ(オクルージョン等)に伴う精度の低下や、モデルの不公平さの認知(少数民族に対するもの等)等の望ましくない結果につながる可能性がある。
多種多様なバリエーションを十分にカバーする訓練データを収集することは現実的ではないため、バリエーションの複数のファクタに伴うデータセットの偏りをアルゴリズム的に緩和する訓練方法を開発する必要性が差し迫っている。
本発明の態様によれば、深層顔認識のためのモデルを訓練するためのコンピュータで実施する方法が提供される。本方法は、顔認識モデルw(t)を形成するために、サンプルの訓練バッチでフォワード訓練を実行することを含む。さらに、本方法は、メタ学習器に基づいて訓練バッチのサンプルの重みを計算することを含む。また、本法は、プロセッサ装置により、訓練バッチのモデルの重みに関する訓練バッチの勾配を取得し、訓練バッチの勾配を用いて顔認識モデルw(t)を顔認識モデルwhat(t)に更新することを含む。さらに、本方法は、サンプルの検証バッチを顔認識モデルwhat(t)に転送することを含む。加えて、本方法は、プロセッサ装置により、メタ学習器シータ(t)に関する検証バッチの勾配を取得し、検証バッチの勾配及び前記顔認識モデルwhat(t)を用いて、サンプルの更新されたサンプルレベルの重要度の重みを取得するために、訓練バッチにおけるサンプルのサンプルレベルの重要度の重みを更新することを含む。さらに、さらに、本方法は、プロセッサ装置により、訓練バッチにおけるサンプルの更新されたサンプルレベルの重要度の重みに基づいて訓練バッチのアップグレードされた勾配を取得し、訓練バッチの前記アップグレードされた勾配を用いて、顔認識モデルw(t)を次の繰り返しに対応する訓練されたモデルw(t+1)に更新することを含む。
本発明の他の態様によれば、深層顔認識のためのモデルを訓練するためのコンピュータプログラム製品が提供される。コンピュータプログラム製品は、プログラム命令が包含される、非一時的なコンピュータで読み取り可能な記録媒体を含む。プログラム命令は、コンピュータに方法を実行させるためにコンピュータによって実行可能である。本方法は、顔認識モデルw(t)を形成するために、サンプルの訓練バッチでフォワード訓練を実行することを含む。さらに、本方法は、メタ学習器に基づいて訓練バッチのサンプルの重みを計算することを含む。また、本方法は、プロセッサ装置により、訓練バッチのモデルの重みに関する訓練バッチの勾配を取得し、訓練バッチの勾配を用いて顔認識モデルw(t)を顔認識モデルwhat(t)に更新することを含む。さらに、本方法は、サンプルの検証バッチを顔認識モデルwhat(t)に転送することを含む。加えて、本方法は、プロセッサ装置により、メタ学習器シータ(t)に関する検証バッチの勾配を取得し、検証バッチの勾配及び前記顔認識モデルwhat(t)を用いて、サンプルの更新されたサンプルレベルの重要度の重みを取得するために、訓練バッチにおけるサンプルのサンプルレベルの重要度の重みを更新することを含む。さらに、本方法は、プロセッサ装置により、訓練バッチにおけるサンプルの更新されたサンプルレベルの重要度の重みに基づいて訓練バッチのアップグレードされた勾配を取得し、訓練バッチの前記アップグレードされた勾配を用いて、顔認識モデルw(t)を次の繰り返しに対応する訓練されたモデルw(t+1)に更新することを含む。
本発明のさらに他の態様によれば、深層顔認識のためのモデルを訓練するためのコンピュータ処理システムが提供される。コンピュータ処理システムは、プログラムコードを格納するためのメモリ装置を含む。コンピュータ処理システムは、顔認識モデルw(t)を形成するために、サンプルの訓練バッチでフォワード訓練を実行する、プログラムコードを実行するためのメモリ装置に動作可能に接続されたプロセッサ装置をさらに含む。さらに、プロセッサ装置は、プログラムコードを実行して、メタ学習器に基づいて訓練バッチのサンプルの重みを計算する。また、プロセッサ装置は、プログラムコードを実行して、訓練バッチのモデルの重みに関する訓練バッチの勾配を取得し、訓練バッチの勾配を用いて顔認識モデルw(t)を顔認識モデルwhat(t)に更新する。さらに、プロセッサ装置は、プログラムコードを実行して、サンプルの検証バッチを顔認識モデルwhat(t)に転送する。加えて、プロセッサ装置は、プログラムコードを実行して、メタ学習器シータ(t)に関する検証バッチの勾配を取得し、検証バッチの勾配及び前記顔認識モデルwhat(t)を用いて、サンプルの更新されたサンプルレベルの重要度の重みを取得するために、訓練バッチにおけるサンプルのサンプルレベルの重要度の重みを更新する。また、プロセッサ装置は、プログラムコードを実行して、訓練バッチにおけるサンプルの更新されたサンプルレベルの重要度の重みに基づいて訓練バッチのアップグレードされた勾配を取得し、訓練バッチの前記アップグレードされた勾配を用いて、顔認識モデルw(t)を次の繰り返しに対応する訓練されたモデルw(t+1)に更新する。
これら及び他の特徴並びに利点は、以下の典型的な実施形態の詳細な説明を添付の図面と併せて読むことで明らかになるであろう。
本開示では、後述するように、以下の図面を参照しながら好ましい実施形態について詳細に説明する。
本発明の実施形態は、深層顔認識のためのメタ学習を用いたドメイン一般化マージンを対象とする。用語「マージン」と同じ「サンプルレベルの重要度」の様々な形式とは、本明細書では置き換え可能に使用される。「インスタンス」及び「サンプル」という用語も、本明細書では置き換え可能に使用される。
本発明の実施形態は、データの不均衡の複数のファクタ、例えば量、民族、オクルージョン及び頭部姿勢等を統一されたフレームワークで同時に克服する訓練方法を提供する。これは、クラスの再重み付け戦略を使用し、量の不均衡のみを処理するこれまでの作業からの進歩を示す。
本発明の実施形態では、バリエーションの各ロングテールファクタを重要度のモデリングに定式化する、インスタンスレベルのバリエーション認識損失(ILVA:variation-aware loss)が提供される。次に、剰余を伴う事前の重要度の加法的モデルを提案する。ここで、剰余は、提供されたメタ訓練セットの下でメタ学習を用いて学習される。最後に、学習された複数の重要度が組み合わされて、いくつかのバリエーションのファクタにわたって訓練データの分布のバランスが再調整される。
図1は、本発明の一実施形態による、例示的なコンピューティング装置100を示すブロック図である。コンピューティング装置100は、深層顔認識のためのメタ学習を介してドメイン一般化マージンを提供するように構成されている。
コンピューティング装置100は、コンピュータ、サーバ、ラックベースのサーバ、ブレードサーバ、ワークステーション、デスクトップコンピュータ、ラップトップコンピュータ、ノートブックコンピュータ、タブレットコンピュータ、モバイルコンピューティング装置、ウェアラブルコンピューティング装置、ネットワークアプライアンス、Webアプライアンス、分散コンピューティングシステム、プロセッサベースのシステム及び/または家庭用電化製品を含むがこれらに限定されない、本明細書に記載された機能を実行できる任意のタイプの計算装置またはコンピュータ装置が包含される。追加または代替として、コンピューティング装置100は、1つまたは複数の計算スレッド、メモリスレッドまたは他のラック、スレッド、コンピューティングシャーシ、あるいは物理的に分散されたコンピューティング装置の他のコンポーネントを包含してもよい。図1で示すように、コンピューティング装置100は、プロセッサ110、入出力サブシステム120、メモリ130、データ記憶装置140、通信サブシステム150及び/またはサーバまたは同様の計算で一般的に見られる他のコンポーネント及び装置を例示的に含む。もちろん、コンピューティング装置100は、他の実施形態において、サーバコンピュータに一般的に見られるコンポーネント(例えば、様々な入力/出力装置)等、他のコンポーネントまたは追加のコンポーネントを含んでいてもよい。さらに、いくつかの実施形態において、例示的な構成要素のうちの1つまたは複数を、別の構成要素に組み込む、または別の構成要素の一部を形成してもよい。例えば、メモリ130またはその一部は、いくつかの実施形態において、プロセッサ110に組み込まれていてもよい。
プロセッサ110は、本明細書に記載の機能を実現できる任意のタイプのプロセッサを包含してもよい。プロセッサ110は、単一のプロセッサ、複数のプロセッサ、中央処理装置(CPU)、グラフィックス処理装置(GPU)、シングルまたはマルチコアプロセッサ、デジタル信号プロセッサ、マイクロコントローラまたは他のプロセッサまたは処理/制御回路を包含してもよい。
メモリ130は、本明細書に記載の機能を実行できる任意のタイプの揮発性または不揮発性メモリまたはデータ記憶装置を包含してもよい。動作中、メモリ130は、オペレーティングシステム、アプリケーション、プログラム、ライブラリ及びドライバ等、コンピューティング装置100の動作中に使用される様々なデータ及びソフトウェアを格納できる。メモリ130は、I/Oサブシステム120を介してプロセッサ110に通信可能に接続され、これはプロセッサ110、メモリ130及びコンピューティング装置100の他のコンポーネントとの入出力動作を容易にする回路及び/またはコンポーネントが包含される。例えば、I/Oサブシステム120は、メモリコントローラハブ、入力/出力制御ハブ、プラットフォームコントローラハブ、統合制御回路、ファームウェア装置、通信リンク(例えば、ポイントツーポイントリンク、バスリンク、ワイヤ、ケーブル、ライトガイド、プリント回路基板トレース等)及び/または入出力操作を容易にするその他のコンポーネント及びサブシステムで具現化されてもよく、あるいは含んでいてもよい。いくつかの実施形態において、I/Oサブシステム120は、システムオンチップ(SOC)の一部を形成してもよく、プロセッサ110、メモリ130及びコンピューティング装置100の他の構成要素と共に、単一の集積回路チップに組み込まれていてもよい。
データ記憶装置140は、例えば、メモリ装置及び回路、メモリカード、ハードディスクドライブ、ソリッドステートドライブまたはその他のデータ記憶装置等、データの短期または長期の記憶のために構成された任意のタイプの装置または複数の装置で具現化できる。データ記憶装置140は、深層顔認識のためのメタ学習を用いたドメイン一般化マージンを提供するためのプログラムコードを格納できる。コンピューティング装置100の通信サブシステム150は、ネットワークを介してコンピューティング装置100と他のリモート装置との間の通信を可能にする、任意のネットワークインタフェースコントローラまたは他の通信回路、装置、あるいはそれらの集合が包含される。通信サブシステム150は、任意の1つまたは複数の通信技術(例えば、有線または無線通信)及び関連するプロトコル(例えば、イーサネット、InfiniBand(登録商標)、Bluetooth(登録商標)、Wi-Fi(登録商標)、WiMAXなど)を用いて、そのような通信を行うように構成される。
示されるように、コンピューティング装置100は、1つまたは複数の周辺装置160を含んでいてもよい。周辺装置160は、任意の数の追加の入力/出力装置、インタフェース装置及び/または他の周辺装置を含んでいてもよい。例えば、いくつかの実施形態において、周辺装置160は、ディスプレイ、タッチスクリーン、グラフィック回路、キーボード、マウス、スピーカシステム、マイクロフォン、ネットワークインタフェース及び/または他の入出力装置、インタフェース装置、ビデオキャプチャ装置及び/または周辺機器を含んでいてもよい。
もちろん、コンピューティング装置100は、当業者であれば容易に思いつくような他の要素(図示せず)を含むことも、特定の要素を省略することもできる。例えば、当業者には容易に理解されるように、特定の実施に応じて、様々な他のセンサ、入力装置及び/または出力装置をコンピューティング装置100に含んでいてもよい。例えば、様々なタイプの無線及び/または有線入力装置及び/または出力装置を利用できる。さらに、様々な構成の追加のプロセッサ、コントローラ、メモリ等を利用することもできる。処理システム100のこれら及び他の変形例は、本明細書で提供される本発明の教示を考慮すれば、当業者に容易に考えられる。
本明細書で用いる「ハードウェアプロセッササブシステム」または「ハードウェアプロセッサ」という用語は、1つ以上の特定のタスクを実行するために協働するプロセッサ、メモリ、ソフトウェアまたはそれらの組み合わせを指す。有用な実施形態において、ハードウェアプロセッササブシステムは、1つまたは複数のデータ処理要素(例えば、論理回路、処理回路、命令実行装置等)を含んでいてもよい。1つまたは複数のデータ処理要素は、中央処理装置、グラフィックス処理装置及び/または個別のプロセッサまたはコンピューティング要素ベースのコントローラ(例えば、論理ゲート等)を含んでいてもよい。ハードウェアプロセッササブシステムは、1つ以上のオンボードメモリ(例えば、キャッシュ、専用メモリアレイ、読み出し専用メモリ等)を含んでいてもよい。任意の実施形態において、ハードウェアプロセッササブシステムは、オンボードまたはオフボードとしてもよく、またはハードウェアプロセッササブシステム(例えば、ROM、RAM、基本入出力システム(BIOS)等)で用いるための専用の1つ以上のメモリを含んでいてもよい。
いくつかの実施形態において、ハードウェアプロセッササブシステムは、1つまたは複数のソフトウェア要素を含み、実行してもよい。1つまたは複数のソフトウェア要素は、オペレーティングシステム及び/または1つまたは複数のアプリケーション及び/または特定の結果を達成するための特定のコードを含んでいてもよい。
他の実施形態において、ハードウェアプロセッササブシステムは、指定された結果を達成するために1つまたは複数の電子処理機能を実行する専用回路を含んでいてもよい。そのような回路は、1つまたは複数の特定用途向け集積回路(ASIC)、フィールドプログラマブルゲートアレイ(FPGA)及び/またはプログラマブルロジックアレイ(PLA)を含んでいてもよい。
ハードウェアプロセッササブシステムのこれら及び他の変形例もまた本発明の実施形態によって考えられる。
図2は、本発明の一実施形態による、例示的なフレームワーク200を示すブロック図である。このフレームワークは、訓練バッチT211を有する訓練セット210、サンプルマイニングプロセス215、検証セット220、検証バッチV221、共有バックボーン230、重要度のマージン240、メタ学習器250、マルチバリエーションマージン260及びIVLA損失270を含む。これらの要素は本明細書の以下でさらに詳細に説明される。
図3は、本発明の一実施形態による、深層顔認識システム/方法300を示す高レベルのブロック図である。
システム/方法300は、顔認識エンジン訓練ブロック310、損失計算ブロック320、検証セット330、重要度の重み付けメタ学習ブロック340、メタ訓練更新ブロック350及び顔認識エンジン更新ブロック360を含む。
認識エンジン訓練ブロック310は、ResNet-101ベースのバックボーンを使用し、サイズ100x100x3のトリミングされた顔画像を入力として受け取る。
損失計算ブロック320は、認識エンジンブロックからの出力である特徴ベクトルを入力として取り、該特徴をアイデンティティ関連ロジットに処理し、損失に関するグランドトゥルースのアイデンティティラベルに対してペナルティを課す。
検証セット330は、メタ学習段階を実施するために独立して選択される。
重要度の重み付けメタ学習340は、現在の訓練セットバッチで最大の補完分布情報を有する検証セット330からサンプルを選択するためにバリエーション損失にペナルティを課すことで、モデルに依存しないメタ学習フレームワークであり、よりバランスの取れた訓練分布に改良する。
メタ訓練更新ブロック350は、新たにフィードバックされた検証データを用いて、現在の訓練バッチの重要度の重みを更新する。
認識エンジン更新ブロック360。更新された新たな重要度の重みに基づいて損失計算320を再度実行し、この典型的な更新の繰り返しを終了するように認識エンジンの重みを更新する。
ここで、訓練データを増大するために、3つの典型的な拡張可能なバリエーション、すなわち、ぼけ、オクルージョン及び頭部姿勢が導入する。もちろん、本発明の意図を維持しつつ、他の変形例を使用してもよい。
以下では、ハード事例から学習するために、信頼性を意識した識別損失が導入される。これは、その後、独立した信頼性を有するサブ埋め込みに特徴ベクトルを分割することでさらに拡張される。その後、導入された拡張可能なバリエーションが適用され、特徴の埋め込みがさらに非相関化される。より良い非相関化のために、より多くのバリエーションを探索する、拡張不能なバリエーションの発見が提案される。最後に、推論のために、不確実性に基づくペアワイズなメトリックが提案される。
自己教師ありマルチタスク学習。
変数の定義は以下の通りである。
x:入力顔画像
y:グラウンドトゥルースのアイデンティティラベル
θ:認識エンジンのモデルパラメータ
w:認識分類器のパラメータ
v:特定のドメインを示す(バリエーション)
fi:特徴(310の出力)ベクトル
si:Lidt損失(式(2))のスケールファクタ
m:Lidt損失マージン
x:入力顔画像
y:グラウンドトゥルースのアイデンティティラベル
θ:認識エンジンのモデルパラメータ
w:認識分類器のパラメータ
v:特定のドメインを示す(バリエーション)
fi:特徴(310の出力)ベクトル
si:Lidt損失(式(2))のスケールファクタ
m:Lidt損失マージン
ドメイン適応としてのクラスバランシング
ロングテール分布Ps(x,y)から独立同分布(i.i.d.)で引き出された訓練セット(ソースドメイン)
があるとする。より正確には、クラスの周辺分布Ps(y)はヘビーテールである。何故なら、視覚認識では、まれなクラス例を収集することがしばしば困難であるからである。それでもなお、ビジュアル認識モデルを学習して、全てのクラスで可能な限り間違いを少なくすることが期待される。
ここで、推論時間でマージナルクラス分布Pt(y)がよりバランスのとれた(例えば、一様な分布)ターゲットドメインPt(x、y)が望ましい場合、
はθによってパラメータ化された認識モデルであり、
は0-1損失である。
の表記は、少し厳密ではない、訓練中に微分可能なサロゲート損失(クロスエントロピー)にする。
既存のクラスバランスの取れた方法は、どのようにクラスワイズの重み{wy}を決定するかに焦点を当てており、訓練のために次の目的関数をもたらす。
これは、
と仮定することで、すなわち、任意のクラスyに関して
と仮定することで、予想される推論誤差(式(8))を近似する。この仮定は、ドメイン適応におけるターゲットシフトと呼ばれる。
共有条件付き分布
の仮定は、一般に、特にテールクラスには当てはまらないと主張される。犬(Dog)の代表的な訓練セットは簡単に作成できるが、ケワダカモ(King Eider)の場合はそうではない。本発明は、ソース条件分布とターゲット条件分布との間の差
を明確にモデル化し、クラスバランス方式で改善されたアルゴリズムに到達することを提案する。
条件差のモデル化。
簡単にするために、条件付き重み
を導入し、予想される推論誤差を次のように書き直す。
ここで、最終項は誤差の偏りのない推定である。特に、本発明は、ソース及びターゲットドメインの条件付き分布が同じである、すなわち、
が許容されるという仮定をしない。したがって、各訓練事例の重みは2つの部位で構成される。一方の成分はクラスワイズの重み
であり、他方は条件付き重み
である。本発明は、式(11)から実用的なアルゴリズムを導き出すために両方の成分を推定する必要がある。何故なら、訓練セットのクラス分布はロングテールでなければならないと信じられているが、データの基礎となる分布は未知だからである。
クラスワイズの重み{Wy}推定
本発明は、クラスワイズの重みを、文献において実験的に成功した設計に類似させる。特に、本発明は、最近提案された「有効数」によってクラスワイズの重みを推定する。y番目のクラスにny個の訓練事例があると仮定すると、
である。ここで、
は推奨値
のハイパーパラメータであり、nは訓練事例の数である。
条件付き重みは、メタ学習フレームワークをカスタマイズすることで推定される。
主なアイデアは、バランスの取れた開発セット(development set)Dを訓練セットから提供し、それを用いて開発セットで最良のパフォーマンスの認識モデル
を生み出す条件付き重みの検索を導くことである。残りの訓練データをTで示す。本発明は、次の問題
を伴う
を解くことで、条件付き重み
を求める。ここで、本発明は、既にバランスがとれている開発セットに損失に重みを付与しない。本質的に、上記の問題は、本発明がエラー推定(式(13)及び(11))を最小化することで認識モデル
を学習した後、モデルが開発セット(式(12))で最良の性能を発揮するように、最適な条件付き重みを検索する。
ブルートフォース検索、例えば条件付き重みの全ての可能なセット
を繰り返すことでは、上記の問題を解決することは困難であろう。可能であっても、重みのセット毎に認識モデル
を訓練し、全てから最適なモデルを見つけることは、計算上非常に困難である。
代わりに、本発明は、メタ学習フレームワークに修正を加えて、欲張り法(greedy manner)で条件付き重みを検索する。本発明は、現在の時間ステップtが与えられると、重み
の探索をモデルパラメータθの更新と共にインターリーブする。
第1の式は、現在の条件付き重み
(クラスワイズの重みを加えたもの)で重み付けされた損失を用いて、θtについて1ステップ勾配降下法を試みる。更新されたモデルパラメータ
は、条件付き重みを1ステップで更新する、バランスの取れた開発セットDで精査される。更新された重み
は古いものよりも優れている。つまり、最後の式によって返されたモデルパラメータ
は、
よりも開発セットで発生する認識エラーが小さくなるはずである。
から開始して、本発明は次のラウンドの更新に移る。
図4は、本発明の一実施形態による、インスタンスレベルマージンメタ学習のための例示的な疑似コード400を示す図である。
ここで、本発明の一実施形態によるアプローチに関してさらなる説明を行う。
コサイン損失マージンは、文献には示されていない、サンプリングの重要度として解釈できることを最初に示す。予め定義された定数をマージンとして保証するコサイン損失とは対照的に、本発明は、その重要度を織り込む、各訓練サンプルのインスタンスレベルのバリエーション認識マージンを提案する。さらに、マージンは事前定数項と剰余動的項とに分割される。ここで、後者は複数のバリエーションファクタを表す。最後に、本発明は、メタ学習フレームワークを導入し、各サンプルのマージンの剰余項を適合させる。
次に、本発明の一実施形態による、サンプリングの重要度としての解釈マージンについて説明する。
一方、重要度再重み付け法は、一般にサンプルのロングテール状態に従って各サンプル損失成分を再重み付けする、重要度の重み
が導入される。したがって、ネットワークの訓練は、提案された重み付け損失関数の最小化として次のように定式化できる。
ここで、Nはクラスの数である。クラスワイズの重み
は、通常、クラス毎のサンプル数の逆数に比例するように設計されている。例えば、ルールベースの方法は、
で定義される「有効数」として
を決定する。ここで、
はクラスの量である。式14と式15を組み合わせると、次の式が得られる。
式16の再重み付け損失は、
が新しいスケーラ及びマージンとして定義される修正コサイン損失と実質的に等しいことが分かる。式14との違いは、新しい式では、スケーラとマージンの両方がクラス認識重み
に比例することである。したがって、サンプリングの重要度の学習問題は、新しいコサイン損失フレームワークにおける、クラス毎のマージンmiとスケーラs’を学習するものとして変換できる。本発明は、固定スカラ
を考慮し、文献では十分に調査されていない重要度サンプリングの観点からマージンに主として焦点を当てる。上記の説明から、クラス認識マージンmiは、クラスyiのサンプリングの重要度を反映する。ここで、ルールベースの方法を用いてmiの値を割り当てる代わりに、本発明はメタ学習ベースの方法を用いて、最適な重要度がインスタンスのバリエーションを十分に取得しないことを適応的に学習する。すなわち、同じアイデンティティからの2つの顔画像は、一方が通常の状態で取得されたものであり、他方が大きな頭部姿勢または厳しい照明条件下で取得されたものであると、異なる重要度を示すことがある。
次に、本発明の一実施形態による、多変量コサインマージンについて説明する。
CosFace及び他のコサイン距離ベースの方法は、全ての訓練データに対して等しいサンプリングの重要度を割り当てることに等しい、データセット全体にわたって共有される一定のマージンを仮定する。本明細書で述べるように、インスタンスレベルで重要度をサンプリングすると、より良好なバリエーションの取得が提供され、訓練データの偏りを補償するのに役に立つ、これらのバリエーションが識別損失に反映される。
この目的のため、本発明は、各サンプルに重要度の重みを割り当てるために、インスタンスレベルのバリエーション認識マージン
を提案する。様々な要因が訓練データのロングテール分布の原因になる可能性があり、これらの要因が異なるインスタンスレベルのマージンのセットにつながるか否かをそれぞれ検討する。本発明は、上述した全てのバリエーションの要因を表す、多変量コサインマージンと呼ばれる統合された単一のマージンを提供するため、民族、頭部姿勢、画像のぼけレベル及びオクルージョンレベル等の一連の列挙可能な要因を組み合わせることを目的とする。正式には、本発明は、ルールベースのマージンを先の
とし、各バリエーションの重要度を表す剰余動的項
と組み合わせた加法モデルを活用する。
αはハイパーパラメータであり、
はクラスyiのサンプル量である。直観的に、ヘッドクラスのサンプル(nyが大きい)は小さなマージンを受け取り、テールクラスのサンプル(nyが小さい)は大きなマージンを受け取る。
式15において、kは、民族に関するeth、頭部姿勢の変化に関するpose、画像全体のオクルージョン比に関するocc及び画像のぼけレベルに関するblurを含む、本発明で定義されたバリエーションを列挙する指数である。本発明は、合成されたオクルージョン及びガウスぼかしを訓練に使用する。λkは、各バリエーションに関する結合係数であり、各バリエーションに関するロングテールサンプル数に反比例する。なお、
であり、またこれらの値は、訓練中一定である。最後に、提案したインスタンスレベルマージンを用いて、本発明は次のようにILVA損失関数を定義する。
ここで、本発明の一実施形態による、バリエーション認識剰余メタ学習について説明する。
ここで、本発明の一実施形態による、バリエーション認識剰余メタ学習について説明する。
重要度の重みの剰余項を得るために、本発明はメタ学習フレームワークを活用する。これは予め定義された検証セットVを入力として用いる。検証セットは、オリジナルの訓練セットとアイデンティティを共有しない。主なアイデアは、訓練バッチで各サンプルのバリエーションをチェックすることであり、この特定のサンプルからの各バリエーション(民族、頭部姿勢等)の不十分さが強調できるように、メタ学習が各サンプルの重要度を動的に更新することが期待される。このようにハイライトされた剰余をフィードバックして適応コサイン損失マージンを形成することで、提案されたILVA損失は、別の方法で特徴学習を更新する。
ここで、本発明の一実施形態による、マルチ分岐ベースラインについて説明する。
本明細書で紹介するように、本発明は、クラス量の不均衡に基づいて予め決定された事前定数項と、式15の剰余項
とを含む加法定式化としてマージンをモデル化する。本発明は、
で示される識別タスクを主タスクと見なし、提案されたILVA損失を適用して認識バックボーンを更新する。さらに、各バリエーションは式における剰余項に対応する。これらのバリエーションに関連する全てのマージンをモデル化するため、本発明はマルチ分岐ベースのフレームワークをセットアップする。具体的には、民族、頭部姿勢、ぼけ及びオクルージョンの列挙されたバリエーションのファクタのそれぞれについて、本発明は分類器
を設定する。例えば、コーカサス人、アフリカ系アメリカ人、東アジア人及び南アジア人として定義された民族ラベル
を予測するため、本発明は、4つのクラスを有する民族分類器をセットアップする。
古典的なマルチタスク学習とは対照的に、バリエーションタスクは共有バックボーン
の学習には寄与せず、分類器
のパラメータを更新するためにのみ使用される。バリエーション分類器は、メタ学習モジュールの更新に損失フィードバックを提供するために実装される。アイデンティティの特徴の更新にバリエーションの分類器が使用されない理由は、バリエーションが実質的にidに無関係なタスクの識別特徴を促進し、それがidバリアント特徴につながるためである。訓練は敵対的学習に似ている。メインタスクはILVAを用いてバリエーションタスクが分類器を学習する一方で、他のバリエーションに対して不変なid特徴を学習し、検証セットを備えるメタ学習を用いて、ILVA損失のインスタンスレベルのマージンを修正し、テール付きサンプルを強調表示する。
ここで、本発明の一実施形態による、多変量メタ学習について説明する。
ベースラインは重要度の重みを変化させないことで実現される。バリエーションのそれぞれに沿った分布の不均衡を見つけるために、本発明は、訓練された分類器vkの予測ロジットを用いてスコアを示す。バリエーションの分布が近いサンプルは、同様の分類器ロジットをもたらすと考えられる。
ここで、本発明の一実施形態による、ハード検証サンプルマイニングに関して説明する。
1つの訓練バッチに基づいてテール分布情報(tailed distribution information)を効果的にフィードバックするため、本発明はハードサンプルマイニングを実施し、訓練セットとアイデンティティが重複しない、予め定義された検証セットVから最も典型的なサンプルを検索する。
ここで、xbは現在の訓練バッチBからのサンプルである。
は、k番目のバリエーション分類器による予測ロジットを表す。次のステップにおいて、提案するハードマイニング手法で選択されたサンプルを用いてメタ学習モジュールを訓練する。
次に、提案するメタ学習フレームワークの1回の繰り返しを実行するために必要なステップを説明する。簡単にするために、クラスインデックスiは式から省略し、サンプルインデックスjのみが保持される。
次に、本発明の一実施形態による、擬似モデルの更新について説明する。
各繰り返しtにおいて、本発明は、訓練データからバッチTを一様にサンプリングし、それを認識モデルに供給して、モデルパラメータΩを更新する。現在のモデルΩでパフォーマンスが向上しない場合、モデルΩの更新を先の繰り返しt-1にロールバックできることに留意されたい。
次に、本発明の一実施形態による、マージン剰余のメタ更新について説明する。
本発明は、式22で記述されたオンラインハードサンプルマイニング法を用いて、検証セットVから検証バッチを作成する。その後、本発明は、先のステップで更新されたモデルパラメータΩtを用いて、マージン剰余項
を更新するためにマルチ分岐バリエーション分類損失を活用する。
次に、本発明の一実施形態による、実モデルの更新について説明する。
アルゴリズムの全体は、図5のアルゴリズム2にまとめられている。本発明は、顔認識モデル
の更新を最適に実行しつつ、式24の損失を最小化する最適なマージンmjを追い求める。本発明は、1つの単一ドメインの重み自体が偏りを推定することにつながる、剰余を推定するために
の複数の分岐を考慮する。
図6は、本発明の一実施形態による、サンプルレベルマージンのメタ学習のための例示的な方法を示すフロー図である。
ブロック610において、顔認識モデルw(t)を形成するために、サンプルの訓練バッチでフォワード訓練を実行する。
ブロック620において、メタ学習器に基づいて訓練バッチのサンプルの重みを計算する。
ブロック630において、訓練バッチのモデルの重みに関する訓練バッチの勾配を取得し、該訓練バッチの勾配を用いて、顔認識モデルw(t)を顔認識モデルWhat(t)に更新する。
ブロック640において、サンプルの検証バッチを顔認識モデルWhat(t)に転送する。
ブロック650において、メタ学習器シータ(t)に関する検証バッチの勾配を取得し、該検証バッチの勾配及び顔認識モデルWhat(t)を用いて、訓練バッチにおけるサンプルのサンプルレベルの重要度の重みを更新し、訓練バッチにおけるサンプルの更新されたサンプルレベルの重要度の重みを取得する。
ブロック660において、訓練バッチにおけるサンプルの更新されたサンプルレベル重要度の重みに基づいて訓練バッチのアップグレードされた勾配を取得し、訓練バッチのアップグレードされた勾配を用いて、顔認識モデルw(t)を次の繰り返しに対応する訓練されたモデルw(t+1)に変換する。
次の繰り返しに対応することの重要性。メタ学習ベースのモデルw(t)の更新は、顔認識訓練の不均衡を軽減するために、検証セットからの補完的な情報を利用し、ドメイン(バリエーション)分類器のフィードバックに基づいて分布の不均衡を自動的に発見するため、重要である。訓練は繰り返しであるため、各段階の訓練モデルは先の訓練モデルの更新に基づいている。更新された訓練モデルw(t+1)は、次の繰り返しの開始ポイントある。
本発明は、システム、方法及び/または統合可能な技術的詳細レベルのコンピュータプログラム製品であってもよい。コンピュータプログラム製品は、プロセッサに本発明の態様を実行させるためのコンピュータで読み取り可能なプログラム命令を有するコンピュータで読み取り可能な記録媒体(または媒体)を含んでいてもよい。
コンピュータで読み取り可能な記録媒体は、命令実行装置で使用される命令を保持及び格納できる有形の装置であってもよい。コンピュータで読み取り可能な記録媒体は、例えば、電子記憶装置、磁気記憶装置、光記憶装置、電磁記憶装置、半導体記憶装置または上記の任意の適切な組み合わせでもよいが、これらに限定されない。コンピュータで読み取り可能な記録媒体のより具体例の非網羅的なリストには、ポータブルコンピュータディスケット、ハードディスク、ランダムアクセスメモリ(RAM)、リードオンリーメモリ(ROM)、消去可能なプログラマブルリードオンリーメモリ(EPROMまたはフラッシュメモリ)、スタティックランダムアクセスメモリ(SRAM)、携帯用コンパクトディスクリードオンリーメモリ(CD-ROM)、デジタル多用途ディスク(DVD)、メモリスティック、フロッピーディスク、パンチカードまたは命令が記録された溝の***構造等の機械的な符号化装置及び前述した任意の適切な組み合わせを含む。本明細書で用いるコンピュータで読み取り可能な記録媒体は、例えば、電波または他の自由に伝搬する電磁波、導波管または他の伝送媒体を通って伝搬する電磁波(例えば、通過する光パルス光ファイバーケーブル)またはワイヤを介して伝送される電気信号等、それ自体が一時的な信号であると解釈されるべきではない。
本明細書に記載のコンピュータで読み取り可能なプログラム命令は、コンピュータで読み取り可能な記録媒体からそれぞれのコンピューティング/処理装置に、またはネットワーク、例えば、インターネット、ローカルエリアネットワーク、ワイドエリアネットワーク及び/または無線ネットワークを介して外部コンピュータまたは外部記憶装置にダウンロードできる。ネットワークは、銅伝送ケーブル、光伝送ファイバ、無線伝送、ルーター、ファイアウォール、スイッチ、ゲートウェイコンピュータ及び/またはエッジサーバを有していてもよい。各コンピューティング/処理装置内のネットワークアダプタカードまたはネットワークインタフェースは、ネットワークからコンピュータで読み取り可能なプログラム命令を受信し、それぞれのコンピューティング/処理装置内のコンピュータで読み取り可能な記録媒体に格納するためにコンピュータで読み取り可能なプログラム命令を転送する。
本発明の動作を実行するためのコンピュータで読み取り可能なプログラム命令は、アセンブラ命令、命令セットアーキテクチャ(ISA)命令、機械命令、機種依存命令、マイクロコード、ファームウェア命令、状態設定データ、または、例えばSMALLTAL(登録商標)K、C++等のオブジェクト指向プログラミング言語、並びに、例えば「C」プログラミング言語または同様のプログラミング言語等の従来の手続き型プログラミング言語を含む、1つまたは複数のプログラミング言語の任意の組み合わせで書かれたソースコードまたはオブジェクトコードのいずれであってもよい。コンピュータで読み取り可能なプログラム命令は、全体的にユーザのコンピュータで実行されてもよく、スタンドアロンソフトウェアパッケージとして部分的にユーザのコンピュータで実行されてもよく、部分的にユーザのコンピュータで実行され、かつ部分的にリモートコンピュータで実行されてもよく、全体的にリモートコンピュータまたはサーバで実行されてもよい。後者のシナリオにおいて、リモートコンピュータは、ローカルエリアネットワーク(LAN)または広域ネットワーク(WAN)を含む任意のタイプのネットワークを介してユーザのコンピュータと接続されてもよく、(例えば、インターネットサービスプロバイダを利用したインターネットを介して)外部コンピュータと接続されてもよい。いくつかの実施形態において、本発明の態様を実行するために、例えば、プログラマブルロジック回路、フィールドプログラマブルゲートアレイ(FPGA)またはプログラマブルロジックアレイ(PLA)を含む電子回路は、該電子回路をパーソナライズするために、コンピュータで読み取り可能なプログラム命令の状態情報を用いてコンピュータで読み取り可能なプログラム命令を実行してもよい。
本発明の態様は、本発明の実施形態による、方法、装置(システム)及びコンピュータプログラム製品のフローチャート図及び/またはブロック図を参照することで説明される。フローチャート図及び/またはブロック図の各ブロック、並びにフローチャート図及び/またはブロック図におけるブロックの組み合わせは、コンピュータで読み取り可能なプログラム命令によって実行できることを理解されたい。
これらのコンピュータで読み取り可能なプログラム命令は、汎用コンピュータ、専用コンピュータまたは他のプログラム可能なデータ処理装置のプロセッサに提供され、コンピュータまたは他のプログラム可能なデータ処理装置のプロセッサを介して実行される命令が、フローチャート及び/またはブロック図の各ブロックで特定される機能/動作を実現するための手段を作成するように、機械を生成してもよい。また、これらのコンピュータ読み取り可能なプログラム命令は、コンピュータ、プログラム可能なデータ処理装置及び/または他の装置を特定の方法で機能させることができるコンピュータで読み取り可能な記録媒体に格納されていてもよく、命令が格納されたコンピュータで読み取り可能な記録媒体は、フローチャート及び/またはブロック図のブロックまたは各ブロックで特定される機能/動作の態様を実現する命令を含む製品を有する。
コンピュータで読み取り可能なプログラム命令は、コンピュータ、他のプログラム可能なデータ処理装置または他の装置にロードされ、コンピュータ、他のプログラム可能な装置または他の装置で実行される命令が、フローチャート及び/またはブロック図のブロックまたは各ブロックで特定される機能/動作を実現するように、コンピュータ、他のプログラム可能な装置または他の装置で一連の動作ステップを実行させ、コンピュータで実施されるプロセスを生成する。
複数の図におけるフローチャート及びブロック図は、本発明の様々な実施形態によるシステム、方法及びコンピュータプログラム製品の考えられる実施のアーキテクチャ、機能及び動作を示す。この点に関して、フローチャートまたはブロック図の各ブロックは、特定される論理機能を実現するための1つまたは複数の実行可能な命令を含む、モジュール、セグメントまたは命令の一部を表すことができる。一部の代替の実現において、ブロックに記載されている機能は、図に記載されている順序とは異なっていてもよい。例えば、関連する機能に応じて、連続して示す2つのブロックが、実際には実質的に同時に実行されるか、逆の順序で実行されてもよい。ブロック図及び/またはフローチャート図の各ブロック、並びにブロック図及び/またはフローチャート図の各ブロックの組み合わせは、特定される機能または動作を実行する、あるいは専用ハードウェアとコンピュータ命令の組み合わせを実行する、専用ハードウェアベースのシステムによって実現できることにも留意されたい。
本明細書では本発明の「一実施形態」または「一実施形態」、ならびにその他の変形形態に言及し、実施形態に関連して説明した特定の機能、構成、特徴などが、本発明の少なくとも1つの実施形態に含まれることを意味する。したがって、「一実施形態において」または「一実施形態において」という語句の出現、並びに本明細書全体を通して様々な場所に出現する任意の他の変形形態は、必ずしも全てが同じ実施形態を参照しているわけではない。
例えば、「A/B」、「A及び/またはB」、並びに「A及びBのうちの少なくとも1つ」の場合における「/」、「及び/または」、並びに「うちの少なくとも1つ」のうちのいずれかの使用は、第1に挙げた選択肢(A)のみの選択、第2に挙げた選択肢(B)のみの選択、または両方の選択肢(A及びB)の選択を含むことを意図したものと理解すべきである。さらに例を挙げれば、「A、B及び/またはC」、並びに「A、B及びCのうちの少なくとも1つ」の場合、このような表現法は、第1に挙げた選択肢(A)のみの選択、第2に挙げた選択肢(B)のみの選択、第3に挙げた選択肢(C)のみの選択、第1及び第2に挙げた選択肢(A及びB)のみの選択、第1及び第3に挙げた選択肢(A及びC)のみの選択、第2及び第3に挙げた選択肢(B及びC)のみの選択、または3つの選択肢全て(A及びB及びC)の選択を含むことを意図したものである。上述した例は、当業者に容易に明らかとなるように、列挙される多数の項目に応じて拡大適用される。
上記は、あらゆる観点において説明的かつ典型的であって限定的でないものと理解されるべきであり、本明細書で開示する本発明の範囲は、詳細な説明から決定されるべきではなく、特許法で認められた最大限の広さに基づいて解釈される特許請求の範囲から決定されるべきである。本明細書中に図示及び記載されている実施形態は、本発明の原理を説明するものにすぎず、本発明の範囲及び主旨から逸脱することなく当業者は様々な変更を実施することができることを理解されたい。当業者は、本発明の範囲及び精神から逸脱することなく、様々な他の特徴の組み合わせを実施できる。以上、本発明の態様について、特許法で要求される細部及び詳細な事項と共に説明したが、特許証で保護されることを要求する特許請求の範囲は、添付の特許請求の範囲に示されている。
Claims (20)
- 深層顔認識のためのモデルを訓練するためのコンピュータで実施する方法であって、
顔認識モデルw(t)を形成するために、サンプルの訓練バッチでフォワード訓練を実行するステップ(610)と、
メタ学習器に基づいて前記訓練バッチのサンプルの重みを計算するステップ(620)と、
プロセッサ装置により、前記訓練バッチのモデルの重みに関する前記訓練バッチの勾配を取得し、前記訓練バッチの前記勾配を用いて前記顔認識モデルw(t)を顔認識モデルwhat(t)に更新するステップ(630)と、
サンプルの検証バッチを前記顔認識モデルwhat(t)に転送するステップ(640)と、
前記プロセッサ装置により、メタ学習器シータ(t)に関する前記検証バッチの勾配を取得し、前記検証バッチの前記勾配及び前記顔認識モデルwhat(t)を用いて、サンプルの更新されたサンプルレベルの重要度の重みを取得するために、前記訓練バッチにおけるサンプルのサンプルレベルの重要度の重みを更新するステップ(650)と、
前記プロセッサ装置により、前記訓練バッチにおけるサンプルの更新されたサンプルレベルの重要度の重みに基づいて前記訓練バッチのアップグレードされた勾配を取得し(660)、前記訓練バッチの前記アップグレードされた勾配を用いて、前記顔認識モデルw(t)を次の繰り返しに対応する訓練されたモデルw(t+1)に更新するステップ(660)と、
を有するコンピュータで実施する方法。 - モデルの訓練に使用される前記訓練バッチにおける前記サンプルのそれぞれの重みは、クラスレベルの重み及び前記アップグレードされたサンプルレベルの重要度の重みを有する、請求項1に記載のコンピュータで実施する方法。
- 前記訓練バッチにおける前記サンプルの前記更新されたサンプルレベルの重要度の重みは、前記訓練バッチにおける前記サンプルに関するクラス認識の重みに比例する、請求項2に記載のコンピュータで実施する方法。
- 前記検証セットは、前記訓練セットとアイデンティティを共有しない、請求項1に記載のコンピュータで実施する方法。
- 前記訓練セットは、民族のバリエーション、姿勢のバリエーション、画像全体のオクルージョン比及び画像のぼけレベルを含むバリエーションを有する、請求項1に記載のコンピュータで実施する方法。
- 不十分なバリエーションを強調するように、前記複数のサンプルのそれぞれについて前記サンプルレベルの重要度の重みを動的に更新するために、前記訓練バッチにおける複数の前記サンプルのそれぞれのサンプルのバリエーションをチェックするステップをさらに有する、請求項1に記載のコンピュータで実施する方法。
- 前記不十分なバリエーションは、民族のバリエーション、姿勢のバリエーション、画像全体のオクルージョン比及び画像のぼけレベルから成るグループから選択される、請求項6に記載のコンピュータで実施する方法。
- 前記訓練バッチにおける前記サンプルの前記更新されたサンプルレベルの重要度の重みは、前記訓練バッチにおける前記サンプル全体で均一ではない、請求項1に記載のコンピュータで実施する方法。
- 個々のアイデンティティを生成するために、前記訓練されたモデルw(t+1)を用いて、顔認識セッションを実行するステップをさらに有する、請求項1に記載のコンピュータで実施する方法。
- コンピュータで実行可能な方法をコンピュータに実行させるためのプログラム命令が包含される、非一時的なコンピュータで読み取り可能な記録媒体を有する、深層顔認識のためのモデルを訓練するためのコンピュータプログラム製品であって、
前記方法は、
前記コンピュータのプロセッサ装置により、顔認識モデルw(t)を形成するために、サンプルの訓練バッチでフォワード訓練を実行するステップ(610)と、
前記プロセッサ装置により、メタ学習器に基づいて前記訓練バッチのサンプルの重みを計算するステップ(620)と、
前記プロセッサ装置により、前記訓練バッチのモデルの重みに関する前記訓練バッチの勾配を取得し、前記訓練バッチの前記勾配を用いて前記顔認識モデルw(t)を顔認識モデルwhat(t)に更新するステップ(630)と、
前記プロセッサ装置により、サンプルの検証バッチを前記顔認識モデルwhat(t)に転送するステップ(640)と、
前記プロセッサ装置により、メタ学習器シータ(t)に関する前記検証バッチの勾配を取得し、前記検証バッチの前記勾配及び前記顔認識モデルwhat(t)を用いて、サンプルの更新されたサンプルレベルの重要度の重みを取得するために、前記訓練バッチにおけるサンプルのサンプルレベルの重要度の重みを更新するステップ(650)と、
前記プロセッサ装置により、前記訓練バッチにおけるサンプルの更新されたサンプルレベルの重要度の重みに基づいて前記訓練バッチのアップグレードされた勾配を取得し(660)、前記訓練バッチの前記アップグレードされた勾配を用いて、前記顔認識モデルw(t)を次の繰り返しに対応する訓練されたモデルw(t+1)に更新するステップ(660)と、
を有する、コンピュータプログラム製品。 - モデルの訓練に使用される前記訓練バッチにおける前記サンプルのそれぞれの重みは、クラスレベルの重み及び前記アップグレードされたサンプルレベルの重要度の重みを含む、請求項10に記載のコンピュータプログラム製品。
- 前記訓練バッチにおける前記サンプルの前記更新されたサンプルレベルの重要度の重みは、前記訓練バッチにおける前記サンプルに関するクラス認識の重みに比例する、請求項11に記載のコンピュータプログラム製品。
- 前記検証セットは、前記訓練セットとアイデンティティを共有しない、請求項10に記載のコンピュータプログラム製品。
- 前記訓練セットは、民族のバリエーション、姿勢のバリエーション、画像全体のオクルージョン比及び画像のぼけレベルを含むバリエーションを含む、請求項10に記載のコンピュータプログラム製品。
- 不十分なバリエーションを強調するように、前記複数のサンプルのそれぞれについて前記サンプルレベルの重要度の重みを動的に更新するために、前記訓練バッチにおける複数の前記サンプルのそれぞれのサンプルのバリエーションをチェックするステップをさらに有する、請求項10に記載のコンピュータプログラム製品。
- 前記不十分なバリエーションは、民族のバリエーション、姿勢のバリエーション、画像全体のオクルージョン比及び画像のぼけレベルから成るグループから選択される、請求項15に記載のコンピュータプログラム製品。
- 前記訓練バッチにおける前記サンプルの前記更新されたサンプルレベルの重要度の重みは、前記訓練バッチにおける前記サンプル全体で均一ではない、請求項10に記載のコンピュータプログラム製品。
- 個々のアイデンティティを生成するために、前記訓練されたモデルw(t+1)を用いて、顔認識セッションを実行するステップをさらに有する、請求項10に記載のコンピュータプログラム製品。
- 深層顔認識のためのモデルを訓練するためのコンピュータ処理システムであって、
プログラムコードを格納するためのメモリ装置(140)と、
前記プログラムコードを実行して、
顔認識モデルw(t)を形成するために、サンプルの訓練バッチでフォワード訓練を実行し、
メタ学習器に基づいて前記訓練バッチのサンプルの重みを計算し、
前記訓練バッチのモデルの重みに関する前記訓練バッチの勾配を取得し、前記訓練バッチの前記勾配を用いて前記顔認識モデルw(t)を顔認識モデルwhat(t)に更新し、
サンプルの検証バッチを前記顔認識モデルwhat(t)に転送し、
メタ学習器シータ(t)に対する前記検証バッチの勾配を取得し、前記検証バッチの前記勾配及び前記顔認識モデルwhat(t)を用いて、サンプルの更新されたサンプルレベル重要度の重みを取得するために、前記訓練バッチにおけるサンプルのサンプルレベルの重要度の重みを更新させ、
前記訓練バッチにおけるサンプルの更新されたサンプルレベルの重要度の重みに基づいて前記訓練バッチのアップグレードされた勾配を取得し、前記訓練バッチの前記アップグレードされた勾配を用いて、前記顔認識モデルw(t)を次の繰り返しに対応する訓練されたモデルw(t+1)に更新する、前記メモリ装置と動作可能に接続されたプロセッサ装置(110)と、
を有するコンピュータ処理システム。 - モデルの訓練に使用される前記訓練バッチにおける前記サンプルのそれぞれの重みは、クラスレベルの重み及び前記アップグレードされたサンプルレベルの重要度の重みを有する、請求項19に記載のコンピュータ処理システム。
Applications Claiming Priority (7)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US202063111658P | 2020-11-10 | 2020-11-10 | |
US63/111,658 | 2020-11-10 | ||
US202063114014P | 2020-11-16 | 2020-11-16 | |
US63/114,014 | 2020-11-16 | ||
US17/521,252 | 2021-11-08 | ||
US17/521,252 US11977602B2 (en) | 2020-11-10 | 2021-11-08 | Domain generalized margin via meta-learning for deep face recognition |
PCT/US2021/058612 WO2022103748A1 (en) | 2020-11-10 | 2021-11-09 | Domain generalized margin via meta-learning for deep face recognition |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2023548915A true JP2023548915A (ja) | 2023-11-21 |
Family
ID=81453495
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2023528160A Pending JP2023548915A (ja) | 2020-11-10 | 2021-11-09 | 深層顔認識のためのメタ学習を用いたドメイン一般化マージン |
Country Status (4)
Country | Link |
---|---|
US (1) | US11977602B2 (ja) |
JP (1) | JP2023548915A (ja) |
DE (1) | DE112021005925T5 (ja) |
WO (1) | WO2022103748A1 (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11580780B2 (en) * | 2019-11-13 | 2023-02-14 | Nec Corporation | Universal feature representation learning for face recognition |
CN114861842B (zh) * | 2022-07-08 | 2022-10-28 | 中国科学院自动化研究所 | 少样本目标检测方法、装置和电子设备 |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109754105B (zh) * | 2017-11-07 | 2024-01-05 | 华为技术有限公司 | 一种预测方法及终端、服务器 |
JP7213241B2 (ja) * | 2017-11-14 | 2023-01-26 | マジック リープ, インコーポレイテッド | ニューラルネットワークに関するマルチタスク学習のためのメタ学習 |
KR20200015048A (ko) * | 2018-08-02 | 2020-02-12 | 삼성전자주식회사 | 메타-학습에 기반하여 기계학습의 모델을 선정하는 방법 및 장치 |
CN109886337B (zh) * | 2019-02-22 | 2021-09-14 | 清华大学 | 基于自适应采样的深度度量学习方法及*** |
CN112561050B (zh) * | 2019-09-25 | 2023-09-05 | 杭州海康威视数字技术股份有限公司 | 一种神经网络模型训练方法及装置 |
CN111737426B (zh) * | 2020-05-09 | 2021-06-01 | 中国科学院深圳先进技术研究院 | 问答模型的训练方法、计算机设备以及可读存储介质 |
CN111582199B (zh) * | 2020-05-12 | 2023-05-23 | 佛山市玖章智能科技有限公司 | 一种人脸识别模型训练方法和人脸识别方法 |
US20210374547A1 (en) * | 2020-06-01 | 2021-12-02 | Nvidia Corporation | Selecting annotations for training images using a neural network |
CN111898739B (zh) * | 2020-07-30 | 2024-02-20 | 平安科技(深圳)有限公司 | 基于元学习的数据筛选模型构建方法、数据筛选方法、装置、计算机设备及存储介质 |
-
2021
- 2021-11-08 US US17/521,252 patent/US11977602B2/en active Active
- 2021-11-09 DE DE112021005925.4T patent/DE112021005925T5/de active Pending
- 2021-11-09 JP JP2023528160A patent/JP2023548915A/ja active Pending
- 2021-11-09 WO PCT/US2021/058612 patent/WO2022103748A1/en active Application Filing
Also Published As
Publication number | Publication date |
---|---|
US20220147767A1 (en) | 2022-05-12 |
US11977602B2 (en) | 2024-05-07 |
DE112021005925T5 (de) | 2023-08-31 |
WO2022103748A1 (en) | 2022-05-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11164574B2 (en) | Conversational agent generation | |
CN109522950B (zh) | 图像评分模型训练方法及装置和图像评分方法及装置 | |
JP2023548915A (ja) | 深層顔認識のためのメタ学習を用いたドメイン一般化マージン | |
JP2018537788A (ja) | 外部メモリを用いたニューラルネットワークの拡張 | |
US20210216887A1 (en) | Knowledge graph alignment with entity expansion policy network | |
US11677861B2 (en) | System and method for interoperable communication between entities with different structures | |
CN110929114A (zh) | 利用动态记忆网络来跟踪数字对话状态并生成响应 | |
JP7178513B2 (ja) | ディープラーニングに基づく中国語単語分割方法、装置、記憶媒体及びコンピュータ機器 | |
US9626631B2 (en) | Analysis device, analysis method, and program | |
WO2019154411A1 (zh) | 词向量更新方法和装置 | |
CN115362497A (zh) | 具有延迟阈值的序列到序列语音识别 | |
US11200883B2 (en) | Implementing a domain adaptive semantic role labeler | |
US11748305B2 (en) | Suggesting a destination folder for a file to be saved | |
US8682677B2 (en) | System and method for automatically generating a dialog manager | |
US20200183961A1 (en) | External action execution with conversational agent | |
US11410030B2 (en) | Active imitation learning in high dimensional continuous environments | |
US11971796B2 (en) | Goal seek analysis based on status models | |
CN114648103A (zh) | 用于处理深度学习网络的自动多目标硬件优化 | |
US20230153572A1 (en) | Domain generalizable continual learning using covariances | |
CN116596060A (zh) | 深度强化学习模型训练方法、装置、电子设备及存储介质 | |
JPWO2018066083A1 (ja) | 学習プログラム、情報処理装置および学習方法 | |
JP2022152367A (ja) | 機械学習プログラム、機械学習方法および情報処理装置 | |
US10585986B1 (en) | Entity structured representation and variant generation | |
JP2022548053A (ja) | 解釈可能な再帰型マルチホップ質問回答のためのフォローアップ質問の生成 | |
KR20230082531A (ko) | 복수의 태스크에 대한 오프라인 메타 강화학습 방법 및 이를 수행하기 위한 컴퓨팅 장치 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20230510 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20240529 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20240604 |