JP2021530045A

JP2021530045A - 顔認識方法及び装置

Info

Publication number: JP2021530045A
Application number: JP2020573005A
Authority: JP
Inventors: 于志▲鵬▼
Original assignee: ベイジンセンスタイムテクノロジーデベロップメントカンパニー，リミテッド
Priority date: 2019-03-22
Filing date: 2019-10-30
Publication date: 2021-11-04
Anticipated expiration: 2039-10-30
Also published as: WO2020192112A1; CN109934198A; JP7038867B2; TWI727548B; TW202036367A; US20210334604A1; CN109934198B; SG11202107826QA

Abstract

顔認識方法及び装置である。該方法は、認識待ち画像を取得すること（１０１）と、クロスモーダル顔認識ネットワークにより、前記認識待ち画像を認識し、前記認識待ち画像の認識結果を得ることであって、前記クロスモーダル顔認識ネットワークは、異なるモーダルの顔画像データに基づいて訓練を行うことで得られたものであること（１０２）と、を含む。対応する装置を更に開示する。カテゴリに応じて分けられた画像集合によりニューラルネットワークを訓練することで、クロスモーダル顔認識ネットワークを得る。クロスモーダル顔認識ネットワークにより、各カテゴリの対象が同一の人物であるかどうかを認識することで、認識の正確率を向上させることができる。【選択図】図１

Description

（関連出願の相互参照）
本願は、２０１９年３月２２日に提出された、出願番号が２０１９１０２２０３２１．５である中国特許出願に基づく優先権を主張し、該中国特許出願の全内容が参照として本願に組み込まれる。

本願の実施例は、画像処理技術分野に関し、特に、顔認識方法及び装置に関する。

セキュリティ、社会保険、通信などの分野において、顔追跡、実名認証、スマートフォンのロック解除などの操作を実現させるために、異なる画像に含まれる人物対象が同一の人物であるかどうかを認識する必要がある。現在、顔認識アルゴリズムにより、異なる画像における人物対象に対してそれぞれ顔認識を行うことで、異なる画像に含まれる人物対象が同一の人物であるかどうかを認識することができるが、認識の正確率が低い。

本願は、顔認識方法を提供することで、異なる画像に含まれる人物対象が同一の人物であるかどうかを認識する。

第１態様によれば、顔認識方法を提供する。前記方法は、認識待ち画像を取得することと、クロスモーダル顔認識ネットワークにより、前記認識待ち画像を認識し、前記認識待ち画像の認識結果を得ることであって、前記クロスモーダル顔認識ネットワークは、異なるモーダルの顔画像データに基づいて訓練を行うことで得られたものであることと、を含む。

可能な実現形態において、異なるモーダルの顔画像データに基づいて訓練を行うことで前記クロスモーダル顔認識ネットワークを得るプロセスは、第１モーダルネットワーク及び第２モーダルネットワークに基づいて訓練を行うことで前記クロスモーダル顔認識ネットワークを得ることを含む。

もう１つの可能な実現形態において、第１モーダルネットワーク及び第２モーダルネットワークに基づいて訓練を行うことで前記クロスモーダル顔認識ネットワークを得る前に、第１画像集合及び第２画像集合に基づいて、前記第１モーダルネットワークを訓練することを更に含み、前記第１画像集合における対象は、第１カテゴリに属し、前記第２画像集合における対象は、第２カテゴリに属する。

また１つの可能な実現形態において、第１画像集合及び第２画像集合に基づいて、前記第１モーダルネットワークを訓練することは、前記第１画像集合及び前記第２画像集合に基づいて、前記第１モーダルネットワークを訓練し、前記第２モーダルネットワークを得ることと、所定の条件に応じて、前記第１画像集合から、第１数の画像を選択し、前記第２画像集合から、第２数の画像を選択し、前記第１数の画像及び前記第２数の画像に基づいて、第３画像集合を得ることと、前記第３画像集合に基づいて、前記第２モーダルネットワークを訓練し、前記クロスモーダル顔認識ネットワークを得ることと、を含む。

また１つの可能な実現形態において、前記所定の条件は、前記第１数が前記第２数と同じであること、前記第１数と前記第２数との比が、前記第１画像集合に含まれる画像の数と前記第２画像集合に含まれる画像の数との比に等しいこと、前記第１数と前記第２数との比が、前記第１画像集合に含まれる人数と前記第２画像集合に含まれる人数との比に等しいこと、のうちのいずれか１つを含む。

また１つの可能な実現形態において、前記第１モーダルネットワークは、第１特徴抽出分岐と、第２特徴抽出分岐と、第３特徴抽出分岐と、を含み、前記第１画像集合及び前記第２画像集合に基づいて、前記第１モーダルネットワークを訓練し、前記第２モーダルネットワークを得ることは、前記第１画像集合を前記第１特徴抽出分岐に入力し、前記第２画像集合を前記第２特徴抽出分岐に入力し、第４画像集合を前記第３特徴抽出分岐に入力し、前記第１モーダルネットワークを訓練することであって、前記第４画像集合に含まれる画像は、同一のシーンで収集された画像又は同一の収集方式で収集された画像であることと、訓練後の第１特徴抽出分岐、訓練後の第２特徴抽出分岐又は訓練後の第３特徴抽出分岐を前記第２モーダルネットワークとすることと、を含む。

また１つの可能な実現形態において、前記第１画像集合を前記第１特徴抽出分岐に入力し、前記第２画像集合を前記第２特徴抽出分岐に入力し、第４画像集合を前記第３特徴抽出分岐に入力し、前記第１モーダルネットワークを訓練することは、前記第１画像集合、前記第２画像集合及び前記第４画像集合をそれぞれ前記第１特徴抽出分岐、前記第２特徴抽出分岐及び前記第３特徴抽出分岐に入力し、第１認識結果、第２認識結果及び第３認識結果をそれぞれ得ることと、前記第１特徴抽出分岐の第１損失関数、前記第２特徴抽出分岐の第２損失関数及び前記第３特徴抽出分岐の第３損失関数を取得することと、前記第１画像集合、前記第１認識結果及び前記第１損失関数、前記第２画像集合、前記第２認識結果及び前記第２損失関数、前記第４画像集合、前記第３認識結果及び前記第３損失関数に基づいて、前記第１モーダルネットワークのパラメータを調整し、調整された第１モーダルネットワークを得ることであって、前記第１モーダルネットワークのパラメータは、第１特徴抽出分岐パラメータ、第２特徴抽出分岐パラメータ及び第３特徴抽出分岐パラメータを含み、前記調整された第１モーダルネットワークの各分岐パラメータは同じであることと、を含む。

また１つの可能な実現形態において、前記第１画像集合における画像は、第１アノテーション情報を含み、前記第２画像集合における画像は、第２アノテーション情報を含み、前記第４画像集合における画像は、第３アノテーション情報を含み、前記第１画像集合、前記第１認識結果及び前記第１損失関数、前記第２画像集合、前記第２認識結果及び前記第２損失関数、前記第４画像集合、前記第３認識結果及び前記第３損失関数に基づいて、前記第１モーダルネットワークのパラメータを調整し、調整された第１モーダルネットワークを得ることは、前記第１アノテーション情報、前記第１認識結果、前記第１損失関数及び前記第１特徴抽出分岐の初期パラメータに基づいて、第１勾配を得て、前記第２アノテーション情報、前記第２認識結果、前記第２損失関数及び前記第２特徴抽出分岐の初期パラメータに基づいて、第２勾配を得て、前記第３アノテーション情報、前記第３認識結果、前記第３損失関数及び前記第３特徴抽出分岐の初期パラメータに基づいて、第３勾配を得ることと、前記第１勾配、前記第２勾配及び前記第３勾配の平均値を前記第１モーダルネットワークの逆伝播勾配とし、前記逆伝播勾配により、前記第１モーダルネットワークのパラメータを調整し、前記第１特徴抽出分岐のパラメータ、前記第２特徴抽出分岐のパラメータ及び前記第３特徴抽出分岐のパラメータを同じくすることと、を含む。

また１つの可能な実現形態において、所定の条件に応じて、前記第１画像集合から、第１数の画像を選択し、前記第２画像集合から、第２数の画像を選択し、第３画像集合を得ることは、前記第１画像集合及び前記第２画像集合からそれぞれｆ枚の画像を選択し、前記ｆ枚の画像に含まれる人数を閾値となるようにし、前記第３画像集合を得ること、又は、前記第１画像集合及び前記第２画像集合から、ｍ枚の画像及びｎ枚の画像をそれぞれ選択し、前記ｍと前記ｎとの比を前記第１画像集合に含まれる画像の数と前記第２画像集合に含まれる画像の数との比と同じくし、且つ、前記ｍ枚の画像及び前記ｎ枚の画像に含まれる人数をいずれも前記閾値となるようにし、前記第３画像集合を得ること、又は、前記第１画像集合及び前記第２画像集合から、ｓ枚の画像及びｔ枚の画像をそれぞれ選択し、前記ｓと前記ｔとの比を前記第１画像集合に含まれる人数と前記第２画像集合に含まれる人数との比と同じくし、且つ、前記ｓ枚の画像及び前記ｔ枚の画像に含まれる人数をいずれも前記閾値となるようにし、前記第３画像集合を得ることを含む。

また１つの可能な実現形態において、前記第３画像集合に基づいて、前記第２モーダルネットワークを訓練し、前記クロスモーダル顔認識ネットワークを得ることは、前記第３画像集合における画像に対して特徴抽出処理、線形変換、非線形変換を順に行い、第４認識結果を得ることと、前記第３画像集合における画像、前記第４認識結果及び前記第２モーダルネットワークの第４損失関数に基づいて、前記第２モーダルネットワークのパラメータを調整し、前記クロスモーダル顔認識ネットワークを得ることと、を含む。

また１つの可能な実現形態において、前記第１カテゴリ及び前記第２カテゴリはそれぞれ異なる人種に対応する。

第２態様によれば、顔認識装置を提供する。前記装置は、認識待ち画像を取得するように構成される取得ユニットと、クロスモーダル顔認識ネットワークにより、前記認識待ち画像を認識し、前記認識待ち画像の認識結果を得るように構成される認識ユニットであって、前記クロスモーダル顔認識ネットワークは、異なるモーダルの顔画像データに基づいて訓練を行うことで得られたものである認識ユニットと、を備える。

可能な実現形態において、前記認識ユニットは、第１モーダルネットワーク及び第２モーダルネットワークに基づいて訓練を行うことで前記クロスモーダル顔認識ネットワークを得るように構成される訓練サブユニットを備える。

もう１つの可能な実現形態において、前記訓練サブユニットは更に、第１画像集合及び第２画像集合に基づいて、前記第１モーダルネットワークを訓練するように構成され、前記第１画像集合における対象は、第１カテゴリに属し、前記第２画像集合における対象は、第２カテゴリに属する。

また１つの可能な実現形態において、前記訓練サブユニットは更に、前記第１画像集合及び前記第２画像集合に基づいて、前記第１モーダルネットワークを訓練し、前記第２モーダルネットワークを得て、所定の条件に応じて、前記第１画像集合から、第１数の画像を選択し、前記第２画像集合から、第２数の画像を選択し、前記第１数の画像及び前記第２数の画像に基づいて、第３画像集合を得て、前記第３画像集合に基づいて、前記第２モーダルネットワークを訓練し、前記クロスモーダル顔認識ネットワークを得るように構成される。

また１つの可能な実現形態において、前記第１モーダルネットワークは、第１特徴抽出分岐と、第２特徴抽出分岐と、第３特徴抽出分岐と、を含み、前記訓練サブユニットは更に、前記第１画像集合を前記第１特徴抽出分岐に入力し、前記第２画像集合を前記第２特徴抽出分岐に入力し、第４画像集合を前記第３特徴抽出分岐に入力し、前記第１モーダルネットワークを訓練し、前記第４画像集合に含まれる画像は、同一のシーンで収集された画像又は同一の収集方式で収集された画像であり、訓練後の第１特徴抽出分岐、訓練後の第２特徴抽出分岐又は訓練後の第３特徴抽出分岐を前記第２モーダルネットワークとするように構成される。

また１つの可能な実現形態において、前記訓練サブユニットは更に、前記第１画像集合、前記第２画像集合及び前記第４画像集合をそれぞれ前記第１特徴抽出分岐、前記第２特徴抽出分岐及び前記第３特徴抽出分岐に入力し、第１認識結果、第２認識結果及び第３認識結果をそれぞれ得て、前記第１特徴抽出分岐の第１損失関数、前記第２特徴抽出分岐の第２損失関数及び前記第３特徴抽出分岐の第３損失関数を取得し、前記第１画像集合、前記第１認識結果及び前記第１損失関数、前記第２画像集合、前記第２認識結果及び前記第２損失関数、前記第４画像集合、前記第３認識結果及び前記第３損失関数に基づいて、前記第１モーダルネットワークのパラメータを調整し、調整された第１モーダルネットワークを得るように構成され、前記第１モーダルネットワークのパラメータは、第１特徴抽出分岐パラメータ、第２特徴抽出分岐パラメータ及び第３特徴抽出分岐パラメータを含み、前記調整された第１モーダルネットワークの各分岐パラメータは同じである。

また１つの可能な実現形態において、前記第１画像集合における画像は、第１アノテーション情報を含み、前記第２画像集合における画像は、第２アノテーション情報を含み、前記第４画像集合における画像は、第３アノテーション情報を含み、前記訓練サブユニットは更に、前記第１アノテーション情報、前記第１認識結果、前記第１損失関数及び前記第１特徴抽出分岐の初期パラメータに基づいて、第１勾配を得て、前記第２アノテーション情報、前記第２認識結果、前記第２損失関数及び前記第２特徴抽出分岐の初期パラメータに基づいて、第２勾配を得て、前記第３アノテーション情報、前記第３認識結果、前記第３損失関数及び前記第３特徴抽出分岐の初期パラメータに基づいて、第３勾配を得て、前記第１勾配、前記第２勾配及び前記第３勾配の平均値を前記第１モーダルネットワークの逆伝播勾配とし、前記逆伝播勾配により、前記第１モーダルネットワークのパラメータを調整し、前記第１特徴抽出分岐のパラメータ、前記第２特徴抽出分岐のパラメータ及び前記第３特徴抽出分岐のパラメータを同じくするように構成される。

また１つの可能な実現形態において、前記訓練サブユニットは更に、前記第１画像集合及び前記第２画像集合からそれぞれｆ枚の画像を選択し、前記ｆ枚の画像に含まれる人数を閾値となるようにし、前記第３画像集合を得るように構成され、又は、前記第１画像集合及び前記第２画像集合から、ｍ枚の画像及びｎ枚の画像をそれぞれ選択し、前記ｍと前記ｎとの比を前記第１画像集合に含まれる画像の数と前記第２画像集合に含まれる画像の数との比と同じくし、且つ、前記ｍ枚の画像及び前記ｎ枚の画像に含まれる人数をいずれも前記閾値となるようにし、前記第３画像集合を得るように構成され、又は、前記第１画像集合及び前記第２画像集合から、ｓ枚の画像及びｔ枚の画像をそれぞれ選択し、前記ｓと前記ｔとの比を前記第１画像集合に含まれる人数と前記第２画像集合に含まれる人数との比と同じくし、且つ、前記ｓ枚の画像及び前記ｔ枚の画像に含まれる人数をいずれも前記閾値となるようにし、前記第３画像集合を得るように構成される。

また１つの可能な実現形態において、前記訓練サブユニットは更に、前記第３画像集合における画像に対して特徴抽出処理、線形変換、非線形変換を順に行い、第４認識結果を得て、前記第３画像集合における画像、前記第４認識結果及び前記第２モーダルネットワークの第４損失関数に基づいて、前記第２モーダルネットワークのパラメータを調整し、前記クロスモーダル顔認識ネットワークを得るように構成される。

第３態様によれば、電子機器を提供する。前記電子機器は、プロセッサと、メモリと、を備え、前記プロセッサは、前記装置による上記第１態様及びそのいずれか１つの可能な実現形態の方法における機能の実行をサポートするように構成される。メモリは、プロセッサと結合し、前記装置に必要なプログラム（命令）及びデータを記憶するように構成される。任意選択的に、前記装置は、前記装置と他の装置との通信をサポートするための入力／出力インタフェースを更に備えてもよい。

第４態様によれば、コンピュータ可読記憶媒体を提供する。前記コンピュータ可読記憶媒体に命令が記憶されており、命令がコンピュータで実行される場合、コンピュータに、上記第１態様及びそのいずれか１つの可能な実現形態の方法を実行させる。

上記の一般的な説明及び後述する細部に関する説明は、例示及び説明のためのものに過ぎず、本願を限定するものではないことが理解されるべきである。

本願の実施例による顔認識方法を示すフローチャートである。本願の実施例による第１画像集合及び第２画像集合に基づいて第１モーダルネットワークを訓練するプロセスを示すフローチャートである。本願の実施例によるもう１つの顔認識ニューラルネットワークの訓練方法を示すフローチャートである。本願の実施例によるもう１つの顔認識ニューラルネットワークの訓練方法を示すフローチャートである。本願の実施例による人種に応じて分類を行うことで得られた画像集合に基づいてニューラルネットワークを訓練するプロセスを示すフローチャートである。本願の実施例による顔認識装置の構造を示す概略図である。本願の実施例による顔認識装置のハードウェア構造を示す概略図である。

本願の実施例又は背景技術における技術的解決手段をより明確に説明するために、以下、実施例又は背景技術の記述に必要な図面を簡単に説明する。

ここで添付した図面は、明細書に引き入れて本明細書の一部分を構成し、本発明に適合する実施例を示し、かつ、明細書とともに本出願の技術的解決手段を解釈することに用いられる。

当業者に本願の技術的解決手段をより良く理解させるために、以下、本願の実施例における図面を参照しながら、本願の実施例における技術的解決手段を明瞭かつ完全に説明する。勿論、記述される実施例は、全ての実施例ではなく、ただ本願の一部の実施例である。本願における実施例に基づいて、当業者が創造的な労力なしに得られる他の実施例の全ては、本発明の保護範囲に含まれる。

本願の明細書及び特許請求の範囲並びに上記図面に言及された「第１」、「第２」等の用語は、異なる対象を区別するためのものであり、特定の順番を説明するためのものではない。なお、「備える」と「有する」という用語及びそれらの変形は、非排他的な包含を網羅することを意図している。例えば、一連の工程又はユニットを含むプロセス、方法、システム、製品又は装置は、明記された工程又はユニットに限定されず、明記されていないか工程又はユニットを任意選択的に含んでもよく、又は、これらのプロセス、方法、製品又は装置固有の他の工程又はユニットを任意選択的に含んでもよい。

本明細書に言及した「実施例」は、実施例を参照しながら記述される特定の特徴、構造又は特徴が本願の少なくとも１つの実施例に含まれてもよいことを意味する。該用語が明細書中の異なる箇所に登場していても、必ずしもどれもが同一の実施例を指しているとは限らないし、必ずしも他の実施例と相互排他的である独立した実施例又は候補実施例を指しているとは限らない。本明細書に記述される実施例は、他の実施例と組み合わせることができることは、当業者が明示的又は暗黙的に理解すべきである。

本願の実施例において、人数は、人物対象の数に等しくない。例えば、画像Ａに、２つの対象が含まれ、それぞれ張三及び李四であり、画像Ｂに１つの対象が含まれ、張三であり、画像Ｃに２つの対象が含まれ、それぞれ張三及び李四である。従って、画像Ａ、画像Ｂ及び画像Ｃに含まれる人数は、２（張三及び李四）であり、画像Ａ、画像Ｂ及び画像Ｃに含まれる対象の数は、２＋１＋２＝５であり、つまり、人数が５である。

以下、本願の実施例における図面を参照しながら、本願の実施例を説明する。

図１を参照すると、図１は、本願の実施例による顔認識方法を示すフローチャートである。

１０１において、認識待ち画像を取得する。本願の実施例において、認識待ち画像は、ローカル端末（例えば、携帯電話、タブレット、ノートパソコンなど）に記憶される画像集合であってもよく、ビデオにおける任意のフレームの画像を認識待ち画像としてもよい。また、ビデオにおける任意のフレームの画像から顔領域画像を検出し、該顔領域画像を認識待ち画像としてもよい。

１０２において、クロスモーダル顔認識ネットワークにより、前記認識待ち画像を認識し、前記認識待ち画像の認識結果を得て、前記クロスモーダル顔認識ネットワークは、異なるモーダルの顔画像データに基づいて訓練を行うことで得られたものである。本願の実施例において、クロスモーダル顔認識ネットワークは、異なるカテゴリの対象を含む画像を認識することができる。例えば、２枚の画像における対象が同一の人物であるかを認識することができる。ここで、カテゴリは、人物の年齢に応じて分けられてもよく、人種に応じて分けられてもよく、地域に応じて分けられてもよい。例えば、０〜３歳の人物を第１カテゴリとし、４〜１０歳の人物を第２カテゴリとし、１１〜２０歳の人物を第３カテゴリとしてもよく、…、モンゴロイドを第１カテゴリとし、コーカソイドを第２カテゴリとし、ニグロイドを第３カテゴリとし、オーストラロイドを第４カテゴリとしてもよく、中国地域の人物を第１カテゴリとし、タイ地域の人物を第２カテゴリとし、インド地域の人物を第３カテゴリとし、カイロ地域の人物を第４カテゴリとし、アフリカ地域の人物を第５カテゴリとし、ヨーロッパ地域の人物を第６カテゴリとしてもよい。本願の実施例は、カテゴリの分類を限定するものではない。

幾つかの可能な実現形態において、携帯電話のカメラにより収集された対象顔領域画像及び事前記憶される顔領域画像を認識待ち画像集合として顔認識ニューラルネットワークに入力し、認識待ち画像集合に含まれる対象が同一の人物であるかどうかを認識する。別の幾つかの可能な実現形態において、カメラＡは、第１時刻で第１認識待ち画像を収集し、カメラＢは、第２時刻で第２認識待ち画像を収集し、第１認識待ち画像及び第２認識待ち画像を認識待ち画像集合として顔認識ニューラルネットワークに入力し、該２枚の認識待ち画像に含まれる対象が同一の人物であるかどうかを認識する。本願の実施例において、異なるモーダルの顔画像データは、異なるカテゴリの対象を含む画像集合を指す。クロスモーダル顔認識ネットワークは、異なるモーダルの顔画像集合を訓練集合として事前に訓練を行うことで得られたものである。クロスモーダル顔認識ネットワークは、画像から特徴を抽出する機能を有する任意のニューラルネットワークであってもよい。例えば、畳み込み層、非線形層、全結合層などのネットワークユニットを所定の方式でスタッキング又は構成してなるものであってもよく、既存のニューラルネットワーク構造であってもよく、本願は、クロスモーダル顔認識ネットワークの構造を具体的に限定するものではない。

可能な実現形態において、２枚の認識待ち画像をクロスモーダル顔認識ネットワークに入力する。クロスモーダル顔認識ネットワークは、認識待ち画像に対してそれぞれ特徴抽出処理を行い、異なる特徴を得る。更に、抽出した特徴を比較し、特徴マッチング度を得る。特徴マッチング度が特徴マッチング度閾値に達した場合、２枚の認識待ち画像における対象が同一の人物であると認識する。逆に、特徴マッチング度が特徴マッチング度閾値に達していない場合、２枚の認識待ち画像における対象が同一の人物ではないと認識する。本実施例は、カテゴリに応じて分けられた画像集合によりニューラルネットワークを訓練することで、クロスモーダル顔認識ネットワークを得る。クロスモーダル顔認識ネットワークにより、各カテゴリの対象が同一の人物であるかどうかを認識する。認識の正確率を向上させることができる。

下記実施例は、本願で提供される顔認識方法のステップ１０２の幾つかの可能な実現形態である。

第１モーダルネットワーク及び第２モーダルネットワークに基づいて訓練を行うことで、クロスモーダル顔認識ネットワークを得る。ここで、第１モーダルネットワーク及び第２モーダルネットワークは、画像から特徴を抽出する機能を有する任意のニューラルネットワークであってもよい。例えば、畳み込み層、非線形層、全結合層などのネットワークユニットを所定の方式でスタッキング又は構成してなるものであってもよく、既存のニューラルネットワーク構造であってもよく、本願は、クロスモーダル顔認識ネットワークの構造を具体的に限定するものではない。幾つかの可能な実現形態において、異なる画像集合を訓練集合として第１モーダルネットワーク及び第２モーダルネットワークに対してそれぞれ訓練を行い、第１モーダルネットワークに、異なるカテゴリの対象の特徴を学習させる。更に、第１モーダルネットワーク及び第２モーダルネットワークが学習した特徴を合計することで、クロスモーダルネットワークを得る。クロスモーダルネットワークを、異なるカテゴリの対象を認識できるようにする。任意選択的に、第１モーダルネットワーク及び第２モーダルネットワークに基づいて訓練を行うことで、クロスモーダル顔認識ネットワークを得る前に、第１画像集合及び第２画像集合に基づいて、第１モーダルネットワークを訓練する。ここで、第１画像集合及び第２画像集合における対象は、顔のみを含んでもよく、顔及び胴体などの他の部分を含んでもよく、本願は、これを具体的に限定するものではない。幾つかの可能な実現形態において、第１画像集合を訓練集合として第１モーダルネットワークを訓練し、第２モーダルニューラルネットワークを得て、第２モーダルネットワークを、第１カテゴリの対象を含む複数枚の画像における対象が同一の人物であるかどうかを認識できるようにする。第２画像集合を訓練集合として第２モーダルネットワークを訓練し、クロスモーダル顔認識ネットワークを得て、クロスモーダル顔認識ネットワークを、第１カテゴリの対象を含む複数枚の画像における対象が同一の人物であるかどうか、第２カテゴリの対象を含む複数枚の画像における対象が同一の人物であるかどうかを認識できるようにする。これにより、クロスモーダル顔認識ネットワークは、第１カテゴリの対象を認識する場合の認識率が高く、且つ、第２カテゴリの対象を認識する場合の認識率も高い。

別の幾つかの可能な実現形態において、第１画像集合及び第２画像集合における全ての画像を訓練集合として、第１モーダルネットワークを訓練し、クロスモーダル顔認識ネットワークを得る。クロスモーダル顔認識ネットワークを、第１カテゴリ又は第２カテゴリの対象を含む複数枚の画像における対象が同一の人物であるかどうかを認識できるようにする。また幾つかの可能な実現形態において、第１画像集合からａ枚の画像を選択し、第２画像集合からｂ枚の画像を選択し、訓練集合を得る。ここで、ａ：ｂは、所定の比率を満たす。更に、訓練集合により、第１モーダルネットワークを訓練し、クロスモーダル顔認識ネットワークを得て、クロスモーダル顔認識ネットワークが第１カテゴリ又は第２カテゴリの対象を含む複数枚の画像における人物対象が同一の人物であるかどうかを認識する場合の認識正確率を高くする。

クロスモーダル顔認識ネットワークは、特徴マッチング度に基づいて、異なる画像における対象が同一の人物であるかどうかを決定する。異なるカテゴリの顔特徴が大きく相違するため、異なるカテゴリの人物の特徴マッチング度閾値（該閾値に達すると、同一の人物と認識される）はいずれも異なる。本実施例で提供される訓練方法は、異なるカテゴリの対象を含む画像集合を併せて訓練することで、クロスモーダル顔認識ネットワークによる異なるカテゴリの人物対象の認識の特徴マッチング度の差異を減少させることができる。

本実施例は、カテゴリに応じて分けられる画像集合により、ニューラルネットワーク（第１モーダルネットワーク及び第２モーダルネットワーク）を訓練することで、ニューラルネットワークに、異なるカテゴリの対象の顔特徴を同時に学習させる。これにより、訓練で得られたクロスモーダル顔認識ネットワークは、各カテゴリの対象が同一の人物であるかどうかを認識する。認識の正確率を向上させることができる。異なるカテゴリの画像集合により、同時にニューラルネットワークを訓練することで、ニューラルネットワークによる異なるカテゴリの人物対象の認識の基準同士の差異を減少させることができる。

図２を参照すると、図２は、本願の実施例による第１画像集合及び第２画像集合に基づいて第１モーダルネットワークを訓練するための幾つかの可能な実現形態を示すフローチャートである。

２０１において、第１画像集合及び第２画像集合に基づいて第１モーダルネットワークを訓練し、第２モーダルネットワークを得て、第１画像集合における対象は第１カテゴリに属し、第２画像集合における対象は第２カテゴリに属する。本願の実施例において、種々の方式により、第１モーダルネットワークを取得することができる。幾つかの可能な実現形態において、他の装置から、第１モーダルネットワークを取得することができる。例えば、端末装置からの第１モーダルネットワークを受信する。別の幾つかの可能な実現形態において、第１モーダルネットワークは、ローカル端末に記憶されており、ローカル端末から、第１モーダルネットワークを呼び出すことができる。上述したように、第１画像集合に含まれる第１カテゴリは、第２画像集合に含まれる第２カテゴリと異なる。第１画像集合及び第２画像集合を訓練集合として第１モーダルネットワークを訓練することで、第１モーダルネットワークに、第１カテゴリ及び第２カテゴリの特徴を学習させ、第１カテゴリと第２カテゴリの対象が同一の人物であるかを認識する時の正確率を向上させることができる。幾つかの可能な実現形態において、第１画像集合に含まれる対象は、１１〜２０歳の人物であり、第２画像集合に含まれる対象は、２０〜３０歳の人物である。第１画像集合、第２画像集合を訓練集合として、第１モーダルネットワークを訓練することで得られた第２モーダルネットワークは、１１〜２０歳及び２０〜３０歳の対象に対する認識の正確率が高い。

２０２において、所定の条件に応じて、前記第１画像集合から、第１数の画像を選択し、前記第２画像集合から、第２数の画像を選択し、前記第１数の画像及び前記第２数の画像に基づいて、第３画像集合を得る。第１カテゴリの特徴と第２カテゴリの特徴が大きく相違しているため、ニューラルネットワークが、第１カテゴリの対象が同一の人物であるかどうかを認識するための認識基準も、第２カテゴリの対象が同一の人物であるかどうかを認識するための認識基準と異なる。ここで、認識基準は、抽出された異なる対象の特徴マッチング度であってもよい。例えば、２０〜３０歳の人物の顔立ち及び顔輪郭特徴が、０〜３歳の人物の顔立ち及び顔輪郭特徴よりも明らかであるため、訓練プロセスにおいて、ニューラルネットワークが学習した２０〜３０歳の対象の特徴は、０〜３０歳の対象の特徴より多い。従って、訓練後のニューラルネットワークは、より大きい特徴マッチング度で、０〜３歳の対象が同一の人物であるかどうかを認識する必要がある。例えば、０〜３歳の対象が同一の人物であるかどうかを認識する場合、特徴マッチング度が０．８以上である２つの対象が同一の人物であると判定し、特徴マッチング度が０．８未満である２つの対象が同一の人物ではないと判定する。ニューラルネットワークは、２０〜３０歳の対象が同一の人物であるかどうかを認識する場合、特徴マッチング度が０．６５以上である２つの対象が同一の人物であると判定し、特徴マッチング度が０．６５未満である２つの対象が同一の人物ではないと判定する。この場合、０〜３歳の対象のための認識基準により、２０〜３０歳の対象を認識すると、元々同一の人物である２つの対象が、同一の人物ではないと認識されることを引き起こしやすい。逆に、２０〜３０歳の対象のための認識基準により、０〜３歳の対象を認識すると、元々同一の人物ではない2つの対象が、同一の人物と認識されることを引き起こしやすい。

本願の実施例は、所定の条件に応じて、第１画像集合から、第１数の画像を選択し、第２画像集合から、第２数の画像を選択し、第１数の画像及び第２数の画像を訓練集合とすることで、第２モーダルネットワークが訓練過程において学習した異なるカテゴリの特徴の比率をより均一にし、異なるカテゴリの対象のための認識基準の差異を減少させることができる。幾つかの可能な実現形態において、第１画像集合から選択された第１数の画像に含まれる人数及び第２画像集合から選択された第２数の画像に含まれる人数をいずれもＸとすると、第１画像集合及び第２画像集合から選択された画像に含まれる人数を別々にＸに達すればよい。第１画像集合及び第２画像集合から選択された画像の数について限定しない。

２０３において、第３画像集合に基づいて、前記第２モーダルネットワークを訓練し、前記クロスモーダル顔認識ネットワークを得る。第３画像集合は、第１カテゴリ及び第２カテゴリを含み、且つ、第１カテゴリの人数及び第２カテゴリの人数は、所定の条件に応じて選択される。第３画像集合は、この点で、ランダムに選択された画像集合と相違する。第３画像集合を訓練集合として第２モーダルネットワークを訓練することで、第２モーダルネットワークによる第１カテゴリの特徴の学習と第２カテゴリの特徴の学習をより均一にすることができる。なお、第２モーダルネットワークに対して教師あり訓練を行うと、訓練プロセスにおいて、ｓｏｆｔｍａｘ関数により、各枚の画像における対象の属するカテゴリを分類し、アノテーション、分類結果及び損失関数により、第２モーダルネットワークのパラメータを調整する。幾つかの可能な実現形態において、第３画像集合における各対象は１つのラベルに対応する。例えば、画像Ａと画像Ｂにおける同一の対象のラベルは、いずれも１であり、画像Ｃにおけるもう１つの対象のラベルは、２である。ｓｏｆｔｍａｘ関数の表現式は、以下のとおりである。

ただし、ｔは、第３画像集合に含まれる人数であり、

は、対象がカテゴリ

に属する確率を表し、

は、ｓｏｆｔｍａｘ層に入力された特徴ベクトルのうちの

番目の数値であり、

は、ｓｏｆｔｍａｘ層に入力された特徴ベクトルのうちの

番目の数値である。ｓｏｆｔｍａｘ層の後に、損失関数を含む損失関数層が接続される。ｓｏｆｔｍａｘ層から出力された確率値、第３画像集合のラベル及び損失関数により、第２訓練待ちニューラルネットワークの逆伝播勾配を得ることができる。更に、逆伝播勾配に基づいて、第２訓練待ちニューラルネットワークに対して勾配逆伝播を行うことで、クロスモーダル顔認識ネットワークを得ることができる。第３画像集合に第１カテゴリの対象及び第２カテゴリの対象が含まれ、且つ第１カテゴリの人数及び第２カテゴリの人数が所定の条件を満たすため、第３画像集合を訓練集合として第２モーダルネットワークを訓練することで、第２モーダルネットワークに、第１カテゴリの顔特徴及び第２カテゴリの顔特徴の学習比率のバランスが取られるようにさせる。従って、最終的に得られたクロスモーダル顔認識ネットワークが第１カテゴリの対象が同一の人物であるかどうかを認識する場合の認識率を高くすると共に、第２カテゴリの対象が同一の人物であるかどうかを認識する場合の認識率を高くすることができる。幾つかの可能な実現形態において、損失関数の表現式は以下のとおりである。

ただし、ｔは、第３画像集合に含まれる人数であり、

は、人物対象がカテゴリ

に属する確率を表し、

は、第３画像集合における人物対象がカテゴリ

であるラベルである。例えば、第３画像集合に張三の画像が含まれ、ラベルが１であると、対象がカテゴリ１であるラベルは、１であり、且つ該対象が他の任意のカテゴリであるラベルは、いずれも０である。本願の実施例は、カテゴリに応じて分けられた第１画像集合及び第２画像集合を訓練集合として第１モーダルネットワークを訓練することで、第１モーダルネットワークによる第１カテゴリ及び第２カテゴリの認識の正確率を向上させる。第３画像集合を訓練集合として第２モーダルネットワークを訓練することで、第２モーダルネットワークに、第１カテゴリの顔特徴及び第２カテゴリの顔特徴の学習比率のバランスが取られるようにさせる。従って、訓練で得られたクロスモーダル顔認識ネットワークは、第１カテゴリの対象が同一の人物であるかどうかを認識する時の正確率が高いだけでなく、第２カテゴリの対象が同一の人物であるかどうかを認識する時の正確率も高い。

図３を参照すると、図３は、本願の実施例によるステップ２０１の可能な実現形態を示すフローチャートである。

３０１において、第１画像集合を第１特徴抽出分岐に入力し、第２画像集合を第２特徴抽出分岐に入力し、第４画像集合を第３特徴抽出分岐に入力し、第１モーダルネットワークを訓練し、第４画像集合に含まれる画像は、同一のシーンで収集された画像又は同一の収集方式で収集された画像である。本願の実施例において、第４画像集合に含まれる画像は、同一のシーンで収集された画像又は同一の収集方式で収集された画像である。例えば、第４画像集合に含まれる画像はいずれも、携帯電話により撮られた画像である。また例えば、第４画像集合に含まれる画像は、いずれも屋内で撮られた画像である。また例えば、第４画像集合に含まれる画像は、いずれも港で撮られた画像である。本願の実施例は、第４画像集合における画像のシーン及び収集方式を限定するものではない。本願の実施例において、第１モーダルネットワークは、第１特徴抽出分岐、第２特徴抽出分岐及び第３特徴抽出分岐を含み、ここで、第１特徴抽出分岐、第２特徴抽出分岐及び第３特徴抽出分岐はいずれも、画像から特徴を抽出する機能を有する任意のニューラルネットワーク構造である。例えば、畳み込み層、非線形層、全結合層などのネットワークユニットを所定の方式でスタッキング又は構成してなるものであってもよく、既存のニューラルネットワーク構造であってもよく、本願は、第１特徴抽出分岐、第２特徴抽出分岐及び第３特徴抽出分岐の構造を具体的に限定するものではない。本実施例において、第１画像集合、第２画像集合及び第４画像集合における画像は、それぞれ第１アノテーション情報、第２アノテーション情報及び第３アノテーション情報を含む。ここで、アノテーション情報は、画像に含まれる対象の番号を含む。例えば、第１画像集合、第２画像集合及び第４画像集合に含まれる人数は、いずれもＹ（Ｙは、１より大きい整数である）であり、第１画像集合、第２画像集合及び第４画像集合におけるいずれか一枚の画像にいずれも含まれる対象の番号は、１〜Ｙの間のいずれか１つの数字である。異なる画像における、同一人物の対象の番号は同じであることが理解されるべきである。例えば、画像Ａにおける対象が張三であり、画像Ｂにおける対象も張三であると、画像Ａにおける対象と画像Ｂにおける対象の番号は、同じである。逆に、画像Ｃにおける対象が李四であると、画像Ｃにおける対象の番号は、画像Ａにおける対象の番号と異なる。各画像集合に含まれる対象の顔特徴を該カテゴリの顔特徴の代表的なものにするために、任意選択的に、各画像集合に含まれる人数は、いずれも５０００人以上とする。本願の実施例は、画像集合における画像の数を限定するものではないことが理解されるべきである。本願の実施例において、第１特徴抽出分岐の初期パラメータ、第２特徴抽出分岐の初期パラメータ及び第３特徴抽出分岐の初期パラメータはそれぞれ、パラメータ調整が行われる前の第１特徴抽出分岐のパラメータ、パラメータ調整が行われる前の第２特徴抽出分岐のパラメータ及びパラメータ調整が行われる前の第３特徴抽出分岐のパラメータを指す。第１モーダルネットワークの各分岐は、第１特徴抽出分岐、第２特徴抽出分岐及び第３特徴抽出分岐を含む。第１画像集合を第１特徴抽出分岐に入力し、第２画像集合を第２特徴抽出分岐に入力し、第４画像集合を第３特徴抽出分岐に入力する。つまり、第１特徴抽出分岐により、第１画像集合に含まれる対象の顔特徴を学習し、第２特徴抽出分岐により、第２画像集合に含まれる対象の顔特徴を学習し、第３特徴抽出分岐により、第４画像集合に含まれる対象の顔特徴を学習し、各特徴抽出分岐のｓｏｆｔｍａｘ関数及び損失関数に基づいて、各特徴抽出分岐の逆伝播勾配を決定し、最後に、各特徴抽出分岐の逆伝播勾配に基づいて、第１モーダルネットワークの逆伝播勾配を決定し、第１モーダルネットワークのパラメータを調整する。第１モーダルネットワークのパラメータを調整することは、全ての特徴抽出分岐の初期パラメータを調整することであることが理解されるべきである。各特徴抽出分岐の逆伝播勾配がいずれも同じであるため、最終的に調整後のパラメータも同じである。各分岐の逆伝播勾配は、各特徴抽出分岐パラメータの調整方向を表す。つまり、特徴抽出分岐の逆伝播勾配により、分岐のパラメータを調整することで、特徴抽出分岐による対応するカテゴリ（入力された画像集合に含まれるカテゴリと同じである）の対象の認識の正確率を向上させることができる。第１特徴抽出分岐及び第２特徴抽出分岐の逆伝播勾配により、ニューラルネットワークのパラメータを調整することで、各分岐のパラメータの調整方向を結合して、バランスが取られた調整方向を得ることができる。第４画像集合に、特定のシーン又は特定の撮影方式で収集された画像が含まれるため、第３特徴抽出分岐の逆伝播勾配により第１モーダルネットワークのパラメータを調整することで、第１モーダルネットワークのロバスト性を向上させることができる（つまり、画像収集シーン及び画像収集方式に対するロバスト性が高い）。３つの特徴抽出分岐の逆伝播勾配で得られた逆伝播勾配により、第１モーダルネットワークのパラメータを調整することで、いずれか１つの特徴抽出分岐による対応するカテゴリ（第１画像集合及び第２画像集合に含まれるカテゴリのいずれか１つ）の対象の認識の正確率を高くすることができ、且つ、いずれか１つの特徴抽出分岐の、画像収集シーン及び画像収集方式に対するロバスト性を向上させることができる。

幾つかの可能な実現形態において、第１画像集合を第１特徴抽出分岐に入力し、第２画像集合を第２特徴抽出分岐に入力し、第４画像集合を第３特徴抽出分岐に入力し、特徴抽出処理、全結合層による処理、ｓｏｆｔｍａｘ層による処理を順に行い、第１認識結果、第２認識結果及び第３認識結果をそれぞれ得る。ここで、ｓｏｆｔｍａｘ層は、ｓｏｆｔｍａｘ函数を含み、該関数は、式（１）に示すとおりである。ここで、詳細な説明を省略する。第１認識結果、第２認識結果及び第３認識結果に、各対象の番号が異なる番号である確率が含まれる。例えば、第１画像集合、第２画像集合及び第４画像集合に含まれる人数がＹ（Ｙは、１より大きい整数である）であり、第１画像集合、第２画像集合及び第４画像集合におけるいずれか１枚の画像にいずれも含まれる人物対象に対応する番号が、いずれも１〜Ｙの間のいずれか１つの数字であると、第１認識結果は、第１画像集合に含まれる人物対象の番号がそれぞれ１〜Ｙである確率を含む。つまり、各対象の第１認識結果は、Ｙ個の確率を含む。同様に、第２認識結果は、第２画像集合に含まれる人物対象の番号がそれぞれ１〜Ｙである確率を含む。第３認識結果は、第４画像集合に含まれる人物対象の番号がそれぞれ１〜Ｙである確率を含む。各分岐において、ｓｏｆｔｍａｘ層の後に、損失関数を含む損失関数層が接続される。第１分岐の第１損失関数、第２分岐の第２損失関数及び第３分岐の第３損失関数を取得し、第１画像集合の第１アノテーション情報、第１認識結果及び第１損失関数に基づいて、第１損失を得て、第２画像集合の第２アノテーション情報、第２認識結果及び第２損失関数に基づいて、第２損失を得て、第４画像集合の第３アノテーション情報、第３認識結果及び第３損失関数に基づいて、第３損失を得る。第１損失関数、第２損失関数及び第３損失関数は式（２）に示すとおりである。ここで、詳細な説明を省略する。第１特徴抽出分岐のパラメータ、第２特徴抽出分岐のパラメータ及び第３特徴抽出分岐のパラメータを取得し、第１特徴抽出分岐のパラメータ及び第１損失に基づいて、第１勾配を得て、第２特徴抽出分岐のパラメータ及び第２損失に基づいて、第２勾配を得て、第３特徴抽出分岐のパラメータ及び第３損失に基づいて、第３勾配を得る。ここで、第１勾配、第２勾配及び第３勾配は、それぞれ第１特徴抽出分岐、第２特徴抽出分岐及び第３特徴抽出分岐の逆伝播勾配である。第１勾配、第２勾配及び第３勾配に基づいて、第１モーダルネットワークの逆伝播勾配を得て、勾配逆伝播の方式で、第１モーダルネットワークのパラメータを調整し、第１特徴抽出分岐のパラメータ、第２特徴抽出分岐及び第３特徴抽出分岐のパラメータを同じくする。幾つかの可能な実現形態において、第１勾配、第２勾配及び第３勾配の平均値を第１訓練待ちニューラルネットワークの逆伝播勾配とし、逆伝播勾配に基づいて、第１モーダルネットワークに対して勾配方向での伝播を行い、第１特徴抽出分岐のパラメータ、第２特徴抽出分岐及び第３特徴抽出分岐のパラメータを調整し、パラメータ調整後の第１特徴抽出分岐、第２特徴抽出分岐及び第３特徴抽出分岐のパラメータを同じくする。

３０２において、訓練後の第１特徴抽出分岐、訓練後の第２特徴抽出分岐又は訓練後の第３特徴抽出分岐を第２モーダルネットワークとする。３０１における処理により、訓練後の第１特徴抽出分岐、訓練後の第２特徴抽出分岐及び訓練後の第３特徴抽出分岐のパラメータは同じである。つまり、第１カテゴリ（第１画像集合に含まれるカテゴリ）、第２カテゴリ（第２画像集合に含まれるカテゴリ）の対象に対する認識正確率が高く、且つ、異なるシーンで収集された画像及び異なる収集方式で収集された画像に対する認識のロバスト性が高い。従って、訓練後の第１特徴抽出分岐、訓練後の第２特徴抽出分岐又は訓練後の第３特徴抽出分岐を次の訓練されるネットワークである第２モーダルネットワークとする。本願の実施例において、第１画像集合及び第２画像集合は、いずれもカテゴリに応じて選択された画像集合である。第４画像集合は、シーン及び撮影方式に応じて選択された画像集合である。第１画像集合により、第１特徴抽出分岐を訓練することで、第１特徴抽出分岐に、第１カテゴリの顔特徴の学習に重点を置かせることができる。第２画像集合により、第２特徴抽出分岐を訓練することで、第２特徴抽出分岐に、第２カテゴリの顔特徴の学習に重点を置かせることができる。第４画像集合により、第３特徴抽出分岐を訓練することで、第３特徴抽出分岐に、第４画像集合に含まれる対象の顔特徴の学習に重点を置かせることができる。第３特徴抽出分岐のロバスト性を向上させる。第１特徴抽出分岐の逆伝播勾配、第２特徴抽出分岐の逆伝播勾配及び第３特徴抽出分岐の逆伝播勾配に基づいて、第１モーダルネットワークの逆伝播勾配を得て、該勾配で、第１モーダルネットワークに対して勾配逆伝播を行うことで、３つの特徴抽出分岐のパラメータ調整方向を同時に配慮し、パラメータ調整後の第１モーダルネットワークのロバスト性を好適にし、且つ第１カテゴリ及び第２カテゴリの人物対象に対する認識の正確率を高くすることができる。下記実施例は、ステップ２０２の幾つかの可能な実現形態である。第２モーダルネットワークが第３画像集合に基づいて訓練を行う場合、第１カテゴリ及び第２カテゴリの特徴をバランス良く学習することを実現することができるように、所定の条件は、第１数と第２数が同じであることであってもよい。可能な実現形態において、第１画像集合及び第２画像集合からそれぞれｆ枚の画像を選択し、ｆ枚の画像に含まれる人数を閾値となるようにし、第３画像集合を得る。可能な実現形態において、閾値は、１０００である。第１画像集合及び第２画像集合からそれぞれｆ枚の画像を選択し、ｆ枚の画像に含まれる人数を１０００となるようにすればよい。ここで、ｆは、任意の正整数であってもよい。最後に、第１画像集合から選択されたｆ枚の画像及び第２画像集合から選択されたｆ枚の画像を第３画像集合とする。第２モーダルネットワークが第３画像集合に基づいて訓練を行う場合、第１カテゴリ及び第２カテゴリの特徴をより意図的に学習することを実現することができるように、所定の条件は、第１数と第２数との比が第１画像集合に含まれる画像の数と第２画像集合に含まれる画像の数との比に等しく、又は、第１数と第２数との比が第１画像集合に含まれる人数と第２画像集合に含まれる人数との比に等しいことであってもよい。従って、第２モーダルネットワークにより学習される第１カテゴリの特徴と第２カテゴリの特徴との比は、いずれも一定値であり、第１カテゴリの認識基準と第２カテゴリの認識基準との差異を補うことができる。可能な実現形態において、第１画像集合及び第２画像集合から、ｍ枚の画像及びｎ枚の画像をそれぞれ選択し、ｍとｎとの比を第１画像集合に含まれる画像の数と第２画像集合に含まれる画像の数との比と同じくし、且つ、ｍ枚の画像及びｎ枚の画像に含まれる人数をいずれも閾値となるようにし、第３画像集合を得る。幾つかの可能な実現形態において、第１画像集合に７０００枚の画像が含まれ、第２画像集合に８０００枚の画像が含まれ、閾値が１０００であり、第１画像集合から選択されたｍ枚の画像及び第２画像集合から選択されたｎ枚の画像に含まれる人数はいずれも１０００であり、且つｍ：ｎ＝７：８であり、ｍ、ｎは任意の正整数であってもよい。最後に、第１画像集合から選択されたｍ枚の画像及び第２画像集合から選択されたｎ枚の画像を第３画像集合とする。もう１つの可能な実現形態において、第１画像集合及び第２画像集合から、ｓ枚の画像及びｔ枚の画像をそれぞれ選択し、ｓとｔとの比を第１画像集合に含まれる人数と第２画像集合に含まれる人数との比と同じくし、且つ、ｓ枚の画像及びｔ枚の画像に含まれる人数をいずれも閾値となるようにし、第３画像集合を得る。幾つかの可能な実現形態において、第１画像集合に含まれる人数が６０００であり、第２画像集合に含まれる人数が７０００であり、閾値が１０００であり、第１画像集合から選択されたｓ枚の画像及び第２画像集合から選択されたｔ枚の画像に含まれる人数はいずれも１０００であり、且つｓ：ｔ＝６：７であり、ｓ、ｔは、任意の正整数であってもよい。最後に、第１画像集合から選択されたｓ枚の画像及び第２画像集合から選択されたｔ枚の画像を第３画像集合とする。

本実施例は、第１画像集合及び第２画像集合から画像を選択するための幾つかの方式を提供する。異なる選択方式により、異なる第３画像集合を得ることができる。具体的な訓練効果及び必要に応じて、異なる選択方式を選択することができる。

図４を参照すると、図４は、本願の実施例によるステップ２０３の可能な実現形態を示すフローチャートである。

４０１において、第３画像集合における画像に対して特徴抽出処理、線形変換、非線形変換を順に行い、第４認識結果を得る。まず、第２モーダルネットワークは、第３画像集合における画像に対して特徴抽出処理を行う。特徴抽出処理は、例えば、畳み込み、プーリングなどのような種々の方式で実現することができる。本願の実施例は、これを具体的に限定するものではない。幾つかの可能な実現形態において、第２モーダルネットワークは、複数層の畳み込み層を含む。複数層の畳み込み層により、第３画像集合における画像に対して層ずつ畳み込み処理を行うことで、第３画像集合における画像の特徴抽出処理を完成する。ここで、各畳み込み層により抽出された特徴のコンテンツ及びセマンティクス情報はいずれも異なる。具体的には、特徴抽出処理により、画像の特徴を次第に抽出すると共に、比較的副次的な特徴を次第に除去するため、処理の進行に伴い、抽出された特徴のサイズが小さくなり、コンテンツ及びセマンティクス情報は、凝縮したものになる。複数層の畳み込み層により、第３画像集合における画像に対して次第に畳み込み処理を行い、対応する特徴を抽出することで、決まったサイズの特徴画像を最終的に得る。従って、処理待ち画像の主なコンテンツ情報（即ち、第３画像集合における画像の特徴画像）を得ると共に、画像のサイズを縮小し、システムの演算量を減少させ、演算速度を向上させることができる。可能な実現形態において、畳み込み処理の実現プロセスは以下のとおりである。畳み込み層は、処理待ち画像に対して畳み込み処理を行う。つまり、畳み込みカーネルを利用して、第３画像集合における画像でスライドし、第３画像集合における画像での画素と対応する畳み込みカーネルでの数値を乗算し、続いて、全ての乗算後の値を加算して畳み込みカーネル中間画素に対応する画像での画素値とし、最後に、第３画像集合における画像での全ての画素に対してスライド処理を行い、対応する特徴画像を抽出する。畳み込み層の後に、全結合層が接続される。畳み込み層によって抽出された特徴画像に対して、全結合層により線形変換を行い、特徴画像における特徴をサンプル（即ち、対象の番号）マークスペースにマッピングすることができる。全結合層の後に、ｓｏｆｔｍａｘ層が接続される。抽出された特徴画像に対して、ｓｏｆｔｍａｘ層により処理を行い、第４認識結果を得る。ｓｏｆｔｍａｘ層の具体的な構成及び特徴画像の処理プロセスは、３０１を参照してもよい。ここで、詳細な説明を省略する。ここで、第４認識結果は、第３画像集合に含まれる対象の番号がそれぞれ１〜Ｚである（第３画像集合に含まれる人数がＺである）確率を含み、つまり、各対象の第４認識結果は、Ｚ個の確率を有する。

４０２において、第３画像集合における画像、第４認識結果及び第２モーダルネットワークの第４損失関数に基づいて、第２モーダルネットワークのパラメータを調整し、クロスモーダル顔認識ネットワークを得る。ｓｏｆｔｍａｘ層の後に、第４損失関数を含む損失関数層が接続される。第４損失関数の表現式は、式（２）に示すとおりである。第２訓練待ちニューラルネットワークに入力された第３画像集合に、異なるカテゴリの対象が含まれるため、ｓｏｆｔｍａｘ関数により、第４認識結果を得るプロセスにおいて、異なるカテゴリの対象の顔特徴を比較することで、異なるカテゴリの認識基準を正規化する。つまり、同一の認識基準で、異なるカテゴリの対象を認識し、最後に、第４認識結果及び第４損失関数により、第２モーダルネットワークのパラメータを調整し、パラメータ調整後の第２モーダルネットワークを、同一の認識基準で、異なるカテゴリの対象を認識するようにし、異なるカテゴリの対象の認識の正確率を向上させる。幾つかの可能な実現形態において、第１カテゴリの認識基準が０．８であり、第２カテゴリの認識基準が０．６５であり、４０２における訓練により、第２モーダルネットワークのパラメータ及び認識基準を調整し、最終的に、認識基準を０．７２と決定する。第２モーダルネットワークのパラメータは、認識基準の調整に伴って調整されるため、パラメータ調整後に得られたクロスモーダル顔認識ネットワークは、第１カテゴリの認識基準と第２カテゴリの認識基準との差異を減少する。

本願の実施例において、第３画像集合を訓練集合として第２モーダルネットワークに対して訓練を行い、異なるカテゴリの対象の顔特徴を比較し、異なるカテゴリの認識基準を正規化する。第２モーダルネットワークのパラメータを調整することで、パラメータ調整後に得られたクロスモーダル顔認識ネットワークは、第１カテゴリの対象が同一の人物であるかどうかを認識する時の正確率を高くするだけでなく、第２カテゴリの対象が同一の人物であるかどうかを認識する時の正確率も高くし、異なるカテゴリの対象が同一の人物であるかどうかを認識する場合の認識基準の差異を減少させる。上述したように、訓練用画像集合に含まれる人物対象のカテゴリは、人物の年齢に応じて分けられてもよく、人種に応じて分けられてもよく、地域に応じて分けられてもよい。本願は、人種に応じて分類され得られた画像集合に基づいてニューラルネットワークを訓練する方法を提供する。つまり、第１カテゴリ及び第２カテゴリはそれぞれ異なる人種に対応し、ニューラルネットワークによる異なる人種の対象の認識の正確率を向上させることができる。

図５を参照すると、図５は、本願による人種に応じて分類され得られた画像集合に基づいてニューラルネットワークを訓練する方法を示すフローチャートである。

５０１において、基礎画像集合、人種画像集合及び第３モーダルネットワークを取得する。本願の実施例において、基礎画像集合は、１つ又は複数の画像集合を含んでもよい。具体的には、第１１画像集合における画像は、いずれも屋内で収集された画像であり、第１２画像集合における画像は、いずれも港で収集された画像であり、第１３画像集合における画像は、いずれも野外で収集された画像であり、第１４画像集合における画像は、いずれも人群から収集された画像であり、第１５画像集合における画像は、いずれも証明書用画像であり、第１６画像集合における画像は、いずれも携帯電話により撮られた画像であり、第１７画像集合における画像は、いずれもカメラにより収集された画像であり、第１８画像集合における画像は、いずれもビデオからキャプチャされた画像であり、第１９画像集合における画像は、いずれもインターネットからダウンロードされた画像であり、第２０画像集合における画像は、いずれも名人画像に対して処理を行うことで得られた画像である。基礎画像集合におけるいずれか１つの画像集合に含まれる画像は、いずれも同一のシーンで収集された画像又は同一の収集方式で収集された画像であり、つまり、基礎画像集合における画像集合は、３０１における第４画像集合に対応することが理解されるべきである。中国地域の人物を第１人種とし、タイ地域の人物を第２カテゴリとし、インド地域の人物を第３カテゴリとし、カイロ地域の人物を第４カテゴリとし、アフリカ地域の人物を第５カテゴリとし、ヨーロッパ地域の人物を第６カテゴリとする。対応的に、６つの人種画像集合があり、それぞれ上記６個の人種を含む。具体的には、第５画像集合は、第１人種を含み、第６画像集合は、第２人種を含み、…第１０画像集合は、第６人種を含む。人種画像集合におけるいずれか１つの画像集合に含まれる対象は、いずれも同一の人種（即ち、同一のカテゴリ）であり、つまり、人種画像集合における画像集合は、１０１における第１画像集合又は第２画像集合に対応することが理解されるべきである。

各画像集合に含まれる対象の顔特徴を該カテゴリの顔特徴の代表的なものにするために、任意選択的に、各画像集合に含まれる人数は、いずれも５０００人以上とする。本願の実施例は、画像集合における画像の数を限定するものではないことが理解されるべきである。人種の分類方式は他の方式であってもよく、例えば、肌色に応じて人種を分類すると、モンゴロイド、コーカソイド、ニグロイド、オーストラロイドという４つの人種に分類されてもよく、本実施例は、人種の分類方式を限定するものではないことが理解されるべきである。基礎画像集合及び人種画像集合における対象は、顔のみを含んでもよく、顔及び胴体などの他の部分を含んでもよく、本願は、これを具体的に限定するものではない。本実施例において、第３モーダルネットワークは、画像から特徴を抽出する機能を有する任意のニューラルネットワークであってもよい。例えば、畳み込み層、非線形層、全結合層などのネットワークユニットを所定の方式でスタッキング又は構成してなるものであってもよく、既存のニューラルネットワーク構造であってもよく、本願は、第３モーダルネットワークの構造を具体的に限定するものではない。

５０２において、基礎画像集合及び人種画像集合に基づいて第３モーダルネットワークを訓練し、第４モーダルネットワークを得る。該ステップは、具体的に、２０１及び３０１〜３０２を参照することができ、ここで、詳細な説明を省略する。基礎画像集合に１０個の画像集合が含まれ、人種画像集合に６個の画像集合が含まれるため、対応的に、第３モーダルネットワークは、１６個の特徴抽出分岐を含み、つまり、各画像集合は、１つの特徴抽出分岐に対応することが理解されるべきである。５０２における処理により、第４モーダルネットワークが、異なる人種の対象が同一の人物であるかどうかを認識する時の正確率を向上させることができ、つまり、各人種の認識の正確率を向上させることができる。具体的には、第４モーダルネットワークにより第１人種、第２人種、第３人種、第４人種、第５人種、第６人種の対象が同一の人物であるかどうかをそれぞれ認識する場合、正確率がいずれも高く、且つ、第４モーダルネットワークの、異なるシーン又は異なる収集方式で収集された画像に対する認識のロバスト性が高い。

５０３において、人種画像集合に基づいて、第４モーダルネットワークを訓練し、異人種間顔認識ネットワークを得る。該ステップは具体的には２０２〜２０３及び４０１〜４０２を参照することができる。ここで、詳細な説明を省略する。５０３における処理により、得られた異人種間顔認識ネットワークが、異なる人種の対象が同一の人物であるかどうかを認識する時の認識基準の差異を減少させ、異人種間顔認識ネットワークは、異なる人種の対象の認識の正確率を向上させることができる。具体的には、異人種間顔認識ネットワークが、異なる画像における第１人種に属する対象が同一の人物であるかどうかを認識する時の正確率、異なる画像における第２人種に属する対象が同一の人物であるかどうかを認識する時の正確率、…、及び異なる画像における第６人種に属する対象が同一の人物であるかどうかを認識する時の正確率は、いずれも所定の値以上である。所定の値は、異人種間顔認識ネットワークによる各人種の認識の正確率がいずれも高いことを表し、本願は、所定値を具体的に限定するものではないことが理解されるべきである。任意選択的に、所定の値は、９８％である。任意選択的に、人種内の認識の正確率の向上及び異なる人種の認識基準の差異の減少を同時に実現させるために、５０２及び５０３を複数回繰り返してもよい。幾つかの可能な実現形態において、５０２における訓練方式で、第３モーダルネットワークを１０万回訓練する。後続の１０〜１５万回の訓練において、５０２における訓練方式の比重は、次第に０まで低減し、５０３における訓練方式の比重は、次第に１までに向上する。１５〜２５万回の訓練は、いずれも５０３における訓練方式で実行される。次の２５〜３０万回の訓練において、５０３における訓練方式の比重は、次第に０まで低減し、５０２における訓練方式の比重は、次第に１までに向上する。最後に、第３０〜４０万回の訓練において、５０２における訓練方式及び５０３における訓練方式はそれぞれ半数を占める。本願の実施例は、各段階の回数の具体的な数値、５０２における訓練方式及び５０３における訓練方式の比重を限定するものではないことが理解されるべきである。本実施例で得られた異人種間顔認識ネットワークは、複数の人種の対象が同一の人物であるかどうかを認識することができ、且つ認識の正確率が高い。例えば、異人種間顔認識ネットワークを適用することで、中国地域の人種を認識できるだけでなく、カイロ地域の人種を認識でき、更に、ヨーロッパ地域の人種を認識できる。且つ各人種の認識正確率が高い。従って、顔認識アルゴリズムが、１つの人種を認識する時の正確率が高いが、他の人種を認識する時の正確率が低いという問題を解決することができる。なお、本実施例を適用することで、異人種間顔認識ネットワークによる異なるシーン又は異なる収集方式で収集された画像の認識のロバスト性を向上させることもできる。具体的な実施形態の上記方法において、各ステップの記述順番は、厳しい実行順番として実施過程を限定するものではなく、各ステップの具体的な実行順番はその機能及び考えられる内在的論理により決まることは、当業者であれば理解すべきである。

以上は、本願の実施例の方法を詳しく説明したが、以下、本願の実施例の装置を提供する。

図６を参照すると、図６は、本願の実施例による顔認識装置の構造を示す概略図である。該認識装置１は、取得ユニット１１と、認識ユニット１２と、を備える。ここで、取得ユニット１１は、認識待ち画像を取得するように構成され、認識ユニット１２は、クロスモーダル顔認識ネットワークにより、前記認識待ち画像を認識し、前記認識待ち画像の認識結果を得るように構成され、前記クロスモーダル顔認識ネットワークは、異なるモーダルの顔画像データに基づいて訓練を行うことで得られたものである。

更に、前記認識ユニット１２は、第１モーダルネットワーク及び第２モーダルネットワークに基づいて訓練を行うことで前記クロスモーダル顔認識ネットワークを得るように構成される訓練サブユニット１２１を備える。

更に、前記訓練サブユニット１２１は更に、第１画像集合及び第２画像集合に基づいて、前記第１モーダルネットワークを訓練するように構成され、前記第１画像集合における対象は、第１カテゴリに属し、前記第２画像集合における対象は、第２カテゴリに属する。更に、前記訓練サブユニット１２１は更に、前記第１画像集合及び前記第２画像集合に基づいて、前記第１モーダルネットワークを訓練し、前記第２モーダルネットワークを得て、所定の条件に応じて、前記第１画像集合から、第１数の画像を選択し、前記第２画像集合から、第２数の画像を選択し、前記第１数の画像及び前記第２数の画像に基づいて、第３画像集合を得て、前記第３画像集合に基づいて、前記第２モーダルネットワークを訓練し、前記クロスモーダル顔認識ネットワークを得るように構成される。更に、前記所定の条件は、前記第１数が前記第２数と同じであること、前記第１数と前記第２数との比が、前記第１画像集合に含まれる画像の数と前記第２画像集合に含まれる画像の数との比に等しいこと、前記第１数と前記第２数との比が、前記第１画像集合に含まれる人数と前記第２画像集合に含まれる人数との比に等しいこと、のうちのいずれか１つを含む。更に、前記第１モーダルネットワークは、第１特徴抽出分岐と、第２特徴抽出分岐と、第３特徴抽出分岐と、を含み、前記訓練サブユニット１２１は更に、前記第１画像集合を前記第１特徴抽出分岐に入力し、前記第２画像集合を前記第２特徴抽出分岐に入力し、第４画像集合を前記第３特徴抽出分岐に入力し、前記第１モーダルネットワークを訓練し、前記第４画像集合に含まれる画像は、同一のシーンで収集された画像又は同一の収集方式で収集された画像であり、訓練後の第１特徴抽出分岐、訓練後の第２特徴抽出分岐又は訓練後の第３特徴抽出分岐を前記第２モーダルネットワークとするように構成される。更に、前記訓練サブユニット１２１は更に、前記第１画像集合、前記第２画像集合及び前記第４画像集合をそれぞれ前記第１特徴抽出分岐、前記第２特徴抽出分岐及び前記第３特徴抽出分岐に入力し、第１認識結果、第２認識結果及び第３認識結果をそれぞれ得て、前記第１特徴抽出分岐の第１損失関数、前記第２特徴抽出分岐の第２損失関数及び前記第３特徴抽出分岐の第３損失関数を取得し、前記第１画像集合、前記第１認識結果及び前記第１損失関数、前記第２画像集合、前記第２認識結果及び前記第２損失関数、前記第４画像集合、前記第３認識結果及び前記第３損失関数に基づいて、前記第１モーダルネットワークのパラメータを調整し、調整された第１モーダルネットワークを得るように構成され、前記第１モーダルネットワークのパラメータは、第１特徴抽出分岐パラメータ、第２特徴抽出分岐パラメータ及び第３特徴抽出分岐パラメータを含み、前記調整された第１モーダルネットワークの各分岐パラメータは同じである。更に、前記第１画像集合における画像は、第１アノテーション情報を含み、前記第２画像集合における画像は、第２アノテーション情報を含み、前記第４画像集合における画像は、第３アノテーション情報を含み、前記訓練サブユニット１２１は更に、前記第１アノテーション情報、前記第１認識結果、前記第１損失関数及び前記第１特徴抽出分岐の初期パラメータに基づいて、第１勾配を得て、前記第２アノテーション情報、前記第２認識結果、前記第２損失関数及び前記第２特徴抽出分岐の初期パラメータに基づいて、第２勾配を得て、前記第３アノテーション情報、前記第３認識結果、前記第３損失関数及び前記第３特徴抽出分岐の初期パラメータに基づいて、第３勾配を得て、前記第１勾配、前記第２勾配及び前記第３勾配の平均値を前記第１モーダルネットワークの逆伝播勾配とし、前記逆伝播勾配により、前記第１モーダルネットワークのパラメータを調整し、前記第１特徴抽出分岐のパラメータ、前記第２特徴抽出分岐のパラメータ及び前記第３特徴抽出分岐のパラメータを同じくするように構成される。更に、前記訓練サブユニット１２１は更に、前記第１画像集合及び前記第２画像集合からそれぞれｆ枚の画像を選択し、前記ｆ枚の画像に含まれる人数を閾値となるようにし、前記第３画像集合を得るように構成され、又は、前記第１画像集合及び前記第２画像集合から、ｍ枚の画像及びｎ枚の画像をそれぞれ選択し、前記ｍと前記ｎとの比を前記第１画像集合に含まれる画像の数と前記第２画像集合に含まれる画像の数との比と同じくし、且つ、前記ｍ枚の画像及び前記ｎ枚の画像に含まれる人数をいずれも前記閾値となるようにし、前記第３画像集合を得るように構成され、又は、前記第１画像集合及び前記第２画像集合から、ｓ枚の画像及びｔ枚の画像をそれぞれ選択し、前記ｓと前記ｔとの比を前記第１画像集合に含まれる人数と前記第２画像集合に含まれる人数との比と同じくし、且つ、前記ｓ枚の画像及び前記ｔ枚の画像に含まれる人数をいずれも前記閾値となるようにし、前記第３画像集合を得るように構成される。更に、前記訓練サブユニット１２１は更に、前記第３画像集合における画像に対して特徴抽出処理、線形変換、非線形変換を順に行い、第４認識結果を得て、前記第３画像集合における画像、前記第４認識結果及び前記第２モーダルネットワークの第４損失関数に基づいて、前記第２モーダルネットワークのパラメータを調整し、前記クロスモーダル顔認識ネットワークを得るように構成される。更に、前記第１カテゴリ及び前記第２カテゴリはそれぞれ異なる人種に対応する。幾つかの実施例において、本願の実施例で提供される装置における機能及びモジュールは、上記方法実施例に記載の方法を実行するために用いられ、具体的な実現形態は上記方法実施例の説明を参照されたい。簡潔化のために、ここで詳細な説明を省略する。

図７は、本願の実施例による顔認識装置のハードウェア構造を示す概略図である。該認識装置２は、プロセッサ２１を備え、入力装置２２と、出力装置２３と、メモリ２４と、を更に備えてもよい。該入力装置２２、出力装置２３、メモリ２４及びプロセッサ２１は、バスを介して相互接続される。メモリは、ランダムアクセスメモリ（ｒａｎｄｏｍａｃｃｅｓｓｍｅｍｏｒｙ：ＲＡＭ）、読出し専用メモリ（ｒｅａｄ−ｏｎｌｙｍｅｍｏｒｙ：ＲＯＭ）、消去可能なプログラマブル読出し専用メモリ（ｅｒａｓａｂｌｅｐｒｏｇｒａｍｍａｂｌｅｒｅａｄｏｎｌｙｍｅｍｏｒｙ：ＥＰＲＯＭ）、又はコンパクトディスク読出し専用メモリ（ｃｏｍｐａｃｔｄｉｓｃｒｅａｄ−ｏｎｌｙｍｅｍｏｒｙ：ＣＤ−ＲＯＭ）を含むが、これらに限定されない。該メモリは、関連命令及びデータを記憶するように構成される。入力装置は、データ及び／又は信号を入力するように構成され、出力装置は、データ及び／又は信号を出力するように構成される。出力装置及び入力装置は独立した機器であってもよく、一体型機器であってもよい。プロセッサは、１つ又は複数のプロセッサを含んでもよく、例えば、１つ又は複数の中央演算装置（ｃｅｎｔｒａｌｐｒｏｃｅｓｓｉｎｇｕｎｉｔ：ＣＰＵ）を含む。プロセッサが１つのＣＰＵである場合、該ＣＰＵは、シングルコアＣＰＵであってもよく、マルチコアＣＰＵであってもよい。メモリは、ネットワーク装置のプログラムコード及びデータを記憶するように構成される。プロセッサは、該メモリにおけるプログラムコード及びデータを呼び出して、上記方法実施例における工程を実行するように構成される。具体的には、方法実施例における説明を参照されたい。ここで、詳細な説明を省略する。図７に顔認識装置の簡略化した設計のみが示されることが理解されるべきである。実際の適用において、顔認識装置は、必要な他の素子を更に備えてもよく、任意の数の入力／出力装置、プロセッサ、コントローラ、メモリなどを含むが、これらに限定されない。本願の実施例を実現できる全ての顔認識装置は、いずれも本願の保護範囲内に含まれる。本明細書に開示されている実施例に記載の各例におけるユニット及びアルゴリズムステップと合わせて、本願は、電子ハードウェア又は電子ハードウェアとコンピュータソフトウェアの組み合わせにより実現することができることは、当業者であれば容易に理解すべきである。機能がハードウェアによって実行されるか、あるいは、コンピュータソフトウェアによるハードウェア駆動の形態で実行されるかは、技術的解決手段の、特定の適用例、及び設計制約条件に依存する。当業者は、特定の適用について、説明された機能を異なる方法で実現させることができるが、このような実現も本願の範囲に属する。便利で簡潔に説明するために、上記説明されたシステムと、装置とユニットとの具体的な作動過程は、前記方法実施例における過程を参照することができるから、ここで詳しく説明しないようにすることは、当業者にはっきり理解されるべきである。本願の各々の実施例に対する説明はそれぞれ偏りがあって、便利で簡潔に説明するために、同様又は類似した部分は異なる実施例において重複して説明されていないことがあるため、ある実施例に詳しく説明されていない部分に対して、ほかの実施例に関する説明を参照することができることは、当業者にもはっきり理解されるべきである。本願で提供される幾つかの実施例において、開示される装置及び方法は、他の方式によって実現できることを理解すべきである。例えば、以上に記載した装置の実施例はただ例示的なもので、例えば、前記ユニットの分割はただロジック機能の分割で、実際に実現する時は他の分割方式によってもよい。例えば、複数のユニット又は組立体を組み合わせてもよいし、別のシステムに組み込んでもよい。又は若干の特徴を無視してもよいし、実行しなくてもよい。また、示したか或いは検討した相互間の結合又は直接的な結合又は通信接続は、幾つかのインタフェース、装置又はユニットによる間接的な結合又は通信接続であってもよく、電気的、機械的または他の形態であってもよい。分離部材として説明したモジュールは、物理的に別個のものであってもよいし、そうでなくてもよい。ユニットとして示された部材は、物理的ユニットであってもよいし、そうでなくてもよい。即ち、同一の位置に位置してもよいし、複数のネットワークに分布してもよい。実際の需要に応じてそのうちの一部又は全てのユニットにより本実施例の方策の目的を実現することができる。

また、本発明の各実施例における各機能ユニットは一つの処理ユニットに集積されてもよいし、各ユニットが物理的に別個のものとして存在してもよいし、２つ以上のユニットが一つのユニットに集積されてもよい。上記実施例において、全て又は一部は、ソフトウェア、ハードウェア、ファームウェア又はそれらの任意の組み合わせにより実現してもよい。ソフトウェアにより実現する場合、全て又は一部をコンピュータプログラム製品の形式で実現してもよい。前記コンピュータプログラム製品は、１つ又は複数のコンピュータ命令を含む。コンピュータで前記コンピュータプログラム命令をロードして実行する時、本願の実施例に記載の手順又は機能が全部又は部分的に生成される。前記コンピュータは、汎用コンピュータ、専用コンピュータ、コンピュータネットワーク、又は他のプログラマブルデバイスであってもよい。前記コンピュータ命令は、コンピュータ可読記憶媒体に記憶されてもよく、又は、前記コンピュータ可読記憶媒体により伝送されてもよい。前記コンピュータ命令を、１つのウェブサイト、コンピュータ、サーバ又はデータセンタから、有線（例えば、同軸ケーブル、光ファイバー、デジタル加入者回線（ｄｉｇｉｔａｌｓｕｂｓｃｒｉｂｅｒｌｉｎｅ：ＤＳＬ））又は無線（例えば、赤外、無線、マイクロウェーブ等）の方式で、もう１つのウェブサイト、コンピュータ、サーバ又はデータセンタに伝送することができる。前記コンピュータ可読記憶媒体は、コンピュータによってアクセスされ得る任意の利用可能な媒体であってもよく、又は、１つ又は複数の利用可能な媒体で集積されたサーバ、データセンタなどのデータ記憶装置であってもよい。前記利用可能ば媒体は、磁気媒体（例えば、フレキシブルディスク、ハードディスク、磁気ディスク）、光媒体（例えば、デジタルバーサタイルディスク（ｄｉｇｉｔａｌｖｅｒｓａｔｉｌｅｄｉｓｃ：ＤＶＤ））、又は半導体媒体（例えば、ソリッドステートドライブ（ｓｏｌｉｄｓｔａｔｅｄｉｓｋ：ＳＳＤ））等であってもよい。

上記実施例における各方法の全ての又は一部のステップを、プログラムにより関連ハードウェアを命令することで実行することができることは、当業者であれば理解されるべきである。該プログラムは、コンピュータ可読記憶媒体に記憶されてもよい。該プログラムが実行される時、上記各方法の実施例のプロセスを含んでもよい。前記記憶媒体は、読み出し専用メモリ（ｒｅａｄ−ｏｎｌｙｍｅｍｏｒｙ：ＲＯＭ）又はランダムアクセスメモリ（ｒａｎｄｏｍａｃｃｅｓｓｍｅｍｏｒｙ：ＲＡＭ）、磁気ディスク又は光ディスクなど、プログラムコードを記憶可能な各種の媒体を含む。本願の実施例の目的、技術的解決手段及び利点をより明確にするために、以下、本願の実施例における図面を参照しながら、本願の具体的な技術的解決手段を更に詳しく説明する。下記実施例は、本願を説明するためのものに過ぎず、本願の範囲を限定するものではない。

第４態様によれば、コンピュータ可読記憶媒体を提供する。前記コンピュータ可読記憶媒体に命令が記憶されており、命令がコンピュータで実行される場合、コンピュータに、上記第１態様及びそのいずれか１つの可能な実現形態の方法を実行させる。
例えば、本願は以下の項目を提供する。
（項目１）
顔認識方法であって、前記方法は、
認識待ち画像を取得することと、
クロスモーダル顔認識ネットワークにより、前記認識待ち画像を認識し、前記認識待ち画像の認識結果を得ることであって、前記クロスモーダル顔認識ネットワークは、異なるモーダルの顔画像データに基づいて訓練を行うことで得られたものであることと、を含む、顔認識方法。
（項目２）
異なるモーダルの顔画像データに基づいて訓練を行うことで前記クロスモーダル顔認識ネットワークを得るプロセスは、
第１モーダルネットワーク及び第２モーダルネットワークに基づいて訓練を行うことで前記クロスモーダル顔認識ネットワークを得ることを含むことを特徴とする
項目１に記載の方法。
（項目３）
第１モーダルネットワーク及び第２モーダルネットワークに基づいて訓練を行うことで前記クロスモーダル顔認識ネットワークを得る前に、
第１画像集合及び第２画像集合に基づいて、前記第１モーダルネットワークを訓練することを更に含み、前記第１画像集合における対象は、第１カテゴリに属し、前記第２画像集合における対象は、第２カテゴリに属することを特徴とする
項目２に記載の方法。
（項目４）
第１画像集合及び第２画像集合に基づいて、前記第１モーダルネットワークを訓練することは、
前記第１画像集合及び前記第２画像集合に基づいて、前記第１モーダルネットワークを訓練し、前記第２モーダルネットワークを得ることと、
所定の条件に応じて、前記第１画像集合から、第１数の画像を選択し、前記第２画像集合から、第２数の画像を選択し、前記第１数の画像及び前記第２数の画像に基づいて、第３画像集合を得ることと、
前記第３画像集合に基づいて、前記第２モーダルネットワークを訓練し、前記クロスモーダル顔認識ネットワークを得ることと、を含むことを特徴とする
項目３に記載の方法。
（項目５）
前記所定の条件は、前記第１数が前記第２数と同じであること、前記第１数と前記第２数との比が、前記第１画像集合に含まれる画像の数と前記第２画像集合に含まれる画像の数との比に等しいこと、前記第１数と前記第２数との比が、前記第１画像集合に含まれる人数と前記第２画像集合に含まれる人数との比に等しいこと、のうちのいずれか１つを含むことを特徴とする
項目４に記載の方法。
（項目６）
前記第１モーダルネットワークは、第１特徴抽出分岐と、第２特徴抽出分岐と、第３特徴抽出分岐と、を含み、
前記第１画像集合及び前記第２画像集合に基づいて、前記第１モーダルネットワークを訓練し、前記第２モーダルネットワークを得ることは、
前記第１画像集合を前記第１特徴抽出分岐に入力し、前記第２画像集合を前記第２特徴抽出分岐に入力し、第４画像集合を前記第３特徴抽出分岐に入力し、前記第１モーダルネットワークを訓練することであって、前記第４画像集合に含まれる画像は、同一のシーンで収集された画像又は同一の収集方式で収集された画像であることと、
訓練後の第１特徴抽出分岐、訓練後の第２特徴抽出分岐又は訓練後の第３特徴抽出分岐を前記第２モーダルネットワークとすることと、を含むことを特徴とする
項目２又は４に記載の方法。
（項目７）
前記第１画像集合を前記第１特徴抽出分岐に入力し、前記第２画像集合を前記第２特徴抽出分岐に入力し、第４画像集合を前記第３特徴抽出分岐に入力し、前記第１モーダルネットワークを訓練することは、
前記第１画像集合、前記第２画像集合及び前記第４画像集合をそれぞれ前記第１特徴抽出分岐、前記第２特徴抽出分岐及び前記第３特徴抽出分岐に入力し、第１認識結果、第２認識結果及び第３認識結果をそれぞれ得ることと、
前記第１特徴抽出分岐の第１損失関数、前記第２特徴抽出分岐の第２損失関数及び前記第３特徴抽出分岐の第３損失関数を取得することと、
前記第１画像集合、前記第１認識結果及び前記第１損失関数、前記第２画像集合、前記第２認識結果及び前記第２損失関数、前記第４画像集合、前記第３認識結果及び前記第３損失関数に基づいて、前記第１モーダルネットワークのパラメータを調整し、調整された第１モーダルネットワークを得ることであって、前記第１モーダルネットワークのパラメータは、第１特徴抽出分岐パラメータ、第２特徴抽出分岐パラメータ及び第３特徴抽出分岐パラメータを含み、前記調整された第１モーダルネットワークの各分岐パラメータは同じであることと、を含むことを特徴とする
項目６に記載の方法。
（項目８）
前記第１画像集合における画像は、第１アノテーション情報を含み、前記第２画像集合における画像は、第２アノテーション情報を含み、前記第４画像集合における画像は、第３アノテーション情報を含み、
前記第１画像集合、前記第１認識結果及び前記第１損失関数、前記第２画像集合、前記第２認識結果及び前記第２損失関数、前記第４画像集合、前記第３認識結果及び前記第３損失関数に基づいて、前記第１モーダルネットワークのパラメータを調整し、調整された第１モーダルネットワークを得ることは、
前記第１アノテーション情報、前記第１認識結果、前記第１損失関数及び前記第１特徴抽出分岐の初期パラメータに基づいて、第１勾配を得て、前記第２アノテーション情報、前記第２認識結果、前記第２損失関数及び前記第２特徴抽出分岐の初期パラメータに基づいて、第２勾配を得て、前記第３アノテーション情報、前記第３認識結果、前記第３損失関数及び前記第３特徴抽出分岐の初期パラメータに基づいて、第３勾配を得ることと、
前記第１勾配、前記第２勾配及び前記第３勾配の平均値を前記第１モーダルネットワークの逆伝播勾配とし、前記逆伝播勾配により、前記第１モーダルネットワークのパラメータを調整し、前記第１特徴抽出分岐のパラメータ、前記第２特徴抽出分岐のパラメータ及び前記第３特徴抽出分岐のパラメータを同じくすることと、を含むことを特徴とする
項目７に記載の方法。
（項目９）
所定の条件に応じて、前記第１画像集合から、第１数の画像を選択し、前記第２画像集合から、第２数の画像を選択し、第３画像集合を得ることは、
前記第１画像集合及び前記第２画像集合からそれぞれｆ枚の画像を選択し、前記ｆ枚の画像に含まれる人数を閾値となるようにし、前記第３画像集合を得ること、又は、
前記第１画像集合及び前記第２画像集合から、ｍ枚の画像及びｎ枚の画像をそれぞれ選択し、前記ｍと前記ｎとの比を前記第１画像集合に含まれる画像の数と前記第２画像集合に含まれる画像の数との比と同じくし、且つ、前記ｍ枚の画像及び前記ｎ枚の画像に含まれる人数をいずれも前記閾値となるようにし、前記第３画像集合を得ること、又は、
前記第１画像集合及び前記第２画像集合から、ｓ枚の画像及びｔ枚の画像をそれぞれ選択し、前記ｓと前記ｔとの比を前記第１画像集合に含まれる人数と前記第２画像集合に含まれる人数との比と同じくし、且つ、前記ｓ枚の画像及び前記ｔ枚の画像に含まれる人数をいずれも前記閾値となるようにし、前記第３画像集合を得ることを含むことを特徴とする
項目４又は５に記載の方法。
（項目１０）
前記第３画像集合に基づいて、前記第２モーダルネットワークを訓練し、前記クロスモーダル顔認識ネットワークを得ることは、
前記第３画像集合における画像に対して特徴抽出処理、線形変換、非線形変換を順に行い、第４認識結果を得ることと、
前記第３画像集合における画像、前記第４認識結果及び前記第２モーダルネットワークの第４損失関数に基づいて、前記第２モーダルネットワークのパラメータを調整し、前記クロスモーダル顔認識ネットワークを得ることと、を含むことを特徴とする
項目３に記載の方法。
（項目１１）
前記第１カテゴリ及び前記第２カテゴリはそれぞれ異なる人種に対応することを特徴とする
項目１から５、７、８、１０のうちいずれか一項に記載の方法。
（項目１２）
顔認識装置であって、前記装置は、
認識待ち画像を取得するように構成される取得ユニットと、
クロスモーダル顔認識ネットワークにより、前記認識待ち画像を認識し、前記認識待ち画像の認識結果を得るように構成される認識ユニットであって、前記クロスモーダル顔認識ネットワークは、異なるモーダルの顔画像データに基づいて訓練を行うことで得られたものである認識ユニットと、を備える、顔認識装置。
（項目１３）
前記認識ユニットは、
第１モーダルネットワーク及び第２モーダルネットワークに基づいて訓練を行うことで前記クロスモーダル顔認識ネットワークを得るように構成される訓練サブユニットを備えることを特徴とする
項目１２に記載の装置。
（項目１４）
前記訓練サブユニットは更に、
第１画像集合及び第２画像集合に基づいて、前記第１モーダルネットワークを訓練するように構成され、前記第１画像集合における対象は、第１カテゴリに属し、前記第２画像集合における対象は、第２カテゴリに属することを特徴とする
項目１３に記載の装置。
（項目１５）
前記訓練サブユニットは更に、
前記第１画像集合及び前記第２画像集合に基づいて、前記第１モーダルネットワークを訓練し、前記第２モーダルネットワークを得て、
所定の条件に応じて、前記第１画像集合から、第１数の画像を選択し、前記第２画像集合から、第２数の画像を選択し、前記第１数の画像及び前記第２数の画像に基づいて、第３画像集合を得て、
前記第３画像集合に基づいて、前記第２モーダルネットワークを訓練し、前記クロスモーダル顔認識ネットワークを得るように構成されることを特徴とする
項目１４に記載の装置。
（項目１６）
前記所定の条件は、前記第１数が前記第２数と同じであること、前記第１数と前記第２数との比が、前記第１画像集合に含まれる画像の数と前記第２画像集合に含まれる画像の数との比に等しいこと、前記第１数と前記第２数との比が、前記第１画像集合に含まれる人数と前記第２画像集合に含まれる人数との比に等しいこと、のうちのいずれか１つを含むことを特徴とする
項目１５に記載の装置。
（項目１７）
前記第１モーダルネットワークは、第１特徴抽出分岐と、第２特徴抽出分岐と、第３特徴抽出分岐と、を含み、前記訓練サブユニットは更に、
前記第１画像集合を前記第１特徴抽出分岐に入力し、前記第２画像集合を前記第２特徴抽出分岐に入力し、第４画像集合を前記第３特徴抽出分岐に入力し、前記第１モーダルネットワークを訓練し、前記第４画像集合に含まれる画像は、同一のシーンで収集された画像又は同一の収集方式で収集された画像であり、
訓練後の第１特徴抽出分岐、訓練後の第２特徴抽出分岐又は訓練後の第３特徴抽出分岐を前記第２モーダルネットワークとするように構成されることを特徴とする
項目１３又は１５に記載の装置。
（項目１８）
前記訓練サブユニットは更に、
前記第１画像集合、前記第２画像集合及び前記第４画像集合をそれぞれ前記第１特徴抽出分岐、前記第２特徴抽出分岐及び前記第３特徴抽出分岐に入力し、第１認識結果、第２認識結果及び第３認識結果をそれぞれ得て、
前記第１特徴抽出分岐の第１損失関数、前記第２特徴抽出分岐の第２損失関数及び前記第３特徴抽出分岐の第３損失関数を取得し、
前記第１画像集合、前記第１認識結果及び前記第１損失関数、前記第２画像集合、前記第２認識結果及び前記第２損失関数、前記第４画像集合、前記第３認識結果及び前記第３損失関数に基づいて、前記第１モーダルネットワークのパラメータを調整し、調整された第１モーダルネットワークを得るように構成され、前記第１モーダルネットワークのパラメータは、第１特徴抽出分岐パラメータ、第２特徴抽出分岐パラメータ及び第３特徴抽出分岐パラメータを含み、前記調整された第１モーダルネットワークの各分岐パラメータは同じであることを特徴とする
項目１７に記載の装置。
（項目１９）
前記第１画像集合における画像は、第１アノテーション情報を含み、前記第２画像集合における画像は、第２アノテーション情報を含み、前記第４画像集合における画像は、第３アノテーション情報を含み、前記訓練サブユニットは更に、
前記第１アノテーション情報、前記第１認識結果、前記第１損失関数及び前記第１特徴抽出分岐の初期パラメータに基づいて、第１勾配を得て、前記第２アノテーション情報、前記第２認識結果、前記第２損失関数及び前記第２特徴抽出分岐の初期パラメータに基づいて、第２勾配を得て、前記第３アノテーション情報、前記第３認識結果、前記第３損失関数及び前記第３特徴抽出分岐の初期パラメータに基づいて、第３勾配を得て、
前記第１勾配、前記第２勾配及び前記第３勾配の平均値を前記第１モーダルネットワークの逆伝播勾配とし、前記逆伝播勾配により、前記第１モーダルネットワークのパラメータを調整し、前記第１特徴抽出分岐のパラメータ、前記第２特徴抽出分岐のパラメータ及び前記第３特徴抽出分岐のパラメータを同じくするように構成されることを特徴とする
項目１８に記載の装置。
（項目２０）
前記訓練サブユニットは更に、
前記第１画像集合及び前記第２画像集合からそれぞれｆ枚の画像を選択し、前記ｆ枚の画像に含まれる人数を閾値となるようにし、前記第３画像集合を得るように構成され、又は、
前記第１画像集合及び前記第２画像集合から、ｍ枚の画像及びｎ枚の画像をそれぞれ選択し、前記ｍと前記ｎとの比を前記第１画像集合に含まれる画像の数と前記第２画像集合に含まれる画像の数との比と同じくし、且つ、前記ｍ枚の画像及び前記ｎ枚の画像に含まれる人数をいずれも前記閾値となるようにし、前記第３画像集合を得るように構成され、又は、
前記第１画像集合及び前記第２画像集合から、ｓ枚の画像及びｔ枚の画像をそれぞれ選択し、前記ｓと前記ｔとの比を前記第１画像集合に含まれる人数と前記第２画像集合に含まれる人数との比と同じくし、且つ、前記ｓ枚の画像及び前記ｔ枚の画像に含まれる人数をいずれも前記閾値となるようにし、前記第３画像集合を得るように構成されることを特徴とする
項目１５又は１６に記載の装置。
（項目２１）
前記訓練サブユニットは更に、
前記第３画像集合における画像に対して特徴抽出処理、線形変換、非線形変換を順に行い、第４認識結果を得て、
前記第３画像集合における画像、前記第４認識結果及び前記第２モーダルネットワークの第４損失関数に基づいて、前記第２モーダルネットワークのパラメータを調整し、前記クロスモーダル顔認識ネットワークを得るように構成されることを特徴とする
項目１４に記載の装置。
（項目２２）
前記第１カテゴリ及び前記第２カテゴリはそれぞれ異なる人種に対応することを特徴とする
項目１２から１６、１８、１９、２１のうちいずれか一項に記載の装置。
（項目２３）
電子機器であって、前記電子機器は、メモリと、プロセッサと、を備え、前記メモリにコンピュータによる実行可能な命令が記憶されており、前記プロセッサは、前記メモリに記憶されるコンピュータ命令を実行する時、項目１から１１のうちいずれか一項に記載の方法を実現する、電子機器。
（項目２４）
コンピュータ可読記憶媒体であって、前記コンピュータ可読記憶媒体にコンピュータプログラムが記憶されており、該コンピュータプログラムがプロセッサにより実行される時、項目１から１１のうちいずれか一項に記載の方法を実現する、コンピュータ可読記憶媒体。

Claims

顔認識方法であって、前記方法は、
認識待ち画像を取得することと、
クロスモーダル顔認識ネットワークにより、前記認識待ち画像を認識し、前記認識待ち画像の認識結果を得ることであって、前記クロスモーダル顔認識ネットワークは、異なるモーダルの顔画像データに基づいて訓練を行うことで得られたものであることと、を含む、顔認識方法。
異なるモーダルの顔画像データに基づいて訓練を行うことで前記クロスモーダル顔認識ネットワークを得るプロセスは、
第１モーダルネットワーク及び第２モーダルネットワークに基づいて訓練を行うことで前記クロスモーダル顔認識ネットワークを得ることを含むことを特徴とする
請求項１に記載の方法。
第１モーダルネットワーク及び第２モーダルネットワークに基づいて訓練を行うことで前記クロスモーダル顔認識ネットワークを得る前に、
第１画像集合及び第２画像集合に基づいて、前記第１モーダルネットワークを訓練することを更に含み、前記第１画像集合における対象は、第１カテゴリに属し、前記第２画像集合における対象は、第２カテゴリに属することを特徴とする
請求項２に記載の方法。
第１画像集合及び第２画像集合に基づいて、前記第１モーダルネットワークを訓練することは、
前記第１画像集合及び前記第２画像集合に基づいて、前記第１モーダルネットワークを訓練し、前記第２モーダルネットワークを得ることと、
所定の条件に応じて、前記第１画像集合から、第１数の画像を選択し、前記第２画像集合から、第２数の画像を選択し、前記第１数の画像及び前記第２数の画像に基づいて、第３画像集合を得ることと、
前記第３画像集合に基づいて、前記第２モーダルネットワークを訓練し、前記クロスモーダル顔認識ネットワークを得ることと、を含むことを特徴とする
請求項３に記載の方法。
前記所定の条件は、前記第１数が前記第２数と同じであること、前記第１数と前記第２数との比が、前記第１画像集合に含まれる画像の数と前記第２画像集合に含まれる画像の数との比に等しいこと、前記第１数と前記第２数との比が、前記第１画像集合に含まれる人数と前記第２画像集合に含まれる人数との比に等しいこと、のうちのいずれか１つを含むことを特徴とする
請求項４に記載の方法。
前記第１モーダルネットワークは、第１特徴抽出分岐と、第２特徴抽出分岐と、第３特徴抽出分岐と、を含み、
前記第１画像集合及び前記第２画像集合に基づいて、前記第１モーダルネットワークを訓練し、前記第２モーダルネットワークを得ることは、
前記第１画像集合を前記第１特徴抽出分岐に入力し、前記第２画像集合を前記第２特徴抽出分岐に入力し、第４画像集合を前記第３特徴抽出分岐に入力し、前記第１モーダルネットワークを訓練することであって、前記第４画像集合に含まれる画像は、同一のシーンで収集された画像又は同一の収集方式で収集された画像であることと、
訓練後の第１特徴抽出分岐、訓練後の第２特徴抽出分岐又は訓練後の第３特徴抽出分岐を前記第２モーダルネットワークとすることと、を含むことを特徴とする
請求項２又は４に記載の方法。
前記第１画像集合を前記第１特徴抽出分岐に入力し、前記第２画像集合を前記第２特徴抽出分岐に入力し、第４画像集合を前記第３特徴抽出分岐に入力し、前記第１モーダルネットワークを訓練することは、
前記第１画像集合、前記第２画像集合及び前記第４画像集合をそれぞれ前記第１特徴抽出分岐、前記第２特徴抽出分岐及び前記第３特徴抽出分岐に入力し、第１認識結果、第２認識結果及び第３認識結果をそれぞれ得ることと、
前記第１特徴抽出分岐の第１損失関数、前記第２特徴抽出分岐の第２損失関数及び前記第３特徴抽出分岐の第３損失関数を取得することと、
前記第１画像集合、前記第１認識結果及び前記第１損失関数、前記第２画像集合、前記第２認識結果及び前記第２損失関数、前記第４画像集合、前記第３認識結果及び前記第３損失関数に基づいて、前記第１モーダルネットワークのパラメータを調整し、調整された第１モーダルネットワークを得ることであって、前記第１モーダルネットワークのパラメータは、第１特徴抽出分岐パラメータ、第２特徴抽出分岐パラメータ及び第３特徴抽出分岐パラメータを含み、前記調整された第１モーダルネットワークの各分岐パラメータは同じであることと、を含むことを特徴とする
請求項６に記載の方法。
前記第１画像集合における画像は、第１アノテーション情報を含み、前記第２画像集合における画像は、第２アノテーション情報を含み、前記第４画像集合における画像は、第３アノテーション情報を含み、
前記第１画像集合、前記第１認識結果及び前記第１損失関数、前記第２画像集合、前記第２認識結果及び前記第２損失関数、前記第４画像集合、前記第３認識結果及び前記第３損失関数に基づいて、前記第１モーダルネットワークのパラメータを調整し、調整された第１モーダルネットワークを得ることは、
前記第１アノテーション情報、前記第１認識結果、前記第１損失関数及び前記第１特徴抽出分岐の初期パラメータに基づいて、第１勾配を得て、前記第２アノテーション情報、前記第２認識結果、前記第２損失関数及び前記第２特徴抽出分岐の初期パラメータに基づいて、第２勾配を得て、前記第３アノテーション情報、前記第３認識結果、前記第３損失関数及び前記第３特徴抽出分岐の初期パラメータに基づいて、第３勾配を得ることと、
前記第１勾配、前記第２勾配及び前記第３勾配の平均値を前記第１モーダルネットワークの逆伝播勾配とし、前記逆伝播勾配により、前記第１モーダルネットワークのパラメータを調整し、前記第１特徴抽出分岐のパラメータ、前記第２特徴抽出分岐のパラメータ及び前記第３特徴抽出分岐のパラメータを同じくすることと、を含むことを特徴とする
請求項７に記載の方法。
所定の条件に応じて、前記第１画像集合から、第１数の画像を選択し、前記第２画像集合から、第２数の画像を選択し、第３画像集合を得ることは、
前記第１画像集合及び前記第２画像集合からそれぞれｆ枚の画像を選択し、前記ｆ枚の画像に含まれる人数を閾値となるようにし、前記第３画像集合を得ること、又は、
前記第１画像集合及び前記第２画像集合から、ｍ枚の画像及びｎ枚の画像をそれぞれ選択し、前記ｍと前記ｎとの比を前記第１画像集合に含まれる画像の数と前記第２画像集合に含まれる画像の数との比と同じくし、且つ、前記ｍ枚の画像及び前記ｎ枚の画像に含まれる人数をいずれも前記閾値となるようにし、前記第３画像集合を得ること、又は、
前記第１画像集合及び前記第２画像集合から、ｓ枚の画像及びｔ枚の画像をそれぞれ選択し、前記ｓと前記ｔとの比を前記第１画像集合に含まれる人数と前記第２画像集合に含まれる人数との比と同じくし、且つ、前記ｓ枚の画像及び前記ｔ枚の画像に含まれる人数をいずれも前記閾値となるようにし、前記第３画像集合を得ることを含むことを特徴とする
請求項４又は５に記載の方法。
前記第３画像集合に基づいて、前記第２モーダルネットワークを訓練し、前記クロスモーダル顔認識ネットワークを得ることは、
前記第３画像集合における画像に対して特徴抽出処理、線形変換、非線形変換を順に行い、第４認識結果を得ることと、
前記第３画像集合における画像、前記第４認識結果及び前記第２モーダルネットワークの第４損失関数に基づいて、前記第２モーダルネットワークのパラメータを調整し、前記クロスモーダル顔認識ネットワークを得ることと、を含むことを特徴とする
請求項３に記載の方法。
前記第１カテゴリ及び前記第２カテゴリはそれぞれ異なる人種に対応することを特徴とする
請求項１から５、７、８、１０のうちいずれか一項に記載の方法。
顔認識装置であって、前記装置は、
認識待ち画像を取得するように構成される取得ユニットと、
クロスモーダル顔認識ネットワークにより、前記認識待ち画像を認識し、前記認識待ち画像の認識結果を得るように構成される認識ユニットであって、前記クロスモーダル顔認識ネットワークは、異なるモーダルの顔画像データに基づいて訓練を行うことで得られたものである認識ユニットと、を備える、顔認識装置。
前記認識ユニットは、
第１モーダルネットワーク及び第２モーダルネットワークに基づいて訓練を行うことで前記クロスモーダル顔認識ネットワークを得るように構成される訓練サブユニットを備えることを特徴とする
請求項１２に記載の装置。
前記訓練サブユニットは更に、
第１画像集合及び第２画像集合に基づいて、前記第１モーダルネットワークを訓練するように構成され、前記第１画像集合における対象は、第１カテゴリに属し、前記第２画像集合における対象は、第２カテゴリに属することを特徴とする
請求項１３に記載の装置。
前記訓練サブユニットは更に、
前記第１画像集合及び前記第２画像集合に基づいて、前記第１モーダルネットワークを訓練し、前記第２モーダルネットワークを得て、
所定の条件に応じて、前記第１画像集合から、第１数の画像を選択し、前記第２画像集合から、第２数の画像を選択し、前記第１数の画像及び前記第２数の画像に基づいて、第３画像集合を得て、
前記第３画像集合に基づいて、前記第２モーダルネットワークを訓練し、前記クロスモーダル顔認識ネットワークを得るように構成されることを特徴とする
請求項１４に記載の装置。
前記所定の条件は、前記第１数が前記第２数と同じであること、前記第１数と前記第２数との比が、前記第１画像集合に含まれる画像の数と前記第２画像集合に含まれる画像の数との比に等しいこと、前記第１数と前記第２数との比が、前記第１画像集合に含まれる人数と前記第２画像集合に含まれる人数との比に等しいこと、のうちのいずれか１つを含むことを特徴とする
請求項１５に記載の装置。
前記第１モーダルネットワークは、第１特徴抽出分岐と、第２特徴抽出分岐と、第３特徴抽出分岐と、を含み、前記訓練サブユニットは更に、
前記第１画像集合を前記第１特徴抽出分岐に入力し、前記第２画像集合を前記第２特徴抽出分岐に入力し、第４画像集合を前記第３特徴抽出分岐に入力し、前記第１モーダルネットワークを訓練し、前記第４画像集合に含まれる画像は、同一のシーンで収集された画像又は同一の収集方式で収集された画像であり、
訓練後の第１特徴抽出分岐、訓練後の第２特徴抽出分岐又は訓練後の第３特徴抽出分岐を前記第２モーダルネットワークとするように構成されることを特徴とする
請求項１３又は１５に記載の装置。
前記訓練サブユニットは更に、
前記第１画像集合、前記第２画像集合及び前記第４画像集合をそれぞれ前記第１特徴抽出分岐、前記第２特徴抽出分岐及び前記第３特徴抽出分岐に入力し、第１認識結果、第２認識結果及び第３認識結果をそれぞれ得て、
前記第１特徴抽出分岐の第１損失関数、前記第２特徴抽出分岐の第２損失関数及び前記第３特徴抽出分岐の第３損失関数を取得し、
前記第１画像集合、前記第１認識結果及び前記第１損失関数、前記第２画像集合、前記第２認識結果及び前記第２損失関数、前記第４画像集合、前記第３認識結果及び前記第３損失関数に基づいて、前記第１モーダルネットワークのパラメータを調整し、調整された第１モーダルネットワークを得るように構成され、前記第１モーダルネットワークのパラメータは、第１特徴抽出分岐パラメータ、第２特徴抽出分岐パラメータ及び第３特徴抽出分岐パラメータを含み、前記調整された第１モーダルネットワークの各分岐パラメータは同じであることを特徴とする
請求項１７に記載の装置。
前記第１画像集合における画像は、第１アノテーション情報を含み、前記第２画像集合における画像は、第２アノテーション情報を含み、前記第４画像集合における画像は、第３アノテーション情報を含み、前記訓練サブユニットは更に、
前記第１アノテーション情報、前記第１認識結果、前記第１損失関数及び前記第１特徴抽出分岐の初期パラメータに基づいて、第１勾配を得て、前記第２アノテーション情報、前記第２認識結果、前記第２損失関数及び前記第２特徴抽出分岐の初期パラメータに基づいて、第２勾配を得て、前記第３アノテーション情報、前記第３認識結果、前記第３損失関数及び前記第３特徴抽出分岐の初期パラメータに基づいて、第３勾配を得て、
前記第１勾配、前記第２勾配及び前記第３勾配の平均値を前記第１モーダルネットワークの逆伝播勾配とし、前記逆伝播勾配により、前記第１モーダルネットワークのパラメータを調整し、前記第１特徴抽出分岐のパラメータ、前記第２特徴抽出分岐のパラメータ及び前記第３特徴抽出分岐のパラメータを同じくするように構成されることを特徴とする
請求項１８に記載の装置。
前記訓練サブユニットは更に、
前記第１画像集合及び前記第２画像集合からそれぞれｆ枚の画像を選択し、前記ｆ枚の画像に含まれる人数を閾値となるようにし、前記第３画像集合を得るように構成され、又は、
前記第１画像集合及び前記第２画像集合から、ｍ枚の画像及びｎ枚の画像をそれぞれ選択し、前記ｍと前記ｎとの比を前記第１画像集合に含まれる画像の数と前記第２画像集合に含まれる画像の数との比と同じくし、且つ、前記ｍ枚の画像及び前記ｎ枚の画像に含まれる人数をいずれも前記閾値となるようにし、前記第３画像集合を得るように構成され、又は、
前記第１画像集合及び前記第２画像集合から、ｓ枚の画像及びｔ枚の画像をそれぞれ選択し、前記ｓと前記ｔとの比を前記第１画像集合に含まれる人数と前記第２画像集合に含まれる人数との比と同じくし、且つ、前記ｓ枚の画像及び前記ｔ枚の画像に含まれる人数をいずれも前記閾値となるようにし、前記第３画像集合を得るように構成されることを特徴とする
請求項１５又は１６に記載の装置。
前記訓練サブユニットは更に、
前記第３画像集合における画像に対して特徴抽出処理、線形変換、非線形変換を順に行い、第４認識結果を得て、
前記第３画像集合における画像、前記第４認識結果及び前記第２モーダルネットワークの第４損失関数に基づいて、前記第２モーダルネットワークのパラメータを調整し、前記クロスモーダル顔認識ネットワークを得るように構成されることを特徴とする
請求項１４に記載の装置。
前記第１カテゴリ及び前記第２カテゴリはそれぞれ異なる人種に対応することを特徴とする
請求項１２から１６、１８、１９、２１のうちいずれか一項に記載の装置。
電子機器であって、前記電子機器は、メモリと、プロセッサと、を備え、前記メモリにコンピュータによる実行可能な命令が記憶されており、前記プロセッサは、前記メモリに記憶されるコンピュータ命令を実行する時、請求項１から１１のうちいずれか一項に記載の方法を実現する、電子機器。
コンピュータ可読記憶媒体であって、前記コンピュータ可読記憶媒体にコンピュータプログラムが記憶されており、該コンピュータプログラムがプロセッサにより実行される時、請求項１から１１のうちいずれか一項に記載の方法を実現する、コンピュータ可読記憶媒体。