JP7270114B2

JP7270114B2 - 顔キーポイントの検出方法、装置及び電子機器

Info

Publication number: JP7270114B2
Application number: JP2022539761A
Authority: JP
Inventors: グオ，ハンギ; ホン，ジビン; カン，ヤン
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2020-05-15
Filing date: 2020-09-23
Publication date: 2023-05-09
Anticipated expiration: 2040-09-23
Also published as: CN111709288A; WO2021227333A1; CN111709288B; KR20220113830A; US20230196825A1; JP2023508704A

Description

関連出願の相互参照

本開示は、ベイジンバイドゥネットコムサイエンスアンドテクノロジーカンパニーリミテッドが２０２０年５月１５日付に提出した、発明の名称が「顔キーポイントの検出方法、装置及び電子機器」であり、中国特許出願番号が「２０２０１０４１５１８８.１」である特許出願の優先権を主張する。

本開示は、画像処理技術の分野に関し、具体的には、深層学習とコンピュータビジョンの技術分野に関し、特に、顔キーポイントの検出方法、装置及び電子機器に関する。

深層学習技術の発展とコンピュータ演算能力の急速な向上に伴い、人工知能、コンピュータビジョンおよび画像処理などの分野は急速に発展し、その中で、コンピュータビジョンの分野における古典的な課題として、顔認識技術は優れた研究可能性と応用価値を持っている。顔認識技術は、目や口にそれぞれ対応するキーポイントなど、顔画像内の各顔キーポイントを検出し、検出された各顔キーポイントに基づいて顔認識を行うことができる。現在の顔キーポイント検出技術は、通常、ディープニューラルネットワークモデルを確立し、ディープニューラルネットワーク学習モデルを通じて顔キーポイントの分布の統計的特徴を学習することにより、任意の顔画像のキーポイント検出機能を実現するが、顔の一部が遮蔽される場合、顔キーポイントの分布の統計的特徴が干渉されたり、破壊されたりして、顔キーポイントを正確に検出できなくなる。

関連技術では、一般的に教師あり学習方法によって、遮蔽された顔を含む画像における顔キーポイントを検出し、この方法では、遮蔽されるキーポイントが遮蔽されているか否かの追加ラベルをトレーニングセットに追加することにより、検出アルゴリズムが各キーポイントが遮蔽されているか否かを認識し、さらに遮蔽されたキーポイントを効果的に認識することができるが、この方法では追加の人手によるラベリングが必要であり、コストが高く、時間がかかり、精度が悪い。

本開示は、顔キーポイントの検出方法、装置、電子機器及び記憶媒体を提供する。

第１の態様によれば、顔キーポイントの検出方法を提供し、検出対象の顔画像を取得し、前記検出対象の顔画像の検出キーポイント情報を抽出するステップと、テンプレート顔画像のテンプレートキーポイント情報を取得するステップと、前記検出キーポイント情報と前記テンプレートキーポイント情報を組み合わせて、前記検出対象の顔画像と前記テンプレート顔画像との顔キーポイントマッピング関係を決定するステップと、前記顔キーポイントマッピング関係と前記テンプレートキーポイント情報とに基づいて、前記検出キーポイント情報を選別して、前記検出対象の顔画像のターゲットキーポイント情報を生成するステップであって、前記ターゲットキーポイント情報におけるターゲット顔キーポイントは、前記検出対象の顔画像の非遮蔽領域の顔キーポイントであるステップと、を含む。

第２の態様によれば、顔キーポイントの検出装置を提供し、検出対象の顔画像を取得する第１の取得モジュールと、前記検出対象の顔画像の検出キーポイント情報を抽出する抽出モジュールと、テンプレート顔画像のテンプレートキーポイント情報を取得する第２の取得モジュールと、前記検出キーポイント情報と前記テンプレートキーポイント情報を組み合わせて、前記検出対象の顔画像と前記テンプレート顔画像との顔キーポイントマッピング関係を決定する決定モジュールと、前記顔キーポイントマッピング関係と前記テンプレートキーポイント情報とに基づいて、前記検出キーポイント情報を選別して、前記検出対象の顔画像のターゲットキーポイント情報を生成する処理モジュールであって、前記ターゲットキーポイント情報におけるターゲット顔キーポイントは、前記検出対象の顔画像の非遮蔽領域の顔キーポイントである処理モジュールと、を含む。

第３の態様によれば、電子機器を提供し、少なくとも１つのプロセッサと、前記少なくとも１つのプロセッサと通信可能に接続されるメモリとを含み、前記メモリには、前記少なくとも１つのプロセッサによって実行される命令が記憶されており、前記命令は、前記少なくとも１つのプロセッサが前記顔キーポイントの検出方法を実行できるように、前記少なくとも１つのプロセッサによって実行される。

第４の態様によれば、コンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体を提供し、前記コンピュータ命令は、コンピュータに前記顔キーポイントの検出方法を実行させる。
第５の態様によれば、コンピュータプログラムを提供し、前記コンピュータプログラムがプロセッサによって実行される場合、前記顔キーポイントの検出方法が実現される。

本開示の技術によれば、追加の人手によるラベリングが必要でなく、検出対象の顔画像の非遮蔽領域のターゲットキーポイント情報を正確に認識することができ、コストを節約し、時間を短縮することができる。

なお、この部位に記載の内容は、本開示の実施例の肝心または重要な特徴を特定することを意図しておらず、本開示の範囲を限定することも意図していない。本出願の他の特徴は下記の明細書の記載を通して理解しやすくなる。

図面は、本出願をより良く理解するためのものであり、本開示を限定するものではない。
本開示の第１の実施例に係る模式図である。検出対象の顔画像の検出キーポイント情報の模式図である。テンプレート顔画像のテンプレートキーポイント情報の模式図である。本開示の第２の実施例に係る模式図である。本開示の第３の実施例に係る模式図である。検出対象の顔画像の各顔キーポイントの評価位置情報の模式図である。本開示の第４の実施例に係る模式図である。本開示の第５の実施例に係る模式図である。本開示の実施例の顔キーポイント検出の方法を実現するための電子機器のブロック図である。

以下、図面と組み合わせて本開示の例示的な実施例を説明する。理解を容易にするために、その中には本開示の実施例の様々な詳細が含まれ、それらは単なる例示と見なされるべきである。したがって、当業者は、本発明の範囲及び精神から逸脱することなく、本明細書に記載の実施例に対して様々な変更及び修正を行うことができる。また、わかりやすくかつ簡潔にするために、以下の説明では、周知の機能及び構造の説明を省略する。

本開示は、関連技術において、教師あり学習方法によって、遮蔽された顔を含む画像における顔キーポイントを検出するという方式が、トレーニングデータに対して追加の人手によるラベリングが必要であり、コストが高く、時間がかかり、精度が悪いという問題に対して、顔キーポイントの検出方法を提供する。

本開示によって提供される顔キーポイントの検出方法は、まず、検出対象の顔画像を取得し、検出対象の顔画像の検出キーポイント情報を抽出し、テンプレート顔画像のテンプレートキーポイント情報を取得し、そして、検出対象の顔画像の検出キーポイント情報とテンプレート顔画像のテンプレートキーポイント情報を組み合わせて、検出対象の顔画像とテンプレート顔画像との顔キーポイントマッピング関係を決定し、ひいては顔キーポイントマッピング関係とテンプレートキーポイント情報とに基づいて、検出キーポイント情報を選別して、検出対象の顔画像のターゲットキーポイント情報を生成し、ここで、ターゲットキーポイント情報におけるターゲット顔キーポイントは、検出対象の顔画像の非遮蔽領域の顔キーポイントである。これにより、追加の人手によるラベリングが必要でなく、検出対象の顔画像の非遮蔽領域のターゲットキーポイント情報を正確に認識することができ、コストを節約し、時間を短縮することができる。

以下、図面を参照して、本開示の実施例に係る顔キーポイントの検出方法、装置、電子機器及び記憶媒体を説明する。

図１は本開示の第１の実施例に係る模式図である。ここで、本実施例によって提供される顔キーポイントの検出方法の実行主体は、顔キーポイントの検出装置であり、顔キーポイントの検出装置は、検出対象の顔画像の非遮蔽領域のターゲットキーポイント情報を検出するように、電子機器に配置され得る。ここで、電子機器は、データ処理が可能な任意の端末デバイスまたはサーバーなどであってもよく、本開示はこれを限定しない。

図１に示すように、顔キーポイントの検出方法は、以下のステップを含むことができる。

ステップ１０１では、検出対象の顔画像を取得し、検出対象の顔画像の検出キーポイント情報を抽出する。

ここで、検出対象の顔画像は、顔を含み、かつ顔領域の一部が遮蔽されている任意の画像であってもよい。例えば、検出対象の顔画像は、顔を含み、かつ顔の片方の目が遮蔽されているか、または顔の口の半分が遮蔽されている画像であってもよい。

なお、本開示の実施例の顔キーポイントの検出方法は、顔が遮蔽されていない検出対象の顔画像にも適用可能であり、即ち、検出対象の顔画像は、顔全体が遮蔽されていない画像であってもよく、この場合、本開示の実施例の方法により、検出対象の顔画像の生成されたターゲットキーポイント情報におけるターゲット顔キーポイントは、検出対象の顔画像の顔領域全体のすべての顔キーポイントであり、これらの顔キーポイントの検出位置情報は正確である。

顔キーポイントは、目、口、鼻、輪郭、目尻、および目尻の輪郭上の特徴点など、顔の任意の位置にある特徴点を含み得る。

検出キーポイント情報は、検出対象の顔画像の複数の顔キーポイントの検出位置情報を含み得る。

例示的な実施例では、検出対象の顔画像の検出キーポイント情報を様々な方法で抽出することができる。

例えば、事前にディープラーニングの方法によって、キーポイント検出モデルをレーニングし、検出対象の顔画像を事前にトレーニングされたキーポイント検出モデルに入力することで、検出対象の顔画像の検出キーポイント情報を抽出することができる。ここで、キーポイント検出モデルは、畳み込みニューラルネットワークモデル、リカレントニューラルネットワークモデルなどの任意のディープニューラルネットワークモデル、または他のタイプのデータ処理モデルにすることができ、本開示はこれを限定しない。

または、検出対象の顔画像の検出キーポイント情報は、関連技術の他の任意の顔キーポイント検出方法によって抽出されてもよく、本開示は、検出対象の顔画像の検出キーポイント情報を抽出する方法を限定しない。

ステップ１０２では、テンプレート顔画像のテンプレートキーポイント情報を取得する。

ここで、テンプレート顔画像は、顔を含み、かつ顔のすべての領域が遮蔽されていない任意の画像であってもよく、テンプレート顔画像の顔は、任意の人物の顔であってもよい。なお、テンプレート顔画像の顔のポーズは、検出対象の顔画像の顔のポーズと同じであってもよいし、異なっていてもよく、本開示はこれを限定しない。例えば、検出対象の顔画像の顔は笑顔で左側に少し傾いているが、テンプレート顔画像の顔は無表情の正面の顔であってもよい。

テンプレートキーポイント情報は、テンプレート顔画像の複数の顔キーポイントのテンプレート位置情報を含んでもよい。

例示的な実施例では、テンプレート顔画像のテンプレートキーポイント情報は、様々な方法で抽出することができる。

例えば、事前にディープラーニングの方法によって、キーポイント検出モデルをレーニングし、テンプレート顔画像を事前にトレーニングされたキーポイント検出モデルに入力することで、テンプレート顔画像のテンプレートキーポイント情報を抽出することができる。ここで、キーポイント検出モデルは、畳み込みニューラルネットワークモデル、リカレントニューラルネットワークモデルなどの任意のディープニューラルネットワークモデル、または他のタイプのデータ処理モデルにすることができ、本開示はこれを限定しない。

または、テンプレート顔画像のテンプレートキーポイント情報は、関連技術の他の任意の顔キーポイント検出方法によって抽出されてもよく、本開示は、テンプレート顔画像のテンプレートキーポイント情報を抽出する方法を限定しない。

なお、本開示の実施例では、検出対象の顔画像の検出キーポイント情報を取得する方法は、テンプレート顔画像のテンプレートキーポイント情報を取得する方法と同じであってもよいし、異なっていてもよく、本開示はこれを限定しない。

本開示の実施例では、抽出された検出対象の顔画像の検出キーポイント情報は、取得されたテンプレート顔画像のテンプレートキーポイント情報と１対１で対応していることに留意されたい。ここで、検出キーポイント情報とテンプレートキーポイント情報との１対１の対応とは、検出キーポイント情報における顔キーポイントの数がテンプレートキーポイント情報における顔キーポイントの数と同じであり、かつ検出キーポイント情報における各顔キーポイントとテンプレートキーポイント情報における各顔キーポイントが、それぞれ顔の同じ部位に対応することを意味する。

本開示の実施例では、同じ部位の顔キーポイントは、同じ認識子で一意にマークすることができ、例えば、人間の左目の左隅の認識子は１であり、人間の左目の右隅の認識子は２であり、人間の右目の左隅の認識子は３である。なお、検出キーポイント情報における顔キーポイント及びテンプレートキーポイント情報における顔キーポイントの数は、必要に応じて設定することができ、本開示ではその数は一例として６８である。

例えば、図２および図３に示すように、図２は、検出対象の顔画像の検出キーポイント情報の模式図であり、図３は、テンプレート顔画像のテンプレートキーポイント情報の模式図であり、図２および図３に示すように、テンプレートキーポイント情報には６８個の顔キーポイントが含まれ、検出キーポイント情報にも６８個の顔キーポイントが含まれ、ここで、人間の左目の左隅が顔キーポイント１に対応し、人間の左目の右隅が顔キーポイント２に対応し、人間の右目の左隅が顔キーポイント３に対応する。

例示的な実施例では、事前にトレーニングされたキーポイント検出モデルを使用してキーポイント情報抽出を行うことを例にとると、特定の場所のキーポイント及び特定の数のキーポイントを検出できるキーポイント検出モデルを事前にトレーニングすることができ、事前にトレーニングされたキーポイント検出モデルを使用することにより、１対１で対応している検出対象の顔画像の検出キーポイント情報及びテンプレート顔画像のテンプレートキーポイント情報を取得することができる。

なお、テンプレート顔画像は遮蔽されていない顔画像であるため、テンプレート顔画像のテンプレートキーポイント情報には、顔のすべてのキーポイントのテンプレート位置情報が含まれる。一方、検出対象の顔画像は、一部が遮蔽された顔を含む画像であるため、検出対象の顔画像の検出キーポイント情報は、遮蔽領域の顔キーポイントの検出位置情報と非遮蔽領域の顔キーポイントの検出位置情報とを含むが、遮蔽領域の顔キーポイントからなる形状が大きく変形する可能性がある。

例えば、引き続き図２と図３を参照し、テンプレート顔画像が遮蔽されていない顔画像であるため、テンプレート顔画像のテンプレートキーポイント情報に含まれる顔キーポイントは、顔のすべての顔キーポイントであり、即ち６８個の顔キーポイントであるが、検出対象の顔画像では、人間の右目が遮蔽されているため、ステップ１０１で検出対象の顔画像の検出キーポイント情報を抽出することができるが、抽出された遮蔽領域の顔キーポイントからなる形状が完全に変形であり、これらの遮蔽領域の顔キーポイントの検出位置情報は完全に間違っている。

ステップ１０３では、検出キーポイント情報とテンプレートキーポイント情報を組み合わせて、検出対象の顔画像とテンプレート顔画像との顔キーポイントマッピング関係を決定する。

ここで、顔キーポイントマッピング関係は、検出対象の顔画像の非遮蔽領域の顔キーポイントの検出位置情報と、テンプレート顔画像の同じ顔位置に対応する顔キーポイントのテンプレート位置情報とのマッピング関係である。

ステップ１０４では、顔キーポイントマッピング関係とテンプレートキーポイント情報とに基づいて、検出キーポイント情報を選別して、検出対象の顔画像のターゲットキーポイント情報を生成する。

ここで、ターゲットキーポイント情報におけるターゲット顔キーポイントは、検出対象の顔画像の非遮蔽領域の顔キーポイントである。

なお、本開示の実施例では、顔キーポイントマッピング関係は、検出対象の顔画像の非遮蔽領域の顔キーポイントの検出位置情報と、テンプレート顔画像の同じ顔位置に対応する顔キーポイントのテンプレート位置情報とのマッピング関係であるが、非遮蔽領域の顔キーポイントの検出位置情報はほぼ正しいであり、即ち顔キーポイントマッピング関係は、同じ部位の顔キーポイントのテンプレート位置情報とほぼ正しい検出位置情報とのマッピング関係であるため、顔キーポイントマッピング関係が決定された後、顔キーポイントマッピング関係と、テンプレート顔画像のテンプレートキーポイント情報における各顔キーポイントのテンプレート位置情報とに基づいて、検出対象の顔画像におけるテンプレート顔画像の部位と同じ顔キーポイントの実際位置を予測することができる。

具体的には、顔キーポイントマッピング関係と、テンプレート顔画像のテンプレートキーポイント情報における各顔キーポイントのテンプレート位置情報とに基づいて、検出対象の顔画像におけるテンプレート顔画像の部位と同じ顔キーポイントの実際位置を予測することで、検出対象の顔画像におけるテンプレート顔画像の部位と同じ顔キーポイントの評価位置情報を決定することができる。非遮蔽領域の顔キーポイントの検出位置情報がほぼ正しいであるため、非遮蔽領域の顔キーポイントの検出位置情報は、決定された対応する部位の顔キーポイントの評価位置情報と一致し、本開示の実施例では、検出対象の顔画像の各顔キーポイントに対して、決定されたこの顔キーポイントの評価位置情報とこの顔キーポイントの検出位置情報とを比較することで、この顔キーポイントの評価位置情報が検出位置情報と一致しているか否かを決定することができ、検出対象の顔画像の特定の顔キーポイントの検出位置情報が評価位置情報と一致する場合、この顔キーポイントを非遮蔽領域の顔キーポイント、即ちターゲット顔キーポイントとして決定することができる。これにより、検出対象の顔画像の検出キーポイント情報から、非遮蔽領域のターゲット顔キーポイントを選別することができ、ひいては検出キーポイント情報における非遮蔽領域の顔キーポイントに対応する検出位置情報に基づいて、検出対象の顔画像のターゲットキーポイント情報を生成することができる。

本開示によって提供される顔キーポイントの検出方法は、検出対象の顔画像の検出キーポイント情報とテンプレート顔画像のテンプレートキーポイント情報が取得された後、検出キーポイント情報とテンプレートキーポイント情報を組み合わせて、検出対象の顔画像とテンプレート顔画像との顔キーポイントマッピング関係を決定し、ひいては顔キーポイントマッピング関係とテンプレートキーポイント情報とに基づいて、検出キーポイント情報を選別して、検出対象の顔画像のターゲット顔キーポイント情報を生成し、ここで、ターゲットキーポイント情報におけるターゲット顔キーポイントは、検出対象の顔画像の非遮蔽領域の顔キーポイントであり、顔キーポイントマッピング関係は、同じ部位の顔キーポイントのテンプレート位置情報とほぼ正しい検出位置情報とのマッピング関係であるため、顔キーポイントマッピング関係を使用することにより、検出対象の顔画像の顔キーポイントの評価位置情報を正確にを決定することができ、さらに、ターゲットキーポイント情報を正確に選別して生成することができ、顔キーポイントマッピング関係を使用することにより、検出対象の顔画像の非遮蔽領域の顔キーポイントを決定することができ、さらに、非遮蔽領域の顔キーポイントの検出位置情報に基づいて検出対象の顔画像のターゲットキーポイント情報を生成することができ、これによって、キーポイント検出モデルのトレーニングなどを実行する必要のある必要なデータラベリングに加えて、追加の人手によるラベリングが必要でないため、人手によるラベリングにかかるコストと時間を節約することができる。

本開示の実施例の顔キーポイントの検出方法は、まず、検出対象の顔画像を取得し、検出対象の顔画像の検出キーポイント情報を抽出し、テンプレート顔画像のテンプレートキーポイント情報を取得し、そして、検出対象の顔画像の検出キーポイント情報とテンプレート顔画像のテンプレートキーポイント情報を組み合わせて、検出対象の顔画像とテンプレート顔画像との顔キーポイントマッピング関係を決定し、ひいては顔キーポイントマッピング関係とテンプレートキーポイント情報とに基づいて、検出キーポイント情報を選別して、検出対象の顔画像のターゲットキーポイント情報を生成し、ここで、ターゲットキーポイント情報におけるターゲット顔キーポイントは、検出対象の顔画像の非遮蔽領域の顔キーポイントである。これにより、追加の人手によるラベリングが必要でなく、検出対象の顔画像の非遮蔽領域のターゲットキーポイント情報を正確に認識することができ、コストを節約し、時間を短縮することができる。

上記の分析から分かるように、本開示では、検出対象の顔画像の検出キーポイント情報及びテンプレート顔画像のテンプレートキーポイント情報が取得された後、検出キーポイント情報とテンプレートキーポイント情報を組み合わせて、検出対象の顔画像とテンプレート顔画像との顔キーポイントマッピング関係を決定し、ひいては顔キーポイントマッピング関係とテンプレートキーポイント情報とに基づいて、検出キーポイント情報を選別して、検出対象の顔画像の非遮蔽領域の顔キーポイント情報を生成することができ、以下、図４と組み合わせて、本開示の実施例における検出対象の顔画像とテンプレート顔画像との顔キーポイントマッピング関係を生成するプロセスを詳細に説明する。

図４は、本開示の第２の実施例に係る模式図である。図４に示すように、本開示によって提供される顔キーポイントの検出方法は、以下のステップを含むことができる。

ステップ２０１では、検出対象の顔画像を取得し、検出対象の顔画像の検出キーポイント情報を抽出する。

ステップ２０２では、テンプレート顔画像のテンプレートキーポイント情報を取得する。

ここで、上記のステップ２０１－２０２の具体的な実現プロセス及び原理は、上記実施例の詳細な説明を参照することができ、ここでは説明を省略する。

ステップ２０３では、テンプレートキーポイント情報と検出キーポイント情報とに基づいて、顔キーポイントマッピング関係の確率密度関数を構築する。

ここで、確率密度関数は、検出対象の顔画像の遮蔽領域の顔キーポイントマッピング関係の分布情報と、非遮蔽領域の顔キーポイントマッピング関係の分布情報から決定することができる。

なお、本開示の実施例では、検出対象の顔画像が遮蔽領域と非遮蔽領域を含む顔画像である場合、テンプレートキーポイント情報と検出キーポイント情報とに基づいて、遮蔽領域の顔キーポイントの検出位置情報と、テンプレートキーポイント情報における同じ部位にある顔キーポイントのテンプレート位置情報との顔キーポイントマッピング関係、即ち遮蔽領域の顔キーポイントマッピング関係を構築し、非遮蔽領域の顔キーポイントの検出位置情報とテンプレートキーポイント情報における同じ部位にある顔キーポイントのテンプレート位置情報との顔キーポイントマッピング関係、即ち非遮蔽領域の顔キーポイントマッピング関係を構築し、遮蔽領域の顔キーポイントマッピング関係の分布情報と、非遮蔽領域の顔キーポイントマッピング関係の分布情報とに基づいて、確率密度関数を構築することができる。

例示的な実施例では、検出対象の顔画像の遮蔽領域の顔キーポイントマッピング関係の分布情報は、均一な分布情報であってもよく、検出対象の顔画像の非遮蔽領域の顔キーポイントマッピング関係の分布情報は、混合ガウス分布情報であってもよい。

例示的な実施例では、確率密度関数の計算式は式（１）であってもよい。

ここで、ｘは、検出対象の顔画像の検出キーポイント情報を表し、ωは、検出対象の顔画像の遮蔽領域の割合を表し、

ステップ２０４では、確率密度関数に基づいて、顔キーポイントマッピング関係の目的関数及び期待関数を構築する。

ステップ２０５では、期待関数の最尤推定を行い、推定結果に基づいて確率密度関数及び目的関数を再決定し、目的関数が予め設定された収束条件を満たすまで、期待関数を再決定して最尤推定を行う。

ステップ２０６では、予め設定された収束条件が満たされているときの確率密度関数に基づいて、顔キーポイントマッピング関係を決定する。

ここで、収束条件は、必要に応じて設定することができる。

なお、本開示の実施例では、顔キーポイントマッピング関係を解くことは、上記の確率密度関数を解くプロセスである。

具体的に実施する場合、まず、確率密度関数に基づいて、顔キーポイントマッピング関係の目的関数を構築し、確率密度関数と目的関数とに基づいて、期待関数を構築することができる。そして、期待関数の最尤推定を行って、目的関数のパラメータ値を決定し、決定されたパラメータ値に基づいて、確率密度関数及び目的関数を再決定し、期待関数を再決定し、目的関数が予め設定された収束条件を満たすまで、再決定された期待関数の最尤推定を実行し続け、これにより、目的関数が予め設定された収束関数を満たしているときの確率密度関数に基づいて、顔キーポイントマッピング関係を決定することができる。

例示的な実施例では、最尤推定を実行する場合、尤度関数を最大化することで実現してもよいし、負の対数尤度関数を最小化することで実現してもよく、本開示はこれを限定しない。

例示的な実施例では、テンプレートキーポイント情報における顔キーポイントのテンプレート位置情報と、検出キーポイント情報における顔キーポイントの評価位置情報との対応関係は、アフィン変換で表すことができ、これによって、本開示における顔キーポイントマッピング関係の目的関数は、式（２）の形をとることができる。

ここで、Ｒ、ｔ、ｓはアフィン変換パラメータであり、Ｒは回転行列を表し、ｔは変位行列を表し、ｓはスケーリング行列を表し、σ^２はガウス分布の分散を表し、Ｐ^ｏｌｄは前回の反復パラメータを使用して計算された混合ガウスモデルの事後確率を表し、Ｎは顔キーポイントの数を表し、Ｎ_Ｐは混合ガウス分布を表し、ｘ_ｋは検出キーポイント情報におけるｋ番目の顔キーポイントの検出位置情報を表し、ｙ_ｋは検出キーポイント情報におけるｋ番目の顔キーポイントと同じ部位の顔キーポイントのテンプレート位置情報を表し、

は検出キーポイント情報におけるｋ番目の顔キーポイントの評価位置情報を表す。
例示的な実施例では、期待関数は、下記の式（３）の形態であり得る。

例示的な実施例では、確率密度関数、目的関数および期待関数が、それぞれ上記の式（１）、（２）および（３）の形式である場合、ステップ２０５は、具体的に以下の方法で実施することができる。

まず、Ｂ＝Ｉ、ｔ＝０、０＜ω＜１のように初期化する。ここで、Ｂ＝ｓＲであり、ここで、Ｉは単位行列である。

ひいては、Ｂ＝Ｉ、ｔ＝０、０＜ω＜１の場合、式（３）に示す期待関数の最尤推定を行い、Ｂ、ｔおよびσ^２を解く。

さらに、計算されたＢ、ｔおよびσ^２に基づいて、確率密度関数及び目的関数を再決定し、期待関数を再決定し、再決定された期待関数の最尤推定を行って、Ｂ、ｔおよびσ^２を再度解き、確率密度関数及び目的関数を再決定し、期待関数を再決定し、再決定された期待関数の最尤推定を行い、目的関数が予め設定された収束条件を満たすまで、上記のプロセスを繰り返す。

ひいては、目的関数が予め設定された収束条件を満たすときのアフィン変換パラメータＲ、ｔおよびｓに基づいて、顔キーポイントマッピング関係を取得することができる。

なお、本開示は、テンプレートキーポイント情報と検出キーポイント情報とに基づいて、顔キーポイントマッピング関係の確率密度関数を構築し、ここで、確率密度関数は、検出対象の顔画像の遮蔽領域の顔キーポイントマッピング関係の分布情報及び非遮蔽領域の顔キーポイントマッピング関係の分布情報によって決定され、再確率密度関数に基づいて、顔キーポイントマッピング関係の目的関数及び期待関数を構築し、ひいては期待関数の最尤推定を行うことにより、顔キーポイントマッピング関係を決定し、最尤推定は、最も確率の高い顔キーポイントマッピング関係が発生したときのアフィン変換パラメータを決定し、かつ、本開示は、目的関数が収束したときの確率密度関数に基づいて顔キーポイントマッピング関係を決定するため、上記のように決定された本開示の顔キーポイントマッピング関係は正確で信頼できるものである。そして、検出対象の顔画像の遮蔽領域の顔キーポイントマッピング関係の分布情報と、非遮蔽領域の顔キーポイントマッピング関係の分布情報がそれぞれ異なるタイプの分布情報に対応するように設定することで、遮蔽領域の顔キーポイントマッピング関係の分布情報と非遮蔽領域の顔キーポイントマッピング関係の分布情報にそれぞれ対応する異なるタイプの分布情報によって決定される確率密度関数に基づいて、顔キーポイントマッピング関係を決定することにより、決定された顔キーポイントマッピング関係の正確性と信頼性をさらに向上させることができる。

ステップ２０７では、顔キーポイントマッピング関係とテンプレートキーポイント情報とに基づいて、検出キーポイント情報を選別して、検出対象の顔画像のターゲットキーポイント情報を生成する。

ここで、上記のステップ２０７の具体的な実現プロセス及び原理は、上記実施例の関連する説明を参照することができ、ここでは説明を省略する。

なお、本開示で決定された顔キーポイントマッピング関係は正確かつ信頼でき、顔画像のターゲットキーポイント情報は、顔キーポイントマッピング関係とテンプレートキーポイント情報とに基づいて検出キーポイント情報を選別することによって生成されるため、生成された検出対象の顔画像のターゲットキーポイント情報の正確性と信頼性を向上させることができる。

本開示によって提供される顔キーポイントの検出方法は、まず、検出対象の顔画像を取得し、検出対象の顔画像の検出キーポイント情報を抽出し、テンプレート顔画像のテンプレートキーポイント情報を取得し、次に、テンプレートキーポイント情報と検出キーポイント情報とに基づいて、顔キーポイントマッピング関係の確率密度関数を構築し、確率密度関数に基づいて、顔キーポイントマッピング関係の目的関数及び期待関数を構築し、そして、期待関数の最尤推定を行い、推定結果に基づいて確率密度関数及び目的関数を再決定し、目的関数が予め設定された収束条件を満たすまで、期待関数を再決定して最尤推定を行い、予め設定された収束条件が満たされているときの確率密度関数に基づいて、顔キーポイントマッピング関係を決定し、ひいては顔キーポイントマッピング関係とテンプレートキーポイント情報とに基づいて、検出キーポイント情報を選別して、検出対象の顔画像のターゲットキーポイント情報を生成する。これにより、追加の人手によるラベリングが必要でなく、検出対象の顔画像の非遮蔽領域のターゲットキーポイント情報を正確に認識することができ、コストを節約し、時間を短縮することができる。

上記の分析から分かるように、本開示の実施例では、検出対象の顔画像とテンプレート顔画像との顔キーポイントマッピング関係が決定された後、顔キーポイントマッピング関係とテンプレートキーポイント情報とに基づいて、検出キーポイント情報を選別して、検出対象の顔画像の非遮蔽領域の顔キーポイント情報を生成することができ、以下に、図５と組み合わせて、本開示の実施例における顔キーポイントマッピング関係とテンプレートキーポイント情報とに基づいて、検出キーポイント情報を選別して、検出対象の顔画像の非遮蔽領域の顔キーポイント情報を生成するプロセスを詳細に説明する。

図５は本開示の第３の実施例に係る模式図である。図５に示すように、本開示によって提供される顔キーポイントの検出方法は、以下のステップを含むことができる。

ステップ３０１では、検出対象の顔画像を取得し、検出対象の顔画像の検出キーポイント情報を抽出する。

ステップ３０２では、テンプレート顔画像のテンプレートキーポイント情報を取得する。

ステップ３０３では、検出キーポイント情報とテンプレートキーポイント情報を組み合わせて、検出対象の顔画像とテンプレート顔画像との顔キーポイントマッピング関係を決定する。

ここで、上記のステップ３０１－３０３の具体的な実現プロセス及び原理は、上記の実施例の説明を参照することができ、ここでは説明を省略する。

ステップ３０４では、検出キーポイント情報における各顔キーポイントに対して、顔キーポイントマッピング関係、テンプレートキーポイント情報における顔キーポイントのテンプレート位置情報、及び検出キーポイント情報における顔キーポイントの検出位置情報に基づいて、顔キーポイントがターゲット顔キーポイントであるか否かを決定する。

具体的に、顔キーポイントマッピング関係は、同じ部位の顔キーポイントのテンプレート位置情報と、ほぼ正しい検出位置情報とのマッピング関係であるため、顔キーポイントマッピング関係とテンプレートキーポイント情報における顔キーポイントのテンプレート位置情報とに基づいて、検出対象の顔画像におけるテンプレート顔画像の部位と同じ顔キーポイントの実際位置を予測することができる。

具体的に、顔キーポイントマッピング関係と、テンプレート顔画像のテンプレートキーポイント情報における各顔キーポイントのテンプレート位置情報とに基づいて、検出対象の顔画像におけるテンプレート顔画像の部位と同じ顔キーポイントの実際位置を予測することで、検出対象の顔画像におけるテンプレート顔画像の顔部位と同じ顔キーポイントの評価位置情報を決定することができる。また、テンプレート顔画像のテンプレートキーポイント情報と検出対象の顔画像の検出キーポイント情報が１対１で対応するため、検出キーポイント情報における各顔キーポイントの検出位置情報と各顔キーポイントの評価位置情報は、それぞれ同じ顔位置の顔キーポイントに対応し、ひいては検出キーポイント情報における各顔キーポイントに対して、顔キーポイントの評価位置情報と検出位置情報とに基づいて、この顔キーポイントがターゲットキーポイントであるか否かを決定することができる。

即ち、ステップ３０４は、検出キーポイント情報における各顔キーポイントに対して、顔キーポイントのテンプレート位置情報と、顔キーポイントマッピング関係とに基づいて、顔キーポイントの評価位置情報を決定するステップと、評価位置情報と顔キーポイントの検出位置情報とに基づいて、顔キーポイントがターゲット顔キーポイントであるか否かを決定するステップと、を含む。

なお、検出キーポイント情報における各顔キーポイントに対して、顔キーポイントのテンプレート位置情報と、顔キーポイントマッピング関係とに基づいて、顔キーポイントの評価位置情報を決定することができるため、本開示の実施例では、検出対象の顔画像の非遮蔽領域の顔キーポイントの評価位置情報を決定することができ、検出対象の顔領域における遮蔽領域の顔キーポイントの評価位置情報も決定することができる。

具体的に実施する場合、ターゲット顔キーポイントは検出対象の顔画像の非遮蔽領域の顔キーポイントであるが、検出キーポイント情報における非遮蔽領域の顔キーポイントの検出位置情報はほぼ正しいであるため、非遮蔽領域の顔キーポイントの検出位置情報は、同じ部位の顔キーポイントの評価位置情報と一致している。そして、本開示の実施例では、検出対象の顔画像の検出キーポイント情報からターゲットキーポイント情報を選別して生成するために、各顔キーポイントの評価位置情報が決定された後、検出キーポイント情報における各顔キーポイントに対して、この顔キーポイントの評価位置情報がこの顔キーポイントの検出位置情報と一致しているか否かを決定することができ、この顔キーポイントの検出位置情報が評価位置情報と一致している場合、この顔キーポイントはターゲット顔キーポイントと見なされ、、一致していない場合、この顔キーポイントは非ターゲット顔キーポイントと見なされる。

これにより、検出キーポイント情報における各顔キーポイントに対して、顔キーポイントのテンプレート位置情報と顔キーポイントマッピング関係とに基づいて、顔キーポイントの評価位置情報を決定することで、検出対象の顔画像の非遮蔽領域の顔キーポイントの評価位置情報を決定することができ、遮蔽領域の顔キーポイントの評価位置情報も決定することができ、また、検出対象の顔画像の各顔キーポイントに対して、顔キーポイントの評価位置情報と検出位置情報とに基づいて、顔キーポイントがターゲット顔キーポイントであるか否かを決定することにより、検出対象の顔画像の非遮蔽領域のターゲット顔キーポイントを正確に選別することができる。

具体的に実施する場合、距離閾値を事前に設定することができ、検出キーポイント情報における各顔キーポイントに対して、顔キーポイントの検出位置情報と評価位置情報との距離が予め設定された距離閾値以下であるか否かに基づいて、この顔キーポイントの検出位置情報が評価位置情報と一致しているか否かを判断し、特定の顔キーポイントの検出位置情報と評価位置情報との距離が予め設定された距離閾値以下である場合、この顔キーポイントの検出位置情報は評価位置情報と一致していると見なされ、ひいてはこの顔キーポイントがターゲット顔キーポイントであると決定し、特定の顔キーポイントの検出位置情報と評価位置情報との距離が予め設定された距離閾値よりも大きい場合、この顔キーポイントの検出位置情報は評価位置情報と一致していないと見なされ、ひいてはこの顔キーポイントが非ターゲット顔キーポイントであると決定する。

即ち、評価位置情報と顔キーポイントの検出位置情報とに基づいて、顔キーポイントがターゲット顔キーポイントであるか否かを決定するステップは、評価位置情報と顔キーポイントの検出位置情報との距離を決定するステップと、距離が予め設定された距離閾値以下である場合、顔キーポイントがターゲット顔キーポイントであると決定するステップと、距離が予め設定された距離閾値よりも大きい場合、顔キーポイントが非ターゲット顔キーポイントであると決定するステップと、を含む。

ここで、評価位置情報と検出位置情報との距離は、ユークリッド距離や余弦距離など、２点間の距離を表すことができる任意の距離タイプを採用することができる。

予め設定された距離閾値は、必要に応じて設定することができ、予め設定された距離閾値が小いほど、検出キーポイント情報から選別して生成された検出対象の顔画像のターゲットキーポイント情報が正確になるため、実際の応用では、生成されたターゲットキーポイント情報の精度要件に応じて、予め設定された距離閾値を柔軟に設定することができる。

例えば、引き続き図２と図３を参照し、図２は、検出対象の顔画像の検出キーポイント情報の模式図であり、図３は、テンプレート顔画像のテンプレートキーポイント情報の模式図であり、本開示の実施例では、検出キーポイント情報における各顔キーポイントに対して、顔キーポイントのテンプレート位置情報と、顔キーポイントマッピング関係とに基づいて、顔キーポイントの評価位置情報を決定することができる。図６は検出対象の顔画像の各顔キーポイントの評価位置情報の模式図であると仮定すると、検出キーポイント情報における各顔キーポイントに対して、評価位置情報と検出位置情報との距離を決定し、距離と予め設定された距離閾値とを比較することができる。人間の左目の左隅の顔キーポイント１を例にとると、図６に示すような顔キーポイント１の評価位置情報と図２に示すような顔キーポイント１の検出位置情報との距離を、予め設定された距離閾値と比較して、顔キーポイント１の評価位置情報と検出位置情報との距離が予め設定された距離閾値よりも小さいという結果を取得し、検出対象の顔画像の検出キーポイント情報における顔キーポイント１がターゲットキーポイントであると決定する。人目の右目の左隅の顔キーポイント３を例にとると、図６に示すような顔キーポイント３の評価位置情報と図２に示すような顔キーポイント３の検出位置情報との距離を、予め設定された距離閾値とを比較して、顔キーポイント３の評価位置情報と検出位置情報との距離が予め設定された距離閾値よりも大きいという結果を取得し、検出対象の顔画像の検出キーポイント情報における顔キーポイント３が非ターゲットキーポイントであると決定する。これにより、検出キーポイント情報における各顔キーポイントがターゲットキーポイントであるか否かを決定することができる。

予め設定された距離閾値を設定し、検出キーポイント情報における各顔キーポイントに対して、顔キーポイントの評価位置情報と検出位置情報との間の距離と、予め設定された距離閾値との関係に基づいて、顔キーポイントがターゲット顔キーポイントであるか否かを判断することにより、検出対象の顔画像の検出キーポイント情報における顔キーポイントがターゲット顔キーポイントであるか否かを正確に判断することができる。

ステップ３０５では、検出キーポイント情報におけるターゲット顔キーポイントの検出位置情報に基づいて、検出対象の顔画像のターゲットキーポイント情報を生成する。

具体的には、検出キーポイント情報における各顔キーポイントがターゲット顔キーポイントであるか否かが決定された後、検出キーポイント情報から、ターゲット顔キーポイントの検出位置情報を選別し、ターゲット顔キーポイントの検出位置情報に基づいて、検出対象の顔画像のターゲットキーポイント情報を生成することができる。

検出キーポイント情報における各顔キーポイントに対して、顔キーポイントマッピング関係、テンプレートキーポイント情報における顔キーポイントのテンプレート位置情報、及び検出キーポイント情報における顔キーポイントの検出位置情報に基づいて、顔キーポイントがターゲット顔キーポイントであるか否かを決定し、ひいては検出キーポイント情報におけるターゲット顔キーポイントの検出位置情報に基づいて、検出対象の顔画像のターゲットキーポイント情報を生成することにより、検出対象の顔画像の非遮蔽領域の顔キーポイント、その位置および数などの情報を正確に決定することができ、プロセス全体では、追加の人手によるラベリングが必要でなく、コストを節約し、時間を短縮することができる。

なお、検出対象の顔画像のターゲットキーポイント情報が生成された後、ターゲットキーポイント情報を使用して、検出対象の顔画像の顔認識などの機能を実現することができる。即ち、ステップ３０５の後に、ステップ３０６をさらに含むことができる。

ステップ３０６では、検出対象の顔画像のターゲットキーポイント情報に基づいて、検出対象の顔画像に対して顔認識を行って、認識結果を取得する。

なお、本開示の実施例において決定された検出対象の顔画像のターゲットキーポイント情報は、顔認識に加えて、様々なシナリオに適用することができる。

例えば、本開示の実施例において生成された検出対象の顔画像のターゲットキーポイント情報に基づいて、検出対象の顔画像の特定のターゲットキーポイントの特殊効果又は編集処理を実施することができ、例えば、検出対象の顔画像のターゲットキーポイント情報に基づいて、目に対応する各ターゲットキーポイントの位置を決定し、さらに、目にメガネの特殊効果を適用するか、または目を拡大し、検出対象の顔画像のターゲットキーポイント情報に基づいて、眉毛に対応する各ターゲットキーポイントの位置を決定し、さらに、眉毛が太くなるように処理する。

なお、検出対象の顔画像のターゲットキーポイント情報に基づいて、検出対象の顔画像に対して顔認識を行って、認識結果を取得することにより、決定された検出対象の顔画像のターゲットキーポイント情報を使用して顔認識機能を実現することができ、本開示の顔キーポイントの検出方法によれば、生成されたターゲットキーポイント情報は正確で信頼性が高いため、この方法で生成されたターゲットキーポイント情報を使用して顔認識を行う場合、認識結果もより正確で信頼性が高くなる。

本開示によって提供される顔キーポイントの検出方法は、まず、検出対象の顔画像を取得し、検出対象の顔画像の検出キーポイント情報を抽出し、テンプレート顔画像のテンプレートキーポイント情報を取得し、そして、検出キーポイント情報とテンプレートキーポイント情報を組み合わせて、検出対象の顔画像とテンプレート顔画像との顔キーポイントマッピング関係を決定し、検出キーポイント情報における各顔キーポイントに対して、顔キーポイントマッピング関係、テンプレートキーポイント情報における顔キーポイントのテンプレート位置情報、及び検出キーポイント情報における顔キーポイントの検出位置情報に基づいて、顔キーポイントがターゲット顔キーポイントであるか否かを決定し、検出キーポイント情報におけるターゲット顔キーポイントの検出位置情報に基づいて、検出対象の顔画像のターゲットキーポイント情報を生成し、ひいては検出対象の顔画像のターゲットキーポイント情報に基づいて、検出対象の顔画像に対して顔認識を行って、認識結果を取得する。これにより、追加の人手によるラベリングが必要でなく、検出対象の顔画像の非遮蔽領域のターゲットキーポイント情報を正確に認識することができ、ひいては非遮蔽領域の顔キーポイント情報に基づいて検出対象の顔画像の顔認識を実現し、コストを節約し、時間を短縮することができる。

図１～図６に記載された実施例を実現するために、本開示の実施例は、顔キーポイントの検出装置をさらに提供する。

図７は、本開示の第４の実施例に係る模式図である。図７に示すように、この顔キーポイントの検出装置１０は、第１の取得モジュール１１と、抽出モジュール１２と、第２の取得モジュール１３と、決定モジュール１４と、処理モジュール１５とを含む。

具体的には、本開示によって提供される顔キーポイントの検出装置は、本開示の上記の実施例によって提供される顔キーポイントの検出方法を実行することができ、この顔キーポイントの検出装置は、検出対象の顔画像の非遮蔽領域のターゲットキーポイント情報の検出を実現するように、電子機器に配置され得る。ここで、電子機器は、データ処理が可能な任意の端末デバイスまたはサーバーなどであってもよく、本開示はこれを限定しない。

ここで、第１の取得モジュール１１は、検出対象の顔画像を取得し、抽出モジュール１２は、検出対象の顔画像の検出キーポイント情報を抽出し、第２の取得モジュール１３は、テンプレート顔画像のテンプレートキーポイント情報を取得し、決定モジュール１４は、検出キーポイント情報とテンプレートキーポイント情報を組み合わせて、検出対象の顔画像とテンプレート顔画像との顔キーポイントマッピング関係を決定し、処理モジュール１５は、顔キーポイントマッピング関係とテンプレートキーポイント情報とに基づいて、検出キーポイント情報を選別して、検出対象の顔画像のターゲットキーポイント情報を生成し、ターゲットキーポイント情報におけるターゲット顔キーポイントは、検出対象の顔画像の非遮蔽領域の顔キーポイントである。

なお、上記の実施例における顔キーポイントの検出方法の説明は、本開示の実施例における顔キーポイントの検出装置１０にも適用可能であり、ここでは説明を省略する。

本開示の実施例の顔キーポイントの検出装置は、まず、検出対象の顔画像を取得し、検出対象の顔画像の検出キーポイント情報を抽出し、テンプレート顔画像のテンプレートキーポイント情報を取得し、そして、検出対象の顔画像の検出キーポイント情報とテンプレート顔画像のテンプレートキーポイント情報を組み合わせて、検出対象の顔画像とテンプレート顔画像との顔キーポイントマッピング関係を決定し、ひいては顔キーポイントマッピング関係とテンプレートキーポイント情報とに基づいて、検出キーポイント情報を選別して、検出対象の顔画像のターゲットキーポイント情報を生成し、ここで、ターゲットキーポイント情報におけるターゲット顔キーポイントは、検出対象の顔画像の非遮蔽領域の顔キーポイントである。これにより、追加の人手によるラベリングが必要でなく、検出対象の顔画像の非遮蔽領域のターゲットキーポイント情報を正確に認識することができ、コストを節約し、時間を短縮することができる。

図８は本開示の第５の実施例に係る模式図である。

図８に示すように、図７に示されることに基づいて、本開示によって提供される顔キーポイントの検出装置１０における決定モジュール１４は、具体的に、テンプレートキーポイント情報と検出キーポイント情報とに基づいて、顔キーポイントマッピング関係の確率密度関数を構築する第１の構築ユニット１４１であって、確率密度関数は、検出対象の顔画像の遮蔽領域の顔キーポイントマッピング関係の分布情報及び非遮蔽領域の顔キーポイントマッピング関係の分布情報によって決定される第１の構築ユニット１４１と、確率密度関数に基づいて、顔キーポイントマッピング関係の目的関数及び期待関数を構築する第２の構築ユニット１４２と、期待関数の最尤推定を行い、推定結果に基づいて確率密度関数及び目的関数を再決定し、目的関数が予め設定された収束条件を満たすまで、期待関数を再決定して最尤推定を行う処理ユニット１４３と、予め設定された収束条件が満たされているときの確率密度関数に基づいて、顔キーポイントマッピング関係を決定する第１の決定ユニット１４４と、を含む。

例示的な実施例では、検出対象の顔画像の遮蔽領域の顔キーポイントマッピング関係の分布情報は、均一な分布情報であり、検出対象の顔画像の非遮蔽領域の顔キーポイントマッピング関係の分布情報は、混合ガウス分布情報である。

例示的な実施例では、図８に示すように、処理モジュール１５は、具体的に、検出キーポイント情報における各顔キーポイントに対して、顔キーポイントマッピング関係、テンプレートキーポイント情報における顔キーポイントのテンプレート位置情報、及び検出キーポイント情報における顔キーポイントの検出位置情報に基づいて、顔キーポイントがターゲット顔キーポイントであるか否かを決定する第２の決定ユニット１５１と、検出キーポイント情報におけるターゲット顔キーポイントの検出位置情報に基づいて、検出対象の顔画像のターゲットキーポイント情報を生成する生成ユニット１５２とを含む。

例示的な実施例では、上記の第２の決定ユニット１５１は、検出キーポイント情報における各顔キーポイントに対して、顔キーポイントのテンプレート位置情報と、顔キーポイントマッピング関係とに基づいて、顔キーポイントの評価位置情報を決定する第１の決定サブユニットと、評価位置情報と顔キーポイントの検出位置情報とに基づいて、顔キーポイントがターゲット顔キーポイントであるか否かを決定する第２の決定サブユニットとを含む。

例示的な実施例では、上記の第２の決定サブユニットは、具体的に、評価位置情報と顔キーポイントの検出位置情報との距離を決定し、距離が予め設定された距離閾値以下である場合、顔キーポイントがターゲット顔キーポイントであると決定し、距離が予め設定された距離閾値よりも大きい場合、顔キーポイントが非ターゲット顔キーポイントであると決定する。

例示的な実施例では、図８に示すように、図７に示されることに基づいて、本開示によって提供される顔キーポイントの検出装置１０は、検出対象の顔画像のターゲットキーポイント情報に基づいて、検出対象の顔画像に対して顔認識を行って、認識結果を取得する認識モジュール１６をさらに含み得る。

本開示の実施例によれば、本開示は、電子機器および読み取り可能な記憶媒体をさらに提供する。
本開示の実施例によれば、本開示は、コンピュータプログラムをさらに提供し、前記コンピュータプログラムがプロセッサによって実行される場合、顔キーポイントの検出方法が実現される。

図９は、本開示の実施例に係る顔キーポイントの検出方法のための電子機器のブロック図である。電子機器は、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、大型コンピュータ、及びその他の適切なコンピュータなどの様々な形態のデジタルコンピュータを表すことを目的とする。電子機器は、パーソナルデジタルアシスタント、セルラー電話、スマートフォン、ウェアラブルデバイス、及びその他の類似のコンピュータデバイスなどの様々な形態のモバイルデバイスを表すこともできる。本開示に記載されているコンポーネント、それらの接続関係、及び機能は例示的なものに過ぎず、本明細書の説明及び／又は要求される本開示の実現を制限することを意図したものではない。

図９に示すように、当該電子機器は、１つ又は複数のプロセッサ９０１と、メモリ９０２と、高速インターフェース及び低速インターフェースを含む、各コンポーネントを接続するためのインターフェースとを含む。各コンポーネントは、異なるバスで互いに接続され、共通のマザーボードに取り付けられてもよいし、必要に応じて他の方法で取り付けられてもよい。プロセッサは、外部入力／出力デバイス(例えば、インターフェースに接続された表示デバイスなど)にグラフィックユーザインターフェースを表示するためにメモリまたはメモリ上に記憶されている命令を含む、電子機器内で実行される命令を処理することができる。他の実施形態では、必要に応じて、複数のプロセッサおよび/または複数のバスを複数のメモリとともに使用することができる。同様に、複数の電子機器を接続してもよく、各デバイスは、一部の必要な動作(例えば、サーバアレイ、ブレードサーバのセット、またはマルチプロセッサシステムとして)を提供する。図９においてプロセッサ９０１を例とする。

メモリ９０２は、本開示によって提供される非一時的なコンピュータ読み取り可能な記憶媒体である。ここで、メモリには、少なくとも１つのプロセッサが本開示に係る顔キーポイントの検出方法を実行するように、少なくとも１つのプロセッサによって実行される命令が格納されている。本開示の非一時的なコンピュータ読み取り可能な記憶媒体には、本開示によって提供される顔キーポイントの検出方法をコンピュータに実行させる命令が記憶されている。

メモリ９０２は、非一時的なコンピュータ読み取り可能な記憶媒体として、本開示の実施例における顔キーポイントの検出方法に対応するプログラム命令/モジュール(例えば、図７に示す第１の取得モジュール１１、抽出モジュール１２、第２の取得モジュール１３、決定モジュール１４、処理モジュール１５、図８に示す認識モジュール１６)のような、非一時的なソフトウェアプログラム、非一時的なコンピュータ実行可能プログラム及びモジュールを格納することができる。プロセッサ９０１は、メモリ９０２に格納された非一時的なソフトウェアプログラム、命令およびモジュールを実行することにより、サーバの各種機能アプリケーションおよびデータ処理を実行し、すなわち上記方法の実施例における顔キーポイントの検出方法を実現する。

メモリ９０２は、オペレーティングシステム、少なくとも１つの機能に必要なアプリケーションを記憶できるプログラム記憶領域、および顔キーポイントの検出方法を実行する電子機器の使用に作成されるデータ等を記憶できるデータ記憶領域を備えてもよい。また、メモリ６０２は高速ランダムアクセスメモリを含むことができ、また少なくとも１つの磁気ディスク記憶装置、フラッシュメモリデバイスまたはその他の非一時的なソリッドステート記憶装置などの非一時的なメモリを含み得る。いくつかの実施形態において、メモリ６０２はプロセッサ６０１に対して遠隔に設置されたメモリを選択的に含み、これらのリモートメモリはネットワークを介して顔キーポイントの検出方法を実行する電子機器に接続することができる。上記ネットワークとしては、例えば、インターネット、企業イントラネット、ローカルエリアネットワーク、移動体通信網およびこれらの組み合わせなどが挙げられるが、それらに限定されない。

顔キーポイントの検出方法を実行する電子機器は、さらに入力装置９０３および出力装置９０４を含んでもよい。プロセッサ９０１、メモリ９０２、入力装置９０３および出力装置９０４は、バスまたはその他の方式で接続されていてもよく、図９ではバスで接続されている例を示している。

入力装置９０３は、入力された数字や文字情報を受信でき、顔キーポイントの検出方法を実行する電子機器のユーザ設定および機能制御に関するキー信号入力を生成することができ、例えばタッチパネル、キーパッド、マウス、トラックパッド、タッチパッド、ポインティングデバイス、１つまたは複数のマウスボタン、トラックボール、ジョイスティック等である。出力装置９０４は表示装置、補助照明装置(例えば、ＬＥＤ)および触覚フィードバック装置(例えば、振動モータ)等を含むことができる。該表示装置は、液晶ディスプレイ(ＬＣＤ)、発光ダイオード(ＬＥＤ)ディスプレイおよびプラズマディスプレイを含むことができるが、これらに限定されない。いくつかの実施形態において、表示装置はタッチパネルであってもよい。

ここで記述されるシステムおよび技術の各実施形態はデジタル電子回路システム、集積回路システム、特定用途向けＡＳＩＣ（特定用途向け集積回路）、コンピュータハードウェア、ファームウェア、ソフトウェア、および/またはそれらの組み合わせで実装され得る。これらの各実施形態は、１つまたは複数のコンピュータプログラムに実装され、該１つまたは複数のコンピュータプログラムは少なくとも１つのプログラマブルプロセッサを含むプログラマブルシステムにおいて実行および/または解釈することができ、該プログラマブルプロセッサは専用または汎用プログラマブルプロセッサであってもよく、記憶システム、少なくとも１つの入力装置および少なくとも１つの出力装置からデータおよび命令を受信することができ、且つデータおよび命令を該記憶システム、該少なくとも１つの入力装置および該少なくとも１つの出力装置に伝送することを含み得る。

これらのコンピュータプログラムは、プログラム、ソフトウェア、ソフトウェアアプリケーションまたはコードとも呼ばれ、プログラマブルプロセッサの機械命令を含み、且つ高度プロセスおよび/またはオブジェクト指向のプログラミング言語、および/またはアセンブリ言語/機械語により実装され得る。ここで、「機械読み取り可能な媒体」および「コンピュータ読み取り可能な媒体」という用語は、機械命令および/またはデータをプログラマブルプロセッサに供給するための任意のコンピュータプログラム製品、機器、および/または装置(たとえば、磁気ディスク、光ディスク、メモリ、プログラマブルロジックデバイス(ＰＬＤ))を意味し、機械読み取り可能な信号である機械命令を受信する機械読み取り可能な媒体を含む。「機械読み取り可能な信号」という用語は、機械命令および/またはデータをプログラマブルプロセッサに供給するための任意の信号を意味する。

ユーザとのインタラクションを提供するために、ここで記述されるシステムと技術をコンピュータ上で実施することができ、当該コンピュータは、ユーザに情報を表示するための表示装置(例えば、ＣＲＴ（陰極線管）またはＬＣＤ(液晶ディスプレイ)モニタ)と、キーボードおよびポインティングデバイス(例えば、マウスまたはトラックボール)とを備え、ユーザが該キーボードおよび該ポインティングデバイスを介してコンピュータに入力を提供できる。他の種類の装置もユーザとのインタラクションを提供することに用いることができる。例えば、ユーザに提供されるフィードバックは、いかなる形態の感覚フィードバック（例えば、視覚フィードバック、聴覚フィードバック、または触覚フィードバック）であってもよく、且ついかなる形態（音響入力、音声入力若しくは触覚入力を含む）でユーザからの入力を受信してもよい。

ここで記述したシステムおよび技術は、バックグラウンドコンポーネントを含むコンピューティングシステム(例えば、データサーバ)に実施されてもよく、またはミドルウェアコンポーネントを含むコンピューティングシステム(例えば、アプリケーションサーバ)に実施されてもよく、またはフロントエンドコンポーネントを含むコンピューティングシステム(例えば、グラフィカルユーザインタフェースまたはウェブブラウザを有するユーザコンピュータであり、ユーザは、当該グラフィカルユーザインタフェース又は当該ウェブブラウザによってここで説明されるシステム及び技術の実施形態とインタラクションする)に実施されてもよく、またはこのようなバックグラウンドコンポーネント、ミドルウェアコンポーネントまたはフロントエンドコンポーネントのいずれかの組み合わせを含むコンピューティングシステムに実施されてもよい。システムの各コンポーネントの間は、通信ネットワーク等の任意の形態または媒体を介してデジタルデータ通信（例えば通信ネットワーク）により接続されていてもよい。通信ネットワークとしては、ローカルエリアネットワーク(ＬＡＮ)、ワイドエリアネットワーク(ＷＡＮ)およびインターネットなどを含む。

コンピュータシステムは、クライアントとサーバとを含んでもよい。クライアントとサーバは、通常、互いに離れており、通信ネットワークを介してインタラクションする。クライアントとサーバとの関係は、互いにクライアント-サーバの関係を有するコンピュータプログラムをそれぞれのコンピュータ上で動作することによって生成される。

上記の様々な態様のフローを使用して、ステップを並べ替え、追加、又は削除することができる。例えば、本開示で記載された各ステップは、並列に実行しても良いし、順次に実行しても良いし、異なる順序で実行しても良い。本開示で開示された技術案が所望する結果を実現することができれば、本開示では限定しない。

上記具体的な実施形態は、本開示の保護範囲を限定するものではない。当業者にとって、設計要件やその他の要因に基づいて、様々な修正、組み合わせ、サブコンビネーション、及び代替を行うことができることは、明らかである。本開示の要旨及び原理内で行われる任意の修正、同等の置換及び改善などは、すべて本開示の保護範囲に含まれるべきである。

Claims

顔キーポイントの検出方法であって、
検出対象の顔画像を取得し、前記検出対象の顔画像の検出キーポイント情報を抽出するステップと、
テンプレート顔画像のテンプレートキーポイント情報を取得するステップと、
前記検出キーポイント情報と前記テンプレートキーポイント情報を組み合わせて、前記検出対象の顔画像と前記テンプレート顔画像との顔キーポイントマッピング関係を決定するステップと、
前記顔キーポイントマッピング関係と前記テンプレートキーポイント情報とに基づいて、前記検出キーポイント情報を選別して、前記検出対象の顔画像のターゲットキーポイント情報を生成するステップであって、前記ターゲットキーポイント情報におけるターゲット顔キーポイントは、前記検出対象の顔画像の非遮蔽領域の顔キーポイントであるステップと、を含む、
ことを特徴とする顔キーポイントの検出方法。
前記検出キーポイント情報と前記テンプレートキーポイント情報を組み合わせて、前記検出対象の顔画像と前記テンプレート顔画像との顔キーポイントマッピング関係を決定するステップは、
前記テンプレートキーポイント情報と前記検出キーポイント情報とに基づいて、顔キーポイントマッピング関係の確率密度関数を構築するステップであって、前記確率密度関数は、検出対象の顔画像の遮蔽領域の顔キーポイントマッピング関係の分布情報及び非遮蔽領域の顔キーポイントマッピング関係の分布情報によって決定されるステップと、
確率密度関数に基づいて、顔キーポイントマッピング関係の目的関数及び期待関数を構築するステップと、
期待関数の最尤推定を行い、推定結果に基づいて前記確率密度関数及び前記目的関数を再決定し、前記目的関数が予め設定された収束条件を満たすまで、前記期待関数を再決定して最尤推定を行うステップと、
予め設定された収束条件が満たされているときの確率密度関数に基づいて、顔キーポイントマッピング関係を決定するステップと、を含む、
ことを特徴とする請求項１に記載の方法。
前記顔キーポイントマッピング関係と前記テンプレートキーポイント情報とに基づいて、前記検出キーポイント情報を選別して、前記検出対象の顔画像のターゲットキーポイント情報を生成するステップは、
前記検出キーポイント情報における各顔キーポイントに対して、前記顔キーポイントマッピング関係、前記テンプレートキーポイント情報における前記顔キーポイントのテンプレート位置情報、及び前記検出キーポイント情報における前記顔キーポイントの検出位置情報に基づいて、前記顔キーポイントがターゲット顔キーポイントであるか否かを決定するステップと、
前記検出キーポイント情報における前記ターゲット顔キーポイントの検出位置情報に基づいて、前記検出対象の顔画像のターゲットキーポイント情報を生成するステップと、を含む、
ことを特徴とする請求項１に記載の方法。
前記検出キーポイント情報における各顔キーポイントに対して、前記顔キーポイントマッピング関係、前記テンプレートキーポイント情報における前記顔キーポイントのテンプレート位置情報、及び前記検出キーポイント情報における前記顔キーポイントの検出位置情報に基づいて、前記顔キーポイントがターゲット顔キーポイントであるか否かを決定するステップは、
前記検出キーポイント情報における各顔キーポイントに対して、前記顔キーポイントのテンプレート位置情報と、前記顔キーポイントマッピング関係とに基づいて、前記顔キーポイントの評価位置情報を決定するステップと、
前記評価位置情報と前記顔キーポイントの検出位置情報とに基づいて、前記顔キーポイントがターゲット顔キーポイントであるか否かを決定するステップと、を含む、
ことを特徴とする請求項３に記載の方法。
前記評価位置情報と前記顔キーポイントの検出位置情報とに基づいて、前記顔キーポイントがターゲット顔キーポイントであるか否かを決定するステップは、
前記評価位置情報と前記顔キーポイントの検出位置情報との距離を決定するステップと、
前記距離が予め設定された距離閾値以下である場合、前記顔キーポイントがターゲット顔キーポイントであると決定するステップと、
前記距離が予め設定された距離閾値よりも大きい場合、前記顔キーポイントが非ターゲット顔キーポイントであると決定するステップと、を含む、
ことを特徴とする請求項４に記載の方法。
前記顔キーポイントマッピング関係と前記テンプレートキーポイント情報とに基づいて、前記検出キーポイント情報を選別して、前記検出対象の顔画像のターゲットキーポイント情報を生成するステップの後に、
前記検出対象の顔画像のターゲットキーポイント情報に基づいて、前記検出対象の顔画像に対して顔認識を行って、認識結果を取得するステップをさらに含む、
ことを特徴とする請求項１に記載の方法。
前記検出対象の顔画像の遮蔽領域の顔キーポイントマッピング関係の分布情報は、均一な分布情報であり、
前記検出対象の顔画像の非遮蔽領域の顔キーポイントマッピング関係の分布情報は、混合ガウス分布情報である、
ことを特徴とする請求項２に記載の方法。
前記確率密度関数の計算式は、

であり、
ｘは、検出対象の顔画像の検出キーポイント情報を表し、ωは、検出対象の顔画像の遮蔽領域の割合を表し、

は、均一な分布情報を表し、ｐ（ｘ｜ｋ）は、ガウス分布情報を表す、
ことを特徴とする請求項７に記載の方法。
顔キーポイントの検出装置であって、
検出対象の顔画像を取得する第１の取得モジュールと、
前記検出対象の顔画像の検出キーポイント情報を抽出する抽出モジュールと、
テンプレート顔画像のテンプレートキーポイント情報を取得する第２の取得モジュールと、
前記検出キーポイント情報と前記テンプレートキーポイント情報を組み合わせて、前記検出対象の顔画像と前記テンプレート顔画像との顔キーポイントマッピング関係を決定する決定モジュールと、
前記顔キーポイントマッピング関係と前記テンプレートキーポイント情報とに基づいて、前記検出キーポイント情報を選別して、前記検出対象の顔画像のターゲットキーポイント情報を生成する処理モジュールであって、前記ターゲットキーポイント情報におけるターゲット顔キーポイントは、前記検出対象の顔画像の非遮蔽領域の顔キーポイントである処理モジュールと、を含む、
ことを特徴とする顔キーポイントの検出装置。
前記決定モジュールが、
前記テンプレートキーポイント情報と前記検出キーポイント情報とに基づいて、顔キーポイントマッピング関係の確率密度関数を構築する第１の構築ユニットであって、前記確率密度関数は、検出対象の顔画像の遮蔽領域の顔キーポイントマッピング関係の分布情報及び非遮蔽領域の顔キーポイントマッピング関係の分布情報によって決定される第１の構築ユニットと、
確率密度関数に基づいて、顔キーポイントマッピング関係の目的関数及び期待関数を構築する第２の構築ユニットと、
期待関数の最尤推定を行い、推定結果に基づいて前記確率密度関数及び前記目的関数を再決定し、前記目的関数が予め設定された収束条件を満たすまで、前記期待関数を再決定して最尤推定を行う処理ユニットと、
予め設定された収束条件が満たされているときの確率密度関数に基づいて、顔キーポイントマッピング関係を決定する第１の決定ユニットと、を含む、
ことを特徴とする請求項９に記載の装置。
前記処理モジュールが、
前記検出キーポイント情報における各顔キーポイントに対して、前記顔キーポイントマッピング関係、前記テンプレートキーポイント情報における前記顔キーポイントのテンプレート位置情報、及び前記検出キーポイント情報における前記顔キーポイントの検出位置情報に基づいて、前記顔キーポイントがターゲット顔キーポイントであるか否かを決定する第２の決定ユニットと、
前記検出キーポイント情報における前記ターゲット顔キーポイントの検出位置情報に基づいて、前記検出対象の顔画像のターゲットキーポイント情報を生成する生成ユニットと、を含む、
ことを特徴とする請求項９に記載の装置。
前記第２の決定ユニットが、
前記検出キーポイント情報における各顔キーポイントに対して、前記顔キーポイントのテンプレート位置情報と、前記顔キーポイントマッピング関係とに基づいて、前記顔キーポイントの評価位置情報を決定する第１の決定サブユニットと、
前記評価位置情報と前記顔キーポイントの検出位置情報とに基づいて、前記顔キーポイントがターゲット顔キーポイントであるか否かを決定する第２の決定サブユニットと、を含む、
ことを特徴とする請求項１１に記載の装置。
前記第２の決定サブユニットが、
前記評価位置情報と前記顔キーポイントの検出位置情報との距離を決定し、
前記距離が予め設定された距離閾値以下である場合、前記顔キーポイントがターゲット顔キーポイントであると決定し、
前記距離が予め設定された距離閾値よりも大きい場合、前記顔キーポイントが非ターゲット顔キーポイントであると決定する、
ことを特徴とする請求項１２に記載の装置。
前記検出対象の顔画像のターゲットキーポイント情報に基づいて、前記検出対象の顔画像に対して顔認識を行って、認識結果を取得する認識モジュールをさらに含む、
ことを特徴とする請求項９～１３のいずれかに記載の装置。
前記検出対象の顔画像の遮蔽領域の顔キーポイントマッピング関係の分布情報は、均一な分布情報であり、
前記検出対象の顔画像の非遮蔽領域の顔キーポイントマッピング関係の分布情報は、混合ガウス分布情報である、
ことを特徴とする請求項１０に記載の装置。
前記確率密度関数の計算式は、

であり、
ｘは、検出対象の顔画像の検出キーポイント情報を表し、ωは、検出対象の顔画像の遮蔽領域の割合を表し、

は、均一な分布情報を表し、ｐ（ｘ｜ｋ）は、ガウス分布情報を表す、
ことを特徴とする請求項１５に記載の装置。
電子機器であって、
少なくとも１つのプロセッサと、
前記少なくとも１つのプロセッサと通信可能に接続されるメモリと、を含み、
前記メモリには、前記少なくとも１つのプロセッサによって実行される命令が記憶されており、前記命令は、前記少なくとも１つのプロセッサが請求項１～８のいずれかに記載の方法を実行できるように、前記少なくとも１つのプロセッサによって実行される、
ことを特徴とする電子機器。
コンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体であって、
前記コンピュータ命令は、コンピュータに請求項１～８のいずれかに記載の方法を実行させる、
ことを特徴とする非一時的なコンピュータ読み取り可能な記憶媒体。
コンピュータプログラムであって、
前記コンピュータプログラムがプロセッサによって実行される場合、請求項１～８のいずれかに記載の方法が実現される、
ことを特徴とするコンピュータプログラム。