JP7242812B2

JP7242812B2 - 画像認識方法、装置及び電子機器

Info

Publication number: JP7242812B2
Application number: JP2021186127A
Authority: JP
Inventors: ギョジンジン; ユウレイ; シンチ― シャン; シオンズオ; ヤンチェン; シルイガオ; ユアンチョーユー; カングリジャン; ヤーウェイワン
Original assignee: Apollo Intelligent Connectivity Beijing Technology Co Ltd
Current assignee: Apollo Intelligent Connectivity Beijing Technology Co Ltd
Priority date: 2020-11-17
Filing date: 2021-11-16
Publication date: 2023-03-20
Anticipated expiration: 2041-11-16
Also published as: EP3929810A2; US20220067350A1; KR20210154774A; JP2022024070A; KR20210089115A; CN112270303A; EP3929810A3

Description

本開示は、コンピュータ分野における画像認識技術分野に関する。具体的には、画像認識方法、装置及び電子機器を提供する。

顔認識技術は、支払い、入退室、登録などの分野で広く利用されており、我々の仕事や生活を便利にしている。顔認識の成功率を保障するためには、ユーザの顔を遮蔽判断し、顔が遮蔽されている場合には遮蔽物を取り除くようにユーザに促す必要がある。顔遮蔽認識は、顔データベースへの登録時にとりわけ重要である。遮蔽されている顔がデータベースに登録されると、その後の顔認識の正確率が大きく低下する。

本開示は、画像認識方法、装置及び電子機器を提供する。

本開示の第１態様によれば、画像認識方法を提供し、単一の顔画像である第１顔画像を取得することと、前記第１顔画像の顔深度情報を取得することと、前記顔深度情報に基づいて、前記第１顔画像における顔が遮蔽されているか否かを認識することとを含む。

本開示の第２態様によれば、画像認識装置を提供し、単一の顔画像である第１顔画像を取得する第１取得モジュールと、前記第１顔画像の顔深度情報を取得する第２取得モジュールと、前記顔深度情報に基づいて、前記第１顔画像における顔が遮蔽されているか否かを認識する認識モジュールとを備える。

本開示の第３態様によれば、少なくとも１つのプロセッサと、該少なくとも１つのプロセッサと通信接続されたメモリと、を備える電子機器を提供し、前記メモリには、前記少なくとも１つのプロセッサによって実行可能なコマンドが格納されており、前記コマンドが前記少なくとも１つのプロセッサによって実行されると、第１態様のいずれか一項に記載の方法の前記少なくとも１つのプロセッサによる実行を可能にする。

本開示の第４態様によれば、コンピュータコマンドが格納されている非一時的コンピュータ読み取り可能な記憶媒体を提供し、前記コンピュータコマンドは、第１態様のいずれか一項に記載の方法をコンピュータに実行させる。

このセクションに記載された内容は、本開示の実施例のポイントや重要な特徴を特定することを意図するものではなく、また、本開示の範囲を限定するために使用されるものでもないことを理解されたい。本開示の他の特徴は、以下の明細書から容易に理解される。

図面は、本構成をよりよく理解するためのものであり、本開示の限定にならない。

本開示の実施例に係る画像認識方法のフローチャートである。本開示の実施例に係る画像認識装置の構造図である。本開示の実施例に係る画像認識方法を実現するための電子機器のブロック図である。

以下、図面を参照して本開示の例示的な実施例を説明し、理解することに寄与する本開示の実施例の様々な詳細が含まれるが、それらは、単に例示的なものであると考えるべきである。よって、当業者にとって、ここに記載の実施例に対し、本開示の範囲や趣旨から逸脱することなく様々な変更や修正を行うことができることを認識すべきである。同様に、明確及び簡潔のために、以下の記載では、既知の機能や構造の記載を省略している。

図１を参照する。図１は、本開示の実施例に係る画像認識方法のフローチャートである。図１に示すように、本実施例に係る画像認識方法は、以下のステップを含む。

ステップ１０１において、単一の顔画像である第１顔画像を取得する。

第１顔画像はカメラで取得され、例えば、カメラで顔を撮影して第１顔画像が取得され、又は、カメラで人を撮影した後に、取得した撮影画像から顔を切り出して第１顔画像が取得されるが、ここでは限定しない。第１顔画像は、単一の顔画像である。第１顔画像は、ＲＧＢ画像（Ｒは赤、Ｇは緑、Ｂは青を表す）であってもよく、又は赤外線ＩＲ（ＩｎｆｒａｒｅｄＲａｄｉａｔｉｏｎ）画像であってもよい。

ステップ１０２において、前記第１顔画像の顔深度情報を取得する。

第１顔画像の顔深度情報は、コンピュータビジョンのアルゴリズムを用いて取得され、又は、深層学習アルゴリズムを用いて取得され得る。顔深度情報は、第１顔画像の深度情報、又は第１顔画像における顔の深度情報と捉えてもよい。

ステップ１０３において、前記顔深度情報に基づいて、前記第１顔画像における顔が遮蔽されているか否かを認識する。

顔深度情報に基づいて認識する場合、参照画像の顔深度情報と比較してもよい。参照画像は、顔が遮蔽されている顔画像、又は、顔が遮蔽されていない顔画像であってもよい。参照画像として顔が遮蔽されていない顔画像であり、第１画像の顔深度情報と参照画像の顔深度情報との一致度が所定の閾値よりも大きければ、第１画像における顔が遮蔽されていないと判定し、第１画像の顔深度情報と参照画像の顔深度情報との一致度が所定の閾値以下であれば、第１画像における顔が遮蔽されていると判定する。

参照画像として顔が遮蔽されている顔画像であり、第１画像の顔深度情報と参照画像の顔深度情報との一致度が所定の閾値よりも大きければ、第１画像における顔が遮蔽されていると判定し、第１画像の顔深度情報と参照画像の顔深度情報との一致度が所定の閾値以下であれば、第１画像における顔が遮蔽されていないと判定する。

コンピュータビジョンのアルゴリズムを用いるか、又は深層学習アルゴリズムを用いて、第１画像の顔深度情報に基づいて、前記第１顔画像における顔が遮蔽されているか否かを認識してもよい。例えば、画像における顔に遮蔽物がある場合、顔深度情報が断続となり、認識モデルを学習することによって第１画像の顔深度情報を認識し、第１顔画像における顔が遮蔽されているか否かの認識結果を取得する。

本実施例において、単一の顔画像である第１顔画像を取得し、前記第１顔画像の顔深度情報を取得し、前記顔深度情報に基づいて、前記第１顔画像における顔が遮蔽されているか否かを認識する。上記において、単一の顔画像の顔深度情報に基づいて、第１顔画像における顔が遮蔽されているか否かを認識することによって、認識の正確率を向上させ、認識誤りの確率を低下させる。また、単一の顔画像のみに基づいて認識することにより、認識プロセスが簡略化され、認識効率が向上する。

上記において、前記顔深度情報に基づいて、前記第１顔画像における顔が遮蔽されているか否かを認識した後に、前記方法では、前記第１顔画像における顔が遮蔽されていないと認識された場合、前記第１顔画像が収集された後に収集された顔画像を含む第２顔画像を取得し、前記第２顔画像に基づいて顔認識又は顔登録を行うことを更に含む。

第２顔画像は、カメラで収集されて取得され得る。例えば、カメラで第１顔画像を収集した後、第１顔画像における顔が遮蔽されていないと認識された場合、電子機器（本開示の方法は、電子機器に応用可能である）は、カメラで収集された第２顔画像によって顔認識又は顔登録を行う。即ち、第２顔画像は、前記第１顔画像が収集された後に収集された顔画像である。第２顔画像は、１枚の顔画像、又は、複数枚の顔画像であってもよく、具体的には、実際のニーズに応じて決定される。第２顔画像は、前記第１顔画像における顔が遮蔽されていないと認識された場合、第１顔画像を含んでもよい。

第１顔画像における顔が遮蔽されていないと認識された場合、その時点の顔が有効であるとして、カメラで引き続き顔画像を取得し、即ち第２顔画像を取得し、第２顔画像に基づいて顔認識又は顔登録を行う。上記認識プロセスによって、顔が遮蔽されている顔画像を用いて顔認識又は顔登録が行われ、顔認識の正確率に影響を与えることを回避することができる。

本実施例において、前記顔深度情報に基づいて、前記第１顔画像における顔が遮蔽されているか否かを認識した後に、前記第１顔画像における顔が遮蔽されていないと認識された場合、前記第１顔画像が収集された後に収集された顔画像を含む第２顔画像を取得し、前記第２顔画像に基づいて顔認識又は顔登録を行うことによって、遮蔽されている顔画像を用いて顔認識又は顔登録が行われ、顔認識の正確率に影響を与えることを回避することができる。

上記において、前記顔深度情報に基づいて、前記第１顔画像における顔が遮蔽されているか否かを認識した後に、前記第１顔画像における顔が遮蔽されていると認識された場合、遮蔽物を取り除くようにユーザに促すための提示情報を出力することを更に含む。

前記第１顔画像における顔が遮蔽されていると認識された場合、遮蔽物の除去をユーザに提示するように、提示情報を出力する。第１電子機器のカメラは、第１所定時間おきに顔画像を収集し、画像における顔が遮蔽されているか否かを認識し、画像における顔が遮蔽されていないと認識された場合、提示情報を表示せず、前記第１顔画像における顔が遮蔽されていないと認識された場合に第２顔画像を取得して前記第２顔画像に基づいて顔認識又は顔登録を行うステップを実行する。第１所定時間は、１秒又は０．５秒であってもよく、ここでは限定しない。

第２所定時間の表示後に、提示情報の表示をキャンセルしてもよく、例えば５秒の表示後に表示をキャンセルする。

更に、第１顔画像における顔が遮蔽されていると認識された場合、遮蔽されている部位が額、左顔、口角又はあご等であるように、遮蔽されている位置を判定し、提示情報に遮蔽部位を付加して、顔のどの部位に遮蔽物が位置しているかをユーザに提示する。

本実施例において、前記第１顔画像における顔が遮蔽されていると認識された場合、遮蔽物を取り除くようにユーザに促すための提示情報を出力し、電子機器によって現在取得されている顔画像に遮蔽物が存在しており遮蔽物を取り除く必要があることをタイムリーにユーザに促し、顔が遮蔽されていない顔画像である合格な顔画像の取得効率を向上させる。

上記において、前記第１顔画像の顔深度情報を取得することは、前記第１顔画像を第１ネットワークモデルに入力し、前記第１顔画像の顔深度情報を取得することを含み、前記の前記顔深度情報に基づいて、前記第１顔画像における顔が遮蔽されているか否かを認識することは、前記第１顔画像と前記顔深度情報とを第２ネットワークモデルに入力し、前記第１顔画像における顔が遮蔽されているか否かの認識結果を取得することを含む。ここで、前記第２ネットワークモデルは、顔深度情報を入力に含み、顔が遮蔽されているか否かの認識結果を出力に含むエンドツーエンドモデルである。

本実施例において、第１ネットワークモデルを用いて第１顔画像の顔深度情報を取得し、第２ネットワークモデルを用いて顔深度情報に基づいて、顔が遮蔽されているか否かを認識する。

第１ネットワークモデル及び第２ネットワークモデルは、使用前に、サンプルを用いて訓練する必要がある。ここで、前記第１ネットワークモデルの訓練プロセスは、第１サンプル画像と第１サンプル画像に対応する第１顔深度情報を取得することと、前記第１サンプル画像を第１ベースネットワークモデルに入力して予測顔深度情報を取得することと、前記第１顔深度情報と前記予測顔深度情報とに基づいて損失関数を決定することと、前記損失関数に基づいて、前記第１ベースネットワークモデルのパラメータを調整して前記第１ネットワークモデルを取得することとを含む。

第１顔深度情報は、コンピュータビジョンアルゴリズムを用いて取得され得、第１ベースネットワークモデルは、深層学習モデルであってもよい。第１サンプル画像及び第１顔深度情報によって第１ベースネットワークモデルを訓練して第１ネットワークモデルを取得する。

前記第２ネットワークモデルの訓練プロセスは、「遮蔽されている」とラベル付けされた第１画像と、「遮蔽されていない」とラベル付けされた第２画像とを含む第２サンプル画像に対応する第２顔深度情報を取得することと、前記第２サンプル画像と第２顔深度情報とを用いて第２ベースネットワークモデルを訓練して前記第２ネットワークモデルを取得することとを含む。

第２顔深度情報は、第１ネットワークモデルによって決定され得る。例えば、第２サンプル画像を第１ネットワークモデルに入力して第２顔深度情報を取得する。第２サンプル画像と、それに対応する第２顔深度情報によって第２ベースネットワークモデルを訓練して第２ネットワークモデルを取得し、画像に遮蔽が存在するか否かの認識結果を第２ネットワークモデルから出力する。第２ベースネットワークモデルは、ニューラルネットワークモデルであってもよい。

上記において、第１サンプル画像と第２サンプル画像は、いずれも顔画像である。第１顔深度情報及び第２顔深度情報は、いずれも深度図であってもよい。

第１ネットワークモデルと第２ネットワークモデルの訓練が完了した後、第１顔画像の顔深度情報を第１ネットワークモデルに入力し、第１顔画像の顔深度情報を取得してもよく、例えば、顔画像の深度図を取得する。そして、第１顔画像と顔深度情報を第２ネットワークモデルに入力し、第１顔画像における顔が遮蔽されているか否かの認識結果を取得する。

本実施例において、第１ネットワークモデルによって第１顔画像の顔深度情報を取得し、第２ネットワークモデルによって、顔深度情報に基づいて、第１顔画像における顔が遮蔽されているか否かを認識することで、顔画像における顔が遮蔽されているか否かを単一の顔画像に基づいて判定するという目的を実現し、認識プロセスを簡略化し、認識効率を向上させる。

図２を参照し、図２は、本開示の実施例に係る画像認識装置の構造図である。図２に示すように、本実施例に係る画像認識装置２００は、単一の顔画像である第１顔画像を取得する第１取得モジュール２０１と、前記第１顔画像の顔深度情報を取得する第２取得モジュール２０２と、前記顔深度情報に基づいて、前記第１顔画像における顔が遮蔽されているか否かを認識する認識モジュール２０３とを備える。

更に、画像認識装置２００は、前記第１顔画像における顔が遮蔽されていないと認識された場合、前記第１顔画像が収集された後に収集された顔画像を含む第２顔画像を取得し、前記第２顔画像に基づいて顔認識又は顔登録を行う第３取得モジュールを更に備える。

更に、画像認識装置２００は、前記第１顔画像における顔が遮蔽されていると認識された場合、遮蔽物を取り除くようにユーザに促すための提示情報を出力する提示モジュールを更に備える。

更に、前記第２取得モジュール２０２は、前記第１顔画像を第１ネットワークモデルに入力し、前記第１顔画像の顔深度情報を取得し、前記認識モジュールは、前記第１顔画像と前記顔深度情報とを第２ネットワークモデルに入力し、前記第１顔画像における顔が遮蔽されているか否かの認識結果を取得する。

本開示の実施例に係る画像認識装置２００は、単一の顔画像である第１顔画像を取得し、前記第１顔画像の顔深度情報を取得し、前記顔深度情報に基づいて、前記第１顔画像における顔が遮蔽されているか否かを認識する。上記において、単一の顔画像の顔深度情報に基づいて、第１顔画像における顔が遮蔽されているか否かを認識することによって、認識の正確率を向上させ、認識誤りの確率を低下させる。

本開示の実施例によれば、本開示は、電子機器及び読み取り可能な記憶媒体を更に提供する。

図３は、本開示の実施例の画像認識方法に係る電子機器のブロック図である。電子機器は、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、携帯情報端末、サーバ、ブレードサーバ、メインフレームコンピュータ、及び他の適切なコンピュータなどの様々な形態のデジタルコンピュータを表すことが意図される。電子機器はまた、パーソナルデジタルプロセシング、セルラー電話、スマートフォン、ウェアラブルデバイス、及び他の同様のコンピューティングデバイスなど、様々な形態のモバイルデバイスを表してもよい。本明細書に示される構成要素、それらの接続及び関係、並びにそれらの機能は、単なる例であり、本明細書に記載及び／又は特許請求される本開示の実現を限定することを意図しない。

図３に示すように、該電子機器は、１つ又は複数のプロセッサ５０１、メモリ５０２、及び高速インターフェースと低速インターフェースを備える、各構成要素を接続するためのインターフェースを備える。各構成要素は、異なるバスで相互に接続され、共通のマザーボード上に実装されてもよいし、必要に応じて他の形態で実装されてもよい。プロセッサは、インターフェースに結合されたディスプレイデバイスなどの外部入出力装置にＧＵＩのグラフィカル情報を表示するために、メモリ内又はメモリ上に記憶されたコマンドを含む、電子機器内で実行されるコマンドを処理する。他の実施形態では、複数のプロセッサ及び／又は複数のバスが、必要に応じて、複数のメモリ及び複数のメモリとともに使用され得る。同様に、複数の電子機器が接続され、各機器が必要な動作の一部を提供するようにしてもよい（例えば、サーバアレイ、ブレードサーバの集合、マルチプロセッサシステムなど）。図３では、１つのプロセッサ５０１を例に挙げている。

メモリ５０２は、本開示において提供される非一時的コンピュータ読み取り可能な記憶媒体である。ここで、前記メモリは、少なくとも１つのプロセッサによって実行され得るコマンドが格納されている。それによって、前記少なくとも１つのプロセッサは、本開示において提供される画像認識方法を実行する。本開示の非一時的コンピュータ読み取り可能な記憶媒体は、本開示において提供される画像認識方法をコンピュータに実行させるためのコンピュータコマンドを記憶する。

非一時的コンピュータ読み取り可能な記憶媒体としてのメモリ５０２は、本開示の実施例における画像認識方法に対応するプログラムコマンド／モジュール（例えば、図２に示す第１取得モジュール２０１、第２取得モジュール２０２及び認識モジュール２０３）などの非一時的なソフトウェアプログラム、非一時的なコンピュータ実行可能プログラム及びモジュールなどを記憶するために使用される。プロセッサ５０１は、メモリ５０２に格納された非一時的ソフトウェアプログラム、コマンド及びモジュールを実行することにより、サーバの各種機能アプリケーションやデータ処理を実行し、即ち、上記方法の実施例における画像認識方法を実現する。

メモリ５０２は、オペレーティングシステム、少なくとも１つの機能に必要なアプリケーションを記憶することができるプログラム記憶領域と、画像認識に係る電子機器の使用に応じて作成されたデータなどを記憶することができるデータ記憶領域とを含む。また、メモリ５０２は、高速ランダムアクセスメモリを備えてもよく、また、少なくとも１つの磁気ディスクメモリデバイス、フラッシュメモリデバイス、又は他の非一時的ソリッドステートメモリデバイスなどの非一時的メモリを備えてもよい。一部の実施例では、メモリ５０２は、任意選択で、プロセッサ５０１に対して遠隔に配置されたメモリを備える。これらの遠隔メモリは、ネットワークを介して画像認識に係る電子機器に接続される。上記ネットワークの例としては、インターネット、イントラネット、ローカルエリアネットワーク、移動体通信ネットワーク、及びこれらの組み合わせが挙げられるが、これらに限定されない。

画像認識方法に係る電子機器は、入力装置５０３と出力装置５０４とを更に備えてもよい。プロセッサ５０１、メモリ５０２、入力装置５０３及び出力装置５０４は、バス又は他の方式で接続され得、図３では、バスを介して接続される例が示される。

タッチスクリーン、キーパッド、マウス、トラックパッド、タッチパッド、ポインティングスティック、１つ又は複数のマウスボタン、トラックボール、ジョイスティックなどの入力装置５０３は、入力された数字又は文字情報を受信し、画像認識に係る電子機器のユーザ設定及び機能制御に関するキー信号入力を生じることができる。出力装置５０４は、表示機器、補助照明装置（例えば、ＬＥＤ）、及び触覚フィードバック装置（例えば、振動モータ）などを備えてもよい。該表示機器は、液晶ディスプレイ（ＬＣＤ）、発光ダイオード（ＬＥＤ）ディスプレイ、及びプラズマディスプレイを備えるが、これらに限定されない。一部の実施形態では、表示機器は、タッチスクリーンであってもよい。

ここに記載するシステム及び技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、特定用途向けＡＳＩＣ（特定用途向け集積回路）、コンピュータハードウェア、ファームウェア、ソフトウェア、及び／又はそれらの組み合わせにおいて実現され得る。これらの様々な実施形態は、記憶システム、少なくとも１つの入力装置、及び少なくとも１つの出力装置からデータ及びコマンドを受信し、該記憶システム、該少なくとも１つの入力装置、及び該少なくとも１つの出力装置にデータ及びコマンドを送信することができる専用又は汎用のプログラマブルプロセッサである少なくとも１つのプログラマブルプロセッサを備えるプログラマブルシステム上で実行及び／又は解釈可能な１つ又は複数のコンピュータプログラムで実現することを含む。

これらのコンピュータプログラム（プログラム、ソフトウェア、ソフトウェアアプリケーション、又はコードとも呼ばれる）は、プラグラマブルプロセッサの機械コマンドを含み、これらのコンピュータプログラムは、高レベルのプロセス及び／又はオブジェクト指向プログラミング言語、及び／又はアセンブリ／機械言語で実現される。本明細書で使用される場合、用語「機械読み取り可能な媒体」及び「コンピュータ読み取り可能な媒体」は、機械読み取り可能な信号として機械コマンドを受信する機械読み取り可能な媒体を含む、プラグラマブルプロセッサに機械コマンド及び／又はデータを提供するための任意のコンピュータプログラム製品、デバイス、及び／又は装置（例えば、磁気ディスク、光学ディスク、メモリ、プログラム可能論理デバイス（ＰＬＤ））を指す。用語「機械読み取り可能な信号」は、機械コマンド及び／又はデータをプログラマブルプロセッサに提供するために使用される任意の信号を指す。

ユーザとの対話を提供するために、本明細書に記載されたシステム及び技術は、ユーザに情報を表示するための表示装置（例えば、ＣＲＴ（陰極線管）又はＬＣＤ（液晶ディスプレイ）モニタ）と、ユーザがコンピュータに入力を提供することができるキーボード及びポインティングデバイス（例えば、マウス又はトラックボール）とを有するコンピュータ上で実施される。他の種類の装置を使用して、ユーザとの対話を提供してもよい。例えば、ユーザに提供されるフィードバックは、任意の形態の感覚フィードバック（例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバック）であってもよい。ユーザからの入力は、音声入力、又は触覚入力を含む任意の形態で受信される。

ここに記載のシステム及び技術は、バックエンド構成要素を備えるコンピューティングシステム（例えば、データサーバとして）、又はミドルウェア構成要素を備えるコンピューティングシステム（例えば、アプリケーションサーバ）、又はフロントエンド構成要素を備えるコンピューティングシステム（例えば、ユーザが本明細書に記載のシステム及び技術の実施形態と相互作用するグラフィカルユーザインターフェース又はウェブブラウザを有するユーザコンピュータ）、又はそのようなバックエンド構成要素、ミドルウェア構成要素、又はフロントエンド構成要素の任意の組み合わせを備えるコンピューティングシステムにおいて実施される。システムの構成要素は、任意の形式又は媒体（例えば、通信ネットワーク）のデジタルデータ通信によって互いに接続される。通信ネットワークとしては、例えば、ローカルエリアネットワーク（ＬＡＮ）、ワイドエリアネットワーク（ＷＡＮ）、インターネットなどが挙げられる。

コンピュータシステムは、クライアント及びサーバを備えてもよい。クライアント及びサーバは、一般に、互いから離れており、通常、通信ネットワークを介して対話する。それぞれのコンピュータ上で、互いにクライアント－サーバ関係を有するコンピュータプログラムが実行されることで、クライアントとサーバの関係は生成される。

本開示において、単一の顔画像である第１顔画像を取得し、前記第１顔画像の顔深度情報を取得し、前記顔深度情報に基づいて、前記第１顔画像における顔が遮蔽されているか否かを認識する。上記において、単一の顔画像の顔深度情報に基づいて、第１顔画像における顔が遮蔽されているか否かを認識することによって、認識の正確率を向上させ、認識誤りの確率を低下させる。

前記顔深度情報に基づいて、前記第１顔画像における顔が遮蔽されているか否かを認識した後に、前記第１顔画像における顔が遮蔽されていないと認識された場合、前記第１顔画像が収集された後に収集された顔画像を含む第２顔画像を取得し、前記第２顔画像に基づいて顔認識又は顔登録を行うことによって、遮蔽されている顔画像を用いて顔認識又は顔登録が行われ、顔認識の正確率に影響を与えることを回避することができる。

前記第１顔画像における顔が遮蔽されていると認識された場合、遮蔽物を取り除くようにユーザに促すための提示情報を出力し、電子機器によって現在取得されている顔画像に遮蔽物が存在しており遮蔽物を取り除く必要があることをタイムリーにユーザに促し、顔が遮蔽されていない顔画像である合格な顔画像の取得効率を向上させる。

第１ネットワークモデルによって第１顔画像の顔深度情報を取得し、第２ネットワークモデルによって、顔深度情報に基づいて、第１顔画像における顔が遮蔽されているか否かを認識することで、顔画像における顔が遮蔽されているか否かを単一の顔画像に基づいて判定するという目的を実現し、認識プロセスを簡略化し、認識効率を向上させる。

上記に示された様々な形態のフローが、ステップの順序変更、追加、又は削除のために使用されることが理解されるべきである。例えば、本願に記載された各ステップは、並列に実行されても、順次的に実行されても、異なる順序で実行されてもよく、本願に開示された技術的解決手段の所望の結果を実現できる限り、本明細書ではこれについて限定しない。

上述した具体的な実施形態は、本開示の保護範囲への制限にならない。当業者にとって、設計の要求や他の要素によって様々な修正、組み合わせ、サブ組み合わせ及び置換を行うことができることは、明らかである。本開示の趣旨や原則内に為した修正、均等置換及び改良などは、すべて本開示の保護範囲に含まれるべきである。

Claims

単一の顔画像である第１顔画像を取得することと、
前記第１顔画像の顔深度情報を取得することと、
前記顔深度情報に基づいて、前記第１顔画像における顔が遮蔽されているか否かを認識することと、
を含み、
前記第１顔画像の顔深度情報を取得することが、
前記第１顔画像を第１ネットワークモデルに入力し、前記第１顔画像の顔深度情報を取得することを含み、
前記の前記顔深度情報に基づいて、前記第１顔画像における顔が遮蔽されているか否かを認識することが、
前記第１顔画像と前記顔深度情報とを第２ネットワークモデルに入力し、前記第１顔画像における顔が遮蔽されているか否かの認識結果を取得することを含む画像認識方法。
前記顔深度情報に基づいて、前記第１顔画像における顔が遮蔽されているか否かを認識した後に、
前記第１顔画像における顔が遮蔽されていないと認識された場合、前記第１顔画像が収集された後に収集された顔画像を含む第２顔画像を取得し、前記第２顔画像に基づいて顔認識又は顔登録を行うことを含む請求項１に記載の方法。
前記顔深度情報に基づいて、前記第１顔画像における顔が遮蔽されているか否かを認識した後に、
前記第１顔画像における顔が遮蔽されていると認識された場合、遮蔽物を取り除くようにユーザに促すための提示情報を出力することを含む請求項１又は２に記載の方法。
単一の顔画像である第１顔画像を取得する第１取得モジュールと、
前記第１顔画像の顔深度情報を取得する第２取得モジュールと、
前記顔深度情報に基づいて、前記第１顔画像における顔が遮蔽されているか否かを認識する認識モジュールと、
を備え、
前記第２取得モジュールが、
前記第１顔画像を第１ネットワークモデルに入力し、前記第１顔画像の顔深度情報を取得し、
前記認識モジュールが、
前記第１顔画像と前記顔深度情報とを第２ネットワークモデルに入力し、前記第１顔画像における顔が遮蔽されているか否かの認識結果を取得する画像認識装置。
前記第１顔画像における顔が遮蔽されていないと認識された場合、前記第１顔画像が収集された後に収集された顔画像を含む第２顔画像を取得し、前記第２顔画像に基づいて顔認識又は顔登録を行う第３取得モジュールを備える請求項４に記載の装置。
前記第１顔画像における顔が遮蔽されていると認識された場合、遮蔽物を取り除くようにユーザに促すための提示情報を出力する提示モジュールを備える請求項４又は５に記載の装置。
少なくとも１つのプロセッサと、
該少なくとも１つのプロセッサと通信接続されたメモリと、
を備え、
前記メモリには、前記少なくとも１つのプロセッサによって実行可能なコマンドが格納されており、前記コマンドが前記少なくとも１つのプロセッサによって実行されると、請求項１から３のいずれか一項に記載の方法の前記少なくとも１つのプロセッサによる実行を可能にする電子機器。
コンピュータコマンドが格納されている非一時的コンピュータ読み取り可能な記憶媒体であって、
前記コンピュータコマンドが、請求項１から３のいずれか一項に記載の方法をコンピュータに実行させる、非一時的コンピュータ読み取り可能な記憶媒体。
コンピュータコマンドが含まれるコンピュータプログラムであって、
前記コンピュータコマンドがプロセッサに実行されると、請求項１から３のいずれか一項に記載の方法を実行するコンピュータプログラム。