JP7242812B2 - 画像認識方法、装置及び電子機器 - Google Patents

画像認識方法、装置及び電子機器 Download PDF

Info

Publication number
JP7242812B2
JP7242812B2 JP2021186127A JP2021186127A JP7242812B2 JP 7242812 B2 JP7242812 B2 JP 7242812B2 JP 2021186127 A JP2021186127 A JP 2021186127A JP 2021186127 A JP2021186127 A JP 2021186127A JP 7242812 B2 JP7242812 B2 JP 7242812B2
Authority
JP
Japan
Prior art keywords
face
image
depth information
facial image
facial
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2021186127A
Other languages
English (en)
Other versions
JP2022024070A (ja
Inventor
ギョジン ジン
ユウ レイ
シンチ― シャン
シオン ズオ
ヤン チェン
シルイ ガオ
ユアンチョー ユー
カングリ ジャン
ヤーウェイ ワン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Apollo Intelligent Connectivity Beijing Technology Co Ltd
Original Assignee
Apollo Intelligent Connectivity Beijing Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Apollo Intelligent Connectivity Beijing Technology Co Ltd filed Critical Apollo Intelligent Connectivity Beijing Technology Co Ltd
Publication of JP2022024070A publication Critical patent/JP2022024070A/ja
Application granted granted Critical
Publication of JP7242812B2 publication Critical patent/JP7242812B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/172Classification, e.g. identification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • G06V40/171Local features and components; Facial parts ; Occluding parts, e.g. glasses; Geometrical relationships
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/94Hardware or software architectures specially adapted for image or video understanding
    • G06V10/95Hardware or software architectures specially adapted for image or video understanding structured as a network, e.g. client-server architectures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Human Computer Interaction (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Medical Informatics (AREA)
  • Image Analysis (AREA)
  • Collating Specific Patterns (AREA)

Description

本開示は、コンピュータ分野における画像認識技術分野に関する。具体的には、画像認識方法、装置及び電子機器を提供する。
顔認識技術は、支払い、入退室、登録などの分野で広く利用されており、我々の仕事や生活を便利にしている。顔認識の成功率を保障するためには、ユーザの顔を遮蔽判断し、顔が遮蔽されている場合には遮蔽物を取り除くようにユーザに促す必要がある。顔遮蔽認識は、顔データベースへの登録時にとりわけ重要である。遮蔽されている顔がデータベースに登録されると、その後の顔認識の正確率が大きく低下する。
本開示は、画像認識方法、装置及び電子機器を提供する。
本開示の第1態様によれば、画像認識方法を提供し、単一の顔画像である第1顔画像を取得することと、前記第1顔画像の顔深度情報を取得することと、前記顔深度情報に基づいて、前記第1顔画像における顔が遮蔽されているか否かを認識することとを含む。
本開示の第2態様によれば、画像認識装置を提供し、単一の顔画像である第1顔画像を取得する第1取得モジュールと、前記第1顔画像の顔深度情報を取得する第2取得モジュールと、前記顔深度情報に基づいて、前記第1顔画像における顔が遮蔽されているか否かを認識する認識モジュールとを備える。
本開示の第3態様によれば、少なくとも1つのプロセッサと、該少なくとも1つのプロセッサと通信接続されたメモリと、を備える電子機器を提供し、前記メモリには、前記少なくとも1つのプロセッサによって実行可能なコマンドが格納されており、前記コマンドが前記少なくとも1つのプロセッサによって実行されると、第1態様のいずれか一項に記載の方法の前記少なくとも1つのプロセッサによる実行を可能にする。
本開示の第4態様によれば、コンピュータコマンドが格納されている非一時的コンピュータ読み取り可能な記憶媒体を提供し、前記コンピュータコマンドは、第1態様のいずれか一項に記載の方法をコンピュータに実行させる。
このセクションに記載された内容は、本開示の実施例のポイントや重要な特徴を特定することを意図するものではなく、また、本開示の範囲を限定するために使用されるものでもないことを理解されたい。本開示の他の特徴は、以下の明細書から容易に理解される。
図面は、本構成をよりよく理解するためのものであり、本開示の限定にならない。
本開示の実施例に係る画像認識方法のフローチャートである。 本開示の実施例に係る画像認識装置の構造図である。 本開示の実施例に係る画像認識方法を実現するための電子機器のブロック図である。
以下、図面を参照して本開示の例示的な実施例を説明し、理解することに寄与する本開示の実施例の様々な詳細が含まれるが、それらは、単に例示的なものであると考えるべきである。よって、当業者にとって、ここに記載の実施例に対し、本開示の範囲や趣旨から逸脱することなく様々な変更や修正を行うことができることを認識すべきである。同様に、明確及び簡潔のために、以下の記載では、既知の機能や構造の記載を省略している。
図1を参照する。図1は、本開示の実施例に係る画像認識方法のフローチャートである。図1に示すように、本実施例に係る画像認識方法は、以下のステップを含む。
ステップ101において、単一の顔画像である第1顔画像を取得する。
第1顔画像はカメラで取得され、例えば、カメラで顔を撮影して第1顔画像が取得され、又は、カメラで人を撮影した後に、取得した撮影画像から顔を切り出して第1顔画像が取得されるが、ここでは限定しない。第1顔画像は、単一の顔画像である。第1顔画像は、RGB画像(Rは赤、Gは緑、Bは青を表す)であってもよく、又は赤外線IR(Infrared Radiation)画像であってもよい。
ステップ102において、前記第1顔画像の顔深度情報を取得する。
第1顔画像の顔深度情報は、コンピュータビジョンのアルゴリズムを用いて取得され、又は、深層学習アルゴリズムを用いて取得され得る。顔深度情報は、第1顔画像の深度情報、又は第1顔画像における顔の深度情報と捉えてもよい。
ステップ103において、前記顔深度情報に基づいて、前記第1顔画像における顔が遮蔽されているか否かを認識する。
顔深度情報に基づいて認識する場合、参照画像の顔深度情報と比較してもよい。参照画像は、顔が遮蔽されている顔画像、又は、顔が遮蔽されていない顔画像であってもよい。参照画像として顔が遮蔽されていない顔画像であり、第1画像の顔深度情報と参照画像の顔深度情報との一致度が所定の閾値よりも大きければ、第1画像における顔が遮蔽されていないと判定し、第1画像の顔深度情報と参照画像の顔深度情報との一致度が所定の閾値以下であれば、第1画像における顔が遮蔽されていると判定する。
参照画像として顔が遮蔽されている顔画像であり、第1画像の顔深度情報と参照画像の顔深度情報との一致度が所定の閾値よりも大きければ、第1画像における顔が遮蔽されていると判定し、第1画像の顔深度情報と参照画像の顔深度情報との一致度が所定の閾値以下であれば、第1画像における顔が遮蔽されていないと判定する。
コンピュータビジョンのアルゴリズムを用いるか、又は深層学習アルゴリズムを用いて、第1画像の顔深度情報に基づいて、前記第1顔画像における顔が遮蔽されているか否かを認識してもよい。例えば、画像における顔に遮蔽物がある場合、顔深度情報が断続となり、認識モデルを学習することによって第1画像の顔深度情報を認識し、第1顔画像における顔が遮蔽されているか否かの認識結果を取得する。
本実施例において、単一の顔画像である第1顔画像を取得し、前記第1顔画像の顔深度情報を取得し、前記顔深度情報に基づいて、前記第1顔画像における顔が遮蔽されているか否かを認識する。上記において、単一の顔画像の顔深度情報に基づいて、第1顔画像における顔が遮蔽されているか否かを認識することによって、認識の正確率を向上させ、認識誤りの確率を低下させる。また、単一の顔画像のみに基づいて認識することにより、認識プロセスが簡略化され、認識効率が向上する。
上記において、前記顔深度情報に基づいて、前記第1顔画像における顔が遮蔽されているか否かを認識した後に、前記方法では、前記第1顔画像における顔が遮蔽されていないと認識された場合、前記第1顔画像が収集された後に収集された顔画像を含む第2顔画像を取得し、前記第2顔画像に基づいて顔認識又は顔登録を行うことを更に含む。
第2顔画像は、カメラで収集されて取得され得る。例えば、カメラで第1顔画像を収集した後、第1顔画像における顔が遮蔽されていないと認識された場合、電子機器(本開示の方法は、電子機器に応用可能である)は、カメラで収集された第2顔画像によって顔認識又は顔登録を行う。即ち、第2顔画像は、前記第1顔画像が収集された後に収集された顔画像である。第2顔画像は、1枚の顔画像、又は、複数枚の顔画像であってもよく、具体的には、実際のニーズに応じて決定される。第2顔画像は、前記第1顔画像における顔が遮蔽されていないと認識された場合、第1顔画像を含んでもよい。
第1顔画像における顔が遮蔽されていないと認識された場合、その時点の顔が有効であるとして、カメラで引き続き顔画像を取得し、即ち第2顔画像を取得し、第2顔画像に基づいて顔認識又は顔登録を行う。上記認識プロセスによって、顔が遮蔽されている顔画像を用いて顔認識又は顔登録が行われ、顔認識の正確率に影響を与えることを回避することができる。
本実施例において、前記顔深度情報に基づいて、前記第1顔画像における顔が遮蔽されているか否かを認識した後に、前記第1顔画像における顔が遮蔽されていないと認識された場合、前記第1顔画像が収集された後に収集された顔画像を含む第2顔画像を取得し、前記第2顔画像に基づいて顔認識又は顔登録を行うことによって、遮蔽されている顔画像を用いて顔認識又は顔登録が行われ、顔認識の正確率に影響を与えることを回避することができる。
上記において、前記顔深度情報に基づいて、前記第1顔画像における顔が遮蔽されているか否かを認識した後に、前記第1顔画像における顔が遮蔽されていると認識された場合、遮蔽物を取り除くようにユーザに促すための提示情報を出力することを更に含む。
前記第1顔画像における顔が遮蔽されていると認識された場合、遮蔽物の除去をユーザに提示するように、提示情報を出力する。第1電子機器のカメラは、第1所定時間おきに顔画像を収集し、画像における顔が遮蔽されているか否かを認識し、画像における顔が遮蔽されていないと認識された場合、提示情報を表示せず、前記第1顔画像における顔が遮蔽されていないと認識された場合に第2顔画像を取得して前記第2顔画像に基づいて顔認識又は顔登録を行うステップを実行する。第1所定時間は、1秒又は0.5秒であってもよく、ここでは限定しない。
第2所定時間の表示後に、提示情報の表示をキャンセルしてもよく、例えば5秒の表示後に表示をキャンセルする。
更に、第1顔画像における顔が遮蔽されていると認識された場合、遮蔽されている部位が額、左顔、口角又はあご等であるように、遮蔽されている位置を判定し、提示情報に遮蔽部位を付加して、顔のどの部位に遮蔽物が位置しているかをユーザに提示する。
本実施例において、前記第1顔画像における顔が遮蔽されていると認識された場合、遮蔽物を取り除くようにユーザに促すための提示情報を出力し、電子機器によって現在取得されている顔画像に遮蔽物が存在しており遮蔽物を取り除く必要があることをタイムリーにユーザに促し、顔が遮蔽されていない顔画像である合格な顔画像の取得効率を向上させる。
上記において、前記第1顔画像の顔深度情報を取得することは、前記第1顔画像を第1ネットワークモデルに入力し、前記第1顔画像の顔深度情報を取得することを含み、前記の前記顔深度情報に基づいて、前記第1顔画像における顔が遮蔽されているか否かを認識することは、前記第1顔画像と前記顔深度情報とを第2ネットワークモデルに入力し、前記第1顔画像における顔が遮蔽されているか否かの認識結果を取得することを含む。ここで、前記第2ネットワークモデルは、顔深度情報を入力に含み、顔が遮蔽されているか否かの認識結果を出力に含むエンドツーエンドモデルである。
本実施例において、第1ネットワークモデルを用いて第1顔画像の顔深度情報を取得し、第2ネットワークモデルを用いて顔深度情報に基づいて、顔が遮蔽されているか否かを認識する。
第1ネットワークモデル及び第2ネットワークモデルは、使用前に、サンプルを用いて訓練する必要がある。ここで、前記第1ネットワークモデルの訓練プロセスは、第1サンプル画像と第1サンプル画像に対応する第1顔深度情報を取得することと、前記第1サンプル画像を第1ベースネットワークモデルに入力して予測顔深度情報を取得することと、前記第1顔深度情報と前記予測顔深度情報とに基づいて損失関数を決定することと、前記損失関数に基づいて、前記第1ベースネットワークモデルのパラメータを調整して前記第1ネットワークモデルを取得することとを含む。
第1顔深度情報は、コンピュータビジョンアルゴリズムを用いて取得され得、第1ベースネットワークモデルは、深層学習モデルであってもよい。第1サンプル画像及び第1顔深度情報によって第1ベースネットワークモデルを訓練して第1ネットワークモデルを取得する。
前記第2ネットワークモデルの訓練プロセスは、「遮蔽されている」とラベル付けされた第1画像と、「遮蔽されていない」とラベル付けされた第2画像とを含む第2サンプル画像に対応する第2顔深度情報を取得することと、前記第2サンプル画像と第2顔深度情報とを用いて第2ベースネットワークモデルを訓練して前記第2ネットワークモデルを取得することとを含む。
第2顔深度情報は、第1ネットワークモデルによって決定され得る。例えば、第2サンプル画像を第1ネットワークモデルに入力して第2顔深度情報を取得する。第2サンプル画像と、それに対応する第2顔深度情報によって第2ベースネットワークモデルを訓練して第2ネットワークモデルを取得し、画像に遮蔽が存在するか否かの認識結果を第2ネットワークモデルから出力する。第2ベースネットワークモデルは、ニューラルネットワークモデルであってもよい。
上記において、第1サンプル画像と第2サンプル画像は、いずれも顔画像である。第1顔深度情報及び第2顔深度情報は、いずれも深度図であってもよい。
第1ネットワークモデルと第2ネットワークモデルの訓練が完了した後、第1顔画像の顔深度情報を第1ネットワークモデルに入力し、第1顔画像の顔深度情報を取得してもよく、例えば、顔画像の深度図を取得する。そして、第1顔画像と顔深度情報を第2ネットワークモデルに入力し、第1顔画像における顔が遮蔽されているか否かの認識結果を取得する。
本実施例において、第1ネットワークモデルによって第1顔画像の顔深度情報を取得し、第2ネットワークモデルによって、顔深度情報に基づいて、第1顔画像における顔が遮蔽されているか否かを認識することで、顔画像における顔が遮蔽されているか否かを単一の顔画像に基づいて判定するという目的を実現し、認識プロセスを簡略化し、認識効率を向上させる。
図2を参照し、図2は、本開示の実施例に係る画像認識装置の構造図である。図2に示すように、本実施例に係る画像認識装置200は、単一の顔画像である第1顔画像を取得する第1取得モジュール201と、前記第1顔画像の顔深度情報を取得する第2取得モジュール202と、前記顔深度情報に基づいて、前記第1顔画像における顔が遮蔽されているか否かを認識する認識モジュール203とを備える。
更に、画像認識装置200は、前記第1顔画像における顔が遮蔽されていないと認識された場合、前記第1顔画像が収集された後に収集された顔画像を含む第2顔画像を取得し、前記第2顔画像に基づいて顔認識又は顔登録を行う第3取得モジュールを更に備える。
更に、画像認識装置200は、前記第1顔画像における顔が遮蔽されていると認識された場合、遮蔽物を取り除くようにユーザに促すための提示情報を出力する提示モジュールを更に備える。
更に、前記第2取得モジュール202は、前記第1顔画像を第1ネットワークモデルに入力し、前記第1顔画像の顔深度情報を取得し、前記認識モジュールは、前記第1顔画像と前記顔深度情報とを第2ネットワークモデルに入力し、前記第1顔画像における顔が遮蔽されているか否かの認識結果を取得する。
本開示の実施例に係る画像認識装置200は、単一の顔画像である第1顔画像を取得し、前記第1顔画像の顔深度情報を取得し、前記顔深度情報に基づいて、前記第1顔画像における顔が遮蔽されているか否かを認識する。上記において、単一の顔画像の顔深度情報に基づいて、第1顔画像における顔が遮蔽されているか否かを認識することによって、認識の正確率を向上させ、認識誤りの確率を低下させる。
本開示の実施例によれば、本開示は、電子機器及び読み取り可能な記憶媒体を更に提供する。
図3は、本開示の実施例の画像認識方法に係る電子機器のブロック図である。電子機器は、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、携帯情報端末、サーバ、ブレードサーバ、メインフレームコンピュータ、及び他の適切なコンピュータなどの様々な形態のデジタルコンピュータを表すことが意図される。電子機器はまた、パーソナルデジタルプロセシング、セルラー電話、スマートフォン、ウェアラブルデバイス、及び他の同様のコンピューティングデバイスなど、様々な形態のモバイルデバイスを表してもよい。本明細書に示される構成要素、それらの接続及び関係、並びにそれらの機能は、単なる例であり、本明細書に記載及び/又は特許請求される本開示の実現を限定することを意図しない。
図3に示すように、該電子機器は、1つ又は複数のプロセッサ501、メモリ502、及び高速インターフェースと低速インターフェースを備える、各構成要素を接続するためのインターフェースを備える。各構成要素は、異なるバスで相互に接続され、共通のマザーボード上に実装されてもよいし、必要に応じて他の形態で実装されてもよい。プロセッサは、インターフェースに結合されたディスプレイデバイスなどの外部入出力装置にGUIのグラフィカル情報を表示するために、メモリ内又はメモリ上に記憶されたコマンドを含む、電子機器内で実行されるコマンドを処理する。他の実施形態では、複数のプロセッサ及び/又は複数のバスが、必要に応じて、複数のメモリ及び複数のメモリとともに使用され得る。同様に、複数の電子機器が接続され、各機器が必要な動作の一部を提供するようにしてもよい(例えば、サーバアレイ、ブレードサーバの集合、マルチプロセッサシステムなど)。図3では、1つのプロセッサ501を例に挙げている。
メモリ502は、本開示において提供される非一時的コンピュータ読み取り可能な記憶媒体である。ここで、前記メモリは、少なくとも1つのプロセッサによって実行され得るコマンドが格納されている。それによって、前記少なくとも1つのプロセッサは、本開示において提供される画像認識方法を実行する。本開示の非一時的コンピュータ読み取り可能な記憶媒体は、本開示において提供される画像認識方法をコンピュータに実行させるためのコンピュータコマンドを記憶する。
非一時的コンピュータ読み取り可能な記憶媒体としてのメモリ502は、本開示の実施例における画像認識方法に対応するプログラムコマンド/モジュール(例えば、図2に示す第1取得モジュール201、第2取得モジュール202及び認識モジュール203)などの非一時的なソフトウェアプログラム、非一時的なコンピュータ実行可能プログラム及びモジュールなどを記憶するために使用される。プロセッサ501は、メモリ502に格納された非一時的ソフトウェアプログラム、コマンド及びモジュールを実行することにより、サーバの各種機能アプリケーションやデータ処理を実行し、即ち、上記方法の実施例における画像認識方法を実現する。
メモリ502は、オペレーティングシステム、少なくとも1つの機能に必要なアプリケーションを記憶することができるプログラム記憶領域と、画像認識に係る電子機器の使用に応じて作成されたデータなどを記憶することができるデータ記憶領域とを含む。また、メモリ502は、高速ランダムアクセスメモリを備えてもよく、また、少なくとも1つの磁気ディスクメモリデバイス、フラッシュメモリデバイス、又は他の非一時的ソリッドステートメモリデバイスなどの非一時的メモリを備えてもよい。一部の実施例では、メモリ502は、任意選択で、プロセッサ501に対して遠隔に配置されたメモリを備える。これらの遠隔メモリは、ネットワークを介して画像認識に係る電子機器に接続される。上記ネットワークの例としては、インターネット、イントラネット、ローカルエリアネットワーク、移動体通信ネットワーク、及びこれらの組み合わせが挙げられるが、これらに限定されない。
画像認識方法に係る電子機器は、入力装置503と出力装置504とを更に備えてもよい。プロセッサ501、メモリ502、入力装置503及び出力装置504は、バス又は他の方式で接続され得、図3では、バスを介して接続される例が示される。
タッチスクリーン、キーパッド、マウス、トラックパッド、タッチパッド、ポインティングスティック、1つ又は複数のマウスボタン、トラックボール、ジョイスティックなどの入力装置503は、入力された数字又は文字情報を受信し、画像認識に係る電子機器のユーザ設定及び機能制御に関するキー信号入力を生じることができる。出力装置504は、表示機器、補助照明装置(例えば、LED)、及び触覚フィードバック装置(例えば、振動モータ)などを備えてもよい。該表示機器は、液晶ディスプレイ(LCD)、発光ダイオード(LED)ディスプレイ、及びプラズマディスプレイを備えるが、これらに限定されない。一部の実施形態では、表示機器は、タッチスクリーンであってもよい。
ここに記載するシステム及び技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、特定用途向けASIC(特定用途向け集積回路)、コンピュータハードウェア、ファームウェア、ソフトウェア、及び/又はそれらの組み合わせにおいて実現され得る。これらの様々な実施形態は、記憶システム、少なくとも1つの入力装置、及び少なくとも1つの出力装置からデータ及びコマンドを受信し、該記憶システム、該少なくとも1つの入力装置、及び該少なくとも1つの出力装置にデータ及びコマンドを送信することができる専用又は汎用のプログラマブルプロセッサである少なくとも1つのプログラマブルプロセッサを備えるプログラマブルシステム上で実行及び/又は解釈可能な1つ又は複数のコンピュータプログラムで実現することを含む。
これらのコンピュータプログラム(プログラム、ソフトウェア、ソフトウェアアプリケーション、又はコードとも呼ばれる)は、プラグラマブルプロセッサの機械コマンドを含み、これらのコンピュータプログラムは、高レベルのプロセス及び/又はオブジェクト指向プログラミング言語、及び/又はアセンブリ/機械言語で実現される。本明細書で使用される場合、用語「機械読み取り可能な媒体」及び「コンピュータ読み取り可能な媒体」は、機械読み取り可能な信号として機械コマンドを受信する機械読み取り可能な媒体を含む、プラグラマブルプロセッサに機械コマンド及び/又はデータを提供するための任意のコンピュータプログラム製品、デバイス、及び/又は装置(例えば、磁気ディスク、光学ディスク、メモリ、プログラム可能論理デバイス(PLD))を指す。用語「機械読み取り可能な信号」は、機械コマンド及び/又はデータをプログラマブルプロセッサに提供するために使用される任意の信号を指す。
ユーザとの対話を提供するために、本明細書に記載されたシステム及び技術は、ユーザに情報を表示するための表示装置(例えば、CRT(陰極線管)又はLCD(液晶ディスプレイ)モニタ)と、ユーザがコンピュータに入力を提供することができるキーボード及びポインティングデバイス(例えば、マウス又はトラックボール)とを有するコンピュータ上で実施される。他の種類の装置を使用して、ユーザとの対話を提供してもよい。例えば、ユーザに提供されるフィードバックは、任意の形態の感覚フィードバック(例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバック)であってもよい。ユーザからの入力は、音声入力、又は触覚入力を含む任意の形態で受信される。
ここに記載のシステム及び技術は、バックエンド構成要素を備えるコンピューティングシステム(例えば、データサーバとして)、又はミドルウェア構成要素を備えるコンピューティングシステム(例えば、アプリケーションサーバ)、又はフロントエンド構成要素を備えるコンピューティングシステム(例えば、ユーザが本明細書に記載のシステム及び技術の実施形態と相互作用するグラフィカルユーザインターフェース又はウェブブラウザを有するユーザコンピュータ)、又はそのようなバックエンド構成要素、ミドルウェア構成要素、又はフロントエンド構成要素の任意の組み合わせを備えるコンピューティングシステムにおいて実施される。システムの構成要素は、任意の形式又は媒体(例えば、通信ネットワーク)のデジタルデータ通信によって互いに接続される。通信ネットワークとしては、例えば、ローカルエリアネットワーク(LAN)、ワイドエリアネットワーク(WAN)、インターネットなどが挙げられる。
コンピュータシステムは、クライアント及びサーバを備えてもよい。クライアント及びサーバは、一般に、互いから離れており、通常、通信ネットワークを介して対話する。それぞれのコンピュータ上で、互いにクライアント-サーバ関係を有するコンピュータプログラムが実行されることで、クライアントとサーバの関係は生成される。
本開示において、単一の顔画像である第1顔画像を取得し、前記第1顔画像の顔深度情報を取得し、前記顔深度情報に基づいて、前記第1顔画像における顔が遮蔽されているか否かを認識する。上記において、単一の顔画像の顔深度情報に基づいて、第1顔画像における顔が遮蔽されているか否かを認識することによって、認識の正確率を向上させ、認識誤りの確率を低下させる。
前記顔深度情報に基づいて、前記第1顔画像における顔が遮蔽されているか否かを認識した後に、前記第1顔画像における顔が遮蔽されていないと認識された場合、前記第1顔画像が収集された後に収集された顔画像を含む第2顔画像を取得し、前記第2顔画像に基づいて顔認識又は顔登録を行うことによって、遮蔽されている顔画像を用いて顔認識又は顔登録が行われ、顔認識の正確率に影響を与えることを回避することができる。
前記第1顔画像における顔が遮蔽されていると認識された場合、遮蔽物を取り除くようにユーザに促すための提示情報を出力し、電子機器によって現在取得されている顔画像に遮蔽物が存在しており遮蔽物を取り除く必要があることをタイムリーにユーザに促し、顔が遮蔽されていない顔画像である合格な顔画像の取得効率を向上させる。
第1ネットワークモデルによって第1顔画像の顔深度情報を取得し、第2ネットワークモデルによって、顔深度情報に基づいて、第1顔画像における顔が遮蔽されているか否かを認識することで、顔画像における顔が遮蔽されているか否かを単一の顔画像に基づいて判定するという目的を実現し、認識プロセスを簡略化し、認識効率を向上させる。
上記に示された様々な形態のフローが、ステップの順序変更、追加、又は削除のために使用されることが理解されるべきである。例えば、本願に記載された各ステップは、並列に実行されても、順次的に実行されても、異なる順序で実行されてもよく、本願に開示された技術的解決手段の所望の結果を実現できる限り、本明細書ではこれについて限定しない。
上述した具体的な実施形態は、本開示の保護範囲への制限にならない。当業者にとって、設計の要求や他の要素によって様々な修正、組み合わせ、サブ組み合わせ及び置換を行うことができることは、明らかである。本開示の趣旨や原則内に為した修正、均等置換及び改良などは、すべて本開示の保護範囲に含まれるべきである。

Claims (9)

  1. 単一の顔画像である第1顔画像を取得することと、
    前記第1顔画像の顔深度情報を取得することと、
    前記顔深度情報に基づいて、前記第1顔画像における顔が遮蔽されているか否かを認識することと、
    を含み、
    前記第1顔画像の顔深度情報を取得することが、
    前記第1顔画像を第1ネットワークモデルに入力し、前記第1顔画像の顔深度情報を取得することを含み、
    前記の前記顔深度情報に基づいて、前記第1顔画像における顔が遮蔽されているか否かを認識することが、
    前記第1顔画像と前記顔深度情報とを第2ネットワークモデルに入力し、前記第1顔画像における顔が遮蔽されているか否かの認識結果を取得することを含む画像認識方法。
  2. 前記顔深度情報に基づいて、前記第1顔画像における顔が遮蔽されているか否かを認識した後に、
    前記第1顔画像における顔が遮蔽されていないと認識された場合、前記第1顔画像が収集された後に収集された顔画像を含む第2顔画像を取得し、前記第2顔画像に基づいて顔認識又は顔登録を行うことを含む請求項1に記載の方法。
  3. 前記顔深度情報に基づいて、前記第1顔画像における顔が遮蔽されているか否かを認識した後に、
    前記第1顔画像における顔が遮蔽されていると認識された場合、遮蔽物を取り除くようにユーザに促すための提示情報を出力することを含む請求項1又は2に記載の方法。
  4. 単一の顔画像である第1顔画像を取得する第1取得モジュールと、
    前記第1顔画像の顔深度情報を取得する第2取得モジュールと、
    前記顔深度情報に基づいて、前記第1顔画像における顔が遮蔽されているか否かを認識する認識モジュールと、
    を備え
    前記第2取得モジュールが、
    前記第1顔画像を第1ネットワークモデルに入力し、前記第1顔画像の顔深度情報を取得し、
    前記認識モジュールが、
    前記第1顔画像と前記顔深度情報とを第2ネットワークモデルに入力し、前記第1顔画像における顔が遮蔽されているか否かの認識結果を取得する画像認識装置。
  5. 前記第1顔画像における顔が遮蔽されていないと認識された場合、前記第1顔画像が収集された後に収集された顔画像を含む第2顔画像を取得し、前記第2顔画像に基づいて顔認識又は顔登録を行う第3取得モジュールを備える請求項に記載の装置。
  6. 前記第1顔画像における顔が遮蔽されていると認識された場合、遮蔽物を取り除くようにユーザに促すための提示情報を出力する提示モジュールを備える請求項又はに記載の装置。
  7. 少なくとも1つのプロセッサと、
    該少なくとも1つのプロセッサと通信接続されたメモリと、
    を備え、
    前記メモリには、前記少なくとも1つのプロセッサによって実行可能なコマンドが格納されており、前記コマンドが前記少なくとも1つのプロセッサによって実行されると、請求項1からのいずれか一項に記載の方法の前記少なくとも1つのプロセッサによる実行を可能にする電子機器。
  8. コンピュータコマンドが格納されている非一時的コンピュータ読み取り可能な記憶媒体であって、
    前記コンピュータコマンドが、請求項1からのいずれか一項に記載の方法をコンピュータに実行させる、非一時的コンピュータ読み取り可能な記憶媒体。
  9. コンピュータコマンドが含まれるコンピュータプログラムであって、
    前記コンピュータコマンドがプロセッサに実行されると、請求項1からのいずれか一項に記載の方法を実行するコンピュータプログラム。
JP2021186127A 2020-11-17 2021-11-16 画像認識方法、装置及び電子機器 Active JP7242812B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202011285559.5 2020-11-17
CN202011285559.5A CN112270303A (zh) 2020-11-17 2020-11-17 图像识别方法、装置以及电子设备

Publications (2)

Publication Number Publication Date
JP2022024070A JP2022024070A (ja) 2022-02-08
JP7242812B2 true JP7242812B2 (ja) 2023-03-20

Family

ID=74340125

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021186127A Active JP7242812B2 (ja) 2020-11-17 2021-11-16 画像認識方法、装置及び電子機器

Country Status (5)

Country Link
US (1) US20220067350A1 (ja)
EP (1) EP3929810A3 (ja)
JP (1) JP7242812B2 (ja)
KR (2) KR20210089115A (ja)
CN (1) CN112270303A (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111797746B (zh) * 2020-06-28 2024-06-14 北京小米松果电子有限公司 人脸识别方法、装置及计算机可读存储介质
CN114093012B (zh) * 2022-01-18 2022-06-10 荣耀终端有限公司 人脸遮挡的检测方法和检测装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5592040B1 (ja) 2011-09-01 2014-09-17 モルフォ バイオメトリクスタイプのアクセス制御システムにおける不正の検出
JP2018109935A (ja) 2016-12-28 2018-07-12 グローリー株式会社 顔照合装置及び顔照合方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109639896A (zh) * 2018-12-19 2019-04-16 Oppo广东移动通信有限公司 遮挡物检测方法、装置、存储介质及移动终端
CN109635770A (zh) * 2018-12-20 2019-04-16 上海瑾盛通信科技有限公司 活体检测方法、装置、存储介质及电子设备

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5592040B1 (ja) 2011-09-01 2014-09-17 モルフォ バイオメトリクスタイプのアクセス制御システムにおける不正の検出
JP2018109935A (ja) 2016-12-28 2018-07-12 グローリー株式会社 顔照合装置及び顔照合方法

Also Published As

Publication number Publication date
EP3929810A2 (en) 2021-12-29
US20220067350A1 (en) 2022-03-03
KR20210154774A (ko) 2021-12-21
JP2022024070A (ja) 2022-02-08
KR20210089115A (ko) 2021-07-15
CN112270303A (zh) 2021-01-26
EP3929810A3 (en) 2022-05-18

Similar Documents

Publication Publication Date Title
US11735315B2 (en) Method, apparatus, and device for fusing features applied to small target detection, and storage medium
JP7242812B2 (ja) 画像認識方法、装置及び電子機器
WO2021258588A1 (zh) 一种人脸图像识别方法、装置、设备及存储介质
US20210304438A1 (en) Object pose obtaining method, and electronic device
CN110659600B (zh) 物体检测方法、装置及设备
CN111968203B (zh) 动画驱动方法、装置、电子设备及存储介质
CN114612749B (zh) 神经网络模型训练方法及装置、电子设备和介质
US11403799B2 (en) Method and apparatus for recognizing face-swap, device and computer readable storage medium
CN111968631B (zh) 智能设备的交互方法、装置、设备及存储介质
US11915466B2 (en) Method and apparatus for determining target anchor, device and storage medium
JP7267379B2 (ja) 画像処理方法、事前トレーニングモデルのトレーニング方法、装置及び電子機器
CN111709875B (zh) 图像处理方法、装置、电子设备及存储介质
JP7270114B2 (ja) 顔キーポイントの検出方法、装置及び電子機器
CN112949467B (zh) 人脸检测方法、装置、电子设备和存储介质
US11462013B2 (en) Method and apparatus for recognizing target object, electronic device and storage medium
CN116167426A (zh) 人脸关键点定位模型的训练方法及人脸关键点定位方法
JP7269979B2 (ja) 歩行者を検出するための方法及び装置、電子デバイス、コンピュータ可読記憶媒体及びコンピュータプログラム
CN113313048B (zh) 脸部表情识别方法和装置
CN112053280B (zh) 全景地图显示的方法、装置、设备和存储介质
CN112988011B (zh) 取词翻译方法和装置
US11488384B2 (en) Method and device for recognizing product
CN111783598B (zh) 一种人脸识别模型训练方法、装置、设备及介质
CN111833240B (zh) 人脸图像转换方法、装置、电子设备及存储介质
US20220222941A1 (en) Method for recognizing action, electronic device and storage medium
CN114625297A (zh) 一种交互方法、装置、设备以及存储介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20211116

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220913

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20221207

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230214

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230308

R150 Certificate of patent or registration of utility model

Ref document number: 7242812

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150