JP2012113460A - 情報処理装置および方法、並びにプログラム - Google Patents

情報処理装置および方法、並びにプログラム Download PDF

Info

Publication number
JP2012113460A
JP2012113460A JP2010260869A JP2010260869A JP2012113460A JP 2012113460 A JP2012113460 A JP 2012113460A JP 2010260869 A JP2010260869 A JP 2010260869A JP 2010260869 A JP2010260869 A JP 2010260869A JP 2012113460 A JP2012113460 A JP 2012113460A
Authority
JP
Japan
Prior art keywords
image
recognition
unit
hand
image quality
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2010260869A
Other languages
English (en)
Other versions
JP2012113460A5 (ja
Inventor
Yuichi Hasegawa
雄一 長谷川
Yasushi Shu
寧 周
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP2010260869A priority Critical patent/JP2012113460A/ja
Priority to CN2011103654615A priority patent/CN102592127A/zh
Priority to US13/299,035 priority patent/US9007481B2/en
Publication of JP2012113460A publication Critical patent/JP2012113460A/ja
Publication of JP2012113460A5 publication Critical patent/JP2012113460A5/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06V40/28Recognition of hand or arm movements, e.g. recognition of deaf sign language
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20016Hierarchical, coarse-to-fine, multiscale or multiresolution image processing; Pyramid transform
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30168Image quality inspection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Human Computer Interaction (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Image Analysis (AREA)

Abstract

【課題】より確実に対象物を認識できるようにする。
【解決手段】第1の認識処理は、例えば、手を認識する。第2の認識処理は、例えば、人を認識する。取得した画像が手を認識するのに不適切な画像の場合、例えば、画像上の手が小さいため認識できない場合、第2の認識処理を行い、画像上から人を認識する。人が認識された場合、ズーム率などの画質パラメータが新たに取得される。そして、画質パラメータが変更された画像を取得し、再び第1の認識処理を行う。以上の処理を手が認識されるまで繰り返すことで、確実に手を認識する。本発明は、例えばパーソナルコンピュータに適用できる。
【選択図】図14

Description

本発明は情報処理装置および方法、並びにプログラムに関し、特に、より確実に対象物を認識するようにした情報処理装置および方法、並びにプログラムに関する。
図1に示すように、カメラ11を用いてユーザ1の手2を認識し、手2の動きのパターンによるジェスチャを使用して、テレビジョン受像機12などの電子機器を操作することが行われている。
また、カメラを用いて撮像する場合、ユーザの顔を認識し、認識された顔の情報に基づいて、ピントや色のバランスなどのパラメータを自動的に制御することが行われている。
このような処理を実行するための画像認識装置は、例えば、人、顔、手などを認識する(例えば特許文献1参照)。また、画像認識装置の中には、人の姿勢を認識するものもある(例えば特許文献2参照)。
特開2010−108475号公報 特開平11−128535号公報
しかしながら、画像認識装置は、取得した画像が適切な画像でない場合、対象物を認識することができないことがあった。
図2と図3は、対象物の認識に適切でない画像の例を示している。図2Aは、明るすぎる画像の例を示している。図2Bは、暗すぎる画像の例を示している。図3Aは、ピントがぼけている画像の例を示している。図3Bは、認識する対象物(例えば、手5や顔6)が小さい例を示している。
このような場合、画像認識装置は、手5や顔6などの対象物を認識することが困難であった。
本発明は、このような状況に鑑みてなされたものであり、より確実に対象物を認識できるようにするものである。
本発明の一側面の情報処理装置は、画像および画質パラメータを取得する取得手段と、前記画像から第1の対象物を認識する第1の認識手段と、前記画像から第2の対象物を認識する第2の認識手段と、前記第1の対象物と前記第2の対象物の認識に成功したかをそれぞれ判定する判定手段と、前記画像を前記画質パラメータに基づく画像に変更するように制御する制御手段とを備え、前記取得手段は、前記判定手段により前記第1の対象物の認識に失敗したと判定されるとともに、前記第2の対象物の認識に成功したと判定される場合、新たな前記画質パラメータを取得し、前記第1の認識手段は、新たな前記画質パラメータに基づき変更された前記画像から前記第1の対象物を認識する。
前記判定手段は、前記第1の対象物と前記第2の対象物との相対的な位置および相対的な大きさのうちの少なくとも一方が、予め設定された所定の条件を満足するかを判定することができる。
前記第1の対象物は、人、顔、および手のうちのいずれか1つであり、前記第2の対象物は、前記人、前記顔、および前記手のうちの前記第1の対象物とは異なるいずれか1つであるようにすることができる。
前記人の姿勢を認識する姿勢認識手段をさらに備え、前記判定手段は、前記第1の対象物と前記姿勢認識手段により認識された前記姿勢の相対距離および相対角度のうち少なくとも一方が予め設定された所定の条件を満足するかを判定することができる。
前記第1の対象物は、自動車のボディ、タイヤ、およびナンバープレートのうちのいずれか1つであり、前記第2の対象物は、前記自動車の前記ボディ、前記タイヤ、および前記ナンバープレートのうちの前記第1の対象物とは異なるいずれか1つであるようにすることができる。
本発明の一側面の情報処理方法は、画像および画質パラメータを取得する取得ステップと、前記画像から第1の対象物を認識する第1の認識ステップと、前記画像から第2の対象物を認識する第2の認識ステップと、前記第1の対象物と前記第2の対象物の認識に成功したかをそれぞれ判定する判定ステップと、前記画像を前記画質パラメータに基づく画像に変更するように制御する制御ステップとを含み、前記取得ステップの処理は、前記判定ステップの処理により前記第1の対象物の認識に失敗したと判定されるとともに、前記第2の対象物の認識に成功したと判定される場合、新たな前記画質パラメータを取得し、前記第1の認識ステップの処理は、新たな前記画質パラメータに基づき変更された前記画像から前記第1の対象物を認識する。
本発明の一側面のプログラムは、コンピュータに、画像および画質パラメータを取得する取得ステップと、前記画像から第1の対象物を認識する第1の認識ステップと、前記画像から第2の対象物を認識する第2の認識ステップと、前記第1の対象物と前記第2の対象物の認識に成功したかをそれぞれ判定する判定ステップと、前記画像を前記画質パラメータに基づく画像に変更するように制御する制御ステップとを実行させるためのプログラムであって、前記取得ステップの処理は、前記判定ステップの処理により前記第1の対象物の認識に失敗したと判定されるとともに、前記第2の対象物の認識に成功したと判定される場合、新たな前記画質パラメータを取得し、前記第1の認識ステップの処理は、新たな前記画質パラメータに基づき変更された前記画像から前記第1の対象物を認識する。
本発明の一側面においては、画像および画質パラメータが取得され、画像から第1の対象物が認識されるとともに、第2の対象物が認識され、第1の対象物と第2の対象物の認識に成功したかがそれぞれ判定され、画像が画質パラメータに基づく画像に変更するように制御される。そして、第1の対象物の認識に失敗したと判定されるとともに、第2の対象物の認識に成功したと判定される場合、新たな画質パラメータが取得され、新たな画質パラメータに基づき変更された画像から第1の対象物が認識される。
本発明の側面によれば、より確実に対象物を認識することが可能になる。
カメラを用いたジェスチャ認識の例を示す図である。 認識に不適切な画像の例を示す図である。 認識に不適切な画像の例を示す図である。 本発明を適用したパーソナルコンピュータのハードウェアの構成例を示すブロック図である。 CPUの機能的構成例を示すブロック図である。 第2認識部の詳細な構成例を示すブロック図である。 輪郭特徴量計算部の詳細な構成例を示すブロック図である。 画像に対してフィルタ処理を行った結果を示す図である。 認識処理を説明するフローチャートである。 対象物特徴点の抽出について説明する図である。 輪郭特徴点の抽出について説明する図である。 輪郭特徴量計算処理を説明するフローチャートである。 認識結果の例を示す図である。 対象物認識処理を説明するフローチャートである。 認識結果の例を示す図である。 相対位置の条件の例を示す図である。 相対位置の条件の判定結果の例を示す図である。 相対的な大きさの比較の条件の例を示す図である。 相対的な大きさの比較の条件の判定結果の例を示す図である。 認識結果の例を示す図である。 姿勢認識部の詳細な構成例を示すブロック図である。 対象物認識処理の例を説明するフローチャートである。 認識結果の例を示す図である。 姿勢認識処理の例を説明するフローチャートである。 相対距離と相対角度の条件の例を示す図である。 相対距離の条件の判定結果の例を示す図である。 本発明を適用したテレビジョン受像機制御システムの構成例を示すブロック図である。 本発明を適用したデジタルカメラ制御システムの構成例を示すブロック図である。
以下、本発明を実施するための形態(以下、実施の形態という)について説明する。なお、説明は以下の順序で行う。
1.パーソナルコンピュータの構成
2.第2認識部の構成
3.輪郭特徴量計算部の構成
4.認識処理
5.輪郭特徴量計算処理
6.対象物認識処理1
7.対象物認識処理2
8.姿勢認識部の構成
9.対象物認識処理3
10.姿勢認識処理
11.テレビジョン受像機制御システムの構成
12.デジタルカメラ制御システムの構成
13.その他
[パーソナルコンピュータの構成]
図4は、本発明を適用したパーソナルコンピュータ21のハードウェアの構成例を示すブロック図である。
情報処理装置としてのパーソナルコンピュータ21において、CPU(Central Processing Unit)41,ROM(Read Only Memory)42,RAM(Random Access Memory)43は、バス44により相互に接続されている。
バス44には、さらに、入出力インタフェース45が接続されている。入出力インタフェース45には、入力部46、出力部47、記憶部48、通信部49、およびドライブ50が接続されている。
入力部46は、キーボード、マウス、マイクロフォンなどの他、カメラ46Aを有する。出力部47は、スピーカなどの他、ディスプレイ47Aを有する。
カメラ46Aは、ディスプレイ47Aを見るユーザを撮影できる位置に配置されている。ディスプレイ47Aは、各種のアプリケーションに対応する画像の他、必要に応じてカメラ46Aにより撮影された画像を表示する。
記憶部48は、ハードディスクや不揮発性のメモリなどよりなる。通信部49は、ネットワークインタフェースなどよりなる。ドライブ50は、磁気ディスク、光ディスク、光磁気ディスク、或いは半導体メモリなどのリムーバブルメディア51を駆動する。
以上のように構成されるパーソナルコンピュータ21においては、CPU41が、例えば、記憶部48に記憶されているプログラムを、入出力インタフェース45及びバス44を介して、RAM43にロードして実行することにより、各種の処理が行われる。
CPU41が実行するプログラムは、例えば、パッケージメディア等としてのリムーバブルメディア51に記録して提供される。
なお、パッケージメディアとしては、磁気ディスク(フレキシブルディスクを含む)、光ディスク(CD-ROM(Compact Disc-Read Only Memory),DVD(Digital Versatile Disc)等)、光磁気ディスク、もしくは半導体メモリなどが用いられる。
また、プログラムは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の伝送媒体を介して提供することができる。
パーソナルコンピュータ21においては、プログラムは、リムーバブルメディア51をドライブ50に装着することにより、入出力インタフェース45を介して、記憶部48にインストールすることができる。
また、プログラムは、有線または無線の伝送媒体を介して、通信部49で受信し、記憶部48にインストールすることができる。その他、プログラムは、ROM42や記憶部48に、あらかじめインストールしておくことができる。
図5は、CPU41の機能的構成を示すブロック図である。
CPU41は、取得部61、第1認識部62、第2認識部63、判定部64、制御部65、出力部66、およびアプリケーション実行部67の機能ブロックを有している。なおCPU41の各ブロックは、必要に応じて相互に信号、データを授受することが可能とされている。
取得部61は、各種の情報を取得する。第1認識部62および第2認識部63は、手、顔、人等、それぞれ異なる認識対象物の認識処理を行う。例えば、第1認識部62は認識対象物として手を認識し、第2認識部63は認識対象物として人を認識する。
判定部64は、各種の情報を判定する。制御部65は、各種の制御処理を行う。出力部66は、各種の情報を出力する。アプリケーション実行部67は、アプリケーションを実行する。
アプリケーションとしては、例えば、画像上の手のジェスチャを認識して、そのジェスチャに対応するコマンドを実行するアプリケーション、または画像上の顔を認識して顔の領域の画質を向上させるアプリケーションなどがある。
すなわちアプリケーション実行部67は、画像上の対象物を認識し、その認識結果を用いて所定の処理を行うアプリケーションを実行する。
[第2認識部の構成]
手を認識する第1認識部62は、人を認識する第2認識部63と同様の構成を有している。ここでは代表して第2認識部63の構成について説明する。図6は、第2認識部63のより詳細な構成例を示すブロック図である。
第2認識部63は、ピラミッド画像生成部81、対象物特徴点抽出部82、対象物特徴量計算部83、輪郭特徴点抽出部84、輪郭特徴量計算部85、識別計算部86、および認識結果出力部87から構成される。
各部は必要に応じて相互に信号、データを授受することが可能とされている。このことは、後述する図6、図7、および図21においても同様である。
ピラミッド画像生成部81は、取得された画像から、互いに解像度の異なる複数の画像をピラミッド画像として生成する。
例えば、レベルL1乃至レベルL8までの8つの解像度の階層のピラミッド画像が生成される。レベルL1のピラミッド画像が最も解像度が高く、レベルL1からレベルL8まで順番にピラミッド画像の解像度が低くなる。
対象物特徴点抽出部82は、ピラミッド画像生成部81で生成されたピラミッド画像を構成する各画像から、その画像の画素のいくつかを、対象物を認識するときに用いられる対象物特徴点として抽出する。
対象物特徴量計算部83は、対象物特徴点抽出部82により抽出された各対象物特徴点について、その対象物特徴点と、他の対象物特徴点とを1つのペアとするペアリングを行う。
また、対象物特徴量計算部83は、対象物特徴点が抽出された画像に基づいて、対象物特徴点のペア毎に、任意の2つの領域のテクスチャの距離を示す対象物特徴量を計算する。
輪郭特徴点抽出部84は、ピラミッド画像生成部81で生成されたピラミッド画像を構成する各画像から、その画像の画素のいくつかを、対象物を認識するときに用いられる輪郭特徴点として抽出する。
輪郭特徴量計算部85は、輪郭特徴点が抽出された画像に基づいて、例えばステアラブルフィルタ(Steerable Filter)を用いたフィルタ処理により、輪郭特徴点毎に、抽出された輪郭を示す輪郭特徴量を計算する。
識別計算部86は、予め記憶部48に記憶されている識別用特徴量および統合識別器を読み出す。また、識別計算部86は、対象物特徴量計算部83により計算された対象物特徴量、および輪郭特徴量計算部85により計算された輪郭特徴量のうちの識別用特徴量に対応するものを、読み出した統合識別器に代入して演算を行う。
ここで、統合識別器とは、対象物識別器と輪郭識別器とを統合して生成されたものである。
対象物識別器および輪郭識別器は、予め統計学習により生成された、複数の弱識別器からなる強い識別器であり、対象物(例えば人)の特徴を利用して、入力された画像中に対象物の画像の領域が存在するか否かを識別するときに用いられる。
また、識別用特徴量は、統合識別器を用いて対象物体の認識を行うときに用いられる対象物特徴点のペアの対象物特徴量、および輪郭特徴点の輪郭特徴量である。
認識結果出力部87は、識別計算部86における演算結果に基づいて、対象物体が入力画像で認識されたか否かの識別結果を出力する。
上述したように、第1認識部62は、第2認識部63と同様の構成を有し、同様の処理を行うので、その詳細な説明は省略する。
[輪郭特徴量計算部の構成]
図7は、図6の輪郭特徴量計算部85のより詳細な構成例を示すブロック図である。輪郭特徴量計算部85は、1次フィルタ処理部101、2次フィルタ処理部102、3次フィルタ処理部103、および特徴量生成部104から構成される。
輪郭特徴点抽出部84により輪郭特徴点が抽出された画像は、1次フィルタ処理部101乃至特徴量生成部104に供給され、輪郭特徴点は、1次フィルタ処理部101乃至3次フィルタ処理部103に供給される。
1次フィルタ処理部101は、輪郭特徴点抽出部84により抽出された輪郭特徴点毎に、輪郭特徴点に対してガウス関数Gの1次微分関数G1によりフィルタ処理を施して特徴量を抽出する。ここで、ガウス関数G、および1次微分関数G1は、次式(1)および式(2)により示される。
Figure 2012113460
Figure 2012113460
式(1)において、σはガウス幅を示している。式(2)において、θは任意の角度を示している。
例えば、1次フィルタ処理部101は、ガウス関数Gのガウス幅σを3つの所定値(例えば、ガウス幅σ1,σ2,σ3=1,2,4)に変化させ、ガウス幅σ毎に所定の4方向(例えば、θ=θ1,θ2,θ3,θ4)について式(2)を計算する。
なお、方向θは4方向に限らず、8方向、例えばπを8方向に等分したときの各方向などとしてもよい。また、従来は、複数のガウス幅を用いて処理を行っていたが、本実施の形態においては、後述するように、ガウス幅は1つだけ用意しておけば良い。
換言すれば、ガウス幅を変化させる必要がない。よって、上記では、「ガウス幅を3つの所定値に変化させ、ガウス幅σ毎に所定の4方向について式(2)を計算する」と記載したが、本実施の形態においては、設定されているガウス幅σにおいて所定の方向の4方向について式(2)を計算するだけでよい。
よって、複数のガウス幅毎に計算する必要がないため、計算量を低減させることが可能となる。このようなことは、他のフィルタ、例えば、2次フィルタ処理部102、3次フィルタ処理部103においても同様である。
2次フィルタ処理部102は、抽出された輪郭特徴点毎に、輪郭特徴点に対してガウス関数Gの2次微分関数G2によりフィルタ処理を施して特徴量を抽出する。次式(3)は、2次微分関数G2を示しており、式(3)においてθは任意の角度を示している。
Figure 2012113460
また、式(3)における係数k2i(θ)(但し、i=1,2,3)は、次式(4)で示される関数である。
Figure 2012113460
例えば、2次フィルタ処理部102は、ガウス関数Gの所定のガウス幅σにおいて、所定の4方向(例えば、θ=θ1,θ2,θ3,θ4)について式(3)を計算する。
3次フィルタ処理部103は、抽出された輪郭特徴点毎に、輪郭特徴点に対してガウス関数Gの3次微分関数G3によりフィルタ処理を施して特徴量を抽出する。
次式(5)は、3次微分関数G3を示しており、式(5)においてθは任意の角度を示している。
Figure 2012113460
また、式(5)における係数k3i(θ)(但し、i=1,2,3)は、次式(6)で示される関数である。
Figure 2012113460
例えば、3次フィルタ処理部103は、ガウス関数Gの所定のガウス幅σにおいて、所定の4方向(例えば、θ=θ1,θ2,θ3,θ4)について、式(5)を計算する。
特徴量生成部104は、1次フィルタ処理部101、2次フィルタ処理部102、および3次フィルタ処理部103のそれぞれで、4つの方向θについて計算された各輪郭特徴点の特徴量の供給を受け、供給された合計12個(=3(次数)×4(方向))の特徴量を並べて輪郭特徴点における輪郭特徴量とする。
また、各フィルタ処理部101,102,103には、ピラミッド画像生成部81から異なる解像度の複数の画像が供給されるため、各画像から4つの方向θについて計算された各輪郭特徴点の特徴量も供給される。
この供給される特徴量は、ピラミッド画像生成部81が生成する画像の枚数に依存し、例えば、レベル1からレベル8までの8枚の画像が生成される場合、8枚分の4つの方向θについて計算された各輪郭特徴点の特徴量が供給されることになる。
このように、輪郭特徴量計算部85では、ガウス関数を微分して得られる、方向θに選択性を持つフィルタ(基底関数)が用いられて、微分の次数毎に異なる特徴量(輪郭)が抽出され、輪郭特徴量とされている。
図8に、ガウス関数Gの微分関数により、人が写っている画像に対してフィルタ処理を行うことで得られた結果を示す。図8において、左側にはフィルタ処理の対象となる画像が示され、中央にはフィルタが示され、右側にはフィルタ処理後の画像が示されている。
図8の左側に示した画像は、ピラミッド画像を構成する2枚の画像であり、異なる解像度の画像である。ピラミッド画像生成部81は、例えば、レベルL1乃至L8までの異なる解像度の画像を生成する。そのうちの例えば、レベルL1の画像131とレベルL2の画像132が、図8の左側に示されている。
図8の中央に示したフィルタは、1次微分関数G1、2次微分関数G2、および3次微分関数G3のガウス幅σがσ=1のフィルタの一例を示している。
図8の左側に示した画像131,132に対して、図8の中央に示したフィルタのうち、例えば、3次微分関数G3のフィルタを用いて、フィルタ処理した場合、図8の右側に示した画像が生成される。
すなわち、画像131に対して、3次微分関数G3のフィルタでフィルタ処理を行うと、画像141−1乃至141−4が生成される。また、画像132に対して、3次微分のフィルタでフィルタ処理を行うと、画像142−1乃至142−4が生成される。
画像141−1乃至141−4は、それぞれガウス幅σが1(σ=1)の3次微分関数G3のフィルタを用いて、フィルタ処理を行ったため、ガウス幅σが1のフィルタでフィルタ処理が行われたときの画像となる。
同様に、画像142−1乃至142−4は、それぞれガウス幅σが1(σ=1)の3次微分関数G3のフィルタを用いて、フィルタ処理を行ったため、ガウス幅σが1のフィルタでフィルタ処理が行われたときの画像となる。
しかしながら、画像142−1乃至142−4は、画像132をフィルタ処理した画像である。画像132は、画像131を縮小した画像である。
このような場合、画像142−1乃至142−4は、ガウス幅σが2(σ=2)の3次微分関数G3のフィルタを用いてフィルタ処理を行った結果、生成される画像に相当する画像とすることができる。
換言すれば、画像131に対して、ガウス幅σが2(σ=2)の3次微分関数G3のフィルタを用いてフィルタ処理したときに生成される画像に相当する画像が、画像142−1乃至142−4である。
すなわち、ピラミッド画像に対して、フィルタ処理を行うことで、異なるガウス幅のフィルタを用いて、フィルタ処理したときと同等の画像を得ることが可能となる。
例えば、ガウス幅毎にフィルタを予め用意し、フィルタ処理を行うときの演算量や処理負担と比較し、上記したように1つのガウス幅のフィルタを予め用意し、ピラミッド画像にフィルタ処理を行うときの演算量や処理負担は大幅に軽減されたものとなる。
すなわち、ピラミッド画像を生成し、1つのガウス幅でフィルタ処理を行うことで、処理時間を大幅に短縮することが可能となる。
よって、このような手法で、画像から人などの対象物を検出するようにした場合、処理時間が短くなることで、リアルタイムに画像から対象物を検出することが可能となる。
輪郭特徴量計算部85は、このようにして、異なるガウス幅σのフィルタでフィルタ処理したときに相当する複数の画像を、さらに平均して得られる画像を生成する。その生成された平均の画像からは、人の輪郭を確認することができ、各フィルタを用いたフィルタ処理によって、画像から適切に人の輪郭が抽出される。
[認識処理]
次に、図9乃至図13を参照して、対象物を認識する第1認識部62および第2認識部63の認識処理を説明する。
なお、手を認識対象物とする第1認識部62の認識処理と人を認識対象物とする第2認識部63の認識処理とは認識対象物が異なるだけであり、処理は同様であるので、簡単のため人を認識対象物とする第2認識部61の認識処理についてだけ説明する。
図9は、認識処理を説明するフローチャートである。図9の処理はカメラ46Aにより画像が取得された時に実行される。
ステップS1において、第2認識部63のピラミッド画像生成部81は、カメラ46Aにより取得された画像から、ピラミッド画像を生成する。
上記したように、ピラミッド画像生成部81は、例えば、レベルL1乃至レベルL8までの8つの解像度の階層のピラミッド画像を生成する。
対象物特徴点抽出部82と輪郭特徴点抽出部84は、それぞれ、供給されるピラミッド画像(異なる解像度の複数の画像)のうちの1つの画像を、処理対象の画像として、ステップS2以下の処理を実行し、複数の画像毎に繰り返しステップS2以下の処理を実行する。
ステップS2において、対象物特徴点抽出部82は、処理対象とされた画像から対象物特徴点を抽出する。
ステップS3において、対象物特徴量計算部83は、ステップS2で抽出された対象物特徴点から、未処理の対象物特徴点の1つを注目点として選択する。
ステップS4において、対象物特徴量計算部83は、対象物特徴点抽出部82により抽出された対象物特徴点とその画像とに基づいて、各対象物特徴点について、対象物特徴点のペアリングを行う。
ステップS5において、対象物特徴量計算部83は、ペアリングによりペアとされた対象物特徴点の各ペアについて対象物特徴量を計算する。
例えば、図10に示す画像が対象物特徴点抽出部82により処理対象とされた場合、対象物特徴点抽出部82は、予め定められたマージン(のりしろ)と、サンプリングスキップ数とに基づいて、画像から対象物特徴点145を抽出する。
なお、図10において、画像上の円は、対象物特徴点145とされた画素を示している。また便宜上、符号は、画像上の1つの円にのみ付されている。
ここで、マージンとは、画像において、画像の端から対象物特徴点145の抽出の対象となる領域までの画素数である。また、サンプリングスキップ数とは、対象物特徴点145とされる画像上の画素と画素との間隔である。
したがって、例えばマージンが5画素であり、サンプリングスキップ数が5画素である場合、対象物特徴点抽出部82は、画像の端から5画素以内の位置にある画素からなる領域を除外し、残りの内側の領域E11を対象物特徴点の抽出の対象とする。
そして、対象物特徴点抽出部82は、領域E11内の画素のうち、互いに5画素だけ離れている位置の画素を対象物特徴点145として抽出する。
すなわち、図10の縦方向または横方向に互いに隣り合う対象物特徴点145間の距離は5画素とされ、各対象物特徴点145は、領域E11内の画素とされる(ステップS2,S3の処理)。
次に、対象物特徴量計算部83は、予め定められた最小半径および最大半径に基づいて、各対象物特徴点145のペアリングを行う。
例えば、最小半径がR11であり、最大半径がR12である場合、所定の対象物特徴点KT1に注目したとき、対象物特徴量計算部83は、対象物特徴点KT1からの距離が、最小半径R11以上であり、かつ最大半径R12以内である全ての対象物特徴点145について、その対象物特徴点145と、対象物特徴点KT1とを1つのペアとする。
例えば、対象物特徴点KT1からの距離が、最小半径R11以上であり、かつ最大半径R12以内である対象物特徴点145がN個存在する場合、N個の対象物特徴点145のペアが得られることになる。
対象物特徴量計算部83は、全ての対象物特徴点145について、他の対象物特徴点145とのペアリングを行う(ステップS4の処理)。
さらに、対象物特徴量計算部83は、ペアリングにより得られた対象物特徴点145の各ペアについて、ペアとなる各対象物特徴点145を中心とする所定の形の所定の大きさの領域同士のテクスチャの距離を対象物特徴量として計算する。
例えば、図10に示す対象物特徴点KT1と対象物特徴点KT2とのペアについての対象物特徴量をSSD(Sum of Square Distance)により求める場合、対象物特徴量計算部83は、対象物特徴点KT1を中心とする所定の領域を領域Tx1とし、対象物特徴点KT2を中心とする領域Tx1と同じ大きさの領域を領域Tx2とする。
そして、対象物特徴量計算部83は、領域Tx1内の画素の画素値と、その画素に対応する領域Tx2内の画素の画素値との差分の絶対値和を求め、求められた差分の絶対値和を対象物特徴量とする。
なお、対象物特徴量は、SSDに限らず、SAD(Sum of Absolute Distance)や、正規化相関などとされてもよい(ステップS5の処理)。
図9に戻り、ステップS6において、対象物特徴量計算部83は、全ての対象物特徴点について処理が終了したかを判定する。
ステップS6において、全ての対象物特徴点145についてまだ処理が終了していないと判定された場合、処理はステップS3に戻り、次の対象物特徴点145が注目点として選択され、同様の処理が実行される。
一方、ステップS6において、全ての対象物特徴点145について処理が終了したと判定された場合、処理はステップS7に進む。
ステップS7において、輪郭特徴点抽出部84は、ステップS1で生成され、処理対象とされた画像から輪郭特徴点を抽出する。
例えば、輪郭特徴点抽出部84に図11Aに示す画像が入力された場合、輪郭特徴点抽出部84は、図11Bに示すように、画像において所定の間隔で並んでいる画素を、輪郭特徴点146として抽出する。
なお、図11Bにおいて、画像上の円は輪郭特徴点146とされた画素を表している。また便宜上、符号は、画像上の1つの円にのみ付されている。
図11Bに示す画像は、図中、横方向に32画素、縦方向に64画素からなる画像であり、輪郭特徴点抽出部84は、画像上の画素を、横方向および縦方向に2画素おきに輪郭特徴点146とする画素として選択する。
これにより、横方向に12画素、縦方向に28画素、合計336(=12×28)画素が輪郭特徴点146として選択される。
輪郭特徴点抽出部84は、画像から輪郭特徴点146を抽出すると、抽出した輪郭特徴点146と、入力された画像とを輪郭特徴量計算部85に供給する。
ステップS8において、輪郭特徴量計算部85は、輪郭特徴量計算処理を行い、輪郭特徴点抽出部84から供給された輪郭特徴点146および画像に基づいて、各輪郭特徴点146の輪郭特徴量を計算する。
[輪郭特徴量計算処理]
ここで、図12のフローチャートを参照して、図9のステップS8の処理に対応する輪郭特徴量計算処理について説明する。
ステップS21において、輪郭特徴量計算部85、より詳細には、輪郭特徴量計算部85の1次フィルタ処理部101、2次フィルタ処理部102、および3次フィルタ処理部103は、それぞれ輪郭特徴点抽出部84から供給されてきた輪郭特徴点のうち、未処理の輪郭特徴点の1つを注目画素として選択する。
ステップS22において、輪郭特徴量計算部85は、方向θqを示すカウンタqを1とする。これにより、方向θqはθ1とされる。
ステップS23において、1次フィルタ処理部101は、1次フィルタ処理を行う。
すなわち、1次フィルタ処理部101は、処理対象となる注目画素の画素値に基づいて、ガウス幅をσ=1とし、かつ方向をθqとして式(2)を演算し、フィルタ処理した結果を特徴量生成部104に供給する。
すなわち、式(2)における方向θがθqとされて演算が行われ、輪郭が抽出される。
なお、「ガウス幅をσ=1として」と記述したが、本実施の形態の場合、ガウス幅は、σ=1と固定されている(予め1つのガウス幅のフィルタが設定されている)ため、この「ガウス幅をσ=1として」という処理は省略することが可能である。
すなわち、本実施の形態においては、ガウス幅σが1のフィルタの方向をθqとして式(2)を演算するという処理が、ステップS23において実行されることになる。
また、ここでは、ガウス幅σをσ=1として説明を続けるが、予め用意されているフィルタのガウス幅は、σ=1以外のガウス幅でも勿論良い。
ステップS24において、2次フィルタ処理部102は、2次フィルタ処理を行う。
すなわち、2次フィルタ処理部102は、注目画素の画素値に基づいて、ガウス幅σ=1のフィルタの方向をθqとして式(3)を演算し、フィルタ処理した結果を特徴量生成部104に供給する。
すなわち、式(3)における方向θがθqとされて演算が行われ、輪郭が抽出される。
ステップS25において、3次フィルタ処理部103は、3次フィルタ処理を行う。
すなわち、3次フィルタ処理部103は、注目画素の画素値に基づいて、ガウス幅σ=1のフィルタの方向をθqとして式(5)を演算し、フィルタ処理した結果を特徴量生成部104に供給する。
すなわち、式(5)における方向θがθqとされて演算が行われ、輪郭が抽出される。
ステップS26において、輪郭特徴量計算部85は、方向θqがθ4であるか否か、すなわちカウンタq=4であるか否かを判定する。ステップS26において、方向θqがθ4でないと判定された場合、ステップS27において、輪郭特徴量計算部85は、カウンタqをインクリメントする。
例えば、カウンタq=1であった場合、カウンタqが1だけインクリメントされてq=2とされ、これにより方向θqはθ2とされる。カウンタqが1だけインクリメントされると、処理はステップS23に戻り、上述した処理が繰り返される。
これに対して、ステップS26において、方向θqがθ4であると判定された場合、ステップS28において、特徴量生成部104は、1次フィルタ処理部101、2次フィルタ処理部102、および3次フィルタ処理部103から供給された演算結果を輪郭特徴量として合成し、1つの輪郭特徴点に対する輪郭特徴量を生成する。
輪郭特徴量は、以下の式(7)または式(8)で求められる。
Figure 2012113460
Figure 2012113460
式(7)、式(8)において、Gd,θは、式(2)などと同じく、任意の角度θにおけるガウス関数Gのd次微分関数である。また、I(x,y,s)のうち、(xi,yi)は、処理対象とされている輪郭特徴点の画像内での座標を表し、(si)は、ピラミッド画像を構成する画像のうち、処理対象とされている画像のスケールを表す。
式(7)は、任意の角度θにおけるガウス関数Gのd次微分関数と輪郭特徴量を畳込み演算し、その絶対値をΣで総和を演算する式である。式(8)は、任意の角度θにおけるガウス関数Gのd次微分関数と輪郭特徴量を畳込み演算し、その絶対値をmaxで最大値をとる式である。
式(7)と式(8)は、ともに、特徴量を算出する式であるが、式(7)は、局所的なエネルギーを計算する式であり、式(8)は、局所的な最大値を計算する式である。ここで、この式の意味ついて説明を加える。
上記したような処理により、任意の角度における関数とスケールで抽出されたフィルタ係数を特徴量として、人などの対象物を検出する検出識別器を生成できる。
しかしながら、この検出識別器では、例えば、人の着ている服装と背景の関係に依存する特徴量となってしまう。
また、人のように歪みや変形の大きな認証対象に関しては、特徴量として選択性がありすぎる。よって、これらのことを吸収して処理する必要があり、それぞれの特徴量を不変性のある特徴量にする必要がある。
「人の着ている服装と背景に関係に依存する特徴量」を、不変性のある特徴量にするには、フィルタ処理後の出力値の絶対値を演算することで解決することができる。絶対値を演算することで、人の輪郭に近い特徴量が抽出できる。
さらに本実施の形態においては、1次微分関数、2次微分関数、さらに3次微分関数を演算し、それぞれ絶対値の演算を行っている。よって、1次微分関数による絶対値だけで演算を行う場合に比べて、はるかに精度を良くすることができ、不変性を有する特徴量を算出できるようになる。
また、「人のように歪みや変形の大きな認証対象に関しては、特徴量として選択性がありすぎる」といったことに対しては、位置ずれによる不変演算を行うことで、そのようなこと吸収した特徴量を演算できるようになる。
位置ずれによる不変演算とは、例えば、人の顔の輪郭を検出したとき、顔の形によらずその輪郭の長さはほぼ同じになるといったことを利用した演算である。
換言すれば、輪郭の所定の部分に注目したとき、その部分が位置的にずれても、例えば、ほぼ丸顔の人の輪郭が位置的に移動し、細長い顔の人の輪郭に重なるようにしたときに、位置がずれただけで、その長さなどの値は不変であるとみなせる演算である。
このような演算として、式(7)のように、総和が演算される。総和を演算することにより、例えば、人の顔の輪郭の総和が演算されることになる。
または、式(8)のように、最大値が演算される。最大値を演算することにより、例えば、人の顔の輪郭のうちの最大値が演算されることになる。
ここでは、総和と最大値という2つの演算を示した。換言すれば、上記したように、式(7)に基づき、局所的なエネルギーを計算する演算を示し、式(8)に基づき、局所的な最大値を計算する演算を示した。
この他にも、局所的な最大値を有する点の周辺の局所的なエネルギーを計算する演算が行われるようにしても良い。これは、式(8)の演算結果を受けて、式(7)の演算を行うようなイメージである。
または、局所的なエネルギーの周辺の最大値を計算する演算が行われるよにしても良い。これは、式(7)の演算結果を受けて、式(8)の演算を行うようなイメージである。具体的な式は示さないが、このような演算で特徴量が算出されるようにしても良い。
このような演算により、各輪郭特徴点から特徴量が算出される。そして、ステップS29において、輪郭特徴量計算部85は、全ての輪郭特徴点について処理が終了したか否かを判定する。
例えば、輪郭特徴点抽出部84から供給された全ての輪郭特徴点について、輪郭特徴量が求められた場合、処理が終了したと判定される。
ステップS29において、全ての輪郭特徴点について処理がまだ終了していないと判定された場合、処理はステップS21に戻り、次の輪郭特徴点が注目画素として選択される。
これに対して、ステップS29において、全ての輪郭特徴点について処理が終了したと判定された場合、処理は図9のステップS9に進む。
ステップS9において、識別計算部86は、記憶部48に予め記憶されている識別用特徴量および統合識別器を読み出して、読み出した統合識別器に特徴量を代入して計算する。
すなわち、識別計算部86は、対象物特徴量計算部83からの対象物特徴量、および輪郭特徴量計算部85からの輪郭特徴量のうちの識別用特徴量に対応するものを、統合識別器に代入して演算を行う。
ここで、識別用特徴量とされる特徴量は、統計学習処理時において、統合識別器を構成する弱識別器の設定に用いられた特徴量である。すなわち誤り率が比較的低い所定の個数の弱識別器に対応する対象物特徴点のペアの対象物特徴量、および輪郭特徴点の輪郭特徴量である。
また統合識別器は、対象物識別器と輪郭識別器とを統合して生成されている。対象物識別器は、対象物特徴量を用いて画像に対象物が含まれているかを識別する識別器である。輪郭識別器は、輪郭特徴量を用いて画像に対象物が含まれているかを識別する識別器である。
所定の個数の弱識別器は、対応する対象物特徴点のペアの対象物特徴量が代入された場合、結果が正であるとき「+1」を出力し、負であるとき「−1」を出力する。そして対象物識別器は、所定の個数の弱判別器の多数決により認識しようとする対象物体の有無を出力する。
輪郭識別器も同様に、輪郭特徴点の輪郭特徴量が弱識別器に代入され、所定の個数の弱判別器の多数決により認識しようとする対象物体の有無を出力する。
具体的には、統合識別器は、以下のように生成される。
まず、次式(9)を計算し、対象物識別器R(x)と、輪郭識別器T(x)との識別器和U(x)を求める。すなわち、対象物識別器R(x)と、輪郭識別器T(x)との線形結合により、識別器和U(x)が求められる。
U(x)=α・R(x)+β・T(x) ・・・(9)
なお、式(9)において、αおよびβは所定の定数、すなわちチューニングパラメータであり、例えば統計学習処理に用いられる学習画像に対する識別率などにより求められる。
求められた識別器和U(x)を用いて、次式(10)により示される統合識別器が生成される。
統合識別器=sign(U(x)) ・・・(10)
式(10)の演算が行われると、その演算の結果として、入力画像中に対象物体としての人が存在することを示す「+1」、または入力画像中に対象物体としての人が存在しないことを示す「−1」が得られる。識別計算部86は、統合識別器での演算結果を識別結果出力部87に供給する。
ステップS10において、識別結果出力部87は、識別計算部86からの演算結果に基づいて、人の認識結果を出力し、認識処理は終了する。すなわち、対象物体が画像で認識されたか否かの識別結果が出力される。
なお、以上においては、対象物体として人を検出すると説明したが、人に限らず、どのようなものであってもよい。
例えば、対象物体が入力画像で認識されたか否かの識別結果として、図13に示すように、対象物体としての人、手、及び顔が検出された領域に枠が設定され、表示された画像が表示されるようにしてもよい。
図13に示す画像は、対象物体として人151、手152、および顔153が表示されている画像であり、画像には、人151を囲む人認識枠161、手152を囲む手認識枠162、および顔153を囲む顔認識枠163が設定され、表示されている。
このような表示を行う場合、認識結果出力部87にも画像が入力され、識別計算部86は、演算結果とともに入力画像における対象物体が検出された領域を示す情報を識別結果出力部87に供給する。
認識結果出力部87は、識別計算部86からの演算結果および領域を示す情報に基づいて、画像から対象物体が検出された場合には、画像とともに、対象物体(例えば人151)が検出された領域を囲む枠(例えば人認識枠161)を設定し、ディスプレイ47Aに表示させる。
このようにして、第2認識部63は、画像から対象物特徴点を抽出して、対象物特徴点のペアの対象物特徴量を求めるとともに、画像から輪郭特徴点を抽出して輪郭特徴量を求める。
そして、第2認識部63は、求めた対象物特徴量および輪郭特徴量と、記憶部48に予め記憶されている統合識別器とを用いて、画像から対象物体として人を検出する。
以上のようにして、第2認識部63は対象物体として人を認識する。第1認識部62が手を対象物として認識する処理も、対象物が異なるだけで、第2認識部63の処理と同様であり、その説明は繰り返しになるので省略する。
[対象物認識処理1]
次に、図14乃至図19を参照して、第1認識部62と第2認識部63の2個の認識器を用いて対象物を認識する処理の例を説明する。なお認識器の数は、2個に限らず、3以上の複数個の認識器を用いてもよい。
図14は、対象物認識処理を説明するフローチャートである。図14の例では、第1認識部62が認識対象物として手を認識し、第2認識部63が認識対象物として人を認識するものとする。
ステップS41において、取得部61は、入力部46を構成するカメラ46Aから画像を取得する。例えば、図15Aに示す人151−1が手152−1を挙げている画像を取得される。
ステップS42において、第1認識部62は、取得した画像に対して第1の認識処理を行う。すなわち、図15Aの画像から手を認識する処理が実行される。この処理の詳細は上述した通りである。
図15Aの画像は、人151−1がカメラ46Aから離れた場所に立っている。このような場合、手152−1が小さくなるので、ステップS42の第1認識処理では図15Aの画像からは、手152−1を認識することが困難になる。
ステップS43において、判定部64は、第1の認識処理が成功したかを判定する。すなわち、図15Aの画像から手152−1を認識できたかが判定される。
ステップS43において第1の認識処理が失敗したと判定された場合、すなわち手を認識することができなかった場合、処理はステップS44に進む。
ステップS44において、第2認識部63は、取得した画像に対して第2の認識処理を行う。すなわち、図15Aの画像に対して人を認識する処理が実行される。この処理の詳細は上述した通りである。
図15Aの画像では、人151−1がカメラから離れた場所に立っている。しかし、人151−1の大きさは、手152−1より大きく、認識に充分な大きさである。ステップS44の第2の認識処理で人151−1が認識されたときの画像を図15Bに示す。
図15Bは、人151−1が認識されたときの画像の例を示す図である。第2認識部63により人151−1が認識され、人認識枠161−1が設定され、表示されている。
ステップS45において、判定部64は、第2の認識処理が成功したかを判定する。すなわち、図15Aの画像から人151−1を認識できたかが判定される。
ステップS45において第2の認識処理が失敗したと判定された場合、処理はステップS41に戻る。すなわち、第1の認識処理と第2の認識処理のいずれも失敗した場合には、ステップS41乃至ステップS45の処理が繰り返される。
ステップS45において第2の認識処理が成功したと判定された場合、すなわち図15Bの例のように、人151−1を認識することができた場合、すなわち、手の認識処理には失敗したが、人の認識処理には成功した場合、処理はステップS46に進む。
ステップS46において、取得部61は、記憶部48から画質パラメータを取得する。画質パラメータは、カメラ制御パラメータと画像処理パラメータに分類できる。
カメラ制御パラメータは、例えば、ズーム率、フォーカス位置、絞り値、シャッター時間、ゲイン値、色調整値、およびカメラ方向などカメラ本体の設定値を定めるパラメータである。画像処理パラメータは、例えば、明度、コントラスト、色変換、先鋭度値、ぼかし、およびデジタルズーム率など取得した画像を処理するためのパラメータである。
このカメラ制御パラメータおよび画像処理パラメータのうちの少なくとも1種類が画質パラメータとして予め記憶部48に記憶されている。記憶部48に記憶されている画質パラメータは、その設定値が離散的に用意されている。
例えば、画質パラメータとしてズーム率が設定されており、P個(Pは自然数)の設定値が用意されている場合、ズーム率a={a1,a2,・・・,aP}として記憶されている。取得部61は、{a1,a2,・・・,aP}の中から新たな設定値を画質パラメータとして取得する。
なお、例えば、ズーム率aに加え、明度b={b1,b2,・・・,bQ(Qは自然数)}を画質パラメータとして設定する場合、ズーム率aと明度bとの設定値の組み合わせを画質パラメータとして提供することができる。
また画質パラメータの種類が3種類以上の場合も同様である。そして、画像が認識されるまで全通りの組み合わせを試す方法が有効である。
ステップS47において、制御部65は、現在の画質パラメータを、ステップS46において取得された新たな画質パラメータに変更するように制御する。ステップS47の処理の後、処理はステップS41に戻る。
なお、画質パラメータに変えて、ユーザに対して「カメラに近づいて下さい」というような指示を取得し、ディスプレイ47Aに表示するようにしてもよい。
ステップS43において第1の認識処理が成功したと判定されるまで、ステップS41乃至S47の処理が繰り返される。
ステップS47の処理の後のステップS41の処理において、取得部61は、ステップS47において画質パラメータが変更された画像を取得する。図15Cを参照して、画質パラメータを変更した手を認識するのに適切な画像について説明する。
図15Cは、画質パラメータとしてズーム率が変更された画像を示す図である。図15Cの図では、ズーム率がより望遠となる画質パラメータに変更された場合の例を示している。すなわち、人151−2が画像上により大きく表示されている。
ステップS42において、第1認識部62は、第1の認識処理を実行する。画質パラメータが変更された図15Cの画像は、手152−2の大きさが、図15Aに示される場合より大きく、認識に充分な大きさである。従って、ステップS42の処理で、第1認識部62により手152−2が認識され、手認識枠162−2が設定され、表示される。
ステップS43において第1の認識処理が成功したと判定された場合、すなわち手を認識することができた場合、処理はステップS48に進む。
ステップS48において、判定部64は、ステップS44の第2の認識処理が成功したかを判定する。すなわち、人を認識する処理が成功したかが判定される。
ステップS48において第2の認識処理が成功したと判定された場合、処理はステップS49に進み、ステップS49において、判定部64は、条件を満足するかを判定する。
条件は、相対的な位置関係と相対的な大きさの関係との2つの条件がある。まず図16と図17を参照して、相対的な位置関係の条件について説明する。
図16Aは、人認識枠161と手認識枠162との相対的な位置関係の例を示す図である。検出領域181は、人認識枠161の所定の位置に予め設定されている。そして判定部64により手認識枠162が、検出領域181内にあるかが条件として判定される。
具体的には、例えば、人認識枠161の左上の頂点の座標(xb,yb)に対して、検出領域181の左上の頂点の座標(x1,y1)と、検出領域181の右下の頂点の座標(x2,y2)は所定の関係になるように予め設定される。
この場合、判定部64は、手認識枠162の左上の頂点の座標(xh,yh)が次式を満足するかを判定する。
Figure 2012113460
図16Bは、人認識枠161と手認識枠162との相対的な位置関係の他の例を示す図である。検出領域182は、人認識枠161に対する手認識枠162の相対位置の分布に基づいて設定される。
具体的には、手の位置の座標(xh,yh)の平均μx,yと共分散Σxyが与えられることで定義される2次元正規分布を考えたときの、共分散Σxyの値が閾値w0以上となる所定の範囲が規定される。
つまり、手認識枠162の左上の頂点の座標を(xh,yh)を取得したとき、判定部64は、その座標(xh,yh)が次式を満足するかを判定する。すなわち、座標がxy平面内の平均μx,yから所定の距離の範囲内に位置するかが判定される。
Figure 2012113460
なお、図16の例では、手認識枠162の左上の頂点の座標(xh,yh)を基準の座標としたが、基準とする座標は、手認識枠162の他の頂点、辺上、または重心などでもよい。
また、図16Bの例では2次元正規分布を使用したが、ロジスティック分布、双曲線正割分布、レイリー分布、レヴィ分布、またはコーシー分布など他の確率分布を同様に規定して使用してもよい。
図17Aは、相対的な位置関係の条件を満足する例を示す図である。人認識枠161−3の左上の頂点の座標(xb,yb)に対する手認識枠162−3の左上の頂点の座標(xh,yh)は、検出領域181−3内に存在する。従って、判定部64は、相対的な位置関係の条件を満足すると判定する。
図17Bは、相対的な位置関係の条件を満足しない例を示す図である。図17Bに示すように、手認識枠162−4の左上の頂点の座標(xh,yh)が検出領域181−4の範囲外である人認識枠161−4の左下の位置に存在する。
このような場合、例えば手がユーザのひざ付近に位置していることになるので、その認識結果は誤認識の可能性が高い。従って、判定部64は、相対的な位置関係の条件を満足しないと判定する。
次に図18と図19を参照して、相対的な大きさの関係の条件について説明する。図18Aは、人認識枠161の大きさを示す図である。図18Aの例では、人認識枠161の横の長さを人認識枠161の大きさHとしている。
図18Bは、手認識枠162の大きさを示す図である。図18Bの例では、手認識枠162の横の長さを手認識枠162の大きさhとしている。
そして、この人認識枠161の大きさHと手認識枠162の大きさhとの比が、予め設定された所定の範囲内にあるかが判定される。
具体的には、判定部64は、次式が満足されるかを判定する。
Figure 2012113460
また、他の例として、人認識枠161の大きさHに対する手認識枠162の大きさhの比sに関する平均値μsと分散σが与えられることで定義される正規分布を考えたときの、分散σの値が閾値s0以上となる所定の範囲が規定される。
つまり、手認識枠162の大きさhと、人認識枠161の大きさHが得られたとき、判定部64は、次式が満足されるかを判定する。すなわち、検出された手認識枠162の大きさhと人認識枠161の大きさHに対する比sの分散σが、閾値s0以上であるか、つまり、比sが平均μsから所定の範囲内にあるかが判定される。
Figure 2012113460
図19Aは、相対的な大きさの関係の条件を満足する例を示す図である。
人認識枠161−11の大きさHに対する手認識枠162−11の大きさhの比が、予め設定された範囲内である場合、すなわち手認識枠162−11の大きさhが、人認識枠161−11の大きさHに対して適切な大きさである場合、判定部64は、相対的な大きさの関係の条件を満足すると判定する。
図19Bは、相対的な大きさの関係の条件を満足しない例を示す図である。図19Bに示すように、手認識枠162−12の大きさh’は、人認識枠161−12の大きさH’に較べて小さ過ぎる。
このような場合、手または人の認識結果は誤認識の可能性が高いので、判定部64は、相対的な大きさの関係の条件を満足しないと判定する。これにより、より正確に対象物を認識することができる。
なお、条件として相対的な位置関係と相対的な大きさの関係との2つの条件について説明したが、この2つの条件を組み合わせて判断してもよい。
すなわち、式(12)と式(13)とを組み合わせて、判定部64は、次式が満足されるかを判定するようにしてもよい。
Figure 2012113460
図14に戻り、ステップS49において条件が満足されていないと判定された場合、処理はステップS46に進む。すなわち、手と人の両方が認識されたとしても条件が満足されていない場合、画質パラメータが取得され、新たな画像から認識処理が行われる。
ステップS49において条件が満足されていると判定された場合、すなわち、手と人の両方が認識され、条件も満足されている場合、処理はステップS50に進む。
また、ステップS48において第2の認識処理が成功していないと判定された場合、すなわち、ステップS41において最初に取得した、画質パラメータを変更していない画像から手が認識されたが、人は認識することができなかった場合にも、処理はステップS50に進む。
ステップS50において、出力部66は、認識成功を出力する。例えば、出力部66は、アプリケーション実行部67に認識成功を出力する。
アプリケーション実行部67は、出力部66から認識成功が通知されたとき、所定のアプリケーションを実行する。例えば、アプリケーション実行部67により、ジェスチャ認識に基づくコマンドが実行される。
ステップS50の処理の後、図14の対象物認識処理は終了する。
このように、手と人とをそれぞれ認識する2つの認識器を用いることで、手を認識する認識器単体では認識が困難な画像でも、より確実に手を認識することができるようになる。
なお、図14の例では、第1認識部62が認識対象物として手を認識し、第2認識部63が認識対象物として人を認識するものとしたが、第1認識部62および第2認識部63の認識対象物は、これらに限られない。
[対象物認識処理2]
本実施の形態の対象物認識処理の他の例として、第1認識部62が認識対象物として顔を認識し、第2認識部63が認識対象物として人を認識する場合の例を図14と図20を参照して説明する。なお、図14と図15を参照して説明した例と同様の処理は繰り返しになるので簡単に説明する。
図14のステップS41において、取得部61は、図20Aの画像を取得する。図20Aの画像は、ピントがぼけている画像の例を示す図である。
ステップS42において、第1認識部62は、取得した図20Aの画像に対して第1の認識処理、すなわち顔を認識する処理を行う。しかし、図20Aの画像は、ピントがぼけているため顔153−15を認識することが困難である。
ステップS43において、判定部64は、第1の認識処理、すなわち顔153−15の認識に成功したか判定する。図20Aの画像では、顔153−15を認識することができないので、ステップS43において第1の認識処理が失敗したと判定され、処理はステップS44に進む。
ステップS44において、第2認識部63は、取得した図20Aの画像に対して第2の認識処理、すなわち人を認識する処理を行う。図20Aの画像は、ピントがぼけているが、人151−15の画像は認識に充分な画像となっている。
ステップS44の第2の認識処理が実行され、人151−15が認識されると、図20Bに示すように、人認識枠161−15が設定され、表示される。
ステップS45において、判定部64は、第2の認識処理が成功したかを判定する。図20Aの画像が認識される場合、ステップS45において第2の認識処理が成功したと判定され、処理はステップS46に進む。
ステップS46において、取得部61は、新たな画質パラメータを取得する。図20の例の場合、画質パラメータとしてフォーカス位置と先鋭度値とが記憶されており、フォーカス位置と先鋭度値との設定値の組み合わせから新たな設定値を取得する。
ステップS47において、制御部65は、現在の画質パラメータを、ステップS46において取得された新たな画質パラメータに変更するように制御する。ステップS47の処理の後、処理はステップS41に戻る。
なお、ステップS43において第1の認識処理が成功したと判定されるまで、ステップS41乃至S47の処理が繰り返される。
ステップS41において、顔を認識するのに適切な画像を取得したとすると、ステップS42において、第1の認識処理が実行されることにより、図20Cの画像が出力される。ステップS42の処理で、顔153−16が認識されると、顔認識枠163−16が設定、表示される。
そして、ステップS43において、第1の認識処理が成功したと判定され、処理はステップS48に進む。ステップS48以降の処理は、図14乃至図19を参照して説明した例と同様であるので省略する。
なお、図20の例の場合、アプリケーション実行部67は、ステップS50の処理により認識成功が出力されると、顔をよりはっきり且つきれいに表示できるように、ピントや色を調整するアプリケーションを実行する。勿論、画質パラメータとして、ピントを変更するようにしてもよい。
[姿勢認識部の構成]
条件が満足されているかの判定に人の姿勢を利用することができる。図21は、このような場合に、CPU41にさらに含まれる姿勢認識部201の詳細な構成例を示すブロック図である。
姿勢認識部201は、遅延画像取得部221、演算部222、信号強度検出部223、および検出結果出力部224から構成されている。
遅延画像取得部221は、RAM43に所定時間前に記憶された画像、または図示せぬ遅延回路を介して供給される所定時間前の画像を取得し、演算部222に供給する。
演算部222は、原画像と遅延画像の差分を演算し、演算結果を信号強度検出部223に供給する。信号強度検出部223は、信号強度が所定の値より高い領域を検出し、検出結果を検出結果出力部224に供給する。
検出結果出力部224は、検出結果を画像上に重畳して出力する。
[対象物認識処理3]
図22乃至図26を参照して、本実施の形態の対象物認識処理のさらに他の例を示す。図22においてステップS61乃至S68,S70,S71の処理は、図14のステップS41乃至S50の処理に対応する処理であり、これらの処理は繰り返しになるので簡単に説明する。
図22の例では、第1認識部62が認識対象物として手を認識し、第2認識部63が認識対象物として顔を認識する場合の例を示している。
ステップS61において、取得部61は、図23Aの画像を取得する。図23Aの画像は、カメラ46Aの近くに人151−21がいるか、またはカメラ46Aのズーム率のパラメータが広角に設定されているため、手152−21がカメラの画角におさまりきらない画像の例である。
ステップS62において、第1認識部62は、取得した図23Aの画像に対して第1の認識処理、すなわち手152−21を認識する処理を行う。しかし、図23Aの画像は、手152−21が一部しか表示されておらず、手152−21は認識することができない。
ステップS63において、判定部64は、第1の認識処理、すなわち手152−21の認識に成功したか判定する。図23Aの画像では、手152−21を認識することができないので、ステップS63において第1の認識処理が失敗したと判定され、処理はステップS64に進む。
ステップS64において、第2認識部63は、取得した図23Aの画像に対して第2の認識処理、すなわち顔153−21を認識する処理を行う。図23Aの画像は、顔153−21がはっきり表示されている。
ステップS64の第2の認識処理が実行され、顔153−21が認識されると、図23Bに示すように、顔認識枠163−21が設定、表示される。
ステップS65において、判定部64は、第2の認識処理が成功したかを判定する。この場合、ステップS65において第2の認識処理が成功したと判定され、処理はステップS66に進む。
ステップS66において、取得部61は、新たな画質パラメータを取得する。図23の例の場合、画質パラメータとしてズーム率が記憶されており、記憶されているズーム率の設定値から新たな設定値が取得される。
ステップS67において、制御部65は、現在の画質パラメータを、ステップS66において取得された新たな画質パラメータに変更するように制御する。ステップS67の処理の後、処理はステップS61に戻る。
以上のようにして、ステップS63において第1の認識処理が成功したと判定されるまで、ステップS61乃至S67の処理が繰り返される。
ステップS61において、手を認識するのに適切な画像が取得されたとすると、ステップS62において、第1の認識処理が実行されることにより、図23Cの画像に示すように、手152−22の周りに、手認識枠162−22が設定、表示される。
そして、ステップS63において、第1の認識処理が成功したと判定され、処理はステップS68に進む。
ステップS68において、判定部64は、第2の認識処理が成功したかを判定する。図23の例の場合、ステップS68において第2の認識処理が成功したと判定され、すなわち、手と顔が認識されたと判定され、処理はステップS69に進む。
ステップS69において、姿勢認識部201は、姿勢認識処理を実行する。図24を参照して姿勢認識処理について説明する。
[姿勢認識処理]
図24は、姿勢認識処理の例を説明するフローチャートである。
ステップS81において、遅延画像取得部221は、遅延画像を取得する。原画像の所定時間前の画像である遅延画像は、随時RAM43に記憶されている。
ステップS82において、演算部222は、原画像と遅延画像の差分を演算する。ステップS83において、信号強度検出部223は、差分が演算された画像から信号強度が高い領域を検出する。つまり、差分の値の絶対値が大きい領域が検出される。
例えば、ユーザが手を動かしたとすると、ユーザの動作前の手および腕の位置と、動作後の手および腕の位置の領域が検出される。
ステップS84において、検出結果出力部224は、信号強度検出部223により検出された領域を原画像上に重畳して出力する。検出された領域を原画像上に重畳して出力する例を図23Cを参照して説明する。
図23Cの画像には、姿勢164−1と姿勢164−2が設定され、出力されている。姿勢164−1は、ユーザの動作前、すなわち遅延画像におけるユーザの手および腕の位置を示している。姿勢164−2は、ユーザの動作後、すなわち原画像におけるユーザの手および腕の位置を示している。
図24のステップS84の処理の後、処理は図22のステップS70に進む。ステップS70において、判定部64は、条件を満足するかを判定する。図25と図26を参照して、手認識枠162と姿勢164の相対的な距離の関係と相対的な角度の関係の条件について説明する。
図25は、手と腕の相対的な距離の関係と相対的な角度の関係の条件の例を説明する図である。
まず、相対的な距離の関係の条件ついて説明する。相対的な距離は、例えば、手認識枠162の4つの辺のうち姿勢164の先端に最も近い辺の中点の座標と、手認識枠162に最も近い姿勢164の先端の座標との間の距離dを演算して算出される。距離dは、式(16)を用いて算出される。
Figure 2012113460
dxは、手認識枠162の所定の辺の中点Pmのx座標と、姿勢164の先端Pf(この場合、腕の先端)のx座標の差により算出される。同様にdyは、手認識枠162の所定の辺の中点Pmのy座標と、姿勢164の先端Pfのy座標の差により算出される。
そして判定部64は、次式が満足されるかを判定する。すなわち距離dが、予め設定された値d1とd2の範囲内にあるかが判定される。
Figure 2012113460
また、他の例として、距離dに関する平均値μdと分散σ が与えられることで定義される正規分布を考えたときの、分散σ の値が閾値e0以上となる所定の範囲が規定される。
そして、判定部64は、次式が満足されるかを判定する。すなわち、検出された距離dが平均μdから所定の範囲内にあるかが判定される。
Figure 2012113460
次に、相対的な角度の関係の条件ついて説明する。相対的な角度は、手認識枠162の所定の辺と平行な平行線191と姿勢164との間にできる角度dθにより表わされる。
平行線191に対応する辺としては、手認識枠162の辺のうち、角度dθがより小さくなる辺が選択される。図25の例においては、鉛直方向に近い辺が選択されている。
角度dθに関する平均値μθと分散σθ が与えられることで定義される正規分布を考えたときの、分散σθ の値が閾値f0以上となる所定の範囲が規定される。
そして、判定部64は、次式が満足されるかを判定する。すなわち、検出された角度dθが平均μθから所定の範囲内にあるかが判定される。
Figure 2012113460
なお、条件として相対的な位置距離と相対的な角度の関係との2つの条件について説明したが、この2つの条件を組み合わせて判断してもよい。
例えば、式(18)と式(19)とを組み合わせて、判定部64は、次式を満足するかが判定される。
Figure 2012113460
図26は、相対的な距離の判定結果の例を示す図である。
図26Aは、相対的な距離の関係の条件を満足する例を示す図である。手認識枠162−31と姿勢164−31は接触しており、距離d=0となる。従って、手認識枠162−31と姿勢164−31との距離は、予め設定された範囲内にあるので、判定部64は、相対的な大きさの関係の条件を満足すると判定する。
図26Bは、相対的な距離の関係の条件を満足しない例を示す図である。図26Bに示すように、手認識枠162−32の4つの辺のうち姿勢164−32の先端に最も近い辺の中点の座標と、手認識枠162−32に最も近い姿勢164−32の先端の座標との間の距離dは、d’となっている。
手認識枠162−32と姿勢164−32との距離dが、予め設定された範囲外であるとすると、手の認識結果は誤認識の可能性が高いので、判定部64は、相対的な距離の関係の条件を満足しないと判定する。
これにより、図26Bに示すように、顔認識枠163−32に対する手認識枠162−32の相対位置が、検出領域181−11内であり、相対位置の関係の条件を満足していても、手認識枠162−32と姿勢164−32との相対位置の関係の条件を満足していないので、判定部64は、条件を満足していないと判定する。
このように、図14の対象物認識処理に対して、さらに姿勢認識(例えば、腕)の認識結果を使用して対象物(例えば、手)を認識できたかを判定するので、より確実に対象物を認識することができるようになる。
図22に戻り、ステップS70において条件を満足していないと判定された場合、処理はステップS66に進む。
ステップS70において条件を満足すると判定された場合、処理はステップS71に進む。ステップS71において、出力部66は、認識成功を出力する。ステップS71の処理の後、図22の対象物認識処理は終了する。
[テレビジョン受像機制御システムの構成]
次に図27を参照して、本実施の形態におけるテレビジョン受像機制御システム301について説明する。図27は、本発明を適用したテレビジョン受像機制御システム301の構成例を示すブロック図である。
情報処理装置としてのテレビジョン受像機制御システム301は、例えば、図14と図15を参照して上述した対象物認識処理1と同様の処理を実行する。テレビジョン受像機制御システム301は、カメラ321、制御装置322、画像表示装置323、およびRAM324から構成されている。
カメラ321は、設定された画質パラメータに基づく画像を取得する。またカメラ321は、画像表示装置323を見るユーザを撮影できる位置に配置されている。
画像表示装置323は、地上デジタル放送、BS放送、およびCS放送などの画像の他、必要に応じてカメラ321により取得された画像を表示する。
RAM324は、制御装置322において各種の処理を実行するのに必要なデータ、プログラム等を記憶する。
制御装置322において、カメラ制御エンジン341、人認識エンジン342、手認識エンジン343、認識結果判定エンジン344、ジェスチャ認識エンジン345、テレビジョン受像機メインエンジン(以下、TVメインエンジンと称する)346、および制御用CPU348は、画像信号用バス347およびバス349により相互に接続されている。
カメラ制御エンジン341は、カメラ321から画像を取得する。また、カメラ制御エンジン341は、画像が上述した画質パラメータの設定値に基づく画像になるようにカメラを制御する。
人認識エンジン342は、画像信号用バス347を介してカメラ制御エンジン341から取得した画像から認識対象物として人を認識する。具体的には、人認識エンジン342の処理は、対象物認識処理1における第2認識部63の処理と同様の処理を行う。
手認識エンジン343は、画像信号用バス347を介してカメラ制御エンジン341から取得した画像から認識対象物として手を認識する。具体的には、手認識エンジン343の処理は、対象物認識処理1における第1認識部62の処理と同様の処理を行う。
認識結果判定エンジン344は、画像信号用バス347またはバス349を介して取得した人認識エンジン342および手認識エンジン343の認識結果に基づいて、対象物を認識できたかを判定し、判定結果を出力する。具体的には、認識結果判定エンジン344は、図14のステップS43,S45,S48,S49,S50の処理と同様の処理を実行する。
ジェスチャ認識エンジン345は、画像信号用バス347を介して取得した人認識エンジン342または手認識エンジン343の認識結果から、人または手のジェスチャの種類を認識する。
TVメインエンジン346は、バス349を介して取得したジェスチャ認識エンジン345のジェスチャの認識結果、または制御用CPU348からの指示に基づいて、画像表示装置323への画像の出力を制御する。
制御用CPU348は、カメラ制御エンジン341、人認識エンジン342、手認識エンジン343、認識結果判定エンジン344、ジェスチャ認識エンジン345、およびTVメインエンジン346の動作を、バス349を介して制御する。
これにより、テレビジョン受像機制御システム301は、ユーザの手の動きのジェスチャの画像をカメラ321により取得し、そのジェスチャの種類を認識するので、ユーザがリモートコントローラなどを使用しないで、チャネルの切り替えなどの操作をすることができる。その動作は上述した場合と同様なので、その説明は省略する。
[デジタルカメラ制御システムの構成]
次に図28を参照して、本実施の形態におけるデジタルカメラ制御システム401について説明する。図28は、本発明を適用したデジタルカメラ制御システム401の構成例を示すブロック図である。
情報処理装置としてのデジタルカメラ制御システム401は、例えば、図14と図20を参照して上述した対象物認識処理2と同様の処理を実行する。デジタルカメラ制御システム401は、カメラ421、制御装置422、画像表示装置423、RAM424、および記録メディア425から構成されている。
カメラ421は、画像を取得する。画像表示装置423は、カメラ421により取得された画像、または画像処理を施した画像を表示する。
RAM424は、制御装置422において各種の処理を実行するのに必要なデータ、プログラム等を記録する。記録メディア425は、制御装置422により制御され、カメラ421により撮影された画像、その他の情報を記憶する。
制御装置422において、カメラ信号処理エンジン441、人認識エンジン442、顔認識エンジン443、認識結果判定エンジン444、画像先鋭度調整エンジン445、JPEG(Joint Photographic Experts Group)エンジン446、画像表示用エンジン447、および制御用CPU449は、画像信号用バス448およびバス452により相互に接続されている。
また、制御用CPU449と外部メディアコントローラ451は、データバス450を介して相互に接続されている。データバス450は、画像信号用バス448にも接続されている。
カメラ信号処理エンジン441は、カメラ421により取得されたアナログデータの画像をデジタルデータの画像に変換して取得する。
人認識エンジン442は、画像信号用バス448を介してカメラ信号処理エンジン441から取得した画像から認識対象物として人を認識する。具体的には、人認識エンジン442の処理は、上述した対象物認識処理2における第2認識部63の処理と同様である。
顔認識エンジン443は、画像信号用バス448を介してカメラ信号処理エンジン441から取得した画像から認識対象物として顔を認識する。具体的には、顔認識エンジン443の処理は、上述した対象物認識処理2における第1認識部62の処理と同様である。
認識結果判定エンジン444は、画像信号用バス448またはバス452を介して取得した人認識エンジン442および顔認識エンジン443の認識結果に基づいて、対象物を認識できたかを判定し、判定結果を出力する。具体的には、図14のステップS43,S45,S48,S49,S50の処理と同様の処理を実行する。
画像先鋭度調整エンジン445は、画像信号用バス448を介して取得したカメラ信号処理エンジン441の画像の先鋭度を調整する画像処理を行う。
JPEGエンジン446は、画像信号用バス448を介して取得したカメラ信号処理エンジン441または画像先鋭度調整エンジン445の画像に対してJPEGの規格に基づく圧縮、伸張処理を行う。
画像表示用エンジン447は、画像信号用バス448を介して取得した各種画像を画像表示装置423に出力し、表示させる。
制御用CPU449は、カメラ信号処理エンジン441、人認識エンジン442、顔認識エンジン443、認識結果判定エンジン444、画像先鋭度調整エンジン445、JPEGエンジン446、および画像表示用エンジン447の動作を、バス452を介して制御する。
外部メディアコントローラ451は、記録メディア425を制御して、カメラ421により撮影された画像データを記憶させたり、記憶された画像データを読み出し、画像表示装置423に表示させる。
これにより、デジタルカメラ制御システム401は、カメラ421により取得された画像からユーザの顔などを認識し、認識された顔の領域の先鋭度を向上させ、記録メディア425に記録させるので、ユーザがより好適な画像を撮像し、記録再生することができる。この場合の動作も上述した場合と同様なので、その説明は省略する。
以上においては、認識対象を人およびその部位としたが、その他の物体を認識対象物とすることもできる。例えば、自動車を認識する情報処理装置において、「ボディ認識」、「タイヤ認識」、および「ナンバープレート認識」などを組み合わせて同様の認識処理を実行することが可能である。
[その他]
本明細書において、プログラムのステップは、その順序に沿って時系列的に行われる処理はもちろん、必ずしも時系列的に処理されなくとも、並列的あるいは個別に実行される処理をも含むものである。
本発明の実施の形態は、上述した実施形態に限定されるものではなく、本発明の要旨を逸脱しない範囲において種々の変更が可能である。
21 コンピュータ, 61 取得部, 62 第1認識部, 63 第2認識部, 64 判定部, 65 制御部

Claims (7)

  1. 画像および画質パラメータを取得する取得手段と、
    前記画像から第1の対象物を認識する第1の認識手段と、
    前記画像から第2の対象物を認識する第2の認識手段と、
    前記第1の対象物と前記第2の対象物の認識に成功したかをそれぞれ判定する判定手段と、
    前記画像を前記画質パラメータに基づく画像に変更するように制御する制御手段と
    を備え、
    前記取得手段は、前記判定手段により前記第1の対象物の認識に失敗したと判定されるとともに、前記第2の対象物の認識に成功したと判定される場合、新たな前記画質パラメータを取得し、
    前記第1の認識手段は、新たな前記画質パラメータに基づき変更された前記画像から前記第1の対象物を認識する
    情報処理装置。
  2. 前記判定手段は、前記第1の対象物と前記第2の対象物との相対的な位置および相対的な大きさのうちの少なくとも一方が、予め設定された所定の条件を満足するかを判定する
    請求項1に記載の情報処理装置。
  3. 前記第1の対象物は、人、顔、および手のうちのいずれか1つであり、
    前記第2の対象物は、前記人、前記顔、および前記手のうちの前記第1の対象物とは異なるいずれか1つである
    請求項2に記載の情報処理装置。
  4. 前記人の姿勢を認識する姿勢認識手段をさらに備え、
    前記判定手段は、前記第1の対象物と前記姿勢認識手段により認識された前記姿勢の相対距離および相対角度のうち少なくとも一方が予め設定された所定の条件を満足するかを判定する
    請求項3に記載の情報処理装置。
  5. 前記第1の対象物は、自動車のボディ、タイヤ、およびナンバープレートのうちのいずれか1つであり、
    前記第2の対象物は、前記自動車の前記ボディ、前記タイヤ、および前記ナンバープレートのうち前記第1の対象物とは異なるのいずれか1つである
    請求項2に記載の情報処理装置。
  6. 画像および画質パラメータを取得する取得ステップと、
    前記画像から第1の対象物を認識する第1の認識ステップと、
    前記画像から第2の対象物を認識する第2の認識ステップと、
    前記第1の対象物と前記第2の対象物の認識に成功したかをそれぞれ判定する判定ステップと、
    前記画像を前記画質パラメータに基づく画像に変更するように制御する制御ステップと
    を含み、
    前記取得ステップの処理は、前記判定ステップの処理により前記第1の対象物の認識に失敗したと判定されるとともに、前記第2の対象物の認識に成功したと判定される場合、新たな前記画質パラメータを取得し、
    前記第1の認識ステップの処理は、新たな前記画質パラメータに基づき変更された前記画像から前記第1の対象物を認識する
    情報処理方法。
  7. コンピュータに、
    画像および画質パラメータを取得する取得ステップと、
    前記画像から第1の対象物を認識する第1の認識ステップと、
    前記画像から第2の対象物を認識する第2の認識ステップと、
    前記第1の対象物と前記第2の対象物の認識に成功したかをそれぞれ判定する判定ステップと、
    前記画像を前記画質パラメータに基づく画像に変更するように制御する制御ステップと
    を実行させるためのプログラムであって、
    前記取得ステップの処理は、前記判定ステップの処理により前記第1の対象物の認識に失敗したと判定されるとともに、前記第2の対象物の認識に成功したと判定される場合、新たな前記画質パラメータを取得し、
    前記第1の認識ステップの処理は、新たな前記画質パラメータに基づき変更された前記画像から前記第1の対象物を認識する
    プログラム。
JP2010260869A 2010-11-24 2010-11-24 情報処理装置および方法、並びにプログラム Pending JP2012113460A (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2010260869A JP2012113460A (ja) 2010-11-24 2010-11-24 情報処理装置および方法、並びにプログラム
CN2011103654615A CN102592127A (zh) 2010-11-24 2011-11-17 信息处理设备、信息处理方法和计算机程序产品
US13/299,035 US9007481B2 (en) 2010-11-24 2011-11-17 Information processing device and method for recognition of target objects within an image

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010260869A JP2012113460A (ja) 2010-11-24 2010-11-24 情報処理装置および方法、並びにプログラム

Publications (2)

Publication Number Publication Date
JP2012113460A true JP2012113460A (ja) 2012-06-14
JP2012113460A5 JP2012113460A5 (ja) 2013-12-19

Family

ID=46480739

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010260869A Pending JP2012113460A (ja) 2010-11-24 2010-11-24 情報処理装置および方法、並びにプログラム

Country Status (3)

Country Link
US (1) US9007481B2 (ja)
JP (1) JP2012113460A (ja)
CN (1) CN102592127A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015069396A (ja) * 2013-09-30 2015-04-13 富士通株式会社 プログラム、情報処理装置、および方法
US10733477B2 (en) 2016-11-28 2020-08-04 Canon Kabushiki Kaisha Image recognition apparatus, image recognition method, and program
WO2023276853A1 (ja) * 2021-07-02 2023-01-05 株式会社日立ハイテク 画像処理装置、方法及び画像処理システム

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150199592A1 (en) * 2014-01-14 2015-07-16 Microsoft Corporation Contour-based classification of objects
JP6550643B2 (ja) * 2014-03-14 2019-07-31 本田技研工業株式会社 動作推定装置、ロボット、及び動作推定方法
US9269159B2 (en) * 2014-06-05 2016-02-23 Promethean Limited Systems and methods for tracking object association over time
US9524418B2 (en) 2014-06-05 2016-12-20 Promethean Limited Systems and methods for detecting, identifying and tracking objects and events over time
TWI549069B (zh) * 2014-12-15 2016-09-11 Sheng Hui Meng Method and device for passenger barge
US10477647B2 (en) * 2015-05-01 2019-11-12 Hubbell Incorporated Adaptive visual intelligence outdoor motion/occupancy and luminance detection system
US10609324B2 (en) * 2016-07-18 2020-03-31 Snap Inc. Real time painting of a video stream
WO2018042923A1 (ja) * 2016-08-31 2018-03-08 ソニー株式会社 情報処理システム、情報処理方法、およびプログラム
CN108903913B (zh) * 2018-05-31 2020-12-01 中南大学湘雅医院 皮瓣移植术后护理监控设备、***、方法、产品及服务器
JP7283037B2 (ja) * 2018-07-26 2023-05-30 ソニーグループ株式会社 情報処理装置、情報処理方法、およびプログラム
CN114820993A (zh) * 2021-01-29 2022-07-29 伊姆西Ip控股有限责任公司 用于处理图像的方法、电子设备和计算机程序产品

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003162796A (ja) * 2001-11-28 2003-06-06 Mitsubishi Heavy Ind Ltd 車両監視方法及びシステム
JP2007333690A (ja) * 2006-06-19 2007-12-27 Sony Corp モーションキャプチャ装置及びモーションキャプチャ方法、並びにモーションキャプチャプログラム
JP2010199903A (ja) * 2009-02-25 2010-09-09 Casio Computer Co Ltd 撮像装置、及び顔領域特定方法とプログラム

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3812093B2 (ja) 1997-10-27 2006-08-23 ソニー株式会社 姿勢検出装置及び方法
DE602004006190T8 (de) * 2003-03-31 2008-04-10 Honda Motor Co., Ltd. Vorrichtung, Verfahren und Programm zur Gestenerkennung
US8064647B2 (en) * 2006-03-03 2011-11-22 Honeywell International Inc. System for iris detection tracking and recognition at a distance
JP2006135837A (ja) * 2004-11-09 2006-05-25 Nec Access Technica Ltd テレビ電話
JP2009521134A (ja) * 2005-12-22 2009-05-28 オリンパス株式会社 シーン認識撮影システム及びシーン認識撮影方法
JP4849988B2 (ja) * 2006-07-31 2012-01-11 三洋電機株式会社 撮像装置及び出力画像生成方法
CN101068314A (zh) * 2006-09-29 2007-11-07 腾讯科技(深圳)有限公司 一种网络视频秀方法及***
CN100531373C (zh) * 2007-06-05 2009-08-19 西安理工大学 基于双摄像头联动结构的视频运动目标特写跟踪监视方法
JP4929109B2 (ja) * 2007-09-25 2012-05-09 株式会社東芝 ジェスチャ認識装置及びその方法
JP5115139B2 (ja) * 2007-10-17 2013-01-09 ソニー株式会社 構図判定装置、構図判定方法、プログラム
JP2010108475A (ja) 2008-10-03 2010-05-13 Sony Corp 画像処理装置および方法、プログラム、並びに記録媒体
CN101540890A (zh) * 2009-04-28 2009-09-23 南京航空航天大学 一种获得监控视频中运动人体清晰人脸图像的方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003162796A (ja) * 2001-11-28 2003-06-06 Mitsubishi Heavy Ind Ltd 車両監視方法及びシステム
JP2007333690A (ja) * 2006-06-19 2007-12-27 Sony Corp モーションキャプチャ装置及びモーションキャプチャ方法、並びにモーションキャプチャプログラム
JP2010199903A (ja) * 2009-02-25 2010-09-09 Casio Computer Co Ltd 撮像装置、及び顔領域特定方法とプログラム

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015069396A (ja) * 2013-09-30 2015-04-13 富士通株式会社 プログラム、情報処理装置、および方法
US10733477B2 (en) 2016-11-28 2020-08-04 Canon Kabushiki Kaisha Image recognition apparatus, image recognition method, and program
WO2023276853A1 (ja) * 2021-07-02 2023-01-05 株式会社日立ハイテク 画像処理装置、方法及び画像処理システム

Also Published As

Publication number Publication date
US9007481B2 (en) 2015-04-14
US20120194697A1 (en) 2012-08-02
CN102592127A (zh) 2012-07-18

Similar Documents

Publication Publication Date Title
JP2012113460A (ja) 情報処理装置および方法、並びにプログラム
CN110147721B (zh) 一种三维人脸识别方法、模型训练方法和装置
CN107292242B (zh) 一种虹膜识别方法和终端
CN102087703B (zh) 确定正面的脸部姿态的方法
US8879847B2 (en) Image processing device, method of controlling image processing device, and program for enabling computer to execute same method
US9626553B2 (en) Object identification apparatus and object identification method
KR100730500B1 (ko) 화상 처리 장치와 화상 처리 방법 및 기록 매체
JP5075757B2 (ja) 画像処理装置、画像処理プログラム、画像処理方法、および電子機器
US20170228867A1 (en) Method and system of image segmentation refinement for image processing
JP2018084982A (ja) 画像処理装置、情報処理方法及びプログラム
US20070189584A1 (en) Specific expression face detection method, and imaging control method, apparatus and program
US8577099B2 (en) Method, apparatus, and program for detecting facial characteristic points
US11508038B2 (en) Image processing method, storage medium, image processing apparatus, learned model manufacturing method, and image processing system
MX2012010602A (es) Aparato para el reconocimiento de la cara y metodo para el reconocimiento de la cara.
US11120536B2 (en) Apparatus and method for determining image sharpness
US20060133672A1 (en) Image processing method, image processing apparatus, and computer readable medium, in which an image processing program is recorded
JP6577703B2 (ja) 画像処理装置及び画像処理方法、プログラム、記憶媒体
KR20190053602A (ko) 얼굴 인증 방법 및 장치
KR20170056860A (ko) 이미지 생성 방법 및 장치
WO2010116885A1 (ja) データ処理装置、画像照合方法、プログラムおよび画像照合システム
CN111598065B (zh) 深度图像获取方法及活体识别方法、设备、电路和介质
JP2009015614A (ja) 画像処理装置及び画像処理方法、並びにコンピュータ・プログラム
US20170148137A1 (en) Image data processing apparatus and method
US9600871B2 (en) Image correcting apparatus, image correcting method and computer readable recording medium recording program thereon
US11647152B2 (en) Image processing apparatus, image processing method, and non-transitory computer-readable storage medium

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20131106

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20131106

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20140710

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140715

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140908

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20150127

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20151001