JP2013164834A - 画像処理装置および方法、並びにプログラム - Google Patents

画像処理装置および方法、並びにプログラム Download PDF

Info

Publication number
JP2013164834A
JP2013164834A JP2012265234A JP2012265234A JP2013164834A JP 2013164834 A JP2013164834 A JP 2013164834A JP 2012265234 A JP2012265234 A JP 2012265234A JP 2012265234 A JP2012265234 A JP 2012265234A JP 2013164834 A JP2013164834 A JP 2013164834A
Authority
JP
Japan
Prior art keywords
unit
image
gesture
recognition
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2012265234A
Other languages
English (en)
Inventor
Yukinori Maeda
幸徳 前田
Jun Yokono
順 横野
Katsuki Minamino
活樹 南野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP2012265234A priority Critical patent/JP2013164834A/ja
Priority to US13/734,010 priority patent/US9165181B2/en
Priority to CN2013100038150A priority patent/CN103207985A/zh
Publication of JP2013164834A publication Critical patent/JP2013164834A/ja
Priority to US14/887,209 priority patent/US9940507B2/en
Priority to US15/939,682 priority patent/US10565437B2/en
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/002Specific input/output arrangements not covered by G06F3/01 - G06F3/16
    • G06F3/005Input arrangements through a video camera
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/017Gesture based interaction, e.g. based on a set of recognized hand gestures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/254Analysis of motion involving subtraction of images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/60Analysis of geometric attributes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • G06T7/74Determining position or orientation of objects or cameras using feature-based methods involving reference images or patches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06V40/28Recognition of hand or arm movements, e.g. recognition of deaf sign language
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20076Probabilistic image processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person
    • G06T2207/30201Face

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Human Computer Interaction (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Data Mining & Analysis (AREA)
  • Geometry (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Image Analysis (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

【課題】より高精度にジェスチャを認識できるようにする。
【解決手段】撮影部は、ユーザを被写体として撮影し、手形状認識部はユーザを撮影して得られた撮影画像から特定形状の手を認識する。画像処理部は、手形状認識の結果に基づいて撮影画像の切り出し領域を決定するとともに、撮影画像の切り出し領域の画像を切り出して切り出し画像とし、切り出し画像のフレーム間差分を求めることで差分画像を生成する。また、画像処理部は差分画像から特徴量を抽出し、ジェスチャ認識部は、差分画像から抽出された特徴量に基づいて、ジェスチャ認識を行なう。このように、差分画像から得られた特徴量を用いてジェスチャ認識を行なうことで、より高精度にジェスチャを認識することができる。本技術は、画像処理装置に適用することができる。
【選択図】図2

Description

本技術は画像処理装置および方法、並びにプログラムに関し、特に、より高精度にジェスチャを認識できるようにした画像処理装置および方法、並びにプログラムに関する。
従来、ユーザが手などを動かして特定のジェスチャを行なった場合に、そのジェスチャを認識するジェスチャ認識が知られている。
例えば、ジェスチャ認識では、ユーザの手の位置の情報を時系列に並べることで手の軌跡が求められ、この軌跡と、予め登録された手の軌跡とが比較されて、ジェスチャが行なわれたかが判定される。
また、ユーザの手の動きの方向を観測信号と捉え、いくつかの観測信号の列に基づいてジェスチャ認識を行なう技術も提案されている(例えば、特許文献1参照)。
特開2007−87089号公報
しかしながら、上述した技術では、高精度にユーザによるジェスチャを認識することができなかった。
そのため、認識対象となるジェスチャは、ある程度広い範囲でユーザが大きく手を動かすなど、確実にユーザの手の軌跡を認識できるものである必要があった。このような大きなジェスチャは、ユーザに対する負担が大きく、ジェスチャ認識を利用したアプリケーションプログラム等の使い勝手が悪くなってしまう。
本技術は、このような状況に鑑みてなされたものであり、より高精度にジェスチャを認識することができるようにするものである。
本技術の一側面の画像処理装置は、撮影画像上の所定領域を切り出して得られた切り出し画像のフレーム間差分を求めることで、差分画像を生成する差分画像生成部と、前記差分画像から特徴量を抽出する特徴量抽出部と、時系列に並ぶ複数の前記差分画像から得られた前記特徴量に基づいて、前記撮影画像上の対象物の特定の動きを認識する認識部とを備える。
前記認識部には、前記対象物の特定の動きとして、ユーザの手によるジェスチャを認識させることができる。
画像処理装置には、前記撮影画像から前記ユーザの手を検出する手検出部と、検出された前記ユーザの手の前記撮影画像上の位置に基づいて、前記所定領域を決定する切り出し領域決定部とをさらに設けることができる。
前記切り出し領域決定部には、連続する複数フレームの前記撮影画像について、検出された前記ユーザの手が前記撮影画像上の一定範囲内に位置している場合、前記ユーザの手の位置に基づいて、前記所定領域を決定させることができる。
画像処理装置には、前記撮影画像上の各領域のフレーム間差分を求めることにより、前記所定領域を決定する切り出し領域決定部をさらに設けることができる。
前記所定領域を、前記撮影画像上の予め定められた領域とすることができる。
画像処理装置には、前記撮影画像上で、複数の前記所定領域が配置される認識領域を設定する領域設定部をさらに設け、前記差分画像生成部には、前記認識領域内に配置された前記所定領域毎の前記差分画像を生成させ、前記特徴量抽出部には、前記所定領域毎の前記差分画像から前記特徴量を抽出させ、前記認識部には、前記所定領域毎の、時系列に並ぶ複数の前記差分画像から得られた前記特徴量に基づいて、前記ユーザのジェスチャを認識させることができる。
画像処理装置には、前記所定領域それぞれの大きさを決定し、前記認識領域内に配置する切り出し領域決定部をさらに設けることができる。
画像処理装置には、前記撮影画像から前記ユーザの体の一部を検出する検出部をさらに設け、前記領域設定部には、検出された前記ユーザの体の一部の撮影画像上の位置に基づいて、前記認識領域を設定させることができる。
前記切り出し領域決定部には、検出された前記ユーザの体の一部の大きさに基づいて、前記所定領域それぞれの大きさを決定させることができる。
前記検出部には、前記撮影画像から前記ユーザの顔を検出させることができる。
前記検出部には、前記撮影画像から前記ユーザの手を検出させることができる。
画像処理装置には、前記認識領域内の動きベクトルの大きさに基づいて、前記認識領域における動きを判別する動き判別部をさらに設け、前記認識部には、前記動き判別部による判別結果に応じて、前記ユーザのジェスチャを認識させることができる。
画像処理装置には、前記撮影画像上の前記ユーザと、前記所定領域の位置を示す画像とを表示部に表示させる表示制御部をさらに設けることができる。
画像処理装置には、前記ユーザのジェスチャが認識された場合、認識されたジェスチャに応じた処理を実行させる動作処理部をさらに設けることができる。
前記表示制御部には、前記所定領域の位置を示す前記画像を複数前記表示部に表示させ、前記動作処理部には、複数の前記所定領域のうちの前記ユーザのジェスチャが認識された前記所定領域と、認識されたジェスチャとにより定まる処理を実行させるようにすることができる。
前記表示制御部には、ジェスチャ認識が行なわれている旨の表示、または前記ユーザのジェスチャが認識された旨の表示を前記表示部に行なわせることができる。
前記特徴量抽出部には、前記差分画像を複数のブロックに分割させ、前記ブロック内の画素の平均輝度を前記ブロックの前記特徴量として抽出させることができる。
本技術の一側面の画像処理方法またはプログラムは、撮影画像上の所定領域を切り出して得られた切り出し画像のフレーム間差分を求めることで、差分画像を生成し、前記差分画像から特徴量を抽出し、時系列に並ぶ複数の前記差分画像から得られた前記特徴量に基づいて、前記撮影画像上の対象物の特定の動きを認識するステップを含む。
本技術の一側面においては、撮影画像上の所定領域を切り出して得られた切り出し画像のフレーム間差分を求めることで、差分画像が生成され、前記差分画像から特徴量が抽出され、時系列に並ぶ複数の前記差分画像から得られた前記特徴量に基づいて、前記撮影画像上の対象物の特定の動きが認識される。
本技術の一側面によれば、より高精度にジェスチャを認識することができる。
本技術の概要を説明するための図である。 画像処理装置の構成例を示す図である。 ジェスチャ認識処理について説明するフローチャートである。 切り出し領域の位置の表示例を示す図である。 差分画像のブロック分割の一例を示す図である。 切り出し領域の位置の表示例を示す図である。 画像処理装置の他の構成例を示す図である。 ジェスチャ認識処理について説明するフローチャートである。 ボタンアイコンの表示例を示す図である。 切り出し領域の決定方法の例について説明する図である。 ジェスチャ認識システムの構成例を示す図である。 ジェスチャ認識システムの他の構成例を示す図である。 画像処理装置のさらに他の構成例を示す図である。 ジェスチャ認識処理について説明するフローチャートである。 切り出し領域の表示例を示す図である。 認識領域の表示例を示す図である。 ジェスチャ認識部の処理について説明する図である。 ジェスチャ認識部の処理について説明する図である。 ジェスチャ認識部の処理について説明する図である。 ジェスチャ認識の処理結果の表示例を示す図である。 ジェスチャ認識の処理結果の表示例を示す図である。 ジェスチャ認識の処理結果の表示例を示す図である。 切り出し領域の表示例を示す図である。 切り出し領域の表示例を示す図である。 ボタンアイコンの表示例を示す図である。 画像処理装置のさらに他の構成例を示す図である。 ジェスチャ認識処理について説明するフローチャートである。 認識領域の設定方法の例を示す図である。 切り出し領域の決定方法の例を示す図である。 画像処理装置のさらに他の構成例を示す図である。 ジェスチャ認識処理について説明するフローチャートである。 認識領域の設定方法の例を示す図である。 切り出し領域の決定方法の例を示す図である。 画像処理装置のさらに他の構成例を示す図である。 画像処理装置のさらに他の構成例を示す図である。 ジェスチャ認識処理について説明するフローチャートである。 動き判別処理について説明するフローチャートである。 認識領域内の動きベクトルについて説明する図である。 認識領域内の動きベクトルについて説明する図である。 本技術のシステムへの適用例について説明する図である。 コンピュータの構成例を示す図である。
以下、図面を参照して、本技術を適用した実施の形態について説明する。
〈第1の実施の形態〉
[ジェスチャ認識の概要]
まず、本技術の概要について説明する。本技術は、連続して撮影された画像に基づいて、対象物体の特定の動きを認識するためのものである。より具体的には、本技術は、例えば撮影された画像に基づいて、予め定められたジェスチャを認識するためのものである。
例えば図1に示すように、ジェスチャ認識を行なうシステムには、ジェスチャを行なうユーザU11を撮影する撮影部11と、撮影されたユーザU11の画像等を表示する表示部12とが設けられている。
ユーザU11は、所定の処理を実行させたい場合などに、撮影部11に向かって、その処理の実行等を指示するジェスチャを行なう。すると、撮影部11により撮影されたユーザU11の画像の所定の領域(以下、切り出し領域とも称する)の画像が切り出され、その結果得られた切り出し画像のフレーム間差分が求められる。
ここで、切り出し領域は、例えば図中、左側に示すように画像上のユーザU11の手のひらを含む領域RE11などとされる。撮影部11により撮影された各フレームの画像について、画像上の領域RE11を切り出して切り出し画像とし、隣接するフレームの切り出し画像の差分を求めると、例えば図中、下側に示す差分画像DP11−1乃至差分画像DP11−4が得られる。
これらの差分画像DP11−1乃至差分画像DP11−4は、ユーザU11が手のひらを表示部12の方向に向けた状態から、手のひらを倒すジェスチャを行なったときに得られた差分画像であり、差分画像上の各位置の色の濃度は差分の大きさを示している。すなわち、色の濃度が薄い位置ほど隣接する画像同士の差分が大きく、画像上の被写体の動きが大きいことを示している。
また、この例では、差分画像DP11−1が最も古い時刻、つまり最も古いフレームの画像から得られた差分画像であり、時刻が古い順に差分画像DP11−1乃至差分画像DP11−4となっている。なお、以下、差分画像DP11−1乃至差分画像DP11−4を個々に区別する必要のない場合、単に差分画像DP11とも称する。
図1の例では、ユーザU11は手のひらを倒すジェスチャを行なうので、ユーザU11の指先の位置が図中、下方向へと移動するのにともなって、差分画像DP11上における差分の大きい領域も図中、下方向へと移動していく。
このようにして差分画像DP11が得られると、この差分画像DP11から特徴量が抽出され、得られた各時刻、つまり差分画像DP11の各フレームの特徴量に基づいて、ジェスチャ認識が行なわれる。そして、特定のジェスチャが認識された場合、その認識結果に応じた処理が実行される。
以上のように、ユーザを撮影して得られた画像を直接用いるのではなく、差分画像DP11から特徴量を抽出し、その特徴量を用いてジェスチャ認識を行なうことで、頑強(高精度)にユーザのジェスチャを認識することができる。
これにより、手を倒すなど、簡単で小さな動きのジェスチャでも認識することができるようになり、ユーザに行なわせるジェスチャを、小さく自然な動きによるものとすることができ、ユーザの負担を軽減させることができる。ユーザに対するジェスチャの負担が軽減されれば、ユーザは手先の動き程度の小さなジェスチャで、簡単に機器類等を操作することができるようになる。
本技術は、例えば大画面のサイネージ、パーソナルコンピュータ、テレビジョン受像機などの各種の機器に対して適用することが可能である。
例えば、本技術をサイネージに適用すれば、ユーザがジェスチャを行なうことで、そのジェスチャに応じてサイネージに店舗案内等を表示させたり、見出しから選択された項目についての詳細な情報を表示させたりすることが可能となる。
また、本技術をパーソナルコンピュータに適用すれば、ユーザがジェスチャを行なうことで、例えば音楽プレーヤによる楽曲の再生等の処理や、ピクチャビューアでの画像の再生等の処理など、各種の処理を実行させることが可能となる。この場合、ユーザの画像(ユーザによるジェスチャ)は、例えばパーソナルコンピュータに設けられたウェブカメラ等により取り込まれるようにすることができる。
さらに、本技術をテレビジョン受像機に適用すれば、ユーザがジェスチャを行なうことで、例えば番組のチャンネル選択や、テレビジョン受像機に接続されているレコーダなどの接続機器の選択を行なうことが可能となる。
[画像処理装置の構成例]
次に、本技術を適用した具体的な実施の形態について説明する。
図2は、本技術を適用した画像処理装置の一実施の形態の構成例を示す図である。なお、図2において、図1における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。
図2の画像処理装置41は、撮影部11、手形状辞書記録部51、手形状認識部52、画像処理部53、ジェスチャ辞書記録部54、ジェスチャ認識部55、動作処理部56、表示制御部57、および表示部12から構成される。
撮影部11は、カメラなどからなり、ユーザを被写体として撮影し、その結果得られた撮影画像を手形状認識部52および表示制御部57に供給する。
手形状辞書記録部51は、アダブーストなどの統計学習により得られた、予め定められた特定形状の手を認識するための手形状辞書を記録しており、必要に応じて手形状辞書を手形状認識部52に供給する。例えば手形状辞書の学習では、認識対象となる形状の手の画像を含む複数の学習用の画像が用いられ、この学習により手形状辞書として識別器などが得られる。
手形状認識部52は、手形状辞書記録部51から供給された手形状辞書に基づいて、撮影部11から供給された撮影画像から、特定の手形状を認識し、その認識結果と撮影画像を画像処理部53に供給する。
画像処理部53は、手形状認識部52から供給された手形状の認識結果と撮影画像に基づいて、ジェスチャ認識のための特徴量を抽出し、ジェスチャ認識部55に供給するとともに、必要に応じて切り出し領域等の情報を表示制御部57に供給する。
また、画像処理部53は、切り出し領域決定部71、差分算出部72、および特徴量抽出部73を備えている。
切り出し領域決定部71は、手形状の認識結果に基づいて撮影画像上の切り出し領域を決定し、撮影画像から切り出し領域の画像を切り出して、切り出し画像とする。差分算出部72は、隣接するフレームの切り出し画像の差分を求め、差分画像を生成する。特徴量抽出部73は、差分画像からジェスチャ認識用の特徴量を抽出する。
ジェスチャ辞書記録部54は、ジェスチャ認識に用いられるジェスチャ辞書を記録しており、必要に応じて記録しているジェスチャ辞書をジェスチャ認識部55に供給する。例えばジェスチャ辞書記録部54には、HMM(Hidden Markov Model)を構築する状態遷移確率や出力確率密度関数等のパラメータがジェスチャ辞書として記録されている。
ジェスチャ認識部55は、ジェスチャ辞書記録部54から供給されたジェスチャ辞書と、画像処理部53から供給された特徴量とに基づいてジェスチャ認識を行ない、その認識結果を動作処理部56に供給する。動作処理部56は、ジェスチャ認識部55からの認識結果に基づいて、画像処理装置41の各部にジェスチャに応じた処理を実行させる。
表示制御部57は、撮影部11から供給された撮影画像や、画像処理部53から供給された切り出し領域等の情報に基づいて、表示部12に画像を表示させる。
[ジェスチャ認識処理の説明]
次に、図3のフローチャートを参照して、画像処理装置41によるジェスチャ認識処理について説明する。
ステップS11において、撮影部11は、撮影画像の撮影を開始する。すなわち、撮影部11は、撮影部11の周囲にいるユーザを被写体として撮影し、その結果得られた各フレームの撮影画像を、順次、手形状認識部52および表示制御部57に供給する。
また、表示制御部57は、撮影部11から供給された撮影画像を表示部12に供給し、表示させる。これにより、表示部12には、被写体として撮影されたユーザ自身が表示されるので、ユーザは、表示部12に表示された自分自身を見ながらジェスチャを行なうことになる。なお、ここでは、表示部12にユーザ自身が表示される例について説明するが、必ずしも表示部12にユーザが表示される必要はない。例えば、ユーザの手が検出された場合に、表示部12におけるユーザの手に対応する位置に、ユーザの手の位置を示すカーソルや手の画像などを表示することで、ユーザが自分の手の位置を把握できるようにしてもよい。また、特にユーザの手の位置に基づいて切り出し領域が決定される場合などには、表示部12にユーザ自身やユーザの手の位置を示す画像等が全く表示されないようにしてもよい。
ステップS12において、手形状認識部52は手形状認識を開始する。
具体的には、手形状認識部52は、手形状辞書記録部51に記録されている手形状辞書と、撮影部11から供給された撮影画像とに基づいて、各フレームの撮影画像から特定形状の手を検出し、その検出結果と撮影画像とを画像処理部53に供給する。
例えば、手形状辞書として識別器が記録されている場合、手形状認識部52は、撮影画像上の所定領域から特徴量を抽出して識別器に代入することで、撮影画像から特定形状の手を検出する。このような手形状認識により、手の形状や大きさ、手の位置などが検出される。なお、認識対象となる手形状は、予め定められたジェスチャの開始時における手の形状や、パー,グーといった一般的な手の形状などとされる。
なお、ここでは手形状認識を例として説明しているが、ユーザの手の位置を検出することができれば、手形状認識に限らずどのような検出方法であってもよい。
ステップS13において、画像処理部53は、手形状認識の結果に基づいて、撮影画像から特定形状の手が検出されたか否かを判定する。
ステップS13において、手が検出されなかったと判定された場合、処理はステップS13に戻り、上述した処理が繰り返される。
これに対して、ステップS13において手が検出されたと判定された場合、ステップS14において、画像処理部53は手形状認識の結果に基づいて、手の位置のトラッキングを行なう。すなわち、新たに手が検出されたフレーム以降のフレームについて、検出された手の位置のトラッキングが行なわれる。
ステップS15において、画像処理部53は、手が一定範囲内にあるか否かを判定する。例えば、基準となる所定のフレーム以降の各フレームで検出された手の位置が、所定のフレームにおける手の位置を中心とする、所定の大きさの領域内にある場合、手が一定範囲内にあると判定される。
ステップS15において、手が一定範囲内にないと判定された場合、処理はステップS14に戻り、上述した処理が繰り返される。
一方、ステップS15において、手が一定範囲内にあると判定された場合、ステップS
16において、切り出し領域決定部71は、手形状認識部52からの手形状認識の結果に基づいて、切り出し領域を決定する。
例えば、切り出し領域決定部71は、撮影画像上の検出された手の重心位置を中心とする所定の大きさの矩形領域を切り出し領域とする。手形状認識では、ある程度手の大きさが分かるので、切り出し領域の大きさは、検出された手が含まれる大きさなどとされる。
なお、切り出し領域に手の全ての領域が含まれていなくてもジェスチャを認識することは可能であるので、切り出し領域の大きさは、必ずしも手の全ての領域が含まれる大きさとされなくてもよい。また、切り出し領域は、検出された手の位置に基づいて定められれば、どのように定められてもよい。
切り出し領域が決定されると、切り出し領域決定部71は、手形状認識部52から供給された各フレームの撮影画像について、撮影画像上の切り出し領域の画像を切り出して切り出し画像を生成する。したがって、各フレームの撮影画像上の同じ位置にある領域が切り出し画像とされる。
また、より詳細には、切り出し領域決定部71は、切り出し画像の大きさが予め定められた特定の大きさとなるように、生成した切り出し画像に対する拡大処理または縮小処理を必要に応じて行なう。このように切り出し画像の大きさを予め定めた大きさに揃えることで、より簡単にジェスチャ認識の処理を行なうことができる。
以降においては、このようにして生成された切り出し画像が用いられて、ジェスチャ認識が行なわれることになる。
ところで、ジェスチャ認識を行なう場合に、ユーザが手を動かしながらジェスチャを行なうと、撮影画像における手の部分の背景が変化する等の理由から、ジェスチャの認識精度が低下してしまう恐れがある。
そこで、画像処理装置41では、ユーザの手が大きく動いていない状態から行なわれたジェスチャのみを、ジェスチャ認識の対象とするために、手が一定範囲にあるか否かが判定され、切り出し領域が決定される。
この場合、手が一定範囲内にある場合には、手がある程度静止しているとして、ジェスチャ認識が開始されることになる。なお、手の動きが閾値以下になったときに、切り出し領域が決定され、ジェスチャ認識が開始されてもよいし、特定形状の手が検出されたときに、切り出し領域が決定されてジェスチャ認識が開始されるようにしてもよい。
以上のようにして切り出し領域が決定されると、画像処理部53は、決定された切り出し領域の位置を示す情報を表示制御部57に供給する。
ステップS17において、表示制御部57は、画像処理部53から供給された情報に基づいて、ジェスチャ認識が行なわれている旨のフィードバックを行なう。
例えば、表示制御部57は図4に示すように、表示部12に切り出し領域を示す枠FB11を表示させることで、ジェスチャ認識が行なわれている旨のフィードバックを行なう。なお、図4において、図1における場合と対応する部分には同一の符号を付してあり、その説明は省略する。
図4の例では、表示部12に表示されている撮影画像上のユーザU11の手の部分に、切り出し領域を示す枠FB11が表示されている。なお、ジェスチャ認識が行なわれている旨のフィードバックは、枠FB11の表示に限らず、どのように行なわれてもよい。
例えば、表示部12における切り出し領域近傍に、人の手のマークや矢印アイコンなどが表示されるようにしてもよい。また、手が検出された時点で、検出された手を囲む枠を表示させ、ジェスチャ認識が開始されると枠を点滅させるなど、表示形式を変化させるようにしてもよい。さらに、ジェスチャ認識が行なわれている旨のフィードバックは、画像表示に限らず、音声を再生することで行なわれるようにしてもよい。
図3のフローチャートの説明に戻り、ジェスチャ認識開始のフィードバックが行なわれると、その後、処理はステップS17からステップS18へと進む。
ステップS18において、画像処理部53は、切り出し領域を固定させる固定時間のタイマをリセットする。
ここで、固定時間とは、切り出し領域の位置が固定されて、その切り出し領域から得られた切り出し画像を用いてジェスチャを認識する処理が継続して行なわれる時間をいう。つまり、固定時間以内にジェスチャが認識されなければ、新たな切り出し領域が定められ、その切り出し領域についてジェスチャ認識が行なわれる。
タイマがリセットされると、画像処理部53は固定時間が経過するまで、継続してタイマのカウントを行なう。
ステップS19において、差分算出部72は、切り出し画像のフレーム間差分を求め、差分画像を生成する。例えば、差分画像の所定の画素の画素値は、その画素と同じ位置にある、連続する2つのフレームの切り出し画像上の画素の画素値の差分絶対値とされる。
ステップS20において、特徴量抽出部73は、差分画像からジェスチャ認識用の特徴量を抽出する。
例えば、特徴量抽出部73は、差分画像を任意の大きさのブロックに分割し、各ブロックについて、ブロック内の画素の輝度値の平均値を算出する。そして、特徴量抽出部73は、ブロックごとに求めた輝度値の平均値を要素とするベクトルを、差分画像から抽出された特徴量とする。
差分画像上では、動被写体が存在する部分では時間方向に輝度変化が生じ、動きのない部分では輝度変化が生じない。そのため、差分画像上の各領域の平均輝度を特徴量とし、それらの特徴量を時系列に並べることで、切り出し画像内における動被写体の形状や、動被写体の動きの流れの検出が可能となり、特徴量からジェスチャを認識することができるようになる。ここで、動被写体の形状とは、例えば、手のひらや指の形状であり、動被写体の動きの流れとは、例えばジェスチャにより手が倒れていく画像の変化(各位置での輝度の変化)である。
特徴量抽出部73は、このようにして抽出された特徴量を、ジェスチャ認識部55に供給する。
ステップS21において、ジェスチャ認識部55は、画像処理部53の特徴量抽出部73から供給された特徴量と、ジェスチャ辞書記録部54に記録されているジェスチャ辞書とに基づいてジェスチャ認識を行ない、その認識結果を動作処理部56に供給する。
例えば、ジェスチャ認識部55は、予め定められた所定数のフレームからなる区間内の差分画像から得られた特徴量を正規化する。具体的には、ジェスチャ認識部55は、時系列に並べられた特徴量のうち、差分画像上の同じ位置のブロックから得られた特徴量を、それらの同じ位置のブロックから得られた特徴量の最大値で除算することで、特徴量が0乃至1の範囲の値となるように正規化する。
さらに、ジェスチャ認識部55は、正規化された時系列の特徴量に基づいて、ジェスチャ辞書としてのパラメータから構築されるHMMなどによる時系列認識処理を行なうことで、ユーザにより特定のジェスチャが行なわれたかを認識する。
なお、時系列の特徴量に基づくジェスチャ認識は、時系列に並ぶ各差分画像から抽出された特徴量と、予め学習により得られた時系列の特徴量とを比較するなど、どのように行なわれてもよい。
ステップS22において、動作処理部56は、ジェスチャ認識部55から供給されたジェスチャ認識の結果に応じた処理を、画像処理装置41の各部に実行させる。なお、ジェスチャが認識されなかった場合には、何も処理は行なわれない。
例えば、ジェスチャにより、楽曲の再生等に関するアプリケーションプログラムでの操作を実行させるとする。この場合、ユーザが手を開いた状態で、その手を払うジェスチャを行なったときには、動作処理部56は、複数楽曲からなるアルバムを処理単位とし、アルバムを選択するカーソルを移動させて、複数のアルバムのなかから再生対象となるアルバムを選択させる。
また、ユーザが人差し指を払うジェスチャを行なったときには、動作処理部56は、アルバムを構成する楽曲を処理単位とし、楽曲を選択するカーソルを移動させて、アルバムを構成する複数の楽曲のなかから再生対象となる楽曲を選択させる。
このように、アルバムや楽曲、フォルダやファイルなど、処理単位の大小関係等に応じて、ジェスチャに用いる指の本数や指の位置を定めることで、ユーザは感覚的に操作を行なうことができるようになる。
また、例えばジェスチャにより表示部12に表示されたポインタ等を移動させ、アイコンを選択するなどの操作が行なわれるとする。
そのような場合、例えばユーザが手を開いた状態から親指を折る(倒す)ジェスチャを行なったときには、動作処理部56は、マウスの左クリックに対応する操作を実行させる。また、ユーザが手を開いた状態から人差し指を折るジェスチャを行なったときには、動作処理部56は、マウスの右クリックに対応する操作を実行させる。このような例では、ユーザは既存の機器と同様の操作感覚でジェスチャによる操作を行なうことができる。
その他、ユーザが手の形状をパーからグーにするジェスチャを行なった場合、表示部12上のファイル等が選択されたり、ユーザが手をグーの形状のまま平行移動させるジェスチャを行なった場合、選択されたファイル等が移動されたりするようにしてもよい。
なお、ジェスチャ認識結果に応じた処理が行なわれる場合、ジェスチャ認識の結果に応じて、表示制御部57が、ジェスチャが認識された旨の表示や、認識されたジェスチャを示す表示などを、表示部12に行なわせるようにしてもよい。そのような場合、ジェスチャ認識部55から表示制御部57にもジェスチャ認識結果が供給されることになる。
ステップS23において、画像処理部53は、手形状認識部52からの手形状認識結果に基づいて、切り出し領域外に新たな手が検出されたか否かを判定する。
ステップS23において新たな手が検出されたと判定された場合、処理はステップS13に戻り、上述した処理が繰り返される。つまり、新たに検出された手によるジェスチャが認識され、そのジェスチャに応じた処理が実行される。
これに対して、ステップS23において新たな手が検出されなかったと判定された場合、ステップS24において、画像処理部53はカウントしているタイマに基づいて、タイマをリセットしてから固定時間が経過したか否かを判定する。
ステップS24において固定時間が経過していないと判定された場合、処理はステップS19に戻り、上述した処理が繰り返される。すなわち、これまで処理対象とされていた区間、つまりジェスチャ認識の対象となっていた区間が、1フレーム分だけ未来方向にずらされて、新たな処理対象区間について、ジェスチャ認識が行なわれる。
なお、決定された切り出し領域について、既にジェスチャが認識され、そのジェスチャに応じた処理が実行された場合には、ステップS22の処理の後、処理がステップS13に戻るようにしてもよい。
一方、ステップS24において固定時間が経過したと判定された場合、処理はステップS13に戻り、上述した処理が繰り返される。すなわち、新たに手が検出されると、その手の位置に基づいて切り出し領域が決定され、ジェスチャ認識が行なわれる。
また、ユーザによりジェスチャ認識の終了が指示された場合、ジェスチャ認識処理は終了する。
以上のように、画像処理装置41は、撮影画像上のユーザの手の少なくとも一部を含む領域を切り出し領域とし、その切り出し領域の画像の差分を求めて得られる差分画像から特徴量を抽出する。そして、画像処理装置41は、時系列に並べた特徴量に基づいて時系列認識処理により、ユーザのジェスチャを認識し、その認識結果に応じた処理を行なう。
このように、差分画像から特徴量を抽出してジェスチャ認識することで、より高精度にユーザのジェスチャを認識することができるようになる。
したがって、ユーザは、必要以上に大きく手を動かすことなく、手を倒す、手を払う、手を上げるなど、手首から先の小さな動き程度のジェスチャで、各ジェスチャに対して定められた処理を実行させることができる。ユーザに対する負担が軽減されれば、ジェスチャに応じた処理を実行させるアプリケーションプログラム等の使い勝手を向上させることができる。
特に、画像処理装置41では、手形状認識で検出された手の位置に基づいて切り出し領域が定められるので、ユーザは、任意の位置でジェスチャ操作を行なうことができる。つまり、ユーザは、切り出し領域の位置を意識することなく、自然な動きでジェスチャ操作を行なうことができ、ユーザの負担をさらに低減させることができる。
[特徴量の抽出について]
なお、以上においては、差分画像をいくつかのブロックに分割し、ブロック内の画素の輝度値の平均値をブロックごとの特徴量とすると説明したが、差分画像の分割はどのように行なわれてもよい。
例えば、図5の矢印Q11に示すように、差分画像が図中、縦方向に3つ、横方向に4つの合計12個のブロックに分割されるようにしてもよい。この場合、差分画像をブロックに分割して特徴量を求めることは、差分画像を平滑化することと等価であるので、認識対象の手の大まかな形状と移動の様子(方向)を特定することが可能となり、高精度にジェスチャを認識することができる。
また、例えば矢印Q12に示すように、差分画像が図中、横方向に長いブロックに分割されるようにしてもよい。この例では、差分画像上の横方向に並ぶ画素列が、同じブロックに属すようにブロック分割が行なわれる。
このようなブロック分割を行なうと、図中、縦方向の動きに特化した特徴量を得ることができ、手の形状によらず、縦方向に動く被写体がある場合には、ジェスチャが行なわれたと認識されることになる。
さらに、矢印Q13に示すように、差分画像が図中、縦方向に長いブロックに分割されるようにしてもよい。この例では、差分画像上の縦方向に並ぶ画素列が、同じブロックに属すようにブロック分割が行なわれ、手の形状によらず、横方向に動く被写体がある場合には、ジェスチャが行なわれたと認識されることになる。
また、以上においては、差分画像上のブロックの平均輝度を特徴量とする例について説明したが、特徴量は差分画像から求められるものであれば、オプティカルフローや、ブロック内の画素の特定成分の平均値など、どのようなものであってもよい。
〈第2の実施の形態〉
[ジェスチャ認識の切り出し領域について]
さらに、以上においては、手形状認識により特定の形状の手を認識し、その手の位置に基づいて切り出し領域を決定すると説明したが、切り出し領域は、予め定められた位置とされるようにしてもよい。
そのような場合、例えば図6に示すように、表示部12上に常に切り出し領域の位置を示す枠FB21が表示される。なお、図6において、図1における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。
図6の例では、表示部12に、ユーザU11だけでなく、予め定められた切り出し領域の位置を示す枠FB21が表示されている。したがって、この例ではユーザU11は、表示部12に表示された自分自身と枠FB21の位置を確認しながら、枠FB21内に手を移動させ、ジェスチャを行なえばよい。
なお、この場合、表示部12に表示された枠FB21に対して、1つのジェスチャが割り当てられてもよいし、複数のジェスチャが割り当てられてもよい。
例えば、枠FB21に対して、1つのジェスチャGES1が割り当てられているとすると、ユーザが枠FB21内でジェスチャGES1を行なった場合、ジェスチャGES1に対して定められた処理が実行される。これに対して、ユーザが枠FB21内でジェスチャGES2を正しく行なっても、何ら処理は実行されない。
また、枠FB21に対して、2つのジェスチャGES1およびジェスチャGES2が割り当てられているとする。この場合、ユーザが枠FB21内でジェスチャGES1を行なうと、ジェスチャGES1に応じた処理が実行され、ユーザが枠FB21内でジェスチャGES2を行なうと、ジェスチャGES2に応じた処理が実行される。
さらに、表示部12に切り出し領域の位置を示す枠が複数表示されるようにしてもよい。この場合、複数の各枠に異なるジェスチャを割り当ててもよいし、いくつかの異なる枠に1つのジェスチャを割り当ててもよい。複数の枠のそれぞれに同じジェスチャが割り当てられる場合、それらの枠のうちの何れかの枠内でジェスチャが認識されると、ジェスチャに応じた処理が実行される。
また、表示部12に表示される切り出し領域の位置を示す各枠について、1つの枠に1つのジェスチャを割り当ててもよいし、複数のジェスチャを割り当てるようにしてもよい。
なお、以下においては、説明を簡単にするため、表示部12には、切り出し領域の位置を示す1つの枠が表示され、その枠に1つのジェスチャが割り当てられている場合について説明することとする。
[画像処理装置の構成例]
このように、切り出し領域の位置が予め定められている場合、画像処理装置は、例えば図7に示すように構成される。なお、図7において、図2における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。
図7の画像処理装置101は、撮影部11、画像処理部111、ジェスチャ辞書記録部54、ジェスチャ認識部55、動作処理部56、表示制御部57、および表示部12から構成される。
画像処理部111は、撮影部11から供給された撮影画像に基づいて、ジェスチャ認識のための特徴量を抽出し、ジェスチャ認識部55に供給するとともに、必要に応じて切り出し領域等の情報を表示制御部57に供給する。
画像処理部111は、切り出し画像生成部121、差分算出部72、および特徴量抽出部73を備えている。切り出し画像生成部121は、撮影画像上の予め定められた領域を切り出し領域とし、撮影画像の切り出し領域の画像を切り出して切り出し画像とする。
[ジェスチャ認識処理の説明]
次に、図8のフローチャートを参照して、画像処理装置101によるジェスチャ認識処理について説明する。
ステップS51において、撮影部11は撮影画像の撮影を開始する。
すなわち、撮影部11は、撮影部11の周囲にいるユーザを被写体として撮影し、その結果得られた各フレームの撮影画像を、順次、画像処理部111および表示制御部57に供給する。
また、表示制御部57は、撮影部11から供給された撮影画像を表示部12に供給し、表示させる。画像処理部111は、予め定められた切り出し領域の位置を示す情報を表示制御部57に供給する。
ステップS52において、表示制御部57は、画像処理部111から供給された情報に基づいて、切り出し領域の位置を示す枠を表示部12に表示させる。ユーザは、表示部12に表示された枠や自分自身の手を見ながら、枠内に手を移動させ、所望のジェスチャを行なう。
ステップS53において、切り出し画像生成部121は、撮影部11から供給された各フレームの撮影画像について、撮影画像上の予め定められた切り出し領域の画像を切り出して切り出し画像を生成する。
また、より詳細には、切り出し画像生成部121は、切り出し画像の大きさが予め定められた特定の大きさとなるように、生成した切り出し画像に対する拡大処理または縮小処理を必要に応じて行なう。
ステップS54において、差分算出部72は、切り出し画像のフレーム間差分を求め、差分画像を生成する。
そして、ステップS55において、特徴量抽出部73は、差分画像に基づいて、ジェスチャ認識用の特徴量を抽出し、ジェスチャ認識部55に供給する。例えば、ステップS55では、図3のステップS20の処理と同様の処理が行なわれ、特徴量が抽出される。
ステップS56において、ジェスチャ認識部55は、特徴量抽出部73から供給された特徴量と、ジェスチャ辞書記録部54に記録されているジェスチャ辞書とに基づいてジェスチャ認識を行ない、その認識結果を動作処理部56に供給する。このステップS56では、図3のステップS21と同様の処理が行なわれる。
ステップS57において、動作処理部56は、ジェスチャ認識部55から供給されたジェスチャ認識の結果に応じた処理を、画像処理装置101の各部に実行させ、その後、処理はステップS53に戻り、上述した処理が繰り返される。
なお、特定のジェスチャが認識され、ジェスチャに応じた処理が実行される場合には、ジェスチャが認識された旨のフィードバックが行なわれるようにしてもよい。例えば、そのようなフィードバックは、表示制御部57が表示部12に表示されている、切り出し領域の位置を示す枠を点滅させたり、所定の画像を表示させたりすることにより行なわれる。
また、ユーザによりジェスチャ認識の終了が指示された場合、ジェスチャ認識処理は終了する。
以上のように、画像処理装置101は、撮影画像上の予め定められた切り出し領域の画像の差分を求めて差分画像を生成し、差分画像から特徴量を抽出する。そして、画像処理装置101は、時系列に並べた特徴量に基づいて時系列認識処理により、ユーザのジェスチャを認識し、その認識結果に応じた処理を行なう。
このように、差分画像から特徴量を抽出してジェスチャ認識することで、より高精度にユーザのジェスチャを認識することができるようになる。
なお、以上においては図9の矢印Q41に示すように、表示部12には、被写体として撮影されたユーザU11とともに、切り出し領域の位置を示す枠FB21が表示されると説明したが、切り出し領域の位置が分かる表示であれば、どのような表示がされてもよい。なお、図9において、図6における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。
例えば、ユーザに切り出し領域の位置を把握させる表示として、矢印Q42に示す表示などが考えられる。
矢印Q42に示す例では、表示部12には、撮影されたユーザU11と、各処理を実行させるためのボタンアイコンAC11−1乃至ボタンアイコンAC11−4とが表示されている。これらのボタンアイコンAC11−1乃至ボタンアイコンAC11−4には、操作されたときに実行される処理を想起させる画像や、処理を説明する文字等が表示されるようにしてもよい。
なお、以下、ボタンアイコンAC11−1乃至ボタンアイコンAC11−4を個々に区別する必要のない場合、単にボタンアイコンAC11とも称する。
この例では、各ボタンアイコンAC11の領域に対応する撮影画像上の位置が、予め定められた切り出し領域とされる。したがって、ユーザU11は、自分の手を所望のボタンアイコンAC11内の領域に移動させ、ジェスチャを行なえば、ボタンアイコンAC11に対して定められた処理を実行させることができる。
このとき、ボタンアイコンAC11に割り当てるジェスチャを、手を倒すなど、ボタンアイコンAC11を押すようなジェスチャとすれば、ユーザU11はより感覚的にジェスチャ操作を行なうことができるようになる。
なお、切り出し領域の位置が予め定められている場合、ユーザU11がボタンアイコンAC11内の位置とは異なる位置でジェスチャを行なっても、そのジェスチャは認識されないことになる。
また、各ボタンアイコンAC11に割り当てられるジェスチャは同じであるが、そのジェスチャにより実行される処理は、ボタンアイコンAC11ごとに異なるようにしてもよい。したがって、この場合、ボタンアイコンAC11(切り出し領域)の位置と、認識されたジェスチャとから定まる処理が実行されることになる。
[切り出し領域の決定について]
さらに、手形状認識を行なわない場合においても、撮影画像に基づいて切り出し領域が決定されるようにしてもよい。
そのような場合、例えば図10の矢印Q71に示すように、被写体としてのユーザU21が撮影されて得られた撮影画像PC11の各領域のフレーム間差分が求められて切り出し領域が決定される。
この例では、切り出し画像生成部121は、連続する2つのフレームの撮影画像PC11上の切り出し領域の候補となる領域について、その領域のフレーム間の画素の輝度値の差分絶対値和を求める。このとき、切り出し画像生成部121は、切り出し領域の候補となる領域をずらしながら、各領域について差分絶対値和を求める。
矢印Q71に示す例では、撮影画像PC11の図中、左上の領域DF11−1から、図中、右下の領域DF11−Nまでの各領域が切り出し領域の候補とされ、それらの領域の差分絶対値和が算出される。ここで、例えば領域DF11−1と領域DF11−2など、互いに隣接する領域の一部が重なるように、切り出し領域の候補となる領域が定められる。
そして、切り出し画像生成部121は、各領域のうち、差分絶対値和が最大となる領域を、最終的な切り出し領域とする。この例では、ユーザU21近傍にある領域DF11−kが切り出し領域とされる。
ユーザU21がジェスチャを行なおうとして手を動かすと、その手の領域は撮影画像PC11のフレーム間の差分が大きくなるはずである。そこで、この例では、撮影画像PC11上の差分の大きい領域がユーザU21の手の領域であるとされ、その領域が切り出し領域とされる。
但し、このような場合、撮影画像PC11上にユーザU21とは異なる動被写体があると、その動被写体の領域が切り出し領域とされてしまう可能性もある。
そこで、例えば矢印Q72に示すように、ユーザU21の近傍の領域SR11内において、撮影画像PC11のフレーム間の差分が最大となる領域が、切り出し領域とされるようにしてもよい。
この場合、まず切り出し画像生成部121は、撮影画像PC11に基づいて、ユーザU21の領域を検出する。ユーザU21の検出は、例えば人検出や顔検出により行なうことができる。次に、切り出し画像生成部121は、検出されたユーザU21の顔の位置に基づいて、ユーザU21の領域を含む所定の大きさの領域SR11を定める。
そして、切り出し画像生成部121は、領域SR11の図中、左上の領域DF21−1から、領域SR11の図中、右下の領域までの各領域を切り出し領域の候補とし、それらの領域の差分絶対値和を算出する。ここで、例えば領域DF21−1と領域DF21−2など、互いに隣接する領域の一部が重なるように、切り出し領域の候補となる領域が定められる。
さらに切り出し画像生成部121は、各領域のうち、差分絶対値和が最大となる領域を、最終的な切り出し領域とする。この例では、ユーザU21近傍にある領域DF21−kが切り出し領域とされる。このように、ユーザU21近傍の領域を切り出し領域の候補とすることで、より高精度にユーザの手の領域を特定することが可能となる。
なお、図10に示した例では、切り出し領域の候補となる領域のうち、最も差分が大きい領域が切り出し領域とされると説明したが、差分が大きい順にいくつかの領域を切り出し領域とするようにしてもよい。また、撮影画像PC11上におけるユーザU21の顔の位置から定まる1または複数の領域が、切り出し領域とされるようにしてもよい。
以上のように、切り出し画像生成部121が撮影画像に基づいて切り出し領域を定める場合には、表示制御部57が決定された切り出し領域の位置を示す枠等の表示を、表示部12に行なわせるようにしてもよい。
〈第3の実施の形態〉
[ジェスチャ認識システムの構成例]
さらに、以上においては、画像処理装置41や画像処理装置101において、撮影画像の撮影からジェスチャ認識までの全ての処理が行なわれる例について説明したが、これらの処理の一部が、通信網等を介して接続された他の装置で行なわれるようにしてもよい。
そのような場合、撮影画像を撮影してジェスチャ認識を行なうジェスチャ認識システムは、例えば図11に示すように構成される。なお、図11において、図2における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。
図11のジェスチャ認識システムは、画像処理装置161およびサーバ162から構成される。これらの画像処理装置161とサーバ162は、インターネットなどからなる通信網163を介して相互に接続されている。
画像処理装置161は、撮影部11、手形状辞書記録部51、手形状認識部52、制御部171、通信部172、動作処理部56、表示制御部57、および表示部12から構成される。
また、サーバ162は、通信部181、制御部182、画像処理部53、ジェスチャ辞書記録部54、およびジェスチャ認識部55から構成され、画像処理部53は、切り出し領域決定部71、差分算出部72、および特徴量抽出部73を備えている。
このようなジェスチャ認識システムでは、ユーザは画像処理装置161の撮影部11に向かって所望のジェスチャを行なう。
撮影部11は、ユーザを被写体として撮影すると、その結果得られた撮影画像を手形状認識部52および制御部171に供給する。制御部171は、撮影部11からの撮影画像を、表示制御部57を介して表示部12に供給し、表示させる。
また、手形状認識部52は、手形状辞書記録部51に記録されている手形状辞書と、撮影部11からの撮影画像とに基づいて、撮影画像から特定形状の手を認識し、その認識結果と撮影画像を、制御部171を介して通信部172に供給する。
すると、通信部172は、供給された認識結果と撮影画像を、通信網163を介してサーバ162に送信する。これらの認識結果と撮影画像は、逐次、サーバ162に送信される。これに対して、サーバ162の通信部181は、通信部172から送信された認識結果と撮影画像を受信し、制御部182を介して画像処理部53に供給する。
画像処理部53は、供給された手形状の認識結果と撮影画像とに基づいて、切り出し領域を決定して差分画像を生成し、得られた差分画像から特徴量を抽出してジェスチャ認識部55に供給する。
このとき、必要に応じて切り出し領域の位置を示す情報が、サーバ162から画像処理装置161に送信される。そして、表示制御部57は、制御部171を介して通信部172から、切り出し領域の位置を示す情報が供給されると、その情報に基づいて、表示部12に切り出し領域の位置を示す枠を表示させる。
また、サーバ162のジェスチャ認識部55は、画像処理部53からの特徴量と、ジェスチャ辞書記録部54のジェスチャ辞書とに基づいて、ジェスチャ認識を行ない、その認識結果を、制御部182を介して通信部181に供給する。通信部181は、供給されたジェスチャ認識の結果を、通信網163を介して画像処理装置161に送信する。
すると、画像処理装置161の通信部172は、サーバ162から送信されてきたジェスチャ認識の結果を受信し、制御部171を介して動作処理部56に供給する。動作処理部56は、画像処理装置161の各部に、供給されたジェスチャ認識の結果に応じた処理を実行させる。
このように、切り出し領域の決定や、特徴量の抽出、ジェスチャ認識などを画像処理装置161とは異なる装置(サーバ162)に実行させるようにしてもよい。この場合、特に画像処理装置161の処理能力が低いときには、より高い処理能力を有するサーバ162にいくつかの処理を分担させることで、より迅速にジェスチャ認識の結果を得ることができる。
〈第4の実施の形態〉
[ジェスチャ認識システムの構成例]
さらに、ジェスチャ認識システムは、図12に示す構成とされてもよい。なお、図12において、図11における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。
図12のジェスチャ認識システムは、画像処理装置201およびサーバ202から構成される。これらの画像処理装置201とサーバ202は、通信網163を介して相互に接続されている。
画像処理装置201は、撮影部11、手形状辞書記録部51、手形状認識部52、画像処理部53、制御部171、通信部172、動作処理部56、表示制御部57、および表示部12から構成される。また、画像処理部53は、切り出し領域決定部71、差分算出部72、および特徴量抽出部73を備えている。
サーバ202は、通信部181、ジェスチャ辞書記録部54、およびジェスチャ認識部55から構成される。
このようなジェスチャ認識システムでは、ユーザは画像処理装置201の撮影部11に向かって所望のジェスチャを行なう。
撮影部11は、ユーザを被写体として撮影すると、その結果得られた撮影画像を手形状認識部52および制御部171に供給する。制御部171は、撮影部11からの撮影画像を、表示制御部57を介して表示部12に供給し、表示させる。
また、手形状認識部52は、手形状辞書記録部51に記録されている手形状辞書と、撮影部11からの撮影画像とに基づいて、撮影画像から特定形状の手を認識し、その認識結果と撮影画像を、画像処理部53に供給する。
画像処理部53は、手形状認識部52から供給された手形状の認識結果と撮影画像とに基づいて、切り出し領域を決定して差分画像を生成し、得られた差分画像から特徴量を抽出して制御部171に供給する。そして、制御部171は、画像処理部53からの特徴量を通信部172に供給する。
このとき、必要に応じて切り出し領域の位置を示す情報が、画像処理部53から制御部171を介して表示制御部57に供給される。表示制御部57は、制御部171から切り出し領域の位置を示す情報が供給されると、その情報に基づいて、表示部12に切り出し領域の位置を示す枠を表示させる。
また、通信部172は、制御部171から供給された特徴量を、逐次、通信網163を介してサーバ202に送信する。
すると、サーバ202の通信部181は、通信部172から送信された特徴量を受信し、ジェスチャ認識部55に供給する。
また、ジェスチャ認識部55は、通信部181から供給された特徴量と、ジェスチャ辞書記録部54のジェスチャ辞書とに基づいて、ジェスチャ認識を行ない、その認識結果を通信部181に供給する。通信部181は、供給されたジェスチャ認識の結果を、通信網163を介して画像処理装置201に送信する。
すると、画像処理装置201の通信部172は、サーバ202から送信されてきたジェスチャ認識の結果を受信し、制御部171を介して動作処理部56に供給する。動作処理部56は、画像処理装置201の各部に、供給されたジェスチャ認識の結果に応じた処理を実行させる。
このように、ジェスチャ認識の処理を画像処理装置201とは異なる装置(サーバ202)に実行させるようにしてもよい。
また、図11および図12に示す例において、画像処理装置161や画像処理装置201が、外部に設けられた撮影装置から、撮影画像を取得するようにしてもよいし、表示部12が、画像処理装置161や画像処理装置201に接続されているようにしてもよい。さらに、図7の画像処理装置101により行なわれる一部の処理が、図11や図12の例に示したように、外部の装置により行なわれてもよい。
さて、以上においては、撮影画像上で決定される切り出し領域の数は1つであるものとして説明したが、撮影画像上で決定される切り出し領域の数を複数としてもよい。
〈第5の実施の形態〉
[画像処理装置の構成例]
そのような場合、画像処理装置は、例えば図13に示すように構成される。なお、図13において、図7における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。
図13の画像処理装置301は、撮影部11、画像処理部311、ジェスチャ辞書記録部54、ジェスチャ認識部312、動作処理部56、表示制御部57、および表示部12から構成される。
画像処理部311は、撮影部11から供給された撮影画像に基づいて、ジェスチャ認識のための特徴量を抽出し、ジェスチャ認識部312に供給するとともに、必要に応じて切り出し領域等の情報を表示制御部57に供給する。
画像処理部311は、認識領域設定部321、切り出し画像生成部322、差分算出部72、および特徴量抽出部73を備えている。認識領域設定部321は、撮影画像上で、切り出し領域が複数配置される領域である認識領域を設定する。切り出し画像生成部322は、撮影画像上の認識領域に配置される複数の切り出し領域それぞれの大きさを決定し、認識領域に配置する。そして、切り出し画像生成部322は、撮影画像上に配置された切り出し領域の画像を切り出して切り出し画像とする。
ジェスチャ認識部312は、ジェスチャ辞書記録部54から供給されたジェスチャ辞書と、画像処理部311から供給された切り出し領域毎の特徴量とに基づいてジェスチャ認識を行ない、その認識結果を動作処理部56に供給する。
[ジェスチャ認識処理の説明]
次に、図14のフローチャートを参照して、画像処理装置301によるジェスチャ認識処理について説明する。
ステップS111において、撮影部11は撮影画像の撮影を開始する。
すなわち、撮影部11は、撮影部11の周囲にいるユーザを被写体として撮影し、その結果得られた各フレームの撮影画像を、順次、画像処理部311および表示制御部57に供給する。
また、表示制御部57は、撮影部11から供給された撮影画像を表示部12に供給し、表示させる。
ステップS112において、認識領域設定部321は、撮影部11から供給された撮影画像上に認識領域を設定する。ここでは、認識領域設定部321は、撮影画像の略全体の領域、具体的には、撮影画像上の周縁部を除いた領域を、認識領域として設定するものとする。
ステップS113において、切り出し画像生成部322は、認識領域設定部321により設定された認識領域に配置される複数の切り出し領域それぞれの大きさを決定し、認識領域内に配置する。ここでは、切り出し画像生成部322は、複数の切り出し領域それぞれの大きさを同一の大きさとする。このように、認識領域には、ジェスチャ認識の処理対象となる切り出し領域が配置されるので、認識領域は、ジェスチャ認識が可能な領域ということができる。また、画像処理部311は、設定された認識領域の位置を表す情報と、決定された切り出し領域それぞれの位置を示す情報とを表示制御部57に供給する。
ステップS114において、表示制御部57は、画像処理部311から供給された情報に基づいて、認識領域の位置を表す枠または切り出し領域の位置を示す枠を表示部12に表示させる。
例えば、表示制御部57は、図15に示すように、表示部12に、認識領域RA1内に配置された複数の切り出し領域を示す枠(以下、認識枠ともいう)RF1−1乃至枠RF1−Nを表示させる。なお、図15において、図1における場合と対応する部分には同一の符号を付してあり、その説明は省略する。また、以下においては、認識枠RF1−1乃至認識枠RF1−Nで示される切り出し領域を、切り出し領域RF1−1乃至切り出し領域RF1−Nともいう。
図15の例では、表示部12に表示されている撮影画像上のユーザU31を含む認識領域RA1全体に、N個の切り出し領域を示す認識枠RF1−1乃至認識枠RF1−Nが表示されている。この例では、切り出し領域それぞれの大きさは、予め定められた特定の大きさであって、認識領域RA1内で重なりなく且つ隙間なく敷き詰められる大きさとされる。
なお、図16に示されるように、表示部12に表示されている撮影画像上のユーザU31を含む認識領域RA1を示す枠のみが表示されるようにしてもよい。
このようにして表示部12に表示された枠や自分自身の手を見ながら、ユーザは所望のジェスチャを行なう。
ステップS115において、切り出し画像生成部322は、撮影部11から供給された各フレームの撮影画像について、撮影画像上の認識領域に配置された切り出し領域の画像を切り出して、複数の切り出し画像を生成する。
ステップS116において、差分算出部72は、切り出し領域毎に、切り出し画像のフレーム間差分を求め、差分画像を生成する。
そして、ステップS117において、特徴量抽出部73は、切り出し領域毎の差分画像に基づいて、ジェスチャ認識用の特徴量を抽出し、ジェスチャ認識部312に供給する。例えば、ステップS117では、図3のステップS20の処理と同様の処理が行なわれ、切り出し領域毎の特徴量が抽出される。
ステップS118において、ジェスチャ認識部312は、特徴量抽出部73から供給された特徴量と、ジェスチャ辞書記録部54に記録されているジェスチャ辞書とに基づいてジェスチャ認識を行ない、その認識結果を動作処理部56に供給する。
このステップS118では、ジェスチャ認識部312は、図17に示されるように、切り出し領域RF1−1乃至切り出し領域RF1−Nそれぞれについて抽出された特徴量に基づいて、1つの認識器を用いて1つずつ図3のステップS21と同様の認識処理を行なうことで、ジェスチャ認識を行なう。
なお、ジェスチャ認識部312は、図18に示されるように、切り出し領域RF1−1乃至切り出し領域RF1−Nそれぞれについて抽出された特徴量に基づいて、N個の認識器を用いて並列に認識処理を行なうことで、ジェスチャ認識を行なうようにしてもよい。
さらに、ジェスチャ認識部312は、切り出し領域RF1−1乃至切り出し領域RF1−Nの1つについての認識処理を行なった後、認識処理の対象となる切り出し領域の数を4つ、9つ、・・・と増やしていくことで、ジェスチャ認識を行なうようにしてもよい。
具体的には、図19に示されるように、ジェスチャ認識部312は、まず、1つの切り出し領域からなる領域RF2−1について認識処理を行なった後、4つの切り出し領域からなる領域RF2−2について認識処理を行なう。次に、ジェスチャ認識部312は、9つの切り出し領域からなる領域RF2−3について認識処理を行なう。このように、順次、認識対象となる領域を広げていくことで、ジェスチャ認識を行なうようにしてもよい。
また、切り出し領域RF1−1乃至切り出し領域RF1−Nのうちの所定数の切り出し領域において、抽出された特徴量が同時に所定の値より大きくなった場合に、その切り出し領域について認識処理を行なうことで、ジェスチャ認識が行なわれるようにしてもよい。
さらにまた、一定時間内に、抽出された特徴量が所定の値より大きくなった切り出し領域の数が所定数を上回った場合に、その切り出し領域について認識処理を行なうことで、ジェスチャ認識が行なわれるようにしてもよい。
なお、ジェスチャ認識において、上述した認識処理が組み合わされて行なわれるようにしてもよい。
ステップS119において、動作処理部56は、ジェスチャ認識部312から供給されたジェスチャ認識の結果に応じた処理を、画像処理装置301の各部に実行させる。
なお、特定のジェスチャが認識され、ジェスチャに応じた処理が実行される場合には、ジェスチャが認識された旨のフィードバックが行なわれるようにしてもよい。例えば、そのようなフィードバックは、表示制御部57が、表示部12に表示されている切り出し領域を示す認識枠を点滅させたり、所定の画像を表示させたりすることにより行なわれる。
具体的には、図20に示されるように、表示部12に表示されている、認識領域RA1内に配置された切り出し領域のうち、ジェスチャ認識が行なわれた領域RF3を示す枠の色を変えて表示させるようにする。また、図21に示されるように、表示部12には切り出し領域を表示させない状態で、ジェスチャ認識が行なわれた領域RF4を示す枠のみを表示させるようにしてもよい。さらに、図22に示されるように、ジェスチャ認識が行なわれた領域を示す部分に所定のアイコンIC5を重畳して表示させるようにしてもよい。
さらに、ジェスチャが認識された旨のフィードバックとして、表示部12に表示される枠や画像ではなく、所定の音声が出力されるようにしてもよい。
ステップS119の後、処理はステップS115に戻り、上述した処理が繰り返される。また、ユーザによりジェスチャ認識の終了が指示された場合、ジェスチャ認識処理は終了する。
以上のように、画像処理装置301は、撮影画像上の認識領域内に複数の切り出し領域を配置し、その切り出し領域毎の画像の差分を求めて得られる差分画像から特徴量を抽出する。そして、画像処理装置301は、時系列に並べた特徴量に基づいて時系列認識処理により、ユーザのジェスチャを認識し、その認識結果に応じた処理を行なう。
このように、複数の切り出し領域について差分画像から特徴量を抽出してジェスチャ認識することで、より広い範囲でユーザのジェスチャを認識することができるようになる。
したがって、ユーザは、手を右から左へ(または左から右へ)弾く動作(以下、フリック動作という)などのジェスチャが認識される領域を気にすることなく、任意の位置でジェスチャ操作を行なうことができる。つまり、ユーザは、切り出し領域の位置を意識することなく、自然な動きでジェスチャ操作を行なうことができ、ひいては、ジェスチャに応じた処理を実行させるアプリケーションプログラム等の使い勝手を向上させることができる。
また、認識領域全体でジェスチャ認識が行なわれるので、局所的には異なる動きをした場合であっても、全体的には同一の動きとして認識することが可能となるので、ユーザによってジェスチャに個人差があっても、よりロバストにジェスチャを認識することができるようになる。
なお、以上においては、図15を参照して説明したように、切り出し領域が認識領域内で重なりなく且つ隙間なく敷き詰められるものとしたが、例えば、図23に示されるように、切り出し領域RF6が認識領域RA1内で重なるように配置されるようにしてもよいし、図24に示されるように、切り出し領域RF7が認識領域RA1内で所定の間隔をもって配置されるようにしてもよい。
また、以上においては、複数の切り出し領域が配置される認識領域は、予め決められた位置に設定されるものとしたが、図25に示されるように、図9の矢印Q42の例で説明したような、表示部12に表示されるボタンアイコンの領域に対応する撮影画像上の位置に、認識領域が設定されるようにしてもよい。
図25においては、表示部12に、撮影されたユーザU31と、各処理を実行させるためのボタンアイコンAC21−1,AC21−2とが表示されている。図9と同様、これらのボタンアイコンAC21−1,AC21−2には、操作されたときに実行される処理を想起させる画像や、処理を説明する文字等が表示されるようにしてもよい。
この例では、各ボタンアイコンAC21−1,AC21−2の領域に対応する撮影画像上の位置が、4つの切り出し領域が配置される認識領域RA2−1,RA2−2とされる。この場合、ユーザU31は、自分の手を所望のボタンアイコンAC21−1またはAC21−2内の領域に移動させるジェスチャを行なえば、ボタンアイコンAC21−1,AC21−2に対して定められた処理を実行させることができる。
さらに、認識領域は、ジェスチャ認識を行なうシステムの提供者によって予め指定された位置に設定されるようにしてもよいし、システムを利用するユーザによって、予めまたは利用時に指定された位置に設定されるようにしてもよい。
以上においては、認識領域は、予め決められた位置に設定されるものとしたが、撮影画像上の、ユーザの体の一部の位置に基づいて設定されるようにしてもよい。
〈第6の実施の形態〉
[画像処理装置の構成例]
そのような場合、画像処理装置は、例えば図26に示すように構成される。なお、図26において、図13における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。
図26の画像処理装置401は、撮影部11、顔辞書記録部411、顔検出部412、画像処理部413、ジェスチャ辞書記録部54、ジェスチャ認識部312、動作処理部56、表示制御部57、および表示部12から構成される。
顔辞書記録部411は、アダブーストなどの統計学習により得られた、顔検出に用いられる顔辞書を記録しており、必要に応じて顔辞書を顔検出部412に供給する。例えば顔辞書の学習では、検出対象となる顔の画像を含む複数の学習用の画像が用いられ、この学習により顔辞書として認識器などが得られる。
顔検出部412は、顔辞書記録部411から供給された顔辞書に基づいて、撮影部11から供給された撮影画像から、顔を検出し、その検出結果と撮影画像を画像処理部413に供給する。
画像処理部413は、顔検出部412から供給された顔の検出結果と撮影画像に基づいて、ジェスチャ認識のための特徴量を抽出し、ジェスチャ認識部312に供給するとともに、必要に応じて切り出し領域等の情報を表示制御部57に供給する。
画像処理部413は、認識領域設定部421、切り出し画像生成部422、差分算出部72、および特徴量抽出部73を備えている。認識領域設定部421は、顔の検出結果に基づいて、認識領域を設定する。切り出し画像生成部422は、顔の検出結果に基づいて切り出し領域それぞれの大きさを決定し、認識領域に配置する。そして、切り出し画像生成部422は、撮影画像上に配置された切り出し領域の画像を切り出して切り出し画像とする。
[ジェスチャ認識処理の説明]
次に、図27のフローチャートを参照して、画像処理装置401によるジェスチャ認識処理について説明する。
なお、図27のフローチャートのステップS211,S215乃至S220の処理は、図14のステップS111,S114乃至S119の処理とそれぞれ同様であるので、その説明は省略する。
すなわち、ステップS212において、顔検出部412は、顔を検出する。
具体的には、顔検出部412は、顔辞書記録部411に記録されている顔辞書と、撮影部11から供給された撮影画像とに基づいて、各フレームの撮影画像から顔を検出し、その検出結果と撮影画像とを画像処理部413に供給する。
ステップS212において、認識領域設定部421は、顔検出部412から供給された顔の検出結果に基づいて、撮影画像上に認識領域を設定する。具体的には、認識領域設定部421は、撮影画像上で検出されたユーザの体の一部としての顔の位置に基づいて、認識領域を設定する。
例えば、図28に示されるように、表示部12に表示される撮影画像において、ユーザU31の顔が検出された場合、検出された顔の領域FA1の位置に基づいて、ユーザの腕の可動範囲と推定される領域が、認識領域RA3として設定される。
ステップS213において、切り出し画像生成部422は、顔検出部412から供給された顔の検出結果に基づいて、認識領域設定部421により設定された認識領域に配置される複数の切り出し領域それぞれの大きさを決定し、認識領域内に配置する。具体的には、切り出し画像生成部422は、撮影画像上で検出された顔の大きさに基づいて切り出し領域の大きさを決定し、認識領域内に配置する。
例えば、図29に示されるように、表示部12に表示される撮影画像において、ユーザU31の顔が検出された場合、検出された顔の領域FA1の大きさを基準として、切り出し領域RF8の大きさが決定され、認識領域RA3内に配置される。
以降、認識領域内に配置された切り出し領域から画像が切り出され、その切り出し領域毎の画像の差分を求めて得られる差分画像から特徴量が抽出される。そして、時系列に並べた特徴量に基づいて時系列認識処理により、ユーザのジェスチャが認識し、その認識結果に応じた処理が行なわれる。
以上の処理においても、複数の切り出し領域について差分画像から特徴量を抽出してジェスチャ認識することで、より広い範囲でユーザのジェスチャを認識することができるようになる。
さらに、ユーザの顔の位置に基づいて認識領域が設定されるので、明らかに認識処理の対象にならない領域に対しては、認識処理が行なわれないようになり、ジェスチャ認識にかかる処理の負荷を軽減することができるようになる。
なお、以上においても、切り出し領域は、認識領域内で重なりなく且つ隙間なく敷き詰められるようにしてもよいし、認識領域内で重なるように配置されるようにしてもよいし、認識領域内で所定の間隔をもって配置されるようにしてもよい。
以上においては、認識領域は、ユーザの体の一部としての顔の位置に基づいて設定されるものとしたが、ユーザの体の一部としての手の位置に基づいて設定されるようにしてもよい。
〈第7の実施の形態〉
[画像処理装置の構成例]
そのような場合、画像処理装置は、例えば図30に示すように構成される。なお、図30において、図13における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。
図30の画像処理装置501は、撮影部11、手辞書記録部511、手検出部512、画像処理部513、ジェスチャ辞書記録部54、ジェスチャ認識部312、動作処理部56、表示制御部57、および表示部12から構成される。
手辞書記録部511は、アダブーストなどの統計学習により得られた、手検出に用いられる顔辞書を記録しており、必要に応じて手辞書を手検出部512に供給する。例えば手辞書の学習では、検出対象となる手の画像を含む複数の学習用の画像が用いられ、この学習により手辞書として認識器などが得られる。
手検出部512は、手辞書記録部511から供給された手辞書に基づいて、撮影部11から供給された撮影画像から、手を検出し、その検出結果と撮影画像を画像処理部513に供給する。
画像処理部513は、手検出部512から供給された顔の検出結果と撮影画像に基づいて、ジェスチャ認識のための特徴量を抽出し、ジェスチャ認識部312に供給するとともに、必要に応じて切り出し領域等の情報を表示制御部57に供給する。
画像処理部513は、認識領域設定部521、切り出し画像生成部522、差分算出部72、および特徴量抽出部73を備えている。認識領域設定部521は、手の検出結果に基づいて、認識領域を設定する。切り出し画像生成部522は、手の検出結果に基づいて切り出し領域それぞれの大きさを決定し、認識領域に配置する。そして、切り出し画像生成部522は、撮影画像上に配置された切り出し領域の画像を切り出して切り出し画像とする。
[ジェスチャ認識処理の説明]
次に、図31のフローチャートを参照して、画像処理装置501によるジェスチャ認識処理について説明する。
なお、図31のフローチャートのステップS311,S315乃至S320の処理は、図14のステップS111,S114乃至S119の処理とそれぞれ同様であるので、その説明は省略する。
すなわち、ステップS312において、手検出部512は、手を検出する。
具体的には、手検出部512は、手辞書記録部511に記録されている手辞書と、撮影部11から供給された撮影画像とに基づいて、各フレームの撮影画像から手を検出し、その検出結果と撮影画像とを画像処理部513に供給する。
ステップS313において、認識領域設定部521は、手検出部512から供給された手の検出結果に基づいて、撮影画像上に認識領域を設定する。具体的には、認識領域設定部521は、撮影画像上で検出されたユーザの体の一部としての手の位置に基づいて、認識領域を設定する。
例えば、図32に示されるように、表示部12に表示される撮影画像において、ユーザU31の手が検出された場合、検出された手の領域HA1の位置を中心とした所定範囲の領域が、認識領域RA4として設定される。
ステップS313において、切り出し画像生成部522は、手検出部512から供給された手の検出結果に基づいて、認識領域設定部521により設定された認識領域に配置される複数の切り出し領域それぞれの大きさを決定し、認識領域内に配置する。具体的には、切り出し画像生成部522は、撮影画像上で検出された手の大きさに基づいて切り出し領域の大きさを決定し、認識領域内に配置する。
例えば、図33に示されるように、表示部12に表示される撮影画像において、ユーザU31の手が検出された場合、検出された手の領域HA1の大きさを基準として、切り出し領域RF9の大きさが決定され、認識領域RA4内に配置される。
以降、認識領域内に配置された認識枠が切り出され、その切り出し領域毎の画像の差分を求めて得られる差分画像から特徴量が抽出される。そして、時系列に並べた特徴量に基づいて時系列認識処理により、ユーザのジェスチャが認識し、その認識結果に応じた処理が行なわれる。
以上の処理においても、複数の切り出し領域について差分画像から特徴量を抽出してジェスチャ認識することで、より広い範囲でユーザのジェスチャを認識することができるようになる。
さらに、ユーザの手の位置に基づいて認識領域が設定されるので、明らかに認識処理の対象にならない領域に対しては、認識処理が行なわれないようになり、ジェスチャ認識にかかる処理の負荷を軽減することができるようになる。
なお、以上においても、切り出し領域は、認識領域内で重なりなく且つ隙間なく敷き詰められるようにしてもよいし、認識領域内で重なるように配置されるようにしてもよいし、認識領域内で所定の間隔をもって配置されるようにしてもよい。
また、以上においては、撮影画像上でユーザの体の一部を検出する手段として、ユーザの顔を検出する顔検出部412およびユーザの手を検出する手検出部512のいずれかを備える構成について説明したが、顔検出部412および手検出部512の両方を備える構成としてもよい。
〈第8の実施の形態〉
[画像処理装置の構成例]
そのような場合、画像処理装置は、例えば図34に示すように構成される。なお、図34において、図13における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。
図34の画像処理装置601は、撮影部11、顔辞書記録部411、顔検出部412、手辞書記録部511、手検出部512、画像処理部613、ジェスチャ辞書記録部54、ジェスチャ認識部312、動作処理部56、表示制御部57、および表示部12から構成される。
また、顔辞書記録部411および顔検出部412は、図26の画像処理装置401に設けられた構成と同一であり、手辞書記録部511および手検出部512は、図30の画像処理装置501に設けられた構成と同一であるので、その説明は省略する。なお、図34において、顔検出部412は、撮影部11から供給された撮影画像から顔を検出し、その検出結果と撮影画像を手検出部512に供給する。また、手検出部512は、顔検出部412から供給された撮影画像から手を検出し、その検出結果、顔の検出結果、および撮影画像を画像処理部611に供給する。
画像処理部613は、認識領域設定部621、切り出し画像生成部622、差分算出部72、および特徴量抽出部73を備えている。認識領域設定部621は、顔または手の検出結果に基づいて、認識領域を設定する。切り出し画像生成部622は、顔または手の検出結果に基づいて切り出し領域それぞれの大きさを決定し、認識領域に配置する。そして、切り出し画像生成部622は、撮影画像上に配置された切り出し領域の画像を切り出して切り出し画像とする。
なお、画像処理装置601によるジェスチャ認識処理は、上述した図27および図31のフローチャートの処理を組み合わせることで実現されるので、その詳細な説明は省略する。
一例を説明すると、画像処理装置601によるジェスチャ認識処理は、例えば、図27のフローチャートにおいて、ステップS212(顔の検出)の後に、図31のフローチャートのステップS312(手の検出)が行なわれ、ステップS213において、顔または手の位置に基づいた認識領域の設定、ステップS214において、顔または手の大きさに基づいた切り出し領域の大きさの決定が行なわれることで実現される。
なお、画像処理装置601によるジェスチャ認識処理においても、図27または図31のフローチャートを参照して説明したジェスチャ認識処理と同様の作用、効果を得ることができる。
ところで、上述した処理においては、認識対象となるジェスチャと似た動きの被写体が撮影された場合、その被写体の動きが、認識対象となるジェスチャとして誤認識される恐れがある。
例えば、図15に示されるユーザU31が行なうフリック動作についてジェスチャ認識が行なわれる場合、上述した処理においては、ユーザU31がその上体を左右に振る動作が、認識領域内の全体的な動きから、フリック動作として誤認識される恐れがある。
そこで、ジェスチャ認識処理を行なう画像処理装置において、ジェスチャの誤認識を防ぐ構成を設けるようにしてもよい。
〈第9の実施の形態〉
[画像処理装置の構成例]
そのような場合、画像処理装置は、例えば図35に示すように構成される。なお、図35において、図13における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。
図35の画像処理装置701は、撮影部11、画像処理部713、ジェスチャ辞書記録部54、ジェスチャ認識部712、動作処理部56、表示制御部57、および表示部12から構成される。
画像処理部711は、撮影部11から供給された撮影画像に基づいて、ジェスチャ認識のための特徴量を抽出し、ジェスチャ認識部712に供給するとともに、必要に応じて切り出し領域等の情報を表示制御部57に供給する。
画像処理部711は、認識領域設定部321、切り出し画像生成部322、差分算出部72、特徴量抽出部73、および動き判別部721を備えている。動き判別部721は、認識領域内の複数の注目点における動きベクトルの大きさに基づいて、認識領域内の動きを判別し、その判別結果をジェスチャ認識部712に供給する。
ジェスチャ認識部712は、動き判別部721から供給された判別結果に応じて、ジェスチャ辞書記録部54から供給されたジェスチャ辞書と、画像処理部711から供給された切り出し領域毎の特徴量とに基づいてジェスチャ認識を行ない、その認識結果を動作処理部56に供給する。
[ジェスチャ認識処理の説明]
次に、図36のフローチャートを参照して、画像処理装置701によるジェスチャ認識処理について説明する。
なお、図36のフローチャートのステップS411乃至S417,S420の処理は、図14のステップS111乃至S117,S119の処理と同様であるので、その説明は省略する。
すなわち、ステップS418において、動き判別部721は、動き判別処理を実行する。
[動き判別処理の説明]
ここで、図37のフローチャートを参照して、動き判別部721による動き判別処理について説明する。
ステップS451において、動き判別部721は、撮影部11から供給された撮影画像のオプティカルフローを用いて、認識領域内の複数の注目点における動きベクトルを算出する。注目点は、例えば、認識領域内の全体に亘って均一に設定されるものとする。また、各注目点における動きベクトルは、オプティカルフローを用いた手法に限らず、他の手法を用いて算出されるようにしてもよい。
ステップS452において、動き判別部721は、注目点毎に算出された動きベクトルを、注目する方向の大きさでソートする。ここで、注目する方向とは、認識対象となるジェスチャにおいて特に動きが大きくなる方向、この場合は、左右方向とされる。以下においては、撮影画像において、左右方向をx軸方向とし、上下方向をy軸方向とする。なお、x軸方向およびy軸方向において、正負の方向は任意とする。
ステップS453において、動き判別部721は、x軸方向の大きさでソートされた動きベクトル(具体的には、動きベクトルのx成分)を、その最大値で正規化する。
ステップS454において、動き判別部721は、x軸方向の大きさでソートされ、その大きさの最大値で正規化された動きベクトルのうち、負の値をもつ動きベクトルを正の値に変換する。
ステップS455において、動き判別部721は、x軸方向の大きさでソートされ、その大きさの最大値で正規化され、さらに正の値に変換された動きベクトルに対して、所定の閾値処理を行なう。
例えば、注目点毎に、図38に示されるような動きベクトルが算出されたとする。図38において、横軸は、注目点それぞれを表し、縦軸は、オプティカルフローを用いて算出された注目点毎の動きベクトルのx軸方向の大きさを表している。
図39は、このような動きベクトルを、その大きさでソートし、その大きさの最大値で正規化し、さらに負の値を正の値に変換した結果を示している。図39において、横軸上、最も左に示される動きベクトルが、x軸方向の大きさが最大となる動きベクトルであり、中央付近の大きさが略0の動きベクトルから右側に示される動きベクトルが、正の値に変換された動きベクトルである。また、図39においては、認識対象となるジェスチャに応じて決定される閾値曲線Cthが示されている。
すなわち、ステップS456においては、例えば図39に示される動きベクトルが、閾値曲線Cthを超えるか否かが判定される。
例えば、閾値曲線Cthが、左右のフリック動作に応じて決定されたものとする。ユーザが左右のフリック動作を行った場合、認識領域内の一部の領域のみで動きベクトルがx軸方向に大きくなるので、その動きベクトルが、x軸方向の大きさでソートされ、正規化され、さらに負の値が正の値に変換されると、図39に示されるような結果が得られる。この場合、動きベクトルのx軸方向の大きさは閾値曲線Cthを超えていないので、認識領域におけるユーザの動きは、左右のフリック動作である可能性があると言える。
一方、ユーザがその上体を左右に振る動作を行った場合、認識領域内の全体に近い領域で動きベクトルがx軸方向に大きくなるので、その動きベクトルが、大きさでソートされ、正規化され、さらに負の値が正の値に変換されると、全体的に高い値の動きベクトルが得られる。この場合、動きベクトルのx軸方向の大きさは横軸の中央付近で閾値曲線Cthを超えることになり、認識領域におけるユーザの動きは、左右のフリック動作である可能性はないと言える。
このようにして、ステップS456においては、動きベクトルが閾値曲線Cthを超えるか否かが判定されることで、ユーザの動きが認識対象となるジェスチャであるか否か判別される。動き判別部721は、その判別結果をジェスチャ認識部712に供給し、処理は図36のステップS418に戻る。
なお、認識対象となるジェスチャが、例えば、上下のフリック動作である場合、図37の動き判別処理においては、注目点毎の動きベクトルのy軸方向の大きさについて、上述した処理が行なわれるようになる。
図36のフローチャートに戻り、ステップS418の後、ステップS419において、ジェスチャ認識部712は、動き判別部721から供給された判別結果に応じて、ジェスチャ認識を行ない、その認識結果を動作処理部56に供給する。つまり、ユーザの動きが認識対象となるジェスチャである旨の判別結果が動き判別部721から供給された場合、ジェスチャ認識部712はジェスチャ認識を行なう。なお、ユーザの動きが認識対象となるジェスチャでない旨の判別結果が動き判別部721から供給された場合には、ジェスチャ認識部712はジェスチャ認識を行なわない。
以上のように、画像処理装置701は、撮影画像上の認識領域内の動きベクトルの大きさに基づいて、ユーザの動きを判別する。そして、画像処理装置701は、その判別結果に応じて、ユーザのジェスチャを認識し、その認識結果に応じた処理を行なう。
このように、ユーザの動きを判別することで、認識対象となるジェスチャと似た動きの被写体が撮影された場合であっても、その被写体の動きを、認識対象となるジェスチャとして誤認識することを防ぐことができる。
なお、上述した動き判別処理を実行する動き判別部721は、画像処理装置401,501,601に設けられるようにしてもよい。
ところで、以上においては、設定された認識領域には、同一の大きさの切り出し領域が配置されるものとしたが、複数種類の大きさの切り出し領域が配置されるようにしてもよい。
また、前フレームにおいてジェスチャ認識された領域については、処理対象となる現フレームにおいて、図23で示されたように、切り出し領域を認識領域内で重なるように配置することで、切り出し領域の密度を高めるようにしてもよい。これにより、ユーザが、上下方向または左右方向に多少ずれた位置でジェスチャを行なった場合でも、いずれかの切り出し領域においてジェスチャ認識が行われる可能性が高くなり、ジェスチャ認識の精度をさらに高めることが可能となる。
さらに、切り出し領域の大きさを小さくすることで、指の動作が手の動作のように認識されるようになれば、手による左右のフリック動作よりも小さい動作、例えば、指による左右のフリック動作をジェスチャ認識することも可能となる。
さらに、認識領域内の複数箇所のそれぞれにおいて、同時にジェスチャ認識が行なわれるようにしてもよい。これにより、例えば左右両方の手によるジェスチャが認識され、いわゆるマルチタッチのような操作入力を実現することが可能となる。
また、上述した第5乃至第9の実施の形態における処理の一部が、第3および第4の実施の形態の構成で説明したような、通信網等を介して接続された他の装置で行なわれるようにしてもよい。
〈システムへの適用例〉
ところで、上述してきたジェスチャ認識処理は、各種のシステムに適用することができる。
上述したジェスチャ認識処理は、例えば、図40の矢印Q61に示すように、表示部12に、図示せぬ記録媒体に記録されている画像データに対応するサムネイルPIC11−1乃至PIC11−6を表示するシステムに適用することができる。図40の矢印Q61においては、ユーザU31が、右から左へのフリック動作を行なうことで、表示部12において、サムネイルPIC11−1乃至PIC11−6が表示されている画面を左にスクロールさせることができるようになる。
また、上述したジェスチャ認識処理は、例えば、図40の矢印Q62に示すように、表示部12に、スライド式のスイッチSW12を表示するシステムに適用することができる。図40の矢印Q62においては、ユーザU31が、右から左へのフリック動作を行なうことで、表示部12において、表示されているスイッチSW12をOFFからONに切り替えることができるようになる。
さらに、上述したジェスチャ認識処理は、例えば、図示はしないが、テレビジョン受像機に適用することができる。この例においては、ユーザが、右から左へのフリック動作を行なうことで、番組のチャンネル選択や、テレビジョン受像機に接続されているレコーダなどの接続機器の選択を行なうことができるようになる。
以上の例に限らず、上述したジェスチャ認識処理は、表示部から離れた位置でのジェスチャによって、表示部の表示を制御するユーザインタフェースを備えるシステムに適用することが可能である。
なお、認識されるジェスチャは、左右のフリック動作に限らず、上下のフリック動作やその他の動作であってももちろんよい。
ところで、上述した一連の処理は、ハードウェアにより実行することもできるし、ソフトウェアにより実行することもできる。一連の処理をソフトウェアにより実行する場合には、そのソフトウェアを構成するプログラムが、コンピュータにインストールされる。ここで、コンピュータには、専用のハードウェアに組み込まれているコンピュータや、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどが含まれる。
図41は、上述した一連の処理をプログラムにより実行するコンピュータのハードウェアの構成例を示すブロック図である。
コンピュータにおいて、CPU(Central Processing Unit)901,ROM(Read Only Memory)902,RAM(Random Access Memory)903は、バス904により相互に接続されている。
バス904には、さらに、入出力インターフェース905が接続されている。入出力インターフェース905には、入力部906、出力部907、記録部908、通信部909、及びドライブ910が接続されている。
入力部906は、キーボード、マウス、マイクロホンなどよりなる。出力部907は、ディスプレイ、スピーカなどよりなる。記録部908は、ハードディスクや不揮発性のメモリなどよりなる。通信部909は、ネットワークインターフェースなどよりなる。ドライブ910は、磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリなどのリムーバブルメディア911を駆動する。
以上のように構成されるコンピュータでは、CPU901が、例えば、記録部908に記録されているプログラムを、入出力インターフェース905及びバス904を介して、RAM903にロードして実行することにより、上述した一連の処理が行なわれる。
コンピュータ(CPU901)が実行するプログラムは、例えば、パッケージメディア等としてのリムーバブルメディア911に記録して提供することができる。また、プログラムは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の伝送媒体を介して提供することができる。
コンピュータでは、プログラムは、リムーバブルメディア911をドライブ910に装着することにより、入出力インターフェース905を介して、記録部908にインストールすることができる。また、プログラムは、有線または無線の伝送媒体を介して、通信部909で受信し、記録部908にインストールすることができる。その他、プログラムは、ROM902や記録部908に、あらかじめインストールしておくことができる。
なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行なわれるプログラムであっても良いし、並列に、あるいは呼び出しが行なわれたとき等の必要なタイミングで処理が行なわれるプログラムであっても良い。
また、本技術の実施の形態は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。
例えば、本技術は、1つの機能をネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングの構成をとることができる。
また、上述のフローチャートで説明した各ステップは、1つの装置で実行する他、複数の装置で分担して実行することができる。
さらに、1つのステップに複数の処理が含まれる場合には、その1つのステップに含まれる複数の処理は、1つの装置で実行する他、複数の装置で分担して実行することができる。
さらに、本技術は、以下の構成とすることも可能である。
[1]
撮影画像上の所定領域を切り出して得られた切り出し画像のフレーム間差分を求めることで、差分画像を生成する差分画像生成部と、
前記差分画像から特徴量を抽出する特徴量抽出部と、
時系列に並ぶ複数の前記差分画像から得られた前記特徴量に基づいて、前記撮影画像上の対象物の特定の動きを認識する認識部と
を備える画像処理装置。
[2]
前記認識部は、前記対象物の特定の動きとして、ユーザの手によるジェスチャを認識する
[1]に記載の画像処理装置。
[3]
前記撮影画像から前記ユーザの手を検出する手検出部と、
検出された前記ユーザの手の前記撮影画像上の位置に基づいて、前記所定領域を決定する切り出し領域決定部と
をさらに備える[2]に記載の画像処理装置。
[4]
前記切り出し領域決定部は、連続する複数フレームの前記撮影画像について、検出された前記ユーザの手が前記撮影画像上の一定範囲内に位置している場合、前記ユーザの手の位置に基づいて、前記所定領域を決定する
[3]に記載の画像処理装置。
[5]
前記撮影画像上の各領域のフレーム間差分を求めることにより、前記所定領域を決定する切り出し領域決定部をさらに備える
[2]に記載の画像処理装置。
[6]
前記所定領域は、前記撮影画像上の予め定められた領域である
[2]に記載の画像処理装置。
[7]
前記撮影画像上で、複数の前記所定領域が配置される認識領域を設定する領域設定部をさらに備え、
前記差分画像生成部は、前記認識領域内に配置された前記所定領域毎の前記差分画像を生成し、
前記特徴量抽出部は、前記所定領域毎の前記差分画像から前記特徴量を抽出し、
前記認識部は、前記所定領域毎の、時系列に並ぶ複数の前記差分画像から得られた前記特徴量に基づいて、前記ユーザのジェスチャを認識する
[2]に記載の画像処理装置。
[8]
前記所定領域それぞれの大きさを決定し、前記認識領域内に配置する切り出し領域決定部をさらに備える
[7]に記載の画像処理装置。
[9]
前記撮影画像から前記ユーザの体の一部を検出する検出部をさらに備え、
前記領域設定部は、検出された前記ユーザの体の一部の撮影画像上の位置に基づいて、前記認識領域を設定する
[8]に記載の画像処理装置。
[10]
前記切り出し領域決定部は、検出された前記ユーザの体の一部の大きさに基づいて、前記所定領域それぞれの大きさを決定する
[9]に記載の画像処理装置。
[11]
前記検出部は、前記撮影画像から前記ユーザの顔を検出する
[9]に記載の画像処理装置。
[12]
前記検出部は、前記撮影画像から前記ユーザの手を検出する
[9]に記載の画像処理装置。
[13]
前記認識領域内の動きベクトルの大きさに基づいて、前記認識領域における動きを判別する動き判別部をさらに備え、
前記認識部は、前記動き判別部による判別結果に応じて、前記ユーザのジェスチャを認識する
[7]乃至[12]の何れかに記載の画像処理装置。
[14]
前記撮影画像上の前記ユーザと、前記所定領域の位置を示す画像とを表示部に表示させる表示制御部をさらに備える
[2]乃至[13]の何れかに記載の画像処理装置。
[15]
前記ユーザのジェスチャが認識された場合、認識されたジェスチャに応じた処理を実行させる動作処理部をさらに備える
[14]に記載の画像処理装置。
[16]
前記表示制御部は、前記所定領域の位置を示す前記画像を複数前記表示部に表示させ、
前記動作処理部は、複数の前記所定領域のうちの前記ユーザのジェスチャが認識された前記所定領域と、認識されたジェスチャとにより定まる処理を実行させる
[15]に記載の画像処理装置。
[17]
前記表示制御部は、ジェスチャ認識が行なわれている旨の表示、または前記ユーザのジェスチャが認識された旨の表示を前記表示部に行なわせる
[14]乃至[16]の何れかに記載の画像処理装置。
[18]
前記特徴量抽出部は、前記差分画像を複数のブロックに分割し、前記ブロック内の画素の平均輝度を前記ブロックの前記特徴量として抽出する
[2]乃至[17]の何れかに記載の画像処理装置。
12 表示部, 41 画像処理装置, 52 手形状認識部, 53 画像処理部, 55 ジェスチャ認識部, 57 表示制御部, 71 切り出し領域決定部, 72 差分算出部, 73 特徴量抽出部, 101 画像処理装置, 121 切り出し画像生成部, 301 画像処理装置, 311 画像処理部, 312 ジェスチャ認識部, 321 認識領域設定部, 322 切り出し画像生成部, 401 画像処理装置, 412 顔検出部, 413 画像処理部, 421 認識領域設定部, 422 切り出し画像生成部, 501 画像処理装置, 512 手検出部, 513 画像処理部, 521 認識領域設定部, 522 切り出し画像生成部, 601 画像処理装置, 611 画像処理部, 621 認識領域設定部, 622 切り出し画像生成部, 701 画像処理装置, 711 画像処理部, 721 動き判別部

Claims (20)

  1. 撮影画像上の所定領域を切り出して得られた切り出し画像のフレーム間差分を求めることで、差分画像を生成する差分画像生成部と、
    前記差分画像から特徴量を抽出する特徴量抽出部と、
    時系列に並ぶ複数の前記差分画像から得られた前記特徴量に基づいて、前記撮影画像上の対象物の特定の動きを認識する認識部と
    を備える画像処理装置。
  2. 前記認識部は、前記対象物の特定の動きとして、ユーザの手によるジェスチャを認識する
    請求項1に記載の画像処理装置。
  3. 前記撮影画像から前記ユーザの手を検出する手検出部と、
    検出された前記ユーザの手の前記撮影画像上の位置に基づいて、前記所定領域を決定する切り出し領域決定部と
    をさらに備える請求項2に記載の画像処理装置。
  4. 前記切り出し領域決定部は、連続する複数フレームの前記撮影画像について、検出された前記ユーザの手が前記撮影画像上の一定範囲内に位置している場合、前記ユーザの手の位置に基づいて、前記所定領域を決定する
    請求項3に記載の画像処理装置。
  5. 前記撮影画像上の各領域のフレーム間差分を求めることにより、前記所定領域を決定する切り出し領域決定部をさらに備える
    請求項2に記載の画像処理装置。
  6. 前記所定領域は、前記撮影画像上の予め定められた領域である
    請求項2に記載の画像処理装置。
  7. 前記撮影画像上で、複数の前記所定領域が配置される認識領域を設定する領域設定部をさらに備え、
    前記差分画像生成部は、前記認識領域内に配置された前記所定領域毎の前記差分画像を生成し、
    前記特徴量抽出部は、前記所定領域毎の前記差分画像から前記特徴量を抽出し、
    前記認識部は、前記所定領域毎の、時系列に並ぶ複数の前記差分画像から得られた前記特徴量に基づいて、前記ユーザのジェスチャを認識する
    請求項2に記載の画像処理装置。
  8. 前記所定領域それぞれの大きさを決定し、前記認識領域内に配置する切り出し領域決定部をさらに備える
    請求項7に記載の画像処理装置。
  9. 前記撮影画像から前記ユーザの体の一部を検出する検出部をさらに備え、
    前記領域設定部は、検出された前記ユーザの体の一部の撮影画像上の位置に基づいて、前記認識領域を設定する
    請求項8に記載の画像処理装置。
  10. 前記切り出し領域決定部は、検出された前記ユーザの体の一部の大きさに基づいて、前記所定領域それぞれの大きさを決定する
    請求項9に記載の画像処理装置。
  11. 前記検出部は、前記撮影画像から前記ユーザの顔を検出する
    請求項9に記載の画像処理装置。
  12. 前記検出部は、前記撮影画像から前記ユーザの手を検出する
    請求項9に記載の画像処理装置。
  13. 前記認識領域内の動きベクトルの大きさに基づいて、前記認識領域における動きを判別する動き判別部をさらに備え、
    前記認識部は、前記動き判別部による判別結果に応じて、前記ユーザのジェスチャを認識する
    請求項7に記載の画像処理装置。
  14. 前記撮影画像上の前記ユーザと、前記所定領域の位置を示す画像とを表示部に表示させる表示制御部をさらに備える
    請求項2に記載の画像処理装置。
  15. 前記ユーザのジェスチャが認識された場合、認識されたジェスチャに応じた処理を実行させる動作処理部をさらに備える
    請求項14に記載の画像処理装置。
  16. 前記表示制御部は、前記所定領域の位置を示す前記画像を複数前記表示部に表示させ、
    前記動作処理部は、複数の前記所定領域のうちの前記ユーザのジェスチャが認識された前記所定領域と、認識されたジェスチャとにより定まる処理を実行させる
    請求項15に記載の画像処理装置。
  17. 前記表示制御部は、ジェスチャ認識が行なわれている旨の表示、または前記ユーザのジェスチャが認識された旨の表示を前記表示部に行なわせる
    請求項16に記載の画像処理装置。
  18. 前記特徴量抽出部は、前記差分画像を複数のブロックに分割し、前記ブロック内の画素の平均輝度を前記ブロックの前記特徴量として抽出する
    請求項2に記載の画像処理装置。
  19. 撮影画像上の所定領域を切り出して得られた切り出し画像のフレーム間差分を求めることで、差分画像を生成し、
    前記差分画像から特徴量を抽出し、
    時系列に並ぶ複数の前記差分画像から得られた前記特徴量に基づいて、前記撮影画像上の対象物の特定の動きを認識する
    ステップを含む画像処理方法。
  20. 撮影画像上の所定領域を切り出して得られた切り出し画像のフレーム間差分を求めることで、差分画像を生成し、
    前記差分画像から特徴量を抽出し、
    時系列に並ぶ複数の前記差分画像から得られた前記特徴量に基づいて、前記撮影画像上の対象物の特定の動きを認識する
    ステップを含む処理をコンピュータに実行させるプログラム。
JP2012265234A 2012-01-13 2012-12-04 画像処理装置および方法、並びにプログラム Pending JP2013164834A (ja)

Priority Applications (5)

Application Number Priority Date Filing Date Title
JP2012265234A JP2013164834A (ja) 2012-01-13 2012-12-04 画像処理装置および方法、並びにプログラム
US13/734,010 US9165181B2 (en) 2012-01-13 2013-01-04 Image processing device, method and program for moving gesture recognition using difference images
CN2013100038150A CN103207985A (zh) 2012-01-13 2013-01-06 图像处理装置及其方法和程序
US14/887,209 US9940507B2 (en) 2012-01-13 2015-10-19 Image processing device and method for moving gesture recognition using difference images
US15/939,682 US10565437B2 (en) 2012-01-13 2018-03-29 Image processing device and method for moving gesture recognition using difference images

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2012004837 2012-01-13
JP2012004837 2012-01-13
JP2012265234A JP2013164834A (ja) 2012-01-13 2012-12-04 画像処理装置および方法、並びにプログラム

Publications (1)

Publication Number Publication Date
JP2013164834A true JP2013164834A (ja) 2013-08-22

Family

ID=48755202

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012265234A Pending JP2013164834A (ja) 2012-01-13 2012-12-04 画像処理装置および方法、並びにプログラム

Country Status (3)

Country Link
US (3) US9165181B2 (ja)
JP (1) JP2013164834A (ja)
CN (1) CN103207985A (ja)

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016540322A (ja) * 2013-09-23 2016-12-22 サムスン エレクトロニクス カンパニー リミテッド ディスプレイ装置及びディスプレイ装置のモーション認識方法
JP2018092206A (ja) * 2016-11-30 2018-06-14 セイコーエプソン株式会社 頭部装着型表示装置、プログラム、及び頭部装着型表示装置の制御方法
JP2018124801A (ja) * 2017-02-01 2018-08-09 株式会社エクスビジョン ジェスチャ認識装置およびジェスチャ認識プログラム
WO2018155258A1 (en) 2017-02-21 2018-08-30 Sony Semiconductor Solutions Corporation Video transmission apparatus and video reception apparatus
WO2018225449A1 (ja) 2017-06-09 2018-12-13 ソニーセミコンダクタソリューションズ株式会社 映像送信装置および映像受信装置
WO2019093072A1 (en) 2017-11-10 2019-05-16 Sony Semiconductor Solutions Corporation Transmission device and method with region of interest mode selection
WO2019092952A1 (ja) 2017-11-10 2019-05-16 ソニーセミコンダクタソリューションズ株式会社 送信装置
WO2019193842A1 (ja) 2018-04-05 2019-10-10 ソニーセミコンダクタソリューションズ株式会社 送信装置、受信装置、及び通信システム
WO2020246401A1 (ja) * 2019-06-05 2020-12-10 ソニーセミコンダクタソリューションズ株式会社 画像認識装置および画像認識方法
WO2020261815A1 (ja) 2019-06-28 2020-12-30 ソニーセミコンダクタソリューションズ株式会社 送信装置、受信装置及び伝送システム
WO2020261813A1 (ja) 2019-06-28 2020-12-30 ソニーセミコンダクタソリューションズ株式会社 送信装置、受信装置及び伝送システム
WO2020261814A1 (ja) 2019-06-28 2020-12-30 ソニーセミコンダクタソリューションズ株式会社 送信装置、受信装置及び伝送システム
WO2020261816A1 (ja) 2019-06-28 2020-12-30 ソニーセミコンダクタソリューションズ株式会社 送信装置、受信装置及び伝送システム
WO2021020214A1 (ja) 2019-07-31 2021-02-04 ソニーセミコンダクタソリューションズ株式会社 送信装置、受信装置及び通信システム
US20220254136A1 (en) * 2021-02-10 2022-08-11 Nec Corporation Data generation apparatus, data generation method, and non-transitory computer readable medium
JP2022553035A (ja) * 2019-12-06 2022-12-21 ▲広▼▲東▼美的白色家▲電▼技▲術▼▲創▼新中心有限公司 食物の調理程度に対する認識方法、装置及びコンピュータ記憶媒体
US11900572B2 (en) 2020-03-31 2024-02-13 Sony Semiconductor Solutions Corporation Transmission device, reception device, and transmission system
US12028618B2 (en) 2017-02-21 2024-07-02 Sony Semiconductor Solutions Corporation Video transmission apparatus and video reception apparatus

Families Citing this family (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014002803A1 (ja) * 2012-06-25 2014-01-03 オムロン株式会社 モーションセンサ、物体動作検知方法及び遊技機
CN103576848B (zh) * 2012-08-09 2016-07-13 腾讯科技(深圳)有限公司 手势操作方法和手势操作装置
US9600993B2 (en) * 2014-01-27 2017-03-21 Atlas5D, Inc. Method and system for behavior detection
JP6287382B2 (ja) * 2014-03-12 2018-03-07 オムロン株式会社 ジェスチャ認識装置およびジェスチャ認識装置の制御方法
CN105100671A (zh) * 2014-05-20 2015-11-25 西安中兴新软件有限责任公司 一种基于视频通话的图像处理方法和装置
KR101636460B1 (ko) * 2014-11-05 2016-07-05 삼성전자주식회사 전자 장치 및 그 제어 방법
BR102015014422B1 (pt) * 2015-06-17 2024-01-23 Samsung Eletrônica Da Amazônia Ltda Método para comunicação entre dispositivos eletrônicos através da interação de usuários com objetos
JP6433389B2 (ja) * 2015-08-04 2018-12-05 キヤノン株式会社 画像処理装置、画像処理方法およびプログラム
JP6841232B2 (ja) * 2015-12-18 2021-03-10 ソニー株式会社 情報処理装置、情報処理方法、及びプログラム
JP2017126254A (ja) * 2016-01-15 2017-07-20 キヤノン株式会社 情報処理装置、情報処理方法、およびプログラム
US11017901B2 (en) 2016-08-02 2021-05-25 Atlas5D, Inc. Systems and methods to identify persons and/or identify and quantify pain, fatigue, mood, and intent with protection of privacy
JP6559359B2 (ja) * 2016-09-01 2019-08-14 三菱電機株式会社 ジェスチャー判定装置、ジェスチャー操作装置、及びジェスチャー判定方法
CN106557767B (zh) * 2016-11-15 2019-04-09 北京唯迈医疗设备有限公司 一种确定介入影像中roi区域的方法
WO2018235198A1 (ja) * 2017-06-21 2018-12-27 日本電気株式会社 情報処理装置、制御方法、及びプログラム
WO2018108333A1 (en) * 2017-07-13 2018-06-21 At Monitor Limited Video frame processing for motion comparison
US10275646B2 (en) 2017-08-03 2019-04-30 Gyrfalcon Technology Inc. Motion recognition via a two-dimensional symbol having multiple ideograms contained therein
JP6812387B2 (ja) * 2018-07-02 2021-01-13 キヤノン株式会社 画像処理装置及び画像処理方法、プログラム、記憶媒体
CN109117753B (zh) * 2018-07-24 2021-04-20 广州虎牙信息科技有限公司 部位识别方法、装置、终端及存储介质
CN109063622B (zh) * 2018-07-26 2021-04-23 高新兴科技集团股份有限公司 一种定位的方法和设备
JP7374581B2 (ja) * 2018-10-01 2023-11-07 カシオ計算機株式会社 ロボット、画像処理方法及びプログラム
CN109711363B (zh) * 2018-12-29 2021-02-19 百度在线网络技术(北京)有限公司 车辆定位方法、装置、设备和存储介质
JP7196645B2 (ja) * 2019-01-31 2022-12-27 コニカミノルタ株式会社 姿勢推定装置、行動推定装置、姿勢推定プログラム、および姿勢推定方法
US11106949B2 (en) * 2019-03-22 2021-08-31 Microsoft Technology Licensing, Llc Action classification based on manipulated object movement
CN112183271A (zh) * 2020-09-18 2021-01-05 海宁奕斯伟集成电路设计有限公司 一种图像处理的方法及装置
WO2022061826A1 (en) * 2020-09-27 2022-03-31 Shanghai United Imaging Healthcare Co., Ltd. System and method for medical imaging
CN113038216A (zh) * 2021-03-10 2021-06-25 深圳创维-Rgb电子有限公司 指令获得方法、电视机、服务器以及存储介质
CN113487646A (zh) * 2021-07-22 2021-10-08 合肥英睿***技术有限公司 一种运动目标检测方法、装置、设备及存储介质

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3947973B2 (ja) * 2003-02-14 2007-07-25 ソニー株式会社 画像処理装置および方法、プログラム、並びに記録媒体
KR100687737B1 (ko) * 2005-03-19 2007-02-27 한국전자통신연구원 양손 제스쳐에 기반한 가상 마우스 장치 및 방법
JP2007087089A (ja) 2005-09-21 2007-04-05 Fujitsu Ltd ジェスチャ認識装置、ジェスチャ認識プログラムおよびジェスチャ認識方法
JP4267648B2 (ja) * 2006-08-25 2009-05-27 株式会社東芝 インターフェース装置及びその方法
CN101406390B (zh) * 2007-10-10 2012-07-18 三星电子株式会社 检测人体部位和人的方法和设备以及对象检测方法和设备
JP5166409B2 (ja) * 2007-11-29 2013-03-21 株式会社東芝 映像処理方法および映像処理装置
JP4548542B1 (ja) * 2009-06-30 2010-09-22 ソニー株式会社 情報処理装置、情報処理方法及びプログラム
US8565479B2 (en) * 2009-08-13 2013-10-22 Primesense Ltd. Extraction of skeletons from 3D maps
JP5659510B2 (ja) * 2010-03-10 2015-01-28 ソニー株式会社 画像処理装置、画像処理方法及びプログラム
CN102222343A (zh) * 2010-04-16 2011-10-19 上海摩比源软件技术有限公司 人体运动跟踪方法及其***
CN102096471B (zh) * 2011-02-18 2013-04-10 广东威创视讯科技股份有限公司 一种基于机器视觉的人机交互方法
JP2013080413A (ja) * 2011-10-05 2013-05-02 Sony Corp 入力装置、入力認識方法
JP2014048936A (ja) * 2012-08-31 2014-03-17 Omron Corp ジェスチャ認識装置、その制御方法、表示機器、および制御プログラム

Cited By (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016540322A (ja) * 2013-09-23 2016-12-22 サムスン エレクトロニクス カンパニー リミテッド ディスプレイ装置及びディスプレイ装置のモーション認識方法
JP2018092206A (ja) * 2016-11-30 2018-06-14 セイコーエプソン株式会社 頭部装着型表示装置、プログラム、及び頭部装着型表示装置の制御方法
JP2018124801A (ja) * 2017-02-01 2018-08-09 株式会社エクスビジョン ジェスチャ認識装置およびジェスチャ認識プログラム
US11323617B2 (en) 2017-02-21 2022-05-03 Sony Semiconductor Solutions Corporation Video transmission apparatus and video reception apparatus
WO2018155258A1 (en) 2017-02-21 2018-08-30 Sony Semiconductor Solutions Corporation Video transmission apparatus and video reception apparatus
US12028618B2 (en) 2017-02-21 2024-07-02 Sony Semiconductor Solutions Corporation Video transmission apparatus and video reception apparatus
KR20230036167A (ko) 2017-06-09 2023-03-14 소니 세미컨덕터 솔루션즈 가부시키가이샤 영상 송신 장치 및 영상 수신 장치
KR20200016229A (ko) 2017-06-09 2020-02-14 소니 세미컨덕터 솔루션즈 가부시키가이샤 영상 송신 장치 및 영상 수신 장치
WO2018225449A1 (ja) 2017-06-09 2018-12-13 ソニーセミコンダクタソリューションズ株式会社 映像送信装置および映像受信装置
KR20200087134A (ko) 2017-11-10 2020-07-20 소니 세미컨덕터 솔루션즈 가부시키가이샤 관심 영역 모드 선택을 갖는 송신 장치 및 방법
KR20200087751A (ko) 2017-11-10 2020-07-21 소니 세미컨덕터 솔루션즈 가부시키가이샤 송신 장치
US11606527B2 (en) 2017-11-10 2023-03-14 Sony Semiconductor Solutions Corporation Transmitter
WO2019093072A1 (en) 2017-11-10 2019-05-16 Sony Semiconductor Solutions Corporation Transmission device and method with region of interest mode selection
US11074023B2 (en) 2017-11-10 2021-07-27 Sony Semiconductor Solutions Corporation Transmission device
WO2019092952A1 (ja) 2017-11-10 2019-05-16 ソニーセミコンダクタソリューションズ株式会社 送信装置
US11297279B2 (en) 2018-04-05 2022-04-05 Sony Semiconductor Solutions Corporation Transmission device, reception device, and communication system
WO2019193842A1 (ja) 2018-04-05 2019-10-10 ソニーセミコンダクタソリューションズ株式会社 送信装置、受信装置、及び通信システム
WO2020246401A1 (ja) * 2019-06-05 2020-12-10 ソニーセミコンダクタソリューションズ株式会社 画像認識装置および画像認識方法
TWI830907B (zh) * 2019-06-05 2024-02-01 日商索尼半導體解決方案公司 圖像辨識裝置及圖像辨識方法
WO2020261813A1 (ja) 2019-06-28 2020-12-30 ソニーセミコンダクタソリューションズ株式会社 送信装置、受信装置及び伝送システム
KR20220031556A (ko) 2019-06-28 2022-03-11 소니 세미컨덕터 솔루션즈 가부시키가이샤 송신 장치, 수신 장치 및 전송 시스템
WO2020261816A1 (ja) 2019-06-28 2020-12-30 ソニーセミコンダクタソリューションズ株式会社 送信装置、受信装置及び伝送システム
US11695883B2 (en) 2019-06-28 2023-07-04 Sony Semiconductor Solutions Corporation Transmitting apparatus, receiving apparatus, and transmission system
US11871008B2 (en) 2019-06-28 2024-01-09 Sony Semiconductor Solutions Corporation Transmitting apparatus, receiving apparatus, and transmission system
WO2020261814A1 (ja) 2019-06-28 2020-12-30 ソニーセミコンダクタソリューションズ株式会社 送信装置、受信装置及び伝送システム
WO2020261815A1 (ja) 2019-06-28 2020-12-30 ソニーセミコンダクタソリューションズ株式会社 送信装置、受信装置及び伝送システム
KR20220037445A (ko) 2019-07-31 2022-03-24 소니 세미컨덕터 솔루션즈 가부시키가이샤 송신 장치, 수신 장치 및 통신 시스템
WO2021020214A1 (ja) 2019-07-31 2021-02-04 ソニーセミコンダクタソリューションズ株式会社 送信装置、受信装置及び通信システム
JP2022553035A (ja) * 2019-12-06 2022-12-21 ▲広▼▲東▼美的白色家▲電▼技▲術▼▲創▼新中心有限公司 食物の調理程度に対する認識方法、装置及びコンピュータ記憶媒体
JP7315272B2 (ja) 2019-12-06 2023-07-26 ▲広▼▲東▼美的白色家▲電▼技▲術▼▲創▼新中心有限公司 食物の調理程度に対する認識方法、装置及びコンピュータ記憶媒体
US11900572B2 (en) 2020-03-31 2024-02-13 Sony Semiconductor Solutions Corporation Transmission device, reception device, and transmission system
US20220254136A1 (en) * 2021-02-10 2022-08-11 Nec Corporation Data generation apparatus, data generation method, and non-transitory computer readable medium

Also Published As

Publication number Publication date
US9165181B2 (en) 2015-10-20
US20180218202A1 (en) 2018-08-02
US20160110592A1 (en) 2016-04-21
US20130182898A1 (en) 2013-07-18
US10565437B2 (en) 2020-02-18
CN103207985A (zh) 2013-07-17
US9940507B2 (en) 2018-04-10

Similar Documents

Publication Publication Date Title
JP2013164834A (ja) 画像処理装置および方法、並びにプログラム
US9589595B2 (en) Selection and tracking of objects for display partitioning and clustering of video frames
US20180024643A1 (en) Gesture Based Interface System and Method
US9104242B2 (en) Palm gesture recognition method and device as well as human-machine interaction method and apparatus
EP2344983B1 (en) Method, apparatus and computer program product for providing adaptive gesture analysis
US10095033B2 (en) Multimodal interaction with near-to-eye display
US9405373B2 (en) Recognition apparatus
US11809637B2 (en) Method and device for adjusting the control-display gain of a gesture controlled electronic device
JP5703194B2 (ja) ジェスチャ認識装置、その方法、及び、そのプログラム
JP5381569B2 (ja) ジェスチャ認識装置、ジェスチャ認識方法、およびジェスチャ認識プログラム
KR20090119107A (ko) 차영상 엔트로피를 이용한 시선 추적 장치 및 그 방법
US20160093315A1 (en) Electronic device, method and storage medium
KR20140012757A (ko) 시각 장애 사용자들에 의한 이미지 캡처 및 이미지 검토의 촉진
WO2014021755A2 (en) Improved video tracking
JP2018081630A (ja) 検索装置、検索方法およびプログラム
JP2016099643A (ja) 画像処理装置、画像処理方法および画像処理プログラム
US20180336435A1 (en) Apparatus and method for classifying supervisory data for machine learning
CN103870146B (zh) 一种信息处理方法及电子设备
CN109565541B (zh) 促进捕捉数字图像的方法、设备和***
JP2018013913A (ja) 行動認識装置、行動認識方法、学習方法、およびプログラム
JP2020135587A (ja) 情報処理装置、および情報処理方法、並びにプログラム
Baldauf et al. Towards Markerless Visual Finger Detection for Gestural Interaction with Mobile Devices