JP2007114885A

JP2007114885A - 画像の類似性による分類方法及び装置

Info

Publication number: JP2007114885A
Application number: JP2005303452A
Authority: JP
Inventors: Atsushi Yoshimoto; 淳善本
Original assignee: National Institute of Information and Communications Technology
Current assignee: National Institute of Information and Communications Technology
Priority date: 2005-10-18
Filing date: 2005-10-18
Publication date: 2007-05-10

Abstract

【課題】撮像対象の動作など変化に関する情報を、撮像画像から得て、その画像における変化のパターンを撮像に平行して分類するための方法及び装置を提供すること。
【解決手段】動作をしうる対象体を撮像可能な複数の撮像手段と、その撮像手段によって得られた画像情報を少なくとも記録する記憶手段と、撮像手段によって得られた画像情報を少なくとも解析する演算手段とを備え、対象体を撮像して得た複数の画像における変化のパターンを分類する方法において、撮像手段によって対象体を連続的に撮像し、それら連続的に撮像された画像情報の差分から、撮像単位時間の間に発生した画像情報の変化量を求め、現時刻から所定の対象時間内における変化パターンを変数として（例えばクラスター分析を利用して）分類することによって、現時刻から所定の対象時間内における画像情報をほぼリアルタイムに分類する。
【選択図】図２

Description

本発明は、例えば人が習慣的に何度も発生させる、比較的短時間に収まる特徴的な動作など、撮像画像から類似性に基づいて分類する方法と、それを実施する装置に関する。

近年、電子電気的な受光素子の大量生産化に伴い、ビデオ等の撮像手段の価格の廉価化が激しい。安価な監視用撮像手段を手に入れることも容易になった今、多数の監視用撮像手段を設置し、会社設備などをいくつもの視点から監視するのも容易になった。
しかしながら、撮像手段を増やせば増やすほど、それらが撮像した映像も増えてしまうので、撮像手段や撮像データをもてあましているのが現状である。
撮像手段と１対１に対応づけられたディスプレイ等の表示手段を考えた場合は、その表示手段の大きさや設置スペースも問題となる。一人の監視員で50台も100台もの多数を監視するのも困難である。

例えば撮像手段４台に対して表示手段１台を割り振り、時間を４分割して、表示手段に画像情報を供給する撮像手段を自動的に切り替える方法がある。
しかし、これは3/4の映像を捨てていることになり、その間に監視したい出来事が発生するかもしれないので、万全な方法とはいいがたい。

それに対し、動作のある映像のみを表示し、動作のない映像は捨象するという方法がある。
しかし、例えば50台の撮像装置において同時に動作が発生した場合、結局は50台分の映像をチェックする必要が生じてしまう。

複数の撮像手段から類似性の高い撮像データが出力されている場合、いずれかの撮像手段を停止させても支障はない。しかし、この類似性の判断は人間の経験や主観に依存するところが大きく、これを自動的に行う装置は従来にはなかった。

例えば、聴衆がホールで講演者の話を聞いている場合を考えると、聴衆のなかには、頷く者もいたり、首を捻る者もいたり、不動の者もいたりする。彼らの動作を分類するには、全聴衆を映せるような撮像手段を用意し、その後、人手を使って各聴衆の動作を判断し分類するのが従来の一般的な方法である。また、話題の受け容れ状態を判断するには、現在は講演者が講演最中に全聴衆を観察して、その様子から判断するしか方法がない。
仮にこの聴衆一人一人に対し、撮像装置が設置されていたとしても、現在の技術では、結局人手によって聴衆一人一人を分類することになるだろう。
もし、ここで、講演者が講演を始めから今までの時間において、聴衆の頷き、首の捻り、不動の比率の変化や、聴衆の動作の一致状態を知ることができたら、それにあわせて話の内容を合理的に臨機応変に変えることができる。

また、例えば電話をする時など、相手の顔を見ないで話す場合にも、頭部等の動作が表出することは、よく知られた現象である。人間は、対話時に無意識に各人固有の頭部動作が表出しやすい傾向があり、またそれは個人によって癖のある、所謂個性的である場合も少なくない。そのような人体の頭部動作など、撮像対象の動作に関する非言語情報の意味がわかれば、マンマシンインタフェースの補助に使用するなど、諸々の場面に活用することができる。
しかし、従来には、撮像対象の動作に関する非言語情報を有効に、かつ具体的に活用や分類もせずにこれら非言語情報は利用されることもなく捨てられてきた。

そこで、本発明は、撮像対象の動作など変化に関する情報を、撮像画像から得て、その画像における変化のパターンを類似性によって分類する方法と、それを実施する装置を提供することを課題とする。

上記課題を解決するために、本発明の動きのある画像の分類方法は、動作をしうる対象体を撮像可能な複数の撮像手段と、その撮像手段によって得られた画像情報を少なくとも記録する記憶手段と、撮像手段によって得られた画像情報を少なくとも解析する演算手段とを備え、対象体を撮像して得た複数の画像における変化のパターンを分類する方法において、撮像手段によって対象体を連続的に撮像し、それら連続的に撮像された画像情報の差分から、撮像単位時間の間に発生した画像情報の変化量を求め、現時刻から所定の対象時間内における変化パターンを変数として類似性を比較し、類似度の高い動作同士を同一動作として分類することによって、所定の対象時間内における画像情報をその動作の種類によって随時分類することを特徴とする。
類似性によって分類する方法は、例えば各特徴を数値化して比較することによるクラスター分析などがある。

ここで、時間経過によって発生した画像情報の変化量をフーリエ変換し、それにより得られる連続した撮像画像情報に内包されている周波数及び強度を、類似性分類のための変数として用いて、有効な分類に寄与させてもよい。これによって複数回連続した動作や複合した動作は、単数や個別の動作へと還元することが可能となり、単離できないが故に別の動作と分類されていたところを回避することが可能になる。

例えば分類にクラスター分析を用いる場合、撮像画像情報に変化が発生するタイミングに重み付けをした変数を用いて分析を行い、目的に沿った有効な分類に寄与させてもよい。

分類された各類似動作を代表する画像を、表示手段に出力して、視認に寄与させてもよい。

典型的な変化パターンを、頻出する周期的変化、頻出しない周期的変化、非周期的変化、無変化、の４状態に分類し、その４状態への分類状況を、分類後即座に表示手段に出力して示して、分類結果の活用に寄与させてもよい。

複数の変化パターン間の類似関係を定め、撮像画像を、その変化パターン間の類似関係に基づいて表示手段に階層表示して、分類結果の活用に寄与させてもよい。

典型的な変化パターン例を予め用意しておき、その典型例と分類された画像情報の入力は、即座に表示手段に出力して示して、分類結果の活用に寄与させてもよい。

このような分類を実施する本発明装置は、動作をしうる対象体を撮像可能な複数の撮像手段と、その撮像手段によって得られた画像情報を少なくとも記録する記憶手段と、撮像手段によって得られた画像情報を少なくとも解析する演算手段とを備え、対象体を撮像して得た複数の画像における変化のパターンを分類する装置において、対象体を連続的に撮像する撮像手段と、撮像手段で連続的に撮像された画像情報を記録する記憶手段と、記憶手段に蓄積された画像情報の差分から、撮像単位時間の間に発生した画像情報の変化量を算出し、現時刻から所定の対象時間内における変化パターンを変数として分析することによって、現時刻から所定の対象時間内における画像情報を略リアルタイムに分類する演算手段とを有することを特徴とする。なお、変化パターンを変数として分析することは、類似性に従って分類することによる。
また、以上において、略リアルタイムに分類するとは、分類対象の単位動作の完了後即座に分類処理を行うということである。

本発明によると、連続的に撮像した画像の変化から撮像画像を動作後すぐに分類可能なので、その分類状況を随時利用したり、特定の対象物や事象の発生を検知することに利用できる。

以下に、図面を基に本発明の実施形態を説明する。
本実施例では、ビデオカメラ等の複数台の撮像手段で同時に撮像した動画像を、分類の対象としている。また、撮像手段から出力される撮像データは、ＣＰＵ等の演算手段やＨＤ等の記憶手段を備えＣＲＴ等の表示手段に接続されたコンピュータに入力されて処理される。なお、ここでは、撮像手段と被写体との間の距離や、撮像手段とコンピュータとの間のデータ伝送遅延は実質上は無視できるものとする。

複数の撮像画像を比べて、それらが「似ている」か或いは「似ていない」かについて類似性を判断するには、以下のように行う。
仮に、撮像手段αがある動画像Ｍを撮像し、それと全く同じ動画像Ｍを１秒遅れで撮像手段βが撮像したとする。この場合、１秒の時間差はあるものの動画の内容は同一であるが、ここでは「似ていない」と判断する。ここでは、異なる位置にセットされた異なる撮像手段が、同一被写体を撮像し、類似した動画像Ｍを得た場合に「似ている」と判断する。そのために重要となるのは、動作の発生から終了までのタイミングの同一性と、動作の内容自体の類似性となる。

処理を容易にするために、動画像情報を時間軸に沿って加工する。
ここでの加工とは、動画を構成する１フレーム画像の各ピクセルにおいて、フレーム間での差異、例えば輝度差の絶対値の総和、を数値として表現することを意味する。

撮像データが白黒画像情報ならば、時刻tにおいて撮像手段が撮像したフレーム画像内の座標(x,y)における輝度は、として表現できる。撮像データがカラー画像情報ならば、時刻tにおいて撮像手段が撮像したフレーム画像内の座標(x,y)における赤、緑、青の強度は、それぞれ, , として表現できる。

輝度と赤緑青の強度との間には、一般的に次式が成り立つ。
（数１）

ここで、Cr, Cg, Cbは赤緑青各色の補正係数であり、経験則として一般的にCr= 0.298912, Cg=0.586611, Cb=0.114478が利用されることが多い。撮像手段の特性や撮像手段が映す画像の光源等の条件によって、Cr, Cg, Cbの値を変えることも望ましい。この式から白黒画像であってもカラー画像であっても、ともに以下に述べる方法が利用できる。

画像が縦h, 横wピクセルから構成されているとすると、下式のd(t)で示される数値は、時刻tにおいて、１フレームの時間に相当するΔtだけ前、即ち時刻（t−Δt）の画像との輝度差の絶対値の総和となる。
（数２）

図１は、異なる位置にセットされた３つの撮像手段α, β, γから得られるフレーム毎の情報d(t)を時間軸上に並べたグラフである。
ここで示されているのは、フレーム間の時間Δtよりも十分に大きい比較用サンプリング期間S中に発生した動作である。フレーム間時間Δtは、例えば１秒間に１５コマ撮像できる撮像装置ならば、Δt＝0.0667秒となる。比較用サンプリング期間Sは、任意であるが例えば５秒等が適用できる。

この図から得られる各種変数の選り分けは重要である。次のように、今回の類似性の分類に重要であるものと重要でないものがある。
例えば、この場合のサンプリング期間S中に発生した各撮像手段における総動作量Ｓα（＝Σd(t)）, Ｓβ, Ｓγは、Ｓβ＜Ｓα＝Ｓγとなる。
よって総動作量だけで考えると、撮像手段αによる画像情報は撮像手段γによる画像情報と等しく、撮像手段αによる画像情報も撮像手段γによる画像情報も撮像手段βによる画像情報とは異なる。
しかし、撮像手段αと撮像手段γが同一被写体を撮像したとは考えにくい。むしろ同一被写体を撮像したかどうかは、動作タイミングの発生時期で考えれば、撮像手段αと撮像手段βとが類似している。
この例で解るように、撮像手段間の動作総量Σd(t)の比較はさして重要でない。その一因には、動作総量Σd(t)が撮像手段と被写体との距離に依存してしまうことなどが挙げられる。むしろ、動作のタイミングの一致性を重視することが必要である。

タイミングの一致は、従来公知の様々な方法を利用して測定できるが、ここでは一例として動作非動作判断変数D(二進数)を用いる。
動作非動作判断変数Dは、桁数がsの二進数表記であり、各桁がd(1)〜d(s)に対応する。d(t)>0ならば1、d(t)=0ならば0とする。静止した場所を撮り続けた動画ならば理想的にはd(t)=0であるが、前後フレーム間に電気電子的な微小ノイズが発生するのは一般的であるために、微小ノイズ用閾値Nを設定しd(t)≧Nならば1、d(t)<Nならば0とし、微小ノイズの影響を除去するのが一般的である。このようにして例えばDα=01011011010101などと表される。
sは、比較に用いるフレーム数であり、サンプリング期間Sのフレーム間時間Δtによる商で表せる。例えば１秒間に15コマ撮像できる撮像装置でサンプリング期間が5秒なら、s=S/Δt=5/0.0667=75[フレーム]となる。

例えば、撮像手段αでの動作非動作判断変数Dαが1100111111、撮像手段βでの動作非動作判断変数Dβが1100111111、撮像手段γでの動作非動作判断変数Dγが1111110011と表されたとする。
すると、撮像手段αによる画像情報と撮像手段βによる画像情報のタイミングの同一性はDαとDβのハミング距離を調べることによって判断することができる。DαとDβのハミング距離は0であり、DαとDγのハミング距離は4である。取りきれなかったノイズや他の外乱を考慮しても、ハミング距離が小さいほどタイミングの同一性が高いことになる。
なお、画像情報のタイミングの同一性については、ハミング距離と同様にレーベンシュタイン距離等も適宜利用可能である。

次に、動作の内容を考えると、動作情報で重要なものは、動作の変化パターンである。
例えば、撮像手段αが、ある人物Qの腕の動作のみのようなリズミカルな長周期振動を撮像し、撮像手段βが、ある人物Qの腕の動作と、首のリズミカルな短い周期振動とを撮像したとする。この場合、例えば動作発生部分を、周期と強度が異なる複数のsin波の合成波ととらえれば、この合成波をフーリエ変換することにより、動画像に内包されている周波数と強度を得ることが可能である。

このようにして得られた動作タイミングの同一性、動作内容の周期や強度情報を変数として、適切に類似性による分類、例えばクラスター分析を行う。図１の場合ならば、撮像手段αと撮像手段βは近い距離にあり１つのクラスターを形成し、撮像手段γは、撮像手段αと撮像手段βが作るクラスターよりも遠い位置にあることになる。
これにより、大雑把な判断ではあるが撮像手段αと撮像手段βが同じ被写体を撮像し、撮像手段γは異なる被写体を撮像していると判断することにより分類が可能である。
撮像手段αと撮像手段βが同一被写体を撮像していると判断したので、どちらか一方からの情報で十分となるので、ここで有用な情報は撮像手段α（または撮像手段β）と撮像手段γの情報となる。

仮に撮像手段の位置を不変とするならば、この方法で得られた情報を蓄積していくと、同一クラスターに分類されやすい撮像手段が自ずと解ることになる。同一クラスターに分類されやすい撮像手段同士は近い空間を撮像していて、反対に異なるクラスターに分類されやすい撮像手段同士は遠い（異なる）空間を撮像しているとみなせる。

他方、既に撮像された画像については、撮像手段の台数に依存した多数の動画像m個全部を解析するよりも任意のn個に数を減らして解析した方が演算量も少なく効率がよい。前述の手段によって、任意のn個への類似画像の絞り込み分類が終了したものとする。nは、利用者が選択した動画個数に相当し、例えばm=10、n=2であるとすれば、10の動画像ソースから２つを選んだことを意味する。
次に必要なことは、n個の各動画像の解析となる。

動画像の解析は、従来公知の方法を適宜利用できる。ここでは、前述の手段によって既に演算し終わった変数d(t)を再利用して判断する簡単な例を示す。この例による方法は、演算量を抑えることができ、動作解析の正確性よりも演算量抑制を主旨とするものである。
例えば撮像手段１台から得た動画像をリアルタイムに解析するならば、現状のコンピュータの演算速度でも十分に足りる。しかしながら、多数の撮像手段を駆使することや、また演算装置自体を廉価かつ低電力消費型のものにするならば、演算量の低減を優先させることは十分に意味があることである。

動作分析の一例として、友人間などで対面時に話す日本語口語が挙げられる。
日本人が用いる一般的な口語では、主語の省略や、文末の省略、共話を誘うようなタイミングでの会話など、一般的な他国の口語と比べて曖昧な文型を多用することがあるため、自然と会話中にバックチャネリング等の非言語動作が多く見受けられる。
そこで、ここでは超長周期の動作は無意味なもの、或いは判断に高等な処理が必要なものとして捨象することにする。例えば、説明のために発話を伴って指先で仮想的な地図を空中に描くような大型の長期間非周期動作、退屈さなどが原因で座っている回転式の椅子を左右にゆっくりと振り続けるなどの超長周期の動作は、サンプリング期間Sよりも長いものとすれば自動的に無視したことになる。

撮像手段の向きや、被写体の向き、またそれらの間の距離が千差万別であるとすると、１フレーム前の画像との輝度差に従属するd(t)の増減周期を測定するのが最も合理的である。
ある特定の撮像手段αから得られた動画像の現時刻tからサンプリング期間S前までのd(t)を、上述方法で解析するだけでも、動作分析として例えば次の４動作に分類することができる。
（イ）：最も頻出する周期的動作（変化）
（ロ）：それ以外の周期的動作（変化）
（ハ）：非周期的動作（変化）
（ニ）：非動作（不動）
個人差はあるが、ある特定の撮像手段αから得られた動画像が、一般的なバックチャネリングであった場合、これらの動作分類イ〜ニは、それぞれ頷き（イ）、頷き以外の頻出する周期動作（ロ）、いわゆるジェスチャーなどの非周期動作（ハ）、非動作（ニ）と大雑把に見なすことができる。

図２は、本実施例のシステム構成の要部を示す説明図である。
m台の撮像装置から得られた各動画像は、動画像受信装置に入力され、演算装置によって計算処理され、それぞれd(t)として記憶装置に記録保存される。各d(t)は、分析結果表示装置で表示してもよい。

演算装置では、サンプリング期間Sより長いことが望ましい適当な時間毎に、一連の連続した動作部分のd(t)を解析し、動作分類イ〜ニの４状態に分類演算処理する。これは、例えば人物Qの動作を撮像している特定の撮像装置αからの動画を、動作分類イ〜ニの４状態に分類したことを意味する。
現在もしくは最大サンプリング期間S前までに人物Qが何らかの動作を行っている（Dα>0の場合）ならば、その動作が動作分類イ〜ハのどれに最も類似しているかマッチングを行う。これは、前述のようなサンプリング期間S内でのd(t)が示す動作の周期や強度の類似性を調べ、動作分類イ〜ハのどれに最も類似しているかを判断する。周期、強度を変数とした従来公知のクラスター分析でもよい。例えば動作分類イに最も類似していると判断されれば、人物Qはサンプリング期間S内で頷きをしたと判断できる。

現時刻からサンプリング期間S内でのd(t)を比較することによって得た類似動画像の分類結果や、適当な時間毎に全m個のd(t)の連続した動作部分の分析結果は、分析結果表示装置で表示してもよい。
また、類似性分類の結果、全m台の撮像装置から選ばれた非類似のn個の動画像は、演算装置から動画切替機への切替指示発信に従って、動画表示装置で表示してもよい。

n個の動画像が示す現時刻からサンプリング期間S内に発生した動作が、前述で予め分類しておいた動作分類イ〜ニのどれに類似しているかを分析することで、nより少ないq人の動作を即時に分類後、示すことが可能になる。
全q人のうち、頷き（イ）が何人、頷き以外の周期動作（ロ）が何人、非周期動作（ハ）が何人、不動（ニ）が何人であるかや、或いは、動作分類イ〜ニの各比率を、即座に分類後分析結果表示装置で表示してもよい。

動画内における動作の分析は、人物の同定や、特殊な行為の同定にも適用できる。
例えば、予め次のd(t)のパターンを、記憶装置に記録しておく。
（イ）：家人が窓を普通に開けようとしている動作
（ロ）：盗人が窓を破壊して侵入しようとしている典型的な動作
（ハ）：それ以外の動作
（ニ）：非動作（不動）
演算装置で、現在記録されているサンプリング期間S内のd(t)の変化が上記の動作分類イ〜ニのいずれに最も類似しているか判断することにより、もし盗人が窓を破壊して侵入しようとしている動作情報（ロ）が得られたら、付設警報装置によって警報を出すなどの出力を行えばよい。
このように、動作リズムに相当するd(t)を記録しておき、それを典型的な動作と比較させることは諸々の場面に活用できる。

本発明によると、撮像画像をほぼリアルタイムで分類可能なので、その分類状況の随時利用や、分類による検知などに利用できる。例えば、講演者が聴衆の反応分類に応じて話を変えたり、家屋侵入など特定の事象の発生を検知して警報を出すなど、多様な場面に応用できるので、用途が広く産業上非常に有用である。

異なる位置にセットされた３つの撮像手段α, β, γから得られるフレーム毎の情報d(t)を時間軸上に並べたグラフ本実施例のシステム構成の要部を示す説明図

Claims

動作をしうる対象体を撮像可能な複数の撮像手段と、
その撮像手段によって得られた画像情報を少なくとも記録する記憶手段と、
撮像手段によって得られた画像情報を少なくとも解析する演算手段とを備え、
対象体を撮像して得た複数の画像における変化のパターンを分類する方法であって、
撮像手段によって対象体を連続的に撮像し、
それら連続的に撮像された画像情報の差分から、撮像単位時間の間に発生した画像情報の変化量を求め、
現時刻から所定の対象時間内における変化パターンを変数として類似性に従って分類することによって、
現時刻から所定の対象時間内における画像情報を略リアルタイムに分類
することを特徴とする画像の類似性による分類方法。
画像情報の変化量をフーリエ変換し、それにより得られる連続した撮像画像情報に内包されている周波数及び強度を、分類の変数として用いる
請求項１に記載の画像の類似性による分類方法。
撮像画像情報に変化が発生するタイミングに重み付けをする変数を用いて分類を行う
請求項１または２に記載の画像の類似性による分類方法。
類似性によって分類された各特長的な画像を、表示手段に出力して示す
請求項１ないし３に記載の画像の類似性による分類方法。
典型的な変化パターンを、
頻出する周期的変化、頻出しない周期的変化、非周期的変化、無変化、の４状態に分類し、
その４状態を示す分類状況を、略リアルタイムで表示手段に出力して示す
請求項１ないし４に記載の画像の類似性による分類方法。
複数の変化パターン間の類似関係を定め、
撮像画像を、その変化パターン間の類似関係に基づいて表示手段に階層表示する
請求項１ないし５に記載の画像の類似性による分類方法。
典型的な変化パターンを示す分類用変数を予め用意しておき、
その典型的な変化パターンに分類される画像情報が入力されたら、即座に表示手段に出力して示す
請求項１ないし６に記載の画像の類似性による分類方法。
動作をしうる対象体を撮像可能な複数の撮像手段と、
その撮像手段によって得られた画像情報を少なくとも記録する記憶手段と、
撮像手段によって得られた画像情報を少なくとも解析する演算手段とを備え、
対象体を撮像して得た複数の画像における変化のパターンを分類する装置であって、
対象体を連続的に撮像する撮像手段と、
撮像手段で連続的に撮像された画像情報を記録する記憶手段と、
記憶手段に蓄積された画像情報の差分から、撮像単位時間の間に発生した画像情報の変化量を算出し、
現時刻から所定の対象時間内における変化パターンを変数として分析することによって、
現時刻から所定の対象時間内における画像情報を略リアルタイムに分類する演算手段とを有する
ことを特徴とする画像の類似性による分類装置。