JP2004280376A

JP2004280376A - 被写体の行動認識方法及び装置

Info

Publication number: JP2004280376A
Application number: JP2003069913A
Authority: JP
Inventors: Kunio Fukunaga; 邦雄福永
Original assignee: Japan Science and Technology Agency
Current assignee: Japan Science and Technology Agency
Priority date: 2003-03-14
Filing date: 2003-03-14
Publication date: 2004-10-07

Abstract

【課題】建物の内外における人物行動の常時観察を可能にし、しかも複数の人物を個別に管理できる被写体の行動認識方法及び装置を開発する。
【解決手段】本発明に係る被写体の行動認識装置は、移動体２に装着されたカメラ６と、このカメラ６で撮影される対象物１４又は前記移動体の一部１２からなる被写体１３の動画像を無線信号１６として発信する無線機７と、この無線機７から発信される無線信号１６をネットワーク１８を介して受信する行動分析装置２０と、この行動分析装置２０は、動画像を加工して被写体の行動を分析する画像分析部２４と、この画像分析部２４により分析された被写体１３の行動をテキスト情報として出力するテキスト生成部２８を有することを特徴とする。画像分析方法やテキスト生成方法も本発明に含まれる。ネットワークを介して人物などの行動を個別にリアルタイムで管理し、テキスト化できる点に利点を有する。
【選択図】図１

Description

【０００１】
【発明の属する技術分野】
本発明はカメラを用いて被写体の行動を認識する方法に関し、更に詳細には、カメラを人・動物・物・車などの移動体に装着し、カメラにより撮影される動画像を分析して、移動体や対象物などの行動を認識する被写体の行動認識方法及び装置に関する。
【０００２】
【従来の技術】
従来、病院などにおいて要介護者の行動を管理したり、建物に外部から侵入する不審者を監視する無人報知システムが知られている。この無人報知システムとして典型的なものは、赤外線センサを配置し、人物から放射される赤外線を検出して人物の侵入を報知したり、侵入者の赤外像を表示するシステムである。
【０００３】
この赤外線報知システムでは、赤外線という限定された単一情報しか報知できず、また赤外線センサが設置されている特定位置・特定方向の情報しか得られない。例えば、センサから外れた場所における人物の行動を管理する等は不可能であった。特に、侵入者の赤外像を確認するためには、管理者の常時監視が必要になるという欠点もあった。
【０００４】
また、ビデオカメラを建物の所要位置に固定し、無人の時間帯にはビデオカメラで録画するシステムも常用されている。このシステムでは、録画中は無人状態でよいが、異常があるかどうかはビデオ情報を再生して確認する必要がある。特に、ビデオカメラの死角領域の監視は不可能であるから、多数の箇所にビデオカメラを設置するなどシステム費用が高価になっていた。また、遠隔地域で監視するには、ビデオ情報を送信しなければならず、伝達情報量が大きく通信コストが過大になっていた。
【０００５】
【発明が解決しようとする課題】
そこで、伝達情報量を小さくするため、本発明者等は特開平１０−４０４８２号により、「文章情報による無人報知システム」を公開した。この公開発明は、ビデオカメラとマイクロホンを建物内に固定配置し、特定の人物を常時撮影し、得られた動画情報と音声情報を格文法に従ってテキスト情報に変換し、このテキスト情報を管理者に送信して特定人物の行動を観察するシステムである。
【０００６】
この公開発明では、膨大な情報量を有した動画情報と音声情報を小さな情報量で済むテキスト情報に変換するから、管理者に送信する場合でも通信コストが少なく、またテキスト情報を記録するだけであるから記憶装置も安価で済むという利点を有している。
【０００７】
しかし、この公開発明も、ビデオカメラとマイクロホンは建物内の特定箇所に固定配置されるから、その特定箇所のしかも特定方向しか撮影されないという弱点を有する。ビデオカメラの死角は大きく、死角に入った人物の行動は全く不明である。
【０００８】
特に、人物がビデオカメラから遠く離れた場合には、人物を撮影することは不可能になる。このため、建物内の多数の箇所にビデオカメラを配置しなければならず、ビデオシステムの構築に多額の費用を要する結果となる。
【０００９】
ビデオシステムによる管理は不審者の侵入監視だけではなく、例えば病院や老人ホームなどにおける要介護者の行動管理にも必要となる。建物内の死角を無くすために、費用の多少を問わずにビデオシステムを完成させた場合を考えよう。この場合でも、要介護者が建物から外出したケースでは、ビデオシステムの管理区域から外れるため、要介護者の行動管理は不可能になる。
【００１０】
このように、ビデオカメラを固定配置する従来システムでは、要介護者などの行動を管理できる区域は建物内に限定されている。また、複数の要介護者を管理するには、管理者が目視で要介護者を区別する以外に無く、ビデオカメラを常時観察する負担から逃れることはできなかった。
【００１１】
この固定ビデオカメラシステムに文章化システムを組み合わせ、文章を報知機能にアラーム機能を付設することにより、過大記憶容量が不要になったり、要介護者が一人の場合に常時観察が不要になるという利点はある。しかし、この場合であっても、複数の要介護者を個別に行動管理することは不可能であり、やはり目視による常時観察という重圧が管理者側にあった。
【００１２】
従って、本発明は、従来から呪縛のように存在したビデオカメラを建物に固定するという方式を捨て去り、全く新たな着眼点を導入して、建物の内外における人物行動の常時観察を可能にし、しかも複数の人物を個別に管理できる被写体の行動認識方法及び装置を提供することである。また、本発明に文章化システムを付加することにより、記憶容量や通信容量を急減でき、更にアラーム機能を付加することにより、目視による常時観察をしなくても非常時にのみ通報して対処できることを目的とする
【００１３】
【課題を解決するための手段】
本発明は上記課題を解決するためになされたものであり、第１の発明は、移動体に装着されたカメラと、このカメラで撮影される対象物又は前記移動体の一部からなる被写体の動画像を無線信号として発信する無線機と、この無線信号を受信する行動分析装置と、この行動分析装置は、動画像を加工して被写体の行動を分析する画像分析部と、この画像分析部により分析された被写体の行動をテキスト情報として出力するテキスト生成部を有することを特徴とする被写体の行動認識装置である。この発明は、ビデオカメラや携帯電話内蔵カメラ等のカメラを人物や動物や車などの移動体に装着して、移動体と共にカメラも同時的に移動させる点に特徴を有している。このカメラを本発明者はウェアラブルカメラ（帯同カメラ）と称している。対象世界の様々な対象物がカメラに撮影され、また移動体が人物であれば、人物の手がカメラにより撮影される。従って、要介護者の手の動きからその動作が常時認識でき、また対象世界の映像によって要介護者の動作環境が常時把握される。複数の要介護者の夫々にカメラと無線機を装着すれば、夫々の動画像が無線機により個別的に受信されるから、複数の人物の個別的な同時管理が可能になる。また、動画像の無線信号が受信される構成になっておればよいから、管理センターの近傍で行動する場合には、無線信号の受発信装置により動画像信号を直ちに受信できる構成を採用でき、遠隔地で行動する場合には、インターネットや携帯電話システムなどのネットワークを使用して動画像信号を受信できるように構成すればよい。更に、これらの動画信号が分析されてテキスト情報として出力されるから記憶容量や通信容量が低減でき、テキスト情報にアラーム装置を付加すれば、画像を常時目視しなくても、移動体の異常行動時にリアルタイムでその行動を認識でき、即時対応が可能となる利点を有する。また、動画像に対応してテキスト情報が生成されるから、カメラを装着した人物の特性に応じたテキスト情報が集積でき、個別の人物の特性に応じたテキストデータベースを構築でき、人物などの管理情報の体系化を図ることが可能になる。
【００１４】
第２の発明は、移動体に装着されたカメラと、このカメラで撮影される対象物又は前記移動体の一部からなる被写体の動画像を無線信号として発信する無線機と、この無線機から発信される無線信号をネットワークを介して受信する行動分析装置と、この行動分析装置は、動画像を加工して被写体の行動を分析する画像分析部と、この画像分析部により分析された被写体の行動をテキスト情報として出力するテキスト生成部を有する被写体の行動認識装置である。この発明は、動画像信号をネットワークを介して送受信する構成を有する点で第１の発明と相違しているだけであるから、第１の発明と同様の作用効果を有している。特に、ネットワークを介して無線信号を送受信するから、人物などの移動体が遠隔地に離れても、広域ネットワークや近域ネットワークを介して動画像信号を瞬時に送受信でき、人物などの行動管理を広域的にも確立できる利点を有する。
【００１５】
第３の発明は、移動体に装着されたカメラと、このカメラに付属する行動分析装置及び無線機と、前記行動分析装置は、前記カメラで撮影される対象物又は前記移動体の一部からなる被写体の動画像を加工して被写体の行動を分析する画像分析部と、この画像分析部により分析された被写体の行動をテキスト情報として出力するテキスト生成部を有し、前記無線機によりテキスト情報を必要なサイトまで無線送信することを特徴とする被写体の行動認識装置である。この発明の特徴は、人・動物・物・車などの移動体にカメラと行動分析装置と無線機を一体に装着する点にある。行動分析装置を超小型コンピュータで構成することにより、装置全体をコンパクト化でき、例えば行動する人物に装着して、個々人を個別に管理することが可能になる。しかも、無線機によりテキスト情報を送信するから、情報容量は小さくて済み、ネットワークを介して必要なサイトに通信できるし、また直接に管理センタなどに送信することも可能になる。
【００１６】
第４の発明は、移動体に装着されたカメラにより対象世界を撮影して動画像を取り込み、動画像を構成する時系列的に流れる複数の画像フレームの一つを基準フレームに設定し、この基準フレームに時間的に後続する画像フレームを入力フレームとし、この入力フレームに変換処理を施して前記基準フレームに極力近似させるようにし、この変換処理により入力フレームが基準フレームからどれほど移動しているかを示す移動パラメータを導出し、この移動パラメータにより前記移動体の移動量を推定する被写体の行動認識方法である。入力フレームに対し、例えばアフィン変換を行って基準フレームに戻す処理を行えば、ＸＹＺ方向への並進移動量や回転移動量や拡大縮小率が移動パラメータとして導出できる。入力フレームの移動方向とカメラの移動方向は逆であるから、前述した戻し処理で得られる移動パラメータの値はカメラが移動体と一緒に移動した方向の移動量を与える。アフィン変換以外にも、カメラの移動量を推定できる数学変換が広範囲に利用できる。
【００１７】
第５の発明は、移動体に装着されたカメラにより対象世界を撮影して動画像を取り込み、動画像を構成する時系列的に流れる複数の画像フレームの一つを基準フレームに設定し、この基準フレームに時間的に後続する画像フレーム系列を入力フレーム系列とし、この入力フレーム系列に変換処理を施して前記基準フレームに極力近似させるようにした変換画像系列を形成し、変換処理により入力フレームが基準フレームからどれほど移動しているかを示す移動パラメータを導出し、この移動パラメータにより推定される前記移動体の移動量が基準移動量より大きくなるとその入力フレームを基準フレームに再設定して基準フレームの更新を行い、以上の操作を反復して基準フレームの更新頻度（更新率）から前記移動体の行動を判断する被写体の行動認識方法である。移動体として人物を考えると、人物が座った状態で体を上下に伸縮したり、左右に体を曲げたり、前後に体を往復させる場合にも、入力フレームは基準フレームから変動する。この変換処理による移動パラメータはそれほど大きくなることは無い。しかし、人物が歩行する場合には、Ｘ方向やＹ方向に直進的に移動するから、移動パラメータは一方向に大きくなると考えられる。この発明は、人物の静止状態又は移動状態を基準フレームが更新される割合、即ち更新頻度（又は更新率とも云う）で判断するものである。基準フレームが一方向的に度々更新される場合には、人物は歩行（移動）していると判断し、また更新頻度（更新率）が小さい場合には人物は座っているか立ったままの状態で静止していると判断するものである。
【００１８】
第６の発明は、移動体に装着されたカメラにより対象世界を撮影して動画像を取り込み、動画像を構成する時系列的に流れる複数の画像フレームの一つを基準フレームに設定し、この基準フレームに時間的に後続する画像フレーム系列を入力フレーム系列とし、この入力フレーム系列に変換処理を施して前記基準フレームに極力近似させるようにした変換画像系列を形成し、各変換画像における背景領域の中で特定対象物を示す特定領域に着目し、変換画像系列の中で特定領域の動作から前記特定対象物の行動を判断する被写体の行動認識方法である。入力フレームを基準フレームに変換した変換画像では、人物（移動体）が静止状態にある場合、変換画像の大きな面積を占める背景領域は共通している。従って、共通した背景領域の中で、対象物である他者の頭部や、人物の手や、人物が把持するコップなどの特定対象物の動きに着目し、この特定対象物の動作によって被写体（人物や他者）の行動を判断することが可能になる。
【００１９】
第７の発明は、前記移動体が人物である場合に、前記特定対象物がこの人物の手であり、この手領域を少なくとも肌色情報と動作情報から特定領域として抽出し、この手領域の動作から人物の行動を判断する被写体の行動認識方法である。人物にカメラを装着した場合に、人物の両手又は片手がカメラの前で動けば、この手も当然に被写体となる。変換画像の中で、手を肌色領域で選別し、更に手の動作情報により手であることを確実に認識する。例えば、手の動きを運動方程式で解いて予測位置に手があるかどうか判断すれば、手であることの傍証となる。肌色情報と動作情報の両立性により手が認識され、変換画像の中で手の部分に着色すれば、手の動きによって移動体である人物がどのような動作または行動をしているかを認識することが可能になる。
【００２０】
第８の発明は、特定対象物がカメラにより撮影される他者の顔であり、この顔領域を少なくとも肌色情報と輪郭情報から特定領域として抽出し、この顔領域の動作から前記他者の行動を判断する被写体の行動認識方法である。変換画像の中で、他者の顔を肌色情報と例えば楕円形などの輪郭情報の両立性によって認識する。この両者によって他者の顔を判断できれば、顔を着色表示し、顔の動きから他者がどのような動作をしているかが判断できる。
【００２１】
第９の発明は、移動体に装着されたカメラにより対象世界を撮影して動画像を取り込み、動画像を構成する時系列的に流れる複数の画像フレームの一つを基準フレームに設定し、この基準フレームに時間的に後続する画像フレーム系列を入力フレーム系列とし、この入力フレーム系列に変換処理を施して前記基準フレームに極力近似させるようにした変換画像系列を形成し、各変換画像における背景領域の中で特定対象物を示す特定領域に着目し、この特定領域の画像を記憶されているテンプレートモデルと比較し、前記特定対象物を具体的に特定する被写体の行動認識方法である。例えば、移動体である人物がコップを持っているとき、前述した方法で人物の手の動作が判断できる。この手が何かを持っているときに、メモリに一以上の具体物、例えばコップや時計や本などの形状を記憶させておき、手が持っている物をこれらのテンプレートモデルと比較して物を特定する。つまり、手の動きを判断すると同時に、その物がコップと認識されれば、人がコップで飲み物を飲もうとしているという動作認識が可能となる。このように、人物の動作と物の認識を結合することによって、被写体の行動認識をより高度に行うことができる。
【００２２】
第１０の発明は、前記被写体の行動をテキスト情報に変換する被写体の行動認識方法である。被写体の行動を認識できれば、この行動を格文法などにより簡潔にテキスト化でき、画像情報からテキスト情報へと情報量を軽量化して、テキスト情報の格納や通信によって、記憶装置のコストや通信コストを急減させることが可能になる。また、移動体である人物の行動をテキスト情報に変換できるから、行動記録としてテキストによるデータベース化が可能になり、特定の人物の行動データベースを構築して、病院や老人ホームや学校などにおいて人の安全管理などを効率的に行うことができる。
【００２３】
【発明の実施の形態】
以下に、本発明に係る被写体の行動認識方法及び装置の実施形態を添付する図面に従って詳細に説明する。
【００２４】
図１は本発明に係る被写体の行動認識装置の第１実施形態の概略構成図である。移動体２は人物・動物・物・車などの移動性のあるものであり、ここでは行動を認識され管理されるべき人物であるとする。しかし、対象世界を認識する場合には、移動体２（人物２と称する場合もある）としては、動物でもよいし、自動車や自転車やバイクなどの車でもよく、自在に移動しながら対象世界をカメラで撮像できるものであればよい。
【００２５】
この移動体２に無線機７を内蔵したカメラ６を固定状態で装着する。このカメラにはマイク４も装備され、人物２や対象世界８が発する音声も記録することができる。具体的には、カメラ６としては無線機７を付設したビデオカメラ、またはカメラ付きの携帯電話などが該当する。カメラ６による動画情報とマイク４による音声情報が無線機７により送信できる機構が採用されている。
【００２６】
このカメラ６は対象世界８の動画像を撮影でき、この動画像は家庭用ビデオカメラでは通常１秒間に３０フレームで構成されるが、家庭用と業務用によっても異なる場合がある。また、家庭用のビデオカメラを用いて、６フレーム毎に１フレームを使用すれば、１秒間当りに５フレームのフレーム率に設定できる。従って、１秒間あたりのフレーム数（フレーム率）は任意に定められる。
【００２７】
このカメラ６によって撮像される対象世界８は想像線１０により囲われた領域で、この中には移動体（人物）２の手１２や対象物１４が存在し、これらを被写体１３と称する。従って、被写体１３の動画像と音声が得られ、無線機７により動画信号と音声信号からなる無線信号１６が送信される。
【００２８】
無線信号１６はインターネットなどのネットワークを通して広域に伝達される。対象世界８を観察する管理センタ３４では、ネットワーク１８を介して前記無線信号を行動分析装置２０により受信する。
【００２９】
この行動分析装置２０は例えばパソコンなどのコンピュータや電子回路装置により構成される。この行動分析装置２０は入力部２２、画像分析部２４、音声分析部２６、テキスト生成部２８及びテキスト生成部２８の中に形成されたテキストデータベース部３０から構成されている。
【００３０】
入力部２２はネットワーク１８から入力信号１９を受信する。この入力信号１９は動画信号と音声信号から構成されている。動画信号は画像分析部２４に入力され、音声信号は音声分析部２６に入力される。
【００３１】
動画分析部２４の具体的な作用・機能は図３〜図１２を用いて後で詳細に説明される。簡単に言えば、動画信号が画像フレームの時系列信号として入力され、各画像フレームを数学的に変換したり、変換後の画像を解析することにより、画像中の特定領域の動作が推定される。
【００３２】
音声分析部２６では、マイク４により聴取された音声信号が解析される。音声信号の分析には、例えば隠れマルコフモデル手法（ＨＭＭ）を用いることができる。被写体が人物の場合には、音声も同時に生じるから、画像から動作を分析するだけでなく、音声を補助的に使用して、判別された動作をより確実なものにすることが可能になる。従って、動作の内容と音声の内容が一致したときに、動作の判断を高確率で確定することができる。
【００３３】
テキスト生成部２８では、画像と音声、特に画像から得られた動作をテキスト情報へと変換する。つまり、補助的に音声情報を使用しながら、画像情報をテキスト情報へと変換する。この変換により、大容量メモリを有する画像情報を低容量メモリで対応できるテキスト情報へと変換し、情報量のスリム化を実現する。
【００３４】
テキスト生成部２８において、画像からテキストを生成する一つの方法として、格文法を使用することができる。まず第１に、画像で示される行動に最も相応しい動詞（ＰＲＥＤ）が選択される。次に、この動詞を中心にして、動詞に係る語句の格、例えば主格や目的格や道具格などが決定され、動詞と格を結合することによりテキスト（文章）が構成される。
【００３５】
具体的には、動作を行う動作主（ＡＧ）、動作が行われる対象（ＯＢＪ）が選択される。更に、この動作の開始時刻（ＳＯ−ＴＩＭＥ）と終了時刻（ＧＯ−ＴＩＭＥ）が与えられる。この結果、次のような動作表現が与えられる。
［ＰＲＥＤ：ｖｅｒｂ，ＡＧ：ａｇｅｎｔ，ＯＢＪ：ｏｂｊｅｃｔ，ＳＯ−ＴＩＭＥ：ｔｉｍｅ１，ＧＯ−ＴＩＭＥ：ｔｉｍｅ２］
【００３６】
最終的には自然言語文からなるテキスト表現が好ましい。上記のようにして得られた動作表現は、例えば下記のように格構造変換の手法により自然言語文に変換される。
［ＰＲＥＤ：ｓｏｕｓａ−ｓｕｒｕ，ＡＧ：ｍａｎ１，ＯＢＪ：ｗｓ１，ＳＯ−ＴＩＭＥ：ｔ１，ＧＯ−ＴＩＭＥ：ｔ２］
「時刻ｔ１からｔ２に、利用者ｍａｎ１が、ワークステーションｗｓ１を操作した」
【００３７】
つまり、テキスト生成部では、動画像を分析して、多数の動作表現を連続的に生成し、この動作表現を次々と自然言語文に翻訳して、誰でもが理解できるテキストが生成されることになる。しかし、テキストの生成方法は、格文法構造や格構造変換の手法に限定されず、現在開発されている種々のテキスト化方法が採用される。
【００３８】
テキストデータベース部３０は、生成されたテキストを与えられた規則の下で配列して記憶するメモリ部である。被写体１３がカメラを装着した人物２である場合には、この人物２の動作が次々にテキスト化されるから、この人物に特徴的な動作データベースが構築できる。
【００３９】
例えば、このシステムを病院で採用すると、一人一人の患者にカメラ６を装着し、患者毎の行動データベースが構成でき、患者の管理が極めて円滑になる。老人ホームでは、各高齢者にカメラ６を装着して、高齢者毎の行動データベースを作成し、この行動データベースに基づいて、各高齢者を迅速且つ安全に介助することが可能になる。従って、このシステムは、複数人の集団において、各構成員を個別に管理する場合に特に効果がある。
【００４０】
通信部３２はテキスト生成部２８からテキスト信号３１を受信し、テキスト情報を管理センタ３４に送信する役割を担う。テキストデータは極めて容量が小さいから、記憶容量や通信容量が小さくて済み、通信速度も高速化できる利点を有する。従って、通信部３２として通常の通信装置及び通信方式でよいから安価で済む。
【００４１】
管理センタ３４はテキストデータを下にカメラを装着した人物や、カメラにより撮影される対象人物を管理する施設である。入手されるデータはテキストデータであるから、管理センタ３４の記憶装置の容量も小さくて済む。また、管理センタ３４では、各人物毎に作成されたテキストデータベース３０を受け取り、個別管理の基礎データとする。
【００４２】
図２は本発明に係る被写体の行動認識装置の第２実施形態の概略構成図である。この装置はネットワークを使用しないで、無線信号を直接アンテナで受信して行動を管理する装置である。従って、多くの部分は図１の装置と同一であるから、図１と同一部分には同一符号を付して説明を省略し、異なる符合部分について説明する。
【００４３】
画像信号や音声信号から構成される無線信号１６は受信アンテナ２１により直接受信される。この無線信号１６は入力信号１９として入力部２２に送られる。以後の処理は図１と同様である。
【００４４】
ネットワーク１８が配置されている地域に付いては図１の行動分析装置２０が利用されるが、ネットワーク１８が配置されていない地域では、行動分析装置２０とカメラ６の間を無線で結合するシステムが有効である。
【００４５】
図３は本発明に係る被写体の行動認識装置の第３実施形態の概略構成図である。この装置は、画像分析装置２０と無線機７をカメラ６と一体にして移動体２に装着し、テキスト情報を必要なサイトに無線送信するものである。図１の装置と同一部分には同一符号を付して説明を省略し、異なる部分について説明する。
【００４６】
画像分析装置２０を超小型のコンピュータで構成すれば、画像分析装置２０をカメラ６と無線機７と一体化して人物などの移動体２に装着すれば、被写体の行動を分析したテキスト情報を移動体２から直ちに必要なサイトに送信できる。
【００４７】
即ち、カメラ６で撮影された被写体１３の動画像は、移動体２に装着された画像分析装置２０に入力され、同時にマイク４で検出された音声信号も入力される。動画像と音声から分析された被写体の動作は、画像分析装置２０で分析され、動作の特徴がテキスト生成部２８によりテキスト情報として出力される。
【００４８】
テキスト情報はテキスト信号３１として無線機７に入力され、この無線機７から無線信号１６として空間に無線送信される。この無線信号１６は、例えばネットワーク１８を介して入力信号１９として管理センタ３４に受信される。また、無線信号１６は想像線で示されるように直ちにアンテナにより受信されて管理センタ３４に受信される。
【００４９】
第１実施形態と第２実施形態は画像信号や音声信号を無線信号１６として送信するのに対し、第３実施形態ではテキスト信号を無線信号１６として送信する点に相違を有する。この相違は、行動分析装置２０をサイト側に設けるか、それとも移動体２に設けるかに起因している。
【００５０】
以下では、画像分析部２４の具体的分析方法とテキスト生成部２８の具体的生成方法について、個別の場合に応じて説明する。行動分析装置２０がコンピュータ装置により構成される場合には、前記方法はプログラムにより進行する。行動分析装置２０が電子回路装置により構成される場合には、前記方法は電子回路の手順に従って進行する。
【００５１】
図４は本発明において動画像の変換処理によりカメラを装着した移動体の移動量を推定する工程図である。（４Ａ）では、動画像を撮像できるカメラが移動体に装着される。この移動体は、人・動物・車・自転車などのように移動する物体であればよいが、行動を管理される対象として人が通常である。従って、以下では移動体は人物であるとする。
【００５２】
（４Ｂ）では、カメラにより対象世界を撮影し、対象世界の動画像が取り込まれる。この動画像には、カメラを装着された人物の手や対象世界の他者など様々な映像が含まれる。移動体は地上を動き回るから、動画像も時間的に種々に変化する。
【００５３】
移動体が歩行（移動状態）するときには、動画像の中の背景画像もかなり変化する。逆に、移動体（人物）が座った状態や直立状態にある場合は静止状態であり、動画像の中の背景画像はそれほど変化しない。しかし、人物が左右に体を回したり、前後に体を微小移動させると、カメラも同様に動くから動画像も多少変化する。この動画像の大変化や小変化を認識して、移動体、即ちカメラの移動量を推定する。
【００５４】
（４Ｃ）では、動画像を構成する多数の動画フレームが時系列的に取り込まれる。これらの時系列的な動画フレームの中の一つが基準フレームとして設定される。この基準フレームは以後に取り込まれるフレーム群の先頭フレームと考えればよい。
【００５５】
（４Ｄ）では、基準フレームより時間的に後続する画像フレームが次々と取り込まれる。これらの画像フレームを入力フレームと呼んでいる。従って、基準フレームの後に多数の入力フレーム群が存在する。
【００５６】
（４Ｅ）では、入力フレームに数学的変換処理を加えて基準フレームにできるだけ一致させるように変換する。この変換処理によって得られる移動パラメータ群の値が、カメラの移動量であると推定できる。
【００５７】
カメラは移動体と共に動くから、入力フレームは基準フレームから多少ずれている。例えば、カメラが右へ移動すると、入力フレームは基準フレームより左に移動する。つまり、カメラの移動方向と入力フレームの移動方向は逆の関係になる。従って、入力フレームを基準フレームに一致する方向に移動させれば、その移動量はカメラの移動量に一致するはずである。
【００５８】
この移動パラメータを得るために適切な変換はアフィン変換である。このアフィン変換は平行移動、回転、拡大縮小、せん断などの処理を行う変換で、特に、平行移動と回転移動と拡大縮小のパラメータが移動パラメータ群になる。
【００５９】
（４Ｆ）では、例えばアフィン変換により、平行移動パラメータ、回転移動パラメータ、拡大縮小パラメータが移動パラメータ群として得られる。（３Ｇ）では、これらの移動パラメータ群の値により移動体、即ちカメラの移動量が推定される。
【００６０】
図５は本発明において動画像の変換処理により移動量を導出する具体的工程図である。（５Ａ）はパソコンを中心に配置した基準フレームを示す。右方向がｘ方向、下方向がｙ方向を与える。
【００６１】
（５Ｂ）は入力フレームの一例を示す。この入力フレームでは、中心にあるパソコンが少し右に移動している。カメラの立場から言えば、カメラが左へ移動した結果、フレーム内で被写体が右へ移動したと考えられる。カメラの移動方向と被写体、即ちフレームの移動方向が逆の関係にある。
【００６２】
（５Ｃ）では、前記入力フレームに対しアフィン変換を施して、入力フレームを基準フレームに一致させるように変換する。どれくらい変換すれば一致するかは事前に不明であるから、例えばコンデンセーション・アルゴリズムを使用してランダム近似させながら一致度を高めてゆく。
【００６３】
（５Ｄ）では、入力フレームをアフィン変換させた後の変換画像が示されている。パソコンの配置がほぼ基準フレームの配置と同程度に一致している。単純に云えば、入力フレームの中の画像を左方向に移動させると、変換画像が得られる。フレームの枠から外れた領域は消去され、画像が無くなくなった領域は黒く塗られている。
【００６４】
（５Ｅ）では、アフィン変換により得られた移動パラメータ群の値が示されている。ｄｘ＝−５２は、入力フレームを左方向に５２だけ移動したことを示し、この値が実際にカメラの移動量となる。ｄｙ＝１３は入力フレームを下方向に１３だけ移動したことを示し、カメラのｙ方向移動量を示す。
【００６５】
θ＝２．６は、入力フレームを原点を中心に時計方向に２．６だけ回転させたことを示し、この値がカメラの回転移動量を与える。ｓｃａｌｅ＝０．９４は入力フレームを０．９４倍することにより変換画像になったことを示し、カメラが基準フレームよりやや前進したことを示している。
【００６６】
従って、（５Ｆ）のように、これらの移動パラメータ群の値により、移動体（人物）、即ちカメラが左下方向に平行移動し、少しだけ右方向回転し、やや前進したという結果が得られる。移動量は前述した値であり、このように移動パラメータ群から移動体の移動量が導出できる。
【００６７】
しかし、上記の結果は、移動体が座った状態（静止状態）にあって体を微小移動させているのか、それとも移動体が歩行状態（移動状態）にあるのか、については結論できていない。次に、移動体が静止状態にあるのか移動状態にあるのかに関する判断方法を説明する。
【００６８】
図６は移動体（人物）の移動状態又は静止状態の判断基準を与える判別フローチャートである。人物が歩行している場合には移動パラメータが一方向に大きくなり、入力フレームの背景画像が基準フレームと全く異なる状態が生じる。このような場合には、新しい入力フレームを基準フレームに再設定して基準フレームを更新する必要が生じる。
【００６９】
このように基準フレームを次々に更新する必要が生じた場合には、人物は歩行していると考えられる。つまり、何フレーム毎に基準フレームを更新しているか、という基準フレームの更新頻度（更新率）により移動（歩行）・静止の判別を行う。その基準率を基準更新率と呼び、基準フレーム更新率が基準更新率を超えたときに移動状態と判断し、それより小さいときに静止状態と判断する。以下、各ステップを説明する。
【００７０】
ステップｎ１では、入力フレーム系列の先頭フレームを基準フレームとして設定する。ステップｎ２では、後続の画像フレームを入力フレームとして継続的に取り込む。ステップｎ３では、各入力フレームに変換処理を施して基準フレームに極力一致させる処理を行う。
【００７１】
ステップｎ４では、例えばアフィン変換処理により、移動パラメータ群を具体的に導出し、人物の移動量（ステップｎ５）を推定する。ステップｎ６では、移動量と基準移動量の比較が行われ、移動量が小さい場合には静止状態と判断され（ステップｎ７）、ステップｎ２にフィードバックされる。
【００７２】
移動量が基準移動量より大きくなると、その入力フレームを基準フレームに設定し直し（ステップｎ８）、基準フレームの更新率が算定される（ステップｎ９）。この基準フレームの更新率と基準更新率が比較され（ステップｎ１０）、基準更新率よりも大きい場合には人物は移動状態にあると判断される（ステップｎ１）。他方、基準更新率よりも小さい場合には、人物は静止状態にあると判断され（ステップｎ１２）、ステップｎ２にフィードバックされる。
【００７３】
以上のように、入力フレームを連続的に取り込みながら、基準フレームの更新率（更新頻度）を計算して、人物（移動体）の移動状態又は静止状態が確実に定量的に判断されるのである。
【００７４】
図７は移動体（人物）の移動状態又は静止状態の判断を与える具体的工程図である。（７Ａ）〜（７Ｅ）は入力フレーム系列を示し、（７ａ）〜（７ｅ）は（７Ａ）〜（７Ｅ）のアフィン変換による変換画像系列を示している。矢印方向が時間方向である。
【００７５】
基準移動量や基準更新率は状況に応じて任意に定められる。この例では、基準移動量はｄｘ＝２０に設定される。また、３フレームに１回基準フレームの更新があり、その更新が連続して２回継続したときを基準更新率と定めている。
【００７６】
（７Ａ）が基準フレームとして設定され、次々に入力フレーム系列が取り込まれてゆく。入力フレームから、カメラは右上方向に移動していることが分かる。（７Ｂ）を変換すると（７ｂ）になり、ｄｘ＝１５であるから基準移動量の範囲内である。
【００７７】
（７Ｃ）を変換すると（７ｃ）になり、ｄｘ＝２１であるから基準移動量のｄｘ＝２０を超えている。従って、基準移動量の範囲外と認定され、（７Ｃ）が基準フレームとして更新される。また、ここで第１回の基準フレームの更新が行われた。
【００７８】
今、（７Ｃ）が基準フレームであり、（７Ｄ）をアフィン変換すると、ｄｘ＝１０となるから基準移動量の範囲内である。（７ｃ）のｄｘ＝２１に加算されると、（７ｄ）ではｄｘ＝３１となる。（７ｂ）〜（７ｄ）では基準更新率の範囲内であるから、人物、即ちカメラは静止状態にあると判断される。
【００７９】
次に、（７Ｅ）をアフィン変換すると、ｄｘ＝１３の（７ｅ）が得られる。（７Ｃ）をｄｘ＝０の基準に取ると、ｄｘ＝２３となるから、基準移動量ｄｘ＝２０を超えている。従って、再び（７Ｅ）が基準フレームとして更新される。
【００８０】
（７ｅ）の段階で、基準フレームの更新が２回連続して行われたから、基準フレームの更新率が基準更新率を超えたことになり、人物、即ちカメラは移動状態にあると判断される。
【００８１】
以上から次のような結論が導出される。（７ｂ）〜（７ｄ）では、静止状態にありながらｄｘが連続的に増加している。これはカメラを装着した人物が体を右へ曲げたことを意味している。（７ｅ）の段階で初めて、人物が右方向へ移動（歩行）していると判断される。
【００８２】
このように、基準更新率を超えるかどうかで人物の移動・静止が判断され、この判断の下で移動パラメータの値の変化から人物が如何なる行動をしているかが判定されるのである。
【００８３】
図８はカメラを装着している人物（移動体）の手の動作を推定する工程図である。簡単な例として、静止している人物がパソコンのキーボード操作をしている場合を分析する。
【００８４】
（８Ａ）では、カメラを人物に装着固定する。（８Ｂ）では、入力フレーム系列の先頭フレームを基準フレームに設定する。（８Ｃ）では、後続の入力フレームを次々に基準フレームの状態に変換処理してゆく。（８Ｄ）では、基準フレームの更新率（更新頻度）が基準更新率より小さいことを確認して、人物は静止状態にあることが判定される。
【００８５】
（８Ｅ）では、変換画像の全体構成を背景領域と手領域の和として考え、背景領域から手領域を分離抽出する。分離抽出は２段階で行われる。第１指標として肌色が選択され、変換画像から肌色領域が抽出される。この場合、肌色領域は手以外にも存在する可能性があり、第１指標では手以外の肌色領域も抽出される。
【００８６】
第２指標として、手の動きを運動方程式で予測し、予測した位置に肌色領域が移動していることで、その肌色領域が手領域であると判定される。運動方程式として例えば線形予測とかカルマンフィルタによる方法が使用される。移動しない肌色領域は、この第２段階で除去される。
【００８７】
このような複数指標で特定領域を抽出する場合に、例えばＤｅｍｐｓｔｅｒ−Ｓｈａｆｆｅｒの方法が使用できる。この方法は、第１指標の確信度と第２指標の確信度が与えられたとき、総合的な確信度を導出する方法で、抽出された手領域の信頼率が算定される。
【００８８】
（８Ｆ）では、手領域を抽出した後、変換画像の手領域に着色が施され、手領域抽出後画像が構成される。（７Ｇ）では、手領域以外にノイズとして着色点が散在する場合には、これらのノイズを除去する必要が生じる。ここでは散在するノイズ除去としてメジアンフィルタ操作を用いている。
【００８９】
（８Ｈ）では、クラスタリング後画像の系列から、着色された手領域の動きが検出される。この動きを読み取ることにより、手の動作が推定される。手の動作として、左右への移動や、上下への移動などがある。
【００９０】
図９は手領域を抽出する具体的工程図である。原画像は変換画像の一例である。手領域を抽出する３方法が示されている。上の画像は、原画像から特定の背景着色を有した背景画像を除去して手領域を導出したものである。真中の画像は、肌色領域だけを抽出したものである。両方法共に手領域が全体的に抽出されていることが分かる。
【００９１】
下の画像は、肌色領域を楕円領域に置き換え、この楕円がフレーム毎に移動しているかどうかを判断するものである。手であれば、当然動くことが予測され、この楕円領域が運動方程式により予測された位置に移動するかどうかで手領域の高度判定を行う。ＤＳ理論とは、Ｄｅｍｐｓｔｅｒ−Ｓｈａｆｆｅｒの理論を意味している。
【００９２】
図１０は手の動作を推定する具体的工程図である。手領域抽出後画像にクラスタリング処理を行ってノイズを除去し、クラスタリング後画像を得る。このクラスタリング後画像を４枚並べると、着色された手領域の動作の詳細が明らかになる。
【００９３】
左手領域が右から左に移動しており、テキスト情報としては、「左手を左に動かした」となる。カメラを装着した人物の動作を推定する場合に、少なくともカメラに人物の一部分が撮影される必要があり、その一部分とは手である可能性が高い。従って、手に着目して人物の動作が推定されるのである。
【００９４】
図１１はカメラに撮影される他者の動作を推定する工程図である。他者を抽出する場合に、他者の顔に着目して他者を抽出する。（１１Ａ）では、カメラを移動体に装着する。（１１Ｂ）では、入力フレーム系列の先頭フレームが基準フレームとして設定される。（１１Ｃ）では、後続する入力フレーム系列が基準フレームに極力一致するように変換処理を施す。
【００９５】
（１１Ｄ）では、変換画像系列から顔領域が抽出される。変換画像が背景領域と顔領域に分離される。被撮影者の顔領域を抽出する基準として、肌色領域と楕円領域に二つの基準が使用される。
【００９６】
変換画像から肌色領域を抽出すれば、顔領域や手領域など、複数の肌色領域が抽出される。そこで、第２基準として楕円形状を条件として導入する。その結果、顔領域だけが抽出される。このとき、Ｄｅｍｐｓｔｅｒ−Ｓｈａｆｆｅｒの方法が利用される。
【００９７】
（１１Ｅ）では、抽出された顔領域に着色が施され、この着色顔領域を元の変換画像に組み込んで顔領域抽出後画像が構成される。（１０Ｆ）では、クラスタリングを行ってノイズが除去され、メジアンフィルタ操作後画像が構成される。
【００９８】
（１１Ｇ）では、クラスタリング後画像を並べて比較することにより、顔領域の動きが分析され、被撮影者の動作が推定される。この例では、被撮影者の行動が分析されたが、カメラにより撮影される対象物、例えば車や自転車など任意の対象物が行動分析の対象になる。
【００９９】
図１２カメラにより撮影される物体を認識して特定する工程図である。（１２Ａ）では、カメラを移動体に装着する。（１２Ｂ）では、入力フレーム系列の先頭フレームが基準フレームとして設定される。（１２Ｃ）では、後続する入力フレームを基準フレームにまで変換処理する。
【０１００】
（１２Ｄ）では、変換画像から対象物体が抽出される。変換画像は大きな背景を形成する背景領域と人物である肌色領域と着目する対象物体の領域の和であると考える。従って、変換画像から背景確率の高い領域と肌色確率の高い領域を除去すると、対象物体領域だけが抽出される。
【０１０１】
（１２Ｅ）では、記憶された多数のテンプレートモデルと抽出された対象物体とが比較される。両者間で色や形状などを比較しながら、最も近似したテンプレートモデルが選択され、対象物体は選択されたテンプレートモデルであると判定される。このようにして対象物体の認識が行われる。
【０１０２】
図１３はカメラにより撮影される物体の認識方法を示す具体的工程図である。上の変換画像から背景確率と肌色確率の低い領域が物体領域として抽出される。その結果、手に把持された対象物体が抽出される。
【０１０３】
この対象物体と多数のテンプレートモデルとが相互に比較される。この中で、一致確率の最も高いコップが選択される。この段階で、対象物体がコップであると判定される。このように、本発明は撮影される対象物体が何であるかを判定することもできる。
【０１０４】
図１４はカメラを装着している人物の行動を認識してテキストで表現する階層構造図である。まず、基準フレームの更新率（更新頻度）により人物の移動・静止が判定される。つまり、更新率が基準更新率を超えれば人物は移動していると判定し、また基準更新率を超えなければ人物は静止していると判定される。
【０１０５】
人物が移動状態にあるとき、移動パラメータ群の値により、その行動が認識される。例えば、ｄｘ＞０であれば「右に曲がった」、ｄｘ＜０であれば「左に曲がった」、ｄｙ＜０であれば「立ち上がった」、ｄｙ＞０であれば「座った」、ｓｃａｌｅ＞１であれば「前進した」、ｓｃａｌｅ＜１であれば「後退した」、と判定される。これらの動作判定は座標軸の取り方により変化する。
【０１０６】
人物が静止状態にあるとき、手や物体が抽出されない場合には、人物の身体動作が移動パラメータ群の値により認識される。例えば、ｄｘ＞０であれば「右を向いた」、ｄｘ＜０であれば「左を向いた」、ｄｙ＜０であれば「上を向いた」、ｄｙ＞０であれば「下を向いた」、と判定される。これらの動作判定は座標軸の取り方により変化する。
【０１０７】
人物が静止状態にあるとき、手を抽出した場合には、変換画像における手の動きから手の動作が判定される。例えば、「右手を上げた」、「右手を下げた」、「左手を上げた」、「左手を下げた」などである。
【０１０８】
人物が静止状態にあるとき、手を抽出し、把持されたコップを認識した場合には、変換画像における手の動きから更に詳しい動作が認識される。例えば、「右手で飲んだ」、「左手で飲んだ」、「右手で持った」、「左手で持った」などである。
【０１０９】
人物が静止状態にあるとき、手を抽出し、手と接触した状態で本を認識した場合には、変換画像における手の動きから次のような詳しい動作が認識できる。例えば、「本を読んだ」、「ページをめくった」、「本を開いた」、「本を閉じた」などである。
【０１１０】
このように、カメラにより得られる動画像から人物の動作を認識し、その動作を格文法によりテキストに表現すれば、画像表現がテキスト表現に変換される。この変換により、メモリ容量や通信容量が急減し、記憶装置や通信装置のコストダウンを図れると同時に、通信速度の飛躍的な向上を達成できる。
【０１１１】
特に、個別の人物に着目して、その動作をテキスト表現し、このテキスト群を所定の規則に従って保存すれば、人物ごとの行動データベースを作成できる。この行動データベースを用いれば、複数の人物を個別的に管理することが可能になる。
【０１１２】
図１５はカメラを装着した人物が研究室を立ち歩く行動実験図である。人物は位置１〜位置７までを矢印に従って歩行する。カメラの動画像をコンピュータで解析し、テキスト化して、文章表現と行動とが一致するかどうかを確認した。
【０１１３】
位置１では「机の上のコップを取る」・「イスから立ち上がり歩き始める」、位置２では「右に曲がる」、位置３では「右に曲がる」、位置４では「右に曲がる」、位置５では「右に曲がる」、位置６では「左に曲がる」、位置７では「左に曲がってイスに座る」・「机にコップを置き飲み物を飲む」と判定された。実際の行動とテキスト表現が一致することが確認された。
【０１１４】
本発明は上記実施形態に限定されるものではなく、本発明の技術的思想を逸脱しない範囲における種々の変形例、設計変更などをその技術的範囲内に包含することは云うまでもない。
【０１１５】
【発明の効果】
第１の発明によれば、カメラを人物や動物や車などの移動体に装着し、移動体と共にカメラも同時的に移動させることにより、カメラにより撮影される広範囲の対象物（移動体も含めて）の動画像を無線信号として送信し、この動画像を分析してテキスト化する装置が提供される。無線信号で画像情報を送信するから、移動体が屋内・屋外を問わずに移動する場合でも、移動体を適切に管理することができる。画像情報をテキスト情報に変換するから、記憶容量や通信容量を低減してコストダウンを可能にし、しかも通信速度を飛躍的に向上できる。また、カメラを管理すべき人物に装着すれば、人物の手などの情報から、人物がどこに所在しても、リアルタイムで管理でき、またテキスト情報を蓄積することによって、個別の人物の行動データベースを自動作成できる利点がある。
【０１１６】
第２の発明によれば、カメラ及び無線機としてカメラ付き携帯電話を使用すれば、既存のネットワークを利用して行動分析が容易にできる。また、インターネットなどのネットワークを介することによって、人物の所在場所の遠近に拘わらず、動画像をリアルタイムで分析でき、動作をテキストに直して管理センタに送信できる。ネットワークを介する点でのみ第１の発明と相違しているだけであるから、第１の発明と同様の作用効果を有する。
【０１１７】
第３の発明によれば、人・動物・物・車などの移動体にカメラと行動分析装置と無線機を一体に装着する。行動分析装置を超小型コンピュータで構成することにより、装置全体をコンパクト化でき、例えば行動する人物に装着して、個々人を個別に管理することが可能になる。しかも、無線機によりテキスト情報を送信するから、情報容量は小さくて済み、ネットワークを介して必要なサイトに通信できるし、また直接に管理センタなどに送信することも可能になる。
【０１１８】
第４の発明によれば、入力フレームに対し、例えばアフィン変換を行って基準フレームに戻す処理を行えば、ＸＹＺ方向への並進移動量や回転移動量や拡大縮小率が移動パラメータとして導出できる。入力フレームの移動方向とカメラの移動方向は逆であるから、前述した戻し処理で得られる移動パラメータの値はカメラが移動体と一緒に移動した方向の移動量を与える。アフィン変換以外にも、カメラの移動量を推定できる数学変換が広範囲に利用できる。
【０１１９】
第５の発明によれば、移動体として人物を考えると、人物が座った状態で体を上下に伸縮したり、左右に体を曲げたり、前後に体を往復させる場合にも、入力フレームは基準フレームから変動する。この場合には移動パラメータはそれほど大きくなることは無い。しかし、人物が歩行する場合には、Ｘ方向やＹ方向に直進的に移動するから、移動パラメータは一方向に大きくなると考えられる。この発明は、人物の静止状態又は移動状態を基準フレームが更新される割合、即ち更新頻度（又は更新率とも云う）で判断するものである。基準フレームが一方向的に度々更新される場合には、人物は歩行（移動）していると判断し、また更新頻度（更新率）が小さい場合には人物は座っているか立ったままの状態で静止していると判断することができる。
【０１２０】
第６の発明によれば、入力フレームを基準フレームに変換した変換画像では、人物（移動体）が静止状態にある場合、変換画像の大きな面積を占める背景領域は共通している。従って、共通した背景領域の中で、対象物である他者の頭部や、人物の手や、人物が把持するコップなどの特定対象物の動きに着目し、この特定対象物の動作によって被写体（人物や他者）の行動を判断することが可能になる。
【０１２１】
第７の発明によれば、人物にカメラを装着した場合に、人物の両手又は片手がカメラの前で動けば、この手も当然に被写体となる。変換画像の中で、手を肌色領域で選別し、更に手の動作情報により手であることを確実に認識する。例えば、手の動きを運動方程式で解いて予測位置に手があるかどうか判断すれば、手であることの傍証となる。肌色情報と動作情報の両立性により手が認識され、変換画像の中で手の部分に着色すれば、手の動きによって移動体である人物がどのような行動をしているかを認識することが可能になる。
【０１２２】
第８の発明によれば、変換画像の中で、他者の顔を肌色情報と例えば楕円形などの輪郭情報の両立性によって認識する。この両者によって他者の顔を判断できれば、顔を着色表示し、顔の動きから他者がどのような動作をしているかが判断できる。
【０１２３】
第９の発明によれば、例えば、移動体である人物がコップを持っているとき、前述した方法で人物の手の動作が判断できる。この手が何かを持っているときに、メモリに一以上の具体物、例えばコップや時計や本などの形状を記憶させておき、手が持っている物をこれらのテンプレートモデルと比較して物を特定する。つまり、手の動きを判断すると同時に、その物がコップと認識されれば、人がコップで飲み物を飲もうとしているという動作認識が可能となる。このように、人物の動作と物の認識を結合することによって、被写体の行動認識をより高度に行うことができる。
【０１２４】
第１０の発明によれば、被写体の行動を認識できれば、この行動を格文法などにより簡潔にテキスト化でき、画像情報からテキスト情報へと情報量を軽量化して、テキスト情報の格納や通信によって、記憶装置のコストや通信コストを急減させることが可能になる。また、移動体である人物の行動をテキスト情報に変換できるから、行動記録としてテキストによるデータベース化が可能になり、特定の人物の行動データベースを構築して、病院や老人ホームや学校などにおいて人の安全管理などを効率的に行うことができる。
【図面の簡単な説明】
【図１】本発明に係る被写体の行動認識装置の第１実施形態の概略構成図である。
【図２】本発明に係る被写体の行動認識装置の第２実施形態の概略構成図である。
【図３】本発明に係る被写体の行動認識装置の第３実施形態の概略構成図である。
【図４】本発明において動画像の変換処理によりカメラを装着した移動体の移動量を推定する工程図である。
【図５】本発明において動画像の変換処理により移動量を導出する具体的工程図である。
【図６】移動体（人物）の移動状態又は静止状態の判断基準を与える判別フローチャートである。
【図７】移動体（人物）の移動状態又は静止状態の判断を与える具体的工程図である。
【図８】カメラを装着している人物（移動体）の手の動作を推定する工程図である。
【図９】手領域を抽出する具体的工程図である。原画像は変換画像の一例である。
【図１０】手の動作を推定する具体的工程図である。
【図１１】カメラに撮影される他者の動作を推定する工程図である。
【図１２】カメラにより撮影される物体を認識して特定する工程図である。
【図１３】カメラにより撮影される物体の認識方法を示す具体的工程図である。
【図１４】カメラを装着している人物の行動を認識してテキストで表現する階層構造図である。
【図１５】カメラを装着した人物が研究室を立ち歩く行動実験図である。
【符号の説明】
２は移動体（人物）、４はマイク、６はカメラ、８は対象世界、１０は撮影領域、１２は手、１３は被写体、１４は対象物、１６は無線信号、１８はネットワーク、１９は入力信号、２０は行動分析装置、２１は受信アンテナ、２２は入力部、２４は画像分析部、２６は音声分析部、２８はテキスト生成部、３０はテキストデータベース、３１はテキスト信号、３２は通信部、３４は管理センタ。

Claims

移動体に装着されたカメラと、このカメラで撮影される対象物又は前記移動体の一部からなる被写体の動画像を無線信号として発信する無線機と、この無線信号を受信する行動分析装置と、この行動分析装置は、動画像を加工して被写体の行動を分析する画像分析部と、この画像分析部により分析された被写体の行動をテキスト情報として出力するテキスト生成部を有することを特徴とする被写体の行動認識装置。
移動体に装着されたカメラと、このカメラで撮影される対象物又は前記移動体の一部からなる被写体の動画像を無線信号として発信する無線機と、この無線機から発信される無線信号をネットワークを介して受信する行動分析装置と、この行動分析装置は、動画像を加工して被写体の行動を分析する画像分析部と、この画像分析部により分析された被写体の行動をテキスト情報として出力するテキスト生成部を有することを特徴とする被写体の行動認識装置。
移動体に装着されたカメラと、このカメラに付属する行動分析装置及び無線機と、前記行動分析装置は、前記カメラで撮影される対象物又は前記移動体の一部からなる被写体の動画像を加工して被写体の行動を分析する画像分析部と、この画像分析部により分析された被写体の行動をテキスト情報として出力するテキスト生成部を有し、前記無線機によりテキスト情報を必要なサイトまで無線送信することを特徴とする被写体の行動認識装置。
移動体に装着されたカメラにより対象世界を撮影して動画像を取り込み、動画像を構成する時系列的に流れる複数の画像フレームの一つを基準フレームに設定し、この基準フレームに時間的に後続する画像フレームを入力フレームとし、この入力フレームに変換処理を施して前記基準フレームに極力近似させるようにし、この変換処理により入力フレームが基準フレームからどれほど移動しているかを示す移動パラメータを導出し、この移動パラメータにより前記移動体の移動量を推定することを特徴とする被写体の行動認識方法。
移動体に装着されたカメラにより対象世界を撮影して動画像を取り込み、動画像を構成する時系列的に流れる複数の画像フレームの一つを基準フレームに設定し、この基準フレームに時間的に後続する画像フレーム系列を入力フレーム系列とし、この入力フレーム系列に変換処理を施して前記基準フレームに極力近似させるようにした変換画像系列を形成し、変換処理により入力フレームが基準フレームからどれほど移動しているかを示す移動パラメータを導出し、この移動パラメータにより推定される前記移動体の移動量が基準移動量より大きくなるとその入力フレームを基準フレームに再設定して基準フレームの更新を行い、以上の操作を反復して基準フレームの更新頻度（更新率）から前記移動体の行動を判断することを特徴とする被写体の行動認識方法。
移動体に装着されたカメラにより対象世界を撮影して動画像を取り込み、動画像を構成する時系列的に流れる複数の画像フレームの一つを基準フレームに設定し、この基準フレームに時間的に後続する画像フレーム系列を入力フレーム系列とし、この入力フレーム系列に変換処理を施して前記基準フレームに極力近似させるようにした変換画像系列を形成し、各変換画像における背景領域の中で特定対象物を示す特定領域に着目し、変換画像系列の中で特定領域の動作から前記特定対象物の行動を判断することを特徴とする被写体の行動認識方法。
前記移動体が人物である場合に、前記特定対象物がこの人物の手であり、この手領域を少なくとも肌色情報と動作情報から特定領域として抽出し、この手領域の動作から人物の行動を判断する請求項５に記載の被写体の行動認識方法。
前記特定対象物がカメラにより撮影される他者の顔であり、この顔領域を少なくとも肌色情報と輪郭情報から特定領域として抽出し、この顔領域の動作から前記他者の行動を判断する請求項５に記載の被写体の行動認識方法。
移動体に装着されたカメラにより対象世界を撮影して動画像を取り込み、動画像を構成する時系列的に流れる複数の画像フレームの一つを基準フレームに設定し、この基準フレームに時間的に後続する画像フレーム系列を入力フレーム系列とし、この入力フレーム系列に変換処理を施して前記基準フレームに極力近似させるようにした変換画像系列を形成し、各変換画像における背景領域の中で特定対象物を示す特定領域に着目し、この特定領域の画像を記憶されているテンプレートモデルと比較し、前記特定対象物を具体的に特定することを特徴とする被写体の行動認識方法。
前記被写体の行動をテキスト情報に変換する請求項４、５、６、７、８又は９に記載の被写体の行動認識方法。