JP2004280376A - 被写体の行動認識方法及び装置 - Google Patents
被写体の行動認識方法及び装置 Download PDFInfo
- Publication number
- JP2004280376A JP2004280376A JP2003069913A JP2003069913A JP2004280376A JP 2004280376 A JP2004280376 A JP 2004280376A JP 2003069913 A JP2003069913 A JP 2003069913A JP 2003069913 A JP2003069913 A JP 2003069913A JP 2004280376 A JP2004280376 A JP 2004280376A
- Authority
- JP
- Japan
- Prior art keywords
- image
- moving
- behavior
- camera
- person
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Accommodation For Nursing Or Treatment Tables (AREA)
- Image Processing (AREA)
- Closed-Circuit Television Systems (AREA)
- Alarm Systems (AREA)
- Image Analysis (AREA)
Abstract
【課題】建物の内外における人物行動の常時観察を可能にし、しかも複数の人物を個別に管理できる被写体の行動認識方法及び装置を開発する。
【解決手段】本発明に係る被写体の行動認識装置は、移動体2に装着されたカメラ6と、このカメラ6で撮影される対象物14又は前記移動体の一部12からなる被写体13の動画像を無線信号16として発信する無線機7と、この無線機7から発信される無線信号16をネットワーク18を介して受信する行動分析装置20と、この行動分析装置20は、動画像を加工して被写体の行動を分析する画像分析部24と、この画像分析部24により分析された被写体13の行動をテキスト情報として出力するテキスト生成部28を有することを特徴とする。画像分析方法やテキスト生成方法も本発明に含まれる。ネットワークを介して人物などの行動を個別にリアルタイムで管理し、テキスト化できる点に利点を有する。
【選択図】 図1
【解決手段】本発明に係る被写体の行動認識装置は、移動体2に装着されたカメラ6と、このカメラ6で撮影される対象物14又は前記移動体の一部12からなる被写体13の動画像を無線信号16として発信する無線機7と、この無線機7から発信される無線信号16をネットワーク18を介して受信する行動分析装置20と、この行動分析装置20は、動画像を加工して被写体の行動を分析する画像分析部24と、この画像分析部24により分析された被写体13の行動をテキスト情報として出力するテキスト生成部28を有することを特徴とする。画像分析方法やテキスト生成方法も本発明に含まれる。ネットワークを介して人物などの行動を個別にリアルタイムで管理し、テキスト化できる点に利点を有する。
【選択図】 図1
Description
【0001】
【発明の属する技術分野】
本発明はカメラを用いて被写体の行動を認識する方法に関し、更に詳細には、カメラを人・動物・物・車などの移動体に装着し、カメラにより撮影される動画像を分析して、移動体や対象物などの行動を認識する被写体の行動認識方法及び装置に関する。
【0002】
【従来の技術】
従来、病院などにおいて要介護者の行動を管理したり、建物に外部から侵入する不審者を監視する無人報知システムが知られている。この無人報知システムとして典型的なものは、赤外線センサを配置し、人物から放射される赤外線を検出して人物の侵入を報知したり、侵入者の赤外像を表示するシステムである。
【0003】
この赤外線報知システムでは、赤外線という限定された単一情報しか報知できず、また赤外線センサが設置されている特定位置・特定方向の情報しか得られない。例えば、センサから外れた場所における人物の行動を管理する等は不可能であった。特に、侵入者の赤外像を確認するためには、管理者の常時監視が必要になるという欠点もあった。
【0004】
また、ビデオカメラを建物の所要位置に固定し、無人の時間帯にはビデオカメラで録画するシステムも常用されている。このシステムでは、録画中は無人状態でよいが、異常があるかどうかはビデオ情報を再生して確認する必要がある。特に、ビデオカメラの死角領域の監視は不可能であるから、多数の箇所にビデオカメラを設置するなどシステム費用が高価になっていた。また、遠隔地域で監視するには、ビデオ情報を送信しなければならず、伝達情報量が大きく通信コストが過大になっていた。
【0005】
【発明が解決しようとする課題】
そこで、伝達情報量を小さくするため、本発明者等は特開平10−40482号により、「文章情報による無人報知システム」を公開した。この公開発明は、ビデオカメラとマイクロホンを建物内に固定配置し、特定の人物を常時撮影し、得られた動画情報と音声情報を格文法に従ってテキスト情報に変換し、このテキスト情報を管理者に送信して特定人物の行動を観察するシステムである。
【0006】
この公開発明では、膨大な情報量を有した動画情報と音声情報を小さな情報量で済むテキスト情報に変換するから、管理者に送信する場合でも通信コストが少なく、またテキスト情報を記録するだけであるから記憶装置も安価で済むという利点を有している。
【0007】
しかし、この公開発明も、ビデオカメラとマイクロホンは建物内の特定箇所に固定配置されるから、その特定箇所のしかも特定方向しか撮影されないという弱点を有する。ビデオカメラの死角は大きく、死角に入った人物の行動は全く不明である。
【0008】
特に、人物がビデオカメラから遠く離れた場合には、人物を撮影することは不可能になる。このため、建物内の多数の箇所にビデオカメラを配置しなければならず、ビデオシステムの構築に多額の費用を要する結果となる。
【0009】
ビデオシステムによる管理は不審者の侵入監視だけではなく、例えば病院や老人ホームなどにおける要介護者の行動管理にも必要となる。建物内の死角を無くすために、費用の多少を問わずにビデオシステムを完成させた場合を考えよう。この場合でも、要介護者が建物から外出したケースでは、ビデオシステムの管理区域から外れるため、要介護者の行動管理は不可能になる。
【0010】
このように、ビデオカメラを固定配置する従来システムでは、要介護者などの行動を管理できる区域は建物内に限定されている。また、複数の要介護者を管理するには、管理者が目視で要介護者を区別する以外に無く、ビデオカメラを常時観察する負担から逃れることはできなかった。
【0011】
この固定ビデオカメラシステムに文章化システムを組み合わせ、文章を報知機能にアラーム機能を付設することにより、過大記憶容量が不要になったり、要介護者が一人の場合に常時観察が不要になるという利点はある。しかし、この場合であっても、複数の要介護者を個別に行動管理することは不可能であり、やはり目視による常時観察という重圧が管理者側にあった。
【0012】
従って、本発明は、従来から呪縛のように存在したビデオカメラを建物に固定するという方式を捨て去り、全く新たな着眼点を導入して、建物の内外における人物行動の常時観察を可能にし、しかも複数の人物を個別に管理できる被写体の行動認識方法及び装置を提供することである。また、本発明に文章化システムを付加することにより、記憶容量や通信容量を急減でき、更にアラーム機能を付加することにより、目視による常時観察をしなくても非常時にのみ通報して対処できることを目的とする
【0013】
【課題を解決するための手段】
本発明は上記課題を解決するためになされたものであり、第1の発明は、移動体に装着されたカメラと、このカメラで撮影される対象物又は前記移動体の一部からなる被写体の動画像を無線信号として発信する無線機と、この無線信号を受信する行動分析装置と、この行動分析装置は、動画像を加工して被写体の行動を分析する画像分析部と、この画像分析部により分析された被写体の行動をテキスト情報として出力するテキスト生成部を有することを特徴とする被写体の行動認識装置である。この発明は、ビデオカメラや携帯電話内蔵カメラ等のカメラを人物や動物や車などの移動体に装着して、移動体と共にカメラも同時的に移動させる点に特徴を有している。このカメラを本発明者はウェアラブルカメラ(帯同カメラ)と称している。対象世界の様々な対象物がカメラに撮影され、また移動体が人物であれば、人物の手がカメラにより撮影される。従って、要介護者の手の動きからその動作が常時認識でき、また対象世界の映像によって要介護者の動作環境が常時把握される。複数の要介護者の夫々にカメラと無線機を装着すれば、夫々の動画像が無線機により個別的に受信されるから、複数の人物の個別的な同時管理が可能になる。また、動画像の無線信号が受信される構成になっておればよいから、管理センターの近傍で行動する場合には、無線信号の受発信装置により動画像信号を直ちに受信できる構成を採用でき、遠隔地で行動する場合には、インターネットや携帯電話システムなどのネットワークを使用して動画像信号を受信できるように構成すればよい。更に、これらの動画信号が分析されてテキスト情報として出力されるから記憶容量や通信容量が低減でき、テキスト情報にアラーム装置を付加すれば、画像を常時目視しなくても、移動体の異常行動時にリアルタイムでその行動を認識でき、即時対応が可能となる利点を有する。また、動画像に対応してテキスト情報が生成されるから、カメラを装着した人物の特性に応じたテキスト情報が集積でき、個別の人物の特性に応じたテキストデータベースを構築でき、人物などの管理情報の体系化を図ることが可能になる。
【0014】
第2の発明は、移動体に装着されたカメラと、このカメラで撮影される対象物又は前記移動体の一部からなる被写体の動画像を無線信号として発信する無線機と、この無線機から発信される無線信号をネットワークを介して受信する行動分析装置と、この行動分析装置は、動画像を加工して被写体の行動を分析する画像分析部と、この画像分析部により分析された被写体の行動をテキスト情報として出力するテキスト生成部を有する被写体の行動認識装置である。この発明は、動画像信号をネットワークを介して送受信する構成を有する点で第1の発明と相違しているだけであるから、第1の発明と同様の作用効果を有している。特に、ネットワークを介して無線信号を送受信するから、人物などの移動体が遠隔地に離れても、広域ネットワークや近域ネットワークを介して動画像信号を瞬時に送受信でき、人物などの行動管理を広域的にも確立できる利点を有する。
【0015】
第3の発明は、移動体に装着されたカメラと、このカメラに付属する行動分析装置及び無線機と、前記行動分析装置は、前記カメラで撮影される対象物又は前記移動体の一部からなる被写体の動画像を加工して被写体の行動を分析する画像分析部と、この画像分析部により分析された被写体の行動をテキスト情報として出力するテキスト生成部を有し、前記無線機によりテキスト情報を必要なサイトまで無線送信することを特徴とする被写体の行動認識装置である。この発明の特徴は、人・動物・物・車などの移動体にカメラと行動分析装置と無線機を一体に装着する点にある。行動分析装置を超小型コンピュータで構成することにより、装置全体をコンパクト化でき、例えば行動する人物に装着して、個々人を個別に管理することが可能になる。しかも、無線機によりテキスト情報を送信するから、情報容量は小さくて済み、ネットワークを介して必要なサイトに通信できるし、また直接に管理センタなどに送信することも可能になる。
【0016】
第4の発明は、移動体に装着されたカメラにより対象世界を撮影して動画像を取り込み、動画像を構成する時系列的に流れる複数の画像フレームの一つを基準フレームに設定し、この基準フレームに時間的に後続する画像フレームを入力フレームとし、この入力フレームに変換処理を施して前記基準フレームに極力近似させるようにし、この変換処理により入力フレームが基準フレームからどれほど移動しているかを示す移動パラメータを導出し、この移動パラメータにより前記移動体の移動量を推定する被写体の行動認識方法である。入力フレームに対し、例えばアフィン変換を行って基準フレームに戻す処理を行えば、XYZ方向への並進移動量や回転移動量や拡大縮小率が移動パラメータとして導出できる。入力フレームの移動方向とカメラの移動方向は逆であるから、前述した戻し処理で得られる移動パラメータの値はカメラが移動体と一緒に移動した方向の移動量を与える。アフィン変換以外にも、カメラの移動量を推定できる数学変換が広範囲に利用できる。
【0017】
第5の発明は、移動体に装着されたカメラにより対象世界を撮影して動画像を取り込み、動画像を構成する時系列的に流れる複数の画像フレームの一つを基準フレームに設定し、この基準フレームに時間的に後続する画像フレーム系列を入力フレーム系列とし、この入力フレーム系列に変換処理を施して前記基準フレームに極力近似させるようにした変換画像系列を形成し、変換処理により入力フレームが基準フレームからどれほど移動しているかを示す移動パラメータを導出し、この移動パラメータにより推定される前記移動体の移動量が基準移動量より大きくなるとその入力フレームを基準フレームに再設定して基準フレームの更新を行い、以上の操作を反復して基準フレームの更新頻度(更新率)から前記移動体の行動を判断する被写体の行動認識方法である。移動体として人物を考えると、人物が座った状態で体を上下に伸縮したり、左右に体を曲げたり、前後に体を往復させる場合にも、入力フレームは基準フレームから変動する。この変換処理による移動パラメータはそれほど大きくなることは無い。しかし、人物が歩行する場合には、X方向やY方向に直進的に移動するから、移動パラメータは一方向に大きくなると考えられる。この発明は、人物の静止状態又は移動状態を基準フレームが更新される割合、即ち更新頻度(又は更新率とも云う)で判断するものである。基準フレームが一方向的に度々更新される場合には、人物は歩行(移動)していると判断し、また更新頻度(更新率)が小さい場合には人物は座っているか立ったままの状態で静止していると判断するものである。
【0018】
第6の発明は、移動体に装着されたカメラにより対象世界を撮影して動画像を取り込み、動画像を構成する時系列的に流れる複数の画像フレームの一つを基準フレームに設定し、この基準フレームに時間的に後続する画像フレーム系列を入力フレーム系列とし、この入力フレーム系列に変換処理を施して前記基準フレームに極力近似させるようにした変換画像系列を形成し、各変換画像における背景領域の中で特定対象物を示す特定領域に着目し、変換画像系列の中で特定領域の動作から前記特定対象物の行動を判断する被写体の行動認識方法である。入力フレームを基準フレームに変換した変換画像では、人物(移動体)が静止状態にある場合、変換画像の大きな面積を占める背景領域は共通している。従って、共通した背景領域の中で、対象物である他者の頭部や、人物の手や、人物が把持するコップなどの特定対象物の動きに着目し、この特定対象物の動作によって被写体(人物や他者)の行動を判断することが可能になる。
【0019】
第7の発明は、前記移動体が人物である場合に、前記特定対象物がこの人物の手であり、この手領域を少なくとも肌色情報と動作情報から特定領域として抽出し、この手領域の動作から人物の行動を判断する被写体の行動認識方法である。人物にカメラを装着した場合に、人物の両手又は片手がカメラの前で動けば、この手も当然に被写体となる。変換画像の中で、手を肌色領域で選別し、更に手の動作情報により手であることを確実に認識する。例えば、手の動きを運動方程式で解いて予測位置に手があるかどうか判断すれば、手であることの傍証となる。肌色情報と動作情報の両立性により手が認識され、変換画像の中で手の部分に着色すれば、手の動きによって移動体である人物がどのような動作または行動をしているかを認識することが可能になる。
【0020】
第8の発明は、特定対象物がカメラにより撮影される他者の顔であり、この顔領域を少なくとも肌色情報と輪郭情報から特定領域として抽出し、この顔領域の動作から前記他者の行動を判断する被写体の行動認識方法である。変換画像の中で、他者の顔を肌色情報と例えば楕円形などの輪郭情報の両立性によって認識する。この両者によって他者の顔を判断できれば、顔を着色表示し、顔の動きから他者がどのような動作をしているかが判断できる。
【0021】
第9の発明は、移動体に装着されたカメラにより対象世界を撮影して動画像を取り込み、動画像を構成する時系列的に流れる複数の画像フレームの一つを基準フレームに設定し、この基準フレームに時間的に後続する画像フレーム系列を入力フレーム系列とし、この入力フレーム系列に変換処理を施して前記基準フレームに極力近似させるようにした変換画像系列を形成し、各変換画像における背景領域の中で特定対象物を示す特定領域に着目し、この特定領域の画像を記憶されているテンプレートモデルと比較し、前記特定対象物を具体的に特定する被写体の行動認識方法である。例えば、移動体である人物がコップを持っているとき、前述した方法で人物の手の動作が判断できる。この手が何かを持っているときに、メモリに一以上の具体物、例えばコップや時計や本などの形状を記憶させておき、手が持っている物をこれらのテンプレートモデルと比較して物を特定する。つまり、手の動きを判断すると同時に、その物がコップと認識されれば、人がコップで飲み物を飲もうとしているという動作認識が可能となる。このように、人物の動作と物の認識を結合することによって、被写体の行動認識をより高度に行うことができる。
【0022】
第10の発明は、前記被写体の行動をテキスト情報に変換する被写体の行動認識方法である。被写体の行動を認識できれば、この行動を格文法などにより簡潔にテキスト化でき、画像情報からテキスト情報へと情報量を軽量化して、テキスト情報の格納や通信によって、記憶装置のコストや通信コストを急減させることが可能になる。また、移動体である人物の行動をテキスト情報に変換できるから、行動記録としてテキストによるデータベース化が可能になり、特定の人物の行動データベースを構築して、病院や老人ホームや学校などにおいて人の安全管理などを効率的に行うことができる。
【0023】
【発明の実施の形態】
以下に、本発明に係る被写体の行動認識方法及び装置の実施形態を添付する図面に従って詳細に説明する。
【0024】
図1は本発明に係る被写体の行動認識装置の第1実施形態の概略構成図である。移動体2は人物・動物・物・車などの移動性のあるものであり、ここでは行動を認識され管理されるべき人物であるとする。しかし、対象世界を認識する場合には、移動体2(人物2と称する場合もある)としては、動物でもよいし、自動車や自転車やバイクなどの車でもよく、自在に移動しながら対象世界をカメラで撮像できるものであればよい。
【0025】
この移動体2に無線機7を内蔵したカメラ6を固定状態で装着する。このカメラにはマイク4も装備され、人物2や対象世界8が発する音声も記録することができる。具体的には、カメラ6としては無線機7を付設したビデオカメラ、またはカメラ付きの携帯電話などが該当する。カメラ6による動画情報とマイク4による音声情報が無線機7により送信できる機構が採用されている。
【0026】
このカメラ6は対象世界8の動画像を撮影でき、この動画像は家庭用ビデオカメラでは通常1秒間に30フレームで構成されるが、家庭用と業務用によっても異なる場合がある。また、家庭用のビデオカメラを用いて、6フレーム毎に1フレームを使用すれば、1秒間当りに5フレームのフレーム率に設定できる。従って、1秒間あたりのフレーム数(フレーム率)は任意に定められる。
【0027】
このカメラ6によって撮像される対象世界8は想像線10により囲われた領域で、この中には移動体(人物)2の手12や対象物14が存在し、これらを被写体13と称する。従って、被写体13の動画像と音声が得られ、無線機7により動画信号と音声信号からなる無線信号16が送信される。
【0028】
無線信号16はインターネットなどのネットワークを通して広域に伝達される。対象世界8を観察する管理センタ34では、ネットワーク18を介して前記無線信号を行動分析装置20により受信する。
【0029】
この行動分析装置20は例えばパソコンなどのコンピュータや電子回路装置により構成される。この行動分析装置20は入力部22、画像分析部24、音声分析部26、テキスト生成部28及びテキスト生成部28の中に形成されたテキストデータベース部30から構成されている。
【0030】
入力部22はネットワーク18から入力信号19を受信する。この入力信号19は動画信号と音声信号から構成されている。動画信号は画像分析部24に入力され、音声信号は音声分析部26に入力される。
【0031】
動画分析部24の具体的な作用・機能は図3〜図12を用いて後で詳細に説明される。簡単に言えば、動画信号が画像フレームの時系列信号として入力され、各画像フレームを数学的に変換したり、変換後の画像を解析することにより、画像中の特定領域の動作が推定される。
【0032】
音声分析部26では、マイク4により聴取された音声信号が解析される。音声信号の分析には、例えば隠れマルコフモデル手法(HMM)を用いることができる。被写体が人物の場合には、音声も同時に生じるから、画像から動作を分析するだけでなく、音声を補助的に使用して、判別された動作をより確実なものにすることが可能になる。従って、動作の内容と音声の内容が一致したときに、動作の判断を高確率で確定することができる。
【0033】
テキスト生成部28では、画像と音声、特に画像から得られた動作をテキスト情報へと変換する。つまり、補助的に音声情報を使用しながら、画像情報をテキスト情報へと変換する。この変換により、大容量メモリを有する画像情報を低容量メモリで対応できるテキスト情報へと変換し、情報量のスリム化を実現する。
【0034】
テキスト生成部28において、画像からテキストを生成する一つの方法として、格文法を使用することができる。まず第1に、画像で示される行動に最も相応しい動詞(PRED)が選択される。次に、この動詞を中心にして、動詞に係る語句の格、例えば主格や目的格や道具格などが決定され、動詞と格を結合することによりテキスト(文章)が構成される。
【0035】
具体的には、動作を行う動作主(AG)、動作が行われる対象(OBJ)が選択される。更に、この動作の開始時刻(SO−TIME)と終了時刻(GO−TIME)が与えられる。この結果、次のような動作表現が与えられる。
[PRED: verb, AG: agent, OBJ: object, SO−TIME: time1, GO−TIME: time2]
【0036】
最終的には自然言語文からなるテキスト表現が好ましい。上記のようにして得られた動作表現は、例えば下記のように格構造変換の手法により自然言語文に変換される。
[PRED: sousa−suru, AG: man1, OBJ: ws1, SO−TIME: t1, GO−TIME: t2]
「時刻t1からt2に、利用者man1が、ワークステーションws1を操作した」
【0037】
つまり、テキスト生成部では、動画像を分析して、多数の動作表現を連続的に生成し、この動作表現を次々と自然言語文に翻訳して、誰でもが理解できるテキストが生成されることになる。しかし、テキストの生成方法は、格文法構造や格構造変換の手法に限定されず、現在開発されている種々のテキスト化方法が採用される。
【0038】
テキストデータベース部30は、生成されたテキストを与えられた規則の下で配列して記憶するメモリ部である。被写体13がカメラを装着した人物2である場合には、この人物2の動作が次々にテキスト化されるから、この人物に特徴的な動作データベースが構築できる。
【0039】
例えば、このシステムを病院で採用すると、一人一人の患者にカメラ6を装着し、患者毎の行動データベースが構成でき、患者の管理が極めて円滑になる。老人ホームでは、各高齢者にカメラ6を装着して、高齢者毎の行動データベースを作成し、この行動データベースに基づいて、各高齢者を迅速且つ安全に介助することが可能になる。従って、このシステムは、複数人の集団において、各構成員を個別に管理する場合に特に効果がある。
【0040】
通信部32はテキスト生成部28からテキスト信号31を受信し、テキスト情報を管理センタ34に送信する役割を担う。テキストデータは極めて容量が小さいから、記憶容量や通信容量が小さくて済み、通信速度も高速化できる利点を有する。従って、通信部32として通常の通信装置及び通信方式でよいから安価で済む。
【0041】
管理センタ34はテキストデータを下にカメラを装着した人物や、カメラにより撮影される対象人物を管理する施設である。入手されるデータはテキストデータであるから、管理センタ34の記憶装置の容量も小さくて済む。また、管理センタ34では、各人物毎に作成されたテキストデータベース30を受け取り、個別管理の基礎データとする。
【0042】
図2は本発明に係る被写体の行動認識装置の第2実施形態の概略構成図である。この装置はネットワークを使用しないで、無線信号を直接アンテナで受信して行動を管理する装置である。従って、多くの部分は図1の装置と同一であるから、図1と同一部分には同一符号を付して説明を省略し、異なる符合部分について説明する。
【0043】
画像信号や音声信号から構成される無線信号16は受信アンテナ21により直接受信される。この無線信号16は入力信号19として入力部22に送られる。以後の処理は図1と同様である。
【0044】
ネットワーク18が配置されている地域に付いては図1の行動分析装置20が利用されるが、ネットワーク18が配置されていない地域では、行動分析装置20とカメラ6の間を無線で結合するシステムが有効である。
【0045】
図3は本発明に係る被写体の行動認識装置の第3実施形態の概略構成図である。この装置は、画像分析装置20と無線機7をカメラ6と一体にして移動体2に装着し、テキスト情報を必要なサイトに無線送信するものである。図1の装置と同一部分には同一符号を付して説明を省略し、異なる部分について説明する。
【0046】
画像分析装置20を超小型のコンピュータで構成すれば、画像分析装置20をカメラ6と無線機7と一体化して人物などの移動体2に装着すれば、被写体の行動を分析したテキスト情報を移動体2から直ちに必要なサイトに送信できる。
【0047】
即ち、カメラ6で撮影された被写体13の動画像は、移動体2に装着された画像分析装置20に入力され、同時にマイク4で検出された音声信号も入力される。動画像と音声から分析された被写体の動作は、画像分析装置20で分析され、動作の特徴がテキスト生成部28によりテキスト情報として出力される。
【0048】
テキスト情報はテキスト信号31として無線機7に入力され、この無線機7から無線信号16として空間に無線送信される。この無線信号16は、例えばネットワーク18を介して入力信号19として管理センタ34に受信される。また、無線信号16は想像線で示されるように直ちにアンテナにより受信されて管理センタ34に受信される。
【0049】
第1実施形態と第2実施形態は画像信号や音声信号を無線信号16として送信するのに対し、第3実施形態ではテキスト信号を無線信号16として送信する点に相違を有する。この相違は、行動分析装置20をサイト側に設けるか、それとも移動体2に設けるかに起因している。
【0050】
以下では、画像分析部24の具体的分析方法とテキスト生成部28の具体的生成方法について、個別の場合に応じて説明する。行動分析装置20がコンピュータ装置により構成される場合には、前記方法はプログラムにより進行する。行動分析装置20が電子回路装置により構成される場合には、前記方法は電子回路の手順に従って進行する。
【0051】
図4は本発明において動画像の変換処理によりカメラを装着した移動体の移動量を推定する工程図である。(4A)では、動画像を撮像できるカメラが移動体に装着される。この移動体は、人・動物・車・自転車などのように移動する物体であればよいが、行動を管理される対象として人が通常である。従って、以下では移動体は人物であるとする。
【0052】
(4B)では、カメラにより対象世界を撮影し、対象世界の動画像が取り込まれる。この動画像には、カメラを装着された人物の手や対象世界の他者など様々な映像が含まれる。移動体は地上を動き回るから、動画像も時間的に種々に変化する。
【0053】
移動体が歩行(移動状態)するときには、動画像の中の背景画像もかなり変化する。逆に、移動体(人物)が座った状態や直立状態にある場合は静止状態であり、動画像の中の背景画像はそれほど変化しない。しかし、人物が左右に体を回したり、前後に体を微小移動させると、カメラも同様に動くから動画像も多少変化する。この動画像の大変化や小変化を認識して、移動体、即ちカメラの移動量を推定する。
【0054】
(4C)では、動画像を構成する多数の動画フレームが時系列的に取り込まれる。これらの時系列的な動画フレームの中の一つが基準フレームとして設定される。この基準フレームは以後に取り込まれるフレーム群の先頭フレームと考えればよい。
【0055】
(4D)では、基準フレームより時間的に後続する画像フレームが次々と取り込まれる。これらの画像フレームを入力フレームと呼んでいる。従って、基準フレームの後に多数の入力フレーム群が存在する。
【0056】
(4E)では、入力フレームに数学的変換処理を加えて基準フレームにできるだけ一致させるように変換する。この変換処理によって得られる移動パラメータ群の値が、カメラの移動量であると推定できる。
【0057】
カメラは移動体と共に動くから、入力フレームは基準フレームから多少ずれている。例えば、カメラが右へ移動すると、入力フレームは基準フレームより左に移動する。つまり、カメラの移動方向と入力フレームの移動方向は逆の関係になる。従って、入力フレームを基準フレームに一致する方向に移動させれば、その移動量はカメラの移動量に一致するはずである。
【0058】
この移動パラメータを得るために適切な変換はアフィン変換である。このアフィン変換は平行移動、回転、拡大縮小、せん断などの処理を行う変換で、特に、平行移動と回転移動と拡大縮小のパラメータが移動パラメータ群になる。
【0059】
(4F)では、例えばアフィン変換により、平行移動パラメータ、回転移動パラメータ、拡大縮小パラメータが移動パラメータ群として得られる。(3G)では、これらの移動パラメータ群の値により移動体、即ちカメラの移動量が推定される。
【0060】
図5は本発明において動画像の変換処理により移動量を導出する具体的工程図である。(5A)はパソコンを中心に配置した基準フレームを示す。右方向がx方向、下方向がy方向を与える。
【0061】
(5B)は入力フレームの一例を示す。この入力フレームでは、中心にあるパソコンが少し右に移動している。カメラの立場から言えば、カメラが左へ移動した結果、フレーム内で被写体が右へ移動したと考えられる。カメラの移動方向と被写体、即ちフレームの移動方向が逆の関係にある。
【0062】
(5C)では、前記入力フレームに対しアフィン変換を施して、入力フレームを基準フレームに一致させるように変換する。どれくらい変換すれば一致するかは事前に不明であるから、例えばコンデンセーション・アルゴリズムを使用してランダム近似させながら一致度を高めてゆく。
【0063】
(5D)では、入力フレームをアフィン変換させた後の変換画像が示されている。パソコンの配置がほぼ基準フレームの配置と同程度に一致している。単純に云えば、入力フレームの中の画像を左方向に移動させると、変換画像が得られる。フレームの枠から外れた領域は消去され、画像が無くなくなった領域は黒く塗られている。
【0064】
(5E)では、アフィン変換により得られた移動パラメータ群の値が示されている。dx=−52は、入力フレームを左方向に52だけ移動したことを示し、この値が実際にカメラの移動量となる。dy=13は入力フレームを下方向に13だけ移動したことを示し、カメラのy方向移動量を示す。
【0065】
θ=2.6は、入力フレームを原点を中心に時計方向に2.6だけ回転させたことを示し、この値がカメラの回転移動量を与える。scale=0.94は入力フレームを0.94倍することにより変換画像になったことを示し、カメラが基準フレームよりやや前進したことを示している。
【0066】
従って、(5F)のように、これらの移動パラメータ群の値により、移動体(人物)、即ちカメラが左下方向に平行移動し、少しだけ右方向回転し、やや前進したという結果が得られる。移動量は前述した値であり、このように移動パラメータ群から移動体の移動量が導出できる。
【0067】
しかし、上記の結果は、移動体が座った状態(静止状態)にあって体を微小移動させているのか、それとも移動体が歩行状態(移動状態)にあるのか、については結論できていない。次に、移動体が静止状態にあるのか移動状態にあるのかに関する判断方法を説明する。
【0068】
図6は移動体(人物)の移動状態又は静止状態の判断基準を与える判別フローチャートである。人物が歩行している場合には移動パラメータが一方向に大きくなり、入力フレームの背景画像が基準フレームと全く異なる状態が生じる。このような場合には、新しい入力フレームを基準フレームに再設定して基準フレームを更新する必要が生じる。
【0069】
このように基準フレームを次々に更新する必要が生じた場合には、人物は歩行していると考えられる。つまり、何フレーム毎に基準フレームを更新しているか、という基準フレームの更新頻度(更新率)により移動(歩行)・静止の判別を行う。その基準率を基準更新率と呼び、基準フレーム更新率が基準更新率を超えたときに移動状態と判断し、それより小さいときに静止状態と判断する。以下、各ステップを説明する。
【0070】
ステップn1では、入力フレーム系列の先頭フレームを基準フレームとして設定する。ステップn2では、後続の画像フレームを入力フレームとして継続的に取り込む。ステップn3では、各入力フレームに変換処理を施して基準フレームに極力一致させる処理を行う。
【0071】
ステップn4では、例えばアフィン変換処理により、移動パラメータ群を具体的に導出し、人物の移動量(ステップn5)を推定する。ステップn6では、移動量と基準移動量の比較が行われ、移動量が小さい場合には静止状態と判断され(ステップn7)、ステップn2にフィードバックされる。
【0072】
移動量が基準移動量より大きくなると、その入力フレームを基準フレームに設定し直し(ステップn8)、基準フレームの更新率が算定される(ステップn9)。この基準フレームの更新率と基準更新率が比較され(ステップn10)、基準更新率よりも大きい場合には人物は移動状態にあると判断される(ステップn1)。他方、基準更新率よりも小さい場合には、人物は静止状態にあると判断され(ステップn12)、ステップn2にフィードバックされる。
【0073】
以上のように、入力フレームを連続的に取り込みながら、基準フレームの更新率(更新頻度)を計算して、人物(移動体)の移動状態又は静止状態が確実に定量的に判断されるのである。
【0074】
図7は移動体(人物)の移動状態又は静止状態の判断を与える具体的工程図である。(7A)〜(7E)は入力フレーム系列を示し、(7a)〜(7e)は(7A)〜(7E)のアフィン変換による変換画像系列を示している。矢印方向が時間方向である。
【0075】
基準移動量や基準更新率は状況に応じて任意に定められる。この例では、基準移動量はdx=20に設定される。また、3フレームに1回基準フレームの更新があり、その更新が連続して2回継続したときを基準更新率と定めている。
【0076】
(7A)が基準フレームとして設定され、次々に入力フレーム系列が取り込まれてゆく。入力フレームから、カメラは右上方向に移動していることが分かる。(7B)を変換すると(7b)になり、dx=15であるから基準移動量の範囲内である。
【0077】
(7C)を変換すると(7c)になり、dx=21であるから基準移動量のdx=20を超えている。従って、基準移動量の範囲外と認定され、(7C)が基準フレームとして更新される。また、ここで第1回の基準フレームの更新が行われた。
【0078】
今、(7C)が基準フレームであり、(7D)をアフィン変換すると、dx=10となるから基準移動量の範囲内である。(7c)のdx=21に加算されると、(7d)ではdx=31となる。(7b)〜(7d)では基準更新率の範囲内であるから、人物、即ちカメラは静止状態にあると判断される。
【0079】
次に、(7E)をアフィン変換すると、dx=13の(7e)が得られる。(7C)をdx=0の基準に取ると、dx=23となるから、基準移動量dx=20を超えている。従って、再び(7E)が基準フレームとして更新される。
【0080】
(7e)の段階で、基準フレームの更新が2回連続して行われたから、基準フレームの更新率が基準更新率を超えたことになり、人物、即ちカメラは移動状態にあると判断される。
【0081】
以上から次のような結論が導出される。(7b)〜(7d)では、静止状態にありながらdxが連続的に増加している。これはカメラを装着した人物が体を右へ曲げたことを意味している。(7e)の段階で初めて、人物が右方向へ移動(歩行)していると判断される。
【0082】
このように、基準更新率を超えるかどうかで人物の移動・静止が判断され、この判断の下で移動パラメータの値の変化から人物が如何なる行動をしているかが判定されるのである。
【0083】
図8はカメラを装着している人物(移動体)の手の動作を推定する工程図である。簡単な例として、静止している人物がパソコンのキーボード操作をしている場合を分析する。
【0084】
(8A)では、カメラを人物に装着固定する。(8B)では、入力フレーム系列の先頭フレームを基準フレームに設定する。(8C)では、後続の入力フレームを次々に基準フレームの状態に変換処理してゆく。(8D)では、基準フレームの更新率(更新頻度)が基準更新率より小さいことを確認して、人物は静止状態にあることが判定される。
【0085】
(8E)では、変換画像の全体構成を背景領域と手領域の和として考え、背景領域から手領域を分離抽出する。分離抽出は2段階で行われる。第1指標として肌色が選択され、変換画像から肌色領域が抽出される。この場合、肌色領域は手以外にも存在する可能性があり、第1指標では手以外の肌色領域も抽出される。
【0086】
第2指標として、手の動きを運動方程式で予測し、予測した位置に肌色領域が移動していることで、その肌色領域が手領域であると判定される。運動方程式として例えば線形予測とかカルマンフィルタによる方法が使用される。移動しない肌色領域は、この第2段階で除去される。
【0087】
このような複数指標で特定領域を抽出する場合に、例えばDempster−Shafferの方法が使用できる。この方法は、第1指標の確信度と第2指標の確信度が与えられたとき、総合的な確信度を導出する方法で、抽出された手領域の信頼率が算定される。
【0088】
(8F)では、手領域を抽出した後、変換画像の手領域に着色が施され、手領域抽出後画像が構成される。(7G)では、手領域以外にノイズとして着色点が散在する場合には、これらのノイズを除去する必要が生じる。ここでは散在するノイズ除去としてメジアンフィルタ操作を用いている。
【0089】
(8H)では、クラスタリング後画像の系列から、着色された手領域の動きが検出される。この動きを読み取ることにより、手の動作が推定される。手の動作として、左右への移動や、上下への移動などがある。
【0090】
図9は手領域を抽出する具体的工程図である。原画像は変換画像の一例である。手領域を抽出する3方法が示されている。上の画像は、原画像から特定の背景着色を有した背景画像を除去して手領域を導出したものである。真中の画像は、肌色領域だけを抽出したものである。両方法共に手領域が全体的に抽出されていることが分かる。
【0091】
下の画像は、肌色領域を楕円領域に置き換え、この楕円がフレーム毎に移動しているかどうかを判断するものである。手であれば、当然動くことが予測され、この楕円領域が運動方程式により予測された位置に移動するかどうかで手領域の高度判定を行う。DS理論とは、Dempster−Shafferの理論を意味している。
【0092】
図10は手の動作を推定する具体的工程図である。手領域抽出後画像にクラスタリング処理を行ってノイズを除去し、クラスタリング後画像を得る。このクラスタリング後画像を4枚並べると、着色された手領域の動作の詳細が明らかになる。
【0093】
左手領域が右から左に移動しており、テキスト情報としては、「左手を左に動かした」となる。カメラを装着した人物の動作を推定する場合に、少なくともカメラに人物の一部分が撮影される必要があり、その一部分とは手である可能性が高い。従って、手に着目して人物の動作が推定されるのである。
【0094】
図11はカメラに撮影される他者の動作を推定する工程図である。他者を抽出する場合に、他者の顔に着目して他者を抽出する。(11A)では、カメラを移動体に装着する。(11B)では、入力フレーム系列の先頭フレームが基準フレームとして設定される。(11C)では、後続する入力フレーム系列が基準フレームに極力一致するように変換処理を施す。
【0095】
(11D)では、変換画像系列から顔領域が抽出される。変換画像が背景領域と顔領域に分離される。被撮影者の顔領域を抽出する基準として、肌色領域と楕円領域に二つの基準が使用される。
【0096】
変換画像から肌色領域を抽出すれば、顔領域や手領域など、複数の肌色領域が抽出される。そこで、第2基準として楕円形状を条件として導入する。その結果、顔領域だけが抽出される。このとき、Dempster−Shafferの方法が利用される。
【0097】
(11E)では、抽出された顔領域に着色が施され、この着色顔領域を元の変換画像に組み込んで顔領域抽出後画像が構成される。(10F)では、クラスタリングを行ってノイズが除去され、メジアンフィルタ操作後画像が構成される。
【0098】
(11G)では、クラスタリング後画像を並べて比較することにより、顔領域の動きが分析され、被撮影者の動作が推定される。この例では、被撮影者の行動が分析されたが、カメラにより撮影される対象物、例えば車や自転車など任意の対象物が行動分析の対象になる。
【0099】
図12カメラにより撮影される物体を認識して特定する工程図である。(12A)では、カメラを移動体に装着する。(12B)では、入力フレーム系列の先頭フレームが基準フレームとして設定される。(12C)では、後続する入力フレームを基準フレームにまで変換処理する。
【0100】
(12D)では、変換画像から対象物体が抽出される。変換画像は大きな背景を形成する背景領域と人物である肌色領域と着目する対象物体の領域の和であると考える。従って、変換画像から背景確率の高い領域と肌色確率の高い領域を除去すると、対象物体領域だけが抽出される。
【0101】
(12E)では、記憶された多数のテンプレートモデルと抽出された対象物体とが比較される。両者間で色や形状などを比較しながら、最も近似したテンプレートモデルが選択され、対象物体は選択されたテンプレートモデルであると判定される。このようにして対象物体の認識が行われる。
【0102】
図13はカメラにより撮影される物体の認識方法を示す具体的工程図である。上の変換画像から背景確率と肌色確率の低い領域が物体領域として抽出される。その結果、手に把持された対象物体が抽出される。
【0103】
この対象物体と多数のテンプレートモデルとが相互に比較される。この中で、一致確率の最も高いコップが選択される。この段階で、対象物体がコップであると判定される。このように、本発明は撮影される対象物体が何であるかを判定することもできる。
【0104】
図14はカメラを装着している人物の行動を認識してテキストで表現する階層構造図である。まず、基準フレームの更新率(更新頻度)により人物の移動・静止が判定される。つまり、更新率が基準更新率を超えれば人物は移動していると判定し、また基準更新率を超えなければ人物は静止していると判定される。
【0105】
人物が移動状態にあるとき、移動パラメータ群の値により、その行動が認識される。例えば、dx>0であれば「右に曲がった」、dx<0であれば「左に曲がった」、dy<0であれば「立ち上がった」、dy>0であれば「座った」、scale>1であれば「前進した」、scale<1であれば「後退した」、と判定される。これらの動作判定は座標軸の取り方により変化する。
【0106】
人物が静止状態にあるとき、手や物体が抽出されない場合には、人物の身体動作が移動パラメータ群の値により認識される。例えば、dx>0であれば「右を向いた」、dx<0であれば「左を向いた」、dy<0であれば「上を向いた」、dy>0であれば「下を向いた」、と判定される。これらの動作判定は座標軸の取り方により変化する。
【0107】
人物が静止状態にあるとき、手を抽出した場合には、変換画像における手の動きから手の動作が判定される。例えば、「右手を上げた」、「右手を下げた」、「左手を上げた」、「左手を下げた」などである。
【0108】
人物が静止状態にあるとき、手を抽出し、把持されたコップを認識した場合には、変換画像における手の動きから更に詳しい動作が認識される。例えば、「右手で飲んだ」、「左手で飲んだ」、「右手で持った」、「左手で持った」などである。
【0109】
人物が静止状態にあるとき、手を抽出し、手と接触した状態で本を認識した場合には、変換画像における手の動きから次のような詳しい動作が認識できる。例えば、「本を読んだ」、「ページをめくった」、「本を開いた」、「本を閉じた」などである。
【0110】
このように、カメラにより得られる動画像から人物の動作を認識し、その動作を格文法によりテキストに表現すれば、画像表現がテキスト表現に変換される。この変換により、メモリ容量や通信容量が急減し、記憶装置や通信装置のコストダウンを図れると同時に、通信速度の飛躍的な向上を達成できる。
【0111】
特に、個別の人物に着目して、その動作をテキスト表現し、このテキスト群を所定の規則に従って保存すれば、人物ごとの行動データベースを作成できる。この行動データベースを用いれば、複数の人物を個別的に管理することが可能になる。
【0112】
図15はカメラを装着した人物が研究室を立ち歩く行動実験図である。人物は位置1〜位置7までを矢印に従って歩行する。カメラの動画像をコンピュータで解析し、テキスト化して、文章表現と行動とが一致するかどうかを確認した。
【0113】
位置1では「机の上のコップを取る」・「イスから立ち上がり歩き始める」、位置2では「右に曲がる」、位置3では「右に曲がる」、位置4では「右に曲がる」、位置5では「右に曲がる」、位置6では「左に曲がる」、位置7では「左に曲がってイスに座る」・「机にコップを置き飲み物を飲む」と判定された。実際の行動とテキスト表現が一致することが確認された。
【0114】
本発明は上記実施形態に限定されるものではなく、本発明の技術的思想を逸脱しない範囲における種々の変形例、設計変更などをその技術的範囲内に包含することは云うまでもない。
【0115】
【発明の効果】
第1の発明によれば、カメラを人物や動物や車などの移動体に装着し、移動体と共にカメラも同時的に移動させることにより、カメラにより撮影される広範囲の対象物(移動体も含めて)の動画像を無線信号として送信し、この動画像を分析してテキスト化する装置が提供される。無線信号で画像情報を送信するから、移動体が屋内・屋外を問わずに移動する場合でも、移動体を適切に管理することができる。画像情報をテキスト情報に変換するから、記憶容量や通信容量を低減してコストダウンを可能にし、しかも通信速度を飛躍的に向上できる。また、カメラを管理すべき人物に装着すれば、人物の手などの情報から、人物がどこに所在しても、リアルタイムで管理でき、またテキスト情報を蓄積することによって、個別の人物の行動データベースを自動作成できる利点がある。
【0116】
第2の発明によれば、カメラ及び無線機としてカメラ付き携帯電話を使用すれば、既存のネットワークを利用して行動分析が容易にできる。また、インターネットなどのネットワークを介することによって、人物の所在場所の遠近に拘わらず、動画像をリアルタイムで分析でき、動作をテキストに直して管理センタに送信できる。ネットワークを介する点でのみ第1の発明と相違しているだけであるから、第1の発明と同様の作用効果を有する。
【0117】
第3の発明によれば、人・動物・物・車などの移動体にカメラと行動分析装置と無線機を一体に装着する。行動分析装置を超小型コンピュータで構成することにより、装置全体をコンパクト化でき、例えば行動する人物に装着して、個々人を個別に管理することが可能になる。しかも、無線機によりテキスト情報を送信するから、情報容量は小さくて済み、ネットワークを介して必要なサイトに通信できるし、また直接に管理センタなどに送信することも可能になる。
【0118】
第4の発明によれば、入力フレームに対し、例えばアフィン変換を行って基準フレームに戻す処理を行えば、XYZ方向への並進移動量や回転移動量や拡大縮小率が移動パラメータとして導出できる。入力フレームの移動方向とカメラの移動方向は逆であるから、前述した戻し処理で得られる移動パラメータの値はカメラが移動体と一緒に移動した方向の移動量を与える。アフィン変換以外にも、カメラの移動量を推定できる数学変換が広範囲に利用できる。
【0119】
第5の発明によれば、移動体として人物を考えると、人物が座った状態で体を上下に伸縮したり、左右に体を曲げたり、前後に体を往復させる場合にも、入力フレームは基準フレームから変動する。この場合には移動パラメータはそれほど大きくなることは無い。しかし、人物が歩行する場合には、X方向やY方向に直進的に移動するから、移動パラメータは一方向に大きくなると考えられる。この発明は、人物の静止状態又は移動状態を基準フレームが更新される割合、即ち更新頻度(又は更新率とも云う)で判断するものである。基準フレームが一方向的に度々更新される場合には、人物は歩行(移動)していると判断し、また更新頻度(更新率)が小さい場合には人物は座っているか立ったままの状態で静止していると判断することができる。
【0120】
第6の発明によれば、入力フレームを基準フレームに変換した変換画像では、人物(移動体)が静止状態にある場合、変換画像の大きな面積を占める背景領域は共通している。従って、共通した背景領域の中で、対象物である他者の頭部や、人物の手や、人物が把持するコップなどの特定対象物の動きに着目し、この特定対象物の動作によって被写体(人物や他者)の行動を判断することが可能になる。
【0121】
第7の発明によれば、人物にカメラを装着した場合に、人物の両手又は片手がカメラの前で動けば、この手も当然に被写体となる。変換画像の中で、手を肌色領域で選別し、更に手の動作情報により手であることを確実に認識する。例えば、手の動きを運動方程式で解いて予測位置に手があるかどうか判断すれば、手であることの傍証となる。肌色情報と動作情報の両立性により手が認識され、変換画像の中で手の部分に着色すれば、手の動きによって移動体である人物がどのような行動をしているかを認識することが可能になる。
【0122】
第8の発明によれば、変換画像の中で、他者の顔を肌色情報と例えば楕円形などの輪郭情報の両立性によって認識する。この両者によって他者の顔を判断できれば、顔を着色表示し、顔の動きから他者がどのような動作をしているかが判断できる。
【0123】
第9の発明によれば、例えば、移動体である人物がコップを持っているとき、前述した方法で人物の手の動作が判断できる。この手が何かを持っているときに、メモリに一以上の具体物、例えばコップや時計や本などの形状を記憶させておき、手が持っている物をこれらのテンプレートモデルと比較して物を特定する。つまり、手の動きを判断すると同時に、その物がコップと認識されれば、人がコップで飲み物を飲もうとしているという動作認識が可能となる。このように、人物の動作と物の認識を結合することによって、被写体の行動認識をより高度に行うことができる。
【0124】
第10の発明によれば、被写体の行動を認識できれば、この行動を格文法などにより簡潔にテキスト化でき、画像情報からテキスト情報へと情報量を軽量化して、テキスト情報の格納や通信によって、記憶装置のコストや通信コストを急減させることが可能になる。また、移動体である人物の行動をテキスト情報に変換できるから、行動記録としてテキストによるデータベース化が可能になり、特定の人物の行動データベースを構築して、病院や老人ホームや学校などにおいて人の安全管理などを効率的に行うことができる。
【図面の簡単な説明】
【図1】本発明に係る被写体の行動認識装置の第1実施形態の概略構成図である。
【図2】本発明に係る被写体の行動認識装置の第2実施形態の概略構成図である。
【図3】本発明に係る被写体の行動認識装置の第3実施形態の概略構成図である。
【図4】本発明において動画像の変換処理によりカメラを装着した移動体の移動量を推定する工程図である。
【図5】本発明において動画像の変換処理により移動量を導出する具体的工程図である。
【図6】移動体(人物)の移動状態又は静止状態の判断基準を与える判別フローチャートである。
【図7】移動体(人物)の移動状態又は静止状態の判断を与える具体的工程図である。
【図8】カメラを装着している人物(移動体)の手の動作を推定する工程図である。
【図9】手領域を抽出する具体的工程図である。原画像は変換画像の一例である。
【図10】手の動作を推定する具体的工程図である。
【図11】カメラに撮影される他者の動作を推定する工程図である。
【図12】カメラにより撮影される物体を認識して特定する工程図である。
【図13】カメラにより撮影される物体の認識方法を示す具体的工程図である。
【図14】カメラを装着している人物の行動を認識してテキストで表現する階層構造図である。
【図15】カメラを装着した人物が研究室を立ち歩く行動実験図である。
【符号の説明】
2は移動体(人物)、4はマイク、6はカメラ、8は対象世界、10は撮影領域、12は手、13は被写体、14は対象物、16は無線信号、18はネットワーク、19は入力信号、20は行動分析装置、21は受信アンテナ、22は入力部、24は画像分析部、26は音声分析部、28はテキスト生成部、30はテキストデータベース、31はテキスト信号、32は通信部、34は管理センタ。
【発明の属する技術分野】
本発明はカメラを用いて被写体の行動を認識する方法に関し、更に詳細には、カメラを人・動物・物・車などの移動体に装着し、カメラにより撮影される動画像を分析して、移動体や対象物などの行動を認識する被写体の行動認識方法及び装置に関する。
【0002】
【従来の技術】
従来、病院などにおいて要介護者の行動を管理したり、建物に外部から侵入する不審者を監視する無人報知システムが知られている。この無人報知システムとして典型的なものは、赤外線センサを配置し、人物から放射される赤外線を検出して人物の侵入を報知したり、侵入者の赤外像を表示するシステムである。
【0003】
この赤外線報知システムでは、赤外線という限定された単一情報しか報知できず、また赤外線センサが設置されている特定位置・特定方向の情報しか得られない。例えば、センサから外れた場所における人物の行動を管理する等は不可能であった。特に、侵入者の赤外像を確認するためには、管理者の常時監視が必要になるという欠点もあった。
【0004】
また、ビデオカメラを建物の所要位置に固定し、無人の時間帯にはビデオカメラで録画するシステムも常用されている。このシステムでは、録画中は無人状態でよいが、異常があるかどうかはビデオ情報を再生して確認する必要がある。特に、ビデオカメラの死角領域の監視は不可能であるから、多数の箇所にビデオカメラを設置するなどシステム費用が高価になっていた。また、遠隔地域で監視するには、ビデオ情報を送信しなければならず、伝達情報量が大きく通信コストが過大になっていた。
【0005】
【発明が解決しようとする課題】
そこで、伝達情報量を小さくするため、本発明者等は特開平10−40482号により、「文章情報による無人報知システム」を公開した。この公開発明は、ビデオカメラとマイクロホンを建物内に固定配置し、特定の人物を常時撮影し、得られた動画情報と音声情報を格文法に従ってテキスト情報に変換し、このテキスト情報を管理者に送信して特定人物の行動を観察するシステムである。
【0006】
この公開発明では、膨大な情報量を有した動画情報と音声情報を小さな情報量で済むテキスト情報に変換するから、管理者に送信する場合でも通信コストが少なく、またテキスト情報を記録するだけであるから記憶装置も安価で済むという利点を有している。
【0007】
しかし、この公開発明も、ビデオカメラとマイクロホンは建物内の特定箇所に固定配置されるから、その特定箇所のしかも特定方向しか撮影されないという弱点を有する。ビデオカメラの死角は大きく、死角に入った人物の行動は全く不明である。
【0008】
特に、人物がビデオカメラから遠く離れた場合には、人物を撮影することは不可能になる。このため、建物内の多数の箇所にビデオカメラを配置しなければならず、ビデオシステムの構築に多額の費用を要する結果となる。
【0009】
ビデオシステムによる管理は不審者の侵入監視だけではなく、例えば病院や老人ホームなどにおける要介護者の行動管理にも必要となる。建物内の死角を無くすために、費用の多少を問わずにビデオシステムを完成させた場合を考えよう。この場合でも、要介護者が建物から外出したケースでは、ビデオシステムの管理区域から外れるため、要介護者の行動管理は不可能になる。
【0010】
このように、ビデオカメラを固定配置する従来システムでは、要介護者などの行動を管理できる区域は建物内に限定されている。また、複数の要介護者を管理するには、管理者が目視で要介護者を区別する以外に無く、ビデオカメラを常時観察する負担から逃れることはできなかった。
【0011】
この固定ビデオカメラシステムに文章化システムを組み合わせ、文章を報知機能にアラーム機能を付設することにより、過大記憶容量が不要になったり、要介護者が一人の場合に常時観察が不要になるという利点はある。しかし、この場合であっても、複数の要介護者を個別に行動管理することは不可能であり、やはり目視による常時観察という重圧が管理者側にあった。
【0012】
従って、本発明は、従来から呪縛のように存在したビデオカメラを建物に固定するという方式を捨て去り、全く新たな着眼点を導入して、建物の内外における人物行動の常時観察を可能にし、しかも複数の人物を個別に管理できる被写体の行動認識方法及び装置を提供することである。また、本発明に文章化システムを付加することにより、記憶容量や通信容量を急減でき、更にアラーム機能を付加することにより、目視による常時観察をしなくても非常時にのみ通報して対処できることを目的とする
【0013】
【課題を解決するための手段】
本発明は上記課題を解決するためになされたものであり、第1の発明は、移動体に装着されたカメラと、このカメラで撮影される対象物又は前記移動体の一部からなる被写体の動画像を無線信号として発信する無線機と、この無線信号を受信する行動分析装置と、この行動分析装置は、動画像を加工して被写体の行動を分析する画像分析部と、この画像分析部により分析された被写体の行動をテキスト情報として出力するテキスト生成部を有することを特徴とする被写体の行動認識装置である。この発明は、ビデオカメラや携帯電話内蔵カメラ等のカメラを人物や動物や車などの移動体に装着して、移動体と共にカメラも同時的に移動させる点に特徴を有している。このカメラを本発明者はウェアラブルカメラ(帯同カメラ)と称している。対象世界の様々な対象物がカメラに撮影され、また移動体が人物であれば、人物の手がカメラにより撮影される。従って、要介護者の手の動きからその動作が常時認識でき、また対象世界の映像によって要介護者の動作環境が常時把握される。複数の要介護者の夫々にカメラと無線機を装着すれば、夫々の動画像が無線機により個別的に受信されるから、複数の人物の個別的な同時管理が可能になる。また、動画像の無線信号が受信される構成になっておればよいから、管理センターの近傍で行動する場合には、無線信号の受発信装置により動画像信号を直ちに受信できる構成を採用でき、遠隔地で行動する場合には、インターネットや携帯電話システムなどのネットワークを使用して動画像信号を受信できるように構成すればよい。更に、これらの動画信号が分析されてテキスト情報として出力されるから記憶容量や通信容量が低減でき、テキスト情報にアラーム装置を付加すれば、画像を常時目視しなくても、移動体の異常行動時にリアルタイムでその行動を認識でき、即時対応が可能となる利点を有する。また、動画像に対応してテキスト情報が生成されるから、カメラを装着した人物の特性に応じたテキスト情報が集積でき、個別の人物の特性に応じたテキストデータベースを構築でき、人物などの管理情報の体系化を図ることが可能になる。
【0014】
第2の発明は、移動体に装着されたカメラと、このカメラで撮影される対象物又は前記移動体の一部からなる被写体の動画像を無線信号として発信する無線機と、この無線機から発信される無線信号をネットワークを介して受信する行動分析装置と、この行動分析装置は、動画像を加工して被写体の行動を分析する画像分析部と、この画像分析部により分析された被写体の行動をテキスト情報として出力するテキスト生成部を有する被写体の行動認識装置である。この発明は、動画像信号をネットワークを介して送受信する構成を有する点で第1の発明と相違しているだけであるから、第1の発明と同様の作用効果を有している。特に、ネットワークを介して無線信号を送受信するから、人物などの移動体が遠隔地に離れても、広域ネットワークや近域ネットワークを介して動画像信号を瞬時に送受信でき、人物などの行動管理を広域的にも確立できる利点を有する。
【0015】
第3の発明は、移動体に装着されたカメラと、このカメラに付属する行動分析装置及び無線機と、前記行動分析装置は、前記カメラで撮影される対象物又は前記移動体の一部からなる被写体の動画像を加工して被写体の行動を分析する画像分析部と、この画像分析部により分析された被写体の行動をテキスト情報として出力するテキスト生成部を有し、前記無線機によりテキスト情報を必要なサイトまで無線送信することを特徴とする被写体の行動認識装置である。この発明の特徴は、人・動物・物・車などの移動体にカメラと行動分析装置と無線機を一体に装着する点にある。行動分析装置を超小型コンピュータで構成することにより、装置全体をコンパクト化でき、例えば行動する人物に装着して、個々人を個別に管理することが可能になる。しかも、無線機によりテキスト情報を送信するから、情報容量は小さくて済み、ネットワークを介して必要なサイトに通信できるし、また直接に管理センタなどに送信することも可能になる。
【0016】
第4の発明は、移動体に装着されたカメラにより対象世界を撮影して動画像を取り込み、動画像を構成する時系列的に流れる複数の画像フレームの一つを基準フレームに設定し、この基準フレームに時間的に後続する画像フレームを入力フレームとし、この入力フレームに変換処理を施して前記基準フレームに極力近似させるようにし、この変換処理により入力フレームが基準フレームからどれほど移動しているかを示す移動パラメータを導出し、この移動パラメータにより前記移動体の移動量を推定する被写体の行動認識方法である。入力フレームに対し、例えばアフィン変換を行って基準フレームに戻す処理を行えば、XYZ方向への並進移動量や回転移動量や拡大縮小率が移動パラメータとして導出できる。入力フレームの移動方向とカメラの移動方向は逆であるから、前述した戻し処理で得られる移動パラメータの値はカメラが移動体と一緒に移動した方向の移動量を与える。アフィン変換以外にも、カメラの移動量を推定できる数学変換が広範囲に利用できる。
【0017】
第5の発明は、移動体に装着されたカメラにより対象世界を撮影して動画像を取り込み、動画像を構成する時系列的に流れる複数の画像フレームの一つを基準フレームに設定し、この基準フレームに時間的に後続する画像フレーム系列を入力フレーム系列とし、この入力フレーム系列に変換処理を施して前記基準フレームに極力近似させるようにした変換画像系列を形成し、変換処理により入力フレームが基準フレームからどれほど移動しているかを示す移動パラメータを導出し、この移動パラメータにより推定される前記移動体の移動量が基準移動量より大きくなるとその入力フレームを基準フレームに再設定して基準フレームの更新を行い、以上の操作を反復して基準フレームの更新頻度(更新率)から前記移動体の行動を判断する被写体の行動認識方法である。移動体として人物を考えると、人物が座った状態で体を上下に伸縮したり、左右に体を曲げたり、前後に体を往復させる場合にも、入力フレームは基準フレームから変動する。この変換処理による移動パラメータはそれほど大きくなることは無い。しかし、人物が歩行する場合には、X方向やY方向に直進的に移動するから、移動パラメータは一方向に大きくなると考えられる。この発明は、人物の静止状態又は移動状態を基準フレームが更新される割合、即ち更新頻度(又は更新率とも云う)で判断するものである。基準フレームが一方向的に度々更新される場合には、人物は歩行(移動)していると判断し、また更新頻度(更新率)が小さい場合には人物は座っているか立ったままの状態で静止していると判断するものである。
【0018】
第6の発明は、移動体に装着されたカメラにより対象世界を撮影して動画像を取り込み、動画像を構成する時系列的に流れる複数の画像フレームの一つを基準フレームに設定し、この基準フレームに時間的に後続する画像フレーム系列を入力フレーム系列とし、この入力フレーム系列に変換処理を施して前記基準フレームに極力近似させるようにした変換画像系列を形成し、各変換画像における背景領域の中で特定対象物を示す特定領域に着目し、変換画像系列の中で特定領域の動作から前記特定対象物の行動を判断する被写体の行動認識方法である。入力フレームを基準フレームに変換した変換画像では、人物(移動体)が静止状態にある場合、変換画像の大きな面積を占める背景領域は共通している。従って、共通した背景領域の中で、対象物である他者の頭部や、人物の手や、人物が把持するコップなどの特定対象物の動きに着目し、この特定対象物の動作によって被写体(人物や他者)の行動を判断することが可能になる。
【0019】
第7の発明は、前記移動体が人物である場合に、前記特定対象物がこの人物の手であり、この手領域を少なくとも肌色情報と動作情報から特定領域として抽出し、この手領域の動作から人物の行動を判断する被写体の行動認識方法である。人物にカメラを装着した場合に、人物の両手又は片手がカメラの前で動けば、この手も当然に被写体となる。変換画像の中で、手を肌色領域で選別し、更に手の動作情報により手であることを確実に認識する。例えば、手の動きを運動方程式で解いて予測位置に手があるかどうか判断すれば、手であることの傍証となる。肌色情報と動作情報の両立性により手が認識され、変換画像の中で手の部分に着色すれば、手の動きによって移動体である人物がどのような動作または行動をしているかを認識することが可能になる。
【0020】
第8の発明は、特定対象物がカメラにより撮影される他者の顔であり、この顔領域を少なくとも肌色情報と輪郭情報から特定領域として抽出し、この顔領域の動作から前記他者の行動を判断する被写体の行動認識方法である。変換画像の中で、他者の顔を肌色情報と例えば楕円形などの輪郭情報の両立性によって認識する。この両者によって他者の顔を判断できれば、顔を着色表示し、顔の動きから他者がどのような動作をしているかが判断できる。
【0021】
第9の発明は、移動体に装着されたカメラにより対象世界を撮影して動画像を取り込み、動画像を構成する時系列的に流れる複数の画像フレームの一つを基準フレームに設定し、この基準フレームに時間的に後続する画像フレーム系列を入力フレーム系列とし、この入力フレーム系列に変換処理を施して前記基準フレームに極力近似させるようにした変換画像系列を形成し、各変換画像における背景領域の中で特定対象物を示す特定領域に着目し、この特定領域の画像を記憶されているテンプレートモデルと比較し、前記特定対象物を具体的に特定する被写体の行動認識方法である。例えば、移動体である人物がコップを持っているとき、前述した方法で人物の手の動作が判断できる。この手が何かを持っているときに、メモリに一以上の具体物、例えばコップや時計や本などの形状を記憶させておき、手が持っている物をこれらのテンプレートモデルと比較して物を特定する。つまり、手の動きを判断すると同時に、その物がコップと認識されれば、人がコップで飲み物を飲もうとしているという動作認識が可能となる。このように、人物の動作と物の認識を結合することによって、被写体の行動認識をより高度に行うことができる。
【0022】
第10の発明は、前記被写体の行動をテキスト情報に変換する被写体の行動認識方法である。被写体の行動を認識できれば、この行動を格文法などにより簡潔にテキスト化でき、画像情報からテキスト情報へと情報量を軽量化して、テキスト情報の格納や通信によって、記憶装置のコストや通信コストを急減させることが可能になる。また、移動体である人物の行動をテキスト情報に変換できるから、行動記録としてテキストによるデータベース化が可能になり、特定の人物の行動データベースを構築して、病院や老人ホームや学校などにおいて人の安全管理などを効率的に行うことができる。
【0023】
【発明の実施の形態】
以下に、本発明に係る被写体の行動認識方法及び装置の実施形態を添付する図面に従って詳細に説明する。
【0024】
図1は本発明に係る被写体の行動認識装置の第1実施形態の概略構成図である。移動体2は人物・動物・物・車などの移動性のあるものであり、ここでは行動を認識され管理されるべき人物であるとする。しかし、対象世界を認識する場合には、移動体2(人物2と称する場合もある)としては、動物でもよいし、自動車や自転車やバイクなどの車でもよく、自在に移動しながら対象世界をカメラで撮像できるものであればよい。
【0025】
この移動体2に無線機7を内蔵したカメラ6を固定状態で装着する。このカメラにはマイク4も装備され、人物2や対象世界8が発する音声も記録することができる。具体的には、カメラ6としては無線機7を付設したビデオカメラ、またはカメラ付きの携帯電話などが該当する。カメラ6による動画情報とマイク4による音声情報が無線機7により送信できる機構が採用されている。
【0026】
このカメラ6は対象世界8の動画像を撮影でき、この動画像は家庭用ビデオカメラでは通常1秒間に30フレームで構成されるが、家庭用と業務用によっても異なる場合がある。また、家庭用のビデオカメラを用いて、6フレーム毎に1フレームを使用すれば、1秒間当りに5フレームのフレーム率に設定できる。従って、1秒間あたりのフレーム数(フレーム率)は任意に定められる。
【0027】
このカメラ6によって撮像される対象世界8は想像線10により囲われた領域で、この中には移動体(人物)2の手12や対象物14が存在し、これらを被写体13と称する。従って、被写体13の動画像と音声が得られ、無線機7により動画信号と音声信号からなる無線信号16が送信される。
【0028】
無線信号16はインターネットなどのネットワークを通して広域に伝達される。対象世界8を観察する管理センタ34では、ネットワーク18を介して前記無線信号を行動分析装置20により受信する。
【0029】
この行動分析装置20は例えばパソコンなどのコンピュータや電子回路装置により構成される。この行動分析装置20は入力部22、画像分析部24、音声分析部26、テキスト生成部28及びテキスト生成部28の中に形成されたテキストデータベース部30から構成されている。
【0030】
入力部22はネットワーク18から入力信号19を受信する。この入力信号19は動画信号と音声信号から構成されている。動画信号は画像分析部24に入力され、音声信号は音声分析部26に入力される。
【0031】
動画分析部24の具体的な作用・機能は図3〜図12を用いて後で詳細に説明される。簡単に言えば、動画信号が画像フレームの時系列信号として入力され、各画像フレームを数学的に変換したり、変換後の画像を解析することにより、画像中の特定領域の動作が推定される。
【0032】
音声分析部26では、マイク4により聴取された音声信号が解析される。音声信号の分析には、例えば隠れマルコフモデル手法(HMM)を用いることができる。被写体が人物の場合には、音声も同時に生じるから、画像から動作を分析するだけでなく、音声を補助的に使用して、判別された動作をより確実なものにすることが可能になる。従って、動作の内容と音声の内容が一致したときに、動作の判断を高確率で確定することができる。
【0033】
テキスト生成部28では、画像と音声、特に画像から得られた動作をテキスト情報へと変換する。つまり、補助的に音声情報を使用しながら、画像情報をテキスト情報へと変換する。この変換により、大容量メモリを有する画像情報を低容量メモリで対応できるテキスト情報へと変換し、情報量のスリム化を実現する。
【0034】
テキスト生成部28において、画像からテキストを生成する一つの方法として、格文法を使用することができる。まず第1に、画像で示される行動に最も相応しい動詞(PRED)が選択される。次に、この動詞を中心にして、動詞に係る語句の格、例えば主格や目的格や道具格などが決定され、動詞と格を結合することによりテキスト(文章)が構成される。
【0035】
具体的には、動作を行う動作主(AG)、動作が行われる対象(OBJ)が選択される。更に、この動作の開始時刻(SO−TIME)と終了時刻(GO−TIME)が与えられる。この結果、次のような動作表現が与えられる。
[PRED: verb, AG: agent, OBJ: object, SO−TIME: time1, GO−TIME: time2]
【0036】
最終的には自然言語文からなるテキスト表現が好ましい。上記のようにして得られた動作表現は、例えば下記のように格構造変換の手法により自然言語文に変換される。
[PRED: sousa−suru, AG: man1, OBJ: ws1, SO−TIME: t1, GO−TIME: t2]
「時刻t1からt2に、利用者man1が、ワークステーションws1を操作した」
【0037】
つまり、テキスト生成部では、動画像を分析して、多数の動作表現を連続的に生成し、この動作表現を次々と自然言語文に翻訳して、誰でもが理解できるテキストが生成されることになる。しかし、テキストの生成方法は、格文法構造や格構造変換の手法に限定されず、現在開発されている種々のテキスト化方法が採用される。
【0038】
テキストデータベース部30は、生成されたテキストを与えられた規則の下で配列して記憶するメモリ部である。被写体13がカメラを装着した人物2である場合には、この人物2の動作が次々にテキスト化されるから、この人物に特徴的な動作データベースが構築できる。
【0039】
例えば、このシステムを病院で採用すると、一人一人の患者にカメラ6を装着し、患者毎の行動データベースが構成でき、患者の管理が極めて円滑になる。老人ホームでは、各高齢者にカメラ6を装着して、高齢者毎の行動データベースを作成し、この行動データベースに基づいて、各高齢者を迅速且つ安全に介助することが可能になる。従って、このシステムは、複数人の集団において、各構成員を個別に管理する場合に特に効果がある。
【0040】
通信部32はテキスト生成部28からテキスト信号31を受信し、テキスト情報を管理センタ34に送信する役割を担う。テキストデータは極めて容量が小さいから、記憶容量や通信容量が小さくて済み、通信速度も高速化できる利点を有する。従って、通信部32として通常の通信装置及び通信方式でよいから安価で済む。
【0041】
管理センタ34はテキストデータを下にカメラを装着した人物や、カメラにより撮影される対象人物を管理する施設である。入手されるデータはテキストデータであるから、管理センタ34の記憶装置の容量も小さくて済む。また、管理センタ34では、各人物毎に作成されたテキストデータベース30を受け取り、個別管理の基礎データとする。
【0042】
図2は本発明に係る被写体の行動認識装置の第2実施形態の概略構成図である。この装置はネットワークを使用しないで、無線信号を直接アンテナで受信して行動を管理する装置である。従って、多くの部分は図1の装置と同一であるから、図1と同一部分には同一符号を付して説明を省略し、異なる符合部分について説明する。
【0043】
画像信号や音声信号から構成される無線信号16は受信アンテナ21により直接受信される。この無線信号16は入力信号19として入力部22に送られる。以後の処理は図1と同様である。
【0044】
ネットワーク18が配置されている地域に付いては図1の行動分析装置20が利用されるが、ネットワーク18が配置されていない地域では、行動分析装置20とカメラ6の間を無線で結合するシステムが有効である。
【0045】
図3は本発明に係る被写体の行動認識装置の第3実施形態の概略構成図である。この装置は、画像分析装置20と無線機7をカメラ6と一体にして移動体2に装着し、テキスト情報を必要なサイトに無線送信するものである。図1の装置と同一部分には同一符号を付して説明を省略し、異なる部分について説明する。
【0046】
画像分析装置20を超小型のコンピュータで構成すれば、画像分析装置20をカメラ6と無線機7と一体化して人物などの移動体2に装着すれば、被写体の行動を分析したテキスト情報を移動体2から直ちに必要なサイトに送信できる。
【0047】
即ち、カメラ6で撮影された被写体13の動画像は、移動体2に装着された画像分析装置20に入力され、同時にマイク4で検出された音声信号も入力される。動画像と音声から分析された被写体の動作は、画像分析装置20で分析され、動作の特徴がテキスト生成部28によりテキスト情報として出力される。
【0048】
テキスト情報はテキスト信号31として無線機7に入力され、この無線機7から無線信号16として空間に無線送信される。この無線信号16は、例えばネットワーク18を介して入力信号19として管理センタ34に受信される。また、無線信号16は想像線で示されるように直ちにアンテナにより受信されて管理センタ34に受信される。
【0049】
第1実施形態と第2実施形態は画像信号や音声信号を無線信号16として送信するのに対し、第3実施形態ではテキスト信号を無線信号16として送信する点に相違を有する。この相違は、行動分析装置20をサイト側に設けるか、それとも移動体2に設けるかに起因している。
【0050】
以下では、画像分析部24の具体的分析方法とテキスト生成部28の具体的生成方法について、個別の場合に応じて説明する。行動分析装置20がコンピュータ装置により構成される場合には、前記方法はプログラムにより進行する。行動分析装置20が電子回路装置により構成される場合には、前記方法は電子回路の手順に従って進行する。
【0051】
図4は本発明において動画像の変換処理によりカメラを装着した移動体の移動量を推定する工程図である。(4A)では、動画像を撮像できるカメラが移動体に装着される。この移動体は、人・動物・車・自転車などのように移動する物体であればよいが、行動を管理される対象として人が通常である。従って、以下では移動体は人物であるとする。
【0052】
(4B)では、カメラにより対象世界を撮影し、対象世界の動画像が取り込まれる。この動画像には、カメラを装着された人物の手や対象世界の他者など様々な映像が含まれる。移動体は地上を動き回るから、動画像も時間的に種々に変化する。
【0053】
移動体が歩行(移動状態)するときには、動画像の中の背景画像もかなり変化する。逆に、移動体(人物)が座った状態や直立状態にある場合は静止状態であり、動画像の中の背景画像はそれほど変化しない。しかし、人物が左右に体を回したり、前後に体を微小移動させると、カメラも同様に動くから動画像も多少変化する。この動画像の大変化や小変化を認識して、移動体、即ちカメラの移動量を推定する。
【0054】
(4C)では、動画像を構成する多数の動画フレームが時系列的に取り込まれる。これらの時系列的な動画フレームの中の一つが基準フレームとして設定される。この基準フレームは以後に取り込まれるフレーム群の先頭フレームと考えればよい。
【0055】
(4D)では、基準フレームより時間的に後続する画像フレームが次々と取り込まれる。これらの画像フレームを入力フレームと呼んでいる。従って、基準フレームの後に多数の入力フレーム群が存在する。
【0056】
(4E)では、入力フレームに数学的変換処理を加えて基準フレームにできるだけ一致させるように変換する。この変換処理によって得られる移動パラメータ群の値が、カメラの移動量であると推定できる。
【0057】
カメラは移動体と共に動くから、入力フレームは基準フレームから多少ずれている。例えば、カメラが右へ移動すると、入力フレームは基準フレームより左に移動する。つまり、カメラの移動方向と入力フレームの移動方向は逆の関係になる。従って、入力フレームを基準フレームに一致する方向に移動させれば、その移動量はカメラの移動量に一致するはずである。
【0058】
この移動パラメータを得るために適切な変換はアフィン変換である。このアフィン変換は平行移動、回転、拡大縮小、せん断などの処理を行う変換で、特に、平行移動と回転移動と拡大縮小のパラメータが移動パラメータ群になる。
【0059】
(4F)では、例えばアフィン変換により、平行移動パラメータ、回転移動パラメータ、拡大縮小パラメータが移動パラメータ群として得られる。(3G)では、これらの移動パラメータ群の値により移動体、即ちカメラの移動量が推定される。
【0060】
図5は本発明において動画像の変換処理により移動量を導出する具体的工程図である。(5A)はパソコンを中心に配置した基準フレームを示す。右方向がx方向、下方向がy方向を与える。
【0061】
(5B)は入力フレームの一例を示す。この入力フレームでは、中心にあるパソコンが少し右に移動している。カメラの立場から言えば、カメラが左へ移動した結果、フレーム内で被写体が右へ移動したと考えられる。カメラの移動方向と被写体、即ちフレームの移動方向が逆の関係にある。
【0062】
(5C)では、前記入力フレームに対しアフィン変換を施して、入力フレームを基準フレームに一致させるように変換する。どれくらい変換すれば一致するかは事前に不明であるから、例えばコンデンセーション・アルゴリズムを使用してランダム近似させながら一致度を高めてゆく。
【0063】
(5D)では、入力フレームをアフィン変換させた後の変換画像が示されている。パソコンの配置がほぼ基準フレームの配置と同程度に一致している。単純に云えば、入力フレームの中の画像を左方向に移動させると、変換画像が得られる。フレームの枠から外れた領域は消去され、画像が無くなくなった領域は黒く塗られている。
【0064】
(5E)では、アフィン変換により得られた移動パラメータ群の値が示されている。dx=−52は、入力フレームを左方向に52だけ移動したことを示し、この値が実際にカメラの移動量となる。dy=13は入力フレームを下方向に13だけ移動したことを示し、カメラのy方向移動量を示す。
【0065】
θ=2.6は、入力フレームを原点を中心に時計方向に2.6だけ回転させたことを示し、この値がカメラの回転移動量を与える。scale=0.94は入力フレームを0.94倍することにより変換画像になったことを示し、カメラが基準フレームよりやや前進したことを示している。
【0066】
従って、(5F)のように、これらの移動パラメータ群の値により、移動体(人物)、即ちカメラが左下方向に平行移動し、少しだけ右方向回転し、やや前進したという結果が得られる。移動量は前述した値であり、このように移動パラメータ群から移動体の移動量が導出できる。
【0067】
しかし、上記の結果は、移動体が座った状態(静止状態)にあって体を微小移動させているのか、それとも移動体が歩行状態(移動状態)にあるのか、については結論できていない。次に、移動体が静止状態にあるのか移動状態にあるのかに関する判断方法を説明する。
【0068】
図6は移動体(人物)の移動状態又は静止状態の判断基準を与える判別フローチャートである。人物が歩行している場合には移動パラメータが一方向に大きくなり、入力フレームの背景画像が基準フレームと全く異なる状態が生じる。このような場合には、新しい入力フレームを基準フレームに再設定して基準フレームを更新する必要が生じる。
【0069】
このように基準フレームを次々に更新する必要が生じた場合には、人物は歩行していると考えられる。つまり、何フレーム毎に基準フレームを更新しているか、という基準フレームの更新頻度(更新率)により移動(歩行)・静止の判別を行う。その基準率を基準更新率と呼び、基準フレーム更新率が基準更新率を超えたときに移動状態と判断し、それより小さいときに静止状態と判断する。以下、各ステップを説明する。
【0070】
ステップn1では、入力フレーム系列の先頭フレームを基準フレームとして設定する。ステップn2では、後続の画像フレームを入力フレームとして継続的に取り込む。ステップn3では、各入力フレームに変換処理を施して基準フレームに極力一致させる処理を行う。
【0071】
ステップn4では、例えばアフィン変換処理により、移動パラメータ群を具体的に導出し、人物の移動量(ステップn5)を推定する。ステップn6では、移動量と基準移動量の比較が行われ、移動量が小さい場合には静止状態と判断され(ステップn7)、ステップn2にフィードバックされる。
【0072】
移動量が基準移動量より大きくなると、その入力フレームを基準フレームに設定し直し(ステップn8)、基準フレームの更新率が算定される(ステップn9)。この基準フレームの更新率と基準更新率が比較され(ステップn10)、基準更新率よりも大きい場合には人物は移動状態にあると判断される(ステップn1)。他方、基準更新率よりも小さい場合には、人物は静止状態にあると判断され(ステップn12)、ステップn2にフィードバックされる。
【0073】
以上のように、入力フレームを連続的に取り込みながら、基準フレームの更新率(更新頻度)を計算して、人物(移動体)の移動状態又は静止状態が確実に定量的に判断されるのである。
【0074】
図7は移動体(人物)の移動状態又は静止状態の判断を与える具体的工程図である。(7A)〜(7E)は入力フレーム系列を示し、(7a)〜(7e)は(7A)〜(7E)のアフィン変換による変換画像系列を示している。矢印方向が時間方向である。
【0075】
基準移動量や基準更新率は状況に応じて任意に定められる。この例では、基準移動量はdx=20に設定される。また、3フレームに1回基準フレームの更新があり、その更新が連続して2回継続したときを基準更新率と定めている。
【0076】
(7A)が基準フレームとして設定され、次々に入力フレーム系列が取り込まれてゆく。入力フレームから、カメラは右上方向に移動していることが分かる。(7B)を変換すると(7b)になり、dx=15であるから基準移動量の範囲内である。
【0077】
(7C)を変換すると(7c)になり、dx=21であるから基準移動量のdx=20を超えている。従って、基準移動量の範囲外と認定され、(7C)が基準フレームとして更新される。また、ここで第1回の基準フレームの更新が行われた。
【0078】
今、(7C)が基準フレームであり、(7D)をアフィン変換すると、dx=10となるから基準移動量の範囲内である。(7c)のdx=21に加算されると、(7d)ではdx=31となる。(7b)〜(7d)では基準更新率の範囲内であるから、人物、即ちカメラは静止状態にあると判断される。
【0079】
次に、(7E)をアフィン変換すると、dx=13の(7e)が得られる。(7C)をdx=0の基準に取ると、dx=23となるから、基準移動量dx=20を超えている。従って、再び(7E)が基準フレームとして更新される。
【0080】
(7e)の段階で、基準フレームの更新が2回連続して行われたから、基準フレームの更新率が基準更新率を超えたことになり、人物、即ちカメラは移動状態にあると判断される。
【0081】
以上から次のような結論が導出される。(7b)〜(7d)では、静止状態にありながらdxが連続的に増加している。これはカメラを装着した人物が体を右へ曲げたことを意味している。(7e)の段階で初めて、人物が右方向へ移動(歩行)していると判断される。
【0082】
このように、基準更新率を超えるかどうかで人物の移動・静止が判断され、この判断の下で移動パラメータの値の変化から人物が如何なる行動をしているかが判定されるのである。
【0083】
図8はカメラを装着している人物(移動体)の手の動作を推定する工程図である。簡単な例として、静止している人物がパソコンのキーボード操作をしている場合を分析する。
【0084】
(8A)では、カメラを人物に装着固定する。(8B)では、入力フレーム系列の先頭フレームを基準フレームに設定する。(8C)では、後続の入力フレームを次々に基準フレームの状態に変換処理してゆく。(8D)では、基準フレームの更新率(更新頻度)が基準更新率より小さいことを確認して、人物は静止状態にあることが判定される。
【0085】
(8E)では、変換画像の全体構成を背景領域と手領域の和として考え、背景領域から手領域を分離抽出する。分離抽出は2段階で行われる。第1指標として肌色が選択され、変換画像から肌色領域が抽出される。この場合、肌色領域は手以外にも存在する可能性があり、第1指標では手以外の肌色領域も抽出される。
【0086】
第2指標として、手の動きを運動方程式で予測し、予測した位置に肌色領域が移動していることで、その肌色領域が手領域であると判定される。運動方程式として例えば線形予測とかカルマンフィルタによる方法が使用される。移動しない肌色領域は、この第2段階で除去される。
【0087】
このような複数指標で特定領域を抽出する場合に、例えばDempster−Shafferの方法が使用できる。この方法は、第1指標の確信度と第2指標の確信度が与えられたとき、総合的な確信度を導出する方法で、抽出された手領域の信頼率が算定される。
【0088】
(8F)では、手領域を抽出した後、変換画像の手領域に着色が施され、手領域抽出後画像が構成される。(7G)では、手領域以外にノイズとして着色点が散在する場合には、これらのノイズを除去する必要が生じる。ここでは散在するノイズ除去としてメジアンフィルタ操作を用いている。
【0089】
(8H)では、クラスタリング後画像の系列から、着色された手領域の動きが検出される。この動きを読み取ることにより、手の動作が推定される。手の動作として、左右への移動や、上下への移動などがある。
【0090】
図9は手領域を抽出する具体的工程図である。原画像は変換画像の一例である。手領域を抽出する3方法が示されている。上の画像は、原画像から特定の背景着色を有した背景画像を除去して手領域を導出したものである。真中の画像は、肌色領域だけを抽出したものである。両方法共に手領域が全体的に抽出されていることが分かる。
【0091】
下の画像は、肌色領域を楕円領域に置き換え、この楕円がフレーム毎に移動しているかどうかを判断するものである。手であれば、当然動くことが予測され、この楕円領域が運動方程式により予測された位置に移動するかどうかで手領域の高度判定を行う。DS理論とは、Dempster−Shafferの理論を意味している。
【0092】
図10は手の動作を推定する具体的工程図である。手領域抽出後画像にクラスタリング処理を行ってノイズを除去し、クラスタリング後画像を得る。このクラスタリング後画像を4枚並べると、着色された手領域の動作の詳細が明らかになる。
【0093】
左手領域が右から左に移動しており、テキスト情報としては、「左手を左に動かした」となる。カメラを装着した人物の動作を推定する場合に、少なくともカメラに人物の一部分が撮影される必要があり、その一部分とは手である可能性が高い。従って、手に着目して人物の動作が推定されるのである。
【0094】
図11はカメラに撮影される他者の動作を推定する工程図である。他者を抽出する場合に、他者の顔に着目して他者を抽出する。(11A)では、カメラを移動体に装着する。(11B)では、入力フレーム系列の先頭フレームが基準フレームとして設定される。(11C)では、後続する入力フレーム系列が基準フレームに極力一致するように変換処理を施す。
【0095】
(11D)では、変換画像系列から顔領域が抽出される。変換画像が背景領域と顔領域に分離される。被撮影者の顔領域を抽出する基準として、肌色領域と楕円領域に二つの基準が使用される。
【0096】
変換画像から肌色領域を抽出すれば、顔領域や手領域など、複数の肌色領域が抽出される。そこで、第2基準として楕円形状を条件として導入する。その結果、顔領域だけが抽出される。このとき、Dempster−Shafferの方法が利用される。
【0097】
(11E)では、抽出された顔領域に着色が施され、この着色顔領域を元の変換画像に組み込んで顔領域抽出後画像が構成される。(10F)では、クラスタリングを行ってノイズが除去され、メジアンフィルタ操作後画像が構成される。
【0098】
(11G)では、クラスタリング後画像を並べて比較することにより、顔領域の動きが分析され、被撮影者の動作が推定される。この例では、被撮影者の行動が分析されたが、カメラにより撮影される対象物、例えば車や自転車など任意の対象物が行動分析の対象になる。
【0099】
図12カメラにより撮影される物体を認識して特定する工程図である。(12A)では、カメラを移動体に装着する。(12B)では、入力フレーム系列の先頭フレームが基準フレームとして設定される。(12C)では、後続する入力フレームを基準フレームにまで変換処理する。
【0100】
(12D)では、変換画像から対象物体が抽出される。変換画像は大きな背景を形成する背景領域と人物である肌色領域と着目する対象物体の領域の和であると考える。従って、変換画像から背景確率の高い領域と肌色確率の高い領域を除去すると、対象物体領域だけが抽出される。
【0101】
(12E)では、記憶された多数のテンプレートモデルと抽出された対象物体とが比較される。両者間で色や形状などを比較しながら、最も近似したテンプレートモデルが選択され、対象物体は選択されたテンプレートモデルであると判定される。このようにして対象物体の認識が行われる。
【0102】
図13はカメラにより撮影される物体の認識方法を示す具体的工程図である。上の変換画像から背景確率と肌色確率の低い領域が物体領域として抽出される。その結果、手に把持された対象物体が抽出される。
【0103】
この対象物体と多数のテンプレートモデルとが相互に比較される。この中で、一致確率の最も高いコップが選択される。この段階で、対象物体がコップであると判定される。このように、本発明は撮影される対象物体が何であるかを判定することもできる。
【0104】
図14はカメラを装着している人物の行動を認識してテキストで表現する階層構造図である。まず、基準フレームの更新率(更新頻度)により人物の移動・静止が判定される。つまり、更新率が基準更新率を超えれば人物は移動していると判定し、また基準更新率を超えなければ人物は静止していると判定される。
【0105】
人物が移動状態にあるとき、移動パラメータ群の値により、その行動が認識される。例えば、dx>0であれば「右に曲がった」、dx<0であれば「左に曲がった」、dy<0であれば「立ち上がった」、dy>0であれば「座った」、scale>1であれば「前進した」、scale<1であれば「後退した」、と判定される。これらの動作判定は座標軸の取り方により変化する。
【0106】
人物が静止状態にあるとき、手や物体が抽出されない場合には、人物の身体動作が移動パラメータ群の値により認識される。例えば、dx>0であれば「右を向いた」、dx<0であれば「左を向いた」、dy<0であれば「上を向いた」、dy>0であれば「下を向いた」、と判定される。これらの動作判定は座標軸の取り方により変化する。
【0107】
人物が静止状態にあるとき、手を抽出した場合には、変換画像における手の動きから手の動作が判定される。例えば、「右手を上げた」、「右手を下げた」、「左手を上げた」、「左手を下げた」などである。
【0108】
人物が静止状態にあるとき、手を抽出し、把持されたコップを認識した場合には、変換画像における手の動きから更に詳しい動作が認識される。例えば、「右手で飲んだ」、「左手で飲んだ」、「右手で持った」、「左手で持った」などである。
【0109】
人物が静止状態にあるとき、手を抽出し、手と接触した状態で本を認識した場合には、変換画像における手の動きから次のような詳しい動作が認識できる。例えば、「本を読んだ」、「ページをめくった」、「本を開いた」、「本を閉じた」などである。
【0110】
このように、カメラにより得られる動画像から人物の動作を認識し、その動作を格文法によりテキストに表現すれば、画像表現がテキスト表現に変換される。この変換により、メモリ容量や通信容量が急減し、記憶装置や通信装置のコストダウンを図れると同時に、通信速度の飛躍的な向上を達成できる。
【0111】
特に、個別の人物に着目して、その動作をテキスト表現し、このテキスト群を所定の規則に従って保存すれば、人物ごとの行動データベースを作成できる。この行動データベースを用いれば、複数の人物を個別的に管理することが可能になる。
【0112】
図15はカメラを装着した人物が研究室を立ち歩く行動実験図である。人物は位置1〜位置7までを矢印に従って歩行する。カメラの動画像をコンピュータで解析し、テキスト化して、文章表現と行動とが一致するかどうかを確認した。
【0113】
位置1では「机の上のコップを取る」・「イスから立ち上がり歩き始める」、位置2では「右に曲がる」、位置3では「右に曲がる」、位置4では「右に曲がる」、位置5では「右に曲がる」、位置6では「左に曲がる」、位置7では「左に曲がってイスに座る」・「机にコップを置き飲み物を飲む」と判定された。実際の行動とテキスト表現が一致することが確認された。
【0114】
本発明は上記実施形態に限定されるものではなく、本発明の技術的思想を逸脱しない範囲における種々の変形例、設計変更などをその技術的範囲内に包含することは云うまでもない。
【0115】
【発明の効果】
第1の発明によれば、カメラを人物や動物や車などの移動体に装着し、移動体と共にカメラも同時的に移動させることにより、カメラにより撮影される広範囲の対象物(移動体も含めて)の動画像を無線信号として送信し、この動画像を分析してテキスト化する装置が提供される。無線信号で画像情報を送信するから、移動体が屋内・屋外を問わずに移動する場合でも、移動体を適切に管理することができる。画像情報をテキスト情報に変換するから、記憶容量や通信容量を低減してコストダウンを可能にし、しかも通信速度を飛躍的に向上できる。また、カメラを管理すべき人物に装着すれば、人物の手などの情報から、人物がどこに所在しても、リアルタイムで管理でき、またテキスト情報を蓄積することによって、個別の人物の行動データベースを自動作成できる利点がある。
【0116】
第2の発明によれば、カメラ及び無線機としてカメラ付き携帯電話を使用すれば、既存のネットワークを利用して行動分析が容易にできる。また、インターネットなどのネットワークを介することによって、人物の所在場所の遠近に拘わらず、動画像をリアルタイムで分析でき、動作をテキストに直して管理センタに送信できる。ネットワークを介する点でのみ第1の発明と相違しているだけであるから、第1の発明と同様の作用効果を有する。
【0117】
第3の発明によれば、人・動物・物・車などの移動体にカメラと行動分析装置と無線機を一体に装着する。行動分析装置を超小型コンピュータで構成することにより、装置全体をコンパクト化でき、例えば行動する人物に装着して、個々人を個別に管理することが可能になる。しかも、無線機によりテキスト情報を送信するから、情報容量は小さくて済み、ネットワークを介して必要なサイトに通信できるし、また直接に管理センタなどに送信することも可能になる。
【0118】
第4の発明によれば、入力フレームに対し、例えばアフィン変換を行って基準フレームに戻す処理を行えば、XYZ方向への並進移動量や回転移動量や拡大縮小率が移動パラメータとして導出できる。入力フレームの移動方向とカメラの移動方向は逆であるから、前述した戻し処理で得られる移動パラメータの値はカメラが移動体と一緒に移動した方向の移動量を与える。アフィン変換以外にも、カメラの移動量を推定できる数学変換が広範囲に利用できる。
【0119】
第5の発明によれば、移動体として人物を考えると、人物が座った状態で体を上下に伸縮したり、左右に体を曲げたり、前後に体を往復させる場合にも、入力フレームは基準フレームから変動する。この場合には移動パラメータはそれほど大きくなることは無い。しかし、人物が歩行する場合には、X方向やY方向に直進的に移動するから、移動パラメータは一方向に大きくなると考えられる。この発明は、人物の静止状態又は移動状態を基準フレームが更新される割合、即ち更新頻度(又は更新率とも云う)で判断するものである。基準フレームが一方向的に度々更新される場合には、人物は歩行(移動)していると判断し、また更新頻度(更新率)が小さい場合には人物は座っているか立ったままの状態で静止していると判断することができる。
【0120】
第6の発明によれば、入力フレームを基準フレームに変換した変換画像では、人物(移動体)が静止状態にある場合、変換画像の大きな面積を占める背景領域は共通している。従って、共通した背景領域の中で、対象物である他者の頭部や、人物の手や、人物が把持するコップなどの特定対象物の動きに着目し、この特定対象物の動作によって被写体(人物や他者)の行動を判断することが可能になる。
【0121】
第7の発明によれば、人物にカメラを装着した場合に、人物の両手又は片手がカメラの前で動けば、この手も当然に被写体となる。変換画像の中で、手を肌色領域で選別し、更に手の動作情報により手であることを確実に認識する。例えば、手の動きを運動方程式で解いて予測位置に手があるかどうか判断すれば、手であることの傍証となる。肌色情報と動作情報の両立性により手が認識され、変換画像の中で手の部分に着色すれば、手の動きによって移動体である人物がどのような行動をしているかを認識することが可能になる。
【0122】
第8の発明によれば、変換画像の中で、他者の顔を肌色情報と例えば楕円形などの輪郭情報の両立性によって認識する。この両者によって他者の顔を判断できれば、顔を着色表示し、顔の動きから他者がどのような動作をしているかが判断できる。
【0123】
第9の発明によれば、例えば、移動体である人物がコップを持っているとき、前述した方法で人物の手の動作が判断できる。この手が何かを持っているときに、メモリに一以上の具体物、例えばコップや時計や本などの形状を記憶させておき、手が持っている物をこれらのテンプレートモデルと比較して物を特定する。つまり、手の動きを判断すると同時に、その物がコップと認識されれば、人がコップで飲み物を飲もうとしているという動作認識が可能となる。このように、人物の動作と物の認識を結合することによって、被写体の行動認識をより高度に行うことができる。
【0124】
第10の発明によれば、被写体の行動を認識できれば、この行動を格文法などにより簡潔にテキスト化でき、画像情報からテキスト情報へと情報量を軽量化して、テキスト情報の格納や通信によって、記憶装置のコストや通信コストを急減させることが可能になる。また、移動体である人物の行動をテキスト情報に変換できるから、行動記録としてテキストによるデータベース化が可能になり、特定の人物の行動データベースを構築して、病院や老人ホームや学校などにおいて人の安全管理などを効率的に行うことができる。
【図面の簡単な説明】
【図1】本発明に係る被写体の行動認識装置の第1実施形態の概略構成図である。
【図2】本発明に係る被写体の行動認識装置の第2実施形態の概略構成図である。
【図3】本発明に係る被写体の行動認識装置の第3実施形態の概略構成図である。
【図4】本発明において動画像の変換処理によりカメラを装着した移動体の移動量を推定する工程図である。
【図5】本発明において動画像の変換処理により移動量を導出する具体的工程図である。
【図6】移動体(人物)の移動状態又は静止状態の判断基準を与える判別フローチャートである。
【図7】移動体(人物)の移動状態又は静止状態の判断を与える具体的工程図である。
【図8】カメラを装着している人物(移動体)の手の動作を推定する工程図である。
【図9】手領域を抽出する具体的工程図である。原画像は変換画像の一例である。
【図10】手の動作を推定する具体的工程図である。
【図11】カメラに撮影される他者の動作を推定する工程図である。
【図12】カメラにより撮影される物体を認識して特定する工程図である。
【図13】カメラにより撮影される物体の認識方法を示す具体的工程図である。
【図14】カメラを装着している人物の行動を認識してテキストで表現する階層構造図である。
【図15】カメラを装着した人物が研究室を立ち歩く行動実験図である。
【符号の説明】
2は移動体(人物)、4はマイク、6はカメラ、8は対象世界、10は撮影領域、12は手、13は被写体、14は対象物、16は無線信号、18はネットワーク、19は入力信号、20は行動分析装置、21は受信アンテナ、22は入力部、24は画像分析部、26は音声分析部、28はテキスト生成部、30はテキストデータベース、31はテキスト信号、32は通信部、34は管理センタ。
Claims (10)
- 移動体に装着されたカメラと、このカメラで撮影される対象物又は前記移動体の一部からなる被写体の動画像を無線信号として発信する無線機と、この無線信号を受信する行動分析装置と、この行動分析装置は、動画像を加工して被写体の行動を分析する画像分析部と、この画像分析部により分析された被写体の行動をテキスト情報として出力するテキスト生成部を有することを特徴とする被写体の行動認識装置。
- 移動体に装着されたカメラと、このカメラで撮影される対象物又は前記移動体の一部からなる被写体の動画像を無線信号として発信する無線機と、この無線機から発信される無線信号をネットワークを介して受信する行動分析装置と、この行動分析装置は、動画像を加工して被写体の行動を分析する画像分析部と、この画像分析部により分析された被写体の行動をテキスト情報として出力するテキスト生成部を有することを特徴とする被写体の行動認識装置。
- 移動体に装着されたカメラと、このカメラに付属する行動分析装置及び無線機と、前記行動分析装置は、前記カメラで撮影される対象物又は前記移動体の一部からなる被写体の動画像を加工して被写体の行動を分析する画像分析部と、この画像分析部により分析された被写体の行動をテキスト情報として出力するテキスト生成部を有し、前記無線機によりテキスト情報を必要なサイトまで無線送信することを特徴とする被写体の行動認識装置。
- 移動体に装着されたカメラにより対象世界を撮影して動画像を取り込み、動画像を構成する時系列的に流れる複数の画像フレームの一つを基準フレームに設定し、この基準フレームに時間的に後続する画像フレームを入力フレームとし、この入力フレームに変換処理を施して前記基準フレームに極力近似させるようにし、この変換処理により入力フレームが基準フレームからどれほど移動しているかを示す移動パラメータを導出し、この移動パラメータにより前記移動体の移動量を推定することを特徴とする被写体の行動認識方法。
- 移動体に装着されたカメラにより対象世界を撮影して動画像を取り込み、動画像を構成する時系列的に流れる複数の画像フレームの一つを基準フレームに設定し、この基準フレームに時間的に後続する画像フレーム系列を入力フレーム系列とし、この入力フレーム系列に変換処理を施して前記基準フレームに極力近似させるようにした変換画像系列を形成し、変換処理により入力フレームが基準フレームからどれほど移動しているかを示す移動パラメータを導出し、この移動パラメータにより推定される前記移動体の移動量が基準移動量より大きくなるとその入力フレームを基準フレームに再設定して基準フレームの更新を行い、以上の操作を反復して基準フレームの更新頻度(更新率)から前記移動体の行動を判断することを特徴とする被写体の行動認識方法。
- 移動体に装着されたカメラにより対象世界を撮影して動画像を取り込み、動画像を構成する時系列的に流れる複数の画像フレームの一つを基準フレームに設定し、この基準フレームに時間的に後続する画像フレーム系列を入力フレーム系列とし、この入力フレーム系列に変換処理を施して前記基準フレームに極力近似させるようにした変換画像系列を形成し、各変換画像における背景領域の中で特定対象物を示す特定領域に着目し、変換画像系列の中で特定領域の動作から前記特定対象物の行動を判断することを特徴とする被写体の行動認識方法。
- 前記移動体が人物である場合に、前記特定対象物がこの人物の手であり、この手領域を少なくとも肌色情報と動作情報から特定領域として抽出し、この手領域の動作から人物の行動を判断する請求項5に記載の被写体の行動認識方法。
- 前記特定対象物がカメラにより撮影される他者の顔であり、この顔領域を少なくとも肌色情報と輪郭情報から特定領域として抽出し、この顔領域の動作から前記他者の行動を判断する請求項5に記載の被写体の行動認識方法。
- 移動体に装着されたカメラにより対象世界を撮影して動画像を取り込み、動画像を構成する時系列的に流れる複数の画像フレームの一つを基準フレームに設定し、この基準フレームに時間的に後続する画像フレーム系列を入力フレーム系列とし、この入力フレーム系列に変換処理を施して前記基準フレームに極力近似させるようにした変換画像系列を形成し、各変換画像における背景領域の中で特定対象物を示す特定領域に着目し、この特定領域の画像を記憶されているテンプレートモデルと比較し、前記特定対象物を具体的に特定することを特徴とする被写体の行動認識方法。
- 前記被写体の行動をテキスト情報に変換する請求項4、5、6、7、8又は9に記載の被写体の行動認識方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003069913A JP2004280376A (ja) | 2003-03-14 | 2003-03-14 | 被写体の行動認識方法及び装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003069913A JP2004280376A (ja) | 2003-03-14 | 2003-03-14 | 被写体の行動認識方法及び装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2004280376A true JP2004280376A (ja) | 2004-10-07 |
Family
ID=33286797
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003069913A Pending JP2004280376A (ja) | 2003-03-14 | 2003-03-14 | 被写体の行動認識方法及び装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2004280376A (ja) |
Cited By (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009201014A (ja) * | 2008-02-25 | 2009-09-03 | Sogo Keibi Hosho Co Ltd | 要約文作成装置及び要約文作成方法 |
JP2009205594A (ja) * | 2008-02-29 | 2009-09-10 | Sogo Keibi Hosho Co Ltd | 警備装置および不審者判定方法 |
JP2009211389A (ja) * | 2008-03-04 | 2009-09-17 | Sogo Keibi Hosho Co Ltd | 日誌作成装置及び日誌作成方法 |
JP2010079806A (ja) * | 2008-09-29 | 2010-04-08 | Saxa Inc | 画像処理装置、移動体の計数装置及びプログラム |
JP2010128594A (ja) * | 2008-11-25 | 2010-06-10 | Sogo Keibi Hosho Co Ltd | 動作検出装置および動作検出方法 |
JP2010170212A (ja) * | 2009-01-20 | 2010-08-05 | Sogo Keibi Hosho Co Ltd | 行動推定装置および方法 |
JP2010170317A (ja) * | 2009-01-22 | 2010-08-05 | Oki Semiconductor Co Ltd | 車両監視装置、車両監視システム、車両監視プログラム、半導体装置 |
JP2013045351A (ja) * | 2011-08-25 | 2013-03-04 | Canon Inc | 動作認識装置および動作認識方法 |
JP2017021445A (ja) * | 2015-07-07 | 2017-01-26 | キヤノン株式会社 | 通信装置、その制御方法、プログラム |
KR101826189B1 (ko) | 2013-03-15 | 2018-02-06 | 퀄컴 인코포레이티드 | 올웨이즈-온 카메라 샘플링 전략들 |
US9999395B2 (en) | 2010-08-06 | 2018-06-19 | Samsung Electronics Co., Ltd. | Apparatus and method for detecting user action |
JP2018117338A (ja) * | 2016-12-09 | 2018-07-26 | ザ・ボーイング・カンパニーThe Boeing Company | ライブ・ビデオ・フィードにおける自動的なオブジェクトおよびアクティビティの追跡 |
JP2018144534A (ja) * | 2017-03-02 | 2018-09-20 | 株式会社日立システムズ | 運転支援システムおよび運転支援方法並びに運転支援プログラム |
CN110121055A (zh) * | 2018-02-07 | 2019-08-13 | 罗伯特·博世有限公司 | 用于对象识别的方法和设备 |
JP2019148925A (ja) * | 2018-02-26 | 2019-09-05 | 国立大学法人山口大学 | 行動分析システム |
WO2019212122A1 (ko) * | 2018-04-30 | 2019-11-07 | Lee Hwiwon | 웨어러블 기기를 이용한 객체의 이벤트 감지 방법 및 이를 운용하는 관리 서버 |
JP2020017301A (ja) * | 2014-03-31 | 2020-01-30 | 日本電気株式会社 | 画像処理方法、画像処理システムおよび画像処理端末 |
US11304656B2 (en) | 2020-08-19 | 2022-04-19 | Inhandplus Inc. | Wearable device for medication adherence monitoring |
US11647167B2 (en) | 2019-05-07 | 2023-05-09 | Inhandplus Inc. | Wearable device for performing detection of events by using camera module and wireless communication device |
-
2003
- 2003-03-14 JP JP2003069913A patent/JP2004280376A/ja active Pending
Cited By (30)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009201014A (ja) * | 2008-02-25 | 2009-09-03 | Sogo Keibi Hosho Co Ltd | 要約文作成装置及び要約文作成方法 |
JP2009205594A (ja) * | 2008-02-29 | 2009-09-10 | Sogo Keibi Hosho Co Ltd | 警備装置および不審者判定方法 |
JP2009211389A (ja) * | 2008-03-04 | 2009-09-17 | Sogo Keibi Hosho Co Ltd | 日誌作成装置及び日誌作成方法 |
JP2010079806A (ja) * | 2008-09-29 | 2010-04-08 | Saxa Inc | 画像処理装置、移動体の計数装置及びプログラム |
JP2010128594A (ja) * | 2008-11-25 | 2010-06-10 | Sogo Keibi Hosho Co Ltd | 動作検出装置および動作検出方法 |
JP2010170212A (ja) * | 2009-01-20 | 2010-08-05 | Sogo Keibi Hosho Co Ltd | 行動推定装置および方法 |
JP2010170317A (ja) * | 2009-01-22 | 2010-08-05 | Oki Semiconductor Co Ltd | 車両監視装置、車両監視システム、車両監視プログラム、半導体装置 |
US9999395B2 (en) | 2010-08-06 | 2018-06-19 | Samsung Electronics Co., Ltd. | Apparatus and method for detecting user action |
JP2013045351A (ja) * | 2011-08-25 | 2013-03-04 | Canon Inc | 動作認識装置および動作認識方法 |
KR101826189B1 (ko) | 2013-03-15 | 2018-02-06 | 퀄컴 인코포레이티드 | 올웨이즈-온 카메라 샘플링 전략들 |
US11798211B2 (en) | 2014-03-31 | 2023-10-24 | Nec Corporation | Image processing system, image processing method and program, and device |
JP2020017301A (ja) * | 2014-03-31 | 2020-01-30 | 日本電気株式会社 | 画像処理方法、画像処理システムおよび画像処理端末 |
JP7001086B2 (ja) | 2014-03-31 | 2022-01-19 | 日本電気株式会社 | 映像監視方法、映像監視システムおよび映像監視端末 |
US11100691B2 (en) | 2014-03-31 | 2021-08-24 | Nec Corporation | Image processing system, image processing method and program, and device |
JP2017021445A (ja) * | 2015-07-07 | 2017-01-26 | キヤノン株式会社 | 通信装置、その制御方法、プログラム |
JP7136546B2 (ja) | 2016-12-09 | 2022-09-13 | ザ・ボーイング・カンパニー | ライブ・ビデオ・フィードにおける自動的なオブジェクトおよびアクティビティの追跡 |
JP2018117338A (ja) * | 2016-12-09 | 2018-07-26 | ザ・ボーイング・カンパニーThe Boeing Company | ライブ・ビデオ・フィードにおける自動的なオブジェクトおよびアクティビティの追跡 |
JP2018144534A (ja) * | 2017-03-02 | 2018-09-20 | 株式会社日立システムズ | 運転支援システムおよび運転支援方法並びに運転支援プログラム |
CN110121055B (zh) * | 2018-02-07 | 2023-06-30 | 罗伯特·博世有限公司 | 用于对象识别的方法和设备 |
CN110121055A (zh) * | 2018-02-07 | 2019-08-13 | 罗伯特·博世有限公司 | 用于对象识别的方法和设备 |
JP2019148925A (ja) * | 2018-02-26 | 2019-09-05 | 国立大学法人山口大学 | 行動分析システム |
WO2019212122A1 (ko) * | 2018-04-30 | 2019-11-07 | Lee Hwiwon | 웨어러블 기기를 이용한 객체의 이벤트 감지 방법 및 이를 운용하는 관리 서버 |
US11405594B2 (en) | 2018-04-30 | 2022-08-02 | Inhandplus Inc. | Method for detecting event of object by using wearable device and management server operating same |
US11695903B2 (en) | 2018-04-30 | 2023-07-04 | Inhandplus Inc. | Method for detecting event of object by using wearable device and management server operating same |
US11647167B2 (en) | 2019-05-07 | 2023-05-09 | Inhandplus Inc. | Wearable device for performing detection of events by using camera module and wireless communication device |
US11304656B2 (en) | 2020-08-19 | 2022-04-19 | Inhandplus Inc. | Wearable device for medication adherence monitoring |
US11660048B2 (en) | 2020-08-19 | 2023-05-30 | Inhandplus Inc. | Wearable device for medication adherence monitoring |
US11457862B2 (en) | 2020-08-19 | 2022-10-04 | Inhandplus Inc. | Method for determining whether medication has been administered and server using same |
US11832962B2 (en) | 2020-08-19 | 2023-12-05 | Inhandplus Inc. | Method for determining whether medication has been administered and server using same |
US11950922B2 (en) | 2020-08-19 | 2024-04-09 | Inhandplus Inc. | Wearable device for medication adherence monitoring |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2004280376A (ja) | 被写体の行動認識方法及び装置 | |
Ranasinghe et al. | A review on applications of activity recognition systems with regard to performance and evaluation | |
EP2924543B1 (en) | Action based activity determination system and method | |
JP7196645B2 (ja) | 姿勢推定装置、行動推定装置、姿勢推定プログラム、および姿勢推定方法 | |
JP7151959B2 (ja) | 映像アライメント方法及びその装置 | |
JP5091095B2 (ja) | 動作検出装置および動作検出方法 | |
CN111476114A (zh) | 疲劳检测方法、装置、终端设备及存储介质 | |
CN112016367A (zh) | 一种情绪识别***、方法及电子设备 | |
KR101584685B1 (ko) | 시청 데이터를 이용한 기억 보조 방법 | |
CN108289201B (zh) | 视频数据处理方法、装置和电子设备 | |
Khanal et al. | Using emotion recognition in intelligent interface design for elderly care | |
JPH09307868A (ja) | コミュニケーション装置及びコミュニケーション方法 | |
CN109986553B (zh) | 一种主动交互的机器人、***、方法及存储装置 | |
CN113822187A (zh) | 手语翻译、客服、通信方法、设备和可读介质 | |
JP2004157614A (ja) | 行動分析装置 | |
Siriwardhana et al. | Classification of activities of daily living based on depth sequences and audio | |
Richter et al. | Activity recognition for elderly care by evaluating proximity to objects and human skeleton data | |
Mocanu et al. | A multi-agent system for human activity recognition in smart environments | |
JP7483532B2 (ja) | キーワード抽出装置、キーワード抽出方法及びキーワード抽出プログラム | |
CN106815264B (zh) | 一种信息处理方法及*** | |
KR20230154380A (ko) | 행동 및 발화 패턴 기반 감성 인식 결과에 의해 사용자의 감성 상태에 적합한 헬스케어 서비스를 제공하는 시스템 및 방법 | |
CN114155606A (zh) | 基于人体动作分析的语义识别方法及相关装置 | |
Liang et al. | A collaborative elderly care system using a companion robot and a wearable device | |
JP2023047410A (ja) | ユーザの動的状態に応じて物体認識に基づく情報を提示する携帯装置、プログラム及び方法 | |
Yusuf et al. | Individuality and user-specific approach in adaptive emotion recognition model |