JP7338182B2

JP7338182B2 - 行動認識装置、行動認識方法及びプログラム

Info

Publication number: JP7338182B2
Application number: JP2019051167A
Authority: JP
Inventors: 海克関
Original assignee: Ricoh Co Ltd
Current assignee: Ricoh Co Ltd
Priority date: 2019-03-19
Filing date: 2019-03-19
Publication date: 2023-09-05
Anticipated expiration: 2039-03-19
Also published as: JP2020154552A

Description

本発明は、行動認識装置、行動認識方法及びプログラムに関する。

オフィスや工場などの職場において、作業者の行動を可視化し、作業時間等を分析することにより職場の生産効率を改善することは重要な課題である。そのため、職場をカメラで動画撮影し、得られた動画を分析することで、作業者による特定の標準的な作業（以下、標準作業という）の行動を認識し、分析する手段は有効である。

ただし、カメラで撮影した職場動画を目視で解析し、決まった一定の手順で行う標準作業の行動を抽出し、各動作の時間を測定し、それらを可視化するには、膨大な解析時間と労力が必要である。そこで従来では、人間の行動を自動認識するために、撮影した動画から人を認識し、認識した人の重心から人の移動軌跡を求め、移動軌跡から特定の行動を認識する方法が提案されている。

作業者の行動を認識する際には、処理の効率化を図るために、１台のカメラで、できるだけ広い視野を撮影するのが望ましい。そのために、画角の広い広角レンズを備えたカメラを用いて撮影を行うのが望ましい。しかしながら、広角レンズを備えたカメラで撮影した画像には歪が発生する。画像に歪が発生すると、画像に写った人の形状が歪むため、人の認識精度が悪化する。標準作業を認識するためには、同じ人の動きを時間経過に沿ってトレースする必要があるため、人の認識精度の悪化は、標準作業の認識精度の悪化を招く。このような精度の悪化を防止するために、画像の歪を補正した上で標準作業を認識するのが望ましい。しかしながら、歪の補正には手間がかかるため、高精度かつ高速に標準作業の認識を行うのは困難であるという問題があった。

本発明は、上記に鑑みてなされたものであって、作業者の標準作業を、高精度かつ高速に認識することが可能な行動認識装置、行動認識方法及びプログラムを提供することを目的とする。

上述した課題を解決し、目的を達成するために、本発明の行動認識装置は、撮影した認識対象となる動画から、当該動画に写った被写体の特定行動を認識する行動認識装置であって、広角レンズを備えて、同じ領域を異なる方向から撮影する複数の撮影手段が、当該撮影手段の観測範囲の中の歪の異なる複数の位置で特定行動を行っている被写体をそれぞれ撮影した動画を入力する第１の動画入力部と、前記複数の撮影手段によって、認識対象となる動画を入力する第２の動画入力部と、前記第１の動画入力部および前記第２の動画入力部が入力した動画に含まれる画像を、それぞれ、歪の異なる複数の領域に分割する領域分割部と、前記第１の動画入力部が入力した動画から、前記撮影手段毎および前記領域毎に、前記被写体の特定行動を認識するための認識辞書を作成する辞書作成部と、異なる前記撮影手段から入力された前記認識対象となる動画に含まれる画像の前記領域からそれぞれ検出された同じ被写体の位置に応じて、前記辞書作成部が、前記撮影手段毎および前記領域毎に作成した複数の認識辞書の中から、最も歪の小さい認識辞書を選択する辞書選択部と、前記辞書選択部が選択した認識辞書に基づいて、前記被写体の特定行動を認識する行動認識部と、を備えることを特徴とする。

本発明によれば、作業者の標準作業を、高精度かつ高速に認識することができる。

図１は、第１の実施形態に係る行動認識システムのハードウェア構成の一例を示すハードウェアブロック図である。図２は、第１の実施形態に係る行動認識システムが使用されている場面の一例を示す図である。図３は、魚眼カメラのハードウェア構成の一例を示すハードウェアブロック図である。図４は、行動認識装置のハードウェア構成の一例を示すハードウェアブロック図である。図５は、魚眼レンズで観測した画像の歪を説明する図である。図６は、魚眼レンズで観測した画像の位置による歪の違いを説明する図である。図７は、第１の実施形態の行動認識システムが観測した画像の一例を示す図である。図８は、行動認識システムが認識する特定行動のうち、「歩く」行動を説明する図である。図９は、図７の画像における人の拡大図である。図１０は、行動認識システムが認識する特定行動のうち、商品を棚に入れる「棚入れ」行動を説明する図である。図１１は、棚入れ行動を行っている人の拡大図の一例を示す図である。図１２は、行動認識処理部の機能構成の一例を示す機能ブロック図である。図１３は、辞書作成部の機能構成の一例を示す機能ブロック図である。図１４は、行動認識部の機能構成の一例を示す機能ブロック図である。図１５は、動画入力部に入力される動画の一例を示す図である。図１６は、特徴点検出方法について説明する図である。図１７Ａは、抽出した特徴点の一例を示す第１の図である。図１７Ｂは、抽出した特徴点の一例を示す第２の図である。図１８は、特定行動の持続時間の測定について説明する図である。図１９は、認識辞書の作成の流れの一例を示すフローチャートである。図２０は、特定行動の認識処理の流れの一例を示すフローチャートである。図２１は、複数の特定行動を認識する処理の流れの一例を示すフローチャートである。図２２は、第２の実施形態に係る行動認識システムのハードウェア構成の一例を示すハードウェアブロック図である。図２３は、第２の実施形態に係る行動認識システムが使用されている場面の一例を示す図である。図２４は、第２の実施形態における行動認識処理部の機能構成の一例を示す機能ブロック図である。図２５は、第２の実施形態における特定行動の認識処理の流れの一例を示すフローチャートである。

（第１の実施形態）
以下に添付図面を参照して、行動認識装置、行動認識方法及びプログラムの第１の実施形態を詳細に説明する。

（行動認識装置のハードウェア構成の説明）
図１は、本実施形態に係る行動認識システム１００のハードウェア構成の一例を示すハードウェアブロック図である。図１に示すように、行動認識システム１００は、魚眼カメラ２００と、行動認識装置３００とを備える。

行動認識システム１００は、魚眼カメラ２００で撮影した被写体の特定行動を認識する。特定行動とは、例えば、職場の作業環境において繰り返し行われる、「歩行する」、「荷物を棚入れする」等の標準作業である。

魚眼カメラ２００は、全周囲３６０°の範囲を観測可能な魚眼レンズを備えたビデオカメラである。なお、魚眼レンズを備えるのは一例であって、魚眼カメラ２００は、広角レンズを備えるものであってもよい。なお、魚眼カメラ２００は、撮影手段の一例である。

行動認識装置３００は、魚眼カメラ２００が撮影した動画を分析することによって、当該動画に写っている人（被写体）の特定行動を認識する。被写体の特定行動を認識するためには、ある程度のコマ数の画像（連続画像、映像）が必要になる。コマ数が多くなると、魚眼カメラ２００が有する歪を補正する処理の負荷が高くなる。本実施の形態は、歪の補正を行うことなく動画を分析する点が特徴である。

なお、行動認識装置３００は、行動認識処理部３２１と、行動認識処理部３２１と魚眼カメラ２００とを接続するインタフェース部３２２と、を備える。

行動認識処理部３２１は、人（被写体）の特定行動を認識する。インタフェース部３２２は、魚眼カメラ２００が撮影した動画を、行動認識処理部３２１が認識可能なデータ形式に変換して、行動認識処理部３２１に受け渡す。

次に、図２を用いて、行動認識システム１００が使われる代表的な場面を説明する。図２は、第１の実施形態に係る行動認識システム１００が使用されている場面の一例を示す図である。

図２に示すように、行動認識システム１００は、オフィスや工場などの職場における作業環境に設置される。そして、魚眼カメラ２００は、作業環境において作業を行っている複数の人Ｈ１，Ｈ２を含む動画を撮影する。作業環境を１台のカメラで撮影するのが効率的であるため、魚眼カメラ２００は、画角の広い広角レンズを備えるのが望ましい。本実施形態では、魚眼カメラ２００は、対角線画角１８０°を有する魚眼レンズを備えるものとする。なお、人Ｈ１，Ｈ２は、被写体の一例である。

（魚眼カメラのハードウェア構成の説明）
まず、魚眼カメラ２００のハードウェア構成について説明する。

図３は、魚眼カメラ２００のハードウェア構成の一例を示すハードウェアブロック図である。図３に示すように、魚眼カメラ２００は、対角線画角が１８０度以上の画角を有する魚眼レンズ２１７及びＣＣＤ（Charge Coupled Device）２０３を備えている。なお、魚眼カメラ２００ａは撮影手段の一例である。魚眼カメラ２００は、被写体光を、魚眼レンズ２１７を通してＣＣＤ２０３に入射する。また、魚眼カメラ２００は、魚眼レンズ２１７とＣＣＤ２０３との間に、メカシャッタ２０２を備えている。メカシャッタ２０２は、ＣＣＤ２０３への入射光を遮断する。メカシャッタ２０２の開閉は、モータドライバ２０６により制御される。また、魚眼レンズ２１７のレンズ位置もモータドライバ２０６により制御されて、オートフォーカス機能が実現される。

ＣＣＤ２０３は、撮像面に結像された光学像を電気信号に変換して、アナログの画像データを出力する。ＣＣＤ２０３から出力された画像データは、ＣＤＳ（Correlated Double Sampling：相関２重サンプリング）回路２０４によりノイズ成分を除去され、Ａ／Ｄ変換器２０５によりデジタル画像データ（以下、単に画像データと呼ぶ）に変換された後、画像処理回路２０８に対して出力される。

画像処理回路２０８は、画像データを一時格納するＳＤＲＡＭ（Synchronous DRAM）２１２を用いて、ＹＣｒＣｂ変換処理や、ホワイトバランス制御処理、コントラスト補正処理、エッジ強調処理、色変換処理などの各種画像処理を行う。なお、ホワイトバランス処理は、画像データの色濃さを調整し、コントラスト補正処理は、画像データのコントラストを調整する画像処理である。エッジ強調処理は、画像データのシャープネスを調整し、色変換処理は、画像データの色合いを調整する画像処理である。また、画像処理回路２０８は、信号処理や画像処理が施された画像データをＬＣＤ２１６（液晶ディスプレイ）に表示する。

画像処理回路２０８において信号処理、画像処理が施された画像データは、圧縮伸張回路２１３を介して、メモリカード２１４に記録される。圧縮伸張回路２１３は、操作部２１５から取得した指示によって、画像処理回路２０８から出力される画像データを圧縮してメモリカード２１４に出力すると共に、メモリカード２１４から読み出した画像データを伸張して画像処理回路２０８に出力する。

魚眼カメラ２００ａは、プログラムに従って各種演算処理を行うＣＰＵ（Central Processing Unit）２０９を備えている。ＣＰＵ２０９は、プログラムなどを格納した読み出し専用メモリであるＲＯＭ（Read Only Memory）２１１、及び各種の処理過程で利用するワークエリア、各種データ格納エリアなどを有する読み出し書き込み自在のメモリであるＲＡＭ（Random Access Memory）２１０とバスラインによって相互接続されている。

ＣＣＤ２０３、ＣＤＳ回路２０４及びＡ／Ｄ変換器２０５は、タイミング信号を発生するタイミング信号発生器２０７を介してＣＰＵ２０９によって、タイミングを制御される。さらに、画像処理回路２０８、圧縮伸張回路２１３、メモリカード２１４も、ＣＰＵ２０９によって制御される。

魚眼カメラ２００の出力は、図１に示す行動認識装置３００の信号処理ボードであるインタフェース部３２２に入力される。

（行動認識装置のハードウェア構成の説明）
次に、行動認識装置３００のハードウェア構成について説明する。

図４は、行動認識装置３００のハードウェア構成の一例を示すハードウェアブロック図である。図４に示すように、行動認識装置３００は、行動認識装置３００全体の動作を制御するＣＰＵ（Central Processing Unit）３０１、ＣＰＵ３０１の駆動に用いられるプログラムを記憶したＲＯＭ（Read Only Memory）３０２、ＣＰＵ３０１のワークエリアとして使用されるＲＡＭ（Random Access Memory）３０３を有する。また、プログラム等の各種データを記憶するＨＤ（Hard Disk）３０４、ＣＰＵ３０１の制御にしたがってＨＤ３０４に対する各種データの読み出し又は書き込みを制御するＨＤＤ（Hard Disk Drive）３０５を有する。

また、行動認識装置３００は、メディアＩ／Ｆ３０７、ディスプレイ３０８、ネットワークＩ／Ｆ３０９を有する。メディアＩ／Ｆ３０７は、フラッシュメモリ等のメディア３０６に対するデータの読み出し又は書き込み（記憶）を制御する。ディスプレイ３０８は、カーソル、メニュー、ウィンドウ、文字、又は画像などの各種情報を表示する。ネットワークＩ／Ｆ３０９は、通信ネットワークを利用してデータ通信する。

また、行動認識装置３００は、キーボード３１１、マウス３１２、ＣＤ－ＲＯＭ（Compact Disk Read Only Memory）ドライブ３１４、バスライン３１０を有する。キーボード３１１は、文字、数値、各種指示などの入力のための複数のキーを備える。マウス３１２は、各種指示の選択や実行、処理対象の選択、カーソルの移動などを行う。ＣＤ－ＲＯＭドライブ３１４は、着脱可能な記録媒体の一例としてのＣＤ－ＲＯＭ３１３に対する各種データの読み出し又は書き込みを制御する。バスライン３１０は、上記各構成要素を電気的に接続するためのアドレスバスやデータバス等である。

図示した行動認識装置３００のハードウェアは、１つの筐体に収納したり、ひとまとまりの装置としたりする必要はない。また、クラウドコンピューティングに対応するため、本実施形態の行動認識装置３００の物理的な構成は固定的でなくてもよく、負荷に応じてハード的なリソースが動的に接続・切断されることで構成されてもよい。

なお、プログラムは、実行可能形式や圧縮形式などでメディア３０６やＣＤ－ＲＯＭ３１３などの記憶媒体に記憶された状態で配布されるか、又は、プログラムを配信するサーバから配信される。

本実施の形態の行動認識装置３００で実行されるプログラムは、下記に示す各機能を含むモジュール構成となっている。行動認識装置３００のＣＰＵ３０１は、ＲＯＭ３０２やＨＤ３０４などの記憶媒体からプログラムを読み出して実行することにより各モジュールがＲＡＭ３０３上にロードされ、各機能を発揮する。

（魚眼カメラで発生する歪の説明）
次に、図５，図６を用いて魚眼カメラ２００で撮影した画像に発生する歪について説明する。図５は、魚眼レンズで観測した画像の歪を説明する図である。図６は、魚眼レンズで観測した画像の位置による歪の違いを説明する図である。

図５に示す画像Ｉは、標準レンズ又は望遠レンズを装着したカメラで、縦横の規則的な直線で構成されるマス目が描かれたターゲットを撮影した際に観測される画像Ｉの一例である。図５に示すように、画像Ｉには、縦横の直線的なマス目が観測される。そして、各マス目における縦線と横線の長さの比率は、画像Ｉの位置に依らずにほぼ等しい。すなわち、画像Ｉにおいて発生する歪は非常に小さい。

一方、画像Ｊは、本実施の形態の魚眼カメラ２００で、前記と同じターゲットを撮影した際に観測される画像の一例である。魚眼カメラ２００は、画像の中心からの距離と観測対象物の方向（角度）とが比例する画像を生成する、いわゆる等距離射影方式によって画像を生成する。したがって、画像Ｊの中心付近と周辺部とで、発生する歪の大きさが異なる。

具体的には、前記したターゲットを撮影した際に観測される画像Ｊにおいて、縦線は、画像Ｊに外接する円の円周上の点Ｃ１と点Ｃ２を通る円弧状に観測される。また、ターゲットの横線は、画像Ｊに外接する円の円周上の点Ｃ３と点Ｃ４を通る円弧状に観測される。

すなわち、画像Ｊの中心付近では、ターゲットの縦線と横線は直線に近い状態で観測される。そして、各マス目における縦線と横線の長さの比率はほぼ等しい。すなわち、発生する歪は小さい。一方、画像Ｊの周辺部では、ターゲットの縦線及び横線は、ともに曲線として観測される。さらに、各マス目における縦線と横線の比率は異なる。このように、画像Ｊでは、画像の中心からの距離が大きいほど、発生する歪が大きくなる。そして、発生する歪の方向は、画像Ｊの中心に対して点対称な方向になる。

したがって、画像Ｊでは、人が観測される位置によって、当該人が同じ行動を行った場合に発生する動きの大きさと方向とが異なる。すなわち、人の行動を認識するためには、画像Ｊの場所毎に認識辞書を用意して、人が観測された位置に応じた認識辞書を利用して行動認識を行えばよい。

具体的には、図６に示すように、画像Ｊの中心から周辺に向けて、複数の領域Ｒ１，Ｒ２，Ｒ３，Ｒ４を設定して、領域Ｒ１，Ｒ２，Ｒ３，Ｒ４毎に認識辞書を作成する。この場合、画像の歪は、領域Ｒ１が最も小さく、領域Ｒ４が最も大きい。なお、領域Ｒ１，Ｒ２，Ｒ３，Ｒ４は、設定する領域の一例であって、領域数を４個に限定するものではない。このように、本実施形態の行動認識システム１００は、画像Ｊの複数の異なる位置に同様の領域を設定して、各領域において認識辞書を作成する。そして、行動認識システム１００は、撮影した動画の中から検出した人の位置に最も近い位置で作成された認識辞書を用いて、行動認識を行う。

なお、魚眼カメラ２００の代わりに、広角レンズや超広角レンズを備えたカメラを用いた場合であっても、魚眼レンズと同様に、画像の周辺には、画像の中心よりも大きい歪が発生する。そのため、画像内の位置に応じた認識辞書を用いて行動認識を行う方法は有効である。

（実際に観測される画像の説明）
図７から図１１を用いて、行動認識システム１００が観測する画像の例を説明する。図７は、第１の実施形態の行動認識システム１００が観測した画像の一例を示す図である。

図７は、職場における作業者の特定行動の一例である。特に、図７の画像Ｊ１は、「歩く」という特定行動の一例を示す図である。「歩く」行動は、作業者が複数の特定行動を行う際に、ある特定行動から別の特定行動に移る際に発生する行動である。そして、一般に、「歩く」行動に要する時間が多くなると、作業効率が低くなる。行動認識システム１００は、歩く行動を、特定行動の一つとして認識する。

図８は、行動認識システム１００が認識する特定行動のうち、「歩く」行動を説明する図である。図８に示すように、魚眼カメラ２００は、歩行動作を行っている人Ｈ１を時系列で撮影する。この場合、歩行している人Ｈ１を撮影した動画（画像列）が得られる。

図９は、図７の画像Ｊ１における人の拡大図ｊ１である。行動認識システム１００は、図９に示す領域の時間変化を観測することによって、特定行動を認識する。

図１０は、行動認識システム１００が認識する特定行動のうち、商品を棚に入れる「棚入れ」行動を説明する図である。図１０に示すように、魚眼カメラ２００は、棚入れを行っている人Ｈ１を字系列で撮影する。この場合、棚入れを行っている人Ｈ１を撮影した動画（画像列）が得られる。

図１１は、棚入れ行動を行っている人の拡大図ｊ２の一例を示す図である。行動認識システム１００は、図１１に示す領域の時間変化を観測することによって、特定行動を認識する。

（行動認識処理部の機能構成の説明）
次に、図１２を用いて、行動認識処理部３２１の機能構成を説明する。図１２は、本実施形態に係る行動認識処理部３２１の一例を示す機能ブロック図である。図１２に示すように、行動認識処理部３２１は、動画入力部３３１と、領域分割部３３２と、辞書作成部３３３と、辞書選択部３３４と、行動認識部３３５と、持続時間測定部３３６とを備える。

動画入力部３３１は、魚眼カメラ２００で撮影された動画を、インタフェース部３２２（図１）を介して入力する。

領域分割部３３２は、魚眼カメラ２００が撮影した動画に含まれる画像を、歪の異なる複数の領域に分割する。

辞書作成部３３３は、分割された領域毎に、人の特定行動を認識するための異なる認識辞書を作成する。

辞書選択部３３４は、辞書作成部３３３が作成した異なる認識辞書の中から、動画から検出した人の特定行動を認識するために使用する認識辞書を選択する。

行動認識部３３５は、辞書選択部３３４が選択した認識辞書に基づいて、人の特定行動を認識する。

持続時間測定部３３６は、特定行動の認識結果に基づいて、当該特定行動の持続時間を測定する。

（辞書作成部の機能構成の説明）
次に、図１３を用いて、辞書作成部３３３の機能構成を説明する。図１３は、本実施形態に係る辞書作成部３３３の概略構成の一例を示す機能ブロック図である。図１３に示すように、辞書作成部３３３は、特徴点抽出部３３３ａと、特徴点分類部３３３ｂと、特徴ベクトル算出部３３３ｃと、ヒストグラム作成部３３３ｄと、認識辞書作成部３３３ｅとを備える。

なお、魚眼カメラ２００で撮影した動画は歪を有しているが、歪の補正は行わず、辞書作成部３３３は、撮影された動画が含む画像の複数の位置に対応する認識辞書を作成する。すなわち、辞書作成部３３３は、歪が大きい領域では歪が大きい状態で特定行動（標準作業）を認識する認識辞書を作成する。また、辞書作成部３３３は、歪が小さい領域では歪が小さい状態で特定行動を認識する認識辞書を作成する。したがって、認識辞書を作成する際には、被験者は、画像の中の様々な位置で標準作業を行う。

特徴点抽出部３３３ａは、魚眼カメラ２００で撮影された動画に含まれる複数の画像の中から、特定行動（標準作業）に伴って発生する特徴点を抽出する。より具体的には、特徴点抽出部３３３ａは、入力された動画から画像フレームをＴ枚ずつ切り出し、切り出されたＴ枚の画像フレームに対して、時空間における特徴点（時空間特徴点ともいう）を抽出する。特徴点とは、入力された動画を、空間方向２軸と時間方向１軸とからなる３次元の所定サイズのブロックに分割した際に、当該ブロック内における画像の平均的な明るさが所定値を超えるブロックである。なお、特徴点抽出部３３３ａは、精度の高い学習データを生成するために、複数の動画から特徴点の抽出を行う。

なお、特徴点抽出部３３３ａは、魚眼カメラ２００で撮影された動画に含まれる画像の中から、公知の人検出アルゴリズムを用いて人を検出して、検出された人の領域のみに対して、前記した特徴点抽出を行うようにしてもよい。これによると、特徴点を抽出する領域を限定することができるため、処理をより一層効率的に行うことができる。

特徴点分類部３３３ｂは、特徴点抽出部３３３ａが抽出した特徴点を表すＭ×Ｎ×Ｔ×３次元のベクトルを、例えば、公知のＫ平均法（Ｋ－ｍｅａｎｓ法）で分類（クラスタリング）する。分類するクラスの数をＫ種類とすると、特徴点分類部３３３ｂは、学習用の動画から抽出した特徴点をＫ種類に分類する。

特徴ベクトル算出部３３３ｃは、特徴点分類部３３３ｂが分類したＫ種類の特徴点のうち、同じ種類の特徴点におけるＭ×Ｎ×Ｔ×３次元のベクトルを平均化して、Ｋ個の平均ベクトルＶｋを求める。特徴ベクトル算出部３３３ｃが算出した平均ベクトルＶｋは、それぞれ、Ｋ種類の特徴点を代表するベクトルである。なお、平均ベクトルＶｋは、学習ベクトルの一例である。

特定行動を観測した動画から得られる特徴ベクトルは、同じ特定行動の学習データで得られた平均ベクトルＶｋの近く分布する。行動認識部３３５は、この特性を利用して、魚眼カメラ２００で撮影した歪を有する動画から、歪を補正しない状態でも高精度な行動認識を行うことができる。すなわち、作業者が直線的に移動した際に、撮影された動画の歪が大きい領域では、人の動きが曲線的になる。しかし、辞書作成部３３３が作成した認識辞書は、人の動きが曲線状になるものとして学習されるため、歪を補正することなく、特定行動を認識することができる。同様に、歪の小さい領域では、作業者の直線的な動きが、直線的な動きとして学習されるため、歪を補正することなく、特定行動を認識することができる。

ヒストグラム作成部３３３ｄは、平均ベクトルＶｋの出現頻度を表す学習ヒストグラムＨ（ｋ）を作成する。具体的には、Ｋ種類の特徴点について、各特徴点グループのブロック合計数を計算し、学習ヒストグラムＨ（ｋ）を作成する。学習ヒストグラムＨ（ｋ）は、特徴点ｋグループの頻度を示す。なお、ヒストグラム作成部３３３ｄは、学習ヒストグラム作成部の一例である。

認識辞書作成部３３３ｅは、Ｎ個の行動認識対象領域において、各領域の学習データから求めた学習ヒストグラムＨ（ｋ）により各領域の特定行動を認識する辞書を作成する。認識辞書作成部３３３ｅは、ＳＶＭ（Support Vector Machine）の機械学習方法で、認識辞書を作成する。なお、認識辞書作成部３３３ｅは、ＳＶＭの機械学習方法で認識辞書を作成する際に、認識対象となる特定行動を含む正の学習データ（プラス学習データ）と、記認識対象となる特定行動を含まない負の学習データ（マイナス学習データ）とを用意して認識辞書を作成してもよい。すなわち、認識辞書作成部３３３ｅは、正の学習データを正しいデータであるとして受け入れて、負の学習データを異なるデータであるとして除外する認識辞書を作成する。これによって、特定行動と間違いやすい行動を負の学習データとして学習させることができるため、特定行動の認識率を向上させることができる。なお、認識辞書を作成するとき、ＳＶＭ機械学習方法以外に他の機械学習方法を使ってもよい。例えば、ＫＮＮ（K Nearest Neighbor）や、ＭＬＰ（Multilayer perceptron）などの機械学習方法を使ってもよい。

（行動認識部の機能構成の説明）
次に、図１４を用いて、行動認識部３３５の機能構成を説明する。図１４は、本実施形態に係る行動認識部３３５の概略構成の一例を示す機能ブロック図である。図１４に示すように、行動認識部３３５は、特徴点抽出部３３５ａと、特徴ベクトル算出部３３５ｂと、ヒストグラム作成部３３５ｃと、行動認識部３３５ｄとを備える。特徴点抽出部３３５ａは、辞書作成部３３３が備える特徴点抽出部３３３ａと同じ機能を備える。

特徴ベクトル算出部３３５ｂは、特徴点抽出部３３５ａが抽出した特徴点における時空間エッジ情報（微分ベクトル）を求める。時空間エッジ情報について、詳しくは後述する。

ヒストグラム作成部３３５ｃは、時空間エッジ情報の出現頻度を表す特定行動ヒストグラムＴ（ｋ）を作成する。

行動認識部３３５ｄは、動画から得られる微分ベクトルに基づいてヒストグラム作成部３３５ｃが作成した特定行動ヒストグラムＴ（ｋ））と、認識辞書が記憶している学習ヒストグラムＨ（ｋ）とを比較することによって、特定行動を認識する。認識対象となる特徴点の分布は、認識辞書における特徴点の分布と近い。すなわち、特定行動を行っている認識対象の画像から得た特定行動ヒストグラムＴ（ｋ）と、同じ特定行動の学習ヒストグラムＨ（ｋ）とは類似しているため、画像の歪み補正を行うことなく、特定行動を認識することが可能である。

（行動認識システムが観測する画像の説明）
次に、図１５，図１６を用いて、行動認識システム１００が観測する画像の例を説明する。図１５は、動画入力部３３１に入力される動画（画像列）の一例を示す図である。図１５に示す各画像（フレーム）は、魚眼カメラ２００で撮影した画像であり、歪を補正していない画像である。撮影された画像の横軸ｘ、縦軸ｙは空間座標である。そして、画像フレームＦ１，Ｆ２の時間軸はｔで示す。つまり、入力された画像は、座標（ｘ，ｙ，ｔ）における時空間データになる。時空間の一つの座標における画素値は、空間座標（ｘ，ｙ）と時刻ｔの関数である。前述した職場における特定行動を認識する際に、人が移動すると、図１５に示す時空間データに変化点が発生する。行動認識システム１００は、この変化点、すなわち時空間の特徴点を見つけることで、特定行動を認識する。

次に、本実施形態における特徴点の抽出方法を説明する。図１６に示すように、時空間画像データをブロックに分割する。図１６の大きい立方体は時空間画像データを示す。横軸ｘと縦軸ｙとは空間座標を表す。それぞれの単位は画素である。また時間軸をｔで示す。例えば、動画を３０フレーム／秒のビデオレートで入力し、時系列画像を入力する。このビデオレートで換算することによって、画像が撮影された実際の時間を求めることができる。図１６の時空間画像データを、サイズ（Ｎ，Ｎ，Ｔ)のブロックで分割する。１ブロックのサイズは横Ｍ画素、縦Ｎ画素、Ｔフレームになる。図１６の１つのマス目が１つのブロックを示す。人がある行動を行ったとき、時空間データにおいて動きが発生したブロックでは、当該ブロックの特徴量が大きくなる。すなわち、時空間に大きな変化量が発生する。

次に、変化量の大きいブロックを特徴点として抽出する方法を説明する。時空間の画像データから特徴点を抽出するため、まず、空間方向、すなわち（ｘ，ｙ）方向でノイズを除去するために平滑化処理を行う。平滑化処理は、式（１）で行われる。

ここで、Ｉ（ｘ，ｙ，ｔ）は、時刻ｔのフレームにおける（ｘ，ｙ）座標の画素値である。また、ｇ（ｘ，ｙ）は、平滑化処理のためのカーネルである。また、＊は畳み込み処理を示す演算子である。平滑化処理は、単純に画素値の平均化処理としてもよいし、既存のGaussian平滑化フィルタ処理を行ってもよい。

次に時間軸でフィルタリング処理を行う。ここでは、式（２）に示すＧａｂｏｒフィルタリング処理を行う。Ｇａｂｏｒフィルタは指向性フィルタであり、フィルタを作用させる領域に存在する平行で等間隔な線を強調して、線の間に存在するノイズを除去する作用を有する。式（２）におけるｇ_ｅｖとｇ_ｏｄとは、それぞれ、式（３）と式（４）が示すＧａｂｏｒフィルタのカーネルである。また、＊は畳み込み処理を示す演算子である。さらに、τとωは、Ｇａｂｏｒフィルタにおけるカーネルのパラメータである。

図１５に示す時空間画像の全画素に対して、上記式（２）に示すフィルタリング処理を行った後、図１６に示す分割ブロック内のＲ（ｘ，ｙ，ｔ）の平均値を求める。式（５）で、時空間座標（ｘ，ｙ，ｔ）のブロックの平均値を求める。

式（６）に示すように、ブロック内の平均値Ｍ（ｘ，ｙ，ｔ）が所定の閾値Ｔｈｒｅ＿Ｍより大きい場合、このブロックを特徴点とする。

（特徴点の記述方法の説明）
次に、図１７Ａ，図１７Ｂを用いて、特徴点の記述方法を説明する。図１７Ａは、動画から抽出した特徴点の一例を示す第１の図である。図１７Ｂは、動画から抽出した特徴点の一例を示す第２の図である。すなわち、図１７Ａは、図１１に示した棚入れを行っている人の画像から抽出した、時刻ｔにおける特徴点の一例を示す画像ｋ１である。図１７Ａに示すように、動きのある部分に特徴点が抽出される。図１７Ｂは、同様に時刻ｔ＋Δｔにおいて抽出された特徴点の一例を示す画像ｋ２である。

図１７Ａに示す特徴点が抽出されたら、当該特徴点が属するブロック内の画素の時空間エッジ情報を求める。すなわち、式（７）に示す微分演算を行うことによって、画素のエッジ情報Ｅ（ｘ，ｙ，ｔ）（微分ベクトル）を求める。

１ブロックはＭ×Ｎ×Ｔの画素を含むため、式（７）によってＭ×Ｎ×Ｔ×３の微分値が得られる。すなわち、特徴点を含むブロックを、Ｍ×Ｎ×Ｔ×３個の微分値のベクトルで記述することができる。つまり、特徴点をＭ×Ｎ×Ｔ×３次元のベクトルで記述することができる。そして、図１７Ｂの画像ｋ２についても、同様にしてエッジ情報Ｅ（ｘ，ｙ，ｔ）を求める。

なお、辞書作成部３３３は、学習により、特定行動を認識する認識辞書を作成するとき、画像の中の歪が異なる複数の異なる位置にそれぞれ対応する認識辞書を作成する。

ここで、画像ｋ１から抽出された複数の特徴点のうち、近接した特徴点は、一人の人の行動に伴って発生する特徴点であると考えられる。すなわち、図１７Ａに示す領域ｍ１を、人の存在領域であるとして、辞書作成部３３３が作成した認識辞書を、領域ｍ１の代表点（例えば重心位置）と関連付けて記憶する。

図１７Ｂの画像ｋ２から抽出された特徴点が形成する領域ｍ２についても同様である。このように、辞書作成部３３３は、特定行動を含むＮフレームの画像を１つの学習データとして、認識辞書を作成する。

（特定行動の持続時間の説明）
次に、図１８を用いて、特定行動の持続時間について説明する。図１８は、特定行動の持続時間の測定について説明する図である。

持続時間測定部３３６は、特定行動の認識結果により特定行動の持続時間を測定する。図１８は、時刻ｔ０から時刻ｔ１の間は、「歩く」行動を行ったと認識されて、時刻ｔ２から時刻ｔ３の間は、「棚入れ」行動を行ったと認識された例を示す。

持続時間測定部３３６は、図１８において、「歩く」行動の持続時間は（ｔ１－ｔ０）であるとし、「棚入れ」行動の持続時間は（ｔ３－ｔ２）であると判断する。なお、認識する特定行動の数が増えた場合も、同様に、各特定行動の認識処理を行い、行動の持続時間が測定される。

（認識辞書作成処理の流れの説明）
次に、図１９を用いて、辞書作成部３３３が行う認識辞書作成処理の流れを説明する。なお、図１９は、認識辞書の作成の流れの一例を示すフローチャートである。

動画入力部３３１は、魚眼カメラ２００が撮影した動画を入力する（ステップＳ１１）。

特徴点抽出部３３３ａは、入力された動画の中から特徴点を抽出する（ステップＳ１２）。

特徴点分類部３３３ｂは、抽出された特徴点をクラスタリングする（ステップＳ１３）。

特徴ベクトル算出部３３３ｃは、平均ベクトルＶｋを算出する（ステップＳ１４）。

ヒストグラム作成部３３３ｄは、学習ヒストグラムＨ（ｋ）を作成する（ステップＳ１５）。

認識辞書作成部３３３ｅは、認識辞書を作成する（ステップＳ１６）。その後、辞書作成部３３３は、図１９の処理を終了する。なお、前記したように、認識辞書は、画像の異なる位置（歪が異なる位置）において複数作成する必要があるため、図１９の処理は繰り返し実行される。

（行動認識処理の流れの説明）
次に、図２０を用いて、行動認識処理部３２１が行う行動認識処理の流れを説明する。なお、図２０は、特定行動の認識処理の流れの一例を示すフローチャートである。

動画入力部３３１は、魚眼カメラ２００が撮影した動画を入力する（ステップＳ２１）。

特徴点抽出部３３５ａは、入力された動画の中から特徴点を抽出する（ステップＳ２２）。

特徴ベクトル算出部３３５ｂは、平均ベクトルＶｋを算出する（ステップＳ２３）。

ヒストグラム作成部３３５ｃは、特定行動ヒストグラムＴ（ｋ）を作成する（ステップＳ２４）。

辞書選択部３３４は、認識辞書を選択する（ステップＳ２５）。具体的には、辞書選択部３３４は、特徴点抽出部３３５ａが抽出した特徴点の位置の近傍で作成された認識辞書を選択する。すなわち、辞書選択部３３４は、歪の大きさが近い位置で作成された認識辞書を選択する。

行動認識部３３５は、特定行動を認識する（ステップＳ２６）。なお、特定行動の認識処理の流れは後述する（図２１）。

持続時間測定部３３６は、特定行動の持続時間を測定する（ステップＳ２７）。

さらに、持続時間測定部３３６は、特定行動の種類と特定行動の測定結果とを出力する（ステップＳ２８）。その後、行動認識部３３５は、図２０の処理を終了する。

（特定行動の認識処理の流れの説明）
次に、図２１を用いて、行動認識部３３５が行う特定行動の認識処理の流れを説明する。なお、図２１は、複数の特定行動を認識する処理の流れの一例を示すフローチャートである。特に図２１は、特定行動のうち、「歩く」行動を行った後で「棚入れ」行動を行ったことを認識する処理の流れを示す。

行動認識部３３５は、「歩く」行動を認識する（ステップＳ３１）。

次に、行動認識部３３５は、「歩く」行動を認識したかを判定する（ステップＳ３２）。「歩く」行動を認識したと判定される（ステップＳ３２：Ｙｅｓ）とステップＳ３１に進む。一方、「歩く」行動を認識したと判定されない（ステップＳ３２：Ｎｏ）とステップＳ３３に進む。

ステップＳ３２でＮｏと判定されると、行動認識部３３５は、「棚入れ」行動を認識する（ステップＳ３３）。

次に、行動認識部３３５は、「棚入れ」行動を認識したかを判定する（ステップＳ３４）。「棚入れ」行動を認識したと判定される（ステップＳ３４：Ｙｅｓ）と図２１の処理を終了して、図２０のステップＳ２７に進む。一方、「棚入れ」行動を認識したと判定されない（ステップＳ３４：Ｎｏ）とステップＳ３１に戻る。

なお、図２１に示すフローチャートは一例であって、行動認識部３３５は、認識する特定行動の種類や順序に応じた処理を行う。

以上説明したように、第１の実施形態の行動認識装置３００によれば、動画入力部３３１は、魚眼カメラ２００（撮影手段）で撮影された動画を入力して、領域分割部３３２は、動画に含まれる画像を、歪の異なる複数の領域に分割する。辞書作成部３３３は、分割された領域毎に、人（被写体）の特定行動を認識するための認識辞書を作成する。辞書選択部３３４は、辞書作成部３３３が作成した複数の認識辞書の中から、動画から検出した人の特定行動を認識するために使用する認識辞書を選択する。そして、行動認識部３３５は、辞書選択部３３４が選択した認識辞書に基づいて、人の特定行動を認識する。したがって、画像の領域毎に認識辞書を作成するため、撮影した画像の歪を補正することなく、人の特定行動（標準作業）を認識することができる。

また、第１の実施形態の行動認識装置３００によれば、辞書選択部３３４は、魚眼カメラ２００（撮影手段）が撮影した動画に含まれる画像から検出した人（被写体）の位置に応じた認識辞書を選択する。したがって、撮影した画像の歪を補正することなく、人の特定行動（標準作業）を認識することができる。

また、本実施形態の行動認識装置３００によれば、持続時間測定部３３６は、特定行動の認識結果に基づいて、当該特定行動の持続時間を測定する。したがって、特定行動（標準作業）の持続時間を容易かつ正確に測定することができる。

また、第１の実施形態の行動認識装置３００によれば、特徴点抽出部３３３ａは、魚眼カメラ２００（撮影手段）で撮影された動画に含まれる複数の画像の中から特徴点を抽出する。特徴点分類部３３３ｂは、抽出された特徴点をＫ種類に分類する。特徴ベクトル算出部３３３ｃは、分類されたＫ種類の特徴点グループに対して、それぞれのＫ個の平均ベクトルＶｋ（学習ベクトル）を求める。したがって、人（被写体）の特定行動を容易に学習することができる。

また、第１の実施形態の行動認識装置３００によれば、辞書作成部３３３は、動画入力部３３１によって入力された、特定行動を行っている人の動画（プラス学習データ）と、特定行動を行っていない人の動画（マイナス学習データ）とから、各データの特徴点が有する特徴量による平均ベクトルＶｋ（学習ベクトル）を用いて、それぞれ学習ヒストグラムＨ（ｋ）を作成して、プラス学習データから生成した学習ヒストグラムＨ（ｋ）と、マイナス学習データから生成した学習ヒストグラムＨ（ｋ）とに基づいて、認識辞書を作成する。したがって、認識辞書の精度を向上させることができる。

また、第１の実施形態の行動認識装置３００によれば、特徴点抽出部３３５ａは、魚眼カメラ２００（撮影手段）で撮影された動画に含まれる複数の画像の中から特徴点を抽出する。特徴ベクトル算出部３３５ｂは、抽出された特徴点における時空間エッジの大きさと方向を示す特徴ベクトルを算出する。ヒストグラム作成部３３５ｃは、抽出された特徴点の特徴ベクトルに基づいて、特定行動ヒストグラムＴ（ｋ）を作成する。そして、行動認識部３３５ｄは、特定行動ヒストグラムＴ（ｋ）と認識辞書が有する学習ヒストグラムＨ（ｋ）とに基づいて、人の特定行動を認識する。したがって、人（被写体）の特定行動を容易かつ正確に認識することができる。

また、第１の実施形態の行動認識装置３００によれば、特徴ベクトル算出部３３５ｂは、入力された複数の画像をＭ×Ｎ×Ｔサイズのフロックに分割し、各ブロックを微分処理することで、Ｍ×Ｎ×Ｔ×３次元のエッジ情報Ｅ（ｘ，ｙ，ｔ）（微分ベクトル）を計算する。そして、特徴ベクトル算出部３３５ｂは、計算したエッジ情報Ｅ（ｘ，ｙ，ｔ）と事前に学習したＫ種類の平均ベクトルＶｋ（学習ベクトル）とを比較し、当該比較の結果に基づいて、エッジ情報Ｅ（ｘ，ｙ，ｔ）を最も近い平均ベクトルＶｋと同じ種類の特徴点に分類する。ヒストグラム作成部３３５ｃは、分類の結果に基づいて特定行動ヒストグラムＴ（ｋ）を作成する、したがって、撮影された動画から、特定行動の認識に使用する特定行動ヒストグラムＴ（ｋ）を容易に作成することができる。

また、第１の実施形態の行動認識装置３００によれば、辞書作成部３３３及び行動認識部３３５は、入力された動画に対して、時間軸でのフィルタリング処理を行う。そして、特徴点抽出部３３３ａ，３３５ａは、フィルタリング処理を行った結果、Ｍ×Ｎ×Ｔのブロック内における平均値が所定の閾値より大きい場合に、当該ブロックを特徴点として抽出する。したがって、特徴点の抽出を容易に行うことができる。

また、本実施形態の行動認識装置３００によれば、フィルタリング処理は、式（２），式（３），式（４）に示したＧａｂｏｒフィルタリング処理によって行う。したがって、撮影された動画のノイズが除去されることによって、特定行動の認識を行いやすい画像を得ることができる。

また、第１の実施形態の行動認識装置３００によれば、特徴点抽出部３３３ａ，３３５ａは、時間軸でのフィルタリング処理を行う前に、各画像に対して平滑化処理を行う。したがって、時間軸方向に発生するノイズが除去されるため、人（被写体）の特定行動を、より一層高精度に認識することができる。

また、第１の実施形態の行動認識装置３００によれば、行動認識部３３５は、人の特定行動を認識する場合に、所定の順序で特定行動を認識し、特定行動が認識された場合は認識結果を出力して、特定行動が認識されない場合は、次の特定行動を認識する。したがって、複数の特定行動が連続して発生する場合であっても、確実に認識することができる。

また、第１の実施形態の行動認識装置３００によれば、広角レンズは、魚眼レンズである。したがって、１台のカメラでより一層広範囲を観測することができる。

（第２の実施形態）
次に、添付図面を参照して、行動認識装置、行動認識方法及びプログラムの第２の実施形態を詳細に説明する。

（行動認識装置のハードウェア構成の説明）
図２２は、本実施形態に係る行動認識システム１００ａのハードウェア構成の一例を示すハードウェアブロック図である。図２２に示すように、行動認識システム１００ａは、魚眼カメラ２００，２０１と、行動認識装置３００ａとを備える。

行動認識システム１００ａは、第１の実施形態で説明した行動認識システム１００と同様の機能を有し、魚眼カメラ２００，２０１で撮影した人（被写体）の特定行動を認識する。行動認識システム１００との違いは、２台の魚眼カメラ２００，２０１で撮影した動画を入力可能な点である。

なお、行動認識装置３００ａは、行動認識処理部３２１ａと、行動認識処理部３２１ａと魚眼カメラ２００，２０１とを接続するインタフェース部３２２ａと、を備える。

行動認識処理部３２１ａは、人（被写体）の特定行動を認識する。インタフェース部３２２ａは、魚眼カメラ２００，２０１が撮影した動画を、行動認識処理部３２１ａが認識可能なデータ形式に変換して、行動認識処理部３２１ａに受け渡す。

次に、図２３を用いて、行動認識システム１００ａが使われる代表的な場面を説明する。図２３は、第２の実施形態に係る行動認識システム１００ａが使用されている場面の一例を示す図である。

図２３に示すように、行動認識システム１００ａは、オフィスや工場などの職場における作業環境に設置される。魚眼カメラ２００，２０１は、作業環境において作業を行っている複数の人Ｈ１，Ｈ２を含む動画を撮影する。本実施形態では、魚眼カメラ２００，２０１は、いずれも対角線画角１８０°を有する魚眼レンズを備えるものとする。そして、２台の魚眼カメラ２００，２０１は、異なる方向から同じ作業環境を撮影する。なお、人Ｈ１，Ｈ２は、被写体の一例である。

第１の実施形態で説明した行動認識システム１００は、複数の作業員が作業している環境において、複数の人の所定行動を認識することが可能であるが、別の作業者の死角に入っている作業者は可視化することができないため、行動認識を行うことができなかった。これに対して、行動認識システム１００ａは、作業環境を異なる方向から観測するため、死角が少なくなり、複数の人の所定行動を、より確実に認識することができる。さらに、行動認識システム１００ａは、１人の作業者を２台の魚眼カメラ２００，２０１で撮影することができるため、より小さい歪で撮影された画像を用いて行動認識を行うことができる。

なお、行動認識システム１００ａのハードウェア構成は、魚眼カメラの台数が増える以外は、行動認識システム１００のハードウェア構成と同じであるため、説明は省略する。

（行動認識処理部の機能構成の説明）
次に、図２４を用いて、行動認識処理部３２１ａの機能構成を説明する。図２４は、第２の実施形態における行動認識処理部３２１ａの機能構成の一例を示す機能ブロック図である。図２４に示すように、行動認識処理部３２１ａは、第１の実施形態で説明した行動認識処理部３２１の機能構成（図１２）に加えて、同一人物判定部３３７を備える。また行動認識処理部３２１ａは、辞書選択部３３４の代わりに、機能が変更された辞書選択部３３４ａを備える。

辞書選択部３３４ａは、魚眼カメラ２００，２０１が、それぞれ同じ人を撮影した際に、行動認識を行うために使用する画像に応じた認識辞書を選択する。具体的には、辞書選択部３３４ａは、魚眼カメラ２００，２０１が撮影した画像における同一人物の位置を比較して、より画像の中央に近い位置に写っている人の特定行動を認識するための認識辞書、すなわち、より歪の小さい位置で作成された認識辞書を選択する。なお、魚眼カメラ２００，２０１が撮影した画像に同一人物が写っているかは、後述する同一人物判定部３３７が判定する。

同一人物判定部３３７は、魚眼カメラ２００，２０１がそれぞれ撮影した画像の中に同一人物が写っているかを判定する。具体的には、同一人物判定部３３７は、魚眼カメラ２００，２０１がそれぞれ撮影した画像から抽出された特徴点に基づく特徴ベクトルを比較することによって、特徴ベクトルの種類と特徴ベクトルの向きが類似している場合に、同一人物が写っていると判定する。

（行動認識処理の流れの説明）
次に、図２５を用いて、行動認識処理部３２１ａが行う行動認識処理の流れを説明する。なお、図２５は、第２の実施形態における特定行動の認識処理の流れの一例を示すフローチャートである。

ステップＳ４１からステップＳ４４は、第１の実施形態で説明したステップＳ２１からステップＳ２４（図２０）と同じ処理である。

次に、同一人物判定部３３７は、魚眼カメラ２００，２０１がそれぞれ撮影した画像の中から、同一人物を表す領域を特定する（ステップＳ４５）。

続いて、辞書選択部３３４ａは、ステップＳ４５で特定された同一人物を表す領域のうち、最も画像の中央に近い位置にある領域を撮影した魚眼カメラを特定して、当該位置に対応する認識辞書を選択する（ステップＳ４６）。なお、ステップＳ４５において、同一人物を表す領域が特定できなかった場合は、辞書選択部３３４ａは、検出された各領域にそれぞれ対応する認識辞書を選択する。

続くステップＳ４７からステップＳ４９で行う処理は、第１の実施形態で説明したステップＳ２６からステップＳ２９（図２０）と同じ処理である。

以上説明したように、第２の実施形態の行動認識装置３００ａは、複数の魚眼カメラ２００，２０１（撮影手段）が、同じ領域を異なる方向から撮影する。したがって、観測範囲の死角が減少する。また、同じ人（被写体）を異なる方向から撮影することができるため、行動認識の認識精度を向上させることができる。

また、第２の実施形態の行動認識装置３００ａによれば、辞書選択部３３４ａは、複数の魚眼カメラ２００，２０１（撮影手段）が撮影した動画に含まれる画像からそれぞれ検出した同じ人（被写体）の位置に応じた認識辞書のうち、最も歪の小さい認識辞書を選択する。したがって、特定行動の認識精度を向上させることができる。

また、第２の実施形態の行動認識装置３００ａによれば、辞書選択部３３４ａは、複数の魚眼カメラ２００，２０１（撮影手段）が撮影した動画に含まれる画像からそれぞれ検出した同じ人の位置に応じた認識辞書のうち、画像の中央に近い位置に対応する認識辞書を選択する。したがって、歪の小さい位置で作成された認識辞書が選択されるため、特定行動の認識精度を向上させることができる。

以上、本発明の実施の形態について説明したが、上述した実施の形態は、例として提示したものであり、本発明の範囲を限定することは意図していない。この新規な実施の形態は、その他の様々な形態で実施されることが可能である。また、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。また、この実施の形態は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。

２００，２０１魚眼カメラ（撮影手段）
３００，３００ａ行動認識装置
３２１，３２１ａ行動認識処理部
３３１動画入力部
３３２領域分割部
３３３辞書作成部
３３４辞書選択部
３３５行動認識部
３３６持続時間測定部
３３３ａ，３３５ａ特徴点抽出部
３３３ｂ特徴点分類部
３３３ｃ，３３５ｂ特徴ベクトル算出部
３３３ｄヒストグラム作成部（学習ヒストグラム作成部）
３３５ｃヒストグラム作成部
３３３ｅ認識辞書作成部
３３５ｄ行動認識部
Ｈ１，Ｈ２人（被写体）
Ｈ（ｋ）学習ヒストグラム
Ｔ（ｋ）特定行動ヒストグラム
Ｖｋ平均ベクトル（学習ベクトル）

特開２０１１－１００１７５号公報

Claims

撮影した認識対象となる動画から、当該動画に写った被写体の特定行動を認識する行動認識装置であって、
広角レンズを備えて、同じ領域を異なる方向から撮影する複数の撮影手段が、当該撮影手段の観測範囲の中の歪の異なる複数の位置で特定行動を行っている被写体をそれぞれ撮影した動画を入力する第１の動画入力部と、
前記複数の撮影手段によって、認識対象となる動画を入力する第２の動画入力部と、
前記第１の動画入力部および前記第２の動画入力部が入力した動画に含まれる画像を、それぞれ、歪の異なる複数の領域に分割する領域分割部と、
前記第１の動画入力部が入力した動画から、前記撮影手段毎および前記領域毎に、前記被写体の特定行動を認識するための認識辞書を作成する辞書作成部と、
異なる前記撮影手段から入力された前記認識対象となる動画に含まれる画像の前記領域からそれぞれ検出された同じ被写体の位置に応じて、前記辞書作成部が、前記撮影手段毎および前記領域毎に作成した複数の認識辞書の中から、最も歪の小さい認識辞書を選択する辞書選択部と、
前記辞書選択部が選択した認識辞書に基づいて、前記被写体の特定行動を認識する行動認識部と、
を備える行動認識装置。
前記辞書選択部は、前記第２の動画入力部が入力した前記認識対象となる動画に含まれる画像からそれぞれ検出した同じ被写体の位置に応じた前記認識辞書のうち、画像の中央に近い位置に対応する認識辞書を選択する、
請求項１に記載の行動認識装置。
前記特定行動の認識結果に基づいて、当該特定行動の持続時間を測定する持続時間測定部を更に備える、
請求項１又は請求項２に記載の行動認識装置。
前記辞書作成部は、
前記第１の動画入力部が入力した前記動画に含まれる複数の画像の中から特徴点を抽出する特徴点抽出部と、
抽出された前記特徴点をＫ種類に分類する特徴点分類部と、
分類されたＫ種類の特徴点グループに対して、それぞれのＫ個の学習ベクトルを求める特徴ベクトル算出部と、
前記学習ベクトルの出現頻度を表す学習ヒストグラムを作成する学習ヒストグラム作成部と、を備える
請求項１から請求項３のいずれか１項に記載の行動認識装置。
前記学習ヒストグラム作成部は、
前記第１の動画入力部によって入力された、プラス学習データを構成する、前記特定行動を行っている被写体の動画と、マイナス学習データを構成する、前記特定行動を行っていない被写体の動画とから、各データの特徴点が有する特徴量による前記学習ベクトルを用いて、それぞれ学習ヒストグラムを作成して、
前記辞書作成部は、
前記プラス学習データから生成した学習ヒストグラムと、前記マイナス学習データから生成した学習ヒストグラムとに基づいて、前記認識辞書を作成する、
請求項４に記載の行動認識装置。
前記行動認識部は、
前記第２の動画入力部が入力した前記認識対象となる動画に含まれる複数の画像の中から特徴点を抽出する特徴点抽出部と、
抽出された前記特徴点における時空間エッジの大きさと方向を示す特徴ベクトルを算出する特徴ベクトル算出部と、
前記特徴点における前記特徴ベクトルの出現頻度を表すヒストグラムを作成するヒストグラム作成部と、を備えて、
前記ヒストグラムと、前記認識辞書とに基づいて、前記被写体の特定行動を認識する、
請求項４又は請求項５に記載の行動認識装置。
前記特徴ベクトル算出部は、
入力された複数の画像をＭ×Ｎ×Ｔサイズのフロックに分割し、各ブロックを微分処理することで、Ｍ×Ｎ×Ｔ×３次元の微分ベクトルを計算して、
計算した前記微分ベクトルと事前に学習した前記学習ベクトルとを比較し、当該比較の結果に基づいて前記微分ベクトルを最も近い前記学習ベクトルと同じ種類の特徴点に分類して、
前記ヒストグラム作成部は、
当該分類の結果に基づいて前記ヒストグラムを作成する、
請求項６に記載の行動認識装置。
前記辞書作成部及び前記行動認識部は、
前記第１の動画入力部が入力した前記動画、および前記第２の動画入力部が入力した前記認識対象となる動画に対して、時間軸でのフィルタリング処理を行い、
前記特徴点抽出部は、
前記フィルタリング処理を行った結果、Ｍ×Ｎ×Ｔのブロック内における平均値が所定の閾値より大きい場合に、前記ブロックを特徴点として抽出する、
請求項４から請求項７のいずれか１項に記載の行動認識装置。
ｇ_ｅｖ及びｇ_ｏｄを、以下の式（１）及び式（２）で示されるＧａｂｏｒフィルタのカーネルとし、＊を畳み込み処理とし、τ及びωを前記カーネルのパラメータとした場合、前記フィルタリング処理は、以下の式（３）を用いたＧａｂｏｒフィルタリング処理である、

請求項８に記載の行動認識装置。
前記特徴点抽出部は、
前記フィルタリング処理を行う前に、各画像に対して平滑化処理を行う、
請求項８又は請求項９に記載の行動認識装置。
前記行動認識部は、
前記被写体の特定行動を認識する場合に、所定の順序で特定行動を認識し、特定行動が認識された場合は認識結果を出力して、
特定行動が認識されない場合は、次の特定行動を認識する、
請求項１から請求項１０のいずれか１項に記載の行動認識装置。
前記広角レンズは、魚眼レンズである、
請求項１から請求項１１のいずれか１項に記載の行動認識装置。
撮影した認識対象となる動画から、当該動画に写った被写体の特定行動を認識する際に、
広角レンズを備えて、同じ領域を異なる方向から撮影する複数の撮影手段が、当該撮影手段の観測範囲の中の歪の異なる複数の位置で特定行動を行っている被写体をそれぞれ撮影した動画を入力する第１の動画入力ステップと、
前記複数の撮影手段によって、認識対象となる動画を入力する第２の動画入力ステップと、
前記第１の動画入力ステップおよび前記第２の動画入力ステップで入力した動画に含まれる画像を、それぞれ、歪の異なる複数の領域に分割する領域分割ステップと、
前記第１の動画入力ステップで入力した動画から、前記撮影手段毎、および前記領域毎に、前記被写体の特定行動を認識するための認識辞書を作成する辞書作成ステップと、
異なる前記撮影手段から入力された前記認識対象となる動画に含まれる画像の前記領域からそれぞれ検出された同じ被写体の位置に応じて、前記辞書作成ステップが、前記撮影手段毎および前記領域毎に作成した複数の認識辞書の中から、最も歪の小さい認識辞書を選択する辞書選択ステップと、
前記辞書選択ステップで選択した認識辞書に基づいて、前記被写体の特定行動を認識する行動認識ステップと、
を実行する行動認識方法。
撮影した認識対象となる動画から、当該動画に写った被写体の特定行動を認識する行動認識装置を制御するコンピュータを、
広角レンズを備えて、同じ領域を異なる方向から撮影する複数の撮影手段が、当該撮影手段の観測範囲の中の歪の異なる複数の位置で特定行動を行っている被写体をそれぞれ撮影した動画を入力する第１の動画入力部と、
前記複数の撮影手段によって、認識対象となる動画を入力する第２の動画入力部と、
前記第１の動画入力部および前記第２の動画入力部が入力した動画に含まれる画像を、それぞれ、歪の異なる複数の領域に分割する領域分割部と、
前記第１の動画入力部が入力した動画から、前記撮影手段毎および前記領域毎に、前記被写体の特定行動を認識するための認識辞書を作成する辞書作成部と、
異なる前記撮影手段から入力された前記認識対象となる動画に含まれる画像の前記領域からそれぞれ検出された同じ被写体の位置に応じて、前記辞書作成部が、前記撮影手段毎および前記領域毎に作成した複数の認識辞書の中から、最も歪の小さい認識辞書を選択する辞書選択部と、
前記辞書選択部が選択した認識辞書に基づいて、前記被写体の特定行動を認識する行動認識部と、
して機能させるプログラム。