JP2018013913A

JP2018013913A - 行動認識装置、行動認識方法、学習方法、およびプログラム

Info

Publication number: JP2018013913A
Application number: JP2016142414A
Authority: JP
Inventors: チョンフィファン; Jeong Hui Hwang; 一真山本; Kazuma Yamamoto; 増田　誠; Makoto Masuda; 誠増田
Original assignee: Oki Electric Industry Co Ltd
Current assignee: Oki Electric Industry Co Ltd
Priority date: 2016-07-20
Filing date: 2016-07-20
Publication date: 2018-01-25

Abstract

【課題】行動認識において動作速度の差を吸収した特徴抽出を実現する。【解決手段】入力された時系列の複数のフレーム画像からなる動画像から算出された動物体の移動量に基づいて、前記動画像の特徴を抽出する特徴抽出部と、前記動画像の特徴に基づいて前記動物体の行動を識別する識別部と、を備え、前記特徴抽出部は、前記移動量の大きさに基づく間隔で選択した前記フレーム画像を用いて、前記動画像の特徴を抽出する、行動認識装置が提供される。【選択図】図４

Description

本発明は、行動認識装置、行動認識方法、学習方法、およびプログラムに関する。

近年、撮像装置を利用した監視システムなどにおいて、撮像された動画像を解析することにより、動画像中の人物による種々の行動を認識する手法が提案されている。

例えば、特許文献１には、動画像を構成する所定枚数のフレーム画像から抽出したＣＨＬＡＣ（ＣｕｂｉｃＨｉｇｈｅｒ−ｏｒｄｅｒＬｏｃａｌＡｕｔｏ−Ｃｏｒｒｅｌａｔｉｏｎ）特徴を多変量解析手法により変換し、予め保存される学習データと比較することで、行動の識別を行う技術が開示されている。

また、例えば、特許文献２には、動画像を構成する所定枚数のフレーム画像から抽出したＣＨＬＡＣ特徴を主成分分析手法により変換し、予め登録される正常データと比較することで、異常検知を行う技術が開示されている。

特開２００５−９２３４６号公報特開２００６−７９２７２号公報

しかし、特許文献１および特許文献２に開示される技術では、ＣＨＬＡＣ特徴の抽出に、予め静的に設定された条件に基づき選択されたフレーム画像を用いている。このため、撮像された複数の動作が本来同一である場合であっても、それぞれの動作の速度が異なる場合、異なる特徴が抽出されてしまう問題があった。

そこで、本発明は、上記問題に鑑みてなされたものであり、本発明の目的とするところは、行動認識において動作速度の差を吸収した特徴抽出を実現することが可能な、新規かつ改良された行動認識装置、行動認識方法、学習方法、およびプログラムを提供することにある。

上記課題を解決するために、本発明のある観点によれば、入力された時系列の複数のフレーム画像からなる動画像から算出された動物体の移動量に基づいて、前記動画像の特徴を抽出する特徴抽出部と、前記動画像の特徴に基づいて前記動物体の行動を識別する識別部と、を備え、前記特徴抽出部は、前記移動量の大きさに基づく間隔で選択した前記フレーム画像を用いて、前記動画像の特徴を抽出する、行動認識装置が提供される。

前記特徴抽出部は、前記移動量が小さいほど、前記フレーム画像の選択に係る間隔を大きく設定してもよい。

前記特徴抽出部は、前記動画像のＣＨＬＡＣ特徴あるいはＳＴ−ｐａｔｃｈ特徴を抽出してもよい。

前記識別部は、部分空間法を用いて前記動物体の行動を識別してもよい。

前記動画像の特徴と前記動物体の行動とを関連付けて学習を行う学習部、をさらに備えてもよい。

前記特徴抽出部は、前記移動量の大きさが所定の基準を上回ることに基づいて、時系列の前記フレーム画像間を補間する補間フレーム画像を生成し、前記フレーム画像と前記補間フレーム画像とを用いて前記動画像の特徴を抽出してもよい。

入力された前記動画像における前記動物体の前記移動量を算出する算出部、をさらに備えてもよい。

前記算出部は、前記動物体の行動の対象となる装置から取得される外部情報に基づいて前記移動量を算出してもよい。

また、上記課題を解決するために、本発明の別の観点によれば、コンピュータを、入力された時系列の複数のフレーム画像からなる動画像から算出された動物体の移動量に基づいて、前記動画像の特徴を抽出する特徴抽出部と、前記動画像の特徴に基づいて前記動物体の行動を識別する識別部と、を備え、前記特徴抽出部は、前記移動量の大きさに基づく間隔で選択した前記フレーム画像を用いて、前記動画像の特徴を抽出する、行動認識装置、として機能させるためのプログラムが適用される。

また、上記課題を解決するために、本発明の別の観点によれば、入力された時系列の複数のフレーム画像からなる動画像から算出された動物体の移動量に基づいて、前記動画像の特徴を抽出することと、前記動画像の特徴に基づいて前記動物体の行動を識別することと、を含み、前記抽出することは、前記移動量の大きさに基づく間隔で選択した前記フレーム画像を用いて、前記動画像の特徴を抽出すること、をさらに含む、行動認識方法が提供される。

また、上記課題を解決するために、本発明の別の観点によれば、入力された時系列の複数のフレーム画像からなる動画像から算出された動物体の移動量に基づいて、前記動画像の特徴を抽出することと、前記動画像の特徴と前記動物体の行動とを関連付けて学習することと、を含み、前記抽出することは、前記移動量の大きさに基づく間隔で選択した前記フレーム画像を用いて、前記動画像の特徴を抽出すること、をさらに含む、学習方法が提供される。

以上説明したように本発明によれば、行動認識において動作速度の差を吸収した特徴抽出を実現することが可能となる。

本発明の第１の実施形態に係る利用イメージを示す図である。同実施形態に係る動物体の移動量について説明するための図である。同実施形態に係る動物体の移動量について説明するための図である。同実施形態に係る行動認識装置の機能ブロック図である。同実施形態に係るオプティカルフローの算出について説明するための図である。同実施形態に係る動物体の動作速度が通常である場合の特徴抽出について説明する図である。同実施形態に係る動物体の動作速度が遅い場合の特徴抽出について説明する図である。同実施形態に係る動物体の動作速度が速い場合の特徴抽出について説明する図である。従来手法により抽出したＣＨＬＡＣ特徴を特徴空間に射影した一例である。同実施形態に係る手法により抽出したＣＨＬＡＣ特徴を特徴空間に射影した一例である。同実施形態に係る行動認識装置による行動認識の流れを示すフローチャートである。同実施形態に係る移動量算出部による動物体の移動量算出の流れを示すフローチャートである。同実施形態に係る行動辞書の作成の流れを示すフローチャートである。本発明の第２の実施形態に係る行動認識装置の機能ブロック図である。同実施形態に係る行動認識装置による行動認識の流れを示すフローチャートである。同実施形態に係る移動量算出部による動物体の移動量算出の流れを示すフローチャートである。同実施形態に係る行動辞書の作成の流れを示すフローチャートである。本発明に係る行動認識装置のハードウェア構成例である。

以下に添付図面を参照しながら、本発明の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。

＜１．第１の実施形態＞
［１．１．第１の実施形態の概要］
まず、本発明の第１の実施形態の概要について説明する。上述したとおり、本発明は、動画像を用いた行動認識において、撮像された動物体の動作速度に依存しない特徴を抽出することができる。すなわち、本発明は、種々の行動における動作速度に関する動作主体の個体差を吸収することを可能とする。

図１は、本実施形態に係る利用イメージを説明するための概念図である。図１を参照すると、本実施形態に係る行動認識システムは、例えば、撮像装置１０、操作端末２０、および行動認識装置３０を備える。また、撮像装置１０、操作端末２０、および行動認識装置３０は、それぞれ通信が行えるようにネットワーク４０を介して接続される。

（撮像装置１０）
本実施形態に係る撮像装置１０は、動画像を取得することが可能な種々の装置により実現され得る。本実施形態に係る撮像装置１０は、例えば、操作端末２０の周辺または操作端末２０に一体に設置される監視カメラであってもよい。撮像装置１０は、操作端末２０を操作するユーザＵ１による動作を撮像する機能を有する。この際、本実施形態に係る撮像装置１０は、時系列の複数のフレーム画像からなる動画像を撮像してよい。撮像装置１０は、例えば、図１に示すように、ユーザＵ１が操作端末２０を操作する際の指、手、腕の動作などを撮像することができる。

（操作端末２０）
本実施形態に係る操作端末２０は、ユーザＵ１の操作対象となる種々の装置により実現され得る。本実施形態に係る操作端末２０は、例えば、ＡＴＭ（ＡｕｔｏｍａｔｅｄＴｅｌｌｅｒＭａｃｈｉｎｅ）や、キャッシュディスペンサーなどの自動取引装置であってもよい。以下の説明では、操作端末２０がＡＴＭである場合を例に説明する。

（行動認識装置３０）
本実施形態に係る行動認識装置３０は、撮像装置１０により取得された動画像を解析し、ユーザＵ１の行動を識別する機能を有する。具体的には、本実施形態に係る行動認識装置３０は、上記の動画像から抽出した特徴と学習済みの行動辞書とを照合することで、ユーザＵ１の行動を識別することができる。本実施形態に係る行動認識装置３０は、上記の機能を有する種々の情報処理装置であってよい。

また、本実施形態に係る行動認識装置３０は、動画像を用いた行動認識において、動物体の移動量、すなわち動作主体の動作速度に関する個体差を吸収することを可能とする。

図２および図３は、本実施形態に係る動物体の移動量について説明するための図である。図２および図３には、ユーザＵ１が操作端末２０にＡＴＭ専用カード２１０を挿入する行動が、それぞれ異なる動作速度で示されている。すなわち、図２には、ユーザＵ１がＡＴＭ専用カード２１０を比較的早い速度で挿入する場合の例が示され、図３には、ユーザＵ１がＡＴＭ専用カード２１０を比較的遅い速度で挿入する場合の例が示されている。

図２および図３に示すように、操作端末２０に対する動作主体の動作速度は、動作主体の特性（例えば、年齢、体格、健康状態、性別など）や状況などにより変化し得る。このため、動画像を用いた行動認識においては、動作主体の動作速度に依存しない特徴抽出方法が求められる。

本実施形態に係る行動認識装置３０は、上記の点に着目して発想されたものであり、動画像から算出された動物体の移動量に基づいて、特徴抽出に用いるフレーム画像を動的に選択することが可能である。より具体的には、行動認識装置３０は、動物体の移動量の大きさに基づく間隔で選択したフレーム画像を用いて、動画像の特徴を抽出することができる。行動認識装置３０が有する上記機能の詳細については、後述する。

（ネットワーク４０）
ネットワーク４０は、撮像装置１０、操作端末２０、および行動認識装置３０を接続する機能を有する。ネットワーク４０は、インターネット、電話回線網、衛星通信網などの公衆回線網や、Ｅｔｈｅｒｎｅｔ（登録商標）を含む各種のＬＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）、ＷＡＮ（ＷｉｄｅＡｒｅａＮｅｔｗｏｒｋ）などを含んでもよい。また、ネットワーク４０は、ＩＰ−ＶＰＮ（ＩｎｔｅｒｎｔＰｒｏｔｏｃｏｌ−ＶｉｒｔｕａｌＰｒｉｖａｔｅＮｅｔｗｏｒｋ）などの専用回線網を含んでもよい。また、ネットワーク４０は、Ｗｉ−Ｆｉ（登録商標）、Ｂｌｕｅｔｏｏｔｈ（登録商標）など無線通信網を含んでもよい。

［１．２．第１の実施形態に係る行動認識装置３０］
次に、本発明の第１の実施形態に係る行動認識装置３０の機能構成例について説明する。図４は、本実施形態に係る行動認識装置３０の機能ブロック図の一例である。図４を参照すると、本実施形態に係る行動認識装置３０は、動画読込部３１０、移動量算出部３２０、特徴抽出部３３０、学習部３４０、識別部３５０、出力制御部３６０、および行動辞書３７０を備える。以下、上記の各構成について詳細に説明する。

（動画読込部３１０）
動画読込部３１０は、撮像装置１０により撮像された動画像の読み込みを行う機能を有する。この際、動画読込部３１０は、入力される動画像を時系列のデータに変換することができる。すなわち、動画読込部３１０は、動画像を構成する時系列のフレーム画像（静止画像）を一枚ずつ読み込むことができる。動画読込部３１０は、上記の時系列のフレーム画像を移動量算出部３２０および特徴抽出部３３０に出力する。

（移動量算出部３２０）
移動量算出部３２０は、動画読込部３１０から入力された時系列のフレーム画像に基づいて、動物体の移動量を算出する機能を有する。この際、移動量算出部３２０は、例えば、オプティカルフローを用いて、動物体の移動量を算出してよい。移動量算出部３２０による移動量算出の詳細については、後述する。

（特徴抽出部３３０）
特徴抽出部３３０は、動画読込部３１０から入力された時系列のフレーム画像に基づいて、動画像の特徴を抽出する機能を有する。この際、本実施形態に係る特徴抽出部３３０は、移動量算出部３２０により算出された動物体の移動量に基づいて、上記の特徴抽出を行うことができる。具体的には、本実施形態に係る特徴抽出部３３０は、動物体の移動量の大きさに基づく間隔で選択したフレーム画像を用いて、動画像の特徴を抽出してよい。例えば、特徴抽出部３３０は、動物体の移動量が小さいほど、フレーム画像の選択に係る間隔を大きく設定してもよい。

また、本実施形態に係る特徴抽出部３３０は、例えば、動物体の「形」および「動き」を表すＣＨＬＡＣ特徴抽出を利用することができる。または、本実施形態に係る特徴抽出部３３０は、ＳＴ−ｐａｔｃｈ特徴を利用してもよい。以降の説明では、特徴抽出部３３０がＣＨＬＡＣ特徴を抽出する場合を例に説明する。なお、本実施形態に係るＣＨＬＡＣ特徴抽出の詳細については、後述する。

また、本実施形態に係る特徴抽出部３３０は、上記のＣＨＬＡＣ特徴を行動識別に有効な特徴空間に変換する機能を有する。特徴抽出部３３０は、例えば、特許文献２に記載されるような主成分分析などを用いて上記の変換を行うことができる。

（学習部３４０）
学習部３４０は、特徴抽出部３３０が抽出したＣＨＬＡＣ特徴と動物体の行動とを関連付けて学習を行う機能を有する。すなわち、本実施形態に係る学習部３４０は、上記のＣＨＬＡＣ特徴に基づいて、予め設定された行動を識別するモデル学習を行い、当該モデル学習の結果を行動辞書３７０に記憶させることができる。

（識別部３５０）
識別部３５０は、特徴抽出部３３０が抽出したＣＨＬＡＣ特徴と予め学習により作成された行動辞書３７０とに基づいて、動物体の行動を識別する機能を有する。また、本実施形態に係る識別部３５０は、例えば、部分空間法を用いて、動物体の行動を識別してもよい。識別部３５０による行動識別の詳細については、後述する。

（出力制御部３６０）
出力制御部３６０は、識別部３５０により識別された識別結果の出力を制御する機能を有する。出力制御部３６０は、例えば、行動認識装置３０の内部または外部に備えられる表示装置（図示しない）に、上記の識別結果を表示させてもよい。また、出力制御部３６０は、上記の識別結果に異常が認められる場合、接続されるスピーカなどにアラート音などを出力させてもよい。

（行動辞書３７０）
行動辞書３７０は、学習部３４０によるモデル学習の結果を記憶する機能を有する。本実施形態に係る行動辞書３７０は、例えば、学習が行われる行動（ＡＴＭ専用カードの挿入やピンパッドの操作など）ごとに生成されてもよい。

以上、本実施形態に係る行動認識装置３０の機能構成例について説明した。上述したとおり、本実施形態に係る行動認識装置３０は、動物体の移動量の大きさに基づく間隔で選択したフレーム画像を用いて動画像の特徴を抽出することを特徴の一つとする。本実施形態に係る行動認識装置３０が有する上記の特徴によれば、動作主体の動作速度に依存しない特徴抽出が可能となり、行動識別の精度を向上させることが可能となる。

なお、上記で説明した機能構成はあくまで一例であり、本実施形態に係る行動認識装置３０の機能構成は、係る例に限定されない。例えば、行動辞書３７０は、行動認識装置３０の外部に備えられてもよい。本実施形態に係る行動認識装置３０の機能構成は、システムの運用や仕様、データ量などに応じて柔軟に変更され得る。

［１．３．移動量算出の詳細］
次に、本実施形態に係る移動量算出の詳細について説明する。上述したとおり、本実施形態に係る移動量算出部３２０は、オプティカルフローを用いて、動物体の移動量を算出することができる。

図５は、本実施形態に係るオプティカルフローの算出について説明するための図である。図５を参照すると、本実施形態に係る移動量算出部３２０は、入力された現時点のフレーム画像Ｉ（ｘ，ｙ，ｔ）と直前のフレーム画像Ｉ（ｘ，ｙ，ｔ−１）とから、各ピクセルのオプティカルフロー（移動ベクトル）ＯＦ（ｘ，ｙ，ｔ）を求める。ここで、上記のｘおよびｙはフレーム画像中の座標を示す値であってよい。なお、この際、移動量算出部３２０は、Ｌｕｃａｓ−Ｋａｎａｄｅ法によるオプティカルフローの算出を行ってもよい。また、移動量算出部３２０は、算出したオプティカルフローをバッファに保持する。

移動量算出部３２０は、読み込まれたフレーム画像の数が所定数Ｎを超えるまで、上記の処理を繰り返し実行する。図５に示す一例では、移動量算出部３２０は、フレーム画像Ｉ（ｘ，ｙ，ｔ−１）とフレーム画像Ｉ（ｘ，ｙ，ｔ−２）、およびフレーム画像Ｉ（ｘ，ｙ，ｔ−Ｎ＋２）とフレーム画像Ｉ（ｘ，ｙ，ｔ−Ｎ＋１）から、それぞれオプティカルフローＯＦ（ｘ，ｙ，ｔ−１）およびオプティカルフローＯＦ（ｘ，ｙ，ｔ−Ｎ＋２）を算出している。

ここで、読み込まれたフレーム画像の数が所定数Ｎを超えた場合、移動量算出部３２０は、バッファに保持するオプティカルフローから移動量の算出を行う。この際、移動量算出には、各ピクセルの２フレーム間における移動量ベクトルの強度をＮフレーム分足し合わせ全画像で合計した値などが利用されてもよい。

具体的には、フレーム画像Ｉ（ｘ，ｙ，τ）とフレーム画像Ｉ（ｘ，ｙ，τ−１）とから算出されたオプティカルフローがＯＦ（ｘ，ｙ，τ）である場合、移動量算出部３２０は、下記の数式（１）を用いて、移動量Ｄｉｓ（ｔ，ｔ−Ｎ＋１）を算出することができる。

［１．４．特徴抽出の詳細］
次に、本実施形態に係る特徴抽出の詳細について説明する。上述したとおり、本実施形態に係る特徴抽出部３３０は、移動量算出部３２０により算出された動物体の移動量に基づいて、ＣＨＬＡＣ特徴の抽出を行うことができる。図６〜図８は、本実施形態に係る動物体の移動量に基づく特徴抽出を説明するための図である。

ここで、図６は、動物体の移動量が１．０である場合における特徴抽出を示す図である。図７は、上記の移動量が０．５である場合における特徴抽出を示す図である。また、図８は、上記の移動量が２．０である場合における特徴抽出を示す図である。なお、上記に示す移動量の値は相対値であり、例えば、移動量が０．５である場合は、移動量が１．０である場合に比べ、同じ動作に２倍の時間を要することを表している。

まず、図６を参照して、動物体の動作速度が通常である場合、すなわち、動物体の移動量が１．０である場合における特徴抽出について説明する。図６の上部には、動画読込部３１０から入力されたフレーム画像が時系列に示されている。また、図６の下部には、入力されたフレーム画像のうち、動物体が撮像されているフレーム画像が示されており、各フレーム画像中の星は、撮像された動物体を表している。すなわち、図６に示す一例では、動物体が画像左下から右上に向かって移動していることがわかる。なお、図６に示される矢印は時間方向を示している。

図６に示すように、動物体の移動量が１．０である場合、本実施形態に係る特徴抽出部３３０は、ＣＨＬＡＣ特徴の抽出に際し、時系列に連続した３枚のフレーム画像を選択してよい。図６に示す一例では、特徴抽出部３３０は、フレーム画像Ｉ（ｔ）、フレーム画像Ｉ（ｔ−１）、およびフレーム画像Ｉ（ｔ−２）を選択し、当該フレーム画像を用いてＣＨＬＡＣ特徴を抽出することができる。なお、図６において、ハッチングが施されたフレーム画像は、特徴抽出部３３０により選択されたフレーム画像、すなわち、ＣＨＬＡＣ特徴の抽出に用いられるフレーム画像を示している。

次に、図７を参照して、動物体の動作速度が遅い場合、すなわち、動物体の移動量が０．５である場合における特徴抽出について説明する。図７の上部には、図６と同様に動画読込部３１０から入力されたフレーム画像が時系列に示され、図７の下部には、入力されたフレーム画像のうち、動物体が撮像されているフレーム画像が示されている。

図７に示すように、動物体の移動量が０．５である場合、本実施形態に係る特徴抽出部３３０は、時系列に連続した３枚のフレーム画像ではなく、時系列に入力された複数のフレーム画像から１枚おきに選択した３枚のフレーム画像を用いてＣＨＬＡＣ特徴を抽出する。

図７に示す一例では、特徴抽出部３３０は、フレーム画像Ｉ（ｔ）、フレーム画像Ｉ（ｔ−２）、およびフレーム画像Ｉ（ｔ−４）を選択し、当該フレーム画像を用いてＣＨＬＡＣ特徴を抽出することができる。なお、図７において、ハッチングが施されたフレーム画像は、特徴抽出部３３０により選択されたフレーム画像、すなわち、ＣＨＬＡＣ特徴の抽出に用いられるフレーム画像を示している。

ここで、移動量が１．０である場合に選択されたフレーム画像と、移動量が０．５である場合に選択されたフレーム画像とを比較すると、フレーム画像中の動物体の位置が両者で一致していることがわかる。すなわち、移動量が０．５である場合に選択されたフレーム画像Ｉ（ｔ−２）は、移動量が１．０である場合に選択されたフレーム画像Ｉ（ｔ−１）に一致する。また、移動量が０．５である場合に選択されたフレーム画像Ｉ（ｔ−４）は、移動量が１．０である場合に選択されたフレーム画像Ｉ（ｔ−２）に一致する。

このように、本実施形態に係る特徴抽出部３３０は、移動量の大きさに基づく間隔で選択したフレーム画像を用いてＣＨＬＡＣ特徴を抽出することで、動物体の動作速度の差を吸収することが可能である。なお、図７では、移動量が０．５である場合の特徴抽出について例示したが、本実施形態に係る特徴抽出部３３０は、例えば、移動量が０．５未満である場合においても、移動量の大きさに基づく間隔で選択したフレーム画像を用いてＣＨＬＡＣ特徴を抽出することができる。すなわち、本実施形態に係る特徴抽出部３３０は、動物体の移動量が小さいほど、フレーム画像の選択に係る間隔を大きく設定することで、移動量が通常の場合と同様のフレーム画像を選択することが可能である。

次に、図８を参照して、動物体の動作速度が速い場合、すなわち、動物体の移動量が２．０である場合における特徴抽出について説明する。図８の上部には、図６及び図７と同様に動画読込部３１０から入力されたフレーム画像が時系列に示され、図８の下部には、入力されたフレーム画像のうち、動物体が撮像されているフレーム画像が示されている。

図８の上部に示すように、動物体の移動量が２．０である場合、本実施形態に係る特徴抽出部３３０は、時系列に連続した２枚のフレーム画像を選択してよい。また、この際、本実施形態に係る特徴抽出部３３０は、選択したフレーム画像間を補間する補間フレーム画像を生成することができる。図８の下部には、特徴抽出部３３０が選択した時系列の２枚のフレーム画像Ｉ（ｔ）とＩ（ｔ−１）、および当該２枚のフレーム画像間を補間する補間フレーム画像Ｉ（ｃ）が示されている。

このように、本実施形態に係る特徴抽出部３３０は、移動量の大きさが所定の基準を上回ることに基づいて、時系列のフレーム画像間を補間する補間フレーム画像を生成し、当該時系列のフレーム画像と補間フレーム画像とを用いてＣＨＬＡＣ特徴を抽出することができる。

本実施形態に係る特徴抽出部３３０が有する上記の機能によれば、移動量が大きい場合においても、移動量が通常である場合と同様のＣＨＬＡＣ特徴を抽出することが可能となる。

なお、特徴抽出部３３０は、時系列のフレーム画像から算出される動きベクトルに基づいて上記の補間フレーム画像を生成してもよいし、時系列のフレーム画像の演算処理により上記の補間フレーム画像を生成してもよい。また、特徴抽出部３３０は、空白のフレームや、動物体が撮像されていない背景画像を補間フレームとして生成してもよい。本実施形態に係る補間フレーム画像の生成には種々の手法が適用され得る。

［１．５．第１の実施形態の効果］
次に、本実施形態の効果について述べる。上述した特許文献１および特許文献２に開示される手法では、予め静的に設定された条件に基づき選択されたフレーム画像を用いてＣＨＡＬＣ特徴を抽出している。このため、当該手法では、同一の動作でも動作速度が異なる場合、同様の特徴を得ることが困難である。

図９は、従来手法により抽出したＣＨＬＡＣ特徴を行動識別に有効な特徴空間に射影した一例を示している。図９を参照すると、特徴空間には、２つの動作クラスＣ１およびＣ２が示されている。ここで、動作クラスＣ１は、例えば、ＡＴＭにカードを挿入する動作に係るクラスであってよく、動作クラスＣ２は、ピンパッドを操作する動作に係るクラスであってよい。

また、図９において、白色の四角形は、動作クラスＣ１を構成する各特徴量を表しており、黒色の三角形は、動作クラスＣ２を構成する各特徴量を表している。ここで、動作クラスＣ１の特徴量Ｆ１は、ＡＴＭにカードを素早く挿入する動作に基づいて抽出された特徴量であり、特徴量Ｆ２は、ＡＴＭにカードをゆっくりと挿入する動作に基づいて抽出された特徴量であってよい。

このように、従来手法によるＣＨＬＡＣ特徴の抽出では、動物体の移動量を考慮していないため、図９を参照すると、動作クラスＣ１およびＣ２は、特徴空間における広がりが大きくなっていることがわかる。また、動作クラスＣ１およびＣ２の分布に着目すると、一部の領域が重なっていることがわかる。すなわち、図９に示す一例では、ピンパッドを操作する動作が、ＡＴＭにカードを挿入する動作として誤認識されてしまう可能性を示唆している。

一方、図１０は、本実施形態における手法により抽出したＣＨＬＡＣ特徴を特徴空間に射影した一例を示している。すなわち、図１０には、動物体の移動量に基づく間隔で選択されたフレーム画像を用いて抽出された特徴量が示されている。

図１０を参照すると、特徴空間には、図９と同様に２つの動作クラスＣ１およびＣ２が示されているが、各動作クラスの分布は、図９に示した分布と比較して、非常に小さいことがわかる。このように、本実施形態に係る行動認識装置３０によれば、移動体の移動量、すなわち動作速度に依存しない特徴抽出を実現することが可能となり、動作が誤認識される可能性を大幅に低減することができる。

［１．６．動作の流れ］
次に、本実施形態に係る行動認識装置３０の動作の流れについて詳細に説明する。

（行動認識の流れ）
まず、本実施形態に係る行動認識装置３０による行動認識の流れについて説明する。図１１は、本実施形態に係る行動認識装置３０による行動認識の流れを示すフローチャートである。

図１１を参照すると、行動認識装置３０の動画読込部３１０は、まず、撮像装置１０が撮像した動画像を時系列の静止画画像、すなわちフレーム画像として一枚ずつ読み込む（Ｓ１１１０）。

次に、移動量算出部３２０は、ステップＳ１１１０で読み込まれた時系列のフレーム画像に基づいて、画像中における動物体の移動量を算出する（Ｓ１１２０）。ステップＳ１１２０における移動量算出の詳細フローについては、後述する。

次に、特徴抽出部３３０は、ステップＳ１１１０で読み込まれたフレーム画像とステップＳ１１２０において算出された移動量とに基づいて特徴量を抽出する（Ｓ１１３０）。この際、本実施形態に係る特徴抽出部３３０は、抽出する特徴量としてＣＨＬＡＣ特徴などを採用してよい。特徴抽出部３３０が動物体の移動量に基づく特徴抽出を行うことで、動物体の動作速度に依存しないＣＨＬＡＣ特徴を抽出することが可能となる。

続いて、特徴抽出部３３０は、ステップＳ１１３０で抽出されたＣＨＬＡＣ特徴を行動識別に有効な特徴空間に変換する（Ｓ１１４０）。この際、特徴抽出部３３０は、主成分分析などを用いて上記の変換を行うことができる。

次に、識別部３５０は、ステップＳ１１４０において変換された特徴量と、予め作成された行動辞書３７０とを照合し、動物体に係る行動識別を行う（Ｓ１１５０）。この際、識別部３５０は、パターン認識において広く用いられる部分空間法を用いて上記の行動識別を行うことができる。識別部３５０が部分空間法を用いて行動識別を行うことで、識別時に係るコストを低減することが可能となる。

次に、出力制御部３６０は、ステップＳ１１５０において識別された識別結果を各種の出力装置に出力させる（Ｓ１１６０）。上記の出力装置には、種々の表示装置や音声出力装置などが含まれてよい。

以上、本実施形態に係る行動認識の流れについて説明した。本実施形態に係る行動認識装置３０は、上記に示したステップＳ１１１０〜Ｓ１１６０を繰り返し実行することで、撮像された動物体の行動を連続的に識別することができる。

（移動量算出の詳細フロー）
次に、本実施形態に係る移動量算出の詳細フローについて説明する。図１２は、本実施形態に係る移動量算出部３２０による動物体の移動量算出の流れを示すフローチャートである。なお、図１２に示す各ステップは、図１１に示したステップＳ１１２０の詳細フローに該当する。

図１２を参照すると、移動量算出部３２０は、読み込まれたフレーム画像に基づいてオプティカルフローの算出を行う（Ｓ１１２１）。この際、移動量算出部３２０は、現時点のフレーム画像と直前のフレーム画像とから各ピクセルのオプティカルフローを算出することができる。

続いて、移動量算出部３２０は、ステップＳ１１２１で算出したオプティカルフローをバッファに保存する（Ｓ１１２２）。

続いて、移動量算出部３２０は、ステップＳ１１２１においてオプティカルフローの算出処理に用いたフレーム画像の枚数を判定する（Ｓ１１２３）。ここで、処理されたフレーム画像の枚数が所定数Ｎ未満である場合（Ｓ１１２３：ＮＯ）、移動量算出部３２０は、ステップＳ１１２１に復帰し、オプティカルフローの算出処理を再び実行する。

一方、処理されたフレーム画像の枚数が所定数Ｎ以上である場合（Ｓ１１２３：ＹＥＳ）、移動量算出部３２０は、算出した移動量を特徴抽出部３３０に出力し（Ｓ１１２４）、一連の処理を終了する。

以上、本実施形態に係る移動量算出の詳細フローについて説明した。本実施形態に係る移動量算出部３２０は、読み込まれたフレーム画像に基づいて、上記に示したステップＳ１１２１〜Ｓ１１２４を連続的に実行してよい。移動量算出部３２０が連続的に上記の処理を実行することで、動画像中における動物体の移動量を把握し続けることが可能となる。

（行動辞書３７０作成の流れ）
次に、本実施形態に係る行動辞書３７０の作成の流れについて詳細に説明する。本実施形態に係る行動辞書３７０の作成は、行動認識の流れと同様に動物体の移動量に基づき実行されてよい。すなわち、本実施形態に係る行動認識装置３０は、動物体の移動量の大きさに基づく間隔で選択したフレーム画像から特徴量を抽出し、当該特徴量と動物体の行動とを関連付けて学習する。

図１３は、本実施形態に係る行動辞書３７０の作成の流れを示すフローチャートである。なお、図１３に示す各ステップは、学習する行動（例えば、ＡＴＭ専用カードの挿入やピンパッドの操作など）ごとに実行されてよい。

図１３を参照すると、行動認識装置３０の動画読込部３１０は、まず、撮像装置１０が撮像した動画像を時系列の静止画画像、すなわちフレーム画像として一枚ずつ読み込む（Ｓ１２１０）。

次に、移動量算出部３２０は、ステップＳ１２１０で読み込まれた時系列のフレーム画像に基づいて、画像中における動物体の移動量を算出する（Ｓ１２２０）。なお、ステップＳ１２２０における詳細な処理は、図１２に示した各ステップと同様であってよい。

次に、特徴抽出部３３０は、ステップＳ１２１０で読み込まれたフレーム画像とステップＳ１２２０において算出された移動量とに基づいて特徴量を抽出する（Ｓ１２３０）。この際、特徴抽出部３３０は、図１１に示したステップＳ１１３０と同様の処理を実行してよい。

続いて、特徴抽出部３３０は、ステップＳ１２３０で抽出されたＣＨＬＡＣ特徴を行動識別に有効な特徴空間に変換する（Ｓ１２４０）。

次に、学習部３４０は、ステップＳ１２４０で変換された特徴と予め設定された行動とを関連付けて行動辞書３７０に記憶させる（Ｓ１２５０）。

以上、本実施形態に係る行動辞書３７０の作成の流れについて詳細に説明した。上述したとおり、本実施形態に係る行動認識装置３０は、動物体の移動量に基づいて選択したフレーム画像から抽出した特徴を用いて学習を行うことができる。

本実施形態に係る行動認識装置３０が有する上記の機能によれば、動物体の動作速度の差を吸収した学習を行うことができ、各動作の特徴空間上での分布を小さく抑えることが可能となる。このため、本実施形態に係る行動認識装置３０によれば、動物体が行った動作が他の動作として誤認識される可能性を大きく低減することができる。

＜２．第２の実施形態＞
［２．１．第２の実施形態の概要］
次に、本発明の第２の実施形態の概要について説明する。近年、ＡＴＭなどの自動取引装置に対する犯罪は巧妙化しており、当該犯罪に対する防止策や早期検知のしくみなどが求められている。上記のような犯罪には、例えばスキミング装置による情報の不正入手などが含まれるが、設置されたスキミング装置を発見することが困難である場合もある。

このため、本発明の第２の実施形態では、スキミング装置などを取り付ける動作、すなわち異常行動を検知することで、操作端末２０に対する犯罪を早期に検知することを目的の一つとする。

具体的には、本実施形態に係る行動認識装置３０は、操作端末２０から取得される外部情報に基づいて、学習および認識における特徴抽出を動的に調整する機能を有する。ここで、本実施形態に係る外部情報とは、例えば、操作端末２０のステータス情報であってよい。操作端末２０がＡＴＭである場合、本実施形態に係る外部情報には、例えば、「ＡＴＭ専用カードの挿入待ち」、「取引の選択待ち」などのステータス情報が含まれてよい。

操作端末２０に対する動作は、一般的に上記のようなステータスに応じて限定され得る。例えば、ピンパッドを操作すべきステータスにおいて、カードが挿入される場合、当該カードの挿入は、異常行動である可能性が高い。

このため、本実施形態に係る行動認識装置３０は、上記のような外部情報を加味した行動認識を行うことで、異常行動の検出精度を向上させることができる。

なお、以降における本実施形態の説明では、第１の実施形態との差異について中心に説明し、第１の実施形態と共通する機能については、詳細な説明を省略する。

［２．２．第２の実施形態に係る行動認識装置３０］
まず、本発明の第２の実施形態に係る行動認識装置３０の機能構成例について説明する。図１４は、本実施形態に係る行動認識装置３０の機能ブロック図である。図１４を参照すると、本実施形態に係る行動認識装置３０は、第１の実施形態と共通する機能構成に加えて、外部情報取得部３８０を備える。

（外部情報取得部３８０）
外部情報取得部３８０は、操作端末２０から外部情報を取得する機能を有する。上述したとおり、本実施形態に係る外部情報は、操作端末２０のステータス情報であってよい。外部情報取得部３８０は、取得した外部情報を移動量算出部３２０に出力する。

以上、本実施形態に係る行動認識装置３０の機能構成例について説明した。上述した外部情報取得部３８０以外の構成については、第１の実施形態と実質同一の機能を有してよいため、詳細な説明は省略する。ただし、本実施形態においては、外部情報取得部３８０が取得した外部情報に基づいて、行動辞書３７０の作成および行動認識が実行される点において、第１の実施形態との差異が存在する。以下、当該差異について詳細に説明する。

［２．３．外部情報に基づく動作の流れ］
続いて、本実施形態に係る外部情報に基づいた行動認識装置３０の動作の流れについて詳細に説明する。

（外部情報に基づく行動認識の流れ）
まず、本実施形態に係る行動認識装置３０による外部情報に基づく行動認識の流れについて説明する。図１５は、本実施形態に係る行動認識装置３０による外部情報に基づく行動認識の流れを示すフローチャートである。

図１５を参照すると、行動認識装置３０の動画読込部３１０は、まず、撮像装置１０が撮像した動画像を時系列の静止画画像、すなわちフレーム画像として一枚ずつ読み込む（Ｓ２１１０）。

次に、外部情報取得部３８０は、操作端末２０から外部情報を取得する（Ｓ２１２０）。上述したとおり、本実施形態に係る外部情報は、操作端末２０のステータス情報であってよい。

次に、移動量算出部３２０は、ステップＳ１１１０で読み込まれた時系列のフレーム画像とステップＳ２１２０で取得された外部情報とに基づいて、画像中における動物体の移動量を算出する（Ｓ２１３０）。ステップＳ２１３０における外部情報に基づく移動量算出の詳細フローについては、後述する。

次に、特徴抽出部３３０は、ステップＳ２１１０で読み込まれたフレーム画像とステップＳ２１３０において外部情報に基づいて算出された移動量とに基づいて特徴量を抽出する（Ｓ２１４０）。

続いて、特徴抽出部３３０は、ステップＳ２１４０で抽出されたＣＨＬＡＣ特徴を行動識別に有効な特徴空間に変換する（Ｓ２１５０）。

次に、識別部３５０は、ステップＳ２１５０において変換された特徴量と、予め外部情報に基づいて作成された行動辞書３７０とを照合し、動物体に係る行動識別を行う（Ｓ２１６０）。

次に、出力制御部３６０は、ステップＳ２１６０において識別された識別結果を各種の出力装置に出力させる（Ｓ２１７０）。

（外部情報に基づく移動量算出の詳細フロー）
次に、本実施形態に係る外部情報に基づく移動量算出の詳細フローについて説明する。第１の実施形態における移動量算出では、予め設定された所定数Ｎのフレーム画像からオプティカルフローの算出を行ったが、本実施形態では、外部情報に基づく間隔でオプティカルフローを算出してよい。すなわち、本実施形態に係る移動量算出部３２０は、操作端末２０のステータスに応じた間隔でオプティカルフローの算出を行うことができる。

図１６は、本実施形態に係る移動量算出部３２０による外部情報に基づく移動量算出の流れを示すフローチャートである。なお、図１６に示す各ステップは、図１５に示したステップＳ２１３０の詳細フローに該当する。また、以下の説明では、ユーザが操作端末２０にＡＴＭ専用カードを挿入する動作を行う場合を例に説明する。

図１６を参照すると、本実施形態に係る移動量算出部３２０は、第１の実施形態と同様に、読み込まれたフレーム画像に基づいてオプティカルフローの算出を行う（Ｓ２１３１）。この際、外部情報取得部３８０により取得される外部情報は、「ＡＴＭ専用カードの挿入待ち」を示すステータスであってよい。

続いて、移動量算出部３２０は、ステップＳ２１３１で算出したオプティカルフローをバッファに保存する（Ｓ２１３２）。

続いて、移動量算出部３２０は、外部情報取得部３８０により取得された外部情報が条件に一致するか否かを判定する（Ｓ２１３３）。具体的には、移動量算出部３２０は、外部情報が変更されたか否かを判定してよい。

ここで、外部情報が条件に一致しない場合（Ｓ２１３３：ＮＯ）、移動量算出部３２０は、ステップＳ２１３１に復帰し、オプティカルフローの算出を再び実行する。すなわち、ステップＳ２１３３において、外部情報が依然として、「ＡＴＭ専用カードの挿入待ち」を示すステータスである場合、移動量算出部３２０は、ＡＴＭ専用カードの挿入が完了していないと判定し、ステップＳ２１３１に復帰してよい。

一方、外部情報が条件に一致する場合（Ｓ２１３３：ＹＥＳ）、移動量算出部３２０は、算出した移動量を特徴抽出部３３０に出力し（Ｓ２１３４）、一連の処理を終了する。すなわち、ステップＳ２１３３において、外部情報が、「取引選択待ち」を示すステータスに変更された場合、移動量算出部３２０は、ＡＴＭ専用カードの挿入が完了したと判定し、算出した移動量を出力してよい。

以上、本実施形態に係る外部情報に基づく移動量算出の詳細フローについて説明した。本実施形態に係る移動量算出部３２０は、上記のような外部情報に基づく判定を行うことで、操作端末２０のステータスに応じた移動量を算出することができる。本実施形態に係る移動量算出部３２０が有する上記の機能によれば、外部情報に応じて特徴抽出を動的に調整することが可能となり、行動認識の精度を大幅に向上させることができる。

（外部情報に基づく行動辞書３７０作成の流れ）
次に、本実施形態に係る外部情報に基づく行動辞書３７０の作成の流れについて詳細に説明する。図１７は、本実施形態に係る外部情報に基づく行動辞書３７０の作成の流れを示すフローチャートである。

図１７を参照すると、行動認識装置３０の動画読込部３１０は、まず、撮像装置１０が撮像した動画像を時系列の静止画画像、すなわちフレーム画像として一枚ずつ読み込む（Ｓ２２１０）。

次に、外部情報取得部３８０は、操作端末２０から外部情報を取得する（Ｓ２２２０）。上述したとおり、本実施形態に係る外部情報は、操作端末２０のステータス情報であってよい。

次に、移動量算出部３２０は、ステップＳ２２１０で読み込まれた時系列のフレーム画像とステップＳ２２２０で取得された外部情報とに基づいて、画像中における動物体の移動量を算出する（Ｓ２２３０）。なお、ステップＳ２２３０における詳細な処理は、図１６に示した各ステップと同様であってよい。

次に、特徴抽出部３３０は、ステップＳ２２１０で読み込まれたフレーム画像とステップＳ２２３０において算出された移動量とに基づいて特徴量を抽出する（Ｓ２２４０）。

続いて、特徴抽出部３３０は、ステップＳ２２４０で抽出されたＣＨＬＡＣ特徴を行動識別に有効な特徴空間に変換する（Ｓ２２５０）。

次に、学習部３４０は、ステップＳ２２５０で変換された特徴と予め設定された行動とを関連付けて行動辞書３７０に記憶させる（Ｓ２２６０）。

以上、本実施形態に係る行動辞書３７０の作成の流れについて詳細に説明した。上述したとおり、本実施形態に係る行動認識装置３０は、取得した外部情報に基づく移動量を用いて抽出した特徴を学習することができる。本実施形態に係る行動認識装置３０が有する上記の機能によれば、操作端末２０のステータスに応じた学習を実現することが可能となり、行動認識の性能を向上させることができる。

＜３．ハードウェア構成例＞
次に、本発明に係る行動認識装置３０のハードウェア構成例について説明する。図１８は、本発明に係る行動認識装置３０のハードウェア構成例を示すブロック図である。図１８を参照すると、行動認識装置３０は、例えば、ＣＰＵ８７１と、ＲＯＭ８７２と、ＲＡＭ８７３と、ホストバス８７４と、ブリッジ８７５と、外部バス８７６と、インターフェース８７７と、入力部８７８と、出力部８７９と、記憶部８８０と、ドライブ８８１と、接続ポート８８２と、通信部８８３と、を有する。なお、ここで示すハードウェア構成は一例であり、構成要素の一部が省略されてもよい。また、ここで示される構成要素以外の構成要素をさらに含んでもよい。

（ＣＰＵ８７１）
ＣＰＵ８７１は、例えば、演算処理装置又は制御装置として機能し、ＲＯＭ８７２、ＲＡＭ８７３、記憶部８８０、又はリムーバブル記録媒体９０１に記録された各種プログラムに基づいて各構成要素の動作全般又はその一部を制御する。

（ＲＯＭ８７２、ＲＡＭ８７３）
ＲＯＭ８７２は、ＣＰＵ８７１に読み込まれるプログラムや演算に用いるデータ等を格納する手段である。ＲＡＭ８７３には、例えば、ＣＰＵ８７１に読み込まれるプログラムや、そのプログラムを実行する際に適宜変化する各種パラメータ等が一時的又は永続的に格納される。

（ホストバス８７４、ブリッジ８７５、外部バス８７６、インターフェース８７７）
ＣＰＵ８７１、ＲＯＭ８７２、ＲＡＭ８７３は、例えば、高速なデータ伝送が可能なホストバス８７４を介して相互に接続される。一方、ホストバス８７４は、例えば、ブリッジ８７５を介して比較的データ伝送速度が低速な外部バス８７６に接続される。また、外部バス８７６は、インターフェース８７７を介して種々の構成要素と接続される。

（入力部８７８）
入力部８７８には、例えば、マウス、キーボード、タッチパネル、ボタン、スイッチ、マイク、及びレバー等が用いられる。さらに、入力部８７８としては、赤外線やその他の電波を利用して制御信号を送信することが可能なリモートコントローラ（以下、リモコン）が用いられることもある。

（出力部８７９）
出力部８７９には、例えば、ＣＲＴ（ＣａｔｈｏｄｅＲａｙＴｕｂｅ）、ＬＣＤ、又は有機ＥＬ等のディスプレイ装置（表示装置）、スピーカ、ヘッドホン等のオーディオ出力装置、プリンタ、携帯電話、又はファクシミリ等、取得した情報を利用者に対して視覚的又は聴覚的に通知することが可能な装置である。

（記憶部８８０）
記憶部８８０は、各種のデータを格納するための装置である。記憶部８８０としては、例えば、ハードディスクドライブ（ＨＤＤ）等の磁気記憶デバイス、半導体記憶デバイス、光記憶デバイス、又は光磁気記憶デバイス等が用いられる。

（ドライブ８８１）
ドライブ８８１は、例えば、磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリ等のリムーバブル記録媒体９０１に記録された情報を読み出し、又はリムーバブル記録媒体９０１に情報を書き込む装置である。

（リムーバブル記録媒体９０１）
リムーバブル記録媒体９０１は、例えば、ＤＶＤメディア、Ｂｌｕ−ｒａｙ（登録商標）メディア、ＨＤＤＶＤメディア、各種の半導体記憶メディア等である。もちろん、リムーバブル記録媒体９０１は、例えば、非接触型ＩＣチップを搭載したＩＣカード、又は電子機器等であってもよい。

（接続ポート８８２）
接続ポート８８２は、例えば、ＵＳＢ（ＵｎｉｖｅｒｓａｌＳｅｒｉａｌＢｕｓ）ポート、ＩＥＥＥ１３９４ポート、ＳＣＳＩ（ＳｍａｌｌＣｏｍｐｕｔｅｒＳｙｓｔｅｍＩｎｔｅｒｆａｃｅ）、ＲＳ−２３２Ｃポート、又は光オーディオ端子等のような外部接続機器９０２を接続するためのポートである。

（外部接続機器９０２）
外部接続機器９０２は、例えば、プリンタ、携帯音楽プレーヤ、デジタルカメラ、デジタルビデオカメラ、又はＩＣレコーダ等である。

（通信部８８３）
通信部８８３は、通信網９０３に接続するための通信デバイスであり、例えば、有線又は無線ＬＡＮ、Ｂｌｕｅｔｏｏｔｈ（登録商標）、又はＷＵＳＢ（ＷｉｒｅｌｅｓｓＵＳＢ）用の通信カード、光通信用のルータ、ＡＤＳＬ（ＡｓｙｍｍｅｔｒｉｃＤｉｇｉｔａｌＳｕｂｓｃｒｉｂｅｒＬｉｎｅ）用のルータ、又は各種通信用のモデム等である。また、内線電話網や携帯電話事業者網等の電話網に接続してもよい。

＜４．まとめ＞
以上説明したように、本発明に係る行動認識装置３０は、動画像から算出された動物体の移動量に基づいて、特徴抽出に用いるフレーム画像を動的に選択することが可能である。より具体的には、行動認識装置３０は、動物体の移動量の大きさに基づく間隔で選択したフレーム画像を用いて、動画像の特徴を抽出することができる。係る構成によれば、行動認識において動作速度の差を吸収した特徴抽出を実現することが可能となる。

以上、添付図面を参照しながら本発明の好適な実施形態について詳細に説明したが、本発明はかかる例に限定されない。本発明の属する技術の分野における通常の知識を有する者であれば、特許請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本発明の技術的範囲に属するものと了解される。

例えば、上記実施形態では、ＣＨＬＡＣ特徴を利用する場合を例に説明したが、本発明は係る例に限定されない。本発明に係る行動認識装置３０は、例えば、ＳＴ−ｐａｔｃｈ（Ｓｐａｃｅ−Ｔｉｍｅｐａｔｃｈ）や、ＭＢＨ（ＭｏｔｉｏｎＢｏｕｎｄａｒｙＨｉｓｔｏｇｒａｍｓ）を用いて学習および識別を行ってもよい。上記のＳＴ−ｐａｔｃｈやＭＢＨは、広く用いられる手法により抽出され得る。

また、上記実施形態では、Ｌｕｃａｓ−Ｋａｎａｄｅ法によるオプティカルフロー算出を行う場合を例に説明したが、本発明に係るオプティカルフローの算出には、例えば、Ｆａｒｎｅｂａｃｋのアルゴリズムが用いられてもよい。

また、上記実施形態では、操作端末２０がＡＴＭなどの自動取引装置である場合を例に説明したが、本発明に係る操作端末２０は係る例に限定されない。本発明の技術思想は、種々の行動認識システムや異常検知システムに広く適用され得る。

また、本発明の行動認識装置３０の処理における各ステップは、必ずしもフローチャートとして記載された順序に沿って時系列に処理する必要はない。例えば、行動認識装置３０の処理における各ステップは、フローチャートとして記載した順序と異なる順序で処理されても、並列的に処理されてもよい。

１０撮像装置
２０操作端末
３０行動認識装置
３１０動画読込部
３２０移動量算出部
３３０特徴抽出部
３４０学習部
３５０識別部
３６０出力制御部
３７０行動辞書
３８０外部情報取得部
４０ネットワーク

Claims

入力された時系列の複数のフレーム画像からなる動画像から算出された動物体の移動量に基づいて、前記動画像の特徴を抽出する特徴抽出部と、
前記動画像の特徴に基づいて前記動物体の行動を識別する識別部と、
を備え、
前記特徴抽出部は、前記移動量の大きさに基づく間隔で選択した前記フレーム画像を用いて、前記動画像の特徴を抽出する、
行動認識装置。
前記特徴抽出部は、前記移動量が小さいほど、前記フレーム画像の選択に係る間隔を大きく設定する、
請求項１に記載の行動認識装置。
前記特徴抽出部は、前記動画像のＣＨＬＡＣ特徴あるいはＳＴ−ｐａｔｃｈ特徴を抽出する、
請求項１または２に記載の行動認識装置。
前記識別部は、部分空間法を用いて前記動物体の行動を識別する、
請求項１〜３のいずれかに記載の行動認識装置。
前記動画像の特徴と前記動物体の行動とを関連付けて学習を行う学習部、
をさらに備える、
請求項１〜４のいずれかに記載の行動認識装置。
前記特徴抽出部は、前記移動量の大きさが所定の基準を上回ることに基づいて、時系列の前記フレーム画像間を補間する補間フレーム画像を生成し、前記フレーム画像と前記補間フレーム画像とを用いて前記動画像の特徴を抽出する、
請求項１〜５のいずれかに記載の行動認識装置。
入力された前記動画像における前記動物体の前記移動量を算出する算出部、
をさらに備える、
請求項１〜６のいずれかに記載の行動認識装置。
前記算出部は、前記動物体の行動の対象となる装置から取得される外部情報に基づいて前記移動量を算出する、
請求項７に記載の行動認識装置。
コンピュータを、
入力された時系列の複数のフレーム画像からなる動画像から算出された動物体の移動量に基づいて、前記動画像の特徴を抽出する特徴抽出部と、
前記動画像の特徴に基づいて前記動物体の行動を識別する識別部と、
を備え、
前記特徴抽出部は、前記移動量の大きさに基づく間隔で選択した前記フレーム画像を用いて、前記動画像の特徴を抽出する、
行動認識装置、
として機能させるためのプログラム。
入力された時系列の複数のフレーム画像からなる動画像から算出された動物体の移動量に基づいて、前記動画像の特徴を抽出することと、
前記動画像の特徴に基づいて前記動物体の行動を識別することと、
を含み、
前記抽出することは、前記移動量の大きさに基づく間隔で選択した前記フレーム画像を用いて、前記動画像の特徴を抽出すること、
をさらに含む、
行動認識方法。
入力された時系列の複数のフレーム画像からなる動画像から算出された動物体の移動量に基づいて、前記動画像の特徴を抽出することと、
前記動画像の特徴と前記動物体の行動とを関連付けて学習することと、
を含み、
前記抽出することは、前記移動量の大きさに基づく間隔で選択した前記フレーム画像を用いて、前記動画像の特徴を抽出すること、
をさらに含む、
学習方法。