JP6666488B2

JP6666488B2 - 画像抽出装置

Info

Publication number: JP6666488B2
Application number: JP2019030141A
Authority: JP
Inventors: ヤンチャン; ハオシャ; パンチャン; 媛李
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 2018-03-30
Filing date: 2019-02-22
Publication date: 2020-03-13
Anticipated expiration: 2039-02-22
Also published as: CN110321767A; JP2019185752A; CN110321767B

Description

本発明はビデオ監視分野に関し、具体的には、ビデオカメラが撮像したビデオデータから行動認識用の特定画像を抽出する技術に関する。

人間行動認識（ＨｕｍａｎＡｃｔｉｏｎＲｅｃｏｇｎｉｔｉｏｎ）技術は、多くの分野で幅広く活用されることが期待され、経済的価値や社会的価値を持っている。

例えば、医療介護、バーチャルリアリティ、スポーツ選手の訓練支援などの分野において、特定の対象の体に例えばウェアラブルセンサーを複数取り付けることで、当該対象の行動データを収集し、その行動モードを解析することができる。ところが、センサーによる人間行動認識は正確性、耐干渉性に優れるが、特定の対象のみに適用でき、且つコストが高いため、その利用は極めて限られている。

一方で、ビデオ監視機器の普及やコンピュータビジョン技術の発展に伴い、ビデオ解析による人間行動認識の研究が盛んに行われてきた。ビデオ解析による人間行動認識は、収集されたビデオデータへの解析のみにより認識結果が得られるため、低コストで不特定対象への行動認識が可能で、多くの分野、特にセキュリティ分野において、非常に重要な意味がある。

行動認識の研究では、通常、人体の骨格のキーポイント（ｋｅｙｐｏｉｎｔ）の移動で人体の動きを表現する。そして、十数個のキーポイントの組み合わせで人体を表し、これらキーポイントに対する追跡で行動を認識する。例えば、カーネギーメロン大学（ＣＭＵ）は、コンピュータビジョンとパターン認識の国際会議ＣＶＰＲ２０１７で、「ＲｅａｌｔｉｍｅＭｕｌｔｉ−Ｐｅｒｓｏｎ２ＤＰｏｓｅＥｓｔｉｍａｔｉｏｎｕｓｉｎｇＰａｒｔＡｆｆｉｎｉｔｙＦｉｅｌｄｓ」と題して、リアルタイムに複数人のキーポイント検出とキーポイント関係推定が可能な技術ＯｐｅｎＰｏｓｅを発表した（オープンソースライブラリ、ｈｔｔｐｓ：／／ｇｉｔｈｕｂ．ｃｏｍ／ＣＭＵ−Ｐｅｒｃｅｐｔｕａｌ−Ｃｏｍｐｕｔｉｎｇ−Ｌａｂ／ｏｐｅｎｐｏｓｅ）。ＯｐｅｎＰｏｓｅ技術では、図７に示すように、撮像された人物の数に関わらずに、深層学習の方法で、１つの画像から複数人の骨格のキーポイントを同時に推定できる。そして、この技術をビデオデータに適用すれば、キーポイントの移動の情報を取得でき、人間の行動に関する情報が得られる。

また、行動認識技術の具体的な応用例として、特許文献１には、人口高齢化の傾向に対応するために、人間行動認識を利用して医療介護を行う技術が開示されている。具体的に、ビデオデータから異常行動を認識する方法において、ビデオシーケンスから、画素がある程度変化している領域をフォアグラウンド抽出モジュールで抽出するステップと、フォアグラウンド抽出モジュールが検出した移動目標を判定し、歩行者と判定された矩形枠を保留して目標追跡モジュールに伝送するステップと、シーン内で認識された目標の各々を、目標追跡モジュールで継続的かつ多目標的に追跡するステップと、異常行動トリガーモジュールにより、目標追跡モジュールが追跡している目標の各々のフレームごとの姿勢を判定し、異常行動に対する行動解析を行うステップと、行動認識モジュールにより、異常行動のビデオクリップを演算処理し、異常行動を通報するとともに、行動の種類を認識する。

特許文献１では、ビデオシーケンスから移動目標を抽出して行動解析を行っているが、複数のビデオソース（例えばビデオカメラ）が存在しているときに、どのビデオソース（１つまたは複数）からのどのデータで解析を行うかについて考慮していない。

中国特許出願公開第１０６５７１０１４号

例えば、老人ホーム、リハビリテーションセンターなどの介護施設では、介護対象の健康状態又は回復状態を把握して治療方針、薬剤投与量などを調整するために、介護対象を撮像したビデオデータに対し、例えば前記ＯｐｅｎＰｏｓｅ技術でキーポイントデータを抽出し、介護対象の行動特徴を解析し、行動認識を行ってよい。また、介護対象のそれぞれは、健康状態などの原因により、例えば首、腰、ひじ、膝、足首など、特に注目する必要がある部位を有する。従って、特定の介護対象に対し、認識された行動特徴データにおける当該介護対象の注目部位の行動特徴データを、当該対象の履歴データ又は健常者の対応する部位のデータと比較して、その結果に基づいて健康状態又は回復状態を判定することができる。

しかし、専用の監視機器で介護対象を撮像すると、撮像場所が限られるだけではなく、介護対象が緊張などの原因により、自然的かつ日常的な行動を取れなくなる恐れがあり、撮像結果から注目部位の正確な行動特徴を得ることができない。このようなことを避けるために、既存の、例えば介護施設の食堂、廊下、エレベータ、娯楽休憩室、公園などの公共空間に設置されたビデオカメラを用いることが考えられる。即ち、すでに大規模に配置されている防犯用ビデオカメラなどの監視機器により撮像されたビデオデータを利用して、介護対象の行動認識を行うことが考えられる。

一方で、防犯用ビデオカメラは特定の介護対象のために設置されたものではないため、介護対象のそれぞれにとって、ビデオカメラの位置、角度、ピント調整の設置が最適ではない可能性がある。よって、ある介護対象に対し、すべてのビデオカメラからのビデオデータが当該介護対象の注目部位の行動認識に適するとは言えない。前記ＯｐｅｎＰｏｓｅのような頑健性を持つ技術であっても、注目部位の信頼性が高い結果を得るために、全体のビデオデータにある程度絞り込みをかけて行動認識用のビデオデータを抽出しなければならない。

本発明の目的は、複数のビデオカメラで撮像した対象人物のビデオデータを利用して当該対象人物の注目部位の行動特徴を解析する場合に、撮像されたビデオデータから当該対象人物の注目部位の行動認識に適する特定画像を抽出し、特定画像により対象人物の行動特徴を解析し、行動認識の信頼性と正確性を向上させることである。

本発明の課題を解決するために、以下の発明が挙げられる。第１の発明は、複数のビデオソース由来のビデオデータから、ビデオデータにおける対象人物の行動認識を行うための特定画像を抽出する画像抽出装置であって、前記ビデオデータから対象人物を検出し、前記対象人物の画像の全てを抽出する人物検出抽出部と、前記人物検出抽出部が抽出した前記対象人物の画像に対してキーポイント抽出を行うキーポイント抽出部と、前記対象人物の注目部位を特定する注目部位特定部と、前記注目部位特定部が特定した前記注目部位に基づいて、前記対象人物の画像から当該対象人物の前記注目部位の画像を抽出する注目部位画像抽出部と、前記注目部位画像抽出部が抽出した前記注目部位の画像に対し、それぞれが前記特定画像であるか判定し、判定された前記特定画像を出力する画像判定出力部と、を備え、前記画像判定出力部は、前記注目部位の画像のシャープネス、画素数及び前記キーポイントの数の少なくともいずれかに基づいて、前記注目部位の画像が前記特定画像であるか判定する、画像抽出装置である。

第２の発明は、複数のビデオソース由来のビデオデータから、ビデオデータにおける対象人物の行動認識を行うための特定画像を抽出する画像抽出方法であって、前記ビデオデータから対象人物を検出し、前記対象人物の画像の全てを抽出する人物検出抽出ステップと、前記人物検出抽出ステップで抽出した前記対象人物の画像に対してキーポイント抽出を行うキーポイント抽出ステップと、前記対象人物の注目部位を特定する注目部位特定ステップと、前記注目部位特定ステップで特定した前記注目部位に基づいて、前記対象人物の画像から当該対象人物の前記注目部位の画像を抽出する注目部位画像抽出ステップと、前記注目部位画像抽出ステップで抽出した前記注目部位の画像に対し、それぞれが前記特定画像であるか判定し、判定された前記特定画像を出力する画像判定出力ステップと、を備え、前記画像判定出力ステップにおいて、前記注目部位の画像のシャープネス、画素数及び前記キーポイントの数の少なくともいずれかに基づいて、前記注目部位の画像が前記特定画像であるか判定する、画像抽出方法である。

第３の発明は、コンピュータで実行可能なプログラムであって、前記プログラムは、コンピュータに前記した画像抽出方法を実行させる、プログラムである。

第４の発明は、行動解析システムであって、前記した画像抽出装置と、前記画像抽出装置から出力された前記特定画像を利用して、前記対象人物の行動認識を行う行動特徴解析部と、前記行動特徴解析部の解析結果を出力する通知部と、を備える、行動解析システムである。

上記のように、本発明の画像抽出装置と方法によれば、複数のビデオソースから由来するビデオデータから、対象人物についてその注目部位の画像を抽出し、該注目部位の画像のシャープネス、画素数及びキーポイント数の少なくともいずれかに基づいて特定画像を判定・抽出するため、対象人物の注目部位の行動認識により適する画像を出力でき、行動認識の信頼性を向上させることができる。

本発明によれば、複数のビデオカメラで撮像した対象人物のビデオデータを利用して当該対象人物の注目部位の行動特徴を解析する場合に、ビデオカメラのそれぞれが撮像した画像が必ずしも対象人物の行動認識に適するとは限らないことを考慮し、撮像されたビデオデータから、対象人物の注目部位のシャープネス、画素数及びキーポイント数の少なくともいずれかに基づいて、対象人物の注目部位の行動が正確に撮像された画像を抽出して特定画像として出力する画像抽出装置と方法を提供できる。

さらに、行動解析システムでは、当該特定画像から対象人物の行動を解析し、正確かつ耐干渉な行動認識結果が得られる。また、当該対象人物の履歴データ又は健常者のデータと照合することにより、対象人物の健康状態、回復状態を正確に把握し、リアルタイムに治療方針、薬剤投与量などを調整することができる。

本発明の画像抽出装置を適用した介護施設の平面模式図である。図１の行動解析システムを示す概略的なブロック図である。画像抽出装置の構造を示すブロック図である。人物データベースに記憶された人物データＤＢｐのエントリの例である。画像判定出力部の構造を概略的に示す図である。本発明の画像抽出方法のフロー図である。キーポイントの抽出を模式的に示す図である。

以下は図面を参照しながら本発明を実施するための形態を説明する。また、以下の実施の形態において、要素の数など（個数、数値、量、範囲などを含む）に言及する場合、特に明示した場合および原理的に明らかに特定の数に限定される場合等を除き、その特定の数に限定されるものではなく、特定の数以上でも以下でもよい。

さらに、以下の実施の形態において、その構成要素（要素ステップ等も含む）は、特に明示した場合および原理的に明らかに必須であると考えられる場合等を除き、必ずしも必須ではなく、明細書に記載されていない要素を含んで良いことは言うまでもない。

同様に、以下の実施の形態において、構造要素等の形状、位置関係等に言及するときは、特に明示した場合および原理的に明らかにそうではないと考えられる場合等を除き、実質的にその形状等に近似または類似するもの等を含むものとする。このことは、上記数値および範囲についても同様である。

以下は本発明を介護施設に適用する例を説明する。なお、本発明の適用は介護施設に限定されず、特定の対象人物の行動認識を行い、かつ対象人物を撮像する撮像機器を複数設置するものであれば、本発明を適用できる。例えば、本発明の画像抽出装置を対象人物の宅内又は居住地区内に設置し、宅内又は居住地区内に設置された複数の撮像機器に接続させ、これら撮像機器により撮像されたビデオデータを絞り込んで該対象人物の行動認識用の特定画像とすることが可能である。

また、以下に記載の対象人物は、殆どの場合は介護施設内で介護を受ける人を指すが、これに限らず、例えば介護施設の従業員などの健常者であってもよい。健常者に対して本発明を利用して行動認識を行うと、前もって疾患/ストレスの予防などの効果を奏する。

まず、図１〜図５を参照しながら本発明の画像抽出装置を説明する。図１は本発明の画像抽出装置を適用した介護施設１０１の平面模式図である。図１の介護施設１０１には、複数の被介護者個室１０２、食堂１０３、大広間１０４、娯楽休憩室１０５及び廊下１０６、制御室１０７などが設置される。被介護者Ｐ１〜Ｐｍは各々の個室１０２で生活し、食堂１０３、大広間１０４、娯楽休憩室１０５及び廊下１０６などで行動する。食堂１０３、大広間１０４、娯楽休憩室１０５及び廊下１０６のような公共空間には、複数のビデオカメラＣ１〜Ｃｎ（ビデオソース）が設置され、各ビデオカメラは撮像範囲Ｒ１〜Ｒｎを有し、それぞれの撮像範囲内で行動する被介護者を撮像し、それぞれが撮像したビデオデータを各ビデオカメラに有線又は無線で接続された行動解析システム１００に送信する。

行動解析システム１００は、本発明の画像抽出装置２００を備え、制御室１０７内に設置され、対象人物の行動特徴の解析結果を管理者又は介護者に通知する。

図２は図１の行動解析システム１００を示す概略的なブロック図である。行動解析システム１００は、画像抽出装置２００、行動特徴解析部２０１、行動特徴データベース２０２、通知部２０３を備える。

画像抽出装置２００は、ビデオカメラに撮像された対象人物が当該介護施設に入居中のどの被介護者であるかを判定し（例えば被介護者Ｐｉ）、ビデオカメラＣ１〜Ｃｎからのビデオデータから、対象人物Ｐｉの注目部位Ｉｉの行動認識に適する画像データを抽出する（以下は、例えばこのような画像データを「特定画像データ」と称する）。

図３を参照に画像抽出装置２００を詳しく説明する。図３は画像抽出装置２００の構造を示すブロック図である。図３に示すように、画像抽出装置２００は人物検出抽出部３０１、人物特定部３０２、人物データベース３０３、注目部位特定部３０４、疾患データベース３０５、キーポイント抽出部３０６、注目部位画像抽出部３０７、画像判定出力部３０８を備える。

人物検出抽出部３０１は、画像抽出装置２００に入力されたビデオカメラＣ１〜Ｃｎからのビデオデータに対し人物検出を行い、人物を撮像したビデオカメラがあるか判定する。なお、人物検出は従来技術を利用してよいため、ここでは詳細な説明は割愛する。

あるビデオカメラＣｗが人物を撮像したと判定されると、当該人物を対象人物Ｐとし、当該ビデオカメラＣｗに撮像された対象人物Ｐの全ての画像を抽出する。また、人物検出抽出部３０１は、他のビデオカメラＣ１〜Ｃｗ−１、Ｃｗ＋１〜Ｃｎも当該対象人物Ｐを撮像したか否かを判定する。なお、この判定において、人物の類似度判定の従来技術を使用すればよい。例えば、中国特許出願２０１７１１２３６９０３．Ｘに記載の類似度判定の方法を利用することで、正確性を向上させることができる。

類似度判定の結果、他のビデオカメラも対象人物Ｐを撮像した場合に、これらビデオカメラが撮像した対象人物Ｐの全てのビデオを抽出し、上記の抽出したビデオカメラＣｗが撮像した対象人物Ｐのビデオと共に出力する。ここでは、出力したビデオに各ビデオ（画像）がどのビデオカメラが撮像したのかを示す情報をともに記録してもよい。

人物特定部３０２は人物データベース３０３を利用して、上記撮像した対象人物Ｐが介護施設１０１に入居中のどの人物であるかを判定する。人物データベース３０３は介護施設１０１に入居中の各被介護者Ｐ１〜Ｐｎの人物データＤＢｐを記憶したものである。図４は人物データベース３０３に記憶された人物データＤＢｐのエントリの例である。

図４に示すように、人物データＤＢｐは、被介護者を一意に特定するための人物ＩＤ４０１、ビデオカメラに撮像された人物がどの被介護者であるか特定するための人物特徴４０２、被介護者の体の不快部位（疾患部位）を示す注目部位４０３を含む。ここで、人物特徴４０２は、該当する被介護者の外貌（顔、体付）の画像を記憶してもよく、これら画像を処理した特徴データを記憶してもよい。本発明はこれについて特に限定しない。注目部位４０３には、例えば医師が診断した当該被介護者の不快部位などの情報が記述される。ここでは、「首」、「ひじ」などの文字を直接に記述してもよいが、「腰椎椎間板ヘルニア」などの病因を記述してもよく、又は予め決定された番号を記述してもよい（例えばある関節（即ちキーポイント）を示す番号など）。

人物特定部３０２は対象人物Ｐの画像（又は特徴データ）を人物データベース３０３内の人物特徴４０２に記憶したデータと照合する。ここでも、人物の類似度判定の従来技術を使用すればよい。例えば、正確性を向上させるために、中国特許出願２０１７１１２３６９０３．Ｘに記載の類似度判定の方法を利用することができる。本発明はこれについて限定しない。

類似度に対して所定の閾値Ｔ０を設定する。そして、人物データベース３０３内のあるエントリ（例えばＰｉ）の人物特徴４０２と対象人物Ｐとの類似度が該閾値Ｔ０より高い場合、対象人物Ｐが人物データベース３０３内の人物Ｐｉであると判定される。ここで、複数のエントリにおいて人物特徴４０２と対象人物Ｐとの類似度が閾値Ｔ０より高い場合、類似度がもっとも高いエントリを選択する。その後、人物Ｐｉの人物ＩＤを注目部位特定部３０４に出力する。次に、注目部位特定部３０４は人物データベース３０３から対象人物Ｐｉの注目部位Ｉｉを取得する。

また、人物データベース３０３内のいずれのエントリにおいても人物特徴４０２と対象人物Ｐと類似度が閾値Ｔ０より低い場合、対象人物Ｐのデータが人物データベース３０３内に存在しないと判定され、対象人物が人物データベースに存在しない旨の情報を注目部位特定部３０４に送信する。

この場合、注目部位特定部３０４はキーポイント抽出部３０６の出力と疾患データベース３０５を利用して、対象人物の注目部位を判定する。

具体的には、キーポイント抽出部３０６は、人物検出抽出部３０１から出力した対象人物Ｐの画像からキーポイントを抽出し、各画像における対象人物Ｐのキーポイント情報に関する情報を出力する。ここで、キーポイントの抽出は従来技術を利用すれば良い。例えば、上記ＯｐｅｎＰｏｓｅ技術を利用して、図７に示すように、対象人物の画像からキーポイントを抽出すればよい。

疾患データベース３０５には、疾患者の行動特徴（例えばキーポイント情報）のデータが多数に記憶され、疾患部位ごとに分類される。例えば、頸部不快患者のデータ、ひじ不快患者のデータ、足首不快患者のデータなどに分類される。

注目部位特定部３０４はキーポイント抽出部３０６から出力した対象人物Ｐのキーポイント情報を疾患データベース３０５に記憶されたデータと照合し、どの種類のデータに最も近いか判定するとともに、疾患データベース内の最も近い種類の疾患部位が対象人物Ｐの注目部位であるとする。このように、人物データベース３０３に存在しない対象人物Ｐであっても、注目部位特定部３０４は当該対象人物Ｐの注目部位を取得できる。

なお、注目部位特定部３０４は、この対象人物に対してその注目部位を判定した後、判定結果を人物特定部３０２に通知し、人物特定部３０２が当該対象人物のために人物データベース３０３に新規のエントリを作り、人物検出抽出部３０１が抽出した当該対象人物の画像又は画像に基づく特徴データ、及び注目部位特定部３０４により判定された注目部位を当該エントリに記憶してもよい。

次に、注目部位特定部３０４は、取得した注目部位を注目部位画像抽出部３０７に出力する。注目部位画像抽出部３０７は、注目部位特定部３０４から出力した注目部位と人物検出抽出部３０１から出力された対象人物の画像から、対象人物の注目部位の画像を抽出する。

具体的に、注目部位画像抽出部３０７は、人物検出抽出部３０１から入力された画像を注目部位ごとに分割し、注目部位特定部３０４が特定した注目部位に基づいて、当該注目部位の画像を画像判定出力部３０８に出力する。ここで、画像を分割する際に、注目部位の数および具体的な位置は予め決定されてもよい。例えば、注目部位の数は、疾患データベース３０５の分類数と同じであってもよい。

また、注目部位の画像の抽出と共に、注目部位画像抽出部３０７は、キーポイント抽出部３０６からのキーポイント情報から、対応する注目部位のキーポイント情報（以下は「注目部位キーポイント情報」と称する）をも抽出し、各注目部位画像と注目部位キーポイント情報とを関連付けて画像判定出力部３０８に送信してもよい。

その後、画像判定出力部３０８は注目部位画像抽出部３０７から出力した画像を判定し、所定の絞り込みルールに基づいて、当該対象人物の注目部位の行動特徴の解析に適する特定画像を出力する。

所定の絞り込みルールの詳細は以下である。ビデオカメラのそれぞれは、位置、角度、ピント調整などの設定が異なるため、撮像された対象人物の画像において、注目部位のシャープネス、大きさ、可視範囲（遮蔽されたか否か）などが異なる。従って、（１）シャープネス、（２）画素数、（３）キーポイント数との３点の少なくともいずれかに基づいて画像を絞り込むことが考えられる。

（１）シャープネスに基づく絞り込み
注目部位画像抽出部３０７からの対象人物Ｐの注目部位の複数の画像に対してそれぞれシャープネスを判定する。そして、シャープネスに対して予め閾値Ｔ１を設定し、シャープネスが閾値Ｔ１より低い画像を廃棄する。

以下はシャープネスの判定方法を説明する。

従来技術には、画像のシャープネスを判定する方法が複数存在する。本発明は従来の判定方法のいずれを利用してもよく、特に限定はない。ここで、注目部位毎に機械学習の方法により画像のシャープネスを判定する例を説明する。

まず、多数の鮮明な画像と不鮮明な画像を含むサンプルデータセットを用意し、サンプルデータセット内の人物を注目部位ごとに分割し、注目部位ごとのサブサンプルデータセットを構築する。そして、各サブサンプルデータセット内の画像のシャープネスを人工的に判定し、それぞれにシャープネス値を付与する。その後、注目部位のそれぞれに対し、各サブサンプルデータセットの画像を入力とし、シャープネス値を出力とするように、当該部位のシャープネスを取得するためのモデルをトレーニングする。

これにより、注目部位画像抽出部３０７からの対象人物Ｐの注目部位の画像を対応する注目部位のモデルに入力することで、当該画像のシャープネスを得ることができる。

（２）画素数に基づく絞り込み
注目部位画像抽出部３０７からの対象人物Ｐの注目部位の複数の画像に対して、各画像の画素数を算出する。そして、画素数に対して閾値Ｔ２を設定し、画素数が閾値Ｔ２より低い画像を廃棄する。

具体的に、例えば注目部位ごとに、それぞれの最低画素数Ｗｍｉｎ＊Ｈｍｉｎ（前記閾値Ｔ２に対応する）を予め記憶し、入力された対象人物Ｐの注目部位の複数の画像のそれぞれの画素数が前記最低画素数より低いか否かを判定し、前記最低画素数より低いと、対応する画像を廃棄する。

或いは、各画像の画素数を順位付け、最下位から上の一定の割合の画像を廃棄する。例えば、画素数が低いほうの５０％の画像を廃棄する。もちろん、閾値と順位付けを組み合わせて絞り込みを行ってもよいが、ここでは説明は割愛する。

（３）キーポイント数に基づく絞り込み
注目部位画像抽出部３０７からの対象人物Ｐの注目部位の複数の画像に対して、それぞれの関連付けられた注目部位キーポイント情報によりキーポイント数を算出する。そして、例えばキーポイント数に対して閾値Ｔ３を設定し、キーポイント数が閾値Ｔ３より低い画像を廃棄する。

具体的に、例えば注目部位ごとに、それぞれの最低キーポイント数Ｎｍｉｎ（前記閾値Ｔ３に対応する）を予め記憶し、入力された画像のそれぞれの注目部位キーポイント数が前記最低キーポイント数Ｎｍｉｎとの関係を判定し、前記最低キーポイント数Ｎｍｉｎよりキーポイント数が低い画像を廃棄する。

或いは、各画像の注目部位キーポイント数を順位付け、最下位から上の一定の割合の画像を廃棄する。例えば、注目部位キーポイント数が低いほうの５０％の画像を廃棄する。もちろん、閾値と順位付けを組み合わせて絞り込みを行ってもよく、ここでは説明は割愛する。

図５は画像判定出力部３０８の構造を概略的に示す図である。図５に示すように、画像判定出力部３０８はシャープネス判定部５０１、画素数判定部５０２、キーポイント数判定部５０３を含む。
シャープネス判定部５０１は前記（１）に記載のシャープネスに基づく絞り込みを実行し、画素数判定部５０２は前記（２）に記載の画素数に基づく絞り込みを実行し、キーポイント数判定部５０３は前記（３）に記載のキーポイント数に基づく絞り込みを実行する。上述のように、画像判定出力部３０８において、シャープネス判定部５０１による処理、画素数判定部５０２による処理、およびキーポイント数判定部５０３による処理は、選択的に少なくとも１つを実行すればよく、全部実行する必要はない。

画像判定出力部３０８は、前記（１）〜（３）の少なくとも１つにより絞り込んだ対象人物の注目部位の画像（注目部位キーポイント情報と関連付けて出力してよい）を、特定画像のデータとしてそのまま出力してよい。また、絞り込んだ画像がそれぞれビデオカメラＣ１〜Ｃｎのいずれからのものかを更に判定し、特定画像の数に基づいてビデオカメラを順位付け、ビデオカメラの優先度を設定してもよい。この場合、絞り込んだ画像から優先度が高い（例えば順位が上位３０％）ビデオカメラからの画像を抽出し、抽出した画像を特定画像として図２の行動特徴解析部２０１に送信する。さらに、前記対象人物について、優先度が低い（例えば順位が下位３０％）ビデオカメラからのビデオデータをこれから受信しなくてもよい。これにより、画像抽出装置２００のリソース消費を低減させることができ、速度増加と共にコスト削減が可能になる。

或いは、ビデオカメラを順位付けた後、シャープネス判定部５０１、画素数判定部５０２、キーポイント数判定部５０３のそれぞれの処理をこれから実行せず、優先度が高い（例えば順位が上位３０％）ビデオカメラからの対象人物の注目部位の画像をそのまま出力してもよい。

また、優先度が低いビデオカメラについて、その旨（優先度が低いことを示す情報）をリアルタイムに、ビデオカメラの設置を制御する他のコントローラーにフィードバックし、当該コントローラーでこれら優先度が低いビデオカメラのピント調整、角度、位置のいずれを調整してもよい（もしできれば）。

また、以上の説明において、画像判定出力部３０８は特定画像の他に、注目部位キーポイント情報をも出力する。しかし、注目部位キーポイント情報を出力せずに特定画像のみを出力してもよい。そして、このような特定画像を利用して行動認識を行う際は、別途でキーポイントの抽出を再度行ってもよい。この点は後述する画像抽出方法においても同様である。

次に図２の説明に戻る。画像判定出力部３０８は、対象人物の注目部位の画像を絞り込んだ画像（即ち特定画像）を注目部位キーポイント情報と関連付けて図２の行動特徴解析部２０１に出力する。

行動特徴解析部２０１は、行動特徴データベース２０２に記憶された各被介護者の行動特徴の履歴データと健常者の行動特徴のデータにより、対象人物の注目部位の健康状態が改善したか又は悪化したかを判定する。

具体的に、行動特徴データベース２０２には、人物ＩＤと各被介護者の注目部位の行動特徴の履歴データが記憶され、また、年齢、性別、人種がそれぞれの健常者の各注目部位の行動特徴の履歴データも記憶されている。

対象人物が人物データベース３０３内の人物である場合、その注目部位キーポイント情報に基づいて行動特徴を解析し、解析の結果を行動特徴データベース２０２の対応するエントリの履歴データと照合して、当該注目部位の状態の変化を判定する。また、その判定結果を通知部２０３で管理者又は介護者に通知する。

対象人物が人物データベース３０３内の人物ではない場合、その注目部位キーポイント情報に基づいて行動特徴を解析し、解析の結果を行動特徴データベース２０２の対応する健常者の対応する注目部位のデータと照合して、当該注目部位の状態と健常者との差異を判定する。また、その判定結果を通知部２０３で管理者又は介護者に通知する。

さらに、人物特定部３０２と同様に、行動特徴解析部２０１も当該対象人物のために行動特徴データベース２０２に新規のエントリを作り、その行動特徴のデータを当該エントリに記憶し、これからの利用に備えても良い。

以上は本発明の画像抽出装置２００と行動解析システム１００を説明した。本発明の画像抽出装置２００によれば、ビデオカメラのそれぞれが撮像した画像が必ずしも対象人物の行動認識に適するとは限らないことを考慮し、対象人物の注目部位の画像に対して、注目部位のシャープネス、画素数、キーポイント数の少なくともいずれかに基づいて絞り込みを行うことで、出力される特定画像を、対象人物の注目部位の行動がより正確に撮像されたものとすることができる。

また、本発明の行動解析システム１００によれば、前記特定画像を利用して対象人物の行動を解析するため、正確かつ耐干渉な行動認識結果が得られる。また、当該対象人物の履歴データ又は健常者のデータと照合することにより、対象人物の健康状態、回復状態を正確に把握し、リアルタイムに治療方針、薬剤投与量などを調整することができる。

以下は図６を参照しながら本発明の画像抽出方法を説明する。図６は本発明の画像抽出方法のフロー図である図６に示すように、ステップＳ６０１において、ビデオカメラＣ１〜Ｃｎから入力されたビデオデータに対して人物検出を行い、人物を撮像したビデオカメラがあるか判定する。

あるビデオカメラＣｗが人物を撮像したと判定されると、当該人物を対象人物Ｐとし、当該ビデオカメラＣｗに撮像された対象人物Ｐの全ての画像を抽出する。また、他のビデオカメラＣ１〜Ｃｗ−１、Ｃｗ＋１〜Ｃｎも当該対象人物Ｐを撮像したか否かを判定し、これらビデオカメラに撮像された対象人物Ｐの全ての画像をも抽出する。

次いで、ステップＳ６０２において、ステップＳ６０１で抽出した対象人物の画像からキーポイントを抽出し、各画像における対象人物のキーポイント情報を出力する。また、ステップＳ６０３において、対象人物の画像（又は特徴データ）を人物データベース内の人物特徴と照合し、上述した人物特定部３０２に関する説明のように、人物データベースを利用して、検出された人物が介護施設に入居中のどの人物であるかを判定する。

ステップＳ６０４において、対象人物を特定したか否かを判定する。対象人物を特定した場合、ステップＳ６０５に進む。ステップＳ６０５において、人物データベースから対象人物の注目部位を特定する。ステップＳ６０４において、対象人物を特定できないと判定されると、ステップＳ６０６に進む。

ステップＳ６０６において、ステップＳ６０２で出力された対象人物のキーポイント情報を疾患データベースに記憶されたデータと照合し、疾患データベースにおけるどの種類のデータに最も近いか判定する。そして、疾患データベース内の最も近い種類の疾患部位が対象人物の注目部位であるとする。

次に、ステップＳ６０７において、ステップＳ６０５やステップＳ６０６で出力された注目部位に基づいて対象人物の注目部位の画像を抽出するとともに、ステップＳ６０２で出力された対象人物のキーポイント情報から、対応する注目部位のキーポイント情報を抽出する。その後、ステップＳ６０８において、ステップＳ６０７で出力された対象人物の注目部位の画像を絞り込む。

ここでは、上述した画像判定出力部３０８に関する説明のように、（１）シャープネスに基づく絞り込み、（２）画素数に基づく絞り込み、（３）キーポイント数に基づく絞り込みの少なくともいずれかを行う。これら（１）〜（３）について、上記の説明と同様であるため、重複の説明を省略する。

次いで、ステップＳ６０９において、ビデオカメラの順位付け、ビデオカメラの順位付けに基づく絞り込み、ビデオカメラの設置の調整を選択的に実行する。これらの詳細は上記と同様であるため、説明を省略する。勿論、当該ステップを省略してもよい。その後、ステップＳ６１０において、対象人物の注目部位の画像を絞り込んだ画像（即ち特定画像）を注目部位キーポイント情報と関連付けて出力し、本発明の画像抽出方法を終了する。

その後、出力された特定画像および関連付けられたキーポイント情報を利用して、図２の行動特徴解析部２０１のように、対象人物の注目部位の健康状態が改善したか又は悪化したかを判定する。

以上は、本発明を実施するための好ましい形態を説明したが、本発明は上記実施の形態に限定されない。発明の要旨を逸脱しない範囲内で各種変更を行うことができる。例えば、以上では、画像抽出装置２００、行動解析システム１００の説明において、モジュール構造を例として説明した。このようなモジュール構造はその機能を実現するためのハードウエアで実現されてもよく、ＣＰＵ、コンピュータが記憶媒体に記憶されたプログラムを実行することで実現されてもよい。

なお、本発明は上記した実施例に限定されるものではなく、様々な変形例が含まれる。例えば、上記した実施例は本発明を分かりやすく説明するために詳細に説明したものであり、必ずしも説明したすべての構成を備えるものに限定されるものではない。また、ある実施例の構成の一部を他の実施例の構成に置き換えることが可能であり、また、ある実施例の構成に他の実施例の構成を加えることも可能である。また、各実施例の構成の一部について、他の構成の追加・削除・置換をすることが可能である。

また、上記の各構成・機能・処理部等は、それらの一部又は全部を、例えば集積回路で設計する等によりハードウエアで実現してもよい。また、上記の各構成、機能等は、プロセッサがそれぞれの機能を実現するプログラムを解釈し、実行することによりソフトウェアで実現してもよい。各機能を実現するプログラム、テーブル、ファイル等の情報は、メモリや、ハードディスク、ＳＳＤ（ＳｏｌｉｄＳｔａｔｅＤｒｉｖｅ）等の記録装置、または、ＩＣカード、ＳＤカード等の記録媒体に置くことができる。また、制御線や情報線は説明上必要と考えられるものを示しており、製品上必ずしもすべての制御線や情報線を示しているとは限らない。実際には殆どすべての構成が相互に接続されていると考えてもよい。

本発明はビデオ監視分野に関し、行動認識を行う場合であれば適用でき、例えば防犯や介護などの場合に適用できる。

Claims

複数のビデオソース由来のビデオデータから、ビデオデータにおける対象人物の行動認識を行うための特定画像を抽出する画像抽出装置であって、
前記ビデオデータから対象人物を検出し、前記対象人物の画像の全てを抽出する人物検出抽出部と、
前記人物検出抽出部が抽出した前記対象人物の画像に対してキーポイント抽出を行うキーポイント抽出部と、
前記対象人物の注目部位を特定する注目部位特定部と、
前記注目部位特定部が特定した前記注目部位に基づいて、前記対象人物の画像から当該対象人物の前記注目部位の画像を抽出する注目部位画像抽出部と、
前記注目部位画像抽出部が抽出した前記注目部位の画像に対し、それぞれが前記特定画像であるか判定し、判定された前記特定画像を出力する画像判定出力部と、を備え、
前記画像判定出力部は、前記注目部位の画像のシャープネス、画素数及び前記キーポイントの数の少なくともいずれかに基づいて、前記注目部位の画像が前記特定画像であるか判定する、画像抽出装置。
請求項１に記載の画像抽出装置であって、
さらに、
複数の人物の、一意に当該人物を特定するための人物データと、当該人物の注目部位と、が記憶された人物データベースを利用し、前記人物検出抽出部が検出した前記対象人物がどの人物であるか特定する人物特定部を備え、
前記人物特定部により前記対象人物が前記人物データベース内のどの人物であるか特定された場合、前記注目部位特定部は、前記人物特定部から出力された結果に基づいて、前記人物データベースを利用して前記対象人物の注目部位を特定する、画像抽出装置。
請求項２に記載の画像抽出装置であって、
さらに、
疾患部位ごとに分類される疾患人物の画像のキーポイント情報が記憶された疾患データベースを備え、
前記人物特定部により前記対象人物が前記人物データベースに存在しないと判定された場合、前記注目部位特定部は、前記キーポイント抽出部が抽出したキーポイント情報を前記疾患データベースと照合して、前記対象人物の前記注目部位を判定する、画像抽出装置。
請求項１〜３のいずれか１つに記載の画像抽出装置であって、
前記画像判定出力部は、前記特定画像の由来するビデオソースを判定し、各ビデオソースからの前記特定画像の数に基づいて前記複数のビデオソースに優先度を付与し、前記ビデオソースの前記優先度に基づいて前記特定画像を更に絞り込む、画像抽出装置。
請求項１〜３のいずれか１つに記載の画像抽出装置であって、
前記画像判定出力部は、機械学習の方法により、前記注目部位のそれぞれについてサンプルデータセットを利用してシャープネス判定のモデルをトレーニングし、前記対象人物の注目部位の画像を対応する前記モデルに入力し、その結果から当該注目部位の画像のシャープネスを判定する、画像抽出装置。
複数のビデオソース由来のビデオデータから、ビデオデータにおける対象人物の行動認識を行うための特定画像を抽出する画像抽出方法であって、
前記ビデオデータから対象人物を検出し、前記対象人物の画像の全てを抽出する人物検出抽出ステップと、
前記人物検出抽出ステップで抽出した前記対象人物の画像に対してキーポイント抽出を行うキーポイント抽出ステップと、
前記対象人物の注目部位を特定する注目部位特定ステップと、
前記注目部位特定ステップで特定した前記注目部位に基づいて、前記対象人物の画像から当該対象人物の前記注目部位の画像を抽出する注目部位画像抽出ステップと、
前記注目部位画像抽出ステップで抽出した前記注目部位の画像に対し、それぞれが前記特定画像であるか判定し、判定された前記特定画像を出力する画像判定出力ステップと、を備え、
前記画像判定出力ステップにおいて、前記注目部位の画像のシャープネス、画素数及び前記キーポイントの数の少なくともいずれかに基づいて、前記注目部位の画像が前記特定画像であるか判定する、画像抽出方法。
請求項６に記載の画像抽出方法であって、
さらに、
複数の人物の、一意に当該人物を特定するための人物データと、当該人物の注目部位と、が記憶された人物データベースを利用し、前記人物検出抽出ステップで検出した前記対象人物がどの人物であるか特定する人物特定ステップを備え、
前記人物特定ステップにより前記対象人物が前記人物データベース内のどの人物であるか特定された場合、前記注目部位特定ステップにおいて、前記人物特定ステップで出力された結果に基づいて、前記人物データベースを利用して前記対象人物の注目部位を特定する、画像抽出方法。
請求項７に記載の画像抽出方法であって、
前記人物特定ステップにより前記対象人物が前記人物データベースに存在しないと判定された場合、
前記注目部位特定ステップにおいて、前記キーポイント抽出ステップで抽出したキーポイント情報を、疾患部位ごとに分類される疾患人物の画像のキーポイント情報が記憶された疾患データベースと照合して、前記対象人物の前記注目部位を判定する、画像抽出方法。
請求項６〜８のいずれか１つに記載の画像抽出方法であって、
前記画像判定出力ステップにおいて、前記特定画像の由来するビデオソースを判定し、各ビデオソースからの前記特定画像の数に基づいて前記複数のビデオソースに優先度を付与し、前記ビデオソースの前記優先度に基づいて前記特定画像を更に絞り込む、画像抽出方法。
請求項６〜８のいずれか１つに記載の画像抽出方法であって、
前記画像判定出力ステップにおいて、機械学習の方法により、前記注目部位のそれぞれについてサンプルデータセットを利用してシャープネス判定のモデルをトレーニングし、前記対象人物の注目部位の画像を対応する前記モデルに入力し、その結果から当該注目部位の画像のシャープネスを判定する、画像抽出方法。
コンピュータで実行可能なプログラムであって、
前記プログラムは、コンピュータに請求項６〜１０のいずれか１つに記載の画像抽出方法を実行させる、プログラム。
行動解析システムであって、
請求項１〜５のいずれか１つに記載の画像抽出装置と、
前記画像抽出装置から出力された前記特定画像を利用して、前記対象人物の行動認識を行う行動特徴解析部と、
前記行動特徴解析部の解析結果を出力する通知部と、
を備える、行動解析システム。