WO2022180766A1

WO2022180766A1 - 映像データ処理装置、方法及び非一時的なコンピュータ可読媒体

Info

Publication number: WO2022180766A1
Application number: PCT/JP2021/007260
Authority: WO
Inventors: 大輔杉泊
Original assignee: 日本電気株式会社
Priority date: 2021-02-26
Filing date: 2021-02-26
Publication date: 2022-09-01

Abstract

映像データ処理装置（２）は、映像データを取得する映像データ取得手段（３）と、前記映像データにおけるそれぞれのフレーム画像における顔画像を抽出する顔画像抽出手段（４）と、それぞれの前記フレーム画像における身体画像を抽出する身体画像抽出手段（５）と、前記身体画像と、前記顔画像とに基づいてクラスタ解析を行う解析手段（６）と、前記クラスタ解析の結果に基づいて、解析済映像データを生成する生成手段（７）と、前記解析済映像データを出力する出力手段（８）とを備える。

Description

映像データ処理装置、方法及び非一時的なコンピュータ可読媒体

　本開示は、映像データ処理装置、方法及び非一時的なコンピュータ可読媒体に関する。

　近年の映像技術は、映像データのデジタル化が進み、データの圧縮技術や記憶装置の大容量化が図られていることにより、大量の映像データを蓄積することができる。そのため、映像技術を活用する業界は、蓄積した大量の映像データから必要な映像を取り出し、閲覧する技術への需要を高めている。映像技術を活用する手法の一つは、カメラ等の撮像手段により撮影された映像に対して画像処理等を行い、その映像を構成する画像中に含まれる人物を自動的に検出するものである。

　特許文献１には、映像に含まれる人物に対して、顔領域を検出し、得られる顔領域を用いて身体領域を検出する手段において、その顔領域及び身体領域は、同一人物によるものであるとして対応付けを行う技術が開示されている。

特開２０１０－２５７４５０号公報

　特許文献１において開示された技術によれば、映像に含まれる人物に対して、顔領域を検出し、身体画像と関連付けることは可能である。しかしながら、顔画像と身体画像の関連付けを誤る等の虞がある。そのため、クラスタ解析を行う等により顔画像と身体画像の関連付けの精度の向上が望まれる。

　上述した点に鑑み、本開示において、映像内の人物の顔画像と身体画像の関連付けをより高精度に行うことができる映像データ処理装置、方法及び非一時的なコンピュータ可読媒体を提供する。

　本開示の一態様における映像データ処理装置は、映像データを取得する映像データ取得手段と、前記映像データにおけるそれぞれのフレーム画像における顔画像を抽出する顔画像抽出手段と、それぞれの前記フレーム画像における身体画像を抽出する身体画像抽出手段と、前記身体画像と、前記顔画像とに基づいてクラスタ解析を行う解析手段と、前記クラスタ解析の結果に基づいて、解析済映像データを生成する生成手段と、前記解析済映像データを出力する出力手段とを備えたものである。

　本開示の一態様における映像データ処理方法は、映像データを取得する映像データ取得ステップと、前記映像データにおけるそれぞれのフレーム画像における顔画像を抽出する顔画像抽出ステップと、それぞれの前記フレーム画像における身体画像を抽出する身体画像抽出ステップと、前記身体画像と、前記顔画像とに基づいてクラスタ解析を行う解析ステップと、前記クラスタ解析の結果に基づいて、解析済映像データを生成する生成ステップと、前記解析済映像データを出力する出力ステップとを備えたものである。

　本開示の一態様における非一時的なコンピュータ可読媒体は、映像データを取得する映像データ取得処理と、前記映像データにおけるそれぞれのフレーム画像における顔画像を抽出する顔画像抽出処理と、それぞれの前記フレーム画像における身体画像を抽出する身体画像抽出処理と、前記身体画像と、前記顔画像とに基づいてクラスタ解析を行う解析処理と、前記クラスタ解析の結果に基づいて、解析済映像データを生成する生成処理と、前記解析済映像データを出力する出力処理とを情報処理装置に実現させるための映像データ処理プログラムが格納されたものである。

　上述の態様によれば、映像内の人物の関連付けをより高精度に行うことができる映像データ処理装置、方法及び非一時的なコンピュータ可読媒体を提供することができる。

実施形態に係る映像データ処理装置の構成図である。実施形態に係る映像データ処理システムの構成図である。実施形態に係る映像データ処理システムにおける処理の流れを示すブロック図である。実施形態に係る映像データ処理システムにおける処理の流れを示すフロー図である。実施形態に係る人物の顔画像を抽出する処理の概要を示す図である。実施形態に係る顔矩形位置と頭部位置の関連付け処理の概要図である。実施形態に係る顔矩形位置と頭部位置の関連付け処理の概要図である。実施形態に係る顔矩形位置と頭部位置の関連付け処理の概要図である。実施形態に係る異なるフレーム画像を比較し、顔画像同士及び身体画像同士の関連付けを行う例を示す図である。実施形態に係る異なるフレーム画像を比較し、顔画像同士及び身体画像同士の関連付けを行う例を示す図である。実施形態に係る解析済映像データを生成する処理の概念図である。実施形態に係るクラスタ解析を行った映像データの出力処理の例を示す図である。

　以下、図面を参照しつつ、実施の形態について説明する。なお、図面は簡略的なものであるから、この図面の記載を根拠として実施の形態の技術的範囲を狭く解釈してはならない。また、同一の要素には、同一の符号を付し、重複する説明は省略する。

＜第１の実施形態＞
　図１を用いて、本実施形態における映像データ処理装置２の構成について説明する。図１は、本実施形態における映像データ処理装置２の構成図である。本実施形態における映像データ処理装置２は、映像データ取得部３、顔画像抽出部４、身体画像抽出部５、解析部６、生成部７及び出力部８を備える。

　映像データ取得部３は、映像データを取得する。映像データは、予め記録されたものであってもよい。顔画像抽出部４は、映像データにおけるそれぞれのフレーム画像における顔画像を抽出する。身体画像抽出部５は、それぞれのフレーム画像における身体画像を抽出する。

　解析部６は、身体画像と顔画像とに基づいてクラスタ解析を行う。なお、以下の説明においてクラスタとは、蓄積した映像データから抽出した顔画像と身体画像とを同定し、関連付けられたものをいう。クラスタリングとは、クラスタ解析を行うことをいう。

　生成部７は、クラスタ解析の結果に基づいて、解析済映像データを生成する。出力部８は、解析済映像データを出力する。

　本実施形態における映像データ処理装置２によれば、映像内の人物の顔画像と身体画像の関連付けをより高精度に行うことができる。

＜第２の実施形態＞
　図２を用いて、本実施形態における映像データ処理システム１の構成について説明する。図２は、本実施形態における映像データ処理システム１の構成図である。本実施形態における映像データ処理システム１は、映像に含まれる身体について、身体と顔との関連付けを行い、より確実にクラスタリングを行うものである。

　本実施形態における映像データ処理システム１は、映像データ処理装置１０と、映像データ蓄積サーバ２０とを備える。映像データ処理装置１０は、映像データ取得部１１、顔画像抽出部１２、身体画像抽出部１３、解析部１４、生成部１５及び出力部１６を備える。

　映像データ取得部１１は、記録された映像データを取得する。映像データは予め映像データ蓄積サーバ２０に記録されていたものでもよい。すなわち、映像データ取得部１１は、記録された一連の映像を、映像データ蓄積サーバ２０から取得できる。なお、これに限らず、映像データ取得部１１は、映像データ処理装置１０と接続されたカメラユニット（不図示）から取得してもよい。また、映像フォーマットは、例えば、Ｈ．２６４やＭＰＥＧ－４（Ｍｏｖｉｎｇ　Ｐｉｃｔｕｒｅ　Ｅｘｐｅｒｔｓ　Ｇｒｏｕｐ）など、様々な方式が用いられる。

　顔画像抽出部１２は、映像データのそれぞれのフレームにおいて所定の条件に合致する顔画像を抽出する。顔画像抽出部１２は、所定の条件として、例えば所定の矩形画像における画像の特徴量が、予め設定された顔画像の特徴量と一致するか否かを照合する。顔画像抽出部１２は、映像内の輝度情報から顔画像の特徴量を抽出してもよい。顔画像抽出部１２は、映像に映る人物の型である人型データを抽出した後に、抽出した人型データに含まれる顔データを抽出してもよい。すなわち顔画像抽出部１２は、映像フレーム内の人型データと顔データについて、それぞれの顔矩形位置と頭部位置に基づいて顔画像を抽出してもよい。

　身体画像抽出部１３は、映像データのそれぞれのフレームにおいて所定の条件に合致する身体画像を抽出する。身体画像抽出部１３は、所定の条件として、例えば所定の矩形画像における画像の特徴量が、予め設定された身体画像の特徴量と一致するか否かを照合する。身体画像抽出部１３は、映像内の輝度情報から身体画像の特徴量を抽出してもよい。また、身体画像抽出部１３は複数の身体画像が重なっているかを判定し、重なっていない身体画像を抽出してもよい。

　解析部１４は、顔画像抽出部１２及び身体画像抽出部１３が抽出した顔画像及び身体画像のクラスタ解析を行う。解析部１４は、身体画像に顔画像が付随する場合には、身体画像の類似グループと、この身体画像に付随する顔画像の類似グループとを同一のグループとしてクラスタリングする。解析部１４は、取得した映像データにおける開始時刻から終了時刻までの各フレームについて、顔画像及び身体画像が抽出された後に、抽出された画像に基づいてクラスタ解析を行う。解析部１４は、抽出された顔画像及び身体画像それぞれを関連付ける。解析部１４が行うクラスタ解析については、後に詳述する。

　解析部１４は、解析映像データをフレーム単位で映像データ蓄積サーバ２０に送信してもよい。取得した映像データは、例えばＨＤＲ（Ｈｉｇｈ　Ｄｙｎａｍｉｃ　Ｒａｎｇｅ）処理によって鮮明化されてもよいがこれに限らない。

　生成部１５は、解析部１４が行ったクラスタ解析の結果に基づいて、映像データに付加データを付与して解析済映像データを生成する。付加データは、各フレーム画像に含まれる顔画像または身体画像に関連付けられたグループを示す識別子であってもよい。また、付加データは解析済映像データに表示される人物を識別する文字として、解析済映像データに表示されてもよい。なお、付加データはタグ情報と称してもよい。

　出力部１６は、生成部１５が生成した解析済み映像データを出力する。出力部１６が表示手段を用いて表示する内容は、ユーザが所有する携帯電話機（いわゆるスマートフォンを含む。）や、ＬＣＤ（ｌｉｑｕｉｄ　ｃｒｙｓｔａｌ　ｄｉｓｐｌａｙ）などの機器に表示される構成としてもよい。

　映像データ蓄積サーバ２０は、カメラユニット等を用いて撮影された映像を蓄積する。すなわち、映像データ取得部１１は、記録された一連の映像を、映像データ蓄積サーバ２０から取得できる。なお、これに限らず、映像データ蓄積サーバ２０は、予め記録した映像データをフレーム単位で映像データ取得部１１に送信してもよい。

　なお、映像データ処理装置１０及び映像データ蓄積サーバ２０は、処理に必要な各種のプログラムや各種のデータが固定的に記憶されている不揮発性のメモリ（例えば、ＲＯＭ（Ｒｅａｄ　Ｏｎｌｙ　Ｍｅｍｏｒｙ））を含むことができる。また、記憶手段は、ＨＤＤやＳＳＤを用いるものであってもよいし、作業領域として用いられる揮発性のメモリ（例えば、ＲＡＭ（Ｒａｎｄｏｍ　Ａｃｃｅｓｓ　Ｍｅｍｏｒｙ））を含んでもよい。上記プログラムは、光ディスク、半導体メモリ等の可搬性の記録媒体から読み取られてもよいし、ネットワーク上のサーバ装置からダウンロードされてもよい。

　ここで、本実施形態における映像データ処理システム１が行うクラスタ解析について、図を用いて詳細に説明する。

　図３は、映像データ処理システム１における処理の流れを示すブロック図である。映像データ蓄積サーバ２０は、カメラユニット等が撮影した映像を記憶する（ステップ１０１）。映像データ取得部１１は、映像データ蓄積サーバ２０から映像を取得し、解析部１４は、取得した映像から、映像内の人物が映る時間帯をクラスタ解析する（ステップ１０２）。映像データ処理装置１０は、解析部１４が行ったクラスタ解析の結果を保存する（ステップ１０３）。クラスタリングの結果は付加データを付して保存してもよい。

　映像に映る人物が予め把握できる場合、映像データ処理装置１０又は映像データ蓄積サーバ２０は、当該人物の顔や身体の画像を登録してもよい（ステップ１０４）。映像データ処理装置１０は、クラスタ解析した結果及び予め登録した人物の顔や身体の画像に基づいて、当該人物が映る時間帯や合計時間を検索できてもよい（ステップ１０５）。映像データ処理装置１０又は映像データ蓄積サーバ２０は、検索した結果を記録する（ステップ１０６）。出力部１６は、検索した結果を、表示手段を用いて出力をしてもよい（ステップ１０７）。

　次に、図４を用いて映像データ処理システム１が行う処理のフローを説明する。図４は、映像データ処理システム１における処理の流れを示すフロー図である。

　映像データ取得部１１は、映像データ蓄積サーバ２０から映像を取得する（ステップ２０１）。顔画像抽出部１２は、取得した映像データにおけるそれぞれのフレーム画像における顔画像を抽出する（ステップ２０２）。また、身体画像抽出部１３は、それぞれのフレーム画像における身体画像を抽出する（ステップ２０３）。解析部１４は、顔画像抽出部１２が抽出した顔画像及び身体画像抽出部１３が抽出した身体画像に基づいてクラスタ解析を行う（ステップ２０４）。生成部１５は、解析部１４が行ったクラスタ解析の結果に基づいて、解析済映像データを生成する（ステップ２０５）。出力部１６は、生成部１５が生成した解析済映像データを出力する出力する（ステップ２０６）。

　図５を用いて、人物の顔画像を抽出する処理を説明する。図５は、人物の顔画像を抽出する処理の概要を示す図である。図５に示すように、フレーム画像には人物Ａが映っているものとする。

　図５に示すように、映像データ蓄積サーバ２０は、映像データを静止画であるフレーム画像ごとに記録してもよい。ここでは、人物Ａの顔画像及び身体画像を取得するものとして説明する。映像データ取得部１１が取得したフレーム画像に基づいて、身体画像抽出部１３は、人物Ａの身体の形である人型データを抽出する。解析部１４は、抽出された顔画像及び身体画像それぞれを関連付ける。顔画像の抽出は、人型データから顔画像及び頭部の座標を取得することによって行われてもよい。解析部１４は、頭部の位置と顔の位置とを関連付ける際に、頭部の位置と顔の位置が近ければ同一人物として判別することにより、クラスタリングを行ってもよい。

　図６～８を用いて、顔矩形位置と、人型データが持つ頭部位置によって関連付ける処理について、説明を行う。図６～８は、顔矩形位置と頭部位置の関連付け処理の概要図である。

　図６に示すように、例えば人が多く混雑した映像を取得する場合がある。このとき、人物の顔画像と身体画像との関連付けが困難であるか、関連付けを誤る虞がある。そのため、解析部１４は、身体画像同士に一定の重なりがある場合、両方の身体画像を破棄し、関連付けを行わないものとしてもよい。すなわち、図６に示すように人物Ｂ及び人物Ｃが所定量を超える重なりがある場合、解析部１４は、このフレーム画像からは人物Ｂ及び人物Ｃの顔画像及び身体画像の関連付けは行わない。所定量以上の重なりの閾値は、身体画像同士がどのくらい重なっているかを示す重なり率を用いて判定を行ってもよい。

　また、図７に示すように、人物Ｂ、人物Ｃ及び人物Ｄが重なっている映像を取得する場合もある。このとき、解析部１４は、顔画像と身体画像との位置関係として不自然である場合、顔画像と身体画像との関連付けを行わない。すなわち顔画像が身体画像の所定範囲内にある場合に、前記顔画像と前記身体画像の関連付けを行うこととしてもよい。所定範囲とは、例えば顔画像の位置が身体画像の首部分より上部であって、身体画像から特定された頭部と重なる部分にある場合等が挙げられるが、これに限らない。図７の例では、人物Ｄの顔画像が人物Ｂの身体画像において首部分より下にあることから、解析部１４は、人物Ｄの顔画像と人物Ｂの身体画像との関連付けを行わない。

　また、顔座標が身体画像の中心軸と比べて左右に一定程度以上ずれている場合、解析部１４は顔画像と身体画像を関連付けない。中心軸とは、身体画像の幅に対して中心となる軸としてもよい。すなわち、左右の所定量以上のずれは顔画像が身体画像の中心軸に対して、右又は左に、例えば身体の幅の３０％を閾値としてもよいがこれに限らない。図７において、人物Ｃの顔画像が人物Ｂの身体画像の中心軸に対して右に大きくずれている。そのため、解析部１４は人物Ｂの顔画像と人物Ｄの身体画像との関連付けを行わない。

　さらに、図８に示すように、フレーム画像内における身体画像が上下左右のフレーム画像の枠領域と重複する場合、解析部１４はそれぞれの顔画像と身体画像との関連付けを行わない。身体画像が枠領域と重複する場合、登場人物の動きによって顔部分が映像から外れること等に起因して、顔画像と身体画像の関連付けを誤る虞があるためである。

　なお、顔画像と身体画像とを関連付けることができない場合は、それぞれ個別の顔画像及び身体画像をそれぞれ顔データ、人型データとして記録しておいてもよい。

　図９及び図１０は、異なるフレーム画像を比較し、顔画像同士及び身体画像同士の関連付けを行う例を示す図である。図９及び図１０において、フレーム画像１には人物Ａ、Ｂ及びＣが映っているものとする。フレーム画像２には人物Ａ及びＢが映っているものとする。フレーム画像３には人物Ａ及びＣが映っているものとする。フレーム画像４には人物Ｂが映っているものとする。

　図９において、フレーム画像１、２、３、４の順に映像が流れているものとする。図９において、解析部１４は人物Ａの顔画像及び身体画像の関連付けを行うものとする。図９において、フレーム画像１には人物Ａの顔画像及び身体画像が映っているものとする。フレーム画像２には人物Ａの顔画像が映っているものとする。フレーム画像３には人物Ａの顔画像及び身体画像が映っているものとする。

　解析部１４はクラスタ解析を行い、映像データに含まれる人物を複数のグループに分類する。また生成部１５は、このように分類された複数のグループに関する識別データを、それぞれのフレームに付加する。このような処理によって、登場人物ごとのグループ化が行われる。

　映像データにおいては、同一人物であってもフレーム画像ごとに表情が異なる場合や、服装が異なる場合がある。クラスタリングは、映像内の同一人物の表情や服装などが異なっても、同定できる。既にフレーム画像において関連付けた顔画像と身体画像とに基づいて、他のフレーム画像の顔画像や身体画像を関連付ける。

　図９の例においてフレーム１の人物Ａの表情とフレーム２の人物Ａ’の表情が異なっている場合であってもフレーム１の人物Ａとフレーム２の人物Ａ’は同一人物としてクラスタリングが可能である。また、フレーム１の人物Ａの服装とフレーム３の人物Ａ’’の服装が異なっている場合であってもフレーム１の人物Ａとフレーム２の人物Ａ’は同一とされている。そのため、フレーム２の顔画像とフレーム３の顔画像とに基づいて、フレーム３の人物Ａ’’もフレーム１及びフレーム２の人物Ａと同一人物としてクラスタリングが可能である。

　図１０において、人物Ｂの顔画像及び身体画像の関連付けを行うものとする。フレーム画像１において、人物Ｂの顔画像のみが映り、フレーム画像２において、人物Ｂの身体画像のみが映っているものとする。また、フレーム画像４において、人物Ｂの顔画像及び身体画像が映っており、解析部１４は人物Ｂの顔画像及び身体画像の関連付けを行う。このとき、解析部１４は、フレーム画像４において関連付けられた人物Ｂの顔画像及び身体画像に基づいて、フレーム画像１の顔画像及びフレーム画像２の身体画像をそれぞれ人物Ｂのものとして照合できる。

　ここで、解析部１４は、顔画像及び身体画像を、それぞれ異なるフレーム画像同士で比較を行い、顔画像同士及び身体画像同士の類似度によって関連付けてもよい。顔同士の類似度は、顔矩形領域から瞳中心、鼻翼及び口端などの特徴点を用いて算出してもよい。また、顔同士の類似度は、目鼻の凹凸や傾きなどの特徴点を用いて算出してもよいし、これらに限らず様々な特徴を用いてもよい。

　クラスタ解析の結果に基づいて、生成部１５が解析済映像データを生成する処理について、図１１を用いて説明する。図１１は、解析済映像データを生成する処理の概念図である。図１１に示すように、映像データ取得部１１は上述の処理によって撮影した動画である映像データより静止画であるフレーム画像を取得し、解析部１４は、フレーム画像において抽出した顔画像及び身体画像から人物をクラスタリングすることができる。図１１の例において、映像データに映る人物３０の顔画像及び身体画像を抽出した結果、類似グループ３１として関連付ける。

　上述のとおり、解析部１４は顔画像と身体画像をそれぞれ類似度によって関連付けをおこなった後、顔画像と身体画像を関連付ける。そのため、例えば後姿も判別ができ、クラスタリングを行うことができる。

　また、解析部１４は人同士の距離が近く混雑した場面等、身体画像から特定した頭部の近くに、他人の顔が映っている場合であっても、他のフレーム画像に基づいてクラスタリングを行う。そのため、解析部１４は異なる人物を混同することなく別人物として関連付ける処理を行うことができる。

　図１２を用いて、出力部１６が行う、クラスタ解析を行った映像データの出力処理の例を説明する。図１２は、クラスタ解析を行った映像データの出力処理の例を示す図である。図１２の左に示すように、解析部１４は映像に登場する人物についてクラスタ解析を行う。また図１２の左に示すように、解析部１４はクラスタ解析を行い、映像データに含まれる人物を複数のグループに分類する。また生成部１５は、このように分類された複数のグループに関する識別データを、それぞれのフレームに付加する。さらに生成部１５は、識別データを付加したフレームをタイムラインに沿って並べ、解析済映像データを生成する。生成部１５が生成した解析済映像データは、映像データ取得部１１が取得した映像データと同等のフォーマットによりファイルが生成される。

　図１２の右側は、解析済み映像データを表示する一例を示したものである。
出力部１６が出力する解析済映像データは、各人物がどの時間帯の映像に映っているかをシーンとタイムラインによって表示され得る。図１２の例においては、解析済映像データは、時間軸上にグループ化された各人物がどの時間帯の映像に映っているかを認識可能に表示されている。グループ化された各人物が映像に映っていることを示す情報は、図に示すようなバー表示３２を用いて表示してもよいがこれに限らず、様々な表示方法を用いることができる。

　本実施形態における映像データ処理システム１によれば、映像内の人物の顔画像と身体画像の関連付けをより高精度に行うことができる。

＜第３の実施形態＞
　第２の実施形態において説明した映像データ処理システム１は、放送等において用いられる映画等について用いられてもよい。例えば、映像データ処理システム１を利用するユーザは、映像データ処理システム１を用いることによって映画等において出演者が映る時間帯であるタイムシーン及び合計時間を把握することができる。すなわち、映像データ処理システム１は、出演者の顔が映る時間帯のみならず、身体の一部が映る時間帯もユーザに把握させることができる。言い換えると、映像データ処理システム１は、出演者が正面を向いている映像に加えて、例えば出演者が横を向いている映像や後ろを向いている映像も、この出演者に関連する映像として抽出できる。

＜第４の実施形態＞
　第２の実施形態において説明した映像データ処理システム１は、防犯システム等に用いられる監視映像について用いられてもよい。例えば、映像データ処理システム１を用いることによって不審者の顔画像のみならず身体の一部が映る時間帯を把握することができる。すなわち、不審者の顔が映る時間帯のみならず、身体の一部が映る時間帯も把握することができる。言い換えると、関連する技術においては、例えば不審者が横を向いている時間や後ろを向いている時間まで把握できなかったが、本実施形態における映像データ処理システム１を用いることによってこれらの時間帯も自動で把握できる。

＜その他の実施形態＞
　上述の実施形態は、各々独立に実施されてもよいし、実施形態全体又はその一部が適宜組み合わせて実施されてもよい。

　上述の実施形態では、本開示を、ハードウェアを用いるものとして説明したが、本開示はこれに限定されるものではない。本開示における映像データ処理装置２は、例えば、映像データ処理方法としての実施形態を備える。すなわち映像データ処理方法は、映像データを取得する映像データ取得ステップと、前記映像データにおけるそれぞれのフレーム画像における顔画像を抽出する顔画像抽出ステップと、それぞれの前記フレーム画像における身体画像を抽出する身体画像抽出ステップと、前記身体画像と、前記顔画像とに基づいてクラスタ解析を行う解析ステップと、前記クラスタ解析の結果に基づいて、解析済映像データを生成する生成ステップと、前記解析済映像データを出力する出力ステップとを備える。

　上記の例において、プログラムは、様々なタイプの非一時的なコンピュータ可読媒体（non-transitory computer readable medium）を用いて格納され、コンピュータに供給することができる。非一時的なコンピュータ可読媒体は、様々なタイプの実体のある記録媒体（tangible storage medium）を含む。非一時的なコンピュータ可読媒体は、例えば、磁気記録媒体、光磁気記録媒体、ＣＤ－ＲＯＭ（Read Only Memory）、ＣＤ－Ｒ、ＣＤ－Ｒ／Ｗ、半導体メモリを含む。半導体メモリは、例えば、マスクＲＯＭ、ＰＲＯＭ（Programmable ROM）、ＥＰＲＯＭ（Erasable PROM）、フラッシュＲＯＭ、ＲＡＭ（Random Access Memory）などである。また、プログラムは、様々なタイプの一時的なコンピュータ可読媒体（transitory computer readable medium）によってコンピュータに供給されてもよい。一時的なコンピュータ可読媒体の例は、電気信号、光信号、及び電磁波を含む。一時的なコンピュータ可読媒体は、電線及び光ファイバ等の有線通信路、又は無線通信路を介して、プログラムをコンピュータに供給できる。

　上記プログラムは、映像データを取得する映像データ取得処理と、前記映像データにおけるそれぞれのフレーム画像における顔画像を抽出する顔画像抽出処理と、それぞれの前記フレーム画像における身体画像を抽出する身体画像抽出処理と、前記身体画像と、前記顔画像とに基づいてクラスタ解析を行う解析処理と、前記クラスタ解析の結果に基づいて、解析済映像データを生成する生成処理と、前記解析済映像データを出力する出力処理とを、映像データ処理装置２に実行させる。

　さらに、上述した実施形態は本件発明者により得られた技術思想の適用に関する例に過ぎない。すなわち、当該技術思想は、上述した実施形態のみに限定されるものではなく、種々の変更が可能であることは勿論である。

　例えば、上記の実施形態の一部又は全部は、以下の付記のようにも記載され得るが、以下には限られない。

（付記１）
　映像データを取得する映像データ取得手段と、
　前記映像データにおけるそれぞれのフレーム画像における顔画像を抽出する顔画像抽出手段と、
　それぞれの前記フレーム画像における身体画像を抽出する身体画像抽出手段と、
　前記身体画像と、前記顔画像とに基づいてクラスタ解析を行う解析手段と、
　前記クラスタ解析の結果に基づいて、解析済映像データを生成する生成手段と、
　前記解析済映像データを出力する出力手段と、
　を備えた映像データ処理装置。
（付記２）
　前記解析手段は、前記身体画像に前記顔画像が付随する場合には、
　類似する身体画像のグループである類似身体画像グループと、
　類似する顔画像のグループである類似顔画像グループと、
　を同一のグループとしてクラスタ解析を行う、
　付記１に記載の映像データ処理装置。
（付記３）
　前記解析手段は、複数の前記身体画像同士の重なりが所定量以内である場合に、当該身体画像についてクラスタ解析を行う、
　付記１又は２に記載の映像データ処理装置。
（付記４）
　前記解析手段は、前記顔画像が前記身体画像の所定範囲内にある場合に、前記顔画像と前記身体画像の関連付けを行う、
　付記１～３のいずれか１項に記載の映像データ処理装置。
（付記５）
　前記解析手段は、前記顔画像の前記身体画像の中心軸に対するずれが所定量以内である場合に、前記顔画像と前記身体画像の関連付けを行う、
　付記１～４のいずれか１項に記載の映像データ処理装置。
（付記６）
　前記解析手段は、前記フレーム画像の枠領域と重複するものではない前記身体画像についてクラスタ解析を行う、
　付記１～５のいずれか１項に記載の映像データ処理装置。
（付記７）
　前記解析手段は、前記映像データの開始時刻から終了時刻までにおけるそれぞれのフレーム画像について前記顔画像と前記身体画像が抽出された後に、クラスタ解析を行う、
　付記１～６のいずれか１項に記載の映像データ処理装置。
（付記８）
　前記生成手段は、前記解析済映像データに付加データを付与する、
　付記１～７のいずれか１項に記載の映像データ処理装置。
（付記９）
　前記付加データは、前記各フレーム画像に含まれる前記顔画像または前記身体画像に関連付けられたグループを示す識別子である、
　付記８に記載の映像データ処理装置。
（付記１０）
　映像データを取得する映像データ取得ステップと、
　前記映像データにおけるそれぞれのフレーム画像における顔画像を抽出する顔画像抽出ステップと、
　それぞれの前記フレーム画像における身体画像を抽出する身体画像抽出ステップと、
　前記身体画像と、前記顔画像とに基づいてクラスタ解析を行う解析ステップと、
　前記クラスタ解析の結果に基づいて、解析済映像データを生成する生成ステップと、
　前記解析済映像データを出力する出力ステップと、
　を備えた映像データ処理方法。
（付記１１）
　映像データを取得する映像データ取得処理と、
　前記映像データにおけるそれぞれのフレーム画像における顔画像を抽出する顔画像抽出処理と、
　それぞれの前記フレーム画像における身体画像を抽出する身体画像抽出処理と、
　前記身体画像と、前記顔画像とに基づいてクラスタ解析を行う解析処理と、
　前記クラスタ解析の結果に基づいて、解析済映像データを生成する生成処理と、
　前記解析済映像データを出力する出力処理と、
　を情報処理装置に実現させるための映像データ処理プログラムが格納された非一時的なコンピュータ可読媒体。

１　映像データ処理システム
２、１０　映像データ処理装置
３、１１　映像データ取得部
４、１２　顔画像抽出部
５、１３　身体画像抽出部
６、１４　解析部
７、１５　生成部
８、１６　出力部
２０　映像データ蓄積サーバ

Claims

　映像データを取得する映像データ取得手段と、
　前記映像データにおけるそれぞれのフレーム画像における顔画像を抽出する顔画像抽出手段と、
　それぞれの前記フレーム画像における身体画像を抽出する身体画像抽出手段と、
　前記身体画像と、前記顔画像とに基づいてクラスタ解析を行う解析手段と、
　前記クラスタ解析の結果に基づいて、解析済映像データを生成する生成手段と、
　前記解析済映像データを出力する出力手段と、
　を備えた映像データ処理装置。
　前記解析手段は、前記身体画像に前記顔画像が付随する場合には、
　類似する身体画像のグループである類似身体画像グループと、
　類似する顔画像のグループである類似顔画像グループと、
　を同一のグループとしてクラスタ解析を行う、
　請求項１に記載の映像データ処理装置。
　前記解析手段は、複数の前記身体画像同士の重なりが所定量以内である場合に、当該身体画像についてクラスタ解析を行う、
　請求項１又は２に記載の映像データ処理装置。
　前記解析手段は、前記顔画像が前記身体画像の所定範囲内にある場合に、前記顔画像と前記身体画像の関連付けを行う、
　請求項１～３のいずれか１項に記載の映像データ処理装置。
　前記解析手段は、前記顔画像の前記身体画像の中心軸に対するずれが所定量以内である場合に、前記顔画像と前記身体画像の関連付けを行う、
　請求項１～４のいずれか１項に記載の映像データ処理装置。
　前記解析手段は、前記フレーム画像の枠領域と重複するものではない前記身体画像についてクラスタ解析を行う、
　請求項１～５のいずれか１項に記載の映像データ処理装置。
　前記解析手段は、前記映像データの開始時刻から終了時刻までにおけるそれぞれのフレーム画像について前記顔画像と前記身体画像が抽出された後に、クラスタ解析を行う、
　請求項１～６のいずれか１項に記載の映像データ処理装置。
　前記生成手段は、前記解析済映像データに付加データを付与する、
　請求項１～７のいずれか１項に記載の映像データ処理装置。
　前記付加データは、前記各フレーム画像に含まれる前記顔画像または前記身体画像に関連付けられたグループを示す識別子である、
　請求項８に記載の映像データ処理装置。
　映像データを取得する映像データ取得ステップと、
　前記映像データにおけるそれぞれのフレーム画像における顔画像を抽出する顔画像抽出ステップと、
　それぞれの前記フレーム画像における身体画像を抽出する身体画像抽出ステップと、
　前記身体画像と、前記顔画像とに基づいてクラスタ解析を行う解析ステップと、
　前記クラスタ解析の結果に基づいて、解析済映像データを生成する生成ステップと、
　前記解析済映像データを出力する出力ステップと、
　を備えた映像データ処理方法。
　映像データを取得する映像データ取得処理と、
　前記映像データにおけるそれぞれのフレーム画像における顔画像を抽出する顔画像抽出処理と、
　それぞれの前記フレーム画像における身体画像を抽出する身体画像抽出処理と、
　前記身体画像と、前記顔画像とに基づいてクラスタ解析を行う解析処理と、
　前記クラスタ解析の結果に基づいて、解析済映像データを生成する生成処理と、
　前記解析済映像データを出力する出力処理と、
　を情報処理装置に実現させるための映像データ処理プログラムが格納された非一時的なコンピュータ可読媒体。