JP5962383B2

JP5962383B2 - 画像表示システムおよび画像処理装置

Info

Publication number: JP5962383B2
Application number: JP2012210367A
Authority: JP
Inventors: 聡田端; 和真小泉
Original assignee: Dai Nippon Printing Co Ltd
Current assignee: Dai Nippon Printing Co Ltd
Priority date: 2012-09-25
Filing date: 2012-09-25
Publication date: 2016-08-03
Anticipated expiration: 2032-09-25
Also published as: JP2014067117A

Description

本発明は、撮影した映像を加工して表示する技術に関し、特に撮影されている閲覧者の状態に応じて加工した映像を表示する技術に関する。

ディスプレイやプロジェクタなどの表示装置を用いて広告を表示する広告媒体であるデジタルサイネージ（Digital Signage）が、様々な場所に設置され始めている。デジタルサイネージを用いることで、動画や音声を用いた豊かなコンテンツの提供が可能になるばかりか、デジタルサイネージの設置場所に応じた効率的な広告配信が可能になるため、今後、デジタルサイネージのマーケット拡大が期待されている。

最近では、デジタルサイネージについて、様々な改良が施されており、デジタルサイネージの前に存在する閲覧者の動きに応じて表示させる画像を変化させる技術が提案されている（特許文献１参照）。

特許文献１に記載の技術では、人の認識情報と動き情報を基に合成画像を生成するが、トラッキング処理を行っていないために、各人の閲覧時間が把握できない。そのため、閲覧時間を基にしたシナリオを実現することは不可能であった。これを解決するため、本出願人は、閲覧者の閲覧時間を基にシナリオに応じて各個人にインタラクティブに対応して表示する技術を提案している（特許文献２参照）。

特許第４２３８３７１号公報特開２０１２−９４１０３号公報

しかしながら、上記特許文献１に記載の技術では、閲覧者の顔画像と他の画像を合成したものを迅速に表示することは難しいという問題がある。

そこで、本発明は、閲覧者の顔画像と他の画像を合成したものを迅速に表示することが可能な画像表示システムおよび画像処理装置を提供することを課題とする。

上記課題を解決するため、本発明第１の態様では、人物を撮影するカメラと、カメラから送出される撮影映像を合成処理する画像処理装置と、合成処理された合成映像を表示するディスプレイとを備えた画像表示システムであって、前記画像処理装置は、映像上の１人以上の人物とコンテンツとの合成のタイミングを定めたシナリオデータを記憶したシナリオデータ記憶手段と、合成に用いるコンテンツを記憶したコンテンツ記憶手段と、前記ディスプレイに表示させる画像を一時的に記憶する表示用メモリ領域を有するメモリと、前記カメラから送出された映像の１つのフレームから顔画像を検出し、検出した前記顔画像毎に、顔検出枠の位置および矩形サイズを顔検出枠データとして出力する顔検出手段と、前記顔検出手段から取得した前記顔検出枠データを、他のフレームの顔検出枠データと１つの顔オブジェクトとして対応付けるトラッキング手段と、前記顔検出手段により検出された顔検出枠データを含む顔オブジェクトに対して、前記シナリオデータに定義される人物との対応付けを行うシナリオデータ対応付け手段と、前記対応付けに従って、前記顔オブジェクトを前記シナリオデータの人物に割り当て、前記シナリオデータにより規定されるコンテンツ画像を前記コンテンツ記憶手段から取得した後、前記コンテンツ画像に設定された割付枠のサイズに合わせて、前記顔画像のサイズを変更し、前記コンテンツ画像と合成して得られる挿入画像を前記表示用メモリ領域に記録し、各フレームについて、前記挿入画像に対応する箇所をマスクして表示用メモリ領域に記録することにより表示用画像を作成する合成画像作成手段と、を備えていることを特徴とする画像表示システムを提供する。

本発明第１の態様によれば、閲覧者の顔画像と他の画像を合成したものを迅速に表示することが可能となる。

また、本発明第２の態様では、本発明第１の態様による画像表示システムにおいて、前記コンテンツ記憶手段は、前記顔画像と前記コンテンツ画像を合成するためのコンテンツ用マスクと、前記挿入画像と前記フレームを合成するための全体マスクを記憶しており、前記合成画像作成手段は、前記コンテンツ用マスクを用いて前記挿入画像を作成し、前記全体マスクを用いて前記表示用画像を作成することを特徴とする。

本発明第２の態様によれば、より迅速に閲覧者の顔画像と他の画像を合成したものを表示することが可能となる。

また、本発明第３の態様では、人物を撮影するカメラと、合成処理された合成映像を表示するディスプレイと、接続され、カメラから送出される撮影映像を合成処理してディスプレイに送出する装置であって、映像上の１人以上の人物とコンテンツとの合成のタイミングを定めたシナリオデータを記憶したシナリオデータ記憶手段と、合成に用いるコンテンツを記憶したコンテンツ記憶手段と、前記カメラから送出された映像の１つのフレームから顔画像を検出し、検出した前記顔画像毎に、顔検出枠の位置および矩形サイズを顔検出枠データとして出力する顔検出手段と、前記顔検出手段から取得した前記顔検出枠データを、他のフレームの顔検出枠データと１つの顔オブジェクトとして対応付けるトラッキング手段と、前記顔検出手段により検出された顔検出枠データを含む顔オブジェクトに対して、前記シナリオデータに定義される人物との対応付けを行うシナリオデータ対応付け手段と、前記対応付けに従って、前記顔オブジェクトを前記シナリオデータの人物に割り当て、前記シナリオデータにより規定されるコンテンツ画像を前記コンテンツ記憶手段から取得した後、前記コンテンツ画像に設定された割付枠のサイズに合わせて、前記顔画像のサイズを変更し、前記コンテンツ画像と合成して得られる挿入画像を前記表示用メモリ領域に記録し、各フレームについて、前記挿入画像に対応する箇所をマスクして表示用メモリ領域に記録することにより表示用画像を作成する合成画像作成手段と、を備えていることを特徴とする画像処理装置を提供する。

本発明第３の態様によれば、カメラにより撮影された閲覧者の顔画像と他の画像を合成したものを迅速にディスプレイに表示することが可能となる。

また、本発明第４の態様では、本発明第３の態様による画像処理装置において、前記コンテンツ記憶手段は、前記顔画像と前記コンテンツ画像を合成するためのコンテンツ用マスクと、前記挿入画像と前記フレームを合成するための全体マスクを記憶しており、前記合成画像作成手段は、前記コンテンツ用マスクを用いて前記挿入画像を作成し、前記全体マスクを用いて前記表示用画像を作成することを特徴とする。

本発明第４の態様によれば、より迅速にカメラにより撮影された閲覧者の顔画像と他の画像を合成したものをディスプレイに表示することが可能となる。

本発明によれば、閲覧者の顔画像と他の画像を合成したものを迅速に表示することが可能となるという効果を奏する。

本実施形態における画像表示システム１の構成を説明する図。画像表示システム１を構成する画像処理装置２のハードウェア構成図。画像処理装置２に実装されたコンピュータプログラムで実現される機能ブロック図。画像処理装置２がフレームを解析する処理を説明するフロー図。トラッキング処理を説明するためのフロー図。顔検出枠データ対応付け処理を説明するためのフロー図。本実施形態における状態遷移表を説明する図。人体および顔検出結果を説明するための図。画像処理装置２が表示用画像を作成する処理を説明するフロー図。ＸＭＬ形式のシナリオデータの一例を示す図。コンテンツ記憶手段に記憶されているデータの一例を示す図。合成による画像の変化の状態を示す図。画像処理装置２´に実装されたコンピュータプログラムで実現される機能ブロック図。顔検出処理およびトラッキング処理を説明するためのフロー図。

≪１．システム構成≫
以下、本発明の好適な実施形態について図面を参照して詳細に説明する。図１は、本実施形態における画像表示システム１の構成を説明する図、図２は、画像表示システム１を構成する画像処理装置２のハードウェア構成図、図３は、画像処理装置２に実装されたコンピュータプログラムで実現される機能ブロック図である。

図１で図示したように、画像表示システム１には、液晶ディスプレイ等の表示デバイスであるディスプレイ３が含まれる。このディスプレイ３には、撮影した画像だけでなく、表示領域を分けて広告を表示するようにしても良い。

この場合、ディスプレイ３を街頭や店舗などに設置することにより、画像表示システム１はデジタルサイネージとしても機能する。画像表示システム１をデジタルサイネージとして機能させる場合、ディスプレイ３で表示する広告映像を制御するサーバが必要となる。

ディスプレイ３には、ディスプレイ３で再生されている映像を見ている人物の顔が撮影されるようにアングルが設定され、ディスプレイ３で再生されている広告映像を閲覧している人物を撮影するビデオカメラ４が設置されている。

このビデオカメラ４で撮影された映像は、ＵＳＢポートなどを利用して画像処理装置２に入力され、画像処理装置２は、ビデオカメラ４から送信された映像に含まれるフレームを解析し、ディスプレイ３の前にいる人物や，ディスプレイ３で再生されている映像を閲覧した人物の顔を検出し、閲覧者に関するログ（例えば、ディスプレイ３の閲覧時間）を記憶する。

図１で図示した画像表示システム１を構成する装置において、ディスプレイ３およびビデオカメラ４は市販の装置を利用できるが、画像処理装置２は、従来技術にはない特徴を備えているため、ここから、画像処理装置２について詳細に説明する。

画像処理装置２は汎用のコンピュータを利用して実現することができ、汎用のコンピュータと同様なハードウェアを備えている。図２の例では、画像処理装置２は、該ハードウェアとして、ＣＰＵ（Central Processing Unit）２ａと、ＢＩＯＳが実装されるＲＯＭ（Read-Only Memory）２ｂと、コンピュータのメインメモリであるＲＡＭ（Random Access Memory）２ｃと、外部記憶装置として大容量のデータ記憶装置（例えば，ハードディスク）２ｄと、外部デバイス（ビデオカメラ４）とデータ通信するための入出力インタフェース２ｅと、ネットワーク通信するためのネットワークインタフェース２ｆと、表示デバイス（ディスプレイ３）に情報を送出するための表示出力インタフェース２ｇと、文字入力デバイス（例えば、キーボード）２ｈと、ポインティングデバイス（例えば、マウス）２ｉを備えている。

画像処理装置２のデータ記憶装置２ｄには、ＣＰＵ２ａを動作させるためのコンピュータプログラムが実装され、このコンピュータプログラムによって、画像処理装置２には図３で図示した手段が備えられる。また、データ記憶装置２ｄは、画像表示システムに必要な様々なデータを格納することが可能となっており、映像上の１人以上の人物とコンテンツとの合成のタイミングを定めたシナリオデータを記憶したシナリオデータ記憶手段、合成に用いるコンテンツを記憶したコンテンツ記憶手段としての役割も果たしている。また、ＲＡＭ２ｃは、表示出力インタフェース２ｇを介してディスプレイ３に表示する画像を一時的に記録するための表示用メモリ領域を有している。

ここで、コンテンツ記憶手段に格納されているコンテンツ画像について説明しておく。コンテンツ画像は、撮影された映像を構成する各フレーム（撮影画像）、および顔画像と合成して挿入画像を得る際の素材画像である。図１１にコンテンツ記憶手段に記憶されているデータの一例を示す。コンテンツ画像としては、特に限定されず、様々な内容のものを用いることができるが、図１１の例では、コンテンツ画像として絵画を内容とするものを示している。図１１（ａ）は、絵画のコンテンツ画像であり、図１１（ｂ）は、図１１（ａ）のコンテンツ画像と顔画像を合成する際に用いるコンテンツ用マスクであり、図１１（ｃ）は、図１１（ａ）のコンテンツ画像と顔画像を合成して得られる挿入画像と撮影映像のフレームを合成する際に用いる全体マスクである。コンテンツ画像は矩形状の基準枠（ｘ，ｙ方向の位置、幅、高さにより規定される）を有しており、この基準枠を用いて、表示用メモリ領域においてフレームとの位置合わせが可能になっている。

また、コンテンツ用マスクは、コンテンツ画像と同サイズ（同画素数）であり、顔画像とコンテンツ画像を合成する際にコンテンツ画像をマスクする箇所が画素単位で設定されている。図１１（ｂ）の例では、コンテンツ用マスクは、コンテンツ画像をマスクする箇所を白く、コンテンツ画像をマスクしない箇所を黒く表現している。実際には、０〜２５５の２５６階調の場合、黒い部分の画素には“０”が設定され、白い部分の画素には“２５５”が設定されている。図１１（ｂ）の例では、コンテンツ画像をマスクする箇所は、白い円形状となっており、図１１（ａ）と対比するとわかるように、絵画の顔の部分に対応している。また、コンテンツ用マスクには、顔画像と位置合わせするための矩形状の顔画像割付枠が設定される。この顔画像割付枠は、当然のことながら、白い円形状の部分に対応する位置に設定される。本実施形態では、顔画像割付枠は、後述するシナリオデータ上で設定される。また、全体マスクは、コンテンツ画像と同サイズ（同画素数）であり、挿入画像とフレームを合成する際にフレームをマスクする箇所が画素単位で設定されている。図１１（ｃ）の例では、全体マスクは、フレームをマスクする箇所を白く表現しており、挿入画像に対応する全ての画素がマスクされる。実際には、０〜２５５の２５６階調の場合、白い部分の画素には“２５５”が設定されている。

図３で図示したように、画像処理装置２の入力は、ビデオカメラ４によって撮影された撮影映像であり、画像処理装置２の出力は、この撮影映像を加工した加工映像である。撮影映像、加工映像は、それぞれ複数のフレーム、複数の加工画像により構成されているため、実際には、フレームを入力し、加工画像を出力することになる。

画像処理装置２には、ビデオカメラ４によって撮影された映像のフレームを解析する手段として、ビデオカメラ４によって撮影された映像のフレームの背景画像を除去する背景除去手段２０と、背景除去手段２０によって背景が除去されたフレームから人物の顔を検出する顔検出手段２１と、背景除去手段２０によって背景画像が除去されたフレームから人体を検出する人体検出手段２２と、顔検出手段２１が検出した顔を前後のフレームで対応付けるトラッキング手段２３と、パーティクルフィルタなどの動画解析手法を用い、指定された顔画像をフレームから検出する動画解析手段２４と、顔検出手段２１が新規に検出した顔画像毎に顔オブジェクトを生成し、トラッキング手段２３から得られる一つ前と今回の顔検出枠データの対応付け結果を参照し、事前に定めた状態遷移表に従い顔オブジェクトの状態を遷移させ、顔オブジェクトの状態遷移に応じたログを記憶する状態遷移管理手段２５と、顔検出手段２１により検出され、状態遷移管理手段２５により状態遷移された顔オブジェクトと、用意されたシナリオデータの対応付けを行うシナリオデータ対応付け手段８３と、ビデオカメラ４によって撮影された映像の各フレームをシナリオデータに従って加工して、挿入画像、表示用画像等の合成画像を作成する合成画像作成手段８４を備える。更に、本実施形態では、ディスプレイ３を閲覧した人物の属性（年齢や性別）をログデータに含ませるために、顔検出手段２１が検出した顔画像から人物の人物属性（年齢や性別）を推定する人物属性推定手段２６、状態遷移管理手段２５が記憶したログをファイル形式で出力するログファイル出力手段２７、加工対象のターゲット（人または場所）をシナリオデータ中に定義する合成ターゲット定義手段８０、加工に用いるコンテンツ（画像、音声、ＣＧ等）をシナリオデータ中に定義する合成コンテンツ定義手段８１、加工内容をシナリオデータ中に定義するアニメーションシナリオ定義手段８２を備えている。

シナリオデータは、別のシステムで事前に作成し、シナリオデータ記憶手段としてのデータ記憶装置２ｄに格納しておくことができるが、合成ターゲット定義手段８０、合成コンテンツ定義手段８１、アニメーションシナリオ定義手段８２により、作成することもできる。合成ターゲット定義手段８０、合成コンテンツ定義手段８１、アニメーションシナリオ定義手段８２は、撮影により得られた映像の各フレームをどのように加工するかを示したシナリオデータを作成するために用いられるものである。シナリオデータの形式は特に限定されないが、本実施形態では、ＸＭＬ（eXtensible Markup Language）を採用している。シナリオデータとしてＸＭＬを採用した本実施形態では、合成ターゲット定義手段８０、合成コンテンツ定義手段８１、アニメーションシナリオ定義手段８２は、テキストエディタで実現することができる。したがって、テキストエディタを起動し、管理者が文字入力デバイスを用いて文字入力を行うことにより、シナリオデータが作成される。

図１０は、ＸＭＬ形式のシナリオデータの一例を示す図である。ここからは、図１０のシナリオデータを参照しながら、合成ターゲット定義手段８０、合成コンテンツ定義手段８１、アニメーションシナリオ定義手段８２について詳細に説明する。合成ターゲット定義手段８０は、ヒューマンＩＤ（HumanID）、タイプ（Type）、サイクル間隔（CycleInterval）、自動ループ（IsAutoLoop）の４つの項目を設定することにより処理対象となるターゲットを定義する。図１０の例では、１行目の<Simulation Targets>と、４行目の</Simulation Targets>の２つのタグで囲まれた範囲に対応する。

ヒューマンＩＤは、検出されたある人物を識別する識別情報であり、図１０に示すように、１つしか設定されていない場合、１人に対してだけ処理が行われる。タイプについては、人間以外についても設定可能であるが、図１０の例では、“human”を用いて人間について設定している。サイクル間隔（CycleInterval）は、シナリオの開始から終了までの時間を秒単位で設定するものであり、図１０の例では、“１０”が設定されているので、シナリオの開始から終了まで１０秒であることを示している。自動ループ（IsAutoLoop）は、自動ループ処理（自動繰り返し処理）を行うかどうかを設定するものであり、図１０の例では、“true”が設定されているので、自動ループ処理を行うことを示している。図１０の例では、２行目のタグで、ヒューマンＩＤ、タイプ、サイクル間隔、自動ループの４項目を設定しており、ヒューマンＩＤは“０”、タイプは“human(人間)” 、サイクル間隔は“１０（秒）”、自動ループは“true(設定する)”となっている。

合成コンテンツ定義手段８１は、動的コンテンツＩＤ（DynamicImageContents ID）、合成手法（MontageType）、コンテンツパス（ContentsPath）、コンテンツ用マスクパス（InsertMontageMaskFilePath）、全体マスクパス（MaskFilePath）、基礎エリア（BaceArea）、挿入エリア（InsertMontageArea）、消失時間（DisapearanceTime）、動的コンテンツ再作成（IsEnableReCreateDynamicImageContents）、更新時間（RefleshTime）の１０の項目を設定することにより合成対象のコンテンツを定義する。図１０の例では、５行目の<Simulation Contents>と、１７行目の</Simulation Contents >の２つのタグで囲まれた範囲に対応する。

動的コンテンツＩＤは、動的コンテンツを特定するＩＤである。動的コンテンツは複数定義することもできるが、図１０の例では、６行目の< DynamicImageContents>と、１６行目の</ DynamicImageContents>の２つのタグで囲まれた範囲により、動的コンテンツが1つだけ定義されている。動的コンテンツとは、ハードディスク等の不揮発性の記憶手段に記憶されたものでなく、閲覧者の撮影を開始した後、表示用メモリ領域上に動的に作成されるものである。本実施形態では、顔画像とコンテンツ画像を合成した挿入画像を動的コンテンツとして用いる。

合成手法（MontageType）とは、閲覧者の顔画像とコンテンツ画像をどのような手法により合成するかを示すものであり、本実施形態では、アルファブレンディング、ポアソンブレンディング、ＭｅａｎＶａｌｕｅＣｌｏｎｉｎｇの３タイプが用意されている。図１０の例では、合成手法として、ポアソンブレンディング（PoissonBlendMontage）が設定されている。

コンテンツパスは、図１１（ａ）に示したようなコンテンツ画像の記憶位置を特定するパスである。コンテンツ用マスクパスは、図１１（ｂ）に示したようなコンテンツ用マスクの記憶位置を特定するパスである。全体マスクパスは、図１１（ｃ）に示したような全体マスクの記憶位置を特定するパスである。基礎エリアは、表示用メモリ領域における顔画像の配置位置を指定するものである。挿入エリアは、表示用メモリ領域における挿入画像の配置位置を指定するものである。

消滅時間は、表示用メモリ領域上に作成された挿入画像（動的コンテンツ）を、消去するまでの時間を示すものである。動的コンテンツ再作成は、表示用メモリ領域上に作成された挿入画像が表示用メモリ領域上に存在している状態で、新たなターゲットが検出された場合に、新たな挿入画像を作成するかどうかを示すものである。更新時間は、挿入画像における顔画像の更新時間間隔を示すものである。

アニメーションシナリオ定義手段８２は、コマンドＩＤ（CommandID）、コマンドタイプ（CommandType）、開始キー（StartKey）、終了キー（EndKey）、キータイプ（KeyType）、ターゲットＩＤ（TargetsID）、コンテンツＩＤ（ContentsID）の７つの項目を設定することによりアニメーションシナリオを定義する。図１０の例では、１８行目の<Animation Commands>と、２３行目の</Animation Commands>の２つのタグで囲まれた範囲に対応する。図１０の例では、コマンドＩＤ（CommandID）が“０”と“１”の２つのコマンドについて定義されている。図１０に示すように、コマンドＩＤ“０”のコマンドについては、コマンドタイプ、キータイプ、ターゲットＩＤ、コンテンツＩＤが設定され、コマンドＩＤ“１”のコマンドについては、コマンドタイプ、キータイプ、開始キー、終了キー、ターゲットＩＤ、コンテンツＩＤが設定されている。

開始キー、終了キーは各コマンドの開始時点、終了時点を設定するものである。本実施形態では、シナリオデータの時間を、シナリオ開始時を“０．０”、シナリオ終了時を“１．０”として管理している。したがって、最初に開始するコマンドの開始キー（StartKey）は“０．０”、最後に終了するコマンドの終了キー（EndKey）は“１．０”となる。キータイプとは、開始キー、終了キーの基準とする対象を設定するものであり、own、base、globalの３つが用意されている。ownは各ターゲットＩＤに対応する顔オブジェクトの閲覧時間を基準とし、baseはターゲットＩＤ＝０に対応する顔オブジェクトの閲覧時間を基準とし、globalは撮影映像の最初のフレームを取得した時間を基準とする。図１０の例では、コマンドＩＤ“１”のキータイプ（KeyType）として、globalが設定されているので、撮影映像の最初のフレームが取得された時点を“０．０”として、開始キー、終了キーが認識されることになる。

図１０の例では、２行目に示したようにサイクル間隔（CycleInterval）として“１０”が設定されているので、シナリオの開始から終了まで１０秒であることを示している。したがって、開始キー、終了キーの値を１０倍した実時間でシナリオは管理されることになる。ターゲットＩＤ（TargetsID）は、<SimulationTargets>タグ内のＩＤ（HumanID、SceanID）に１対１で対応している。コンテンツＩＤ（ContentsID）は、検出された人物と合成するコンテンツを特定する識別情報である。このようにして、合成ターゲット定義手段８０、合成コンテンツ定義手段８１、アニメーションシナリオ定義手段８２により作成されたシナリオデータは、シナリオデータ記憶手段としてのデータ記憶装置２ｄに格納される。

画像処理装置２が、ビデオカメラ４によって撮影された映像のフレームを時系列で解析することで、画像処理装置２のデータ記憶装置２ｄには、閲覧測定に利用可能なログファイルとして、ディスプレイの閲覧時間が記憶される閲覧時間ログファイルと、ディスプレイを閲覧した人物の位置が記憶される位置ログファイルと、ディスプレイを閲覧した人物の人物属性（例えば，年齢・性別）が記憶される人物属性ログファイルと、ディスプレイの前にいる人物の総人数、ディスプレイを閲覧していない人物の人数、ディスプレイを閲覧した人物の人数が記憶される人数ログファイルが記憶され、これらのログファイルを出力するログファイル出力手段２７が画像処理装置２には備えられている。本発明では、ログファイルを作成することは必須ではないが、ログファイルを作成する過程における顔オブジェクト、閲覧開始時刻が、合成画像の作成に利用される。

≪２．処理動作≫
まず、ビデオカメラ４から送信された映像のフレームを画像処理装置２が解析する処理を説明しながら、ビデオカメラ４によって撮影された映像のフレームを解析、加工するために備えられた各手段について説明する。

図４は、ビデオカメラ４から送信された映像のフレームを画像処理装置２が解析する処理を説明するフロー図である。それぞれの処理の詳細は後述するが、画像処理装置２に映像の一つのフレームが入力されると、画像処理装置２は該フレームについて背景除去処理Ｓ１を行い、背景除去処理Ｓ１した後のフレームについて、顔検出処理Ｓ２および人体検出処理Ｓ３を行う。

画像処理装置２は、背景除去処理Ｓ１した後のフレームについて、顔検出処理Ｓ２および人体検出処理Ｓ３を行った後、顔検出処理Ｓ２の結果を利用して、今回の処理対象となるフレームであるＮフレームから検出された顔と、一つ前のフレームであるＮ−１フレームから検出された顔を対応付けるトラッキング処理Ｓ４を行い、トラッキング処理Ｓ４の結果を踏まえて顔オブジェクトの状態を遷移させる状態遷移管理処理Ｓ５を実行する。

まず、背景除去処理Ｓ１について説明する。背景除去処理Ｓ１を担う手段は、画像処理装置２の背景除去手段２０である。画像処理装置２が背景除去処理Ｓ１を実行するのは、図１に図示しているように、ディスプレイ３の上部に設けられたビデオカメラ４の位置・アングルは固定であるため、ビデオカメラ４が撮影した映像には変化しない背景が含まれることになり、この背景を除去することで、精度よく人体および顔を検出できるようにするためである。

画像処理装置２の背景除去手段２０が実行する背景除去処理としては既存技術を利用でき、ビデオカメラ４が撮影する映像は、例えば、朝、昼、夜で光が変化する場合があるので、背景の時間的な変化を考慮した動的背景更新法を用いることが好適である。

背景の時間的な変化を考慮した動的背景更新法としては、例えば、「森田真司, 山澤一誠, 寺沢征彦, 横矢直和: "全方位画像センサを用いたネットワーク対応型遠隔監視システム", 電子情報通信学会論文誌（D-II), Vol. J88-D-II, No. 5, pp. 864-875, (2005.5)」に記載されている手法を用いることができる。

次に、画像処理装置２の顔検出手段２１によって実行される顔検出処理Ｓ２について説明する。顔検出処理Ｓ２で実施する顔検出方法としては、特許文献１に記載されているような顔検出方法も含め、様々な顔検出方法が開示されているが、本実施形態では、弱い識別器として白黒のHaar-Like特徴を用いたAdaboostアルゴリズムによる顔検出法を採用している。なお、弱い識別器として白黒のHaar-Like特徴を用いたAdaboostアルゴリズムによる顔検出法については、「Paul Viola and Michael J. Jones, "Rapid Object Detection using a Boosted Cascade of Simple Features", IEEE CVPR, 2001.」、「Rainer Lienhart and Jochen Maydt, "An Extended Set of Haar-like Features for Rapid Object Detection", IEEE ICIP 2002, Vol. 1, pp. 900-903, Sep. 2002.」で述べられている。

弱い識別器として白黒のHaar-Like特徴を用いたAdaboostアルゴリズムによる顔検出法を実行することで、フレームに含まれる顔画像毎に顔検出枠データが得られ、この顔検出枠データには、顔画像を検出したときに利用した顔検出枠の位置（例えば、左上隅の座標）および矩形サイズ（幅および高さ）が含まれる。

次に、画像処理装置２の人体検出手段２２によって実行される人体検出処理Ｓ３について説明する。人体を検出する手法としては赤外線センサを用い、人物の体温を利用して人体を検出する手法が良く知られているが、本実施形態では、人体検出処理Ｓ３で実施する人体検出方法として、弱い識別器としてＨＯＧ（Histogram of Oriented Gradients）特徴を用いたAdaboostアルゴリズムによる人体検出法を採用している。なお、弱い識別器としてＨＯＧ（Histogram of Oriented Gradients）特徴を用いたAdaboostアルゴリズムによる人体検出法については、「N. Dalal and B. Triggs，"Histograms of Oriented Gradientstional Conference on Computer Vision，pp. 734-741，2003．」で述べられている。

弱い識別器としてＨＯＧ特徴を用いたAdaboostアルゴリズムによる人体検出法を実行することで、フレームに含まれる人体毎に人体検出枠データが得られ、この人体検出枠データには、人体画像を検出したときに利用した人体検出枠の位置（例えば、左上隅の座標）および矩形サイズ（幅および高さ）が得られる。

図８は、人体および顔検出結果を説明するための図である。図８のフレーム７で撮影されている人物は、人物７ａ〜７ｆの合計６人が含まれ，画像処理装置２の人体検出手段２２はそれぞれの人物７ａ〜７ｆを検出し、それぞれの人物７ａ〜７ｆに対応する人体検出枠データ７０ａ〜７０ｆを出力する。また、画像処理装置２の顔検出手段２１は、両眼が撮影されている人物７ａ〜７ｃの顔を検出し、それぞれの顔に対応する顔検出枠データ７１ａ〜７１ｃを出力する。

次に、画像処理装置２のトラッキング手段２３によって実行されるトラッキング処理Ｓ４について説明する。トラッキング処理Ｓ４では、画像処理装置２のトラッキング手段２３によって、顔検出手段２１がＮ−１フレームから検出した顔検出枠データと、顔検出手段２１がＮフレームから検出した顔検出枠データを対応付ける処理が実行される。

ここから，画像処理装置２のトラッキング手段２３によって実行されるトラッキング処理Ｓ４について詳細に説明する。図５は、画像処理装置２のトラッキング手段２３によって実行されるトラッキング処理Ｓ４を説明するためのフロー図である。

画像処理装置２のトラッキング手段２３は、Ｎフレームをトラッキング処理Ｓ４するために、まず、Ｎフレームから得られた顔検出枠データおよび人体検出枠データをそれぞれ顔検出手段２１および人体検出手段２２から取得する（Ｓ１０）。

なお、次回のトラッキング処理Ｓ４において、Ｎフレームから得られた顔検出枠データは、Ｎ−１フレームの顔検出枠データとして利用されるため、画像処理装置２のトラッキング手段２３は、Ｎフレームから得られた顔検出枠データをＲＡＭ２ｃまたはデータ記憶装置２ｄに記憶する。

画像処理装置２のトラッキング手段２３は、Ｎフレームの顔検出枠データおよび人体検出枠データを取得すると、Ｎフレームの人体検出枠データ毎に、ディスプレイの閲覧判定を行う（Ｓ１１）。

上述しているように、人体検出枠データには人体検出枠の位置および矩形サイズが含まれ、顔検出枠データには顔検出枠の位置および矩形サイズが含まれるため、顔検出枠が含まれる人体検出枠データは、ディスプレイ３を閲覧している人物の人体検出枠データと判定でき、また、顔検出枠が含まれない人体検出枠データは、ディスプレイ３を閲覧していない人物の人体検出枠データと判定できる。

画像処理装置２のトラッキング手段２３は、このようにして、Ｎフレームの人体検出枠データ毎にディスプレイの閲覧判定を行うと、Ｎフレームが撮影されたときの人数ログファイルとして、ディスプレイ３の前にいる人物の総人数、すなわち、人体検出手段２２によって検出された人体検出枠データの数と、ディスプレイ３を閲覧していない人物の人数、すなわち、顔検出枠が含まれていない人体検出枠データの数と、ディスプレイ３を閲覧している人物の人数、すなわち、顔検出枠が含まれる人体検出枠データの数を記載した人数ログファイルを生成し、Ｎフレームのフレーム番号などを付与してデータ記憶装置２ｄに記憶する。

画像処理装置２のトラッキング手段２３は、Ｎフレームの人体検出枠データ毎に、ディスプレイの閲覧判定を行うと、顔検出手段２１がＮ−１フレームから検出した顔検出枠データと、顔検出手段２１がＮフレームから検出した顔検出枠データを対応付ける顔検出枠データ対応付け処理Ｓ１２を実行する。

図６は、顔検出枠データ対応付け処理Ｓ１２を説明するためのフロー図で、本実施形態では、図６で図示したフローにおいて、以下に記述する[数１]の評価関数を用いて得られる評価値を利用して、顔検出枠データの対応付けがなされる。

なお、[数１]の評価関数ｆ１（）は、ニアレストネイバー法を用いた評価関数で、評価関数ｆ１（）で得られる評価値は、顔検出枠データの位置および矩形サイズの差を示した評価値になる。また、[数１]の評価関数ｆ２（）で得られる評価値は、評価関数ｆ１（）から求められる評価値に、顔検出枠データで特定される顔検出枠に含まれる顔画像から得られ、顔画像の特徴を示すＳＵＲＦ特徴量の差が重み付けして加算された評価値になる。

Ｎ−１フレームから検出した顔検出枠データとＮフレームから検出した顔検出枠データを対応付けるために、画像処理装置２のトラッキング手段２３は、まず、Ｎフレームから得られた顔検出枠データの数だけループ処理Ｌ１を実行する。

このループ処理Ｌ１において、画像処理装置２のトラッキング手段２３は、まず、Ｎ−１フレームから検出された顔検出枠データの数だけループ処理Ｌ２を実行し、このループ処理Ｌ２では、ループ処理Ｌ１の処理対象となる顔検出枠データの位置および矩形サイズと、ループ処理Ｌ２の処理対象となる顔検出枠データの位置および矩形サイズを、[数１]の評価関数ｆ１（）に代入して評価値を算出し（Ｓ１２０）、ループ処理Ｌ１の対象となる顔検出枠データとの位置および矩形サイズの差を示す評価値が、Ｎ−１フレームから検出された顔検出枠データ毎に算出される。

画像処理装置２のトラッキング手段２３は、ループ処理Ｌ１の処理対象となる顔検出枠データとの位置および矩形サイズの差を示す評価値を、Ｎ−１フレームから検出された顔検出枠データ毎に算出すると、該評価値の最小値を検索し（Ｓ１２１）、該評価値の最小値と他の評価値との差分を算出した後（Ｓ１２２）、閾値以下の該差分値があるか判定する（Ｓ１２３）。

そして、画像処理装置２のトラッキング手段２３は、ループ処理Ｌ１の処理対象となる顔検出枠データとの位置・矩形サイズの差を示す評価値の最小値と他の評価値との差分の中に、閾値以下の差分がある場合，画像処理装置２のトラッキング手段２３は、評価値が閾値以内である顔検出枠データ数だけループ処理Ｌ３を実行する。

このループ処理Ｌ３では、ループ処理Ｌ１の処理対象となる顔検出枠データで特定される顔検出枠内の顔画像と、ループ処理Ｌ３の処理対象となるＮ−１フレームの顔検出枠データで特定される顔検出枠内の顔画像とのＳＵＲＦ特徴量の差が求められ、ＳＵＲＦ特徴量の差が[数１]の評価関数ｆ２（）に代入され、ＳＵＲＦ特徴量の差を加算した評価値が、Ｎ−１フレームから検出された顔検出枠データ毎に算出される（Ｓ１２４）。

[数１]で示した評価関数ｆ２（）を用い、ＳＵＲＦ特徴量の差を加算した評価値を算出するのは、ニアレストネイバー法のみを利用した評価関数ｆ１（）を用いて求められた評価値の最小値と他の評価値との差分値に閾値以下がある場合、サイズの似た顔検出枠が近接していると考えられ（例えば，図８の人物７ａ，７ｂ），ニアレストネイバー法の評価値からでは、Ｎフレームの顔検出枠データに対応付けるＮ−１フレームの顔検出枠データが判定できないからである。

[数１]で示した評価関数ｆ２（）を用い、ＳＵＲＦ特徴量の差を加算した評価値を算出することで、顔の特徴が加味された評価値が算出されるので、該評価値を用いることで、サイズの似た顔検出枠が近接している場合は、顔が似ているＮ−１フレームの顔検出枠データがＮフレームの顔検出枠データに対応付けられることになる。

そして、画像処理装置２のトラッキング手段２３は、[数１]の評価関数から得られた評価値が最小値であるＮ−１フレームの顔検出枠データを、ループ処理Ｌ１の対象となるＮフレームの顔検出枠データに対応付ける処理を実行する（Ｓ１２５）。なお、[数１]で示した評価関数ｆ２（）を用いた評価値を算出していない場合、この処理で利用される評価値は、[数１]で示した評価関数ｆ１（）から求められた値になり、[数１]で示した評価関数ｆ２（）を用いた評価値を算出している場合、この処理で利用される評価値は、[数１]で示した評価関数ｆ２（）から求められた値になる。

ループ処理Ｌ１が終了し、画像処理装置２のトラッキング手段２３は、Ｎフレームの顔検出枠データとＮ−１フレームの顔検出枠データを対応付けすると、Ｎ−１フレームの顔検出枠データが重複して、Ｎフレームの顔検出枠データに対応付けられていないか確認する（Ｓ１２６）。

Ｎ−１フレームの顔検出枠データが重複して、Ｎフレームの顔検出枠データに対応付けられている場合、画像処理装置２のトラッキング手段２３は、重複して対応付けられているＮ−１フレームの顔検出枠データの評価値を参照し、評価値が小さい方を該Ｎフレームの顔検出枠データに対応付ける処理を再帰的に実行することで、最終的に、Ｎフレームの顔検出枠データに対応付けるＮ−１フレームの顔検出枠データを決定する（Ｓ１２７）。

ここから、図４で図示したフローの説明に戻る。トラッキング処理Ｓ４が終了すると、画像処理装置２の状態遷移管理手段２５によって、トラッキング処理Ｓ４から得られ、一つ前と今回の顔検出枠データの対応付け結果を参照し、事前に定めた状態遷移表に従い顔オブジェクトの状態を遷移させ、顔オブジェクトの状態遷移に応じたログを記憶する状態遷移管理処理Ｓ５が実行され、この状態遷移管理処理Ｓ５で所定の状態遷移があると、該状態遷移に対応した所定のログファイルがデータ記憶装置２ｄに記憶される。

画像処理装置２の状態遷移管理手段２５には、顔オブジェクトの状態遷移を管理するために、予め、顔オブジェクトの状態と該状態を状態遷移させるルールが定義された状態遷移表が定められており、画像処理装置２のトラッキング手段２３は、この状態遷移表を参照し、顔検出枠データ対応付け処理Ｓ１２の結果に基づき顔オブジェクトの状態を遷移させる。

ここから、状態遷移表の一例を例示し、該状態遷移表の説明をしながら、画像処理装置２の状態遷移管理手段２５によって実行される状態遷移管理処理Ｓ５について説明する。

図７は、本実施形態における状態遷移表６を説明する図である。図７で図示した状態遷移表６によって、顔オブジェクトの状態と、Ｎ−１フレームの状態からＮフレームの状態への遷移が定義され、状態遷移表６の縦軸はＮ−１フレームの状態で、横軸はＮフレームの状態で，縦軸と横軸が交差する箇所に状態遷移する条件が記述されている。なお、状態遷移表に「―」は不正な状態遷移を示している。

図７で図示した状態遷移表６には、顔オブジェクトの状態として、Ｎｏｎｅ、候補Ｆａｃｅ、現在Ｆａｃｅ、待機Ｆａｃｅ、ノイズＦａｃｅおよび終了Ｆａｃｅが定義されている。状態遷移表で定義された状態遷移を説明しながら、それぞれの状態について説明する。

顔オブジェクトの状態の一つであるＮｏｎｅとは、顔オブジェクトが存在しない状態を意味している。Ｎフレームの顔検出枠データに対応付けるＮ−１フレームの顔検出枠データが無い場合（図７の条件１）、画像処理装置２の状態遷移管理手段２５は、顔オブジェクトを識別するためのＩＤ、該Ｎフレームの顔検出枠データ、顔オブジェクトに付与された状態に係わるデータなどを属性値と有する顔オブジェクトを新規に生成し、該顔オブジェクトの状態を候補Ｆａｃｅに設定する。

顔オブジェクトの状態の一つである候補Ｆａｃｅとは、新規に検出した顔画像がノイズである可能性がある状態を意味し、顔オブジェクトの状態の一つに候補Ｆａｃｅを設けているのは、複雑な背景の場合、背景除去処理を行っても顔画像の誤検出が発生し易く、新規に検出できた顔画像がノイズの可能性があるからである。

候補Ｆａｃｅの状態である顔オブジェクトには、候補Ｆａｃｅの状態に係わるデータとして、候補Ｆａｃｅの状態であることを示す状態ＩＤと、候補Ｆａｃｅへ状態遷移したときの日時およびカウンタが付与される。

候補Ｆａｃｅから状態遷移可能な状態は、候補Ｆａｃｅ、現在ＦａｃｅおよびノイズＦａｃｅで、事前に定められた設定時間内において、候補Ｆａｃｅの状態である顔オブジェクトに対応する顔検出枠が所定の数だけ連続してトラッキングできた場合（図７の条件２−２）、該顔オブジェクトの状態は候補Ｆａｃｅから現在Ｆａｃｅに遷移する。

候補Ｆａｃｅの状態である顔オブジェクトの属性にカウンタを設けているのは、設定時間内において、候補Ｆａｃｅの状態である顔オブジェクトに対応する顔検出枠を連続してトラッキングできた回数をカウントするためで、画像処理装置２の状態遷移管理手段２５は、Ｎフレームの顔検出枠データに対応付けられたＮ−１フレームの顔検出枠データが含まれている顔オブジェクトの状態が候補Ｆａｃｅの場合、該顔オブジェクトに付与されている顔検出枠データをＮフレームの顔検出枠データに更新すると共に、該顔オブジェクトのカウンタをインクリメントする。

そして、画像処理装置２の状態遷移管理手段２５は、状態遷移管理処理Ｓ５を実行する際、候補Ｆａｃｅである顔オブジェクト毎に、候補Ｆａｃｅへ状態遷移したときの日時を参照し、設定時間以内に該カウンタの値が事前に定めた設定値に達している場合は、顔オブジェクトの状態を現在Ｆａｃｅに状態遷移させる。また、画像処理装置２の状態遷移管理手段２５は、この時点で設定時間が経過しているが、該カウンタが設定値に達しなかった該顔オブジェクトの状態をノイズＦａｃｅに状態遷移させ（図７の条件２−３）、該設定時間が経過していない該顔オブジェクトについては状態を状態遷移させない（図７の条件２−１）。

顔オブジェクトの状態の一つであるノイズＦａｃｅとは、画像処理装置２の顔検出手段２１が検出した顔画像がノイズと判定された状態で、ノイズＦａｃｅに状態遷移した顔オブジェクトは消滅したと見なされ、これ以降の状態遷移管理処理Ｓ５に利用されない。

顔オブジェクトの状態の一つである現在Ｆａｃｅとは、顔オブジェクトに対応する人物がディスプレイ３を閲覧状態と判定できる状態で、現在Ｆａｃｅの状態にある時間が、顔オブジェクトに対応する人物がディスプレイ３を閲覧している時間となる。

画像処理装置２の状態遷移管理手段２５は、顔オブジェクトの状態を候補Ｆａｃｅから現在Ｆａｃｅに状態遷移すると、該顔オブジェクトの顔検出枠データをＮフレームの顔検出枠データに更新すると共に、現在Ｆａｃｅに係わるデータとして、現在Ｆａｃｅの状態であることを示す状態ＩＤと現在Ｆａｃｅに状態遷移させたときの日時を顔オブジェクトに付与する。

また、ディスプレイを閲覧している人物の人物属性（例えば、年齢・性別）をログとして記憶するために、顔オブジェクトの状態を現在Ｆａｃｅに状態遷移すると、画像処理装置２の状態遷移管理手段２５は人物属性推定手段２６を作動させ、現在Ｆａｃｅに状態遷移させた顔オブジェクトの顔検出枠データで特定される顔検出枠から得られる人物属性を取得し、該顔オブジェクトのオブジェクトＩＤ、人物属性が記述された属性ログファイルをデータ記憶装置２ｄに記憶する。

なお、画像処理装置２に備えられた人物属性推定手段２６については詳細な記載はしないが、人物の顔画像から人物の人物属性（年齢・性別）を自動で識別することは、タバコの自動販売機などでも広く利用されており、例えば、特開２００７―０８００５７号公報の技術を利用できる。

更に、画像処理装置２の状態遷移管理手段２５は、顔オブジェクトの状態を現在Ｆａｃｅに状態遷移すると、ディスプレイ３を閲覧している人物の位置を時系列で記憶するための位置ログファイルをデータ記憶装置２ｄに新規に生成する。生成時の位置ログファイルには、現在Ｆａｃｅに状態遷移した顔オブジェクトのオブジェクトＩＤと、現在Ｆａｃｅに状態遷移した顔オブジェクトに含まれる顔検出枠データが付与される。

現在Ｆａｃｅの状態から状態遷移可能な状態は、現在Ｆａｃｅおよび待機Ｆａｃｅである。画像処理装置２の状態遷移管理手段２５は、Ｎフレームの顔検出枠データに対応付けられたＮ−１フレームの顔検出枠データを含む顔オブジェクトの状態が現在Ｆａｃｅの場合（条件３−１）、該顔オブジェクトに付与されている顔検出枠データをＮフレームにおける顔検出枠データに更新すると共に、該顔検出枠データを、該顔オブジェクトのオブジェクトＩＤで特定される位置ログファイルに追加する。

また、画像処理装置２の状態遷移管理手段２５は、状態遷移管理処理Ｓ５を行う際、Ｎフレームの顔検出枠データが対応付けられなかったＮ−１フレームの顔検出枠データが付与されている顔オブジェクトの状態が現在Ｆａｃｅの場合、動画解析手段２４を作動させて、動画解析手法により、該Ｎ−１フレームの顔検出枠データに対応する顔画像をＮフレームから検出する処理を実施する。

本実施形態において、画像処理装置２の動画解析手段２４は、まず、Ｎフレームの顔検出枠データが対応付けられなかったＮ−１フレームの顔検出枠データと既に対応付けられているＮフレームの顔検出枠データの間で、オクルージョン状態の判定を行い、対象となる人物の顔が完全に隠れた状態のオクルージョンであるか確認する。

画像処理装置２の動画解析手段２４は、この時点で存在し、現在Ｆａｃｅ、候補Ｆａｃｅおよび待機Ｆａｃｅの状態である全ての顔オブジェクトについて、[数２]に従い，顔オブジェクトのオクルージョン状態を判定する処理を実行する。

画像処理装置２の動画解析手段２４は、[数２]に従い、顔オブジェクトのオクルージョン状態を判定する処理を実行すると、判定結果に基づき処理を分岐する。

トラッキング対象である人物が完全に隠れた状態のオクルージョンである可能性が高いと判断できた場合（[数２]の判定基準１に該当する場合）、パーティクルフィルタによるトラッキングを行い、対象となる顔オブジェクトの位置および矩形サイズを検出する。なお、パーティクルフィルタについては，「加藤丈和: 「パーティクルフィルタとその実装法」、情報処理学会研究報告, CVIM-157, pp.161-168 (2007).」など数多くの文献で述べられている。

また、トラッキング対象である人物が半分隠れた状態のオクルージョンの可能性が高いと判断できた場合（[数２]の判定基準２に該当する場合）、ＬＫ法（Lucus-Kanadeアルゴリズム）によるトラッキング行い、対象となる顔オブジェクトの位置および矩形サイズを検出する。なお、ＬＫ法については、「Lucas, B.D. and Kanade, T.：" An Iterative Image Registration Technique with an Application to Stereo Vision",Proc.DARPA Image Understanding Workshop,pp.121-130,1981.」で述べられている。

そして、トラッキング対象である人物にオクルージョンはない可能性が高いと判定できた場合（[数２]の判定基準３に該当する場合）、画像処理装置２の動画解析手段２４は、ＣａｍＳｈｉｆｔ手法を用いたトラッキングを行い、対象となる顔オブジェクトの位置および矩形サイズを検出する。なお、ＣａｍＳｈｉｆｔ手法については、「G. R. Bradski: "Computer vision face tracking foruse in a perceptual user interface," Intel Technology Journal, Q2, 1998.」で述べられている。

画像処理装置２の状態遷移管理手段２５は、これらのいずれかの手法で対象となる顔画像がＮフレームから検出できた場合、現在Ｆａｃｅの状態である顔オブジェクトの顔検出枠データを、これらの手法で検出された位置・矩形サイズに更新し、これらのいずれかの手法でも対象となる顔画像がトラッキングできなかった場合、現在Ｆａｃｅの状態である顔オブジェクトの状態を待機Ｆａｃｅに状態遷移させる（図７の条件３−２）。

顔オブジェクトの状態の一つである待機Ｆａｃｅとは、画像処理装置２に備えられた動画解析手段２４を用いても、顔オブジェクトに対応する顔画像を検出できなくなった状態である。

また、画像処理装置２の状態遷移管理手段２５は、顔オブジェクトの状態を待機Ｆａｃｅに状態遷移する際、顔オブジェクトの顔検出枠データは更新せず、待機Ｆａｃｅに係わるデータとして、待機Ｆａｃｅの状態であることを示す状態ＩＤと、該顔オブジェクトが現在Ｆａｃｅに状態遷移したときの日時と、該顔オブジェクトが待機Ｆａｃｅに状態遷移したときの日時を顔オブジェクトに付与する。

待機Ｆａｃｅから状態遷移可能な状態は、現在Ｆａｃｅまたは終了Ｆａｃｅである。画像処理装置２の状態遷移管理手段２５は、待機Ｆａｃｅに状態遷移してからの時間が所定時間経過する前に、Ｎフレームの顔検出枠データを含む顔オブジェクトを検索し、該顔オブジェクトの状態が待機Ｆａｃｅであった場合、該顔オブジェクトの状態を待機Ｆａｃｅから現在Ｆａｃｅに状態遷移させる（図７の条件４−１）。

なお、顔オブジェクトの状態を待機Ｆａｃｅから現在Ｆａｃｅに状態遷移させる際、画像処理装置２の状態遷移管理手段２５は、該顔オブジェクトが現在Ｆａｃｅに状態遷移したときの日時は、待機Ｆａｃｅの状態のときに顔オブジェクトに付与されていた該日時を利用する。

また、画像処理装置２のトラッキング手段２３は、顔オブジェクトの状態遷移を管理する処理を実行する際、待機Ｆａｃｅに状態遷移してからの時間が所定時間経過した顔オブジェクトの状態を終了Ｆａｃｅに状態遷移させ（図７の条件４−３）、該設定時間が経過していない該顔オブジェクトについては状態を遷移させない（図７の条件４−２）。

顔オブジェクトの状態の一つである終了Ｆａｃｅとは、画像処理装置２が検出できなくなった人物に対応する状態で、状態が終了Ｆａｃｅになった顔オブジェクトは消滅したと見なされ、これ以降の状態遷移管理処理Ｓ５で利用されない。

なお、画像処理装置２の状態遷移管理手段２５は、顔オブジェクトの状態を終了Ｆａｃｅに状態遷移する前に、該顔オブジェクトのオブジェクトＩＤ、該顔オブジェクトが現在Ｆａｃｅに状態遷移したときの日時である閲覧開始時刻、該顔オブジェクトが待機Ｆａｃｅに状態遷移したときの日時である閲覧終了時刻を記述した閲覧時間ログファイルを生成しデータ記憶装置２ｄに記憶させる。

以上詳しく説明したように、画像処理装置２は、顔検出手段２１が検出した顔毎に生成する顔オブジェクトの状態として、Ｎｏｎｅ、候補Ｆａｃｅ、現在Ｆａｃｅ、待機Ｆａｃｅ、ノイズＦａｃｅおよび終了Ｆａｃｅの５つを状態遷移表６で定義し，顔オブジェクトに対応する顔のトラッキング結果に従い、顔オブジェクトの状態を遷移させることで、顔オブジェクトの状態遷移に従い、ディスプレイ３の閲覧時間をログとして記憶することが可能になる。

上述した内容に従えば、顔オブジェクトの状態が現在Ｆａｃｅである間は、顔オブジェクトに対応する顔を連続して検出できたことになるため、現在Ｆａｃｅの状態にあった時間は、ディスプレイ３の閲覧時間になる。

また、顔オブジェクトの状態として候補Ｆａｃｅを定義しておくことで、ノイズによって顔を誤検出した場合でも、ディスプレイ３の閲覧時間への影響はなくなる。また、顔オブジェクトの状態として待機Ｆａｃｅを定義しておくことで、顔を見失った後に、同じ顔を検出した場合でも、同じ顔として取り扱うことができるようになる。

≪３．シナリオデータを用いた合成処理≫
図９は、ビデオカメラ４から送信された映像のフレーム（撮影画像）を基に、画像処理装置２が表示用画像を作成する処理を説明するフロー図である。画像処理装置２を起動し、使用するシナリオデータを指定すると、まず、シナリオデータ対応付け手段８３が、指定されたシナリオデータをデータ記憶装置２ｄから読み込む（Ｓ２１）。そして、シナリオデータ対応付け手段８３は、シナリオデータを解釈し、シナリオデータに従った画像の作成を開始する（Ｓ２２）。

次に、シナリオデータ対応付け手段８３は、状態遷移管理手段２５により生成された顔オブジェクトデータを取得する（Ｓ２３）。顔オブジェクトデータは、オブジェクトＩＤ、顔検出枠データ（位置および矩形サイズ）、閲覧時間で構成される。

続いて、シナリオデータ対応付け手段８３は、状態遷移管理手段２５から取得した顔オブジェクトデータをシナリオデータに対応付ける処理を行う（Ｓ２４）。具体的には、顔オブジェクトデータに含まれる顔検出枠データのオブジェクトＩＤとシナリオデータ中のヒューマンＩＤを対応付ける。状態遷移管理手段２５から複数の顔検出枠データを取得した場合は、候補Ｆａｃｅへ状態遷移したときの日時が最も早いものを“０”に設定し、以降、候補Ｆａｃｅへ状態遷移したときの日時が早い順に“１””２” ”３”と数を１ずつ増加させながら設定していく。図１０の例では、シナリオデータには、ヒューマンＩＤ“０”の１つだけ設定されているので、シナリオデータ対応付け手段８３は、ヒューマンＩＤ“０”が対応付けられたオブジェクトＩＤで特定される顔検出枠データをターゲットとすることになる。

次に、合成画像作成手段８４が、挿入画像を作成する処理を行う（Ｓ２５）。具体的には、まず、シナリオデータの<Animation Commands>を参照する。そして、コマンドＩＤ“０”のコマンドを実行する。図１０の例では、キータイプ“own”、コマンドタイプ“CreateDynamicImageContents (挿入画像作成)”、ターゲットＩＤ“０”、コンテンツＩＤ“０”であるので、合成画像作成手段８４は、ターゲットＩＤ “０”で特定されるヒューマンＩＤ“０”に対応付けられた顔検出枠データを用いて、コンテンツＩＤ“０”で特定される挿入画像を作成することになる。

挿入画像の作成は、合成画像作成手段８４が、<Simulation Contents>タグ内の、< DynamicImageContents>タグに規定された内容に従った処理を実行することにより行われる。図１０の２０行目に示すように、<Animation Commands>におけるコマンドＩＤ“０”のコンテンツＩＤが“０”であるため、<Simulation Contents>タグ内のコンテンツＩＤが“０”の< DynamicImageContents>タグが選択される。

合成画像作成手段８４は、選択された< DynamicImageContents>タグの内容に従い、画像パス"Contents/picture.bmp"で特定されるコンテンツ画像をコンテンツ記憶手段（データ記憶装置２ｄ）から抽出する。例えば、図１１（ａ）に示したようなコンテンツ画像が抽出される。また、合成画像作成手段８４は、コンテンツ用マスクパス"Contents/picture#facemask.bmp"で特定されるコンテンツ用マスクをコンテンツ記憶手段から抽出する。例えば、図１１（ｂ）に示したようなコンテンツ用マスクが抽出される。さらに、合成画像作成手段８４は、全体マスクパス"Contents/picture#mask.bmp"で特定される全体マスクをコンテンツ記憶手段から抽出する。例えば、図１１（ｃ）に示したような全体マスクが抽出される。

次に、合成画像作成手段８４は、Ｓ２３において取得された顔オブジェクトデータの顔検出枠データ内の画像を顔画像としてフレームから切り出す。具体的には、図１２（ａ）に示したようなフレームから図１２（ｂ）に示したような顔画像が切り出されることになる。

続いて、コンテンツ用マスクを用いて、指定された合成手法であるポアソンブレンディング("PoissonBlendMontage")によりコンテンツ画像と顔画像を合成する。ポアソンブレンディングとは、マスク部分の最終結果画像の画素値を疎な連立微分方程式である以下のポアソン方程式〔数３〕で表現し、ポアソン方程式をガウスサイデル法、Mutigrid法等の数値解法で解く公知の手法である。得られた値を各画素の画素値とすることにより、図１２（ｃ）に示すようなコンテンツ画像と顔画像を合成した挿入画像が得られる。

〔数３〕ポアソン方程式
ＲｅｓｕｌｔＶａｌｕｅ−ｄｘｄｙ＝ＴａｒｇｅｔＶａｌｕｅ−ｄｘｄｙ
ＲｅｓｕｌｔＶａｌｕｅ（境界値）＝ＳｏｕｒｃｅＶａｌｕｅ（境界値）

上記〔数３〕において、ＲｅｓｕｌｔＶａｌｕｅは合成後の挿入画像の画素値、ＳｏｕｒｃｅＶａｌｕｅはコンテンツ画像の画素値、ＴａｒｇｅｔＶａｌｕｅは顔画像の画素値である。

顔画像とコンテンツ画像の位置合わせは、ＲＡＭ２ｃ内に確保された表示用メモリ領域の所定の位置を基準（０，０）とする座標（ｘ，ｙ）で特定することにより行われる。具体的には、シナリオデータ中で設定された基礎エリア、挿入エリアに従って行われる。図１０の例では、１０行目のBaceAreaX="0" BaceAreaY="0" BaceAreaWidth="50" BaceAreaHeight="50"に示すように、コンテンツ画像を配置する基礎エリアの基点は（０，０）、幅が（５０，５０）である。合成画像作成手段８４は、この基礎エリアと、コンテンツ画像に設定されている基準枠の矩形サイズが一致するようにコンテンツ画像のサイズを変更し、サイズ変更したコンテンツ画像を、表示用メモリ領域に記録する。このように、コンテンツ画像に基準枠を設定しておくことにより、基礎エリアのサイズをシナリオデータ上で設定することにより、フレーム上におけるコンテンツ画像のサイズを自由に変更することが可能である。

顔画像のコンテンツ画像に対する挿入位置も、表示用メモリ領域の所定の位置を基準（０，０）とする座標（ｘ，ｙ）で特定することにより行われる。図１０の例では、１１、１２行目のInsertMontageAreaX="450" InsertMontageAreaY="400"InsertMontageAreaWidth="134"InsertMontageAreaHeight="134"に示すように、挿入画像を配置する挿入エリアの基点は（４５０，４００）、幅が（１３４，１３４）であるので、これが顔画像割付枠となる。合成画像作成手段８４は、この顔画像割付枠と顔検出枠データの矩形サイズが一致するように顔画像のサイズを変更し、サイズ変更した顔画像を、コンテンツ画像と合成する。したがって、フレームから切り出した顔画像のサイズと、コンテンツ画像上の顔画像割付枠のサイズが異なっていても、顔画像のサイズを変更して挿入画像を表示用メモリ領域に得ることができる。

挿入画像を表示用メモリ領域上に作成したら、次に、合成画像作成手段８４は、フレーム単位で表示用画像を作成する処理を行う（Ｓ２６）。具体的には、図１０の２１、２２行目のコマンドＩＤ“１”（Command ID="1"）のコマンドを実行する。コマンドＩＤ“１”のコマンドは、挿入画像が作成済みの場合にのみ、実行される。まず、開始時点を経過時刻“０．０”と設定し、この経過時刻“０．０”で、シナリオデータの<Animation Commands>を参照する。図１０に示すように、コマンドＩＤ“１”のコマンドが、開始キー“０．０”から終了キー“１．０”まで、キータイプ“own”、コマンドタイプ“LayerMontage(レイヤ合成)”、ターゲットＩＤ“１”、コンテンツＩＤ“０”であるので、合成画像作成手段８４は、ターゲットＩＤ “１” に対応するシーンＩＤ“１”に対応付けられたフレームと、表示用メモリ領域にコマンドＩＤ“０” のコマンドにより既に作成されている挿入画像をレイヤ合成することにより、表示用画像を作成する。レイヤ合成を行う際、全体マスクを用いてフレームの対応する領域をマスクする。全体マスクのサイズは、コンテンツ画像と同サイズに設定されているので、マスクされた領域には、挿入画像全体が配置されることになる。

この結果、図１２（ｄ）に示すような表示用画像が表示用メモリ領域に作成されることになる。表示用メモリ領域に記録された表示用画像は、ディスプレイ３により表示される。この結果、ディスプレイ３には、図１２（ｄ）に示したような、撮影映像のフレームに加工が施された表示用画像が表示されることになる。

１つのフレームについて表示用画像の作成を終えたら、シナリオデータ対応付け手段８３は、シナリオ実行中であるかどうかを判断する（Ｓ２６）。具体的には、シナリオデータに従った画像作成開始からの経過時間でシナリオデータ内のサイクル間隔（CycleInterval）を参照し、経過時間がサイクル間隔未満である場合は、シナリオ実行中であると判断し、経過時間がサイクル間隔以上である場合は、シナリオ終了であると判断する。シナリオ実行中であると判断した場合には、シナリオデータ対応付け手段８３は、Ｓ２３に戻って、顔オブジェクトデータを取得する。

そして、Ｓ２４において、シナリオデータ対応付け手段８３は、状態遷移管理手段２５から取得した次の顔オブジェクトデータをシナリオデータに対応付ける処理を行う。このときも1回目のループと同様、候補Ｆａｃｅへ状態遷移したときの日時が最も早いものを“０”に設定し、以降、候補Ｆａｃｅへ状態遷移したときの日時が早い順に“１””２” ”３”と数を１ずつ増加させながら設定していく。そして、シナリオデータに従って、シナリオデータ対応付け手段８３は、ヒューマンＩＤ“０”が対応付けられたオブジェクトＩＤで特定される顔検出枠データ内の顔画像を処理対象とする。

次に、Ｓ２６において、合成画像作成手段８４が、フレーム単位で表示用画像を作成する処理を行う。具体的には、経過時間を取得し、取得した経過時間で、シナリオデータの<Animation Commands>を参照する。図１０の例では、開始時点、終了時点が規定されているのは、コマンドＩＤ“１”のコマンドのみであり、コマンドＩＤ“１”のコマンドは、シナリオの開始（０．１）から終了（１．０）まで設定されているので、シナリオ実行中、同一の処理を継続して行うことになる。図１０の例では、キータイプ“own”、コマンドタイプ“LayerMontage(レイヤ合成)”、ターゲットＩＤ“１”、コンテンツＩＤ“０”であるので、合成画像作成手段８４は、ターゲットＩＤ“１”のフレーム（撮影映像を構成する１つの撮影画像）と、コンテンツＩＤ“０”の挿入画像をレイヤ合成することにより、表示用画像を表示用メモリ領域上に作成する。このようにして、Ｓ２７においてシナリオ終了であると判断されるまでは、経過時間に従い、シナリオデータを実行する処理を繰り返し行う。

Ｓ２７において、シナリオ終了であると判断した場合には、シナリオデータ対応付け手段８３は、ループ処理を行うかどうかを判断する（Ｓ２８）。具体的には、シナリオデータ内の<IsAutoLoop>タグを参照し、“true”が設定されている場合は、ループ処理（繰り返し処理）を行うと判断する。ループ処理を行うと判断した場合には、シナリオデータ対応付け手段８３は、経過時間を“０”にリセットし、経過時間の計測を再び開始するとともに、Ｓ２２に戻って、シナリオデータに従った画像の作成を開始する。このように、撮影映像の各フレームから得られた表示用画像を順次ディスプレイに表示することにより、加工映像として表示されることになる。

一方、図１０の例では、１３行目（DisapearanceTimeMinutes="30" DisapearanceTimeSeconds="0" DisapearanceTimeMilliseconds="0"）に示すように、消滅時間は３０分０秒０と設定されている。したがって、合成画像作成手段８４は、挿入画像を表示用メモリ領域に記録した時点から３０分０秒０経過した時点で挿入画像を表示用メモリ領域から消去する。また、図１０の例では、１４行目（ IsEnableReCreateDynamicImageContents="false"）に示すように、動的コンテンツ再作成は“しない（ｆａｌｓｅ）”に設定されている。したがって、表示用メモリ領域に挿入画像が記録されている状態で、新たな閲覧者をターゲットとして検出した場合であっても、新たな挿入画像を作成せず、以前の挿入画像が設定された消滅時間まで保持され続けることになる。また、図１０の例では、１５行目（RefleshTimeMinutes="30" RefleshTimeSeconds="0" RefleshTimeMilliseconds="0"）に示すように、更新時間は３０分０秒０と設定されている。したがって、合成画像作成手段８４は、表示用メモリ領域に記録した時点から３０分０秒０経過した時点で新たな顔画像をフレームから抽出し、コンテンツ画像と合成して挿入画像として表示用メモリ領域に記録する。

図１０の例では、合成手法として、ポアソンブレンディングを用いたが、上述のように、公知のアルファブレンディングやＭｅａｎＶａｌｕｅＣｌｏｎｉｎｇを選択することも可能である。アルファブレンディングは、2つの画像を係数（α値）により合成する手法である。アルファブレンディングの場合は、以下の〔数４〕に従った処理により挿入画像の各画素の値を算出する。

〔数４〕
ＲｅｓｕｌｔＶａｌｕｅ＝ＴａｒｇｅｔＶａｌｕｅ×（ＭａｓｋＶａｌｕｅ／２５５）＋ＳｏｕｒｃｅＶａｌｕｅ×（（２５５−ＭａｓｋＶａｌｕｅ）／２５５）

上記〔数４〕において、ＲｅｓｕｌｔＶａｌｕｅは合成後の挿入画像の画素値、ＳｏｕｒｃｅＶａｌｕｅはコンテンツ画像の画素値、ＭａｓｋＶａｌｕｅはコンテンツ用マスクの画素値、ＴａｒｇｅｔＶａｌｕｅは顔画像の画素値である。

ＭｅａｎＶａｌｕｅＣｌｏｎｉｎｇは、ポアソンブレンディングで算出される値とコンテンツ画像の変化量を高速算出できる手法で近似するものであり、ポアソンブレンディングには、品質は劣るが、高速な処理を行うことができる。また、アルファブレンディングより処理は遅いが、品質は高い。ＭｅａｎＶａｌｕｅＣｌｏｎｉｎｇの場合も、コンテンツ画像の画素値、コンテンツ用マスクの画素値、顔画像の画素値を用いて、挿入画像の各画素の値を算出する。

≪４．状態遷移管理手段を用いない構成≫
上記実施形態の画像表示システムは、状態遷移管理手段２５を用い、検出された顔画像がノイズであったと判定される場合に、閲覧状態と判断しないようにしたが、状態遷移管理手段２５を用いず、検出された顔画像を全て閲覧状態と判断するようにすることも可能である。次に、状態遷移管理手段２５を用いない構成について説明する。

図１３は、状態遷移管理手段２５を用いない場合の画像処理装置２´に実装されたコンピュータプログラムで実現される機能ブロック図である。図１３において、図３と同一機能を有するものについては、同一符号を付して詳細な説明を省略する。

図１３に示す画像処理装置２´は、図３に示したトラッキング手段２３に代えて、トラッキング手段２３´を有している。このトラッキング手段２３´は、図３に示した動画解析手段２４に相当する機能も備えている。

図１３に示す画像処理装置２´は、フレームを解析するにあたり、図４に示したＳ１〜Ｓ５の処理のうち、Ｓ１、Ｓ３の処理は、画像処理装置２と同様にして行う。また、顔検出処理とトラッキング処理は、連携させて実行する。上述のように、Ｓ５の状態遷移管理処理は行わない。

図１４は、顔検出処理とトラッキング処理を示すフロー図である。まず、背景除去処理Ｓ１を行った後、Ｎフレームを処理するにあたり、Ｎ−１フレームの顔検出枠の数が０より大であるかどうかの判断を行う（Ｓ３１）。Ｎ−１フレームの顔検出枠の数が０より大である場合は、トラッキング手段２３´がトラッキング処理を実行する（Ｓ３２）。

トラッキング手段２３´は、Ｎ−１フレームにおける各顔検出枠を追跡してＮフレームにおける対応する顔検出枠を特定するものである。トラッキング手段２３´としては、上述の動画解析手段２４が実行する“パーティクルフィルタ”、“ＬＫ法”、“ＣａｍＳｈｉｆｔ手法”等の公知のトラッキング手法を採用することができる。

Ｎ−１フレームからＮフレームへの顔検出枠のトラッキング処理を終えたら、顔検出手段２１がＮフレームにおける顔検出処理を行う（Ｓ３３）。Ｓ３３における顔検出処理は、図４に示したＳ２の顔検出処理と同一である。また、Ｓ３１において、Ｎ−１フレームの顔検出枠の数が０より大でないと判定された場合は、Ｎ−１フレームからＮフレームへのトラッキング処理を行わずに、顔検出手段２１がＮフレームにおける顔検出処理を行う。

続いて、顔検出処理Ｓ３３において新規に検出されたＮフレームの顔検出枠の数が０より大であるかどうかを判断する（Ｓ３４）。新規に検出されたＮフレームの顔検出枠とは、Ｎフレームで検出された顔検出枠のうち、Ｎ−１フレームからＮフレームへトラッキングされた顔検出枠を除外したものである。

次に、顔検出手段２１が、Ｎフレームにおいて新規に検出された各顔検出枠データに、オブジェクトＩＤを付与し、顔検出枠データ、オブジェクトＩＤ、トラッキング時間で構成される顔オブジェクトを設定する（Ｓ３５）。顔オブジェクトは、オブジェクトＩＤにより特定され、トラッキングにより対応付けられた顔検出枠は、同一のオブジェクトＩＤで特定されることになる。また、トラッキング時間の初期値は０に設定される。

続いて、Ｎフレームにおける顔検出枠の数が０より大であるかどうかの判断を行う（Ｓ３６）。Ｓ３６においては、Ｎフレームにおいて新規に検出されたかどうかを問わず、既にオブジェクトＩＤが発行された顔検出枠がＮフレームに存在するかどうかを判断する。

顔検出枠が存在した場合には、各顔検出枠の顔オブジェクトについて、トラッキング時間を算出する（Ｓ３７）。具体的には、直前のＮ−１フレームまでに算出されているトラッキング時間に１フレームに相当する時間を加算することによりＮフレームまでの各顔オブジェクトのトラッキング時間を算出する。トラッキング時間を算出し終えたら、Ｎをインクリメントして（Ｓ３８）、次のＮフレームについての処理に移行する。Ｓ３６における判断の結果、顔検出枠が存在しなかった場合には、Ｎフレームには、追跡すべき対象が存在しないことになるので、トラッキング時間の算出は行わず、Ｎをインクリメントして（Ｓ３８）、次のＮフレームについての処理に移行する。

画像処理装置２´の顔検出手段２１、トラッキング手段２３´は、背景除去手段２０により背景処理が行われた各フレームについて、図１４に示した処理を繰り返し実行する。

図１４に示した処理において付与された顔オブジェクトは、図９に示したＳ２４において、シナリオデータ対応付け手段８３によりシナリオデータと対応付けられる。図１４に示した処理においては、顔オブジェクトのオブジェクトＩＤは、顔検出枠が検出された順に、“０”“１” “２”“３”と数を１ずつ増加させながら設定される。

本発明は、コンピュータを利用してディスプレイに画像を表示する産業、広告を映像として表示するデジタルサイネージの産業に利用可能である。

１画像表示システム
２、２´ 画像処理装置
２ａＣＰＵ
２ｂＲＯＭ
２ｃＲＡＭ
２ｄデータ記憶装置
２ｅ入出力インタフェース
２ｆネットワークインタフェース
２ｇ表示出力インタフェース
２ｈ文字入力デバイス
２ｉポインティングデバイス
２０背景除去手段
２１顔検出手段
２２人体検出手段
２３、２３´ トラッキング手段
２４動画解析手段
２５状態遷移管理手段
２６人物属性推定手段
２７ログファイル出力手段
３ディスプレイ
４ビデオカメラ
６状態遷移表
８０合成ターゲット定義手段
８１合成コンテンツ定義手段
８２アニメーションシナリオ定義手段
８３シナリオデータ対応付け手段
８４合成画像作成手段

Claims

人物を撮影するカメラと、カメラから送出される撮影映像を合成処理する画像処理装置と、合成処理された合成映像を表示するディスプレイとを備えた画像表示システムであって、
前記画像処理装置は、
映像上の１人以上の人物とコンテンツとの合成のタイミングを定めたシナリオデータを記憶したシナリオデータ記憶手段と、
合成に用いるコンテンツを記憶したコンテンツ記憶手段と、
前記ディスプレイに表示させる画像を一時的に記憶する表示用メモリ領域を有するメモリと、
前記カメラから送出された映像の１つのフレームから顔画像を検出し、検出した前記顔画像毎に、顔検出枠の位置および矩形サイズを顔検出枠データとして出力する顔検出手段と、
前記顔検出手段から取得した前記顔検出枠データを、他のフレームの顔検出枠データと１つの顔オブジェクトとして対応付けるトラッキング手段と、
前記顔検出手段により検出された顔検出枠データを含む顔オブジェクトに対して、前記シナリオデータに定義される人物との対応付けを行うシナリオデータ対応付け手段と、
前記対応付けに従って、前記顔オブジェクトを前記シナリオデータの人物に割り当て、前記シナリオデータにより規定されるコンテンツ画像を前記コンテンツ記憶手段から取得した後、前記コンテンツ画像に設定された割付枠のサイズに合わせて、前記顔画像のサイズを変更し、前記コンテンツ画像と合成して得られる挿入画像を前記表示用メモリ領域に記録し、各フレームについて、前記挿入画像に対応する箇所をマスクして表示用メモリ領域に記録することにより表示用画像を作成する合成画像作成手段と、
を備えていることを特徴とする画像表示システム。
前記コンテンツ記憶手段は、前記顔画像と前記コンテンツ画像を合成するためのコンテンツ用マスクと、前記挿入画像と前記フレームを合成するための全体マスクを記憶しており、
前記合成画像作成手段は、前記コンテンツ用マスクを用いて前記挿入画像を作成し、前記全体マスクを用いて前記表示用画像を作成することを特徴とする請求項１に記載の画像表示システム。
人物を撮影するカメラと、合成処理された合成映像を表示するディスプレイと、接続され、カメラから送出される撮影映像を合成処理してディスプレイに送出する装置であって、
映像上の１人以上の人物とコンテンツとの合成のタイミングを定めたシナリオデータを記憶したシナリオデータ記憶手段と、
合成に用いるコンテンツを記憶したコンテンツ記憶手段と、
前記カメラから送出された映像の１つのフレームから顔画像を検出し、検出した前記顔画像毎に、顔検出枠の位置および矩形サイズを顔検出枠データとして出力する顔検出手段と、
前記顔検出手段から取得した前記顔検出枠データを、他のフレームの顔検出枠データと１つの顔オブジェクトとして対応付けるトラッキング手段と、
前記顔検出手段により検出された顔検出枠データを含む顔オブジェクトに対して、前記シナリオデータに定義される人物との対応付けを行うシナリオデータ対応付け手段と、
前記対応付けに従って、前記顔オブジェクトを前記シナリオデータの人物に割り当て、前記シナリオデータにより規定されるコンテンツ画像を前記コンテンツ記憶手段から取得した後、前記コンテンツ画像に設定された割付枠のサイズに合わせて、前記顔画像のサイズを変更し、前記コンテンツ画像と合成して得られる挿入画像を前記表示用メモリ領域に記録し、各フレームについて、前記挿入画像に対応する箇所をマスクして表示用メモリ領域に記録することにより表示用画像を作成する合成画像作成手段と、
を備えていることを特徴とする画像処理装置。
前記コンテンツ記憶手段は、前記顔画像と前記コンテンツ画像を合成するためのコンテンツ用マスクと、前記挿入画像と前記フレームを合成するための全体マスクを記憶しており、
前記合成画像作成手段は、前記コンテンツ用マスクを用いて前記挿入画像を作成し、前記全体マスクを用いて前記表示用画像を作成することを特徴とする請求項３に記載の画像処理装置。
請求項３または請求項４に記載の画像処理装置として、コンピュータを機能させるためのプログラム。