以下、実施の形態について図面を参照して説明する。
図1は、一実施形態に係る電子機器の外観を示す斜視図である。この電子機器は、例えばノートブックタイプのパーソナルコンピュータ10として実現されている。図1に示すように、本コンピュータ10は、コンピュータ本体11と、ディスプレイユニット12とから構成されている。ディスプレイユニット12には、LCD(liquid crystal display)17が組み込まれている。ディスプレイユニット12は、コンピュータ本体11の上面が露出される開放位置とコンピュータ本体11の上面を覆う閉塞位置との間を回動自在にコンピュータ本体11に取り付けられている。
コンピュータ本体11は、薄い箱形の筐体を有しており、その上面には、キーボード13、本コンピュータ10を電源オン/電源オフするためのパワーボタン14、入力操作パネル15、タッチパッド16、スピーカ18A,18Bなどが配置されている。入力操作パネル15上には、各種操作ボタンが設けられている。
また、コンピュータ本体11の右側面には、例えばUSB(universal serial bus)2.0規格のUSBケーブルやUSBデバイスを接続するためのUSBコネクタ19が設けられている。
図2は、本コンピュータ10のシステム構成を示す図である。
本コンピュータ10は、図2に示されているように、CPU(central processing unit)101、ノースブリッジ102、主メモリ103、サウスブリッジ104、GPU(Graphics Processing Unit)105、VRAM(ビデオRAM:random access memory)105A、サウンドコントローラ106、BIOS−ROM(basic input/output system-read only memory)107、LAN(local area network)コントローラ108、ハードディスクドライブ(HDD)109、光ディスクドライブ(ODD)110、USBコントローラ111A、カードコントローラ111B、無線LANコントローラ112、エンベデッドコントローラ/キーボードコントローラ(EC/KBC)113、EEPROM(electrically erasable programmable ROM)114等を備える。
CPU101は、本コンピュータ10内の各部の動作を制御するプロセッサである。CPU101は、HDD109から主メモリ103にロードされる、オペレーティングシステム(OS)201、及び動画像再生アプリケーションプログラム202のような各種アプリケーションプログラムを実行する。動画像再生アプリケーションプログラム202は、例えばHDD109等に格納された各種デジタルコンテンツデータ(例えば、フォトムービー)を再生するソフトウェアである。この動画像再生アプリケーションプログラム202は、動画像生成機能を有している。この動画像生成機能は、例えば、HDD109等に格納された写真等の素材(デジタルコンテンツ)を用いて、合成動画(動画像)を作成する機能である。さらに、この動画像生成機能は、動画像に用いる素材を分析する機能を含む。動画像再生アプリケーションプログラム202は、素材を用いて作成された動画像を再生し、画面(LCD17)に表示する。
また、CPU101は、BIOS−ROM107に格納されたBIOSも実行する。BIOSは、ハードウェア制御のためのプログラムである。
ノースブリッジ102は、CPU101のローカルバスとサウスブリッジ104との間を接続するブリッジデバイスである。ノースブリッジ102には、主メモリ103をアクセス制御するメモリコントローラも内蔵されている。また、ノースブリッジ102は、例えば、PCI EXPRESS規格のシリアルバスなどを介してGPU105との通信を実行する機能も有している。
GPU105は、本コンピュータ10のディスプレイモニタとして使用されるLCD17を制御する表示コントローラである。このGPU105によって生成される表示信号はLCD17に送られる。
サウスブリッジ104は、PCI(Peripheral Component Interconnect)バス上の各デバイス及びLPC(Low Pin Count)バス上の各デバイスを制御する。また、サウスブリッジ104は、HDD109及びODD110を制御するためのIDE(Integrated Drive Electronics)コントローラを内蔵している。さらに、サウスブリッジ104は、サウンドコントローラ106との通信を実行する機能も有している。
サウンドコントローラ106は音源デバイスであり、再生対象のオーディオデータをスピーカ18A,18Bに出力する。LANコントローラ108は、例えばIEEE 802.3規格の有線通信を実行する有線通信デバイスであり、一方、無線LANコントローラ112は、例えばIEEE 802.11g規格の無線通信を実行する無線通信デバイスである。USBコントローラ111Aは、(USBコネクタ19を介して接続される)例えばUSB 2.0規格に対応した外部機器との通信を実行する。例えば、USBコントローラ111Aは、例えば、デジタルカメラに格納されている画像データファイルを受信するために使用される。カードコントローラ111Bは、コンピュータ本体11に設けられたカードスロットに挿入される、SDカードのようなメモリカードに対するデータの書き込み及び読み出しを実行する。
EC/KBC113は、電力管理のためのエンベデッドコントローラと、キーボード13及びタッチパッド16を制御するためのキーボードコントローラとが集積された1チップマイクロコンピュータである。EC/KBC113は、ユーザによるパワーボタン14の操作に応じて本コンピュータ10を電源オン/電源オフする機能を有している。
次に、図3を参照して、以上のような構成を有するコンピュータ10上で動作する動画像再生アプリケーションプログラム202の一機能構成を説明する。ここでは、動画像再生アプリケーションプログラム202が有する機能のうち、動画像生成機能を実現するための構成例について説明する。この動画像生成機能は、インタフェース部(上述のUSBコントローラ111A、カードコントローラ111B等)を介して外部デバイス(デジタルカメラ、メモリカード等)から格納された素材データ51だけでなく、HDD109内の所定のディレクトリに格納された素材データ51やネットワークを介して格納された素材データ51等に対しても適用することができる。なお、この素材データ51は、例えば、静止画像データ301A、音声データ301B、動画像データ301C等である。
動画像再生アプリケーションプログラム202は、素材入力部21、素材分析部22及び動画再生部23を備える。
素材入力部21は、USBコントローラ111A、カードコントローラ111B等のインタフェース部を介して、素材データ51が入力されたことに応答して、素材データ51をHDD109内の素材データベース301に格納する。素材データベース301は、生成される動画像に用いられる素材データ51を格納するためのデータベースである。具体的には、素材データベース301には、素材データ51である、静止画像データ301A、音声データ301B、動画像データ301C等が格納される。素材データベース301に格納された素材データ51は、合成動画の素材候補として用いられる。また、素材入力部21は、素材データ51がHDD109に格納されたことを素材分析部22に通知する。
素材分析部22は、素材入力部21からの通知に応答して、素材データ51を分析する処理を開始する。素材分析部22は、顔画像検出部221、表情検出部222及び人数検出部223を備える。なお、以下では、分析対象の素材データ51が静止画像データ301Aである場合を想定する。
顔画像検出部221は、静止画像データ301Aから顔画像を検出する顔検出処理を実行する。顔画像は、例えば、静止画像データ301Aの特徴を解析し、予め用意された顔画像特徴サンプルと類似する特徴を有する領域を探索することによって検出することができる。顔画像特徴サンプルは、多数の人物それぞれの顔画像特徴を統計的に処理することによって得られた特徴データである。顔検出処理により、静止画像301A内に含まれる各顔画像の位置(座標)、サイズ、正面度等が検出される。
さらに、顔画像検出部221は検出された顔画像を分類してもよい。顔画像検出部221は、静止画像データ301Aから検出された複数の顔画像を、同一の人物と推定される顔画像別のグループに分類する。また、顔画像検出部221は検出された顔画像に対応する人物を識別してもよい。その場合、顔画像検出部221は、例えば、識別する人物の顔画像特徴サンプルを用いて、検出された顔画像がその人物であるか否かを判定する。顔画像検出部221は、上述の結果に基づき、検出された顔画像に人物毎の顔IDを付与する。顔画像検出部221は、検出した顔画像の情報を表情検出部222及び人数検出部223に出力する。
表情検出部222は、顔画像検出部221によって検出された顔画像に対応する表情を検出する。そして、表情検出部222は、当該顔画像が検出された表情である尤もらしさを示す度合い(尤度)を算出する。具体的には、表情検出部222は、例えば、検出された顔画像に対応する表情が「笑顔」であるか否かを判定する。表情検出部222は、例えば、「笑顔」の顔画像特徴サンプルに類似する特徴を有する顔画像を「笑顔」であると判定する。顔画像に対応する表情が「笑顔」であると判定された場合、表情検出部222は、顔画像が笑顔である尤度(笑顔度)を算出する。1枚の静止画像301Aから複数の顔画像が検出されている際には、表情検出部222は、例えば、複数の顔画像の笑顔度の平均を、静止画像301Aの笑顔度に決定する。
なお、笑顔度は、数値に限らず、例えば「高い」、「低い」といった相対的な指標で表してもよい。笑顔度を相対的な指標で表す際に、1枚の静止画像301Aから複数の顔画像が検出されているときには、表情検出部222は、例えば、より多くの顔画像に設定されている方の指標(例えば、「高い」)を、静止画像301Aの笑顔度に決定する。また、表情検出部222は、笑顔に限らず、怒った顔、泣き顔、驚いた顔、無表情など、あらゆる表情である尤度を算出してもよい。
人数検出部223は静止画像301Aに含まれる人物の数を検出する。人数検出部223は、例えば、顔画像検出部221によって検出された顔画像の数を、静止画像301Aに含まれる人物の数に決定する。また、人数検出部223は、例えば、顔画像を含む人物の全身や体の一部等を検出することにより、後ろ姿で捉えられた人物等を含む人数を算出してもよい。なお、人数は、数値に限らず、例えば「多い」、「少ない」といった相対的な指標で表してもよい。人数検出部223は、例えば、静止画像301Aからしきい値以上の数の顔画像が検出されているとき、静止画像301Aの人数を「多い」に決定する。
素材分析部22は、素材データ51に付加された素材情報302A、及び上述の分析により生成された分析情報302Bを、HDD109内の素材情報データベース302に格納する。
図4は、素材情報302Aの一構成例を示す。素材情報302Aは、例えば、素材ID、ファイルパス、ファイルサイズ、ファイル形式、生成日時、生成場所、種類、画像サイズ、再生時間、入力経路を示す情報を含む。「素材ID」は、素材51に一意に割り当てられる識別情報である。「ファイルパス」は、素材51が格納される場所を示す。「ファイルサイズ」は、素材51のデータサイズを示す。「ファイル形式」は、素材51のファイルのタイプ(例えば、mpeg,jpeg,mp3等)を示す。「生成日時」は、素材51が生成された日時を表す時刻情報を示す。「生成場所」は、素材51が生成された場所を表す位置情報を示す。「種類」は、素材51の種類(例えば、静止画像、音声、動画像等)を示す。「画像サイズ」は、素材51が静止画像301A又は動画像301Cであるときに、その画像サイズを示す。「再生時間」は、素材51が音声301B又は動画像301Cであるときに、その再生時間を示す。「入力経路」は、素材51がコンピュータ10に入力された経路(例えば、外部記憶メディア、外部記憶装置、ネットワーク上のサーバ等)を示す。
また、図5は、分析情報302Bの一構成例を示す。分析情報302Bは、例えば、素材ID、笑顔度、人数、及び顔画像情報を含む。素材IDは、素材51(静止画像301A)に一意に割り当てられる識別情報である。
笑顔度は、静止画像301Aから検出された顔画像の笑顔度を示す。静止画像301Aから複数の顔画像が検出された際には、笑顔度は、例えば複数の顔画像の笑顔度の平均を示す。また、笑顔度は、上述のように「高い」、「低い」といった相対的な指標で表されてもよい。その場合、静止画像301Aから複数の顔画像が検出されたときには、例えば、より多くの顔画像に決定された方の指標が静止画像301Aの笑顔度に決定される。
人数は、静止画像301Aに含まれる人物の数を示す。
また、顔画像情報は、上述の顔検出処理による分析結果に基づく情報を示す。したがって、顔画像情報は、例えば、顔画像、サイズ、位置、顔IDを示す情報を含む。また、顔画像情報は、各顔画像の笑顔度を含んでもよい。なお、分析情報302Bには、1つの静止画像301Aから検出された顔画像に対応する数だけ、顔画像情報が格納される。
また、素材分析部211は、静止画像データ301Aから人物(顔画像を含む全身や体の一部等)、風景(海、山、花等)、動物(犬、猫、魚等)等のオブジェクトを検出(認識)し、それら分析結果(検出結果)を示す情報を含む分析情報302Bを生成してもよい。さらに、素材分析部211は、素材情報302Aや静止画像データ301Aから撮影時刻、撮影位置等を推定し、それら分析結果(推定結果)を示す情報を含む分析情報302Bを生成してもよい。その場合、図5に示すように、分析情報302Bには、人物画像、サイズ、位置、及び人物IDを含む人物画像情報、風景画像、サイズ、位置、及び属性を含む風景情報、動物画像、サイズ、位置、及び属性を含む動物情報、撮影時刻、並びに撮影位置が含まれる。
なお、素材分析部211は、音声データ301Bを分析し、検出された声に対応する人物の情報及び人物の数、検出された音楽の雰囲気及びジャンル等を含む分析情報302Bを生成してもよい。さらに、素材分析部211は、動画像データ301Cに含まれる各画像フレームを、静止画像データ301Aと同様に分析し、上述の笑顔度、人数、顔画像情報等を含む分析情報302Bを生成してもよい。
素材分析部211は、入力された素材データ51に対応する素材情報302A及び分析情報302Bが、素材情報データベース302に格納されたことを動画再生部23に通知する。
動画再生部23は、素材分析部22からの通知に応答して、素材データ51を用いて合成動画(動画像)を生成し、生成された合成動画を再生(表示)する処理を開始する。その際、動画再生部23は、素材情報データベース302を参照して、所定の条件を満たす素材データ51を素材データベース301から抽出し、合成動画を生成する。動画再生部23は、抽出キー選択部231、素材抽出部232、エフェクト抽出部233、合成動画生成部234、及び合成動画出力部235を備える。
抽出キー選択部231は、分析情報302Bに基づく抽出キー候補情報401から抽出キーを選択する。抽出キーは、合成動画に使用される素材データ51を抽出するために用いられる。
具体的には、抽出キー選択部231は、まず、素材情報データベース302から分析情報302Bを抽出し、抽出キー候補情報401を作成する。抽出キー選択部231は、例えば、所定の期間内に生成された静止画像データ301Aの情報を抽出キー候補情報401に用いる。また、抽出キー選択部231は、例えば、所定の人物の顔画像を含む静止画像データ301Aの情報を抽出キー候補情報401に用いる。なお、抽出キー選択部231は、素材情報302Aも用いて抽出キー候補情報401を作成してもよい。
図6は抽出キー候補情報401の一構成例を示す。抽出キー候補情報401は、例えば、抽出キー候補IDと抽出キー候補素材IDとを含む。抽出キー候補IDは、抽出キー候補に一意に割り当てられる識別情報である。抽出キー候補素材IDは、抽出キー候補に用いられる素材データ51(静止画像データ301A、音声データ301B、動画像データ301C)の素材IDを示す。したがって、抽出キー候補素材IDは、分析情報302B(素材情報302A)に含まれる素材IDのいずれかを示す。なお、以下では抽出キー候補に静止画像データ301Aが用いられることを想定する。
抽出キー選択部231は、作成した抽出キー候補情報401を画面(LCD17)に表示する。抽出キー選択部231は、例えば、抽出キー候補情報401の抽出キー候補素材IDに基づいて、対応する静止画像301Aのリストを画面に表示する。ユーザは、表示されたリストから、合成動画の抽出キーとして用いたい静止画像301Aを選択する。そして、抽出キー選択部231は選択された静止画像301Aを抽出キーに決定する。なお、抽出キーとして用いられる静止画像301Aは複数であってもよい。
また、抽出キー選択部231は、さらに、選択された静止画像301Aに含まれるオブジェクトから、抽出キーに用いられるオブジェクトを選択してもよい。その場合、抽出キー選択部231は、例えば、選択された静止画像301A内のオブジェクトを選択可能に表示する。具体的には、抽出キー選択部231は、例えば、選択された静止画像301A内のオブジェクトである顔画像に枠等を重畳して表示する。枠内の顔画像は、例えば、ユーザによる操作で選択することができる。ユーザは、枠で囲まれた複数の顔画像の中から、合成動画の抽出キーとして用いたい顔(すなわち、人物)を選択する。そして、抽出キー選択部231は、選択された顔を抽出キーに決定する。なお、抽出キーに用いられるオブジェクトは、顔画像に限らず、人物の全身や一部、動物や植物、風景等であってもよい。また、抽出キー選択部231は、抽出キー候補情報401に示される抽出キーの候補を画面に表示することなく、所定の条件に基づいて抽出キーを選択してもよい。
素材抽出部232は、抽出キー選択部231によって選択された抽出キーに基づいて、素材データベース301から素材データ51を抽出する。素材抽出部232は、素材データベース301から、抽出キーに対応する素材データ51及び抽出キーに関連する素材データ51の少なくともいずれかを抽出する。具体的には、素材抽出部232は、例えば、抽出キーである静止画像301Aに含まれる人物(登場する人物)を含む他の静止画像301Aを抽出する。また、素材抽出部232は、例えば、抽出キーである静止画像301Aに含まれる人物に関連する人物を含む他の静止画像301Aを抽出する。この関連する人物は、例えば、家族や友人、高い頻度で同じ画像内に捉えられている人物等である。さらに、素材抽出部232は、例えば、抽出キーである人物(オブジェクト)の顔画像を含む静止画像301Aを抽出する。また、素材抽出部232は、抽出キーである人物に関連する人物の顔画像を含む静止画像301Aを抽出してもよい。素材抽出部232は、エフェクト抽出部233に、抽出した静止画像301Aを出力する。
エフェクト抽出部233は、エフェクトデータベース303から、抽出された素材データ51に適したエフェクトデータ303Aを抽出する。具体的には、エフェクト抽出部233は、まず、素材情報データベース302から、抽出された素材データ51に対応する分析情報302Bに含まれる笑顔度と人数とを抽出する。そして、エフェクト抽出部233は、抽出した笑顔度と人数とに基づいて、抽出された素材データ51に適したエフェクトデータ303Aを選択する。エフェクト抽出部233は、例えば、抽出された複数の静止画像301A(素材51)の各々に対応する笑顔度と人数とから、これら複数の静止画像301A全体での笑顔度の指標と人数の指標とを算出する。エフェクト抽出部233は、例えば、抽出された複数の静止画像301Aのうち、笑顔度が第1しきい値以上である顔画像を含む静止画像301Aの数を、複数の静止画像301A全体での笑顔度の指標に決定する。また、エフェクト抽出部233は、例えば、抽出された複数の静止画像301Aの各々に対応する笑顔度の平均を、これら複数の静止画像301A全体の笑顔度の指標に決定してもよい。
また、エフェクト抽出部233は、例えば、抽出された複数の静止画像301Aのうち、人数が第2しきい値以上である静止画像301Aのうちの数を、複数の静止画像301A全体での人数の指標に決定する。また、エフェクト抽出部233は、例えば、抽出された複数の静止画像301Aの各々に対応する人数の平均を、これら複数の静止画像301A全体の人数の指標に決定してもよい。
なお、上述のように、笑顔度と人数とは相対的な指標で表されてもよい。したがって例えば、抽出された複数の静止画像301Aの各々に「高い」又は「低い」という笑顔度が設定されているとき、エフェクト抽出部233は、より多くの静止画像301Aに設定されている方の指標(例えば、「高い」)を、これら複数の静止画像301A全体の笑顔度に決定する。また、例えば、抽出された複数の静止画像301Aのうち、所定の割合(第1しきい値)以上の静止画像301Aに「高い」という笑顔度が設定されているとき、エフェクト抽出部233は、これら複数の静止画像301A全体の笑顔度を「高い」に決定する。
同様に、例えば、抽出された複数の静止画像301Aの各々に「多い」又は「少ない」という人数が設定されているとき、エフェクト抽出部233は、より多くの静止画像301Aに設定されている方の指標(例えば、「少ない」)を、これら複数の静止画像301A全体の人数に決定する。また、例えば、抽出された複数の静止画像301Aのうち、所定の割合(第2しきい値)以上の静止画像301Aに「多い」という人数が設定されているとき、エフェクト抽出部233は、これら複数の静止画像301A全体の人数を「多い」に決定する。
エフェクト抽出部233は、上述のように決定される、抽出された複数の静止画像301A全体に対応する笑顔度と人数とに基づいて、これら複数の静止画像301Aに適したエフェクト303Aを決定する。
図7は、笑顔度と人数とに基づいて決定されるエフェクト303Aの例を示す。エフェクト抽出部233は、抽出された複数の静止画像301A全体に対応する笑顔度と人数とに応じて、人数が多く、笑顔度が高い素材に適したエフェクト集51A、人数が多く、笑顔度が低い素材に適したエフェクト集51B、人数が少なく、笑顔度が低い素材に適したエフェクト集51C、及び人数が少なく、笑顔度が高い素材に適したエフェクト集51Dのうちのいずれかを選択する。
また、図8は、これらエフェクト集51A〜51Dに対応する、具体的なエフェクトの例を示す。図8では、エフェクト集51A〜51Dに以下のような効果を有するエフェクト集52A〜52Dが用いられる。人数が多く、笑顔度が高い素材に適したエフェクト集51Aには、幸せな印象や元気な印象を想起させる効果(装飾)を有するエフェクト集52Aが用いられる。人数が多く、笑顔度が低い素材に適したエフェクト集51Bには、セレモニーを想起させる効果を有するエフェクト集52Bが用いられる。人数が少なく、笑顔度が低い素材に適したエフェクト集51Cには、クールな印象や近未来的な印象を想起させる効果を有するエフェクト集52Cが用いられる。また、人数が少なく、笑顔度が高い素材に適したエフェクト集51Dには、ファンタジーや魔法といった印象を想起させる効果を有するエフェクト集52Dが用いられる。これらエフェクト集52A〜52Dでは、エフェクトに用いられる色、形状、動き(モーション)、オブジェクト等を変更することによって、ユーザに認識される印象が変化するように設計される。したがって例えば、幸せな印象や元気な印象を想起させる効果を有するエフェクト集52Aは、明るい色や鮮やかな色を用いたエフェクトを含む。また、例えば、クールな印象や近未来的な印象を想起させる効果を有するエフェクト集52Cは、幾何学的な形状を用いたエフェクトを含む。
なお、エフェクト抽出部233は、抽出された複数の静止画像301Aに適するエフェクトを、図7及び図8に示すような4種類に分類されたエフェクト集に限らず、さらに細かく分類されたエフェクト集から選択することもできる。その場合、人数及び笑顔度の値(値域)に対応する、所定の種類のエフェクト集が予め規定され、エフェクト抽出部233は、規定された所定の種類のエフェクト集から、抽出された複数の静止画像301Aに適したエフェクト集を選択する。また、エフェクト抽出部233は、人数及び笑顔度以外の指標を用いて、抽出された複数の静止画像301Aに適したエフェクトを選択してもよい。
ところで、ユーザは、例えば図9に示すようなスタイル選択画面50から、合成動画に用いられる静止画像301Aに施されるエフェクト集(スタイル)を選択することができる。スタイル選択画面50には複数のボタン50A〜50Iが表示される。例えば、「おまかせ」ボタン50Aが選択されたとき、エフェクト抽出部233は、上述のように、合成動画に用いられる静止画像301Aに適したエフェクト集を選択する。また、他のボタン50B〜50Iが選択されたとき、エフェクト抽出部233は、それぞれのボタンに対応付けられたエフェクト集を選択する。なお、「おまかせ」ボタン50Aが選択されたとき、エフェクト抽出部233は、他のボタン50B〜50Iに対応付けられたエフェクト集から、合成動画に用いられる静止画像301Aに適したエフェクト集を選択してもよい。
しかしながら、合成動画を生成する度にエフェクト集を選択する(すなわち、ボタン50A〜50Iを選択する)作業は、ユーザにとって煩雑である。また、合成動画の生成に、ユーザがエフェクト集を選択する操作が必要である使用形態では、自動的に(連続して)合成動画を生成することは困難である。そのため例えば、合成動画が自動的に生成されるときや、ユーザがエフェクト集(ボタン50A〜50I)を選択しないとき(例えば、スタイル選択画面50を用いた選択を省略するとき)には、エフェクト抽出部233は、合成動画に用いられる静止画像301Aに適したエフェクト集を選択する。換言すると、エフェクト抽出部233は、合成動画が自動的に生成されるときや、ユーザがエフェクト303Aを選択しないときには、「おまかせ」ボタン50Aが選択されているものと見なして、合成動画に用いられる静止画像301Aに適したエフェクト集を選択する。また、合成動画をインタラクティブに生成するときには、エフェクト抽出部233は、ユーザによって選択されたボタン50A〜50Iに応じてエフェクト集を選択する。
エフェクト抽出部233は、選択されたエフェクト集に対応するエフェクトデータ303Aをエフェクトデータベース303から抽出する。そして、エフェクト抽出部233は、抽出したエフェクトデータ303Aを合成動画生成部234に出力する。
合成動画生成部234は、素材抽出部232により抽出された素材51を含む合成動画を生成する。合成動画に含まれる素材51には、エフェクト抽出部233により抽出されたエフェクト303Aが施されている。また、例えば、合成動画に含まれる静止画像301A(素材51)に登場する人物の顔画像(オブジェクト)に対して、エフェクト抽出部233により抽出されたエフェクト303Aが施されている。合成動画生成部234は、例えば、エフェクト303Aによって規定されたタイミングで表示される静止画像301Aを含む合成動画を生成する。また、この合成動画は、所定のタイミングで出力される音声データ301Bを含んでもよい。合成動画生成部234は、生成した合成動画を合成動画出力部235に出力する。
なお、エフェクト抽出部233は、素材抽出部232によって抽出された素材51に対して、表情(例えば、笑顔度)と人数に基づくエフェクト303Aを施してもよい。その場合、合成動画生成部234は、エフェクト抽出部233によってエフェクトが施された複数の静止画像を含む動画像(合成動画)を生成する。
合成動画出力部235は、合成動画生成部234によって生成された合成動画を出力する。合成動画出力部235は、合成動画を再生し、画面(LCD17)に表示する。また、合成動画出力部235は、合成動画をエンコードし、エンコードした合成動画のファイルを所定の記憶装置(例えば、HDD109等)に格納してもよい。
以上の構成により、動画像再生アプリケーションプログラム202は、合成動画に用いられる素材51に適したエフェクト(エフェクト群)303Aを決定する。具体的には、エフェクト抽出部233は、例えば、合成動画に用いられる複数の静止画像301Aの各々の笑顔度と人数とに基づいて、これら複数の静止画像301A全体の笑顔度と人数との指標を決定する。エフェクト抽出部233は、決定した笑顔度と人数との指標に基づいて、合成動画に用いられる複数の静止画像301Aに適したエフェクト303Aを選択する。したがって、合成動画に用いられるエフェクト303Aを選択する操作をユーザが行うことなく、合成動画生成部234は、適切なエフェクト303Aが施された複数の静止画像301Aを含む合成動画(動画像)を生成することができる。
図10のフローチャートは、動画像再生アプリケーションプログラム202によって実行される素材分析処理の手順の例を示す。なお、以下では、分析対象の素材データ51が静止画像データ301Aである場合を想定する。
まず、素材入力部21は、インタフェース部等を介して、静止画像データ301Aが入力されたか否かを判定する(ブロックB11)。静止画像データ301Aが入力されていない場合(ブロックB11のNO)、素材入力部21は、例えば所定時間だけ待って、再度ブロックB11の処理を行う。
静止画像データ301Aが入力されている場合(ブロックB11のYES)、素材入力部21は、入力された静止画像データ301Aを素材データベース301に格納する(ブロックB12)。素材入力部21は、静止画像データ301Aが入力されたことを素材分析部22(顔画像検出部221)に通知する。
次いで、顔画像検出部221は、入力された静止画像301Aから顔画像を検出する(ブロックB13)。顔画像検出部221は、静止画像301A内に含まれる各顔画像の位置(座標)、サイズ、正面度等を検出する。また、顔画像検出部221は、検出した顔画像に対応する人物を認識してもよい。顔画像検出部221は、検出した顔画像を示す情報を表情検出部222及び人数検出部223に出力する。
表情検出部222は、検出された顔画像の笑顔度を決定する(ブロックB14)。笑顔度は、検出された顔画像が笑顔である尤もらしさの度合い(尤度)を示す。一つの静止画像301Aから複数の顔画像が検出されている際には、それら顔画像の笑顔度に基づいて、静止画像301Aの笑顔度を決定する。
次いで、人数検出部223は、検出された顔画像の数に基づいて、静止画像301Aに含まれる人物の数を決定する(ブロックB15)。そして、素材分析部211は、静止画像301Aに対応する笑顔度、人数、顔画像情報等を含む分析情報302Bを素材情報データベース302に格納する(ブロックB16)。
以上の処理により、入力された静止画像301Aに含まれる顔画像の笑顔度と人数とを決定し、これら笑顔度と人数とを含む分析情報302Bが素材情報データベース302に格納される。
次いで、図11のフローチャートを参照して、動画像再生アプリケーションプログラム202によって実行される合成動画生成処理の手順の例を説明する。
まず、抽出キー選択部231は、抽出キーが選択されたか否かを判定する(ブロックB21)。抽出キー選択部231は、素材情報データベース302に格納された分析情報302Bに基づいて、抽出キー候補情報401を作成する。そして、抽出キー選択部231は、抽出キー候補情報401に基づいて、抽出キーの候補を画面に表示する。抽出キー選択部231は、例えば、この抽出キーの候補から抽出キーに用いられる候補が選択されたか否かを判定する。
抽出キーが選択されていない場合(ブロックB21のNO)、抽出キー選択部231は再度ブロックB21の処理を行う。抽出キーが選択されている場合(ブロックB21のYES)、素材抽出部232は、選択された抽出キーに基づいて、素材データベース301から素材51(静止画像301A)を抽出する(ブロックB22)。抽出される素材51は、例えば、抽出キーに対応する素材51や抽出キーに関連する素材51を含む。素材抽出部232は、抽出した素材51をエフェクト抽出部233に出力する。
次いで、エフェクト抽出部233は、抽出された素材51に対応する分析情報302Bに基づいて、抽出された素材51に適したエフェクト集を選択する(ブロックB23)。エフェクト抽出部233は、例えば、抽出された素材51の笑顔度と人数とに基づいて、エフェクト集を選択する。エフェクト抽出部233は、選択したエフェクト集に対応するエフェクト303Aをエフェクトデータベース303から抽出する。エフェクト抽出部233は、抽出された素材51とエフェクト303Aとを合成動画生成部234に出力する。
そして、合成動画生成部234は、抽出された素材51とエフェクト303Aとを用いて、合成動画を生成する(ブロックB24)。生成された合成動画には、エフェクト303Aが施された素材51が含まれる。合成動画生成部234は、生成した合成動画を合成動画出力部235に出力する。
なお、エフェクト抽出部233は、抽出された素材51に選択したエフェクト303Aを施して、合成動画生成部234に出力してもよい。その場合、合成動画生成部234は、エフェクト303Aが施された素材51を含む合成動画を生成する。
合成動画出力部235は、合成動画の出力方法が再生とファイル出力のいずれであるかを判定する(ブロックB25)。合成動画を再生する出力方法が選択されている場合(ブロックB25の再生)、合成動画出力部235は、合成動画を再生し、画面に出力する(ブロックB26)。一方、合成動画をファイル出力する出力方法が選択されている場合(ブロックB25のファイル出力)、合成動画出力部235は、合成動画を所定の形式でファイルに出力する(ブロックB27)。
以上の処理により、抽出キーに基づいて抽出された素材51と、素材51に適したエフェクト303Aとを用いた合成動画を生成することができる。これにより、ユーザは素材51に適したエフェクト303Aを選択するための作業を行わずに済む。したがって例えば、ユーザが、素材51に適したエフェクト303Aを選択することが困難であるとき(いずれのエフェクト303Aが素材51に適しているかを判定することが困難であるとき)にも、適切なエフェクト303Aが施された素材51を含む合成動画が生成される。すなわち、ユーザがエフェクト303Aに関する十分な知識を有しないときにも、動画像再生アプリケーションプログラム202は、適切なエフェクト303Aが施された素材51を含む合成動画を生成することができる。
以上説明したように、本実施形態によれば、適切なエフェクトが施された静止画像を含む動画像を生成できる。エフェクト抽出部233は、例えば、合成動画に用いられる複数の静止画像301Aの各々の笑顔度と人数とに基づいて、これら複数の静止画像301A全体の笑顔度と人数との指標を決定する。エフェクト抽出部233は、決定した笑顔度と人数との指標に基づいて、合成動画に用いられる複数の静止画像301Aに適したエフェクト集を選択する。したがって、合成動画に用いられるエフェクト集を選択する操作をユーザが行うことなく、合成動画生成部234は、適切なエフェクト303Aが施された複数の静止画像301Aを含む合成動画(動画像)を生成することができる。
なお、本実施形態の合成動画生成処理の手順は全てソフトウェアによって実行することができる。このため、合成動画生成処理の手順を実行するプログラムを格納したコンピュータ読み取り可能な記憶媒体を通じてこのプログラムを通常のコンピュータにインストールして実行するだけで、本実施形態と同様の効果を容易に実現することができる。
また本発明は上記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記実施形態に開示されている複数の構成要素の適宜な組み合わせにより、種々の発明を形成できる。例えば、実施形態に示される全構成要素からいくつかの構成要素を削除してもよい。さらに、異なる実施形態にわたる構成要素を適宜組み合わせてもよい。