JP5550447B2

JP5550447B2 - 電子機器及び方法

Info

Publication number: JP5550447B2
Application number: JP2010116581A
Authority: JP
Inventors: 義賢飛田; 祐紀金子
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2010-05-20
Filing date: 2010-05-20
Publication date: 2014-07-16
Anticipated expiration: 2030-05-20
Also published as: JP2011244344A

Description

本発明の実施形態は、動画像を生成する電子機器及び該機器に適用される動画像生成方法に関する。

近年、デジタルフォトフレーム等と称される画像再生装置が普及している。デジタルフォトフレームは、例えば、カード型記憶メディアに格納される複数枚の静止画像を所定時間間隔で順次表示する機能を有している。例えばパーソナルコンピュータやデジタルカメラ等においても、デジタルフォトフレームと同様に、複数枚の静止画像を所定時間間隔で順次表示する機能を有するものが一般的である。

特開２００８−８４２１３号公報

また、上述の画像再生装置では、静止画像にエフェクトを施して表示する機能を有するものもある。例えば、２枚の静止画像に対して、これら静止画像をスライドさせて切り替える（スライドイン／スライドアウト）エフェクトが施される。

静止画像に施されるエフェクトは、例えばユーザによって決定されることが想定される。しかし、静止画像毎にエフェクトを決定する作業はユーザにとって煩雑である。また、例えば、静止画像に施されるエフェクトをランダムに決定した際には、静止画像に適切でないエフェクトが施される可能性がある。

本発明は、適切なエフェクトが施された静止画像を含む動画像を生成できる電子機器及び動画像生成方法を提供することを目的とする。

実施形態によれば、電子機器は、エフェクト手段、及び表示処理手段を具備する。エフェクト手段は、複数の静止画像から検出された顔画像が第１の表情である度合いと、前記複数の静止画像の各々に含まれる人数とを用いるものであって、前記複数の静止画像のうち、前記第１の表情である度合いが第１しきい値以上である顔画像を含む第１の静止画像の数と、前記複数の静止画像のうち、前記人数が第２しきい値以上である第２の静止画像の数とに基づくエフェクトを前記複数の静止画像に施す。表示処理手段は、前記エフェクトが施された前記複数の静止画像を表示する。

一実施形態に係る電子機器の構成を示すブロック図。同実施形態の電子機器のシステム構成を示すブロック図。同実施形態の電子機器によって実行される動画像再生アプリケーションプログラムの機能構成を示すブロック図。同実施形態の電子機器によって実行される動画像再生アプリケーションプログラムが用いる素材情報の例を示す図。同実施形態の電子機器によって実行される動画像再生アプリケーションプログラムが用いる分析情報の例を示す図。同実施形態の電子機器によって実行される動画像再生アプリケーションプログラムが用いる抽出キー候補情報の例を示す図。同実施形態の電子機器によって実行される動画像再生アプリケーションプログラムが用いるエフェクトの例を示す図。同実施形態の電子機器によって実行される動画像再生アプリケーションプログラムが用いるエフェクトの別の例を示す図。同実施形態の電子機器によって表示されるスタイル選択画面の例を示す図。同実施形態の電子機器によって実行される素材分析処理の手順の例を示すフローチャート。同実施形態の電子機器によって実行される合成動画生成処理の手順の例を示すフローチャート。

以下、実施の形態について図面を参照して説明する。
図１は、一実施形態に係る電子機器の外観を示す斜視図である。この電子機器は、例えばノートブックタイプのパーソナルコンピュータ１０として実現されている。図１に示すように、本コンピュータ１０は、コンピュータ本体１１と、ディスプレイユニット１２とから構成されている。ディスプレイユニット１２には、ＬＣＤ（liquid crystal display）１７が組み込まれている。ディスプレイユニット１２は、コンピュータ本体１１の上面が露出される開放位置とコンピュータ本体１１の上面を覆う閉塞位置との間を回動自在にコンピュータ本体１１に取り付けられている。

コンピュータ本体１１は、薄い箱形の筐体を有しており、その上面には、キーボード１３、本コンピュータ１０を電源オン／電源オフするためのパワーボタン１４、入力操作パネル１５、タッチパッド１６、スピーカ１８Ａ，１８Ｂなどが配置されている。入力操作パネル１５上には、各種操作ボタンが設けられている。

また、コンピュータ本体１１の右側面には、例えばＵＳＢ（universal serial bus）２．０規格のＵＳＢケーブルやＵＳＢデバイスを接続するためのＵＳＢコネクタ１９が設けられている。

図２は、本コンピュータ１０のシステム構成を示す図である。
本コンピュータ１０は、図２に示されているように、ＣＰＵ（central processing unit）１０１、ノースブリッジ１０２、主メモリ１０３、サウスブリッジ１０４、ＧＰＵ（Graphics Processing Unit）１０５、ＶＲＡＭ（ビデオＲＡＭ:random access memory）１０５Ａ、サウンドコントローラ１０６、ＢＩＯＳ−ＲＯＭ（basic input/output system-read only memory）１０７、ＬＡＮ（local area network）コントローラ１０８、ハードディスクドライブ（ＨＤＤ）１０９、光ディスクドライブ（ＯＤＤ）１１０、ＵＳＢコントローラ１１１Ａ、カードコントローラ１１１Ｂ、無線ＬＡＮコントローラ１１２、エンベデッドコントローラ／キーボードコントローラ（ＥＣ／ＫＢＣ）１１３、ＥＥＰＲＯＭ（electrically erasable programmable ROM）１１４等を備える。

ＣＰＵ１０１は、本コンピュータ１０内の各部の動作を制御するプロセッサである。ＣＰＵ１０１は、ＨＤＤ１０９から主メモリ１０３にロードされる、オペレーティングシステム（ＯＳ）２０１、及び動画像再生アプリケーションプログラム２０２のような各種アプリケーションプログラムを実行する。動画像再生アプリケーションプログラム２０２は、例えばＨＤＤ１０９等に格納された各種デジタルコンテンツデータ（例えば、フォトムービー）を再生するソフトウェアである。この動画像再生アプリケーションプログラム２０２は、動画像生成機能を有している。この動画像生成機能は、例えば、ＨＤＤ１０９等に格納された写真等の素材（デジタルコンテンツ）を用いて、合成動画（動画像）を作成する機能である。さらに、この動画像生成機能は、動画像に用いる素材を分析する機能を含む。動画像再生アプリケーションプログラム２０２は、素材を用いて作成された動画像を再生し、画面（ＬＣＤ１７）に表示する。

また、ＣＰＵ１０１は、ＢＩＯＳ−ＲＯＭ１０７に格納されたＢＩＯＳも実行する。ＢＩＯＳは、ハードウェア制御のためのプログラムである。

ノースブリッジ１０２は、ＣＰＵ１０１のローカルバスとサウスブリッジ１０４との間を接続するブリッジデバイスである。ノースブリッジ１０２には、主メモリ１０３をアクセス制御するメモリコントローラも内蔵されている。また、ノースブリッジ１０２は、例えば、PCI EXPRESS規格のシリアルバスなどを介してＧＰＵ１０５との通信を実行する機能も有している。

ＧＰＵ１０５は、本コンピュータ１０のディスプレイモニタとして使用されるＬＣＤ１７を制御する表示コントローラである。このＧＰＵ１０５によって生成される表示信号はＬＣＤ１７に送られる。

サウスブリッジ１０４は、ＰＣＩ（Peripheral Component Interconnect）バス上の各デバイス及びＬＰＣ（Low Pin Count）バス上の各デバイスを制御する。また、サウスブリッジ１０４は、ＨＤＤ１０９及びＯＤＤ１１０を制御するためのＩＤＥ（Integrated Drive Electronics）コントローラを内蔵している。さらに、サウスブリッジ１０４は、サウンドコントローラ１０６との通信を実行する機能も有している。

サウンドコントローラ１０６は音源デバイスであり、再生対象のオーディオデータをスピーカ１８Ａ，１８Ｂに出力する。ＬＡＮコントローラ１０８は、例えばIEEE 802.3規格の有線通信を実行する有線通信デバイスであり、一方、無線ＬＡＮコントローラ１１２は、例えばIEEE 802.11g規格の無線通信を実行する無線通信デバイスである。ＵＳＢコントローラ１１１Ａは、（ＵＳＢコネクタ１９を介して接続される）例えばUSB 2.0規格に対応した外部機器との通信を実行する。例えば、ＵＳＢコントローラ１１１Ａは、例えば、デジタルカメラに格納されている画像データファイルを受信するために使用される。カードコントローラ１１１Ｂは、コンピュータ本体１１に設けられたカードスロットに挿入される、ＳＤカードのようなメモリカードに対するデータの書き込み及び読み出しを実行する。

ＥＣ／ＫＢＣ１１３は、電力管理のためのエンベデッドコントローラと、キーボード１３及びタッチパッド１６を制御するためのキーボードコントローラとが集積された１チップマイクロコンピュータである。ＥＣ／ＫＢＣ１１３は、ユーザによるパワーボタン１４の操作に応じて本コンピュータ１０を電源オン／電源オフする機能を有している。

次に、図３を参照して、以上のような構成を有するコンピュータ１０上で動作する動画像再生アプリケーションプログラム２０２の一機能構成を説明する。ここでは、動画像再生アプリケーションプログラム２０２が有する機能のうち、動画像生成機能を実現するための構成例について説明する。この動画像生成機能は、インタフェース部（上述のＵＳＢコントローラ１１１Ａ、カードコントローラ１１１Ｂ等）を介して外部デバイス（デジタルカメラ、メモリカード等）から格納された素材データ５１だけでなく、ＨＤＤ１０９内の所定のディレクトリに格納された素材データ５１やネットワークを介して格納された素材データ５１等に対しても適用することができる。なお、この素材データ５１は、例えば、静止画像データ３０１Ａ、音声データ３０１Ｂ、動画像データ３０１Ｃ等である。

動画像再生アプリケーションプログラム２０２は、素材入力部２１、素材分析部２２及び動画再生部２３を備える。

素材入力部２１は、ＵＳＢコントローラ１１１Ａ、カードコントローラ１１１Ｂ等のインタフェース部を介して、素材データ５１が入力されたことに応答して、素材データ５１をＨＤＤ１０９内の素材データベース３０１に格納する。素材データベース３０１は、生成される動画像に用いられる素材データ５１を格納するためのデータベースである。具体的には、素材データベース３０１には、素材データ５１である、静止画像データ３０１Ａ、音声データ３０１Ｂ、動画像データ３０１Ｃ等が格納される。素材データベース３０１に格納された素材データ５１は、合成動画の素材候補として用いられる。また、素材入力部２１は、素材データ５１がＨＤＤ１０９に格納されたことを素材分析部２２に通知する。

素材分析部２２は、素材入力部２１からの通知に応答して、素材データ５１を分析する処理を開始する。素材分析部２２は、顔画像検出部２２１、表情検出部２２２及び人数検出部２２３を備える。なお、以下では、分析対象の素材データ５１が静止画像データ３０１Ａである場合を想定する。

顔画像検出部２２１は、静止画像データ３０１Ａから顔画像を検出する顔検出処理を実行する。顔画像は、例えば、静止画像データ３０１Ａの特徴を解析し、予め用意された顔画像特徴サンプルと類似する特徴を有する領域を探索することによって検出することができる。顔画像特徴サンプルは、多数の人物それぞれの顔画像特徴を統計的に処理することによって得られた特徴データである。顔検出処理により、静止画像３０１Ａ内に含まれる各顔画像の位置（座標）、サイズ、正面度等が検出される。

さらに、顔画像検出部２２１は検出された顔画像を分類してもよい。顔画像検出部２２１は、静止画像データ３０１Ａから検出された複数の顔画像を、同一の人物と推定される顔画像別のグループに分類する。また、顔画像検出部２２１は検出された顔画像に対応する人物を識別してもよい。その場合、顔画像検出部２２１は、例えば、識別する人物の顔画像特徴サンプルを用いて、検出された顔画像がその人物であるか否かを判定する。顔画像検出部２２１は、上述の結果に基づき、検出された顔画像に人物毎の顔ＩＤを付与する。顔画像検出部２２１は、検出した顔画像の情報を表情検出部２２２及び人数検出部２２３に出力する。

表情検出部２２２は、顔画像検出部２２１によって検出された顔画像に対応する表情を検出する。そして、表情検出部２２２は、当該顔画像が検出された表情である尤もらしさを示す度合い（尤度）を算出する。具体的には、表情検出部２２２は、例えば、検出された顔画像に対応する表情が「笑顔」であるか否かを判定する。表情検出部２２２は、例えば、「笑顔」の顔画像特徴サンプルに類似する特徴を有する顔画像を「笑顔」であると判定する。顔画像に対応する表情が「笑顔」であると判定された場合、表情検出部２２２は、顔画像が笑顔である尤度（笑顔度）を算出する。１枚の静止画像３０１Ａから複数の顔画像が検出されている際には、表情検出部２２２は、例えば、複数の顔画像の笑顔度の平均を、静止画像３０１Ａの笑顔度に決定する。

なお、笑顔度は、数値に限らず、例えば「高い」、「低い」といった相対的な指標で表してもよい。笑顔度を相対的な指標で表す際に、１枚の静止画像３０１Ａから複数の顔画像が検出されているときには、表情検出部２２２は、例えば、より多くの顔画像に設定されている方の指標（例えば、「高い」）を、静止画像３０１Ａの笑顔度に決定する。また、表情検出部２２２は、笑顔に限らず、怒った顔、泣き顔、驚いた顔、無表情など、あらゆる表情である尤度を算出してもよい。

人数検出部２２３は静止画像３０１Ａに含まれる人物の数を検出する。人数検出部２２３は、例えば、顔画像検出部２２１によって検出された顔画像の数を、静止画像３０１Ａに含まれる人物の数に決定する。また、人数検出部２２３は、例えば、顔画像を含む人物の全身や体の一部等を検出することにより、後ろ姿で捉えられた人物等を含む人数を算出してもよい。なお、人数は、数値に限らず、例えば「多い」、「少ない」といった相対的な指標で表してもよい。人数検出部２２３は、例えば、静止画像３０１Ａからしきい値以上の数の顔画像が検出されているとき、静止画像３０１Ａの人数を「多い」に決定する。

素材分析部２２は、素材データ５１に付加された素材情報３０２Ａ、及び上述の分析により生成された分析情報３０２Ｂを、ＨＤＤ１０９内の素材情報データベース３０２に格納する。

図４は、素材情報３０２Ａの一構成例を示す。素材情報３０２Ａは、例えば、素材ＩＤ、ファイルパス、ファイルサイズ、ファイル形式、生成日時、生成場所、種類、画像サイズ、再生時間、入力経路を示す情報を含む。「素材ＩＤ」は、素材５１に一意に割り当てられる識別情報である。「ファイルパス」は、素材５１が格納される場所を示す。「ファイルサイズ」は、素材５１のデータサイズを示す。「ファイル形式」は、素材５１のファイルのタイプ（例えば、ｍｐｅｇ，ｊｐｅｇ，ｍｐ３等）を示す。「生成日時」は、素材５１が生成された日時を表す時刻情報を示す。「生成場所」は、素材５１が生成された場所を表す位置情報を示す。「種類」は、素材５１の種類（例えば、静止画像、音声、動画像等）を示す。「画像サイズ」は、素材５１が静止画像３０１Ａ又は動画像３０１Ｃであるときに、その画像サイズを示す。「再生時間」は、素材５１が音声３０１Ｂ又は動画像３０１Ｃであるときに、その再生時間を示す。「入力経路」は、素材５１がコンピュータ１０に入力された経路（例えば、外部記憶メディア、外部記憶装置、ネットワーク上のサーバ等）を示す。

また、図５は、分析情報３０２Ｂの一構成例を示す。分析情報３０２Ｂは、例えば、素材ＩＤ、笑顔度、人数、及び顔画像情報を含む。素材ＩＤは、素材５１（静止画像３０１Ａ）に一意に割り当てられる識別情報である。

笑顔度は、静止画像３０１Ａから検出された顔画像の笑顔度を示す。静止画像３０１Ａから複数の顔画像が検出された際には、笑顔度は、例えば複数の顔画像の笑顔度の平均を示す。また、笑顔度は、上述のように「高い」、「低い」といった相対的な指標で表されてもよい。その場合、静止画像３０１Ａから複数の顔画像が検出されたときには、例えば、より多くの顔画像に決定された方の指標が静止画像３０１Ａの笑顔度に決定される。
人数は、静止画像３０１Ａに含まれる人物の数を示す。

また、顔画像情報は、上述の顔検出処理による分析結果に基づく情報を示す。したがって、顔画像情報は、例えば、顔画像、サイズ、位置、顔ＩＤを示す情報を含む。また、顔画像情報は、各顔画像の笑顔度を含んでもよい。なお、分析情報３０２Ｂには、１つの静止画像３０１Ａから検出された顔画像に対応する数だけ、顔画像情報が格納される。

また、素材分析部２１１は、静止画像データ３０１Ａから人物（顔画像を含む全身や体の一部等）、風景（海、山、花等）、動物（犬、猫、魚等）等のオブジェクトを検出（認識）し、それら分析結果（検出結果）を示す情報を含む分析情報３０２Ｂを生成してもよい。さらに、素材分析部２１１は、素材情報３０２Ａや静止画像データ３０１Ａから撮影時刻、撮影位置等を推定し、それら分析結果（推定結果）を示す情報を含む分析情報３０２Ｂを生成してもよい。その場合、図５に示すように、分析情報３０２Ｂには、人物画像、サイズ、位置、及び人物ＩＤを含む人物画像情報、風景画像、サイズ、位置、及び属性を含む風景情報、動物画像、サイズ、位置、及び属性を含む動物情報、撮影時刻、並びに撮影位置が含まれる。

なお、素材分析部２１１は、音声データ３０１Ｂを分析し、検出された声に対応する人物の情報及び人物の数、検出された音楽の雰囲気及びジャンル等を含む分析情報３０２Ｂを生成してもよい。さらに、素材分析部２１１は、動画像データ３０１Ｃに含まれる各画像フレームを、静止画像データ３０１Ａと同様に分析し、上述の笑顔度、人数、顔画像情報等を含む分析情報３０２Ｂを生成してもよい。

素材分析部２１１は、入力された素材データ５１に対応する素材情報３０２Ａ及び分析情報３０２Ｂが、素材情報データベース３０２に格納されたことを動画再生部２３に通知する。

動画再生部２３は、素材分析部２２からの通知に応答して、素材データ５１を用いて合成動画（動画像）を生成し、生成された合成動画を再生（表示）する処理を開始する。その際、動画再生部２３は、素材情報データベース３０２を参照して、所定の条件を満たす素材データ５１を素材データベース３０１から抽出し、合成動画を生成する。動画再生部２３は、抽出キー選択部２３１、素材抽出部２３２、エフェクト抽出部２３３、合成動画生成部２３４、及び合成動画出力部２３５を備える。

抽出キー選択部２３１は、分析情報３０２Ｂに基づく抽出キー候補情報４０１から抽出キーを選択する。抽出キーは、合成動画に使用される素材データ５１を抽出するために用いられる。

具体的には、抽出キー選択部２３１は、まず、素材情報データベース３０２から分析情報３０２Ｂを抽出し、抽出キー候補情報４０１を作成する。抽出キー選択部２３１は、例えば、所定の期間内に生成された静止画像データ３０１Ａの情報を抽出キー候補情報４０１に用いる。また、抽出キー選択部２３１は、例えば、所定の人物の顔画像を含む静止画像データ３０１Ａの情報を抽出キー候補情報４０１に用いる。なお、抽出キー選択部２３１は、素材情報３０２Ａも用いて抽出キー候補情報４０１を作成してもよい。

図６は抽出キー候補情報４０１の一構成例を示す。抽出キー候補情報４０１は、例えば、抽出キー候補ＩＤと抽出キー候補素材ＩＤとを含む。抽出キー候補ＩＤは、抽出キー候補に一意に割り当てられる識別情報である。抽出キー候補素材ＩＤは、抽出キー候補に用いられる素材データ５１（静止画像データ３０１Ａ、音声データ３０１Ｂ、動画像データ３０１Ｃ）の素材ＩＤを示す。したがって、抽出キー候補素材ＩＤは、分析情報３０２Ｂ（素材情報３０２Ａ）に含まれる素材ＩＤのいずれかを示す。なお、以下では抽出キー候補に静止画像データ３０１Ａが用いられることを想定する。

抽出キー選択部２３１は、作成した抽出キー候補情報４０１を画面（ＬＣＤ１７）に表示する。抽出キー選択部２３１は、例えば、抽出キー候補情報４０１の抽出キー候補素材ＩＤに基づいて、対応する静止画像３０１Ａのリストを画面に表示する。ユーザは、表示されたリストから、合成動画の抽出キーとして用いたい静止画像３０１Ａを選択する。そして、抽出キー選択部２３１は選択された静止画像３０１Ａを抽出キーに決定する。なお、抽出キーとして用いられる静止画像３０１Ａは複数であってもよい。

また、抽出キー選択部２３１は、さらに、選択された静止画像３０１Ａに含まれるオブジェクトから、抽出キーに用いられるオブジェクトを選択してもよい。その場合、抽出キー選択部２３１は、例えば、選択された静止画像３０１Ａ内のオブジェクトを選択可能に表示する。具体的には、抽出キー選択部２３１は、例えば、選択された静止画像３０１Ａ内のオブジェクトである顔画像に枠等を重畳して表示する。枠内の顔画像は、例えば、ユーザによる操作で選択することができる。ユーザは、枠で囲まれた複数の顔画像の中から、合成動画の抽出キーとして用いたい顔（すなわち、人物）を選択する。そして、抽出キー選択部２３１は、選択された顔を抽出キーに決定する。なお、抽出キーに用いられるオブジェクトは、顔画像に限らず、人物の全身や一部、動物や植物、風景等であってもよい。また、抽出キー選択部２３１は、抽出キー候補情報４０１に示される抽出キーの候補を画面に表示することなく、所定の条件に基づいて抽出キーを選択してもよい。

素材抽出部２３２は、抽出キー選択部２３１によって選択された抽出キーに基づいて、素材データベース３０１から素材データ５１を抽出する。素材抽出部２３２は、素材データベース３０１から、抽出キーに対応する素材データ５１及び抽出キーに関連する素材データ５１の少なくともいずれかを抽出する。具体的には、素材抽出部２３２は、例えば、抽出キーである静止画像３０１Ａに含まれる人物（登場する人物）を含む他の静止画像３０１Ａを抽出する。また、素材抽出部２３２は、例えば、抽出キーである静止画像３０１Ａに含まれる人物に関連する人物を含む他の静止画像３０１Ａを抽出する。この関連する人物は、例えば、家族や友人、高い頻度で同じ画像内に捉えられている人物等である。さらに、素材抽出部２３２は、例えば、抽出キーである人物（オブジェクト）の顔画像を含む静止画像３０１Ａを抽出する。また、素材抽出部２３２は、抽出キーである人物に関連する人物の顔画像を含む静止画像３０１Ａを抽出してもよい。素材抽出部２３２は、エフェクト抽出部２３３に、抽出した静止画像３０１Ａを出力する。

エフェクト抽出部２３３は、エフェクトデータベース３０３から、抽出された素材データ５１に適したエフェクトデータ３０３Ａを抽出する。具体的には、エフェクト抽出部２３３は、まず、素材情報データベース３０２から、抽出された素材データ５１に対応する分析情報３０２Ｂに含まれる笑顔度と人数とを抽出する。そして、エフェクト抽出部２３３は、抽出した笑顔度と人数とに基づいて、抽出された素材データ５１に適したエフェクトデータ３０３Ａを選択する。エフェクト抽出部２３３は、例えば、抽出された複数の静止画像３０１Ａ（素材５１）の各々に対応する笑顔度と人数とから、これら複数の静止画像３０１Ａ全体での笑顔度の指標と人数の指標とを算出する。エフェクト抽出部２３３は、例えば、抽出された複数の静止画像３０１Ａのうち、笑顔度が第１しきい値以上である顔画像を含む静止画像３０１Ａの数を、複数の静止画像３０１Ａ全体での笑顔度の指標に決定する。また、エフェクト抽出部２３３は、例えば、抽出された複数の静止画像３０１Ａの各々に対応する笑顔度の平均を、これら複数の静止画像３０１Ａ全体の笑顔度の指標に決定してもよい。

また、エフェクト抽出部２３３は、例えば、抽出された複数の静止画像３０１Ａのうち、人数が第２しきい値以上である静止画像３０１Ａのうちの数を、複数の静止画像３０１Ａ全体での人数の指標に決定する。また、エフェクト抽出部２３３は、例えば、抽出された複数の静止画像３０１Ａの各々に対応する人数の平均を、これら複数の静止画像３０１Ａ全体の人数の指標に決定してもよい。

なお、上述のように、笑顔度と人数とは相対的な指標で表されてもよい。したがって例えば、抽出された複数の静止画像３０１Ａの各々に「高い」又は「低い」という笑顔度が設定されているとき、エフェクト抽出部２３３は、より多くの静止画像３０１Ａに設定されている方の指標（例えば、「高い」）を、これら複数の静止画像３０１Ａ全体の笑顔度に決定する。また、例えば、抽出された複数の静止画像３０１Ａのうち、所定の割合（第１しきい値）以上の静止画像３０１Ａに「高い」という笑顔度が設定されているとき、エフェクト抽出部２３３は、これら複数の静止画像３０１Ａ全体の笑顔度を「高い」に決定する。

同様に、例えば、抽出された複数の静止画像３０１Ａの各々に「多い」又は「少ない」という人数が設定されているとき、エフェクト抽出部２３３は、より多くの静止画像３０１Ａに設定されている方の指標（例えば、「少ない」）を、これら複数の静止画像３０１Ａ全体の人数に決定する。また、例えば、抽出された複数の静止画像３０１Ａのうち、所定の割合（第２しきい値）以上の静止画像３０１Ａに「多い」という人数が設定されているとき、エフェクト抽出部２３３は、これら複数の静止画像３０１Ａ全体の人数を「多い」に決定する。

エフェクト抽出部２３３は、上述のように決定される、抽出された複数の静止画像３０１Ａ全体に対応する笑顔度と人数とに基づいて、これら複数の静止画像３０１Ａに適したエフェクト３０３Ａを決定する。
図７は、笑顔度と人数とに基づいて決定されるエフェクト３０３Ａの例を示す。エフェクト抽出部２３３は、抽出された複数の静止画像３０１Ａ全体に対応する笑顔度と人数とに応じて、人数が多く、笑顔度が高い素材に適したエフェクト集５１Ａ、人数が多く、笑顔度が低い素材に適したエフェクト集５１Ｂ、人数が少なく、笑顔度が低い素材に適したエフェクト集５１Ｃ、及び人数が少なく、笑顔度が高い素材に適したエフェクト集５１Ｄのうちのいずれかを選択する。

また、図８は、これらエフェクト集５１Ａ〜５１Ｄに対応する、具体的なエフェクトの例を示す。図８では、エフェクト集５１Ａ〜５１Ｄに以下のような効果を有するエフェクト集５２Ａ〜５２Ｄが用いられる。人数が多く、笑顔度が高い素材に適したエフェクト集５１Ａには、幸せな印象や元気な印象を想起させる効果（装飾）を有するエフェクト集５２Ａが用いられる。人数が多く、笑顔度が低い素材に適したエフェクト集５１Ｂには、セレモニーを想起させる効果を有するエフェクト集５２Ｂが用いられる。人数が少なく、笑顔度が低い素材に適したエフェクト集５１Ｃには、クールな印象や近未来的な印象を想起させる効果を有するエフェクト集５２Ｃが用いられる。また、人数が少なく、笑顔度が高い素材に適したエフェクト集５１Ｄには、ファンタジーや魔法といった印象を想起させる効果を有するエフェクト集５２Ｄが用いられる。これらエフェクト集５２Ａ〜５２Ｄでは、エフェクトに用いられる色、形状、動き（モーション）、オブジェクト等を変更することによって、ユーザに認識される印象が変化するように設計される。したがって例えば、幸せな印象や元気な印象を想起させる効果を有するエフェクト集５２Ａは、明るい色や鮮やかな色を用いたエフェクトを含む。また、例えば、クールな印象や近未来的な印象を想起させる効果を有するエフェクト集５２Ｃは、幾何学的な形状を用いたエフェクトを含む。

なお、エフェクト抽出部２３３は、抽出された複数の静止画像３０１Ａに適するエフェクトを、図７及び図８に示すような４種類に分類されたエフェクト集に限らず、さらに細かく分類されたエフェクト集から選択することもできる。その場合、人数及び笑顔度の値（値域）に対応する、所定の種類のエフェクト集が予め規定され、エフェクト抽出部２３３は、規定された所定の種類のエフェクト集から、抽出された複数の静止画像３０１Ａに適したエフェクト集を選択する。また、エフェクト抽出部２３３は、人数及び笑顔度以外の指標を用いて、抽出された複数の静止画像３０１Ａに適したエフェクトを選択してもよい。

ところで、ユーザは、例えば図９に示すようなスタイル選択画面５０から、合成動画に用いられる静止画像３０１Ａに施されるエフェクト集（スタイル）を選択することができる。スタイル選択画面５０には複数のボタン５０Ａ〜５０Ｉが表示される。例えば、「おまかせ」ボタン５０Ａが選択されたとき、エフェクト抽出部２３３は、上述のように、合成動画に用いられる静止画像３０１Ａに適したエフェクト集を選択する。また、他のボタン５０Ｂ〜５０Ｉが選択されたとき、エフェクト抽出部２３３は、それぞれのボタンに対応付けられたエフェクト集を選択する。なお、「おまかせ」ボタン５０Ａが選択されたとき、エフェクト抽出部２３３は、他のボタン５０Ｂ〜５０Ｉに対応付けられたエフェクト集から、合成動画に用いられる静止画像３０１Ａに適したエフェクト集を選択してもよい。

しかしながら、合成動画を生成する度にエフェクト集を選択する（すなわち、ボタン５０Ａ〜５０Ｉを選択する）作業は、ユーザにとって煩雑である。また、合成動画の生成に、ユーザがエフェクト集を選択する操作が必要である使用形態では、自動的に（連続して）合成動画を生成することは困難である。そのため例えば、合成動画が自動的に生成されるときや、ユーザがエフェクト集（ボタン５０Ａ〜５０Ｉ）を選択しないとき（例えば、スタイル選択画面５０を用いた選択を省略するとき）には、エフェクト抽出部２３３は、合成動画に用いられる静止画像３０１Ａに適したエフェクト集を選択する。換言すると、エフェクト抽出部２３３は、合成動画が自動的に生成されるときや、ユーザがエフェクト３０３Ａを選択しないときには、「おまかせ」ボタン５０Ａが選択されているものと見なして、合成動画に用いられる静止画像３０１Ａに適したエフェクト集を選択する。また、合成動画をインタラクティブに生成するときには、エフェクト抽出部２３３は、ユーザによって選択されたボタン５０Ａ〜５０Ｉに応じてエフェクト集を選択する。

エフェクト抽出部２３３は、選択されたエフェクト集に対応するエフェクトデータ３０３Ａをエフェクトデータベース３０３から抽出する。そして、エフェクト抽出部２３３は、抽出したエフェクトデータ３０３Ａを合成動画生成部２３４に出力する。

合成動画生成部２３４は、素材抽出部２３２により抽出された素材５１を含む合成動画を生成する。合成動画に含まれる素材５１には、エフェクト抽出部２３３により抽出されたエフェクト３０３Ａが施されている。また、例えば、合成動画に含まれる静止画像３０１Ａ（素材５１）に登場する人物の顔画像（オブジェクト）に対して、エフェクト抽出部２３３により抽出されたエフェクト３０３Ａが施されている。合成動画生成部２３４は、例えば、エフェクト３０３Ａによって規定されたタイミングで表示される静止画像３０１Ａを含む合成動画を生成する。また、この合成動画は、所定のタイミングで出力される音声データ３０１Ｂを含んでもよい。合成動画生成部２３４は、生成した合成動画を合成動画出力部２３５に出力する。

なお、エフェクト抽出部２３３は、素材抽出部２３２によって抽出された素材５１に対して、表情（例えば、笑顔度）と人数に基づくエフェクト３０３Ａを施してもよい。その場合、合成動画生成部２３４は、エフェクト抽出部２３３によってエフェクトが施された複数の静止画像を含む動画像（合成動画）を生成する。

合成動画出力部２３５は、合成動画生成部２３４によって生成された合成動画を出力する。合成動画出力部２３５は、合成動画を再生し、画面（ＬＣＤ１７）に表示する。また、合成動画出力部２３５は、合成動画をエンコードし、エンコードした合成動画のファイルを所定の記憶装置（例えば、ＨＤＤ１０９等）に格納してもよい。

以上の構成により、動画像再生アプリケーションプログラム２０２は、合成動画に用いられる素材５１に適したエフェクト（エフェクト群）３０３Ａを決定する。具体的には、エフェクト抽出部２３３は、例えば、合成動画に用いられる複数の静止画像３０１Ａの各々の笑顔度と人数とに基づいて、これら複数の静止画像３０１Ａ全体の笑顔度と人数との指標を決定する。エフェクト抽出部２３３は、決定した笑顔度と人数との指標に基づいて、合成動画に用いられる複数の静止画像３０１Ａに適したエフェクト３０３Ａを選択する。したがって、合成動画に用いられるエフェクト３０３Ａを選択する操作をユーザが行うことなく、合成動画生成部２３４は、適切なエフェクト３０３Ａが施された複数の静止画像３０１Ａを含む合成動画（動画像）を生成することができる。

図１０のフローチャートは、動画像再生アプリケーションプログラム２０２によって実行される素材分析処理の手順の例を示す。なお、以下では、分析対象の素材データ５１が静止画像データ３０１Ａである場合を想定する。

まず、素材入力部２１は、インタフェース部等を介して、静止画像データ３０１Ａが入力されたか否かを判定する（ブロックＢ１１）。静止画像データ３０１Ａが入力されていない場合（ブロックＢ１１のＮＯ）、素材入力部２１は、例えば所定時間だけ待って、再度ブロックＢ１１の処理を行う。

静止画像データ３０１Ａが入力されている場合（ブロックＢ１１のＹＥＳ）、素材入力部２１は、入力された静止画像データ３０１Ａを素材データベース３０１に格納する（ブロックＢ１２）。素材入力部２１は、静止画像データ３０１Ａが入力されたことを素材分析部２２（顔画像検出部２２１）に通知する。

次いで、顔画像検出部２２１は、入力された静止画像３０１Ａから顔画像を検出する（ブロックＢ１３）。顔画像検出部２２１は、静止画像３０１Ａ内に含まれる各顔画像の位置（座標）、サイズ、正面度等を検出する。また、顔画像検出部２２１は、検出した顔画像に対応する人物を認識してもよい。顔画像検出部２２１は、検出した顔画像を示す情報を表情検出部２２２及び人数検出部２２３に出力する。

表情検出部２２２は、検出された顔画像の笑顔度を決定する（ブロックＢ１４）。笑顔度は、検出された顔画像が笑顔である尤もらしさの度合い（尤度）を示す。一つの静止画像３０１Ａから複数の顔画像が検出されている際には、それら顔画像の笑顔度に基づいて、静止画像３０１Ａの笑顔度を決定する。

次いで、人数検出部２２３は、検出された顔画像の数に基づいて、静止画像３０１Ａに含まれる人物の数を決定する（ブロックＢ１５）。そして、素材分析部２１１は、静止画像３０１Ａに対応する笑顔度、人数、顔画像情報等を含む分析情報３０２Ｂを素材情報データベース３０２に格納する（ブロックＢ１６）。

以上の処理により、入力された静止画像３０１Ａに含まれる顔画像の笑顔度と人数とを決定し、これら笑顔度と人数とを含む分析情報３０２Ｂが素材情報データベース３０２に格納される。

次いで、図１１のフローチャートを参照して、動画像再生アプリケーションプログラム２０２によって実行される合成動画生成処理の手順の例を説明する。
まず、抽出キー選択部２３１は、抽出キーが選択されたか否かを判定する（ブロックＢ２１）。抽出キー選択部２３１は、素材情報データベース３０２に格納された分析情報３０２Ｂに基づいて、抽出キー候補情報４０１を作成する。そして、抽出キー選択部２３１は、抽出キー候補情報４０１に基づいて、抽出キーの候補を画面に表示する。抽出キー選択部２３１は、例えば、この抽出キーの候補から抽出キーに用いられる候補が選択されたか否かを判定する。

抽出キーが選択されていない場合（ブロックＢ２１のＮＯ）、抽出キー選択部２３１は再度ブロックＢ２１の処理を行う。抽出キーが選択されている場合（ブロックＢ２１のＹＥＳ）、素材抽出部２３２は、選択された抽出キーに基づいて、素材データベース３０１から素材５１（静止画像３０１Ａ）を抽出する（ブロックＢ２２）。抽出される素材５１は、例えば、抽出キーに対応する素材５１や抽出キーに関連する素材５１を含む。素材抽出部２３２は、抽出した素材５１をエフェクト抽出部２３３に出力する。

次いで、エフェクト抽出部２３３は、抽出された素材５１に対応する分析情報３０２Ｂに基づいて、抽出された素材５１に適したエフェクト集を選択する（ブロックＢ２３）。エフェクト抽出部２３３は、例えば、抽出された素材５１の笑顔度と人数とに基づいて、エフェクト集を選択する。エフェクト抽出部２３３は、選択したエフェクト集に対応するエフェクト３０３Ａをエフェクトデータベース３０３から抽出する。エフェクト抽出部２３３は、抽出された素材５１とエフェクト３０３Ａとを合成動画生成部２３４に出力する。

そして、合成動画生成部２３４は、抽出された素材５１とエフェクト３０３Ａとを用いて、合成動画を生成する（ブロックＢ２４）。生成された合成動画には、エフェクト３０３Ａが施された素材５１が含まれる。合成動画生成部２３４は、生成した合成動画を合成動画出力部２３５に出力する。

なお、エフェクト抽出部２３３は、抽出された素材５１に選択したエフェクト３０３Ａを施して、合成動画生成部２３４に出力してもよい。その場合、合成動画生成部２３４は、エフェクト３０３Ａが施された素材５１を含む合成動画を生成する。

合成動画出力部２３５は、合成動画の出力方法が再生とファイル出力のいずれであるかを判定する（ブロックＢ２５）。合成動画を再生する出力方法が選択されている場合（ブロックＢ２５の再生）、合成動画出力部２３５は、合成動画を再生し、画面に出力する（ブロックＢ２６）。一方、合成動画をファイル出力する出力方法が選択されている場合（ブロックＢ２５のファイル出力）、合成動画出力部２３５は、合成動画を所定の形式でファイルに出力する（ブロックＢ２７）。

以上の処理により、抽出キーに基づいて抽出された素材５１と、素材５１に適したエフェクト３０３Ａとを用いた合成動画を生成することができる。これにより、ユーザは素材５１に適したエフェクト３０３Ａを選択するための作業を行わずに済む。したがって例えば、ユーザが、素材５１に適したエフェクト３０３Ａを選択することが困難であるとき（いずれのエフェクト３０３Ａが素材５１に適しているかを判定することが困難であるとき）にも、適切なエフェクト３０３Ａが施された素材５１を含む合成動画が生成される。すなわち、ユーザがエフェクト３０３Ａに関する十分な知識を有しないときにも、動画像再生アプリケーションプログラム２０２は、適切なエフェクト３０３Ａが施された素材５１を含む合成動画を生成することができる。

以上説明したように、本実施形態によれば、適切なエフェクトが施された静止画像を含む動画像を生成できる。エフェクト抽出部２３３は、例えば、合成動画に用いられる複数の静止画像３０１Ａの各々の笑顔度と人数とに基づいて、これら複数の静止画像３０１Ａ全体の笑顔度と人数との指標を決定する。エフェクト抽出部２３３は、決定した笑顔度と人数との指標に基づいて、合成動画に用いられる複数の静止画像３０１Ａに適したエフェクト集を選択する。したがって、合成動画に用いられるエフェクト集を選択する操作をユーザが行うことなく、合成動画生成部２３４は、適切なエフェクト３０３Ａが施された複数の静止画像３０１Ａを含む合成動画（動画像）を生成することができる。

なお、本実施形態の合成動画生成処理の手順は全てソフトウェアによって実行することができる。このため、合成動画生成処理の手順を実行するプログラムを格納したコンピュータ読み取り可能な記憶媒体を通じてこのプログラムを通常のコンピュータにインストールして実行するだけで、本実施形態と同様の効果を容易に実現することができる。

また本発明は上記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記実施形態に開示されている複数の構成要素の適宜な組み合わせにより、種々の発明を形成できる。例えば、実施形態に示される全構成要素からいくつかの構成要素を削除してもよい。さらに、異なる実施形態にわたる構成要素を適宜組み合わせてもよい。

１０９…ＨＤＤ、２０２…動画像再生アプリケーションプログラム、２１…素材入力部、２２…素材分析部、２２１…顔画像検出部、２２２…表情検出部、２２３…人数検出部、２３…動画再生部、２３１…抽出キー選択部、２３２…素材抽出部、２３３…エフェクト抽出部、２３４…合成動画生成部、２３５…合成動画出力部、３０１…素材データベース、３０１Ａ…静止画像データ、３０１Ｂ…音声データ、３０１Ｃ…動画像データ、３０２…素材情報データベース、３０２Ａ…素材情報、３０２Ｂ…分析情報、３０３…エフェクトデータベース、３０３Ａ…エフェクトデータ、５１…素材データ。

Claims

複数の静止画像から検出された顔画像が第１の表情である度合いと、前記複数の静止画像の各々に含まれる人数とを用いるものであって、前記複数の静止画像のうち、前記第１の表情である度合いが第１しきい値以上である顔画像を含む第１の静止画像の数と、前記複数の静止画像のうち、前記人数が第２しきい値以上である第２の静止画像の数とに基づくエフェクトを前記複数の静止画像に施すエフェクト手段と、
前記エフェクトが施された前記複数の静止画像を表示する表示処理手段とを具備する電子機器。
前記第１の表情は笑顔である請求項１記載の電子機器。
前記複数の静止画像の各々に含まれる人数は、前記複数の静止画像の各々から検出された顔画像の数である請求項１記載の電子機器。
前記エフェクト手段は、前記第１の静止画像の数と前記第２の静止画像の数とに基づいて、複数のエフェクト群のうちのいずれかを選択し、前記複数の静止画像に前記選択エフェクト群に含まれるエフェクトを施す請求項１記載の電子機器。
複数の静止画像から検出された顔画像が第１の表情である度合いと、前記複数の静止画像の各々に含まれる人数とを用いて、前記複数の静止画像のうち、前記第１の表情である度合いが第１しきい値以上である顔画像を含む第１の静止画像の数と、前記複数の静止画像のうち、前記人数が第２しきい値以上である第２の静止画像の数とに基づくエフェクトを前記複数の静止画像に施し、
前記エフェクトが施された前記複数の静止画像を表示する方法。
前記第１の表情は笑顔である請求項５記載の方法。
前記複数の静止画像の各々に含まれる人数は、前記複数の静止画像の各々から検出された顔画像の数である請求項５記載の方法。
前記エフェクトを施すことは、前記第１の静止画像の数と前記第２の静止画像の数とに基づいて、複数のエフェクト群のうちのいずれかを選択し、前記複数の静止画像に前記選択エフェクト群に含まれるエフェクトを施す請求項５記載の方法。