JP2004172671A

JP2004172671A - 動画像加工方法及び装置

Info

Publication number: JP2004172671A
Application number: JP2002332756A
Authority: JP
Inventors: Koichi Masukura; 孝一増倉; Osamu Hori; 修堀; Toshimitsu Kaneko; 敏充金子; Takeshi Mita; 雄志三田; Koji Yamamoto; 晃司山本; Yoshihiro Omori; 善啓大盛
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2002-11-15
Filing date: 2002-11-15
Publication date: 2004-06-17
Anticipated expiration: 2022-11-15
Also published as: US7432983B2; US20040148640A1; JP3793142B2

Abstract

【課題】付帯するメタデータを利用して入力動画像の各フレームごとに適切な領域で切り出すことによって動画像特徴量や使用方法に応じた出力動画像を自動的に作成する動画像加工方法及び動画像加工装置を提供する。
【解決手段】入力動画像を記憶する入力動画像記憶部１０１と、メタデータを記憶するメタデータ記憶部１０２と、各フレームにおける矩形の切り出し領域を決定する切り出し領域決定部１０３と、入力動画像の各フレームの画像から切り出し領域部の画像を切り出して出力動画像を作成する動画像切り出し部１０４と、出力動画像を表示する出力動画像表示部１０５と、出力動画像を記憶する出力動画像記憶１０６とを備える。
【選択図】図１

Description

【０００１】
【発明の属する技術分野】
本発明は、入力動画像に付帯する特徴量、出力動画像使用方法、切り出し位置制御情報等の各種付帯情報（メタデータ）を利用して、入力動画像の各フレームの画像から任意の矩形領域を切り出して加工することにより出力動画像を作成する動画像加工方法及び装置に関する。
【０００２】
【従来の技術】
近年、画像処理技術の急速な発展により、動画像や静止画像をデジタルデータの形態で扱うことは一般化している。画像のデジタル化は、データ量が大きい動画像等の画像データを効率的に圧縮する技術を確立させた。また、このような技術の向上に伴う携帯電話機や携帯情報端末などの携帯型各種電子機器（「携帯機器」という）の急速な普及は、携帯機器上でも動画像を閲覧したいという一般的なユーザからの要望を生み出している。
【０００３】
携帯機器は接続回線容量が小さくディスプレイの解像度や記憶容量も小さいことから、快適な閲覧のためには携帯端末用の動画像を別途作成する必要がある。このような携帯端末用の動画像を得るにあたっては、既存の動画像を国際標準であるＭＰＥＧ−４などの携帯機器向けの動画像符号化フォーマットに効率的に変換する手法が既に提案されている（例えば下記非特許文献１参照。）。
【０００４】
また、動画像利用の利便性向上ならびに簡易化を目的として、動画像の物理的特徴や意味的情報などの付帯情報（メタデータ）に応じた動画像の検索、編集、配信、閲覧等を実現する際の統一的な枠組みが求められており、メタデータに関する国際標準の一つにＭＰＥＧ−７が提案されている。ＭＰＥＧ−７では、動画像や音声の物理的特徴量、内容などの意味的特徴量、著作権情報などを組み合わせて記述することができる。今後は、このようなＭＰＥＧ−７の規格に則り、メタデータと共に動画像を扱う局面が急増するものと思われる。
【０００５】
【非特許文献１】
山口昇，児玉知也，増倉孝一，ＭＰＥＧトランスコード技術，東芝レビュー，５７，６，２００２，ｐ１８−２１
【０００６】
【発明が解決しようとする課題】
配信等に供するために携帯機器用の動画像を準備する際には、例えばその機種ごとで異なる画面解像度や記憶容量等に応じ、それぞれ異なる動画像を作成する必要があることから、作業に極めて手間がかかる。
【０００７】
また、一般に携帯機器による映像再生には解像度が低い、画面が小さい、あるいは画面のアスペクト比が縦長であるといった特徴がある。したがって、携帯機器用の動画像とするために元々はテレビジョンやパーソナルコンピュータでの再生が意図された既存の映像をそのまま携帯機器の解像度に拡大あるいは縮小変換すると、アスペクト比の不具合や、小さい物体や小さい文字などが判別不能になるといった欠点が生じるかもしれない問題がある。
【０００８】
本発明はかかる事情を考慮してなされたものであり、動画像に付帯するメタデータを利用することにより入力動画像を適切に加工して出力動画像を得ることができる動画像加工方法及び装置を提供することを目的とする。より具体的には、入力動画像を構成するフレームの画像からの領域の切り出しをメタデータに基づいて適切に行うことである。
【０００９】
【課題を解決するための手段】
本発明は入力動画像を構成する各フレームの画像から任意の領域を切り出して加工するものであり、その結果として得られた画像から構成される動画像を出力動画像とする。より具体的には、入力動画像に付帯するメタデータ中に含まれる任意の時空間領域に関する情報を利用し、少なくとも１つの時空間領域について、その少なくとも一部が出力動画像に含まれるように切り出し領域を決定するものである。ここでいう時空間領域とは、入力動画像の少なくとも一部の画像特徴に基づいて抽出される領域のことであり、時間的および空間的な広がりを有する一塊の領域に相当する。入力動画像としては、原画像データそのもの、あるいは予め符号化されているデータを含む。また、入力動画像を構成する各フレームの画像からの切り出し領域は、矩形領域を含む。
【００１０】
時空間領域に関する複数の情報に基づいて、ある時空間領域については出力動画像に含め、他のある時空間領域については出力動画像に含めないように切り出し領域を決定してもよい。
【００１１】
また、付帯するメタデータにおいて示される入力動画像の色、動き、テクスチャ、カット、特殊効果、物体の位置、文字情報などの画像特徴量、音の大きさ、周波数スペクトラム、波形、発話内容、音色などの音声特徴量、場所、時間、人物、感情、イベント、重要度、リンク情報などの意味特徴量、出力動画像の使用者、使用機器、使用回線、使用目的、課金情報などの使用情報のいずれかを利用して切り出し領域を決定してもよい。
【００１２】
また、予め計算された複数フレームにわたる切り出し領域の位置、予め作成された切り出し位置の制限情報およびカメラワークのパラメータ列などの切り出し位置制御情報のいずれかを利用して切り出し領域を決定してもよい。
【００１３】
【発明の実施の形態】
図１は、本発明の一実施形態に係る画像処理装置の構成を示すブロック図である。図１に示されるように、本装置は、入力動画像記憶部１０１と、メタデータ記憶部１０２と、切り出し領域決定部１０３と、動画像切り出し部１０４と、出力動画像表示部１０５とから構成されている。本実施形態は、例えば汎用の計算機（コンピュータ）および同計算機上で動作するソフトウェアとを用いて実現することができ、図１に示す構成要素の一部は、オペレーティングシステムの下で動作するコンピュータプログラムのモジュールとして実現できる。
【００１４】
入力動画像記憶部１０１は、入力する動画像もしくは動画像符号化データを記憶するものであり、例えばハードディスクや光ディスク、半導体メモリ等により構成される。入力動画像記憶部１０１は、入力する動画像もしくは動画像符号化データを出力できるものであればどのようなものでもよく、たとえばビデオカメラや放送波チューナーなどでもよい。
【００１５】
メタデータ記憶部１０２は、入力動画像の特徴量や出力動画像の使用方法、切り出し位置制御情報等の各種付帯情報（メタデータ）を記憶するものであり、メ入力動画像記憶部１０１と同様、ハードディスクや光ディスク、半導体メモリ等により構成される。メタデータを入力動画像のデータに対してどのように関連付け、付帯させるかについては任意である。たとえば、メタデータが複数に分割されていてもよいし、複数の物理デバイス上に存在していてもよい。また、入力動画像記憶部１０１に記憶されている入力動画像と一体化していてもよい。また、メタデータは、入力動画像を解析して取得してもよいし、出力機器やその出力回線を解析して取得してもよい。あるいは、処理中にユーザーが直接、メタデータを入力してもよい。
【００１６】
入力動画像記憶部１０１およびメタデータ記憶部１０２は、同一の物理デバイス上に存在していても、異なる物理デバイス上に存在していてもよい。あるいは、ネットワークや放送波を経由して遠隔地に存在していてもよい。
【００１７】
切り出し領域決定部１０３は、メタデータ記憶部１０２に記憶されているメタデータを読み込み、該メタデータに基づいて入力動画像を構成する各フレームの画像における切り出し領域（例えば矩形の領域）を決定する。基本的に、切り出し領域は１フレームごとに決定することとするが、複数フレームの切り出し領域を一度に決定したり、一度決定した切り出し領域を他のフレームの切り出し領域やメタデータに応じて変更するよう構成することもできる。
【００１８】
動画像切り出し部１０４は、切り出し領域決定部１０３で決定された切り出し領域情報に従って、入力動画像記憶部１０１に記憶されている入力動画像の各フレームの画像から、切り出し領域決定部１０３により決定された切り出し領域に相当する画像領域を切り出して出力動画像を作成する。この動画像切り出し部１０４において、切り出し操作を施す前の各フレームの画像もしくは切り出し操作を施した後の各フレームの画像に対し、拡大縮小、回転、フィルタリングなどの各種画像処理加工を施してもよい。また、出力動画像を例えば動画像符号化の国際標準であるＭＰＥＧ−１，２，４等に基づいて符号化し、動画像符号化データを作成してもよい。
【００１９】
出力動画像表示部１０５は、動画像切り出し部１０４で作成された出力動画像を表示するものであり、ＣＲＴや液晶など、動画像を表示（映像再生）できる画面を備えた機器であればどのようなものでも良い。例えば、パーソナルコンピュータ、携帯電話機、携帯情報端末などがあげられる。動画像切り出し部１０４により動画像符号化データを作成する構成とした場合は、該動画像符号化データを出力動画像表示部１０５が動画像に逆符号化してから表示する。出力動画像表示部１０５はネットワークや放送波を経由し、遠隔地に存在していてもよい。
【００２０】
出力動画像保存部１０６は、動画像切り出し部１０４で作成された出力動画像を保存するためのものであり、例えばハードディスクや光ディスク、半導体メモリ等により構成される。この出力動画像保存部１０６は、出力動画像表示部１０５と同様にネットワークや放送波を経由し遠隔地に存在していてもよい。
【００２１】
出力動画像表示部１０５および出力動画像保存部１０６は用途に応じて少なくともいずれか一方が必要である。もちろん、両者を備える構成としてもよい。
【００２２】
図２はメタデータのデータ構造の一例を示す図である。本例のメタデータは、入力動画像関連情報２０１、出力動画像使用情報２０２、切り出し位置制御情報２０３を有する。これら入力動画像関連情報２０１、出力動画像使用情報２０２、切り出し位置制御情報２０３のうち、少なくともいずれかの情報が必要である。また、それぞれの情報について、複数の情報項目が存在していてもよい。
【００２３】
また、入力動画像関連情報２０１、出力動画像使用情報２０２、切り出し位置制御情報２０３の配置構成（例えば順序が挙げられる）は任意である。例えば、出力動画像使用情報２０２内に切り出し位置制御情報２０３が含まれるような木構造としてもよい。つまり、メタデータのデータ構造は図２に示した以外のものも考えられるが、以下詳細に説明する所要の情報を格納し、必要に応じて読み出すことができるものであれば、どのような構造としてもよい。例えば、国際標準であるＭＰＥＧ−７を利用することもできる。
【００２４】
入力動画像関連情報２０１は、入力動画像もしくは入力動画像符号化データに関する時空間領域情報２１１および特徴量情報２１２を含む。時空間領域情報２１１および特徴量情報２１２のうち少なくとも一方が必要である。また、それぞれの情報について、複数の情報項目が存在していてもよい。
【００２５】
また、時空間領域情報２１１および特徴量情報２１２の配置構成（例えば順序）は任意である。例えば、時空間領域情報２１１内に特徴量情報２１２を記述するなど木構造としてもよい。この場合、時空間領域情報２１１に記載の時空間領域が特徴量情報２１２に記載の特徴量を持つこと、が木構造において表現される。
【００２６】
時空間領域情報２１１は、入力動画像の時間的および空間的な広がりを有する一塊の領域を表すためのものであり、ヘッダ情報２２１、開始終了時刻（データ）２２２、軌跡データ２２３を含む。開始終了時刻２２２および軌跡データ２２３のうち、少なくとも一方が必要である。また、それぞれのデータについて、複数のデータ項目が存在していてもよい。
【００２７】
ヘッダ情報２２１は、当該時空間領域情報の識別番号や名前を表し、および、開始終了時刻２２２および軌跡データ２２３のデータ形式を表す。
【００２８】
開始終了時刻２２２は、当該時空間領域の開始時刻および終了時刻を表す。開始終了時刻２２２は、時刻を一意に特定できるものであれば、どのような形式でもよい。例えば、入力動画像のタイムスタンプやフレーム番号、入力動画像撮影時の日時などが利用できる。
【００２９】
軌跡データ２２３は、時空間領域の形状を表現するためのパラメータである。先頭時刻から最終時刻までの時空間領域の形状を表現できるものであれば、軌跡データ２２３としてどのようなデータを用いてもよい。例えば、ＭＰＥＧ−７のＳｐａｔｉｏＴｅｍｐｏｒａｌＬｏｃａｔｏｒ等により軌跡データ２２３を記述することができる。これは、各フレームの領域形状を矩形、楕円、多角形などにより表現するものであり、例えば、領域形状が矩形や多角形の場合は各頂点の軌跡を関数近似して得られるパラメータ、領域形状が楕円の場合は楕円の外接矩形頂点の軌跡を関数近似して得られるパラメータ等に相当する。
【００３０】
特徴量情報２１２は、ヘッダ情報２２４、特徴量データ２２５から構成される。ヘッダ情報２２４は、当該特徴量がいかなる種類の特徴量であるかや、特徴量データ２２５がいかなるデータ形式で格納されているかを表す情報である。特徴量としては、ここでは画像特徴量、音声特徴量、あるいは意味特徴量を想定するが、入力動画像に関するものであれば、どのような特徴量を用いてもよい。
【００３１】
画像特徴量は、入力動画像の少なくとも１フレーム以上にわたる画像や画像列の一部もしくは全部についての色、動き、テクスチャ、カット、特殊効果、物体の位置、文字情報などの物理的特徴量や、既知の物理的特徴量から推定される特徴量の少なくともいずれかを含む。
【００３２】
音声特徴量は、入力動画像の少なくとも１つの音声チャンネルの一部もしくは全部について、音の大きさ、周波数スペクトラム、波形、発話内容、音色などの物理的特徴量や既知の物理的特徴量から推定される特徴量の少なくともいずれかを含む。
【００３３】
意味特徴量は、入力動画像の一部もしくは全部についての場所、時間、人物、感情、イベント、重要度、リンク情報などの動画像内容記述や、意味的な特徴量の少なくともいずれかを含む。
【００３４】
特徴量データ２２５は、当該特徴量情報に記された特徴量がいかなるものであるかを示す実際のデータであって、ヘッダ情報２２４中に指定された特徴量の種類に応じた所定のデータ形式に従って格納される。特徴量データ２２５は、例えば、色に関するものであればカラーヒストグラムで表現することができる。あるいは、場所に関するものであれば地名や緯度経度で表現することができる。このような特徴データ２２５の表現形式（データ形式）は、当該特徴量を特定できるものであれば、どのようなものでもよい。
【００３５】
出力動画像使用情報２０２は出力動画像の使用に関する情報を表すものであり、ヘッダ情報２３１、使用情報データ２３２を含んでいる。なお、使用情報データ２３２内に出力動画像使用情報２０２が含まれるような木構造としてもよい。
【００３６】
ヘッダ情報２３１は、当該使用情報がいかなる種類の情報であるか、その具体的な使用情報データ２３２がいかなるデータ形式で格納されているかを表す。出力動画像使用情報２０２は、使用者や使用機器など、出力動画像の使用に関する情報であれば、どのようなものでもよい。
【００３７】
ここでいう使用者とは、出力動画像を使用する者のことであり、使用者を特定するための名前やＩＤ、当該使用者がどのようなグループに含まれているかを表す情報、使用目的、課金情報などが出力動画像使用情報２０２に含まれる。
【００３８】
使用機器とは、出力動画像を閲覧する際に用いられる機器のことであり、機器名称、ＯＳ（オペレーティングシステム）、ＣＰＵ速度、画面解像度、サポートする動画像符号化形式、回線形式、回線速度などが出力動画像使用情報２０２に含まれる。
【００３９】
使用情報データ２３２は、当該使用情報の実際のデータであり、ヘッダ情報２３１に指定された使用情報の種類やデータ形式に従って格納される。データの格納方法は使用情報の種類に応じて異なり、例えば機器名称であれば文字列やＩＤ番号など当該使用情報を特定できるようなものであればどのようなものでもよい。
【００４０】
切り出し領域制御情報２０３は、切り出し領域の位置を制限するための情報や、カメラワークのパラメータ列などを規定するための情報である。カメラワークのパラメータ列としては、例えば、画像を拡大しすぎて画質が劣化することのないよう最大の可能拡大率を定めたり、切り出し領域が早く動きすぎることのないようカメラワークに制約を課すためのパラメータなどに相当する。なお、出力動画像がパンやズームなどのカメラワークを再現できるようにするためのカメラワークパラメータおよびその順序が記述されることもある。
【００４１】
図３は、本実施形態に係る画像処理装置が実行する処理手順の一例を示すフローチャートである。本処理手順は、メタデータ読み込みステップＳ３１と、表示／非表示領域計算ステップＳ３２と、切り出し領域計算ステップＳ３３と、動画像切り出しステップＳ３４と、切り出し動画像加工ステップＳ３５と、動画像出力ステップＳ３６と、全フレーム終了判定ステップＳ３７とにより構成されている。処理は、基本的には１フレームごとに行うが、全フレームを一度に行ってもよいし、数フレームごとなど複数フレームごとに行ってもよい。
【００４２】
先ずメタデータ読み込みステップＳ３１において、メタデータ記憶部１０２からメタデータを読み込む。メタデータは、開始時に一度に全部読み込んでおいてもよいし、処理中に適宜読み込むようにしてもよい。次に表示／非表示領域計算ステップＳ３２において、メタデータ内の時空間領域情報から当該フレームの表示領域と非表示領域を計算する。
【００４３】
ステップＳ３２における表示／非表示領域計算の詳細を図４及び図５を参照して説明する。本処理によれば、例えば、視聴者が見たい重要な領域は不足なく含まれ、かつ不要な領域は含まれないように出力動画像を作成することが可能になる。
【００４４】
図４に示すように、入力動画像の当該フレームの画面４０１内に複数の時空間領域４０２，４０４が存在しており、時空間領域４０２は切り出す動画像に含める時空間領域とし、時空間領域４０４は切り出す動画像に含めない時空間領域とする場合を仮定する。
【００４５】
ある時空間領域について、これが切り出す動画像に含める時空間領域であるか、切り出す動画像に含めない時空間領域であるかについては、メタデータの情報に基づいて区別することができる。その具体的な方法としては、時空間領域のヘッダ情報２２１に記述された識別番号や名前の条件で区別することができる。これには、例えば、識別番号や名前の先頭に区別する記号をあらかじめ付与するとか、名前がある文字列に一致したら切り出す動画像に含めるようにすることなどが挙げられる。
【００４６】
また、好ましくは、当該時空間領域の形状や軌跡データを利用して区別してもよい。例えば、形状が楕円のものは切り出す動画像に含めないとか、指定した点を通過する時空間領域は切り出す動画像に含めるなどの処理が行える。
【００４７】
また、好ましくは、当該時空間領域情報内に記述されているメタデータや、メタデータ内に当該時空間領域情報が記述されている木構造の親ノードのメタデータや、当該時空間領域情報とメタデータにリンクが設定されているなど、当該時空間領域情報と関係する他のメタデータ内の情報を利用して区別してもよい。
【００４８】
例えば、メタデータが当該時空間領域情報２１１内に記述された色や文字に関する画像特徴量が記述されているときは、赤い色をもつ時空間領域は切り出す動画像に含めるとか、テロップに相当する時空間領域であったなら切り出す動画像に含めないなどの処理が行える。また、出力動画像使用情報によって区別する方法を変化させると、ユーザーや使用機器に応じて時空間領域の処理を変えることができる。
【００４９】
このように、切り出し動画像に含める時空間領域と含めない時空間領域が判別可能なときの１フレームの表示／非表示領域計算の一処理手順を図５に示す。この処理では、基本的に当該フレームに存在する時空間領域を一つづつ処理していくこととするが、複数の時空間領域を一度に処理してもよい。また、処理開始時には表示／非表示領域は存在しないものとするが、あらかじめ表示したくない領域が既知の場合などには、処理開始時に表示／非表示領域をあらかじめ設定しておいてもよい。
【００５０】
時空間領域のフレーム形状取得ステップＳ６１は、当該フレームにおける処理する時空間領域の形状を取得するためのステップである。時空間領域形状は通常、矩形や楕円や多角形で表されるため、それらの形状を表すパラメータを算出する。例えば、矩形や多角形であれば頂点座標列、楕円であれば外接長方形の頂点座標や長軸短軸の長さと回転角などとし、フレームの形状を一意に表せるものならばどのようなものでもよい。
【００５１】
切り出し動画像に含める時空間領域であるかどうかをステップＳ６２にて判別し、切り出し動画像に含める時空間領域であるならば、表示領域更新ステップＳ６３にて表示領域を更新する。更新された表示領域は今までの表示領域と時空間領域のフレーム形状取得ステップＳ６１で得られた領域のＯＲ（論理和）領域のうち、画面４０１に含まれる部分となる。例えば、今までの表示領域が４０３であり、時空間領域のフレーム形状取得ステップＳ６１によって得られた形状が４０２であるときは、領域４０３と４０２のＯＲ領域のうち画面４０１に含まれる部分（図４において参照数字４１１が付与されたハッチング部分）となる。領域形状はパラメータによって表現されているため、表示領域は形状パラメータ列によって表すことができる。
【００５２】
また、表示領域は、その形状や一度計算された表示／非表示領域に加工を施してもよい。例えば、時空間領域４０２の周辺に任意の余白４０６を追加してから表示領域を計算したり、表示領域４１１を内包する最小の長方形（バウンディングボックス）４１２を表示領域としてもよい。余白を追加するには、例えば時空間領域の重心座標を計算し、領域形状や外接矩形の各頂点と重心座標との距離が大きくなるように頂点座標を計算すればよい。
【００５３】
バウンディングボックスを表示領域とする場合は、従来の表示領域のバウンディングボックスが（Ｘ１，Ｙ１）−（Ｘ２，Ｙ２）で表され、ステップＳ６１で得られる形状のバウンディングボックスが（ｘ１，ｙ１）−（ｘ２，ｙ２）で表され、画面４０１が（０，０）−（Ｗ，Ｈ）で表されるとすると、更新された表示領域のバウンディングボックス４１２は（ｍａｘ（０，ｍｉｎ（Ｘ１，ｘ１）），ｍａｘ（０，ｍｉｎ（Ｙ１，ｙ１）））−（ｍｉｎ（Ｗ，ｍａｘ（Ｘ２，ｘ２）），ｍｉｎ（Ｈ，ｍａｘ（Ｙ２，ｙ２）））と表すことができ、このように簡易な計算で表示領域を算出できる。
【００５４】
切り出し動画像に含めない時空間領域であるかどうかをステップＳ６２にて判別し、切り出し動画像に含めない時空間領域であるならば、非表示領域更新ステップＳ６５にて表示領域を更新する。更新された非表示領域は今までの非表示領域と時空間領域のフレーム形状取得ステップＳ６１で得られた領域のＯＲ領域のうち画面４０１に含まれる部分となる。例えば、今までの非表示領域が４０５であり、時空間領域のフレーム形状取得ステップＳ６１によって得られた形状が４０４であるときは、領域４０５と４０４のＯＲ領域のうち画面４０１に含まれる部分（図４において参照数字４１３が付与されたハッチング部分）となる。領域形状はパラメータによって表現されているため、非表示領域は形状パラメータ列によって表すことができる。
【００５５】
また、ステップＳ６３の処理と同様に、非表示領域は形状や一度計算された表示／非表示領域を加工して表示領域としてもよい。例えば、時空間領域周辺に余白を追加してから非表示領域を計算したり、非表示領域を内包する最小の長方形（バウンディングボックス）を非表示領域としてもよい。
【００５６】
全時空間領域完了判定ステップＳ６６にて、当該フレームに存在するすべての全時空間領域について処理が終了したかどうかを判定し、全時空間領域について処理が終了するまで、ステップＳ６１からステップＳ６６までの処理手順を繰り返す。
【００５７】
図３に説明を戻す。切り出し領域計算ステップＳ３３では、表示／非表示領域計算ステップＳ３２で計算された表示／非表示領域とメタデータを利用して、当該フレームにおける入力動画像を切り出す領域を計算する。
【００５８】
ここで、図６及び図７を参照して、ステップＳ３３における切り出し領域計算の詳細を説明する。
【００５９】
同図に示すように、入力動画像の当該フレームの画面５０１内に、表示領域５０２と非表示領域５０３とが存在する場合を仮定する。このとき、切り出し領域５０４は画面５０１内に内包され、表示領域５０２を内包し、非表示領域５０３と重なる部分がないような矩形領域であればどのような領域としてもよい。例えば、切り出し領域の重心を表示領域の重心と同じ位置にして、表示領域の全領域が切り出し領域にすべて含まれる最小の矩形領域となるように切り出し領域を決めるなどの方法がある。
【００６０】
図７は、切り出し領域計算の一処理手順を示すフローチャートである。
【００６１】
制限情報読み込みステップＳ７１では、メタデータから当該フレームに関する制限情報を取得する。制限情報は出力動画像を使用する機器の画素数やアスペクト比、切り出し領域のＸ，Ｙ方向それぞれの移動速度やその最大値、切り出し領域の最小の幅、高さ、面積、切り出し領域内の表示領域の位置関係など、切り出し領域の位置を制限するような情報である。制御情報はなくてもよいし複数存在していてもよい。
【００６２】
メタデータに直接、制限情報が記述されている以外にも、その他のメタデータやあらかじめ計算されているフレームの切り出し領域を利用して制限情報を生成してもよい。例えば、あらかじめ計算されているフレームの切り出し領域を利用して、計算するフレームの推定される切り出し領域位置を計算し、この推定された位置から一定距離以上切り出し領域が離れないように制限情報を生成すれば、切り出し領域がある方向に動いていたときに急に逆方向に動かないようにするなどの制御が可能である。また、切り出し領域の移動速度や加速度を一定以上にならないように制限情報を生成すれば、切り出し領域位置が振動しないようにすることなどが可能である。
【００６３】
メタデータの時空間領域情報を利用する場合は、例えば、入力画像領域を座標（０，０）−（Ｗ，Ｈ）で囲まれる矩形、時空間領域中心を座標（ｘ，ｙ）、切り出し領域を座標（Ｘ１，Ｙ１）−（Ｘ２，Ｙ２）で囲まれる矩形として、入力画像領域に対する時空間領域中心の相対位置と切り出し領域に対する時空間領域中心の相対位置が等しくなるようにしたり（すなわち、ｘ／Ｗ＝（ｘ−Ｘ１）／（Ｘ２−Ｘ１），ｙ／Ｈ＝（ｙ−Ｙ１）／（Ｙ２−Ｙ１）になるように切り出し領域位置を制御する）、時空間領域の動きが速いところは切り出し領域を大きめに取るなどの制限情報を生成できる。
【００６４】
メタデータの色、動き、テクスチャ、カット、特殊効果、物体の位置、文字情報などの画像特徴量を利用する場合は、例えば、画面やそのなかに記述されている物体の動きベクトルやオプティカルフローを見て、動きが速い場面は切り出し領域を大きめに取ったり、物体の動きの進行方向に広く余白を取ることができる。また、カット情報が記述されているときは、カットとカットの間は切り出し領域があまりに急激に変化しないようにするなどの制限情報を生成できる。
【００６５】
メタデータの音の大きさ、周波数スペクトラム、波形、発話内容、音色などの音声特徴量を利用する場合には、例えば、発話内容が記述されているときは会話シーンにおいて話者を中心に切り出し領域を設定したり、音の大きさが記述されているときは音が小さいほど切り出し領域の時間的変化量を小さくして静かなシーンとするなどの制限情報を生成できる。
【００６６】
メタデータの場所、時間、人物、感情、イベント、重要度、リンク情報などの意味特徴量を利用する場合は、例えば、野球のバッティングの際にはバッターを拡大するような切り出し領域にするなど、イベントごとに切り出し領域を調整したり、人物の感情の情報を見て落ち着いたシーンには切り出し領域の時間的変化量を小さくしたりするなどの制限情報を生成できる。
【００６７】
メタデータの使用者、使用機器、使用回線、使用目的、課金情報などの使用情報を利用する場合は、例えば、閲覧に使用する機器の画面の解像度情報から、切り出し後の１ピクセルの大きさが入力動画像の１ピクセルより小さくならないようにして画質の劣化を防いだり、使用者ごとに切り出し領域の中心とする物体を変化させたりするなどの制限情報を生成できる。
【００６８】
メタデータの切り出し位置の制限情報やカメラワークの順番などの切り出し領域制御情報を利用する場合は、例えば、切り出し領域制御情報に記載のカメラワークのパラメータ列と同様なカメラワークの出力動画像になるように切り出し領域を設定したり、切り出し領域の縦方向、横方向の時間的な動きの最大値が記述されているときは動きの最大値を超えないように切り出し領域を設定したり、できるだけ広い切り出し領域やできるだけ狭い切り出し領域になるように切り出し領域を設定したりするなどの制限情報を生成できる。
【００６９】
図７のフローにおいて、初期切り出し領域設定ステップＳ７２では、切り出し領域の初期値を計算する。切り出し領域の初期値はどのように決めてもよいが、例えば一つ前のフレームで計算された切り出し領域を初期値としたり、表示領域のバウンディングボックスを初期値とするなどの方法がある。
【００７０】
次に、切り出し領域移動ステップＳ７３では、表示／非表示領域や、ステップＳ７１で読み込まれた制限情報に合致するように、切り出し領域位置を移動させる。表示／非表示領域や制限情報との合致度が高まる方向であれば、合致度の計算方法、移動方法、移動量は任意である。
【００７１】
例えば、切り出し領域が表示領域を内包していなかったら、切り出し領域外の表示領域の面積が減ると合致度が高まるように合致度を設定し、合致度が高まるように切り出し領域を拡大や移動させる。
【００７２】
切り出し領域５０５が（Ｘｋ１，Ｙｋ１）−（Ｘｋ２，Ｙｋ２）であって、表示領域５０２が（Ｘｈ１，Ｙｈ１）−（Ｘｈ２，Ｙｈ２）であるとすると（ただし、Ｘｈ１＜Ｘｋ２＜Ｘｈ２，Ｙｋ１＜Ｙｈ１，Ｙｈ２＜Ｙｋ２）、切り出し領域外の表示領域の面積は（Ｘｈ２−Ｘｋ２）＊（Ｙｋ２−Ｙｋ１）で計算されるので、Ｘｋ２をＸｈ２方向に動かすと切り出し領域外の表示領域の面積が減り、合致度を高めることができる。
【００７３】
制限情報と切り出し領域のアスペクト比が異なるときは、切り出し領域のアスペクト比と、制限情報のアスペクト比との割合が１になるほど合致度が高くなるような合致度を設定し、この合致度が高まるように幅や高さを拡大縮小する。すなわち、切り出し領域のアスペクト比をαｋ（＝（幅）／（高さ））、制限情報のアスペクト比をαｓとすると、αｋ／αｓが１に近づくほど合致度が高いため、αｋ／αｓ＞１のときは切り出し領域の幅を減らすか高さを増やす。逆に、αｋ／αｓ＜１のときは切り出し領域の高さを減らすか幅を増やす。
【００７４】
移動方法、移動量の決定方法としては、制限情報ごとにあらかじめ決めておいてもよいし、例えばニューラルネットワークなどの学習アルゴリズムを利用してもよい。
【００７５】
移動終了判定ステップＳ７４では、切り出し領域が表示／非表示領域や制限情報に合致するかどうかを判別し、合致するまでステップＳ７３を繰り返して切り出し領域を移動させる。表示／非表示領域や制限情報にすべて合致する切り出し領域が見つからないときは、適当な繰り返し回数で終了させてもよい。
【００７６】
このように、メタデータの情報によって切り出し領域を調整することにより、入力動画像の内容や出力動画像の使用方法に適し、閲覧者が不自然に感じない出力動画像を作成することが可能となる。
【００７７】
図３のフローにおいて、動画像切り出しステップＳ３４では、以上説明した切り出し領域計算ステップＳ３３で計算された切り出し領域を利用して、入力動画像のフレーム画像から、当該フレームの切り出し領域部分を切り出す。次に、切り出し動画像加工ステップＳ３５では、動画像切り出しステップＳ３４で作成された切り出し画像を加工等し、出力動画像を作成する。
【００７８】
図８は、動画像切り出しの一処理手順を示すフローチャートである。図８に示されるように、本処理は画面拡大縮小回転ステップＳ８１と画像加工処理ステップＳ８２と動画像符号化ステップＳ８３とから構成されている。画面拡大縮小回転ステップＳ８１と画像加工処理ステップＳ８２の処理順序は入れ替えてもよい。また、画面拡大縮小回転ステップＳ８１、画像加工処理ステップＳ８２、動画像符号化ステップＳ８３は、それぞれの処理が必要ない際にはいずれかを省略してもよい。
【００７９】
画面拡大縮小回転ステップＳ８１では、動画像切り出しステップＳ３４で作成された切り出し画像を拡大縮小したり回転させる。通常、切り出し画像の解像度はそれぞれ異なるが、動画像の解像度は一定でなければならないことが多いため、切り出し画像を動画像の解像度と等しくなるように拡大縮小を行う。また、閲覧に使用する機器によっては画像を９０度回転させた映像のほうが閲覧しやすい場合がある。その場合には切り出し画像を９０度回転させる。
【００８０】
画像加工処理ステップＳ８２では、メタデータの情報を利用して、切り出し画像のフィルタリングや、表示情報追加など各種の加工を行う。例えば、ある時空間領域の中や外にモザイクやぼかしなどのフィルタをかけたり、別の時空間領域の画像を合成したり、文字情報や人物の名前などの情報をテロップとして画像中に表示させたりするなどの処理が可能である。もちろん、この場合にはメタデータを利用することができる。これら加工はいくつかを組み合わせて行ってもよいし、その際の処理の順番も任意でよい。
【００８１】
動画像符号化ステップＳ８３は、出力動画像を使用機器や使用回線に合わせて符号化データに圧縮するステップである。符号化フォーマットとしては国際標準であるＭＰＥＧ−４などが通常使用されるが、用途に合わせてどのような符号化フォーマットでもよい。出力動画像を符号化する必要がないときは本ステップをスキップしてもよい。
【００８２】
そして、図３の動画像出力ステップＳ３６では、切り出し動画像加工ステップＳ３５で作成された出力動画像を用途に合わせて出力する。出力動画像を閲覧する際には使用機器側で再生表示が行われる。出力動画像を保存する際にはディスクやテープ等に保存される。出力動画像をネットワークや放送波で送信する際には、適する形式に変換し送信される。
【００８３】
次に、全フレーム終了判定ステップＳ３７では、入力動画像の処理すべきフレームがすべて終了したかを判別する。全フレームが終了するまでステップＳ３２からステップＳ３７までの処理手順は繰り返される。
【００８４】
以上説明した本実施形態の画像処理装置によれば、入力動画像を構成するフレームの画像からの領域の切り出しをメタデータに基づいて行うことができ、入力動画像を適切に加工して出力動画像を得ることができる。これにより、例えば、配信等に供するために携帯機器用の動画像をその機種ごとで異なる画面解像度や記憶容量等に応じて準備するといった作業を容易に行うことができるようになる。また、解像度が低い、画面が小さい、あるいは画面のアスペクト比が縦長であるといった携帯機器の特徴については、メタデータを基に適切に画像加工を施すことにより、アスペクト比の不具合や、小さい物体や小さい文字などが判別不能になるといった欠点が生じることもない。
【００８５】
なお、本発明は上述した実施形態に限定されず種々変形して実施可能である。
【００８６】
【発明の効果】
以上説明したように、本発明によれば、メタデータの情報に応じて入力動画像から各フレームごとに適切な切り出し領域で切り出すことによって、内容や使用方法に応じた出力動画像を自動的に作成することが可能となり、閲覧する携帯端末にあわせた動画像を容易に作成できる。
【図面の簡単な説明】
【図１】本発明の一実施形態に係る画像処理装置の構成を示すブロック図
【図２】メタデータのデータ構造の一例を示す図
【図３】同実施形態に係る画像処理装置が実行する処理手順の一例を示すフローチャート
【図４】表示／非表示領域計算を説明するための図
【図５】表示／非表示領域計算の一処理手順を示すフローチャート
【図６】切り出し領域の計算を説明するための図
【図７】切り出し領域計算の一処理手順を示すフローチャート
【図８】動画像切り出しの一処理手順を示すフローチャート
【符号の説明】
１０１…入力動画像記憶部
１０２…メタデータ記憶部
１０３…切り出し領域決定部
１０４…動画像切り出し部
１０５…出力動画像表示部
１０６…出力動画像記憶部

Claims

複数の時空間領域を有する入力動画像について、各々の時空間領域に関する情報を含むメタデータを取得する取得ステップと、
前記複数の時空間領域の少なくともいずれかに対応する切り出し領域を前記メタデータに基づいて決定するステップと、
前記入力動画像の各フレームの画像から前記切り出し領域を切り出して加工するステップと
を具備することを特徴とする動画像加工方法。
前記切り出し領域を、前記メタデータに含まれる画像特徴量、音声特徴量、意味特徴量の少なくともいずれかに関する情報に基づいて決定するステップを具備することを特徴とする請求項１に記載の動画像加工方法。
前記切り出し領域を前記メタデータに含まれる出力動画像の使用者、使用機器、使用回線、使用目的、課金情報の少なくともいずれかを表す情報に基づいて決定するステップを具備することを特徴とする請求項１又は２に記載の動画像加工方法。
前記切り出し領域を、前記メタデータに含まれる所定の切り出し領域位置制限又はカメラワークのパラメータ列の少なくともいずれかを表す情報に基づいて制限するステップを具備することを特徴とする請求項１乃至３のいずれかに記載の動画像加工方法。
少なくとも一つのフレームについて予め決定された切り出し領域に基づいて、他のフレームの切り出し領域を決定するステップを具備することを特徴とする請求項１乃至４のいずれかに記載の動画像加工方法。
前記メタデータに基づいて、前記切り出し領域の画像に表示画像を追加し、又はフィルタ処理するステップをさらに具備することを特徴とする請求項１乃至５のいずれかに記載の動画像加工方法。
複数の時空間領域を有する入力動画像について、各々の時空間領域に関する情報を含むメタデータを取得する手段と、
前記複数の時空間領域の少なくともいずれかに対応する切り出し領域を前記メタデータに基づいて決定する手段と、
前記入力動画像の各フレームの画像から前記切り出し領域を切り出して加工する手段と
を具備することを特徴とする動画像加工装置。
前記切り出し領域を、前記メタデータに含まれる画像特徴量、音声特徴量、意味特徴量の少なくともいずれかに関する情報に基づいて決定する手段を具備することを特徴とする請求項７に記載の動画像加工装置。
前記切り出し領域を前記メタデータに含まれる出力動画像の使用者、使用機器、使用回線、使用目的、課金情報の少なくともいずれかを表す情報に基づいて決定する手段を具備することを特徴とする請求項７又は８に記載の動画像加工装置。
前記切り出し領域を、前記メタデータに含まれる所定の切り出し領域位置制限又はカメラワークのパラメータ列の少なくともいずれかを表す情報に基づいて制限する手段を具備することを特徴とする請求項７乃至９のいずれかに記載の動画像加工装置。
少なくとも一つのフレームについて予め決定された切り出し領域に基づいて、他のフレームの切り出し領域を決定する手段を具備することを特徴とする請求項７乃至１０のいずれかに記載の動画像加工装置。
前記メタデータに基づいて、前記切り出し領域の画像に表示画像を追加し、又はフィルタ処理する手段をさらに具備することを特徴とする請求項７乃至１１のいずれかに記載の動画像加工装置。