JP2004297229A

JP2004297229A - 画像処理装置及びその方法並びにそれを用いた画像処理システム及びプログラム

Info

Publication number: JP2004297229A
Application number: JP2003084034A
Authority: JP
Inventors: Tomoshi Hosokawa; 知志細川
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2003-03-26
Filing date: 2003-03-26
Publication date: 2004-10-21
Anticipated expiration: 2023-03-26
Also published as: EP1463333A1; US20040208481A1; CN1533171A; CN1291596C; JP4254297B2

Abstract

【課題】特定の形式や専用の機能をもたない再生装置でも、静止画と音声の同時再生が可能となるよう、生成するファイルは一般的な動画ファイルの形式を守りつつ静止画と音声を単一ファイルとして作成することができるようにする。
【解決手段】動画エンコーダ４、音声エンコーダ５及びマルチプレクサ７を有する記録装置１において、動画エンコーダ４及びマルチプレクサ７間に、データ加工部６を設ける。データ加工部６は、動画エンコーダ４により符号化された静止画像データに、動画再生装置１１において静止画像の再生を所定時間継続させるための情報を動画エンコーダ４の動画像符号化方式に応じた形式で付与して出力する。
【選択図】図１

Description

【０００１】
【発明の属する技術分野】
本発明は画像処理装置及びその方法並びにそれを用いた画像処理システム及びプログラムに関し、特に静止画像と音声とを同時に再生処理するためのファイルを作成する画像処理方式に関するものである。
【０００２】
【従来の技術】
静止画像と共に、それに関連する音声を同時に再生処理することが必要な場合がある。例えば、携帯端末である携帯電話機には、画像を撮影するカメラ付きのものがあり、このカメラにより撮影した静止画像に対して、それに関連した説明などの音声を同時に付加して、相手先の携帯電話機やＰＣ（パーソナルコンピュータ）へ送信することが要求されるようになってきている。また、逆に、ＰＣから、静止画像にその音声を付加して、携帯電話機や他のＰＣに対して送信することも考えられる。
【０００３】
このような、静止画像とそれに関連する音声情報とを得るための技術としては、特許文献１にあるように、静止画像としての１フレーム分の映像信号と、この１フレーム分の映像信号の内容を説明するための音声信号を時間軸圧縮した信号とを周波数多重化して、記録媒体の同一領域に記録する。そして、再生の際に、時間軸伸長して元の音声信号に戻し、映像信号の繰り返し再生中に当該音声信号を出力するようにして、静止画像の説明を対応する静止画像と同時に出力することが可能となっている。
【０００４】
また、他の方法として、静止画像とこれに関連する音声データとを、特定の方式で単一のファイルにまとめ、その特定の方式に対応した再生装置で再生する第一の方法や、静止画像とこれに関連する音声データとを、互いに別々に独立して扱った上で、再生装置にこれ等両者を同時に再生するための専用の機能を設ける第二の方法が考えられる。
【０００５】
【特許文献１】
特開昭６４−８６３６４号公報（第３頁、第１図）
【０００６】
【発明が解決しようとする課題】
上述した特許文献１に開示の技術では、再生の際に、音声信号の再生時間に相当する時間長の静止画像を、繰り返し再生するようになっているために、静止画像の繰り返しに比例して情報量が増大することになる。そのために、上述した携帯電話機やＰＣの再生側において、再生のための情報量が多くなって、処理能力が問題となる。
【０００７】
また、上述した第一の方法では、特定の方式に対応した専用の再生装置が必要になる。このため、その方式に対応していない再生装置（過去に存在した再生装置など）では再生することができず、よって、現在の携帯電話機やＰＣなどでは対応が不可能となる。
【０００８】
また、上述した第二の方法では、静止画像データと音声データとは、普及している形式を使用することができるために、静止画像と音声とを、それぞれ再生することは可能であるが、これ等を同時再生に関する考慮がなされていない再生装置では、同時再生ができないばかりか、静止画と音声がばらばらに取り扱われてしまう可能性がありる。よって、この第二の方式も現在の携帯電話機やＰＣなどには対応が不可能である。
【０００９】
本発明の目的は、特定の形式や専用の機能をもたない再生装置においても、静止画像とそれに関連する音声との同時再生を可能とするようにした画像処理装置及びその方法並びにそれを用いた画像処理システム及びプログラムを提供することである。
【００１０】
本発明の他の目的は、情報量の増大なく、静止画像とそれに関連する音声との同時再生を可能とするようにした画像処理装置及びその方法並びにそれを用いた画像処理システム及びプログラムを提供することである。
【００１１】
【課題を解決するための手段】
本発明による画像処理装置は、静止画像データを所定の動画像符号化方式により符号化する動画符号化手段と、前記動画符号化手段の出力に、前記静止画像データに関連する音声データの再生時間に等しい時間だけ再生時間を伸長する旨の時間伸長情報を、前記動画像符号化方式に応じた形式で付加するデータ加工手段と、前記データ加工手段の出力と前記音声データとを多重化して出力する多重化手段とを含むことを特徴とする。
【００１２】
本発明による画像処理方法は、静止画像データを所定の動画像符号化方式により符号化する動画符号化ステップと、この符号化出力に、前記静止画像データに関連する音声データの再生時間に等しい時間だけ再生時間を伸長する旨の時間伸長情報を、前記動画像符号化方式に応じた形式で付加するデータ加工ステップと、このデータ加工後の出力と前記音声データとを多重化して出力する多重化ステップとを含むことを特徴とする。
【００１３】
本発明による画像処理システムは、静止画像データを所定の動画像符号化方式により符号化する動画符号化手段、前記動画符号化手段の出力に、前記静止画像データに関連する音声データの再生時間に等しい時間だけ再生時間を伸長する旨の時間伸長情報を、前記動画像符号化方式に応じた形式で付加するデータ加工手段、前記データ加工手段の出力と前記音声データとを多重化して出力する多重化手段を含む画像処理装置と、前記画像処理装置からの多重化出力を受信して、前記データ加工手段により加工されたデータを前記動画像符号化方式に対応する復号化方式により復号化する動画復号化手段、前記多重化出力の音声データと前記動画復号化手段と同時再生する手段を含む再生装置とを備えてなることを特徴とする。
【００１４】
本発明による再生装置は、静止画像データを所定の動画像符号化方式により符号化する動画符号化手段と、前記動画符号化手段の出力に、前記静止画像データに関連する音声データの再生時間に等しい時間だけ再生時間を伸長する旨の時間伸長情報を、前記動画像符号化方式に応じた形式で付加するデータ加工手段と、前記データ加工手段の出力と前記音声データとを多重化して出力する多重化手段とを含む画像処理装置からの多重化出力を受信して再生する再生装置であって、前記データ加工手段により加工されたデータを前記動画像符号化方式に対応する復号化方式により復号化する動画復号化手段と、前記多重化出力の音声データと前記動画復号化手段と同時再生する手段とを含むことを特徴とする。
【００１５】
本発明によるプログラムは、画像処理装置の画像処理動作をコンピュータにより実行させるためのプログラムであって、静止画像データを所定の動画像符号化方式により符号化する動画符号化ステップと、この符号化出力に、前記静止画像データに関連する音声データの再生時間に等しい時間だけ再生時間を伸長する旨の時間伸長情報を、前記動画像符号化方式に応じた形式で付加するデータ加工ステップと、このデータ加工後の出力と前記音声データとを多重化して出力する多重化ステップとを含むことを特徴とする。
【００１６】
本発明の作用を述べる。所定の動画像符号化方式を用いて符号化された静止画像データに対して、動画再生装置において静止画像の再生を所定時間継続（時間伸長）させるための情報を当該動画像符号化方式に応じた形式で付与してファイルを作成する。この場合、静止画像データを単に符号化するだけでは、これを動画再生装置で再生する場合に、静止画像の表示は極く短時間で終了してしまう。
従って、単に符号化された静止画像データとこれに対応する音声データとを多重化することにより得られた動画ファイルを動画再生装置で再生する場合には、静止画像の表示と音声の再生とを同時に行なうことができない。すなわち、音声を再生している間、静止画像の表示を継続させることができない。
【００１７】
そこで、本発明では、上述したように、所定の動画像符号化方式で符号化された静止画像に対して、音声データの再生時間に相当する時間だけ伸長する旨の時間伸長情報を付加することにより、これを動画再生装置で再生する場合、符号化された静止画像データに付与された時間伸長情報により、静止画像の表示を所定時間継続させることができる。
【００１８】
従って、こうして得られた静止画データとこれに対応する音声データとを多重化することにより得られた動画ファイルを、動画再生装置で再生する場合、音声を再生している間、静止画像の表示を継続して行うことが可能となる。
【００１９】
【発明の実施の形態】
以下に、本発明の実施例につき図面を参照しつつ詳細に説明する。図１は本発明の一実施例のシステム構成を示す図である。図１を参照すると、記録装置１と再生装置１１とがネットワーク１０を介して接続されており、記録装置１はＰＣや携帯型情報処理端末であり、また再生装置１１も、同じく、ＰＣや携帯型情報処理端末であるものとする。
【００２０】
記録装置１は静止画像ファイル２と音声ファイル３とを備えており、また、静止画像ファイル２からの静止画像データを入力として、動画データの生成を行うための動画エンコーダ４と、音声ファイル３からの音声データを入力として動画データに対応した音声データを生成する音声エンコーダ５とを備えている。更に、動画エンコーダ４の出力と音声エンコーダ５からの音声再生時間情報とを入力として、静止画像をこの音声再生時間情報により示される時間長の映像データとして加工処理するためのデータ加工部６を備えている。
【００２１】
記録装置１は、更に、データ加工部６と音声エンコーダ５との出力、すなわち映像と音声との多重化を行って、動画ファイルを生成する機能を有している。この記録装置１におけるデータ加工部６以外の部分は、映像ファイルと音声ファイルとを多重化して、動画ファイルを生成する機能を有する一般の映像記録装置と同一の構成である。そして、マルチプレクサ７の多重化出力がネットワーク１０を介して再生装置１１へ送信されることになる。
【００２２】
この再生装置１１は、ネットワーク１０を介して送られてきた動画ファイルの再生を行うためのものであり、そのために、映像と音声との多重化を解除して、これ等を別々に導出するデマルチプレクサ１２を備えている。また、映像と音声とをそれぞれ入力として、記録装置１側の動画エンコーダ４、音声エンコーダ５の各エンコード方式に対応したデコード方式を有する動画デコーダ１３、音声デコーダ１４を備えており、これ等デコード出力は表示部１５、スピーカ１６へ供給されて静止画とそれに対応する説明用の音声とが、同時に再生されることになる。
【００２３】
再生装置１１は、以上の機能により動画ファイルの再生を行うことが可能であるが、静止画像と音声とを同時再生するための特別な専用の機能を備えているわけではなく、一般的な動画像再生装置である。
【００２４】
本発明における動画ファイル作成の過程を図２に示している。図２において、図１と同等部分は同一符号にて示している。図２を参照すると、記録装置１においては、データ加工部６によって、静止画像が映像としてエンコードされて動画ファイルＤとして作成される。これにより、映像が１フレームだけ記録された動画ファイルが作成されることになる。すなわち、動画エンコーダ４に静止画ファイル２の静止画像データが入力され、１フレーム分のエンコードが行われる。この時点で生成される映像データＡは１フレーム分のみであるために、非常に短い再生時間となっている（１フレームの時間は十数分の一秒）。この１フレーム分のデータＡはデータ加工部６へ入力されて、１フレーム分のデータを音声ファイル３の長さと同じになるように再生時間の伸長擬装をなす加工処理が行われる。
更に、この擬装処理された映像データＢと、音声ファイル３を音声エンコーダ５によりエンコードして得られた音声データＣとが、マルチプレクサ７へ入力されて動画ファイルＤとして生成されるのである。
【００２５】
上述の方法により、記録装置１にて生成された動画ファイルを、再生装置１１において再生すると、記録装置１の表示部１５には、動画デコーダ１３によりデコードされた静止画像の内容が表示され、スピーカ１６からは、音声デコーダ１４によりデコードされた音声が再生される。このとき、映像データは１フレーム分のデータのみであるが、その長さは動画ファイルの長さ（すなわち、元の音声ファイル３の再生時間に相当する長さ）と同一であるように時間長（時間伸長）擬装処理が、データ加工部６にて行われているので、静止画像の表示が短時間で終了することはなく、音声を再生している間、継続して静止画像の表示が行われるようになる。
【００２６】
この様にして、本発明では、静止画像を動画としてみなしてエンコード処理しかつその長さを擬装したうえで動画ファイルに多重化することにより、動画ファイルの再生機能を有する再生装置１１において、特別な機能の追加を何等なすことなく、静止画像と音声との同時再生が実現可能となる。
【００２７】
ここで、図３を参照すると、図３（ａ）は、一般的な動画ファイルの形式について図示したものである。図に示すように、動画ファイルは、基本的に、映像部分である映像データと、音声部分である音声データとから構成される。更に、映像と音声との再生速度を調整し、記録時と同じタイミングで映像と音声を再生させるための情報を含んだ多重化情報（ヘッダ）を持つ。このヘッダには、音声の再生時間を示す再生時間情報も含まれている。更にはまた、多重化の方式によっては、映像と音声だけではなく、文字情報などの他の情報を含めることができる場合があり、その例としては、テロップ表示のためのテキスト情報や、各種コマンド情報等である。
【００２８】
なお、一般的な多重化方式としては、ＭＰ４（ＭＰＥＧ−４Ｓｙｓｔｅｍ），ＡＳＦ（ＡｄｖａｎｃｅｄＳｔｒｅａｍｉｎｇＦｏｒｍａｔ）などがある。
【００２９】
映像データは、通常は何らかのエンコード方式によってエンコードされている。これは、映像は各フレーム（静止画とみなせる）の情報を直接格納すると、サイズが大きく扱いにくいためである。さらに、一般的なエンコード方式では、単純に各フレームの情報を圧縮するだけではなく、映像固有の性質を使用したエンコード方法が用いられる。一般的な映像のエンコード方式について図３（ｂ）に示す。
【００３０】
一般的なエンコード方式では、映像の隣接したフレーム間では差分が少ないという性質を使用したエンコード方式が用いられる。映像を構成する各フレームのうち、一番最初のフレーム及び場面転換した直後のフレームについては静止画と同等の圧縮が行われる。この静止画はＩフレームと称され（通常、Ｉはｉｎｔｒａ−ｃｏｄｅｄの略である）。このＩフレームはデータ量としては大きくなるが、それ単独での再生が可能である。
【００３１】
直前のフレームとの差分が小さい場合は、直前のフレームとの差分を検出したうえで圧縮が行われる。この差分はＰフレームと称される（通常、Ｐはｐｒｅｄｉｃｔｉｖｅ−ｃｏｄｅｄの略である）。このＰフレームには、直前のフレームと差がある部分だけが情報として含まれるため、圧縮後のサイズがきわめて小さくなるが、再生の際には、直前のフレームの情報を必要とする。
【００３２】
さらに一部のエンコード方式では、前後のフレームから差分をとることで、更に情報量を削減したうえで圧縮を行う場合がある。これをＢフレームと呼ぶ（通常、Ｂはｂｉｄｉｒｅｃｔｉｏｎａｌｌｙ−ｐｒｅｄｉｃｔｉｖｅ−ｃｏｄｅｄの略）。このＢフレームはＰフレームよりさらにサイズを小さくすることができる反面、再生時に、前後のフレームの情報を必要とする。また、再生時に、前後のフレームの情報を必要とするために、圧縮時にフレームの並べ替えが行われる。
【００３３】
前後のフレームとの差分の取り方、各フレームの圧縮方式については、エンコード方式によって異なる。通常は、Ｉフレームは極くわずか挿入され、残りのほとんどはＰフレームまたはＢフレームとなるものがほとんどである。一般的なエンコード方式としては、ＭＰＥＧ−２，ＭＰＥＧ−４Ｖｉｄｅｏ，Ｈ．２６３（ＩＰ電話に関するＩＴＵＴ勧告）などがある。
【００３４】
音声データについても、映像データと同様に、通常は何らかのエンコード方式によってエンコードされている。音声の場合、一定時間分の音声情報をフレームとして扱い、このフレーム単位で圧縮する方法が採られる。フレームの長さについては、全てのフレームを同じ長さとする方式もあれば、毎回フレームの長さが異なる方式も存在するが、フレームの平均的な長さとしては数十ミリ秒前後となる方式が多い。一般的なエンコード方式としては、ｍｐ３（ＭＰＥＧＡｕｄｉｏＬａｙｅｒＩＩＩ），ＡＡＣ（ＡｄｖａｎｃｅｄＡｕｄｉｏＣｏｄｉｎｇ），ＷＭＡ（Ｗｉｎｄｏｗｓ（Ｒ）ＭｅｄｉａＡｕｄｉｏ）などがある。
【００３５】
本発明では、映像のエンコード方式として上記のＩフレーム、Ｐフレームを使用した圧縮を行うものを前提とする（但し、Ｂフレームの有無はどちらでもよいものとする）。
【００３６】
以下に、本発明の実施例の動作について詳細に説明する。前述したように、図１において、データ加工部６以外は、一般的によく知られた構成及び動作となるために、それらの詳細な説明は省略する。データ加工部６の動作につき説明する。図４はこのデータ加工部６により生成される、再生時間が擬装された映像データの構成例を示しており、（ａ）は通常の映像データの例であり、（ｂ）は静止画像ファイル２の例である。
【００３７】
本発明においては、データ加工部６における映像データの再生時間擬装方式の例として、動画エンコーダ４におけるエンコード方式に対応して存在するものであり、動画エンコード方式＃１〜＃３の夫々に対応して、３種の再生時間擬装方式が採用される。よって、（ｃ）はエンコード方式＃１に対応した再生時間擬装方式による映像データの構成例であり、（ｄ）はエンコード方式＃２に対応した再生時間擬装方式による映像データの構成例であり、（ｅ）はエンコード方式＃３に対応した再生時間擬装方式による映像データの構成例である。
【００３８】
図５は、図４（ｃ）に示したエンコード方式＃１に対応した再生時間擬装方式による映像データの構成を生成するデータ加工部６の動作を示すフローチャートである。先ず、入力された映像データ（動画エンコーダ４の出力）から、先頭のＩフレームが切出される（ステップＳ１）。このとき、入力された映像データに余分な情報（時間長に関する情報など）が含まれている場合には、これが取り除かれるものとする。なお、動画エンコーダ４の出力が純粋にＩフレームのみであれば、ステップＳ１は省略されることになる。本例の場合がそれに相当する（図４（ｂ）参照）。
【００３９】
エンコード方式＃１に対応した再生時間擬装方式では、無効Ｐフレームの連続挿入を行う。この場合のエンコード方式＃１は、フレームの挿入間隔（挿入周期）が制限されており、一定周期で所定フレームを挿入することが要求されるようなエンコード方式であるものとする。
【００４０】
先ず、ステップＳ１で切出されたＩフレームが出力され（ステップＳ２）、次に、出力されたデータの再生時間が、目的とする再生時間に達するまでの間（ステップＳ３）、一定周期（間隔：例えば１５秒間隔）で、無効Ｐフレームの出力が行われる（ステップＳ４）。
【００４１】
ここで、無効Ｐフレームとは、実質的な映像データを持たないＰフレームを指すものとする。静止画像をエンコードしているため、先頭のＩフレームに続くフレームでは、フレーム間の差分が存在しない。従って、差分が無いことを示すＰフレームを挿入する。このＰフレームは映像の内容に関わらず同一の内容となるため、動画エンコーダ４にて生成する必要はなく、予めメモリなどに保持してあるデータを出力する方法が望ましい。
【００４２】
なお、ＭＰＥＧ−４Ｖｉｄｅｏなどのエンコード方式によっては、差分が無い無効Ｐフレームを特別な短いデータで表現することができる手段を持っていることがある（ＭＰＥＧ−４Ｖｉｄｅｏの場合は、ＮｏｔＣｏｄｅｄフレーム）。
このような手段を持っているエンコード方式では、これを使用することが望ましい。
【００４３】
また、目的とする再生時間は、音声再生に必要な時間であり、この音声再生時間情報は、音声エンコーダ５より供給されるものとする。目的とする再生時間が終了すると、処理終了となる。なお、出力するデータが無い区間では、何も出力されない。この方式により出力される再生時間が擬装された映像データの例は、図４（ｃ）である。
【００４４】
図６は、図４（ｄ）に示したエンコード方式＃２に対応した再生時間擬装方式による映像データの構成を生成するデータ加工部６の動作を示すフローチャートである。先ず、入力された映像データ（動画エンコーダ４の出力）から、先頭のＩフレームが切出される（ステップＳ１）。このとき、入力された映像データに余分な情報（時間長に関する情報など）が含まれている場合には、これが取り除かれるものとする。なお、動画エンコーダ４の出力が純粋にＩフレームのみであれば、ステップＳ１は省略されることになる。本例の場合がそれに相当する（図４（ｂ）参照）。
【００４５】
次に、この方式では、末尾にのみ無効Ｐフレームの挿入を行う。フレームの挿入間隔に制限がないエンコード方式の場合は、上記の図４（ｃ）及び図５により説明した方式（エンコード方式＃１対応の再生時間擬装方式）に代えて、この方式を用いることが望ましい。この方式では、ステップＳ１切出されたＩフレームを出力した後（ステップＳ２）、末尾に無効Ｐフレームの挿入を行う（ステップＳ５）。この方式により出力される、再生時間擬装映像データの例が、図４（ｄ）となる。
【００４６】
図７はエンコード方式＃３に対応した再生時間擬装方式による映像データの構成を生成するデータ加工部６の動作を示すフローチャートである。この再生時間擬装方式では、無効Ｐフレームによって再生時間を延長するのではなく、再生時間を情報Ｔとして持たせることで延長を行う。再生時間は映像データの内部または多重化情報に埋め込まれる。この方式を使用できるのは、再生装置が映像データまたは多重化情報に埋め込まれた再生時間情報Ｔを確実に参照する保証がある場合のみである。
【００４７】
この方式では、ステップＳ１で切出されたＩフレームを出力した後（ステップＳ２）、再生時間情報Ｔが出力される（ステップＳ６）。このステップＳ６の実現方法は、再生時間情報Ｔが埋め込まれる場所によって異なり、映像データに埋め込まれる場合は、ステップＳ２で出力されたデータの改変を行い、多重化情報に埋め込まれる場合は、マルチプレクサ７に再生時間情報Ｔを伝達する。この方式により出力される再生時間擬装映像データの例が、図４（ｅ）に示されるものである。
【００４８】
記録装置１側では、図４（ｃ）〜（ｅ）に示した再生時間擬装の各方式により得られた動画ファイルが出力されるので、再生装置１１側では、これ等再生時間擬装の各方式に対応した動画エンコード方式＃１〜＃３にそれぞれ対応して、動画デコーダ１３を設けておく必要があることは明白である。
【００４９】
図８は動画エンコード方式＃１〜＃３の全てに対応した再生時間擬装方式を示すデータ加工部６の動作を示すフローチャートである。図５〜図７と同等ステップは同一符号により示されている。この場合、ステップＳ１における処理（先頭のＩフレームを切出す処理）の後に、動画エンコーダ４におけるエンコード方式＃１〜＃３に応じて、上述した図５〜図７のフローチャートに従った再生時擬装方式を択一的に選択するものであり、そのために、ステップＳ７が追加されている。このステップＳ７の後に、各方式＃１〜＃３に対応した処理（図５〜図７に示したＳ３以降の処理）が行われることになる。
【００５０】
このステップＳ７による方式選択の方法としては、送信者側から指定（手動や自動）する方法、送信相手（アドレス）に応じて指定する方法、静止画の種類に応じて手動や自動にて行う方法がある。静止画の種類に応じて選択する手法の例として、図９に示す如く定めておくことができる。例えば、静止画の種類が写真であれば、エンコード方式＃１としてＭＰＥＧ−２、絵であれば、エンコード方式＃２としてＭＰＥＧ−４、名刺や手紙、メモ等の文字であれば、エンコード方式＃３としてＨ．２６３とすることができるが、これに限定されるものではない。
【００５１】
なお、送信側である記録装置１において、エンコード方式＃１〜＃３のいずれかを特定するための情報を、動画ファイルのヘッダ部に付加し、受信側の再生装置１１における動画デコーダ１３でこれを読取ってエンコード方式を判断し、各方式を選択するよう構成する。
【００５２】
以上述べた如く、上記実施例では、静止画像と音声とを動画ファイルとして作成するために、再生装置において、静止画と音声との同時再生機能を特別に追加することなく、当該機能を実現できることになる。よって、再生装置は一般の動画再生装置がそのまま使用可能である。
【００５３】
また、記録装置において、動画の記録機能に対してデータ加工部６の機能を追加するだけで、本発明が実現できるので、音声付き静止画再生処理システムの実現が極めて容易である。動画エンコーダや音声エンコーダ、マルチプレクサは、動画を記録する機能で用いられるものと全く同一のものが使用可能である。
【００５４】
また、本発明により作成される動画ファイルのサイズ（容量）は、基本的にはＩフレーム（静止画１フレーム）分のサイズと音声データのサイズとの合計とほぼ一致するので、少ないデータサイズとなる。これは、静止画像を映像としてエンコードする際に、画像が時間的に変化しないことを利用して、極力、余分なデータの発生を抑えているためであり、よって通信データ量も少くなる。
【００５５】
図１０は本発明の他の実施例を示す記録装置１の機能ブロック図であり、図１と同等部分は同一符号にて示している。図１０においては、カメラ付き携帯端末（携帯電話機に代表されるもの）に、本発明を適用したものであり、図１の静止画像ファイル２と音声ファイル３の代りに、カメラ８とマイク９とを設けたものである。
【００５６】
カメラ８により撮影された画像とマイク９により集音された音声とを、直接動画エンコーダ４と音声エンコーダ５とへそれぞれ供給することによって、一般の動画撮影の場合と同様に、その場の映像（静止画）と音声とを動画ファイルとして生成するものである。これにより、カメラによる静止画撮影時に、同時に音声を記録することができ、なおかつ生成された動画ファイルを一般の動画再生装置にて再生することによって、静止画と音声の同時再生が可能になる。
【００５７】
本発明の更に他の実施例を図１１に示す。この実施例では、記録装置１において、静止画像ファイルと音声ファイルとを保持する代わりに、デマルチプレクサ２１、動画デコーダ２２、音声デコーダ２３による再生装置の機能を追加し、任意の動画ファイルを変換して、静止画とそれに関連する音声とを抽出する。この実施例では、動画デコーダ２２の直後にフレーム抽出部２４を設けており、映像に関して動画エンコーダ２２の出力から１フレームを静止画として切出す。この場合、切出すフレームは、先頭のフレーム、最後のフレーム、中央のフレームなど、所定のフレームが考えられる。これにより、任意の動画ファイルから静止画と音声とを抽出して、新たに静止画と音声とを格納した動画ファイルを作成することが可能になる。
【００５８】
すなわち、図１１の例では、デマルチプレクサ２１、動画デコーダ２２、音声デコーダ２３、フレーム抽出部２４、（音声切出し部２５）により、動画−静止画変換を行って、任意の動画ファイルから所望の静止画を切出し、この切出された音声付き静止画を、先の実施例と同様の処理により、動画ファイルを生成するようにしている。
【００５９】
また、図１１では点線で示しているが、音声に関して音声切出し部２５を設け、音声デコーダ２３の出力のうち任意の部分を切出した上で、音声エンコーダ５に入力する処理を追加することによって、任意の動画ファイルの任意の位置から静止画と音声とを切出し、これを単一の動画ファイルとして構成することが可能になる。一般的な音声エンコード方式の場合、音声の切出しは単純なフレーム単位での切出し処理で問題ないため、音声切出し部２５は単純なデータ加工となる。
【００６０】
図１２は本発明の別の実施例を示す動作フローチャートであり、図８と同等ステップは同一符号にて示している。この実施例は、データ加工部６の機能を変更して、一つの動画ファイル内に複数の静止画を埋め込むことを可能にしている。
すなわち、本実施例では、複数の静止画に説明の音声を付加するものであり、いわゆる紙芝居方式のファイルを作成する場合のものである。
【００６１】
この実施例により作成される映像データの例が図１３に示されている。この実施例では、図１の記録装置１内のデータ加工部６の動作であるフローチャートに、図１２に示す如くステップＳ８を追加し、Ｉフレームの埋め込みを複数回実行するように変更している。更に、記録装置内の静止画像ファイル２を複数枚用意し、これらを動画エンコーダ４にて全てＩフレームにエンコードした後、データ加工部６にて、順番にＩフレームを映像データに取込む。
【００６２】
こうして生成される映像データは、図１３に示すように、１つの映像データの中に複数のＩフレームが埋め込まれており、図１の再生装置１１において、静止画像ファイルの内容を、紙芝居的に順次表示させることができる。用意する静止画像ファイルは、カメラの連写機能などを用いて連続撮影した画像を用いることが望ましい。
【００６３】
なお、図５〜図７のフローチャートの夫々の最後に、図１２に示したステップＳ８を追加することもできることは明白である。
【００６４】
上記各実施例におけるデータ加工部６の動作は、予めその動作手順をプロラムとして記録媒体に格納しておき、これをコンピュータ（ＣＰＵ）により読取って実行させるようにすることができるものである。
【００６５】
【発明の効果】
本発明によれば、所定の動画像符号化方式を用いて符号化された静止画像データに対して、動画再生装置において静止画像の再生を所定時間継続させるための情報を当該動画像符号化方式に応じた形式で付与してファイルを作成するようにしているので、このファイルを動画再生装置で再生する場合、符号化された静止画像データに付与された情報により、静止画像の表示を所定時間継続させることができる。その結果、このファイルとこれに対応する音声データとを多重化することにより得られた動画ファイルを、動画再生装置で再生する場合、音声を再生している間、静止画像の表示を継続して行うことが可能となる。
【００６６】
すなわち、再生装置側では、特別の静止画再生機能を付加することなく、音声付きの静止画を再生することができ、また、データ量も、基本的に、１フレーム分のデータと音声データとの和となるために、極めて少なくなり、記録装置側から再生装置側への送信データ量が少なくなり、通信網の輻輳もなくなり、また再生装置側での処理も高速化が図れることになる。
【図面の簡単な説明】
【図１】本発明の一実施例による記録装置及び再生装置の構成を示す図である。
【図２】本発明の一実施例による動画ファイル作成の過程を示す図である。
【図３】一般的な動画ファイルの形式及び一般的なエンコード方式について説明するための図である。
【図４】図１のデータ加工部６によって生成される再生時間擬装映像データの構造の例を示す図である。
【図５】本発明のデータ加工部６の動作の一例を示すフローチャートである。
【図６】本発明のデータ加工部６の動作の他の例を示すフローチャートである。
【図７】本発明のデータ加工部６の動作の更に他の例を示すフローチャートである。
【図８】本発明のデータ加工部６の動作の別の例を示すフローチャートである。
【図９】静止画の種類と動画エンコード方式との対応例を示す図である。
【図１０】本発明の他の実施例による記憶装置の構成を示す図である。
【図１１】本発明の更に他の実施例による記憶装置の構成を示す図である。
【図１２】図１１の記憶装置１のデータ加工部６の動作例を示すフローチャートである。
【図１３】図１２の動作例に従って生成される再生時間擬装映像データの構造の例を示す図である。
【符号の説明】
１記憶装置
２静止画像ファイル
３音声ファイル
４動画エンコーダ
５音声エンコーダ
６データ加工部
７マルチプレクサ
８カメラ
９マイク
１０ネットワーク
１１再生装置
１２，２１デマルチプレクサ
１３，２２動画デコーダ
１４，２３音声デコーダ
１５表示装置
１６スピーカ
２４フレーム抽出部
２５音声切出し部

Claims

静止画像データを所定の動画像符号化方式により符号化する動画符号化手段と、
前記動画符号化手段の出力に、前記静止画像データに関連する音声データの再生時間に等しい時間だけ再生時間を伸長する旨の時間伸長情報を、前記動画像符号化方式に応じた形式で付加するデータ加工手段と、
前記データ加工手段の出力と前記音声データとを多重化して出力する多重化手段と、を含むことを特徴とする画像処理装置。
前記音声データを所定の音声符号化方式により符号化する音声符号化手段を、更に含むことを特徴とする請求項１記載の画像処理装置。
前記データ加工手段は、前記音声符号化手段から得られる前記音声データの再生時間に関する情報の供給を受けて、前記時間伸長情報を得ることを特徴とする請求項１記載の画像処理装置。
前記データ加工手段は、
前記動画符号化手段の出力から前記静止画データに相当する１フレーム分のデータを抽出し、当該データの後に、前記音声データの再生時間に相当する時間だけ、所定周期で前記時間伸長情報として無効フレームを付加する第一の手段を有することを特徴とする請求項１または２記載の画像処理装置。
前記データ加工手段は、
動画符号化手段の出力から前記静止画データに相当する１フレーム分のデータを抽出し、前記音声データの再生時間に相当する時間後に前記時間伸長情報として無効フレームを付加する第二の手段を有することを特徴とする請求項１または２記載の画像処理装置。
前記データ加工手段は、
動画符号化手段の出力から前記静止画データに相当する１フレーム分のデータを抽出し、この抽出データに前記時間伸長情報を付加する第三の手段を有することを特徴とする請求項１または２記載の画像処理装置。
前記データ加工手段は、
前記動画符号化手段の出力から前記静止画データに相当する１フレーム分のデータを抽出する抽出手段と、
当該データの後に、前記音声データの再生時間に相当する時間だけ、所定周期で前記時間伸長情報として無効フレームを付加する第一の手段と、
前記音声データの再生時間に相当する時間後に前記時間伸長情報として無効フレームを付加する第二の手段と、
この抽出データに前記時間伸長情報を付加する第三の手段と、
これ等第一〜第三の手段を選択する選択手段と、を含むことを特徴とする請求項１または２記載の画像処理装置。
前記データ加工手段は、
前記第一、第二、または第三の手段の処理終了後に、更に所定回数前記第一、第二、または第三の手段の処理を続行制御する手段を、更に有することを特徴とする請求項４〜７いずれか記載の画像処理装置。
前記静止画像データを生成するカメラと、前記音声データを生成するマイクとを、更に含むことを特徴とする請求項１〜８いずれか記載の画像処理装置。
携帯電話機であることを特徴とする請求項９記載の画像処理装置。
音声データが付加された動画像データから所望の静止画像データとそれに関連する音声データとを抽出する手段を、更に含み、この抽出静止画像データを前記加工手段へ供給するようにしたことを特徴とする請求項１〜７いずれか記載の画像処理装置。
静止画像データを所定の動画像符号化方式により符号化する動画符号化ステップと、
この符号化出力に、前記静止画像データに関連する音声データの再生時間に等しい時間だけ再生時間を伸長する旨の時間伸長情報を、前記動画像符号化方式に応じた形式で付加するデータ加工ステップと、
このデータ加工後の出力と前記音声データとを多重化して出力する多重化ステップと、を含むことを特徴とする画像処理方法。
前記音声データを所定の音声符号化方式により符号化する音声符号化ステップを、更に含むことを特徴とする請求項１２記載の画像処理方法。
前記データ加工ステップは、前記音声符号化ステップから得られる前記音声データの再生時間に関する情報の供給を受けて、前記時間伸長情報を得ることを特徴とする請求項１２記載の画像処理方法。
前記データ加工ステップは、
前記動画符号化ステップの出力から前記静止画データに相当する１フレーム分のデータを抽出し、当該データの後に、前記音声データの再生時間に相当する時間だけ、所定周期で前記時間伸長情報として無効フレームを付加する第一のステップを有することを特徴とする請求項１２または１３記載の画像処理方法。
前記データ加工ステップは、
動画符号化ステップの出力から前記静止画データに相当する１フレーム分のデータを抽出し、前記音声データの再生時間に相当する時間後に前記時間伸長情報として無効フレームを付加する第二のステップを有することを特徴とする請求項１２または１３記載の画像処理方法。
前記データ加工ステップは、
動画符号化ステップの出力から前記静止画データに相当する１フレーム分のデータを抽出し、この抽出データに前記時間伸長情報を付加する第三のステップを有することを特徴とする請求項１２または１３記載の画像処理方法。
前記データ加工ステップは、
前記動画符号化ステップの出力から前記静止画データに相当する１フレーム分のデータを抽出する抽出ステップと、
当該データの後に、前記音声データの再生時間に相当する時間だけ、所定周期で前記時間伸長情報として無効フレームを付加する第一のステップと、
前記音声データの再生時間に相当する時間後に前記時間伸長情報として無効フレームを付加する第二のステップと、
この抽出データに前記時間伸長情報を付加する第三のステップと、
これ等第一〜第三のステップを選択する選択ステップと、を含むことを特徴とする請求項１２または１３記載の画像処理方法。
前記データ加工ステップは、
前記第一、第二、または第三のステップの処理終了後に、更に所定回数前記第一、第二、または第三のステップを続行制御するステップを、更に有することを特徴とする請求項１５〜１８いずれか記載の画像処理方法。
前記静止画像データをカメラから生成するステップと、前記音声データをマイクから生成するステップとを、更に含むことを特徴とする請求項１２〜１９いずれか記載の画像処理方法。
携帯電話機であることを特徴とする請求項２０記載の画像処理方法。
音声データが付加された動画像データから所望の静止画像データとそれに関連する音声データとを抽出するステップを、更に含み、この抽出静止画像データを前記加工ステップへ供給するようにしたことを特徴とする請求項１２〜１８いずれか記載の画像処理方法。
静止画像データを所定の動画像符号化方式により符号化する動画符号化手段と、前記動画符号化手段の出力に、前記静止画像データに関連する音声データの再生時間に等しい時間だけ再生時間を伸長する旨の時間伸長情報を、前記動画像符号化方式に応じた形式で付加するデータ加工手段と、前記データ加工手段の出力と前記音声データとを多重化して出力する多重化手段とを含む画像処理装置と、
前記画像処理装置からの多重化出力を受信して、前記データ加工手段により加工されたデータを前記動画像符号化方式に対応する復号化方式により復号化する動画復号化手段と、前記多重化出力の音声データと前記動画復号化手段と同時再生する手段とを含む再生装置と、を備えてなることを特徴とする画像処理システム。
静止画像データを所定の動画像符号化方式により符号化する動画符号化手段と、前記動画符号化手段の出力に、前記静止画像データに関連する音声データの再生時間に等しい時間だけ再生時間を伸長する旨の時間伸長情報を、前記動画像符号化方式に応じた形式で付加するデータ加工手段と、前記データ加工手段の出力と前記音声データとを多重化して出力する多重化手段とを含む画像処理装置からの多重化出力を受信して再生する再生装置であって、
前記データ加工手段により加工されたデータを前記動画像符号化方式に対応する復号化方式により復号化する動画復号化手段と、
前記多重化出力の音声データと前記動画復号化手段と同時再生する手段と、を含むことを特徴とする再生装置。
画像処理装置の画像処理動作をコンピュータにより実行させるためのプログラムであって、
静止画像データを所定の動画像符号化方式により符号化する動画符号化ステップと、
この符号化出力に、前記静止画像データに関連する音声データの再生時間に等しい時間だけ再生時間を伸長する旨の時間伸長情報を、前記動画像符号化方式に応じた形式で付加するデータ加工ステップと、
このデータ加工後の出力と前記音声データとを多重化して出力する多重化ステップと、を含むコンピュータ読取り可能なプログラム。