JP2004297229A - 画像処理装置及びその方法並びにそれを用いた画像処理システム及びプログラム - Google Patents

画像処理装置及びその方法並びにそれを用いた画像処理システム及びプログラム Download PDF

Info

Publication number
JP2004297229A
JP2004297229A JP2003084034A JP2003084034A JP2004297229A JP 2004297229 A JP2004297229 A JP 2004297229A JP 2003084034 A JP2003084034 A JP 2003084034A JP 2003084034 A JP2003084034 A JP 2003084034A JP 2004297229 A JP2004297229 A JP 2004297229A
Authority
JP
Japan
Prior art keywords
data
time
image
audio
encoding
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2003084034A
Other languages
English (en)
Other versions
JP4254297B2 (ja
Inventor
Tomoshi Hosokawa
知志 細川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2003084034A priority Critical patent/JP4254297B2/ja
Priority to US10/797,026 priority patent/US20040208481A1/en
Priority to EP20040006542 priority patent/EP1463333A1/en
Priority to CNB2004100332253A priority patent/CN1291596C/zh
Publication of JP2004297229A publication Critical patent/JP2004297229A/ja
Application granted granted Critical
Publication of JP4254297B2 publication Critical patent/JP4254297B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/70Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by syntax aspects related to video coding, e.g. related to compression standards

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Television Signal Processing For Recording (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

【課題】特定の形式や専用の機能をもたない再生装置でも、静止画と音声の同時再生が可能となるよう、生成するファイルは一般的な動画ファイルの形式を守りつつ静止画と音声を単一ファイルとして作成することができるようにする。
【解決手段】動画エンコーダ4、音声エンコーダ5及びマルチプレクサ7を有する記録装置1において、動画エンコーダ4及びマルチプレクサ7間に、データ加工部6を設ける。データ加工部6は、動画エンコーダ4により符号化された静止画像データに、動画再生装置11において静止画像の再生を所定時間継続させるための情報を動画エンコーダ4の動画像符号化方式に応じた形式で付与して出力する。
【選択図】 図1

Description

【0001】
【発明の属する技術分野】
本発明は画像処理装置及びその方法並びにそれを用いた画像処理システム及びプログラムに関し、特に静止画像と音声とを同時に再生処理するためのファイルを作成する画像処理方式に関するものである。
【0002】
【従来の技術】
静止画像と共に、それに関連する音声を同時に再生処理することが必要な場合がある。例えば、携帯端末である携帯電話機には、画像を撮影するカメラ付きのものがあり、このカメラにより撮影した静止画像に対して、それに関連した説明などの音声を同時に付加して、相手先の携帯電話機やPC(パーソナルコンピュータ)へ送信することが要求されるようになってきている。また、逆に、PCから、静止画像にその音声を付加して、携帯電話機や他のPCに対して送信することも考えられる。
【0003】
このような、静止画像とそれに関連する音声情報とを得るための技術としては、特許文献1にあるように、静止画像としての1フレーム分の映像信号と、この1フレーム分の映像信号の内容を説明するための音声信号を時間軸圧縮した信号とを周波数多重化して、記録媒体の同一領域に記録する。そして、再生の際に、時間軸伸長して元の音声信号に戻し、映像信号の繰り返し再生中に当該音声信号を出力するようにして、静止画像の説明を対応する静止画像と同時に出力することが可能となっている。
【0004】
また、他の方法として、静止画像とこれに関連する音声データとを、特定の方式で単一のファイルにまとめ、その特定の方式に対応した再生装置で再生する第一の方法や、静止画像とこれに関連する音声データとを、互いに別々に独立して扱った上で、再生装置にこれ等両者を同時に再生するための専用の機能を設ける第二の方法が考えられる。
【0005】
【特許文献1】
特開昭64−86364号公報(第3頁、第1図)
【0006】
【発明が解決しようとする課題】
上述した特許文献1に開示の技術では、再生の際に、音声信号の再生時間に相当する時間長の静止画像を、繰り返し再生するようになっているために、静止画像の繰り返しに比例して情報量が増大することになる。そのために、上述した携帯電話機やPCの再生側において、再生のための情報量が多くなって、処理能力が問題となる。
【0007】
また、上述した第一の方法では、特定の方式に対応した専用の再生装置が必要になる。このため、その方式に対応していない再生装置(過去に存在した再生装置など)では再生することができず、よって、現在の携帯電話機やPCなどでは対応が不可能となる。
【0008】
また、上述した第二の方法では、静止画像データと音声データとは、普及している形式を使用することができるために、静止画像と音声とを、それぞれ再生することは可能であるが、これ等を同時再生に関する考慮がなされていない再生装置では、同時再生ができないばかりか、静止画と音声がばらばらに取り扱われてしまう可能性がありる。よって、この第二の方式も現在の携帯電話機やPCなどには対応が不可能である。
【0009】
本発明の目的は、特定の形式や専用の機能をもたない再生装置においても、静止画像とそれに関連する音声との同時再生を可能とするようにした画像処理装置及びその方法並びにそれを用いた画像処理システム及びプログラムを提供することである。
【0010】
本発明の他の目的は、情報量の増大なく、静止画像とそれに関連する音声との同時再生を可能とするようにした画像処理装置及びその方法並びにそれを用いた画像処理システム及びプログラムを提供することである。
【0011】
【課題を解決するための手段】
本発明による画像処理装置は、静止画像データを所定の動画像符号化方式により符号化する動画符号化手段と、前記動画符号化手段の出力に、前記静止画像データに関連する音声データの再生時間に等しい時間だけ再生時間を伸長する旨の時間伸長情報を、前記動画像符号化方式に応じた形式で付加するデータ加工手段と、前記データ加工手段の出力と前記音声データとを多重化して出力する多重化手段とを含むことを特徴とする。
【0012】
本発明による画像処理方法は、静止画像データを所定の動画像符号化方式により符号化する動画符号化ステップと、この符号化出力に、前記静止画像データに関連する音声データの再生時間に等しい時間だけ再生時間を伸長する旨の時間伸長情報を、前記動画像符号化方式に応じた形式で付加するデータ加工ステップと、このデータ加工後の出力と前記音声データとを多重化して出力する多重化ステップとを含むことを特徴とする。
【0013】
本発明による画像処理システムは、静止画像データを所定の動画像符号化方式により符号化する動画符号化手段、前記動画符号化手段の出力に、前記静止画像データに関連する音声データの再生時間に等しい時間だけ再生時間を伸長する旨の時間伸長情報を、前記動画像符号化方式に応じた形式で付加するデータ加工手段、前記データ加工手段の出力と前記音声データとを多重化して出力する多重化手段を含む画像処理装置と、前記画像処理装置からの多重化出力を受信して、前記データ加工手段により加工されたデータを前記動画像符号化方式に対応する復号化方式により復号化する動画復号化手段、前記多重化出力の音声データと前記動画復号化手段と同時再生する手段を含む再生装置とを備えてなることを特徴とする。
【0014】
本発明による再生装置は、静止画像データを所定の動画像符号化方式により符号化する動画符号化手段と、前記動画符号化手段の出力に、前記静止画像データに関連する音声データの再生時間に等しい時間だけ再生時間を伸長する旨の時間伸長情報を、前記動画像符号化方式に応じた形式で付加するデータ加工手段と、前記データ加工手段の出力と前記音声データとを多重化して出力する多重化手段とを含む画像処理装置からの多重化出力を受信して再生する再生装置であって、前記データ加工手段により加工されたデータを前記動画像符号化方式に対応する復号化方式により復号化する動画復号化手段と、前記多重化出力の音声データと前記動画復号化手段と同時再生する手段とを含むことを特徴とする。
【0015】
本発明によるプログラムは、画像処理装置の画像処理動作をコンピュータにより実行させるためのプログラムであって、静止画像データを所定の動画像符号化方式により符号化する動画符号化ステップと、この符号化出力に、前記静止画像データに関連する音声データの再生時間に等しい時間だけ再生時間を伸長する旨の時間伸長情報を、前記動画像符号化方式に応じた形式で付加するデータ加工ステップと、このデータ加工後の出力と前記音声データとを多重化して出力する多重化ステップとを含むことを特徴とする。
【0016】
本発明の作用を述べる。所定の動画像符号化方式を用いて符号化された静止画像データに対して、動画再生装置において静止画像の再生を所定時間継続(時間伸長)させるための情報を当該動画像符号化方式に応じた形式で付与してファイルを作成する。この場合、静止画像データを単に符号化するだけでは、これを動画再生装置で再生する場合に、静止画像の表示は極く短時間で終了してしまう。
従って、単に符号化された静止画像データとこれに対応する音声データとを多重化することにより得られた動画ファイルを動画再生装置で再生する場合には、静止画像の表示と音声の再生とを同時に行なうことができない。すなわち、音声を再生している間、静止画像の表示を継続させることができない。
【0017】
そこで、本発明では、上述したように、所定の動画像符号化方式で符号化された静止画像に対して、音声データの再生時間に相当する時間だけ伸長する旨の時間伸長情報を付加することにより、これを動画再生装置で再生する場合、符号化された静止画像データに付与された時間伸長情報により、静止画像の表示を所定時間継続させることができる。
【0018】
従って、こうして得られた静止画データとこれに対応する音声データとを多重化することにより得られた動画ファイルを、動画再生装置で再生する場合、音声を再生している間、静止画像の表示を継続して行うことが可能となる。
【0019】
【発明の実施の形態】
以下に、本発明の実施例につき図面を参照しつつ詳細に説明する。図1は本発明の一実施例のシステム構成を示す図である。図1を参照すると、記録装置1と再生装置11とがネットワーク10を介して接続されており、記録装置1はPCや携帯型情報処理端末であり、また再生装置11も、同じく、PCや携帯型情報処理端末であるものとする。
【0020】
記録装置1は静止画像ファイル2と音声ファイル3とを備えており、また、静止画像ファイル2からの静止画像データを入力として、動画データの生成を行うための動画エンコーダ4と、音声ファイル3からの音声データを入力として動画データに対応した音声データを生成する音声エンコーダ5とを備えている。更に、動画エンコーダ4の出力と音声エンコーダ5からの音声再生時間情報とを入力として、静止画像をこの音声再生時間情報により示される時間長の映像データとして加工処理するためのデータ加工部6を備えている。
【0021】
記録装置1は、更に、データ加工部6と音声エンコーダ5との出力、すなわち映像と音声との多重化を行って、動画ファイルを生成する機能を有している。この記録装置1におけるデータ加工部6以外の部分は、映像ファイルと音声ファイルとを多重化して、動画ファイルを生成する機能を有する一般の映像記録装置と同一の構成である。そして、マルチプレクサ7の多重化出力がネットワーク10を介して再生装置11へ送信されることになる。
【0022】
この再生装置11は、ネットワーク10を介して送られてきた動画ファイルの再生を行うためのものであり、そのために、映像と音声との多重化を解除して、これ等を別々に導出するデマルチプレクサ12を備えている。また、映像と音声とをそれぞれ入力として、記録装置1側の動画エンコーダ4、音声エンコーダ5の各エンコード方式に対応したデコード方式を有する動画デコーダ13、音声デコーダ14を備えており、これ等デコード出力は表示部15、スピーカ16へ供給されて静止画とそれに対応する説明用の音声とが、同時に再生されることになる。
【0023】
再生装置11は、以上の機能により動画ファイルの再生を行うことが可能であるが、静止画像と音声とを同時再生するための特別な専用の機能を備えているわけではなく、一般的な動画像再生装置である。
【0024】
本発明における動画ファイル作成の過程を図2に示している。図2において、図1と同等部分は同一符号にて示している。図2を参照すると、記録装置1においては、データ加工部6によって、静止画像が映像としてエンコードされて動画ファイルDとして作成される。これにより、映像が1フレームだけ記録された動画ファイルが作成されることになる。すなわち、動画エンコーダ4に静止画ファイル2の静止画像データが入力され、1フレーム分のエンコードが行われる。この時点で生成される映像データAは1フレーム分のみであるために、非常に短い再生時間となっている(1フレームの時間は十数分の一秒)。この1フレーム分のデータAはデータ加工部6へ入力されて、1フレーム分のデータを音声ファイル3の長さと同じになるように再生時間の伸長擬装をなす加工処理が行われる。
更に、この擬装処理された映像データBと、音声ファイル3を音声エンコーダ5によりエンコードして得られた音声データCとが、マルチプレクサ7へ入力されて動画ファイルDとして生成されるのである。
【0025】
上述の方法により、記録装置1にて生成された動画ファイルを、再生装置11において再生すると、記録装置1の表示部15には、動画デコーダ13によりデコードされた静止画像の内容が表示され、スピーカ16からは、音声デコーダ14によりデコードされた音声が再生される。このとき、映像データは1フレーム分のデータのみであるが、その長さは動画ファイルの長さ(すなわち、元の音声ファイル3の再生時間に相当する長さ)と同一であるように時間長(時間伸長)擬装処理が、データ加工部6にて行われているので、静止画像の表示が短時間で終了することはなく、音声を再生している間、継続して静止画像の表示が行われるようになる。
【0026】
この様にして、本発明では、静止画像を動画としてみなしてエンコード処理しかつその長さを擬装したうえで動画ファイルに多重化することにより、動画ファイルの再生機能を有する再生装置11において、特別な機能の追加を何等なすことなく、静止画像と音声との同時再生が実現可能となる。
【0027】
ここで、図3を参照すると、図3(a)は、一般的な動画ファイルの形式について図示したものである。図に示すように、動画ファイルは、基本的に、映像部分である映像データと、音声部分である音声データとから構成される。更に、映像と音声との再生速度を調整し、記録時と同じタイミングで映像と音声を再生させるための情報を含んだ多重化情報(ヘッダ)を持つ。このヘッダには、音声の再生時間を示す再生時間情報も含まれている。更にはまた、多重化の方式によっては、映像と音声だけではなく、文字情報などの他の情報を含めることができる場合があり、その例としては、テロップ表示のためのテキスト情報や、各種コマンド情報等である。
【0028】
なお、一般的な多重化方式としては、MP4(MPEG−4System),ASF(Advanced Streaming Format )などがある。
【0029】
映像データは、通常は何らかのエンコード方式によってエンコードされている。これは、映像は各フレーム(静止画とみなせる)の情報を直接格納すると、サイズが大きく扱いにくいためである。さらに、一般的なエンコード方式では、単純に各フレームの情報を圧縮するだけではなく、映像固有の性質を使用したエンコード方法が用いられる。一般的な映像のエンコード方式について図3(b)に示す。
【0030】
一般的なエンコード方式では、映像の隣接したフレーム間では差分が少ないという性質を使用したエンコード方式が用いられる。映像を構成する各フレームのうち、一番最初のフレーム及び場面転換した直後のフレームについては静止画と同等の圧縮が行われる。この静止画はIフレームと称され(通常、Iはintra−coded の略である)。このIフレームはデータ量としては大きくなるが、それ単独での再生が可能である。
【0031】
直前のフレームとの差分が小さい場合は、直前のフレームとの差分を検出したうえで圧縮が行われる。この差分はPフレームと称される(通常、Pはpredictive−codedの略である)。このPフレームには、直前のフレームと差がある部分だけが情報として含まれるため、圧縮後のサイズがきわめて小さくなるが、再生の際には、直前のフレームの情報を必要とする。
【0032】
さらに一部のエンコード方式では、前後のフレームから差分をとることで、更に情報量を削減したうえで圧縮を行う場合がある。これをBフレームと呼ぶ(通常、Bはbidirectionally−predictive−codedの略)。このBフレームはPフレームよりさらにサイズを小さくすることができる反面、再生時に、前後のフレームの情報を必要とする。また、再生時に、前後のフレームの情報を必要とするために、圧縮時にフレームの並べ替えが行われる。
【0033】
前後のフレームとの差分の取り方、各フレームの圧縮方式については、エンコード方式によって異なる。通常は、Iフレームは極くわずか挿入され、残りのほとんどはPフレームまたはBフレームとなるものがほとんどである。一般的なエンコード方式としては、MPEG−2,MPEG−4Video,H.263(IP電話に関するITUT勧告)などがある。
【0034】
音声データについても、映像データと同様に、通常は何らかのエンコード方式によってエンコードされている。音声の場合、一定時間分の音声情報をフレームとして扱い、このフレーム単位で圧縮する方法が採られる。フレームの長さについては、全てのフレームを同じ長さとする方式もあれば、毎回フレームの長さが異なる方式も存在するが、フレームの平均的な長さとしては数十ミリ秒前後となる方式が多い。一般的なエンコード方式としては、mp3(MPEG Audio Layer III),AAC(Advanced Audio Coding ),WMA(Windows(R) Media Audio )などがある。
【0035】
本発明では、映像のエンコード方式として上記のIフレーム、Pフレームを使用した圧縮を行うものを前提とする(但し、Bフレームの有無はどちらでもよいものとする)。
【0036】
以下に、本発明の実施例の動作について詳細に説明する。前述したように、図1において、データ加工部6以外は、一般的によく知られた構成及び動作となるために、それらの詳細な説明は省略する。データ加工部6の動作につき説明する。図4はこのデータ加工部6により生成される、再生時間が擬装された映像データの構成例を示しており、(a)は通常の映像データの例であり、(b)は静止画像ファイル2の例である。
【0037】
本発明においては、データ加工部6における映像データの再生時間擬装方式の例として、動画エンコーダ4におけるエンコード方式に対応して存在するものであり、動画エンコード方式#1〜#3の夫々に対応して、3種の再生時間擬装方式が採用される。よって、(c)はエンコード方式#1に対応した再生時間擬装方式による映像データの構成例であり、(d)はエンコード方式#2に対応した再生時間擬装方式による映像データの構成例であり、(e)はエンコード方式#3に対応した再生時間擬装方式による映像データの構成例である。
【0038】
図5は、図4(c)に示したエンコード方式#1に対応した再生時間擬装方式による映像データの構成を生成するデータ加工部6の動作を示すフローチャートである。先ず、入力された映像データ(動画エンコーダ4の出力)から、先頭のIフレームが切出される(ステップS1)。このとき、入力された映像データに余分な情報(時間長に関する情報など)が含まれている場合には、これが取り除かれるものとする。なお、動画エンコーダ4の出力が純粋にIフレームのみであれば、ステップS1は省略されることになる。本例の場合がそれに相当する(図4(b)参照)。
【0039】
エンコード方式#1に対応した再生時間擬装方式では、無効Pフレームの連続挿入を行う。この場合のエンコード方式#1は、フレームの挿入間隔(挿入周期)が制限されており、一定周期で所定フレームを挿入することが要求されるようなエンコード方式であるものとする。
【0040】
先ず、ステップS1で切出されたIフレームが出力され(ステップS2)、次に、出力されたデータの再生時間が、目的とする再生時間に達するまでの間(ステップS3)、一定周期(間隔:例えば15秒間隔)で、無効Pフレームの出力が行われる(ステップS4)。
【0041】
ここで、無効Pフレームとは、実質的な映像データを持たないPフレームを指すものとする。静止画像をエンコードしているため、先頭のIフレームに続くフレームでは、フレーム間の差分が存在しない。従って、差分が無いことを示すPフレームを挿入する。このPフレームは映像の内容に関わらず同一の内容となるため、動画エンコーダ4にて生成する必要はなく、予めメモリなどに保持してあるデータを出力する方法が望ましい。
【0042】
なお、MPEG−4Videoなどのエンコード方式によっては、差分が無い無効Pフレームを特別な短いデータで表現することができる手段を持っていることがある(MPEG−4Videoの場合は、Not Codedフレーム)。
このような手段を持っているエンコード方式では、これを使用することが望ましい。
【0043】
また、目的とする再生時間は、音声再生に必要な時間であり、この音声再生時間情報は、音声エンコーダ5より供給されるものとする。目的とする再生時間が終了すると、処理終了となる。なお、出力するデータが無い区間では、何も出力されない。この方式により出力される再生時間が擬装された映像データの例は、図4(c)である。
【0044】
図6は、図4(d)に示したエンコード方式#2に対応した再生時間擬装方式による映像データの構成を生成するデータ加工部6の動作を示すフローチャートである。先ず、入力された映像データ(動画エンコーダ4の出力)から、先頭のIフレームが切出される(ステップS1)。このとき、入力された映像データに余分な情報(時間長に関する情報など)が含まれている場合には、これが取り除かれるものとする。なお、動画エンコーダ4の出力が純粋にIフレームのみであれば、ステップS1は省略されることになる。本例の場合がそれに相当する(図4(b)参照)。
【0045】
次に、この方式では、末尾にのみ無効Pフレームの挿入を行う。フレームの挿入間隔に制限がないエンコード方式の場合は、上記の図4(c)及び図5により説明した方式(エンコード方式#1対応の再生時間擬装方式)に代えて、この方式を用いることが望ましい。この方式では、ステップS1切出されたIフレームを出力した後(ステップS2)、末尾に無効Pフレームの挿入を行う(ステップS5)。この方式により出力される、再生時間擬装映像データの例が、図4(d)となる。
【0046】
図7はエンコード方式#3に対応した再生時間擬装方式による映像データの構成を生成するデータ加工部6の動作を示すフローチャートである。この再生時間擬装方式では、無効Pフレームによって再生時間を延長するのではなく、再生時間を情報Tとして持たせることで延長を行う。再生時間は映像データの内部または多重化情報に埋め込まれる。この方式を使用できるのは、再生装置が映像データまたは多重化情報に埋め込まれた再生時間情報Tを確実に参照する保証がある場合のみである。
【0047】
この方式では、ステップS1で切出されたIフレームを出力した後(ステップS2)、再生時間情報Tが出力される(ステップS6)。このステップS6の実現方法は、再生時間情報Tが埋め込まれる場所によって異なり、映像データに埋め込まれる場合は、ステップS2で出力されたデータの改変を行い、多重化情報に埋め込まれる場合は、マルチプレクサ7に再生時間情報Tを伝達する。この方式により出力される再生時間擬装映像データの例が、図4(e)に示されるものである。
【0048】
記録装置1側では、図4(c)〜(e)に示した再生時間擬装の各方式により得られた動画ファイルが出力されるので、再生装置11側では、これ等再生時間擬装の各方式に対応した動画エンコード方式#1〜#3にそれぞれ対応して、動画デコーダ13を設けておく必要があることは明白である。
【0049】
図8は動画エンコード方式#1〜#3の全てに対応した再生時間擬装方式を示すデータ加工部6の動作を示すフローチャートである。図5〜図7と同等ステップは同一符号により示されている。この場合、ステップS1における処理(先頭のIフレームを切出す処理)の後に、動画エンコーダ4におけるエンコード方式#1〜#3に応じて、上述した図5〜図7のフローチャートに従った再生時擬装方式を択一的に選択するものであり、そのために、ステップS7が追加されている。このステップS7の後に、各方式#1〜#3に対応した処理(図5〜図7に示したS3以降の処理)が行われることになる。
【0050】
このステップS7による方式選択の方法としては、送信者側から指定(手動や自動)する方法、送信相手(アドレス)に応じて指定する方法、静止画の種類に応じて手動や自動にて行う方法がある。静止画の種類に応じて選択する手法の例として、図9に示す如く定めておくことができる。例えば、静止画の種類が写真であれば、エンコード方式#1としてMPEG−2、絵であれば、エンコード方式#2としてMPEG−4、名刺や手紙、メモ等の文字であれば、エンコード方式#3としてH.263とすることができるが、これに限定されるものではない。
【0051】
なお、送信側である記録装置1において、エンコード方式#1〜#3のいずれかを特定するための情報を、動画ファイルのヘッダ部に付加し、受信側の再生装置11における動画デコーダ13でこれを読取ってエンコード方式を判断し、各方式を選択するよう構成する。
【0052】
以上述べた如く、上記実施例では、静止画像と音声とを動画ファイルとして作成するために、再生装置において、静止画と音声との同時再生機能を特別に追加することなく、当該機能を実現できることになる。よって、再生装置は一般の動画再生装置がそのまま使用可能である。
【0053】
また、記録装置において、動画の記録機能に対してデータ加工部6の機能を追加するだけで、本発明が実現できるので、音声付き静止画再生処理システムの実現が極めて容易である。動画エンコーダや音声エンコーダ、マルチプレクサは、動画を記録する機能で用いられるものと全く同一のものが使用可能である。
【0054】
また、本発明により作成される動画ファイルのサイズ(容量)は、基本的にはIフレーム(静止画1フレーム)分のサイズと音声データのサイズとの合計とほぼ一致するので、少ないデータサイズとなる。これは、静止画像を映像としてエンコードする際に、画像が時間的に変化しないことを利用して、極力、余分なデータの発生を抑えているためであり、よって通信データ量も少くなる。
【0055】
図10は本発明の他の実施例を示す記録装置1の機能ブロック図であり、図1と同等部分は同一符号にて示している。図10においては、カメラ付き携帯端末(携帯電話機に代表されるもの)に、本発明を適用したものであり、図1の静止画像ファイル2と音声ファイル3の代りに、カメラ8とマイク9とを設けたものである。
【0056】
カメラ8により撮影された画像とマイク9により集音された音声とを、直接動画エンコーダ4と音声エンコーダ5とへそれぞれ供給することによって、一般の動画撮影の場合と同様に、その場の映像(静止画)と音声とを動画ファイルとして生成するものである。これにより、カメラによる静止画撮影時に、同時に音声を記録することができ、なおかつ生成された動画ファイルを一般の動画再生装置にて再生することによって、静止画と音声の同時再生が可能になる。
【0057】
本発明の更に他の実施例を図11に示す。この実施例では、記録装置1において、静止画像ファイルと音声ファイルとを保持する代わりに、デマルチプレクサ21、動画デコーダ22、音声デコーダ23による再生装置の機能を追加し、任意の動画ファイルを変換して、静止画とそれに関連する音声とを抽出する。この実施例では、動画デコーダ22の直後にフレーム抽出部24を設けており、映像に関して動画エンコーダ22の出力から1フレームを静止画として切出す。この場合、切出すフレームは、先頭のフレーム、最後のフレーム、中央のフレームなど、所定のフレームが考えられる。これにより、任意の動画ファイルから静止画と音声とを抽出して、新たに静止画と音声とを格納した動画ファイルを作成することが可能になる。
【0058】
すなわち、図11の例では、デマルチプレクサ21、動画デコーダ22、音声デコーダ23、フレーム抽出部24、(音声切出し部25)により、動画−静止画変換を行って、任意の動画ファイルから所望の静止画を切出し、この切出された音声付き静止画を、先の実施例と同様の処理により、動画ファイルを生成するようにしている。
【0059】
また、図11では点線で示しているが、音声に関して音声切出し部25を設け、音声デコーダ23の出力のうち任意の部分を切出した上で、音声エンコーダ5に入力する処理を追加することによって、任意の動画ファイルの任意の位置から静止画と音声とを切出し、これを単一の動画ファイルとして構成することが可能になる。一般的な音声エンコード方式の場合、音声の切出しは単純なフレーム単位での切出し処理で問題ないため、音声切出し部25は単純なデータ加工となる。
【0060】
図12は本発明の別の実施例を示す動作フローチャートであり、図8と同等ステップは同一符号にて示している。この実施例は、データ加工部6の機能を変更して、一つの動画ファイル内に複数の静止画を埋め込むことを可能にしている。
すなわち、本実施例では、複数の静止画に説明の音声を付加するものであり、いわゆる紙芝居方式のファイルを作成する場合のものである。
【0061】
この実施例により作成される映像データの例が図13に示されている。この実施例では、図1の記録装置1内のデータ加工部6の動作であるフローチャートに、図12に示す如くステップS8を追加し、Iフレームの埋め込みを複数回実行するように変更している。更に、記録装置内の静止画像ファイル2を複数枚用意し、これらを動画エンコーダ4にて全てIフレームにエンコードした後、データ加工部6にて、順番にIフレームを映像データに取込む。
【0062】
こうして生成される映像データは、図13に示すように、1つの映像データの中に複数のIフレームが埋め込まれており、図1の再生装置11において、静止画像ファイルの内容を、紙芝居的に順次表示させることができる。用意する静止画像ファイルは、カメラの連写機能などを用いて連続撮影した画像を用いることが望ましい。
【0063】
なお、図5〜図7のフローチャートの夫々の最後に、図12に示したステップS8を追加することもできることは明白である。
【0064】
上記各実施例におけるデータ加工部6の動作は、予めその動作手順をプロラムとして記録媒体に格納しておき、これをコンピュータ(CPU)により読取って実行させるようにすることができるものである。
【0065】
【発明の効果】
本発明によれば、所定の動画像符号化方式を用いて符号化された静止画像データに対して、動画再生装置において静止画像の再生を所定時間継続させるための情報を当該動画像符号化方式に応じた形式で付与してファイルを作成するようにしているので、このファイルを動画再生装置で再生する場合、符号化された静止画像データに付与された情報により、静止画像の表示を所定時間継続させることができる。その結果、このファイルとこれに対応する音声データとを多重化することにより得られた動画ファイルを、動画再生装置で再生する場合、音声を再生している間、静止画像の表示を継続して行うことが可能となる。
【0066】
すなわち、再生装置側では、特別の静止画再生機能を付加することなく、音声付きの静止画を再生することができ、また、データ量も、基本的に、1フレーム分のデータと音声データとの和となるために、極めて少なくなり、記録装置側から再生装置側への送信データ量が少なくなり、通信網の輻輳もなくなり、また再生装置側での処理も高速化が図れることになる。
【図面の簡単な説明】
【図1】本発明の一実施例による記録装置及び再生装置の構成を示す図である。
【図2】本発明の一実施例による動画ファイル作成の過程を示す図である。
【図3】一般的な動画ファイルの形式及び一般的なエンコード方式について説明するための図である。
【図4】図1のデータ加工部6によって生成される再生時間擬装映像データの構造の例を示す図である。
【図5】本発明のデータ加工部6の動作の一例を示すフローチャートである。
【図6】本発明のデータ加工部6の動作の他の例を示すフローチャートである。
【図7】本発明のデータ加工部6の動作の更に他の例を示すフローチャートである。
【図8】本発明のデータ加工部6の動作の別の例を示すフローチャートである。
【図9】静止画の種類と動画エンコード方式との対応例を示す図である。
【図10】本発明の他の実施例による記憶装置の構成を示す図である。
【図11】本発明の更に他の実施例による記憶装置の構成を示す図である。
【図12】図11の記憶装置1のデータ加工部6の動作例を示すフローチャートである。
【図13】図12の動作例に従って生成される再生時間擬装映像データの構造の例を示す図である。
【符号の説明】
1 記憶装置
2 静止画像ファイル
3 音声ファイル
4 動画エンコーダ
5 音声エンコーダ
6 データ加工部
7 マルチプレクサ
8 カメラ
9 マイク
10 ネットワーク
11 再生装置
12,21 デマルチプレクサ
13,22 動画デコーダ
14,23 音声デコーダ
15 表示装置
16 スピーカ
24 フレーム抽出部
25 音声切出し部

Claims (25)

  1. 静止画像データを所定の動画像符号化方式により符号化する動画符号化手段と、
    前記動画符号化手段の出力に、前記静止画像データに関連する音声データの再生時間に等しい時間だけ再生時間を伸長する旨の時間伸長情報を、前記動画像符号化方式に応じた形式で付加するデータ加工手段と、
    前記データ加工手段の出力と前記音声データとを多重化して出力する多重化手段と、を含むことを特徴とする画像処理装置。
  2. 前記音声データを所定の音声符号化方式により符号化する音声符号化手段を、更に含むことを特徴とする請求項1記載の画像処理装置。
  3. 前記データ加工手段は、前記音声符号化手段から得られる前記音声データの再生時間に関する情報の供給を受けて、前記時間伸長情報を得ることを特徴とする請求項1記載の画像処理装置。
  4. 前記データ加工手段は、
    前記動画符号化手段の出力から前記静止画データに相当する1フレーム分のデータを抽出し、当該データの後に、前記音声データの再生時間に相当する時間だけ、所定周期で前記時間伸長情報として無効フレームを付加する第一の手段を有することを特徴とする請求項1または2記載の画像処理装置。
  5. 前記データ加工手段は、
    動画符号化手段の出力から前記静止画データに相当する1フレーム分のデータを抽出し、前記音声データの再生時間に相当する時間後に前記時間伸長情報として無効フレームを付加する第二の手段を有することを特徴とする請求項1または2記載の画像処理装置。
  6. 前記データ加工手段は、
    動画符号化手段の出力から前記静止画データに相当する1フレーム分のデータを抽出し、この抽出データに前記時間伸長情報を付加する第三の手段を有することを特徴とする請求項1または2記載の画像処理装置。
  7. 前記データ加工手段は、
    前記動画符号化手段の出力から前記静止画データに相当する1フレーム分のデータを抽出する抽出手段と、
    当該データの後に、前記音声データの再生時間に相当する時間だけ、所定周期で前記時間伸長情報として無効フレームを付加する第一の手段と、
    前記音声データの再生時間に相当する時間後に前記時間伸長情報として無効フレームを付加する第二の手段と、
    この抽出データに前記時間伸長情報を付加する第三の手段と、
    これ等第一〜第三の手段を選択する選択手段と、を含むことを特徴とする請求項1または2記載の画像処理装置。
  8. 前記データ加工手段は、
    前記第一、第二、または第三の手段の処理終了後に、更に所定回数前記第一、第二、または第三の手段の処理を続行制御する手段を、更に有することを特徴とする請求項4〜7いずれか記載の画像処理装置。
  9. 前記静止画像データを生成するカメラと、前記音声データを生成するマイクとを、更に含むことを特徴とする請求項1〜8いずれか記載の画像処理装置。
  10. 携帯電話機であることを特徴とする請求項9記載の画像処理装置。
  11. 音声データが付加された動画像データから所望の静止画像データとそれに関連する音声データとを抽出する手段を、更に含み、この抽出静止画像データを前記加工手段へ供給するようにしたことを特徴とする請求項1〜7いずれか記載の画像処理装置。
  12. 静止画像データを所定の動画像符号化方式により符号化する動画符号化ステップと、
    この符号化出力に、前記静止画像データに関連する音声データの再生時間に等しい時間だけ再生時間を伸長する旨の時間伸長情報を、前記動画像符号化方式に応じた形式で付加するデータ加工ステップと、
    このデータ加工後の出力と前記音声データとを多重化して出力する多重化ステップと、を含むことを特徴とする画像処理方法。
  13. 前記音声データを所定の音声符号化方式により符号化する音声符号化ステップを、更に含むことを特徴とする請求項12記載の画像処理方法。
  14. 前記データ加工ステップは、前記音声符号化ステップから得られる前記音声データの再生時間に関する情報の供給を受けて、前記時間伸長情報を得ることを特徴とする請求項12記載の画像処理方法。
  15. 前記データ加工ステップは、
    前記動画符号化ステップの出力から前記静止画データに相当する1フレーム分のデータを抽出し、当該データの後に、前記音声データの再生時間に相当する時間だけ、所定周期で前記時間伸長情報として無効フレームを付加する第一のステップを有することを特徴とする請求項12または13記載の画像処理方法。
  16. 前記データ加工ステップは、
    動画符号化ステップの出力から前記静止画データに相当する1フレーム分のデータを抽出し、前記音声データの再生時間に相当する時間後に前記時間伸長情報として無効フレームを付加する第二のステップを有することを特徴とする請求項12または13記載の画像処理方法。
  17. 前記データ加工ステップは、
    動画符号化ステップの出力から前記静止画データに相当する1フレーム分のデータを抽出し、この抽出データに前記時間伸長情報を付加する第三のステップを有することを特徴とする請求項12または13記載の画像処理方法。
  18. 前記データ加工ステップは、
    前記動画符号化ステップの出力から前記静止画データに相当する1フレーム分のデータを抽出する抽出ステップと、
    当該データの後に、前記音声データの再生時間に相当する時間だけ、所定周期で前記時間伸長情報として無効フレームを付加する第一のステップと、
    前記音声データの再生時間に相当する時間後に前記時間伸長情報として無効フレームを付加する第二のステップと、
    この抽出データに前記時間伸長情報を付加する第三のステップと、
    これ等第一〜第三のステップを選択する選択ステップと、を含むことを特徴とする請求項12または13記載の画像処理方法。
  19. 前記データ加工ステップは、
    前記第一、第二、または第三のステップの処理終了後に、更に所定回数前記第一、第二、または第三のステップを続行制御するステップを、更に有することを特徴とする請求項15〜18いずれか記載の画像処理方法。
  20. 前記静止画像データをカメラから生成するステップと、前記音声データをマイクから生成するステップとを、更に含むことを特徴とする請求項12〜19いずれか記載の画像処理方法。
  21. 携帯電話機であることを特徴とする請求項20記載の画像処理方法。
  22. 音声データが付加された動画像データから所望の静止画像データとそれに関連する音声データとを抽出するステップを、更に含み、この抽出静止画像データを前記加工ステップへ供給するようにしたことを特徴とする請求項12〜18いずれか記載の画像処理方法。
  23. 静止画像データを所定の動画像符号化方式により符号化する動画符号化手段と、前記動画符号化手段の出力に、前記静止画像データに関連する音声データの再生時間に等しい時間だけ再生時間を伸長する旨の時間伸長情報を、前記動画像符号化方式に応じた形式で付加するデータ加工手段と、前記データ加工手段の出力と前記音声データとを多重化して出力する多重化手段とを含む画像処理装置と、
    前記画像処理装置からの多重化出力を受信して、前記データ加工手段により加工されたデータを前記動画像符号化方式に対応する復号化方式により復号化する動画復号化手段と、前記多重化出力の音声データと前記動画復号化手段と同時再生する手段とを含む再生装置と、を備えてなることを特徴とする画像処理システム。
  24. 静止画像データを所定の動画像符号化方式により符号化する動画符号化手段と、前記動画符号化手段の出力に、前記静止画像データに関連する音声データの再生時間に等しい時間だけ再生時間を伸長する旨の時間伸長情報を、前記動画像符号化方式に応じた形式で付加するデータ加工手段と、前記データ加工手段の出力と前記音声データとを多重化して出力する多重化手段とを含む画像処理装置からの多重化出力を受信して再生する再生装置であって、
    前記データ加工手段により加工されたデータを前記動画像符号化方式に対応する復号化方式により復号化する動画復号化手段と、
    前記多重化出力の音声データと前記動画復号化手段と同時再生する手段と、を含むことを特徴とする再生装置。
  25. 画像処理装置の画像処理動作をコンピュータにより実行させるためのプログラムであって、
    静止画像データを所定の動画像符号化方式により符号化する動画符号化ステップと、
    この符号化出力に、前記静止画像データに関連する音声データの再生時間に等しい時間だけ再生時間を伸長する旨の時間伸長情報を、前記動画像符号化方式に応じた形式で付加するデータ加工ステップと、
    このデータ加工後の出力と前記音声データとを多重化して出力する多重化ステップと、を含むコンピュータ読取り可能なプログラム。
JP2003084034A 2003-03-26 2003-03-26 画像処理装置及びその方法並びにそれを用いた画像処理システム及びプログラム Expired - Fee Related JP4254297B2 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP2003084034A JP4254297B2 (ja) 2003-03-26 2003-03-26 画像処理装置及びその方法並びにそれを用いた画像処理システム及びプログラム
US10/797,026 US20040208481A1 (en) 2003-03-26 2004-03-11 Apparatus and method for image processing, and image processing system using the same and program
EP20040006542 EP1463333A1 (en) 2003-03-26 2004-03-18 Apparatus and method for image, video and audio processing
CNB2004100332253A CN1291596C (zh) 2003-03-26 2004-03-26 图像处理设备和方法以及图像处理***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003084034A JP4254297B2 (ja) 2003-03-26 2003-03-26 画像処理装置及びその方法並びにそれを用いた画像処理システム及びプログラム

Publications (2)

Publication Number Publication Date
JP2004297229A true JP2004297229A (ja) 2004-10-21
JP4254297B2 JP4254297B2 (ja) 2009-04-15

Family

ID=32821476

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003084034A Expired - Fee Related JP4254297B2 (ja) 2003-03-26 2003-03-26 画像処理装置及びその方法並びにそれを用いた画像処理システム及びプログラム

Country Status (4)

Country Link
US (1) US20040208481A1 (ja)
EP (1) EP1463333A1 (ja)
JP (1) JP4254297B2 (ja)
CN (1) CN1291596C (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006165769A (ja) * 2004-12-03 2006-06-22 Nikon Corp デジタルカメラ
US8682133B2 (en) 2006-02-28 2014-03-25 Canon Kabushiki Kaisha Image processing apparatus
US8724959B2 (en) 2006-02-27 2014-05-13 Canon Kabushiki Kaisha Image recording apparatus and image displaying method

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008009140A (ja) * 2006-06-29 2008-01-17 Fujitsu Ltd 画像処理装置および画像処理方法
JP4225339B2 (ja) * 2006-09-11 2009-02-18 ソニー株式会社 画像データ処理装置および方法、プログラム、並びに記録媒体
WO2014072844A1 (en) * 2012-11-09 2014-05-15 Idealounge (Pty) Ltd Audiovisual recordings

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07202820A (ja) * 1993-12-28 1995-08-04 Matsushita Electric Ind Co Ltd ビットレート制御システム
GB2348069B (en) * 1998-12-21 2003-06-11 Ibm Representation of a slide-show as video
JP3569800B2 (ja) * 1998-12-24 2004-09-29 カシオ計算機株式会社 画像処理装置及び画像処理方法
JP3169009B2 (ja) * 1999-02-17 2001-05-21 日本電気株式会社 Mpegデコーダ、mpegシステムデコーダ及びmpegビデオデコーダ
AUPR133700A0 (en) * 2000-11-09 2000-11-30 Mediaware Solutions Pty Ltd Transition templates for compressed digital video and method of generating same
US20030007784A1 (en) * 2001-06-20 2003-01-09 Loui Alexander C. System and method for authoring a multimedia enabled disc

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006165769A (ja) * 2004-12-03 2006-06-22 Nikon Corp デジタルカメラ
JP4552631B2 (ja) * 2004-12-03 2010-09-29 株式会社ニコン デジタルカメラ
US8724959B2 (en) 2006-02-27 2014-05-13 Canon Kabushiki Kaisha Image recording apparatus and image displaying method
US8682133B2 (en) 2006-02-28 2014-03-25 Canon Kabushiki Kaisha Image processing apparatus

Also Published As

Publication number Publication date
EP1463333A1 (en) 2004-09-29
US20040208481A1 (en) 2004-10-21
CN1533171A (zh) 2004-09-29
CN1291596C (zh) 2006-12-20
JP4254297B2 (ja) 2009-04-15

Similar Documents

Publication Publication Date Title
JP5173337B2 (ja) 要約コンテンツ生成装置およびコンピュータプログラム
JP4948147B2 (ja) 複合コンテンツファイルの編集方法および装置
CN103428555B (zh) 一种多媒体文件的合成方法、***及应用方法
US20020154691A1 (en) System and process for compression, multiplexing, and real-time low-latency playback of networked audio/video bit streams
KR100726258B1 (ko) 휴대단말의 사진파일 및 음성파일을 이용한 영상물 제작방법
US20100262913A1 (en) Method and system for editing content in server
JP2004194338A (ja) スライドショーの制作方法およびシステム
JP2009016990A (ja) ストリーム伝送サーバおよびストリーム伝送システム
JP2009218976A (ja) 情報記録装置
KR20070119579A (ko) 화상 처리 방법, 화상 처리 장치, 화상 처리 프로그램 및화상 열람 시스템
US6195503B1 (en) Image and sound recording/reproducing apparatus
JP4804465B2 (ja) 録画装置
JP4254297B2 (ja) 画像処理装置及びその方法並びにそれを用いた画像処理システム及びプログラム
KR101230746B1 (ko) 음악데이터와 동시 출력을 위한 동기화된 영상데이터 생성방법과 그 동기화 출력을 위한 재생 방법
JP2004158913A (ja) 音声画像処理装置
JP2009182721A (ja) データ処理装置及びデータ処理方法並びに電子機器
JPH10276407A (ja) ビデオ情報提供管理方法およびシステム
US9025931B2 (en) Recording apparatus, recording method, and program
JP2008089755A (ja) 文字データ再生装置
JP2010081227A (ja) 動画像復号装置
JP2003078863A (ja) 記録装置およびこれを用いた携帯通信装置
JPWO2010134479A1 (ja) 動画表示装置
JP2005057751A (ja) マルチメディアデータ再生方法,及びマルチメディアデータ再生装置
JP4090293B2 (ja) 動画像再生装置
JP2005051307A (ja) データ編集装置およびデータ編集方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20060213

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20080725

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080805

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080916

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20081021

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20081208

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20090106

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20090119

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120206

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120206

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130206

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130206

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140206

Year of fee payment: 5

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees