JP2017163490A - 画像処理装置及び画像処理方法 - Google Patents
画像処理装置及び画像処理方法 Download PDFInfo
- Publication number
- JP2017163490A JP2017163490A JP2016048647A JP2016048647A JP2017163490A JP 2017163490 A JP2017163490 A JP 2017163490A JP 2016048647 A JP2016048647 A JP 2016048647A JP 2016048647 A JP2016048647 A JP 2016048647A JP 2017163490 A JP2017163490 A JP 2017163490A
- Authority
- JP
- Japan
- Prior art keywords
- audio
- video
- access unit
- chunk
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Television Signal Processing For Recording (AREA)
Abstract
【課題】鑑賞者が違和感を抱くようなずれが画像と音声との間に生じてしまうのを分割後の動画像において防止し得る画像処理装置を提供する。【解決手段】画像符号化部によって生成される複数のビデオアクセスユニットからビデオチャンクを生成し、音声符号化部によって生成される複数のオーディオアクセスユニットからオーディオチャンクを生成し、ビデオチャンクとオーディオチャンクとが交互に配されたストリームデータを生成するストリームデータ生成部を有し、ストリームデータ生成部は、第n番目の前記ビデオチャンクの先頭に位置するビデオアクセスユニットの再生時における出力タイミングに対して、再生時における出力開始タイミングの遅れが第1の所定時間を超えないオーディオアクセスユニットが第n番目のオーディオチャンクの先頭に位置するようにストリームデータを生成する。【選択図】図5
Description
本発明は、画像処理装置及び画像処理方法に関する。
動画像データの規格として、例えばMPEG(Moving Picture Experts Group)規格が知られている(特許文献1参照)。MEPG規格の1つであるMP4規格のファイルは、符号化されたビデオアクセスユニットの集合体であるビデオチャンクと、符号化されたオーディオアクセスユニットの集合体であるオーディオチャンクとが交互に配されたデータ構造を有している。また、生成された動画像ファイルを複数の動画像ファイルに分割する技術も知られている。
しかしながら、従来の技術においては、分割した動画像ファイルを再生した際に、鑑賞者が違和感を抱くようなずれが画像と音声との間に生じる場合があった。
本発明の目的は、鑑賞者が違和感を抱くようなずれが画像と音声との間に生じるのを分割後の動画像において防止し得る画像処理装置及び画像処理方法を提供することにある。
実施形態の一態様によれば、順次入力される画像信号を符号化することによりビデオアクセスユニットを順次生成する画像符号化部と、順次入力される音声信号を符号化することによりオーディオアクセスユニットを順次生成する音声符号化部と、複数の前記ビデオアクセスユニットからビデオチャンクを順次生成し、複数の前記オーディオアクセスユニットからオーディオチャンクを順次生成し、前記ビデオチャンクと前記オーディオチャンクとが交互に配されたストリームデータを生成するストリームデータ生成部とを有し、前記ストリームデータ生成部は、第n番目の前記ビデオチャンクの先頭に位置する前記ビデオアクセスユニットの再生時における出力タイミングに対して、再生時における出力開始タイミングの遅れが第1の所定時間を超えない前記オーディオアクセスユニットが第n番目の前記オーディオチャンクの先頭に位置するように前記ストリームデータを生成し、前記ビデオアクセスユニットの前記再生時は、分割前の前記ストリームデータを再生する際における前記ビデオアクセスユニットの再生時であり、前記オーディオアクセスユニットの前記再生時は、前記分割前のストリームデータを再生する際における前記オーディオアクセスユニットの再生時であることを特徴とする画像処理装置が提供される。
本発明によれば、鑑賞者が違和感を抱くようなずれが画像と音声との間に生じてしまうのを分割後の動画像において防止し得る画像処理装置及び画像処理方法を提供することができる。
以下、本発明の実施の形態について図面を参照しながら説明する。なお、本発明は以下の実施形態に限定されるものではなく、その要旨を逸脱しない範囲において適宜変更可能である。また、以下で説明する図面において、同じ機能を有するものは同一の符号を付し、その説明を省略又は簡潔にすることもある。
[第1実施形態]
第1実施形態による画像処理装置及び画像処理方法を図1乃至図7を用いて説明する。図1は、本実施形態による画像処理装置を示すブロック図である。本実施形態による画像処理装置は、例えば、MP4(MPEG−4)規格の動画像ファイルを生成し、生成した動画像ファイルを記録媒体に記録する撮像装置(デジタルカメラ)である。
第1実施形態による画像処理装置及び画像処理方法を図1乃至図7を用いて説明する。図1は、本実施形態による画像処理装置を示すブロック図である。本実施形態による画像処理装置は、例えば、MP4(MPEG−4)規格の動画像ファイルを生成し、生成した動画像ファイルを記録媒体に記録する撮像装置(デジタルカメラ)である。
本実施形態による画像処理装置111は、音声入力部109と、撮像部110と、音声符号化部101と、moovボックス(movie box)生成部102とを有している。更に、本実施形態による画像処理装置111は、mdatボックス(media data box)生成部103と、画像符号化部104と、メモリ105と、制御部106とを有している。音声符号化部101、moovボックス生成部102、mdatボックス生成部103、画像符号化部104、メモリ105及び制御部106は、バスライン108を介して互いにデータを入出力し得る。音声符号化部101、moovボックス生成部102、mdatボックス生成部103、画像符号化部104、及び、制御部106は、例えば、処理部112の各機能ブロックである。処理部112は、例えばCPU(Centrol Processing Unit)やDSP(Digital Signal Processor)等のプロセッサーによって構成され得る。なお、処理部112は、複数のプロセッサーによって構成されていてもよい。
音声が音声入力部109を介して画像処理装置111に入力されるようになっている。音声入力部109は、音声を所定のサンプリング周波数でサンプリングし、サンプリングによって得られた音声信号(音声データ)を音声符号化部101に出力する。音声入力部109における音声のサンプリング周波数は、例えば48kHzである。
音声符号化部101は、音声入力部109から順次入力される音声信号を所定の数だけ集め、集めた音声信号を所定の符号化方式で符号化することによって、オーディオアクセスユニット(AAU:Audio Access Unit)を順次生成する。1つのオーディオアクセスユニットを生成する際に用いられる音声信号の数は、例えば1024個とする。符号化方式としては、例えば、AAC−LC(Advanced Audio Coding−Low Complexity)が用いられる。音声符号化部101は、生成したオーディオアクセスユニットをメモリ105に格納する。また、音声符号化部101は、メモリ105に格納したオーディオアクセスユニットのサイズについての情報、即ち、オーディオアクセスユニットのサイズ情報を、moovボックス生成部102に出力する。
被写体の光学像が撮像部(撮像素子)110によって順次取得されるようになっている。撮像部110としては、例えばCMOSイメージセンサ等が用いられる。撮像部110は、取得した画像(画像信号、画像データ)を、画像符号化部104に出力する。
画像符号化部104は、撮像部110から順次入力される画像信号を所定の符号化方式で符号化することによってビデオアクセスユニット(VAU:Video Access Unit)を順次生成する。ビデオアクセスユニットとは、1つの画像(フレーム)をデコードするのに必要な情報を含んだデータ単位である。符号化方式としては、例えばH.264/MPEG4−AVC方式が用いられる。画像符号化部104は、IDR(Instantaneous Decoder Refresh)フレームが所定の間隔で出現するように符号化を行う。IDRフレームは、単体で画像を描画することが可能なフレームである。IDRフレーム(IDRピクチャ)は、GOP(Group of Pictures)の境界となるものであり、キーフレームとも称される。画像符号化部104は、生成したビデオアクセスユニットをメモリ105に格納する。また、画像符号化部104は、メモリ105に格納したビデオアクセスユニットのサイズについての情報、即ち、ビデオアクセスユニットのサイズ情報を、moovボックス生成部102に出力する。
mdatボックス生成部103は、メモリ105に格納されたビデオアクセスユニットを複数集めてひとまとまりとすることにより、ビデオアクセスユニットの集合体を生成する。このようなビデオアクセスユニットの集合体は、ビデオチャンクと称される。また、mdatボックス生成部103は、メモリ105に格納されたオーディオアクセスユニットを複数集めてひとまとまりとすることにより、オーディオアクセスユニットの集合体を生成する。このようなオーディオアクセスユニットの集合体は、オーディオチャンクと称される。mdatボックス生成部103は、ビデオチャンクとしてまとめられた複数のビデオアクセスユニットと、オーディオチャンクとしてまとめられた複数のオーディオアクセスユニットとを、メモリ105に格納する。また、mdatボックス生成部103は、ビデオチャンクやオーディオチャンクに関する情報をmoovボックス生成部102に出力する。このように、mdatボックス生成部103は、画像符号化部104によって順次生成される複数のビデオアクセスユニットからビデオチャンクを順次生成する。また、mdatボックス生成部103は、音声符号化部101によって順次生成される複数のオーディオアクセスユニットからオーディオチャンクを順次生成する。また、mdatボックス生成部103は、ビデオチャンクとオーディオチャンクとが交互に配されたストリームデータを後述するようにして生成するストリームデータ生成部として機能する。
moovボックス生成部102は、ビデオアクセスユニットのサイズ情報と、オーディオアクセスユニットのサイズ情報と、ビデオチャンクに関する情報と、オーディオチャンクに関する情報とに基づいて、moovボックス等を生成する。moovボックス生成部102は、生成したmoovボックスをメモリ105に格納する。
制御部106は、記録媒体107に対するデータの書き込みや読み出しを制御する。例えば、制御部106は、メモリ105に格納されたデータを記録媒体107に書き込む。また、制御部106は、記録媒体107から読み出したデータをメモリ105に格納する。記録媒体107としては、例えばフラッシュメモリ等が用いられる。
次に、本実施形態による画像処理装置によって行われるストリームデータの生成処理について図4を用いて説明する。図4は、ストリームデータの生成処理を模式的に示す図である。図4の左側は、記録媒体107内におけるデータの格納状態を模式的に示している。図4の右側は、メモリ105内におけるデータの格納状態を模式的に示している。図4の右側に示すように、メモリ105は、MP4データ格納領域105aとビデオアクセスユニット格納領域105bとオーディオアクセスユニット格納領域105cとを含む。図4の右側は、MP4データ格納領域105aとビデオアクセスユニット格納領域105bとオーディオアクセスユニット格納領域105cのそれぞれにおけるデータの格納状態を模式的に示している。
図示しないユーザインターフェースを介して動画像の撮影開始の指示がユーザによって行われると、moovボックス生成部102は、まず、以下のような処理を行う。図4(a)は、動画像データの記録が開始される前の段階を模式的に示している。図4(a)に示すように、ファイルタイプボックスftypと、ダミーデータを含むmoovボックスと、ダミーデータを含むmdatボックスとが、moovボックス生成部102によって生成される。moovボックス生成部102によって生成されたこれらのボックスは、メモリ105内のMP4データ格納領域105aに格納される。ファイルタイプボックスftypは、動画ファイルの種類(タイプ)を示すボックスであり、動画ファイルの先頭に配さえる。ファイルタイプボックスftypは、当該ファイルタイプボックスftypのサイズを示すサイズフィールドsizeと、当該ファイルタイプボックスftypの種類を示すタイプフィールドtypeと、データフィールドdataとを含む。moovボックスは、当該moovボックスのサイズを示すサイズフィールドと、当該moovボックスの種類を示すタイプフィールドtypeと、データフィールドとを含む。この段階では、moovボックスのサイズフィールドとデータフィールドとには、ダミーデータ(固定値)が暫定的に記録される。なお、図4においては、ダミーデータが記録されたフィールドにはDMYという符号が記載されている。mdatボックスは、当該mdatボックスのサイズを示すサイズフィールドと、当該mdatボックスの種類を示すタイプフィールドtypeとを含む。この段階では、mdatボックスのサイズフィールドには、ダミーデータが暫定的に記録される。また、この段階では、mdatボックスのデータフィールドには、ビデオチャンクとオーディオチャンクとを交互に配したストリームデータは記録されていない。
図4(b)は、動画像データの記録が開始された直後の状態を模式的に示している。画像符号化部104は、撮像部110からの画像信号を符号化することによって、ビデオアクセスユニットVAUを生成する。画像符号化部104は、生成したビデオアクセスユニットVAUと、当該ビデオアクセスユニットVAUのサイズ情報とを、メモリ105内のビデオアクセスユニット格納領域(VAU格納領域)105bに格納する。また、画像符号化部104は、当該ビデオアクセスユニットVAUのサイズ情報を、moovボックス生成部102にも出力する。本実施形態では、画像符号化部104の動作の開始のタイミングと、音声符号化部101の動作の開始のタイミングとは同時に設定されている。このため、画像符号化部104による画像信号の符号化が開始されるのと同時に、音声符号化部101による音声信号の符号化も開始される。音声符号化部101は、音声入力部109からの音声信号を符号化することによって、オーディオアクセスユニットAAUを生成する。音声符号化部101は、生成したオーディオアクセスユニットAAUと、当該オーディオアクセスユニットAAUのサイズ情報(図示せず)とを、メモリ105内のオーディオアクセスユニット格納領域(AAU格納領域)105cに出力する。また、音声符号化部101は、当該オーディオアクセスユニットAAUのサイズ情報を、moovボックス生成部102にも出力する。
mdatボックス生成部103は、図4(c)に示すように、ビデオアクセスユニット格納領域105bに順次蓄積されるビデオアクセスユニットVAUを複数まとめてビデオチャンクVCHを生成する。そして、mdatボックス生成部103は、当該ビデオチャンクVCHをmdatボックスのデータフィールドに記録する。mdatボックス生成部103は、当該ビデオチャンクVCHに関する情報をmoovボックス生成部102に出力する。また、mdatボックス生成部103は、図4(c)に示すように、オーディオアクセスユニット格納領域105cに順次蓄積されるオーディオアクセスユニットAAUを複数まとめてオーディオチャンクACHを生成する。そして、mdatボックス生成部103は、当該オーディオチャンクACHをmdatボックスのデータフィールドに記録する。mdatボックス生成部103は、当該オーディオチャンクACHに関する情報をmoovボックス生成部102に出力する。
なお、複数のビデオアクセスユニットVAUをまとめてビデオチャンクVCHを生成する際の詳細、及び、複数のオーディオアクセスユニットAAUをまとめてオーディオチャンクACHを生成する際の詳細については、後述することとする。
画像符号化部104によって順次生成されるビデオアクセスユニットVAUは、図4(d)に示すように、順次複数まとめられてビデオチャンクVCHとされ、mdatボックスのデータフィールドに順次記録される。また、音声符号化部101によって順次生成されるオーディオアクセスユニットAAUは、図4(d)に示すように、順次複数まとめられてオーディオチャンクACHとされ、mdatボックスのデータフィールドに順次記録される。これらビデオチャンクVCH及びオーディオチャンクACHは、mdatボックスのデータフィールドに交互に記録される。動画像の撮影が終了するまで、このような処理が繰り返し行われる。動画像データの生成が進行するに伴って、生成済みの動画像データが制御部106によってメモリ105内から記録媒体107内に順次転送される。図4(d)は、生成済みの動画データの一部がメモリ105内から記録媒体107内に転送された状態を概念的に示している。
画像符号化部104によって順次生成されるビデオアクセスユニットVAUは、図4(d)に示すように、順次複数まとめられてビデオチャンクVCHとされ、mdatボックスのデータフィールドに順次記録される。また、音声符号化部101によって順次生成されるオーディオアクセスユニットAAUは、図4(d)に示すように、順次複数まとめられてオーディオチャンクACHとされ、mdatボックスのデータフィールドに順次記録される。これらビデオチャンクVCH及びオーディオチャンクACHは、mdatボックスのデータフィールドに交互に記録される。動画像の撮影が終了するまで、このような処理が繰り返し行われる。動画像データの生成が進行するに伴って、生成済みの動画像データが制御部106によってメモリ105内から記録媒体107内に順次転送される。図4(d)は、生成済みの動画データの一部がメモリ105内から記録媒体107内に転送された状態を概念的に示している。
動画像の撮影の終了の指示が図示しないユーザインターフェースを介してユーザによって行われると、画像符号化部104は画像信号の符号化を終了し、音声符号化部101は音声信号の符号化を終了する。図4(e)は、生成済みのすべてのビデオアクセスユニットVAU及びオーディオアクセスユニットAAUがmdatボックスのデータフィールドにビデオチャンクやオーディオチャンクとして記録された直後の状態を模式的に示している。図4(f)は、メモリ105内から記録媒体107内への画像データの転送が完了し、画像データの全体が記録媒体107内に格納されている状態を示している。
メモリ105内から記録媒体107内への画像データの転送が完了すると、画像データに含まれているダミーデータDMYを実データに更新するための処理が以下のようにして行われる。moovボックスのサイズフィールド及びデータフィールドにはダミーデータが記録され、mdatボックスのサイズフィールドにもダミーデータが記録されている。制御部106は、moovボックスのサイズフィールド、タイプフィールド及びデータフィールドにそれぞれ記録されているデータと、mdatボックスのサイズフィールドに記録されているデータとを、記録媒体107内から読み出す。そして、制御部106は、読み出したこれらのデータを図4(g)に示すようにメモリ105に格納する。
ビデオアクセスユニットやオーディオアクセスユニットのサイズ情報や、ビデオチャンクやオーディオチャンクに関する情報等に基づいて、moovボックスのサイズフィールドに記録されるべきデータがmoovボックス生成部102によって生成される。こうして生成されたデータによって、図4(h)に示すように、moovボックスのサイズフィールドがMP4データ格納領域105a内において更新される。また、ビデオアクセスユニットやオーディオアクセスユニットのサイズ情報や、ビデオチャンクやオーディオチャンクに関する情報に基づいて、moovボックスのデータフィールドに記録されるべきデータがmoovボックス生成部102によって生成される。こうして生成されたデータによって、図4(h)に示すように、moovボックスのデータフィールドがMP4データ格納領域105a内において更新される。ビデオアクセスユニットやオーディオアクセスユニットのサイズ情報や、ビデオチャンクやオーディオチャンクに関する情報に基づいて、mdatボックスのサイズフィールドに記録されるべきデータがmoovボックス生成部102によって生成される。こうして生成されたデータによって、図4(h)に示すように、mdatボックスのサイズフィールドがMP4データ格納領域105a内において更新される。
制御部106は、MP4データ格納領域105a内において更新されたmoovボックスのサイズフィールドのデータによって、図4(i)に示すように、記録媒体107内に記録された画像データのmoovボックスのサイズフィールドを更新(上書き)する。また、制御部106は、MP4データ格納領域105a内において更新されたmoovボックスのデータフィールドのデータによって、図4(i)に示すように、記録媒体107内に記録された画像データのmoovボックスのデータフィールドを更新する。また、制御部106は、MP4データ格納領域105a内において更新されたmdatボックスのサイズフィールドのデータによって、図4(i)に示すように、記録媒体107内に記録された画像データのmdatボックスのサイズフィールドを更新する。こうして、ダミーデータDMYが実データに更新され、ストリームデータを含むMP4ファイルが完成し、動画像データの記録の処理が完了する。
図2は、MP4ファイルの分割を模式的に示す図である。図2(a)は、分割前におけるMP4ファイルを模式的に示している。ここでは、チャンクの再構成処理を行うことなくMP4ファイルを分割する場合を例に説明する。なお、チャンクの再構成処理を行うことなくMP4ファイルを分割するのは、短時間でMP4ファイルを分割することを可能とするためである。MP4ファイルの分割の処理は、画像処理装置、より具体的にはデジタルカメラ等によって行うことができる。MP4ファイルの分割においては、いずれかのビデオチャンクVCHの先頭に位置しているビデオアクセスユニットVAUの箇所が、分割基準点Pとして指定される。かかる分割基準点Pの指定は、表示部(図示せず)によってユーザが画像を確認しながら、ユーザインターフェース(図示せず)を介して行われる。分割基準点Pが指定されると、図2(b)に示すように、当該ビデオアクセスユニットVAUを先頭とするユニット群と、当該ビデオアクセスユニットVAUよりも前に位置するユニット群とに、MP4ファイルが分割される。図2(b)の左側は、分割後における先行側のMP4ファイルを示しており、図2(b)の右側は、分割後における後続側のMP4ファイルを示している。
MP4ファイルの分割における課題について図3を用いて説明する。図3は、MP4ファイルの分割における課題を説明するための図である。図3(a)は、MP4ファイルを分割する前の段階を模式的に示している。図3(a)の上側は、MP4ファイルにおけるビデオチャンクVCHとオーディオチャンクACHの配置を模式的に示している。図3(a)の下側は、各々のビデオアクセスユニットVAUの画像の再生時における出力タイミングと、各々のオーディオアクセスユニットAAUの音声の再生時における出力開始タイミングとを模式的に示している。図3(a)の下側に示すように、1つのビデオアクセスユニットVAUに対応する1フレームの画像の出力時間と、1つのオーディオアクセスユニットAAUに対応する音声の出力時間とは、互いに異なっている。例えば、29.97fpsの動画像においては、1つのビデオアクセスユニットVAUに対応する1フレームの画像の出力時間は約33.3msecである。一方、例えば48kHzサンプリングのAAC(ISO/IEC 14496−3 Advanced Audio Coding)においては、1つのオーディオアクセスユニットAAUに対応する音声の出力時間は約21.3msecである。このため、MP4ファイルの先頭以外においては、ビデオチャンクの先頭に位置するビデオアクセスユニットの出力タイミングとオーディオチャンクの先頭に位置するオーディオアクセスユニットの出力開始タイミングとが一致することは殆どない。
図3(b)は、MP4ファイルを分割した後の状態を模式的に示している。図3(b)の左側は、分割後における先行側のMP4ファイルを示しており、図3(b)の右側は、分割後における後続側のMP4ファイルを示している。図3(b)の右側に示された後続側のMP4ファイルを単に再生した場合には、画像が撮影されたタイミングに対して遅いタイミングで取得された音声が当該画像にとともに表示されてしまう。このような場合には、鑑賞者に違和感を抱かせてしまう場合がある。
ところで、このような画像と音声とのずれを解消するための手段として、MP4規格にはedtsボックスが規定されている。図3(c)は、edtsボックスを模式的に示している。edtsボックスに基づく処理を行い得る再生機器においては、edtsボックスに記録された情報に応じた期間の無音が、図3(d)の左側に示すように、音声の冒頭に挿入され、画像と音声とのずれが解消される。
しかしながら、edtsボックスはMP4規格における任意の項目であるため、再生機器によってはedtsボックスに基づく処理が行われない場合がある。edtsボックスに基づく処理が行われない再生機器においては、かかる無音の挿入は行われず、音声と画像とのずれを補償し得ない。図3(d)の右側に示すように、後続側のMP4ファイルの先頭に位置するビデオアクセスユニットにおける出力タイミングと、当該MP4ファイルの先頭に位置するオーディオアクセスユニットにおける出力開始タイミングとが同じとなる。図3(d)の右側に示すケースにおいては、画像が撮影されたタイミングに対して遅いタイミングで取得された音声が当該画像にとともに表示されてしまい、鑑賞者に違和感を抱かせてしまうこととなる。
本実施形態による画像処理装置は、edtsボックスに基づいた処理が行われない再生機器で分割後の動画像ファイルを再生する場合においても、鑑賞者に違和感を抱かせるのを防止し得る動画像ファイルを生成するものである。
次に、本実施形態による画像処理装置によって行われるビデオチャンク及びオーディオチャンクの生成について図5乃至図7を用いて説明する。
図5は、第n番目のビデオチャンクの先頭に位置するビデオアクセスユニットの再生時における出力タイミングと、第n番目のオーディオチャンクの先頭に位置するオーディオアクセスユニットの再生時における出力開始タイミングとの関係を示す図である。図5(a)に示すように、各々のビデオチャンクVCHには、複数のビデオアクセスユニットVAUが含まれている。“VCH”の後の括弧内の文字は、第何番目のビデオチャンクであるかを示している。例えば、“VCH(n)”は、第n番目のビデオチャンクであるかを示している。“VAU”の後の括弧内の文字は、第何番目のビデオアクセスユニットであるかを示している。例えば、“VAU(m)”は、第m番目のビデオアクセスユニットであることを示している。図5(a)における“t1”は、各々のビデオアクセスユニットにおける再生時の出力タイミングを示している。“t1”の後の括弧内の文字は、第何番目のビデオアクセスユニットにおける出力タイミングであるかを示している。例えば、t1(m)は、第m番目のビデオアクセスユニットにおける再生時の出力タイミングを示している。
図5(b)乃至図5(d)に示すように、各々のオーディオチャンクACHには、複数のオーディオアクセスユニットAAUが含まれている。“ACH”の後の括弧内の文字は、第何番目のオーディオチャンクであるかを示している。例えば“ACH(n)”は、第n番目のオーディオチャンクであることを示している。“AAU”の後の括弧内の文字は、第何番目のオーディオアクセスユニットであるかを示している。“AAU(l)”は、第l番目のオーディオアクセスユニットであることを示している。例えば、図5(b)乃至図5(d)における“t2”は、各々のオーディオアクセスユニットに対応する音声の出力開始タイミングをそれぞれ示している。“t2”の後の括弧内の文字は、第何番目のオーディオアクセスユニットに対応する音声の出力開始タイミングであるかを示している。
画像が表示されるタイミングよりも遅いタイミングで、当該画像に対応する音声がスピーカから発せられる場合には、鑑賞者は違和感を抱きにくい。一方、画像が表示されるタイミングよりも早いタイミングで、当該画像に対応する音声がスピーカから発せられる場合には、両者のタイミングのずれが比較的小さい場合であっても、鑑賞者は違和感を抱きやすい。具体的には、画像が表示されるタイミングよりも早いタイミングで当該画像に対応する音声がスピーカから発せられる場合、両者のタイミングのずれが2msec以下の場合には鑑賞者は違和感を抱きにくいが、2msecを超えると鑑賞者は違和感を抱きやすい。
本実施形態は、上記のような傾向があることに着目し、edtsボックスに基づく処理が行われない場合であっても、動画像の鑑賞者に抱かせる違和感を低減し得るものである。edtsボックスに基づく処理が行われない場合であっても、鑑賞者に違和感を抱かせないようにするためには、以下のような条件を満たすようにビデオチャンクVCHとオーディオチャンクとを生成すればよい。
ビデオアクセスユニットVAU(m)は、第n番目のビデオチャンクVCH(n)に含まれる複数のビデオアクセスユニットVAUのうちの先頭のビデオアクセスユニットである。即ち、ビデオアクセスユニットVAU(m)は、第n番目のビデオチャンクVCH(n)に含まれる複数のビデオアクセスユニットVAUのうちの最も早く再生されるビデオアクセスユニットである。オーディオアクセスユニットAAU(l)は、第n番目のオーディオチャンクACHに含まれる複数のオーディオアクセスユニットAAUのうちの先頭のオーディオアクセスユニットである。即ち、オーディオアクセスユニットAAU(l)は、第n番目のオーディオチャンクACHに含まれる複数のオーディオアクセスユニットAAUのうちの最も早く再生されるオーディオアクセスユニットである。
ビデオアクセスユニットVAU(m)に対応する画像の再生時における出力タイミングをt1(m)とする。オーディオアクセスユニットAAU(l)に対応する音声の再生時における出力タイミングをt2(l)とする。出力タイミングt2(l)が出力タイミングt1(m)よりも遅いにもかかわらず、これらのビデオアクセスユニット及びオーディオアクセスユニットを同時に再生した場合には、音声が出力されるタイミングが、画像が表示されるタイミングよりも早くなる。このような場合には、上述したように、鑑賞者は違和感を抱きやすい。しかしながら、このような場合であっても、出力タイミングt1(m)と出力タイミングt2(l)とのずれが第1の所定時間ΔT1以下であれば、鑑賞者は違和感を抱きにくい。従って、以下のような式(1)を満たすようなオーディオアクセスユニット(l)が第n番目のオーディオチャンクACH(n)の先頭に配される。なお、第1の所定時間ΔT1は、例えば2msec程度である。
t2(l)−t1(m)≦ΔT1 ・・・(1)
t2(l)−t1(m)≦ΔT1 ・・・(1)
画像が表示されるタイミングよりも音声が出力されるタイミングの方が遅い場合には、鑑賞者は違和感を抱きにくい。従って、再生時における画像の出力タイミングよりも再生時における音声の出力開始タイミングの方が遅くなるようなオーディオアクセスユニット(l)を第n番目のオーディオチャンクACH(n)の先頭に配してもよい。この場合には、以下のような式(2)を満たすようなオーディオアクセスユニット(l)が第n番目のオーディオチャンクACH(n)の先頭に配される。
t1(m)−t2(l)<ΔT2−ΔT1 ・・・(2)
t1(m)−t2(l)<ΔT2−ΔT1 ・・・(2)
ここで、ΔT2は、第2の所定時間であり、1つのオーディオアクセスユニットAAUに対応する音声の再生時における出力時間である。第2の所定時間ΔT2は、具体的には、例えば21msec程度である。上述した第1の所定時間ΔT1は、第2の所定時間ΔT2よりも短い。
式(1)を変形すると、以下のような式(3)になる。
t2(l)−ΔT1≦t1(m) ・・・(3)
式(2)を変形すると、以下のような式(4)になる。
t1(m)<t2(l)+(ΔT2−ΔT1) ・・・(4)
式(3)と式(4)とを組み合わせると、以下のような式(5)が成立する。
t2(l)−ΔT1≦t1(m)<t2(l)+(ΔT2−ΔT1) ・・・(5)
t2(l)−ΔT1≦t1(m) ・・・(3)
式(2)を変形すると、以下のような式(4)になる。
t1(m)<t2(l)+(ΔT2−ΔT1) ・・・(4)
式(3)と式(4)とを組み合わせると、以下のような式(5)が成立する。
t2(l)−ΔT1≦t1(m)<t2(l)+(ΔT2−ΔT1) ・・・(5)
式(5)に示す関係を満たすオーディオアクセスユニットAAU(l)を第n番目のオーディオチャンクの先頭に配すれば、edtsボックスに基づく処理が行われない再生機器で再生した場合においても鑑賞者に違和感を抱かせるのを防止し得る。従って、本実施形態では、式(5)に示す関係を満たすオーディオアクセスユニットAAU(l)を第n番目のオーディオチャンクの先頭に配する。
図5(c)は、(t2(l)−t1(m))が第1の所定時間ΔT1に合致している場合を示している。図5(c)は、edtsボックスに基づく処理が行われない再生機器で再生した場合に音声が画像よりも早くなってしまう限界に対応している。
図5(d)は、(t1(m)−t2(l))が(ΔT2−ΔT1)よりもわずかに小さい場合を示している。図5(d)は、edtsボックスに基づく処理が行われない再生機器で再生した場合に音声が画像よりも遅くなってしまう限界に対応している。
図6は、本実施形態による画像処理装置によって行われるストリームデータの生成処理を示すフローチャートである。図7は、本実施形態による画像処理装置によって行われるストリームデータの生成処理を模式的に示す図である。ここでは、説明の簡略化のため、ビデオアクセスユニットVAU(0)、VAU(2)、VAU(4)が、IDRフレームに対応するビデオアクセスユニットであるものとして説明する。また、ビデオアクセスユニットVAU(1)、VAU(3)、VAU(5)が、IDRフレームではないフレームに対応するビデオアクセスユニットであるものとして説明する。
まず、ステップS601において、チャンクの管理番号nを0に初期化する
ステップS602では、mdatボックスの生成処理が最終段階に至ったか否かが判断される。mdatボックスの生成処理が最終段階に至ったか否かは、ビデオチャンクに未登録のIDRビデオアクセスユニットが1つだけ残っているか否かによって判断される。IDRビデオアクセスユニットとは、IDRフレームに対応するビデオアクセスユニットのことである。ビデオチャンクに未登録のIDRビデオアクセスユニットがビデオアクセスユニット格納領域105b内に複数存在する場合には(ステップS602においてNO)、mdatボックスの生成処理は最終段階に至っていない。この場合には、ステップS603に移行する。一方、ビデオチャンクに未登録のIDRビデオアクセスユニットが1つだけ残っている場合(ステップS602においてYES)には、mdatボックスの生成処理は最終段階に至っている。この場合には、ステップS606に移行する。
ステップS602では、mdatボックスの生成処理が最終段階に至ったか否かが判断される。mdatボックスの生成処理が最終段階に至ったか否かは、ビデオチャンクに未登録のIDRビデオアクセスユニットが1つだけ残っているか否かによって判断される。IDRビデオアクセスユニットとは、IDRフレームに対応するビデオアクセスユニットのことである。ビデオチャンクに未登録のIDRビデオアクセスユニットがビデオアクセスユニット格納領域105b内に複数存在する場合には(ステップS602においてNO)、mdatボックスの生成処理は最終段階に至っていない。この場合には、ステップS603に移行する。一方、ビデオチャンクに未登録のIDRビデオアクセスユニットが1つだけ残っている場合(ステップS602においてYES)には、mdatボックスの生成処理は最終段階に至っている。この場合には、ステップS606に移行する。
ステップS603では、ビデオチャンクに未登録のビデオアクセスユニットのうちから以下のようなビデオアクセスユニットが選択され、選択されたビデオアクセスユニットが第n番目のビデオチャンクに登録される。ビデオチャンクに未登録のビデオアクセスユニットのうちの先頭のIDRビデオアクセスユニットは、第n番目のビデオチャンクの先頭に登録すべきビデオアクセスユニットである。未登録のビデオアクセスユニットのうちの先頭のIDRビデオアクセスユニットの次のIDRビデオアクセスユニットの直前のビデオアクセスユニットは、第n番目のビデオチャンクの最後尾に登録すべきビデオアクセスユニットである。そして、第n番目のビデオチャンクの先頭に登録すべきビデオアクセスユニットから第n番目のビデオチャンクの最後尾に登録すべきビデオアクセスユニットまでが、第n番目のビデオチャンクに登録される。図7(a)に示す例においては、ビデオチャンクに未登録のビデオアクセスユニットのうちの先頭のIDRビデオアクセスユニットは、ビデオアクセスユニットVAU(0)である。当該ビデオアクセスユニットVAU(0)の次のIDRビデオアクセスユニットは、ビデオアクセスユニットVAU(2)である。ビデオアクセスユニットVAU(2)の直前のビデオアクセスユニットは、ビデオアクセスユニットVAU(1)である。従って、この場合には、ビデオアクセスユニットVAU(0)とビデオアクセスユニットVAU(1)とが、図7(c)に示すように、第0番目のビデオチャンクVCH(0)に順次登録される。
ステップS604では、オーディオチャンクに未登録のオーディオアクセスユニットのうちから以下のようなオーディオアクセスユニットが選択され、選択されたオーディオアクセスユニットが第n番目のオーディオチャンクに登録される。オーディオチャンクに未登録のオーディオアクセスユニットのうちの先頭のオーディオアクセスユニットは、第n番目のビデオチャンクの先頭のビデオアクセスユニットに対して上述した式(5)の関係を満たしている。nが0の場合には、第0番目のビデオチャンクの先頭のビデオアクセスユニットの再生時における出力タイミングと、第0番目のオーディオチャンクの先頭のオーディオアクセスユニットの再生時における出力タイミングとが一致しているためである。また、nが0より大きい場合には、第n−1番目のオーディオチャンクを生成する際に、上述した式(5)を満たすように第n−1番目のオーディオチャンクにオーディオアクセスユニットが登録されたためである。従って、オーディオチャンクに未登録のオーディオアクセスユニットのうちの先頭のオーディオアクセスユニットは、第n番目のオーディオチャンクの先頭に登録されるべきオーディオアクセスユニットである。第n+1番目のビデオチャンクの先頭のビデオアクセスユニットに対して上述した式(5)の関係を満たすオーディオアクセスユニットは、第n+1番目のオーディオチャンクの先頭に登録すべきオーディオアクセスユニットである。従って、当該第n+1番目のオーディオチャンクの先頭に登録すべきオーディオアクセスユニットの直前のオーディオアクセスユニットが、第n番目のオーディオチャンクの最後尾に登録されるべきオーディオアクセスユニットである。第n番目のオーディオチャンクの先頭に登録すべきオーディオアクセスユニットから第n番目のオーディオチャンクの最後尾に登録すべきオーディオアクセスユニットまでが、第n番目のオーディオチャンクに登録される。図7(b)に示す例においては、オーディオチャンクに未登録のオーディオアクセスユニットのうちの先頭のオーディオアクセスユニットは、オーディオアクセスユニットAAU(0)である。第0番目のビデオチャンクに登録されたIDRビデオアクセスユニットVAU(0)の次のIDRビデオアクセスユニットは、ビデオアクセスユニットVAU(2)である。ビデオアクセスユニットVAU(2)に対して上述した式(5)の関係を満たすオーディオアクセスユニットは、オーディオアクセスユニットAAU(2)である。当該オーディオアクセスユニットAAU(2)の直前のオーディオアクセスユニットは、オーディオアクセスユニットAAU(1)である。従って、この場合には、オーディオアクセスユニットAAU(0)とオーディオアクセスユニットAAU(1)とが、図7(d)に示すように、第0番目のオーディオチャンクACH(0)に順次登録される。
ステップS605では、チャンクの管理番号nをインクリメントし、ステップS602に戻る。この後、上記と同様の処理が繰り返し行われる。図7(e)に示す例においては、ビデオチャンクに未登録のビデオアクセスユニットのうちの先頭のIDRビデオアクセスユニットは、ビデオアクセスユニットVAU(2)である。当該ビデオアクセスユニットVAU(2)の次のIDRビデオアクセスユニットは、ビデオアクセスユニットVAU(4)である。ビデオアクセスユニットVAU(4)の直前のビデオアクセスユニットは、ビデオアクセスユニットVAU(3)である。従って、この場合には、ビデオアクセスユニットVAU(2)とビデオアクセスユニットVAU(3)とが、図7(g)に示すように、第1番目のビデオチャンクVCH(1)に順次登録される。図7(f)に示す例においては、オーディオチャンクに未登録のオーディオアクセスユニットのうちの先頭のオーディオアクセスユニットは、オーディオアクセスユニットAAU(2)である。第1番目のビデオチャンクに登録されたIDRビデオアクセスユニットVAU(2)の次のIDRビデオアクセスユニットは、ビデオアクセスユニットVAU(4)である。ビデオアクセスユニットVAU(4)に対して上述した式(5)の関係を満たすオーディオアクセスユニットは、オーディオアクセスユニットAAU(5)である。当該オーディオアクセスユニットAAU(5)の直前のオーディオアクセスユニットは、オーディオアクセスユニットAAU(4)である。従って、この場合には、オーディオアクセスユニットAAU(2)からオーディオアクセスユニットAAU(4)までが、図7(h)に示すように、第1番目のオーディオチャンクACH(1)に順次登録される。
ビデオチャンクに未登録のIDRビデオアクセスユニットが1つだけになった場合(ステップS602においてYES)には、ステップS606に移行する。ステップS606では、ビデオチャンクに未登録の全てのビデオアクセスユニットが第n番目(最後尾)のビデオチャンクに登録される。図7(i)に示す例においては、ビデオチャンクに未登録のビデオアクセスユニットは、ビデオアクセスユニットVAU(4)及びビデオアクセスユニットVAU(5)である。従って、この場合には、ビデオアクセスユニットVAU(4)とビデオアクセスユニットVAU(5)とが、図7(k)に示すように、第n番目(最後尾)のビデオチャンクVCH(2)に登録される。
ステップS607では、オーディオチャンクに未登録の全てのオーディオアクセスユニットが、最後尾のオーディオチャンクに登録される。図7(j)に示す例においては、オーディオチャンクに未登録のオーディオアクセスユニットは、オーディオアクセスユニットAAU(5)からオーディオアクセスユニットAAU(7)までである。従って、この場合には、オーディオアクセスユニットAAU(5)からオーディオアクセスユニットAAU(7)までが、図7(l)に示すように、最後尾のオーディオチャンクACH(2)に登録される。
こうして、mdatボックスのデータフィールドへのストリームデータの登録が完了する。
こうして、mdatボックスのデータフィールドへのストリームデータの登録が完了する。
このように、本実施形態では、以下のようなオーディオアクセスユニットが第n番目のオーディオチャンクの先頭に配される。第n番目のビデオチャンクの先頭に位置するビデオアクセスユニットの再生時の出力タイミングに対して、再生時の出力開始タイミングの遅れが第1の所定時間を超えないオーディオアクセスユニットが第n番目のオーディオチャンクの先頭に配される。このため、分割された動画像をedtsボックスに基づいた処理が行われない再生機器で再生した場合においても、音声に対する画像の遅れが第1の所定時間を超えることはない。音声に対する画像の遅れが第1の所定時間以下であれば、鑑賞者は違和感を抱きにくい。従って、本実施形態によれば、鑑賞者が違和感を抱くようなずれが画像と音声との間に生じてしまうのを分割後の動画像において防止し得る画像処理装置を提供することができる。
[第2実施形態]
第2実施形態による画像処理装置及び画像処理方法について図8及び図9を用いて説明する。第1実施形態では、画像符号化部104の動作の開始のタイミングと、音声符号化部101の動作の開始のタイミングとが一致している場合を例に説明した。本実施形態による画像処理装置は、画像符号化部104の動作の開始のタイミングよりも、音声符号化部101の動作の開始のタイミングの方が早いものである。なお、本実施形態による画像処理装置の構成は、第1実施形態による画像処理装置及び画像処理方法と同様であるため、説明を省略する。
第2実施形態による画像処理装置及び画像処理方法について図8及び図9を用いて説明する。第1実施形態では、画像符号化部104の動作の開始のタイミングと、音声符号化部101の動作の開始のタイミングとが一致している場合を例に説明した。本実施形態による画像処理装置は、画像符号化部104の動作の開始のタイミングよりも、音声符号化部101の動作の開始のタイミングの方が早いものである。なお、本実施形態による画像処理装置の構成は、第1実施形態による画像処理装置及び画像処理方法と同様であるため、説明を省略する。
本実施形態では、図示しないユーザインターフェースによって動画像の撮影がユーザによって指示されると、音声符号化部101による音声信号の符号化が、画像符号化部104による画像信号の符号化よりも先に開始される。具体的には、画像符号化部104の動作の開始のタイミングよりも第3の所定時間ΔT3だけ早いタイミングで、音声符号化部101の動作が開始される。なお、本実施形態による画像処理装置は、符号化の動作の開始のタイミングがずれている点以外は、第1実施形態による画像処理装置と同様である。ここで、第3の所定時間ΔT3は、例えば、1つのオーディオアクセスユニットAAUに対応する音声の出力時間とすることができ、例えば、約21msec程度である。第3の所定時間ΔT3は、上述した第2の所定時間ΔT2以下とする。
図8は、本実施形態による画像処理装置によって行われるストリームデータの生成処理を示すフローチャートである。図9は、本実施形態による画像処理装置によって行われるストリームデータの生成処理を模式的に示す図である。ここでは、説明の簡略化のため、第1実施形態と同様に、ビデオアクセスユニットVAU(0)、VAU(2)、VAU(4)が、IDRフレームに対応するビデオアクセスユニットであるものとして説明する。また、第1実施形態と同様に、ビデオアクセスユニットVAU(1)、VAU(3)、VAU(5)が、IDRフレームではないフレームに対応するビデオアクセスユニットであるものとして説明する。
まず、ステップS801及びステップS802は、第1実施形態において上述したステップS601及びステップS602と同様であるため、説明を省略する。
ステップS803は、第1実施形態において上述したステップS603と同様である。即ち、ステップ803では、ビデオチャンクに未登録のビデオアクセスユニットのうちから以下のようなビデオアクセスユニットが選択され、選択されたビデオアクセスユニットが第n番目のビデオチャンクに登録される。ビデオチャンクに未登録のビデオアクセスユニットのうちの先頭のIDRビデオアクセスユニットは、第n番目のビデオチャンクの先頭に登録すべきビデオアクセスユニットである。未登録のビデオアクセスユニットのうちの先頭のIDRビデオアクセスユニットの次のIDRビデオアクセスユニットの直前のビデオアクセスユニットは、第n番目のビデオチャンクの最後尾に登録すべきビデオアクセスユニットである。そして、第n番目のビデオチャンクの先頭に登録すべきビデオアクセスユニットから第n番目のビデオチャンクの最後尾に登録すべきビデオアクセスユニットまでが、第n番目のビデオチャンクに登録される。図9(a)に示す例においては、ビデオチャンクに未登録のビデオアクセスユニットのうちの先頭のIDRビデオアクセスユニットは、ビデオアクセスユニットVAU(0)である。当該ビデオアクセスユニットVAU(0)の次のIDRビデオアクセスユニットは、ビデオアクセスユニットVAU(2)である。ビデオアクセスユニットVAU(2)の直前のビデオアクセスユニットは、ビデオアクセスユニットVAU(1)である。従って、この場合には、ビデオアクセスユニットVAU(0)とビデオアクセスユニットVAU(1)とが、図9(c)に示すように、第0番目のビデオチャンクVCH(0)に順次登録される。
ステップS804では、オーディオチャンクに未登録のオーディオアクセスユニットのうちから以下のようなオーディオアクセスユニットが選択され、選択されたオーディオアクセスユニットが第n番目のオーディオチャンクに登録される。本実施形態では、以下のような式(6)を満たすように、第n番目のオーディオチャンクにオーディオアクセスユニットが登録される。
S2(n)−S1(n)<ΔT1+ΔT3・・・(6)
S2(n)−S1(n)<ΔT1+ΔT3・・・(6)
ここで、S1(n)は、第n番目のビデオチャンクよりも前に位置する全てのビデオチャンクに含まれるビデオアクセスユニットの総出力時間である。即ち、S1(n)は、第0番目のビデオチャンクの先頭のビデオアクセスユニットから第n−1番目のビデオチャンクの最後尾のビデオアクセスユニットまでの総出力時間である。また、S2(n)は、第n番目のオーディオチャンクよりも前に位置する全てのオーディオチャンクに含まれるビデオアクセスユニットの総出力時間である。即ち、S2(n)は、第0番目のオーディオチャンクの先頭のオーディオアクセスユニットから第n−1番目のオーディオチャンクの最後尾のオーディオアクセスユニットまでの総出力時間である。上述したように、第1の所定時間ΔT1は、音声が出力されるタイミングが、画像が表示されるタイミングよりも早くなった場合であっても、鑑賞者に違和感を抱かせないような時間に対応している。第3の所定時間ΔT3は、音声符号化部101の動作の開始のタイミングに対する画像符号化部104の動作の開始のタイミングの遅れである。上述したように、第3の所定時間ΔT3は、例えば1つのオーディオアクセスユニットAAUに対応する音声の記録時間(出力時間)とすることができる。ΔT1とΔT3との間には、以下のような式(7)が成立する。
ΔT1<ΔT3 ・・・(7)
ΔT1<ΔT3 ・・・(7)
式(6)のような関係が成立するようにすれば、画像符号化部104による画像信号の符号化の開始のタイミングが、音声符号化部101による音声信号の符号化の開始のタイミングより第3の所定時間だけ遅くても、以下のようになる。第n番目のビデオチャンクの先頭に位置するビデオアクセスユニットの再生時の出力タイミングに対して、再生時の出力開始タイミングの遅れが第1の所定時間を超えないオーディオアクセスユニットが第n番目のオーディオチャンクの先頭に配される。
図9(b)に示す例においては、オーディオチャンクに未登録のオーディオアクセスユニットのうちの先頭のオーディオアクセスユニットは、オーディオアクセスユニットAAU(0)である。上述した式(6)の関係を満たすような第n番目のオーディオチャンクにおける最後尾のオーディオアクセスユニットは、オーディオアクセスユニットAAU(2)である。従って、この場合には、オーディオアクセスユニットAAU(0)からオーディオアクセスユニットAAU(2)までが、図9(d)に示すように、第0番目のオーディオチャンクACH(0)に順次登録される。
ステップS805では、チャンクの管理番号nをインクリメントし、ステップS802に戻る。
ステップS805では、チャンクの管理番号nをインクリメントし、ステップS802に戻る。
この後、上記と同様の処理が繰り返し行われる。図9(e)に示す例においては、ビデオチャンクに未登録のビデオアクセスユニットのうちの先頭のIDRビデオアクセスユニットは、ビデオアクセスユニットVAU(2)である。当該ビデオアクセスユニットVAU(2)の次のIDRビデオアクセスユニットは、ビデオアクセスユニットVAU(4)である。ビデオアクセスユニットVAU(4)の直前のビデオアクセスユニットは、ビデオアクセスユニットVAU(3)である。従って、この場合には、ビデオアクセスユニットVAU(2)とビデオアクセスユニットVAU(3)とが、図9(g)に示すように、第1番目のビデオチャンクVCH(1)に順次登録される。図9(f)に示す例においては、オーディオチャンクに未登録のオーディオアクセスユニットのうちの先頭のオーディオアクセスユニットは、オーディオアクセスユニットAAU(3)である。上述した式(6)の関係を満たすような第n番目のオーディオチャンクにおける最後尾のオーディオアクセスユニットは、オーディオアクセスユニットAAU(5)である。従って、この場合には、オーディオアクセスユニットAAU(3)からオーディオアクセスユニットAAU(5)までが、図9(h)に示すように、第1番目のオーディオチャンクACH(1)に順次登録される。
ビデオチャンクに未登録のIDRビデオアクセスユニットが1つだけになった場合(ステップS802においてYES)には、ステップS806に移行する。ステップS806では、ビデオチャンクに未登録の全てのビデオアクセスユニットが最後尾のビデオチャンクに登録される。図9(i)に示す例においては、ビデオチャンクに未登録のビデオアクセスユニットは、ビデオアクセスユニットVAU(4)及びビデオアクセスユニットVAU(5)である。従って、この場合には、ビデオアクセスユニットVAU(4)とビデオアクセスユニットVAU(5)とが、最後尾のビデオチャンクVCH(2)に登録される。
ステップS807では、オーディオチャンクに未登録の全てのオーディオアクセスユニットが、最後尾のオーディオチャンクに登録される。図9(j)に示す例においては、オーディオチャンクに未登録のオーディオアクセスユニットは、オーディオアクセスユニットAAU(6)とオーディオアクセスユニットAAU(7)である。従って、この場合には、オーディオアクセスユニットAAU(6)とオーディオアクセスユニットAAU(7)とが最後尾のオーディオチャンクACH(2)に登録される。
こうして、mdatボックスのデータフィールドへのストリームデータの登録が完了する。
こうして、mdatボックスのデータフィールドへのストリームデータの登録が完了する。
このように、画像符号化部104による画像信号の符号化の開始のタイミングと、音声符号化部101による音声信号の符号化の開始のタイミングとがずれていてもよい。本実施形態においても、以下のようなオーディオアクセスユニットが第n番目のオーディオチャンクの先頭に登録される。第n番目のビデオチャンクの先頭に位置するビデオアクセスユニットの再生時の出力タイミングに対して、再生時の出力開始タイミングの遅れが第1の所定時間を超えないオーディオアクセスユニットが第n番目のオーディオチャンクの先頭に配される。従って、本実施形態においても、鑑賞者が違和感を抱くようなずれが画像と音声との間に生じてしまうのを分割後の動画像において防止し得る画像処理装置を提供することができる。
[変形実施形態]
上記実施形態に限らず種々の変形が可能である。
例えば、上記実施形態では、第n番目のビデオチャンクに対応する第n番目のオーディオチャンクを第n番目のビデオチャンクの後に配する場合を例に説明したが、これに限定されるものではない。例えば、第n番目のビデオチャンクに対応する第n番目のオーディオチャンクを第n番目のビデオチャンクの前に配するようにしてもよい。この場合には、第n番目のオーディオチャンクの先頭においてストリームデータの分割が行われることとなる。
上記実施形態に限らず種々の変形が可能である。
例えば、上記実施形態では、第n番目のビデオチャンクに対応する第n番目のオーディオチャンクを第n番目のビデオチャンクの後に配する場合を例に説明したが、これに限定されるものではない。例えば、第n番目のビデオチャンクに対応する第n番目のオーディオチャンクを第n番目のビデオチャンクの前に配するようにしてもよい。この場合には、第n番目のオーディオチャンクの先頭においてストリームデータの分割が行われることとなる。
本発明は、上述の実施形態の1以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける1つ以上のプロセッサーがプログラムを読出し実行する処理でも実現可能である。また、1以上の機能を実現する回路(例えば、ASIC)によっても実現可能である。
101…音声符号化部
102…moovボックス生成部
103…mdatボックス生成部
104…画像符号化部
105…メモリ
106…制御部
107…記録媒体
108…バス
112…処理部
102…moovボックス生成部
103…mdatボックス生成部
104…画像符号化部
105…メモリ
106…制御部
107…記録媒体
108…バス
112…処理部
Claims (7)
- 順次入力される画像信号を符号化することによりビデオアクセスユニットを順次生成する画像符号化部と、
順次入力される音声信号を符号化することによりオーディオアクセスユニットを順次生成する音声符号化部と、
複数の前記ビデオアクセスユニットからビデオチャンクを順次生成し、複数の前記オーディオアクセスユニットからオーディオチャンクを順次生成し、前記ビデオチャンクと前記オーディオチャンクとが交互に配されたストリームデータを生成するストリームデータ生成部とを有し、
前記ストリームデータ生成部は、第n番目の前記ビデオチャンクの先頭に位置する前記ビデオアクセスユニットの再生時における出力タイミングに対して、再生時における出力開始タイミングの遅れが第1の所定時間を超えない前記オーディオアクセスユニットが第n番目の前記オーディオチャンクの先頭に位置するように前記ストリームデータを生成し、
前記ビデオアクセスユニットの前記再生時は、分割前の前記ストリームデータを再生する際における前記ビデオアクセスユニットの再生時であり、
前記オーディオアクセスユニットの前記再生時は、前記分割前のストリームデータを再生する際における前記オーディオアクセスユニットの再生時である
ことを特徴とする画像処理装置。 - 前記オーディオアクセスユニットに対応する音声の出力時間は、第2の所定時間であり、
前記第1の所定時間は、前記第2の所定時間より短いことを特徴とする請求項1に記載の画像処理装置。 - 前記第n番目のビデオチャンクの前記先頭に位置する前記ビデオアクセスユニットの前記再生時における前記出力タイミングをt1、前記第n番目のオーディオチャンクの前記先頭に位置する前記オーディオアクセスユニットの前記再生時における前記出力開始タイミングをt2、前記第1の所定時間をΔT1、前記第2の所定時間をΔT2とすると、前記ストリームデータ生成部は、下式
t2−ΔT1≦t1<t2+(ΔT2−ΔT1)
を満たすように前記ストリームデータを生成することを特徴とする請求項2に記載の画像処理装置。 - 前記画像符号化部の動作の開始のタイミングが前記音声符号化部の動作の開始のタイミングよりも第3の所定時間だけ遅く、
前記第n番目のビデオチャンクよりも前に位置する全ての前記ビデオチャンクの前記ビデオアクセスユニットの総出力時間をS1、前記第n番目のオーディオチャンクよりも前に位置する全ての前記オーディオチャンクの前記オーディオアクセスユニットの総出力時間をS2、前記第1の所定時間をΔT1、前記第3の所定時間をΔT3とすると、前記ストリームデータ生成部は、下式
S2−S1<ΔT1+ΔT3
を満たすように前記ストリームデータを生成することを特徴とする請求項2に記載の画像処理装置。 - 前記第3の所定時間は、前記第2の所定時間以下であることを特徴とする請求項4に記載の画像処理装置。
- 順次入力される画像信号を符号化することによりビデオアクセスユニットを順次生成し、
順次入力される音声信号を符号化することによりオーディオアクセスユニットを順次生成し、
順次生成される複数の前記ビデオアクセスユニットからビデオチャンクを順次生成し、順次生成される複数の前記オーディオアクセスユニットからオーディオチャンクを順次生成し、前記ビデオチャンクと前記オーディオチャンクとが交互に配されたストリームデータを生成し、
前記ストリームデータを生成する際には、第n番目の前記ビデオチャンクの先頭に位置する前記ビデオアクセスユニットの再生時における出力タイミングに対して、再生時における出力開始タイミングの遅れが第1の所定時間を超えない前記オーディオアクセスユニットが第n番目の前記オーディオチャンクの先頭に位置するように前記ストリームデータを生成する
ことを特徴とする画像処理方法。 - コンピュータに、
順次入力される画像信号を符号化することによりビデオアクセスユニットを順次生成し、
順次入力される音声信号を符号化することによりオーディオアクセスユニットを順次生成し、
複数の前記ビデオアクセスユニットからビデオチャンクを順次生成し、複数の前記オーディオアクセスユニットからオーディオチャンクを順次生成し、前記ビデオチャンクと前記オーディオチャンクとが交互に配されたストリームデータを生成することを実行させるためのプログラムであって、
前記ストリームデータを生成する際には、第n番目の前記ビデオチャンクの先頭に位置する前記ビデオアクセスユニットの再生時における出力タイミングに対して、再生時における出力開始タイミングの遅れが第1の所定時間を超えない前記オーディオアクセスユニットが第n番目の前記オーディオチャンクの先頭に位置するように前記ストリームデータを生成し、
前記ビデオアクセスユニットの前記再生時は、分割前の前記ストリームデータを再生する際における前記ビデオアクセスユニットの再生時であり、
前記オーディオアクセスユニットの前記再生時は、前記分割前のストリームデータを再生する際における前記オーディオアクセスユニットの再生時である
ことを特徴とするプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016048647A JP2017163490A (ja) | 2016-03-11 | 2016-03-11 | 画像処理装置及び画像処理方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016048647A JP2017163490A (ja) | 2016-03-11 | 2016-03-11 | 画像処理装置及び画像処理方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2017163490A true JP2017163490A (ja) | 2017-09-14 |
Family
ID=59858151
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2016048647A Pending JP2017163490A (ja) | 2016-03-11 | 2016-03-11 | 画像処理装置及び画像処理方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2017163490A (ja) |
-
2016
- 2016-03-11 JP JP2016048647A patent/JP2017163490A/ja active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5193291B2 (ja) | 2d映像メディア標準に基づいて3d映像ファイルを生成及び再生するためのシステム及び方法 | |
US8676038B2 (en) | Recording/reproducing apparatus, recording apparatus, reproducing apparatus, recording method, reproducing method and computer program | |
CN102833480B (zh) | 再现设备和再现方法 | |
JP2006324848A (ja) | 情報処理装置及び情報処理方法 | |
JP2012015989A (ja) | 画像処理装置 | |
JP2006333330A (ja) | データ処理方法、その装置およびプログラム | |
WO2014200539A1 (en) | Remultiplexing bitstreams of encoded video for video playback | |
JP2017163490A (ja) | 画像処理装置及び画像処理方法 | |
US8442376B2 (en) | Image data recording/playback device, system, and method | |
JP6089970B2 (ja) | 映像データ削減装置および再生装置 | |
JP6278353B2 (ja) | 記録装置、記録方法、プログラム、ならびに撮像装置 | |
JP6806577B2 (ja) | 記録装置及びその制御方法及びプログラム | |
US8249432B2 (en) | Video and audio playback apparatus and video and audio playback method | |
JPH11177934A (ja) | 再生方法及び再生装置及び記録再生方法及び記録再生装置 | |
JP2016015584A (ja) | ネットワークカメラシステム、ネットワークカメラおよび音映像送信方法 | |
JP2009044392A (ja) | ビデオ再生方法およびビデオ再生装置 | |
JP5859100B2 (ja) | 画像記録装置 | |
JP2015029211A (ja) | 撮像装置 | |
TWI630603B (zh) | 音頻內容之加速復原方法和相關聯裝置 | |
JP2011139291A (ja) | 画像再生制御装置、画像再生制御方法および撮像装置 | |
JP2009044213A (ja) | ビデオ再生方法およびビデオ再生装置 | |
JP2013150237A (ja) | 情報処理装置、情報処理方法及び半導体装置 | |
JP2007116461A (ja) | 画像処理装置及び画像処理方法 | |
JP2011139289A (ja) | 画像記録制御装置、画像記録制御方法および撮像装置 | |
TW200403634A (en) | Digital content separation method |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD05 | Notification of revocation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7425 Effective date: 20171214 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20180126 |