JP2017163490A

JP2017163490A - 画像処理装置及び画像処理方法

Info

Publication number: JP2017163490A
Application number: JP2016048647A
Authority: JP
Inventors: 秀一細川; Shuichi Hosokawa
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2016-03-11
Filing date: 2016-03-11
Publication date: 2017-09-14

Abstract

【課題】鑑賞者が違和感を抱くようなずれが画像と音声との間に生じてしまうのを分割後の動画像において防止し得る画像処理装置を提供する。【解決手段】画像符号化部によって生成される複数のビデオアクセスユニットからビデオチャンクを生成し、音声符号化部によって生成される複数のオーディオアクセスユニットからオーディオチャンクを生成し、ビデオチャンクとオーディオチャンクとが交互に配されたストリームデータを生成するストリームデータ生成部を有し、ストリームデータ生成部は、第ｎ番目の前記ビデオチャンクの先頭に位置するビデオアクセスユニットの再生時における出力タイミングに対して、再生時における出力開始タイミングの遅れが第１の所定時間を超えないオーディオアクセスユニットが第ｎ番目のオーディオチャンクの先頭に位置するようにストリームデータを生成する。【選択図】図５

Description

本発明は、画像処理装置及び画像処理方法に関する。

動画像データの規格として、例えばＭＰＥＧ（ＭｏｖｉｎｇＰｉｃｔｕｒｅＥｘｐｅｒｔｓＧｒｏｕｐ）規格が知られている（特許文献１参照）。ＭＥＰＧ規格の１つであるＭＰ４規格のファイルは、符号化されたビデオアクセスユニットの集合体であるビデオチャンクと、符号化されたオーディオアクセスユニットの集合体であるオーディオチャンクとが交互に配されたデータ構造を有している。また、生成された動画像ファイルを複数の動画像ファイルに分割する技術も知られている。

特開２００１−１７６１９５号公報

しかしながら、従来の技術においては、分割した動画像ファイルを再生した際に、鑑賞者が違和感を抱くようなずれが画像と音声との間に生じる場合があった。

本発明の目的は、鑑賞者が違和感を抱くようなずれが画像と音声との間に生じるのを分割後の動画像において防止し得る画像処理装置及び画像処理方法を提供することにある。

実施形態の一態様によれば、順次入力される画像信号を符号化することによりビデオアクセスユニットを順次生成する画像符号化部と、順次入力される音声信号を符号化することによりオーディオアクセスユニットを順次生成する音声符号化部と、複数の前記ビデオアクセスユニットからビデオチャンクを順次生成し、複数の前記オーディオアクセスユニットからオーディオチャンクを順次生成し、前記ビデオチャンクと前記オーディオチャンクとが交互に配されたストリームデータを生成するストリームデータ生成部とを有し、前記ストリームデータ生成部は、第ｎ番目の前記ビデオチャンクの先頭に位置する前記ビデオアクセスユニットの再生時における出力タイミングに対して、再生時における出力開始タイミングの遅れが第１の所定時間を超えない前記オーディオアクセスユニットが第ｎ番目の前記オーディオチャンクの先頭に位置するように前記ストリームデータを生成し、前記ビデオアクセスユニットの前記再生時は、分割前の前記ストリームデータを再生する際における前記ビデオアクセスユニットの再生時であり、前記オーディオアクセスユニットの前記再生時は、前記分割前のストリームデータを再生する際における前記オーディオアクセスユニットの再生時であることを特徴とする画像処理装置が提供される。

本発明によれば、鑑賞者が違和感を抱くようなずれが画像と音声との間に生じてしまうのを分割後の動画像において防止し得る画像処理装置及び画像処理方法を提供することができる。

第１実施形態による画像処理装置を示すブロック図である。ＭＰ４ファイルの分割を模式的に示す図である。ＭＰ４ファイルの分割における課題を説明するための図である。ストリームデータの生成処理を模式的に示す図である。ストリームデータの生成処理を模式的に示す図である。ストリームデータの生成処理を模式的に示す図である。第ｎ番目のビデオチャンクの先頭に位置するビデオアクセスユニットの再生時における出力タイミングと、第ｎ番目のオーディオチャンクの先頭に位置するオーディオアクセスユニットの再生時における出力開始タイミングとの関係を示す図である。第１実施形態による画像処理装置によって行われるストリームデータの生成処理を示すフローチャートである。第１実施形態による画像処理装置によって行われるストリームデータの生成処理を模式的に示す図である。第２実施形態による画像処理装置によって行われるストリームデータの生成処理を示すフローチャートである。第２実施形態による画像処理装置によって行われるストリームデータの生成処理を模式的に示す図である。

以下、本発明の実施の形態について図面を参照しながら説明する。なお、本発明は以下の実施形態に限定されるものではなく、その要旨を逸脱しない範囲において適宜変更可能である。また、以下で説明する図面において、同じ機能を有するものは同一の符号を付し、その説明を省略又は簡潔にすることもある。

［第１実施形態］
第１実施形態による画像処理装置及び画像処理方法を図１乃至図７を用いて説明する。図１は、本実施形態による画像処理装置を示すブロック図である。本実施形態による画像処理装置は、例えば、ＭＰ４（ＭＰＥＧ−４）規格の動画像ファイルを生成し、生成した動画像ファイルを記録媒体に記録する撮像装置（デジタルカメラ）である。

本実施形態による画像処理装置１１１は、音声入力部１０９と、撮像部１１０と、音声符号化部１０１と、ｍｏｏｖボックス（ｍｏｖｉｅｂｏｘ）生成部１０２とを有している。更に、本実施形態による画像処理装置１１１は、ｍｄａｔボックス（ｍｅｄｉａｄａｔａｂｏｘ）生成部１０３と、画像符号化部１０４と、メモリ１０５と、制御部１０６とを有している。音声符号化部１０１、ｍｏｏｖボックス生成部１０２、ｍｄａｔボックス生成部１０３、画像符号化部１０４、メモリ１０５及び制御部１０６は、バスライン１０８を介して互いにデータを入出力し得る。音声符号化部１０１、ｍｏｏｖボックス生成部１０２、ｍｄａｔボックス生成部１０３、画像符号化部１０４、及び、制御部１０６は、例えば、処理部１１２の各機能ブロックである。処理部１１２は、例えばＣＰＵ（ＣｅｎｔｒｏｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）やＤＳＰ（ＤｉｇｉｔａｌＳｉｇｎａｌＰｒｏｃｅｓｓｏｒ）等のプロセッサーによって構成され得る。なお、処理部１１２は、複数のプロセッサーによって構成されていてもよい。

音声が音声入力部１０９を介して画像処理装置１１１に入力されるようになっている。音声入力部１０９は、音声を所定のサンプリング周波数でサンプリングし、サンプリングによって得られた音声信号（音声データ）を音声符号化部１０１に出力する。音声入力部１０９における音声のサンプリング周波数は、例えば４８ｋＨｚである。

音声符号化部１０１は、音声入力部１０９から順次入力される音声信号を所定の数だけ集め、集めた音声信号を所定の符号化方式で符号化することによって、オーディオアクセスユニット（ＡＡＵ：ＡｕｄｉｏＡｃｃｅｓｓＵｎｉｔ）を順次生成する。１つのオーディオアクセスユニットを生成する際に用いられる音声信号の数は、例えば１０２４個とする。符号化方式としては、例えば、ＡＡＣ−ＬＣ（ＡｄｖａｎｃｅｄＡｕｄｉｏＣｏｄｉｎｇ−ＬｏｗＣｏｍｐｌｅｘｉｔｙ）が用いられる。音声符号化部１０１は、生成したオーディオアクセスユニットをメモリ１０５に格納する。また、音声符号化部１０１は、メモリ１０５に格納したオーディオアクセスユニットのサイズについての情報、即ち、オーディオアクセスユニットのサイズ情報を、ｍｏｏｖボックス生成部１０２に出力する。

被写体の光学像が撮像部（撮像素子）１１０によって順次取得されるようになっている。撮像部１１０としては、例えばＣＭＯＳイメージセンサ等が用いられる。撮像部１１０は、取得した画像（画像信号、画像データ）を、画像符号化部１０４に出力する。

画像符号化部１０４は、撮像部１１０から順次入力される画像信号を所定の符号化方式で符号化することによってビデオアクセスユニット（ＶＡＵ：ＶｉｄｅｏＡｃｃｅｓｓＵｎｉｔ）を順次生成する。ビデオアクセスユニットとは、１つの画像（フレーム）をデコードするのに必要な情報を含んだデータ単位である。符号化方式としては、例えばＨ．２６４／ＭＰＥＧ４−ＡＶＣ方式が用いられる。画像符号化部１０４は、ＩＤＲ（ＩｎｓｔａｎｔａｎｅｏｕｓＤｅｃｏｄｅｒＲｅｆｒｅｓｈ）フレームが所定の間隔で出現するように符号化を行う。ＩＤＲフレームは、単体で画像を描画することが可能なフレームである。ＩＤＲフレーム（ＩＤＲピクチャ）は、ＧＯＰ（ＧｒｏｕｐｏｆＰｉｃｔｕｒｅｓ）の境界となるものであり、キーフレームとも称される。画像符号化部１０４は、生成したビデオアクセスユニットをメモリ１０５に格納する。また、画像符号化部１０４は、メモリ１０５に格納したビデオアクセスユニットのサイズについての情報、即ち、ビデオアクセスユニットのサイズ情報を、ｍｏｏｖボックス生成部１０２に出力する。

ｍｄａｔボックス生成部１０３は、メモリ１０５に格納されたビデオアクセスユニットを複数集めてひとまとまりとすることにより、ビデオアクセスユニットの集合体を生成する。このようなビデオアクセスユニットの集合体は、ビデオチャンクと称される。また、ｍｄａｔボックス生成部１０３は、メモリ１０５に格納されたオーディオアクセスユニットを複数集めてひとまとまりとすることにより、オーディオアクセスユニットの集合体を生成する。このようなオーディオアクセスユニットの集合体は、オーディオチャンクと称される。ｍｄａｔボックス生成部１０３は、ビデオチャンクとしてまとめられた複数のビデオアクセスユニットと、オーディオチャンクとしてまとめられた複数のオーディオアクセスユニットとを、メモリ１０５に格納する。また、ｍｄａｔボックス生成部１０３は、ビデオチャンクやオーディオチャンクに関する情報をｍｏｏｖボックス生成部１０２に出力する。このように、ｍｄａｔボックス生成部１０３は、画像符号化部１０４によって順次生成される複数のビデオアクセスユニットからビデオチャンクを順次生成する。また、ｍｄａｔボックス生成部１０３は、音声符号化部１０１によって順次生成される複数のオーディオアクセスユニットからオーディオチャンクを順次生成する。また、ｍｄａｔボックス生成部１０３は、ビデオチャンクとオーディオチャンクとが交互に配されたストリームデータを後述するようにして生成するストリームデータ生成部として機能する。

ｍｏｏｖボックス生成部１０２は、ビデオアクセスユニットのサイズ情報と、オーディオアクセスユニットのサイズ情報と、ビデオチャンクに関する情報と、オーディオチャンクに関する情報とに基づいて、ｍｏｏｖボックス等を生成する。ｍｏｏｖボックス生成部１０２は、生成したｍｏｏｖボックスをメモリ１０５に格納する。

制御部１０６は、記録媒体１０７に対するデータの書き込みや読み出しを制御する。例えば、制御部１０６は、メモリ１０５に格納されたデータを記録媒体１０７に書き込む。また、制御部１０６は、記録媒体１０７から読み出したデータをメモリ１０５に格納する。記録媒体１０７としては、例えばフラッシュメモリ等が用いられる。

次に、本実施形態による画像処理装置によって行われるストリームデータの生成処理について図４を用いて説明する。図４は、ストリームデータの生成処理を模式的に示す図である。図４の左側は、記録媒体１０７内におけるデータの格納状態を模式的に示している。図４の右側は、メモリ１０５内におけるデータの格納状態を模式的に示している。図４の右側に示すように、メモリ１０５は、ＭＰ４データ格納領域１０５ａとビデオアクセスユニット格納領域１０５ｂとオーディオアクセスユニット格納領域１０５ｃとを含む。図４の右側は、ＭＰ４データ格納領域１０５ａとビデオアクセスユニット格納領域１０５ｂとオーディオアクセスユニット格納領域１０５ｃのそれぞれにおけるデータの格納状態を模式的に示している。

図示しないユーザインターフェースを介して動画像の撮影開始の指示がユーザによって行われると、ｍｏｏｖボックス生成部１０２は、まず、以下のような処理を行う。図４（ａ）は、動画像データの記録が開始される前の段階を模式的に示している。図４（ａ）に示すように、ファイルタイプボックスｆｔｙｐと、ダミーデータを含むｍｏｏｖボックスと、ダミーデータを含むｍｄａｔボックスとが、ｍｏｏｖボックス生成部１０２によって生成される。ｍｏｏｖボックス生成部１０２によって生成されたこれらのボックスは、メモリ１０５内のＭＰ４データ格納領域１０５ａに格納される。ファイルタイプボックスｆｔｙｐは、動画ファイルの種類（タイプ）を示すボックスであり、動画ファイルの先頭に配さえる。ファイルタイプボックスｆｔｙｐは、当該ファイルタイプボックスｆｔｙｐのサイズを示すサイズフィールドｓｉｚｅと、当該ファイルタイプボックスｆｔｙｐの種類を示すタイプフィールドｔｙｐｅと、データフィールドｄａｔａとを含む。ｍｏｏｖボックスは、当該ｍｏｏｖボックスのサイズを示すサイズフィールドと、当該ｍｏｏｖボックスの種類を示すタイプフィールドｔｙｐｅと、データフィールドとを含む。この段階では、ｍｏｏｖボックスのサイズフィールドとデータフィールドとには、ダミーデータ（固定値）が暫定的に記録される。なお、図４においては、ダミーデータが記録されたフィールドにはＤＭＹという符号が記載されている。ｍｄａｔボックスは、当該ｍｄａｔボックスのサイズを示すサイズフィールドと、当該ｍｄａｔボックスの種類を示すタイプフィールドｔｙｐｅとを含む。この段階では、ｍｄａｔボックスのサイズフィールドには、ダミーデータが暫定的に記録される。また、この段階では、ｍｄａｔボックスのデータフィールドには、ビデオチャンクとオーディオチャンクとを交互に配したストリームデータは記録されていない。

図４（ｂ）は、動画像データの記録が開始された直後の状態を模式的に示している。画像符号化部１０４は、撮像部１１０からの画像信号を符号化することによって、ビデオアクセスユニットＶＡＵを生成する。画像符号化部１０４は、生成したビデオアクセスユニットＶＡＵと、当該ビデオアクセスユニットＶＡＵのサイズ情報とを、メモリ１０５内のビデオアクセスユニット格納領域（ＶＡＵ格納領域）１０５ｂに格納する。また、画像符号化部１０４は、当該ビデオアクセスユニットＶＡＵのサイズ情報を、ｍｏｏｖボックス生成部１０２にも出力する。本実施形態では、画像符号化部１０４の動作の開始のタイミングと、音声符号化部１０１の動作の開始のタイミングとは同時に設定されている。このため、画像符号化部１０４による画像信号の符号化が開始されるのと同時に、音声符号化部１０１による音声信号の符号化も開始される。音声符号化部１０１は、音声入力部１０９からの音声信号を符号化することによって、オーディオアクセスユニットＡＡＵを生成する。音声符号化部１０１は、生成したオーディオアクセスユニットＡＡＵと、当該オーディオアクセスユニットＡＡＵのサイズ情報（図示せず）とを、メモリ１０５内のオーディオアクセスユニット格納領域（ＡＡＵ格納領域）１０５ｃに出力する。また、音声符号化部１０１は、当該オーディオアクセスユニットＡＡＵのサイズ情報を、ｍｏｏｖボックス生成部１０２にも出力する。

ｍｄａｔボックス生成部１０３は、図４（ｃ）に示すように、ビデオアクセスユニット格納領域１０５ｂに順次蓄積されるビデオアクセスユニットＶＡＵを複数まとめてビデオチャンクＶＣＨを生成する。そして、ｍｄａｔボックス生成部１０３は、当該ビデオチャンクＶＣＨをｍｄａｔボックスのデータフィールドに記録する。ｍｄａｔボックス生成部１０３は、当該ビデオチャンクＶＣＨに関する情報をｍｏｏｖボックス生成部１０２に出力する。また、ｍｄａｔボックス生成部１０３は、図４（ｃ）に示すように、オーディオアクセスユニット格納領域１０５ｃに順次蓄積されるオーディオアクセスユニットＡＡＵを複数まとめてオーディオチャンクＡＣＨを生成する。そして、ｍｄａｔボックス生成部１０３は、当該オーディオチャンクＡＣＨをｍｄａｔボックスのデータフィールドに記録する。ｍｄａｔボックス生成部１０３は、当該オーディオチャンクＡＣＨに関する情報をｍｏｏｖボックス生成部１０２に出力する。

なお、複数のビデオアクセスユニットＶＡＵをまとめてビデオチャンクＶＣＨを生成する際の詳細、及び、複数のオーディオアクセスユニットＡＡＵをまとめてオーディオチャンクＡＣＨを生成する際の詳細については、後述することとする。
画像符号化部１０４によって順次生成されるビデオアクセスユニットＶＡＵは、図４（ｄ）に示すように、順次複数まとめられてビデオチャンクＶＣＨとされ、ｍｄａｔボックスのデータフィールドに順次記録される。また、音声符号化部１０１によって順次生成されるオーディオアクセスユニットＡＡＵは、図４（ｄ）に示すように、順次複数まとめられてオーディオチャンクＡＣＨとされ、ｍｄａｔボックスのデータフィールドに順次記録される。これらビデオチャンクＶＣＨ及びオーディオチャンクＡＣＨは、ｍｄａｔボックスのデータフィールドに交互に記録される。動画像の撮影が終了するまで、このような処理が繰り返し行われる。動画像データの生成が進行するに伴って、生成済みの動画像データが制御部１０６によってメモリ１０５内から記録媒体１０７内に順次転送される。図４（ｄ）は、生成済みの動画データの一部がメモリ１０５内から記録媒体１０７内に転送された状態を概念的に示している。

動画像の撮影の終了の指示が図示しないユーザインターフェースを介してユーザによって行われると、画像符号化部１０４は画像信号の符号化を終了し、音声符号化部１０１は音声信号の符号化を終了する。図４（ｅ）は、生成済みのすべてのビデオアクセスユニットＶＡＵ及びオーディオアクセスユニットＡＡＵがｍｄａｔボックスのデータフィールドにビデオチャンクやオーディオチャンクとして記録された直後の状態を模式的に示している。図４（ｆ）は、メモリ１０５内から記録媒体１０７内への画像データの転送が完了し、画像データの全体が記録媒体１０７内に格納されている状態を示している。

メモリ１０５内から記録媒体１０７内への画像データの転送が完了すると、画像データに含まれているダミーデータＤＭＹを実データに更新するための処理が以下のようにして行われる。ｍｏｏｖボックスのサイズフィールド及びデータフィールドにはダミーデータが記録され、ｍｄａｔボックスのサイズフィールドにもダミーデータが記録されている。制御部１０６は、ｍｏｏｖボックスのサイズフィールド、タイプフィールド及びデータフィールドにそれぞれ記録されているデータと、ｍｄａｔボックスのサイズフィールドに記録されているデータとを、記録媒体１０７内から読み出す。そして、制御部１０６は、読み出したこれらのデータを図４（ｇ）に示すようにメモリ１０５に格納する。

ビデオアクセスユニットやオーディオアクセスユニットのサイズ情報や、ビデオチャンクやオーディオチャンクに関する情報等に基づいて、ｍｏｏｖボックスのサイズフィールドに記録されるべきデータがｍｏｏｖボックス生成部１０２によって生成される。こうして生成されたデータによって、図４（ｈ）に示すように、ｍｏｏｖボックスのサイズフィールドがＭＰ４データ格納領域１０５ａ内において更新される。また、ビデオアクセスユニットやオーディオアクセスユニットのサイズ情報や、ビデオチャンクやオーディオチャンクに関する情報に基づいて、ｍｏｏｖボックスのデータフィールドに記録されるべきデータがｍｏｏｖボックス生成部１０２によって生成される。こうして生成されたデータによって、図４（ｈ）に示すように、ｍｏｏｖボックスのデータフィールドがＭＰ４データ格納領域１０５ａ内において更新される。ビデオアクセスユニットやオーディオアクセスユニットのサイズ情報や、ビデオチャンクやオーディオチャンクに関する情報に基づいて、ｍｄａｔボックスのサイズフィールドに記録されるべきデータがｍｏｏｖボックス生成部１０２によって生成される。こうして生成されたデータによって、図４（ｈ）に示すように、ｍｄａｔボックスのサイズフィールドがＭＰ４データ格納領域１０５ａ内において更新される。

制御部１０６は、ＭＰ４データ格納領域１０５ａ内において更新されたｍｏｏｖボックスのサイズフィールドのデータによって、図４（ｉ）に示すように、記録媒体１０７内に記録された画像データのｍｏｏｖボックスのサイズフィールドを更新（上書き）する。また、制御部１０６は、ＭＰ４データ格納領域１０５ａ内において更新されたｍｏｏｖボックスのデータフィールドのデータによって、図４（ｉ）に示すように、記録媒体１０７内に記録された画像データのｍｏｏｖボックスのデータフィールドを更新する。また、制御部１０６は、ＭＰ４データ格納領域１０５ａ内において更新されたｍｄａｔボックスのサイズフィールドのデータによって、図４（ｉ）に示すように、記録媒体１０７内に記録された画像データのｍｄａｔボックスのサイズフィールドを更新する。こうして、ダミーデータＤＭＹが実データに更新され、ストリームデータを含むＭＰ４ファイルが完成し、動画像データの記録の処理が完了する。

図２は、ＭＰ４ファイルの分割を模式的に示す図である。図２（ａ）は、分割前におけるＭＰ４ファイルを模式的に示している。ここでは、チャンクの再構成処理を行うことなくＭＰ４ファイルを分割する場合を例に説明する。なお、チャンクの再構成処理を行うことなくＭＰ４ファイルを分割するのは、短時間でＭＰ４ファイルを分割することを可能とするためである。ＭＰ４ファイルの分割の処理は、画像処理装置、より具体的にはデジタルカメラ等によって行うことができる。ＭＰ４ファイルの分割においては、いずれかのビデオチャンクＶＣＨの先頭に位置しているビデオアクセスユニットＶＡＵの箇所が、分割基準点Ｐとして指定される。かかる分割基準点Ｐの指定は、表示部（図示せず）によってユーザが画像を確認しながら、ユーザインターフェース（図示せず）を介して行われる。分割基準点Ｐが指定されると、図２（ｂ）に示すように、当該ビデオアクセスユニットＶＡＵを先頭とするユニット群と、当該ビデオアクセスユニットＶＡＵよりも前に位置するユニット群とに、ＭＰ４ファイルが分割される。図２（ｂ）の左側は、分割後における先行側のＭＰ４ファイルを示しており、図２（ｂ）の右側は、分割後における後続側のＭＰ４ファイルを示している。

ＭＰ４ファイルの分割における課題について図３を用いて説明する。図３は、ＭＰ４ファイルの分割における課題を説明するための図である。図３（ａ）は、ＭＰ４ファイルを分割する前の段階を模式的に示している。図３（ａ）の上側は、ＭＰ４ファイルにおけるビデオチャンクＶＣＨとオーディオチャンクＡＣＨの配置を模式的に示している。図３（ａ）の下側は、各々のビデオアクセスユニットＶＡＵの画像の再生時における出力タイミングと、各々のオーディオアクセスユニットＡＡＵの音声の再生時における出力開始タイミングとを模式的に示している。図３（ａ）の下側に示すように、１つのビデオアクセスユニットＶＡＵに対応する１フレームの画像の出力時間と、１つのオーディオアクセスユニットＡＡＵに対応する音声の出力時間とは、互いに異なっている。例えば、２９．９７ｆｐｓの動画像においては、１つのビデオアクセスユニットＶＡＵに対応する１フレームの画像の出力時間は約３３．３ｍｓｅｃである。一方、例えば４８ｋＨｚサンプリングのＡＡＣ（ＩＳＯ／ＩＥＣ１４４９６−３ＡｄｖａｎｃｅｄＡｕｄｉｏＣｏｄｉｎｇ）においては、１つのオーディオアクセスユニットＡＡＵに対応する音声の出力時間は約２１．３ｍｓｅｃである。このため、ＭＰ４ファイルの先頭以外においては、ビデオチャンクの先頭に位置するビデオアクセスユニットの出力タイミングとオーディオチャンクの先頭に位置するオーディオアクセスユニットの出力開始タイミングとが一致することは殆どない。

図３（ｂ）は、ＭＰ４ファイルを分割した後の状態を模式的に示している。図３（ｂ）の左側は、分割後における先行側のＭＰ４ファイルを示しており、図３（ｂ）の右側は、分割後における後続側のＭＰ４ファイルを示している。図３（ｂ）の右側に示された後続側のＭＰ４ファイルを単に再生した場合には、画像が撮影されたタイミングに対して遅いタイミングで取得された音声が当該画像にとともに表示されてしまう。このような場合には、鑑賞者に違和感を抱かせてしまう場合がある。

ところで、このような画像と音声とのずれを解消するための手段として、ＭＰ４規格にはｅｄｔｓボックスが規定されている。図３（ｃ）は、ｅｄｔｓボックスを模式的に示している。ｅｄｔｓボックスに基づく処理を行い得る再生機器においては、ｅｄｔｓボックスに記録された情報に応じた期間の無音が、図３（ｄ）の左側に示すように、音声の冒頭に挿入され、画像と音声とのずれが解消される。

しかしながら、ｅｄｔｓボックスはＭＰ４規格における任意の項目であるため、再生機器によってはｅｄｔｓボックスに基づく処理が行われない場合がある。ｅｄｔｓボックスに基づく処理が行われない再生機器においては、かかる無音の挿入は行われず、音声と画像とのずれを補償し得ない。図３（ｄ）の右側に示すように、後続側のＭＰ４ファイルの先頭に位置するビデオアクセスユニットにおける出力タイミングと、当該ＭＰ４ファイルの先頭に位置するオーディオアクセスユニットにおける出力開始タイミングとが同じとなる。図３（ｄ）の右側に示すケースにおいては、画像が撮影されたタイミングに対して遅いタイミングで取得された音声が当該画像にとともに表示されてしまい、鑑賞者に違和感を抱かせてしまうこととなる。

本実施形態による画像処理装置は、ｅｄｔｓボックスに基づいた処理が行われない再生機器で分割後の動画像ファイルを再生する場合においても、鑑賞者に違和感を抱かせるのを防止し得る動画像ファイルを生成するものである。

次に、本実施形態による画像処理装置によって行われるビデオチャンク及びオーディオチャンクの生成について図５乃至図７を用いて説明する。

図５は、第ｎ番目のビデオチャンクの先頭に位置するビデオアクセスユニットの再生時における出力タイミングと、第ｎ番目のオーディオチャンクの先頭に位置するオーディオアクセスユニットの再生時における出力開始タイミングとの関係を示す図である。図５（ａ）に示すように、各々のビデオチャンクＶＣＨには、複数のビデオアクセスユニットＶＡＵが含まれている。“ＶＣＨ”の後の括弧内の文字は、第何番目のビデオチャンクであるかを示している。例えば、“ＶＣＨ（ｎ）”は、第ｎ番目のビデオチャンクであるかを示している。“ＶＡＵ”の後の括弧内の文字は、第何番目のビデオアクセスユニットであるかを示している。例えば、“ＶＡＵ（ｍ）”は、第ｍ番目のビデオアクセスユニットであることを示している。図５（ａ）における“ｔ１”は、各々のビデオアクセスユニットにおける再生時の出力タイミングを示している。“ｔ１”の後の括弧内の文字は、第何番目のビデオアクセスユニットにおける出力タイミングであるかを示している。例えば、ｔ１（ｍ）は、第ｍ番目のビデオアクセスユニットにおける再生時の出力タイミングを示している。

図５（ｂ）乃至図５（ｄ）に示すように、各々のオーディオチャンクＡＣＨには、複数のオーディオアクセスユニットＡＡＵが含まれている。“ＡＣＨ”の後の括弧内の文字は、第何番目のオーディオチャンクであるかを示している。例えば“ＡＣＨ（ｎ）”は、第ｎ番目のオーディオチャンクであることを示している。“ＡＡＵ”の後の括弧内の文字は、第何番目のオーディオアクセスユニットであるかを示している。“ＡＡＵ（ｌ）”は、第ｌ番目のオーディオアクセスユニットであることを示している。例えば、図５（ｂ）乃至図５（ｄ）における“ｔ２”は、各々のオーディオアクセスユニットに対応する音声の出力開始タイミングをそれぞれ示している。“ｔ２”の後の括弧内の文字は、第何番目のオーディオアクセスユニットに対応する音声の出力開始タイミングであるかを示している。

画像が表示されるタイミングよりも遅いタイミングで、当該画像に対応する音声がスピーカから発せられる場合には、鑑賞者は違和感を抱きにくい。一方、画像が表示されるタイミングよりも早いタイミングで、当該画像に対応する音声がスピーカから発せられる場合には、両者のタイミングのずれが比較的小さい場合であっても、鑑賞者は違和感を抱きやすい。具体的には、画像が表示されるタイミングよりも早いタイミングで当該画像に対応する音声がスピーカから発せられる場合、両者のタイミングのずれが２ｍｓｅｃ以下の場合には鑑賞者は違和感を抱きにくいが、２ｍｓｅｃを超えると鑑賞者は違和感を抱きやすい。

本実施形態は、上記のような傾向があることに着目し、ｅｄｔｓボックスに基づく処理が行われない場合であっても、動画像の鑑賞者に抱かせる違和感を低減し得るものである。ｅｄｔｓボックスに基づく処理が行われない場合であっても、鑑賞者に違和感を抱かせないようにするためには、以下のような条件を満たすようにビデオチャンクＶＣＨとオーディオチャンクとを生成すればよい。

ビデオアクセスユニットＶＡＵ（ｍ）は、第ｎ番目のビデオチャンクＶＣＨ（ｎ）に含まれる複数のビデオアクセスユニットＶＡＵのうちの先頭のビデオアクセスユニットである。即ち、ビデオアクセスユニットＶＡＵ（ｍ）は、第ｎ番目のビデオチャンクＶＣＨ（ｎ）に含まれる複数のビデオアクセスユニットＶＡＵのうちの最も早く再生されるビデオアクセスユニットである。オーディオアクセスユニットＡＡＵ（ｌ）は、第ｎ番目のオーディオチャンクＡＣＨに含まれる複数のオーディオアクセスユニットＡＡＵのうちの先頭のオーディオアクセスユニットである。即ち、オーディオアクセスユニットＡＡＵ（ｌ）は、第ｎ番目のオーディオチャンクＡＣＨに含まれる複数のオーディオアクセスユニットＡＡＵのうちの最も早く再生されるオーディオアクセスユニットである。

ビデオアクセスユニットＶＡＵ（ｍ）に対応する画像の再生時における出力タイミングをｔ１（ｍ）とする。オーディオアクセスユニットＡＡＵ（ｌ）に対応する音声の再生時における出力タイミングをｔ２（ｌ）とする。出力タイミングｔ２（ｌ）が出力タイミングｔ１（ｍ）よりも遅いにもかかわらず、これらのビデオアクセスユニット及びオーディオアクセスユニットを同時に再生した場合には、音声が出力されるタイミングが、画像が表示されるタイミングよりも早くなる。このような場合には、上述したように、鑑賞者は違和感を抱きやすい。しかしながら、このような場合であっても、出力タイミングｔ１（ｍ）と出力タイミングｔ２（ｌ）とのずれが第１の所定時間ΔＴ１以下であれば、鑑賞者は違和感を抱きにくい。従って、以下のような式（１）を満たすようなオーディオアクセスユニット（ｌ）が第ｎ番目のオーディオチャンクＡＣＨ（ｎ）の先頭に配される。なお、第１の所定時間ΔＴ１は、例えば２ｍｓｅｃ程度である。
ｔ２（ｌ）−ｔ１（ｍ）≦ΔＴ１・・・（１）

画像が表示されるタイミングよりも音声が出力されるタイミングの方が遅い場合には、鑑賞者は違和感を抱きにくい。従って、再生時における画像の出力タイミングよりも再生時における音声の出力開始タイミングの方が遅くなるようなオーディオアクセスユニット（ｌ）を第ｎ番目のオーディオチャンクＡＣＨ（ｎ）の先頭に配してもよい。この場合には、以下のような式（２）を満たすようなオーディオアクセスユニット（ｌ）が第ｎ番目のオーディオチャンクＡＣＨ（ｎ）の先頭に配される。
ｔ１（ｍ）−ｔ２（ｌ）＜ΔＴ２−ΔＴ１・・・（２）

ここで、ΔＴ２は、第２の所定時間であり、１つのオーディオアクセスユニットＡＡＵに対応する音声の再生時における出力時間である。第２の所定時間ΔＴ２は、具体的には、例えば２１ｍｓｅｃ程度である。上述した第１の所定時間ΔＴ１は、第２の所定時間ΔＴ２よりも短い。

式（１）を変形すると、以下のような式（３）になる。
ｔ２（ｌ）−ΔＴ１≦ｔ１（ｍ）・・・（３）
式（２）を変形すると、以下のような式（４）になる。
ｔ１（ｍ）＜ｔ２（ｌ）＋（ΔＴ２−ΔＴ１）・・・（４）
式（３）と式（４）とを組み合わせると、以下のような式（５）が成立する。
ｔ２（ｌ）−ΔＴ１≦ｔ１（ｍ）＜ｔ２（ｌ）＋（ΔＴ２−ΔＴ１）・・・（５）

式（５）に示す関係を満たすオーディオアクセスユニットＡＡＵ（ｌ）を第ｎ番目のオーディオチャンクの先頭に配すれば、ｅｄｔｓボックスに基づく処理が行われない再生機器で再生した場合においても鑑賞者に違和感を抱かせるのを防止し得る。従って、本実施形態では、式（５）に示す関係を満たすオーディオアクセスユニットＡＡＵ（ｌ）を第ｎ番目のオーディオチャンクの先頭に配する。

図５（ｃ）は、（ｔ２（ｌ）−ｔ１（ｍ））が第１の所定時間ΔＴ１に合致している場合を示している。図５（ｃ）は、ｅｄｔｓボックスに基づく処理が行われない再生機器で再生した場合に音声が画像よりも早くなってしまう限界に対応している。

図５（ｄ）は、（ｔ１（ｍ）−ｔ２（ｌ））が（ΔＴ２−ΔＴ１）よりもわずかに小さい場合を示している。図５（ｄ）は、ｅｄｔｓボックスに基づく処理が行われない再生機器で再生した場合に音声が画像よりも遅くなってしまう限界に対応している。

図６は、本実施形態による画像処理装置によって行われるストリームデータの生成処理を示すフローチャートである。図７は、本実施形態による画像処理装置によって行われるストリームデータの生成処理を模式的に示す図である。ここでは、説明の簡略化のため、ビデオアクセスユニットＶＡＵ（０）、ＶＡＵ（２）、ＶＡＵ（４）が、ＩＤＲフレームに対応するビデオアクセスユニットであるものとして説明する。また、ビデオアクセスユニットＶＡＵ（１）、ＶＡＵ（３）、ＶＡＵ（５）が、ＩＤＲフレームではないフレームに対応するビデオアクセスユニットであるものとして説明する。

まず、ステップＳ６０１において、チャンクの管理番号ｎを０に初期化する
ステップＳ６０２では、ｍｄａｔボックスの生成処理が最終段階に至ったか否かが判断される。ｍｄａｔボックスの生成処理が最終段階に至ったか否かは、ビデオチャンクに未登録のＩＤＲビデオアクセスユニットが１つだけ残っているか否かによって判断される。ＩＤＲビデオアクセスユニットとは、ＩＤＲフレームに対応するビデオアクセスユニットのことである。ビデオチャンクに未登録のＩＤＲビデオアクセスユニットがビデオアクセスユニット格納領域１０５ｂ内に複数存在する場合には（ステップＳ６０２においてＮＯ）、ｍｄａｔボックスの生成処理は最終段階に至っていない。この場合には、ステップＳ６０３に移行する。一方、ビデオチャンクに未登録のＩＤＲビデオアクセスユニットが１つだけ残っている場合（ステップＳ６０２においてＹＥＳ）には、ｍｄａｔボックスの生成処理は最終段階に至っている。この場合には、ステップＳ６０６に移行する。

ステップＳ６０３では、ビデオチャンクに未登録のビデオアクセスユニットのうちから以下のようなビデオアクセスユニットが選択され、選択されたビデオアクセスユニットが第ｎ番目のビデオチャンクに登録される。ビデオチャンクに未登録のビデオアクセスユニットのうちの先頭のＩＤＲビデオアクセスユニットは、第ｎ番目のビデオチャンクの先頭に登録すべきビデオアクセスユニットである。未登録のビデオアクセスユニットのうちの先頭のＩＤＲビデオアクセスユニットの次のＩＤＲビデオアクセスユニットの直前のビデオアクセスユニットは、第ｎ番目のビデオチャンクの最後尾に登録すべきビデオアクセスユニットである。そして、第ｎ番目のビデオチャンクの先頭に登録すべきビデオアクセスユニットから第ｎ番目のビデオチャンクの最後尾に登録すべきビデオアクセスユニットまでが、第ｎ番目のビデオチャンクに登録される。図７（ａ）に示す例においては、ビデオチャンクに未登録のビデオアクセスユニットのうちの先頭のＩＤＲビデオアクセスユニットは、ビデオアクセスユニットＶＡＵ（０）である。当該ビデオアクセスユニットＶＡＵ（０）の次のＩＤＲビデオアクセスユニットは、ビデオアクセスユニットＶＡＵ（２）である。ビデオアクセスユニットＶＡＵ（２）の直前のビデオアクセスユニットは、ビデオアクセスユニットＶＡＵ（１）である。従って、この場合には、ビデオアクセスユニットＶＡＵ（０）とビデオアクセスユニットＶＡＵ（１）とが、図７（ｃ）に示すように、第０番目のビデオチャンクＶＣＨ（０）に順次登録される。

ステップＳ６０４では、オーディオチャンクに未登録のオーディオアクセスユニットのうちから以下のようなオーディオアクセスユニットが選択され、選択されたオーディオアクセスユニットが第ｎ番目のオーディオチャンクに登録される。オーディオチャンクに未登録のオーディオアクセスユニットのうちの先頭のオーディオアクセスユニットは、第ｎ番目のビデオチャンクの先頭のビデオアクセスユニットに対して上述した式（５）の関係を満たしている。ｎが０の場合には、第０番目のビデオチャンクの先頭のビデオアクセスユニットの再生時における出力タイミングと、第０番目のオーディオチャンクの先頭のオーディオアクセスユニットの再生時における出力タイミングとが一致しているためである。また、ｎが０より大きい場合には、第ｎ−１番目のオーディオチャンクを生成する際に、上述した式（５）を満たすように第ｎ−１番目のオーディオチャンクにオーディオアクセスユニットが登録されたためである。従って、オーディオチャンクに未登録のオーディオアクセスユニットのうちの先頭のオーディオアクセスユニットは、第ｎ番目のオーディオチャンクの先頭に登録されるべきオーディオアクセスユニットである。第ｎ＋１番目のビデオチャンクの先頭のビデオアクセスユニットに対して上述した式（５）の関係を満たすオーディオアクセスユニットは、第ｎ＋１番目のオーディオチャンクの先頭に登録すべきオーディオアクセスユニットである。従って、当該第ｎ＋１番目のオーディオチャンクの先頭に登録すべきオーディオアクセスユニットの直前のオーディオアクセスユニットが、第ｎ番目のオーディオチャンクの最後尾に登録されるべきオーディオアクセスユニットである。第ｎ番目のオーディオチャンクの先頭に登録すべきオーディオアクセスユニットから第ｎ番目のオーディオチャンクの最後尾に登録すべきオーディオアクセスユニットまでが、第ｎ番目のオーディオチャンクに登録される。図７（ｂ）に示す例においては、オーディオチャンクに未登録のオーディオアクセスユニットのうちの先頭のオーディオアクセスユニットは、オーディオアクセスユニットＡＡＵ（０）である。第０番目のビデオチャンクに登録されたＩＤＲビデオアクセスユニットＶＡＵ（０）の次のＩＤＲビデオアクセスユニットは、ビデオアクセスユニットＶＡＵ（２）である。ビデオアクセスユニットＶＡＵ（２）に対して上述した式（５）の関係を満たすオーディオアクセスユニットは、オーディオアクセスユニットＡＡＵ（２）である。当該オーディオアクセスユニットＡＡＵ（２）の直前のオーディオアクセスユニットは、オーディオアクセスユニットＡＡＵ（１）である。従って、この場合には、オーディオアクセスユニットＡＡＵ（０）とオーディオアクセスユニットＡＡＵ（１）とが、図７（ｄ）に示すように、第０番目のオーディオチャンクＡＣＨ（０）に順次登録される。

ステップＳ６０５では、チャンクの管理番号ｎをインクリメントし、ステップＳ６０２に戻る。この後、上記と同様の処理が繰り返し行われる。図７（ｅ）に示す例においては、ビデオチャンクに未登録のビデオアクセスユニットのうちの先頭のＩＤＲビデオアクセスユニットは、ビデオアクセスユニットＶＡＵ（２）である。当該ビデオアクセスユニットＶＡＵ（２）の次のＩＤＲビデオアクセスユニットは、ビデオアクセスユニットＶＡＵ（４）である。ビデオアクセスユニットＶＡＵ（４）の直前のビデオアクセスユニットは、ビデオアクセスユニットＶＡＵ（３）である。従って、この場合には、ビデオアクセスユニットＶＡＵ（２）とビデオアクセスユニットＶＡＵ（３）とが、図７（ｇ）に示すように、第１番目のビデオチャンクＶＣＨ（１）に順次登録される。図７（ｆ）に示す例においては、オーディオチャンクに未登録のオーディオアクセスユニットのうちの先頭のオーディオアクセスユニットは、オーディオアクセスユニットＡＡＵ（２）である。第１番目のビデオチャンクに登録されたＩＤＲビデオアクセスユニットＶＡＵ（２）の次のＩＤＲビデオアクセスユニットは、ビデオアクセスユニットＶＡＵ（４）である。ビデオアクセスユニットＶＡＵ（４）に対して上述した式（５）の関係を満たすオーディオアクセスユニットは、オーディオアクセスユニットＡＡＵ（５）である。当該オーディオアクセスユニットＡＡＵ（５）の直前のオーディオアクセスユニットは、オーディオアクセスユニットＡＡＵ（４）である。従って、この場合には、オーディオアクセスユニットＡＡＵ（２）からオーディオアクセスユニットＡＡＵ（４）までが、図７（ｈ）に示すように、第１番目のオーディオチャンクＡＣＨ（１）に順次登録される。

ビデオチャンクに未登録のＩＤＲビデオアクセスユニットが１つだけになった場合（ステップＳ６０２においてＹＥＳ）には、ステップＳ６０６に移行する。ステップＳ６０６では、ビデオチャンクに未登録の全てのビデオアクセスユニットが第ｎ番目（最後尾）のビデオチャンクに登録される。図７（ｉ）に示す例においては、ビデオチャンクに未登録のビデオアクセスユニットは、ビデオアクセスユニットＶＡＵ（４）及びビデオアクセスユニットＶＡＵ（５）である。従って、この場合には、ビデオアクセスユニットＶＡＵ（４）とビデオアクセスユニットＶＡＵ（５）とが、図７（ｋ）に示すように、第ｎ番目（最後尾）のビデオチャンクＶＣＨ（２）に登録される。

ステップＳ６０７では、オーディオチャンクに未登録の全てのオーディオアクセスユニットが、最後尾のオーディオチャンクに登録される。図７（ｊ）に示す例においては、オーディオチャンクに未登録のオーディオアクセスユニットは、オーディオアクセスユニットＡＡＵ（５）からオーディオアクセスユニットＡＡＵ（７）までである。従って、この場合には、オーディオアクセスユニットＡＡＵ（５）からオーディオアクセスユニットＡＡＵ（７）までが、図７（ｌ）に示すように、最後尾のオーディオチャンクＡＣＨ（２）に登録される。
こうして、ｍｄａｔボックスのデータフィールドへのストリームデータの登録が完了する。

このように、本実施形態では、以下のようなオーディオアクセスユニットが第ｎ番目のオーディオチャンクの先頭に配される。第ｎ番目のビデオチャンクの先頭に位置するビデオアクセスユニットの再生時の出力タイミングに対して、再生時の出力開始タイミングの遅れが第１の所定時間を超えないオーディオアクセスユニットが第ｎ番目のオーディオチャンクの先頭に配される。このため、分割された動画像をｅｄｔｓボックスに基づいた処理が行われない再生機器で再生した場合においても、音声に対する画像の遅れが第１の所定時間を超えることはない。音声に対する画像の遅れが第１の所定時間以下であれば、鑑賞者は違和感を抱きにくい。従って、本実施形態によれば、鑑賞者が違和感を抱くようなずれが画像と音声との間に生じてしまうのを分割後の動画像において防止し得る画像処理装置を提供することができる。

［第２実施形態］
第２実施形態による画像処理装置及び画像処理方法について図８及び図９を用いて説明する。第１実施形態では、画像符号化部１０４の動作の開始のタイミングと、音声符号化部１０１の動作の開始のタイミングとが一致している場合を例に説明した。本実施形態による画像処理装置は、画像符号化部１０４の動作の開始のタイミングよりも、音声符号化部１０１の動作の開始のタイミングの方が早いものである。なお、本実施形態による画像処理装置の構成は、第１実施形態による画像処理装置及び画像処理方法と同様であるため、説明を省略する。

本実施形態では、図示しないユーザインターフェースによって動画像の撮影がユーザによって指示されると、音声符号化部１０１による音声信号の符号化が、画像符号化部１０４による画像信号の符号化よりも先に開始される。具体的には、画像符号化部１０４の動作の開始のタイミングよりも第３の所定時間ΔＴ３だけ早いタイミングで、音声符号化部１０１の動作が開始される。なお、本実施形態による画像処理装置は、符号化の動作の開始のタイミングがずれている点以外は、第１実施形態による画像処理装置と同様である。ここで、第３の所定時間ΔＴ３は、例えば、１つのオーディオアクセスユニットＡＡＵに対応する音声の出力時間とすることができ、例えば、約２１ｍｓｅｃ程度である。第３の所定時間ΔＴ３は、上述した第２の所定時間ΔＴ２以下とする。

図８は、本実施形態による画像処理装置によって行われるストリームデータの生成処理を示すフローチャートである。図９は、本実施形態による画像処理装置によって行われるストリームデータの生成処理を模式的に示す図である。ここでは、説明の簡略化のため、第１実施形態と同様に、ビデオアクセスユニットＶＡＵ（０）、ＶＡＵ（２）、ＶＡＵ（４）が、ＩＤＲフレームに対応するビデオアクセスユニットであるものとして説明する。また、第１実施形態と同様に、ビデオアクセスユニットＶＡＵ（１）、ＶＡＵ（３）、ＶＡＵ（５）が、ＩＤＲフレームではないフレームに対応するビデオアクセスユニットであるものとして説明する。

まず、ステップＳ８０１及びステップＳ８０２は、第１実施形態において上述したステップＳ６０１及びステップＳ６０２と同様であるため、説明を省略する。

ステップＳ８０３は、第１実施形態において上述したステップＳ６０３と同様である。即ち、ステップ８０３では、ビデオチャンクに未登録のビデオアクセスユニットのうちから以下のようなビデオアクセスユニットが選択され、選択されたビデオアクセスユニットが第ｎ番目のビデオチャンクに登録される。ビデオチャンクに未登録のビデオアクセスユニットのうちの先頭のＩＤＲビデオアクセスユニットは、第ｎ番目のビデオチャンクの先頭に登録すべきビデオアクセスユニットである。未登録のビデオアクセスユニットのうちの先頭のＩＤＲビデオアクセスユニットの次のＩＤＲビデオアクセスユニットの直前のビデオアクセスユニットは、第ｎ番目のビデオチャンクの最後尾に登録すべきビデオアクセスユニットである。そして、第ｎ番目のビデオチャンクの先頭に登録すべきビデオアクセスユニットから第ｎ番目のビデオチャンクの最後尾に登録すべきビデオアクセスユニットまでが、第ｎ番目のビデオチャンクに登録される。図９（ａ）に示す例においては、ビデオチャンクに未登録のビデオアクセスユニットのうちの先頭のＩＤＲビデオアクセスユニットは、ビデオアクセスユニットＶＡＵ（０）である。当該ビデオアクセスユニットＶＡＵ（０）の次のＩＤＲビデオアクセスユニットは、ビデオアクセスユニットＶＡＵ（２）である。ビデオアクセスユニットＶＡＵ（２）の直前のビデオアクセスユニットは、ビデオアクセスユニットＶＡＵ（１）である。従って、この場合には、ビデオアクセスユニットＶＡＵ（０）とビデオアクセスユニットＶＡＵ（１）とが、図９（ｃ）に示すように、第０番目のビデオチャンクＶＣＨ（０）に順次登録される。

ステップＳ８０４では、オーディオチャンクに未登録のオーディオアクセスユニットのうちから以下のようなオーディオアクセスユニットが選択され、選択されたオーディオアクセスユニットが第ｎ番目のオーディオチャンクに登録される。本実施形態では、以下のような式（６）を満たすように、第ｎ番目のオーディオチャンクにオーディオアクセスユニットが登録される。
Ｓ２（ｎ）−Ｓ１（ｎ）＜ΔＴ１＋ΔＴ３・・・（６）

ここで、Ｓ１（ｎ）は、第ｎ番目のビデオチャンクよりも前に位置する全てのビデオチャンクに含まれるビデオアクセスユニットの総出力時間である。即ち、Ｓ１（ｎ）は、第０番目のビデオチャンクの先頭のビデオアクセスユニットから第ｎ−１番目のビデオチャンクの最後尾のビデオアクセスユニットまでの総出力時間である。また、Ｓ２（ｎ）は、第ｎ番目のオーディオチャンクよりも前に位置する全てのオーディオチャンクに含まれるビデオアクセスユニットの総出力時間である。即ち、Ｓ２（ｎ）は、第０番目のオーディオチャンクの先頭のオーディオアクセスユニットから第ｎ−１番目のオーディオチャンクの最後尾のオーディオアクセスユニットまでの総出力時間である。上述したように、第１の所定時間ΔＴ１は、音声が出力されるタイミングが、画像が表示されるタイミングよりも早くなった場合であっても、鑑賞者に違和感を抱かせないような時間に対応している。第３の所定時間ΔＴ３は、音声符号化部１０１の動作の開始のタイミングに対する画像符号化部１０４の動作の開始のタイミングの遅れである。上述したように、第３の所定時間ΔＴ３は、例えば１つのオーディオアクセスユニットＡＡＵに対応する音声の記録時間（出力時間）とすることができる。ΔＴ１とΔＴ３との間には、以下のような式（７）が成立する。
ΔＴ１＜ΔＴ３・・・（７）

式（６）のような関係が成立するようにすれば、画像符号化部１０４による画像信号の符号化の開始のタイミングが、音声符号化部１０１による音声信号の符号化の開始のタイミングより第３の所定時間だけ遅くても、以下のようになる。第ｎ番目のビデオチャンクの先頭に位置するビデオアクセスユニットの再生時の出力タイミングに対して、再生時の出力開始タイミングの遅れが第１の所定時間を超えないオーディオアクセスユニットが第ｎ番目のオーディオチャンクの先頭に配される。

図９（ｂ）に示す例においては、オーディオチャンクに未登録のオーディオアクセスユニットのうちの先頭のオーディオアクセスユニットは、オーディオアクセスユニットＡＡＵ（０）である。上述した式（６）の関係を満たすような第ｎ番目のオーディオチャンクにおける最後尾のオーディオアクセスユニットは、オーディオアクセスユニットＡＡＵ（２）である。従って、この場合には、オーディオアクセスユニットＡＡＵ（０）からオーディオアクセスユニットＡＡＵ（２）までが、図９（ｄ）に示すように、第０番目のオーディオチャンクＡＣＨ（０）に順次登録される。
ステップＳ８０５では、チャンクの管理番号ｎをインクリメントし、ステップＳ８０２に戻る。

この後、上記と同様の処理が繰り返し行われる。図９（ｅ）に示す例においては、ビデオチャンクに未登録のビデオアクセスユニットのうちの先頭のＩＤＲビデオアクセスユニットは、ビデオアクセスユニットＶＡＵ（２）である。当該ビデオアクセスユニットＶＡＵ（２）の次のＩＤＲビデオアクセスユニットは、ビデオアクセスユニットＶＡＵ（４）である。ビデオアクセスユニットＶＡＵ（４）の直前のビデオアクセスユニットは、ビデオアクセスユニットＶＡＵ（３）である。従って、この場合には、ビデオアクセスユニットＶＡＵ（２）とビデオアクセスユニットＶＡＵ（３）とが、図９（ｇ）に示すように、第１番目のビデオチャンクＶＣＨ（１）に順次登録される。図９（ｆ）に示す例においては、オーディオチャンクに未登録のオーディオアクセスユニットのうちの先頭のオーディオアクセスユニットは、オーディオアクセスユニットＡＡＵ（３）である。上述した式（６）の関係を満たすような第ｎ番目のオーディオチャンクにおける最後尾のオーディオアクセスユニットは、オーディオアクセスユニットＡＡＵ（５）である。従って、この場合には、オーディオアクセスユニットＡＡＵ（３）からオーディオアクセスユニットＡＡＵ（５）までが、図９（ｈ）に示すように、第１番目のオーディオチャンクＡＣＨ（１）に順次登録される。

ビデオチャンクに未登録のＩＤＲビデオアクセスユニットが１つだけになった場合（ステップＳ８０２においてＹＥＳ）には、ステップＳ８０６に移行する。ステップＳ８０６では、ビデオチャンクに未登録の全てのビデオアクセスユニットが最後尾のビデオチャンクに登録される。図９（ｉ）に示す例においては、ビデオチャンクに未登録のビデオアクセスユニットは、ビデオアクセスユニットＶＡＵ（４）及びビデオアクセスユニットＶＡＵ（５）である。従って、この場合には、ビデオアクセスユニットＶＡＵ（４）とビデオアクセスユニットＶＡＵ（５）とが、最後尾のビデオチャンクＶＣＨ（２）に登録される。

ステップＳ８０７では、オーディオチャンクに未登録の全てのオーディオアクセスユニットが、最後尾のオーディオチャンクに登録される。図９（ｊ）に示す例においては、オーディオチャンクに未登録のオーディオアクセスユニットは、オーディオアクセスユニットＡＡＵ（６）とオーディオアクセスユニットＡＡＵ（７）である。従って、この場合には、オーディオアクセスユニットＡＡＵ（６）とオーディオアクセスユニットＡＡＵ（７）とが最後尾のオーディオチャンクＡＣＨ（２）に登録される。
こうして、ｍｄａｔボックスのデータフィールドへのストリームデータの登録が完了する。

このように、画像符号化部１０４による画像信号の符号化の開始のタイミングと、音声符号化部１０１による音声信号の符号化の開始のタイミングとがずれていてもよい。本実施形態においても、以下のようなオーディオアクセスユニットが第ｎ番目のオーディオチャンクの先頭に登録される。第ｎ番目のビデオチャンクの先頭に位置するビデオアクセスユニットの再生時の出力タイミングに対して、再生時の出力開始タイミングの遅れが第１の所定時間を超えないオーディオアクセスユニットが第ｎ番目のオーディオチャンクの先頭に配される。従って、本実施形態においても、鑑賞者が違和感を抱くようなずれが画像と音声との間に生じてしまうのを分割後の動画像において防止し得る画像処理装置を提供することができる。

［変形実施形態］
上記実施形態に限らず種々の変形が可能である。
例えば、上記実施形態では、第ｎ番目のビデオチャンクに対応する第ｎ番目のオーディオチャンクを第ｎ番目のビデオチャンクの後に配する場合を例に説明したが、これに限定されるものではない。例えば、第ｎ番目のビデオチャンクに対応する第ｎ番目のオーディオチャンクを第ｎ番目のビデオチャンクの前に配するようにしてもよい。この場合には、第ｎ番目のオーディオチャンクの先頭においてストリームデータの分割が行われることとなる。

本発明は、上述の実施形態の１以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける１つ以上のプロセッサーがプログラムを読出し実行する処理でも実現可能である。また、１以上の機能を実現する回路（例えば、ＡＳＩＣ）によっても実現可能である。

１０１…音声符号化部
１０２…ｍｏｏｖボックス生成部
１０３…ｍｄａｔボックス生成部
１０４…画像符号化部
１０５…メモリ
１０６…制御部
１０７…記録媒体
１０８…バス
１１２…処理部

Claims

順次入力される画像信号を符号化することによりビデオアクセスユニットを順次生成する画像符号化部と、
順次入力される音声信号を符号化することによりオーディオアクセスユニットを順次生成する音声符号化部と、
複数の前記ビデオアクセスユニットからビデオチャンクを順次生成し、複数の前記オーディオアクセスユニットからオーディオチャンクを順次生成し、前記ビデオチャンクと前記オーディオチャンクとが交互に配されたストリームデータを生成するストリームデータ生成部とを有し、
前記ストリームデータ生成部は、第ｎ番目の前記ビデオチャンクの先頭に位置する前記ビデオアクセスユニットの再生時における出力タイミングに対して、再生時における出力開始タイミングの遅れが第１の所定時間を超えない前記オーディオアクセスユニットが第ｎ番目の前記オーディオチャンクの先頭に位置するように前記ストリームデータを生成し、
前記ビデオアクセスユニットの前記再生時は、分割前の前記ストリームデータを再生する際における前記ビデオアクセスユニットの再生時であり、
前記オーディオアクセスユニットの前記再生時は、前記分割前のストリームデータを再生する際における前記オーディオアクセスユニットの再生時である
ことを特徴とする画像処理装置。
前記オーディオアクセスユニットに対応する音声の出力時間は、第２の所定時間であり、
前記第１の所定時間は、前記第２の所定時間より短いことを特徴とする請求項１に記載の画像処理装置。
前記第ｎ番目のビデオチャンクの前記先頭に位置する前記ビデオアクセスユニットの前記再生時における前記出力タイミングをｔ１、前記第ｎ番目のオーディオチャンクの前記先頭に位置する前記オーディオアクセスユニットの前記再生時における前記出力開始タイミングをｔ２、前記第１の所定時間をΔＴ１、前記第２の所定時間をΔＴ２とすると、前記ストリームデータ生成部は、下式
ｔ２−ΔＴ１≦ｔ１＜ｔ２＋（ΔＴ２−ΔＴ１）
を満たすように前記ストリームデータを生成することを特徴とする請求項２に記載の画像処理装置。
前記画像符号化部の動作の開始のタイミングが前記音声符号化部の動作の開始のタイミングよりも第３の所定時間だけ遅く、
前記第ｎ番目のビデオチャンクよりも前に位置する全ての前記ビデオチャンクの前記ビデオアクセスユニットの総出力時間をＳ１、前記第ｎ番目のオーディオチャンクよりも前に位置する全ての前記オーディオチャンクの前記オーディオアクセスユニットの総出力時間をＳ２、前記第１の所定時間をΔＴ１、前記第３の所定時間をΔＴ３とすると、前記ストリームデータ生成部は、下式
Ｓ２−Ｓ１＜ΔＴ１＋ΔＴ３
を満たすように前記ストリームデータを生成することを特徴とする請求項２に記載の画像処理装置。
前記第３の所定時間は、前記第２の所定時間以下であることを特徴とする請求項４に記載の画像処理装置。
順次入力される画像信号を符号化することによりビデオアクセスユニットを順次生成し、
順次入力される音声信号を符号化することによりオーディオアクセスユニットを順次生成し、
順次生成される複数の前記ビデオアクセスユニットからビデオチャンクを順次生成し、順次生成される複数の前記オーディオアクセスユニットからオーディオチャンクを順次生成し、前記ビデオチャンクと前記オーディオチャンクとが交互に配されたストリームデータを生成し、
前記ストリームデータを生成する際には、第ｎ番目の前記ビデオチャンクの先頭に位置する前記ビデオアクセスユニットの再生時における出力タイミングに対して、再生時における出力開始タイミングの遅れが第１の所定時間を超えない前記オーディオアクセスユニットが第ｎ番目の前記オーディオチャンクの先頭に位置するように前記ストリームデータを生成する
ことを特徴とする画像処理方法。
コンピュータに、
順次入力される画像信号を符号化することによりビデオアクセスユニットを順次生成し、
順次入力される音声信号を符号化することによりオーディオアクセスユニットを順次生成し、
複数の前記ビデオアクセスユニットからビデオチャンクを順次生成し、複数の前記オーディオアクセスユニットからオーディオチャンクを順次生成し、前記ビデオチャンクと前記オーディオチャンクとが交互に配されたストリームデータを生成することを実行させるためのプログラムであって、
前記ストリームデータを生成する際には、第ｎ番目の前記ビデオチャンクの先頭に位置する前記ビデオアクセスユニットの再生時における出力タイミングに対して、再生時における出力開始タイミングの遅れが第１の所定時間を超えない前記オーディオアクセスユニットが第ｎ番目の前記オーディオチャンクの先頭に位置するように前記ストリームデータを生成し、
前記ビデオアクセスユニットの前記再生時は、分割前の前記ストリームデータを再生する際における前記ビデオアクセスユニットの再生時であり、
前記オーディオアクセスユニットの前記再生時は、前記分割前のストリームデータを再生する際における前記オーディオアクセスユニットの再生時である
ことを特徴とするプログラム。