JP4999853B2

JP4999853B2 - 画像符号化方法及び復号方法、それらの装置、及びそれらのプログラム並びにプログラムを記録した記憶媒体

Info

Publication number: JP4999853B2
Application number: JP2008535345A
Authority: JP
Inventors: 信哉志水; 正樹北原; 一人上倉; 由幸八島
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2006-09-20
Filing date: 2007-09-18
Publication date: 2012-08-15
Anticipated expiration: 2027-09-18
Also published as: KR101031624B1; JPWO2008035654A1; TW200822761A; US8385628B2; CA2663084C; EP2066132A1; RU2406257C2; WO2008035654A1; TWI348320B; BRPI0716814A2; US20100086222A1; EP2066132A4; CN101536529A; KR20090053821A; RU2009107689A; CA2663084A1; CN101536529B

Description

本発明は、多視点画像および多視点動画像の符号化および復号技術に関するものである。本願は、２００６年９月２０日に出願された特願２００６−２５４０２３号に基づき優先権を主張し、その内容をここに援用する。

多視点画像とは、複数のカメラで同じ被写体と背景を撮影した複数の画像のことであり、多視点動画像（多視点映像）とは、その動画像のことである。以下では１つのカメラで撮影された動画像を“２次元動画像”と呼び、同じ被写体と背景を撮影した２次元動画像群を多視点動画像と呼ぶ。

２次元動画像は、時間方向に関して強い相関があり、その相関を利用することによって符号化効率を高めている。一方、多視点画像や多視点動画像では、各カメラが同期されていた場合、同じ時間に対応した各カメラの映像は全く同じ状態の被写体と背景を別の位置から撮影したものなので、カメラ間で強い相関がある。多視点画像や多視点動画像の符号化においては、この相関を利用することによって符号化効率を高めることができる。

まず、２次元動画像の符号化技術に関する従来技術を述べる。

国際符号化標準であるＨ．２６４、ＭＰＥＧ−２、ＭＰＥＧ−４をはじめとした従来の多くの２次元動画像符号化方式では、動き補償、直交変換、量子化、エントロピー符号化という技術を利用して、高効率な符号化を行う。動き補償と呼ばれる技術が、フレーム間の時間相関を利用する方法である。

Ｈ．２６４で使われている動き補償技術の詳細については、下記の非特許文献１に記載されているが、以下で概要を説明する。
Ｈ．２６４の動き補償では、符号化対象フレームを様々なサイズのブロックに分割し、ブロックごとに、参照フレームと呼ばれる既に符号化済みのフレームを選び、動きベクトルと呼ばれる対応点を示すベクトル情報を用いて、映像を予測する。このときに許されるブロック分割は１６×１６（ピクセル）、１６×８、８×１６、８×８、８×４、４×８、４×４の７種類であり、被写体の動きの向きや大きさの違いに細かい単位で対応して映像を予測できるようになっている。これによって、予測画像と原画像の差分で表される符号化対象の残差が小さくなるため、高い符号化効率を達成している。

次に、従来の多視点画像や多視点動画像の符号化方式について説明する。

多視点画像の符号化方法と、多視点動画像の符号化方法との違いは、多視点動画像にはカメラ間の相関に加えて、時間方向の相関が同時に存在するということである。しかし、カメラ間の相関を利用する方法はどちらの場合でも、同じ方法を用いることができる。そのため、ここでは多視点動画像の符号化において用いられる方法について説明する。

多視点動画像の符号化については、カメラ間の相関を利用するために、動き補償を同じ時刻の異なるカメラの画像に適用した“視差補償”によって高効率に多視点動画像を符号化する方式が従来から存在する。ここで、視差とは、異なる位置に配置されたカメラの画像平面上で、被写体上の同じ位置が投影される位置の差である。

このカメラ間で生じる視差の概念図を図２１に示す。
この概念図では、光軸が平行なカメラの画像平面を垂直に見下ろしたものとなっている。このように、異なるカメラの画像平面上で被写体上の同じ位置が投影される位置は、一般的に対応点と呼ばれる。
視差補償はこの対応関係に基づいて、符号化対象フレームの各画素値を参照フレームから予測して、その予測残差と、対応関係を示す視差情報とを符号化する。

多くの手法では、視差を画像平面上でのベクトルとして表現する。例えば、非特許文献２では、ブロック単位で視差補償を行う仕組みが含まれているが、ブロック単位の視差を２次元ベクトルで、すなわち２つのパラメータ（ｘ成分およびｙ成分）で表現する。つまり、この手法では、２パラメータで構成される視差情報と予測残差を符号化する。

一方、非特許文献３では、カメラパラメータを符号化に利用し、エピポーラ幾何拘束に基づき視差ベクトルを１次元の情報として表現することにより、予測情報を効率的に符号化する。エピポーラ幾何拘束の概念図を図２２に示す。
エピポーラ幾何拘束によれば、２台のカメラ（カメラＡとカメラＢ）において、片方の画像上の点に対応するもう片方の画像上の点は、エピポーラ線という直線上に拘束される。非特許文献３の手法では、エピポーラ線上での位置を示すために、参照フレームを撮影しているカメラから被写体までの距離という１つのパラメータで全符号化対象フレームに対する視差を表現している。
ITU-T Rec.H.264/ISO/IEC 11496-10, "Editor's Proposed Draft Text Modifications for Joint Video Specification (ITU-T Rec. H.264 / ISO/IEC 14496-10 AVC), Draft 7", Final Committee Draft, Document JVT-E022, pp. 10-13, and 62-68, September 2002. Hideaki Kimata and Masaki Kitahara, "Preliminary results on multiple view video coding(3DAV)", document M10976 MPEG Redmond Meeting, July, 2004. Shinya SHIMIZU, Masaki KITAHARA, Kazuto KAMIKURA and Yoshiyuki YASHIMA, "Multi-view Video Coding based on 3-D Warping with Depth Map ", In Proceedings of Picture Coding Symposium 2006, SS3-6, April , 2006.

従来の多視点動画像の符号化方法によれば、カメラパラメータが既知である場合、エピポーラ幾何拘束を利用して、カメラの台数にかかわらず、参照フレームに対してカメラから被写体までの距離という１次元情報を符号化するだけで、全符号化対象フレームに対する視差補償が実現でき、視差情報を効率的に符号化することが可能である。

しかしながら、カメラパラメータを正確に測定するのは困難であるため、カメラパラメータには少なからず誤差が含まれる。その結果、参照フレームに対するエピポーラ幾何拘束に基づいた視差情報を、同じ時刻の全符号化対象フレームを視差補償する場合に最も効率よくなるように求める場合、求められる視差情報には、全てのカメラのカメラパラメータの誤差が含まれることになる。
そのため、１つの符号化対象フレームを選んだときの視差補償の予測精度は他のカメラに関する誤差の影響を受けて、その符号化対象フレームと参照フレームの組に対して求めた視差情報を用いる場合よりも低下してしまう。

本発明は係る事情に鑑みてなされたものであって、多視点動画像の符号化において、参照フレームの符号化歪みやカメラパラメータの測定誤差が存在する場合にも、精度の高い視差補償を、少ない視差情報で実現することで、従来よりも高い符号化効率を達成することを目的とする。

本発明による画像符号化方法の第１の態様では、多視点画像全体から１つの基準視点を選び、基準視点のカメラに対する他の全てのカメラの画像とのエピポーラ幾何拘束を鑑みた際に、尤もらしい視差情報であるグローバル視差情報を求めて符号化するステップと、基準視点以外のカメラごとに、グローバル視差情報とカメラパラメータとから、そのカメラの画像に対する他の全てのカメラの画像とのエピポーラ幾何拘束を鑑みた際に、尤もらしい視差情報であるベース視差情報を生成するステップと、そのカメラの画像に対し、視差補償に用いる既に符号化済みの参照視点画像との視差情報を示すために、ベース視差情報を補正する補正視差情報を求めて符号化するステップと、ベース視差情報を補正視差情報で補正することで得られる視差情報を用いて、そのカメラの画像を符号化するステップとを有する。

これによれば、補正視差情報が、符号化対象の画像に対して、視差補償の際の参照先の画像（参照視点画像）のみを鑑みて求められるため、グローバル視差情報に含まれる全てのカメラパラメータの誤差の影響や参照フレームの符号化歪みの影響を、カメラごとに取り除くことができ、高い符号化効率を達成することができる。
また、グローバル視差情報が全体で共通するようなおおまかな視差情報を表すので、ベース視差情報の補正量は少なくて済み、補正視差情報の符号量は少ない。
つまり、符号化対象の画像ごとに視差情報を求めて符号化する場合と比べて、共通部分にかかる符号量を節約できるので、全体として符号量を削減することができる。

本発明による画像符号化方法の第２の態様では、多視点画像全体から１つの基準視点を選び、基準視点のカメラに対する他の全てのカメラの画像とのエピポーラ幾何拘束を鑑みた際に、尤もらしい視差情報であるグローバル視差情報を求めて符号化するステップと、基準視点以外のカメラごとに、グローバル視差情報とカメラパラメータとから、そのカメラの画像に対する他の全てのカメラの画像とのエピポーラ幾何拘束を鑑みた際に、尤もらしい視差情報であるベース視差情報を生成するステップと、そのカメラの画像に対し、視差補償に用いる既に符号化済みの参照視点画像の最適な視差補償対応点を示すために、ベース視差情報によって与えられる対応点を補正する補正視差ベクトルを求めて符号化するステップと、ベース視差情報によって得られる対応点を補正視差ベクトルで補正することで視差補償を行いながら、そのカメラの画像を符号化するステップとを有する。

これによれば、補正視差ベクトルが、符号化対象の画像に対して、視差補償の際の参照先の画像（参照視点画像）のみを鑑みて求められるため、グローバル視差情報に含まれる全てのカメラパラメータの誤差の影響や参照フレームの符号化歪みの影響を、カメラごとに取り除くことができ、高い符号化効率を達成することができる。
また、グローバル視差情報が全体で共通するようなおおまかな視差情報を表すので、ベース視差情報によって与えられる対応関係の補正量は少なく済み、補正視差ベクトルの符号量は少ない。
つまり、符号化対象の画像ごとに視差情報を求めて符号化する場合と比べて、共通部分にかかる符号量を節約できるので、全体として符号量を削減することができる。

前記第１の態様において、ベース視差情報と補正視差情報とから得られる視差情報によって示される対応点情報（対応点ベクトル）を、さらに補正するために、２次元の補正ベクトルを求めて、符号化するステップを有する。

これによれば、符号化対象画像を撮影するカメラのカメラパラメータの誤差やカメラのレンズ歪みによるエピポーラ幾何拘束に従った表現では補正できない微小な対応点の不一致を補正できるため、視差補償の予測効率が向上し、高い符号化効率の達成が可能である。
従来の２次元のベクトルだけで補正を行う方式と異なり、幾何拘束による誤差が補正視差情報で取り除かれているため、補正に必要なベクトルは非常に小さくなり、より少ない符号量で精度の高い予測を実現することができる。

上記各態様に関し、基準視点のカメラの画像に対する領域分割を設定するステップと、その領域分割を示す情報を符号化するステップとを有し、設定された領域分割ごとにグローバル視差情報を設定して符号化するようにしても良い。

これによれば、画像に映っている被写体によって変化する視差情報を正確に表すことができるため、グローバル視差情報の精度が向上することで、ベース視差情報を補正するための情報に必要な符号量を削減でき、高い符号化効率の達成が可能である。

ここで、基準視点の画像が、画像全体を領域分割されて、領域ごとに処理を加えて符号化されている場合には、その基準視点の画像を符号化するための領域分割と、グローバル視差情報を設定する単位を表す領域分割とを一致させることで、基準視点のカメラの画像の領域分割を示す情報を新たに符号化しないことも可能である。

また、映像自体と視差情報とでは性質が全く同じではないため、同じ映像の性質を持つ領域と同じ視差情報の性質を持つ領域が一致しない場合、基準視点の画像を符号化するための領域分割と完全に一致させずに、少しだけ領域分割を変更したほうがよい場合がある。
その場合、領域分割の違いのみを符号化することで、符号量を削減することが可能である。

また、符号化対象視点のカメラの画像に対する領域分割を設定するステップと、その領域分割を示す情報を符号化するステップとを有し、設定された領域分割ごとに補正視差情報や、補正視差ベクトルや、補正ベクトルを設定して符号化するようにしても良い。

これによれば、画像に映っている被写体によって変化する視差補償に用いる対応点の情報を正確に表すことができるため、視差補償時の映像予測精度が向上し、高い符号化効率の達成が可能である。

ここで、符号化対象視点の画像が、画像全体を領域分割されて、領域ごとに処理を加えて、この領域分割情報と共に符号化される場合には、その画像を符号化するための領域分割と、視差情報を設定する単位を表す領域分割を一致させることで、視差情報を設定する単位を表す領域分割を示す情報を符号化しないことが可能である。

また、映像自体と視差情報とでは性質が全く同じではないため、同じ映像の性質を持つ領域と同じ視差情報の性質を持つ領域が一致しない場合、画像を符号化するための領域分割と、視差情報を設定する単位を表す領域分割とを完全に一致させずに、少しだけ領域分割を変更したほうがよい場合がある。その場合、領域分割の違いのみを符号化することで、符号量を削減することが可能である。

また、上記各態様に関し、視差補償時に参照するカメラを設定するステップと、そのカメラを示すインデックスを符号化するステップとを有し、符号化対象の画像ごとに求める補正視差情報や補正視差ベクトルや補正ベクトルを、上記インデックスで示されるカメラの符号化済みの画像を用いて視差補償する際に最適となるように求めるようにしても良い。

これによれば、基準視点のカメラだけでなく、符号化対象の画像のカメラに近いカメラの映像を参照画像とすることができるため、オクルージョンなどの影響で対応点の取れない部分が少なく、正確な予測が可能になる。つまり、符号化する視差補償残差を減らし、効率的な符号化を実現することができる。
また、本発明におけるグローバル視差情報やベース視差情報は、参照対象によらない情報であるため、どの参照対象を用いても補正視差情報や補正ベクトルの符号量は少なく抑えることができる。

また、符号化対象画像に対して視差情報を求める際に、領域分割が設定されている場合、その領域ごとに最適な参照先を選択できるようにすることで、より正確な予測が可能となり、効率的な符号化を実現できる。

また、上記各態様に関し、グローバル視差情報を求める前に、各カメラの画像に対する視差情報であるローカル視差情報をエピポーラ幾何拘束に基づいて求めるステップと、その各カメラに対して求められたローカル視差情報とカメラパラメータを用いて、前記グローバル視差情報の候補を生成するステップとを有し、グローバル視差情報を求めるステップでは、同じ領域に対して得られたグローバル視差情報候補の平均値を、その領域のグローバル視差情報と設定するようにしても良い。

これによれば、視差補償時に各カメラで用いる最適な視差情報となるはずのローカル視差情報を最初に計算し、それらを用いてグローバル視差情報を生成することになる。
そのため、後続の処理で補正すべき視差情報を極力少なくするようなグローバル視差情報を求めることができる。つまり、無駄な情報を符号化することがなくなり、効率的な符号化を実現できる。

なお、グローバル視差情報候補からグローバル視差情報を決定する際に、平均値の代わりに、領域内で最も多く現れているグローバル視差情報候補に決定することで、後続の処理で補正すべき視差情報を少なくすることもできる。

さらに、ローカル視差情報とベース視差情報との差から、差分視差情報を設定するステップを有し、符号化対象視点のカメラの画像に対する領域分割を設定するステップにおいて、この差分視差情報が領域内でほぼ同じになるような最大の領域分割を設定し、補正視差情報を求めるステップでは、領域内の差分視差情報から補正視差情報を設定するようにすることもできる。

このようにすれば、グローバル視差情報と補正視差情報とを一度の演算で求めることができるため、それらを個々に求める場合（大量の演算が必要）と比べ、演算量の削減を実現することができる。

また、領域分割の種類が限られている場合などでは、領域分割ごとに差分視差情報の分散を求めて、その分散の値を基準に領域分割を選ぶことで、領域分割を決める演算も高速に行うことが可能となる。

また、上記各態様に関し、ベース視差情報を設定するステップや、グローバル視差情報候補を設置するステップにおいて、変換前の視差情報が与えられた画像における連続性を用いて、変換後の画像上で視差情報が連続的に設定できるようにすることもできる。

例えば、変換前で隣接する画素に対する視差情報がほぼ同じであるにもかかわらず、変換後では隣接しない画素に対して視差情報を設定するような場合に、その間に存在する画素に対する視差情報を、その両者の変換後の視差情報から補間して生成する。

このようにすれば、ベース視差情報やグローバル視差情報候補が与えられる領域が多くなり、補正すべき情報を少なくすることが可能となるため、符号量を抑え、高い符号化効率を達成することができる。
また連続性を隣接関係だけでなく、三次元的な情報を示すことになる視差情報も用いてより正確に判断することができるため、誤ったベース視差情報やグローバル視差情報候補を生成して、逆に補正すべき情報を増加させることを防ぐことができる。

以上の本発明による画像（映像を含む）符号化、および対応する画像復号では、各種の視差情報や視差情報を補正する情報や領域分割情報を、空間的変化もしくは時間的変化を鑑みて符号化することもできる。

各種の視差情報や視差情報を補正する情報や領域分割情報は、映っている映像に依存した情報であるため、画像内の相関や時間的な相関が非常に高い。
そのため、これによれば、各種の視差情報や視差情報を補正する情報や領域分割情報の冗長性を取り除いて符号化することができるため、その符号量を少なくし、高い符号化効率を達成することができる。

また、基準視点の符号化済み画像を縮小するステップを有し、グローバル視差情報を求める際に、生成した縮小画像に対して基準視点のカメラから被写体までの距離を求めるようにする実施も可能である。

このようにすれば、画像を縮小して映像の細かい情報を削除することで、カメラパラメータ誤差などによって生じる視差情報の誤差や細かい変化を取り除くことができる。このような性質を持つグローバル視差情報によると、カメラパラメータの誤差等に左右されない大まかなカメラ間の対応関係が得られる。
そのため、カメラ毎に符号化する補正視差情報や補正ベクトルで重複して修正しなければならない誤差情報を減らし、全体としての符号化効率を向上させることが可能となる。また、縮小画像を用いることにより、視差情報を求める際に演算対象となる画素が減るため、演算量を削減することも可能となる。

なお、多視点動画像を符号化（復号）する場合、各時刻のフレーム集合を多視点画像とみなして、本発明の画像符号化方法（画像復号方法）を適用することができる。
さらに、多視点動画像では本発明の方法で画像全体を符号化するのではなく、時間方向の相関を利用した動き補償など他の手法などを符号化処理対象ごとに選択して符号化することで、符号化効率を高めることもできる。

本発明によれば、視差補償を行うための情報の大幅な増加を防ぎながら、カメラパラメータの推定誤差の影響を考慮した予測精度の高い視差補償を実現することで、多視点画像全体や多視点動画像全体としての高効率な符号化を実現することができる。

本発明において定義した視差補償に用いる各情報のイメージ図である。実施例におけるカメラ構成例の概念図である。本発明の実施例１の映像符号化装置を示す図である。図３のグローバル視差補償情報設定部の詳細を示す図である。図３の視差補償情報設定部の詳細を示す図である。実施例１における映像符号化フローチャートである。図６のステップＳ２の処理に関する詳細フローチャートである。マクロブロックにおけるブロック分割の一例を示す図である。図６のステップＳ４の処理に関する詳細フローチャートである。図６のステップＳ５の処理に関する詳細フローチャートである。本発明の実施例２の映像符号化装置を示す図である。図１１のローカル視差補償情報設定部の詳細を示す図である。図１１のグローバル視差補償情報設定部の詳細を示す図である。図１１の視差補償情報設定部の詳細を示す図である。実施例２における映像符号化フローチャートである。図１５のステップＳ４０２の処理に関する詳細フローチャートである。図１５のステップＳ４０３の処理に関する詳細フローチャートである。図１５のステップＳ４０６の処理に関する詳細フローチャートである。本発明の実施例３の映像復号装置を示す図である。実施例３における映像復号フローチャートである。カメラ間で生じる視差の概念図である。エピポーラ幾何拘束の概念図である。

符号の説明

１００、２００映像符号化装置
１０１、２０１画像入力部
１０２、２０２画像メモリ
１０３、２０３基準視点画像入力部
１０４、２０４基準視点画像メモリ
１０５、２０６グローバル視差補償情報設定部
１０６、２０７ベース視差情報設定部
１０７、２０８視差補償情報設定部
１０８、２０９画像符号化部
１０９、２１０復号画像メモリ
２０５ローカル視差補償情報設定部
１０５１基準視点画像ブロック分割設定部
１０５２ブロック分割情報符号化部
１０５３グローバル視差情報推定部
１０５４グローバル視差情報符号化部
１０７１、２０８１符号化対象画像ブロック分割設定部
１０７２、２０８２ブロック分割情報符号化部
１０７３、２０８５参照視点インデックス設定部
１０７４、２０８６視点インデックス符号化部
１０７５、２０８３補正視差情報設定部
１０７６、２０８４補正視差情報符号化部
１０７７、２０８７補正ベクトル設定部
１０７８、２０８８補正ベクトル符号化部
１０７９、２０８９視差補償効率評価部
２０５１ローカル視差情報ブロック分割設定部
２０５２参照視点インデックス設定部
２０５３ローカル視差情報設定部
２０５４視差補償効率評価部
２０６１基準視点画像ブロック分割設定部
２０６２ブロック分割情報符号化部
２０６３グローバル視差情報推定部
２０６４グローバル視差情報符号化部
３００映像復号装置
３０１符号化データ入力部
３０２基準視点画像入力部
３０３画像メモリ
３０４グローバル視差補償情報復号部
３０５ベース視差情報設定部
３０６視差補償情報復号部
３０７視差補償画像生成部
３０８画像復号部

本発明が従来技術と最も異なる点は、１つの基準視点を設定し、その基準視点の符号化済み画像に対して、同時刻の他の全ての符号化対象画像を視差補償するためにエピポーラ幾何拘束に従ったグローバル視差情報を求め、このグローバル視差情報を各符号化対象画像に対するエピポーラ幾何拘束に従ったベース視差情報へ変換し、各符号化対象画像の性質や、カメラパラメータ誤差に応じて、そのベース視差情報を補正するための視差情報を、符号化対象画像ごとに符号化する点である。
このエピポーラ幾何拘束に従った視差情報は、その画像の視点から被写体までの距離や、エピポーラ直線上の基準点からの距離や、それらの距離に対応付けられたインデックス値で表すことができる。
なお、以下で、視差情報と述べた場合、これらのエピポーラ幾何拘束に基づいた視差情報を指すこととする。本発明で用いるグローバル視差情報とベース視差情報の概念について説明する。

〔グローバル視差情報〕
グローバル視差情報は、基準視点の画像に対して与えられる視差情報のことである。以下では、領域毎に視差情報が与えられるとして説明する。

ある領域Ａが視差情報ｄを持つとすると、同時刻に撮影された他の視点（ｉ＝１、２、３、…、Ｎ）の画像に対する対応領域Ｒ_A（ｄ、ｉ）がエピボーラ幾何拘束に従って得られる。このとき、各対応領域間の画像の相違度を差分絶対値和や差分二乗和や差分の分散などや複数の基準の重み付和などで評価することができる。

この相違度を｛Ａ、Ｒ_A（ｄ、ｉ）｜ｉ＝１、２、…、Ｎ｝の全ての組合せに対して合計したものを、領域Ａにおける視差情報ｄの評価値と呼ぶとすると、最も小さな評価値を与える視差情報をグローバル視差情報Ｄと呼ぶ。
また、誤差の影響を減少させるために、実空間における物体の連続性を仮定して視差情報ｄに対して補正項を追加して評価値を算出する場合もある。

上記対応領域を求めるためにエピポーラ幾何拘束を利用する際に、カメラパラメータや計算に誤差が生じるため、特定の視点ｉ＝ｋを考えた際に、符号化時の符号量Ｒａｔｅ（Ａ、ｄ、ｋ）を最小化させる視差情報ｄは、グローバル視差情報Ｄでない場合がある。

したがって、グローバル視差情報Ｄは、その領域、およびその領域に対する他の全ての視点の画像における対応領域間で、類似度が最も高くなるような視差情報となる。概念的に述べるならば、その領域におけるカメラから被写体までのおよその距離とか、精度の粗い距離を示すと言える。

〔ベース視差情報〕
ベース視差情報が指すものは、グローバル視差情報と同じものである。ただ、その基準となる視点が、グローバル視差情報の場合は基準視点であり、べース視差情報が基準視点以外の視点であるという点だけが異なる。

なお、対応している領城におけるグローバル視差情報とベース視差情報は、同じ３次元位置を表す情報となるが、一般に、視差情報はカメラから被写体までの距離で表されるため、視点が変わることによって、視差情報の具体的な値は異なるものとなる。

図１は、本発明において定義した視差補償に用いる各情報のイメージ図である。
本発明の画像符号化方法では、符号化対象の多視点画像の中から、１つの基準視点を選んで符号化する。そして、基準視点以外の視点の画像を符号化する際に、既に符号化済みの他の視点の画像から映像予測をして符号化を行う。
この映像予測をするために用いる符号化済みの他の視点の画像を、参照視点画像と呼ぶ。この参照視点画像は、基準視点の画像と同じであっても、異なっていてもよい。図１では、一般的な場合を示すために、異なる視点の画像であるように示している。

まず、上記で説明したグローバル視差情報が、基準視点の画像に対して与えられる。グローバル視差情報によって与えられる被写体の３次元位置は、符号化対象視点から見ればベース視差情報となる。そして、符号化対象画像上の画素に対して、参照視点画像だけを考えた際に、対応画素間の類似度が最も高くなる視差情報（これをローカル視差情報と呼ぶ）を求め、その視差情報とベース視差情報の差分を補正視差情報と呼ぶ。

この符号化対象画像上の画素に対する視差情報はエピポーラ幾何拘束に従うため、図２２に示したとおり、どのような視差情報を与えたとしても、参照視点画像上の対応領域は、参照視点画像上で直線上に拘束されてしまい、与えられたカメラパラメータの誤差があると、その直線上に真の対応点が存在しない。
そこで、ローカル視差情報によって与えられた対応点から真の対応点までのベクトルを補正ベクトルと呼ぷ。

グローバル視差情報（およびそれを変換したベース視差情報）だけでなく、このようにして符号化対象画像上のある画素に対して、補正視差情報と補正ベクトルを与えて求められた参照視点画像上の対応点の画像情報を用いて、その画素の映像を予測する。

なお、この図１では表されていないが、グローバル視差情報は多視点画像（多視点動画像の表示時刻が同じ画像群）に対して１画像分を符号化し、補正視差情報と補正ベクトルは、基準視点を除く各視点に対して、１画像分ずつ符号化される。また、ベース視差情報はグローバル視差情報から求められらるものであって、符号化されるものではない。

以下、実施の形態に従って本発明を詳細に説明する。
ここで、以下に説明する実施の形態の例では、３つのカメラで撮影された多視点動画像を符号化する場合を想定し、カメラＡを基準視点としてカメラＢとカメラＣの画像を符号化する方法について説明を行う。
図２に、本実施の形態の例で使用するカメラ構成の概念図を示す。なお、図中の四角型の図形は各カメラのフレームを表し、カメラＢとカメラＣの画像が図中の番号の順に入力されるものとして説明を行う。

まず、第１の実施例（以下、実施例１）について説明する。本発明の実施例１に係る映像符号化装置の構成図を、図３、図４、図５に示す。
図３に示すように、実施例１の映像符号化装置１００は、符号化対象となるカメラＢとカメラＣの原画像を入力する画像入力部１０１と、入力された画像を格納する画像メモリ１０２と、基準視点であるカメラＡの復号画像を入力する基準視点画像入力部１０３と、入力された基準視点の復号画像を格納する基準視点画像メモリ１０４と、基準視点に対するエピポーラ幾何拘束に基づく視差情報であるグローバル視差情報を設定するグローバル視差補償情報設定部１０５と、グローバル視差情報から符号化対象画像の視点に対するエピポーラ幾何拘束に基づく視差情報であるベース視差情報を設定するベース視差情報設定部１０６と、符号化対象画像を視差補償するための情報を設定する視差補償情報設定部１０７と、入力画像を実際に予測符号化する画像符号化部１０８と、符号化した入力画像を復号した画像を格納する復号画像メモリ１０９とを備える。

図４は、グローバル視差補償情報設定部１０５の構成の詳細を示す図である。
この図に示すように、グローバル視差補償情報設定部１０５は、基準視点の画像に対するブロック分割を設定する基準視点画像ブロック分割設定部１０５１と、決定したブロック分割情報を符号化するブロック分割情報符号化部１０５２と、入力された画像群から、ブロック毎にグローバル視差情報を推定するグローバル視差情報推定部１０５３と、求められたグローバル視差情報を符号化するグローバル視差情報符号化部１０５４とを備える。

ここで、グローバル視差情報推定部１０５３によって求められたグローバル視差情報は、ベース視差情報設定部１０６に通知されることになる。
また、ブロック分割情報符号化部１０５２と、グローバル視差情報符号化部１０５４とが出力する符号化データは、本映像符号化装置１００の出力の一部を構成する。

図５は、視差補償情報設定部１０７の構成の詳細を示す図である。
この図に示すように、視差補償情報設定部１０７は、符号化対象画像に対するブロック分割を設定する符号化対象画像ブロック分割設定部１０７１と、決定したブロック分割情報を符号化するブロック分割情報符号化部１０７２と、視差補償を行う際に参照画像として用いる画像の視点を示す視点インデックスを設定する参照視点インデックス設定部１０７３と、決定した視点インデックスを符号化する視点インデックス符号化部１０７４と、ベース視差情報をエピポーラ幾何拘束に基づいて補正するための情報である補正視差情報を設定する補正視差情報設定部１０７５と、決定した補正視差情報を符号化する補正視差情報符号化部１０７６と、ベース視差情報と補正視差情報によって与えられる対応関係をエピポーラ幾何拘束とは関係なく補正するための補正ベクトルを設定する補正ベクトル設定部１０７７と、決定した補正ベクトルを符号化する補正ベクトル符号化部１０７８と、各部によって設定される視差補償のための情報で視差補償を行ったときの予測効率を評価する視差補償効率評価部１０７９とを備える。

ここで、視差補償効率評価部１０７９によって、最も視差補償効率がよいと判断されたときの視差補償画像は、画像符号化部１０８に通知されることになる。
また、ブロック分割情報符号化部１０７２と、視点インデックス符号化部１０７４と、補正視差情報符号化部１０７６と、補正ベクトル符号化部１０７８とが出力する符号化データは、本映像符号化装置１００の出力の一部を構成する。

図６〜図１０に、このように構成される映像符号化装置１００の実行する処理フローを示す。これらの処理フローに従って、実施例１の映像符号化装置１００が実行する処理について詳細に説明する。

図６は、実施例１の映像符号化装置１００で行われる、符号化処理全体の概要を示している。また、このフローでは、カメラＢとカメラＣで同時刻に撮影された１枚ずつの画像を符号化する処理を説明する。

まず、画像入力部１０１により、同時刻に撮影されたカメラＢとカメラＣの画像が１枚ずつ入力され、画像メモリ１０２に格納される［ステップＳ１］。なお、ここで入力された画像と同時刻に撮影されたカメラＡの復号画像が、基準視点画像入力部１０３によって入力され、基準視点画像メモリ１０４に格納されているものとする。

次に、グローバル視差補償情報設定部１０５において、画像メモリ１０２と基準視点画像メモリ１０４上の画像から、基準視点画像におけるエピポーラ幾何拘束を満たすグローバル視差情報を求め、それを符号化する［ステップＳ２］。ここで行われる処理の詳細は、後で図７を用いて説明する。

以降のステップＳ４〜Ｓ７の処理は、画像メモリ１０２上の画像ごとに行われる。ここでは、カメラＢの画像をカメラＣの画像に先立って符号化するとして説明を行う。
つまり、画像メモリ１０２からカメラＢの画像を取り出して符号化対象画像に設定し［ステップＳ３］、ステップＳ２の処理で求めたグローバル視差情報を、ベース視差情報設定部１０６で符号化対象画像に対するエピポーラ幾何拘束に従ったベース視差情報に変換し［ステップＳ４］、そのベース視差情報をもとに符号化効率を鑑みて、その他の視差補償情報であるところの参照視点インデックス、補正視差情報、補正ベクトル等を求めて符号化し［ステップＳ５］、それらの求められた視差補償情報を用いながら、符号化対象画像を画像符号化部１０８で符号化する［ステップＳ６］。
符号化した画像は復号され、復号画像メモリ１０９に格納される［ステップＳ７］。そして、符号化した画像がカメラＢの画像なら［ステップＳ８］、次に、カメラＣの画像を画像メモリ１０２から取り出して、同様の手順［ステップＳ４〜Ｓ７］で符号化を行い、全ての処理を終了する。ステップＳ４、ステップＳ５で行う処理は、後で詳細に説明する。

図７に、グローバル視差補償情報設定部１０５で行われるステップＳ２の処理の詳細な処理フローを示す。

本実施例１では、縦横１６画素で構成されるマクロブロック単位でブロック分割を指定し、そのブロック分割で作成されるマクロブロック内のブロック（便宜上、以下では単に“ブロック”と呼ぶ）単位でグローバル視差情報を求めて符号化する。もちろん、マクロブロックより大きなサイズのブロックを用いてもよい。

マクロブロックで適用可能なブロック分割としては様々なものが考えられるが、例えば、図８に示すようなものが考えられる。なお、図８に記載のように、ブロック分割の種類に関するインデックスをｂｌｋＭｏｄｅとし、ブロック分割ｂｌｋＭｏｄｅにおけるブロック数をｍａｘＢｌｋ［ｂｌｋＭｏｄｅ］と表す。ブロック分割の種類の数はｍａｘＢｌｋＭｏｄｅで表す。

また、マクロブロックのインデックスをＭＢＢｌｋと表し、マクロブロック数をｍａｘＭＢＢｌｋと表す。
したがって、ここでの処理は、マクロブロックのインデックスＭＢＢｌｋを０に初期化した後［ステップＳ１０１］、ＭＢＢｌｋに１を加算しながら［ステップＳ１１６］、ＭＢＢｌｋがｍａｘＭＢＢｌｋになるまで［ステップＳ１１７］、以下の処理［ステップＳ１０２〜Ｓ１１５］を繰り返す。
その後、求まったブロック分割情報ＢＬＫＭｏｄｅとグローバル視差情報ＧＤｉｓｐＩｎｆｏを、それぞれブロック分割情報符号化部１０５２と、グローバル視差情報符号化部１０５４で符号化する［ステップＳ１１８］。

マクロブロック毎に繰り返される処理では、ブロック分割候補ごとに、その分割を評価し、最も評価の良いものをそのマクロブロックのブロック分割に設定するということを行う。
つまり、ブロック分割ｂｌｋＭｏｄｅを０に、そのマクロブロックでの評価値の最良値ｂＶａｌｕｅを絶対に取り得ない最悪の評価値ｗＶａｌｕｅに初期化した後［ステップＳ１０２］、ｂｌｋＭｏｄｅに１を加算しながら［ステップＳ１１４］、ｂｌｋＭｏｄｅがｍａｘＢｌｋＭｏｄｅになるまで［ステップＳ１１５］、ブロック分割ｂｌｋＭｏｄｅに対する評価値ｖａｌｕｅを求め［ステップＳ１０３〜Ｓ１１１］、ｖａｌｕｅとｂＶａｌｕｅとを比較することで最良の評価値を与えるブロック分割を求め［ステップＳ１１２］、そのマクロブロックの分割をＢＬＫＭｏｄｅ［ＭＢＢｌｋ］に、グローバル視差情報をＧＤｉｓｐＩｎｆｏ［ＭＢＢｌｋ］に格納する［ステップＳ１１３］という処理を繰り返す。

ブロック分割ｂｌｋＭｏｄｅに対する評価値ｖａｌｕｅは、分割された各ブロックにおける視差補償のレート歪みコストを合計することで求められる。
すなわち、分割されたブロックのインデックスをｂｌｋで表すとすると、ｂｌｋを０に初期化し、ｖａｌｕｅを、ブロック分割がｂｌｋＭｏｄｅであることによる評価値ＩｎｉｔＶａｌｕｅ［ｂｌｋＭｏｄｅ］に初期化した後［ステップＳ１０３］、ｂｌｋに１を加え、ｖａｌｕｅにブロック毎の最良レート歪みコストｂｅｓｔＢｌｋＣｏｓｔを加え、各ブロックの最良レート歪みコストを与えるグローバル視差情報をｔｅｍｐＧＤｉｓｐＩｎｆｏ［ｂｌｋ］に格納しながら［ステップＳ１１０］、ｂｌｋがｍａｘＢｌｋ［ｂｌｋＭｏｄｅ］になるまで［ステップＳ１１１］、各ブロックで最良レート歪みコストを与えるグローバル視差情報を求める処理［ステップＳ１０４〜Ｓ１０９］を繰り返す。
なお、ＩｎｉｔＶａｌｕｅ［ｂｌｋＭｏｄｅ］は、ブロック分割がｂｌｋＭｏｄｅであることを示すための情報を符号化するために必要な符号量に依存した値が予め定められているものとする。

ブロックに対して、最良レート歪みコストを与えるグローバル視差情報を求める処理では、グローバル視差情報候補のインデックスｇＤｉｓｐＩｎｆｏの最大値をｍａｘＧＤｉｓｐＩｎｆｏと表すとすると、ｇＤｉｓｐＩｎｆｏを０に、そのブロックでのレート歪みコストの最良値ｂｅｓｔＢｌｋＣｏｓｔを絶対に取り得ない最悪の値ｗＢｌｋＣｏｓｔに初期化した後［ステップＳ１０４］、ｇＤｉｓｐＩｎｆｏに１を加算しながら［ステップＳ１０８］、ｇＤｉｓｐＩｎｆｏがｍａｘＧＤｉｓｐＩｎｆｏを超えるまで［ステップＳ１０９］、グローバル視差情報ｇＤｉｓｐＩｎｆｏに対するレート歪みコストｂｌｋＣｏｓｔを求め［ステップＳ１０５］、ｂｌｋＣｏｓｔとｂｅｓｔＢｌｋＣｏｓｔとを比較することで、最良のレート歪みコストを与えるグローバル視差情報を求め［ステップＳ１０６］、そのグローバル視差情報をｂｅｓｔＧＤｉｓｐＩｎｆｏに保存する［ステップＳ１０７］という処理を繰り返す。

なお、グローバル視差情報ｇＤｉｓｐＩｎｆｏに対するレート歪みコストｂｌｋＣｏｓｔは、以下の式に従って求められる。

ここで、λ₁はラグランジュの未定乗数であり、予め設定された値が利用される。Ｒａｔｅ（）は引数で与えられるグローバル視差情報を符号化するのに必要な符号
量またはその予測値を返す関数を表す。

Σ_camは、ｃａｍ∈｛カメラＢ、カメラＣ｝の和を表し、Σ_pixは、ｐｉｘ∈｛ブロック内の画素｝の和を表す。
ｄ_base（）は引数として与えられるグローバル視差情報インデックスの示す基準視点から被写体までの距離を返す関数を表す。
Ｖａｌｕｅ（）は第一引数として与えられる視点における画像上の、第二引数として与えられる画素位置の画素値を返す関数を表し、Ｔｒａｎｓ（ｓｒｃ、ｄｓｔ、ｐｉｘ、ｄ）は、視点ｓｒｃにおける画像上の、位置ｐｉｘの画素の視点から被写体までの距離がｄの場合に、画素ｐｉｘの視点ｄｓｔにおける画像上における対応画素ｐを返す関数を表している。このｐは、以下の式で求められる。

ここでＡ、Ｒ、ｔはカメラパラメータであり、それぞれ内部パラメータ、回転パラメータ、並進パラメータを示す。内部パラメータと回転パラメータは３×３行列であり、ｔは３次元のベクトルである。
上記の「〜」が付加されたｐは、ｐの斉次座標を示している。また、「＾」が付加されたpixは、pixの斉次座標のうち、特に第３成分が１であるものを表している。
斉次座標は、同次座標とも呼ばれる。２次元座標に対する斉次座標は３個の成分を持つ。この斉次座標の第３成分の値で、第１成分および第２成分の値をそれぞれ除算した値を、第１成分および第２成分として持つ座標が、斉次座標に対する普通の座標となる。なお、カメラパラメータの表し方は様々であり、本実施例では、上記式によってカメラ間の対応点が計算できるようなカメラパラメータであるとする。

図９に、ベース視差情報設定部１０６で行われるステップＳ４の処理の詳細な処理フローを示す。

ここでの処理は、基準視点から撮影された画像の画素ごとに行われる。
つまり、画素インデックスｂｐを０に初期化した後［ステップＳ２０１］、ｂｐに１を加算しながら［ステップＳ２１３］、ｂｐが画像内画素数ｎｕｍＰｉｘになるまで［ステップＳ２１４］、以下の処理［ステップＳ２０２〜Ｓ２１２］を繰り返す。
また、ベース視差情報全体をＢＤｉｓｐＩｎｆｏと表し、［］を用いて指定された位置のベース視差情報を表すものとする。このベース視差情報はフローの最初で絶対に取り得ない大きな値で初期化される［ステップＳ２０１］。
なお、処理を行う画素の順番はどのような順番でも問題ないが、本実施例１では、ラスタースキャン順に処理を行うものとする。

画素ごとに繰り返し行われる処理では、まず、画素ｂｐが含まれるマクロブロックＭＢＢｌｋと、グローバル視差情報を設定する際に求められたブロック分割に従った場合のブロックインデックスｂｌｋを求める［ステップＳ２０２］。
次に、画素ｂｐが符号化対象画像で対応する画素ｔｐと、そこでのベース視差情報候補ｂＤｉｓｐＩｎｆｏを、グローバル視差情報ＧＤｉｓｐＩｎｆｏ［ＭＢＢｌｋ］［ｂｌｋ］から、次の数式を用いて求める［ステップＳ２０３］。

ここでｔａｒは、符号化対象画像の視点を表し、ｄ_tar（）は、引数として与えられる視差情報インデックス（即ち、ベース視差情報候補ｂＤｉｓｐＩｎｆｏ）の示す符号化対象画像の視点から被写体までの距離を返す関数を表す。
即ち、(i)画素ｂｐ（の位置）、(ii)画素ｂｐにおけるグローバル視差情報が示す基準視点から被写体までの距離、(iii)基準視点のカメラパラメータ、および、(iv)符号化対象画像の視点のカメラパラメータから、画素ｔｐ（の位置）および画素ｔｐにおけるベース視差情報候補を求める。
ただし、直接得られるのは画素ｔｐ（の位置）と画素ｔｐにおける符号化対象画像の視点から被写体までの距離であり、後者が、関数ｄ_tar の逆関数を用いて、上記の、画素ｔｐにおけるベース視差情報候補（ｂＤｉｓｐＩｎｆｏ）に変換される。

このようにして求められたｂＤｉｓｐＩｎｆｏは、その位置における既に求められたベース視差情報ＢＤｉｓｐＩｎｆｏ［ｔｐ］と、それらが表す符号化対象画像の視点から被写体までの距離を尺度として比較され［ステップＳ２０４］、ｂＤｉｓｐＩｎｆｏの表す距離のほうが小さくない場合には、オクルージョン（カメラで見えていなかった部分）が発生しているということで、その画素に対する処理を終了する。

ｂＤｉｓｐＩｎｆｏの表す距離のほうが小さい場合には、ｂＤｉｓｐＩｎｆｏでＢＤｉｓｐＩｎｆｏ［ｔｐ］の値を更新する［ステップＳ２０５］。
次に、実空間上での物体の連続性を用いて、ＢＤｉｓｐＩｎｆｏの更新を行う。つまり、ｂｐの左もしくは上で隣接する画素の集合ＮＥＩＧＨＢＯＲを生成し［ステップＳ２０６］、ＮＥＩＧＨＢＯＲが空集合になるまで［ステップＳ２０７］、処理の完了した画素をＮＥＩＧＨＢＯＲから取り除きながら［ステップＳ２１２］、次の処理［ステップＳ２０８〜Ｓ２１１］を繰り返す。

ＮＥＩＧＨＢＯＲの要素ごとに行われる処理では、まず、ＮＥＩＧＨＢＯＲの１要素をｎｂｐとしたとき、ｎｂｐにおけるグローバル視差情報をＧＤｉｓｐＩｎｆｏより求め、ｎＧＤｉｓｐＩｎｆｏとする［ステップＳ２０８］。
次に、ｎＧＤｉｓｐＩｎｆｏとＧＤｉｓｐＩｎｆｏ［ＭＢＢｌｋ］［ｂｌｋ］との差分絶対値と予め与えられる閾値ＴＨとを比較する［ステップＳ２０９］。
閾値以上の場合には、実空間上で物体は連続でないということなので、その要素に対する処理は終了する。
閾値より小さい場合には、上記ステップＳ２０３の処理における式を用いて、画素ｎｂｐが符号化対象画像で対応する画素ｎｔｐと、そこでのベース視差情報ｎｂＤｉｓｐＩｎｆｏを求める［ステップＳ２１０］。
そして、ｔｐとｎｔｐとの間に存在する画素のベース視差情報をｂＤｓｉｐＩｎｆｏとｎｂＤｉｓｐＩｎｆｏを用いて補完する［ステップＳ２１１］。
両端の情報から間の値を補完する方法であれば、どのような方法を用いることもできるが、最も単純な方法として、両端のベース視差情報から間を線形補完する方法がある。なお、計算される補完値に対して、それよりも小さなベース視差情報が既にある場合には、オクルージョンが発生しているということで、更新を行わない。

本実施例１では、各画素に関して画素位置とグローバル視差情報から、符号化対象画像での対応画素とベース視差情報を求める計算が何度も適用されるが、ステップＳ２１０の処理の計算は、上記ステップＳ２０３の処理の式を用いて行われるため、ステップＳ２０３の処理での結果を格納しておくことができるならば、そのときの値を用いることで各画素に対して一度の計算だけで全て済み、演算量を節約することが可能である。

図１０に、視差補償情報設定部１０７で行われるステップＳ５の処理の詳細なフローを示す。

本実施例１では、マクロブロック毎にブロック分割を決定し、ブロック毎に参照視点インデックスと、補正視差情報と、補正ベクトルとを求めて符号化する。本実施例では、このブロック毎に求める参照視点インデックスと、補正視差情報と、補正ベクトルとを視差補償情報と呼ぶことにする。なお、あるブロックにおいて視差補償に用いる情報には、この視差補償情報の他に、ベース視差情報も含まれる。即ち、ここでは、ベース視差情報を補正するための情報が視差補償情報である。
したがって、マクロブロックインデックスＭＢＢｌｋを０で初期化した後［ステップＳ３０１］、ＭＢＢｌｋに１を加算しながら［ステップＳ３１６］、ＭＢＢｌｋがｍａｘＭＢＢｌｋになるまで［ステップＳ３１７］、視差補償情報を加味しながらブロック分割を決定する処理［ステップＳ３０２〜Ｓ３１５］を繰り返し、求められた視差補償情報を、ブロック分割情報符号化部１０７２、視点インデックス符号化部１０７４、補正視差情報符号化部１０７６、補正ベクトル符号化部１０７８で符号化する［ステップＳ３１８］。

視差補償情報を加味しながらブロック分割を決定する処理では、ブロック分割情報ｂｌｋＭｏｄｅを０に初期化した後［ステップＳ３０２］、ｂｌｋＭｏｄｅに１を加算しながら［ステップＳ３１４］、ｂｌｋＭｏｄｅがｍａｘＢｌｋＭｏｄｅになるまで［ステップＳ３１５］、視差補償情報を加味したマクロブロックのレート歪みコストＭＢＣｏｓｔを求め［ステップＳ３０３〜Ｓ３１１］、それまでの最小コストｂｅｓｔＭＢＣｏｓｔと比較して［ステップＳ３１２］、より小さなコストとなるブロック分割を、そのマクロブロックのブロック分割ｅＢＬＫＭｏｄｅ［ＭＢＢｌｋ］に決定する［ステップＳ３１３］という処理を繰り返す。
なおｂｅｓｔＭＢＣｏｓｔは最初に絶対に取り得ない最大値ｗＭＢＣｏｓｔで初期化される［ステップＳ３０２］。

視差補償情報を加味したマクロブロックのレート歪みコストを求める処理では、ブロックインデックスｂｌｋを０に初期化した後［ステップＳ３０３］、ｂｌｋに１を加算しながら［ステップＳ３１０］、ｂｌｋがｍａｘＢｌｋ［ｂｌｋＭｏｄｅ］になるまで［ステップＳ３１１］、ブロック毎に最小のレート歪みコストを与える視差補償情報ｂｅｓｔＥＤｉｓｐＩｎｆｏと、そのときのレート歪みコストｂｅｓｔＢｌｋＥＣｏｓｔを求める処理［ステップＳ３０４〜Ｓ３０９］を繰り返す。
なお、マクロブロックに対するレート歪みコストＭＢＣｏｓｔは、最初に０で初期化された後［ステップＳ３０３］、ブロック毎の処理が終了した際に、ブロックに対する最小レート歪みコストｂｅｓｔＢｌｋＥＣｏｓｔを加算していくことで計算される［ステップＳ３１０］。
また、ここで決定した視差補償情報はｔｅｍｐＥＤｉｓｐＩｎｆｏ［ｂｌｋ］に格納され［ステップＳ３１０］、最終的なマクロブロックのレート歪みコストを鑑みて、最良のものであればＥＤｉｓｐＩｎｆｏ［ＭＢＢｌｋ］に格納する［ステップＳ３１３］。

ブロックの最小レート歪みコストを与える視差情報を求める処理では、参照視点インデックスと、補正視差情報と、補正ベクトルの組と対応付けられた視差補償情報インデックスｅＤｉｓｐＩｎｆｏを０で初期化した後［ステップＳ３０４］、ｅＤｉｓｐＩｎｆｏに１を加算しながら［ステップＳ３０８］、ｅＤｉｓｐＩｎｆｏが参照視点インデックスと、補正視差情報と、補正ベクトルの組合せの数ｍａｘＥＤｉｓｐＩｎｆｏになるまで［ステップＳ３０９］、ｅＤｉｓｐＩｎｆｏに対応する視差補償情報でのレート歪みコストｂｌｋＥＣｏｓｔを求め［ステップＳ３０５］、ｂｌｋＥＣｏｓｔがそれまでの最小レート歪みコストｂｅｓｔＢｌｋＥＣｏｓｔよりも小さいならば［ステップＳ３０６］、ｂｅｓｔＥＤｉｓｐＩｎｆｏにｅＤｉｓｐＩｎｆｏを格納し、ｂｅｓｔＢｌｋＥＣｏｓｔをｂｌｋＥＣｏｓｔで更新する処理［ステップＳ３０７］を、繰り返す。
なお、ｂｅｓｔＢｌｋＥＣｏｓｔは、最初に絶対に取り得ない最大値ｗＢｌｋＥＣｏｓｔで初期化される［ステップＳ３０４］。

ステップＳ３０６の処理におけるレート歪みコストの計算には、以下の式が用いられる。

ここで、λ₂はラグランジュの未定乗数であり、予め設定された値が利用される。また、ｔａｒは符号化対象画像の視点を示し、ｒｅｆ、ｍｄ、ｃｍｖはそれぞれ、視差補償情報ｅＤｉｓｐＩｎｆｏで示される参照視点インデックス、補正視差情報、補正ベクトルを示す。

次に、第２の実施例（以下、実施例２）について説明する。本発明の実施例２に係る映像符号化装置の構成図を、図１１、図１２、図１３、図１４に示す。

図１１に示すように、実施例２の映像符号化装置２００は、符号化対象となるカメラＢとカメラＣの原画像を入力する画像入力部２０１と、入力された画像を格納する画像メモリ２０２と、基準視点であるカメラＡの復号画像を入力する基準視点画像入力部２０３と、入力された基準視点の復号画像を格納する基準視点画像メモリ２０４と、符号化対象の画像に対するエピポーラ幾何拘束に基づく視差情報であるローカル視差情報を設定するローカル視差補償情報設定部２０５と、各符号化対象の画像に対して設定されたローカル視差情報から、基準視点に対するエピポーラ幾何拘束に基づく視差情報であるグローバル視差情報を設定し符号化するグローバル視差補償情報設定部２０６と、グローバル視差情報を変換することで、符号化対象画像の視点に対するエピポーラ幾何拘束に基づく視差情報であるベース視差情報を設定するベース視差情報設定部２０７と、符号化対象画像を視差補償するための情報を設定する視差補償情報設定部２０８と、入力画像を実際に予測符号化する画像符号化部２０９と、符号化した入力画像を復号した画像を格納する復号画像メモリ２１０とを備える。

なお、復号画像メモリ２１０は、画像符号化部２０９が既に符号化済みの画像を利用するために復号画像を蓄えるメモリを有する場合には、そのメモリと兼ねてもよい。

図１２は、ローカル視差補償情報設定部２０５の構成の詳細を示す図である。
この図に示すように、ローカル視差補償情報設定部２０５は、ローカル視差情報を求める上での符号化対象画像のブロック分割を設定するローカル視差情報ブロック分割設定部２０５１と、視差補償を行う際に参照画像として用いる画像の視点を示す視点インデックスを設定する参照視点インデックス設定部２０５２と、エピポーラ幾何拘束に基づいた視差情報を設定するローカル視差情報設定部２０５３と、設定されたブロック分割と、参照視点インデックスと、視差情報とで視差補償を行う場合の効率を評価し、各設定部にフィードバックをかける視差補償効率評価部２０５４とを備える。

ここで、参照視点インデックス設定部２０５２によって設定された一次視点インデックスは、視差補償情報設定部２０８に通知され、ローカル視差情報設定部２０５３によって設定されたローカル視差情報は、グローバル視差補償情報設定部２０６と視差補償情報設定部２０８に通知される。

図１３は、グローバル視差補償情報設定部２０６の構成の詳細を示す図である。
この図に示すように、グローバル視差補償情報設定部２０６は、基準視点の画像に対するブロック分割を設定する基準視点画像ブロック分割設定部２０６１と、決定したブロック分割情報を符号化するブロック分割情報符号化部２０６２と、ローカル視差補償情報設定部２０５内のローカル視差情報設定部２０５３から通知されるローカル視差情報を用いて、ブロック毎にグローバル視差情報を推定するグローバル視差情報推定部２０６３と、求められたグローバル視差情報を符号化するグローバル視差情報符号化部２０６４とを備える。

ここで、グローバル視差情報推定部２０６３によって求められたグローバル視差情報は、ベース視差情報設定部２０７に通知されることになる。
また、ブロック分割情報符号化部２０６２と、グローバル視差情報符号化部２０６４とが出力する符号化データは、本映像符号化装置２００の出力の１つとなる。

図１４は、視差補償情報設定部２０８の構成の詳細を示す図である。
この図に示すように、視差補償情報設定部２０８は、ベース視差情報設定部２０７から通知されるベース視差情報と、ローカル視差補償情報設定部２０５内のローカル視差情報設定部２０５３から通知されるローカル視差情報との差分を用いて、符号化対象画像に対するブロック分割を設定する符号化対象画像ブロック分割設定部２０８１と、決定したブロック分割情報を符号化するブロック分割情報符号化部２０８２と、決定されたブロック分割情報と上記差分からベース視差情報をエピポーラ幾何拘束に基づいて補正するための情報である補正視差情報を設定する補正視差情報設定部２０８３と、決定した補正視差情報を符号化する補正視差情報符号化部２０８４と、ローカル視差補償情報設定部２０５内の参照視点インデックス設定部２０５２から通知される一次視点インデックスとブロック分割情報とを用いて、ブロック毎に参照視点インデックスを設定する参照視点インデックス設定部２０８５と、決定した視点インデックスを符号化する視点インデックス符号化部２０８６と、エピポーラ幾何拘束に基づいた情報によって与えられる対応関係をエピポーラ幾何拘束とは関係なく補正するための補正ベクトルを設定する補正ベクトル設定部２０８７と、決定した補正ベクトルを符号化する補正ベクトル符号化部２０８８と、各部によって設定された情報で視差補償を行ったときの予測効率を評価し補正ベクトル設定部２０８７にフィードバックをかける視差補償効率評価部２０８９とを備える。

ここで、視差補償効率評価部２０８９によって、最も視差補償効率がよいと判断されたときの視差補償画像は画像符号化部２０９に通知されることになる。
また、ブロック分割情報符号化部２０８２と、補正視差情報符号化部２０８４と、視点インデックス符号化部２０８６と、補正ベクトル符号化部２０８８とが出力する符号化データは、本映像符号化装置２００の出力の１つとなる。

図１５〜図１８に、このように構成される映像符号化装置２００の実行する処理フローを示す。これらの処理フローに従って、実施例２の映像符号化装置２００の実行する処理について詳細に説明する。

図１５は、実施例２の映像符号化装置２００で行われる、符号化処理全体の概要を示している。また、このフローでは、カメラＢとカメラＣで同時刻に撮影された１枚ずつの画像を符号化する処理を説明する。

まず、画像入力部２０１により、同時刻に撮影されたカメラＢとカメラＣの画像が１枚ずつ入力され、画像メモリ２０２に格納される［ステップＳ４０１］。なお、ここで入力された画像と同時刻に撮影されたカメラＡの復号画像が基準視点画像入力部２０３によって入力され、基準視点画像メモリ２０４に格納されているものとする。

次に、ローカル視差補償情報設定部２０５において、画像メモリ２０２と基準視点画像メモリ２０４の画像から、画像メモリ上の画像ごとにローカル視差情報を求める［ステップＳ４０２］。ここで行われる処理の詳細は後で図１６を用いて説明する。

そして、グローバル視差補償情報設定部２０６において、ローカル視差情報を用いて、基準視点画像におけるエピポーラ幾何拘束を満たすグローバル視差情報を求め、符号化する［ステップＳ４０３］。ここで行われる処理の詳細は後で図１７を用いて説明する。

以降の処理［ステップＳ４０５〜Ｓ４０８］は画像メモリ２０２上の画像ごとに行われる。ここでは、カメラＢの画像をカメラＣの画像に先立って符号化するとして説明を行う。
つまり、画像メモリ２０２よりカメラＢの画像を取り出して符号化対象画像に設定し［ステップＳ４０４］、ステップＳ４０３の処理で求めたグローバル視差情報を、ベース視差情報設定部２０７で符号化対象画像に対するエピポーラ幾何拘束に従ったベース視差情報に変換し［ステップＳ４０５］、ローカル視差補償情報とベース視差情報とから、符号化効率を鑑みて、視差補償情報であるところの参照視点インデックス、補正視差情報、補正ベクトル等を視差補償情報設定部２０８で求めて符号化し［ステップＳ４０６］、それらの求められた視差補償情報を用いながら、符号化対象画像を画像符号化部２０９で符号化する［ステップＳ４０７］。符号化した画像は復号され、復号画像メモリ２１０に格納される［ステップＳ４０８］。
そして、符号化した画像がカメラＢの画像なら［ステップＳ４０９］、カメラＣの画像を画像メモリ２０２から取り出して［ステップＳ４１０］、同様の手順［ステップＳ４０５〜Ｓ４０８］で符号化を行い、全ての処理を終了する。
ここで、ステップＳ４０５で行われる処理は、既に説明したステップＳ４で行われる処理（図６）と同様の処理であるため説明を省略する。
なお、ステップＳ４０６で行われる処理の詳細は、後で図１８を用いて説明する。

図１６に、ローカル視差補償情報設定部２０５で行われるステップＳ４０２の処理の詳細な処理フローを示す。なお、ローカル視差補償情報設定部２０５は、ここで示される処理を、画像メモリ２０２上の画像ごとに適用する。

本実施例２では、縦横１６画素で構成されるマクロブロック単位でブロック分割を指定し、そのブロック分割で作成されるブロック単位でローカル視差情報を求める。マクロブロックで適用可能なブロック分割としては様々なものが考えられるが、例えば、図８に示すようなものが考えられる。
実施例１のときと同様に、ブロック分割の種類に関するインデックスをｂｌｋＭｏｄｅ、ブロック分割ｂｌｋＭｏｄｅにおけるブロック数をｍａｘＢｌｋ［ｂｌｋＭｏｄｅ］、ブロック分割の種類の数はｍａｘＢｌｋＭｏｄｅで表す。

ここでの処理は、まずマクロブロックのインデックスＭＢＢｌｋを０に初期化した後［ステップＳ５０１］、ＭＢＢｌｋに１を加算しながら［ステップＳ５１６］、ＭＢＢｌｋが画像内のマクロブロック数ｍａｘＭＢＢｌｋになるまで［ステップＳ５１７］、ブロック分割とローカル視差情報を求める処理［ステップＳ５０２〜Ｓ５１５］を繰り返す。

ブロック分割とローカル視差情報を求める処理では、各ブロック分割に対して最適なローカル視差補償情報を求め、その中から最も評価の良いブロック分割を決定するということを行う。
つまり、ブロック分割ｂｌｋＭｏｄｅを０に、そのマクロブロックでの評価値の最良ｂｅｓｔＭＢＬＣｏｓｔを絶対に取り得ない最大の評価値ｗＭＢＬＣｏｓｔに初期化した後［ステップＳ５０２］、ｂｌｋＭｏｄｅに１を加算しながら［ステップＳ５１４］、ｂｌｋＭｏｄｅがｍａｘＢｌｋＭｏｄｅになるまで［ステップＳ５１５］、ブロック分割ｂｌｋＭｏｄｅに対する評価値ＭＢＬＣｏｓｔを求め［ステップＳ５０３〜Ｓ５１１］、ＭＢＬＣｏｓｔがｂｅｓｔＭＢＬＣｏｓｔよりも小さくなるようなら［ステップＳ５１２］、ＭＢＬＣｏｓｔをｂｅｓｔＭＢＬＣｏｓｔに、そのときのブロック分割ｂｌｋＭｏｄｅをｌＢＬＫＭｏｄｅ［ＭＢＢｌｋ］に、そのときのブロック毎のローカル視差補償情報ｔｅｍｐＬＤｉｓｐＩｎｆｏをＬＤｉｓｐＩｎｆｏ［ｃａｍ］に格納する［ステップＳ５１３］、という処理を繰り返す。
ここでｃａｍは画像メモリ２０２上の画像に対するインデックスを表している。

ブロック分割に対する評価値を求める処理では、ブロック毎に最適なローカル視差補償情報を求め、その合計値をブロック分割に対する評価値とすることを行う。
つまり、ブロックインデックスｂｌｋを０に、ブロック分割に対する評価値ＭＢＬＣｏｓｔを０に初期化した後［ステップＳ５０３］、ｂｌｋに１を加算しながら［ステップＳ５１０］、ｂｌｋがｍａｘＢｌｋ［ｂｌｋＭｏｄｅ］になるまで［ステップＳ５１１］、ブロックｂｌｋに対する最良のローカル視差補償情報ｂｅｓｔＬＤｉｓｐＩｎｆｏと評価値ｂｅｓｔＢｌｋＬＣｏｓｔとを求め［ステップＳ５０４〜Ｓ５０９］、ＭＢＬＣｏｓｔにｂｅｓｔＢｌｋＬＣｏｓｔを加算し、ｔｅｍｐＬＤｉｓｐＩｎｆｏ［ｂｌｋ］にｂｅｓｔＬＤｉｓｐＩｎｆｏを格納する［ステップＳ５１０］、という処理を繰り返す。

ここでは、あるブロックに対する最良のローカル視差補償情報とは、対象となっているブロックを別の画像から予測する際に、レート歪みコストが最小となるような、予測に用いる画像を示す情報と、エピポーラ幾何拘束に基づくローカル視差情報の組であるとする。
したがって、レート歪みコストが各ローカル視差補償情報に対する評価値となり、あるブロックに対する最良のローカル視差補償情報と評価値を求める処理は、レート歪みコストを最小化する参照視点インデックスとローカル視差情報との組を求める処理となる。

つまり、視点インデックスとローカル視差情報との組に対して対応付けられたローカル視差補償情報インデックスｌＤｉｓｐＩｎｆｏを０に初期化し、最良レート歪みコストｂｅｓｔＢｌｋＬＣｏｓｔを絶対に取り得ない最大値ｗＢｌｋＬＣｏｓｔに初期化した後［ステップＳ５０４］、ｌＤｉｓｐＩｎｆｏに１を加算しながら［ステップＳ５０８］、ｌＤｉｓｐＩｎｆｏが視点インデックスとローカル視差情報の組合せの数ｍａｘＬＤｉｓｐＩｎｆｏになるまで［ステップＳ５０９］、ｌＤｉｓｐＩｎｆｏに対するレート歪みコストｂｌｋＬＣｏｓｔを求め［ステップＳ５０５］、ｂｌｋＬＣｏｓｔがｂｅｓｔＢｌｋＬＣｏｓｔよりも小さければ［ステップＳ５０６］、ｂｌｋＬＣｏｓｔをｂｅｓｔＢｌｋＬＣｏｓｔに格納し、ｌＤｉｓｐＩｎｆｏをｂｅｓｔＬＤｉｓｐＩｎｆｏに格納する［ステップＳ５０７］、という処理を繰り返す。

ｌＤｉｓｐＩｎｆｏに対するレート歪みコストｂｌｋＬＣｏｓｔは以下の式で求められる。

ここで、λ₃はラグランジュの未定乗数であり、予め設定された値が利用される。また、ｄｉｓｔ_cam（）とｒｅｆｅｒ（）は、引数として与えられるローカル視差補償情報に対して、それぞれ、視点ｃａｍから被写体までの距離、参照する視点を返す関数を表す。

なお、実際の符号化時には既に符号化済みの画像しか参照することができないので、本実施例２においては、ｃａｍがカメラＢのときには基準視点のみ、ｃａｍがカメラＣのときには基準視点とカメラＢの視点が、参照視点の候補となる。

図１７に、グローバル視差補償情報設定部２０６で行われるステップＳ４０３の処理の詳細な処理フローを示す。実施例２でも、実施例１と同様に、マクロブロック単位でブロック分割を指定し、そのブロック分割で作成されるブロック単位でグローバル視差情報を求めて符号化する。

まず、ローカル視差補償情報設定部２０５で設定されたローカル視差補償情報ＬＤｉｓｐＩｎｆｏの１要素であるエピポーラ幾何拘束に基づくローカル視差情報から、グローバル視差情報候補ｔＧＤｉｓｐＩｎｆｏを生成する［ステップＳ６０１］。
この処理は、ローカル視差情報をグローバル視差情報、ローカル視差情報が与えられた視点を基準視点、基準視点を符号化対象視点と見立てて、ベース視差情報を求める際の処理（図９）を適用することで行われる。このように見立てて処理が行われた際に、ベース視差情報に該当するものがグローバル視差情報候補となる。なお、この処理は、画像メモリ２０２上の画像ごとに行い、それぞれの画像に対するグローバル視差情報候補は、画像インデックスｃａｍを用いてｔＧＤｉｓｐＩｎｆｏ［ｃａｍ］と表す。

実施例２では、このように求められたｔＧＤｉｓｐＩｎｆｏを用いて、マクロブロック毎にブロック分割情報を設定し、ブロック毎にグローバル視差情報を設定する。
そのために、マクロブロックのインデックスＭＢＢｌｋを０に初期化した後［ステップＳ６０２］、ＭＢＢｌｋに１を加算しながら［ステップＳ６１３］、ＭＢＢｌｋがマクロブロック数ｍａｘＭＢＢｌｋになるまで［ステップＳ６１４］、全てのブロック分割の中で最良のブロック分割とグローバル視差情報を求める処理［ステップＳ６０３〜Ｓ６１２］を行う。
その後、求められたブロック分割情報ＢＬＫＭｏｄｅとグローバル視差情報ＧＤｉｓｐＩｎｆｏを、それぞれ、ブロック分割情報符号化部２０６２と、グローバル視差情報符号化部２０６４で符号化する［ステップＳ６１５］。

全てのブロック分割の中から最良のブロック分割とグローバル視差情報を求める処理では、ブロック分割候補ごとに、その分割を評価し、最も評価の良いものを最良のブロック分割とするということを行う。
つまり、ブロック分割ｂｌｋＭｏｄｅを０に初期化し、マクロブロックに対する最良の評価値ｂｅｓｔＶａｌｕｅを絶対に取り得ない最悪の評価値ｗＶａｌｕｅに初期化した後［ステップＳ６０３］、ｂｌｋＭｏｄｅに１を加算しながら［ステップＳ６１１］、ｂｌｋＭｏｄｅがｍａｘＢｌｋＭｏｄｅになるまで［ステップＳ６１２］、ブロック分割ｂｌｋＭｏｄｅに対する評価値ｖａｌｕｅを求め［ステップＳ６０４〜Ｓ６０８］、ｖａｌｕｅがｂｅｓｔＶａｌｕｅより小さいならば［ステップＳ６０９］、ｖａｌｕｅをｂｅｓｔＶａｌｕｅに、ｂｌｋＭｏｄｅをＢＬＫＭｏｄｅ［ＭＢＢｌｋ］に格納し、そのときに求められたグローバル視差情報ｔｍｐＧＤｉｓｐＩｎｆｏをＧＤｉｓｐＩｎｆｏ［ＭＢＢｌｋ］に格納する［ステップＳ６１０］、という処理を繰り返す。

ブロック分割ｂｌｋＭｏｄｅに対する評価値ｖａｌｕｅは、分割された各ブロックにおける視差補償のレート歪みコストを合計することで求められる。
すなわち、ブロックインデックスｂｌｋを０に、ｖａｌｕｅをブロック分割がｂｌｋＭｏｄｅであることによる評価値ＩｎｉｔＶａｌｕｅ［ｂｌｋＭｏｄｅ］に初期化した後［ステップＳ６０４］、ｂｌｋに１を、ｖａｌｕｅにブロックｂｌｋに対するレート歪みコストｂｌｋＣｏｓｔを加え、そのときのグローバル視差情報ｇＤｉｓｐＩｎｆｏをｔｍｐＧＤｉｓｐＩｎｆｏ［ｂｌｋ］に格納しながら［ステップＳ６０７］、ｂｌｋがｍａｘＢｌｋ［ｂｌｋＭｏｄｅ］になるまで［ステップＳ６０８］、ブロックｂｌｋに対するｔＧＤｉｓｐＩｎｆｏからｇＤｉｓｐＩｎｆｏを求め［ステップＳ６０５］、そのときのｂｌｋＣｏｓｔを求める［ステップＳ６０６］、という処理を繰り返す。
なお、ＩｎｉｔＶａｌｕｅ［ｂｌｋＭｏｄｅ］は、ブロック分割がｂｌｋＭｏｄｅであることを示すための情報を符号化するために必要な符号量に依存した、予め定められた値である。

ブロックｂｌｋに対するｔＧＤｉｓｐＩｎｆｏからｇＤｉｓｐＩｎｆｏを求める処理では、ブロックｂｌｋ内のｔＧＤｉｓｐＩｎｆｏの平均値を求め、ｇＤｉｓｐＩｎｆｏとする。このとき平均値ではなく、最も多く現れる値を使う方法もある。
また、両者でレート歪みコストを算出し良い方を選ぶという方法や、それぞれの周辺の値全てに対してレート歪みコストを計算し最良のものを選ぶという方法も考えられるが、これらのケースについては本実施例の変更例として容易に適用可能であるので説明を省略する。

ブロックｂｌｋに対するグローバル視差情報がｇＤｉｓｐＩｎｆｏのときのレート歪みコストｂｌｋＣｏｓｔは、実施例１におけるステップＳ１０５（図７）の処理で用いる式と同様の式を用いて求めることができる。また、演算量を減らすために、次の数式を用いて評価を行ってもよい。

図１８に、視差補償情報設定部２０８で行われるステップＳ４０６の処理の詳細なフローを示す。

本実施例２においても、実施例１と同様に、マクロブロック毎にブロック分割を決定し、ブロック毎に参照視点インデックスと、補正視差情報と、補正ベクトルとからなる視差補償情報を求めて符号化する。
実施例１と異なる点は、ローカル視差補償情報設定部２０５内のローカル視差情報設定部２０５３から通知されるローカル視差情報を用いて、ブロック分割、参照視点インデックス、補正視差情報を決定した後に、補正ベクトルを求める点である。

つまり、最初にローカル視差情報とベース視差情報との差分を取ることで、補正視差情報候補ｔＥＤｉｓｐＩｎｆｏを生成する［ステップＳ７０１] 。
そして、マクロブロックインデックスＭＢＢｌｋを０に初期化した後［ステップＳ７０２] 、ＭＢＢｌｋに１を加算しながら［ステップＳ７１０] 、ＭＢＢｌｋが画像に含まれるマクロブロック数ｍａｘＭＢＢｌｋになるまで［ステップＳ７１１] 、ブロック分割ｅＢＬＫＭｏｄｅ［ＭＢＢｌｋ] を決定し［ステップＳ７０３] 、視差補償情報ＥＤｉｓｐＩｎｆｏを求める処理［ステップＳ７０４〜Ｓ７０９] を繰り返す。
その後、ブロック分割情報ｅＢＬＫＭｏｄｅと、視差補償情報ＥＤｉｓｐＩｎｆｏとを符号化する［ステップＳ７１２] 。

ステップＳ７０３の処理において、ブロック分割は、ブロックに含まれる全ての画素に対するｔＥＤｉｓｐＩｎｆｏが同じ値となるようなブロック分割のなかで、ブロック数が最も少ないものに決定される。
上記の条件を満たすブロック分割が複数存在するときは、それぞれの最大ブロックサイズが大きいものに決定する。それでも決まらない場合には、条件を満たす任意のブロック分割に決定する。
なお、最初の条件を満たすブロック分割が存在しない場合には、ブロック数が最も多く、最小ブロックサイズが最も小さいものに決定する。

視差補償情報を求める処理では、マクロブロックに対して決定されたブロック分割ｅＢＬＫＭｏｄｅ［ＭＢＢｌｋ］に従ったブロック毎に最良の視差補償情報を求める。
つまり、ブロックインデックスｂｌｋを０に初期化した後［ステップＳ７０４］、ｂｌｋに１を加算しながら［ステップＳ７０８］、ｂｌｋがブロック数ｍａｘＢｌｋ［ｅＢＬＫＭｏｄｅ［ＭＢＢｌｋ］］になるまで［ステップＳ７０９］、ｔＥＤｉｓｐＩｎｆｏから補正視差情報ｍｄを、ローカル視差補償情報設定部２０５内の参照視点インデックス設定部２０５２から通知される一次視点インデックスから参照視点インデックスｒｅｆを求め［ステップＳ７０５］、それらを用いてブロックｂｌｋのレート歪みコストを最小化する補正ベクトルｃｍｖを求めた後［ステップＳ７０６］、｛ｍｄ、ｒｅｆ、ｃｍｖ｝の組に対応する視差補償情報を求め、ＥＤｉｓｐＩｎｆｏ［ＭＢＢｌｋ］［ｂｌｋ］に格納する［ステップＳ７０７］、という処理を繰り返す。
なお、ステップＳ７０６の処理で用いられるブロックに対するレート歪みコストは、実施例１のステップＳ３０６（図１０）の処理でコストを求める際に用いる式と同様の式を用いて計算することができる。

ステップＳ７０５の処理において、補正視差情報はブロック内の画素に対応するｔＥＤｉｓｐＩｎｆｏの中で最も多く現れるものに決定され、参照視点インデックスは決定された補正視差情報とｔＥＤｉｓｐＩｎｆｏが同じ値を持つブロック内の画素に対応する一次視点インデックスに決定される。なお、ここでは最も多く現れるものに決定したが、ブロック内の値の平均値を用いてもよい。

本実施例２の視差補償情報設定部２０８では、ローカル視差補償情報設定部２０５から通知される情報を用いて、ブロック分割と補正視差情報と参照視点インデックスとをレート歪みコストを考慮せずに決定するが、実施例１の視差補償情報設定部１０７と同様にそれらをレート歪みコストを考慮して決定してもよい。
また、実施例１とも異なり、ブロック分割、補正視差情報、参照視点インデックスの一部だけをレート歪みコストを考慮して決定する方法も考えられるが、このケースについては実施例１と実施例２とを部分的に融合させた変更例として容易に適用可能であるので説明を省略する。

実施例１および実施例２では、グローバル視差補償情報設定部１０５または２０６の内部の基準視点画像ブロック分割設定部１０５１または２０６１で、ブロック分割の方法を決定し、その結果のブロック分割情報をブロック分割情報符号化部１０５２または２０６２で符号化している。
しかし、基準視点画像ブロック分割設定部１０５１または２０６１で設定するブロック分割を、基準視点画像をブロック符号化した際のブロック分割と一致させることで、ブロック分割情報を符号化しないことにしてもよい。
その場合、ブロック分割情報を示すための符号量の分だけ符号量を削減することが可能となる。

さらに、実施例１および実施例２では、符号化対象画像を既に符号化済みの他の視点の画像から視差補償をして符号化しているが、符号化対象画像のブロック毎に、視差補償と動き補償とで、予測効率のよい方法を選びながら符号化するようにしても良い。この場合
、適用外のブロックに対する視差補償情報は符号量が最も小さくなるように設定可能であるが、本実施例の変更例として容易に適用可能であるので説明を省略する。

また、符号化装置の各部分で用いるブロック分割の種類は全て同じである必要はない。特に、他のブロック分割の大きさに比べて、グローバル視差情報を求める際の基準視点画像のブロック分割の大きさを大きくすることで、グローバル視差情報の符号量を抑え、カメラパラメータの誤差等に左右されない全体の大まかな視差情報を表すことができるようになる。

図１９に、本発明の映像復号装置３００の実施の形態の一例（実施例３）を示す。
この映像復号装置３００は、符号化データを入力する符号化データ入力部３０１と、基準視点であるカメラＡの復号画像を入力する基準視点画像入力部３０２と、基準視点の画像を含む全ての視差補償の参照対象になりうる画像を格納する画像メモリ３０３と、入力された符号化データから基準視点に対するブロック分割情報とエピポーラ幾何拘束に基づくグローバル視差情報とを復号するグローバル視差補償情報復号部３０４と、グローバル視差情報から復号対象の画像の視点に対するエピポーラ幾何拘束に基づくベース視差情報を設定するベース視差情報設定部３０５と、入力された符号化データから、復号対象の画像に対するブロック分割情報と、視差補償を行う際の参照画像を示す参照視点インデックスと、エピポーラ幾何拘束に従い視差情報を補正する補正視差情報と、視差補償をする際の対応点を補正する補正ベクトルとを復号する視差補償情報復号部３０６と、復号したデータに基づき復号対象の画像の視点に対する視差補償画像を生成する視差補償画像生成部３０７と、入力された符号化データと生成した視差補償画像とから復号対象の画像を復号する画像復号部３０８とを備える。

画像を復号する際に、既に復号済みの画像を参照する場合、画像復号部３０８はその内部に、復号画像を格納するメモリを有することがある。その場合、画像メモリ３０３として、そのメモリを用いてもよい。

図２０に、本実施例の復号処理フローを示す。これはカメラＢとカメラＣの同時刻のフレームを１フレームずつ復号する際のフローを示している。以下でフローを詳細に説明していく。
なお、復号するフレームと同時刻のカメラＡのフレームが先立って復号されており、各カメラのカメラパラメータも得られているものとする。

まず、符号化データ入力部３０１に符号化データが入力される［ステップＳ８０１］。また、ここで入力された符号化データに含まれるフレームと同時刻のカメラＡの復号画像が、基準視点画像入力部３０２によって入力され、画像メモリ３０３に格納されているものとする。入力される符号化データは、実施例１または実施例２などの映像符号化装置が出力する１フレーム分の全符号化データである。

次に、グローバル視差補償情報復号部３０４で、入力された符号化データのうち、基準視点画像に対するブロック分割情報を復号し、そのブロック分割に従って、ブロック毎にグローバル視差情報を復号し、基準視点画像に対する画素ごとのグローバル視差情報ｄｅｃＧＤｉｓｐＩｎｆｏを得る［ステップＳ８０２］。

そして、ベース視差情報設定部３０５で、ｄｅｃＧＤｉｓｐＩｎｆｏからカメラＢの視点に対するベース視差情報ｄｅｃＢＤｉｓｐＩｎｆｏを得る［ステップＳ８０３］。
この処理は、上記で説明を行った図９の処理フローに従って実現される。ただし、図９におけるＢＤｉｓｐＩｎｆｏはｄｅｃＢＤｉｓｐＩｎｆｏ、ＧＤｉｓｐＩｎｆｏはｄｅｃＧＤｉｓｐＩｎｆｏ、符号化対象画像は復号対象画像となる。

ベース視差情報が得られたら、視差補償情報復号部３０６で、入力された符号化データのうちカメラＢに対するブロック分割情報を復号し、そのブロック分割に従って、参照視点インデックスと、補正視差情報と、補正ベクトルとを復号し、カメラＢに対する画素ごとの参照視点インデックスｄｅｃＲｅｆと、補正視差情報ｄｅｃＭｄと、補正ベクトルｄｅｃＣｍｖとを得る［ステップＳ８０４］。

そして、画像メモリ３０３の画像を参照しながら、視差補償画像生成部３０７で、カメラＢに対する視差補償画像ＤＣＩｍａｇｅを次の式に従って生成する［ステップＳ８０５］。

ＤＣＩｍａｇｅ［ＰＩＸ］＝Ｖａｌｕｅ（ｄｅｃＲｅｆ［ＰＩＸ］，ＲＰ）
ＲＰ＝Ｔｒａｎｓ（ｃａｍＢ，ｄｅｃＲｅｆ［ＰＩＸ］，ＰＩＸ，
ｄ_camB（ｄｅｃＢＤｉｓｐＩｎｆｏ［ＰＩＸ］＋ｄｅｃＭｄ［ＰＩＸ］））
＋ｄｅｃＣｍｖ［ＰＩＸ］
ここで、ｃａｍＢはカメラＢの視点を表し、ＰＩＸは復号対象画像の画素位置を示す。
この視差補償画像を用いて、画像復号部３０８で、入力された符号化データからカメラＢの画像が復号される［ステップＳ８０６］。なお、復号された画像は画像メモリ３０３に格納される。
その後、ステップＳ８０３〜Ｓ８０６と同様の処理をカメラＣに対して施すことで、カメラＣの画像が復号されることになる［ステップＳ８０７〜Ｓ８１０］。

以上の映像符号化および映像復号の処理は、ハードウェアやファームウェアによって実現できるが、コンピュータとソフトウェアプログラムとによっても実現することができ、そのプログラムをコンピュータ読み取り可能な記録媒体に記録して提供することも、ネットワークを通して提供することも可能である。

以上、図面を参照して本発明の実施の形態を説明したが、上記実施の形態は本発明の例示に過ぎず、本発明が上記実施の形態に限定されるものでないことは明らかである。したがって、本発明の精神および範囲を逸脱しない範囲で、上記実施の形態に対し構成要素の追加、省略、置換、その他の変更を行ってもよい。

Claims

多視点画像を符号化するにあたり、一つの基準視点を定め、既に符号化済みの前記基準視点の画像を用いて、前記基準視点以外の視点の画像を符号化する画像符号化方法であって、
前記基準視点の符号化済み画像であるところの参照基準視点画像に対し、エピポーラ幾何拘束に基づいて該基準視点以外の全ての視点の画像との視差を与えるグローバル視差情報を推定し設定するグローバル視差情報設定ステップと、
前記設定したグローバル視差情報を符号化するグローバル視差情報符号化ステップと、
前記設定したグローバル視差情報を、前記基準視点以外の視点の画像であるところの各符号化対象視点画像における、前記エピポーラ幾何拘束に基づいて他の全ての視点との視差を与えるベース視差情報へと変換するベース視差情報設定ステップと、
前記符号化対象視点画像を符号化する際に行う視差補償に用いる既に符号化済みの参照視点画像と該符号化対象視点画像との視差を与える視差情報の、前記ベース視差情報に対する差分で定められる補正視差情報を設定する補正視差情報設定ステップと、
前記補正視差情報を符号化する補正視差情報符号化ステップと、
前記ベース視差情報と前記補正視差情報とによって与えられる対応点情報を用いて、前記参照視点画像から視差補償を行いながら、前記符号化対象視点画像を符号化する視点画像符号化ステップとを有する
ことを特徴とする画像符号化方法。
多視点画像を符号化するにあたり、一つの基準視点を定め、既に符号化済みの前記基準視点の画像を用いて、前記基準視点以外の視点の画像を符号化する画像符号化方法であって、
前記基準視点の符号化済み画像であるところの参照基準視点画像に対し、エピポーラ幾何拘束に基づいて該基準視点以外の全ての視点の画像との視差を与えるグローバル視差情報を推定し設定するグローバル視差情報設定ステップと、
前記設定したグローバル視差情報を符号化するグローバル視差情報符号化ステップと、
前記設定したグローバル視差情報を、前記基準視点以外の視点の画像であるところの各符号化対象視点画像における、前記エピポーラ幾何拘束に基づいて他の全ての視点との視差を与えるベース視差情報へと変換するベース視差情報設定ステップと、
前記符号化対象視点画像を符号化する際に行う視差補償に用いる既に符号化済みの参照視点画像と該符号化対象視点画像との対応点を与える視差ベクトルの、前記ベース視差情報によって与えられる視差ベクトルに対する差分で定められる補正視差ベクトルを設定する補正視差ベクトル設定ステップと、
前記補正視差ベクトルを符号化する補正視差ベクトル符号化ステップと、
前記ベース視差情報と前記補正視差ベクトルとを用いて、前記参照視点画像から視差補償を行いながら、前記符号化対象視点画像を符号化する視点画像符号化ステップとを有する
ことを特徴とする画像符号化方法。
請求項１に記載の画像符号化方法において、
前記ベース視差情報設定ステップで設定されたベース視差情報と、前記補正視差情報設定ステップで設定された補正視差情報とを用いて表される視差情報によって示される、前記符号化対象視点画像と前記参照視点画像との間の対応点ベクトルに対し、前記視差補償に用いる視差補償ベクトルからの変位である補正ベクトルを設定する補正ベクトル設定ステップと、
前記補正ベクトルを符号化するステップとを有し、
前記視点画像符号化ステップでは、前記補正ベクトルにより補正された前記視差補償ベクトルを用いて視差補償を行う
ことを特徴とする画像符号化方法。
請求項１および請求項２のいづれかに記載の画像符号化方法において、
前記参照基準視点画像における領域分割を設定する基準視点領域分割設定ステップを有し、
前記グローバル視差情報設定ステップでは、前記基準視点領域分割設定ステップで設定された領域ごとに、前記グローバル視差情報を推定し設定する
ことを特徴とする画像符号化方法。
請求項４に記載の画像符号化方法において、
前記参照基準視点画像が、画像全体を領域分割されて各領域ごとに符号化処理されている場合に、
前記基準視点領域分割設定ステップでは、前記参照基準視点画像の符号化データに含まれる領域分割情報に従って、同様の領域分割を設定する
ことを特徴とする画像符号化方法。
請求項４に記載の画像符号化方法において、
前記基準視点領域分割設定ステップで設定された領域分割を示す領域分割情報を符号化する基準視点領域分割符号化ステップを更に有する
ことを特徴とする画像符号化方法。
請求項６に記載の画像符号化方法において，
前記参照基準視点画像が，画像全体を領域分割されて各領域ごとに符号化処理されている場合に，
前記基準視点領域分割符号化ステップでは，前記参照基準視点画像の符号化データに含まれる領域分割情報との違いを示す情報のみを符号化する
ことを特徴とする画像符号化方法。
請求項１および請求項２のいづれかに記載の画像符号化方法において、
前記符号化対象視点画像における領域分割を設定する符号化対象視点領域分割設定ステップを有し、
前記視点画像符号化ステップでは、前記符号化対象視点領域分割設定ステップで設定された領域ごとに、視差補償の参照先を変更しながら符号化対象視点画像を符号化する
ことを特徴とする画像符号化方法。
請求項８に記載の画像符号化方法において、
前記視点画像符号化ステップにおいて、前記符号化対象視点画像が、画像全体を領域分割され、各領域ごとに、その領域分割情報と共に符号化される場合に、
前記視点画像符号化ステップでは、前記符号化対象視点領域分割設定ステップで設定された領域分割を用いて符号化を行う、
ことを特徴とする画像符号化方法。
請求項８に記載の画像符号化方法において、
前記符号化対象視点領域分割設定ステップで設定された領域分割を示す領域分割情報を符号化する符号化対象視点領域分割符号化ステップを更に有する
ことを特徴とする画像符号化方法。
請求項１０に記載の画像符号化方法において、
前記視点画像符号化ステップにおいて、前記符号化対象視点画像が、画像全体を領域分割され、各領域ごとに、その領域分割情報と共に符号化されている場合に、
前記符号化対象視点領域分割符号化ステップでは、前記視点画像符号化ステップで用いた領域分割との違いを示す情報のみを符号化する
ことを特徴とする画像符号化方法。
請求項１および請求項２のいづれかに記載の画像符号化方法において、
前記参照視点画像の視点となる参照視点を設定する参照視点設定ステップと、
前記参照視点を示す視点インデックスを符号化するステップとを有し、
前記視点画像符号化ステップでは、前記設定された参照視点の符号化済み画像を前記参照視点画像として用いる
ことを特徴とする画像符号化方法。
請求項８に記載の画像符号化方法において、
前記符号化対象視点領域分割設定ステップで設定された領域ごとに、前記参照視点画像の視点となる参照視点を設定する参照視点設定ステップと、
前記参照視点を示す視点インデックスを符号化するステップとを有し、
前記視点画像符号化ステップでは、前記符号化対象視点領域分割設定ステップで設定された領域ごとに、前記設定された参照視点の符号化済み画像を前記参照視点画像として用いる
ことを特徴とする画像符号化方法。
請求項１および請求項２のいづれかに記載の画像符号化方法において、
前記符号化対象視点画像における領域分割を設定する領域分割設定ステップと、
前記領域分割設定ステップにおいて設定された領域ごとに、前記エピポーラ幾何拘束に基づいて、前記符号化対象視点画像を視差補償するための対応点を与えるローカル視差情報を求めるステップと、
前記ローカル視差情報を、前記グローバル視差情報へと変換するグローバル視差情報候補を設定するグローバル視差情報候補設定ステップとを有し、
前記グローバル視差情報設定ステップでは、各領域内の前記グローバル視差情報候補の平均値または各領域内のグローバル視差情報候補のうち最も多く現れる値を前記グローバル視差情報として設定する
ことを特徴とする画像符号化方法。
多視点画像の符号化データを復号するにあたり、一つの基準視点が存在し、既に復号済みの前記基準視点の画像であるところの参照基準視点画像を用いて、前記基準視点以外の視点の画像を復号する画像復号方法であって、
符号化データから、前記参照基準視点画像における前記基準視点以外の全ての視点の画像との視差をエピポーラ幾何拘束に基づいて与えるグローバル視差情報を復号するグローバル視差情報復号ステップと、
前記復号したグローバル視差情報を、前記基準視点以外の視点の画像であるところの各復号対象視点画像における、前記エピポーラ幾何拘束に基づいて他の全ての視点との視差を与えるベース視差情報へと変換するベース視差情報設定ステップと、
前記符号化データから、前記復号対象視点画像を復号する際に行う視差補償に用いる既に復号済みの参照視点画像と該復号対象視点画像との視差を与える視差情報の、前記ベース視差情報に対する差分で定められた補正視差情報を復号する補正視差情報復号ステップと、
前記ベース視差情報と前記補正視差情報とによって与えられる対応点情報を用いて、前記参照視点画像から視差補償を行いながら、前記符号化データから、前記復号対象視点画像を復号する視点画像復号ステップとを有する
ことを特徴とする画像復号方法。
多視点画像の符号化データを復号するにあたり、一つの基準視点が存在し、既に復号済みの前記基準視点の画像であるところの参照基準視点画像を用いて、前記基準視点以外の視点の画像を復号する画像復号方法であって、
符号化データから、前記参照基準視点画像における前記基準視点以外の全ての視点の画像との視差をエピポーラ幾何拘束に基づいて与えるグローバル視差情報を復号するグローバル視差情報復号ステップと、
前記復号したグローバル視差情報を、前記基準視点以外の視点の画像であるところの各復号対象視点画像における、前記エピポーラ幾何拘束に基づいて他の全ての視点との視差を与えるベース視差情報へと変換するベース視差情報設定ステップと、
前記符号化データから、前記復号対象視点画像を復号する際に行う視差補償に用いる既に復号済みの参照視点画像と該復号対象視点画像との対応点を与える視差ベクトルの、前記ベース視差情報によって与えられる視差ベクトルに対する差分で定められた補正視差ベクトルを復号する補正視差ベクトル復号ステップと、
前記ベース視差情報と前記補正視差ベクトルとによって与えられる対応点情報を用いて、前記参照視点画像から視差補償を行いながら、前記符号化データから、前記復号対象視点画像を復号する視点画像復号ステップとを有する
ことを特徴とする画像復号方法。
請求項１５に記載の画像復号方法において、
前記符号化データから、前記視差補償に用いる視差補償ベクトルに対する、前記ベース視差情報設定ステップで設定されたベース視差情報と、前記補正視差情報復号ステップで復号された補正視差情報とを用いて表される、前記復号対象視点画像と前記参照視点画像との間の対応点ベクトルからの差分で定められた補正ベクトルを復号する補正ベクトル復号ステップを有し、
前記視点画像復号ステップでは、前記補正ベクトルにより補正された前記視差補償ベクトルを用いて視差補償を行う
ことを特徴とする画像復号方法。
請求項１５および請求項１６のいづれかに記載の画像復号方法において、
前記符号化データから、前記参照基準視点画像における領域分割を示す情報を復号する基準視点領域分割復号ステップを有し、
前記グローバル視差情報復号ステップでは、前記基準視点領域分割復号ステップで得られた領域分割の領域ごとに、前記グローバル視差情報を復号する
ことを特徴とする画像復号方法。
請求項１８に記載の画像復号方法において、
前記参照基準視点画像が、画像全体を領域分割されて各領域ごとに符号化処理されている場合に、
前記基準視点領域分割復号ステップでは、前記参照基準視点画像の符号化データに含まれる領域分割を示す情報から領域分割を設定する
ことを特徴とする画像復号方法。
請求項１８に記載の画像復号方法において，
参照基準視点画像が，画像全体を領域分割されて各領域ごとに符号化処理されている場合に，
前記基準視点領域分割復号ステップでは，前記参照基準視点画像の符号化データに含まれる領域分割を示す情報との違いを示す情報を復号し、該領域分割を示す情報と該違いを示す情報とを用いることで、前記グローバル視差情報復号時の領域分割を設定する
ことを特徴とする画像復号方法。
請求項１５および請求項１６のいづれかに記載の画像復号方法において、
前記符号化データから、前記復号対象視点画像における領域分割を示す情報を復号する復号対象視点領域分割復号ステップを有し、
前記視点画像復号ステップでは、前記符号化対象視点領域分割復号ステップで復号された情報によって示される領域分割の領域ごとに、前記視差補償に用いる視差補償ベクトルを変更しながら復号対象視点画像を復号する
ことを特徴とする画像復号方法。
請求項２１に記載の画像復号方法において、
前記復号対象視点画像が、画像全体を領域分割され、各領域ごとに、その領域分割情報と共に符号化されている場合に、
前記復号対象視点領域分割復号ステップでは、前記復号対象視点画像の符号化データに含まれる領域分割を示す情報から、領域分割を設定する
ことを特徴とする画像復号方法。
請求項２１に記載の画像復号方法において、
前記復号対象視点画像が、画像全体を領域分割され、各領域ごとに、その領域分割情報と共に符号化されている場合に、
前記復号対象視点領域分割復号ステップでは、前記符号化データから、領域分割に関する前記領域分割情報との違いを示す情報を復号し、該領域分割情報と該違いを示す情報とを用いることで、前記視差補償ベクトル変更用の領域分割を設定する
ことを特徴とする画像復号方法。
請求項１５および請求項１６のいづれかに記載の画像復号方法において、
前記符号化データから、前記参照視点画像の視点を示す視点インデックスを復号する視点インデックス復号ステップと、
前記視点インデックスによって示される視点を参照視点として設定するステップとを有し、
前記視点画像復号ステップでは、前記参照視点の復号済み画像を前記参照視点画像として用いる
ことを特徴とする画像復号方法。
請求項２１に記載の画像復号方法において、
前記復号対象視点領域分割復号ステップで設定された領域ごとに、符号化データから、前記参照視点画像の視点を示す視点インデックスを復号する視点インデックス復号ステップと、
前記復号対象視点領域分割復号ステップで設定された領域ごとに、前記視点インデックスによって示される視点を参照視点として設定するステップとを有し、
前記視点画像復号ステップでは、前記復号対象視点領域分割復号ステップで設定された領域ごとに、前記設定された参照視点の復号済み画像を前記参照視点画像として用いる
ことを特徴とする画像復号方法。
請求項１および請求項２のいづれかに記載の画像符号化方法における各ステップを実行するための手段を備える
ことを特徴とする画像符号化装置。
請求項１および請求項２のいづれかに記載の画像符号化方法における各ステップをコンピュータに実行させるための画像符号化プログラム。
請求項１および請求項２のいづれかに記載の画像符号化方法における各ステップをコンピュータに実行させるための画像符号化プログラムを記録したコンピュータ読み取り可能な記録媒体。
請求項１５および請求項１６のいづれかに記載の画像復号方法における各ステップを実行するための手段を備える
ことを特徴とする画像復号装置。
請求項１５および請求項１６のいづれかに記載の画像復号方法における各ステップをコンピュータに実行させるための画像復号プログラム。
請求項１５および請求項１６のいづれかに記載の画像復号方法における各ステップをコンピュータに実行させるための画像復号プログラムを記録したコンピュータ読み取り可能な記録媒体。