WO2012042895A1

WO2012042895A1 - 立体映像符号化装置、立体映像撮影装置、および立体映像符号化方法

Info

Publication number: WO2012042895A1
Application number: PCT/JP2011/005530
Authority: WO
Inventors: 悠樹丸山; 秀之大古瀬; 裕樹小林; 荒川　博; 安倍　清史
Original assignee: パナソニック株式会社
Priority date: 2010-09-30
Filing date: 2011-09-30
Publication date: 2012-04-05
Also published as: JP4964355B2; JPWO2012042895A1; US20130258053A1

Abstract

左右の視差量に応じて参照ピクチャの設定方法を適応的に切り替えることにより、符号化効率を向上させることができる立体映像符号化装置を提供する。視差取得部１０１は、第１視点映像信号と第２視点映像信号の視差情報を視差マッチング等の手段を用いて算出し、参照ピクチャ設定部１０２は、視差情報から、符号化対象ピクチャを符号化する際に参照ピクチャをどのように選択するか、さらには参照ピクチャへどのように参照インデクスを割り当てるかといった参照ピクチャ設定情報を決定し、符号化部１０３は、参照ピクチャ選択情報に従って、符号化対象ピクチャの画像データを圧縮符号化する。

Description

立体映像符号化装置、立体映像撮影装置、および立体映像符号化方法

　本発明は、立体映像を圧縮符号化して光ディスク、磁気ディスクあるいはフラッシュメモリ等の記憶メディア上に記録する立体映像符号化装置、立体映像撮影装置、および立体映像符号化方法に関するものであり、特にＨ.264圧縮符号化方式により圧縮符号化を行う立体映像符号化装置、立体映像撮影装置、および立体映像符号化方法に関する。

　デジタル映像技術の発展と共に、データ量の増大に対応してデジタル映像データを圧縮符号化する技術が発展しつつある。その発展は、映像データの特性を生かし、映像データに特化した圧縮符号化技術となって現れている。Ｈ.264圧縮符号化は、光ディスクの１つの規格であるＢｌｕ－ｒａｙ、および、ハイビジョン映像をビデオカメラで記録するための規格であるＡＶＣＨＤ（Advanced Video Codec High Definition）の動画圧縮方式としても採用されており、幅広い分野での利用が期待されている。

　一般に、動画像の符号化では、時間方向および空間方向の冗長性を削減することによって情報量の圧縮を行う。時間的な冗長性の削減を目的とする画面間予測符号化では、時間軸の前方または後方のピクチャを参照してブロック単位で動き量（以下、動きベクトル）を検出し、検出した動きベクトルを考慮した予測（以下、動き補償）を行うことにより予測精度を上げ、符号化効率を向上させている。例えば、符号化対象となる入力画像の動きベクトルを検出し、その動きベクトルの分だけシフトした予測値と符号化対象となる入力画像との予測残差を符号化することにより、符号化に必要な情報量を削減している。

　なお、ここで、動きベクトルの検出時に参照されるピクチャを参照ピクチャと呼ぶ。また、ピクチャとは１枚の画面を表す用語である。動きベクトルはブロック単位で検出されており、具体的には、符号化対象となるピクチャである符号化対象ピクチャ側のブロック（符号化対象ブロック）を固定しておき、参照ピクチャ側のブロック（参照ブロック）を探索範囲内で移動させ、符号化対象ブロックと最も似通った参照ブロックの位置を見つけることにより、動きベクトルが検出される。この動きベクトルを探索する処理を、動きベクトル検出と呼ぶ。似通っているかどうかの判断としては、符号化対象ブロックと参照ブロックとの比較誤差を使用するのが一般的であり、特に絶対値差分和（ＳＡＤ： Summed Absolute Difference）がよく用いられる。なお、参照ピクチャ全体の中で参照ブロックを探索すると演算量が膨大となるため、参照ピクチャの中で探索する範囲を制限することが一般的であり、制限した範囲を探索範囲と呼ぶ。

　画面間予測符号化を行わず、空間的な冗長性の削減を目的とした画面内予測符号化のみを行うピクチャをＩピクチャと呼ぶ。また、１枚の参照ピクチャから画面間予測符号化を行うものをＰピクチャと呼ぶ。また、最大２枚の参照ピクチャから画面間予測符号化を行うものをＢピクチャと呼ぶ。

　ここで、第１視点の映像信号（以下、第１視点映像信号と称す）と、前記第１視点とは異なる第２視点の映像信号（以下、第２視点映像信号と称す）とを符号化する立体映像を符号化する方式として、視点間の冗長性を削減することによって情報量の圧縮を行う方式が提案されている。より具体的には、第１視点映像信号については、立体ではない２次元の映像信号の符号化と同様の方式で符号化し、第２視点映像信号については、同時刻の第１視点映像信号のピクチャを参照ピクチャとして動き補償を行う。

　図１３は提案されている立体映像符号化の符号化構造を示した一例である。ピクチャＩ０、ピクチャＢ２、ピクチャＢ４、ピクチャＰ６は第１視点映像信号に含まれるピクチャを表しており、ピクチャＰ１、ピクチャＢ３、ピクチャＢ５、ピクチャＰ７は、第２視点映像信号に含まれるピクチャを表している。ピクチャＩ０はＩピクチャとして符号化するピクチャであり、ピクチャＰ１、ピクチャＰ６、ピクチャＰ７はＰピクチャとして符号化するピクチャであり、ピクチャＢ２、ピクチャＢ３、ピクチャＢ４、ピクチャＢ５はＢピクチャとして符号化するピクチャであることをそれぞれ表しており、時間順序で表示されている。なお、図中の矢印は、矢印の根元（出発点）にあたるピクチャを符号化するときに、矢印の先（到達点）にあたるピクチャを参照し得ることを示している。また、ピクチャＰ１、ピクチャＢ３、ピクチャＢ５、ピクチャＰ７は同時刻の第１視点映像信号のピクチャＩ０、ピクチャＢ２、ピクチャＢ４、ピクチャＰ６を参照している。

　図１４に、図１３に示す符号化構造で符号化する場合の符号化順序と、符号化対象となっているピクチャ（以下、符号化対象ピクチャと称す）と各入力ピクチャを符号化する際に用いる参照ピクチャとの関係との一例を示す。図１３に示す符号化構造で符号化する場合、図１４に示すように、ピクチャＩ０、ピクチャＰ１、ピクチャＰ６、ピクチャＰ７、ピクチャＢ２、ピクチャＢ３、ピクチャＢ４、ピクチャＢ５の順で符号化される。

　なお、ここで、同一視点の映像信号に含まれるピクチャを参照ピクチャとして動き補償を行うことをＶｉｅｗ内参照と呼び、異なる視点の映像信号に含まれるピクチャを参照ピクチャとして動き補償を行うことをＶｉｅｗ間参照と呼ぶ。また、Ｖｉｅｗ内参照を行う参照ピクチャをＶｉｅｗ内参照ピクチャと呼び、Ｖｉｅｗ間参照を行う参照ピクチャをＶｉｅｗ間参照ピクチャと呼ぶ。

　第１視点映像信号と第２視点映像信号とは、いずれか一方が右目用の映像で、もう一方が左目用の映像であり、同時刻の第１視点映像信号に含まれるピクチャと、第２視点映像信号に含まれるピクチャとは相関が高い。このため、Ｖｉｅｗ内参照を行うか、それともＶｉｅｗ間参照を行うかを、ブロック単位で適切に選択することにより、Ｖｉｅｗ内参照のみを行う従来の符号化に比べて情報量を効率的に削減することができる。

　Ｈ.264圧縮符号化では、既に符号化した複数のピクチャから参照ピクチャを選択している。しかしながら、従来は、視差のばらつきなどに関係なく、参照ピクチャを選択しているので、符号化効率の高くない参照ピクチャを選択することがあり、符号化効率が低下することがあった。例えば、符号化対象となる入力画像において、視差が飛び出し側から奥側まで広く分布する場合、一方の視点から見えているが、他方の視点からは見えない、いわゆるオクルージョン領域が拡大する。このオクルージョン領域は、他方の視点の画像では画像データが存在しないため、マッチング処理により、一方の視点から見えている部分に対応する箇所を見つけることができなくなって、動きベクトルを求める精度が低下し、その結果、符号化効率が低下していた。

　本発明はかかる問題を解決するためになされたものであり、視差のばらつきなどがあった場合でも符号化効率の低減を抑えることができて、ひいては符号化効率を向上させることができる画像符号化方式装置および画像符号化方法を提供することを目的とする。

　上記目的を達成するために、本発明の立体映像符号化装置は、第１視点の映像信号である第１視点映像信号と、当該第１視点とは異なる第２視点の映像信号である第２視点映像信号と、を符号化する立体映像符号化装置であって、前記第１視点映像信号と前記第２視点映像信号との視差に関する情報である視差情報を取得算出する視差取得部と、前記第１信号映像信号および前記第２視点映像信号を符号化する際に使用する参照ピクチャを設定する参照ピクチャ設定部と、前記参照ピクチャ設定部において設定した参照ピクチャを基に、前記第１視点映像信号と前記第２視点映像信号との符号化を行い、符号化ストリームを生成する符号化部と、を備え、前記参照ピクチャ設定部は、前記第２視点映像信号を符号化する際、前記第１視点映像信号に含まれるピクチャおよび前記第２視点映像信号に含まれるピクチャのうち少なくとも１つのピクチャを参照ピクチャとして設定する第１の設定モードと、前記第２視点映像信号のみに含まれるピクチャのうち少なくとも１つのピクチャを参照ピクチャとして設定する第２の設定モードとを有し、前記参照ピクチャ設定部は、前記視差取得部で取得した視差情報の変更に応じて、前記第１の設定モードと前記第２の設定モードとを切り換えることを特徴とする。

　上記構成により、取得した前記視差情報の変更に伴って参照ピクチャを変更するので、符号化効率の高い参照ピクチャを選択できて、符号化効率を向上させることが可能となる。

　また、本発明は、上記構成において、さらに、前記参照ピクチャ設定部は、前記第２視点映像信号を符号化する際、前記第１の設定モードにおいては、第１視点映像信号のみに含まれるピクチャのうち少なくとも１つのピクチャを参照ピクチャとして設定することを特徴とする。

　前記視差情報は、前記第１視点映像信号と前記第２視点映像信号との画素または複数の画素を有する画素ブロック毎の視差を表す視差ベクトルのばらつき状態を示す情報とすることが好ましく、前記参照ピクチャ設定部は、前記視差情報が大きくなると前記第２の設定モードに切り替え、前記視差情報が小さくなると前記第１の設定モードに切り替えるように構成する。このように、前記第１視点映像信号と前記第２視点映像信号との画素または複数の画素を有する画素ブロック毎の視差を表す視差ベクトルのばらつき状態が大きくなった際に前記第２の設定モードに切り替えることで、オクルージョン領域が拡大する第１視点の映像信号である第１視点映像信号を参照ピクチャとして選択しないので、動きベクトルを求める精度が向上して符号化効率が向上する。

　さらには、前記視差情報としては、前記視差ベクトルの分散値、各視差ベクトルの絶対値の和、前記視差ベクトルにおける最大視差と最小視差との差分の絶対値が好ましい。

　視差情報を、前記視差ベクトルの分散値や各視差ベクトルの絶対値の和とすることで、視差ベクトルのばらつき状態を比較的正確に判定できて、信頼性が向上する利点がある。

　また、視差情報を、前記視差ベクトルにおける最大視差と最小視差との差分の絶対値とすることで、２つの値だけから視差の大小を判定できるため、判定処理が極めて簡単に計算できて計算量や処理時間を最小限に抑えることができる利点がある。

　また、上記構成によれば、より適した参照ピクチャに変更することができるので、符号化効率を向上することができる。

　また、本発明は、前記参照ピクチャ設定部は、少なくとも２つ以上の参照ピクチャを設定可能とされ、前記視差情報が切り換わることにより、参照ピクチャの参照インデックスを切り換え可能に構成されていることを特徴とする。そして、前記参照ピクチャ設定部は、前記視差情報から視差が大きいと判断した場合に、前記第１視点映像信号に含まれる参照ピクチャに、現在割り当てている参照インデクスの値以下となる参照インデクスを割り当て変更可能に構成されていることを特徴とする。

　この構成によれば、参照インデクスの符号化量を最小限に抑えることができて、符号化効率を向上することができる。

　また、本発明の立体映像撮影装置は、被写体を第１視点と、当該第１視点とは異なる第２視点と、から撮像し、当該第１視点における映像信号である第１視点映像信号と、当該第２視点における映像信号である第２視点映像信号と、を撮影する立体映像撮影装置において、前記被写体の光学像を形成するとともに、当該光学像を撮影し、デジタル信号として前記第１視点映像信号及び前記第２視点映像信号を取得する撮影部と、前記第１視点映像信号と前記第２視点映像信号との視差に関する情報である視差情報を算出する視差取得部と、前記第１視点映像信号および前記第２視点映像信号を符号化する際に使用する参照ピクチャを設定する参照ピクチャ設定部と、前記参照ピクチャ設定部において設定した参照ピクチャを基に、前記第１視点映像信号と前記第２視点映像信号との符号化を行い、符号化ストリームを生成する符号化部と、前記符号化部からの出力結果を記録する記録媒体と、前記撮影部における撮影条件パラメータを設定する設定部と、を備え、前記参照ピクチャ設定部は、前記第２視点映像信号を符号化する際、前記第１視点映像信号に含まれるピクチャおよび前記第２視点映像信号に含まれるピクチャのうち少なくとも１つのピクチャを参照ピクチャとして設定する第１の設定モードと、前記第２視点映像信号のみに含まれるピクチャのうち少なくとも１つのピクチャを参照ピクチャとして設定する第２の設定モードとを有し、前記参照ピクチャ設定部は、前記撮影条件パラメータ、または前記視差情報の変更に応じて、前記第１の設定モードと前記第２の設定モードとを切り換えることを特徴とする。

　この場合に、前記撮影条件パラメータは前記第１視点の撮影方向と前記第２視点の撮影方向との角度であることが好ましい。

　また、これに代えて、前記撮影条件パラメータは前記第１視点または前記第２視点から前記被写体までの距離であってもよい。

　また、本発明の立体映像撮影装置として、映像信号の画像が大きな動きを含む画像であるかどうかを判断する動き情報判断部を有し、前記動き情報に応じて前記第１の設定モードでの選択する参照ピクチャを切り換え可能に構成してもよい。この場合に、前記動き情報判断部により動きが大きいと判断した場合に、前記第１視点映像信号に含まれるピクチャを参照ピクチャとして設定するよう構成してもよい。

　また、本発明の立体映像符号化方法は、第１視点の映像信号である第１視点映像信号と、当該第１視点とは異なる第２視点の映像信号である第２視点映像信号と、を符号化する立体映像符号化方法であって、前記第２視点映像信号を符号化する際に使用する参照ピクチャを、前記第１視点映像信号に含まれるピクチャと、前記第２視点映像信号に含まれるピクチャと、から選択するに際し、算出した前記視差情報の変更に伴って参照ピクチャを変更することを特徴とする。

　本発明によれば、視差取得部で取得した視差情報の変更に応じて、前記第１視点映像信号に含まれるピクチャおよび前記第２視点映像信号に含まれるピクチャのうち少なくとも１つのピクチャを参照ピクチャとして設定する前記第１の設定モードと、前記第２視点映像信号のみに含まれるピクチャのうち少なくとも１つのピクチャを参照ピクチャとして設定する前記第２の設定モードとを切り換えるので、符号化したストリームの画質および符号化効率を向上させることが可能となる。

本実施の形態１に係る立体映像符号化装置の構成を示すブロック図本実施の形態１に係る立体映像符号化装置における符号化部の詳細な構成を示すブロック図本実施の形態１に係る立体映像符号化装置における参照ピクチャ設定部が実行する処理の一例を示すフローチャート本実施の形態１に係る立体映像符号化装置における参照ピクチャ設定部が決定する参照ピクチャの選択方法の一例を示し、視差が大きいと判断された場合の参照インデクスの割当方法本実施の形態１に係る立体映像符号化装置における参照ピクチャ設定部が決定する参照ピクチャの選択方法の一例を示し、視差が大きくないと判断された場合の参照インデクスの割当方法本実施の形態１に係る立体映像符号化装置における参照ピクチャ設定部が実行する処理の変形例を示すフローチャート立体映像を符号化するときの符号化構造の一例を示す図本実施の形態１に係る立体映像符号化装置における参照ピクチャ設定部が実行する処理の一例を示すフローチャート本実施の形態１に係る立体映像符号化装置における参照ピクチャ設定部が決定する参照インデクスの割当方法の一例を示し、視差が大きいと判断された場合の参照インデクスの割当方法本実施の形態１に係る立体映像符号化装置における参照ピクチャ設定部が決定する参照インデクスの割当方法の一例を示し、視差が大きくないと判断された場合の参照インデクスの割当方法本実施の形態２に係る立体映像撮影装置の構成を示すブロック図本実施の形態２に係る立体映像符号化装置の構成を示すブロック図本実施の形態１に係る立体映像撮影装置における参照ピクチャ設定部が実行する設定動作の他の変形例を示すフローチャート本実施の形態１に係る立体映像撮影装置における参照ピクチャ設定部が実行する設定動作のさらに他の変形例を示すフローチャート立体映像を符号化するときの符号化構造の一例を示す図立体映像を符号化するときの符号化順序、ならびに符号化対象ピクチャと参照ピクチャの関係を示した図

　以下、本実施の形態について、図面を参照しながら説明する。

　　（実施の形態１）
　図１は、本実施の形態１に係る立体映像符号化装置の構成を示すブロック図である。本実施の形態１に係る立体映像符号化装置においては、第１視点映像信号と第２視点映像信号とが入力され、Ｈ.264圧縮方式で符号化されたストリームとして出力される。Ｈ.264圧縮方式による符号化においては、１つのピクチャを、１つのスライス、または複数のスライスに分割し、そのスライスを処理単位としている。本実施の形態１におけるＨ.264圧縮方式による符号化では、１つのピクチャが１つのスライスであるとする。なお、このことは、後述する本実施の形態２および３においても同様である。

　図１に示すように、立体映像符号化装置１００は、視差取得部１０１と、参照ピクチャ設定部１０２と、符号化部１０３とを備える。

　視差取得部１０１は、第１視点映像信号と第２視点映像信号との視差情報を視差マッチング等の手段を用いて算出し、参照ピクチャ設定部１０２に対して出力する。前記視差マッチング等の手段とは、具体的には、ステレオマッチングまたはブロックマッチングと言われる方式である。また、別の視差情報取得方法としては、外部から視差情報が与えられる場合に、この視差情報を取得してもかまわない。例えば、放送波で第１視点映像信号と第２視点映像信号とが放送され、この際に、視差情報が付加されて放送されている場合に、前記視差情報を取得する構成としてもかまわない。

　参照ピクチャ設定部１０２は、視差取得部１０１が出力する視差情報から、符号化対象ピクチャを符号化する際に参照する参照ピクチャを設定する。さらに、参照ピクチャ設定部１０２は、前記視差情報に基づいて、設定する参照ピクチャへどのように参照インデクスを割り当てるかといった参照方式を決定する。したがって、参照ピクチャ設定部１０２は、算出した視差情報の変更に伴って参照ピクチャを変更する。より具体的には、参照ピクチャ設定部１０２は、第２視点映像信号を符号化する際、第１視点映像信号に含まれるピクチャおよび第２視点映像信号に含まれるピクチャのうち少なくとも１つのピクチャを参照ピクチャとして設定する第１の設定モードと、前記第２視点映像信号のみに含まれるピクチャのうち少なくとも１つのピクチャを参照ピクチャとして設定する第２の設定モードとを有する。そして、視差取得部１０１で取得した視差情報の変更に応じて、前記第１の設定モードと前記第２の設定モードとを切り換える。そして、参照ピクチャ設定部１０２は、決定したそれらの情報（以下、参照ピクチャ設定情報と称す）を符号化部１０３に対して出力する。参照ピクチャ設定部１０２の具体的な動作については後述する。

　符号化部１０３は、参照ピクチャ設定部１０２で決定された参照ピクチャ設定情報に基づいて動きベクトル検出、動き補償、面内予測、直交変換、量子化およびエントロピー符号化等の一連の符号化処理を実行する。本実施の形態１においては、符号化部１０３は、参照ピクチャ設定部１０２が出力した参照ピクチャ設定情報に従って、符号化対象ピクチャの画像データをＨ.264圧縮方式による符号化により圧縮符号化する。

　次に、図２を用いて、符号化部１０３の詳細な構成について説明する。なお、図２は、本実施の形態１に係る立体映像符号化装置１００における符号化部１０３の詳細な構成を示すブロック図である。

　図２に示すように、符号化部１０３は、入力画像データメモリ２０１、参照画像データメモリ２０２、動きベクトル検出部２０３、動き補償部２０４、面内予測部２０５、予測モード判定部２０６、差分演算部２０７、直交変換部２０８、量子化部２０９、逆量子化部２１０、逆直交変換部２１１、加算部２１２、およびエントロピー符号化部２１３を備えている。

　入力画像データメモリ２０１は、第１視点映像信号と第２視点映像信号との画像データを格納している。なお、入力画像データメモリ２０１が保持している情報は、面内予測部２０５、動きベクトル検出部２０３、予測モード判定部２０６、および差分演算部２０７により参照される。

　参照画像データメモリ２０２は、ローカルデコード画像を格納している。

　動きベクトル検出部２０３は、参照画像データメモリ２０２に格納されているローカルデコード画像を探索対象とし、参照ピクチャ設定部１０２から入力される参照ピクチャ設定情報にしたがって、最も入力画像に近い画像領域を検出してその位置を示す動きベクトルを決定する。さらに、動きベクトル検出部２０３は、最も誤差の小さい符号化対象ブロックのサイズおよびそのサイズでの動きベクトルを決定し、決定したそれらの情報を動き補償部２０４およびエントロピー符号化部２１３に送信する。

　動き補償部２０４は、動きベクトル検出部２０３から受信した情報に含まれる動きベクトルと、参照ピクチャ設定部１０２から入力される参照ピクチャ設定情報とにしたがって、参照画像データメモリ２０２に格納されているローカルデコード画像から予測画像に最適な画像領域を取り出し、面間予測の予測画像を生成し、生成した予測画像を予測モード判定部２０６に出力する。

　面内予測部２０５は、参照画像データメモリ２０２に格納されているローカルデコード画像から同一画面内の符号化後の画素を用いて面内予測を行い、面内予測の予測画像を生成し、生成した予測画像を予測モード判定部２０６に出力する。

　予測モード判定部２０６は、予測モードを判定してその判定結果に基づき、面内予測部２０５からの面内予測で生成された予測画像と、動き補償部２０４からの面間予測で生成された予測画像とを切り替えて出力する。予測モード判定部２０６において予測モードを判定する方法としては、例えば、面間予測と面内予測について、それぞれ入力画像と予測画像との各画素の差分絶対値和を求め、この値が小さい方を予測モードと判定する。

　差分演算部２０７は、入力画像データメモリ２０１から符号化対象となる画像データを取得し、取得した入力画像と予測モード判定部２０６から出力された予測画像との画素差分値を計算し、計算した画素差分値を直交変換部２０８に出力する。

　直交変換部２０８は、差分演算部２０７から入力された画素差分値を周波数係数に変換し、変換した周波数係数を量子化部２０９に出力する。

　量子化部２０９は、直交変換部２０８から入力された周波数係数を量子化し、量子化した値、すなわち量子化値を符号化データとしてエントロピー符号化部２１３および逆量子化部２１０に出力する。

　逆量子化部２１０は、量子化部２０９から入力された量子化値を逆量子化して周波数係数に復元し、復元した周波数係数を逆直交変換部２１１に出力する。

　逆直交変換部２１１は、逆量子化部２１０から入力された周波数係数を画素差分値に逆周波数変換し、逆周波数変換した画素差分値を加算部２１２に出力する。

　加算部２１２は、逆直交変換部２１１から入力される画素差分値と、予測モード判定部２０６から出力された予測画像を加算してローカルデコード画像とし、そのローカルデコード画像を参照画像データメモリ２０２に出力する。ここで、参照画像データメモリ２０２に記憶されるローカルデコード画像は、入力画像データメモリ２０１に記憶される入力画像と基本的には同じ画像であるが、直交変換部２０８および量子化部２０９などで一旦直交変換および量子化処理をされた後、逆量子化部２１０および逆直交変換部２１１などで逆量子化および逆直交変換処理をされるため、量子化歪みなどの歪み成分を有している。

　参照画像データメモリ２０２は、加算部２１２から入力されるローカルデコード画像を格納する。

　エントロピー符号化部２１３は、量子化部２０９から入力された量子化値および動きベクトル検出部２０３から入力された動きベクトル等をエントロピー符号化し、その符号化したデータを出力ストリームとして出力する。

　次に、以上のように構成された立体映像符号化装置１００が実行する処理について説明する。

　まず、第１視点映像信号と第２視点映像信号とが視差取得部１０１と符号化部１０３とにそれぞれ入力される。第１視点映像信号と第２視点映像信号とは、符号化部１０３の入力画像データメモリ２０１に格納され、例えば、それぞれが１９２０画素×１０８０画素の信号によって構成されている。

　次に、視差取得部１０１が、第１視点映像信号と第２視点映像信号との視差情報を視差マッチング等の手段を用いて算出し、参照ピクチャ設定部１０２に対して出力する。この場合に算出する視差情報としては、例えば、第１視点映像信号と第２視点映像信号の画素または画素ブロックごとの視差を表す視差ベクトルの情報（以下、デプスマップと称す）などがある。

　次に、参照ピクチャ設定部１０２が、符号化モードにおいて、視差取得部１０１から出力した視差情報から、符号化対象ピクチャを符号化する際に参照ピクチャをどのように設定するか、さらには参照ピクチャへどのように参照インデクスを割り当てるかといった参照方式を決定し、参照ピクチャ設定情報として符号化部１０３に対して出力する。第１視点映像信号を符号化する際には、使用する参照ピクチャを、第１視点映像信号に含まれるピクチャである第１参照ピクチャから設定する。

　一方、第２視点映像信号を符号化する際には、使用する参照ピクチャを、第１視点映像信号に含まれるピクチャである第２視点Ｖｉｅｗ間参照ピクチャと、第２視点映像信号に含まれるピクチャである第２視点Ｖｉｅｗ内参照ピクチャとから設定する。そして、この第２視点映像信号を符号化する際に、視差取得部１０１から出力した視差情報の変更に応じて、第１視点映像信号に含まれるピクチャである第２視点Ｖｉｅｗ間参照ピクチャおよび前記第２視点映像信号に含まれるピクチャである第２視点Ｖｉｅｗ内参照ピクチャのうち、少なくとも１つのピクチャを参照ピクチャとして設定する第１の設定モードと、前記第２視点映像信号のみに含まれるピクチャのうち少なくとも１つのピクチャを参照ピクチャとして設定する第２の設定モードとを切り替えながら、参照ピクチャを設定する。すなわち、算出した視差情報の変更に伴って参照ピクチャを変更する。

　ここで、第２視点映像信号を符号化する際に、視差取得部１０１で取得した視差情報に基づいて、参照ピクチャ設定部１０２が設定する符号化構造の決定方式について説明する。図３は、視差情報に基づいて参照ピクチャ設定部１０２が実行する動作を示すフローチャートである。

　図３において、参照ピクチャ設定部１０２は、第２視点映像信号を符号化するに際して、視差取得部１０１から入力された視差情報を用いて第１視点映像信号と第２視点映像信号との視差に関する視差情報が大きいかどうかを判断する（ステップＳ３０１）。ステップＳ３０１において視差情報が大きいと判断された場合（ステップＳ３０１においてＹｅｓの場合）、参照ピクチャ設定部１０２は第２視点映像信号に含まれているＶｉｅｗ内参照ピクチャの中から参照ピクチャを選択する（ステップＳ３０２：第２の設定モード）。ステップＳ８０１において視差情報が大きくないと判断された場合（すなわち、ステップＳ３０１においてＮｏの場合）、参照ピクチャ設定部１０２は第１視点映像信号に含まれているＶｉｅｗ間参照ピクチャおよび第２視点映像信号に含まれているＶｉｅｗ内参照ピクチャの中から参照ピクチャを選択する（ステップＳ３０３：第１の設定モード）。

　ここで、視差情報が大きいかどうかの判断は、例えば、第１視点映像信号と第２視点映像信号との画素または画素ブロックごとの各視差ベクトルがばらついているかどうかで判断する。具体的な判断の方法としては、例えば、デプスマップの分散値が閾値以上であるかどうかを判断の条件とするなどが考えられる。デプスマップの分散値を求めることにより、画素または画素ブロックごとの各視差ベクトルがばらついているかどうかで判断できるため、視差情報が大きいかどうかを判断することができる。また、例えば、デプスマップの各視差ベクトルの絶対値の和が閾値以上であるかどうか、という条件から画素または画素ブロック毎の各視差ベクトルがばらついているかどうかを判断してもよい。また、例えば、デプスマップのヒストグラムを用いた統計処理を行うなど、分散値以外の統計情報を用いて、画素または画素ブロックごとの各視差ベクトルがばらついているかどうかという条件から判断してもよい。さらには、例えば、またはデプスマップから得られた最大視差と最小視差とから、画素または画素ブロックごとの各視差ベクトルがばらついているかどうか、という条件から判断してもよい。なお、最大視差や最小視差は、正負の区別を含んだ値である。この場合、前記視差ベクトルにおける最大視差と最小視差との差分の絶対値、すなわち、最大視差の絶対値と最小視差の絶対値との和（最大視差が正で、最小視差が負の場合）または、最大視差と最小視差の差の絶対値（最大視差および最小視差が何れも正の場合、または負の場合）などを特徴量とし、この特徴量が判定用差分絶対値である閾値以上であるかどうか、によって画素または画素ブロックごとの各視差ベクトルがばらついているかどうかを判断してもよい。前記視差情報を、前記視差ベクトルの分散値や各視差ベクトルの絶対値の和に基づいて判断することで、視差ベクトルのばらつき状態を比較的正確に判定できて、信頼性が向上する利点がある。また、前記視差ベクトルにおける最大視差と最小視差との差分の絶対値が、予め定めた判定用差分絶対値以上である場合に、視差が大きいと判断することで、２つの値だけから視差の大小を判定できるため、分散値を求める場合と比較して、判定処理が極めて簡単に計算できて計算量や処理時間を最小限に抑えることができる利点がある。

　次に、図４Ａ、図４Ｂを参照して、参照ピクチャ設定部１０２がどのように参照ピクチャの設定情報を決定するかについてより具体的に説明する。なお、図４Ａ、図４Ｂは参照ピクチャ設定部１０２が、符号化対象ピクチャをＰピクチャとして１つの参照ピクチャを選択して符号化する場合における、視差が大きいと判断された場合の参照ピクチャの選択方法と（図４Ａ）、視差が大きくないと判断された場合の参照ピクチャの選択方法（図４Ｂ）とを示す。また、図中の矢印の意味は、図１３における場合と同様である。

　ここでは符号化対象ピクチャをＰ７とし、Ｐピクチャとして符号化する場合を説明する。視差情報が大きいと判断された場合の参照ピクチャの選択方法では、例えば、図４Ａに示すように、ピクチャＰ７は、第２視点映像信号に含まれているＶｉｅｗ内参照ピクチャであるピクチャＰ１を参照ピクチャとして選択する（第２の設定モード）。一方、視差が大きくないと判断された場合の参照ピクチャの選択方法では、例えば、図４Ｂに示すように、ピクチャＰ７は、第１視点映像信号に含まれているＶｉｅｗ間参照ピクチャであるピクチャＰ６、または第２視点映像信号に含まれているＶｉｅｗ内参照ピクチャであるピクチャＰ１を参照ピクチャとして選択する（第１の設定モード）。そして、算出した視差情報の変更に伴って参照ピクチャを変更する。

　この方法を用いることにより、動きベクトルの検出精度を保ちつつ、複数の参照ピクチャを用いて符号化する場合に比べて符号化に必要なデータ量を減らすことができるため、符号化効率を維持しつつ、回路面積を削減することが可能となる。つまり、このように、視差ベクトルのばらつき状態などを示す視差情報が大きくなった際に前記第２の設定モードに切り替えることで、オクルージョン領域が拡大する第１視点の映像信号である第１視点映像信号を参照ピクチャとして選択しないので、動きベクトルを求める精度が向上して符号化効率が向上する。

　なお、この実施の形態においては、視差情報が大きくないと判断されたときに、第１視点映像信号に含まれているＶｉｅｗ間参照ピクチャおよび第２視点映像信号に含まれているＶｉｅｗ内参照ピクチャの中から参照ピクチャを選択する場合（第１の設定モード）を述べたが、これに限るものではない。つまり、図５のステップＳ３０４に示すように、第１の設定モードにおいて、視差情報が大きくないと判断されたときに、第２視点映像信号に含まれているＶｉｅｗ内参照ピクチャの中から参照ピクチャを選択できるように構成してもよい。この構成によっても、視差が大きいと判断された場合には、第２の設定モードにおいては、参照ピクチャ設定部１０２は第１視点映像信号に含まれているＶｉｅｗ間参照ピクチャの中から参照ピクチャを選択することがないので、第２視点映像信号に含まれているＶｉｅｗ内参照ピクチャと第１視点映像信号に含まれているＶｉｅｗ間参照ピクチャとの中から参照ピクチャを選択できる場合と比較して、計算量を少なめに抑えることができて、電力の削減にも寄与できる。

　ところで、上記の方式で符号化方式を割り当てた場合、参照インデックスの割り当て方によっては符号化効率が悪くなる可能性がある。つまり、Ｈ.264圧縮符号化では、既に符号化した複数のピクチャから参照ピクチャを選択することができる。選択された各参照ピクチャはReference Index（参照インデクス）という変数で管理されており、動きベクトルを符号化する時は、動きベクトルがどのピクチャを参照するかという情報として、参照インデクスを同時に符号化する。参照インデクスは０以上の値を取り、値が小さいほど符号化後の情報量が少なくなる。各参照ピクチャへの参照インデクスの割り当ては自由に設定することができる。このため、参照される動きベクトルの本数が多い参照ピクチャに番号の小さい参照インデクスを割り当てることにより符号化効率を向上させることが可能である。

　例えば、Ｈ.264圧縮符号化方式で採用される算術符号化の一種であるＣＡＢＡＣ（Context-based Adaptive Binary Arithmetic Coding）では、符号化対象のデータを２値化し、算術符号化する。従って、参照インデクスも２値化および算術符号化されることになる。ここで、参照インデクスが”２”である場合の２値化後の符号長（２値信号長）は、３ビットであり、参照インデクスが”１”である場合の２値信号長は、２ビットである。また。参照インデクスが”０”である場合、２値化後の符号長（２値信号長）は、１ビットである。このように、参照インデクスの値が小さいほど、２値信号長は短い。そのため、参照インデクスを符号化して得られる最終的な符号量も、参照インデクスの値が小さいほど、小さくなる傾向にある。

　ここで、符号化する時に参照インデクスの割り当て方を設定しない場合、Ｈ.264規格で決められたデフォルトの割り当て方が適用される。デフォルトの参照インデクスの割り当て方法では、番号の小さな参照インデクスをＶｉｅｗ内参照ピクチャに割り当てており、Ｖｉｅｗ間参照ピクチャに割り当てる参照インデクスは、Ｖｉｅｗ内参照ピクチャに割り当てる参照インデクスよりも大きくなる。

　符号化対象となっているピクチャとＶｉｅｗ間参照ピクチャとの相関が低い場合、デフォルトの参照インデクスの割り当て方法が望ましい。これは、Ｖｉｅｗ間参照ピクチャよりも、Ｖｉｅｗ内参照ピクチャの方が符号化対象ピクチャとの相関が高く、Ｖｉｅｗ内参照ピクチャを参照する動きベクトルが多く検出されるためである。

　一方、符号化対象ピクチャとＶｉｅｗ間参照ピクチャの相関が高い場合、Ｖｉｅｗ内参照ピクチャよりもＶｉｅｗ間参照ピクチャの方が符号化対象ピクチャとの相関が高く、Ｖｉｅｗ間参照ピクチャを参照する動きベクトルが多く検出される。

　例えば、図６に示すように符号化対象ピクチャＰ７をＰピクチャとして符号化する場合に、符号化対象ピクチャＰ７とＶｉｅｗ間参照ピクチャＰ６の相関が高い場合、参照インデクス１（図６ではＲｅｆＩｄｘ１と記載）を割り当てたＶｉｅｗ間参照ピクチャＰ６を参照する動きベクトルが、参照インデクス０（図６ではＲｅｆＩｄｘ０と記載）を割り当てたＶｉｅｗ内参照ピクチャＰ１を参照する動きベクトルよりも多く選ばれる。このため、デフォルトの参照インデクスの割り当て方法では符号化対象ピクチャとＶｉｅｗ間参照ピクチャの相関が高い場合に符号化効率が低下する。

　したがって、以下のような方式を採用して、参照インデックスの割り当て方法を適切に設定する必要がある。図７、図８Ａ、図８Ｂを用いて、参照ピクチャ設定部１０２が実行する参照インデックスの割り当て方法の動作について説明する。なお、図７は、参照ピクチャ設定部１０２が、符号化モードにおいて実行する参照インデックスの割り当て方法の一例を示すフローチャートである。

　図７において、参照ピクチャ設定部１０２は、視差取得部１０１から入力された視差情報が大きいかどうかを判断する（ステップＳ６０１）。ステップＳ６０１において視差情報が大きいと判断された場合（ステップＳ６０１においてＹｅｓの場合）、参照ピクチャ設定部１０２は第２視点Ｖｉｅｗ内参照ピクチャ（以下、Ｖｉｅｗ内参照ピクチャと略す）に小さい参照インデクスを割り当てる（ステップＳ６０２）。ステップＳ６０１において視差情報が大きくない（すなわち、同じか小さい）と判断された場合（ステップＳ６０１においてＮｏの場合）、参照ピクチャ設定部１０２は第２視点Ｖｉｅｗ間参照ピクチャ（以下、Ｖｉｅｗ間参照ピクチャと略す）に小さい参照インデクスを割り当てる（ステップＳ６０３）。

　図８Ａ、図８Ｂを用いて、具体例を説明する。図８Ａ、図８Ｂは、符号化対象ピクチャをＰピクチャとして符号化する場合における、視差が大きいと判断された場合の参照インデクスの割当方法（図８Ａ）と、視差が大きくないと判断された場合の参照インデクスの割当方法（図８Ｂ）とを示す図である。また、図中の矢印の意味は、図１３における場合と同様である。

　ここでは符号化対象ピクチャをＰ７とし、Ｐピクチャとして符号化する場合を説明する。視差が大きいと判断された場合の参照インデクスの割当方法では、例えば、図８Ａに示すように、ピクチャＰ７は動きベクトルの参照ピクチャをピクチャＰ１、ピクチャＰ６から選び、ピクチャＰ１に参照インデクス０を、ピクチャＰ６に参照インデクス１を割り当てる。一方、視差が大きくないと判断された場合の参照インデクスの割当方法では、例えば、図８Ｂに示すように、ピクチャＰ７は動きベクトルの参照ピクチャをピクチャＰ１、ピクチャＰ６から選び、ピクチャＰ１に参照インデクス１を、ピクチャＰ６に参照インデクス０を割り当てる。

　以上のように、第１視点映像信号と第２視点映像信号との視差情報が大きいと判断されたときに、Ｖｉｅｗ内参照ピクチャに番号の小さい参照インデクスを割り当て、第１視点映像信号と第２視点映像信号との視差情報が大きくないと判断されたときに、Ｖｉｅｗ間参照ピクチャに番号の小さい参照インデクスを割り当てるように参照ピクチャを設定する。

　すなわち、参照ピクチャ設定部１０２は、符号化モードにおいて、視差情報に応じて参照インデクスの割り当て方を変更可能に構成されている。したがって、前記視差情報が大きいと判断した場合には、Ｖｉｅｗ内参照ピクチャに、現在割り当てている参照インデクスの値以下となる参照インデクスを割り当て変更可能にする（例えば、現在割り当てている参照インデクスが１の場合には、参照インデクスを０に変更可能とし、現在割り当てている参照インデクスが０の場合には、参照インデクスを０のままとする）ことができるよう構成されている。また、このように、Ｖｉｅｗ内参照ピクチャでの参照インデクスが割り当て変更された際には、Ｖｉｅｗ間参照ピクチャに、現在割り当てている参照インデクスの値以上となる参照インデクスを割り当て変更可能にする（例えば、現在割り当てている参照インデクスが０の場合には、参照インデクスを１に変更可能にし、現在割り当てている参照インデクスが１の場合には、参照インデクスを１のままとする）ことができるよう構成されている。また、視差情報が大きくないと判断した場合には、Ｖｉｅｗ間参照ピクチャに、現在割り当てている参照インデクスの値以下となる参照インデクスを割り当て変更可能にする（例えば、現在割り当てている参照インデクスが１の場合には、参照インデクスを０に変更可能にし、現在割り当てている参照インデクスが０の場合には、参照インデクスを０のままとする）ことができるよう構成されている。また、このように、Ｖｉｅｗ間参照ピクチャでの参照インデクスが割り当て変更された際には、Ｖｉｅｗ内参照ピクチャに、現在割り当てている参照インデクスの値以上となる参照インデクスを割り当て変更可能にする（例えば、現在割り当てている参照インデクスが０の場合には、参照インデクスを１に変更可能にし、現在割り当てている参照インデクスが１の場合には、参照インデクスを１のままとする）ことができるよう構成されている。

　このようにすることにより、参照する動きベクトルの多い参照ピクチャの参照インデクスを小さい値に設定することができるため、符号化効率を高めることができる。したがって、画質および符号化効率を向上させることが可能となる。

　　（実施の形態２）
　本発明は、例えば立体映像撮影カメラといった、撮影装置としても実現することができる。本実施の形態２では、立体映像符号化装置を搭載した立体映像撮影装置が実行する処理について説明する。

　図９は、本実施の形態２に係る立体映像撮影装置の構成を示すブロック図である。

　図９に示すように、立体映像撮影装置Ａ０００は、光学系Ａ１１０（ａ）及び、Ａ１１０（ｂ）、ズームモータＡ１２０、手ぶれ補正用のアクチュエータＡ１３０、フォーカスモータＡ１４０、ＣＣＤイメージセンサＡ１５０（ａ）、Ａ１５０（ｂ）、前処理部Ａ１６０（ａ）、Ａ１６０（ｂ）、立体映像符号化装置Ａ１７０、角度設定部Ａ２００、コントローラＡ２１０、ジャイロセンサＡ２２０、カードスロットＡ２３０、メモリカードＡ２４０、操作部材Ａ２５０、ズームレバーＡ２６０、液晶モニタＡ２７０、内部メモリＡ２８０、撮影モード設定ボタンＡ２９０、測距部Ａ３００を備える。

　光学系Ａ１１０（ａ）は、ズームレンズＡ１１１（ａ）、光学式手ぶれ補正機構Ａ１１２（ａ）、フォーカスレンズＡ１１３（ａ）を含む。また、光学系Ａ１１０（ｂ）は、ズームレンズＡ１１１（ｂ）、光学式手ぶれ補正機構Ａ１１２（ｂ）、フォーカスレンズＡ１１３（ｂ）を含む。

　具体的には、光学式手ぶれ補正機構Ａ１１２（ａ），Ａ１１２（ｂ）としては、ＯＩＳ（Optical Image Stabilizer）として知られている手ぶれ補正機構などを使用できる。この場合、アクチュエータＡ１３０には、ＯＩＳアクチュエータを使用する。

　なお、光学系Ａ１１０（ａ）は、第１視点における被写体像を形成する。また、光学系Ａ１１０（ｂ）は、第１視点とは異なる第２視点における被写体像を形成する。

　ズームレンズＡ１１１（ａ）、Ａ１１１（ｂ）は、光学系の光軸に沿って移動することにより、被写体像を拡大又は縮小することが可能である。ズームレンズＡ１１１（ａ）、Ａ１１１（ｂ）は、ズームモータＡ１２０によって制御されながら駆動される。

　光学式手ぶれ補正機構Ａ１１２（ａ）、Ａ１１２（ｂ）は、内部に光軸に垂直な面内で移動可能な補正レンズを有する。光学式手ぶれ補正機構Ａ１１２（ａ）、Ａ１１２（ｂ）は、立体映像撮影装置Ａ１００のブレを相殺する方向に補正レンズを駆動することにより、被写体像のブレを低減する。補正レンズは、光学式手ぶれ補正機構Ａ１１２（ａ）、Ａ１１２（ｂ）内において最大Ｌだけ中心から移動することが出来る。光学式手ぶれ補正機構Ａ１１２（ａ）、Ａ１１２（ｂ）は、アクチュエータＡ１３０によって制御されながら駆動される。

　フォーカスレンズＡ１１３（ａ）、Ａ１１３（ｂ）は、光学系の光軸に沿って移動することにより、被写体像のピントを調整する。フォーカスレンズＡ１１３（ａ）、Ａ１１３（ｂ）は、フォーカスモータＡ１４０によって制御されながら駆動される。

　ズームモータＡ１２０は、ズームレンズＡ１１１（ａ）、Ａ１１１（ｂ）を駆動制御する。ズームモータＡ１２０は、パルスモータやＤＣモータ、リニアモータ、サーボモータなどで実現してもよい。ズームモータＡ１２０は、カム機構やボールネジなどの機構を介してズームレンズＡ１１１（ａ）、Ａ１１１（ｂ）を駆動するようにしてもよい。また、ズームレンズＡ１１１（ａ）と、ズームレンズＡ１１１（ｂ）と、を同じ動作で制御する構成にしても良い。

　アクチュエータＡ１３０は、光学式手ぶれ補正機構Ａ１１２（ａ）、Ａ１１２（ｂ）内の補正レンズを光軸と垂直な面内で駆動制御する。アクチュエータＡ１３０は、平面コイルや超音波モータなどで実現できる。

　フォーカスモータＡ１４０は、フォーカスレンズＡ１１３（ａ）、Ａ１１３（ｂ）を駆動制御する。フォーカスモータＡ１４０は、パルスモータやＤＣモータ、リニアモータ、サーボモータなどで実現してもよい。フォーカスモータＡ１４０は、カム機構やボールネジなどの機構を介してフォーカスレンズＡ１１３（ａ）、Ａ１１３（ｂ）を駆動するようにしてもよい。

　ＣＣＤイメージセンサＡ１５０（ａ）、Ａ１５０（ｂ）は、光学系Ａ１１０（ａ）、Ａ１１０（ｂ）で形成された被写体像を撮影して、第１視点映像信号及び、第２視点映像信号を生成する。ＣＣＤイメージセンサＡ１５０（ａ）、Ａ１５０（ｂ）は、露光、転送、電子シャッタなどの各種動作を行う。

　前処理部Ａ１６０（ａ）、Ａ１６０（ｂ）は、それぞれ、ＣＣＤイメージセンサＡ１５０（ａ）、Ａ１５０（ｂ）で生成された第１視点映像信号及び第２視点映像信号に対して各種の処理を施す。例えば、映像処理部Ａ１６０（ａ）、Ａ１６０（ｂ）は、第１視点映像信号及び第２視点映像信号に対してガンマ補正やホワイトバランス補正、傷補正などの各種映像補正処理を行う。

　立体映像符号化装置Ａ１７０は、前処理部Ａ１６０（ａ）、Ａ１６０（ｂ）で映像補正処理された第１視点映像信号及び第２視点映像信号を、Ｈ.264圧縮符号化方式に準拠した圧縮形式等により圧縮する。圧縮符号化して得られる符号化ストリームはメモリカードＡ２４０に記録される。

　角度設定部Ａ２００は、光学系Ａ１１０（ａ）と光学系Ａ１１０（ｂ）との光軸の交わる角度を調整するため、光学系Ａ１１０（ａ）と光学系Ａ１１０（ｂ）とを制御する。

　コントローラＡ２１０は、全体を制御する制御手段である。コントローラＡ２１０は、半導体素子などで実現可能である。コントローラＡ２１０は、ハードウェアのみで構成してもよいし、ハードウェアとソフトウェアとを組み合わせることにより実現してもよい。また、コントローラＡ２１０は、マイクロコンピュータなどで実現できる。

　ジャイロセンサＡ２２０は、圧電素子等の振動材等で構成される。ジャイロセンサＡ２２０は、圧電素子等の振動材を一定周波数で振動させコリオリ力による力を電圧に変換して角速度情報を得る。ジャイロセンサＡ２２０から角速度情報を得、この揺れを相殺する方向にＯＩＳ内の補正レンズを駆動させることにより、使用者によって立体映像撮影装置Ａ０００に与えられる手振れは補正される。

　カードスロットＡ２３０は、メモリカードＡ２４０を着脱可能である。カードスロットＡ２３０は、機械的及び電気的にメモリカードＡ２４０と接続可能である。

　メモリカードＡ２４０は、フラッシュメモリや強誘電体メモリなどを内部に含み、データを格納可能である。

　操作部材Ａ２５０は、レリーズボタンを備える。レリーズボタンは、使用者の押圧操作を受け付ける。レリーズボタンを半押しした場合、コントローラＡ２１０を介してＡＦ（Auto Focus）制御及び、ＡＥ（Auto Exposure）制御を開始する。また、レリーズボタンを全押しした場合、被写体の撮影を行う。

　ズームレバーＡ２６０は、使用者からズーム倍率の変更指示を受け付ける部材である。

　液晶モニタＡ２７０は、ＣＣＤイメージセンサＡ１５０（ａ）、Ａ１５０（ｂ）で生成した第１視点映像信号又は第２視点映像信号や、メモリカードＡ２４０から読み出した第１視点映像信号及び第２視点映像信号を、２Ｄ表示若しくは３Ｄ表示可能な表示デバイスである。また、液晶モニタＡ２７０は、立体映像撮影装置Ａ０００の各種の設定情報を表示可能である。例えば、液晶モニタＡ２７０は、撮影時における撮影条件である、ＥＶ値、Ｆ値、シャッタースピード、ＩＳＯ感度等を表示可能である。

　内部メモリＡ２８０は、立体映像撮影装置Ａ０００全体を制御するための制御プログラム等を格納する。また、内部メモリＡ２８０は、立体映像符号化装置Ａ１７０及びコントローラＡ２１０のワークメモリとして機能する。内部メモリＡ２８０は、撮影時における光学系Ａ１１０（ａ）、Ａ１１０（ｂ）、ＣＣＤイメージセンサＡ１５０（ａ）、Ａ１５０（ｂ）の撮影条件を一時的に蓄積する。撮影条件とは、被写体距離、画角情報、ＩＳＯ感度、シャッタースピード、ＥＶ値、Ｆ値、レンズ間距離、撮影時刻、ＯＩＳシフト量、光学系Ａ１１０（ａ）と光学系Ａ１１０（ｂ）との光軸の交わる角度などがある。

　モード設定ボタンＡ２９０は、立体映像撮影装置Ａ０００で撮影する際の撮影モードを設定するボタンである。「撮影モード」とは、ユーザが想定する撮影シーンを示すものであり、例えば、（１）人物モード、（２）子供モード、（３）ペットモード、（４）マクロモード、（５）風景モードを含む２Ｄ撮影モードと、（６）３Ｄ撮影モードなどがある。なお、（１）～（５）それぞれに対しての３Ｄ撮影モードを持ってもよい。立体映像撮影装置Ａ０００は、この撮影モードを基に、適切な撮影パラメータを設定して撮影を行う。なお、立体映像撮影装置Ａ０００が自動設定を行うカメラ自動設定モードを含めるようにしてもよい。また、撮影モード設定ボタンＡ２９０は、メモリカードＡ２４０に記録される映像信号の再生モードを設定するボタンである。

　測距部Ａ３００は、立体映像撮影装置Ａ０００から撮影を行う被写体までの距離を測定する機能を有する。測距部Ａ３００は、例えば、赤外線信号を照射した後、照射した赤外線信号の反射信号を測定することにより測距を行なう。なお、測距部Ａ３００における測距方法は、上記の方法に限定されるものではなく、一般的に用いられる方法であれば、どのような方法を使用しても構わない。

　次に、以上のように構成された立体映像撮影装置Ａ０００が実行する処理について説明する。

　まず、撮影モード設定ボタンＡ２９０が使用者により操作されると、立体映像撮影装置Ａ０００は操作後の撮影モードを取得する。

　コントローラＡ２１０は、レリーズボタンが全押しされるまで待機する。

　レリーズボタンが全押しされると、ＣＣＤイメージセンサＡ１５０（ａ）、Ａ１５０（ｂ）は、撮影モードから設定される撮影条件を基に撮影動作を行い、第１視点映像信号及び第２視点映像信号を生成する。

　第１視点映像信号と第２視点映像信号とが生成されると、前処理部Ａ１６０（ａ）、Ａ１６０（ｂ）は、生成された２つ映像信号に対して、撮影モードに則した各種映像処理を行う。

　前処理部Ａ１６０（ａ）、Ａ１６０（ｂ）で各種映像処理を実行した後、立体映像符号化装置Ａ１７０は第１視点映像信号と第２視点映像信号とを圧縮符号化し、符号化ストリームを生成する。

　符号化ストリームが生成されると、コントローラＡ２１０は、符号化ストリームをカードスロットＡ２３０に接続されるメモリカードＡ２４０に記録する。

　次に、図１０を用いて、立体映像符号化装置Ａ１７０の構成について説明する。なお、図１０は、本実施の形態２に係る立体映像符号化装置Ａ１７０の構成を示すブロック図である。

　図１０において、立体映像符号化装置Ａ１７０は、参照ピクチャ設定部Ａ１０２と、符号化部１０３とを備える。

　参照ピクチャ設定部Ａ１０２は、内部メモリＡ２８０に保持されている被写体距離、光学系Ａ１１０（ａ）と光学系Ａ１１０（ｂ）との光軸の交わる角度といった撮影条件パラメータから、符号化対象ピクチャを符号化する際に参照ピクチャをどのように設定するか、さらには参照ピクチャへどのように参照インデクスを割り当てるかといった参照方式を決定する。そして、参照ピクチャ設定部Ａ１０２は、決定したそれらの情報（以下、参照ピクチャ設定情報と称す）を符号化部１０３に対して出力する。参照ピクチャ設定部Ａ１０２における具体的な動作に関する詳細については後述する。

　符号化部１０３の動作は、実施の形態１と同様であるため、ここでの説明は省略する。　　　

　次に、参照ピクチャ設定部Ａ１０２が実行する処理の一例について説明する。参照ピクチャ設定部Ａ１０２が実行する処理のフローチャートは、実施の形態１で説明した図３、図７と同様であるが、視差が大きいかどうかを判断する方法が異なる。実施の形態２では、視差が大きいかどうかを判断する方法としては、例えば、（１）光学系Ａ１１０（ａ）と光学系Ａ１１０（ｂ）との光軸の交わる角度が予め定めた第３の閾値以上であるかどうか、（２）被写体距離が予め定めた第４の閾値以下であるかどうか、などがある。なお、第１視点映像信号と第２視点映像信号とで視差が大きな領域が多いかどうかを判断する方法であれば、他の方法であってもよい。

　このように、本形態２における立体映像撮影装置Ａ０００は、測距部Ａ３００において得られた距離情報、または２つの光学系の光軸の交わる角度を基に、参照ピクチャを設定する。このため、実施の形態１とは異なり、第１視点映像信号及び第２視点映像信号から視差情報を検出することなく、参照ピクチャを設定することが可能となる。

　以上のように、本実施の形態１、２に係る立体映像符号化装置は、視差取得部１０１によって算出された視差情報、または撮影条件パラメータに応じて、第１視点映像信号と第２視点映像信号との間の視差に基づく視差情報が大きいかどうかを判断して、参照ピクチャの選択方法、もしくは参照インデクスの割り当て方の選択方法を変更することにより、入力画像データの特性にあわせた符号化処理を行う。このため、入力画像データの符号化効率を高めることができる。したがって、立体映像符号化装置の符号化効率、ならびに立体映像符号化装置を用いて符号化した符号化ストリームの画質向上させることが可能である。

　以上、本実施の形態１、２について説明したが、本発明はこれに限定されるものではない。

　例えば、入力画像データの符号化における参照インデクスの設定方法や割り当て方法を決定する方法として、本実施の形態１においては、視差情報を用いて視差が大きいかどうかを判断する方法を説明した。本実施の形態２においては、撮像パラメータを用いて視差が大きいかどうかを判断する方法を説明したが、視差情報と撮像パラメータとの両方を組み合わせて視差が大きいかどうかを判断してもよい。

　また、本実施の形態１においては、視差のばらつきなどの視差情報が大きいかどうかのみを判断して参照ピクチャを設定しているが、これに加えて、例えば、撮影シーンが動きの大きいシーンかどうかといった情報を加えて参照ピクチャを決定してもよい。

　図１１、図１２は、本実施の形態１に係る立体映像撮影装置における参照ピクチャ設定部が実行する設定動作の他の変形例を示すフローチャートである。第２視点映像信号を符号化する際に、図３に示す場合と同様に、視差取得部１０１から入力された視差情報を用いて第１視点映像信号と第２視点映像信号との視差に関する視差情報（視差ベクトルのばらつき状態など）が大きいかどうかを判断する（ステップＳ３０１）。また、図３に示す場合と同様に、視差情報が大きいと判断された場合（ステップＳ３０１においてＹｅｓの場合）、参照ピクチャ設定部１０２は第２視点映像信号に含まれているＶｉｅｗ内参照ピクチャの中から参照ピクチャを選択する（ステップＳ３０２：第２の設定モード）。

　一方、ステップＳ３０１において視差情報が大きくないと判断された場合（ステップＳ３０１においてＮｏの場合）、ステップＳ３０１からステップＳ３０５に進んで、撮影シーン（第１視点映像信号や第２視点映像信号）の動きが大きいかどうかを判断する。撮影シーンの動きが大きいと判断した場合には、ステップＳ３０６に進んで、第１視点映像信号に含まれているＶｉｅｗ間参照ピクチャの中から参照ピクチャを選択する。ステップＳ３０５において、撮影シーンの動きが大きくないと判断した場合には、ステップＳ３０７に進んで、第１視点映像信号に含まれているＶｉｅｗ間参照ピクチャおよび第２視点映像信号に含まれているＶｉｅｗ内参照ピクチャの中から参照ピクチャを選択する（図１１参照）。また、図１２に示すように、ステップＳ３０５において、撮影シーンの動きが大きくないと判断した場合には、ステップＳ３０８に進んで、第２視点映像信号に含まれているＶｉｅｗ内参照ピクチャの中から参照ピクチャを選択してもよい。

　なお、撮影シーンの動きが大きいかどうかを判断する方法としては、１フレーム前の画像の動きベクトルの結果から統計処理するなどして平均値を求めて判断するとよい。また、これに代えて、予め前処理で映像を縮小して情報量を縮小した上で、縮小画像から動きベクトルを検出し、動きベクトルの結果から統計するなどして平均値を求めて判断してもよいが、これに限るものではない。

　これらの方式によっても、視差ベクトルのばらつき状態などを示す視差情報が大きいと判断された場合には、オクルージョン領域が拡大する第１視点の映像信号である第１視点映像信号を参照ピクチャとして選択しないので、動きベクトルを求める精度が向上して符号化効率が向上する。また、これらの方式によれば、動きが大きい場合には、第２視点映像信号に含まれているＶｉｅｗ内参照ピクチャを選択せずに、視差ベクトルのばらつき状態などを示す視差情報が大きくなく、動きも大きくない第１視点映像信号に含まれているＶｉｅｗ間参照ピクチャを選択しているので、入力画像データの符号化効率をさらに高めることができる。

　また、本実施の形態１、２においては、符号化対象ピクチャが、Ｐピクチャである場合について説明した。しかし、Ｂピクチャの場合についても同様のやり方で適応的に切り替えることにより符号化効率を向上させることが可能である。

　また、本実施の形態１、２においては、符号化対象ピクチャが、フレーム構造で符号化するある場合について説明した。しかし、フィールド構造で符号化する場合、またはフレーム構造とフィールド構造とを適応的に切り替える場合についても、同様のやり方で適応的に切り替えることにより、符号化効率を向上させることが可能である。

　また、本実施の形態１、２においては、圧縮符号化方式としてＨ.264を用いた場合を例に挙げたが、これに限るものではない。例えば、参照ピクチャを複数のピクチャの中から設定することができる圧縮符号化方式、特に参照インデクスを割り当てて参照ピクチャを管理する機能を持つ圧縮符号化方式に対して本発明を適用してもよい。

　なお、本発明は、本実施の形態１、２における各構成要素を備える立体映像符号化装置として提供することができるばかりではない。例えば、立体映像符号化装置が具備する各構成要素を各ステップとする立体映像符号化方法や、立体映像符号化装置が具備する各構成要素を備える立体映像符号化集積回路、および立体映像符号化方法を実現することができる立体映像符号化プログラムとして用いることも可能である。

　そして、この立体映像符号化プログラムは、ＣＤ－ＲＯＭ（Compact Disc-Read Only Memory）等の記録媒体やインターネット等の通信ネットワークを介して流通させることができる。

　また、立体映像符号化集積回路は、典型的な集積回路であるＬＳＩとして実現することができる。この場合、ＬＳＩは、１チップで構成しても良いし、複数チップで構成しても良い。例えば、メモリ以外の機能ブロックを１チップＬＳＩで構成しても良い。なお、ここではＬＳＩとしたが、集積度の違いにより、ＩＣ、システムＬＳＩ、スーパーＬＳＩまたはウルトラＬＳＩと呼称されることもある。

　また、集積回路化の手法はＬＳＩに限るものではなく、専用回路または汎用プロセッサで実現してもよいし、ＬＳＩ製造後に、プログラムすることが可能なＦＰＧＡ（Field Programmable Gate Array）や、ＬＳＩ内部の回路セルの接続や設定を再構成可能なリコンフィギュラブル・プロセッサーを利用してもよい。

　さらに、半導体技術の進歩または派生する別技術によりＬＳＩに置き換わる集積回路化の技術が登場すれば、当然、その技術を用いて機能ブロックの集積化を行ってもよい。例えば、バイオ技術の適応等がその可能性として有り得ると考えられる。

　また、集積回路化に際し、各機能ブロックのうち、データを格納するユニットだけを１チップ化構成に取り込まず、別構成としても良い。

　本発明に係る立体映像符号化装置は、より高画質、またはより高効率にＨ.264などの圧縮符号化方式による映像の符号化を実現することができるため、パーソナルコンピュータ、ＨＤＤレコーダ、ＤＶＤレコーダおよびカメラ付き携帯電話機等に適用できる。

Claims

　第１視点の映像信号である第１視点映像信号と、当該第１視点とは異なる第２視点の映像信号である第２視点映像信号と、を符号化する立体映像符号化装置であって、
　前記第１視点映像信号と前記第２視点映像信号との視差に関する情報である視差情報を取得する視差取得部と、
　前記第１信号映像信号および前記第２視点映像信号を符号化する際に使用する参照ピクチャを設定する参照ピクチャ設定部と、
　前記参照ピクチャ設定部において設定した参照ピクチャを基に、前記第１視点映像信号と前記第２視点映像信号との符号化を行い、符号化ストリームを生成する符号化部と、を備え、
　前記参照ピクチャ設定部は、前記第２視点映像信号を符号化する際、前記第１視点映像信号に含まれるピクチャおよび前記第２視点映像信号に含まれるピクチャのうち少なくとも１つのピクチャを参照ピクチャとして設定する第１の設定モードと、前記第２視点映像信号のみに含まれるピクチャのうち少なくとも１つのピクチャを参照ピクチャとして設定する第２の設定モードとを有し、
　前記参照ピクチャ設定部は、前記視差取得部で取得した視差情報の変更に応じて、前記第１の設定モードと前記第２の設定モードとを切り換える
ことを特徴とする立体映像符号化装置。
　前記参照ピクチャ設定部は、前記第２視点映像信号を符号化する際、前記第１の設定モードにおいては、第１視点映像信号のみに含まれるピクチャのうち少なくとも１つのピクチャを参照ピクチャとして設定する
ことを特徴とする請求項１記載の立体映像符号化装置。
　前記視差情報は、前記第１視点映像信号と前記第２視点映像信号との画素または複数の画素を有する画素ブロック毎の視差を表す視差ベクトルのばらつき状態を示す情報であって、
　前記参照ピクチャ設定部は、前記視差情報が大きくなると前記第２の設定モードに切り替え、前記視差情報が小さくなると前記第１の設定モードに切り替える
ことを特徴とする請求項１記載の立体映像符号化装置。
　前記視差情報は、前記視差ベクトルの分散値である、
ことを特徴とする請求項３に記載の立体映像符号化装置。
　前記視差情報は、各視差ベクトルの絶対値の和である、
ことを特徴とする請求項３に記載の立体映像符号化装置。
　前記視差情報は、前記視差ベクトルにおける最大視差と最小視差との差分の絶対値である、
ことを特徴とする請求項３に記載の立体映像符号化装置。
　前記参照ピクチャ設定部は、少なくとも２つ以上の参照ピクチャを設定可能とされ、前記視差情報が切り換わることにより、参照ピクチャの参照インデックスを切り換え可能に構成されている
ことを特徴とする請求項１に記載の立体映像符号化装置。
　前記参照ピクチャ設定部は、
　前記視差情報が大きいと判断した場合に、前記前記第２視点映像信号に含まれる参照ピクチャに、現在割り当てている参照インデクスの値以下となる参照インデクスを割り当て変更可能に構成され、
　前記視差情報が大きくないと判断した場合に、前記第１視点映像信号に含まれる参照ピクチャに、現在割り当てている参照インデクスの値以下となる参照インデクスを割り当て変更可能に構成されている
ことを特徴とする請求項７に記載の立体映像符号化装置。
　被写体を第１視点と、当該第１視点とは異なる第２視点と、から撮像し、当該第１視点における映像信号である第１視点映像信号と、当該第２視点における映像信号である第２視点映像信号と、を撮影する立体映像撮影装置において、
　前記被写体の光学像を形成するとともに、当該光学像を撮影し、デジタル信号として前記第１視点映像信号及び前記第２視点映像信号を取得する撮影部と、
　前記第１視点映像信号と前記第２視点映像信号との視差に関する情報である視差情報を算出する視差取得部と、
　前記第１視点映像信号および前記第２視点映像信号を符号化する際に使用する参照ピクチャを設定する参照ピクチャ設定部と、
　前記参照ピクチャ設定部において設定した参照ピクチャを基に、前記第１視点映像信号と前記第２視点映像信号との符号化を行い、符号化ストリームを生成する符号化部と、
　前記符号化部からの出力結果を記録する記録媒体と、
　前記撮影部における撮影条件パラメータを設定する設定部と、を備え、
　前記参照ピクチャ設定部は、前記第２視点映像信号を符号化する際、前記第１視点映像信号に含まれるピクチャおよび前記第２視点映像信号に含まれるピクチャのうち少なくとも１つのピクチャを参照ピクチャとして設定する第１の設定モードと、前記第２視点映像信号のみに含まれるピクチャのうち少なくとも１つのピクチャを参照ピクチャとして設定する第２の設定モードとを有し、
　前記参照ピクチャ設定部は、前記撮影条件パラメータ、または前記視差情報の変更に応じて、前記第１の設定モードと前記第２の設定モードとを切り換える
ことを特徴とする立体映像撮影装置。
　前記撮影条件パラメータは前記第１視点の撮影方向と前記第２視点の撮影方向との角度
である
ことを特徴とする請求項９に記載の立体映像撮影装置。
　前記撮影条件パラメータは前記第１視点または前記第２視点から前記被写体までの距離である
ことを特徴とする請求項９に記載の立体映像撮影装置。
　映像信号の画像が大きな動きを含む画像であるかどうかを判断する動き情報判断部を有し、前記動き情報に応じて前記第１の設定モードでの選択する参照ピクチャを切り換え可能に構成した
ことを特徴とする請求項１に記載の立体映像撮影装置。
　前記動き情報判断部により動きが大きいと判断した場合に、前記第１視点映像信号に含まれるピクチャを参照ピクチャとして設定する
ことを特徴とする請求項１２に記載の立体映像撮影装置。
　第１視点の映像信号である第１視点映像信号と、当該第１視点とは異なる第２視点の映像信号である第２視点映像信号と、を符号化する立体映像符号化方法であって、
　前記第２視点映像信号を符号化する際に使用する参照ピクチャを、前記第１視点映像信号に含まれるピクチャと、前記第２視点映像信号に含まれるピクチャと、から選択するに際し、
　算出した前記視差情報の変更に伴って参照ピクチャを変更する
ことを特徴とする立体映像符号化方法。