JP5947977B2 - 画像符号化方法、画像復号方法、画像符号化装置、画像復号装置、画像符号化プログラム及び画像復号プログラム - Google Patents

画像符号化方法、画像復号方法、画像符号化装置、画像復号装置、画像符号化プログラム及び画像復号プログラム Download PDF

Info

Publication number
JP5947977B2
JP5947977B2 JP2015511239A JP2015511239A JP5947977B2 JP 5947977 B2 JP5947977 B2 JP 5947977B2 JP 2015511239 A JP2015511239 A JP 2015511239A JP 2015511239 A JP2015511239 A JP 2015511239A JP 5947977 B2 JP5947977 B2 JP 5947977B2
Authority
JP
Japan
Prior art keywords
image
encoding
decoding
viewpoint
composite image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2015511239A
Other languages
English (en)
Other versions
JPWO2014168082A1 (ja
Inventor
信哉 志水
信哉 志水
志織 杉本
志織 杉本
木全 英明
英明 木全
明 小島
明 小島
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Application granted granted Critical
Publication of JP5947977B2 publication Critical patent/JP5947977B2/ja
Publication of JPWO2014168082A1 publication Critical patent/JPWO2014168082A1/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/597Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding specially adapted for multi-view video sequence encoding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/161Encoding, multiplexing or demultiplexing different image signal components
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/103Selection of coding mode or of prediction mode
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/103Selection of coding mode or of prediction mode
    • H04N19/105Selection of the reference unit for prediction within a chosen coding or prediction mode, e.g. adaptive choice of position and number of pixels used for prediction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/172Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a picture, frame or field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/176Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a block, e.g. a macroblock
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/44Decoders specially adapted therefor, e.g. video decoders which are asymmetric with respect to the encoder
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • H04N19/51Motion estimation or motion compensation
    • H04N19/553Motion estimation dealing with occlusions

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Description

本発明は、多視点画像を符号化及び復号する画像符号化方法、画像復号方法、画像符号化装置、画像復号装置、画像符号化プログラム及び画像復号プログラムに関する。
本願は、2013年4月11日に日本へ出願された特願2013−082957号に基づき優先権を主張し、その内容をここに援用する。
従来から、複数のカメラで同じ被写体と背景を撮影した複数の画像からなる多視点画像(Multiview images:マルチビューイメージ)が知られている。この複数のカメラで撮影した動画像のことを多視点動画像(または多視点映像)という。以下の説明では1つのカメラで撮影された画像(動画像)を“2次元画像(動画像)”と称し、同じ被写体と背景とを位置や向き(以下、視点と称する)が異なる複数のカメラで撮影した2次元画像(2次元動画像)群を“多視点画像(多視点動画像)”と称する。
2次元動画像は、時間方向に関して強い相関があり、その相関を利用することによって符号化効率を高めることができる。一方、多視点画像や多視点動画像では、各カメラが同期されている場合、各カメラの映像の同じ時刻に対応するフレーム(画像)は、全く同じ状態の被写体と背景を別の位置から撮影したものであるので、カメラ間(同じ時刻の異なる2次元画像間)で強い相関がある。多視点画像や多視点動画像の符号化においては、この相関を利用することによって符号化効率を高めることができる。
ここで、2次元動画像の符号化技術に関する従来技術を説明する。国際符号化標準であるH.264、MPEG−2、MPEG−4をはじめとした従来の多くの2次元動画像符号化方式では、動き補償予測、直交変換、量子化、エントロピー符号化という技術を利用して、高効率な符号化を行う。例えば、H.264では、符号化対象フレームと過去あるいは未来の複数枚のフレームとの時間相関を利用した符号化が可能である。
H.264で使われている動き補償予測技術の詳細については、例えば非特許文献1に記載されている。H.264で使われている動き補償予測技術の概要を説明する。H.264の動き補償予測は、符号化対象フレームを様々なサイズのブロックに分割し、各ブロックで異なる動きベクトルと異なる参照フレームを持つことを許可している。各ブロックで異なる動きベクトルを使用することで、被写体ごとに異なる動きを補償した精度の高い予測を実現している。一方、各ブロックで異なる参照フレームを使用することで、時間変化によって生じるオクルージョンを考慮した精度の高い予測を実現している。
次に、従来の多視点画像や多視点動画像の符号化方式について説明する。多視点画像の符号化方法と、多視点動画像の符号化方法との違いは、多視点動画像にはカメラ間の相関に加えて、時間方向の相関が同時に存在するということである。しかし、どちらの場合でも、同じ方法でカメラ間の相関を利用することができる。そのため、ここでは多視点動画像の符号化において用いられる方法について説明する。
多視点動画像の符号化については、カメラ間の相関を利用するために、動き補償予測を同じ時刻の異なるカメラで撮影された画像に適用した“視差補償予測”によって高効率に多視点動画像を符号化する方式が従来から存在する。ここで、視差とは、異なる位置に配置されたカメラの画像平面上で、被写体上の同じ部分が存在する位置の差である。図27は、カメラ間で生じる視差を示す概念図である。図27に示す概念図では、光軸が平行なカメラの画像平面を垂直に見下ろしたものとなっている。このように、異なるカメラの画像平面上で被写体上の同じ部分が投影される位置は、一般的に対応点と呼ばれる。
視差補償予測では、この対応関係に基づいて、符号化対象フレームの各画素値を参照フレームから予測して、その予測残差と、対応関係を示す視差情報とを符号化する。視差は対象とするカメラ対や位置ごとに変化するため、視差補償予測を行う領域ごとに視差情報を符号化することが必要である。実際に、H.264の多視点動画像符号化方式では、視差補償予測を用いるブロックごとに視差情報を表すベクトルを符号化している。
視差情報によって与えられる対応関係は、カメラパラメータを用いることで、エピポーラ幾何拘束に基づき、2次元ベクトルではなく、被写体の3次元位置を示す1次元量で表すことができる。被写体の3次元位置を示す情報としては、様々な表現が存在するが、基準となるカメラから被写体までの距離や、カメラの画像平面と平行ではない軸上の座標値を用いることが多い。なお、距離ではなく距離の逆数を用いる場合もある。また、距離の逆数は視差に比例する情報となるため、基準となるカメラを2つ設定し、それらのカメラで撮影された画像間での視差量として3次元位置を表現する場合もある。どのような表現を用いたとしても本質的な違いはないため、以下では、表現による区別をせずに、それら3次元位置を示す情報をデプスと表現する。
図28はエピポーラ幾何拘束の概念図である。エピポーラ幾何拘束によれば、あるカメラの画像上の点に対応する別のカメラの画像上の点はエピポーラ線という直線上に拘束される。このとき、その画素に対するデプスが得られた場合、対応点はエピポーラ線上に一意に定まる。例えば、図28に示すように、第1のカメラ画像においてmの位置に投影された被写体に対する第2のカメラ画像での対応点は、実空間における被写体の位置がM’の場合にはエピポーラ線上の位置m’に投影され、実空間における被写体の位置がM’’の場合にはエピポーラ線上の位置m’’に投影される。
この性質を利用して、参照フレームに対するデプスマップ(距離画像)によって与えられる各被写体の3次元情報に従って、参照フレームから符号化対象フレームに対する合成画像を生成し、それを予測画像として用いることで、精度の高い予測を実現し、効率的な多視点動画像の符号化を実現することができる。なお、このデプスに基づいて生成される合成画像は視点合成画像、視点補間画像、または視差補償画像と呼ばれる。
しかしながら、参照フレームと符号化対象フレームとは異なる位置に置かれたカメラで撮影された画像であるため、フレーミングやオクルージョンの影響で、符号化対象フレームには存在するが、参照フレームには存在しない被写体や背景が写った領域が存在する。そのため、そのような領域では、視点合成画像は適切な予測画像を提供することができない。以下では、そのような視点合成画像では適切な予測画像を提供できない領域をオクルージョン領域と呼ぶ。
非特許文献2では、符号化対象画像と視点合成画像の差分画像に対して、更なる予測を行うことで、オクルージョン領域においても、空間的または時間的相関を利用して効率的な符号化を実現している。また、非特許文献3では、生成した視点合成画像を領域ごとの予測画像の候補とすることで、オクルージョン領域においては、別の方法で予測した予測画像を用い、効率的な符号化を実現することを可能にしている。
ITU-T Recommendation H.264 (03/2009), "Advanced video coding for generic audiovisual services", March, 2009. Shinya SHIMIZU, Masaki KITAHARA, Kazuto KAMIKURA, and Yoshiyuki YASHIMA, "Multi-view Video Coding based on 3-D Warping with Depth Map", In Proceedings of Picture Coding Symposium 2006, SS3-6, April, 2006. S. Shimizu, H. Kimata, and Y. Ohtani, "Adaptive appearance compensated view synthesis prediction for Multiview Video Coding", Image Processing (ICIP), 2009 16th IEEE International Conference on Image Processing, pp. 2949-2952, 7-10 Nov. 2009.
非特許文献2や非特許文献3に記載の方法によれば、デプスマップから得られる被写体の三次元情報を用いて高精度な視差補償を行った視点合成画像によるカメラ間の予測と、オクルージョン領域での空間的または時間的な予測とを組み合わせて、全体として高効率な予測を実現することが可能である。
しかしながら、非特許文献2に記載の方法では、視点合成画像が高精度な予測を提供している領域に対しても、符号化対象画像と視点合成画像との差分画像に対する予測を行うための方法を示す情報を符号化しなくてはならないため、無駄な符号量が生じてしまうという問題ある。
一方、非特許文献3に記載の方法では、視点合成画像が高精度な予測を提供可能な領域に対しては、視点合成画像を用いた予測を行うことを示すだけでよいため、無駄な情報を符号化する必要はない。しかしながら、高精度な予測を提供するか否かに関わらず、視点合成画像は予測画像の候補に含まれるため、予測画像の候補数が大きくなるという問題がある。つまり、予測画像の生成法を選択するのに必要な演算量が増えるだけでなく、予測画像の生成方法を示すためには多くの符号量が必要となるという問題がある。
本発明は、このような事情に鑑みてなされたもので、視点合成画像を予測画像の1つとして用いながら多視点動画像を符号化または復号する際に、オクルージョン領域における符号化効率の低下を防ぎながら、全体として少ない符号量での符号化を実現することができる画像符号化方法、画像復号方法、画像符号化装置、画像復号装置、画像符号化プログラム及び画像復号プログラムを提供することを目的とする。
本発明の一態様は、複数の異なる視点の画像からなる多視点画像を符号化する際に、符号化対象画像とは異なる視点に対する符号化済みの参照画像と、前記参照画像中の被写体に対する参照デプスマップとを用いて、異なる視点間で画像を予測しながら符号化を行う画像符号化装置であって、前記参照画像と前記参照デプスマップとを用いて、前記符号化対象画像に対する視点合成画像を生成する視点合成画像生成部と、前記符号化対象画像を分割した符号化対象領域ごとに、前記視点合成画像が利用可能か否かを判定する利用可否判定部と、前記符号化対象領域ごとに、前記利用可否判定部において前記視点合成画像が利用可能と判定された場合には、当該符号化対象領域については何も符号化せず、前記利用可否判定部において前記視点合成画像が利用不可能と判定された場合には、予測画像生成方法を選択しながら、当該符号化対象領域に対する前記符号化対象画像を予測符号化する画像符号化部とを備える。
本発明の一態様は、複数の異なる視点の画像からなる多視点画像を符号化する際に、符号化対象画像とは異なる視点に対する符号化済みの参照画像と、前記参照画像中の被写体に対する参照デプスマップとを用いて、異なる視点間で画像を予測しながら符号化を行う画像符号化装置であって、前記参照画像と前記参照デプスマップとを用いて、前記符号化対象画像に対する視点合成画像を生成する視点合成画像生成部と、前記符号化対象画像を分割した符号化対象領域ごとに、前記視点合成画像が利用可能か否かを判定する利用可否判定部と、前記符号化対象領域ごとに、前記利用可否判定部において前記視点合成画像が利用可能と判定された場合には、前記符号化対象領域に対する前記符号化対象画像と前記視点合成画像の差分を符号化し、前記利用可否判定部において前記視点合成画像が利用不可能と判定された場合には、予測画像生成方法を選択しながら、当該符号化対象領域に対する前記符号化対象画像を予測符号化する画像符号化部とを備える。
好ましくは、前記画像符号化部は、前記符号化対象領域ごとに、前記利用可否判定部において前記視点合成画像が利用可能と判定された場合に、符号化情報を生成する。
好ましくは、前記画像符号化部は、前記符号化情報として予測ブロックサイズを決定する。
好ましくは、前記画像符号化部は、予測方法を決定し、前記予測方法に対する符号化情報を生成する。
好ましくは、前記利用可否判定部は、前記符号化対象領域における前記視点合成画像の品質に基づいて、前記視点合成画像の利用可否を判定する。
好ましくは、前記画像符号化装置は、前記参照デプスマップを用いて、前記符号化対象画像上の画素で、前記参照画像の遮蔽画素を表すオクルージョンマップを生成するオクルージョンマップ生成部を更に備え、前記利用可否判定部は、前記オクルージョンマップを用いて、前記符号化対象領域内に存在する前記遮蔽画素の数に基づいて、前記視点合成画像の利用可否を判定する。
本発明の一態様は、複数の異なる視点の画像からなる多視点画像の符号データから、復号対象画像を復号する際に、前記復号対象画像とは異なる視点に対する復号済みの参照画像と、前記参照画像中の被写体に対する参照デプスマップとを用いて、異なる視点間で画像を予測しながら復号を行う画像復号装置であって、前記参照画像と前記参照デプスマップとを用いて、前記復号対象画像に対する視点合成画像を生成する視点合成画像生成部と、前記復号対象画像を分割した復号対象領域ごとに、前記視点合成画像が利用可能か否かを判定する利用可否判定部と、前記復号対象領域ごとに、前記利用可否判定部において前記視点合成画像が利用可能と判定された場合には、当該復号対象領域に対する前記視点合成画像を当該復号対象領域に対する前記復号対象画像とし、前記利用可否判定部において前記視点合成画像が利用不可能と判定された場合には、予測画像を生成しながら前記符号データから当該復号対象領域に対する前記復号対象画像を復号する画像復号部とを備える。
本発明の一態様は、複数の異なる視点の画像からなる多視点画像の符号データから、復号対象画像を復号する際に、前記復号対象画像とは異なる視点に対する復号済みの参照画像と、前記参照画像中の被写体に対する参照デプスマップとを用いて、異なる視点間で画像を予測しながら復号を行う画像復号装置であって、前記参照画像と前記参照デプスマップとを用いて、前記復号対象画像に対する視点合成画像を生成する視点合成画像生成部と、前記復号対象画像を分割した復号対象領域ごとに、前記視点合成画像が利用可能か否かを判定する利用可否判定部と、前記復号対象領域ごとに、前記利用可否判定部において前記視点合成画像が利用可能と判定された場合には、前記符号データから前記復号対象画像と前記視点合成画像の差分を復号しながら前記復号対象画像を生成し、前記利用可否判定部において前記視点合成画像が利用不可能と判定された場合には、予測画像を生成しながら前記符号データから当該復号対象領域に対する前記復号対象画像を復号する画像復号部とを備える。
好ましくは、前記画像復号部は、前記復号対象領域ごとに、前記利用可否判定部において前記視点合成画像が利用可能と判定された場合に、符号化情報を生成する。
好ましくは、前記画像復号部は、前記符号化情報として予測ブロックサイズを決定する。
好ましくは、前記画像復号部は、予測方法を決定し、前記予測方法に対する符号化情報を生成する。
好ましくは、前記利用可否判定部は、前記復号対象領域における前記視点合成画像の品質に基づいて、前記視点合成画像の利用可否を判定する。
好ましくは、前記画像復号装置は、前記参照デプスマップを用いて、前記復号対象画像上の画素で、前記参照画像の遮蔽画素を表すオクルージョンマップを生成するオクルージョンマップ生成部を更に備え、前記利用可否判定部は、前記オクルージョンマップを用いて、前記復号対象領域内に存在する前記遮蔽画素の数に基づいて、前記視点合成画像の利用可否を判定する。
本発明の一態様は、複数の異なる視点の画像からなる多視点画像を符号化する際に、符号化対象画像とは異なる視点に対する符号化済みの参照画像と、前記参照画像中の被写体に対する参照デプスマップとを用いて、異なる視点間で画像を予測しながら符号化を行う画像符号化方法であって、前記参照画像と前記参照デプスマップとを用いて、前記符号化対象画像に対する視点合成画像を生成する視点合成画像生成ステップと、前記符号化対象画像を分割した符号化対象領域ごとに、前記視点合成画像が利用可能か否かを判定する利用可否判定ステップと、前記符号化対象領域ごとに、前記利用可否判定ステップにおいて前記視点合成画像が利用可能と判定された場合には、当該符号化対象領域については何も符号化せず、前記利用可否判定ステップにおいて前記視点合成画像が利用不可能と判定された場合には、予測画像生成方法を選択しながら、当該符号化対象領域に対する前記符号化対象画像を予測符号化する画像符号化ステップとを有する。
本発明の一態様は、複数の異なる視点の画像からなる多視点画像の符号データから、復号対象画像を復号する際に、前記復号対象画像とは異なる視点に対する復号済みの参照画像と、前記参照画像中の被写体に対する参照デプスマップとを用いて、異なる視点間で画像を予測しながら復号を行う画像復号方法であって、前記参照画像と前記参照デプスマップとを用いて、前記復号対象画像に対する視点合成画像を生成する視点合成画像生成ステップと、前記復号対象画像を分割した復号対象領域ごとに、前記視点合成画像が利用可能か否かを判定する利用可否判定ステップと、前記復号対象領域ごとに、前記利用可否判定ステップにおいて前記視点合成画像が利用可能と判定された場合には、当該復号対象領域に対する前記視点合成画像を当該復号対象領域に対する前記復号対象画像とし、前記利用可否判定ステップにおいて前記視点合成画像が利用不可能と判定された場合には、予測画像を生成しながら前記符号データから当該復号対象領域に対する前記復号対象画像を復号する画像復号ステップとを有する。
本発明の一態様は、コンピュータに、前記画像符号化方法を実行させるための画像符号化プログラムである。
本発明の一態様は、コンピュータに、前記画像復号方法を実行させるための画像復号プログラムである。
本発明によれば、視点合成画像を予測画像の1つとして用いる際に、オクルージョンの領域の有無に代表される視点合成画像の品質に基づき、視点合成画像のみを予測画像とする符号化と、視点合成画像以外を予測画像とする符号化とを、領域ごとに適応的に切り替えることで、オクルージョン領域における符号化効率の低下を防ぎながら、全体として少ない符号量で多視点画像及び多視点動画像を符号化することができるという効果が得られる。
本発明の一実施形態における画像符号化装置の構成を示すブロック図である。 図1に示す画像符号化装置100aの動作を示すフローチャートである。 オクルージョンマップを生成及び利用する場合の画像符号化装置の構成例を示すブロック図である。 画像符号化装置が復号画像を生成する場合の処理動作を示すフローチャートである。 視点合成画像が利用可能な領域に対して、符号化対象画像と視点合成画像との差分信号の符号化を行う場合の処理動作を示すフローチャートである。 図5に示す処理動作の変形例を示すフローチャートである。 視点合成画像が利用可能と判定された領域に対して、符号化情報を生成し、別の領域や別のフレームを符号化する際に符号化情報を参照できるようにする場合の画像符号化装置の構成を示すブロック図である。 図7に示す画像符号化装置100cの処理動作を示すフローチャートである。 図8に示す処理動作の変形例を示すフローチャートである。 視点合成可能領域数を求めて符号化する場合の画像符号化装置の構成を示すブロック図である。 図10に示す画像符号化装置100dが、視点合成可能領域数を符号化する場合の処理動作を示すフローチャートである。 図11に示す処理動作の変形例を示すフローチャートである。 本発明の一実施形態における画像復号装置の構成を示すブロック図である。 図13に示す画像復号装置200aの動作を示すフローチャートである。 視点合成画像が利用可能か否かを判定するために、オクルージョンマップを生成して用いる場合の画像復号装置の構成を示すブロック図である。 図15に示す画像復号装置200bが、領域ごとに視点合成画像を生成する場合の処理動作を示すフローチャートである。 視点合成画像が利用可能な領域に対して、ビットストリームから復号対象画像と視点合成画像との差分信号の復号を行う場合の処理動作を示すフローチャートである。 視点合成画像が利用可能と判定された領域に対して、符号化情報を生成し、別の領域や別のフレームを復号する際に符号化情報を参照できるようにする場合の画像復号装置の構成を示すブロック図である。 図18に示す画像復号装置200cの処理動作を示すフローチャートである。 復号対象画像と視点合成画像との差分信号をビットストリームから復号して、復号対象画像の生成を行う場合の処理動作を示すフローチャートである。 視点合成可能領域数をビットストリームから復号する場合の画像復号装置の構成を示すブロック図である。 視点合成可能領域数を復号する場合の処理動作を示すフローチャートである。 視点合成画像が利用不可能として復号した領域の数をカウントしながら復号する場合の処理動作を示すフローチャートである。 視点合成画像が利用可能として復号した領域の数もカウントしながら処理する場合の処理動作を示すフローチャートである。 画像符号化装置100a〜100dをコンピュータとソフトウェアプログラムとによって構成する場合のハードウェア構成を示すブロック図である。 画像復号装置200a〜200dをコンピュータとソフトウェアプログラムとによって構成する場合のハードウェア構成を示すブロック図である。 カメラ間で生じる視差を示す概念図である。 エピポーラ幾何拘束の概念図である。
以下、図面を参照して、本発明の実施形態による画像符号化装置及び画像復号装置を説明する。
以下の説明においては、第1のカメラ(カメラAという)、第2のカメラ(カメラBという)の2つのカメラで撮影された多視点画像を符号化する場合を想定し、カメラAの画像を参照画像としてカメラBの画像を符号化または復号するものとして説明する。
なお、デプス情報から視差を得るために必要となる情報は別途与えられているものとする。具体的には、この情報は、カメラAとカメラBの位置関係を表す外部パラメータや、カメラによる画像平面への投影情報を表す内部パラメータであるが、これら以外の形態であってもデプス情報から視差が得られるものであれば、別の情報が与えられていてもよい。これらのカメラパラメータに関する詳しい説明は、例えば、文献「Olivier Faugeras, "Three-Dimensional Computer Vision", pp. 33-66, MIT Press; BCTC/UFF-006.37 F259 1993, ISBN:0-262-06158-9.」に記載されている。この文献には、複数のカメラの位置関係を示すパラメータや、カメラによる画像平面への投影情報を表すパラメータに関する説明が記載されている。
以下の説明では、画像や映像フレーム、デプスマップに対して、記号[]で挟まれた位置を特定可能な情報(座標値もしくは座標値に対応付け可能なインデックス)を付加することで、その位置の画素によってサンプリングされた画像信号や、それに対するデプスを示すものとする。また、座標値やブロックに対応付け可能なインデックス値とベクトルの加算によって、その座標やブロックをベクトルの分だけずらした位置の座標値やブロックを表すものとする。
図1は本実施形態における画像符号化装置の構成を示すブロック図である。画像符号化装置100aは、図1に示すように、符号化対象画像入力部101、符号化対象画像メモリ102、参照画像入力部103、参照デプスマップ入力部104、視点合成画像生成部105、視点合成画像メモリ106、視点合成可否判定部107及び画像符号化部108を備えている。
符号化対象画像入力部101は、符号化対象となる画像を入力する。以下では、この符号化対象となる画像を符号化対象画像と称する。ここではカメラBの画像を入力するものとする。また、符号化対象画像を撮影したカメラ(ここではカメラB)を符号化対象カメラと称する。符号化対象画像メモリ102は、入力した符号化対象画像を記憶する。参照画像入力部103は、視点合成画像(視差補償画像)を生成する際に参照する画像を入力する。以下では、ここで入力された画像を参照画像と呼ぶ。ここではカメラAの画像を入力するものとする。
参照デプスマップ入力部104は、視点合成画像を生成する際に参照するデプスマップを入力する。ここでは、参照画像に対するデプスマップを入力するものとするが、別のカメラに対するデプスマップでも構わない。以下では、このデプスマップを参照デプスマップと称する。なお、デプスマップとは対応する画像の各画素に写っている被写体の3次元位置を表すものである。デプスマップは、別途与えられるカメラパラメータ等の情報によって3次元位置が得られるものであれば、どのような情報でもよい。例えば、カメラから被写体までの距離や、画像平面とは平行ではない軸に対する座標値、別のカメラ(例えばカメラB)に対する視差量を用いることができる。また、ここでは視差量が得られれば構わないので、デプスマップではなく、視差量を直接表現した視差マップを用いても構わない。なお、ここではデプスマップが画像の形態で渡されるものとしているが、同様の情報が得られるのであれば、画像の形態でなくても構わない。以下では、参照デプスマップに対応するカメラ(ここではカメラA)を参照デプスカメラと称する。
視点合成画像生成部105は、参照デプスマップを用いて、符号化対象画像の画素と参照画像の画素との対応関係を求め、符号化対象画像に対する視点合成画像を生成する。視点合成画像メモリ106は生成された符号化対象画像に対する視点合成画像を記憶する。視点合成可否判定部107は、符号化対象画像を分割した領域ごとに、その領域に対する視点合成画像が利用可能か否かを判定する。画像符号化部108は、視点合成可否判定部107の判定に基づき、符号化対象画像を分割した領域ごとに、符号化対象画像を予測符号化する。
次に、図2を参照して、図1に示す画像符号化装置100aの動作を説明する。図2は、図1に示す画像符号化装置100aの動作を示すフローチャートである。まず、符号化対象画像入力部101は、符号化対象画像Orgを入力し、入力された符号化対象画像Orgを符号化対象画像メモリ102に記憶する(ステップS101)。次に、参照画像入力部103は参照画像を入力し、入力された参照画像を視点合成画像生成部105へ出力し、参照デプスマップ入力部104は参照デプスマップを入力し、入力された参照デプスマップを視点合成画像生成部105へ出力する(ステップS102)。
なお、ステップS102で入力される参照画像、参照デプスマップは、既に符号化済みのものを復号したものなど、復号側で得られるものと同じものとする。これは画像復号装置で得られるものと全く同じ情報を用いることで、ドリフト等の符号化ノイズの発生を抑えるためである。ただし、そのような符号化ノイズの発生を許容する場合には、符号化前のものなど、符号化側でしか得られないものが入力されてもよい。参照デプスマップに関しては、既に符号化済みのものを復号したもの以外に、複数のカメラに対して復号された多視点画像に対してステレオマッチング等を適用することで推定したデプスマップや、復号された視差ベクトルや動きベクトルなどを用いて推定されるデプスマップなども、復号側で同じものが得られるものとして用いることができる。
次に、視点合成画像生成部105は、符号化対象画像に対する視点合成画像Synthを生成し、生成された視点合成画像Synthを視点合成画像メモリ106に記憶する(ステップS103)。ここでの処理は、参照画像と参照デプスマップとを用いて、符号化対象カメラにおける画像を合成する方法であれば、どのような方法を用いても構わない。例えば、非特許文献2や文献「Y. Mori, N. Fukushima, T. Fujii, and M. Tanimoto, “View Generation with 3D Warping Using Depth Information for FTV”, In Proceedings of 3DTV-CON2008, pp. 229-232, May 2008.」に記載されている方法を用いても構わない。
次に、視点合成画像が得られたら、符号化対象画像を分割した領域ごとに、視点合成画像の利用可否を判定しながら、符号化対象画像を予測符号化する。すなわち、符号化対象画像を分割した符号化処理を行う単位の領域のインデックスを示す変数blkをゼロで初期化した後(ステップ104)、blkに1ずつ加算しながら(ステップS107)、blkが符号化対象画像内の領域数numBlksになるまで(ステップS108)、以下の処理(ステップS105およびステップS106)を繰り返す。
符号化対象画像を分割した領域ごとに行われる処理では、まず、視点合成可否判定部107が、領域blkに対して視点合成画像が利用可能か否かを判定して(ステップS105)、判定結果に応じて、ブロックblkに対する符号化対象画像を予測符号化する(ステップS106)。ステップS105において行われる視点合成画像が利用可能か否かを判定する処理については、後で説明する。
視点合成画像が利用可能と判断された場合は、領域blkの符号化処理を終了する。一方、視点合成画像が利用不可能と判断された場合、画像符号化部108は、領域blkの符号化対象画像を予測符号化し、ビットストリームを生成する(ステップS106)。復号側で正しく復号可能であるならば、予測符号化にはどのような方法を用いてもよい。なお、生成されたビットストリームが画像符号化装置100aの出力の一部となる。
MPEG−2やH.264、JPEGなどの一般的な動画像符号化または画像符号化では、領域ごとに、複数の予測モードの中から1つのモードを選択して予測画像を生成し、符号化対象画像と予測画像との差分信号に対してDCT(離散コサイン変換)などの周波数変換を施し、その結果得られた値に対して、量子化、2値化、エントロピー符号化の処理を順に適用することで符号化を行う。なお、符号化において、視点合成画像を予測画像の候補の1つとして用いても構わないが、予測画像の候補から視点合成画像を除外することでモード情報にかかる符号量を削減することが可能である。視点合成画像を予測画像の候補から除外する方法には、予測モードを識別するテーブルにおいて、視点合成画像に対するエントリを削除するか、視点合成画像に対するエントリの存在しないテーブルを用いるという方法を使用しても構わない。
ここでは、画像符号化装置100aは画像信号に対するビットストリームを出力している。すなわち、画像サイズ等の情報を示すパラメータセットやヘッダは、必要に応じて、画像符号化装置100aの出力したビットストリームに対して、別途追加されるものとする。
ステップS105において行われる視点合成画像が利用可能か否かを判定する処理は、復号側で同じ判定方法が利用可能であるならば、どのような方法を用いても構わない。例えば、領域blkに対する視点合成画像の品質に従って利用可否を判断、つまり、視点合成画像の品質が別途定められた閾値以上であれば利用可と判断し、視点合成画像の品質が閾値未満の場合には利用不可と判断しても構わない。ただし、復号側では領域blkに対する符号化対象画像は利用することができないため、視点合成画像や、隣接領域における符号化対象画像を符号化して復号した結果を用いて品質を評価する必要がある。視点合成画像のみを用いて品質を評価する方法としては、NR画質評価尺度(No-reference image quality metric)を用いることができる。また、隣接領域において、符号化対象画像を符号化して復号した結果と視点合成画像との誤差量を評価値としても構わない。
別の方法として、領域blkにおけるオクルージョン領域の有無に従って判定する方法がある。つまり、領域blk中のオクルージョン領域の画素数が、別途定められた閾値以上であれば利用不可と判断し、領域blk中のオクルージョン領域の画素数が閾値未満の場合には利用可能と判断しても構わない。特に、閾値を1として、1画素でもオクルージョン領域に含まれる場合は、利用不可と判断しても構わない。
なお、オクルージョン領域を正しく得るためには、視点合成画像を生成する場合に、被写体の前後関係を適切に判定しながら視点合成を行う必要がある。つまり、符号化対象画像の画素のうち、参照画像上では他の被写体によって遮蔽されてしまう画素については、合成画像を生成しないようにする必要がある。合成画像を生成しないようにする場合、視点合成画像を生成する前に、視点合成画像の各画素の画素値を、取りえない値で初期化しておくことで、視点合成画像を用いて、オクルージョン領域の有無を判定することができる。また、視点合成画像を生成する際に、オクルージョン領域を示すオクルージョンマップを同時に生成し、それを用いて判定を行っても構わない。
次に、図3を参照して、図1に示す画像符号化装置の変形例を説明する。図3は、オクルージョンマップを生成及び利用する場合の画像符号化装置の構成例を示すブロック図である。図3に示す画像符号化装置100bが図1に示す画像符号化装置100aと異なる点は、視点合成画像生成部105に代えて視点合成部110とオクルージョンマップメモリ111とを備える点である。なお、図1に示す画像符号化装置100aと同じ構成には同じ符号を付してその説明を省略する。
視点合成部110は、参照デプスマップを用いて、符号化対象画像の画素と参照画像の画素との対応関係を求め、符号化対象画像に対する視点合成画像とオクルージョンマップを生成する。ここで、オクルージョンマップは符号化対象画像の各画素に対して、参照画像上でその画素に写っている被写体の対応が取れるか否かを表したものである。オクルージョンマップメモリ111は生成されたオクルージョンマップを記憶する。
オクルージョンマップの生成には、復号側で同じ処理を行うことができるのであれば、どのような方法を用いても構わない。例えば、前述のように各画素の画素値を取りえない値で初期化して生成した視点合成画像を解析することでオクルージョンマップを求めても構わないし、全ての画素においてオクルージョンであるとしてオクルージョンマップを初期化しておき、画素に対して視点合成画像が生成される度に、当該画素に対する値をオクルージョン領域でないことを示す値で上書きすることでオクルージョンマップを生成しても構わない。また、参照デプスマップの解析によりオクルージョン領域を推定することでオクルージョンマップを生成する方法もある。例えば、参照デプスマップにおけるエッジを抽出し、その強度と向きからオクルージョン範囲を推定する方法がある。
視点合成画像の生成方法のなかには、オクルージョン領域に対して、時空間予測をすることで、何らかの画素値を生成する手法が存在する。この処理はインペイントと呼ばれる。この場合、インペイントによって画素値が生成された画素は、オクルージョン領域としても構わないし、オクルージョン領域ではないとしても構わない。なお、インペイントによって画素値が生成された画素をオクルージョン領域として扱う場合は、視点合成画像をオクルージョン判定に使用することはできないため、オクルージョンマップを生成する必要がある。
更に別の方法として、視点合成画像の品質による判定と、オクルージョン領域の有無による判定とを組み合わせても構わない。例えば、両方の判定を組み合わせて、両方の判定で基準を満たさない場合には、利用不可と判断する方法がある。また、オクルージョン領域に含まれる画素数に従って、視点合成画像の品質の閾値を変化させる方法もある。更に、オクルージョン領域の有無の判定で基準を満たさない場合にのみ、品質による判定を行うようにする方法もある。
前述までの説明では、符号化対象画像の復号画像を生成していないが、符号化対象画像の復号画像が別の領域や別のフレームの符号化に使用される場合には、復号画像を生成する。図4は、画像符号化装置が復号画像を生成する場合の処理動作を示すフローチャートである。図4において、図2に示す処理動作と同じ処理動作には、同じ符号を付してその説明を省略する。図4に示す処理動作は、図2に示す処理動作と異なり、視点合成画像が利用可能か否かを判定し(ステップS105)、利用可能と判定された場合に、視点合成画像を復号画像とする処理(ステップS109)と、利用不可能と判定された場合に、復号画像を生成する処理(ステップS110)とが追加されている。
なお、ステップS110において行われる復号画像の生成処理は、復号側と同じ復号画像が得られるのであればどのような方法で行っても構わない。例えば、ステップS106で生成されたビットストリームを復号することで行っても構わないし、2値化およびエントロピー符号化でロスレス符号化された値を、逆量子化及び逆変換して、その結果得られた値を予測画像に加えることで簡易的に行っても構わない。
また、前述までの説明では、視点合成画像が利用可能な領域に対しては、ビットストリームが生成されないが、符号化対象画像と視点合成画像との差分信号を符号化するようにしても構わない。なお、ここで差分信号は、視点合成画像の符号化対象画像に対する誤差を補正することができるのであれば、単純な差分として表現しても構わないし、符号化対象画像の剰余として表現しても構わない。ただし、復号側において、どのような方法で差分信号が表現されているかが判定できる必要がある。例えば、常にある表現を用いるものとしても構わないし、フレームごとに表現方法を伝える情報を符号化して通知しても構わない。視点合成画像や参照デプスマップ、オクルージョンマップなど復号側でも得られる情報を用いて表現方法を決定することで、画素やフレームごとに異なる表現方法を用いても構わない。
図5は、視点合成画像が利用可能な領域に対して、符号化対象画像と視点合成画像との差分信号の符号化を行う場合の処理動作を示すフローチャートである。図5に示す処理動作が図2に示す処理動作と異なる点は、ステップS111が追加されている点であり、その他は同じである。同じ処理を行うステップに対しては同じ符号を付して、その説明を省略する。
図5に示す処理動作では、領域blkにおいて、視点合成画像が利用可能と判定された場合、符号化対象画像と視点合成画像との差分信号を符号化し、ビットストリームを生成する(ステップS111)。復号側で正しく復号可能であるならば、差分信号の符号化にはどのような方法を用いてもよい。生成されたビットストリームは画像符号化装置100aの出力の一部となる。
なお、復号画像を生成・記憶する場合は、図6に示す通り、符号化された差分信号を視点合成画像に加えることで復号画像を生成・記憶する(ステップS112)。図6は、図5に示す処理動作の変形例を示すフローチャートである。ここで符号化された差分信号とは、ビットストリームで表現された差分信号であり、復号側で得られる差分信号と同じものである。
MPEG−2やH.264、JPEGなどの一般的な動画像符号化または画像符号化における差分信号の符号化では、領域ごとに、DCTなどの周波数変換を施し、その結果得られた値に対して、量子化、2値化、エントロピー符号化の処理を順に適用することで符号化を行う。この場合、ステップS106における予測符号化処理と異なり、予測ブロックサイズや予測モード、動き/視差ベクトルなどの予測画像の生成に必要な情報の符号化を省略し、それらに対するビットストリームは生成されない。そのため、全ての領域に対して予測モード等を符号化する場合と比べて、符号量を削減し、効率的な符号化を実現することができる。
前述までの説明では、視点合成画像が利用可能な領域に対しては、符号化情報(予測情報)が生成されない。しかしながら、ビットストリームには含まれない領域ごとの符号化情報を生成して、別のフレームを符号化する際に符号化情報を参照できるようにしても構わない。ここで、符号化情報とは、予測ブロックサイズや予測モード、動き/視差ベクトルなどの予測画像の生成や予測残差の復号に使用される情報のことである。
次に、図7を参照して、図1に示す画像符号化装置の変形例を説明する。図7は、視点合成画像が利用可能と判定された領域に対して、符号化情報を生成し、別の領域や別のフレームを符号化する際に符号化情報を参照できるようにする場合の画像符号化装置の構成を示すブロック図である。図7に示す画像符号化装置100cが、図1に示す画像符号化装置100aと異なる点は、符号化情報生成部112を更に備える点である。なお、図7において、図1に示す同じ構成には同じ符号を付して、その説明を省略する。
符号化情報生成部112は、視点合成画像が利用可能と判定された領域に対して符号化情報を生成し、別の領域や別のフレームを符号化する画像符号化装置へ出力する。本実施形態では、別の領域や別のフレームの符号化も画像符号化装置100cで行われることとし、生成された情報は画像符号化部108へ渡される。
次に、図8を参照して、図7に示す画像符号化装置100cの処理動作を説明する。図8は、図7に示す画像符号化装置100cの処理動作を示すフローチャートである。図8に示す処理動作が図2に示す処理動作と異なる点は、視点合成画像の利用可否判定(ステップS105)で利用可と判定された後に、領域blkに対する符号化情報を生成する処理(ステップS113)が追加されている点である。なお、符号化情報の生成は、復号側が同じ情報を生成可能であれば、どのような情報を生成しても構わない。
例えば、予測ブロックサイズとしては、可能な限り大きなブロックサイズとしても構わないし、可能な限り小さなブロックサイズとしても構わない。また、使用したデプスマップや生成された視点合成画像を元に判定することで領域ごとに異なるブロックサイズを設定しても構わない。類似した画素値やデプス値を持つ画素のできるだけ大きな集合となるようにブロックサイズを適応的に決定しても構わない。
予測モードや動き/視差ベクトルとしては、全ての領域に対して、領域ごとの予測を行う場合に視点合成画像を使用した予測を示すモード情報や動き/視差ベクトルを設定しても構わない。また、視点間予測モードに対応するモード情報とデプス等から得られる視差ベクトルを、それぞれモード情報や動き/視差ベクトルとして設定しても構わない。視差ベクトルに関しては、その領域に対する視点合成画像をテンプレートとして、参照画像上を探索することで求めても構わない。
別の方法としては、視点合成画像を符号化対象画像とみなして解析することで、最適なブロックサイズや予測モードを推定して生成しても構わない。この場合、予測モードとしては、画面内予測や動き補償予測なども選択可能にしても構わない。
このようにビットストリームからは得られない情報を生成し、別のフレームを符号化する際に、生成された情報を参照可能にすることで、別のフレームの符号化効率を向上させることができる。これは、時間的に連続するフレームや同じ被写体を撮影したフレームなど類似したフレームを符号化する場合、動きベクトルや予測モードにも相関があるため、それらの相関を利用して冗長性を取り除くことができるためである。
ここでは、視点合成画像が利用可能な領域では、ビットストリームを生成しない場合の説明を行ったが、図9に示す通り、前述した符号化対象画像と視点合成画像との差分信号の符号化を行っても構わない。図9は、図8に示す処理動作の変形例を示すフローチャートである。なお、符号化対象画像の復号画像が別の領域や別のフレームの符号化に使用される場合は、領域blkに対する処理が終了したら、前述した説明の通り、対応する方法を用いて復号画像を生成・記憶する。
前述した画像符号化装置では、視点合成画像が利用可能として符号化された領域の数についての情報は出力されるビットストリームに含まれない。しかしながら、ブロックごとの処理を行う前に、視点合成画像が利用可能な領域の数を求め、その数を示す情報をビットストリームに埋め込むようにしてもよい。以下では、視点合成画像が利用可能な領域の数を視点合成可能領域数と称する。なお、視点合成画像が利用不可能な領域の数を用いても構わないことは明らかであるため、視点合成画像が利用可能な領域の数を用いる場合を説明する。
次に、図10を参照して、図1に示す画像符号化装置の変形例を説明する。図10は視点合成可能領域数を求めて符号化する場合の画像符号化装置の構成を示すブロック図である。図10に示す画像符号化装置100dが、図1に示す画像符号化装置100aと異なる点は、視点合成可否判定部107に代えて、視点合成可能領域決定部113と視点合成可能領域数符号化部114とを備える点である。なお、図10において、図1に示す画像符号化装置100aと同じ構成には同じ符号を付してその説明を省略する。
視点合成可能領域決定部113は、符号化対象画像を分割した領域ごとに、その領域に対する視点合成画像が利用可能か否かを判定する。視点合成可能領域数符号化部114は、視点合成可能領域決定部113で、視点合成画像が利用可能と決定された領域の数を符号化する。
次に、図11を参照して、図10に示す画像符号化装置100dの処理動作を説明する。図11は、図10に示す画像符号化装置100dが、視点合成可能領域数を符号化する場合の処理動作を示すフローチャートである。図11に示す処理動作は、図2に示す処理動作と異なり、視点合成画像を生成した後に、視点合成画像を利用可能とする領域を決定し(ステップS114)、その領域数である視点合成可能領域数を符号化する(ステップS115)。符号化結果のビットストリームは、画像符号化装置100dの出力の一部となる。また、領域ごとに行われる視点合成画像が利用可能か否かの判断(ステップS116)は、前述のステップS114での決定と同じ方法で行われる。なお、ステップS114において、各領域において視点合成画像が利用可能か否かを示すマップを生成し、ステップS116では、そのマップを参照することで視点合成画像の利用可否を判定するようにしても構わない。
なお、視点合成画像が利用可能な領域の決定には、どのような方法を用いても構わない。ただし、復号側で同様の基準を用いて領域を特定できる必要がある。例えば、オクルージョン領域に含まれる画素数や視点合成画像の品質などに対して、予め定められた閾値を基準にして、視点合成画像が利用可能か否かを決定しても構わない。その際に、ターゲットビットレートや品質に応じて閾値を決定し、視点合成画像を利用可能とする領域を制御しても構わない。なお、使用された閾値を符号化する必要はないが、閾値を符号化して、符号化された閾値を伝送しても構わない。
ここでは、画像符号化装置は2種類のビットストリームを出力するものとしたが、画像符号化部108の出力と視点合成可能領域数符号化部114の出力とを多重化し、その結果得られたビットストリームを画像符号化装置の出力としても構わない。また、図11に示す処理動作では、各領域の符号化を行う前に視点合成可能領域数を符号化したが、図12に示すように、図2に示す処理動作に従って符号化した後に、結果として視点合成画像が利用可能と判断された領域数を符号化する(ステップS117)ようにしても構わない。図12は、図11に示す処理動作の変形例を示すフローチャートである。
更に、ここでは視点合成画像が利用可能と判断された領域では、符号化処理を省略する場合で説明を行ったが、図3〜図9を参照して説明した方法において、視点合成可能領域数を符号化する方法を組み合わせても構わないことは明らかである。
このように視点合成可能領域数をビットストリームに含めることで、何らかのエラーにより符号化側と復号側とで異なる参照画像や参照デプスマップが得られた場合においても、そのエラーによるビットストリームの読み取りエラーの発生を防ぐことが可能となる。なお、符号化時に想定した領域数よりも多くの領域で視点合成画像が利用可能と判断されると、当該フレームにおいて本来読み込むべきはずのビットを読み込まず、次のフレーム等の復号において、誤ったビットが先頭ビットだと判断され、正常なビット読み込みができなくなる。一方、符号化時に想定した領域数よりも少ない領域で視点合成画像が利用可能と判断されると、次のフレーム等に対するビットを用いて復号処理を行おうとしてしまい、当該フレームから正常なビット読み込みが不可能になる。
次に、本実施形態における画像復号装置について説明する。図13は本実施形態における画像復号装置の構成を示すブロック図である。画像復号装置200aは、図13に示すように、ビットストリーム入力部201、ビットストリームメモリ202、参照画像入力部203、参照デプスマップ入力部204、視点合成画像生成部205、視点合成画像メモリ206、視点合成可否判定部207及び画像復号部208を備えている。
ビットストリーム入力部201は、復号対象となる画像のビットストリームを入力する。以下では、この復号対象となる画像を復号対象画像と呼ぶ。ここでは、復号対象画像はカメラBの画像を指す。また、以下では、復号対象画像を撮影したカメラ(ここではカメラB)を復号対象カメラと呼ぶ。ビットストリームメモリ202は、入力した復号対象画像に対するビットストリームを記憶する。参照画像入力部203は、視点合成画像(視差補償画像)を生成する際に参照する画像を入力する。以下では、ここで入力された画像を参照画像と呼ぶ。ここではカメラAの画像が入力されるものとする。
参照デプスマップ入力部204は、視点合成画像を生成する際に参照するデプスマップを入力する。ここでは、参照画像に対するデプスマップを入力するものとするが、別のカメラに対するデプスマップでも構わない。以下では、このデプスマップを参照デプスマップと称する。なお、デプスマップとは対応する画像の各画素に写っている被写体の3次元位置を表すものである。デプスマップは、別途与えられるカメラパラメータ等の情報によって3次元位置が得られるものであれば、どのような情報でもよい。例えば、カメラから被写体までの距離や、画像平面とは平行ではない軸に対する座標値、別のカメラ(例えばカメラB)に対する視差量を用いることができる。また、ここでは視差量が得られれば構わないので、デプスマップではなく、視差量を直接表現した視差マップを用いても構わない。なお、ここではデプスマップが画像の形態で渡されるものとしているが、同様の情報が得られるのであれば、画像の形態でなくても構わない。以下では、参照デプスマップに対応するカメラ(ここではカメラA)を参照デプスカメラと称する。
視点合成画像生成部205は、参照デプスマップを用いて、復号対象画像の画素と参照画像の画素との対応関係を求め、復号対象画像に対する視点合成画像を生成する。視点合成画像メモリ206は生成された復号対象画像に対する視点合成画像を記憶する。視点合成可否判定部207は、復号対象画像を分割した領域ごとに、その領域に対する視点合成画像が利用可能か否かを判定する。画像復号部208は、復号対象画像を分割した領域ごとに、視点合成可否判定部207の判定に基づいて、復号対象画像をビットストリームから復号、または、視点合成画像から生成して出力する。
次に、図14を参照して、図13に示す画像復号装置200aの動作を説明する。図14は、図13に示す画像復号装置200aの動作を示すフローチャートである。まず、ビットストリーム入力部201は、復号対象画像を符号化したビットストリームを入力し、入力されたビットストリームをビットストリームメモリ202に記憶する(ステップS201)。次に、参照画像入力部203は参照画像を入力し、入力された参照画像を視点合成画像生成部205へ出力し、参照デプスマップ入力部204は参照デプスマップを入力し、入力された参照デプスマップを視点合成画像生成部205へ出力する(ステップS202)。
なお、ステップS202で入力される参照画像、参照デプスマップは、符号化側で使用されたものと同じものとする。これは画像符号化装置で得られるものと全く同じ情報を用いることで、ドリフト等の符号化ノイズの発生を抑えるためである。ただし、そのような符号化ノイズの発生を許容する場合には、符号化時に使用されたものと異なるものが入力されてもよい。参照デプスマップに関しては、別途復号したもの以外に、複数のカメラに対して復号された多視点画像に対してステレオマッチング等を適用することで推定したデプスマップや、復号された視差ベクトルや動きベクトルなどを用いて推定されるデプスマップなどを用いることもある。
次に、視点合成画像生成部205は、復号対象画像に対する視点合成画像Synthを生成し、生成された視点合成画像Synthを視点合成画像メモリ206に記憶する(ステップS203)。ここでの処理は前述したステップS103と同じである。なお、ドリフト等の符号化ノイズの発生を抑えるためには、符号化時に使用された方法と同じ方法を用いる必要があるが、そのような符号化ノイズの発生を許容する場合には、符号化時に使用された方法と異なる方法を使用しても構わない。
次に、視点合成画像が得られたら、復号対象画像を分割した領域ごとに、視点合成画像の利用可否を判定しながら、復号対象画像を復号または生成する。すなわち、復号対象画像を分割した復号処理を行う単位の領域のインデックスを示す変数blkをゼロで初期化した後(ステップ204)、blkに1ずつ加算しながら(ステップS208)、blkが復号対象画像内の領域数numBlksになるまで(ステップS209)、以下の処理(ステップS205〜ステップS207)を繰り返す。
復号対象画像を分割した領域ごとに行われる処理では、まず、視点合成可否判定部207が、領域blkに対して視点合成画像が利用可能か否かを判定する(ステップS205)。ここでの処理は前述したステップS105と同じである。
視点合成画像が利用可能と判断された場合は、領域blkの視点合成画像を復号対象画像とする(ステップS206)。一方、視点合成画像が利用不可能と判断された場合、画像復号部208は、指定された方法で予測画像を生成しながらビットストリームから復号対象画像を復号する(ステップS207)。なお、得られた復号対象画像は画像復号装置200aの出力となる。本発明を動画像復号や多視点画像復号などに使う場合など、復号対象画像が他のフレームを復号する際に使われる場合は、復号対象画像は別途定められた復号画像メモリに記憶される。
ビットストリームから復号対象画像を復号する場合は、符号化時に用いた方式に対応する方法を用いる。例えば、非特許文献1に記載のH.264/AVCに準ずる方式を用いて符号化されている場合は、ビットストリームから予測方法を示す情報や予測残差を復号し、復号した予測方法に従って生成した予測画像に予測残差を加えることで復号対象画像を復号する。なお、符号化時に、予測モードを識別するテーブルにおいて、視点合成画像に対するエントリを削除するか、視点合成画像に対するエントリの存在しないテーブルを用いることで、視点合成画像が予測画像の候補から除外されている場合には、同様の処理によって、予測モードを識別するテーブルにおいて、視点合成画像に対するエントリを削除するか、元々視点合成画像に対するエントリの存在しないテーブルに従って復号処理を行う必要がある。
ここでは、画像復号装置200aには画像信号に対するビットストリームが入力される。すなわち、画像サイズ等の情報を示すパラメータセットやヘッダは、必要に応じて、画像復号装置200aの外側で解釈され、復号に必要な情報は画像復号装置200aへ通知されるものとする。
ステップS205において、視点合成画像が利用可能か否かを判定するために、オクルージョンマップを生成して用いても構わない。その場合の画像復号装置の構成例を図15に示す。図15は、視点合成画像が利用可能か否かを判定するために、オクルージョンマップを生成して用いる場合の画像復号装置の構成を示すブロック図である。図15に示す画像復号装置200bが、図13に示す画像復号装置200aと異なる点は、視点合成画像生成部205に代えて視点合成部209とオクルージョンマップメモリ210とを備える点である。なお、図15において、図13に示す画像復号装置200aと同じ構成には同じ符号を付してその説明を省略する。
視点合成部209は、参照デプスマップを用いて、復号対象画像の画素と参照画像の画素との対応関係を求め、復号対象画像に対する視点合成画像とオクルージョンマップを生成する。ここで、オクルージョンマップは復号対象画像の各画素に対して、参照画像上でその画素に写っている被写体の対応が取れるか否かを表したものである。なお、オクルージョンマップの生成には、符号化側と同じ処理であれば、どのような方法を用いても構わない。オクルージョンマップメモリ210は生成されたオクルージョンマップを記憶する。
また、視点合成画像の生成方法のなかには、オクルージョン領域に対して、時空間予測をすることで、何らかの画素値を生成する手法が存在する。この処理はインペイントと呼ばれる。この場合、インペイントによって画素値が生成された画素は、オクルージョン領域としても構わないし、オクルージョン領域ではないとしても構わない。なお、インペイントによって画素値が生成された画素をオクルージョン領域として扱う場合は、視点合成画像をオクルージョン判定に使用することはできないため、オクルージョンマップを生成する必要がある。
オクルージョンマップを用いて、視点合成画像が利用可能か否かを判定する場合、復号対象画像全体に対しては視点合成画像を生成せず、領域ごとに視点合成画像を生成するようにしても構わない。このようにすることで、視点合成画像を記憶するためのメモリ量や演算量を削減することが可能である。ただし、そのような効果を得るためには、視点合成画像を領域ごとに作成することができる必要がある。
次に、図16を参照して、図15に示す画像復号装置の処理動作を説明する。図16は、図15に示す画像復号装置200bが、領域ごとに視点合成画像を生成する場合の処理動作を示すフローチャートである。図16に示す通り、フレーム単位でオクルージョンマップを生成し(ステップS213)、オクルージョンマップを用いて視点合成画像が利用可能か否かを判定する(ステップS205’)。その後、視点合成画像が利用可能と判断された領域に対して、視点合成画像を生成し復号対象画像とする(ステップS214)。
視点合成画像を領域ごとに作成可能な状況としては、復号対象画像に対するデプスマップが得られている状況がある。例えば、参照デプスマップとして復号対象画像に対するデプスマップが与えられても構わないし、参照デプスマップから復号対象画像に対するデプスマップを生成し、視点合成画像の生成に使用するとしても構わない。なお、参照デプスマップから視点合成画像に対するデプスマップを生成する際に、取りえないデプス値で合成デプスマップを初期化した後に、画素ごとの投影処理によって合成デプスマップを生成することで、合成デプスマップをオクルージョンマップとしても利用しても構わない。
前述までの説明では、視点合成画像が利用可能な領域に対しては、視点合成画像をそのまま復号対象画像としているが、ビットストリームに復号対象画像と視点合成画像との差分信号が符号化されている場合は、それを用いながら復号対象画像を復号するようにしても構わない。なお、ここで差分信号とは視点合成画像の復号対象画像に対する誤差を補正する情報であり、単純な差分として表現されていても構わないし、復号対象画像の剰余として表現されていても構わない。ただし、符号化時に用いた表現方法を知らなくてはならない。例えば、常に特定の表現が使用されているものとしても構わないし、フレームごとに表現方法を伝える情報が符号化されているとしても構わない。後者の場合、適切なタイミングでビットストリームから表現形式を示す情報を復号する必要がある。また、視点合成画像や参照デプスマップ、オクルージョンマップなど符号化側と同じ情報を用いて表現方法を決定することで、画素やフレームごとに異なる表現方法が用いられたとしても構わない。
図17は、視点合成画像が利用可能な領域に対して、ビットストリームから復号対象画像と視点合成画像との差分信号の復号を行う場合の処理動作を示すフローチャートである。図17に示す処理動作が、図14に示す処理動作と異なる点はステップS206の代わりに、ステップS210とステップS211が行われる点であり、その他は同じである。図17において、図14に示す処理と同じ処理を行うステップに対しては同じ符号を付して、その説明を省略する。
図17に示すフローでは、領域blkにおいて、視点合成画像が利用可能と判断された場合、まず、ビットストリームから復号対象画像と視点合成画像との差分信号を復号する(ステップS210)。ここでの処理は符号化側で用いられた処理に対応する方法を用いる。例えば、MPEG−2やH.264、JPEGなどの一般的な動画像符号化または画像符号化における差分信号の符号化と同じ方式を用いて符号化されている場合は、ビットストリームをエントロピー復号して得られた値に対して、逆2値化、逆量子化、IDCT(逆離散コサイン変換)などの周波数逆変換を施すことで差分信号を復号する。
次に、視点合成画像と復号した差分信号とを用いて復号対象画像を生成する(ステップS211)。ここでの処理は差分信号の表現方法に合わせて行う。例えば、差分信号が単純な差分で表現されている場合は、視点合成画像に差分信号を加え、画素値の値域に従ったクリッピング処理を行うことで復号対象画像を生成する。差分信号が復号対象画像の剰余を示している場合は、視点合成画像の画素値に最も近く、差分信号の剰余と同じ画素値を求めることで復号対象画像を生成する。また、差分信号が誤り訂正符号になっている場合は、視点合成画像の誤りを差分信号を用いて訂正することで復号対象画像を生成する。
なお、ステップS207における復号処理と異なり、予測ブロックサイズや予測モード、動き/視差ベクトルなどの予測画像の生成に必要な情報をビットストリームから復号する処理が行われない。そのため、全ての領域に対して予測モード等が符号化されている場合と比べて、符号量を削減し、効率的な符号化を実現することができる。
前述までの説明では、視点合成画像が利用可能な領域に対しては、符号化情報が生成されない。しかしながら、ビットストリームには含まれない領域ごとの符号化情報を生成して、別のフレームを復号する際に符号化情報を参照できるようにしても構わない。ここで、符号化情報とは、予測ブロックサイズや予測モード、動き/視差ベクトルなどの予測画像の生成や予測残差の復号に使用される情報のことである。
次に、図18を参照して、図13に示す画像復号装置の変形例を説明する。図18は、視点合成画像が利用可能と判定された領域に対して、符号化情報を生成し、別の領域や別のフレームを復号する際に符号化情報を参照できるようにする場合の画像復号装置の構成を示すブロック図である。図18に示す画像復号装置200cが、図13に示す画像復号装置200aと異なる点は、符号化情報生成部211を更に備える点である。なお、図18において、図13に示す構成と同じ構成には同じ符号を付して、その説明を省略する。
符号化情報生成部211は、視点合成画像が利用可能と判定された領域に対して符号化情報を生成し、別の領域や別のフレームを復号する画像復号装置へ出力する。ここでは、別の領域や別のフレームの復号も画像復号装置200cで行われる場合を表しており、生成された情報は画像復号部208へ渡される。
次に、図19を参照して、図18に示す画像復号装置200cの処理動作を説明する。図19は、図18に示す画像復号装置200cの処理動作を示すフローチャートである。図19に示す処理動作が、図14に示す処理動作と異なる点は、視点合成画像の利用可否判定(ステップS205)で利用可と判定され、復号対象画像を生成した後に、領域blkに対する符号化情報を生成する処理(ステップS212)が追加されている点である。なお、符号化情報の生成処理では、符号化側で生成した情報と同じ情報を生成するのであれば、どのような情報を生成しても構わない。
例えば、予測ブロックサイズとしては、可能な限り大きなブロックサイズとしても構わないし、可能な限り小さなブロックサイズとしても構わない。また、使用したデプスマップや生成された視点合成画像を元に判定することで領域ごとに異なるブロックサイズを設定しても構わない。類似した画素値やデプス値を持つ画素のできるだけ大きな集合となるようにブロックサイズを適応的に決定しても構わない。
予測モードや動き/視差ベクトルとしては、全ての領域に対して、領域ごとの予測を行う場合に視点合成画像を使用した予測を示すモード情報や動き/視差ベクトルを設定しても構わない。また、視点間予測モードに対応するモード情報とデプス等から得られる視差ベクトルを、それぞれモード情報や動き/視差ベクトルとして設定しても構わない。視差ベクトルに関しては、その領域に対する視点合成画像をテンプレートとして、参照画像上を探索することで求めても構わない。
別の方法としては、視点合成画像を復号対象画像の符号化する前の画像とみなして解析することで、最適なブロックサイズや予測モードを推定して生成しても構わない。この場合、予測モードとしては、画面内予測や動き補償予測なども選択可能にしても構わない。
このようにビットストリームからは得られない情報を生成し、別のフレームを復号する際に、生成された情報を参照可能にすることで、別のフレームの符号化効率を向上させることができる。これは、時間的に連続するフレームや同じ被写体を撮影したフレームなど類似したフレームを符号化する場合、動きベクトルや予測モードにも相関があるため、それらの相関を利用して冗長性を取り除くことができるためである。
ここでは、視点合成画像が利用可能な領域では、視点合成画像を復号対象画像とする場合の説明を行ったが、図20に示す通り、復号対象画像と視点合成画像との差分信号をビットストリームから復号して(ステップS210)、復号対象画像の生成(ステップS211)を行っても構わない。図20は、復号対象画像と視点合成画像との差分信号をビットストリームから復号して、復号対象画像の生成を行う場合の処理動作を示すフローチャートである。また、前述したフレーム単位ではオクルージョンマップを生成し、視点合成画像は領域ごとに生成を行う方法と、符号化情報を生成する方法とを組み合わせて用いても構わない。
前述した画像復号装置では、視点合成画像が利用可能として符号化されている領域の数についての情報は入力されるビットストリームに含まれていない。しかしながら、ビットストリームから、視点合成画像が利用可能な領域の数(または、利用不可能な領域の数)を復号し、その数に従って復号処理を制御するようにしても構わない。以下では、復号した視点合成画像が利用可能な領域の数を視点合成可能領域数と称する。
図21は視点合成可能領域数をビットストリームから復号する場合の画像復号装置の構成を示すブロック図である。図21に示す画像復号装置200dが、図13に示す画像復号装置200aと異なる点は、視点合成可否判定部207に代えて、視点合成可能領域数復号部212と視点合成可能領域決定部213とを備える点である。なお、図21において、図13に示す画像復号装置200aと同じ構成には同じ符号を付してその説明を省略する。
視点合成可能領域数復号部212は、ビットストリームから、復号対象画像を分割した領域のうち、視点合成画像が利用可能と判断する領域の数を復号する。視点合成可能領域決定部213は、復号した視点合成可能領域数に基づいて、復号対象画像を分割した領域ごとに、視点合成画像が利用可能か否かを決定する。
次に、図22を参照して、図21に示す画像復号装置200dの処理動作を説明する。図22は、視点合成可能領域数を復号する場合の処理動作を示すフローチャートである。図22に示す処理動作は、図14に示す処理動作と異なり、視点合成画像を生成した後に、ビットストリームから視点合成可能領域数を復号し(ステップS213)、復号した視点合成可能領域数を用いて、復号対象画像を分割した領域ごとに、視点合成画像を利用可能とするか否かを決定する(ステップS214)。また、領域ごとに行われる視点合成画像が利用可能か否かの判断(ステップS215)は、ステップS214での決定と同じ方法で行われる。
視点合成画像が利用可能とする領域の決定には、どのような方法を用いても構わない。ただし、符号化側と同じ基準を用いて領域を決定する必要がある。例えば、視点合成画像の品質やオクルージョン領域に含まれる画素数を基準にして、各領域を順位付けし、視点合成可能領域数に従って、視点合成画像を利用可能とする領域を決定するようにしても構わない。これによって、ターゲットビットレートや品質に応じて、視点合成画像を利用可能とする領域の数をコントロール可能になり、高品質な復号対象画像の伝送を可能にする符号化から、低ビットレートによる画像伝送を可能にする符号化まで、柔軟な符号化を実現することが可能となる。
なお、ステップS214において、各領域において視点合成画像が利用可能か否かを示すマップを生成し、ステップS215では、そのマップを参照することで視点合成画像の利用可否を判定するようにしても構わない。また、視点合成画像の利用可否を表すマップを生成しない場合に、ステップS214では、設定された基準を用いる際に、復号した視点合成可能領域数を満たす閾値を決定し、ステップS215における判定では、決定した閾値を満たすか否かで判定を行うようにしても構わない。このようにすることで領域ごとに行う視点合成画像の利用可否にかかる演算量を削減することが可能である。
ここでは、画像復号装置には1種類のビットストリームが入力され、入力されたビットストリームが適切な情報を含んだ部分ビットストリームへと分離され、適切なビットストリームが画像復号部208と視点合成可能領域数復号部212とに入力されるものとした。しかし、ビットストリームの分離を画像復号装置の外部で行い、別々のビットストリームを画像復号部208と視点合成可能領域数復号部212とに入力するようにしても構わない。
また、前述した処理動作では、各領域の復号を行う前に、画像全体を鑑みて、視点合成画像を利用可能な領域の決定を行ったが、それまでに処理した領域の判定結果を考慮しながら、領域ごとに視点合成画像が利用可能か否かを判定するようにしても構わない。
例えば、図23は視点合成画像が利用不可能として復号した領域の数をカウントしながら復号する場合の処理動作を示すフローチャートである。この処理動作では、領域ごとの処理を行う前に、視点合成可能領域数numSynthBlksを復号し(ステップS213)、残りのビットストリーム内の視点合成可能領域数以外の領域数を表すnumNonSynthBlksを求める(ステップS216)。
領域ごとの処理では、最初に、numNonSynthBlksが0より大きいか否かをチェックする(ステップS217)。numNonSynthBlksが0より大きい場合は、これまでの説明と同様に、当該領域において視点合成画像が利用可能か否かを判定する(ステップS205)。一方、numNonSynthBlksが0以下(正確には0)の場合は、当該領域に対する視点合成画像の利用可否の判定をスキップして、当該領域では視点合成画像が利用可能である場合の処理を行う。また、視点合成画像が利用不可能として処理をする度に、numNonSynthBlksを1ずつ減ずる(ステップS218)。
全ての領域について復号処理が完了した後、numNonSynthBlksが0より大きいか否かをチェックする(ステップS219)。numNonSynthBlksが0より大きい場合は、ビットストリームからnumNonSynthBlksと同じ領域数に相当するビットを読み込む(ステップS221)。読み込んだビットは、そのまま破棄しても構わないし、エラー箇所を同定するのに利用しても構わない。
このようにすることで、何らかのエラーにより符号化側と復号側とで異なる参照画像や参照デプスマップが得られた場合においても、そのエラーによるビットストリームの読み取りエラーの発生を防ぐことが可能となる。具体的には、符号化時に想定した領域数よりも多くの領域で視点合成画像が利用可能と判断し、当該フレームにおいて本来読み込むべきはずのビットを読み込まず、次のフレーム等の復号において、誤ったビットが先頭ビットだと判断され、正常なビット読み込みができなくなることを防ぐことができる。また、符号化時に想定した領域数よりも少ない領域で視点合成画像が利用可能と判断し、次のフレーム等に対するビットを用いて復号処理を行おうとしてしまい、当該フレームから正常なビット読み込みが不可能になることも防ぐことができる。
また、視点合成画像が利用不可能として復号した領域の数だけでなく、視点合成画像が利用可能として復号した領域の数もカウントしながら処理する場合の処理動作を図24に示す。図24は、視点合成画像が利用可能として復号した領域の数もカウントしながら処理する場合の処理動作を示すフローチャートである。図24に示す処理動作は、図23に示す処理動作と基本的な処理動作は同じである。
図24に示す処理動作と図23に示す処理動作の違いを説明する。まず、領域ごとの処理を行う際に、numSynthBlksが0より大きいか否かを最初に判定する(ステップS219)。numSynthBlksが0より大きい場合は、特に何も行わない。一方、numSynthBlksが0以下(正確には0)の場合は、強制的に、当該領域では視点合成画像が利用不可能であるとして処理を行う。次に、視点合成画像が利用可能として処理する度に、numSynthBlksを1ずつ減ずる(ステップS220)。最後に、全ての領域について復号処理が完了したら直ちに復号処理が終了する。
ここでは視点合成画像が利用可能と判断された領域では、復号処理を省略する場合で説明を行ったが、図15〜図20を参照して説明した方法と、視点合成可能領域数を復号する方法を組み合わせても構わないことは明らかである。
前述した説明においては、1フレームを符号化及び復号する処理を説明したが、複数フレームについて処理を繰り返すことで動画像符号化にも本手法を適用することができる。また、動画像の一部のフレームや一部のブロックにのみ本手法を適用することもできる。さらに、前述した説明では画像符号化装置及び画像復号装置の構成及び処理動作を説明したが、これら画像符号化装置及び画像復号装置の各部の動作に対応した処理動作によって本発明の画像符号化方法及び画像復号方法を実現することができる。
また、前述した説明においては、参照デプスマップが符号化対象カメラまたは復号対象カメラとは異なるカメラで撮影された画像に対するデプスマップであるとして説明を行ったが、符号化対象カメラまたは復号対象カメラによって撮影された画像に対するデプスマップを、参照デプスマップとして用いても構わない。
図25は、前述した画像符号化装置100a〜100dをコンピュータとソフトウェアプログラムとによって構成する場合のハードウェア構成を示すブロック図である。図25に示すシステムは、プログラムを実行するCPU(Central Processing Unit)50と、CPU50がアクセスするプログラムやデータが格納されるRAM(Random Access Memory)等のメモリ51と、カメラ等からの符号化対象の画像信号を入力する符号化対象画像入力部52(ディスク装置等による画像信号を記憶する記憶部でもよい)と、カメラ等からの参照対象の画像信号を入力する参照画像入力部53(ディスク装置等による画像信号を記憶する記憶部でもよい)と、デプスカメラ等からの符号化対象画像を撮影したカメラとは異なる位置や向きのカメラに対するデプスマップを入力する参照デプスマップ入力部54(ディスク装置等によるデプスマップを記憶する記憶部でもよい)と、画像符号化処理をCPU50に実行させるソフトウェアプログラムである画像符号化プログラム551が格納されたプログラム記憶装置55と、CPU50がメモリ51にロードされた画像符号化プログラム551を実行することにより生成されたビットストリームを、例えばネットワークを介して出力するビットストリーム出力部56(ディスク装置等によるビットストリームを記憶する記憶部でもよい)とが、バスで接続された構成になっている。
図26は、前述した画像復号装置200a〜200dをコンピュータとソフトウェアプログラムとによって構成する場合のハードウェア構成を示すブロック図である。図26に示すシステムは、プログラムを実行するCPU60と、CPU60がアクセスするプログラムやデータが格納されるRAM等のメモリ61と、画像符号化装置が本手法により符号化したビットストリームを入力するビットストリーム入力部62(ディスク装置等によるビットストリームを記憶する記憶部でもよい)と、カメラ等からの参照対象の画像信号を入力する参照画像入力部63(ディスク装置等による画像信号を記憶する記憶部でもよい)と、デプスカメラ等からの復号対象を撮影したカメラとは異なる位置や向きのカメラに対するデプスマップを入力する参照デプスマップ入力部64(ディスク装置等によるデプス情報を記憶する記憶部でもよい)と、画像復号処理をCPU60に実行させるソフトウェアプログラムである画像復号プログラム651が格納されたプログラム記憶装置65と、CPU60がメモリ61にロードされた画像復号プログラム651を実行することにより、ビットストリームを復号して得られた復号対象画像を、再生装置などに出力する復号対象画像出力部66(ディスク装置等による画像信号を記憶する記憶部でもよい)とが、バスで接続された構成になっている。
前述した実施形態における画像符号化装置100a〜100d及び画像復号装置200a〜200dをコンピュータで実現するようにしてもよい。その場合、この機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することによって実現してもよい。なお、ここでいう「コンピュータシステム」とは、OS(Operating System)や周辺機器等のハードウェアを含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM(Read Only Memory)、CD(Compact Disc)−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含んでもよい。また上記プログラムは、前述した機能の一部を実現するためのものであっても良く、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであってもよく、PLD(Programmable Logic Device)やFPGA(Field Programmable Gate Array)等のハードウェアを用いて実現されるものであってもよい。
以上、図面を参照して本発明の実施形態を説明してきたが、上記実施形態は本発明の例示に過ぎず、本発明が上記実施形態に限定されるものではないことは明らかである。したがって、本発明の技術思想及び範囲を逸脱しない範囲で構成要素の追加、省略、置換、その他の変更を行っても良い。
本発明は、符号化(復号)対象画像を撮影したカメラとは異なる位置から撮影された画像に対するデプスマップを用いて、符号化(復号)対象画像に対して視差補償予測を行う際に、高い符号化効率を少ない演算量で達成する用途に適用できる。
101・・・符号化対象画像入力部、102・・・符号化対象画像メモリ、103・・・参照画像入力部、104・・・参照デプスマップ入力部、105・・・視点合成画像生成部、106・・・視点合成画像メモリ、107・・・視点合成可否判定部、108・・・画像符号化部、110・・・視点合成部、111・・・オクル-ジョンマップメモリ、112・・・符号化情報生成部、113・・・視点合成可能領域決定部、114・・・視点合成可能領域数符号化部、201・・・ビットストリーム入力部、202・・・ビットストリームメモリ、203・・・参照画像入力部、204・・・参照デプスマップ入力部、205・・・視点合成性画像生成部、206・・・視点合成画像メモリ、207・・・視点合成可否判定部、208・・・画像復号部、209・・・視点合成部、210・・・オクル-ジョンマップメモリ、211・・・符号化情報生成部、212・・・視点合成可能領域数復号部、213・・・視点合成可能領域決定部

Claims (16)

  1. 複数の異なる視点の画像からなる多視点画像を符号化する際に、符号化対象画像とは異なる視点に対する符号化済みの参照画像と、前記参照画像中の被写体に対する参照デプスマップとを用いて、異なる視点間で画像を予測しながら符号化を行う画像符号化装置であって、
    前記参照画像と前記参照デプスマップとを用いて、前記符号化対象画像に対する視点合成画像を生成する視点合成画像生成部と、
    前記符号化対象画像を分割した符号化対象領域ごとに、前記視点合成画像が利用可能か否かを判定する利用可否判定部と、
    前記符号化対象領域ごとに、前記利用可否判定部において前記視点合成画像が利用可能と判定された場合には、当該符号化対象領域については何も符号化せず、前記利用可否判定部において前記視点合成画像が利用不可能と判定された場合には、予測画像生成方法を選択しながら、当該符号化対象領域に対する前記符号化対象画像を予測符号化する画像符号化部と
    を備える画像符号化装置。
  2. 前記画像符号化部は、前記符号化対象領域ごとに、前記利用可否判定部において前記視点合成画像が利用可能と判定された場合に、符号化情報を生成する請求項1に記載の画像符号化装置。
  3. 前記画像符号化部は、前記符号化情報として予測ブロックサイズを決定する請求項に記載の画像符号化装置。
  4. 前記画像符号化部は、予測方法を決定し、前記予測方法に対する符号化情報を生成する請求項に記載の画像符号化装置。
  5. 前記利用可否判定部は、前記符号化対象領域における前記視点合成画像の品質に基づいて、前記視点合成画像の利用可否を判定する請求項1から請求項のいずれか1項に記載の画像符号化装置。
  6. 前記画像符号化装置は、前記参照デプスマップを用いて、前記符号化対象画像上の画素で、前記参照画像の遮蔽画素を表すオクルージョンマップを生成するオクルージョンマップ生成部を更に備え、
    前記利用可否判定部は、前記オクルージョンマップを用いて、前記符号化対象領域内に存在する前記遮蔽画素の数に基づいて、前記視点合成画像の利用可否を判定する請求項1から請求項のいずれか1項に記載の画像符号化装置。
  7. 複数の異なる視点の画像からなる多視点画像の符号データから、復号対象画像を復号する際に、前記復号対象画像とは異なる視点に対する復号済みの参照画像と、前記参照画像中の被写体に対する参照デプスマップとを用いて、異なる視点間で画像を予測しながら復号を行う画像復号装置であって、
    前記参照画像と前記参照デプスマップとを用いて、前記復号対象画像に対する視点合成画像を生成する視点合成画像生成部と、
    前記復号対象画像を分割した復号対象領域ごとに、前記視点合成画像が利用可能か否かを判定する利用可否判定部と、
    前記復号対象領域ごとに、前記利用可否判定部において前記視点合成画像が利用可能と判定された場合には、当該復号対象領域に対する前記視点合成画像を当該復号対象領域に対する前記復号対象画像とし、前記利用可否判定部において前記視点合成画像が利用不可能と判定された場合には、予測画像を生成しながら前記符号データから当該復号対象領域に対する前記復号対象画像を復号する画像復号部と
    を備える画像復号装置。
  8. 前記画像復号部は、前記復号対象領域ごとに、前記利用可否判定部において前記視点合成画像が利用可能と判定された場合に、符号化情報を生成する請求項に記載の画像復号装置。
  9. 前記画像復号部は、前記符号化情報として予測ブロックサイズを決定する請求項に記載の画像復号装置。
  10. 前記画像復号部は、予測方法を決定し、前記予測方法に対する符号化情報を生成する請求項に記載の画像復号装置。
  11. 前記利用可否判定部は、前記復号対象領域における前記視点合成画像の品質に基づいて、前記視点合成画像の利用可否を判定する請求項から請求項10のいずれか1項に記載の画像復号装置。
  12. 前記画像復号装置は、前記参照デプスマップを用いて、前記復号対象画像上の画素で、前記参照画像の遮蔽画素を表すオクルージョンマップを生成するオクルージョンマップ生成部を更に備え、
    前記利用可否判定部は、前記オクルージョンマップを用いて、前記復号対象領域内に存在する前記遮蔽画素の数に基づいて、前記視点合成画像の利用可否を判定する請求項から請求項10のいずれか1項に記載の画像復号装置。
  13. 複数の異なる視点の画像からなる多視点画像を符号化する際に、符号化対象画像とは異なる視点に対する符号化済みの参照画像と、前記参照画像中の被写体に対する参照デプスマップとを用いて、異なる視点間で画像を予測しながら符号化を行う画像符号化方法であって、
    前記参照画像と前記参照デプスマップとを用いて、前記符号化対象画像に対する視点合成画像を生成する視点合成画像生成ステップと、
    前記符号化対象画像を分割した符号化対象領域ごとに、前記視点合成画像が利用可能か否かを判定する利用可否判定ステップと、
    前記符号化対象領域ごとに、前記利用可否判定ステップにおいて前記視点合成画像が利用可能と判定された場合には、当該符号化対象領域については何も符号化せず、前記利用可否判定ステップにおいて前記視点合成画像が利用不可能と判定された場合には、予測画像生成方法を選択しながら、当該符号化対象領域に対する前記符号化対象画像を予測符号化する画像符号化ステップと
    を有する画像符号化方法。
  14. 複数の異なる視点の画像からなる多視点画像の符号データから、復号対象画像を復号する際に、前記復号対象画像とは異なる視点に対する復号済みの参照画像と、前記参照画像中の被写体に対する参照デプスマップとを用いて、異なる視点間で画像を予測しながら復号を行う画像復号方法であって、
    前記参照画像と前記参照デプスマップとを用いて、前記復号対象画像に対する視点合成画像を生成する視点合成画像生成ステップと、
    前記復号対象画像を分割した復号対象領域ごとに、前記視点合成画像が利用可能か否かを判定する利用可否判定ステップと、
    前記復号対象領域ごとに、前記利用可否判定ステップにおいて前記視点合成画像が利用可能と判定された場合には、当該復号対象領域に対する前記視点合成画像を当該復号対象領域に対する前記復号対象画像とし、前記利用可否判定ステップにおいて前記視点合成画像が利用不可能と判定された場合には、予測画像を生成しながら前記符号データから当該復号対象領域に対する前記復号対象画像を復号する画像復号ステップと
    を有する画像復号方法。
  15. コンピュータに、請求項13に記載の画像符号化方法を実行させるための画像符号化プログラム。
  16. コンピュータに、請求項14に記載の画像復号方法を実行させるための画像復号プログラム。
JP2015511239A 2013-04-11 2014-04-04 画像符号化方法、画像復号方法、画像符号化装置、画像復号装置、画像符号化プログラム及び画像復号プログラム Active JP5947977B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2013082957 2013-04-11
JP2013082957 2013-04-11
PCT/JP2014/059963 WO2014168082A1 (ja) 2013-04-11 2014-04-04 画像符号化方法、画像復号方法、画像符号化装置、画像復号装置、画像符号化プログラム、画像復号プログラム及び記録媒体

Publications (2)

Publication Number Publication Date
JP5947977B2 true JP5947977B2 (ja) 2016-07-06
JPWO2014168082A1 JPWO2014168082A1 (ja) 2017-02-16

Family

ID=51689491

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015511239A Active JP5947977B2 (ja) 2013-04-11 2014-04-04 画像符号化方法、画像復号方法、画像符号化装置、画像復号装置、画像符号化プログラム及び画像復号プログラム

Country Status (5)

Country Link
US (1) US20160065990A1 (ja)
JP (1) JP5947977B2 (ja)
KR (1) KR20150122726A (ja)
CN (1) CN105075268A (ja)
WO (1) WO2014168082A1 (ja)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6648701B2 (ja) * 2015-02-06 2020-02-14 ソニー株式会社 画像符号化装置および方法
US9877012B2 (en) * 2015-04-01 2018-01-23 Canon Kabushiki Kaisha Image processing apparatus for estimating three-dimensional position of object and method therefor
PL412844A1 (pl) * 2015-06-25 2017-01-02 Politechnika Poznańska System oraz sposób kodowania obszaru odsłoniętego w strumieniu danych sekwencji wielowidokowych
WO2017215764A1 (en) * 2016-06-17 2017-12-21 Huawei Technologies Co., Ltd. Devices and methods for 3d video coding
EP3525459B1 (en) * 2016-11-10 2023-05-24 Nippon Telegraph And Telephone Corporation Image evaluation device, image evaluation method and image evaluation program
US11398056B2 (en) * 2016-12-13 2022-07-26 Nippon Telegraph And Telephone Corporation Image difference deterination device and method that determines whether or not there is a temporary difference between images and non-transitory computer-readable medium
EP3635957B1 (en) * 2017-06-29 2024-05-22 Huawei Technologies Co., Ltd. Apparatuses and methods for encoding and decoding a video coding block of a multiview video signal
CN110766646A (zh) * 2018-07-26 2020-02-07 北京京东尚科信息技术有限公司 展示架遮挡检测方法、装置以及存储介质
EP3671645A1 (de) * 2018-12-20 2020-06-24 Carl Zeiss Vision International GmbH Verfahren und vorrichtung zum erzeugen einer 3d-rekonstruktion eines objekts
EP3703378A1 (en) * 2019-03-01 2020-09-02 Koninklijke Philips N.V. Apparatus and method of generating an image signal
US11526970B2 (en) * 2019-09-04 2022-12-13 Samsung Electronics Co., Ltd System and method for video processing with enhanced temporal consistency

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080198924A1 (en) * 2007-02-06 2008-08-21 Gwangju Institute Of Science And Technology Method of computing disparity, method of synthesizing interpolation view, method of encoding and decoding multi-view video using the same, and encoder and decoder using the same
JP2010021844A (ja) * 2008-07-11 2010-01-28 Nippon Telegr & Teleph Corp <Ntt> 多視点画像符号化方法,復号方法,符号化装置,復号装置,符号化プログラム,復号プログラムおよびコンピュータ読み取り可能な記録媒体
JP2010531604A (ja) * 2007-06-26 2010-09-24 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 3次元ビデオ信号をエンコードするための方法及びシステム、含まれる3次元ビデオ信号、並びに3次元ビデオ信号のためのデコーダのための方法及び信号
JP2012124564A (ja) * 2010-12-06 2012-06-28 Nippon Telegr & Teleph Corp <Ntt> 多視点画像符号化方法,多視点画像復号方法,多視点画像符号化装置,多視点画像復号装置およびそれらのプログラム
WO2013154869A1 (en) * 2012-04-13 2013-10-17 Qualcomm Incorporated View synthesis mode for three-dimensional video coding
JP2015507417A (ja) * 2012-01-05 2015-03-05 クゥアルコム・インコーポレイテッドQualcomm Incorporated 3dビデオコーディングにおけるビュー合成予測サポートのシグナリング

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8351685B2 (en) * 2007-11-16 2013-01-08 Gwangju Institute Of Science And Technology Device and method for estimating depth map, and method for generating intermediate image and method for encoding multi-view video using the same
KR101599042B1 (ko) * 2010-06-24 2016-03-03 삼성전자주식회사 다시점 깊이 영상 부호화 장치 및 그 방법, 그리고, 다시점 깊이 영상 복호화 장치 및 그 방법

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080198924A1 (en) * 2007-02-06 2008-08-21 Gwangju Institute Of Science And Technology Method of computing disparity, method of synthesizing interpolation view, method of encoding and decoding multi-view video using the same, and encoder and decoder using the same
JP2010531604A (ja) * 2007-06-26 2010-09-24 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 3次元ビデオ信号をエンコードするための方法及びシステム、含まれる3次元ビデオ信号、並びに3次元ビデオ信号のためのデコーダのための方法及び信号
JP2010021844A (ja) * 2008-07-11 2010-01-28 Nippon Telegr & Teleph Corp <Ntt> 多視点画像符号化方法,復号方法,符号化装置,復号装置,符号化プログラム,復号プログラムおよびコンピュータ読み取り可能な記録媒体
JP2012124564A (ja) * 2010-12-06 2012-06-28 Nippon Telegr & Teleph Corp <Ntt> 多視点画像符号化方法,多視点画像復号方法,多視点画像符号化装置,多視点画像復号装置およびそれらのプログラム
JP2015507417A (ja) * 2012-01-05 2015-03-05 クゥアルコム・インコーポレイテッドQualcomm Incorporated 3dビデオコーディングにおけるビュー合成予測サポートのシグナリング
WO2013154869A1 (en) * 2012-04-13 2013-10-17 Qualcomm Incorporated View synthesis mode for three-dimensional video coding
JP2015516763A (ja) * 2012-04-13 2015-06-11 クゥアルコム・インコーポレイテッドQualcomm Incorporated 3次元ビデオコーディングのためのビュー合成モード

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
JPN6016019363; 志水信哉(外3名): '「多視点デプスマップの情報を用いた高効率多視点映像符号化」' 映像情報メディア学会誌 Vol.63, No.4, 20090401, 第524〜532頁, (社)映像情報メディア学会 *
JPN6016019364; 石川彰夫: '「講座:基礎からの画像符号化[第8回]視点間予測・視点補間」' 映像情報メディア学会誌 Vol.67, No.4, 20130401, 第308〜311頁, 一般社団法人映像情報メディア学会 *

Also Published As

Publication number Publication date
WO2014168082A1 (ja) 2014-10-16
KR20150122726A (ko) 2015-11-02
CN105075268A (zh) 2015-11-18
US20160065990A1 (en) 2016-03-03
JPWO2014168082A1 (ja) 2017-02-16

Similar Documents

Publication Publication Date Title
JP5947977B2 (ja) 画像符号化方法、画像復号方法、画像符号化装置、画像復号装置、画像符号化プログラム及び画像復号プログラム
JP5934375B2 (ja) 画像符号化方法、画像復号方法、画像符号化装置、画像復号装置、画像符号化プログラム、画像復号プログラム及び記録媒体
JP6307152B2 (ja) 画像符号化装置及び方法、画像復号装置及び方法、及び、それらのプログラム
JP6027143B2 (ja) 画像符号化方法、画像復号方法、画像符号化装置、画像復号装置、画像符号化プログラム、および画像復号プログラム
JP6053200B2 (ja) 画像符号化方法、画像復号方法、画像符号化装置、画像復号装置、画像符号化プログラム及び画像復号プログラム
KR101648094B1 (ko) 화상 부호화 방법, 화상 복호 방법, 화상 부호화 장치, 화상 복호 장치, 화상 부호화 프로그램, 화상 복호 프로그램 및 기록매체
JP5926451B2 (ja) 画像符号化方法、画像復号方法、画像符号化装置、画像復号装置、画像符号化プログラム、および画像復号プログラム
KR101750421B1 (ko) 동화상 부호화 방법, 동화상 복호 방법, 동화상 부호화 장치, 동화상 복호 장치, 동화상 부호화 프로그램, 및 동화상 복호 프로그램
JP5706291B2 (ja) 映像符号化方法,映像復号方法,映像符号化装置,映像復号装置およびそれらのプログラム
JP5759357B2 (ja) 映像符号化方法、映像復号方法、映像符号化装置、映像復号装置、映像符号化プログラム及び映像復号プログラム
WO2015141549A1 (ja) 動画像符号化装置及び方法、及び、動画像復号装置及び方法
WO2015098827A1 (ja) 映像符号化方法、映像復号方法、映像符号化装置、映像復号装置、映像符号化プログラム及び映像復号プログラム

Legal Events

Date Code Title Description
A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20160425

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20160531

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20160603

R150 Certificate of patent or registration of utility model

Ref document number: 5947977

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150