JP2019161410A - 画像符号化装置及びその制御方法及びプログラム - Google Patents

画像符号化装置及びその制御方法及びプログラム Download PDF

Info

Publication number
JP2019161410A
JP2019161410A JP2018044666A JP2018044666A JP2019161410A JP 2019161410 A JP2019161410 A JP 2019161410A JP 2018044666 A JP2018044666 A JP 2018044666A JP 2018044666 A JP2018044666 A JP 2018044666A JP 2019161410 A JP2019161410 A JP 2019161410A
Authority
JP
Japan
Prior art keywords
block
motion vector
image
prediction
frame
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2018044666A
Other languages
English (en)
Inventor
真悟 志摩
Shingo Shima
真悟 志摩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2018044666A priority Critical patent/JP2019161410A/ja
Priority to PCT/JP2019/002405 priority patent/WO2019176320A1/ja
Publication of JP2019161410A publication Critical patent/JP2019161410A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • H04N19/51Motion estimation or motion compensation
    • H04N19/513Processing of motion vectors
    • H04N19/517Processing of motion vectors by encoding
    • H04N19/52Processing of motion vectors by encoding by predictive encoding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/597Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding specially adapted for multi-view video sequence encoding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/85Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using pre-processing or post-processing specially adapted for video compression

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

【課題】 投影方法の幾何学的特性を考慮して動きベクトルを効率良く予測することができ、符号化効率をさらに向上させる。【解決手段】 着目フレーム内の符号化しようとする着目ブロックを、符号化済みのブロックの動きベクトルを用い、着目ブロックに対する予測ブロックを求める予測部と、この予測部で求めた予測ブロックと着目ブロックとの差分である差分ブロックを求め、当該差分ブロックと、予測ブロックの位置を表す動きベクトルとを符号化する符号化部と、予測部による着目ブロックの動きベクトルを求める際に参照する符号化済みブロックの範囲を設定する予測制御部とを有する。予測制御部は、着目ブロックの周囲の符号化済みのブロックに加えて、着目フレーム内の着目ブロックの座標位置に依存した距離ぶん隔てた位置のブロックを参照範囲として設定する。【選択図】 図1

Description

本発明は、動画像の符号化技術に関するものである。
動画像の圧縮記録の符号化方式として、HEVC(High Efficiency Video Coding)符号化方式が知られている(非特許文献1)。HEVCでは符号化効率向上のため、符号化対象ブロックに空間的に隣接するブロックの動きベクトルや時間的に異なるフレームのブロックの動きベクトルを用いて、動きベクトルを予測する技術が採用されている。この動きベクトル予測技術を用いることにより、符号化対象ブロックの動きベクトルをより効率良く符号化することができる。
近年、VR(Virutal Reality)技術の発達に伴い、360°映像を複数のカメラで撮影し、撮影した画像を圧縮・符号化するユースケースが生まれている。球体状の360°映像は、円筒状に展開するERP(Equirectangular Projection)やサイコロ状に展開するCube Map Projectionなどといった方法で、1枚の二次元の映像へと展開される(非特許文献2)。このような360°映像の圧縮・符号化には上述のような方法で360°映像を二次元化し、二次元になった映像を圧縮・符号化するのが一般的である。
ERPは360°映像の数ある投影方法の中で最も一般的に用いられている手法であり、地球儀を平面状の地図へと投影する方法としても用いられている。図10はERPによる投影方法の一例であり、左側の球形で表現されている360°映像の極(地球儀上の北極・南極に相当)は右側の長方形で表現されている二次元映像の上端・下端部分に投影される。また、例えば左側の円形で表現されている360°映像の点線部分は、右側の長方形で表現されている二次元映像の点線部分に投影される。
このERPは投影位置の計算が比較的容易であるという長所がある一方、画像の位置により投影による歪みに大きな差があり、特に360°映像の極に近い部分ほど大きく引き延ばされてしまうといった性質がある。
ITU-T H.265 (12/2016) High efficiency video coding JVET 寄書 JVET-C0050 <http://phenix.int-evry.fr/jvet/doc_end_user/documents/3_Geneva/wg11/>
通常の二次元映像においては、符号化対象ブロックを符号化する際、その符号化対象ブロックの動きベクトルを、既に符号化済みの周辺ブロックを参照して求める。そして、求めた動きベクトルで示される予測ブロックと符号化対象ブロックとの差分を求め、エントロピー符号化する。
しかしながら、360°映像から前述のERPに代表される投影方法を用いて生成された映像においては、投影方法の幾何学的特性により、映像の位置により大きな歪みが生じる。さらに言えば、この歪みを原因として、元の360°映像では単調な直線的な動きであっても、投影された二次元映像では複雑な動きとなってしまい、既存の動きベクトル予測技術では、効率良く動きベクトルを予測することもできない。
本発明はかかる問題に鑑みなされたものであり、投影方法の幾何学的特性を考慮して効率良く動きベクトルを予測し、符号化効率を高める技術を提供しようとするものである。
この課題を解決するため、例えば本発明の画像符号化装置は以下の構成を備える。すなわち、
符号化済のブロックの動きベクトルを用いて画像を符号化する画像符号化装置において、
符号化対象ブロックと同一のフレーム内に存在し、かつ符号化対象ブロックとは隣接しない符号化済のブロックの動きベクトルを用いて、符号化対象ブロックの動きベクトルを予測する動きベクトル予測手段を有することを特徴とする。
本発明により、投影方法の幾何学的特性を考慮して動きベクトルを効率良く予測することができるようになり、符号化効率をさらに向上させることができる。
第1の実施形態における画像符号化装置の構成を示すブロック図。 第2の実施形態における画像復号装置の構成を示すブロック図。 第1の実施形態に係る画像符号化装置における画像符号化処理を示すフローチャート。 第2の実施形態に係る画像復号装置における画像復号処理を示すフローチャート。 第1、第2の実施形態における動きベクトル予測に用いられるブロックの位置の例を示す図。 第1、第2の実施形態における動きベクトル予測に用いられるブロックの位置の例を示す図。 ERPで投影された画像上の動きベクトルの一例を示す図。 画像符号化装置、復号装置に適用可能なコンピュータのハードウェア構成例を示すブロック図。 第1、第2の実施形態におけるビットストリームの構造の例を示す図。 Equirectangular Projection(ERP)の例を示す図。 全方位映像からの2次元投影画像の他の例を示す図。 全方位映像からの2次元投影画像の他の例を示す図。
以下、添付図面に従って本発明に係る実施形態を詳細に説明する。なお、以下に示す実施形態における構成は一例に過ぎず、本発明は図示された構成に限定されるものではない。
[第1の実施形態]
図1は第1の実施形態の画像符号化装置を示すブロック図である。本装置は、画像データを入力する端子101、画像解析部102、動きベクトル予測制御情報生成部103、予測部104、変換・量子化部105、逆量子化・逆変換部106、画像再生部107、フレームメモリ108、動きベクトルメモリ109、符号化部110、統合符号化部111、出力端子112を有する。
入力端子101は、符号化対象の動画像データを入力する。符号化対象の動画像データの発生源は、記憶媒体、ネットワーク上のファイルサーバ等でよく、その種類は問わない。画像解析部102は、入力した画像の幾何学的特性を解析し、その解析結果を画像解析情報として出力する。
動きベクトル予測制御情報生成部103は、後述の幾何学的特性を活かした動きベクトル予測処理を行うか否かについての情報である、動きベクトル予測制御情報を生成し、出力する。
予測部104は、符号化対象の着目ブロックの画像データに対し、フレーム内予測であるイントラ予測やフレーム間予測であるインター予測などを行い、予測画像データを生成する。さらに、予測部104は、着目ブロックの画像データと前記予測画像データの差分である予測誤差を算出し、出力する。このとき、予測部104は、予測に必要な情報、例えば予測モードや動きベクトル等の情報も予測誤差と併せて出力される。以下ではこの予測に必要な情報を予測情報と呼称する。
変換・量子化部105は、予測部104からの予測誤差を、ブロック単位で直交変換して変換係数を得る。そして、変換・量子化部105は、その変換係数の量子化を行い、量子化後の係数を出力する。
逆量子化・逆変換部106は、変換・量子化部105から出力された着目ブロックから得た量子化後の係数に対して逆量子化して変換係数を再生し、さらに逆直交変換して予測誤差を生成する。
画像再生部107は、予測部104から出力された予測情報に基づいて、フレームメモリ108を適宜参照し、着目ブロックに対する予測画像データを生成し、この予測画像データと逆量子化・逆変換部106で得た着目ブロックの予測誤差から、着目ブロックの再生画像データを生成し、出力する。
符号化部110は、変換・量子化部105から出力された着目ブロックの量子化係数、及び、予測部104から出力された予測情報を、動きベクトルメモリ109を適宜参照しながら符号化して、符号データを生成し出力する。
統合符号化部111は、画像解析部102や動きベクトル予測制御情報生成部103からの出力を符号化して、ヘッダ符号データを生成する。更に、統合符号化部111は、符号化部110から出力された符号データと合わせて、ビットストリームを形成して出力し、出力端子112より、符号化画像データのストリームとして出力する。出力先は、記憶媒体、ネットワーク上のファイルサーバ等で良く、その種類は問わない。
以上、実施形態における画像符号化装置の符号化に係る基本的な処理を説明した。次に、実施形態における符号化に係る特徴的な処理、動作を説明する。なお、本実施形態では、入力端子101から、動画像データをフレーム単位に入力するものとして説明する。
入力端子101から入力された1フレーム分の画像データは画像解析部102に供給される。画像解析部102は、入力画像(着目フレーム)の特徴を解析する。そして、画像解析部102は、入力画像が通常の2次元映像(被写体を2次元平面の画像として撮影して得た映像)であるか、それとも360°映像を二次元に投影した撮影映像であるかといった情報や、投影された映像の中で正面や真後ろ、真上や真下の位置に関する情報などを画像解析情報として後段に出力する。360°映像を二次元に投影する方法として、例えばERPを用いることができるが、これに限定されない。
ERPによる投影画像の場合の特徴は、上端(又は下端)の水平ライン上に並ぶ画素値は元々は極を示すので、実質的に同じである。また、左端と右端の垂直方向の座標が同じ2画素は、もともとは水平方向に隣接する画素であり、高い相関性が期待できる。この原理に基づいて、画像解析部102は、入力画像が通常の二次元映像であるか、それとも360°映像を二次元に投影した撮影映像かを判定できる。
例えば、着目フレームの画像が水平方向W画素、垂直方向H画素で表され、画像の左上隅を座標(0、0)とし、水平右方向をX軸の正方向、垂直下方向をY軸の正方向、そして、座標(x,y)の画素値をP(x、y)と定義する。そして、画像解析部102は、以下の3つの条件を満たす場合に、入力画像はERPの投影画像と判定し、いずらか1つでも満たさない場合には通常の映像として判定する。
Σ{P(i,0)−P(i+1,0)}2<ε1 …(1)
Σ{P(i,H−1)−P(i+1,H−1)}2<ε1 …(2)
Σ{P(0,j)−P(W−1、j)}2<ε2 …(3)
なお、式(1)、(2)におけるΣはi=0、1、…、W−2とした場合の合算を示し、式(3)におけるΣはj=0、1、2、…、H−1とした場合の合算を示す。また、閾値ε1、ε2は、予め設定された正の閾値である。なお、上記は一例であり、他にも考えられる。例えば上式(1)、(2)の代わりに、画像の上端、或いは下端の水平ライン上に並ぶ画素の分散を求め、その分散が非常に小さくなることを利用しても構わない。
さて、画像解析部102は、符号化対象画像を解析し、その画像が投影画像であるか否かの判定を行い、その判定結果を画像解析情報として出力する。例えば、符号化対象画像がERPによる投影画像であると判定された場合、画像解析情報には、入力画像がERPによる投影画像であることを示す情報、投影画像の水平位置で中心にあたる場所が正面、水平位置で両端にあたる場所が真後ろ、などといった情報が含まれる。また、この画像解析情報の生成方法は先に示したものに限らず、外部から画像解析情報に当たる情報を入力する構成としても構わない。例えば、ERPによる投影画像が入力されることが予め分かっている場合には、不図示の操作部から、投影画像の水平位置で中心にあたる場所が正面、水平位置で両端にあたる場所が真後ろ、などといった情報が入力されても良い。
動きベクトル予測制御情報生成部103は、符号化対象の着目ブロックを符号化する際、その着目ブロックに空間的に隣接する隣接ブロックに加え、着目ブロックと同一フレーム内であり、且つ、隣接ブロック以外の着目ブロックから空間的に隔てた位置にあるブロックの動きベクトルを用いて動きベクトル予測を行うか否かを決定する。また、動きベクトル予測制御情報生成部103は、隣接ブロック以外の着目ブロックから空間的に隔てた位置にあるブロックの動きベクトルを用いる場合に、同一フレーム内のどのブロックを用いて動きベクトル予測を行うかも決定する。このようにして決定した情報は、動きベクトル予測制御情報として、予測部104や統合符号化部111に出力される。
ここで、図5(a)を用いて本実施形態で用いる動きベクトル予測制御情報について詳しく説明する。図5(a)において、参照符号50で示す最も大きな長方形が入力画像であり、ここではERPにより投影された二次元画像が入力されたものとする。また、入力画像の水平位置で中心にあたる点線が元の360°撮影映像における正面にあたるものとする。この場合、必然的に水平位置で左右両端は元の360°撮影映像において真後ろにあたることになる。次に図5(a)においてCと表記されたブロックが符号化対象の着目ブロックとすると、その周辺にはU(上隣接)、L(左隣接)、UL(左上隣接)、UR(右上隣接)、BL(左下隣接)といったブロックが存在することになる。HEVCなどの符号化方式においては、着目ブロックCのブロックの符号化時に、こうした周辺ブロックを符号化する際に用いた動きベクトルを用いて着目Cのブロックの動きベクトルを予測する。
実施形態における動きベクトル予測制御情報生成部103は、符号化対象画像がERPによる投影画像の場合、着目ブロックCに対する動きベクトルとして、上記の通常撮影映像の場合の周囲ブロックの動きベクトルだけでなく、着目ブロックCと同一フレーム内であって、周辺ブロック以外の、着目ブロックCから隔てた既符号化ブロックの符号化時に用いた動きベクトルをも参照する。そして、動きベクトル予測制御情報生成部103は、その設定した情報を、動きベクトル予測制御情報として、予測部104や統合符号化部111に供給する。以下、かかる点を、より分かりやすく説明する。
ここで、360°撮影映像が、例えば車載のドライブレコーダのようなユースケースを考える。この場合、視点が正面の方向へ移動する場合、風景は正面から左もしくは右側に流れ真後ろの方向に移動することになる。ERPで投影された撮影映像上では、例えば図7で示したように、水平位置で中心部の点線付近から垂直位置を変えながら左もしくは右に移動し、最終的には左右両端付近に到達する。
さて、このような場合、移動する風景は、図7上の水平位置で中心部の点線(正面)を基準に線対称の動き(垂直方向は同一、水平方向は左右反転した動き)をすることが多い。この性質を活用すれば、例えば図5(a)の着目ブロックCの符号化時に、正面と後方を結んだ線にあたる中央の垂直点線を基準に、水平位置で線対称の位置のブロックSがインター符号化されている場合、そのブロックSを符号化した際に用いた動きベクトルを活用し、着目ブロックCの動きベクトルを効率良く予測することができる。具体的には、ブロックSの2次元空間での動きベクトルを(MVsx、MVsy)とした場合、垂直成分MVsyはそのまま、水平成分MVsxのみを正負の符号を反転させた(−MVsx、MVxy)であり、且つ、ブロックSの符号化時に参照した参照フレームを、着目ブロックCの予測動きベクトルの候補に加える、といった具合である。このようにして、各符号化ブロックが動きベクトルの参照先となるブロックの位置に関する情報や正負の符号の反転に関する情報も上述の動きベクトル予測制御情報には含まれる。この結果、符号化対象の映像がERPで投影された映像の場合であり、着目ブロックが図5(a)のブロックCの場合、これまでの動きベクトル候補であるブロック{U、L、UL、UR、BL}に加え、ベクトル(−MVsx、MVxy)も動きベクトルの候補とすることができる。特に、ドライブレコーダのようなユースケースであり、移動体(人間や車等)が無い、もしくは少ない場合、ベクトル(−MVsx、MVxy)で示されるブロックが、最終的な着目ブロックCのための予測ブロックとして採用される可能性が高いことが期待できる。故に、上記の場合、ベクトル(−MVsx、MVxy)が示すブロックを優先的に予測ブロックとして判定するようにすることが望ましい。
なお、上記は符号化対象の映像フレームが、360°撮影映像のERPで投影された画像であって、且つ、視点が正面の方向へ移動することを示す情報が外部から設定されている場合についてのものである。なお、画像解析部102が、符号化に先立って、複数のフレームを解析し、時間軸に対して映像が図7に示すように流れているか否かを判定しても良い。
図1に戻り、予測部104では、画像解析部102から入力された画像データを複数のブロックに切り出す。そして、動きベクトル予測制御情報生成部103から入力された動きベクトル予測制御情報を用いながら動きベクトルメモリ109を参照し、ブロック単位の予測処理(予測ブロックの決定処理)を実行する。予測ブロックが求められると、符号化対象の着目ブロックとの予測ブロックとの差分ブロック(予測誤差)が生成され、変換・量子化部105に入力される。また、予測部104は予測情報(動きベクトルを含む)を生成し、符号化部110、画像再生部107および動きベクトルメモリ109に出力する。
ここで、予測部104で実行される予測処理や予測部104から出力される予測情報についてより詳しく説明する。HEVCを初めとする画像符号化技術においては、再生画像の画質を維持しつつ、符号化されるビットストリームのデータ量を小さくするため、符号化済ブロックの画素を用いて符号化対象ブロックの画素を予測する予測処理が用いられている。予測処理には、同一フレームで符号化済のブロックの画素を用いるイントラ予測や、符号化済の異なるフレームのブロックの画素を用いるインター予測が存在する。ここではインター予測についてさらに説明する。
インター予測は符号化済のフレーム(参照フレーム)の画素を参照して、符号化対象の着目ブロックに対応する予測ブロックを求める処理である。例えば、参照フレームである符号化済フレームと、符号化対象の着目フレームとの間で動きが無い場合は、符号化対象ブロックの画素は参照対象の符号化済フレームの同一位置の画素を用いて予測される。このような場合、動きが無いことを示す(0、0)動きベクトルが予測情報として含まれることになる。一方で符号化対象ブロックに対して、フレーム間で動きが発生している場合にはその動きベクトル(MVx、MVy)が予測情報に含まれることになる。
HEVCではこの動きベクトルに関するデータ量をさらに削減するため、動きベクトル予測と呼ばれる技術が採用されている。これは符号化済のブロックの動きベクトルを用いて符号化対象ブロックの動きベクトルを予測する技術であり、動きベクトルのデータ量を削減する効果がある。例えば、図5(a)のブロックCが動いている物体の一部であった場合、着目ブロックCの周辺ブロックUL、U、UR、L、BLなどを動きベクトル予測の候補とみなし、着目ブロックCの動きベクトルと最も近い動きベクトルを動きベクトル予測子とする。
本実施形態では、車載のドライブレコーダのように、正面に向けて移動中の360°映像から、ERPで投影された映像を符号化対象とする場合、図5(a)のブロックSを符号化する際に用いた動きベクトル(MVsx、MVsy)の水平成分の正負符号を反転させたベクトル(−MVsx、MVsy)を、着目ブロックCの予測ブロックを求める際の動きベクトルの候補に加える。具体的には、入力された動きベクトル予測制御情報により、動きベクトルの参照対象となる離れた位置にあるブロックSが特定され、かつブロックSがインター符号化済である場合、その際に用いた動きベクトル(MVsx、MVsy)からベクトル(−MVsx、MVsy)を求め、このベクトル(−MVsx、MVsy)を、着目ブロックの動きベクトルの候補として追加する。あるいは、着目ブロックに対してベクトル(−MVsx、MVsy)が示すブロックを予測ブロックの候補として追加する。本実施形態では既存の動きベクトル予測候補(UL、U、UR、L、BLなど)に加えて、ベクトル(−MVsx、MVsy)が示すブロックも予測ブロック候補とするが、これに限定されない。既存の動きベクトル予測候補(UL、U、UR、L、BLなど)のうちの1つを置き換える構成としても良い。また、符号化済のフレームのブロックの動きベクトルを予測候補として用いる時間的動きベクトル予測の変わりに(−MVsx、MVsy)を予測候補としても良い。さらには、ブロックSにあたる位置のブロックが符号化済の場合のみ(−MVsx、MVsy)を既存の予測候補と置き換え、そうでない場合には既存の予測候補をそのまま用いる構成としても良い。
図1に戻り、変換・量子化部105では、入力された予測誤差に直交変換・量子化を行い、量子化係数を生成する。生成された量子化係数は符号化部110および逆量子化・逆変換部106に供給される。逆量子化・逆変換部106では、入力された量子化係数を逆量子化して変換係数を再生し、さらに再生された変換係数を逆直交変換して予測誤差を再生し、画像再生部107に出力する。
画像再生部107は、予測部104から入力される予測情報に基づいて、フレームメモリ108を適宜参照し、予測ブロックの画像データを再生する。そして再生された予測画像データと、逆量子化・逆変換部106から入力された再生された予測誤差から画像データを再生し、フレームメモリ108に入力し、格納する。
符号化部110では、ブロック単位で、変換・量子化部105で生成された量子化係数、予測部104から入力された予測情報をエントロピー符号化し、符号データを生成する。予測情報を構成する動きベクトルの符号化においては、符号化対象のブロックの動きベクトルと予測部104で算出された予測動きベクトルとの差分値や予測動きベクトル候補の中でどれが予測動きベクトルとなったかを示す識別子などが符号化される。本実施形態では、予測部104からは符号化対象ブロックの動きベクトルおよび予測動きベクトルの識別子が入力され、符号化部110にて動きベクトルメモリ109を参照しながら動きベクトルの差分値を算出するものとするが、構成はこれに限定されない。動きベクトルの差分値自体を予測部104で算出し、符号化部110に入力する構成としても構わない。
エントロピー符号化の方法は特に指定しないが、ゴロム符号化、算術符号化、ハフマン符号化などを用いることができる。生成された符号データは統合符号化部111に出力される。
統合符号化部111では、動きベクトル予測制御情報を符号化し、動きベクトル予測制御情報符号を生成する。符号化の方法は特に指定しないが、ゴロム符号化、算術符号化、ハフマン符号化などを用いることができる。また、これらの符号や符号化部110から入力された符号データなどを多重化してビットストリームを形成する。最終的には、ビットストリームは端子112から外部に出力される。
図9(a)に符号化された動きベクトル予測制御情報を含んだビットストリームの例を示す。動きベクトル予測制御情報は動きベクトル予測制御情報符号としてシーケンス、ピクチャ等のヘッダのいずれかに含まれる。本実施形態では図9(a)に示されるようにピクチャのヘッダ部分に含まれるものとする。
図3は、第1の実施形態に係る画像符号化装置における符号化処理を示すフローチャートである。
まず、ステップS301にて、画像解析部102は入力画像を解析し、解析して得た情報を画像解析情報とする。画像解析情報は統合符号化部111によって符号化される。
ステップS302にて、動きベクトル予測制御情報生成部103は、符号化対象の着目ブロックに空間的に隣接したブロック以外の同一フレーム内のブロックを符号化時に用いた動きベクトルを、着目ブロックの動きベクトルの候補として加えるか否かを決定する。そして、その情報を動きベクトル予測制御情報とし、動きベクトル予測制御情報も統合符号化部111によって符号化される。
ステップS303にて、予測部104は入力された画像データを複数のブロックに切り出し、ブロック単位でイントラ予測ないしはインター予測を行い、予測情報および予測画像データを生成する。さらに入力された画像データと前記予測画像データから予測誤差を算出する。
ステップS304にて、変換・量子化部105はステップS303で算出された予測誤差を直交変換して変換係数を生成し、さらに量子化を行い、量子化係数を生成する。
ステップS305にて、逆量子化・逆変換部106はステップS304で生成された量子化係数を逆量子化・逆直交変換し、予測誤差を再生する。
ステップS306にて、画像再生部107はステップS303で生成された予測情報に基づいて予測画像を再生する。さらに再生された予測画像とステップS305で生成された予測誤差から画像データを再生する。
ステップS307にて、符号化部110は、ステップS303で生成された予測情報およびステップS304で生成された量子化係数を符号化し、符号データを生成する。また、他の符号データも含め、ビットストリームを生成する。
ステップS308にて、画像符号化装置は、フレーム内の全てのブロックの符号化が終了したか否かの判定を行い、終了していれば符号化処理を終了し、そうでなければ次のブロックを対象として、ステップS303に戻る。
以上の構成と動作により、特にステップS302において、投影画像の性質に適した動きベクトル予測制御を算出し、ステップS303において適用することで、動きベクトル予測の効率をさらに高めることができる。結果として、動きベクトル情報の符号化にかかる符号量を削減することができるようになるため、圧縮効率を向上させることができる。 なお、本実施形態では、図5(a)に示す通り、画像の水平位置で中心に当たる位置に線対称の基準となる線分が存在するものとしたが、線分の位置は中心に限定されず、また水平方向だけでなく垂直方向に線対称であっても構わない。また、その場合、線分の位置や水平・垂直といった線対称の方向に関する情報を上述の動きベクトル予測制御情報に含んでも良い。
例えば、同様なERPを用いた投影画像において、視点が右方から左方に向かって動く場合、左方から前・後ろを通り右方に風景が動いていくことになる。このような場合、左方と右方を結んだ水平方向の線分を基準に線対称の動き(水平方向は同一、垂直方向は上下反転した動き)をすることが多くなる。このような場合、図5(b)に示したように、こうした水平方向の線分を基準に線対称の位置のブロックの動きベクトルを用いて動きベクトル予測をしても良い。例えば、図5(b)において、符号化対象の着目ブロックCの符号化時に、左方と右方を結んだ線に当たる水平方向の点線を基準に水平位置で線対称の位置のブロックSの動きベクトルを活用し、着目ブロックCの動きベクトル候補に追加することも可能である。
さらには、ERPなどの投影方法の特性を活かし、図6(a)や図6(b)のように、中央の垂直線分に対して線対称の関係を持たない非隣接ブロックの動きベクトルを用いて動きベクトル予測をすることもできる。図6(a)および図6(b)において、符号化対象である着目ブロックCを符号化する際、図6(a)における着目ブロックCとは反対側に位置するブロックR’やブロックUR’は、二次元の投影映像上は隣接していないが、ERPの特性上、CとR’、UとUR’は元との物理空間ではつながっており、同一のオブジェクトの一部を構成している可能性が高い。よって、図6(a)のように、着目ブロックCが画像の右端近傍にあとき、既に符号化済のブロックR’やブロックUR’の動きベクトルを用いて動きベクトル予測をすることも可能である。同様にして、図6(b)のブロックCの符号化時に、既に符号化済であるブロックUL’の動きベクトルを用いて動きベクトル予測をすることも可能である。
なお、本実施形態では図9(a)に示すように、動きベクトル予測制御情報をピクチャヘッダ部分で符号化するものとしたが、符号化される位置はこれに限定されない。図9(b)に示されるように画像のシーケンスヘッダ部分で符号化されても良いし、他の位置で符号化されても構わない。
また、本実施形態では動きベクトル予測制御情報のみを符号化してビットストリームに含める構成としたが、図9(c)や図9(d)に示されるように画像解析情報も符号化してビットストリームに含める構成としても構わない。また、その場合、画像解析情報はシーケンスヘッダやピクチャヘッダではなく、図9(e)に示されるように補助情報(SEI)としてビットストリームとは別の形で符号化する構成としても良い。
また、本実施形態ではERPにより二次元に投影された360°映像が入力された構成としたが、ERP以外の方法で二次元に投影された映像が入力される構成としても構わない。
以上説明したように、本第1の実施形態によれば、符号化対象の映像が被写体を2次元平面とし、且つ矩形範囲で撮影して得た画像データである場合には、2次元座標空間で前記着目ブロックの周辺のブロックの動きベクトルを参照して符号化を行うことで、これまで通りの符号化を行うことができる。そして、符号化対象が360°映像を2次元投影された映像の場合には、通常の周囲ブロックに加え、符号化対象の着目ブロックと同一フレーム内にあって、周辺ブロック以外の符号化済のブロックをも参照範囲に追加する。この結果、映像が通常の画角の2次元平面画像と同様に符号化する場合と比較して、符号化に係る処理負担は、追加する動きベクトルだけ増えるものの、発生する符号量をこれまでよりも少なくすることが期待できる。
なお、上記実施形態では、符号化対象の映像が、図10に示す球形の360°映像をERPにより2次元投影してえた映像であるものとして説明した。しかし、例えば図11に示すように、魚眼レンズ等で半球空間の映像1100を、中心点1101から切り出し線1102で切り出し、投影した映像1103を符号化対象としても良い。この場合、映像1103の上端が先に示した式(1)、(3)を満たすか否かを判定して、かかる投影画像か否かを判定できる。また、図12に示すように、一つの軸(垂直軸)の軸回りの全方位の映像1201を線分1202で切り離して映像1203を符号化対象としても良い。この場合、式(3)から判定することになる。
[第2の実施形態]
次に、上記第1の実施形態での画像符号化装置で生成された符号化ストリームを復号する画像復号装置を第2の実施形態として説明する。
画像復号装置は、入力端子201、分離復号部202、復号部203、逆量子化・逆変換部204、画像再生部205、動きベクトルメモリ206、フレームメモリ207、及び、出力端子208を有する。
入力端子201は、第1の実施形態の画像符号化装置で生成された符号化動画像のビットストリームを入力する。分離復号部202は、入力したビットストリームから復号処理に関する情報や係数に関する符号データに分離し、またビットストリームのヘッダ部に存在する符号データを復号する。本実施形態では、動きベクトル予測制御情報を再生し、後段に出力する。なお、分離復号部202は、図1の統合符号化部111と逆の動作を行う。
復号部203は、分離復号部202から出力された符号データを復号し、量子化係数および予測情報を再生する。逆量子化・逆変換部204は、図1の逆量子化・逆変換部106と同様、ブロック単位で量子化係数を入力し、逆量子化を行って変換係数を得、さらに逆直交変換を行い、予測誤差を再生する。
動きベクトルメモリ206には、再生されたブロックの動きベクトルが格納される。フレームメモリ207には、再生されたピクチャの画像データが格納される。
画像再生部205は、入力された予測情報に基づいてフレームメモリ207や動きベクトルメモリ206を適宜参照して、着目ブロックの予測画像データを生成する。そして、この予測画像データと、逆量子化・逆変換部204で再生された着目ブロックの予測誤差とから着目ブロックの再生画像データを生成し、出力端子208より出力する。
上記構成における実施形態の画像復号装置における復号動作の更なる詳細を以下に説明する。復号対象の符号化画像のビットストリームは第1の実施形態の画像符号化装置で生成されたものとする。
入力端子201から入力されたビットストリームは分離復号部202に供給される。分離復号部202は、入力したビットストリームから復号処理に関する情報や係数に関する符号データに分離し、ビットストリームのヘッダ部に存在する符号データを復号する。具体的には、動きベクトル予測制御情報を再生する。本実施形態では、まず、図9(a)に示されるビットストリームのピクチャヘッダから動きベクトル予測制御情報符号を抽出して復号する。このようにして得られた動きベクトル予測制御情報は復号部203に出力される。続いて、ピクチャデータのブロック単位の符号データを再生し、これも復号部203に出力する。
復号部203では、符号データを復号し、量子化係数および予測情報を再生する。再生された量子化係数は逆量子化・逆変換部204に出力され、再生された予測情報は画像再生部205に出力される。予測情報のうち、動きベクトルの再生については、第1の実施形態の符号化部110とは逆の処理を行う。具体的にはまず、復号対象ブロックにおける予測動きベクトルの識別子を復号し再生する。分離復号部202から入力された動きベクトル予測制御情報や再生された動きベクトルの識別子に基づいて動きベクトルメモリ206を参照し予測動きベクトルを生成する。
本第2の実施形態における予測動きベクトルの生成方法について、具体的に説明する。まず、復号対象の着目ブロックが図5(a)のブロックCであるとし、UL、U、UR、L、BLは着目ブロックCに隣接するブロック、ブロックSは画像の中心を通る垂直点線を基準に線対称の位置にあるブロックとする。ここで再生された動きベクトルの識別子により、動きベクトル予測候補の中からどのブロックの動きベクトルを動きベクトル予測に用いるかを選択する。ブロックCに隣接するブロック、すなわち既存の動きベクトル予測候補(UL、U、UR、L、BLなど)が選択された場合には選択されたブロックの動きベクトルを予測動きベクトルとする。また、ブロックSにあたるブロックが選択された場合、ブロックSの動きベクトル(MVsx、MVsy)の水平成分の正負の符号を反転させた(−MVsx、MVsy)を予測動きベクトルとする。本実施形態では第1の実施形態と同様、既存の動きベクトル予測候補(UL、U、UR、L、BLなど)に加えて、(−MVsx、MVsy)も新たな動きベクトル予測候補とするものとするが、これに限定されない。既存の動きベクトル予測候補(UL、U、UR、L、BLなど)のうちの1つを置き換える構成としても良い。また、復号済のフレームのブロックの動きベクトルを予測候補として用いる時間的動きベクトル予測の変わりに(−MVsx、MVsy)を予測候補としても良い。さらには、Sにあたる位置のブロックが復号済の場合のみ(−MVsx、MVsy)を既存の予測候補と置き換え、そうでない場合には既存の予測候補をそのまま用いる構成としても良い。
次に復号対象ブロックの動きベクトルと前記予測動きベクトルとの差分をビットストリームから復号し、再生された差分と予測動きベクトルから復号対象ブロックの動きベクトルを再生する。再生された動きベクトルは画像再生部205に出力される予測情報に含まれるとともに、動きベクトルメモリ206にも格納される。
逆量子化・逆変換部204は、入力された量子化係数に対し逆量子化を行って直交変換係数を生成し、さらに逆直交変換を施して予測誤差を再生する。再生された予測情報は画像再生部205に出力される。
画像再生部205では、復号部203から入力された予測情報に基づいて、フレームメモリ207や動きベクトルメモリ206を適宜参照し、予測画像を再生する。画像再生部205は、この予測画像と、逆量子化・逆変換部204から入力された予測誤差から、復号対象のブロックの画像データを再生し、フレームメモリ207に入力し、格納する。格納された画像データは予測の際の参照に用いられる。
フレームメモリ207に格納された再生画像は、最終的には端子208から外部に出力される。
図4は、第2の実施形態に係る画像復号装置における画像の復号処理を示すフローチャートである。
まず、ステップS401にて、分離復号部202はビットストリームから復号処理に関する情報や係数に関する符号データに分離して、ヘッダ部分の符号データを復号し、動きベクトル予測制御情報を再生する。
ステップS402にて、復号部203はステップS401で分離された符号データを復号し、量子化係数および予測情報を再生する。予測情報に含まれる復号対象ブロックの動きベクトルに関しては、ステップS401で生成された動きベクトル予測制御情報に基づき、動きベクトルメモリ206を参照しながら復号対象ブロックの動きベクトルを再生する。
ステップS403にて、逆量子化・逆変換部204はブロック単位で量子化係数に対し逆量子化を行って変換係数を得、さらに逆直交変換を行い、予測誤差を再生する。
ステップS404にて、画像再生部205はステップS402で生成された予測情報や予測画像を再生する。さらに再生された予測画像とステップS403で生成された予測誤差から画像データを再生する。
ステップS405にて、画像復号装置は着目フレーム内の全てのブロックの復号が終了したか否かの判定を行い、終了していれば再生された画像を生成し、処理を終了する。そうでなければ、次のブロックを対象としてステップS402に戻る。
以上の構成と動作により、第1の実施形態で生成された、投影画像の性質に適した動きベクトル予測制御を用いたビットストリームを復号することができる。
なお、本実施形態では図5(a)に示すように、動きベクトル予測制御情報がピクチャヘッダ部分に含まれているビットストリームを復号するものとしたが、情報の符号化位置はこれに限定されない。図5(b)に示されるように画像のシーケンスヘッダ部分で符号化されていても良いし、他の位置で符号化されていても構わない。
[第3の実施形態]
図1、図2に示した各処理部はハードウェアでもって構成しているものとして上記実施形態では説明した。しかし、これらの図に示した各処理部で行う処理をコンピュータプログラムでもって構成しても良い。
図8は、上記各実施形態に係る画像表示装置に適用可能なコンピュータのハードウェアの構成例を示すブロック図である。
CPU801は、RAM802やROM803に格納されているコンピュータプログラムやデータを用いてコンピュータ全体の制御を行うと共に、上記各実施形態に係る画像処理装置が行うものとして上述した各処理を実行する。即ち、CPU801は、図1、図2に示した各処理部として機能することになる。
RAM802は、外部記憶装置806からロードされたコンピュータプログラムやデータ、I/F(インターフェース)807を介して外部から取得したデータなどを一時的に記憶するためのメモリである。更に、RAM802は、CPU801が各種の処理を実行する際に用いるワークエリアとしても利用される。即ち、RAM802は、例えば、フレームメモリとして割り当てたり、その他の各種のエリアを適宜提供したりすることができる。
ROM803には、本コンピュータの設定データや、ブートプログラムなどが格納されている。操作部804は、キーボードやマウスなどにより構成されており、本コンピュータのユーザが操作することで、各種の指示をCPU801に対して入力することができる。表示部805は、CPU801による処理結果を表示する。また表示部805は例えば液晶ディスプレイで構成される。
外部記憶装置806は、ハードディスクドライブ装置に代表される、大容量情報記憶装置である。外部記憶装置806には、OS(オペレーティングシステム)や、図1、図2に示した各部の機能をCPU801に実現させるためのコンピュータプログラムが保存されている。更には、外部記憶装置806には、処理対象としての各画像データが保存されていても良い。
外部記憶装置806に保存されているコンピュータプログラムやデータは、CPU801による制御に従って適宜、RAM802にロードされ、CPU801による処理対象となる。I/F807には、LANやインターネット等のネットワーク、投影装置や表示装置などの他の機器を接続することができ、本コンピュータはこのI/F807を介して様々な情報を取得したり、送出したりすることができる。808は上述の各部を繋ぐバスである。
上述の構成からなる作動は前述のフローチャートで説明した作動をCPU801が中心となってその制御を行うことで、図1、図2に示す各種処理部として機能することになる。
(その他の実施例)
本発明は、上述の実施形態の1以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける1つ以上のプロセッサーがプログラムを読出し実行する処理でも実現可能である。また、1以上の機能を実現する回路(例えば、ASIC)によっても実現可能である。
本発明は静止画・動画の符号化・復号を行う符号化装置・復号装置に用いられる。特に、動きベクトル予測処理を使用する符号化方式および復号方式に適用が可能である。
101、201…入力端子、102…画像解析部、103…動きベクトル予測制御情報生成部、104…予測部、105…変換・量子化部、106、204…逆量子化・逆変換部、107、205…画像再生部、108、207…フレームメモリ、109、206…動きベクトルメモリ、110…符号化部、111…統合符号化部、202…分離復号部、203…復号部、112、208…出力端子

Claims (8)

  1. 符号化済のブロックの動きベクトルを用いて画像を符号化する画像符号化装置において、
    符号化対象ブロックと同一のフレーム内に存在し、かつ符号化対象ブロックとは隣接しない符号化済のブロックの動きベクトルを用いて、符号化対象ブロックの動きベクトルを予測する動きベクトル予測手段を有する
    ことを特徴とする画像符号化装置。
  2. 符号化しようとする動画像のフレームを解析し、動画像を示すフレームが、被写体を2次元平面として撮影して得た映像のフレームであるか、全方位の撮影映像を2次元の矩形範囲に投影して得た映像のフレームであるかを判定する解析手段を更に有することを特徴とする請求項1に記載の画像符号化装置。
  3. 前記解析手段の解析結果が、動画像を示すフレームが被写体を2次元平面として撮影して得た映像のフレームであることを示している場合、前記動きベクトル予測手段は符号化しようとしている着目のブロックの周囲の符号化済みのブロックを参照範囲として設定することを特徴とする請求項2に記載の画像符号化装置。
  4. 前記解析手段の解析結果が、動画像を示すフレームが全方位の撮影映像を2次元の矩形範囲に投影して得た映像のフレームであることを示している場合、前記フレーム内に定義される予め設定された水平又は垂直線分に関する情報を符号化手段を有することを特徴とする請求項2に記載の画像符号化装置。
  5. 前記フレームの中央を通る線に対し、線対称となるブロックを符号化した際の動きベクトルの水平、垂直成分の一方の正負の符号を反転させたベクトルを、符号化対象の着目のブロックの動きベクトルの候補として設定することを特徴とする請求項4に記載の画像符号化装置。
  6. 前記解析手段の解析結果が、動画像を示すフレームが全方位の撮影映像を2次元の矩形範囲に投影して得た映像のフレームであることを示し、且つ、符号化しようとしている着目のブロックがフレームの左端又は右端に位置する場合、前記動きベクトル予測手段は、前記着目のブロックの周囲の符号化済みのブロックに加えて、前記着目のブロックとは反対側の右端又は左端の位置するブロックを参照範囲とすることを特徴とする請求項2乃至5のいずれか1項に記載の画像符号化装置。
  7. 復号済のブロックの動きベクトルを用いて画像を復号する画像復号装置において、
    復号対象ブロックと同一のフレーム内に存在し、かつ復号対象ブロックとは隣接しない復号済みブロックの動きベクトルを用いて、復号対象ブロックの動きベクトルを予測する動きベクトル予測手段を有する
    ことを特徴とする画像復号装置。
  8. コンピュータが読み込み実行することで、前記コンピュータを請求項7に記載の方法の各工程を実行させるためのプログラム。
JP2018044666A 2018-03-12 2018-03-12 画像符号化装置及びその制御方法及びプログラム Pending JP2019161410A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2018044666A JP2019161410A (ja) 2018-03-12 2018-03-12 画像符号化装置及びその制御方法及びプログラム
PCT/JP2019/002405 WO2019176320A1 (ja) 2018-03-12 2019-01-25 画像符号化装置、画像復号装置、画像符号化方法、画像復号方法、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018044666A JP2019161410A (ja) 2018-03-12 2018-03-12 画像符号化装置及びその制御方法及びプログラム

Publications (1)

Publication Number Publication Date
JP2019161410A true JP2019161410A (ja) 2019-09-19

Family

ID=67907690

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018044666A Pending JP2019161410A (ja) 2018-03-12 2018-03-12 画像符号化装置及びその制御方法及びプログラム

Country Status (2)

Country Link
JP (1) JP2019161410A (ja)
WO (1) WO2019176320A1 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP4082197A1 (en) * 2019-12-27 2022-11-02 Koninklijke KPN N.V. Motion vector prediction for video coding

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001298652A (ja) * 2000-04-17 2001-10-26 Sony Corp 画像圧縮方法及び画像圧縮装置、並びにソフトウェア記憶媒体
KR100688383B1 (ko) * 2004-08-13 2007-03-02 경희대학교 산학협력단 파노라마 영상의 움직임 추정 및 보상
JP2007174568A (ja) * 2005-12-26 2007-07-05 Sanyo Electric Co Ltd 符号化方法
JP6517609B2 (ja) * 2015-07-13 2019-05-22 日本電信電話株式会社 符号化方法及び符号化プログラム

Also Published As

Publication number Publication date
WO2019176320A1 (ja) 2019-09-19

Similar Documents

Publication Publication Date Title
US10986342B2 (en) 360-degree image encoding apparatus and method, and recording medium for performing the same
US11856221B2 (en) Method and device for image encoding and decoding, and recording medium having bit stream stored therein
WO2016050051A1 (zh) 图像预测方法及相关装置
JP6232076B2 (ja) 映像符号化方法、映像復号方法、映像符号化装置、映像復号装置、映像符号化プログラム及び映像復号プログラム
JP6636615B2 (ja) 動きベクトル場の符号化方法、復号方法、符号化装置、および復号装置
JP2018524918A (ja) 画像予測方法および画像予測装置
JP2023134651A (ja) 映像コーディングシステムにおけるインター予測による映像デコーディング方法及び装置
EP3515076B1 (en) Motion compensation prediction method and device
KR102342870B1 (ko) 인트라 예측 모드 기반 영상 처리 방법 및 이를 위한 장치
JP6027143B2 (ja) 画像符号化方法、画像復号方法、画像符号化装置、画像復号装置、画像符号化プログラム、および画像復号プログラム
KR102254986B1 (ko) 구면 투영부들에 의한 왜곡을 보상하기 위한 등장방형 객체 데이터의 프로세싱
JP5216710B2 (ja) 復号化処理方法
US11115678B2 (en) Diversified motion using multiple global motion models
CN109964483B (zh) 动态图像编码装置、解码装置以及计算机可读存储介质
WO2013039031A1 (ja) 画像符号化装置、画像復号装置、並びにそれらの方法及びプログラム
US20200236385A1 (en) Video coding device, video decoding device, video coding method, video decoding method and program
RU2729966C1 (ru) Способы, устройства и машиносчитываемый носитель для кодирования и декодирования видеосигнала
JP2023072035A (ja) 復号装置及びプログラム
US10911779B2 (en) Moving image encoding and decoding method, and non-transitory computer-readable media that code moving image for each of prediction regions that are obtained by dividing coding target region while performing prediction between different views
WO2019176320A1 (ja) 画像符号化装置、画像復号装置、画像符号化方法、画像復号方法、及びプログラム
KR20120018506A (ko) 스케일러블 비디오 코덱의 압축 효율 향상을 위한 템플릿 매칭 방법 및 장치
JP5706291B2 (ja) 映像符号化方法,映像復号方法,映像符号化装置,映像復号装置およびそれらのプログラム
WO2015098827A1 (ja) 映像符号化方法、映像復号方法、映像符号化装置、映像復号装置、映像符号化プログラム及び映像復号プログラム
WO2021111595A1 (ja) フィルタ生成方法、フィルタ生成装置及びプログラム
JPWO2015141549A1 (ja) 動画像符号化装置及び方法、及び、動画像復号装置及び方法

Legal Events

Date Code Title Description
RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7421

Effective date: 20210103

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210113