WO2021199374A1

WO2021199374A1 - 映像符号化装置、映像復号装置、映像符号化方法、映像復号方法、映像システムおよびプログラム

Info

Publication number: WO2021199374A1
Application number: PCT/JP2020/015014
Authority: WO
Inventors: 慶一蝶野
Original assignee: 日本電気株式会社
Priority date: 2020-04-01
Filing date: 2020-04-01
Publication date: 2021-10-07
Also published as: US20230143053A1; JPWO2021199374A1

Abstract

映像符号化装置は、すべてのフレームの輝度サンプルの最大画像幅と最大画像高とをビットストリームに多重化する多重化部１１と、フレーム毎に最大画像幅以下および最大画像高以下である輝度サンプルの画像幅および画像高を決定する決定部１２とを含み、多重化部１１は、決定された輝度サンプルの画像幅と画像高とをビットストリームに多重化し、処理対象フレームの輝度サンプルの画像幅および画像高を過去に処理されたフレームの輝度サンプルの画像幅および画像高にスケールさせるための参照ピクチャスケールレシオを導出する導出部１３を含む。

Description

映像符号化装置、映像復号装置、映像符号化方法、映像復号方法、映像システムおよびプログラム

　本発明は、参照ピクチャのスケーリングを利用する映像符号化装置、映像復号装置、映像符号化方法、映像復号方法、映像システム及びプログラムに関する。

　非特許文献１は、HEVC（High Efficiency Video Coding）方式と同じ画質でビットレートを約半分にできるVVC（Versatile Video Coding）方式の仕様を開示している。

　非特許文献２は、デジタル放送におけるHEVC方式に基づいた映像信号圧縮を規定し、SOP（Set of Pictures）という概念を導入している。SOPは、時間方向階層符号化を行う場合に各AU（Access Unit）の符号化順及び参照関係を記述する単位である。その構造には、L0構造、L1構造、L2構造、L3構造、およびL4構造がある。

　VVC方式についても、VVC方式にSOP構造を定義することによって、HEVC方式と同様なデジタル放送を運用できる。

"Versatile Video Coding (Draft 8)", JVET-Q2001, Joint Video Experts Team (JVET) of ITU-T SG 16 WP 3 and ISO/IEC JTC 1/SC 29/WG 11 17th Meeting: Brussels, BE, 7-17 January 2020. ARIB (Association of Radio Industries and Businesses) 標準規格 STD-B32 3.11版　平成３０年７月２６日　電波産業会 "Supplemental enhancement information for coded video bitstreams (Draft 3)", JVET-Q2007, Joint Video Experts Team (JVET) of ITU-T SG 16 WP 3 and ISO/IEC JTC 1/SC 29/WG 11 17th Meeting: Brussels, BE, 7-17 January 2020.

　日本において、２０１８年１２月から開始されている新4K8K衛星放送における伝送容量は約100Mbpsであり、HEVC方式で1つの8K映像が送出されている。よって、VVC方式の採用で映像ビットレートを半減できたとしても、次世代地上放送の伝送容量の約40Mbpsでは、複雑な絵柄や動きのあるシーンにおいて8K映像の品質をサービス品質レベルに保つことは困難である。

　本発明は、超高精細映像の映像品質を高く保つことができる映像符号化装置、映像復号装置、映像符号化方法、映像復号方法、映像システムおよびプログラムを提供することを目的とする。

　本発明による映像符号化装置は、すべてのフレームの輝度サンプルの最大画像幅と最大画像高とをビットストリームに多重化する多重化手段と、フレーム毎に最大画像幅以下および最大画像高以下である輝度サンプルの画像幅および画像高を決定する決定手段とを含み、多重化手段は、決定された輝度サンプルの画像幅と画像高とをビットストリームに多重化し、処理対象フレームの輝度サンプルの画像幅および画像高を過去に処理されたフレームの輝度サンプルの画像幅および画像高にスケールさせるための参照ピクチャスケールレシオを導出する導出手段を含む。

　本発明による映像復号装置は、すべてのフレームの輝度サンプルの最大画像幅と最大画像高とをビットストリームから多重化解除し、フレーム毎に輝度サンプルの画像幅と画像高をビットストリームから多重化解除する多重化解除手段と、処理対象フレームの輝度サンプルの画像幅および画像高を過去に処理したフレームの輝度サンプルの画像幅および画像高にスケールさせるための参照ピクチャスケールレシオを導出する導出手段と、表示用に出力するフレームの画像サイズを最大画像幅および最大画像高になるようにスケールするスケーリング手段とを含む。

　本発明による映像符号化方法は、すべてのフレームの輝度サンプルの最大画像幅と最大画像高とをビットストリームに多重化し、フレーム毎に最大画像幅以下および最大画像高以下である輝度サンプルの画像幅および画像高を決定し、決定された輝度サンプルの画像幅と画像高とをビットストリームに多重化し、処理対象フレームの輝度サンプルの画像幅および画像高を過去に処理されたフレームの輝度サンプルの画像幅および画像高にスケールさせるための参照ピクチャスケールレシオを導出する。

　本発明による映像復号方法は、すべてのフレームの輝度サンプルの最大画像幅と最大画像高とをビットストリームから多重化解除し、フレーム毎に輝度サンプルの画像幅と画像高とをビットストリームから多重化解除し、処理対象フレームの輝度サンプルの画像幅および画像高を過去に処理したフレームの輝度サンプルの画像幅および画像高にスケールさせるための参照ピクチャスケールレシオを導出し、表示用に出力するフレームの画像サイズを最大画像幅および最大画像高になるようにスケールする。

　本発明による映像符号化プログラムは、コンピュータに、すべてのフレームの輝度サンプルの最大画像幅と最大画像高とをビットストリームに多重化する処理と、フレーム毎に最大画像幅以下および最大画像高以下である輝度サンプルの画像幅および画像高を決定する処理と、決定された輝度サンプルの画像幅と画像高とをビットストリームに多重化する処理と、処理対象フレームの輝度サンプルの画像幅および画像高を過去に処理されたフレームの輝度サンプルの画像幅および画像高にスケールさせるための参照ピクチャスケールレシオを導出する処理とを実行させる。

　本発明による映像復号プログラムは、コンピュータに、すべてのフレームの輝度サンプルの最大画像幅と最大画像高とをビットストリームから多重化解除する処理と、フレーム毎に輝度サンプルの画像幅と画像高とをビットストリームから多重化解除する処理と、処理対象フレームの輝度サンプルの画像幅および画像高を過去に処理したフレームの輝度サンプルの画像幅および画像高にスケールさせるための参照ピクチャスケールレシオを導出する処理と、表示用に出力するフレームの画像サイズを最大画像幅および最大画像高になるようにスケールする処理とを実行させる。

　本発明による映像システムは、上記の映像符号化装置と上記の映像復号装置とを含む。

　本発明によれば、超高精細映像の映像品質を高く保つことができる。

６５種類の角度イントラ予測の例を示す説明図である。フレーム間予測の例を示す説明図である。フレームｔのCTU分割例、および、フレームｔのCTU8のCU分割例を示す説明図である。第１の実施形態の映像符号化装置の構成例を示すブロック図である。符号化制御器の動作を示すフローチャートである。映像符号化装置の動作を示すフローチャートである。 SOPのL2構造を示す説明図である。 SOPのL3構造を示す説明図である。 SOPのL4構造を示す説明図である。シーンの映像符号化の難しさに応じて画像サイズを切り替える方法を説明するための説明図である。映像復号装置の構成例を示すブロック図である。映像システムの構成例を示すブロック図である。映像符号化装置および映像復号装置の機能を実現可能な情報処理システムの構成例を示すブロック図である。映像符号化装置の主要部を示すブロック図である。映像復号装置の主要部を示すブロック図である。

　以下の説明の理解ために、まず、イントラ予測、フレーム間予測、ならびに、符号化ツリーユニット（CTU：Coding Tree Unit）および符号化ユニット（CU：Coding Unit）を説明する。

　デジタル化された映像の各フレームはCTUに分割され、ラスタスキャン順に各CTUが符号化される。

　各CTUは、四分木（QT：Quad-Tree）またはマルチ木（MT：Multi-Tree）構造で、CUに分割されて符号化される。

　各CUは、予測符号化される。なお、予測符号化には、イントラ予測とフレーム間予測がある。各CUの予測誤差は、周波数変換に基づいて変換符号化される。

　イントラ予測は、符号化対象フレームと表示時刻が同一の再構築画像から予測画像を生成する予測である。非特許文献１では、図１に示す６５種類の角度イントラ予測が定義されている。角度イントラ予測は、符号化対象ブロック周辺の再構築画素を６５種類の方向のいずれかに外挿して、イントラ予測信号を生成する。さらに、非特許文献１では、角度イントラ予測に加えて、符号化対象ブロック周辺の再構築画素を平均するDCイントラ予測、および、符号化対象ブロック周辺の再構築画素を線形補間するPlanarイントラ予測が定義されている。以下、イントラ予測に基づいて符号化されたCUをイントラCUと呼ぶ。

　フレーム間予測は、符号化対象フレームと表示時刻が異なる再構築画像（参照ピクチャ）から予測画像を生成する予測である。以下、フレーム間予測をインター予測とも呼ぶ。

　図２は、フレーム間予測の例を示す説明図である。動きベクトルMV＝（mv_x, mv_y）は、符号化対象ブロックに対する参照ピクチャの再構築画像ブロックの並進移動量を示す。インター予測は、参照ピクチャの再構築画像ブロックに基づいて（必要であれば画素補間を用いて）、インター予測信号を生成する。以後、フレーム間予測に基づいて符号化されたCUをインターCUと呼ぶ。

　イントラCUのみで符号化されたフレームはＩフレーム（または、Ｉピクチャ）と呼ばれる。イントラCUだけでなくインターCUも含めて符号化されたフレームはＰフレーム（または、Ｐピクチャ）と呼ばれる。ブロックのインター予測に１枚の参照ピクチャだけでなく、さらに同時に２枚の参照ピクチャを用いるインターCUを含めて符号化されたフレームはＢフレーム（または、Ｂピクチャ）と呼ばれる。

　なお、１枚の参照ピクチャを用いるインター予測は片方向予測と呼ばれ、同時に２枚の参照ピクチャを用いるインター予測は双方向予測と呼ばれる。

　図３は、フレームの画素数がCIF（Common Intermediate Format）、CTUサイズが６４の場合のフレームｔのCTU分割例、および、フレームｔに含まれる第８のCTU（CTU8）の分割例を示す説明図である。

　以下、本発明の実施形態を図面を参照して説明する。

実施形態１．
　図４は、第１の実施形態の映像符号化装置の構成例を示すブロック図である。本実施形態の映像符号化装置１００は、変換／量子化器１０１、エントロピー符号化器１０２、逆変換／逆量子化器１０３、バッファ１０４、予測器１０５、多重化器１０６、画素数変換器１０７、および符号化制御器１０８を備える。

　符号化制御器１０８は、画素数変換器１０７などを制御する。画素数変換器１０７は、入力映像の画像サイズを、符号化制御器１０８が決定した画素サイズに変換する機能を有する。

　画素数変換器１０７には、超高精細映像のフレーム（画像信号）が入力される。変換／量子化器１０１は、画素数変換器１０７から供給される画像信号から予測信号を減じた予測誤差画像を周波数変換し、周波数変換係数を得る。さらに、変換／量子化器１０１は、所定の量子化ステップ幅で、周波数変換した予測誤差画像（周波数変換係数）を量子化する。以下、量子化された周波数変換係数を変換量子化値と呼ぶ。

　エントロピー符号化器１０２は、予測器１０５が決定したcu_split_flag、シンタクス値、pred_mode_flag、シンタクス値、イントラ予測方向、動きベクトルの差分情報、および、変換量子化値をエントロピー符号化する。

　逆変換／逆量子化器１０３は、所定の量子化ステップ幅で、変換量子化値を逆量子化する。さらに、逆変換／逆量子化器１０３は、逆量子化した周波数変換係数を逆周波数変換する。逆周波数変換されて得られた再構築予測誤差画像は、予測信号が加えられて、バッファ１０４に供給される。バッファ１０４は、供給される再構築画像を格納する。

　多重化器１０６は、エントロピー符号化器１０２の出力データを多重化して出力する。

　次に、図５のフローチャートを参照して、映像符号化装置１００における符号化制御器１０８の動作を説明する。なお、画素数変換器１０７に入力される超高精細映像である入力映像が8K映像（水平7680画素、垂直4320画素）である場合を例にする。

　符号化制御器１０８は、処理対象の画像フレーム（処理対象フレーム）の画像サイズを決定する（ステップＳ１０１）。決定の仕方は、後述される。

　符号化制御器１０８は、決定した画像サイズに基づいて、処理対象フレームに対する画素数変換器１０７の動作を制御する（ステップＳ１０２）。

　処理対象フレームを8K映像として処理する場合、符号化制御器１０８は、画素数変換器１０７が出力するフレームの画像サイズがそのまま8K（水平7680画素、垂直4320画素）になるように制御する。すなわち、符号化制御器１０８は、そのようにすることを示す指令を画素数変換器１０７に与える。そうでない場合（4K映像として処理する場合）、画素数変換器１０７の出力フレームの画像サイズが4K（水平3840画素、垂直2160画素）になるようにする。すなわち、符号化制御器１０８は、そのようにすることを示す指令を画素数変換器１０７に与える。画素数変換器１０７は、指令に応じて、フレームの画素数を減少させる。

　次いで、符号化制御器１０８は、決定した画像サイズに基づいて、多重化器１０６を制御する（ステップＳ１０３）。符号化制御器１０８は、例えば、以下のように多重化器１０６を制御する。

　符号化制御器１０８は、多重化器１０６が出力するシーケンスパラメータセットにおけるpic_width_max_in_luma_samplesシンタクス（輝度サンプルの最大画像幅に相当）とpic_height_max_in_luma_samplesシンタクス（輝度サンプルの最大画像高に相当）の値がそれぞれ7680と4320になるように制御する。すなわち、符号化制御器１０８は、そのようにすることを示す指令を多重化器１０６に与える。

　また、処理対象フレームを8K映像として処理する場合、符号化制御器１０８は、多重化器１０６が出力する処理対象フレームのピクチャパラメータセットにおけるpic_width_in_luma_samplesシンタクス（輝度サンプルの画像幅に相当）とpic_height_in_luma_samplesシンタクス（輝度サンプルの画像高に相当）の値がそれぞれ7680と4320になるように制御する。すなわち、符号化制御器１０８は、そのようにすることを示す指令を多重化器１０６に与える。

　そうでない場合（4K映像として処理する場合）、符号化制御器１０８は、多重化器106が出力する処理対象フレームのピクチャパラメータセットにおけるpic_width_in_luma_samplesシンタクス（輝度サンプルの画像幅に相当）とpic_height_in_luma_samplesシンタクス（輝度サンプルの画像高に相当）の値がそれぞれ3840と2160になるように制御する。すなわち、符号化制御器１０８は、そのようにすることを示す指令を多重化器１０６に与える。

　多重化器１０６は、符号化制御器１０８の制御に応じて、すべてのフレームについてのpic_width_max_in_luma_samplesシンタクス値とpic_height_max_in_luma_samplesシンタクス値とを、ビットストリームに多重化する。また、多重化器１０６は、フレーム毎のpic_width_in_luma_samplesシンタクス値とpic_height_in_luma_samplesシンタクス値とをビットストリームに多重化する。

　さらに、符号化制御器１０８は、処理対象フレームの画像サイズを、過去に処理したフレームの画像サイズにスケールさせるために、過去に処理したフレーム毎に参照ピクチャスケールレシオRefPicScaleを導出して、予測器１０５に供給する（ステップＳ１０４）。

　RefPicScaleは、非特許文献１の８．３．２ Decoding process for reference picture lists construction に記載される以下の式で表現される。
　RefPicScale[ i ][ j ][ 0 ] = ( ( fRefWidth << 14 ) + ( PicOutputWidthL >> 1 ) ) / PicOutputWidthL
　RefPicScale[ i ][ j ][ 1 ] = ( ( fRefHeight << 14 ) + ( PicOutputHeightL >> 1 ) ) / PicOutputHeightL
　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　・・・（１）

　ただし、PicOutputWidthL=pic_width_in_luma_samples、PicOutputHeightL=pic_height_in_luma_samplesであり、fRefWidth およびfRefHeightは、それぞれ、対象とする過去に処理したフレームに対して設定されたpic_width_in_luma_samplesシンタクスの値およびpic_height_in_luma_samplesシンタクスの値である。

　（１）式からわかるように、参照ピクチャスケールレシオは、過去に処理されたフレームの画像サイズと処理対象フレームの画像サイズとの比率である。

　次に、映像符号化装置１００の全体の動作を図６のフローチャートを参照して説明する。

　予測器１０５は、予測符号化を行う。すなわち、予測器１０５は、まず、CTU毎に、符号化コストを最小とするCU分割形状を決めるcu_split_flagシンタクス値を決定する（ステップＳ２０１）。次いで、予測器１０５は、CU毎に、符号化コストを最小とする符号化パラメータ（イントラ予測／インター予測を決定するpred_mode_flagシンタクス値、イントラ予測方向、および動きベクトルの差分情報など）を決定する（ステップＳ２０２）。

　また、予測器１０５は、決定したcu_split_flagシンタクス値、pred_mode_flagシンタクス値、イントラ予測方向、動きベクトル、および、参照ピクチャスケールレシオなどに基づいて、各CUの入力画像信号に対する予測信号を生成する（ステップＳ２０３）。予測信号は、イントラ予測またはフレーム間予測に基づいて生成される。

　画素数変換器１０７は、上述したように、符号化制御器１０８が決定した画像サイズになるように、処理対象フレームをスケールする。

　変換／量子化器１０１は、画素数変換器１０７から供給される画像信号から予測信号を減じた予測誤差画像を周波数変換する（ステップＳ２０４）。さらに、変換／量子化器１０１は、周波数変換した予測誤差画像（周波数変換係数）を量子化する（ステップＳ２０５）。

　エントロピー符号化器１０２は、予測器１０５が決定したcu_split_flagシンタクス値、pred_mode_flagシンタクス値、イントラ予測方向、動きベクトルの差分情報、および、量子化された周波数変換係数（変換量子化値）をエントロピー符号化する（ステップＳ２０６）。

　多重化器１０６は、エントロピー符号化器１０２から供給されるエントロピー符号化データをビットストリームとして多重化出力する（ステップＳ２０７）。

　なお、逆変換／逆量子化器１０３は、変換量子化値を逆量子化する。さらに、逆変換／逆量子化器１０３は、逆量子化した周波数変換係数を逆周波数変換する。逆周波数変換された再構築予測誤差画像は、予測信号が加えられて、バッファ１０４に供給される。バッファ１０４は、再構築画像を格納する。

　上述した動作によって、本実施形態の映像符号化装置はビットストリームを生成する。

＜画像サイズの決定の仕方の例＞
　画像サイズの決定の仕方の一例として、SOP構造のTemporal IDに応じて、処理対象フレームの画像サイズを8Kと4Kとの間での切り替える方法を説明する。なお、AUのTemporal IDは、AU内のNALU（Network Abstraction Layer Unit）ヘッダのnuh_temporal_id_plus1 から１を減算した値である。

　図７は、SOPのL2構造を示す説明図である。図８は、SOPのL3構造を示す説明図である。図９は、SOPのL4構造を示す説明図である。

　具体的には、図７～図９には、Temporal IDの値が所定のしきい値以上のAUに含まれるフレームを小さな画像サイズ（4K）とし、その他のAUのフレームをそのままの画像サイズ（8K）とする例が示されている。ただし、図７～図９には、所定のしきい値が２の場合が例示されている。

　上述したように映像符号化装置が8Kと4Kとを切り替えるように構成されている場合には、周期的に解像度が高い8K画像が表示されることによる残像効果が得られる。すなわち、8K映像の高精細感を知覚できる。また、4Kを用いるフレームではデータ量が削減されるので、複雑な絵柄や動きのあるシーンでも映像符号化に起因する劣化が防止される。すなわち、映像品質を高く保つことができる。さらに、映像復号装置などの受信端末側における映像ビットストリームの再引き込みが不要であるため、画像サイズが切り替わっても受信端末側で滑らかに映像を再生できる。

　なお、上述した小さな画像サイズで処理するAUを決定するための、Temporal IDの値のしきい値としての２は一例であって、他の値が用いられてもよい。

　また、映像符号化が容易である場合などには、符号化制御器１０８は、Temporal IDの値が所定のしきい値以上のAUに含まれるフレームもそのままの画像サイズにしてもよい。すなわち、符号化制御器１０８は、Temporal IDの値が所定のしきい値以上のAUに含まれるフレームをそのままの画像サイズまたは小さな画像サイズとし、その他のAUのフレームを常にそのままの画像サイズにしてもよい。

　さらに、残像効果を好ましく得る目的では、Temporal IDの値が所定のしきい値未満のＩピクチャを含むAUに含まれるフレームをその他のフレームよりも大きな画像サイズで処理することが望ましい。一方、データ量の削減効果を最大化するという目的では、Temporal IDの値が所定のしきい値以上のAUに含まれるフレームの画像サイズを、Temporal IDの値が所定のしきい値未満のAUに含まれるフレームの画像サイズよりも大きくすることが望ましい。

＜画像サイズの決定の仕方の他の例＞
　画像サイズの決定の仕方の他の例として、符号化制御器１０８は、図１０に例示されるように、シーンの映像符号化の難しさ（困難度）に応じて、処理対象フレームの画像サイズを、8Kと4Kとで切り替える方法が考えられる。

　なお、映像符号化の難しさは、入力映像の特性（絵柄や動きの複雑さなど）やエントロピー符号化器１０２の出力特性（量子化の粗さなど）の監視結果に基づいて判断可能である。

　4Kと8Kとを切り替えるつなぎ目での画質の違いを吸収するため、切り替わった後の先頭のＩピクチャのリーディングピクチャにおいて、切り替わる前のフレームを参照ピクチャとして利用することが望ましい。リーディングピクチャの予測画像の生成で、4K画像と8K画像とを組み合わせた双方向予測によって平滑化効果が得られるためである。

　さらに、8Kに切り替わった後のリーディングピクチャは、データ量を削減するという目的では、4Kで処理することが望ましい。一方、平滑化効果を最大化するという目的では、8Kで処理することが望ましい。

　次に、映像復号装置の構成と動作とを説明する。図１１は、本実施形態の映像復号装置の構成例を示すブロック図である。図１１に示す映像復号装置２００は、図４に示された映像符号化装置１００からのビットストリームを受信して映像復号処理を実行可能である。ただし、ビットストリームの送信元は、図４に示された映像符号化装置１００に限定されない。

　図１１に示す映像復号装置は、多重化解除器２０１、エントロピー復号器２０２、逆変換／逆量子化器２０３、予測器２０４、バッファ２０５、画素数変換器２０６、および復号制御部２０８を備える。

　多重化解除器２０１は、入力されるビットストリームを多重化解除して、エントロピー符号化データを抽出する。

　エントロピー復号器２０２は、エントロピー符号化データをエントロピー復号する。エントロピー復号器２０２は、エントロピー復号した変換量子化値を逆変換／逆量子化器２０３に供給し、さらに、cu_split_flag、pred_mode_flag、イントラ予測方向、および動きベクトルを予測器２０４に供給する。

　本実施形態では、ビットストリームには、すべてのフレームの輝度サンプルの最大画像幅および最大画像高を表すデータ（例えば、pic_width_max_in_luma_samplesシンタクス値とpic_height_max_in_luma_samplesシンタクス値）が多重化されている。また、ビットストリームには、フレーム毎に輝度サンプルの画像幅および画像高を表すデータ（例えば、pic_width_in_luma_samplesシンタクス値とpic_height_in_luma_samplesシンタクス値）が多重化されている。エントロピー復号器２０２は、エントロピー復号したそれらのデータを、復号制御器２０８に供給する。

　復号制御器２０８は、例えば、（１）式に基づいて、pic_width_in_luma_samplesシンタクス値とpic_height_in_luma_samplesシンタクス値とから、フレーム毎に参照ピクチャスケールレシオRefPicScaleを導出する。復号制御器２０８は、フレーム毎に参照ピクチャスケールレシオRefPicScaleを予測器２０４に供給する。また、復号制御器２０８は、pic_width_max_in_luma_samplesシンタクス値およびpic_height_max_in_luma_samplesシンタクス値と、pic_width_in_luma_samplesシンタクス値およびpic_height_in_luma_samplesシンタクス値とを、画素数変換器２０６に供給する。

　逆変換／逆量子化器２０３は、所定の量子化ステップ幅で、変換量子化値を逆量子化する。さらに、逆変換／逆量子化器２０３は、逆量子化した周波数変換係数を逆周波数変換する。

　予測器２０４は、cu_split_flag、pred_mode_flag、イントラ予測方向、動きベクトル、および、参照ピクチャスケールレシオRefPicScaleに基づいて、予測信号を生成する。予測信号は、イントラ予測またはフレーム間予測に基づいて生成される。

　逆変換／逆量子化器２０３で逆周波数変換された再構築予測誤差画像は、予測器２０４から供給される予測信号が加えられて、再構築画像としてバッファ２０５に供給される。そして、バッファ２０５に格納された再構築ピクチャがデコード映像として出力される。

　上述した動作によって、本実施形態の映像復号装置はデコード映像を生成する。

　デコード映像のデータは、表示用映像のデータとして表示装置や記憶装置に供給されるが、画素数変換器２０６は、すべての表示用映像のデータの画像サイズが揃うようにデコード映像の各々を所定の画像幅および画像高にスケールする。例えば、所定の画像幅および画像高として、最大画像幅および最大画像高が利用できる。この場合、画素数変換器２０６は、pic_width_in_luma_samplesシンタクス値およびpic_height_max_in_luma_samplesシンタクス値と、pic_width_max_in_luma_samplesシンタクス値およびpic_height_in_luma_samplesシンタクス値とを用いて前記スケールのための比率を導出できる。

　本実施形態では、再構築画像のフレームの画像サイズは、フレーム毎に異なる可能性がある。そこで、本実施形態では、映像復号装置２００において、画素数変換器２０６が、表示される画像サイズを揃える目的で、再構築画像フレームの画像サイズがシーケンスパラメータセットに含まれるpic_width_max_in_luma_samplesシンタクスの値とpic_height_max_in_luma_samplesシンタクスの値とで示されるサイズになるようにサイズ変換を行うように構成される。よって、画像サイズが切り替わっても滑らかに映像を再生できる。

　以上に説明したように、本実施形態では、映像符号化装置は、複雑な絵柄や動きのあるシーンでも映像品質をサービス品質レベルに保てるように、画像サイズを切り替えて映像符号化する。また、映像符号化装置は、画像サイズの切り替えに起因する映像ビットストリームの再引き込みが映像復号装置などの受信端末において不要になるように、映像符号化において参照ピクチャのスケーリングを利用する。さらに、映像符号化装置は、画像サイズの切り替えが視覚的に目立ちにくくなるように映像符号化を制御することもできる。

　したがって、複雑な絵柄や動きのあるシーンでも映像品質をサービス品質レベルに保つことができる。また、受信端末側における映像ビットストリームの再引き込みが不要になり、画像サイズが切り替わっても滑らかに映像を再生できる。さらに、画像サイズの変化が視覚的に見えにくくなり、画像サイズが切り替わる瞬間の映像品質をサービス品質で保つこともできる。

　上記の実施形態では、入力映像が8K映像の場合に、同じアスペクト比のままで8K映像（水平7680画素、垂直4320画素）と4K映像（水平3840画素、垂直2160画素）とを切り替えたが、別の実施形態として、アスペクト比を切り替えることも可能である。

　例えば、アスペクト比16:9の8K映像（水平7680画素、垂直4320画素）とアスペクト比4：3 の8K映像（水平5760画素、垂直4320画素）との間で切り替えてもよい。ただし、この場合、VUI Video Usability Information）とSample aspect ratio information SEI (Supplemental Enhancement Information) messageは以下のようになる。

[VUI]
・VUI に含まれるvui_aspect_ratio_constant_flagの値が０である。

[Sample aspect ratio information SEI message]
・各AUにはSample aspect ratio information SEI messageが含まれる。
・異なるアスペクト比で符号化されたAUの各再生映像が同じ大きさで表示されるように、一方のアスペクト比の画像サイズで符号化されたAUのSEI messageのsari_aspect_ratio_idc、sari_sar_width、sari_sar_heightで表現される画素アスペクトが、他方のアスペクト比の画像サイズで符号化されたAUのSEI messageのsari_aspect_ratio_idc、sari_sar_width、sari_sar_heightとは異なる値である。

　なお、上記の例の場合、vui_aspect_ratio_idcが１であるとき、アスペクト比16:9の8K映像で符号化されたAUのSEI messageのsari_aspect_ratio_idcは１であり、アスペクト比4:3の8K映像で符号化されたAUのSEI messageのsari_aspect_ratio_idcは１４である。

実施形態２．
　図１２は、映像システムの構成の一例を示すブロック図である。図１２に示す映像システムは、上記の映像符号化装置１００と上記の映像復号装置２００とが、無線伝送路または有線伝送路３００で接続されるシステムである。

　映像システム３００において、映像符号化装置１００は、上述したようにビットストリームを生成できる。また、映像システム３００において、映像復号装置２００は、上述したようにビットストリームを復号できる。

　また、上記の各実施形態を、ハードウェアで構成することも可能であるが、コンピュータプログラムにより実現することも可能である。

　図１３に示す情報処理システムは、ＣＰＵを含むプロセッサ１００１、プログラムメモリ１００２、映像データを格納するための記憶媒体１００３およびビットストリームを格納するための記憶媒体１００４を備える。記憶媒体１００３と記憶媒体１００４とは、別個の記憶媒体であってもよいし、同一の記憶媒体からなる記憶領域であってもよい。記憶媒体として、ハードディスク等の磁気記憶媒体を用いることができる。

　図１３に示された情報処理システムにおいて、プログラムメモリ１００２には、図４，図１１のそれぞれに示された各ブロック（バッファのブロックを除く）の機能を実現するためのプログラム（映像符号化プログラムまたは映像復号プログラム）が格納される。そして、プロセッサ１００１は、プログラムメモリ１００２に格納されているプログラムに従って処理を実行することによって、図４，図１１のそれぞれに示された映像符号化装置または映像復号装置の機能を実現する。

　なお、図４，図１１のそれぞれに示された映像符号化装置または映像復号装置における機能の一部が半導体集積回路で実現され、他の部分がプロセッサ１０００等で実現されてもよい。

　プログラムメモリ１００２は、例えば、非一時的なコンピュータ可読媒体（non-transitory computer readable medium）である。非一時的なコンピュータ可読媒体は、様々なタイプの実体のある記録媒体（tangible storage medium）を含む。非一時的なコンピュータ可読媒体の具体例として、半導体メモリ、磁気記録媒体（例えば、ハードディスク）、光磁気記録媒体（例えば、光磁気ディスク）がある。

　また、プログラムは、様々なタイプの一時的なコンピュータ可読媒体（transitory computer readable medium）に格納されてもよい。一時的なコンピュータ可読媒体（例えば、フラッシュＲＯＭ）には、例えば、有線通信路または無線通信路を介して、すなわち、電気信号、光信号または電磁波を介して、プログラムが供給されてもよい。

　図１４は、映像符号化装置の主要部を示すブロック図である。図１４に示す映像符号化装置１０は、すべてのフレームの輝度サンプルの最大画像幅（具体的には、最大画像幅を表すデータ。例えば、pic_width_max_in_luma_samplesシンタクス）と最大画像高（具体的には、最大画像幅を表すデータ。例えば、pic_height_max_in_luma_samplesシンタクス）とをビットストリームに多重化する多重化部（多重化手段）１１（実施形態では、多重化器１０６で実現される。）と、フレーム毎に最大画像幅以下および最大画像高以下である輝度サンプルの画像幅（具体的には、画像の幅を表すデータ。例えば、pic_width_in_luma_samplesシンタクス）および画像高（具体的には、画像の高さを表すデータ。例えば、pic_height_in_luma_samplesシンタクス）を決定する決定部（決定手段）１２（実施形態では、符号化制御部１０８で実現される。）とを備え、多重化部１１は、決定された輝度サンプルの画像幅と画像高とをビットストリームに多重化し、処理対象フレームの輝度サンプルの画像幅および画像高を過去に処理されたフレームの輝度サンプルの画像幅および画像高にスケールさせるための参照ピクチャスケールレシオを導出する導出部（導出手段）１３（実施形態では、符号化制御部１０８で実現される。）を備えている。

　図１５は、映像復号装置の主要部を示すブロック図である。図１５に示す映像復号装置２０は、すべてのフレームの輝度サンプルの最大画像幅と最大画像高とをビットストリームから多重化解除し、フレーム毎に輝度サンプルの画像幅と画像高とをビットストリームから多重化解除する多重化解除部（多重化解除手段）２１（実施形態では、多重化解除器２０１で実現される。）と、処理対象フレームの輝度サンプルの画像幅および画像高を過去に処理したフレームの輝度サンプルの画像幅および画像高にスケールさせるための参照ピクチャスケールレシオを導出する導出部（導出手段）２２（実施形態では、復号制御器２０８で実現される。）と、参照ピクチャスケールレシオに関連する情報（例えば、参照ピクチャスケールレシオRefPicScaleそのもの、または、参照ピクチャスケールレシオRefPicScaleを導出するためのシンタクス値）に基づいて、表示用に出力するフレームの画像サイズを最大画像幅および最大画像高になるようにスケールするスケーリング部（スケーリング手段）２３（実施形態では、画素数変換器２０６で実現される。）とを備えている。

　上記の実施形態の一部または全部は、以下の付記のようにも記載され得るが、以下に限定されるわけではない。

（付記１）映像符号化プログラムが記録されたコンピュータ読み取り可能な記録媒体であって、
　前記映像符号化プログラムは、コンピュータに、
　すべてのフレームの輝度サンプルの最大画像幅と最大画像高とをビットストリームに多重化する処理と、
　フレーム毎に前記最大画像幅以下および前記最大画像高以下である輝度サンプルの画像幅および画像高を決定する処理と、
　決定された前記輝度サンプルの画像幅と画像高とをビットストリームに多重化する処理と、
　処理対象フレームの輝度サンプルの画像幅および画像高を過去に処理されたフレームの輝度サンプルの画像幅および画像高にスケールさせるための参照ピクチャスケールレシオを導出する処理と
　を実行させる。

（付記２）映像復号プログラムが記録されたコンピュータ読み取り可能な記録媒体であって、
　前記映像復号プログラムは、コンピュータに、
　すべてのフレームの輝度サンプルの最大画像幅と最大画像高とをビットストリームから多重化解除する処理と、
フレーム毎に輝度サンプルの画像幅と画像高とをビットストリームから多重化解除する処理と、
　処理対象フレームの輝度サンプルの画像幅および画像高を過去に処理したフレームの輝度サンプルの画像幅および画像高にスケールさせるための参照ピクチャスケールレシオを導出する処理と、
　表示用に出力するフレームの画像サイズを前記最大画像幅および前記最大画像高になるようにスケールする処理と
　を実行させる。

　以上、実施形態を参照して本願発明を説明したが、本願発明は上記の実施形態に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。

　１０，１００　映像符号化装置
　１１　　　多重化部
　１２　　　決定部
　１３　　　導出部
　２０，２００　映像復号装置
　２１　　　多重化解除部
　２２　　　導出部
　２３　　　スケーリング部
　１０１　　変換／量子化器
　１０２　　エントロピー符号化器
　１０３　　逆変換／逆量子化器
　１０４　　バッファ
　１０５　　予測器
　１０６　　多重化器
　１０７　　画素数変換器
　１０８　　符号化制御器
　２０１　　多重化解除器
　２０２　　エントロピー復号器
　２０３　　逆変換／逆量子化器
　２０４　　予測器
　２０５　　バッファ
　２０６　　画素数変換器
　２０８　　復号制御部
　３００　　映像システム
　１００１　プロセッサ
　１００２　プログラムメモリ
　１００３，１００４　記憶媒体

Claims

　すべてのフレームの輝度サンプルの最大画像幅と最大画像高とをビットストリームに多重化する多重化手段と、
　フレーム毎に前記最大画像幅以下および前記最大画像高以下である輝度サンプルの画像幅および画像高を決定する決定手段とを備え、
　前記多重化手段は、決定された前記輝度サンプルの画像幅と画像高とをビットストリームに多重化し、
　処理対象フレームの輝度サンプルの画像幅および画像高を過去に処理されたフレームの輝度サンプルの画像幅および画像高にスケールさせるための参照ピクチャスケールレシオを導出する導出手段を備える
　ことを特徴とする映像符号化装置。
　予測信号を生成する手段を備え、
　該手段は、前記参照ピクチャスケールレシオも用いて予測符号化を行う
　請求項１記載の映像符号化装置。
　前記決定手段は、SOP構造のTemporal IDに応じて、フレームの画像サイズを8Kと4Kとの間での切り替える
　請求項１または請求項２記載の映像符号化装置。
　前記決定手段は、シーンの映像符号化の困難度に応じて、フレームの画像サイズを8Kと4Kとの間での切り替える
　請求項１または請求項２記載の映像符号化装置。
　すべてのフレームの輝度サンプルの最大画像幅と最大画像高とをビットストリームから多重化解除し、フレーム毎に輝度サンプルの画像幅と画像高とをビットストリームから多重化解除する多重化解除手段と、
　処理対象フレームの輝度サンプルの画像幅および画像高を過去に処理したフレームの輝度サンプルの画像幅および画像高にスケールさせるための参照ピクチャスケールレシオを導出する導出手段と、
　表示用に出力するフレームの画像サイズを前記最大画像幅および前記最大画像高になるようにスケールするスケーリング手段と
　を備えることを特徴とする映像復号装置。
　すべてのフレームの輝度サンプルの最大画像幅と最大画像高とをビットストリームに多重化し、
　フレーム毎に前記最大画像幅以下および前記最大画像高以下である輝度サンプルの画像幅および画像高を決定し、
　決定された前記輝度サンプルの画像幅と画像高とをビットストリームに多重化し、
　処理対象フレームの輝度サンプルの画像幅および画像高を過去に処理されたフレームの輝度サンプルの画像幅および画像高にスケールさせるための参照ピクチャスケールレシオを導出する
　映像符号化方法。
　すべてのフレームの輝度サンプルの最大画像幅と最大画像高とをビットストリームから多重化解除し、
フレーム毎に輝度サンプルの画像幅と画像高とをビットストリームから多重化解除し、
　処理対象フレームの輝度サンプルの画像幅および画像高を過去に処理したフレームの輝度サンプルの画像幅および画像高にスケールさせるための参照ピクチャスケールレシオを導出し、
　表示用に出力するフレームの画像サイズを前記最大画像幅および前記最大画像高になるようにスケールする
　ことを特徴とする映像復号方法。
　コンピュータに、
　すべてのフレームの輝度サンプルの最大画像幅と最大画像高とをビットストリームに多重化する処理と、
　フレーム毎に前記最大画像幅以下および前記最大画像高以下である輝度サンプルの画像幅および画像高を決定する処理と、
　決定された前記輝度サンプルの画像幅と画像高とをビットストリームに多重化する処理と、
　処理対象フレームの輝度サンプルの画像幅および画像高を過去に処理されたフレームの輝度サンプルの画像幅および画像高にスケールさせるための参照ピクチャスケールレシオを導出する処理と
　を実行させるための映像符号化プログラム。
　コンピュータに、
　すべてのフレームの輝度サンプルの最大画像幅と最大画像高とをビットストリームから多重化解除する処理と、
フレーム毎に輝度サンプルの画像幅と画像高とをビットストリームから多重化解除する処理と、
　処理対象フレームの輝度サンプルの画像幅および画像高を過去に処理したフレームの輝度サンプルの画像幅および画像高にスケールさせるための参照ピクチャスケールレシオを導出する処理と、
　表示用に出力するフレームの画像サイズを前記最大画像幅および前記最大画像高になるようにスケールする処理と
　を実行させるための映像復号プログラム。
　請求項１から請求項４のうちのいずれかに記載の映像符号化装置と、請求項５記載の映像復号装置とを含む映像システム。