WO2022044268A1

WO2022044268A1 - 映像符号化装置、映像復号装置、映像符号化方法および映像復号方法

Info

Publication number: WO2022044268A1
Application number: PCT/JP2020/032629
Authority: WO
Inventors: 慶一蝶野; 純二田治米
Original assignee: 日本電気株式会社
Priority date: 2020-08-28
Filing date: 2020-08-28
Publication date: 2022-03-03
Also published as: JPWO2022044268A1; JP7491385B2

Abstract

ＶＶＣのサブピクチャを利用して複数のサブピクチャを含むビットストリームを生成しようとすると、ピクチャ内でのサブピクチャの左上の位置をＣＴＵの倍数にするための画像処理に起因して画質劣化や処理が増加するという課題がある。本発明は、複数のサブピクチャを含むビットストリームを処理する場合に、画質の劣化や処理量の増加を抑制することを目的とする。　本発明の映像符号化装置１０は、四分木またはマルチタイプ木で分割されたＣＵに予測および変換を適用し、ピクチャ内でのサブピクチャの左上の位置をＣＴＵの倍数とするための画像処理が最小化されるように映像符号化処理を制御する制御部１１を含む。

Description

映像符号化装置、映像復号装置、映像符号化方法および映像復号方法

　本発明は、複数のサブピクチャを含むビットストリームを処理する映像符号化装置、映像復号装置、映像符号化方法および映像復号方法に関する。

　非特許文献１は、ＶＶＣ（Versatile Video Coding）と呼ばれる映像符号化方式を開示する。

　非特許文献１に記載された映像符号化方式では、ディジタル化された映像の各フレームは符号化ツリーユニット（ＣＴＵ：Coding Tree Unit）に分割され、ラスタスキャン順に各ＣＴＵが符号化される。

　各ＣＴＵは、四分木（ＱＴ：Quad-Tree）構造またはマルチタイプ木（ＭＭＴ：Multi-Type Tree）構造で、符号化ユニット（ＣＵ：Coding Unit）に分割されて符号化される。四分木構造を用いる分割では、ブロックが、水平および垂直に等分割される。マルチタイプ木構造を用いる分割では、ブロックが、水平もしくは垂直に２分割または３分割される。

　各ＣＵは、予測符号化される。予測符号化には、イントラ予測と動き補償予測がある。各ＣＵの予測誤差は、周波数変換に基づいて変換符号化される。

　イントラ予測は、符号化対象フレームと表示時刻が同一の再構築画像から予測画像を生成する予測である。非特許文献１では、図２３に示す６５種類の角度イントラ予測が定義されている。角度イントラ予測では、符号化対象ブロック周辺の再構築画素を６５種類の方向のいずれかに外挿して、イントラ予測信号が生成される。非特許文献１では、角度イントラ予測に加えて、符号化対象ブロック周辺の再構築画素を平均するDCイントラ予測、および、符号化対象ブロック周辺の再構築画素を線形補間するPlanarイントラ予測が定義されている。以下、イントラ予測に基づいて符号化されたＣＵをイントラＣＵと呼ぶ。

　動き補償予測は、符号化対象フレームとは表示時刻が異なる再構築画像（参照ピクチャ）から予測画像を生成する予測である。以下、動き補償予測をインター予測ともいう。

　図２４は、動き補償予測の例を示す説明図である。動きベクトルMV＝（mv_x, mv_y）は、符号化対象ブロックに対する参照ピクチャの再構築画像ブロックの並進移動量を示す。インター予測では、参照ピクチャの再構築画像ブロックに基づいて（必要であれば画素補間を用いて）、インター予測信号が生成される。以下、動き補償予測に基づいて符号化されたＣＵをインターＣＵと呼ぶ。

　イントラＣＵのみで符号化されたフレームは、Ｉフレーム（または、Ｉピクチャ）と呼ばれる。イントラＣＵだけでなくインターＣＵも含めて符号化されたフレームは、Ｐフレーム（または、Ｐピクチャ）と呼ばれる。ブロックのインター予測に、１枚の参照ピクチャだけでなく、同時に２枚の参照ピクチャを用いるインターＣＵを含めて符号化されたフレームは、Ｂフレーム（またはＢピクチャ）と呼ばれる。

　なお、１枚の参照ピクチャを用いるインター予測は片方向予測と呼ばれ、同時に２枚の参照ピクチャを用いるインター予測は双方向予測と呼ばれる。

　図２５は、フレームの画素数がＣＩＦ（ＣＩＦ：Common Intermediate Format）で、ＣＴＵサイズが６４の場合のフレームｔのＣＴＵ分割例、および、フレームｔに含まれる第８のＣＴＵ（ＣＴＵ８）の分割例を示す説明図である。

　図２５には、全てのＣＵが正方形の場合が示されている。しかし、図２６に示されるように、マルチタイプ木構造でＣＵが矩形に分割されてもよい。非特許文献１では、split_qt_flagシンタクス値が０の場合、マルチタイプ木構造が使用される。また、mtt_split_cu_vertical_flagシンタクス値とmtt_split_cu_binary_flagシンタクス値によって、分割の方向（水平、垂直）が規定される。

　図２６（ａ）には、マルチタイプ木構造で使用される４つの分割形状（分割モード）が示されている。SPLIT_BT_HORおよびSPLIT_BT_VERは、二分木分割である。SPLIT_TT_HORおよびSPLIT_TT_VERは、三分木分割である。図２６（ｂ）には、分割形状とシンタクス値との関係が示されている。

　ＶＶＣ規格では、ピクチャの空間分割として、タイル（Tile）、スライス（Slice）、およびサブピクチャ（SubpiCTUre）が定義されている。

　ピクチャは、１または複数のタイルに分割される。タイルは、ＣＴＵを構成単位とする矩形領域である。タイル境界を跨ぐ参照は制約される。

　スライスは、タイルを構成単位とする矩形領域である。スライスの走査順として、Raster-Scan SliceモードとRectangular Sliceモードとがある。Raster-Scan Sliceモードは、ラスタスキャン順でスライスを配置するモードである。Rectangular Sliceモードは、スライスがカバーする領域がタイルまたはタイル内のＣＴＵラインを単位とする矩形領域になるモードである。Rectangular Sliceモードでは、スライスの上側および左側に接するスライスが先に処理されるという制約の下で、ラスタスキャン順でスライスを配置しなくてもよい。

　サブピクチャは、１または複数のスライスで構成される。動き補償予測において、サブピクチャの境界は、ピクチャ境界と見なされうる。

Benjamin Bross, et al., "Versatile Video Coding (Draft 10)", JVET-S2001-v7, Joint Video Experts Team (JVET) of ITU-T SG16 WP3 and ISO/IEC JTC1/SC29/WG11 19th Meeting: by teleconference, 22 June - 1 July 2020

　ＶＶＣのサブピクチャを利用して複数のサブピクチャを含むビットストリームを生成しようとすると、ピクチャ内でのサブピクチャの左上の位置をＣＴＵの倍数にするための画像処理に起因して画質劣化や処理が増加するという課題がある。

　例えば、ＣＴＵサイズが１２８で４つの２Ｋ映像（１９２０×１０８０画素）をサブピクチャとして田の字に配置するビットストリームを生成する場合を考える。１９２０は１２８で割り切れるが１０８０は１２８で割り切れない。すなわち、サブピクチャの垂直境界位置はＣＴＵの倍数になるが、サブピクチャの水平境界位置がＣＴＵの倍数にならない。よって、サブピクチャの水平境界位置をＣＴＵの倍数にするために、少なくとも水平境界に沿って３８４０×７２画素のダミー画像を挿入することが求められる。

　図２７は、ダミー画像の挿入例を示す説明図である。図２７には、ＣＴＵサイズ１２８で４つの２Ｋ映像がサブピクチャとして田の字に配置される場合に、水平境界位置の近傍に３８４０×７２画素のダミー画像が挿入された例が示されている。

　ダミー画像を表現するためのビットだけビットストリームのデータ量が増加する。よって、ダミー画像が挿入される場合には、限られた帯域では画質が劣化する。さらに、ダミー画像の面積分だけ処理量が増える。

　本発明は、複数のサブピクチャを含むビットストリームを処理する場合に、画質の劣化や処理量の増加を抑制できる映像符号化装置、映像復号装置、映像符号化方法および映像復号方法を提供することを目的とする。

　本発明による映像符号化装置は、四分木またはマルチタイプ木で分割されたＣＵに予測および変換を適用し、ピクチャ内でのサブピクチャの左上の位置をＣＴＵの倍数とするための画像処理が最小化されるように映像符号化処理を制御する制御手段を含む。

　本発明による映像復号装置は、四分木またはマルチタイプ木で分割されたＣＵに予測および変換を適用し、ピクチャ内でのサブピクチャの左上の位置をＣＴＵの倍数とするための画像処理が最小化されるように多重化されたＶＶＣ規格のサブピクチャシンタクスもしくは仮想境界シンタクス、またはサブピクチャシンタクスと仮想境界シンタクスとを抽出する抽出手段と、抽出手段が抽出したシンタクスに基づいてデコード画像に含まれる各サブピクチャの出力を制御する制御手段とを含む。

　本発明による映像符号化方法は、四分木またはマルチタイプ木で分割されたＣＵに予測および変換を適用し、ピクチャ内でのサブピクチャの左上の位置をＣＴＵの倍数とするための画像処理が最小化されるように映像符号化処理を制御する。

　本発明による映像復号方法は、四分木またはマルチタイプ木で分割されたＣＵに予測および変換を適用し、ピクチャ内でのサブピクチャの左上の位置をＣＴＵの倍数とするための画像処理が最小化されるように多重化されたＶＶＣ規格のサブピクチャシンタクスもしくは仮想境界シンタクス、またはサブピクチャシンタクスと仮想境界シンタクスとを抽出し、抽出されたシンタクスに基づいてデコード画像に含まれる各サブピクチャの出力を制御する。

　本発明による映像符号化プログラムは、コンピュータに、四分木またはマルチタイプ木で分割されたＣＵに予測および変換を適用する処理と、ピクチャ内でのサブピクチャの左上の位置をＣＴＵの倍数とするための画像処理が最小化されるように映像符号化処理を制御する処理とを実行させる。

　本発明による映像復号プログラムは、コンピュータに、四分木またはマルチタイプ木で分割されたＣＵに予測および変換を適用する処理と、ピクチャ内でのサブピクチャの左上の位置をＣＴＵの倍数とするための画像処理が最小化されるように多重化されたＶＶＣ規格のサブピクチャシンタクスもしくは仮想境界シンタクス、またはサブピクチャシンタクスと仮想境界シンタクスとを抽出する処理と、抽出されたシンタクスに基づいてデコード画像に含まれる各サブピクチャの出力を制御する処理とを実行させる。

　本発明によれば、画質の劣化や処理量の増加が抑制される。

第１の実施形態の映像符号化装置を示すブロック図である。符号化制御器およびダミー画像挿入器の動作を示すフローチャートである。ダミー画像の挿入例を示す説明図である。第１の実施形態の映像復号装置を示すブロック図である。映像復号装置の動作を示すフローチャートである。第２の実施形態の映像符号化装置を示すブロック図である。ダミー画像を使用しないサブピクチャの配置例を示す説明図である。第１の各実施形態の第１の変形例を示す説明図である。第１の各実施形態の第１の変形例を示す説明図である。第１の各実施形態の第１の変形例を示す説明図である。第１の各実施形態の第２の変形例を示す説明図である。第１の各実施形態の第２の変形例を示す説明図である。第１の各実施形態の第２の変形例を示す説明図である。第１の各実施形態の第２の変形例を示す説明図である。第２の各実施形態の変形例を示す説明図である。第２の各実施形態の変形例を示す説明図である。第１の実施形態と第２の実施形態とを組み合わされた場合のサブピクチャの配置の一例を示す説明図である。第１の実施形態と第２の実施形態とを組み合わされた場合のサブピクチャの配置の他の例を示す説明図である。映像システムの一例を示すブロック図である。映像符号化装置および映像復号装置の機能を実現可能な情報処理システムの構成例を示すブロック図である。映像符号化装置の主要部を示すブロック図である。映像復号装置の主要部を示すブロック図である。６５種類の角度イントラ予測の例を示す説明図である。フレーム間予測の例を示す説明図である。フレームｔのＣＴＵ分割例、および、フレームｔのCTU8のＣＵ分割例を示す説明図である。マルチタイプ木構造を用いるＣＵ分割例を示す説明図である。ダミー画像の挿入例を示す説明図である。

　以下、本発明の実施形態を図面を参照して説明する。

　図１は、映像符号化装置の実施形態（第１の実施形態）を示すブロック図である。本実施形態の映像符号化装置１００は、ピクチャ内でのサブピクチャの左上の位置をＣＴＵの倍数とするための画像処理量が最小化されるように、サブピクチャの画像サイズを監視してＣＴＵサイズを制御する手段を備える。

　本実施形態では、説明の簡略化のため、４つの２Ｋ映像（１９２０×１０８０画素）をサブピクチャとして田の字に配置するビットストリームを生成する場合の動作を例にする。また、利用できるＣＴＵサイズは、３２、６４、または１２８とする。利用できるＣＴＵサイズの候補を、candCtuSize（３２、６４、または１２８）と表現する。

　図１に示す映像符号化装置１００は、変換／量子化器１０１、エントロピー符号化器１０２、逆量子化／逆変換器１０３、バッファ１０４、予測器１０５、多重化器１０６、ダミー画像挿入器１０７、および符号化制御器１０８を備える。

　符号化制御器１０８は、入力映像の各サブピクチャの画像サイズとしての幅subPicWidthと高さsubPicHeightを監視する。

　ダミー画像挿入器１０７は、各サブピクチャの境界の近傍にダミー画像を挿入する。

　予測器１０５は、ＣＴＵ毎に、ＣＵ形状を決定するsplit_cu_flagシンタクス値、split_qt_flagシンタクス値、mtt_split_cu_vertical_flagシンタクス値、およびmtt_split_cu_binary_flagシンタクス値を決定する。ＣＵ形状は、例えば、符号化コストを最小にする形状である。

　また、予測器１０５は、ＣＵ毎に、イントラ予測／インター予測を決定するpred_mode_flagシンタクス値、イントラ予測方向、および動きベクトルを決定する。それらの値は、例えば、符号化コストを最小にするような値である。

　さらに、予測器１０５は、決定されたsplit_cu_flagシンタクス値、split_qt_flagシンタクス値、mtt_split_cu_vertical_flagシンタクス値、mtt_split_cu_binary_flagシンタクス値、pred_mode_flagシンタクス値、イントラ予測方向、および動きベクトルなどに基づいて、各ＣＵの入力画像信号に対する予測信号を生成する。予測信号は、上述したイントラ予測またはインター予測に基づいて生成される。

　変換／量子化器１０１は、減算器で入力画像信号から予測信号が減じられた予測誤差画像を、周波数変換する。さらに、変換／量子化器１０１は、周波数変換された予測誤差画像（周波数変換係数）を量子化する。以下、量子化された周波数変換係数を変換量子化値と呼ぶ。

　エントロピー符号化器１０２は、予測器１０５が決定したsplit_cu_flagシンタクス値、split_qt_flagシンタクス値、mtt_split_cu_vertical_flagシンタクス値、mtt_split_cu_binary_flagシンタクス値、pred_mode_flagシンタクス値、イントラ予測方向、動きベクトルの差分情報、および変換量子化値をエントロピー符号化する。

　逆量子化／逆変換器１０３は、変換量子化値を逆量子化する。さらに、逆量子化／逆変換器１０３は、逆量子化した周波数変換係数を逆周波数変換する。逆周波数変換された再構築予測誤差画像は、加算器によって予測信号が加えられた後、バッファ１０４に供給される。バッファ１０４は、再構築画像を格納する。

　多重化器１０６は、符号化制御器１０８から供給されるctuSize（ＣＴＵサイズ）とサブピクチャの位置情報、およびエントロピー符号化器１０２から供給されるエントロピー符号化データを多重化し、ビットストリームとして出力する。

　上述した動作によって、本実施形態の映像符号化装置１００は、ビットストリームを生成して出力する。

　次に、図２のフローチャートを参照して、符号化制御器１０８およびダミー画像挿入器１０７の動作を説明する。

　符号化制御器１０８は、subPicWidthとsubPicHeightとに基づいて、ＣＴＵサイズ、垂直ダミー画像幅、および水平ダミー画像幅を確定する（ステップＳ１００１）。

　具体的には、符号化制御器１０８は、ステップＳ１００１の処理で、各candCtuSize（ＣＴＵサイズの候補）について、candCtuSizeをsubPicWidthで割り、剰余remainderを求める。符号化制御器１０８は、remainderが０のときに、垂直ダミー画像幅dWを０にする。符号化制御器１０８は、remainderが０でないときに、dWを（candCtuSize－remainder）とする。同様に、符号化制御器１０８は、各candCtuSizeについて、candCtuSizeをsubPicHeightを割り、剰余remainderを求める。符号化制御器１０８は、remainderが０のときに、水平ダミー画像幅dHを０にする。符号化制御器１０８は、remainderが０ないときに、dHを（candCtuSize－remainder）とする。

　なお、符号化制御器１０８は、対応するダミー画像の面積が小さく、なるべく大きなcandCtuSizeを、ＣＴＵサイズctuSizeとして確定する。ただし、ダミー画像の面積は、dH× dWと（subPicWidth+dW）×dHとの和である。

　結果として、本実施形態では、ctuSizeは６４になり、対応するdWは０になり、対応するdHは８になる。符号化制御器１０８は、ctuSizeを予測器１０５に供給する。また、符号化制御器１０８は、dWとdHとをダミー画像挿入器１０７に供給する。

　本実施形態において、サブピクチャの位置情報として、非特許文献１に示されるサブピクチャシンタクスを使用可能である。すなわち、サブピクチャの位置情報は、サブピクチャの有無（０：無、１：有）を示すsps_subpic_info_present_flag、サブピクチャの個数から１を減じた値を示すsps_num_subpics_minus1、最初のサブピクチャ以外の各サブピクチャの左上の水平位置および垂直位置を示すsps_subpic_ctu_top_left_x[i]およびsps_subpic_ctu_top_left_y[i] （ただし、i>０）、および、最後のサブピクチャ以外の各サブピクチャの幅および高さを示すsps_subpic_width_minus1[i]およびsps_subpic_height_minus1[i]である（ただし、i < sps_num_subpics_minus1）。

　本実施形態では、sps_subpic_info_present_flag=1、sps_num_subpics_minus1=3、sps_subpic_ctu_top_left_x[1]=1920/ctuSize、sps_subpic_ctu_top_left_y[1]=0、sps_subpic_ctu_top_left_x[2]=0、sps_subpic_ctu_top_left_y[2]=(1080+dH)/ctuSize、sps_subpic_ctu_top_left_x[3]=1920/ctuSize、sps_subpic_ctu_top_left_y[3]=(1080+dH)/ctuSize、sps_subpic_width_minus1[i]=1920/ctuSize-1、sps_subpic_height_minus1[i] =(1080+dH)/ctuSize-1になる。

　ダミー画像挿入器１０７は、各サブピクチャの境界の近傍にダミー画像を挿入する（ステップＳ１００２）。

　図３は、ダミー画像の挿入例を示す説明図である。図３に示す例は、ＶＶＣのサブピクチャを利用して４つの２Ｋ映像がサブピクチャとして配置された例である（ＣＴＵサイズ６４でdH=8）。

　また、符号化制御器１０８は、予測器１０５にＣＴＵサイズを設定し、予測器１０５に各ＣＴＵのＣＵ形状を決定するシンタクス値を決定させる（ステップＳ１００３）。また、符号化制御器１０８は、多重化器１０６に、サブピクチャの位置情報を多重化させる（ステップＳ１００４）。

　本実施形態では、符号化制御器１０８は、ピクチャ内でのサブピクチャの左上の位置をＣＴＵの倍数とするための画像処理の処理量が低減するように映像符号化処理を制御する。例えば、符号化制御器１０８は、対応するダミー画像の面積を小さくし、かつ、可能な限り大きなcandCtuSizeをＣＴＵサイズctuSizeとする。よって、本実施形態では、ダミー画像の面積の削減分に応じた、ビット数削減による画質劣化の抑制および処理量の削減の効果が得られる。一例としての図３と図２７との比較からわかるように、本実施形態の映像符号化装置１００では、ピクチャ内でのサブピクチャの左上の位置をＣＴＵの倍数とするための各ダミー画像の面積が３８４０×７２から３８４０×８（dH=8）に削減される。

　図４は、映像復号装置の実施形態を示すブロック図である。本実施形態の映像復号装置２００は、多重化解除器２０１、エントロピー復号器２０２、逆量子化／逆変換器２０３、予測器２０４、バッファ２０５、および復号制御器２０６を備える。

　図５のフローチャートを参照して、映像復号装置２００の動作を説明する。

　多重化解除器２０１は、入力されるビットストリームを多重化解除して、ＣＴＵサイズctuSize、サブピクチャの位置情報、およびエントロピー符号化データを抽出する（ステップＳ２００１）。

　エントロピー復号器２０２は、エントロピー符号化データをエントロピー復号する（ステップＳ２００２）。エントロピー復号器２０２は、エントロピー復号した変換量子化値を、逆量子化／逆変換器２０３に供給する。また、エントロピー復号器２０２は、split_cu_flag、split_qt_flag、mtt_split_cu_vertical_flag、mtt_split_cu_binary_flag、pred_mode_flag、イントラ予測方向、および動きベクトルの差分情報を、予測器２０４に供給する。

　逆量子化／逆変換器２０３は、量子化ステップ幅で、変換量子化値を逆量子化する。さらに、逆量子化／逆変換器２０３は、逆量子化した周波数変換係数を逆周波数変換する（ステップＳ２００３）。

　予測器２０４は、split_cu_flag、split_qt_flag、mtt_split_cu_vertical_flag、mtt_split_cu_binary_flag、pred_mode_flag、イントラ予測方向、および動きベクトルの差分情報に基づいて、各サブブロックの予測信号を生成する（ステップＳ２００４）。予測信号は、上述したイントラ予測または動き補償予測に基づいて生成される。

　逆量子化／逆変換器２０３で逆周波数変換された再構築予測誤差画像は、加算器によって、予測器２０４から供給される予測信号が加えられた後、再構築ピクチャとしてバッファ２０５に供給される。バッファ２０５は、再構築ピクチャを格納する（ステップＳ２００５）。

　復号制御器２０６は、サブピクチャの位置情報に基づいて、sps_subpic_info_present_flagが１のときに、デコード画像に含まれる各サブピクチャの画像を、バッファ２０５から出力させる（ステップＳ２００６）。すなわち、復号制御器２０６は、サブピクチャの位置情報（本実施形態では、ＶＶＣ規格のサブピクチャシンタクス）に基づいて、デコード画像に含まれる各サブピクチャの画像の出力を制御する。

　上述した動作によって、本実施形態の映像復号装置２００は、デコード画像を生成して出力する。

実施形態２．
　図６は、映像符号化装置の実施形態（第２の実施形態）を示すブロック図である。本実施形態の映像符号化装置１００は、変換／量子化器１０１、エントロピー符号化器１０２、逆量子化／逆変換器１０３、バッファ１０４、予測器１０５、多重化器１０６、および符号化制御器１０８を備える。第１の実施形態とは異なり、本実施形態の映像符号化装置１００には、ダミー画像挿入器１０７が備えられていない。

　本実施形態の映像符号化装置１００は、ピクチャ内でのサブピクチャの左上の位置をＣＴＵの倍数にするための画像処理量を最小化するためのダミー画像の挿入を行わない。すなわち、本実施形態の映像符号化装置１００は、ＶＶＣのサブピクチャを利用しない。

　第１の実施形態と同様に、本実施形態でも、説明の簡略化のため、４つの２Ｋ映像（１９２０×１０８０画素）をサブピクチャとして田の字に配置するビットストリームを生成する場合の動作を例にする。

　変換／量子化器１０１は、減算器で入力画像信号から予測信号が減じられた予測誤差画像を、周波数変換する。さらに、変換／量子化器１０１は、周波数変換された予測誤差画像（周波数変換係数）を量子化して変換量子化値を生成する。

　多重化器１０６は、符号化制御器１０８から供給されるサブピクチャの位置情報、および、エントロピー符号化器１０２から供給されるエントロピー符号化データを多重化し、ビットストリームとして出力する。

　次に、本実施形態における符号化制御器１０８による制御を説明する。本実施形態では、符号化制御器１０８は、サブピクチャの位置情報を多重化器１０６に供給する。

　本実施形態において、サブピクチャの位置情報として、非特許文献１に示される仮想境界シンタクスを使用可能である。すなわち、サブピクチャの位置情報は、仮想境界の有無（０：無、１：有）を示すsps_virtual_boundaries_present_flag、垂直方向の仮想境界の数を示すsps_num_ver_virtual_boundaries、垂直方向の仮想境界の水平位置（水平方向の位置）を８で割った値から１を減じた値を示すsps_virtual_boundary_pos_x_minus1[i]（ただし、0 <= i < sps_num_ver_virtual_boundaries）、水平方向の仮想境界の数を示すsps_num_hor_virtual_boundaries、水平方向の仮想境界の垂直位置（垂直方向の位置）を８で割った値から１を減じた値を示すsps_virtual_boundary_pos_y_minus1[i]（ただし、0 <= i < sps_num_hor_virtual_boundaries）である。

　本実施形態では、sps_virtual_boundaries_present_flag=1、sps_num_ver_virtual_boundaries=1、sps_virtual_boundary_pos_x_minus1[0]=(1920/8)-1、sps_num_hor_virtual_boundaries=1、sps_virtual_boundary_pos_y_minus1[0]=(1080/8)-1になる。

　図７は、ダミー画像を使用しないサブピクチャの配置例を示す説明図である。図７に示す例は、ＶＶＣのサブピクチャを利用せずに４つの２Ｋ映像がサブピクチャとして配置される例である。

　本実施形態でも、符号化制御器１０８は、ピクチャ内でのサブピクチャの左上の位置をＣＴＵの倍数とするための画像処理の処理量が低減するように映像符号化処理を制御する。本実施形態では、符号化制御器１０８は、ダミー画像の面積を０にするように制御する。よって、本実施形態でも、ダミー画像の面積の削減分に応じた、ビット数削減による画質劣化の抑制および処理量の削減の効果が得られる。一例としての図７と図２７との比較からわかるように、本実施形態の映像符号化装置１００では、ピクチャ内でのサブピクチャの左上の位置をＣＴＵの倍数とするための各ダミー画像の面積が３８４０×７２から０に削減される。よって、ダミー画像の面積の削減分に応じた、ビット数削減による画質劣化の抑制および処理量の削減の効果が得られる。

　本実施形態の映像復号装置の構成は、図４に示された第１の実施形態の映像復号装置２００の構成と同じである。ただし、本実施形態における復号制御器２０６は、第１の実施形態とは異なる制御を行う。具体的には、本実施形態における復号制御器２０６のサブピクチャの画像の出力制御の基準は、第１の実施形態における基準とは異なる。

　多重化解除器２０１、エントロピー復号器２０２、逆量子化／逆変換器２０３、予測器２０４、およびバッファ２０５の動作は、第１の実施形態における動作と同じである。

　本実施形態では、復号制御器２０６は、サブピクチャの位置情報に基づいて、sps_virtual_boundaries_present_flagが１のときにデコード画像に含まれる各サブピクチャのデコード画像を、バッファ２０５から出力させる。すなわち、復号制御器２０６は、sps_virtual_boundaries_present_flagの値に基づいて、デコード画像に含まれる各サブピクチャの画像の出力を制御する。

　以下、第１の各実施形態の変形例を説明する。

　第１の実施形態では、４つの２Ｋ映像（１９２０×１０８０画素）をサブピクチャとして田の字に配置するビットストリームを生成する場合の動作を例にしたが、他の解像度の映像が対象とされてもよい。

　一例として、１６個の２Ｋ映像をサブピクチャとして配置するビットストリーム、９個の７２０ｐ（pixel）映像（１２８０×７２０画素）をサブピクチャとして配置するビットストリーム、３６個の７２０ｐ映像（１２８０×７２０画素）をサブピクチャとして配置するビットストリームに関して、第１の実施形態の考え方を適用できる。

　図８は、１６個の２Ｋ映像がサブピクチャとして配置された例（ＣＴＵサイズ６４でdH=8）を示す説明図である。図９は、９個の７２０ｐ映像がサブピクチャとして配置された例（ＣＴＵサイズ３２でdH=16）を示す説明図である。図１０は、３６個の７２０ｐ映像がサブピクチャとして配置された例（ＣＴＵサイズ３２でdH=16）を示す説明図である。

　また、非特許文献１のC.７ Subpicture sub-bitstream extraction processにおける式（C.24）および（C.25）に記載されているピクチャサイズのクリッピングを考慮して、ピクチャの右と下の端においてダミー画像を挿入しないようにすることができる。

　図１１は、ピクチャの下端においてダミー画像を挿入せずに４つの２Ｋ映像をサブピクチャとして配置する例（ＣＴＵサイズ６４でdH=8）を示す説明図である。図１２は、ピクチャの下端においてダミー画像を挿入せずに１６個の２Ｋ映像をサブピクチャとして配置する例（ＣＴＵサイズ６４でdH=8）を示す説明図である。図１３は、ピクチャの下端においてダミー画像を挿入せずに９個の７２０ｐ映像をサブピクチャとして配置する例（ＣＴＵサイズ３２でdH=16）を示す説明図である。図１４は、ピクチャの下端においてダミー画像を挿入せずに３６個の７２０ｐ映像をサブピクチャとして配置する例（ＣＴＵサイズ３２でdH=16）を示す説明図である。

　次に、第２の各実施形態の変形例を説明する。

　第２の実施形態では、４つの２Ｋ映像（１９２０×１０８０画素）をサブピクチャとして田の字に配置するビットストリームを生成する場合の動作を例にしたが、他の解像度の映像が対象とされてもよい。

　一例として、１６個の２Ｋ映像をサブピクチャとして配置するビットストリーム、９個の７２０ｐ映像（１２８０×７２０画素）をサブピクチャとして配置するビットストリームに関して、第２の実施形態の考え方を適用できる。

　図１５は、１６個の２Ｋ映像がサブピクチャとして配置された例を示す説明図である。図１６は、９個の７２０ｐ映像がサブピクチャとして配置された例を示す説明図である。

　なお、第１の実施形態と第２の実施形態とを組み合わせて利用してもよい。組み合わせる場合、ダミー画像を含むサブピクチャの位置情報は、sps_subpic_info_present_flag、sps_num_subpics_minus1、sps_subpic_ctu_top_left_x[i]とsps_subpic_ctu_top_left_y[i]、および、sps_subpic_width_minus1[i]とsps_subpic_height_minus1[i]とで設定され、サブピクチャとダミー画像の境界位置情報は、sps_virtual_boundaries_present_flag、sps_num_ver_virtual_boundarie、sps_virtual_boundary_pos_x_minus1[i]、sps_num_hor_virtual_boundaries、および、sps_virtual_boundary_pos_y_minus1[i]で設定される。符号化制御器１０８は、それらの情報を多重化器１０６に供給する。

　図１７は、第１の実施形態と第２の実施形態とを組み合わされた場合の４つの２Ｋ映像がサブピクチャとして配置された例（ＣＴＵサイズ６４でdH=8）を示す説明図である。

　図１７に示す例では、sps_subpic_info_present_flag=1、sps_num_subpics_minus1=3、sps_subpic_ctu_top_left_x[1]=1920/ctuSize、sps_subpic_ctu_top_left_y[1]=0、sps_subpic_ctu_top_left_x[2]=0、sps_subpic_ctu_top_left_y[2]=(1080+dH)/ctuSize、sps_subpic_ctu_top_left_x[3]=1920/ctuSize、sps_subpic_ctu_top_left_y[3]=(1080+dH)/ctuSize、sps_subpic_width_minus1[i]=1920/ctuSize-1、sps_subpic_height_minus1[i]=(1080+dH)/ctuSize-1、sps_virtual_boundaries_present_flag=1、sps_num_ver_virtual_boundaries=1、sps_virtual_boundary_pos_x_minus1[0]=(1920/8)-1、sps_num_hor_virtual_boundaries=2、sps_virtual_boundary_pos_y_minus1[0]=(1080/8)-1、sps_virtual_boundary_pos_y_minus1[1]=((2*1080+dH)/8)-1である。

　また、第１の実施形態と第２の実施形態とを組み合わされた場合にも、非特許文献１のC.７ Subpicture sub-bitstream extraction processにおける式（C.24）および（C.25）に記載されているピクチャサイズのクリッピングを考慮して、ピクチャの右と下の端においてダミー画像を挿入しないようにすることができる。

　図１８は、第１の実施形態と第２の実施形態とを組み合わされた場合に、ピクチャの下端においてダミー画像を挿入せずに４つの２Ｋ映像をサブピクチャとして配置する例（ＣＴＵサイズ６４でdH=8）を示す説明図である。

　第１の実施形態と第２の実施形態とが組み合わされ、ダミー画像を挿入しない場合には、sps_subpic_info_present_flag=1、sps_num_subpics_minus1=3、sps_subpic_ctu_top_left_x[１]=1920/ctuSize、sps_subpic_ctu_top_left_y[1]=0、sps_subpic_ctu_top_left_x[2]=0、sps_subpic_ctu_top_left_y[2]=(1080+dH)/ctuSize、sps_subpic_ctu_top_left_x[3]=1920/ctuSize、sps_subpic_ctu_top_left_y[3]=(1080+dH)/ctuSize、sps_subpic_width_minus1[i]=1920/ctuSize-1、sps_subpic_height_minus1[i] =(1080+dH)/ctuSize-1、sps_virtual_boundaries_present_flag=1、sps_num_ver_virtual_boundaries=1、sps_virtual_boundary_pos_x_minus1[0]=(1920/8)-1、sps_num_hor_virtual_boundaries=1、sps_virtual_boundary_pos_y_minus1[0]=(1080/8)-1である。

　図１９は、映像システムの一例を示すブロック図である。図１９に示す映像システムは、上記の各実施形態の映像符号化装置１００と映像復号装置２００とが、伝送路（無線伝送路または有線伝送路）３００で接続されるシステムである。映像符号化装置１００は、上記の各実施形態のいずれかの映像符号化装置１００である。映像復号装置２００は、上記の各実施形態のいずれかの映像復号装置２００である。

　映像システムにおいて、映像符号化装置１００は、上記の各実施形態で説明された特徴を持つビットストリームを生成できる。また、映像システムにおいて、映像復号装置２００は、上記の各実施形態で説明された特徴を持つビットストリームを復号できる。

　また、上記の各実施形態を、ハードウェアで構成することも可能であるが、コンピュータプログラムにより実現することも可能である。

　図２０に示す情報処理システムは、ＣＰＵ（Central Processing Unit）等のプロセッサ１００１、プログラムメモリ１００２、映像データを格納するための記憶媒体１００３およびビットストリームを格納するための記憶媒体１００４を備える。記憶媒体１００３と記憶媒体１００４とは、別個の記憶媒体であってもよいし、同一の記憶媒体からなる記憶領域であってもよい。記憶媒体として、ハードディスク等の磁気記憶媒体を用いることができる。

　情報処理システムにおいて、プログラムメモリ１００２には、上記の各実施形態で示された各ブロック（バッファのブロックを除く）の機能を実現するためのプログラム（映像符号化プログラムまたは映像復号プログラム）が格納される。そして、プロセッサ１００１は、プログラムメモリ１００２に格納されているプログラムに従って処理を実行することによって、各実施形態で示された映像符号化装置１００または映像復号装置２００の機能を実現する。

　なお、少なくともプログラムメモリ１００２は、非一時的なコンピュータ可読媒体（non-transitory computer readable medium）である。ただし、プログラムは、様々なタイプの一時的なコンピュータ可読媒体（transitory computer readable medium）に格納されてもよい。一時的なコンピュータ可読媒体には、例えば、有線通信路または無線通信路を介して、すなわち、電気信号、光信号または電磁波を介して、プログラムが供給される。

　図２１は、映像符号化装置の主要部を示すブロック図である。図２１に示す映像符号化装置１０は、四分木またはマルチタイプ木で分割されたＣＵに予測および変換を適用し、ピクチャ内でのサブピクチャの左上の位置をＣＴＵの倍数とするための画像処理が最小化されるように映像符号化処理を制御する制御部（制御手段）１１（実施形態では、符号化制御器１０８で実現される。）を備えている。

　図２２は、映像復号装置の主要部を示すブロック図である。図２２に示す映像復号装置２０は、四分木またはマルチタイプ木で分割されたＣＵに予測および変換を適用し、ピクチャ内でのサブピクチャの左上の位置をＣＴＵの倍数とするための画像処理が最小化されるように多重化されたＶＶＣ規格のサブピクチャシンタクスもしくは仮想境界シンタクス、またはサブピクチャシンタクスと仮想境界シンタクスとを抽出する抽出部（抽出手段）２１（実施形態では、多重化解除器２０１で実現される。）と、抽出部２１が抽出したシンタクスに基づいてデコード画像に含まれる各サブピクチャの出力を制御する制御部（制御手段）２２（実施形態では、復号制御器２０６で実現される。）とを備えている。

　上記の実施形態の一部または全部は、以下の付記のようにも記載され得るが、以下に限定されるわけではない。

（付記１）四分木またはマルチタイプ木で分割されたＣＵに予測および変換を適用する映像符号化装置であって、
　ピクチャ内でのサブピクチャの左上の位置をＣＴＵの倍数とするための画像処理が最小化されるように映像符号化処理を制御する制御手段を備える
　映像符号化装置。

（付記２）前記制御手段は、ＶＶＣ規格のサブピクチャシンタクスを符号化データに多重化させる
　付記１の映像符号化装置。

（付記３）前記制御手段は、サブピクチャの画像サイズを監視してＣＴＵサイズを制御する
　付記１または付記２の映像符号化装置。

（付記４）前記制御手段は、ＶＶＣ規格の仮想境界シンタクスを符号化データに多重化させる
　付記１または付記２の映像符号化装置

（付記５）四分木またはマルチタイプ木で分割されたＣＵに予測および変換を適用する映像復号装置であって、
　ピクチャ内でのサブピクチャの左上の位置をＣＴＵの倍数とするための画像処理が最小化されるように多重化されたＶＶＣ規格のサブピクチャシンタクスもしくは仮想境界シンタクス、または前記サブピクチャシンタクスと前記仮想境界シンタクスとを抽出する抽出手段と、
　前記抽出手段が抽出したシンタクスに基づいてデコード画像に含まれる各サブピクチャの出力を制御する制御手段と
　を備える映像復号装置。

（付記６）付記１から付記４のうちのいずれかの映像符号化装置と、
　付記５の映像復号装置と
　を備える映像システム。

（付記７）四分木またはマルチタイプ木で分割されたＣＵに予測および変換を適用する映像符号化方法であって、
　ピクチャ内でのサブピクチャの左上の位置をＣＴＵの倍数とするための画像処理が最小化されるように映像符号化処理を制御する
　映像符号化方法。

（付記８）ＶＶＣ規格のサブピクチャシンタクスを符号化データに多重化する
　付記７の映像符号化方法。

（付記９）サブピクチャの画像サイズを監視してＣＴＵサイズを制御する
　付記７または付記８の映像符号化方法。

（付記１０）ＶＶＣ規格の仮想境界シンタクスを符号化データに多重化する
　付記７または付記８の映像符号化方法。

（付記１１）四分木またはマルチタイプ木で分割されたＣＵに予測および変換を適用する映像復号方法であって、
　ピクチャ内でのサブピクチャの左上の位置をＣＴＵの倍数とするための画像処理が最小化されるように多重化されたＶＶＣ規格のサブピクチャシンタクスもしくは仮想境界シンタクス、または前記サブピクチャシンタクスと前記仮想境界シンタクスとを抽出し、
　抽出されたシンタクスに基づいてデコード画像に含まれる各サブピクチャの出力を制御する
　映像復号方法。

（付記１２）コンピュータに、
　四分木またはマルチタイプ木で分割されたＣＵに予測および変換を適用する処理と、
　ピクチャ内でのサブピクチャの左上の位置をＣＴＵの倍数とするための画像処理が最小化されるように映像符号化処理を制御する処理と
　を実行させる映像符号化プログラムが格納されたコンピュータ読み取り可能な記録媒体。

（付記１３）コンピュータに、
　ＶＶＣ規格のサブピクチャシンタクスを符号化データに多重化する処理
　を実行させる映像符号化プログラムが格納された付記１２のコンピュータ読み取り可能な記録媒体。

（付記１４）コンピュータに、
　サブピクチャの画像サイズを監視してＣＴＵサイズを制御する処理
　を実行させる映像符号化プログラムが格納された付記１２または付記１３のコンピュータ読み取り可能な記録媒体。

（付記１５）コンピュータに、
　ＶＶＣ規格の仮想境界シンタクスを符号化データに多重化する処理
　を実行させる映像符号化プログラムが格納された付記１２または付記１３のコンピュータ読み取り可能な記録媒体。

（付記１６）コンピュータに、
　四分木またはマルチタイプ木で分割されたＣＵに予測および変換を適用する処理と、
　ピクチャ内でのサブピクチャの左上の位置をＣＴＵの倍数とするための画像処理が最小化されるように多重化されたＶＶＣ規格のサブピクチャシンタクスもしくは仮想境界シンタクス、または前記サブピクチャシンタクスと前記仮想境界シンタクスとを抽出する処理と、
　抽出されたシンタクスに基づいてデコード画像に含まれる各サブピクチャの出力を制御する処理と
　を実行させる映像復号プログラムが格納されたコンピュータ読み取り可能な記録媒体。

（付記１７）コンピュータに、
　四分木またはマルチタイプ木で分割されたＣＵに予測および変換を適用する処理と、
　ピクチャ内でのサブピクチャの左上の位置をＣＴＵの倍数とするための画像処理が最小化されるように映像符号化処理を制御する処理と
　を実行させるための映像符号化プログラム。

（付記１８）コンピュータに、
　ＶＶＣ規格のサブピクチャシンタクスを符号化データに多重化する処理
　を実行させる付記１７の映像符号化プログラム。

（付記１９）コンピュータに、
　サブピクチャの画像サイズを監視してＣＴＵサイズを制御する処理
　を実行させる付記１７または付記１８の映像符号化プログラム。

（付記２０）コンピュータに、
　ＶＶＣ規格の仮想境界シンタクスを符号化データに多重化する処理
　を実行させる付記１７または付記１８の映像符号化プログラム。

（付記２１）コンピュータに、
　四分木またはマルチタイプ木で分割されたＣＵに予測および変換を適用する処理と、
　ピクチャ内でのサブピクチャの左上の位置をＣＴＵの倍数とするための画像処理が最小化されるように多重化されたＶＶＣ規格のサブピクチャシンタクスもしくは仮想境界シンタクス、または前記サブピクチャシンタクスと前記仮想境界シンタクスとを抽出する処理と、
　抽出されたシンタクスに基づいてデコード画像に含まれる各サブピクチャの出力を制御する処理と
　を実行させるための映像復号プログラム。

（付記２２）付記７から付記１０のいずれかの映像符号化方法の各ステップを実行する映像符号化プログラム。

（付記２３）付記１１の映像復号方法の各ステップを実行する映像復号プログラム。

　以上、実施形態を参照して本願発明を説明したが、本願発明は上記の実施形態に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。

　１０　　　映像符号化装置
　１１　　　制御部
　２０　　　映像復号装置
　２１　　　抽出部
　２２　　　制御部
　１００　　映像符号化装置
　１０１　　変換／量子化器
　１０２　　エントロピー符号化器
　１０３　　逆量子化／逆変換器
　１０４　　バッファ
　１０５　　予測器
　１０６　　多重化器
　１０７　　ダミー画像挿入器
　１０８　　符号化制御器
　２００　　映像復号装置
　２０１　　多重化解除器
　２０２　　エントロピー復号器
　２０３　　逆量子化／逆変換器
　２０４　　予測器
　２０５　　バッファ
　２０６　　復号制御器
　３００　　伝送路
　１００１　プロセッサ
　１００２　プログラムメモリ
　１００３，１００４　記憶媒体

Claims

　四分木またはマルチタイプ木で分割されたＣＵに予測および変換を適用する映像符号化装置であって、
　ピクチャ内でのサブピクチャの左上の位置をＣＴＵの倍数とするための画像処理が最小化されるように映像符号化処理を制御する制御手段を備える
　映像符号化装置。
　前記制御手段は、ＶＶＣ規格のサブピクチャシンタクスを符号化データに多重化させる
　請求項１に記載の映像符号化装置。
　前記制御手段は、サブピクチャの画像サイズを監視してＣＴＵサイズを制御する
　請求項１または請求項２に記載の映像符号化装置。
　前記制御手段は、ＶＶＣ規格の仮想境界シンタクスを符号化データに多重化させる
　請求項１または請求項２に記載の映像符号化装置。
　四分木またはマルチタイプ木で分割されたＣＵに予測および変換を適用する映像復号装置であって、
　ピクチャ内でのサブピクチャの左上の位置をＣＴＵの倍数とするための画像処理が最小化されるように多重化されたＶＶＣ規格のサブピクチャシンタクスもしくは仮想境界シンタクス、または前記サブピクチャシンタクスと前記仮想境界シンタクスとを抽出する抽出手段と、
　前記抽出手段が抽出したシンタクスに基づいてデコード画像に含まれる各サブピクチャの出力を制御する制御手段と
　を備える映像復号装置。
　請求項１から請求項４のうちのいずれか１項に記載の映像符号化装置と、
　請求項５に記載の映像復号装置と
　を備える映像システム。
　四分木またはマルチタイプ木で分割されたＣＵに予測および変換を適用する映像符号化方法であって、
　ピクチャ内でのサブピクチャの左上の位置をＣＴＵの倍数とするための画像処理が最小化されるように映像符号化処理を制御する
　映像符号化方法。
　ＶＶＣ規格のサブピクチャシンタクスを符号化データに多重化する
　請求項７に記載の映像符号化方法。
　サブピクチャの画像サイズを監視してＣＴＵサイズを制御する
　請求項７または請求項８に記載の映像符号化方法。
　ＶＶＣ規格の仮想境界シンタクスを符号化データに多重化する
　請求項７または請求項８に記載の映像符号化方法。
　四分木またはマルチタイプ木で分割されたＣＵに予測および変換を適用する映像復号方法であって、
　ピクチャ内でのサブピクチャの左上の位置をＣＴＵの倍数とするための画像処理が最小化されるように多重化されたＶＶＣ規格のサブピクチャシンタクスもしくは仮想境界シンタクス、または前記サブピクチャシンタクスと前記仮想境界シンタクスとを抽出し、
　抽出されたシンタクスに基づいてデコード画像に含まれる各サブピクチャの出力を制御する
　映像復号方法。
　コンピュータに、
　四分木またはマルチタイプ木で分割されたＣＵに予測および変換を適用する処理と、
　ピクチャ内でのサブピクチャの左上の位置をＣＴＵの倍数とするための画像処理が最小化されるように映像符号化処理を制御する処理と
　を実行させる映像符号化プログラムが格納されたコンピュータ読み取り可能な記録媒体。
　コンピュータに、
　ＶＶＣ規格のサブピクチャシンタクスを符号化データに多重化する処理
　を実行させる映像符号化プログラムが格納された請求項１２に記載のコンピュータ読み取り可能な記録媒体。
　コンピュータに、
　サブピクチャの画像サイズを監視してＣＴＵサイズを制御する処理
　を実行させる映像符号化プログラムが格納された請求項１２または請求項１３に記載のコンピュータ読み取り可能な記録媒体。
　コンピュータに、
　ＶＶＣ規格の仮想境界シンタクスを符号化データに多重化する処理
　を実行させる映像符号化プログラムが格納された請求項１２または請求項１３に記載のコンピュータ読み取り可能な記録媒体。
　コンピュータに、
　四分木またはマルチタイプ木で分割されたＣＵに予測および変換を適用する処理と、
　ピクチャ内でのサブピクチャの左上の位置をＣＴＵの倍数とするための画像処理が最小化されるように多重化されたＶＶＣ規格のサブピクチャシンタクスもしくは仮想境界シンタクス、または前記サブピクチャシンタクスと前記仮想境界シンタクスとを抽出する処理と、
　抽出されたシンタクスに基づいてデコード画像に含まれる各サブピクチャの出力を制御する処理と
　を実行させる映像復号プログラムが格納されたコンピュータ読み取り可能な記録媒体。