WO2022044268A1 - 映像符号化装置、映像復号装置、映像符号化方法および映像復号方法 - Google Patents

映像符号化装置、映像復号装置、映像符号化方法および映像復号方法 Download PDF

Info

Publication number
WO2022044268A1
WO2022044268A1 PCT/JP2020/032629 JP2020032629W WO2022044268A1 WO 2022044268 A1 WO2022044268 A1 WO 2022044268A1 JP 2020032629 W JP2020032629 W JP 2020032629W WO 2022044268 A1 WO2022044268 A1 WO 2022044268A1
Authority
WO
WIPO (PCT)
Prior art keywords
picture
sub
syntax
video coding
video
Prior art date
Application number
PCT/JP2020/032629
Other languages
English (en)
French (fr)
Inventor
慶一 蝶野
純二 田治米
Original Assignee
日本電気株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電気株式会社 filed Critical 日本電気株式会社
Priority to JP2022545207A priority Critical patent/JP7491385B2/ja
Priority to PCT/JP2020/032629 priority patent/WO2022044268A1/ja
Publication of WO2022044268A1 publication Critical patent/WO2022044268A1/ja

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/70Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by syntax aspects related to video coding, e.g. related to compression standards

Definitions

  • the present invention relates to a video coding device, a video decoding device, a video coding method, and a video decoding method that process a bitstream including a plurality of subpictures.
  • Non-Patent Document 1 discloses a video coding method called VVC (Versatile Video Coding).
  • each frame of the digitized video is divided into a coding tree unit (CTU: Coding Tree Unit), and each CTU is encoded in the order of raster scan.
  • CTU Coding Tree Unit
  • Each CTU has a quadtree (QT: Quad-Tree) structure or a multi-type tree (MMT: Multi-Type Tree) structure, and is divided into coding units (CU: Coding Unit) and encoded.
  • QT Quad-Tree
  • MMT Multi-Type Tree
  • CU Coding Unit
  • the blocks are divided horizontally and vertically into equal parts.
  • a division using a multi-type tree structure the block is divided horizontally or vertically into two or three parts.
  • Prediction coding includes intra prediction and motion compensation prediction.
  • the prediction error of each CU is transform-coded based on frequency conversion.
  • Intra prediction is a prediction that generates a prediction image from a reconstructed image whose display time is the same as that of the coded frame.
  • Non-Patent Document 1 defines 65 types of angle intra predictions shown in FIG. 23. In the angular intra-prediction, the intra-prediction signal is generated by extrapolating the reconstructed pixels around the coded block in any of the 65 directions. In Non-Patent Document 1, in addition to the angle intra prediction, the DC intra prediction that averages the reconstructed pixels around the coded block and the Planar intra prediction that linearly interpolates the reconstructed pixels around the coded block are defined. ing.
  • the CU encoded based on the intra prediction is referred to as an intra CU.
  • Motion compensation prediction is a prediction that generates a prediction image from a reconstructed image (reference picture) whose display time is different from that of the coded frame.
  • motion compensation prediction is also referred to as inter-prediction.
  • FIG. 24 is an explanatory diagram showing an example of motion compensation prediction.
  • the motion vector MV (mv x , mv y ) indicates the translational movement amount of the reconstructed image block of the reference picture with respect to the block to be encoded.
  • inter-prediction an inter-prediction signal is generated based on the reconstructed image block of the reference picture (using pixel interpolation if necessary).
  • the CU encoded based on the motion compensation prediction is referred to as an inter-CU.
  • a frame encoded only by the intra-CU is called an I frame (or I picture).
  • a frame encoded including not only the intra CU but also the inter CU is called a P frame (or P picture).
  • a frame encoded by including an inter-CU that uses not only one reference picture but also two reference pictures at the same time in the block inter-prediction is called a B frame (or B picture).
  • inter-prediction using one reference picture is called one-way prediction
  • inter-prediction using two reference pictures at the same time is called bidirectional prediction
  • FIG. 25 shows an example of CTU division of the frame t when the number of pixels of the frame is CIF (CIF: Common Intermediate Format) and the CTU size is 64, and an example of division of the eighth CTU (CTU8) included in the frame t. It is explanatory drawing which shows.
  • CIF Common Intermediate Format
  • FIG. 25 shows the case where all CUs are square. However, as shown in FIG. 26, the CU may be divided into rectangles in a multi-type tree structure.
  • Non-Patent Document 1 when the split_qt_flag syntax value is 0, a multi-type tree structure is used.
  • the direction of division (horizontal, vertical) is defined by the mtt_split_cu_vertical_flag syntax value and the mtt_split_cu_binary_flag syntax value.
  • FIG. 26 (a) shows four divided shapes (divided modes) used in the multi-type tree structure.
  • SPLIT_BT_HOR and SPLIT_BT_VER are binary tree splits.
  • SPLIT_TT_HOR and SPLIT_TT_VER are ternary splits.
  • FIG. 26B shows the relationship between the divided shape and the syntax value.
  • tiles, slices, and subpictures are defined as spatial divisions of pictures.
  • the picture is divided into one or more tiles.
  • a tile is a rectangular area having a CTU as a constituent unit. References that cross tile boundaries are constrained.
  • a slice is a rectangular area whose constituent unit is a tile.
  • the Raster-Scan Slice mode is a mode in which slices are arranged in the order of raster scan.
  • the rectangular slice mode is a mode in which the area covered by the slice becomes a tile or a rectangular area having a CTU line in the tile as a unit.
  • Rectangular Slice mode slices do not have to be placed in raster scan order, with the constraint that slices tangent to the top and left sides of the slice are processed first.
  • the sub-picture is composed of one or more slices.
  • sub-picture boundaries can be considered as picture boundaries.
  • a CTU size is 128 and a bit stream is generated in which four 2K images (1920 ⁇ 1080 pixels) are arranged in a rice field as a sub-picture. 1920 is divisible by 128, but 1080 is not divisible by 128. That is, the vertical boundary position of the sub-picture is a multiple of the CTU, but the horizontal boundary position of the sub-picture is not a multiple of the CTU. Therefore, in order to make the horizontal boundary position of the sub-picture a multiple of CTU, it is required to insert a dummy image of at least 3840 ⁇ 72 pixels along the horizontal boundary.
  • FIG. 27 is an explanatory diagram showing an example of inserting a dummy image.
  • FIG. 27 shows an example in which a dummy image of 3840 ⁇ 72 pixels is inserted in the vicinity of the horizontal boundary position when four 2K images having a CTU size of 128 are arranged in a rice field as a sub-picture. ..
  • the amount of bitstream data increases by the bit for expressing the dummy image. Therefore, when a dummy image is inserted, the image quality deteriorates in a limited band. Further, the processing amount increases by the area of the dummy image.
  • the present invention provides a video coding device, a video decoding device, a video coding method, and a video decoding method that can suppress deterioration of image quality and increase in processing amount when processing a bit stream containing a plurality of subpictures. With the goal.
  • the video coding apparatus applies prediction and conversion to a CU divided by a quadtree or a multi-type tree, and performs image processing to make the upper left position of the sub-picture in the picture a multiple of the CTU.
  • the video decoder applies prediction and conversion to a CU divided by a quadtree or a multi-type tree, and minimizes image processing to make the upper left position of the sub-picture in the picture a multiple of the CTU. It is included in the decoded image based on the VVC standard sub-picture syntax or virtual boundary syntax, or the extraction means for extracting the sub-picture syntax and the virtual boundary syntax, and the syntax extracted by the extraction means. Includes control means to control the output of each subpicture.
  • the video coding method applies prediction and conversion to a CU divided by a quadtree or a multi-type tree, and performs image processing to make the upper left position of the sub-picture in the picture a multiple of the CTU. Control the video coding process so that it is minimized.
  • the video decoding method applies prediction and conversion to a CU divided by a quadtree or a multi-type tree, and minimizes image processing to make the upper left position of the sub-picture in the picture a multiple of the CTU.
  • VVC standard sub-picture syntax or virtual boundary syntax, or sub-picture syntax and virtual boundary syntax that are multiplexed so that they are multiplexed are extracted, and the output of each sub-picture included in the decoded image based on the extracted syntax. To control.
  • the video coding program processes the computer by applying prediction and conversion to a CU divided by a quadtree or a multi-type tree, and sets the upper left position of the sub-picture in the picture as a multiple of the CTU.
  • the processing for controlling the video coding processing is executed so that the image processing for the purpose is minimized.
  • the video decoding program is to apply prediction and conversion to a CU divided by a quadtree or a multi-type tree on a computer, and to make the upper left position of a sub-picture in a picture a multiple of CTU.
  • VVC standard sub-picture syntax or virtual boundary syntax that is multiplexed so that the image processing of the image is minimized, or the process of extracting the sub-picture syntax and the virtual boundary syntax, and the decoded image based on the extracted syntax.
  • the process of controlling the output of each included sub-picture is executed.
  • FIG. 1 is a block diagram showing an embodiment (first embodiment) of a video coding device.
  • the video coding apparatus 100 of the present embodiment monitors the image size of the sub-picture and monitors the CTU so that the amount of image processing for making the upper left position of the sub-picture in the picture a multiple of the CTU is minimized. Provide means to control the size.
  • an operation in the case of generating a bit stream in which four 2K images (1920 ⁇ 1080 pixels) are arranged in a paddy character as a sub-picture is taken as an example.
  • the available CTU size is 32, 64, or 128.
  • the available CTU size candidates are referred to as candCtuSize (32, 64, or 128).
  • the image coding device 100 shown in FIG. 1 includes a conversion / quantizer 101, an entropy coding device 102, an inverse quantization / inverse converter 103, a buffer 104, a predictor 105, a multiplexing device 106, and a dummy image inserter 107. , And a coding controller 108.
  • the coding controller 108 monitors the width subPicWidth and the height subPicHeight as the image size of each subpicture of the input video.
  • the dummy image inserter 107 inserts a dummy image in the vicinity of the boundary of each sub-picture.
  • the predictor 105 determines the split_cu_flag syntax value, the split_qt_flag syntax value, the mtt_split_cu_vertical_flag syntax value, and the mtt_split_cu_binary_flag syntax value that determine the CU shape for each CTU.
  • the CU shape is, for example, a shape that minimizes the coding cost.
  • the predictor 105 determines the pred_mode_flag syntax value for determining the intra-prediction / inter-prediction, the intra-prediction direction, and the motion vector for each CU. These values are, for example, values that minimize the coding cost.
  • the predictor 105 is an image of each CU based on the determined split_cu_flag syntax value, split_qt_flag syntax value, mtt_split_cu_vertical_flag syntax value, mtt_split_cu_binary_flag syntax value, pred_mode_flag syntax value, intra prediction direction, motion vector, and the like. Generate a signal. The prediction signal is generated based on the above-mentioned intra-prediction or inter-prediction.
  • the conversion / quantizer 101 frequency-converts a prediction error image in which the prediction signal is subtracted from the input image signal by the subtractor. Further, the conversion / quantizer 101 quantizes the frequency-converted prediction error image (frequency conversion coefficient). Hereinafter, the quantized frequency conversion coefficient is referred to as a conversion quantization value.
  • the entropy encoder 102 converts the split_cu_flag syntax value, split_qt_flag syntax value, mtt_split_cu_vertical_flag syntax value, mtt_split_cu_binary_flag syntax value, pred_mode_flag syntax value, intra prediction direction, motion vector difference information, and motion vector difference information determined by the predictor 105. Encode.
  • the inverse quantization / inverse converter 103 dequantizes the transformation quantization value. Further, the inverse quantized / inverse converter 103 performs inverse frequency conversion of the inverse quantized frequency conversion coefficient.
  • the inverse frequency converted reconstruction prediction error image is supplied to the buffer 104 after the prediction signal is added by the adder. The buffer 104 stores the reconstructed image.
  • the multiplexing device 106 multiplexes the ctuSize (CTU size) supplied from the coding controller 108, the position information of the subpicture, and the entropy-coded data supplied from the entropy-coding device 102, and outputs the data as a bit stream. ..
  • the video coding apparatus 100 of the present embodiment generates and outputs a bit stream.
  • the coding controller 108 determines the CTU size, the vertical dummy image width, and the horizontal dummy image width based on the subPicWidth and the subPicHeight (step S1001).
  • the coding controller 108 divides the candCtuSize by the subPicWidth for each candCtuSize (candidate for the CTU size) to obtain the remainder remainder.
  • the coding controller 108 sets the vertical dummy image width dW to 0 when the remainder is 0.
  • the coding controller 108 sets dW to (candCtuSize-remainder) when remainder is not 0.
  • the coding controller 108 divides the candCtuSize by the subPicHeight for each candCtuSize to obtain the remainder remainder.
  • the coding controller 108 sets the horizontal dummy image width dH to 0 when the remainder is 0.
  • the coding controller 108 sets dH to (candCtuSize-remainder) when there is no remainder.
  • the coding controller 108 determines the candCtuSize, which has a small area of the corresponding dummy image and is as large as possible, as the CTU size ctuSize. However, the area of the dummy image is the sum of dH ⁇ dW and (subPicWidth + dW) ⁇ dH.
  • the ctuSize is 64
  • the corresponding dW is 0, and the corresponding dH is 8.
  • the coding controller 108 supplies the ctuSize to the predictor 105. Further, the coding controller 108 supplies dW and dH to the dummy image inserter 107.
  • the sub-picture syntax shown in Non-Patent Document 1 can be used as the position information of the sub-picture. That is, the position information of the sub-pictures is sps_subpic_info_present_flag indicating the presence / absence of the sub-picture (0: none, 1: presence), sps_num_subpics_minus1 indicating the value obtained by subtracting 1 from the number of sub-pictures, and each sub-picture other than the first sub-picture.
  • Sps_subpic_ctu_top_left_x [i] and sps_subpic_ctu_top_left_y [i] (where i> 0), which indicate the horizontal and vertical positions in the upper left, and sps_subpic_width_minus1 [i] and sps_subpic_height_, which indicate the width and height of each subpicture other than the last subpicture. [i] (however, i ⁇ sps_num_subpics_minus1).
  • the dummy image inserter 107 inserts a dummy image in the vicinity of the boundary of each sub-picture (step S1002).
  • FIG. 3 is an explanatory diagram showing an example of inserting a dummy image.
  • the coding controller 108 sets the CTU size in the predictor 105, and causes the predictor 105 to determine the syntax value for determining the CU shape of each CTU (step S1003). Further, the coding controller 108 causes the multiplexing device 106 to multiplex the position information of the sub-picture (step S1004).
  • the coding controller 108 controls the video coding processing so that the processing amount of the image processing for making the upper left position of the sub-picture in the picture a multiple of the CTU is reduced.
  • the coding controller 108 reduces the area of the corresponding dummy image and sets the candCtuSize as large as possible as the CTU size ctuSize. Therefore, in the present embodiment, the effect of suppressing the deterioration of the image quality and reducing the processing amount by reducing the number of bits can be obtained according to the reduction in the area of the dummy image. As can be seen from the comparison between FIGS.
  • FIG. 4 is a block diagram showing an embodiment of a video decoding device.
  • the video decoder 200 of the present embodiment includes a demultiplexer 201, an entropy decoder 202, an inverse quantization / inverse converter 203, a predictor 204, a buffer 205, and a decoding controller 206.
  • the demultiplexing device 201 demultiplexes the input bit stream and extracts the CTU size ctuSize, the position information of the sub-picture, and the entropy-coded data (step S2001).
  • the entropy decoder 202 encodes the entropy-coded data (step S2002).
  • the entropy decoder 202 supplies the entropy-decoded conversion quantization value to the inverse quantization / inverse converter 203. Further, the entropy decoder 202 supplies the difference information of split_cu_flag, split_qt_flag, mtt_split_cu_vertical_flag, mtt_split_cu_binary_flag, pred_mode_flag, intra prediction direction, and motion vector to the predictor 204.
  • the inverse quantization / inverse converter 203 dequantizes the conversion quantization value by the quantization step width. Further, the inverse quantized / inverse converter 203 performs inverse frequency conversion of the inverse quantized frequency conversion coefficient (step S2003).
  • the predictor 204 generates a prediction signal for each subblock based on the difference information of split_cu_flag, split_qt_flag, mtt_split_cu_vertical_flag, mtt_split_cu_binary_flag, pred_mode_flag, intra prediction direction, and motion vector (step S2004).
  • the prediction signal is generated based on the above-mentioned intra prediction or motion compensation prediction.
  • the reconstruction prediction error image that has been inversely frequency-converted by the inverse quantization / inverse converter 203 is supplied to the buffer 205 as a reconstruction picture after the prediction signal supplied from the predictor 204 is added by the adder. ..
  • the buffer 205 stores the reconstructed picture (step S2005).
  • the decoding controller 206 outputs the image of each subpicture included in the decoded image from the buffer 205 when sps_subpic_info_present_flag is 1 based on the position information of the subpicture (step S2006). That is, the decoding controller 206 controls the output of the image of each sub-picture included in the decoded image based on the position information of the sub-picture (in this embodiment, the sub-picture syntax of the VVC standard).
  • the video decoding device 200 of the present embodiment generates and outputs a decoded image.
  • FIG. 6 is a block diagram showing an embodiment (second embodiment) of the video coding apparatus.
  • the video coding apparatus 100 of the present embodiment includes a conversion / quantizer 101, an entropy coding device 102, an inverse quantization / inverse converter 103, a buffer 104, a predictor 105, a multiplexing device 106, and a coding controller. 108 is provided. Unlike the first embodiment, the video coding device 100 of the present embodiment is not provided with the dummy image inserter 107.
  • the video coding apparatus 100 of the present embodiment does not insert a dummy image for minimizing the amount of image processing for making the upper left position of the sub-picture in the picture a multiple of the CTU. That is, the video coding device 100 of the present embodiment does not use the VVC sub-picture.
  • the predictor 105 determines the split_cu_flag syntax value, the split_qt_flag syntax value, the mtt_split_cu_vertical_flag syntax value, and the mtt_split_cu_binary_flag syntax value that determine the CU shape for each CTU.
  • the CU shape is, for example, a shape that minimizes the coding cost.
  • the predictor 105 determines the pred_mode_flag syntax value for determining the intra-prediction / inter-prediction, the intra-prediction direction, and the motion vector for each CU. These values are, for example, values that minimize the coding cost.
  • the predictor 105 is an image of each CU based on the determined split_cu_flag syntax value, split_qt_flag syntax value, mtt_split_cu_vertical_flag syntax value, mtt_split_cu_binary_flag syntax value, pred_mode_flag syntax value, intra prediction direction, motion vector, and the like. Generate a signal. The prediction signal is generated based on the above-mentioned intra-prediction or inter-prediction.
  • the conversion / quantizer 101 frequency-converts a prediction error image in which the prediction signal is subtracted from the input image signal by the subtractor. Further, the conversion / quantizer 101 quantizes the frequency-converted prediction error image (frequency conversion coefficient) to generate a conversion quantization value.
  • the entropy encoder 102 converts the split_cu_flag syntax value, split_qt_flag syntax value, mtt_split_cu_vertical_flag syntax value, mtt_split_cu_binary_flag syntax value, pred_mode_flag syntax value, intra prediction direction, motion vector difference information, and motion vector difference information determined by the predictor 105. Encode.
  • the inverse quantization / inverse converter 103 dequantizes the transformation quantization value. Further, the inverse quantized / inverse converter 103 performs inverse frequency conversion of the inverse quantized frequency conversion coefficient.
  • the inverse frequency converted reconstruction prediction error image is supplied to the buffer 104 after the prediction signal is added by the adder. The buffer 104 stores the reconstructed image.
  • the multiplexing device 106 multiplexes the position information of the sub-picture supplied from the coding controller 108 and the entropy coding data supplied from the entropy coding device 102, and outputs it as a bit stream.
  • the video coding apparatus 100 of the present embodiment generates and outputs a bit stream.
  • the coding controller 108 supplies the position information of the sub-picture to the multiplexing device 106.
  • the virtual boundary syntax shown in Non-Patent Document 1 can be used as the position information of the sub-picture. That is, the position information of the sub-picture includes sps_virtual_boundaries_present_flag indicating the presence / absence of virtual boundaries (0: none, 1: existence), sps_num_ver_virtual_boundaries indicating the number of virtual boundaries in the vertical direction, and the horizontal position (horizontal position) of the virtual boundaries in the vertical direction.
  • FIG. 7 is an explanatory diagram showing an arrangement example of sub-pictures that do not use a dummy image.
  • the example shown in FIG. 7 is an example in which four 2K images are arranged as sub-pictures without using VVC sub-pictures.
  • the coding controller 108 controls the video coding processing so that the processing amount of the image processing for making the upper left position of the sub-picture in the picture a multiple of the CTU is reduced.
  • the coding controller 108 controls the area of the dummy image to be zero. Therefore, also in this embodiment, the effect of suppressing the deterioration of the image quality and reducing the processing amount by reducing the number of bits can be obtained according to the reduction in the area of the dummy image.
  • the area of each dummy image for setting the upper left position of the sub-picture in the picture as a multiple of CTU. Is reduced from 3840 x 72 to 0. Therefore, the effect of suppressing the deterioration of the image quality and reducing the processing amount by reducing the number of bits can be obtained according to the reduction of the area of the dummy image.
  • the configuration of the video decoding device of the present embodiment is the same as the configuration of the video decoding device 200 of the first embodiment shown in FIG.
  • the decoding controller 206 in this embodiment performs control different from that in the first embodiment.
  • the reference for outputting the image of the sub-picture of the decoding controller 206 in the present embodiment is different from the reference in the first embodiment.
  • the operations of the demultiplexer 201, the entropy decoder 202, the dequantization / inverse converter 203, the predictor 204, and the buffer 205 are the same as those in the first embodiment.
  • the decoding controller 206 outputs the decoded image of each subpicture included in the decoded image when sps_virtual_boundaries_present_flag is 1 from the buffer 205 based on the position information of the subpictures. That is, the decoding controller 206 controls the output of the image of each subpicture included in the decoded image based on the value of sps_virtual_boundaries_present_flag.
  • an operation in the case of generating a bit stream in which four 2K images (1920 ⁇ 1080 pixels) are arranged in a rice field as a sub-picture is taken as an example, but images of other resolutions are targeted. You may.
  • bitstream in which 16 2K images are arranged as subpictures a bitstream in which 9 720p (pixel) images (1280 ⁇ 720 pixels) are arranged as subpictures, and 36 720p images (1280 ⁇ 720 pixels).
  • 9 720p (pixel) images (1280 ⁇ 720 pixels) are arranged as subpictures
  • 36 720p images (1280 ⁇ 720 pixels).
  • the operation in the case of generating a bit stream in which four 2K images (1920 ⁇ 1080 pixels) are arranged in a rice field as a sub-picture is taken as an example, but images of other resolutions are targeted. You may.
  • the idea of the second embodiment can be applied to a bit stream in which 16 2K images are arranged as sub-pictures and a bit stream in which 9 720p images (1280 ⁇ 720 pixels) are arranged as sub-pictures.
  • FIG. 15 is an explanatory diagram showing an example in which 16 2K images are arranged as sub-pictures.
  • FIG. 16 is an explanatory diagram showing an example in which nine 720p images are arranged as sub-pictures.
  • the location information of the sub-picture including the dummy image is sps_subpic_info_present_flag, sps_num_subpics_minus1, sps_subpic_ctu_top_left_x [i] and sps_subpic_ctu_top_left_y [i], and sps_subpic_width_minus1 [i] and sps_sub Boundary position information is set by sps_virtual_boundaries_present_flag, sps_num_ver_virtual_boundarie, sps_virtual_boundary_pos_x_minus1 [i], sps_num_hor_virtual_boundaries, and sps_virtual_boundary_pos_y_minus1 [i].
  • the coding controller 108 supplies the information to the multiplexing device 106.
  • FIG. 19 is a block diagram showing an example of a video system.
  • the video system shown in FIG. 19 is a system in which the video coding device 100 and the video decoding device 200 of each of the above embodiments are connected by a transmission line (wireless transmission line or wired transmission line) 300.
  • the video coding device 100 is a video coding device 100 according to any one of the above embodiments.
  • the video decoding device 200 is a video decoding device 200 according to any one of the above embodiments.
  • the video coding device 100 can generate a bitstream having the features described in each of the above embodiments. Further, in the video system, the video decoding device 200 can decode the bitstream having the characteristics described in each of the above embodiments.
  • each of the above embodiments can be configured by hardware, it can also be realized by a computer program.
  • the information processing system shown in FIG. 20 includes a processor 1001 such as a CPU (Central Processing Unit), a program memory 1002, a storage medium 1003 for storing video data, and a storage medium 1004 for storing a bit stream.
  • the storage medium 1003 and the storage medium 1004 may be separate storage media or may be storage areas made of the same storage medium.
  • a magnetic storage medium such as a hard disk can be used.
  • the program memory 1002 stores a program (video coding program or video decoding program) for realizing the function of each block (excluding the buffer block) shown in each of the above embodiments.
  • the processor 1001 realizes the function of the video coding device 100 or the video decoding device 200 shown in each embodiment by executing the process according to the program stored in the program memory 1002.
  • At least the program memory 1002 is a non-transitory computer readable medium.
  • the program may be stored on various types of temporary computer readable medium.
  • the temporary computer-readable medium is supplied with a program, for example, via a wired or wireless channel, i.e., via an electrical signal, an optical signal, or an electromagnetic wave.
  • FIG. 21 is a block diagram showing a main part of the video coding device.
  • the video coding apparatus 10 shown in FIG. 21 applies prediction and conversion to a CU divided by a quadtree or a multi-type tree, and makes the upper left position of the sub-picture in the picture a multiple of the CTU. It includes a control unit (control means) 11 (in the embodiment, realized by the coding controller 108) that controls the video coding processing so that the processing is minimized.
  • FIG. 22 is a block diagram showing a main part of the video decoding device.
  • the video decoding device 20 shown in FIG. 22 applies prediction and conversion to a CU divided by a quadtree or a multi-type tree, and performs image processing to make the upper left position of the sub-picture in the picture a multiple of the CTU.
  • Extraction unit (extraction means) 21 in the embodiment, a demultiplexer) for extracting a sub-picture syntax or a virtual boundary syntax of the VVC standard multiplexed so as to minimize the sub-picture syntax and the virtual boundary syntax.
  • control unit 22 in the embodiment, realized by the decoding controller 206) that controls the output of each subpicture included in the decoded image based on the syntax extracted by the extraction unit 21. It is equipped with.
  • a video coding device that applies prediction and conversion to a CU divided by a quadtree or a multi-type tree.
  • a video coding device including a control means for controlling the video coding process so that the image processing for making the upper left position of the sub picture in the picture a multiple of the CTU is minimized.
  • the control means is the video coding apparatus of Appendix 1 for multiplexing VVC standard sub-picture syntax into coded data.
  • the control means is a video coding device according to Appendix 1 or Appendix 2 that monitors the image size of a sub-picture and controls the CTU size.
  • the control means is a video coding device according to Appendix 1 or Appendix 2 that multiplexes the virtual boundary syntax of the VVC standard into coded data.
  • a video decoding device that applies prediction and conversion to CUs divided by quadtrees or multi-type trees.
  • a video decoding device including a control means for controlling the output of each subpicture included in the decoded image based on the syntax extracted by the extraction means.
  • Appendix 6 With any of the video coding devices from Appendices 1 to 4, A video system including the video decoding device of Appendix 5.
  • Appendix 8 The video coding method of Appendix 7 for multiplexing VVC standard sub-picture syntax into encoded data.
  • Appendix 9 The image coding method of Appendix 7 or Appendix 8 for monitoring the image size of a sub-picture and controlling the CTU size.
  • Appendix 10 The video coding method of Appendix 7 or Appendix 8 for multiplexing the virtual boundary syntax of the VVC standard into coded data.
  • Appendix 13 To the computer A computer-readable recording medium according to Appendix 12, which contains a video coding program for executing a process of multiplexing VVC standard sub-picture syntax into coded data.
  • Appendix 14 To the computer A computer-readable recording medium of Appendix 12 or Appendix 13 containing a video coding program that monitors the image size of a subpicture and executes a process of controlling the CTU size.
  • Appendix 15 To the computer A computer-readable recording medium according to Appendix 12 or Appendix 13 containing a video coding program that performs a process of multiplexing VVC standard virtual boundary syntax into coded data.
  • Appendix 18 To the computer The video coding program of Appendix 17 for executing a process of multiplexing VVC standard sub-picture syntax into coded data.
  • Appendix 19 To the computer The video coding program of Appendix 17 or Appendix 18 for monitoring the image size of the subpicture and executing the process of controlling the CTU size.
  • Appendix 20 To the computer The video coding program of Appendix 17 or Appendix 18 for executing the process of multiplexing the virtual boundary syntax of the VVC standard into the coded data.
  • Appendix 22 A video coding program that executes each step of any of the video coding methods of Appendix 7 to Appendix 10.
  • Appendix 23 A video decoding program that executes each step of the video decoding method of Appendix 11.
  • Video Encoding Device 11 Control Unit 20
  • Video Decoding Device 21 Extraction Unit 22
  • Control Unit 100 Video Coding Device 101 Converter / Quantizer 102
  • Predictor 106 Multiplexing Device 107
  • Video decoder 201 Demultiplexing device 202
  • Entropy decoder 203 Inverse quantization / inverse converter 204
  • Predictor 205 Buffer 206 Decoding controller 300 Transmission line 1001 Processor 1002 Program memory 1003 , 1004 Storage medium

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

VVCのサブピクチャを利用して複数のサブピクチャを含むビットストリームを生成しようとすると、ピクチャ内でのサブピクチャの左上の位置をCTUの倍数にするための画像処理に起因して画質劣化や処理が増加するという課題がある。本発明は、複数のサブピクチャを含むビットストリームを処理する場合に、画質の劣化や処理量の増加を抑制することを目的とする。 本発明の映像符号化装置10は、四分木またはマルチタイプ木で分割されたCUに予測および変換を適用し、ピクチャ内でのサブピクチャの左上の位置をCTUの倍数とするための画像処理が最小化されるように映像符号化処理を制御する制御部11を含む。

Description

映像符号化装置、映像復号装置、映像符号化方法および映像復号方法
 本発明は、複数のサブピクチャを含むビットストリームを処理する映像符号化装置、映像復号装置、映像符号化方法および映像復号方法に関する。
 非特許文献1は、VVC(Versatile Video Coding)と呼ばれる映像符号化方式を開示する。
 非特許文献1に記載された映像符号化方式では、ディジタル化された映像の各フレームは符号化ツリーユニット(CTU:Coding Tree Unit)に分割され、ラスタスキャン順に各CTUが符号化される。
 各CTUは、四分木(QT:Quad-Tree)構造またはマルチタイプ木(MMT:Multi-Type Tree)構造で、符号化ユニット(CU:Coding Unit)に分割されて符号化される。四分木構造を用いる分割では、ブロックが、水平および垂直に等分割される。マルチタイプ木構造を用いる分割では、ブロックが、水平もしくは垂直に2分割または3分割される。
 各CUは、予測符号化される。予測符号化には、イントラ予測と動き補償予測がある。各CUの予測誤差は、周波数変換に基づいて変換符号化される。
 イントラ予測は、符号化対象フレームと表示時刻が同一の再構築画像から予測画像を生成する予測である。非特許文献1では、図23に示す65種類の角度イントラ予測が定義されている。角度イントラ予測では、符号化対象ブロック周辺の再構築画素を65種類の方向のいずれかに外挿して、イントラ予測信号が生成される。非特許文献1では、角度イントラ予測に加えて、符号化対象ブロック周辺の再構築画素を平均するDCイントラ予測、および、符号化対象ブロック周辺の再構築画素を線形補間するPlanarイントラ予測が定義されている。以下、イントラ予測に基づいて符号化されたCUをイントラCUと呼ぶ。
 動き補償予測は、符号化対象フレームとは表示時刻が異なる再構築画像(参照ピクチャ)から予測画像を生成する予測である。以下、動き補償予測をインター予測ともいう。
 図24は、動き補償予測の例を示す説明図である。動きベクトルMV=(mvx, mvy)は、符号化対象ブロックに対する参照ピクチャの再構築画像ブロックの並進移動量を示す。インター予測では、参照ピクチャの再構築画像ブロックに基づいて(必要であれば画素補間を用いて)、インター予測信号が生成される。以下、動き補償予測に基づいて符号化されたCUをインターCUと呼ぶ。
 イントラCUのみで符号化されたフレームは、Iフレーム(または、Iピクチャ)と呼ばれる。イントラCUだけでなくインターCUも含めて符号化されたフレームは、Pフレーム(または、Pピクチャ)と呼ばれる。ブロックのインター予測に、1枚の参照ピクチャだけでなく、同時に2枚の参照ピクチャを用いるインターCUを含めて符号化されたフレームは、Bフレーム(またはBピクチャ)と呼ばれる。
 なお、1枚の参照ピクチャを用いるインター予測は片方向予測と呼ばれ、同時に2枚の参照ピクチャを用いるインター予測は双方向予測と呼ばれる。
 図25は、フレームの画素数がCIF(CIF:Common Intermediate Format)で、CTUサイズが64の場合のフレームtのCTU分割例、および、フレームtに含まれる第8のCTU(CTU8)の分割例を示す説明図である。
 図25には、全てのCUが正方形の場合が示されている。しかし、図26に示されるように、マルチタイプ木構造でCUが矩形に分割されてもよい。非特許文献1では、split_qt_flagシンタクス値が0の場合、マルチタイプ木構造が使用される。また、mtt_split_cu_vertical_flagシンタクス値とmtt_split_cu_binary_flagシンタクス値によって、分割の方向(水平、垂直)が規定される。
 図26(a)には、マルチタイプ木構造で使用される4つの分割形状(分割モード)が示されている。SPLIT_BT_HORおよびSPLIT_BT_VERは、二分木分割である。SPLIT_TT_HORおよびSPLIT_TT_VERは、三分木分割である。図26(b)には、分割形状とシンタクス値との関係が示されている。
 VVC規格では、ピクチャの空間分割として、タイル(Tile)、スライス(Slice)、およびサブピクチャ(SubpiCTUre)が定義されている。
 ピクチャは、1または複数のタイルに分割される。タイルは、CTUを構成単位とする矩形領域である。タイル境界を跨ぐ参照は制約される。
 スライスは、タイルを構成単位とする矩形領域である。スライスの走査順として、Raster-Scan SliceモードとRectangular Sliceモードとがある。Raster-Scan Sliceモードは、ラスタスキャン順でスライスを配置するモードである。Rectangular Sliceモードは、スライスがカバーする領域がタイルまたはタイル内のCTUラインを単位とする矩形領域になるモードである。Rectangular Sliceモードでは、スライスの上側および左側に接するスライスが先に処理されるという制約の下で、ラスタスキャン順でスライスを配置しなくてもよい。
 サブピクチャは、1または複数のスライスで構成される。動き補償予測において、サブピクチャの境界は、ピクチャ境界と見なされうる。
Benjamin Bross, et al., "Versatile Video Coding (Draft 10)", JVET-S2001-v7, Joint Video Experts Team (JVET) of ITU-T SG16 WP3 and ISO/IEC JTC1/SC29/WG11 19th Meeting: by teleconference, 22 June - 1 July 2020
 VVCのサブピクチャを利用して複数のサブピクチャを含むビットストリームを生成しようとすると、ピクチャ内でのサブピクチャの左上の位置をCTUの倍数にするための画像処理に起因して画質劣化や処理が増加するという課題がある。
 例えば、CTUサイズが128で4つの2K映像(1920×1080画素)をサブピクチャとして田の字に配置するビットストリームを生成する場合を考える。1920は128で割り切れるが1080は128で割り切れない。すなわち、サブピクチャの垂直境界位置はCTUの倍数になるが、サブピクチャの水平境界位置がCTUの倍数にならない。よって、サブピクチャの水平境界位置をCTUの倍数にするために、少なくとも水平境界に沿って3840×72画素のダミー画像を挿入することが求められる。
 図27は、ダミー画像の挿入例を示す説明図である。図27には、CTUサイズ128で4つの2K映像がサブピクチャとして田の字に配置される場合に、水平境界位置の近傍に3840×72画素のダミー画像が挿入された例が示されている。
 ダミー画像を表現するためのビットだけビットストリームのデータ量が増加する。よって、ダミー画像が挿入される場合には、限られた帯域では画質が劣化する。さらに、ダミー画像の面積分だけ処理量が増える。
 本発明は、複数のサブピクチャを含むビットストリームを処理する場合に、画質の劣化や処理量の増加を抑制できる映像符号化装置、映像復号装置、映像符号化方法および映像復号方法を提供することを目的とする。
 本発明による映像符号化装置は、四分木またはマルチタイプ木で分割されたCUに予測および変換を適用し、ピクチャ内でのサブピクチャの左上の位置をCTUの倍数とするための画像処理が最小化されるように映像符号化処理を制御する制御手段を含む。
 本発明による映像復号装置は、四分木またはマルチタイプ木で分割されたCUに予測および変換を適用し、ピクチャ内でのサブピクチャの左上の位置をCTUの倍数とするための画像処理が最小化されるように多重化されたVVC規格のサブピクチャシンタクスもしくは仮想境界シンタクス、またはサブピクチャシンタクスと仮想境界シンタクスとを抽出する抽出手段と、抽出手段が抽出したシンタクスに基づいてデコード画像に含まれる各サブピクチャの出力を制御する制御手段とを含む。
 本発明による映像符号化方法は、四分木またはマルチタイプ木で分割されたCUに予測および変換を適用し、ピクチャ内でのサブピクチャの左上の位置をCTUの倍数とするための画像処理が最小化されるように映像符号化処理を制御する。
 本発明による映像復号方法は、四分木またはマルチタイプ木で分割されたCUに予測および変換を適用し、ピクチャ内でのサブピクチャの左上の位置をCTUの倍数とするための画像処理が最小化されるように多重化されたVVC規格のサブピクチャシンタクスもしくは仮想境界シンタクス、またはサブピクチャシンタクスと仮想境界シンタクスとを抽出し、抽出されたシンタクスに基づいてデコード画像に含まれる各サブピクチャの出力を制御する。
 本発明による映像符号化プログラムは、コンピュータに、四分木またはマルチタイプ木で分割されたCUに予測および変換を適用する処理と、ピクチャ内でのサブピクチャの左上の位置をCTUの倍数とするための画像処理が最小化されるように映像符号化処理を制御する処理とを実行させる。
 本発明による映像復号プログラムは、コンピュータに、四分木またはマルチタイプ木で分割されたCUに予測および変換を適用する処理と、ピクチャ内でのサブピクチャの左上の位置をCTUの倍数とするための画像処理が最小化されるように多重化されたVVC規格のサブピクチャシンタクスもしくは仮想境界シンタクス、またはサブピクチャシンタクスと仮想境界シンタクスとを抽出する処理と、抽出されたシンタクスに基づいてデコード画像に含まれる各サブピクチャの出力を制御する処理とを実行させる。
 本発明によれば、画質の劣化や処理量の増加が抑制される。
第1の実施形態の映像符号化装置を示すブロック図である。 符号化制御器およびダミー画像挿入器の動作を示すフローチャートである。 ダミー画像の挿入例を示す説明図である。 第1の実施形態の映像復号装置を示すブロック図である。 映像復号装置の動作を示すフローチャートである。 第2の実施形態の映像符号化装置を示すブロック図である。 ダミー画像を使用しないサブピクチャの配置例を示す説明図である。 第1の各実施形態の第1の変形例を示す説明図である。 第1の各実施形態の第1の変形例を示す説明図である。 第1の各実施形態の第1の変形例を示す説明図である。 第1の各実施形態の第2の変形例を示す説明図である。 第1の各実施形態の第2の変形例を示す説明図である。 第1の各実施形態の第2の変形例を示す説明図である。 第1の各実施形態の第2の変形例を示す説明図である。 第2の各実施形態の変形例を示す説明図である。 第2の各実施形態の変形例を示す説明図である。 第1の実施形態と第2の実施形態とを組み合わされた場合のサブピクチャの配置の一例を示す説明図である。 第1の実施形態と第2の実施形態とを組み合わされた場合のサブピクチャの配置の他の例を示す説明図である。 映像システムの一例を示すブロック図である。 映像符号化装置および映像復号装置の機能を実現可能な情報処理システムの構成例を示すブロック図である。 映像符号化装置の主要部を示すブロック図である。 映像復号装置の主要部を示すブロック図である。 65種類の角度イントラ予測の例を示す説明図である。 フレーム間予測の例を示す説明図である。 フレームtのCTU分割例、および、フレームtのCTU8のCU分割例を示す説明図である。 マルチタイプ木構造を用いるCU分割例を示す説明図である。 ダミー画像の挿入例を示す説明図である。
 以下、本発明の実施形態を図面を参照して説明する。
 図1は、映像符号化装置の実施形態(第1の実施形態)を示すブロック図である。本実施形態の映像符号化装置100は、ピクチャ内でのサブピクチャの左上の位置をCTUの倍数とするための画像処理量が最小化されるように、サブピクチャの画像サイズを監視してCTUサイズを制御する手段を備える。
 本実施形態では、説明の簡略化のため、4つの2K映像(1920×1080画素)をサブピクチャとして田の字に配置するビットストリームを生成する場合の動作を例にする。また、利用できるCTUサイズは、32、64、または128とする。利用できるCTUサイズの候補を、candCtuSize(32、64、または128)と表現する。
 図1に示す映像符号化装置100は、変換/量子化器101、エントロピー符号化器102、逆量子化/逆変換器103、バッファ104、予測器105、多重化器106、ダミー画像挿入器107、および符号化制御器108を備える。
 符号化制御器108は、入力映像の各サブピクチャの画像サイズとしての幅subPicWidthと高さsubPicHeightを監視する。
 ダミー画像挿入器107は、各サブピクチャの境界の近傍にダミー画像を挿入する。
 予測器105は、CTU毎に、CU形状を決定するsplit_cu_flagシンタクス値、split_qt_flagシンタクス値、mtt_split_cu_vertical_flagシンタクス値、およびmtt_split_cu_binary_flagシンタクス値を決定する。CU形状は、例えば、符号化コストを最小にする形状である。
 また、予測器105は、CU毎に、イントラ予測/インター予測を決定するpred_mode_flagシンタクス値、イントラ予測方向、および動きベクトルを決定する。それらの値は、例えば、符号化コストを最小にするような値である。
 さらに、予測器105は、決定されたsplit_cu_flagシンタクス値、split_qt_flagシンタクス値、mtt_split_cu_vertical_flagシンタクス値、mtt_split_cu_binary_flagシンタクス値、pred_mode_flagシンタクス値、イントラ予測方向、および動きベクトルなどに基づいて、各CUの入力画像信号に対する予測信号を生成する。予測信号は、上述したイントラ予測またはインター予測に基づいて生成される。
 変換/量子化器101は、減算器で入力画像信号から予測信号が減じられた予測誤差画像を、周波数変換する。さらに、変換/量子化器101は、周波数変換された予測誤差画像(周波数変換係数)を量子化する。以下、量子化された周波数変換係数を変換量子化値と呼ぶ。
 エントロピー符号化器102は、予測器105が決定したsplit_cu_flagシンタクス値、split_qt_flagシンタクス値、mtt_split_cu_vertical_flagシンタクス値、mtt_split_cu_binary_flagシンタクス値、pred_mode_flagシンタクス値、イントラ予測方向、動きベクトルの差分情報、および変換量子化値をエントロピー符号化する。
 逆量子化/逆変換器103は、変換量子化値を逆量子化する。さらに、逆量子化/逆変換器103は、逆量子化した周波数変換係数を逆周波数変換する。逆周波数変換された再構築予測誤差画像は、加算器によって予測信号が加えられた後、バッファ104に供給される。バッファ104は、再構築画像を格納する。
 多重化器106は、符号化制御器108から供給されるctuSize(CTUサイズ)とサブピクチャの位置情報、およびエントロピー符号化器102から供給されるエントロピー符号化データを多重化し、ビットストリームとして出力する。
 上述した動作によって、本実施形態の映像符号化装置100は、ビットストリームを生成して出力する。
 次に、図2のフローチャートを参照して、符号化制御器108およびダミー画像挿入器107の動作を説明する。
 符号化制御器108は、subPicWidthとsubPicHeightとに基づいて、CTUサイズ、垂直ダミー画像幅、および水平ダミー画像幅を確定する(ステップS1001)。
 具体的には、符号化制御器108は、ステップS1001の処理で、各candCtuSize(CTUサイズの候補)について、candCtuSizeをsubPicWidthで割り、剰余remainderを求める。符号化制御器108は、remainderが0のときに、垂直ダミー画像幅dWを0にする。符号化制御器108は、remainderが0でないときに、dWを(candCtuSize-remainder)とする。同様に、符号化制御器108は、各candCtuSizeについて、candCtuSizeをsubPicHeightを割り、剰余remainderを求める。符号化制御器108は、remainderが0のときに、水平ダミー画像幅dHを0にする。符号化制御器108は、remainderが0ないときに、dHを(candCtuSize-remainder)とする。
 なお、符号化制御器108は、対応するダミー画像の面積が小さく、なるべく大きなcandCtuSizeを、CTUサイズctuSizeとして確定する。ただし、ダミー画像の面積は、dH× dWと(subPicWidth+dW)×dHとの和である。
 結果として、本実施形態では、ctuSizeは64になり、対応するdWは0になり、対応するdHは8になる。符号化制御器108は、ctuSizeを予測器105に供給する。また、符号化制御器108は、dWとdHとをダミー画像挿入器107に供給する。
 本実施形態において、サブピクチャの位置情報として、非特許文献1に示されるサブピクチャシンタクスを使用可能である。すなわち、サブピクチャの位置情報は、サブピクチャの有無(0:無、1:有)を示すsps_subpic_info_present_flag、サブピクチャの個数から1を減じた値を示すsps_num_subpics_minus1、最初のサブピクチャ以外の各サブピクチャの左上の水平位置および垂直位置を示すsps_subpic_ctu_top_left_x[i]およびsps_subpic_ctu_top_left_y[i] (ただし、i>0)、および、最後のサブピクチャ以外の各サブピクチャの幅および高さを示すsps_subpic_width_minus1[i]およびsps_subpic_height_minus1[i]である(ただし、i < sps_num_subpics_minus1)。
 本実施形態では、sps_subpic_info_present_flag=1、sps_num_subpics_minus1=3、sps_subpic_ctu_top_left_x[1]=1920/ctuSize、sps_subpic_ctu_top_left_y[1]=0、sps_subpic_ctu_top_left_x[2]=0、sps_subpic_ctu_top_left_y[2]=(1080+dH)/ctuSize、sps_subpic_ctu_top_left_x[3]=1920/ctuSize、sps_subpic_ctu_top_left_y[3]=(1080+dH)/ctuSize、sps_subpic_width_minus1[i]=1920/ctuSize-1、sps_subpic_height_minus1[i] =(1080+dH)/ctuSize-1になる。
 ダミー画像挿入器107は、各サブピクチャの境界の近傍にダミー画像を挿入する(ステップS1002)。
 図3は、ダミー画像の挿入例を示す説明図である。図3に示す例は、VVCのサブピクチャを利用して4つの2K映像がサブピクチャとして配置された例である(CTUサイズ64でdH=8)。
 また、符号化制御器108は、予測器105にCTUサイズを設定し、予測器105に各CTUのCU形状を決定するシンタクス値を決定させる(ステップS1003)。また、符号化制御器108は、多重化器106に、サブピクチャの位置情報を多重化させる(ステップS1004)。
 本実施形態では、符号化制御器108は、ピクチャ内でのサブピクチャの左上の位置をCTUの倍数とするための画像処理の処理量が低減するように映像符号化処理を制御する。例えば、符号化制御器108は、対応するダミー画像の面積を小さくし、かつ、可能な限り大きなcandCtuSizeをCTUサイズctuSizeとする。よって、本実施形態では、ダミー画像の面積の削減分に応じた、ビット数削減による画質劣化の抑制および処理量の削減の効果が得られる。一例としての図3と図27との比較からわかるように、本実施形態の映像符号化装置100では、ピクチャ内でのサブピクチャの左上の位置をCTUの倍数とするための各ダミー画像の面積が3840×72から3840×8(dH=8)に削減される。
 図4は、映像復号装置の実施形態を示すブロック図である。本実施形態の映像復号装置200は、多重化解除器201、エントロピー復号器202、逆量子化/逆変換器203、予測器204、バッファ205、および復号制御器206を備える。
 図5のフローチャートを参照して、映像復号装置200の動作を説明する。
 多重化解除器201は、入力されるビットストリームを多重化解除して、CTUサイズctuSize、サブピクチャの位置情報、およびエントロピー符号化データを抽出する(ステップS2001)。
 エントロピー復号器202は、エントロピー符号化データをエントロピー復号する(ステップS2002)。エントロピー復号器202は、エントロピー復号した変換量子化値を、逆量子化/逆変換器203に供給する。また、エントロピー復号器202は、split_cu_flag、split_qt_flag、mtt_split_cu_vertical_flag、mtt_split_cu_binary_flag、pred_mode_flag、イントラ予測方向、および動きベクトルの差分情報を、予測器204に供給する。
 逆量子化/逆変換器203は、量子化ステップ幅で、変換量子化値を逆量子化する。さらに、逆量子化/逆変換器203は、逆量子化した周波数変換係数を逆周波数変換する(ステップS2003)。
 予測器204は、split_cu_flag、split_qt_flag、mtt_split_cu_vertical_flag、mtt_split_cu_binary_flag、pred_mode_flag、イントラ予測方向、および動きベクトルの差分情報に基づいて、各サブブロックの予測信号を生成する(ステップS2004)。予測信号は、上述したイントラ予測または動き補償予測に基づいて生成される。
 逆量子化/逆変換器203で逆周波数変換された再構築予測誤差画像は、加算器によって、予測器204から供給される予測信号が加えられた後、再構築ピクチャとしてバッファ205に供給される。バッファ205は、再構築ピクチャを格納する(ステップS2005)。
 復号制御器206は、サブピクチャの位置情報に基づいて、sps_subpic_info_present_flagが1のときに、デコード画像に含まれる各サブピクチャの画像を、バッファ205から出力させる(ステップS2006)。すなわち、復号制御器206は、サブピクチャの位置情報(本実施形態では、VVC規格のサブピクチャシンタクス)に基づいて、デコード画像に含まれる各サブピクチャの画像の出力を制御する。
 上述した動作によって、本実施形態の映像復号装置200は、デコード画像を生成して出力する。
実施形態2.
 図6は、映像符号化装置の実施形態(第2の実施形態)を示すブロック図である。本実施形態の映像符号化装置100は、変換/量子化器101、エントロピー符号化器102、逆量子化/逆変換器103、バッファ104、予測器105、多重化器106、および符号化制御器108を備える。第1の実施形態とは異なり、本実施形態の映像符号化装置100には、ダミー画像挿入器107が備えられていない。
 本実施形態の映像符号化装置100は、ピクチャ内でのサブピクチャの左上の位置をCTUの倍数にするための画像処理量を最小化するためのダミー画像の挿入を行わない。すなわち、本実施形態の映像符号化装置100は、VVCのサブピクチャを利用しない。
 第1の実施形態と同様に、本実施形態でも、説明の簡略化のため、4つの2K映像(1920×1080画素)をサブピクチャとして田の字に配置するビットストリームを生成する場合の動作を例にする。
 予測器105は、CTU毎に、CU形状を決定するsplit_cu_flagシンタクス値、split_qt_flagシンタクス値、mtt_split_cu_vertical_flagシンタクス値、およびmtt_split_cu_binary_flagシンタクス値を決定する。CU形状は、例えば、符号化コストを最小にする形状である。
 また、予測器105は、CU毎に、イントラ予測/インター予測を決定するpred_mode_flagシンタクス値、イントラ予測方向、および動きベクトルを決定する。それらの値は、例えば、符号化コストを最小にするような値である。
 さらに、予測器105は、決定されたsplit_cu_flagシンタクス値、split_qt_flagシンタクス値、mtt_split_cu_vertical_flagシンタクス値、mtt_split_cu_binary_flagシンタクス値、pred_mode_flagシンタクス値、イントラ予測方向、および動きベクトルなどに基づいて、各CUの入力画像信号に対する予測信号を生成する。予測信号は、上述したイントラ予測またはインター予測に基づいて生成される。
 変換/量子化器101は、減算器で入力画像信号から予測信号が減じられた予測誤差画像を、周波数変換する。さらに、変換/量子化器101は、周波数変換された予測誤差画像(周波数変換係数)を量子化して変換量子化値を生成する。
 エントロピー符号化器102は、予測器105が決定したsplit_cu_flagシンタクス値、split_qt_flagシンタクス値、mtt_split_cu_vertical_flagシンタクス値、mtt_split_cu_binary_flagシンタクス値、pred_mode_flagシンタクス値、イントラ予測方向、動きベクトルの差分情報、および変換量子化値をエントロピー符号化する。
 逆量子化/逆変換器103は、変換量子化値を逆量子化する。さらに、逆量子化/逆変換器103は、逆量子化した周波数変換係数を逆周波数変換する。逆周波数変換された再構築予測誤差画像は、加算器によって予測信号が加えられた後、バッファ104に供給される。バッファ104は、再構築画像を格納する。
 多重化器106は、符号化制御器108から供給されるサブピクチャの位置情報、および、エントロピー符号化器102から供給されるエントロピー符号化データを多重化し、ビットストリームとして出力する。
 上述した動作によって、本実施形態の映像符号化装置100は、ビットストリームを生成して出力する。
 次に、本実施形態における符号化制御器108による制御を説明する。本実施形態では、符号化制御器108は、サブピクチャの位置情報を多重化器106に供給する。
 本実施形態において、サブピクチャの位置情報として、非特許文献1に示される仮想境界シンタクスを使用可能である。すなわち、サブピクチャの位置情報は、仮想境界の有無(0:無、1:有)を示すsps_virtual_boundaries_present_flag、垂直方向の仮想境界の数を示すsps_num_ver_virtual_boundaries、垂直方向の仮想境界の水平位置(水平方向の位置)を8で割った値から1を減じた値を示すsps_virtual_boundary_pos_x_minus1[i](ただし、0 <= i < sps_num_ver_virtual_boundaries)、水平方向の仮想境界の数を示すsps_num_hor_virtual_boundaries、水平方向の仮想境界の垂直位置(垂直方向の位置)を8で割った値から1を減じた値を示すsps_virtual_boundary_pos_y_minus1[i](ただし、0 <= i < sps_num_hor_virtual_boundaries)である。
 本実施形態では、sps_virtual_boundaries_present_flag=1、sps_num_ver_virtual_boundaries=1、sps_virtual_boundary_pos_x_minus1[0]=(1920/8)-1、sps_num_hor_virtual_boundaries=1、sps_virtual_boundary_pos_y_minus1[0]=(1080/8)-1になる。
 図7は、ダミー画像を使用しないサブピクチャの配置例を示す説明図である。図7に示す例は、VVCのサブピクチャを利用せずに4つの2K映像がサブピクチャとして配置される例である。
 本実施形態でも、符号化制御器108は、ピクチャ内でのサブピクチャの左上の位置をCTUの倍数とするための画像処理の処理量が低減するように映像符号化処理を制御する。本実施形態では、符号化制御器108は、ダミー画像の面積を0にするように制御する。よって、本実施形態でも、ダミー画像の面積の削減分に応じた、ビット数削減による画質劣化の抑制および処理量の削減の効果が得られる。一例としての図7と図27との比較からわかるように、本実施形態の映像符号化装置100では、ピクチャ内でのサブピクチャの左上の位置をCTUの倍数とするための各ダミー画像の面積が3840×72から0に削減される。よって、ダミー画像の面積の削減分に応じた、ビット数削減による画質劣化の抑制および処理量の削減の効果が得られる。
 本実施形態の映像復号装置の構成は、図4に示された第1の実施形態の映像復号装置200の構成と同じである。ただし、本実施形態における復号制御器206は、第1の実施形態とは異なる制御を行う。具体的には、本実施形態における復号制御器206のサブピクチャの画像の出力制御の基準は、第1の実施形態における基準とは異なる。
 多重化解除器201、エントロピー復号器202、逆量子化/逆変換器203、予測器204、およびバッファ205の動作は、第1の実施形態における動作と同じである。
 本実施形態では、復号制御器206は、サブピクチャの位置情報に基づいて、sps_virtual_boundaries_present_flagが1のときにデコード画像に含まれる各サブピクチャのデコード画像を、バッファ205から出力させる。すなわち、復号制御器206は、sps_virtual_boundaries_present_flagの値に基づいて、デコード画像に含まれる各サブピクチャの画像の出力を制御する。
 以下、第1の各実施形態の変形例を説明する。
 第1の実施形態では、4つの2K映像(1920×1080画素)をサブピクチャとして田の字に配置するビットストリームを生成する場合の動作を例にしたが、他の解像度の映像が対象とされてもよい。
 一例として、16個の2K映像をサブピクチャとして配置するビットストリーム、9個の720p(pixel)映像(1280×720画素)をサブピクチャとして配置するビットストリーム、36個の720p映像(1280×720画素)をサブピクチャとして配置するビットストリームに関して、第1の実施形態の考え方を適用できる。
 図8は、16個の2K映像がサブピクチャとして配置された例(CTUサイズ64でdH=8)を示す説明図である。図9は、9個の720p映像がサブピクチャとして配置された例(CTUサイズ32でdH=16)を示す説明図である。図10は、36個の720p映像がサブピクチャとして配置された例(CTUサイズ32でdH=16)を示す説明図である。
 また、非特許文献1のC.7 Subpicture sub-bitstream extraction processにおける式(C.24)および(C.25)に記載されているピクチャサイズのクリッピングを考慮して、ピクチャの右と下の端においてダミー画像を挿入しないようにすることができる。
 図11は、ピクチャの下端においてダミー画像を挿入せずに4つの2K映像をサブピクチャとして配置する例(CTUサイズ64でdH=8)を示す説明図である。図12は、ピクチャの下端においてダミー画像を挿入せずに16個の2K映像をサブピクチャとして配置する例(CTUサイズ64でdH=8)を示す説明図である。図13は、ピクチャの下端においてダミー画像を挿入せずに9個の720p映像をサブピクチャとして配置する例(CTUサイズ32でdH=16)を示す説明図である。図14は、ピクチャの下端においてダミー画像を挿入せずに36個の720p映像をサブピクチャとして配置する例(CTUサイズ32でdH=16)を示す説明図である。
 次に、第2の各実施形態の変形例を説明する。
 第2の実施形態では、4つの2K映像(1920×1080画素)をサブピクチャとして田の字に配置するビットストリームを生成する場合の動作を例にしたが、他の解像度の映像が対象とされてもよい。
 一例として、16個の2K映像をサブピクチャとして配置するビットストリーム、9個の720p映像(1280×720画素)をサブピクチャとして配置するビットストリームに関して、第2の実施形態の考え方を適用できる。
 図15は、16個の2K映像がサブピクチャとして配置された例を示す説明図である。図16は、9個の720p映像がサブピクチャとして配置された例を示す説明図である。
 なお、第1の実施形態と第2の実施形態とを組み合わせて利用してもよい。組み合わせる場合、ダミー画像を含むサブピクチャの位置情報は、sps_subpic_info_present_flag、sps_num_subpics_minus1、sps_subpic_ctu_top_left_x[i]とsps_subpic_ctu_top_left_y[i]、および、sps_subpic_width_minus1[i]とsps_subpic_height_minus1[i]とで設定され、サブピクチャとダミー画像の境界位置情報は、sps_virtual_boundaries_present_flag、sps_num_ver_virtual_boundarie、sps_virtual_boundary_pos_x_minus1[i]、sps_num_hor_virtual_boundaries、および、sps_virtual_boundary_pos_y_minus1[i]で設定される。符号化制御器108は、それらの情報を多重化器106に供給する。
 図17は、第1の実施形態と第2の実施形態とを組み合わされた場合の4つの2K映像がサブピクチャとして配置された例(CTUサイズ64でdH=8)を示す説明図である。
 図17に示す例では、sps_subpic_info_present_flag=1、sps_num_subpics_minus1=3、sps_subpic_ctu_top_left_x[1]=1920/ctuSize、sps_subpic_ctu_top_left_y[1]=0、sps_subpic_ctu_top_left_x[2]=0、sps_subpic_ctu_top_left_y[2]=(1080+dH)/ctuSize、sps_subpic_ctu_top_left_x[3]=1920/ctuSize、sps_subpic_ctu_top_left_y[3]=(1080+dH)/ctuSize、sps_subpic_width_minus1[i]=1920/ctuSize-1、sps_subpic_height_minus1[i]=(1080+dH)/ctuSize-1、sps_virtual_boundaries_present_flag=1、sps_num_ver_virtual_boundaries=1、sps_virtual_boundary_pos_x_minus1[0]=(1920/8)-1、sps_num_hor_virtual_boundaries=2、sps_virtual_boundary_pos_y_minus1[0]=(1080/8)-1、sps_virtual_boundary_pos_y_minus1[1]=((2*1080+dH)/8)-1である。
 また、第1の実施形態と第2の実施形態とを組み合わされた場合にも、非特許文献1のC.7 Subpicture sub-bitstream extraction processにおける式(C.24)および(C.25)に記載されているピクチャサイズのクリッピングを考慮して、ピクチャの右と下の端においてダミー画像を挿入しないようにすることができる。
 図18は、第1の実施形態と第2の実施形態とを組み合わされた場合に、ピクチャの下端においてダミー画像を挿入せずに4つの2K映像をサブピクチャとして配置する例(CTUサイズ64でdH=8)を示す説明図である。
 第1の実施形態と第2の実施形態とが組み合わされ、ダミー画像を挿入しない場合には、sps_subpic_info_present_flag=1、sps_num_subpics_minus1=3、sps_subpic_ctu_top_left_x[1]=1920/ctuSize、sps_subpic_ctu_top_left_y[1]=0、sps_subpic_ctu_top_left_x[2]=0、sps_subpic_ctu_top_left_y[2]=(1080+dH)/ctuSize、sps_subpic_ctu_top_left_x[3]=1920/ctuSize、sps_subpic_ctu_top_left_y[3]=(1080+dH)/ctuSize、sps_subpic_width_minus1[i]=1920/ctuSize-1、sps_subpic_height_minus1[i] =(1080+dH)/ctuSize-1、sps_virtual_boundaries_present_flag=1、sps_num_ver_virtual_boundaries=1、sps_virtual_boundary_pos_x_minus1[0]=(1920/8)-1、sps_num_hor_virtual_boundaries=1、sps_virtual_boundary_pos_y_minus1[0]=(1080/8)-1である。
 図19は、映像システムの一例を示すブロック図である。図19に示す映像システムは、上記の各実施形態の映像符号化装置100と映像復号装置200とが、伝送路(無線伝送路または有線伝送路)300で接続されるシステムである。映像符号化装置100は、上記の各実施形態のいずれかの映像符号化装置100である。映像復号装置200は、上記の各実施形態のいずれかの映像復号装置200である。
 映像システムにおいて、映像符号化装置100は、上記の各実施形態で説明された特徴を持つビットストリームを生成できる。また、映像システムにおいて、映像復号装置200は、上記の各実施形態で説明された特徴を持つビットストリームを復号できる。
 また、上記の各実施形態を、ハードウェアで構成することも可能であるが、コンピュータプログラムにより実現することも可能である。
 図20に示す情報処理システムは、CPU(Central Processing Unit)等のプロセッサ1001、プログラムメモリ1002、映像データを格納するための記憶媒体1003およびビットストリームを格納するための記憶媒体1004を備える。記憶媒体1003と記憶媒体1004とは、別個の記憶媒体であってもよいし、同一の記憶媒体からなる記憶領域であってもよい。記憶媒体として、ハードディスク等の磁気記憶媒体を用いることができる。
 情報処理システムにおいて、プログラムメモリ1002には、上記の各実施形態で示された各ブロック(バッファのブロックを除く)の機能を実現するためのプログラム(映像符号化プログラムまたは映像復号プログラム)が格納される。そして、プロセッサ1001は、プログラムメモリ1002に格納されているプログラムに従って処理を実行することによって、各実施形態で示された映像符号化装置100または映像復号装置200の機能を実現する。
 なお、少なくともプログラムメモリ1002は、非一時的なコンピュータ可読媒体(non-transitory computer readable medium)である。ただし、プログラムは、様々なタイプの一時的なコンピュータ可読媒体(transitory computer readable medium)に格納されてもよい。一時的なコンピュータ可読媒体には、例えば、有線通信路または無線通信路を介して、すなわち、電気信号、光信号または電磁波を介して、プログラムが供給される。
 図21は、映像符号化装置の主要部を示すブロック図である。図21に示す映像符号化装置10は、四分木またはマルチタイプ木で分割されたCUに予測および変換を適用し、ピクチャ内でのサブピクチャの左上の位置をCTUの倍数とするための画像処理が最小化されるように映像符号化処理を制御する制御部(制御手段)11(実施形態では、符号化制御器108で実現される。)を備えている。
 図22は、映像復号装置の主要部を示すブロック図である。図22に示す映像復号装置20は、四分木またはマルチタイプ木で分割されたCUに予測および変換を適用し、ピクチャ内でのサブピクチャの左上の位置をCTUの倍数とするための画像処理が最小化されるように多重化されたVVC規格のサブピクチャシンタクスもしくは仮想境界シンタクス、またはサブピクチャシンタクスと仮想境界シンタクスとを抽出する抽出部(抽出手段)21(実施形態では、多重化解除器201で実現される。)と、抽出部21が抽出したシンタクスに基づいてデコード画像に含まれる各サブピクチャの出力を制御する制御部(制御手段)22(実施形態では、復号制御器206で実現される。)とを備えている。
 上記の実施形態の一部または全部は、以下の付記のようにも記載され得るが、以下に限定されるわけではない。
(付記1)四分木またはマルチタイプ木で分割されたCUに予測および変換を適用する映像符号化装置であって、
 ピクチャ内でのサブピクチャの左上の位置をCTUの倍数とするための画像処理が最小化されるように映像符号化処理を制御する制御手段を備える
 映像符号化装置。
(付記2)前記制御手段は、VVC規格のサブピクチャシンタクスを符号化データに多重化させる
 付記1の映像符号化装置。
(付記3)前記制御手段は、サブピクチャの画像サイズを監視してCTUサイズを制御する
 付記1または付記2の映像符号化装置。
(付記4)前記制御手段は、VVC規格の仮想境界シンタクスを符号化データに多重化させる
 付記1または付記2の映像符号化装置
(付記5)四分木またはマルチタイプ木で分割されたCUに予測および変換を適用する映像復号装置であって、
 ピクチャ内でのサブピクチャの左上の位置をCTUの倍数とするための画像処理が最小化されるように多重化されたVVC規格のサブピクチャシンタクスもしくは仮想境界シンタクス、または前記サブピクチャシンタクスと前記仮想境界シンタクスとを抽出する抽出手段と、
 前記抽出手段が抽出したシンタクスに基づいてデコード画像に含まれる各サブピクチャの出力を制御する制御手段と
 を備える映像復号装置。
(付記6)付記1から付記4のうちのいずれかの映像符号化装置と、
 付記5の映像復号装置と
 を備える映像システム。
(付記7)四分木またはマルチタイプ木で分割されたCUに予測および変換を適用する映像符号化方法であって、
 ピクチャ内でのサブピクチャの左上の位置をCTUの倍数とするための画像処理が最小化されるように映像符号化処理を制御する
 映像符号化方法。
(付記8)VVC規格のサブピクチャシンタクスを符号化データに多重化する
 付記7の映像符号化方法。
(付記9)サブピクチャの画像サイズを監視してCTUサイズを制御する
 付記7または付記8の映像符号化方法。
(付記10)VVC規格の仮想境界シンタクスを符号化データに多重化する
 付記7または付記8の映像符号化方法。
(付記11)四分木またはマルチタイプ木で分割されたCUに予測および変換を適用する映像復号方法であって、
 ピクチャ内でのサブピクチャの左上の位置をCTUの倍数とするための画像処理が最小化されるように多重化されたVVC規格のサブピクチャシンタクスもしくは仮想境界シンタクス、または前記サブピクチャシンタクスと前記仮想境界シンタクスとを抽出し、
 抽出されたシンタクスに基づいてデコード画像に含まれる各サブピクチャの出力を制御する
 映像復号方法。
(付記12)コンピュータに、
 四分木またはマルチタイプ木で分割されたCUに予測および変換を適用する処理と、
 ピクチャ内でのサブピクチャの左上の位置をCTUの倍数とするための画像処理が最小化されるように映像符号化処理を制御する処理と
 を実行させる映像符号化プログラムが格納されたコンピュータ読み取り可能な記録媒体。
(付記13)コンピュータに、
 VVC規格のサブピクチャシンタクスを符号化データに多重化する処理
 を実行させる映像符号化プログラムが格納された付記12のコンピュータ読み取り可能な記録媒体。
(付記14)コンピュータに、
 サブピクチャの画像サイズを監視してCTUサイズを制御する処理
 を実行させる映像符号化プログラムが格納された付記12または付記13のコンピュータ読み取り可能な記録媒体。
(付記15)コンピュータに、
 VVC規格の仮想境界シンタクスを符号化データに多重化する処理
 を実行させる映像符号化プログラムが格納された付記12または付記13のコンピュータ読み取り可能な記録媒体。
(付記16)コンピュータに、
 四分木またはマルチタイプ木で分割されたCUに予測および変換を適用する処理と、
 ピクチャ内でのサブピクチャの左上の位置をCTUの倍数とするための画像処理が最小化されるように多重化されたVVC規格のサブピクチャシンタクスもしくは仮想境界シンタクス、または前記サブピクチャシンタクスと前記仮想境界シンタクスとを抽出する処理と、
 抽出されたシンタクスに基づいてデコード画像に含まれる各サブピクチャの出力を制御する処理と
 を実行させる映像復号プログラムが格納されたコンピュータ読み取り可能な記録媒体。
(付記17)コンピュータに、
 四分木またはマルチタイプ木で分割されたCUに予測および変換を適用する処理と、
 ピクチャ内でのサブピクチャの左上の位置をCTUの倍数とするための画像処理が最小化されるように映像符号化処理を制御する処理と
 を実行させるための映像符号化プログラム。
(付記18)コンピュータに、
 VVC規格のサブピクチャシンタクスを符号化データに多重化する処理
 を実行させる付記17の映像符号化プログラム。
(付記19)コンピュータに、
 サブピクチャの画像サイズを監視してCTUサイズを制御する処理
 を実行させる付記17または付記18の映像符号化プログラム。
(付記20)コンピュータに、
 VVC規格の仮想境界シンタクスを符号化データに多重化する処理
 を実行させる付記17または付記18の映像符号化プログラム。
(付記21)コンピュータに、
 四分木またはマルチタイプ木で分割されたCUに予測および変換を適用する処理と、
 ピクチャ内でのサブピクチャの左上の位置をCTUの倍数とするための画像処理が最小化されるように多重化されたVVC規格のサブピクチャシンタクスもしくは仮想境界シンタクス、または前記サブピクチャシンタクスと前記仮想境界シンタクスとを抽出する処理と、
 抽出されたシンタクスに基づいてデコード画像に含まれる各サブピクチャの出力を制御する処理と
 を実行させるための映像復号プログラム。
(付記22)付記7から付記10のいずれかの映像符号化方法の各ステップを実行する映像符号化プログラム。
(付記23)付記11の映像復号方法の各ステップを実行する映像復号プログラム。
 以上、実施形態を参照して本願発明を説明したが、本願発明は上記の実施形態に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。
 10   映像符号化装置
 11   制御部
 20   映像復号装置
 21   抽出部
 22   制御部
 100  映像符号化装置
 101  変換/量子化器
 102  エントロピー符号化器
 103  逆量子化/逆変換器
 104  バッファ
 105  予測器
 106  多重化器
 107  ダミー画像挿入器
 108  符号化制御器
 200  映像復号装置
 201  多重化解除器
 202  エントロピー復号器
 203  逆量子化/逆変換器
 204  予測器
 205  バッファ
 206  復号制御器
 300  伝送路
 1001 プロセッサ
 1002 プログラムメモリ
 1003,1004 記憶媒体

Claims (16)

  1.  四分木またはマルチタイプ木で分割されたCUに予測および変換を適用する映像符号化装置であって、
     ピクチャ内でのサブピクチャの左上の位置をCTUの倍数とするための画像処理が最小化されるように映像符号化処理を制御する制御手段を備える
     映像符号化装置。
  2.  前記制御手段は、VVC規格のサブピクチャシンタクスを符号化データに多重化させる
     請求項1に記載の映像符号化装置。
  3.  前記制御手段は、サブピクチャの画像サイズを監視してCTUサイズを制御する
     請求項1または請求項2に記載の映像符号化装置。
  4.  前記制御手段は、VVC規格の仮想境界シンタクスを符号化データに多重化させる
     請求項1または請求項2に記載の映像符号化装置。
  5.  四分木またはマルチタイプ木で分割されたCUに予測および変換を適用する映像復号装置であって、
     ピクチャ内でのサブピクチャの左上の位置をCTUの倍数とするための画像処理が最小化されるように多重化されたVVC規格のサブピクチャシンタクスもしくは仮想境界シンタクス、または前記サブピクチャシンタクスと前記仮想境界シンタクスとを抽出する抽出手段と、
     前記抽出手段が抽出したシンタクスに基づいてデコード画像に含まれる各サブピクチャの出力を制御する制御手段と
     を備える映像復号装置。
  6.  請求項1から請求項4のうちのいずれか1項に記載の映像符号化装置と、
     請求項5に記載の映像復号装置と
     を備える映像システム。
  7.  四分木またはマルチタイプ木で分割されたCUに予測および変換を適用する映像符号化方法であって、
     ピクチャ内でのサブピクチャの左上の位置をCTUの倍数とするための画像処理が最小化されるように映像符号化処理を制御する
     映像符号化方法。
  8.  VVC規格のサブピクチャシンタクスを符号化データに多重化する
     請求項7に記載の映像符号化方法。
  9.  サブピクチャの画像サイズを監視してCTUサイズを制御する
     請求項7または請求項8に記載の映像符号化方法。
  10.  VVC規格の仮想境界シンタクスを符号化データに多重化する
     請求項7または請求項8に記載の映像符号化方法。
  11.  四分木またはマルチタイプ木で分割されたCUに予測および変換を適用する映像復号方法であって、
     ピクチャ内でのサブピクチャの左上の位置をCTUの倍数とするための画像処理が最小化されるように多重化されたVVC規格のサブピクチャシンタクスもしくは仮想境界シンタクス、または前記サブピクチャシンタクスと前記仮想境界シンタクスとを抽出し、
     抽出されたシンタクスに基づいてデコード画像に含まれる各サブピクチャの出力を制御する
     映像復号方法。
  12.  コンピュータに、
     四分木またはマルチタイプ木で分割されたCUに予測および変換を適用する処理と、
     ピクチャ内でのサブピクチャの左上の位置をCTUの倍数とするための画像処理が最小化されるように映像符号化処理を制御する処理と
     を実行させる映像符号化プログラムが格納されたコンピュータ読み取り可能な記録媒体。
  13.  コンピュータに、
     VVC規格のサブピクチャシンタクスを符号化データに多重化する処理
     を実行させる映像符号化プログラムが格納された請求項12に記載のコンピュータ読み取り可能な記録媒体。
  14.  コンピュータに、
     サブピクチャの画像サイズを監視してCTUサイズを制御する処理
     を実行させる映像符号化プログラムが格納された請求項12または請求項13に記載のコンピュータ読み取り可能な記録媒体。
  15.  コンピュータに、
     VVC規格の仮想境界シンタクスを符号化データに多重化する処理
     を実行させる映像符号化プログラムが格納された請求項12または請求項13に記載のコンピュータ読み取り可能な記録媒体。
  16.  コンピュータに、
     四分木またはマルチタイプ木で分割されたCUに予測および変換を適用する処理と、
     ピクチャ内でのサブピクチャの左上の位置をCTUの倍数とするための画像処理が最小化されるように多重化されたVVC規格のサブピクチャシンタクスもしくは仮想境界シンタクス、または前記サブピクチャシンタクスと前記仮想境界シンタクスとを抽出する処理と、
     抽出されたシンタクスに基づいてデコード画像に含まれる各サブピクチャの出力を制御する処理と
     を実行させる映像復号プログラムが格納されたコンピュータ読み取り可能な記録媒体。
PCT/JP2020/032629 2020-08-28 2020-08-28 映像符号化装置、映像復号装置、映像符号化方法および映像復号方法 WO2022044268A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2022545207A JP7491385B2 (ja) 2020-08-28 2020-08-28 映像符号化装置および映像符号化方法
PCT/JP2020/032629 WO2022044268A1 (ja) 2020-08-28 2020-08-28 映像符号化装置、映像復号装置、映像符号化方法および映像復号方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2020/032629 WO2022044268A1 (ja) 2020-08-28 2020-08-28 映像符号化装置、映像復号装置、映像符号化方法および映像復号方法

Publications (1)

Publication Number Publication Date
WO2022044268A1 true WO2022044268A1 (ja) 2022-03-03

Family

ID=80352978

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2020/032629 WO2022044268A1 (ja) 2020-08-28 2020-08-28 映像符号化装置、映像復号装置、映像符号化方法および映像復号方法

Country Status (2)

Country Link
JP (1) JP7491385B2 (ja)
WO (1) WO2022044268A1 (ja)

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
B. CHOI (TENCENT), S. WENGER (STEWE), S. LIU (TENCENT): "AHG9/AHG12: Virtual boundary signalling with subpictures", 130. MPEG MEETING; 20200420 - 20200424; ALPBACH; (MOTION PICTURE EXPERT GROUP OR ISO/IEC JTC1/SC29/WG11), 3 April 2020 (2020-04-03), XP030285955 *
M. KATSUMATA (SONY), M. HIRABAYASHI (SONY), T. SUZUKI (SONY): "AHG12: Cleanup of subpicture layout signalling", 131. MPEG MEETING; 20200629 - 20200703; ONLINE; (MOTION PICTURE EXPERT GROUP OR ISO/IEC JTC1/SC29/WG11), no. m54057 ; JVET-S0071, 18 June 2020 (2020-06-18), XP030288268 *
M. KATSUMATA (SONY), M. HIRABAYASHI (SONY), T. TSUKUBA (SONY), T. SUZUKI (SONY): "AHG12: On subpicture layout signalling", 130. MPEG MEETING; 20200420 - 20200424; ALPBACH; (MOTION PICTURE EXPERT GROUP OR ISO/IEC JTC1/SC29/WG11), no. m53103 ; JVET-R0135, 20 April 2020 (2020-04-20), XP030285992 *
V. DRUGEON (PANASONIC): "AHG12: Subpicture size calculation for subpicture extraction", 130. MPEG MEETING; 20200420 - 20200424; ALPBACH; (MOTION PICTURE EXPERT GROUP OR ISO/IEC JTC1/SC29/WG11), no. m53058 ; JVET-R0092, 2 April 2020 (2020-04-02), XP030285877 *

Also Published As

Publication number Publication date
JPWO2022044268A1 (ja) 2022-03-03
JP7491385B2 (ja) 2024-05-28

Similar Documents

Publication Publication Date Title
US20200304793A1 (en) Image coding apparatus for coding tile boundaries
US10097847B2 (en) Video encoding device, video decoding device, video encoding method, video decoding method, and program
CN108696758B (zh) 解码装置和解码方法以及编码装置和编码方法
US9204168B2 (en) Image decoding method, image coding method, image decoding apparatus, image coding apparatus, and image coding and decoding apparatus
KR102028853B1 (ko) 화상 처리 장치 및 방법
JP6497423B2 (ja) 映像復号装置、映像復号方法及びプログラム
US20160080753A1 (en) Method and apparatus for processing video signal
US9591329B2 (en) Image processing device and method for encoding and decoding image
TW202301875A (zh) 具輪廓與位階相依寫碼選項之編碼器與解碼器、編碼方法及解碼方法
KR20220019279A (ko) 화상 부호화 장치, 화상 복호 장치, 화상 부호화 방법, 화상 복호 방법, 컴퓨터 프로그램을 저장하기 위한 컴퓨터 판독 가능한 비일시적 저장 매체
EP2352296A1 (en) Moving image encoding apparatus and moving image decoding apparatus
WO2022044268A1 (ja) 映像符号化装置、映像復号装置、映像符号化方法および映像復号方法
WO2022064700A1 (ja) 映像符号化装置、映像復号装置、映像符号化方法および映像復号方法
WO2021199374A1 (ja) 映像符号化装置、映像復号装置、映像符号化方法、映像復号方法、映像システムおよびプログラム
WO2022044267A1 (ja) 映像符号化装置、映像復号装置、映像符号化方法および映像復号方法
WO2022209032A1 (ja) 映像符号化装置、映像復号装置、映像符号化方法、映像復号方法および映像システム
KR20220019283A (ko) 화상 부호화 장치, 화상 복호 장치, 화상 부호화 방법, 화상 복호 방법
CN114450949A (zh) 图像编码方法、图像编码装置、图像解码方法和图像解码装置
CN114830644A (zh) 图像编码方法和图像解码方法

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20951518

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2022545207

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 20951518

Country of ref document: EP

Kind code of ref document: A1