WO2022064700A1 - 映像符号化装置、映像復号装置、映像符号化方法および映像復号方法 - Google Patents

映像符号化装置、映像復号装置、映像符号化方法および映像復号方法 Download PDF

Info

Publication number
WO2022064700A1
WO2022064700A1 PCT/JP2020/036651 JP2020036651W WO2022064700A1 WO 2022064700 A1 WO2022064700 A1 WO 2022064700A1 JP 2020036651 W JP2020036651 W JP 2020036651W WO 2022064700 A1 WO2022064700 A1 WO 2022064700A1
Authority
WO
WIPO (PCT)
Prior art keywords
video
division
video coding
screen
computer
Prior art date
Application number
PCT/JP2020/036651
Other languages
English (en)
French (fr)
Inventor
慶一 蝶野
健太 徳満
Original Assignee
日本電気株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電気株式会社 filed Critical 日本電気株式会社
Priority to PCT/JP2020/036651 priority Critical patent/WO2022064700A1/ja
Priority to JP2022551100A priority patent/JPWO2022064700A1/ja
Publication of WO2022064700A1 publication Critical patent/WO2022064700A1/ja

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/119Adaptive subdivision aspects, e.g. subdivision of a picture into rectangular or non-rectangular coding blocks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/136Incoming video signal characteristics or properties
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/172Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a picture, frame or field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/42Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by implementation details or hardware specially adapted for video compression or decompression, e.g. dedicated software implementation
    • H04N19/436Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by implementation details or hardware specially adapted for video compression or decompression, e.g. dedicated software implementation using parallelised computational arrangements

Definitions

  • the present invention relates to a video coding device, a video decoding device, a video coding method, and a video decoding method suitable for compressing 8K video with high efficiency.
  • Non-Patent Document 1 discloses a video coding method called VVC (Versatile Video Coding).
  • each frame of the digitized video is divided into a coding tree unit (CTU: Coding Tree Unit), and each CTU is encoded.
  • CTU Coding Tree Unit
  • Each CTU has a quadtree (QT: Quad-Tree) structure or a multi-type tree (MMT: Multi-Type Tree) structure, and is divided into coding units (CU: Coding Unit) and encoded.
  • QT Quad-Tree
  • MMT Multi-Type Tree
  • CU Coding Unit
  • the blocks are divided horizontally and vertically into equal parts.
  • a division using a multi-type tree structure the block is divided horizontally or vertically into two or three parts.
  • Prediction coding includes intra prediction and motion compensation prediction.
  • the prediction error of each CU is transform-coded based on frequency conversion.
  • Intra prediction is a prediction that generates a prediction image from a reconstructed image whose display time is the same as that of the coded frame.
  • Non-Patent Document 1 defines 65 types of angle intra predictions shown in FIG. In the angular intra-prediction, the intra-prediction signal is generated by extrapolating the reconstructed pixels around the coded block in any of the 65 directions.
  • the DC intra prediction that averages the reconstructed pixels around the coded block and the Planar intra prediction that linearly interpolates the reconstructed pixels around the coded block are defined. ing.
  • the CU encoded based on the intra prediction is referred to as an intra CU.
  • Motion compensation prediction is a prediction that generates a prediction image from a reconstructed image (reference picture) whose display time is different from that of the coded frame.
  • motion compensation prediction is also referred to as inter-prediction.
  • FIG. 12 is an explanatory diagram showing an example of motion compensation prediction.
  • the motion vector MV (mv x , mv y ) indicates the translational movement amount of the reconstructed image block of the reference picture with respect to the block to be encoded.
  • interprediction an interprediction signal is generated based on the reconstructed image block of the reference picture (using pixel interpolation if necessary).
  • the CU encoded based on the motion compensation prediction is referred to as an inter-CU.
  • a frame encoded only by the intra-CU is called an I frame (or I picture).
  • a frame encoded including not only the intra CU but also the inter CU is called a P frame (or P picture).
  • a frame encoded by including an inter-CU that uses not only one reference picture but also two reference pictures at the same time in the inter-prediction of the block is called a B frame (or B picture).
  • inter-prediction using one reference picture is called one-way prediction
  • inter-prediction using two reference pictures at the same time is called bidirectional prediction
  • FIG. 13 shows an example of CTU division of the frame t when the number of pixels of the frame is CIF (CIF: Common Intermediate Format) and the CTU size is 64, and an example of division of the eighth CTU (CTU8) included in the frame t. It is explanatory drawing which shows.
  • CIF Common Intermediate Format
  • FIG. 13 shows the case where all CUs are square. However, as shown in FIG. 14, the CU may be divided into rectangles in a multi-type tree structure.
  • Non-Patent Document 1 when the split_qt_flag syntax value is 0, a multi-type tree structure is used.
  • the direction of division (horizontal, vertical) is defined by the mtt_split_cu_vertical_flag syntax value and the mtt_split_cu_binary_flag syntax value.
  • FIG. 14 (a) shows four divided shapes (divided modes) used in the multi-type tree structure.
  • SPLIT_BT_HOR and SPLIT_BT_VER are binary tree splits.
  • SPLIT_TT_HOR and SPLIT_TT_VER are ternary splits.
  • FIG. 14B shows the relationship between the divided shape and the syntax value.
  • tiles, slices, and subpictures are defined as spatial divisions of pictures.
  • the picture is divided into one or more tiles.
  • a tile is a rectangular area having a CTU as a constituent unit. References that cross tile boundaries are constrained.
  • a slice is a rectangular area whose constituent unit is a tile.
  • the Raster-Scan Slice mode is a mode in which slices are arranged in the order of raster scan.
  • the rectangular slice mode is a mode in which the area covered by the slice becomes a tile or a rectangular area having a CTU line in the tile as a unit.
  • Rectangular Slice mode slices do not have to be placed in raster scan order, with the constraint that slices tangent to the top and left sides of the slice are processed first.
  • the sub-picture is composed of one or more slices.
  • sub-picture boundaries can be considered as picture boundaries.
  • Section 4.8 of Appendix 5 of Part 1 of Non-Patent Document 2 describes screen division coding using slices with respect to the coding of 8K video using HEVC (High Efficiency Video Coding) as shown in FIG. To disclose.
  • HEVC High Efficiency Video Coding
  • the vertical position (vertical position: 1088, 2176, 3264) of each division boundary is a multiple of 64, which is the maximum CTU size of HEVC. Therefore, coding with the maximum CTU size is feasible.
  • the screen division coding described in Non-Patent Document 2 can improve the balance between the compression efficiency and the mounting cost.
  • Non-Patent Document 2 if the screen division coding described in Non-Patent Document 2 is used in VVC instead of HEVC, the compression efficiency is lowered. This is because the vertical position (1088, 2176, 3264) of each division boundary is not a multiple of 128, which is the maximum CTU size of VVC, and therefore cannot be encoded by the maximum CTU size of VVC.
  • An object of the present invention is to provide a video coding device and a video coding method capable of compressing 8K video with high efficiency when split screen coding is used.
  • the video coding device is a video coding device that applies prediction and conversion to a CU divided by a quadtree or a multi-type tree, and the value of the vertical position of each division boundary of the screen in the image is set. Includes control means to control the split position of the screen so that it is a multiple of the maximum CTU size used.
  • the video decoding device is a video decoding device that applies prediction and conversion to a CU divided by a quadtree or a multi-type tree, and is a multiple of the maximum CTU size used from a bitstream. It includes an extraction means for extracting coded data created in a plurality of division areas obtained by dividing a screen in a video by a plurality of division boundaries indicated by values.
  • the video coding method according to the present invention is a video coding method that applies prediction and conversion to a CU divided by a quadtree or a multi-type tree, and the value of the vertical position of each division boundary of the screen in the video is set.
  • the division position of the screen is controlled so as to be a multiple of the maximum CTU size used.
  • the video decoding method according to the present invention is a video decoding method that applies prediction and conversion to a CU divided by a quadtree or a multitype tree, and is a multiple of the maximum CTU size used from a bitstream.
  • the coded data created by the plurality of division areas obtained by dividing the screen in the video by the plurality of division boundaries indicated by the values is extracted.
  • the video coding program according to the present invention causes a computer to execute a process of controlling the split position of the screen so that the value of the vertical position of each split boundary of the screen in the video is a multiple of the maximum CTU size used. ..
  • the video decoding program according to the present invention is a plurality of divided regions obtained by dividing a screen in a video from a bitstream into a plurality of divided boundaries indicated by a value that is a multiple of the maximum CTU size used.
  • the process of extracting the coded data created in is executed.
  • 8K video can be compressed with high efficiency when split screen coding is used.
  • FIG. 1 is a block diagram showing an embodiment (first embodiment) of a video coding device.
  • the video coding apparatus 100 of the present embodiment includes a conversion / quantizer 101, an entropy coding device 102, an inverse quantization / inverse converter 103, a buffer 104, a predictor 105, a multiplexing device 106, and a slice divider 107. And a controller 108.
  • the transform / quantizer 101, the entropy encoder 102, the inverse quantizer / inverse converter 103, and the predictor 105 are CUs divided by quadtrees or multi-type trees, for example as specified in the VVC standard. Has the ability to apply predictions and transformations to.
  • the controller 108 monitors the video coding method to be used, and controls the screen division so that the value at the vertical position of each division boundary is a multiple of the maximum CTU size of the video coding method to be used.
  • the controller 108 supplies the screen division information corresponding to the screen division to the slice division unit 107 and the multiplexing unit 106.
  • the screen division information includes information (data) that can specify the division position of the screen.
  • the slice divider 107 divides the screen according to the control of the controller 108.
  • the predictor 105 determines the split_cu_flag syntax value, the split_qt_flag syntax value, the mtt_split_cu_vertical_flag syntax value, and the mtt_split_cu_binary_flag syntax value that determine the CU shape for each CTU.
  • the CU shape is, for example, a shape that minimizes the coding cost.
  • the predictor 105 determines the pred_mode_flag syntax value for determining the intra prediction / inter prediction, the intra prediction direction, and the motion vector for each CU. These values are, for example, values that minimize the coding cost.
  • the predictor 105 is an image of each CU based on the determined split_cu_flag syntax value, split_qt_flag syntax value, mtt_split_cu_vertical_flag syntax value, mtt_split_cu_binary_flag syntax value, pred_mode_flag syntax value, intra prediction direction, motion vector, and the like. Generate a signal. The prediction signal is generated based on the above-mentioned intra-prediction or inter-prediction.
  • the conversion / quantizer 101 frequency-converts a prediction error image in which the prediction signal is subtracted from the input image signal by the subtractor. Further, the conversion / quantizer 101 quantizes the frequency-converted prediction error image (frequency conversion coefficient). Hereinafter, the quantized frequency conversion coefficient is referred to as a conversion quantization value.
  • the entropy encoder 102 converts the split_cu_flag syntax value, split_qt_flag syntax value, mtt_split_cu_vertical_flag syntax value, mtt_split_cu_binary_flag syntax value, pred_mode_flag syntax value, intra prediction direction, motion vector difference information, and motion vector difference information determined by the predictor 105. Encode.
  • the inverse quantization / inverse converter 103 dequantizes the conversion quantization value. Further, the inverse quantized / inverse converter 103 performs inverse frequency conversion of the inverse quantized frequency conversion coefficient.
  • the inverse frequency converted reconstruction prediction error image is supplied to the buffer 104 after the prediction signal is added by the adder. The buffer 104 stores the reconstructed image.
  • the multiplexing device 106 multiplexes and outputs the entropy-coded data supplied from the entropy-coding device 102 as a bit stream. However, the multiplexing device 106 applies entropy coding to the entropy coding device 102 at the final CTU of each slice (division area: the area obtained by the division) based on the screen division information supplied from the controller 108. Suppose you want to terminate it.
  • the video coding apparatus 100 of the present embodiment generates and outputs a bit stream.
  • the controller 108 determines the video coding method to be used (step S101).
  • the video coding method to be used is specified, for example, from the outside of the video coding device 100.
  • the controller 108 controls screen division by the slice division unit 107 so that the value at the vertical position of each division boundary is a multiple of the maximum CTU size of the video coding method to be used (step S102). That is, the controller 108 determines the vertical position of each division boundary on each screen so as to be a multiple of the maximum CTU size of the video coding method used. Then, the controller 108 supplies the screen division information including the information that can specify the vertical position of each division boundary to the slice division unit 107.
  • the slice divider 107 divides each frame (screen) in the input video according to the screen split information. The screen division information is also supplied to the multiplexing device 106.
  • FIG. 3 is a flowchart showing a more specific example of the operation of the controller and the slice divider.
  • the available video coding schemes are VCS and HEVC.
  • the controller 108 determines in step S1001 whether the video coding method used is VCS or HEVC. If it is VCS, the process proceeds to step S1002. If not, the process proceeds to step S1003.
  • step S1002 the controller 108 creates screen division information corresponding to the VCS and supplies the screen division information to the slice division unit 107 and the multiplexing unit 106.
  • the slice divider 107 divides the screen according to the screen division information.
  • FIG. 4 is an explanatory diagram showing an example of screen division in VVC.
  • the value of the vertical position of each division boundary is (1152, 2304, 3456). That is, the vertical position of each division boundary is a multiple of 128. Since the value at the vertical position of each division boundary is a multiple of 128, which is the maximum CTU size of VVC, the coding processing unit (conversion / quantizer 101, inverse quantization / inverse converter 103, and predictor 105) , The coding process can be executed with the maximum CTU size of VVC.
  • step S1003 the controller 108 creates screen division information corresponding to HEVC, and supplies the screen division information to the slice division device 107 and the multiplexing device 106.
  • the slice divider 107 divides the screen according to the screen division information.
  • the maximum CTU size is 64.
  • the controller 108 supplies the screen division information corresponding to the screen division illustrated in FIG. 15 to the slice division unit 107 and the multiplexing unit 106. Since the value at the vertical position of each division boundary (1088, 2176, 3264) is a multiple of 64, which is the maximum CTU size of HEVC, the coding processing unit can execute the coding process with the maximum CTU size of HEVC.
  • the value at the vertical position of each division boundary is a multiple of the maximum CTU size of the video coding method used.
  • the video coding apparatus 100 can suitably perform high-efficiency compression of 8K video by performing coding with the maximum CTU size of each video coding method.
  • FIG. 5 is a block diagram showing an embodiment of a video decoding device.
  • the video decoder 200 of the present embodiment includes a demultiplexer 201, an entropy decoder 202, an inverse quantization / inverse converter 203, a predictor 204, and a buffer 205.
  • the video decoding device 200 is a video decoding device that applies prediction and conversion to a CU divided by a quadtree or a multi-type tree, for example, as specified in the VVC standard.
  • the demultiplexer 201 demultiplexes the input bitstream and extracts the entropy-coded data.
  • the video decoding device 200 can receive, for example, a bitstream from the video coding device 100 illustrated in FIG.
  • the demultiplexer 201 is represented by a plurality of values from the bitstream that are multiples of the maximum CTU size used. It is possible to extract the coded data created by a plurality of slices obtained by dividing the screen in the video at the division boundary of.
  • the entropy decoder 202 entropy-decodes the entropy-coded data.
  • the entropy decoder 202 supplies the entropy-decoded conversion quantization value to the inverse quantization / inverse converter 203. Further, the entropy decoder 202 supplies the difference information of split_cu_flag, split_qt_flag, mtt_split_cu_vertical_flag, mtt_split_cu_binary_flag, pred_mode_flag, intra prediction direction, and motion vector to the predictor 204.
  • the inverse quantization / inverse converter 203 dequantizes the conversion quantization value by the quantization step width. Further, the inverse quantized / inverse converter 203 performs inverse frequency conversion of the inverse quantized frequency conversion coefficient.
  • the predictor 204 generates a prediction signal for each subblock based on the difference information of split_cu_flag, split_qt_flag, mtt_split_cu_vertical_flag, mtt_split_cu_binary_flag, pred_mode_flag, intra prediction direction, and motion vector.
  • the prediction signal is generated based on the above-mentioned intra prediction or motion compensation prediction.
  • the reconstruction prediction error image that has been inversely frequency-converted by the inverse quantization / inverse converter 203 is supplied to the buffer 205 as a reconstruction picture after the prediction signal supplied from the predictor 204 is added by the adder. .. Buffer 205 stores the reconstructed picture. The reconstructed picture stored in the buffer 205 is output as a decoded image.
  • the video decoding device 200 of the present embodiment generates and outputs a decoded image.
  • Embodiment 2 the controller 108 controls to divide the 8K video (specifically, each screen constituting the 8K video) into four slices.
  • the controller 108 is controlled to be divided into five slices as shown in FIG. That is, the slice divider 107 divides the 8K video into five slices.
  • the configuration of the video coding device of the second embodiment is the same as the configuration of the video coding device 100 of the first embodiment. Further, the configuration and operation of the video decoding device of the second embodiment are the same as the configuration and operation of the video decoding device 200 of the first embodiment.
  • the vertical position (1024, 2048, 3072, 4096) of each division boundary is a multiple of 128, which is the maximum CTU size of VVC. Therefore, the coding processing unit can perform coding with the maximum CTU size of VVC.
  • the maximum number of pixels included in each slice in FIG. 6 is less than or equal to the maximum number of pixels in the case of HEVC exemplified in FIG. As a result, the maximum amount of processing per slice can be suppressed to the same level as in the case of HEVC exemplified in FIG.
  • the operation of the video coding device other than the operation of the controller 108 and the slice divider 107 is the same as the operation of the video coding device 100 of the first embodiment.
  • the controller 108 may control the multiplexing device 106 so that the entropy-coded data of each divided region is output in the order from the top to the bottom of the screen. Such control guarantees that the video can be decoded in order from top to bottom of the screen. As a result, video decoding processing using a plurality of cores can be simply realized.
  • the controller 108 may control the vertical component of the motion vector determined by the predictor 105 so that the range of the vertical component of the motion vector is limited.
  • the controller 108 of the shared memory of the video decoding device using a plurality of cores for example, by prohibiting the selection of the motion vector in which the inter-prediction straddling the division boundary refers to other than the pixels within, for example, 256 lines from the division boundary. The size can be reduced.
  • the motion vector of the VVC standard is 1/16 pixel accuracy.
  • the range is defined as -217 to 2 17 .
  • the range is from -213 (-8096) to 2 13 ( 8096).
  • the size of the shared memory can be much smaller by limiting to 256 lines, which is less than 8096 in the VVC standard.
  • slice division was used.
  • the controller 108 controls the multiplexing device 106 so that each CTU of the picture is output in order from top to bottom of the screen, and the predictor 105 determines. You may control the vertical component of the motion vector. By such control, it is guaranteed that the video can be decoded in the order from the top to the bottom of the screen, and the size of the shared memory is also suppressed to be small, so that the video decoding process using a plurality of cores can be simply realized. ..
  • FIG. 7 is a block diagram showing an example of a video system.
  • the video system shown in FIG. 7 is a system in which the video coding device 100 and the video decoding device 200 of each of the above embodiments are connected by a transmission line (wireless transmission line or wired transmission line) 300.
  • the video coding device 100 is a video coding device 100 according to any one of the above embodiments.
  • the video decoding device 200 is the video decoding device 200 of each of the above embodiments.
  • the video coding device 100 can generate a bitstream having the features described in each of the above embodiments. Further, in the video system, the video decoding device 200 can decode the bitstream having the characteristics described in each of the above embodiments.
  • each of the above embodiments can be configured by hardware, it can also be realized by a computer program.
  • the information processing system shown in FIG. 8 includes a processor 1001 such as a CPU (Central Processing Unit), a program memory 1002, a storage medium 1003 for storing video data, and a storage medium 1004 for storing a bit stream.
  • the storage medium 1003 and the storage medium 1004 may be separate storage media or may be storage areas made of the same storage medium.
  • a magnetic storage medium such as a hard disk can be used.
  • the program memory 1002 stores a program (video coding program or video decoding program) for realizing the function of each block (excluding the buffer block) shown in each of the above embodiments.
  • the processor 1001 realizes the function of the video coding device 100 or the video decoding device 200 shown in each embodiment by executing the process according to the program stored in the program memory 1002.
  • At least the program memory 1002 is a non-transitory computer readable medium.
  • the program may be stored on various types of temporary computer readable medium.
  • the temporary computer-readable medium is supplied with a program, for example, via a wired or wireless channel, i.e., via an electrical signal, an optical signal, or an electromagnetic wave.
  • FIG. 9 is a block diagram showing a main part of the video coding device.
  • the value at the vertical position of each division boundary of the screen in the video is a multiple of the maximum CTU size used (for example, the maximum CTU size of the video coding method used).
  • a control unit (control means) 11 (in the embodiment, realized by the controller 108) for controlling the division position of the screen is provided.
  • the control unit 11 supplies at least the coding processing unit with screen division information capable of specifying the screen division position.
  • FIG. 10 is a block diagram showing a main part of the video decoding device.
  • the video decoding device 20 shown in FIG. 10 is a plurality of divided regions obtained by dividing the screen in the video at a plurality of divided boundaries indicated by a value that is a multiple of the maximum CTU size used from the bit stream.
  • An extraction unit (extraction means) 21 (in the embodiment, realized by the demultiplexer 201) for extracting the created coded data is provided.
  • the extraction unit 21 supplies the coded data to the decoding processing unit (inverter quantization / inverse converter 203 and predictor 204).
  • Appendix 1 A video coding device that applies prediction and conversion to a CU divided by a quadtree or a multi-type tree.
  • An image coding device including a control means for controlling the division position of the screen so that the value of the vertical position of each division boundary of the screen in the image is a multiple of the maximum CTU size used.
  • the control means is the video coding device of Appendix 1 that controls the division position based on the maximum CTU size that can be used.
  • the control means is a video coding device according to Appendix 1 or Appendix 2, which also controls the output order of entropy-coded data of each CTU.
  • the control means is the video coding device of Appendix 1 or Appendix 2 that also controls the motion vector of each CU.
  • a video decoding device that applies prediction and conversion to CUs divided by quadtrees or multi-type trees. Extraction from the bitstream to extract the coded data created by the multiple division areas obtained by dividing the screen in the video at the multiple division boundaries indicated by values that are multiples of the maximum CTU size used.
  • a video decoder equipped with means.
  • Appendix 6 With any of the video coding devices from Appendices 1 to 4, A video system including the video decoding device of Appendix 5.
  • Appendix 8 The video coding method of Appendix 7 that controls the division position based on the maximum CTU size that can be used.
  • Appendix 9 The video coding method of Appendix 7 or Appendix 8 that also controls the output order of the entropy-coded data of each CTU.
  • Appendix 10 The video coding method of Appendix 7 or Appendix 8 that also controls the motion vector of each CU.
  • Appendix 13 To the computer The computer-readable recording medium of Appendix 12 containing a video coding program that executes a process of controlling the division position based on the maximum CTU size that can be used.
  • Appendix 14 To the computer A computer-readable recording medium according to Appendix 12 or Appendix 13 containing a video coding program that also controls the output order of the entropy-coded data of each CTU.
  • Appendix 15 To the computer A computer-readable recording medium according to Appendix 12 or Appendix 13 containing a video coding program that also controls the motion vector of each CU.
  • Appendix 18 To the computer The video coding program of Appendix 17 that executes a process of controlling the division position based on the maximum CTU size that can be used.
  • Appendix 19 To the computer The video coding program of Appendix 17 or Appendix 18 that also controls the output order of the entropy-coded data of each CTU.
  • Appendix 20 To the computer The video coding program of Appendix 17 or Appendix 18 that also controls the motion vector of each CU.
  • Video Encoding Device 11 Control Unit 20
  • Video Decoding Device 21 Extraction Unit 100
  • Video Coding Device 101 Converter / Quantizer 102
  • Inverse Quantization / Inverse Converter 104 Buffer 105
  • Predictor 106 Multiplexer 107
  • Video Decoder 201 Demultiplexer 202
  • Entropy Decoder 203 Inverse Quantization / Inverse Converter 204
  • Buffer 300 Channel 1001 Processor 1002 Program Memory 1003, 1004 Storage Medium

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Computing Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

映像符号化装置10は、四分木またはマルチタイプ木で分割されたCUに予測および変換を適用する映像符号化装置であって、映像における画面の各分割境界の垂直位置の値が、利用される最大CTUサイズの倍数になるように、画面の分割位置を制御する制御部11を含む。

Description

映像符号化装置、映像復号装置、映像符号化方法および映像復号方法
 本発明は、8K映像を高効率圧縮するのに好適な映像符号化装置、映像復号装置、映像符号化方法および映像復号方法に関する。
 非特許文献1は、VVC(Versatile Video Coding)と呼ばれる映像符号化方式を開示する。
 非特許文献1に記載された映像符号化方式では、ディジタル化された映像の各フレームは符号化ツリーユニット(CTU:Coding Tree Unit)に分割され、各CTUが符号化される。
 各CTUは、四分木(QT:Quad-Tree)構造またはマルチタイプ木(MMT:Multi-Type Tree)構造で、符号化ユニット(CU:Coding Unit)に分割されて符号化される。四分木構造を用いる分割では、ブロックが、水平および垂直に等分割される。マルチタイプ木構造を用いる分割では、ブロックが、水平もしくは垂直に2分割または3分割される。
 各CUは、予測符号化される。予測符号化には、イントラ予測と動き補償予測がある。各CUの予測誤差は、周波数変換に基づいて変換符号化される。
 イントラ予測は、符号化対象フレームと表示時刻が同一の再構築画像から予測画像を生成する予測である。非特許文献1では、図11に示す65種類の角度イントラ予測が定義されている。角度イントラ予測では、符号化対象ブロック周辺の再構築画素を65種類の方向のいずれかに外挿して、イントラ予測信号が生成される。非特許文献1では、角度イントラ予測に加えて、符号化対象ブロック周辺の再構築画素を平均するDCイントラ予測、および、符号化対象ブロック周辺の再構築画素を線形補間するPlanarイントラ予測が定義されている。以下、イントラ予測に基づいて符号化されたCUをイントラCUと呼ぶ。
 動き補償予測は、符号化対象フレームとは表示時刻が異なる再構築画像(参照ピクチャ)から予測画像を生成する予測である。以下、動き補償予測をインター予測ともいう。
 図12は、動き補償予測の例を示す説明図である。動きベクトルMV=(mvx, mvy)は、符号化対象ブロックに対する参照ピクチャの再構築画像ブロックの並進移動量を示す。インター予測では、参照ピクチャの再構築画像ブロックに基づいて(必要であれば画素補間を用いて)、インター予測信号が生成される。以下、動き補償予測に基づいて符号化されたCUをインターCUと呼ぶ。
 イントラCUのみで符号化されたフレームは、Iフレーム(または、Iピクチャ)と呼ばれる。イントラCUだけでなくインターCUも含めて符号化されたフレームは、Pフレーム(または、Pピクチャ)と呼ばれる。ブロックのインター予測に、1枚の参照ピクチャだけでなく、同時に2枚の参照ピクチャを用いるインターCUを含めて符号化されたフレームは、Bフレーム(またはBピクチャ)と呼ばれる。
 なお、1枚の参照ピクチャを用いるインター予測は片方向予測と呼ばれ、同時に2枚の参照ピクチャを用いるインター予測は双方向予測と呼ばれる。
 図13は、フレームの画素数がCIF(CIF:Common Intermediate Format)で、CTUサイズが64の場合のフレームtのCTU分割例、および、フレームtに含まれる第8のCTU(CTU8)の分割例を示す説明図である。
 図13には、全てのCUが正方形の場合が示されている。しかし、図14に示されるように、マルチタイプ木構造でCUが矩形に分割されてもよい。非特許文献1では、split_qt_flagシンタクス値が0の場合、マルチタイプ木構造が使用される。また、mtt_split_cu_vertical_flagシンタクス値とmtt_split_cu_binary_flagシンタクス値によって、分割の方向(水平、垂直)が規定される。
 図14(a)には、マルチタイプ木構造で使用される4つの分割形状(分割モード)が示されている。SPLIT_BT_HORおよびSPLIT_BT_VERは、二分木分割である。SPLIT_TT_HORおよびSPLIT_TT_VERは、三分木分割である。図14(b)には、分割形状とシンタクス値との関係が示されている。
 VVC規格では、ピクチャの空間分割として、タイル(Tile)、スライス(Slice)、およびサブピクチャ(SubpiCTUre)が定義されている。
 ピクチャは、1または複数のタイルに分割される。タイルは、CTUを構成単位とする矩形領域である。タイル境界を跨ぐ参照は制約される。
 スライスは、タイルを構成単位とする矩形領域である。スライスの走査順として、Raster-Scan SliceモードとRectangular Sliceモードとがある。Raster-Scan Sliceモードは、ラスタスキャン順でスライスを配置するモードである。Rectangular Sliceモードは、スライスがカバーする領域がタイルまたはタイル内のCTUラインを単位とする矩形領域になるモードである。Rectangular Sliceモードでは、スライスの上側および左側に接するスライスが先に処理されるという制約の下で、ラスタスキャン順でスライスを配置しなくてもよい。
 サブピクチャは、1または複数のスライスで構成される。動き補償予測において、サブピクチャの境界は、ピクチャ境界と見なされうる。
 非特許文献2の第1部付属5の4.8節は、図15に示されるような、HEVC(High Efficiency Video Coding)を用いた8K映像の符号化に関して、スライスを用いた画面分割符号化を開示する。
 以下、HEVCを用いた8K映像の画面分割符号化を説明する。
 8K映像を構成する各フレーム(画面)において、各分割境界の垂直方向の位置(垂直位置:1088、2176、3264)は、HEVCの最大CTUサイズである64の倍数になる。よって、最大CTUサイズでの符号化が実行可能である。8K映像ではCTUサイズが大きいほど圧縮効率が高まる。そのため、非特許文献2に記載されている画面分割符号化によって、圧縮効率と実装コストとのバランスを高めることができる。
Benjamin Bross, et al., "Versatile Video Coding (Draft 10)", JVET-S2001-v7, Joint Video Experts Team (JVET) of ITU-T SG16 WP3 and ISO/IEC JTC1/SC29/WG11 19th Meeting: by teleconference, 22 June - 1 July 2020 「デジタル放送における映像符号化、音声符号化及び多重化方式」、ARIB(Association of Radio Industries and Businesses)標準規格 STD-B32 3.3版 平成27年7月3日 電波産業会
 しかし、HEVCに代えてVVCにおいて、非特許文献2に記載されている画面分割符号化を利用すると、圧縮効率が低下する。各分割境界の垂直位置(1088、2176、3264)がVVCの最大CTUサイズである128の倍数にならないので、VVCの最大CTUサイズで符号化できないためである。
 本発明は、画面分割符号化が使用されるときに、8K映像を高効率で圧縮できる映像符号化装置および映像符号化方法を提供することを目的とする。
 本発明による映像符号化装置は、四分木またはマルチタイプ木で分割されたCUに予測および変換を適用する映像符号化装置であって、映像における画面の各分割境界の垂直位置の値が、利用される最大CTUサイズの倍数になるように、画面の分割位置を制御する制御手段を含む。
 本発明による映像復号装置は、四分木またはマルチタイプ木で分割されたCUに予測および変換を適用する映像復号装置であって、ビットストリームから、利用される最大CTUサイズの倍数になるような値で示される複数の分割境界で映像における画面が分割されて得られた複数の分割領域で作成された符号化データを抽出する抽出手段を含む。
 本発明による映像符号化方法は、四分木またはマルチタイプ木で分割されたCUに予測および変換を適用する映像符号化方法であって、映像における画面の各分割境界の垂直位置の値が、利用される最大CTUサイズの倍数になるように、画面の分割位置を制御する。
 本発明による映像復号方法は、四分木またはマルチタイプ木で分割されたCUに予測および変換を適用する映像復号方法であって、ビットストリームから、利用される最大CTUサイズの倍数になるような値で示される複数の分割境界で映像における画面が分割されて得られた複数の分割領域で作成された符号化データを抽出する。
 本発明による映像符号化プログラムは、コンピュータに、映像における画面の各分割境界の垂直位置の値が、利用される最大CTUサイズの倍数になるように、画面の分割位置を制御する処理を実行させる。
 本発明による映像復号プログラムは、コンピュータに、ビットストリームから、利用される最大CTUサイズの倍数になるような値で示される複数の分割境界で映像における画面が分割されて得られた複数の分割領域で作成された符号化データを抽出する処理を実行させる。
 本発明によれば、画面分割符号化が使用されるときに、8K映像を高効率で圧縮できる。
第1の実施形態の映像符号化装置を示すブロック図である。 制御器およびスライス分割器の動作を示すフローチャートである。 制御器およびスライス分割器の動作の具体例を示すフローチャートである。 VVCにおける画面分割の例を示す説明図である。 第1の実施形態の映像復号装置を示すブロック図である。 VVCにおける画面分割の他の例を示す説明図である。 映像システムの一例を示すブロック図である。 映像符号化装置および映像復号装置の機能を実現可能な情報処理システムの構成例を示すブロック図である。 映像符号化装置の主要部を示すブロック図である。 映像復号装置の主要部を示すブロック図である。 65種類の角度イントラ予測の例を示す説明図である。 フレーム間予測の例を示す説明図である。 フレームtのCTU分割例、および、フレームtのCTU8のCU分割例を示す説明図である。 マルチタイプ木構造を用いるCU分割例を示す説明図である。 HEVCにおける画面分割の例を示す説明図である。
 以下、本発明の実施形態を図面を参照して説明する。
実施形態1.
 図1は、映像符号化装置の実施形態(第1の実施形態)を示すブロック図である。本実施形態の映像符号化装置100は、変換/量子化器101、エントロピー符号化器102、逆量子化/逆変換器103、バッファ104、予測器105、多重化器106、スライス分割器107、および制御器108を備える。変換/量子化器101、エントロピー符号化器102、逆量子化/逆変換器103、および予測器105は、例えばVVC規格に規定されているように四分木またはマルチタイプ木で分割されたCUに予測および変換を適用する機能を有する。
 制御器108は、利用される映像符号化方式を監視して、各分割境界の垂直位置の値が、利用される映像符号化方式の最大CTUサイズの倍数になるように画面分割を制御する。制御器108は、画面分割に対応する画面分割情報をスライス分割器107および多重化器106に供給する。画面分割情報は、画面の分割位置を特定可能な情報(データ)を含む。
 スライス分割器107は、制御器108の制御に応じて画面分割を行う。
 予測器105は、CTU毎に、CU形状を決定するsplit_cu_flagシンタクス値、split_qt_flagシンタクス値、mtt_split_cu_vertical_flagシンタクス値、およびmtt_split_cu_binary_flagシンタクス値を決定する。CU形状は、例えば、符号化コストを最小にする形状である。
 また、予測器105は、CU毎に、イントラ予測/インター予測を決定するpred_mode_flagシンタクス値、イントラ予測方向、および動きベクトルを決定する。それらの値は、例えば、符号化コストを最小にするような値である。
 さらに、予測器105は、決定されたsplit_cu_flagシンタクス値、split_qt_flagシンタクス値、mtt_split_cu_vertical_flagシンタクス値、mtt_split_cu_binary_flagシンタクス値、pred_mode_flagシンタクス値、イントラ予測方向、および動きベクトルなどに基づいて、各CUの入力画像信号に対する予測信号を生成する。予測信号は、上述したイントラ予測またはインター予測に基づいて生成される。
 変換/量子化器101は、減算器で入力画像信号から予測信号が減じられた予測誤差画像を、周波数変換する。さらに、変換/量子化器101は、周波数変換された予測誤差画像(周波数変換係数)を量子化する。以下、量子化された周波数変換係数を変換量子化値と呼ぶ。
 エントロピー符号化器102は、予測器105が決定したsplit_cu_flagシンタクス値、split_qt_flagシンタクス値、mtt_split_cu_vertical_flagシンタクス値、mtt_split_cu_binary_flagシンタクス値、pred_mode_flagシンタクス値、イントラ予測方向、動きベクトルの差分情報、および変換量子化値をエントロピー符号化する。
 逆量子化/逆変換器103は、変換量子化値を逆量子化する。さらに、逆量子化/逆変換器103は、逆量子化した周波数変換係数を逆周波数変換する。逆周波数変換された再構築予測誤差画像は、加算器によって予測信号が加えられた後、バッファ104に供給される。バッファ104は、再構築画像を格納する。
 多重化器106は、エントロピー符号化器102から供給されるエントロピー符号化データをビットストリームとして多重化出力する。ただし、多重化器106は、制御器108から供給される画面分割情報に基づいて、各スライス(分割領域:分割によって得られた領域)の最後のCTUでエントロピー符号化器102にエントロピー符号化を終端させるとする。
 上述した動作によって、本実施形態の映像符号化装置100は、ビットストリームを生成して出力する。
 次に、図2のフローチャートを参照して、制御器108およびスライス分割器107の動作を説明する。以下、8K映像を4つのスライスに画面分割してビットストリームを生成する場合を例にする。
 制御器108は、利用される映像符号化方式を判定する(ステップS101)。利用される映像符号化方式は、例えば、映像符号化装置100の外部から指定される。
 制御器108は、各分割境界の垂直位置の値が、利用される映像符号化方式の最大CTUサイズの倍数になるように、スライス分割器107による画面分割を制御する(ステップS102)。すなわち、制御器108は、利用される映像符号化方式の最大CTUサイズの倍数になるように、各画面における各分割境界の垂直位置を決定する。そして、制御器108は、各分割境界の垂直位置を特定可能な情報を含む画面分割情報をスライス分割器107に供給する。スライス分割器107は、入力映像における各フレーム(画面)を、画面分割情報に従って分割する。なお、画面分割情報は、多重化器106にも供給される。
 図3は、制御器およびスライス分割器の動作のより具体的な一例を示すフローチャートである。図3に示す例では、利用可能な映像符号化方式は、VCCおよびHEVCである。
 制御器108は、ステップS1001で、利用される映像符号化方式がVCCかHEVCかを判断する。VCCである場合には、ステップS1002に進む。そうでない場合には、ステップS1003に進む。
 ステップS1002では、制御器108は、VCCに対応する画面分割情報を作成して、画面分割情報をスライス分割器107および多重化器106に供給する。スライス分割器107は、画面分割情報に従って画面を分割する。
 図4は、VVCにおける画面分割の例を示す説明図である。図4に示す例では、各分割境界の垂直位置の値は(1152、2304、3456)である。すなわち、各分割境界の垂直位置は、128の倍数である。各分割境界の垂直位置の値がVVCの最大CTUサイズである128の倍数であるから、符号化処理部(変換/量子化器101、逆量子化/逆変換器103、および予測器105)は、VVCの最大CTUサイズで符号化処理を実行できる。
 ステップS1003では、制御器108は、HEVCに対応する画面分割情報を作成して、画面分割情報をスライス分割器107および多重化器106に供給する。スライス分割器107は、画面分割情報に従って画面を分割する。
 利用される映像符号化方式がHEVCであるときには、最大CTUサイズが64である。制御器108は、図15に例示された画面分割に対応する画面分割情報をスライス分割器107および多重化器106に供給する。各分割境界の垂直位置の値(1088、2176、3264)がHEVCの最大CTUサイズである64の倍数になるので、符号化処理部は、HEVCの最大CTUサイズで符号化処理を実行できる。
 図4と図15とを比較すると分かるように、本実施形態の映像符号化装置100では、各分割境界の垂直位置の値が、利用される映像符号化方式の最大CTUサイズの倍数になる。映像符号化装置100は、それぞれの映像符号化方式の最大CTUサイズで符号化を実行することによって、好適に、8K映像の高効率圧縮を行うことができる。
 図5は、映像復号装置の実施形態を示すブロック図である。本実施形態の映像復号装置200は、多重化解除器201、エントロピー復号器202、逆量子化/逆変換器203、予測器204、およびバッファ205を備える。映像復号装置200は、例えばVVC規格に規定されているように四分木またはマルチタイプ木で分割されたCUに予測および変換を適用する映像復号装置である。
 多重化解除器201は、入力されるビットストリームを多重化解除して、エントロピー符号化データを抽出する。映像復号装置200は、例えば、図1に例示された映像符号化装置100からのビットストリームを受信することができる。図1に例示された映像符号化装置100からのビットストリームを受信する場合には、多重化解除器201は、ビットストリームから、利用される最大CTUサイズの倍数になるような値で示される複数の分割境界で映像における画面が分割されて得られた複数のスライスで作成された符号化データを抽出可能である。
 エントロピー復号器202は、エントロピー符号化データをエントロピー復号する。エントロピー復号器202は、エントロピー復号した変換量子化値を、逆量子化/逆変換器203に供給する。また、エントロピー復号器202は、split_cu_flag、split_qt_flag、mtt_split_cu_vertical_flag、mtt_split_cu_binary_flag、pred_mode_flag、イントラ予測方向、および動きベクトルの差分情報を、予測器204に供給する。
 逆量子化/逆変換器203は、量子化ステップ幅で、変換量子化値を逆量子化する。さらに、逆量子化/逆変換器203は、逆量子化した周波数変換係数を逆周波数変換する。
 予測器204は、split_cu_flag、split_qt_flag、mtt_split_cu_vertical_flag、mtt_split_cu_binary_flag、pred_mode_flag、イントラ予測方向、および動きベクトルの差分情報に基づいて、各サブブロックの予測信号を生成する。予測信号は、上述したイントラ予測または動き補償予測に基づいて生成される。
 逆量子化/逆変換器203で逆周波数変換された再構築予測誤差画像は、加算器によって、予測器204から供給される予測信号が加えられた後、再構築ピクチャとしてバッファ205に供給される。バッファ205は、再構築ピクチャを格納する。バッファ205に格納された再構築ピクチャがデコード画像として出力される。
 上述した動作によって、本実施形態の映像復号装置200は、デコード画像を生成して出力する。
実施形態2.
 第1の実施形態では、制御器108は、8K映像(具体的には、8K映像を構成する各画面)を4つのスライスに分割するように制御した。第2の実施形態では、制御器108は、図6に示すように5つのスライスに分割するように制御する。すなわち、スライス分割器107が、8K映像を5つのスライスに分割する。
 なお、第2の実施形態の映像符号化装置の構成は、第1の実施形態の映像符号化装置100の構成と同じである。また、第2の実施形態の映像復号装置の構成および動作は、第1の実施形態の映像復号装置200の構成および動作と同じである。
 図6に示された例では、各分割境界の垂直位置(1024、2048、3072、4096)は、VVCの最大CTUサイズである128の倍数である。よって、符号化処理部は、VVCの最大CTUサイズで符号化を行うことができる。図4に示された例と比較すると、図6における各スライスに含まれる最大画素数は、図15に例示されたHEVCの場合の最大画素数以下になっている。その結果、スライスあたりの最大処理量を、図15に例示されたHEVCの場合と同レベルに抑えることができる。
 制御器108およびスライス分割器107の動作以外の映像符号化装置の動作は、第1の実施形態の映像符号化装置100の動作と同じである。
[変形例]
 上記の各実施形態において、制御器108が、各分割領域のエントロピー符号化データが画面の上から下への順で出力されるように多重化器106を制御してもよい。そのような制御によって、画面の上から下への順で映像復号できることが保証される。その結果、複数コアを用いた映像復号処理を簡素に実現することができる。
 また、上記の各実施形態において、制御器108は、動きベクトルの垂直成分の範囲が制限されるように、予測器105が決定する動きベクトルの垂直成分を制御してもよい。制御器108が、例えば、分割境界を跨いだインター予測が分割境界から例えば256ライン以内の画素以外を参照する動きベクトルの選択を禁止することによって、複数コアを用いた映像復号装置の共有メモリのサイズを小さくすることができる。
 VVC規格の動きベクトルは1/16画素精度である。その値域は-217から217と規定されている。整数画素精度に換算すると、その範囲は-213(-8096)から213(8096)になる。VVC規格における8096よりも少ない256ラインに制約することによって共有メモリのサイズをはるかに小さくすることができる。
 上記の各実施形態では、スライス分割が用いられた。しかし、スライス分割が用いられない場合に、制御器108が、ピクチャの各CTUが画面の上から下への順で出力されるように多重化器106を制御し、かつ、予測器105が決定する動きベクトルの垂直成分を制御してもよい。そのような制御によって、画面の上から下への順で映像復号できることが保証され、かつ、共有メモリのサイズも小さく抑制されて、複数コアを用いた映像復号処理を簡素に実現することができる。
 図7は、映像システムの一例を示すブロック図である。図7に示す映像システムは、上記の各実施形態の映像符号化装置100と映像復号装置200とが、伝送路(無線伝送路または有線伝送路)300で接続されるシステムである。映像符号化装置100は、上記の各実施形態のいずれかの映像符号化装置100である。映像復号装置200は、上記の各実施形態の映像復号装置200である。
 映像システムにおいて、映像符号化装置100は、上記の各実施形態で説明された特徴を持つビットストリームを生成できる。また、映像システムにおいて、映像復号装置200は、上記の各実施形態で説明された特徴を持つビットストリームを復号できる。
 また、上記の各実施形態を、ハードウェアで構成することも可能であるが、コンピュータプログラムにより実現することも可能である。
 図8に示す情報処理システムは、CPU(Central Processing Unit)等のプロセッサ1001、プログラムメモリ1002、映像データを格納するための記憶媒体1003およびビットストリームを格納するための記憶媒体1004を備える。記憶媒体1003と記憶媒体1004とは、別個の記憶媒体であってもよいし、同一の記憶媒体からなる記憶領域であってもよい。記憶媒体として、ハードディスク等の磁気記憶媒体を用いることができる。
 情報処理システムにおいて、プログラムメモリ1002には、上記の各実施形態で示された各ブロック(バッファのブロックを除く)の機能を実現するためのプログラム(映像符号化プログラムまたは映像復号プログラム)が格納される。そして、プロセッサ1001は、プログラムメモリ1002に格納されているプログラムに従って処理を実行することによって、各実施形態で示された映像符号化装置100または映像復号装置200の機能を実現する。
 なお、少なくともプログラムメモリ1002は、非一時的なコンピュータ可読媒体(non-transitory computer readable medium)である。ただし、プログラムは、様々なタイプの一時的なコンピュータ可読媒体(transitory computer readable medium)に格納されてもよい。一時的なコンピュータ可読媒体には、例えば、有線通信路または無線通信路を介して、すなわち、電気信号、光信号または電磁波を介して、プログラムが供給される。
 図9は、映像符号化装置の主要部を示すブロック図である。図9に示す映像符号化装置10は、映像における画面の各分割境界の垂直位置の値が、利用される最大CTUサイズ(例えば、利用される映像符号化方式の最大CTUサイズ)の倍数になるように、画面の分割位置を制御する制御部(制御手段)11(実施形態では、制御器108で実現される。)を備えている。制御部11は、画面の分割位置を特定可能な画面分割情報を、少なくとも符号化処理部に供給する。
 図10は、映像復号装置の主要部を示すブロック図である。図10に示す映像復号装置20は、ビットストリームから、利用される最大CTUサイズの倍数になるような値で示される複数の分割境界で映像における画面が分割されて得られた複数の分割領域で作成された符号化データを抽出する抽出部(抽出手段)21(実施形態では、多重化解除器201で実現される。)を備えている。抽出部21は、符号化データを復号処理部(逆量子化/逆変換器203および予測器204)に供給する。
 上記の実施形態の一部または全部は、以下の付記のようにも記載され得るが、以下に限定されるわけではない。
(付記1)四分木またはマルチタイプ木で分割されたCUに予測および変換を適用する映像符号化装置であって、
 映像における画面の各分割境界の垂直位置の値が、利用される最大CTUサイズの倍数になるように、画面の分割位置を制御する制御手段を備える
 映像符号化装置。
(付記2)前記制御手段は、利用可能な最大CTUサイズに基づいて前記分割位置を制御する
 付記1の映像符号化装置。
(付記3)前記制御手段は、各CTUのエントロピー符号化データの出力順も制御する
 付記1または付記2の映像符号化装置。
(付記4)前記制御手段は、各CUの動きベクトルも制御する
 付記1または付記2の映像符号化装置。
(付記5)四分木またはマルチタイプ木で分割されたCUに予測および変換を適用する映像復号装置であって、
 ビットストリームから、利用される最大CTUサイズの倍数になるような値で示される複数の分割境界で映像における画面が分割されて得られた複数の分割領域で作成された符号化データを抽出する抽出手段を備える
 映像復号装置。
(付記6)付記1から付記4のうちのいずれかの映像符号化装置と、
 付記5の映像復号装置と
 を備える映像システム。
(付記7)四分木またはマルチタイプ木で分割されたCUに予測および変換を適用する映像符号化方法であって、
 映像における画面の各分割境界の垂直位置の値が、利用される最大CTUサイズの倍数になるように、画面の分割位置を制御する
 映像符号化方法。
(付記8)利用可能な最大CTUサイズに基づいて前記分割位置を制御する
 付記7の映像符号化方法。
(付記9)各CTUのエントロピー符号化データの出力順も制御する
 付記7または付記8の映像符号化方法。
(付記10)各CUの動きベクトルも制御する
 付記7または付記8の映像符号化方法。
(付記11)四分木またはマルチタイプ木で分割されたCUに予測および変換を適用する映像復号方法であって、
 ビットストリームから、利用される最大CTUサイズの倍数になるような値で示される複数の分割境界で映像における画面が分割されて得られた複数の分割領域で作成された符号化データを抽出する
 映像復号方法。
(付記12)コンピュータに、
 映像における画面の各分割境界の垂直位置の値が、利用される最大CTUサイズの倍数になるように、画面の分割位置を制御する処理
 を実行させる映像符号化プログラムが格納されたコンピュータ読み取り可能な記録媒体。
(付記13)コンピュータに、
 利用可能な最大CTUサイズに基づいて前記分割位置を制御する処理
 を実行させる映像符号化プログラムが格納された付記12のコンピュータ読み取り可能な記録媒体。
(付記14)コンピュータに、
 各CTUのエントロピー符号化データの出力順も制御させる
 映像符号化プログラムが格納された付記12または付記13のコンピュータ読み取り可能な記録媒体。
(付記15)コンピュータに、
 各CUの動きベクトルも制御させる
 映像符号化プログラムが格納された付記12または付記13のコンピュータ読み取り可能な記録媒体。
(付記16)コンピュータに、
 ビットストリームから、利用される最大CTUサイズの倍数になるような値で示される複数の分割境界で映像における画面が分割されて得られた複数の分割領域で作成された符号化データを抽出する処理
 を実行させる映像復号プログラムが格納されたコンピュータ読み取り可能な記録媒体。
(付記17)コンピュータに、
 映像における画面の各分割境界の垂直位置の値が、利用される最大CTUサイズの倍数になるように、画面の分割位置を制御する処理
 を実行させるための映像符号化プログラム。
(付記18)コンピュータに、
 利用可能な最大CTUサイズに基づいて前記分割位置を制御する処理
 を実行させる付記17の映像符号化プログラム。
(付記19)コンピュータに、
 各CTUのエントロピー符号化データの出力順も制御させる
 付記17または付記18の映像符号化プログラム。
(付記20)コンピュータに、
 各CUの動きベクトルも制御させる
 付記17または付記18の映像符号化プログラム。
(付記21)コンピュータに、
 ビットストリームから、利用される最大CTUサイズの倍数になるような値で示される複数の分割境界で映像における画面が分割されて得られた複数の分割領域で作成された符号化データを抽出する処理
 を実行させるための映像復号プログラム。
 以上、実施形態を参照して本願発明を説明したが、本願発明は上記の実施形態に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。
 10   映像符号化装置
 11   制御部
 20   映像復号装置
 21   抽出部
 100  映像符号化装置
 101  変換/量子化器
 102  エントロピー符号化器
 103  逆量子化/逆変換器
 104  バッファ
 105  予測器
 106  多重化器
 107  スライス分割器
 108  制御器
 200  映像復号装置
 201  多重化解除器
 202  エントロピー復号器
 203  逆量子化/逆変換器
 204  予測器
 205  バッファ
 300  伝送路
 1001 プロセッサ
 1002 プログラムメモリ
 1003,1004 記憶媒体

Claims (16)

  1.  四分木またはマルチタイプ木で分割されたCUに予測および変換を適用する映像符号化装置であって、
     映像における画面の各分割境界の垂直位置の値が、利用される最大CTUサイズの倍数になるように、画面の分割位置を制御する制御手段を備える
     映像符号化装置。
  2.  前記制御手段は、利用可能な最大CTUサイズに基づいて前記分割位置を制御する
     請求項1記載の映像符号化装置。
  3.  前記制御手段は、各CTUのエントロピー符号化データの出力順も制御する
     請求項1または請求項2記載の映像符号化装置。
  4.  前記制御手段は、各CUの動きベクトルも制御する
     請求項1または請求項2記載の映像符号化装置。
  5.  四分木またはマルチタイプ木で分割されたCUに予測および変換を適用する映像復号装置であって、
     ビットストリームから、利用される最大CTUサイズの倍数になるような値で示される複数の分割境界で映像における画面が分割されて得られた複数の分割領域で作成された符号化データを抽出する抽出手段を備える
     映像復号装置。
  6.  請求項1から請求項4のうちのいずれか1項に記載の映像符号化装置と、
     請求項5に記載の映像復号装置と
     を備える映像システム。
  7.  四分木またはマルチタイプ木で分割されたCUに予測および変換を適用する映像符号化方法であって、
     映像における画面の各分割境界の垂直位置の値が、利用される最大CTUサイズの倍数になるように、画面の分割位置を制御する
     映像符号化方法。
  8.  利用可能な最大CTUサイズに基づいて前記分割位置を制御する
     請求項7記載の映像符号化方法。
  9.  各CTUのエントロピー符号化データの出力順も制御する
     請求項7または請求項8記載の映像符号化方法。
  10.  各CUの動きベクトルも制御する
     請求項7または請求項8記載の映像符号化方法。
  11.  四分木またはマルチタイプ木で分割されたCUに予測および変換を適用する映像復号方法であって、
     ビットストリームから、利用される最大CTUサイズの倍数になるような値で示される複数の分割境界で映像における画面が分割されて得られた複数の分割領域で作成された符号化データを抽出する
     映像復号方法。
  12.  コンピュータに、
     映像における画面の各分割境界の垂直位置の値が、利用される最大CTUサイズの倍数になるように、画面の分割位置を制御する処理
     を実行させる映像符号化プログラムが格納されたコンピュータ読み取り可能な記録媒体。
  13.  コンピュータに、
     利用可能な最大CTUサイズに基づいて前記分割位置を制御する処理
     を実行させる映像符号化プログラムが格納された請求項12に記載のコンピュータ読み取り可能な記録媒体。
  14.  コンピュータに、
     各CTUのエントロピー符号化データの出力順も制御させる
     映像符号化プログラムが格納された請求項12または請求項13記載のコンピュータ読み取り可能な記録媒体。
  15.  コンピュータに、
     各CUの動きベクトルも制御させる
     映像符号化プログラムが格納された請求項12または請求項13記載のコンピュータ読み取り可能な記録媒体。
  16.  コンピュータに、
     ビットストリームから、利用される最大CTUサイズの倍数になるような値で示される複数の分割境界で映像における画面が分割されて得られた複数の分割領域で作成された符号化データを抽出する処理
     を実行させる映像復号プログラムが格納されたコンピュータ読み取り可能な記録媒体。
PCT/JP2020/036651 2020-09-28 2020-09-28 映像符号化装置、映像復号装置、映像符号化方法および映像復号方法 WO2022064700A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
PCT/JP2020/036651 WO2022064700A1 (ja) 2020-09-28 2020-09-28 映像符号化装置、映像復号装置、映像符号化方法および映像復号方法
JP2022551100A JPWO2022064700A1 (ja) 2020-09-28 2020-09-28

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2020/036651 WO2022064700A1 (ja) 2020-09-28 2020-09-28 映像符号化装置、映像復号装置、映像符号化方法および映像復号方法

Publications (1)

Publication Number Publication Date
WO2022064700A1 true WO2022064700A1 (ja) 2022-03-31

Family

ID=80845118

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2020/036651 WO2022064700A1 (ja) 2020-09-28 2020-09-28 映像符号化装置、映像復号装置、映像符号化方法および映像復号方法

Country Status (2)

Country Link
JP (1) JPWO2022064700A1 (ja)
WO (1) WO2022064700A1 (ja)

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
B. BROSS, J. CHEN, S. LIU (EDITORS): "Versatile Video Coding (Draft 3)", 12. JVET MEETING; 20181003 - 20181012; MACAO; (THE JOINT VIDEO EXPLORATION TEAM OF ISO/IEC JTC1/SC29/WG11 AND ITU-T SG.16 ), no. L1001_v1, 31 October 2018 (2018-10-31), pages 1 - 161, XP030251917 *
R. SKUPIN (FRAUNHOFER), V. GEORGE (FRAUNHOFER), K. SUEHRING (FRAUNHOFER), Y. SANCHEZ (FRAUNHOFER), T. SCHIERL (HHI): "AHG12: On motion constrained tiles for VVC", 13. JVET MEETING; 20190109 - 20190118; MARRAKECH; (THE JOINT VIDEO EXPLORATION TEAM OF ISO/IEC JTC1/SC29/WG11 AND ITU-T SG.16 ), 13 January 2019 (2019-01-13), XP030201991 *
S. KEATING (SONY), A. BROWNE (SONY), K. SHARMAN (SONY): "AHG9: Max Luma Picture Size in VVC", 130. MPEG MEETING; 20200420 - 20200424; ALPBACH; (MOTION PICTURE EXPERT GROUP OR ISO/IEC JTC1/SC29/WG11), 7 April 2020 (2020-04-07), XP030286277 *
Y. YASUGI, T. IKAI (SHARP),: "AHG12: Flexible tile partitioning", 12. JVET MEETING; 20181003 - 20181012; MACAO; (THE JOINT VIDEO EXPLORATION TEAM OF ISO/IEC JTC1/SC29/WG11 AND ITU-T SG.16 ), 3 October 2018 (2018-10-03), XP030194495 *

Also Published As

Publication number Publication date
JPWO2022064700A1 (ja) 2022-03-31

Similar Documents

Publication Publication Date Title
US10652576B2 (en) Features of base color index map mode for video and image coding and decoding
EP3308540B1 (en) Robust encoding/decoding of escape-coded pixels in palette mode
US10547864B2 (en) Image processing device and method
KR102594690B1 (ko) 크로마 양자화 파라미터 데이터 기반 영상 디코딩 방법 및 그 장치
KR102655358B1 (ko) 크로마 양자화 파라미터 오프셋 관련 정보를 코딩하는 영상 디코딩 방법 및 그 장치
KR20220021442A (ko) 영상 디코딩 방법 및 그 장치
US20230262220A1 (en) Image decoding method and device using residual information in image coding system
KR20160129076A (ko) 스크린 컨텐츠의 딕셔너리 인코딩 및 디코딩
KR20220092955A (ko) 루마 성분 및 크로마 성분에 대한 bdpcm 기반 영상 디코딩 방법 및 그 장치
JP2023126571A (ja) クロマ量子化パラメータを使用する画像デコード方法及びその装置
JP2022016726A (ja) 画像処理装置および方法
US20220248034A1 (en) Image decoding method using bdpcm and device therefor
KR20220017440A (ko) 스케일링 리스트 데이터의 시그널링 기반 비디오 또는 영상 코딩
CN114402605A (zh) 图像编码***中使用残差编码方法的标志的图像解码方法以及用于其的装置
WO2019188464A1 (ja) 画像符号化装置、画像符号化方法、画像復号装置、および画像復号方法
WO2022064700A1 (ja) 映像符号化装置、映像復号装置、映像符号化方法および映像復号方法
KR102644971B1 (ko) 크로마 양자화 파라미터 테이블을 사용하는 영상 디코딩 방법 및 그 장치
CN113545057B (zh) 编码装置、解码装置、编码方法及解码方法
KR20220163419A (ko) 레지듀얼 코딩에 대한 영상 디코딩 방법 및 그 장치
KR20210149867A (ko) 스케일링 리스트 파라미터 기반 비디오 또는 영상 코딩
JP7491385B2 (ja) 映像符号化装置および映像符号化方法
WO2022044267A1 (ja) 映像符号化装置、映像復号装置、映像符号化方法および映像復号方法
US11638024B2 (en) Image encoding/decoding method and apparatus for signaling residual coding method used for encoding block to which BDPCM is applied, and method for transmitting bitstream
WO2021199374A1 (ja) 映像符号化装置、映像復号装置、映像符号化方法、映像復号方法、映像システムおよびプログラム
KR20240093880A (ko) 크로마 양자화 파라미터 데이터 기반 영상 디코딩 방법 및 그 장치

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20955293

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2022551100

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 20955293

Country of ref document: EP

Kind code of ref document: A1