WO2015194922A1 - 비디오 부호화 방법 및 장치, 비디오 복호화 방법 및 장치 - Google Patents

비디오 부호화 방법 및 장치, 비디오 복호화 방법 및 장치 Download PDF

Info

Publication number
WO2015194922A1
WO2015194922A1 PCT/KR2015/006325 KR2015006325W WO2015194922A1 WO 2015194922 A1 WO2015194922 A1 WO 2015194922A1 KR 2015006325 W KR2015006325 W KR 2015006325W WO 2015194922 A1 WO2015194922 A1 WO 2015194922A1
Authority
WO
WIPO (PCT)
Prior art keywords
coding unit
split
information
unit
coding
Prior art date
Application number
PCT/KR2015/006325
Other languages
English (en)
French (fr)
Inventor
최병두
Original Assignee
삼성전자 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자 주식회사 filed Critical 삼성전자 주식회사
Priority to KR1020167034937A priority Critical patent/KR20170020778A/ko
Priority to US15/320,559 priority patent/US20170195671A1/en
Publication of WO2015194922A1 publication Critical patent/WO2015194922A1/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/119Adaptive subdivision aspects, e.g. subdivision of a picture into rectangular or non-rectangular coding blocks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/103Selection of coding mode or of prediction mode
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/12Selection from among a plurality of transforms or standards, e.g. selection between discrete cosine transform [DCT] and sub-band transform or selection between H.263 and H.264
    • H04N19/122Selection of transform size, e.g. 8x8 or 2x4x8 DCT; Selection of sub-band transforms of varying structure or type
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/176Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a block, e.g. a macroblock
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/30Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using hierarchical techniques, e.g. scalability
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/60Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/60Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding
    • H04N19/61Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding in combination with predictive coding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/70Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by syntax aspects related to video coding, e.g. related to compression standards

Definitions

  • the present disclosure relates to encoding and decoding of an image.
  • video codec for efficiently encoding or decoding high resolution or high definition video content.
  • video is encoded according to a limited encoding method based on a quadrature square block.
  • the present disclosure describes an apparatus and method for decoding or encoding an image based on coding units hierarchically divided and having various sizes and shapes.
  • a method of decoding a video includes dividing an encoded image into maximum coding units; Parsing split information indicating whether to split a coding unit from a bitstream for an image; Parsing shape information indicating a split type of the coding unit and including split direction information of the coding unit; And determining a coding unit hierarchically divided from the largest coding unit by using the split information and the shape information.
  • the shape information includes split direction information indicating that a coding unit is divided into one of a vertical direction and a horizontal direction.
  • the maximum coding unit is hierarchically divided into coding units having a depth including at least one of a current depth and a lower depth according to the split information, and indicates that the direction information of the coding unit of the current depth is divided in the vertical direction.
  • the direction information of the coding unit of the depth is divided into the horizontal direction
  • the direction information of the coding unit of the current depth is divided into the horizontal direction
  • the direction information of the coding unit of the lower depth is divided into the vertical direction.
  • the shape information includes split position information indicating a split position corresponding to one point of one of a height and a width of a coding unit.
  • the method may further include determining a number obtained by dividing one of a height and a width of a coding unit by a predetermined length; And determining a split position for one of a height and a width of the coding unit, based on the number and split position information.
  • the split position information indicates that the split position information is divided into one of 1/4, 1/3, 1/2, 2/3, and 3/4 with respect to one of the height and the width of the coding unit.
  • the method may further include determining at least one prediction unit split from the coding unit by using information about the partition type parsed from the bitstream.
  • the method may further include determining at least one transform unit split from the coding unit by using information about the partition type of the transform unit parsed from the bitstream.
  • the transform unit has a square shape, and the length of one side of the transform unit is the greatest common divisor of the length of the height of the coding unit and the width of the width of the coding unit.
  • the coding unit may be hierarchically divided into transformation units having a depth including at least one of a current depth and a lower depth based on the information about the split form of the transformation unit.
  • Parsing encoding information indicating whether a transform coefficient for the coding unit exists and when the encoding information indicates that the transform coefficient exists, parsing the sub-encoding information indicating whether the transform coefficient exists for each of the transform units included in the coding unit.
  • the maximum coding units are characterized in that the square of the same size.
  • An apparatus for decoding a video parses split information of a coding unit indicating whether to split a coding unit from a bitstream of an image, indicates a split type of a coding unit, and indicates split direction information of a coding unit.
  • a receiver configured to parse shape information of a coding unit including a;
  • a decoder configured to divide the encoded image into maximum coding units and determine a coding unit hierarchically divided from the maximum coding unit by using split information and shape information.
  • a program for implementing a method of decoding an image according to an embodiment of the present disclosure may be recorded in a computer-readable recording medium.
  • a method of encoding a video may include: dividing an image into maximum coding units; Hierarchically dividing a coding unit from the largest coding unit; Determining split information indicating whether to split the maximum coding unit into coding units and shape information indicating a split form of the coding unit; Encoding the split information and the shape information; and transmitting a bitstream including the encoded split information and the encoded shape information.
  • An apparatus for encoding a video may include splitting an image into maximum coding units, hierarchically splitting a coding unit from the maximum coding unit, and dividing the maximum coding unit into two coding units.
  • An encoder which determines shape information indicating a split form of the information and the coding unit, and encodes the split information and the form information;
  • a transmitter for transmitting the bitstream including the encoded partition information and the encoded form information.
  • FIG. 1 is a block diagram of a video decoding apparatus according to an embodiment of the present disclosure.
  • FIG. 2 is a flowchart of a video decoding method according to an embodiment of the present disclosure.
  • FIG. 3 is a block diagram of a video encoding apparatus, according to an embodiment of the present disclosure.
  • FIG. 4 is a flowchart of a video encoding method according to an embodiment of the present disclosure.
  • FIG. 5 is a diagram illustrating partitioning of coding units according to an embodiment of the present disclosure.
  • FIG. 6 illustrates that coding units are hierarchically divided according to an embodiment of the present disclosure.
  • FIG. 7 is a flowchart illustrating a process of dividing a coding unit according to an embodiment of the present disclosure.
  • FIG. 8 illustrates a pseudo code for determining SplitNum according to an embodiment of the present disclosure.
  • FIG. 9 is a diagram illustrating partitioning of coding units according to an embodiment of the present disclosure.
  • FIG. 10 illustrates a concept of coding units, according to an embodiment of the present disclosure.
  • FIG. 11 is a block diagram of an image encoder based on coding units, according to an embodiment of the present disclosure.
  • FIG. 12 is a block diagram of an image decoder based on coding units, according to an embodiment of the present disclosure.
  • FIG. 13 is a diagram of deeper coding units according to depths, and partitions, according to an embodiment of the present disclosure.
  • FIG. 14 illustrates a relationship between a coding unit and transformation units, according to an embodiment of the present disclosure.
  • FIG. 15 illustrates encoding information according to depths, according to an embodiment of the present disclosure.
  • 16 is a diagram of deeper coding units according to depths, according to an embodiment of the present disclosure.
  • FIG. 17 illustrates a relationship between a coding unit, a prediction unit, and a transformation unit, according to an embodiment of the present disclosure.
  • FIG. 18 illustrates a relationship between a coding unit, a prediction unit, and a transformation unit, according to an embodiment of the present disclosure.
  • FIG. 19 illustrates a relationship between a coding unit, a prediction unit, and a transformation unit, according to an embodiment of the present disclosure.
  • FIG. 20 illustrates a relationship between a coding unit, a prediction unit, and a transformation unit, according to encoding mode information of Table 1.
  • FIG. 20 illustrates a relationship between a coding unit, a prediction unit, and a transformation unit, according to encoding mode information of Table 1.
  • FIGS. 1 to 9 a video encoding apparatus, a video decoding apparatus, a video encoding method, and a video decoding method according to an embodiment of the present invention will be described with reference to FIGS. 1 to 9.
  • FIG. 1 is a block diagram of a video decoding apparatus according to an embodiment of the present disclosure.
  • the video decoding apparatus 100 includes a receiver 110 and a decoder 120.
  • the receiver 110 may parse split information of a coding unit indicating whether to split a coding unit from a bitstream of an image.
  • the partition information may have 1 bit.
  • the split information may have 1 bit or more.
  • the video decoding apparatus 100 may determine whether to split or divide the coding unit based on at least one bit of the 2 bits.
  • the receiver 110 may indicate a split form of the coding unit and parse the form information of the coding unit including split direction information of the coding unit.
  • the division type information will be described in detail later with reference to FIG. 5.
  • the decoder 120 may split the encoded image into maximum coding units.
  • the decoder 120 may segment the image into the largest coding units by using the information on the minimum size of the coding unit and the information on the difference between the minimum size and the maximum size of the coding unit.
  • the maximum coding unit may have a square shape of the same size for compatibility with existing decoding methods and devices. However, the present invention is not limited thereto, and may have square shapes having different sizes and may have rectangular shapes. The maximum coding unit will be described in more detail with reference to FIG. 10.
  • the decoder 120 may determine a coding unit hierarchically divided from the maximum coding unit using the split information and the shape information.
  • the coding unit may have a size equal to or smaller than the maximum coding unit.
  • a coding unit has a depth and a coding unit having a current depth may be hierarchically divided into coding units having a lower depth.
  • the video decoding apparatus 100 uses hierarchical coding units to consider image characteristics. When the video decoding apparatus 100 considers an image characteristic, more efficient decoding is possible.
  • FIG. 2 is a flowchart of a video decoding method according to an embodiment of the present disclosure.
  • Step 210 may be performed by the decoder 120.
  • steps 220 and 230 may be performed by the receiver 110.
  • step 240 may be performed by the decoder 120.
  • the video decoding apparatus 100 divides an image into maximum coding units.
  • the video decoding apparatus 100 may parse split information indicating whether to split a coding unit from a bit stream.
  • the video decoding apparatus 100 according to an embodiment of the present disclosure may parse shape information.
  • the form information indicates a split form of a coding unit and includes split direction information of the coding unit. The division type information will be described in detail later with reference to FIG. 5.
  • the video decoding apparatus 100 determines a coding unit hierarchically divided from the largest coding unit by using split information and shape information.
  • FIG. 3 is a block diagram of a video encoding apparatus, according to an embodiment of the present disclosure.
  • the video encoding apparatus 300 includes an encoder 310 and a transmitter 320.
  • the encoder 310 splits the image into maximum coding units.
  • the encoder 310 hierarchically splits a coding unit from the largest coding unit.
  • the encoder 310 may divide the maximum coding unit into various coding units and then find a partition structure of an optimal coding unit by using rate-distortion optimization.
  • the encoder 310 determines split information indicating whether to divide the maximum coding unit into coding units based on the split structure, and shape information indicating the split type of the coding unit.
  • the encoder 310 encodes the partition information and the shape information.
  • the partitioning information is described in FIG. 1, and the shape information is described with reference to FIG.
  • the transmitter 320 may transmit a bitstream including the encoded fragment information and the encoded form information.
  • the receiver 110 of the video decoding apparatus 100 may receive a bitstream transmitted by the transmitter 320 of the video encoding apparatus 300.
  • FIG. 4 is a flowchart of a video encoding method according to an embodiment of the present disclosure.
  • Steps 410 to 440 may be performed by the encoder 310.
  • Step 450 may be performed by the transmitter 320.
  • the video encoding apparatus 300 divides an image into maximum coding units.
  • the video encoding apparatus 300 hierarchically divides a coding unit from the largest coding unit.
  • the video encoding apparatus 300 may determine split information indicating whether the maximum coding unit is divided into coding units and shape information indicating the split shape of the coding unit.
  • the video encoding apparatus 300 encodes the partition information and the shape information.
  • the video encoding apparatus 300 according to an embodiment of the present disclosure transmits a bitstream including encoded segmentation information and encoded form information.
  • FIG. 5 is a diagram illustrating partitioning of coding units according to an embodiment of the present disclosure.
  • the video decoding apparatus 100 may split the encoded image into the largest coding units 500.
  • the video decoding apparatus 100 may divide the maximum coding unit 500 into coding units.
  • the coding unit may have a size smaller than or equal to the maximum coding unit.
  • the video decoding apparatus 100 may parse split information indicating whether to split a coding unit from a bitstream. When split information indicates that the coding unit is divided into two, the video decoding apparatus 100 may further parse shape information from the bitstream.
  • the shape information may indicate the split form of the coding unit.
  • the shape information may include split direction information of a coding unit.
  • the split direction information included in the shape information may indicate that the coding unit is divided into one of a vertical direction and a horizontal direction.
  • the split direction information of the coding units 510, 520, and 530 may be divided into vertical directions.
  • the split direction information of the coding units 540, 550, and 560 may be divided into horizontal directions.
  • the video decoding apparatus 100 may hierarchically divide a maximum coding unit into coding units having a depth including at least one of a current depth and a lower depth according to split information.
  • the video decoding apparatus 100 may determine the direction information of the coding unit of the lower depth in the horizontal direction. Therefore, the video decoding apparatus 100 may not receive the direction information of the coding unit of the lower depth. Also, the video encoding apparatus 300 may not transmit direction information of a coding unit.
  • the video decoding apparatus 100 may determine the direction information of the coding unit of the lower depth in the vertical direction.
  • the video decoding apparatus 100 needs to parse only the direction information of the highest depth from the bitstream, thereby increasing the bit efficiency of the bitstream. The processing speed of the video decoding apparatus 100 may be improved.
  • the shape information may include split position information indicating a split position corresponding to one point of one of a height and a width of a coding unit.
  • the video decoding apparatus 100 may receive division direction information indicating that coding units 510, 520, and 530 are vertically divided from a bitstream.
  • the video decoding apparatus 100 may parse one of split position information 515, 525, 535, 545, 555, and 565 of coding units 510, 520, 530, 540, 550, and 560 from a bitstream. Can be.
  • the video decoding apparatus 100 and the video encoding apparatus 300 may associate the split position information with a predetermined point of the coding unit.
  • split position information 515, 525, and 535 may indicate split positions corresponding to one point with respect to a width of a coding unit. have.
  • the video decoding apparatus 100 when the video decoding apparatus 100 receives '1' which is the split position information 515, the video decoding apparatus 100 splits a quarter point of the width from the left side of the coding unit 510. Can determine the location. In addition, when the video decoding apparatus 100 receives '0' which is the split position information 525, the video decoding apparatus 100 indicates that a half point of the width is a split position from the left side of the coding unit 520. You can decide. In addition, when the video decoding apparatus 100 receives '2' which is the split position information 515, the video decoding apparatus 100 indicates that 3/4 points of the width are the split positions from the left side of the coding unit 530. You can decide.
  • the split position information 545, 555, and 565 indicate a split position corresponding to one point of the height of the coding unit. Can be represented. That is, the split position information 515, 525, 535 may have the same value as the split position information 545, 555, 565, but the meaning may vary depending on the split direction information.
  • the video decoding apparatus 100 when the video decoding apparatus 100 receives '1' which is the split position information 545, the video decoding apparatus 100 splits a quarter point of the height from the upper side of the coding unit 540. Can determine the location. In addition, when the video decoding apparatus 100 receives '0' which is the split position information 555, the video decoding apparatus 100 indicates that a half point of the height is a split position from an upper side of the coding unit 550. You can decide. In addition, when the video decoding apparatus 100 receives '2' which is the split position information 565, the video decoding apparatus 100 indicates that 3/4 points of the height is the split position from the upper side of the coding unit 560. You can decide.
  • the split position information is 2 bits has been described as an example, but the present invention is not limited thereto, and one or more bits may be allocated.
  • the split position information has 3 bits, a total of eight split positions may be designated.
  • 1/9 points of the length of the width from the left side of the coding unit may be designated as the split position.
  • FIG. 6 illustrates that coding units are hierarchically divided according to an embodiment of the present disclosure.
  • the video decoding apparatus 100 may parse split information about the coding unit 610 of the current depth from the bitstream.
  • the current depth may be 'depth zero'.
  • the video decoding apparatus 100 may parse shape information from the bitstream.
  • the video decoding apparatus 100 may determine that the coding unit 610 is horizontally divided based on the direction information among the shape information.
  • the shape information may include split position information.
  • the split position information may indicate that the split position information is divided into one of 1/4, 1/3, 1/2, 2/3, and 3/4 with respect to one of the height and the width of the coding unit.
  • the video decoding apparatus 100 may determine that the third quarter point 611 of the height is the split position from the upper side of the coding unit 610. For example, a coding unit 610 having a size of 32 ⁇ 32 may be divided into coding units having a size of 32 ⁇ 24 and 32 ⁇ 8.
  • the video decoding apparatus 100 may parse split information about coding units 620 and 630 of a lower depth from a bitstream.
  • the lower depth may be 'depth 1'.
  • the video decoding apparatus 100 may parse shape information from a bitstream.
  • the video decoding apparatus 100 may determine that the coding units 620 and 630 are horizontally divided based on the split direction information among the shape information.
  • the video decoding apparatus 100 may determine that the third quarter point 621 of the width is the split position from the left side of the coding unit 620.
  • the video decoding apparatus 100 may determine that a quarter point 631 of the width is a split position from the left side of the coding unit 620.
  • a coding unit 620 having a size of 32 ⁇ 24 may be divided into coding units having a size of 24 ⁇ 24 and 8 ⁇ 24.
  • a coding unit 630 having a size of 32x8 may be divided into coding units having a size of 8x8 and 24x8.
  • the video decoding apparatus 100 splits a lower depth (ie, 'depth 1') based on a current depth (ie, 'depth 0').
  • Direction information can be determined. For example, when the split direction information of the current depth is horizontal, the video decoding apparatus 100 may vertically determine the split direction information of the lower depth. In contrast, when the split direction information of the current depth is vertical, the video decoding apparatus 100 may horizontally determine the split direction information of the lower depth.
  • the video decoding apparatus 100 may parse split information about coding units 640 and 650 of lower depth from a bitstream.
  • the lower depth may be 'depth 2'.
  • the video decoding apparatus 100 may parse shape information from the bitstream.
  • the video decoding apparatus 100 may determine that the coding unit 640 is vertically divided based on the split direction information among the shape information.
  • the video decoding apparatus 100 may determine that the coding unit 650 is horizontally divided based on the split direction information among the shape information.
  • the video decoding apparatus 100 may determine that two-thirds of the width 641 is the split position from the left side of the coding unit 640.
  • the video decoding apparatus 100 may determine that a third point 651 of the height is a split position from an upper side of the coding unit 650.
  • the split information of the remaining lower coding units 660 may represent that the coding unit is not split.
  • the video decoding apparatus 100 may parse split information of the coding unit 670 of the lower depth from the bitstream.
  • the lower depth may be 'depth 3'.
  • the video decoding apparatus 100 may parse shape information from the bitstream.
  • the video decoding apparatus 100 may determine that the coding unit 670 is horizontally divided based on the split direction information among the shape information.
  • the video decoding apparatus 100 may determine that two thirds of the height 671 from the upper side of the coding unit 670 is the split position.
  • FIG. 7 is a flowchart illustrating a process of dividing a coding unit according to an embodiment of the present disclosure.
  • the video decoding apparatus 100 may parse split_flag from the bitstream.
  • split_flag may mean split information. If split_flag is '0' in step 711, the video decoding apparatus 100 may not split the current block.
  • the current block may be a coding unit of the current depth.
  • the video decoding apparatus 100 may parse shape information from the bitstream.
  • the shape information may include split_direction_flag.
  • split_direction_flag may indicate split direction information.
  • the video decoding apparatus 100 may determine SplitNum.
  • SplitNum may mean a number obtained by dividing one of a height and a width of a coding unit by a predetermined length.
  • the video decoding apparatus 100 may determine a split position of one of a height and a width of a coding unit based on the number Split and the split position information.
  • the video encoding apparatus 100 may parse a predetermined length from the bitstream.
  • the video encoding apparatus 100 may store the predetermined length in the memory in advance without parsing the predetermined length from the bitstream.
  • the predetermined length and the number SplitNum will be described in detail with reference to FIG. 8.
  • the video decoding apparatus 100 may bisect one of the width and the height of the current block. In this case, the video decoding apparatus 100 may not parse the split position information separately from the bitstream.
  • the video decoding apparatus 100 may parse split_position_idx from the bitstream.
  • split_position_idx may mean split position information.
  • the video decoding apparatus 100 may select 1/3 of the current block as a split point. For example, when split_direction_flag indicates vertical, the video decoding apparatus 100 may vertically split one third of the width from the left side of the current block.
  • the video decoding apparatus 100 may select 2/3 of the current block as a split point. For example, when split_direction_flag indicates horizontal, the video decoding apparatus 100 may split two thirds of the height horizontally from an upper side of the current block.
  • the video decoding apparatus 100 may parse split_half_flag from the bitstream.
  • split_half_flag may have 1 bit and may be included in split position information. If split_half_flag is '1' in step 761, the video decoding apparatus 100 may bisect the current block.
  • the video decoding apparatus 100 may parse split_position_idx from the bitstream.
  • split_position_idx may have 1 bit and may be included in split position information.
  • the video decoding apparatus 100 may select a quarter point of the current block as a split point. For example, when split_direction_flag indicates vertical, the video decoding apparatus 100 may split a quarter point of the width vertically from the left side of the current block.
  • the video decoding apparatus 100 may select 3/4 points of the current block as the split points. For example, when split_direction_flag indicates horizontal, the video decoding apparatus 100 may split 3/4 of the width horizontally from an upper side of the current block.
  • the video decoding apparatus 100 parses split_half_flag and split_position_idx separately in steps 760 and 770, the present invention is not limited thereto.
  • the video decoding apparatus 100 may parse two bits of split position information including split_position_idx and split_half_flag from a bitstream at a time.
  • FIG. 8 is a diagram illustrating a pseudo code for determining SplitNum according to an embodiment of the present disclosure.
  • the video decoding apparatus 100 may parse split_direction_flag from the bitstream.
  • split_direction_flag may mean split direction information.
  • the video decoding apparatus 100 may determine uiDefault according to split_direction_flag. For example, when split_direction_flag is '1', the video decoding apparatus 100 may divide a coding unit horizontally. In addition, when split_direction_flag is '1', the video decoding apparatus 100 may determine uiDefault as a height of a coding unit. In addition, when split_direction_flag is '0', the video decoding apparatus 100 may divide a coding unit vertically. In addition, when split_direction_flag is '0', the video decoding apparatus 100 may determine uiDefault as the width of a coding unit.
  • bHit is a constant to exit the loop when certain conditions are met.
  • the video decoding apparatus 100 initializes bHit to 'false'.
  • the video decoding apparatus 100 performs a for statement while decreasing uiSplit by 1 from 4 to 2.
  • unSplitMinSize is a predetermined length of step 730 of FIG. 7, obtained by dividing the width or height of the coding unit by uiSplit.
  • the predetermined length is not limited to this.
  • the predetermined length is calculated in the pseudo code of FIG. 8, the video decoding apparatus 100 and the video encoding apparatus 300 may store the predetermined length. Also, the video encoding apparatus 300 may transmit a predetermined length to the video decoding apparatus 100.
  • the video decoding apparatus 100 performs a for statement while decreasing uiStep by 1 from 6 to 3. In addition, when uiDefault is divided by uiSplitMinSize, and uiSplitMinSize is equal to (1 ⁇ uiStep), the video decoding apparatus 100 sets splitNum to uiSplit. The video decoding apparatus 100 also exits the for statement by setting bHit to true.
  • SplitNum is not calculated like the pseudo code of FIG. 8, and the video encoding apparatus 300 may transmit SplitNum to the video decoding apparatus 100. Also, the video decoding apparatus 100 and the video encoding apparatus 300 may store SplitNum.
  • FIG. 9 is a diagram illustrating partitioning of coding units according to an embodiment of the present disclosure.
  • the coding unit 910 may have a size of 32 ⁇ 32.
  • the video decoding apparatus 100 may parse split_flag 911 from the bitstream. For example, when split_flag 911 is 1, the video decoding apparatus 100 may parse at least one of split_direction_flag 912 and split_position_idx 913 from the bitstream. When split_direction_flag 912 is 0, the video decoding apparatus 100 may split the coding unit 910 horizontally.
  • the video decoding apparatus 100 may correspond to the value of the split_position_idx 913 and the split position. For example, when the value of split_position_idx 913 is 0, the video decoding apparatus 100 may determine a half point of the height as the split point on the upper side of the coding unit 910. In addition, when the value of split_position_idx 913 is 1, the video decoding apparatus 100 may determine a quarter point of the height as the split point on the upper side of the coding unit 910. In addition, when the value of split_position_idx 913 is 2, the video decoding apparatus 100 may determine 3/4 of the height as the split point on the upper side of the coding unit 910. In FIG. 9A, since the split_position_idx 913 has a value of 1, the video decoding apparatus 100 may split a quarter point of a height from an upper side of the coding unit 910.
  • the coding unit 920 may have a size of 32 ⁇ 32.
  • the video decoding apparatus 100 may parse split_flag 921 from the bitstream. For example, when split_flag 921 is 1, the video decoding apparatus 100 may parse at least one of split_direction_flag 922 and split_position_idx 923 from the bitstream. When split_direction_flag 922 is 1, the video decoding apparatus 100 may split the coding unit 920 vertically. In addition, when split_position_idx 923 is 2, the video decoding apparatus 100 may split a 3/4 point of the width from the left side of the coding unit 920.
  • the coding unit 930 may have a size of 24 ⁇ 16.
  • the video decoding apparatus 100 may parse split_flag 931 from the bitstream. When split_flag 931 is 1, the video decoding apparatus 100 may parse at least one of split_direction_flag 932 and split_position_idx 933 from the bitstream. When split_direction_flag 932 is 1, the video decoding apparatus 100 may split the coding unit 930 vertically.
  • the video decoding apparatus 100 may determine a 1/3 point of the width from the left side of the coding unit 930 as the split point. Also, when the value of split_position_idx 933 is 1, the video decoding apparatus 100 may determine 2/3 of the width as the split point on the left side of the coding unit 930. In FIG. 9C, since the split_position_idx 933 value is 1, the video decoding apparatus 100 may split 2/3 points of the width from the left side of the coding unit 930.
  • the coding unit 940 may have a size of 32 ⁇ 32.
  • the video decoding apparatus 100 may parse split_flag 941 from the bitstream.
  • split_flag 941 1, the video decoding apparatus 100 may parse at least one of split_direction_flag 942, split_half_flag 943, and split_position_idx 944 from the bitstream.
  • split_direction_flag 942 is 1, the video decoding apparatus 100 may split the coding unit 940 vertically.
  • split_half_flag 943 the video decoding apparatus 100 may bisect the coding unit 940.
  • the video decoding apparatus 100 may not receive the split_position_idx 944.
  • the video encoding apparatus 300 may not transmit the split_position_idx 944.
  • the video decoding apparatus 100 may determine at least one prediction unit partitioned from the coding unit by using information about a partition type parsed from the bitstream.
  • the video decoding apparatus 100 may hierarchically divide the prediction unit in the same manner as the above-described coding unit.
  • the coding unit may include a plurality of prediction units.
  • the size of the prediction unit may be equal to or smaller than the size of the coding unit.
  • the prediction unit may have a rectangular shape of various sizes.
  • the prediction unit may have a shape of 64x64, 64x32, 64x16, 64x8, 64x4, 32x32, 32x16, 32x8, 32x4, and the like.
  • the video decoding apparatus 100 may split the prediction unit from the coding unit.
  • FIG. 10 illustrates a concept of coding units, according to an embodiment of the present disclosure.
  • a size of a coding unit may be expressed by a width x height, and may include 32x32, 16x16, and 8x8 from a coding unit having a size of 64x64.
  • Coding units of size 64x64 may be partitioned into partitions of size 64x64, 64x32, 32x64, and 32x32, coding units of size 32x32 are partitions of size 32x32, 32x16, 16x32, and 16x16, and coding units of size 16x16 are 16x16.
  • Coding units of size 8x8 may be divided into partitions of size 8x8, 8x4, 4x8, and 4x4, into partitions of 16x8, 8x16, and 8x8.
  • the coding unit may have a size of 32x24, 32x8, 8x24, 24x8, and the like.
  • the resolution is set to 1920x1080, the maximum size of the coding unit is 64, and the maximum depth is 2.
  • the resolution is set to 1920x1080, the maximum size of the coding unit is 64, and the maximum depth is 3.
  • the resolution is set to 352x288, the maximum size of the coding unit is 16, and the maximum depth is 1.
  • the maximum depth illustrated in FIG. 10 represents the total number of divisions from the maximum coding unit to the minimum coding unit.
  • the maximum size of the coding size is relatively large not only to improve the coding efficiency but also to accurately shape the image characteristics. Accordingly, the video data 1010 and 1020 having higher resolution than the video data 1030 may be selected to have a maximum size of 64.
  • the coding unit 1015 of the video data 1010 is divided twice from the largest coding unit having a long axis size of 64, and the depth is deepened by two layers, so that the long axis size is 32, 16. Up to coding units may be included.
  • the coding unit 1035 of the video data 1030 is divided once from coding units having a long axis size of 16, and the depth is deepened by one layer so that the long axis size is 8 Up to coding units may be included.
  • the coding unit 1025 of the video data 1020 is divided three times from the largest coding unit having a long axis size of 64, and the depth is three layers deep, so that the long axis size is 32, 16. , Up to 8 coding units may be included. As the depth increases, the expressive power of the detailed information may be improved.
  • FIG. 11 is a block diagram of a video encoder 1100 based on coding units, according to an embodiment of the present disclosure.
  • the video encoder 1100 performs operations performed by the encoder 310 of the video encoder 300 of FIG. 3 to encode image data. That is, the intra prediction unit 1120 performs intra prediction on each of the prediction units of the intra mode coding unit of the current image 1105, and the inter prediction unit 1115 performs the current image on each prediction unit with respect to the coding unit of the inter mode. Inter-prediction is performed using the reference image acquired in operation 1105 and the reconstructed picture buffer 1110.
  • the current image 1105 may be divided into maximum coding units and then sequentially encoded. In this case, encoding may be performed on the coding unit in which the largest coding unit is to be divided into a tree structure.
  • Residual data is generated by subtracting the prediction data for the coding unit of each mode output from the intra prediction unit 1120 or the inter prediction unit 1115 from the data for the encoding unit of the current image 1105, and The dew data is output as transform coefficients quantized for each transform unit through the transform unit 1125 and the quantization unit 1130.
  • the quantized transform coefficients are reconstructed into residue data in the spatial domain through the inverse quantizer 1145 and the inverse transformer 1150.
  • Residual data of the reconstructed spatial domain is added to the prediction data of the coding unit of each mode output from the intra predictor 1120 or the inter predictor 1115, thereby reconstructing the spatial domain of the coding unit of the current image 1105. The data is restored.
  • the reconstructed spatial area data is generated as a reconstructed image through the deblocking unit 1155 and the SAO performing unit 1160.
  • the generated reconstructed image is stored in the reconstructed picture buffer 1110.
  • the reconstructed images stored in the reconstructed picture buffer 1110 may be used as reference images for inter prediction of another image.
  • the transform coefficients quantized by the transformer 1125 and the quantizer 1130 may be output to the bitstream 1140 through the entropy encoder 1135.
  • the inter predictor 1115, the intra predictor 1120, and the transform unit 1 which are components of the video encoder 1100 may be applied.
  • the intra prediction unit 1120 and the inter prediction unit 1115 determine a partition mode and a prediction mode of each coding unit among coding units having a tree structure in consideration of the maximum size and the maximum depth of the current maximum coding unit.
  • the transform unit 1125 may determine whether to split the transform unit according to the quad tree in each coding unit among the coding units having the tree structure.
  • FIG. 12 is a block diagram of a video decoder 1200 based on coding units, according to an embodiment.
  • the entropy decoding unit 1215 parses the encoded image data to be decoded from the bitstream 1205 and encoding information necessary for decoding.
  • the encoded image data is a quantized transform coefficient.
  • the inverse quantizer 1220 and the inverse transform unit 1225 reconstruct residue data from the quantized transform coefficients.
  • the intra prediction unit 1240 performs intra prediction for each prediction unit with respect to the coding unit of the intra mode.
  • the inter prediction unit 1235 performs inter prediction on the coding unit of the inter mode of the current image by using the reference image acquired in the reconstructed picture buffer 1230 for each prediction unit.
  • the data of the spatial domain of the coding unit of the current image 1105 is restored and reconstructed.
  • the data of the space area may be output as the reconstructed image 1260 through the deblocking unit 1245 and the SAO performing unit 1250.
  • the reconstructed images stored in the reconstructed picture buffer 1230 may be output as reference images.
  • step-by-step operations after the entropy decoder 1215 of the video decoder 1200 may be performed.
  • the entropy decoder 1215, the inverse quantizer 1220, and the inverse transformer ( 1225, the intra prediction unit 1240, the inter prediction unit 1235, the deblocking unit 1245, and the SAO performing unit 1250 are based on respective coding units among coding units having a tree structure for each maximum coding unit. You can do it.
  • the intra prediction unit 1240 and the inter prediction unit 1235 determine a partition mode and a prediction mode for each coding unit among the coding units having a tree structure, and the inverse transform unit 1225 has a quad tree structure for each coding unit. It is possible to determine whether to divide the conversion unit according to.
  • the video encoder 1100 of FIG. 11 and the video decoder 1200 of FIG. 12 will encode and decode a video stream in a single layer, respectively. Therefore, if the video encoding apparatus 300 of FIG. 3 encodes video streams of two or more layers, the image encoder 1100 may be included for each layer. Similarly, if the video decoding apparatus 100 of FIG. 1 decodes video streams of two or more layers, it may include an image decoder 1200 for each layer.
  • FIG. 13 is a diagram of deeper coding units according to depths, and partitions, according to an embodiment of the present disclosure.
  • the video encoding apparatus 300 and the video decoding apparatus 100 use hierarchical coding units to consider image characteristics.
  • the maximum height, width, and maximum depth of the coding unit may be adaptively determined according to the characteristics of the image, and may be variously set according to a user's request. According to the maximum size of the preset coding unit, the size of the coding unit for each depth may be determined.
  • the hierarchical structure 1300 of a coding unit illustrates a case in which a maximum height and a width of a coding unit are 64 and a maximum depth is three.
  • the maximum depth indicates the total number of divisions from the maximum coding unit to the minimum coding unit. Since the depth deepens along the vertical axis of the hierarchical structure 1300 of the coding unit according to an embodiment, the height and the width of the coding unit for each depth are respectively divided. Also, along the horizontal axis of the hierarchical structure 1300 of the coding unit, a prediction unit and a partition on which the prediction coding of each deeper coding unit is based are illustrated.
  • the coding unit 1310 has a depth of 0 as the largest coding unit of the hierarchical structure 1300 of the coding unit, and the size, ie, the height and width, of the coding unit is 64x64.
  • a depth deeper along the vertical axis includes a coding unit 1320 having a depth of 32x32, a coding unit 1330 having a depth of 16x16, and a coding unit 1340 having a depth of 8x8.
  • a coding unit 1340 having a depth of 8 having a size of 8 ⁇ 8 is a minimum coding unit.
  • Prediction units and partitions of the coding unit are arranged along the horizontal axis for each depth. That is, if the coding unit 1310 having a size of 64x64 having a depth of 0 is a prediction unit, the prediction unit includes a partition 1310 having a size of 64x64, partitions 1312 having a size of 64x32, and a size included in the coding unit 1310 having a size of 64x64. 32x64 partitions 1314, and 32x32 partitions 1316.
  • the prediction unit of the coding unit 1320 having a size of 32x32 having a depth of 1 includes a partition 1320 having a size of 32x32, partitions 1322 having a size of 32x16, and a partition having a size of 16x32 included in the coding unit 1320 having a size of 32x32. 1324, partitions 1326 of size 16x16.
  • the prediction unit of the coding unit 1330 of size 16x16 having a depth of 2 includes a partition 1330 of size 16x16, partitions 1332 of size 16x8 and a partition of size 8x16 included in the coding unit 1330 of size 16x16. 1334, partitions 1336 of size 8x8.
  • the prediction unit of the coding unit 1340 having a size of 8x8 having a depth of 3 includes a partition 1340 having a size of 8x8, partitions 1342 having a size of 8x4, and a partition having a size of 4x8 included in the coding unit 1340 having a size of 8x8. 1344, partitions 1346 of size 4x4.
  • the video decoding apparatus 100 may hierarchically divide the prediction unit from the coding unit in the same manner as the division of the coding unit as described with reference to FIGS. 5 to 9.
  • the encoder 310 of the video encoding apparatus 300 performs encoding on each coding unit of each depth included in the maximum coding unit 1310. It must be done.
  • the number of deeper coding units according to depths for including data having the same range and size increases as the depth increases.
  • four data units of depth 2 may be required for data included in one coding unit of depth 1. Therefore, in order to compare the encoding results of the same data for each depth, the encoding unit may be encoded using one coding unit of one depth 1 and four coding units of four depths 2.
  • two data units of depth 2 may be required for data included in one coding unit of depth 1. Therefore, in order to compare the encoding result of the same data for each depth, the encoding unit may be encoded using one coding unit of one depth 1 and two coding units of two depths 2.
  • encoding may be performed for each prediction unit of a coding unit according to depths along a horizontal axis of the hierarchical structure 1300 of the coding unit, and a representative coding error, which is the smallest coding error at a corresponding depth, may be selected. .
  • a depth deeper along the vertical axis of the hierarchical structure 1300 of the coding unit encoding may be performed for each depth, and the minimum coding error may be searched by comparing the representative coding error for each depth.
  • the depth and partition in which the minimum coding error occurs in the maximum coding unit 1310 may be selected as the depth and partition mode of the maximum coding unit 1310.
  • FIG. 14 illustrates a relationship between a coding unit and transformation units, according to an embodiment of the present disclosure.
  • the video encoding apparatus 300 encodes or decodes an image in coding units having a size smaller than or equal to the maximum coding unit for each maximum coding unit.
  • the size of a transformation unit for transformation in the encoding process may be selected based on a data unit that is not larger than each coding unit.
  • the 32x32 size conversion unit 1420 is selected. The conversion can be performed.
  • the data of the 64x64 coding unit 1410 is transformed into 32x32, 16x16, 8x8, and 4x4 transform units of 64x64 size or less, and then encoded, and the transform unit having the least error with the original is selected. Can be.
  • the video decoding apparatus 100 may determine at least one transform unit partitioned from the coding unit by using information about the partition type of the transform unit parsed from the bitstream.
  • the video decoding apparatus 100 may hierarchically divide the transform unit in the same manner as the above-described coding unit.
  • the coding unit may include a plurality of transformation units.
  • the transformation unit may have a square shape.
  • the length of one side of the transformation unit may be the greatest common divisor of the length of the height of the coding unit and the length of the width of the coding unit. For example, when the coding unit has a size of 24 ⁇ 16, the greatest common divisor of 24 and 16 is 8. Therefore, the transformation unit may have a square shape having a size of 8 ⁇ 8.
  • a coding unit having a size of 24x16 may include six transformation units having a size of 8x8. Conventionally, since a square transformation unit is used, when the transformation unit is square, an additional basis may not be required.
  • the present invention is not limited thereto, and the video decoding apparatus 100 may determine the transformation unit included in the coding unit as an arbitrary rectangular shape. In this case, the video decoding apparatus 100 may have a basis corresponding to a rectangular shape.
  • the video decoding apparatus 100 may hierarchically divide a transformation unit of a depth including at least one of a current depth and a lower depth, from the coding unit, based on the information about the division type of the transformation unit. For example, when a coding unit has a size of 24x16, the video decoding apparatus 100 may divide the coding unit into six transformation units having a size of 8x8. Also, the video decoding apparatus 100 may split at least one transform unit among 6 transform units into 4 ⁇ 4 transform units.
  • the video decoding apparatus 100 may parse encoding information indicating whether a transform coefficient for a coding unit exists from the bitstream. In addition, when the encoding information indicates that the transform coefficient exists, the video decoding apparatus 100 may parse sub-coding information indicating whether the transform coefficient exists for each of the transform units included in the coding unit from the bitstream. .
  • the video decoding apparatus 100 may not parse the sub encoding information.
  • the video decoding apparatus 100 may parse the sub encoding information.
  • the transmitter 320 of the video encoding apparatus 300 is split information, and information about a partition mode 1500, information about a prediction mode 1510, and a transform unit size may be obtained for each coding unit of each depth.
  • Information about 1520 can be encoded and transmitted.
  • the information 1500 about the partition mode is a data unit for predictive encoding of the current coding unit, and represents information about a partition type in which the prediction unit of the current coding unit is divided.
  • the current coding unit CU_0 of size 2Nx2N may be any one of a partition 1502 of size 2Nx2N, a partition 1504 of size 2NxN, a partition 1506 of size Nx2N, and a partition 1508 of size NxN. It can be divided and used.
  • the information 1500 about the partition mode of the current coding unit represents one of a partition 1502 of size 2Nx2N, a partition 1504 of size 2NxN, a partition 1506 of size Nx2N, and a partition 1508 of size NxN. It is set to.
  • the partition type is not limited thereto and may include an asymmetric partition, an arbitrary partition, a geometric partition, and the like.
  • the current coding unit CU_0 of size 4Nx4N is a partition of size 4NxN, partition of size 4Nx2N, partition of size 4Nx3N, partition of size 4Nx4N, partition of size 3Nx4N, partition of size 2Nx4N, partition of size 1Nx4N, size 2Nx2N
  • the partition may be divided into any one type and used.
  • the current coding unit CU_0 of size 3Nx3N may be divided into one of the following types: partition 3NxN, partition 3Nx2N, partition 3Nx3N, partition 2Nx3N, partition 1Nx3N, and partition 2Nx2N. have.
  • partition 3NxN partition 3Nx2N
  • partition 3Nx3N partition 2Nx3N
  • partition 1Nx3N partition 2Nx2N.
  • partition 2Nx2N partition 2Nx2N. have.
  • the current coding unit may have an arbitrary rectangular shape.
  • the video decoding apparatus 100 may divide a prediction unit of a current depth into prediction units of a lower depth.
  • Information 1510 about the prediction mode indicates a prediction mode of each partition. For example, through the information 1510 about the prediction mode, whether the partition indicated by the information 1500 about the partition mode is performed in one of the intra mode 1512, the inter mode 1514, and the skip mode 1516. Whether or not can be set.
  • the information 1520 about the size of the transformation unit indicates which transformation unit to transform the current coding unit based on.
  • the transform unit may be one of a first intra transform unit size 1522, a second intra transform unit size 1524, a first inter transform unit size 1526, and a second inter transform unit size 1528. have.
  • the receiving unit 110 of the video decoding apparatus 100 may include information about a partition mode 1500, information about a prediction mode 1510, and information about a transform unit size for each depth-based coding unit. 1520 can be extracted and used for decoding.
  • 16 is a diagram of deeper coding units according to depths, according to an embodiment of the present disclosure.
  • Segmentation information may be used to indicate a change in depth.
  • the split information indicates whether a coding unit of a current depth is split into coding units of a lower depth.
  • the prediction unit 1610 for predictive encoding of the coding unit 1600 having depth 0 and 2N_0x2N_0 size includes a partition mode 1612 having a size of 2N_0x2N_0, a partition mode 1614 having a size of 2N_0xN_0, a partition mode 1616 having a size of N_0x2N_0, and N_0xN_0 May include a partition mode 1618 of size.
  • partition mode 1612, 1614, 1616, and 1618 in which the prediction unit is divided by a symmetrical ratio are illustrated, as described above, the partition mode is not limited thereto, and asymmetric partitions, arbitrary partitions, geometric partitions, and the like. It may include.
  • prediction coding For each partition mode, prediction coding must be performed repeatedly for one 2N_0x2N_0 partition, two 2N_0xN_0 partitions, two N_0x2N_0 partitions, and four N_0xN_0 partitions.
  • prediction encoding For partitions having a size 2N_0x2N_0, a size N_0x2N_0, a size 2N_0xN_0, and a size N_0xN_0, prediction encoding may be performed in an intra mode and an inter mode.
  • the skip mode may be performed only for prediction encoding on partitions having a size of 2N_0x2N_0.
  • the depth 0 is changed to 1 and split (1620), and iteratively encodes the coding units 1630 of the depth 2 and partition mode of the size N_0xN_0.
  • the depth 1 is changed to the depth 2 and split (1650), and the coding unit 1660 of the depth 2 and the size N_2xN_2 is repeated.
  • the encoding may be performed to search for a minimum encoding error.
  • depth-based coding units may be set until depth d-1, and split information may be set up to depth d-2. That is, when encoding is performed from the depth d-2 to the depth d-1 and the encoding is performed to the depth d-1, the prediction encoding of the coding unit 1680 of the depth d-1 and the size 2N_ (d-1) x2N_ (d-1)
  • a partition mode 1696 of N_ (d-1) x2N_ (d-1) and a partition mode 1698 of size N_ (d-1) xN_ (d-1) may be included.
  • partition mode one partition 2N_ (d-1) x2N_ (d-1), two partitions 2N_ (d-1) xN_ (d-1), two sizes N_ (d-1) x2N_
  • a partition mode in which a minimum encoding error occurs may be searched.
  • the maximum depth is d, so the coding unit CU_ (d-1) of the depth d-1 is no longer present.
  • the depth of the current maximum coding unit 1600 may be determined as the depth d-1, and the partition mode may be determined as N_ (d-1) xN_ (d-1) without going through a division process into lower depths.
  • split information is not set for the coding unit 1652 having the depth d-1.
  • the data unit 1699 may be referred to as a 'minimum unit' for the current maximum coding unit.
  • the minimum unit may be a square data unit having a size obtained by dividing the minimum coding unit, which is the lowest depth, into four segments.
  • the video encoding apparatus 300 compares depth-to-depth encoding errors of the coding units 1600, selects a coding unit size at which the smallest coding error occurs, and selects a depth of coding units.
  • the partition mode and the prediction mode may be set as an encoding mode.
  • the depth with the smallest error may be selected by comparing the minimum coding errors for all depths of depths 0, 1, ..., d-1, d.
  • the depth, the partition mode of the prediction unit, and the prediction mode may be encoded and transmitted as split information.
  • the coding unit needs to be split from the depth 0 to the selected depth, only the split information at the selected depth is set to '0', and the split information for each depth except for the selected depth should be set to '1'.
  • the video decoding apparatus 100 may extract information about a depth and a prediction unit of the coding unit 1600 and use the same to decode the coding unit 1612.
  • the video decoding apparatus 100 may identify a depth having split information of '0' as a selected depth by using split information for each depth, and use the split information for the corresponding depth for decoding.
  • 17, 18, and 19 illustrate a relationship between a coding unit, a prediction unit, and a transformation unit, according to an embodiment of the present disclosure.
  • the coding units 1710 are deeper coding units determined by the video encoding apparatus 300 according to an embodiment with respect to the largest coding unit.
  • the prediction unit 1760 is partitions of prediction units of each deeper coding unit among the coding units 1710, and the transform unit 1770 is transform units of each deeper coding unit.
  • the depth-based coding units 1710 have a depth of 0
  • the coding units 1712 and 1754 have a depth of 1
  • the coding units 1714, 1716, 1718, 1728, 1750, and 1752 have depths.
  • 2, coding units 1720, 1722, 1724, 1726, 1730, 1732, and 1748 have a depth of 3
  • coding units 1740, 1742, 1744, and 1746 have a depth of 4.
  • partitions 1714, 1716, 1722, 1732, 1748, 1750, 1752, and 1754 of the prediction units 1760 are divided by coding units. That is, partitions 1714, 1722, 1750, and 1754 are partition modes of 2NxN, partitions 1716, 1748, and 1752 are partition modes of Nx2N, and partitions 1732 are partition modes of NxN.
  • the prediction units and partitions of the coding units 1710 according to depths are smaller than or equal to each coding unit.
  • the image data of some of the transformation units 1770 may be transformed or inversely transformed into data units having a smaller size than that of the coding unit.
  • the transformation units 1714, 1716, 1722, 1732, 1748, 1750, 1752, and 1754 are data units having different sizes or shapes when compared to corresponding prediction units and partitions among the prediction units 1760. That is, even if the video decoding apparatus 100 and the video encoding apparatus 300 according to the embodiment are intra prediction / motion estimation / motion compensation operations and transform / inverse transform operations for the same coding unit, Each can be performed on a separate data unit.
  • coding is performed recursively for each coding unit having a hierarchical structure for each largest coding unit to determine an optimal coding unit.
  • coding units having a recursive tree structure may be configured.
  • the encoding information may include split information about the coding unit, partition mode information, prediction mode information, and transformation unit size information. Table 1 below shows an example that can be set in the video decoding apparatus 100 and the video encoding apparatus 300 according to an embodiment.
  • the transmitter 320 of the video encoding apparatus 300 outputs encoding information about coding units having a tree structure
  • the receiver 110 of the video decoding apparatus 100 according to an embodiment Encoding information regarding coding units having a tree structure may be extracted from the received bitstream.
  • the split information indicates whether the current coding unit is split into coding units of a lower depth. If the split information of the current depth d is 0, partition mode information, prediction mode, and transform unit size information may be defined for the coding units of the current depth because the current coding unit is no longer split from the current coding unit to the lower coding unit. Can be. If it is to be further split by the split information, encoding should be performed independently for each coding unit of the divided four lower depths.
  • the prediction mode may be represented by one of an intra mode, an inter mode, and a skip mode.
  • Intra mode and inter mode can be defined in all partition modes, and skip mode can only be defined in partition mode 2Nx2N.
  • the partition mode information indicates symmetric partition modes 2Nx2N, 2NxN, Nx2N, and NxN, in which the height or width of the prediction unit is divided by symmetrical ratios, and asymmetric partition modes 2NxnU, 2NxnD, nLx2N, nRx2N, divided by asymmetrical ratios.
  • the asymmetric partition modes 2NxnU and 2NxnD are divided into heights of 1: 3 and 3: 1, respectively, and the asymmetric partition modes nLx2N and nRx2N are divided into 1: 3 and 3: 1 widths, respectively.
  • the conversion unit size may be set to two kinds of sizes in the intra mode and two kinds of sizes in the inter mode. That is, if the transformation unit split information is 0, the size of the transformation unit is set to the size 2Nx2N of the current coding unit. If the transform unit split information is 1, a transform unit having a size obtained by dividing the current coding unit may be set. In addition, if the partition mode for the current coding unit having a size of 2Nx2N is a symmetric partition mode, the size of the transform unit may be set to NxN, and N / 2xN / 2 if it is an asymmetric partition mode.
  • Encoding information of coding units having a tree structure may be allocated to at least one of a coding unit, a prediction unit, and a minimum unit of a depth.
  • the coding unit of the depth may include at least one prediction unit and at least one minimum unit having the same encoding information.
  • the encoding information held by each adjacent data unit is checked, it may be determined whether the data is included in the coding unit having the same depth.
  • the coding unit of the corresponding depth may be identified using the encoding information held by the data unit, the distribution of depths within the maximum coding unit may be inferred.
  • the encoding information of the data unit in the depth-specific coding unit adjacent to the current coding unit may be directly referred to and used.
  • the prediction coding when the prediction coding is performed by referring to the neighboring coding unit, the data adjacent to the current coding unit in the coding unit according to depths is encoded by using the encoding information of the adjacent coding units according to depths.
  • the neighboring coding unit may be referred to by searching.
  • FIG. 20 illustrates a relationship between a coding unit, a prediction unit, and a transformation unit, according to encoding mode information of Table 1.
  • FIG. 20 illustrates a relationship between a coding unit, a prediction unit, and a transformation unit, according to encoding mode information of Table 1.
  • the maximum coding unit 2000 includes coding units 2002, 2004, 2006, 2012, 2014, 2016, and 2018 of depth. Since one coding unit 2018 is a coding unit of depth, split information may be set to zero. Partition mode information of the coding unit 2018 having a size of 2Nx2N includes partition modes 2Nx2N (2022), 2NxN (2024), Nx2N (2026), NxN (2028), 2NxnU (2032), 2NxnD (2034), and nLx2N (2036). And nRx2N 2038.
  • the transform unit split information (TU size flag) is a type of transform index, and a size of a transform unit corresponding to the transform index may be changed according to a prediction unit type or a partition mode of the coding unit.
  • the partition mode information is set to one of the symmetric partition modes 2Nx2N (2022), 2NxN (2024), Nx2N (2026), and NxN (2028)
  • the conversion unit partition information is 0, the conversion unit of size 2Nx2N ( 2042 is set, and if the transform unit split information is 1, a transform unit 2044 of size NxN may be set.
  • partition mode information is set to one of asymmetric partition modes 2NxnU (2032), 2NxnD (2034), nLx2N (2036), and nRx2N (2038)
  • the conversion unit partition information (TU size flag) is 0, a conversion unit of size 2Nx2N ( 2052 is set, and if the transform unit split information is 1, a transform unit 2054 of size N / 2 ⁇ N / 2 may be set.
  • the conversion unit splitting information (TU size flag) described above with reference to FIG. 19 is a flag having a value of 0 or 1, but the conversion unit splitting information according to an embodiment is not limited to a 1-bit flag and is set to 0 according to a setting. , 1, 2, 3., etc., and may be divided hierarchically.
  • the transformation unit partition information may be used as an embodiment of the transformation index.
  • the size of the transformation unit actually used may be expressed.
  • the video encoding apparatus 300 may encode maximum transform unit size information, minimum transform unit size information, and maximum transform unit split information.
  • the encoded maximum transform unit size information, minimum transform unit size information, and maximum transform unit split information may be inserted into the SPS.
  • the video decoding apparatus 100 may use the maximum transform unit size information, the minimum transform unit size information, and the maximum transform unit split information to use for video decoding.
  • the maximum transform unit split information is defined as 'MaxTransformSizeIndex'
  • the minimum transform unit size is 'MinTransformSize'
  • the transform unit split information is 0,
  • the minimum transform unit possible in the current coding unit is defined as 'RootTuSize'.
  • the size 'CurrMinTuSize' can be defined as in relation (1) below.
  • 'RootTuSize' which is a transform unit size when the transform unit split information is 0, may indicate a maximum transform unit size that can be adopted in the system. That is, according to relation (1), 'RootTuSize / (2 ⁇ MaxTransformSizeIndex)' is a transformation obtained by dividing 'RootTuSize', which is the transform unit size when the transform unit split information is 0, by the number of times corresponding to the maximum transform unit split information. Since the unit size is 'MinTransformSize' is the minimum transform unit size, a smaller value among them may be the minimum transform unit size 'CurrMinTuSize' possible in the current coding unit.
  • the maximum transform unit size RootTuSize may vary depending on a prediction mode.
  • RootTuSize may be determined according to the following relation (2).
  • 'MaxTransformSize' represents the maximum transform unit size
  • 'PUSize' represents the current prediction unit size.
  • RootTuSize min (MaxTransformSize, PUSize) ......... (2)
  • 'RootTuSize' which is a transform unit size when the transform unit split information is 0, may be set to a smaller value among the maximum transform unit size and the current prediction unit size.
  • 'RootTuSize' may be determined according to Equation (3) below.
  • 'PartitionSize' represents the size of the current partition unit.
  • RootTuSize min (MaxTransformSize, PartitionSize) ........... (3)
  • the conversion unit size 'RootTuSize' when the conversion unit split information is 0 may be set to a smaller value among the maximum conversion unit size and the current partition unit size.
  • the current maximum conversion unit size 'RootTuSize' according to an embodiment that changes according to the prediction mode of the partition unit is only an embodiment, and a factor determining the current maximum conversion unit size is not limited thereto.
  • image data of a spatial region is encoded for each coding unit of a tree structure, and an image decoding technique based on coding units of a tree structure
  • decoding is performed for each largest coding unit, and image data of a spatial region may be reconstructed to reconstruct a picture and a video that is a picture sequence.
  • the reconstructed video can be played back by a playback device, stored in a storage medium, or transmitted over a network.
  • an offset parameter may be signaled for each picture or every slice or every maximum coding unit, every coding unit according to a tree structure, every prediction unit of a coding unit, or every transformation unit of a coding unit. For example, by adjusting the reconstruction sample values of the maximum coding unit by using the offset value reconstructed based on the offset parameter received for each maximum coding unit, the maximum coding unit in which the error with the original block is minimized may be restored.
  • the above-described embodiments of the present disclosure may be written as a program executable on a computer, and may be implemented in a general-purpose digital computer operating the program using a computer-readable recording medium.
  • the computer-readable recording medium may include a storage medium such as a magnetic storage medium (eg, a ROM, a floppy disk, a hard disk, etc.) and an optical reading medium (eg, a CD-ROM, a DVD, etc.).
  • the hardware may also include a processor.
  • the processor may be a general purpose single- or multi-chip microprocessor (eg, ARM), special purpose microprocessor (eg, digital signal processor (DSP)), microcontroller, programmable gate array, etc. .
  • the processor may be called a central processing unit (CPU).
  • processors eg, ARM and DSP.
  • the hardware may also include memory.
  • the memory may be any electronic component capable of storing electronic information.
  • the memory includes random access memory (RAM), read-only memory (ROM), magnetic disk storage media, optical storage media, flash memory devices in RAM, on-board memory included in the processor, EPROM memory, EEPROM memory May be implemented as, registers, and others, combinations thereof.
  • Data and programs may be stored in memory.
  • the program may be executable by the processor to implement the methods disclosed herein. Execution of the program may include the use of data stored in memory.
  • a processor executes instructions, various portions of the instructions may be loaded onto the processor, and various pieces of data may be loaded onto the processor.

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Discrete Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

본 개시는, 계층적으로 분할되고, 다양한 크기 및 형태를 가진 부호화 단위에 기초하여, 영상을 복호화 하거나 부호화하는 장치 및 방법에 관하여 기술한다. 비디오 복호화 방법은 부호화된 영상을 최대 부호화 단위들로 분할하는 단계; 영상에 대한 비트스트림으로부터 부호화 단위를 이분할지 여부를 나타내는 분할 정보를 파싱하는 단계; 부호화 단위의 분할 형태를 나타내고, 부호화 단위의 분할 방향 정보를 포함하는, 형태 정보를 파싱하는 단계; 및 분할 정보 및 형태 정보를 이용하여 최대 부호화 단위로부터 계층적으로 분할된 부호화 단위를 결정하는 단계를 포함한다.

Description

비디오 부호화 방법 및 장치, 비디오 복호화 방법 및 장치
본 개시는 영상의 부호화 및 복호화에 관한 것이다.
고해상도 또는 고화질 비디오 컨텐트를 재생, 저장할 수 있는 하드웨어의 개발 및 보급에 따라, 고해상도 또는 고화질 비디오 컨텐트를 효과적으로 부호화하거나 복호화하는 비디오 코덱의 필요성이 증대하고 있다. 기존의 비디오 코덱에 따르면, 비디오는 4 분된 정사각형 블록에 기반하여 제한된 부호화 방식에 따라 부호화되고 있다.
본 개시는, 계층적으로 분할되고, 다양한 크기 및 형태를 가진 부호화 단위에 기초하여, 영상을 복호화 하거나 부호화하는 장치 및 방법에 관하여 기술한다.
본 개시의 실시예에 따른 비디오를 복호화 하는 방법은 부호화된 영상을 최대 부호화 단위들로 분할하는 단계; 영상에 대한 비트스트림으로부터 부호화 단위를 이분할지 여부를 나타내는 분할 정보를 파싱하는 단계; 부호화 단위의 분할 형태를 나타내고, 부호화 단위의 분할 방향 정보를 포함하는, 형태 정보를 파싱하는 단계; 및 분할 정보 및 형태 정보를 이용하여 최대 부호화 단위로부터 계층적으로 분할된 부호화 단위를 결정하는 단계를 포함한다.
또한, 형태 정보는, 부호화 단위가 수직 방향 및 수평 방향 중 하나로 나누어 짐을 나타내는 분할 방향 정보를 포함한다.
또한, 최대 부호화 단위는 분할정보에 따라 현재 심도와 하위 심도 중 적어도 하나를 포함하는 심도의 부호화 단위로 계층적으로 분할되고, 현재 심도의 부호화 단위의 방향 정보가 수직 방향으로 나누어짐을 나타내는 경우, 하위 심도의 부호화 단위의 방향 정보는 수평 방향으로 나누어 짐을 나타내고, 현재 심도의 부호화 단위의 방향 정보가 수평 방향으로 나누어 짐을 나타내는 경우, 하위 심도의 부호화 단위의 방향 정보는 수직 방향으로 나누어 짐을 나타낸다.
또한, 형태 정보는, 부호화 단위의 높이 및 폭 중 하나에 대한 일 지점에 대응하는 분할 위치를 나타내는, 분할 위치 정보를 포함한다.
또한, 부호화 단위의 높이 및 폭 중 하나를 소정의 길이로 나눈 개수를 결정하는 단계; 및 개수 및 분할 위치 정보에 기초하여, 부호화 단위의 높이 및 폭 중 하나에 대한 분할 위치를 결정하는 단계를 더 포함한다.
또한, 분할 위치 정보는, 부호화 단위의 높이 및 폭 중 하나에 대하여, 1/4, 1/3, 1/2, 2/3, 3/4 중 하나의 위치에서 이분됨을 나타낸다.
또한, 비트스트림으로부터 파싱된 파티션 타입에 관한 정보를 이용하여 부호화 단위로부터 분할된 적어도 하나의 예측단위를 결정하는 단계를 더 포함한다.
또한, 비트스트림으로부터 파싱된 변환 단위의 분할 형태에 대한 정보를 이용하여 부호화 단위로부터 분할된 적어도 하나의 변환단위를 결정하는 단계를 더 포함한다.
또한, 변환 단위는 정사각형 모양을 가지고, 변환 단위의 한 변의 길이는 부호화 단위의 높이의 길이 및 부호화 단위의 폭의 길이의 최대공약수이다.
또한, 부호화 단위는 변환 단위의 분할 형태에 대한 정보에 기초하여 현재 심도와 하위 심도 중 적어도 하나를 포함하는 심도의 변환 단위로 계층적으로 분할된다.
또한, 부호화 단위에 대한 변환 계수가 존재하는지 여부를 나타내는 부호화 정보를 파싱하는 단계; 및 부호화 정보가 변환 계수가 존재함을 나타내는 경우, 부호화 단위에 포함된 변환 단위 각각에 대하여 변환 계수가 존재하는지 여부를 나타내는 서브 부호화 정보를 파싱하는 단계를 더 포함한다.
또한, 최대 부호화 단위들은 동일한 크기의 정사각형인 것을 특징으로 한다.
본 개시의 실시예에 따른 비디오를 복호화 하는 장치는 영상에 대한 비트스트림으로부터 부호화 단위를 이분할지 여부를 나타내는 부호화 단위의 분할 정보를 파싱하고, 부호화 단위의 분할 형태를 나타내고, 부호화 단위의 분할 방향 정보를 포함하는 부호화 단위의 형태 정보를 파싱하는 수신부; 및 부호화된 영상을 최대 부호화 단위들로 분할하고, 분할 정보 및 형태 정보를 이용하여 최대 부호화 단위로부터 계층적으로 분할된 부호화 단위를 결정하는 복호화부를 포함한다.
본 개시의 일 실시예에 따른 영상을 복호화 하는 방법을 구현하기 위한 프로그램은 컴퓨터로 판독 가능한 기록 매체에 기록될 수 있다.
본 개시의 실시예에 따른 비디오를 부호화 하는 방법은 영상을 최대 부호화 단위들로 분할하는 단계; 최대 부호화 단위로부터 부호화 단위를 계층적으로 분할하는 단계; 최대 부호화 단위를 부호화 단위로 이분할지 여부를 나타내는 분할 정보 및 부호화 단위의 분할 형태를 나타내는 형태 정보를 결정하는 단계; 분할 정보 및 형태 정보를 부호화하는 단계;및 부호화된 분할 정보 및 부호화된 형태 정보를 포함하는 비트스트림을 전송하는 단계를 포함한다.
본 개시의 실시예에 따른 비디오를 부호화 하는 장치는, 영상을 최대 부호화 단위들로 분할하고, 최대 부호화 단위로부터 부호화 단위를 계층적으로 분할하고, 최대 부호화 단위를 부호화 단위로 이분할지 여부를 나타내는 분할 정보 및 부호화 단위의 분할 형태를 나타내는 형태 정보를 결정하고, 분할 정보 및 형태 정보를 부호화하는 부호화부; 및 부호화된 분할 정보 및 부호화된 형태 정보를 포함하는 비트스트림을 전송하는 전송부를 포함한다.
도 1 은 본 개시의 일 실시예에 따른 비디오 복호화 장치의 블록도를 도시한다.
도 2 는 본 개시의 일 실시예에 따른 비디오 복호화 방법의 흐름도를 도시한다.
도 3 은 본 개시의 일 실시예에 따른 비디오 부호화 장치의 블록도를 도시한다.
도 4 는 본 개시의 일 실시예에 따른 비디오 부호화 방법의 흐름도를 도시한다.
도 5 는 본 개시의 일 실시예에 따른 부호화 단위의 분할을 나타내는 도면이다.
도 6 은 본 개시의 일 실시예에 따라 부호화 단위가 계층적으로 분할되는 것을 나타낸 도면이다.
도 7 은 본 개시의 일 실시예에 따라 부호화 단위가 분할되는 과정을 나타낸 흐름도이다.
도 8은 본 개시의 일 실시예에 따라 SplitNum을 결정하는 수도코드(psudo code)를 나타낸 도면이다.
도 9 는 본 개시의 일 실시예에 따른 부호화 단위의 분할을 나타내는 도면이다.
도 10 은 본 개시의 일 실시예에 따른 부호화 단위의 개념을 도시한다.
도 11 은 본 개시의 일 실시예에 따른 부호화 단위에 기초한 영상 부호화부의 블록도를 도시한다.
도 12 는 본 개시의 일 실시예에 따른 부호화 단위에 기초한 영상 복호화부의 블록도를 도시한다.
도 13 은 본 개시의 일 실시예에 따른 심도별 부호화 단위 및 파티션을 도시한다.
도 14 는 본 개시의 일 실시예에 따른, 부호화 단위 및 변환 단위의 관계를 도시한다.
도 15 는 본 개시의 일 실시예에 따라, 심도별 부호화 정보들을 도시한다.
도 16 은 본 개시의 일 실시예에 따른 심도별 부호화 단위를 도시한다.
도 17은 본 개시의 일 실시예에 따른, 부호화 단위, 예측 단위 및 변환 단위의 관계를 도시한다.
도 18은 본 개시의 일 실시예에 따른, 부호화 단위, 예측 단위 및 변환 단위의 관계를 도시한다.
도 19은 본 개시의 일 실시예에 따른, 부호화 단위, 예측 단위 및 변환 단위의 관계를 도시한다.
도 20 은 표 1의 부호화 모드 정보에 따른 부호화 단위, 예측 단위 및 변환 단위의 관계를 도시한다.
이하 도 1 내지 도 9 를 참조하여 본 발명의 일 실시예에 따른 비디오 부호화 장치 및 비디오 복호화 장치, 비디오 부호화 방법 및 비디오 복호화 방법에 대해 설명한다.
도 1 은 본 개시의 일 실시예에 따른 비디오 복호화 장치의 블록도를 도시한다.
일 실시예에 따른 비디오 복호화 장치(100)는 수신부(110) 및 복호화부(120)를 포함한다.
수신부(110)는 영상에 대한 비트스트림으로부터 부호화 단위를 이분할지 여부를 나타내는 부호화 단위의 분할 정보를 파싱할 수 있다. 예를 들어 분할 정보는 1비트를 가질 수 있다. 분할 정보가 '1'을 나타내는 경우 부호화 단위가 이분됨을 나타내고, 분할 정보가 '0'을 나타내는 경우 부호화 단위가 이분되지 않음을 나타낼 수 있다. 본 개시의 다른 실시예에 따르면, 분할 정보는 1비트 이상을 가질 수 있다. 예를 들어 분할 정보가 2 비트를 가지는 경우, 비디오 복호화 장치(100)는 2 비트 중 적어도 하나의 비트에 기초하여 부호화 단위를 이분할지 또는 사분할지를 결정할 수 있다.
또한, 수신부(110)는 부호화 단위의 분할 형태를 나타내고, 부호화 단위의 분할 방향 정보를 포함하는 부호화 단위의 형태 정보를 파싱할 수 있다. 분할 형태 정보에 대해서는 이하 도 5 와 함께 자세히 설명한다.
또한 복호화부(120)는 부호화된 영상을 최대 부호화 단위들로 분할할 수 있다. 복호화부(120)는 '부호화 단위의 최소 크기에 대한 정보' 및 '부호화 단위의 최소 크기와 최대 크기의 차이값에 대한 정보'를 이용하여 영상을 최대 부호화 단위로 분할 할 수 있다. 최대 부호화 단위는 기존 복부호화 방법 및 장치와 호환성을 위하여 동일한 크기의 정사각형 모양을 가질 수 있다. 다만 이에 한정되는 것은 아니며, 서로 다른 크기의 정사각형 모양을 가질 수 있고, 직사각형 모양을 가질 수 있다. 최대 부호화 단위에 대해서는 도 10과 함께 더 자세히 설명한다.
또한, 복호화부(120)는 분할 정보 및 형태 정보를 이용하여 최대 부호화 단위로부터 계층적으로 분할된 부호화 단위를 결정할 수 있다. 부호화 단위는 최대 부호화 단위와 같거나 작은 크기를 가질 수 있다. 부호화 단위는 심도를 가지며 현재 심도를 가지는 부호화 단위는 하위 심도를 가지는 부호화 단위로 계층적으로 분할될 수 있다. 비디오 복호화 장치(100)는 영상 특성을 고려하기 위해 계층적인 부호화 단위를 사용한다. 비디오 복호화 장치(100)가 영상 특성을 고려하면 보다 효율적인 복호화가 가능하다.
도 2 는 본 개시의 일 실시예에 따른 비디오 복호화 방법의 흐름도를 도시한다.
이하 도 2 를 참조하여 본 개시에 따른 비디오 복호화 방법에 대하여 보다 구체적으로 설명한다. 도 1 의 비디오 복호화 장치(100)와 중복되는 설명은 생략한다.
단계(210)는 복호화부(120)에 의하여 수행될 수 있다. 또한, 단계(220) 및 단계(230)는 수신부(110)에 의하여 수행될 수 있다. 또한 단계 (240)는 복호화부(120)에 의하여 수행될 수 있다.
단계(210)에서 본 개시의 일 실시예에 따른 비디오 복호화 장치(100)는 영상을 최대 부호화 단위들로 분할한다. 단계(220)에서 본 개시의 일 실시예에 따른 비디오 복호화 장치(100)는 비트 스트림으로부터 부호화 단위를 이분할지 여부를 나타내는 분할 정보를 파싱할 수 있다. 또한, 단계(230)에서 본 개시의 일 실시예에 따른 비디오 복호화 장치(100)는 형태 정보를 파싱할 수 있다. 형태 정보는 부호화 단위의 분할 형태를 나타내고, 부호화 단위의 분할 방향 정보를 포함한다. 분할 형태 정보에 대해서는 이하 도 5 와 함께 자세히 설명한다.
또한, 단계(240)에서 본 개시의 일 실시예에 따른 비디오 복호화 장치(100)는 분할 정보 및 형태 정보를 이용하여 최대 부호화 단위로부터 계층적으로 분할된 부호화 단위를 결정한다.
도 3 은 본 개시의 일 실시예에 따른 비디오 부호화 장치의 블록도를 도시한다.
일 실시예에 따른 비디오 부호화 장치(300)는 부호화부(310) 및 전송부(320)를 포함한다.
부호화부(310)는 영상을 최대 부호화 단위들로 분할한다. 부호화부(310)는 최대 부호화 단위로부터 부호화 단위를 계층적으로 분할한다. 부호화부(310)는 다양한 부호화 단위로 최대 부호화 단위를 분할해 본 후, 비트율 왜곡 최적화(rate-distortion optimization)를 이용하여, 최적의 부호화 단위의 분할 구조를 찾을 수 있다. 부호화부(310)는 분할 구조에 기초하여 최대 부호화 단위를 부호화 단위로 이분할지 여부를 나타내는 분할 정보 및 부호화 단위의 분할 형태를 나타내는 형태 정보를 결정한다. 또한 부호화부(310)는 분할 정보 및 형태 정보를 부호화한다. 분할 정보는 도 1 에서 설명하였고, 형태 정보는 이하 도 5 와 함께 설명한다.
전송부(320)는 부호화된 분할 정보 및 부호화된 형태 정보를 포함하는 비트스트림을 전송할 수 있다. 비디오 부호화 장치(300)의 전송부(320)가 전송한 비트스트림을 비디오 복호화 장치(100)의 수신부(110)가 수신할 수 있다.
도 4 는 본 개시의 일 실시예에 따른 비디오 부호화 방법의 흐름도를 도시한다.
이하 도 4 를 참조하여 본 개시에 따른 비디오 부화화 방법에 대하여 보다 구체적으로 설명한다. 도 3 의 비디오 부호와 장치(300)와 중복되는 설명은 생략한다.
단계(410) 내지 단계(440)는 부호화부(310)에 의하여 수행될 수 있다. 단계(450)는 전송부(320)에 의하여 수행될 수 있다.
단계(410)에서 본 개시의 일 실시예에 따른 비디오 부호화 장치(300)는 영상을 최대 부호화 단위들로 분할한다. 또한 단계(420)에서 본 개시의 일 실시예에 따른 비디오 부호화 장치(300)는 최대 부호화 단위로부터 부호화 단위를 계층적으로 분할한다. 또한 단계(430)에서 본 개시의 일 실시예에 따른 비디오 부호화 장치(300)는 최대 부호화 단위를 부호화 단위로 이분할지 여부를 나타내는 분할 정보 및 부호화 단위의 분할 형태를 나타내는 형태 정보를 결정할 수 있다. 또한, 단계(440)에서 본 개시의 일 실시예에 따른 비디오 부호화 장치(300)는 분할 정보 및 형태 정보를 부호화한다. 또한, 단계(450)에서 본 개시의 일 실시예에 따른 비디오 부호화 장치(300)는 부호화된 분할 정보 및 부호화된 형태 정보를 포함하는 비트스트림을 전송한다.
도 5 는 본 개시의 일 실시예에 따른 부호화 단위의 분할을 나타내는 도면이다.
부호화 장치 및 방법과 복호화 장치 및 방법에 대한 설명은 유사하므로, 이하에서는 복호화 장치 및 방법을 기준으로 설명한다.
비디오 복호화 장치(100)는 부호화된 영상을 최대 부호화 단위(500)로 분할 할 수 있다. 비디오 복호화 장치(100)는 최대 부호화 단위(500)를 부호화 단위로 분할 할 수 있다. 부호화 단위는 최대 부호화 단위보다 작거나 같은 크기를 가질 수 있다. 비디오 복호화 장치(100)는 비트스트림으로부터 부호화 단위를 이분할지 여부를 나타내는 분할 정보를 파싱할 수 있다. 분할 정보가 부호화 단위를 이분함을 나타내는 경우, 비디오 복호화 장치(100)는 비트스트림으로부터 형태 정보를 더 파싱할 수 있다. 형태 정보는 부호화 단위의 분할 형태를 나타낼 수 있다. 또한, 형태 정보는 부호화 단위의 분할 방향 정보를 포함할 수 있다.
또한, 형태 정보에 포함되는 분할 방향 정보는 부호화 단위가 수직 방향 및 수평 방향 중 하나로 나누어 짐을 나타낼 수 있다. 예를 들어 부호화 단위들(510, 520, 530)의 분할 방향 정보는 수직 방향으로 이분됨을 나타낼 수 있다. 또한 부호화 단위들(540, 550, 560)의 분할 방향 정보는 수평 방향으로 이분됨을 나타낼 수 있다.
또한, 본 개시의 실시예에 따르면, 비디오 복호화 장치(100)는 분할정보에 따라 최대 부호화 단위를 현재 심도와 하위 심도 중 적어도 하나를 포함하는 심도의 부호화 단위로 계층적으로 분할할 수 있다. 또한, 현재 심도의 부호화 단위의 방향 정보가 수직 방향으로 나누어짐을 나타내는 경우, 비디오 복호화 장치(100)는 하위 심도의 부호화 단위의 방향 정보를 수평 방향으로 결정할 수 있다. 따라서, 비디오 복호화 장치(100)는 하위 심도의 부호화 단위의 방향 정보를 수신하지 않을 수 있다. 또한, 비디오 부호화 장치(300)는 부호화 단위의 방향 정보를 전송하지 않을 수 있다.
또한, 현재 심도의 부호화 단위의 방향 정보가 수평 방향으로 나누어 짐을 나타내는 경우, 비디오 복호화 장치(100)는 하위 심도의 부호화 단위의 방향 정보를 수직 방향으로 결정할 수 있다. 비디오 복호화 장치(100)가 수직 방향과 수평 방향으로 번갈하가면 부호화 단위를 분할 하는 경우, 비디오 복호화 장치(100)는 비트스트림으로부터 최상위 심도의 방향 정보만을 파싱하면 되므로, 비트스트림의 비트효율이 높아지며, 비디오 복호화 장치(100)의 처리속도가 개선될 수 있다.
또한, 형태 정보는 부호화 단위의 높이 및 폭 중 하나에 대한 일 지점에 대응하는 분할 위치를 나타내는, 분할 위치 정보를 포함할 수 있다. 예를 들어, 상술한 바와 같이 비디오 복호화 장치(100)는 비트스트림으로부터 부호화 단위들(510, 520, 530)이 수직으로 이분됨을 나타내는 분할 방향 정보를 수신할 수 있다. 또한 비디오 복호화 장치(100)는 비트스트림으로부터 부호화 단위들(510, 520, 530, 540, 550, 560)의 분할 위치 정보들(515, 525, 535, 545, 555, 565) 중 하나를 파싱할 수 있다. 비디오 복호화 장치(100) 및 비디오 부호화 장치(300)는 분할 위치 정보를 부호화 단위의 소정의 지점과 대응시킬 수 있다.
부호화 단위들(510, 520, 530)의 분할 방향 정보가 수직으로 나누어짐을 나타내는 경우, 분할 위치 정보들(515, 525, 535)은 부호화 단위의 폭에 대한 일 지점에 대응하는 분할 위치를 나타낼 수 있다.
예를 들어, 비디오 복호화 장치(100)가 분할 위치 정보(515)인 '1'을 수신 한 경우, 비디오 복호화 장치(100)는 부호화 단위(510)의 왼쪽변으로부터 폭의 1/4 지점이 분할 위치임을 결정할 수 있다. 또한, 비디오 복호화 장치(100)가 분할 위치 정보(525)인 '0'을 수신 한 경우, 비디오 복호화 장치(100)는 부호화 단위(520)의 왼쪽변으로부터 폭의 1/2 지점이 분할 위치임을 결정할 수 있다. 또한, 비디오 복호화 장치(100)가 분할 위치 정보(515)인 '2'을 수신 한 경우, 비디오 복호화 장치(100)는 부호화 단위(530)의 왼쪽변으로부터 폭의 3/4 지점이 분할 위치임을 결정할 수 있다.
또한, 부호화 단위들(540, 550, 560)의 분할 방향 정보가 수평으로 나누어짐을 나타내는 경우, 분할 위치 정보들(545, 555, 565)은 부호화 단위의 높이에 대한 일 지점에 대응하는 분할 위치를 나타낼 수 있다. 즉, 분할 위치 정보들(515, 525, 535)은 분할 위치 정보들(545, 555, 565)과 동일한 값을 가질 수 있지만, 분할 방향 정보에 따라 의미가 달라 질 수 있다.
예를 들어, 비디오 복호화 장치(100)가 분할 위치 정보(545)인 '1'을 수신 한 경우, 비디오 복호화 장치(100)는 부호화 단위(540)의 위쪽변으로부터 높이의 1/4 지점이 분할 위치임을 결정할 수 있다. 또한, 비디오 복호화 장치(100)가 분할 위치 정보(555)인 '0'을 수신 한 경우, 비디오 복호화 장치(100)는 부호화 단위(550)의 위쪽변으로부터 높이의 1/2 지점이 분할 위치임을 결정할 수 있다. 또한, 비디오 복호화 장치(100)가 분할 위치 정보(565)인 '2'을 수신 한 경우, 비디오 복호화 장치(100)는 부호화 단위(560)의 위쪽변으로부터 높이의 3/4 지점이 분할 위치임을 결정할 수 있다.
위에서는 분할 위치 정보가 2 비트 인 경우를 예를 들어 설명하였으나 이에 한정되는 것은 아니며, 1 비트 이상이 할당될 수 있다. 예를 들어 분할 위치 정보가 3 비트를 가지는 경우 총 8가지의 분할 위치가 지정될 수 있다. 예를 들어 부호화 단위의 왼쪽 변으로부터 폭의 길이의 1/9 지점이 분할 위치로 지정될 수 있다.
도 6 은 본 개시의 일 실시예에 따라 부호화 단위가 계층적으로 분할되는 것을 나타낸 도면이다.
비디오 복호화 장치(100)는 현재 심도의 부호화 단위(610)에 대한 분할 정보를 비트스트림으로부터 파싱할 수 있다. 현재 심도는 '심도 0'일 수 있다. 분할 정보가 분할 됨을 나타내는 경우, 비디오 복호화 장치(100)는 비트스트림으로부터 형태 정보를 파싱할 수 있다. 비디오 복호화 장치(100)는 형태 정보 중 방향 정보에 기초하여 부호화 단위(610)가 수평으로 분할됨을 결정할 수 있다.
형태 정보는 분할 위치 정보를 포함할 수 있다. 분할 위치 정보는, 부호화 단위의 높이 및 폭 중 하나에 대하여, 1/4, 1/3, 1/2, 2/3, 3/4 중 하나의 위치에서 이분됨을 나타낼 수 있다. 형태 정보 중 분할 위치 정보에 기초하여, 비디오 복호화 장치(100)는 부호화 단위(610)의 위쪽변으로부터 높이의 3/4지점(611)이 분할 위치임을 결정할 수 있다. 예를 들어 32 x 32의 크기를 가진 부호화 단위(610)가 32 x 24 및 32 x 8 의 크기의 부호화 단위들로 이분될 수 있다.
비디오 복호화 장치(100)는 하위 심도의 부호화 단위들(620, 630)에 대한 분할 정보를 비트스트림으로부터 파싱할 수 있다. 하위 심도는 '심도 1'일 수 있다.
본 개시의 일 실시예에 따르면, 분할 정보가 부호화 단위의 분할을 나타내는 경우, 비디오 복호화 장치(100)는 비트스트림으로부터 형태 정보를 파싱할 수 있다. 비디오 복호화 장치(100)는 형태 정보 중 분할 방향 정보에 기초하여 부호화 단위들(620, 630)이 수평으로 분할됨을 결정할 수 있다. 또한 형태 정보 중 분할 위치 정보에 기초하여, 비디오 복호화 장치(100)는 부호화 단위(620)의 왼쪽변으로부터 폭의 3/4지점(621)이 분할 위치임을 결정할 수 있다. 또한 비디오 복호화 장치(100)는 부호화 단위(620)의 왼쪽변으로부터 폭의 1/4지점(631)이 분할 위치임을 결정할 수 있다. 예를 들어 32x24 의 크기를 가진 부호화 단위(620)가 24 x 24 및 8 x 24 의 크기의 부호화 단위들로 이분될 수 있다. 또한 32x8 의 크기를 가진 부호화 단위(630)가 8x8 및 24x8 의 크기의 부호화 단위들로 이분될 수 있다.
본 개시의 다른 실시예에 따르면, 분할 정보가 부호화 단위의 분할을 나타내는 경우, 비디오 복호화 장치(100)는 현재 심도(즉 '심도 0')에 기초하여 하위 심도(즉 '심도 1')의 분할 방향 정보를 결정할 수 있다. 예를 들어 현재 심도의 분할 방향 정보가 수평인 경우, 비디오 복호화 장치(100)는 하위 심도의 분할 방향 정보를 수직으로 결정할 수 있다. 반대로 현재 심도의 분할 방향 정보가 수직인 경우, 비디오 복호화 장치(100)는 하위 심도의 분할 방향 정보를 수평으로 결정할 수 있다.
비디오 복호화 장치(100)는 하위 심도의 부호화 단위들(640, 650)에 대한 분할 정보를 비트스트림으로부터 파싱할 수 있다. 하위 심도는 '심도 2'일 수 있다. 분할 정보가 부호화 단위의 분할을 나타내는 경우, 비디오 복호화 장치(100)는 비트스트림으로부터 형태 정보를 파싱할 수 있다. 비디오 복호화 장치(100)는 형태 정보 중 분할 방향 정보에 기초하여 부호화 단위(640)가 수직으로 분할됨을 결정할 수 있다. 또한, 비디오 복호화 장치(100)는 형태 정보 중 분할 방향 정보에 기초하여 부호화 단위(650)가 수평으로 분할됨을 결정할 수 있다. 형태 정보 중 분할 위치 정보에 기초하여, 비디오 복호화 장치(100)는 부호화 단위(640)의 왼쪽변으로부터 폭의 2/3지점(641)이 분할 위치임을 결정할 수 있다. 또한 비디오 복호화 장치(100)는 부호화 단위(650)의 위쪽변으로부터 높이의 1/3지점(651)이 분할 위치임을 결정할 수 있다. 나머지 하위 부호화 단위들(660)의 분할 정보는 부호화 단위가 분할되지 않음을 나타낼 수 있다.
비디오 복호화 장치(100)는 하위 심도의 부호화 단위(670)에 대한 분할 정보를 비트스트림으로부터 파싱할 수 있다. 하위 심도는 '심도 3'일 수 있다. 분할 정보가 부호화 단위의 분할을 나타내는 경우, 비디오 복호화 장치(100)는 비트스트림으로부터 형태 정보를 파싱할 수 있다. 비디오 복호화 장치(100)는 형태 정보 중 분할 방향 정보에 기초하여 부호화 단위(670)가 수평으로 분할됨을 결정할 수 있다. 또한 형태 정보 중 분할 위치 정보에 기초하여, 비디오 복호화 장치(100)는 부호화 단위(670)의 위쪽변으로부터 높이의 2/3지점(671)이 분할 위치임을 결정할 수 있다.
도 7 은 본 개시의 일 실시예에 따라 부호화 단위가 분할되는 과정을 나타낸 흐름도이다.
단계(710)에서 비디오 복호화 장치(100)는 비트스트림으로부터 split_flag를 파싱할 수 있다. split_flag는 분할 정보를 의미할 수 있다. 단계(711)에서 split_flag 가 '0' 인 경우, 비디오 복호화 장치(100)는 현재 블록을 분할하지 않을 수 있다. 현재 블록은 현재 심도의 부호화 단위일 수 있다.
단계(720)에서 split_flag가 '1' 인 경우, 비디오 복호화 장치(100)는 비트스트림으로부터 형태 정보를 파싱할 수 있다. 형태 정보는 split_direction_flag를 포함할 수 있다. split_direction_flag는 분할 방향 정보를 나타낼 수 있다.
단계(730)에서 비디오 복호화 장치(100)는 SplitNum을 결정할 수 있다. SplitNum은 부호화 단위의 높이 및 폭 중 하나를 소정의 길이로 나눈 개수를 의미할 수 있다. 비디오 복호화 장치(100)는 개수(SplitNum) 및 분할 위치 정보에 기초하여, 부호화 단위의 높이 및 폭 중 하나에 대한 분할 위치를 결정할 수 있다. 비디오 부호화 장치(100)는 소정의 길이를 비트스트림으로부터 파싱할 수 있다. 또한 비디오 부호화 장치(100)는 소정의 길이를 비트스트림으로부터 파싱하지 않고, 메모리에 미리 저장하고 있을 수 있다. 소정의 길이 및 개수(SplitNum)에 대해서는 도 8 과 함께 자세히 설명한다.
본 개시의 일 실시예에 따르면, 단계(740)에서 SplitNum이 2 인 경우, 비디오 복호화 장치(100)는 현재 블록의 폭 및 높이 중 하나를 이등분할 수 있다. 이 경우, 비디오 복호화 장치(100)는 분할 위치 정보를 비트스트림으로부터 따로 파싱하지 않을 수 있다.
또한, 본 개시의 다른 실시예에 따르면, 단계(750)에서 SplitNum이 3 인 경우, 비디오 복호화 장치(100)는 비트스트림으로부터 split_position_idx를 파싱할 수 있다. split_position_idx는 분할 위치 정보를 의미할 수 있다. 단계(751)에서 split_position_idx가 '0'인 경우, 비디오 복호화 장치(100)는 현재 블록의 1/3 지점을 분할 지점으로 선택할 수 있다. 예를 들어, split_direction_flag가 수직을 나타내는 경우, 비디오 복호화 장치(100)는 현재 블록의 왼쪽변으로부터 폭의 1/3지점을 수직으로 분할할 수 있다.
또한, 단계(752)에서 split_position_idx가 '1'인 경우, 비디오 복호화 장치(100)는 현재 블록의 2/3 지점을 분할 지점으로 선택할 수 있다. 예를 들어, split_direction_flag가 수평을 나타내는 경우, 비디오 복호화 장치(100)는 현재 블록의 위쪽변으로부터 높이의 2/3지점을 수평으로 분할할 수 있다.
또한, 본 개시의 다른 실시예에 따르면, 단계(760)에서 SplitNum이 4 인 경우, 비디오 복호화 장치(100)는 비트스트림으로부터 split_half_flag를 파싱할 수 있다. split_half_flag는 1비트를 가질 수 있으며, 분할 위치 정보에 포함될 수 있다. 단계(761)에서 split_half_flag가 '1'인 경우, 비디오 복호화 장치(100)는 현재 블록을 이등분할 수 있다.
또한 단계(770)에서, split_half_flag가 '0'인 경우, 비디오 복호화 장치(100)는 비트스트림으로부터 split_position_idx를 파싱할 수 있다. split_position_idx는 1비트를 가질 수 있으며, 분할 위치 정보에 포함될 수 있다. 단계(771)에서 split_position_idx이 '0'인 경우, 비디오 복호화 장치(100)는 현재 블록의 1/4 지점을 분할 지점으로 선택할 수 있다. 예를 들어, split_direction_flag가 수직을 나타내는 경우, 비디오 복호화 장치(100)는 현재 블록의 왼쪽변으로부터 폭의 1/4지점을 수직으로 분할할 수 있다.
단계(772)에서 split_position_idx이 '1'인 경우, 비디오 복호화 장치(100)는 현재 블록의 3/4 지점을 분할 지점으로 선택할 수 있다. 예를 들어, split_direction_flag가 수평을 나타내는 경우, 비디오 복호화 장치(100)는 현재 블록의 위쪽변으로부터 폭의 3/4지점을 수평으로 분할할 수 있다.
단계(760) 및 단계(770)에서 비디오 복호화 장치(100)가 split_half_flag 및 split_position_idx을 따로 파싱하는 것으로 설명하였으나, 이에 한정되는 것은 아니다. 예를 들어 비디오 복호화 장치(100)는 비트스트림으로부터 split_position_idx 및 split_half_flag를 포함하는 2비트의 분할 위치 정보를 한 번에 파싱할 수 있다.
도 8은 본 개시의 알 실시예에 따라 SplitNum을 결정하는 수도코드(psudo code)를 나타낸 도면이다.
비디오 복호화 장치(100)는 비트스트림으로부터 split_direction_flag를 파싱할 수 있다. split_direction_flag는 분할 방향 정보를 의미할 수 있다. 비디오 복호화 장치(100)는 split_direction_flag에 따라 uiDefault를 결정할 수 있다. 예를 들어 split_direction_flag가 '1' 인 경우, 비디오 복호화 장치(100)는 부호화 단위를 수평으로 나눌 수 있다. 또한 split_direction_flag이 '1' 인 경우, 비디오 복호화 장치(100)는 uiDefault 를 부호화 단위의 높이(height)로 결정할 수 있다. 또한, split_direction_flag가 '0' 인 경우, 비디오 복호화 장치(100)는 부호화 단위를 수직으로 나눌 수 있다. 또한, split_direction_flag가 '0' 인 경우, 비디오 복호화 장치(100)는 uiDefault 를 부호화 단위의 폭(width)로 결정할 수 있다.
bHit은 특정 조건은 만족했을 때, 반복문을 빠져나오기 위한 상수이다. 비디오 복호화 장치(100)는 bHit를 'false'로 초기화 한다.
비디오 복호화 장치(100)는 uiSplit을 4부터 2까지 1씩 감소시키면서 for문을 수행한다. 또한, unSplitMinSize는 도 7 의 단계(730)의 소정의 길이로서 부호화 단위의 폭 또는 높이를 uiSplit로 나눈 값이다. 다만, 소정의 길이는 이에 한정되는 것은 아니다. 도 8 의 수도코드에서 소정의 길이는 계산되었으나, 비디오 복호화 장치(100) 및 비디오 부호화 장치(300)는 소정의 길이를 저장하고 있을 수 있다. 또한 비디오 부호화 장치(300)가 비디오 복호화 장치(100)로 소정의 길이를 전송할 수 있다.
비디오 복호화 장치(100)는 uiStep을 6부터 3까지 1씩 감소시키면서 for문을 수행한다. 또한 uiDefault 가 uiSplitMinSize로 나누어 지면서, uiSplitMinSize가 (1<<uiStep)과 동일한 경우, 비디오 복호화 장치(100)는 splitNum 을 uiSplit으로 설정한다. 또한 비디오 복호화 장치(100)는 bHit을 true로 설정하여 for문을 빠져나간다.
본 개시의 다른 실시예에 따르면, SplitNum은 도 8 의 수도 코드와 같이 계산되는 것이 아니고, 비디오 부호화 장치(300)가 비디오 복호화 장치(100)로 SplitNum을 전송할 수 있다. 또한 비디오 복호화 장치(100) 및 비디오 부호화 장치(300)는 SplitNum을 저장하고 있을 수 있다.
도 9 는 본 개시의 일 실시예에 따른 부호화 단위의 분할을 나타내는 도면이다.
도 9의 (a)를 참조하면, 부호화 단위(910)는 32 x 32의 크기를 가질 수 있다. 비디오 복호화 장치(100)는 비트스트림으로부터 split_flag(911)를 파싱할 수 있다. 예를 들어 split_flag(911)가 1 인 경우 비디오 복호화 장치(100)는 비트스트림으로부터 split_direction_flag(912) 및 split_position_idx(913) 중 적어도 하나를 파싱할 수 있다. split_direction_flag(912)가 0 인 경우, 비디오 복호화 장치(100)는 부호화 단위(910)를 수평으로 이분할 수 있다.
또한 비디오 복호화 장치(100)는 split_position_idx(913)의 값과 분할 위치를 서로 대응시킬 수 있다. 예를 들어, 비디오 복호화 장치(100)는 split_position_idx(913)의 값이 0 인경우, 부호화 단위(910)의 위쪽변에서 높이의 1/2 지점을 분할 지점으로 결정할 수 있다. 또한 비디오 복호화 장치(100)는 split_position_idx(913)의 값이 1 인경우, 부호화 단위(910)의 위쪽변에서 높이의 1/4 지점을 분할 지점으로 결정할 수 있다. 또한, 비디오 복호화 장치(100)는 split_position_idx(913)의 값이 2 인경우, 부호화 단위(910)의 위쪽변에서 높이의 3/4 지점을 분할 지점으로 결정할 수 있다. 도 9 의 (a)에서 split_position_idx(913)의 값은 1 이므로, 비디오 복호화 장치(100)는 부호화 단위(910)의 위쪽변으로부터 높이의 1/4 지점을 분할할 수 있다.
도 9의 (b)를 참조하면, 부호화 단위(920)는 32 x 32의 크기를 가질 수 있다. 비디오 복호화 장치(100)는 비트스트림으로부터 split_flag(921)를 파싱할 수 있다. 예를 들어 split_flag(921)가 1 인 경우 비디오 복호화 장치(100)는 비트스트림으로부터 split_direction_flag(922) 및 split_position_idx(923) 중 적어도 하나를 파싱할 수 있다. split_direction_flag(922)가 1 인경우, 비디오 복호화 장치(100)는 부호화 단위(920)를 수직으로 이분할 수 있다. 또한 split_position_idx(923)가 2 인 경우, 비디오 복호화 장치(100)는 부호화 단위(920)의 왼쪽변으로부터 폭의 3/4 지점을 분할할 수 있다.
도 9의 (c)를 참조하면, 부호화 단위(930)는 24 x 16의 크기를 가질 수 있다. 비디오 복호화 장치(100)는 비트스트림으로부터 split_flag(931)를 파싱할 수 있다. split_flag(931)가 1 인 경우 비디오 복호화 장치(100)는 비트스트림으로부터 split_direction_flag(932) 및 split_position_idx(933) 중 적어도 하나를 파싱할 수 있다. split_direction_flag(932)가 1 인경우, 비디오 복호화 장치(100)는 부호화 단위(930)를 수직으로 이분할 수 있다.
또한 비디오 복호화 장치(100)는 split_position_idx(933)의 값이 0 인 경우, 부호화 단위(930)의 왼쪽변으로부터 폭의 1/3 지점을 분할 지점으로 결정할 수 있다. 또한 비디오 복호화 장치(100)는 split_position_idx(933)의 값이 1 인 경우, 부호화 단위(930)의 왼쪽변에서 폭의 2/3 지점을 분할 지점으로 결정할 수 있다. 도 9 의 (c)에서 split_position_idx(933)의 값은 1 이므로, 비디오 복호화 장치(100)는 부호화 단위(930)의 왼쪽변으로부터 폭의 2/3 지점을 분할할 수 있다.
도 9의 (d)를 참조하면, 부호화 단위(940)는 32 x 32의 크기를 가질 수 있다. 비디오 복호화 장치(100)는 비트스트림으로부터 split_flag(941)를 파싱할 수 있다. split_flag(941)가 1 인 경우 비디오 복호화 장치(100)는 비트스트림으로부터 split_direction_flag(942), split_half_flag(943) 및 split_position_idx(944) 중 적어도 하나를 파싱할 수 있다. 예를 들어, split_direction_flag(942)가 1 인경우, 비디오 복호화 장치(100)는 부호화 단위(940)를 수직으로 이분할 수 있다. 또한 split_half_flag(943)가 1 인 경우, 비디오 복호화 장치(100)는 부호화 단위(940)를 이등분할 수 있다. 또한 비디오 복호화 장치(100)는 split_position_idx(944)를 수신하지 않을 수 있다. 또한, 비디오 부호화 장치(300)는 split_position_idx(944)를 전송하지 않을 수 있다.
비디오 복호화 장치(100)는 비트스트림으로부터 파싱된 파티션 타입에 관한 정보를 이용하여 부호화 단위로부터 분할된 적어도 하나의 예측단위를 결정할 수 있다. 비디오 복호화 장치(100)는 위에서 설명한 부호화 단위와 동일한 방식으로 예측단위를 계층적으로 분할할 수 있다. 부호화 단위는 복수의 예측 단위를 포함할 수 있다. 예측 단위의 크기는 부호화 단위의 크기와 같거나 작을 수 있다. 예측 단위는 다양한 크기의 직사각형 모양을 가질 수 있다. 예를 들어 예측 단위는 64x64, 64x32, 64x16, 64x8, 64x4, 32x32, 32x16, 32x8, 32x4 등의 모양을 가질 수 있다. 또한, 현재 부호화 단위가 최소 부호화 단위의 크기와 동일한 경우, 비디오 복호화 장치(100)는 부호화 단위로부터 예측 단위를 분할 할 수 있다.
도 10 은 본 개시의 일 실시예에 따른 부호화 단위의 개념을 도시한다.
부호화 단위의 예는, 부호화 단위의 크기는 너비x높이로 표현되며, 크기 64x64인 부호화 단위부터, 32x32, 16x16, 8x8를 포함할 수 있다. 크기 64x64의 부호화 단위는 크기 64x64, 64x32, 32x64, 32x32의 파티션들로 분할될 수 있고, 크기 32x32의 부호화 단위는 크기 32x32, 32x16, 16x32, 16x16의 파티션들로, 크기 16x16의 부호화 단위는 크기 16x16, 16x8, 8x16, 8x8의 파티션들로, 크기 8x8의 부호화 단위는 크기 8x8, 8x4, 4x8, 4x4의 파티션들로 분할될 수 있다. 또한 도 10 에서는 도시하지 않았으나, 도 5 내지 도 9 에서 설명한 바와 같이, 부호화 단위는 32x24, 32x8, 8x24, 24x8 등의 크기를 가질 수 있다.
비디오 데이터(1010)에 대해서는, 해상도는 1920x1080, 부호화 단위의 최대 크기는 64, 최대 심도가 2로 설정되어 있다. 비디오 데이터(1020)에 대해서는, 해상도는 1920x1080, 부호화 단위의 최대 크기는 64, 최대 심도가 3로 설정되어 있다. 비디오 데이터(1030)에 대해서는, 해상도는 352x288, 부호화 단위의 최대 크기는 16, 최대 심도가 1로 설정되어 있다. 도 10에 도시된 최대 심도는, 최대 부호화 단위로부터 최소 부호화 단위까지의 총 분할 횟수를 나타낸다.
해상도가 높거나 데이터량이 많은 경우 부호화 효율의 향상뿐만 아니라 영상 특성을 정확히 반형하기 위해 부호화 사이즈의 최대 크기가 상대적으로 큰 것이 바람직하다. 따라서, 비디오 데이터(1030)에 비해, 해상도가 높은 비디오 데이터(1010, 1020)는 부호화 사이즈의 최대 크기가 64로 선택될 수 있다.
비디오 데이터(1010)의 최대 심도는 2이므로, 비디오 데이터(1010)의 부호화 단위(1015)는 장축 크기가 64인 최대 부호화 단위로부터, 2회 분할하며 심도가 두 계층 깊어져서 장축 크기가 32, 16인 부호화 단위들까지 포함할 수 있다. 반면, 비디오 데이터(1030)의 최대 심도는 1이므로, 비디오 데이터(1030)의 부호화 단위(1035)는 장축 크기가 16인 부호화 단위들로부터, 1회 분할하며 심도가 한 계층 깊어져서 장축 크기가 8인 부호화 단위들까지 포함할 수 있다.
비디오 데이터(1020)의 최대 심도는 3이므로, 비디오 데이터(1020)의 부호화 단위(1025)는 장축 크기가 64인 최대 부호화 단위로부터, 3회 분할하며 심도가 세 계층 깊어져서 장축 크기가 32, 16, 8인 부호화 단위들까지 포함할 수 있다. 심도가 깊어질수록 세부 정보의 표현능력이 향상될 수 있다.
도 11 은 본 개시의 일 실시예에 따른 부호화 단위에 기초한 비디오 부호화부(1100)의 블록도를 도시한다.
일 실시예에 따른 비디오 부호화부(1100)는, 도 3 의 비디오 부호화 장치(300)의 부호화부(310)에서 영상 데이터를 부호화하는데 거치는 작업들을 수행한다. 즉, 인트라 예측부(1120)는 현재 영상(1105) 중 인트라 모드의 부호화 단위에 대해 예측 단위별로 인트라 예측을 수행하고, 인터 예측부(1115)는 인터 모드의 부호화 단위에 대해 예측단위별로 현재 영상(1105) 및 복원 픽처 버퍼(1110)에서 획득된 참조 영상을 이용하여 인터 예측을 수행한다. 현재 영상(1105)은 최대부호화 단위로 분할된 후 순차적으로 인코딩이 수행될 수 있다. 이때, 최대 부호화 단위가 트리 구조로 분할될 부호화 단위에 대해 인코딩을 수행될 수 있다.
인트라 예측부(1120) 또는 인터 예측부(1115)로부터 출력된 각 모드의 부호화 단위에 대한 예측 데이터를 현재 영상(1105)의 인코딩되는 부호화 단위에 대한 데이터로부터 빼줌으로써 레지듀 데이터를 생성하고, 레지듀 데이터는 변환부(1125) 및 양자화부(1130)를 거쳐 변환 단위별로 양자화된 변환 계수로 출력된다. 양자화된 변환 계수는 역양자화부(1145), 역변환부(1150)를 통해 공간 영역의 레지듀 데이터로 복원된다. 복원된 공간 영역의 레지듀 데이터는 인트라 예측부(1120) 또는 인터 예측부(1115)로부터 출력된 각 모드의 부호화 단위에 대한 예측 데이터와 더해짐으로써 현재 영상(1105)의 부호화 단위에 대한 공간 영역의 데이터로 복원된다. 복원된 공간 영역의 데이터는 디블로킹부(1155) 및 SAO 수행부(1160)를 거쳐 복원 영상으로 생성된다. 생성된 복원 영상은 복원 픽쳐 버퍼(1110)에 저장된다. 복원 픽처 버퍼(1110)에 저장된 복원 영상들은 다른 영상의 인터예측을 위한 참조 영상으로 이용될 수 있다. 변환부(1125) 및 양자화부(1130)에서 양자화된 변환 계수는 엔트로피 부호화부(1135)를 거쳐 비트스트림(1140)으로 출력될 수 있다.
일 실시예에 따른 비디오 부호화부(1100)가 비디오 부호화 장치(300)에 적용되기 위해서, 비디오 부호화부(1100)의 구성 요소들인 인터 예측부(1115), 인트라 예측부(1120), 변환부(1125), 양자화부(1130), 엔트로피 부호화부(1135), 역양자화부(1145), 역변환부(1150), 디블로킹부(1155) 및 SAO 수행부(1160)가 최대 부호화 단위마다 트리 구조에 따른 부호화 단위들 중 각각의 부호화 단위에 기반한 작업을 수행할 수 있다.
특히, 인트라 예측부(1120)및 인터예측부(1115)는 현재 최대 부호화 단위의 최대 크기 및 최대 심도를 고려하여 트리 구조에 따른 부호화 단위들 중 각각의 부호화 단위의 파티션 모드 및 예측 모드를 결정하며, 변환부(1125)는 트리 구조에 따른 부호화 단위들 중 각각의 부호화 단위 내의 쿼드 트리에 따른 변환 단위의 분할 여부를 결정할 수 있다.
도 12는 일 실시예에 따른 부호화 단위에 기초한 비디오 복호화부(1200)의 블록도를 도시한다.
엔트로피 복호화부(1215)는 비트스트림(1205)으로부터 복호화 대상인 부호화된 영상 데이터 및 복호화를 위해 필요한 부호화 정보를 파싱한다. 부호화된 영상 데이터는 양자화된 변환계수로서, 역양자화부(1220) 및 역변환부(1225)는 양자화된 변환 계수로부터 레지듀 데이터를 복원한다.
인트라 예측부(1240)는 인트라 모드의 부호화 단위에 대해 예측 단위 별로 인트라 예측을 수행한다. 인터 예측부(1235)는 현재 영상 중 인터 모드의 부호화 단위에 대해 예측 단위 별로 복원 픽처 버퍼(1230)에서 획득된 참조 영상을 이용하여 인터 예측을 수행한다.
인트라 예측부(1240) 또는 인터 예측부(1235)를 거친 각 모드의 부호화 단위에 대한 예측 데이터와 레지듀 데이터가 더해짐으로써 현재 영상(1105)의 부호화 단위에 대한 공간 영역의 데이터가 복원되고, 복원된 공간 영역의 데이터는 디블로킹부(1245) 및 SAO 수행부(1250)를 거쳐 복원 영상(1260)으로 출력될 수 있다. 또한, 복원 픽쳐 버퍼(1230)에 저장된 복원 영상들은 참조 영상으로서 출력될 수 있다.
도 1 의 비디오 복호화 장치(100)의 복호화부(120)에서 영상 데이터를 복호화하기 위해, 일 실시예에 따른 비디오 복호화부(1200)의 엔트로피 복호화부(1215) 이후의 단계별 작업들이 수행될 수 있다.
비디오 복호화부(1200)가 일 실시예에 따른 비디오 복호화 장치(100)에 적용되기 위해서, 비디오 복호화부(1200)의 구성 요소들인 엔트로피 복호화부(1215), 역양자화부(1220), 역변환부(1225), 인트라 예측부(1240), 인터 예측부(1235), 디블로킹부(1245) 및 SAO 수행부(1250)가 최대 부호화 단위마다 트리 구조에 따른 부호화 단위들 중 각각의 부호화 단위에 기반하여 작업을 수행할 수 있다.
특히, 인트라 예측부(1240)및 인터 예측부(1235)는 트리 구조에 따른 부호화 단위들 중 각각의 부호화 단위마다 파티션 모드 및 예측 모드를 결정하며, 역변환부(1225)는 부호화 단위마다 쿼드 트리구조에 따른 변환단위의 분할 여부를 결정할 수 있다.
도 11의 비디오 부호화부(1100) 및 도 12의 비디오 복호화부(1200)는 단일 레이어에서의 비디오스트림을 각각 부호화 및 복호화할 것이다. 따라서, 도 3 의 비디오 부호화 장치(300)가 둘 이상의 레이어의 비디오스트림을 부호화한다면, 레이어별로 영상부호화부(1100)를 포함할 수 있다. 유사하게, 도 1 의 비디오 복호화 장치(100)가 둘 이상의 레이어의 비디오스트림을 복호화한다면, 레이어별로 영상복호화부(1200)를 포함할 수 있다.
도 13는 본 개시의 일 실시예에 따른 심도별 부호화 단위 및 파티션을 도시한다.
일 실시예에 따른 비디오 부호화 장치(300) 및 일 실시예에 따른 비디오 복호화 장치(100)는 영상 특성을 고려하기 위해 계층적인 부호화 단위를 사용한다. 부호화 단위의 최대 높이 및 너비, 최대 심도는 영상의 특성에 따라 적응적으로 결정될 수도 있으며, 사용자의 요구에 따라 다양하게 설정될 수도 있다. 미리 설정된 부호화 단위의 최대 크기에 따라, 심도별 부호화 단위의 크기가 결정될 수 있다.
일 실시예에 따른 부호화 단위의 계층 구조(1300)는 부호화 단위의 최대 높이 및 너비가 64이며, 최대 심도가 3인 경우를 도시하고 있다. 이 때, 최대 심도는 최대 부호화 단위로부터 최소 부호화 단위까지의 총 분할 횟수를 나타낸다. 일 실시예에 따른 부호화 단위의 계층 구조(1300)의 세로축을 따라서 심도가 깊어지므로 심도별 부호화 단위의 높이 및 너비가 각각 분할한다. 또한, 부호화 단위의 계층 구조(1300)의 가로축을 따라, 각각의 심도별 부호화 단위의 예측 부호화의 기반이 되는 예측 단위 및 파티션이 도시되어 있다.
즉, 부호화 단위(1310)는 부호화 단위의 계층 구조(1300) 중 최대 부호화 단위로서 심도가 0이며, 부호화 단위의 크기, 즉 높이 및 너비가 64x64이다. 세로축을 따라 심도가 깊어지며, 크기 32x32인 심도 1의 부호화 단위(1320), 크기 16x16인 심도 2의 부호화 단위(1330), 크기 8x8인 심도 3의 부호화 단위(1340)가 존재한다. 크기 8x8인 심도 3의 부호화 단위(1340)는 최소 부호화 단위이다.
각각의 심도별로 가로축을 따라, 부호화 단위의 예측 단위 및 파티션들이 배열된다. 즉, 심도 0의 크기 64x64의 부호화 단위(1310)가 예측 단위라면, 예측 단위는 크기 64x64의 부호화 단위(1310)에 포함되는 크기 64x64의 파티션(1310), 크기 64x32의 파티션들(1312), 크기 32x64의 파티션들(1314), 크기 32x32의 파티션들(1316)로 분할될 수 있다.
마찬가지로, 심도 1의 크기 32x32의 부호화 단위(1320)의 예측 단위는, 크기 32x32의 부호화 단위(1320)에 포함되는 크기 32x32의 파티션(1320), 크기 32x16의 파티션들(1322), 크기 16x32의 파티션들(1324), 크기 16x16의 파티션들(1326)로 분할될 수 있다.
마찬가지로, 심도 2의 크기 16x16의 부호화 단위(1330)의 예측 단위는, 크기 16x16의 부호화 단위(1330)에 포함되는 크기 16x16의 파티션(1330), 크기 16x8의 파티션들(1332), 크기 8x16의 파티션들(1334), 크기 8x8의 파티션들(1336)로 분할될 수 있다.
마찬가지로, 심도 3의 크기 8x8의 부호화 단위(1340)의 예측 단위는, 크기 8x8의 부호화 단위(1340)에 포함되는 크기 8x8의 파티션(1340), 크기 8x4의 파티션들(1342), 크기 4x8의 파티션들(1344), 크기 4x4의 파티션들(1346)로 분할될 수 있다.
도 13예서 도시하지는 않았으나, 도 5 내지 9 에서 설명한 바와 같은 부호화 단위의 분할과 동일한 방식으로, 비디오 복호화 장치(100)는 예측단위를 부호화 단위로부터 계층적으로 분할할 수 있다.
일 실시예에 따른 비디오 부호화 장치(300)의 부호화부(310)는, 최대 부호화 단위(1310)의 심도를 결정하기 위해, 최대 부호화 단위(1310)에 포함되는 각각의 심도의 부호화 단위마다 부호화를 수행하여야 한다.
동일한 범위 및 크기의 데이터를 포함하기 위한 심도별 부호화 단위의 개수는, 심도가 깊어질수록 심도별 부호화 단위의 개수도 증가한다. 본 개시의 일 실시예에 따르면, 심도 1의 부호화 단위 한 개가 포함하는 데이터에 대해서, 심도 2의 부호화 단위는 네 개가 필요할 수 있다. 따라서, 동일한 데이터의 부호화 결과를 심도별로 비교하기 위해서, 한 개의 심도 1의 부호화 단위 및 네 개의 심도 2의 부호화 단위를 이용하여 각각 부호화될 수 있다.
본 개시의 다른 실시예에 따르면, 심도 1의 부호화 단위 한 개가 포함하는 데이터에 대해서, 심도 2의 부호화 단위는 두 개가 필요할 수 있다. 따라서, 동일한 데이터의 부호화 결과를 심도별로 비교하기 위해서, 한 개의 심도 1의 부호화 단위 및 두 개의 심도 2의 부호화 단위를 이용하여 각각 부호화될 수 있다.
각각의 심도별 부호화를 위해서는, 부호화 단위의 계층 구조(1300)의 가로축을 따라, 심도별 부호화 단위의 예측 단위들마다 부호화를 수행하여, 해당 심도에서 가장 작은 부호화 오차인 대표 부호화 오차가 선택될 수다. 또한, 부호화 단위의 계층 구조(1300)의 세로축을 따라 심도가 깊어지며, 각각의 심도마다 부호화를 수행하여, 심도별 대표 부호화 오차를 비교하여 최소 부호화 오차가 검색될 수 있다. 최대 부호화 단위(1310) 중 최소 부호화 오차가 발생하는 심도 및 파티션이 최대 부호화 단위(1310)의 심도 및 파티션 모드로 선택될 수 있다.
도 14 는 본 개시의 일 실시예에 따른, 부호화 단위 및 변환 단위의 관계를 도시한다.
일 실시예에 따른 비디오 부호화 장치(300) 또는 일 실시예에 따른 비디오 복호화 장치(100)는, 최대 부호화 단위마다 최대 부호화 단위보다 작거나 같은 크기의 부호화 단위로 영상을 부호화하거나 복호화한다. 부호화 과정 중 변환을 위한 변환 단위의 크기는 각각의 부호화 단위보다 크지 않은 데이터 단위를 기반으로 선택될 수 있다.
예를 들어, 일 실시예에 따른 비디오 부호화 장치(300) 또는 일 실시예에 따른 비디오 복호화 장치(100)에서, 현재 부호화 단위(1410)가 64x64 크기일 때, 32x32 크기의 변환 단위(1420)를 이용하여 변환이 수행될 수 있다.
또한, 64x64 크기의 부호화 단위(1410)의 데이터를 64x64 크기 이하의 32x32, 16x16, 8x8, 4x4 크기의 변환 단위들로 각각 변환을 수행하여 부호화한 후, 원본과의 오차가 가장 적은 변환 단위가 선택될 수 있다.
비디오 복호화 장치(100)는 비트스트림으로부터 파싱된 변환 단위의 분할 형태에 대한 정보를 이용하여 부호화 단위로부터 분할된 적어도 하나의 변환단위를 결정할 수 있다. 비디오 복호화 장치(100)는 위에서 설명한 부호화 단위와 동일한 방식으로 변환 단위를 계층적으로 분할할 수 있다. 부호화 단위는 복수의 변환 단위를 포함할 수 있다.
변환 단위는 정사각형 모양을 가질 수 있다. 변환 단위의 한 변의 길이는 부호화 단위의 높이의 길이 및 부호화 단위의 폭의 길이의 최대공약수일 수 있다. 예를 들어, 부호화 단위가 24x16의 크기를 가지는 경우 24 와 16의 최대공약수는 8이다. 따라서 변환단위는 8x8의 크기를 가지는 정사각형 모양을 가질 수 있다. 또한, 24x16 크기의 부호화 단위에는 8x8 크기의 변환단위가 6개 포함될 수 있다. 종래에는 정사각형 모양의 변환단위를 사용하였으므로, 변환단위를 정사각형으로 할 경우, 추가적인 기저(basis)가 필요하지 않을 수 있다.
다만 이에 한정되는 것은 아니며, 비디오 복호화 장치(100)는 부호화 단위에 포함된 변환 단위를 임의의 직사각형 모양으로 결정할 수 있다. 이 경우, 비디오 복호화 장치(100)는 직사각형 모양에 대응하는 기저(basis)를 가지고 있을 수 있다.
또한, 비디오 복호화 장치(100)는 변환 단위의 분할 형태에 대한 정보에 기초하여, 부호화 단위로부터 현재 심도와 하위 심도 중 적어도 하나를 포함하는 심도의 변환 단위를 계층적으로 분할할 수 있다. 예를 들어 부호화 단위가 24x16의 크기를 가지는 경우, 비디오 복호화 장치(100)는 부호화 단위를 6 개의 8x8 의 크기를 가지는 변환단위들로 나눌 수 있다. 또한 비디오 복호화 장치(100)는 6 개의 변환 단위들 중 적어도 하나의 변환 단위를 4x4 의 변환단위들로 분할 할 수 있다.
또한, 비디오 복호화 장치(100)는 비트스트림으로부터 부호화 단위에 대한 변환 계수가 존재하는지 여부를 나타내는 부호화 정보를 파싱할 수 있다. 또한, 부호화 정보가 변환 계수가 존재함을 나타내는 경우, 비디오 복호화 장치(100)는 부호화 단위에 포함된 변환 단위 각각에 대하여 변환 계수가 존재하는지 여부를 나타내는 서브 부호화 정보를 비트스트림으로부터 파싱할 수 있다.
예를 들어, 부호화 정보가 부호화 단위에 대한 변환 계수가 존재하지 않음을 나타내는 경우, 비디오 복호화 장치(100)는 서브 부호화 정보를 파싱하지 않을 수 있다. 또한, 부호화 정보가 부호화 단위에 대한 변환 계수가 존재함을 나타내는 경우, 비디오 복호화 장치(100)는 서브 부호화 정보를 파싱할 수 있다.
도 15 는 본 개시의 일 실시예에 따라, 부호화 정보들을 도시한다.
일 실시예에 따른 비디오 부호화 장치(300)의 전송부(320)는 분할정보로서, 각각의 심도의 부호화 단위마다 파티션 모드에 관한 정보(1500), 예측 모드에 관한 정보(1510), 변환 단위 크기에 대한 정보(1520)를 부호화하여 전송할 수 있다.
파티션 모드에 대한 정보(1500)는, 현재 부호화 단위의 예측 부호화를 위한 데이터 단위로서, 현재 부호화 단위의 예측 단위가 분할된 파티션의 형태에 대한 정보를 나타낸다. 예를 들어, 크기 2Nx2N의 현재 부호화 단위 CU_0는, 크기 2Nx2N의 파티션(1502), 크기 2NxN의 파티션(1504), 크기 Nx2N의 파티션(1506), 크기 NxN의 파티션(1508) 중 어느 하나의 타입으로 분할되어 이용될 수 있다. 이 경우 현재 부호화 단위의 파티션 모드에 관한 정보(1500)는 크기 2Nx2N의 파티션(1502), 크기 2NxN의 파티션(1504), 크기 Nx2N의 파티션(1506) 및 크기 NxN의 파티션(1508) 중 하나를 나타내도록 설정된다.
다만, 파티션 타입은 이에 한정되지 않고 비대칭적 파티션, 임의적 형태의 파티션, 기하학적 형태의 파티션 등을 포함할 수 있다. 예를 들어, 크기 4Nx4N의 현재 부호화 단위 CU_0는, 크기 4NxN의 파티션, 크기 4Nx2N의 파티션, 크기 4Nx3N의 파티션, 크기 4Nx4N의 파티션, 크기 3Nx4N의 파티션, 크기 2Nx4N의 파티션, 크기 1Nx4N의 파티션, 크기 2Nx2N의 파티션 중 어느 하나의 타입으로 분할되어 이용될 수 있다. 또한 크기 3Nx3N의 현재 부호화 단위 CU_0는, 크기 3NxN의 파티션, 크기 3Nx2N의 파티션, 크기 3Nx3N의 파티션, 크기 2Nx3N의 파티션, 크기 1Nx3N의 파티션, 크기 2Nx2N의 파티션 중 어느 하나의 타입으로 분할되어 이용될 수 있다. 또한, 위에서는 현재 부호화 단위가 정사각형인 경우에 대해서 설명하였으나, 도 5 내지 도 9 에서 설명한 바와 같이 현재 부호화 단위는 임의의 직사각형 모양일 수 있다. 도 5 내지 도 9 에서 설명한 바와 같은 부호화 단위의 분할 방식으로, 비디오 복호화 장치(100)는 현재 심도의 예측 단위를 하위 심도의 에측 단위로 분할할 수 있다.
예측 모드에 관한 정보(1510)는, 각각의 파티션의 예측 모드를 나타낸다. 예를 들어 예측 모드에 관한 정보(1510)를 통해, 파티션 모드에 관한 정보(1500)가 가리키는 파티션이 인트라 모드(1512), 인터 모드(1514) 및 스킵 모드(1516) 중 하나로 예측 부호화가 수행되는지 여부가 설정될 수 있다.
또한, 변환 단위 크기에 관한 정보(1520)는 현재 부호화 단위를 어떠한 변환 단위를 기반으로 변환을 수행할지 여부를 나타낸다. 예를 들어, 변환 단위는 제 1 인트라 변환 단위 크기(1522), 제 2 인트라 변환 단위 크기(1524), 제 1 인터 변환 단위 크기(1526), 제 2 인터 변환 단위 크기(1528) 중 하나일 수 있다.
일 실시예에 따른 비디오 복호화 장치(100)의 수신부(110)는, 각각의 심도별 부호화 단위마다 파티션 모드에 관한 정보(1500), 예측 모드에 관한 정보(1510), 변환 단위 크기에 대한 정보(1520)를 추출하여 복호화에 이용할 수 있다.
도 16 은 본 개시의 일 실시예에 따른 심도별 부호화 단위를 도시한다.
심도의 변화를 나타내기 위해 분할 정보가 이용될 수 있다. 분할 정보는 현재 심도의 부호화 단위가 하위 심도의 부호화 단위로 분할될지 여부를 나타낸다.
심도 0 및 2N_0x2N_0 크기의 부호화 단위(1600)의 예측 부호화를 위한 예측 단위(1610)는 2N_0x2N_0 크기의 파티션 모드(1612), 2N_0xN_0 크기의 파티션 모드(1614), N_0x2N_0 크기의 파티션 모드(1616), N_0xN_0 크기의 파티션 모드(1618)를 포함할 수 있다. 예측 단위가 대칭적 비율로 분할된 파티션들(1612, 1614, 1616, 1618)만이 예시되어 있지만, 전술한 바와 같이 파티션 모드는 이에 한정되지 않고 비대칭적 파티션, 임의적 형태의 파티션, 기하학적 형태의 파티션 등을 포함할 수 있다.
파티션 모드마다, 한 개의 2N_0x2N_0 크기의 파티션, 두 개의 2N_0xN_0 크기의 파티션, 두 개의 N_0x2N_0 크기의 파티션, 네 개의 N_0xN_0 크기의 파티션마다 반복적으로 예측 부호화가 수행되어야 한다. 크기 2N_0x2N_0, 크기 N_0x2N_0 및 크기 2N_0xN_0 및 크기 N_0xN_0의 파티션에 대해서는, 인트라 모드 및 인터 모드로 예측 부호화가 수행될 수 있다. 스킵 모드는 크기 2N_0x2N_0의 파티션에 예측 부호화가 대해서만 수행될 수 있다.
크기 2N_0x2N_0, 2N_0xN_0 및 N_0x2N_0의 파티션 모드(1612, 1614, 1616) 중 하나에 의한 부호화 오차가 가장 작다면, 더 이상 하위 심도로 분할할 필요 없다.
크기 N_0xN_0의 파티션 모드(1618)에 의한 부호화 오차가 가장 작다면, 심도 0를 1로 변경하며 분할하고(1620), 심도 2 및 크기 N_0xN_0의 파티션 모드의 부호화 단위들(1630)에 대해 반복적으로 부호화를 수행하여 최소 부호화 오차를 검색해 나갈 수 있다.
심도 1 및 크기 2N_1x2N_1 (=N_0xN_0)의 부호화 단위(1630)의 예측 부호화를 위한 예측 단위(1640)는, 크기 2N_1x2N_1의 파티션 모드(1642), 크기 2N_1xN_1의 파티션 모드(1644), 크기 N_1x2N_1의 파티션 모드(1646), 크기 N_1xN_1의 파티션 모드(1648)를 포함할 수 있다.
또한, 크기 N_1xN_1 크기의 파티션 모드(1648)에 의한 부호화 오차가 가장 작다면, 심도 1을 심도 2로 변경하며 분할하고(1650), 심도 2 및 크기 N_2xN_2의 부호화 단위들(1660)에 대해 반복적으로 부호화를 수행하여 최소 부호화 오차를 검색해 나갈 수 있다.
최대 심도가 d인 경우, 심도별 부호화 단위는 심도 d-1일 때까지 설정되고, 분할 정보는 심도 d-2까지 설정될 수 있다. 즉, 심도 d-2로부터 분할(1670)되어 심도 d-1까지 부호화가 수행될 경우, 심도 d-1 및 크기 2N_(d-1)x2N_(d-1)의 부호화 단위(1680)의 예측 부호화를 위한 예측 단위(1690)는, 크기 2N_(d-1)x2N_(d-1)의 파티션 모드(1692), 크기 2N_(d-1)xN_(d-1)의 파티션 모드(1694), 크기 N_(d-1)x2N_(d-1)의 파티션 모드(1696), 크기 N_(d-1)xN_(d-1)의 파티션 모드(1698)를 포함할 수 있다.
파티션 모드 가운데, 한 개의 크기 2N_(d-1)x2N_(d-1)의 파티션, 두 개의 크기 2N_(d-1)xN_(d-1)의 파티션, 두 개의 크기 N_(d-1)x2N_(d-1)의 파티션, 네 개의 크기 N_(d-1)xN_(d-1)의 파티션마다 반복적으로 예측 부호화를 통한 부호화가 수행되어, 최소 부호화 오차가 발생하는 파티션 모드가 검색될 수 있다.
크기 N_(d-1)xN_(d-1)의 파티션 모드(1698)에 의한 부호화 오차가 가장 작더라도, 최대 심도가 d이므로, 심도 d-1의 부호화 단위 CU_(d-1)는 더 이상 하위 심도로의 분할 과정을 거치지 않으며, 현재 최대 부호화 단위(1600)에 대한 심도가 심도 d-1로 결정되고, 파티션 모드는 N_(d-1)xN_(d-1)로 결정될 수 있다. 또한 최대 심도가 d이므로, 심도 d-1의 부호화 단위(1652)에 대해 분할 정보는 설정되지 않는다.
데이터 단위(1699)는, 현재 최대 부호화 단위에 대한 '최소 단위'라 지칭될 수 있다. 일 실시예에 따른 최소 단위는, 최하위 심도인 최소 부호화 단위가 4분할된 크기의 정사각형의 데이터 단위일 수 있다. 이러한 반복적 부호화 과정을 통해, 일 실시예에 따른 비디오 부호화 장치(300)는 부호화 단위(1600)의 심도별 부호화 오차를 비교하여 가장 작은 부호화 오차가 발생하는 부호화 단위 크기를 선택하여, 부호화 단위의 심도를 결정하고, 해당 파티션 모드 및 예측 모드가 부호화 모드로 설정될 수 있다.
이런 식으로 심도 0, 1, ..., d-1, d의 모든 심도별 최소 부호화 오차를 비교하여 오차가 가장 작은 심도가 선택될 수 있다. 심도, 및 예측 단위의 파티션 모드 및 예측 모드는 분할정보로써 부호화되어 전송될 수 있다. 또한, 심도 0으로부터 선택된 심도에 이르기까지 부호화 단위가 분할되어야 하므로, 선택된 심도에서의 분할 정보만이 '0'으로 설정되고, 선택된 심도를 제외한 심도별 분할 정보는 '1'로 설정되어야 한다.
다양한 실시예에 따른 비디오 복호화 장치(100)는 부호화 단위(1600)에 대한 심도 및 예측 단위에 관한 정보를 추출하여 부호화 단위(1612)를 복호화하는데 이용할 수 있다. 다양한 실시예에 따른 비디오 복호화 장치(100)는 심도별 분할 정보를 이용하여 분할 정보가 '0'인 심도를 선택된 심도로 파악하고, 해당 심도에 대한 분할정보를 이용하여 복호화에 이용할 수 있다.
도 17, 도 18 및 도 19 는 본 개시의 일 실시예에 따른, 부호화 단위, 예측 단위 및 변환 단위의 관계를 도시한다.
부호화 단위(1710)는, 최대 부호화 단위에 대해 일 실시예에 따른 비디오 부호화 장치(300)가 결정한 심도별 부호화 단위들이다. 예측 단위(1760)는 부호화 단위(1710) 중 각각의 심도별 부호화 단위의 예측 단위들의 파티션들이며, 변환 단위(1770)는 각각의 심도별 부호화 단위의 변환 단위들이다.
심도별 부호화 단위들(1710)은 최대 부호화 단위의 심도가 0이라고 하면, 부호화 단위들(1712, 1754)은 심도가 1, 부호화 단위들(1714, 1716, 1718, 1728, 1750, 1752)은 심도가 2, 부호화 단위들(1720, 1722, 1724, 1726, 1730, 1732, 1748)은 심도가 3, 부호화 단위들(1740, 1742, 1744, 1746)은 심도가 4이다.
예측 단위들(1760) 중 일부 파티션(1714, 1716, 1722, 1732, 1748, 1750, 1752, 1754)는 부호화 단위가 분할된 형태이다. 즉, 파티션(1714, 1722, 1750, 1754)은 2NxN의 파티션 모드며, 파티션(1716, 1748, 1752)은 Nx2N의 파티션 모드, 파티션(1732)은 NxN의 파티션 모드다. 심도별 부호화 단위들(1710)의 예측 단위 및 파티션들은 각각의 부호화 단위보다 작거나 같다.
변환 단위들(1770) 중 일부(1752)의 영상 데이터에 대해서는 부호화 단위에 비해 작은 크기의 데이터 단위로 변환 또는 역변환이 수행된다. 또한, 변환 단위(1714, 1716, 1722, 1732, 1748, 1750, 1752, 1754)는 예측 단위들(1760) 중 해당 예측 단위 및 파티션와 비교해보면, 서로 다른 크기 또는 형태의 데이터 단위이다. 즉, 일 실시예에 따른 비디오 복호화 장치(100) 및 일 실시예에 따른 비디오 부호화 장치(300)는 동일한 부호화 단위에 대한 인트라 예측/움직임 추정/움직임 보상 작업, 및 변환/역변환 작업이라 할지라도, 각각 별개의 데이터 단위를 기반으로 수행할 수 있다.
이에 따라, 최대 부호화 단위마다, 영역별로 계층적인 구조의 부호화 단위들마다 재귀적으로 부호화가 수행되어 최적 부호화 단위가 결정됨으로써, 재귀적 트리 구조에 따른 부호화 단위들이 구성될 수 있다. 부호화 정보는 부호화 단위에 대한 분할 정보, 파티션 모드 정보, 예측 모드 정보, 변환 단위 크기 정보를 포함할 수 있다. 이하 표 1은, 일 실시예에 따른 비디오 복호화 장치(100) 및 일 실시예에 따른 비디오 부호화 장치(300)에서 설정할 수 있는 일례를 나타낸다.
표 1
분할 정보 0 (현재 심도 d의 크기 2Nx2N의 부호화 단위에 대한 부호화) 분할 정보 1
예측 모드 파티션 타입 변환 단위 크기 하위 심도 d+1의 부호화 단위들마다 반복적 부호화
인트라,인터,스킵(2Nx2N만) 대칭형 파티션 타입 비대칭형 파티션 타입 변환 단위 분할 정보 0 변환 단위 분할 정보 1
2Nx2N,2NxN,Nx2N,NxN 2NxnU,2NxnD,nLx2N,nRx2N,등 2Nx2N NxN (대칭형 파티션 타입) N/2xN/2 등 (비대칭형 파티션 타입)
일 실시예에 따른 비디오 부호화 장치(300)의 전송부(320)는 트리 구조에 따른 부호화 단위들에 대한 부호화 정보를 출력하고, 일 실시예에 따른 비디오 복호화 장치(100)의 수신부(110)는 수신된 비트스트림으로부터 트리 구조에 따른 부호화 단위들에 대한 부호화 정보를 추출할 수 있다.
분할 정보는 현재 부호화 단위가 하위 심도의 부호화 단위들로 분할되는지 여부를 나타낸다. 현재 심도 d의 분할 정보가 0이라면, 현재 부호화 단위가 현재 부호화 단위에서 하위 부호화 단위로 더 이상 분할되지 않으므로, 현재 심도의 부호화 단위들에 대해서 파티션 모드 정보, 예측 모드, 변환 단위 크기 정보가 정의될 수 있다. 분할 정보에 따라 한 단계 더 분할되어야 하는 경우에는, 분할된 4개의 하위 심도의 부호화 단위마다 독립적으로 부호화가 수행되어야 한다.
예측 모드는, 인트라 모드, 인터 모드 및 스킵 모드 중 하나로 나타낼 수 있다. 인트라 모드 및 인터 모드는 모든 파티션 모드에서 정의될 수 있으며, 스킵 모드는 파티션 모드 2Nx2N에서만 정의될 수 있다.
파티션 모드 정보는, 예측 단위의 높이 또는 너비가 대칭적 비율로 분할된 대칭적 파티션 모드 2Nx2N, 2NxN, Nx2N 및 NxN 과, 비대칭적 비율로 분할된 비대칭적 파티션 모드 2NxnU, 2NxnD, nLx2N, nRx2N를 나타낼 수 있다. 비대칭적 파티션 모드 2NxnU 및 2NxnD는 각각 높이가 1:3 및 3:1로 분할된 형태이며, 비대칭적 파티션 모드 nLx2N 및 nRx2N은 각각 너비가 1:3 및 3:1로 분할된 형태를 나타낸다.
변환 단위 크기는 인트라 모드에서 두 종류의 크기, 인터 모드에서 두 종류의 크기로 설정될 수 있다. 즉, 변환 단위 분할 정보가 0 이라면, 변환 단위의 크기가 현재 부호화 단위의 크기 2Nx2N로 설정된다. 변환 단위 분할 정보가 1이라면, 현재 부호화 단위가 분할된 크기의 변환 단위가 설정될 수 있다. 또한 크기 2Nx2N인 현재 부호화 단위에 대한 파티션 모드가 대칭형 파티션 모드이라면 변환 단위의 크기는 NxN, 비대칭형 파티션 모드이라면 N/2xN/2로 설정될 수 있다.
일 실시예에 따른 트리 구조에 따른 부호화 단위들의 부호화 정보는, 심도의 부호화 단위, 예측 단위 및 최소 단위 중 적어도 하나에 대해 할당될 수 있다. 심도의 부호화 단위는 동일한 부호화 정보를 보유하고 있는 예측 단위 및 최소 단위를 하나 이상 포함할 수 있다.
따라서, 인접한 데이터 단위들끼리 각각 보유하고 있는 부호화 정보들을 확인하면, 동일한 심도의 부호화 단위에 포함되는지 여부가 확인될 수 있다. 또한, 데이터 단위가 보유하고 있는 부호화 정보를 이용하면 해당 심도의 부호화 단위를 확인할 수 있으므로, 최대 부호화 단위 내의 심도들의 분포가 유추될 수 있다.
따라서 이 경우 현재 부호화 단위가 주변 데이터 단위를 참조하여 예측하기 경우, 현재 부호화 단위에 인접하는 심도별 부호화 단위 내의 데이터 단위의 부호화 정보가 직접 참조되어 이용될 수 있다.
또 다른 실시예로, 현재 부호화 단위가 주변 부호화 단위를 참조하여 예측 부호화가 수행되는 경우, 인접하는 심도별 부호화 단위의 부호화 정보를 이용하여, 심도별 부호화 단위 내에서 현재 부호화 단위에 인접하는 데이터가 검색됨으로써 주변 부호화 단위가 참조될 수도 있다.
도 20 은 표 1의 부호화 모드 정보에 따른 부호화 단위, 예측 단위 및 변환 단위의 관계를 도시한다.
최대 부호화 단위(2000)는 심도의 부호화 단위들(2002, 2004, 2006, 2012, 2014, 2016, 2018)을 포함한다. 이 중 하나의 부호화 단위(2018)는 심도의 부호화 단위이므로 분할 정보가 0으로 설정될 수 있다. 크기 2Nx2N의 부호화 단위(2018)의 파티션 모드 정보는, 파티션 모드 2Nx2N(2022), 2NxN(2024), Nx2N(2026), NxN(2028), 2NxnU(2032), 2NxnD(2034), nLx2N(2036) 및 nRx2N(2038) 중 하나로 설정될 수 있다.
변환 단위 분할 정보(TU size flag)는 변환 인덱스의 일종으로서, 변환 인덱스에 대응하는 변환 단위의 크기는 부호화 단위의 예측 단위 타입 또는 파티션 모드에 따라 변경될 수 있다.
예를 들어, 파티션 모드 정보가 대칭형 파티션 모드 2Nx2N(2022), 2NxN(2024), Nx2N(2026) 및 NxN(2028) 중 하나로 설정되어 있는 경우, 변환 단위 분할 정보가 0이면 크기 2Nx2N의 변환 단위(2042)가 설정되고, 변환 단위 분할 정보가 1이면 크기 NxN의 변환 단위(2044)가 설정될 수 있다.
파티션 모드 정보가 비대칭형 파티션 모드 2NxnU(2032), 2NxnD(2034), nLx2N(2036) 및 nRx2N(2038) 중 하나로 설정된 경우, 변환 단위 분할 정보(TU size flag)가 0이면 크기 2Nx2N의 변환 단위(2052)가 설정되고, 변환 단위 분할 정보가 1이면 크기 N/2xN/2의 변환 단위(2054)가 설정될 수 있다.
도 19를 참조하여 전술된 변환 단위 분할 정보(TU size flag)는 0 또는 1의 값을 갖는 플래그이지만, 일 실시예에 따른 변환 단위 분할 정보가 1비트의 플래그로 한정되는 것은 아니며 설정에 따라 0, 1, 2, 3.. 등으로 증가하며 변환 단위가 계층적으로 분할될 수도 있다. 변환 단위 분할 정보는 변환 인덱스의 한 실시예로써 이용될 수 있다.
이 경우, 일 실시예에 따른 변환 단위 분할 정보를 변환 단위의 최대 크기, 변환 단위의 최소 크기와 함께 이용하면, 실제로 이용된 변환 단위의 크기가 표현될 수 있다. 일 실시예에 따른 비디오 부호화 장치(300)는, 최대 변환 단위 크기 정보, 최소 변환 단위 크기 정보 및 최대 변환 단위 분할 정보를 부호화할 수 있다. 부호화된 최대 변환 단위 크기 정보, 최소 변환 단위 크기 정보 및 최대 변환 단위 분할 정보는 SPS에 삽입될 수 있다. 일 실시예에 따른 비디오 복호화 장치(100)는 최대 변환 단위 크기 정보, 최소 변환 단위 크기 정보 및 최대 변환 단위 분할 정보를 이용하여, 비디오 복호화에 이용할 수 있다.
예를 들어, (a) 현재 부호화 단위가 크기 64x64이고, 최대 변환 단위 크기는 32x32이라면, (a-1) 변환 단위 분할 정보가 0일 때 변환 단위의 크기가 32x32, (a-2) 변환 단위 분할 정보가 1일 때 변환 단위의 크기가 16x16, (a-3) 변환 단위 분할 정보가 2일 때 변환 단위의 크기가 8x8로 설정될 수 있다.
다른 예로, (b) 현재 부호화 단위가 크기 32x32이고, 최소 변환 단위 크기는 32x32이라면, (b-1) 변환 단위 분할 정보가 0일 때 변환 단위의 크기가 32x32로 설정될 수 있으며, 변환 단위의 크기가 32x32보다 작을 수는 없으므로 더 이상의 변환 단위 분할 정보가 설정될 수 없다.
또 다른 예로, (c) 현재 부호화 단위가 크기 64x64이고, 최대 변환 단위 분할 정보가 1이라면, 변환 단위 분할 정보는 0 또는 1일 수 있으며, 다른 변환 단위 분할 정보가 설정될 수 없다.
따라서, 최대 변환 단위 분할 정보를 'MaxTransformSizeIndex', 최소 변환 단위 크기를 'MinTransformSize', 변환 단위 분할 정보가 0인 경우의 변환 단위 크기를 'RootTuSize'라고 정의할 때, 현재 부호화 단위에서 가능한 최소 변환 단위 크기 'CurrMinTuSize'는 아래 관계식 (1) 과 같이 정의될 수 있다.
CurrMinTuSize =
max(MinTransformSize, RootTuSize/(2^MaxTransformSizeIndex)) ... (1)
현재 부호화 단위에서 가능한 최소 변환 단위 크기 'CurrMinTuSize'와 비교하여, 변환 단위 분할 정보가 0인 경우의 변환 단위 크기인 'RootTuSize'는 시스템상 채택 가능한 최대 변환 단위 크기를 나타낼 수 있다. 즉, 관계식 (1)에 따르면, 'RootTuSize/(2^MaxTransformSizeIndex)'는, 변환 단위 분할 정보가 0인 경우의 변환 단위 크기인 'RootTuSize'를 최대 변환 단위 분할 정보에 상응하는 횟수만큼 분할한 변환 단위 크기이며, 'MinTransformSize'는 최소 변환 단위 크기이므로, 이들 중 작은 값이 현재 부호화 단위에서 가능한 최소 변환 단위 크기 'CurrMinTuSize'일 수 있다.
일 실시예에 따른 최대 변환 단위 크기 RootTuSize는 예측 모드에 따라 달라질 수도 있다.
예를 들어, 현재 예측 모드가 인터 모드라면 RootTuSize는 아래 관계식 (2)에 따라 결정될 수 있다. 관계식 (2)에서 'MaxTransformSize'는 최대 변환 단위 크기, 'PUSize'는 현재 예측 단위 크기를 나타낸다.
RootTuSize = min(MaxTransformSize, PUSize) ......... (2)
즉, 현재 예측 모드가 인터 모드라면, 변환 단위 분할 정보가 0인 경우의 변환 단위 크기인 'RootTuSize'는 최대 변환 단위 크기 및 현재 예측 단위 크기 중 작은 값으로 설정될 수 있다.
현재 파티션 단위의 예측 모드가 인트라 모드라면 'RootTuSize'는 아래 관계식 (3)에 따라 결정될 수 있다. 'PartitionSize'는 현재 파티션 단위의 크기를 나타낸다.
RootTuSize = min(MaxTransformSize, PartitionSize) ...........(3)
즉, 현재 예측 모드가 인트라 모드라면, 변환 단위 분할 정보가 0인 경우의 변환 단위 크기인 'RootTuSize'는 최대 변환 단위 크기 및 현재 파티션 단위 크기 중 작은 값으로 설정될 수 있다.
다만, 파티션 단위의 예측 모드에 따라 변동하는 일 실시예에 따른 현재 최대 변환 단위 크기 'RootTuSize'는 일 실시예일 뿐이며, 현재 최대 변환 단위 크기를 결정하는 요인이 이에 한정되는 것은 아님을 유의하여야 한다.
도 5 내지 20를 참조하여 전술된 트리 구조의 부호화 단위들에 기초한 영상 부호화 기법에 따라, 트리 구조의 부호화 단위들마다 공간영역의 영상 데이터가 부호화되며, 트리 구조의 부호화 단위들에 기초한 영상 복호화 기법에 따라 최대 부호화 단위마다 복호화가 수행되면서 공간 영역의 영상 데이터가 복원되어, 픽처 및 픽처 시퀀스인 비디오가 복원될 수 있다. 복원된 비디오는 재생 장치에 의해 재생되거나, 저장 매체에 저장되거나, 네트워크를 통해 전송될 수 있다.
또한, 픽처마다 또는 슬라이스마다 또는 최대부호화 단위마다, 또는 트리 구조에 따른 부호화단위마다, 또는 부호화 단위의 예측단위마다, 또는 부호화 단위의 변환단위마다, 오프셋 파라미터가 시그널링될 수 있다. 일례로, 최대부호화단위마다 수신된 오프셋 파라미터에 기초하여 복원된 오프셋값을 이용하여 최대부호화단위의 복원샘플값들을 조정함으로써, 원본블록과의 오차가 최소화되는 최대부호화단위가 복원될 수 있다.
한편, 상술한 본 개시의 실시예들은 컴퓨터에서 실행될 수 있는 프로그램으로 작성가능하고, 컴퓨터로 읽을 수 있는 기록매체를 이용하여 상기 프로그램을 동작시키는 범용 디지털 컴퓨터에서 구현될 수 있다. 상기 컴퓨터로 읽을 수 있는 기록매체는 마그네틱 저장매체(예를 들면, 롬, 플로피 디스크, 하드디스크 등), 광학적 판독 매체(예를 들면, 시디롬, 디브이디 등)와 같은 저장매체를 포함한다.
본 명세서에서 "~부" 중 적어도 일부는 하드웨어로 구현될 수 있다. 또한 하드웨어는 프로세서를 포함할 수 있다. 프로세서는 범용 단일- 또는 다중-칩 마이크로프로세서 (예를 들어, ARM), 특수 목적 마이크로 프로세서 (예를 들어, 디지털 신호 프로세서 (DSP)), 마이크로제어기, 프로그램가능 게이트 어레이 (array), 등일 수도 있다. 프로세서는 중앙 처리 장치 (CPU) 로 불릴 수도 있다. "~부" 중 적어도 일부는 프로세서들의 조합 (예를 들어, ARM 과 DSP) 이 이용될 수도 있다.
하드웨어는 메모리를 또한 포함할 수도 있다. 메모리는 전자 정보를 저장 가능한 임의의 전자 컴포넌트일 수도 있다. 메모리는 임의 액세스 메모리 (RAM), 판독 전용 메모리 (ROM), 자기 디스크 저장 매체, 광학 저장 매체, RAM 내의 플래쉬 메모리 디바이스, 프로세서에 포함된 온-보드 (on-board) 메모리, EPROM 메모리, EEPROM 메모리, 레지스터들, 및 기타, 그들의 조합들로서 구현될 수도 있다.
데이터 및 프로그램은 메모리에 저장될 수도 있다. 프로그램은 본원에 개시된 방법들을 구현하도록 프로세서에 의하여 실행 가능할 수도 있다. 프로그램의 실행은 메모리에 저장된 데이터의 이용을 포함할 수도 있다. 프로세서가 명령들을 실행할 때, 명령들의 다양한 부분들이 프로세서 상에 로드 (load) 될 수도 있고, 데이터의 다양한 조각들이 프로세서 상에 로드될 수도 있다.
이제까지 본 개시에 대하여 그 바람직한 실시예들을 중심으로 살펴보았다. 본 개시가 속하는 기술 분야에서 통상의 지식을 가진 자는 본 개시가 본 개시의 본질적인 특성에서 벗어나지 않는 범위에서 변형된 형태로 구현될 수 있음을 이해할 수 있을 것이다. 그러므로 개시된 실시예들은 한정적인 관점이 아니라 설명적인 관점에서 고려되어야 한다. 본 개시의 범위는 전술한 설명이 아니라 특허청구범위에 나타나 있으며, 그와 동등한 범위 내에 있는 모든 차이점은 본 개시에 포함된 것으로 해석되어야 할 것이다.

Claims (16)

  1. 비디오 복호화 방법에 있어서,
    부호화된 영상을 최대 부호화 단위들로 분할하는 단계;
    상기 영상에 대한 비트스트림으로부터 부호화 단위를 이분할지 여부를 나타내는 분할 정보를 파싱하는 단계;
    부호화 단위의 분할 형태를 나타내고, 부호화 단위의 분할 방향 정보를 포함하는, 형태 정보를 파싱하는 단계; 및
    상기 분할 정보 및 상기 형태 정보를 이용하여 상기 최대 부호화 단위로부터 계층적으로 분할된 부호화 단위를 결정하는 단계를 포함하는 것을 특징으로 하는 비디오 복호화 방법.
  2. 제 1 항에 있어서,
    상기 형태 정보는, 상기 부호화 단위가 수직 방향 및 수평 방향 중 하나로 나누어 짐을 나타내는 분할 방향 정보를 포함하는 것을 특징으로 하는 비디오 복호화 방법.
  3. 제 2 항에 있어서,
    상기 최대 부호화 단위는 분할정보에 따라 현재 심도와 하위 심도 중 적어도 하나를 포함하는 심도의 부호화 단위로 계층적으로 분할되고,
    상기 현재 심도의 부호화 단위의 방향 정보가 수직 방향으로 나누어짐을 나타내는 경우, 상기 하위 심도의 부호화 단위의 방향 정보는 수평 방향으로 나누어 짐을 나타내고
    상기 현재 심도의 부호화 단위의 방향 정보가 수평 방향으로 나누어 짐을 나타내는 경우, 상기 하위 심도의 부호화 단위의 방향 정보는 수직 방향으로 나누어 짐을 나타내는 것을 특징으로 하는 비디오 복호화 방법.
  4. 제 1 항에 있어서,
    상기 형태 정보는, 상기 부호화 단위의 높이 및 폭 중 하나에 대한 일 지점에 대응하는 분할 위치를 나타내는, 분할 위치 정보를 포함하는 것을 특징으로 하는 비디오 복호화 방법.
  5. 제 4 항에 있어서,
    상기 부호화 단위의 높이 및 폭 중 하나를 소정의 길이로 나눈 개수를 결정하는 단계; 및
    상기 개수 및 상기 분할 위치 정보에 기초하여, 상기 부호화 단위의 높이 및 폭 중 하나에 대한 분할 위치를 결정하는 단계를 더 포함하는 것을 특징으로 하는 비디오 복호화 방법.
  6. 제 4 항에 있어서,
    상기 분할 위치 정보는, 상기 부호화 단위의 높이 및 폭 중 하나에 대하여, 1/4, 1/3, 1/2, 2/3, 3/4 중 하나의 위치에서 이분됨을 나타내는 것을 특징으로 하는 비디오 복호화 방법.
  7. 제 1 항에 있어서,
    상기 비트스트림으로부터 파싱된 파티션 타입에 관한 정보를 이용하여 상기 부호화 단위로부터 분할된 적어도 하나의 예측단위를 결정하는 단계를 더 포함하는 비디오 복호화 방법.
  8. 제 1 항에 있어서,
    상기 비트스트림으로부터 파싱된 변환 단위의 분할 형태에 대한 정보를 이용하여 상기 부호화 단위로부터 분할된 적어도 하나의 변환단위를 결정하는 단계를 더 포함하는 비디오 복호화 방법.
  9. 제 8 항에 있어서,
    상기 변환 단위는 정사각형 모양을 가지고,
    상기 변환 단위의 한 변의 길이는,
    상기 부호화 단위의 높이의 길이 및 상기 부호화 단위의 폭의 길이의 최대공약수인 것을 특징으로 하는 비디오 복호화 방법.
  10. 제 8 항에 있어서,
    상기 부호화 단위는,
    상기 변환 단위의 분할 형태에 대한 정보에 기초하여 현재 심도와 하위 심도 중 적어도 하나를 포함하는 심도의 변환 단위로 계층적으로 분할되는 것을 특징으로 하는 비디오 복호화 방법.
  11. 제 8 항에 있어서,
    상기 부호화 단위에 대한 변환 계수가 존재하는지 여부를 나타내는 부호화 정보를 파싱하는 단계; 및
    상기 부호화 정보가 변환 계수가 존재함을 나타내는 경우, 부호화 단위에 포함된 변환 단위 각각에 대하여 변환 계수가 존재하는지 여부를 나타내는 서브 부호화 정보를 파싱하는 단계를 더 포함하는 비디오 복호화 방법.
  12. 제 1 항에 있어서,
    상기 최대 부호화 단위들은 동일한 크기의 정사각형인 것을 특징으로 하는 비디오 복호화 방법.
  13. 비디오 복호화 장치에 있어서,
    영상에 대한 비트스트림으로부터 부호화 단위를 이분할지 여부를 나타내는 부호화 단위의 분할 정보를 파싱하고,
    부호화 단위의 분할 형태를 나타내고, 부호화 단위의 분할 방향 정보를 포함하는 부호화 단위의 형태 정보를 파싱하는 수신부; 및
    부호화된 영상을 최대 부호화 단위들로 분할하고, 상기 분할 정보 및 상기 형태 정보를 이용하여 상기 최대 부호화 단위로부터 계층적으로 분할된 부호화 단위를 결정하는 복호화부를 포함하는 것을 특징으로 하는 비디오 복호화 장치.
  14. 제 1 항 내지 제 12 항 중 어느 한 항의 비디오 복호화 방법을 구현하기 위한 프로그램이 기록된 컴퓨터로 판독 가능한 기록 매체.
  15. 비디오 부호화 방법에 있어서,
    영상을 최대 부호화 단위들로 분할하는 단계;
    상기 최대 부호화 단위로부터 부호화 단위를 계층적으로 분할하는 단계;
    상기 최대 부호화 단위를 상기 부호화 단위로 이분할지 여부를 나타내는 분할 정보 및 부호화 단위의 분할 형태를 나타내는 형태 정보를 결정하는 단계;
    상기 분할 정보 및 상기 형태 정보를 부호화하는 단계;및
    상기 부호화된 분할 정보 및 상기 부호화된 형태 정보를 포함하는 비트스트림을 전송하는 단계를 포함하는 것을 특징으로 하는 비디오 부호화 방법.
  16. 비디오 부호화 장치에 있어서,
    영상을 최대 부호화 단위들로 분할하고, 상기 최대 부호화 단위로부터 부호화 단위를 계층적으로 분할하고, 상기 최대 부호화 단위를 상기 부호화 단위로 이분할지 여부를 나타내는 분할 정보 및 부호화 단위의 분할 형태를 나타내는 형태 정보를 결정하고, 상기 분할 정보 및 상기 형태 정보를 부호화하는 부호화부; 및
    상기 부호화된 분할 정보 및 상기 부호화된 형태 정보를 포함하는 비트스트림을 전송하는 전송부를 포함하는 것을 특징으로 하는 비디오 부호화 장치.
PCT/KR2015/006325 2014-06-20 2015-06-22 비디오 부호화 방법 및 장치, 비디오 복호화 방법 및 장치 WO2015194922A1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020167034937A KR20170020778A (ko) 2014-06-20 2015-06-22 비디오 부호화 방법 및 장치, 비디오 복호화 방법 및 장치
US15/320,559 US20170195671A1 (en) 2014-06-20 2015-06-22 Method and apparatus for encoding video, and method and apparatus for decoding video

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US201462014837P 2014-06-20 2014-06-20
US62/014,837 2014-06-20

Publications (1)

Publication Number Publication Date
WO2015194922A1 true WO2015194922A1 (ko) 2015-12-23

Family

ID=54935823

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2015/006325 WO2015194922A1 (ko) 2014-06-20 2015-06-22 비디오 부호화 방법 및 장치, 비디오 복호화 방법 및 장치

Country Status (3)

Country Link
US (1) US20170195671A1 (ko)
KR (1) KR20170020778A (ko)
WO (1) WO2015194922A1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018070552A1 (ko) * 2016-10-10 2018-04-19 삼성전자 주식회사 영상을 부호화/복호화 하는 방법 및 그 장치

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102600756B1 (ko) * 2015-03-06 2023-11-10 한국과학기술원 저 복잡도 변환에 기반한 영상 부호화 및 복호화 방법 및 이를 이용하는 장치
US20180139453A1 (en) * 2015-03-13 2018-05-17 Lg Electronics Inc. Method of processing video signal and device for same
WO2017205704A1 (en) * 2016-05-25 2017-11-30 Arris Enterprises Llc General block partitioning method
US10880548B2 (en) 2016-06-01 2020-12-29 Samsung Electronics Co., Ltd. Methods and apparatuses for encoding and decoding video according to coding order
US11445186B2 (en) * 2016-11-25 2022-09-13 Kt Corporation Method and apparatus for processing video signal
KR102456161B1 (ko) * 2017-07-06 2022-10-18 삼성전자주식회사 비디오 부호화 방법 및 장치, 비디오 복호화 방법 및 장치
KR102205905B1 (ko) 2017-07-07 2021-01-21 삼성전자주식회사 비디오 부호화 방법 및 장치, 비디오 복호화 방법 및 장치
KR102380233B1 (ko) 2017-07-19 2022-03-29 삼성전자주식회사 부호화 방법 및 그 장치, 복호화 방법 및 그 장치
CN114630133A (zh) * 2017-09-06 2022-06-14 佳稳电子有限公司 影像解码方法、编码图像的方法及设备
US11750832B2 (en) * 2017-11-02 2023-09-05 Hfi Innovation Inc. Method and apparatus for video coding
WO2019172202A1 (ja) * 2018-03-05 2019-09-12 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ 符号化装置及び符号化方法
US10516885B1 (en) 2018-07-11 2019-12-24 Tencent America LLC Method and apparatus for video coding

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20110084121A (ko) * 2010-01-15 2011-07-21 삼성전자주식회사 예측 부호화를 위해 가변적인 파티션을 이용하는 비디오 부호화 방법 및 장치, 예측 부호화를 위해 가변적인 파티션을 이용하는 비디오 복호화 방법 및 장치
JP2012080213A (ja) * 2010-09-30 2012-04-19 Mitsubishi Electric Corp 動画像符号化装置、動画像復号装置、動画像符号化方法及び動画像復号方法
WO2013047805A1 (ja) * 2011-09-29 2013-04-04 シャープ株式会社 画像復号装置、画像復号方法および画像符号化装置
KR20130049187A (ko) * 2013-04-02 2013-05-13 삼성전자주식회사 임의적인 파티션을 이용한 움직임 예측에 따른 비디오 부호화 방법 및 장치, 임의적인 파티션을 이용한 움직임 보상에 따른 비디오 복호화 방법 및 장치
JP2014007643A (ja) * 2012-06-26 2014-01-16 Mitsubishi Electric Corp 動画像符号化装置、動画像復号装置、動画像符号化方法及び動画像復号方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20110084121A (ko) * 2010-01-15 2011-07-21 삼성전자주식회사 예측 부호화를 위해 가변적인 파티션을 이용하는 비디오 부호화 방법 및 장치, 예측 부호화를 위해 가변적인 파티션을 이용하는 비디오 복호화 방법 및 장치
JP2012080213A (ja) * 2010-09-30 2012-04-19 Mitsubishi Electric Corp 動画像符号化装置、動画像復号装置、動画像符号化方法及び動画像復号方法
WO2013047805A1 (ja) * 2011-09-29 2013-04-04 シャープ株式会社 画像復号装置、画像復号方法および画像符号化装置
JP2014007643A (ja) * 2012-06-26 2014-01-16 Mitsubishi Electric Corp 動画像符号化装置、動画像復号装置、動画像符号化方法及び動画像復号方法
KR20130049187A (ko) * 2013-04-02 2013-05-13 삼성전자주식회사 임의적인 파티션을 이용한 움직임 예측에 따른 비디오 부호화 방법 및 장치, 임의적인 파티션을 이용한 움직임 보상에 따른 비디오 복호화 방법 및 장치

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018070552A1 (ko) * 2016-10-10 2018-04-19 삼성전자 주식회사 영상을 부호화/복호화 하는 방법 및 그 장치
US10904537B2 (en) 2016-10-10 2021-01-26 Samsung Electronics Co., Ltd. Method and apparatus for encoding/decoding image
US11178408B2 (en) 2016-10-10 2021-11-16 Samsung Electronics Co., Ltd. Method and apparatus for encoding/decoding image
US11653006B2 (en) 2016-10-10 2023-05-16 Samsung Electronics Co., Ltd. Method and apparatus for encoding/decoding image

Also Published As

Publication number Publication date
US20170195671A1 (en) 2017-07-06
KR20170020778A (ko) 2017-02-24

Similar Documents

Publication Publication Date Title
WO2015194922A1 (ko) 비디오 부호화 방법 및 장치, 비디오 복호화 방법 및 장치
WO2011129620A2 (ko) 트리 구조에 따른 부호화 단위에 기초한 비디오 부호화 방법과 그 장치, 및 비디오 복호화 방법 및 그 장치
WO2016072775A1 (ko) 비디오 부호화 방법 및 장치, 비디오 복호화 방법 및 장치
WO2011019250A2 (en) Method and apparatus for encoding video, and method and apparatus for decoding video
WO2013005968A2 (ko) 계층적 구조의 데이터 단위를 이용한 엔트로피 부호화 방법 및 장치, 복호화 방법 및 장치
WO2018080135A1 (ko) 영상 부호화/복호화 방법, 장치 및 비트스트림을 저장한 기록 매체
WO2013109122A1 (ko) 계층적 부호화 단위에 따라 스캔 순서를 변경하는 비디오 부호화 방법 및 장치, 비디오 복호화 방법 및 장치
WO2013005963A2 (ko) 콜로케이티드 영상을 이용한 인터 예측을 수반하는 비디오 부호화 방법 및 그 장치, 비디오 복호화 방법 및 그 장치
WO2014007524A1 (ko) 비디오의 엔트로피 부호화 방법 및 장치, 비디오의 엔트로피 복호화 방법 및 장치
WO2016175550A1 (ko) 비디오 신호의 처리 방법 및 이를 위한 장치
WO2013002586A2 (ko) 영상의 인트라 예측 부호화, 복호화 방법 및 장치
WO2011071308A2 (en) Method and apparatus for encoding video by motion prediction using arbitrary partition, and method and apparatus for decoding video by motion prediction using arbitrary partition
WO2011010900A2 (ko) 영상의 부호화 방법 및 장치, 영상 복호화 방법 및 장치
WO2012093891A2 (ko) 계층적 구조의 데이터 단위를 이용한 비디오의 부호화 방법 및 장치, 그 복호화 방법 및 장치
WO2018044087A1 (ko) 비디오 신호 처리 방법 및 장치
WO2011126281A2 (en) Method and apparatus for encoding video by performing in-loop filtering based on tree-structured data unit, and method and apparatus for decoding video by performing the same
WO2013115572A1 (ko) 계층적 데이터 단위의 양자화 파라메터 예측을 포함하는 비디오 부호화 방법 및 장치, 비디오 복호화 방법 및 장치
WO2013077665A1 (ko) 복호화기의 버퍼 관리를 위한 영상 부호화 방법 및 장치, 그 영상 복호화 방법 및 장치
WO2011053020A2 (en) Method and apparatus for encoding residual block, and method and apparatus for decoding residual block
WO2011087297A2 (en) Method and apparatus for encoding video by using deblocking filtering, and method and apparatus for decoding video by using deblocking filtering
WO2013066051A1 (ko) 변환 계수 레벨의 엔트로피 부호화 및 복호화를 위한 컨텍스트 모델 결정 방법 및 장치
WO2013005962A2 (ko) 단일화된 참조가능성 확인 과정을 통해 인트라 예측을 수반하는 비디오 부호화 방법 및 그 장치, 비디오 복호화 방법 및 그 장치
WO2013157794A1 (ko) 변환 계수 레벨의 엔트로피 부호화 및 복호화를 위한 파라메터 업데이트 방법 및 이를 이용한 변환 계수 레벨의 엔트로피 부호화 장치 및 엔트로피 복호화 장치
WO2013002555A2 (ko) 산술부호화를 수반한 비디오 부호화 방법 및 그 장치, 비디오 복호화 방법 및 그 장치
WO2011126278A2 (en) Method and apparatus for encoding and decoding video

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 15809661

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 20167034937

Country of ref document: KR

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

WWE Wipo information: entry into national phase

Ref document number: 15320559

Country of ref document: US

122 Ep: pct application non-entry in european phase

Ref document number: 15809661

Country of ref document: EP

Kind code of ref document: A1