WO2016167538A1 - 비디오 신호의 인코딩, 디코딩 방법 및 그 장치 - Google Patents

비디오 신호의 인코딩, 디코딩 방법 및 그 장치 Download PDF

Info

Publication number
WO2016167538A1
WO2016167538A1 PCT/KR2016/003834 KR2016003834W WO2016167538A1 WO 2016167538 A1 WO2016167538 A1 WO 2016167538A1 KR 2016003834 W KR2016003834 W KR 2016003834W WO 2016167538 A1 WO2016167538 A1 WO 2016167538A1
Authority
WO
WIPO (PCT)
Prior art keywords
current block
prediction
signal
pixels
transform
Prior art date
Application number
PCT/KR2016/003834
Other languages
English (en)
French (fr)
Inventor
구문모
예세훈
김규운
이범식
Original Assignee
엘지전자(주)
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 엘지전자(주) filed Critical 엘지전자(주)
Priority to US15/565,823 priority Critical patent/US20180115787A1/en
Publication of WO2016167538A1 publication Critical patent/WO2016167538A1/ko

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/593Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving spatial prediction techniques
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/124Quantisation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/182Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being a pixel
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/60Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding
    • H04N19/61Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding in combination with predictive coding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/60Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding
    • H04N19/62Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding by frequency transforming in three dimensions

Definitions

  • the present invention relates to a method and apparatus for encoding and decoding a video signal, and more particularly, to a separable conditional non-linear transform (hereinafter referred to as 'SCNT') technology. will be.
  • Compression coding refers to a series of signal processing techniques for transmitting digitized information through a communication line or for storing in a form suitable for a storage medium.
  • Media such as video, image, and voice may be subjected to compression encoding.
  • a technique of performing compression encoding on an image is called video image compression.
  • Many media compression techniques are based on two approaches: predictive coding and transform coding.
  • hybrid coding (hybr id coding) technology adopts a combination of both advantages for video coding, each coding technique has the following disadvantages.
  • predictive coding In the case of predictive coding, no statistical dependencies are available in obtaining prediction error samples. That is, predictive coding is based on predicting a signal element using an already coded portion of the same signal and coding a difference between the predicted value and the actual value. This allows more accurately predicted signals to be compressed more efficiently. We can follow the information theory and achieve better compression effect by increasing the consistency and accuracy of prediction. Because predictive coding is based on causal statistical relationships, it is advantageous to process smooth or irregular signals, while it is not efficient to process large signals. In addition, since the quantization is applied to the original video signal, there is a disadvantage in that the limitation of the human audiovisual system cannot be used.
  • Transform coding in general, an orthogonal transform such as a Discrete Cosine Transform or a Discrete Wavelet Transform may be used.
  • Transform coding is a technique that decomposes a signal into a series of elements to identify the most important data, and most of the transform coefficients are zero after quantization.
  • transform coding there is a disadvantage in that only obtaining the first available data in obtaining the prediction value of the sample. For that reason, the prediction signal becomes difficult to have high quality.
  • the present invention is to provide a method for performing prediction using the most recently reconstructed data.
  • the present invention is to provide a method of applying a conditional nonlinear transformation algorithm (CNT) using the N X N transform by limiting the prediction direction.
  • CNT conditional nonlinear transformation algorithm
  • the present invention is to provide a method for generating a prediction signal of the first line (row, column) of the current block using neighboring pixels.
  • the present invention is to provide a method for reconstructing the current block based on the prediction signal of the first line (row, column) of the current block.
  • the present invention seeks to provide a method of encoding / decoding a current block using separable conditional nonlinear transform (SCNT).
  • SCNT separable conditional nonlinear transform
  • the present invention is to propose a method that can apply all the advantages of each coding scheme based on the convergence of a new prediction / transform coding.
  • the present invention provides a method of conditional nonlye transform ('CNT') that takes into account inter-pixel correlations on the transform domain.
  • the present invention provides a method of applying a conditional nonlinear transform algorithm (CNT) using an N X N transform by limiting a prediction direction.
  • CNT conditional nonlinear transform algorithm
  • the present invention provides a conditional nonlinear transformation algorithm (CNT) that sequentially applies N x N transforms to rows and columns of N X N blocks.
  • CNT conditional nonlinear transformation algorithm
  • the present invention by using the peripheral pixel, the first line (row, column) of the current block A method of generating a prediction signal is provided.
  • the present invention also provides a method for reconstructing the current block based on the prediction signal of the first line (row, column) of the current block.
  • the present invention also provides a method for encoding / decoding the current block all using a detachable conditional nonlinear transform (SCNT).
  • SCNT detachable conditional nonlinear transform
  • the present invention provides a method of obtaining an optimal transformed coefficient (opt imiform transform co f f i c ent) by considering all signals that have been reconstructed when performing a prediction process.
  • the present invention can apply an NXN transform matrix instead of an N 2 XN 2 transform matrix to an NXN block by restricting the direction of the reference to the reconstructed pixel to all pixel positions in either the horizontal or vertical direction, thereby calculating the amount of computation. And memory space for storing conversion coefficients.
  • the adjacent reconstructed pixels to be referred to are values that have already been reconstructed by using the residual signal
  • the pixels at the current position referring to the reconstructed pixels have a very low association with the prediction mode. Therefore, the accuracy of prediction can be remarkably improved by considering the prediction mode only for the first line of the current block and predicting the remaining residual pixels using adjacent reconstructed pixels in the horizontal or vertical direction.
  • the present invention utilizes a conditional non-linear transform, which considers the inter-pixel correlation on the transform domain. Can be improved.
  • the present invention can take full advantage of each coding scheme by fusing predictive coding and transform coding. That is, by using all of the signals that have already been reconstructed, more accurate and improved prediction can be performed and the statistical dependency of the prediction error sample can be used. By coding and applying prediction and transformation on a single dimension at the same time, a high quality image including a non-smooth or non-stat iffy signal can be coded more efficiently.
  • the present invention can perform signal decode decoding without the need for additional information, and when compared with a conventional hybrid coder, high quality prediction is possible and prediction errors can be reduced. .
  • 1 and 2 show schematic block diagrams of an encoder and a decoder in which media coding is performed, respectively.
  • 3 and 4 illustrate embodiments to which the present invention is applied and show schematic block diagrams of an encoder and a decoder to which an improved coding method is applied, respectively.
  • FIG. 5 is an embodiment to which the present invention is applied and shows a schematic flowchart for explaining an improved video coding method.
  • FIG. 6 is an embodiment to which the present invention is applied and is used to generate an optimal prediction signal.
  • FIG. 7 is an embodiment to which the present invention is applied and is a flowchart illustrating a process of generating an optimal prediction signal.
  • FIG. 8 is a flowchart illustrating a method of obtaining an optimal transform coefficient according to an embodiment to which the present invention is applied.
  • 9 and 10 are embodiments to which the present invention is applied and are conceptual views illustrating a method of applying a space iotemporal transform to a group of pictures (GOP).
  • GOP group of pictures
  • 11 to 12 are embodiments to which the present invention is applied and are diagrams for describing a method of generating a prediction signal of a first line (row and column) of a current block using neighboring pixels.
  • FIG. 15 is a flowchart illustrating a method of encoding a current block using a detachable conditional nonlinear transform (SCNT) according to an embodiment of the present invention.
  • SCNT detachable conditional nonlinear transform
  • FIG. 16 is a flowchart illustrating a method of decoding a current block using a detachable conditional nonlinear transform (SCNT) according to an embodiment of the present invention.
  • SCNT detachable conditional nonlinear transform
  • a method of encoding a video signal comprising: generating prediction pixels for a first row or column of the current block based on boundary pixels neighboring a current block; Predicting residual pixels in the current block in a vertical or horizontal direction, respectively, using prediction pixels for the first row or column of the current block; Generating a difference signal based on prediction pixels of the current block; And generating a transform-coded residual signal by operating a horizontal transform matrix and a vertical transform matrix on the difference signal.
  • the prediction for the residual pixels is performed based on a pixel previously reconstructed in the vertical direction.
  • the prediction for the residual pixels is performed based on a pixel previously reconstructed in the horizontal direction.
  • the present invention includes the steps of performing quantization on the transform-coded residual signal; And performing entropy encoding on the quantized residual signal.
  • the step of performing the quantization is characterized in that the rate-distortion optimized quantization (Rate-Distort ion Opt-imited Quant izat ion) is applied.
  • the present invention further includes determining an intra prediction mode of the current block, wherein the prediction pixels for the first row or column of the current block are determined by the method. It is generated based on the intra prediction mode.
  • the boundary pixel neighboring the current block is N samples adjacent to the left boundary of the current block, N samples neighboring to the bottom-left, and upside. And at least one of N samples adjacent to the boundary, N samples adjacent to the top-right, and one sample adjacent to the top-left corner.
  • the horizontal direction transformation matrix and the vertical direction transformation matrix is characterized in that the N X N transform.
  • a method of decoding a video signal comprising: obtaining a transform-coded residual signal of a current block from the video signal; Performing an inverse transform on the transform-coded residual signal (transform-coded res i du l s ignal) based on a vertical transform matrix and a horizontal transform matrix; Generating a prediction signal of the current block; And generating a reconstruction signal by adding the residual signal obtained through the inverse transform and the prediction signal, wherein the transform-coded res idual signal is inversely transformed in the vertical direction and the horizontal direction. It is characterized by.
  • generating the prediction signal may include generating prediction pixels for a first row or column of the current block based on a boundary pixel neighboring the current block; And predicting the remaining pixels in the current block in the vertical direction or the horizontal direction, respectively, using the prediction pixels for the first row or column of the current block. do.
  • the method may further include obtaining an intra prediction mode of the current block, wherein prediction pixels for the first row or column of the current block are generated based on the intra prediction mode.
  • the horizontal direction transformation matrix and the vertical direction transformation matrix is characterized in that the N X N transform.
  • . 1 and 2 show schematic block diagrams of an encoder and a decoder in which media coding is performed, respectively.
  • the encoder 100 of FIG. 1 includes a transform unit 110, a quantization unit 120, an inverse quantization unit 130, an inverse transform unit 140, a delay unit 150, a prediction unit 160, and an entropy encoding unit (
  • the decoder 200 of FIG. 2 includes an entropy decoding unit 210, an inverse quantization unit 220, an inverse transform unit 230, a delay unit 240, and a prediction unit 250.
  • the encoder 100 receives an original video signal and subtracts a predict ion signal output from the predictor 160 from the original video signal to generate a prediction error.
  • the generated prediction error is transmitted to the transform unit 110, and the transform unit 110 generates a transform coefficient by applying a transform scheme to the prediction error.
  • the transformation techniques there may be a block-based transformation method and an image-based transformation method.
  • the block-based transformation method include a discrete cosine transform, a Karunen-Loueve transform, and the like.
  • the discrete cosine transform (DCT) refers to decomposition (conversion) of a signal on a spatial domain into a two-dimensional frequency component. Let's go to the upper left in the block Increasingly, they form patterns with higher frequency components. For example, only one in the upper left of 64 two-dimensional frequency components is a component having a frequency of 0 as a direct current component (DC), and a low frequency as an alternating current component (AC). It consists of 63 components from high frequency components.
  • Performing the discrete cosine transform (DCT) calculates the size of each of the base components (64 basic pattern components) included in the block of the original video signal, and the magnitude is the discrete cosine transform coefficient.
  • the discrete cosine transform is simply a transform used to represent an original video signal component, and is completely restored from an original video signal from a frequency component during inverse transformation. That is, by changing only the expression method of the image, all information included in the original image is preserved including the amplified information.
  • the discrete cosine transform (DCT) of the original video signal unlike the amplitude distribution of the original video signal, the discrete cosine transform (DCT) coefficient is present at a value near 0, thereby obtaining a high compression effect.
  • the quantization unit 120 quantizes the transform coefficients and transmits the transform coefficients to the entropy encoding unit 170.
  • the entropy encoding unit 170 entropy codes and outputs the quantized signal.
  • the quantized signal output from the quantization unit 120 may be used to generate a prediction signal.
  • the quantized signal may be restored to a prediction error by applying inverse quantization and inverse transformation through an inverse quantization unit 130 and an inverse transformation unit 140 in a loop.
  • the restored prediction error is converted into a prediction ion signal output from the prediction unit 160.
  • a reconstructed signal can be generated.
  • the delay unit 150 stores the reconstruction signal for future reference by the prediction unit 160, and the prediction unit 160 stores a previously reconstructed signal stored in the delay unit 150.
  • the prediction signal is generated by using (previously reconstructed signal).
  • the decoder 200 of FIG. 2 receives a signal output from the encoder 100 of FIG. 1, and the received signal is entropy decoded through the entropy decoding unit 210.
  • the inverse quantization unit 220 obtains a transform coefficient from the entropy decoded signal using the quantization step size information, and the inverse transform unit 230 inverse transforms the transform coefficient to obtain a prediction error.
  • a reconstructed signal is generated by adding the obtained prediction error to a predict ion signal output from the predictor 250.
  • the delay unit 240 stores the reconstruction signal for future reference by the prediction unit 250, and the prediction unit 250 stores a previously restored signal stored in the delay unit 240.
  • the signal (previously reconstructed signal) is used to generate a predictive ion signal.
  • the encoder 100 of FIG. 1 and the decoder 200 of FIG. 2 may be subjected to predictive coding, transform coding, and hybrid coding. The combination of the advantages of predictive coding and transform coding is called hybrid coding.
  • Predictive coding can be applied to individual samples each time, effectively The most powerful way is to have a circular structure. This circular structure is based on the fact that it can be best predicted when using the closest value. That is, after the prediction value is coded, the best prediction can be performed if it is used directly to predict another value.
  • Conventional hybrid coding separates prediction and transformation in two orthogonal dimens ions. For example, in video coding, prediction is applied in the time domain and transform is applied in the spatial domain. In addition, in the existing hybrid coding, prediction is performed only from data in blocks that are already coded. This can eliminate error propagation but has the disadvantage of reducing performance by forcing the use of data having a smaller statistical correlation with some data samples in the block during the prediction process.
  • the present invention seeks to solve this problem by removing the limitations on the data that can be used in the prediction process and enabling a new form of hybrid coding that incorporates the advantages of predictive coding and transform coding.
  • the present invention is to improve the compression efficiency by providing a conditional non-linear transformation method that considers the correlation between pixels on the transform domain.
  • 3 and 4 illustrate embodiments to which the present invention is applied and show schematic block diagrams of an encoder and a decoder to which an improved coding method is applied, respectively.
  • N residual data obtained after subtracting N prediction data from N original data at once Transform coding is applied to data or prediction errors.
  • the prediction process and the transformation process are performed sequentially.
  • transform coefficients may be obtained by applying a transform only after prediction is completed on N pieces of data, and thus, it is impossible to restore data in units of pixels.
  • the present invention proposes a method of obtaining transform coefficients using a previously reconstructed signal and a context signal.
  • the encoder 300 of FIG. 3 includes an optimizer 310, a quantizer 320, and an entropy encoder 330.
  • the decoder 400 of FIG. 4 includes an entropy decoder 410.
  • An inverse quantization unit 420, an inverse transform unit 430, and a recovery unit 440 are included.
  • the optimizer 310 obtains an optimized transform coefficient.
  • the optimizer 310 may apply the following embodiments to obtain an optimized transform coefficient.
  • a reconstruction function for reconstructing a signal may be defined as follows.
  • S represents a reconstruction signal
  • c represents a decoded transform coefficient
  • y represents a context H signal
  • R " (c, y) represents a nonlinear reconstruction function that uses c and y to generate a reconstruction signal.
  • the prediction signal may be defined as a relationship between the values that are already reconstructed and the transform coefficients. That is, the encoder and the decoder to which the present invention is applied may generate an optimized prediction signal in consideration of all signals that are already reconstructed when performing the prediction process.
  • a non-linear prediction function may be applied as a prediction function for generating the prediction signal.
  • each of the decoded transform coefficients affects the entire reconstruction process and enables control of the prediction error included in the prediction error vector.
  • the prediction error signal may be defined as follows.
  • e represents a prediction error signal
  • c represents a decoded transform coefficient
  • T represents a transform matrix
  • the recovery signal may be defined as follows.
  • Rn Rn (e n'y ' ⁇ l ' ⁇ 2 ⁇ "' eu 1)
  • n denotes the n-th reconstructed signal
  • e n denotes the n-th prediction error signal
  • y is a context signal (signal context)
  • R n represents a nonlinear reconstruction function that uses e n and y to generate a reconstruction signal.
  • the nonlinear recovery function R n may be defined as follows.
  • P n is a nonlinear set of the variables for generating a prediction signal
  • the non-linear prediction function may be, for example, a median function or a combination of linear functions as well as a combination of a tank order filter or a nonlinear function.
  • the non-linear prediction function P n () may be different nonlinear functions.
  • the encoder 300 and the decoder 400 to which the present invention is applied may include a repository of candidate functions for selecting the non-linear prediction function.
  • the optimizer 310 may select an optimal nonlinear prediction function to generate an optimized transform coefficient.
  • the optimal nonlinear prediction function may be selected from candidate functions stored in the storage. This will be described in more detail with reference to FIGS. 7 and 8. As described above, by selecting an optimal nonlinear prediction function, the optimizer 310 may generate an optimized transform coefficient.
  • the output transform coefficient is transmitted to the quantization unit 320, and the quantization unit 320 quantizes the transform coefficient and transmits the transform coefficient to the entropy encoding unit 330.
  • the entropy encoding unit 330 may entropy encode the quantized transform coefficients to output a compressed bitstram.
  • the decoder 400 of FIG. 4 may receive the bitstream output from the encoder of FIG. 3, perform entropy decoding through the entropy decoding unit 410, and perform inverse quantization through the inverse quantization unit 420. have. In this case, the signal output through the inverse quantization unit 420 may mean an optimized transform coefficient.
  • the inverse transform unit 430 receives the optimized transform coefficients to perform an inverse transform process, and generates a prediction error signal through the inverse transform process.
  • the reconstruction unit 440 generates a reconstruction signal by adding the prediction error signal and the prediction signal.
  • various embodiments described with reference to FIG. 3 may be applied.
  • 5 is an embodiment to which the present invention is applied and shows a schematic flowchart for explaining an improved video coding method.
  • the reconstruction signal may be generated based on at least one of all previously reconstructed signals and the context signal (S510).
  • the context signal may include at least one of a previously reconstructed signal, a previously reconstructed intra coded signal, an already reconstructed portion of the current frame, or other information related to decoding of a signal to be reconstructed.
  • the reconstruction signal may include a sum of a prediction signal and a prediction error coral, and each of the prediction signal and the prediction error signal may be generated based on at least one of a previously reconstructed signal and a context signal.
  • the encoder may obtain an optimal transform coefficient that minimizes the optimization function (S520).
  • the optimization function is a distortion component, a rate component and a Lagrangian May include a multiplier (Lagrange mul t ipl i er) ⁇ .
  • the distortion component may consist of the difference between the original video signal and the reconstruction signal, and the rate component may comprise a previously obtained transform coefficient.
  • represents a real number that balances the distortion component and the rate component.
  • the obtained transform coefficient is transmitted to the decoder through quantization and entropy encoding (S530).
  • the decoder receives the transmitted transform coefficients to obtain prediction error vectors through entropy decoding, inverse quantization, and inverse transform processes.
  • the prediction unit in the decoder generates a prediction signal using all available samples that have already been reconstructed, and can reconstruct the video signal based on the prediction signal and the reconstructed prediction error vector.
  • the embodiments described in the encoder may be applied to the process of generating the prediction signal.
  • FIG. 6 is a flowchart illustrating a video coding method using an already reconstructed signal and a context signal to generate an optimal transform coefficient according to an embodiment to which the present invention is applied.
  • the present invention can generate a prediction signal using a previously reconstructed signal (xi,,..., ⁇ -And a context signal) (S610).
  • the previously reconstructed signal may mean 3 ⁇ 4,..., 3 ⁇ 4— i as defined in Equation 3.
  • a nonlinear prediction function may be applied to generate the prediction signal, and each prediction signal may be applied to each prediction signal. Different non-linear prediction functions can be applied emphatically.
  • the prediction signal is added to the received prediction error signal e (i) (S620) to generate a reconstruction signal (S630). In this case, step S620 may be performed through an adder (not shown).
  • the generated recovery signal may be stored for future reference (S640). This stored signal can then be used to generate the next prediction signal.
  • step S610 is an embodiment to which the present invention is applied and is a flowchart illustrating a process of generating a prediction signal used to generate an optimal transform coefficient.
  • the present invention generates a prediction signal ⁇ ( ⁇ ) using a previously reconstructed signal (xi, X2,..., N — ⁇ ) and a context signal.
  • selection of an optimal prediction function f (k) may be necessary to generate the prediction signal.
  • the reconstructed signal S n may be generated using the generated prediction signal (S720), and the generated reconstructed signal may be stored for future reference (S730).
  • the present invention may select an optimal prediction function by finding a candidate function that minimizes the sum of the distortion measurement and the rate measurement (S740).
  • the distortion measurement value represents a value of measuring the distortion between the original image signal and the reconstruction signal
  • the rate measurement value represents a value of measuring a rate required for transmitting or storing the conversion coefficient
  • the present invention can obtain the optimal prediction function by selecting a candidate function to minimize the following equation (5).
  • c * denotes a c value that minimizes Equation 5, that is, a decoded transform coefficient.
  • D (x, (c)) represents a distortion measurement value between the original video signal and its reconstruction signal, and R (c) represents a rate measurement value necessary for transmitting or storing the conversion coefficient c.
  • R (c) is Huffman
  • An entropy coder such as a Huffman coder or an arithmetic coder may be used to represent the number of bits used to store the transform coefficient c.
  • R (c) is a Laplacian or Gaussian probability model
  • represents a Lagrange multiplier used in encoder optimization.
  • may represent a real number that balances the distortion measurement with the rate measurement.
  • 8 is a flowchart illustrating a method of obtaining an optimal transform coefficient according to an embodiment to which the present invention is applied.
  • the present invention can provide an improved coding method by obtaining an optimal transform coefficient that minimizes the sum of the distortion measure and the rate measure.
  • the encoder may obtain an optimal transform coefficient that minimizes the sum of the distortion measurement value and the rate measurement value (S810).
  • the equation of Equation 5 may be applied to the sum of the distortion measurement value and the rate measurement value.
  • at least one of an original image signal X, an already reconstructed signal X, a previously obtained transform coefficient, and a Lagrange multiplier ⁇ may be used as the input signal.
  • the already reconstructed signal may be obtained based on a previously obtained transform coefficient.
  • the optimal transform coefficient (c) is inversely transformed through an inverse transform process (S820), and a prediction error signal is obtained (S830).
  • the encoder generates the reconstruction signal 50 using the obtained error signal (S840) In this case, a context signal may be used to generate the reconstruction signal 50.
  • the generated reconstructed signal may in turn be used to obtain an optimal transform coefficient that minimizes the sum of the distortion measurement and the rate measurement.
  • the optimal transform coefficients are updated and reconstructed Can be used to obtain new optimized transform coefficients.
  • This process may be performed by the optimizer 310 of the encoder 300.
  • the optimizer 310 outputs the newly obtained transform coefficients, and the output transform coefficients are compressed and transmitted through quantization and entropy encoding.
  • a prediction signal is used to obtain an optimal transform coefficient, and the prediction signal may be defined as a relationship between already reconstructed signals and transform coefficients.
  • the transform coefficients may be described by Equation 2, and as in Equation 2 and Equation 3, each transform coefficient may affect the entire reconstruction process, and a prediction error included in a prediction error vector. Can enable a wide range of control.
  • the restoration process may be limited to linear. In such a case, the reconstruction signal can be arranged as in the following mathematical formula 6.
  • S represents a reconstruction signal
  • c represents a decoded transform coefficient
  • y represents a context signal
  • F ⁇ T, ff represents the ⁇ X n matrix.
  • an n X n matrix S may be used to control the quantization error included in the transform coefficient.
  • the reconstruction signal may be defined as follows. [Equation 7]
  • the matrix S for controlling the quantization error may be obtained by using the following minimization process of Equation 8.
  • the excitation T represents the training signal, and the transform coefficient c is aligned with the n-dimensional vector.
  • the conversion coefficient components are Ci 6 ⁇ ; Satisfies.
  • Each of the transform coefficients may have a different quantization stem size.
  • n x n matrix 5 of Equation 7 may be co-optimized for the training signal.
  • the joint optimization method may be performed by minimizing the following equation (9).
  • 9 and 10 are embodiments to which the present invention is applied, and are conceptual views illustrating a method of applying a space iotemporal transform to a group of pictures (GOP).
  • GOP group of pictures
  • the present invention can apply space-time transformation to a picture group G0P including V frames.
  • the prediction error signal and the reconstruction signal may be defined as follows.
  • denotes a spar iotemporal transform matrix
  • c includes decoded transform coefficients for the entire picture group.
  • Represents an error vector formed of error values that are referenced to a frame.
  • Uh error path for a picture group with V frames Can be defined.
  • the error vector e may include all error values for the entire picture group G0P having the V frames.
  • FIG. 9 is a diagram for describing a transform method in a general spatial domain
  • FIG. 10 is a diagram for explaining a method of applying a space-time transform to a picture group.
  • transform codes in the spatial domain are generated independently of error values of I frames and P frames.
  • the coding efficiency may be further improved by applying a joint spat iotemporal transform to the error values of the I frame and the P frame. That is, as can be seen in Equation 12, when generating a reconstruction signal, a joint spat iotemporal transformed error vector is used as a cyclic structure so that it is not smooth or non-stat iffy. ) Can be coded more efficiently for a high-definition image including a signal.
  • 11 through 12 are diagrams for describing a method of generating a prediction signal of a first line (row, column) of a current block by using neighboring pixels, according to embodiments of the present invention.
  • a pixel is provided for image data consisting of N pixels. It provides a method of predicting using the most recently reconstructed data in units.
  • transform coding is applied to the N residual data obtained by subtracting N prediction data from N original data at once. Done. Therefore, the prediction process and the conversion process are performed sequentially. However, the most accurate prediction result can be obtained when the image data consisting of N pixels is predicted using the most recently reconstructed data in pixel units. Therefore, sequentially applying prediction and transformation in units of N pixels may not be an optimal coding scheme.
  • the present invention proposes a method of applying the CNT algorithm using only N X N transforms by limiting the prediction direction.
  • a N 2 XN 2 non-orthogonal transform was configured per prediction mode for an N x N block, and then row ordering or from an NXN block. Transform coefficients were obtained by applying a non-orthogonal transform to a N 2 x 1 vector arranged through column ordering.
  • these embodiments have the following disadvantages.
  • N 2 XN 2 conversion is required, so if N becomes larger, the calculation amount is increased and conversion A large amount of memory space is required for storing coefficients. Thus, scalability for N falls.
  • one embodiment of the present invention provides a method for restricting the direction of reconstructed pixels to either horizontal or vertical directions for all pixel positions.
  • an NXN transformation matrix may be applied to an NXN block instead of an N 2 XN 2 transformation matrix. Since the NXN transformation matrix is applied sequentially to the rows and columns of the NXN block, the CNT in the present invention is called a separable conditional nonlinear transformation (Separable CNT).
  • an embodiment of the present invention predicts the prediction mode only for the first line (row and column) of the current block, and uses adjacent reconstructed pixels in the horizontal or vertical direction for the remaining pixels.
  • the prediction mode to which the pixel at the current position referring to the reconstructed pixel is applied is applied.
  • intra-prediction angular mode is highly associated with It is in a reduced state. Therefore, the accuracy of the prediction can be improved through such a method.
  • intra prediction prediction is performed on the current block based on the prediction mode. Since the reference sample used for the prediction and the specific prediction method vary according to the prediction mode, when the current block is encoded in the intra prediction mode, the decoder may acquire the prediction mode of the current block to perform the prediction.
  • the decoder may check whether neighboring samples of the current block can be used for prediction and configure reference samples to use for prediction.
  • the neighboring samples of the current block include a sample adjacent to the left boundary of the current block of NXN size and a total of 2N samples neighboring to the bottom-left, P left .
  • Pb is the 2N samples (P left ) of the left side, the 2N samples (P upper ) of the upper side and the upper left corner sample (1 0 cough). ) May be included.
  • the decoder may configure (5111) 3 11) samples that are not available with the available samples to construct reference samples for use in prediction.
  • peripheral pixels P b of the NXN current block are selected. Use this to get a prediction of the first line (row, column) of the current block.
  • the prediction value may be expressed as a function of the surrounding pixels P b and the prediction mode as shown in Equation 16 below.
  • mode represents an intra prediction mode and a function f () represents a method of performing intra prediction.
  • a prediction value for the first line (row or column) of the current block may be obtained.
  • 13 to 14 are embodiments to which the present invention is applied and are diagrams for explaining a method of reconstructing a current block based on a prediction signal of a first line (row, column) of the current block.
  • Equation 17 represents the restoration of the pixels of the N ⁇ N current block in the horizontal direction (right or horizontal direction) by using a prediction for the first column of the current block
  • Equation 18 represents the first of the current block. Represents the pixels in a vertical direction by using a predictor for the row.
  • Equations 17 and 18 determine the reconstructed pixel value at each position in the block.
  • Equations 17 to 18 ⁇ denotes pixel values reconstructed based on the residual data, so that they may be different from the original data, but if they are determined to be the same as the original data, they are equal to the original data at this point.
  • denotes pixel values reconstructed based on the residual data, so that they may be different from the original data, but if they are determined to be the same as the original data, they are equal to the original data at this point.
  • the following equation 19 may be derived.
  • Equation 19 is to be restored to the same as the original data in the future
  • Equation 20 Equation 20
  • Equation 23 In Equation 19, T C means transformation in the column direction (eg 1—D
  • T R indicates the transformation in the row direction.
  • the residual matrix ⁇ may be obtained by applying an inverse transform to C, which is a dequantized transform coefficient matrix, and may be represented by Equation 24 below.
  • Equation 25 Equation 25
  • F the general orthogonal transform of Equation 19
  • Equation 25 may be simplified as in Equation 26 below.
  • C T -.X R F R where ⁇ / may be a predetermined value.
  • ⁇ / may be a predetermined value.
  • Z 7 ⁇ 1 is previewed Since it is possible to calculate, C can be obtained by performing one matrix calculation on the row and column direction, respectively, with the same transformation as DCT.
  • x R n may be calculated first and then ⁇ and ⁇ may be applied.
  • ⁇ and ⁇ may be applied.
  • 1 may be determined as in Equation 27 below.
  • X R F_ can be calculated only by the subtraction operation ((N-1) XN subtraction), and the multiplication operation is unnecessary.
  • ⁇ And 7 " c can use the same transformations as DCT and DST, so the calculation amount is not increased compared to the existing codec in terms of multiplication.
  • the range of each component value constituting a is equal to the range of the existing codec, so that the quantization method of the existing codec can be applied as it is.
  • the reason why the range does not change is as follows. Since one component (i th row and j th column) of ⁇ 1 can be obtained as in Equation 28 according to the first matrix of Equation 27, it can be expressed as 9 bit data.
  • C the data transmitted in the bitstream through the coding process
  • inverse quantization after obtaining quantization coefficients results in a slightly different result (C) from the original ⁇ . Therefore, in order to obtain C without data loss through Equations 25 and 26, quantized transform coefficients must be obtained.
  • Each element constituting C may not be a multiple of the quantization step size. In this case, each element is divided by a quantization step size, and then a rounding operation is applied, or an iterative quantization process is used to quantize the quantized transform coefficient. transform coefficient) can be obtained.
  • an additional Rate Distortion (RD) optimization may be performed by applying an encoding scheme such as Rate—distort ion optimized quantization (RD0Q).
  • the present invention can find a C matrix such that the square error value in Equation 29 is minimized.
  • Each element of C is a multiple of quant izat ion step size and iterative can be obtained by using a quantization method.
  • Equation 29 may be simplified as in Equation 30 below.
  • Equation 30 (can be obtained by solving the least square equation, or iterative quantization.
  • the solution of the least square equation is an iterative procedure.
  • the G matrix of Equation 30 may be used in advance without being calculated each time, as shown in Fig. 14 and Equation 18, the first row of the current block.
  • C may be determined as in Equation 35 below.
  • a prediction may be made in the horizontal direction by using the first row pixels (leftmost pixels) of the current block.
  • T C F- It may be a predetermined value.
  • T C F— is a fixed value and can be calculated in advance.
  • F-, X R ⁇ can be calculated first, followed by ⁇ and 7 ⁇ .
  • the matrix of n- 1 for the matrix f in Equation 31 can be obtained as in Equation 36 below.
  • the decoding may be performed by substituting C, which is a dequantized transform coefficient matrix instead of C, in Equation 35 to obtain X R ⁇ ⁇ : and then adding to restore. have. This may be expressed as in Equation 37 below. This may be applied in the same manner to Equation 26.
  • the present invention sequentially converts C, which is a dequantized transform coefficient matrix, to the ⁇ (column) direction and the row direction, and then multiplies the F matrix.
  • C which is a dequantized transform coefficient matrix
  • the substantial remainder can form a signal ( ⁇ ., and increase the predictive signal BX. a it is possible to obtain a restored signal.
  • Fig. 15 is detachable, the conditional non-linear conversion as a live action example where the present invention is applied (SCNT) Is a flowchart for explaining a method of encoding a current block using
  • the present invention provides a method of sequentially applying an N x N transform on a row and a column of an N X N block.
  • the present invention performs prediction by considering a prediction mode only for the first line (row or column) of the current block, and performs prediction using residual reconstructed pixels adjacent to each other in the vertical or horizontal direction. Provides a way to do it.
  • the encoder may generate prediction pixels for the first row or column of the current block based on neighboring samples of the current block (S1510).
  • neighboring samples of the current block may represent boundary pixels neighboring the current block.
  • the boundary pixels neighboring the current block are adjacent to the sample and bottom-left adjacent to the left boundary of the current block.
  • 2N total Samples P left a sample adjacent to the top boundary of the current block and a total of 2N samples (P upper ) neighboring the top-right and the top-left of the current block It may mean at least one of one sample (P corner ) adjacent to the corner .
  • the reference pixels used to generate the prediction signal are Pb
  • Pb is the 2N samples P leit on the left side
  • the 2N samples P upper on the left side and the upper left corner sample P ⁇ rner.
  • the encoder can configure the reference samples to be used for prediction by substituting the samples that are not available with the available samples.
  • prediction pixels for the first row or column of the current block may be obtained based on a prediction mode.
  • the prediction mode indicates an intra prediction mode
  • the encoder may determine the prediction mode through coding simulation. For example, when the intra prediction mode is the 'vertical mode', the prediction pixel for the first row of the current block may be obtained using pixels adjacent to the upper side.
  • the encoder may perform prediction in the vertical direction or the horizontal direction with respect to the remaining pixels in the current block, respectively, using prediction pixels for the first row or column of the current block (S1520). .
  • prediction for residual pixels may be performed based on pixels previously reconstructed in the vertical direction.
  • prediction for the first column of the current block If pixels are obtained, prediction for residual pixels may be performed based on the pixels previously reconstructed in the horizontal direction.
  • prediction pixels for at least one line (row or column) of the current block may be obtained based on the prediction mode. Then, prediction pixels may be performed on residual pixels using prediction pixels for at least one line (row or column) of the current block.
  • the encoder may generate a difference signal based on the prediction pixels of the current block (S1530).
  • the difference signal may be obtained by subtracting a prediction pixel value from a 3 ⁇ 4 pixel value.
  • the encoder may generate a transform-coded residual signal by applying a horizontal transformation matrix and / or a vertical transformation matrix to the difference signal (S1540).
  • the horizontal direction transformation matrix and / or the vertical direction transformation matrix may be NXN transformation.
  • the encoder may perform quantization on the transform-coded residual signal and perform entropy encoding on the quantized residual signal.
  • the step of performing the quantization may be applied to the rate-distortion optimized quantization (Rat e-Dis tort ion Optimized Quantization).
  • 16 is an embodiment to which the present invention is applied, and is a conditional nonlinear detachable. Transform (SCNT) . This is a flowchart for explaining a method of decoding the current block all using.
  • the present invention provides a method for performing decoding based on transform coefficients according to separable conditional nonlinear transform (SCNT).
  • SCNT separable conditional nonlinear transform
  • the decoder may obtain a transform-coded residual signal of the current block from the video signal (S1610).
  • the decoder may perform an inverse transform on the transform-coded residual signal based on a vertical transformation matrix and / or a horizontal transformation matrix (S1620).
  • the transform-coded residual signal may be sequentially inversely transformed with respect to the vertical direction and the horizontal direction.
  • the horizontal direction transformation matrix and the vertical direction transformation matrix may be N X N transform.
  • the decoder may acquire an intra prediction mode from the video signal (S1630).
  • prediction pixels for the first row or column of the current block may be generated using boundary pixels neighboring the current block (S1640).
  • prediction for residual pixels may be performed based on a pixel previously reconstructed in the vertical direction.
  • prediction pixels for the first column of the current block are obtained, prediction for residual pixels may be performed based on the pixels previously reconstructed in the horizontal direction.
  • the boundary pixel neighboring the current block includes N samples adjacent to the left boundary of the current block, N samples neighboring to the bottom-left, and an upper boundary. At least one of N samples adjacent to each other, N samples adjacent to a top-right ', and 1 sample adjacent to a top-left corner may be included.
  • the decoder may perform prediction in the vertical direction or the horizontal direction with respect to the remaining pixels in the current block, respectively, using prediction pixels for the first row or column of the current block (S1650). ).
  • the decoder may generate a reconstruction signal by adding the residual signal and the prediction signal obtained through the inverse transform (S1660).
  • a CNT flag indicating whether to apply a CNT may be defined.
  • the CNT flag may be expressed as CNT_f lag—if GNT_f lag is 1, the current difference is indicated that CNT is applied, and if CNT_f lag is 0, the current processing unit indicates that Indicates that it does not apply.
  • the CNT flag may be transmitted to a decoder, wherein the CNT flag is at least one of a Sequence Parameter Set (SPS), a Picture Parameter Set (PPS), a slice, a CUCCoding Unit (PUCPredict ion Unit), a block, a polygon, and a processing unit. It is characterized in that extracted from.
  • SPS Sequence Parameter Set
  • PPS Picture Parameter Set
  • PUCPredict ion Unit a slice
  • PUCPredict ion Unit a block
  • a processing unit characterized in that extracted from.
  • the present invention if only the prediction mode for the vertical or horizontal direction up to the boundary pixels in the block is used, It may be configured to transmit only a flag indicating a vertical direction or a horizontal direction without transmitting all the intra prediction modes.
  • the row- and kernel-direction transformation kernels can be applied to other translation kernels besides DCT and DST.
  • an SCNT flag indicating whether to apply SCNT may be defined.
  • SCNT_flag When SCNT_flag is 1, the current processing unit indicates that SCNT is applied. When SCNT_flag is 0, the current processing unit indicates that SCNT is not applied.
  • the SCNT flag may be transmitted to a decoder, and the CNT flag may include a sequence parameter set (SPS), a picture parameter set (PPS), a suspend, a coding unit (CU), a predict ion unit (PU), a block, a polygon, and the like. Extracted from at least one of the processing units.
  • SPS sequence parameter set
  • PPS picture parameter set
  • CU coding unit
  • PU predict ion unit
  • a block a polygon, and the like. Extracted from at least one of the processing units.
  • the embodiments described herein may be implemented and performed on a processor, microprocessor, controller or chip.
  • the functional units illustrated in FIGS. 1 to 4 may be implemented in a computer, a processor, a microprocessor, a controller, or a chip.
  • the decoder and encoder to which the present invention is applied include a multimedia broadcasting transmitting and receiving device, a mobile communication terminal, a home cinema video device, a digital cinema video device, a surveillance camera, a video chat device, a real time communication device such as video communication, a mobile streaming device, Storage media, camcorders, video on demand (VoD) service providing devices, internet streaming service providing devices, three-dimensional (3D) video devices, video telephony video devices, and medical video devices, and the like, for processing video signals and data signals Can be used to
  • the processing method to which the present invention is applied can be produced in the form of a program executed by a computer, and can be stored in a computer-readable recording medium.
  • Multimedia data having the data structure according to the present invention may also be the computer is stored in a recording medium that can be read out.
  • the computer readable recording medium includes all kinds of storage devices for storing computer readable data.
  • the computer-readable recording medium may include, for example, a Blu-ray Disc (BD), a Universal Serial Bus (USB), a ROM, a RAM, a CD-ROM, a magnetic tape, a floppy disk, and an optical data storage device. Can be.
  • the computer-readable recording medium also includes media embodied in the form of a carrier wave (for example, transmission over the Internet).
  • the bit stream generated by the encoding method may be stored in a computer-readable recording medium or transmitted through a wired or wireless communication network.

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

본 발명은, 비디오 신호를 인코딩하는 방법에 있어서, 현재 블록에 이웃하는 경계 픽셀에 기초하여, 상기 현재 블록의 첫번째 행 또는 열에 대한 예측 픽셀들을 생성하는 단계; 상기 현재 블록의 첫번째 행 (row) 또는 열 (column)에 대한 예측 픽셀들을 이용하여, 상기 현재 블록 내 잔여 픽셀들을 각각 수직 방향 또는 수평 방향으로 예측하는 단계; 상기 현재 블록의 예측 픽셀들에 기초하여, 차분 신호 (difference signal )를 생성하는 단계; 및 상기 차분 신호에 대해 수평 방향 변환 행렬 및 수직 방향 변환 행렬을 적용함으로써 변환 코딩된 잔여 신호 (transform-coded residual signal)를 생성하는 단계를 포함하는 것을 특징으로 하는 방법을 제공한다.

Description

【명세서】
【발명의 명칭】
비디오 신호의 인코딩, 디코딩 방법 및 그 장치
【기술분야】
본 발명은 비디오 신호의 인코딩, 디코딩 방법 및 그 장치에 관한 것이며, 보다 상세하게는, 분리 가능한 조건부 비선형 변환 (Separabl e Condi t ional ly on- l inear Transform , 이하 'SCNT' 라 함) 기술에 관한 것이다.
【배경기술】
압축 부호화란 디지털화한 정보를 통신 회선을 통해 전송하거나, 저장 매체에 적합한 형태로 저장하기 위한 일련의 신호 처리 기술을 의미한다. 영상, 이미지, 음성 등의 미디어가 압축 부호화의 대상이 될 수 있으며, 특히 영상을 대상으로 압축 부호화를 수행하는 기술을 비디오 영상 압축이라고 일컫는다. 많은 미디어 압축 기술은 예측 코딩과 변환 코딩이라는 2가지 접근 방법에 기초한다. 특히, 하이브리드 코딩 (hybr id coding) 기술은 비디오 코딩을 위해 양자의 장점을 결합한 방식을 채택하고 있지만, 각 코딩 기술은 다음과 같은 단점이 있다.
예측 코딩의 경우 예측 에러 샘플을 획득함에 있어서 어떠한 통계적인 의존성을 이용할 수 없다. 즉, 예측 코딩은 동일 신호의 이미 코딩된 부분을 이용하는 신호 요소를 예측하고 예측된 값과 실제 값 사이의 차이값을 코딩하는 것을 기초로 한다. 이는 더 정확하게 예측된 신호가 더 효율적으로 압축될 수 있다는 정보이론을 따르며, 예측의 일관성과 정확성을 증가시킴으로써 더 좋은 압축 효과를 얻을 수 있다. 예측 코딩은 인과 통계적 관계 (causal stat i st ics rel at ionships)에 기초하기 때문에 매끄럽지 않거나 불규칙적인 신호를 처리하는데 유리한 반면, 큰 규모의 신호를 처리하는데는 효율적이지 못하다는 단점이 있다. 또한, 원 영상 신호에 양자화를 적용하기 때문에 인간의 시청각 시스템의 한계를 이용할 수 없다는 단점이 있다.
한편, 변환 코딩의 경우, 일반적으로 이산 여현 변환 (Di screte Cosine Transform)이나 이산 웨이블릿 변환 (Di screte Wavelet Transform)과 같은 직교 변환이 이용될 수 있다. 변환 코딩은 가장 중요한 데이터를 식별하기 위해 신호를 일련의 요소들로 분해하는 기술이며, 양자화 이후 대부분의 변환 계수는 0이 된다. 그러나, 변환 코딩의 경우 샘플의 예측 값을 획득함에 있어서 단지 최초 이용가능한 데이터에만 의존해야 한다는 단점이 있다. 그러한 이유로 예측 신호가 높은 퀄러티를 갖기 어렵게 된다.
【발명의 상세한 설명】
【기술적 과제】
본 발명은, 가장 최근에 복원한 데이터를 이용하여 예측을 수행하는 방법을 제공하고자 한다.
또한, 본 발명은, 예측 방향을 제한하여 N X N 변환을 이용하여 조건부 비선형 변환 알고리즘 (CNT)을 적용하는 방법을 제공하고자 한다.
또한, 본 발명은, N X N 블록의 행 (row)과 열 (column)에 대해 N x N 변환을 순차적으로 적용하는 조건부 비선형 변환 알고리즘 (CNT)을 제공하고자 한다. 또한, 본 발명은, 주변 픽셀을 이용하여 현재 블록의 첫번째 라인 (행, 열)의 예측 신호를 생성하는 방법을 제공하고자 한다 .
또한, 본 발명은, 현재 블록의 첫번째 라인 (행, 열)의 예측 신호에 기초하여 현재 블록을 복원하는 방법을 제공하고자 한다.
또한, 본 발명은, 분리 가능한 조건부 비선형 변환 (SCNT)을 이용하여 현재 블록을 인코딩 /디코딩하는 방법을 제공하고자 한다.
또한, 본 발명은, 새로운 예측 /변환 코딩의 융합에 기초하여 각 코딩 방식의 장점을 모두 적용할 수 있는 방법을 제안하고자 한다.
본 발명에서는, 변환 코딩과 결합되었던 선형 /비선형 예측 코딩을 통합된 비선형 ¾환 블록으로 대체하고자 한다.
본 발명에서는, 매끄럽지 않거나 (non-smooth) 비정지적인 (non-stat ionary) 신호를 포함하는 고화질 영상에 대해 보다 효율적으로 코딩할 수 있는 방법을 제안하고자 한다.
【기술적 해결방법】
본 발명은 변환 도메인 상에서 픽셀 간 상관 관계를 고려하는 조건부 비선형 변환 (condi t ional ly nonl inear transform , 'CNT' ) 방법을 제공한다.
또한, 본 발명은, 예측 방향을 제한하여 N X N 변환을 이용하여 조건부 비선형 변환 알고리즘 (CNT)을 적용하는 방법을 제공한다.
또한, 본 발명은, N X N 블록의 행 (row)과 열 (column)에 대해 N x N 변환을 순차적으로 적용하는 조건부 비선형 변환 알고리즘 (CNT)을 제공한다.
또한, 본 발명은, 주변 픽샐을 이용하여 현재 블록의 첫번째 라인 (행, 열)의 예측 신호를 생성하는 방법을 제공한다.
또한, 본 발명은, 현재 블톡의 첫번째 라인 (행, 열)의 예측 신호에 기초하여 현재 블록을 복원하는 방법을 제공한다.
또한, 본 발명은, 분리 가능한 조건부 비선형 변환 (SCNT)을 이용하여 현재 블록올 인코딩 /디코딩하는 방법을 제공한다.
또한, 본 발명은, 예측 과정을 수행할 때 이미 복원된 모든 신호를 고려함으로써 최적의 변환 계수 (opt imi zed transform coef f i c i ent )를 획득하는 방법을 제공한다.
【유리한 효과】
본 발명은, 모든 픽셀 위치에 대해 복원된 픽샐을 참조하는 방향을 가로 또는 세로 어느 한 방향으로 제한함으로써, N X N 블록에 대해 N2 X N2 변환 행렬 대신 N X N 변환 행렬을 적용할 수 있고, 그럼으로써 계산량을 감소시키고 변환 계수를 저장하기 위한 메모리 공간을 절약할 수 있다.
또한, 참조하게 되는 인접하는 복원된 픽셀은 이미 잔여 신호를 이용하여 복원된 값이므로, 이 복원된 픽샐을 참조하는 현재 위치에서의 픽샐은 예측 모드와의 연관성이 매우 줄어든 상태이다. 따라서, 현재 블록의 첫번째 라인에 대해서만 예측 모드를 고려하고, 나머지 잔여 픽셀들에 대해서는 가로 또는 세로 방향의 인접한 복원된 픽셀을 이용하여 예측함으로써 예측의 정확도를 현저하게 높일 수 있다.
또한, 본 발명은 변환 도메인 상에서 픽셀 간 상관 관계를 고려하는 조건부 비선형 변환 (condi t ional ly nonl inear transform)올 이용함으로써 압축 효율을 향상시킬 수 있다.
또한, 본 발명은 예측 코딩과 변환 코딩을 융합함으로써 각 코딩 방식의 장점을 모두 살릴 수 있다. 즉, 이미 복원된 신호들을 모두 이용함으로써 보다 정교하고 향상된 예측올 수행할 수 있고ᅳ 예측 에러 샘플의 통계적 종속성을 이용할 수 있다. 그리고, 단일 차원에 대해 예측과 변환을 동시에 적용하여 코딩함으로써 매끄럽지 않거나 (non-smooth) 비정지적인 (non-stat ionary) 신호를 포함하는 고화질 영상에 대해 보다 효율적으로 코딩할 수 있다.
또한, 각각의 디코딩된 변환 계수들이 전체 복원 과정에 영향을 미침으로써, 예측 에러 백터에 포함되어 있는 예측 에러의 제어도 가능하게 된다. 즉, 양자화 에러가 고려되어 제어되기 때문에 양자화 에러 전파 문제가 해결된다.
본 발명은 부가 정보 필요없이 신호 적웅적인 디코딩 수행이 가능하며, 기존의 하이브리드 코더와 비교할 때, 고화질 예측이 가능하고 예측 에러도 줄일 수 있다. .
【도면의 간단한 설명】
도 1 및 도 2는 각각 미디어 코딩이 수행되는 인코더와 디코더의 개략적인 블록도를 나타낸다.
도 3 및 도 4는 본 발명이 적용되는 실시예들로써, 각각 향상된 코딩 방법이 적용되는 인코더와 디코더의 개략적인 블록도를 나타낸다.
도 5는 본 발명이 적용되는 실시예로써, 향상된 비디오 코딩 방법을 설명하기 위한 개략적인 흐름도를 나타낸다.
도 6은 본 발명이 적용되는 실시예로써, 최적의 예측 신호를 생성하기 위한 향상된 비디오 코딩 방법을 설명하기 위한 흐름도이다.
도 7은 본 발명이 적용되는 실시예로써, 최적의 예측 신호를 생성하는 과정을 설명하기 위한흐름도이다.
도 8은 본 발명이 적용되는 실시예로써, 최적의 변환 계수를 획득하는 방법을 설명하기 위한 흐름도이다.
도 9 및 도 10은 본 발명이 적용되는 실시예들로, 픽쳐 그룹 (GOP , Group of Pi cture)에 대해 시공간 변환 (spat iotemporal transform)을 적용하는 방법을 설명하기 위한 개념도이다.
도 11 내지 도 12는 본 발명이 적용되는 실시예들로써, 주변 픽셀을 이용하여 현재 블록의 첫번째 라인 (행, 열)의 예측 신호를 생성하는 방법을 설명하기 위한 도면이다.
도 13 내지 도 14는 본 발명이 적용되는 실시예들로써, 현재 블록의 첫번째 라인 (행, 열)의 '예측 신호에 기초하여. 현재 블록을 복원하는 방법을 설명하기 위한 도면이다.
도 15는 본 발명 0 적용되는 실시예로써, 분리 가능한 조건부 비선형 변환 (SCNT)을 이용하여 현재 블록을 인코딩하는 방법을 설명하기 위한 흐름도이다.
도 16은 본 발명 0 적용되는 실시예로써, 분리 가능한 조건부 비선형 변환 (SCNT)을 이용하여 현재 블록을 디코딩하는 방법을 설명하기 위한 흐름도이다.
【발명의 실시를 위한 최선의 형태】 본 발명은, 비디오 신호를 인코딩하는 방법에 있어서, 현재 블록에 이웃하는 경계 픽셀에 기초하여, 상기 현재 블록의 첫번째 행 또는 열에 대한 예측 픽셀들을 생성하는 단계; 상기 현재 블록의 첫번째 행 (row) 또는 열 (column)에 대한 예측 픽샐들을 이용하여, 상기 현재 블록 내 잔여 픽셀들을 각각 수직 방향 또는 수평 방향으로 예측하는 단계 ; 상기 현재 블록의 예측 픽셀들에 기초하여, 차분 신호 (di f ference signa l )를 생성하는 단계; 및 상기 차분 신호에 대해 수평 방향 변환 행렬 및 수직 방향 변환 행렬올 작용함으로써 변환 코딩된 잔여 신호 ( transform— coded residual signal )를 생성하는 단계를 포함하는 것을 특징으로 하는 방법을 제공한다.
본 발명에서, 상기 현재 블록의 첫번째 행 (row)에 대한 예측 픽셀들이 생성된 경우, 상기 잔여 픽셀들에 대한 예측은 수직 방향으로 이전에 복원된 픽셀에 기초하여 수행되는 것을 특징으로 한다.
본 발명에서, 상기 현재 블록의 첫번째 열 (column)에 대한 예측 픽셀들이 생성된 경우, 상기 잔여 픽셀들에 대한 예측은 수평 방향으로 이전에 복원된 픽셀에 기초하여 수행되는 것을 특징으로 한다.
본 발명은, 상기 변환 코딩된 잔여 신호 ( transform-coded res idual s ignal )에 대해 양자화를 수행하는 단계; 및 상기 양자화된 잔여 신호에 대해 엔트로피 인코딩을 수행하는 단계를 더 포함하는 것을 특징으로 한다.
본 발명에서, 상기 양자화를 수행하는 단계는 율 -왜곡 최적화 양자화 (Rate- Di stort ion Opt imi zed Quant izat ion)가 적용되는 것을 특징으로 한다.
본 발명은, 상기 현재 블록의 인트라 예측 모드를 결정하는 단계를 더 포함하되 , 상기 현재 블록의 첫번째 행 또는 열에 대한 예측 픽샐들은 상기 인트라 예측 모드에 기초하여 생성되는 것을 특징으로 한다 .
본 발명에서, 상기 현재 블록이 N X N 크기일 경우, 상기 현재 블록에 이웃하는 경계 픽셀은, 상기 현재 블록의 좌측 경계에 인접한 N개의 샘플, 좌하측 (bottom-left )에 이웃하는 N개의 샘플, 상측 경계에 인접한 N개의 샘플, 우상측 ( top— r ight )에 이웃하는 N개의 샘플 및 좌상측 (top-left ) 코너에 인접하는 1개의 샘플 중 적어도 하나를 포함하는 것을 특징으로 한다.
본 발명에서, 상기 현재 블록이 N X N 크기일 경우, 상기 수평 방향 변환 행렬 및 상기 수직 방향 변환 행렬은 N X N 변환인 것을 특징으로 한다.
본 발명은, 비디오 신호를 디코딩하는 방법에 있어서, 상기 비디오 신호로부터 현재 불록의 변환 코딩된 잔여 신호 (transform-coded residual signal )를 획득하는 단계; 수직 방향 변환 행렬 및 수평 방향 변환 행렬에 기초하여, 상기 변환 코딩된 잔여 신호 ( transform-coded res i dua l s ignal )에 대해 역변환을 수행하는 단계; 상기 현재 블록의 예측 신호를 생성하는 단계; 및 상기 역변환을 통해 획득된 잔여 신호와 상기 예측 신호를 합하여 복원 신호를 생성하는 단계를 포함하되, 상기 변환 코딩된 잔여 신호 ( transform-coded res idual signal )는 수직 방향 및 수평 방향에 대해 순차적으로 역변환되는 것을 특징으로 한다.
본 발명에서, 상기 예측 신호를 생성하는 단계는, 상기 현재 블록에 이웃하는 경계 픽셀에 기초하여, 상기 현재 블록의 첫번째 행 또는 열에 대한 예측 픽셀들을 생성하는 단계; 및 상기 현재 블록의 첫번째 행 (row) 또는 열 (column)에 대한 예측 픽셀들을 이용하여, 상기 현재 블록 내 잔여 픽셀들을 각각 수직 방향 또는 수평 방향으로 예측하는 단계를 포함하는 것을 특징으로 한다.
본 발명은, 상기 현재 블록의 인트라 예측 모드를 획득하는 단계를 더 포함하되, 상기 현재 블록의 첫번째 행 또는 열에 대한 예측 픽셀들은 상기 인트라 예측 모드에 기초하여 생성되는 것을 특징으로 한다.
본 발명에서, 상기 현재 블록이 N X N 크기일 경우, 상기 수평 방향 변환 행렬 및 상기 수직 방향 변환 행렬은 N X N 변환인 것을 특징으로 한다.
【발명의 실시를 위한 형태】
이하, 첨부된 도면을 참조하여 본 발명의 실시예의 구성과 그 작용을 설명하며, 도면에 의해서 설명되는 본 발명의 구성과 작용은 하나의 실시예로서 설명되는 것이며, 이것에 의해서 본 발명의 기술적 사상과 그 핵심 구성 및 작용이 제한되지는 않는다.
아을러, 본 발명에서 사용되는 용어는 가능한 한 현재 널리 사용되는 일반적인 용어를 선택하였-으나, 특정한 경우는—출원언이 임의로 선장한 용어를 사용하여 설명한다. 그러한 경우에는 해당 부분의 상세 설명에서 그 의미를 명확히 기재하므로, 본 발명의 설명에서 사용된 용어의 명칭만으로 단순 해석되어서는 안 될 것이며 그 해당 용어의 의미까지 파악하여 해석되어야 함을 밝혀두고자 한다.
또한, 본 발명에서 사용되는 용어들은 발명을 설명하기 위해 선택된 일반적인 용어들이나, 유사한 의미를 갖는 다른 용어가 있는 경우 보다 적절한 해석을 위해 대체 가능할 것이다. 예를 들머, 신호, 데이터, 샘플, 픽쳐, 프레임, 블록 등의 경우 각 코딩 과정에서 적절하게 대체되어 해석될 수 있을 것이다. 또한, 본 명세서에서 설명되는 실시예들의 개념과 방법들은, 다른 실시예들에도 적용가능하며, 본 명세서에서 모두 명시하여 기재하지 않더라도 본 발명의 기술적 사상 범위 내에서 각 실시예들의 조합도 적용가능할 것이다. 도 1 및 도 2는 각각 미디어 코딩이 수행되는 인코더와 디코더의 개략적인 블록도를 나타낸다.
상기 도 1의 인코더 (100)는 변환부 (110), 양자화부 (120), 역양자화부 (130), 역변환부 (140), 지연부 (150), 예측부 (160) 및 엔트로피 인코딩부 (170)를 포함하고, 상기 도 2의 디코더 (200)는 엔트로피 디코딩부 (210), 역양자화부 (220) 역변환부 (230), 지연부 (240) 및 예측부 (250)를 포함한다. 상기 인코더 (100)는 원 영상 신호 (original video signal)를 수신하고, 상기 원 영상 신호에서 예측부 (160)로부터 출력된 예측 신호 (predict ion signal)를 감산하여 예측 에러를 생성한다. 상기 생성된 예측 에러는 변환부 (110)로 전송되고, 상기 변환부 (110)는 상기 예측 에러에 변환 기법을 적용하여 변환 계수를 생성한다.
예를 들어, 상기 변환 기법 중에는 블록 기반 변환 방법과 이미지 기반 변환 방법이 있을 수 있다. 상기 블록 기반 변환 방법의 예로는 이산 여현 변환 (Discrete Cosine Transform) , 카루넨—루브 변환 (KarhuherHLoeve Transform) 등을 들 수 있다. 여기서, 상기 이산 여현 변환 (DCT)이란 공간 도메인 (spatial domain) 상의 신호를 2차원 주파수 성분으로 분해 (변환)하는 것을 나타낸다. 블록 내에서 좌측상단으로 갈수록 낮은 주파수 성분을 가자고, 우측하단으로 갈수록 높은 주파수 성분을 갖는 패턴을 이룬다. 예를 들어, 64개의 2차원의 주파수 성분 중 가장 좌측상단에 존재하는 1개만이 직류성분 (DC: Direct Current)으로 주파수가 0인 성분이며, 나머지는 교류성분 (AC: Alternate Current)으로 낮은 주파수 성분부터 높은 주파수 성분까지 63개로 구성된다. 상기 이산 여현 변환 (DCT)을 수행한다는 것은 원 영상 신호의 블록에 포함된 기저성분 (64개의 기본 패턴 성분)들 각각의 크기를 구하는 것이며, 이 크기는 이산 여현 변환 계수이다.
또한, 상기 이산 여현 변환 (DCT)은 단순히 원 영상 신호 성분으로 표현하기 위하여 사용되는 변환으로, 역변환시 주파수 성분으로부터 원래의 영상 신호로 완전히 복원된다. 즉, 영상의 표현 방법만을 바꾸는 것으로, 증복된 정보를 포함해 원 영상에 포함된 모든 정보를 모두 보존한다. 원 영상 신호를 이산 여현 변환 (DCT)하는 경우, 원 영상 신호의 진폭 분포와 달리 이산 여현 변환 (DCT) 계수는 0 근처의 값에 몰려서 존재하게 되므로 이를 이용하여 높은 압축효과를 얻을 수 있게 된다.
양자화부 (120)는 변환 계수 (transform coef f icient )를 양자화하여 엔트로피 인코딩부 (170)로 전송하고, 상기 엔트로피 인코딩부 (170)는 양자화된 신호 (quantized signal)를 엔트로피 코딩하여 출력한다.
한편, 상기 양자화부 (120)로부터 출력된 양자화된 신호 (quantized signal)는 예측 신호를 생성하기 위해 이용될 수 있다. 예를 들어, 상기 양자화된 신호 (quantized signal)는 루프 내의 역양자화부 (130) 및 역변환부 (140)를 통해 역양자화 및 역변환을 적용함으로써 예측 에러로 복원될 수 있다. 상기 복원된 예측 에러를 예측부 (160)로부터 출력된 예측 신호 (predict ion signal)에 더함으로써 복원 신호 (reconstructed signal)가 생성될 수 있다.
지연부 (150)는 상기 예측부 (160)에 의한 향후의 참조 (future reference)를 위해 상기 복원 신호를 저장하고, 상기 예측부 (160)는 상기 지연부 (150)에 저장된 이전에 복원된 신호 (previously reconstructed signal)를 이용하여 예측 신호 (prediction signal)를 생성하게 된다. 도 2의 디코더 (200)는 상기 도 1의 인코더 (100)로부터 출력된 신호를 수신하고, 수신된 신호는 엔트로피 디코딩부 (210)를 통해 엔트로피 디코딩된다. 역양자화부 (220)에서는 양자화 스텝 사이즈 정보를 이용하여 엔트로피 디코딩된 신호로부터 변환 계수를 획득하고, 역변환부 (230)에서는 상기 변환 계수를 역변환하여 예측 에러를 획득하게 된다. 상기 획득된 예측 에러를 상기 예측부 (250)로부터 출력된 예측 신호 (predict ion signal)에 더함으로써 복원 신호 (reconstructed signal)가 생성된다.
상기 지연부 (240)는 상기 예측부 (250)에 의한 향후의 참조 (future reference)를 위해 상기 복원 신호를 저장하고, 상기 예측부 (250)는 상기 지연부 (240)에 저장된 이전에 복원된 신호 (previously reconstructed signal)를 이용하여 예측 신호 (predict ion signal)를 생성하게 된다. 상기 도 1의 인코더 (100)와 상기 도 2의 디코더 (200)는 예측 코딩, 변환 코딩 및 하이브리드 코딩이 적용될 수 있다. 예측 코딩과 변환 코딩의 각각의 장점을 결합한 것을 하이브리드 코딩이라 한다.
예측 코딩은 매번 개별 샘플들에 적용될 수 있으며, 사실상 예측을 위한 가장 강력한 방법은 순환 구조를 갖는 것이다. 이러한 순환 구조는 가장 가까운 값을 이용할 때 가장 잘 예측될 수 있다는 사실에 기초한다. 즉, 예측값이 코딩된 이후, 다른 값을 예측하는데 바로 이용될 경우에 최선의 예측이 수행될 수 있다.
그런데, 하이브리드 코딩에서 이러한 접근 방법의 이용시 문제점은 변환이 적용되기 전에 예측 레지듀얼이 그룹핑되어야 한다는 점이다. 이러한 경우, 신호가 정확히 복원될 수 없기 때문에 순환 구조의 예측은 에러 축적의 증가를 불러을 수 있다.
기존 하이브리드 코딩에서는 두 직교 차원 (orthogonal dimens ion)에서 예측과 변환을 분리하였다. 예를 들어, 비디오 코딩의 경우, 시간 영역에서 예측을 적용하고, 공간 영역에서 변환을 적용하였다. 또한, 기존 하이브리드 코딩에서는 이미 코딩된 블록 내 데이터로부터만 예측을 수행하였다. 이는 에러 전파를 없앨 수는 있지만, 예측 과정에서 블록 내 몇몇 데이터 샘플들과 더 작은 통계적 상관관계를 갖는 데이터를 이용하도록 강요하게 되어 성능을 감소시키는 단점이 있다.
따라서, 본 발명에서는, 예측 과정에서 이용될 수 있는 데이터에 대한 제한 사항을 제거하고, 예측 코딩과 변환 코딩의 장점을 통합하는 새로운 하이브리드 코딩의 형태를 가능하게 함으로써 이러한 문제를 해결하고자 한다.
또한, 본 발명에서는 변환 도메인 상에서 픽셀 간 상관 관계를 고려하는 조건부 비선형 변환 (Condi t ional ly Nonl inear Transform) 방법을 제공함으로써 압축 효율을 향상시키고자 한다. 도 3 및 도 4는 본 발명이 적용되는 실시예들로써, 각각 향상된 코딩 방법이 적용되는 인코더와 디코더의 개략적인 블록도를 나타낸다.
기존 코덱에서 N개의 데이터에 대해 변환 계수 (transform coef f i cient )들을 획득하고자 하는 경우, N개의 원본 데이터 (or iginal data)로부터 N개의 예측 데이터를 한꺼번에 뺀 후 획득된 N개의 레지듀얼 데이터 (res idual data) 또는 예측 에러 (predi ct ion error )에 대해 변환 코딩 ( transform coding)을 적용하게 된다ᅳ 이러한 경우, 예측 과정과 변환 과정이 순차적으로 이루어진다ᅳ
그러나, N개의 픽샐들로 이루어진 영상 데이터에 대해 픽샐 단위로 가장 최근에 복원한 데이터를 가지고 예측을 수행하면 가장 정확한 예측 결과를 얻올 수 있을 것이다. 이러한 이유로, N개 픽셀 단위로 예측과 변환을 순차적으로 적용하는 것은 최적의 코딩 방식이라고 할 수 없을 것이다.
한편, 픽셀 단위로 가장 최근에 복원한 데이터를 얻기 위해서는 이미 획득된 변환 계수 (transform coef f i ci ent )들에 대해 역변환을 수행하여 레지듀얼 데이터를 복원하고, 이후 예축 데이터와 더해야 한다. 하지만, 기존의 코딩 방식에서는 N개의 데이터에 대해 예측이 끝나야만 변환을 적용하여 변환 계수 (transform coef f i cient )들을 획득할 수 있으므로, 픽셀 단위로 데이터를 복원하는 것 자체가 불가능하다.
따라서, 본 발명에서는 이전에 복원된 신호와 컨텍스트 신호를 이용하여 변환 계수를 획득하는 방법을 제안한다. 상기 도 3의 인코더 (300)는 최적화부 (310), 양자화부 (320) 및 엔트로피 인코딩부 (330)를 포함하고, 상기 도 4의 디코더 (400)는 엔트로피 디코딩부 (410), 역양자화부 (420), 역변환부 (430) 및 복원부 (440)를 포함한다.
도 3의 인코더 (300)를 살펴보면, 최적화부 (310)에서는 최적화된 변환 계수를 획득한다. 상기 최적화부 (310)는 최적화된 변환 계수를 획득하기 위해 다음과 같은 실시예들을 적용할 수 있다.
먼저, 본 발명이 적용되는 실시예를 설명하기 위해, 신호를 복원하기 위한 복원 함수를 다음과 같이 정의할 수 있다.
[수학식 1]
= R(c,y)
여기서, S는 복원 신호를 나타내고, c는 디코딩된 변환 계수를 나타내며, y는 컨텍스 H 신호를 나타낸다. R"(c,y)는 복원 신호를 생성하기 위해 c와 y를 이용하는 비선형 복원 함수 (nonlinear reconstruction function)를 나타낸다.
본 발명이 적용되는 일실시예로써, 최적화된 변환 계수를 획득하기 위해 향상된 비선형 예측자 (advanced non-linear predictor)를 생성하는 방법을 제안한다.
본 실시예에서, 예측 신호는 이미 복원된 값들과 변환 계수와의 관계로 정의될 수 있다. 즉, 본 발명이 적용되는 인코더 및 디코더는 예측 과정을 수행할 때 이미 복원된 모든 신호를 고려하여 최적의 예측 신호 (optimized prediction signal)를 생성할 수 있다. 또한, 상기 예측 신호를 생성하기 위한 예측 함수로써 비선형 예측 함수 (non-linear prediction function)를 적용할 수 있다. 따라서, 각각의 디코딩된 변환 계수들은 전체 복원 과정에 영향을 미치고, 예측 에러 백터에 포함되어 있는 예측 에러의 제어를 가능하게 한다. 예를 들어, 예측 에러 신호는 다음과 같이 정의될 수 있다.
[수학식 2]
e = Tc
여기서, e는 예측 에러 신호를 나타내고, c는 디코딩된 변환 계수를 나타내며, T는 변환 행렬을 나타낸다.
이때, 복원 신호는 다음과 같이 정의될 수 있다.
[수학식 3]
Figure imgf000018_0001
= Rn(en'y' ^l' ^2 ·" ' ᅳ 1) 여기서, n 는 n번째 복원 신호를 나타내고, en 은 n번째 예측 에러 신호를 나타내며, y는 컨텍스트 신호 (context signal)를 나타낸다. Rn 은 복원 신호를 생성하기 위해 en 과 y를 이용하는 비선형 복원 함수를 나타낸다.
예를 들어, 상기 비선형 복원 함수 Rn 은 다음과 같이 정의될 수 있다.
[수학식 4]
Figure imgf000018_0002
02,y, ) = P20,쪼 i) + e2 ien,y,x , = P„0, i,¾…' „-i) + en 여기서, Pn 은 예측 신호를 생성하기 위해 상기 변수들로 구성된 비선형 예즉 함수 (non一 1 inear predict ion functkm)를 나타낸다.
상기 비선형 예측 함수 (non-linear prediction function)로는, 예를 들어, 미디언 함수 (median function)이거나, 탱크 오더 필터 (rank order filter) 또는 비선형 함수의 결합뿐만 아니라 선형 함수들의 조합일 수 있다. 그리고, 상기 비선형 예측 함수 (non— linear prediction function) Pn ()은 각각 서로 다른 비선형 함수일 수 있다. 다른 일실시예로, 본 발명아 적용되는 인코더 (300) 및 디코더 (400)는 상기 비선형 예측 함수 (non-linear prediction function)를 선택하기 위한 후보 함수들의 저장소를 포함할 수 있다.
예를 들어, 상기 최적화부 (310)는 최적의 변환 계수 (optimized transform coefficient)를 생성하기 위해 최적의 비선형 예측 함수를 선택할 수 있다. 이때 상기 최적의 비선형 예측 함수는 상기 저장소에 저장된 후보 함수들로부터 선택될 수 있다. 이에 대해서는 도 7 및 도 8에서 보다 상세히 설명하도록 한다. 상기와 같이, 최적꾀 비선형 예측 함수를 선택함으로써 상기 최적화부 (310)는 최적의 변환 계수 (optimized transform coef f icient )를 생성할 수 있다.
한편, 출력된 변환 계수는 양자화부 (320)로 전송되고, 상기 양자화부 (320)는 상기 변환 계수를 양자화하여 엔트로피 인코딩부 (330)로 전송한다.
상기 엔트로피 인코딩부 (330)는 상기 양자화된 변환 계수를 엔트로피 인코딩하여 압축된 비트스트람을 출력할 수 있게 된다. 도 4의 디코더 (400)는 상기 도 3의 인코더로부터 출력된 비트스트림을 수신하여, 엔트로피 디코딩부 (410)를 통해 엔트로피 디코딩을 수행하고, 역양자화부 (420)를 통해 역양자화를 수행할 수 있다. 이때, 역양자화부 (420)를 통해 출력된 신호는 최적화된 변환 계수를 의미할 수 있다.
역변환부 (430)는 상기 최적화된 변환 계수를 수신하여 역변환 과정을 수행하며, 상기 역변환 과정을 통해 예측 에러 신호를 생성하게 된다.
복원부 (440)에서는 상기 예측 에러 신호와 예측 신호를 합하여 복원 신호를 생성하게 된다. 이때, 상기 예측 신호의 경우, 상기 도 3에서 설명한 다양한 실시예들이 적용될 수 있다. 도 5는 본 발명이 적용되는 실시예로써, 향상된 비디오 코딩 방법을 설명하기 위한 개략적인 흐름도를 나타낸다.
언코더에서는 모든 이전에 복원된 신호와 컨텍스트 신호 중 적어도 하나에 기초하여 복원 신호를 생성할 수 있다 (S510) . 여기서, 상기 컨텍스트 신호는 이전에 복원된 신호, 이전에 복원된 인트라 코딩된 신호, 현재 프레임의 이미 복원된 부분 또는 복원될 신호의 디코딩과 관련된 다른 정보 중 적어도 하나를 포함할 수 있다. 상기 복원 신호는 예측 신호와 예측 에러 산호의 합으로 이루어질 수 있고, 상기 예측 신호와 상기 예측 에러 신호 각각은 이전에 복원된 신호와 컨텍스트 신호 중 적어도 하나에 기초하여 생성될 수 있다.
인코더는 최적화 함수를 최소화하는 최적의 변환 계수를 획득할 수 있다 (S520) . 여기서, 상기 최적화 함수는 왜곡 성분, 레이트 성분 및 라그랑즈 승수 (Lagrange mul t ipl i er ) λ를 포함할 수 있다. 상기 왜곡 성분은 원 비디오 신호와 복원 신호 간의 차이로 구성될 수 있고, 상기 레이트 성분은 이전에 획득된 변환 계수를 포함할 수 있다. λ는 왜곡 성분과 레이트 성분의 균형을 유지하는 실수를 나타낸다.
상기 획득된 변환 계수는 양자화 및 엔트로피 인코딩을 통해 디코더로 전송된다 (S530) .
한편, 디코더에서는 전송된 변환 계수를 수신하여, 엔트로피 디코딩, 역양자화 및 역변환 과정을 통해 예측 에러 백터를 획득하게 된다. 디코더 내의 예측부에서는 이미 복원된 이용가능한 모든 샘플을 이용하여 예측 신호를 생성하게 되며, 예측 신호와 복원된 예측 에러 백터에 기초하여 비디오 신호를 복원할 수 있다. 이때, 예측 신호를 생성하는 과정은 상기 인코더에서 설명한 실시예들이 적용될 수 있다. 도 6은 본 발명이 적용되는 실시예로써, 최적의 변환 계수를 생성하기 위해 이미 복원된 신호와 컨텍스트 신호를 이용하는 비디오 코딩 방법을 설명하기 위한 흐름도이다.
본 발명은 이미 복원된 신호 (previous ly reconstructed s ignal ) (xi, , … , ^ - 와 컨텍스트 신호 (context signal )를 이용하여 예측 신호를 생성할 수 있다 (S610) . 예를 들어, 상기 이미 복원된 신호 (previously reconstructed signal )는 상기 수학식 3에서 정의된 ¾ ,… , ¾— i를 의미할 수 있다. 그리고, 상기 예측 신호를 생성하기 위해서는 비선형 예측 함수가 적용될 수 있으며, 각각의 예측 신호에는 서로 다른 비선형 예측 함수가 적웅적으로 적용될 수 있다. 상기 예측 신호는 수신된 예측 에러 신호 (e(i))에 합산되어 (S620), 복원 신호를 생성하게 된다 (S630). 이때, 상기 S620 단계는 가산기 (Adder) (미도시)를 통해 수행될 수 있다. 상기 생성된 복원 신호 는 향후의 참조 (future reference)를 위해 저장될 수 있다 (S640). 이렇게 저장된 신호는 계속해서 다음 예측 신호를 생성하기 위해 이용될 수 있다.
이와 같이, 예측 신호를 생성하는 과정에서 이용가능한 데이터에 대한 제한 사항을 제거함으로써, 즉 이미 복원된 모든 신호를 이용하여 예측 신호를 생성함으로써 보다 향상된 압축 효율을 제공할 수 있게 된다.
이하에서는, 상기 S610 단계의 예측 신호를 생성하는 과정에 대해 보다 상세히 살펴보도록 한다. 도 7은 본 발명이 적용되는 실시예로써, 최적의 변환 계수를 생성하기 위해 이용되는 예측 신호를 생성하는 과정을 설명하기 위한 흐름도이다.
상기 도 6에서 설명한 바와 같이, 본 발명은 이미 복원된 신호 (previously reconstructed signal )( x i, X2, … , n— ι)와 컨텍스트 신호 (context signal}를 이용하여 예측 신호 (ρ(η)를 생성할 수 있다 (S710). 이때, 상기 예측 신호를 생성하기 위해 최적의 예측 함수 (f(k))의 선택이 필요할 수 있다.
상기 생성된 예측 신호를 이용하여 복원 신호 (Sn)를 생성할 수 있고 (S720), 상기 생성된 복원 신호 는 향후의 참조 (future reference)를 위해 저장될 수 있다 (S730).
따라서, 상기 최적의 예측 함수를 선택하기 위해 이미 복원된 모든 신호들 O , X2, … S^) 및 컨텍스트 신호 (context signal)가 이용될 수 있다. 예를 들어, 본 발명은 왜곡 측정값과 레이트 측정값의 합을 최소화하는 후보 함수를 찾음으로써 최적의 예측 함수를 선택할 수 있다 (S740).
여기서, 왜곡 측정값은 원 영상 신호와 복원 신호 간의 왜곡을 측정한 값을 나타내고, 레이트 측정값은 변환 계수를 전송하거나 저장하기 위해 필요한 레이트를 측정한 값을 나타낸다.
보다 구체적으로, 본 발명은 아래의 수학식 5를 최소화하는 후보 함수를 선택함으로써 상기 최적의 예측 함수를 획득할 수 있다.
[수학식 5] c* = argmin { (x, (c)) + R(c)}
c1 .1,---,cne:0.n
여기서, c*는 상기 수학식 5를 최소화하는 c값, 즉 디코딩된 변환 계수를 나타낸다. 그리고, D(x, (c))는 원 영상 신호와 그 복원 신호 간의 왜곡 측정값을 나타내고, R(c)는 변환 계수 c를 전송하거나 저장하기 위해 필요한 레이트 측정값을 나타낸다.
예를 들어, D(x,x(c)) = llx-x(c)llq (q=0, 0.1, 1, 1.2, 2, 2.74, 7 etc)일 수 있고, R(c)는 허프만 코더 (Huffman coder)나 산술 코더 (arithmet ic coder)와 같은 엔트로피 코더를 이용해서 변환 계수 c를 저장하기 위해 이용되는 비트수를 나타낼 수 있다. 또는, R(c)는 라플라시안 (Laplacian)이나 가우시안 확를 모델 (Gaussian probability model), R(c) = 11 x - x(c)lk (τ= 0, 0.4, 1, 2, 2.2, etc)과 같은 분석 레이트 모델 (analytical rate model)에 의해 예측되는 비트수를 나타낼 수 있다. 한편, λ는 인코더 최적화에서 이용되는 라그랑즈 승수 (Lagrange multiplier)를 나타낸다. 예를 들어, λ는 왜곡 측정값과 레이트 측정값의 균형을 유지하는 실수를 나타낼 수 있다. 도 8은 본 발명이 적용되는 실시예로써, 최적의 변환 계수를 획득하는 방법을 설명하기 위한 흐름도이다.
본 발명은 왜곡 측정값과 레이트 측정값의 합을 최소화하는 최적의 변환 계수를 획득함으로써 보다 향상된 코딩 방법을 제공할 수 있다.
먼저, 인코더는 왜곡 측정값과 레이트 측정값의 합을 최소화하는 최적의 변환 계수를 획득할 수 있다 (S810). 예를 들어, 상기 왜곡 측정값과 상기 레이트 측정값의 합은 상기 수학식 5의 수식이 적용될 수 있다. 이때, 입력 신호로는 원 영상 신호 (X), 이미 복원된 신호 (X), 이전에 획득된 변환 계수 및 라그랑즈 승수 (Lagrange multiplier, λ) 중 적어도 하나가 이용될 수 있다. 여기서, 이미 복원된 신호는 이전에 획득된 변환 계수에 기초하여 획득된 것일 수 있다.
상기 최적의 변환 계수 (c)는 역변환 과정을 통해 역변환되고 (S820), 예측 에러 신호를 획득하게 된다 (S830).
상기 인코더는 상기 획득된 에러 신호를 이용하여 복원 신호 (50를 생성하게 된다 (S840). 이때, 상기 복원 신호 (50를 생성하기 위해 컨텍스트 신호 (context signal)가 이용될 수 있다.
상기 생성된 복원 신호는 다시 왜곡 측정값과 레이트 측정값의 합을 최소화하는 최적의 변환 계수를 획득하기 위해 이용될 수 있다.
이와 같이, 최적의 변환 계수는 업데이트되며, 복원 과정을 통해 다시 새로운 최적화된 변환 계수를 획득하기 위해 이용될 수 있다.
이러한 과정은 상기 인코더 (300)의 최적화부 (310)에서 수행될 수 있다. 상기 최적화부 (310)에서는 새롭게 획득된 변환 계수를 출력하고, 출력된 변환 계수는 양자화 및 엔트로피 인코딩 과정을 통해 압축되어 전송된다. 본 발명의 일실시예에서, 최적의 변환 계수를 획득하기 위해 예측 신호가 이용되며, 상기 예측 신호는 이미 복원된 신호들과 변환 계수의 관계로 정의될 수 있다. 여기서, 상기 변환 계수는 상기 수학식 2에 의해 설명될 수 있고, 상기 수학식 2 및 수학식 3에서처럼, 각각의 변환 계수는 전체 복원 과정에 영향을 미칠 수 있고, 예측 에러 백터 내에 포함된 예측 에러의 폭넓은 제어를 가능하게 할 수 있다. 본 발명의 일실시예로, 복원 과정은 선형적인 것으로 제한될 수 있다. 그러한 경우, 복원 신호는 다음 수학삭 6과 같이 정와될 수 있다.
[수학식 6]
X = F T c + H y
여기서ᅳ S는 복원 신호를 나타내고, c는 디코딩된 변환 계수를 나타내며, y는 컨텍스트 신호를 나타낸다. 그리고, F\ T, ff는 ΐϊ X n 행렬을 나타낸다. 본 발명의 일실시예로, 변환 계수에 포함된 양자화 에러를 제어하기 위해 n X n 행렬 S를 이용할 수 있다. 이 경우, 복원 신호는 다음과 같이 정의될 수 있다. [수학식 7]
x = F S T c + H y
양자화 에러를 제어하기 위한 행렬 S는 다음의 수학식 8의 최소화 과정을 이용하여 획득할 수 있다.
[수학식 8]
mn{∑xeT minCi6ni...Cnenn{D(x, ( )) + R(c }}
여기세 T 는 훈련 신호 (training signal)를 나타내고, 변환 계수 c는 n차원 백터로 정렬된다. 변환 계수 성분들은 Ci 6 Ω; 를 만족한다. 여기서, Ωί는 일련의 이산 값 (discrete value)을 나타내고, 는 일반적으로 정수값이 적용된 역양자화 과정을 통해 결정된다. 예를 들어, Ω ; = {— 3ᅀ i,— 2ᅀ ᅀ ί,0Δί,2Δί,3ᅀ .}일 수 있고, 여기서, ᅀ i는 일정한 양자화 스템 사이즈 (Liniform quantization step size)를 나타낸다. 그리고, 상기 변환 계수 각각은 다른 양자화 스템 사이즈를 가질 수 있다.
본 발명의 일실시예로, 상기 수학식 7의 n X n 행렬 5, 는 훈련 신호에 대해 공동 최적화될 수 있다. 상기 공동 최적화 방법은 다음 수학식 9를 최소화함으로써 수행될 수 있다.
[수학식 9]
minf;WAeA{min{∑¾eT mmCie£li ...iCne[ln{D(x,x(c)) + AR(c)}}}} 여기서, Λ = {Uy,^}는 제한 승수 (constraint niultipl iers)의 타겟 셋 (target set)을 나타내고, L은 정수 (integer )이다. 그리고, λ에서의 복원 함수는 다음 수학식과 같이 형성될 수 있다.
[수학식 10] ¾ = FS Tc + Hy
도 9 및 도 10은 본 발명이 적용되는 실시예들로, 픽쳐 그룹 (GOP, Group of Picture)에 대해 시공간 변환 (spat iotemporal transform)을 적용하는 방법을 설명하기 위한 개념도이다.
본 발명은 V개의 프레임을 포함하는 픽쳐 그룹 (G0P)에 대해 시공간 변환을 적용할 수 있다. 이 경우, 예측 에러 신호와 복원 신호는 다음과 같이 정의될 수 있다.
[수학식 11]
e = Tstc
[수학식 12]
Figure imgf000027_0001
R2(e2,y,x1) = P2(y, Xi) + e2
여기서, 7^는 시공간 변환 (spat iotemporal transform) 행렬을 나타내고, c는 전체 픽쳐 그룹에 대한 디코딩된 변환 계수를 포함한다.
그리고, ^는 프레임에 대웅되는 에러 값들로 형성된 에러 백터를 나타낸다. 어, V개의 프레임을 갖는 픽쳐 그룹에 대한 에러의 경 로
Figure imgf000027_0002
정의될 수 있다. 여기서, 상기 에러 백터 e 는 상기 V개의 프레임을 갖는 픽쳐 그룹 (G0P) 전체에 대한 에러 값들을 모두 포함할 수 있다.
그리고, 5ίη 는 η번째 복원 신호를 나타내고, y는 컨텍스트 신호 (context signal )를 나타낸다. Rn 은 복원 신호를 생성하기 위해 en 과 y를 이용하는 비선형 복원 함수를 나타내고, Pn 은 예측 신호를 생성하기 위한 비선형 예측 함수 (non— l inear predi ct ion funct ion)를 나타낸다 . 상기 도 9는 일반적인 공간 도메인에서의 변환 방법을 설명하기 위한 도면이고, 상기 도 10은 픽쳐 그룹에 대해 시공간 변환을 적용하는 방법을 설명하기 위한 도면이다.
상기 도 9를 살펴보면, 기존 코딩 방식의 경우 I프레임 및 P프레임의 에러 값에 대해 각각 독립적으로공간 도메인에서의 변환 코드를 생성하였음을 확인할 수 있다.
반면, 본 발명이 적용되는 도 10의 경우, I프레임 및 P프레임의 에러 값들에 대해 공동 시공간 변환 ( joint spat iotemporal transform)을 함께 적용함으로써 보다 코딩 효율을 향상시킬 수 있다. 즉, 상기 수학식 12에서 확인할 수 있는 것처럼, 복원 신호를 생성할 때 공동 시공간 변환된 (joint spat iotemporal transformed) 에러 백터가 순환 구조로 이용됨으로써 매끄럽지 않거나 (non- smooth) 비정지적인 (non-stat ionary) 신호를 포함하는 고화질 영상에 대해 보다 효율적으로 코딩할 수 있다. 도 11 내지 도 12는 본 발명이 적용되는 실시예들로써, 주변 픽샐을 이용하여 현재 블록의 첫번째 라인 (행, 열)의 예측 신호를 생성하는 방법을 설명하기 위한 도면이다.
본 발명의 실시예는, N 개의 픽셀들로 이루어진 영상 데이터에 대해 픽셀 단위로 가장 최근에 복원한 데이터를 이용하여 예측하는 방법을 제공한다.
N 개의 데이터에 대해 변환 계수 (transform coef f ici ent )를 구하는 경우, N 개의 원본 데이터로부터 N개의 예측 데이터를 한꺼번에 뺀 후 구해진 N개의 레지듀얼 (residual ) 데이터에 대해 변환 코딩 ( transform coding)을 적용하게 된다. 따라서, 예측 과정과 변환 과정이 순차적으로 이루어진다. 하지만, N 개의 픽셀들로 이루어진 영상 데이터에 대해 픽셀 단위로 가장 최근에 복원한 데이터를 이용하여 예측할 경우 가장 정확한 예측 결과를 획득할 수 있다. 따라서, N 개의 픽샐 단위로 예측과 변환을 순차적으로 적용하는 것은 최적의 코딩 방식이라고 할 수 없을 것이다.
픽셀 단위로 가장 최근에 복원한 데이터를 얻기 위해서는 이미 구해진 변환 계수들을 이용하여 역변환 ( inverse transform)을 수행한 뒤, 레지듀얼 (res idual ) 데이터를 복원한 후 예측 데이터와 더해야 한다. 하지만, 기존의 코딩 방식에서는 N 개의 데이터에 대해 예측이 끝나야만 변환을 적용하여 변환 계수들을 획득할 수 있으므로, 픽셀 단위로 데이터를 복원하는 것이 불가능하다. 그러나, 아래 수학식 13에서와 같이 원본 데이터에 ( N X 1 백터) 대한 예측 과정이 참조 데이터 ^와 N X 1 레지듀얼 백터 (res idual vector ) 尸의 관계식으로 표현될 수 있다고 한다면, 아래 수학식 14와 수학식 15로부터 변환 계수를 한 번에 구할 수 있다.
[수학식 13]
x = Fr + Bx0
[수학식 14]
X = FTc + Bx0 [수학식 15]
xR = x - Bx0 = Gc c = G~]xR
즉, 예측 과정에서 이용가능하지 않은 변환 계수들을 /라는 미지수로 두고 방정식을 통해 역으로 尸을 획득하는 방법이라 할 수 있다. 가장 최근에 복원한 픽셀 데이터를 이용하여 예측하는 과정은 상기 수학식 13에서의 f 행렬을 통해 기술될 수 있으며, 이는 앞서 설명한 바와 같다. 또한, 앞서 설명한 실시예들에서는, 상기 수학식 15에서와 같이 행렬을 곱하여 변환 계수를 구하는 것이 아니라, 반복적인 ( i terat ive) 최적화 알고리즘을 통해 양자화 (quant i zat ion)까지 한꺼번에 수행하는 방법을 설명한 바 있다.
그러나, 일반적으로 N X N 원본 이미지 블록에 대해 상기의 방법을 적용하기 위해서는, 해당 원본 이미지 블록을 N2 X 1의 _ 백터로 변환하는 과정이 필요하며 각 예측 모드 별로 Ν2 X Ν2의 G 행렬이 필요할 수 있다. 따라서 본 발명에서는 예측 방향을 제한하여 Ν X Ν 변환만을 이용하여 CNT 알고리즘을 적용하는 방식을 제안한다. 앞선 CNT (Condi t i onal ly Nonl inear Transform) 실시예에서는 N x N 블록에 대해 예측 모드마다 N2 X N2 비직교 변환 (non-orthogonal transform)을 구성한 후 N X N 블록으로부터 행 순서화 (row order ing) 또는 열 순서화 (column order ing)을 통해 정렬한 N2 x 1 백터에 대해 대웅되는 비직교 변환 (non- orthogonal transform)에 적용하여 변환 계수들올 구하였다. 그러나, 이러한 실시예들은 다음과 같은 단점들을 갖는다.
1) N2 X N2 변환이 필요하므로 N이 커질 경우 계산량이 많아지고 변환 계수를 저장하기 위한 메모리 공간이 크게 요구된다. 따라서, N에 대한 스케일러빌리티 (scalabi l i ty)가 떨어진다.
2) 예측 모드마다 해당 N2 X N2 비직교 변환 (non-orthogonal transform)이 필요하게 된다. 따라서, 모든 예측 모드들에 대한 변환 계수들을 저장하기 위해 큰 메모리 저장 공간이 필요할 수 있다. 상기 문제들로 인해 CNT를 적용할 수 있는 블록의 크기에 현실적인 제약이 가해질 수 있다. 따라서, 본 발명은 다음과 같은 향상된 실시예들을 제안한다. 첫째, 본 발명의 일실시예는 모든 픽셀 위치에 대해 복원된 픽셀 (reconstructed pixel )을 참조하는 방향을 가로 또는 세로 어느 한 방향으로 제한하는 방법을 제공한다.
예를 들어, N X N 블록에 대해 N2 X N2 변환 행렬 대신 N X N 변환 행렬을 적용할 수 있다. 이러한 N X N 변환 행렬은 N X N 블록의 열 (row)들과 행 (column)들에 대해 순차적으로 적용하게 되므로 본 발명에서의 CNT를 분리 가능한 조건부 비선형 변환 (Separable CNT)이라고 명명하였다.
둘째, 본 발명의 일실시예는 현재 블록의 첫번째 라인 (행, 열)에 대해서만 예측 모드를 고려하여 예측하고, 나머지 픽셀들에 대해서는 가로 또는 세로 방향의 인접한 복원된 픽셀 (reconstructed pixel )을 이용하는 방법을 제공한다. 참조하게 되는 인접한 복원된 픽셀 (reconstructed pixel )은 이미 본 발명이 적용된 레지듀얼 데이터 (res idual data)에 기초하여 복원된 값아므로, 상기 복원된 픽셀을 참조하는 현재 위치에서의 픽셀은 적용되는 예측 모드와의 (e .g. 인트라 예측 방향성 모드 ( intra-predi ct ion angular mode) ) 연관성이 매우 줄어든 상태이다. 따라서, 이와 같은 방법을 통해 예측의 정확도를 향상시킬 수 있다. 인트라 예측에서는 예측 모드에 기반하여 현재 블록에 대한 예측을 수행한다. 예측 모드에 따라 예측에 사용되는 참조 샘플과 구체적인 예측 방법이 달라지므로, 현재 블록이 인트라 예측 모드로 인코딩된 경우, 디코더는 예측을 수행하기 위해 현재 블록의 예측 모드를 획득할 수 있다.
디코더는 현재 블록의 주변 샘플들 (neighboring samples)이 예측에 사용될 수 있는지 확인하고, 예측에 사용할 참조 샘플들을 구성할 수 있다.
예를 들어, 도 11을 살펴보면, 현재 블록의 주변 샘플들은 N X N 크기의 현재 블록의 좌측 (left) 경계에 인접한 샘플 및 좌하측 (bottom-left)에 이웃하는 총 2N 개의 샘플들 (Pleft), 현재 블록의 상측 (top) 경계에 인접한 샘플 및 우상측 (top— right)에 이웃하는 총 2N 개의 샘플들 (Pupper) 및 현재 블록의 좌상측 (top— left) 코너에 인접하는 1개의 샘풀 (Pcorner) 중 적어도 하나를 의미할 수 있다. 여기서, 예측 신호를 생성하기 위해 이용되는 참조 픽셀들을 Pb 라 하면, Pb 는 상기 좌측의 2N 개 샘플들 (Pleft), 상측의 2N 개의 샘플들 (Pupper) 및 좌상측 코너 샘플 (1 0„ )을 포함할 수 있다.
한편, 현재 블록의 주변 샘플들 중 일부는 아직 디코딩되지 않았거나, 이용 가능하지 않을 수 있다. 이 경우, 디코더는 이용 가능한 샘플들로 이용 가능하지 않은 샘플들을 대체(5111)3 1 01)하여 예측에 사용할 참조 샘플들을 구성할 수 있다.
상기 도 11 및 도 12에서와 같이, N X N 현재 블록의 주변 픽샐들 (Pb)을 이용하여 현재 블록의 첫번째 라인 (행, 열)에 대한 예측값을 구할 수 있다. 여기서, 상기 예측값은 아래 수학식 16과 같이 주변 픽셀들 (Pb)과 예측 모드의 함수로 표현될 수 있다.
[수학식 16]
Figure imgf000033_0001
여기서, mode는 인트라 예측 모드를 나타내고, 함수 f ( )는 인트라 예측을 수행하는 방법을 나타낸다.
상기 수학식 16을 통해 현재 블록의 첫번째 라인 (행, 열)에 대한 예측값을 획득할 수 있다. 도 13 내지 도 14는 본 발명이 적용되는 실시예들로써, 현재 블록의 첫번째 라인 (행, 열)의 예측 신호에 기초하여 현재 블록을 복원하는 방법을 설명하기 위한 도면이다.
상기 수학식 16을 통해 현재 블록의 첫번째 라인에 대한 예측값 (predi ctor )이 정해지게 되면, 상기 현재 블록의 첫번째 라인에 대한 예측값 (predi ctor )을 이용하여 N x N 현재 블록의 픽셀들을 복원할 수 있다. 이때, 상기 현재 블록의 복원 픽셀들은 다음 수학식 17 및 수학식 18에 기초하여 결정될 수 있다. 수학식 17은 현재 블록의 첫번째 열에 대한 예측값 (predi ctor )을 이용하여 N x N 현재 블록의 픽샐들을 수평 방향 (우측 방향 또는 가로 방향)으로 복원하는 것을 나타내고, 수학식 18은 현재 블록의 첫번째 행에 대한 예측값 (predictor)을 이용하여 픽샐들을 수직 방향으로 복원하는 것을 나타낸다.
[수학식 17]
^ =^^ n+r/2 , i = 1, 2, …, N
XiN - Xi + 1 + 2 + . · · + ^
[수학식 18]
\/ ~ X j + /
/ = 세 , j = 1, 2, ···, N
X Nj ~ X j +
Figure imgf000034_0001
+厂 2/ + · .. +
상기 수학식 17 및 수학식 18은 블록 내 각 위치에서의 복원 픽셀 값을 결정한다.
상기 수학식 17 내지 수학식 18에서, ^ 는 레지듀얼 데이터 에 기초하여 복원되는 픽셀 값들을 의미하므로 원본 데이터와 다를 수 있으나, 원본 데이터와 같아지도록 들이 결정될 수 있다고 가정하면 현 시점에서 원본 데이터와 같다고 가정할 수 있다. 상기 도 13과 수학식 17에서와 같이, 현재 블록의 첫번째 열의 예측값에 기초하여 현재 블록의 픽셀 값들을 수평 방향 (우측 방향 또는 가로 방향)으로 예측하는 경우 다음 수학식 19가 도출될 수 있다.
[수학식 19]
X = X = RF + XQB = TC TCTRF + X0B 여기서, 상기 수학식 19는 향후 복원 데이터가 원본 데이터와 같아지도록
^이 결정될 수 있다는 가정에서 = ^으로 설정하였다. 는 원본 N x li 이미지 블록을 나타내고, 은 레지듀얼 데이터를 나타내며, ¾는 참조 데이터를 나타낸다. 상기 수학식 19의 각 기호들 (not at ions )은 아래 수학식 20 내지 수학식 23과 같이 표현될 수 있다. [수학식 20]
Figure imgf000035_0001
[수학식 21]
Figure imgf000035_0002
「 L수丁하싀ᅳ! 22]
0 . 0
0 ^2 ·· . 0
0
0 0 ..
[수학식 23]
Figure imgf000036_0001
상기 수학식 19에서 TC는 열 (column) 방향의 변환을 의미하고 (e.g. 1—D
DCT/DST) , TR 은 행 (row) 방향의 변환을 가리킨다. 레지듀얼 행렬 ^ 은 역양자화된 변환 계수 행렬 (dequantized transform coefficient matrix)인 C에 역변환 (inverse transform)을 적용함으로써 획득될 수 있으므로 다음 수학식 24와 같이 표현될 수 있다.
[수학식 24]
X R — X— 0Β— X— XQB― TC CTRF
여기서, TC , TR , F 모두 가역 행렬 (invertible matrix)이라면 C는 아래 수학식 25에 의해 구해질 수 있다. 또한, 상기 수학식 19의 F와 일반적인 직교 변환 (orthogonal transform)은 모두 가역적 (invertible)이다.
[수학식 25]
C = C XRF TR
여기서, TC , 7" fl이 직교 변환 (orthogonal transform)인 경우 상기 수학식 25는 다음 수학식 26과 같이 단순화될 수 있다.
[수학식 26]
C = T -.XRF R 여기서, 广 /는 기결정된 값일 수 있다. 예를 들어, Z71 는 미리 계산해 놓는 것이 가능하므로 DCT와 같은 변환과 함께 행 (row) 방향과 열 (column) 방향에 대해 각기 한 번의 행렬 계산으로 C을 구할 수 있다.
다른 예로, xRn 먼저 계산한 후 ^과 ^를 적용하는 것도 가능하다. 이 경우, 상기 수학식 19에서의 행렬의 경우 1는 다음 수학식 27과 같이 정해질 수 있다.
[수학식 27]
Figure imgf000037_0001
상기 수학식 27에서의 ^ 같이, X RF_、는 뺄셈 연산만으로 계산이 가능하므로 ((N-1) X N번의 뺄셈) 곱셈 연산이 불필요해진다. ^과 7" c로는 DCT나 DST와 같은 변환을 그대로 사용할 수도 있으므로, 곱셈량 관점에서 기존 코덱에 비해 계산량이 증가되지 않는다.
또한, 를 구성하는 각 성분 값의 범위 (range)도 기존 코덱에서의 범위 (range)와 동일하게 되어 , 기존 코덱에서의 양자화 (quantization) 방식을 그대로 적용할 수 있다. 이때, 범위 (Range)가 변하지 않는 이유는 다음과 같다. 상기 수학식 27의 1행렬에 의해 ς 1의 한 성분 (i번째 행, j번째 열)은 다음 수학식 28과 같이 구해질 수 있기 때문에 9bit 데이터로 표현이 가능하다.
[수학식 28]
{XR )iJ - iXR ),·.,_! = [ {X)u -x,]-[ {X)i.i_, - x, ] = (X)u -
Figure imgf000037_0002
= 9b/t 따라서, 7" fl과 로 주어지는 입력이 9bit 데이터로 결정되므로 기존 코덱에서의 변환 입력 범위 (range)와 동일하게 된다.
한편, 상기 수학식 25 및 수학식 26을 통해 획득된 C은 = ^이 되도록 하는 값으로서, 기본적으로 실수 값을 가질 수 있다. 그러나, 코딩 과정을 통해 비트스트림으로 전송되는 데이터는 양자화된 값이므로, 양자화 계수들을 구한 후 역양자화를 수행하게 되면 원래의 ^와 약간 달라진 결과 (C)를 얻게 된다. 따라서, 상기 수학식 25 및 수학식 26을 통해 데이터 손실 없이 C 를 구하기 위해서는 양자화된 변환 계수 (quantized transform coefficient)를 구해야 한다. C 를 구성하는 각 요소 (element)는 양자화 스텝 사이즈 (quantization step size)의 배수가 아닐 수 있다. 이 경우 각 요소 (element)에 대해 양자화 스텝 사이즈 (quant izat ion step size)로 나눈 후 라운딩 동작 (rounding operation)을 적용하거나, 반복적인 양자화 ( i terat ive quantization) 과정을 통해 양자화된 변환 계수 (quantized transform coefficient)를 구할 수 있다. 이후 단계에서 RD0Q(Rate— distort ion optimized quantization) 등의 인코딩 방법 (encoding scheme)을 적용하여 추가적인 RD (Rate Distortion) 최적화를 수행할 수도 있다.
양자화된 변환 계수 (quantized transform coef f icient )들을 구하는 과정에 있어서, 본 발명은 아래 수학식 29에서의 제곱 에러 (square error) 값이 최소가 되도록 하는 C 행렬을 찾을 수 있다. C의 각 요소 (element)는 양자화 스텝 사이즈 (quant izat ion step size)의 배수가 되며, 반복적인 양자화 (iterative quantization) 방법을 이용함으로써 획득될 수 있다.
[수학식 29]
Figure imgf000039_0001
여기서, norm 값은 행렬의 각 요소 (element)에 대한 제곱의 합을 구한 후 제곱 루트 (square root)를 취함으로써 획득될 수 있다. 이때, Tc 가 직교 행렬 (orthogonal matrix)인 경우 상기 수학식 29는 다음 수학식 30과 같이 단순화될 수 있다.
[수학식 30]
Figure imgf000039_0002
여기서, ( 는 최소 제곱식 (least square equation)을 풀어서 구할 수도 있고, 반복적인 양자화 (iterative quantization) 방식을 통해 구할 수도 있다. 최소 제곱식 (least square equation)의 해는 반복적인 과정 (iterative procedure)의 초기 (initial) 값이 될 수 있다. 또한, 상기 수학식 30의 G 행렬에 대해서는 매번 계산하지 않고 미리 계산된 값을 이용할 수 있다. 도 14와 수학식 18에서와 같이, 현재 블록의 첫번째 행 (row)의 픽셀들에 기초하여 수직 방향 (세로 방향 또는 아래 방향)으로 예측하는 경우, 상기 수학식 19와 유사한 형태로 다음 수학식 31과 같은 관계식을 유도할 수 있다.
[수학식 31]
Figure imgf000040_0001
여기서, R , B , X0 행렬은 상기 수학식 19에서와 동일하다. 상기 수학식 24 및 수학식 25에서와 동일한 방식으로 수학식을 정리해보면 다음 수학식 32 내지 34와 같다. 이때, Τ = 이라 가정할수 있다.
[수학식 32]
χ = χ = ίτ + βχο = FT CTR + BX0
[수학식 33]
XR = X— BX^ ~BXQ = FTc rCTR
[수학식 34]
C = {FTc TrXRTR "
여기서, 7" c와 이 직교 변환 (orthogonal transform)이라면 C는 다음 수학식 35와 같이 정해질 수 있다.
[수학식 35]
C = TCF、)< RTR
여기서, C로부터 양자화된 변환 계수 (quantized coefficient)들을 구하는 과정은 앞서 설명한 방식과 동일한 방법이 적용될 수 있다. 예를 들어, 상기 도 13 및 상기 수학식 17에서와 같이, 현재 블록의 첫번째 행 픽셀들 (맨 왼쪽 픽샐들)을 이용하여 수평 방향으로 예측하는 경우를 들 수 있다. 이때, TCF-、는 기결정된 값일 수 있다. 예를 들어, 상기 TCF—、는 고정된 값이므로 미리 계산해 놓고 사용할 수 있다. 또뉜, F -、 XR ^ 먼저 계산한 후 ^과 7^를 차례로 적용할 수 있다. 상기 수학식 31에서의 f 행렬에 대한 厂― 1행렬은 다음 수학식 36과 같이 구할 수 있다.
[수학식 36]
Figure imgf000041_0001
따라서, F 을 계산할 때 곱셈이 불필요해지므로 곱셈량 관점에서 계산량을 증가시키지 않게 되며 F―、 XR 의 각 요소 (element ) 값에 대한 범위 (range)가 변하지 않으므로 기존 코텍과 동일한 양자화 방식을 적용할 수도
디코딩은, 상기 수학식 35에서 C 대신에 역양자화된 변환 계수 행렬 (dequant i zed transform coef f i cient matr ix)인 C 를 대입하여 X R -: 구한 다음 를 더해 을 복원하는 과정으로 수행될 수 있다. 이는 다음 수학식 37과 같이 표현될 수 있다. 이는 상기 수학식 26의 경우에도 동일한 방식으로 적용될 수 있다.
[수학식 37]
Figure imgf000041_0002
X = X R + BX0
즉, 상기 수학식 37을 살펴보면, 본 발명은 역양자화된 변환 계수 행렬 (dequantized transform coefficient matrix)인 C 를 Ί( column) 방향과 행 (row) 방향에 대해 순차적으로 역변환한 후, F 행렬을 곱해 실질적인 잔여 신호 (^을 구성할 수 있다. 에 예측 신호 BX。를 더하게 되면 복원 신호 를 획득할 수 있게 된다. 도 15는 본 발명이 적용되는 실사예로써, 분리 가능한' 조건부 비선형 변환 (SCNT)을 이용하여 현재 블록을 인코딩하는 방법을 설명하기 위한 흐름도이다.
본 발명은, N X N 블록의 행 (row)과 열 (column)에 대해 N x N 변환을 순차적으로 적용하는 방법을 제공한다.
또한, 본 발명은, 현재 블록의 첫번째 라인 (행 또는 열)에 대해서만 예측 모드를 고려하여 예측을 수행하고, 잔여 픽셀들에 대해서는 수직 방향 또는 수평 방향으로 인접한 이전의 복원된 픽셀들을 이용하여 예측을 수행하는 방법을 제공한다.
먼저, 인코더는, 현재 블록의 주변 샘플들에 기초하여, 상기 현재 블록의 첫번째 행 또는 열에 대한 예측 픽셀들을 생성할 수 있다 (S1510).
이때, 상기 현재 블록의 주변 샘플들은 상기 현재 블록에 이웃하는 경계 픽샐을 나타낼 수 있다. 예를 들어, 상기 도 11에서와 같이, 현재 블록이 N X N 크기라고 하면, 상기 현재 블록에 이웃하는 경계 픽셀들은 상기 현재 블록의 좌측 (left) 경계에 인접한 샘플 및 좌하측 (bottom-left)에 이웃하는 총 2N 개의 샘플들 (Pleft ) , 현재 블록의 상측 (top) 경계에 인접한 샘플 및 우상측 (top- r ight )에 이웃하는 총 2N 개의 샘플들 (Pupper ) 및 현재 블록의 좌상측 ( top-left ) 코너에 인접하는 1개의 샘플 (Pcorner) 중 적어도 하나를 의미할 수 있다. 여기서, 예측 신호를 생성하기 위해 이용되는 참조 픽셀들을 Pb 라 하면 , Pb 는 상기 좌측의 2N 개 샘플들 (Pleit ) , 상측의 2N 개의 샘플들 (Pupper ) 및 좌상측 코너 샘플 (P∞rner )을 포함할 수 있다.
한편, 현재 블록의 주변 샘플들 중 일부는 아직 디코딩되지 않았거나, 이용 가능하지 않을 수 있다. 이 경우, 인코더는 이용 가능하지 않은 샘플들을 이용 가능한 샘플들로 대체 (subst i tut ion)하여 예측에 사용할 참조 샘플들을 구성할 수 있다.
본 발명의 일실시예로, 상기 현재 블록의 첫번째 행 (row) 또는 열 (column)에 대한 예측 픽셀들은 예측 모드에 기초하여 획득될 수 있다. 이때, 상기 예측 모드는 인트라 예측 모드를 나타내며, 인코더는 코딩 시물레이션을 통해 예측 모드를 결정할 수 있다. 예를 들어, 인트라 예측 모드가 '수직 모드인 경우, 현재 블록의 첫번째 행에 대한 예측 픽셀은 상측에 인접한 픽셀들을 이용하여 획득될 수 있다.
인코더는, 상기 현재 블록의 첫번째 행 (row) 또는 열 (column)에 대한 예측 픽셀들을 이용하여, 상기 현재 블록 내 잔여 픽셀들에 대해 각각 수직 방향 또는 수평 방향으로 예측을 수행할 수 있다 (S1520) .
예를 들어, 상기 현재 블록의 첫번째 행 (row)에 대한 예측 픽셀들이 획득된 경우, 잔여 픽샐들에 대한 예측은 수직 방향으로 이전에 복원된 픽샐에 기초하여 수행될 수 있다. 또는, 상기 현재 블록의 첫번째 열 (column)에 대한 예측 픽셀들이 획득된 경우, 잔여 픽샐들에 대한 예측은 수평 방향으로 이전에 복원된 픽셀에 기초하여 수행될 수 있다.
본 발명의 다른 실시예로, 현재 블록의 적어도 하나의 라인 (행 또는 열)에 대한 예측 픽샐들이 예측 모드에 기초하여 획득될 수 있다. 그리고, 현재 블록의 적어도 하나의 라인 (행 또는 열)에 대한 예측 픽셀들을 이용하여, 잔여 픽샐들에 대해 예측올 수행할 수 있다. 상기 인코더는, 상기 현재 블록의 예측 픽셀들에 기초하여 차분 신호 (difference signal)를 생성할 수 있다 (S1530). 여기서, 상기 차분 신호는 ¾ 픽샐 값에서 예측 픽셀 값을 감산함으로써 획득될 수 있다.
상기 인코더는, 상기 차분 신호에 대해 수평 방향 변환 행렬 및 /또는 수직 방향 변환 행렬을 적용함으로써 변환 코딩된 잔여 신호 (transform-coded residual signal)를 생성할 수 있다 (S1540). 이때, 현재 블록이 N x N 크기일 경우, 상기 수평 방향 변환 행렬 및 /또는 상기 수직 방향 변환 행렬은 N X N 변환일 수 있다. 한편, 인코더는 상기 변환 코딩된 잔여 신호 (transform-coded residual signal)에 대해 양자화를 수행하고, 상기 양자화된 잔여 신호에 대해 엔트로피 인코딩을 수행할 수 있다. 이때, 상기 양자화를 수행하는 단계는 율 -왜곡 최적화 양자화 (Rat e-Dis tort ion Optimized Quantization)가 적용될 수 있다. 도 16은 본 발명이 적용되는 실시예로써, 분리 가능한 조건부 비선형 변환 (SCNT)을 . 이용하여 현재 블록올 디코딩하는 방법을 설명하기 위한 흐름도이다.
본 발명은, 분리 가능한 조건부 비선형 변환 (SCNT)에 따른 변환 계수에 기초하여 디코딩을 수행하는 방법올 제공한다.
먼저, 디코더는, 비디오 신호로부터 현재 블록의 변환 코딩된 잔여 신호 (transform-coded residual s ignal )를 획득할 수 있다 (S1610) .
상기 디코더는, 수직 방향 변환 행렬 및 /또는 수평 방향 변환 행렬에 기초하여, 상기 변환 코딩된 잔여 신호 ( transform— coded res idual s ignal )에 대해 역변환을 수행할 수 있다 (S1620) . 이때, 상기 변환 코딩된 잔여 신호 (transform-coded res i dual signal )는 수직 방향 및 수평 방향에 대해 순차적으로 역변환될 수 있다. 그리고, 상기 현재 블록이 N X N 크기일 경우, 상기 수평 방향 변환 행렬 및 상기 수직 방향 변환 행렬은 N X N 변환일 수 있다. 한편, 상기 디코더는, 상기 비디오 신호로부터 인트라 예측 모드를 획득할 수 있다 (S1630) .
상기 인트라 예측 모드에 기초하여, 상기 현재 블록에 이웃하는 경계 픽셀을 이용하여 상기 현재 블록의 첫번째 행 또는 열에 대한 예측 픽셀들을 생성할 수 있다 (S1640) .
예를 들어, 상기 현재 블록의 첫번째 행 (row)에 대한 예측 픽셀들이 획득된 경우, 잔여 픽샐들에 대한 예측은 수직 방향으로 이전에 복원된 픽셀에 기초하여 수행될 수 있다. 또는, 상기 현재 블록의 첫번째 열 (column)에 대한 예측 픽셀들이 획득된 경우, 잔여 픽샐들에 대한 예측은 수평 방향으로 이전에 복원된 픽샐에 기초하여 수행될 수 있다. 또한, 상기 현재 블록이 N X N 크기일 경우, 상기 현재 블록에 이웃하는 경계 픽셀은, 상기 현재 블록의 좌측 경계에 인접한 N개의 샘플, 좌하측 (bottom- left )에 이웃하는 N개의 샘플, 상측 경계에 인접한 N개의 샘플, 우상측 (top- right )에 이웃하는 N개의 샘플 '및 좌상측 (top-left ) 코너에 인접하는 1개의 샘플 중 적어도 하나를 포함할 수 있다.
상기 디코더는, 상기 현재 블록의 첫번째 행 (row) 또는 열 (column)에 대한 예측 픽셀들을 이용하여, 상기 현재 블록 내 잔여 픽셀들에 대해 각각 수직 방향 또는 수평 방향으로 예측을 수행할 수 있다 (S1650) .
상기 디코더는, 상기 역변환을 통해 획득된 잔여 신호와 예측 신호를 합하여 복원 신호를 생성할 수 있다 (S1660) . 본 발명이 적용되는 다른 실시예로, CNT를 적용할지 여부를 나타내는 CNT 플래그를 정의할 수 있다. 예를 들어, 상기 CNT플래그는 CNT_f lag 로 표현될 수 있—으—며, GNT_f lag 가 1이면 현재 차리 유낫은 CNT가 적용돠는 것을 나타눼고-, CNT_f lag 가 0이면 현재 처리 유닛은 CNT가 적용되지 않는 것을 나타낸다.
상기 CNT 플래그는 디코더로 전송될 수 있으며, 상기 CNT 플래그는 SPS( Sequence Parameter Set ) , PPS(Picture Parameter Set ) , 슬라이스, CUCCoding Unit ) , PUCPredict ion Uni t ) , 블록, 폴리곤 및 처리 유닛 중 적어도 하나로부터 추출되는 것을 특징으로 한다. 본 발명이 적용되는 다른 실시예로, 만약 블록 내의 경계 픽셀들까지 수직 또는 수평 방향에 대한 예측 모드만을 사용한다면, CNT를 적용하는 경우에 인트라 예측 모드를 다 전송할 필요 없이 수직 방향 또는 수평 방향을 가리키는 플래그만을 전송하도록 구성할 수 있다. CNT에서 행 (row) 방향 변환 커널과 열 (column) 방향 변환 커널은 DCT, DST 이외의 다른 변환 커널도 적용 가능하다. 또한, DCT/DST 이외의 커널을 사용하는 경우, 해당 변환 커널에 대한 정보를 추가로 전송할 수 있다. 예를 들어, 변환 커널을 템플릿 인덱스로 정의하는 경우, 상기 템플릿 인덱스를 디코더로 전송할 수 있다. 본 발명이 적용되는 다른 실시예로, SCNT를 적용할지 여부를 나타내는 SCNT 플래그를 정의할 수 있다. 예를 들어, 상기 SCNT 플래그는 SCNT_flag 로 표현될 수 있으며, SCNT_flag 가 1이면 현재 처리 유닛은 SCNT가 적용되는 것을 나타내고, SCNT_flag 가 0이면 현재 처리 유닛은 SCNT가 적용되지 않는 것을 나타낸다.
상기 SCNT 플래그는 디코더로 전송될 수 있으며, 상기 CNT 플래그는 SPS( Sequence Parameter Set ) , PPS(Picture Parameter Set), 술라이스, - CU(Coding Unit), PU(Predict ion Unit), 블록, 폴리곤 및 처리 유닛 중 적어도 하나로부터 추출되는 것을 특징으로 한다. 상기 기술된 것과 같이, 본 발명에서 설명한 실시예들은 프로세서, 마이크로 프로세서, 컨트롤러 또는 칩 상에서 구현되어 수행될 수 있다. 예를 들어, 상기 도 1 내지 4 에서 도시한 기능 유닛들은 컴퓨터, 프로세서, 마이크로 프로세서, 컨트를러 또는 칩 상에서 구현되어 수행될 수 있다. 또한, 본 발명이 적용되는 디코더 및 인코더는 멀티미디어 방송 송수신 장치, 모바일 통신 단말, 홈 시네마 비디오 장치, 디지털 시네마 비디오 장치, 감시용 카메라, 비디오 대화 장치, 비디오 통신과 같은 실시간 통신 장치, 모바일 스트리밍 장치, 저장 매체, 캠코더, 주문형 비디오 (VoD) 서비스 제공 장치, 인터넷 스트리밍 서비스 제공 장치, 3차원 (3D) 비디오 장치, 화상 전화 비디오 장치, 및 의료용 비다오 장치 등에 포함될 수 있으며, 비디오 신호 및 데이터 신호를 처리하기 위해 사용될 수 있다.
또한, 본 발명이 적용되는 처리 방법은 컴퓨터로 실행되는 프로그램의 형태로 생산될 수 있으며, 컴퓨터가 판독할 수 있는 기록 매체에 저장될 수 있다. 본 발명에 따른 데이터 구조를 가지는 멀티미디어 데이터도 또한 컴퓨터가' 판독할 수 있는 기록 매체에 저장될 수 있다. 상기 컴퓨터가 판독할 수 있는 기록 매체는 컴퓨터로 읽을 수 있는 데이터가 저장되는 모든 종류의 저장 장치를 포함한다. 상기 컴퓨터가 판독할 수 있는 기록 매체는, 예를 들어, 블루레이 디스크 (BD) , 범용 직렬 버스 (USB) , ROM , RAM , CD-ROM , 자기 테이프, 플로피 디스크 및 광학적 데이터 저장 장치를 포함할 수 있다. 또한, 상기 컴퓨터가 판독할 수 있는 기록 매체는 반송파 (예를 들어, 인터넷을 통한 전송)의 형태로 구현된 미디어를 포함한다. 또한, 인코딩 방법으로 생성된 비트 스트림이 컴퓨터가 판독할 수 있는 기록 매체에 저장되거나 유무선 통신 네트워크를 통해 전송될 수 있다.
【산업상 이용가능성】
이상, 전술한 본 발명의 바람직한 실시예는, 예시의 목적을 위해 개시된 것으로, 당업자라면 이하 첨부된 특허청구범위에 개시된 본 발명의 기술적 사상과 그 기술적 범위 내에서 , 다양한 다른 실시예들을 개량, 변경, 대체 또는 부가 등이 가능할 것이다.

Claims

【청구의 범위】
【청구항 1】
비디오 신호를 인코딩하는 방법에 있어서,
현재 블록에 이웃하는 경계 픽셀에 기초하여, 상기 현재 블록의 첫번째 행 또는 열에 대한 예측 픽셀들을 생성하는 단계 ;
상기 현재 블록의 첫번째 행 (row) 또는 열 (column)에 대한 예측 픽셀들을 이용하여, 상기 현재 블록 내 잔여 픽셀들을 각각 수직 방향 또는 수평 방향으로 예측하는 단계;
상기 현재 블록의 예측 픽샐들에 기초하여 , 차분 신호 (di f ference signal )를 생성하는 단계; 및
상기 차분 신호에 대해 수평 방향 변환 행렬 및 수직 방향 변환 행렬을 적용함으로써 변환 코딩된 신호 ( transform— coded res i dual s ignal )¾- 생성하는 단계
를 포함하는 것을 특징으로 하는 방법 .
【청구항 2】
제 1항에 있어서,
상기 현재 블록의 첫번째 행 (row)에 대한 예측 픽셀들이 생성된 경우, 상기 잔여 픽셀들에 대한 예측은 수직 방향으로 이전에 복원된 픽셀에 기초하여 수행되는 것을 특징으로 하는 방법.
【청구항 3】
제 1항에 있어서,
상기 현재 블록의 첫번째 열 (column)에 대한 예측 픽셀들이 생성된 경우, 상기 잔여 픽셀들에 대한 예측은 수평 방향으로 이전에 복원된 픽셀에 기초하여 수행되는 것을 특징으로 하는 방법.
【청구항 4]
제 1항에 있어서,
상기 변환 코딩된 잔여 신호 (transform-coded residual s ignal )에 대해 양자화를 수행하는 단계; 및
상기 양자화된 잔여 신호에 대해 엔트로피 인코딩을 수행하는 단계
를 더 포함하는 것을 특징으로 하는 방법.
【청구항 5】
게 2항에 있어서,
상기 양자화를 수행하는 단계는 율 -왜곡 최적화 양자화 (Rate-Di stort ion Opt imi zed Quant i zat i on)가 적용되는 것을 특징으로 하는 방법.
【청구항 6】
게 1항에 있어서, 상기 방법은,
상기 현재 블록의 인트라 예측 모드를 결정하는 단계
. 를 더 포함하되,
상기 현재 블록의 첫번째 행 또는 열에 대한 예측 픽셀들은 상기 인트라 예측 모드에 기초하여 생성되는 것을 특징으로 하는 방법 .
【청구항 7】
게 1항에 있어서, 상기 현재 블록이 N X N 크기일 경우,
상기 현재 블록에 이웃하는 경계 픽셀은, 상기 현재 블록의 좌측 경계에 인접한 N개의 샘플, 좌하측 (bottom-left )에 이웃하는 N개의 샘플, 상측 경계에 인접한 N개의 샘플, 우상측 (top-r ight )에 이웃하는 N개의 샘플 및 좌상측 (top- left ) 코너에 인접하는 1개의 샘플 중 적어도 하나를 포함하는 것을 특징으로 하는 방법 .
【청구항 8】
게 1항에 있어서, 상기 현재 블록이 N X N 크기일 경우,
상기 수평 방향 변환 행렬 및 상기 수직 방향 변환 행렬은 N X N 변환인 것을 특징으로 하는 방법 .
【청구항 9】
비디오 신호를 디코딩하는 방법에 있어서,
상기 비디오 신호로부터 현재 블록의 변환 코딩된 잔여 신호 (transform- coded residual s ignal )를 획득하는 단계;
수직 방향 변환 행렬 및 수평 방향 변환 행렬에 기초하여, 상기 변환 코딩된 잔여 신호 (transform— coded resi dual s ignal )에 대해 역변환을 수행하는 단계; 상기 현재 블록의 예측 신호를 생성하는 단계; 및
상기 역변환을 통해 획득된 잔여 신호와 상기 예측 신호를 합하여 복원 신호를 생성하는 단계
를 포함하되,
상기 변환 코딩된 잔여 신호 (transform-coded residual signal )는 수직 방향 및 수평 방향에 대해 순차적으로 역변환돠는 것을 특징으로 하는 방법.
【청구항 10】
제 9항에 있어서, 상기 예측 신호를 생성하는 단계는,
상기 현재 블록에 이웃하는 경계 픽셀에 기초하여, 상기 현재 블록의 첫번째 행 또는 열에 대한 예측 픽셀들을 생성하는 단계; 및
상기 현재 블록의 첫번째 행 (row) 또는 열 (column)에 대한 예측 픽셀들을 이용하여, 상기 현재 블록 내 잔여 픽셀들을 각각 수직 방향 또는 수평 방향으로 예측하는 단계
를 포함하는 것을 특징으로 하는 방법.
【청구항 11】
제 10항에 있어서,
상기 현재 블록의 첫번째 행 (row)에 대한 예측 픽셀들이 생성된 경우, 상기 잔여 픽셀들에 대한 예측은 수직 방향으로 이전에 복원된 픽셀에 기초하여 수행되는 것을 특징으로 하는 방법.
【청구항 12】
제 10항에 있어서,
상기 현재 블록의 첫번째 열 (column)에 대한 예측 픽셀들이 생성된 경우, 상기 잔여 픽셀들에 대한 예측은 수평 방향으로 이전에 복원된 픽셀에 기초하여 수행되는 것을 특징으로 하는 방법.
【청구항 13】
제 10항에 있어서, 상기 방법은,
상기 현재 블록의 인트라 예측 모드를 획득하는 단계
를 더 포함하되,
상기 현재 블록의 첫번째 행 또는 열에 대한 예측 픽셀들은 상기 인트라 예측 모드에 기초하여 생성되는 것을 특징으로 하는 방법.
【청구항 14】 제 10항에 있어서, 상기 현재 블록이 N X N 크기일 경우,
상기 현재 블록에 이웃하는 경계 픽샐은, 상기 현재 블록의 좌측 경계에 인접한 N개의 샘플, 좌하측 (bot tom-left )에 이웃하는 N개의 샘플, 상측 경계에 인접한 N개의 샘플, 우상측 ( top-r ight )에 이웃하는 N개의 샘플 및 좌상측 ( top- left ) 코너에 인접하는 1개의 샘플 중 적어도 하나를 포함하는 것을 특징으로 하는 방법 .
【청구항 15]
제 9항에 있어서, 상기 현재 블록이 N X N 크기일 경우,
상기 수평 방향 변환 행렬 및 상기 수직 방향 변환 행렬은 N X N 변환인 것을 특징으로 하는 방법 .
PCT/KR2016/003834 2015-04-12 2016-04-12 비디오 신호의 인코딩, 디코딩 방법 및 그 장치 WO2016167538A1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
US15/565,823 US20180115787A1 (en) 2015-04-12 2016-04-12 Method for encoding and decoding video signal, and apparatus therefor

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US201562146391P 2015-04-12 2015-04-12
US62/146391 2015-04-12

Publications (1)

Publication Number Publication Date
WO2016167538A1 true WO2016167538A1 (ko) 2016-10-20

Family

ID=57127275

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2016/003834 WO2016167538A1 (ko) 2015-04-12 2016-04-12 비디오 신호의 인코딩, 디코딩 방법 및 그 장치

Country Status (2)

Country Link
US (1) US20180115787A1 (ko)
WO (1) WO2016167538A1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114073087A (zh) * 2019-05-10 2022-02-18 弗劳恩霍夫应用研究促进协会 基于矩阵的内预测

Families Citing this family (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106961405B (zh) * 2016-01-11 2020-06-02 中兴通讯股份有限公司 多载波***的数据调制、解调方法、数据传输方法及节点
CN112532979A (zh) * 2018-03-31 2021-03-19 华为技术有限公司 图像块编码中的变换方法、解码中的反变换方法及装置
ES2949998T3 (es) * 2018-06-03 2023-10-04 Lg Electronics Inc Método y dispositivo para procesar una señal de vídeo usando una transformada reducida
FR3081656A1 (fr) 2018-06-27 2019-11-29 Orange Procedes et dispositifs de codage et de decodage d'un flux de donnees representatif d'au moins une image.
CN111758261B (zh) * 2018-09-02 2022-06-10 Lg电子株式会社 用于处理图像信号的方法和设备
WO2020094067A1 (en) 2018-11-06 2020-05-14 Beijing Bytedance Network Technology Co., Ltd. Simplified parameter derivation for intra prediction
CN113170122B (zh) 2018-12-01 2023-06-27 北京字节跳动网络技术有限公司 帧内预测的参数推导
WO2020156549A1 (en) 2019-02-02 2020-08-06 Beijing Bytedance Network Technology Co., Ltd. Buffer access methods for intra block copy in video coding
BR112021015017B1 (pt) 2019-02-24 2022-07-26 Bytedance Inc. Método e aparelho para codificar dados de vídeo, e, mídia de armazenamento
CN117395439A (zh) 2019-03-01 2024-01-12 北京字节跳动网络技术有限公司 用于视频编解码中的帧内块复制的基于方向的预测
KR20210125506A (ko) 2019-03-04 2021-10-18 베이징 바이트댄스 네트워크 테크놀로지 컴퍼니, 리미티드 비디오 코딩에서 인트라 블록 복사를 위한 버퍼 관리
WO2020197038A1 (ko) 2019-03-22 2020-10-01 엘지전자 주식회사 영상 코딩 시스템에서 인트라 서브 파티션 기반의 인트라 예측 방법 및 장치
CN117459718A (zh) 2019-04-01 2024-01-26 北京字节跳动网络技术有限公司 视频编码中的可选插值滤波器
CN113678453B (zh) 2019-04-12 2024-05-14 北京字节跳动网络技术有限公司 基于矩阵的帧内预测的上下文确定
EP3955569A4 (en) 2019-04-25 2022-07-27 Huawei Technologies Co., Ltd. METHOD AND APPARATUS FOR IMAGE PREDICTION AND COMPUTER READABLE INFORMATION MEDIA
JP2022535726A (ja) 2019-05-31 2022-08-10 北京字節跳動網絡技術有限公司 行列ベースイントラ予測における制約されたアップサンプリングプロセス
EP3970366A4 (en) 2019-06-14 2023-03-29 Beijing Bytedance Network Technology Co., Ltd. HANDLING VIDEO UNIT LIMITS AND VIRTUAL LIMITS
CN114128280B (zh) 2019-07-07 2023-11-14 北京字节跳动网络技术有限公司 色度残差缩放的信令通知
KR20220024500A (ko) 2019-07-12 2022-03-03 엘지전자 주식회사 변환에 기반한 영상 코딩 방법 및 그 장치
AU2020321002B2 (en) 2019-07-26 2023-06-01 Beijing Bytedance Network Technology Co., Ltd. Determination of picture partition mode based on block size
MX2022002188A (es) 2019-09-02 2022-03-11 Beijing Bytedance Network Tech Co Ltd Determinacion de modo de codificacion basada en formato de color.
WO2021051046A1 (en) 2019-09-14 2021-03-18 Bytedance Inc. Quantization parameter for chroma deblocking filtering
JP7483869B2 (ja) 2019-09-24 2024-05-15 ホアウェイ・テクノロジーズ・カンパニー・リミテッド エンコーダ、デコーダ、および対応する方法
WO2021120067A1 (zh) * 2019-12-18 2021-06-24 深圳市大疆创新科技有限公司 数据编码方法、数据解码方法、数据处理方法、编码器、解码器、***、可移动平台与计算机可读介质
US11785254B2 (en) * 2020-05-29 2023-10-10 Tencent America LLC Implicit mode dependent primary transforms

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101091479B1 (ko) * 2007-06-15 2011-12-07 콸콤 인코포레이티드 인트라 예측 모드에 따른 레지듀얼 블록들의 적응형 변환
US20130114732A1 (en) * 2011-11-07 2013-05-09 Vid Scale, Inc. Video and data processing using even-odd integer transforms
WO2014084674A2 (ko) * 2012-11-29 2014-06-05 인텔렉추얼 디스커버리 주식회사 잔차 변환을 이용한 인트라 예측 방법 및 장치
KR101441879B1 (ko) * 2009-12-09 2014-09-23 에스케이텔레콤 주식회사 영상 부호화 장치 및 방법, 및 거기에 이용되는 변환 부호화 장치 및 방법, 변환기저 생성장치 및 방법, 및 영상 복호화 장치 및 방법
KR101481642B1 (ko) * 2009-10-23 2015-01-22 후아웨이 테크놀러지 컴퍼니 리미티드 비디오를 인코딩하고 디코딩하기 위한 방법 및 장치

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090123066A1 (en) * 2005-07-22 2009-05-14 Mitsubishi Electric Corporation Image encoding device, image decoding device, image encoding method, image decoding method, image encoding program, image decoding program, computer readable recording medium having image encoding program recorded therein,
CN104853201A (zh) * 2010-07-02 2015-08-19 数码士控股有限公司 用于帧内预测的编码/解码图像的装置和方法
EP2777258B1 (en) * 2011-11-04 2017-01-11 Huawei Technologies Co., Ltd. Binarization of prediction residuals for lossless video coding

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101091479B1 (ko) * 2007-06-15 2011-12-07 콸콤 인코포레이티드 인트라 예측 모드에 따른 레지듀얼 블록들의 적응형 변환
KR101481642B1 (ko) * 2009-10-23 2015-01-22 후아웨이 테크놀러지 컴퍼니 리미티드 비디오를 인코딩하고 디코딩하기 위한 방법 및 장치
KR101441879B1 (ko) * 2009-12-09 2014-09-23 에스케이텔레콤 주식회사 영상 부호화 장치 및 방법, 및 거기에 이용되는 변환 부호화 장치 및 방법, 변환기저 생성장치 및 방법, 및 영상 복호화 장치 및 방법
US20130114732A1 (en) * 2011-11-07 2013-05-09 Vid Scale, Inc. Video and data processing using even-odd integer transforms
WO2014084674A2 (ko) * 2012-11-29 2014-06-05 인텔렉추얼 디스커버리 주식회사 잔차 변환을 이용한 인트라 예측 방법 및 장치

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114073087A (zh) * 2019-05-10 2022-02-18 弗劳恩霍夫应用研究促进协会 基于矩阵的内预测

Also Published As

Publication number Publication date
US20180115787A1 (en) 2018-04-26

Similar Documents

Publication Publication Date Title
WO2016167538A1 (ko) 비디오 신호의 인코딩, 디코딩 방법 및 그 장치
KR101974261B1 (ko) Cnn 기반 인루프 필터를 포함하는 부호화 방법과 장치 및 복호화 방법과 장치
KR101901355B1 (ko) 최적화 함수를 이용하여 그래프 기반 예측을 수행하는 방법 및 장치
CN105850124B (zh) 使用量化误差的额外的控制编码、解码视频信号的方法和装置
JP5909149B2 (ja) 色変換装置、符号化器および復号器ならびにそれらのプログラム
EP3104615B1 (en) Moving image encoding device and moving image encoding method
CN107113426B (zh) 使用广义图形参数执行基于图形的变换的方法和设备
RU2668390C1 (ru) Устройство декодирования изображения, способ декодирования изображения и долговременный считываемый компьютером носитель записи
CN107534765B (zh) 视频编码***和方法中的运动矢量选择和预测
US10979704B2 (en) Methods and apparatus for optical blur modeling for improved video encoding
KR20160065860A (ko) 미디어 신호의 인코딩, 디코딩 방법 및 그 장치
WO2016068630A1 (ko) 비디오 신호의 인코딩, 디코딩 방법 및 그 장치
EP4354871A1 (en) Ai-based image encoding and decoding device, and method performed thereby
WO2009084814A1 (en) Method for encoding and decoding image of ftv, and apparatus for encoding and decoding image of ftv
KR20230067492A (ko) Ai를 이용하는 영상 부호화 장치 및 영상 복호화 장치, 및 이들에 의한 영상의 부호화 및 복호화 방법
US20200099950A1 (en) Processing devices and control methods therefor
JP5667269B2 (ja) 画像符号化装置、画像復号装置、画像符号化・復号装置、画像符号化・復号方法及び画像符号化・復号プログラム
CN118318248A (en) Image encoding apparatus and image decoding apparatus using AI, and method of encoding and decoding image by the same
JP2014222936A (ja) 画像復号装置、画像復号方法、画像符号化復号方法及び画像復号プログラム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 16780261

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 15565823

Country of ref document: US

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 16780261

Country of ref document: EP

Kind code of ref document: A1