KR20230022085A - Artificial intelligence based encoding apparatus and decoding apparatus of image, and method thereby - Google Patents

Artificial intelligence based encoding apparatus and decoding apparatus of image, and method thereby Download PDF

Info

Publication number
KR20230022085A
KR20230022085A KR1020210188870A KR20210188870A KR20230022085A KR 20230022085 A KR20230022085 A KR 20230022085A KR 1020210188870 A KR1020210188870 A KR 1020210188870A KR 20210188870 A KR20210188870 A KR 20210188870A KR 20230022085 A KR20230022085 A KR 20230022085A
Authority
KR
South Korea
Prior art keywords
image
chroma
cross
feature data
luma
Prior art date
Application number
KR1020210188870A
Other languages
Korean (ko)
Inventor
딘쿠오칸
최광표
Original Assignee
삼성전자주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자주식회사 filed Critical 삼성전자주식회사
Priority to PCT/KR2022/011070 priority Critical patent/WO2023013966A1/en
Priority to EP22853344.4A priority patent/EP4354871A1/en
Priority to CN202280054487.4A priority patent/CN117837146A/en
Priority to US17/882,293 priority patent/US20230041187A1/en
Publication of KR20230022085A publication Critical patent/KR20230022085A/en

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/593Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving spatial prediction techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T9/00Image coding
    • G06T9/002Image coding using neural networks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/146Data rate or code amount at the encoder output
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/186Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being a colour or a chrominance component

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Signal Processing (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • General Physics & Mathematics (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

According to an embodiment, a video decoding method is disclosed which comprises the steps of: obtaining cross-channel prediction information by applying feature data for cross-channel prediction to a neural network-based cross-channel decoder; obtaining a predicted image of a chroma image by performing the cross-channel prediction based on a restored luma image and the cross-channel prediction information; obtaining a residual image of the chroma image by applying feature data for the chroma image to a neural network-based chroma residual decoder; and restoring the chroma image based on the predicted image and the residual image. Accordingly, images can be accurately restored from a bitstream with a low bitrate.

Description

AI 기반의 영상의 부호화 및 복호화 장치, 및 이에 의한 방법{ARTIFICIAL INTELLIGENCE BASED ENCODING APPARATUS AND DECODING APPARATUS OF IMAGE, AND METHOD THEREBY} AI-based video encoding and decoding apparatus, and method therefor

본 개시는 영상의 부호화 및 복호화에 관한 것이다. 보다 구체적으로, 본 개시는 영상의 크로스 채널 예측에 필요한 특징 데이터를 AI(Artificial Intelligence), 예를 들어, 신경망을 이용하여 부호화 및 복호화하는 기술, 및 영상을 부호화 및 복호화하는 기술에 관한 것이다.The present disclosure relates to encoding and decoding of video. More specifically, the present disclosure relates to a technique of encoding and decoding feature data necessary for cross-channel prediction of an image using AI (Artificial Intelligence), eg, a neural network, and a technique of encoding and decoding an image.

H.264 AVC(Advanced Video Coding) 및 HEVC(High Efficiency Video Coding)와 같은 코덱에서는, 영상을 블록으로 분할하고, 각각의 블록을 인터 예측(inter prediction) 또는 인트라 예측(intra prediction)을 통해 예측 부호화 및 예측 복호화할 수 있다.In codecs such as H.264 Advanced Video Coding (AVC) and High Efficiency Video Coding (HEVC), an image is divided into blocks, and each block is predicted and coded through inter prediction or intra prediction. and predictive decoding.

인트라 예측은 영상 내의 공간적인 중복성을 제거하여 영상을 압축하는 방법이고, 인터 예측은 영상들 사이의 시간적인 중복성을 제거하여 영상을 압축하는 방법이다. Intra prediction is a method of compressing an image by removing spatial redundancy in images, and inter prediction is a method of compressing an image by removing temporal redundancy between images.

인트라 예측의 대표적인 예로서, CCLM(Cross-Component Linear Model)을 이용한 크로마 신호의 예측 방법이 존재한다. CCLM을 이용한 크로마 신호의 예측 방법은 신호와 크로마 신호 간에 존재하는 중복성을 제거하여 부호화 예측 성능을 향상시키는 방법이다.As a representative example of intra prediction, there is a method of predicting a chroma signal using a cross-component linear model (CCLM). A method of predicting a chroma signal using CCLM is a method of improving encoding prediction performance by removing redundancy between signals and chroma signals.

구체적으로, CCLM을 이용한 크로마 신호의 예측 방법은 크로마 신호의 샘플과 동일한 위치의 재구성된 루마 성분 샘플 간의 연관성을 계산한 선형 모델을 통하여 예측하는 방법이다.Specifically, a method of predicting a chroma signal using CCLM is a method of predicting a chroma signal sample through a linear model in which a correlation between a sample of a chroma signal and a reconstructed luma component sample at the same position is calculated.

CCLM을 이용한 크로마 신호의 예측 방법의 구체적인 예로서, MDLM(Multi-Directional Linear Model)을 이용한 크로마 신호의 예측 방법이 존재한다. MDLM을 이용한 크로마 신호의 예측 방법은 선행 모델(Linear Model)의 계수를 유도할 때, 상단 및 좌측 주변 샘플을 이용하거나(LM_CCLM), 상단 주변 샘플만 이용하거나(T_CCLM), 또는 좌측 주변 샘플만 이용하는(L_CCLM) 모드를 지원한다.As a specific example of a chroma signal prediction method using CCLM, there is a chroma signal prediction method using MDLM (Multi-Directional Linear Model). The method of predicting a chroma signal using MDLM uses the top and left neighboring samples (LM_CCLM), only the top neighboring samples (T_CCLM), or only the left neighboring samples when deriving the coefficients of the linear model. (L_CCLM) mode is supported.

일 실시예에 따른 영상의 부호화 및 복호화 장치, 및 이에 의한 방법은 크로스 채널 예측을 통해 영상에 대한 시그널링을 적은 비트레이트로 가능케하는 것을 과제로 한다.An object of an apparatus for encoding and decoding an image according to an embodiment, and a method using the same, is to enable signaling of an image at a low bit rate through cross-channel prediction.

또한, 일 실시예에 따른 영상의 부호화 및 복호화 장치, 및 이에 의한 방법은 크로스 채널 예측을 통해 크로마 영상을 정확하게 예측 및 복원하는 것을 과제로 한다.Also, an image encoding and decoding apparatus and method according to an embodiment have an object of accurately predicting and restoring a chroma image through cross-channel prediction.

또한, 일 실시예에 따른 영상의 부호화 및 복호화 장치, 및 이에 의한 방법은 적은 비트레이트의 비트스트림으로부터 영상을 정확하게 복원하는 것을 기술적 과제로 한다.In addition, an apparatus for encoding and decoding an image according to an embodiment, and a method using the same, have as a technical task accurately reconstructing an image from a bitstream of a low bit rate.

일 실시예에 따른 AI를 이용하는 크로스 채널 예측(Cross Channel Prediction)에 따라, 영상을 복호화하는 방법은, A method of decoding an image according to cross channel prediction using AI according to an embodiment,

비트스트림으로부터, 크로스 채널 예측을 위한 특징 데이터를 획득하는 단계;obtaining feature data for cross-channel prediction from the bitstream;

상기 비트스트림으로부터, 현재 영상 내 루마 영상에 대한 특징 데이터 및 현재 영상 내 크로마 영상에 대한 특징 데이터를 획득하는 단계;acquiring feature data of a luma image in the current image and feature data of a chroma image in the current image, from the bitstream;

신경망 기반의 루마 디코더에 상기 루마 영상에 대한 특징 데이터를 적용하여 상기 루마 영상을 복원하는 단계;restoring the luma image by applying feature data of the luma image to a neural network-based luma decoder;

신경망 기반의 크로스 채널 디코더에 상기 크로스 채널 예측을 위한 특징 데이터를 적용하여 크로스 채널 예측 정보를 획득하는 단계;obtaining cross-channel prediction information by applying feature data for cross-channel prediction to a neural network-based cross-channel decoder;

상기 복원된 루마 영상 및 상기 크로스 채널 예측 정보를 기초로, 크로스 채널 예측(Cross Channel Prediction)을 수행하여, 상기 크로마 영상의 예측 영상을 획득하는 단계;obtaining a predicted image of the chroma image by performing cross-channel prediction based on the reconstructed luma image and the cross-channel prediction information;

신경망 기반의 크로마 레지듀얼 디코더에 상기 크로마 영상에 대한 특징 데이터를 적용하여 상기 크로마 영상의 레지듀얼 영상을 획득하는 단계; 및obtaining a residual image of the chroma image by applying feature data of the chroma image to a neural network-based chroma residual decoder; and

상기 예측 영상 및 상기 레지듀얼 영상을 기초로, 상기 크로마 영상을 복원하는 단계를 포함한다.and restoring the chroma image based on the predicted image and the residual image.

상기 크로스 채널 예측을 위한 특징 데이터, 상기 루마 영상에 대한 특징 데이터 및 상기 크로마 영상에 대한 특징 데이터 중 적어도 하나는, 상기 비트스트림에 대한 엔트로피 복호화 및 역양자화를 통해 획득된다.At least one of feature data for cross-channel prediction, feature data for the luma image, and feature data for the chroma image is obtained through entropy decoding and inverse quantization of the bitstream.

상기 신경망 기반의 크로스 채널 디코더는,The neural network-based cross-channel decoder,

현재 훈련 크로마 영상(current training chroma image)과 상기 현재 훈련 크로마 영상에 대응하는 현재 복원 훈련 크로마 영상(current reconstructed training chroma image) 사이의 차이에 대응하는 제 1 손실 정보; 및first loss information corresponding to a difference between a current training chroma image and a current reconstructed training chroma image corresponding to the current training chroma image; and

상기 현재 훈련 크로마 영상의 크로스 채널 예측을 위한 특징 데이터의 엔트로피에 대응하는 제 2 손실 정보를 기반으로 훈련될 수 있다.Training may be performed based on second loss information corresponding to entropy of feature data for cross-channel prediction of the current training chroma image.

상기 방법은상기 현재 영상의 크로마 서브 샘플링 포맷이 YUV(YCbCr) 4:4:4가 아닌 경우, 상기 복원된 루마 영상에 대한 다운샘플링을 수행하는 단계를 더 포함하고,The method further comprises performing downsampling on the reconstructed luma image when the chroma subsampling format of the current image is not YUV (YCbCr) 4:4:4,

상기 크로마 영상의 예측 영상을 획득하는 단계는,Obtaining a predicted image of the chroma image,

상기 다운샘플링된 루마 영상 및 상기 크로스 채널 예측 정보를 기초로, 크로스 채널 예측을 수행하여, 상기 크로마 영상의 예측 영상을 획득하는 단계를 포함할 수 있다.and obtaining a predicted image of the chroma image by performing cross-channel prediction based on the downsampled luma image and the cross-channel prediction information.

상기 방법은The above method

상기 현재 영상의 크로마 서브 샘플링 포맷이 YCbCr 4:4:4가 아닌 경우, 상기 복원된 루마 영상에 대한 공간-뎁스 변환(space-to-depth transformation)을 수행하여 다채널의 루마 영상 데이터를 생성하는 단계를 더 포함하고,generating multi-channel luma image data by performing space-to-depth transformation on the reconstructed luma image when the chroma subsampling format of the current image is not YCbCr 4:4:4 Including more steps,

상기 크로마 영상의 예측 영상을 획득하는 단계는,Obtaining a predicted image of the chroma image,

상기 다채널의 루마 영상 데이터 및 상기 크로스 채널 예측 정보를 기초로, 크로스 채널 예측을 수행하여, 상기 크로마 영상의 예측 영상을 획득하는 단계를 포함할 수 있다.The method may include acquiring a predicted image of the chroma image by performing cross-channel prediction based on the multi-channel luma image data and the cross-channel prediction information.

상기 루마 영상은 Y 컴포넌트의 영상이고, 상기 크로마 영상은 Cb 컴포넌트 및 Cr 컴포넌트 중 적어도 하나의 영상일 수 있다.The luma image may be an image of a Y component, and the chroma image may be an image of at least one of a Cb component and a Cr component.

신경망 기반의 크로스 채널 디코더에 상기 크로스 채널 예측을 위한 특징 데이터를 적용하여 크로스 채널 예측 정보를 획득하는 단계는,Obtaining cross-channel prediction information by applying feature data for cross-channel prediction to a neural network-based cross-channel decoder,

신경망 기반의 크로스 채널 디코더에 상기 크로스 채널 예측을 위한 특징 데이터 및 상기 루마 영상에 대한 특징 데이터를 적용하여 크로스 채널 예측 정보를 획득하는 단계를 포함할 수 있다.and obtaining cross-channel prediction information by applying feature data for cross-channel prediction and feature data for the luma image to a neural network-based cross-channel decoder.

상기 신경망 기반의 크로마 레지듀얼 디코더에 상기 크로마 영상에 대한 특징 데이터를 적용하여 상기 크로마 영상의 레지듀얼 영상을 획득하는 단계는,The step of obtaining a residual image of the chroma image by applying feature data of the chroma image to the neural network-based chroma residual decoder,

상기 신경망 기반의 크로마 레지듀얼 디코더에 상기 루마 영상에 대한 특징 데이터 및 상기 크로스 채널 예측을 위한 특징 데이터 중 적어도 하나를 더 적용하여 상기 크로마 영상의 레지듀얼 영상을 획득하는 단계를 포함할 수 있다. The method may further include obtaining a residual image of the chroma image by further applying at least one of feature data for the luma image and feature data for cross-channel prediction to the neural network-based chroma residual decoder.

상기 크로스 채널 예측 정보는, 스케일 파라미터 및 바이어스 파라미터에 관한 정보를 포함할 수 있다.The cross-channel prediction information may include information about a scale parameter and a bias parameter.

일 실시예에 따른 컴퓨터로 읽을 수 있는 기록매체는 전술한 영상 복호화 방법을 컴퓨터에서 수행하기 위한 프로그램이 기록된다.A program for performing the above-described image decoding method in a computer is recorded on a computer-readable recording medium according to an embodiment.

일 실시예에 따른 AI를 이용하는 크로스 채널 예측(Cross Channel Prediction)에 따라, 영상을 복호화하는 장치는,An apparatus for decoding an image according to cross channel prediction using AI according to an embodiment,

비트스트림으로부터, 크로스 채널 예측을 위한 특징 데이터를 획득하고, From the bitstream, obtain feature data for cross-channel prediction;

상기 비트스트림으로부터, 현재 영상 내 루마 영상에 대한 특징 데이터 및 현재 영상 내 크로마 영상에 대한 특징 데이터를 획득하는 획득부; 및an acquisition unit which obtains feature data of a luma image in a current image and feature data of a chroma image in a current image, from the bitstream; and

신경망 기반의 루마 디코더에 상기 루마 영상에 대한 특징 데이터를 적용하여 상기 루마 영상을 복원하고, Reconstructing the luma image by applying feature data of the luma image to a neural network-based luma decoder;

신경망 기반의 크로스 채널 디코더에 상기 크로스 채널 예측을 위한 데이터를 적용하여 크로스 채널 예측 정보를 획득하고, 상기 복원된 루마 영상 및 상기 크로스 채널 예측 정보를 기초로, 크로스 채널 예측을 수행하여, 상기 크로마 영상의 예측 영상을 획득하고,Cross-channel prediction information is obtained by applying the cross-channel prediction data to a neural network-based cross-channel decoder, cross-channel prediction is performed based on the reconstructed luma image and the cross-channel prediction information, and the chroma image is obtained. Acquiring a prediction image of

신경망 기반의 크로마 레지듀얼 디코더에 상기 크로마 영상에 대한 특징 데이터를 적용하여 상기 크로마 영상의 레지듀얼 영상을 획득하고,Acquiring a residual image of the chroma image by applying feature data of the chroma image to a neural network-based chroma residual decoder;

상기 크로마 영상의 예측 영상 및 상기 크로마 영상의 레지듀얼 영상을 기초로, 상기 크로마 영상을 복원하는 영상 복호화부를 포함한다.and an image decoding unit that reconstructs the chroma image based on a predicted image of the chroma image and a residual image of the chroma image.

일 실시예에 따른 AI를 이용하는 크로스 채널 예측에 따라, 영상을 부호화하는 방법은,A method of encoding an image according to cross-channel prediction using AI according to an embodiment,

현재 원본 영상 내 원본 루마 영상을 신경망 기반의 루마 인코더에 적용하여 현재 영상 내 루마 영상에 대한 특징 데이터를 획득하고, 상기 루마 영상에 대한 특징 데이터를 신경망 기반의 루마 디코더에 적용하여 상기 루마 영상을 복원하는 단계;The original luma image in the current original image is applied to a neural network-based luma encoder to obtain feature data of the luma image in the current image, and the luma image is restored by applying the feature data of the luma image to a neural network-based luma decoder. doing;

상기 복원된 루마 영상 및 상기 현재 원본 영상 내 원본 크로마 영상을 신경망 기반의 크로스 채널 인코더에 적용하여, 크로스 채널 예측을 위한 특징 데이터를 획득하고, Applying the reconstructed luma image and the original chroma image in the current original image to a neural network-based cross-channel encoder to obtain feature data for cross-channel prediction;

상기 획득된 크로스 채널 예측을 위한 특징 데이터를 신경망 기반의 크로스 채널 디코더에 적용하여 상기 크로스 채널 예측 정보를 획득하는 단계;obtaining the cross-channel prediction information by applying the acquired feature data for cross-channel prediction to a neural network-based cross-channel decoder;

상기 복원된 루마 영상 및 상기 크로스 채널 예측 정보를 기초로, 크로스 채널 예측을 수행하여 상기 크로마 영상의 예측 영상을 획득하는 단계;obtaining a predicted image of the chroma image by performing cross-channel prediction based on the reconstructed luma image and the cross-channel prediction information;

상기 원본 크로마 영상 및 상기 크로마 영상의 예측 영상에 기반하여 획득된 상기 크로마 영상의 레지듀얼 영상을 신경망에 기반한 크로마 레지듀얼 인코더에 적용하여 상기 크로마 영상에 대한 특징 데이터를 획득하는 단계; 및obtaining feature data of the chroma image by applying a residual image of the chroma image obtained based on the original chroma image and a predicted image of the chroma image to a chroma residual encoder based on a neural network; and

상기 루마 영상에 대한 특징 데이터, 상기 크로마 영상에 대한 특징 데이터 및 상기 크로스 채널 예측을 위한 특징 데이터를 포함하는 비트스트림을 생성하는 단계를 포함한다.and generating a bitstream including feature data for the luma image, feature data for the chroma image, and feature data for cross-channel prediction.

상기 크로스 채널 예측을 위한 특징 데이터, 상기 루마 영상에 대한 특징 데이터 및 상기 크로마 영상에 대한 특징 데이터 중 적어도 하나는 양자화 및 엔트로피 부호화될 수 있다.At least one of feature data for cross-channel prediction, feature data for the luma image, and feature data for the chroma image may be quantized and entropy-encoded.

상기 신경망 기반의 크로스 채널 인코더는,The neural network-based cross-channel encoder,

현재 훈련 크로마 영상(current training chroma image)과 상기 현재 훈련 크로마 영상에 대응하는 현재의 복원 훈련 크로마 영상(current reconstructed training chroma image) 사이의 차이에 대응하는 제 1 손실 정보; 및first loss information corresponding to a difference between a current training chroma image and a current reconstructed training chroma image corresponding to the current training chroma image; and

상기 현재 훈련 크로마 영상의 크로스 채널 예측을 위한 특징 데이터의 엔트로피에 대응하는 제 2 손실 정보를 기반으로 훈련될 수 있다.Training may be performed based on second loss information corresponding to entropy of feature data for cross-channel prediction of the current training chroma image.

상기 방법은The above method

상기 현재 영상의 크로마 서브 샘플링 포맷이 YCbCr 4:4:4가 아닌 경우, 상기 복원된 루마 영상에 대한 다운샘플링을 수행하는 단계를 더 포함하고,performing downsampling on the reconstructed luma image when the chroma subsampling format of the current image is not YCbCr 4:4:4;

상기 크로마 영상의 예측 영상을 획득하는 단계는,Obtaining a predicted image of the chroma image,

상기 다운샘플링된 루마 영상 및 상기 크로스 채널 예측 정보를 기초로, 크로스 채널 예측을 수행하여, 상기 크로마 영상의 예측 영상을 획득하는 단계를 포함할 수 있다.and obtaining a predicted image of the chroma image by performing cross-channel prediction based on the downsampled luma image and the cross-channel prediction information.

상기 방법은The above method

상기 현재 영상의 크로마 서브 샘플링 포맷이 YCbCr 4:4:4가 아닌 경우, 상기 복원된 루마 영상에 대한 공간-뎁스 변환(space-to-depth transformation)을 수행하여 다채널의 루마 영상 데이터를 생성하는 단계를 더 포함하고,generating multi-channel luma image data by performing space-to-depth transformation on the reconstructed luma image when the chroma subsampling format of the current image is not YCbCr 4:4:4 Including more steps,

상기 크로마 영상의 예측 영상을 획득하는 단계는,Obtaining a predicted image of the chroma image,

상기 다채널의 루마 영상 데이터 및 상기 크로스 채널 예측 정보를 기초로, 크로스 채널 예측을 수행하여, 상기 크로마 영상의 예측 영상을 획득하는 단계를 포함할 수 있다. The method may include acquiring a predicted image of the chroma image by performing cross-channel prediction based on the multi-channel luma image data and the cross-channel prediction information.

신경망 기반의 크로스 채널 디코더에 상기 크로스 채널 예측을 위한 특징 데이터를 적용하여 크로스 채널 예측 정보를 획득하는 단계는,Obtaining cross-channel prediction information by applying feature data for cross-channel prediction to a neural network-based cross-channel decoder,

신경망 기반의 크로스 채널 디코더에 상기 크로스 채널 예측을 위한 데이터 및 상기 루마 영상에 대한 특징 데이터를 적용하여 크로스 채널 예측 정보를 획득하는 단계를 포함할 수 있다.The method may include obtaining cross-channel prediction information by applying the cross-channel prediction data and feature data of the luma image to a neural network-based cross-channel decoder.

상기 신경망 기반의 크로마 레지듀얼 디코더에 상기 크로마 영상에 대한 특징 데이터를 적용하여 상기 크로마 영상의 레지듀얼 영상을 획득하는 단계를 더 포함하고,Acquiring a residual image of the chroma image by applying feature data of the chroma image to the neural network-based chroma residual decoder;

상기 신경망 기반의 크로마 레지듀얼 디코더에 상기 크로마 영상에 대한 특징 데이터를 적용하여 상기 크로마 영상의 레지듀얼 영상을 획득하는 단계는Acquiring a residual image of the chroma image by applying feature data of the chroma image to the neural network-based chroma residual decoder

상기 신경망 기반의 크로마 레지듀얼 디코더에 상기 루마 영상에 대한 특징 데이터 및 상기 크로스 채널 예측을 위한 특징 데이터 중 적어도 하나를 더 적용하여 상기 크로마 영상의 레지듀얼 영상을 획득하는 단계를 포함할 수 있다.The method may further include obtaining a residual image of the chroma image by further applying at least one of feature data for the luma image and feature data for cross-channel prediction to the neural network-based chroma residual decoder.

일 실시예에 따른 AI를 이용하는 크로스 채널 예측에 따라, 영상을 부호화하는 장치는 An apparatus for encoding an image according to cross-channel prediction using AI according to an embodiment

현재 원본 영상 내 원본 루마 영상을 신경망 기반의 루마 인코더에 적용하여 현재 영상 내 루마 영상에 대한 특징 데이터를 획득하고, 상기 루마 영상에 대한 특징 데이터를 신경망 기반의 루마 디코더에 적용하여 상기 루마 영상을 복원하고,The original luma image in the current original image is applied to a neural network-based luma encoder to obtain feature data of the luma image in the current image, and the luma image is restored by applying the feature data of the luma image to a neural network-based luma decoder. do,

상기 복원된 루마 영상 및 상기 현재 원본 영상 내 원본 크로마 영상을 신경망 기반의 크로스 채널 인코더에 적용하여 크로스 채널 예측을 위한 특징 정보를 획득하고, Applying the reconstructed luma image and the original chroma image in the current original image to a neural network-based cross-channel encoder to obtain feature information for cross-channel prediction;

상기 획득된 크로스 채널 예측을 위한 특징 정보를 신경망 기반의 크로스 채널 디코더에 적용하여 상기 크로스 채널 예측 정보를 획득하고,Obtaining the cross-channel prediction information by applying the acquired feature information for cross-channel prediction to a neural network-based cross-channel decoder;

상기 복원된 루마 영상 및 상기 크로스 채널 예측 정보를 기초로, 크로스 채널 예측을 수행하여 상기 크로마 영상의 예측 영상을 획득하고,Obtaining a predicted image of the chroma image by performing cross-channel prediction based on the reconstructed luma image and the cross-channel prediction information;

상기 원본 크로마 영상 및 상기 크로마 영상의 예측 영상에 기반하여 획득된 상기 크로마 영상의 레지듀얼 영상을 신경망에 기반한 크로마 레지듀얼 인코더에 적용하여 상기 크로마 영상에 대한 특징 데이터를 획득하는 부호화부를 포함하고,An encoder configured to acquire feature data of the chroma image by applying a residual image of the chroma image obtained based on the original chroma image and a predicted image of the chroma image to a chroma residual encoder based on a neural network;

상기 루마 영상에 대한 특징 데이터, 상기 크로마 영상에 대한 특징 데이터 및 상기 크로스 채널 예측을 위한 특징 데이터를 포함하는 비트스트림을 생성하는 비트스트림 생성부를 포함한다.and a bitstream generator configured to generate a bitstream including feature data of the luma image, feature data of the chroma image, and feature data for cross-channel prediction.

일 실시예에 따른 AI를 이용하는 크로스 채널 예측(Cross Channel Prediction)에 따라, 레지듀얼 영상을 복원하는 방법은,A method of restoring a residual image according to cross channel prediction using AI according to an embodiment includes:

비트스트림으로부터, 크로스 채널 예측을 위한 특징 데이터를 획득하는 단계;obtaining feature data for cross-channel prediction from the bitstream;

상기 비트스트림으로부터, 현재 영상 내 루마 레지듀얼 영상에 대한 특징 데이터 및 현재 영상 내 크로마 레지듀얼 영상에 대한 특징 데이터를 획득하는 단계;acquiring feature data of a luma residual image in the current image and feature data of a chroma residual image in the current image, from the bitstream;

신경망 기반의 루마 레지듀얼 디코더에 상기 루마 레지듀얼 영상에 대한 특징 데이터를 적용하여 상기 루마 레지듀얼 영상을 복원하는 단계;restoring the luma residual image by applying feature data of the luma residual image to a neural network-based luma residual decoder;

신경망 기반의 크로스 채널 디코더에 상기 크로스 채널 예측을 위한 특징 데이터를 적용하여 크로스 채널 예측 정보를 획득하는 단계;obtaining cross-channel prediction information by applying feature data for cross-channel prediction to a neural network-based cross-channel decoder;

상기 복원된 루마 레지듀얼 영상 및 상기 크로스 채널 예측 정보를 기초로, 크로스 채널 예측을 수행하여, 상기 크로마 레지듀얼 영상의 예측 영상을 획득하는 단계;obtaining a predicted image of the chroma residual image by performing cross-channel prediction based on the reconstructed luma residual image and the cross-channel prediction information;

신경망 기반의 크로마 레지듀얼의 레지듀얼 디코더에 상기 크로마 레지듀얼 영상에 대한 특징 데이터를 적용하여 상기 크로마 레지듀얼 영상의 레지듀얼 영상을 획득하는 단계;obtaining a residual image of the chroma residual image by applying feature data of the chroma residual image to a neural network-based chroma residual decoder;

상기 크로마 레지듀얼 영상의 예측 영상 및 상기 크로마 레지듀얼 영상의 레지듀얼 영상을 기초로, 상기 크로마 레지듀얼 영상을 복원하는 단계를 포함한다.and restoring the chroma residual image based on a predicted image of the chroma residual image and a residual image of the chroma residual image.

일 실시예에 따른, AI를 이용하는 크로스 채널 예측(Cross Channel Prediction)에 따라, 레지듀얼 영상을 부호화하는 방법은,According to an embodiment, a method of encoding a residual image according to cross channel prediction using AI includes:

현재 영상의 루마 레지듀얼 영상을 신경망 기반의 루마 레지듀얼 인코더에 적용하여 상기 루마 레지듀얼 영상에 대한 특징 데이터를 획득하고, 상기 루마 레지듀얼 영상에 대한 특징 데이터를 신경망 기반의 루마 레지듀얼 디코더에 적용하여 상기 루마 레지듀얼 영상을 복원하는 단계;The luma residual image of the current image is applied to a neural network-based luma residual encoder to obtain feature data of the luma residual image, and the feature data of the luma residual image is applied to a neural network-based luma residual decoder. restoring the luma residual image;

상기 복원된 루마 레지듀얼 영상 및 상기 현재 영상의 크로마 레지듀얼 영상을 신경망 기반의 크로스 채널 인코더에 적용하여 크로스 채널 예측을 위한 특징 데이터를 획득하고, Obtaining feature data for cross-channel prediction by applying the reconstructed luma residual image and chroma residual image of the current image to a neural network-based cross-channel encoder;

상기 획득된 크로스 채널 예측을 위한 특징 데이터를 신경망 기반의 크로스 채널 디코더에 적용하여 상기 크로스 채널 예측 정보를 획득하는 단계;obtaining the cross-channel prediction information by applying the acquired feature data for cross-channel prediction to a neural network-based cross-channel decoder;

상기 복원된 루마 레지듀얼 영상 및 상기 크로스 채널 예측 정보를 기초로, 크로스 채널 예측을 수행하여 상기 크로마 레지듀얼 영상의 예측 영상을 획득하는 단계;obtaining a predicted image of the chroma residual image by performing cross-channel prediction based on the reconstructed luma residual image and the cross-channel prediction information;

상기 크로마 레지듀얼 영상의 레지듀얼 영상 및 상기 크로마 레지듀얼 영상의 예측 영상에 기반하여 획득된 크로마 레지듀얼 영상을 신경망에 기반한 크로마 레지듀얼의 레지듀얼 인코더에 적용하여, 상기 크로마 레지듀얼 영상에 대한 특징 데이터를 획득하는 단계; 및Characteristics of the chroma residual image by applying the chroma residual image obtained based on the residual image of the chroma residual image and the predicted image of the chroma residual image to a chroma residual encoder based on a neural network. acquiring data; and

상기 루마 레지듀얼 영상에 대한 특징 데이터, 상기 크로마 레지듀얼 영상에 대한 특징 데이터 및 상기 크로스 채널 예측을 위한 특징 데이터를 포함하는 비트스트림을 생성하는 단계를 포함한다.and generating a bitstream including feature data for the luma residual image, feature data for the chroma residual image, and feature data for cross-channel prediction.

일 실시예에 따른 영상의 부호화 및 복호화 장치, 및 이에 의한 방법은 크로스 채널 예측을 통해 영상에 대한 시그널링을 적은 비트레이트로 가능케할 수 있다.An apparatus for encoding and decoding an image according to an embodiment, and a method using the same, may enable signaling of an image at a low bit rate through cross-channel prediction.

또한, 일 실시예에 따른 영상의 부호화 및 복호화 장치, 및 이에 의한 방법은 적은 비트레이트의 비트스트림으로부터 영상을 정확하게 복원할 수 있다.In addition, an apparatus for encoding and decoding an image according to an embodiment, and a method using the same, can accurately reconstruct an image from a bitstream with a low bit rate.

도 1은 영상에 대한 AI 기반의 크로스 채널 예측 과정의 모티브가 되는 영상에 대한 AI 기반의 인터 예측 과정을 도시하는 도면이다.
도 2a는 일 실시예에 따른 영상 복호화 장치의 구성을 도시하는 도면이다.
도 2b는 일 실시예에 따른 영상 복호화 장치의 구성을 도시하는 도면이다.
도 3은 도 2a에 도시된 획득부의 구성을 도시하는 도면이다.
도 4a는 도 2a에 도시된 영상 복호화부의 구성을 도시하는 도면이다.
도 4b 는 도 2b에 도시된 영상 복호화부의 구성을 도시하는 도면이다.
도 5a는 본 개시의 일 실시예에 따른 영상 복호화 방법의 흐름도를 도시한다.
도 5b는 본 개시의 다른 실시예에 따른 영상 복호화 방법의 흐름도를 도시한다.
도 6a는 일 실시예에 따른 영상 부호화 장치의 구성을 도시하는 도면이다.
도 6b는 일 실시예에 따른 영상 부호화 장치의 구성을 도시하는 도면이다.
도 7은 도 6a에 도시된 영상 부호화부의 구성을 도시하는 도면이다.
도 8는 도 6에 도시된 비트스트림 생성부의 구성을 도시하는 도면이다.
도 9a는 본 개시의 일 실시예에 따른 영상 부호화 방법의 흐름도를 도시한다.
도 9b는 본 개시의 일 실시예에 따른 영상 부호화 방법의 흐름도를 도시한다.
도 10a는 일 실시예에 따른 크로스 채널 예측을 설명하기 위한 도면이다.
도 10b는 일 실시예에 따른 크로스 채널 예측을 위한 영상의 부호화 장치 및 영상 복호화 장치의 쌍을 설명하기 위한 도면이다.
도 11a는 일 실시예에 따른, 크로스 채널 예측을 설명하기 위한 도면이다.
도 11b는 일 실시예에 따른 크로스 채널 예측을 위한 영상의 부호화 장치 및 영상 복호화 장치의 쌍을 설명하기 위한 도면이다.
도 12a는 일 실시예에 따른, 크로스 채널 예측을 설명하기 위한 도면이다.
도 12b는 일 실시예에 따른 크로스 채널 예측을 위한 영상의 부호화 장치 및 영상 복호화 장치의 쌍을 설명하기 위한 도면이다.
도 13은 일 실시예에 따른 영상 부호화 장치 및 영상 복호화 장치의 쌍을 설명하기 위한 도면이다.
도 14는 일 실시예에 따른 영상 부호화 장치 및 영상 복호화 장치의 쌍을 설명하기 위한 도면이다.
도 15는 일 실시예에 따른 영상 부호화 장치 및 영상 복호화 장치의 쌍을 설명하기 위한 도면이다.
도 16은 일 실시예에 따른 영상 부호화 장치 및 영상 복호화 장치의 쌍을 설명하기 위한 도면이다.
도 17은 일 실시예에 따른 영상 부호화 장치 및 영상 복호화 장치의 쌍을 설명하기 위한 도면이다.
도 18은 일 실시예에 따른 영상 부호화 장치 및 영상 복호화 장치의 쌍을 설명하기 위한 도면이다.
도 19는 일 실시예에 따른 신경망의 구조를 예시하는 도면이다.
도 20을 참조하여, 제 1 컨볼루션 레이어(1910)에서의 컨볼루션 연산에 대해 상세히 설명한다.
도 21은 제 1 디코더(231), 제 1 인코더(611), 제 2 디코더(232), 제 2 인코더(612), 제 3 디코더(234), 제 3 인코더(614)의 훈련 방법을 설명하기 위한 도면이다.
도 22는 훈련 장치(2200)에 의한 제 1 디코더(231), 제 2 디코더(232), 제 3 디코더(234), 제 1 인코더(611), 제 2 인코더(612) 및 제 3 인코더(614)에서 이용되는 신경망의 훈련 과정을 설명하기 위한 도면이다.
1 is a diagram illustrating an AI-based inter prediction process for an image, which is a motif of an AI-based cross-channel prediction process for an image.
2A is a diagram illustrating a configuration of a video decoding apparatus according to an exemplary embodiment.
2B is a diagram illustrating a configuration of an image decoding apparatus according to an exemplary embodiment.
FIG. 3 is a diagram showing the configuration of the acquisition unit shown in FIG. 2A.
FIG. 4A is a diagram showing the configuration of the video decoding unit shown in FIG. 2A.
FIG. 4B is a diagram showing the configuration of the video decoding unit shown in FIG. 2B.
5A is a flowchart of an image decoding method according to an embodiment of the present disclosure.
5B is a flowchart of an image decoding method according to another embodiment of the present disclosure.
6A is a diagram illustrating a configuration of an image encoding apparatus according to an exemplary embodiment.
6B is a diagram showing the configuration of an image encoding apparatus according to an embodiment.
FIG. 7 is a diagram showing the configuration of the video encoder shown in FIG. 6A.
FIG. 8 is a diagram showing the configuration of the bitstream generator shown in FIG. 6 .
9A is a flowchart of an image encoding method according to an embodiment of the present disclosure.
9B is a flowchart of an image encoding method according to an embodiment of the present disclosure.
10A is a diagram for explaining cross-channel prediction according to an embodiment.
10B is a diagram for explaining a pair of an image encoding device and an image decoding device for cross-channel prediction according to an exemplary embodiment.
11A is a diagram for explaining cross-channel prediction according to an embodiment.
11B is a diagram for explaining a pair of an image encoding device and an image decoding device for cross-channel prediction according to an embodiment.
12A is a diagram for explaining cross-channel prediction according to an embodiment.
12B is a diagram for explaining a pair of an image encoding device and an image decoding device for cross-channel prediction according to an embodiment.
13 is a diagram for explaining a pair of an image encoding device and an image decoding device according to an exemplary embodiment.
14 is a diagram for explaining a pair of an image encoding device and an image decoding device according to an exemplary embodiment.
15 is a diagram for explaining a pair of an image encoding device and an image decoding device according to an exemplary embodiment.
16 is a diagram for explaining a pair of an image encoding device and an image decoding device according to an exemplary embodiment.
17 is a diagram for explaining a pair of an image encoding device and an image decoding device according to an exemplary embodiment.
18 is a diagram for explaining a pair of an image encoding device and an image decoding device according to an exemplary embodiment.
19 is a diagram illustrating the structure of a neural network according to an embodiment.
Referring to FIG. 20 , the convolution operation in the first convolution layer 1910 will be described in detail.
21 illustrates a training method of the first decoder 231, the first encoder 611, the second decoder 232, the second encoder 612, the third decoder 234, and the third encoder 614. It is a drawing for
22 shows a first decoder 231, a second decoder 232, a third decoder 234, a first encoder 611, a second encoder 612 and a third encoder 614 by the training apparatus 2200. ) is a diagram for explaining the training process of the neural network used in.

본 개시는 다양한 변경을 가할 수 있고 여러 가지 실시예를 가질 수 있는 바, 특정 실시예들을 도면에 예시하고, 이를 상세한 설명을 통해 상세히 설명하고자 한다. 그러나, 이는 본 개시의 실시 형태에 대해 한정하려는 것이 아니며, 본 개시는 여러 실시예들의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다.Since the present disclosure may have various changes and various embodiments, specific embodiments are illustrated in the drawings, and will be described in detail through detailed description. However, this is not intended to limit the embodiments of the present disclosure, and it should be understood that the present disclosure includes all modifications, equivalents, and substitutes included in the spirit and scope of the various embodiments.

실시예를 설명함에 있어서, 관련된 공지 기술에 대한 구체적인 설명이 본 개시의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다. 또한, 명세서의 설명 과정에서 이용되는 숫자(예를 들어, 제 1, 제 2 등)는 하나의 구성요소를 다른 구성요소와 구분하기 위한 식별기호에 불과하다.In describing the embodiments, if it is determined that a detailed description of a related known technology may unnecessarily obscure the subject matter of the present disclosure, the detailed description will be omitted. In addition, numbers (eg, 1st, 2nd, etc.) used in the description process of the specification are only identifiers for distinguishing one component from another.

또한, 본 명세서에서, 일 구성요소가 다른 구성요소와 "연결된다" 거나 "접속된다" 등으로 언급된 때에는, 상기 일 구성요소가 상기 다른 구성요소와 직접 연결되거나 또는 직접 접속될 수도 있지만, 특별히 반대되는 기재가 존재하지 않는 이상, 중간에 또 다른 구성요소를 매개하여 연결되거나 또는 접속될 수도 있다고 이해되어야 할 것이다.In addition, in this specification, when one component is referred to as “connected” or “connected” to another component, the one component may be directly connected or directly connected to the other component, but in particular Unless otherwise described, it should be understood that they may be connected or connected via another component in the middle.

또한, 본 명세서에서 '~부(유닛)', '모듈' 등으로 표현되는 구성요소는 2개 이상의 구성요소가 하나의 구성요소로 합쳐지거나 또는 하나의 구성요소가 보다 세분화된 기능별로 2개 이상으로 분화될 수도 있다. 또한, 이하에서 설명할 구성요소 각각은 자신이 담당하는 주기능 이외에도 다른 구성요소가 담당하는 기능 중 일부 또는 전부의 기능을 추가적으로 수행할 수도 있으며, 구성요소 각각이 담당하는 주기능 중 일부 기능이 다른 구성요소에 의해 전담되어 수행될 수도 있음은 물론이다.In addition, in the present specification, components expressed as '~ unit (unit)', 'module', etc. are two or more components combined into one component, or one component is divided into two or more components for each more subdivided function. may be differentiated into In addition, each of the components to be described below may additionally perform some or all of the functions of other components in addition to its own main function, and some of the main functions of each component may be different from other components. Of course, it may be performed exclusively by a component.

또한, 본 명세서에서, '영상(image)'은 정지영상(또는 프레임), 복수의 연속된 정지영상으로 구성된 동영상, 또는 비디오를 의미할 수 있다.In addition, in this specification, an 'image' may mean a still image (or frame), a motion picture composed of a plurality of continuous still images, or a video.

또한, 본 명세서에서 '신경망(neural network)'은 뇌 신경을 모사한 인공 신경망 모델의 대표적인 예시로서, 특정 알고리즘을 사용한 인공 신경망 모델로 한정되지 않는다. 신경망은 심층 신경망(deep neural network)으로 참조될 수도 있다. In addition, in the present specification, a 'neural network' is a representative example of an artificial neural network model that mimics a cranial nerve, and is not limited to an artificial neural network model using a specific algorithm. A neural network may also be referred to as a deep neural network.

또한, 본 명세서에서 '파라미터(parameter)'는 신경망을 이루는 각 레이어의 연산 과정에서 이용되는 값으로서 예를 들어, 입력 값을 소정 연산식에 적용할 때 이용될 수 있다. 파라미터는 훈련의 결과로 설정되는 값으로서, 필요에 따라 별도의 훈련 데이터(training data)를 통해 갱신될 수 있다.Also, in this specification, a 'parameter' is a value used in the calculation process of each layer constituting a neural network, and may be used, for example, when an input value is applied to a predetermined calculation formula. A parameter is a value set as a result of training and can be updated through separate training data as needed.

또한, 본 명세서에서 '특징 데이터'는 신경망 기반의 인코더가 입력 데이터를 처리함으로써 획득되는 데이터를 의미한다. 특징 데이터는 여러 샘플들을 포함하는 1차원 또는 2차원의 데이터일 수 있다. 특징 데이터는 잠재 벡터(latent vector) 또는 잠재 표현(latent representation)으로 참조될 수도 있다. 특징 데이터는 후술하는 디코더가 출력하는 데이터에 잠재된 특징을 나타낸다.Also, in this specification, 'feature data' refers to data obtained by processing input data by a neural network-based encoder. The feature data may be one-dimensional or two-dimensional data including several samples. Feature data may be referred to as a latent vector or latent representation. The feature data represents latent features of data output by a decoder described later.

'크로스 채널 예측을 위한 특징 데이터'는 크로스 채널 예측을 위한 스케일 파라미터 값 및 바이어스 파라미터 값을 나타낼 수 있다. 여기서, 스케일 파라미터 값은 복원 루마 영상의 샘플값과 엘리먼트별 곱셈 연산이 수행되는 값이고, 바이어스 파라미터 값은 스케일 파라미터와 복원 루마 영상의 샘플값과 엘리먼트별 곱셈 연산을 수행하여 획득된 결과값에 엘리먼트별 덧셈 연산이 수행되는 값일 수 있다. '크로스 채널 예측을 위한 특징 데이터'는 '크로스 채널 플로우'로 참조 될 수 있다. 'Feature data for cross-channel prediction' may represent a scale parameter value and a bias parameter value for cross-channel prediction. Here, the scale parameter value is a value obtained by performing an element-by-element multiplication operation with a sample value of the reconstructed luma image, and the bias parameter value is a value obtained by performing an element-by-element multiplication operation with the sample value of the reconstructed luma image. It may be a value for which a star addition operation is performed. 'Feature data for cross-channel prediction' may be referred to as 'cross-channel flow'.

'크로스 채널 플로우'는 각 픽셀 별 움직임 벡터를 갖는 도 1의 옵티컬 플로우에 대응되는 개념일 수 있다. 'Cross-channel flow' may be a concept corresponding to the optical flow of FIG. 1 having a motion vector for each pixel.

현재 영상 내 블록들 또는 샘플들과 이전 복원 영상 내 참조 블록들 또는 참조 샘플들 사이의 위치 차이(또는 움직임 벡터)가 현재 영상의 부호화 및 복호화에 이용된다. 이러한 위치 차이는 옵티컬 플로우로 참조될 수 있다. 옵티컬 플로우는 영상 내 샘플들 또는 블록들에 대응하는 움직임 벡터들의 집합으로 정의될 수도 있다. Position differences (or motion vectors) between blocks or samples in the current image and reference blocks or reference samples in the previous reconstruction image are used for encoding and decoding of the current image. This positional difference may be referred to as optical flow. An optical flow may be defined as a set of motion vectors corresponding to samples or blocks in an image.

옵티컬 플로우와 유사하게, 크로스 채널 플로우는 루마 성분의 샘플을 크로마 성분의 샘플로 변환하기 위한 선형 모델의 파라미터들을 포함하는 집합으로 정의될 수 있다. 이때, 선형 모델의 파라미터는 스케일과 바이어스를 포함할 수 있다. 크로스 채널 플로우를 기반으로, 루마 채널(루마 성분의 샘플들)로부터 크로마 채널(크로마 성분의 샘플들)이 예측될 수 있다.Similar to the optical flow, the cross-channel flow may be defined as a set including parameters of a linear model for converting luma component samples to chroma component samples. In this case, parameters of the linear model may include scale and bias. Based on the cross-channel flow, a chroma channel (samples of a chroma component) can be predicted from a luma channel (samples of a luma component).

또한, 본 명세서에서, '샘플'은 영상 또는 특징 데이터 내 샘플링 위치에 할당된 데이터로서 처리 대상이 되는 데이터를 의미한다. 예를 들어, 샘플은 2차원의 영상 내 픽셀을 포함할 수 있다.In addition, in the present specification, 'sample' refers to data to be processed as data allocated to a sampling position in image or feature data. For example, a sample may include a pixel in a 2D image.

도 1은 영상에 대한 AI 기반의 크로스 채널 예측 과정의 모티브가 되는 영상에 대한 AI 기반의 인터 예측 과정을 도시하는 도면이다.1 is a diagram illustrating an AI-based inter prediction process for an image, which is a motif of an AI-based cross-channel prediction process for an image.

도 1은 현재 영상(xi)의 부호화 및 복호화 과정을 도시하고 있는데, 인터 예측에서는 제 1 인코더(110), 제 2 인코더(130), 제 1 디코더(150) 및 제 2 디코더(170)가 이용된다. 제 1 인코더(110), 제 2 인코더(130), 제 1 디코더(150) 및 제 2 디코더(170)는 신경망으로 구현된다.1 shows a process of encoding and decoding a current image (x i ). In inter prediction, a first encoder 110, a second encoder 130, a first decoder 150, and a second decoder 170 are used. used The first encoder 110, the second encoder 130, the first decoder 150, and the second decoder 170 are implemented as neural networks.

인터 예측은 현재 영상(xi)과 이전 복원 영상(yi-1) 사이의 시간적 중복성을 이용하여 현재 영상(xi)을 부호화 및 복호화하는 과정이다. Inter prediction is a process of encoding and decoding a current image (x i ) by using temporal redundancy between a current image (x i ) and a previous reconstructed image (y i-1 ).

현재 영상(xi) 내 블록들 또는 샘플들과 이전 복원 영상(yi-1) 내 참조 블록들 또는 참조 샘플들 사이의 위치 차이(또는 움직임 벡터)가 현재 영상(xi)의 부호화 및 복호화에 이용된다. 이러한 위치 차이는 옵티컬 플로우로 참조될 수 있다. 옵티컬 플로우는 영상 내 샘플들 또는 블록들에 대응하는 움직임 벡터들의 집합으로 정의될 수도 있다.The position difference (or motion vector) between the blocks or samples in the current image (x i ) and the reference blocks or reference samples in the previous reconstructed image (y i-1 ) is used to encode and decode the current image (x i ). is used for This positional difference may be referred to as optical flow. An optical flow may be defined as a set of motion vectors corresponding to samples or blocks in an image.

옵티컬 플로우는 이전 복원 영상(yi-1) 내 샘플들의 위치가 현재 영상(xi) 내에서 어떻게 변경되었는지, 또는 현재 영상(xi)의 샘플들이 이전 복원 영상(yi-1) 내 어디에 위치하는지를 나타낸다. 예를 들어, 현재 영상(xi) 내 (1, 1)에 위치한 샘플이 이전 복원 영상(yi-1) 내 (2, 1)에 위치한다면, 해당 샘플에 대한 옵티컬 플로우 또는 움직임 벡터는 (1(=2-1), 0(=1-1))으로 도출될 수 있다.The optical flow determines how the positions of the samples in the previous reconstructed image (y i-1 ) have changed in the current image (x i ), or where the samples in the current image (x i ) are in the previous reconstructed image (y i-1 ). indicates where it is located. For example, if the sample located at (1, 1) in the current image (x i ) is located at (2, 1) in the previous reconstructed image (y i-1 ), the optical flow or motion vector for the sample is ( It can be derived as 1 (= 2-1), 0 (= 1-1)).

AI를 이용한 영상의 부호화 및 복호화 과정에서는 현재 영상(xi)에 대한 현재 옵티컬 플로우(gi)를 획득하기 위해 제 1 인코더(110) 및 제 1 디코더(150)를 이용한다.In the process of encoding and decoding an image using AI, the first encoder 110 and the first decoder 150 are used to obtain a current optical flow g i for the current image x i .

구체적으로, 이전 복원 영상(yi-1)과 현재 영상(xi)이 제 1 인코더(110)로 입력된다. 제 1 인코더(110)는 훈련의 결과로 설정된 파라미터에 따라 현재 영상(xi)과 이전 복원 영상(yi-1)을 처리하여 현재 옵티컬 플로우에 대한 특징 데이터(wi)를 출력한다. Specifically, the previous reconstructed image (y i-1 ) and the current image (x i ) are input to the first encoder 110 . The first encoder 110 processes the current image (x i ) and the previous reconstructed image (y i−1 ) according to parameters set as a result of training, and outputs feature data (w i ) for the current optical flow.

현재 옵티컬 플로우에 대한 특징 데이터(wi)는 현재 옵티컬 플로우에 잠재된 특징을 나타낸다.Characteristic data (w i ) of the current optical flow represents latent characteristics of the current optical flow.

현재 옵티컬 플로우에 대한 특징 데이터(wi)는 제 1 디코더(150)로 입력된다. 제 1 디코더(150)는 입력된 특징 데이터(wi)를 훈련의 결과로 설정된 파라미터에 따라 처리하여 현재 옵티컬 플로우(gi)를 출력한다.Feature data w i for the current optical flow is input to the first decoder 150 . The first decoder 150 processes the input feature data (w i ) according to parameters set as a training result and outputs the current optical flow (gi ) .

이전 복원 영상(yi-1)은 현재 옵티컬 플로우(gi)에 따라 워핑(190)되고, 워핑(190)의 결과로 현재 예측 영상(x'i)이 획득된다. 워핑(190)이란, 영상 내 샘플들의 위치를 이동시키는 기하학적 변형의 한 종류이다. 이전 복원 영상(yi-1) 내 샘플들과 현재 영상(xi) 내 샘플들 사이의 상대적인 위치 관계를 나타내는 옵티컬 플로우(gi)에 따라 이전 복원 영상(yi-1)을 워핑(190)함으로써 현재 영상(xi)과 유사한 현재 예측 영상(x'i)이 획득된다. 예를 들어, 이전 복원 영상(yi-1) 내 (1, 1)에 위치한 샘플이 현재 영상(xi) 내 (2, 1)에 위치하는 샘플과 가장 유사하다면, 워핑(190)을 통해 이전 복원 영상(yi-1) 내 (1, 1)에 위치한 샘플의 위치가 (2, 1)로 변경될 수 있다.The previous reconstructed image (y i−1 ) is warped (190) according to the current optical flow (gi ) , and as a result of the warping (190), the current prediction image (x′ i ) is obtained. Warping 190 is a type of geometric transformation that moves the positions of samples in an image. Warping 190 the previous reconstructed image (y i-1 ) according to the optical flow (gi ) representing the relative positional relationship between the samples in the previous reconstructed image (y i -1 ) and the samples in the current image (x i ) ), a current predicted image (x′ i ) similar to the current image (x i ) is obtained. For example, if the sample located at (1, 1) in the previous reconstruction image (y i-1 ) is most similar to the sample located at (2, 1) in the current image (x i ), warping 190 is performed. The position of the sample located at (1, 1) in the previous reconstruction image (y i-1 ) may be changed to (2, 1).

이전 복원 영상(yi-1)으로부터 생성된 현재 예측 영상(x'i)은 현재 영상(xi) 자체가 아니므로, 현재 예측 영상(x'i)과 현재 영상(xi) 사이의 차이에 대응하는 현재의 잔차 영상 데이터(ri)가 획득될 수 있다. Since the current predicted image (x' i ) generated from the previous reconstructed image (y i-1 ) is not the current image (x i ) itself, the difference between the current predicted image (x' i ) and the current image (x i ) Current residual image data (r i ) corresponding to may be obtained.

일 예로, 현재 영상(xi) 내 샘플 값들로부터 현재 예측 영상(x'i) 내 샘플 값들을 차감함으로써 현재의 잔차 영상 데이터(ri)가 획득될 수 있다.For example, the current residual image data (r i ) may be obtained by subtracting sample values in the current prediction image (x' i ) from sample values in the current image (x i ).

현재의 잔차 영상 데이터(ri)는 제 2 인코더(130)로 입력된다. 제 2 인코더(130)는 훈련의 결과로 설정된 파라미터에 따라 현재의 잔차 영상 데이터(ri)를 처리하여 현재의 잔차 영상 데이터에 대한 특징 데이터(vi)를 출력한다.The current residual image data r i is input to the second encoder 130 . The second encoder 130 processes the current residual image data (r i ) according to parameters set as a result of training and outputs feature data (v i ) of the current residual image data.

현재의 잔차 영상 데이터에 대한 특징 데이터(vi)는 제 2 디코더(170)로 입력된다. 제 2 디코더(170)는 입력된 특징 데이터(vi)를 훈련의 결과로 설정된 파라미터에 따라 처리하여 현재의 잔차 영상 데이터(r'i)를 출력한다.Feature data v i of the current residual image data is input to the second decoder 170 . The second decoder 170 processes the input feature data v i according to parameters set as a training result and outputs current residual image data r' i .

이전 복원 영상(yi-1)에 대한 워핑(190)을 통해 생성된 현재 예측 영상(x'i)과 현재의 잔차 영상 데이터(r'i)의 결합을 통해 현재 복원 영상(yi)이 획득된다.The current reconstructed image (y i ) is obtained by combining the current prediction image (x' i ) generated through warping 190 of the previous reconstructed image (y i-1 ) and the current residual image data (r' i ) . is obtained

도 1에 도시된 인터 예측 과정에서는, 제 1 인코더(110)를 통해 획득된 현재 옵티컬 플로우에 대한 특징 데이터(wi)가 제 1 디코더(150)로 입력된다. In the inter prediction process shown in FIG. 1 , feature data w i of the current optical flow acquired through the first encoder 110 is input to the first decoder 150 .

현재 영상(xi)의 부호화 및 복호화 과정을 부호화 장치의 관점에서 보면, 부호화 장치는 현재 옵티컬 플로우에 대한 특징 데이터(wi)를 복호화 장치로 시그널링하기 위해 현재 옵티컬 플로우에 대한 특징 데이터(wi)에 대응하는 비트스트림을 생성하여야 한다. 그러나, 현재 영상(xi)과 이전 영상(xi-1)에 포함된 오브젝트의 움직임이 큰 경우, 현재 옵티컬 플로우에 포함된 샘플 값들의 크기가 크므로, 현재 옵티컬 플로우에 잠재된 특성을 나타내는 특징 데이터(wi)에 기반하여 생성된 비트스트림의 비트레이트 역시 커질 수 있다.Looking at the encoding and decoding process of the current image (x i ) from the viewpoint of the encoding device, the encoding device generates the feature data (w i ) of the current optical flow in order to signal the feature data (w i ) of the current optical flow to the decoding device. ), a bitstream corresponding to the bitstream must be generated. However, when the movement of objects included in the current image (x i ) and the previous image (x i-1 ) is large, sample values included in the current optical flow are large, indicating latent characteristics of the current optical flow. The bitrate of the bitstream generated based on the feature data (w i ) may also increase.

이하에서 설명되는 실시예들은, 인터 예측의 옵티컬 플로우에 대응되는 크로스 채널 플로우를 이용하여 크로스 채널 예측을 수행하는 방법에 대한 실시예들이다. 크로스 채널 플로우 및 크로스 채널 플로우에 기초한 크로스 채널 예측에 대한 구체적인 설명은 도 10a 및 10b 등을 참조하여 후술하겠다.Embodiments described below are embodiments of a method of performing cross-channel prediction using a cross-channel flow corresponding to an optical flow of inter prediction. A detailed description of cross-channel flow and cross-channel prediction based on the cross-channel flow will be described later with reference to FIGS. 10A and 10B.

도 2a는 일 실시예에 따른 영상 복호화 장치의 구성을 도시하는 도면이다. 2A is a diagram illustrating a configuration of a video decoding apparatus according to an exemplary embodiment.

도 2a를 참조하면, 일 실시예에 따른 영상 복호화 장치(200)는 획득부(210) 및 영상 복호화부(230)를 포함한다.Referring to FIG. 2A , an image decoding apparatus 200 according to an embodiment includes an acquisition unit 210 and an image decoding unit 230.

획득부(210) 및 영상 복호화부(230)는 프로세서로 구현될 수 있고, 획득부(210) 및 영상 복호화부(230)는 메모리(미도시)에 저장된 인스트럭션에 따라 동작할 수 있다.The acquisition unit 210 and the image decoding unit 230 may be implemented as a processor, and the acquisition unit 210 and the image decoding unit 230 may operate according to instructions stored in a memory (not shown).

도 2a는 획득부(210) 및 영상 복호화부(230)를 개별적으로 도시하고 있으나, 획득부(210) 및 영상 복호화부(230)는 하나의 프로세서를 통해 구현될 수 있다. 이 경우, 획득부(310) 및 영상 복호화부(230)는 전용 프로세서로 구현될 수도 있고, AP(application processor), CPU(central processing unit) 또는 GPU(graphic processing unit)와 같은 범용 프로세서와 소프트웨어의 조합을 통해 구현될 수도 있다. 또한, 전용 프로세서의 경우, 본 개시의 실시예를 구현하기 위한 메모리를 포함하거나, 외부 메모리를 이용하기 위한 메모리 처리부를 포함할 수 있다. Although FIG. 2A shows the acquisition unit 210 and the image decoding unit 230 separately, the acquisition unit 210 and the image decoding unit 230 may be implemented by a single processor. In this case, the acquisition unit 310 and the image decoding unit 230 may be implemented as a dedicated processor, and may be implemented by a general-purpose processor such as an AP (application processor), CPU (central processing unit) or GPU (graphic processing unit) and software. It can also be implemented through a combination. In addition, a dedicated processor may include a memory for implementing an embodiment of the present disclosure or a memory processing unit for using an external memory.

획득부(210) 및 영상 복호화부(230)는 복수의 프로세서로 구성될 수도 있다. 이 경우, 전용 프로세서들의 조합으로 구현될 수도 있고, AP, CPU, 또는 GPU와 같은 다수의 범용 프로세서들과 소프트웨어의 조합을 통해 구현될 수도 있다.The acquisition unit 210 and the image decoding unit 230 may be composed of a plurality of processors. In this case, it may be implemented with a combination of dedicated processors, or it may be implemented with a combination of software and a plurality of general-purpose processors such as APs, CPUs, or GPUs.

획득부(210)는 현재 영상에 대한 부호화 결과를 포함하는 비트스트림을 획득한다. The acquisition unit 210 obtains a bitstream including an encoding result of the current video.

획득부(210)는 후술하는 영상 부호화 장치(600)로부터 네트워크를 통해 비트스트림을 수신할 수 있다. 일 실시예에서, 획득부(210)는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체, CD-ROM 및 DVD와 같은 광기록 매체, 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical medium) 등을 포함하는 데이터 저장 매체로부터 비트스트림을 획득할 수도 있다.The acquisition unit 210 may receive a bitstream from an image encoding device 600 to be described later through a network. In one embodiment, the acquisition unit 210 may be a magnetic medium such as a hard disk, a floppy disk and a magnetic tape, an optical recording medium such as a CD-ROM and a DVD, and a magneto-optical medium such as a floptical disk. -optical medium) and the like may obtain a bitstream from a data storage medium.

획득부(210)는 비트스트림을 파싱하여 루마 영상에 대한 특징 데이터를 획득할 수 있다. The acquisition unit 210 may acquire feature data of a luma image by parsing the bitstream.

획득부(210)는 비트스트림을 파싱하여 크로마 영상에 대한 특징 데이터를 획득할 수 있다. 크로마 영상에 대한 특징 데이터는 크로마 영상의 레지듀얼 영상의 특징 데이터를 포함할 수 있다. 크로스 채널 예측을 통해 크로마 영상의 예측 영상이 생성될 수 있고, 따라서, 크로스 채널 예측을 통해 크로마 영상의 원본 영상과 예측 영상의 차이를 나타내는 크로마 영상의 레지듀얼 영상의 특징 데이터를 복호화하여 크로마 영상의 레지듀얼 영상이 획득될 수 있다. 크로마 영상의 레지듀얼 영상과 크로마 영상의 예측 영상을 기초로 크로마 영상의 복원 영상이 생성될 수 있다.The acquisition unit 210 may obtain feature data of a chroma image by parsing the bitstream. Feature data of the chroma image may include feature data of a residual image of the chroma image. A predicted image of a chroma image may be generated through cross-channel prediction, and thus, feature data of a residual image of a chroma image representing a difference between an original image and a predicted image of a chroma image may be decoded through cross-channel prediction to generate a chroma image. A residual image may be acquired. A reconstructed image of a chroma image may be generated based on a residual image of the chroma image and a predicted image of the chroma image.

획득부(210)는 비트스트림을 파싱하여 크로스 채널 예측을 위한 특징 데이터를 획득할 수 있다. 크로스 채널 예측을 위한 특징 데이터는 크로스 채널 플로우의 특징 데이터를 포함할 수 있다. 크로스 채널 플로우는 스케일 파라미터과 바이어스 파라미터를 포함할 수 있다. 스케일 파라미터과 바이어스 파라미터는 크로스 채널 예측을 위한 선형 모델의 파라미터를 의미한다.The acquisition unit 210 may acquire feature data for cross-channel prediction by parsing the bitstream. Feature data for cross-channel prediction may include feature data of a cross-channel flow. A cross-channel flow may include a scale parameter and a bias parameter. The scale parameter and the bias parameter refer to parameters of a linear model for cross-channel prediction.

루마 영상에 대한 특징 데이터, 크로마 영상에 대한 특징 데이터 및 크로스 채널 예측을 위한 특징 데이터는 신경망 기반의 인코더에 의한 처리 결과로 획득된 것일 수 있다.Feature data for a luma image, feature data for a chroma image, and feature data for cross-channel prediction may be obtained as a result of processing by a neural network-based encoder.

일 실시예에서, 획득부(210)는 루마 영상에 대한 특징 데이터에 대응하는 제 1 비트스트림과 크로마 영상에 대한 특징 데이터에 대응하는 제 2 비트스트림과 크로스 채널 예측을 위한 특징 데이터에 대응하는 제 3 비트스트림을 획득할 수 있다. 획득부(210)는 제 1 비트스트림, 제 2 비트스트림 및 제 3 비트스트림을 각각 파싱하여 루마 영상에 대한 특징 데이터, 크로마 영상에 대한 특징 데이터 및 크로스 채널 예측을 위한 특징 데이터를 획득할 수도 있다.In an embodiment, the acquisition unit 210 may include a first bitstream corresponding to feature data for a luma image, a second bitstream corresponding to feature data for a chroma image, and a second bitstream corresponding to feature data for cross-channel prediction. 3 bit streams can be obtained. The acquisition unit 210 may acquire feature data for a luma image, feature data for a chroma image, and feature data for cross-channel prediction by parsing the first bitstream, the second bitstream, and the third bitstream, respectively. .

루마 영상에 대한 특징 데이터, 크로마 영상에 대한 특징 데이터 및 크로스 채널 예측을 위한 특징 데이터는 영상 복호화부(230)로 전달되고, 영상 복호화부(230)는 루마 영상에 대한 특징 데이터, 크로마 영상에 대한 특징 데이터 및 크로스 채널 예측을 위한 특징 데이터를 이용하여 현재 영상의 복원 영상을 획득할 수 있다. Feature data for the luma image, feature data for the chroma image, and feature data for cross-channel prediction are transferred to the image decoder 230, and the image decoder 230 transmits the feature data for the luma image and the feature data for the chroma image. A reconstructed image of a current image may be obtained using feature data and feature data for cross-channel prediction.

영상 복호화부(230)는 루마 영상에 대한 특징 데이터를 이용하여 현재 루마 영상의 복원 영상을 획득할 수 있다. The image decoder 230 may obtain a reconstructed image of the current luma image using feature data of the luma image.

영상 복호화부(230)는 현재 루마 영상의 복원 영상 및 크로스 채널 예측에 대한 특징 데이터를 이용하여 현재 크로마 영상의 예측 영상을 획득할 수 있다.The image decoder 230 may obtain a predicted image of the current chroma image using the reconstructed image of the current luma image and feature data for cross-channel prediction.

영상 복호화부(230)는 크로마 영상에 대한 특징 데이터를 이용하여 현재 크로마 영상의 레지듀얼 영상을 획득할 수 있다. 영상 복호화부(230)는 현재 크로마 영상의 예측 영상 및 현재 크로마 영상의 레지듀얼 영상을 이용하여 현재 크로마 영상의 복원 영상을 획득할 수 있다.The image decoder 230 may obtain a residual image of the current chroma image by using feature data of the chroma image. The image decoder 230 may obtain a reconstructed image of the current chroma image using the predicted image of the current chroma image and the residual image of the current chroma image.

영상 복호화부(230)는 현재 루마 영상의 복원 영상 및 현재 크로마 영상의 복원 영상을 이용하여 현재 영상의 복원 영상을 획득할 수 있다.The image decoder 230 may obtain a reconstructed image of the current image using a reconstructed image of the current luma image and a reconstructed image of the current chroma image.

구현예에 따라, 비트스트림에 현재 크로마 영상의 레지듀얼 영상 데이터의 특징 데이터가 포함되어 있지 않을 수도 있다. 획득부(210)는 비트스트림으로부터 크로스 채널 예측을 위한 특징 데이터를 획득하고, 영상 복호화부(230)는 크로스 채널 플로우를 복원할 수 있다. 이 경우, 영상 복호화 장치(200)는 크로스 채널 플로우 복호화 장치로 참조될 수 있다. Depending on implementation, feature data of residual image data of the current chroma image may not be included in the bitstream. The acquisition unit 210 may acquire feature data for cross-channel prediction from the bitstream, and the image decoder 230 may restore the cross-channel flow. In this case, the video decoding apparatus 200 may be referred to as a cross-channel flow decoding apparatus.

영상 복호화부(230)에 의해 복원된 크로스 채널 플로우는 다른 장치로 전달되고, 다른 장치에 의해 크로스 채널 플로우에 기반하여 현재 영상의 복원 영상이 생성될 수 있다. The cross-channel flow reconstructed by the image decoder 230 is transferred to another device, and a reconstructed image of the current image may be generated by the other device based on the cross-channel flow.

구체적으로, 다른 장치는 비트스트림으로부터 획득되는 크로마 영상의 레지듀얼 영상 데이터와, 크로스 채널 플로우에 따라 현재 루마 영상의 복원 영상으로부터 생성되는 크로마 영상의 예측 영상을 결합하여 현재 크로마 영상의 복원 영상을 생성할 수 있다.Specifically, another device generates a reconstructed image of a current chroma image by combining residual image data of a chroma image obtained from a bitstream with a prediction image of a chroma image generated from a reconstructed image of a current luma image according to a cross-channel flow can do.

도 2b는 일 실시예에 따른 영상 복호화 장치의 구성을 도시하는 도면이다. 2B is a diagram illustrating a configuration of an image decoding apparatus according to an exemplary embodiment.

도 2b를 참조하면, 일 실시예에 따른 영상 복호화 장치(250)는 획득부(260) 및 레지듀얼 영상 복호화부(270)를 포함한다.Referring to FIG. 2B , an image decoding apparatus 250 according to an embodiment includes an acquisition unit 260 and a residual image decoding unit 270.

획득부(260) 및 레지듀얼 영상 복호화부(270)는 프로세서로 구현될 수 있고, 획득부(260) 및 레지듀얼 영상 복호화부(270)는 메모리(미도시)에 저장된 인스트럭션에 따라 동작할 수 있다.The acquisition unit 260 and the residual image decoding unit 270 may be implemented as a processor, and the acquisition unit 260 and the residual image decoding unit 270 may operate according to instructions stored in a memory (not shown). there is.

도 2b는 획득부(260) 및 레지듀얼 영상 복호화부(270)를 개별적으로 도시하고 있으나, 획득부(260) 및 레지듀얼 영상 복호화부(270)는 하나의 프로세서를 통해 구현될 수 있다. 이 경우, 획득부(260) 및 레지듀얼 영상 복호화부(270)는 전용 프로세서로 구현될 수도 있고, AP(application processor), CPU(central processing unit) 또는 GPU(graphic processing unit)와 같은 범용 프로세서와 소프트웨어의 조합을 통해 구현될 수도 있다. 또한, 전용 프로세서의 경우, 본 개시의 실시예를 구현하기 위한 메모리를 포함하거나, 외부 메모리를 이용하기 위한 메모리 처리부를 포함할 수 있다. 2B shows the acquisition unit 260 and the residual image decoding unit 270 separately, but the acquisition unit 260 and the residual image decoding unit 270 may be implemented by a single processor. In this case, the acquirer 260 and the residual image decoder 270 may be implemented as a dedicated processor, or may be implemented with a general-purpose processor such as an application processor (AP), central processing unit (CPU), or graphic processing unit (GPU). It may be implemented through a combination of software. In addition, a dedicated processor may include a memory for implementing an embodiment of the present disclosure or a memory processing unit for using an external memory.

획득부(260) 및 레지듀얼 영상 복호화부(270)는 복수의 프로세서로 구성될 수도 있다. 이 경우, 전용 프로세서들의 조합으로 구현될 수도 있고, AP, CPU, 또는 GPU와 같은 다수의 범용 프로세서들과 소프트웨어의 조합을 통해 구현될 수도 있다.The acquirer 260 and the residual image decoder 270 may include a plurality of processors. In this case, it may be implemented with a combination of dedicated processors, or it may be implemented with a combination of software and a plurality of general-purpose processors such as APs, CPUs, or GPUs.

획득부(260)는 현재 영상에 대한 부호화 결과를 포함하는 비트스트림을 획득한다.The acquisition unit 260 obtains a bitstream including an encoding result of the current video.

획득부(260)는 후술하는 영상 부호화 장치(650)로부터 네트워크를 통해 비트스트림을 수신할 수 있다. 일 실시예에서, 획득부(260)는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체, CD-ROM 및 DVD와 같은 광기록 매체, 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical medium) 등을 포함하는 데이터 저장 매체로부터 비트스트림을 획득할 수도 있다.The acquisition unit 260 may receive a bitstream from an image encoding device 650 to be described later through a network. In one embodiment, the acquisition unit 260 may be a magnetic medium such as a hard disk, a floppy disk, and a magnetic tape, an optical recording medium such as a CD-ROM and a DVD, and a magneto-optical medium such as a floptical disk. -optical medium) and the like may obtain a bitstream from a data storage medium.

획득부(260)는 비트스트림을 파싱하여 루마 레지듀얼 영상에 대한 특징 데이터를 획득할 수 있다.The acquisition unit 260 may acquire feature data of the luma residual image by parsing the bitstream.

획득부(260)는 비트스트림을 파싱하여 크로마 레지듀얼 영상에 대한 특징 데이터를 획득할 수 있다. 크로마 레지듀얼 영상에 대한 특징 데이터는 크로마 레지듀얼 영상의 레지듀얼의 특징 데이터를 포함할 수 있다.The acquisition unit 260 may acquire feature data of a chroma residual image by parsing the bitstream. Feature data of the chroma residual image may include residual feature data of the chroma residual image.

크로스 채널 예측을 통해 크로마 레지듀얼 영상의 예측 영상이 생성될 수 있고, 따라서, 크로스 채널 예측을 통해 크로마 레지듀얼 영상의 원본 영상과 크로마 레지듀얼 영상의 예측 영상의 차이를 나타내는 크로마 레지듀얼 영상의 레지듀얼 영상의 특징 데이터를 복호화하여 크로마 레지듀얼 영상의 레지듀얼 영상이 획득될 수 있다. 크로마 레지듀얼 영상의 레지듀얼 영상과 크로마 레지듀얼 영상의 예측 영상을 기초로 크로마 레지듀얼 영상의 복원 영상이 생성될 수 있다.A predicted image of the chroma residual image may be generated through cross-channel prediction, and thus, a residual of the chroma residual image representing a difference between the original image of the chroma residual image and the predicted image of the chroma residual image through cross-channel prediction. A residual image of a chroma residual image may be obtained by decoding feature data of the dual image. A reconstructed image of a chroma residual image may be generated based on a residual image of the chroma residual image and a predicted image of the chroma residual image.

획득부(260)는 비트스트림을 파싱하여 크로스 채널 예측을 위한 특징 데이터를 획득할 수 있다. 크로스 채널 예측을 위한 특징 데이터는 크로스 채널 플로우의 특징 데이터를 포함할 수 있다. 크로스 채널 플로우는 스케일 파라미터와 바이어스 파라미터를 포함할 수 있다.The acquisition unit 260 may acquire feature data for cross-channel prediction by parsing the bitstream. Feature data for cross-channel prediction may include feature data of a cross-channel flow. A cross-channel flow may include a scale parameter and a bias parameter.

루마 레지듀얼 영상에 대한 특징 데이터, 크로마 레지듀얼 영상에 대한 특징 데이터 및 크로스 채널 예측을 위한 특징 데이터는 신경망 기반의 인코더에 의한 처리 결과로 획득된 것일 수 있다.Feature data for a luma residual image, feature data for a chroma residual image, and feature data for cross-channel prediction may be obtained as a result of processing by a neural network-based encoder.

일 실시예에서, 획득부(260)는 루마 레지듀얼 영상에 대한 특징 데이터에 대응하는 제 1 비트스트림과 크로마 레지듀얼 영상에 대한 특징 데이터에 대응하는 제 2 비트스트림과 크로스 채널 예측을 위한 특징 데이터에 대응하는 제 3 비트스트림을 획득할 수 있다. 획득부(260)는 제 1 비트스트림, 제 2 비트스트림 및 제 3 비트스트림을 각각 파싱하여 루마 레지듀얼 영상에 대한 특징 데이터, 크로마 레지듀얼 영상에 대한 특징 데이터 및 크로스 채널 예측을 위한 특징 데이터를 획득할 수도 있다.In an embodiment, the acquisition unit 260 may generate a first bitstream corresponding to feature data of a luma residual image, a second bitstream corresponding to feature data of a chroma residual image, and feature data for cross-channel prediction. A third bitstream corresponding to can be obtained. The acquisition unit 260 parses the first bitstream, the second bitstream, and the third bitstream, respectively, to obtain feature data for a luma residual image, feature data for a chroma residual image, and feature data for cross-channel prediction. may also be obtained.

루마 레지듀얼 영상에 대한 특징 데이터, 크로마 레지듀얼 영상에 대한 특징 데이터 및 크로스 채널 예측을 위한 특징 데이터는 레지듀얼 영상 복호화부(270)로 전달되고, 레지듀얼 영상 복호화부(270)는 루마 레지듀얼 영상에 대한 특징 데이터, 크로마 레지듀얼 영상에 대한 특징 데이터 및 크로스 채널 예측을 위한 특징 데이터를 이용하여 현재 레지듀얼 영상의 복원 영상을 획득할 수 있다. Feature data for the luma residual image, feature data for the chroma residual image, and feature data for cross-channel prediction are transferred to the residual image decoder 270, and the residual image decoder 270 generates the luma residual image. A reconstructed image of a current residual image may be obtained using feature data for an image, feature data for a chroma residual image, and feature data for cross-channel prediction.

레지듀얼 영상 복호화부(270)는 루마 레지듀얼 영상에 대한 특징 데이터를 이용하여 현재 루마 레지듀얼 영상의 복원 영상을 획득할 수 있다. The residual image decoder 270 may obtain a reconstructed image of the current luma residual image by using feature data of the luma residual image.

레지듀얼 영상 복호화부(270)는 현재 루마 레지듀얼 영상의 복원 영상 및 크로스 채널 예측을 위한 특징 데이터를 이용하여 현재 크로마 레지듀얼 영상의 예측 영상을 획득할 수 있다. 레지듀얼 영상 복호화부(230)는 크로마 레지듀얼 영상에 대한 특징 데이터를 이용하여 현재 크로마 레지듀얼 영상의 레지듀얼 영상을 획득할 수 있다. 레지듀얼 영상 복호화부(270)는 현재 크로마 레지듀얼 영상의 예측 영상 및 현재 크로마 레지듀얼 영상의 레지듀얼 영상을 이용하여 현재 크로마 레지듀얼 영상의 복원 영상을 획득할 수 있다.The residual image decoder 270 may obtain a predicted image of the current chroma residual image by using a reconstructed image of the current luma residual image and feature data for cross-channel prediction. The residual image decoder 230 may obtain a residual image of the current chroma residual image by using feature data of the chroma residual image. The residual image decoder 270 may obtain a reconstructed image of the current chroma residual image by using the predicted image of the current chroma residual image and the residual image of the current chroma residual image.

레지듀얼 영상 복호화부(270)는 현재 루마 레지듀얼 영상의 복원 영상 및 현재 크로마 레지듀얼 영상의 복원 영상을 이용하여 현재 영상의 레지듀얼 복원 영상을 획득할 수 있다.The residual image decoder 270 may obtain a reconstructed residual image of the current image using a reconstructed image of the current luma residual image and a reconstructed image of the current chroma residual image.

구현예에 따라, 비트스트림에 현재 크로마 레지듀얼 영상의 레지듀얼 영상 데이터의 특징 데이터가 포함되어 있지 않을 수도 있다. 획득부(260)는 비트스트림으로부터 크로스 채널 예측을 위한 특징 데이터를 획득하고, 레지듀얼 영상 복호화부(270)는 크로스 채널 플로우를 복원할 수 있다. 이 경우, 영상 복호화 장치(250)는 크로스 채널 플로우 복호화 장치로 참조될 수 있다. Depending on implementation, feature data of residual image data of the current chroma residual image may not be included in the bitstream. The acquisition unit 260 may acquire feature data for cross-channel prediction from the bitstream, and the residual image decoder 270 may restore the cross-channel flow. In this case, the video decoding apparatus 250 may be referred to as a cross-channel flow decoding apparatus.

레지듀얼 영상 복호화부(270)에 의해 복원된 크로스 채널 플로우는 다른 장치로 전달되고, 다른 장치에 의해 크로스 채널 플로우에 기반하여 현재 레지듀얼 영상의 복원 영상이 생성될 수 있다. The cross-channel flow reconstructed by the residual image decoder 270 is transferred to another device, and a reconstructed image of the current residual image may be generated by the other device based on the cross-channel flow.

구체적으로, 다른 장치는 비트스트림으로부터 획득되는 크로마 레지듀얼 영상의 레지듀얼 영상 데이터와, 크로스 채널 플로우에 따라 루마 레지듀얼 복원 영상으로부터 생성되는 크로마 레지듀얼 영상의 예측 영상을 결합하여 현재 크로마 레지듀얼 영상의 복원 영상을 생성할 수 있다.Specifically, another device combines residual image data of a chroma residual image obtained from a bitstream and a prediction image of a chroma residual image generated from a luma residual reconstructed image according to a cross-channel flow to obtain a current chroma residual image A reconstructed image of can be created.

영상 복호화 장치(250)는 현재 크로마 레지듀얼 영상의 복원 영상을 기초로, 현재 크로마 영상의 복원 영상을 생성할 수 있다. 영상 복호화 장치(250)는 현재 크로마 영상의 예측 영상을 획득할 수 있다. 현재 크로마 영상의 예측 영상은 영상 복호화 장치(200)를 참조하여 전술한 바와 같이 획득될 수 있으나, 이에 제한되지 않는다. 예를 들어, 영상 복호화 장치(250)는 현재 크로마 영상의 프레임의 타입이 I-프레임이 아닌 경우, 도 1에서 전술한, 옵티컬 플로우를 이용하여 이전 크로마 영상의 복원 영상으로부터 현재 크로마 영상의 예측 영상이 획득될 수 있다.The image decoding apparatus 250 may generate a reconstructed image of the current chroma image based on a reconstructed image of the current chroma residual image. The image decoding apparatus 250 may obtain a predicted image of the current chroma image. A predicted image of the current chroma image may be obtained as described above with reference to the image decoding apparatus 200, but is not limited thereto. For example, when the frame type of the current chroma image is not an I-frame, the image decoding apparatus 250 obtains a predicted image of the current chroma image from a reconstructed image of the previous chroma image using the optical flow described above with reference to FIG. 1 this can be obtained.

이하에서는, 도 3, 도 4a 및 4b를 참조하여, 획득부(210) 및 영상 복호화부(230,270)의 동작에 대해 상세히 설명한다.Hereinafter, operations of the acquiring unit 210 and the image decoding units 230 and 270 will be described in detail with reference to FIGS. 3 and 4A and 4B.

도 3은 도 2a에 도시된 획득부(210)의 구성을 도시하는 도면이다.FIG. 3 is a diagram showing the configuration of the acquisition unit 210 shown in FIG. 2A.

도 3을 참조하면, 획득부(210)는 엔트로피 복호화부(211) 및 역양자화부(213)를 포함한다.Referring to FIG. 3 , an acquisition unit 210 includes an entropy decoding unit 211 and an inverse quantization unit 213 .

엔트로피 복호화부(211)는 비트스트림에 포함된 빈(bin)들을 엔트로피 코딩하여 루마 영상에 대한 양자화된 특징 데이터, 크로스 채널 예측을 위한 양자화된 특징 데이터 및 크로마 영상 데이터에 대한 양자화된 특징 데이터를 획득한다.The entropy decoding unit 211 entropy-codes bins included in the bitstream to obtain quantized feature data for luma image, quantized feature data for cross-channel prediction, and quantized feature data for chroma image data. do.

역양자화부(213)는 루마 영상에 대한 양자화된 특징 데이터, 크로스 채널 예측을 위한 양자화된 특징 데이터 및 크로마 영상에 대한 양자화된 특징 데이터를 각각 역양자화하여, 루마 영상에 대한 특징 데이터, 크로스 채널 예측을 위한 특징 데이터 및 크로마 영상에 대한 특징 데이터를 획득한다.The inverse quantization unit 213 inversely quantizes the quantized feature data of the luma image, the quantized feature data for cross-channel prediction, and the quantized feature data of the chroma image, respectively, to obtain the feature data of the luma image and cross-channel prediction. Acquire feature data for and feature data for a chroma image.

구현예에 따라, 획득부(210)는 역변환부를 더 포함할 수 있다. 역변환부는 역양자화부(213)로부터 출력되는 특징 데이터들을 제 1 도메인으로부터 제 2 도메인으로 역변환한다. 제 1 도메인은 주파수 도메인일 수 있으나, 주파수 도메인은 제 1 도메인의 일 예에 불과하고, 이에 제한되지 않는다. 제 2 도메인은 공간 도메인일 수 있으나, 공간 도메인은 제 2 도메인의 일 예에 불과하고, 이에 제한되지 않는다. Depending on implementation, the acquisition unit 210 may further include an inverse transform unit. The inverse transformation unit inversely transforms the feature data output from the inverse quantization unit 213 from the first domain to the second domain. The first domain may be a frequency domain, but the frequency domain is only an example of the first domain and is not limited thereto. The second domain may be a spatial domain, but the spatial domain is only an example of the second domain, and is not limited thereto.

후술하는 영상 부호화 장치(600)가 루마 영상에 대한 특징 데이터, 크로스 채널 예측을 위한 특징 데이터 및 크로마 영상에 대한 특징 데이터를 제 2 도메인으로부터 제 1 도메인으로 변환하는 경우, 역변환부는 역양자화부(213)로부터 출력되는 특징 데이터들을 제 1 도메인에서 제 2 도메인으로 역변환할 수 있다.When the image encoding apparatus 600 described later converts feature data for a luma image, feature data for cross-channel prediction, and feature data for a chroma image from a second domain to a first domain, the inverse transform unit may include an inverse quantization unit 213 ) may be inversely transformed from the first domain to the second domain.

또한, 구현예에 따라, 획득부(210)는 역양자화부(213)를 포함하지 않을 수도 있다. 즉, 엔트로피 복호화부(211)에 의한 처리를 통해 루마 영상에 대한 특징 데이터, 크로스 채널 예측을 위한 특징 데이터 및 크로마 영상에 대한 특징 데이터가 획득될 수 있다.Also, depending on implementation, the acquisition unit 210 may not include the inverse quantization unit 213 . That is, feature data for a luma image, feature data for cross-channel prediction, and feature data for a chroma image may be obtained through processing by the entropy decoding unit 211 .

또한, 구현예에 따라, 획득부(210)는 비트스트림에 포함된 빈들에 대한 역이진화만을 수행하여 루마 영상에 대한 특징 데이터, 크로스 채널 예측을 위한 특징 데이터, 크로마 영상에 대한 특징 데이터를 획득할 수도 있다. 이는, 영상 부호화 장치(600)가 루마 영상에 대한 특징 데이터, 크로스 채널 예측을 위한 특징 데이터, 크로마 영상에 대한 특징 데이터를 이진화하여 비트스트림을 생성한 경우, 다시 말하면, 영상 부호화 장치(600)가 루마 영상에 대한 특징 데이터, 크로스 채널 예측을 위한 특징 데이터 및 크로마 영상에 대한 특징 데이터에 대해 엔트로피 부호화, 변환 및 양자화를 적용하지 않는 경우를 위한 것이다.Also, according to an embodiment, the acquisition unit 210 may acquire feature data for a luma image, feature data for cross-channel prediction, and feature data for a chroma image by performing only inverse binarization on bins included in the bitstream. may be This means that when the image encoding apparatus 600 generates a bitstream by binarizing feature data for a luma image, feature data for cross-channel prediction, and feature data for a chroma image, in other words, the image encoding apparatus 600 This is for a case in which entropy encoding, transformation, and quantization are not applied to feature data for a luma image, feature data for cross-channel prediction, and feature data for a chroma image.

이상, 도 3을 참조하여, 획득부(210)에 대한 동작을 상술하였다. 입력 데이터 및 출력 데이터가 다른 것을 제외하고, 획득부(260)의 동작은 전술한 획득부(210)의 동작과 유사하게 동작할 수 있으므로, 획득부(260)에 대한 설명은 생략하기로 한다.The operation of the acquisition unit 210 has been described above with reference to FIG. 3 . Except for the difference between the input data and the output data, the operation of the acquisition unit 260 may be similar to that of the above-described acquisition unit 210, so a description of the acquisition unit 260 will be omitted.

다음으로, 도 4a는 도 2a에 도시된 영상 복호화부(230)의 구성을 도시하는 도면이다.Next, FIG. 4A is a diagram showing the configuration of the video decoder 230 shown in FIG. 2A.

도 4a를 참조하면, 영상 복호화부(230)은 제 1 디코더(231), 제 2 디코더(232), 및 제 3 디코더(234), 크로스 채널 예측부(233) 및 결합부(235)를 포함할 수 있다.Referring to FIG. 4A, the image decoding unit 230 includes a first decoder 231, a second decoder 232, a third decoder 234, a cross-channel predictor 233, and a combiner 235. can do.

제 1 디코더(231), 제 2 디코더(232) 및 제 3 디코더(234)는 메모리에 저장될 수 있다. 일 실시예에서, 제 1 디코더(231), 제 2 디코더(232) 및 제 3 디코더(234)는 AI를 위한 적어도 하나의 전용 프로세서로 구현될 수도 있다.The first decoder 231, the second decoder 232, and the third decoder 234 may be stored in memory. In one embodiment, the first decoder 231, the second decoder 232, and the third decoder 234 may be implemented as at least one dedicated processor for AI.

구현예에 따라, 현재 크로마 영상의 프레임 타입이 I-프레임인 경우, 현재 크로마 영상을 복원하기 위해, 영상 복호화부(230)의 동작이 수행될 수 있다.Depending on implementation, when the frame type of the current chroma image is an I-frame, an operation of the image decoder 230 may be performed to reconstruct the current chroma image.

획득부(210)에 의해 출력된 루마 영상에 대한 특징 데이터는 제 1 디코더(231)로 입력된다. 획득부(210)에 의해 출력된 크로스 채널 예측을 위한 특징 데이터는 제 2 디코더(232)로 입력된다. 획득부(210)에 의해 출력된 현재 크로마 영상에 대한 특징 데이터는 제 3 디코더(234)로 입력된다. Feature data of the luma image output by the acquisition unit 210 is input to the first decoder 231 . Feature data for cross-channel prediction output by the acquisition unit 210 is input to the second decoder 232 . Feature data of the current chroma image output by the acquisition unit 210 is input to the third decoder 234 .

구현예에 따라, 크로스 채널 예측을 위한 데이터의 복원을 위해, 루마 영상에 대한 특징 데이터가 크로스 채널 예측을 위한 특징 데이터에 연접(concatenation)된 후 제 2 디코더(232)로 입력될 수 있다. 여기서, 연접(concatenation)이란, 두 개 이상의 특징 데이터를 채널 방향으로 결합하는 처리를 의미할 수 있다. 예를 들어, 연접을 통해, 두 개 이상의 특징 데이터의 채널 개수를 합한 채널 개수를 갖는 데이터가 획득될 수 있다.According to implementation, in order to reconstruct data for cross-channel prediction, feature data of a luma image may be concatenated with feature data for cross-channel prediction and then input to the second decoder 232 . Here, concatenation may mean a process of combining two or more feature data in a channel direction. For example, data having the number of channels obtained by summing the number of channels of two or more feature data may be obtained through concatenation.

구현예에 따라, 크로마 영상의 데이터의 복원을 위해, 루마 영상에 대한 특징 데이터 또는 크로스 채널 예측을 위한 특징 데이터가 크로마 영상에 대한 특징 데이터에 연접된 후, 제 3 디코더(234)로 입력될 수 있다.According to implementation, in order to reconstruct chroma image data, feature data for a luma image or feature data for cross-channel prediction may be concatenated with feature data for a chroma image and then input to the third decoder 234. there is.

제 1 디코더(231)는 훈련을 통해 설정된 파라미터에 따라 루마 영상에 대한 특징 데이터를 처리하여 루마 영상의 복원 영상을 획득할 수 있다.The first decoder 231 may obtain a reconstructed image of the luma image by processing feature data of the luma image according to parameters set through training.

현재 루마 영상의 프레임 타입이 I-프레임인 경우, 현재 루마 영상에 대한 특징 데이터를 제 1 신경망에 입력하여 현재 루마 영상의 복원 영상이 획득될 수 있다. When the frame type of the current luma image is an I-frame, a reconstructed image of the current luma image may be obtained by inputting feature data of the current luma image to the first neural network.

현재 루마 영상의 프레임 타입이 I-프레임이 아닌 경우, 현재 루마 영상에 대한 특징 데이터는 현재 루마 영상의 레지듀얼 영상에 대한 특징 데이터를 포함할 수 있다. 이 경우, 현재 루마 영상의 예측 영상이 생성될 수 있다. 현재 루마 영상의 예측 영상은 도 1에서 전술한 바와 같이, 이전 루마 영상의 복원 영상을 이용하여 획득될 수 있다. When the frame type of the current luma image is not an I-frame, feature data of the current luma image may include feature data of a residual image of the current luma image. In this case, a predicted image of the current luma image may be generated. As described above with reference to FIG. 1 , a predicted image of the current luma image may be obtained using a reconstructed image of a previous luma image.

제 1 디코더(231)는 훈련을 통해 설정된 파라미터에 따라 현재 루마 영상에 대한 특징 데이터를 처리하여 현재 루마 영상의 레지듀얼 영상을 복원할 수 있다. 제 1 디코더(231)는 현재 루마 영상의 예측 영상 및 현재 루마 영상의 레지듀얼 영상을 이용하여 현재 루마 영상의 복원 영상을 생성할 수 있다.The first decoder 231 may reconstruct a residual image of the current luma image by processing feature data of the current luma image according to parameters set through training. The first decoder 231 may generate a reconstructed image of the current luma image using the predicted image of the current luma image and the residual image of the current luma image.

제 3 디코더(234)는 훈련을 통해 설정된 파라미터에 따라 크로마 영상에 대한 특징 데이터를 처리하여 크로마 영상의 레지듀얼 영상(또는 레지듀얼 영상 데이터)을 획득할 수 있다. 크로마 영상에 대한 특징 데이터는 크로마 영상의 레지듀얼 영상의 특징 데이터를 포함할 수 있고, 크로마 영상의 레지듀얼 영상의 특징 데이터를 처리하여 크로마 영상의 레지듀얼 영상을 획득할 수 있으나, 후술할 도 4b의 영상 복호화부(270)에 따라, 크로마 레지듀얼 영상의 레지듀얼 영상의 특징 데이터를 이용하여 크로마 영상의 레지듀얼 영상이 획득될 수 있다. 크로마 영상의 레지듀얼 영상 데이터는 1차원 또는 2차원의 데이터로서, 복수의 샘플들로 이루어질 수 있다.The third decoder 234 may obtain a residual image (or residual image data) of the chroma image by processing feature data of the chroma image according to parameters set through training. The feature data of the chroma image may include feature data of the residual image of the chroma image, and the residual image of the chroma image may be obtained by processing the feature data of the residual image of the chroma image. According to the image decoder 270 of , a residual image of a chroma image may be obtained using feature data of the residual image of the chroma residual image. Residual image data of a chroma image is one-dimensional or two-dimensional data and may include a plurality of samples.

제 2 디코더(232)는 훈련을 통해 설정된 파라미터에 따라 크로스 채널 예측을 위한 특징 데이터를 처리하여 크로스 채널 예측을 위한 데이터(크로스 채널 예측 정보)를 획득할 수 있다. 크로스 채널 예측을 위한 데이터는 1차원 또는 2차원의 데이터로서, 복수의 샘플들로 이루어질 수 있다. 크로스 채널 예측을 위한 데이터는 크로스 채널 예측을 위한 파라미터를 포함할 수 있다. 크로스 채널 예측을 위한 파라미터는 스케일 파라미터 및 바이어스 파라미터를 포함할 수 있다. 크로스 채널 예측을 위한 파라미터는 크로마 성분 별로 획득될 수 있다. 예를 들어, 크로마 성분 Cb에 대한 파라미터와 크로마 성분 Cr에 대한 파라미터가 별도로 획득될 수 있다. 다만 이에 제한되지 않고, 복수의 크로마 성분에 대하여 크로스 채널 예측을 위한 공통된 파라미터가 획득될 수 있다. 예를 들어, 크로마 성분 Cb 및 Cr에 대하여 크로스 채널 예측을 위한 공통된 파라미터가 획득될 수 있다. The second decoder 232 may obtain data (cross-channel prediction information) for cross-channel prediction by processing feature data for cross-channel prediction according to parameters set through training. Data for cross-channel prediction is one-dimensional or two-dimensional data, and may consist of a plurality of samples. Data for cross-channel prediction may include parameters for cross-channel prediction. Parameters for cross-channel prediction may include a scale parameter and a bias parameter. Parameters for cross-channel prediction may be obtained for each chroma component. For example, a parameter for the chroma component Cb and a parameter for the chroma component Cr may be obtained separately. However, it is not limited thereto, and a common parameter for cross-channel prediction may be obtained for a plurality of chroma components. For example, common parameters for cross-channel prediction can be obtained for chroma components Cb and Cr.

루마 성분의 영상과 크로마 성분의 영상은 공통된 오브젝트에 대한 것이기 때문에, 루마 성분의 영상 샘플과 크로마 성분의 영상 샘플 간에 선형적인 관계가 존재할 수 있다. 이러한 선형적인 관계는 선형 모델로 표현될 수 있고, 선형 모델의 파라미터는 스케일 파라미터 및 바이어스 파라미터를 포함할 수 있다.Since the luma component image and the chroma component image are for a common object, a linear relationship may exist between the luma component image sample and the chroma component image sample. This linear relationship may be expressed as a linear model, and parameters of the linear model may include a scale parameter and a bias parameter.

구현예에 따라, 영상의 색표현 방식은 달라질 수 있다. Y 성분(루마 성분)이 오차에 민감하므로, 색차 성분인 Cb(U), Cr(V) 성분보다 많은 샘플에 대한 인코딩이 수행될 수 있다. 루마 성분의 데이터에 비해 크로마 성분의 데이터를 줄여서 영상을 인코딩 하는 방식을 크로마 서브 샘플링 방식이라 한다.Depending on implementation, a color representation method of an image may vary. Since the Y component (luma component) is sensitive to errors, encoding can be performed on more samples than the color difference components Cb(U) and Cr(V). A method of encoding an image by reducing chroma component data compared to luma component data is called a chroma subsampling method.

크로마 서브 샘플링 방식의 예로, YUV 4:4:4, 4:2:2, 4:2:1, 4:1:1 및 4:2:0 등이 존재한다.Examples of chroma subsampling methods include YUV 4:4:4, 4:2:2, 4:2:1, 4:1:1, and 4:2:0.

루마 성분과 크로마 성분의 해상도를 매칭하기 위해, 루마 영상에 대한 특징 데이터가 다운샘플링될 수 있다. 다운샘플링 방식은 바이-리니어(bi-linear) 방식, 바이-큐빅(bi-cubic) 방식 등의 다양한 방식 중 하나일 수 있다. In order to match resolutions of the luma component and the chroma component, feature data of the luma image may be downsampled. The downsampling method may be one of various methods such as a bi-linear method and a bi-cubic method.

예를 들어, 크로마 서브 샘플링 방식이 YUV 4:4:4가 아닌 경우, 루마 영상에 대한 특징 데이터에 대하여 다운샘플링이 수행될 수 있다.For example, when the chroma subsampling method is not YUV 4:4:4, downsampling may be performed on feature data of a luma image.

예를 들어, 크로마 서브 샘플링 방식이 YUV 4:2:0인 경우, 루마 영상에 대한 특징 데이터는 2만큼 다운샘플링될 수 있다. 즉, 크로마 서브 샘플링 방식이 YUV 4:2:0인 경우, 크로마 성분 영상의 높이는 루마 성분 영상의 높이의 1/2일 수 있고, 크로마 성분 영상의 너비는 루마 성분 영상의 너비의 1/2일 수 있다. 다운샘플링은 수평방향으로 2만큼, 수직방향으로 2만큼 수행될 수 있다.For example, when the chroma subsampling method is YUV 4:2:0, feature data for a luma image may be downsampled by 2. That is, when the chroma subsampling method is YUV 4:2:0, the height of the chroma component image may be 1/2 of the height of the luma component image, and the width of the chroma component image may be 1/2 of the width of the luma component image. can Downsampling may be performed by 2 in the horizontal direction and by 2 in the vertical direction.

다운샘플링된 루마 영상에 대한 특징 데이터는 크로스 채널 예측을 위한 특징 데이터와 연접되고, 훈련을 통해 설정된 파라미터에 따라 연접된 데이터를 처리하여 크로스 채널 예측을 위한 데이터를 획득할 수 있다.Feature data of the downsampled luma image may be concatenated with feature data for cross-channel prediction, and data for cross-channel prediction may be obtained by processing the concatenated data according to parameters set through training.

구현예에 따라, 루마 성분과 크로마 성분의 해상도를 매칭하기 위해, 루마 영상에 대한 특징 데이터에 대하여, 공간-뎁스 변환이 수행될 수 있다. According to embodiments, space-depth transformation may be performed on feature data of a luma image in order to match resolutions of a luma component and a chroma component.

예를 들어, 크로마 서브 샘플링 방식이 YUV 4:4:4가 아닌 경우, 루마 영상에 대한 특징 데이터에 대하여, 공간-뎁스 변환이 수행될 수 있다. 일 예로, 크로마 서브 샘플링 방식이 YUV 4:2:0인 경우, 루마 영상에 대한 특징 데이터에 대하여, 레벨 2의 공간-뎁스 변환이 수행될 수 있다. 즉, 공간-뎁스 변환은 루마 영상과 크로마 영상의 비율에 맞게 루마 영상에 대한 특징 데이터를 채널(channel; 또는 뎁스) 방향으로 재배열하는 프로세스이고, 레벨 2의 공간-뎁스 변환으로 인하여, 루마 영상에 대한 특징 데이터에서 채널당 2만큼 다운샘플링된 크기의 재배열된 데이터가 생성될 수 있다.For example, if the chroma subsampling method is not YUV 4:4:4, spatial-depth conversion may be performed on feature data of the luma image. For example, when the chroma subsampling scheme is YUV 4:2:0, level 2 spatial-depth conversion may be performed on feature data of a luma image. That is, space-depth transformation is a process of rearranging feature data of a luma image in a channel (or depth) direction according to the ratio of the luma image and the chroma image, and due to the space-depth transformation of level 2, the luma image Rearranged data of a size downsampled by 2 per channel may be generated from the feature data for .

루마 영상에 대한 변환된 특징 데이터는 크로스 채널 예측을 위한 특징 데이터와 연접되고, 훈련을 통해 설정된 파라미터에 따라 연접된 데이터를 처리하여 크로스 채널 예측을 위한 데이터를 획득할 수 있다.Transformed feature data of the luma image may be concatenated with feature data for cross-channel prediction, and data for cross-channel prediction may be obtained by processing the concatenated data according to parameters set through training.

크로스 채널 예측부(233)는 크로스 채널 예측 정보 및 루마 영상의 복원 영상을 이용하여 크로마 영상의 예측 영상을 생성할 수 있다. 크로스 채널 예측부(233)는 크로스 채널 예측 정보에 포함된 스케일 파라미터 및 바이어스 파라미터를 루마 영상의 복원 영상에 적용하여 크로마 영상의 예측 영상이 획득될 수 있다. 스케일 파라미터는 루마 영상의 복원 영상 내 샘플들에 대한 곱셈 연산을 위해 이용될 수 있다. 이때, 스케일 파라미터는 샘플별로 존재할 수 있다. 바이어스 파라미터는 스케일 파라미터와의 곱셈 연산을 통해 획득된 결과값에 대한 덧셈 연산을 위해 이용될 수 있다. 이때, 바이어스 파라미터는 샘플별로 존재할 수 있다.The cross-channel prediction unit 233 may generate a predicted image of a chroma image using cross-channel prediction information and a reconstructed image of a luma image. The cross-channel predictor 233 may obtain a predicted image of a chroma image by applying the scale parameter and the bias parameter included in the cross-channel prediction information to the reconstructed image of the luma image. A scale parameter may be used for a multiplication operation for samples in a reconstructed image of a luma image. In this case, the scale parameter may exist for each sample. The bias parameter may be used for an addition operation on a result value obtained through a multiplication operation with a scale parameter. In this case, the bias parameter may exist for each sample.

크로스 채널 예측부(233)은 스케일 파라미터를 이용하여 현재 루마 영상의 복원 영상에 대한 곱셈 연산을 수행한 후, 바이어스 파라미터를 이용한 덧셈 연산을 수행하여 현재 크로마 영상의 예측 영상을 획득할 수 있다. The cross-channel predictor 233 may obtain a predicted image of the current chroma image by performing a multiplication operation on the reconstructed image of the current luma image using a scale parameter and then performing an addition operation using a bias parameter.

만약, 현재 영상의 색 표현 방식이 YUV 4:4:4가 아닌 경우, 현재 루마 영상의 복원 영상에 대한 다운샘플링이 수행될 수 있다. 다운샘플링을 통해 루마 영상과 크로마 영상 간 해상도가 매칭될 수 있다. If the color expression method of the current image is not YUV 4:4:4, downsampling of the reconstructed image of the current luma image may be performed. Resolutions between a luma image and a chroma image may be matched through downsampling.

다운샘플링된 루마 영상에 대하여 샘플별로 스케일 파라미터를 이용한 곱셈 연산과 바이어스 파라미터를 이용한 덧셈 연산이 수행된 후 획득된 영상이 현재 크로마 영상의 예측 영상으로 결정될 수 있다. 이때, 다운샘플링된 루마 영상의 해상도는 크로마 영상의 해상도와 동일할 수 있으나, 이에 제한되지 않고, 크로마 영상의 해상도보다 크고, 루마 영상의 해상도보다는 작을 수 있다. An image obtained after a multiplication operation using a scale parameter and an addition operation using a bias parameter are performed for each sample on the downsampled luma image may be determined as a predicted image of the current chroma image. In this case, the resolution of the downsampled luma image may be the same as that of the chroma image, but is not limited thereto, and may be larger than the resolution of the chroma image and smaller than the resolution of the luma image.

이 경우, 다운샘플링된 루마 영상에 대하여 샘플별로 스케일 파라미터를 이용한 곱셈 연산 및 바이어스 파라미터를 이용한 덧셈 연산이 수행된 후에 획득된 영상이 현재 크로마 영상의 예측 영상으로 결정되지 않을 수 있다. 연산이 수행된 후에 획득된 영상에 대하여 추가적으로 다운샘플링이 수행되고, 다운샘플링이 수행된 영상이 현재 크로마 영상의 예측 영상으로 결정될 수 있다.In this case, an image obtained after a multiplication operation using a scale parameter and an addition operation using a bias parameter are performed for each sample on the downsampled luma image may not be determined as a predicted image of the current chroma image. Downsampling is additionally performed on an image obtained after the operation is performed, and the image on which the downsampling is performed may be determined as a predicted image of the current chroma image.

구현예에 따라, 샘플별로 곱셈 연산 및 덧셈 연산이 수행됨을 설명하였으나, 이에 제한되지 않고 샘플 그룹별로 곱셈 연산 및 덧셈 연산이 수행될 수 있다. 샘플 그룹의 크기는 KxK(K는 1보다 큰 정수)일 수 있으나, 이에 제한되지 않는다. 바람직하게는 K는 2의 배수 또는 2의 승수일 수 있다.Depending on the implementation, it has been described that the multiplication operation and the addition operation are performed for each sample, but the multiplication operation and the addition operation may be performed for each sample group without being limited thereto. The size of the sample group may be KxK (K is an integer greater than 1), but is not limited thereto. Preferably, K may be a multiple of 2 or a multiplier of 2.

크로스 채널 예측부(233)에 의해 획득된 크로마 영상의 예측 영상 및 제 3 디코더(234)에 의해 획득된 크로마 영상의 레지듀얼 영상은 결합부(235)로 제공될 수 있다.The predictive image of the chroma image obtained by the cross-channel predictor 233 and the residual image of the chroma image obtained by the third decoder 234 may be provided to the combiner 235 .

결합부(235)는 크로마 영상의 예측 영상 및 크로마 영상의 레지듀얼 영상을 결합하여 크로마 영상의 복원 영상을 생성할 수 있다. 결합부(235)는 크로마 영상의 예측 영상의 샘플값들과 크로마 영상의 레지듀얼 영상의 샘플값들을 합하여 크로마 영상의 복원 영상의 샘플값들을 생성할 수 있다.The combination unit 235 may generate a reconstructed image of a chroma image by combining a predicted image of a chroma image and a residual image of the chroma image. The combining unit 235 may generate sample values of a reconstructed image of a chroma image by summing sample values of the predicted image of the chroma image and sample values of the residual image of the chroma image.

영상 복호화부(230)는 현재 루마 영상의 복원 영상 및 현재 크로마 영상의 복원 영상을 이용하여 현재 영상의 복원 영상을 생성할 수 있다. 이때, 디스플레이 장치로의 출력을 위해, 색 표현 방식이 변환될 수 있다. 예를 들어, 디스플레이 장치는 RGB 방식을 지원할 수 있고, 현재 루마 영상 및 크로마 영상은 YUV 방식에 의한 영상이기 때문에, 색 표현 방식의 변환이 수행될 수 있다.The image decoder 230 may generate a reconstructed image of the current image using a reconstructed image of the current luma image and a reconstructed image of the current chroma image. In this case, the color expression method may be converted for output to the display device. For example, since the display device may support the RGB method and the current luma image and chroma image are YUV method images, the color expression method may be converted.

구현예에 따라, 영상 복호화부(230)는 크로스 채널 예측을 위한 특징 데이터로부터 크로스 채널 예측 정보를 획득하고, 크로스 채널 예측 정보를 다른 장치로 제공할 수 있다. 이 경우, 제 1 디코더(231), 크로스 채널 예측부(233), 제 3 디코더(234) 및 결합부(235)는 영상 복호화부(230)에 포함되지 않을 수 있다.Depending on implementation, the image decoder 230 may obtain cross-channel prediction information from feature data for cross-channel prediction and provide the cross-channel prediction information to another device. In this case, the first decoder 231, the cross-channel predictor 233, the third decoder 234, and the combiner 235 may not be included in the image decoder 230.

구현예에 따라, 비트스트림으로부터 크로마 영상의 레지듀얼 영상 데이터가 획득 가능한 경우, 제 3 디코더(234)는 영상 복호화부(230)에 포함되지 않을 수도 있다. 즉, 영상 복호화부(230)는 획득부(210)가 비트스트림으로부터 획득한 크로마 영상의 레지듀얼 영상 데이터를 크로마 영상의 예측 영상에 결합하여 크로마 영상의 복원 영상을 생성할 수 있다.Depending on implementation, when residual image data of a chroma image can be obtained from a bitstream, the third decoder 234 may not be included in the image decoder 230 . That is, the image decoder 230 may generate a reconstructed image of a chroma image by combining the residual image data of the chroma image acquired by the acquisition unit 210 from the bitstream with the predicted image of the chroma image.

본 개시의 일 실시예에 따르면, 크로스 채널 예측에 기초하여 비트스트림이 생성되므로, 크로스 채널 예측 없이 비트스트림이 생성되는 경우에 비해 낮은 비트레이트의 달성이 가능하다.According to an embodiment of the present disclosure, since a bitstream is generated based on cross-channel prediction, it is possible to achieve a lower bitrate than when a bitstream is generated without cross-channel prediction.

다음으로, 도 4b 는 도 2b에 도시된 영상 복호화부(270)의 구성을 도시하는 도면이다.Next, FIG. 4B is a diagram showing the configuration of the image decoding unit 270 shown in FIG. 2B.

도 4a를 참조하면, 영상 복호화부(270)은 제 1 디코더(271), 제 2 디코더(272), 및 제 3 디코더(274), 크로스 채널 예측부(273) 및 결합부(275)를 포함할 수 있다.Referring to FIG. 4A, an image decoding unit 270 includes a first decoder 271, a second decoder 272, a third decoder 274, a cross-channel predictor 273, and a combiner 275. can do.

제 1 디코더(271), 제 2 디코더(272) 및 제 3 디코더(274)는 메모리에 저장될 수 있다. 일 실시예에서, 제 1 디코더(271), 제 2 디코더(272) 및 제 3 디코더(274)는 AI를 위한 적어도 하나의 전용 프로세서로 구현될 수도 있다.The first decoder 271, the second decoder 272, and the third decoder 274 may be stored in memory. In one embodiment, the first decoder 271, the second decoder 272, and the third decoder 274 may be implemented as at least one dedicated processor for AI.

구현예에 따라, 현재 크로마 영상의 프레임 타입이 I-프레임이 아닌 경우, 현재 크로마 영상의 레지듀얼 영상을 복원하기 위해, 영상 복호화부(270)의 동작이 수행될 수 있다. 현재 크로마 영상의 프레임 타입이 I-프레임인 경우, 영상 복호화부(270)의 동작이 수행되지 않을 수 있다. Depending on implementation, when the frame type of the current chroma image is not an I-frame, an operation of the image decoder 270 may be performed to reconstruct a residual image of the current chroma image. When the frame type of the current chroma image is an I-frame, the operation of the image decoder 270 may not be performed.

다만 이에 제한되지 않고, 현재 크로마 영상의 프레임 타입이 I-프레임의 경우에도 현재 크로마 영상의 레지듀얼 영상의 복원을 위해 영상 복호화부(270)의 동작이 수행될 수도 있다.However, it is not limited thereto, and even when the frame type of the current chroma image is an I-frame, the operation of the image decoder 270 may be performed to restore the residual image of the current chroma image.

획득부(260)에 의해 출력된 현재 루마 레지듀얼 영상에 대한 특징 데이터는 제 1 디코더(271)로 입력된다. 획득부(260)에 의해 출력된 크로스 채널 예측을 위한 특징 데이터는 제 2 디코더(272)로 입력된다. 획득부(260)에 의해 출력된 현재 크로마 레지듀얼 영상에 대한 특징 데이터는 제 3 디코더(274)로 입력된다.Feature data of the current luma residual image output by the acquisition unit 260 is input to the first decoder 271 . Feature data for cross-channel prediction output by the acquisition unit 260 is input to the second decoder 272 . Feature data of the current chroma residual image output by the acquisition unit 260 is input to the third decoder 274 .

구현예에 따라, 크로스 채널 예측을 위한 데이터의 복원을 위해, 현재 루마 레지듀얼 영상에 대한 특징 데이터가 크로스 채널 예측을 위한 특징 데이터에 연접(concatenation)된 후 제 2 디코더(272)로 입력될 수 있다. According to implementation, in order to reconstruct data for cross-channel prediction, feature data of the current luma residual image may be concatenated with feature data for cross-channel prediction and then input to the second decoder 272. there is.

구현예에 따라, 현재 크로마 레지듀얼 영상의 데이터의 복원을 위해, 현재 루마 레지듀얼 영상에 대한 특징 데이터 또는 크로스 채널 예측을 위한 특징 데이터가 현재 크로마 레지듀얼 영상에 대한 특징 데이터에 연접된 후, 제 3 디코더(274)로 입력될 수 있다.According to an embodiment, in order to reconstruct data of the current chroma residual image, after feature data of the current luma residual image or feature data for cross-channel prediction are concatenated with feature data of the current chroma residual image, 3 can be input to the decoder 274.

제 1 디코더(271)는 훈련을 통해 설정된 파라미터에 따라 현재 루마 레지듀얼 영상에 대한 특징 데이터를 처리하여 현재 루마 레지듀얼 영상의 복원 영상을 획득할 수 있다.The first decoder 271 may obtain a reconstructed image of the current luma residual image by processing feature data of the current luma residual image according to parameters set through training.

현재 루마 레지듀얼 영상의 프레임 타입이 I-프레임인 경우, 현재 루마 레지듀얼 영상에 대한 특징 데이터를 제 1 신경망에 입력하여 현재 루마 레지듀얼 영상의 복원 영상이 획득될 수 있다. When the frame type of the current luma residual image is an I-frame, a reconstructed image of the current luma residual image may be obtained by inputting feature data of the current luma residual image to the first neural network.

구현예에 따라, 현재 루마 레지듀얼 영상의 프레임 타입이 I-프레임이 아닌 경우, 현재 루마 레지듀얼 영상에 대한 특징 데이터는 현재 루마 레지듀얼 영상의 레지듀얼 영상의 특징 데이터를 포함할 수 있다. 이 경우, 현재 루마 레지듀얼 영상의 예측 영상이 생성될 수 있다. 현재 루마 레지듀얼 영상의 예측 영상은 도 1에서 전술한 바와 같이, 이전 루마 레지듀얼 영상의 복원 영상을 이용하여 획득될 수 있다. Depending on implementation, when the frame type of the current luma residual image is not an I-frame, feature data of the current luma residual image may include feature data of the residual image of the current luma residual image. In this case, a predicted image of the current luma residual image may be generated. As described above with reference to FIG. 1 , a predicted image of the current luma residual image may be obtained using a reconstructed image of a previous luma residual image.

제 1 디코더(271)는 훈련을 통해 설정된 파라미터에 따라 현재 루마 레지듀얼 영상에 대한 특징 데이터를 처리하여 현재 루마 레지듀얼 영상의 레지듀얼 영상을 복원할 수 있다. 제 1 디코더(271)는 현재 루마 레지듀얼 영상의 예측 영상 및 현재 루마 레지듀얼 영상의 레지듀얼 영상을 이용하여 현재 루마 레지듀얼 영상의 복원 영상을 생성할 수 있다.The first decoder 271 may reconstruct a residual image of the current luma residual image by processing feature data of the current luma residual image according to parameters set through training. The first decoder 271 may generate a reconstructed image of the current luma residual image using the predicted image of the current luma residual image and the residual image of the current luma residual image.

제 3 디코더(274)는 훈련을 통해 설정된 파라미터에 따라 현재 크로마 레지듀얼 영상의에 대한 특징 데이터를 처리하여 현재 크로마 레지듀얼 영상의 레지듀얼 영상을 획득할 수 있다. 현재 크로마 레지듀얼 영상의 레지듀얼 영상 데이터는 1차원 또는 2차원의 데이터로서, 복수의 샘플들로 이루어질 수 있다.The third decoder 274 may obtain a residual image of the current chroma residual image by processing feature data of the current chroma residual image according to parameters set through training. Residual image data of the current chroma residual image is one-dimensional or two-dimensional data and may include a plurality of samples.

제 2 디코더(272)는 훈련을 통해 설정된 파라미터에 따라 크로스 채널 예측을 위한 특징 데이터를 처리하여 크로스 채널 예측을 위한 데이터를 획득할 수 있다. 크로스 채널 예측을 위한 데이터는 1차원 또는 2차원의 데이터로서, 복수의 샘플들로 이루어질 수 있다. 크로스 채널 예측을 위한 데이터는 크로스 채널 예측을 위한 파라미터를 포함할 수 있다. 크로스 채널 예측을 위한 파라미터는 스케일 파라미터 및 바이어스 파라미터를 포함할 수 있다. 크로스 채널 예측을 위한 파라미터는 크로마 성분 별로 획득될 수 있다. 예를 들어, 크로마 성분 Cb에 대한 파라미터와 크로마 성분 Cr에 대한 파라미터가 별도로 획득될 수 있다. 다만 이에 제한되지 않고, 복수의 크로마 성분에 대하여 크로스 채널 예측을 위한 공통된 파라미터가 획득될 수 있다. 예를 들어, 크로마 성분 Cb 및 Cr에 대하여 크로스 채널 예측을 위한 공통된 파라미터가 획득될 수 있다. The second decoder 272 may obtain data for cross-channel prediction by processing feature data for cross-channel prediction according to parameters set through training. Data for cross-channel prediction is one-dimensional or two-dimensional data, and may consist of a plurality of samples. Data for cross-channel prediction may include parameters for cross-channel prediction. Parameters for cross-channel prediction may include a scale parameter and a bias parameter. Parameters for cross-channel prediction may be obtained for each chroma component. For example, a parameter for the chroma component Cb and a parameter for the chroma component Cr may be obtained separately. However, it is not limited thereto, and a common parameter for cross-channel prediction may be obtained for a plurality of chroma components. For example, common parameters for cross-channel prediction can be obtained for chroma components Cb and Cr.

루마 성분의 레지듀얼 영상과 크로마 성분의 레지듀얼 영상은 공통된 오브젝트에 대한 것이기 때문에, 루마 성분의 레지듀얼 영상 샘플과 크로마 성분의 레지듀얼 영상 샘플 간의 선형적인 관계가 존재할 수 있다. 이러한 선형적인 관계는 선형 모델로 표현될 수 있고, 선형 모델의 파라미터는 스케일 파라미터 및 바이어스 파라미터를 포함할 수 있다. Since the residual image of the luma component and the residual image of the chroma component are for a common object, a linear relationship between the residual image sample of the luma component and the residual image sample of the chroma component may exist. This linear relationship may be expressed as a linear model, and parameters of the linear model may include a scale parameter and a bias parameter.

구현예에 따라, 영상의 색표현 방식은 달라질 수 있다. Y 성분(루마 성분)이 오차에 민감하므로, 색차 성분인 Cb(U), Cr(V) 성분보다 많은 샘플에 대한 인코딩이 수행될 수 있다. Depending on implementation, a color representation method of an image may vary. Since the Y component (luma component) is sensitive to errors, encoding can be performed on more samples than the color difference components Cb(U) and Cr(V).

제 2 디코더(272)는 루마 성분과 크로마 성분의 해상도를 매칭하기 위해, 루마 레지듀얼 영상에 대한 특징 데이터가 다운샘플링될 수 있다. The second decoder 272 may downsample feature data of the luma residual image in order to match the resolutions of the luma component and the chroma component.

다운샘플링된 루마 레지듀얼 영상에 대한 특징 데이터는 크로마 예측을 위한 특징 데이터와 연접되고, 훈련을 통해 설정된 파라미터에 따라 연접된 데이터를 처리하여 크로스 채널 예측을 위한 데이터를 획득할 수 있다.Feature data of the downsampled luma residual image may be concatenated with feature data for chroma prediction, and data for cross-channel prediction may be obtained by processing the concatenated data according to parameters set through training.

크로스 채널 예측부(273)는 크로스 채널 예측 정보 및 루마 레지듀얼 영상의 복원 영상을 이용하여 크로마 영상의 예측 영상을 생성할 수 있다. 크로스 채널 예측부(273)는 크로스 채널 예측 정보에 포함된 스케일 파라미터 및 바이어스 파라미터를 루마 레지듀얼 영상의 복원 영상에 적용하여 크로마 레지듀얼 영상의 예측 영상을 획득할 수 있다.The cross-channel prediction unit 273 may generate a prediction image of a chroma image using cross-channel prediction information and a reconstructed image of a luma residual image. The cross-channel predictor 273 may obtain a predicted image of the chroma residual image by applying the scale parameter and the bias parameter included in the cross-channel prediction information to the reconstructed image of the luma residual image.

스케일 파라미터는 루마 레지듀얼 영상의 복원 영상 내 샘플들에 대한 곱셈 연산을 위해 이용될 수 있다. 이때, 샘플별로 스케일 파라미터가 존재할 수 있다. 바이어스 파라미터는 스케일 파라미터와의 곱셈 연산을 통해 획득된 결과값에 대한 덧셈 연산을 위해 이용될 수 있다. 이때, 샘플별로 바이어스 파라미터가 존재할 수 있다.A scale parameter may be used for a multiplication operation for samples in a reconstructed image of a luma residual image. In this case, a scale parameter may exist for each sample. The bias parameter may be used for an addition operation on a result value obtained through a multiplication operation with a scale parameter. In this case, a bias parameter may exist for each sample.

크로스 채널 예측부(273)은 스케일 파라미터를 이용하여 현재 루마 레지듀얼 영상의 복원 영상에 대한 곱셈 연산을 수행한 후, 바이어스 파라미터를 이용한 덧셈 연산을 수행하여 현재 크로마 레지듀얼 영상의 예측 영상을 획득할 수 있다.The cross-channel predictor 273 performs a multiplication operation on the reconstructed image of the current luma residual image using a scale parameter and then performs an addition operation using a bias parameter to obtain a predicted image of the current chroma residual image. can

만약, 현재 레지듀얼 영상의 색표현 방식이 YUV 4:4:4가 아닌 경우, 루마 레지듀얼 영상의 복원 영상에 대한 다운샘플링이 수행될 수 있다. 다운샘플링을 통해 루마 레지듀얼 영상과 크로마 레지듀얼 영상 간 해상도가 매칭될 수 있고, 다운샘플링된 루마 레지듀얼 영상에 대하여 샘플별로 스케일 파라미터를 이용한 곱셈 연산 및 바이어스 파라미터를 이용한 덧셈 연산이 수행된 후에 획득된 영상이 현재 크로마 레지듀얼 영상의 예측 영상으로 결정될 수 있다. 이때, 다운샘플링된 루마 레지듀얼 영상의 해상도는 크로마 레지듀얼 영상의 해상도와 동일할 수 있으나, 이에 제한되지 않고, 크로마 레지듀얼 영상의 해상도보다 크고, 루마 레지듀얼 영상의 해상도보다는 작을 수 있다. If the color expression scheme of the current residual image is not YUV 4:4:4, downsampling of the reconstructed image of the luma residual image may be performed. Obtained after resolutions can be matched between the luma residual image and the chroma residual image through downsampling, and a multiplication operation using a scale parameter and an addition operation using a bias parameter are performed on the downsampled luma residual image for each sample. The resulting image may be determined as a predicted image of the current chroma residual image. In this case, the resolution of the downsampled luma residual image may be the same as that of the chroma residual image, but is not limited thereto, and may be larger than the resolution of the chroma residual image and smaller than that of the luma residual image.

이 경우, 다운샘플링된 루마 레지듀얼 영상에 대하여 샘플별로 스케일 파라미터를 이용한 곱셈 연산 및 바이어스 파라미터를 이용한 덧셈 연산이 수행된 후에 획득된 영상이 현재 크로마 레지듀얼 영상의 예측 영상으로 결정되지 않을 수 있다. In this case, an image obtained after a multiplication operation using a scale parameter and an addition operation using a bias parameter are performed for each sample on the downsampled luma residual image may not be determined as a predicted image of the current chroma residual image.

연산이 수행된 후에 획득된 영상에 대하여 추가적으로 다운샘플링이 수행되고, 다운샘플링이 수행된 영상이 현재 크로마 레지듀얼 영상의 예측 영상으로 결정될 수 있다.Downsampling is additionally performed on an image obtained after the operation is performed, and the image on which the downsampling is performed may be determined as a predicted image of the current chroma residual image.

구현예에 따라, 샘플별로 곱셈 연산 및 덧셈 연산이 수행됨을 설명하였으나, 이에 제한되지 않고 샘플 그룹 별로 곱셈 연산 및 덧셈 연산이 수행될 수 있다. 샘플 그룹의 크기는 KxK(K는 1보다 큰 정수)일 수 있으나, 이에 제한되지 않는다. 바람직하게는 K는 2의 배수 또는 2의 승수일 수 있다.Depending on the implementation, it has been described that the multiplication operation and the addition operation are performed for each sample, but the multiplication operation and the addition operation may be performed for each sample group without being limited thereto. The size of the sample group may be KxK (K is an integer greater than 1), but is not limited thereto. Preferably, K may be a multiple of 2 or a multiplier of 2.

크로스 채널 예측부(273)에 의해 획득된 크로마 레지듀얼 영상의 예측 영상 및 제 3 디코더(274)에 의해 획득된 크로마 레지듀얼 영상의 레지듀얼 영상은 결합부(275)로 제공될 수 있다.The prediction image of the chroma residual image obtained by the cross-channel predictor 273 and the residual image of the chroma residual image obtained by the third decoder 274 may be provided to the combiner 275 .

결합부(275)는 크로마 레지듀얼 영상의 예측 영상 및 크로마 레지듀얼 영상의 레지듀얼 영상을 결합하여 크로마 레지듀얼 영상의 복원 영상을 생성할 수 있다. 결합부(275)는 크로마 레지듀얼 영상의 예측 영상의 샘플값들과 크로마 레지듀얼 영상의 레지듀얼 영상의 샘플값들을 합하여 크로마 레지듀얼 영상의 복원 영상의 샘플값들을 생성할 수 있다.The combiner 275 may generate a reconstructed image of a chroma residual image by combining a predicted image of the chroma residual image and a residual image of the chroma residual image. The combiner 275 may generate sample values of a reconstructed image of a chroma residual image by summing sample values of the predicted image of the chroma residual image and sample values of the residual image of the chroma residual image.

영상 복호화부(270)는 현재 크로마 영상의 예측 영상을 생성할 수 있다. 영상 복호화부(270)는 이전 크로마 영상의 복원 영상을 기초로, 현재 크로마 영상의 예측 영상을 생성할 수 있다. 이때, 이전 크로마 영상의 복원 영상에 기초한 현재 크로마 영상의 예측 방식은 도 1을 참조하여 전술한 예측 방식과 유사할 수 있다. The image decoder 270 may generate a predicted image of the current chroma image. The image decoder 270 may generate a predicted image of a current chroma image based on a reconstructed image of a previous chroma image. In this case, a prediction method of a current chroma image based on a reconstructed image of a previous chroma image may be similar to the prediction method described above with reference to FIG. 1 .

구현예에 따라, 영상 복호화부(270)는 크로스 채널 예측을 위한 특징 데이터로부터 크로스 채널 예측 정보를 획득하고, 크로스 채널 예측 정보를 다른 장치로 제공할 수 있다. 이 경우, 제 1 디코더(271), 크로스 채널 예측부(273), 제 3 디코더(274) 및 결합부(275)는 영상 복호화부(270)에 포함되지 않을 수 있다.Depending on implementation, the image decoder 270 may obtain cross-channel prediction information from feature data for cross-channel prediction and provide the cross-channel prediction information to another device. In this case, the first decoder 271, the cross-channel predictor 273, the third decoder 274, and the combiner 275 may not be included in the image decoder 270.

본 개시의 일 실시예에 따르면, 크로스 채널 예측에 기초하여 비트스트림이 생성되므로, 크로스 채널 예측 없이 비트스트림이 생성되는 경우에 비해 낮은 비트레이트의 달성이 가능하다.According to an embodiment of the present disclosure, since a bitstream is generated based on cross-channel prediction, it is possible to achieve a lower bitrate than when a bitstream is generated without cross-channel prediction.

도 5a는 본 개시의 일 실시예에 따른 영상 복호화 방법의 흐름도를 도시한다. 5A is a flowchart of an image decoding method according to an embodiment of the present disclosure.

도 5a를 참조하면, S505 단계에서, 영상 복호화 장치(200)는 비트스트림으로부터, 크로스 채널 예측을 위한 특징 데이터를 획득할 수 있다.Referring to FIG. 5A , in step S505, the video decoding apparatus 200 may obtain feature data for cross-channel prediction from a bitstream.

S510 단계에서, 영상 복호화 장치(200)는 현재 영상 내 루마 영상에 대한 특징 데이터 및 현재 영상 내 크로마 영상에 대한 특징 데이터를 획득할 수 있다.In step S510, the image decoding apparatus 200 may obtain feature data of a luma image in the current image and feature data of a chroma image in the current image.

S515 단계에서, 영상 복호화 장치(200)는 신경망 기반의 루마 디코더에 루마 영상에 대한 특징 데이터를 적용하여 루마 영상을 복원할 수 있다. In step S515, the image decoding apparatus 200 may reconstruct the luma image by applying feature data of the luma image to the neural network-based luma decoder.

S520 단계에서, 영상 복호화 장치(200)는 크로스 채널 디코더에 크로스 채널 예측을 위한 특징 데이터를 적용하여 크로스 채널 예측 정보를 획득할 수 있다.In step S520, the video decoding apparatus 200 may obtain cross-channel prediction information by applying feature data for cross-channel prediction to the cross-channel decoder.

S525 단계에서, 영상 복호화 장치(200)는 복원된 루마 영상 및 크로스 채널 예측 정보를 기초로, 크로스 채널 예측을 수행하여, 크로마 영상의 예측 영상을 획득할 수 있다.In step S525, the image decoding apparatus 200 may obtain a predicted image of a chroma image by performing cross-channel prediction based on the reconstructed luma image and cross-channel prediction information.

S530 단계에서, 영상 복호화 장치(200)는 신경망 기반의 크로마 디코더에 크로마 영상에 대한 특징 데이터를 적용하여 크로마 영상의 레지듀얼 영상을 획득할 수 있다.In step S530, the image decoding apparatus 200 may acquire a residual image of the chroma image by applying feature data of the chroma image to the neural network-based chroma decoder.

S535 단계에서, 영상 복호화 장치(200)는 크로마 영상의 예측 영상 및 크로마 영상의 레지듀얼 영상을 기초로, 크로마 영상을 복원할 수 있다.In step S535, the image decoding apparatus 200 may reconstruct a chroma image based on the predicted image of the chroma image and the residual image of the chroma image.

S540 단계에서, 영상 복호화 장치(200)는 복원된 루마 영상 및 복원된 크로마 영상을 이용하여 현재 영상을 획득할 수 있다.In step S540, the image decoding apparatus 200 may obtain a current image using the reconstructed luma image and the reconstructed chroma image.

도 5b는 본 개시의 다른 실시예에 따른 영상 복호화 방법의 흐름도를 도시한다. 5B is a flowchart of an image decoding method according to another embodiment of the present disclosure.

도 5b를 참조하면, S555 단계에서, 영상 복호화 장치(250)는 비트스트림으로부터, 크로스 채널 예측을 위한 특징 데이터를 획득할 수 있다.Referring to FIG. 5B , in step S555, the video decoding apparatus 250 may obtain feature data for cross-channel prediction from a bitstream.

S560 단계에서, 영상 복호화 장치(250)는 현재 영상 내 루마 레지듀얼 영상에 대한 특징 데이터 및 현재 영상 내 크로마 레지듀얼 영상에 대한 특징 데이터를 획득할 수 있다.In step S560, the image decoding apparatus 250 may obtain feature data of a luma residual image in the current image and feature data of a chroma residual image in the current image.

S565 단계에서, 영상 복호화 장치(250)는 신경망 기반의 루마 디코더에 루마 레지듀얼 영상에 대한 특징 데이터를 적용하여 루마 레지듀얼 영상을 복원할 수 있다. In step S565, the image decoding apparatus 250 may reconstruct the luma residual image by applying feature data of the luma residual image to the neural network-based luma decoder.

S570 단계에서, 영상 복호화 장치(250)는 크로스 채널 디코더에 크로스 채널 예측을 위한 특징 데이터를 적용하여 크로스 채널 예측 정보를 획득할 수 있다.In step S570, the video decoding apparatus 250 may obtain cross-channel prediction information by applying feature data for cross-channel prediction to the cross-channel decoder.

S575 단계에서, 영상 복호화 장치(250)는 복원된 루마 영상 및 크로스 채널 예측 정보를 기초로, 크로스 채널 예측을 수행하여, 크로마 영상의 예측 영상을 획득할 수 있다.In step S575, the image decoding apparatus 250 may obtain a predicted image of a chroma image by performing cross-channel prediction based on the reconstructed luma image and cross-channel prediction information.

S580 단계에서, 영상 복호화 장치(250)는 신경망 기반의 크로마 디코더에 크로마 레지듀얼 영상에 대한 특징 데이터를 적용하여 크로마 레지듀얼 영상의 레지듀얼 영상을 획득할 수 있다.In step S580, the image decoding apparatus 250 may obtain a residual image of the chroma residual image by applying feature data of the chroma residual image to the neural network-based chroma decoder.

S585 단계에서, 영상 복호화 장치(250)는 크로마 레지듀얼 영상의 예측 영상 및 크로마 레지듀얼 영상의 레지듀얼 영상을 기초로, 크로마 레지듀얼 영상을 복원할 수 있다.In step S585, the image decoding apparatus 250 may reconstruct a chroma residual image based on the predicted image of the chroma residual image and the residual image of the chroma residual image.

도 6a는 일 실시예에 따른 영상 부호화 장치(600)의 구성을 도시하는 도면이다.6A is a diagram illustrating a configuration of an image encoding apparatus 600 according to an embodiment.

도 6a를 참조하면, 영상 부호화 장치(600)는 영상 부호화부(610), 비트스트림 생성부(620), 획득부(630) 및 영상 복호화부(640)을 포함할 수 있다.Referring to FIG. 6A , an image encoding apparatus 600 may include an image encoder 610, a bitstream generator 620, an acquirer 630, and an image decoder 640.

영상 부호화부(610), 비트스트림 생성부(620), 획득부(630) 및 영상 복호화부(640)는 프로세서로 구현될 수 있고, 영상 부호화부(610), 비트스트림 생성부(620), 획득부(630) 및 영상 복호화부(640)는 메모리(미도시)에 저장된 인스트럭션에 따라 동작할 수 있다.The image encoder 610, the bitstream generator 620, the acquirer 630, and the image decoder 640 may be implemented as a processor, and the image encoder 610, the bitstream generator 620, The acquiring unit 630 and the image decoding unit 640 may operate according to instructions stored in a memory (not shown).

도 6a는 영상 부호화부(610), 비트스트림 생성부(620), 획득부(630) 및 영상 복호화부(640)를 개별적으로 도시하고 있으나, 영상 부호화부(610), 비트스트림 생성부(620), 획득부(630) 및 영상 복호화부(640)는 하나의 프로세서를 통해 구현될 수 있다. 이 경우, 영상 부호화부(610), 비트스트림 생성부(620), 획득부(630) 및 영상 복호화부(640)는 전용 프로세서로 구현되거나, AP(application processor), CPU(central processing unit) 또는 GPU(graphic processing unit)와 같은 범용 프로세서와 소프트웨어의 조합을 통해 구현될 수도 있다. 또한, 전용 프로세서의 경우, 본 개시의 실시예를 구현하기 위한 메모리를 포함하거나, 외부 메모리를 이용하기 위한 메모리 처리부를 포함할 수 있다. 6A shows the image encoder 610, the bitstream generator 620, the acquirer 630, and the image decoder 640 individually, but the image encoder 610 and the bitstream generator 620 ), the acquisition unit 630 and the image decoding unit 640 may be implemented through one processor. In this case, the image encoder 610, the bitstream generator 620, the acquirer 630, and the image decoder 640 are implemented as a dedicated processor, an application processor (AP), a central processing unit (CPU), or It may be implemented through a combination of a general-purpose processor such as a graphic processing unit (GPU) and software. In addition, a dedicated processor may include a memory for implementing an embodiment of the present disclosure or a memory processing unit for using an external memory.

영상 부호화부(610), 비트스트림 생성부(620), 획득부(630) 및 영상 복호화부(640)는 복수의 프로세서로 구성될 수도 있다. 이 경우, 전용 프로세서들의 조합으로 구현되거나, AP, CPU 또는 GPU와 같은 다수의 범용 프로세서들과 소프트웨어의 조합을 통해 구현될 수도 있다.The image encoder 610, the bitstream generator 620, the acquirer 630, and the image decoder 640 may include a plurality of processors. In this case, it may be implemented by a combination of dedicated processors or a combination of software and a plurality of general-purpose processors such as APs, CPUs, or GPUs.

영상 부호화부(610)는 현재 영상으로부터 루마 영상에 대한 특징 데이터, 크로스 채널 예측을 위한 특징 데이터 및 크로마 영상에 대한 특징 데이터를 획득할 수 있다.The image encoder 610 may obtain feature data for a luma image, feature data for cross-channel prediction, and feature data for a chroma image from the current image.

영상 부호화부(610)는 루마 영상에 대한 특징 데이터를 획득하기 위해, 신경망 기반의 제 1 인코더를 이용할 수 있다. 영상 부호화부(610)는 크로마 예측을 위한 특징 데이터를 획득하기 위해, 신경망 기반의 제 2 인코더를 이용할 수 있다. 영상 부호화부(610)는 크로마 영상에 대한 특징 데이터를 획득하기 위해 신경망 기반의 제 3 인코더를 이용할 수 있다.The image encoder 610 may use a first encoder based on a neural network to obtain feature data for a luma image. The image encoder 610 may use a second encoder based on a neural network to obtain feature data for chroma prediction. The image encoder 610 may use a neural network-based third encoder to acquire feature data for a chroma image.

영상 부호화부(610)에 의해 획득된 루마 영상에 대한 특징 데이터, 크로스 채널 예측을 위한 특징 데이터 및 크로마 영상에 대한 특징 데이터는 비트스트림 생성부(620)로 전달된다.Characteristic data for a luma image obtained by the image encoder 610 , feature data for cross-channel prediction, and feature data for a chroma image are transferred to the bitstream generator 620 .

비트스트림 생성부(620)는 루마 영상에 대한 특징 데이터, 크로스 채널 예측을 위한 특징 데이터 및 크로마 영상에 대한 특징 데이터로부터 비트스트림을 생성할 수 있다. 구현예에 따라, 비트스트림 생성부(620)는 루마 영상에 대한 특징 데이터에 대응하는 제 1 비트스트림, 크로스 채널 예측을 위한 특징 데이터에 대응하는 제 2 비트스트림, 및 크로마 영상에 대한 특징 데이터에 대응하는 제 3 비트스트림을 생성할 수 있다.The bitstream generator 620 may generate a bitstream from feature data for a luma image, feature data for cross-channel prediction, and feature data for a chroma image. According to an embodiment, the bitstream generator 620 generates a first bitstream corresponding to feature data for a luma image, a second bitstream corresponding to feature data for cross-channel prediction, and feature data for a chroma image. A corresponding third bitstream may be generated.

비트스트림은 네트워크를 통해 영상 복호화 장치(200)로부터 전송될 수 있다. 또한, 일 실시예에서, 비트스트림은 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체, CD-ROM 및 DVD와 같은 광기록 매체, 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical medium) 등을 포함하는 데이터 저장 매체에 기록될 수도 있다.The bitstream may be transmitted from the video decoding apparatus 200 through a network. Also, in one embodiment, the bitstream is a magnetic medium such as a hard disk, floppy disk and magnetic tape, an optical recording medium such as CD-ROM and DVD, and a magneto-optical medium such as a floptical disk. It may be recorded on a data storage medium including an optical medium) or the like.

획득부(630)는 비트스트림 생성부(620)에 의해 생성된 비트스트림으로부터 루마 영상에 대한 특징 데이터, 크로스 채널 예측을 위한 특징 데이터 및 크로마 영상에 대한 특징 데이터를 획득한다. 구현예에 따라, 획득부(630)는 영상 부호화부(610)로부터 루마 영상에 대한 특징 데이터, 크로스 채널 예측을 위한 특징 데이터 및 크로마 영상에 대한 특징 데이터를 수신할 수 있다.The acquisition unit 630 acquires feature data for a luma image, feature data for cross-channel prediction, and feature data for a chroma image from the bitstream generated by the bitstream generator 620 . According to an embodiment, the acquisition unit 630 may receive feature data for a luma image, feature data for cross-channel prediction, and feature data for a chroma image from the image encoder 610 .

루마 영상에 대한 특징 데이터, 크로스 채널 예측을 위한 특징 데이터 및 크로마 영상에 대한 특징 데이터는 영상 복호화부(640)로 전달될 수 있다. 영상 복호화부(640)는 루마 영상에 대한 특징 데이터를 이용하여 루마 영상을 복원할 수 있다. 영상 복호화부(640)는 크로스 채널 예측을 위한 특징 데이터를 이용하여 크로스 채널 예측 정보를 획득할 수 있다. 영상 복호화부(640)는 크로스 채널 예측 정보 및 루마 영상의 복원 영상을 이용하여 크로마 영상을 복원할 수 있다. 영상 복호화부(640)는 루마 영상의 복원 영상 및 크로마 영상의 복원 영상을 이용하여 현재 영상의 복원 영상을 생성할 수 있다.Feature data for a luma image, feature data for cross-channel prediction, and feature data for a chroma image may be transferred to the image decoder 640 . The image decoder 640 may reconstruct a luma image using feature data of the luma image. The image decoder 640 may obtain cross-channel prediction information using feature data for cross-channel prediction. The image decoder 640 may reconstruct a chroma image using cross-channel prediction information and a reconstructed image of a luma image. The image decoder 640 may generate a restored image of the current image using the restored image of the luma image and the restored image of the chroma image.

획득부(630) 및 영상 복호화부(640)의 구성 및 동작은 앞서 도 2a, 도 3 및 도 4a의 획득부(210) 및 영상 복호화부(230)의 동작과 동일하므로 상세한 설명을 생략한다. Configurations and operations of the acquiring unit 630 and the image decoding unit 640 are the same as those of the obtaining unit 210 and the image decoding unit 230 of FIGS. 2A, 3 and 4A, so detailed descriptions thereof are omitted.

일 실시예에서, 영상 부호화부(610)는 크로스 채널 예측을 위한 특징 데이터를 획득하고, 비트스트림 생성부(620)는 크로스 채널 예측을 위한 특징 데이터에 대응하는 비트스트림을 생성할 수 있다. 획득부(630)는 비트스트림으로부터 크로스 채널 예측을 위한 특징 데이터를 획득할 수 있다. 획득부(630)는 크로스 채널 예측을 위한 특징 데이터에 기초하여 크로스 채널 예측 정보를 획득할 수 있다. In an embodiment, the image encoder 610 may acquire feature data for cross-channel prediction, and the bitstream generator 620 may generate a bitstream corresponding to the feature data for cross-channel prediction. The acquisition unit 630 may obtain feature data for cross-channel prediction from the bitstream. The acquisition unit 630 may obtain cross-channel prediction information based on feature data for cross-channel prediction.

즉, 영상 부호화부(610), 비트스트림 생성부(620), 획득부(630) 및 영상 복호화부(640)를 통해 크로스 채널 예측 정보가 부호화되므로, 이 경우, 영상 부호화 장치(600)는 크로스 채널 예측 부호화 장치로 참조될 수 있다.That is, since cross-channel prediction information is encoded through the image encoder 610, the bitstream generator 620, the acquirer 630, and the image decoder 640, in this case, the image encoding device 600 cross-channel It may be referred to as a channel prediction encoding device.

영상 복호화부(640)에 의해 복원된 크로스 채널 예측 정보는 다른 장치로 전달되고, 다른 장치에 의해 크로마 영상이 부호화될 수 있다. 구체적으로, 다른 장치는 크로스 채널 예측 정보에 따라 루마 복원 영상으로부터 획득되는 크로마 영상의 예측 영상과 크로마 영상의 원본 영상 사이의 차이에 대응하는 크로마 영상의 레지듀얼 영상의 데이터를 부호화할 수 있다.The cross-channel prediction information reconstructed by the image decoder 640 may be transmitted to another device, and a chroma image may be encoded by the other device. Specifically, another device may encode residual image data of a chroma image corresponding to a difference between a predicted chroma image obtained from a luma reconstructed image and an original chroma image according to cross-channel prediction information.

도 6b는 일 실시예에 따른 영상 부호화 장치(650)의 구성을 도시하는 도면이다.6B is a diagram illustrating a configuration of an image encoding device 650 according to an exemplary embodiment.

도 6b를 참조하면, 영상 부호화 장치(650)는 영상 부호화부(660), 비트스트림 생성부(670), 획득부(680) 및 영상 복호화부(690)을 포함할 수 있다.Referring to FIG. 6B , an image encoding device 650 may include an image encoder 660, a bitstream generator 670, an acquirer 680, and an image decoder 690.

영상 부호화부(660), 비트스트림 생성부(670), 획득부(680) 및 영상 복호화부(690)는 프로세서로 구현될 수 있고, 영상 부호화부(660), 비트스트림 생성부(670), 획득부(680) 및 영상 복호화부(690)는 메모리(미도시)에 저장된 인스트럭션에 따라 동작할 수 있다.The image encoder 660, the bitstream generator 670, the acquirer 680, and the image decoder 690 may be implemented as a processor, and the image encoder 660, the bitstream generator 670, The acquiring unit 680 and the image decoding unit 690 may operate according to instructions stored in a memory (not shown).

도 6b는 영상 부호화부(660), 비트스트림 생성부(670), 획득부(680) 및 영상 복호화부(690)를 개별적으로 도시하고 있으나, 영상 부호화부(660), 비트스트림 생성부(670), 획득부(680) 및 영상 복호화부(690)는 하나의 프로세서를 통해 구현될 수 있다. 이 경우, 영상 부호화부(660), 비트스트림 생성부(670), 획득부(680) 및 영상 복호화부(690)는 전용 프로세서로 구현되거나, AP(application processor), CPU(central processing unit) 또는 GPU(graphic processing unit)와 같은 범용 프로세서와 소프트웨어의 조합을 통해 구현될 수도 있다. 또한, 전용 프로세서의 경우, 본 개시의 실시예를 구현하기 위한 메모리를 포함하거나, 외부 메모리를 이용하기 위한 메모리 처리부를 포함할 수 있다. 6B shows the image encoder 660, the bitstream generator 670, the acquirer 680, and the image decoder 690 individually, but the image encoder 660 and the bitstream generator 670 ), the acquisition unit 680 and the image decoding unit 690 may be implemented through one processor. In this case, the image encoder 660, the bitstream generator 670, the acquirer 680, and the image decoder 690 may be implemented as a dedicated processor, an application processor (AP), a central processing unit (CPU), or It may be implemented through a combination of a general-purpose processor such as a graphic processing unit (GPU) and software. In addition, a dedicated processor may include a memory for implementing an embodiment of the present disclosure or a memory processing unit for using an external memory.

영상 부호화부(660), 비트스트림 생성부(670), 획득부(680) 및 영상 복호화부(690)는 복수의 프로세서로 구성될 수도 있다. 이 경우, 전용 프로세서들의 조합으로 구현되거나, AP, CPU 또는 GPU와 같은 다수의 범용 프로세서들과 소프트웨어의 조합을 통해 구현될 수도 있다.The image encoder 660, the bitstream generator 670, the acquirer 680, and the image decoder 690 may include a plurality of processors. In this case, it may be implemented by a combination of dedicated processors or a combination of software and a plurality of general-purpose processors such as APs, CPUs, or GPUs.

영상 부호화부(660)는 현재 영상의 레지듀얼 영상으로부터 루마 레지듀얼 영상에 대한 특징 데이터, 크로스 채널 예측을 위한 특징 데이터 및 크로마 레지듀얼 영상에 대한 특징 데이터를 획득할 수 있다.The image encoder 660 may obtain feature data for a luma residual image, feature data for cross-channel prediction, and feature data for a chroma residual image from the residual image of the current image.

영상 부호화부(660)는 루마 레지듀얼 영상에 대한 특징 데이터를 획득하기 위해, 신경망 기반의 제 1 인코더를 이용할 수 있다. 영상 부호화부(610)는 크로스 예측을 위한 특징 데이터를 획득하기 위해, 신경망 기반의 제 2 인코더를 이용할 수 있다. 영상 부호화부(660)는 크로마 레지듀얼 영상에 대한 특징 데이터를 획득하기 위해 신경망 기반의 제 3 인코더를 이용할 수 있다.The image encoder 660 may use a first encoder based on a neural network to obtain feature data for a luma residual image. The image encoder 610 may use a second encoder based on a neural network to obtain feature data for cross prediction. The image encoder 660 may use a neural network-based third encoder to obtain feature data for a chroma residual image.

영상 부호화부(660)에 의해 획득된 루마 레지듀얼 영상에 대한 특징 데이터, 크로스 채널 예측을 위한 특징 데이터 및 크로마 레지듀얼 영상에 대한 특징 데이터는 비트스트림 생성부(670)로 전달된다.The feature data of the luma residual image obtained by the image encoder 660 , feature data for cross-channel prediction, and feature data of the chroma residual image are transferred to the bitstream generator 670 .

비트스트림 생성부(670)는 루마 레지듀얼 영상에 대한 특징 데이터, 크로스 채널 예측을 위한 특징 데이터 및 크로마 레지듀얼 영상에 대한 특징 데이터로부터 비트스트림을 생성할 수 있다. 구현예에 따라, 비트스트림 생성부(670)는 루마 레지듀얼 영상에 대한 특징 데이터에 대응하는 제 1 비트스트림, 크로스 채널 예측을 위한 특징 데이터에 대응하는 제 2 비트스트림, 및 크로마 레지듀얼 영상에 대한 특징 데이터에 대응하는 제 3 비트스트림을 생성할 수 있다.The bitstream generator 670 may generate a bitstream from feature data for a luma residual image, feature data for cross-channel prediction, and feature data for a chroma residual image. According to an embodiment, the bitstream generator 670 generates a first bitstream corresponding to feature data for a luma residual image, a second bitstream corresponding to feature data for cross-channel prediction, and a chroma residual image. A third bitstream corresponding to feature data for .

비트스트림은 네트워크를 통해 영상 복호화 장치(250)로부터 전송될 수 있다. 또한, 일 실시예에서, 비트스트림은 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체, CD-ROM 및 DVD와 같은 광기록 매체, 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical medium) 등을 포함하는 데이터 저장 매체에 기록될 수도 있다.The bitstream may be transmitted from the video decoding apparatus 250 through a network. Also, in one embodiment, the bitstream is a magnetic medium such as a hard disk, floppy disk and magnetic tape, an optical recording medium such as CD-ROM and DVD, and a magneto-optical medium such as a floptical disk. It may be recorded on a data storage medium including an optical medium).

획득부(680)는 비트스트림으로부터 획득된 비트스트림 생성부(670)에 의해 생성된 비트스트림으로부터 루마 레지듀얼 영상에 대한 특징 데이터, 크로스 채널 예측을 위한 특징 데이터 및 크로마 레지듀얼 영상에 대한 특징 데이터를 획득한다. 구현예에 따라, 획득부(680)는 영상 부호화부(660)로부터 루마 레지듀얼 영상에 대한 특징 데이터, 크로스 채널 예측을 위한 특징 데이터 및 크로마 레지듀얼 영상에 대한 특징 데이터를 수신할 수 있다.The acquisition unit 680 includes feature data for a luma residual image, feature data for cross-channel prediction, and feature data for a chroma residual image from the bitstream generated by the bitstream generator 670 obtained from the bitstream. Acquire According to an embodiment, the acquisition unit 680 may receive feature data for a luma residual image, feature data for cross-channel prediction, and feature data for a chroma residual image from the image encoder 660 .

루마 레지듀얼 영상에 대한 특징 데이터, 크로스 채널 예측을 위한 특징 데이터 및 크로마 레지듀얼 영상에 대한 특징 데이터는 영상 복호화부(690)로 전달될 수 있다. 영상 복호화부(690)는 루마 레지듀얼 영상에 대한 특징 데이터를 이용하여 루마 레지듀얼 영상을 복원할 수 있다. 영상 복호화부(690)는 크로스 채널 예측을 위한 특징 데이터를 이용하여 크로스 채널 예측 정보를 획득할 수 있다. 영상 복호화부(690)는 크로스 채널 예측 정보 및 루마 레지듀얼 영상의 복원 영상을 이용하여 크로마 레지듀얼 영상을 복원할 수 있다. Feature data for the luma residual image, feature data for cross-channel prediction, and feature data for the chroma residual image may be transmitted to the image decoder 690 . The image decoder 690 may reconstruct a luma residual image using feature data of the luma residual image. The image decoder 690 may obtain cross-channel prediction information using feature data for cross-channel prediction. The image decoder 690 may reconstruct a chroma residual image using cross-channel prediction information and a reconstructed image of the luma residual image.

획득부(680) 및 영상 복호화부(690)의 구성 및 동작은 앞서 도 2b, 도 3 및 도 4b의 획득부(260) 및 영상 복호화부(270)의 동작과 동일하므로 상세한 설명을 생략한다.Configurations and operations of the acquiring unit 680 and the image decoding unit 690 are the same as those of the obtaining unit 260 and the image decoding unit 270 of FIGS. 2B, 3 and 4B, and thus detailed descriptions thereof are omitted.

일 실시예에서, 영상 부호화부(660)는 크로스 채널 예측을 위한 특징 데이터를 획득하고, 비트스트림 생성부(670)는 크로스 채널 예측을 위한 특징 데이터에 대응하는 비트스트림을 생성할 수 있다. 획득부(680)는 비트스트림으로부터 크로스 채널 예측을 위한 특징 데이터를 획득할 수 있다. 획득부(680)는 크로스 채널 예측을 위한 특징 데이터에 기초하여 크로스 채널 예측 정보를 획득할 수 있다. In an embodiment, the image encoder 660 may obtain feature data for cross-channel prediction, and the bitstream generator 670 may generate a bitstream corresponding to the feature data for cross-channel prediction. The acquisition unit 680 may obtain feature data for cross-channel prediction from the bitstream. The acquisition unit 680 may obtain cross-channel prediction information based on feature data for cross-channel prediction.

즉, 영상 부호화부(660), 비트스트림 생성부(670), 획득부(680) 및 영상 복호화부(690)를 통해 크로스 채널 예측 정보가 부호화되므로, 이 경우, 영상 부호화 장치(650)는 크로스 채널 예측 부호화 장치로 참조될 수 있다.That is, since the cross-channel prediction information is encoded through the image encoder 660, the bitstream generator 670, the acquirer 680, and the image decoder 690, in this case, the image encoder 650 cross-channel prediction information. It may be referred to as a channel prediction encoding device.

영상 복호화부(690)에 의해 복원된 크로스 채널 예측 정보는 다른 장치로 전달되고, 다른 장치에 의해 크로마 레지듀얼 영상이 부호화될 수 있다. 구체적으로, 다른 장치는 크로스 채널 예측 정보에 따라, 루마 레지듀얼 영상으로부터 획득되는 크로마 레지듀얼 영상의 예측 영상과 크로마 레지듀얼 영상의 원본 영상 사이의 차이에 대응하는 크로마 레지듀얼 영상의 레지듀얼 영상의 데이터를 부호화할 수 있다.Cross-channel prediction information reconstructed by the image decoder 690 may be transferred to another device, and a chroma residual image may be encoded by the other device. Specifically, another device generates a residual image of a chroma residual image corresponding to a difference between a predicted image of a chroma residual image obtained from a luma residual image and an original image of the chroma residual image according to cross-channel prediction information. Data can be encoded.

도 7 내지 도 8를 참조하여, 영상 부호화부(610) 및 비트스트림 생성부(620)의 구성에 대해 좀더 상세히 설명한다.With reference to FIGS. 7 to 8 , configurations of the image encoder 610 and the bitstream generator 620 will be described in more detail.

도 7은 도 6a에 도시된 영상 부호화부(610)의 구성을 도시하는 도면이다.FIG. 7 is a diagram showing the configuration of the image encoder 610 shown in FIG. 6A.

도 7을 참조하면, 영상 부호화부(610)는 제 1 인코더(611), 제 2 인코더(612), 제 3 인코더(614) 및 차감부(613)을 포함한다. Referring to FIG. 7 , an image encoder 610 includes a first encoder 611 , a second encoder 612 , a third encoder 614 and a subtraction unit 613 .

제 1 인코더(611) 및 제 2 인코더(612)는 메모리에 저장될 수 있다. 일 실시예에서, 제 1 인코더(611) 및 제 2 인코더(612)는 AI를 위한 적어도 하나의 전용 프로세서로 구현될 수도 있다.The first encoder 611 and the second encoder 612 may be stored in memory. In one embodiment, the first encoder 611 and the second encoder 612 may be implemented as at least one dedicated processor for AI.

영상 복호화부(640)는 크로스 채널 예측부를 포함할 수 있고, 영상 부호화 장치(600)는 영상 복호화부(640)에 포함된 크로스 채널 예측부를 통해 영상 복호화 장치(200)의 크로스 채널 예측부(233)와 동일한 방식으로 크로마 영상의 예측 영상을 획득할 수 있다. 생성된 크로마 영상의 예측 영상은 차감부(613)로 제공된다.The image decoding unit 640 may include a cross-channel predictor, and the image encoding device 600 may use the cross-channel predictor 233 of the image decoding device 200 through the cross-channel predictor included in the image decoding unit 640. ), a predicted image of a chroma image may be obtained. The predicted image of the generated chroma image is provided to the subtraction unit 613 .

원본 루마 영상이 제 1 인코더(611)로 입력된다. 제 1 인코더(611)는 훈련의 결과로 설정된 파라미터에 따라 현재 원본 루마 영상으로부터 현재 루마 영상에 대한 특징 데이터를 출력한다. 현재 루마 영상의 프레임 타입인 I-프레임이 아닌 경우, 현재 루마 영상에 대한 특징 데이터는 현재 루마 영상의 레지듀얼 영상의 특징 데이터를 포함할 수 있다. 제 1 인코더(611)는 현재 원본 루마 영상 및 이전 루마 영상의 복원 영상으로부터 현재 루마 영상의 예측 영상을 생성할 수 있고, 현재 원본 루마 영상 및 현재 루마 영상의 예측 영상으로부터 현재 루마 영상의 레지듀얼 영상을 획득할 수 있다. 이때, 현재 루마 영상의 예측 영상을 생성하는 방법 및 현재 루마 영상의 레지듀얼 영상을 생성하는 방법은 도 1을 참조하여 전술한 방법에 의할 수 있다.An original luma image is input to the first encoder 611 . The first encoder 611 outputs feature data for the current luma image from the current original luma image according to parameters set as a result of training. If the frame type of the current luma image is not an I-frame, feature data of the current luma image may include feature data of a residual image of the current luma image. The first encoder 611 may generate a predicted image of the current luma image from the current original luma image and the reconstructed image of the previous luma image, and may generate a residual image of the current luma image from the current original luma image and the predicted image of the current luma image. can be obtained. In this case, a method of generating a predicted image of the current luma image and a method of generating a residual image of the current luma image may be the methods described above with reference to FIG. 1 .

원본 크로마 영상 및 복원 루마 영상이 제 2 인코더(612)로 입력된다. 제 2 인코더(612)는 훈련의 결과로 설정된 파라미터에 따라 원본 크로마 영상 및 루마 영상의 복원 영상으로부터 크로스 채널 예측을 위한 특징 데이터를 출력할 수 있다. 크로스 채널 예측을 위한 특징 데이터는 영상 복호화부(640)로 제공되고, 전술한 바와 같이, 크로스 채널 예측을 위한 특징 데이터 및 루마 영상의 복원 영상을 기초로, 크로마 영상의 예측 영상이 획득될 수 있다.The original chroma image and the reconstructed luma image are input to the second encoder 612 . The second encoder 612 may output feature data for cross-channel prediction from reconstructed images of an original chroma image and a luma image according to parameters set as a result of training. Feature data for cross-channel prediction is provided to the image decoder 640, and as described above, a prediction image of a chroma image may be obtained based on the feature data for cross-channel prediction and the reconstructed luma image. .

차감부(613)는 크로마 영상의 원본 영상과 크로마 영상의 예측 영상 사이의 크로마 영상의 레지듀얼 영상 데이터를 획득할 수 있다. 차감부(613)는 크로마 영상의 원본 영상의 샘플 값들로부터 크로마 영상의 예측 영상의 샘플 값들을 차감하여 크로마 영상의 레지듀얼 영상 데이터를 획득할 수 있다.The subtractor 613 may obtain residual image data of a chroma image between an original image of the chroma image and a predicted chroma image. The subtractor 613 may obtain residual image data of the chroma image by subtracting sample values of the predicted chroma image from sample values of the original chroma image.

크로마 영상의 레지듀얼 영상 데이터는 제 3 인코더(614)로 입력되고, 제 3 인코더(614)는 훈련의 결과로 설정된 파라미터에 따라 크로마 영상의 레지듀얼 영상 데이터를 처리하여 크로마 영상에 대한 특징 데이터를 출력한다. 크로마 영상에 대한 특징 데이터는 크로마 영상의 레지듀얼 영상의 특징 데이터를 포함할 수 있다.The residual image data of the chroma image is input to the third encoder 614, and the third encoder 614 processes the residual image data of the chroma image according to parameters set as a result of training to generate feature data for the chroma image. print out Feature data of the chroma image may include feature data of a residual image of the chroma image.

전술한 비트스트림 생성부(620)는 영상 부호화부(610)로부터 출력된 루마 영상에 대한 특징 데이터, 크로마 영상에 대한 특징 데이터 및 크로스 채널 예측을 위한 특징 데이터에 기초하여 비트스트림을 생성한다.The aforementioned bitstream generator 620 generates a bitstream based on feature data for a luma image, feature data for a chroma image, and feature data for cross-channel prediction output from the image encoder 610 .

도 8는 도 6에 도시된 비트스트림 생성부(620)의 구성을 도시하는 도면이다.FIG. 8 is a diagram showing the configuration of the bitstream generator 620 shown in FIG. 6 .

도 8를 참조하면, 비트스트림 생성부(620)는 양자화부(621) 및 엔트로피 부호화부(623)를 포함한다.Referring to FIG. 8 , the bitstream generator 620 includes a quantization unit 621 and an entropy encoding unit 623 .

양자화부(621)는 루마 영상에 대한 특징 데이터, 크로스 채널 예측을 위한 특징 데이터 및 크로마 영상에 대한 특징 데이터를 양자화한다.The quantization unit 621 quantizes feature data for a luma image, feature data for cross-channel prediction, and feature data for a chroma image.

엔트로피 부호화부(623)는 루마 영상에 대한 양자화된 특징 데이터, 크로스 채널 예측을 위한 양자화된 특징 데이터 및 크로마 영상에 대한 양자화된 특징 데이터를 엔트로피 코딩하여 비트스트림을 생성한다.The entropy encoding unit 623 generates a bitstream by entropy-coding quantized feature data for a luma image, quantized feature data for cross-channel prediction, and quantized feature data for a chroma image.

구현예에 따라, 비트스트림 생성부(620)는 변환부를 더 포함할 수 있다. 변환부는 루마 영상에 대한 양자화된 특징 데이터, 크로스 채널 예측을 위한 양자화된 특징 데이터 및 크로마 영상에 대한 양자화된 특징 데이터를 제 2 도메인에서 제 1 도메인으로 변환하여 양자화부(621)로 제공한다.Depending on implementation, the bitstream generator 620 may further include a converter. The conversion unit converts the quantized feature data of the luma image, the quantized feature data for cross-channel prediction, and the quantized feature data of the chroma image from the second domain to the first domain and provides them to the quantization unit 621 .

또한, 구현예에 따라, 비트스트림 생성부(620)는 양자화부(621)를 포함하지 않을 수도 있다. 즉, 엔트로피 부호화부(623)에 의한 처리를 통해 루마 영상에 대한 특징 데이터, 크로스 채널 예측을 위한 특징 데이터 및 크로마 영상에 대한 특징 데이터를 대응하는 비트스트림이 획득될 수 있다.Also, depending on implementation, the bitstream generator 620 may not include the quantizer 621. That is, through processing by the entropy encoding unit 623, a bitstream corresponding to feature data for luma image, feature data for cross-channel prediction, and feature data for chroma image may be obtained.

또한, 구현예에 따라, 비트스트림 생성부(620)는 루마 영상에 대한 특징 데이터, 크로스 채널 예측을 위한 특징 데이터 및 크로마 영상에 대한 특징 데이터에 대해 이진화를 수행하여 비트스트림을 생성할 수도 있다. 즉, 비트스트림 생성부(620)가 이진화만을 수행하는 경우, 양자화부(621) 및 엔트로피 부호화부(623)는 비트스트림 생성부(620)에 포함되지 않을 수 있다.Also, according to an embodiment, the bitstream generator 620 may generate a bitstream by performing binarization on feature data for a luma image, feature data for cross-channel prediction, and feature data for a chroma image. That is, when the bitstream generator 620 performs only binarization, the quantization unit 621 and the entropy encoding unit 623 may not be included in the bitstream generator 620 .

이상, 도 7 및 도 8을 참조하여, 도 6a에 도시된 영상 부호화부(610) 및 비트스트림 생성부(620)의 구성을 설명하였다. 도 6b에 도시된 영상 부호화부(660) 및 비트스트림 생성부(670)의 구성도, 전술한 영상 부호화부(610) 및 비트스트림 생성부(620)의 구성과 유사하므로, 구체적인 설명은 생략하기로 한다.In the above, configurations of the image encoder 610 and the bitstream generator 620 shown in FIG. 6A have been described with reference to FIGS. 7 and 8 . Since the configuration of the image encoder 660 and the bitstream generator 670 shown in FIG. 6B is similar to the configuration of the video encoder 610 and the bitstream generator 620 described above, detailed descriptions are omitted. do it with

도 9a는 본 개시의 일 실시예에 따른 영상 부호화 방법의 흐름도를 도시한다. 9A is a flowchart of an image encoding method according to an embodiment of the present disclosure.

도 9a를 참조하면, S905 단계에서, 영상 부호화 장치(600)는 현재 원본 영상 내 원본 루마 영상을 신경망 기반의 루마 인코더에 적용하여 현재 영상 내 루마 영상에 대한 특징 데이터를 획득하고, 루마 영상에 대한 특징 데이터를 신경망 기반의 루마 인코더에 적용하여 루마 영상을 복원할 수 있다.Referring to FIG. 9A , in step S905, the image encoding apparatus 600 acquires feature data for the luma image in the current image by applying the original luma image in the current original image to a neural network-based luma encoder, and A luma image may be reconstructed by applying the feature data to a luma encoder based on a neural network.

S910 단계에서, 영상 부호화 장치(600)는 복원된 루마 영상 및 현재 원본 영상 내 원본 크로마 영상을 신경망 기반의 크로스 채널 인코더에 적용하여, 크로스 채널 예측을 위한 특징 정보를 획득할 수 있다.In step S910, the image encoding apparatus 600 may obtain feature information for cross-channel prediction by applying the reconstructed luma image and the original chroma image in the current original image to a neural network-based cross-channel encoder.

S915 단계에서, 영상 부호화 장치(600)는 획득된 크로스 채널 예측을 위한 특징 정보를 신경망 기반의 크로마 디코더에 적용하여 크로스 채널 예측 정보를 획득할 수 있다.In step S915, the image encoding apparatus 600 may obtain cross-channel prediction information by applying the obtained feature information for cross-channel prediction to a neural network-based chroma decoder.

S920 단계에서, 영상 부호화 장치(600)는 복원된 루마 영상 및 크로스 채널 예측 정보를 기초로, 크로스 채널 예측을 수행하여 크로마 영상의 예측 영상을 획득할 수 있다.In step S920, the image encoding apparatus 600 may obtain a predicted image of a chroma image by performing cross-channel prediction based on the reconstructed luma image and cross-channel prediction information.

S925 단계에서, 영상 부호화 장치(600)는 원본 크로마 영상 및 크로마 영상의 예측 영상에 기반하여 획득된 크로마 영상의 레지듀얼 영상을 신경망에 기반한 크로마 인코더에 적용하여 크로마 영상에 대한 특징 데이터를 획득할 수 있다. In step S925, the image encoding apparatus 600 may obtain feature data for the chroma image by applying the residual image of the chroma image obtained based on the original chroma image and the predicted chroma image to the neural network-based chroma encoder. there is.

S930 단계에서, 영상 부호화 장치(600)는 루마 영상에 대한 특징 데이터, 크로마 영상에 대한 특징 데이터 및 크로스 채널 예측을 위한 특징 데이터를 포함하는 비트스트림을 생성할 수 있다.In step S930, the image encoding apparatus 600 may generate a bitstream including feature data for a luma image, feature data for a chroma image, and feature data for cross-channel prediction.

도 9b는 본 개시의 일 실시예에 따른 영상 부호화 방법의 흐름도를 도시한다. 9B is a flowchart of an image encoding method according to an embodiment of the present disclosure.

도 9b를 참조하면, S955 단계에서, 영상 부호화 장치(650)는 현재 영상의 레지듀얼 영상을 신경망 기반의 루마 인코더에 적용하여 루마 레지듀얼 영상에 대한 특징 데이터를 획득하고, 루마 레지듀얼 영상에 대한 특징 데이터를 신경망 기반의 루마 디코더에 적용하여 루마 레지듀얼 영상을 복원할 수 있다.Referring to FIG. 9B , in step S955, the image encoding apparatus 650 obtains feature data for the luma residual image by applying a residual image of the current image to a neural network-based luma encoder, and obtains feature data for the luma residual image. A luma residual image may be reconstructed by applying feature data to a neural network-based luma decoder.

S960 단계에서, 영상 부호화 장치(650)는 복원된 루마 레지듀얼 영상 및 현재 영상의 크로마 레지듀얼 영상을 신경망 기반의 크로스 채널 인코더에 적용하여, 크로스 채널 예측을 위한 특징 정보를 획득할 수 있다.In step S960, the image encoding apparatus 650 may obtain feature information for cross-channel prediction by applying the reconstructed luma residual image and the chroma residual image of the current image to a neural network-based cross-channel encoder.

S965 단계에서, 영상 부호화 장치(650)는 획득된 크로스 채널 예측을 위한 특징 정보를 신경망 기반의 크로마 디코더에 적용하여 크로스 채널 예측 정보를 획득할 수 있다.In step S965, the image encoding apparatus 650 may obtain cross-channel prediction information by applying the obtained feature information for cross-channel prediction to a neural network-based chroma decoder.

S970 단계에서, 영상 부호화 장치(650)는 복원된 루마 레지듀얼 영상 및 크로스 채널 예측 정보를 기초로, 크로스 채널 예측을 수행하여 크로마 레지듀얼 영상의 예측 영상을 획득할 수 있다.In step S970, the image encoding apparatus 650 may obtain a predicted image of the chroma residual image by performing cross-channel prediction based on the reconstructed luma residual image and cross-channel prediction information.

S975 단계에서, 영상 부호화 장치(650)는 크로마 레지듀얼 영상의 예측 영상 및 크로마 레지듀얼 영상에 기반하여 획득된 크로마 레지듀얼 영상의 레지듀얼 영상을 신경망에 기반한 크로마 인코더에 적용하여 크로마 레지듀얼 영상에 대한 특징 데이터를 획득할 수 있다.In step S975, the image encoding apparatus 650 applies the prediction image of the chroma residual image and the residual image of the chroma residual image obtained based on the chroma residual image to a chroma encoder based on a neural network to obtain a chroma residual image. feature data can be obtained.

S980 단계에서, 영상 부호화 장치(650)는 루마 레지듀얼 영상에 대한 특징 데이터, 크로마 레지듀얼 영상에 대한 특징 데이터 및 크로스 채널 예측을 위한 특징 데이터를 포함하는 비트스트림을 생성할 수 있다.In step S980, the image encoding apparatus 650 may generate a bitstream including feature data for a luma residual image, feature data for a chroma residual image, and feature data for cross-channel prediction.

도 10a는 일 실시예에 따른 크로스 채널 예측을 설명하기 위한 도면이다.10A is a diagram for explaining cross-channel prediction according to an embodiment.

도 10a를 참조하면, 복원 루마 영상 및 원본 크로마 영상은 연접되어 크로스 채널 인코더(1005)에 입력된다. 크로스 채널 인코더(1005)에서 출력된 크로스 채널 예측을 위한 특징 데이터는 비트스트림에 포함된다. 비트스트림에 포함된 크로스 채널 예측을 위한 특징 데이터는 루마 영상에 대한 특징 데이터와 연접되어 크로스 채널 디코더(1010)로 입력된다. 크로스 채널 디코더(1010)로부터 스케일 파라미터(1015) 및 바이어스 파라미터(1020)가 엘리먼트(즉, 샘플)별로 출력될 수 있다. 크로스 채널 예측(1012)은 스케일 파라미터(1015), 복원 루마 영상(1025) 및 바이어스 파라미터(1020)를 이용하여 수행될 수 있다. 먼저, 스케일 파라미터(1015)와 복원 루마 영상(1025)에 대하여 엘리먼트별로 곱셈 연산이 수행된다. 곱셈 연산으로 인한 결과값과 바이어스 파라미터(1020)에 대하여 덧셈 연산을 수행하여 예측 크로마 영상(1030)을 생성할 수 있다. 스케일 파라미터(1015) 및 바이어스 파라미터(1020)는 크로마 성분별로 존재할 수 있다. 예를 들어, 스케일 파라미터(1015) 및 바이어스 파라미터(1020)는 Cb 및 Cr 성분에 대하여 별도로 존재할 수 있다. 따라서, 예측 크로마 영상(1030)도 Cb 및 Cr 성분에 대하여 별도로 생성될 수 있다.Referring to FIG. 10A , a reconstructed luma image and an original chroma image are concatenated and input to a cross-channel encoder 1005 . Feature data for cross-channel prediction output from the cross-channel encoder 1005 is included in the bitstream. Feature data for cross-channel prediction included in the bitstream is input to the cross-channel decoder 1010 after being concatenated with feature data for a luma image. A scale parameter 1015 and a bias parameter 1020 may be output for each element (ie, sample) from the cross-channel decoder 1010 . Cross-channel prediction 1012 may be performed using a scale parameter 1015 , a reconstructed luma image 1025 , and a bias parameter 1020 . First, a multiplication operation is performed on a scale parameter 1015 and a reconstructed luma image 1025 for each element. A predicted chroma image 1030 may be generated by performing an addition operation on the resultant value resulting from the multiplication operation and the bias parameter 1020 . The scale parameter 1015 and the bias parameter 1020 may exist for each chroma component. For example, scale parameter 1015 and bias parameter 1020 may exist separately for Cb and Cr components. Accordingly, the predicted chroma image 1030 may also be separately generated for the Cb and Cr components.

도 10b는 일 실시예에 따른 크로스 채널 예측을 위한 영상의 부호화 장치 및 영상 복호화 장치의 쌍을 설명하기 위한 도면이다.10B is a diagram for explaining a pair of an image encoding device and an image decoding device for cross-channel prediction according to an exemplary embodiment.

도 10b를 참조하면, RGB 입력 영상 x는 영상 변환부(1035)에 입력되고, 영상 변환부(1035)는 루마 영상 y 및 크로마 영상 c를 출력할 수 있다.Referring to FIG. 10B , an RGB input image x is input to the image converter 1035, and the image converter 1035 may output a luma image y and a chroma image c.

루마 영상 y는 루마 인코더(1040)에 입력되고, 루마 영상 y에 대한 특징 데이터가 출력될 수 있다. 루마 영상 y에 대한 특징 데이터를 루마 디코더(1045)로 입력된다. 루마 디코더(1045)는 복원 루마 영상

Figure pat00001
을 출력할 수 있다. The luma image y may be input to the luma encoder 1040, and feature data for the luma image y may be output. Feature data for the luma image y is input to the luma decoder 1045. The luma decoder 1045 is a restored luma image
Figure pat00001
can output

복원 루마 영상

Figure pat00002
및 크로마 영상 c는 연접되어 크로스 채널 인코더(1050)로 입력된다. 크로스 채널 인코더(1050)는 크로스 채널 예측을 위한 특징 데이터를 획득할 수 있다. 크로스 채널 예측을 위한 특징 데이터는 크로스 채널 디코더(1055)로 입력될 수 있다. 일 실시예에 의하면, 크로스 채널 예측을 위한 특징 데이터와 루마 영상에 대한 특징 데이터는 연접되어 크로스 채널 디코더(1055)에 입력될 수 있다.restore luma image
Figure pat00002
and the chroma image c are concatenated and input to the cross-channel encoder 1050. The cross-channel encoder 1050 may obtain feature data for cross-channel prediction. Feature data for cross-channel prediction may be input to the cross-channel decoder 1055. According to an embodiment, feature data for cross-channel prediction and feature data for a luma image may be concatenated and input to the cross-channel decoder 1055 .

크로스 채널 디코더(1055)는 크로스 채널 예측 정보를 출력할 수 있다. 크로스 채널 예측 정보 및 복원 루마 영상

Figure pat00003
는 크로스 채널 예측부(1060)로 입력될 수 있다. 크로스 채널 예측부(1060)는 크로마 예측 영상 cp을 출력할 수 있다.The cross-channel decoder 1055 may output cross-channel prediction information. Cross-channel prediction information and reconstructed luma image
Figure pat00003
may be input to the cross-channel predictor 1060. The cross-channel predictor 1060 may output a chroma prediction image c p .

크로마 영상 c 에서 크로마 예측 영상 cp를 차감하여 크로마 레지듀얼 인코더(1065)로 입력된다. 크로마 레지듀얼 인코더(1065)는 크로마 레지듀얼에 대한 특징 데이터를 출력할 수 있다.The chroma prediction image c p is subtracted from the chroma image c and input to the chroma residual encoder 1065 . The chroma residual encoder 1065 may output feature data for chroma residual.

크로마 레지듀얼에 대한 특징 데이터는 크로마 레지듀얼 디코더(1070)로 입력될 수 있다. 일 실시예에 의하면, 크로마 레지듀얼에 대한 특징 데이터 및 루마 영상 y에 대한 특징 데이터가 연접되어 크로마 레지듀얼 디코더(1070)로 입력될 수 있다. 크로마 레지듀얼 디코더(1070)는 크로마 레지듀얼 영상을 출력할 수 있다.Feature data for the chroma residual may be input to the chroma residual decoder 1070 . According to an embodiment, feature data for chroma residual and feature data for luma image y may be concatenated and input to the chroma residual decoder 1070 . The chroma residual decoder 1070 may output a chroma residual image.

크로마 레지듀얼 영상 및 크로마 예측 영상 cp 를 합하여 크로마 복원 영상

Figure pat00004
이 생성될 수 있다.Chroma reconstructed image by adding chroma residual image and chroma prediction image c p
Figure pat00004
this can be created.

루마 복원 영상

Figure pat00005
및 크로마 복원 영상
Figure pat00006
는 영상 변환부(1075)로 입력된다. 영상 변환부(1075)는 RGB 출력 영상
Figure pat00007
을 출력할 수 있다.luma restoration video
Figure pat00005
and chroma restoration video
Figure pat00006
is input to the image conversion unit 1075. The image conversion unit 1075 is an RGB output image
Figure pat00007
can output

앞서, RGB 입력 영상이 YUV 영상과 같은 루마 영상 및 크로마 영상으로 변환된 후 루마 인코더(1040), 크로스 채널 인코더(1050) 및 크로마 레지듀얼 인코더(1065)에 입력되는 내용을 설명하였다. 또한, 루마 디코더(1045)로부터 출력된 루마 복원 영상과, 크로마 레지듀얼 디코더(1070) 및 크로스 채널 예측부(1060)에 의해 출력된 크로마 복원 영상이 RGB 출력 영상으로 변환된 후 출력되는 내용을 설명하였다.Previously, contents input to the luma encoder 1040, the cross-channel encoder 1050, and the chroma residual encoder 1065 after the RGB input image is converted into a luma image and a chroma image such as a YUV image have been described. In addition, description will be given of contents output after the luma restored image output from the luma decoder 1045 and the chroma restored image outputted from the chroma residual decoder 1070 and the cross-channel predictor 1060 are converted into RGB output images. did

하지만, 이에 제한되지 않고, 영상 변환부(1035,1075)에서의 변환없이, 루마 영상 및 크로마 영상이 입력되고, 루마 영상 및 크로마 영상이 출력될 수 있다.However, the present invention is not limited thereto, and a luma image and a chroma image may be input and a luma image and a chroma image may be output without conversion in the image converters 1035 and 1075 .

또한, 입력 영상 및 출력 영상이 전체 영상을 의미함을 전제로 설명하였으나, 입력 영상 및 출력 영상이 레지듀얼 영상을 의미할 수 있다. 즉, RGB 입력 영상은 RGB 레지듀얼 영상일 수 있고, 출력 영상은 복원된 RGB 레지듀얼 영상일 수 있다. 또한, 전술한 루마 영상 y는 루마 레지듀얼 영상일 수 있고, 크로마 영상 c는 크로마 레지듀얼 영상일 수 있다. 전술한 크로마 예측 영상은 크로마 레지듀얼 영상의 예측 영상일 수 있고, 전술한 크로마 레지듀얼 영상은 크로마 레지듀얼 영상의 레지듀얼 영상일 수 있다. In addition, although the description has been made on the premise that the input image and the output image mean the entire image, the input image and the output image may mean the residual image. That is, the RGB input image may be an RGB residual image, and the output image may be a restored RGB residual image. Also, the aforementioned luma image y may be a luma residual image, and the chroma image c may be a chroma residual image. The aforementioned chroma prediction image may be a predicted image of a chroma residual image, and the aforementioned chroma residual image may be a residual image of a chroma residual image.

도 10c는 도 10b를 참조하여 전술한, 크로스 채널 예측을 위한 영상의 부호화 장치 및 영상 복호화 장치의 쌍을 포함하는 영상 부호화 장치 및 영상 복호화 장치의 쌍을 설명하기 위한 도면이다.FIG. 10C is a diagram for explaining a pair of an image encoding device and an image decoding device including a pair of an image encoding device and an image decoding device for cross-channel prediction described above with reference to FIG. 10B .

도 10c를 참조하면, 현재 영상이 I-프레임인 경우, 이전 복원 영상을 참조하지 않고, 현재 영상이 부호화되고, 복호화되어 현재 복원 영상이 생성될 수 있다. 제 1 박스(1080)에 포함된 I-인코더(1082) 및 I-디코더(1084)는 도 10b를 참조하여 전술한 영상 부호화 장치 및 영상 복호화 장치의 쌍으로 대체될 수 있다. 이때, 대체된 영상 부호화 장치 및 영상 복호화 장치의 쌍의 입력 영상은 YUV 입력 영상(또는 RGB 입력 영상)이고, 출력 영상은 YUV 출력 영상(또는 RGB 출력 영상)일 수 있다.Referring to FIG. 10C , when the current image is an I-frame, the current image may be encoded and decoded to generate the current reconstructed image without referring to a previous reconstructed image. The I-encoder 1082 and the I-decoder 1084 included in the first box 1080 may be replaced by a pair of the image encoding device and the image decoding device described above with reference to FIG. 10B. In this case, the input image of the pair of the replaced image encoding device and the image decoding device may be a YUV input image (or RGB input image), and the output image may be a YUV output image (or RGB output image).

현재 영상이 I-프레임이 아닌 경우, 이전 복원 영상을 참조하여 현재 영상이 부호화되고, 복호화되어 현재 복원 영상이 생성될 수 있다.If the current image is not an I-frame, the current image may be encoded and decoded with reference to a previous reconstructed image to generate the current reconstructed image.

제 2 박스(1085)에 포함된 제 2 인코더(1087) 및 제 2 디코더(1089)는 도 10b를 참조하여 전술한 영상 부호화 장치 및 영상 복호화 장치의 쌍으로 대체될 수 있다. 이때, 대체된 영상 부호화 장치 및 영상 복호화 장치의 쌍의 입력 영상은 YUV 입력 영상의 레지듀얼 영상 ri이고, 출력 영상은 YUV 출력 영상의 레지듀얼 영상 r'i 일 수 있다. 제 2 디코더(1089) 및 제 2 인코더(1087)를 제외한 나머지 구성은 도 1을 참조하여 전술한 바 있다.The second encoder 1087 and the second decoder 1089 included in the second box 1085 may be replaced by a pair of the video encoding device and the video decoding device described above with reference to FIG. 10B. In this case, the input image of the pair of the replaced image encoding device and the image decoding device may be the residual image r i of the YUV input image, and the output image may be the residual image r'i of the YUV output image. The rest of the components except for the second decoder 1089 and the second encoder 1087 have been described above with reference to FIG. 1 .

도 10b를 참조하여 전술한 영상 부호화 장치 및 영상 복호화 장치의 쌍과 유사하게 도 11b, 도 12b 및 도 13 내지 도 18를 참조하여 후술할 영상 부호화 장치 및 영상 복호화 장치의 쌍도 제 1 박스(1080) 또는 제 2 박스(1085)에 포함될 수 있다.Similar to the pair of video encoding apparatus and video decoding apparatus described above with reference to FIG. 10B, a pair of video encoding apparatus and video decoding apparatus to be described later with reference to FIGS. 11B, 12B, and 13 to 18 is also a first box 1080 ) or the second box 1085.

도 11a는 일 실시예에 따른, 크로스 채널 예측을 설명하기 위한 도면이다.11A is a diagram for explaining cross-channel prediction according to an embodiment.

도 11a 참조하면, 도 10a와 달리 다운샘플링부(1105,1110)를 포함할 수 있다. 루마 영상에 대한 특징 데이터는 다운샘플링부(1105)를 통해 루마 영상에 대한 다운샘플링된 특징 데이터로 변환될 수 있다. 복원 루마 영상은 다운샘플링부(1110)를 통해 다운샘플링된 복원 루마 영상으로 변환될 수 있다.Referring to FIG. 11A, unlike FIG. 10A, downsampling units 1105 and 1110 may be included. Feature data of the luma image may be converted into downsampled feature data of the luma image through the downsampling unit 1105 . The reconstructed luma image may be converted into a downsampled reconstructed luma image through the downsampling unit 1110 .

도 10a와 달리, 복원 루마 영상 대신 다운샘플링된 복원 루마 영상이 원본 크로마 영상과 연접되어 크로스 채널 인코더(1115)에 입력될 수 있다. 또한, 루마 영상에 대한 특징 데이터 대신 루마 영상에 대한 다운샘플링된 특징 데이터가 크로스 채널 예측을 위한 특징 데이터와 연접되어 크로스 채널 디코더(1120)로 입력될 수 있다. Unlike FIG. 10A , a downsampled reconstructed luma image may be concatenated with an original chroma image and input to the cross-channel encoder 1115 instead of a reconstructed luma image. In addition, instead of feature data of the luma image, downsampled feature data of the luma image may be concatenated with feature data for cross-channel prediction and input to the cross-channel decoder 1120 .

크로스 채널 디코더(1120)는 스케일 파라미터(1125) 및 바이어스 파라미터(1130)를 출력할 수 있다. The cross-channel decoder 1120 may output a scale parameter 1125 and a bias parameter 1130 .

크로스 채널 예측(1122)은 스케일 파라미터(1125) 및 다운샘플링된 복원 루마 영상(1133)의 엘리먼트별 곱셈 연산과 바이어스 파라미터(1130)에 의한 엘리먼트별 덧셈 연산을 포함할 수 있다.The cross-channel prediction 1122 may include a multiplication operation for each element of the scale parameter 1125 and the downsampled reconstructed luma image 1133 and an addition operation for each element according to the bias parameter 1130 .

도 10a와 달리, 다운샘플링을 수행함으로써 루마 성분의 해상도를 크로마 성분의 해상도와 매칭시킬 수 있다. 만약, 색 표현 방식이 YUV 4:4:4라면, Y 성분의 해상도와 U/V 성분의 해상도가 동일하므로, 도 10a와 같이 별도의 다운샘플링이 수행되지 않을 수 있다. 하지만, 색 표현 방식이 YUV 4:4:4가 아니라면(예를 들어, 4:2:0), Y 성분의 해상도와 U/V 성분의 해상도가 상이하므로, 도 11a와 같이 다운샘플링이 수행될 수 있다. Unlike FIG. 10A , the resolution of the luma component may be matched to the resolution of the chroma component by performing downsampling. If the color expression method is YUV 4:4:4, since the resolution of the Y component and the resolution of the U/V component are the same, separate downsampling may not be performed as shown in FIG. 10A. However, if the color expression method is not YUV 4:4:4 (eg, 4:2:0), since the Y component resolution and the U/V component resolution are different, downsampling may be performed as shown in FIG. can

도 11b는 일 실시예에 따른 크로스 채널 예측을 위한 영상의 부호화 장치 및 영상 복호화 장치의 쌍을 설명하기 위한 도면이다.11B is a diagram for explaining a pair of an image encoding device and an image decoding device for cross-channel prediction according to an embodiment.

도 11b를 참조하면, 도 10b와 달리, 다운샘플링부(1135,1140)를 포함한다. 다운샘플링부(1135)는 루마 복원 영상

Figure pat00008
를 다운샘플링할 수 있고, 다운샘플링부(1140)는 루마 영상에 대한 특징 데이터를 다운샘플링할 수 있다. 다운샘플링된 루마 복원 영상은 크로스 채널 예측부(1145)로 입력될 수 있다. 다운샘플링된 루마 영상에 대한 특징 데이터는 크로마 영상 c와 연접되어 크로스 채널 인코더(1150)에 입력될 수 있다. Referring to FIG. 11B, unlike FIG. 10B, downsampling units 1135 and 1140 are included. The downsampling unit 1135 is a luma restored image
Figure pat00008
may be downsampled, and the downsampling unit 1140 may downsample feature data for the luma image. The downsampled luma reconstructed image may be input to the cross-channel predictor 1145 . Feature data of the downsampled luma image may be concatenated with the chroma image c and input to the cross-channel encoder 1150 .

구현예에 따라, 다운샘플링된 루마 영상에 대한 특징 데이터는 크로스 채널 예측을 위한 특징 데이터와 연접되어 크로스 채널 디코더(1155)에 입력될 수 있다. 구현예에 따라, 루마 영상에 대한 다운샘플링된 특징 데이터는 크로마 영상에 대한 특징 데이터와 연접되어 크로마 레지듀얼 디코더(1160)에 입력될 수 있다.Depending on implementation, feature data for the downsampled luma image may be concatenated with feature data for cross-channel prediction and input to the cross-channel decoder 1155 . Depending on implementation, downsampled feature data for a luma image may be concatenated with feature data for a chroma image and input to the chroma residual decoder 1160 .

결국 도 10b와 달리, 도 11b의 영상 부호화 장치 및 영상 복호화 장치의 쌍은 다운샘플링부(1135,1140)를 포함하여 루마 영상에 대한 다운샘플링을 수행함으로써, 루마 영상의 해상도를 크로마 영상의 해상도와 매칭할 수 있고, 따라서, 보다 정확한 크로마 영상의 예측 영상을 생성할 수 있다.After all, unlike FIG. 10B, the pair of the video encoding device and the video decoding device of FIG. 11B includes the downsampling units 1135 and 1140 to perform downsampling on the luma image, thereby changing the resolution of the luma image to the resolution of the chroma image. matching, and thus, a more accurate predictive image of a chroma image can be generated.

도 12a는 일 실시예에 따른, 크로스 채널 예측을 설명하기 위한 도면이다.12A is a diagram for explaining cross-channel prediction according to an embodiment.

도 12a 참조하면, 도 10a와 달리 변환부(1205,1210)를 포함할 수 있다. 루마 영상에 대한 특징 데이터는 변환부(1205)를 통해 다채널의 복원 루마 영상 데이터로 변환될 수 있다. 복원 루마 영상은 변환부(1210)를 통해 다채널의 복원 루마 영상으로 변환될 수 있다. 변환부(1205,1210)의 변환은 공간-뎁스 변환일 수 있고, 여기서 공간-뎁스 변환은 채널의 개수가 1인 공간 데이터를 복수의 채널의 개수를 갖는 뎁스 데이터로 변환(또는 재배열)하는 과정을 의미하고, 이때, 전체 데이터의 크기는 변하지 않는다. 예를 들어, 4x4x1의 데이터에 대한 공간-뎁스 변환이 수행되는 경우, 2x2x4의 데이터가 출력될 수 있고, 입력 데이터와 출력 데이터의 크기는 동일할 수 있다.Referring to FIG. 12A, unlike FIG. 10A, conversion units 1205 and 1210 may be included. Feature data of the luma image may be converted into multi-channel reconstructed luma image data through the conversion unit 1205 . The reconstructed luma image may be converted into a multi-channel reconstructed luma image through the conversion unit 1210 . The transformation of the transform units 1205 and 1210 may be space-depth transformation, wherein the space-depth transformation converts (or rearranges) spatial data having a channel number of 1 into depth data having a plurality of channels. process, and at this time, the size of the entire data does not change. For example, when space-depth conversion is performed on 4x4x1 data, 2x2x4 data may be output, and the input data and the output data may have the same size.

도 10a와 달리, 복원 루마 영상 대신 다채널의 복원 루마 영상이 원본 크로마 영상과 연접되어 크로스 채널 인코더(1215)에 입력될 수 있다. 또한, 루마 영상에 대한 특징 데이터 대신 루마 영상에 대한 다채널의 특징 데이터가 크로스 채널 예측을 위한 특징 데이터와 연접되어 크로스 채널 디코더(1220)로 입력될 수 있다. Unlike FIG. 10A , a multi-channel reconstructed luma image may be concatenated with an original chroma image and input to the cross-channel encoder 1215 instead of a reconstructed luma image. In addition, multi-channel feature data for a luma image may be concatenated with feature data for cross-channel prediction and input to the cross-channel decoder 1220 instead of feature data for a luma image.

크로스 채널 디코더(1220)는 스케일 파라미터(1225) 및 바이어스 파라미터(1230)를 출력할 수 있다. The cross-channel decoder 1220 may output a scale parameter 1225 and a bias parameter 1230.

크로스 채널 예측(1222)은 스케일 파라미터(1225) 및 다채널의 복원 루마 영상(1233)의 엘리먼트별 곱셈 연산과 바이어스 파라미터(1230)에 의한 엘리먼트별 덧셈 연산을 포함할 수 있다. 스케일 파라미터(1225) 및 다채널의 복원 루마 영상(1233)의 엘리먼트별 곱셈 연산을 통해 다채널의 결과값이 산출될 수 있고, 다채널의 결과값을 엘리먼트 별로 합하여 하나의 채널에 대한 결과값이 산출될 수 있다. 하나의 채널에 대한 결과값과 바이어스 파라미터(1230)의 엘리먼트별 덧셈 연산이 수행될 수 있다. 도 12a에 도시된 크로스 채널 예측(1222)은 하나의 크로마 성분에 대한 예측이고, 다른 크로마 성분에 대한 예측도 전술한 크로스 채널 예측(1222)이 수행될 수 있다.The cross-channel prediction 1222 may include a multiplication operation for each element of the scale parameter 1225 and the multi-channel reconstructed luma image 1233 and an addition operation for each element using the bias parameter 1230 . Multi-channel result values may be calculated through multiplication operations for each element of the scale parameter 1225 and the multi-channel reconstructed luma image 1233, and the result value for one channel is obtained by summing the result values of the multi-channels for each element. can be derived. A result value for one channel and an element-by-element addition operation of the bias parameter 1230 may be performed. The cross-channel prediction 1222 shown in FIG. 12A is prediction for one chroma component, and the above-described cross-channel prediction 1222 may also be performed for prediction of another chroma component.

도 10a와 달리, 공간-뎁스 변환을 수행함으로써 루마 성분의 해상도를 크로마 성분의 해상도와 매칭시킬 수 있다. 만약, 색 표현 방식이 YUV 4:4:4라면, Y 성분의 해상도와 U/V 성분의 해상도가 동일하므로, 도 10a와 같이 별도의 공간-뎁스 변환이 수행되지 않을 수 있다. 하지만, 색 표현 방식이 YUV 4:4:4가 아니라면(예를 들어, 4:2:0, 4:2:2, 4:1:1), Y 성분의 해상도와 U/V 성분의 해상도가 상이하므로, 도 12a와 같이 공간-뎁스 변환이 수행될 수 있다. 예를 들어, 색 표현 방식이 YUV 4:2:0인 경우, 레벨 2의 공간-뎁스 변환이 수행될 수 있다.Unlike FIG. 10A , the resolution of the luma component may be matched with the resolution of the chroma component by performing spatial-depth transformation. If the color expression method is YUV 4:4:4, since the resolution of the Y component and the resolution of the U/V component are the same, a separate space-depth conversion may not be performed as shown in FIG. 10A. However, if the color expression method is not YUV 4:4:4 (eg 4:2:0, 4:2:2, 4:1:1), the Y component resolution and the U/V component resolution are Since they are different, space-depth transformation may be performed as shown in FIG. 12A. For example, when the color expression method is YUV 4:2:0, level 2 space-depth conversion may be performed.

도 12b는 일 실시예에 따른 크로스 채널 예측을 위한 영상의 부호화 장치 및 영상 복호화 장치의 쌍을 설명하기 위한 도면이다.12B is a diagram for explaining a pair of an image encoding device and an image decoding device for cross-channel prediction according to an embodiment.

도 12b를 참조하면, 도 10b와 달리, 변환부(1235,1240)를 포함한다. 변환부(1235)는 루마 복원 영상

Figure pat00009
를 변환할 수 있고, 변환부(1240)는 루마 영상에 대한 특징 데이터를 변환할 수 있다. 변환된 루마 복원 영상은 크로스 채널 예측부(1245)로 입력될 수 있다. 루마 영상에 대한 변환된 특징 데이터는 크로마 영상 c와 연접되어 크로스 채널 인코더(1250)에 입력될 수 있다. Referring to FIG. 12B, unlike FIG. 10B, conversion units 1235 and 1240 are included. The conversion unit 1235 is a luma reconstruction image
Figure pat00009
may be converted, and the conversion unit 1240 may transform feature data of the luma image. The converted luma reconstruction image may be input to the cross-channel predictor 1245 . The transformed feature data for the luma image may be concatenated with the chroma image c and input to the cross-channel encoder 1250 .

구현예에 따라, 루마 영상에 대한 변환된 특징 데이터는 크로스 채널 예측을 위한 특징 데이터와 연접되어 크로스 채널 디코더(1255)에 입력될 수 있다. 구현예에 따라, 루마 영상에 대한 변환된 특징 데이터는 크로마 영상에 대한 특징 데이터와 연접되어 크로마 레지듀얼 디코더(1260)에 입력될 수 있다.Depending on implementation, the transformed feature data for the luma image may be concatenated with feature data for cross-channel prediction and input to the cross-channel decoder 1255 . Depending on implementation, the transformed feature data of the luma image may be concatenated with the feature data of the chroma image and input to the chroma residual decoder 1260 .

결국 도 10b와 달리, 도 12b의 영상 부호화 장치 및 영상 복호화 장치의 쌍은 변환부(1235,1240)를 포함하여 루마 영상에 대한 변환을 수행함으로써, 루마 영상의 해상도를 크로마 영상의 해상도와 매칭할 수 있고, 따라서, 보다 정확한 크로마 영상의 예측 영상을 생성할 수 있다.After all, unlike FIG. 10B, the pair of the video encoding device and the video decoding device of FIG. 12B includes transform units 1235 and 1240 to perform conversion on the luma image, thereby matching the resolution of the luma image with the resolution of the chroma image. Therefore, a more accurate predictive image of a chroma image can be generated.

도 11b 및 도 12b에서 전술한 다운샘플링부(1135,1140) 및 변환부(1235,1240)는 후술할 도 13 내지 도 18의 영상 부호화 장치 및 영상 복호화 장치의 쌍에 포함될 수 있다.The downsampling units 1135 and 1140 and the transform units 1235 and 1240 described in FIGS. 11B and 12B may be included in a pair of an image encoding device and an image decoding device of FIGS. 13 to 18 to be described later.

도 13은 일 실시예에 따른 영상 부호화 장치 및 영상 복호화 장치의 쌍을 설명하기 위한 도면이다.13 is a diagram for explaining a pair of an image encoding device and an image decoding device according to an exemplary embodiment.

도 13을 참조하면, 루마 영상에 대한 특징 데이터는 크로스 채널 예측을 위한 특징 데이터와 연접되어 크로스 채널 디코더(1305)로 입력될 수 있다. 루마 영상에 대한 특징 데이터는 크로마 영상에 대한 특징 데이터와 연접되어 크로마 레지듀얼 디코더(1310)에 입력되지 않을 수 있다. 즉, 크로마 영상에 대한 특징 데이터만 크로마 레지듀얼 디코더(1310)로 입력될 수 있다.Referring to FIG. 13 , feature data for a luma image may be concatenated with feature data for cross-channel prediction and input to the cross-channel decoder 1305 . Feature data of the luma image may not be input to the chroma residual decoder 1310 by being concatenated with feature data of the chroma image. That is, only feature data for a chroma image may be input to the chroma residual decoder 1310 .

도 14는 일 실시예에 따른 영상 부호화 장치 및 영상 복호화 장치의 쌍을 설명하기 위한 도면이다.14 is a diagram for explaining a pair of an image encoding device and an image decoding device according to an exemplary embodiment.

도 14를 참조하면, 루마 영상에 대한 특징 데이터는 크로마 영상에 대한 특징 데이터와 연접되어 크로마 레지듀얼 디코더(1405)로 입력될 수 있다. Referring to FIG. 14 , feature data of a luma image may be concatenated with feature data of a chroma image and input to the chroma residual decoder 1405 .

루마 영상에 대한 특징 데이터는 크로스 채널 예측을 위한 특징 데이터와 연접되지 않을 수 있다. 크로스 채널 예측을 위한 특징 데이터를 위한 데이터만, 크로스 채널 디코더(1410)로 입력될 수 있다.Feature data for a luma image may not be concatenated with feature data for cross-channel prediction. Only data for feature data for cross-channel prediction may be input to the cross-channel decoder 1410.

도 15는 일 실시예에 따른 영상 부호화 장치 및 영상 복호화 장치의 쌍을 설명하기 위한 도면이다.15 is a diagram for explaining a pair of an image encoding device and an image decoding device according to an exemplary embodiment.

도 15를 참조하면, 루마 영상에 대한 특징 데이터는 크로스 영상에 대한 특징 데이터와 연접되지 않고, 크로마 레지듀얼 디코더(1505)로 입력되지 않을 수 있다. Referring to FIG. 15 , feature data for a luma image may not be concatenated with feature data for a cross image and may not be input to the chroma residual decoder 1505 .

크로스 채널 예측을 위한 특징 데이터는 크로마 영상에 대한 특징 데이터와 연접되어 크로마 레지듀얼 디코더(1505)로 입력될 수 있다. Feature data for cross-channel prediction may be input to the chroma residual decoder 1505 after being concatenated with feature data for a chroma image.

루마 영상에 대한 특징 데이터는 크로스 채널 예측을 위한 특징 데이터와 연접되지 않고, 크로스 채널 디코더(1510)로 입력되지 않을 수 있다. 크로스 채널 예측을 위한 특징 데이터만 크로마 레지듀얼 디코더(1510)로 입력될 수 있다.Feature data for the luma image may not be concatenated with feature data for cross-channel prediction and may not be input to the cross-channel decoder 1510 . Only feature data for cross-channel prediction may be input to the chroma residual decoder 1510.

도 16은 일 실시예에 따른 영상 부호화 장치 및 영상 복호화 장치의 쌍을 설명하기 위한 도면이다.16 is a diagram for explaining a pair of an image encoding device and an image decoding device according to an exemplary embodiment.

도 16을 참조하면, 루마 영상에 대한 특징 데이터는 크로스 채널 예측을 위한 특징 데이터와 연접되어 크로스 채널 디코더(1605)로 입력될 수 있다.Referring to FIG. 16 , feature data for a luma image may be concatenated with feature data for cross-channel prediction and input to a cross-channel decoder 1605 .

루마 영상에 대한 특징 데이터는 크로마 영상에 대한 특징 데이터와 연접되지 않을 수 있고, 따라서, 크로마 레지듀얼 디코더(1610)로 입력되지 않을 수 있다. Feature data for a luma image may not be concatenated with feature data for a chroma image, and thus may not be input to the chroma residual decoder 1610 .

크로마 영상에 대한 특징 데이터는 크로스 채널 예측을 위한 특징 데이터와 연접되어 크로마 레지듀얼 디코더(1610)로 입력될 수 있다.Feature data for a chroma image may be concatenated with feature data for cross-channel prediction and input to the chroma residual decoder 1610 .

도 17은 일 실시예에 따른 영상 부호화 장치 및 영상 복호화 장치의 쌍을 설명하기 위한 도면이다.17 is a diagram for explaining a pair of an image encoding device and an image decoding device according to an exemplary embodiment.

도 17을 참조하면, 루마 영상에 대한 특징 데이터는 크로스 채널 예측을 위한 특징 데이터와 연접되지 않고, 크로스 채널 디코더(1705)로 입력되지 않을 수 있다. 크로스 채널 예측을 위한 특징 데이터만 크로스 채널 디코더(1705)로 입력될 수 있다.Referring to FIG. 17 , feature data for a luma image may not be concatenated with feature data for cross-channel prediction and may not be input to the cross-channel decoder 1705 . Only feature data for cross-channel prediction may be input to the cross-channel decoder 1705.

크로스 채널 예측을 위한 특징 데이터는 크로마 영상에 대한 특징 데이터 및 루마 영상에 대한 특징 데이터와 연접되어 크로마 레지듀얼 디코더(1710)로 입력될 수 있다.Feature data for cross-channel prediction may be input to the chroma residual decoder 1710 after being concatenated with the feature data of the chroma image and the feature data of the luma image.

도 18은 일 실시예에 따른 영상 부호화 장치 및 영상 복호화 장치의 쌍을 설명하기 위한 도면이다.18 is a diagram for explaining a pair of an image encoding device and an image decoding device according to an exemplary embodiment.

도 18을 참조하면, 루마 영상에 대한 특징 데이터는 크로스 채널 예측을 위한 특징 데이터와 연접되어 크로스 채널 디코더(1805)로 입력될 수 있다. Referring to FIG. 18 , feature data for a luma image may be concatenated with feature data for cross-channel prediction and input to a cross-channel decoder 1805 .

루마 영상에 대한 특징 데이터, 크로스 채널 예측을 위한 특징 데이터 및 크로마 영상에 대한 특징 데이터는 모두 연접되어 크로마 레지듀얼 디코더(1810)로 입력될 수 있다.Feature data for a luma image, feature data for cross-channel prediction, and feature data for a chroma image may all be concatenated and input to the chroma residual decoder 1810 .

도 13 내지 도 18을 참조하여 전술한 바와 같이, 특징 데이터의 다양한 조합이 크로스 채널 디코더 또는 크로마 레지듀얼 디코더에 입력됨으로써, 크로스 채널 예측에 따른 크로마 영상의 예측 영상의 정확도를 높이고, 크로마 영상의 레지듀얼 영상에 대한 특징 데이터의 크기를 줄임으로써 부/복호화 효율이 향상될 수 있다.As described above with reference to FIGS. 13 to 18, various combinations of feature data are input to the cross-channel decoder or the chroma residual decoder, thereby increasing the accuracy of the prediction image of the chroma image according to the cross-channel prediction and the residual of the chroma image. Coding/decoding efficiency can be improved by reducing the size of feature data for dual images.

도 19는 일 실시예에 따른 신경망(1900)의 구조를 예시하는 도면이다.19 is a diagram illustrating the structure of a neural network 1900 according to an embodiment.

도 19에 도시된 바와 같이, 입력 데이터(1905)는 제 1 컨볼루션 레이어(1910)로 입력된다. 여기서, 입력 데이터(1905)는 신경망(1900)이 제 1 디코더(231), 제 2 디코더(232), 제 3 디코더(234), 제 1 디코더(271), 제 2 디코더(272), 제 3 디코더(274), 제 1 인코더(611), 제 2 인코더(612) 및 제 3 인코더(614) 중 어느 것인지 따라 달라진다. As shown in FIG. 19 , input data 1905 is input to the first convolution layer 1910 . Here, the input data 1905 is the first decoder 231, the second decoder 232, the third decoder 234, the first decoder 271, the second decoder 272, the third decoder 231, the second decoder 272, the third It depends on which of the decoder 274, the first encoder 611, the second encoder 612, and the third encoder 614.

일 예로, 신경망(1900)이 제 1 디코더(231)인 경우, 입력 데이터(1905)는 루마 영상에 대한 특징 데이터에 대응하고, 신경망(1900)이 제 2 디코더(232)인 경우, 입력 데이터(1905)는 크로스 채널 예측을 위한 특징 데이터에 대응할 수 있다.For example, when the neural network 1900 is the first decoder 231, the input data 1905 corresponds to feature data for a luma image, and when the neural network 1900 is the second decoder 232, the input data ( 1905) may correspond to feature data for cross-channel prediction.

도 19에 도시된 제 1 컨볼루션 레이어(1910)에 표시된 3X3X4는 3x3의 크기의 4개의 필터 커널을 이용하여 1개의 입력 데이터(1905)에 대해 컨볼루션 처리를 하는 것을 예시한다. 컨볼루션 처리 결과 4개의 필터 커널에 의해 4개의 특징 맵이 생성된다. 3X3X4 displayed on the first convolution layer 1910 shown in FIG. 19 illustrates convolution processing on one input data 1905 using four filter kernels of 3x3 size. As a result of the convolution process, 4 feature maps are generated by 4 filter kernels.

제 1 컨볼루션 레이어(1910)에 의해 생성된 특징 맵들은 입력 데이터(1905)의 고유한 특성들을 나타낸다. 예를 들어, 각 특징 맵은 입력 데이터(1905)의 수직 방향 특성, 수평 방향 특성 또는 에지 특성 등을 나타낼 수 있다.Feature maps generated by the first convolutional layer 1910 represent unique characteristics of the input data 1905 . For example, each feature map may indicate a vertical direction characteristic, a horizontal direction characteristic, or an edge characteristic of the input data 1905 .

도 20을 참조하여, 제 1 컨볼루션 레이어(1910)에서의 컨볼루션 연산에 대해 상세히 설명한다.Referring to FIG. 20 , the convolution operation in the first convolution layer 1910 will be described in detail.

제 1 컨볼루션 레이어(1910)에서 이용되는 3X3의 크기를 갖는 필터 커널(2030)의 파라미터들과 그에 대응하는 입력 데이터(1905) 내 샘플 값들 사이의 곱 연산 및 덧셈 연산을 통해 하나의 특징 맵(2050)이 생성될 수 있다. 제 1 컨볼루션 레이어(1910)에서는 4개의 필터 커널(2030)이 이용되므로, 4개의 필터 커널(2030)을 이용한 컨볼루션 연산 과정을 통해 4개의 특징 맵(1945)이 생성될 수 있다.One feature map ( 2050) can be created. Since four filter kernels 2030 are used in the first convolution layer 1910, four feature maps 1945 may be generated through a convolution operation process using the four filter kernels 2030.

도 20에서 입력 데이터(2005)에 표시된 I1 내지 I49는 입력 데이터(1905)의 샘플들을 나타내고, 필터 커널(2030)에 표시된 F1 내지 F9는 필터 커널(2030)의 샘플(파라미터로 참조될 수도 있다)들을 나타낸다. 또한, 특징 맵(2050)에 표시된 M1 내지 M9는 특징 맵(2050)의 샘플들을 나타낸다. In FIG. 20, I1 to I49 indicated in the input data 2005 indicate samples of the input data 1905, and F1 to F9 indicated in the filter kernel 2030 are samples of the filter kernel 2030 (can also be referred to as parameters). represent them Also, M1 to M9 displayed on the feature map 2050 represent samples of the feature map 2050 .

컨볼루션 연산 과정에서, 입력 데이터(1905)의 I1, I2, I3, I8, I9, I10, I15, I16, I17의 샘플 값들 각각과 필터 커널(2030)의 F1, F2, F3, F4, F5, F6, F7, F8 및 F9 각각의 곱 연산이 수행되고, 곱 연산의 결과 값들을 조합(예를 들어, 덧셈 연산)한 값이 특징 맵(2050)의 M1의 값으로 할당될 수 있다. 컨볼루션 연산의 스트라이드(stride)가 2라면, 입력 데이터(1905)의 I3, I4, I5, I10, I11, I12, I17, I18, I19의 샘플 값들 각각과 필터 커널(2030)의 F1, F2, F3, F4, F5, F6, F7, F8 및 F9 각각의 곱 연산이 수행되고, 곱 연산의 결과 값들을 조합한 값이 특징 맵(2050)의 M2의 값으로 할당될 수 있다.In the convolution operation process, each of the sample values of I1, I2, I3, I8, I9, I10, I15, I16, and I17 of the input data 1905 and F1, F2, F3, F4, F5 of the filter kernel 2030, A multiplication operation of each of F6, F7, F8, and F9 is performed, and a value obtained by combining (eg, an addition operation) result values of the multiplication operation may be assigned as a value of M1 of the feature map 2050. If the stride of the convolution operation is 2, each of the sample values of I3, I4, I5, I10, I11, I12, I17, I18, and I19 of the input data 1905 and F1, F2 of the filter kernel 2030, Each multiplication operation of F3, F4, F5, F6, F7, F8, and F9 is performed, and a value obtained by combining the result values of the multiplication operation may be assigned as the value of M2 of the feature map 2050.

필터 커널(2030)이 입력 데이터(1905)의 마지막 샘플에 도달할 때까지 스트라이드에 따라 이동하는 동안 입력 데이터(1905) 내 샘플 값들과 필터 커널(2030)의 샘플들 사이의 컨볼루션 연산이 수행됨으로써, 소정 크기를 갖는 특징 맵(2050)이 획득될 수 있다.While the filter kernel 2030 moves according to the stride until it reaches the last sample of the input data 1905, a convolution operation is performed between the sample values in the input data 1905 and the samples of the filter kernel 2030. , a feature map 2050 having a predetermined size may be obtained.

본 개시에 따르면, 신경망(1900)에 대한 훈련을 통해 신경망(1900)의 파라미터들, 예를 들어, 신경망(1900)의 컨볼루션 레이어들에서 이용되는 필터 커널(2030)의 샘플들(예를 들어, 필터 커널(2030)의 F1, F2, F3, F4, F5, F6, F7, F8 및 F9)의 값이 최적화될 수 있다. According to the present disclosure, parameters of the neural network 1900 through training of the neural network 1900, for example, samples of the filter kernel 2030 used in convolutional layers of the neural network 1900 (eg, , F1, F2, F3, F4, F5, F6, F7, F8, and F9) of the filter kernel 2030 may be optimized.

신경망(1900)에 포함된 컨볼루션 레이어들은 도 20과 관련하여 설명한 컨볼루션 연산 과정에 따른 처리를 할 수 있으나, 도 20에서 설명한 컨볼루션 연산 과정은 하나의 예시일 뿐이며, 이에 한정되는 것은 아니다.The convolution layers included in the neural network 1900 may perform processing according to the convolution operation process described in relation to FIG. 20 , but the convolution operation process described in FIG. 20 is only an example and is not limited thereto.

다시 도 19를 참조하면, 제 1 컨볼루션 레이어(1910)의 특징 맵들은 제 1 활성화 레이어(1920)로 입력된다. Referring back to FIG. 19 , feature maps of the first convolution layer 1910 are input to the first activation layer 1920 .

제 1 활성화 레이어(1920)는 각각의 특징 맵에 대해 비선형(Non-linear) 특성을 부여할 수 있다. 제 1 활성화 레이어(1920)는 시그모이드 함수(sigmoid function), Tanh 함수, ReLU(Rectified Linear Unit) 함수 등을 포함할 수 있으나, 이에 한정되는 것은 아니다.The first activation layer 1920 may assign non-linear characteristics to each feature map. The first activation layer 1920 may include, but is not limited to, a sigmoid function, a Tanh function, a Rectified Linear Unit (ReLU) function, and the like.

제 1 활성화 레이어(1920)에서 비선형 특성을 부여하는 것은, 특징 맵들의 일부 샘플 값을 변경하여 출력하는 것을 의미한다. 이때, 변경은 비선형 특성을 적용하여 수행된다.Giving nonlinear characteristics in the first activation layer 1920 means changing and outputting some sample values of feature maps. At this time, the change is performed by applying nonlinear characteristics.

제 1 활성화 레이어(1920)는 특징 맵의 샘플 값들을 제 2 컨볼루션 레이어(1930)로 전달할지 여부를 결정한다. 예를 들어, 특징 맵의 샘플 값들 중 어떤 샘플 값들은 제 1 활성화 레이어(1920)에 의해 활성화되어 제 2 컨볼루션 레이어(1930)로 전달되고, 어떤 샘플 값들은 제 1 활성화 레이어(1920)에 의해 비활성화되어 제 2 컨볼루션 레이어(1930)로 전달되지 않는다. 특징 맵들이 나타내는 입력 데이터(1905)의 고유 특성이 제 1 활성화 레이어(1920)에 의해 강조된다.The first activation layer 1920 determines whether to transfer the sample values of the feature map to the second convolution layer 1930. For example, certain sample values among sample values of the feature map are activated by the first activation layer 1920 and transferred to the second convolution layer 1930, and certain sample values are activated by the first activation layer 1920. It is inactivated and not passed to the second convolution layer 1930. The unique characteristics of the input data 1905 represented by the feature maps are emphasized by the first activation layer 1920 .

제 1 활성화 레이어(1920)에서 출력된 특징 맵들(1925)은 제 2 컨볼루션 레이어(1930)로 입력된다. 도 19에 도시된 특징 맵들(1925) 중 어느 하나는 도 20과 관련하여 설명한 특징 맵(2050)이 제 1 활성화 레이어(1920)에서 처리된 결과이다. The feature maps 1925 output from the first activation layer 1920 are input to the second convolution layer 1930. One of the feature maps 1925 shown in FIG. 19 is a result of processing the feature map 2050 described with reference to FIG. 20 in the first activation layer 1920 .

제 2 컨볼루션 레이어(1930)에 표시된 3X3X4는 3x3의 크기의 4개의 필터 커널을 이용하여 입력된 특징 맵들(1925)에 대해 컨볼루션 처리하는 것을 예시한다. 제 2 컨볼루션 레이어(1930)의 출력은 제 2 활성화 레이어(1940)로 입력된다. 제 2 활성화 레이어(1940)는 입력된 특징 맵들에 대해 비선형 특성을 부여할 수 있다.3X3X4 displayed on the second convolution layer 1930 illustrates convolution processing of the input feature maps 1925 using four filter kernels of 3x3 size. The output of the second convolution layer 1930 is input to the second activation layer 1940. The second activation layer 1940 may assign nonlinear characteristics to input feature maps.

제 2 활성화 레이어(1940)에서 출력된 특징 맵들(1945)은 제 3 컨볼루션 레이어(1950)로 입력된다. 제 3 컨볼루션 레이어(1950)에 표시된 3X3X1은 3x3의 크기의 1개의 필터 커널을 이용하여 1개의 출력 데이터(1955)를 만들기 위해 컨볼루션 처리를 하는 것을 예시한다. The feature maps 1945 output from the second activation layer 1940 are input to the third convolution layer 1950. 3X3X1 displayed on the third convolution layer 1950 illustrates convolution processing to generate one output data 1955 using one filter kernel having a size of 3x3.

출력 데이터(1955)는 신경망(1900)이 제 1 컨볼루션 레이어(1910)로 입력된다. 여기서, 입력 데이터(1905)는 신경망(1900)이 제 1 디코더(231), 제 2 디코더(232), 제 3 디코더(234), 제 1 디코더(271), 제 2 디코더(272), 제 3 디코더(274), 제 1 인코더(611), 제 2 인코더(612) 및 제 3 인코더(614) 중 어느 것인지 따라 달라진다. The output data 1955 is input to the first convolution layer 1910 of the neural network 1900 . Here, the input data 1905 is the first decoder 231, the second decoder 232, the third decoder 234, the first decoder 271, the second decoder 272, the third decoder 231, the second decoder 272, the third It depends on which of the decoder 274, the first encoder 611, the second encoder 612, and the third encoder 614.

일 예로, 신경망(1900)이 제 1 디코더(231)인 경우, 출력 데이터(1955)는 루마 영상의 복원 영상이고, 신경망(1900)이 제 2 디코더(232)인 경우, 출력 데이터(1955)는 크로스 채널 예측 정보일 수 있다.For example, when the neural network 1900 is the first decoder 231, the output data 1955 is a reconstructed luma image, and when the neural network 1900 is the second decoder 232, the output data 1955 is It may be cross-channel prediction information.

도 19는 신경망(1900)이 세 개의 컨볼루션 레이어와 두 개의 활성화 레이어를 포함하고 있는 것으로 도시하고 있으나, 이는 하나의 예시일 뿐이며, 구현예에 따라서, 신경망(1900)에 포함된 컨볼루션 레이어 및 활성화 레이어의 개수는 다양하게 변경될 수 있다. 19 shows that the neural network 1900 includes three convolution layers and two activation layers, but this is only an example, and according to an embodiment, the convolution layers included in the neural network 1900 and The number of activation layers may be variously changed.

또한, 구현예에 따라서, 신경망(1900)은 RNN(recurrent neural network)을 통해 구현될 수도 있다. 이 경우는 본 개시의 예시에 따른 신경망(1900)의 CNN 구조를 RNN 구조로 변경하는 것을 의미한다.Also, depending on implementation, the neural network 1900 may be implemented through a recurrent neural network (RNN). This case means changing the CNN structure of the neural network 1900 according to the example of the present disclosure into an RNN structure.

일 실시예에서, 영상 복호화 장치(200,250) 및 영상 부호화 장치(600,650)는 전술한 컨볼루션 연산 및 활성화 레이어의 연산을 위한 적어도 하나의 ALU(Arithmetic logic unit)를 포함할 수 있다. In one embodiment, the image decoding apparatuses 200 and 250 and the image encoding apparatuses 600 and 650 may include at least one arithmetic logic unit (ALU) for the above-described convolution operation and activation layer operation.

ALU는 프로세서로 구현될 수 있다. 컨볼루션 연산을 위해, ALU는 입력 데이터(1905) 또는 이전 레이어에서 출력된 특징 맵의 샘플 값들과 필터 커널의 샘플 값들 사이의 곱 연산을 수행하는 곱셈기 및 곱셈의 결과 값들을 더하는 가산기를 포함할 수 있다. An ALU may be implemented as a processor. For the convolution operation, the ALU may include a multiplier that performs a multiplication operation between the sample values of the feature map output from the input data 1905 or the previous layer and the sample values of the filter kernel, and an adder that adds the resulting values of the multiplication. there is.

활성화 레이어의 연산을 위해, ALU는 미리 결정된 시그모이드 함수, Tanh 함수 또는 ReLU 함수 등에서 이용되는 가중치를 입력된 샘플 값에 곱하는 곱셈기, 및 곱한 결과와 소정 값을 비교하여 입력된 샘플 값을 다음 레이어로 전달할지를 판단하는 비교기를 포함할 수 있다.For the operation of the activation layer, the ALU is a multiplier that multiplies the input sample value with a weight used in a predetermined sigmoid function, Tanh function, or ReLU function, and compares the multiplication result with a predetermined value to transfer the input sample value to the next layer. It may include a comparator for determining whether to transfer to .

이하에서는, 도 21 내지 도 22를 참조하여, 영상의 부호화 및 복호화 과정에서 이용되는 신경망들의 훈련 방법에 대해 설명한다.Hereinafter, with reference to FIGS. 21 and 22, a method for training neural networks used in encoding and decoding an image will be described.

도 21은 제 1 디코더(231), 제 1 인코더(611), 제 2 디코더(232), 제 2 인코더(612), 제 3 디코더(234), 제 3 인코더(614)의 훈련 방법을 설명하기 위한 도면이다.21 illustrates a training method of the first decoder 231, the first encoder 611, the second decoder 232, the second encoder 612, the third decoder 234, and the third encoder 614. It is a drawing for

도 21에서, 현재 훈련 루마 영상(2105), 현재 훈련 크로마 영상(2110), 현재 복원 훈련 루마 영상(2120), 현재 복원 훈련 크로마 영상(2140)은 현재 루마 영상, 현재 크로마 영상, 현재 복원 루마 영상, 현재 크로마 복원 영상에 대응한다.21, a current training luma image 2105, a current training chroma image 2110, a current reconstructed training luma image 2120, and a current reconstructed training chroma image 2140 are a current luma image, a current chroma image, and a current reconstructed luma image. , corresponding to the current chroma reconstructed image.

제 1 디코더(231), 제 2 디코더(232), 제 3 디코더(234), 제 1 인코더(611), 제 2 인코더(612) 및 제 3 인코더(614)에서 이용되는 신경망을 훈련시키는데 있어,In training the neural networks used in the first decoder 231, the second decoder 232, the third decoder 234, the first encoder 611, the second encoder 612 and the third encoder 614,

현재 복원 훈련 루마 영상(2120)이 현재 훈련 루마 영상(2105)과 어느 정도로 유사한지, 현재 복원 훈련 크로마 영상(2140)이 현재 훈련 크로마 영상(2110)이 어느 정도로 유사한지, 현재 훈련 루마 영상(2105)에 대한 부호화를 통해 생성되는 비트스트림의 비트레이트가 어느 정도로 큰지, 현재 복원 훈련 루마 영상(2120) 및 현재 훈련 크로마 영상(2110)에 대한 부호화를 통해 생성되는 비트스트림의 비트레이트가 어느 정도로 큰지, 현재 훈련 크로마 영상(2110)에 대한 부호화를 통해 생성되는 비트스트림의 비트레이트가 어느 정도로 큰지가 고려되어야 한다. How similar the current reconstruction training luma image 2120 is to the current training luma image 2105, how similar the current reconstruction training chroma image 2140 is to the current training chroma image 2110, and the current training luma image 2105 How high is the bitrate of the bitstream generated through encoding of ), and how large is the bitrate of the bitstream generated through encoding of the current reconstruction training luma image 2120 and the current training chroma image 2110 , how high the bitrate of the bitstream generated through encoding of the current training chroma image 2110 should be considered.

이를 위해, 일 실시예에서는, 현재 훈련 크로마 영상(2110)과 현재 복원 훈련 크로마 영상(2140) 사이의 유사도에 대응하는 제 1 손실 정보(2150), 현재 훈련 루마 영상(2105)과 현재 복원 훈련 루마 영상(2120) 사이의 유사도에 대응하는 제 4 손실 정보(2180), 비트스트림이 어느 정도 큰지에 대응하는 제 2 손실 정보(2160), 제 3 손실 정보(2170) 및 제 5 손실 정보(2190)에 따라, 제 1 인코더(611), 제 2 디코더(232), 제 2 인코더(612), 제 3 디코더(234), 제 3 인코더(614)에서 이용되는 신경망이 훈련될 수 있다.To this end, in an embodiment, first loss information 2150 corresponding to the similarity between the current training chroma image 2110 and the current reconstructed training chroma image 2140, the current training luma image 2105 and the current reconstructed training luma Fourth loss information 2180 corresponding to the degree of similarity between images 2120, second loss information 2160 corresponding to how large a bitstream is, third loss information 2170, and fifth loss information 2190 Accordingly, neural networks used in the first encoder 611, the second decoder 232, the second encoder 612, the third decoder 234, and the third encoder 614 may be trained.

도 21을 참조하면, 현재 훈련 루마 영상(2105)는 제 1 인코더(611)로 입력된다. 제 1 인코더(611)는 현재 훈련 루마 영상(2105)을 처리하여 루마 영상에 대한 특징 데이터(Li)를 출력할 수 있다.Referring to FIG. 21 , a current training luma image 2105 is input to the first encoder 611 . The first encoder 611 may process the current training luma image 2105 and output feature data L i for the luma image.

루마 영상에 대한 특징 데이터(Li)는 제 1 디코더(231)로 입력되고, 제 1 디코더(231)는 현재 복원 훈련 루마 영상(2120)을 출력할 수 있다. Feature data (L i ) of the luma image is input to the first decoder 231 , and the first decoder 231 may output a current reconstructed training luma image 2120 .

현재 복원 훈련 루마 영상(2120) 및 현재 훈련 크로마 영상(2110)는 제 2 인코더(612)로 입력된다. 제 2 인코더(612)는 현재 복원 훈련 루마 영상(2120) 및 현재 훈련 크로마 영상(2110)을 처리하여 크로스 채널 예측을 위한 특징 데이터(Wi)를 출력할 수 있다.The current reconstructed training luma image 2120 and the current training chroma image 2110 are input to the second encoder 612 . The second encoder 612 may process the current reconstructed training luma image 2120 and the current training chroma image 2110 to output feature data (W i ) for cross-channel prediction.

크로스 채널 예측을 위한 특징 데이터(Wi)는 제 2 디코더(232)로 입력되고, 제 2 디코더(232)는 크로스 채널 예측 정보(gi)를 출력할 수 있다.Feature data (W i ) for cross-channel prediction is input to the second decoder 232, and the second decoder 232 may output cross-channel prediction information (g i ).

현재 복원 훈련 루마 영상(2120) 및 크로스 채널 예측 정보(gi)를 이용하여 크로스 채널 예측(2130)이 수행되고, 현재 크로마 영상의 예측 훈련 영상(x'i)이 생성될 수 있다.Cross-channel prediction 2130 may be performed using the current reconstructed training luma image 2120 and cross-channel prediction information g i , and a prediction training image x′ i of the current chroma image may be generated.

현재 크로마 영상의 예측 훈련 영상(x'i)과 현재 훈련 크로마 영상(2110) 사이의 차이에 대응하는 현재 훈련 크로마 영상의 레지듀얼 영상 데이터(ri)가 획득된다.Residual image data (r i ) of the current training chroma image corresponding to a difference between the predicted training image (x′ i ) of the current chroma image and the current training chroma image 2110 is obtained.

현재 훈련 크로마 영상의 레지듀얼 영상 데이터(ri)는 제 3 인코더(614)로 입력되고, 제 3 인코더(614)는 현재 훈련 크로마 영상의 레지듀얼 영상 데이터(ri)를 처리하여 현재 훈련 크로마 영상의 레지듀얼 영상 데이터의 특징 데이터(Vi)를 출력한다.The residual image data (r i ) of the current training chroma image is input to the third encoder 614, and the third encoder 614 processes the residual image data (r i ) of the current training chroma image to obtain the current training chroma image. Characteristic data (V i ) of the residual image data of the image is output.

현재 훈련 크로마 영상의 레지듀얼 영상 데이터의 특징 데이터(Vi)는 제 3 디코더(234)로 입력된다.Feature data V i of residual image data of the current training chroma image is input to the third decoder 234 .

제 3 디코더(234)는 현재 훈련 크로마 영상의 레지듀얼 영상 데이터의 특징 데이터(Vi)를 처리하여 현재 크로마 영상의 레지듀얼 훈련 영상(r'i)을 출력하고, 예측 훈련 영상(x'i)과 레지듀얼 훈련 영상(r'i)이 합해짐으로써 현재 복원 훈련 크로마 영상(2140)이 획득된다.The third decoder 234 processes the feature data (V i ) of the residual image data of the current training chroma image, outputs the residual training image (r' i ) of the current chroma image, and outputs the predicted training image (x' i ) . ) and the residual training image (r′ i ), the current reconstruction training chroma image 2140 is obtained.

제 1 인코더(611), 제 2 인코더(612), 제 3 인코더(614), 제 1 디코더(231), 제 2 디코더(232), 제 3 디코더(234)에서 이용되는 신경망의 훈련을 위해, 제 1 손실 정보(2150), 제 2 손실 정보(2160), 제 3 손실 정보(2170), 제 4 손실 정보(2180) 및 제 5 손실 정보(2190) 중 적어도 하나가 획득될 수 있다.For training of neural networks used in the first encoder 611, the second encoder 612, the third encoder 614, the first decoder 231, the second decoder 232, and the third decoder 234, At least one of first loss information 2150, second loss information 2160, third loss information 2170, fourth loss information 2180, and fifth loss information 2190 may be obtained.

제 1 손실 정보(2150)는 현재 훈련 크로마 영상(2110)과 현재 복원 훈련 크로마 영상(2140) 사이의 차이에 대응한다. 현재 훈련 크로마 영상(2110)과 현재 복원 훈련 크로마 영상(2140) 사이의 차이는, 현재 훈련 크로마 영상(2110)과 현재 복원 훈련 크로마 영상(2140) 사이의 L1-norm 값, L2-norm 값, SSIM(Structural Similarity) 값, PSNR-HVS(Peak Signal-To-Noise Ratio-Human Vision System) 값, MS-SSIM(Multiscale SSIM) 값, VIF(Variance Inflation Factor) 값 및 VMAF(Video Multimethod Assessment Fusion) 값 중 적어도 하나를 포함할 수 있다.The first loss information 2150 corresponds to a difference between the current training chroma image 2110 and the current reconstructed training chroma image 2140 . The difference between the current training chroma image 2110 and the current reconstructed training chroma image 2140 is the L1-norm value, L2-norm value, and SSIM between the current training chroma image 2110 and the current reconstructed training chroma image 2140. (Structural Similarity) value, PSNR-HVS (Peak Signal-To-Noise Ratio-Human Vision System) value, MS-SSIM (Multiscale SSIM) value, VIF (Variance Inflation Factor) value, and VMAF (Video Multimethod Assessment Fusion) value may contain at least one.

제 1 손실 정보(2150)는 현재 훈련 크로마 영상(2110)의 퀄리티와 관련이 있으므로, 제 1 손실 정보(2150)는 퀄리티 손실 정보로 참조될 수도 있다.Since the first loss information 2150 is related to the quality of the current training chroma image 2110, the first loss information 2150 may be referred to as quality loss information.

제 1 손실 정보(2150)와 유사하게, 제 4 손실 정보(2180)는 현재 훈련 루마 영상(2105)과 현재 복원 훈련 루마 영상(2120) 사이의 차이에 대응한다.Similar to the first loss information 2150, the fourth loss information 2180 corresponds to the difference between the current training luma image 2105 and the current reconstructed training luma image 2120.

제 2 손실 정보(2160)는 크로스 채널 예측을 위한 특징 데이터(Wi)의 엔트로피 또는 크로스 채널 예측을 위한 특징 데이터(Wi)에 대응하는 비트스트림의 비트레이트에 대응한다. The second loss information 2160 corresponds to the entropy of the feature data (W i ) for cross-channel prediction or the bitrate of a bitstream corresponding to the feature data (W i ) for cross-channel prediction.

또한, 제 3 손실 정보(2170)는 현재 훈련 크로마 영상의 레지듀얼 영상 데이터의 특징 데이터(Vi)의 엔트로피 또는 현재 훈련 크로마 영상의 레지듀얼 영상 데이터의 특징 데이터(Vi)에 대응하는 비트스트림의 비트레이트에 대응한다.In addition, the third loss information 2170 is the entropy of the feature data (V i ) of the residual image data of the current training chroma image or the bit stream corresponding to the feature data (V i ) of the residual image data of the current training chroma image. corresponds to a bitrate of

또한, 제 5 손실 정보(2190)는 현재 훈련 루마 영상의 특징 데이터(Li)의 엔트로피 또는 현재 훈련 루마 영상의 특징 데이터(Li)에 대응하는 비트스트림의 비트레이트에 대응한다.In addition, the fifth loss information 2190 corresponds to the entropy of the feature data (L i ) of the current training luma image or the bit rate of the bitstream corresponding to the feature data (L i ) of the current training luma image.

비트스트림이 크로스 채널 예측을 위한 특징 데이터(Wi) 및 현재 훈련 크로마 영상의 레지듀얼 영상 데이터의 특징 데이터(Vi)를 모두 포함한다면, 해당 비트스트림의 비트레이트에 대응하는 제 6 손실 정보가 산출될 수 있다. 이 경우, 제 2 손실 정보(2160) 및 제 3 손실 정보(2170)는 훈련에 이용되지 않을 수 있다.If the bitstream includes both feature data (W i ) for cross-channel prediction and feature data (V i ) of residual image data of the current training chroma image, sixth loss information corresponding to the bitrate of the corresponding bitstream is can be derived. In this case, the second loss information 2160 and the third loss information 2170 may not be used for training.

비트스트림이 크로스 채널 예측을 위한 특징 데이터(Wi), 현재 훈련 크로마 영상의 레지듀얼 영상 데이터의 특징 데이터(Vi) 및 현재 훈련 루마 영상의 특징 데이터(Li)를 모두 포함한다면, 해당 비트스트림의 비트레이트에 대응하는 제 7 손실 정보가 산출될 수 있다. 이 경우, 제 2 손실 정보(2160), 제 3 손실 정보(2170) 및 제 5 손실 정보(2190)는 훈련에 이용되지 않을 수 있다.If the bitstream includes all feature data (W i ) for cross-channel prediction, feature data (V i ) of residual image data of the current training chroma image, and feature data (L i ) of the current training luma image, the corresponding bit Seventh loss information corresponding to the bit rate of the stream may be calculated. In this case, the second loss information 2160, the third loss information 2170, and the fifth loss information 2190 may not be used for training.

제 2 손실 정보(2160), 제 3 손실 정보(2170) 및 제 5 손실 정보(2190)는, 현재 훈련 루마 영상(2105), 현재 훈련 크로마 영상(2110)에 대한 부호화 효율에 관련되므로, 제 2 손실 정보(2160), 제 3 손실 정보(2170) 및 제 5 손실 정보(2190)는, 압축도 손실 정보로 참조될 수 있다.Since the second loss information 2160, the third loss information 2170, and the fifth loss information 2190 are related to encoding efficiency for the current training luma image 2105 and the current training chroma image 2110, Loss information 2160, third loss information 2170, and fifth loss information 2190 may be referred to as compression loss information.

제 1 디코더(231), 제 2 디코더(232), 제 3 디코더(234), 제 1 인코더(611), 제 2 인코더(612) 및 제 3 인코더(614)에서 이용되는 신경망은 제 1 손실 정보(2150), 제 2 손실 정보(2160), 제 3 손실 정보(2170) 및 제 4 손실 정보(2180) 및 제 5 손실 정보(2190) 중 적어도 하나로부터 도출되는 최종 손실 정보가 감소 또는 최소화되도록 훈련된다. The neural network used in the first decoder 231, the second decoder 232, the third decoder 234, the first encoder 611, the second encoder 612, and the third encoder 614 is the first loss information 2150, the second loss information 2160, the third loss information 2170, the fourth loss information 2180, and the fifth loss information 2190 are trained to reduce or minimize the final loss information derived from at least one. do.

구체적으로, 제 1 디코더(231), 제 2 디코더(232), 제 3 디코더(234), 제 1 인코더(611), 제 2 인코더(612) 및 제 3 인코더(614)에서 이용되는 신경망은 미리 설정된 파라미터의 값을 변경하면서 최종 손실 정보가 감소 또는 최소화되도록 한다.Specifically, the neural networks used in the first decoder 231, the second decoder 232, the third decoder 234, the first encoder 611, the second encoder 612, and the third encoder 614 are configured in advance. The final loss information is reduced or minimized while changing the value of the set parameter.

일 실시예에서, 최종 손실 정보는 하기 수학식 1에 따라 산출될 수 있다.In one embodiment, the final loss information may be calculated according to Equation 1 below.

[수학식 1][Equation 1]

최종 손실 정보 = a*제 1 손실 정보+b*제 2 손실 정보+c*제 3 손실 정보+d*제 4 손실 정보+e*제 5 손실 정보Final loss information = a*first loss information+b*second loss information+c*third loss information+d*fourth loss information+e*fifth loss information

수학식 1에서, a, b, c, d, e는 각각 제 1 손실 정보(2150), 제 2 손실 정보(2160), 제 3 손실 정보(2170) 및 제 4 손실 정보(2180) 및 제 5 손실 정보(2190) 각각에 적용되는 가중치이다.In Equation 1, a, b, c, d, and e represent first loss information 2150, second loss information 2160, third loss information 2170, fourth loss information 2180, and fifth loss information 2150, respectively. This is a weight applied to each loss information 2190.

수학식 1에 따르면, 제 1 디코더(231), 제 2 디코더(232), 제 3 디코더(234), 제 1 인코더(611), 제 2 인코더(612) 및 제 3 인코더(614)에서 이용되는 신경망은 According to Equation 1, the first decoder 231, the second decoder 232, the third decoder 234, the first encoder 611, the second encoder 612, and the third encoder 614 are used. neural network

현재 복원 훈련 루마 영상(2120)이 현재 훈련 루마 영상(2105)에 최대한 유사해지고, 현재 복원 훈련 크로마 영상(2140)이 현재 훈련 크로마 영상(2110)에 최대한 유사해지고, 제 1 인코더(611), 제 2 인코더(612) 및 제 3 인코더(614)로부터 출력되는 데이터에 대응하는 비트스트림의 크기가 최소화되는 방향으로 훈련됨을 알 수 있다.The current reconstruction training luma image 2120 becomes as similar as possible to the current training luma image 2105, the current reconstruction training chroma image 2140 becomes as similar as possible to the current training chroma image 2110, and the first encoder 611, the second It can be seen that training is performed in a direction in which the sizes of bitstreams corresponding to data output from the second encoder 612 and the third encoder 614 are minimized.

수학식 1의 최종 손실 정보에 기초하여 제 1 디코더(231), 제 2 디코더(232), 제 3 디코더(234), 제 1 인코더(611), 제 2 인코더(612) 및 제 3 인코더(614)에서 이용되는 신경망이 함께 훈련되는 것에 제한되지 않고, 제 1 손실 정보(2150), 제 2 손실 정보(2160), 제 3 손실 정보(2170) 및 제 4 손실 정보(2180) 및 제 5 손실 정보(2190) 중 적어도 일부에 기초한 복수의 최종 손실 정보에 기초하여 제 1 디코더(231), 제 2 디코더(232), 제 3 디코더(234), 제 1 인코더(611), 제 2 인코더(612) 및 제 3 인코더(614)에서 이용되는 신경망이 별도로 훈련될 수 있다.Based on the final loss information of Equation 1, the first decoder 231, the second decoder 232, the third decoder 234, the first encoder 611, the second encoder 612, and the third encoder 614 ) is not limited to being trained together, and the first loss information 2150, the second loss information 2160, the third loss information 2170, the fourth loss information 2180, and the fifth loss information A first decoder 231, a second decoder 232, a third decoder 234, a first encoder 611, and a second encoder 612 based on a plurality of final loss information based on at least a portion of (2190) and the neural network used in the third encoder 614 may be separately trained.

도 22는 훈련 장치(2200)에 의한 제 1 디코더(231), 제 2 디코더(232), 제 3 디코더(234), 제 1 인코더(611), 제 2 인코더(612) 및 제 3 인코더(614)에서 이용되는 신경망의 훈련 과정을 설명하기 위한 도면이다.22 shows a first decoder 231, a second decoder 232, a third decoder 234, a first encoder 611, a second encoder 612 and a third encoder 614 by the training apparatus 2200. ) is a diagram for explaining the training process of the neural network used in.

도 21과 관련하여 설명한 훈련 과정은 훈련 장치(2200)에 의해 수행될 수 있다. 훈련 장치(2200)는 예를 들어, 영상 부호화 장치(600,650) 또는 별도의 서버일 수 있다. 훈련 결과 획득된 파라미터들은 영상 부호화 장치(600,650) 및 영상 복호화 장치(200.250)에 저장된다.The training process described with reference to FIG. 21 may be performed by the training device 2200 . The training apparatus 2200 may be, for example, the video encoding apparatuses 600 and 650 or a separate server. Parameters obtained as a result of training are stored in the image encoding devices 600 and 650 and the image decoding devices 200 and 250.

도 22를 참조하면, 훈련 장치(2200)는 제 1 디코더(231), 제 2 디코더(232), 제 3 디코더(234), 제 1 인코더(611), 제 2 인코더(612) 및 제 3 인코더(614)에서 이용되는 신경망의 파라미터를 초기 세팅한다(S2205). 이에 의해, 제 1 디코더(231), 제 2 디코더(232), 제 3 디코더(234), 제 1 인코더(611), 제 2 인코더(612) 및 제 3 인코더(614)는 초기 세팅된 파라미터에 따라 동작할 수 있다.Referring to FIG. 22, the training device 2200 includes a first decoder 231, a second decoder 232, a third decoder 234, a first encoder 611, a second encoder 612, and a third encoder. Parameters of the neural network used in step 614 are initially set (S2205). Accordingly, the first decoder 231, the second decoder 232, the third decoder 234, the first encoder 611, the second encoder 612, and the third encoder 614 depend on the initially set parameters. can operate accordingly.

훈련 장치(2200)는 현재 훈련 루마 영상을 제1 인코더(631)에 입력할 수 있다(S2210). The training device 2200 may input the current training luma image to the first encoder 631 (S2210).

제 1 인코더(631)는 입력된 데이터를 처리하여 루마 영상에 대한 특징 데이터(Li)를 훈련 장치(2200) 및 제 1 디코더(231)로 출력할 수 있다(S2215).The first encoder 631 may process the input data and output feature data L i of the luma image to the training device 2200 and the first decoder 231 (S2215).

훈련 장치(2200)는 루마 영상에 대한 특징 데이터(Li)로부터 제 5 손실 정보(2190)를 산출할 수 있다(S2220)The training device 2200 may calculate fifth loss information 2190 from feature data L i of the luma image (S2220).

제 1 디코더(231)는 루마 영상에 대한 특징 데이터(Li)를 처리하여 현재 복원 훈련 루마 영상(2120)을 훈련 장치(2200)로 출력할 수 있다(S2225).The first decoder 231 may process feature data (L i ) of the luma image and output the current reconstructed training luma image 2120 to the training device 2200 (S2225).

훈련 장치(2200)는 현재 복원 훈련 루마 영상(2120)으로부터 제 4 손실 정보(2180)을 산출할 수 있다(S2230).The training device 2200 may calculate fourth loss information 2180 from the current reconstructed training luma image 2120 (S2230).

훈련 장치(2200)는 현재 복원 훈련 루마 영상(2120) 및 현재 훈련 크로마 영상(2110)을 제 2 인코더(632)로 입력할 수 있다(S2235).The training device 2200 may input the current reconstructed training luma image 2120 and the current training chroma image 2110 to the second encoder 632 (S2235).

제 2 인코더(632)는 현재 복원 훈련 루마 영상(2120) 및 현재 훈련 크로마 영상(2110)을 처리하여 크로스 채널 예측을 위한 특징 데이터(Wi)를 훈련 장치(2200) 및 제 2 디코더(232)로 출력할 수 있다(S2240).The second encoder 632 processes the current reconstructed training luma image 2120 and the current training chroma image 2110 to provide feature data (W i ) for cross-channel prediction to the training device 2200 and the second decoder 232. It can be output as (S2240).

훈련 장치(2200)는 크로스 채널 예측을 위한 특징 데이터(Wi)로부터 제 2 손실 정보(2160)을 산출할 수 있다(S2245).The training device 2200 may calculate second loss information 2160 from feature data W i for cross-channel prediction (S2245).

제 2 디코더(232)는 크로스 채널 예측을 위한 특징 데이터(Wi)를 처리하여 크로스 채널 예측 정보(gi)를 훈련 장치(220)로 출력할 수 있다(S2250).The second decoder 232 may process feature data (W i ) for cross-channel prediction and output cross-channel prediction information (gi ) to the training device 220 (S2250).

훈련 장치(2200)는 크로스 채널 예측 정보(gi) 및 현재 복원 훈련 루마 영상(2120)을 이용한 크로스 채널 예측(2130)을 수행하여 훈련 크로마 영상의 예측 영상(x'i)을 생성할 수 있다(S2255)The training apparatus 2200 may generate a predicted image (x′ i ) of the training chroma image by performing cross-channel prediction 2130 using the cross-channel prediction information (gi ) and the current reconstructed training luma image 2120. (S2255)

훈련 장치(2200)는 현재 훈련 크로마 영상(2110) 및 훈련 크로마 영상의 예측 영상(x'i)를 이용하여 현재 훈련 크로마 영상의 레지듀얼 영상(ri)을 생성할 수 있다(S2260).The training apparatus 2200 may generate a residual image (r i ) of the current training chroma image by using the current training chroma image 2110 and the predicted image (x′ i ) of the training chroma image (S2260).

훈련 장치(2200)는 현재 훈련 크로마 영상의 레지듀얼 영상(ri)을 제 3 인코더(634)로 입력할 수 있다(S2265).The training device 2200 may input the residual image r i of the current training chroma image to the third encoder 634 (S2265).

제 3 인코더(634)는 현재 훈련 크로마 영상의 레지듀얼 영상(ri)을 처리하여 크로마 영상에 대한 특징 데이터(Vi)를 훈련 장치(2200) 및 제 3 디코더(234)로 출력할 수 있다(S2270).The third encoder 634 may process the residual image r i of the current training chroma image and output feature data V i of the chroma image to the training device 2200 and the third decoder 234. (S2270).

훈련 장치(2200)는 크로마 영상에 대한 특징 데이터(Vi)로부터 제 3 손실 정보(2170)을 산출할 수 있다(S2275).The training apparatus 2200 may calculate third loss information 2170 from feature data V i of the chroma image (S2275).

제 3 디코더(234)는 크로마 영상에 대한 특징 데이터(Vi)을 처리하여 현재 복원 훈련 크로마 영상의 레지듀얼 영상(r'i)을 훈련 장치(2200)로 출력할 수 있다(S2280).The third decoder 234 may process feature data (V i ) of the chroma image and output a residual image (r' i ) of the current reconstructed training chroma image to the training apparatus 2200 (S2280).

훈련 장치(2200)는 현재 복원 훈련 크로마 영상의 예측 영상(x'i) 및 현재 복원 훈련 크로마 영상의 레지듀얼 영상(r'i)로부터 현재 복원 훈련 크로마 영상(2140)을 생성할 수 있다(S2285).The training apparatus 2200 may generate a current reconstruction training chroma image 2140 from a prediction image (x' i ) of the current reconstruction training chroma image and a residual image (r' i ) of the current reconstruction training chroma image (S2285). ).

훈련 장치(2200)는 현재 복원 훈련 크로마 영상(2140) 및 현재 훈련 크로마 영상(2110)로부터 제 1 손실 정보(2150)을 산출할 수 있다(S2290)The training apparatus 2200 may calculate first loss information 2150 from the current reconstructed training chroma image 2140 and the current training chroma image 2110 (S2290).

훈련 장치(2200)는 제 1 손실 정보(2150), 제 2 손실 정보(2160), 제 3 손실 정보(2170) 및 제 4 손실 정보(2180) 및 제 5 손실 정보(2190) 중 적어도 하나를 결합하여 최종 손실 정보를 산출하고, 제 1 디코더(231), 제 2 디코더(232), 제 3 디코더(234), 제 1 인코더(611), 제 2 인코더(612) 및 제 3 인코더(614)에서 이용되는 신경망은 최종 손실 정보에 기초한 역전사(back propagation) 과정을 통해 초기 세팅된 파라미터를 갱신한다(S2291, S2292, S2293, S2294, S2295, S2296)The training apparatus 2200 combines at least one of the first loss information 2150, the second loss information 2160, the third loss information 2170, the fourth loss information 2180, and the fifth loss information 2190. to calculate the final loss information, and in the first decoder 231, the second decoder 232, the third decoder 234, the first encoder 611, the second encoder 612 and the third encoder 614 The neural network used updates the initially set parameters through a back propagation process based on the final loss information (S2291, S2292, S2293, S2294, S2295, S2296)

이후, 훈련 장치(2200), 제 1 디코더(231), 제 2 디코더(232), 제 3 디코더(234), 제 1 인코더(611), 제 2 인코더(612) 및 제 3 인코더(614)는 최종 손실 정보가 최소화될 때까지 S2110 내지 S2296 과정을 반복하면서 파라미터를 갱신한다. 이 때, 각 반복 과정 동안 제 1 디코더(231), 제 2 디코더(232), 제 3 디코더(234), 제 1 인코더(611), 제 2 인코더(612) 및 제 3 인코더(614)은 이전 과정에서 갱신된 파라미터에 따라 동작한다. Then, the training device 2200, the first decoder 231, the second decoder 232, the third decoder 234, the first encoder 611, the second encoder 612, and the third encoder 614 Parameters are updated while repeating processes S2110 to S2296 until the final loss information is minimized. At this time, during each iteration process, the first decoder 231, the second decoder 232, the third decoder 234, the first encoder 611, the second encoder 612, and the third encoder 614 It operates according to the parameters updated in the process.

한편, 상술한 본 개시의 실시예들은 컴퓨터에서 실행될 수 있는 프로그램으로 작성가능하고, 작성된 프로그램은 기기로 읽을 수 있는 저장매체에 저장될 수 있다.On the other hand, the above-described embodiments of the present disclosure can be written as a program that can be executed on a computer, and the written program can be stored in a storage medium readable by a device.

기기로 읽을 수 있는 저장매체는, 비일시적(non-transitory) 저장매체의 형태로 제공될 수 있다. 여기서, ‘비일시적 저장매체'는 실재(tangible)하는 장치이고, 신호(signal)(예: 전자기파)를 포함하지 않는다는 것을 의미할 뿐이며, 이 용어는 데이터가 저장매체에 반영구적으로 저장되는 경우와 임시적으로 저장되는 경우를 구분하지 않는다. 예로, '비일시적 저장매체'는 데이터가 임시적으로 저장되는 버퍼를 포함할 수 있다.The device-readable storage medium may be provided in the form of a non-transitory storage medium. Here, 'non-temporary storage medium' only means that it is a tangible device and does not contain signals (e.g., electromagnetic waves), and this term refers to the case where data is stored semi-permanently in the storage medium and temporary It does not discriminate if it is saved as . For example, a 'non-temporary storage medium' may include a buffer in which data is temporarily stored.

일 실시예에 따르면, 본 문서에 개시된 다양한 실시예들에 따른 방법은 컴퓨터 프로그램 제품(computer program product)에 포함되어 제공될 수 있다. 컴퓨터 프로그램 제품은 상품으로서 판매자 및 구매자 간에 거래될 수 있다. 컴퓨터 프로그램 제품은 기기로 읽을 수 있는 저장 매체(예: compact disc read only memory (CD-ROM))의 형태로 배포되거나, 또는 어플리케이션 스토어를 통해 또는 두개의 사용자 장치들(예: 스마트폰들) 간에 직접, 온라인으로 배포(예: 다운로드 또는 업로드)될 수 있다. 온라인 배포의 경우에, 컴퓨터 프로그램 제품(예: 다운로더블 앱(downloadable app))의 적어도 일부는 제조사의 서버, 어플리케이션 스토어의 서버, 또는 중계 서버의 메모리와 같은 기기로 읽을 수 있는 저장 매체에 적어도 일시 저장되거나, 임시적으로 생성될 수 있다.According to one embodiment, the method according to various embodiments disclosed in this document may be provided by being included in a computer program product. Computer program products may be traded between sellers and buyers as commodities. A computer program product is distributed in the form of a device-readable storage medium (eg compact disc read only memory (CD-ROM)), or through an application store or between two user devices (eg smartphones). It can be distributed (e.g., downloaded or uploaded) directly or online. In the case of online distribution, at least a part of a computer program product (eg, a downloadable app) is stored on a device-readable storage medium such as a memory of a manufacturer's server, an application store server, or a relay server. It can be temporarily stored or created temporarily.

이상, 본 개시의 기술적 사상을 바람직한 실시예를 들어 상세하게 설명하였으나, 본 개시의 기술적 사상은 상기 실시예들에 한정되지 않고, 본 개시의 기술적 사상의 범위 내에서 당 분야에서 통상의 지식을 가진 자에 의하여 여러 가지 변형 및 변경이 가능하다.In the above, the technical spirit of the present disclosure has been described in detail with preferred embodiments, but the technical spirit of the present disclosure is not limited to the above embodiments, and those skilled in the art within the scope of the technical spirit of the present disclosure Various modifications and changes are possible by the person.

Claims (19)

AI를 이용하는 크로스 채널 예측(Cross Channel Prediction)에 따라, 영상을 복호화하는 방법에 있어서,
비트스트림으로부터, 크로스 채널 예측을 위한 특징 데이터를 획득하는 단계;
상기 비트스트림으로부터, 현재 영상 내 루마 영상에 대한 특징 데이터 및 현재 영상 내 크로마 영상에 대한 특징 데이터를 획득하는 단계;
신경망 기반의 루마 디코더에 상기 루마 영상에 대한 특징 데이터를 적용하여 상기 루마 영상을 복원하는 단계;
신경망 기반의 크로스 채널 디코더에 상기 크로스 채널 예측을 위한 특징 데이터를 적용하여 크로스 채널 예측 정보를 획득하는 단계;
상기 복원된 루마 영상 및 상기 크로스 채널 예측 정보를 기초로, 크로스 채널 예측(Cross Channel Prediction)을 수행하여, 상기 크로마 영상의 예측 영상을 획득하는 단계;
신경망 기반의 크로마 레지듀얼 디코더에 상기 크로마 영상에 대한 특징 데이터를 적용하여 상기 크로마 영상의 레지듀얼 영상을 획득하는 단계; 및
상기 예측 영상 및 상기 레지듀얼 영상을 기초로, 상기 크로마 영상을 복원하는 단계를 포함하는, 영상 복호화 방법.
In a method of decoding an image according to cross channel prediction using AI,
obtaining feature data for cross-channel prediction from the bitstream;
acquiring feature data of a luma image in the current image and feature data of a chroma image in the current image, from the bitstream;
restoring the luma image by applying feature data of the luma image to a neural network-based luma decoder;
obtaining cross-channel prediction information by applying feature data for cross-channel prediction to a neural network-based cross-channel decoder;
obtaining a predicted image of the chroma image by performing cross-channel prediction based on the reconstructed luma image and the cross-channel prediction information;
obtaining a residual image of the chroma image by applying feature data of the chroma image to a neural network-based chroma residual decoder; and
And restoring the chroma image based on the predicted image and the residual image.
제 1 항에 있어서,
상기 크로스 채널 예측을 위한 특징 데이터, 상기 루마 영상에 대한 특징 데이터 및 상기 크로마 영상에 대한 특징 데이터 중 적어도 하나는, 상기 비트스트림에 대한 엔트로피 복호화 및 역양자화를 통해 획득되는, 영상 복호화 방법.
According to claim 1,
At least one of feature data for cross-channel prediction, feature data for the luma image, and feature data for the chroma image is obtained through entropy decoding and inverse quantization of the bitstream.
제 1 항에 있어서,
상기 신경망 기반의 크로스 채널 디코더는,
현재 훈련 크로마 영상(current training chroma image)과 상기 현재 훈련 크로마 영상에 대응하는 현재 복원 훈련 크로마 영상(current reconstructed training chroma image) 사이의 차이에 대응하는 제 1 손실 정보; 및
상기 현재 훈련 크로마 영상의 크로스 채널 예측을 위한 특징 데이터의 엔트로피에 대응하는 제 2 손실 정보를 기반으로 훈련되는, 영상 복호화 방법.
According to claim 1,
The neural network-based cross-channel decoder,
first loss information corresponding to a difference between a current training chroma image and a current reconstructed training chroma image corresponding to the current training chroma image; and
An image decoding method that is trained based on second loss information corresponding to entropy of feature data for cross-channel prediction of the current training chroma image.
제 1 항에 있어서,
상기 방법은상기 현재 영상의 크로마 서브 샘플링 포맷이 YUV(YCbCr) 4:4:4가 아닌 경우, 상기 복원된 루마 영상에 대한 다운샘플링을 수행하는 단계를 더 포함하고,
상기 크로마 영상의 예측 영상을 획득하는 단계는,
상기 다운샘플링된 루마 영상 및 상기 크로스 채널 예측 정보를 기초로, 크로스 채널 예측을 수행하여, 상기 크로마 영상의 예측 영상을 획득하는 단계를 포함하는 것을 특징으로 하는, 영상 복호화 방법.
According to claim 1,
The method further comprises performing downsampling on the reconstructed luma image when the chroma subsampling format of the current image is not YUV (YCbCr) 4:4:4,
Obtaining a predicted image of the chroma image,
and obtaining a predicted image of the chroma image by performing cross-channel prediction based on the downsampled luma image and the cross-channel prediction information.
제 1 항에 있어서,
상기 방법은
상기 현재 영상의 크로마 서브 샘플링 포맷이 YCbCr 4:4:4가 아닌 경우, 상기 복원된 루마 영상에 대한 공간-뎁스 변환(space-to-depth transformation)을 수행하여 다채널의 루마 영상 데이터를 생성하는 단계를 더 포함하고,
상기 크로마 영상의 예측 영상을 획득하는 단계는,
상기 다채널의 루마 영상 데이터 및 상기 크로스 채널 예측 정보를 기초로, 크로스 채널 예측을 수행하여, 상기 크로마 영상의 예측 영상을 획득하는 단계를 포함하는 것을 특징으로 하는, 영상 복호화 방법.
According to claim 1,
The above method
generating multi-channel luma image data by performing space-to-depth transformation on the reconstructed luma image when the chroma subsampling format of the current image is not YCbCr 4:4:4 Including more steps,
Obtaining a predicted image of the chroma image,
and acquiring a predicted image of the chroma image by performing cross-channel prediction based on the multi-channel luma image data and the cross-channel prediction information.
제 1 항에 있어서,
상기 루마 영상은 Y 컴포넌트의 영상이고, 상기 크로마 영상은 Cb 컴포넌트 및 Cr 컴포넌트 중 적어도 하나의 영상인 것을 특징으로 하는, 영상 복호화 방법.
According to claim 1,
The image decoding method, characterized in that the luma image is an image of a Y component, and the chroma image is an image of at least one of a Cb component and a Cr component.
제 1 항에 있어서,
신경망 기반의 크로스 채널 디코더에 상기 크로스 채널 예측을 위한 특징 데이터를 적용하여 크로스 채널 예측 정보를 획득하는 단계는,
신경망 기반의 크로스 채널 디코더에 상기 크로스 채널 예측을 위한 특징 데이터 및 상기 루마 영상에 대한 특징 데이터를 적용하여 크로스 채널 예측 정보를 획득하는 단계를 포함하는 것을 특징으로 하는, 영상 복호화 방법.
According to claim 1,
Obtaining cross-channel prediction information by applying feature data for cross-channel prediction to a neural network-based cross-channel decoder,
and obtaining cross-channel prediction information by applying feature data for cross-channel prediction and feature data for the luma image to a neural network-based cross-channel decoder.
제 1 항에 있어서,
상기 신경망 기반의 크로마 레지듀얼 디코더에 상기 크로마 영상에 대한 특징 데이터를 적용하여 상기 크로마 영상의 레지듀얼 영상을 획득하는 단계는,
상기 신경망 기반의 크로마 레지듀얼 디코더에 상기 루마 영상에 대한 특징 데이터 및 상기 크로스 채널 예측을 위한 특징 데이터 중 적어도 하나를 더 적용하여 상기 크로마 영상의 레지듀얼 영상을 획득하는 단계를 포함하는 것을 특징으로 하는, 영상 복호화 방법.
According to claim 1,
The step of obtaining a residual image of the chroma image by applying feature data of the chroma image to the neural network-based chroma residual decoder,
Acquiring a residual image of the chroma image by further applying at least one of feature data for the luma image and feature data for cross-channel prediction to the neural network-based chroma residual decoder. , Video decoding method.
제 1 항에 있어서,
상기 크로스 채널 예측 정보는, 스케일 파라미터 및 바이어스 파라미터에 관한 정보를 포함하는 것을 특징으로 하는, 영상 복호화 방법.
According to claim 1,
The cross-channel prediction information includes information on a scale parameter and a bias parameter.
제1항의 방법을 컴퓨터에서 수행하기 위한 프로그램이 기록된 컴퓨터로 읽을 수 있는 기록매체.
A computer-readable recording medium on which a program for performing the method of claim 1 is recorded on a computer.
AI를 이용하는 크로스 채널 예측(Cross Channel Prediction)에 따라, 영상을 복호화하는 장치에 있어서,
비트스트림으로부터, 크로스 채널 예측을 위한 특징 데이터를 획득하고,
상기 비트스트림으로부터, 현재 영상 내 루마 영상에 대한 특징 데이터 및 현재 영상 내 크로마 영상에 대한 특징 데이터를 획득하는 획득부; 및
신경망 기반의 루마 디코더에 상기 루마 영상에 대한 특징 데이터를 적용하여 상기 루마 영상을 복원하고,
신경망 기반의 크로스 채널 디코더에 상기 크로스 채널 예측을 위한 데이터를 적용하여 크로스 채널 예측 정보를 획득하고, 상기 복원된 루마 영상 및 상기 크로스 채널 예측 정보를 기초로, 크로스 채널 예측을 수행하여, 상기 크로마 영상의 예측 영상을 획득하고,
신경망 기반의 크로마 레지듀얼 디코더에 상기 크로마 영상에 대한 특징 데이터를 적용하여 상기 크로마 영상의 레지듀얼 영상을 획득하고,
상기 크로마 영상의 예측 영상 및 상기 크로마 영상의 레지듀얼 영상을 기초로, 상기 크로마 영상을 복원하는 영상 복호화부를 포함하는, 영상 복호화 장치.
An apparatus for decoding an image according to cross channel prediction using AI,
From the bitstream, obtain feature data for cross-channel prediction;
an acquisition unit which obtains feature data of a luma image in a current image and feature data of a chroma image in a current image, from the bitstream; and
Reconstructing the luma image by applying feature data of the luma image to a neural network-based luma decoder;
Cross-channel prediction information is obtained by applying the cross-channel prediction data to a neural network-based cross-channel decoder, cross-channel prediction is performed based on the reconstructed luma image and the cross-channel prediction information, and the chroma image is obtained. Acquiring a prediction image of
Acquiring a residual image of the chroma image by applying feature data of the chroma image to a neural network-based chroma residual decoder;
and an image decoding unit configured to reconstruct the chroma image based on a predicted image of the chroma image and a residual image of the chroma image.
AI를 이용하는 크로스 채널 예측에 따라, 영상을 부호화하는 방법에 있어서,
현재 원본 영상 내 원본 루마 영상을 신경망 기반의 루마 인코더에 적용하여 현재 영상 내 루마 영상에 대한 특징 데이터를 획득하고, 상기 루마 영상에 대한 특징 데이터를 신경망 기반의 루마 디코더에 적용하여 상기 루마 영상을 복원하는 단계;
상기 복원된 루마 영상 및 상기 현재 원본 영상 내 원본 크로마 영상을 신경망 기반의 크로스 채널 인코더에 적용하여, 크로스 채널 예측을 위한 특징 데이터를 획득하고,
상기 획득된 크로스 채널 예측을 위한 특징 데이터를 신경망 기반의 크로스 채널 디코더에 적용하여 상기 크로스 채널 예측 정보를 획득하는 단계;
상기 복원된 루마 영상 및 상기 크로스 채널 예측 정보를 기초로, 크로스 채널 예측을 수행하여 상기 크로마 영상의 예측 영상을 획득하는 단계;
상기 원본 크로마 영상 및 상기 크로마 영상의 예측 영상에 기반하여 획득된 상기 크로마 영상의 레지듀얼 영상을 신경망에 기반한 크로마 레지듀얼 인코더에 적용하여 상기 크로마 영상에 대한 특징 데이터를 획득하는 단계; 및
상기 루마 영상에 대한 특징 데이터, 상기 크로마 영상에 대한 특징 데이터 및 상기 크로스 채널 예측을 위한 특징 데이터를 포함하는 비트스트림을 생성하는 단계를 포함하는, 영상 부호화 방법.
In the method of encoding an image according to cross-channel prediction using AI,
The original luma image in the current original image is applied to a neural network-based luma encoder to obtain feature data of the luma image in the current image, and the luma image is restored by applying the feature data of the luma image to a neural network-based luma decoder. doing;
Applying the reconstructed luma image and the original chroma image in the current original image to a neural network-based cross-channel encoder to obtain feature data for cross-channel prediction;
obtaining the cross-channel prediction information by applying the acquired feature data for cross-channel prediction to a neural network-based cross-channel decoder;
obtaining a predicted image of the chroma image by performing cross-channel prediction based on the reconstructed luma image and the cross-channel prediction information;
obtaining feature data of the chroma image by applying a residual image of the chroma image obtained based on the original chroma image and a predicted image of the chroma image to a chroma residual encoder based on a neural network; and
And generating a bitstream including feature data for the luma image, feature data for the chroma image, and feature data for the cross-channel prediction.
제 12 항에 있어서,
상기 크로스 채널 예측을 위한 특징 데이터, 상기 루마 영상에 대한 특징 데이터 및 상기 크로마 영상에 대한 특징 데이터 중 적어도 하나는 양자화 및 엔트로피 부호화된 것을 특징으로 하는, 영상 부호화 방법.
According to claim 12,
Characterized in that, at least one of feature data for cross-channel prediction, feature data for the luma image, and feature data for the chroma image is quantized and entropy-coded.
제 12 항에 있어서,
상기 신경망 기반의 크로스 채널 인코더는,
현재 훈련 크로마 영상(current training chroma image)과 상기 현재 훈련 크로마 영상에 대응하는 현재의 복원 훈련 크로마 영상(current reconstructed training chroma image) 사이의 차이에 대응하는 제 1 손실 정보; 및
상기 현재 훈련 크로마 영상의 크로스 채널 예측을 위한 특징 데이터의 엔트로피에 대응하는 제 2 손실 정보를 기반으로 훈련되는, 영상 부호화 방법.
According to claim 12,
The neural network-based cross-channel encoder,
first loss information corresponding to a difference between a current training chroma image and a current reconstructed training chroma image corresponding to the current training chroma image; and
An image encoding method that is trained based on second loss information corresponding to entropy of feature data for cross-channel prediction of the current training chroma image.
제 12 항에 있어서,
상기 방법은
상기 현재 영상의 크로마 서브 샘플링 포맷이 YCbCr 4:4:4가 아닌 경우, 상기 복원된 루마 영상에 대한 다운샘플링을 수행하는 단계를 더 포함하고,
상기 크로마 영상의 예측 영상을 획득하는 단계는,
상기 다운샘플링된 루마 영상 및 상기 크로스 채널 예측 정보를 기초로, 크로스 채널 예측을 수행하여, 상기 크로마 영상의 예측 영상을 획득하는 단계를 포함하는 것을 특징으로 하는, 영상 부호화 방법.
According to claim 12,
The above method
performing downsampling on the reconstructed luma image when the chroma subsampling format of the current image is not YCbCr 4:4:4;
Obtaining a predicted image of the chroma image,
and obtaining a predicted image of the chroma image by performing cross-channel prediction based on the downsampled luma image and the cross-channel prediction information.
제 12 항에 있어서,
상기 방법은
상기 현재 영상의 크로마 서브 샘플링 포맷이 YCbCr 4:4:4가 아닌 경우, 상기 복원된 루마 영상에 대한 공간-뎁스 변환(space-to-depth transformation)을 수행하여 다채널의 루마 영상 데이터를 생성하는 단계를 더 포함하고,
상기 크로마 영상의 예측 영상을 획득하는 단계는,
상기 다채널의 루마 영상 데이터 및 상기 크로스 채널 예측 정보를 기초로, 크로스 채널 예측을 수행하여, 상기 크로마 영상의 예측 영상을 획득하는 단계를 포함하는 것을 특징으로 하는, 영상 부호화 방법.
According to claim 12,
The above method
generating multi-channel luma image data by performing space-to-depth transformation on the reconstructed luma image when the chroma subsampling format of the current image is not YCbCr 4:4:4 Including more steps,
Obtaining a predicted image of the chroma image,
and obtaining a predicted image of the chroma image by performing cross-channel prediction based on the multi-channel luma image data and the cross-channel prediction information.
제 12 항에 있어서,
신경망 기반의 크로스 채널 디코더에 상기 크로스 채널 예측을 위한 특징 데이터를 적용하여 크로스 채널 예측 정보를 획득하는 단계는,
신경망 기반의 크로스 채널 디코더에 상기 크로스 채널 예측을 위한 데이터 및 상기 루마 영상에 대한 특징 데이터를 적용하여 크로스 채널 예측 정보를 획득하는 단계를 포함하는 것을 특징으로 하는, 영상 부호화 방법.
According to claim 12,
Obtaining cross-channel prediction information by applying feature data for cross-channel prediction to a neural network-based cross-channel decoder,
and obtaining cross-channel prediction information by applying the cross-channel prediction data and the feature data of the luma image to a neural network-based cross-channel decoder.
제 12 항에 있어서,
상기 신경망 기반의 크로마 레지듀얼 디코더에 상기 크로마 영상에 대한 특징 데이터를 적용하여 상기 크로마 영상의 레지듀얼 영상을 획득하는 단계를 더 포함하고,
상기 신경망 기반의 크로마 레지듀얼 디코더에 상기 크로마 영상에 대한 특징 데이터를 적용하여 상기 크로마 영상의 레지듀얼 영상을 획득하는 단계는
상기 신경망 기반의 크로마 레지듀얼 디코더에 상기 루마 영상에 대한 특징 데이터 및 상기 크로스 채널 예측을 위한 특징 데이터 중 적어도 하나를 더 적용하여 상기 크로마 영상의 레지듀얼 영상을 획득하는 단계를 포함하는 것을 특징으로 하는, 영상 부호화 방법.
According to claim 12,
Acquiring a residual image of the chroma image by applying feature data of the chroma image to the neural network-based chroma residual decoder;
Acquiring a residual image of the chroma image by applying feature data of the chroma image to the neural network-based chroma residual decoder
Acquiring a residual image of the chroma image by further applying at least one of feature data for the luma image and feature data for cross-channel prediction to the neural network-based chroma residual decoder. , video encoding method.
AI를 이용하는 크로스 채널 예측에 따라, 영상을 부호화하는 장치에 있어서,
현재 원본 영상 내 원본 루마 영상을 신경망 기반의 루마 인코더에 적용하여 현재 영상 내 루마 영상에 대한 특징 데이터를 획득하고, 상기 루마 영상에 대한 특징 데이터를 신경망 기반의 루마 디코더에 적용하여 상기 루마 영상을 복원하고,
상기 복원된 루마 영상 및 상기 현재 원본 영상 내 원본 크로마 영상을 신경망 기반의 크로스 채널 인코더에 적용하여 크로스 채널 예측을 위한 특징 정보를 획득하고,
상기 획득된 크로스 채널 예측을 위한 특징 정보를 신경망 기반의 크로스 채널 디코더에 적용하여 상기 크로스 채널 예측 정보를 획득하고,
상기 복원된 루마 영상 및 상기 크로스 채널 예측 정보를 기초로, 크로스 채널 예측을 수행하여 상기 크로마 영상의 예측 영상을 획득하고,
상기 원본 크로마 영상 및 상기 크로마 영상의 예측 영상에 기반하여 획득된 상기 크로마 영상의 레지듀얼 영상을 신경망에 기반한 크로마 레지듀얼 인코더에 적용하여 상기 크로마 영상에 대한 특징 데이터를 획득하는 부호화부를 포함하고,
상기 루마 영상에 대한 특징 데이터, 상기 크로마 영상에 대한 특징 데이터 및 상기 크로스 채널 예측을 위한 특징 데이터를 포함하는 비트스트림을 생성하는 비트스트림 생성부를 포함하는, 영상 부호화 장치.
An apparatus for encoding an image according to cross-channel prediction using AI,
The original luma image in the current original image is applied to a neural network-based luma encoder to obtain feature data of the luma image in the current image, and the luma image is restored by applying the feature data of the luma image to a neural network-based luma decoder. do,
Applying the reconstructed luma image and the original chroma image in the current original image to a neural network-based cross-channel encoder to obtain feature information for cross-channel prediction;
Obtaining the cross-channel prediction information by applying the acquired feature information for cross-channel prediction to a neural network-based cross-channel decoder;
Obtaining a predicted image of the chroma image by performing cross-channel prediction based on the reconstructed luma image and the cross-channel prediction information;
An encoder configured to acquire feature data of the chroma image by applying a residual image of the chroma image obtained based on the original chroma image and a predicted image of the chroma image to a chroma residual encoder based on a neural network;
and a bitstream generator configured to generate a bitstream including feature data for the luma image, feature data for the chroma image, and feature data for cross-channel prediction.
KR1020210188870A 2021-08-06 2021-12-27 Artificial intelligence based encoding apparatus and decoding apparatus of image, and method thereby KR20230022085A (en)

Priority Applications (4)

Application Number Priority Date Filing Date Title
PCT/KR2022/011070 WO2023013966A1 (en) 2021-08-06 2022-07-27 Ai-based image encoding and decoding device, and method performed thereby
EP22853344.4A EP4354871A1 (en) 2021-08-06 2022-07-27 Ai-based image encoding and decoding device, and method performed thereby
CN202280054487.4A CN117837146A (en) 2021-08-06 2022-07-27 AI-based image encoding and decoding apparatus and method of performing the same
US17/882,293 US20230041187A1 (en) 2021-08-06 2022-08-05 Artificial intelligence-based image encoding apparatus and method and decoding apparatus and method

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020210104201 2021-08-06
KR20210104201 2021-08-06

Publications (1)

Publication Number Publication Date
KR20230022085A true KR20230022085A (en) 2023-02-14

Family

ID=85221078

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020210188870A KR20230022085A (en) 2021-08-06 2021-12-27 Artificial intelligence based encoding apparatus and decoding apparatus of image, and method thereby

Country Status (1)

Country Link
KR (1) KR20230022085A (en)

Similar Documents

Publication Publication Date Title
KR101901355B1 (en) Method and apparatus for performing graph-based prediction using optimazation function
US11432012B2 (en) Method and apparatus for encoding and decoding digital images or video streams
US9438920B2 (en) Picture encoding method, picture encoding apparatus, picture decoding method and picture decoding apparatus
US10841586B2 (en) Processing partially masked video content
EP3022845A1 (en) Encoder and decoder, and method of operation
KR102113904B1 (en) Encoder, decoder and method of operation using interpolation
JP2014007469A (en) Image coding device and image coding method
EP4250729A1 (en) Ai-based image encoding and decoding apparatus, and method by same
US11863756B2 (en) Image encoding and decoding apparatus and method using artificial intelligence
KR20230022085A (en) Artificial intelligence based encoding apparatus and decoding apparatus of image, and method thereby
EP4354871A1 (en) Ai-based image encoding and decoding device, and method performed thereby
JP6557483B2 (en) Encoding apparatus, encoding system, and program
US20230044603A1 (en) Apparatus and method for applying artificial intelligence-based filtering to image
US20230145525A1 (en) Image encoding apparatus and image decoding apparatus both using artificial intelligence, and image encoding method and image decoding method performed by the image encoding apparatus and the image decoding apparatus
CN117837146A (en) AI-based image encoding and decoding apparatus and method of performing the same
US20240048711A1 (en) Artificial intelligence based video decoding apparatus and video decoding method and artificial intelligence based video encoding apparatus and video encoding method which perform chroma component prediction
US20230247212A1 (en) Device and method for encoding and decoding image using ai
US20240073425A1 (en) Image encoding apparatus and image decoding apparatus both based on artificial intelligence, and image encoding method and image decoding method performed by the image encoding apparatus and the image decoding apparatus
KR20220120436A (en) Artificial intelligence based encoding apparatus and decoding apparatus of image, and method thereby
EP4322057A1 (en) Electronic device for playing back image on basis of ai in accordance with application, and method for playing back image by means of same
KR20230067492A (en) Image encoding apparatus and image decoding apparatus using artificial intelligence, and method for encoding and decondg image thereby
KR20230041601A (en) Apparatus and method for encoding and decodng image using artificial intelligence
JP6846134B2 (en) Video coding device and video decoding device
CN118318248A (en) Image encoding apparatus and image decoding apparatus using AI, and method of encoding and decoding image by the same
KR20230022093A (en) Apparatus and method for applying artificial intelligence based filtering on image