KR102484999B1 - Image compression system and method based on Neural Network - Google Patents

Image compression system and method based on Neural Network Download PDF

Info

Publication number
KR102484999B1
KR102484999B1 KR1020210071114A KR20210071114A KR102484999B1 KR 102484999 B1 KR102484999 B1 KR 102484999B1 KR 1020210071114 A KR1020210071114 A KR 1020210071114A KR 20210071114 A KR20210071114 A KR 20210071114A KR 102484999 B1 KR102484999 B1 KR 102484999B1
Authority
KR
South Korea
Prior art keywords
image
error
image compression
coefficient
loss function
Prior art date
Application number
KR1020210071114A
Other languages
Korean (ko)
Other versions
KR20220162546A (en
Inventor
류은석
이순빈
정종범
Original Assignee
성균관대학교산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 성균관대학교산학협력단 filed Critical 성균관대학교산학협력단
Priority to KR1020210071114A priority Critical patent/KR102484999B1/en
Publication of KR20220162546A publication Critical patent/KR20220162546A/en
Application granted granted Critical
Publication of KR102484999B1 publication Critical patent/KR102484999B1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T9/00Image coding
    • G06T9/002Image coding using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • General Physics & Mathematics (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Compression Of Band Width Or Redundancy In Fax (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

본 발명에 의한 신경망 기반의 이미지 압축 방법은 이미지 압축 모델을 기반으로 입력 이미지를 부호화하여 압축 이미지를 생성하는 단계, 이미지 압축 모델을 기반으로 압축 이미지를 복호화하여 복원 이미지를 생성하는 단계, 입력 이미지의 주파수 도메인과 복원 이미지 간의 주파수 도메인 간의 편차에 기반하여 오차를 산출하는 단계, 및 오차에 기초하여 이미지 압축 모델의 가중치를 업데이트하는 단계를 포함한다.A neural network-based image compression method according to the present invention includes generating a compressed image by encoding an input image based on an image compression model, generating a restored image by decoding the compressed image based on the image compression model, Calculating an error based on a deviation between the frequency domain and the reconstructed image in the frequency domain, and updating weights of the image compression model based on the error.

Description

신경망 기반의 이미지 압축 방법 및 시스템{Image compression system and method based on Neural Network}Image compression system and method based on Neural Network}

본 발명은 신경망 기반의 이미지 압축 방법 및 시스템에 관한 것으로 이미지 압축 과정에서 화질을 개선할 수 있는 이미지 압축 방법 및 시스템에 관한 것이다.The present invention relates to a neural network-based image compression method and system, and relates to an image compression method and system capable of improving image quality in an image compression process.

인공지능의 발달과 더불어, 인공지능은 이미지를 분류하고 판단하는 작업을 수행하는 빈도가 높아지고 있다. 인공지능 시스템은 이미지를 학습하기 위해서 JPEG(Joint Photographic Experts Group)과 같이 압축된 이미지 데이터를 제공받는 것이 일반적이다. With the development of artificial intelligence, the frequency of artificial intelligence classifying and judging images is increasing. It is common for artificial intelligence systems to receive compressed image data such as JPEG (Joint Photographic Experts Group) to learn images.

인공지능과 사물인터넷(Internet of Things; IoT) 기기에서의 딥러닝 정확도와 추론 속도 향상을 위하여 종래의 JPEG 압축 방식보다 효율적인 입력 데이터의 압축 및 처리가 요구된다.In order to improve deep learning accuracy and inference speed in artificial intelligence and Internet of Things (IoT) devices, more efficient input data compression and processing than conventional JPEG compression methods are required.

본 발명은 이미지 압축 효율 및 정확도를 높일 수 있는 신경망 기반의 이미지 압축 방법 및 시스템을 제공하기 위한 것이다.The present invention is to provide a neural network-based image compression method and system capable of increasing image compression efficiency and accuracy.

본 발명에 의한 신경망 기반의 이미지 압축 방법은 이미지 압축 모델을 기반으로 입력 이미지를 부호화하여 압축 이미지를 생성하는 단계, 이미지 압축 모델을 기반으로 압축 이미지를 복호화하여 복원 이미지를 생성하는 단계, 입력 이미지의 주파수 도메인과 복원 이미지 간의 주파수 도메인 간의 편차에 기반하여 오차를 산출하는 단계, 및 오차에 기초하여 이미지 압축 모델의 가중치를 업데이트하는 단계를 포함한다.A neural network-based image compression method according to the present invention includes generating a compressed image by encoding an input image based on an image compression model, generating a restored image by decoding the compressed image based on the image compression model, Calculating an error based on a deviation between the frequency domain and the reconstructed image in the frequency domain, and updating weights of the image compression model based on the error.

본 발명은 입력 이미지와 복원 이미지 간의 픽셀 오차와 더불어 입력 이미지의 주파수 도메인과 복원 이미지의 주파수 도메인의 편차에 기초한 오차값을 반영하여 이미지 압축 모델의 가중치를 설정하기 때문에 보다 정확한 이미지 압축 모델 및 시스템을 구현할 수 있다.The present invention sets the weights of an image compression model by reflecting an error value based on a difference between a frequency domain of an input image and a frequency domain of a reconstructed image as well as a pixel error between an input image and a reconstructed image, thereby providing a more accurate image compression model and system. can be implemented

도 1은 본 발명의 실시 예에 의한 신경망 기반의 이미지 압축 시스템을 나타내는 도면이다.
도 2는 본 발명의 실시 예에 의한 신경망 기반의 이미지 압축 방법을 나타내는 순서도이다.
도 3은 이미지 압축 모델의 실시 예를 나타내는 도면이다.
도 4는 본 명세서의 실시 예에 의한 이미지 압축 시스템을 사용하여 이미지를 압축한 시뮬레이션 결과를 나타내는 도면이다.
1 is a diagram illustrating an image compression system based on a neural network according to an embodiment of the present invention.
2 is a flowchart illustrating a neural network-based image compression method according to an embodiment of the present invention.
3 is a diagram illustrating an embodiment of an image compression model.
4 is a diagram showing a simulation result of compressing an image using an image compression system according to an embodiment of the present specification.

본 명세서의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나 본 명세서는 이하에서 개시되는 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 것이며, 단지 본 실시예들은 본 명세서의 개시가 완전하도록 하며, 본 명세서가 속하는 기술 분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 명세서는 청구항의 범주에 의해 정의될 뿐이다. Advantages and features of this specification, and methods of achieving them, will become clear with reference to embodiments described below in detail in conjunction with the accompanying drawings. However, this specification is not limited to the embodiments disclosed below, but will be implemented in a variety of different forms, and only these embodiments make the disclosure of this specification complete, and the common knowledge in the technical field to which this specification belongs. It is provided to fully inform the owner of the scope of the invention, and this specification is only defined by the scope of the claims.

본 명세서의 여러 실시예들의 각각 특징들이 부분적으로 또는 전체적으로 서로 결합 또는 조합 가능하고, 기술적으로 다양한 연동 및 구동이 가능하며, 각 실시예들이 서로에 대하여 독립적으로 실시 가능할 수도 있고 연관 관계로 함께 실시할 수도 있다.Each feature of the various embodiments of the present specification can be partially or entirely combined or combined with each other, technically various interlocking and driving are possible, and each embodiment can be implemented independently of each other or can be implemented together in an association relationship. may be

도 1은 본 발명의 실시 예에 의한 신경망 기반의 이미지 압축 시스템을 나타내는 도면이다. 1 is a diagram illustrating an image compression system based on a neural network according to an embodiment of the present invention.

도 1을 참조하면, 본 발명의 실시 예에 의한 신경망 기반이 이미지 압축 시스템은 이미지 변환부(100), 계산부(110) 및 결정부(120)를 포함한다. Referring to FIG. 1 , a neural network-based image compression system according to an embodiment of the present invention includes an image conversion unit 100, a calculation unit 110, and a determination unit 120.

이미지 변환부(100)는 이미지 압축 모델을 기반으로 입력 이미지를 부호화하여 압축 이미지를 생성하고, 이미지 압축 모델을 기반으로 압축 이미지를 복호화하여 복원 이미지를 생성한다.The image conversion unit 100 generates a compressed image by encoding an input image based on an image compression model, and generates a restored image by decoding the compressed image based on the image compression model.

계산부(110)는 입력 이미지의 주파수 도메인과 복원 이미지 간의 주파수 도메인 간의 편차에 기반하여 오차를 산출한다.The calculation unit 110 calculates an error based on a deviation between the frequency domain of the input image and the frequency domain of the reconstructed image.

결정부(120)는 오차에 기초하여 이미지 압축 모델의 가중치를 업데이트한다.The decision unit 120 updates the weight of the image compression model based on the error.

도 2는 본 발명의 실시 예에 의한 신경망 기반의 이미지 압축 방법을 나타내는 순서도이다. 2 is a flowchart illustrating a neural network-based image compression method according to an embodiment of the present invention.

도 1 및 도 2를 참조하여 본 발명의 실시 예에 의한 신경망 기반의 이미지 압축 방법을 살펴보면 다음과 같다. A neural network-based image compression method according to an embodiment of the present invention will be described with reference to FIGS. 1 and 2 .

제1 단계(S200) 및 제2 단계(S210)에서, 이미지 변환부(100)는 이미지 압축 모델을 기반으로 입력 이미지를 부호화하여 압축 이미지를 생성한다. In the first step (S200) and the second step (S210), the image conversion unit 100 generates a compressed image by encoding the input image based on the image compression model.

이미지 압축 모델은 도 3에 도시된 바와 같이, 컨볼루션 신경 네트워크(Convolutional Neural Network; 이하, CNN) 기반으로 구현될 수 있다. As shown in FIG. 3 , the image compression model may be implemented based on a convolutional neural network (CNN).

도 3을 참조하면, 입력 이미지는 (M×N×d)의 벡터로 표현될 수 있다. 이때, M은 입력 이미지의 높이에 해당하고, N은 폭에 해당하며, d는 뎁스(depth)를 지칭한다. 뎁스는 하나의 픽셀을 구성하는 서브픽셀일 수 있으며, 예를 들어 삼원색에 해당하는 R,G,B 각각의 채널을 지칭하는 "3"이 될 수 있다. Referring to FIG. 3 , an input image may be expressed as a vector of (M×N×d). In this case, M corresponds to the height of the input image, N corresponds to the width, and d refers to the depth. Depth may be a sub-pixel constituting one pixel, and may be, for example, "3" indicating each of R, G, and B channels corresponding to the three primary colors.

CNN은 컨볼루션 레이어(Convolution), 정류화 선형 유닛(Rectified Linear Unit; 이하, ReLU) 및 풀링 레이어(Pooling)가 반복되는 다층 구조로 구현될 수 있다. A CNN may be implemented as a multilayer structure in which a convolution layer, a rectified linear unit (hereinafter, ReLU), and a pooling layer are repeated.

컨볼루션 레이어는 이미지의 특성(feature)을 추출하는 하나 이상의 필터로 구성된다. 필터는 커널로 지칭된다. 각각의 필터들은 입력 이미지에 대한 합성곱 연산을 수행한다. 필터의 개수에 비례하여 출력의 채널 수는 증가하고, 필터의 크기와 이동 간격에 따라 컨볼루션 레이어의 출력은 입력보다 크기가 작아진다. A convolutional layer consists of one or more filters that extract features from an image. A filter is referred to as a kernel. Each filter performs a convolution operation on an input image. The number of output channels increases in proportion to the number of filters, and the output of the convolution layer becomes smaller than the input according to the filter size and movement interval.

컨볼루션 레이어는 특성맵을 출력하고, 특성맵의 각 채널은 각각의 필터들이 찾는 특성을 얼마나 보유하는지에 대한 정보를 포함한다. The convolution layer outputs a feature map, and each channel of the feature map includes information on how many features each filter is looking for.

정류화 선형 유닛(Rectified Linear Unit; 이하, ReLU)은 활성화 함수의 한 종류로써, 네트워크에 비선형성을 추가하여 비선형 문제를 해결한다. ReLU는 음수 값을 0에 매핑하고 양수 값을 유지하여 더 빠르고 효과적인 학습을 가능하도록 하며, 이때 활성화된 특징만을 다음 계층으로 전달한다. ReLU는 동시에 모든 뉴런을 활성화하지 않기 때문에 시간당 활성화되는 뉴런이 적어서 활성화 기능에 효율적이다. A rectified linear unit (hereinafter, ReLU) is a type of activation function and solves a nonlinear problem by adding nonlinearity to a network. ReLU maps negative values to 0 and maintains positive values to enable faster and more effective learning, while passing only activated features to the next layer. Since ReLU does not activate all neurons at the same time, fewer neurons are activated per time, so it is efficient in its activation function.

풀링 레이어는 비선형 다운 샘플링을 수행하고 네트워크에서 학습해야 하는 매개변수의 개수를 줄여서 출력을 간소화한다. 풀링 레이어는 연산의 종류에 따라 맥스 풀링과 평균 풀링 방식으로 구분될 수 있다. The pooling layer simplifies the output by performing non-linear downsampling and reducing the number of parameters the network has to learn. The pooling layer can be divided into max pooling and average pooling depending on the type of operation.

완전연결계층(Fully connected layer)는 이미지 분류를 수행한다. 완전연결계층의 입력으로 사용되기 위해서 특성맵은 1차원으로 변환된다. 완전연결계층은 학습된 가중치 파라미터를 사용하여 입력 이미지가 속하는 클래스(class)를 분류한다.A fully connected layer performs image classification. In order to be used as an input of the fully connected layer, the feature map is converted to one-dimensional. The fully connected layer classifies the class to which the input image belongs using the learned weight parameter.

제3 단계(S220)에서, 이미지 변환부(100)는 이미지 압축 모델을 기반으로 압축 이미지를 복호화하여 복원 이미지를 생성한다.In a third step (S220), the image conversion unit 100 generates a restored image by decoding the compressed image based on the image compression model.

제4 단계(S230)에서, 계산부(110)는 입력 이미지의 제1 주파수 도메인과 복원 이미지의 제2 주파수 도메인 간의 편차에 기반하여 오차를 산출한다.In a fourth step (S230), the calculation unit 110 calculates an error based on a deviation between the first frequency domain of the input image and the second frequency domain of the reconstructed image.

제1 주파수 도메인과 제2 주파수 도메인 간의 편차는 이산코사인 변환(discrete cosine transform; 이하, DCT)을 기반으로 산출될 수 있다. 즉, 계산부(110)는 입력 이미지를 이산코사인 변환하여 제1 계수를 생성하고, 복원 이미지를 이산코사인 변환하여 제2 계수를 생성한다.The deviation between the first frequency domain and the second frequency domain may be calculated based on a discrete cosine transform (DCT). That is, the calculation unit 110 generates a first coefficient by performing a discrete cosine transform on the input image, and generates a second coefficient by performing a discrete cosine transform on the reconstructed image.

이산코사인 변환은 다음의 [수학식 1]을 바탕으로 산출될 수 있다. The discrete cosine transform can be calculated based on the following [Equation 1].

[수학식 1][Equation 1]

Figure 112021063468992-pat00001
Figure 112021063468992-pat00001

그리고, 계산부(110)는 제1 계수 및 상기 제2 계수 간의 편차에 기반하여 오차를 산출할 수 있다. Also, the calculator 110 may calculate an error based on a deviation between the first coefficient and the second coefficient.

오차는 최종 손실함수를 결정하는 파라미터에 해당하며, 최종 손실함수는 이미지 압축 모델의 가중치를 결정하는 기준이 된다. The error corresponds to a parameter that determines the final loss function, and the final loss function becomes a criterion for determining the weight of the image compression model.

최종 손실함수(Ltotal)는 다음의 [수학식 2]를 바탕으로 산출될 수 있다.The final loss function (Ltotal) can be calculated based on the following [Equation 2].

[수학식 2][Equation 2]

Figure 112021063468992-pat00002
Figure 112021063468992-pat00002

이때, L은 제1 손실함수이며, LDCT는 제2 손실함수이다.

Figure 112021063468992-pat00003
는 최종 손실함수의 조절 파라미터이며, 제1 계수 및 제2 계수 간의 편차를 반영하는 정도에 따라서 미리 결정될 수 있다.At this time, L is the first loss function, and L DCT is the second loss function.
Figure 112021063468992-pat00003
Is an adjustment parameter of the final loss function, and may be determined in advance according to a degree of reflecting the deviation between the first coefficient and the second coefficient.

제1 손실함수(L)는 다음의 [수학식 3]을 바탕으로 산출될 수 있다.The first loss function (L) can be calculated based on the following [Equation 3].

[수학식 3][Equation 3]

Figure 112021063468992-pat00004
Figure 112021063468992-pat00004

이때, "

Figure 112021063468992-pat00005
"는 손실함수 조절 파라미터에 해당하고, "D"는 픽셀 오차에 해당한다. "R"은 부호화된 비트스트림의 엔트로피를 나타낸다. 픽셀 오차(D)는 입력 이미지의 픽셀 데이터와 복원 이미지의 픽셀 데이터 간의 평균 제곱 오차를 의미한다.At this time, "
Figure 112021063468992-pat00005
" corresponds to the loss function adjustment parameter, and "D" corresponds to the pixel error. "R" represents the entropy of the encoded bitstream. The pixel error (D) is the pixel data of the input image and the pixel data of the reconstructed image. mean square error between

픽셀 오차(D)는 최대 신호 대 잡음비(peak signal-to-noise ratio; 이하, PSNR)로 산출될 수도 있다. PSNR은 신호가 가질 수 있는 최대 전력에 대한 잡음의 전력을 나타내며, 다음의 [수학식 4]와 같이 산출된다.The pixel error D may be calculated as a peak signal-to-noise ratio (PSNR). PSNR represents the power of noise relative to the maximum power that a signal can have, and is calculated as in [Equation 4] below.

 [수학식 4][Equation 4]

Figure 112021063468992-pat00006
Figure 112021063468992-pat00006

제2 손실함수(LDCT)는 다음의 [수학식 5]와 같이 평균 제곱 오차(Mean Square Error; MSE)를 바탕으로 산출될 수 있다. The second loss function (L DCT ) may be calculated based on the mean square error (MSE) as shown in [Equation 5] below.

[수학식 5][Equation 5]

Figure 112021063468992-pat00007
Figure 112021063468992-pat00007

이때,

Figure 112021063468992-pat00008
는 제1 계수를 지칭하고,
Figure 112021063468992-pat00009
는 제2 계수를 지칭한다.At this time,
Figure 112021063468992-pat00008
denotes the first coefficient,
Figure 112021063468992-pat00009
denotes the second coefficient.

제5 단계(S250)에서, 결정부(120)는 이와 같이 생성된 최종 손실함수(Ltotal)에 기초하여, 이미지 압축 모델의 가중치(w)를 결정한다. 결정부(120)는 최종 손실함수(Ltotal)의 손실 값이 줄어들도록 가중치(w)를 업데이트할 수 있다. In a fifth step (S250), the determination unit 120 determines the weight (w) of the image compression model based on the final loss function (Ltotal) generated in this way. The determiner 120 may update the weight w such that the loss value of the final loss function Ltotal decreases.

결정부(120)는 가중치(w)를 업데이트하는 과정에서, 주파수 도메인 변화인 DCT의 계수를 고려하여 가중치를 업데이트할 수 있다. In the process of updating the weight w, the determiner 120 may update the weight by considering the DCT coefficient, which is a change in the frequency domain.

아래의 [수학식 6], [수학식 7] 및 [수학식 8]은 가중치를 업데이트하기위한 선형 결합의 실시 예를 나타내는 수학식들이다.[Equation 6], [Equation 7], and [Equation 8] below are equations representing an embodiment of linear combination for updating weights.

[수학식 6][Equation 6]

Figure 112021063468992-pat00010
Figure 112021063468992-pat00010

[수학식 7][Equation 7]

Figure 112021063468992-pat00011
Figure 112021063468992-pat00011

[수학식 8][Equation 8]

Figure 112021063468992-pat00012
Figure 112021063468992-pat00012

[수학식 6], [수학식 7] 및 [수학식 8]은 w 행렬과 b 행렬이 학습되어 업데이트 되는 것을 나타내며, x는 입력값을 지칭한다. 가중치들(w,b)은 행렬 형태로 학습시에 서버에 저장되어, 복호화 또는 추론 과정이 필요할 경우 다른 클라이언트에 공유될 수 있다.[Equation 6], [Equation 7], and [Equation 8] indicate that the w matrix and the b matrix are learned and updated, and x denotes an input value. The weights (w, b) are stored in the server during learning in the form of a matrix, and can be shared with other clients when a decoding or inference process is required.

본 명세서에 의한 실시 예에서, 이미지 압축 모델의 가중치는 입력 이미지와 복원 이미지 간의 픽셀 오차와 더불어, 입력 이미지의 주파수 도메인과 복원 이미지의 주파수 도메인의 편차에 기초한 오차값을 반영하여 설정되기 때문에, 이미지 압축 모델은 보다 정확하게 구현될 수 있다.In the embodiment according to the present specification, since the weight of the image compression model is set by reflecting an error value based on a deviation between the frequency domain of the frequency domain of the input image and the frequency domain of the reconstructed image, together with the pixel error between the input image and the reconstructed image, the image Compression models can be implemented more precisely.

도 4는 본 명세서의 실시 예에 의한 이미지 압축 시스템을 사용하여 이미지를 압축한 시뮬레이션 결과를 나타내는 도면이다. 도 4에서 제1 그래프(g1)는 본 발명의 실시 예에 의한 압축 이미지의 PSNR을 나타내고, 제2 그래프(g2)는 종래의 이미지 압축 시스템에 의한 압축 이미지의 PSNR을 나타내는 도면이다. 4 is a diagram showing a simulation result of compressing an image using an image compression system according to an embodiment of the present specification. In FIG. 4, a first graph g1 shows the PSNR of a compressed image according to an embodiment of the present invention, and a second graph g2 shows the PSNR of a compressed image by a conventional image compression system.

도 4에서 알 수 있는 바와 같이, 동일한 크기의 이미지에서 본 발명의 실시 예를 바탕으로 생성된 압축 이미지의 PSNR이 높은 것을 알 수 있으며, 이는 본 발명의 실시 예를 바탕으로 코딩 된 이미지의 화질이 개선되었음을 보여준다.As can be seen in FIG. 4, it can be seen that the PSNR of the compressed image generated based on the embodiment of the present invention is high in the image of the same size, which means that the quality of the coded image based on the embodiment of the present invention is high. show improvement.

아래의 [수학식 9]는 본 발명의 다른 실시 예에 의한 DCT 변환(이하 제2 DCT)을 나타내는 수학식이다.[Equation 9] below is an equation representing DCT conversion (hereinafter referred to as second DCT) according to another embodiment of the present invention.

[수학식 9][Equation 9]

Figure 112021063468992-pat00013
Figure 112021063468992-pat00013

아래의 [표 1]은 제2 DCT에 의한 성능개선을 나타내는 표이다.[Table 1] below is a table showing performance improvement by the second DCT.

[표 1][Table 1]

Figure 112021063468992-pat00014
Figure 112021063468992-pat00014

[표 1]에서, Lambda는 사용자가 임의로 정할 수 있는 컨트롤 파라미터를 나타낸다. [수학식 3]에 따라서 Lambda 값이 클수록 더 높은 복원화질을 가지지만, 더 큰 비트레이트(파일크기)를 필요로 하는 비트스트림을 생성한다. 여러 Lambda 파라미터로 학습된 모델을 다수 보유한 상태에서 네트워크 환경에 따라 대역폭이 제한된 모바일 환경 또는 안정적인 데스크탑 환경 등에 따라 선택적으로 보내는 방식으로 응용될 수 있다.In [Table 1], Lambda represents control parameters that can be arbitrarily set by the user. According to [Equation 3], the larger the Lambda value, the higher the reconstructed image quality, but generates a bitstream that requires a larger bitrate (file size). It can be applied in a way that is selectively sent according to a mobile environment with limited bandwidth or a stable desktop environment, etc.

w/o DCT loss는 DCT loss를 사용하지 않고, 기존의 딥 러닝 기반 이미지 압축 방법을 사용하였을 때의 결과를 나타낸다.w/o DCT loss represents the result of using a conventional deep learning-based image compression method without using DCT loss.

PSNR, bpp는 딥 러닝 모델이 복원한 이미지와 원본 이미지의 비교 화질(PSNR)과, 딥 러닝 모델이 이미지를 압축하여 생성한 비트스트림의 크기를 나타낸다(bits per pixel). 따라서 bpp가 낮으면서 PSNR이 높은 모델은 압축 성능이 더 높다는 것을 의미한다.PSNR, bpp represents the comparison quality (PSNR) of the image reconstructed by the deep learning model and the original image, and the size of the bitstream generated by compressing the image by the deep learning model (bits per pixel). Therefore, a model with a low bpp and a high PSNR means that the compression performance is higher.

또한, 본 발명의 실시 예는 주파수 도메인 변환을 위한 방법으로 DCT 이외에도 웨이블릿 변환(Wavelet Transform)을 이용할 수도 있다. 웨이블릿 변환은 다수의 단계로 이루어질 수 있으며, 실시 예에서는 3단계까지의 변환을 수행하고 각 단계별 주파수 도메인 변환 값에 대한 MSE의 가중치 합을 손실 함수로 추가하였다.In addition, in an embodiment of the present invention, wavelet transform may be used as a method for frequency domain transform in addition to DCT. Wavelet transform may be performed in multiple steps, and in the embodiment, up to three steps of transform are performed, and a weighted sum of MSEs for frequency domain transform values of each step is added as a loss function.

아래의 [수학식 10]은 본 발명의 다른 실시 예에 의한 웨이블릿 변환을 나타내는 수학식이다.[Equation 10] below is an equation representing wavelet transform according to another embodiment of the present invention.

[수학식 10][Equation 10]

Figure 112021063468992-pat00015
Figure 112021063468992-pat00015

i는 웨이블릿 변환의 단계를 나타내며,

Figure 112021063468992-pat00016
는 각 단계별 가중치를 의미한다. 또한
Figure 112021063468992-pat00017
는 원본 이미지에서 웨이블릿 변환을 거친 주파수 도메인의 계수(coefficient) 값을 나타내며,
Figure 112021063468992-pat00018
는 복원된 이미지에서 웨이블릿 변환을 거친 주파수 도메인의 계수 값을 나타낸다. i represents the step of the wavelet transform,
Figure 112021063468992-pat00016
means the weight for each stage. also
Figure 112021063468992-pat00017
Represents a coefficient value in the frequency domain after wavelet transformation in the original image,
Figure 112021063468992-pat00018
represents a coefficient value in the frequency domain after wavelet transformation in the reconstructed image.

아래의 [표 2]는 웨이블릿 변환에 기초하여 주파수 도메인 변환을 수행하고, 가중치를 업데이트 한 것에 기초하여 이미지 압축 모델의 성능 개선을 나타내는 표이다.[Table 2] below is a table showing performance improvement of an image compression model based on performing frequency domain transformation based on wavelet transformation and updating weights.

[표 2][Table 2]

Figure 112021063468992-pat00019
Figure 112021063468992-pat00019

이상 설명한 내용을 통해 당업자라면 본 명세서의 기술사상을 일탈하지 아니하는 범위에서 다양한 변경 및 수정이 가능함을 알 수 있을 것이다. 따라서, 본 명세서의 기술적 범위는 명세서의 상세한 설명에 기재된 내용으로 한정되는 것이 아니라 특허 청구의 범위에 의해 정하여져야만 할 것이다.Through the above description, those skilled in the art will know that various changes and modifications are possible without departing from the technical spirit of the present specification. Therefore, the technical scope of the present specification is not limited to the contents described in the detailed description of the specification, but should be determined by the claims.

Claims (8)

이미지 압축 모델을 기반으로 입력 이미지를 부호화하여 압축 이미지를 생성하는 단계;
상기 이미지 압축 모델을 기반으로 상기 압축 이미지를 복호화하여 복원 이미지를 생성하는 단계;
상기 입력 이미지의 주파수 도메인과 상기 복원 이미지 간의 주파수 도메인 간의 편차에 기반하여 오차를 산출하는 단계; 및
상기 오차에 기초하여 상기 이미지 압축 모델의 가중치를 업데이트하는 단계를 포함하고,
상기 오차를 산출하는 단계는
상기 입력 이미지를 이산코사인 변환하여 제1 계수를 생성하고, 상기 복원 이미지를 이산코사인 변환하여 제2 계수를 생성하는 단계; 및
상기 제1 계수 및 상기 제2 계수 간의 편차에 기반하여 상기 오차를 산출하는 단계를 포함하며,
상기 가중치는 최종 손실함수를 바탕으로 결정되고,
상기 최종 손실함수는 상기 오차의 평균 제곱 오차에 비례하는 것을 특징으로 하는 신경망 기반의 이미지 압축 방법.
generating a compressed image by encoding an input image based on an image compression model;
generating a restored image by decoding the compressed image based on the image compression model;
calculating an error based on a deviation between a frequency domain of the input image and a frequency domain of the reconstructed image; and
Updating weights of the image compression model based on the error;
The step of calculating the error is
generating a first coefficient by performing a discrete cosine transform on the input image, and generating a second coefficient by performing a discrete cosine transform on the reconstructed image; and
Calculating the error based on the deviation between the first coefficient and the second coefficient;
The weight is determined based on the final loss function,
The final loss function is a neural network-based image compression method, characterized in that proportional to the mean square error of the error.
삭제delete 삭제delete 제 1 항에 있어서,
상기 최종 손실함수는
상기 입력 이미지와 상기 복원 이미지 간의 픽셀 데이터의 평균 제곱 오차에 비례하는 제1 손실함수 및 상기 제1 계수 및 상기 제2 계수 간의 평균 제곱 오차에 비례하는 제2 손실함수의 합으로 결정되는 것을 특징으로 하는 신경망 기반의 이미지 압축 방법.
According to claim 1,
The final loss function is
It is determined by the sum of a first loss function proportional to the mean square error of pixel data between the input image and the reconstructed image and a second loss function proportional to the mean square error between the first coefficient and the second coefficient. A neural network-based image compression method.
제 1 항에 있어서,
상기 가중치는 손실 함수를 바탕으로 결정되고,
상기 손실함수는 상기 오차의 최대 신호 대 잡음비에 기초하여 생성되는 것을 특징으로 하는 신경망 기반의 이미지 압축 방법.
According to claim 1,
The weight is determined based on a loss function,
The loss function is a neural network-based image compression method, characterized in that generated based on the maximum signal-to-noise ratio of the error.
이미지 압축 모델을 기반으로 입력 이미지를 부호화하여 압축 이미지를 생성하고, 상기 이미지 압축 모델을 기반으로 상기 압축 이미지를 복호화하여 복원 이미지를 생성하는 이미지 변환부;
상기 입력 이미지의 주파수 도메인과 상기 복원 이미지 간의 주파수 도메인 간의 편차에 기반하여 오차를 산출하는 계산부; 및
상기 오차에 기초하여 상기 이미지 압축 모델의 가중치를 업데이트하는 결정부;를 포함하고,
상기 계산부는
상기 입력 이미지를 이산코사인 변환하여 제1 계수를 생성하고, 상기 복원 이미지를 이산코사인 변환하여 제2 계수를 생성하며, 상기 제1 계수 및 상기 제2 계수 간의 편차에 기반하여 상기 오차를 산출하며,
상기 가중치는 최종 손실함수를 바탕으로 결정되고,
상기 최종 손실함수는 상기 오차의 평균 제곱 오차에 비례하는 것을 특징으로 하는 신경망 기반의 이미지 압축 시스템.
an image conversion unit generating a compressed image by encoding an input image based on an image compression model and generating a restored image by decoding the compressed image based on the image compression model;
a calculator calculating an error based on a deviation between a frequency domain of the input image and a frequency domain of the reconstructed image; and
A determination unit for updating weights of the image compression model based on the error; includes;
the calculator
Discrete cosine transform of the input image to generate a first coefficient, discrete cosine transform of the reconstructed image to generate a second coefficient, based on a deviation between the first coefficient and the second coefficient Calculate the error,
The weight is determined based on the final loss function,
The final loss function is a neural network-based image compression system, characterized in that proportional to the mean square error of the error.
삭제delete 삭제delete
KR1020210071114A 2021-06-01 2021-06-01 Image compression system and method based on Neural Network KR102484999B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020210071114A KR102484999B1 (en) 2021-06-01 2021-06-01 Image compression system and method based on Neural Network

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020210071114A KR102484999B1 (en) 2021-06-01 2021-06-01 Image compression system and method based on Neural Network

Publications (2)

Publication Number Publication Date
KR20220162546A KR20220162546A (en) 2022-12-08
KR102484999B1 true KR102484999B1 (en) 2023-01-06

Family

ID=84436802

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020210071114A KR102484999B1 (en) 2021-06-01 2021-06-01 Image compression system and method based on Neural Network

Country Status (1)

Country Link
KR (1) KR102484999B1 (en)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021072485A (en) * 2019-10-29 2021-05-06 株式会社リコー Encoding device, decoding device, encoding method, decoding method, encoding program and decoding program

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021072485A (en) * 2019-10-29 2021-05-06 株式会社リコー Encoding device, decoding device, encoding method, decoding method, encoding program and decoding program

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Jinyoung Choi 외 1명. "Task-Aware Quantization Network for JPEG Image Compression", ECCV 2020, pp 309-324, 2020.11.12. 1부.*

Also Published As

Publication number Publication date
KR20220162546A (en) 2022-12-08

Similar Documents

Publication Publication Date Title
CN110059796B (en) Method and device for generating convolutional neural network
WO2020237646A1 (en) Image processing method and device, and computer-readable storage medium
JP4737711B2 (en) Decoding device, inverse quantization method, distribution determination method, and program thereof
Cheng et al. Performance comparison of convolutional autoencoders, generative adversarial networks and super-resolution for image compression
KR100529311B1 (en) Apparatus and method for selecting the length of variable length coding bit stream using neural network
TW202042559A (en) Methods and apparatuses for compressing parameters of neural networks
US20070116371A1 (en) Decoding apparatus, inverse quantization method, and computer readable medium
CN115063492A (en) Method for generating confrontation sample resisting JPEG compression
Cheng et al. Learned lossless image compression with a hyperprior and discretized gaussian mixture likelihoods
CN114930824A (en) Depth palette prediction
Shin et al. Expanded adaptive scaling normalization for end to end image compression
CN116600119B (en) Video encoding method, video decoding method, video encoding device, video decoding device, computer equipment and storage medium
KR102484999B1 (en) Image compression system and method based on Neural Network
He et al. End-to-end facial image compression with integrated semantic distortion metric
Yuan et al. Gradient-guided residual learning for inverse halftoning and image expanding
CN111083498B (en) Model training method and using method for video coding inter-frame loop filtering
US20230130410A1 (en) Generating quantization tables for image compression
JP2021150738A (en) Division pattern determining apparatus, and image encoding apparatus and learning apparatus using division pattern determining apparatus, and control method of division pattern determining apparatus and learning apparatus, and program
CN106658024A (en) Fast video coding method
CN116155873A (en) Cloud-edge collaborative image processing method, system, equipment and medium
CN115665413A (en) Method for estimating optimal quantization parameter of image compression
CN115361555A (en) Image encoding method, image encoding device, and computer storage medium
Akutsu et al. End-to-End Deep ROI Image Compression
Hitha et al. Comparison of image compression analysis using deep autoencoder and deep cnn approach
KR102566798B1 (en) Method for Code-Level Super Resolution And Method for Training Super Resolution Model Therefor

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant