KR20220124622A - 이미지 압축 방법 및 이미지 압축 장치 - Google Patents

이미지 압축 방법 및 이미지 압축 장치 Download PDF

Info

Publication number
KR20220124622A
KR20220124622A KR1020220009943A KR20220009943A KR20220124622A KR 20220124622 A KR20220124622 A KR 20220124622A KR 1020220009943 A KR1020220009943 A KR 1020220009943A KR 20220009943 A KR20220009943 A KR 20220009943A KR 20220124622 A KR20220124622 A KR 20220124622A
Authority
KR
South Korea
Prior art keywords
feature map
feature
difference value
hidden variable
sampling
Prior art date
Application number
KR1020220009943A
Other languages
English (en)
Inventor
거 가오
페이 유
롱 판
Original Assignee
삼성전자주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자주식회사 filed Critical 삼성전자주식회사
Priority to US17/682,581 priority Critical patent/US20220286696A1/en
Publication of KR20220124622A publication Critical patent/KR20220124622A/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/90Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using coding techniques not provided for in groups H04N19/10-H04N19/85, e.g. fractals
    • H04N19/91Entropy coding, e.g. variable length coding [VLC] or arithmetic coding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • G06N3/0454
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • G06N3/0481
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T9/00Image coding
    • G06T9/002Image coding using neural networks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/132Sampling, masking or truncation of coding units, e.g. adaptive resampling, frame skipping, frame interpolation or high-frequency transform coefficient masking
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/136Incoming video signal characteristics or properties
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/146Data rate or code amount at the encoder output
    • H04N19/147Data rate or code amount at the encoder output according to rate distortion criteria
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/182Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being a pixel
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/184Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being bits, e.g. of the compressed video stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/42Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by implementation details or hardware specially adapted for video compression or decompression, e.g. dedicated software implementation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/59Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving spatial sub-sampling or interpolation, e.g. alteration of picture size or resolution

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Auxiliary Devices For And Details Of Packaging Control (AREA)
  • Apparatus For Radiation Diagnosis (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

본 발명은 이미지 압축 방법 및 이미지 압축 장치에 관한 것으로, 이미지 압축 방법은, 입력 이미지에 기초하여, 코딩 네트워크를 사용하여 입력 이미지의 은닉 변수(hidden variable)를 획득하는 단계 - 코딩 네트워크는 딥 러닝 신경망이고, 코딩 네트워크는 적어도 하나의 다운 샘플링 백 프로젝션(back projection) 모듈을 포함함 -; 은닉 변수를 기반으로 엔트로피 코딩(entropy coding)을 수행하여 압축 이미지의 비트스트림(bitstream) 파일을 획득하는 단계;를 포함하고, 코딩 네트워크에 포함된 적어도 하나의 다운 샘플링 백 프로젝션 모듈 각각은, 다운 샘플링 백 프로젝션 모듈에 입력된 제1 특징맵에 대해 다운 샘플링 변환을 수행하여 제2 특징맵을 획득하는 단계; 제2 특징맵을 재구성하여 제1 특징맵과 동일한 해상도를 갖는 제3 특징맵을 획득하는 단계; 및 제1 특징맵과 제3 특징맵 간의 차이값에 기초하여, 제2 특징맵의 최적화 결과로서의 제4 특징맵을 획득하는 단계 - 은닉 변수는 코딩 네트워크에서 적어도 하나의 다운 샘플링 백 프로젝션 모듈의 마지막 다운 샘플링 백 프로젝션 모듈에 의해 획득된 제4 특징맵에 기초하여 획득됨 -;를 수행한다.

Description

이미지 압축 방법 및 이미지 압축 장치{IMAGE COMPRESSION METHOD AND APPARATUS THEREOF}
본 출원은 이미지 압축 분야에 관한 것으로, 보다 구체적으로, 이미지 압축 방법 및 이미지 압축 장치, 이미지 압축 해제 방법 및 이미지 압축 해제 장치에 관한 것이다.
고품질의 압축 이미지는 네트워크 전송 및 모바일 플랫폼의 저장에 있어서 중요한 역할을 한다. 그러나 이미지 센서의 해상도가 높아짐에 따라 원본 이미지가 점점 커지게 되고, 이는 이동 단말기의 저장 및 네트워크 전송 중의 대역폭에 큰 문제가 된다. 이러한 현존 문제에 있어, 현재의 이미지 압축 알고리즘은 크게 두 가지로 분류되는데, 하나는 필터링 또는 블록 예측에 기반한 기존의 방법이고, 다른 하나는 신경망을 구성하여 특징 추출 및 압축을 수행하는 딥 러닝 방법이다. 기존 방법은 많은 수의 예측 모드를 수동으로 설계해야 하므로 시간과 노력이 많이 들고, 높은 압축률의 경우 매우 명백한 블록 현상(blocking effect)이 나타나기 쉽기 때문에, 압축된 이미지의 품질에 영향을 미친다. 딥 러닝 기반의 방법은 어느 정도 발전했으나 여전히 이미지 블러링(image blurring), 노이즈 및 압축 아티팩트 상황이 존재한다.
본 개시의 일 실시예에 따른 첫 번째 방면에서, 이미지 압축 방법을 제공하고, 상기 방법은, 입력 이미지에 기초하여, 코딩 네트워크를 사용하여 상기 입력 이미지의 은닉 변수(hidden variable) 를 획득하는 단계 - 상기 코딩 네트워크는 딥 러닝 신경망이고, 상기 코딩 네트워크는 적어도 하나의 다운 샘플링 백 프로젝션(back projection) 모듈을 포함함 -; 상기 은닉 변수를 기반으로 엔트로피 코딩(entropy coding) 을 수행하여 압축 이미지의 비트스트림(bitstream) 파일을 획득하는 단계;를 포함하고, 상기 코딩 네트워크에 포함된 상기 적어도 하나의 다운 샘플링 백 프로젝션 모듈 각각은, 상기 다운 샘플링 백 프로젝션 모듈에 입력된 제1 특징맵에 대해 다운 샘플링 변환을 수행하여 제2 특징맵을 획득하는 단계; 제2 특징맵을 재구성하여 제1 특징맵과 동일한 해상도를 갖는 제3 특징맵을 획득하는 단계; 제1 특징맵과 제3 특징맵 간의 차이값에 기초하여, 제2 특징맵의 최적화 결과로서의 제4 특징맵을 획득하는 단계 - 상기 은닉 변수는 상기 코딩 네트워크에서 적어도 하나의 다운 샘플링 백 프로젝션 모듈의 마지막 다운 샘플링 백 프로젝션 모듈에 의해 획득된 제4 특징맵에 기초하여 획득됨 -;를 수행한다.
상술한 바와 같이, 이미지 압축 작업의 다운 샘플링 단계에서, 본 발명은 백 프로젝션 방법을 사용하여 재구성 결과를 현재 작업에 피드백함으로써 양방향 정보 교환을 실현하고, 현재 특징맵의 정보의 양을 풍부하게 하고, 리샘플링 후의 특징맵의 품질을 개선하여, 적은 수의 컨볼루션 레이어와 부정확한 저해상도 정보로 인한 다운 샘플링 변환으로 얻은 중간 특징맵의 품질 저하를 효과적으로 완화하고, 양자화된 은닉 변수로 인한 재구성 오류 또한 완화한다. 동시에, 고도로 모듈화된 디자인 또한 상기 백 프로젝션 방법을 쉽게 배포하고 확장할 수 있도록 한다. 실제 적용에서는 모델 속도, 메모리 공간 및 압축 품질 등 요소에 따라 다단계 재구성 및 파라미터 공유 메커니즘을 사용할지 여부를 선택할 수 있다.
선택적으로, 제1 특징맵과 제3 특징맵 간의 차이값에 기초하여, 제2 특징맵의 최적화 결과로서의 제4 특징맵을 획득하는 단계는, 제1 특징맵과 제3 특징맵 간의 차이값을 최적화하고, 최적화된 차이값에 기초하여 제3 특징맵을 최적화하여, 최적화된 제3 특징맵을 획득하는 단계; 최적화된 제3 특징맵에 대해 다운 샘플링 및 최적화를 수행하여 제4 특징맵을 획득하는 단계;를 포함한다.
상술한 바와 같이, 고해상도 중간 이미지(업샘플링에 의해 획득한 재구성 이미지)를 기반으로 차이값 피드백 최적화를 수행하여, 재구성 이미지의 품질을 향상시킨다.
선택적으로, 제1 특징맵과 제3 특징맵 간의 차이값에 기초하여, 제2 특징맵의 최적화 결과로서의 제4 특징맵을 획득하는 단계는, 획득한 제4 특징맵과 제2 특징맵 간의 차이값을 최적화하고, 최적화된 차이값에 기초하여 획득한 제4 특징맵을 최적화하여, 최종 제4 특징맵을 획득하는 단계를 더 포함한다.
상술한 바와 같이, 차이값 피드백 최적화는 고해상도 중간 이미지(업샘플링에 의해 획득된 재구성 이미지)뿐만 아니라 저해상도 중간 이미지(예, 다운샘플링 변환에 의해 획득된 제2 특징맵)을 기반으로 수행된다. 현재 특징맵을 2회로 나눠 최적화하여, 다중 스케일(고해상도 및 저해상도)의 차이값 피드백의 특징 융합을 구현하여, 모델이 특징맵의 전체 수치적 안정성을 보장하는 것을 기반으로 보다 더 효과적으로 새로운 정보를 추출하고 처리할 수 있도록 하며, 이를 통해 훈련의 안정성을 유지하면서 재구성 이미지의 품질을 안정적으로 향상시킨다.
선택적으로, 제2 특징맵을 재구성하여 제1 특징맵과 동일한 해상도를 갖는 제3 특징맵을 획득하는 단계는, 컨볼루션 연산을 통해 제2 특징맵에 대해 특징 처리를 수행하는 단계; 특징 처리 후의 제2 특징맵에 대해 업 샘플링 변환을 수행하는 단계; 컨볼루션 연산을 통해 업 샘플링 변환 후의 특징맵을 특징 처리하여 제3 특징맵을 획득하는 단계;를 포함한다.
선택적으로, 제1 특징맵과 제3 특징맵 간의 차이값을 최적화하고, 최적화된 차이값에 기초하여 제3 특징맵을 최적화하여, 최적화된 제3 특징맵을 획득하는 단계는, 제1 특징맵과 제3 특징맵을 감산(subtract)하여 제1 차이값 특징맵을 획득하는 단계; 컨볼루션 연산을 통해 제1 차이값 특징맵에 대해 특징 학습을 수행하는 단계; 특징 학습된 제1 차이값 특징맵과 감산된 특징맵을 서로 추가하여 추가된 특징맵을 획득하는 단계; 컨볼루션 연산을 통해 상기 추가된 특징맵에 대해 특징 학습을 수행하여, 상기 최적화된 제3 특징맵을 획득하는 단계;를 포함한다.
선택적으로, 최적화된 제3 특징맵에 대해 다운 샘플링 및 최적화를 수행하여 제4 특징맵을 획득하는 단계는, 컨볼루션 연산을 통해 상기 최적화된 제3 특징맵을 다운 샘플링하고, 다운 샘플링된 제3 특징맵의 특징을 추출하는 단계; 컨볼루션 연산을 통해 특징 추출로 획득한 특징맵에 대해 특징 학습을 수행하여, 제4 특징맵을 획득하는 단계;를 포함한다.
선택적으로, 획득한 제4 특징맵과 제2 특징맵 간의 차이값을 최적화하고, 최적화된 차이값에 기초하여 획득한 제4 특징맵을 최적화하여, 최종 제4 특징맵을 획득하는 단계는, 획득한 제4 특징맵과 제2 특징맵을 감산하여 제2 차이값 특징맵을 획득하는 단계; 컨볼루션 연산을 통해 제2 차이값 특징맵에 대해 특징 학습을 수행하는 단계; 특징 학습된 제2 차이값 특징맵과 감산된 특징맵을 서로 추가하여 추가된 특징맵을 획득하는 단계; 컨볼루션 연산을 통해 상기 추가된 특징맵에 대해 특징 학습을 수행하여, 상기 최적화된 제3 특징맵을 획득하는 단계;를 포함한다.
선택적으로, 획득한 제4 특징맵과 제2 특징맵 간의 차이값을 최적화하고, 최적화된 차이값에 기초하여 획득한 제4 특징맵을 최적화하여, 최종 제4 특징맵을 획득하는 단계는, 획득한 제4 특징맵과 제2 특징맵을 감산하여 제2 차이값 특징맵을 획득하는 단계; 컨볼루션 연산을 통해 제2 차이값 특징맵에 대해 특징 학습을 수행하는 단계; 어텐션 메커니즘을 통해 특징 학습된 제2 차이값 특징맵에 대해 특징 추출하여, 어텐션 스코어를 획득하는 단계; 획득한 제4 특징맵과 상기 어텐션 스코어를 곱하여, 제1 가중 특징맵을 획득하는 단계; 제2 특징맵과 (1-상기 어텐션 스코어)를 곱하여, 제2 가중 특징맵을 획득하는 단계; 제1 가중 특징맵과 제2 가중 특징맵을 서로 추가하여, 가중 특징맵을 획득하는 단계; 컨볼루션 연산을 통해 상기 가중 특징맵에 대해 특징 학습을 수행하여, 상기 최종 제4 특징맵을 획득하는 단계;를 포함한다.
상술한 바와 같이, 어텐션 메커니즘을 기반으로 차이값 최적화를 구현하고, 소프트 어텐션 메커니즘을 사용하여 모듈이 특정 부분에 더 많은 어텐션을 기울이고 특징맵에 선택적으로 가중치를 부여함으로써, 차이값 피드백 모듈의 정보 처리 및 융합 능력을 한단계 더 향상시켜, 이미지 압축의 효과와 효율성을 향상시킨다.
선택적으로, 상기 코딩 네트워크는 고주파 코딩 서브 네트워크 및 저주파 코딩 서브 네트워크를 포함하고, 상기 고주파 코딩 서브 네트워크 및 상기 저주파 코딩 서브 네트워크는 모두 적어도 하나의 다운 샘플링 백 프로젝션 모듈을 포함하고, 상기 방법은, 상기 입력 이미지로부터 고주파 성분 및 저주파 성분을 추출하는 단계를 더 포함한다. 입력 이미지에 기초하여, 코딩 네트워크를 사용하여 상기 입력 이미지의 은닉 변수를 획득하는 단계는, 상기 고주파 코딩 서브 네트워크를 사용하여 상기 고주파 성분의 은닉 변수를 획득하는 단계 - 상기 고주파 코딩 서브 네트워크에 포함된 적어도 하나의 다운 샘플링 백 프로젝션 모듈의 마지막 다운 샘플링 백 프로젝션 모듈에 의해 획득된 제4 특징맵에 기초하여, 상기 고주파 성분의 은닉 변수를 획득함 -; 상기 저주파 코딩 서브 네트워크를 사용하여 상기 저주파 성분의 은닉 변수를 획득하는 단계 - 상기 저주파 코딩 서브 네트워크에 포함된 적어도 하나의 다운 샘플링 백 프로젝션 모듈의 마지막 다운 샘플링 백 프로젝션 모듈에 의해 획득된 제4 특징맵에 기초하여, 상기 저주파 성분의 은닉 변수를 획득함 -; 상기 고주파 성분의 은닉 변수와 상기 저주파 성분의 은닉 변수를 융합하여, 상기 입력 이미지의 은닉 변수를 획득하는 단계;를 포함한다.
상술한 바와 같이, 저주파 및 고주파 성분에 대해 각각 처리 및 융합할 수 있으므로, 네트워크는 다운 샘플링 프로세스에서 손실되기 쉬운 고주파 세부 사항에 더 집중할 수 있으며, 압축 과정에서 생성된 고주파 정보의 손실에 대해 명시적이고 효과적으로 처리할 수 있고, 필요에 따라 다운 샘플링 후의 저주파 은닉 변수와 고주파 은닉 변수를 선택적으로 향상, 처리 및 융합하여, 동일한 코드 레이트(code rate)에서의 모델의 재구성 이미지의 품질을 더욱 향상시키고, 상기 이미지 압축 방법의 레이트 왜곡 성능을 효과적으로 최적화한다.
선택적으로, 상기 고주파 성분의 은닉 변수와 상기 저주파 성분의 은닉 변수를 융합하여, 상기 입력 이미지의 은닉 변수를 획득하는 단계는, 상기 고주파 성분의 은닉 변수와 상기 저주파 성분의 은닉 변수를 스플라이싱 하여 제1 스플라이싱 은닉 변수를 획득하는 단계; 공간 어텐션 메커니즘을 사용하여, 채널 방향에서 제1 스플라이싱 은닉 변수에 대해 평균 풀링 및 최대 풀링을 각각 진행하고, 해당 평균 풀링 후의 제1 스플라이싱 은닉 변수 및 해당 최대 풀링 후의 제1 스플라이싱 은닉 변수를 스플라이싱하여 제2 스플라이싱 은닉 변수를 획득하고, 컨볼루션 연산을 사용하여 상기 제2 스플라이싱 은닉 변수의 공간 어텐션 스코어를 계산하는 단계; 채널 어텐션 메커니즘을 사용하여, 공간 차원에서 제1 스플라이싱 은닉 변수에 대해 풀링하고, 컨볼루션 연산을 사용하여 풀링 후의 제1 스플라이싱 은닉 변수의 채널 어텐션 스코어를 계산하는 단계; 상기 채널 어텐션 스코어와 공간 어텐션 스코어를 이용하여 상기 저주파 성분의 은닉 변수를 가중하여, 상기 저주파 성분의 가중 은닉 변수를 획득하는 단계; (1-채널 어텐션 스코어) 및 (1-공간 어텐션 스코어)를 사용하여 상기 고주파 성분의 은닉 변수에 대해 가중하여, 상기 고주파 성분의 가중 은닉 변수를 획득하는 단계; 상기 저주파 성분의 가중 은닉 변수와 상기 고주파 성분의 가중 은닉 변수의 합을 상기 입력 이미지의 은닉 변수로 획득하는 단계;를 포함한다.
상술한 바와 같이, 공간 어텐션 스코어를 계산할 때, 특징맵에 대해 최대 풀링과 평균 풀링을 진행하여 계산량을 효과적으로 줄일 수 있다. 또한, 저주파 성분의 특징맵(즉, 은닉 변수)에 어텐션 스코어를 곱하고, 고주파 성분의 특징맵에 (1-어텐션 스코어)를 곱하는 소프트 융합 방식을 통해, 융합 품질을 보다 더 향상시킬 수 있다.
본 개시의 일 실시예에 따른 두 번째 방면에서, 이미지 압축 해제 방법을 제공하고, 상기 방법은, 압축 이미지의 비트스트림 파일에 대해 엔트로피 디코딩(entropy decoding)을 수행하여, 은닉 변수를 획득하는 단계; 상기 은닉 변수에 기초하여, 재구성 네트워크를 사용하여 상기 압축 이미지의 재구성 이미지를 획득하는 단계 - 상기 재구성 네트워크는 딥 러닝 신경망이고, 상기 재구성 네트워크는 적어도 하나의 업 샘플링 백 프로젝션 모듈을 포함함 -;를 포함하고, 상기 재구성 네트워크에 포함된 상기 적어도 하나의 업 샘플링 백 프로젝션 모듈 각각은, 상기 업 샘플링 백 프로젝션 모듈에 입력된 제5 특징맵에 대해 업 샘플링 변환을 수행하여 제6 특징맵을 획득하는 단계; 제6 특징맵을 재구성하여 제5 특징맵과 동일한 해상도를 갖는 제7 특징맵을 획득하는 단계; 제5 특징맵과 제7 특징맵 간의 차이값에 기초하여, 제6 특징맵의 최적화 결과로서의 제8 특징맵을 획득하고, 상기 재구성 네트워크에서 적어도 하나의 업 샘플링 백 프로젝션 모듈의 마지막 업 샘플링 백 프로젝션 모듈에 의해 획득된 제8 특징맵은 상기 재구성 이미지로 사용되는 단계;를 수행한다.
상술한 바와 같이, 백 프로젝션 방법은 네트워크를 재구성하기 위해 적용되고, 재구성 결과를 현재 작업에 피드백함으로써 양방향 정보 교환을 실현하고, 현재 특징맵의 정보의 양을 풍부하게 하고, 리샘플링 후의 특징맵의 품질을 개선하여, 양자화로 인한 정보 손실을 줄이고 업 샘플링 프로세스에서 발생하는 부적절한 문제를 완화한다. 동시에, 고도로 모듈화된 디자인 또한 상기 백 프로젝션 방법을 쉽게 배포하고 확장할 수 있도록 한다. 실제 적용에서는 모델 속도, 메모리 공간 및 압축 품질 등 요소에 따라 다단계 재구성 및 파라미터 공유 메커니즘을 사용할지 여부를 선택할 수 있다.
선택적으로, 제5 특징맵과 제7 특징맵 간의 차이값에 기초하여, 제6 특징맵의 최적화 결과로서의 제8 특징맵을 획득하는 단계는, 제5 특징맵과 제7 특징맵 간의 차이값을 최적화하고, 최적화된 차이값에 기초하여 제7 특징맵을 최적화하여, 최적화된 제7 특징맵을 획득하는 단계; 최적화된 제7 특징맵에 대해 업 샘플링 및 최적화를 수행하여 제8 특징맵을 획득하는 단계;를 포함한다.
상술한 바와 같이, 고해상도 중간 이미지(업샘플링에 의해 획득한 재구성 이미지)를 기반으로 차이값 피드백 최적화를 수행하여, 재구성 이미지의 품질을 향상시킨다.
선택적으로, 제5 특징맵과 제7 특징맵 간의 차이값에 기초하여, 제6 특징맵의 최적화 결과로서의 제8 특징맵을 획득하는 단계는, 획득한 제8 특징맵과 제6 특징맵 간의 차이값을 최적화하고, 최적화된 차이값에 기초하여 제6 특징맵을 최적화하여, 최종 제8 특징맵을 획득하는 단계를 더 포함한다.
상술한 바와 같이, 차이값 피드백 최적화는 고해상도 중간 이미지(업샘플링에 의해 획득된 재구성 이미지)뿐만 아니라 저해상도 중간 이미지(예, 다운샘플링 변환에 의해 획득된 제2 특징맵)을 기반으로 수행된다. 현재 특징맵을 2회로 나눠 최적화하여, 다중 스케일(고해상도 및 저해상도)의 차이값 피드백의 특징 융합을 구현하여, 모델이 특징맵의 전체 수치적 안정성을 보장하는 것을 기반으로 보다 더 효과적으로 새로운 정보를 추출하고 처리할 수 있도록 하며, 이를 통해 훈련의 안정성을 유지하면서 재구성 이미지의 품질을 안정적으로 향상시킨다.
선택적으로, 제6 특징맵을 재구성하여 제5 특징맵과 동일한 해상도를 갖는 제7 특징맵을 획득하는 단계는, 컨볼루션 연산을 통해 제6 특징맵에 대해 특징 처리를 수행하는 단계; 특징 처리 후의 제6 특징맵에 대해 다운 샘플링 변환을 수행하는 단계; 컨볼루션 연산을 통해 다운 샘플링 변환 후의 제6 특징맵을 특징 처리하여 제7 특징맵을 획득하는 단계;를 포함한다.
선택적으로, 제5 특징맵과 제7 특징맵 간의 차이값을 최적화하고, 최적화된 차이값에 기초하여 제7 특징맵을 최적화하여, 최적화된 제7 특징맵을 획득하는 단계는, 제5 특징맵과 제7 특징맵을 감산하여 제3 차이값 특징맵을 획득하는 단계; 컨볼루션 연산을 통해 제3 차이값 특징맵에 대해 특징 학습을 수행하는 단계; 특징 학습된 제3 차이값 특징맵과 감산된 특징맵을 서로 추가하여 추가된 특징맵을 획득하는 단계; 컨볼루션 연산을 통해 상기 추가된 특징맵에 대해 특징 학습을 수행하여, 상기 최적화된 제7 특징맵을 획득하는 단계;를 포함한다.
선택적으로, 최적화된 제7 특징맵에 대해 업 샘플링 및 최적화를 수행하여 제8 특징맵을 획득하는 단계는, 컨볼루션 연산을 통해 상기 최적화된 제7 특징맵을 업 샘플링하고, 업 샘플링된 제7 특징맵의 특징을 추출하는 단계; 컨볼루션 연산을 통해 특징 추출로 획득한 특징맵에 대해 특징 학습을 수행하여, 제8 특징맵을 획득하는 단계;를 포함한다.
선택적으로, 획득한 제8 특징맵과 제6 특징맵 간의 차이값을 최적화하고, 최적화된 차이값에 기초하여 획득한 제8 특징맵을 최적화하여, 최종 제8 특징맵을 획득하는 단계는, 획득한 제8 특징맵과 제6 특징맵을 감산하여 제4 차이값 특징맵을 획득하는 단계; 컨볼루션 연산을 통해 제4 차이값 특징맵에 대해 특징 학습을 수행하는 단계; 특징 학습된 제4 차이값 특징맵과 감산된 특징맵을 서로 추가하여 추가된 특징맵을 획득하는 단계; 컨볼루션 연산을 통해 상기 추가된 특징맵에 대해 특징 학습을 수행하여, 상기 최적화된 제7 특징맵을 획득하는 단계;를 포함한다.
선택적으로, 획득한 제8 특징맵과 제6 특징맵 간의 차이값을 최적화하고, 최적화된 차이값에 기초하여 획득한 제8 특징맵을 최적화하여, 최종 제8 특징맵을 획득하는 단계는, 획득한 제8 특징맵과 제6 특징맵을 감산하여 제4 차이값 특징맵을 획득하는 단계; 컨볼루션 연산을 통해 제4 차이값 특징맵에 대해 특징 학습을 수행하는 단계; 어텐션 메커니즘을 통해 특징 학습된 제4 차이값 특징맵에 대해 특징 추출하여, 어텐션 스코어를 획득하는 단계; 획득한 제8 특징맵과 상기 어텐션 스코어를 곱하여, 제3 가중 특징맵을 획득하는 단계; 제6 특징맵과 (1-상기 어텐션 스코어)를 곱하여, 제4 가중 특징맵을 획득하는 단계; 제3 가중 특징맵과 제4 가중 특징맵을 서로 추가하여, 가중 특징맵을 획득하는 단계; 컨볼루션 연산을 통해 상기 가중 특징맵에 대해 특징 학습을 수행하여, 상기 최종 제8 특징맵을 획득하는 단계;를 포함한다.
상술한 바와 같이, 어텐션 메커니즘을 기반으로 차이값 최적화를 구현하고, 소프트 어텐션 메커니즘을 사용하여 모듈이 특정 부분에 더 많은 어텐션을 기울이고 특징맵에 선택적으로 가중치를 부여함으로써, 차이값 피드백 모듈의 정보 처리 및 융합 능력을 한단계 더 향상시켜, 이미지 압축의 효과와 효율성을 향상시킨다.
본 개시의 일 실시예에 따른 세 번째 방면에서, 이미지 압축 장치를 제공하고, 상기 장치는, 입력 이미지에 기초하여 상기 입력 이미지의 은닉 변수를 획득하도록 구성된 코딩 네트워크 - 상기 코딩 네트워크는 딥 러닝 신경망이고, 상기 코딩 네트워크는 적어도 하나의 다운 샘플링 백 프로젝션 모듈을 포함함 -; 상기 은닉 변수를 기반으로 엔트로피 코딩을 수행하여 압축 이미지의 비트스트림 파일을 획득하도록 구성된 엔트로피 코딩 네트워크;를 포함하고, 상기 다운 샘플링 백 프로젝션 모듈은 다운 샘플링 모듈, 재구성 모듈 및 최적화 모듈을 포함하고, 상기 다운 샘플링 모듈은 상기 다운 샘플링 모듈에 입력된 제1 특징맵에 대해 다운 샘플링 변환을 수행하여 제2 특징맵을 획득하도록 구성되고; 재구성 모듈은 제2 특징맵을 재구성하여 제1 특징맵과 동일한 해상도를 갖는 제3 특징맵을 획득하도록 구성되고; 최적화 모듈은 제1 특징맵과 제3 특징맵 간의 차이값에 기초하여, 제2 특징맵의 최적화 결과로서의 제4 특징맵을 획득하도록 구성되고, 상기 은닉 변수는 상기 코딩 네트워크에서 적어도 하나의 다운 샘플링 백 프로젝션 모듈의 마지막 다운 샘플링 백 프로젝션 모듈에 의해 획득된 제4 특징맵에 기초하여 획득된다. 선택적으로, 최적화 모듈은 제1 차이값 피드백 서브 모듈 및 다운 샘플링 최적화 서브 모듈을 포함하고, 제1 차이값 피드백 서브 모듈은 제1 특징맵과 제3 특징맵 간의 차이값을 최적화하고, 최적화된 차이값에 기초하여 제3 특징맵을 최적화하여 최적화된 제3 특징맵을 획득하도록 구성되고; 다운 샘플링 최적화 서브 모듈은 최적화된 제3 특징맵에 대해 다운 샘플링 및 최적화를 수행하여 제4 특징맵을 획득하도록 구성된다.
선택적으로, 최적화 모듈은 제2 차이값 피드백 서브 모듈을 더 포함하고, 상기 제2 차이값 피드백 서브 모듈은, 획득된 제4 특징맵과 제2 특징맵 간의 차이값을 최적화하고, 최적화된 차이값에 기초하여 제2 특징맵을 최적하여 최종 제4 특징맵을 획득하도록 구성된다.
선택적으로, 재구성 모듈은, 컨볼루션 연산을 통해 제2 특징맵에 대한 특징 처리를 수행하고; 특징 처리 후의 제2 특징맵에 대해 업 샘플링 변환을 수행하고; 업 샘플링 변환 후의 특징맵을 컨볼루션 연산으로 처리하여 제3 특징맵을 획득하도록 구성된다.
선택적으로, 제1 차이값 피드백 서브 모듈은, 제1 특징맵과 제3 특징맵을 감산하여 제1 차이값 특징맵을 획득하고; 컨볼루션 연산을 통해 제1 차이값 특징맵에 대해 특징 학습을 수행하고; 감산된 특징맵에 특징 학습 후의 제1 차이값 특징맵을 추가하여 추가된 특징맵을 획득하고; 상기 추가된 특징맵에 대해 컨볼루션 연산을 통해 특징 학습을 수행하여 상기 최적화된 제3 특징맵을 획득하도록 구성된다.
선택적으로, 다운 샘플링 최적화 서브 모듈은, 컨볼루션 연산을 통해 상기 최적화된 제3 특징맵을 다운 샘플링하고, 다운 샘플링된 제3 특징맵의 특징을 추출하고; 컨볼루션 연산을 통해 특징 추출하여 얻은 특징맵을 학습하여 제4 특징맵을 획득하도록 구성된다.
선택적으로, 제2 차이값 피드백 서브 모듈은, 획득한 제4 특징맵과 제2 특징맵을 감산하여 제2 차이값 특징맵을 획득하고; 컨볼루션 연산을 통해 제2 차이값 특징맵에 대해 특징 학습을 수행하고; 감산된 특징맵에 특징 학습 후의 제2 차이값 특징맵을 추가하여 추가된 특징맵을 획득고; 상기 추가된 특징맵에 대해 컨볼루션 연산을 통해 특징 학습을 수행하여 상기 최적화된 제3 특징맵을 획득하도록 구성된다.
선택적으로, 제2 차이값 피드백 서브 모듈은, 획득한 제4 특징맵과 제2 특징맵을 감산하여 제2 차이값 특징맵을 획득하고; 컨볼루션 연산을 통해 제2 차이값 특징맵에 대해 특징 학습을 수행하고; 어텐션 메커니즘을 통해 특징 학습된 제2 차이값 특징맵에 대해 특징 추출하여, 어텐션 스코어를 획득하고; 획득한 제4 특징맵과 상기 어텐션 스코어를 곱하여, 제1 가중 특징맵을 획득하고; 제2 특징맵과 (1-상기 어텐션 스코어)를 곱하여, 제2 가중 특징맵을 획득하고; 제1 가중 특징맵과 제2 가중 특징맵을 서로 추가하여, 가중 특징맵을 획득하고; 컨볼루션 연산을 통해 상기 가중 특징맵에 대해 특징 학습을 수행하여, 상기 최종 제4 특징맵을 획득하도록 구성된다.
선택적으로, 상기 이미지 압축 장치는 크로스오버 네트워크(corssover network)를 더 포함하고; 상기 코딩 네트워크는 고주파 코딩 서브 네트워크, 저주파 코딩 서브 네트워크 및 융합 네트워크를 포함하고, 상기 고주파 코딩 서브 네트워크 및 상기 저주파 코딩 서브 네트워크는 모두 상기 적어도 하나의 다운 샘플링 백 프로젝션을 포함한다. 상기 크로스오버 네트워크는 상기 입력 이미지에서 고주파 성분 및 저주파 성분을 추출하도록 구성되고; 상기 고주파 코딩 서브 네트워크는 상기 고주파 성분의 은닉 변수를 획득하도록 구성되고, 상기 고주파 코딩 서브 네트워크에 포함된 적어도 하나의 다운 샘플링 백 프로젝션 모듈의 마지막 다운 샘플링 백 프로젝션 모듈에 의해 획득된 제4 특징맵에 기초하여, 상기 고주파 성분의 은닉 변수를 획득하고; 상기 저주파 코딩 서브 네트워크는 상기 저주파 성분의 은닉 변수를 획득하도록 구성되고, 상기 저주파 코딩 서브 네트워크에 포함된 적어도 하나의 다운 샘플링 백 프로젝션 모듈의 마지막 다운 샘플링 백 프로젝션 모듈에 의해 획득된 제4 특징맵에 기초하여, 상기 저주파 성분의 은닉 변수를 획득하고; 융합 네트워크는 상기 고주파 성분의 은닉 변수와 상기 저주파 성분의 은닉 변수를 융합하여 상기 입력 이미지의 은닉 변수를 획득하도록 구성된다.
선택적으로, 융합 유닛은, 상기 고주파 성분의 은닉 변수와 상기 저주파 성분의 은닉 변수를 스플라이싱하여 제1 스플라이싱 은닉 변수를 획득하고; 공간 어텐션 메커니즘을 사용하여, 채널 방향에서 제1 스플라이싱 은닉 변수에 대해 평균 풀링 및 최대 풀링을 각각 진행하고, 해당 평균 풀링 후의 제1 스플라이싱 은닉 변수 및 해당 최대 풀링 후의 제1 스플라이싱 은닉 변수를 스플라이싱하여 제2 스플라이싱 은닉 변수를 획득하고, 컨볼루션 연산을 사용하여 상기 제2 스플라이싱 은닉 변수의 공간 어텐션 스코어를 계산하고; 채널 어텐션 메커니즘을 사용하여, 공간 차원에서 제1 스플라이싱 은닉 변수에 대해 풀링하고, 컨볼루션 연산을 사용하여 풀링 후의 제1 스플라이싱 은닉 변수의 채널 어텐션 스코어를 계산하고; 상기 채널 어텐션 스코어와 공간 어텐션 스코어를 이용하여 상기 저주파 성분의 은닉 변수를 가중하여, 상기 저주파 성분의 가중 은닉 변수를 획득하고; (1-채널 어텐션 스코어) 및 (1-공간 어텐션 스코어)를 사용하여 상기 고주파 성분의 은닉 변수에 대해 가중하여, 상기 고주파 성분의 가중 은닉 변수를 획득하고; 상기 저주파 성분의 가중 은닉 변수와 상기 고주파 성분의 가중 은닉 변수의 합을 상기 입력 이미지의 은닉 변수로 획득하도록 구성된다.
본 개시의 일 실시예에 따른 네 번째 방면에서, 이미지 압축 해제 장치를 제공하고, 상기 장치는, 압축 이미지의 비트스트림 파일에 대해 엔트로피 디코딩을 수행하여, 은닉 변수를 획득하도록 구성된 엔트로피 디코딩 네트워크; 상기 은닉 변수에 기초하여 상기 압축 이미지의 재구성 이미지를 획득하도록 구성된 재구성 네트워크 - 상기 재구성 네트워크는 딥 러닝 신경망이고, 상기 재구성 네트워크는 적어도 하나의 업 샘플링 백 프로젝션 모듈을 포함함 -;를 포함하고, 상기 업 샘플링 백 프로젝션 모듈은 업 샘플링 모듈, 재구성 모듈 및 최적화 모듈을 포함하고, 업 샘플링 모듈은 상기 업 샘플링 모듈에 입력된 제5 특징맵에 대해 업 샘플링 변환을 수행하여 제6 특징맵을 획득하도록 구성되고; 재구성 모듈은 제6 특징맵을 재구성하여 제5 특징맵과 동일한 해상도를 갖는 제7 특징맵을 획득하도록 구성되고; 최적화 모듈은 제5 특징맵과 제7 특징맵 간의 차이값에 기초하여, 제6 특징맵의 최적화 결과로서의 제8 특징맵을 획득하고, 상기 재구성 네트워크에서 적어도 하나의 업 샘플링 백 프로젝션 모듈의 마지막 업 샘플링 백 프로젝션 모듈에 의해 획득된 제8 특징맵은 상기 재구성 이미지로 사용되도록 구성된다.
선택적으로, 최적화 모듈은 제1 차이값 피드백 서브 모듈 및 업 샘플링 최적화 서브 모듈을 포함하고, 제1 차이값 피드백 서브 모듈은, 제5 특징맵과 제7 특징맵 간의 차이값을 최적화하고, 최적화된 차이값에 기초하여 제7 특징맵을 최적화하여, 최적화된 제7 특징맵을 획득하도록 구성되고, 업 샘플링 최적화 서브 모듈은, 최적화된 제7 특징맵에 대해 업 샘플링 및 최적화를 수행하여 제8 특징맵을 획득하도록 구성된다.
선택적으로, 최적화 모듈은 제2 차이값 피드백 서브 모듈을 더 포함하고, 상기 모듈은, 획득한 제8 특징맵과 제6 특징맵 간의 차이값을 최적화하고, 최적화된 차이값에 기초하여 제6 특징맵을 최적화하여, 최종 제8 특징맵을 획득하도록 구성된다.
선택적으로, 재구성 모듈은, 컨볼루션 연산을 통해 제6 특징맵에 대해 특징 처리를 수행하고; 특징 처리 후의 제6 특징맵에 대해 다운 샘플링 변환을 수행하고; 컨볼루션 연산을 통해 다운 샘플링 변환 후의 제6 특징맵을 특징 처리하여 제7 특징맵을 획득하도록 구성된다.
선택적으로, 제1 차이값 피드백 서브 모듈은, 제5 특징맵과 제7 특징맵을 감산하여 제3 차이값 특징맵을 획득하고; 컨볼루션 연산을 통해 제3 차이값 특징맵에 대해 특징 학습을 수행하고; 특징 학습된 제3 차이값 특징맵과 감산된 특징맵을 서로 추가하여 추가된 특징맵을 획득하고; 컨볼루션 연산을 통해 상기 추가된 특징맵에 대해 특징 학습을 수행하여, 상기 최적화된 제7 특징맵을 획득하도록 구성된다.
선택적으로, 업 샘플링 최적화 서브 모듈은, 컨볼루션 연산을 통해 상기 최적화된 제7 특징맵을 업 샘플링하고, 업 샘플링된 제7 특징맵의 특징을 추출하고; 컨볼루션 연산을 통해 특징 추출로 획득한 특징맵에 대해 특징 학습을 수행하여, 제8 특징맵을 획득하도록 구성된다.
선택적으로, 제2 차이값 피드백 서브 모듈은, 획득한 제8 특징맵과 제6 특징맵을 감산하여 제4 차이값 특징맵을 획득하고; 컨볼루션 연산을 통해 제4 차이값 특징맵에 대해 특징 학습을 수행하고; 특징 학습된 제4 차이값 특징맵과 감산된 특징맵을 서로 추가하여 추가된 특징맵을 획득하고; 컨볼루션 연산을 통해 상기 추가된 특징맵에 대해 특징 학습을 수행하여, 상기 최적화된 제7 특징맵을 획득하도록 구성된다.
선택적으로, 제2 차이값 피드백 서브 모듈은, 획득한 제8 특징맵과 제6 특징맵을 감산하여 제4 차이값 특징맵을 획득하고; 컨볼루션 연산을 통해 제4 차이값 특징맵에 대해 특징 학습을 수행하고; 어텐션 메커니즘을 통해 특징 학습된 제4 차이값 특징맵에 대해 특징 추출하여, 어텐션 스코어를 획득하고; 획득한 제8 특징맵과 상기 어텐션 스코어를 곱하여, 제3 가중 특징맵을 획득하고; 제6 특징맵과 (1-상기 어텐션 스코어)를 곱하여, 제4 가중 특징맵을 획득하고; 제3 가중 특징맵과 제4 가중 특징맵을 서로 추가하여, 가중 특징맵을 획득하고; 컨볼루션 연산을 통해 상기 가중 특징맵에 대해 특징 학습을 수행하여, 상기 최종 제8 특징맵을 획득하도록 구성된다.
본 개시의 일 실시예에 따른 다섯 번째 방면에서, 전자 장치를 제공하고, 상기 장치는, 적어도 하나의 프로세서; 컴퓨터로 실행 가능한 명령어들을 저장하는 적어도 하나의 메모리;를 포함하고, 상기 컴퓨터로 실행 가능한 명령어들은 상기 적어도 하나의 프로세서에 의해 실행될 때, 본 개시에 따른 이미지 압축 방법 또는 이미지 압축 해제 방법을 실행하도록 구성된다.
본 개시의 일 실시예에 따른 여섯 번째 방면에서, 컴퓨터로 판독 가능한 저장 매체를 제공하고, 상기 컴퓨터로 판독 가능한 저장 매체의 명령어들은 적어도 하나의 프로세서에 의해 실행될 때, 본 개시에 따른 이미지 압축 방법 또는 이미지 압축 해제 방법을 실행하도록 구성된다.
본 개시의 실시예가 제공하는 기술 방안은 적어도 다음과 같은 유익한 효과를 가져온다.
본 개시의 이미지 압축 방법 및 장치, 이미지 압축 해제 방법 및 장치에 따르면, 백 프로젝션 방법은 이미지 압축 작업에 혁신적으로 사용되어, 재구성 결과를 현재 작업에 피드백함으로써 양방향 정보 교환을 실현하고, 현재 특징맵의 정보의 양을 풍부하게 하고, 리샘플링 후의 특징맵의 품질을 개선하여, 적은 수의 컨볼루션 레이어와 부정확한 저해상도 정보 등으로 인한 업/다운 샘플링 변환으로 얻은 중간 특징맵의 품질 저하를 효과적으로 완화하고, 양자화된 은닉 변수로 인한 재구성 오류 또한 완화한다.
또한, 본 개시에서 제안하는 백 프로젝션 모듈(예, 업 샘플링 백 프로젝션 모듈 및 다운 샘플링 백 프로젝션 모듈)은, 고도로 모듈화된 디자인 또한 상기 백 프로젝션 방법을 쉽게 배포하고 확장할 수 있도록 한다. 실제 적용에서는 모델 속도, 메모리 공간 및 압축 품질 등 요소에 따라 다단계 재구성 및 파라미터 공유 메커니즘을 사용할지 여부를 선택할 수 있다. 구체적으로, 실제 적용의 필요에 따라, 백 프로젝션 모듈은 코딩 네트워크 및/또는 재구성 네트워크의 적어도 하나의 업/다운 샘플링 변환에 유연하게 적용된다. 또한 재구성 모듈, 업/다운 샘플링 최적화 모듈 및 차이값 피드백 모듈이 백 프로젝션 모듈에서 반복적으로 사용되기 때문에, 재사용된 모듈은 실제 적용에서 파라미터를 공유할 수 있으며, 모델의 복잡성을 줄이고 훈련 수렴을 더 빠르게 할 수 있으며, 동시에 모델 파라미터에 일정한 정규화 효과를 나타낸다.
또한, 본 개시는 주파수 영역 분해 및 처리 방법을 통해 원본 이미지의 저주파 및 고주파 성분에 대해 각각 처리 및 융합할 수 있고, 이를 통해 네트워크는 다운 샘플링 프로세스에서 손실되기 쉬운 고주파 세부 사항에 더 집중할 수 있으며, 처리 후의 저주파 및 고주파 정보를 필요에 따라 유연하게 처리하고 융합하여, 상기 이미지 압축 방법의 레이트 왜곡 성능을 효과적으로 최적화한다.
상기 일반적인 설명 및 아래의 상세한 설명은 단지 예시적이고 설명적인 것이며, 본 개시를 제한하지 않는다는 것을 이해해야 한다.
본 개시는 적어도 상기 관련 기술의 문제점을 해결하거나, 상기 문제점을 해결하지 않는 이미지 압축 방법 및 이미지 압축 장치, 이미지 압축 해제 방법 및 이미지 압축 해제 장치를 제공한다.
본 개시의 일 실시예에 따른 첫 번째 방면에서, 이미지 압축 방법을 제공하고, 상기 방법은, 입력 이미지에 기초하여, 코딩 네트워크를 사용하여 상기 입력 이미지의 은닉 변수(hidden variable) 를 획득하는 단계 - 상기 코딩 네트워크는 딥 러닝 신경망이고, 상기 코딩 네트워크는 적어도 하나의 다운 샘플링 백 프로젝션(back projection) 모듈을 포함함 -; 상기 은닉 변수를 기반으로 엔트로피 코딩(entropy coding) 을 수행하여 압축 이미지의 비트스트림(bitstream) 파일을 획득하는 단계;를 포함하고, 상기 코딩 네트워크에 포함된 상기 적어도 하나의 다운 샘플링 백 프로젝션 모듈 각각은, 상기 다운 샘플링 백 프로젝션 모듈에 입력된 제1 특징맵에 대해 다운 샘플링 변환을 수행하여 제2 특징맵을 획득하는 단계; 제2 특징맵을 재구성하여 제1 특징맵과 동일한 해상도를 갖는 제3 특징맵을 획득하는 단계; 제1 특징맵과 제3 특징맵 간의 차이값에 기초하여, 제2 특징맵의 최적화 결과로서의 제4 특징맵을 획득하는 단계 - 상기 은닉 변수는 상기 코딩 네트워크에서 적어도 하나의 다운 샘플링 백 프로젝션 모듈의 마지막 다운 샘플링 백 프로젝션 모듈에 의해 획득된 제4 특징맵에 기초하여 획득됨 -;를 수행한다.
상술한 바와 같이, 이미지 압축 작업의 다운 샘플링 단계에서, 본 발명은 백 프로젝션 방법을 사용하여 재구성 결과를 현재 작업에 피드백함으로써 양방향 정보 교환을 실현하고, 현재 특징맵의 정보의 양을 풍부하게 하고, 리샘플링 후의 특징맵의 품질을 개선하여, 적은 수의 컨볼루션 레이어와 부정확한 저해상도 정보로 인한 다운 샘플링 변환으로 얻은 중간 특징맵의 품질 저하를 효과적으로 완화하고, 양자화된 은닉 변수로 인한 재구성 오류 또한 완화한다. 동시에, 고도로 모듈화된 디자인 또한 상기 백 프로젝션 방법을 쉽게 배포하고 확장할 수 있도록 한다. 실제 적용에서는 모델 속도, 메모리 공간 및 압축 품질 등 요소에 따라 다단계 재구성 및 파라미터 공유 메커니즘을 사용할지 여부를 선택할 수 있다.
선택적으로, 제1 특징맵과 제3 특징맵 간의 차이값에 기초하여, 제2 특징맵의 최적화 결과로서의 제4 특징맵을 획득하는 단계는, 제1 특징맵과 제3 특징맵 간의 차이값을 최적화하고, 최적화된 차이값에 기초하여 제3 특징맵을 최적화하여, 최적화된 제3 특징맵을 획득하는 단계; 최적화된 제3 특징맵에 대해 다운 샘플링 및 최적화를 수행하여 제4 특징맵을 획득하는 단계;를 포함한다.
상술한 바와 같이, 고해상도 중간 이미지(업샘플링에 의해 획득한 재구성 이미지)를 기반으로 차이값 피드백 최적화를 수행하여, 재구성 이미지의 품질을 향상시킨다.
선택적으로, 제1 특징맵과 제3 특징맵 간의 차이값에 기초하여, 제2 특징맵의 최적화 결과로서의 제4 특징맵을 획득하는 단계는, 획득한 제4 특징맵과 제2 특징맵 간의 차이값을 최적화하고, 최적화된 차이값에 기초하여 획득한 제4 특징맵을 최적화하여, 최종 제4 특징맵을 획득하는 단계를 더 포함한다.
상술한 바와 같이, 차이값 피드백 최적화는 고해상도 중간 이미지(업샘플링에 의해 획득된 재구성 이미지)뿐만 아니라 저해상도 중간 이미지(예, 다운샘플링 변환에 의해 획득된 제2 특징맵)을 기반으로 수행된다. 현재 특징맵을 2회로 나눠 최적화하여, 다중 스케일(고해상도 및 저해상도)의 차이값 피드백의 특징 융합을 구현하여, 모델이 특징맵의 전체 수치적 안정성을 보장하는 것을 기반으로 보다 더 효과적으로 새로운 정보를 추출하고 처리할 수 있도록 하며, 이를 통해 훈련의 안정성을 유지하면서 재구성 이미지의 품질을 안정적으로 향상시킨다.
선택적으로, 제2 특징맵을 재구성하여 제1 특징맵과 동일한 해상도를 갖는 제3 특징맵을 획득하는 단계는, 컨볼루션 연산을 통해 제2 특징맵에 대해 특징 처리를 수행하는 단계; 특징 처리 후의 제2 특징맵에 대해 업 샘플링 변환을 수행하는 단계; 컨볼루션 연산을 통해 업 샘플링 변환 후의 특징맵을 특징 처리하여 제3 특징맵을 획득하는 단계;를 포함한다.
선택적으로, 제1 특징맵과 제3 특징맵 간의 차이값을 최적화하고, 최적화된 차이값에 기초하여 제3 특징맵을 최적화하여, 최적화된 제3 특징맵을 획득하는 단계는, 제1 특징맵과 제3 특징맵을 감산(subtract)하여 제1 차이값 특징맵을 획득하는 단계; 컨볼루션 연산을 통해 제1 차이값 특징맵에 대해 특징 학습을 수행하는 단계; 특징 학습된 제1 차이값 특징맵과 감산된 특징맵을 서로 추가하여 추가된 특징맵을 획득하는 단계; 컨볼루션 연산을 통해 상기 추가된 특징맵에 대해 특징 학습을 수행하여, 상기 최적화된 제3 특징맵을 획득하는 단계;를 포함한다.
선택적으로, 최적화된 제3 특징맵에 대해 다운 샘플링 및 최적화를 수행하여 제4 특징맵을 획득하는 단계는, 컨볼루션 연산을 통해 상기 최적화된 제3 특징맵을 다운 샘플링하고, 다운 샘플링된 제3 특징맵의 특징을 추출하는 단계; 컨볼루션 연산을 통해 특징 추출로 획득한 특징맵에 대해 특징 학습을 수행하여, 제4 특징맵을 획득하는 단계;를 포함한다.
선택적으로, 획득한 제4 특징맵과 제2 특징맵 간의 차이값을 최적화하고, 최적화된 차이값에 기초하여 획득한 제4 특징맵을 최적화하여, 최종 제4 특징맵을 획득하는 단계는, 획득한 제4 특징맵과 제2 특징맵을 감산하여 제2 차이값 특징맵을 획득하는 단계; 컨볼루션 연산을 통해 제2 차이값 특징맵에 대해 특징 학습을 수행하는 단계; 특징 학습된 제2 차이값 특징맵과 감산된 특징맵을 서로 추가하여 추가된 특징맵을 획득하는 단계; 컨볼루션 연산을 통해 상기 추가된 특징맵에 대해 특징 학습을 수행하여, 상기 최적화된 제3 특징맵을 획득하는 단계;를 포함한다.
선택적으로, 획득한 제4 특징맵과 제2 특징맵 간의 차이값을 최적화하고, 최적화된 차이값에 기초하여 획득한 제4 특징맵을 최적화하여, 최종 제4 특징맵을 획득하는 단계는, 획득한 제4 특징맵과 제2 특징맵을 감산하여 제2 차이값 특징맵을 획득하는 단계; 컨볼루션 연산을 통해 제2 차이값 특징맵에 대해 특징 학습을 수행하는 단계; 어텐션 메커니즘을 통해 특징 학습된 제2 차이값 특징맵에 대해 특징 추출하여, 어텐션 스코어를 획득하는 단계; 획득한 제4 특징맵과 상기 어텐션 스코어를 곱하여, 제1 가중 특징맵을 획득하는 단계; 제2 특징맵과 (1-상기 어텐션 스코어)를 곱하여, 제2 가중 특징맵을 획득하는 단계; 제1 가중 특징맵과 제2 가중 특징맵을 서로 추가하여, 가중 특징맵을 획득하는 단계; 컨볼루션 연산을 통해 상기 가중 특징맵에 대해 특징 학습을 수행하여, 상기 최종 제4 특징맵을 획득하는 단계;를 포함한다.
상술한 바와 같이, 어텐션 메커니즘을 기반으로 차이값 최적화를 구현하고, 소프트 어텐션 메커니즘을 사용하여 모듈이 특정 부분에 더 많은 어텐션을 기울이고 특징맵에 선택적으로 가중치를 부여함으로써, 차이값 피드백 모듈의 정보 처리 및 융합 능력을 한단계 더 향상시켜, 이미지 압축의 효과와 효율성을 향상시킨다.
선택적으로, 상기 코딩 네트워크는 고주파 코딩 서브 네트워크 및 저주파 코딩 서브 네트워크를 포함하고, 상기 고주파 코딩 서브 네트워크 및 상기 저주파 코딩 서브 네트워크는 모두 적어도 하나의 다운 샘플링 백 프로젝션 모듈을 포함하고, 상기 방법은, 상기 입력 이미지로부터 고주파 성분 및 저주파 성분을 추출하는 단계를 더 포함한다. 입력 이미지에 기초하여, 코딩 네트워크를 사용하여 상기 입력 이미지의 은닉 변수를 획득하는 단계는, 상기 고주파 코딩 서브 네트워크를 사용하여 상기 고주파 성분의 은닉 변수를 획득하는 단계 - 상기 고주파 코딩 서브 네트워크에 포함된 적어도 하나의 다운 샘플링 백 프로젝션 모듈의 마지막 다운 샘플링 백 프로젝션 모듈에 의해 획득된 제4 특징맵에 기초하여, 상기 고주파 성분의 은닉 변수를 획득함 -; 상기 저주파 코딩 서브 네트워크를 사용하여 상기 저주파 성분의 은닉 변수를 획득하는 단계 - 상기 저주파 코딩 서브 네트워크에 포함된 적어도 하나의 다운 샘플링 백 프로젝션 모듈의 마지막 다운 샘플링 백 프로젝션 모듈에 의해 획득된 제4 특징맵에 기초하여, 상기 저주파 성분의 은닉 변수를 획득함 -; 상기 고주파 성분의 은닉 변수와 상기 저주파 성분의 은닉 변수를 융합하여, 상기 입력 이미지의 은닉 변수를 획득하는 단계;를 포함한다.
상술한 바와 같이, 저주파 및 고주파 성분에 대해 각각 처리 및 융합할 수 있으므로, 네트워크는 다운 샘플링 프로세스에서 손실되기 쉬운 고주파 세부 사항에 더 집중할 수 있으며, 압축 과정에서 생성된 고주파 정보의 손실에 대해 명시적이고 효과적으로 처리할 수 있고, 필요에 따라 다운 샘플링 후의 저주파 은닉 변수와 고주파 은닉 변수를 선택적으로 향상, 처리 및 융합하여, 동일한 코드 레이트(code rate)에서의 모델의 재구성 이미지의 품질을 더욱 향상시키고, 상기 이미지 압축 방법의 레이트 왜곡 성능을 효과적으로 최적화한다.
선택적으로, 상기 고주파 성분의 은닉 변수와 상기 저주파 성분의 은닉 변수를 융합하여, 상기 입력 이미지의 은닉 변수를 획득하는 단계는, 상기 고주파 성분의 은닉 변수와 상기 저주파 성분의 은닉 변수를 스플라이싱 하여 제1 스플라이싱 은닉 변수를 획득하는 단계; 공간 어텐션 메커니즘을 사용하여, 채널 방향에서 제1 스플라이싱 은닉 변수에 대해 평균 풀링 및 최대 풀링을 각각 진행하고, 해당 평균 풀링 후의 제1 스플라이싱 은닉 변수 및 해당 최대 풀링 후의 제1 스플라이싱 은닉 변수를 스플라이싱하여 제2 스플라이싱 은닉 변수를 획득하고, 컨볼루션 연산을 사용하여 상기 제2 스플라이싱 은닉 변수의 공간 어텐션 스코어를 계산하는 단계; 채널 어텐션 메커니즘을 사용하여, 공간 차원에서 제1 스플라이싱 은닉 변수에 대해 풀링하고, 컨볼루션 연산을 사용하여 풀링 후의 제1 스플라이싱 은닉 변수의 채널 어텐션 스코어를 계산하는 단계; 상기 채널 어텐션 스코어와 공간 어텐션 스코어를 이용하여 상기 저주파 성분의 은닉 변수를 가중하여, 상기 저주파 성분의 가중 은닉 변수를 획득하는 단계; (1-채널 어텐션 스코어) 및 (1-공간 어텐션 스코어)를 사용하여 상기 고주파 성분의 은닉 변수에 대해 가중하여, 상기 고주파 성분의 가중 은닉 변수를 획득하는 단계; 상기 저주파 성분의 가중 은닉 변수와 상기 고주파 성분의 가중 은닉 변수의 합을 상기 입력 이미지의 은닉 변수로 획득하는 단계;를 포함한다.
상술한 바와 같이, 공간 어텐션 스코어를 계산할 때, 특징맵에 대해 최대 풀링과 평균 풀링을 진행하여 계산량을 효과적으로 줄일 수 있다. 또한, 저주파 성분의 특징맵(즉, 은닉 변수)에 어텐션 스코어를 곱하고, 고주파 성분의 특징맵에 (1-어텐션 스코어)를 곱하는 소프트 융합 방식을 통해, 융합 품질을 보다 더 향상시킬 수 있다.
본 개시의 일 실시예에 따른 두 번째 방면에서, 이미지 압축 해제 방법을 제공하고, 상기 방법은, 압축 이미지의 비트스트림 파일에 대해 엔트로피 디코딩(entropy decoding)을 수행하여, 은닉 변수를 획득하는 단계; 상기 은닉 변수에 기초하여, 재구성 네트워크를 사용하여 상기 압축 이미지의 재구성 이미지를 획득하는 단계 - 상기 재구성 네트워크는 딥 러닝 신경망이고, 상기 재구성 네트워크는 적어도 하나의 업 샘플링 백 프로젝션 모듈을 포함함 -;를 포함하고, 상기 재구성 네트워크에 포함된 상기 적어도 하나의 업 샘플링 백 프로젝션 모듈 각각은, 상기 업 샘플링 백 프로젝션 모듈에 입력된 제5 특징맵에 대해 업 샘플링 변환을 수행하여 제6 특징맵을 획득하는 단계; 제6 특징맵을 재구성하여 제5 특징맵과 동일한 해상도를 갖는 제7 특징맵을 획득하는 단계; 제5 특징맵과 제7 특징맵 간의 차이값에 기초하여, 제6 특징맵의 최적화 결과로서의 제8 특징맵을 획득하고, 상기 재구성 네트워크에서 적어도 하나의 업 샘플링 백 프로젝션 모듈의 마지막 업 샘플링 백 프로젝션 모듈에 의해 획득된 제8 특징맵은 상기 재구성 이미지로 사용되는 단계;를 수행한다.
상술한 바와 같이, 백 프로젝션 방법은 네트워크를 재구성하기 위해 적용되고, 재구성 결과를 현재 작업에 피드백함으로써 양방향 정보 교환을 실현하고, 현재 특징맵의 정보의 양을 풍부하게 하고, 리샘플링 후의 특징맵의 품질을 개선하여, 양자화로 인한 정보 손실을 줄이고 업 샘플링 프로세스에서 발생하는 부적절한 문제를 완화한다. 동시에, 고도로 모듈화된 디자인 또한 상기 백 프로젝션 방법을 쉽게 배포하고 확장할 수 있도록 한다. 실제 적용에서는 모델 속도, 메모리 공간 및 압축 품질 등 요소에 따라 다단계 재구성 및 파라미터 공유 메커니즘을 사용할지 여부를 선택할 수 있다.
선택적으로, 제5 특징맵과 제7 특징맵 간의 차이값에 기초하여, 제6 특징맵의 최적화 결과로서의 제8 특징맵을 획득하는 단계는, 제5 특징맵과 제7 특징맵 간의 차이값을 최적화하고, 최적화된 차이값에 기초하여 제7 특징맵을 최적화하여, 최적화된 제7 특징맵을 획득하는 단계; 최적화된 제7 특징맵에 대해 업 샘플링 및 최적화를 수행하여 제8 특징맵을 획득하는 단계;를 포함한다.
상술한 바와 같이, 고해상도 중간 이미지(업샘플링에 의해 획득한 재구성 이미지)를 기반으로 차이값 피드백 최적화를 수행하여, 재구성 이미지의 품질을 향상시킨다.
선택적으로, 제5 특징맵과 제7 특징맵 간의 차이값에 기초하여, 제6 특징맵의 최적화 결과로서의 제8 특징맵을 획득하는 단계는, 획득한 제8 특징맵과 제6 특징맵 간의 차이값을 최적화하고, 최적화된 차이값에 기초하여 제6 특징맵을 최적화하여, 최종 제8 특징맵을 획득하는 단계를 더 포함한다.
상술한 바와 같이, 차이값 피드백 최적화는 고해상도 중간 이미지(업샘플링에 의해 획득된 재구성 이미지)뿐만 아니라 저해상도 중간 이미지(예, 다운샘플링 변환에 의해 획득된 제2 특징맵)을 기반으로 수행된다. 현재 특징맵을 2회로 나눠 최적화하여, 다중 스케일(고해상도 및 저해상도)의 차이값 피드백의 특징 융합을 구현하여, 모델이 특징맵의 전체 수치적 안정성을 보장하는 것을 기반으로 보다 더 효과적으로 새로운 정보를 추출하고 처리할 수 있도록 하며, 이를 통해 훈련의 안정성을 유지하면서 재구성 이미지의 품질을 안정적으로 향상시킨다.
선택적으로, 제6 특징맵을 재구성하여 제5 특징맵과 동일한 해상도를 갖는 제7 특징맵을 획득하는 단계는, 컨볼루션 연산을 통해 제6 특징맵에 대해 특징 처리를 수행하는 단계; 특징 처리 후의 제6 특징맵에 대해 다운 샘플링 변환을 수행하는 단계; 컨볼루션 연산을 통해 다운 샘플링 변환 후의 제6 특징맵을 특징 처리하여 제7 특징맵을 획득하는 단계;를 포함한다.
선택적으로, 제5 특징맵과 제7 특징맵 간의 차이값을 최적화하고, 최적화된 차이값에 기초하여 제7 특징맵을 최적화하여, 최적화된 제7 특징맵을 획득하는 단계는, 제5 특징맵과 제7 특징맵을 감산하여 제3 차이값 특징맵을 획득하는 단계; 컨볼루션 연산을 통해 제3 차이값 특징맵에 대해 특징 학습을 수행하는 단계; 특징 학습된 제3 차이값 특징맵과 감산된 특징맵을 서로 추가하여 추가된 특징맵을 획득하는 단계; 컨볼루션 연산을 통해 상기 추가된 특징맵에 대해 특징 학습을 수행하여, 상기 최적화된 제7 특징맵을 획득하는 단계;를 포함한다.
선택적으로, 최적화된 제7 특징맵에 대해 업 샘플링 및 최적화를 수행하여 제8 특징맵을 획득하는 단계는, 컨볼루션 연산을 통해 상기 최적화된 제7 특징맵을 업 샘플링하고, 업 샘플링된 제7 특징맵의 특징을 추출하는 단계; 컨볼루션 연산을 통해 특징 추출로 획득한 특징맵에 대해 특징 학습을 수행하여, 제8 특징맵을 획득하는 단계;를 포함한다.
선택적으로, 획득한 제8 특징맵과 제6 특징맵 간의 차이값을 최적화하고, 최적화된 차이값에 기초하여 획득한 제8 특징맵을 최적화하여, 최종 제8 특징맵을 획득하는 단계는, 획득한 제8 특징맵과 제6 특징맵을 감산하여 제4 차이값 특징맵을 획득하는 단계; 컨볼루션 연산을 통해 제4 차이값 특징맵에 대해 특징 학습을 수행하는 단계; 특징 학습된 제4 차이값 특징맵과 감산된 특징맵을 서로 추가하여 추가된 특징맵을 획득하는 단계; 컨볼루션 연산을 통해 상기 추가된 특징맵에 대해 특징 학습을 수행하여, 상기 최적화된 제7 특징맵을 획득하는 단계;를 포함한다.
선택적으로, 획득한 제8 특징맵과 제6 특징맵 간의 차이값을 최적화하고, 최적화된 차이값에 기초하여 획득한 제8 특징맵을 최적화하여, 최종 제8 특징맵을 획득하는 단계는, 획득한 제8 특징맵과 제6 특징맵을 감산하여 제4 차이값 특징맵을 획득하는 단계; 컨볼루션 연산을 통해 제4 차이값 특징맵에 대해 특징 학습을 수행하는 단계; 어텐션 메커니즘을 통해 특징 학습된 제4 차이값 특징맵에 대해 특징 추출하여, 어텐션 스코어를 획득하는 단계; 획득한 제8 특징맵과 상기 어텐션 스코어를 곱하여, 제3 가중 특징맵을 획득하는 단계; 제6 특징맵과 (1-상기 어텐션 스코어)를 곱하여, 제4 가중 특징맵을 획득하는 단계; 제3 가중 특징맵과 제4 가중 특징맵을 서로 추가하여, 가중 특징맵을 획득하는 단계; 컨볼루션 연산을 통해 상기 가중 특징맵에 대해 특징 학습을 수행하여, 상기 최종 제8 특징맵을 획득하는 단계;를 포함한다.
상술한 바와 같이, 어텐션 메커니즘을 기반으로 차이값 최적화를 구현하고, 소프트 어텐션 메커니즘을 사용하여 모듈이 특정 부분에 더 많은 어텐션을 기울이고 특징맵에 선택적으로 가중치를 부여함으로써, 차이값 피드백 모듈의 정보 처리 및 융합 능력을 한단계 더 향상시켜, 이미지 압축의 효과와 효율성을 향상시킨다.
본 개시의 일 실시예에 따른 세 번째 방면에서, 이미지 압축 장치를 제공하고, 상기 장치는, 입력 이미지에 기초하여 상기 입력 이미지의 은닉 변수를 획득하도록 구성된 코딩 네트워크 - 상기 코딩 네트워크는 딥 러닝 신경망이고, 상기 코딩 네트워크는 적어도 하나의 다운 샘플링 백 프로젝션 모듈을 포함함 -; 상기 은닉 변수를 기반으로 엔트로피 코딩을 수행하여 압축 이미지의 비트스트림 파일을 획득하도록 구성된 엔트로피 코딩 네트워크;를 포함하고, 상기 다운 샘플링 백 프로젝션 모듈은 다운 샘플링 모듈, 재구성 모듈 및 최적화 모듈을 포함하고, 상기 다운 샘플링 모듈은 상기 다운 샘플링 모듈에 입력된 제1 특징맵에 대해 다운 샘플링 변환을 수행하여 제2 특징맵을 획득하도록 구성되고; 재구성 모듈은 제2 특징맵을 재구성하여 제1 특징맵과 동일한 해상도를 갖는 제3 특징맵을 획득하도록 구성되고; 최적화 모듈은 제1 특징맵과 제3 특징맵 간의 차이값에 기초하여, 제2 특징맵의 최적화 결과로서의 제4 특징맵을 획득하도록 구성되고, 상기 은닉 변수는 상기 코딩 네트워크에서 적어도 하나의 다운 샘플링 백 프로젝션 모듈의 마지막 다운 샘플링 백 프로젝션 모듈에 의해 획득된 제4 특징맵에 기초하여 획득된다. 선택적으로, 최적화 모듈은 제1 차이값 피드백 서브 모듈 및 다운 샘플링 최적화 서브 모듈을 포함하고, 제1 차이값 피드백 서브 모듈은 제1 특징맵과 제3 특징맵 간의 차이값을 최적화하고, 최적화된 차이값에 기초하여 제3 특징맵을 최적화하여 최적화된 제3 특징맵을 획득하도록 구성되고; 다운 샘플링 최적화 서브 모듈은 최적화된 제3 특징맵에 대해 다운 샘플링 및 최적화를 수행하여 제4 특징맵을 획득하도록 구성된다.
선택적으로, 최적화 모듈은 제2 차이값 피드백 서브 모듈을 더 포함하고, 상기 제2 차이값 피드백 서브 모듈은, 획득된 제4 특징맵과 제2 특징맵 간의 차이값을 최적화하고, 최적화된 차이값에 기초하여 제2 특징맵을 최적하여 최종 제4 특징맵을 획득하도록 구성된다.
선택적으로, 재구성 모듈은, 컨볼루션 연산을 통해 제2 특징맵에 대한 특징 처리를 수행하고; 특징 처리 후의 제2 특징맵에 대해 업 샘플링 변환을 수행하고; 업 샘플링 변환 후의 특징맵을 컨볼루션 연산으로 처리하여 제3 특징맵을 획득하도록 구성된다.
선택적으로, 제1 차이값 피드백 서브 모듈은, 제1 특징맵과 제3 특징맵을 감산하여 제1 차이값 특징맵을 획득하고; 컨볼루션 연산을 통해 제1 차이값 특징맵에 대해 특징 학습을 수행하고; 감산된 특징맵에 특징 학습 후의 제1 차이값 특징맵을 추가하여 추가된 특징맵을 획득하고; 상기 추가된 특징맵에 대해 컨볼루션 연산을 통해 특징 학습을 수행하여 상기 최적화된 제3 특징맵을 획득하도록 구성된다.
선택적으로, 다운 샘플링 최적화 서브 모듈은, 컨볼루션 연산을 통해 상기 최적화된 제3 특징맵을 다운 샘플링하고, 다운 샘플링된 제3 특징맵의 특징을 추출하고; 컨볼루션 연산을 통해 특징 추출하여 얻은 특징맵을 학습하여 제4 특징맵을 획득하도록 구성된다.
선택적으로, 제2 차이값 피드백 서브 모듈은, 획득한 제4 특징맵과 제2 특징맵을 감산하여 제2 차이값 특징맵을 획득하고; 컨볼루션 연산을 통해 제2 차이값 특징맵에 대해 특징 학습을 수행하고; 감산된 특징맵에 특징 학습 후의 제2 차이값 특징맵을 추가하여 추가된 특징맵을 획득고; 상기 추가된 특징맵에 대해 컨볼루션 연산을 통해 특징 학습을 수행하여 상기 최적화된 제3 특징맵을 획득하도록 구성된다.
선택적으로, 제2 차이값 피드백 서브 모듈은, 획득한 제4 특징맵과 제2 특징맵을 감산하여 제2 차이값 특징맵을 획득하고; 컨볼루션 연산을 통해 제2 차이값 특징맵에 대해 특징 학습을 수행하고; 어텐션 메커니즘을 통해 특징 학습된 제2 차이값 특징맵에 대해 특징 추출하여, 어텐션 스코어를 획득하고; 획득한 제4 특징맵과 상기 어텐션 스코어를 곱하여, 제1 가중 특징맵을 획득하고; 제2 특징맵과 (1-상기 어텐션 스코어)를 곱하여, 제2 가중 특징맵을 획득하고; 제1 가중 특징맵과 제2 가중 특징맵을 서로 추가하여, 가중 특징맵을 획득하고; 컨볼루션 연산을 통해 상기 가중 특징맵에 대해 특징 학습을 수행하여, 상기 최종 제4 특징맵을 획득하도록 구성된다.
선택적으로, 상기 이미지 압축 장치는 크로스오버 네트워크(corssover network)를 더 포함하고; 상기 코딩 네트워크는 고주파 코딩 서브 네트워크, 저주파 코딩 서브 네트워크 및 융합 네트워크를 포함하고, 상기 고주파 코딩 서브 네트워크 및 상기 저주파 코딩 서브 네트워크는 모두 상기 적어도 하나의 다운 샘플링 백 프로젝션을 포함한다. 상기 크로스오버 네트워크는 상기 입력 이미지에서 고주파 성분 및 저주파 성분을 추출하도록 구성되고; 상기 고주파 코딩 서브 네트워크는 상기 고주파 성분의 은닉 변수를 획득하도록 구성되고, 상기 고주파 코딩 서브 네트워크에 포함된 적어도 하나의 다운 샘플링 백 프로젝션 모듈의 마지막 다운 샘플링 백 프로젝션 모듈에 의해 획득된 제4 특징맵에 기초하여, 상기 고주파 성분의 은닉 변수를 획득하고; 상기 저주파 코딩 서브 네트워크는 상기 저주파 성분의 은닉 변수를 획득하도록 구성되고, 상기 저주파 코딩 서브 네트워크에 포함된 적어도 하나의 다운 샘플링 백 프로젝션 모듈의 마지막 다운 샘플링 백 프로젝션 모듈에 의해 획득된 제4 특징맵에 기초하여, 상기 저주파 성분의 은닉 변수를 획득하고; 융합 네트워크는 상기 고주파 성분의 은닉 변수와 상기 저주파 성분의 은닉 변수를 융합하여 상기 입력 이미지의 은닉 변수를 획득하도록 구성된다.
선택적으로, 융합 유닛은, 상기 고주파 성분의 은닉 변수와 상기 저주파 성분의 은닉 변수를 스플라이싱하여 제1 스플라이싱 은닉 변수를 획득하고; 공간 어텐션 메커니즘을 사용하여, 채널 방향에서 제1 스플라이싱 은닉 변수에 대해 평균 풀링 및 최대 풀링을 각각 진행하고, 해당 평균 풀링 후의 제1 스플라이싱 은닉 변수 및 해당 최대 풀링 후의 제1 스플라이싱 은닉 변수를 스플라이싱하여 제2 스플라이싱 은닉 변수를 획득하고, 컨볼루션 연산을 사용하여 상기 제2 스플라이싱 은닉 변수의 공간 어텐션 스코어를 계산하고; 채널 어텐션 메커니즘을 사용하여, 공간 차원에서 제1 스플라이싱 은닉 변수에 대해 풀링하고, 컨볼루션 연산을 사용하여 풀링 후의 제1 스플라이싱 은닉 변수의 채널 어텐션 스코어를 계산하고; 상기 채널 어텐션 스코어와 공간 어텐션 스코어를 이용하여 상기 저주파 성분의 은닉 변수를 가중하여, 상기 저주파 성분의 가중 은닉 변수를 획득하고; (1-채널 어텐션 스코어) 및 (1-공간 어텐션 스코어)를 사용하여 상기 고주파 성분의 은닉 변수에 대해 가중하여, 상기 고주파 성분의 가중 은닉 변수를 획득하고; 상기 저주파 성분의 가중 은닉 변수와 상기 고주파 성분의 가중 은닉 변수의 합을 상기 입력 이미지의 은닉 변수로 획득하도록 구성된다.
본 개시의 일 실시예에 따른 네 번째 방면에서, 이미지 압축 해제 장치를 제공하고, 상기 장치는, 압축 이미지의 비트스트림 파일에 대해 엔트로피 디코딩을 수행하여, 은닉 변수를 획득하도록 구성된 엔트로피 디코딩 네트워크; 상기 은닉 변수에 기초하여 상기 압축 이미지의 재구성 이미지를 획득하도록 구성된 재구성 네트워크 - 상기 재구성 네트워크는 딥 러닝 신경망이고, 상기 재구성 네트워크는 적어도 하나의 업 샘플링 백 프로젝션 모듈을 포함함 -;를 포함하고, 상기 업 샘플링 백 프로젝션 모듈은 업 샘플링 모듈, 재구성 모듈 및 최적화 모듈을 포함하고, 업 샘플링 모듈은 상기 업 샘플링 모듈에 입력된 제5 특징맵에 대해 업 샘플링 변환을 수행하여 제6 특징맵을 획득하도록 구성되고; 재구성 모듈은 제6 특징맵을 재구성하여 제5 특징맵과 동일한 해상도를 갖는 제7 특징맵을 획득하도록 구성되고; 최적화 모듈은 제5 특징맵과 제7 특징맵 간의 차이값에 기초하여, 제6 특징맵의 최적화 결과로서의 제8 특징맵을 획득하고, 상기 재구성 네트워크에서 적어도 하나의 업 샘플링 백 프로젝션 모듈의 마지막 업 샘플링 백 프로젝션 모듈에 의해 획득된 제8 특징맵은 상기 재구성 이미지로 사용되도록 구성된다.
선택적으로, 최적화 모듈은 제1 차이값 피드백 서브 모듈 및 업 샘플링 최적화 서브 모듈을 포함하고, 제1 차이값 피드백 서브 모듈은, 제5 특징맵과 제7 특징맵 간의 차이값을 최적화하고, 최적화된 차이값에 기초하여 제7 특징맵을 최적화하여, 최적화된 제7 특징맵을 획득하도록 구성되고, 업 샘플링 최적화 서브 모듈은, 최적화된 제7 특징맵에 대해 업 샘플링 및 최적화를 수행하여 제8 특징맵을 획득하도록 구성된다.
선택적으로, 최적화 모듈은 제2 차이값 피드백 서브 모듈을 더 포함하고, 상기 모듈은, 획득한 제8 특징맵과 제6 특징맵 간의 차이값을 최적화하고, 최적화된 차이값에 기초하여 제6 특징맵을 최적화하여, 최종 제8 특징맵을 획득하도록 구성된다.
선택적으로, 재구성 모듈은, 컨볼루션 연산을 통해 제6 특징맵에 대해 특징 처리를 수행하고; 특징 처리 후의 제6 특징맵에 대해 다운 샘플링 변환을 수행하고; 컨볼루션 연산을 통해 다운 샘플링 변환 후의 제6 특징맵을 특징 처리하여 제7 특징맵을 획득하도록 구성된다.
선택적으로, 제1 차이값 피드백 서브 모듈은, 제5 특징맵과 제7 특징맵을 감산하여 제3 차이값 특징맵을 획득하고; 컨볼루션 연산을 통해 제3 차이값 특징맵에 대해 특징 학습을 수행하고; 특징 학습된 제3 차이값 특징맵과 감산된 특징맵을 서로 추가하여 추가된 특징맵을 획득하고; 컨볼루션 연산을 통해 상기 추가된 특징맵에 대해 특징 학습을 수행하여, 상기 최적화된 제7 특징맵을 획득하도록 구성된다.
선택적으로, 업 샘플링 최적화 서브 모듈은, 컨볼루션 연산을 통해 상기 최적화된 제7 특징맵을 업 샘플링하고, 업 샘플링된 제7 특징맵의 특징을 추출하고; 컨볼루션 연산을 통해 특징 추출로 획득한 특징맵에 대해 특징 학습을 수행하여, 제8 특징맵을 획득하도록 구성된다.
선택적으로, 제2 차이값 피드백 서브 모듈은, 획득한 제8 특징맵과 제6 특징맵을 감산하여 제4 차이값 특징맵을 획득하고; 컨볼루션 연산을 통해 제4 차이값 특징맵에 대해 특징 학습을 수행하고; 특징 학습된 제4 차이값 특징맵과 감산된 특징맵을 서로 추가하여 추가된 특징맵을 획득하고; 컨볼루션 연산을 통해 상기 추가된 특징맵에 대해 특징 학습을 수행하여, 상기 최적화된 제7 특징맵을 획득하도록 구성된다.
선택적으로, 제2 차이값 피드백 서브 모듈은, 획득한 제8 특징맵과 제6 특징맵을 감산하여 제4 차이값 특징맵을 획득하고; 컨볼루션 연산을 통해 제4 차이값 특징맵에 대해 특징 학습을 수행하고; 어텐션 메커니즘을 통해 특징 학습된 제4 차이값 특징맵에 대해 특징 추출하여, 어텐션 스코어를 획득하고; 획득한 제8 특징맵과 상기 어텐션 스코어를 곱하여, 제3 가중 특징맵을 획득하고; 제6 특징맵과 (1-상기 어텐션 스코어)를 곱하여, 제4 가중 특징맵을 획득하고; 제3 가중 특징맵과 제4 가중 특징맵을 서로 추가하여, 가중 특징맵을 획득하고; 컨볼루션 연산을 통해 상기 가중 특징맵에 대해 특징 학습을 수행하여, 상기 최종 제8 특징맵을 획득하도록 구성된다.
본 개시의 일 실시예에 따른 다섯 번째 방면에서, 전자 장치를 제공하고, 상기 장치는, 적어도 하나의 프로세서; 컴퓨터로 실행 가능한 명령어들을 저장하는 적어도 하나의 메모리;를 포함하고, 상기 컴퓨터로 실행 가능한 명령어들은 상기 적어도 하나의 프로세서에 의해 실행될 때, 본 개시에 따른 이미지 압축 방법 또는 이미지 압축 해제 방법을 실행하도록 구성된다.
본 개시의 일 실시예에 따른 여섯 번째 방면에서, 컴퓨터로 판독 가능한 저장 매체를 제공하고, 상기 컴퓨터로 판독 가능한 저장 매체의 명령어들은 적어도 하나의 프로세서에 의해 실행될 때, 본 개시에 따른 이미지 압축 방법 또는 이미지 압축 해제 방법을 실행하도록 구성된다.
본 개시의 실시예가 제공하는 기술 방안은 적어도 다음과 같은 유익한 효과를 가져온다.
본 개시의 이미지 압축 방법 및 장치, 이미지 압축 해제 방법 및 장치에 따르면, 백 프로젝션 방법은 이미지 압축 작업에 혁신적으로 사용되어, 재구성 결과를 현재 작업에 피드백함으로써 양방향 정보 교환을 실현하고, 현재 특징맵의 정보의 양을 풍부하게 하고, 리샘플링 후의 특징맵의 품질을 개선하여, 적은 수의 컨볼루션 레이어와 부정확한 저해상도 정보 등으로 인한 업/다운 샘플링 변환으로 얻은 중간 특징맵의 품질 저하를 효과적으로 완화하고, 양자화된 은닉 변수로 인한 재구성 오류 또한 완화한다.
또한, 본 개시에서 제안하는 백 프로젝션 모듈(예, 업 샘플링 백 프로젝션 모듈 및 다운 샘플링 백 프로젝션 모듈)은, 고도로 모듈화된 디자인 또한 상기 백 프로젝션 방법을 쉽게 배포하고 확장할 수 있도록 한다. 실제 적용에서는 모델 속도, 메모리 공간 및 압축 품질 등 요소에 따라 다단계 재구성 및 파라미터 공유 메커니즘을 사용할지 여부를 선택할 수 있다. 구체적으로, 실제 적용의 필요에 따라, 백 프로젝션 모듈은 코딩 네트워크 및/또는 재구성 네트워크의 적어도 하나의 업/다운 샘플링 변환에 유연하게 적용된다. 또한 재구성 모듈, 업/다운 샘플링 최적화 모듈 및 차이값 피드백 모듈이 백 프로젝션 모듈에서 반복적으로 사용되기 때문에, 재사용된 모듈은 실제 적용에서 파라미터를 공유할 수 있으며, 모델의 복잡성을 줄이고 훈련 수렴을 더 빠르게 할 수 있으며, 동시에 모델 파라미터에 일정한 정규화 효과를 나타낸다.
또한, 본 개시는 주파수 영역 분해 및 처리 방법을 통해 원본 이미지의 저주파 및 고주파 성분에 대해 각각 처리 및 융합할 수 있고, 이를 통해 네트워크는 다운 샘플링 프로세스에서 손실되기 쉬운 고주파 세부 사항에 더 집중할 수 있으며, 처리 후의 저주파 및 고주파 정보를 필요에 따라 유연하게 처리하고 융합하여, 상기 이미지 압축 방법의 레이트 왜곡 성능을 효과적으로 최적화한다.
상기 일반적인 설명 및 아래의 상세한 설명은 단지 예시적이고 설명적인 것이며, 본 개시를 제한하지 않는다는 것을 이해해야 한다.
본 명세서의 도면은 본 명세서에 포함되어 명세서의 일부를 구성하고, 본 발명에 부합하는 실시예를 나타내고, 본 명세서와 함께 본 발명의 원리를 설명하기 위해 사용되는 것으로, 본 발명의 부적절한 제한을 구성하지 않는다.
도 1은 본 개시의 예시적 실시예에 따른 종단간 이미지 압축 모델을 도시한 구조도이다.
도 2는 본 개시의 예시적 실시예에 따른 종단간 이미지 압축 흐름을 도시한 예시도이다.
도 3은 본 개시의 다른 예시적 실시예에 따른 종단간 이미지 압축 모델의 구조도이다.
도 4는 본 개시의 다른 예시적 실시예에 따른 종단간 이미지 압축 흐름을 도시한 예시도이다.
도 5는 본 개시의 예시적 실시예에 따른 종단간 이미지 압축 모델을 도시한 네트워크도이다.
도 6은 본 개시의 예시적 실시예에 따른 코딩 네트워크에서 다운 샘플링 모듈을 도시한 구조도이다.
도 7은 본 개시의 예시적 실시예에 따른 코딩 네트워크에서 재구성 모듈을 도시한 구조도이다.
도 8은 본 개시의 예시적 실시예에 따른 코딩 네트워크에서 제1 차이값 피드백 모듈을 도시한 구조도이다.
도 9는 본 개시의 예시적 실시예에 따른 코딩 네트워크에서 다운 샘플링 최적화 모듈을 도시한 구조도이다.
도 10은 본 개시의 예시적 실시예에 따른 다운 샘플링 백 프로젝션 모듈을 도시한 구조도이다.
도 11은 본 개시의 다른 예시적 실시예에 따른 다운 샘플링 백 프로젝션 모듈을 도시한 구조도이다.
도 12는 본 개시의 다른 예시적 실시예에 따른 종단간 이미지 압축 모델을 도시한 네트워크도이다.
도 13은 본 개시의 예시적 실시예에 따른 크로스오버 네트워크(Crossover network)를 도시한 구조도이다.
도 14는 본 개시의 예시적 실시예에 따른 융합 네트워크를 도시한 구조도이다.
도 15는 본 개시의 예시적 실시예에 따른 이미지 압축 방법을 도시한 흐름도이다.
도 16은 본 개시의 예시적 실시예에 따른 이미지 압축 해제 방법을 도시한 흐름도이다.
도 17은 본 개시의 예시적 실시예에 따른 종단간 이미지 압축 방법을 도시한 흐름도이다.
도 18은 본 개시의 예시적 실시예에 따른 이미지 압축 장치를 도시한 블록도이다.
도 19는 본 개시의 예시적 실시예에 따른 이미지 압축 해제 장치를 도시한 블록도이다.
도 20은 본 개시의 예시적 실시예에 따른 종단간 이미지 압축 장치를 도시한 블록도이다.
도 21은 본 개시의 예시적 실시예에 따른 전자 장치의 블록도이다.
이하, 본 기술분야의 통상의 지식을 가진 자가 본 개시의 기술방안을 보다 잘 이해할 수 있도록, 첨부된 도면과 함께 본 개시의 실시예의 기술방안에 대해 명확하고 완전하게 설명한다.
본 개시의 명세서, 특허 청구범위 및 상기 도면에서의 "제1", "제2" 등의 용어는 유사한 대상을 구별하기 위해 사용된 것으로, 특정 순서 또는 앞뒤 순서를 설명하기 위해 사용될 필요가 없음에 유의해야 한다. 여기에 설명된 본 개시의 실시예가 여기에 예시되거나 설명된 것과 다른 순서로 구현될 수 있도록, 이렇게 사용된 데이터는 적절한 경우 상호교환 가능하다는 것을 이해해야 한다. 아래 실시예에서 설명하는 실시 방안은 본 개시와 일치하는 모든 실시예를 나타내는 것은 아니다. 반대로, 이들은 첨부된 청구범위에 상세히 설명된 바와 같이 본 개시의 일부 측면과 일치하는 장치 및 방법의 예시일 뿐이다.
여기서, 본 개시에서 나타나는 "여러 항목 중 적어도 하나"는 "여러 항목 중 임의의 하나", "여러 항목의 임의의 조합" 및 "여러 항목 모두"의 병치를 의미한다는 점에 유의해야 한다. 예를 들어, "A 및 B 중 적어도 하나를 포함"은 다음 세 가지 병렬 상황을 포함한다: (1) A 포함; (2) B 포함; (3) A와 B를 포함. 또 다른 예로, "1단계와 2단계 중 적어도 하나를 실행"하는 것은, 다음 세 가지 병렬 상황을 의미한다: (1) 1단계 실행; (2) 2단계 실행; (3) 1단계 및 2단계 실행.
딥 러닝 기반의 이미지 압축 방법은 심층 신경망을 사용하여 원본 이미지에서 재구성 이미지로의 매핑을 구성하고 구현한다. 컨볼루션 커널을 사용하여 고해상도 특징맵에서 각 픽셀의 로컬 컨텍스트 정보(Local Contextual Information)를 학습할 수 있으므로, 네트워크는 픽셀 주변 픽셀의 값 크기에 따라 양자화 전 해당 픽셀 값을 추정할 수 있고, 이를 통해 양자화 오류를 줄이고 재구성 이미지의 품질을 개선할 수 있다. 딥러닝 기반의 방법은 크게 두 가지로 나눌 수 있다. 하나는 기존 방식을 기반으로 후처리 신경망을 추가함으로써, 기존 방식의 재구성 이미지를 후처리 네트워크에 입력하여 후처리 재구성 이미지를 획득하는 것이다. 이러한 종류의 후처리 신경망은 이미지 초해상도, 이미지 노이즈 제거 등 측면에서 어느 정도 성공했으나, 기존 방법의 재구성 이미지는 두드러지는 압축 아티팩트가 존재하기 ‹š문에, 후처리 네트워크는 압축 아티팩트를 효과적으로 제거할 수 없으며, 이로 인해 재구성된 이미지에는 압축 아티팩트가 여전히 존재하게 된다. 딥 러닝을 기반으로 하는 또 다른 방법은 종단간 이미지 압축으로, 종단간 방법은 일반적으로 가변 오토인코더(Variational Autoencoder) 또는 GAN(Generative Adversarial Networks)을 채택한다. 가변 오토인코더 또는 GAN은 모두 코딩 신경망을 통해 입력 이미지를 입력 이미지를 나타내는 은닉 변수로 처리하고, 컨텍스트 모델을 통해 은닉 변수를 양자화하고 분포 파라미터를 추출한 다음, 엔트로피 코딩(entropy coding)을 사용하여 비트스트림(bitstream) 파일, 즉 압축된 이미지를 생성한다. 비트스트림은 엔트로피 디코딩(entropy decoding)되어 은닉 변수(hidden variable)를 얻고, 은닉 변수는 가변 오토인코더의 생성 신경망 또는 GAN의 생성기를 통해 재구성된 이미지를 얻는다. GAN의 방법은 인지 효과에 더 주의를 기울이고 되고, 생성된 이미지와 원본 이미지 사이에 구조적 일관성(SSIM) 차이의 문제가 발생하게 된다. 적합성 부족으로 인해, 가변 오토인코더 방식은 압축률이 높은 조건에서, 생성된 이미지가 흐릿하고 노이즈 및 압축 아티팩트 등과 같은 문제가 발생하게 된다.
기존 방식의 문제점은 주로 압축 과정에서 정보 손실을 효과적으로 처리하지 못한다는데 있다. 종단간 이미지 압축에서 손실된 정보는 다음을 포함한다. (1) 은닉 변수 양자화로 인한 정보 손실. 예를 들어, 기존의 종단간 깊이 압축 모델에서, 엔트로피 코딩 방식이 원본 데이터를 왜곡 없이 압축할 수 있도록 하기 위해, 모델은 압축 전 은닉 변수를 양자화해야 한다. 양자화로 인한 정보 손실은 이미지 복원에 부정적인 영향을 미친다. 구체적으로, 양자화로 인한 수치적 차이는 재구성 이미지의 다중 업 샘플링 과정에서 계층별로 증폭되어, 최종적으로 재구성 이미지와 원본 이미지의 차이가 커지고, 압축 아티팩트 등 문제가 발생하게 된다. (2) 업/다운 샘플링 변환 과정에서 발생하는 손실 정보. 컨볼루션을 기반으로 한 다운 샘플링 작업은 되돌릴 수 없는 정보 손실을 일으켜 이미지가 저차원 불완전 정보에서 잘 복원되지 않아, 업 샘플링 과정에서의 문제(Ill-posed Problem)를 야기한다. 여기서 정보의 손실은 주로 고주파 세부 사항의 부족을 반영한다. 예를 들어, 기존의 종단간 이미지 압축 네트워크는 주로 심층 신경망을 구축하고, 대량의 이미지 데이터에서 고해상도와 저해상도 간의 매핑 관계를 학습 및 캡처하고, 스킵 연결, 어텐션 등 메커니즘을 사용하여 모델의 적합성을 향상시키지만, 이러한 방법은 본질적으로 업/다운 샘플링 변환으로 인한 정보 손실 문제를 해결하지 못하고, 재구성 이미지의 품질이 높지 않고 구조가 불완전한 등의 문제를 야기한다. 또한, 기존의 종단간 이미지 압축 네트워크도 가역 신경망(Invertible Neural Networks)을 사용하여 업/다운 샘플링 간의 가역성을 보장할 수 있다. 그러나 가역 신경망의 상대적으로 열악한 적합성으로 인해 재구성 이미지는 에지 블러(edge *?*blur), 낮은 텍스처 복원 등의 문제가 존재하게 된다. 따라서 정보 손실은 이미지 압축 품질을 저하시키는 주요 원인이며, 정보 손실을 완화하는 효과적인 방법의 부족은 종단간 신경망의 분포 적합성을 크게 제한하고, 압축 및 재구성 과정에서 해상도가 다른 특징맵 간의 매핑 관계를 학습하는데 방해가 된다.
종단간 이미지 압축 과정에서의 정보 손실로 인한 재구성 이미지의 품질 저하 문제를 보다 효과적으로 완화하기 위해, 본 개시는 백 프로젝션(back projection) 기반의 이미지 압축 방법을 혁신적으로 제안하며, 이는 업/다운 샘플링 과정에서의 정보 손실을 모델링하고, 서로 다른 해상도에서 특징맵 간의 매핑 오차를 구성하고, 네트워크 파라미터를 최적화하여 오차를 줄여 동일한 코드 레이트(code rate)에서의 이미지의 복원 품질을 크게 향상시킨다. 또한 본 개시에 따른 고도의 모듈화 설계는 확장이 용이하고, 실제 응용에서 필요에 따라 해당 방법을 쉽게 수정 또는 확장할 수 있다. 또한, 본 개시의 이미지 압축 방법은 이미지를 고주파 성분과 저주파 성분으로 각각 분해하여 처리하는 것을 제안함으로써, 이미지 압축 모델이 압축 과정에서 손실되기 쉬운 고주파 정보를 더 잘 처리하고, 정보 손실을 줄이고, 모델의 레이트 왜곡 성능을 최적할 수 있다. 또한, 고주파 성분 및 저주파 성분을 처리하는 두 네트워크의 파라미터 및/또는 구조는 동일하거나 상이할 수 있다. 예를 들어, 두 네트워크의 파라미터를 다르게 설정하여, 처리된 저주파 및 고주파 정보를 필요에 따라 유연하고 적응적으로 처리 및 융합하여, 상기 이미지 압축 방법의 레이트 왜곡 성능을 효과적으로 최적화할 수 있다.
이하, 도 1 내지 도 21을 참조하여 본 개시에 따른 이미지 압축 방법 및 이미지 압축 장치, 이미지 압축 해제 방법 및 이미지 압축 해제 장치, 종단간 이미지 압축 방법 및 종단간 이미지 압축 장치에 대해 상세히 설명한다.
도 1은 본 개시의 예시적 실시예에 따른 종단간 이미지 압축 모델을 도시한 구조도이다. 도 2는 본 개시의 예시적 실시예에 따른 종단간 이미지 압축 흐름을 도시한 예시도이다. 본 개시에 따른 이미지 압축 방법은 가변 오토인코더에 적용될 수 있으나, 이에 한정되는 것은 아니다. 따라서 예를 들어, 도 1 및 도 2는 가변 오토인코더의 구조를 기반으로 하는 본 개시의 종단간 이미지 압축 모델 및 흐름을 나타낸다. 그러나, 본 개시에 따른 백 프로젝션 기반의 이미지 압축 방법은 모든 가능한 이미지 압축 모델에 적용될 수 있다.
도 1 및 도 2를 참조하면, 종단간 이미지 압축 모델은 크게 코딩 네트워크, 엔트로피 모델 및 재구성 네트워크로 구성될 수 있다. 엔트로피 모델은 크게 하이퍼파라메트릭 분석 네트워크, 하이퍼파라메트릭 생성 네트워크 및 컨텍스트 모델로 구성될 수 있다. 먼저, 원본 이미지를 입력할 수 있다. 그런 다음, 원본 이미지는 코딩 네트워크를 통해 저차원 은닉 변수 표현에 매핑될 수 있다. 그런 다음, 하이퍼파라메트릭 분석 네트워크를 통해 획득한 은닉 변수를 단계별로 다운 샘플링 변환하여 부가 정보(Side Information)를 생성할 수 있다. 그런 다음, 엔트로피 코딩을 통해 부가 정보에 대해 산술적으로 인코딩하여 비트 스트림 파일을 얻을 수 있다. 그런 다음, 엔트로피 디코딩을 통해 해당 비트스트림 파일을 디코딩하여 재구성된 부가 정보를 얻을 수 있다. 그런 다음, 하이퍼파라메트릭 생성 네트워크를 통해 재구성된 부가 정보를 처리하여 하이퍼파라메트릭 은닉 변수를 생성할 수 있다. 그런 다음, 은닉 변수와 하이퍼파라미터 은닉 변수를 컨텍스트 모델로 함께 전달함으로써, 은닉 변수의 확률 분포를 추정하여 은닉 변수의 확률 분포 파라미터를 얻을 수 있다. 그런 다음, 은닉 변수의 확률 분포 파라미터를 사용하여 은닉 변수에 대해 엔트로피 인코딩하여, 압축 이미지의 비트스트림 파일을 얻을 수 있다. 이로써, 이미지 압축단의 프로세스가 모두 완료되었다. 압축 해제 시, 먼저, 엔트로피 디코딩을 통해 압축 이미지의 비트스트림 파일을 디코딩하여 은닉 변수를 복원할 수 있다. 그런 다음, 재구성 네트워크를 통해 은닉 변수를 통해 단계별로 업 샘플링 변환하여, 최종적으로 재구성된 이미지를 생성할 수 있다. 이하, 종단간 이미지 압축 모델을 예시적으로 설명하나 이에 제한되지 않는다.
인코딩 네트워크의 입력은 3채널 RGB 이미지일 수 있다. 코딩 네트워크는 2가지 다른 유형의 8개의 다운 샘플링 잔차 블록(Residual Block)으로 교대로 쌓을 수 있으며, 모델의 표현 능력을 향상시키기 위해 2개의 공간 어텐션 모듈을 포함한다. 첫 번째 유형의 잔차 블록(단락(Short Circuit) 잔차 블록이라고 함)은 3x3의 컨볼루션 커널(convolution kernel) 크기와 채널 수가 128개인 2개의 컨볼루션 레이어 및 단락 연결로 구성된다. 첫 번째 컨볼루션 레이어는 LeakyRelu를 활성화 함수로 사용하고 입력 특징맵의 해상도를 2배 다운 샘플링할 수 있다. 두 번째 컨볼루션 레이어는 샘플링된 특징맵의 특징을 추출하고, zero padding을 사용하여 출력 특징맵의 크기를 유지하고, GDN(Generalized Divisive Normalization)을 정규화 함수로 사용하여 컨볼루션 레이어의 특징 학습 능력을 향상시킬 수 있다. 두 번째 유형의 잔차 블록(스킵 잔차 블록이라고 함)은 3X3의 컨볼루션 커널 크기, LeakyRelu의 활성화 함수, zero padding을 사용하여 특징맵의 크기를 유지하는 2개의 컨볼루션 레이어 및 스킵 연결로 구성되며, 유효 특징을 더 배우기 위해 사용된다. 두 가지 유형의 잔차 블록을 교대로 쌓고 4번 반복하여, 원본 이미지를 크기 1/16, 채널 수 128개의 은닉 변수로 다운 샘플링한다. 두 번째와 네 번째 스킵 잔차 블록 이후에 어텐션 모듈을 연결하여 특징맵을 적응적으로 가중시킨다.
하이퍼파라메트릭 분석 네트워크는 LeakyRelu를 활성화 함수로 사용하는 커널 크기가 3x3인 5개의 스택된(stacked) 컨볼루션 레이어로 구성된다. 3층과 5층 컨볼루션은 특징맵을 2번 다운 샘플링하여 은닉 변수의 1/4 해상도와 채널 수가 128개인 부가 정보를 얻는다. 하이퍼파라메트릭 생성 네트워크도 LeakyRelu를 활성화 함수로 사용하는 커널 크기가 3x3인 5개의 스택된(stacked) 컨볼루션 레이어로 구성될 수 있다. 2층과 4층 컨볼루션은 디컨볼루션(Deconvolution)을 사용하여 특징맵을 2번 업 샘플링하며, 3층과 4층 컨볼루션의 채널 수는 192개이고, 5층 컨볼루션의 채널 수는 256개이다. 하이퍼파라메트릭 생성 네트워크가 생성한 공간 상관성 특징맵의 크기는 은닉 변수의 크기와 동일하며, 채널 수는 두 배이다.
컨텍스트 모델은 5x5의 컨볼루션 코어 크기를 갖는 마스크 컨볼루션 레이어와 1x1의 컨볼루션 코어 크기를 갖는 3개의 컨볼루션 레이어를 포함할 수 있다. 마스크 컨볼루션 커널은 실제 디코딩 중에 현재 위치값을 알 수 없는 상황을 시뮬레이션하기 위해 중심점 아래 및 오른쪽의 픽셀을 0으로 마스킹한다. 공간 상관성 특징맵과 은닉 변수를 채널에 스플라이싱하여 컨텍스트 모델에 입력하고, 최종적으로 은닉 변수와 동일한 크기와 채널 수가 3NK인 특징맵을 생성한다. N은 은닉 변수의 채널 수(즉, 128)이고, K는 가우시안 혼합 모델 분포의 수(실험에서 k=3임)이다. 획득한 특징맵을 채널을 따라 9등분하여 3개의 가우시안 분포에 대응하는 가중치, 평균값 및 분산을 얻는다. 가우시안 혼합 모델은 은닉 변수의 분포에 대한 확률 추정을 생성하고, 은닉 변수의 무손실 산술 인코딩 및 디코딩을 구현한다.
재구성 네트워크와 코딩 네트워크는 미러 구조이며, 스킵 잔차 블록과 단락 잔차 블록을 교대로 사용하여 은닉 변수의 2배 업 샘플링을 4회 구현한다. 단락 잔차 블록의 첫 번째 컨볼루션 레이어는 채널 대 공간(channel-to-space) 방법을 사용하여 특징맵을 2배 업 샘플링한 다음, IGDN(Inverse Generalized Divisive Normalization) 레이어를 따른다다. 재구성 네트워크의 마지막 업 샘플링 컨볼루션 레이어의 채널 수는 3개이고, 각각 재구성 이미지의 RGB 3개 채널에 대응한다.
본 개시에 따른 백 프로젝션 방법은 상기 코딩 네트워크 및 재구성 네트워크의 업/다운 샘플링 변환의 동작에 적용하여 중간 특징의 품질을 계층적으로 개선할 수 있다. 마찬가지로, 은닉 변수를 양자화하여 발생하는 재구성 오류도 백 프로젝션 방법에 의해 완화될 수 있다. 구체적으로, 코딩 네트워크의 다운 샘플링 과정에서, 업 샘플링 연산(예, 디컨볼루션, 서브 픽셀 컨볼루션(Subpixel Convolution) 등)을 통해 고해상도 특징맵을 재구성할 수 있으며, 원본 및 재구성된 고해상도 특징맵 간의 차이값을 정보 손실로 추출할 수 있고, 훈련 가능한 네트워크 구조(예, 컨볼루션 렝어, 어텐션 메커니즘 등)를 통해 차이값에 대해 추가적으로 특징을 추출할 수 있다. 그런 다음, 원본 특징맵을 보다 정확하게 재구성할 수 있는 저해상도 특징맵을 적응적으로 생성한다. 재구성 네트워크의 업 샘플링 과정에서. 다운 샘플링 작업(예, 컨볼루션, 보간 등)을 통해 보다 더 풍부한 특징을 포함하는 고해상도 특징맵에서 정보를 추출한 다음, 그와 원본 저해상도 특징맵의 차이값을 새로운 유효 정보(Distinctive Information)로 명시적으로 처리할 수 있다. 훈련 가능한 네트워크 구조를 사용하여 이러한 유효 정보에 대해 추가로 학습하고 이를 현재의 저해상도 특징맵에 융합하여, 저해상도 특징맵의 유효 정보의 양을 높이고, 보다 더 정확한 고해상도 특징맵으로 다시 업 샘플링할 수 있다.
상술한 특징맵을 재구성하여 재구성 오차를 피드백하고 최적화하는 단계는 백 프로젝션 방법이다. 이미지 압축 작업에서 백 프로젝션 방법을 사용하여, 재구성 결과를 현재 작업에 피드백함으로써 양방향 정보 교환을 실현하고, 현재 특징맵의 정보의 양을 풍부하게 하고, 리샘플링 후의 특징맵의 품질을 개선하여, 적은 수의 컨볼루션 레이어와 부정확한 저해상도 정보로 인한 각 업/다운 샘플링 변환으로 얻은 중간 특징맵의 품질 저하를 효과적으로 완화한다.
도 3은 본 개시의 다른 예시적 실시예에 따른 종단간 이미지 압축 모델의 구조도이다. 도 4는 본 개시의 다른 예시적 실시예에 따른 종단간 이미지 압축 흐름을 도시한 예시도이다.
도 3 및 도 4를 참조하면, 도 3의 종단간 이미지 압축 모델과 도 1의 종단간 이미지 압축 모델의 차이점은, 도 3의 종단간 이미지 압축 모델은 크로스오버 네트워크(Crossover network)를 더 포함할 수 있고, 코딩 네트워크는 고주파 코딩 서브 네트워크, 저주파 코딩 서브 네트워크 및 융합 네트워크를 포함한다는 점이다. 고주파 코딩 서브 네트워크 및 저주파 코딩 서브 네트워크의 구조 및/또는 파라미터는 동일할 수 있다(예를 들어, 도 1에 도시된 코딩 네트워크와 동일). 물론, 고주파 코딩 서브 네트워크와 저주파 코딩 서브 네트워크의 구조 및/또는 파라미터는 상이할 수도 있다. 예를 들어, 고주파 코딩 서브 네트워크와 저주파 코딩 서브 네트워크의 파라미터를 다르게 설정하여, 필요에 따라 처리 후의 저주파 및 고주파 정보를 유연하고 적응적으로 처리하고 융합하여, 상기 이미지 압축 방법의 레이트 왜곡 성능을 최적화할 수 있다.
구체적으로, 먼저, 크로스오버 네트워크를 이용하여 원본 이미지에서 고주파 성분과 저주파 성분을 추출할 수 있다. 그런 다음, 고주파 성분과 저주파 성분은 각각 고주파 코딩 서브 네트워크와 저주파 코딩 서브 네트워크를 통해 저차원 은닉 변수에 매핑되어, 고주파 성분의 은닉 변수와 저주파 성분의 은닉 변수를 얻을 수 있다. 그런 다음, 융합 네트워크를 통해 고주파 성분의 은닉 변수와 저주파 성분의 은닉 변수를 다시 융합하여, 융합된 은닉 변수를 생성할 수 있다. 또한, 도 3의 종단간 이미지 압축 모델의 엔트로피 모델 및 재구성 네트워크는 도 1의 종단간 이미지 압축 모델의 엔트로피 모델 및 재구성 네트워크와 동일한 기능을 가지며, 여기서 더는 반복하지 않는다.
본 개시는 또한 주파수 영역 분해 방법(웨이블릿 변환, 평활 필터링 등)을 사용하여 원본 이미지의 고주파 성분 및 저주파 성분을 추출하고, 저주파 및 고주파 성분에 대해 각각 처리 및 융합할 수 있으므로, 네트워크는 다운 샘플링 프로세스에서 손실되기 쉬운 고주파 세부 사항에 더 집중할 수 있으며, 압축 과정에서 생성된 고주파 정보의 손실에 대해 명시적이고 효과적으로 처리할 수 있다. 또한, 고주파 성분과 저주파 성분을 처리하는 두 네트워크의 파라미터를 다르게 설정할 수 있으므로, 필요에 따라 다운 샘플링 후의 저주파 은닉 변수와 고주파 은닉 변수를 유연하고 적응적으로 처리 및 융합할 수 있으므로, 동일한 코드 레이트에서의 모델의 재구성 이미지의 품질을 더욱 향상시키고, 상기 이미지 압축 방법의 레이트 왜곡 성능을 효과적으로 최적화한다.
도 5는 본 개시의 예시적 실시예에 따른 종단간 이미지 압축 모델을 도시한 네트워크도이다.
도 5를 참조하면, 먼저, 입력 이미지는 종단간 이미지 압축 모델의 코딩 네트워크를 통과하여 은닉 변수를 얻을 수 있다. 그런 다음, 은닉 변수에 기초하여 엔트로피 코딩을 수행하여, 압축 이미지의 비트스트림 파일을 획득할 수 있고, 상기 압축 이미지의 비트스트림 파일에 대해 엔트로피 디코딩을 수행하여 디코딩된 은닉 변수를 획득할 수 있다. 이 과정은 엔트로피 모델에 의해 실현될 수 있다. 예를 들어, 엔트로피 모델은 하이퍼 파라메트릭 분석 네트워크, 부가 정보 엔트로피 코딩, 부가 정보 엔트로피 디코딩, 하이퍼 파라메트릭 생성 네트워크, 컨텍스트 모델, 은닉 변수 엔트로피 코딩 및 은닉 변수 엔트로피 디코딩의 기능을 포함할 수 있다. 이러한 기능은 위에서 설명했으므로 여기서 더는 반복하지 않는다. 그런 다음, 디코딩된 은닉 변수는 종단간 이미지 압축 모델의 재구성 네트워크를 통해 재구성 이미지를 얻을 수 있다. 이하, 본 개시의 일 실시예에 따른 코딩 네트워크에 대해 상세히 설명한다.
코딩 네트워크는 은닉 변수를 획득하기 위해 입력 이미지에 대해 적어도 한 번의 다운 샘플링 변환을 수행하기 위한 적어도 하나의 다운 샘플링 백 프로젝션 모듈을 포함할 수 있다. 여기서, 코딩 네트워크는 다운 샘플링 변환 횟수에 대응하는 다운 샘플링 백 프로젝션 모듈의 수를 포함할 수 있다. 본 개시는 다운 샘플링 변환 횟수 및 다운 샘플링 백 프로젝션 모듈의 수를 제한하지 않는다. 본 개시의 일 실시예에 따르면, 코딩 네트워크는 4개의 다운 샘플링 백 프로젝션 모듈로 적층될 수 있고, 공간 어텐션 모듈은 그 표현 능력을 향상시키기 위해 제2 및 제4 다운 샘플링 백 프로젝션 모듈 뒤에 연결된다. 그러나, 본 개시의 다운 샘플링 백 프로젝션 모듈의 수 및 공간 어텐션 모듈의 수 및 위치는 이에 한정되지 않으며, 예를 들어, 다수의 다운 샘플링 백 프로젝션 모듈 등에 의해 직접 적층될 수 있다.
각각의 다운 샘플링 백 프로젝션 모듈은 다운 샘플링 모듈, 재구성 모듈 및 최적화 모듈을 포함할 수 있다. 다운 샘플링 모듈은 입력된 제1 특징맵을 다운 샘플링하고 변환하여 제2 특징맵을 얻는데 사용된다. 재구성 모듈은 제1 특징맵과 동일한 해상도를 갖는 제3 특징맵을 획득하기 위해 제2 특징맵을 재구성하는데 사용된다. 최적화 모듈은 제1 특징맵과 제3 특징맵 간의 차이값에 기초하여 제2 특징맵을 최적화하고, 다운 샘플링 백 프로젝션 모듈의 출력으로서 제4 특징맵을 획득하는데 사용된다. 이하, 다운 샘플링 백 프로젝션 모듈의 구조에 대해 상세히 설명한다.
본 개시의 일 실시예에 따르면, 다운 샘플링 모듈은 도 1을 참조하여 설명한 코딩 네트워크에서의 다운 샘플링 잔차 블록의 구조를 가질 수 있다. 다운 샘플링 모듈은 서로 다른 두 가지 유형의 잔차 블록으로 교대로 적층되어, 특징맵의 한 번의 2배 다운 샘플링 기능을 구현할 수 있다. 예를 들어, 도 6은 본 개시의 예시적 실시예에 따른 코딩 네트워크에서 다운 샘플링 모듈을 도시한 구조도이다. 도 6을 참조하면, 본 개시의 일 실시예에 따른 다운 샘플링 모듈은 단락 잔차 블록과 스킵 잔차 블록으로 적층될 수 있다. 단락 잔차 블록은 두 개의 컨볼루션 레이어(예를 들어, 3x3의 컨볼루션 커널 크기와 채널 수가 N인 두 개의 컨볼루션 레이어)와 단락 연결(점선)으로 구성될 수 있다. 첫 번째 컨볼루션 레이어는 특징맵의 해상도를 두 번 다운 샘플링하는데 사용되며, 두 번째 컨볼루션 레이어는 컨볼루션 레이어의 특징 학습 기능을 제공하는데 사용된다. 스킵 잔차 블록은 두 개의 컨볼루션 레이어(예를 들어, 3x3의 컨볼루션 커널 크기, 채널 수가 N, LeakyRelu의 활성화 함수, zero padding을 사용하여 특징맵의 크기를 유지하는 두 개의 컨볼루션 레이어)와 스킵 연결(실선)로 구성될 수 있고, 유효 특징을 추가로 학습하여 제2 특징맵을 얻는다. 물론, 본 개시가 상술한 다운 샘플링 모듈의 구조에 한정되는 것은 아니다.
본 개시의 일 실시예에 따르면, 재구성 모듈은 순차적으로 연결된 복수의 컨볼루션 레이어로 구성될 수 있으며, 특징 학습 능력을 향상시키기 위한 스킵 연결 및 어텐션 모듈 등의 동작을 포함할 수도 있다. 예를 들어, 도 7은 본 개시의 예시적 실시예에 따른 코딩 네트워크에서 재구성 모듈을 도시한 구조도이다. 도 7을 참조하면, 재구성 모듈은 1x1의 컨볼루션 커널을 갖는 컨볼루션 레이어(제1 컨볼루션 레이어, Conv 1x1), 업 샘플링 레이어 및 1x1의 컨볼루션 커널을 갖는 3개의 컨볼루션 레이어(제2 내지 제4 컨볼루션 레이어)가 순서대로 연결되어 구성될 수 있다. 제1 컨볼루션 레이어는 제2 특징맵을 특징 처리하는데 사용되며 그 다음에는 LeakyRelu 활성화 함수와 zero padding을 사용하여 컨볼루션 후 특징맵의 크기를 변경하지 않고 유지한다. 업 샘플링 레이어는 특징 처리 후의 제2 특징맵을 업 샘플링 변환(예를 들어, 디컨볼루션, 서브 픽셀 컨볼루션, subpixel Conv/Deconv 등 작업)하는데 사용된다. 제2 내지 제4 컨볼루션 레이어는 업 샘플링 변환 후의 제2 특징맵을 특징 처리하여 제3 특징맵을 획득하는데 사용된다. 이 3개의 컨볼루션 레이어는 LeakyRelu를 활성화 함수로 사용하고 출력 특징맵 채널의 수를 변경하지 않고 유지할 수 있다. 물론, 본 개시가 상기 재구성 모듈의 구조에 한정되는 것은 아니다.
본 개시의 일 실시예에 따르면, 최적화 모듈은 제1 차이값 피드백 서브 모듈 및 다운 샘플링 최적화 서브 모듈을 포함할 수 있으며, 제1 차이값 피드백 서브 모듈은 제1 특징맵과 제3 특징맵 간의 정보 융합 및 처리에 사용될 수 있다. 구체적으로, 제1 특징맵과 제3 특징맵 간의 차이값을 최적화하고, 최적환 차이값을 기반으로 제3 특징맵을 최적하여 최적화된 제3 특징맵을 획득하는데 사용된다. 다운 샘플링 최적화 서브 모듈은 최적화된 제3 특징맵을 다운 샘플링 및 최적화하여 제4 특징맵을 획득한다.
예를 들어, 도 8은 본 개시의 예시적 실시예에 따른 코딩 네트워크에서 제1 차이값 피드백 모듈을 도시한 구조도이다. 도 8을 참조하면, 제1 차이값 피드백 서브 모듈은 감산 연산자, 제1 스킵 잔차 블록, 가산 연산자 및 제2 스킵 잔차 블록을 포함할 수 있다. 감산 연산자는 제1 특징맵과 제3 특징맵을 감산하여 제1 차이값 특징맵(유효 정보 특징맵이라고도 함)을 얻는데 사용된다. 제1 스킵 잔차 블록은 두 개의 컨볼루션 레이어(예, 컨볼루션 커널이 3X3, 활성화 함수가 LeakyRelu이고, zero padding을 사용하여 출력 크기를 변경하지 않는 두 개의 컨볼루션 레이어)와 스킵 연결로 구성되며, 제1 차이값 특징맵을 학습하는데 사용된다. 가산 연산자는 특징 학습 후의 제1 차이값 특징맵과 감산된 특징맵을 추가하여 추가된 특징맵을 획득하는데 사용된다. 제2 스킵 잔차 블록은 두 개의 컨볼루션 레이어(예, 컨볼루션 커널이 3X3, 활성화 함수가 LeakyRelu 및 Sigmoid이고, zero padding을 사용하여 출력 크기를 변경하지 않는 두 개의 컨볼루션 레이어)와 스킵 연결로 구성되며, 상기 추가된 특징맵에 대해 특징 학습하여 상기 최적화된 제3 특징맵을 획득하는데 사용된다.
예를 들어, 도 9는 본 개시의 예시적 실시예에 따른 코딩 네트워크에서 다운 샘플링 최적화 모듈을 도시한 구조도이다. 도 9를 참조하면, 다운 샘플링 최적화 서브 모듈은 단락 잔차 블록 및 2개의 연결된 컨볼루션 레이어를 포함할 수 있다. 단락 잔차 블록은 상기 최적화된 제3 특징맵을 다운 샘플링하고, 다운 샘플링된 제3 특징맵의 특징을 추출하는데 사용되는 2개의 컨볼루션 레이어와 단락 연결로 구성된다. 예를 들어, 첫 번째 컨볼루션 레이어는 컨볼루션을 사용하여 특징맵의 해상도를 다운 샘플링하고, 두 번째 컨볼루션 레이어(예, 컨볼루션 커널 크기가 1x1인 컨볼루션 레이어)는 다운 샘플링된 특징맵의 특징을 추출하는데 사용되고, zero padding을 사용하여 출력 특징맵의 크기를 변경하지 않고 GDN(Generalized Divisive Normalization)을 정규화 함수로 사용하여 컨볼루션 레이어의 특징 학습 능력을 향상시킨다. 또한 두 개의 연결된 컨볼루션 레이어(예, 컨볼루션 커널 크기가 3x3인 두 개의 순차적으로 연결된 컨볼루션 레이어)를 사용하여 단락 잔차 블록의 출력을 특징 학습하여 제4 특징맵을 획득한다.
본 개시의 다른 일 실시예에 따르면, 코딩 네트워크에서, 제1 차이값 피드백 서브 모듈은 고해상도 중간 이미지(업 샘플링에 의해 획득된 재구성 이미지)를 기반으로 차이값 피드백 최적화를 수행하지만, 저해상도 중간 이미지(다운 샘플리에 의해 획득된 제2 특징맵)에 기반하여 차이값 피드백 최적화를 수행하지 않기 때문에, 최적화 효과를 향상시키기 위해, 본 개시에 따른 최적화 모듈은 제2 차이값 피드백 서브 모듈을 더 포함하여 저해상도 중간 이미지를 기반으로 차이값 피드백 최적화를 수행할 수 있다. 구체적으로, 제2 차이값 피드백 서브 모듈은, 다운 샘플링 최적화 모듈에 의해 출력된 제4 특징맵과 제2 특징맵 사이의 차이값을 최적화하고, 최적화된 차이값을 기반으로 제4 특징맵을 최적화하여 최종적으로 제4 특징맵을 획득하는데 사용될 수 있다. 따라서, 본 개시에 따르면, 각 백 프로젝션 모듈 내에서, 현재 특징맵을 2회 나누어 최적화할 수 있고, 다중 스케일(고해상도 및 저해상도)의 차이값 피드백 및 특징 융합을 실현함으로써, 모델이 특징맵의 전체적인 수치적 안정성을 보장하는 것을 기반으로 보다 효과적으로 새로운 정보를 추출 및 처리할 수 있고, 이를 통해 훈련의 안정성을 유지하는 동시에 재구성 이미지의 품질을 꾸준히 향상시킬 수 있다. 동시에, 고도로 모듈화된 디자인 또한 상기 백 프로젝션 방법을 쉽게 배포하고 확장할 수 있도록 한다. 실제 적용에서는 모델 속도, 메모리 공간 및 압축 품질 등 요소에 따라 다단계 재구성 및 파라미터 공유 메커니즘을 사용할지 여부를 선택할 수 있다.
도 10은 본 개시의 예시적 실시예에 따른 다운 샘플링 백 프로젝션 모듈을 도시한 구조도이다.
도 10을 참조하면, 제1 특징맵을 다운 샘플링 모듈에 입력하여, 제2 특징맵을 획득할 수 있다.
재구성 모듈
Figure pat00001
은 현재 특징맵
Figure pat00002
(즉, 제2 특징맵)에 대한 특징 추출을 수행하고, 다운 샘플링 변환 이전의 특징맵
Figure pat00003
과 동일한 차원을 갖는 재구성 특징맵
Figure pat00004
( (즉, 제3 특징맵)으로 재구성할 수 있다. 여기서 ↓는 다운 샘플링 변환으로 재구성하기 전의 결과를 나타내고, t는 샘플링 변환 작업의 순서에 해당한다. 상기 재구성 단계는 다음과 같이 표현될 수 있다.
Figure pat00005
제1 차이값 피드백 서브 모듈
Figure pat00006
은 생성된 재구성 특징맵
Figure pat00007
및 이전 단계에서 생성된 최적화된 특징맵
Figure pat00008
(즉, 제1 특징맵)을 차이값 피드백 모듈
Figure pat00009
로 함께 전송하여, 차이값 특징맵
Figure pat00010
을 획득할 수 있다. t=1이면, 재구성된 특징맵
Figure pat00011
과 원래의 특징맵
Figure pat00012
(즉, 제1 특징맵)을 차이값 특징맵
Figure pat00013
(즉, 최적화된 제3 특징맵)을 획득하기 위해 함께 제1 차이값 피드백 서브 모듈로 전송한다. 제1차이값 피드백 서브 모듈
Figure pat00014
은 입력된 두 개의 특징맵 간의 차이값을 계산하여 유효 정보를 얻고, 획득한 유효 정보는 컨볼루션 레이어 적층, 스킵 연결 등의 연산을 통해 더 학습한다. 그런 다음, 제1 차이값 피드백 서브 모듈
Figure pat00015
은 유효 정보와 감산된 특징맵을 추가한 후, 컨볼루션 레이어 적층 및 스킵 연결 등의 연산을 통해 정보 융합을 구현하여 최적화된 특징맵을 획득한다. 상기 차이값 피드백 최적화 단계는 다음과 같이 표현될 수 있다.
Figure pat00016
다운 샘플링 최적화 서브 모듈
Figure pat00017
은 최적화된 특징맵
Figure pat00018
(즉, 제4 특징맵)을 얻기 위해 재구성된 특징맵
Figure pat00019
에 대해 다운 샘플링 변환 및 최적화 연산을 수행한다. 상기 다운 샘플링 최적화 단계는 다음과 같이 표현될 수 있다.
Figure pat00020
제2 차이값 피드백 서브 모듈
Figure pat00021
의 구조는 제1 차이값 피드백 서브 모듈의 구조와 동일할 수 있다. 따라서, 최적화된 특징맵
Figure pat00022
과 현재 원본 특징맵
Figure pat00023
을 제2차이값 피드백 모듈
Figure pat00024
에 함께 전송하여, 현재의 특징맵
Figure pat00025
과 동일한 크기 및 채널 수를 갖는 최적화된 특징맵
Figure pat00026
을 얻을 수 있다. 상기 차이값 피드백 최적화 단계는 다음과 같이 표현될 수 있다.
Figure pat00027
도 11은 본 개시의 다른 예시적 실시예에 따른 다운 샘플링 백 프로젝션 모듈을 도시한 구조도이다.
도 11을 참조하면, 제2 차이값 피드백 서브 모듈의 구조는 상기 제1 차이값 피드백 서브 모듈의 구조와 상이하다. 예를 들어, 제2 차이값 피드백 서브 모듈은 어텐션 메커니즘에 기반한 차이값 피드백 서브 모듈로, 감산 연산자, 제1 스킵 잔차 블록, 어텐션 모듈, 제1 곱셈 연산자, 제2 곱셈 연산자, 가산 연산자 및 제2 스킵 잔차 블록을 포함한다. 감산 연산자는 다운 샘플링 최적화 서브 모듈에 의해 출력된 제4 특징맵과 다운 샘플링 모듈에 의해 출력된 제2 특징맵을 감산(subtract)하여 제2 차이값 특징맵(유효 정보 특징맵이라고도 함)을 얻는데 사용된다. 제1 스킵 잔차 블록은 두 개의 컨볼루션 레이어(예, 컨볼루션 커널이 3X3이고, 활성화 함수는 LeakyRelu이고, zero padding을 사용하여 출력 크기를 변경하지 않는 두 개의 컨볼루션 레이어)와 스킵 연결로 구성되고, 제2 차이값 특징맵을 특징 학습하는데 사용된다. 어텐션 모듈은 특징 학습 후의 제2 차이값 특징맵의 특징을 추출하여 어텐션 스코어(W)를 얻는데 사용된다. 여기서 어텐션 모듈은 공간 어텐션 모듈 또는 채널 어텐션 모듈일 수 있다. 예를 들어, Squeeze-Excitation 네트워크를 채널 어텐션 모듈로 사용할 수 있다. 제1 곱셈 연산자는 제1 가중 특징맵을 얻기 위해 다운 샘플링 최적화 모듈에 의해 출력된 제4 특징맵과 W(실선으로 표시됨)를 곱하는데 사용된다. 제2 곱셈 연산자는 제2 가중 특징맵을 얻기 위해 제2 특징맵과 (1-W)(점선으로 표시됨)를 곱하는데 사용된다. 가산 연산자는 제1 가중 특징맵과 제2 가중 특징맵을 추가하여 가중 특징맵을 얻는데 사용된다. 제2 스킵 잔차 블록은 두 개의 컨볼루션 레이어(예, 컨볼루션 커널이 3X3이고, 활성화 함수는 각각 LeakyRelu 및 Sigmoid이고, zero padding을 사용하여 출력 크기를 변경하지 않는 두 개의 컨볼루션 레이어)와 스킵 연결로 구성되고, 상기 가중 특징맵을 특징 학습하여 상기 최종 제4 특징맵을 획득하는데 사용된다. 물론, 어텐션 메커니즘에 기반한 제2 차이값 피드백 서브 모듈은 상기 어텐션 메커니즘에 기반한 구조에 제한되지 않으며, 어텐션 메커니즘에 기반한 임의의 가능한 구조일 수도 있다.
물론, 제1차이값 피드백 서브 모듈 또한 상기 어텐션 메카니즘을 기반으로 한 차이값 피드백 모듈로 구현될 수도 있다. 예를 들어, 상기 어텐션 메커니즘을 사용하여 제1 특징맵 및 제3 특징맵에 대해 가중하여 최적화된 제3 특징맵을 생성한다.
본 개시에 따르면, 코딩 네트워크의 차이값 피드백 서브 모듈은 어텐션 메커니즘에 기초한 차이값 피드백 서브 모듈로 구현되고, 소프트 어텐션 메커니즘을 사용하여 모듈이 특정 부분에 더 많은 관심을 기울이고 특징맵에 선택적으로 가중함으로써, 차이값 피드백 모듈의 정보 처리 및 융합 능력을 더욱 향상시켜, 이미지 압축의 효과와 효율성을 향상시킨다.
도 12는 본 개시의 다른 예시적 실시예에 따른 종단간 이미지 압축 모델을 도시한 네트워크도이다.
도 12를 참조하면, 도 12의 종단간 이미지 압축 모델과 도 5의 종단간 이미지 압축 모델의 차이점은, 코딩 네트워크의 구조가 다르다는 점에 있다. 도 12의 종단간 이미지 압축 모델은 크로스오버 네트워크를 더 포함할 수 있고, 도 12에 도시된 코딩 네트워크는 고주파 코딩 서브 네트워크, 저주파 코딩 서브 네트워크 및 융합 네트워크를 포함할 수 있다. 크로스오버 네트워크는 입력 이미지에서 고주파 성분과 저주파 성분을 추출하는데 사용된다. 고주파 코딩 서브 네트워크 및 저주파 코딩 서브 네트워크는 모두 본 개시에 따른 적어도 하나의 다운 샘플링 백 프로젝션 모듈을 포함할 수 있다. 고주파 코딩 서브 네트워크 및 저주파 코딩 서브 네트워크의 구조 및/또는 파라미터는 동일할 수 있고, 예를 들어, 도 5의 코딩 네트워크와 동일할 수 있다. 또는, 고주파 코딩 서브 네트워크와 저주파 코딩 서브 네트워크의 구조 및/또는 파라미터는 서로 다를 수 있다. 고주파 코딩 서브 네트워크는 고주파 성분의 은닉 변수를 얻기 위해 고주파 성분에 대한 다운 샘플링 변환을 수행하는데 사용될 수 있고, 저주파 코딩 서브 네트워크는 저주파 성분의 은닉 변수를 얻기 위해 저주파 성분에 대한 다운 샘플링 변환을 수행하는데 사용될 수 있다. 융합 네트워크는 고주파 성분의 은닉 변수와 저주파 성분의 은닉 변수를 융합하여 융합된 은닉 변수를 최종 은닉 변수로 획득하는데 사용될 수 있다. 고주파 코딩 서브 네트워크 및 저주파 코딩 서브 네트워크의 구조는 도 5의 코딩 네트워크와 동일할 수 있으므로, 여기서 더는 반복하지 않는다. 이하, 본 개시에 따른 크로스오버 네트워크 및 융합 네트워크를 예로 들어 설명한다.
도 13은 본 개시의 예시적 실시예에 따른 크로스오버 네트워크(Crossover network)를 도시한 구조도이다. 도 13을 참조하면, 크로스오버 네트워크는 커널 크기가 다른 3개의 풀링 레이어(A), 3개의 분할 연산자, 제1 내지 제4 스플라이싱 레이어(C), 제1 컨볼루션 레이어, 제2 컨볼루션 레이어, 제1 스킵 잔차 블록 및 제2 스킵 잔차 블록을 포함할 수 있다. 상기 커널 크기가 다른 3개의 풀링 레이어(예, 커널 크기는 각각 3X3, 5x5 및 7x7임)는 각각 입력 이미지(예, 3채널 RGB 이미지)에서 스케일이 다른 3개의 저주파 성분을 추출하는데 사용된다. 3개의 나눗셈 연산자는 3개의 저주파 성분을 입력 이미지로 나누어 상응하는 3개의 고주파 성분을 얻는데 사용된다. 제1 스플라이싱 레이어는 3개의 저주파 성분을 하나의 저주파 성분으로 스플라이싱하는데 사용된다. 제1 컨볼루션 레이어(예, leakyrelu를 활성화 함수로 사용하고, 커널 크기가 3x3인 컨볼루션 레이어)는 스플라이싱된 저주파 성분의 특징을 추출하는데 사용된다. 제1 스킵 잔차 블록은 두 개의 컨볼루션 레이어(예, 크기가 3X3인 두 개의 컨볼루션 커널, LeakyRelu의 활성화 함수, zero padding을 사용하여 특징맵의 크기를 유지하는 컨볼루션 레이어)와 스킵 연결로 구성되고, 특징 추출 후의 저주파 성분에 대해 특징 처리하는데 사용된다. 제2 스플라이싱 레이어는 3개의 고주파 성분을 하나의 고주파 성분으로 스플라이싱하는데 사용된다. 제2 컨볼루션 레이어(예를 들어, Leakyrelu를 활성화 함수로 사용하는 커널 크기가 3x3인 컨볼루션 레이어)는 스플라이싱된 고주파 성분의 특징을 추출하는데 사용된다. 제2 스킵 잔차 블록은 두 개의 컨볼루션 레이어(예, 크기가 3X3인 두 개의 컨볼루션 커널, LeakyRelu의 활성화 함수, zero padding을 사용하여 특징맵의 크기를 유지하는 컨볼루션 레이어)와 스킵 연결로 구성되고, 특징 추출 후의 고주파 성분의 특징 처리에 사용된다. 제3 스플라이싱 레이어는 특징 처리 후의 저주파 성분과 입력 이미지를 스플라이싱하고 최종 저주파 성분을 출력하는데 사용된다. 제4 스플라이싱 레이어는 특징 처리 후의 고주파 성분과 입력 이미지를 스플라이싱하고 최종 고주파 성분을 출력하는데 사용된다. 물론, 본 개시는 상술한 크로스오버 네트워크의 구조에 한정되지 않는다.
도 14는 본 개시의 예시적 실시예에 따른 융합 네트워크를 도시한 구조도이다. 도 14를 참조하면, 융합 네트워크는 공간 어텐션 메커니즘과 채널 어텐션 메커니즘을 기반으로 하는 이중 어텐션 메커니즘의 융합 네트워크로 구현될 수 있으며, 즉, 공간 어텐션 모듈과 채널 어텐션 모듈을 포함할 수 있고, 공간 어텐션 모듈과 채널 어텐션 모듈은 각각 저주파 성분과 고주파 성분에 가중치를 부여하는데 사용되며, 최종적으로 압축될 은닉 변수 표현으로 스플라이싱한다. 공간 어텐션 모듈은 특징맵(예를 들어, 고주파 성분의 은닉 변수와 저주파 성분의 은닉 변수를 스플라이싱하여 얻은 은닉 변수)을 채널 방향으로 풀링 처리하고, 컨볼루션 레이어를 사용하여 공간 어텐션 스코어를 계산하며, 공간 어텐션 모듈은 상기 스플라이싱된 은닉 변수에 대해 각각 평균 *?*풀링 및 최대 풀링을 수행한 다음, 평균 풀링된 은닉 변수와 최대 풀링된 은닉 변수를 스플라이싱하고, 스플라이싱된 은닉 변수를 기반으로 공간 어텐션 스코어를 계산하므로, 효과적으로 연산량을 줄일 수 있다. 채널 어텐션 모듈은 공간 차원에서 특징맵을 풀링 처리한 후, 컨볼루션 레이어를 사용하여 채널 어텐션 스코어를 생성한다. 채널 어텐션 모듈의 풀링 처리는 평균 풀링 또는 최대 풀링일 수 있다. 저주파 성분은 채널 어텐션 스코어(Wc)에 의해 가중되고, 그런 다음 공간 어텐션 스코어(Ws)에 의해 가중된다(실선으로 도시함). 차이점은, 상기 고주파 성분은 먼저 (1-Wc)로 가중된 다음 (1-Ws)로 가중된다는 것이다(점선으로 도시함). 가중된 저주파 및 고주파 특징맵을 추가하여 원본 이미지의 은닉 변수 표현을 얻을 수 있다. 이러한 소프트 융합을 통해 더 나은 품질의 은닉 변수를 얻을 수 있다.
구체적으로, 융합 네트워크는, 스플라이싱 레이어, 컨볼루션 레이어, 스킵 잔차 블록, 공간 어텐션 모듈, 채널 어텐션 모듈, 제1 내지 제4 곱셈 연산자 및 가산 연산자를 포함할 수 있다. 스플라이싱 레이어는 고주파 성분의 은닉 변수와 저주파 성분의 은닉 변수를 하나의 은닉 변수로 스플라이싱하는데 사용된다. 컨볼루션 레이어는 스플라이싱된 은닉 변수의 특징을 추출하는데 사용된다. 잔차 블록은 컨볼루션 레이어와 스킵 연결로 구성되며, 특징 추출 후의 은닉 변수를 특징 처리하는데 사용된다. 공간 어텐션 모듈은 평균 풀링 레이어(A), 최대 풀링 레이어(M), 스플라이싱 레이어(C) 및 3개의 컨볼루션 레이어로 구성될 수 있고(예, 컨볼루션 커널 크기가 3X3, 앞 두 개의 컨볼루션 레이어의 활성화 함수가 Leakyrelu고, 뒤의 컨볼루션 레이어의 활성화 함수가 Sigmoid인 3개의 컨볼루션 레이어), 특징 처리 후의 은닉 변수를 각각 상기 평균 *?*풀링 레이어와 상기 최대 풀링 레이어를 통과하는데 사용되고, 또한 상기 평균 풀링 레이어 및 상기 최대 풀링 레이어의 출력을 상기 스플라이싱 레이어를 통해 스플라이싱하여, 상기 스플라이싱된 은닉 변수를 채널 방향에서 풀링 처리하고(이미지 길이*너비*채널 수는 M*W*2), 채널 풀링된 은닉 변수를 상기 3개의 컨볼루션 레이어를 통해 특징 추출하여 공간 어텐션 스코어(Ws)(M*W*1)를 얻는다.
채널 어텐션 모듈은 풀링 레이어(예, 평균 풀링 레이어 A), 처음 두 개의 컨볼루션 레이어(예, 컨볼루션 크기가 3X3이, 활성화 함수가 leakyrelu이고, 채널 수가 12인 두 개의 컨볼루션 레이어) 및 두 번째 두 개의 컨볼루션 레이어(예, 컨볼루션 크기가 3X3이, 활성화 함수가 각각 leakyrelu 및 sigmoid이고, 채널 수가 128인 두 개의 컨볼루션 레이어)로 구성될 수 있고, 특징 처리 후의 은닉 변수를 풀링하여 공간 차원에서 상기 스플라이싱된 은닉 변수를 풀링 처리(1*1*C)하는데 사용된다. 또한 공간 풀링된 은닉 변수를 상기 첫 번째 두 개의 컨볼루션 레이어를 통해 채널 압축하고, 채널 압축된 은닉 변수를 두 번째 두 개의 컨볼루션 레이어를 통해 특징 추출하여 채널 어텐션 스코어(Wc)(1*1*C)를 얻는다. 제1 곱셈 연산자와 제2 곱셈 연산자는 저주파 성분의 은닉 변수를 먼저 Wc에 의해 가중되고 다시 Ws에 의해 가중되어 저주파 성분의 가중 은닉 변수를 획득하는데 사용된다. 제3 곱셈 연산자와 제4 곱셈 연산자는 고주파 성분의 은닉 변수를 먼저 (1-Wc)에 의해 가중되고 다시 (1-Ws)에 의해 가중되어 고주파 성분의 가중 은닉 변수를 획득하는데 사용된다. 가산 연산자는 저주파 성분의 가중된 은닉 변수와 고주파 성분의 가중된 은닉 변수를 추가하여 최종 은닉 변수를 얻는데 사용된다. 물론, 본 개시가 상기 융합 네트워크의 구조에 한정되는 것은 아니다.
이하, 본 개시의 일 실시예에 따른 재구성 네트워크에 대해 상세히 설명한다.
다시 도 5 및 도 12를 참조하면, 본 개시에 따른 종단간 이미지 압축 모델의 재구성 네트워크는 코딩 네트워크와 미러 구조를 가질 수 있다. 재구성 네트워크는 재구성 이미지를 획득하기 위해 디코딩된 은닉 변수에 대해 적어도 하나의 업 샘플링 변환을 수행하기 위한 적어도 하나의 업 샘플링 백 프로젝션 모듈을 포함할 수 있다. 여기서, 재구성 네트워크는 업 샘플링 변환 횟수에 대응하는 업 샘플링 백 프로젝션 모듈의 수를 포함할 수 있다. 본 개시는 업 샘플링 변환 횟수 및 업 샘플링 백 프로젝션 모듈의 수를 제한하지 않는다. 본 개시의 일 실시예에 따르면, 재구성 네트워크는 4개의 업 샘플링 백 프로젝션 모듈로 적층될 수 있고, 공간 어텐션 모듈은 그 표현 능력을 향상시키기 위해 제1 및 제3 업 샘플링 백 프로젝션 모듈 앞에 연결된다. 그러나, 본 개시의 업 샘플링 백 프로젝션 모듈의 수 및 공간 어텐션 모듈의 수 및 위치는 이에 한정되지 않으며, 예를 들어, 다수의 업 샘플링 백 프로젝션 모듈 등에 의해 직접 적층될 수 있다.
업 샘플링 백 프로젝션 모듈은 업 샘플링 모듈, 재구성 모듈 및 최적화 모듈을 포함할 수 있다. 업 샘플링 모듈은 입력된 제1 특징맵에 대해 업 샘플링 변환을 수행하여 제2 특징맵을 얻는데 사용된다. 첫 번째 업샘플링 모듈의 경우, 입력된 제1 특징맵은 디코딩을 통해 얻은 은닉 변수이다. 재구성 모듈은 제1 특징맵과 동일한 해상도를 갖는 제3 특징맵을 획득하기 위해 제2 특징맵을 재구성하는데 사용된다. 최적화 모듈은 제1 특징맵과 제3 특징맵 간의 차이값에 기초하여 제2 특징맵에 대한 최적화를 수행하여, 업 샘플링 변환의 최종 출력으로서의 제4 특징맵을 획득하는데 사용되며, 마지막 업 샘플링 변환의 최종 출력으로 재구성된 이미지를 사용한다. 이하, 업샘플링 백 프로젝션 모듈의 구조에 대해 상세히 설명한다.
본 개시의 일 실시예에 따르면, 업 샘플링 모듈은 서로 다른 두 가지 유형의 잔차 블록으로 교대로 적층되어, 특징맵의 한 번의 2배 업 샘플링 기능을 구현할 수 있다. 예를 들어, 재구성 네트워크의 업 샘플링 모델의 구조는 도 6에 도시된 바와 같을 수 있고, 업 샘플링 모듈은 단락 단차 블록과 스킵 잔차 블록으로 적층될 수 있다. 단락 잔차 블록은 두 개의 컨볼루션 레이어와 단락 연결로 구성될 수 있고, 첫 번째 컨볼루션 레이어는 디컨볼루션 또는 서브 픽셀 컨볼루션을 통해 특징맵의 해상도를 두 배 업 샘플링하는데 사용되며, 두 번째 컨볼루션 레이어는 컨볼루션 레이어의 특징 학습 기능을 제공하는데 사용된다. 스킵 잔차 블록은 두 개의 컨볼루션 레이어(예를 들어, 3x3의 컨볼루션 커널 크기, 채널 수가 N, LeakyRelu의 활성화 함수, zero padding을 사용하여 특징맵의 크기를 유지하는 두 개의 컨볼루션 레이어)와 스킵 연결로 구성될 수 있고, 유효 특징을 추가로 학습하여 제2 특징맵을 얻는다. 물론, 본 개시가 상술한 업 샘플링 모듈의 구조에 한정되는 것은 아니다.
본 개시의 일 실시예에 따르면, 재구성 네트워크의 재구성 모듈은 순차적으로 연결된 복수의 컨볼루션 레이어로 구성될 수 있으며, 특징 학습 능력을 향상시키기 위한 스킵 연결 및 어텐션 모듈 등의 동작을 포함할 수도 있다. 예를 들어, 재구성 네트워크의 재구성 모듈의 구조는 도 7에 도시된 바와 같고, 재구성 모듈은 1x1의 컨볼루션 커널을 갖는 컨볼루션 레이어(제1 컨볼루션 레이어, Conv 1x1), 다운 샘플링 레이어 및 1x1의 컨볼루션 커널을 갖는 3개의 컨볼루션 레이어(제2 내지 제4 컨볼루션 레이어)가 순서대로 연결되어 구성될 수 있다. 제1 컨볼루션 레이어는 제2 특징맵을 특징 처리하는데 사용되며 그 다음에는 LeakyRelu 활성화 함수와 zero padding을 사용하여 컨볼루션 후 특징맵의 크기를 변경하지 않고 유지한다. 다운 샘플링 레이어는 특징 처리 후의 제2 특징맵을 다운 샘플링 변환(예를 들어, 컨볼루션, 보간 등 작업)하는데 사용된다. 제2 내지 제4 컨볼루션 레이어는 다운 샘플링 변환 후의 제2 특징맵을 특징 처리하여 제3 특징맵을 획득하는데 사용된다. 이 3개의 컨볼루션 레이어는 LeakyRelu를 활성화 함수로 사용하고 출력 특징맵 채널의 수를 변경하지 않고 유지할 수 있다. 물론, 본 개시가 상기 재구성 모듈의 구조에 한정되는 것은 아니다.
본 개시의 일 실시예에 따르면, 최적화 모듈은 제1 차이값 피드백 서브 모듈 및 다운 샘플링 최적화 서브 모듈을 포함할 수 있으며, 제1 차이값 피드백 서브 모듈은 제1 특징맵과 제3 특징맵의 정보 융합 및 처리에 사용될 수 있다. 구체적으로, 제1 특징맵과 제3 특징맵 간의 차이값을 최적화하기 위해 사용되며, 최적화된 차이값에 기초하여 제3 특징맵을 최적화하여 최적화된 제3 특징맵을 획득한다. 업 샘플링 최적화 서브 모듈은 최적화된 제3 특징맵에 대해 업 샘플링 및 최적화를 수행하여 제4 특징맵을 획득하는데 사용된다.
예를 들어, 재구성 네트워크의 제1 차이값 피드백 서브 모듈은 도 8에 도시된 코딩 네트워크의 제1 차이값 피드백 서브 모듈과 동일한 구조를 가질 수 있다.
예를 들어, 재구성 네트워크의 업 샘플링 최적화 서브 모듈은 도 9에 도시된 바와 같고, 단락 잔차 블록 및 2개의 연결된 컨볼루션 레이어를 포함할 수 있다. 단락 잔차 블록은 상기 최적화된 제3 특징맵을 업 샘플링하고, 업 샘플링된 제3 특징맵의 특징을 추출하는데 사용되는 2개의 컨볼루션 레이어와 단락 연결로 구성된다. 예를 들어, 첫 번째 컨볼루션 레이어는 디컨볼루션 또는 서브 픽셀 컨볼루션을 사용하여 특징맵의 해상도를 업 샘플링하고, 두 번째 컨볼루션 레이어(예, 컨볼루션 커널 크기가 1x1인 컨볼루션 레이어)는 업 샘플링된 특징맵의 특징을 추출하는데 사용되고, zero padding을 사용하여 출력 특징맵의 크기를 변경하지 않고 GDN(Generalized Divisive Normalization)을 정규화 함수로 사용하여 컨볼루션 레이어의 특징 학습 능력을 향상시킨다. 또한 두 개의 연결된 컨볼루션 레이어(예, 컨볼루션 커널 크기가 3x3인 두 개의 순차적으로 연결된 컨볼루션 레이어)를 사용하여 단락 잔차 블록의 출력을 특징 학습하여 제4 특징맵을 획득한다.
본 개시의 다른 일 실시예에 따르면, 재구성 네트워크에서, 제1 차이값 피드백 서브 모듈은 저해상도 중간 이미지(다운 샘플링에 의해 획득된 재구성 이미지)를 기반으로 차이값 피드백 최적화를 수행하지만, 고해상도 중간 이미지(업 샘플링에 의해 획득된 제2 특징맵)에 기반하여 차이값 피드백 최적화를 수행하지 않기 때문에, 최적화 효과를 향상시키기 위해, 본 개시에 따른 최적화 모듈은 제2 차이값 피드백 서브 모듈을 더 포함하여 고해상도 중간 이미지를 기반으로 차이값 피드백 최적화를 수행할 수 있다. 구체적으로, 제2 차이값 피드백 서브 모듈은, 업 샘플링 최적화 모듈에 의해 출력된 제4 특징맵과 제2 특징맵 사이의 차이값을 최적화하고, 최적화된 차이값을 기반으로 제4 특징맵을 최적화하여 최종적으로 제4 특징맵을 획득하는데 사용될 수 있다. 따라서, 본 개시에 따르면, 각 백 프로젝션 모듈 내에서, 현재 특징맵을 2회 나누어 최적화할 수 있고, 다중 스케일(고해상도 및 저해상도)의 차이값 피드백 및 특징 융합을 실현함으로써, 모델이 특징맵의 전체적인 수치적 안정성을 보장하는 것을 기반으로 보다 효과적으로 새로운 정보를 추출 및 처리할 수 있고, 이를 통해 훈련의 안정성을 유지하는 동시에 재구성 이미지의 품질을 꾸준히 향상시킬 수 있다. 동시에, 고도로 모듈화된 디자인 또한 상기 백 프로젝션 방법을 쉽게 배포하고 확장할 수 있도록 한다. 실제 적용에서는 모델 속도, 메모리 공간 및 압축 품질 등 요소에 따라 다단계 재구성 및 파라미터 공유 메커니즘을 사용할지 여부를 선택할 수 있다.
예를 들어, 재구성 네트워크에서, 도 10에서 다운 샘플링 백 프로젝션 모듈의 제1 차이값 피드백 서브 모듈 및 제2 차이값 피드백 서브 모듈로 도시된 바와 같이, 제2 차이값 피드백 서브 모듈의 구조는 제1 차이값 피드백 서브 모듈의 구조와 동일할 수 있다.
다른 예로, 재구성 네트워크에서, 제2 차이값 피드백 서브 모듈의 구조는 제1 차이값 피드백 서브 모듈의 구조와 다를 수 있다. 예를 들어, 도 11에서 다운 샘플링 백 프로젝션 모듈의 제1 차이값 피드백 서브 모듈 및 제2 차이값 피드백 서브 모듈로 도시된 바와 같이, 재구성 네트워크의 제2 차이값 피드백 서브 모듈은 어텐션 메커니즘에 기반한 차이값 피드백 서브 모듈일 수 있으며, 감산 연산자, 제1 스킵 잔차 블록, 어텐션 모듈, 제1 곱셈 연산자, 제2 곱셈 연산자, 가산 연산자 및 제2 스킵 잔차 블록을 포함한다. 감산 연산자는 다운 샘플링 최적화 서브 모듈에 의해 출력된 제4 특징맵과 제2 특징맵을 감산하여 제2 차이값 특징맵(유효 정보 특징맵이라고도 함)을 얻는데 사용된다. 제1 스킵 잔차 블록은 두 개의 컨볼루션 레이어(예, 컨볼루션 커널이 3X3이고, 활성화 함수는 LeakyRelu이고, zero padding을 사용하여 출력 크기를 변경하지 않는 두 개의 컨볼루션 레이어)와 스킵 연결로 구성되고, 제2 차이값 특징맵을 특징 학습하는데 사용된다. 어텐션 모듈은 특징 학습 후의 제2 차이값 특징맵의 특징을 추출하여 어텐션 스코어를 얻는데 사용된다. 여기서 어텐션 모듈은 공간 어텐션 모듈 또는 채널 어텐션 모듈(Wc)일 수 있다. 예를 들어, Squeeze-Excitation 네트워크를 채널 어텐션 모듈로 사용할 수 있다. 제1 곱셈 연산자는 제1 가중 특징맵을 얻기 위해 다운 샘플링 최적화 모듈에 의해 출력된 제4 특징맵과 Wc(실선으로 표시됨)를 곱하는데 사용된다. 제2 곱셈 연산자는 제2 가중 특징맵을 얻기 위해 제2 특징맵과 (1-Wc)(점선으로 표시됨)를 곱하는데 사용된다. 가산 연산자는 제1 가중 특징맵과 제2 가중 특징맵을 추가하여 가중된 특징맵을 획득하는데 사용된다. 제2 스킵 잔차 블록은 두 개의 컨볼루션 레이어(예, 컨볼루션 커널이 3X3, 활성화 함수가 LeakyRelu 및 Sigmoid이고, zero padding을 사용하여 출력 크기를 변경하지 않는 두 개의 컨볼루션 레이어)와 스킵 연결로 구성되며, 상기 가중 특징맵에 대해 특징 학습하여 상기 최적화된 제4 특징맵을 획득하는데 사용된다.
본 개시에 따르면, 재구성 네트워크의 제2 차이값 피드백 서브 모듈은 어텐션 메커니즘에 기반한 차이값 피드백 모듈로 구현되며, 소프트 어텐션 메커니즘을 사용하여 모듈이 특정 부분에 더 많은 어텐션을 기울이고 특징맵에 선택적으로 가중치를 부여함으로써, 차이값 피드백 모듈의 정보 처리 및 융합 능력을 한단계 더 향상시켜, 이미지 압축의 효과와 효율성을 향상시킨다.
도 15는 본 개시의 예시적 실시예에 따른 이미지 압축 방법을 도시한 흐름도이다. 도 15에 도시된 이미지 압축 방법은 이미지 압축단 또는 이미지 코딩단에 적용 가능하다.
도 15를 참조하면, 단계 1501에서, 입력 이미지를 기반으로 하는 코딩 네트워크를 사용하여 상기 입력 이미지의 은닉 변수를 획득할 수 있고, 상기 코딩 네트워크는 딥 러닝 신경망이고, 상기 코딩 네트워크는 적어도 하나의 본 개시에 따른 다운 샘플링 백 프로젝션 모듈을 포함한다.
본 개시의 일 실시예에 따르면, 입력 이미지는 압축될 원본 이미지일 수 있다. 입력 이미지는 촬영 장치를 통해 전달되거나, 필요에 따라 로컬 메모리 또는 로컬 데이터베이스에서 획득하거나, 입력 장치 또는 전송 매체를 통해 외부 전자 장치(예, 컴퓨터 장치, 스마트폰 등) 또는 외부 데이터 소스(예, 인터넷, 서버, 데이터베이스 등)에서 수신될 수 있다.
본 개시의 일 실시예에 따르면, 상기 코딩 네트워크는 본 개시에 따른 종단간 이미지 압축 모델에서의 코딩 네트워크일 수 있다. 상기 코딩 네트워크는 위에서 자세히 설명했으므로, 여기서 더는 반복하지 않는다.
본 개시의 일 실시예에 따라, 상기 은닉 변수를 획득하기 위해 상기 코딩 네트워크를 통해 상기 입력 이미지에 대해 적어도 하나의 다운 샘플링 변환이 수행될 수 있다. 여기서, 본 개시는 다운 샘플링 변환 횟수를 제한하지 않는다. 구체적으로, 상기 코딩 네트워크에 포함된 상기 적어도 하나의 다운 샘플링 백 프로젝션 모듈 각각은, 상기 다운 샘플링 백 프로젝션 모듈에 입력된 제1 특징맵에 대해 다운 샘플링 변환을 수행하여 제2 특징맵을 획득하는 단계; 제2 특징맵을 재구성하여 제1 특징맵과 동일한 해상도를 갖는 제3 특징맵을 획득하는 단계; 제1 특징맵과 제3 특징맵 간의 차이값에 기초하여, 제2 특징맵의 최적화 결과로서의 제4 특징맵을 획득하는 단계를 수행한다. 다중 다운 샘플링 변환의 경우, 각 다운 샘플링 변환은 다운 샘플링 백 프로젝션 모듈에 대응하고, 상기 입력 이미지 또는 상기 입력 이미지의 전처리된 특징맵은 첫 번째 다운 샘플링 백 프로젝션 모듈의 제1 특징맵으로 입력되고, 상기 은닉 변수는 마지막 다운 샘플링 백 프로젝션 모듈의 출력을 기반으로 획득된다.
본 개시의 일 실시예에 따라, 제1 특징맵과 제3 특징맵 간의 차이값에 기초하여, 제2 특징맵의 최적화 결과로서의 제4 특징맵을 획득하는 단계에 대해, 제1 특징맵과 제3 특징맵 간의 차이값을 최적화하고, 최적화된 차이값에 기초하여 제3 특징맵을 최적화하여, 최적화된 제3 특징맵을 획득하는 단계; 최적화된 제3 특징맵에 대해 다운 샘플링 및 최적화를 수행하여 제4 특징맵을 획득하는 단계;를 수행할 수 있다.
본 개시의 일 실시예에 따라, 제1 특징맵과 제3 특징맵 간의 차이값에 기초하여, 제2 특징맵의 최적화 결과로서의 제4 특징맵을 획득하는 단계에 대해, 획득한 제4 특징맵과 제2 특징맵 간의 차이값을 최적화하고, 최적화된 차이값에 기초하여 획득한 제4 특징맵을 최적화하여, 최종 제4 특징맵을 획득하는 단계;를 더 수행할 수 있다.
본 개시의 일 실시예에 따라, 제2 특징맵을 재구성하여 제1 특징맵과 동일한 해상도를 갖는 제3 특징맵을 획득하는 단계에 대해, 컨볼루션 연산을 통해 제2 특징맵에 대해 특징 처리를 수행하는 단계; 특징 처리 후의 제2 특징맵에 대해 업 샘플링 변환을 수행하는 단계; 컨볼루션 연산을 통해 업 샘플링 변환 후의 특징맵을 특징 처리하여 제3 특징맵을 획득하는 단계;를 수행할 수 있다. 예를 들어, 본 개시에 따른 코딩 네트워크의 재구성 모듈(예, 도 7에 도시된 재구성 모듈)을 사용하여 해당 단계를 수행할 수 있다.
본 개시의 일 실시예에 따라, 제1 특징맵과 제3 특징맵 간의 차이값을 최적화하고, 최적화된 차이값에 기초하여 제3 특징맵을 최적화하여, 최적화된 제3 특징맵을 획득하는 단계에 대해, 제1 특징맵과 제3 특징맵을 감산하여 제1 차이값 특징맵을 획득하는 단계; 컨볼루션 연산을 통해 제1 차이값 특징맵에 대해 특징 학습을 수행하는 단계; 특징 학습된 제1 차이값 특징맵과 감산된 특징맵을 서로 추가하여 추가된 특징맵을 획득하는 단계; 컨볼루션 연산을 통해 상기 추가된 특징맵에 대해 특징 학습을 수행하여, 상기 최적화된 제3 특징맵을 획득하는 단계;를 수행할 수 있다. 예를 들어, 본 개시에 따른 코딩 네트워크의 제1 차이값 피드백 서브 모듈(예, 도 8에 도시된 제1 차이값 피드백 서브 모듈)을 사용하여 해당 단계를 수행할 수 있다.
본 개시의 일 실시예에 따라, 최적화된 제3 특징맵에 대해 다운 샘플링 및 최적화를 수행하여 제4 특징맵을 획득하는 단계에 대해, 컨볼루션 연산을 통해 상기 최적화된 제3 특징맵을 다운 샘플링하고, 다운 샘플링된 제3 특징맵의 특징을 추출하는 단계; 컨볼루션 연산을 통해 특징 추출로 획득한 특징맵에 대해 특징 학습을 수행하여, 제4 특징맵을 획득하는 단계;를 수행할 수 있다. 예를 들어, 본 개시에 따른 코딩 네트워크의 다운 샘플링 최적화 서브 모듈(예, 도 9에 도시된 다운 샘플링 최적화 서브 모듈)을 사용하여 해당 단계를 수행할 수 있다.
본 개시의 일 실시예에 따라, 획득한 제4 특징맵과 제2 특징맵 간의 차이값을 최적화하고, 최적화된 차이값에 기초하여 획득한 제4 특징맵을 최적화하여, 최종 제4 특징맵을 획득하는 단계에 대해, 획득한 제4 특징맵과 제2 특징맵을 감산하여 제2 차이값 특징맵을 획득하는 단계; 컨볼루션 연산을 통해 제2 차이값 특징맵에 대해 특징 학습을 수행하는 단계; 특징 학습된 제2 차이값 특징맵과 감산된 특징맵을 서로 추가하여 추가된 특징맵을 획득하는 단계; 컨볼루션 연산을 통해 상기 추가된 특징맵에 대해 특징 학습을 수행하여, 상기 최종 제4 특징맵을 획득하는 단계;를 수행할 수 있다. 예를 들어, 본 개시에 따른 코딩 네트워크의 제1 차이값 피드백 서브 모듈과 유사한 제2 차이값 피드백 서브 모듈(예, 도 10에 도시된 제2 차이값 피드백 모듈)을 사용하여 해당 단계를 수행할 수 있다.
본 개시의 일 실시예에 따라, 획득한 제4 특징맵과 제2 특징맵 간의 차이값을 최적화하고, 최적화된 차이값에 기초하여 획득한 제4 특징맵을 최적화하여, 최종 제4 특징맵을 획득하는 단계에 대해, 획득한 제4 특징맵과 제2 특징맵을 감산하여 제2 차이값 특징맵을 획득하는 단계; 컨볼루션 연산을 통해 제2 차이값 특징맵에 대해 특징 학습을 수행하는 단계; 어텐션 메커니즘을 통해 특징 학습된 제2 차이값 특징맵에 대해 특징 추출하여, 어텐션 스코어를 획득하는 단계; 획득한 제4 특징맵과 상기 어텐션 스코어를 곱하여, 제1 가중 특징맵을 획득하는 단계; 제2 특징맵과 (1-상기 어텐션 스코어)를 곱하여, 제2 가중 특징맵을 획득하는 단계; 제1 가중 특징맵과 제2 가중 특징맵을 서로 추가하여, 가중 특징맵을 획득하는 단계; 컨볼루션 연산을 통해 상기 가중 특징맵에 대해 특징 학습을 수행하여, 상기 최종 제4 특징맵을 획득하는 단계;를 수행할 수 있다. 예를 들어, 본 개시에 따른 코딩 네트워크의 어텐션 메커니즘에 기반한 제2 차이값 피드백 서브 모듈(예, 도 11에 도시된 제2 차이값 피드백 서브 모듈)을 사용하여 해당 단계를 수행할 수 있다.
본 개시의 일 실시예에 따라, 상기 코딩 네트워크가 고주파 코딩 서브 네트워크 및 저주파 코딩 서브 네트워크를 포함할 때, 상기 입력 이미지로부터 고주파 성분 및 저주파 성분을 추출할 수 있고, 예를 들어, 본 개시에 따른 크로스오버 네트워크(예, 도 13에 도시된 크로스오버 네트워크)를 사용하여 해당 단계를 수행할 수 있다. 상기 고주파 코딩 서브 네트워크를 사용하여 상기 고주파 성분의 은닉 변수를 획득하고, 상기 고주파 코딩 서브 네트워크에 포함된 적어도 하나의 다운 샘플링 백 프로젝션 모듈의 마지막 다운 샘플링 백 프로젝션 모듈에 의해 획득된 제4 특징맵에 기초하여, 상기 고주파 성분의 은닉 변수를 획득하고; 상기 저주파 코딩 서브 네트워크를 사용하여 상기 저주파 성분의 은닉 변수를 획득하고, 상기 저주파 코딩 서브 네트워크에 포함된 적어도 하나의 다운 샘플링 백 프로젝션 모듈의 마지막 다운 샘플링 백 프로젝션 모듈에 의해 획득된 제4 특징맵에 기초하여, 상기 저주파 성분의 은닉 변수를 획득하고; 상기 고주파 성분의 은닉 변수와 상기 저주파 성분의 은닉 변수를 융합하여, 상기 입력 이미지의 은닉 변수를 획득한다.
본 개시의 일 실시예에 따라, 상기 고주파 성분의 은닉 변수와 상기 저주파 성분의 은닉 변수를 융합하여, 상기 은닉 변수를 획득하는 단계에 대해, 상기 고주파 성분의 은닉 변수와 상기 저주파 성분의 은닉 변수를 스플라이싱 하여 제1 스플라이싱 은닉 변수를 획득하는 단계; 공간 어텐션 메커니즘을 사용하여, 채널 방향에서 제1 스플라이싱 은닉 변수에 대해 평균 풀링 및 최대 풀링을 각각 진행하고, 해당 평균 풀링 후의 제1 스플라이싱 은닉 변수 및 해당 최대 풀링 후의 제1 스플라이싱 은닉 변수를 스플라이싱하여 제2 스플라이싱 은닉 변수를 획득하고, 컨볼루션 연산을 사용하여 상기 제2 스플라이싱 은닉 변수의 공간 어텐션 스코어를 계산하는 단계; 채널 어텐션 메커니즘을 사용하여, 공간 차원에서 제1 스플라이싱 은닉 변수에 대해 풀링하고, 컨볼루션 연산을 사용하여 풀링 후의 제1 스플라이싱 은닉 변수의 채널 어텐션 스코어를 계산하는 단계; 상기 채널 어텐션 스코어와 공간 어텐션 스코어를 이용하여 상기 저주파 성분의 은닉 변수를 가중하여, 상기 저주파 성분의 가중 은닉 변수를 획득하는 단계; (1-채널 어텐션 스코어) 및 (1-공간 어텐션 스코어)를 사용하여 상기 고주파 성분의 은닉 변수에 대해 가중하여, 상기 고주파 성분의 가중 은닉 변수를 획득하는 단계; 상기 저주파 성분의 가중 은닉 변수와 상기 고주파 성분의 가중 은닉 변수의 합을 상기 입력 이미지의 은닉 변수로 획득하는 단계;를 수행할 수 있다. 예를 들어, 본 개시에 따른 융합 네트워크(예, 도 14에 도시된 융합 네트워크)를 사용하여 해당 단계를 수행할 수 있다.
단계(1502)에서, 상기 은닉 변수에 기초하여 엔트로피 코딩을 수행하여, 압축 이미지의 비트스트림 파일을 획득할 수 있다.
본 개시의 일 실시예에 따라, 엔트로피 코딩 동작은, 은닉 변수에 기초하여 압축 이미지의 비트스트림 파일을 획득하기 위한 엔트로피 코딩 관련 동작을 포함할 수 있고, 하이퍼 파라메트릭 분석 네트워크, 부가 정보 엔트로피 코딩, 부가 정보 엔트로피 디코딩, 하이퍼 파라메트릭 생성 네트워크, 컨텍스트 모델, 은닉 변수 엔트로피 코드 중 적어도 하나를 포함하지만 이에 국한되지 않는다.
도 16은 본 개시의 예시적 실시예에 따른 이미지 압축 해제 방법을 도시한 흐름도이다.
도 16을 참조하면, 단계(1601)에서, 압축 이미지의 비트스트림 파일을 엔트로피 디코딩하여, 은닉 변수를 획득할 수 있다.
본 개시의 일 실시예에 따라, 압축 이미지의 비트스트림 파일은 필요에 따라 로컬 메모리 또는 로컬 데이터베이스에서 획득하거나, 입력 장치 또는 전송 매체를 통해 외부 전자 장치(예, 컴퓨터 장치, 스마트폰 등) 또는 외부 데이터 소스(예, 인터넷, 서버, 데이터베이스 등)에서 수신될 수 있다.
본 개시의 일 실시예에 따라, 엔트로피 디코딩 동작은 압축 이미지의 비트스트림 파일을 기반으로 은닉 변수를 획득하기 위한 엔트로피 디코딩 관련 동작을 포함할 수 있으며, 이는 은닉 변수 엔트로피 디코딩을 포함하나 이에 국한되지 않는다.
단계(1602)에서, 상기 은닉 변수에 기반하여 재구성 네트워크를 사용하여 상기 압축 이미지의 재구성 이미지를 획득할 수 있고, 상기 재구성 네트워크는 딥 러닝 신경망이고, 상기 재구성 네트워크는 적어도 하나의 업 샘플링 백 프로젝션 모듈을 포함한다.
본 개시의 일 실시예에 따라, 상기 재구성 네트워크는 본 개시에 따른 종단간 이미지 압축 모델에서의 재구성 네트워크일 수 있다. 상기 재구성 네트워크는 위에서 자세히 설명했으므로, 여기서 더는 반복하지 않는다.
본 개시의 일 실시예에 따라, 상기 재구성 네트워크를 통해 상기 은닉 변수에 대해 적어도 하나의 업 샘플링 변환을 실행하여 상기 재구성 이미지를 획득할 수 있다. 여기서, 본 개시는 업 샘플링 변환 횟수를 제한하지 않는다. 구체적으로, 상기 재구성 네트워크에 포함된 상기 적어도 하나의 업 샘플링 백 프로젝션 모듈 각각은, 상기 업 샘플링 백 프로젝션 모듈에 입력된 제5 특징맵에 대해 업 샘플링 변환을 수행하여 제6 특징맵을 획득하는 단계; 제6 특징맵을 재구성하여 제5 특징맵과 동일한 해상도를 갖는 제7 특징맵을 획득하는 단계; 제5 특징맵과 제7 특징맵 간의 차이값에 기초하여, 제6 특징맵의 최적화 결과로서의 제8 특징맵을 획득하는 단계를 수행한다. 다중 업 샘플링 변환의 경우, 각 업 샘플링 변환은 업 샘플링 백 프로젝션 모듈에 대응하고, 상기 은닉 변수를 기반으로 첫 번째 업 샘플링 백 프로젝션 모듈이 입력된 제4 특징맵을 획득하고, 마지막 업 샘플링 백 프로젝션 모듈의 출력을 상기 재구성 이미지로 사용한다.
본 개시의 일 실시예에 따라, 제5 특징맵과 제7 특징맵 간의 차이값에 기초하여, 제6 특징맵의 최적화 결과로서의 제8 특징맵을 획득하는 단계에 대해, 제5 특징맵과 제7 특징맵 간의 차이값을 최적화하고, 최적화된 차이값에 기초하여 제7 특징맵을 최적화하여, 최적화된 제7 특징맵을 획득하는 단계; 최적화된 제7 특징맵에 대해 업 샘플링 및 최적화를 수행하여 제8 특징맵을 획득하는 단계;를 수행할 수 있다.
본 개시의 일 실시예에 따라, 제5 특징맵과 제7 특징맵 간의 차이값에 기초하여, 제6 특징맵의 최적화 결과로서의 제8 특징맵을 획득하는 단계에 대해, 획득한 제8 특징맵과 제6 특징맵 간의 차이값을 최적화하고, 최적화된 차이값에 기초하여 제6 특징맵을 최적화하여, 최종 제8 특징맵을 획득하는 단계를 더 수행할 수 있다.
본 개시의 일 실시예에 따라, 제6 특징맵을 재구성하여 제5 특징맵과 동일한 해상도를 갖는 제7 특징맵을 획득하는 단계에 대해, 컨볼루션 연산을 통해 제6 특징맵에 대해 특징 처리를 수행하는 단계; 특징 처리 후의 제6 특징맵에 대해 다운 샘플링 변환을 수행하는 단계; 컨볼루션 연산을 통해 다운 샘플링 변환 후의 제6 특징맵을 특징 처리하여 제7 특징맵을 획득하는 단계;를 수행할 수 있다. 예를 들어, 본 개시에 따른 재구성 네트워크의 재구성 모듈을 사용하여 해당 단계를 수행할 수 있다.
본 개시의 일 실시예에 따라, 제5 특징맵과 제7 특징맵 간의 차이값을 최적화하고, 최적화된 차이값에 기초하여 제7 특징맵을 최적화하여, 최적화된 제7 특징맵을 획득하는 단계에 대해, 제5 특징맵과 제7 특징맵을 감산하여 제3 차이값 특징맵을 획득하는 단계; 컨볼루션 연산을 통해 제3 차이값 특징맵에 대해 특징 학습을 수행하는 단계; 특징 학습된 제3 차이값 특징맵과 감산된 특징맵을 서로 추가하여 추가된 특징맵을 획득하는 단계; 컨볼루션 연산을 통해 상기 추가된 특징맵에 대해 특징 학습을 수행하여, 상기 최적화된 제7 특징맵을 획득하는 단계;를 수행할 수 있다. 예를 들어, 본 개시에 따른 재구성 네트워크의 제1 차이값 피드백 서브 모듈을 사용하여 해당 단계를 수행할 수 있다.
본 개시의 일 실시예에 따라, 최적화된 제7 특징맵에 대해 업 샘플링 및 최적화를 수행하여 제8 특징맵을 획득하는 단계에 대해, 컨볼루션 연산을 통해 상기 최적화된 제7 특징맵을 업 샘플링하고, 업 샘플링된 제7 특징맵의 특징을 추출하는 단계; 컨볼루션 연산을 통해 특징 추출로 획득한 특징맵에 대해 특징 학습을 수행하여, 제8 특징맵을 획득하는 단계;를 수행할 수 있다. 예를 들어, 본 개시에 따른 재구성 네트워크의 업 샘플링 최적화 모듈을 사용하여 해당 단계를 수행할 수 있다.
본 개시의 일 실시예에 따라, 획득한 제8 특징맵과 제6 특징맵 간의 차이값을 최적화하고, 최적화된 차이값에 기초하여 획득한 제8 특징맵을 최적화하여, 최종 제8 특징맵을 획득하는 단계에 대해, 획득한 제8 특징맵과 제6 특징맵을 감산하여 제4 차이값 특징맵을 획득하는 단계; 컨볼루션 연산을 통해 제4 차이값 특징맵에 대해 특징 학습을 수행하는 단계; 특징 학습된 제4 차이값 특징맵과 감산된 특징맵을 서로 추가하여 추가된 특징맵을 획득하는 단계; 컨볼루션 연산을 통해 상기 추가된 특징맵에 대해 특징 학습을 수행하여, 상기 최적화된 제7 특징맵을 획득하는 단계;를 수행할 수 있다. 예를 들어, 본 개시에 따른 재구성 네트워크의 제1 차이값 피드백 서브 모듈과 유사한 제2 차이값 피드백 서브 모듈을 사용하여 해당 단계를 수행할 수 있다.
본 개시의 일 실시예에 따라, 획득한 제8 특징맵과 제6 특징맵 간의 차이값을 최적화하고, 최적화된 차이값에 기초하여 획득한 제8 특징맵을 최적화하여, 최종 제8 특징맵을 획득하는 단계에 대해, 획득한 제8 특징맵과 제6 특징맵을 감산하여 제4 차이값 특징맵을 획득하는 단계; 컨볼루션 연산을 통해 제4 차이값 특징맵에 대해 특징 학습을 수행하는 단계; 어텐션 메커니즘을 통해 특징 학습된 제4 차이값 특징맵에 대해 특징 추출하여, 어텐션 스코어를 획득하는 단계; 획득한 제8 특징맵과 상기 어텐션 스코어를 곱하여, 제3 가중 특징맵을 획득하는 단계; 제6 특징맵과 (1-상기 어텐션 스코어)를 곱하여, 제4 가중 특징맵을 획득하는 단계; 제3 가중 특징맵과 제4 가중 특징맵을 서로 추가하여, 가중 특징맵을 획득하는 단계; 컨볼루션 연산을 통해 상기 가중 특징맵에 대해 특징 학습을 수행하여, 상기 최종 제8 특징맵을 획득하는 단계;를 수행할 수 있다. 예를 들어, 본 개시에 따른 재구성 네트워크의 어텐션 메커니즘을 기반으로 한 제2 차이값 피드백 서브 모듈을 사용하여 해당 단계를 수행할 수 있다.
도 17은 본 개시의 예시적 실시예에 따른 종단간 이미지 압축 방법을 도시한 흐름도이다.
도 17을 참조하면, 단계(1701)에서, 입력 이미지에 기초하여, 종단간 이미지 압축 모델의 코딩 네트워크를 사용하여 상기 입력 이미지의 은닉 변수를 획득할 수 있다.
본 개시의 일 실시예에 따르면, 입력 이미지는 압축될 원본 이미지일 수 있다. 입력 이미지는 촬영 장치를 통해 전달되거나, 필요에 따라 로컬 메모리 또는 로컬 데이터베이스에서 획득하거나, 입력 장치 또는 전송 매체를 통해 외부 전자 장치(예, 컴퓨터 장치, 스마트폰 등) 또는 외부 데이터 소스(예, 인터넷, 서버, 데이터베이스 등)에서 수신될 수 있다.
본 개시의 일 실시예에 따르면, 종단간 이미지 압축 모델은 도 5 또는 도 12에 도시된 종단간 이미지 압축 모델일 수 있다. 단계(1701)은 도 15에 도시된 단계(1501)과 동일할 수 있으므로, 여기서 더는 반복하지 않는다.
단계(1702)에서, 상기 은닉 변수를 기반으로 엔트로피 코딩을 수행하여, 압축 이미지의 비트스트림 파일을 획득할 수 있다.
본 개시의 일 실시예에 따라, 엔트로피 코딩 동작은, 은닉 변수에 기초하여 압축 이미지의 비트스트림 파일을 획득하기 위한 엔트로피 코딩 관련 동작을 포함할 수 있고, 예를 들어, 도 5 또는 도 12에서 설명된 종단간 이미지 압축 모델에서 엔트로피 모델에서의 엔트로피 코딩 관련 동작을 포함할 수 있고, 하이퍼 파라메트릭 분석 네트워크, 부가 정보 엔트로피 코딩, 부가 정보 엔트로피 디코딩, 하이퍼 파라메트릭 생성 네트워크, 컨텍스트 모델, 은닉 변수 엔트로피 코드 중 적어도 하나를 포함하지만 이에 국한되지 않는다.
단계(1703)에서, 상기 압축 이미지의 비트스트림 파일에 대해 엔트로피 디코딩을 수행하여 디코딩된 은닉 변수를 획득할 수 있다.
본 개시의 일 실시예에 따르면, 엔트로피 디코딩 동작은 압축 이미지의 비트스트림 파일을 기반으로 은닉 변수를 획득하기 위한 엔트로피 디코딩 관련 동작, 예를 들어 도 5 또는 도 12에서 설명된 종단간 이미지 압축 모델의 엔트로피 모델에서의 엔트로피 디코딩 관련 동작을 포함할 수 있고, 은닉 변수 엔트로피 디코딩을 포함하지만 이에 국한되지 않는다.
단계(1704)에서, 상기 디코딩된 은닉 변수에 기초하여 상기 종단간 이미지 압축 모델의 재구성 네트워크를 사용하여 재구성 이미지를 획득할 수 있다. 단계(1704)는 도 16에서 설명한 단계(1602)와 동일할 수 있으며, 여기서 더는 언급하지 않는다.
본 개시의 일 실시예에 따르면, 도 15 내지 도 17에 도시된 본 개시에 따른 이미지 압축/압축 해제 방법에 사용되는 종단간 이미지 압축 모델(예, 도 5 또는 도 12에 도시된 종단간 이미지 압축 모델)은 훈련된 모델이다. 예를 들어, 본 개시에 따른 종단간 이미지 압축 모델은 다음 방법을 통해 훈련될 수 있다: 이미지 훈련 세트(예, CLIC2019 데이터 세트, Kodak 데이터 세트 등)를 획득하는 단계; 상기 이미지 훈련 세트의 이미지를 입력 이미지로 하여 도 17에 도시된 이미지 압축 방법을 사용하여 재구성 이미지를 획득하는 단계; 상기 입력 이미지와 상기 재구성 이미지의 평균 제곱 오차를 기반으로 손실 함수를 계산하는 단계; 계산된 손실 함수를 사용하여 상기 이미지 압축 모델의 파라미터를 조절하는 단계. 예를 들어, 손실 함수는 다음과 같이 표현될 수 있지만 이에 국한되지는 않는다:
Figure pat00028
Figure pat00029
이고,
L은 상기 손실함수를 나타내고, R은 추정된 압축된 이미지 크기를 나타내고,
Figure pat00030
는 압축률 및 화질을 제어하기 위한 파라미터를 나타내고,
Figure pat00031
는 클수록 압축률이 작아지고 화질이 좋아지며, N은 이미지 픽셀의 수를 나타내고,
Figure pat00032
는 상기 입력 이미지를 나타내고,
Figure pat00033
는 상기 재구성 이미지를 나타낸다.
예를 들어, 서로 다른
Figure pat00034
에 대해Adam 최적화기를 사용하여 공식(5)에서 도시한 바와 같이 손실 함수를 최적화하여, 본 개시에 따른 종단간 이미지 압축 모델의 파라미터를 훈련할 수 있다. 예를 들어, 훈련의 반복 횟수는 1.5Х106이고, 각 단계에서 사용되는 배치 크기는 4이고, 초기 학습률은 1Х10-4이고, 마지막 80000 단계의 학습률은 1Х10-5로 조정된다.
도 18은 본 개시의 예시적 실시예에 따른 이미지 압축 장치를 도시한 블록도이다. 도 18에 도시된 이미지 압축 장치는 이미지 압축단 또는 이미지 코딩단에 적용 가능하다.
도 18을 참조하면, 본 개시의 일 실시예에 따른 이미지 압축 장치(1800)는 코딩 네트워크(1801) 및 엔트로피 코딩 네트워크(1802)를 포함할 수 있다.
코딩 네트워크(1801)는 입력 이미지를 기반으로 상기 입력 이미지의 은닉 변수를 획득할 수 있고, 상기 코딩 네트워크는 딥 러닝 신경망이고, 상기 코딩 네트워크는 적어도 하나의 본 개시에 따른 다운 샘플링 백 프로젝션 모듈을 포함한다.
본 개시의 일 실시예에 따르면, 입력 이미지는 압축될 원본 이미지일 수 있다. 입력 이미지는 촬영 장치를 통해 전달되거나, 필요에 따라 로컬 메모리 또는 로컬 데이터베이스에서 획득하거나, 입력 장치 또는 전송 매체를 통해 외부 전자 장치(예, 컴퓨터 장치, 스마트폰 등) 또는 외부 데이터 소스(예, 인터넷, 서버, 데이터베이스 등)에서 수신될 수 있다.
본 개시의 일 실시예에 따르면, 상기 코딩 네트워크는 본 개시에 따른 종단간 이미지 압축 모델에서의 코딩 네트워크일 수 있다. 상기 코딩 네트워크는 위에서 자세히 설명했으므로, 여기서 더는 반복하지 않는다.
본 개시의 일 실시예에 따라, 코딩 네트워크(1801)는 상기 은닉 변수를 획득하기 위해 상기 코딩 네트워크를 통해 상기 입력 이미지에 대해 적어도 하나의 다운 샘플링 변환을 수행할 수 있다. 여기서, 본 개시는 다운 샘플링 변환 횟수를 제한하지 않는다. 구체적으로, 각 다운 샘플링 백 프로젝션 모듈은 다운 샘플링 모듈, 재구성 모듈 및 최적화 모듈을 포함하고, 상기 다운 샘플링 모듈은, 상기 다운 샘플링 백 프로젝션 모듈에 입력된 제1 특징맵에 대해 다운 샘플링 변환을 수행하여 제2 특징맵을 획득하도록 구성되고; 재구성 모듈은, 제2 특징맵을 재구성하여 제1 특징맵과 동일한 해상도를 갖는 제3 특징맵을 획득하도로 구성되고; 최적화 모듈은, 제1 특징맵과 제3 특징맵 간의 차이값에 기초하여, 제2 특징맵의 최적화 결과로서의 제4 특징맵을 획득하도록 구성된다. 다중 다운 샘플링 변환의 경우, 각 다운 샘플링 변환은 다운 샘플링 백 프로젝션 모듈에 대응하고, 상기 입력 이미지 또는 상기 입력 이미지의 전처리된 특징맵은 첫 번째 다운 샘플링 백 프로젝션 모듈의 제1 특징맵으로 입력되고, 상기 은닉 변수는 마지막 다운 샘플링 백 프로젝션 모듈의 출력을 기반으로 획득된다. 본 개시의 일 실시예에 따라, 최적화 모듈은 제1 차이값 피드백 서브 모듈 및 다운 샘플링 최적화 서브 모듈을 포함하고, 제1 차이값 피드백 서브 모듈은, 제1 특징맵과 제3 특징맵 간의 차이값을 최적화하고, 최적화된 차이값에 기초하여 제3 특징맵을 최적화하여, 최적화된 제3 특징맵을 획득하도록 구성되고; 다운 샘플링 최적화 서브 모듈은, 최적화된 제3 특징맵에 대해 다운 샘플링 및 최적화를 수행하여 제4 특징맵을 획득하도록 구성된다.
본 개시의 일 실시예에 따라, 최적화 모듈은 제2 차이값 피드백 서브 모듈을 더 포함하고, 상기 모듈은, 획득한 제4 특징맵과 제2 특징맵 간의 차이값을 최적화하고, 최적화된 차이값에 기초하여 획득한 제4 특징맵을 최적화하여, 최종 제4 특징맵을 획득하도록 구성된다.
본 개시의 일 실시예에 따라, 재구성 모듈은, 컨볼루션 연산을 통해 제2 특징맵에 대해 특징 처리를 수행하고; 특징 처리 후의 제2 특징맵에 대해 업 샘플링 변환을 수행하고; 컨볼루션 연산을 통해 업 샘플링 변환 후의 특징맵을 특징 처리하여 제3 특징맵을 획득하도록 구성된다. 예를 들어, 본 개시에 따른 코딩 네트워크의 재구성 모듈(예, 도 7에 도시된 재구성 모듈)을 사용하여 상기 재구성 모듈을 구현할 수 있다.
본 개시의 일 실시예에 따라, 최적화 모듈에서의 제1 차이값 피드백 서브 모듈은, 제1 특징맵과 제3 특징맵을 감산하여 제1 차이값 특징맵을 획득하고; 컨볼루션 연산을 통해 제1 차이값 특징맵에 대해 특징 학습을 수행하고; 특징 학습된 제1 차이값 특징맵과 감산된 특징맵을 서로 추가하여 추가된 특징맵을 획득하고; 컨볼루션 연산을 통해 상기 추가된 특징맵에 대해 특징 학습을 수행하여, 상기 최적화된 제3 특징맵을 획득하도록 구성된다. 예를 들어, 본 개시에 따른 코딩 네트워크의 제1 차이값 피드백 서브 모듈(예, 도 8에 도시된 제1 차이값 피드백 서브 모듈)을 사용하여 상기 제1 차이값 피드백 서브 모듈을 구현할 수 있다.
본 개시의 일 실시예에 따라, 최적화 모듈에서의 다운 샘플링 최적화 모듈은, 컨볼루션 연산을 통해 상기 최적화된 제3 특징맵을 다운 샘플링하고, 다운 샘플링된 제3 특징맵의 특징을 추출하고; 컨볼루션 연산을 통해 특징 추출로 획득한 특징맵에 대해 특징 학습을 수행하여, 제4 특징맵을 획득하도록 구성된다. 예를 들어, 본 개시에 따른 코딩 네트워크의 다운 샘플링 최적화 서브 모듈(예, 도 9에 도시된 다운 샘플링 최적화 서브 모듈)을 사용하여 상기 다운 샘플링 최적화 서브 모듈을 구현할 수 있다.
본 개시의 일 실시예에 따라, 최적화 모듈에서의 제2 차이값 피드백 서브 모듈은, 획득한 제4 특징맵과 제2 특징맵을 감산하여 제2 차이값 특징맵을 획득하고; 컨볼루션 연산을 통해 제2 차이값 특징맵에 대해 특징 학습을 수행하고; 특징 학습된 제2 차이값 특징맵과 감산된 특징맵을 서로 추가하여 추가된 특징맵을 획득하고; 컨볼루션 연산을 통해 상기 추가된 특징맵에 대해 특징 학습을 수행하여, 상기 최적화된 제3 특징맵을 획득하도록 구성된다. 예를 들어, 본 개시에 따른 코딩 네트워크의 제1 차이값 피드백 서브 모듈과 유사한 제2 차이값 피드백 서브 모듈(예, 도 10에 도시된 제2 차이값 피드백 모듈)을 사용하여 상기 제2 차이값 피드백 서브 모듈을 구현할 수 있다.
본 개시의 일 실시예에 따라, 최적화 모듈에서의 제2 차이값 피드백 서브 모듈은, 획득한 제4 특징맵과 제2 특징맵을 감산하여 제2 차이값 특징맵을 획득하고; 컨볼루션 연산을 통해 제2 차이값 특징맵에 대해 특징 학습을 수행하고; 어텐션 메커니즘을 통해 특징 학습된 제2 차이값 특징맵에 대해 특징 추출하여, 어텐션 스코어를 획득하고; 획득한 제4 특징맵과 상기 어텐션 스코어를 곱하여, 제1 가중 특징맵을 획득하고; 제2 특징맵과 (1-상기 어텐션 스코어)를 곱하여, 제2 가중 특징맵을 획득하고; 제1 가중 특징맵과 제2 가중 특징맵을 서로 추가하여, 가중 특징맵을 획득하고; 컨볼루션 연산을 통해 상기 가중 특징맵에 대해 특징 학습을 수행하여, 상기 최종 제4 특징맵을 획득하도록 구성된다. 예를 들어, 본 개시에 따른 코딩 네트워크의 어텐션 메커니즘에 기반한 제2 차이값 피드백 서브 모듈(예, 도 11에 도시된 제2 차이값 피드백 서브 모듈)을 사용하여 상기 제2 차이값 피드백 서브 모듈을 구현할 수 있다.
본 개시의 일 실시예에 따라, 상기 이미지 압축 장치는 크로스오버 네트워크를 더 포함하고, 상기 코딩 네트워크는 고주파 코딩 서브 네트워크, 저주파 코딩 서브 네트워크 및 융합 네트워크를 포함하고, 상기 고주파 코딩 서브 네트워크 및 상기 저주파 코딩 서브 네트워크는 모두 적어도 하나의 다운 샘플링 백 프로젝션 모듈을 포함한다. 상기 크로스오버 네트워크는 상기 입력 이미지로부터 고주파 성분 및 저주파 성분을 추출하도록 구성되고, 예를 들어, 도 13에 도시된 크로스오버 네트워크를 사용하여 상기 크로스오버 네트워크를 구현할 수 있다. 상기 고주파 코딩 서브 네트워크는, 상기 고주파 성분의 은닉 변수를 획득하고(상기 고주파 코딩 서브 네트워크에 포함된 적어도 하나의 다운 샘플링 백 프로젝션 모듈의 마지막 다운 샘플링 백 프로젝션 모듈에 의해 획득된 제4 특징맵에 기초하여, 상기 고주파 성분의 은닉 변수를 획득함); 상기 저주파 성분의 은닉 변수를 획득(상기 저주파 코딩 서브 네트워크에 포함된 적어도 하나의 다운 샘플링 백 프로젝션 모듈의 마지막 다운 샘플링 백 프로젝션 모듈에 의해 획득된 제4 특징맵에 기초하여, 상기 저주파 성분의 은닉 변수를 획득함)하도록 구성된다. 융합 네트워크는, 상기 고주파 성분의 은닉 변수와 상기 저주파 성분의 은닉 변수를 융합하여, 상기 입력 이미지의 은닉 변수를 획득하도록 구성된다.
본 개시의 일 실시예에 따라, 융합 네트워크는, 상기 고주파 성분의 은닉 변수와 상기 저주파 성분의 은닉 변수를 스플라이싱 하여 제1 스플라이싱 은닉 변수를 획득하고; 공간 어텐션 메커니즘을 사용하여, 채널 방향에서 제1 스플라이싱 은닉 변수에 대해 평균 풀링 및 최대 풀링을 각각 진행하고, 해당 평균 풀링 후의 제1 스플라이싱 은닉 변수 및 해당 최대 풀링 후의 제1 스플라이싱 은닉 변수를 스플라이싱하여 제2 스플라이싱 은닉 변수를 획득하고, 컨볼루션 연산을 사용하여 상기 제2 스플라이싱 은닉 변수의 공간 어텐션 스코어를 계산하고; 채널 어텐션 메커니즘을 사용하여, 공간 차원에서 제1 스플라이싱 은닉 변수에 대해 풀링하고, 컨볼루션 연산을 사용하여 풀링 후의 제1 스플라이싱 은닉 변수의 채널 어텐션 스코어를 계산하고; 상기 채널 어텐션 스코어와 공간 어텐션 스코어를 이용하여 상기 저주파 성분의 은닉 변수를 가중하여, 상기 저주파 성분의 가중 은닉 변수를 획득하고; (1-채널 어텐션 스코어) 및 (1-공간 어텐션 스코어)를 사용하여 상기 고주파 성분의 은닉 변수에 대해 가중하여, 상기 고주파 성분의 가중 은닉 변수를 획득하고; 상기 저주파 성분의 가중 은닉 변수와 상기 고주파 성분의 가중 은닉 변수의 합을 상기 입력 이미지의 은닉 변수로 획득하도록 구성된다. 예를 들어, 본 개시에 따른 융합 네트워크(예, 도 14에 도시된 융합 네트워크)를 사용하여 상기 융합 네트워크를 구현할 수 있다.
엔트로피 코딩 네트워크(1802)는 상기 은닉 변수에 기초하여 엔트로피 코딩을 수행하여, 압축 이미지의 비트스트림 파일을 획득할 수 있다.
본 개시의 일 실시예에 따라, 엔트로피 코딩 동작은, 은닉 변수에 기초하여 압축 이미지의 비트스트림 파일을 획득하기 위한 엔트로피 코딩 관련 동작을 포함할 수 있고, 하이퍼 파라메트릭 분석 네트워크, 부가 정보 엔트로피 코딩, 부가 정보 엔트로피 디코딩, 하이퍼 파라메트릭 생성 네트워크, 컨텍스트 모델, 은닉 변수 엔트로피 코드 중 적어도 하나를 포함하지만 이에 국한되지 않는다.
도 19는 본 개시의 예시적 실시예에 따른 이미지 압축 해제 장치를 도시한 블록도이다. 도 19에 도시된 이미지 압축 해제 장치는 이미지 압축 해제단 또는 이미지 디코딩(재구성)단에 적합하다.
도 19를 참조하면, 본 개시의 일 실시예에 따른 이미지 압축 해제 장치(1900)는 엔트로피 디코딩 네트워크(1901) 및 재구성 네트워크(1902)를 포함할 수 있다.
엔트로피 디코딩 네트워크(1901)는 압축 이미지의 비트스트림 파일에 대해 엔트로피 디코딩하여 은닉 변수를 획득할 수 있다.
본 개시의 일 실시예에 따르면, 압축 이미지의 비트스트림 파일은 필요에 따라 로컬 메모리 또는 로컬 데이터베이스에서 가져오거나 입력 장치 또는 전송 매체를 통해 외부 전자 장치(예, 컴퓨터 장치, 스마트폰 등) 또는 외부 데이터 소스(예, 인터넷, 서버, 데이터베이스 등)로부터 수신될 수 있다.
본 개시의 일 실시예에 따르면, 엔트로피 디코딩 동작은 압축 이미지의 비트스트림 파일을 기반으로 은닉 변수를 획득하기 위한 엔트로피 디코딩 관련 동작을 포함할 수 있으며, 이는 은닉 변수 엔트로피 디코딩을 포함하나 이에 국한되지 않는다.
재구성 네트워크(1902)는 상기 은닉 변수에 기초하여 상기 압축 이미지의 재구성 이미지를 획득할 수 있고, 상기 재구성 네트워크는 딥 러닝 신경망이고, 상기 재구성 네트워크는 본 개시에 따른 적어도 하나의 업 샘플링 백 프로젝션 모듈을 포함한다.
본 개시의 일 실시예에 따르면, 상기 재구성 네트워크는 본 개시에 따른 종단간 이미지 압축 모델에서의 재구성 네트워크일 수 있다. 상기 재구성 네트워크는 위에서 자세히 설명했으므로, 여기서 더는 반복하지 않는다.
본 개시의 일 실시예에 따르면, 재구성 네트워크(1902)는 적어도 하나의 업 샘플링 백 프로젝션 모듈을 통과할 수 있다. 상기 은닉 변수에 대해 적어도 하나의 업 샘플링 변환을 수행하여 상기 재구성 이미지를 획득한다. 여기서, 본 개시는 양호한 샘플링 변환의 횟수를 제한하지 않는다. 구체적으로, 업 샘플링 백 프로젝션 모듈 각각은 업 샘플링 모듈, 재구성 모듈 및 최적화 모듈을 포함하고, 업 샘플링 모듈은, 상기 업 샘플링 모듈에 입력된 제5 특징맵에 대해 업 샘플링 변환을 수행하여 제6 특징맵을 획득하고; 제6 특징맵을 재구성하여 제5 특징맵과 동일한 해상도를 갖는 제7 특징맵을 획득하도록 구성된다. 최적화 모듈은, 제5 특징맵과 제7 특징맵 간의 차이값에 기초하여, 제6 특징맵의 최적화 결과로서의 제8 특징맵을 획득하도록 구성된다. 다중 업 샘플링 변환의 경우, 매번의 업 샘플링 변환은 업 샘플링 백 프로젝션 모듈에 대응하고, 상기 은닉 변수를 기반으로 첫 번째 업 샘플링 백 프로젝션 모듈에 입력된 제5 특징맵을 획득하고, 마지막 업 샘플링 백 프로젝션 모듈의 출력은 상기 재구성 이미지로 사용된다.
본 개시의 일 실시예에 따라, 최적화 모듈은 제1 차이값 피드백 서브 모듈과 업 샘플링 최적화 서브 모듈을 포함하고, 제1 차이값 피드백 서브 모듈은, 제5 특징맵과 제7 특징맵 간의 차이값을 최적화하고, 최적화된 차이값에 기초하여 제7 특징맵을 최적화하여, 최적화된 제7 특징맵을 획득하도록 구성되고; 업 샘플링 최적화 서브 모듈은, 최적화된 제7 특징맵에 대해 업 샘플링 및 최적화를 수행하여 제8 특징맵을 획득하도록 구성된다. 본 개시의 일 실시예에 따라, 최적 모듈은 제2 차이값 피드백 서브 모듈을 더 포함하고, 상기 모듈은, 획득한 제8 특징맵과 제6 특징맵 간의 차이값을 최적화하고, 최적화된 차이값에 기초하여 제8 특징맵을 최적화하여, 최종 제8 특징맵을 획득하도록 구성된다. 본 개시의 일 실시예에 따라, 재구성 모듈은, 컨볼루션 연산을 통해 제6 특징맵에 대해 특징 처리를 수행하고; 특징 처리 후의 제6 특징맵에 대해 다운 샘플링 변환을 수행하고; 컨볼루션 연산을 통해 다운 샘플링 변환 후의 제6 특징맵을 특징 처리하여 제7 특징맵을 획득하도록 구성된다. 예를 들어, 본 개시에 따른 재구성 네트워크의 재구성 모듈을 사용하여 상기 재구성 모듈을 구현할 수 있다.
본 개시의 일 실시예에 따라, 최적화 모듈의 제1 차이값 피드백 서브 모듈은, 제5 특징맵과 제7 특징맵을 감산하여 제3 차이값 특징맵을 획득하고; 컨볼루션 연산을 통해 제3 차이값 특징맵에 대해 특징 학습을 수행하고; 특징 학습된 제3 차이값 특징맵과 감산된 특징맵을 서로 추가하여 추가된 특징맵을 획득하고; 컨볼루션 연산을 통해 상기 추가된 특징맵에 대해 특징 학습을 수행하여, 상기 최적화된 제7 특징맵을 획득하도록 구성된다. 예를 들어, 본 개시에 따른 재구성 네트워크의 제1 차이값 피드백 서브 모듈을 사용하여 상기 제1 차이값 피드백 서브 모듈을 구현할 수 있다.
본 개시의 일 실시예에 따라, 최적화 모듈의 업 샘플링 최적화 서브 모듈은, 컨볼루션 연산을 통해 상기 최적화된 제7 특징맵을 업 샘플링하고, 업 샘플링된 제7 특징맵의 특징을 추출하고; 컨볼루션 연산을 통해 특징 추출로 획득한 특징맵에 대해 특징 학습을 수행하여, 제8 특징맵을 획득하도록 구성된다. 예를 들어, 본 개시에 따른 재구성 네트워크의 업 샘플링 최적화 모듈을 사용하여 상기 업 샘플링 최적화 서브 모듈을 구현할 수 있다.
본 개시의 일 실시예에 따라, 최적화 모듈의 제2 차이값 피드백 서브 모듈은, 획득한 제8 특징맵과 제6 특징맵을 감산하여 제4 차이값 특징맵을 획득하고; 컨볼루션 연산을 통해 제4 차이값 특징맵에 대해 특징 학습을 수행하고; 특징 학습된 제4 차이값 특징맵과 감산된 특징맵을 서로 추가하여 추가된 특징맵을 획득하고; 컨볼루션 연산을 통해 상기 추가된 특징맵에 대해 특징 학습을 수행하여, 상기 최적화된 제7 특징맵을 획득하도록 구성된다. 예를 들어, 본 개시에 따른 재구성 네트워크의 제1 차이값 피드백 서브 모듈과 유사한 제2 차이값 피드백 서브 모듈을 사용하여 제2 차이값 피드백 서브 모듈을 구현할 수 있다.
본 개시의 일 실시예에 따라, 최적화 모듈의 제2 차이값 피드백 서브 모듈은, 획득한 제8 특징맵과 제6 특징맵을 감산하여 제4 차이값 특징맵을 획득하고; 컨볼루션 연산을 통해 제4 차이값 특징맵에 대해 특징 학습을 수행하고; 어텐션 메커니즘을 통해 특징 학습된 제4 차이값 특징맵에 대해 특징 추출하여, 어텐션 스코어를 획득하고; 획득한 제8 특징맵과 상기 어텐션 스코어를 곱하여, 제3 가중 특징맵을 획득하고; 제6 특징맵과 (1-상기 어텐션 스코어)를 곱하여, 제4 가중 특징맵을 획득하고; 제3 가중 특징맵과 제4 가중 특징맵을 서로 추가하여, 가중 특징맵을 획득하고; 컨볼루션 연산을 통해 상기 가중 특징맵에 대해 특징 학습을 수행하여, 상기 최종 제8 특징맵을 획득하도록 구성된다. 예를 들어, 본 개시에 따른 재구성 네트워크의 어텐션 메커니즘을 기반으로 한 제2 차이값 피드백 서브 모듈을 사용하여 상기 제2 차이값 피드백 서브 모듈을 구현할 수 있다.
도 20은 본 개시의 예시적 실시예에 따른 종단간 이미지 압축 장치를 도시한 블록도이다.
도 20을 참조하면, 본 개시의 일 실시예에 따른 종단간 이미지 압축 장치(2000)는 코딩 네트워크(2001), 엔트로피 코딩 네트워크(200), 엔트로피 디코딩 네트워크(2003) 및 재구성 네트워크(2004)를 포함할 수 있다.
코딩 네트워크(2001)는 입력 이미지에 기초하여 상기 입력 이미지의 은닉 변수를 획득할 수 있다.
본 개시의 일 실시예에 따르면, 입력 이미지는 압축될 원본 이미지일 수 있다. 입력 이미지는 촬영 장치를 통해 전달되거나, 필요에 따라 로컬 메모리 또는 로컬 데이터베이스에서 획득하거나, 입력 장치 또는 전송 매체를 통해 외부 전자 장치(예, 컴퓨터 장치, 스마트폰 등) 또는 외부 데이터 소스(예, 인터넷, 서버, 데이터베이스 등)에서 수신될 수 있다.
본 개시의 일 실시예에 따르면, 종단간 이미지 압축 모델은 도 5 또는 도 12에서 설명한 종단간 이미지 압축 모델일 수 있다. 코딩 네트워크(2001)는 도 18에서 설명한 코딩 네트워크(1801)와 동일할 수 있으며, 여기서 더는 언급하지 않는다.
엔트로피 코딩 네트워크(200)는 상기 은닉 변수를 기반으로 엔트로피 코딩을 수행하여 압축 이미지의 비트스트림 파일을 획득할 수 있다.
본 개시의 일 실시예에 따르면, 엔트로피 코딩 동작은, 은닉 변수에 기초하여 압축 이미지의 비트스트림 파일을 획득하기 위한 엔트로피 코딩 관련 동작, 예를 들어, 도 5 또는 도 12에서 설명된 종단간 이미지 압축 모델에서 엔트로피 모델에서의 엔트로피 코딩 관련 동작을 포함할 수 있고, 하이퍼 파라메트릭 분석 네트워크, 부가 정보 엔트로피 코딩, 부가 정보 엔트로피 디코딩, 하이퍼 파라메트릭 생성 네트워크, 컨텍스트 모델, 은닉 변수 엔트로피 코드 중 적어도 하나를 포함하지만 이에 국한되지 않는다.
엔트로피 디코딩 네트워크(2003)는 상기 압축 이미지의 비트스트림 파일에 대해 엔트로피 디코딩을 수행하여 디코딩된 은닉 변수를 획득할 수 있다.
본 개시의 일 실시예에 따르면, 엔트로피 디코딩 동작은 압축 이미지의 비트스트림 파일을 기반으로 은닉 변수를 획득하기 위한 엔트로피 디코딩 관련 동작, 예를 들어 도 5 또는 도 12에서 설명된 종단간 이미지 압축 모델의 엔트로피 모델에서의 엔트로피 디코딩 관련 동작을 포함할 수 있고, 은닉 변수 엔트로피 디코딩을 포함하지만 이에 국한되지 않는다.
재구성 네트워크(2004)는 상기 디코딩된 은닉 변수에 기초하여 상기 종단간 이미지 압축 모델의 재구성 네트워크를 사용하여 재구성 이미지를 획득할 수 있다. 재구성 네트워크(2004)는 도 19에서 설명한 재구성 네트워크(1902)와 동일할 수 있으며, 여기서 더는 언급하지 않는다.
본 개시의 일 실시예에 따르면, 도 15 내지 도 17에 도시된 본 개시에 따른 이미지 압축/압축 해제 방법에 사용되는 종단간 이미지 압축 모델(예, 도 5 또는 도 12에 도시된 종단간 이미지 압축 모델)은 이미 훈련된 모델이다. 예를 들어, 본 개시에 따른 종단간 이미지 압축 모델은 다음 방법을 통해 훈련될 수 있다: 이미지 훈련 세트(예, CLIC2019 데이터 세트, Kodak 데이터 세트 등)를 획득하는 단계; 상기 이미지 훈련 세트의 이미지를 입력 이미지로 하여 도 17에 도시된 이미지 압축 방법을 사용하여 재구성 이미지를 획득하는 단계; 상기 입력 이미지와 상기 재구성 이미지의 평균 제곱 오차를 기반으로 손실 함수를 계산하는 단계; 계산된 손실 함수를 사용하여 상기 이미지 압축 모델의 파라미터를 조절하는 단계. 예를 들어, 손실 함수는 공식(5)와 같은 손실 함수일 수 있지만, 이에 한정되지는 않는다. 예를 들어, 다른
Figure pat00035
에 대해 Adam 최적화기를 사용하여 공식(5)와 같은 손실 함수를 최적화하여, 본 개시에 따른 종단간 이미지 압축 모델의 파라미터를 훈련할 수 있다. 예를 들어, 훈련의 반복 횟수는 1.5Х106이고, 각 단계에서 사용되는 배치 크기는 4이고, 초기 학습률은 1Х10-4이고, 마지막 80000단계의 학습률은 1Х10-5로 조정된다.
도 21은 본 개시의 예시적 실시예에 따른 전자 장치(2100)의 블록도이다.
도 21을 참조하면, 전자 장치(2100)는 적어도 하나의 메모리(2101)와 적어도 하나의 프로세서(2102)를 포함하고, 상기 적어도 하나의 메모리(2101)는 컴퓨터로 실행 가능한 명령어들을 저장하고, 컴퓨터로 실행 가능한 명령어들은 적어도 하나의 프로세서(2102)에 의해 실행될 때, 본 개시의 일 실시예에 따른 이미지 압축 방법 또는 이미지 압축 해제 방법 또는 종단간의 이미지 압축 방법을 실행한다.
일 예로, 전자 장치(2100)는 PC 컴퓨터, 태블릿 장치, 개인 휴대 정보 단말기, 스마트폰, 또는 상기 명령 세트를 실행할 수 있는 다른 장치일 수 있다. 여기서, 전자 장치(2100)는 단일 전자 장치일 필요는 없으며, 상기 명령(또는 명령 세트)를 단독으로 또는 공동으로 실행할 수 있는 임의의 장치 또는 회로의 어셈블리일 수도 있다. 전자 장치(2100)는 또한 통합 제어 시스템 또는 시스템 관리자의 일부일 수 있거나, 로컬 또는 원격(예, 무선 전송을 통해) 인터페이스와 상호 연결된 휴대용 전자 장치로서 구성될 수 있다.
전자 장치(2100)에서, 프로세서(2102)는 중앙 처리 장치(CPU), 그래픽 프로세서(GPU), 프로그래머블 로직 장치, 전용 프로세서 시스템, 마이크로컨트롤러 또는 마이크로프로세서를 포함할 수 있다. 제한이 아닌 예시로서, 프로세서는 또한 아날로그 프로세서, 디지털 프로세서, 마이크로프로세서, 멀티코어 프로세서, 프로세서 어레이, 네트워크 프로세서 등을 더 포함할 수 있다.
프로세서(2102)는 데이터를 더 저장할 수 있는 메모리(2101)에 저장된 명령어 또는 코드를 실행할 수 있다. 명령어 및 데이터는 또한 알려진 전송 프로토콜을 채택할 수 있는 네트워크 인터페이스 장치를 통해 네트워크를 통해 전송 및 수신될 수 있다.
메모리(2101)는 프로세서(2102)와 통합될 수 있고, 예를 들어, RAM 또는 플래시 메모리는 집적 회로 마이크로프로세서 등에 배열될 수 있다. 또한, 메모리(2101)는 외부 디스크 드라이브, 저장 어레이, 또는 임의의 데이터베이스 시스템에 의해 사용될 수 있는 다른 저장 장치와 같은 별도의 장치를 포함할 수 있다. 메모리(501)와 프로세서(2102)는 동작 가능하게 연결되거나, 또는 예를 들면 I/O 포트, 네트워크 연결 등을 통해 통신하여 프로세서(2102)가 메모리에 저장된 파일들을 읽을 수 있다.
또한, 전자 장치(2100)는 비디오 디스플레이(예, 액정 디스플레이) 및 사용자 상호 작용 인터페이스(예, 키보드, 마우스, 터치 입력 장치 등)를 더 포함할 수도 있다. 전자 장치(2100)의 모든 구성 요소는 버스 및/또는 네트워크를 통해 서로 연결될 수 있다.
본 개시의 일 실시예에 따르면, 컴퓨터로 판독 가능한 저장 매체를 더 제공할 수 있고, 컴퓨터로 판독 가능한 저장 매체의 명령어들은 적어도 하나의 프로세서에 의해 실행될 때, 본 개시에 따른 이미지 압축 방법 또는 이미지 압축 해제 방법 또는 종단간 이미지 압축 방법을 실행하도록 구성된다. 여기서 컴퓨터로 판독 가능한 저장 매체의 예시로는, 읽기 전용 메모리(ROM), 임의 액세스 프로그래밍 가능 읽기 전용 메모리(PROM), 전기적 삭제 가능한 프로그래밍 가능 읽기 전용 메모리(EEPROM), 임의 액세스 메모리(RAM), 동적 임의 액세스 메모리(DRAM), 정적 임ㅇ의 액세스 메모리(SRAM), 플래시 메모리, 비휘발성 메모리, CD-ROM, CD-R, CD+R, CD-RW, CD+RW, DVD-ROM, DVD-R, DVD+R, DVD-RW, DVD+RW, DVD-RAM, BD-ROM, BD-R, BD-R LTH, BD-RE, BLU-RAY 또는 광 디스크 메모리, 하드 디스크 드라이브(HDD), 솔리드 스테이트 하드 디스크(SSD), 카드 메모리(예, 멀티미디어 카드, 보안 디지털(SD) 카드 또는 초고속 디지털(XD) 카드), 자기 테이프, 플로피 디스크, 광자기 데이터 저장 장치, 광 데이터 저장 장치, 하드 디스크, 솔리드 스테이트 디스크 및 기타 장치를 포함할 수 있다. 상기 임의의 다른 장치는 컴퓨터 프로그램 및 임의의 관련 데이터, 데이터 파일 및 데이터 구조를 일시적이지 않은 방식으로 저장하고, 상기 컴퓨터 프로그램 및 임의의 관련 데이터, 데이터 파일 및 데이터 구조를 프로세서 또는 컴퓨터에 제공하여 프로세서 또는 컴퓨터가 상기 컴퓨터 프로그램을 실행할 수 있도록 구성된다. 상기 컴퓨터로 판독 가능한 저장 매체의 컴퓨터 프로그램은 클라이언트, 호스트, 프록시 장치, 서버 등과 같은 컴퓨터 장치에 배치된 환경에서 실행될 수 있으며, 또한 일 예시에서, 컴퓨터 프로그램 및 임의의 관련 데이터, 데이터 파일 데이터 구조는 네트워크로 연결된 컴퓨터 시스템에 배포되며, 이를 통해 컴퓨터 프로그램 및 모든 관련 데이터, 데이터 파일 및 데이터 구조가 하나 이상의 프로세서 또는 컴퓨터를 통해 분산 방식으로 저장, 액세스 및 실행될 수 있다.
본 개시의 이미지 압축 방법 및 장치, 이미지 압축 해제 방법 및 장치, 종단간 이미지 압축 방법 및 장치에 따르면, 백 프로젝션 방법은 이미지 압축 작업에 혁신적으로 사용되어, 재구성 결과를 현재 작업에 피드백함으로써 양방향 정보 교환을 실현하고, 현재 특징맵의 정보의 양을 풍부하게 하고, 리샘플링 후의 특징맵의 품질을 개선하여, 적은 수의 컨볼루션 레이어와 부정확한 저해상도 정보 등으로 인한 업/다운 샘플링 변환으로 얻은 중간 특징맵의 품질 저하를 효과적으로 완화하고, 양자화된 은닉 변수로 인한 재구성 오류 또한 완화한다.
또한, 본 발명에서 제안하는 백 프로젝션 모듈(예를 들어, 업 샘플링 백 프로젝션 모듈 및 다운 샘플링 백 프로젝션 모듈)의 고도로 모듈화된 디자인 또한 상기 백 프로젝션 방법을 쉽게 배포하고 확장할 수 있도록 한다. 실제 적용에서는 모델 속도, 메모리 공간 및 압축 품질 등 요소에 따라 다단계 재구성 및 파라미터 공유 메커니즘을 사용할지 여부를 선택할 수 있다. 구체적으로, 실제 적용의 필요에 따라, 백 프로젝션 모듈을 코딩 네트워크 및/또는 재구성 네트워크의 적어도 하나의 업/다운 샘플링 변환에 유연하게 적용한다. 또한 재구성 모듈, 업/다운 샘플링 최적화 모듈 및 차이값 피드백 모듈이 백 프로젝션 모듈에서 반복적으로 사용되기 때문에, 재사용된 모듈은 실제 적용에서 파라미터를 공유할 수 있으며, 모델의 복잡성을 줄이고 훈련 수렴을 더 빠르게 할 수 있으며, 동시에 모델 파라미터에 일정한 정규화 효과를 나타낸다.
또한, 본 발명은 주파수 영역 분해 및 처리 방법을 통해 원본 이미지의 저주파 및 고주파 성분에 대해 각각 처리 및 융합할 수 있고, 이를 통해 네트워크는 다운 샘플링 프로세스에서 손실되기 쉬운 고주파 세부 사항에 더 집중할 수 있으며, 처리 후의 저주파 및 고주파 정보를 필요에 따라 유연하게 처리하고 융합하여, 상기 이미지 압축 방법의 레이트 왜곡 성능을 효과적으로 최적화한다.
본 명세서 및 실시 구현에서 개시한 발명에 대해 고려한 후, 본 기술분야의 통상의 지식을 가진 자는 다른 실시형태를 쉽게 생각해낼 수 있다. 본 개시는 본 개시의 일반적인 원리를 따르고 본 개시에 의해 개시되지 않은 기술분야의 통상적인 일반 지식 또는 기술을 포함하는 본 개시의 임의의 변형, 용도 또는 적응적 변경을 포함하도록 의도된다. 명세서 및 실시예는 단지 예시적인 것으로 간주되며, 본 개시의 진정한 범위 및 사상은 아래의 청구범위에 의해 표시된다.
본 개시는 위에서 설명되고 도면에 도시된 정확한 구조에 제한되지 않으며, 그 범위를 벗어나지 않는 선에서 다양한 수정 및 변경이 이루어질 수 있음을 이해해야 한다. 본 개시의 범위는 첨부된 청구범위에 의해서만 제한된다.

Claims (20)

  1. 이미지 압축 방법에 있어서,
    입력 이미지에 기초하여, 코딩 네트워크를 사용하여 상기 입력 이미지의 은닉 변수(hidden variable)를 획득하는 단계 - 상기 코딩 네트워크는 딥 러닝 신경망이고, 상기 코딩 네트워크는 적어도 하나의 다운 샘플링 백 프로젝션(back projection) 모듈을 포함함 -; 및
    상기 은닉 변수를 기반으로 엔트로피 코딩(entropy coding)을 수행하여 압축 이미지의 비트스트림(bitstream) 파일을 획득하는 단계;
    를 포함하고,
    상기 코딩 네트워크에 포함된 상기 적어도 하나의 다운 샘플링 백 프로젝션 모듈 각각은,
    상기 다운 샘플링 백 프로젝션 모듈에 입력된 제1 특징맵에 대해 다운 샘플링 변환을 수행하여 제2 특징맵을 획득하는 단계;
    상기 제2 특징맵을 재구성하여 상기 제1 특징맵과 동일한 해상도를 갖는 제3 특징맵을 획득하는 단계; 및
    상기 제1 특징맵과 상기 제3 특징맵 간의 차이값에 기초하여, 상기 제2 특징맵의 최적화 결과로서의 제4 특징맵을 획득하는 단계 - 상기 은닉 변수는 상기 코딩 네트워크에서 상기 적어도 하나의 다운 샘플링 백 프로젝션 모듈의 마지막 다운 샘플링 백 프로젝션 모듈에 의해 획득된 제4 특징맵에 기초하여 획득됨 -;
    를 수행하는, 이미지 압축 방법.
  2. 제1항에 있어서,
    상기 제1 특징맵과 상기 제3 특징맵 간의 차이값에 기초하여, 상기 제2 특징맵의 최적화 결과로서의 상기 제4 특징맵을 획득하는 단계는,
    상기 제1 특징맵과 상기 제3 특징맵 간의 차이값을 최적화하고, 상기 최적화된 차이값에 기초하여 상기 제3 특징맵을 최적화하여, 최적화된 제3 특징맵을 획득하는 단계; 및
    상기 최적화된 제3 특징맵에 대해 다운 샘플링 및 최적화를 수행하여 상기 제4 특징맵을 획득하는 단계;
    를 포함하는, 이미지 압축 방법.
  3. 제2항에 있어서,
    상기 제1 특징맵과 상기 제3 특징맵 간의 차이값에 기초하여, 상기 제2 특징맵의 최적화 결과로서의 상기 제4 특징맵을 획득하는 단계는,
    상기 획득한 제4 특징맵과 상기 제2 특징맵 간의 차이값을 최적화하고, 상기 최적화된 차이값에 기초하여 상기 획득한 제4 특징맵을 최적화하여, 최종 제4 특징맵을 획득하는 단계;
    를 더 포함하는, 이미지 압축 방법.
  4. 제1항에 있어서,
    상기 제2 특징맵을 재구성하여 상기 제1 특징맵과 동일한 해상도를 갖는 상기 제3 특징맵을 획득하는 단계는,
    컨볼루션 연산을 통해 상기 제2 특징맵에 대해 특징 처리를 수행하는 단계;
    상기 특징 처리 후의 제2 특징맵에 대해 업 샘플링 변환을 수행하는 단계; 및
    컨볼루션 연산을 통해 상기 업 샘플링 변환 후의 특징맵을 특징 처리하여 상기 제3 특징맵을 획득하는 단계;
    를 포함하는, 이미지 압축 방법.
  5. 제2항에 있어서,
    상기 제1 특징맵과 상기 제3 특징맵 간의 차이값을 최적화하고, 상기 최적화된 차이값에 기초하여 상기 제3 특징맵을 최적화하여, 상기 최적화된 제3 특징맵을 획득하는 단계는,
    상기 제1 특징맵과 상기 제3 특징맵을 감산(subtract)하여 제1 차이값 특징맵을 획득하는 단계;
    컨볼루션 연산을 통해 상기 제1 차이값 특징맵에 대해 특징 학습을 수행하는 단계;
    상기 특징 학습된 제1 차이값 특징맵과 감산된 특징맵을 서로 추가하여 추가된 특징맵을 획득하는 단계; 및
    컨볼루션 연산을 통해 상기 추가된 특징맵에 대해 특징 학습을 수행하여, 상기 최적화된 제3 특징맵을 획득하는 단계;
    를 포함하는, 이미지 압축 방법.
  6. 제2항에 있어서,
    상기 최적화된 제3 특징맵에 대해 다운 샘플링 및 최적화를 수행하여 상기 제4 특징맵을 획득하는 단계는,
    컨볼루션 연산을 통해 상기 최적화된 제3 특징맵을 다운 샘플링하고, 상기 다운 샘플링된 제3 특징맵의 특징을 추출하는 단계; 및
    컨볼루션 연산을 통해 상기 특징 추출로 획득한 특징맵에 대해 특징 학습을 수행하여, 상기 제4 특징맵을 획득하는 단계;
    를 포함하는, 이미지 압축 방법.
  7. 제3항에 있어서,
    상기 획득한 제4 특징맵과 상기 제2 특징맵 간의 차이값을 최적화하고, 상기 최적화된 차이값에 기초하여 상기 획득한 제4 특징맵을 최적화하여, 상기 최종 제4 특징맵을 획득하는 단계는,
    상기 획득한 제4 특징맵과 상기 제2 특징맵을 감산하여 제2 차이값 특징맵을 획득하는 단계;
    컨볼루션 연산을 통해 상기 제2 차이값 특징맵에 대해 특징 학습을 수행하는 단계;
    상기 특징 학습된 제2 차이값 특징맵과 감산된 특징맵을 서로 추가하여 추가된 특징맵을 획득하는 단계; 및
    컨볼루션 연산을 통해 상기 추가된 특징맵에 대해 특징 학습을 수행하여, 상기 최적화된 제3 특징맵을 획득하는 단계;
    를 포함하는, 이미지 압축 방법.
  8. 제3항에 있어서,
    상기 획득한 제4 특징맵과 상기 제2 특징맵 간의 차이값을 최적화하고, 상기 최적화된 차이값에 기초하여 상기 획득한 제4 특징맵을 최적화하여, 상기 최종 제4 특징맵을 획득하는 단계는,
    상기 획득한 제4 특징맵과 상기 제2 특징맵을 감산하여 제2 차이값 특징맵을 획득하는 단계;
    컨볼루션 연산을 통해 상기 제2 차이값 특징맵에 대해 특징 학습을 수행하는 단계;
    어텐션 메커니즘을 통해 특징 학습된 제2 차이값 특징맵에 대해 특징 추출하여, 어텐션 스코어(Attention score)를 획득하는 단계;
    상기 획득한 제4 특징맵과 상기 어텐션 스코어를 곱하여, 제1 가중 특징맵을 획득하는 단계;
    상기 제2 특징맵과 (1-상기 어텐션 스코어)를 곱하여, 제2 가중 특징맵을 획득하는 단계;
    상기 제1 가중 특징맵과 상기 제2 가중 특징맵을 서로 추가하여, 가중 특징맵을 획득하는 단계; 및
    컨볼루션 연산을 통해 상기 가중 특징맵에 대해 특징 학습을 수행하여, 상기 최종 제4 특징맵을 획득하는 단계;
    를 포함하는, 이미지 압축 방법.
  9. 제1항 내지 제8항 중 어느 한 항에 있어서,
    상기 코딩 네트워크는 고주파 코딩 서브 네트워크 및 저주파 코딩 서브 네트워크를 포함하고, 상기 고주파 코딩 서브 네트워크 및 상기 저주파 코딩 서브 네트워크는 모두 적어도 하나의 다운 샘플링 백 프로젝션 모듈을 포함하고, 상기 방법은, 상기 입력 이미지로부터 고주파 성분(component) 및 저주파 성분을 추출하는 단계를 더 포함하고,
    상기 입력 이미지에 기초하여, 코딩 네트워크를 사용하여 상기 입력 이미지의 은닉 변수를 획득하는 단계는,
    상기 고주파 코딩 서브 네트워크를 사용하여 상기 고주파 성분의 은닉 변수를 획득하는 단계 - 상기 고주파 코딩 서브 네트워크에 포함된 적어도 하나의 다운 샘플링 백 프로젝션 모듈의 마지막 다운 샘플링 백 프로젝션 모듈에 의해 획득된 제4 특징맵에 기초하여, 상기 고주파 성분의 은닉 변수를 획득함 -;
    상기 저주파 코딩 서브 네트워크를 사용하여 상기 저주파 성분의 은닉 변수를 획득하는 단계 - 상기 저주파 코딩 서브 네트워크에 포함된 적어도 하나의 다운 샘플링 백 프로젝션 모듈의 마지막 다운 샘플링 백 프로젝션 모듈에 의해 획득된 제4 특징맵에 기초하여, 상기 저주파 성분의 은닉 변수를 획득함 -; 및
    상기 고주파 성분의 은닉 변수와 상기 저주파 성분의 은닉 변수를 융합하여, 상기 입력 이미지의 은닉 변수를 획득하는 단계;
    를 포함하는, 이미지 압축 방법.
  10. 제9항에 있어서,
    상기 고주파 성분의 은닉 변수와 상기 저주파 성분의 은닉 변수를 융합하여, 상기 입력 이미지의 은닉 변수를 획득하는 단계는,
    상기 고주파 성분의 은닉 변수와 상기 저주파 성분의 은닉 변수를 스플라이싱(splicing)하여 제1 스플라이싱 은닉 변수를 획득하는 단계;
    공간 어텐션 메커니즘을 사용하여, 채널 방향에서 상기 제1 스플라이싱 은닉 변수에 대해 평균 풀링 및 최대 풀링을 각각 진행하고, 상기 평균 *?*풀링 후의 제1 스플라이싱 은닉 변수 및 상기 최대 풀링 후의 제1 스플라이싱 은닉 변수를 스플라이싱하여 제2 스플라이싱 은닉 변수를 획득하고, 컨볼루션 연산을 사용하여 상기 제2 스플라이싱 은닉 변수의 공간 어텐션 스코어를 계산하는 단계;
    채널 어텐션 메커니즘을 사용하여, 공간 차원에서 상기 제1 스플라이싱 은닉 변수에 대해 풀링하고, 컨볼루션 연산을 사용하여 상기 풀링 후의 제1 스플라이싱 은닉 변수의 채널 어텐션 스코어를 계산하는 단계;
    상기 채널 어텐션 스코어와 상기 공간 어텐션 스코어를 이용하여 상기 저주파 성분의 은닉 변수를 가중하여, 상기 저주파 성분의 가중 은닉 변수를 획득하는 단계;
    (1-채널 어텐션 스코어) 및 (1-공간 어텐션 스코어)를 사용하여 상기 고주파 성분의 은닉 변수에 대해 가중하여, 상기 고주파 성분의 가중 은닉 변수를 획득하는 단계; 및
    상기 저주파 성분의 가중 은닉 변수와 상기 고주파 성분의 가중 은닉 변수의 합을 상기 입력 이미지의 은닉 변수로 획득하는 단계;
    를 포함하는, 이미지 압축 방법.
  11. 이미지 압축 해제 방법에 있어서,
    압축 이미지의 비트스트림(bitstream) 파일에 대해 엔트로피 디코딩(entropy decoding)을 수행하여, 은닉 변수(hidden variable)를 획득하는 단계; 및
    상기 은닉 변수에 기초하여, 재구성 네트워크를 사용하여 상기 압축 이미지의 재구성 이미지를 획득하는 단계 - 상기 재구성 네트워크는 딥 러닝 신경망이고, 상기 재구성 네트워크는 적어도 하나의 업 샘플링 백 프로젝션(back projection) 모듈을 포함함 -;
    를 포함하고,
    상기 재구성 네트워크에 포함된 상기 적어도 하나의 업 샘플링 백 프로젝션 모듈 각각은,
    상기 업 샘플링 백 프로젝션 모듈에 입력된 제5 특징맵에 대해 업 샘플링 변환을 수행하여 제6 특징맵을 획득하는 단계;
    상기 제6 특징맵을 재구성하여 상기 제5 특징맵과 동일한 해상도를 갖는 제7 특징맵을 획득하는 단계; 및
    상기 제5 특징맵과 상기 제7 특징맵 간의 차이값에 기초하여, 상기 제6 특징맵의 최적화 결과로서의 제8 특징맵을 획득하고, 상기 재구성 네트워크에서 적어도 하나의 업 샘플링 백 프로젝션 모듈의 마지막 업 샘플링 백 프로젝션 모듈에 의해 획득된 제8 특징맵은 상기 재구성 이미지로 사용되는 단계;
    를 수행하는, 이미지 압축 해제 방법.
  12. 제11항에 있어서,
    상기 제5 특징맵과 상기 제7 특징맵 간의 차이값에 기초하여, 상기 제6 특징맵의 최적화 결과로서의 상기 제8 특징맵을 획득하는 단계는,
    상기 제5 특징맵과 상기 제7 특징맵 간의 차이값을 최적화하고, 상기 최적화된 차이값에 기초하여 상기 제7 특징맵을 최적화하여, 최적화된 제7 특징맵을 획득하는 단계; 및
    상기 최적화된 제7 특징맵에 대해 업 샘플링 및 최적화를 수행하여 상기 제8 특징맵을 획득하는 단계;
    를 포함하는, 이미지 압축 해제 방법.
  13. 제12항에 있어서,
    상기 제5 특징맵과 상기 제7 특징맵 간의 차이값에 기초하여, 상기 제6 특징맵의 최적화 결과로서의 상기 제8 특징맵을 획득하는 단계는,
    상기 획득한 제8 특징맵과 상기 제6 특징맵 간의 차이값을 최적화하고, 상기 최적화된 차이값에 기초하여 상기 제6 특징맵을 최적화하여, 최종 제8 특징맵을 획득하는 단계;
    를 더 포함하는, 이미지 압축 해제 방법.
  14. 제11항에 있어서,
    상기 제6 특징맵을 재구성하여 상기 제5 특징맵과 동일한 해상도를 갖는 상기 제7 특징맵을 획득하는 단계는,
    컨볼루션 연산을 통해 상기 제6 특징맵에 대해 특징 처리를 수행하는 단계;
    상기 특징 처리 후의 제6 특징맵에 대해 다운 샘플링 변환을 수행하는 단계; 및
    컨볼루션 연산을 통해 상기 다운 샘플링 변환 후의 제6 특징맵을 특징 처리하여 상기 제7 특징맵을 획득하는 단계;
    를 포함하는, 이미지 압축 해제 방법.
  15. 제12항에 있어서,
    상기 제5 특징맵과 상기 제7 특징맵 간의 차이값을 최적화하고, 상기 최적화된 차이값에 기초하여 상기 제7 특징맵을 최적화하여, 상기 최적화된 제7 특징맵을 획득하는 단계는,
    상기 제5 특징맵과 상기 제7 특징맵을 감산(subtract)하여 제3 차이값 특징맵을 획득하는 단계;
    컨볼루션 연산을 통해 상기 제3 차이값 특징맵에 대해 특징 학습을 수행하는 단계;
    상기 특징 학습된 제3 차이값 특징맵과 감산된 특징맵을 서로 추가하여 추가된 특징맵을 획득하는 단계; 및
    컨볼루션 연산을 통해 상기 추가된 특징맵에 대해 특징 학습을 수행하여, 상기 최적화된 제7 특징맵을 획득하는 단계;
    를 포함하는, 이미지 압축 해제 방법.
  16. 제12항에 있어서,
    상기 최적화된 제7 특징맵에 대해 업 샘플링 및 최적화를 수행하여 상기 제8 특징맵을 획득하는 단계는,
    컨볼루션 연산을 통해 상기 최적화된 제7 특징맵을 업 샘플링하고, 업 샘플링된 상기 제7 특징맵의 특징을 추출하는 단계; 및
    컨볼루션 연산을 통해 상기 특징 추출로 획득한 특징맵에 대해 특징 학습을 수행하여, 상기 제8 특징맵을 획득하는 단계;
    를 포함하는, 이미지 압축 해제 방법.
  17. 제13항에 있어서,
    상기 획득한 제8 특징맵과 상기 제6 특징맵 간의 차이값을 최적화하고, 상기 최적화된 차이값에 기초하여 상기 획득한 제8 특징맵을 최적화하여, 상기 최종 제8 특징맵을 획득하는 단계는,
    상기 획득한 제8 특징맵과 상기 제6 특징맵을 감산하여 제4 차이값 특징맵을 획득하는 단계;
    컨볼루션 연산을 통해 상기 제4 차이값 특징맵에 대해 특징 학습을 수행하는 단계;
    상기 특징 학습된 제4 차이값 특징맵과 감산된 특징맵을 서로 추가하여 추가된 특징맵을 획득하는 단계; 및
    컨볼루션 연산을 통해 상기 추가된 특징맵에 대해 특징 학습을 수행하여, 상기 최적화된 제7 특징맵을 획득하는 단계;
    를 포함하는, 이미지 압축 해제 방법.
  18. 제13항에 있어서,
    상기 획득한 제8 특징맵과 상기 제6 특징맵 간의 차이값을 최적화하고, 상기 최적화된 차이값에 기초하여 상기 획득한 제8 특징맵을 최적화하여, 상기 최종 제8 특징맵을 획득하는 단계는,
    상기 획득한 제8 특징맵과 상기 제6 특징맵을 감산하여 제4 차이값 특징맵을 획득하는 단계;
    컨볼루션 연산을 통해 상기 제4 차이값 특징맵에 대해 특징 학습을 수행하는 단계;
    어텐션 메커니즘을 통해 특징 학습된 제4 차이값 특징맵에 대해 특징 추출하여, 어텐션 스코어를 획득하는 단계;
    상기 획득한 제8 특징맵과 상기 어텐션 스코어를 곱하여, 제3 가중 특징맵을 획득하는 단계;
    상기 제6 특징맵과 (1-상기 어텐션 스코어)를 곱하여, 제4 가중 특징맵을 획득하는 단계;
    상기 제3 가중 특징맵과 상기 제4 가중 특징맵을 서로 추가하여, 가중 특징맵을 획득하는 단계; 및
    컨볼루션 연산을 통해 상기 가중 특징맵에 대해 특징 학습을 수행하여, 상기 최종 제8 특징맵을 획득하는 단계;
    를 포함하는, 이미지 압축 해제 방법.
  19. 이미지 압축 장치에 있어서,
    입력 이미지에 기초하여 상기 입력 이미지의 은닉 변수(hidden variable)를 획득하도록 구성된 코딩 네트워크 - 상기 코딩 네트워크는 딥 러닝 신경망이고, 상기 코딩 네트워크는 적어도 하나의 다운 샘플링 백 프로젝션(back projection) 모듈을 포함함 -; 및
    상기 은닉 변수를 기반으로 엔트로피 코딩(entropy coding)을 수행하여 압축 이미지의 비트스트림(bitstream) 파일을 획득하도록 구성된 엔트로피 코딩 네트워크;
    를 포함하고,
    상기 다운 샘플링 백 프로젝션 모듈은 다운 샘플링 모듈, 재구성 모듈 및 최적화 모듈을 포함하고,
    상기 다운 샘플링 모듈은 상기 다운 샘플링 모듈에 입력된 제1 특징맵에 대해 다운 샘플링 변환을 수행하여 제2 특징맵을 획득하도록 구성되고;
    상기 재구성 모듈은 상기 제2 특징맵을 재구성하여 상기 제1 특징맵과 동일한 해상도를 갖는 제3 특징맵을 획득하도록 구성되고;
    상기 최적화 모듈은 상기 제1 특징맵과 상기 제3 특징맵 간의 차이값에 기초하여, 상기 제2 특징맵의 최적화 결과로서의 제4 특징맵을 획득하도록 구성되고, 상기 은닉 변수는 상기 코딩 네트워크에서 적어도 하나의 다운 샘플링 백 프로젝션 모듈의 마지막 다운 샘플링 백 프로젝션 모듈에 의해 획득된 제4 특징맵에 기초하여 획득되는, 이미지 압축 장치.
  20. 제19항에 있어서,
    상기 최적화 모듈은 제1 차이값 피드백 서브 모듈 및 다운 샘플링 최적화 서브 모듈을 포함하고,
    상기 제1 차이값 피드백 서브 모듈은, 상기 제1 특징맵과 상기 제3 특징맵 간의 차이값을 최적화하고, 상기 최적화된 차이값에 기초하여 상기 제3 특징맵을 최적화하여, 최적화된 제3 특징맵을 획득하도록 구성되고;
    상기 다운 샘플링 최적화 서브 모듈은, 상기 최적화된 제3 특징맵에 대해 다운 샘플링 및 최적화를 수행하여 상기 제4 특징맵을 획득하도록 구성되는, 이미지 압축 장치.
KR1020220009943A 2021-03-02 2022-01-24 이미지 압축 방법 및 이미지 압축 장치 KR20220124622A (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
US17/682,581 US20220286696A1 (en) 2021-03-02 2022-02-28 Image compression method and apparatus

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202110231512.9A CN113014927B (zh) 2021-03-02 2021-03-02 图像压缩方法和图像压缩装置
CN202110231512.9 2021-03-02

Publications (1)

Publication Number Publication Date
KR20220124622A true KR20220124622A (ko) 2022-09-14

Family

ID=76402645

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020220009943A KR20220124622A (ko) 2021-03-02 2022-01-24 이미지 압축 방법 및 이미지 압축 장치

Country Status (2)

Country Link
KR (1) KR20220124622A (ko)
CN (1) CN113014927B (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116385267A (zh) * 2023-03-29 2023-07-04 腾讯科技(深圳)有限公司 图像处理方法、装置、程序产品、计算机设备和存储介质
CN117915107A (zh) * 2024-03-20 2024-04-19 北京智芯微电子科技有限公司 图像压缩***、图像压缩方法、存储介质与芯片

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11798197B2 (en) * 2021-03-12 2023-10-24 Qualcomm Incorporated Data compression with a multi-scale autoencoder
CN113409377B (zh) * 2021-06-23 2022-09-27 四川大学 一种基于跳跃连接式生成对抗网络的相位展开方法
CN113744169A (zh) * 2021-09-07 2021-12-03 讯飞智元信息科技有限公司 图像增强方法、装置、电子设备和存储介质
CN113920013B (zh) * 2021-10-14 2023-06-16 中国科学院深圳先进技术研究院 一种基于超分辨率的小图像多目标检测方法
CN114501034B (zh) * 2021-12-11 2023-08-04 同济大学 基于离散高斯混合超先验和Mask的图像压缩方法及介质
CN114095728B (zh) * 2022-01-21 2022-07-15 浙江大华技术股份有限公司 一种端到端的视频压缩方法、装置和计算机可读存储介质
KR20230115765A (ko) * 2022-01-27 2023-08-03 한국과학기술연구원 인공 지능을 이용하여 의료 영상에서 병변을 판단하는 방법 및 이를 수행하는 인공 지능 신경망 시스템
CN114598565A (zh) * 2022-05-10 2022-06-07 深圳市发掘科技有限公司 一种厨电设备远程控制***、方法及计算机设备
CN115272140B (zh) * 2022-09-29 2023-01-17 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) 红外图像量化和增强方法、***及存储介质
CN117336494B (zh) * 2023-12-01 2024-03-12 湖南大学 一种基于频域特征的双路径遥感影像压缩方法

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5846048B2 (ja) * 2012-06-05 2016-01-20 株式会社Jvcケンウッド 画像処理装置および撮像装置
WO2014105385A1 (en) * 2012-12-27 2014-07-03 The Regents Of The University Of California Anamorphic stretch image compression
CN103607591B (zh) * 2013-10-28 2017-02-01 四川大学 结合超分辨率重建的视频图像压缩方法
CN107181949A (zh) * 2017-06-23 2017-09-19 四川大学 一种结合超分辨率和残差编码技术的图像压缩框架
US10944996B2 (en) * 2019-08-19 2021-03-09 Intel Corporation Visual quality optimized video compression
CN110956671B (zh) * 2019-12-12 2022-08-02 电子科技大学 一种基于多尺度特征编码的图像压缩方法
CN111681166B (zh) * 2020-06-02 2023-04-18 重庆理工大学 一种堆叠注意力机制编解码单元的图像超分辨率重建方法
CN112330542B (zh) * 2020-11-18 2022-05-03 重庆邮电大学 基于crcsan网络的图像重建***及方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116385267A (zh) * 2023-03-29 2023-07-04 腾讯科技(深圳)有限公司 图像处理方法、装置、程序产品、计算机设备和存储介质
CN117915107A (zh) * 2024-03-20 2024-04-19 北京智芯微电子科技有限公司 图像压缩***、图像压缩方法、存储介质与芯片
CN117915107B (zh) * 2024-03-20 2024-05-17 北京智芯微电子科技有限公司 图像压缩***、图像压缩方法、存储介质与芯片

Also Published As

Publication number Publication date
CN113014927A (zh) 2021-06-22
CN113014927B (zh) 2024-01-09

Similar Documents

Publication Publication Date Title
KR20220124622A (ko) 이미지 압축 방법 및 이미지 압축 장치
Sun et al. Learned image downscaling for upscaling using content adaptive resampler
US11449966B2 (en) Real-time video ultra resolution
Ng et al. Solving constrained total-variation image restoration and reconstruction problems via alternating direction methods
US20220286696A1 (en) Image compression method and apparatus
US20190206026A1 (en) Frame-Recurrent Video Super-Resolution
EP2529353A1 (en) Method and system for generating an output image of increased pixel resolution from an input image
WO2018213829A1 (en) Transforming grayscale images into color images using deep neural networks
US11375198B2 (en) Processing signal data using an upsampling adjuster
Yang et al. Ensemble learning priors driven deep unfolding for scalable video snapshot compressive imaging
US11308361B1 (en) Checkerboard artifact free sub-pixel convolution
CN116681584A (zh) 一种多级扩散图像超分辨算法
US20220114770A1 (en) Image Processing Method And Apparatus And Computer Program Product For The Same
Mikaeli et al. Single-image super-resolution via patch-based and group-based local smoothness modeling
JP2016201800A (ja) 第1のダイナミックレンジを有する画像を生成、符号化、または復号するための方法およびデバイス、ならびに対応するコンピュータプログラム製品およびコンピュータ可読媒体
Feng et al. Single‐image super‐resolution with total generalised variation and Shearlet regularisations
KR102512507B1 (ko) 결정되지 않은 다운스케일링 커널들로 생성된 이미지들을 업스케일링하기 위한 기법들
CN106447610B (zh) 图像重建方法及装置
Seke et al. Multi‐frame super‐resolution algorithm using common vector approach
KR102624154B1 (ko) 이미지 복원 방법 및 장치
Ahmed et al. Digital image inpainting techniques for cultural heritage preservation and restoration
CN112581362A (zh) 用于调整图像细节的图像处理方法和装置
US11936866B2 (en) Method and data processing system for lossy image or video encoding, transmission and decoding
US20220321830A1 (en) Optimization of adaptive convolutions for video frame interpolation
Ye et al. Learning multi-granularity semantic interactive representation for joint low-light image enhancement and super-resolution