KR20120088350A - 고해상도 영상 생성 장치 - Google Patents

고해상도 영상 생성 장치 Download PDF

Info

Publication number
KR20120088350A
KR20120088350A KR1020110009641A KR20110009641A KR20120088350A KR 20120088350 A KR20120088350 A KR 20120088350A KR 1020110009641 A KR1020110009641 A KR 1020110009641A KR 20110009641 A KR20110009641 A KR 20110009641A KR 20120088350 A KR20120088350 A KR 20120088350A
Authority
KR
South Korea
Prior art keywords
patch
image
patches
dictionary
low
Prior art date
Application number
KR1020110009641A
Other languages
English (en)
Inventor
박장현
최성훈
김창선
정신철
송병철
Original Assignee
한국전자통신연구원
인하대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원, 인하대학교 산학협력단 filed Critical 한국전자통신연구원
Priority to KR1020110009641A priority Critical patent/KR20120088350A/ko
Publication of KR20120088350A publication Critical patent/KR20120088350A/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • G06T3/4053Scaling of whole images or parts thereof, e.g. expanding or contracting based on super-resolution, i.e. the output image resolution being higher than the sensor resolution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/28Determining representative reference patterns, e.g. by averaging or distorting; Generating dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • G06T3/4084Scaling of whole images or parts thereof, e.g. expanding or contracting in the transform domain, e.g. fast Fourier transform [FFT] domain scaling

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Probability & Statistics with Applications (AREA)
  • Editing Of Facsimile Originals (AREA)
  • Image Processing (AREA)

Abstract

본 발명은 K-평균 클러스터링을 이용하여 연산량 측면에서 효율적인 학습 기반 초고해상도 알고리즘을 제안한다. 기존의 전형적인 학습 기반 고해상도 알고리즘의 경우 신뢰할 수 있는 성능을 발휘하기 위해 방대한 크기의 딕셔너리가 요구된다. 하지만 그것은 엄청난 메모리 비용과 부담스러운 정합 연산을 가져온다. 이러한 문제점을 극복하기 위해서 본 발명에서는 학습 단계에서 비슷한 패치들끼리 적절하게 묶음으로써 학습된 딕셔너리의 크기를 상당히 줄인다. 또한, 잔여 딕셔너리를 도입하여 패치의 개수의 감소에 따른 화질 저하를 개선한다. 본 발명은 HDTV, 디지털 카메라, 디지털 캠코더 등과 같은 디지털 영상 기기를 위한 고성능 스케일러로 사용될 수 있다.

Description

고해상도 영상 생성 장치 {Apparatus for generating high resolution image}
본 발명은 고해상도 영상을 생성하는 장치에 관한 것이다. 보다 상세하게는, 입력 영상보다 고해상도인 영상을 생성하는 장치에 관한 것이다.
영상 보간법은 HDTV(High-Definition TeleVision), DSC(Digital Still Camera), 디지털 캠코더 등과 같은 디지털 기기에서 저해상도(LR; Low Resolution) 영상을 고화질에 고해상도(HR; High Resolution) 영상으로 도시하기 위한 핵심 기술이다. 과거 수십년 동안 많은 영상 보간 방법들이 제안되었다. 그것들은 크게 보간 기반(interpolation based) 방법, 복원 기반(reconstruction based) 방법, 초고해상도 영상 복원(SR; Super Resolution) 방법 등 세 분류로 구분될 수 있다.
먼저, 보간 기반 방법들은 다른 방법들에 비해 연산량이 적고, 간단한 구조를 가지고 있다. 그러나, 이러한 방법들은 생성된 HR 영상의 대각선 에지(diagonal edge)에 블러링(blurring)과 재깅 아티팩트(jagging artifact)가 발생하는 단점이 있다. 이러한 단점을 극복하기 위해 에지 보존(edge preserving) 보간 방법들이 제안되었지만, 여전히 세밀한 디테일(detail)을 생성하는 데에는 어려움이 따른다.
두번째로, 복원 기반 방법들은 복원된 HR 영상을 스무딩(smoothing)하고 다운 샘플링(down-sampling)한 영상이 입력 LR 영상과 근접하도록 제약함으로써 HR 영상을 생성한다. 예를 들어, 백 프로젝션(back projection) 알고리즘은 반복적으로 복원 에러를 최소화한다. 그러나, 이러한 방법은 강한 에지 영역에서 재깅(jagging)과 링잉(ringing)이 나타나는 문제점을 가지고 있다.
마지막으로, 전술한 방법들의 문제점을 극복하기 위한 방법들로 최근 많은 SR 방법들이 제안되었다. 전형적인 SR 방법은 다수의 LR 영상으로부터 하나 혹은 여러 장의 HR 영상을 생성한다. 일반적으로 SR 방법의 성능은 인접한 LR 영상 사이에 서브 픽셀 모션(sub-pixel motion)의 존재 여부와 정확한 서브 픽셀 모션 추정(sub-pixel motion estimation)에 따라 크게 좌우된다. 그러나, 이웃한 저해상도 영상 사이에 서브 픽셀 모션 추정은 상당한 연산량이 요구될 뿐만 아니라, 정확도가 항상 확실히 보장되지 않는다. 그래서, 최근 들어 단일 LR 영상을 이용한 예제(example) 기반 SR 방법들 또는 학습(learning) 기반 SR 방법들이 고안되었다. 이 방법들은 학습 단계를 통해 HR 영상과 대응하는 LR 영상 사이의 선행 지식(prior knowledge)을 이용한다. 대부분의 학습 기반 SR 방법들은 대개 다수의 HR 패치와 대응하는 LR 패치로 이루어진 딕셔너리(dictionary)를 이용한다. 입력 LR 영상은 일정하게 오버랩(overlap)된 패치 단위로 분리되고, 각각의 패치는 딕셔너리(dictionary)로부터 유사한 하나 이상의 LR 패치를 선택한다. 최종적으로 선택된 패치들에 대응하는 HR 패치들을 이용하여 입력 LR 패치의 대응하는 HR 패치를 생성하게 된다. 이러한 방식의 SR 방법은 기존의 보간 방법들에 비해 고화질의 HR 영상을 생성할 수 있다. 하지만, 만족스러운 성능을 보이기 위해 방대한 패치 쌍이 필요하고, 그에 따라 상당한 크기의 딕셔너리가 요구된다. 또한, 유사한 패치를 찾기 위한 정합 과정에서 상당한 연산이 필요하다.
본 발명은 상기한 문제점을 해결하기 위해 안출된 것으로서, K-평균 군집화 알고리즘(K-means clustering algorithm)을 이용한 딕셔너리(dictionary) 축소에 기반하여 입력 영상보다 고해상도인 영상을 생성하는 장치를 제공함을 목적으로 한다.
본 발명은 상기한 목적을 달성하기 위해 안출된 것으로서, 제1 주파수 영상으로부터 추출된 제1 하이 패치들 및 제1 주파수 영상과 동일한 훈련 영상으로부터 얻은 제2 주파수 영상으로부터 추출된 제1 로우 패치들이 획득되면, 미리 정해진 제1 기준값에 기초하여 제1 로우 패치들끼리 클러스터링시키고, 클러스터링된 제1 로우 패치들과 클러스터링된 제1 로우 패치들 각각에 대응하는 제1 하이 패치들을 하나의 패치 쌍으로 하여 제1 딕셔너리(dictionary)를 구축하는 제1 딕셔너리 구축부; 훈련 영상에 기초한 제3 주파수 영상으로부터 추출된 제2 하이 패치와 제1 기준값에 의한 차이값이 가장 적은 패치 또는 훈련 영상에 기초한 제4 주파수 영상으로부터 추출된 제2 로우 패치와 제1 기준값에 의한 차이값이 가장 적은 패치를 제1 딕셔너리로부터 검색하며, 검색된 패치와 제2 하이 패치 간의 차이값에 기초한 잔여 패치 또는 검색된 패치와 제2 로우 패치 간의 차이값에 기초한 잔여 패치로 제2 딕셔너리를 구축하는 제2 딕셔너리 구축부; 및 입력 영상으로부터 추출된 입력 로우 패치와 제1 기준값에 의한 차이값이 가장 적은 로우 패치 및 이 로우 패치와 페어(pair)를 형성하는 하이 패치를 상기 제1 딕셔너리로부터 검색하고, 검색된 하이 패치와 관련된 잔여 패치를 제2 딕셔너리로부터 검색하며, 검색된 하이 패치와 검색된 잔여 패치를 더하여 입력 영상보다 해상도가 더 높은 영상을 생성하는 영상 합성부를 포함하는 것을 특징으로 하는 고해상도 영상 생성 장치를 제공한다.
바람직하게는, 제2 딕셔너리 구축부는 미리 정해진 영상 처리 과정에 따라 훈련 영상으로부터 제3 주파수 영상과 제4 주파수 영상을 생성하는 제3 영상 처리부; 제3 주파수 영상으로부터 제2 하이 패치들을 추출하며, 제4 주파수 영상으로부터 제2 로우 패치들을 추출하는 제2 패치 추출부; 제2 로우 패치들 각각과 제1 기준값에 의한 차이값이 가장 적은 로우 패치들을 제1 딕셔너리로부터 검색하며, 이때에 검색된 로우 패치들 각각에 대응하는 하이 패치들을 제1 딕셔너리로부터 검색하는 제1 패치 검색부; 제1 패치 검색부에 의해 검색된 각각의 하이 패치와 추출된 각각의 제2 하이 패치 간 차이값에 기초하여 제1 잔여 패치를 생성하는 제1 잔여 패치 생성부; 제2 하이 패치들 각각과 제1 기준값에 의한 차이값이 가장 적은 하이 패치들을 제1 딕셔너리로부터 검색하며, 이때에 검색된 하이 패치들 각각에 대응하는 로우 패치들을 제1 딕셔너리로부터 검색하는 제2 패치 검색부; 제2 패치 검색부에 의해 검색된 각각의 로우 패치와 추출된 각각의 제2 로우 패치 간의 차이값에 기초하여 제2 잔여 패치를 생성하는 제2 잔여 패치 생성부; 및 생성된 제1 잔여 패치와 생성된 제2 잔여 패치로 제2 딕셔너리를 구축하는 딕셔너리 구축부를 포함한다. 더욱 바람직하게는, 제3 영상 처리부는 훈련 영상보다 저해상도인 제3 영상을 생성하며, 제3 영상보다 고해상도인 제4 영상을 생성하는 제4 영상 처리부; 및 훈련 영상과 제4 영상 간 차이로부터 제3 주파수 영상을 생성하며, 제4 영상을 필터링시켜 제4 주파수 영상을 생성하는 제5 영상 처리부를 포함한다.
바람직하게는, 영상 합성부는 입력 영상보다 고해상도인 제5 영상을 생성하는 제6 영상 처리부; 생성된 제5 영상으로부터 입력 로우 패치들을 추출하는 입력 로우 패치 추출부; 추출된 입력 로우 패치들 각각과 제1 기준값에 의한 차이값이 가장 적은 로우 패치들을 제1 딕셔너리로부터 검색하며, 검색된 로우 패치들 각각과 페어를 형성하는 하이 패치들을 제1 딕셔너리로부터 검색하는 제3 패치 검색부; 검색된 하이 패치들 각각에 미리 정해진 값을 반영시켜 역정규화시키는 역정규화부; 역정규화된 하이 패치들과 관련된 잔여 패치들을 제2 딕셔너리로부터 검색하는 제4 패치 검색부; 제1 딕셔너리로부터 검색된 하이 패치들과 제2 딕셔너리로부터 검색된 잔여 패치들을 각각 더하여 입력 하이 패치들을 생성하는 입력 하이 패치 생성부; 및 생성된 입력 하이 패치들을 이용하여 입력 영상보다 해상도가 더 높은 영상을 생성하는 고해상도 영상 생성부를 포함한다. 더욱 바람직하게는, 역정규화부는 미리 정해진 값으로 제1 로우 패치들 간의 차이값을 컴포넌트로 할 때 모든 컴포넌트들을 더한 값을 이용하여 이 값과 검색된 하이 패치들의 곱셈값을 역정규화시킨다.
바람직하게는, 제1 딕셔너리 구축부는 제1 로우 패치들 간의 차이값을 컴포넌트로 할 때 각각의 컴포넌트들의 제곱값을 모두 더한 값을 제1 기준값으로 획득한다.
바람직하게는, 제1 딕셔너리 구축부는 제1 로우 패치들끼리 클러스터링시킬 때에 메모리 비용(memory cost) 또는 영상들을 합성할 때의 연산 복잡도에 의해 K 값이 결정되는 K 평균 군집화 알고리즘(K-means clustering algorithm)을 이용한다.
바람직하게는, 고해상도 영상 생성 장치는 훈련 영상을 다운 샘플링시켜 제1 영상을 생성하며, 제1 영상을 선형 보간시켜 제2 영상을 생성하는 제1 영상 처리부; 훈련 영상과 제2 영상 간 차이로부터 제1 주파수 영상을 생성하며, 제2 영상을 필터링시켜 제2 주파수 영상을 생성하는 제2 영상 처리부; 및 생성된 제1 주파수 영상으로부터 제1 하이 패치들을 추출하며, 생성된 제2 주파수 영상으로부터 제1 로우 패치들을 추출하는 제1 패치 추출부를 더욱 포함한다. 더욱 바람직하게는, 제1 패치 추출부는 생성된 제1 주파수 영상으로부터 인접 패치들과 오버랩(overlap)되게 하이 패치들을 추출하는 제1 추출부; 제1 로우 패치들 간의 차이값을 컴포넌트로 할 때 모든 컴포넌트들을 더한 값을 제2 기준값으로 계산하는 기준값 계산부; 계산된 제2 기준값에 의해 1차 추출된 하이 패치들을 정규화시키는 정규화부; 및 정규화된 하이 패치들을 응답 필터링시켜 제1 하이 패치들을 추출하는 제2 추출부를 포함한다.
또한, 본 발명은 제1 주파수 영상으로부터 추출된 제1 하이 패치들 및 제1 주파수 영상과 동일한 훈련 영상으로부터 얻은 제2 주파수 영상으로부터 추출된 제1 로우 패치들이 획득되면, 미리 정해진 제1 기준값에 기초하여 제1 로우 패치들끼리 클러스터링시키고, 클러스터링된 제1 로우 패치들과 클러스터링된 제1 로우 패치들 각각에 대응하는 제1 하이 패치들을 하나의 패치 쌍으로 하여 제1 딕셔너리(dictionary)를 구축하는 제1 딕셔너리 구축 단계; 훈련 영상에 기초한 제3 주파수 영상으로부터 추출된 제2 하이 패치와 제1 기준값에 의한 차이값이 가장 적은 패치 또는 훈련 영상에 기초한 제4 주파수 영상으로부터 추출된 제2 로우 패치와 제1 기준값에 의한 차이값이 가장 적은 패치를 제1 딕셔너리로부터 검색하며, 검색된 패치와 제2 하이 패치 간의 차이값에 기초한 잔여 패치 또는 검색된 패치와 제2 로우 패치 간의 차이값에 기초한 잔여 패치로 제2 딕셔너리를 구축하는 제2 딕셔너리 구축 단계; 및 입력 영상으로부터 추출된 입력 로우 패치와 제1 기준값에 의한 차이값이 가장 적은 로우 패치 및 이 로우 패치와 페어(pair)를 형성하는 하이 패치를 제1 딕셔너리로부터 검색하고, 검색된 하이 패치와 관련된 잔여 패치를 제2 딕셔너리로부터 검색하며, 검색된 하이 패치와 검색된 잔여 패치를 더하여 입력 영상보다 해상도가 더 높은 영상을 생성하는 영상 합성 단계를 포함하는 것을 특징으로 하는 고해상도 영상 생성 방법을 제공한다.
바람직하게는, 제2 딕셔너리 구축 단계는 미리 정해진 영상 처리 과정에 따라 훈련 영상으로부터 제3 주파수 영상과 제4 주파수 영상을 생성하는 제3 영상 처리 단계; 제3 주파수 영상으로부터 제2 하이 패치들을 추출하며, 제4 주파수 영상으로부터 제2 로우 패치들을 추출하는 제2 패치 추출 단계; 제2 로우 패치들 각각과 제1 기준값에 의한 차이값이 가장 적은 로우 패치들을 제1 딕셔너리로부터 검색하며, 이때에 검색된 로우 패치들 각각에 대응하는 하이 패치들을 제1 딕셔너리로부터 검색하는 제1 패치 검색 단계; 제1 패치 검색 단계로부터 검색된 각각의 하이 패치와 추출된 각각의 제2 하이 패치 간 차이값에 기초하여 제1 잔여 패치를 생성하는 제1 잔여 패치 생성 단계; 제2 하이 패치들 각각과 제1 기준값에 의한 차이값이 가장 적은 하이 패치들을 제1 딕셔너리로부터 검색하며, 이때에 검색된 하이 패치들 각각에 대응하는 로우 패치들을 제1 딕셔너리로부터 검색하는 제2 패치 검색 단계; 제2 패치 검색 단계로부터 검색된 각각의 로우 패치와 추출된 각각의 제2 로우 패치 간의 차이값에 기초하여 제2 잔여 패치를 생성하는 제2 잔여 패치 생성 단계; 및 생성된 제1 잔여 패치와 생성된 제2 잔여 패치로 제2 딕셔너리를 구축하는 딕셔너리 구축 단계를 포함한다. 더욱 바람직하게는, 제3 영상 처리 단계는 훈련 영상보다 저해상도인 제3 영상을 생성하며, 제3 영상보다 고해상도인 제4 영상을 생성하는 제4 영상 처리 단계; 및 훈련 영상과 제4 영상 간 차이로부터 제3 주파수 영상을 생성하며, 제4 영상을 필터링시켜 제4 주파수 영상을 생성하는 제5 영상 처리 단계를 포함한다.
바람직하게는, 영상 합성 단계는 입력 영상보다 고해상도인 제5 영상을 생성하는 제6 영상 처리 단계; 생성된 제5 영상으로부터 입력 로우 패치들을 추출하는 입력 로우 패치 추출 단계; 추출된 입력 로우 패치들 각각과 제1 기준값에 의한 차이값이 가장 적은 로우 패치들을 제1 딕셔너리로부터 검색하며, 검색된 로우 패치들 각각과 페어를 형성하는 하이 패치들을 제1 딕셔너리로부터 검색하는 제3 패치 검색 단계; 검색된 하이 패치들 각각에 미리 정해진 값을 반영시켜 역정규화시키는 역정규화 단계; 역정규화된 하이 패치들과 관련된 잔여 패치들을 제2 딕셔너리로부터 검색하는 제4 패치 검색 단계; 제1 딕셔너리로부터 검색된 하이 패치들과 제2 딕셔너리로부터 검색된 잔여 패치들을 각각 더하여 입력 하이 패치들을 생성하는 입력 하이 패치 생성 단계; 및 생성된 입력 하이 패치들을 이용하여 입력 영상보다 해상도가 더 높은 영상을 생성하는 고해상도 영상 생성 단계를 포함한다. 더욱 바람직하게는, 역정규화 단계는 미리 정해진 값으로 제1 로우 패치들 간의 차이값을 컴포넌트로 할 때 모든 컴포넌트들을 더한 값을 이용하여 이 값과 검색된 하이 패치들의 곱셈값을 역정규화시킨다.
바람직하게는, 제1 딕셔너리 구축 단계는 제1 로우 패치들 간의 차이값을 컴포넌트로 할 때 각각의 컴포넌트들의 제곱값을 모두 더한 값을 제1 기준값으로 획득한다.
바람직하게는, 제1 딕셔너리 구축 단계는 제1 로우 패치들끼리 클러스터링시킬 때에 메모리 비용(memory cost) 또는 영상들을 합성할 때의 연산 복잡도에 의해 K 값이 결정되는 K 평균 군집화 알고리즘(K-means clustering algorithm)을 이용한다.
바람직하게는, 고해상도 영상 생성 방법은 훈련 영상을 다운 샘플링시켜 제1 영상을 생성하며, 제1 영상을 선형 보간시켜 제2 영상을 생성하는 제1 영상 처리 단계; 훈련 영상과 제2 영상 간 차이로부터 제1 주파수 영상을 생성하며, 제2 영상을 필터링시켜 제2 주파수 영상을 생성하는 제2 영상 처리 단계; 및 생성된 제1 주파수 영상으로부터 제1 하이 패치들을 추출하며, 생성된 제2 주파수 영상으로부터 제1 로우 패치들을 추출하는 제1 패치 추출 단계를 더욱 포함한다. 더욱 바람직하게는, 제1 패치 추출 단계는 생성된 제1 주파수 영상으로부터 인접 패치들과 오버랩되게 하이 패치들을 추출하는 제1 추출 단계; 제1 로우 패치들 간의 차이값을 컴포넌트로 할 때 모든 컴포넌트들을 더한 값을 제2 기준값으로 계산하는 기준값 계산 단계; 계산된 제2기준값에 의해 1차 추출된 하이 패치들을 정규화시키는 정규화 단계; 및 정규화된 하이 패치들을 응답 필터링시켜 제1 하이 패치들을 추출하는 제2 추출 단계를 포함한다.
기존의 학습(learning) 기반 SR 방법의 경우 방대한 크기의 딕셔너리 때문에 발생하는 메모리 및 연산량 문제로 인해 실제 어플리케이션 적용에 제한적이었으나, 본 실시예에서 제안한 방법은 K-평균 군집화 알고리즘을 이용한 딕셔너리 축소에 기반하여 입력 영상보다 고해상도인 영상을 생성함으로써, 상기와 같은 문제점을 개선시켜 보다 다양한 어플리케이션에 적용 가능하다.
도 1은 종래 학습 기반 SR(Super Resolution) 방법의 개념도이다.
도 2는 본 발명의 바람직한 실시예에 따른 고해상도 영상 생성 장치를 개략적으로 도시한 블록도이다.
도 3과 도 4는 본 실시예에 따른 고해상도 영상 생성 장치의 내부 구성을 세부적으로 도시한 블록도이다.
도 5는 본 실시예에 따른 학습 기반 SR 기법의 블록도이다.
도 6은 본 실시예에 따른 제1 전처리 단계와 제1 패치 추출 단계를 설명하기 위한 참고도이다.
도 7은 본 실시예에 따른 딕셔너리 크기 감축 단계를 설명하기 위한 참고도이다.
도 8은 본 실시예에서 잔여 오차 딕셔너리를 생성하기 위한 트레이닝(training) 절차를 도시한 개념도이다.
도 9는 본 실시예에 따른 영상 합성 단계를 설명하기 위한 참고도이다.
도 10은 본 발명의 바람직한 실시예에 따른 고해상도 영상 생성 방법을 도시한 흐름도이다.
이하, 본 발명의 바람직한 실시예를 첨부된 도면들을 참조하여 상세히 설명한다. 우선 각 도면의 구성요소들에 참조 부호를 부가함에 있어서, 동일한 구성요소들에 대해서는 비록 다른 도면상에 표시되더라도 가능한한 동일한 부호를 가지도록 하고 있음에 유의해야 한다. 또한, 본 발명을 설명함에 있어, 관련된 공지 구성 또는 기능에 대한 구체적인 설명이 본 발명의 요지를 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명은 생략한다. 또한, 이하에서 본 발명의 바람직한 실시예를 설명할 것이나, 본 발명의 기술적 사상은 이에 한정하거나 제한되지 않고 당업자에 의해 변형되어 다양하게 실시될 수 있음은 물론이다.
본 발명은 K-평균 클러스터링(K-means clustering)을 이용하여 연산량 측면에서 효율적인 학습 기반 초고해상도 알고리즘을 제안한다. 기존의 전형적인 학습 기반 고해상도 알고리즘의 경우 신뢰할 수 있는 성능을 발휘하기 위해 방대한 크기의 딕셔너리(dictionary)가 요구된다. 하지만 그것은 엄청난 메모리 비용과 부담스러운 정합 연산을 가져온다. 이러한 문제점을 극복하기 위해서 본 발명에서는 학습 단계에서 비슷한 패치들끼리 적절하게 묶음으로써 학습된 딕셔너리의 크기를 상당히 줄인다. 또한, 잔여 딕셔너리를 도입하여 패치의 개수의 감소에 따른 화질 저하를 개선한다. 본 발명은 HDTV, 디지털 카메라, 디지털 캠코더 등과 같은 디지털 영상 기기를 위한 고성능 스케일러로 사용될 수 있다.
도 1은 종래 학습 기반 SR(Super Resolution) 방법의 개념도이다. 종래 SR 방법은 오프라인에서 처리되는 학습 단계(learning phase: 100)와 온라인으로 처리되는 영상 합성 단계(synthesis phase : 110) 단계로 구성된다. 학습 단계(100)에서는 LR 패치와 대응하는 HR 패치로 구성된 트레이닝 데이터(training data) 즉, 딕셔너리(101)를 생성한다. 이러한 패치 쌍은 다양한 HR 영상(102)과 그에 대응하는 LR 영상(103)으로부터 얻어진다. 영상 합성 단계(110)에서는 학습 단계(100)에서 생성된 딕셔너리(101)를 이용하여 입력 저해상도 영상(111)에 대해 실제 SR된 HR 영상을 생성(114)하는 단계이다. 먼저, 입력 영상(111)의 각각의 LR 패치에 대해 그것들과 유사한 패치들을 딕셔너리로부터 찾는다(search of K-nearest neighbor patches: 112). 다음으로, 입력 LR 패치에 대한 대응하는 고주파 성분을 앞서 딕셔너리로부터 찾은 LR 패치들에 대응하는 HR 패치들로부터 합성하여 생성한다(high frequency synthesis: 113).
종래 학습 기반 SR 방법의 성능은 입력 LR 패치와 딕셔너리에 후보(candidate) LR 패치의 정합 정확도에 크게 의존한다. 그래서, 정합 정확도를 향상시켜 고화질의 HR 영상을 생성하기 위해 충분한 개수의 패치가 포함된 딕셔너리가 필요하다. 대부분 기존 방법들의 경우 수십만개의 LR?HR 패치 쌍을 사용하였다. 이것을 메모리로 환산하면 약 10MB 이상의 용량이 요구된다. 또한, 다수에 패치의 개수에 따라 입력 패치와 딕셔너리 내 패치와의 정합을 위해 상당한 연산량이 필요하기 때문에 처리 속도에 문제점이 있다. 이에 따라 기존 방법들은 실제 구현이 쉽지 않고, 많은 어플리케이션에 제한적이다.
본 발명은 이러한 문제점을 해결하기 위한 것으로서, 기존 학습 기반 SR 기법에 있어 방대한 개수의 패치로 이루어진 딕셔너리를 사용함으로써 생기는 방대한 메모리와 연산량 문제를 최대한 줄이면서 고화질의 HR 영상을 생성할 수 있는 빠르고 효율적인 SR 방법을 제안한다.
도 2는 본 발명의 바람직한 실시예에 따른 고해상도 영상 생성 장치를 개략적으로 도시한 블록도이다. 도 3과 도 4는 본 실시예에 따른 고해상도 영상 생성 장치의 내부 구성을 세부적으로 도시한 블록도이다. 이하 설명은 도 2 내지 도 4를 참조한다.
도 2에 따르면, 고해상도 영상 생성 장치(200)는 제1 딕셔너리 구축부(210), 제2 딕셔너리 구축부(220), 영상 합성부(230), 전원부(240) 및 주제어부(250)를 포함한다.
고해상도 영상 생성 장치(200)는 입력 영상보다 고해상도인 영상을 생성하는 장치이다. 본 실시예에서는 고해상도 영상 생성 장치(200)를 통해 트레이닝(training)된 딕셔너리의 크기를 줄여 메모리 및 연산량을 줄이면서도 품질을 신뢰할 수 있는 고화질의 HR 영상을 생성할 수 있는 빠르고 효율적인 SR 기법을 제안한다.
제1 딕셔너리 구축부(210)는 제1 주파수 영상으로부터 추출된 제1 하이 패치들 및 제1 주파수 영상과 동일한 훈련 영상으로부터 얻은 제2 주파수 영상으로부터 추출된 제1 로우 패치들이 획득되면, 미리 정해진 제1 기준값에 기초하여 제1 로우 패치들끼리 클러스터링시키고, 클러스터링된 제1 로우 패치들과 클러스터링된 제1 로우 패치들 각각에 대응하는 제1 하이 패치들을 하나의 패치 쌍으로 하여 제1 딕셔너리를 구축하는 기능을 수행한다. 상기에서, 제1 주파수 영상, 제1 하이 패치, 제2 주파수 영상, 제1 로우 패치, 제1 딕셔너리는 각각 HF 영상, HR 패치, MF 영상, LR 패치, 오디너리 딕셔너리(ordinary dictionary)를 의미한다.
제1 딕셔너리 구축부(210)는 제1 로우 패치들 간의 차이값을 컴포넌트로 할 때 각각의 컴포넌트들의 제곱값을 모두 더한 값을 제1 기준값으로 획득한다. 본 실시예에서는 제1 기준값을 L2-norm으로 정의한다. L2-norm은 패치들 간의 차이값을 컴포넌트로 할 때, 각각의 컴포넌트들의 제곱의 합을 의미한다.
제1 딕셔너리 구축부(210)는 제1 로우 패치들끼리 클러스터링시킬 때에 메모리 비용(memory cost) 또는 영상들을 합성할 때의 연산 복잡도에 의해 K 값이 결정되는 K 평균 군집화 알고리즘(K-means clustering algorithm)을 이용할 수 있다.
제2 딕셔너리 구축부(220)는 훈련 영상에 기초한 제3 주파수 영상으로부터 추출된 제2 하이 패치와 제1 기준값에 의한 차이값이 가장 적은 패치 또는 훈련 영상에 기초한 제4 주파수 영상으로부터 추출된 제2 로우 패치와 제1 기준값에 의한 차이값이 가장 적은 패치를 제1 딕셔너리로부터 검색하며, 검색된 패치와 제2 하이 패치 간의 차이값에 기초한 잔여 패치 또는 검색된 패치와 제2 로우 패치 간의 차이값에 기초한 잔여 패치로 제2 딕셔너리를 구축하는 기능을 수행한다. 상기에서, 제2 하이 패치, 제2 로우 패치, 잔여 패치, 제2 딕셔너리는 각각 HF 패치, MF 패치, 레지두 패치(residue patch), 레지두 딕셔너리(residue dictionary)를 의미한다.
제2 딕셔너리 구축부(220)는 도 3의 (a)에 도시된 바와 같이 제3 영상 처리부(221), 제2 패치 추출부(222), 제1 패치 검색부(223), 제1 잔여 패치 생성부(224), 제2 패치 검색부(225), 제2 잔여 패치 생성부(226) 및 딕셔너리 구축부(227)를 포함할 수 있다.
제3 영상 처리부(221)는 미리 정해진 영상 처리 과정에 따라 훈련 영상으로부터 제3 주파수 영상과 제4 주파수 영상을 생성하는 기능을 수행한다. 제3 영상 처리부(221)는 제4 영상 처리부와 제5 영상 처리부를 포함할 수 있다. 제4 영상 처리부는 훈련 영상보다 저해상도인 제3 영상을 생성하며, 제3 영상보다 고해상도인 제4 영상을 생성한다. 제5 영상 처리부는 훈련 영상과 제4 영상 간 차이로부터 제3 주파수 영상을 생성하며, 제4 영상을 필터링시켜 제4 주파수 영상을 생성한다. 제4 영상 처리부는 제3 영상을 생성하는 방법으로 다운 샘플링 방법을 이용할 수 있다. 제4 영상 처리부는 제4 영상을 생성하는 방법으로 선형 보간법을 이용할 수 있다.
제2 패치 추출부(222)는 제3 주파수 영상으로부터 제2 하이 패치들을 추출하며, 제4 주파수 영상으로부터 제2 로우 패치들을 추출하는 기능을 수행한다.
제1 패치 검색부(223)는 제2 로우 패치들 각각과 제1 기준값에 의한 차이값이 가장 적은 로우 패치들을 제1 딕셔너리로부터 검색하며, 이때에 검색된 로우 패치들 각각에 대응하는 하이 패치들을 제1 딕셔너리로부터 검색하는 기능을 수행한다.
제1 잔여 패치 생성부(224)는 제1 패치 검색부(223)에 의해 검색된 각각의 하이 패치와 추출된 각각의 제2 하이 패치 간 차이값에 기초하여 제1 잔여 패치를 생성하는 기능을 수행한다.
제2 패치 검색부(225)는 제2 하이 패치들 각각과 제1 기준값에 의한 차이값이 가장 적은 하이 패치들을 제1 딕셔너리로부터 검색하며, 이때에 검색된 하이 패치들 각각에 대응하는 로우 패치들을 제1 딕셔너리로부터 검색하는 기능을 수행한다.
제2 잔여 패치 생성부(226)는 제2 패치 검색부(225)에 의해 검색된 각각의 로우 패치와 추출된 각각의 제2 로우 패치 간의 차이값에 기초하여 제2 잔여 패치를 생성하는 기능을 수행한다.
딕셔너리 구축부(227)는 생성된 제1 잔여 패치와 생성된 제2 잔여 패치로 제2 딕셔너리를 구축하는 기능을 수행한다.
영상 합성부(230)는 입력 영상으로부터 추출된 입력 로우 패치와 제1 기준값에 의한 차이값이 가장 적은 로우 패치 및 이 로우 패치와 페어(pair)를 형성하는 하이 패치를 제1 딕셔너리로부터 검색하고, 검색된 하이 패치와 관련된 잔여 패치를 제2 딕셔너리로부터 검색하며, 검색된 하이 패치와 검색된 잔여 패치를 더하여 입력 영상보다 해상도가 더 높은 영상을 생성하는 기능을 수행한다.
영상 합성부(230)는 도 3의 (b)에 도시된 바와 같이 제6 영상 처리부(231), 입력 로우 패치 추출부(232), 제3 패치 검색부(233), 역정규화부(234), 제4 패치 검색부(235), 입력 하이 패치 생성부(236) 및 고해상도 영상 생성부(237)를 포함할 수 있다.
제6 영상 처리부(231)는 입력 영상보다 고해상도인 제5 영상을 생성하는 기능을 수행한다. 제6 영상 처리부(231)는 입력 영상보다 업스케일링(up-scaling)된 제5 영상을 생성하는 방법으로 선형 보간법을 이용할 수 있다.
입력 로우 패치 추출부(232)는 생성된 제5 영상으로부터 입력 로우 패치들을 추출하는 기능을 수행한다.
제3 패치 검색부(233)는 추출된 입력 로우 패치들 각각과 제1 기준값에 의한 차이값이 가장 적은 로우 패치들을 제1 딕셔너리로부터 검색하며, 검색된 로우 패치들 각각과 페어를 형성하는 하이 패치들을 제1 딕셔너리로부터 검색하는 기능을 수행한다.
역정규화부(234)는 검색된 하이 패치들 각각에 미리 정해진 값을 반영시켜 역정규화시키는 기능을 수행한다. 역정규화부(234)는 미리 정해진 값으로 제1 로우 패치들 간의 차이값을 컴포넌트로 할 때 모든 컴포넌트들을 더한 값을 이용하여 이 값과 검색된 하이 패치들의 곱셈값을 역정규화시킨다.
제4 패치 검색부(235)는 역정규화된 하이 패치들과 관련된 잔여 패치들을 제2 딕셔너리로부터 검색하는 기능을 수행한다.
입력 하이 패치 생성부(236)는 제1 딕셔너리로부터 검색된 하이 패치들과 제2 딕셔너리로부터 검색된 잔여 패치들을 각각 더하여 입력 하이 패치들을 생성하는 기능을 수행한다.
고해상도 영상 생성부(237)는 생성된 입력 하이 패치들을 이용하여 입력 영상보다 해상도가 더 높은 영상을 생성하는 기능을 수행한다.
전원부(240)는 고해상도 영상 생성 장치(200)를 구성하는 각 부에 전원을 공급하는 기능을 수행한다.
주제어부(250)는 고해상도 영상 생성 장치(200)를 구성하는 각 부의 전체 작동을 제어하는 기능을 수행한다.
고해상도 영상 생성 장치(200)는 도 4의 (a)에 도시된 바와 같이 제1 영상 처리부(261), 제2 영상 처리부(262) 및 제1 패치 추출부(263)를 더욱 포함할 수 있다. 제1 영상 처리부(261)는 훈련 영상을 다운 샘플링시켜 제1 영상을 생성하며, 제1 영상을 선형 보간시켜 제2 영상을 생성하는 기능을 수행한다. 제2 영상 처리부(262)는 훈련 영상과 제2 영상 간 차이로부터 제1 주파수 영상을 생성하며, 제2 영상을 필터링시켜 제2 주파수 영상을 생성하는 기능을 수행한다. 제1 패치 추출부(263)는 생성된 제1 주파수 영상으로부터 제1 하이 패치들을 추출하며, 생성된 제2 주파수 영상으로부터 제1 로우 패치들을 추출하는 기능을 수행한다. 본 실시예에서 훈련 영상, 제1 영상, 제2 영상은 각각 HR 영상 IH, 저해상도 영상 IL, 초기 고해상도 영상 IUP을 의미한다. 제1 영상 처리부(261)는 제1 영상을 생성할 때에 다운 샘플링(down-sampling) 외에 블러링(blurring) 처리도 수행할 수 있다. 제1 영상 처리부(261)는 제2 영상을 생성할 때에 바이리니어 보간법(bi-linear interpolation), 3차 회선 보간법(cubic convolution interpolation) 등의 선형 보간법을 이용하여 업스케일링(up-scaling)된 영상을 생성할 수 있다. 제2 주파수 영상은 제2 영상을 고주파수 필터링(high-pass filtering)시켜 얻은 영상을 의미한다.
제1 패치 추출부(263)는 도 4의 (b)에 도시된 바와 같이 제1 추출부(264), 기준값 계산부(265), 정규화부(266) 및 제2 추출부(267)를 포함할 수 있다. 제1 추출부(264)는 생성된 제1 주파수 영상으로부터 인접 패치들과 오버랩(overlap)되게 하이 패치들을 추출한다. 기준값 계산부(265)는 제1 로우 패치들 간의 차이값을 컴포넌트로 할 때 모든 컴포넌트들을 더한 값을 제2 기준값으로 계산한다. 정규화부(266)는 계산된 제2 기준값에 의해 1차 추출된 하이 패치들을 정규화시킨다. 제2 추출부(267)는 정규화된 하이 패치들을 응답 필터링시켜 제1 하이 패치들을 추출한다. 본 실시예에서는 제2 기준값을 L1-norm으로 정의한다. L1-norm은 패치들 간의 차이값을 컴포넌트로 할 때, 모든 컴포넌트들의 합을 의미한다. 제2 추출부(267)는 제1 하이 패치들을 추출할 때에 최대 응답 필터(maximum response filter)를 이용할 수 있다.
다음으로, 본 실시예에 따른 학습 기반 SR 기법에 대해서 설명한다. 도 5는 본 실시예에 따른 학습 기반 SR 기법의 블록도이다.
본 실시예에 따른 SR 기법은 기존 SR 방법과 마찬가지로 학습 단계(Learning Phase: 500)와 영상 합성 단계(Synthesis Phase: 510)로 구성된다. 학습 단계(500)는 제1 전처리 단계(Pre-processing: 501), 제1 패치 추출 단계(Patch Extraction: 502), 딕셔너리 감축 단계(Dictionary Size Reduction: 503), 오디너리 딕셔너리(Ordinary Dictionary) 생성 단계(504) 등으로 구성된다. 이에 더하여, 학습 단계(500)는 잔여 오차 딕셔너리 생성 단계(505)를 추가적으로 포함한다. 잔여 오차 딕셔너리 생성 단계(505)는 딕셔너리 감축 단계(503)로 인해 손실된 고주파 성분을 보상하기 위한 단계로서, 잔여 오차 딕셔너리 구성 단계(Residue Dictionary Construction: 506)와 잔여 오차 딕셔너리 구축 단계(Residue Dictionary: 507)를 포함한다. 영상 합성 단계(510)는 제2 전처리 단계(Pre-processing: 511), 제2 패치 추출 단계(Patch Extraction: 512), 고주파 합성 단계(HF synthesis: 513), 잔여 고주파 합성 단계(Residual HF synthesis: 514) 등으로 구성된다.
(1) 제1 전처리 단계(501) 및 제1 패치 추출 단계(502)
효과적인 딕셔너리를 구축하기 위해 도 6에 도시된 바와 같이 먼저 적절한 전처리 과정을 수행한다. 저해상도 영상 IL을 생성하기 위해 각각의 HR 영상 IH는 블러링(blurring) 및 다운 샘플링(down sampling) 과정을 수행한다(601). 다음으로, IL는 바이 리니어(bi-linear), 큐빅 컨벌루션(cubic-convolution) 등과 같은 선형 보간법들을 통해 업스케일링(up-scaling)된 초기 고해상도 영상 IUP를 생성한다(602). 딕셔너리는 잃어버린 고주파 성분(High Frequency Detail)과 그것들을 인덱싱(indexing)하기 위한 특정한 특징 정보(feature)를 포함한다. HF(High Frequency) 영상 IHF는 IH에서 IUP를 뺌으로써 얻어지고(Contrast normalizaion: 603), 중간 주파수(MF; Mid Frequency) 영상 IMF는 IUP를 고주파수 필터링(high-pass filtering)하여 얻어진다(HPF & contrast normalization: 604). 여기서, IHF는 선형 보간법으로 생성할 수 없는 잃어버린 고주파 성분이고, IMF는 인덱싱을 위한 특징 정보로 활용된다.
결과적으로 IHF와 IMF로부터 각각 HR 패치와 LR 패치를 추출한다. 패치는 로컬 스무스니스(local smoothness)를 위해 인접한 패치와 적절하게 오버랩(overlap)되며, 각각의 패치는 LR 패치의 에너지에 의해 정규화(normalization)되어 패치의 로컬 이미지 콘트라스트(local image contrast)에 독립적이게 된다. 여기서, 에너지는 L1-norm을 나타낸다. 마지막으로, 고주파 생성에 중요한 에지(edge)와 텍스처(texture)를 포함하는 프리미티브 패치(primitive patch)만을 추출하기 위해 바이 큐빅 알고리즘(bicubic algorithm)이나 팬스 알고리즘(Fan's algorithm)과 같이 최대 응답 필터(maximum response filter)를 사용한다.
(2) 딕셔너리 감축 단계(503) 및 오디너리 딕셔너리 생성 단계(504)
도 7을 참조하면, 딕셔너리가 차지하는 메모리 비용(cost)을 줄이고 영상 합성 단계(510)에서의 연산 부담을 줄이기 위해 딕셔너리 크기 감축 단계(503)에서는 LR-HR 패치 쌍(LR-HR patch pair)을 효과적으로 줄인다. 그래서, 비슷한 여러 개의 LR-HR 패치를 하나의 그룹으로 묶기 위해 K-means clustering 방법이 사용된다. L2-norm 관점에서 유사한 LR 패치를 하나의 그룹으로 묶는 동시에 대응하는 HR 패치들도 같은 그룹으로 묶이게 된다. 최종적으로 각각의 클러스터(cluster)의 중심점이 새로운 LR-HR 패치 쌍을 구축하여 오디너리 딕셔너리를 구성한다. 실제로 K의 값은 메모리 비용과 영상 합성 단계의 연산 복잡도를 고려하여 결정된다.
(3) 잔여 오차 딕셔너리(Residue Dictionary) 생성 단계(505)
딕셔너리 감축 단계(503)는 비슷한 HR 패치의 평균에 의해서 HF 성분들이 약화되기 때문에 때때로 블러링 아티팩트(blurring artifact)를 야기시킬 수 있다. 만약 실제 HR 패치와 추정된 HR 패치 사이의 차이인 레지두 패치(residue patch)가 잘 학습되어져 있다면 추가적인 화질 향상을 가져올 수 있다. 그래서, 본 실시예에서는 약해진 HF 성분을 보상하기 위해 잔여 오차 딕셔너리를 도입한다. 도 8은 잔여 오차 딕셔너리를 생성하기 위한 트레이닝(training) 절차를 나타낸다.
먼저, HF 영상과 MF 영상을 전처리 과정(800)을 통해 생성한다(810, 820). 다음으로, 오디너리 딕셔너리(830)로부터 각각의 트레이닝 MF 패치에 대해 가장 유사한 MF 패치(Matched MF patches)와 이에 대응하는 HF 패치(Matched HF patches)를 찾는다(840, 850). 그리고 나서, 대응하는 HF 패치와 원래의 HF 패치와의 사이에 HF 레지두(residue) 패치를 생성한다. 비슷한 방법으로 MF 레지두 패치도 계산한다(Patch pair extraction: 860). 최종적으로, HF 레지두 패치들과 MF 레지두 패치들에 딕셔너리 감축과 같은 방식(Dictionary size reduction: 870)을 적용하여 잔여 오차 딕셔너리를 구축한다(880).
(4) 영상 합성 단계(510)
도 9는 영상 합성 과정을 나타낸다. 입력 LR 영상(Input LR images: 900)은 먼저 선형 보간법을 이용해 초기 업스케일링되고(901), 고주파수 필터링 과정을 거쳐 MF 영상을 생성한다(HPF & contrast normalization: 902). 이후, 생성된 MF 영상으로부터 LR 패치를 추출한다(903). 각각의 입력 LR 패치는 가장 유사한(best-matched) LR 패치를 오디너리 딕셔너리(905)로부터 찾기 위해 L2-norm 거리 관점에서 비교한다(Nearest neighbor search: 904). 다음으로, 가장 유사한 LR 패치에 대응하는 HR 패치를 입력 LR 패치에 energy를 곱함으로써 역정규화시킨다(Contrast denormalization: 906). 그 뒤에, 각각의 LR 패치에 대한 적절한 HF 레지두 패치를 잔여 오차 딕셔너리(907)로부터 탐색하여 찾고, 앞서 예측된 HF 패치에 더함으로써 최종적인 HF 패치를 생성한다(Estimated HF image: 908). 여기서, 입력 MF 레지두 패치는 입력 LR 패치와 가장 유사한 LR 패치와의 차이값이고, 그것은 잔여 오차 딕셔너리에 후보 MF 레지두 패치들과 정합된다. 이러한 과정을 모든 입력 LR 패치에 대해서 적용하고, 오버랩(overlap) 영역에 대한 평균화 과정을 거쳐 최종적인 결과 HR 영상을 얻게 된다(Output HR image: 909).
본 발명에서 제안한 방법은 복수의 인접 패치를 사용한 기존 방법과는 다르게 한개의 가장 유사한 패치(best-matched patch)만을 선택한다. 여기서 하나의 가장 유사한(single best-matched) 패치는 유클리디언(Euclidean) 공간에서 인접한 LR/HR 패치 간의 그룹핑에 의해 생성된 패치이므로 실제로 복수 인접 패치에 평균을 의미한다. 그러므로, 복수 인접 패치를 이용한 기존 방법과 비슷한 효과를 얻을 수 있다.
다음으로, 고해상도 영상 생성 장치(200)의 고해상도 영상 생성 방법에 대해서 설명한다. 도 10은 본 발명의 바람직한 실시예에 따른 고해상도 영상 생성 방법을 도시한 흐름도이다. 이하 설명은 도 10을 참조한다.
먼저, 제1 주파수 영상으로부터 추출된 제1 하이 패치들 및 제1 주파수 영상과 동일한 훈련 영상으로부터 얻은 제2 주파수 영상으로부터 추출된 제1 로우 패치들이 획득되면, 미리 정해진 기준값에 기초하여 제1 로우 패치들끼리 클러스터링시키고, 클러스터링된 제1 로우 패치들과 클러스터링된 제1 로우 패치들 각각에 대응하는 제1 하이 패치들을 하나의 패치 쌍으로 하여 제1 딕셔너리를 구축한다(제1 딕셔너리 구축 단계, S10).
제1 딕셔너리 구축 단계(S10)는 제1 로우 패치들 간의 차이값을 컴포넌트로 할 때 각각의 컴포넌트들의 제곱값을 모두 더한 값을 제1 기준값으로 획득한다.
제1 딕셔너리 구축 단계(S10)는 제1 로우 패치들끼리 클러스터링시킬 때에 메모리 비용(memory cost) 또는 영상들을 합성할 때의 연산 복잡도에 의해 K 값이 결정되는 K 평균 군집화 알고리즘(K-means clustering algorithm)을 이용한다.
제1 딕셔너리 구축 단계(S10) 이후, 훈련 영상에 기초한 제3 주파수 영상으로부터 추출된 제2 하이 패치와 제1 기준값에 의한 차이값이 가장 적은 패치 또는 훈련 영상에 기초한 제4 주파수 영상으로부터 추출된 제2 로우 패치와 제1 기준값에 의한 차이값이 가장 적은 패치를 제1 딕셔너리로부터 검색하며, 검색된 패치와 제2 하이 패치 간의 차이값에 기초한 잔여 패치 또는 검색된 패치와 제2 로우 패치 간의 차이값에 기초한 잔여 패치로 제2 딕셔너리를 구축한다(제2 딕셔너리 구축 단계, S20).
제2 딕셔너리 구축 단계(S20)는 제3 영상 처리 단계, 제2 패치 추출 단계, 제1 패치 검색 단계, 제1 잔여 패치 생성 단계, 제2 패치 검색 단계, 제2 잔여 패치 생성 단계, 및 딕셔너리 구축 단계를 포함할 수 있다. 제3 영상 처리 단계는 미리 정해진 영상 처리 과정에 따라 훈련 영상으로부터 제3 주파수 영상과 제4 주파수 영상을 생성하는 단계이다. 제2 패치 추출 단계는 제3 주파수 영상으로부터 제2 하이 패치들을 추출하며, 제4 주파수 영상으로부터 제2 로우 패치들을 추출하는 단계이다. 제1 패치 검색 단계는 제2 로우 패치들 각각과 제1 기준값에 의한 차이값이 가장 적은 로우 패치들을 제1 딕셔너리로부터 검색하며, 이때에 검색된 로우 패치들 각각에 대응하는 하이 패치들을 제1 딕셔너리로부터 검색하는 단계이다. 제1 잔여 패치 생성 단계는 제1 패치 검색 단계로부터 검색된 각각의 하이 패치와 추출된 각각의 제2 하이 패치 간 차이값에 기초하여 제1 잔여 패치를 생성하는 단계이다. 제2 패치 검색 단계는 제2 하이 패치들 각각과 제1 기준값에 의한 차이값이 가장 적은 하이 패치들을 제1 딕셔너리로부터 검색하며, 이때에 검색된 하이 패치들 각각에 대응하는 로우 패치들을 제1 딕셔너리로부터 검색하는 단계이다. 제2 잔여 패치 생성 단계는 제2 패치 검색 단계로부터 검색된 각각의 로우 패치와 추출된 각각의 제2 로우 패치 간의 차이값에 기초하여 제2 잔여 패치를 생성하는 단계이다. 딕셔너리 구축 단계는 생성된 제1 잔여 패치와 생성된 제2 잔여 패치로 제2 딕셔너리를 구축하는 단계이다.
한편, 제3 영상 처리 단계는 제4 영상 처리 단계와 제5 영상 처리 단계를 포함할 수 있다. 제4 영상 처리 단계는 훈련 영상보다 저해상도인 제3 영상을 생성하며, 제3 영상보다 고해상도인 제4 영상을 생성하는 단계이다. 제5 영상 처리 단계는 훈련 영상과 제4 영상 간 차이로부터 제3 주파수 영상을 생성하며, 제4 영상을 필터링시켜 제4 주파수 영상을 생성하는 단계이다.
제2 딕셔너리 구축 단계(S20) 이후, 입력 영상으로부터 추출된 입력 로우 패치와 제1 기준값에 의한 차이값이 가장 적은 로우 패치 및 이 로우 패치와 페어(pair)를 형성하는 하이 패치를 제1 딕셔너리로부터 검색하고, 검색된 하이 패치와 관련된 잔여 패치를 제2 딕셔너리로부터 검색하며, 검색된 하이 패치와 검색된 잔여 패치를 더하여 입력 영상보다 해상도가 더 높은 영상을 생성한다(영상 합성 단계, S30).
영상 합성 단계(S30)는 제6 영상 처리 단계, 입력 로우 패치 추출 단계, 제3 패치 검색 단계, 역정규화 단계, 제4 패치 검색 단계, 입력 하이 패치 생성 단계, 및 고해상도 영상 생성 단계를 포함할 수 있다. 제6 영상 처리 단계는 입력 영상보다 고해상도인 제5 영상을 생성하는 단계이다. 입력 로우 패치 추출 단계는 생성된 제5 영상으로부터 입력 로우 패치들을 추출하는 단계이다. 제3 패치 검색 단계는 추출된 입력 로우 패치들 각각과 제1 기준값에 의한 차이값이 가장 적은 로우 패치들을 제1 딕셔너리로부터 검색하며, 검색된 로우 패치들 각각과 페어를 형성하는 하이 패치들을 제1 딕셔너리로부터 검색하는 단계이다. 역정규화 단계는 검색된 하이 패치들 각각에 미리 정해진 값을 반영시켜 역정규화시키는 단계이다. 제4 패치 검색 단계는 역정규화된 하이 패치들과 관련된 잔여 패치들을 제2 딕셔너리로부터 검색하는 단계이다. 입력 하이 패치 생성 단계는 제1 딕셔너리로부터 검색된 하이 패치들과 제2 딕셔너리로부터 검색된 잔여 패치들을 각각 더하여 입력 하이 패치들을 생성하는 단계이다. 고해상도 영상 생성 단계는 생성된 입력 하이 패치들을 이용하여 입력 영상보다 해상도가 더 높은 영상을 생성하는 단계이다.
한편, 역정규화 단계는 미리 정해진 값으로 제1 로우 패치들 간의 차이값을 컴포넌트로 할 때 모든 컴포넌트들을 더한 값을 이용하여 이 값과 검색된 하이 패치들의 곱셈값을 역정규화시킨다.
제1 딕셔너리 구축 단계(S10) 이전에, 제1 영상 처리 단계, 제2 영상 처리 단계 및 제1 패치 추출 단계를 수행할 수 있다. 제1 영상 처리 단계는 훈련 영상을 다운 샘플링시켜 제1 영상을 생성하며, 제1 영상을 선형 보간시켜 제2 영상을 생성하는 단계이다. 제2 영상 처리 단계는 훈련 영상과 제2 영상 간 차이로부터 제1 주파수 영상을 생성하며, 제2 영상을 필터링시켜 제2 주파수 영상을 생성하는 단계이다. 제1 패치 추출 단계는 생성된 제1 주파수 영상으로부터 제1 하이 패치들을 추출하며, 생성된 제2 주파수 영상으로부터 제1 로우 패치들을 추출하는 단계이다.
제1 패치 추출 단계는 제1 추출 단계, 기준값 계산 단계, 정규화 단계 및 제2 추출 단계를 포함할 수 있다. 제1 추출 단계는 생성된 제1 주파수 영상으로부터 인접 패치들과 오버랩되게 하이 패치들을 추출하는 단계이다. 기준값 계산 단계는 제1 로우 패치들 간의 차이값을 컴포넌트로 할 때 모든 컴포넌트들을 더한 값을 기준값으로 계산하는 단계이다. 정규화 단계는 계산된 기준값에 의해 1차 추출된 하이 패치들을 정규화시키는 단계이다. 제2 추출 단계는 정규화된 하이 패치들을 응답 필터링시켜 제1 하이 패치들을 추출하는 단계이다.
이상의 설명은 본 발명의 기술 사상을 예시적으로 설명한 것에 불과한 것으로서, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자라면 본 발명의 본질적인 특성에서 벗어나지 않는 범위 내에서 다양한 수정, 변경 및 치환이 가능할 것이다. 따라서, 본 발명에 개시된 실시예 및 첨부된 도면들은 본 발명의 기술 사상을 한정하기 위한 것이 아니라 설명하기 위한 것이고, 이러한 실시예 및 첨부된 도면에 의하여 본 발명의 기술 사상의 범위가 한정되는 것은 아니다. 본 발명의 보호 범위는 아래의 청구 범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술 사상은 본 발명의 권리 범위에 포함되는 것으로 해석되어야 할 것이다.
본 발명은 K-평균 클러스터링을 이용한 딕셔너리 축소에 기반하여 고속 초고해상도 영상 복원 기법과 관련한 것이다. 본 발명은 SoC(System on Chip) 분야에 적용될 수 있다.
100 : 학습 단계 110 : 영상 합성 단계
200 : 고해상도 영상 생성 장치 210 : 제1 딕셔너리 구축부
220 : 제2 딕셔너리 구축부 230 : 영상 합성부
240 : 전원부 250 : 주제어부

Claims (1)

  1. 제1 주파수 영상으로부터 추출된 제1 하이 패치들 및 상기 제1 주파수 영상과 동일한 훈련 영상으로부터 얻은 제2 주파수 영상으로부터 추출된 제1 로우 패치들이 획득되면, 미리 정해진 기준값에 기초하여 제1 로우 패치들끼리 클러스터링시키고, 클러스터링된 제1 로우 패치들과 상기 클러스터링된 제1 로우 패치들 각각에 대응하는 제1 하이 패치들을 하나의 패치 쌍으로 하여 제1 딕셔너리(dictionary)를 구축하는 제1 딕셔너리 구축부;
    상기 훈련 영상에 기초한 제3 주파수 영상으로부터 추출된 제2 하이 패치와 상기 기준값에 의한 차이값이 가장 적은 패치 또는 상기 훈련 영상에 기초한 제4 주파수 영상으로부터 추출된 제2 로우 패치와 상기 기준값에 의한 차이값이 가장 적은 패치를 상기 제1 딕셔너리로부터 검색하며, 검색된 패치와 상기 제2 하이 패치 간의 차이값에 기초한 잔여 패치 또는 검색된 패치와 상기 제2 로우 패치 간의 차이값에 기초한 잔여 패치로 제2 딕셔너리를 구축하는 제2 딕셔너리 구축부; 및
    입력 영상으로부터 추출된 입력 로우 패치와 상기 기준값에 의한 차이값이 가장 적은 로우 패치 및 이 로우 패치와 페어(pair)를 형성하는 하이 패치를 상기 제1 딕셔너리로부터 검색하고, 검색된 하이 패치와 관련된 잔여 패치를 상기 제2 딕셔너리로부터 검색하며, 검색된 하이 패치와 검색된 잔여 패치를 더하여 상기 입력 영상보다 해상도가 더 높은 영상을 생성하는 영상 합성부
    를 포함하는 것을 특징으로 하는 고해상도 영상 생성 장치.
KR1020110009641A 2011-01-31 2011-01-31 고해상도 영상 생성 장치 KR20120088350A (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020110009641A KR20120088350A (ko) 2011-01-31 2011-01-31 고해상도 영상 생성 장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020110009641A KR20120088350A (ko) 2011-01-31 2011-01-31 고해상도 영상 생성 장치

Publications (1)

Publication Number Publication Date
KR20120088350A true KR20120088350A (ko) 2012-08-08

Family

ID=46873652

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020110009641A KR20120088350A (ko) 2011-01-31 2011-01-31 고해상도 영상 생성 장치

Country Status (1)

Country Link
KR (1) KR20120088350A (ko)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160104053A1 (en) * 2014-10-10 2016-04-14 Beijing Kuangshi Technology Co., Ltd. Hierarchical Interlinked Multi-scale Convolutional Network for Image Parsing
CN109409355A (zh) * 2018-08-13 2019-03-01 国网陕西省电力公司 一种新型变压器铭牌识别的方法及装置
KR20200026549A (ko) * 2018-09-03 2020-03-11 인천대학교 산학협력단 에지 컴퓨팅용 초고해상도 영상을 복원하기 위한 초고해상도 영상 복원 장치 및 방법
WO2020231005A1 (ko) * 2019-05-14 2020-11-19 삼성전자 주식회사 영상 처리 장치 및 그 동작방법
US11257186B2 (en) 2016-10-26 2022-02-22 Samsung Electronics Co., Ltd. Image processing apparatus, image processing method, and computer-readable recording medium
KR20230127718A (ko) * 2022-02-25 2023-09-01 인하대학교 산학협력단 열화상 데이터와 실화상 데이터간의 시야각 차이 조정 방법 및 시스템

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160104053A1 (en) * 2014-10-10 2016-04-14 Beijing Kuangshi Technology Co., Ltd. Hierarchical Interlinked Multi-scale Convolutional Network for Image Parsing
US9530071B2 (en) * 2014-10-10 2016-12-27 Beijing Kuangshi Technology Co., Ltd. Hierarchical interlinked multi-scale convolutional network for image parsing
US11257186B2 (en) 2016-10-26 2022-02-22 Samsung Electronics Co., Ltd. Image processing apparatus, image processing method, and computer-readable recording medium
CN109409355A (zh) * 2018-08-13 2019-03-01 国网陕西省电力公司 一种新型变压器铭牌识别的方法及装置
KR20200026549A (ko) * 2018-09-03 2020-03-11 인천대학교 산학협력단 에지 컴퓨팅용 초고해상도 영상을 복원하기 위한 초고해상도 영상 복원 장치 및 방법
WO2020231005A1 (ko) * 2019-05-14 2020-11-19 삼성전자 주식회사 영상 처리 장치 및 그 동작방법
US11954755B2 (en) 2019-05-14 2024-04-09 Samsung Electronics Co., Ltd. Image processing device and operation method thereof
KR20230127718A (ko) * 2022-02-25 2023-09-01 인하대학교 산학협력단 열화상 데이터와 실화상 데이터간의 시야각 차이 조정 방법 및 시스템

Similar Documents

Publication Publication Date Title
Xing et al. End-to-end learning for joint image demosaicing, denoising and super-resolution
CN105023240B (zh) 基于迭代投影重建的字典类图像超分辨率***及方法
WO2018027584A1 (zh) 一种目标属性辅助的压缩感知图像恢复方法及其***
CN107749987B (zh) 一种基于块运动估计的数字视频稳像方法
KR20120088350A (ko) 고해상도 영상 생성 장치
WO2013131929A1 (en) Method and apparatus for performing super-resolution
JP2003018398A (ja) ピクセル画像から超解像度画像を生成する方法
CN103985085A (zh) 图像超分辨率放大的方法和装置
Bevilacqua et al. Super-resolution using neighbor embedding of back-projection residuals
US20230153946A1 (en) System and Method for Image Super-Resolution
WO2014114635A1 (en) Method and apparatus for performing super-resolution of single images
Xing et al. Residual swin transformer channel attention network for image demosaicing
KR20140081481A (ko) 블록단위 영상 정합을 이용한 초해상도 영상 복원 방법 및 장치
CN107424119B (zh) 一种单图像的超分辨率方法
Zhang et al. Dynamic multi-scale network for dual-pixel images defocus deblurring with transformer
Ye et al. Depth super-resolution via deep controllable slicing network
Jiang et al. From less to more: Spectral splitting and aggregation network for hyperspectral face super-resolution
CN107481189B (zh) 一种基于学习的稀疏表示的超分辨率图像重建方法
Zhao et al. Single depth image super-resolution with multiple residual dictionary learning and refinement
Jeong et al. Fast Super‐Resolution Algorithm Based on Dictionary Size Reduction Using k‐Means Clustering
Yang Super resolution using dual path connections
Song et al. Super resolution with sparse gradient-guided attention for suppressing structural distortion
Wang et al. LSR: A light-weight super-resolution method
CN106780331B (zh) 一种新的基于邻域嵌入的超分辨率方法
Ren et al. Single image super-resolution reconstruction via combination mapping with sparse coding

Legal Events

Date Code Title Description
WITN Application deemed withdrawn, e.g. because no request for examination was filed or no examination fee was paid