KR101967089B1 - 컨볼루션 신경망 기반의 완전 기준 이미지 품질 평가 - Google Patents
컨볼루션 신경망 기반의 완전 기준 이미지 품질 평가 Download PDFInfo
- Publication number
- KR101967089B1 KR101967089B1 KR1020177034859A KR20177034859A KR101967089B1 KR 101967089 B1 KR101967089 B1 KR 101967089B1 KR 1020177034859 A KR1020177034859 A KR 1020177034859A KR 20177034859 A KR20177034859 A KR 20177034859A KR 101967089 B1 KR101967089 B1 KR 101967089B1
- Authority
- KR
- South Korea
- Prior art keywords
- image
- normalized
- reference image
- distorted
- similarity
- Prior art date
Links
- 238000013528 artificial neural network Methods 0.000 title claims description 9
- 238000013441 quality evaluation Methods 0.000 title description 2
- 238000000034 method Methods 0.000 claims abstract description 40
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 25
- 230000008569 process Effects 0.000 claims abstract description 5
- 238000012549 training Methods 0.000 claims description 17
- 238000012545 processing Methods 0.000 claims description 13
- 238000011176 pooling Methods 0.000 claims description 9
- 238000004364 calculation method Methods 0.000 claims description 7
- 230000004913 activation Effects 0.000 claims description 6
- 238000012417 linear regression Methods 0.000 claims description 5
- 238000010606 normalization Methods 0.000 claims description 3
- 238000013507 mapping Methods 0.000 claims 1
- 230000006870 function Effects 0.000 description 13
- 230000000007 visual effect Effects 0.000 description 6
- 230000008447 perception Effects 0.000 description 5
- 238000013459 approach Methods 0.000 description 4
- 238000004891 communication Methods 0.000 description 4
- 238000001303 quality assessment method Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 238000007689 inspection Methods 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000013442 quality metrics Methods 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 230000002301 combined effect Effects 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 230000000873 masking effect Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/0002—Inspection of images, e.g. flaw detection
- G06T7/0004—Industrial image inspection
- G06T7/001—Industrial image inspection using an image reference approach
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2413—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
- G06F18/24133—Distances to prototypes
- G06F18/24137—Distances to cluster centroïds
-
- G06K9/46—
-
- G06K9/6215—
-
- G06K9/66—
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G06T5/002—
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/70—Denoising; Smoothing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/0002—Inspection of images, e.g. flaw detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
- G06V10/443—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
- G06V10/449—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
- G06V10/451—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
- G06V10/454—Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/98—Detection or correction of errors, e.g. by rescanning the pattern or by human intervention; Evaluation of the quality of the acquired patterns
- G06V10/993—Evaluation of the quality of the acquired pattern
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/191—Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
- G06V30/19173—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/192—Recognition using electronic means using simultaneous comparisons or correlations of the image signals with a plurality of references
- G06V30/194—References adjustable by an adaptive method, e.g. learning
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N17/00—Diagnosis, testing or measuring for television systems or their details
- H04N17/004—Diagnosis, testing or measuring for television systems or their details for digital television systems
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/134—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
- H04N19/154—Measured or subjectively estimated visual quality after decoding, e.g. measurement of distortion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10004—Still image; Photographic image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20021—Dividing image into blocks, subimages or windows
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30168—Image quality inspection
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- General Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Quality & Reliability (AREA)
- Mathematical Physics (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Biodiversity & Conservation Biology (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
- Testing, Inspecting, Measuring Of Stereoscopic Televisions And Televisions (AREA)
Abstract
실시예들은 일반적으로 기준 이미지에 대한 왜곡 이미지의 이미지 품질을 평가하기 위한 시스템 및 방법을 제공하는 것에 관한 것이다. 일 실시예에서, 시스템은 왜곡 이미지 및 기준 이미지를 입력으로서 받아들이고 이미지 품질의 메트릭을 출력으로서 제공하는 컨볼루션 신경망(convolutional neural network)을 포함한다. 다른 실시예에서, 방법은 왜곡 이미지 및 기준 이미지를 처리하여 이미지 품질의 메트릭을 출력으로서 제공하도록 구성된 컨볼루션 신경망에 왜곡 이미지 및 기준 이미지를 입력하는 단계를 포함한다.
Description
관련 출원에 대한 상호 참조
본 출원은 2015년 6월 5일자로 출원되고 발명의 명칭이 "FULL REFERENCE IMAGE QUALITY ASSESSMENT BASED ON CONVOLUTIONAL NEURAL NETWORK"인 미국 특허 출원 제14/732,518호로부터 우선권을 주장하며, 이 미국 출원은 모든 목적을 위해 본 출원에 그 전체가 제시된 것처럼 참조에 의해 이로써 통합된다.
디지털 이미징 디바이스 및 통신 기술의 개발 및 보급으로 인해 정보 표현 및 통신을 위해 디지털 이미지가 점점 더 중요해지고 있다. 디지털 이미지의 수명 주기 동안, 다양한 단계에서 품질이 저하될 수 있으며 이러한 품질 저하는 후속 국면에서의 애플리케이션에서 오류를 유발할 수 있다. 따라서 수많은 이미지 및 비디오 처리 시스템에서 이미지 품질을 유지 및 모니터링하는 것이 중요한데, 이러한 이미지 품질 평가(IQA:Image Quality Assessment)의 주요 목표는 인간 관찰자에 의해 인식되는 시각적 품질의 예측이다. 이미지 품질 측도는 전송 속도와 같은 파라미터의 함수로서 인식된 왜곡의 의존성을 평가하고 또한 이미지 향상 방법의 최적 파라미터를 선택하기 위해 이용될 수 있다. 주관적인 검사가 IQA 실행을 위해 실험실 환경에서 수행될 수 있지만, 이러한 검사는 비용이 많이 들고 시간 소모적이므로 실시간 및 자동화 시스템에서 이용될 수 없다. 따라서, 이미지 품질을 자동으로 효율적으로 측정하기 위한 객관적인 IQA 메트릭을 개발할 가능성은 매우 중대한 관심사가 된다.
FR-IQA(Full-Reference IQA) 모델은 시각적 품질을 평가하기 위해 왜곡 이미지와 대응 원시 기준 이미지 모두로부터의 정보를 활용한다. MSE(Mean Squared Error) 또는 PSNR(Peak Signal-to-Noise Ratio)과 같은 기존 FR-IQA 메트릭은 공간 도메인에서 왜곡 이미지와 기준 이미지 사이의 픽셀별 차이를 직접 측정한다. 이러한 유형의 메트릭은 신호 충실도를 측정하지만 특히 잡음이 추가되지 않는 경우에는 종종 인간 인식과의 나쁜 상관 관계를 갖는다.
인간 인식과 더 잘 조화되는 지각적 시각적 품질 메트릭(PVQMs:perceptual visual quality metrics)을 개발하는 데 두 가지 유형의 접근법이 취해지는데, 상향식 및 하향식 접근법이다. 상향식 접근법은 콘트라스트 감도, 휘도 적응, 다양한 마스킹 효과 및 기타 등등을 포함한 관련 정신물리학적 및 생리적 특성을 시뮬레이팅하여 인간 시각적 시스템(HVS:human visual system)의 시각 경로에서의 다양한 처리 국면을 모델링하려고 시도한다. 그러나, 이러한 특성과 최종 인식에 대한 이들의 조합된 영향에 대한 제한된 지식을 고려할 때, HVS는 너무 복잡하여 이러한 방식으로 정확하게 모델링될 수 없다.
보다 최근의 연구 노력은 자연 이미지의 통계적 특성, 및 이미지 왜곡이 HVS에 의해 처리될 것 같은 방식에 대한 데이터와 같은 다양한 소스들로부터의 지식을 통합하여 입력/출력 관계를 모델링하는 하향식 프레임워크에 기울여지고 있다. 대부분의 최첨단 FR-IQA 방법이 이 범주에 속하며, SSIM(Structural SIMilarity) 인덱스 및 그 변형(MS-SSIM(Multi-Scale SSIM) 및 IW-SSIM(Information Weighted SSIM)을 포함함), FSIM(Feature SIMilarity) 인덱스 및 GMSD(Gradient Magnitude Similarity Deviation)와 같은 몇몇 방법은 어느 정도의 성공을 거두어서, 평균 강도, 강도의 표준 편차, 위상 일치(phase congruency) 및 기울기 크기와 같은 저 레벨 시각적 피처들이 효과적인 품질 표시자인 것을 제시하였다. 그러나, 이러한 저 레벨 단서들은 상이한 왜곡 범주에 걸쳐서 균일하게 잘 작동하지 않을 수 있다. 결과적으로, 대응 FR 측도의 성능은 상이한 타입의 왜곡에 따라 크게 변할 수 있다.
따라서, 상이한 타입의 왜곡들에 대해 인간 인식과 잘 조화될 뿐만 아니라 객관적이며, 측정 가능한 데이터에 의해 주도되고, 그리고 효율적인, 이미지 품질을 평가하는 개선된 방법이 필요하다. 컨볼루션 신경망(convNet:convolutional neural networks)을 이용하는 학습 기반 접근법을 적용하기 위한 몇몇 노력이 있었지만, 이는 기준 이미지가 품질 추정에 이용 가능하지 않은 상황에, 즉 비-기준 IQA(NR-IQA)를 위한 것에 제한되었다. 따라서, FR-IQA에 대한 그러한 방법의 적용을 탐구하고 개발해야 할 필요가 있는데, 여기서는 기준 및 왜곡 이미지들의 대응하는 쌍이 분석에 이용 가능하다.
실시예들은 일반적으로 기준 이미지에 대한 왜곡 이미지의 이미지 품질을 평가하기 위한 시스템 및 방법을 제공하는 것에 관한 것이다. 일 실시예에서, 시스템은 왜곡 이미지 및 기준 이미지를 입력으로서 받아들이고 이미지 품질의 메트릭을 출력으로서 제공하는 컨볼루션 신경망(convolutional neural network)을 포함한다. 다른 실시예에서, 방법은 왜곡 이미지 및 기준 이미지를 처리하여 이미지 품질의 메트릭을 출력으로서 제공하도록 구성된 컨볼루션 신경망에 왜곡 이미지 및 기준 이미지를 입력하는 단계를 포함한다.
또 다른 실시예에서, 기준 이미지에 대한 왜곡 이미지의 이미지 품질을 평가하기 위해 컨볼루션 신경망을 훈련하기 위한 방법이 제공된다. 방법은 컨볼루션 신경망에 대한 네트워크 파라미터들의 현재 세트로서 네트워크 파라미터들의 초기 세트를 선택하는 단계; 각각의 쌍이 왜곡 이미지 및 대응하는 기준 이미지로 이루어진 복수의 이미지 쌍 각각에 대해, 컨볼루션 신경망을 통해 이미지 쌍을 처리하여 계산된 유사도 점수 메트릭 Sc를 제공하는 단계; 및 쌍에 대한 왜곡 점수 메트릭 S 및 예상 유사도 점수 메트릭 Sp의 비교에 기초하여 네트워크 파라미터들의 현재 세트의 네트워크 파라미터들 중 하나 이상을 조정하는 단계를 포함하고, 예상 유사도 점수 메트릭 Sp는 인간 인식에 의해 제공된다.
본 명세서에 개시된 특정 실시예의 본질 및 이점에 대한 추가의 이해는 본 명세서의 나머지 부분 및 첨부된 도면을 참조함으로써 실현될 수 있다.
도 1은 일 실시예에 따라 기준 이미지에 대한 왜곡 이미지의 이미지 품질을 평가하기 위한 시스템의 이용을 개략적으로 도시한다.
도 2는 일 실시예에 따라 기준 이미지에 대한 왜곡 이미지의 이미지 품질을 평가하기 위한 시스템의 아키텍처를 도시한다.
도 3은 기준 이미지에 대한 왜곡 이미지의 이미지 품질을 평가하기 위한 계층화된 시스템의 일 구현을 도시한다.
도 4는 일 실시예에 따라 기준 이미지에 대한 왜곡 이미지의 이미지 품질을 평가하는 방법의 단계들을 도시하는 흐름도이다.
도 5는 일 실시예에 따라 기준 이미지에 대한 왜곡 이미지의 이미지 품질을 평가하기 위해 컨볼루션 신경망을 훈련하는 방법을 도시한다.
도 6은 일 실시예에 따라 기준 이미지에 대한 왜곡 이미지의 이미지 품질을 평가하기 위해 컨볼루션 신경망을 훈련하는 방법의 단계들을 도시하는 흐름도이다.
도 2는 일 실시예에 따라 기준 이미지에 대한 왜곡 이미지의 이미지 품질을 평가하기 위한 시스템의 아키텍처를 도시한다.
도 3은 기준 이미지에 대한 왜곡 이미지의 이미지 품질을 평가하기 위한 계층화된 시스템의 일 구현을 도시한다.
도 4는 일 실시예에 따라 기준 이미지에 대한 왜곡 이미지의 이미지 품질을 평가하는 방법의 단계들을 도시하는 흐름도이다.
도 5는 일 실시예에 따라 기준 이미지에 대한 왜곡 이미지의 이미지 품질을 평가하기 위해 컨볼루션 신경망을 훈련하는 방법을 도시한다.
도 6은 일 실시예에 따라 기준 이미지에 대한 왜곡 이미지의 이미지 품질을 평가하기 위해 컨볼루션 신경망을 훈련하는 방법의 단계들을 도시하는 흐름도이다.
도 1은 일 실시예에 따라 기준 이미지(104)에 대해 왜곡 이미지(102)의 이미지 품질을 평가하기 위한 시스템(100)의 이용을 개략적으로 도시한다. 시스템(100)은 훈련된 FR-IQA 모델을 구체화하고, 도 2를 참조하여 이하에서 추가로 설명되는 상호 연결된 모듈들 또는 계층들의 네트워크를 포함한다. 각각의 왜곡 이미지(102) 및 기준 이미지(104)로부터의 이미지 데이터는 시스템(100)에 공급되며, 시스템은 다음 차례로 인간 관찰자에 의해 인식될 가능성이 있는 왜곡 이미지(102)의 품질을 나타내는 출력 메트릭(106)을 생성한다.
도 2는 일 실시예에 따라 기준 이미지(214)에 대한 왜곡 이미지(212)의 이미지 품질을 평가하는데 이용될 수 있는 시스템(200)의 아키텍처의 개략도를 도시한다. 시스템(200)은 복수의 계층(201 내지 207)을 포함한다. 시스템(200)을 2단 시스템으로 고려하는 것이 도움이 될 수 있는데, 여기서 제1 단은 계층들(201 내지 205)로 구성되어, 제2 단인 계층들(206 및 207)에 데이터를 집합적으로 제공하게 된다. 제2 단은 "표준" 신경망으로 생각될 수 있는 한편, 제1 단과 제2 단의 조합은 시스템(200)을 컨볼루션 신경망으로 만든다.
왜곡 이미지(212) 및 기준 이미지(214)로부터의 이미지 데이터는 입력 계층(201)에 공급되고, 이 입력 계층은 양 세트의 이미지 데이터를 정규화하도록 동작하여, 정규화된 왜곡 이미지 및 정규화된 기준 이미지를 제공한다. 정규화된 왜곡 이미지 및 기준 이미지로부터의 이미지 데이터는 컨볼루션 계층(convolution layer)(202)에 공급되고, 이 컨볼루션 계층은 복수의 N1 필터로 정규화된 왜곡 이미지 및 정규화된 기준 이미지의 각각을 컨볼루션하도록 작용하고, 또한 각각의 이미지의 각각의 픽셀에 제곱 활성화 함수(squared activation function)를 적용하여 N1 쌍의 피처 맵을 제공한다. 각각의 쌍의 피처 맵은 하나의 필터링되고 정규화된 왜곡 이미지 및 하나의 대응하여 필터링되고 정규화된 기준 이미지를 포함한다.
N1 쌍의 피처 맵으로부터의 이미지 데이터는 선형 조합 계층(203)에 공급되는데, 이 선형 조합 계층은 왜곡 이미지(212)에 대응하는 N1 피처 맵의 N2 선형 조합과 기준 이미지(214)에 대응하는 N1 피처 맵의 N2 선형 조합을 계산하여, N2 쌍의 조합된 피처 맵을 제공한다. 각각의 쌍의 조합된 피처 맵은 필터링되고 정규화된 왜곡 이미지들의 하나의 조합 및 필터링되고 정규화된 기준 이미지들의 하나의 대응 조합을 포함한다.
유사도 계산 계층(204)은 N2 유사도 맵을 계산하기 위해 선형 조합 계층(203)으로부터 수신된 N2 쌍의 조합된 피처 맵으로부터의 데이터에 작용한다. 각각의 유사도 맵은 한 쌍의 조합된 피처 맵으로부터의 픽셀들의 대응하는 패치들로부터의 데이터에 기초하여 계산되고, 각각의 유사도 맵은 N2 쌍의 조합된 피처 맵 중 상이한 것에 대응한다.
유사도 맵들로부터의 데이터는 풀링 계층(205)에 공급되고, 이 풀링 계층은 N2 유사도 입력 값을 제공하기 위해 각각의 N2 유사도 맵에 대한 평균 풀링(average pooling)을 적용한다. N2 유사도 입력 값은 완전 연결 계층(206)으로 공급되며, 이 완전 연결 계층은 M의 숨겨진 노드 값을 제공하기 위해 N2 유사도 입력 값에 대해 작용하며, 여기서 M은 N2보다 더 큰 정수이다. M의 숨겨진 노드 값은 선형 회귀 계층(linear regression layer)(207)에 의해 단일 출력 노드에 매핑된다. 출력 노드에서의 값은, 시스템(200)의 훈련에 기초하여, 인간 관찰자에 의해 인식될 가능성이 있는 왜곡 이미지(202)의 품질을 나타내는 이미지 품질의 메트릭이다.
신경망(200)의 몇몇 하이퍼 파라미터(hyper-parameter)는 특정 이미지 평가 애플리케이션에 적합한 특정의 상이한 아키텍처 또는 구현을 결정하도록 선택될 수 있다. 그 하나는 오리지날 왜곡 및 기준 이미지들에 있는 픽셀의 패치 크기이다. 다른 하이퍼 파라미터는 컨볼루션 계층에서 이용되는 필터의 크기(픽셀 수를 기준으로 함), 컨볼루션 계층에서 이용되는 필터의 수 N1, 컨볼루션 계층에서 이용되는 활성화 함수, 선형 조합 계층에서 계산되는 선형 조합의 수 N2, 완전 연결 계층에서의 숨겨진 노드의 수 M, 및 유사도 계산 계층에서 유사도를 계산하는 데 이용된 수식을 포함한다. 또한, 일부 실시예에서, 둘 이상의 컨볼루션 계층, 둘 이상의 선형 조합 계층, 및 둘 이상의 완전 연결 계층이 있을 수 있다; 이용된 제각기 숫자는 추가 하이퍼 파라미터이다.
이미지 품질 평가를 수행하기에 적합한 것으로 발견된 컨볼루션 신경망의 하나의 특정 구현은 도 3에 도시되어 있으며, 32x32-7x7x10-1 x 1 x 10 -800-1 구조를 보여준다. 각각의 계층의 세부 사항은 다음과 같이 설명된다:
입력 계층은 2 32x32 그레이 스케일 이미지 패치로 구성된다: 왜곡 이미지 패치 및 그 기준 패치 . 양 패치는 선형 변환 함수 f(x) =(x - 128)/128 * 1.6을 통해 정규화된다.
컨볼루션 계층에서 10 7 x 7 선형 필터 가 왜곡 및 이미지 패치에 적용되어 왜곡 및 기준 이미지 제각기에 대해 필터링된 피처 맵 및 을 제공하는데, 여기서 및 이다. 다른 실시예들에서, 관심 있는 저 레벨 피처들의 최소 크기에 의존하여, 7x7보다 작거나 큰 필터들이 이용될 수 있다. 유사하게, 일부 실시예에서, 관련된 왜곡의 복잡성에 의존하여, 10개보다 적거나 많은 필터가 이용될 수 있다. 제곱 활성화 함수는 이 계층에서의 각각의 이미지 패치의 각각의 픽셀에 적용된다.
선형 조합 계층에서, 컨볼루션 계층에 의해 생성된 필터링된 피처 맵들의 선형 조합이 계산된다.
유사도 계산 계층에서, 유사도는 대응하는 왜곡 및 기준 패치들로부터의 조합된 피처 맵들 사이의 포인트별 방식(즉, 픽셀별 방식)으로 계산된다.
풀링 계층에서 각각의 유사도 맵에 대해 평균 풀링이 적용된다. 풀링 계층의 출력을 로 표시하면, 따라서, 이다. 풀링 계층은 완전 연결 계층에 대한 입력들로서 10-dim 풀링된 유사도를 제공한다. 컨볼루션 계층에서 10개가 넘는 필터가 이용되어 10개가 넘는 필터링된 피처 맵을 생성하고, 등등과 같은 경우, 풀링된 유사도 입력에 대한 상응하는 더 큰 차원이 있게 된다.
완전 연결 계층에서, 800개의 숨겨진 노드에 입력 유사도 및 밀집 연결되어 있다. ReLU(Rectified Linear Unit)(f(x) = max(x, 0))는 숨겨진 노드상의 활성화 함수로서 이용된다. 완전 연결 계층의 가중치를 로 표시하면 완전 연결 계층의 출력은 다음과 같다
일부 실시예에서, 활성화 함수는 다른 비선형 연산을 포함할 수 있음에 유의해야 한다.
도 4는 일 실시예에 따라 기준 이미지에 대해 왜곡 이미지의 이미지 품질을 평가하는 방법(400)의 단계들을 도시하는 흐름도이다. 단계(402)에서, (예를 들어, 왜곡 및 기준 비디오 스트림으로부터의 대응하는 프레임들일 수 있는) 왜곡 이미지 및 기준 이미지가 훈련된 컨볼루션 신경망에 대한 입력들로서 수신된다. 단계(404)에서, 왜곡 및 기준 이미지들은 훈련된 컨볼루션 신경망을 통해 처리된다. 단계(406)에서, 왜곡 및 기준 이미지들에 대해 작용하는 훈련된 신경망의 출력은 왜곡 이미지의 이미지 품질의 메트릭으로서 제공된다.
도 5는 일 실시예에 따라 기준 이미지에 대한 왜곡 이미지의 이미지 품질을 평가하기 위해 컨볼루션 신경망 모델(500)을 훈련하는 방법을 도시한다. 모델에 대해 네트워크 파라미터의 초기 세트가 선택되고, 인간 관찰자에 의해 결정되는, 예상되거나 예측된 유사도 점수 메트릭 S를 갖는 대응하는 한 쌍의 대응하는 왜곡(502) 및 기준(504) 이미지들이 네트워크에 대한 입력으로서 제공된다. 네트워크에 의해 제공된 유사도 점수 메트릭 S'은 비용 모듈(506)에서 예측된 점수 메트릭 S와 비교되고, 모델(500)의 하나 이상의 파라미터는 그 비교에 응답하여 조정되어 모델을 업데이트한다. 제2 쌍의 왜곡 및 기준 이미지들이 이후 조정된 파라미터를 이용하여 네트워크(500)를 통해 처리되고, 생성된 제2 점수 메트릭과 이 제2 쌍에 대해 예상되는 점수 메트릭 사이의 비교가 행해지고, 응답으로 추가 조정이 이루어질 수 있다. 이 처리는 최종 모델 파라미터가 설정되고 모델 네트워크가 훈련된 것으로 간주될 때까지 이용 가능한 훈련 이미지 쌍들의 세트에 대해 원하는 대로 반복된다.
도 6은 일 실시예에 따라 기준 이미지에 대한 왜곡 이미지의 이미지 품질을 평가하기 위해 컨볼루션 신경망을 훈련하는 방법(600)의 단계들을 도시하는 흐름도이다. 단계(606)에서, 한 쌍의 왜곡 및 기준 이미지들(이용 가능한 총 T 개의 쌍 중 i번째 쌍)이 수신되어 네트워크에 입력되며, 이전에 선택된 파라미터들의 세트에 의해 특징지어진다. 단계(604)에서, 왜곡 및 기준 이미지들은 네트워크를 통해 처리된다. 단계(606)에서, 네트워크 파라미터들은 컨볼루션 신경망에 의해 계산된 출력 유사도 점수 Sc와 인간 관찰자에 의해 인식되는 대로의 해당 이미지 쌍에 대해 예측된 유사도 점수 메트릭 Sp 사이의 비교에 따라 목적 함수(objective function)를 이용하여 조절된다. 단계(608)에서, 아직 처리되지 않은 다른 훈련 이미지들의 쌍들이 이용 가능한지가 결정된다. 만약 그렇다면, 하나의 이러한 쌍은 단계(602 및 604)를 통해 처리되고, 네트워크 파라미터는 단계(606)에서 추가 조정되고, 단계(608)에서 모든 훈련 이미지 쌍이 처리되었는지에 대한 추가 결정이 이루어진다. 단계(608)에서 모든 훈련 이미지가 처리되었다고 결정될 때, 신경망은 훈련된 것으로 간주될 수 있다. 몇몇 경우에, 훈련 이미지들은 네트워크에 두 번 이상 공급되어 훈련을 향상시킬 수 있다. 훈련 이미지들이 처리되는 순서는 무작위일 수 있다.
일 실시예에서, 모델 파라미터가 방법(600)의 단계(606)에서 조정되는 방법을 정확하게 결정할 때에 있어서, 네트워크를 훈련하는데 이용되는 목적 함수는, 예를 들어 표준 (support vector regression)에서 이용된 것과 동일하다. 는 입력 패치의 쌍을 표시하며, 은 계산된 유사도 점수 메트릭(대안적으로 보조(ground truth) 품질 점수라 불림)을 표시하며, 는 네트워크 파라미터 W를 갖는 입력 쌍들에 대한 예측된 유사도 점수 메트릭을 나타낼 때, 목적 함수는 다음과 같이 쓸 수 있다:
여기서 는 조정될 수 있는 작은 양의 상수이고 n은 훈련 샘플의 수이다. 확률적 경사 하강법(SGD:Stochastic Gradient Descent)을 이용하여 역 전파(back-propagation)를 수행함으로써 네트워크가 훈련될 수 있다.
정규화 방법(regularization method)은 신경망을 과도하게 훈련시키는 것을 피하기 위해 이용될 수 있다. 일 실시예에서, 정규화 방법은 목적 함수에서의 선형 회귀 계층에서 가중치의 L2 놈(norm)을 추가하는 것을 수반한다. 이것은 예를 들어 SVM(support vector machine)에서 이용된, 정규화를 위해 널리 이용되는 방법이다. 특히 목적 함수는 다음과 같이 수정될 수 있다:
일부 실시예에서, 선형 조합 계층에서의 입력 노드들 및 출력 노드들의 연결은 제약을 받으며, 따라서 대부분의 출력 노드는 (예를 들어, N1 = 10인 경우에 모든 10개의 입력 노드 대신에) 작은 세트의 입력 노드와만 연결된다. 이 제약은 스파스 바이너리 마스크(sparse binary mask) 를 추가함으로써 구현될 수 있는데, 여기서 인 경우, 가 0이어야만 하는 것을 강제한다. 연결 패턴은 무작위로 선택될 수 있다. 하나의 특정 실시예에서 유용한 것으로 발견된 마스크는 다음과 같이 정의된다:
본 명세서에 기술된 실시예는 다양한 이점을 제공한다. 특히, 실시예는 실시간 및 자동화된 시스템에서 용이하게 구현되고 또한 상이한 왜곡 타입에 걸쳐서 인간 인식과 잘 조화되는 결과를 산출하는 시스템 및 방법을 이용하여 기준 및 왜곡 이미지들의 대응하는 쌍이 분석에 이용 가능한 애플리케이션에서 이미지 품질이 평가될 수 있게 한다. 본 발명은 한 쌍의 기준 및 왜곡 이미지들을 입력으로서 받아들이고 의미있는 이미지 품질 메트릭을 출력으로서 제공하는, 자동 이미지 품질 평가를 위한 "철저한(end-to-end)" 솔루션을 제공한다.
설명이 특정 실시예와 관련하여 설명되었지만, 이들 특정 실시예는 단지 예시적인 것이며 제한적이지 않다.
C, C ++, Java, 어셈블리 언어 등을 포함하는 임의의 적절한 프로그래밍 언어가 특정 실시예의 루틴을 구현하는데 이용될 수 있다. 절차적 또는 객체 지향과 같은 상이한 프로그래밍 기술이 이용될 수 있다. 루틴은 단일 처리 디바이스 또는 다중 프로세서상에서 실행될 수 있다. 단계, 동작 또는 계산이 특정 순서로 제시될 수 있지만, 이 순서는 상이한 특정 실시예들에서 변경될 수 있다. 일부 특정 실시예들에서, 본 명세서에서 순차적으로 도시된 다수의 단계들은 동시에 수행될 수 있다.
특정 실시예는 명령어 실행 시스템, 장치, 시스템 또는 디바이스에 의한 이용을 위한 또는 그와 연계된 컴퓨터 판독 가능 스토리지 매체에 구현될 수 있다. 특정 실시예는 소프트웨어 또는 하드웨어의 제어 로직 또는 이들의 조합의 형태로 구현될 수 있다. 제어 로직은 하나 이상의 프로세서에 의해 실행될 때, 특정 실시예에서 설명된 것을 수행하도록 동작할 수 있다.
특정 실시예는 프로그램된 범용 디지털 컴퓨터를 이용함으로써, 주문형 집적 회로, 프로그램 가능 로직 디바이스, 필드 프로그램 가능 게이트 어레이를 이용함으로써 구현될 수 있다. 광학, 화학, 생물학, 양자 또는 나노 공학 시스템, 컴포넌트 및 메커니즘이 이용될 수 있다. 일반적으로, 특정 실시예의 기능은 본 기술 분야에 공지된 임의의 수단에 의해 달성될 수 있다. 분산 네트워크 시스템, 컴포넌트 및/또는 회로를 이용할 수 있다. 데이터의 통신 또는 전송은 유선, 무선 또는 기타 수단으로 이루어질 수 있다.
또한, 도면들/그림들에 묘사된 하나 이상의 요소들은, 특정 애플리케이션에 따라 유용할 수 있는 바와 같이, 더 분리되거나 통합된 방식으로 또한 구현될 수 있거나, 또는 심지어 제거되거나 특정 경우에 실행할 수 없는 것으로 취급될 수 있다는 것을 알 것이다. 컴퓨터가 상기한 방법들 중 임의의 것을 수행할 수 있도록 하기 위해 머신 판독 가능 매체에 저장될 수 있는 프로그램 또는 코드를 구현하는 것은 또한 본 사상 및 범위 내에 있다.
"프로세서"는 데이터, 신호 또는 기타 정보를 처리하는 임의의 적절한 하드웨어 및/또는 소프트웨어 시스템, 메커니즘 또는 컴포넌트를 포함한다. 프로세서는 범용 중앙 처리 장치, 다중 처리 장치, 기능을 달성하기 위한 전용 회로, 또는 다른 시스템을 구비한 시스템을 포함할 수 있다. 처리는 지리적 위치에 제한될 필요가 없거나 또는 일시적인 제한을 갖는다. 예를 들어 프로세서는 "실시간", "오프라인", "배치 모드" 등으로 그 기능을 수행할 수 있다. 처리의 부분들은 상이한(또는 동일한) 처리 시스템에 의해 상이한 시간에 및 상이한 위치에서 수행될 수 있다. 처리 시스템의 예는 서버, 클라이언트, 최종 이용자 디바이스, 라우터, 스위치, 네트워킹된 스토리지 등을 포함할 수 있다. 컴퓨터는 메모리와 통신 상태에 있는 임의의 프로세서일 수 있다. 메모리는 랜덤 액세스 메모리(RAM), 판독 전용 메모리(ROM), 자기 또는 광학 디스크, 또는 프로세서에 의한 실행을 위한 명령어들을 저장하기에 적합한 다른 유형의 매체와 같은 임의의 적절한 프로세서 판독 가능 스토리지 매체일 수 있다.
본 명세서의 설명 및 후속하는 청구범위를 통해 이용된 바와 같이, 단수 표현은 문맥상 명확하게 달리 지시하지 않는 한 복수 표현을 포함한다. 또한, 본 명세서의 설명 및 후속하는 청구범위에 이용된 바와 같이, "내의((in)"의 의미는 문맥에 따라 달리 명시하지 않는 한 "내의(in)" 및 "상에(on)"를 포함한다.
따라서, 특정 실시예가 본 명세서에 설명되었지만, 수정, 다양한 변경 및 대체의 범위가 전술한 개시에서 의도된 것이고, 어떤 경우에는 특정 실시예의 몇몇 특징이 명시된 범위와 정신에서 벗어나지 않고 다른 특징의 상응하는 이용 없이 채택될 것이라는 것을 알 것이다. 따라서, 특정 상황 또는 재료를 본질적인 범위 및 정신에 적응시키기 위해 많은 수정이 가해질 수 있다.
Claims (18)
- 기준 이미지에 대한 왜곡 이미지의 이미지 품질을 평가하기 위한 시스템으로서,
프로세서; 및
상기 프로세서 상에서 컨볼루션 신경망(convolutional neural network)을 구현하도록 실행 가능한 프로그램이 기록된 컴퓨터 판독 가능 스토리지 매체를 포함하고,
상기 컨볼루션 신경망은, 상기 왜곡 이미지 및 상기 기준 이미지를 입력으로서 받아들이고 이미지 품질의 메트릭을 출력으로서 제공하고,
상기 컨볼루션 신경망은 복수의 계층을 포함하고,
상기 복수의 계층은:
상기 왜곡 이미지 및 상기 기준 이미지 각각을 구성하는 이미지 패치들에 정규화 함수를 적용하여 정규화된 왜곡 이미지 및 정규화된 기준 이미지를 제공하도록 구성되는 입력 계층; 및
상기 정규화된 왜곡 이미지 및 상기 정규화된 기준 이미지 각각을 N1 필터와 컨볼루션하여 N1 쌍의 피처 맵을 제공하도록 구성되는 컨볼루션 계층 - 각각의 쌍은 하나의 필터링되고 정규화된 왜곡 이미지 및 하나의 대응하여 필터링되고 정규화된 기준 이미지를 포함하며, N1은 1보다 더 큰 정수임- 을 포함하는, 시스템. - 삭제
- 삭제
- 제1항에 있어서, 상기 복수의 계층은:
상기 정규화된 왜곡 이미지 및 상기 정규화된 기준 이미지 각각으로부터 제공된 N1 피처 맵의 N2 선형 조합을 계산하여, N2 쌍의 조합된 피처 맵을 제공하도록 구성되는 선형 조합 계층 - 각각의 쌍은 필터링되고 정규화된 왜곡 이미지들의 하나의 조합 및 필터링되고 정규화된 기준 이미지들의 하나의 대응 조합을 포함하고, N2는 1보다 더 큰 정수임 -;
N2 유사도 맵을 계산하도록 구성되는 유사도 계산 계층 - 각각의 유사도 맵은 N2 쌍의 조합된 피처 맵 중 상이한 것으로부터의 대응 픽셀들에 기초함 -; 및
상기 N2 유사도 맵의 각각에 대한 평균 풀링을 적용하여 N2 유사도 입력 값을 제공하도록 구성되는 풀링 계층을 포함하는 시스템. - 제4항에 있어서, 상기 복수의 계층은:
M 숨겨진 노드 값을 제공하기 위해 상기 N2 유사도 입력 값에 작용하도록 구성되는 완전 연결 계층 - M은 N2보다 더 큰 정수임-; 및
상기 M 숨겨진 노드 값을 단일 출력 노드에 매핑하여 상기 이미지 품질의 메트릭을 제공하도록 구성되는 선형 회귀 계층을 포함하는, 시스템. - 제5항에 있어서, N1 = N2이고 및 N1 = 10인, 시스템.
- 제5항에 있어서, M = 800인, 시스템.
- 제1항에 있어서, 상기 N1 쌍의 피처 맵이 상기 컨볼루션 계층에 의해 상기 복수의 계층 중 임의의 후속 계층에 제공되기 전에, 제곱 활성화 함수가 상기 N1 쌍의 피처 맵의 각각의 노드에 적용되는, 시스템.
- 기준 이미지에 대한 왜곡 이미지의 이미지 품질을 평가하는 방법으로서:
상기 왜곡 이미지 및 상기 기준 이미지를 처리하여 이미지 품질의 메트릭을 출력으로서 제공하도록 구성되는 컨볼루션 신경망에 상기 왜곡 이미지 및 상기 기준 이미지를 입력하는 단계를 포함하고,
상기 컨볼루션 신경망에 의해 수행되는 처리는:
상기 왜곡 이미지 및 상기 기준 이미지 각각을 구성하는 이미지 패치들에 정규화 함수를 적용하여 정규화된 왜곡 이미지 및 정규화된 기준 이미지를 제공하는 단계; 및
상기 정규화된 왜곡 이미지 및 상기 정규화된 기준 이미지 각각을 N1 필터와 컨볼루션하여 N1 쌍의 피처 맵을 제공하는 단계 - 각각의 쌍은 하나의 필터링되고 정규화된 왜곡 이미지 및 하나의 대응하여 필터링되고 정규화된 기준 이미지를 포함하며, N1은 1보다 더 큰 정수임- 를 포함하는 방법. - 삭제
- 제9항에 있어서,
상기 정규화된 왜곡 이미지 및 상기 정규화된 기준 이미지 각각으로부터 제공되는 N1 피처 맵의 N2 선형 조합을 계산하여, N2 쌍의 조합된 피처 맵을 제공하는 단계 - 각각의 쌍은 필터링되고 정규화된 왜곡 이미지들의 하나의 조합 및 필터링되고 정규화된 기준 이미지들의 하나의 대응 조합을 포함함 -;
N2 유사도 맵을 계산하는 단계 - 각각의 유사도 맵은 상기 N2 쌍의 조합된 피처 맵 중 상이한 것으로부터의 대응 픽셀들에 기초함 -; 및
상기 N2 유사도 맵의 각각에 대한 평균 풀링을 적용하여 N2 유사도 입력 값을 제공하는 단계를 추가로 포함하는 방법. - 제11항에 있어서,
완전 연결 계층에 상기 N2 유사도 입력 값을 입력하여 M 숨겨진 노드 값을 제공하는 단계 - M은 N2보다 더 큰 정수임 -; 및
회귀 계층을 통해 상기 M 숨겨진 노드 값을 매핑하여 상기 이미지 품질의 메트릭을 제공하는 단계를 추가로 포함하는 방법. - 제12항에 있어서, M = 800인, 방법.
- 기준 이미지에 대한 왜곡 이미지의 이미지 품질을 평가하기 위해 컨볼루션 신경망을 훈련하는 방법으로서:
상기 컨볼루션 신경망에 대한 네트워크 파라미터들의 현재 세트로서 네트워크 파라미터들의 초기 세트를 선택하는 단계;
각각의 쌍이 왜곡 이미지 및 대응 기준 이미지로 이루어진 복수의 이미지 쌍 각각에 대해, 상기 컨볼루션 신경망을 통해 상기 이미지 쌍을 처리하여 계산된 유사도 점수 메트릭 Sc를 제공하는 단계; 및
상기 쌍에 대한 왜곡 점수 메트릭 S 및 예상 유사도 점수 메트릭 Sp의 비교에 기초하여 상기 네트워크 파라미터들의 현재 세트의 네트워크 파라미터들 중 하나 이상을 조정하는 단계를 포함하고,
상기 예상 유사도 점수 메트릭 Sp는 인간 인식에 의해 제공되는, 방법. - 제14항에 있어서, 확률적 경사 하강법(SGD:Stochastic Gradient Descent)을 이용하여 역 전파를 수행하는 단계를 추가로 포함하는 방법.
- 제14항에 있어서, 상기 컨볼루션 신경망을 통해 상기 이미지 쌍을 처리하는 것은 조합된 피처 맵들을 제공하기 위해 왜곡된 기준 이미지들의 각각의 쌍으로부터 생성된 피처 맵들의 선형 조합들을 계산하는 것을 포함하고, 상기 선형 조합들을 계산하는 것은 스파스 바이너리 마스크(sparse binary mask)를 이용하여 상기 계산에 입력된 상기 피처 맵들과 상기 계산으로부터 출력된 상기 조합된 피처 맵들 사이의 연결들을 제한하는 것을 포함하는, 방법.
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US14/732,518 US9741107B2 (en) | 2015-06-05 | 2015-06-05 | Full reference image quality assessment based on convolutional neural network |
US14/732,518 | 2015-06-05 | ||
PCT/US2016/035868 WO2016197026A1 (en) | 2015-06-05 | 2016-06-03 | Full reference image quality assessment based on convolutional neural network |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20180004208A KR20180004208A (ko) | 2018-01-10 |
KR101967089B1 true KR101967089B1 (ko) | 2019-04-08 |
Family
ID=57441857
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020177034859A KR101967089B1 (ko) | 2015-06-05 | 2016-06-03 | 컨볼루션 신경망 기반의 완전 기준 이미지 품질 평가 |
Country Status (6)
Country | Link |
---|---|
US (1) | US9741107B2 (ko) |
EP (1) | EP3292512B1 (ko) |
JP (1) | JP6544543B2 (ko) |
KR (1) | KR101967089B1 (ko) |
CN (1) | CN107636690B (ko) |
WO (1) | WO2016197026A1 (ko) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023090569A1 (ko) * | 2021-11-19 | 2023-05-25 | 삼성전자 주식회사 | 영상 처리 장치 및 그 동작 방법 |
Families Citing this family (84)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11263432B2 (en) * | 2015-02-06 | 2022-03-01 | Veridium Ip Limited | Systems and methods for performing fingerprint based user authentication using imagery captured using mobile devices |
US9734567B2 (en) * | 2015-06-24 | 2017-08-15 | Samsung Electronics Co., Ltd. | Label-free non-reference image quality assessment via deep neural network |
US10410330B2 (en) * | 2015-11-12 | 2019-09-10 | University Of Virginia Patent Foundation | System and method for comparison-based image quality assessment |
US10356343B2 (en) * | 2016-03-18 | 2019-07-16 | Raytheon Company | Methods and system for geometric distortion correction for space-based rolling-shutter framing sensors |
US10043254B2 (en) | 2016-04-14 | 2018-08-07 | Microsoft Technology Licensing, Llc | Optimal image transformation based on professionalism score of subject |
US10043240B2 (en) | 2016-04-14 | 2018-08-07 | Microsoft Technology Licensing, Llc | Optimal cropping of digital image based on professionalism score of subject |
US9904871B2 (en) * | 2016-04-14 | 2018-02-27 | Microsoft Technologies Licensing, LLC | Deep convolutional neural network prediction of image professionalism |
WO2018033137A1 (zh) * | 2016-08-19 | 2018-02-22 | 北京市商汤科技开发有限公司 | 在视频图像中展示业务对象的方法、装置和电子设备 |
US10360494B2 (en) * | 2016-11-30 | 2019-07-23 | Altumview Systems Inc. | Convolutional neural network (CNN) system based on resolution-limited small-scale CNN modules |
US10798387B2 (en) * | 2016-12-12 | 2020-10-06 | Netflix, Inc. | Source-consistent techniques for predicting absolute perceptual video quality |
US11113800B2 (en) * | 2017-01-18 | 2021-09-07 | Nvidia Corporation | Filtering image data using a neural network |
US11537869B2 (en) * | 2017-02-17 | 2022-12-27 | Twitter, Inc. | Difference metric for machine learning-based processing systems |
US11620482B2 (en) | 2017-02-23 | 2023-04-04 | Nokia Technologies Oy | Collaborative activation for deep learning field |
CN106920215B (zh) * | 2017-03-06 | 2020-03-27 | 长沙全度影像科技有限公司 | 一种全景图像配准效果的检测方法 |
CN108304755B (zh) * | 2017-03-08 | 2021-05-18 | 腾讯科技(深圳)有限公司 | 用于图像处理的神经网络模型的训练方法和装置 |
CN107103331B (zh) * | 2017-04-01 | 2020-06-16 | 中北大学 | 一种基于深度学习的图像融合方法 |
WO2018186991A1 (en) * | 2017-04-04 | 2018-10-11 | Board Of Regents, The University Of Texas System | Assessing quality of images or videos using a two-stage quality assessment |
US10699160B2 (en) * | 2017-08-23 | 2020-06-30 | Samsung Electronics Co., Ltd. | Neural network method and apparatus |
CN107644415B (zh) * | 2017-09-08 | 2019-02-22 | 众安信息技术服务有限公司 | 一种文本图像质量评估方法及设备 |
CN107705299B (zh) * | 2017-09-25 | 2021-05-14 | 安徽睿极智能科技有限公司 | 基于多属性特征的图像质量分类方法 |
CN107679490B (zh) * | 2017-09-29 | 2019-06-28 | 百度在线网络技术(北京)有限公司 | 用于检测图像质量的方法和装置 |
US10540589B2 (en) * | 2017-10-24 | 2020-01-21 | Deep North, Inc. | Image quality assessment using similar scenes as reference |
CN108171256A (zh) * | 2017-11-27 | 2018-06-15 | 深圳市深网视界科技有限公司 | 人脸图像质评模型构建、筛选、识别方法及设备和介质 |
US10740659B2 (en) * | 2017-12-14 | 2020-08-11 | International Business Machines Corporation | Fusing sparse kernels to approximate a full kernel of a convolutional neural network |
CN108074239B (zh) * | 2017-12-30 | 2021-12-17 | 中国传媒大学 | 一种基于先验感知质量特征图的无参考图像质量客观评价方法 |
CN108335289A (zh) * | 2018-01-18 | 2018-07-27 | 天津大学 | 一种全参考融合的图像客观质量评价方法 |
US10887602B2 (en) | 2018-02-07 | 2021-01-05 | Netflix, Inc. | Techniques for modeling temporal distortions when predicting perceptual video quality |
US10721477B2 (en) * | 2018-02-07 | 2020-07-21 | Netflix, Inc. | Techniques for predicting perceptual video quality based on complementary perceptual quality models |
CN108389192A (zh) * | 2018-02-11 | 2018-08-10 | 天津大学 | 基于卷积神经网络的立体图像舒适度评价方法 |
US11216698B2 (en) * | 2018-02-16 | 2022-01-04 | Spirent Communications, Inc. | Training a non-reference video scoring system with full reference video scores |
US10916003B2 (en) * | 2018-03-20 | 2021-02-09 | Uber Technologies, Inc. | Image quality scorer machine |
CN108259893B (zh) * | 2018-03-22 | 2020-08-18 | 天津大学 | 基于双流卷积神经网络的虚拟现实视频质量评价方法 |
JP6876940B2 (ja) * | 2018-04-04 | 2021-05-26 | パナソニックIpマネジメント株式会社 | 画像処理装置および画像処理方法 |
CN108875904A (zh) * | 2018-04-04 | 2018-11-23 | 北京迈格威科技有限公司 | 图像处理方法、图像处理装置和计算机可读存储介质 |
CN108596890B (zh) * | 2018-04-20 | 2020-06-16 | 浙江科技学院 | 一种基于视觉测量率自适应融合的全参考图像质量客观评价方法 |
CN108648180B (zh) * | 2018-04-20 | 2020-11-17 | 浙江科技学院 | 一种基于视觉多重特征深度融合处理的全参考图像质量客观评价方法 |
CN108596902B (zh) * | 2018-05-04 | 2020-09-08 | 北京大学 | 基于选通卷积神经网络的多任务全参考图像质量评价方法 |
US10628708B2 (en) * | 2018-05-18 | 2020-04-21 | Adobe Inc. | Utilizing a deep neural network-based model to identify visually similar digital images based on user-selected visual attributes |
CN108665460B (zh) * | 2018-05-23 | 2020-07-03 | 浙江科技学院 | 基于组合神经网络和分类神经网络的图像质量评价方法 |
KR102184755B1 (ko) * | 2018-05-31 | 2020-11-30 | 서울대학교 산학협력단 | 안면 특화 초 고화질 심층 신경망 학습 장치 및 방법 |
CN108986075A (zh) * | 2018-06-13 | 2018-12-11 | 浙江大华技术股份有限公司 | 一种优选图像的判断方法及装置 |
CN109360183B (zh) * | 2018-08-20 | 2021-05-11 | 中国电子进出口有限公司 | 一种基于卷积神经网络的人脸图像质量评估方法和*** |
US11704791B2 (en) * | 2018-08-30 | 2023-07-18 | Topcon Corporation | Multivariate and multi-resolution retinal image anomaly detection system |
JP6925474B2 (ja) * | 2018-08-31 | 2021-08-25 | ソニーセミコンダクタソリューションズ株式会社 | 固体撮像装置、情報処理システム、固体撮像装置の動作方法及びプログラム |
JP6697042B2 (ja) * | 2018-08-31 | 2020-05-20 | ソニーセミコンダクタソリューションズ株式会社 | 固体撮像システム、固体撮像方法及びプログラム |
JP7075012B2 (ja) * | 2018-09-05 | 2022-05-25 | 日本電信電話株式会社 | 画像処理装置、画像処理方法及び画像処理プログラム |
US11055819B1 (en) * | 2018-09-27 | 2021-07-06 | Amazon Technologies, Inc. | DualPath Deep BackProjection Network for super-resolution |
CN111105357B (zh) * | 2018-10-25 | 2023-05-02 | 杭州海康威视数字技术股份有限公司 | 一种失真图像的去失真方法、装置及电子设备 |
US11132586B2 (en) * | 2018-10-29 | 2021-09-28 | Nec Corporation | Rolling shutter rectification in images/videos using convolutional neural networks with applications to SFM/SLAM with rolling shutter images/videos |
CN109685772B (zh) * | 2018-12-10 | 2022-06-14 | 福州大学 | 一种基于配准失真表示的无参照立体图像质量评估方法 |
US11557107B2 (en) | 2019-01-02 | 2023-01-17 | Bank Of America Corporation | Intelligent recognition and extraction of numerical data from non-numerical graphical representations |
CN109801273B (zh) * | 2019-01-08 | 2022-11-01 | 华侨大学 | 一种基于极平面线性相似度的光场图像质量评价方法 |
US10325179B1 (en) * | 2019-01-23 | 2019-06-18 | StradVision, Inc. | Learning method and learning device for pooling ROI by using masking parameters to be used for mobile devices or compact networks via hardware optimization, and testing method and testing device using the same |
CN109871780B (zh) * | 2019-01-28 | 2023-02-10 | 中国科学院重庆绿色智能技术研究院 | 一种人脸质量判决方法、***及人脸识别方法、*** |
WO2020165848A1 (en) * | 2019-02-14 | 2020-08-20 | Hatef Otroshi Shahreza | Quality assessment of an image |
US11405695B2 (en) | 2019-04-08 | 2022-08-02 | Spirent Communications, Inc. | Training an encrypted video stream network scoring system with non-reference video scores |
CN110033446B (zh) * | 2019-04-10 | 2022-12-06 | 西安电子科技大学 | 基于孪生网络的增强图像质量评价方法 |
KR102420104B1 (ko) * | 2019-05-16 | 2022-07-12 | 삼성전자주식회사 | 영상 처리 장치 및 그 동작방법 |
US11521011B2 (en) * | 2019-06-06 | 2022-12-06 | Samsung Electronics Co., Ltd. | Method and apparatus for training neural network model for enhancing image detail |
CN110517237B (zh) * | 2019-08-20 | 2022-12-06 | 西安电子科技大学 | 基于膨胀三维卷积神经网络的无参考视频质量评价方法 |
CN110766657B (zh) * | 2019-09-20 | 2022-03-18 | 华中科技大学 | 一种激光干扰图像质量评价方法 |
US10877540B2 (en) * | 2019-10-04 | 2020-12-29 | Intel Corporation | Content adaptive display power savings systems and methods |
CN110796651A (zh) * | 2019-10-29 | 2020-02-14 | 杭州阜博科技有限公司 | 图像质量的预测方法及装置、电子设备、存储介质 |
CN110751649B (zh) * | 2019-10-29 | 2021-11-02 | 腾讯科技(深圳)有限公司 | 视频质量评估方法、装置、电子设备及存储介质 |
KR102395038B1 (ko) * | 2019-11-20 | 2022-05-09 | 한국전자통신연구원 | 기계 학습 기반 특징과 지식 기반 특징을 이용한 비디오 화질 자동 측정 방법 및 이를 위한 장치 |
CN111127587B (zh) * | 2019-12-16 | 2023-06-23 | 杭州电子科技大学 | 一种基于对抗生成网络的无参考图像质量地图生成方法 |
CN111192258A (zh) * | 2020-01-02 | 2020-05-22 | 广州大学 | 一种图像质量评估方法及装置 |
CN111524123B (zh) | 2020-04-23 | 2023-08-08 | 北京百度网讯科技有限公司 | 用于处理图像的方法和装置 |
CN111833326B (zh) * | 2020-07-10 | 2022-02-11 | 深圳大学 | 图像质量评价方法、装置、计算机设备及存储介质 |
US11616959B2 (en) * | 2020-07-24 | 2023-03-28 | Ssimwave, Inc. | Relationship modeling of encode quality and encode parameters based on source attributes |
US11341682B2 (en) * | 2020-08-13 | 2022-05-24 | Argo AI, LLC | Testing and validation of a camera under electromagnetic interference |
KR20220043764A (ko) | 2020-09-29 | 2022-04-05 | 삼성전자주식회사 | 비디오 품질 평가 방법 및 장치 |
CN112419242B (zh) * | 2020-11-10 | 2023-09-15 | 西北大学 | 基于自注意力机制gan网络的无参考图像质量评价方法 |
CN112330650B (zh) * | 2020-11-12 | 2024-06-28 | 李庆春 | 一种检索视频质量评价方法 |
CN112784698B (zh) * | 2020-12-31 | 2024-07-02 | 杭州电子科技大学 | 基于深层次时空信息的无参考视频质量评价方法 |
CN112700425B (zh) * | 2021-01-07 | 2024-04-26 | 云南电网有限责任公司电力科学研究院 | 一种用于电力设备x射线图像质量的判定方法 |
US11521639B1 (en) | 2021-04-02 | 2022-12-06 | Asapp, Inc. | Speech sentiment analysis using a speech sentiment classifier pretrained with pseudo sentiment labels |
WO2022217496A1 (zh) * | 2021-04-14 | 2022-10-20 | 中国科学院深圳先进技术研究院 | 影像数据质量评估方法、装置、终端设备及可读存储介质 |
US11763803B1 (en) | 2021-07-28 | 2023-09-19 | Asapp, Inc. | System, method, and computer program for extracting utterances corresponding to a user problem statement in a conversation between a human agent and a user |
CN113505854B (zh) * | 2021-07-29 | 2023-08-15 | 济南博观智能科技有限公司 | 一种人脸图像质量评价模型构建方法、装置、设备及介质 |
CN114332088B (zh) * | 2022-03-11 | 2022-06-03 | 电子科技大学 | 一种基于运动估计的全参考视频质量评估方法 |
CN114638793B (zh) * | 2022-04-19 | 2024-07-02 | 深圳闪回科技有限公司 | 一种屏幕老化程度检测方法及装置 |
CN117152092B (zh) * | 2023-09-01 | 2024-05-28 | 国家广播电视总局广播电视规划院 | 全参考图像评价方法、装置、电子设备和计算机存储介质 |
CN118096770B (zh) * | 2024-04-29 | 2024-06-28 | 江西财经大学 | 非视口依赖的抗畸变无参考全景图像质量评价方法与*** |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7590287B2 (en) | 2002-11-06 | 2009-09-15 | Agency For Science, Technology And Research | Method for generating a quality oriented significance map for assessing the quality of an image or video |
EP1727088A1 (en) * | 2005-05-25 | 2006-11-29 | Thomson Licensing | Method for assessing image quality |
CN100588271C (zh) | 2006-08-08 | 2010-02-03 | 安捷伦科技有限公司 | 基于分组度量和图像度量两者测量视频质量的***和方法 |
WO2008115410A2 (en) * | 2007-03-16 | 2008-09-25 | Sti Medical Systems, Llc | A method to provide automated quality feedback to imaging devices to achieve standardized imaging data |
KR101092650B1 (ko) * | 2010-01-12 | 2011-12-13 | 서강대학교산학협력단 | 양자화 코드를 이용한 화질 평가 방법 및 장치 |
RU2431889C1 (ru) * | 2010-08-06 | 2011-10-20 | Дмитрий Валерьевич Шмунк | Способ суперразрешения изображений и нелинейный цифровой фильтр для его осуществления |
CN102497576B (zh) * | 2011-12-21 | 2013-11-20 | 浙江大学 | 基于Gabor特征互信息的全参考图像质量评价方法 |
US8958659B2 (en) * | 2011-12-24 | 2015-02-17 | Ecole De Technologie Superieure | Image registration method and system robust to noise |
CN104350746A (zh) * | 2012-05-31 | 2015-02-11 | 汤姆逊许可公司 | 基于局部幅度和相位谱的图像质量测量 |
US20150341667A1 (en) | 2012-12-21 | 2015-11-26 | Thomson Licensing | Video quality model, method for training a video quality model, and method for determining video quality using a video quality model |
-
2015
- 2015-06-05 US US14/732,518 patent/US9741107B2/en active Active
-
2016
- 2016-06-03 JP JP2017563173A patent/JP6544543B2/ja active Active
- 2016-06-03 KR KR1020177034859A patent/KR101967089B1/ko active IP Right Grant
- 2016-06-03 WO PCT/US2016/035868 patent/WO2016197026A1/en active Application Filing
- 2016-06-03 EP EP16804582.1A patent/EP3292512B1/en active Active
- 2016-06-03 CN CN201680032412.0A patent/CN107636690B/zh active Active
Non-Patent Citations (1)
Title |
---|
Convolutional Neural Networks for No-Reference Image Quality Assessment, CVPR2014* |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023090569A1 (ko) * | 2021-11-19 | 2023-05-25 | 삼성전자 주식회사 | 영상 처리 장치 및 그 동작 방법 |
Also Published As
Publication number | Publication date |
---|---|
JP2018516412A (ja) | 2018-06-21 |
JP6544543B2 (ja) | 2019-07-17 |
EP3292512A4 (en) | 2019-01-02 |
US20160358321A1 (en) | 2016-12-08 |
CN107636690B (zh) | 2021-06-22 |
WO2016197026A1 (en) | 2016-12-08 |
CN107636690A (zh) | 2018-01-26 |
US9741107B2 (en) | 2017-08-22 |
KR20180004208A (ko) | 2018-01-10 |
EP3292512A1 (en) | 2018-03-14 |
EP3292512B1 (en) | 2021-01-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR101967089B1 (ko) | 컨볼루션 신경망 기반의 완전 기준 이미지 품질 평가 | |
Li et al. | No-reference image quality assessment with deep convolutional neural networks | |
US11176418B2 (en) | Model test methods and apparatuses | |
CN108604369B (zh) | 一种去除图像噪声的方法、装置、设备及卷积神经网络 | |
US20210295485A1 (en) | Inspection device and inspection method | |
JP2018101406A (ja) | ニューラルネットワークにトレーニングデータを提供するための画像解析アルゴリズムの使用 | |
CN111695421B (zh) | 图像识别方法、装置及电子设备 | |
CN111179196B (zh) | 一种基于分而治之的多分辨率深度网络图像去高光方法 | |
JP2021179833A (ja) | 情報処理装置、情報処理方法及びプログラム | |
JP2022514580A (ja) | 機械学習による光学補正 | |
CN112802076A (zh) | 反射图像生成模型及反射去除模型的训练方法 | |
CN114358204A (zh) | 基于自监督的无参考图像质量评估方法及*** | |
CN110942097A (zh) | 基于单像素探测器的免成像分类方法和*** | |
CN108257117B (zh) | 图像曝光度的评测方法及装置 | |
CN111951373B (zh) | 一种人脸图像的处理方法和设备 | |
CN115457614B (zh) | 一种图像质量评价方法、模型训练方法及装置 | |
CN114170271B (zh) | 一种具有自跟踪意识的多目标跟踪方法、设备及存储介质 | |
CN116129239A (zh) | 一种小目标检测方法、装置、设备及存储介质 | |
CN112766481B (zh) | 神经网络模型的训练方法、装置及图像检测的方法 | |
JP2018116672A (ja) | 情報処理装置、情報処理方法およびプログラム | |
CN113902819A (zh) | 透过散射介质成像的方法、装置、计算机设备和存储介质 | |
US20240144432A1 (en) | Image processing apparatus, image processing method, and storage medium | |
JP7512150B2 (ja) | 情報処理装置、情報処理方法およびプログラム | |
US20240193732A1 (en) | Image processing apparatus, image processing method, and non-transitory computer-readable storage medium | |
CN110991460B (zh) | 图像识别处理方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant |