JP6961139B2 - 知覚的な縮小方法を用いて画像を縮小するための画像処理システム - Google Patents

知覚的な縮小方法を用いて画像を縮小するための画像処理システム Download PDF

Info

Publication number
JP6961139B2
JP6961139B2 JP2018522887A JP2018522887A JP6961139B2 JP 6961139 B2 JP6961139 B2 JP 6961139B2 JP 2018522887 A JP2018522887 A JP 2018522887A JP 2018522887 A JP2018522887 A JP 2018522887A JP 6961139 B2 JP6961139 B2 JP 6961139B2
Authority
JP
Japan
Prior art keywords
image
pixels
size
values
images
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2018522887A
Other languages
English (en)
Other versions
JP2018527687A (ja
JP2018527687A5 (ja
Inventor
センギス エスティレリ,アメット
グロス,マルカス
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Eidgenoessische Technische Hochschule Zurich ETHZ
Original Assignee
Eidgenoessische Technische Hochschule Zurich ETHZ
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Eidgenoessische Technische Hochschule Zurich ETHZ filed Critical Eidgenoessische Technische Hochschule Zurich ETHZ
Publication of JP2018527687A publication Critical patent/JP2018527687A/ja
Publication of JP2018527687A5 publication Critical patent/JP2018527687A5/ja
Application granted granted Critical
Publication of JP6961139B2 publication Critical patent/JP6961139B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/04Context-preserving transformations, e.g. by using an importance map
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/50Image enhancement or restoration using two or more images, e.g. averaging or subtraction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/70Denoising; Smoothing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Processing (AREA)
  • Editing Of Facsimile Originals (AREA)

Description

関連出願の相互参照
本出願は、2015年7月24日に出願された「Perceptually Based Downscaling of Images」と題する米国特許仮出願第62/196,640号の優先権を主張するものであり、かつこの米国特許仮出願の非仮出願である。上に列挙した出願の全開示は、すべての目的のために、本明細書に完全に記載されているかのように、参照により本明細書に組み込まれる。
本開示は、概して、画像処理に関する。本開示は、より具体的には、縮小された出力画像ファイルを生成するために、入力画像ファイルが処理される、画像の縮小を実行するための装置及び技術に関する。
画像の縮小は、デジタル画像化において常に実行される基本的な動作である。多数の高解像度捕捉デバイス、及び異なる解像度を有する様々なディスプレイは、画像や映像を含むあらゆるアプリケーションの必須コンポーネントになる。しかしながら、この問題はこれまでのところ、他のサンプリング改変ほど実質的に注目されていない。
従来の縮小アルゴリズムは、サンプリング定理に従って、サブサンプリング及びその後の再構成の前に、カーネルとの畳み込みを介して画像を線形フィルタリングすることによって、エイリアシングアーチファクトを最小化することを目的とする[Shannon 1998]。しかしながら、エイリアシングと共に、これらの戦略はまた、使用されるカーネルが画像内容に対して不確かであるため、知覚的に重要な詳細及び特徴のうちの一部を平滑化する。
この問題に対する解決策は、バイラテラルフィルタリング[Tomasi and Manduchi 1998]の精神において、カーネル形状を局所画像パッチに適合させること[Kopf et al.2013]であり、そのため、それらは、保存されるべき局所画像特徴とより良好に整合される。この戦略は、画像鮮明化後のフィルタに対する典型的なリンギングアーチファクトを回避しながら、特徴の鮮明さを大幅に向上させることができる。しかしながら、それは、依然として、知覚的に関連する詳細をすべては捕捉することができず、その結果、知覚的に重要な特徴のうちの一部及び入力画像の全体的な外観を変形させるか、またはギザギザになった縁のようなアーチファクトにつながる可能性がある[Kopf et al.2013]。
知覚的に重要な特徴及び詳細のうちの一部の損失は、人間の知覚とはほとんど相関しないことが知られている単純な誤差測定基準で動作するこれらの方法の共通の欠点が原因である[Wang and Bovik 2009]。これらの従来の測定基準を知覚に基づいた画質測定基準に置き換えることによって、画像処理における多くの問題が大幅に改善されている[Zhang et al.2012; He et al.2014]。
画像の縮小に対する標準的な手法は、ローパスフィルタを適用し、結果をサブサンプリングし、再構成することによって、入力高解像度画像のスペクトル帯域幅を制限することを含む。信号処理においてよく知られているように、これは周波数領域におけるエイリアシングを回避し、平滑な画像特徴のみが所望される場合には最適であるとみなすことができる。Lanczosフィルタなどの理論的に最適な正弦波フィルタ、または双三次フィルタなどのリンギングアーチファクトを回避するフィルタの近似が、実際には一般的に使用されている[Mitchell and Netravali 1988]。しかしながら、これらのフィルタは、フィルタリングカーネルが画像内容に適合しないので、しばしば過度に平滑化された画像をもたらす。より最近の画像補間技術についても同様である[Thevenaz et al.2000; Nehab and Hoppe 2011]。
最近、Kopf et al.[2013]は、これらのカーネル形状を局所入力画像内容に適合させることによって、鮮明な詳細を備えた著しくより良好な縮小結果を得ることができることを示した。カーネルは入力画像の特徴とより良好に整合するため、それらは、存在する場合は小規模な詳細を捕捉する。しかしながら、この方法は、特徴の知覚的な重要性を考慮せず、明らかな詳細の損失をもたらし、よって、入力画像のかなり抽象的な表示につながる。実際、この方法は、ピクセルアート画像を生成するための優れた結果を提供することが示されている[Kopf et al.2013]。
この画像処理の改善は、満足のいく縮小画像を得るために必要な計算量を低減することができる点において望ましい。
参考文献
BANTERLE,F.,ARTUSI,A.,AYDIN,T.,DIDYK,P.,EISEMANN,E.,GUTIERREZ,D.,MANTIUK,R.,and MYSZKOWSKL K.2011.Multidimensional image retargeting.In ACM SIGGRAPH Asia 2011 Courses,ACM,ACM SIGGRAPH Asia.
BONNIER,N.,SCHMITT,F.,BRETTEL,H.,and BERCHE,S.2006.Evaluation of spatial gamut mapping algorithms.In Proc.14th Color Imag.Conf.,56−61.
BRUNET,D.,VRSCAY,E.,and WANG,Z.2010.Structural similarity−based approximation of signals and images using orthogonal bases.In Image Analysis and Recognition,A.Campilho and M.Kamel,Eds.,vol.6111 of Lecture Notes in Computer Science.Springer Berlin Heidelberg,11−22.
BRUNET,D.,VRSCAY,E.,and WANG,Z.2012.On the mathematical properties of the structural similarity index.Image Processing,IEEE Trans,on 21,4(April),1488−1499.
BRUNET,D.2012.A Study of the Structural Similarity Image Quality Measure with Applications to Image Processing.PhD thesis,University of Waterloo.
CHAI,L.,SHENG,Y.,and ZHANG,I.2014.SSIM performance limitation of linear equalizers.In Acoustics,Speech and Signal Processing(ICASSP),2014 IEEE International Conference on,1220−1224.
CHANNAPPAYYA,S.,BOVIK,A.,and HEATH,R.2006.A linear estimator optimized for the structural similarity index and its application to image denoising.In Image Processing,2006 IEEE International Conference on,2637−2640.
CHANNAPPAYYA,S.,BOVIK,A.,CARAMANIS,C.,and HEATH,R.2008.SSIM−optimal linear image restoration.In Acoustics,Speech and Signal Processing(ICASSP),2008,IEEE International Conference on,765−768.
CHANNAPPAYYA,S.,BOVIK,A.,and HEATH,R.2008,Rate bounds on SSIM index of quantized images.Image Processing,IEEE Trans,on 17,9(Sept),1624−1639.
CHANNAPPAYYA,S.S.,BOVIK,A.C.,CARAMANIS,C,and JR.,R.W.H.2008.Design of linear equalizers optimized for the structural similarity index.Image Processing,IEEE Trans,on 17,6,857−872.
CHEN,G.−H.,YANG,C.−L.,and XIE,S.−L.2006.Gradient−based structural similarity for image quality assessment.In Image Processing,IEEE International Conference on,2929−2932.
DEMIRTAS,A.,REIBMAN,A,,and JAFARKHANI,H.2014.Full−reference quality estimation for images with different spatial resolutions.Image Processing,IEEE Trans,on 23,5(May),2069−2080.
DIDYK,P.,RITSCHEL,T.,EISEMANN,E.,and MYSZKOWSKI,K,2012,Perceptual Digital Imaging: Methods and Applications.CRC Press,ch.Exceeding Physical Limitations: Apparent Display Qualities.
DONG,J.,and YE,Y.2012.Adaptive downsampling for high−definition video coding.In ICIP 2012,2925−2928.
GERSTNER,T.,DECARLO,D.,ALEXA,M.,FINKELSTEIN,A.,GINGOLD,Y.,and NEALEN,A.2012.Pixelated image abstraction.In NPAR 2012,Pro of the 10th International Symposium on Non−photorealistic Animation and Rendering.
HE,L.,GAO,F.,HOU,W.,and HAO,L.2014.Objective image quality assessment: A survey.Int.J.Commit Math,91,11(Nov.),2374−2388.
KOPF,J.,SHAMIR,A.,and PEERS,P.2013.Content−adaptive image downscaling.ACM Trans.Graph.32,6(Nov.),173:1−173:8.
KRAWCZYK,G.,MYSZKOWSKl,K.,and SEIDEL,H.−P.2007.Contrast restoration by adaptive countershading.In P roc.of Eurographics 2007,Blackwell,vol.26 of Computer Graphics Forum.
LISSNER,L,PREISS,J,,URBAN,P.,LICHTENAUER,M.S.,and ZOLLIKER,P.2013.Image−difference prediction: From grayscale to color.Image Processing,IEEE Trans,on 22,2,435−446.
LIU,T.,YUAN,Z.,SUN,J.,WANG,I,ZHENG,N.,TANG,X.,and SHUM,H.−Y.2011.Learning to detect a salient object.Pattern Analysis and Machine Intelligence,IEEE Trans,on 33,2(Feb),353−367.
MITCHELL,D.P.,and NETRAVALI,A.N.1988.Reconstruction filters in computer−graphics.In Proc.of SIGGRAPH ‘88,ACM,New York,NY,USA,221−228.
NEHAB,D.,and ΗOΡΡΕ,H.2011.Generalized sampling in computer graphics.Tech.Rep.MSR−TR−2011−16,February.
OGAWA,T.,and HASEYAMA,M.2013.Image inpainting based on sparse representations with a perceptual metric.EURASIP Journal on Advances in Signal Processing 2013,1.
PANG,W.−M.,QU,Y,WONG,T.−T.,COHEN−OR,D.,and HENG,P.−A.2008.Structure−aware halftoning.ACM Trans.Graph.27,3(Aug.),89:1−89:8.
POLESEL,A.,RAMPONI,G.,and MATHEWS,V.J.1997.Adaptive unsharp masking for contrast enhancement.In ICIP ‘973−Volurne Set−Volume 1−Volume 1,IEEE Computer Society,Washington,DC,USA,267−.
REHMAN,A.,WANG,Z.,BRUNET,D.,and VRSCAY,E.2011.SSIM−inspired image denoising using sparse representations.In Acoustics,Speech and Signal Processing(ICASSP),2011 IEEE International Conference on,1121−1124.
RITSCHEL,T.,SMITH,K.,IHRKE,M.,GROSCH,T.,MYSZKOWSKl,K.,and SEIDEL,H.−P.2008.3D Unsharp Masking for Scene Coherent Enhancement.ACM Trans.Graph.(Proc.of SIGGRAPH 2008) 27,3.
SHANNON,C.1998.Communication in the presence of noise.Proc.of the IEEE 86,2(Feb),447−457.
SHAO,Y,,SUN,F.,LI,H.,and LIU,Y.2014.Structural similarity−optimal total variation algorithm for image denoising.In Foundations and Practical Applications of Cognitive Systems and Information Processing,vol.215.Springer Berlin Heidelberg,833−843.
SILVESTRE−BLANES,J.2011.Structural similarity image quality reliability: Determining parameters and window size.Signal Processing 91,4,1012−1020.
SMITH,K.,LANDES,P.−E.,THOLLOT,J.,and MYSZKOWSKI,K.2008.Apparent grayscale: A simple and fast conversion to perceptually accurate images and video.Computer Graphics Forum(Proc.of Eurographics 2008) 27,2(APR).
TH´EVENAZ,P.,BLU,T.,and UNSER,M.2000.Interpolation revisited.Medical Imaging,IEEE Trans,on 19,7,739−758.
TOMASI,C,and MANDUCHI,R,1998.Bilateral filtering for gray and color images.In Computer Vision,1998.Sixth International Conference on,839−846.
TRENTACOSTE,M.,MANTIUK,R,and HEIDRICH,W.2011.Blur−Aware Image Downsizing.In Proc.of Eurographics.
WANG,Z.,and BOVIK,A.2009.Mean squared error: Love it or leave it? A new look at signal fidelity measures.Signal Processing Magazine,IEEE 26,1(Jan),98−11 7.
WANG,Z.,and LI,Q.2007.Video quality assessment using a statistical model of human visual speed perception.J.Opt.Soc.Am.A 24,12,B61B69.
WANG,Z.,BOVIK,A,,SHEIKH,H.,and SIMONCELLI,E.2004.Image quality assessment: from error visibility to structural similarity.Image Processing,IEEE Trans,on 13,4(April),600−612.
WANG,S.,REHMAN,A.,WANG,Z.,MA,S.,and GAO,W.2011 .Rate−AAIM optimization for video coding.In Acoustics.Speech and Signal Processing(ICASSP),2011 IEEE International Conference on,833−836.
WU,X,,ZHANG,X.,and WANG,X,2009.Low bit−rate image compression via adaptive down−sampling and constrained least squares upconversion.Trans.Img.Proc.18,3(Mar.),552−561.
YEGANEH,H.2014.Cross Dynamic Range and Cross Resolution Objective Image Quality Assessment with Applications.PhD thesis,University of Waterloo.
ZHANG,Y,,ZHAO,D.,ZHANG,J.,XIONG,R.,and GAO,W.2011.Interpolation−dependent image downsampling.Image Processing,IEEE Trans,on 20,11(Nov),3291−3296.
ZHANG,L.,ZHANG,L.,MOU,X.,and ZHANG,D,2012.A comprehensive evaluation of full reference image quality assessment algorithms.In ICIP 2012,1477−1480.
ZHOU,F.,and LIAO,Q.2015.Single−frame image super−resolution inspired by perceptual criteria.Image Processing.IET 9,1,1−11.
画像プロセッサは、第1の画像を入力して、第2の画像を第3の画像に拡大することであって、第3の画像は、第3の解像度を伴って、第1の画像サイズと実質的に同じサイズである第3の画像サイズを確立する第2の組の画素から導出される第3の組の画素によって定義され、拡大することと、第2の画像の個々の画素を、第3の組の画素からの対応する画素群に関連付けることと、第1の画像サンプルを生成するために、第1の組の画素の第1の位置で第1の画像領域をサンプリングすることと、2の画像サンプルを生成するために、第1の画像領域の位置及びサイズに対応する第3の組の画素の第2の画像領域をサンプリングすることと、知覚画像値を生成するために、第1の画像サンプル及び第2の画像サンプルを処理することによって、第1の画像領域と第2の画像領域との間の類似度を測定することと、画像知覚値が事前定義された閾値内の知覚基準値に一致するまで第3の組の画素値を再帰的に調整することと、第2の画像内の個々の画素値を、対応する画素群の各々の代表画素値に調整することと、によって、縮小された第2の画像を出力する。
以下の発明を実施するための形態及び添付の図面は、本発明の性質及び利点のより良好な理解を提供する。
本開示による様々な実施形態が、図面を参照して説明される。
縮小のアーチファクトを示す。 縮小のアーチファクトを示す。 縮小に対する様々な手法を示す。 縮小に対する様々な手法を示す。 画像の縮小エンジンが区分的に一定の補間を実行するために使用するプロセスを示す。 エンジンが様々な値を計算するために実行するプロセスを示す。 フィルタリング後の画像鮮明化後を示す。 縮小画像についてパッチサイズの影響を示す。 偏差の結果を示す。 異なるパッチによって最適化された画像例を示す。 絵画の額縁の縮小エッジを示す。 画像処理の他の態様を示す。 画像処理の他の態様を示す。 ユーザ調査結果を示す。 テスト結果を示す。 画像の平滑化を示す。 縮小結果を示す。 ユーザ調査に使用される画像例を示す。 ユーザ調査に使用される画像例を示す。 局所詳細を適応して調整する縮小例。 本発明の実施形態を実装することができるコンピュータシステムを示すブロック図である。 本発明の実施形態を実装することができるコンピュータシステム内のプロセッサによってアクセス及び実行され得るアプリケーションを有する記憶装置の簡略化された機能ブロック図である。 本明細書で説明するプロセスを用いて、入力画像ファイルを取り込み、出力画像ファイルを出力する、縮小エンジンの一例を示す。
本明細書で説明する実施形態では、画像処理エンジンは、画像を入力し、それを処理し、出力画像が入力画像よりも小さい解像度の出力画像を出力し、知覚的に好ましい方法で画像を出力する、すなわちアーチファクトを最小化する。
図1は、そのようなアーチファクトの一部を示す。図1A及び1Bの各々では、左側には入力画像があり、右側には縮小画像が4つある。サブサンプリング出力画像、バイキュービック出力画像及び内容適応型出力画像は、従来型の手法を用いるのに対し、知覚出力画像は、本明細書で説明する新規で改良された技術をより詳細に用いる。
サブサンプリング出力画像は、サブサンプリング及びその後の再構成の前に、カーネルとの畳み込みを介して画像を線形フィルタリングする従来の縮小アルゴリズムを使用して作成され得るが、使用されるカーネルが画像内容に対して不確かであるため、知覚的に重要な詳細及び特徴のうちの一部を平滑化するという結果をもたらすことができる。
カーネル形状は、局所画像パッチに対して非依存的で、画像鮮明化後のフィルタに対する典型的なリンギングアーチファクトを回避しながら、特徴の鮮明さを向上させることができるが、依然として、知覚的に関連する詳細をすべては捕捉することができず、その結果、内容適応型出力画像などの場合、知覚的に重要な特徴のうちの一部及び入力画像の全体的な外観を変形させる可能性がある。バイキュービック出力画像もまた、望ましくないアーチファクトに至る。
以下でより詳細に説明するように、知覚画像は、知覚的に重要な特徴及び原画像の全体的な外観を保存する。標準測定基準の代わりに、知覚的画質測度を処理に使用することができる。
知覚的に重要な特徴及び詳細のうちの一部の損失は、人間の知覚とはほとんど相関しないことが知られている単純な誤差測定基準で動作するこれらの方法の共通の欠点が原因である[Wang and Bovik 2009]。これらの従来の測定基準を知覚に基づいた画質測定基準に置き換えることによって、画像処理における多くの問題が大幅に改善されている[Zhang et al.2012;He et al.2014]。
画像の縮小に対する標準的な手法は、ローパスフィルタを適用し、結果をサブサンプリングし、再構成することによって、入力高解像度画像のスペクトル帯域幅を制限することを含む。信号処理においてよく知られているように、これは周波数領域におけるエイリアシングを回避し、平滑な画像特徴のみが所望される場合には最適であるとみなすことができる。Lanczosフィルタなどの理論的に最適な正弦波フィルタ、または双三次フィルタなどのリンギングアーチファクトを回避するフィルタの近似が、実際には一般的に使用されている。しかしながら、これらのフィルタは、フィルタリングカーネルが画像内容に適合しないので、しばしば過度に平滑化された画像をもたらす。
自然な画像の場合、本明細書で説明される方法は、知覚的な測定基準を組み込むことによって、著しく良好に機能し、高解像度入力画像のより鮮明な描写を提供することができる。これらの方法はまた、より不確かなエイリアシングアーチファクトでより良好な時空間整合性を提供し、単純かつ堅牢な実装で桁違いに高速で実行し、計算資源を節約する。
縮小演算子はまた、他の関連問題に対しても設計されている。いくつかのアルゴリズムは、縮小演算子とフィルタを次の拡大に使用される補間方法に注意深く調和させる。これらの方法は、縮小画像自体の知覚品質には実際には対応していない。サムネイル生成は、不完全性、特に原画像のぼやけを保存して、縮小画像からの正確な品質評価を試みる。対照的に、縮小問題は、入力画像の重要な詳細及び全体的な外観を保存するために、ぼやけを選択的に調整するものとみなすことができる。別の関連するアルゴリズムのセットは、画像内容を慎重に修正することにより、画像内の前景オブジェクトなどの重要な部分を保存しながら、入力画像のアスペクト比を変更することによって、画像を再標的化することに対処する[Banterle et al.2011]。
本明細書に記載された実施形態は、原画像の画像内容に近い画像内容を維持し、再標的化アルゴリズムが通常設計するよりもはるかに多くの対象解像度低減を行うことができる。画像抽象化方法を使用して、カラーパレットと同様に解像度を下げることによって、ピクセルアートなどの入力画像の芸術的描写を生成することができる[Gerstner et al.2012]。本明細書に記載される実施形態は、入力画像の現実的な描写を対象とすることによって、より良好な結果を提供する。
本明細書で説明するように、画像処理エンジンは、誤差測定基準としてSSIMを用いた最適化問題として、画像の縮小を扱うことができる。これは、知覚的に重要な特徴を保存するために、重要な利点を提供することができる。また、縮小問題に閉形式解を導出することができる。これは、入力画像のより明らかな描写を提供する、画像を縮小する知覚的に基づく方法を提供する。画像の縮小は、入力画像と出力画像との間の差が知覚的画質測定基準を用いて測定される最適化問題として扱うことができる。縮小画像は、知覚的に重要な特徴及び詳細を保持し、高解像度入力の正確で時空間的に一貫した表現をもたらす。我々の縮小方法は、他の測定基準では捕捉できない、知覚的に重要な細かな詳細と特徴を保存し、原画像をより良好に描写する鮮明な画像をもたらす。
画像処理エンジンは、総計と畳み込みを伴う単純で効率的かつ並列化可能な実装に繋がる、閉形式の最適化問題の解を導出することができる。このプロセスは、線形フィルタリングと同様のコンピュータ実行時間を有し、画像の縮小のための最先端技術よりも桁違いに高速である。本明細書では、この技術の有効性の検証に、本明細書に説明されたプロセスの結果に対する明確な嗜好を示す多くの画像、映像及びユーザ調査の結果による、広範なテストからのテスト結果が提供されている。
縮小問題は、入力画像が与えられた縮小された出力画像について解く最適化として扱われる。2つの画像間の誤差は、構造類似性(SSIM)指標を用いて測定される[Wang et al.2004]。最適化問題におけるSSIMの使用は、得られる非線形非凸誤差関数によって妨げられてきた[Brunei et al.2012]。しかしながら、本明細書で説明するように、縮小問題については、この最適化に対する閉形式解を導出することが可能である。この解決策は、非線形フィルタに繋がり、これは、入力画像の原画像と平滑化画像の局所輝度とコントラスト測定値を計算することを含む。フィルタは、いかなる共分散項も有しないSSIMとは一見違っているが、原画像と縮小画像との間の平均SSIMを最大にする。
縮小画像は、自然画像に対して妨害エイリアシングアーチファクトを示さず、カーネル最適化に基づく方法より時空間的により一貫性がある[Kopf et al.2013]。これにより、エンジンが映像の縮小にも技術を適用することができる。結果として得られるプロセスは、総計と畳み込みを伴う非常に単純で、効率的で、並列化可能な実装を有する。したがって、従来のフィルタリング方法に類似した計算上の複雑さを有し、最先端技術よりも桁違いに高速である。[Kopf et al.2013]。
平均平方誤差などの標準誤差測定基準は、画像の差異を測定する際の人間の知覚との相関が良くないことがよく知られている[Wang and Bovik 2009]。代わりに、画質及び映像品質の評価のために、様々な知覚ベースの画質測定基準が提案されている。完全参照品質測定基準は、入力画像を品質評価のために利用可能な基準画像と比較できるという仮定を指す。縮小問題については、入力画像が基準であり、縮小された出力が評価される画像である。
エンジンは、最も広く使用され、かつ成功した完全参照画質測定基準の1つである[Brunet et al.2012]が、他の測定基準も同様にまたは代わりに使用できる、構造類似性(SSIM)指標を使用する[Wang et al.2004]。SSIMは、局所輝度、コントラスト、及び構造の比較による2つの画像間のマッチングスコアを表す。高解像度入力画像Hが与えられると、エンジンは、SSIM指標によって測定されるように、できるだけHに近い縮小された出力画像Dを見出そうとする。画像HとDとの間の非類似度測定値は、d(H、D)と表される。目標は、この測定値d(H、D)を最小にする画像Dである。この測定は、H及びDの各画素がダイナミックレンジ[0、1]の単一の数を含むように、単一チャネル画像である画像を使用して取得することができ、さらに、簡単化のために、Hの幅及び高さが整数因子sによって縮小されてDを生成すると仮定する。実際の縮小係数が整数でない場合、エンジンは、係数が整数になるように、バイキュービックフィルタリングによって入力画像を前処理し、かつ拡大することができる。マルチチャネル画像についても同様の手法が取られる。
図2は、縮小に対する様々な手法を示す。図2Aは、入力画像であり、図2Bは、出力画像のうちの8例を示し、右下のものは、知覚測定基準を最適化することによって作成される。ボックスフィルタやバイキュービックフィルタなど、一般的に使用される縮小用フィルタは、結果的に過度の平滑化をもたらす。画像鮮明化後の縮小画像(鮮明型画像)によって、またはLanczosフィルタの使用によって過度の平滑化を回避する試みは、リンギングアーチファクトに繋がり、小規模の特徴は依然として回復されない。一般化されたサンプリング[Nehab and Hoppe 2011]及び内容適応型の縮小[Kopf et al 2013]は、鮮明な画像を作成することはできるが、知覚的に重要な詳細を保存することはできない。他のものとは対照的に、知覚測定基準を用いることで、この測定基準によって測定される知覚的に最適な画像が生成される。
ほとんどの画質評価方法は、空間解像度の異なる画像を比較するようには設計されていない[Yeganeh 2014]。解像度の異なる画像には、高解像度画像を縮小する、または低解像度の画像を拡大するという2つの一般的で単純な手法がある。[Demirtas et al.2014]。Hに存在する情報を失わないために、エンジンは、Hと同じ次元を有する拡大された画像Xを形成するためにDを拡大する。
図3は、区分的に一定の補間を実行するために、エンジンが使用するプロセスを示し、Dの各画素はXのs画素で複製され、左上には入力高解像度画像H(16×16画素)があり、中央の縮小画像D(4×4画素)と、右側には、その縮尺変更されたバージョン(16×16画素)がある。Dの各画素はXの16画素で複製される。また、「パッチセット」も示されている。パッチセットS(k=1、2〜n)は、重ならないパッチ(タイル)を含む。この例では、Dに2×2のパッチがあるので、n=4である。パッチセットは、X及びHにおいて4画素だけシフトされ、これはDにおける1つの画素のシフトに対応する。
SSIM指標は、画像の局所的パッチ間で計算された類似度の局所的尺度である。したがって、これらの類似度スコアは、すべてのパッチについて合計され、平均SSIMを計算する。画像Xのi番目のパッチをP(X)で表すと、縮小問題は、Dの1つの画素に対応する各画素群が同じ画素値を有するという制約を伴うパッチのうちの一部の組Sについて、方程式1を満たす最適なXを見つけるものとしてそのように記述することができる。
Figure 0006961139
Xの画素値は[0,1]に制限される必要はなく、最適化されたDはダイナミックレンジの外に、無視できるほど小さな画素数を含むことができる。パッチの形状及び組は、考えられる用途に応じて様々な方法で定義することができる[Silvestre−Blanes 2011]。所与のパッチサイズnについて、エンジンは、幅(及び高さ)に関して可能な正方形パッチすべての組Sを使用する
Figure 0006961139

(画像限界内に完全にはないパッチを除く)が、各パッチの組が重複しないパッチのみを含むようなパッチの組では、Sはすべてのパッチの組Sの和集合である。最終的なXは、異なるパッチの組について方程式1の問題の解
Figure 0006961139

を平均することによって計算される。s画素の各グループは実際にはDの1つの画素に対応するので、Dの整数パッチシフトはH及びXのsだけシフトする。n=4の小さな例示的な画像のためのパッチの組Sは、図3の最下段に示されている。この解は、本明細書で説明されているように、選択されたnを伴う他のパッチの組の選択肢に対してあまり逸脱しない。
図4は、様々な値を計算するためにエンジンが実行するプロセスを示す。出力された縮小画像パッチP(D)内の各画素dは、画素P(X)及びP(H)内のs画素の組Dにマッピングされる。P(X)のD内のs画素はすべて、値dを有する。S内のパッチは重なり合わないので、各パッチの画素は、他のパッチとは独立して最適化することができる。したがって、SにおけるパッチPについて、画像Xの最適パッチP(X)は、方程式2によって与えられる。
Figure 0006961139
パッチの画素は、エンジンによって、ベクトルh及びx上のスタックとして表すことができる。同様に、xに対応するDの画素はdで表され、Dのパッチにおけるi番目の画素に対応するP(X)の画素の組は、図4のようにDで表すことができる。したがって、x=Vdであり、Vのj番目のvは、x∈Dならは1であり、そうでなければ0である。次いで、上記計算は、方程式3のように表すことができる。
Figure 0006961139
SSIM指標は、輝度、コントラスト、及び共分散に基づく比較に対応する3つの構成要素を掛け合わせることによって計算される。広く使用されているSSIMの形式は、方程式4のように[Brunet et al.2012]によって与えられ、μx=Σwは平均を表し、
Figure 0006961139

分散を表し、σxh=Σw(x−μ)(h−μ)は重みwとの共分散であり、xはxのi番目の構成要素を表す。
Figure 0006961139
値c1及びc2は、不安定さを避けるために追加された小さな定数である。式の簡略化のために、また実際に使用される小さな値は縮小問題の結果に影響を与えないので、定数はc1=c2=0として設定することができる。xとhは[0,1]内にあるので、SSIM(x,h)∈[0,1]である。x=hのときは1であり、パッチの類似度が低くなるにつれて減少する。ここでは、非類似度d(h,x)をl−SSIM(h,x)と定義することができる。
d(・,・)は、距離関数ではなく、凸関数でもない。方程式3の問題を直接解決しようとするのではなく、元の問題に解をパラメータ化することによって、解決しやすい別の問題を定義する。具体的には、xの平均μと分散σを任意の値に固定し、σxhだけをSSIMの自由項として残す(方程式4)。したがって、これらの制約の下で、σxhを最適化することで、この副次的問題に最適なものを得ることができる。最後に、大域的最適化を与えるμとσとを見つける。以下で詳述するように、μ=μ及びσ=σを設定し、方程式5を解くことによって大域滴最適化を得ることができる。
Figure 0006961139
x=Vdであるので、μ、σ、σxhの項もdの項で表すことができることに留意されたい。例えば、
Figure 0006961139

をμ=wx=(Vw)d=mdと書くことができる。同様に、MがMii=m、及び
Figure 0006961139

の対角行列である
Figure 0006961139

である。これらの置換によって、方程式5の計算は方程式6の計算になり、その解は
Figure 0006961139
で方程式7に提供される。
Figure 0006961139
Figure 0006961139
SSIMベースの最適化と大域的最適化についての詳解は、以下を参照すること。平均を固定することによってSSIM指標を含む最適化問題の解は、反復法を用いて最適値が検索される他の用途に利用されている[Channappayya et al.2008a;Ogawa and Haseyama 2013:Shao et al.2014]。しかしながら、閉形式解は、単純な画像モデル、またはフーリエ型基底の拡張[Brunei et al.2010]に対してしか導出できない[Channappayya et al.2006; Chai et al.2014]。画像H及びD、または基底ベクトルvは、本明細書に記載された技術を用いてこれら解に必要な特性を満たさないが、縮小問題の構造に対する閉形式解を導き出すことができる。
出力画像Dの各画素について、その画素に重なる各パッチからの最適値が存在する。これらのパッチの各々は、異なるパッチの組Sに属する。画素の最終値は、これらの値を平均することによって求められる。重みwは、通常ガウス分布または一定のウィンドウから取られる[Silvestre−Blanes 2011; Brunet 2012]。後者に続いて、パッチはかなり小さいので、重みは1に均一に加算されると仮定することができる。次に、画像D内のi番目の画素の値(iはD内のグローバルインデックスとして定義される)は、Pがこの画素と重なるn個のパッチを示す方程式8に示される通りである。
Figure 0006961139
方程式8における最適画像の形式は、入力画像H上の非線形フィルタである。このフィルタは、SSIM指標によって測定された知覚的に最適な方法で画像内容に適応する。エンジンは、このフィルタを実装するための手段またはプログラム命令を含む。解の構成は、局所的な構造類似性を最大にしながら、入力画像Hの局所輝度及びコントラストを保存することを明らかにする。フィルタは非線形であるが、以下に示す擬似コードによって説明されるように、方程式8から明らかな一連の線形演算を用いて実施することができる。
説明及び分析
我々は、平均化されたli値に適用された適応型アンシャープマスキングフィルタとして方程式8を見ることができ[Polesel et al.1997]、画像鮮明化係数は、入力画像の標準偏差の比
Figure 0006961139
を用いて局所画像内容、及びそれをフィルタリングしたものに非線形に依存する。したがって、この比は、局所特徴を保存するために、参照画像としてHを使用して適応的にフィルタを調整する。参照画像から抽出された画素に関するコントラスト測定値と組み合わされたアンシャープマスキングは、レンダリングされたシーン[Ritschel et al.2008]だけでなく、トーンマッピング[Krawczyk et al.2007]またはカラーからグレースケールへの変換[Smith et al.2008]によって生成される画像を強調するための優れた結果を以前に生成しており、ここでのSSIM最適フィルタは、縮小問題の類似項に繋がる。
図5は、フィルタリング後の画像鮮明化後を示す。右上の画像では、画像鮮明化は深刻なリンギングをもたらし、背景では小規模の詳細を捕捉することができない。Lanczosフィルタ(右中央の画像)は、リンギングを減らすことはできるが、依然として詳細をうまく捕捉できない。本明細書に記載される方法(右下の画像)は、入力画像内の局所内容を利用して、詳細を保存しながらアーチファクトを回避する。
フィルタリング後の画像鮮明化後のステップを用いることによってより鮮明な結果を得ようとする試み、又は正弦波フィルタをより良好に近似することによってより鮮明な結果を生成するフィルタは、画像縮小に使用される場合、アーチファクトをもたらすことがよく知られている[Kopf et al.2013]。本明細書に記載される方法は、このような問題を回避し、画像特徴をより良好に保存することに繋がる。フィルタリング後の画像鮮明化後は、前景オブジェクトの深刻なリンギングに繋がり、同時に背景のコントラストは保存されない。この手法は、画像鮮明化フィルタが縮小画像を強調するために、元の高解像度画像からの情報を使用することができないため、根本的に不利益である。Lanczosフィルタはアーチファクトを減らすが、背景を保存することはできない。方程式8で導出されたフィルタの適応性は、確実にリンギングアーチファクトを回避しながら、特徴のすべてを保存する。
多くのパラメータが変更される可能性があるが、主な自由パラメータはパッチサイズnであり、一般に、結果を人間の視覚システムの応答と最もよく相関させるためにSSIMのパッチサイズを決定することは困難な問題である。しかしながら、最近の研究では、画像の複雑さが増すにつれて、ウィンドウのサイズが縮小されることが確認されている[Silvestre−Blanes 2011]。縮小問題については、可能な限り入力画像H内の局所構造を捕捉することが重要である。しかしながら、縮小係数sが増加すると、Hのパッチサイズ
Figure 0006961139

も大きくなる。したがって、我々の問題については、2×2パッチに対して、パッチサイズnを可能な限り小さく、例えばn=4に保持することが好ましい。同様の結論は、適応型アンシャープマスクとしてフィルタの解釈に由来する。この場合のパッチの平均化された平均値
Figure 0006961139

に対応する、アンシャープマスキングの平滑化された画像は、より低い周波数帯域を捕捉するためにより平滑化され得る。しかしながら、多くの低帯域は既にDで捕捉されている。さらに、パッチサイズが大きくなるにつれて、標準偏差の比が減少し、強調が少なくなる。
図6は、縮小画像に対するパッチサイズの影響を示す。パッチサイズを左から右に増やすことで、小規模な特徴の損失を示す。これらの例では、左から右に、パッチサイズは2、8及び32である。パッチサイズが大きくなるにつれて、小規模な特徴が失われる。画像全体が1つのパッチによって覆われる限界では、コントラストσとσがほぼ正確に一致できるので、縮小画像はlによって与えられるフィルタリングされた画像に近づく。
最適化では、Dのピクセルの値が[0,1]に収まるように制限されていないため、このダイナミックレンジの外の値を有する一部の画素が生じることがある。しかしながら、実際は最適解に対する平均偏差と標準偏差が一致するため、これらの画素の割合とダイナミックレンジまでのそれらの距離は、自然画像に対して無視できる。
図7ではこの点を示している。上のグラフについては、異なる7サイズで3000個のランダムな自然画像に対するダイナミックレンジの外の画素値の割合が示されている。下のグラフは、入力画像及びサイズの各々について、平均化によってすべてのSを用いて生成された縮小画像と、個々のSを用いて生成された縮小画像との間の平均SSIM指標及び平均標準偏差が計算されることを示す。図7は、上のグラフにあるような画像及びサイズの組によって、これらの値のヒストグラムを示す。両方の測定値は、異なる組での最適化は、解が大幅に変更されないことを示している。2×2の小さなパッチサイズで作業しても、パッチの組の選択に顕著な違いはない。異なるパッチの組S及びその平均について、結果として得られた最適化画像(SSIM最適画像)は、ほぼ同一である。図7では、平均SSIM指数及び平均標準偏差の分布は、平均画像(本発明者らの解)と、異なるSで最適化された画像との間で、3000画像及び7サイズの同一の組について計算されて示される。両方の測定値は、結果として得られる画像がほぼ同一であることを示している。
図8は、異なるSで最適化された例示的な画像を示す。これら画像は、ほぼ同一であり、テクスチャが大きく高い周波数変動を有する一部のパッチにおいて、わずかに異なる。
一部のパッチについては、σj=0となるように強度lを一定にすることができる。これらの場合、解によって必要とされるように、ダイのコントラストを一致させる方法がなく、平均のみをマッチングさせることができる。したがって、σl<10−6のパッチでは、このパッチ内の縮小画像の画素値をパッチの平均μに設定する。
SSIMは、単一チャネルの画像に対して定義されるが、抽出された特徴を利用したり[Lissner et al.2013]、または様々な色空間で作業したりして[Bonnier et al.2006]探索する研究もある。エンジンはすべての画像処理にRGB空間を使用し、縮小を各チャネルに独立して適用することができる。
結果
我々は、何千もの画像と多くの異なる縮小係数、詳細な分析、既存方法との比較、正式なユーザ調査など、我々の方法の実用的価値を検証するために多数の実験を行った。
縮小結果と分析
我々の技術は、人間の観察者が見ると、入力画像内に類似した構造を形成する局所画素パターンを生成する。この効果は、入力画像内に、知覚的に重要な特徴(図1、10のような)、テクスチャ(図15、16のような)または他の小規模な詳細(図1、2、15、16、17)がある場合に最も顕著である。できるだけ多くの構造を捕捉しようとする一方で、入力画像の局所コントラスト及び輝度も保存するので、縮小画像の全体的な外観を入力画像に近づけることができる(例えば、図1、16)。
エンジンによって実行される縮小プロセスは、既にローパスフィルタによって捕捉されている特徴を著しく変更することはない。これにより、以前の縮小方法よりもギザギザのになったアーチファクトが少なくなる。例えば、図9は、絵の額縁の縮小を示す。左右の入力画像が4つの出力画像になる。図9の右側の上から下まで、出力画像は、それぞれ原画像、バイキュービックフィルタリング、内容適応型縮小及び我々のプロセスによって行われる。我々のプロセスは、詳細をより良好に保存しながら、ギザギザのエッジ効果を軽減する。我々の方法は、エッジをわずかに強調して、結果として内容適応型の方法よりもアーチファクトを少なくし、一部の詳細が縮小画像内の画素量で捕捉できない場合は、それらは、ネイティブ解像度で見た場合、モアレパターンとは反対でサブサンプリングと同様の入力画像内の詳細に似ているノイズのような構造にマッピングされる。
図11は、左側の画像がバイキュービックフィルタリングされていて、中間の画像がサブサンプリングされている(モアレパターンが表示されている)ものであり、我々の結果は、モアレパターンなしのものである。この方法は時空間でも一貫性があり、図1の右側及び図10に明瞭に示されるように、特徴の正確な表現につながる。バイキュービックフィルタリングなどの従来のフィルタリング方法も一貫性があるが、鮮明な画像を生成することはできない。カーネルを局所画像特徴に一致させること[Kopf et al.2013]は、より鮮明な結果を生成することができるが、結果として生じるカーネルは、図10でのように一部の特徴を欠いたり、変形させたりする可能性があり、入力画像の小さな変化は、映像を縮小するときに処理する必要があるため、増幅されたり、フリッカが発生したりすることがある。図10中央の3つの画像の組では、上側は原画像であり、真ん中は内容適応型縮小であり[Kopf et al.2013]、下側は我々の結果である。特徴は我々の方法でそのまま保持される。
画質測定値として使用される場合、SSIM指標と人間の知覚との相関に関する多くの研究がある[Wang and Bovik 2009]。しかしながら、我々の縮小に関する特有の問題は、目的に合った正式なユーザ調査を必要とした。ユーザ調査の様式は、使用された画像と様式に関する選択肢すべてを含み、Kopf et al.[2013]によって行われた以前の調査の様式に従う。
この調査は、参加者に大きな画像とその画像の2つの縮小版を提示することに基づく。参加者は次に、大きい画像のうちのより良好な縮小表示版を表すと思う小さな画像を選択するか、または好みの画像がないことを示すように求められる。各テストで提示された小さな画像のうちの1つは、本明細書に記載された我々のプロセスを用いて計算される。他方は、サブサンプリング、クラシックボックス、バイキュービック、Lanczosフィルタリング、バイラテラルフィルタリング、一般化サンプリング[Nehab and Hoppe 2011]、及び内容適応型縮小[Kopf et al.2013]などの異なるプロセスによって計算される。この調査には125名の参加者がいた。
この調査で使用された13の自然画像は、もともとMSRAのSalient Object Database [Liu et al.2011]からのものであり、以前の調査で用いられた画像と同じである[Kopf et al.2013]。図16に一部の例の結果を示す。それらは、構造の異なる種類及び規模の様々なシーンに及ぶ。画像はディスプレイのネイティブ解像度で示され、ズームは提供されなかった。大きな画像の長辺は400画素、小さな画像の長辺は128画素である。この調査は、世界中の様々な地域、学歴、職業、及びコンピュータを有する参加者からオンラインで行われた。以前の調査[Kopf et al.2013]と同様に、現実の状況で実際に起こるように、参加者が所望する場合は参加者を画面に近づけることができた。特定の参加者に対する各テストには異なる画像を含も、一貫性を確認するために2回繰り返した。80%未満の一貫性を有する被験者から得られたすべての結果は廃棄され[Kopf et al.Kopf et al。2013]、64名の参加者からの結果を残している(結果は他の拒絶率ではあまり変わらない)。調査を終了する時間制限はなかった。
図12は、ユーザ調査の結果を示す。3つのバーの各グループにおいて、左のバーは、我々のプロセスによって行われた縮小画像をユーザが何回選択したかを表し、真ん中のバーは、どれも好みではないことをユーザが何回示したかを表し、右のバーは、他のプロセスを好むことをユーザが何回示したかを表す。この調査では、競合する方法に対する我々のプロセスの結果について明確な好みが示された。競合する縮小方法で最良のものは、単純なサブサンプリングであり、以前の調査でも同様であった[Kopf et al.2013]。サブサンプリングにはフィルタリングが含まれていないため、言うまでもなく、よく知られている強いエイリアシングアーチファクトを費やして、画像の鮮明な外観を保存する。これらのアーチファクトが見えないユーザ調査画像では、参加者は、どの画像を選択するべきかを決定することができなかった。アーチファクトが目立つ他の画像については、我々の画像に対して明確な好みがある。したがって、我々のプロセスは、サブサンプリングのように画像の鮮明な外観を保存するが、可視エイリアシングアーチファクトはない。
実装形態及び性能
ここでの方法は、入力画像上の非線形フィルタに基づくことができ、単純な畳み込み及び総計で非常に効率的かつ堅牢に実施することができる。
プロセスの疑似コードは、以下でさらに提供される。このプロセスは、ネイティブMatlab演算子を伴うMatlabで実装され、その中には複数のCPUコアを使用するものもある。Intel Core i7 3770K CPU@350GHzを使用して、コンピュータ上で無作為に選んだ100枚の画像で性能テストを行った。Kopf et al.[2013]の方法は、ネイティブ実行可能なものとして実行された。異なる入力画像サイズ(出力画像サイズは80×60に固定)及び異なる出力サイズ(入力画像サイズは640×480)でのテスト結果が図13に報告されている。
我々のプロセスは、我々がアルゴリズムの実装に使用したボックスフィルタよりもわずかに数倍遅く、反復的な期待値最大化に基づく最適化に依存する、Kopf et al.[2013]の方法よりも500〜5000倍高速である。このテストでは、エンジンは2つのボックスフィルタリングを実行した後、入力画像に対してサブサンプリングを行い、擬似コードに見られるように、出力画像に比例したサイズの画像に対してさらに操作を行った。入力サイズに対する出力サイズが小さい場合には、我々が使用した最初のボックスフィルタに近づいて実行するが、図13の右側に示すように、出力サイズを増加させると数倍遅くなる。
差異
他の改変は、シーンセマンティクスへの無関心に対処し得る。実際に表現されているものを参照することなく、画像の局所構造を見ることは、図14に示すように、非適応型フィルタによって平滑化される入力画像内に存在する雑音のような所望しない詳細の保存につながる可能性がある。図14では、左側から右側に挿入されたものは、原画像、バイキュービックフィルタリング及び我々の結果である。我々の方法はシーンセマンティクスを欠いているので、入力画像内のノイズを保存しようとする。
我々の結果は、鮮明な画像を生成する方法よりも、ギザギザになった縁(図9)及びエイリアシングアーチファクト(図11)が少ないことを示す。しかしながら、画像が高周波で非常に規則的な繰り返し構造を含む場合、エイリアシングが発生する可能性がある。SSIM指標は、指標が0になるので、一定値のパッチを好まない傾向がある。代わりに、我々のアルゴリズムは局所コントラスト及び局所構造を再現しようとする。しかしながら、完全に規則的な構造の場合は、代わりに一定のパッチ値を使用することが好まれる可能性がある。標準的なエイリアシングテストのようなこれらの場合、我々は以前の強化方法によって作成されたものと同様のアーチファクトを得ることができる[Kopf et al.2013]。幸運なことに、このような規則的な構造は、自然な画像には滅多に存在しない。我々は、図11のように、ほとんどの自然画像内に存在する規則的な構造に対する小さい摂動がアーチファクトを壊すことがあることを観察した。
SSIM指数は、画像のぼやけを保存しないことが知られている[Chen et al.2006]。また、サムネイル生成方法とは対照的に、我々の縮小結果には、特に縮小率が高い場合には、入力画像内の同じ量のぼやけが含まれていないことが分かった。我々は、縮小画像の勾配を求めることによって勾配領域内のSSIMの拡張を実験し、続いて、実際の画像を得るためポアソン方程式及びうまくいく可能性のあるいくつかの追加ステップを実験した。
追加のバリエーション
我々は、SSIM指標の基本形式を使用した。局所類似性尺度、パッチの平均化段階を修正する、または特徴と色空間を拡張する、多くの拡張がある。縮小映像は、フィルタの一貫性のためにちらつきが少ないが、SSIM指標の拡張を映像、例えば、速度知覚のモデルに組み込むことによって、より良好な縮小結果を得ることができる[Wang and Li 2007]。画像のスケーリング結果を改善するために、他の知覚的手段を利用することができる。
SSIM指標は、パッチのレベルで画像を表示し、それ自体でシーンセマンティクスに適応することはできない。これにより、図14のノイズ増幅等の問題が生じる。背景/前景分離、シーン内のオブジェクトの特性、または顕著性マップなどのシーンセマンティクスは、パッチを適応的に重み付けするか、またはパラメータ(α,γ)及びパッチサイズを局所的に調整することによって、本発明のアルゴリズムに統合することができる。
結論
縮小結果の知覚品質を最適化することを目的とする画像縮小のための新規な方法が提供される。何百もの画像とユーザ調査を含む広範なテストでは、知覚的に正確で魅力的な縮小結果が生成され、以前の技術よりも性能が優れていることが明確に示されている。その有効性と非線形性にもかかわらず、アルゴリズムは非常に単純で堅牢で効率的かつ並列化可能な実装形態であり、アルゴリズムを画像フィルタの蓄積に対して実用的な追加物にしている。
図15は、本明細書に記載されている縮小のプロセスが、局所コントラスト及び局所輝度を保存しながら、小規模の詳細及びテクスチャを捕捉して、知覚的に正確な縮小画像を作成できることを示す。図16は、ユーザ調査に使用される画像例を示す。図16A及び16Bの各々について、原画像が左側にあり、右側の4の小さな画像は、サブサンプリング(左上)、バイキュービックフィルタリング(右上)、内容適応型縮小(左下)、及び本発明の知覚的な縮小(右下)である。
2つの画像X及びYで計算された平均SSIM(X,7)は、2つの画像間の類似性を測定する測定基準である。平均SSIMの値が高いほど、2つの画像がより似ている。平均SSIMは人間の知覚とよく相関することが示されており、つまり、平均SSIM(X,Y)が高い場合、人間はXとYを非常に類似した画像として認識し、平均SSIM(X,Y)が低い場合、人間はXとYを異なる画像として認識する。一部の画像処理作業では平均SSIMが使用されている。一般に、SSIM(X,Y)を最大化することによって入力画像Yが与えられると、画像Xを最適化することが計算的に要求される。関数SSIM(X,Y)は、対応する2つの画像パッチ(Xから1つ、Yから1つ)の間に定義することができる。次に、この関数を画像で平均して、平均SSIM(X,Y)を得ることができる。
縮小には、最小2乗ノルム、すなわち||X−Y||のようなより単純な測定基準が、画像の一部の表現について、画像XとYとの間の差を測定するために使用されている。よく知られている例は、元の高解像度画像の詳細を除去することによって、平滑な縮小画像を生成する「バイキュービックフィルタ」である。本明細書で説明するように、SSIMを用いて、高解像度画像Hと縮小画像Dとの差を測定することにより、より良好な結果が得られる。
一例として、1000×1000画素を備えた入力高解像度画像Hと、100×100画素を備えた出力縮小画像Dとを検討する。Dからは、X(1000×1000画素)と呼ばれる拡張されたDが、SSIM値を計算する際に使用するために生成される。Xでは、Dの各画素がXの10×10の領域で繰り返される。これは、図3の右上、及び図4で示されている。次に、Xからのパッチ及びHからの対応するパッチを伴う各パッチペア(パッチ(H)、パッチ(X))について、画像プロセッサは、Xの各10×10の領域では同じ画素値を有する(これはDの1つの画素値に対応する)という制約を伴って、パッチ(X)内の画素値を変更することによって、SSIM(パッチ(H)、パッチ(X))の値を最大化しようとする。
通常、これは計算的に要求される複雑な最適化であるが、本明細書に提示された技術を用いて、方程式5によって部分的に示されるように、平均及び標準偏差をマッチングさせたり、共分散を最大化したりなど様々な方法で閉形式解が導出され得る。方程式7には解を示す。画像プロセッサは、画像X及びHのすべてのパッチに対してこれを行う。パッチの組は、図3の下段に示すように、重なり合わないパッチを有する組Sに分割することができる。Dの画素は、Sの1つのパッチにのみ属しているため、その値はSに属する固有のパッチに対してのみ最適化できる。これにより、このSに対して最適な縮小画像Dが得られる。最後に、すべてのパッチを等しく扱うために、異なるSsで最適化されたすべての結果Dsを平均する。この平均化の結果、すなわち画素の最終値は方程式8にある。パッチサイズができるだけ小さく(例えば、Dの2×2、したがってH及びXの2s×2sのように)されている場合、詳細は良好に保存される。
図17は、知覚的に原画像に近い縮小画像が生成されるように、局所詳細を適応的に調整する本発明の縮小方法例を示す。
SSIMベースの最適化及び大域的最適化
任意の(α,γ)について、μ=αμ、σ=γσを設定することにより、最適化問題の解をパラメータ化する。次に、この特定の(a,γ)のSSIM(h,x)を最大にするために、σxhを最大化する。これは、方程式9の以下の制約付き最適化問題に繋がる。
Figure 0006961139
この問題は、以下に示すLagrange乗数法の方法など標準的な方法で解決できる。解は、方程式10で与えられる。
Figure 0006961139
各(a,γ)について、構成要素
Figure 0006961139
を有するdは、共分散σhx、したがってSSIMを最大にする。方程式4のSSIMの式に
Figure 0006961139
の式を代入すると、次の最大SSIMが得られる。
Figure 0006961139
この式は、α=γ=1を選択すると最大になり、大域滴最適化dを与える。したがって、選択肢(α,γ)=(1,1)を有する方程式9の問題の解は、方程式3の元の問題の解と一致する。
方程式の簡略化のために、以下のように定義する。
Figure 0006961139
次に、上記方程式5の問題は、方程式12のように書き直すことができる。
Figure 0006961139
この問題をLagrange乗数法の方法で解決する。したがって、方程式13の関数を最適化する。
Figure 0006961139
e,λ1,λ2に対して導関数をとると、方程式14〜16が得られる。
Figure 0006961139
Figure 0006961139
Figure 0006961139
最後の2つの方程式を組み合わせると、方程式17のようにλ1とλ2を解くことができる。
Figure 0006961139

Figure 0006961139
これらをeの式に代入すると、以下を得る。
Figure 0006961139
したがって、1が1のベクトルを表す方程式20の解を得る。
Figure 0006961139
符号を決定するためには、共分散、したがってaTdを最大にする。式をdに代入すると、このドット積が正符号に対して最大になることがわかる。
操作の疑似コード
ハードウェア及び/またはソフトウェアで実現可能な以下のアルゴリズムでは、操作は、大きな文字で表示された単一チャネル画像上の要素ごとに行われる。関数convValid(X,P(y))は、カーネルが画像の限界内にとどまるように、画像の有効範囲に対してサイズy×yの平均化フィルタで画像Xを畳み込む。関数convFullは似ているが、カーネルが画像の限界から外れるのを許容するために、画像がゼロで埋められていると仮定される。関数subSample(X,y)は、yの間隔で画像Xをサブサンプリングし、Ixは、すべて1でXのサイズの画像を作成し、X(C)は、画像Cの対応するエントリがtrueを返し、ε=10−6である画像Xのすべてのエントリを得る。プロセスへの入力は、入力画像H、縮小係数s及びパッチサイズnである。出力は、縮小画像Dである。このステップは、
Figure 0006961139
一実施形態によれば、本明細書で説明される技術は、ファームウェア、メモリ、他のストレージ、または組み合わせにおけるプログラム命令に従って、この技術を実行するようにプログラムされた1つまたは汎用のコンピューティングシステムによって実装される。デスクトップコンピュータシステム、ポータブルコンピュータシステム、ハンドヘルドデバイス、ネットワーキングデバイス、またはこれらの技術を実装するためのハードワイヤード及び/またはプログラムロジックを組み込んだ他の任意のデバイスなどの、専用コンピューティングデバイスを使用することができる。
例えば、図18は、本発明の一実施形態が実行され得るコンピュータシステム1800を示す。コンピュータシステム1800は、情報を伝達するためのバス1802または他の通信機構と、情報を処理するためにバス1802に結合されたプロセッサ1804とを含む。プロセッサ1804は、例えば、汎用マイクロプロセッサであってもよい。
コンピュータシステム1800はまた、プロセッサ1804によって実行される情報及び命令を格納するためにバス1802に結合されたランダムアクセスメモリ(RAM)または他の動的記憶装置などのメインメモリ1806を含む。メインメモリ1806はまた、プロセッサ1804によって実行される命令の実行中に一時変数または他の中間情報を記憶するために使用されてもよい。このような命令は、プロセッサ1804にアクセス可能な非一時的な記憶媒体に格納された場合、コンピュータシステム1800を命令で指定された動作を実行するようにカスタマイズされた専用マシンにレンダリングする。
コンピュータシステム1800は、プロセッサ1804の静的情報及び命令を格納するために、バス1802に結合された読み出し専用メモリ(ROM)1808または他の静的記憶装置をさらに含む。磁気ディスクまたは光ディスクなどの記憶装置1810が提供され、情報及び命令を格納するためのバス1802に結合される。
コンピュータシステム1800は、コンピュータユーザに情報を表示するために、バス1802を介してコンピュータモニタなどのディスプレイ1812に結合され得る。英数字及び他のキーを含む入力装置1814は、情報及びコマンド選択をプロセッサ1804に通信するためにバス1802に結合される。別のタイプのユーザ入力装置は、マウス、トラックボール、または方向情報及びコマンド選択をプロセッサ1804に伝達し、ディスプレイ1812上のカーソル移動を制御するためのカーソル方向キーなどのカーソル制御手段1816である。この入力装置は、典型的には、装置が平面内の位置を指定することを可能にする第1の軸(例えば、x)及び第2の軸(例えば、y)の2つの軸の2つの自由度を有する。
コンピュータシステム1800は、カスタマイズされたハードワイヤードロジック、1つ以上のASICまたはFPGA、ファームウェア及び/またはコンピュータシステムと組み合わせて、コンピュータシステム1800を専用マシンにするか、またはプログラムするプログラムロジックを使用して、本明細書に記載される技術を実装することができる。一実施形態によれば、本明細書に記載される技術は、メインメモリ1806内に含まれる1つ以上の命令のうちの1つ以上のシーケンスを実行するプロセッサ1804に応答して、コンピュータシステム1800によって実行される。このような命令は、記憶装置1810のような別の記憶媒体からメインメモリ806に読み込まれてもよい。メインメモリ1806に含まれる一連の命令を実行すると、プロセッサ1804は、本明細書に記載されるプロセスステップを実行する。別の実施形態では、ソフトウェア命令の代わりに、またはソフトウェア命令と組み合わせて、ハードワイヤード回路を使用することができる。
本明細書で使用される「記憶媒体」という用語は、マシンを特定の様式で動作させるデータ及び/または命令を記憶する任意の非一時的媒体を指す。このような記憶媒体は、不揮発性媒体及び/または揮発性媒体を含むことができる。不揮発性媒体は、例えば、記憶装置1810などの光学ディスクまたは磁気ディスクを含む。揮発性媒体は、メインメモリ1806のような動的メモリを含む。一般的な形式の記憶媒体には、例えば、フロッピーディスク、フレキシブルディスク、ハードディスク、ソリッドステートドライブ、磁気テープ、または任意の他の磁気データ記憶媒体、CD−ROM、任意の他の光データ記憶媒体、ホールのパターンを備えた物理的媒体、RAM、PROM、EPROM、FLASH−EPROM、NVRAM、他のメモリチップまたはカートリッジを含むことができる。
記憶媒体は、伝送媒体とは異なるが、伝送媒体と共に使用することができる。伝送媒体は、記憶媒体間で情報を転送するのに関与する。例えば、伝送媒体は、バス1802を備えるワイヤーを含む同軸ケーブル、銅線及び光ファイバーを含む。伝送媒体は、電波及び赤外線データ通信中に生成されるような音響波または光波の形態を採ることもできる。
様々な形式の媒体が、実行のためにプロセッサ1804に1つ以上の命令のうちの1つ以上のシーケンスを搬送することに関与することができる。例えば、命令は、最初に、リモートコンピュータの磁気ディスクまたはソリッドステートドライブ上で搬送されてもよい。リモートコンピュータは、命令をその動的メモリにロードし、ネットワーク接続を介して命令を送信することができる。コンピュータシステム1800に局所的なモデムまたはネットワークインタフェースがデータを受信することができる。バス1802は、メインメモリ1806にデータを運び、そこからプロセッサ1804が命令を取り出して実行する。メインメモリ1806によって受信された命令は、任意に、プロセッサ1804による実行の前または後のいずれかに、記憶装置1810に格納されてもよい。
コンピュータシステム1800はまた、バス1802に結合された通信インターフェース1818を含む。通信インターフェース1818は、ローカルネットワーク1822に接続されたネットワークリンク1820に結合する双方向データ通信を提供する。例えば、通信インターフェース1818は、統合サービスデジタルネットワーク(ISDN)カード、ケーブルモデム、衛星モデム、または対応するタイプの電話回線にデータ通信接続を提供するためのモデムであってもよい。無線リンクを実装することもできる。このような実装では、通信インターフェース1818は、様々なタイプの情報を表すデジタルデータストリームを搬送する電気信号、電磁信号、または光信号を送受信する。
ネットワークリンク1820は、通常、1つまたは複数のネットワークを介して他のデータ装置にデータ通信を提供する。例えば、ネットワークリンク1820は、ローカルネットワーク1822を介して、ホストコンピュータ1824またはインターネットサービスプロバイダ(ISP)1826によって操作されるデータ機器への接続を提供することができる。次に、ISP1826は、現在一般に「インターネット」1828と呼ばれるワールドワイドパケットデータ通信ネットワークを介して、データ通信サービスを提供する。ローカルネットワーク1822及びインターネット1828の両方は、デジタルデータストリームを運ぶ電気信号、電磁気信号、または光信号を使用する。様々なネットワークを通る信号、及びコンピュータシステム1800間でデジタルデータを搬送するネットワークリンク1820上の、かつ通信インターフェース1818を通る信号は、伝送媒体の一形態である。
コンピュータシステム1800は、ネットワーク、ネットワークリンク1820及び通信インターフェース1818を介して、メッセージを送信して、プログラムコードを含むデータを受信することができる。インターネットの例では、サーバ1830は、インターネット1828、ISP1826、ローカルネットワーク1822、及び通信インターフェース1818を介して、アプリケーションプログラムの要求されたコードを送信することができる。受信されたコードは、それが受信され、及び/または記憶装置1810に記憶され、または後で実行するために他の不揮発性記憶装置に記憶される時に、プロセッサ1804によって受信されてもよい。
図19は、コンピュータシステム内のプロセッサによってアクセスされ実行され得るアプリケーションを有する記憶装置1948の簡略化された機能ブロック図である。このアプリケーションは、サーバ、クライアントまたは他のプラットフォームまたは装置上で実行する、本明細書に記載されるアプリケーションのうちの1つ以上とすることができる。記憶装置1948は、プロセッサによってアクセスされ得る1つ以上のメモリ装置とすることができ、記憶装置1948は、1つまたは複数のプロセッサ可読命令を格納するように構成され得るアプリケーションコード1950を記憶装置上に格納することができる。アプリケーションコード1950は、アプリケーションロジック1952、ライブラリ機能1954、及びアプリケーションに関連するファイルI/O機能1956を含むことができる。
記憶装置1948はまた、入力変数1964を受信するように構成された1つ以上の記憶場所を含むことができるアプリケーション変数1962を含むことができる。アプリケーション変数1962は、アプリケーションによって生成されるか、またはアプリケーションに対して局所的である変数を含むことができる。アプリケーション変数1962は、例えば、ユーザまたは外部装置またはアプリケーションのような外部ソースから取り出されたデータから生成することができる。プロセッサは、アプリケーションコード1950を実行して、記憶装置1948に提供されるアプリケーション変数1962を生成することができる。
装置データ1966を格納するために、1つ以上のメモリ場所が構成され得る。装置データ1966は、ユーザまたは外部装置などの外部ソースによって供給されるデータを含むことができる。装置データ1966は、例えば、送信される前にまたは受信された後に、サーバ間で渡される記録を含むことができる。
記憶装置1948はまた、アプリケーションの結果またはアプリケーションに提供される入力を記憶するように構成された1つまたは複数の記憶場所1984を有するログファイル1980を含むことができる。例えば、ログファイル1980は、動作の履歴を格納するように構成され得る。
図20は、本明細書に記載されるプロセスを用いて、入力画像ファイル2004を取り込み、出力画像ファイル2006を出力する縮小エンジン2002の一例を示す。内部画像記憶装置2008は、処理されている間の画像データを保持するために使用され、プログラムコード2010は、本明細書に記載される縮小を実行するためのプログラム命令を表す。
本明細書に記載されるプロセスの操作は、本明細書内で他に指示されない限り、あるいは文脈によって明らかに矛盾しない限り、任意の適切な順序で行うことができる。本明細書に記載されるプロセス(またはその変形及び/またはそれらの組み合わせ)は、実行可能な命令で構成された1つまたは複数のコンピュータシステムの制御下で実行され得、かつハードウェアまたはその組み合わせによって、1つまたは複数のプロセッサ上で集合的に実行するコード(例えば、実行可能な命令、1つ以上のコンピュータプログラムまたは1つ以上のアプリケーション)として実行され得る。このコードは、例えば、1つ以上のプロセッサによって実行可能な複数の命令を含むコンピュータプログラムの形式で、コンピュータ可読記憶媒体上に格納されてもよい。このコンピュータ可読記憶媒体は、非一時であってもよい。
特に断らない限り、または文脈によって明らかに矛盾しない限り、「A、B、及びCのうちの少なくとも1つ」または「A、B及びCのうちの少なくとも1つ」の形の句のような結合語は、項目、用語などがAまたはBまたはCのいずれかであるか、またはAとBとCのセットの空でないサブセットであることを示すために一般的に使用されるコンテキストで理解される。例えば、3つの要素を有するセットの例示的な例では、「A、B、及びCのうちの少なくとも1つ」及び「A、B及びCのうちの少なくとも1つ」という結合句は、以下のセットのいずれかを指す:{A}、{B}、{C}、{A、B}、{A、C}、{B、C}、{A、B、C}。したがって、そのような結合語は、ある実施形態が、Aの少なくとも1つ、Bの少なくとも1つ、及びCの少なくとも1つのように各々が存在することを必要とすることを一般に意味するものではない。
本明細書で提供される任意の及びすべての例、または例示的な用語(例えば、「など」)の使用は、単に本発明の実施形態をよりよく示すことを意図し、別段の主張がない限り本発明の範囲を限定するものではない。本明細書中のいかなる文言も、本発明の実施に不可欠な非請求の要素を示すものとして解釈されるべきではない。
前述の明細書では、本発明の実施形態が実装ごとに異なる多数の特定の詳細を参照して説明されている。したがって、明細書及び図面は、限定的ではなく例示的なものとみなされるべきである。本発明の範囲の唯一の排他的なインジケータ、及び本発明の範囲であることが本出願人によって意図されているものは、そのような請求が、それに続く修正を含めて発行される特定の形式で本出願から発行される一組の特許請求の範囲の文字通りの等価な範囲となる。
さらなる実施形態は、本開示を読んだ後に、当業者の一人に想到され得る。他の実施形態では、上記開示された本発明の組み合わせまたは部分的な組み合わせを有利に作製することができる。例示的な構成要素の配置が例示の目的で示されており、本発明の代替の実施形態では、組み合わせ、追加、再配置などが考慮されることを理解されたい。したがって、例示的な実施形態に関して本発明を説明してきたが、当業者であれば、多くの変更が可能であることを認識するであろう。
例えば、本明細書で説明されるプロセスは、ハードウェアコンポーネント、ソフトウェアコンポーネント、及び/またはそれらの任意の組み合わせを使用して実装されてもよい。したがって、明細書及び図面は、限定的ではなく例示的なものとみなされるべきである。しかしながら、特許請求の範囲に記載された本発明のより広い精神及び範囲から逸脱することなく、様々な修正及び変更がなされ得ること、及び本発明が、以下の請求項の範囲内であるすべての修正及び同等物を包含することが意図されることは明らかであろう。
本明細書に引用された刊行物、特許出願、及び特許を含むすべての参考文献は、各参考文献が、参照により個々にかつ具体的に組み入れられることが示され、その全体が本明細書に記載されているのと同程度に参照により本明細書に組み込まれる。

Claims (4)

  1. コンピュータに実装される画像処理エンジンを用いて電子的に読取可能な媒体に記憶された画像を縮小する方法であって、
    第1の解像度で第1の画像サイズを確立する第1の組の画素によって定義される第1の画像を受信するステップであって、前記第1の画像はコンピュータ読取可能な媒体で表現される、ステップと、
    第2の画像を形成するために、前記第1の画像を縮小することによって、第2の解像度で第2の画像サイズを確立する第2の組の画素によって定義される前記第2の画像を生成するステップであって、前記第2の画像は前記コンピュータ読取可能な媒体で表現され、前記第2の組の画素の値は、前記第1の組の画素の関数によって定義され、前記第2の画像サイズは、第1の画像サイズよりも小さい、ステップと、
    前記第2の画像を第3の画像に拡大するステップであって、前記第3の画像は前記コンピュータ読取可能な媒体で表現され、前記第3の画像は、第3の解像度を伴って、前記第1の画像サイズと同じ第3の画像サイズを確立する前記第2の組の画素から導出された第3の組の画素によって定義される、ステップと、
    前記第2の画像の個々の画素を前記第3の組の画素からの対応する画素群と関連付けるステップと、
    第1の画像サンプルを生成するために、前記第1の組の画素の第1の位置で第1の画像領域サイズを有する前記第1の画像の第1の画像領域をサンプリングするステップであって、前記第1の組の画素の前記第1の位置は前記第1の画像サイズより小さい前記第1の画像のパッチの位置を有する、ステップと、
    第2の画像サンプルを生成するために、前記第1の画像領域の前記第1の位置及び前記第1の画像領域サイズに対応する前記第3の組の画素の第2の画像領域をサンプリングするステップであって、前記第2の画像サンプルは複数のパッチを有する第3の画像のサンプルであり、前記複数のパッチの各パッチの画素は他のパッチの画素とは独立に前記コンピュータに実装される画像処理エンジンにより変更されることが可能である、ステップと、
    知覚画像値を生成するために、前記第1の画像サンプル及び前記第2の画像サンプルを処理することによって、前記第1の画像の前記第1の画像領域と前記第3の組の画素の前記第2の画像領域との間の類似度を測定するステップと、
    知覚画像値が事前定義された閾値内の知覚基準値に一致するまで、前記第3の組の画素の値を再帰的に調整するステップと、
    前記第2の画像の個々の画素値を、前記対応する画素群の各々の代表画素値に調整するステップと、
    前記コンピュータ読取可能な媒体に前記第2の画像として前記個々の画素値を記憶するステップと、を含む、方法。
  2. 前記第1の画像の電子的に読み取り可能な表現を受信するための入力、及び前記第2の画像の電子的に読み取り可能な表現を出力するための出力を有するコンピュータシステムと、前記方法に従って、画像データを処理するためのメモリ内に記憶されたプログラム命令を実行するプロセッサと、を使用して実装される、請求項1に記載の方法。
  3. 前記第2の画像領域をサンプリングするステップは、重複しないパッチをサンプリングするステップを含み、前記第2の画像領域をサンプリングするステップは、輝度、コントラスト及び共分散に対応する構成要素を掛け合わせることによって計算される構造類似性指標を使用する、請求項1に記載の方法。
  4. 前記第2の画像の個々の画素値を調整するステップは、
    平均及び分散を任意の固定値に固定することにより前記第2の画像の個々の画素値のパラメータ化された解を計算するステップと、
    前記第2の画像の個々の画素値の最適化された指標値を特定するために、前記任意の固定値を使用して前記構造類似性指標を最適化するステップと、
    前記パラメータ化された解の大域的最適化指標値を特定するために、異なる平均及び分散に対して前記最適化された指標値を計算するステップと、
    を含む、請求項3に記載の方法。
JP2018522887A 2015-07-24 2016-07-23 知覚的な縮小方法を用いて画像を縮小するための画像処理システム Active JP6961139B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US201562196640P 2015-07-24 2015-07-24
PCT/IB2016/054404 WO2017017584A1 (en) 2015-07-24 2016-07-23 Image processing system for downscaling images using perceptual downscaling method

Publications (3)

Publication Number Publication Date
JP2018527687A JP2018527687A (ja) 2018-09-20
JP2018527687A5 JP2018527687A5 (ja) 2019-09-05
JP6961139B2 true JP6961139B2 (ja) 2021-11-05

Family

ID=56615985

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018522887A Active JP6961139B2 (ja) 2015-07-24 2016-07-23 知覚的な縮小方法を用いて画像を縮小するための画像処理システム

Country Status (5)

Country Link
US (1) US10325346B2 (ja)
EP (1) EP3326148A1 (ja)
JP (1) JP6961139B2 (ja)
KR (1) KR20180128888A (ja)
WO (1) WO2017017584A1 (ja)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014207500A1 (en) * 2013-06-24 2014-12-31 Nintendo European Research And Development Brightness-compensating safe pixel art upscaler
US10880566B2 (en) * 2015-08-28 2020-12-29 Boe Technology Group Co., Ltd. Method and device for image encoding and image decoding
JP6885896B2 (ja) * 2017-04-10 2021-06-16 富士フイルム株式会社 自動レイアウト装置および自動レイアウト方法並びに自動レイアウトプログラム
US10715727B2 (en) * 2017-05-16 2020-07-14 Apple Inc. Synthetic long exposure image with optional enhancement using a guide image
KR102442449B1 (ko) * 2017-09-01 2022-09-14 삼성전자주식회사 영상 처리 장치, 영상 처리 방법 및 컴퓨터 판독가능 기록 매체
CN109949255B (zh) * 2017-12-20 2023-07-28 华为技术有限公司 图像重建方法及设备
KR102192392B1 (ko) * 2018-03-26 2020-12-17 아주대학교산학협력단 저 해상도 이미지 보정을 위한 잔차 네트워크 시스템
US10445865B1 (en) * 2018-03-27 2019-10-15 Tfi Digital Media Limited Method and apparatus for converting low dynamic range video to high dynamic range video
CN108921824A (zh) * 2018-06-11 2018-11-30 中国科学院国家空间科学中心 一种基于稀疏化特征提取的彩色图像质量评价方法
US10769039B2 (en) * 2018-12-03 2020-09-08 Himax Technologies Limited Method and apparatus for performing display control of a display panel to display images with aid of dynamic overdrive strength adjustment
US10915746B1 (en) * 2019-02-01 2021-02-09 Intuit Inc. Method for adaptive contrast enhancement in document images
EP3953897A4 (en) * 2019-04-09 2022-12-14 Michael Brown SYSTEM AND METHOD FOR PROCESSING A CAPTURED IMAGE TO FACILITATE POST-PROCESSING EDITING
CN110335215B (zh) * 2019-07-09 2021-07-02 格兰菲智能科技有限公司 图像反走样方法及图像反走样装置
CN110798709B (zh) * 2019-11-01 2021-11-19 腾讯科技(深圳)有限公司 视频处理方法和装置、存储介质及电子装置
CN113313682B (zh) * 2021-05-28 2023-03-21 西安电子科技大学 基于时空多尺度分析的无参考视频质量评价方法
TWI813181B (zh) * 2021-09-09 2023-08-21 大陸商星宸科技股份有限公司 影像處理電路與影像處理方法

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005049834A (ja) * 2003-07-11 2005-02-24 Matsushita Electric Ind Co Ltd メディアデータ表示装置、メディアデータ表示方法およびメディアデータ表示プログラム
CN102037489B (zh) * 2008-05-21 2013-08-21 Tp视觉控股有限公司 图像分辨率增强
US8411948B2 (en) * 2010-03-05 2013-04-02 Microsoft Corporation Up-sampling binary images for segmentation
US8340415B2 (en) * 2010-04-05 2012-12-25 Microsoft Corporation Generation of multi-resolution image pyramids
US8547389B2 (en) * 2010-04-05 2013-10-01 Microsoft Corporation Capturing image structure detail from a first image and color from a second image
US20110317773A1 (en) * 2010-06-24 2011-12-29 Worldplay (Barbados) Inc. Method for downsampling images
ITPD20110376A1 (it) * 2011-11-29 2013-05-30 Sincrotrone Trieste S C P A Metodo per elaborazione di segnali e apparecchiatura per l'esecuzione di tale metodo
CN103514580B (zh) * 2013-09-26 2016-06-08 香港应用科技研究院有限公司 用于获得视觉体验优化的超分辨率图像的方法和***
KR102158390B1 (ko) * 2013-10-22 2020-09-22 삼성전자주식회사 영상 처리 방법 및 장치
JP2015119428A (ja) * 2013-12-19 2015-06-25 キヤノン株式会社 画像処理方法、画像処理装置、撮像装置、画像処理プログラム、および、記憶媒体
KR102195311B1 (ko) * 2014-09-15 2020-12-24 삼성전자주식회사 이미지의 잡음 특성 개선 방법 및 그 전자 장치

Also Published As

Publication number Publication date
JP2018527687A (ja) 2018-09-20
WO2017017584A1 (en) 2017-02-02
EP3326148A1 (en) 2018-05-30
US10325346B2 (en) 2019-06-18
KR20180128888A (ko) 2018-12-04
US20170024852A1 (en) 2017-01-26

Similar Documents

Publication Publication Date Title
JP6961139B2 (ja) 知覚的な縮小方法を用いて画像を縮小するための画像処理システム
Oeztireli et al. Perceptually based downscaling of images
Wang et al. Real-esrgan: Training real-world blind super-resolution with pure synthetic data
Chen et al. Robust image and video dehazing with visual artifact suppression via gradient residual minimization
Yu et al. A unified learning framework for single image super-resolution
US8867858B2 (en) Method and system for generating an output image of increased pixel resolution from an input image
EP3981149A1 (en) Selectively enhancing compressed digital content
US9741096B2 (en) Guided image upsampling using bitmap tracing
US20170109873A1 (en) Image enhancement using self-examples and external examples
CN111667410B (zh) 图像分辨率提升方法、装置及电子设备
KR20100112162A (ko) 고속의 메모리 효율적인 변환 구현 방법
WO2014070273A1 (en) Recursive conditional means image denoising
WO2018225133A1 (ja) 画像処理装置、画像処理方法、および画像処理プログラム
US8629883B2 (en) Method and system for generating online cartoon outputs
Achddou et al. Fully synthetic training for image restoration tasks
WO2020241337A1 (ja) 画像処理装置
Cho et al. Example-based super-resolution using self-patches and approximated constrained least squares filter
Abebe et al. Application of radial basis function interpolation for content aware image retargeting
Liu et al. Soft-introVAE for continuous latent space image super-resolution
CN115471398B (zh) 图像超分辨率方法、***、终端设备及存储介质
Ghimpeteanu et al. Three Approaches to Improve Denoising Results that Do Not Involve Developing New Denoising Methods
Che et al. Adaptive screen content image enhancement strategy using layer-based segmentation
Koloda et al. Iterative denoising-based mesh-to-grid reconstruction with hyperparametric adaptation
Krishnan et al. Guided image upsampling using bitmap tracing
KS Enhancing Visual Realism with Convolutional Neural Networks

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190723

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190723

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20190723

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20191111

A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20191112

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20191126

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20200220

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20200422

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200525

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200901

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20201130

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210105

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20210204

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20210308

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210308

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20210311

R150 Certificate of patent or registration of utility model

Ref document number: 6961139

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150