JP6961139B2

JP6961139B2 - 知覚的な縮小方法を用いて画像を縮小するための画像処理システム

Info

Publication number: JP6961139B2
Application number: JP2018522887A
Authority: JP
Inventors: センギスエスティレリ，アメット; グロス，マルカス
Original assignee: Eidgenoessische Technische Hochschule Zurich ETHZ
Current assignee: Eidgenoessische Technische Hochschule Zurich ETHZ
Priority date: 2015-07-24
Filing date: 2016-07-23
Publication date: 2021-11-05
Anticipated expiration: 2036-07-23
Also published as: JP2018527687A; WO2017017584A1; EP3326148A1; US10325346B2; KR20180128888A; US20170024852A1

Description

関連出願の相互参照
本出願は、２０１５年７月２４日に出願された「ＰｅｒｃｅｐｔｕａｌｌｙＢａｓｅｄＤｏｗｎｓｃａｌｉｎｇｏｆＩｍａｇｅｓ」と題する米国特許仮出願第６２／１９６，６４０号の優先権を主張するものであり、かつこの米国特許仮出願の非仮出願である。上に列挙した出願の全開示は、すべての目的のために、本明細書に完全に記載されているかのように、参照により本明細書に組み込まれる。

本開示は、概して、画像処理に関する。本開示は、より具体的には、縮小された出力画像ファイルを生成するために、入力画像ファイルが処理される、画像の縮小を実行するための装置及び技術に関する。

画像の縮小は、デジタル画像化において常に実行される基本的な動作である。多数の高解像度捕捉デバイス、及び異なる解像度を有する様々なディスプレイは、画像や映像を含むあらゆるアプリケーションの必須コンポーネントになる。しかしながら、この問題はこれまでのところ、他のサンプリング改変ほど実質的に注目されていない。

従来の縮小アルゴリズムは、サンプリング定理に従って、サブサンプリング及びその後の再構成の前に、カーネルとの畳み込みを介して画像を線形フィルタリングすることによって、エイリアシングアーチファクトを最小化することを目的とする［Ｓｈａｎｎｏｎ１９９８］。しかしながら、エイリアシングと共に、これらの戦略はまた、使用されるカーネルが画像内容に対して不確かであるため、知覚的に重要な詳細及び特徴のうちの一部を平滑化する。

この問題に対する解決策は、バイラテラルフィルタリング［ＴｏｍａｓｉａｎｄＭａｎｄｕｃｈｉ１９９８］の精神において、カーネル形状を局所画像パッチに適合させること［Ｋｏｐｆｅｔａｌ．２０１３］であり、そのため、それらは、保存されるべき局所画像特徴とより良好に整合される。この戦略は、画像鮮明化後のフィルタに対する典型的なリンギングアーチファクトを回避しながら、特徴の鮮明さを大幅に向上させることができる。しかしながら、それは、依然として、知覚的に関連する詳細をすべては捕捉することができず、その結果、知覚的に重要な特徴のうちの一部及び入力画像の全体的な外観を変形させるか、またはギザギザになった縁のようなアーチファクトにつながる可能性がある［Ｋｏｐｆｅｔａｌ．２０１３］。

知覚的に重要な特徴及び詳細のうちの一部の損失は、人間の知覚とはほとんど相関しないことが知られている単純な誤差測定基準で動作するこれらの方法の共通の欠点が原因である［ＷａｎｇａｎｄＢｏｖｉｋ２００９］。これらの従来の測定基準を知覚に基づいた画質測定基準に置き換えることによって、画像処理における多くの問題が大幅に改善されている［Ｚｈａｎｇｅｔａｌ．２０１２；Ｈｅｅｔａｌ．２０１４］。

画像の縮小に対する標準的な手法は、ローパスフィルタを適用し、結果をサブサンプリングし、再構成することによって、入力高解像度画像のスペクトル帯域幅を制限することを含む。信号処理においてよく知られているように、これは周波数領域におけるエイリアシングを回避し、平滑な画像特徴のみが所望される場合には最適であるとみなすことができる。Ｌａｎｃｚｏｓフィルタなどの理論的に最適な正弦波フィルタ、または双三次フィルタなどのリンギングアーチファクトを回避するフィルタの近似が、実際には一般的に使用されている［ＭｉｔｃｈｅｌｌａｎｄＮｅｔｒａｖａｌｉ１９８８］。しかしながら、これらのフィルタは、フィルタリングカーネルが画像内容に適合しないので、しばしば過度に平滑化された画像をもたらす。より最近の画像補間技術についても同様である［Ｔｈｅｖｅｎａｚｅｔａｌ．２０００；ＮｅｈａｂａｎｄＨｏｐｐｅ２０１１］。

最近、Ｋｏｐｆｅｔａｌ．［２０１３］は、これらのカーネル形状を局所入力画像内容に適合させることによって、鮮明な詳細を備えた著しくより良好な縮小結果を得ることができることを示した。カーネルは入力画像の特徴とより良好に整合するため、それらは、存在する場合は小規模な詳細を捕捉する。しかしながら、この方法は、特徴の知覚的な重要性を考慮せず、明らかな詳細の損失をもたらし、よって、入力画像のかなり抽象的な表示につながる。実際、この方法は、ピクセルアート画像を生成するための優れた結果を提供することが示されている［Ｋｏｐｆｅｔａｌ．２０１３］。

この画像処理の改善は、満足のいく縮小画像を得るために必要な計算量を低減することができる点において望ましい。
参考文献

ＢＡＮＴＥＲＬＥ，Ｆ．，ＡＲＴＵＳＩ，Ａ．，ＡＹＤＩＮ，Ｔ．，ＤＩＤＹＫ，Ｐ．，ＥＩＳＥＭＡＮＮ，Ｅ．，ＧＵＴＩＥＲＲＥＺ，Ｄ．，ＭＡＮＴＩＵＫ，Ｒ．，ａｎｄＭＹＳＺＫＯＷＳＫＬＫ．２０１１．Ｍｕｌｔｉｄｉｍｅｎｓｉｏｎａｌｉｍａｇｅｒｅｔａｒｇｅｔｉｎｇ．ＩｎＡＣＭＳＩＧＧＲＡＰＨＡｓｉａ２０１１Ｃｏｕｒｓｅｓ，ＡＣＭ，ＡＣＭＳＩＧＧＲＡＰＨＡｓｉａ．

ＢＯＮＮＩＥＲ，Ｎ．，ＳＣＨＭＩＴＴ，Ｆ．，ＢＲＥＴＴＥＬ，Ｈ．，ａｎｄＢＥＲＣＨＥ，Ｓ．２００６．Ｅｖａｌｕａｔｉｏｎｏｆｓｐａｔｉａｌｇａｍｕｔｍａｐｐｉｎｇａｌｇｏｒｉｔｈｍｓ．ＩｎＰｒｏｃ．１４ｔｈＣｏｌｏｒＩｍａｇ．Ｃｏｎｆ．，５６−６１．

ＢＲＵＮＥＴ，Ｄ．，ＶＲＳＣＡＹ，Ｅ．，ａｎｄＷＡＮＧ，Ｚ．２０１０．Ｓｔｒｕｃｔｕｒａｌｓｉｍｉｌａｒｉｔｙ−ｂａｓｅｄａｐｐｒｏｘｉｍａｔｉｏｎｏｆｓｉｇｎａｌｓａｎｄｉｍａｇｅｓｕｓｉｎｇｏｒｔｈｏｇｏｎａｌｂａｓｅｓ．ＩｎＩｍａｇｅＡｎａｌｙｓｉｓａｎｄＲｅｃｏｇｎｉｔｉｏｎ，Ａ．ＣａｍｐｉｌｈｏａｎｄＭ．Ｋａｍｅｌ，Ｅｄｓ．，ｖｏｌ．６１１１ｏｆＬｅｃｔｕｒｅＮｏｔｅｓｉｎＣｏｍｐｕｔｅｒＳｃｉｅｎｃｅ．ＳｐｒｉｎｇｅｒＢｅｒｌｉｎＨｅｉｄｅｌｂｅｒｇ，１１−２２．

ＢＲＵＮＥＴ，Ｄ．，ＶＲＳＣＡＹ，Ｅ．，ａｎｄＷＡＮＧ，Ｚ．２０１２．Ｏｎｔｈｅｍａｔｈｅｍａｔｉｃａｌｐｒｏｐｅｒｔｉｅｓｏｆｔｈｅｓｔｒｕｃｔｕｒａｌｓｉｍｉｌａｒｉｔｙｉｎｄｅｘ．ＩｍａｇｅＰｒｏｃｅｓｓｉｎｇ，ＩＥＥＥＴｒａｎｓ，ｏｎ２１，４（Ａｐｒｉｌ），１４８８−１４９９．

ＢＲＵＮＥＴ，Ｄ．２０１２．ＡＳｔｕｄｙｏｆｔｈｅＳｔｒｕｃｔｕｒａｌＳｉｍｉｌａｒｉｔｙＩｍａｇｅＱｕａｌｉｔｙＭｅａｓｕｒｅｗｉｔｈＡｐｐｌｉｃａｔｉｏｎｓｔｏＩｍａｇｅＰｒｏｃｅｓｓｉｎｇ．ＰｈＤｔｈｅｓｉｓ，ＵｎｉｖｅｒｓｉｔｙｏｆＷａｔｅｒｌｏｏ．

ＣＨＡＩ，Ｌ．，ＳＨＥＮＧ，Ｙ．，ａｎｄＺＨＡＮＧ，Ｉ．２０１４．ＳＳＩＭｐｅｒｆｏｒｍａｎｃｅｌｉｍｉｔａｔｉｏｎｏｆｌｉｎｅａｒｅｑｕａｌｉｚｅｒｓ．ＩｎＡｃｏｕｓｔｉｃｓ，ＳｐｅｅｃｈａｎｄＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇ（ＩＣＡＳＳＰ），２０１４ＩＥＥＥＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎ，１２２０−１２２４．

ＣＨＡＮＮＡＰＰＡＹＹＡ，Ｓ．，ＢＯＶＩＫ，Ａ．，ａｎｄＨＥＡＴＨ，Ｒ．２００６．Ａｌｉｎｅａｒｅｓｔｉｍａｔｏｒｏｐｔｉｍｉｚｅｄｆｏｒｔｈｅｓｔｒｕｃｔｕｒａｌｓｉｍｉｌａｒｉｔｙｉｎｄｅｘａｎｄｉｔｓａｐｐｌｉｃａｔｉｏｎｔｏｉｍａｇｅｄｅｎｏｉｓｉｎｇ．ＩｎＩｍａｇｅＰｒｏｃｅｓｓｉｎｇ，２００６ＩＥＥＥＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎ，２６３７−２６４０．

ＣＨＡＮＮＡＰＰＡＹＹＡ，Ｓ．，ＢＯＶＩＫ，Ａ．，ＣＡＲＡＭＡＮＩＳ，Ｃ．，ａｎｄＨＥＡＴＨ，Ｒ．２００８．ＳＳＩＭ−ｏｐｔｉｍａｌｌｉｎｅａｒｉｍａｇｅｒｅｓｔｏｒａｔｉｏｎ．ＩｎＡｃｏｕｓｔｉｃｓ，ＳｐｅｅｃｈａｎｄＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇ（ＩＣＡＳＳＰ），２００８，ＩＥＥＥＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎ，７６５−７６８．

ＣＨＡＮＮＡＰＰＡＹＹＡ，Ｓ．，ＢＯＶＩＫ，Ａ．，ａｎｄＨＥＡＴＨ，Ｒ．２００８，ＲａｔｅｂｏｕｎｄｓｏｎＳＳＩＭｉｎｄｅｘｏｆｑｕａｎｔｉｚｅｄｉｍａｇｅｓ．ＩｍａｇｅＰｒｏｃｅｓｓｉｎｇ，ＩＥＥＥＴｒａｎｓ，ｏｎ１７，９（Ｓｅｐｔ），１６２４−１６３９．

ＣＨＡＮＮＡＰＰＡＹＹＡ，Ｓ．Ｓ．，ＢＯＶＩＫ，Ａ．Ｃ．，ＣＡＲＡＭＡＮＩＳ，Ｃ，ａｎｄＪＲ．，Ｒ．Ｗ．Ｈ．２００８．Ｄｅｓｉｇｎｏｆｌｉｎｅａｒｅｑｕａｌｉｚｅｒｓｏｐｔｉｍｉｚｅｄｆｏｒｔｈｅｓｔｒｕｃｔｕｒａｌｓｉｍｉｌａｒｉｔｙｉｎｄｅｘ．ＩｍａｇｅＰｒｏｃｅｓｓｉｎｇ，ＩＥＥＥＴｒａｎｓ，ｏｎ１７，６，８５７−８７２．

ＣＨＥＮ，Ｇ．−Ｈ．，ＹＡＮＧ，Ｃ．−Ｌ．，ａｎｄＸＩＥ，Ｓ．−Ｌ．２００６．Ｇｒａｄｉｅｎｔ−ｂａｓｅｄｓｔｒｕｃｔｕｒａｌｓｉｍｉｌａｒｉｔｙｆｏｒｉｍａｇｅｑｕａｌｉｔｙａｓｓｅｓｓｍｅｎｔ．ＩｎＩｍａｇｅＰｒｏｃｅｓｓｉｎｇ，ＩＥＥＥＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎ，２９２９−２９３２．

ＤＥＭＩＲＴＡＳ，Ａ．，ＲＥＩＢＭＡＮ，Ａ，，ａｎｄＪＡＦＡＲＫＨＡＮＩ，Ｈ．２０１４．Ｆｕｌｌ−ｒｅｆｅｒｅｎｃｅｑｕａｌｉｔｙｅｓｔｉｍａｔｉｏｎｆｏｒｉｍａｇｅｓｗｉｔｈｄｉｆｆｅｒｅｎｔｓｐａｔｉａｌｒｅｓｏｌｕｔｉｏｎｓ．ＩｍａｇｅＰｒｏｃｅｓｓｉｎｇ，ＩＥＥＥＴｒａｎｓ，ｏｎ２３，５（Ｍａｙ），２０６９−２０８０．

ＤＩＤＹＫ，Ｐ．，ＲＩＴＳＣＨＥＬ，Ｔ．，ＥＩＳＥＭＡＮＮ，Ｅ．，ａｎｄＭＹＳＺＫＯＷＳＫＩ，Ｋ，２０１２，ＰｅｒｃｅｐｔｕａｌＤｉｇｉｔａｌＩｍａｇｉｎｇ：ＭｅｔｈｏｄｓａｎｄＡｐｐｌｉｃａｔｉｏｎｓ．ＣＲＣＰｒｅｓｓ，ｃｈ．ＥｘｃｅｅｄｉｎｇＰｈｙｓｉｃａｌＬｉｍｉｔａｔｉｏｎｓ：ＡｐｐａｒｅｎｔＤｉｓｐｌａｙＱｕａｌｉｔｉｅｓ．

ＤＯＮＧ，Ｊ．，ａｎｄＹＥ，Ｙ．２０１２．Ａｄａｐｔｉｖｅｄｏｗｎｓａｍｐｌｉｎｇｆｏｒｈｉｇｈ−ｄｅｆｉｎｉｔｉｏｎｖｉｄｅｏｃｏｄｉｎｇ．ＩｎＩＣＩＰ２０１２，２９２５−２９２８．

ＧＥＲＳＴＮＥＲ，Ｔ．，ＤＥＣＡＲＬＯ，Ｄ．，ＡＬＥＸＡ，Ｍ．，ＦＩＮＫＥＬＳＴＥＩＮ，Ａ．，ＧＩＮＧＯＬＤ，Ｙ．，ａｎｄＮＥＡＬＥＮ，Ａ．２０１２．Ｐｉｘｅｌａｔｅｄｉｍａｇｅａｂｓｔｒａｃｔｉｏｎ．ＩｎＮＰＡＲ２０１２，Ｐｒｏｏｆｔｈｅ１０ｔｈＩｎｔｅｒｎａｔｉｏｎａｌＳｙｍｐｏｓｉｕｍｏｎＮｏｎ−ｐｈｏｔｏｒｅａｌｉｓｔｉｃＡｎｉｍａｔｉｏｎａｎｄＲｅｎｄｅｒｉｎｇ．

ＨＥ，Ｌ．，ＧＡＯ，Ｆ．，ＨＯＵ，Ｗ．，ａｎｄＨＡＯ，Ｌ．２０１４．Ｏｂｊｅｃｔｉｖｅｉｍａｇｅｑｕａｌｉｔｙａｓｓｅｓｓｍｅｎｔ：Ａｓｕｒｖｅｙ．Ｉｎｔ．Ｊ．ＣｏｍｍｉｔＭａｔｈ，９１，１１（Ｎｏｖ．），２３７４−２３８８．

ＫＯＰＦ，Ｊ．，ＳＨＡＭＩＲ，Ａ．，ａｎｄＰＥＥＲＳ，Ｐ．２０１３．Ｃｏｎｔｅｎｔ−ａｄａｐｔｉｖｅｉｍａｇｅｄｏｗｎｓｃａｌｉｎｇ．ＡＣＭＴｒａｎｓ．Ｇｒａｐｈ．３２，６（Ｎｏｖ．），１７３：１−１７３：８．

ＫＲＡＷＣＺＹＫ，Ｇ．，ＭＹＳＺＫＯＷＳＫｌ，Ｋ．，ａｎｄＳＥＩＤＥＬ，Ｈ．−Ｐ．２００７．Ｃｏｎｔｒａｓｔｒｅｓｔｏｒａｔｉｏｎｂｙａｄａｐｔｉｖｅｃｏｕｎｔｅｒｓｈａｄｉｎｇ．ＩｎＰｒｏｃ．ｏｆＥｕｒｏｇｒａｐｈｉｃｓ２００７，Ｂｌａｃｋｗｅｌｌ，ｖｏｌ．２６ｏｆＣｏｍｐｕｔｅｒＧｒａｐｈｉｃｓＦｏｒｕｍ．

ＬＩＳＳＮＥＲ，Ｌ，ＰＲＥＩＳＳ，Ｊ，，ＵＲＢＡＮ，Ｐ．，ＬＩＣＨＴＥＮＡＵＥＲ，Ｍ．Ｓ．，ａｎｄＺＯＬＬＩＫＥＲ，Ｐ．２０１３．Ｉｍａｇｅ−ｄｉｆｆｅｒｅｎｃｅｐｒｅｄｉｃｔｉｏｎ：Ｆｒｏｍｇｒａｙｓｃａｌｅｔｏｃｏｌｏｒ．ＩｍａｇｅＰｒｏｃｅｓｓｉｎｇ，ＩＥＥＥＴｒａｎｓ，ｏｎ２２，２，４３５−４４６．

ＬＩＵ，Ｔ．，ＹＵＡＮ，Ｚ．，ＳＵＮ，Ｊ．，ＷＡＮＧ，Ｉ，ＺＨＥＮＧ，Ｎ．，ＴＡＮＧ，Ｘ．，ａｎｄＳＨＵＭ，Ｈ．−Ｙ．２０１１．Ｌｅａｒｎｉｎｇｔｏｄｅｔｅｃｔａｓａｌｉｅｎｔｏｂｊｅｃｔ．ＰａｔｔｅｒｎＡｎａｌｙｓｉｓａｎｄＭａｃｈｉｎｅＩｎｔｅｌｌｉｇｅｎｃｅ，ＩＥＥＥＴｒａｎｓ，ｏｎ３３，２（Ｆｅｂ），３５３−３６７．

ＭＩＴＣＨＥＬＬ，Ｄ．Ｐ．，ａｎｄＮＥＴＲＡＶＡＬＩ，Ａ．Ｎ．１９８８．Ｒｅｃｏｎｓｔｒｕｃｔｉｏｎｆｉｌｔｅｒｓｉｎｃｏｍｐｕｔｅｒ−ｇｒａｐｈｉｃｓ．ＩｎＰｒｏｃ．ｏｆＳＩＧＧＲＡＰＨ ‘８８，ＡＣＭ，ＮｅｗＹｏｒｋ，ＮＹ，ＵＳＡ，２２１−２２８．

ＮＥＨＡＢ，Ｄ．，ａｎｄ ΗＯΡΡΕ，Ｈ．２０１１．Ｇｅｎｅｒａｌｉｚｅｄｓａｍｐｌｉｎｇｉｎｃｏｍｐｕｔｅｒｇｒａｐｈｉｃｓ．Ｔｅｃｈ．Ｒｅｐ．ＭＳＲ−ＴＲ−２０１１−１６，Ｆｅｂｒｕａｒｙ．

ＯＧＡＷＡ，Ｔ．，ａｎｄＨＡＳＥＹＡＭＡ，Ｍ．２０１３．Ｉｍａｇｅｉｎｐａｉｎｔｉｎｇｂａｓｅｄｏｎｓｐａｒｓｅｒｅｐｒｅｓｅｎｔａｔｉｏｎｓｗｉｔｈａｐｅｒｃｅｐｔｕａｌｍｅｔｒｉｃ．ＥＵＲＡＳＩＰＪｏｕｒｎａｌｏｎＡｄｖａｎｃｅｓｉｎＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇ２０１３，１．

ＰＡＮＧ，Ｗ．−Ｍ．，ＱＵ，Ｙ，ＷＯＮＧ，Ｔ．−Ｔ．，ＣＯＨＥＮ−ＯＲ，Ｄ．，ａｎｄＨＥＮＧ，Ｐ．−Ａ．２００８．Ｓｔｒｕｃｔｕｒｅ−ａｗａｒｅｈａｌｆｔｏｎｉｎｇ．ＡＣＭＴｒａｎｓ．Ｇｒａｐｈ．２７，３（Ａｕｇ．），８９：１−８９：８．

ＰＯＬＥＳＥＬ，Ａ．，ＲＡＭＰＯＮＩ，Ｇ．，ａｎｄＭＡＴＨＥＷＳ，Ｖ．Ｊ．１９９７．Ａｄａｐｔｉｖｅｕｎｓｈａｒｐｍａｓｋｉｎｇｆｏｒｃｏｎｔｒａｓｔｅｎｈａｎｃｅｍｅｎｔ．ＩｎＩＣＩＰ ‘９７３−ＶｏｌｕｒｎｅＳｅｔ−Ｖｏｌｕｍｅ１−Ｖｏｌｕｍｅ１，ＩＥＥＥＣｏｍｐｕｔｅｒＳｏｃｉｅｔｙ，Ｗａｓｈｉｎｇｔｏｎ，ＤＣ，ＵＳＡ，２６７−．

ＲＥＨＭＡＮ，Ａ．，ＷＡＮＧ，Ｚ．，ＢＲＵＮＥＴ，Ｄ．，ａｎｄＶＲＳＣＡＹ，Ｅ．２０１１．ＳＳＩＭ−ｉｎｓｐｉｒｅｄｉｍａｇｅｄｅｎｏｉｓｉｎｇｕｓｉｎｇｓｐａｒｓｅｒｅｐｒｅｓｅｎｔａｔｉｏｎｓ．ＩｎＡｃｏｕｓｔｉｃｓ，ＳｐｅｅｃｈａｎｄＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇ（ＩＣＡＳＳＰ），２０１１ＩＥＥＥＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎ，１１２１−１１２４．

ＲＩＴＳＣＨＥＬ，Ｔ．，ＳＭＩＴＨ，Ｋ．，ＩＨＲＫＥ，Ｍ．，ＧＲＯＳＣＨ，Ｔ．，ＭＹＳＺＫＯＷＳＫｌ，Ｋ．，ａｎｄＳＥＩＤＥＬ，Ｈ．−Ｐ．２００８．３ＤＵｎｓｈａｒｐＭａｓｋｉｎｇｆｏｒＳｃｅｎｅＣｏｈｅｒｅｎｔＥｎｈａｎｃｅｍｅｎｔ．ＡＣＭＴｒａｎｓ．Ｇｒａｐｈ．（Ｐｒｏｃ．ｏｆＳＩＧＧＲＡＰＨ２００８）２７，３．

ＳＨＡＮＮＯＮ，Ｃ．１９９８．Ｃｏｍｍｕｎｉｃａｔｉｏｎｉｎｔｈｅｐｒｅｓｅｎｃｅｏｆｎｏｉｓｅ．Ｐｒｏｃ．ｏｆｔｈｅＩＥＥＥ８６，２（Ｆｅｂ），４４７−４５７．

ＳＨＡＯ，Ｙ，，ＳＵＮ，Ｆ．，ＬＩ，Ｈ．，ａｎｄＬＩＵ，Ｙ．２０１４．Ｓｔｒｕｃｔｕｒａｌｓｉｍｉｌａｒｉｔｙ−ｏｐｔｉｍａｌｔｏｔａｌｖａｒｉａｔｉｏｎａｌｇｏｒｉｔｈｍｆｏｒｉｍａｇｅｄｅｎｏｉｓｉｎｇ．ＩｎＦｏｕｎｄａｔｉｏｎｓａｎｄＰｒａｃｔｉｃａｌＡｐｐｌｉｃａｔｉｏｎｓｏｆＣｏｇｎｉｔｉｖｅＳｙｓｔｅｍｓａｎｄＩｎｆｏｒｍａｔｉｏｎＰｒｏｃｅｓｓｉｎｇ，ｖｏｌ．２１５．ＳｐｒｉｎｇｅｒＢｅｒｌｉｎＨｅｉｄｅｌｂｅｒｇ，８３３−８４３．

ＳＩＬＶＥＳＴＲＥ−ＢＬＡＮＥＳ，Ｊ．２０１１．Ｓｔｒｕｃｔｕｒａｌｓｉｍｉｌａｒｉｔｙｉｍａｇｅｑｕａｌｉｔｙｒｅｌｉａｂｉｌｉｔｙ：Ｄｅｔｅｒｍｉｎｉｎｇｐａｒａｍｅｔｅｒｓａｎｄｗｉｎｄｏｗｓｉｚｅ．ＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇ９１，４，１０１２−１０２０．

ＳＭＩＴＨ，Ｋ．，ＬＡＮＤＥＳ，Ｐ．−Ｅ．，ＴＨＯＬＬＯＴ，Ｊ．，ａｎｄＭＹＳＺＫＯＷＳＫＩ，Ｋ．２００８．Ａｐｐａｒｅｎｔｇｒａｙｓｃａｌｅ：Ａｓｉｍｐｌｅａｎｄｆａｓｔｃｏｎｖｅｒｓｉｏｎｔｏｐｅｒｃｅｐｔｕａｌｌｙａｃｃｕｒａｔｅｉｍａｇｅｓａｎｄｖｉｄｅｏ．ＣｏｍｐｕｔｅｒＧｒａｐｈｉｃｓＦｏｒｕｍ（Ｐｒｏｃ．ｏｆＥｕｒｏｇｒａｐｈｉｃｓ２００８）２７，２（ＡＰＲ）．

ＴＨ´ＥＶＥＮＡＺ，Ｐ．，ＢＬＵ，Ｔ．，ａｎｄＵＮＳＥＲ，Ｍ．２０００．Ｉｎｔｅｒｐｏｌａｔｉｏｎｒｅｖｉｓｉｔｅｄ．ＭｅｄｉｃａｌＩｍａｇｉｎｇ，ＩＥＥＥＴｒａｎｓ，ｏｎ１９，７，７３９−７５８．

ＴＯＭＡＳＩ，Ｃ，ａｎｄＭＡＮＤＵＣＨＩ，Ｒ，１９９８．Ｂｉｌａｔｅｒａｌｆｉｌｔｅｒｉｎｇｆｏｒｇｒａｙａｎｄｃｏｌｏｒｉｍａｇｅｓ．ＩｎＣｏｍｐｕｔｅｒＶｉｓｉｏｎ，１９９８．ＳｉｘｔｈＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎ，８３９−８４６．

ＴＲＥＮＴＡＣＯＳＴＥ，Ｍ．，ＭＡＮＴＩＵＫ，Ｒ，ａｎｄＨＥＩＤＲＩＣＨ，Ｗ．２０１１．Ｂｌｕｒ−ＡｗａｒｅＩｍａｇｅＤｏｗｎｓｉｚｉｎｇ．ＩｎＰｒｏｃ．ｏｆＥｕｒｏｇｒａｐｈｉｃｓ．

ＷＡＮＧ，Ｚ．，ａｎｄＢＯＶＩＫ，Ａ．２００９．Ｍｅａｎｓｑｕａｒｅｄｅｒｒｏｒ：Ｌｏｖｅｉｔｏｒｌｅａｖｅｉｔ？Ａｎｅｗｌｏｏｋａｔｓｉｇｎａｌｆｉｄｅｌｉｔｙｍｅａｓｕｒｅｓ．ＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇＭａｇａｚｉｎｅ，ＩＥＥＥ２６，１（Ｊａｎ），９８−１１７．

ＷＡＮＧ，Ｚ．，ａｎｄＬＩ，Ｑ．２００７．Ｖｉｄｅｏｑｕａｌｉｔｙａｓｓｅｓｓｍｅｎｔｕｓｉｎｇａｓｔａｔｉｓｔｉｃａｌｍｏｄｅｌｏｆｈｕｍａｎｖｉｓｕａｌｓｐｅｅｄｐｅｒｃｅｐｔｉｏｎ．Ｊ．Ｏｐｔ．Ｓｏｃ．Ａｍ．Ａ２４，１２，Ｂ６１Ｂ６９．

ＷＡＮＧ，Ｚ．，ＢＯＶＩＫ，Ａ，，ＳＨＥＩＫＨ，Ｈ．，ａｎｄＳＩＭＯＮＣＥＬＬＩ，Ｅ．２００４．Ｉｍａｇｅｑｕａｌｉｔｙａｓｓｅｓｓｍｅｎｔ：ｆｒｏｍｅｒｒｏｒｖｉｓｉｂｉｌｉｔｙｔｏｓｔｒｕｃｔｕｒａｌｓｉｍｉｌａｒｉｔｙ．ＩｍａｇｅＰｒｏｃｅｓｓｉｎｇ，ＩＥＥＥＴｒａｎｓ，ｏｎ１３，４（Ａｐｒｉｌ），６００−６１２．

ＷＡＮＧ，Ｓ．，ＲＥＨＭＡＮ，Ａ．，ＷＡＮＧ，Ｚ．，ＭＡ，Ｓ．，ａｎｄＧＡＯ，Ｗ．２０１１．Ｒａｔｅ−ＡＡＩＭｏｐｔｉｍｉｚａｔｉｏｎｆｏｒｖｉｄｅｏｃｏｄｉｎｇ．ＩｎＡｃｏｕｓｔｉｃｓ．ＳｐｅｅｃｈａｎｄＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇ（ＩＣＡＳＳＰ），２０１１ＩＥＥＥＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎ，８３３−８３６．

ＷＵ，Ｘ，，ＺＨＡＮＧ，Ｘ．，ａｎｄＷＡＮＧ，Ｘ，２００９．Ｌｏｗｂｉｔ−ｒａｔｅｉｍａｇｅｃｏｍｐｒｅｓｓｉｏｎｖｉａａｄａｐｔｉｖｅｄｏｗｎ−ｓａｍｐｌｉｎｇａｎｄｃｏｎｓｔｒａｉｎｅｄｌｅａｓｔｓｑｕａｒｅｓｕｐｃｏｎｖｅｒｓｉｏｎ．Ｔｒａｎｓ．Ｉｍｇ．Ｐｒｏｃ．１８，３（Ｍａｒ．），５５２−５６１．

ＹＥＧＡＮＥＨ，Ｈ．２０１４．ＣｒｏｓｓＤｙｎａｍｉｃＲａｎｇｅａｎｄＣｒｏｓｓＲｅｓｏｌｕｔｉｏｎＯｂｊｅｃｔｉｖｅＩｍａｇｅＱｕａｌｉｔｙＡｓｓｅｓｓｍｅｎｔｗｉｔｈＡｐｐｌｉｃａｔｉｏｎｓ．ＰｈＤｔｈｅｓｉｓ，ＵｎｉｖｅｒｓｉｔｙｏｆＷａｔｅｒｌｏｏ．

ＺＨＡＮＧ，Ｙ，，ＺＨＡＯ，Ｄ．，ＺＨＡＮＧ，Ｊ．，ＸＩＯＮＧ，Ｒ．，ａｎｄＧＡＯ，Ｗ．２０１１．Ｉｎｔｅｒｐｏｌａｔｉｏｎ−ｄｅｐｅｎｄｅｎｔｉｍａｇｅｄｏｗｎｓａｍｐｌｉｎｇ．ＩｍａｇｅＰｒｏｃｅｓｓｉｎｇ，ＩＥＥＥＴｒａｎｓ，ｏｎ２０，１１（Ｎｏｖ），３２９１−３２９６．

ＺＨＡＮＧ，Ｌ．，ＺＨＡＮＧ，Ｌ．，ＭＯＵ，Ｘ．，ａｎｄＺＨＡＮＧ，Ｄ，２０１２．Ａｃｏｍｐｒｅｈｅｎｓｉｖｅｅｖａｌｕａｔｉｏｎｏｆｆｕｌｌｒｅｆｅｒｅｎｃｅｉｍａｇｅｑｕａｌｉｔｙａｓｓｅｓｓｍｅｎｔａｌｇｏｒｉｔｈｍｓ．ＩｎＩＣＩＰ２０１２，１４７７−１４８０．

ＺＨＯＵ，Ｆ．，ａｎｄＬＩＡＯ，Ｑ．２０１５．Ｓｉｎｇｌｅ−ｆｒａｍｅｉｍａｇｅｓｕｐｅｒ−ｒｅｓｏｌｕｔｉｏｎｉｎｓｐｉｒｅｄｂｙｐｅｒｃｅｐｔｕａｌｃｒｉｔｅｒｉａ．ＩｍａｇｅＰｒｏｃｅｓｓｉｎｇ．ＩＥＴ９，１，１−１１．

画像プロセッサは、第１の画像を入力して、第２の画像を第３の画像に拡大することであって、第３の画像は、第３の解像度を伴って、第１の画像サイズと実質的に同じサイズである第３の画像サイズを確立する第２の組の画素から導出される第３の組の画素によって定義され、拡大することと、第２の画像の個々の画素を、第３の組の画素からの対応する画素群に関連付けることと、第１の画像サンプルを生成するために、第１の組の画素の第１の位置で第１の画像領域をサンプリングすることと、２の画像サンプルを生成するために、第１の画像領域の位置及びサイズに対応する第３の組の画素の第２の画像領域をサンプリングすることと、知覚画像値を生成するために、第１の画像サンプル及び第２の画像サンプルを処理することによって、第１の画像領域と第２の画像領域との間の類似度を測定することと、画像知覚値が事前定義された閾値内の知覚基準値に一致するまで第３の組の画素値を再帰的に調整することと、第２の画像内の個々の画素値を、対応する画素群の各々の代表画素値に調整することと、によって、縮小された第２の画像を出力する。

以下の発明を実施するための形態及び添付の図面は、本発明の性質及び利点のより良好な理解を提供する。

本開示による様々な実施形態が、図面を参照して説明される。

縮小のアーチファクトを示す。縮小のアーチファクトを示す。縮小に対する様々な手法を示す。縮小に対する様々な手法を示す。画像の縮小エンジンが区分的に一定の補間を実行するために使用するプロセスを示す。エンジンが様々な値を計算するために実行するプロセスを示す。フィルタリング後の画像鮮明化後を示す。縮小画像についてパッチサイズの影響を示す。偏差の結果を示す。異なるパッチによって最適化された画像例を示す。絵画の額縁の縮小エッジを示す。画像処理の他の態様を示す。画像処理の他の態様を示す。ユーザ調査結果を示す。テスト結果を示す。画像の平滑化を示す。縮小結果を示す。ユーザ調査に使用される画像例を示す。ユーザ調査に使用される画像例を示す。局所詳細を適応して調整する縮小例。本発明の実施形態を実装することができるコンピュータシステムを示すブロック図である。本発明の実施形態を実装することができるコンピュータシステム内のプロセッサによってアクセス及び実行され得るアプリケーションを有する記憶装置の簡略化された機能ブロック図である。本明細書で説明するプロセスを用いて、入力画像ファイルを取り込み、出力画像ファイルを出力する、縮小エンジンの一例を示す。

本明細書で説明する実施形態では、画像処理エンジンは、画像を入力し、それを処理し、出力画像が入力画像よりも小さい解像度の出力画像を出力し、知覚的に好ましい方法で画像を出力する、すなわちアーチファクトを最小化する。

図１は、そのようなアーチファクトの一部を示す。図１Ａ及び１Ｂの各々では、左側には入力画像があり、右側には縮小画像が４つある。サブサンプリング出力画像、バイキュービック出力画像及び内容適応型出力画像は、従来型の手法を用いるのに対し、知覚出力画像は、本明細書で説明する新規で改良された技術をより詳細に用いる。

サブサンプリング出力画像は、サブサンプリング及びその後の再構成の前に、カーネルとの畳み込みを介して画像を線形フィルタリングする従来の縮小アルゴリズムを使用して作成され得るが、使用されるカーネルが画像内容に対して不確かであるため、知覚的に重要な詳細及び特徴のうちの一部を平滑化するという結果をもたらすことができる。

カーネル形状は、局所画像パッチに対して非依存的で、画像鮮明化後のフィルタに対する典型的なリンギングアーチファクトを回避しながら、特徴の鮮明さを向上させることができるが、依然として、知覚的に関連する詳細をすべては捕捉することができず、その結果、内容適応型出力画像などの場合、知覚的に重要な特徴のうちの一部及び入力画像の全体的な外観を変形させる可能性がある。バイキュービック出力画像もまた、望ましくないアーチファクトに至る。

以下でより詳細に説明するように、知覚画像は、知覚的に重要な特徴及び原画像の全体的な外観を保存する。標準測定基準の代わりに、知覚的画質測度を処理に使用することができる。

画像の縮小に対する標準的な手法は、ローパスフィルタを適用し、結果をサブサンプリングし、再構成することによって、入力高解像度画像のスペクトル帯域幅を制限することを含む。信号処理においてよく知られているように、これは周波数領域におけるエイリアシングを回避し、平滑な画像特徴のみが所望される場合には最適であるとみなすことができる。Ｌａｎｃｚｏｓフィルタなどの理論的に最適な正弦波フィルタ、または双三次フィルタなどのリンギングアーチファクトを回避するフィルタの近似が、実際には一般的に使用されている。しかしながら、これらのフィルタは、フィルタリングカーネルが画像内容に適合しないので、しばしば過度に平滑化された画像をもたらす。

自然な画像の場合、本明細書で説明される方法は、知覚的な測定基準を組み込むことによって、著しく良好に機能し、高解像度入力画像のより鮮明な描写を提供することができる。これらの方法はまた、より不確かなエイリアシングアーチファクトでより良好な時空間整合性を提供し、単純かつ堅牢な実装で桁違いに高速で実行し、計算資源を節約する。

縮小演算子はまた、他の関連問題に対しても設計されている。いくつかのアルゴリズムは、縮小演算子とフィルタを次の拡大に使用される補間方法に注意深く調和させる。これらの方法は、縮小画像自体の知覚品質には実際には対応していない。サムネイル生成は、不完全性、特に原画像のぼやけを保存して、縮小画像からの正確な品質評価を試みる。対照的に、縮小問題は、入力画像の重要な詳細及び全体的な外観を保存するために、ぼやけを選択的に調整するものとみなすことができる。別の関連するアルゴリズムのセットは、画像内容を慎重に修正することにより、画像内の前景オブジェクトなどの重要な部分を保存しながら、入力画像のアスペクト比を変更することによって、画像を再標的化することに対処する［Ｂａｎｔｅｒｌｅｅｔａｌ．２０１１］。

本明細書に記載された実施形態は、原画像の画像内容に近い画像内容を維持し、再標的化アルゴリズムが通常設計するよりもはるかに多くの対象解像度低減を行うことができる。画像抽象化方法を使用して、カラーパレットと同様に解像度を下げることによって、ピクセルアートなどの入力画像の芸術的描写を生成することができる［Ｇｅｒｓｔｎｅｒｅｔａｌ．２０１２］。本明細書に記載される実施形態は、入力画像の現実的な描写を対象とすることによって、より良好な結果を提供する。

本明細書で説明するように、画像処理エンジンは、誤差測定基準としてＳＳＩＭを用いた最適化問題として、画像の縮小を扱うことができる。これは、知覚的に重要な特徴を保存するために、重要な利点を提供することができる。また、縮小問題に閉形式解を導出することができる。これは、入力画像のより明らかな描写を提供する、画像を縮小する知覚的に基づく方法を提供する。画像の縮小は、入力画像と出力画像との間の差が知覚的画質測定基準を用いて測定される最適化問題として扱うことができる。縮小画像は、知覚的に重要な特徴及び詳細を保持し、高解像度入力の正確で時空間的に一貫した表現をもたらす。我々の縮小方法は、他の測定基準では捕捉できない、知覚的に重要な細かな詳細と特徴を保存し、原画像をより良好に描写する鮮明な画像をもたらす。

画像処理エンジンは、総計と畳み込みを伴う単純で効率的かつ並列化可能な実装に繋がる、閉形式の最適化問題の解を導出することができる。このプロセスは、線形フィルタリングと同様のコンピュータ実行時間を有し、画像の縮小のための最先端技術よりも桁違いに高速である。本明細書では、この技術の有効性の検証に、本明細書に説明されたプロセスの結果に対する明確な嗜好を示す多くの画像、映像及びユーザ調査の結果による、広範なテストからのテスト結果が提供されている。

縮小問題は、入力画像が与えられた縮小された出力画像について解く最適化として扱われる。２つの画像間の誤差は、構造類似性（ＳＳＩＭ）指標を用いて測定される［Ｗａｎｇｅｔａｌ．２００４］。最適化問題におけるＳＳＩＭの使用は、得られる非線形非凸誤差関数によって妨げられてきた［Ｂｒｕｎｅｉｅｔａｌ．２０１２］。しかしながら、本明細書で説明するように、縮小問題については、この最適化に対する閉形式解を導出することが可能である。この解決策は、非線形フィルタに繋がり、これは、入力画像の原画像と平滑化画像の局所輝度とコントラスト測定値を計算することを含む。フィルタは、いかなる共分散項も有しないＳＳＩＭとは一見違っているが、原画像と縮小画像との間の平均ＳＳＩＭを最大にする。

縮小画像は、自然画像に対して妨害エイリアシングアーチファクトを示さず、カーネル最適化に基づく方法より時空間的により一貫性がある［Ｋｏｐｆｅｔａｌ．２０１３］。これにより、エンジンが映像の縮小にも技術を適用することができる。結果として得られるプロセスは、総計と畳み込みを伴う非常に単純で、効率的で、並列化可能な実装を有する。したがって、従来のフィルタリング方法に類似した計算上の複雑さを有し、最先端技術よりも桁違いに高速である。［Ｋｏｐｆｅｔａｌ．２０１３］。

平均平方誤差などの標準誤差測定基準は、画像の差異を測定する際の人間の知覚との相関が良くないことがよく知られている［ＷａｎｇａｎｄＢｏｖｉｋ２００９］。代わりに、画質及び映像品質の評価のために、様々な知覚ベースの画質測定基準が提案されている。完全参照品質測定基準は、入力画像を品質評価のために利用可能な基準画像と比較できるという仮定を指す。縮小問題については、入力画像が基準であり、縮小された出力が評価される画像である。

エンジンは、最も広く使用され、かつ成功した完全参照画質測定基準の１つである［Ｂｒｕｎｅｔｅｔａｌ．２０１２］が、他の測定基準も同様にまたは代わりに使用できる、構造類似性（ＳＳＩＭ）指標を使用する［Ｗａｎｇｅｔａｌ．２００４］。ＳＳＩＭは、局所輝度、コントラスト、及び構造の比較による２つの画像間のマッチングスコアを表す。高解像度入力画像Ｈが与えられると、エンジンは、ＳＳＩＭ指標によって測定されるように、できるだけＨに近い縮小された出力画像Ｄを見出そうとする。画像ＨとＤとの間の非類似度測定値は、ｄ（Ｈ、Ｄ）と表される。目標は、この測定値ｄ（Ｈ、Ｄ）を最小にする画像Ｄ^＊である。この測定は、Ｈ及びＤの各画素がダイナミックレンジ［０、１］の単一の数を含むように、単一チャネル画像である画像を使用して取得することができ、さらに、簡単化のために、Ｈの幅及び高さが整数因子ｓによって縮小されてＤを生成すると仮定する。実際の縮小係数が整数でない場合、エンジンは、係数が整数になるように、バイキュービックフィルタリングによって入力画像を前処理し、かつ拡大することができる。マルチチャネル画像についても同様の手法が取られる。

図２は、縮小に対する様々な手法を示す。図２Ａは、入力画像であり、図２Ｂは、出力画像のうちの８例を示し、右下のものは、知覚測定基準を最適化することによって作成される。ボックスフィルタやバイキュービックフィルタなど、一般的に使用される縮小用フィルタは、結果的に過度の平滑化をもたらす。画像鮮明化後の縮小画像（鮮明型画像）によって、またはＬａｎｃｚｏｓフィルタの使用によって過度の平滑化を回避する試みは、リンギングアーチファクトに繋がり、小規模の特徴は依然として回復されない。一般化されたサンプリング［ＮｅｈａｂａｎｄＨｏｐｐｅ２０１１］及び内容適応型の縮小［Ｋｏｐｆｅｔａｌ２０１３］は、鮮明な画像を作成することはできるが、知覚的に重要な詳細を保存することはできない。他のものとは対照的に、知覚測定基準を用いることで、この測定基準によって測定される知覚的に最適な画像が生成される。

ほとんどの画質評価方法は、空間解像度の異なる画像を比較するようには設計されていない［Ｙｅｇａｎｅｈ２０１４］。解像度の異なる画像には、高解像度画像を縮小する、または低解像度の画像を拡大するという２つの一般的で単純な手法がある。［Ｄｅｍｉｒｔａｓｅｔａｌ．２０１４］。Ｈに存在する情報を失わないために、エンジンは、Ｈと同じ次元を有する拡大された画像Ｘを形成するためにＤを拡大する。

図３は、区分的に一定の補間を実行するために、エンジンが使用するプロセスを示し、Ｄの各画素はＸのｓ^２画素で複製され、左上には入力高解像度画像Ｈ（１６×１６画素）があり、中央の縮小画像Ｄ（４×４画素）と、右側には、その縮尺変更されたバージョン（１６×１６画素）がある。Ｄの各画素はＸの１６画素で複製される。また、「パッチセット」も示されている。パッチセットＳ_ｋ（ｋ＝１、２〜ｎ_ｐ）は、重ならないパッチ（タイル）を含む。この例では、Ｄに２×２のパッチがあるので、ｎ_ｐ＝４である。パッチセットは、Ｘ及びＨにおいて４画素だけシフトされ、これはＤにおける１つの画素のシフトに対応する。

ＳＳＩＭ指標は、画像の局所的パッチ間で計算された類似度の局所的尺度である。したがって、これらの類似度スコアは、すべてのパッチについて合計され、平均ＳＳＩＭを計算する。画像Ｘのｉ番目のパッチをＰ_ｉ（Ｘ）で表すと、縮小問題は、Ｄの１つの画素に対応する各画素群が同じ画素値を有するという制約を伴うパッチのうちの一部の組Ｓについて、方程式１を満たす最適なＸ^＊を見つけるものとしてそのように記述することができる。

Ｘの画素値は［０，１］に制限される必要はなく、最適化されたＤはダイナミックレンジの外に、無視できるほど小さな画素数を含むことができる。パッチの形状及び組は、考えられる用途に応じて様々な方法で定義することができる［Ｓｉｌｖｅｓｔｒｅ−Ｂｌａｎｅｓ２０１１］。所与のパッチサイズｎ_ｐについて、エンジンは、幅（及び高さ）に関して可能な正方形パッチすべての組Ｓを使用する

（画像限界内に完全にはないパッチを除く）が、各パッチの組が重複しないパッチのみを含むようなパッチの組では、Ｓはすべてのパッチの組Ｓ_ｋの和集合である。最終的なＸ^＊は、異なるパッチの組について方程式１の問題の解

を平均することによって計算される。ｓ^２画素の各グループは実際にはＤの１つの画素に対応するので、Ｄの整数パッチシフトはＨ及びＸのｓだけシフトする。ｎ_ｐ＝４の小さな例示的な画像のためのパッチの組Ｓ_ｋは、図３の最下段に示されている。この解は、本明細書で説明されているように、選択されたｎ_ｐを伴う他のパッチの組の選択肢に対してあまり逸脱しない。

図４は、様々な値を計算するためにエンジンが実行するプロセスを示す。出力された縮小画像パッチＰ（Ｄ）内の各画素ｄ_ｉは、画素Ｐ（Ｘ）及びＰ（Ｈ）内のｓ^２画素の組Ｄ_ｉにマッピングされる。Ｐ（Ｘ）のＤ_ｉ内のｓ^２画素はすべて、値ｄ_ｉを有する。Ｓ内のパッチは重なり合わないので、各パッチの画素は、他のパッチとは独立して最適化することができる。したがって、Ｓ_ｋにおけるパッチＰについて、画像Ｘの最適パッチＰ^＊（Ｘ）は、方程式２によって与えられる。

パッチの画素は、エンジンによって、ベクトルｈ及びｘ上のスタックとして表すことができる。同様に、ｘに対応するＤの画素はｄで表され、Ｄのパッチにおけるｉ番目の画素に対応するＰ（Ｘ）の画素の組は、図４のようにＤ_ｉで表すことができる。したがって、ｘ＝Ｖｄであり、Ｖのｊ番目のｖ_ｉは、ｘ_ｊ∈Ｄ_ｉならは１であり、そうでなければ０である。次いで、上記計算は、方程式３のように表すことができる。

ＳＳＩＭ指標は、輝度、コントラスト、及び共分散に基づく比較に対応する３つの構成要素を掛け合わせることによって計算される。広く使用されているＳＳＩＭの形式は、方程式４のように［Ｂｒｕｎｅｔｅｔａｌ．２０１２］によって与えられ、μｘ＝Σｗ_ｉｘ_ｉは平均を表し、

分散を表し、σ_ｘｈ＝Σｗ_ｉ（ｘ_ｉ−μ_ｘ）（ｈ_ｉ−μ_ｈ）は重みｗ_ｉとの共分散であり、ｘ_ｉはｘのｉ番目の構成要素を表す。

値ｃ１及びｃ２は、不安定さを避けるために追加された小さな定数である。式の簡略化のために、また実際に使用される小さな値は縮小問題の結果に影響を与えないので、定数はｃ１＝ｃ２＝０として設定することができる。ｘ_ｉとｈ_ｉは［０，１］内にあるので、ＳＳＩＭ（ｘ，ｈ）∈［０，１］である。ｘ＝ｈのときは１であり、パッチの類似度が低くなるにつれて減少する。ここでは、非類似度ｄ（ｈ，ｘ）をｌ−ＳＳＩＭ（ｈ，ｘ）と定義することができる。

ｄ（・，・）は、距離関数ではなく、凸関数でもない。方程式３の問題を直接解決しようとするのではなく、元の問題に解をパラメータ化することによって、解決しやすい別の問題を定義する。具体的には、ｘの平均μ_ｘと分散σ_ｘを任意の値に固定し、σ_ｘｈだけをＳＳＩＭの自由項として残す（方程式４）。したがって、これらの制約の下で、σ_ｘｈを最適化することで、この副次的問題に最適なものを得ることができる。最後に、大域的最適化を与えるμ_ｘとσ_ｘとを見つける。以下で詳述するように、μ_ｘ＝μ_ｈ及びσ_ｘ＝σ_ｈを設定し、方程式５を解くことによって大域滴最適化を得ることができる。

ｘ＝Ｖｄであるので、μ_ｘ、σ_ｘ、σ_ｘｈの項もｄの項で表すことができることに留意されたい。例えば、

をμ_ｘ＝ｗ^Ｔｘ＝（Ｖ^Ｔｗ）^Ｔｄ＝ｍ^Ｔｄと書くことができる。同様に、ＭがＭ_ｉｉ＝ｍ_ｉ、及び

の対角行列である

である。これらの置換によって、方程式５の計算は方程式６の計算になり、その解は

で方程式７に提供される。

ＳＳＩＭベースの最適化と大域的最適化についての詳解は、以下を参照すること。平均を固定することによってＳＳＩＭ指標を含む最適化問題の解は、反復法を用いて最適値が検索される他の用途に利用されている［Ｃｈａｎｎａｐｐａｙｙａｅｔａｌ．２００８ａ；ＯｇａｗａａｎｄＨａｓｅｙａｍａ２０１３：Ｓｈａｏｅｔａｌ．２０１４］。しかしながら、閉形式解は、単純な画像モデル、またはフーリエ型基底の拡張［Ｂｒｕｎｅｉｅｔａｌ．２０１０］に対してしか導出できない［Ｃｈａｎｎａｐｐａｙｙａｅｔａｌ．２００６；Ｃｈａｉｅｔａｌ．２０１４］。画像Ｈ及びＤ、または基底ベクトルｖ_ｉは、本明細書に記載された技術を用いてこれら解に必要な特性を満たさないが、縮小問題の構造に対する閉形式解を導き出すことができる。

出力画像Ｄの各画素について、その画素に重なる各パッチからの最適値が存在する。これらのパッチの各々は、異なるパッチの組Ｓ_ｋに属する。画素の最終値は、これらの値を平均することによって求められる。重みｗ_ｉは、通常ガウス分布または一定のウィンドウから取られる［Ｓｉｌｖｅｓｔｒｅ−Ｂｌａｎｅｓ２０１１；Ｂｒｕｎｅｔ２０１２］。後者に続いて、パッチはかなり小さいので、重みは１に均一に加算されると仮定することができる。次に、画像Ｄ内のｉ番目の画素の値（ｉはＤ内のグローバルインデックスとして定義される）は、Ｐ_ｋがこの画素と重なるｎ_ｐ個のパッチを示す方程式８に示される通りである。

方程式８における最適画像の形式は、入力画像Ｈ上の非線形フィルタである。このフィルタは、ＳＳＩＭ指標によって測定された知覚的に最適な方法で画像内容に適応する。エンジンは、このフィルタを実装するための手段またはプログラム命令を含む。解の構成は、局所的な構造類似性を最大にしながら、入力画像Ｈの局所輝度及びコントラストを保存することを明らかにする。フィルタは非線形であるが、以下に示す擬似コードによって説明されるように、方程式８から明らかな一連の線形演算を用いて実施することができる。

説明及び分析
我々は、平均化されたｌｉ値に適用された適応型アンシャープマスキングフィルタとして方程式８を見ることができ［Ｐｏｌｅｓｅｌｅｔａｌ．１９９７］、画像鮮明化係数は、入力画像の標準偏差の比

を用いて局所画像内容、及びそれをフィルタリングしたものに非線形に依存する。したがって、この比は、局所特徴を保存するために、参照画像としてＨを使用して適応的にフィルタを調整する。参照画像から抽出された画素に関するコントラスト測定値と組み合わされたアンシャープマスキングは、レンダリングされたシーン［Ｒｉｔｓｃｈｅｌｅｔａｌ．２００８］だけでなく、トーンマッピング［Ｋｒａｗｃｚｙｋｅｔａｌ．２００７］またはカラーからグレースケールへの変換［Ｓｍｉｔｈｅｔａｌ．２００８］によって生成される画像を強調するための優れた結果を以前に生成しており、ここでのＳＳＩＭ最適フィルタは、縮小問題の類似項に繋がる。

図５は、フィルタリング後の画像鮮明化後を示す。右上の画像では、画像鮮明化は深刻なリンギングをもたらし、背景では小規模の詳細を捕捉することができない。Ｌａｎｃｚｏｓフィルタ（右中央の画像）は、リンギングを減らすことはできるが、依然として詳細をうまく捕捉できない。本明細書に記載される方法（右下の画像）は、入力画像内の局所内容を利用して、詳細を保存しながらアーチファクトを回避する。

フィルタリング後の画像鮮明化後のステップを用いることによってより鮮明な結果を得ようとする試み、又は正弦波フィルタをより良好に近似することによってより鮮明な結果を生成するフィルタは、画像縮小に使用される場合、アーチファクトをもたらすことがよく知られている［Ｋｏｐｆｅｔａｌ．２０１３］。本明細書に記載される方法は、このような問題を回避し、画像特徴をより良好に保存することに繋がる。フィルタリング後の画像鮮明化後は、前景オブジェクトの深刻なリンギングに繋がり、同時に背景のコントラストは保存されない。この手法は、画像鮮明化フィルタが縮小画像を強調するために、元の高解像度画像からの情報を使用することができないため、根本的に不利益である。Ｌａｎｃｚｏｓフィルタはアーチファクトを減らすが、背景を保存することはできない。方程式８で導出されたフィルタの適応性は、確実にリンギングアーチファクトを回避しながら、特徴のすべてを保存する。

多くのパラメータが変更される可能性があるが、主な自由パラメータはパッチサイズｎ_ｐであり、一般に、結果を人間の視覚システムの応答と最もよく相関させるためにＳＳＩＭのパッチサイズを決定することは困難な問題である。しかしながら、最近の研究では、画像の複雑さが増すにつれて、ウィンドウのサイズが縮小されることが確認されている［Ｓｉｌｖｅｓｔｒｅ−Ｂｌａｎｅｓ２０１１］。縮小問題については、可能な限り入力画像Ｈ内の局所構造を捕捉することが重要である。しかしながら、縮小係数ｓが増加すると、Ｈのパッチサイズ

も大きくなる。したがって、我々の問題については、２×２パッチに対して、パッチサイズｎ_ｐを可能な限り小さく、例えばｎ_ｐ＝４に保持することが好ましい。同様の結論は、適応型アンシャープマスクとしてフィルタの解釈に由来する。この場合のパッチの平均化された平均値

に対応する、アンシャープマスキングの平滑化された画像は、より低い周波数帯域を捕捉するためにより平滑化され得る。しかしながら、多くの低帯域は既にＤで捕捉されている。さらに、パッチサイズが大きくなるにつれて、標準偏差の比が減少し、強調が少なくなる。

図６は、縮小画像に対するパッチサイズの影響を示す。パッチサイズを左から右に増やすことで、小規模な特徴の損失を示す。これらの例では、左から右に、パッチサイズは２^２、８^２及び３２^２である。パッチサイズが大きくなるにつれて、小規模な特徴が失われる。画像全体が１つのパッチによって覆われる限界では、コントラストσ_ｈとσ_ｌがほぼ正確に一致できるので、縮小画像はｌ_ｉによって与えられるフィルタリングされた画像に近づく。

最適化では、Ｄのピクセルの値が［０，１］に収まるように制限されていないため、このダイナミックレンジの外の値を有する一部の画素が生じることがある。しかしながら、実際は最適解に対する平均偏差と標準偏差が一致するため、これらの画素の割合とダイナミックレンジまでのそれらの距離は、自然画像に対して無視できる。

図７ではこの点を示している。上のグラフについては、異なる７サイズで３０００個のランダムな自然画像に対するダイナミックレンジの外の画素値の割合が示されている。下のグラフは、入力画像及びサイズの各々について、平均化によってすべてのＳ_ｋを用いて生成された縮小画像と、個々のＳ_ｋを用いて生成された縮小画像との間の平均ＳＳＩＭ指標及び平均標準偏差が計算されることを示す。図７は、上のグラフにあるような画像及びサイズの組によって、これらの値のヒストグラムを示す。両方の測定値は、異なる組での最適化は、解が大幅に変更されないことを示している。２×２の小さなパッチサイズで作業しても、パッチの組の選択に顕著な違いはない。異なるパッチの組Ｓ_ｋ及びその平均について、結果として得られた最適化画像（ＳＳＩＭ最適画像）は、ほぼ同一である。図７では、平均ＳＳＩＭ指数及び平均標準偏差の分布は、平均画像（本発明者らの解）と、異なるＳ_ｋで最適化された画像との間で、３０００画像及び７サイズの同一の組について計算されて示される。両方の測定値は、結果として得られる画像がほぼ同一であることを示している。

図８は、異なるＳ_ｋで最適化された例示的な画像を示す。これら画像は、ほぼ同一であり、テクスチャが大きく高い周波数変動を有する一部のパッチにおいて、わずかに異なる。

一部のパッチについては、σｊ＝０となるように強度ｌ_ｉを一定にすることができる。これらの場合、解によって必要とされるように、ダイのコントラストを一致させる方法がなく、平均のみをマッチングさせることができる。したがって、σｌ＜１０^−６のパッチでは、このパッチ内の縮小画像の画素値をパッチの平均μ_ｈに設定する。

ＳＳＩＭは、単一チャネルの画像に対して定義されるが、抽出された特徴を利用したり［Ｌｉｓｓｎｅｒｅｔａｌ．２０１３］、または様々な色空間で作業したりして［Ｂｏｎｎｉｅｒｅｔａｌ．２００６］探索する研究もある。エンジンはすべての画像処理にＲＧＢ空間を使用し、縮小を各チャネルに独立して適用することができる。
結果

我々は、何千もの画像と多くの異なる縮小係数、詳細な分析、既存方法との比較、正式なユーザ調査など、我々の方法の実用的価値を検証するために多数の実験を行った。
縮小結果と分析

我々の技術は、人間の観察者が見ると、入力画像内に類似した構造を形成する局所画素パターンを生成する。この効果は、入力画像内に、知覚的に重要な特徴（図１、１０のような）、テクスチャ（図１５、１６のような）または他の小規模な詳細（図１、２、１５、１６、１７）がある場合に最も顕著である。できるだけ多くの構造を捕捉しようとする一方で、入力画像の局所コントラスト及び輝度も保存するので、縮小画像の全体的な外観を入力画像に近づけることができる（例えば、図１、１６）。

エンジンによって実行される縮小プロセスは、既にローパスフィルタによって捕捉されている特徴を著しく変更することはない。これにより、以前の縮小方法よりもギザギザのになったアーチファクトが少なくなる。例えば、図９は、絵の額縁の縮小を示す。左右の入力画像が４つの出力画像になる。図９の右側の上から下まで、出力画像は、それぞれ原画像、バイキュービックフィルタリング、内容適応型縮小及び我々のプロセスによって行われる。我々のプロセスは、詳細をより良好に保存しながら、ギザギザのエッジ効果を軽減する。我々の方法は、エッジをわずかに強調して、結果として内容適応型の方法よりもアーチファクトを少なくし、一部の詳細が縮小画像内の画素量で捕捉できない場合は、それらは、ネイティブ解像度で見た場合、モアレパターンとは反対でサブサンプリングと同様の入力画像内の詳細に似ているノイズのような構造にマッピングされる。

図１１は、左側の画像がバイキュービックフィルタリングされていて、中間の画像がサブサンプリングされている（モアレパターンが表示されている）ものであり、我々の結果は、モアレパターンなしのものである。この方法は時空間でも一貫性があり、図１の右側及び図１０に明瞭に示されるように、特徴の正確な表現につながる。バイキュービックフィルタリングなどの従来のフィルタリング方法も一貫性があるが、鮮明な画像を生成することはできない。カーネルを局所画像特徴に一致させること［Ｋｏｐｆｅｔａｌ．２０１３］は、より鮮明な結果を生成することができるが、結果として生じるカーネルは、図１０でのように一部の特徴を欠いたり、変形させたりする可能性があり、入力画像の小さな変化は、映像を縮小するときに処理する必要があるため、増幅されたり、フリッカが発生したりすることがある。図１０中央の３つの画像の組では、上側は原画像であり、真ん中は内容適応型縮小であり［Ｋｏｐｆｅｔａｌ．２０１３］、下側は我々の結果である。特徴は我々の方法でそのまま保持される。

画質測定値として使用される場合、ＳＳＩＭ指標と人間の知覚との相関に関する多くの研究がある［ＷａｎｇａｎｄＢｏｖｉｋ２００９］。しかしながら、我々の縮小に関する特有の問題は、目的に合った正式なユーザ調査を必要とした。ユーザ調査の様式は、使用された画像と様式に関する選択肢すべてを含み、Ｋｏｐｆｅｔａｌ．［２０１３］によって行われた以前の調査の様式に従う。

この調査は、参加者に大きな画像とその画像の２つの縮小版を提示することに基づく。参加者は次に、大きい画像のうちのより良好な縮小表示版を表すと思う小さな画像を選択するか、または好みの画像がないことを示すように求められる。各テストで提示された小さな画像のうちの１つは、本明細書に記載された我々のプロセスを用いて計算される。他方は、サブサンプリング、クラシックボックス、バイキュービック、Ｌａｎｃｚｏｓフィルタリング、バイラテラルフィルタリング、一般化サンプリング［ＮｅｈａｂａｎｄＨｏｐｐｅ２０１１］、及び内容適応型縮小［Ｋｏｐｆｅｔａｌ．２０１３］などの異なるプロセスによって計算される。この調査には１２５名の参加者がいた。

この調査で使用された１３の自然画像は、もともとＭＳＲＡのＳａｌｉｅｎｔＯｂｊｅｃｔＤａｔａｂａｓｅ［Ｌｉｕｅｔａｌ．２０１１］からのものであり、以前の調査で用いられた画像と同じである［Ｋｏｐｆｅｔａｌ．２０１３］。図１６に一部の例の結果を示す。それらは、構造の異なる種類及び規模の様々なシーンに及ぶ。画像はディスプレイのネイティブ解像度で示され、ズームは提供されなかった。大きな画像の長辺は４００画素、小さな画像の長辺は１２８画素である。この調査は、世界中の様々な地域、学歴、職業、及びコンピュータを有する参加者からオンラインで行われた。以前の調査［Ｋｏｐｆｅｔａｌ．２０１３］と同様に、現実の状況で実際に起こるように、参加者が所望する場合は参加者を画面に近づけることができた。特定の参加者に対する各テストには異なる画像を含も、一貫性を確認するために２回繰り返した。８０％未満の一貫性を有する被験者から得られたすべての結果は廃棄され［Ｋｏｐｆｅｔａｌ．Ｋｏｐｆｅｔａｌ。２０１３］、６４名の参加者からの結果を残している（結果は他の拒絶率ではあまり変わらない）。調査を終了する時間制限はなかった。

図１２は、ユーザ調査の結果を示す。３つのバーの各グループにおいて、左のバーは、我々のプロセスによって行われた縮小画像をユーザが何回選択したかを表し、真ん中のバーは、どれも好みではないことをユーザが何回示したかを表し、右のバーは、他のプロセスを好むことをユーザが何回示したかを表す。この調査では、競合する方法に対する我々のプロセスの結果について明確な好みが示された。競合する縮小方法で最良のものは、単純なサブサンプリングであり、以前の調査でも同様であった［Ｋｏｐｆｅｔａｌ．２０１３］。サブサンプリングにはフィルタリングが含まれていないため、言うまでもなく、よく知られている強いエイリアシングアーチファクトを費やして、画像の鮮明な外観を保存する。これらのアーチファクトが見えないユーザ調査画像では、参加者は、どの画像を選択するべきかを決定することができなかった。アーチファクトが目立つ他の画像については、我々の画像に対して明確な好みがある。したがって、我々のプロセスは、サブサンプリングのように画像の鮮明な外観を保存するが、可視エイリアシングアーチファクトはない。

実装形態及び性能
ここでの方法は、入力画像上の非線形フィルタに基づくことができ、単純な畳み込み及び総計で非常に効率的かつ堅牢に実施することができる。

プロセスの疑似コードは、以下でさらに提供される。このプロセスは、ネイティブＭａｔｌａｂ演算子を伴うＭａｔｌａｂで実装され、その中には複数のＣＰＵコアを使用するものもある。ＩｎｔｅｌＣｏｒｅｉ７３７７０ＫＣＰＵ＠３５０ＧＨｚを使用して、コンピュータ上で無作為に選んだ１００枚の画像で性能テストを行った。Ｋｏｐｆｅｔａｌ．［２０１３］の方法は、ネイティブ実行可能なものとして実行された。異なる入力画像サイズ（出力画像サイズは８０×６０に固定）及び異なる出力サイズ（入力画像サイズは６４０×４８０）でのテスト結果が図１３に報告されている。

我々のプロセスは、我々がアルゴリズムの実装に使用したボックスフィルタよりもわずかに数倍遅く、反復的な期待値最大化に基づく最適化に依存する、Ｋｏｐｆｅｔａｌ．［２０１３］の方法よりも５００〜５０００倍高速である。このテストでは、エンジンは２つのボックスフィルタリングを実行した後、入力画像に対してサブサンプリングを行い、擬似コードに見られるように、出力画像に比例したサイズの画像に対してさらに操作を行った。入力サイズに対する出力サイズが小さい場合には、我々が使用した最初のボックスフィルタに近づいて実行するが、図１３の右側に示すように、出力サイズを増加させると数倍遅くなる。

差異
他の改変は、シーンセマンティクスへの無関心に対処し得る。実際に表現されているものを参照することなく、画像の局所構造を見ることは、図１４に示すように、非適応型フィルタによって平滑化される入力画像内に存在する雑音のような所望しない詳細の保存につながる可能性がある。図１４では、左側から右側に挿入されたものは、原画像、バイキュービックフィルタリング及び我々の結果である。我々の方法はシーンセマンティクスを欠いているので、入力画像内のノイズを保存しようとする。

我々の結果は、鮮明な画像を生成する方法よりも、ギザギザになった縁（図９）及びエイリアシングアーチファクト（図１１）が少ないことを示す。しかしながら、画像が高周波で非常に規則的な繰り返し構造を含む場合、エイリアシングが発生する可能性がある。ＳＳＩＭ指標は、指標が０になるので、一定値のパッチを好まない傾向がある。代わりに、我々のアルゴリズムは局所コントラスト及び局所構造を再現しようとする。しかしながら、完全に規則的な構造の場合は、代わりに一定のパッチ値を使用することが好まれる可能性がある。標準的なエイリアシングテストのようなこれらの場合、我々は以前の強化方法によって作成されたものと同様のアーチファクトを得ることができる［Ｋｏｐｆｅｔａｌ．２０１３］。幸運なことに、このような規則的な構造は、自然な画像には滅多に存在しない。我々は、図１１のように、ほとんどの自然画像内に存在する規則的な構造に対する小さい摂動がアーチファクトを壊すことがあることを観察した。

ＳＳＩＭ指数は、画像のぼやけを保存しないことが知られている［Ｃｈｅｎｅｔａｌ．２００６］。また、サムネイル生成方法とは対照的に、我々の縮小結果には、特に縮小率が高い場合には、入力画像内の同じ量のぼやけが含まれていないことが分かった。我々は、縮小画像の勾配を求めることによって勾配領域内のＳＳＩＭの拡張を実験し、続いて、実際の画像を得るためポアソン方程式及びうまくいく可能性のあるいくつかの追加ステップを実験した。

追加のバリエーション
我々は、ＳＳＩＭ指標の基本形式を使用した。局所類似性尺度、パッチの平均化段階を修正する、または特徴と色空間を拡張する、多くの拡張がある。縮小映像は、フィルタの一貫性のためにちらつきが少ないが、ＳＳＩＭ指標の拡張を映像、例えば、速度知覚のモデルに組み込むことによって、より良好な縮小結果を得ることができる［ＷａｎｇａｎｄＬｉ２００７］。画像のスケーリング結果を改善するために、他の知覚的手段を利用することができる。

ＳＳＩＭ指標は、パッチのレベルで画像を表示し、それ自体でシーンセマンティクスに適応することはできない。これにより、図１４のノイズ増幅等の問題が生じる。背景／前景分離、シーン内のオブジェクトの特性、または顕著性マップなどのシーンセマンティクスは、パッチを適応的に重み付けするか、またはパラメータ（α，γ）及びパッチサイズを局所的に調整することによって、本発明のアルゴリズムに統合することができる。

結論
縮小結果の知覚品質を最適化することを目的とする画像縮小のための新規な方法が提供される。何百もの画像とユーザ調査を含む広範なテストでは、知覚的に正確で魅力的な縮小結果が生成され、以前の技術よりも性能が優れていることが明確に示されている。その有効性と非線形性にもかかわらず、アルゴリズムは非常に単純で堅牢で効率的かつ並列化可能な実装形態であり、アルゴリズムを画像フィルタの蓄積に対して実用的な追加物にしている。

図１５は、本明細書に記載されている縮小のプロセスが、局所コントラスト及び局所輝度を保存しながら、小規模の詳細及びテクスチャを捕捉して、知覚的に正確な縮小画像を作成できることを示す。図１６は、ユーザ調査に使用される画像例を示す。図１６Ａ及び１６Ｂの各々について、原画像が左側にあり、右側の４の小さな画像は、サブサンプリング（左上）、バイキュービックフィルタリング（右上）、内容適応型縮小（左下）、及び本発明の知覚的な縮小（右下）である。

２つの画像Ｘ及びＹで計算された平均ＳＳＩＭ（Ｘ，７）は、２つの画像間の類似性を測定する測定基準である。平均ＳＳＩＭの値が高いほど、２つの画像がより似ている。平均ＳＳＩＭは人間の知覚とよく相関することが示されており、つまり、平均ＳＳＩＭ（Ｘ，Ｙ）が高い場合、人間はＸとＹを非常に類似した画像として認識し、平均ＳＳＩＭ（Ｘ，Ｙ）が低い場合、人間はＸとＹを異なる画像として認識する。一部の画像処理作業では平均ＳＳＩＭが使用されている。一般に、ＳＳＩＭ（Ｘ，Ｙ）を最大化することによって入力画像Ｙが与えられると、画像Ｘを最適化することが計算的に要求される。関数ＳＳＩＭ（Ｘ，Ｙ）は、対応する２つの画像パッチ（Ｘから１つ、Ｙから１つ）の間に定義することができる。次に、この関数を画像で平均して、平均ＳＳＩＭ（Ｘ，Ｙ）を得ることができる。

縮小には、最小２乗ノルム、すなわち｜｜Ｘ−Ｙ｜｜^２のようなより単純な測定基準が、画像の一部の表現について、画像ＸとＹとの間の差を測定するために使用されている。よく知られている例は、元の高解像度画像の詳細を除去することによって、平滑な縮小画像を生成する「バイキュービックフィルタ」である。本明細書で説明するように、ＳＳＩＭを用いて、高解像度画像Ｈと縮小画像Ｄとの差を測定することにより、より良好な結果が得られる。

一例として、１０００×１０００画素を備えた入力高解像度画像Ｈと、１００×１００画素を備えた出力縮小画像Ｄとを検討する。Ｄからは、Ｘ（１０００×１０００画素）と呼ばれる拡張されたＤが、ＳＳＩＭ値を計算する際に使用するために生成される。Ｘでは、Ｄの各画素がＸの１０×１０の領域で繰り返される。これは、図３の右上、及び図４で示されている。次に、Ｘからのパッチ及びＨからの対応するパッチを伴う各パッチペア（パッチ（Ｈ）、パッチ（Ｘ））について、画像プロセッサは、Ｘの各１０×１０の領域では同じ画素値を有する（これはＤの１つの画素値に対応する）という制約を伴って、パッチ（Ｘ）内の画素値を変更することによって、ＳＳＩＭ（パッチ（Ｈ）、パッチ（Ｘ））の値を最大化しようとする。

通常、これは計算的に要求される複雑な最適化であるが、本明細書に提示された技術を用いて、方程式５によって部分的に示されるように、平均及び標準偏差をマッチングさせたり、共分散を最大化したりなど様々な方法で閉形式解が導出され得る。方程式７には解を示す。画像プロセッサは、画像Ｘ及びＨのすべてのパッチに対してこれを行う。パッチの組は、図３の下段に示すように、重なり合わないパッチを有する組Ｓ_ｉに分割することができる。Ｄの画素は、Ｓ_ｉの１つのパッチにのみ属しているため、その値はＳ_ｉに属する固有のパッチに対してのみ最適化できる。これにより、このＳ_ｉに対して最適な縮小画像Ｄが得られる。最後に、すべてのパッチを等しく扱うために、異なるＳ_ｉｓで最適化されたすべての結果Ｄｓを平均する。この平均化の結果、すなわち画素の最終値は方程式８にある。パッチサイズができるだけ小さく（例えば、Ｄの２×２、したがってＨ及びＸの２ｓ×２ｓのように）されている場合、詳細は良好に保存される。

図１７は、知覚的に原画像に近い縮小画像が生成されるように、局所詳細を適応的に調整する本発明の縮小方法例を示す。

ＳＳＩＭベースの最適化及び大域的最適化
任意の（α，γ）について、μ_ｘ＝αμ_ｈ、σ_ｘ＝γσ_ｈを設定することにより、最適化問題の解をパラメータ化する。次に、この特定の（ａ，γ）のＳＳＩＭ（ｈ，ｘ）を最大にするために、σ_ｘｈを最大化する。これは、方程式９の以下の制約付き最適化問題に繋がる。

この問題は、以下に示すＬａｇｒａｎｇｅ乗数法の方法など標準的な方法で解決できる。解は、方程式１０で与えられる。

各（ａ，γ）について、構成要素

を有するｄ^＊は、共分散σ_ｈｘ、したがってＳＳＩＭを最大にする。方程式４のＳＳＩＭの式に

の式を代入すると、次の最大ＳＳＩＭが得られる。

この式は、α＝γ＝１を選択すると最大になり、大域滴最適化ｄ^＊を与える。したがって、選択肢（α，γ）＝（１，１）を有する方程式９の問題の解は、方程式３の元の問題の解と一致する。

方程式の簡略化のために、以下のように定義する。

次に、上記方程式５の問題は、方程式１２のように書き直すことができる。

この問題をＬａｇｒａｎｇｅ乗数法の方法で解決する。したがって、方程式１３の関数を最適化する。

ｅ，λ１，λ２に対して導関数をとると、方程式１４〜１６が得られる。

最後の２つの方程式を組み合わせると、方程式１７のようにλ１とλ２を解くことができる。

これらをｅの式に代入すると、以下を得る。

したがって、１が１のベクトルを表す方程式２０の解を得る。

符号を決定するためには、共分散、したがってａＴｄを最大にする。式をｄに代入すると、このドット積が正符号に対して最大になることがわかる。
操作の疑似コード

ハードウェア及び／またはソフトウェアで実現可能な以下のアルゴリズムでは、操作は、大きな文字で表示された単一チャネル画像上の要素ごとに行われる。関数ｃｏｎｖＶａｌｉｄ（Ｘ，Ｐ（ｙ））は、カーネルが画像の限界内にとどまるように、画像の有効範囲に対してサイズｙ×ｙの平均化フィルタで画像Ｘを畳み込む。関数ｃｏｎｖＦｕｌｌは似ているが、カーネルが画像の限界から外れるのを許容するために、画像がゼロで埋められていると仮定される。関数ｓｕｂＳａｍｐｌｅ（Ｘ，ｙ）は、ｙの間隔で画像Ｘをサブサンプリングし、Ｉｘは、すべて１でＸのサイズの画像を作成し、Ｘ（Ｃ）は、画像Ｃの対応するエントリがｔｒｕｅを返し、ε＝１０^−６である画像Ｘのすべてのエントリを得る。プロセスへの入力は、入力画像Ｈ、縮小係数ｓ及びパッチサイズｎ_ｐである。出力は、縮小画像Ｄである。このステップは、

一実施形態によれば、本明細書で説明される技術は、ファームウェア、メモリ、他のストレージ、または組み合わせにおけるプログラム命令に従って、この技術を実行するようにプログラムされた１つまたは汎用のコンピューティングシステムによって実装される。デスクトップコンピュータシステム、ポータブルコンピュータシステム、ハンドヘルドデバイス、ネットワーキングデバイス、またはこれらの技術を実装するためのハードワイヤード及び／またはプログラムロジックを組み込んだ他の任意のデバイスなどの、専用コンピューティングデバイスを使用することができる。

例えば、図１８は、本発明の一実施形態が実行され得るコンピュータシステム１８００を示す。コンピュータシステム１８００は、情報を伝達するためのバス１８０２または他の通信機構と、情報を処理するためにバス１８０２に結合されたプロセッサ１８０４とを含む。プロセッサ１８０４は、例えば、汎用マイクロプロセッサであってもよい。

コンピュータシステム１８００はまた、プロセッサ１８０４によって実行される情報及び命令を格納するためにバス１８０２に結合されたランダムアクセスメモリ（ＲＡＭ）または他の動的記憶装置などのメインメモリ１８０６を含む。メインメモリ１８０６はまた、プロセッサ１８０４によって実行される命令の実行中に一時変数または他の中間情報を記憶するために使用されてもよい。このような命令は、プロセッサ１８０４にアクセス可能な非一時的な記憶媒体に格納された場合、コンピュータシステム１８００を命令で指定された動作を実行するようにカスタマイズされた専用マシンにレンダリングする。

コンピュータシステム１８００は、プロセッサ１８０４の静的情報及び命令を格納するために、バス１８０２に結合された読み出し専用メモリ（ＲＯＭ）１８０８または他の静的記憶装置をさらに含む。磁気ディスクまたは光ディスクなどの記憶装置１８１０が提供され、情報及び命令を格納するためのバス１８０２に結合される。

コンピュータシステム１８００は、コンピュータユーザに情報を表示するために、バス１８０２を介してコンピュータモニタなどのディスプレイ１８１２に結合され得る。英数字及び他のキーを含む入力装置１８１４は、情報及びコマンド選択をプロセッサ１８０４に通信するためにバス１８０２に結合される。別のタイプのユーザ入力装置は、マウス、トラックボール、または方向情報及びコマンド選択をプロセッサ１８０４に伝達し、ディスプレイ１８１２上のカーソル移動を制御するためのカーソル方向キーなどのカーソル制御手段１８１６である。この入力装置は、典型的には、装置が平面内の位置を指定することを可能にする第１の軸（例えば、ｘ）及び第２の軸（例えば、ｙ）の２つの軸の２つの自由度を有する。

コンピュータシステム１８００は、カスタマイズされたハードワイヤードロジック、１つ以上のＡＳＩＣまたはＦＰＧＡ、ファームウェア及び／またはコンピュータシステムと組み合わせて、コンピュータシステム１８００を専用マシンにするか、またはプログラムするプログラムロジックを使用して、本明細書に記載される技術を実装することができる。一実施形態によれば、本明細書に記載される技術は、メインメモリ１８０６内に含まれる１つ以上の命令のうちの１つ以上のシーケンスを実行するプロセッサ１８０４に応答して、コンピュータシステム１８００によって実行される。このような命令は、記憶装置１８１０のような別の記憶媒体からメインメモリ８０６に読み込まれてもよい。メインメモリ１８０６に含まれる一連の命令を実行すると、プロセッサ１８０４は、本明細書に記載されるプロセスステップを実行する。別の実施形態では、ソフトウェア命令の代わりに、またはソフトウェア命令と組み合わせて、ハードワイヤード回路を使用することができる。

本明細書で使用される「記憶媒体」という用語は、マシンを特定の様式で動作させるデータ及び／または命令を記憶する任意の非一時的媒体を指す。このような記憶媒体は、不揮発性媒体及び／または揮発性媒体を含むことができる。不揮発性媒体は、例えば、記憶装置１８１０などの光学ディスクまたは磁気ディスクを含む。揮発性媒体は、メインメモリ１８０６のような動的メモリを含む。一般的な形式の記憶媒体には、例えば、フロッピーディスク、フレキシブルディスク、ハードディスク、ソリッドステートドライブ、磁気テープ、または任意の他の磁気データ記憶媒体、ＣＤ−ＲＯＭ、任意の他の光データ記憶媒体、ホールのパターンを備えた物理的媒体、ＲＡＭ、ＰＲＯＭ、ＥＰＲＯＭ、ＦＬＡＳＨ−ＥＰＲＯＭ、ＮＶＲＡＭ、他のメモリチップまたはカートリッジを含むことができる。

記憶媒体は、伝送媒体とは異なるが、伝送媒体と共に使用することができる。伝送媒体は、記憶媒体間で情報を転送するのに関与する。例えば、伝送媒体は、バス１８０２を備えるワイヤーを含む同軸ケーブル、銅線及び光ファイバーを含む。伝送媒体は、電波及び赤外線データ通信中に生成されるような音響波または光波の形態を採ることもできる。

様々な形式の媒体が、実行のためにプロセッサ１８０４に１つ以上の命令のうちの１つ以上のシーケンスを搬送することに関与することができる。例えば、命令は、最初に、リモートコンピュータの磁気ディスクまたはソリッドステートドライブ上で搬送されてもよい。リモートコンピュータは、命令をその動的メモリにロードし、ネットワーク接続を介して命令を送信することができる。コンピュータシステム１８００に局所的なモデムまたはネットワークインタフェースがデータを受信することができる。バス１８０２は、メインメモリ１８０６にデータを運び、そこからプロセッサ１８０４が命令を取り出して実行する。メインメモリ１８０６によって受信された命令は、任意に、プロセッサ１８０４による実行の前または後のいずれかに、記憶装置１８１０に格納されてもよい。

コンピュータシステム１８００はまた、バス１８０２に結合された通信インターフェース１８１８を含む。通信インターフェース１８１８は、ローカルネットワーク１８２２に接続されたネットワークリンク１８２０に結合する双方向データ通信を提供する。例えば、通信インターフェース１８１８は、統合サービスデジタルネットワーク（ＩＳＤＮ）カード、ケーブルモデム、衛星モデム、または対応するタイプの電話回線にデータ通信接続を提供するためのモデムであってもよい。無線リンクを実装することもできる。このような実装では、通信インターフェース１８１８は、様々なタイプの情報を表すデジタルデータストリームを搬送する電気信号、電磁信号、または光信号を送受信する。

ネットワークリンク１８２０は、通常、１つまたは複数のネットワークを介して他のデータ装置にデータ通信を提供する。例えば、ネットワークリンク１８２０は、ローカルネットワーク１８２２を介して、ホストコンピュータ１８２４またはインターネットサービスプロバイダ（ＩＳＰ）１８２６によって操作されるデータ機器への接続を提供することができる。次に、ＩＳＰ１８２６は、現在一般に「インターネット」１８２８と呼ばれるワールドワイドパケットデータ通信ネットワークを介して、データ通信サービスを提供する。ローカルネットワーク１８２２及びインターネット１８２８の両方は、デジタルデータストリームを運ぶ電気信号、電磁気信号、または光信号を使用する。様々なネットワークを通る信号、及びコンピュータシステム１８００間でデジタルデータを搬送するネットワークリンク１８２０上の、かつ通信インターフェース１８１８を通る信号は、伝送媒体の一形態である。

コンピュータシステム１８００は、ネットワーク、ネットワークリンク１８２０及び通信インターフェース１８１８を介して、メッセージを送信して、プログラムコードを含むデータを受信することができる。インターネットの例では、サーバ１８３０は、インターネット１８２８、ＩＳＰ１８２６、ローカルネットワーク１８２２、及び通信インターフェース１８１８を介して、アプリケーションプログラムの要求されたコードを送信することができる。受信されたコードは、それが受信され、及び／または記憶装置１８１０に記憶され、または後で実行するために他の不揮発性記憶装置に記憶される時に、プロセッサ１８０４によって受信されてもよい。

図１９は、コンピュータシステム内のプロセッサによってアクセスされ実行され得るアプリケーションを有する記憶装置１９４８の簡略化された機能ブロック図である。このアプリケーションは、サーバ、クライアントまたは他のプラットフォームまたは装置上で実行する、本明細書に記載されるアプリケーションのうちの１つ以上とすることができる。記憶装置１９４８は、プロセッサによってアクセスされ得る１つ以上のメモリ装置とすることができ、記憶装置１９４８は、１つまたは複数のプロセッサ可読命令を格納するように構成され得るアプリケーションコード１９５０を記憶装置上に格納することができる。アプリケーションコード１９５０は、アプリケーションロジック１９５２、ライブラリ機能１９５４、及びアプリケーションに関連するファイルＩ／Ｏ機能１９５６を含むことができる。

記憶装置１９４８はまた、入力変数１９６４を受信するように構成された１つ以上の記憶場所を含むことができるアプリケーション変数１９６２を含むことができる。アプリケーション変数１９６２は、アプリケーションによって生成されるか、またはアプリケーションに対して局所的である変数を含むことができる。アプリケーション変数１９６２は、例えば、ユーザまたは外部装置またはアプリケーションのような外部ソースから取り出されたデータから生成することができる。プロセッサは、アプリケーションコード１９５０を実行して、記憶装置１９４８に提供されるアプリケーション変数１９６２を生成することができる。

装置データ１９６６を格納するために、１つ以上のメモリ場所が構成され得る。装置データ１９６６は、ユーザまたは外部装置などの外部ソースによって供給されるデータを含むことができる。装置データ１９６６は、例えば、送信される前にまたは受信された後に、サーバ間で渡される記録を含むことができる。

記憶装置１９４８はまた、アプリケーションの結果またはアプリケーションに提供される入力を記憶するように構成された１つまたは複数の記憶場所１９８４を有するログファイル１９８０を含むことができる。例えば、ログファイル１９８０は、動作の履歴を格納するように構成され得る。

図２０は、本明細書に記載されるプロセスを用いて、入力画像ファイル２００４を取り込み、出力画像ファイル２００６を出力する縮小エンジン２００２の一例を示す。内部画像記憶装置２００８は、処理されている間の画像データを保持するために使用され、プログラムコード２０１０は、本明細書に記載される縮小を実行するためのプログラム命令を表す。

本明細書に記載されるプロセスの操作は、本明細書内で他に指示されない限り、あるいは文脈によって明らかに矛盾しない限り、任意の適切な順序で行うことができる。本明細書に記載されるプロセス（またはその変形及び／またはそれらの組み合わせ）は、実行可能な命令で構成された１つまたは複数のコンピュータシステムの制御下で実行され得、かつハードウェアまたはその組み合わせによって、１つまたは複数のプロセッサ上で集合的に実行するコード（例えば、実行可能な命令、１つ以上のコンピュータプログラムまたは１つ以上のアプリケーション）として実行され得る。このコードは、例えば、１つ以上のプロセッサによって実行可能な複数の命令を含むコンピュータプログラムの形式で、コンピュータ可読記憶媒体上に格納されてもよい。このコンピュータ可読記憶媒体は、非一時であってもよい。

特に断らない限り、または文脈によって明らかに矛盾しない限り、「Ａ、Ｂ、及びＣのうちの少なくとも１つ」または「Ａ、Ｂ及びＣのうちの少なくとも１つ」の形の句のような結合語は、項目、用語などがＡまたはＢまたはＣのいずれかであるか、またはＡとＢとＣのセットの空でないサブセットであることを示すために一般的に使用されるコンテキストで理解される。例えば、３つの要素を有するセットの例示的な例では、「Ａ、Ｂ、及びＣのうちの少なくとも１つ」及び「Ａ、Ｂ及びＣのうちの少なくとも１つ」という結合句は、以下のセットのいずれかを指す：｛Ａ｝、｛Ｂ｝、｛Ｃ｝、｛Ａ、Ｂ｝、｛Ａ、Ｃ｝、｛Ｂ、Ｃ｝、｛Ａ、Ｂ、Ｃ｝。したがって、そのような結合語は、ある実施形態が、Ａの少なくとも１つ、Ｂの少なくとも１つ、及びＣの少なくとも１つのように各々が存在することを必要とすることを一般に意味するものではない。

本明細書で提供される任意の及びすべての例、または例示的な用語（例えば、「など」）の使用は、単に本発明の実施形態をよりよく示すことを意図し、別段の主張がない限り本発明の範囲を限定するものではない。本明細書中のいかなる文言も、本発明の実施に不可欠な非請求の要素を示すものとして解釈されるべきではない。

前述の明細書では、本発明の実施形態が実装ごとに異なる多数の特定の詳細を参照して説明されている。したがって、明細書及び図面は、限定的ではなく例示的なものとみなされるべきである。本発明の範囲の唯一の排他的なインジケータ、及び本発明の範囲であることが本出願人によって意図されているものは、そのような請求が、それに続く修正を含めて発行される特定の形式で本出願から発行される一組の特許請求の範囲の文字通りの等価な範囲となる。

さらなる実施形態は、本開示を読んだ後に、当業者の一人に想到され得る。他の実施形態では、上記開示された本発明の組み合わせまたは部分的な組み合わせを有利に作製することができる。例示的な構成要素の配置が例示の目的で示されており、本発明の代替の実施形態では、組み合わせ、追加、再配置などが考慮されることを理解されたい。したがって、例示的な実施形態に関して本発明を説明してきたが、当業者であれば、多くの変更が可能であることを認識するであろう。

例えば、本明細書で説明されるプロセスは、ハードウェアコンポーネント、ソフトウェアコンポーネント、及び／またはそれらの任意の組み合わせを使用して実装されてもよい。したがって、明細書及び図面は、限定的ではなく例示的なものとみなされるべきである。しかしながら、特許請求の範囲に記載された本発明のより広い精神及び範囲から逸脱することなく、様々な修正及び変更がなされ得ること、及び本発明が、以下の請求項の範囲内であるすべての修正及び同等物を包含することが意図されることは明らかであろう。

本明細書に引用された刊行物、特許出願、及び特許を含むすべての参考文献は、各参考文献が、参照により個々にかつ具体的に組み入れられることが示され、その全体が本明細書に記載されているのと同程度に参照により本明細書に組み込まれる。

Claims

コンピュータに実装される画像処理エンジンを用いて電子的に読取可能な媒体に記憶された画像を縮小する方法であって、
第１の解像度で第１の画像サイズを確立する第１の組の画素によって定義される第１の画像を受信するステップであって、前記第１の画像はコンピュータ読取可能な媒体で表現される、ステップと、
第２の画像を形成するために、前記第１の画像を縮小することによって、第２の解像度で第２の画像サイズを確立する第２の組の画素によって定義される前記第２の画像を生成するステップであって、前記第２の画像は前記コンピュータ読取可能な媒体で表現され、前記第２の組の画素の値は、前記第１の組の画素の関数によって定義され、前記第２の画像サイズは、第１の画像サイズよりも小さい、ステップと、
前記第２の画像を第３の画像に拡大するステップであって、前記第３の画像は前記コンピュータ読取可能な媒体で表現され、前記第３の画像は、第３の解像度を伴って、前記第１の画像サイズと同じ第３の画像サイズを確立する前記第２の組の画素から導出された第３の組の画素によって定義される、ステップと、
前記第２の画像の個々の画素を前記第３の組の画素からの対応する画素群と関連付けるステップと、
第１の画像サンプルを生成するために、前記第１の組の画素の第１の位置で第１の画像領域サイズを有する前記第１の画像の第１の画像領域をサンプリングするステップであって、前記第１の組の画素の前記第１の位置は前記第１の画像サイズより小さい前記第１の画像のパッチの位置を有する、ステップと、
第２の画像サンプルを生成するために、前記第１の画像領域の前記第１の位置及び前記第１の画像領域サイズに対応する前記第３の組の画素の第２の画像領域をサンプリングするステップであって、前記第２の画像サンプルは複数のパッチを有する第３の画像のサンプルであり、前記複数のパッチの各パッチ内の画素値は他のパッチ内の画素値とは独立に前記コンピュータに実装される画像処理エンジンにより変更されることが可能である、ステップと、
知覚画像値を生成するために、前記第１の画像サンプル及び前記第２の画像サンプルを処理することによって、前記第１の画像の前記第１の画像領域と前記第３の組の画素の前記第２の画像領域との間の類似度を測定するステップと、
知覚画像値が事前定義された閾値内の知覚基準値に一致するまで、前記第３の組の画素の値を再帰的に調整するステップと、
前記第２の画像の個々の画素値を、前記対応する画素群の各々の代表画素値に調整するステップと、
前記コンピュータ読取可能な媒体に前記第２の画像として前記個々の画素値を記憶するステップと、を含む、方法。
前記第１の画像の電子的に読み取り可能な表現を受信するための入力、及び前記第２の画像の電子的に読み取り可能な表現を出力するための出力を有するコンピュータシステムと、前記方法に従って、画像データを処理するためのメモリ内に記憶されたプログラム命令を実行するプロセッサと、を使用して実装される、請求項１に記載の方法。
前記第２の画像領域をサンプリングするステップは、重複しないパッチをサンプリングするステップを含み、前記第２の画像領域をサンプリングするステップは、輝度、コントラスト及び共分散に対応する構成要素を掛け合わせることによって計算される構造類似性指標を使用する、請求項１に記載の方法。
前記第２の画像の個々の画素値を調整するステップは、
平均及び分散を任意の固定値に固定することにより前記第２の画像の個々の画素値のパラメータ化された解を計算するステップと、
前記第２の画像の個々の画素値の最適化された指標値を特定するために、前記任意の固定値を使用して前記構造類似性指標を最適化するステップと、
前記パラメータ化された解の大域的最適化指標値を特定するために、異なる平均及び分散に対して前記最適化された指標値を計算するステップと、
を含む、請求項３に記載の方法。