JP2021170284A - 情報処理装置及びプログラム - Google Patents
情報処理装置及びプログラム Download PDFInfo
- Publication number
- JP2021170284A JP2021170284A JP2020073785A JP2020073785A JP2021170284A JP 2021170284 A JP2021170284 A JP 2021170284A JP 2020073785 A JP2020073785 A JP 2020073785A JP 2020073785 A JP2020073785 A JP 2020073785A JP 2021170284 A JP2021170284 A JP 2021170284A
- Authority
- JP
- Japan
- Prior art keywords
- image
- resolution
- super
- low
- size
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000010365 information processing Effects 0.000 title claims abstract description 67
- 238000000034 method Methods 0.000 claims abstract description 43
- 230000009467 reduction Effects 0.000 claims abstract description 26
- 230000008569 process Effects 0.000 claims abstract description 15
- 230000007246 mechanism Effects 0.000 claims description 24
- 238000011946 reduction process Methods 0.000 claims description 8
- 238000013528 artificial neural network Methods 0.000 claims description 6
- 239000000284 extract Substances 0.000 claims description 6
- 230000006866 deterioration Effects 0.000 abstract description 5
- 238000000605 extraction Methods 0.000 description 27
- 238000004364 calculation method Methods 0.000 description 24
- 230000011218 segmentation Effects 0.000 description 8
- 230000006870 function Effects 0.000 description 4
- 238000003709 image segmentation Methods 0.000 description 4
- 210000002569 neuron Anatomy 0.000 description 4
- 210000001747 pupil Anatomy 0.000 description 4
- 230000002411 adverse Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000008878 coupling Effects 0.000 description 2
- 238000010168 coupling process Methods 0.000 description 2
- 238000005859 coupling reaction Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 239000007787 solid Substances 0.000 description 2
- 238000012152 algorithmic method Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000002860 competitive effect Effects 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 210000004205 output neuron Anatomy 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000002250 progressing effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
- G06T3/4053—Scaling of whole images or parts thereof, e.g. expanding or contracting based on super-resolution, i.e. the output image resolution being higher than the sensor resolution
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/088—Non-supervised learning, e.g. competitive learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
- G06T3/4046—Scaling of whole images or parts thereof, e.g. expanding or contracting using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
- G06T3/4053—Scaling of whole images or parts thereof, e.g. expanding or contracting based on super-resolution, i.e. the output image resolution being higher than the sensor resolution
- G06T3/4076—Scaling of whole images or parts thereof, e.g. expanding or contracting based on super-resolution, i.e. the output image resolution being higher than the sensor resolution using the original low-resolution images to iteratively correct the high-resolution images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/11—Region-based segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Probability & Statistics with Applications (AREA)
- Image Processing (AREA)
- Image Analysis (AREA)
Abstract
【課題】低解像度化によって画像中の不要情報の成分を除去又は低減するとともに、低解像度化の度合いが一定である方式と比べて、超解像処理後の画像の劣化を少なくする情報処理装置及びプログラムを提供する。【解決手段】情報処理装置10は、対象画像のサイズ又は対象画像に含まれる不要情報のサイズの大きさによって低解像度化の度合いが変化するような低解像度化処理を対象画像に対して実行することにより低解像度画像を生成する低解像度化部12と、低解像度画像に基づき、対象画像の解像度に対応する所定解像度の超解像画像を生成する処理を実行する超解像化部20とを、備える。【選択図】図1
Description
本発明は、情報処理装置及びプログラムに関する。
画像に含まれる不要情報を除去又は低減する手法として、特許文献1〜3に記載された方法が知られている。これらの方法では、画像内の不要情報の領域をアルゴリズム的手法で特定し、特定した不要情報を除去又は低減している。
一方、低解像度の画像を高解像度化する超解像技術が発展してきている。近年では、DNN(ディープ・ニューラル・ネットワーク)を用いた超解像の研究及び実用化が進んでいる。例えば、非特許文献1及び2で提案された手法を初めとするGAN(Generative Adversarial Network:敵対的生成ネットワーク)ベースの超解像手法は、SRGAN((Super Resolution GAN))と呼ばれ、良好な性能を達成している。
また、特許文献4に記載された画像処理装置の制御部は、医用画像に画素数を低減するための間引き処理を施して間引き画像を生成し、間引き画像を入力画像として、ディープラーニング処理部によりニューラルネットワーク(以下「NN」と略す)を用いて医用画像に含まれる所定の構造物の信号成分を抽出し、NNから出力された出力画像に超解像処理を施して、元の医用画像と同じ画素数の、元の医用画像における構造物の信号成分(高周波成分を含む)を表す構造物画像を生成する。
Ledig, C., Theis, L., et al. "Photo-realistic single image superresolution using a generative adversarial network." In: CVPR. (2017)
Blau, Yochai, et al. "The 2018 PIRM Challenge on Perceptual Image Super-Resolution."In: ECCV. (2018)
画像に含まれる不要情報を除去又は低減する方法として、画像を低解像度化した後、超解像化により元の画像の解像度に対応する解像度に戻す方法が考えられる。低解像度化により画像中の不要情報の成分を除去又は低減され、超解像化では不要情報が十分に復元されないことにより、不要情報が除去又は低減されることと期待される。
しかし、低解像度化の度合いが大きいほど画像の劣化が発生してしまい、低解像度化の度合いが小さすぎると画像中の不要情報の成分を除去又は低減することができない。
本発明は、低解像度化によって画像中の不要情報の成分を除去又は低減するとともに、低解像度化の度合いが一定である方式と比べて、超解像処理後の画像の劣化を少なくすることを目的とする。
請求項1に係る発明は、プロセッサを備え、前記プロセッサは、対象画像のサイズ又は前記対象画像に含まれる不要情報のサイズの大きさによって低解像度化の度合いが変化するような低解像度化処理を前記対象画像に対して実行することにより低解像度画像を生成し、前記低解像度画像に基づき、前記対象画像の解像度に対応する所定解像度の超解像画像を生成する処理を実行する、ことを特徴とする情報処理装置である。
請求項2に係る発明は、前記低解像度化処理では、前記対象画像と前記不要情報とのサイズの乖離が小さいほど、前記低解像度化の度合いを大きくする、ことを特徴とする請求項1に記載の情報処理装置である。
請求項3に係る発明は、前記低解像度化処理では、前記対象画像のサイズが大きいほど、前記低解像度化の度合いを大きくする、ことを特徴とする請求項2に記載の情報処理装置である。
請求項4に係る発明は、前記低解像度化処理では、前記不要情報のサイズが大きいほど、前記低解像度化の度合いを大きくする、ことを特徴とする請求項2に記載の情報処理装置である。
請求項5に係る発明は、前記プロセッサは、更に、入力された画像を複数の領域に分割し、前記低解像度化処理は、分割により得られた前記複数の領域の各々の画像を前記対象画像として実行され、前記プロセッサは、前記対象画像の各々に対応する前記低解像度画像に基づき生成された前記所定解像度の超解像画像から、前記入力された画像に対応する超解像画像を生成する、ことを特徴とする請求項1〜4のいずれか1項に記載の情報処理装置である。
請求項6に係る発明は、前記低解像度化処理では、前記領域のサイズが大きいほど、前記低解像度化の度合いを大きくする、ことを特徴とする請求項5に記載の情報処理装置である。
請求項7に係る発明は、前記分割では、前記対象画像に含まれるオブジェクトの種類ごとに前記対象画像を前記複数の領域に分割し、前記低解像度化処理では、前記領域に対応する前記オブジェクトの種類に応じた前記度合いで前記領域を低解像度化する、ことを特徴とする請求項5又は6に記載の情報処理装置である。
請求項8に係る発明は、前記超解像画像を生成する処理は、ディスクリミネータとジェネレータとを含む学習済みの敵対的生成ネットワークの前記ジェネレータを用いて実行され、前記敵対的生成ネットワークの学習は、前記ジェネレータは前記対象画像に対応する前記低解像度画像から前記所定解像度の超解像画像を生成すること、前記ディスクリミネータは前記対象画像と前記所定解像度の超解像画像とを識別すること、を学習するものである、ことを特徴とする請求項1〜7のいずれか1項に記載の情報処理装置である。
請求項9に係る発明は、前記敵対的生成ネットワークの前記学習では、前記対象画像中の注目オブジェクトの領域の情報に基づいて損失を計算し、計算した損失に基づいて前記ジェネレータを学習させる、ことを特徴とする請求項8に記載の情報処理装置である。
請求項10に係る発明は、前記超解像画像を生成する処理を実行する機構は、前記低解像度画像から画像特徴を抽出する第1のニューラルネットワークと、前記画像特徴を処理する注意機構と、前記注意機構の出力から前記所定解像度の超解像画像を生成する第2のニューラルネットワークと、を含む、請求項1〜9のいずれか1項に記載の情報処理装置である。
請求項11に係る発明は、コンピュータに、対象画像のサイズ又は前記対象画像に含まれる不要情報のサイズの大きさによって低解像度化の度合いが変化するような低解像度化処理を前記対象画像に対して実行することにより低解像度画像を生成し、前記低解像度画像に基づき、前記対象画像の解像度に対応する所定解像度の超解像画像を生成する、処理を実行させるためのプログラムである。
請求項12に係る発明は、対象画像のサイズ又は前記対象画像に含まれる不要情報のサイズの大きさによって低解像度化の度合いが変化するような低解像度化処理を前記対象画像に対して実行することにより低解像度画像を生成する第1生成回路と、前記低解像度画像に基づき、前記対象画像の解像度に対応する所定解像度の超解像画像を生成する第2生成回路と、を含む情報処理装置である。
請求項1、8、11又は12に係る発明によれば、低解像度化によって画像中の不要情報の成分を除去又は低減するとともに、低解像度化の度合いが一定である方式と比べて、超解像処理後の画像の劣化を少なくすることができる。
請求項2に係る発明によれば、対象画像と不要情報のサイズによらず低解像度化の度合いを一律にする場合に比べて、不要情報の除去又は低減が不十分になる可能性を低減できる。
請求項3に係る発明によれば、対象画像のサイズによらず低解像度化の度合いを一律にする場合に比べて、不要情報の除去又は低減が不十分になる可能性を低減できる。
請求項4に係る発明によれば、不要情報のサイズによらず低解像度化の度合いを一律にする場合に比べて、不要情報の除去又は低減が不十分になる可能性を低減できる。
請求項5に係る発明によれば、対象画像の全ての領域を一律に扱う場合よりも、領域ごとの不要情報の除去又は低減が不十分になる可能性を低減できる。
請求項6に係る発明によれば、領域のサイズによらず低解像度化の度合いを一律にする場合に比べて、領域内の不要情報の除去又は低減が不十分になる可能性を低減できる。
請求項7に係る発明によれば、領域に対応するオブジェクトの種類によらず低解像度化の度合いを一律にする場合に比べて、領域内の不要情報の除去又は低減が不十分になる可能性を低減できる。
請求項9に係る発明によれば、注目オブジェクトの領域の情報を用いずにジェネレータを学習させる場合よりも、ジェネレータが生成する超解像画像における注目オブジェクトの領域の画質を向上させることができる。
請求項10に係る発明によれば、注意機構を用いない場合と比べて、生成される超解像画像の画質を向上させることができる。
図1を参照して、画像中の不要情報を除去又は低減する情報処理装置10の一例を説明する。この情報処理装置10は、入力画像を処理することにより、その中の不要情報が除去又は低減された出力画像を生成する装置である。図では、入力画像及び出力画像をそれぞれ「HR画像」及び「SR画像」と表記している。HR(High Resolution)画像は高解像度の画像を意味する。ここでの「高解像度」は、情報処理装置10がそのHR画像から一時的に生成するLR(Low Resolution)画像に比べて解像度が高いことを意味する。SR(Super Resolution)画像は、そのLR画像を超解像化することにより得られた画像であり、LR画像よりは解像度が高い。典型的な例ではSR画像はHR画像と同じ解像度であるが、これは必須のことではない。SR画像の解像度は、HR画像のそれより低くてもよいし、高くてもよい。
不要情報とは、画像内に認識可能な形で含まれている情報であって、その画像の使用目的等からみてその画像内にない方がよい情報である。例えば、写真の中に映り込んでしまった撮影者の指や、通行人の顔、被写体の指紋、被写体の瞳に映った背景、等の像が不要情報の一例である。
図1に例示する情報処理装置10は、低解像度化部12と超解像化部20とを備える。低解像度化部12は、HR画像に対して、低解像度化、すなわちより解像度が低いLR画像への変換処理、を実行する。低解像度化部12は、スケール判定部14とダウンサンプリング部16とを備える。
ダウンサンプリング部16は、HR画像に対して画像のダウンサンプリングを実行することにより、LR画像を生成する。画像のダウンサンプリングには、公知の又はこれから開発されるどのような方法を用いてもよい。ダウンサンプリングは、例えば、単なる画素の間引きであってもよいし、画像を複数のブロックに分け、ブロック毎の画素の代表値(例えば画素値の平均)を持つ低解像度画像を生成する処理であってもよい。
スケール判定部14は、ダウンサンプリング部16が行うダウンサンプリングのスケール、すなわち低解像度化の度合いを判定する。このスケールの判定はサイズ情報に基づき行われる。
ここで、サイズ情報とは、一つの例では、HR画像又はSR画像のサイズを示す情報である。また別の例では、サイズ情報とは、HR画像内に含まれる不要情報のサイズを示す情報である。また、サイズ情報として、HR画像又はSR画像のサイズと、不要情報のサイズの情報の両方がスケール判定部14に入力される例も考えられる。
サイズ情報は、物理的な長さ又はこれと等価な大きさを示す情報であってもよいし、画素数の単位で表される大きさを示す情報であってもよい。後者のサイズが示す物理的な長さは、画像を表示する表示装置の画素サイズによって変わってくる。物理的な長さと等価なサイズ情報の具体例としては、SR画像が担持される媒体のサイズを示す情報がある。ここで媒体とは、その画像を表示する表示装置の画面やその画像が印刷される用紙等である。画面サイズは、インチ単位の数値で表現されるものに限らず、例えばスマートフォンサイズ、タブレットサイズといった、表示装置の大きさによる分類を示すものであってもよい。
またスケール判定部14に入力されるサイズ情報は、HR画像のサイズと不要情報のサイズとの乖離の程度を示す情報であってもよい。この情報は、例えば、HR画像のサイズと不要情報のサイズとの比であってもよいし、それら両者の差であってもよい。
サイズ情報は、ユーザが入力してもよいし、情報処理装置10が判定してもよい。例えば、ユーザが、サイズの数値やサイズを特定する他の情報(例えばスマートフォンサイズ、タブレットサイズ等の画面サイズの分類を表す情報、又は用紙の大きさの分類を表す情報)等を入力してもよい。また、情報処理装置10が、自身を含んだ端末の画面サイズの情報を、その端末のオペレーティングシステムから取得し、取得した情報をサイズ情報として用いてもよい。また、情報処理装置10が、SR画像の表示処理を実行するアプリケーションの属性情報から、そのアプリケーションが実行される端末の画面サイズを判定し、この画面サイズをサイズ情報として用いてもよい。
スケール判定部14は、例えば、HR画像のサイズとその中の不要情報のサイズとの乖離の程度、例えば両者の差又は比、に基づいて、スケールを判定してもよい。より具体的な例では、スケール判定部14は、不要情報のサイズのHR画像のサイズに対する乖離が小さいほど(例えば前者の後者に対する比が1に近いほど)、ダウンサンプリングのスケール、すなわち低解像度化の度合いを大きくする。例えば、不要情報のサイズのHR画像のサイズに対する比が1/20であればダウンサンプリングのスケールを2(すなわち2×2画素を1画素に変換)とし、1/10であれば4(すなわち4×4画素を1画素に変換)とするなどである。スケール判定のためには、例えば、HR画像のサイズと不要情報のサイズとの乖離の程度からダウンサンプリングのスケールを求める関数又はテーブルを用意しておけばよい。不要情報のサイズがHR画像のサイズに近いほどダウンサンプリングのスケールを大きい値とすることにより、スケールを一定とする場合と比べて、情報処理装置10が出力するSR画像に不要情報の成分が視認可能な程度まで残る可能性が低減される。
また、スケール判定部14は、HR画像のサイズが大きいほど、ダウンサンプリングのスケールを大きくしてもよい。HR画像が大きいほど、その中に大きい不要情報が含まれる確率は高くなる。不要情報が大きいほど、それを見えなくするためには大きくダウンサンプリングする必要がある。
また、スケール判定部14は、HR画像内の不要情報のサイズが大きいほど、ダウンサンプリングのスケールを大きくしてもよい。
ダウンサンプリング部16は、スケール判定部14が判定したスケールに従って、HR画像のダウンサンプリングを行う。例えば、スケールが2と判定された場合は、HR画像内の互いに隣り合う4(=2×2)画素をそれぞれブロックとし、ブロックを1画素に変換するダウンサンプリングを行う。ダウンサンプリングの方式としては、どのような方式を用いてもよい。例えば、単なる間引き(すなわち、ブロック内の特定の1画素の値を出力し、他の画素の値は捨てる処理)であってもよいし、ブロック内の画素群の平均を出力がその値としてもよい。
このような処理により、ダウンサンプリング部16は、HR画像を、それよりも低解像度のLR画像へと変換する。
超解像化部20は、そのLR画像に対して超解像化を行うことにより、SR画像を生成する。超解像化には、どのような方式を用いてもよい。画素補間等の画像処理的な方式を用いてもよいし、SRGAN等のNNベースの方式を用いてもよい。不要情報の成分はLR画像の段階でかなり低減されており、LR画像を超解像化してももとの不要情報は復元されない。このようにして、不要情報が除去又は低減されたSR画像が得られる。
次に、図2を参照して、情報処理装置10の別の例を説明する。図2に例示する情報処理装置10は、低解像度化部12内の要素としてスケール判定部14の代わりに分割部18を持つ点が、図1に例示した情報処理装置10と異なる。また、図2の情報処理装置10内のダウンサンプリング部16aは、図1の情報処理装置10のダウンサンプリング部16にはない機能を持つ。
分割部18は、入力されたHR画像を複数の領域に分割する。この分割には、例えば画像セグメンテーション技術を用いればよい。
例えば、画像セグメンテーション技術の一つであるセマンティック・セグメンテーションを用いれば、HR画像を、クラスごとの領域に分割することができる。セマンティック・セグメンテーションにおけるクラスとは、画像内のオブジェクトの種類のことである。セマンティック・セグメンテーションは、深層学習ベースの技術である。セマンティック・セグメンテーション技術を用いる例では、分割部18は、入力された画像内の予め定められた1以上のクラスのそれぞれに該当する領域を特定するよう、学習を済ませている。この例では、分割部18は、画像の中から、学習済みの各クラスに該当する領域をそれぞれ特定する。また付随的に、分割部18は、学習したクラスのいずれにも属さない領域を特定することもできる。例えば、「人の顔」というクラスの領域を特定するよう学習を済ませている分割部18は、入力されたHR画像を「人の顔」の領域とそれ以外との領域(=いわば「背景」)とに分割する。また例えば「瞳」、「人の顔」という2つのクラスを学習した分割部18は、入力されたHR画像を「瞳」の領域、瞳を除く「人の顔」の領域、及びその他の領域の3種類に分割する。
セマンティック・セグメンテーションの利用はあくまで一例に過ぎない。分割部18は、インスタンス・セグメンテーションなど、セマンティック・セグメンテーション以外の画像セグメンテーション技術をベースとしたものであってもよい。また、分割部18は、画像セグメンテーション技術以外の技術を用いたものであってもよい。
また分割部18は、HR画像の分割により得られた複数の領域の各々について、その領域のサイズを求め、求めたサイズに応じて、その領域に適用するダウンサンプリングのスケールを判定する。
あくまで一例であるが、領域のサイズとしては、例えばその領域に含まれる画素の数、あるいは、その領域のバウンディングボックスのサイズ、等を用いてもよい。ここで領域のバウンディングボックスは、HR画像の縦及び横の辺にそれぞれ平行な辺からなる、その領域に外接する長方形のことである。バウンディングボックスのサイズとしては、例えば、バウンディングボックスの対角線の長さ、又は、バウンディングボックスの幅及び高さのうちの一方(例えば短い方)を用いてもよい。
分割部18は、例えば、領域のサイズが大きいほど、領域に適用するダウンサンプリングのスケールを大きくする。領域が大きいほど、その中に大きい不要情報が含まれる可能性が高いので、そのような大きい不要情報を除去又は低減できるよう、ダウンサンプリングのスケールを大きくするのである。
また、別の例として、領域に含まれる可能性がある不要情報のサイズ、又はその不要情報のその領域に対するサイズの比率が予め分かっている場合がある。例えば、「指先」というクラスに該当する領域の場合、その指先の指紋の情報は、出力であるSR画像から消したい不要情報である。ここで、指紋を構成する線の幅と、指先のサイズの比率はある程度想定可能である。このような場合に、分割部18は、その領域と不要情報とのサイズの乖離が小さいほど(例えば上述のサイズの比率が1に近いほど)、ダウンサンプリングのスケールを大きくしてもよい。
また、更に別の例として、分割部18は、ダウンサンプリングのスケールを、領域のクラス(すなわちその領域に対応するオブジェクトの種類)に基づいて判定してもよい。例えば、領域のクラスが「指先」であれば、不要情報である指紋を見えなくするために必要なダウンサンプリングのスケールがおおよそ決まってくる。また例えば領域のクラスが、不要情報を含む可能性が低いものである場合は、ダウンサンプリングのスケールを小さい値に定めておいてもよい。ダウンサンプリングのスケールが小さいと、ダウンサンプリングによる画質(例えば画像の高周波成分)の劣化が少ない。
また、分割部18は、ダウンサンプリングのスケールを、領域のクラスとその領域のサイズの両方に基づいて判定してもよい。クラスと領域の組合せ毎に、その組合せに対応するスケールの値を登録したテーブル等を用いればよい。クラスが同じであれば、領域のサイズが大きくなるほど、ダウンサンプリングのスケールは大きくなる。例えば、同じ「指先」クラスの領域であっても、その領域のサイズが大きいほど、その中の指紋の文様も大きくなるため、それを見えなくするためには、低解像度化の度合いをより大きくする必要がある。
分割部18は、分割により得られた個々の領域ごとに、その領域を特定する領域情報(例えば、各画素がどのクラスに該当するかを示す情報)と、その領域についてのダウンサンプリングのスケールの情報とをダウンサンプリング部16aに渡す。
ダウンサンプリング部16aは、分割部18から得た領域情報とスケールの情報に基づき、HR画像を領域ごとに当該領域に対応するスケールに従ってダウンサンプリングする。例えば、HR画像が「人の顔」の領域と「背景」の領域に分割され、ダウンサンプリングのスケールは前者が2、後者が4と判定されたとする。この場合、ダウンサンプリング部16aは、「人の顔」の領域については2×2画素を1画素にするダウンサンプリング、「背景」の領域については4×4画素を1画素にするダウンサンプリングを実行する。ダウンサンプリング部16aは、領域ごとに、その領域のダウンサンプリング結果であるLR画像と、その領域に適用されたダウンサンプリングのスケールの情報とを、超解像化部20に渡す。
超解像化部20は、領域ごとに、その領域のLR画像を、その領域に適用されたダウンサンプリングのスケールに応じて超解像化することにより、所定の解像度を持つSR画像を生成する。例えば、HR画像が「人の顔」の領域と「背景」の領域に分割され、ダウンサンプリングのスケールは前者が2、後者が4である場合に、超解像化部20が、前者の領域を2倍(すなわち画素数4倍)、後者の領域を4倍(すなわち画素数16倍)に超解像化すると、元のHR画像と同じ解像度のSR画像が得られる。
以上に説明したように、図2に例示した情報処理装置10は、領域ごとに、ダウンサンプリングのスケールをその領域に適した値に制御する。これにより、領域ごとに、その領域内の不要情報を除去又は十分に低減しつつも、画質の過度の劣化をさける。
次に、図3及び図4を参照して、GAN(敵対的生成ネットワーク)の技術を用いて超解像化部20を構築する場合のシステム構成の例を説明する。この例は、図2に例示した、入力された画像を領域に分割する方式を用いる装置構成をGANベースで実現する例である。重複説明が多くなるために省略するが、図1に例示した、画像全体のダウンサンプリングのスケールをサイズ情報に応じて一律に定める方式を用いる装置構成も、GANベースで同様に実現可能である。
図3は、このシステムの学習時の構成の例を示す。このシステム構成は、低解像度化部12、ジェネレータ200、ディスクリミネータ30及び学習処理部40を含む。学習処理部40の制御のもとで、ジェネレータ200とディスクリミネータ30とがGANの仕組みに従い敵対的に学習を行うことにより、視覚的にHR画像と見分けがつきにくいSR画像を生成するジェネレータ200が得られる。十分に学習を済ませたジェネレータ200が、超解像化部20として機能することとなる。
低解像度化部12は、図2に例示したものと同様の構成を有しており、入力されたHR画像を複数の領域に分割し、領域ごとにその領域に応じたスケールでダウンサンプリングを行い、その結果得られたLR画像を出力する。
ジェネレータ200は、特徴抽出部22及びアップサンプリング部24を含む。特徴抽出部22は、入力されたLR画像からそのLR画像の特徴を示すデータ、すなわち画像特徴を抽出する。アップサンプリング部24は、その画像特徴から所定の解像度の画像、すなわちSR画像を生成する。特徴抽出部22及びアップサンプリング部24は、例えば、既存のSRGANのジェネレータと同様の、畳み込みNN等を含むNNシステムとして構成される。
ディスクリミネータ30には、ジェネレータ200が生成したSR画像、又はその元になったHR画像が入力される。ディスクリミネータ30は、入力された画像が本物(すなわちHR画像)、贋作(すなわちSR画像)のいずれかであるかを識別する。ジェネレータ200がLR画像から元のHR画像と見分けのつかないSR画像を生成しようと学習する一方、ディスクリミネータ30はHR画像とSR画像を見分けるよう学習する。このようにジェネレータ200とディスクリミネータ30とが敵対的、すなわち競合的に、学習を進めることで、ジェネレータ200とディスクリミネータ30の能力がともに向上していく。
ディスクリミネータ30において、特徴抽出・識別部32は、入力された画像(すなわちHR画像又はSR画像)から画像特徴を抽出し、その画像特徴に基づき、入力された画像がHR画像、SR画像のいずれであるかを識別する。特徴抽出・識別部32の出力は、例えば、その識別の結果を示す二値のデータである。また、別の例として、特徴抽出・識別部32は、入力された画像が正しい画像(すなわちHR画像)である確からしさを識別結果として求めてもよい。この場合、特徴抽出・識別部32が出力する識別結果の値は0から1までの実数値である。入力された画像がHR画像であることが完全に確かであれば識別結果の値は1であり、逆に入力された画像がSR画像であることが完全に確かであれば識別結果の値は0である。なお、入力された画像から特徴抽出・識別部32が抽出する画像特徴は、HR画像かSR画像かを識別するために必要な画像特徴なので、ジェネレータ200の特徴抽出部22が超解像化のために抽出する画像特徴とは必ずしも同じものではない。特徴抽出・識別部32は、例えば、既存のSRGANのディスクリミネータと同様、畳み込みNN等を含むNNシステムとして構成される。
判定部34は、特徴抽出・識別部32の識別結果が正解か否かを判定する。すなわち、判定部34は、ディスクリミネータ30内の画像入力制御(図示省略)から、特徴抽出・識別部32に対してHR画像及びSR画像のどちらを入力したかを示す信号を受け取る。そして判定部34は、その信号を、特徴抽出・識別部32が出力した識別結果と突き合わせることで、その識別結果が正解か否かを判定する。また、特徴抽出・識別部32が、入力された画像がHR画像である確からしさを識別結果として出力する例では、判定部34は、その識別結果を、画像入力制御がHR、SR画像のどちらを実際に入力したかの信号と突き合わせる。判定部34は、この突き合わせにより、識別結果が正解である度合いを示す得点を求める。例えば、実際に入力されたのがHR画像であるときに、識別結果が1.0(すなわちHR画像である確からしさが最大)であれば得点は100点(=最高得点)、識別結果が0.7であれば得点は70点、識別結果が0.0であれば0点(=最低得点)等と定める。また例えば、実際に入力されたのがSR画像であるときに、識別結果が1.0であれば得点は0点、識別結果が0.7であれば得点は30点、識別結果が0.0であれば100点等と定める。判定部34は、このように求めた得点を判定の結果として出力する。判定の結果は、学習処理部40のジェネレータ更新部46及びディスクリミネータ更新部48に提供される。
学習処理部40は、ジェネレータ200及びディスクリミネータ30内のNNを学習させるための処理を実行する。学習処理部40には、HR画像と、そのHR画像を低解像度化したLR画像からジェネレータ200が生成したSR画像と、が入力される。
学習処理部40は、画素間誤差算出部41、特徴間誤差算出部42、ジェネレータ更新部46及びディスクリミネータ更新部48を備える。
画素間誤差算出部41は、HR画像に対するSR画像の損失として、SR画像とHR画像との間の画素間誤差を算出する。画素間誤差としては、例えばそれら両画像の同一画素同士の平均二乗誤差(Mean Square Error)を用いてもよいし、別の誤差を用いてもよい。SR画像がHR画像と異なる解像度である場合は、画素補間その他の方法で両者の解像度を揃えてから、画素間誤差算出部41に入力してもよい。
特徴間誤差算出部42は、SR画像及びHR画像の画像特徴をそれぞれ抽出し、それら両画像の画像特徴間の誤差(特徴間誤差と呼ぶ)を算出する。この誤差も、平均二乗誤差等の方法で求めればよい。なお、特徴間誤差算出部42が抽出する画像特徴は、ジェネレータ200の特徴抽出部22が抽出する画像特徴やディスクリミネータ30の特徴抽出・識別部32が抽出する画像特徴とは必ずしも同じものではない。
ジェネレータ更新部46は、画素間誤差算出部41及び特徴間誤差算出部42からそれぞれ入力される誤差と、判定部34から入力される判定結果とに基づき、ジェネレータ200内のNNすなわち特徴抽出部22及びアップサンプリング部24を学習させる。ジェネレータ更新部46は、それら入力に従って画素間誤差と特徴間誤差が小さくなるよう、ジェネレータ200内のNN内のニューロン間の結合係数を更新することにより、そのNNを学習させる。
ディスクリミネータ更新部48は、判定部34から入力される判定結果に基づき、ディスクリミネータ30内のNNすなわち特徴抽出・識別部32を学習させる。
図示例では、学習処理部40は、HR画像とSR画像の誤差を損失として計算し、その誤差に基づいてジェネレータ200及びディスクリミネータ30を学習させた。しかし、誤差以外の他の損失関数を用いてもよい。
以上に説明した図3のシステムに対して多数のHR画像を順に入力し、ジェネレータ200及びディスクリミネータ30を学習させる。この学習の結果得られたジェネレータ200は、HR画像と見た目の区別がつきにくく、かつHR画像内の不要情報が除去又は十分に低減されたSR画像を生成する能力を持つ。
なお、図3のシステムでは、HR画像が複数の領域に分割され、領域ごとにそれぞれ個別のスケールでダウンサンプリングされるため、LR画像の解像度は領域ごとに異なる場合がある。このことに対処する方法の一つとして、ジェネレータ200を複数用いる方法がある。
この方法では、LR画像の解像度ごと(言い換えれば、ダウンサンプリングのスケールごと)にジェネレータ200を用意し、各領域のLR画像をそれぞれその解像度に対応するジェネレータ200に入力する。各解像度に対応するジェネレータ200は、入力されたLR画像を、SR画像の解像度まで超解像化する。各領域の超解像結果を結合することにより、SR画像が構成される。
図4は、人物上半身102と背景104の2つのクラスの領域からなるHR画像100が入力された場合の、低解像度化部12及びジェネレータ200の処理の流れの例を示す。この例では、分割部18が、セマンティック・セグメンテーション等の手法により、HR画像100を、人物上半身102の領域と、背景104の領域とに分割する。この例では、ダウンサンプリング部16aは、人物上半身102の領域にはスケール2のダウンサンプリング(すなわち1/2の縮小)が、背景104にはスケール4のダウンサンプリングを行うとする。これにより、HR画像の1/2の解像度の人物上半身の画像112と、HR画像の1/4の解像度の背景の画像114とが得られる。人物上半身の画像112は2倍拡大用のジェネレータ200Aに入力され、ジェネレータ200Aは、その画像を超解像化し、SR画像の解像度を持つ人物上半身の画像122を生成する。背景の画像114は4倍拡大用のジェネレータ200Bに入力され、ジェネレータ200Bは、その画像を超解像化し、SR画像の解像度を持つ背景の画像124を生成する。画像122と画像124とが結合されることにより、HR画像100に対応するSR画像が構成される。
また、別の例として、LR画像の解像度と領域のクラスの組合せ毎にジェネレータ200を用意し、各領域のLR画像を、そのLR画像の解像度と当該領域のクラス戸の組合せに対応するジェネレータ200に入力することとしてもよい。
一般化すると、図3に例示した学習時のシステムにHR画像が入力されると、低解像度化部12がそのHR画像から各領域のLR画像を生成する。それら各領域のLR画像は、それら複数のジェネレータ200のうち、当該領域の解像度、又は解像度とクラスの組合せ、に対応するジェネレータ200に入力される。各ジェネレータ200は、それぞれ入力された領域のLR画像を超解像化する。これら各領域の超解像化結果の画像が結合されることにより、元のHR画像に対応する一つのSR画像が構成される。ディスクリミネータ30は、このSR画像とHR画像との識別を試みる。学習処理部40は、そのSR画像と元のHR画像と、ディスクリミネータ30の識別結果の情報とに基づき、それら各ジェネレータ200とディスクリミネータ30を学習させる。
また、ジェネレータ200を複数用いる代わりに、各領域のLR画像を共通の解像度(すなわちジェネレータ200の入力の解像度)に解像度変換し、単一のジェネレータ200にて処理する構成を採ってもよい。
図5に、図3のシステムにより学習を済ませたジェネレータ200を超解像化部20として備えた情報処理装置10の構成を例示する。
図5の情報処理装置10は、図2に示した情報処理装置10の超解像化部20として、図3のシステムで学習させたジェネレータ200を搭載したものである。すなわち、図5の情報処理装置10の超解像化部20は、学習済みの特徴抽出部22及びアップサンプリング部24を備えている。実装上は、例えば、図3のシステムでの学習により求めた特徴抽出部22及びアップサンプリング部24のパラメータ(例えば各ニューロン間の結合係数)を、情報処理装置10内のNNにコピーすることにより、超解像化部20を構成すればよい。
図5の情報処理装置10において、分割部18は、入力されたHR画像を複数の領域に分割し、分割した各領域についての領域情報とスケール情報をダウンサンプリング部16に出力する。ダウンサンプリング部16は、HR画像中の個々の領域を領域情報に従って特定し、特定した領域の画像を、その領域に対応するスケールでダウンサンプリングする。ダウンサンプリング部16から出力されたLR画像は、領域ごとに、その領域のスケールに対応する解像度を持つ。このLR画像が、超解像化部20に入力される。超解像化部20内の特徴抽出部22及びアップサンプリング部24は、多数のHR画像を学習データとして用いて既に学習済みである。特徴抽出部22は、入力されたLR画像の画像特徴を求め、アップサンプリング部24は、その画像特徴から所定の解像度のSR画像を生成する。
図5の例では、情報処理装置10は1つの超解像化部20を備えていたが、情報処理装置10は、ダウンサンプリングのスケールごと、すなわちLR画像の解像度ごとに超解像化部20を備えていてもよい。解像度ごとの超解像化部20は、上に例示したようにして学習済みである。ある解像度に対応する超解像化部20内の特徴抽出部22は、当該解像度に対応する数のニューロンを含んだ入力層を持ち、入力されたその解像度の領域のLR画像を、例えば所定の数の出力層ニューロンの出力値の組合せで表される画像特徴へと変換する。アップサンプリング部24は、その画像特徴をSR画像の解像度の画像に変換する。個々の超解像化部20がそれぞれ対応する解像度の領域のLR画像から生成した当該領域のSR画像は、図示省略した結合部により一つに結合される。これにより、一つの完全なSR画像が生成される。
また、情報処理装置10は、超解像化部20を、領域の解像度とクラスの組合せ毎に備えるものであってもよい。
次に図6を参照して、図3の学習時のシステムを改良した例を説明する。
例えば写真では被写体が想定され、被写体とそれ以外(例えば背景)とが区別されるように、画像には注目すべきオブジェクトの領域(以下、注目領域と呼ぶ)とそれ以外の部分との両方が含まれることが多い。画像中の注目領域は、一般にはその画像にとって必要な部分である。不要情報は注目領域以外の部分に含まれることが多い。
ここで図3のシステムでは、ジェネレータ200は、不要情報が除去又は低減されたSR画像が、不要情報を含んでいるHR画像と見分けにくくなるように学習する。このため、このためSR画像のうち不要情報を含まない部分の画質、特に注目領域の画質に悪影響を与える可能性がある。図6に示すシステムは、このような注目領域の画質への悪影響を低減することを目指す。
図6のシステムは、学習処理部40にてマスク50を用いる。マスク50は、HR画像及びSR画像から注目領域のみを抽出するために用いられる。例えば、人の顔が注目するオブジェクトである(言い換えれば、画質をなるべく下げたくない対象が人の顔である)場合、図7に例示する画像55に対して、その画像55のうち人の顔の領域を取り出し、それ以外の部分をマスクするマスク50が用いられる。
学習処理部40は、画像全体を対象とする画素間誤差算出部41及び特徴間誤差算出部42に加え、マスク50により取り出された注目領域のみを対象とする画素間誤差算出部43及び特徴間誤差算出部44を備える。画素間誤差算出部43は、入力されたHR画像及びSR画像にそれぞれマスクを適用することにより、それら各画像内の注目領域の画素群を抽出する。そして、注目領域内の画素についてHR画像とSR画像との間での画素間誤差(例えば平均二乗誤差)を算出する。同様に、特徴間誤差算出部44は、HR画像及びSR画像の注目領域の画素群をマスクにより抽出し、それら両画像の注目領域の画像特徴を求め、それら画素特徴同士の誤差を算出する。
ジェネレータ更新部46には、画素間誤差算出部41及び特徴間誤差算出部42が求めた画像全体についての画素間誤差及び特徴間誤差と、画素間誤差算出部43及び特徴間誤差算出部44が求めた注目領域についての画素間誤差及び特徴間誤差とが入力される。ジェネレータ更新部46は、画像全体の画素間誤差と特徴間誤差、及び注目領域の画素間誤差と特徴間誤差が小さくなるよう、ジェネレータ200内のNN内のニューロン間の結合係数を更新する。
このように、図6の例では、注目領域の画素間誤差及び特徴間誤差が小さくなるようにジェネレータを学習させるので、不要情報を除去又は低減したことによるSR画像内の注目領域の画質への悪影響が緩和される。
図6の例において、学習処理部40内から画像全体についての画素間誤差算出部41及び特徴間誤差算出部42を除いた構成も考えられる。しかし、画像全体についての画素間誤差算出部41及び特徴間誤差算出部42を除いた場合、注目領域の周縁やその外部の画質が劣化するので、図6の例のようにそれらを含んだ構成の方が、全体としての画質がよい。
図6のシステムで学習したジェネレータ200を、図5の情報処理装置10の超解像化部20として用いる。
次に、図8及び図9を参照して、注意(Attention)機構26を備える例を示す。
図8は、この例における学習時のシステムの例である。このシステムは、ジェネレータ200内に注意機構26を備える。注意機構26は、入力のうちの注意すべき要素を学習する機構である。注意機構26としては、例えば、Han Zhang他の“Self-Attention Generative Adversarial Networks”(https://arxiv.org/abs/1805.08318)に示される自己注意機構等の既存のものを用いればよい。
注意機構26は、特徴抽出部22が出力した画像特徴を受け取り、その画像特徴の要素(すなわち特徴抽出部22の出力ニューロンの値)同士の間で関係の強い要素(すなわちより注意すべき要素)ほど強く反映するようその画像特徴を重み付けした出力を生成する。アップサンプリング部24は、注意機構26の出力を超解像化することにより、SR画像を生成する。
学習処理部40内のジェネレータ更新部46は、注意機構26がより適切な注意重みを計算するよう、注意機構26内の重み係数も更新する。
ジェネレータ200及びディスクリミネータ30の学習が完了すると、そのジェネレータ200を超解像化部20として含んだ情報処理装置10(図9参照)を構成することが可能になる。図9の情報処理装置10は、超解像化部20内に注意機構26を含む点が、図5に例示した情報処理装置10と異なる。図9の情報処理装置10は、注意機構26を含まない超解像用のNNよりも高品質なSR画像を生成する。
図1、図2、図5及び図9に例示した情報処理装置10、並びに図3、図6及び図8に例示したシステムは、例えば、汎用のコンピュータを用いて構築される。この場合のコンピュータは、例えば図10に例示するように、ハードウエアとして、プロセッサ302、ランダムアクセスメモリ(RAM)等のメモリ(主記憶装置)304、フラッシュメモリやSSD(ソリッドステートドライブ)、HDD(ハードディスクドライブ)等の不揮発性記憶装置である補助記憶装置306を制御するコントローラ、各種の入出力装置308とのインタフェース、ローカルエリアネットワークなどのネットワークとの接続のための制御を行うネットワークインタフェース310等が、例えばバス312等のデータ伝送路を介して接続された回路構成を有する。なお、図10の例では、プロセッサ302〜ネットワークインタフェース310までの全ての要素が同じバス120にフラットに接続されているが、これはあくまで一例に過ぎない。この代わりに、それら要素のうちの一部(例えばプロセッサ302を含む要素群)が例えばSoC(System-on-a-Chip)のように一つのチップに集積され、そのチップが接続された外部バスに対して残りの要素群が接続されるような階層的な構造であってもよい。
ここでプロセッサ302とは広義的なプロセッサを指し、汎用的なプロセッサ(例えばCPU:Central Processing Unit、等)や、専用のプロセッサ(例えばGPU:Graphics Processing Unit、 ASIC:Application Specific Integrated Circuit、 FPGA:Field Programmable Gate Array、 プログラマブル論理デバイス、等)を含むものである。
また、プロセッサ302の動作は、1つのプロセッサによってなすのみでなく、物理的に離れた位置に存在する複数のプロセッサが協働してなすものであってもよい。また、プロセッサ302の各動作は、以下の実施形態において説明する順序のみに限定されるものではなく、適宜に変更してもよい。
また、図1、図2、図5及び図9に例示した情報処理装置10、並びに図3、図6及び図8に例示したシステムのうちの一部又は全部の要素を、ハードウエア回路として構成してもよい。
10 情報処理装置、12 低解像度化部、14 スケール判定部、16 ダウンサンプリング部、18 分割部、20 超解像化部、22 特徴抽出部、24 アップサンプリング部、26 注意機構、30 ディスクリミネータ、32 特徴抽出・識別部、34 判定部、40 学習処理部、41,43 画素間誤差算出部、42,44 特徴間誤差算出部、46 ジェネレータ更新部、48 ディスクリミネータ更新部、50 マスク、55 画像、200 ジェネレータ、302 プロセッサ、304 メモリ(主記憶装置)、306 補助記憶装置、308 入出力装置、310 ネットワークインタフェース、312 バス。
Claims (12)
- プロセッサを備え、
前記プロセッサは、
対象画像のサイズ又は前記対象画像に含まれる不要情報のサイズの大きさによって低解像度化の度合いが変化するような低解像度化処理を前記対象画像に対して実行することにより低解像度画像を生成し、
前記低解像度画像に基づき、前記対象画像の解像度に対応する所定解像度の超解像画像を生成する処理を実行する、
ことを特徴とする情報処理装置。 - 前記低解像度化処理では、前記対象画像と前記不要情報とのサイズの乖離が小さいほど、前記低解像度化の度合いを大きくする、
ことを特徴とする請求項1に記載の情報処理装置。 - 前記低解像度化処理では、前記対象画像のサイズが大きいほど、前記低解像度化の度合いを大きくする、
ことを特徴とする請求項2に記載の情報処理装置。 - 前記低解像度化処理では、前記不要情報のサイズが大きいほど、前記低解像度化の度合いを大きくする、
ことを特徴とする請求項2に記載の情報処理装置。 - 前記プロセッサは、更に、入力された画像を複数の領域に分割し、
前記低解像度化処理は、分割により得られた前記複数の領域の各々の画像を前記対象画像として実行され、
前記プロセッサは、前記対象画像の各々に対応する前記低解像度画像に基づき生成された前記所定解像度の超解像画像から、前記入力された画像に対応する超解像画像を生成する、
ことを特徴とする請求項1〜4のいずれか1項に記載の情報処理装置。 - 前記低解像度化処理では、前記領域のサイズが大きいほど、前記低解像度化の度合いを大きくする、ことを特徴とする請求項5に記載の情報処理装置。
- 前記分割では、前記対象画像に含まれるオブジェクトの種類ごとに前記対象画像を前記複数の領域に分割し、
前記低解像度化処理では、前記領域に対応する前記オブジェクトの種類に応じた前記度合いで前記領域を低解像度化する、ことを特徴とする請求項5又は6に記載の情報処理装置。 - 前記超解像画像を生成する処理は、ディスクリミネータとジェネレータとを含む学習済みの敵対的生成ネットワークの前記ジェネレータを用いて実行され、
前記敵対的生成ネットワークの学習は、前記ジェネレータは前記対象画像に対応する前記低解像度画像から前記所定解像度の超解像画像を生成すること、前記ディスクリミネータは前記対象画像と前記所定解像度の超解像画像とを識別すること、を学習するものである、ことを特徴とする請求項1〜7のいずれか1項に記載の情報処理装置。 - 前記敵対的生成ネットワークの前記学習では、前記対象画像中の注目オブジェクトの領域の情報に基づいて損失を計算し、計算した損失に基づいて前記ジェネレータを学習させる、ことを特徴とする請求項8に記載の情報処理装置。
- 前記超解像画像を生成する処理を実行する機構は、前記低解像度画像から画像特徴を抽出する第1のニューラルネットワークと、前記画像特徴を処理する注意機構と、前記注意機構の出力から前記所定解像度の超解像画像を生成する第2のニューラルネットワークと、を含む、請求項1〜9のいずれか1項に記載の情報処理装置。
- コンピュータに、
対象画像のサイズ又は前記対象画像に含まれる不要情報のサイズの大きさによって低解像度化の度合いが変化するような低解像度化処理を前記対象画像に対して実行することにより低解像度画像を生成し、
前記低解像度画像に基づき、前記対象画像の解像度に対応する所定解像度の超解像画像を生成する、
処理を実行させるためのプログラム。 - 対象画像のサイズ又は前記対象画像に含まれる不要情報のサイズの大きさによって低解像度化の度合いが変化するような低解像度化処理を前記対象画像に対して実行することにより低解像度画像を生成する第1生成回路と、
前記低解像度画像に基づき、前記対象画像の解像度に対応する所定解像度の超解像画像を生成する第2生成回路と、
を含む情報処理装置。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020073785A JP2021170284A (ja) | 2020-04-17 | 2020-04-17 | 情報処理装置及びプログラム |
US17/120,770 US20210327028A1 (en) | 2020-04-17 | 2020-12-14 | Information processing apparatus |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020073785A JP2021170284A (ja) | 2020-04-17 | 2020-04-17 | 情報処理装置及びプログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2021170284A true JP2021170284A (ja) | 2021-10-28 |
Family
ID=78080855
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020073785A Pending JP2021170284A (ja) | 2020-04-17 | 2020-04-17 | 情報処理装置及びプログラム |
Country Status (2)
Country | Link |
---|---|
US (1) | US20210327028A1 (ja) |
JP (1) | JP2021170284A (ja) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11580673B1 (en) * | 2019-06-04 | 2023-02-14 | Duke University | Methods, systems, and computer readable media for mask embedding for realistic high-resolution image synthesis |
CN111563561A (zh) * | 2020-07-13 | 2020-08-21 | 支付宝(杭州)信息技术有限公司 | 指纹图像的处理方法及装置 |
US20230252603A1 (en) * | 2022-02-08 | 2023-08-10 | Kyocera Document Solutions, Inc. | Mitigation of quantization-induced image artifacts |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9299004B2 (en) * | 2013-10-24 | 2016-03-29 | Adobe Systems Incorporated | Image foreground detection |
EP3432263B1 (en) * | 2017-07-17 | 2020-09-16 | Siemens Healthcare GmbH | Semantic segmentation for cancer detection in digital breast tomosynthesis |
CN110428366B (zh) * | 2019-07-26 | 2023-10-13 | Oppo广东移动通信有限公司 | 图像处理方法和装置、电子设备、计算机可读存储介质 |
-
2020
- 2020-04-17 JP JP2020073785A patent/JP2021170284A/ja active Pending
- 2020-12-14 US US17/120,770 patent/US20210327028A1/en not_active Abandoned
Also Published As
Publication number | Publication date |
---|---|
US20210327028A1 (en) | 2021-10-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10726244B2 (en) | Method and apparatus detecting a target | |
CN109325954B (zh) | 图像分割方法、装置及电子设备 | |
JP7490141B2 (ja) | 画像検出方法、モデルトレーニング方法、画像検出装置、トレーニング装置、機器及びプログラム | |
JP6362333B2 (ja) | 画像処理装置、画像処理方法、およびプログラム | |
WO2020199478A1 (zh) | 图像生成模型训练方法、图像生成方法、装置、设备及存储介质 | |
JP2021170284A (ja) | 情報処理装置及びプログラム | |
JP6192271B2 (ja) | 画像処理装置、画像処理方法及びプログラム | |
JP6136537B2 (ja) | 画像処理装置、画像処理方法、画像処理制御プログラム、および記録媒体 | |
JPWO2019026104A1 (ja) | 情報処理装置、情報処理プログラム及び情報処理方法 | |
JP2015176169A (ja) | 画像処理装置、画像処理方法およびプログラム | |
JP2010108494A (ja) | 画像内の顔の特性を判断する方法及びシステム | |
US8571315B2 (en) | Information processing apparatus, information processing method, and program | |
Tarasiewicz et al. | Skinny: A lightweight U-Net for skin detection and segmentation | |
CN112836653A (zh) | 人脸隐私化方法、设备、装置及计算机存储介质 | |
JP6110174B2 (ja) | 画像検出装置及び制御プログラム並びに画像検出方法 | |
CN115631112A (zh) | 一种基于深度学习的建筑轮廓矫正方法及装置 | |
Omer et al. | Combination of local binary pattern and face geometric features for gender classification from face images | |
CN111985488B (zh) | 一种基于离线高斯模型的目标检测分割方法及*** | |
Oyama et al. | Fully convolutional densenet for saliency-map prediction | |
US20230222782A1 (en) | Adversarial example detection device, adversarial example detection method, and program | |
JP6780073B2 (ja) | 画像処理装置、画像処理方法、およびプログラム | |
JP4922188B2 (ja) | データ分類方法、データ分類装置、コンピュータプログラム、及び記録媒体 | |
CN116503294B (zh) | 基于人工智能的文物图像复原方法、装置及设备 | |
CN111597373B (zh) | 基于卷积神经网络和连通图的图片归类方法及相关设备 | |
Keserwani et al. | TRPN: A text region proposal network in the wild under the constraint of low memory GPU |