JP2021170284A

JP2021170284A - 情報処理装置及びプログラム

Info

Publication number: JP2021170284A
Application number: JP2020073785A
Authority: JP
Inventors: 湧介町井; Yusuke Machii; 佑介山浦; Yusuke Yamaura; 軼謳王; Yiou Wang
Original assignee: Fujifilm Business Innovation Corp
Current assignee: Fujifilm Business Innovation Corp
Priority date: 2020-04-17
Filing date: 2020-04-17
Publication date: 2021-10-28
Also published as: US20210327028A1

Abstract

【課題】低解像度化によって画像中の不要情報の成分を除去又は低減するとともに、低解像度化の度合いが一定である方式と比べて、超解像処理後の画像の劣化を少なくする情報処理装置及びプログラムを提供する。【解決手段】情報処理装置１０は、対象画像のサイズ又は対象画像に含まれる不要情報のサイズの大きさによって低解像度化の度合いが変化するような低解像度化処理を対象画像に対して実行することにより低解像度画像を生成する低解像度化部１２と、低解像度画像に基づき、対象画像の解像度に対応する所定解像度の超解像画像を生成する処理を実行する超解像化部２０とを、備える。【選択図】図１

Description

本発明は、情報処理装置及びプログラムに関する。

画像に含まれる不要情報を除去又は低減する手法として、特許文献１〜３に記載された方法が知られている。これらの方法では、画像内の不要情報の領域をアルゴリズム的手法で特定し、特定した不要情報を除去又は低減している。

一方、低解像度の画像を高解像度化する超解像技術が発展してきている。近年では、ＤＮＮ（ディープ・ニューラル・ネットワーク）を用いた超解像の研究及び実用化が進んでいる。例えば、非特許文献１及び２で提案された手法を初めとするＧＡＮ（Generative Adversarial Network：敵対的生成ネットワーク）ベースの超解像手法は、ＳＲＧＡＮ（（Super Resolution GAN））と呼ばれ、良好な性能を達成している。

また、特許文献４に記載された画像処理装置の制御部は、医用画像に画素数を低減するための間引き処理を施して間引き画像を生成し、間引き画像を入力画像として、ディープラーニング処理部によりニューラルネットワーク（以下「ＮＮ」と略す）を用いて医用画像に含まれる所定の構造物の信号成分を抽出し、ＮＮから出力された出力画像に超解像処理を施して、元の医用画像と同じ画素数の、元の医用画像における構造物の信号成分（高周波成分を含む）を表す構造物画像を生成する。

特開２０１９−１１４８２１号公報特開２０１９−１１０３９６号公報特表２０１９−５３００９６号公報特開２０２０−３６７７４号公報

Ledig, C., Theis, L., et al. "Photo-realistic single image superresolution using a generative adversarial network." In: CVPR. (2017) Blau, Yochai, et al. "The 2018 PIRM Challenge on Perceptual Image Super-Resolution."In: ECCV. (2018)

画像に含まれる不要情報を除去又は低減する方法として、画像を低解像度化した後、超解像化により元の画像の解像度に対応する解像度に戻す方法が考えられる。低解像度化により画像中の不要情報の成分を除去又は低減され、超解像化では不要情報が十分に復元されないことにより、不要情報が除去又は低減されることと期待される。

しかし、低解像度化の度合いが大きいほど画像の劣化が発生してしまい、低解像度化の度合いが小さすぎると画像中の不要情報の成分を除去又は低減することができない。

本発明は、低解像度化によって画像中の不要情報の成分を除去又は低減するとともに、低解像度化の度合いが一定である方式と比べて、超解像処理後の画像の劣化を少なくすることを目的とする。

請求項１に係る発明は、プロセッサを備え、前記プロセッサは、対象画像のサイズ又は前記対象画像に含まれる不要情報のサイズの大きさによって低解像度化の度合いが変化するような低解像度化処理を前記対象画像に対して実行することにより低解像度画像を生成し、前記低解像度画像に基づき、前記対象画像の解像度に対応する所定解像度の超解像画像を生成する処理を実行する、ことを特徴とする情報処理装置である。

請求項２に係る発明は、前記低解像度化処理では、前記対象画像と前記不要情報とのサイズの乖離が小さいほど、前記低解像度化の度合いを大きくする、ことを特徴とする請求項１に記載の情報処理装置である。

請求項３に係る発明は、前記低解像度化処理では、前記対象画像のサイズが大きいほど、前記低解像度化の度合いを大きくする、ことを特徴とする請求項２に記載の情報処理装置である。

請求項４に係る発明は、前記低解像度化処理では、前記不要情報のサイズが大きいほど、前記低解像度化の度合いを大きくする、ことを特徴とする請求項２に記載の情報処理装置である。

請求項５に係る発明は、前記プロセッサは、更に、入力された画像を複数の領域に分割し、前記低解像度化処理は、分割により得られた前記複数の領域の各々の画像を前記対象画像として実行され、前記プロセッサは、前記対象画像の各々に対応する前記低解像度画像に基づき生成された前記所定解像度の超解像画像から、前記入力された画像に対応する超解像画像を生成する、ことを特徴とする請求項１〜４のいずれか１項に記載の情報処理装置である。

請求項６に係る発明は、前記低解像度化処理では、前記領域のサイズが大きいほど、前記低解像度化の度合いを大きくする、ことを特徴とする請求項５に記載の情報処理装置である。

請求項７に係る発明は、前記分割では、前記対象画像に含まれるオブジェクトの種類ごとに前記対象画像を前記複数の領域に分割し、前記低解像度化処理では、前記領域に対応する前記オブジェクトの種類に応じた前記度合いで前記領域を低解像度化する、ことを特徴とする請求項５又は６に記載の情報処理装置である。

請求項８に係る発明は、前記超解像画像を生成する処理は、ディスクリミネータとジェネレータとを含む学習済みの敵対的生成ネットワークの前記ジェネレータを用いて実行され、前記敵対的生成ネットワークの学習は、前記ジェネレータは前記対象画像に対応する前記低解像度画像から前記所定解像度の超解像画像を生成すること、前記ディスクリミネータは前記対象画像と前記所定解像度の超解像画像とを識別すること、を学習するものである、ことを特徴とする請求項１〜７のいずれか１項に記載の情報処理装置である。

請求項９に係る発明は、前記敵対的生成ネットワークの前記学習では、前記対象画像中の注目オブジェクトの領域の情報に基づいて損失を計算し、計算した損失に基づいて前記ジェネレータを学習させる、ことを特徴とする請求項８に記載の情報処理装置である。

請求項１０に係る発明は、前記超解像画像を生成する処理を実行する機構は、前記低解像度画像から画像特徴を抽出する第１のニューラルネットワークと、前記画像特徴を処理する注意機構と、前記注意機構の出力から前記所定解像度の超解像画像を生成する第２のニューラルネットワークと、を含む、請求項１〜９のいずれか１項に記載の情報処理装置である。

請求項１１に係る発明は、コンピュータに、対象画像のサイズ又は前記対象画像に含まれる不要情報のサイズの大きさによって低解像度化の度合いが変化するような低解像度化処理を前記対象画像に対して実行することにより低解像度画像を生成し、前記低解像度画像に基づき、前記対象画像の解像度に対応する所定解像度の超解像画像を生成する、処理を実行させるためのプログラムである。

請求項１２に係る発明は、対象画像のサイズ又は前記対象画像に含まれる不要情報のサイズの大きさによって低解像度化の度合いが変化するような低解像度化処理を前記対象画像に対して実行することにより低解像度画像を生成する第１生成回路と、前記低解像度画像に基づき、前記対象画像の解像度に対応する所定解像度の超解像画像を生成する第２生成回路と、を含む情報処理装置である。

請求項１、８、１１又は１２に係る発明によれば、低解像度化によって画像中の不要情報の成分を除去又は低減するとともに、低解像度化の度合いが一定である方式と比べて、超解像処理後の画像の劣化を少なくすることができる。

請求項２に係る発明によれば、対象画像と不要情報のサイズによらず低解像度化の度合いを一律にする場合に比べて、不要情報の除去又は低減が不十分になる可能性を低減できる。

請求項３に係る発明によれば、対象画像のサイズによらず低解像度化の度合いを一律にする場合に比べて、不要情報の除去又は低減が不十分になる可能性を低減できる。

請求項４に係る発明によれば、不要情報のサイズによらず低解像度化の度合いを一律にする場合に比べて、不要情報の除去又は低減が不十分になる可能性を低減できる。

請求項５に係る発明によれば、対象画像の全ての領域を一律に扱う場合よりも、領域ごとの不要情報の除去又は低減が不十分になる可能性を低減できる。

請求項６に係る発明によれば、領域のサイズによらず低解像度化の度合いを一律にする場合に比べて、領域内の不要情報の除去又は低減が不十分になる可能性を低減できる。

請求項７に係る発明によれば、領域に対応するオブジェクトの種類によらず低解像度化の度合いを一律にする場合に比べて、領域内の不要情報の除去又は低減が不十分になる可能性を低減できる。

請求項９に係る発明によれば、注目オブジェクトの領域の情報を用いずにジェネレータを学習させる場合よりも、ジェネレータが生成する超解像画像における注目オブジェクトの領域の画質を向上させることができる。

請求項１０に係る発明によれば、注意機構を用いない場合と比べて、生成される超解像画像の画質を向上させることができる。

情報処理装置の機能構成の一例を示す図である。情報処理装置の機能構成を別の例を示す図である。情報処理装置を学習させるためのＧＡＮベースのシステム構成の一例を示す図である。領域ごとにダウンサンプリングのスケールが異なる場合の超解像化の仕組みの例を示す図である。図３のシステムによる学習結果を実装した情報処理装置の例を示す図である。情報処理装置を学習させるためのＧＡＮベースのシステム構成の別の例を示す図である。マスクの例を示す図である。情報処理装置を学習させるためのＧＡＮベースのシステム構成の更に別の例を示す図である。情報処理装置の機能構成を更に別の例を示す図である。コンピュータのハードウエア構成を例示する図である。

図１を参照して、画像中の不要情報を除去又は低減する情報処理装置１０の一例を説明する。この情報処理装置１０は、入力画像を処理することにより、その中の不要情報が除去又は低減された出力画像を生成する装置である。図では、入力画像及び出力画像をそれぞれ「ＨＲ画像」及び「ＳＲ画像」と表記している。ＨＲ（High Resolution）画像は高解像度の画像を意味する。ここでの「高解像度」は、情報処理装置１０がそのＨＲ画像から一時的に生成するＬＲ（Low Resolution）画像に比べて解像度が高いことを意味する。ＳＲ（Super Resolution）画像は、そのＬＲ画像を超解像化することにより得られた画像であり、ＬＲ画像よりは解像度が高い。典型的な例ではＳＲ画像はＨＲ画像と同じ解像度であるが、これは必須のことではない。ＳＲ画像の解像度は、ＨＲ画像のそれより低くてもよいし、高くてもよい。

不要情報とは、画像内に認識可能な形で含まれている情報であって、その画像の使用目的等からみてその画像内にない方がよい情報である。例えば、写真の中に映り込んでしまった撮影者の指や、通行人の顔、被写体の指紋、被写体の瞳に映った背景、等の像が不要情報の一例である。

図１に例示する情報処理装置１０は、低解像度化部１２と超解像化部２０とを備える。低解像度化部１２は、ＨＲ画像に対して、低解像度化、すなわちより解像度が低いＬＲ画像への変換処理、を実行する。低解像度化部１２は、スケール判定部１４とダウンサンプリング部１６とを備える。

ダウンサンプリング部１６は、ＨＲ画像に対して画像のダウンサンプリングを実行することにより、ＬＲ画像を生成する。画像のダウンサンプリングには、公知の又はこれから開発されるどのような方法を用いてもよい。ダウンサンプリングは、例えば、単なる画素の間引きであってもよいし、画像を複数のブロックに分け、ブロック毎の画素の代表値（例えば画素値の平均）を持つ低解像度画像を生成する処理であってもよい。

スケール判定部１４は、ダウンサンプリング部１６が行うダウンサンプリングのスケール、すなわち低解像度化の度合いを判定する。このスケールの判定はサイズ情報に基づき行われる。

ここで、サイズ情報とは、一つの例では、ＨＲ画像又はＳＲ画像のサイズを示す情報である。また別の例では、サイズ情報とは、ＨＲ画像内に含まれる不要情報のサイズを示す情報である。また、サイズ情報として、ＨＲ画像又はＳＲ画像のサイズと、不要情報のサイズの情報の両方がスケール判定部１４に入力される例も考えられる。

サイズ情報は、物理的な長さ又はこれと等価な大きさを示す情報であってもよいし、画素数の単位で表される大きさを示す情報であってもよい。後者のサイズが示す物理的な長さは、画像を表示する表示装置の画素サイズによって変わってくる。物理的な長さと等価なサイズ情報の具体例としては、ＳＲ画像が担持される媒体のサイズを示す情報がある。ここで媒体とは、その画像を表示する表示装置の画面やその画像が印刷される用紙等である。画面サイズは、インチ単位の数値で表現されるものに限らず、例えばスマートフォンサイズ、タブレットサイズといった、表示装置の大きさによる分類を示すものであってもよい。

またスケール判定部１４に入力されるサイズ情報は、ＨＲ画像のサイズと不要情報のサイズとの乖離の程度を示す情報であってもよい。この情報は、例えば、ＨＲ画像のサイズと不要情報のサイズとの比であってもよいし、それら両者の差であってもよい。

サイズ情報は、ユーザが入力してもよいし、情報処理装置１０が判定してもよい。例えば、ユーザが、サイズの数値やサイズを特定する他の情報（例えばスマートフォンサイズ、タブレットサイズ等の画面サイズの分類を表す情報、又は用紙の大きさの分類を表す情報）等を入力してもよい。また、情報処理装置１０が、自身を含んだ端末の画面サイズの情報を、その端末のオペレーティングシステムから取得し、取得した情報をサイズ情報として用いてもよい。また、情報処理装置１０が、ＳＲ画像の表示処理を実行するアプリケーションの属性情報から、そのアプリケーションが実行される端末の画面サイズを判定し、この画面サイズをサイズ情報として用いてもよい。

スケール判定部１４は、例えば、ＨＲ画像のサイズとその中の不要情報のサイズとの乖離の程度、例えば両者の差又は比、に基づいて、スケールを判定してもよい。より具体的な例では、スケール判定部１４は、不要情報のサイズのＨＲ画像のサイズに対する乖離が小さいほど（例えば前者の後者に対する比が１に近いほど）、ダウンサンプリングのスケール、すなわち低解像度化の度合いを大きくする。例えば、不要情報のサイズのＨＲ画像のサイズに対する比が１／２０であればダウンサンプリングのスケールを２（すなわち２×２画素を１画素に変換）とし、１／１０であれば４（すなわち４×４画素を１画素に変換）とするなどである。スケール判定のためには、例えば、ＨＲ画像のサイズと不要情報のサイズとの乖離の程度からダウンサンプリングのスケールを求める関数又はテーブルを用意しておけばよい。不要情報のサイズがＨＲ画像のサイズに近いほどダウンサンプリングのスケールを大きい値とすることにより、スケールを一定とする場合と比べて、情報処理装置１０が出力するＳＲ画像に不要情報の成分が視認可能な程度まで残る可能性が低減される。

また、スケール判定部１４は、ＨＲ画像のサイズが大きいほど、ダウンサンプリングのスケールを大きくしてもよい。ＨＲ画像が大きいほど、その中に大きい不要情報が含まれる確率は高くなる。不要情報が大きいほど、それを見えなくするためには大きくダウンサンプリングする必要がある。

また、スケール判定部１４は、ＨＲ画像内の不要情報のサイズが大きいほど、ダウンサンプリングのスケールを大きくしてもよい。

ダウンサンプリング部１６は、スケール判定部１４が判定したスケールに従って、ＨＲ画像のダウンサンプリングを行う。例えば、スケールが２と判定された場合は、ＨＲ画像内の互いに隣り合う４（＝２×２）画素をそれぞれブロックとし、ブロックを１画素に変換するダウンサンプリングを行う。ダウンサンプリングの方式としては、どのような方式を用いてもよい。例えば、単なる間引き（すなわち、ブロック内の特定の１画素の値を出力し、他の画素の値は捨てる処理）であってもよいし、ブロック内の画素群の平均を出力がその値としてもよい。

このような処理により、ダウンサンプリング部１６は、ＨＲ画像を、それよりも低解像度のＬＲ画像へと変換する。

超解像化部２０は、そのＬＲ画像に対して超解像化を行うことにより、ＳＲ画像を生成する。超解像化には、どのような方式を用いてもよい。画素補間等の画像処理的な方式を用いてもよいし、ＳＲＧＡＮ等のＮＮベースの方式を用いてもよい。不要情報の成分はＬＲ画像の段階でかなり低減されており、ＬＲ画像を超解像化してももとの不要情報は復元されない。このようにして、不要情報が除去又は低減されたＳＲ画像が得られる。

次に、図２を参照して、情報処理装置１０の別の例を説明する。図２に例示する情報処理装置１０は、低解像度化部１２内の要素としてスケール判定部１４の代わりに分割部１８を持つ点が、図１に例示した情報処理装置１０と異なる。また、図２の情報処理装置１０内のダウンサンプリング部１６ａは、図１の情報処理装置１０のダウンサンプリング部１６にはない機能を持つ。

分割部１８は、入力されたＨＲ画像を複数の領域に分割する。この分割には、例えば画像セグメンテーション技術を用いればよい。

例えば、画像セグメンテーション技術の一つであるセマンティック・セグメンテーションを用いれば、ＨＲ画像を、クラスごとの領域に分割することができる。セマンティック・セグメンテーションにおけるクラスとは、画像内のオブジェクトの種類のことである。セマンティック・セグメンテーションは、深層学習ベースの技術である。セマンティック・セグメンテーション技術を用いる例では、分割部１８は、入力された画像内の予め定められた１以上のクラスのそれぞれに該当する領域を特定するよう、学習を済ませている。この例では、分割部１８は、画像の中から、学習済みの各クラスに該当する領域をそれぞれ特定する。また付随的に、分割部１８は、学習したクラスのいずれにも属さない領域を特定することもできる。例えば、「人の顔」というクラスの領域を特定するよう学習を済ませている分割部１８は、入力されたＨＲ画像を「人の顔」の領域とそれ以外との領域（＝いわば「背景」）とに分割する。また例えば「瞳」、「人の顔」という２つのクラスを学習した分割部１８は、入力されたＨＲ画像を「瞳」の領域、瞳を除く「人の顔」の領域、及びその他の領域の３種類に分割する。

セマンティック・セグメンテーションの利用はあくまで一例に過ぎない。分割部１８は、インスタンス・セグメンテーションなど、セマンティック・セグメンテーション以外の画像セグメンテーション技術をベースとしたものであってもよい。また、分割部１８は、画像セグメンテーション技術以外の技術を用いたものであってもよい。

また分割部１８は、ＨＲ画像の分割により得られた複数の領域の各々について、その領域のサイズを求め、求めたサイズに応じて、その領域に適用するダウンサンプリングのスケールを判定する。

あくまで一例であるが、領域のサイズとしては、例えばその領域に含まれる画素の数、あるいは、その領域のバウンディングボックスのサイズ、等を用いてもよい。ここで領域のバウンディングボックスは、ＨＲ画像の縦及び横の辺にそれぞれ平行な辺からなる、その領域に外接する長方形のことである。バウンディングボックスのサイズとしては、例えば、バウンディングボックスの対角線の長さ、又は、バウンディングボックスの幅及び高さのうちの一方（例えば短い方）を用いてもよい。

分割部１８は、例えば、領域のサイズが大きいほど、領域に適用するダウンサンプリングのスケールを大きくする。領域が大きいほど、その中に大きい不要情報が含まれる可能性が高いので、そのような大きい不要情報を除去又は低減できるよう、ダウンサンプリングのスケールを大きくするのである。

また、別の例として、領域に含まれる可能性がある不要情報のサイズ、又はその不要情報のその領域に対するサイズの比率が予め分かっている場合がある。例えば、「指先」というクラスに該当する領域の場合、その指先の指紋の情報は、出力であるＳＲ画像から消したい不要情報である。ここで、指紋を構成する線の幅と、指先のサイズの比率はある程度想定可能である。このような場合に、分割部１８は、その領域と不要情報とのサイズの乖離が小さいほど（例えば上述のサイズの比率が１に近いほど）、ダウンサンプリングのスケールを大きくしてもよい。

また、更に別の例として、分割部１８は、ダウンサンプリングのスケールを、領域のクラス（すなわちその領域に対応するオブジェクトの種類）に基づいて判定してもよい。例えば、領域のクラスが「指先」であれば、不要情報である指紋を見えなくするために必要なダウンサンプリングのスケールがおおよそ決まってくる。また例えば領域のクラスが、不要情報を含む可能性が低いものである場合は、ダウンサンプリングのスケールを小さい値に定めておいてもよい。ダウンサンプリングのスケールが小さいと、ダウンサンプリングによる画質（例えば画像の高周波成分）の劣化が少ない。

また、分割部１８は、ダウンサンプリングのスケールを、領域のクラスとその領域のサイズの両方に基づいて判定してもよい。クラスと領域の組合せ毎に、その組合せに対応するスケールの値を登録したテーブル等を用いればよい。クラスが同じであれば、領域のサイズが大きくなるほど、ダウンサンプリングのスケールは大きくなる。例えば、同じ「指先」クラスの領域であっても、その領域のサイズが大きいほど、その中の指紋の文様も大きくなるため、それを見えなくするためには、低解像度化の度合いをより大きくする必要がある。

分割部１８は、分割により得られた個々の領域ごとに、その領域を特定する領域情報（例えば、各画素がどのクラスに該当するかを示す情報）と、その領域についてのダウンサンプリングのスケールの情報とをダウンサンプリング部１６ａに渡す。

ダウンサンプリング部１６ａは、分割部１８から得た領域情報とスケールの情報に基づき、ＨＲ画像を領域ごとに当該領域に対応するスケールに従ってダウンサンプリングする。例えば、ＨＲ画像が「人の顔」の領域と「背景」の領域に分割され、ダウンサンプリングのスケールは前者が２、後者が４と判定されたとする。この場合、ダウンサンプリング部１６ａは、「人の顔」の領域については２×２画素を１画素にするダウンサンプリング、「背景」の領域については４×４画素を１画素にするダウンサンプリングを実行する。ダウンサンプリング部１６ａは、領域ごとに、その領域のダウンサンプリング結果であるＬＲ画像と、その領域に適用されたダウンサンプリングのスケールの情報とを、超解像化部２０に渡す。

超解像化部２０は、領域ごとに、その領域のＬＲ画像を、その領域に適用されたダウンサンプリングのスケールに応じて超解像化することにより、所定の解像度を持つＳＲ画像を生成する。例えば、ＨＲ画像が「人の顔」の領域と「背景」の領域に分割され、ダウンサンプリングのスケールは前者が２、後者が４である場合に、超解像化部２０が、前者の領域を２倍（すなわち画素数４倍）、後者の領域を４倍（すなわち画素数１６倍）に超解像化すると、元のＨＲ画像と同じ解像度のＳＲ画像が得られる。

以上に説明したように、図２に例示した情報処理装置１０は、領域ごとに、ダウンサンプリングのスケールをその領域に適した値に制御する。これにより、領域ごとに、その領域内の不要情報を除去又は十分に低減しつつも、画質の過度の劣化をさける。

次に、図３及び図４を参照して、ＧＡＮ（敵対的生成ネットワーク）の技術を用いて超解像化部２０を構築する場合のシステム構成の例を説明する。この例は、図２に例示した、入力された画像を領域に分割する方式を用いる装置構成をＧＡＮベースで実現する例である。重複説明が多くなるために省略するが、図１に例示した、画像全体のダウンサンプリングのスケールをサイズ情報に応じて一律に定める方式を用いる装置構成も、ＧＡＮベースで同様に実現可能である。

図３は、このシステムの学習時の構成の例を示す。このシステム構成は、低解像度化部１２、ジェネレータ２００、ディスクリミネータ３０及び学習処理部４０を含む。学習処理部４０の制御のもとで、ジェネレータ２００とディスクリミネータ３０とがＧＡＮの仕組みに従い敵対的に学習を行うことにより、視覚的にＨＲ画像と見分けがつきにくいＳＲ画像を生成するジェネレータ２００が得られる。十分に学習を済ませたジェネレータ２００が、超解像化部２０として機能することとなる。

低解像度化部１２は、図２に例示したものと同様の構成を有しており、入力されたＨＲ画像を複数の領域に分割し、領域ごとにその領域に応じたスケールでダウンサンプリングを行い、その結果得られたＬＲ画像を出力する。

ジェネレータ２００は、特徴抽出部２２及びアップサンプリング部２４を含む。特徴抽出部２２は、入力されたＬＲ画像からそのＬＲ画像の特徴を示すデータ、すなわち画像特徴を抽出する。アップサンプリング部２４は、その画像特徴から所定の解像度の画像、すなわちＳＲ画像を生成する。特徴抽出部２２及びアップサンプリング部２４は、例えば、既存のＳＲＧＡＮのジェネレータと同様の、畳み込みＮＮ等を含むＮＮシステムとして構成される。

ディスクリミネータ３０には、ジェネレータ２００が生成したＳＲ画像、又はその元になったＨＲ画像が入力される。ディスクリミネータ３０は、入力された画像が本物（すなわちＨＲ画像）、贋作（すなわちＳＲ画像）のいずれかであるかを識別する。ジェネレータ２００がＬＲ画像から元のＨＲ画像と見分けのつかないＳＲ画像を生成しようと学習する一方、ディスクリミネータ３０はＨＲ画像とＳＲ画像を見分けるよう学習する。このようにジェネレータ２００とディスクリミネータ３０とが敵対的、すなわち競合的に、学習を進めることで、ジェネレータ２００とディスクリミネータ３０の能力がともに向上していく。

ディスクリミネータ３０において、特徴抽出・識別部３２は、入力された画像（すなわちＨＲ画像又はＳＲ画像）から画像特徴を抽出し、その画像特徴に基づき、入力された画像がＨＲ画像、ＳＲ画像のいずれであるかを識別する。特徴抽出・識別部３２の出力は、例えば、その識別の結果を示す二値のデータである。また、別の例として、特徴抽出・識別部３２は、入力された画像が正しい画像（すなわちＨＲ画像）である確からしさを識別結果として求めてもよい。この場合、特徴抽出・識別部３２が出力する識別結果の値は０から１までの実数値である。入力された画像がＨＲ画像であることが完全に確かであれば識別結果の値は１であり、逆に入力された画像がＳＲ画像であることが完全に確かであれば識別結果の値は０である。なお、入力された画像から特徴抽出・識別部３２が抽出する画像特徴は、ＨＲ画像かＳＲ画像かを識別するために必要な画像特徴なので、ジェネレータ２００の特徴抽出部２２が超解像化のために抽出する画像特徴とは必ずしも同じものではない。特徴抽出・識別部３２は、例えば、既存のＳＲＧＡＮのディスクリミネータと同様、畳み込みＮＮ等を含むＮＮシステムとして構成される。

判定部３４は、特徴抽出・識別部３２の識別結果が正解か否かを判定する。すなわち、判定部３４は、ディスクリミネータ３０内の画像入力制御（図示省略）から、特徴抽出・識別部３２に対してＨＲ画像及びＳＲ画像のどちらを入力したかを示す信号を受け取る。そして判定部３４は、その信号を、特徴抽出・識別部３２が出力した識別結果と突き合わせることで、その識別結果が正解か否かを判定する。また、特徴抽出・識別部３２が、入力された画像がＨＲ画像である確からしさを識別結果として出力する例では、判定部３４は、その識別結果を、画像入力制御がＨＲ、ＳＲ画像のどちらを実際に入力したかの信号と突き合わせる。判定部３４は、この突き合わせにより、識別結果が正解である度合いを示す得点を求める。例えば、実際に入力されたのがＨＲ画像であるときに、識別結果が１．０（すなわちＨＲ画像である確からしさが最大）であれば得点は１００点（＝最高得点）、識別結果が０．７であれば得点は７０点、識別結果が０．０であれば０点（＝最低得点）等と定める。また例えば、実際に入力されたのがＳＲ画像であるときに、識別結果が１．０であれば得点は０点、識別結果が０．７であれば得点は３０点、識別結果が０．０であれば１００点等と定める。判定部３４は、このように求めた得点を判定の結果として出力する。判定の結果は、学習処理部４０のジェネレータ更新部４６及びディスクリミネータ更新部４８に提供される。

学習処理部４０は、ジェネレータ２００及びディスクリミネータ３０内のＮＮを学習させるための処理を実行する。学習処理部４０には、ＨＲ画像と、そのＨＲ画像を低解像度化したＬＲ画像からジェネレータ２００が生成したＳＲ画像と、が入力される。

学習処理部４０は、画素間誤差算出部４１、特徴間誤差算出部４２、ジェネレータ更新部４６及びディスクリミネータ更新部４８を備える。

画素間誤差算出部４１は、ＨＲ画像に対するＳＲ画像の損失として、ＳＲ画像とＨＲ画像との間の画素間誤差を算出する。画素間誤差としては、例えばそれら両画像の同一画素同士の平均二乗誤差（Mean Square Error）を用いてもよいし、別の誤差を用いてもよい。ＳＲ画像がＨＲ画像と異なる解像度である場合は、画素補間その他の方法で両者の解像度を揃えてから、画素間誤差算出部４１に入力してもよい。

特徴間誤差算出部４２は、ＳＲ画像及びＨＲ画像の画像特徴をそれぞれ抽出し、それら両画像の画像特徴間の誤差（特徴間誤差と呼ぶ）を算出する。この誤差も、平均二乗誤差等の方法で求めればよい。なお、特徴間誤差算出部４２が抽出する画像特徴は、ジェネレータ２００の特徴抽出部２２が抽出する画像特徴やディスクリミネータ３０の特徴抽出・識別部３２が抽出する画像特徴とは必ずしも同じものではない。

ジェネレータ更新部４６は、画素間誤差算出部４１及び特徴間誤差算出部４２からそれぞれ入力される誤差と、判定部３４から入力される判定結果とに基づき、ジェネレータ２００内のＮＮすなわち特徴抽出部２２及びアップサンプリング部２４を学習させる。ジェネレータ更新部４６は、それら入力に従って画素間誤差と特徴間誤差が小さくなるよう、ジェネレータ２００内のＮＮ内のニューロン間の結合係数を更新することにより、そのＮＮを学習させる。

ディスクリミネータ更新部４８は、判定部３４から入力される判定結果に基づき、ディスクリミネータ３０内のＮＮすなわち特徴抽出・識別部３２を学習させる。

図示例では、学習処理部４０は、ＨＲ画像とＳＲ画像の誤差を損失として計算し、その誤差に基づいてジェネレータ２００及びディスクリミネータ３０を学習させた。しかし、誤差以外の他の損失関数を用いてもよい。

以上に説明した図３のシステムに対して多数のＨＲ画像を順に入力し、ジェネレータ２００及びディスクリミネータ３０を学習させる。この学習の結果得られたジェネレータ２００は、ＨＲ画像と見た目の区別がつきにくく、かつＨＲ画像内の不要情報が除去又は十分に低減されたＳＲ画像を生成する能力を持つ。

なお、図３のシステムでは、ＨＲ画像が複数の領域に分割され、領域ごとにそれぞれ個別のスケールでダウンサンプリングされるため、ＬＲ画像の解像度は領域ごとに異なる場合がある。このことに対処する方法の一つとして、ジェネレータ２００を複数用いる方法がある。

この方法では、ＬＲ画像の解像度ごと（言い換えれば、ダウンサンプリングのスケールごと）にジェネレータ２００を用意し、各領域のＬＲ画像をそれぞれその解像度に対応するジェネレータ２００に入力する。各解像度に対応するジェネレータ２００は、入力されたＬＲ画像を、ＳＲ画像の解像度まで超解像化する。各領域の超解像結果を結合することにより、ＳＲ画像が構成される。

図４は、人物上半身１０２と背景１０４の２つのクラスの領域からなるＨＲ画像１００が入力された場合の、低解像度化部１２及びジェネレータ２００の処理の流れの例を示す。この例では、分割部１８が、セマンティック・セグメンテーション等の手法により、ＨＲ画像１００を、人物上半身１０２の領域と、背景１０４の領域とに分割する。この例では、ダウンサンプリング部１６ａは、人物上半身１０２の領域にはスケール２のダウンサンプリング（すなわち１／２の縮小）が、背景１０４にはスケール４のダウンサンプリングを行うとする。これにより、ＨＲ画像の１／２の解像度の人物上半身の画像１１２と、ＨＲ画像の１／４の解像度の背景の画像１１４とが得られる。人物上半身の画像１１２は２倍拡大用のジェネレータ２００Ａに入力され、ジェネレータ２００Ａは、その画像を超解像化し、ＳＲ画像の解像度を持つ人物上半身の画像１２２を生成する。背景の画像１１４は４倍拡大用のジェネレータ２００Ｂに入力され、ジェネレータ２００Ｂは、その画像を超解像化し、ＳＲ画像の解像度を持つ背景の画像１２４を生成する。画像１２２と画像１２４とが結合されることにより、ＨＲ画像１００に対応するＳＲ画像が構成される。

また、別の例として、ＬＲ画像の解像度と領域のクラスの組合せ毎にジェネレータ２００を用意し、各領域のＬＲ画像を、そのＬＲ画像の解像度と当該領域のクラス戸の組合せに対応するジェネレータ２００に入力することとしてもよい。

一般化すると、図３に例示した学習時のシステムにＨＲ画像が入力されると、低解像度化部１２がそのＨＲ画像から各領域のＬＲ画像を生成する。それら各領域のＬＲ画像は、それら複数のジェネレータ２００のうち、当該領域の解像度、又は解像度とクラスの組合せ、に対応するジェネレータ２００に入力される。各ジェネレータ２００は、それぞれ入力された領域のＬＲ画像を超解像化する。これら各領域の超解像化結果の画像が結合されることにより、元のＨＲ画像に対応する一つのＳＲ画像が構成される。ディスクリミネータ３０は、このＳＲ画像とＨＲ画像との識別を試みる。学習処理部４０は、そのＳＲ画像と元のＨＲ画像と、ディスクリミネータ３０の識別結果の情報とに基づき、それら各ジェネレータ２００とディスクリミネータ３０を学習させる。

また、ジェネレータ２００を複数用いる代わりに、各領域のＬＲ画像を共通の解像度（すなわちジェネレータ２００の入力の解像度）に解像度変換し、単一のジェネレータ２００にて処理する構成を採ってもよい。

図５に、図３のシステムにより学習を済ませたジェネレータ２００を超解像化部２０として備えた情報処理装置１０の構成を例示する。

図５の情報処理装置１０は、図２に示した情報処理装置１０の超解像化部２０として、図３のシステムで学習させたジェネレータ２００を搭載したものである。すなわち、図５の情報処理装置１０の超解像化部２０は、学習済みの特徴抽出部２２及びアップサンプリング部２４を備えている。実装上は、例えば、図３のシステムでの学習により求めた特徴抽出部２２及びアップサンプリング部２４のパラメータ（例えば各ニューロン間の結合係数）を、情報処理装置１０内のＮＮにコピーすることにより、超解像化部２０を構成すればよい。

図５の情報処理装置１０において、分割部１８は、入力されたＨＲ画像を複数の領域に分割し、分割した各領域についての領域情報とスケール情報をダウンサンプリング部１６に出力する。ダウンサンプリング部１６は、ＨＲ画像中の個々の領域を領域情報に従って特定し、特定した領域の画像を、その領域に対応するスケールでダウンサンプリングする。ダウンサンプリング部１６から出力されたＬＲ画像は、領域ごとに、その領域のスケールに対応する解像度を持つ。このＬＲ画像が、超解像化部２０に入力される。超解像化部２０内の特徴抽出部２２及びアップサンプリング部２４は、多数のＨＲ画像を学習データとして用いて既に学習済みである。特徴抽出部２２は、入力されたＬＲ画像の画像特徴を求め、アップサンプリング部２４は、その画像特徴から所定の解像度のＳＲ画像を生成する。

図５の例では、情報処理装置１０は１つの超解像化部２０を備えていたが、情報処理装置１０は、ダウンサンプリングのスケールごと、すなわちＬＲ画像の解像度ごとに超解像化部２０を備えていてもよい。解像度ごとの超解像化部２０は、上に例示したようにして学習済みである。ある解像度に対応する超解像化部２０内の特徴抽出部２２は、当該解像度に対応する数のニューロンを含んだ入力層を持ち、入力されたその解像度の領域のＬＲ画像を、例えば所定の数の出力層ニューロンの出力値の組合せで表される画像特徴へと変換する。アップサンプリング部２４は、その画像特徴をＳＲ画像の解像度の画像に変換する。個々の超解像化部２０がそれぞれ対応する解像度の領域のＬＲ画像から生成した当該領域のＳＲ画像は、図示省略した結合部により一つに結合される。これにより、一つの完全なＳＲ画像が生成される。

また、情報処理装置１０は、超解像化部２０を、領域の解像度とクラスの組合せ毎に備えるものであってもよい。

次に図６を参照して、図３の学習時のシステムを改良した例を説明する。

例えば写真では被写体が想定され、被写体とそれ以外（例えば背景）とが区別されるように、画像には注目すべきオブジェクトの領域（以下、注目領域と呼ぶ）とそれ以外の部分との両方が含まれることが多い。画像中の注目領域は、一般にはその画像にとって必要な部分である。不要情報は注目領域以外の部分に含まれることが多い。

ここで図３のシステムでは、ジェネレータ２００は、不要情報が除去又は低減されたＳＲ画像が、不要情報を含んでいるＨＲ画像と見分けにくくなるように学習する。このため、このためＳＲ画像のうち不要情報を含まない部分の画質、特に注目領域の画質に悪影響を与える可能性がある。図６に示すシステムは、このような注目領域の画質への悪影響を低減することを目指す。

図６のシステムは、学習処理部４０にてマスク５０を用いる。マスク５０は、ＨＲ画像及びＳＲ画像から注目領域のみを抽出するために用いられる。例えば、人の顔が注目するオブジェクトである（言い換えれば、画質をなるべく下げたくない対象が人の顔である）場合、図７に例示する画像５５に対して、その画像５５のうち人の顔の領域を取り出し、それ以外の部分をマスクするマスク５０が用いられる。

学習処理部４０は、画像全体を対象とする画素間誤差算出部４１及び特徴間誤差算出部４２に加え、マスク５０により取り出された注目領域のみを対象とする画素間誤差算出部４３及び特徴間誤差算出部４４を備える。画素間誤差算出部４３は、入力されたＨＲ画像及びＳＲ画像にそれぞれマスクを適用することにより、それら各画像内の注目領域の画素群を抽出する。そして、注目領域内の画素についてＨＲ画像とＳＲ画像との間での画素間誤差（例えば平均二乗誤差）を算出する。同様に、特徴間誤差算出部４４は、ＨＲ画像及びＳＲ画像の注目領域の画素群をマスクにより抽出し、それら両画像の注目領域の画像特徴を求め、それら画素特徴同士の誤差を算出する。

ジェネレータ更新部４６には、画素間誤差算出部４１及び特徴間誤差算出部４２が求めた画像全体についての画素間誤差及び特徴間誤差と、画素間誤差算出部４３及び特徴間誤差算出部４４が求めた注目領域についての画素間誤差及び特徴間誤差とが入力される。ジェネレータ更新部４６は、画像全体の画素間誤差と特徴間誤差、及び注目領域の画素間誤差と特徴間誤差が小さくなるよう、ジェネレータ２００内のＮＮ内のニューロン間の結合係数を更新する。

このように、図６の例では、注目領域の画素間誤差及び特徴間誤差が小さくなるようにジェネレータを学習させるので、不要情報を除去又は低減したことによるＳＲ画像内の注目領域の画質への悪影響が緩和される。

図６の例において、学習処理部４０内から画像全体についての画素間誤差算出部４１及び特徴間誤差算出部４２を除いた構成も考えられる。しかし、画像全体についての画素間誤差算出部４１及び特徴間誤差算出部４２を除いた場合、注目領域の周縁やその外部の画質が劣化するので、図６の例のようにそれらを含んだ構成の方が、全体としての画質がよい。

図６のシステムで学習したジェネレータ２００を、図５の情報処理装置１０の超解像化部２０として用いる。

次に、図８及び図９を参照して、注意（Attention）機構２６を備える例を示す。

図８は、この例における学習時のシステムの例である。このシステムは、ジェネレータ２００内に注意機構２６を備える。注意機構２６は、入力のうちの注意すべき要素を学習する機構である。注意機構２６としては、例えば、Han Zhang他の“Self-Attention Generative Adversarial Networks”（https://arxiv.org/abs/1805.08318）に示される自己注意機構等の既存のものを用いればよい。

注意機構２６は、特徴抽出部２２が出力した画像特徴を受け取り、その画像特徴の要素（すなわち特徴抽出部２２の出力ニューロンの値）同士の間で関係の強い要素（すなわちより注意すべき要素）ほど強く反映するようその画像特徴を重み付けした出力を生成する。アップサンプリング部２４は、注意機構２６の出力を超解像化することにより、ＳＲ画像を生成する。

学習処理部４０内のジェネレータ更新部４６は、注意機構２６がより適切な注意重みを計算するよう、注意機構２６内の重み係数も更新する。

ジェネレータ２００及びディスクリミネータ３０の学習が完了すると、そのジェネレータ２００を超解像化部２０として含んだ情報処理装置１０（図９参照）を構成することが可能になる。図９の情報処理装置１０は、超解像化部２０内に注意機構２６を含む点が、図５に例示した情報処理装置１０と異なる。図９の情報処理装置１０は、注意機構２６を含まない超解像用のＮＮよりも高品質なＳＲ画像を生成する。

図１、図２、図５及び図９に例示した情報処理装置１０、並びに図３、図６及び図８に例示したシステムは、例えば、汎用のコンピュータを用いて構築される。この場合のコンピュータは、例えば図１０に例示するように、ハードウエアとして、プロセッサ３０２、ランダムアクセスメモリ（ＲＡＭ）等のメモリ（主記憶装置）３０４、フラッシュメモリやＳＳＤ（ソリッドステートドライブ）、ＨＤＤ（ハードディスクドライブ）等の不揮発性記憶装置である補助記憶装置３０６を制御するコントローラ、各種の入出力装置３０８とのインタフェース、ローカルエリアネットワークなどのネットワークとの接続のための制御を行うネットワークインタフェース３１０等が、例えばバス３１２等のデータ伝送路を介して接続された回路構成を有する。なお、図１０の例では、プロセッサ３０２〜ネットワークインタフェース３１０までの全ての要素が同じバス１２０にフラットに接続されているが、これはあくまで一例に過ぎない。この代わりに、それら要素のうちの一部（例えばプロセッサ３０２を含む要素群）が例えばＳｏＣ（System-on-a-Chip）のように一つのチップに集積され、そのチップが接続された外部バスに対して残りの要素群が接続されるような階層的な構造であってもよい。

ここでプロセッサ３０２とは広義的なプロセッサを指し、汎用的なプロセッサ（例えばＣＰＵ：ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ、等）や、専用のプロセッサ（例えばＧＰＵ：ＧｒａｐｈｉｃｓＰｒｏｃｅｓｓｉｎｇＵｎｉｔ、ＡＳＩＣ：ＡｐｐｌｉｃａｔｉｏｎＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ、ＦＰＧＡ：ＦｉｅｌｄＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ、プログラマブル論理デバイス、等）を含むものである。

また、プロセッサ３０２の動作は、１つのプロセッサによってなすのみでなく、物理的に離れた位置に存在する複数のプロセッサが協働してなすものであってもよい。また、プロセッサ３０２の各動作は、以下の実施形態において説明する順序のみに限定されるものではなく、適宜に変更してもよい。

また、図１、図２、図５及び図９に例示した情報処理装置１０、並びに図３、図６及び図８に例示したシステムのうちの一部又は全部の要素を、ハードウエア回路として構成してもよい。

１０情報処理装置、１２低解像度化部、１４スケール判定部、１６ダウンサンプリング部、１８分割部、２０超解像化部、２２特徴抽出部、２４アップサンプリング部、２６注意機構、３０ディスクリミネータ、３２特徴抽出・識別部、３４判定部、４０学習処理部、４１，４３画素間誤差算出部、４２，４４特徴間誤差算出部、４６ジェネレータ更新部、４８ディスクリミネータ更新部、５０マスク、５５画像、２００ジェネレータ、３０２プロセッサ、３０４メモリ（主記憶装置）、３０６補助記憶装置、３０８入出力装置、３１０ネットワークインタフェース、３１２バス。

Claims

プロセッサを備え、
前記プロセッサは、
対象画像のサイズ又は前記対象画像に含まれる不要情報のサイズの大きさによって低解像度化の度合いが変化するような低解像度化処理を前記対象画像に対して実行することにより低解像度画像を生成し、
前記低解像度画像に基づき、前記対象画像の解像度に対応する所定解像度の超解像画像を生成する処理を実行する、
ことを特徴とする情報処理装置。
前記低解像度化処理では、前記対象画像と前記不要情報とのサイズの乖離が小さいほど、前記低解像度化の度合いを大きくする、
ことを特徴とする請求項１に記載の情報処理装置。
前記低解像度化処理では、前記対象画像のサイズが大きいほど、前記低解像度化の度合いを大きくする、
ことを特徴とする請求項２に記載の情報処理装置。
前記低解像度化処理では、前記不要情報のサイズが大きいほど、前記低解像度化の度合いを大きくする、
ことを特徴とする請求項２に記載の情報処理装置。
前記プロセッサは、更に、入力された画像を複数の領域に分割し、
前記低解像度化処理は、分割により得られた前記複数の領域の各々の画像を前記対象画像として実行され、
前記プロセッサは、前記対象画像の各々に対応する前記低解像度画像に基づき生成された前記所定解像度の超解像画像から、前記入力された画像に対応する超解像画像を生成する、
ことを特徴とする請求項１〜４のいずれか１項に記載の情報処理装置。
前記低解像度化処理では、前記領域のサイズが大きいほど、前記低解像度化の度合いを大きくする、ことを特徴とする請求項５に記載の情報処理装置。
前記分割では、前記対象画像に含まれるオブジェクトの種類ごとに前記対象画像を前記複数の領域に分割し、
前記低解像度化処理では、前記領域に対応する前記オブジェクトの種類に応じた前記度合いで前記領域を低解像度化する、ことを特徴とする請求項５又は６に記載の情報処理装置。
前記超解像画像を生成する処理は、ディスクリミネータとジェネレータとを含む学習済みの敵対的生成ネットワークの前記ジェネレータを用いて実行され、
前記敵対的生成ネットワークの学習は、前記ジェネレータは前記対象画像に対応する前記低解像度画像から前記所定解像度の超解像画像を生成すること、前記ディスクリミネータは前記対象画像と前記所定解像度の超解像画像とを識別すること、を学習するものである、ことを特徴とする請求項１〜７のいずれか１項に記載の情報処理装置。
前記敵対的生成ネットワークの前記学習では、前記対象画像中の注目オブジェクトの領域の情報に基づいて損失を計算し、計算した損失に基づいて前記ジェネレータを学習させる、ことを特徴とする請求項８に記載の情報処理装置。
前記超解像画像を生成する処理を実行する機構は、前記低解像度画像から画像特徴を抽出する第１のニューラルネットワークと、前記画像特徴を処理する注意機構と、前記注意機構の出力から前記所定解像度の超解像画像を生成する第２のニューラルネットワークと、を含む、請求項１〜９のいずれか１項に記載の情報処理装置。
コンピュータに、
対象画像のサイズ又は前記対象画像に含まれる不要情報のサイズの大きさによって低解像度化の度合いが変化するような低解像度化処理を前記対象画像に対して実行することにより低解像度画像を生成し、
前記低解像度画像に基づき、前記対象画像の解像度に対応する所定解像度の超解像画像を生成する、
処理を実行させるためのプログラム。
対象画像のサイズ又は前記対象画像に含まれる不要情報のサイズの大きさによって低解像度化の度合いが変化するような低解像度化処理を前記対象画像に対して実行することにより低解像度画像を生成する第１生成回路と、
前記低解像度画像に基づき、前記対象画像の解像度に対応する所定解像度の超解像画像を生成する第２生成回路と、
を含む情報処理装置。