JP6967150B2

JP6967150B2 - 学習装置、画像生成装置、学習方法、画像生成方法及びプログラム

Info

Publication number: JP6967150B2
Application number: JP2020525087A
Authority: JP
Inventors: 大地小野; 勉堀川; 弘孝浅山
Original assignee: Sony Interactive Entertainment Inc
Current assignee: Sony Interactive Entertainment Inc
Priority date: 2018-06-18
Filing date: 2018-06-18
Publication date: 2021-11-17
Anticipated expiration: 2038-06-18
Also published as: WO2019244200A1; US11202000B2; US20210218883A1; JPWO2019244200A1

Description

本発明は、学習装置、画像生成装置、学習方法、画像生成方法及びプログラムに関する。

実写の画像に基づいて設定される光源を用いて、リアルなコンピュータグラフィックス（ＣＧ）の画像やＣＧと実写の画像とを合成した画像を生成するイメージベースドライトニング（ＩＢＬ）の技術が知られている。

生成される画像のリアリティを向上させるため、ＩＢＬにおいてはハイダイナミックレンジ（ＨＤＲ）の３６０度画像などといった広画角画像に基づいて光源が設定されることが望ましい。しかし、広画角画像を得るためには全天周カメラや半天周カメラなどといった専用機材による撮影が必要であり、また、専門の知識も求められる。

そのため、撮影によって広画角画像を生成する代わりに、学習済の機械学習モデルなどによって実装された画像生成部を用いて広画角画像を生成することが行われている。この場合は例えば、一般的なカメラにより撮影される画像を画像生成部に入力することで、当該画像の画角の外の物体や風景などといった当該画像の画角の外の環境の推定結果が補われた広画角画像が生成される。

近年、スマートフォンのようにそれぞれの画角及び相対的な撮影方向が予め定められた複数のカメラを備えた撮影装置が多く存在している。そこでこのような撮影装置を用いて撮影された複数の画像を上述の画像生成部に入力することによって広画角画像を生成できれば、精度の高い広画角画像を容易に得ることができるものと期待される。

本発明は上記課題に鑑みてなされたものであって、その目的の１つは、精度の高い広画角画像を容易に得ることができる学習装置、画像生成装置、学習方法、画像生成方法及びプログラムを提供することにある。

上記課題を解決するために、本発明に係る学習装置は、予め定められたそれぞれの画角及び相対的な撮影方向で撮影された様子を表す複数の入力画像を取得する入力画像取得部と、前記複数の入力画像の画角のすべてを画角に含む広画角画像を取得する広画角画像取得部と、複数の画像の入力に応じて当該複数の画像の画角のすべてを画角に含む画像を生成して出力する広画角画像生成部に前記複数の入力画像を入力した際の出力と、前記広画角画像と、に基づいて、前記広画角画像生成部の学習を実行する学習部と、を含む。

本発明の一態様では、前記広画角画像に基づいて、前記複数の入力画像を生成する入力画像生成部、をさらに含み、前記入力画像取得部は、前記入力画像生成部により生成される前記複数の入力画像を取得する。

この態様では、前記入力画像生成部は、前記広画角画像に基づいて、表されている当該広画角画像内における位置がそれぞれ異なる前記複数の入力画像の組合せを複数生成し、前記入力画像生成部は、前記広画角画像に基づいて、前記組合せのそれぞれに対応付けられる前記広画角画像を生成し、前記学習部は、生成される複数の前記組合せを用いて、当該組合せに属する前記複数の入力画像と当該組合せに対応付けられる前記広画角画像とに基づく前記広画角画像生成部の学習を実行してもよい。

また、本発明にかかる画像生成装置は、予め定められたそれぞれの画角及び相対的な撮影方向で撮影装置が備える複数のカメラによりそれぞれ撮影される複数の入力画像を取得する入力画像取得部と、前記複数の入力画像の入力に応じて、当該複数の入力画像の画角のすべてを画角に含む画像を生成して出力する広画角画像生成部と、を含み、前記広画角画像生成部は、画像と、当該画像の画角の一部をそれぞれ含む複数の画像を当該広画角画像生成部に入力した際の出力と、に基づく学習が実行済の機械学習モデルである。

また、本発明の一態様では、前記複数のカメラは、それぞれ前記撮影装置の別の面に設けられている。

また、本発明に係る学習方法は、予め定められたそれぞれの画角及び相対的な撮影方向で撮影された様子を表す複数の入力画像を取得するステップと、前記複数の入力画像の画角のすべてを画角に含む広画角画像を取得するステップと、複数の画像の入力に応じて当該複数の画像の画角のすべてを画角に含む画像を生成して出力する広画角画像生成部に前記複数の入力画像を入力した際の出力と、前記広画角画像と、に基づいて、前記広画角画像生成部の学習を実行するステップと、を含む。

また、本発明に係る画像生成方法は、予め定められたそれぞれの画角及び相対的な撮影方向で撮影装置が備える複数のカメラによりそれぞれ撮影される複数の入力画像を取得するステップと、画像と、当該画像の画角の一部をそれぞれ含む複数の画像を入力した際の出力と、に基づく学習が実行済の機械学習モデルである広画角画像生成部に前記複数の入力画像を入力することで、当該広画角画像生成部に、当該複数の入力画像の画角のすべてを画角に含む画像を生成して出力させるステップと、を含む。

また、本発明に係るプログラムは、予め定められたそれぞれの画角及び相対的な撮影方向で撮影された様子を表す複数の入力画像を取得する手順、前記複数の入力画像の画角のすべてを画角に含む広画角画像を取得する手順、複数の画像の入力に応じて当該複数の画像の画角のすべてを画角に含む画像を生成して出力する広画角画像生成部に前記複数の入力画像を入力した際の出力と、前記広画角画像と、に基づいて、前記広画角画像生成部の学習を実行する手順、をコンピュータに実行させる。

また、本発明に係る別のプログラムは、予め定められたそれぞれの画角及び相対的な撮影方向で撮影装置が備える複数のカメラによりそれぞれ撮影される複数の入力画像を取得する手順、画像と、当該画像の画角の一部をそれぞれ含む複数の画像を入力した際の出力と、に基づく学習が実行済の機械学習モデルである広画角画像生成部に前記複数の入力画像を入力することで、当該広画角画像生成部に、当該複数の入力画像の画角のすべてを画角に含む画像を生成して出力させる手順、をコンピュータに実行させる。

本発明の一実施形態に係る画像処理装置の構成図である。本発明の一実施形態に係る学習の一例を示す図である。第１学習入力画像の一例を模式的に示す図である。第２学習入力画像の一例を模式的に示す図である。学習広画角画像の一例を模式的に示す図である。第１学習入力画像の別の一例を模式的に示す図である。第２学習入力画像の別の一例を模式的に示す図である。学習広画角画像の別の一例を模式的に示す図である。本発明の一実施形態に係る学習の別の一例を示す図である。本発明の一実施形態に係る画像の生成の一例を示す図である。本発明の一実施形態に係る画像処理装置で実装される機能の一例を示す機能ブロック図である。本発明の一実施形態に係る画像処理装置で行われる学習処理の流れの一例を示すフロー図である。本発明の一実施形態に係る画像処理装置で行われる学習処理の流れの別の一例を示すフロー図である。本発明の一実施形態に係る画像処理装置で行われるターゲット広画角画像の生成処理の流れの一例を示すフロー図である。

以下、本発明の一実施形態について図面に基づき詳細に説明する。

図１は、本実施形態に係る画像処理装置１０の構成図である。本実施形態に係る画像処理装置１０は、例えば、ゲームコンソールやパーソナルコンピュータなどのコンピュータである。図１に示すように、本実施形態に係る画像処理装置１０は、例えば、プロセッサ１２、記憶部１４、操作部１６、表示部１８を含んでいる。

プロセッサ１２は、例えば画像処理装置１０にインストールされるプログラムに従って動作するＣＰＵ等のプログラム制御デバイスである。

記憶部１４は、ＲＯＭやＲＡＭ等の記憶素子やハードディスクドライブなどである。記憶部１４には、プロセッサ１２によって実行されるプログラムなどが記憶される。

操作部１６は、キーボード、マウス、ゲームコンソールのコントローラ等のユーザインタフェースであって、ユーザの操作入力を受け付けて、その内容を示す信号をプロセッサ１２に出力する。

表示部１８は、液晶ディスプレイ等の表示デバイスであって、プロセッサ１２の指示に従って各種の画像を表示する。

なお、画像処理装置１０は、ネットワークボードなどの通信インタフェース、ＤＶＤ−ＲＯＭやＢｌｕ−ｒａｙ（登録商標）ディスクなどの光ディスクを読み取る光ディスクドライブ、ＵＳＢ（Universal Serial Bus）ポートなどを含んでいてもよい。

本実施形態に係る画像処理装置１０には学習済の機械学習モデルが実装される。そして当該機械学習モデルを用いて一般的なカメラで撮影される平面画像などといった二次元画像に基づいて、当該二次元画像の画角の外の物体や風景が補われた、当該二次元画像よりも画角が広い画像が生成される。

ここで例えば、スマートフォンなどの撮影装置が備える複数の一般的なカメラでそれぞれ撮影される複数の画像に基づいて、当該複数の画像のすべての画角を画角に含む画像が生成されてもよい。

また例えば、全天周画像（３６０度画像）や半天周画像（１８０度画像）などが生成されてもよい。また例えば、パノラマ画像が生成されてもよい。

以下、画像処理装置１０に実装されている機械学習モデルの学習の一例について説明する。

本実施形態では、図２に示すように、広画角画像生成部２０の学習が実行される。ここで広画角画像生成部２０の学習に用いられるデータを学習データと呼ぶこととする。

以下、ＧＡＮ（Generative Adversarial Network）の技術を用いて、広画角画像生成部２０だけではなくドメイン識別部２２の学習も併せて行われる学習の一例について説明する。

広画角画像生成部２０は、例えば、畳み込みニューラルネットワーク（ＣＮＮ）により実装された機械学習モデルである。広画角画像生成部２０には、例えば、予め定められたそれぞれの画角及び相対的な撮影方向で撮影された様子を表す複数の二次元画像等の画像が入力される。ここで広画角画像生成部２０に、スマートフォンなどの撮影装置が備える複数のカメラでそれぞれ撮影された複数の画像が入力されてもよい。当該複数のカメラのそれぞれの画角は予め定められている。また当該複数のカメラの相対的な撮影方向も予め定められている。

そして広画角画像生成部２０は、例えば入力される複数の画像の画角の外の領域の物体や風景などといった当該複数の画像の画角の外の環境を推定する。そして広画角画像生成部２０は例えば、当該推定の結果が反映された、入力される画像よりも画角が広い画像を生成する。

ここで例えば、入力される複数の画像の画角のすべてを画角に含む画像が生成されてもよい。また生成される画像は、入力される複数の画像の画角の外の領域を表す画像が補完された画像であってもよい。またここで例えば、全天周画像や半天周画像が生成されてもよい。また例えば、パノラマ画像が生成されてもよい。また生成される画像は、ハイダイナミックレンジ（ＨＤＲ）の画像であってもよい。そして広画角画像生成部２０は、生成された画像を出力する。

以下の説明では、広画角画像生成部２０は、入力される２枚の二次元画像等の画像の画角の両方を画角に含む画像を生成して出力することとする。

ドメイン識別部２２は、例えば、ＣＮＮにより実装された機械学習モデルである。ドメイン識別部２２には、例えば、広画角画像生成部２０により生成された画像、又は、広画角画像生成部２０では生成されていない画像のいずれかが入力される。そしてドメイン識別部２２は、例えば、ドメイン識別部２２に入力される画像が広画角画像生成部２０により生成された画像であるか否かの識別結果を出力する。ここでドメイン識別部２２が、ドメイン識別部２２に入力された画像が広画角画像生成部２０により生成された画像である可能性の高さを示すデータを出力してもよい。

本実施形態に係る学習データには、例えば、第１学習入力画像２４と、第２学習入力画像２６と、学習広画角画像２８と、が含まれている。

図３Ａは、第１学習入力画像２４の一例（第１学習入力画像２４ａ）を模式的に示す図である。図３Ｂは、第２学習入力画像２６の一例（第２学習入力画像２６ａ）を模式的に示す図である。図４は、学習広画角画像２８の一例（学習広画角画像２８ａ）を模式的に示す図である。

図５Ａは、第１学習入力画像２４の別の一例（第１学習入力画像２４ｂ）を模式的に示す図である。図５Ｂは、第２学習入力画像２６の別の一例（第２学習入力画像２６ｂ）を模式的に示す図である。図６は、学習広画角画像２８の別の一例（学習広画角画像２８ｂ）を模式的に示す図である。

例えば１つの学習データには、第１学習入力画像２４ａ、第２学習入力画像２６ａ、及び、学習広画角画像２８ａの組合せが含まれる。また例えば別の１つの学習データには、第１学習入力画像２４ｂ、第２学習入力画像２６ｂ、及び、学習広画角画像２８ｂの組合せが含まれる。

第１学習入力画像２４と第２学習入力画像２６とは、例えば、同じ位置から異なる方向を撮影した画像であってもよい。ここで例えば、第１学習入力画像２４の撮影方向を基準とした第２学習入力画像２６の相対的な撮影方向は予め定められていてもよい。また第１学習入力画像２４や第２学習入力画像２６は、スタンダードダイナミックレンジ（ＳＤＲ）の画像であってもよい。なお図３Ａ、図３Ｂ、図５Ａ、及び、図５ＢにはＳＤＲの画像に対して二値化処理がされた画像が示されている。

また第１学習入力画像２４と第２学習入力画像２６とは、例えば、複数のカメラを備える撮影装置において、当該複数のカメラのそれぞれが予め定められたそれぞれの画角及び相対的な撮影方向で撮影した画像であってもよい。具体的には例えば、スマートフォンの位置が固定された状態で、当該スマートフォンの前面に設けられている第１のカメラが撮影した画像が第１学習入力画像２４であってもよい。そして当該スマートフォンの背面に設けられている第２のカメラが撮影した画像が第２学習入力画像２６であってもよい。この場合は、第１学習入力画像２４の撮影方向を基準とした第２学習入力画像２６の相対的な撮影方向は必然的に予め固定されたものとなる。またどの方向を撮影しても第１のカメラの画角は同じである。またどの方向を撮影しても第２のカメラの画角は同じである。

学習広画角画像２８は、例えば、広画角画像生成部２０により生成された画像ではない、全天周カメラで撮影された全天周画像や半天周カメラで撮影された半天周画像などの広画角画像である。なお学習広画角画像２８は、パノラマカメラで撮影されたパノラマ画像であってもよい。また、学習広画角画像２８は、ＨＤＲの画像であってもよい。なお図４、及び、図６にはＨＤＲの画像に対して二値化処理がされた画像が示されている。

また、学習データに含まれる学習広画角画像２８として、当該学習データに含まれる第１学習入力画像２４及び第２学習入力画像２６に対応付けられる画像が用いられてもよい。例えば、学習データに含まれる学習広画角画像２８は、例えば、当該学習データに含まれる第１学習入力画像２４及び第２学習入力画像２６と、同じ位置から撮影された画像であってもよい。

また本実施形態において、図２に示すように、学習入力画像生成部３０が、学習広画角画像２８に基づいて、学習広画角画像２８の画角の一部をそれぞれ含む第１学習入力画像２４及び第２学習入力画像２６を生成してもよい。ここで例えば学習広画角画像２８の画角の一部に対してノイズの付加や回転などといった加工が行われた第１学習入力画像２４及び第２学習入力画像２６が生成されてもよい。

例えば、学習広画角画像２８ａ内の第１の所定の位置にある第１の所定の形状及び大きさの領域を占める部分画像を抽出し、当該部分画像に対して所定の幾何変換を実行することで第１学習入力画像２４ａが生成されてもよい。また学習広画角画像２８内の第２の所定の位置にある第２の所定の形状及び大きさの領域を占める部分画像を抽出し、当該部分画像に対して所定の幾何変換を実行することで第２学習入力画像２６ａが生成されてもよい。ここで第２の所定の位置の、第１の所定の位置に対する相対的な位置は、予め定められたものであってもよい。この場合、第１学習入力画像２４及び第２学習入力画像２６は、予め定められた相対的な撮影方向で撮影された様子を表す画像となる。

また同様にして、学習広画角画像２８ｂに基づいて、第１学習入力画像２４ｂ、及び、第２学習入力画像２６ｂが生成されてもよい。

このようにすれば、学習広画角画像２８に対応する第１学習入力画像２４及び第２学習入力画像２６の撮影を実際にわざわざ行う必要がない。

ここで例えば、第１の所定の位置は、学習広画角画像２８内の中央付近の位置であり、第２の所定の位置は、学習広画角画像２８内の左右端付近の位置であってもよい。また例えば、上述の所定の幾何変換は、全天周画像又は半天周画像を一般的なカメラで撮影されるような二次元画像（平面画像）に変換する幾何変換であってもよい。

また第１の所定の形状及び大きさと、第２の所定の形状及び大きさとは、同じであってもよいし、異なっていてもよい。例えばスマートフォンの前面に設けられているカメラの方がスマートフォンの背面に設けられているカメラよりも画角が広い場合がある。このことを踏まえ、第１の所定の大きさの方が第２の所定の大きさよりも大きくてもよい。

また学習入力画像生成部３０は、１枚の学習広画角画像２８に基づいて、表されている当該学習広画角画像２８内における位置がそれぞれ異なる複数の学習入力画像の組合せを複数生成してもよい。また学習入力画像生成部３０は、当該学習広画角画像２８に基づいて、当該組合せのそれぞれに対応付けられる別の学習広画角画像２８を生成してもよい。そして１枚の学習広画角画像２８に基づいて、別の学習広画角画像２８が複数生成されてもよい。

例えば、図４に示す学習広画角画像２８ａに基づいて、図３Ａに示す第１学習入力画像２４ａと図３Ｂに示す第２学習入力画像２６ａとの組合せ、及び、図５Ａに示す第１学習入力画像２４ｂと図５Ｂに示す第２学習入力画像２６ｂとの組合せが生成されてもよい。

この場合例えば学習広画角画像２８ａ内の第１の所定の位置にある第１の所定の形状及び大きさの領域を占める部分画像を抽出し、当該部分画像に対して所定の幾何変換を実行することで第１学習入力画像２４ａが生成されてもよい。そして学習広画角画像２８ａ内の第２の所定の位置にある第２の所定の形状及び大きさの領域を占める部分画像を抽出し、当該部分画像に対して所定の幾何変換を実行することで第２学習入力画像２６ａが生成されてもよい。そして学習広画角画像２８ａ内の第３の所定の位置にある第３の所定の形状及び大きさの領域を占める部分画像を抽出し、当該部分画像に対して所定の幾何変換を実行することで第１学習入力画像２４ｂが生成されてもよい。そして学習広画角画像２８ａ内の第４の所定の位置にある第４の所定の形状及び大きさの領域を占める部分画像を抽出し、当該部分画像に対して所定の幾何変換を実行することで第２学習入力画像２６ｂが生成されてもよい。

ここで第２の所定の位置の、第１の所定の位置に対する相対的な位置は、予め定められたものであってもよい。また第４の所定の位置の、第３の所定の位置に対する相対的な位置は、予め定められたものであってもよい。

そしてこの場合、図４に示す学習広画角画像２８ａ、図５Ａに示す第１学習入力画像２４ｂ、及び、図５Ｂに示す第２学習入力画像２６ｂに基づいて、図６に示す学習広画角画像２８ｂが生成されてもよい。

また例えば、学習広画角画像２８ａを平行移動させることで学習広画角画像２８ｂが生成されるようにしてもよい。この場合、学習広画角画像２８ａの右側の一部については、学習広画角画像２８ａの残りの左側に配置されるようにしてもよい。例えば図４に示す学習広画角画像２８ａが実空間内におけるある位置から撮影された全天周画像又は半天周画像であることとする。この場合、図６に示す学習広画角画像２８ｂは、学習広画角画像２８ａが撮影された位置において、撮影方向を変更させた上で撮影された様子を表す画像に相当することとなる。

そしてこのようにして学習広画角画像２８ａに基づいて生成された学習広画角画像２８ｂに基づいて、第１学習入力画像２４ｂ及び第２学習入力画像２６ｂが生成されてもよい。

このようにすれば、１つの学習広画角画像２８に基づいて、複数の学習データを生成できることとなる。

本実施形態に係る学習において、まず、学習データに含まれる第１学習入力画像２４及び第２学習入力画像２６が、広画角画像生成部２０に入力される。すると広画角画像生成部２０は、当該第１学習入力画像２４及び当該第２学習入力画像２６の入力に応じて、当該第１学習入力画像２４の画角及び当該第２学習入力画像２６の画角の両方を画角に含む画像を生成する。このようにして生成される画像を生成広画角画像３２と呼ぶこととする。

そしてドメイン識別部２２に、学習データに含まれる第１学習入力画像２４及び第２学習入力画像２６に基づいて生成された生成広画角画像３２、又は、学習データに含まれる学習広画角画像２８のいずれかが入力される。

そしてドメイン識別部２２は、例えば、ドメイン識別部２２に入力された画像が生成広画角画像３２である可能性の高さを示す生成可能性データ３４を出力する。そして当該生成可能性データ３４と、ドメイン識別部２２に入力された画像が生成広画角画像３２であるか学習広画角画像２８であるかを示すドメイン識別データ３６との誤差（比較結果）が特定される。

ここで例えばドメイン識別データ３６の値として、生成広画角画像３２又は学習広画角画像２８のいずれかに対応付けられる値が設定されてもよい。

例えば生成可能性データ３４が０以上１以下の値をとるデータであってもよい。この場合、ドメイン識別データ３６は例えば、ドメイン識別部２２に入力された画像が生成広画角画像３２である場合に値として１をとり学習広画角画像２８である場合に値として０をとるデータであってもよい。

また生成可能性データ３４及びドメイン識別データ３６が例えば２個の要素を含むベクトルとして表現されてもよい。例えば、生成可能性データ３４の第１の要素の値がドメイン識別部２２に入力された画像が生成広画角画像３２である可能性の高さを示す値であってもよい。そして生成可能性データ３４の第２の要素の値がドメイン識別部２２に入力された画像が学習広画角画像２８である可能性の高さを示す値であってもよい。この場合、生成広画角画像３２に対応付けられるドメイン識別データ３６の値が二次元ベクトル（１，０）で表現され、学習広画角画像２８に対応付けられるドメイン識別データ３６の値が二次元ベクトル（０，１）で表現されてもよい。

そして本実施形態では例えば、生成可能性データ３４とドメイン識別データ３６との誤差に基づいて、例えば誤差逆伝搬法により、広画角画像生成部２０又はドメイン識別部２２のいずれかのパラメータの値が更新される。

ここで本実施形態に係る学習では、所定数の学習データを用いた広画角画像生成部２０のパラメータの値の更新と所定数の学習データを用いたドメイン識別部２２のパラメータの値の更新とが、交互に繰り返し実行される。広画角画像生成部２０パラメータの値の更新の際には、ドメイン識別部２２のパラメータの値が固定された状態で、広画角画像生成部２０のパラメータの値が更新される。また、ドメイン識別部２２のパラメータの値の更新の際には、広画角画像生成部２０のパラメータの値が固定された状態で、ドメイン識別部２２のパラメータの値が更新される。

以上のようにして、画像処理装置１０に実装されている機械学習モデルが学習される。

なお本実施形態に係る学習の方法は上述のものに限定されない。例えば図７に示すように、ＧＡＮの技術を用いずに、本実施形態に係る学習が実行されてもよい。

図７の例ではドメイン識別部２２を用いずに広画角画像生成部２０の学習が実行される。図７に示す学習における学習データに含まれる学習広画角画像２８は、当該学習データに含まれる第１学習入力画像２４及び第２学習入力画像２６に対応付けられる画像である。学習データに含まれる学習広画角画像２８は、例えば、当該学習データに含まれる第１学習入力画像２４及び第２学習入力画像２６と同じ位置から撮影された画像である。ここで上述のように、学習入力画像生成部３０が、学習データに含まれる学習広画角画像２８に基づいて、当該学習データに含まれる第１学習入力画像２４及び第２学習入力画像２６を生成してもよい。

この場合例えば、学習データに含まれる第１学習入力画像２４及び第２学習入力画像２６に基づいて生成される生成広画角画像３２と、当該学習データに含まれる学習広画角画像２８との誤差（比較結果）が特定される。ここで例えば、平均絶対誤差（ＭＡＥ）、平均二乗誤差（ＭＳＥ）、平均平方二乗誤差（ＲＭＳＥ）が特定されてもよい。そして特定される誤差に基づいて、例えば誤差逆伝搬法により、広画角画像生成部２０のパラメータの値が更新される。

本実施形態では例えば、以上のようにして学習が実行された機械学習モデルを用いて、一般的なカメラで撮影される平面画像などといった二次元画像に基づいて、当該二次元画像よりも画角が広い画像が生成される。例えば、２枚の画像に基づいて、当該２枚の画像の画角の両方を画角に含む画像が生成される。

以下、学習済の機械学習モデルを用いた画像の生成について図８を参照しながら説明する。

まず、スマートフォンの前面に設けられている第１のカメラが撮影した画像、及び、当該スマートフォンの背面に設けられている第２のカメラが撮影した画像が、学習済の広画角画像生成部２０に入力される。以下、学習済の広画角画像生成部２０に入力される、第１のカメラが撮影した画像を、第１ターゲット入力画像３８と呼ぶこととする。また、学習済の広画角画像生成部２０に入力される、第２のカメラが撮影した画像を、第２ターゲット入力画像４０と呼ぶこととする。第１ターゲット入力画像３８や第２ターゲット入力画像４０は、ＳＤＲの画像であってもよい。

そして広画角画像生成部２０が、当該第１ターゲット入力画像３８及び当該第２ターゲット入力画像４０に応じた画像を生成して出力する。ここで生成される画像は、例えば、第１ターゲット入力画像３８の画角と第２ターゲット入力画像４０の画角の両方を画角に含む画像である。また生成される画像は、第１ターゲット入力画像３８の画角の外でも第２ターゲット入力画像４０の画角の外でもある領域を表す画像が補完された画像であってもよい。以下、生成される画像をターゲット広画角画像４２と呼ぶこととする。ターゲット広画角画像４２は、ＨＤＲの画像であってもよい。そして広画角画像生成部２０が、生成されたターゲット広画角画像４２を出力する。

本実施形態では以上のようにして、広画角画像生成部２０において、撮影方向の関係が予め定められている複数の画像の入力に応じた、当該複数の画像の画角の外の環境が推定される。そして当該推定の結果が反映されたターゲット広画角画像４２が出力される。

このようにして本実施形態によれば、精度の高い広画角画像を容易に得ることができることとなる。例えば本実施形態に係る画像処理装置１０で生成されるターゲット広画角画像４２に基づいて、イメージベースドライトニング（ＩＢＬ）における光源が設定されてもよい。なおもちろん、本実施形態に係る画像処理装置１０で生成されるターゲット広画角画像４２の用途はＩＢＬには限定されない。

また本実施形態に係る広画角画像生成部２０は、スマートフォンなどの撮影装置が備えるカメラにより撮影された画像に第１ターゲット入力画像３８及び当該第２ターゲット入力画像４０に応じたターゲット広画角画像４２を生成する。そしてこのような広画角画像生成部２０の学習を、スマートフォンなどの撮影装置が備えるカメラを用いることなく実行することができる。

以下、本実施形態に係る画像処理装置１０の機能、及び、画像処理装置１０で実行される処理についてさらに説明する。

図９は、本実施形態に係る画像処理装置１０で実装される機能の一例を示す機能ブロック図である。なお、本実施形態に係る画像処理装置１０で、図９に示す機能のすべてが実装される必要はなく、また、図９に示す機能以外の機能が実装されていても構わない。

図９に示すように、本実施形態に係る画像処理装置１０には、機能的には例えば、広画角画像生成部２０、ドメイン識別部２２、学習入力画像生成部３０、学習広画角画像取得部５０、学習入力画像取得部５２、学習部５４、ターゲット入力画像取得部５６、ターゲット広画角画像取得部５８、が含まれる。以上の要素はプロセッサ１２、及び、記憶部１４を主として実装される。

本実施形態に係る画像処理装置１０は、画像処理装置１０に実装されている機械学習モデルの学習を実行する学習装置としての役割も学習済の機械学習モデルを用いた画像の生成を実行する画像生成装置としての役割も担っている。図９の例では、広画角画像生成部２０、ドメイン識別部２２、学習入力画像生成部３０、学習広画角画像取得部５０、学習入力画像取得部５２、及び、学習部５４が、学習装置としての役割に相当する。また、広画角画像生成部２０、ドメイン識別部２２、ターゲット入力画像取得部５６、及び、ターゲット広画角画像取得部５８が、画像生成装置としての役割に相当する。

以上の機能は、コンピュータである画像処理装置１０にインストールされた、以上の機能に対応する指令を含むプログラムをプロセッサ１２で実行することにより実装されてもよい。このプログラムは、例えば、光ディスク、磁気ディスク、磁気テープ、光磁気ディスク、フラッシュメモリ等のコンピュータ読み取り可能な情報記憶媒体を介して、あるいは、インターネットなどを介して画像処理装置１０に供給されてもよい。

広画角画像生成部２０は、上述のように本実施形態では例えば、予め定められたそれぞれの画角及び相対的な撮影方向で撮影された様子を表す複数の画像の入力に応じて当該複数の画像の画角のすべてを画角に含む画像を生成して出力する。ここで広画角画像生成部２０は、入力される複数の画像の画角の外の領域を表す画像が補完された画像を生成して出力してもよい。また広画角画像生成部２０は、ＣＮＮなどの機械学習モデルにより実装されていてもよい。

ドメイン識別部２２は、上述のように本実施形態では例えば、ドメイン識別部２２に入力される画像が広画角画像生成部２０により生成された画像であるか否かの識別結果を出力する。またドメイン識別部２２は、ＣＮＮなどの機械学習モデルにより実装されていてもよい。

学習入力画像生成部３０は、上述のように本実施形態では例えば、学習広画角画像２８に基づいて、複数の学習入力画像を生成する。例えば、学習入力画像生成部３０は、学習広画角画像２８に基づいて、第１学習入力画像２４及び第２学習入力画像２６を生成する。なお、学習入力画像生成部３０が、学習広画角画像取得部５０が取得する学習広画角画像２８に基づいて、複数の学習入力画像を生成してもよい。

また学習入力画像生成部３０は、学習広画角画像２８ａに基づいて、学習広画角画像２８ａに対応付けられる複数の学習入力画像を生成してもよい。そして学習入力画像生成部３０は、学習広画角画像２８ａに基づいて、別の学習広画角画像２８ｂを生成してもよい。また、学習入力画像生成部３０は、別の学習広画角画像２８ｂに対応付けられる複数の学習入力画像を生成してもよい。

学習広画角画像取得部５０は、本実施形態では例えば、複数の学習入力画像の画角のすべてを画角に含む学習広画角画像２８を取得する。

学習入力画像取得部５２は、本実施形態では例えば、予め定められたそれぞれの画角及び相対的な撮影方向で撮影された様子を表す複数の学習入力画像を取得する。ここで例えば、学習入力画像取得部５２は、学習入力画像生成部３０により生成される学習入力画像を取得してもよい。なお学習入力画像取得部５２が取得する複数の学習入力画像は、学習入力画像生成部３０により生成されるものである必要はない。学習入力画像取得部５２が取得する複数の学習入力画像は、例えばスマートフォンなどの撮影装置が備える一般的なカメラにより予め定められたそれぞれの画角及び相対的な撮影方向で撮影されたものであってもよい。

また学習入力画像取得部５２は、学習入力画像取得部５２が取得する複数の学習入力画像と、学習広画角画像取得部５０が取得する学習広画角画像２８と、を含む学習データを生成してもよい。この場合、学習広画角画像取得部５０が取得する学習広画角画像２８と、当該学習広画角画像２８に基づいて生成される複数の学習入力画像と、を含む学習データが生成されてもよい。

学習部５４は、本実施形態では例えば、学習入力画像取得部５２が取得する複数の学習入力画像を広画角画像生成部２０に入力した際の出力を特定する。当該出力は、上述の例における生成広画角画像３２に相当する。そして学習部５４は、本実施形態では例えば、特定される出力と、学習広画角画像取得部５０が取得する学習広画角画像２８と、に基づいて、広画角画像生成部２０の学習を実行する。ここで広画角画像生成部２０及びドメイン識別部２２の学習が実行されてもよい。

ここで上述のように、学習入力画像生成部３０が、学習広画角画像２８に基づいて、表されている当該学習広画角画像２８内における位置がそれぞれ異なる複数の学習入力画像の組合せを複数生成してもよい。また学習入力画像生成部３０は、当該学習広画角画像２８に基づいて、当該組合せのそれぞれに対応付けられる別の学習広画角画像２８を生成してもよい。そしてここで１枚の学習広画角画像２８に基づいて、別の学習広画角画像２８が複数生成されてもよい。

そしてこの場合、例えば、学習部５４が、生成される複数の組合せを用いて、当該組合せに属する複数の学習入力画像と当該組合せに対応付けられる学習広画角画像２８とに基づく広画角画像生成部２０の学習を実行してもよい。

例えば学習入力画像生成部３０が、学習広画角画像２８ａに基づいて、別の学習広画角画像２８ｂを生成したとする。この場合、学習部５４が、学習広画角画像２８ａに対応付けられる複数の学習入力画像を広画角画像生成部２０に入力した際の出力と、学習広画角画像２８ａと、に基づいて、広画角画像生成部２０の学習を実行してもよい。また学習部５４が、学習広画角画像２８ｂに対応付けられる複数の学習入力画像を広画角画像生成部２０に入力した際の出力と、学習広画角画像２８ｂと、に基づいて、広画角画像生成部２０の学習を実行してもよい。

なお学習部５４は、学習入力画像取得部５２が生成する学習データに含まれる複数の学習入力画像を広画角画像生成部２０に入力した際の出力を特定してもよい。そして学習部５４は、特定される出力と、当該学習データに含まれる学習広画角画像２８と、に基づいて、広画角画像生成部２０の学習を実行してもよい。

ターゲット入力画像取得部５６は、本実施形態では例えば、学習済の広画角画像生成部２０に入力される、複数のターゲット入力画像を取得する。ここで例えば、ターゲット入力画像取得部５６は、第１ターゲット入力画像３８及び第２ターゲット入力画像４０を取得してもよい。

またターゲット入力画像取得部５６は、撮影装置が備える複数のカメラによりそれぞれ撮影される複数のターゲット入力画像を取得してもよい。また、ターゲット入力画像取得部５６は、それぞれスマートフォン等の撮影装置の別の面に設けられている複数のカメラによりそれぞれ撮影される複数のターゲット入力画像を取得してもよい。

ターゲット広画角画像取得部５８は、本実施形態では例えば、上述したように複数のターゲット入力画像の入力に応じて広画角画像生成部２０が生成して出力するターゲット広画角画像４２を取得する。ターゲット広画角画像取得部５８は、例えば、第１ターゲット入力画像３８及び第２ターゲット入力画像４０の入力に応じて広画角画像生成部２０が生成して出力するターゲット広画角画像４２を取得する。

ここで、本実施形態に係る画像処理装置１０で行われる、広画角画像生成部２０の学習処理の流れの一例を、図１０に例示するフロー図を参照しながら説明する。図１０に示す処理例は、図２を参照して説明した内容に相当する。図１０に示す処理例では、ドメイン識別部２２の学習も併せて行われる。

まず、学習広画角画像取得部５０が、複数の学習広画角画像２８を取得する（Ｓ１０１）。

そして、学習入力画像生成部３０が、Ｓ１０１に示す処理で取得された複数の学習広画角画像２８のそれぞれについて、当該学習広画角画像２８に対応付けられる第１学習入力画像２４及び第２学習入力画像２６を生成して出力する（Ｓ１０２）。

そして学習入力画像取得部５２が、Ｓ１０１に示す処理で取得された複数の学習広画角画像２８、及び、Ｓ１０２に示す処理で出力された第１学習入力画像２４及び第２学習入力画像２６を取得する（Ｓ１０３）。

そして学習入力画像取得部５２が、Ｓ１０３に示す処理で取得された複数の学習広画角画像２８のそれぞれに対応付けられる学習データを生成する（Ｓ１０４）。Ｓ１０４に示す処理では例えば、複数の学習広画角画像２８のそれぞれについて、当該学習広画角画像２８と、当該学習広画角画像２８に基づいて生成された第１学習入力画像２４及び第２学習入力画像２６とを含む学習データが生成されることとなる。

そして学習部５４が、Ｓ１０４に示す処理で生成された複数の学習データを取得する（Ｓ１０５）。ここでは例えば、ｍ×２ｎ（ｍ，ｎは整数）個の学習データが取得されることとする。また、ｍ×２ｎ個の学習データは、２ｎ個ずつのデータ群に分割されていることとする。以下、ｉ（１≦ｉ≦ｍ）番目のデータ群を第ｉデータ群と呼ぶこととする。

そして、学習部５４が、変数ｉの値に１を設定する（Ｓ１０６）。

そして、学習部５４が、第ｉデータ群に含まれるｎ個の学習データを用いて、広画角画像生成部２０についての学習を実行する（Ｓ１０７）。Ｓ１０７に示す処理では、ドメイン識別部２２のパラメータの値が固定された状態で、広画角画像生成部２０のパラメータの値が更新される。

そして、学習部５４が、第ｉデータ群に含まれる、Ｓ１０７に示す処理で用いられていない残りのｎ個の学習データを用いて、ドメイン識別部２２についての学習を実行する（Ｓ１０８）。Ｓ１０８に示す処理では、広画角画像生成部２０のパラメータの値が固定された状態で、ドメイン識別部２２のパラメータの値が更新される。

そして、学習部５４は、変数ｉの値がｍであるか否かを確認する（Ｓ１０９）。値がｍでない場合は（Ｓ１０９：Ｎ）、学習部５４は、変数ｉの値を１増加させて（Ｓ１１０）、Ｓ１０７に示す処理に戻る。値がｍである場合は（Ｓ１０９：Ｙ）、本処理例に示す処理を終了する。

ここで、本実施形態に係る画像処理装置１０で行われる広画角画像生成部２０の学習処理の流れの別の一例を、図１１に例示するフロー図を参照しながら説明する。図１１に示す処理例は、図７を参照して説明した内容に相当する。

まず、学習広画角画像取得部５０が、複数の学習広画角画像２８を取得する（Ｓ２０１）。

そして、学習入力画像生成部３０が、Ｓ２０１に示す処理で取得された複数の学習広画角画像２８のそれぞれについて、当該学習広画角画像２８に対応付けられる第１学習入力画像２４及び第２学習入力画像２６を生成して出力する（Ｓ２０２）。

そして学習入力画像取得部５２が、Ｓ２０１に示す処理で取得された複数の学習広画角画像２８、及び、Ｓ２０２に示す処理で出力された第１学習入力画像２４及び第２学習入力画像２６を取得する（Ｓ２０３）。

そして学習入力画像取得部５２が、Ｓ２０３に示す処理で取得された複数の学習広画角画像２８のそれぞれに対応付けられる学習データを生成する（Ｓ２０４）。Ｓ２０４に示す処理では例えば、複数の学習広画角画像２８のそれぞれについて、当該学習広画角画像２８と、当該学習広画角画像２８に基づいて生成された第１学習入力画像２４及び第２学習入力画像２６とを含む学習データが生成されることとなる。

そして学習部５４が、Ｓ２０４に示す処理で生成された複数の学習データを取得する（Ｓ２０５）。

そして、学習部５４が、Ｓ２０５に示す処理で取得された複数の学習データを用いて、広画角画像生成部２０の学習を実行して（Ｓ２０６）、本処理例に示す処理を終了する。

次に、本実施形態に係る画像処理装置１０で行われる、ターゲット広画角画像４２の生成処理の流れの一例を、図１２に例示するフロー図を参照しながら説明する。

まず、ターゲット入力画像取得部５６が、第１ターゲット入力画像３８及び第２ターゲット入力画像４０を取得する（Ｓ３０１）。

そして、ターゲット入力画像取得部５６が、Ｓ３０１に示す処理で取得された第１ターゲット入力画像３８及び第２ターゲット入力画像４０を広画角画像生成部２０に入力する（Ｓ３０２）。

そして、広画角画像生成部２０は、Ｓ３０２に示す処理で入力された第１ターゲット入力画像３８及び第２ターゲット入力画像４０に応じたターゲット広画角画像４２を生成して、当該ターゲット広画角画像４２を出力する（Ｓ３０３）。

そして、ターゲット広画角画像取得部５８が、Ｓ３０３に示す処理で出力されたターゲット広画角画像４２を取得して（Ｓ３０４）、本処理例に示す処理を終了する。

なお、本発明は上述の実施形態に限定されるものではない。

例えば、スマートフォンなどの撮影装置が備える２個のカメラのそれぞれが前面及び背面に配置されている必要はない。例えば、撮影装置が備える２個のカメラが前面及び側面に配置されていてもよい。

また例えば、撮影装置が３個以上のカメラを備えることが考えられる。この場合例えば、広画角画像生成部２０は、カメラの個数の画像の入力に応じて、当該カメラの個数の画像の画角のすべてを画角に含む画像を生成してもよい。この場合は、学習データには、カメラの個数の学習入力画像が含まれることとなる。またこの場合、学習入力画像生成部３０は、学習広画角画像２８に基づいて、カメラの個数の学習入力画像を生成することとなる。またこの場合は、撮影装置が備える３個以上のカメラが撮影した画像がターゲット入力画像として広画角画像生成部２０に入力されることとなる。

また、上記の具体的な文字列や数値及び図面中の具体的な文字列や数値は例示であり、これらの文字列や数値には限定されない。

Claims

予め定められたそれぞれの画角及び相対的な撮影方向で撮影された様子を表す複数の入力画像を取得する入力画像取得部と、
前記複数の入力画像の画角のすべてを画角に含む広画角画像を取得する広画角画像取得部と、
複数の画像の入力に応じて当該複数の画像の画角のすべてを画角に含む画像を生成して出力する広画角画像生成部に前記複数の入力画像を入力した際の出力と、前記広画角画像と、に基づいて、前記広画角画像生成部の学習を実行する学習部と、
を含むことを特徴とする学習装置。
前記広画角画像に基づいて、前記複数の入力画像を生成する入力画像生成部、をさらに含み、
前記入力画像取得部は、前記入力画像生成部により生成される前記複数の入力画像を取得する、
ことを特徴とする請求項１に記載の学習装置。
前記入力画像生成部は、前記広画角画像に基づいて、表されている当該広画角画像内における位置がそれぞれ異なる前記複数の入力画像の組合せを複数生成し、
前記入力画像生成部は、前記広画角画像に基づいて、前記組合せのそれぞれに対応付けられる前記広画角画像を生成し、
前記学習部は、生成される複数の前記組合せを用いて、当該組合せに属する前記複数の入力画像と当該組合せに対応付けられる前記広画角画像とに基づく前記広画角画像生成部の学習を実行する、
ことを特徴とする請求項２に記載の学習装置。
予め定められたそれぞれの画角及び相対的な撮影方向で撮影装置が備える複数のカメラによりそれぞれ撮影される複数の入力画像を取得する入力画像取得部と、
前記複数の入力画像の入力に応じて、当該複数の入力画像の画角のすべてを画角に含む画像を生成して出力する広画角画像生成部と、を含み、
前記広画角画像生成部は、画像と、当該画像の画角の一部をそれぞれ含む複数の画像を当該広画角画像生成部に入力した際の出力と、に基づく学習が実行済の機械学習モデルである、
ことを特徴とする画像生成装置。
前記複数のカメラは、それぞれ前記撮影装置の別の面に設けられている、
ことを特徴とする請求項４に記載の画像生成装置。
予め定められたそれぞれの画角及び相対的な撮影方向で撮影された様子を表す複数の入力画像を取得するステップと、
前記複数の入力画像の画角のすべてを画角に含む広画角画像を取得するステップと、
複数の画像の入力に応じて当該複数の画像の画角のすべてを画角に含む画像を生成して出力する広画角画像生成部に前記複数の入力画像を入力した際の出力と、前記広画角画像と、に基づいて、前記広画角画像生成部の学習を実行するステップと、
を含むことを特徴とする学習方法。
予め定められたそれぞれの画角及び相対的な撮影方向で撮影装置が備える複数のカメラによりそれぞれ撮影される複数の入力画像を取得するステップと、
画像と、当該画像の画角の一部をそれぞれ含む複数の画像を入力した際の出力と、に基づく学習が実行済の機械学習モデルである広画角画像生成部に前記複数の入力画像を入力することで、当該広画角画像生成部に、当該複数の入力画像の画角のすべてを画角に含む画像を生成して出力させるステップと、
を含むことを特徴とする画像生成方法。
予め定められたそれぞれの画角及び相対的な撮影方向で撮影された様子を表す複数の入力画像を取得する手順、
前記複数の入力画像の画角のすべてを画角に含む広画角画像を取得する手順、
複数の画像の入力に応じて当該複数の画像の画角のすべてを画角に含む画像を生成して出力する広画角画像生成部に前記複数の入力画像を入力した際の出力と、前記広画角画像と、に基づいて、前記広画角画像生成部の学習を実行する手順、
をコンピュータに実行させることを特徴とするプログラム。
予め定められたそれぞれの画角及び相対的な撮影方向で撮影装置が備える複数のカメラによりそれぞれ撮影される複数の入力画像を取得する手順、
画像と、当該画像の画角の一部をそれぞれ含む複数の画像を入力した際の出力と、に基づく学習が実行済の機械学習モデルである広画角画像生成部に前記複数の入力画像を入力することで、当該広画角画像生成部に、当該複数の入力画像の画角のすべてを画角に含む画像を生成して出力させる手順、
をコンピュータに実行させることを特徴とするプログラム。