JP7434846B2

JP7434846B2 - 画像処理装置、画像処理方法、プログラム

Info

Publication number: JP7434846B2
Application number: JP2019216547A
Authority: JP
Inventors: 均並木
Original assignee: Ricoh Co Ltd
Current assignee: Ricoh Co Ltd
Priority date: 2019-11-29
Filing date: 2019-11-29
Publication date: 2024-02-21
Anticipated expiration: 2039-11-29
Also published as: JP2021086494A

Description

本発明は、画像処理装置、画像処理方法、及び、プログラムに関する。

ユーザ見ている方向に応じて周囲３６０度の画像を提供するＶＲ（virtual reality）ゴーグルが知られている。このため、周囲３６０度の広角な範囲が撮像された画像が必要になる。また、ＶＲゴーグルでは右目用と左目用の画像を表示することで、奥行き感がある仮想現実世界を提供できる。

一度の撮像操作で、周囲３６０°の画像（以下、全天球画像という）を得る撮像装置が知られている（例えば特許文献１参照。）。特許文献１には、背中合わせに配置された光学撮像系で撮像した２つの半球画像を合成して１つの全天球画像を生成する撮像装置が開示されている。

しかしながら、従来は、立体視用の全天球画像を用意することが容易でないという問題があった。

まず、全天球画像の撮像装置はレンズが各方向に対して１つ（合計２つ）しか存在しないため、360度の平面として周囲を撮像できても立体視用になっていない。ＶＲゴーグル等で見た場合、平面が強調されて迫力に欠ける。

立体視用の全天球画像を用意する方法は大きく分けて２つある。
１．各方向にレンズが１つの全天球画像の撮像装置で、異なる位置から２回以上撮像し、コンピュータ又はユーザが編集、合成する。
２. 立体視用の全天球画像を撮像できる特殊なカメラを用いる。

１の方法については撮像を２回以上行う都合上、撮像にタイムラグが発生する。タイムラグが発生すると、その間に人間の移動、樹木の風による揺らぎ、雲の変化などが生じ、２つの全天球画像の合わせこみが困難になる。観光地などでは人が大勢おり、全ての人間の動きをタイムラグが生じた２つの写真間で合わせることは実質的に不可能である。

２の方法については特殊なカメラの値段が高く、筐体が球形などのかさばる形状をしているため、一般用途での利用が難しい。

また、１，２の方法のいずれでも、観光地等で撮像した既に存在する全天球画像をユーザが立体視できないという点では変わらず、全天球画像で立体視を行いたければ、新たに撮像しなおす必要が生じてしまう。

本発明は、上記課題に鑑み、立体視可能な全天球画像を提供することができる画像処理装置を提供することを目的とする。

上記課題に鑑み、本発明は、１つの全天球画像に対し推定アルゴリズムを施して、立体視用の全天球画像を生成する画像処理装置であって、前記推定アルゴリズムはニューラルネットワークを使用した学習によって構築されており、３Ｄモデリングソフトで作成されたモデリングデータを、水平に並べた３つの仮想的なカメラのうち中央のカメラで撮像した全天球画像を入力用の全天球画像とし、３つの仮想的なカメラのうち右側カメラで撮像した全天球画像と、左側カメラで撮像した全天球画像のうち、前記右側カメラの背面に対応する部分が写った全天球画像の背面画像と前記左側カメラの背面に対応する部分が写った全天球画像の背面画像とをスワップして、教師データとなる右目用の全天球画像と左目用の全天球画像を生成する学習データ作成部を有することを特徴とする。
また、本発明は、１つの全天球画像に対し推定アルゴリズムを施して、距離画像を生成し、前記距離画像と前記全天球画像から立体視用の全天球画像を生成する画像処理装置であって、前記推定アルゴリズムはニューラルネットワークを使用した学習によって構築されており、３Ｄモデリングソフトで作成されたモデリングデータを仮想的なカメラで撮像した全天球画像及び前記全天球画像の距離画像のうち、前記全天球画像を入力、前記距離画像を教師データとして、前記全天球画像に対し前記距離画像を出力する前記推定アルゴリズムが構築されており、前記推定アルゴリズムで推定された前記距離画像が有する画素の距離を用いて、前記全天球画像を直交座標系の三次元点群に変換し、前記直交座標系の水平面で所定点の周囲を回転する直線であって、所定角度ずつ回転させた各位置で、前記直線の仰角を変化させた場合に前記直線の近傍の三次元点を、円筒画像に変換する視差計算部を有することを特徴とする。

立体視可能な全天球画像を提供することができる画像処理装置を提供することができる。

本実施形態において立体視可能な全天球画像の作成方法の概略を説明する図である。画像処理装置のハードウェア構成例を示す図である。撮像装置のハードウェア構成図の一例である。全天球画像のフォーマットを説明する図である。立体視用の画像のフォーマットの一例である。画像処理装置の機能をブロック状に示す機能ブロック図の一例である。画像処理装置が行う学習データの作成方法の流れを説明するフローチャート図である。３Ｄモデリングソフトを用いた学習データの作成方法を説明する図である。左側、中央、右側の３つの仮想的なカメラの１回の撮像結果を示す図の一例である。左右の画像と目の関係を説明する図である。左右画像スワップで行われる処理を説明する図である。全天球画像を立体球とした場合の左右画像のスワップを説明する図である。ＣＮＮ（Convolutional Neural Network）のニューラルネットワークの構成例を示す図である。畳み込みと逆畳み込みを模式的に説明する図である。画像処理装置が立体視用の全天球画像を出力する処理を説明するフローチャート図の一例である。画像処理装置が立体視用の全天球画像を作成する処理の概略を説明する図である。画像処理装置の機能をブロック状に示す機能ブロック図の一例である。画像処理装置が行う学習データの作成方法の流れを説明するフローチャート図である。レンダリング結果の一例を示す図である。ニューラルネットワークの構成例を示す図である。視差計算部が行う処理を説明するフローチャート図の一例である。目の向いている向きと目の位置を説明する図の一例である。ある目の向きにおける正距円筒画像と三次元点群の関係を模式的に示す図である。動画を三次元立体動画に変換する流れを説明する図である。

以下、本発明を実施するための形態の一例として、画像処理装置と画像処理装置が行う画像処理方法について図面を参照しながら説明する。

＜概要＞
図１は、本実施形態において立体視可能な全天球画像の作成方法の概略を説明する図である。
(1) 全天球画像の撮像装置９が撮像処理を行い１つの全天球画像を生成する。すでに撮像されていてもよい。
(2) 画像処理装置１０が推定アルゴリズム（プログラム）を実行して、１つの全天球画像から２つの全天球画像を出力する。この２つの全天球画像は立体視可能な全天球画像となっている。推定アルゴリズムは、１つの全天球画像からニューラルネットワークを使って左目用の全天球画像と右目用の全天球画像を推定するアルゴリズムである。ただし、ニューラルネットワークによるアルゴリズムには限定しなくてよい。
(3) 例えばＶＲゴーグルなどでユーザが360度の空間を立体視で閲覧できる。

なお、撮像装置９は正距円筒図法 (後述) のフォーマットで全天球画像を生成できればよい。あるいは、３Ｄモデリングソフトを使って全天球画像をレンダリングしてもよい。正距円筒図法には限られず、メルカトル図法、ミラー図法、又は、心射円筒図法などでもよい。

このように、本実施形態の画像処理装置１０は、１つの全天球画像から立体視可能な２つの全天球画像を生成できる。時間をおいての撮像や特殊な撮像装置が必要ない。また、すでに撮像済みの全天球画像から立体視可能な全天球画像を生成できる。

＜用語について＞
全天球画像とは、周囲360度が撮像された画像データをいう。必ずしも３６０度の全てが写っている必要はなく、画質向上などのために一部が省略されていてもよい。全天球画像は、平面画像に変換された状態（正距円筒画像）と立体球の状態を取る場合がある。

推定アルゴリズムは、１つの全天球画像から立体視用の２つの全天球画像を生成するプログラムである。あるいは、１つの全天球画像から１つ以上の画素に距離情報が含まれる距離画像を生成するプログラムである。

＜ハードウェア構成例＞
＜＜画像処理装置＞＞
図２は、画像処理装置１０のハードウェア構成例を示す。図２に示されているように、画像処理装置１０は、コンピュータによって構築されており、図２に示されているように、ＣＰＵ５０１、ＲＯＭ５０２、ＲＡＭ５０３、ＨＤ５０４、ＨＤＤ(Hard Disk Drive)コントローラ５０５、ディスプレイ５０６、外部機器接続Ｉ／Ｆ(Interface)５０８、ネットワークＩ／Ｆ５０９、バスライン５１０、キーボード５１１、ポインティングデバイス５１２、ＤＶＤ－ＲＷ(Digital Versatile Disk Rewritable)ドライブ５１４、メディアＩ／Ｆ５１６を備えている。

これらのうち、ＣＰＵ５０１は、画像処理装置１０全体の動作を制御する。ＲＯＭ５０２は、ＩＰＬ等のＣＰＵ５０１の駆動に用いられるプログラムを記憶する。ＲＡＭ５０３は、ＣＰＵ５０１のワークエリアとして使用される。ＨＤ５０４は、プログラム等の各種データを記憶する。ＨＤＤコントローラ５０５は、ＣＰＵ５０１の制御にしたがってＨＤ５０４に対する各種データの読み出し又は書き込みを制御する。ディスプレイ５０６は、カーソル、メニュー、ウィンドウ、文字、又は画像などの各種情報を表示する。外部機器接続Ｉ／Ｆ５０８は、各種の外部機器を接続するためのインターフェースである。この場合の外部機器は、例えば、ＵＳＢ(Universal Serial Bus)メモリやプリンタ等である。ネットワークＩ／Ｆ５０９は、通信ネットワークを利用してデータ通信をするためのインターフェースである。バスライン５１０は、図２に示されているＣＰＵ５０１等の各構成要素を電気的に接続するためのアドレスバスやデータバス等である。

また、キーボード５１１は、文字、数値、各種指示などの入力のための複数のキーを備えた入力手段の一種である。ポインティングデバイス５１２は、各種指示の選択や実行、処理対象の選択、カーソルの移動などを行う入力手段の一種である。ＤＶＤ－ＲＷドライブ５１４は、着脱可能な記録媒体の一例としてのＤＶＤ－ＲＷ５１３に対する各種データの読み出し又は書き込みを制御する。なお、ＤＶＤ－ＲＷに限らず、ＤＶＤ－Ｒ等であってもよい。メディアＩ／Ｆ５１６は、フラッシュメモリ等の記録メディア５１５に対するデータの読み出し又は書き込み（記憶）を制御する。

なお、図２では省略されているが、ＧＰＵ（Graphics Processing Unit）を有するとよい。ＧＰＵは数値演算の並列処理に優れており、ニューラルネットワークで生じる演算を高速に行える。

＜＜撮像装置＞＞
図３を用いて、撮像装置９のハードウェア構成を説明する。図３は、撮像装置９のハードウェア構成図である。以下では、撮像装置９は、２つの撮像素子を使用した全天球（全方位）撮像装置とするが、撮像素子は２つ以上いくつでもよい。また、必ずしも全方位撮像専用の装置である必要はなく、通常のデジタルカメラやスマートフォン等に後付けの全方位の撮像ユニットを取り付けることで、実質的に撮像装置９と同じ機能を有するようにしてもよい。

図３に示されているように、撮像装置９は、撮像ユニット６０１、画像処理ユニット６０４、撮像制御ユニット６０５、マイク６０８、音処理ユニット６０９、ＣＰＵ(Central Processing Unit)６１１、ＲＯＭ(Read Only Memory)６１２、ＳＲＡＭ(Static Random Access Memory)６１３、ＤＲＡＭ(Dynamic Random Access Memory)６１４、操作部６１５、外部機器接続Ｉ／Ｆ６１６、通信部６１７、アンテナ６１７ａ、及び、加速度・方位センサ６１８を有している。

このうち、撮像ユニット６０１は、各々半球画像を結像するための１８０°以上の画角を有する広角レンズ（いわゆる魚眼レンズ）６０２ａ，６０２ｂと、各広角レンズに対応させて設けられている２つの撮像素子６０３ａ，６０３ｂを備えている。撮像素子６０３ａ，６０３ｂは、魚眼レンズ６０２ａ，６０２ｂによる光学像を電気信号の画像データに変換して出力するＣＭＯＳ(Complementary Metal Oxide Semiconductor)センサやＣＣＤ(Charge Coupled Device)センサなどの画像センサ、この画像センサの水平又は垂直同期信号や画素クロックなどを生成するタイミング生成回路、この撮像素子の動作に必要な種々のコマンドやパラメータなどが設定されるレジスタ群などを有している。

撮像ユニット６０１の撮像素子６０３ａ，６０３ｂは、各々、画像処理ユニット６０４とパラレルＩ／Ｆバスで接続されている。一方、撮像ユニット６０１の撮像素子６０３ａ，６０３ｂは、撮像制御ユニット６０５とは、シリアルＩ／Ｆバス（Ｉ２Ｃバス等）で接続されている。画像処理ユニット６０４、撮像制御ユニット６０５及び音処理ユニット６０９は、バス６１０を介してＣＰＵ６１１と接続される。更に、バス６１０には、ＲＯＭ６１２、ＳＲＡＭ６１３、ＤＲＡＭ６１４、操作部６１５、外部機器接続Ｉ／Ｆ(Interface)６１６、通信部６１７、及び加速度・方位センサ６１８なども接続される。

画像処理ユニット６０４は、撮像素子６０３ａ，６０３ｂから出力される画像データをパラレルＩ／Ｆバスを通して取り込み、それぞれの画像データに対して所定の処理を施した後、これらの画像データを合成処理して、正距円筒画像のデータを作成する。

撮像制御ユニット６０５は、一般に撮像制御ユニット６０５をマスタデバイス、撮像素子６０３ａ，６０３ｂをスレーブデバイスとして、Ｉ２Ｃバスを利用して、撮像素子６０３ａ，６０３ｂのレジスタ群にコマンド等を設定する。必要なコマンド等は、ＣＰＵ６１１から受け取る。また、撮像制御ユニット６０５は、同じくＩ２Ｃバスを利用して、撮像素子６０３ａ，６０３ｂのレジスタ群のステータスデータ等を取り込み、ＣＰＵ６１１に送る。

また、撮像制御ユニット６０５は、操作部６１５のシャッターボタンが押下されたタイミングで、撮像素子６０３ａ，６０３ｂに画像データの出力を指示する。撮像装置９によっては、ディスプレイ（例えば、スマートフォンのディスプレイ）によるプレビュー表示機能や動画表示に対応する機能を持つ場合もある。この場合は、撮像素子６０３ａ，６０３ｂからの画像データの出力は、所定のフレームレート（フレーム／分）によって連続して行われる。

また、撮像制御ユニット６０５は、後述するように、ＣＰＵ６１１と協働して撮像素子６０３ａ，６０３ｂの画像データの出力タイミングの同期をとる同期制御手段としても機能する。なお、本実施形態では、撮像装置９にはディスプレイが設けられていないが、表示部を設けてもよい。

マイク６０８は、音を音（信号）データに変換する。音処理ユニット６０９は、マイク６０８から出力される音データをＩ／Ｆバスを通して取り込み、音データに対して所定の処理を施す。

ＣＰＵ６１１は、撮像装置９の全体の動作を制御すると共に必要な処理を実行する。ＲＯＭ６１２は、ＣＰＵ６１１のための種々のプログラムを記憶している。ＳＲＡＭ６１３及びＤＲＡＭ６１４はワークメモリであり、ＣＰＵ６１１で実行するプログラムや処理途中のデータ等を記憶する。特にＤＲＡＭ６１４は、画像処理ユニット６０４での処理途中の画像データや処理済みの正距円筒画像のデータを記憶する。

操作部６１５は、シャッターボタン６１５ａなどの操作ボタンの総称である。ユーザは操作部６１５を操作することで、種々の撮像モードや撮像条件などを入力する。

外部機器接続Ｉ／Ｆ６１６は、各種の外部機器を接続するためのインターフェースである。この場合の外部機器は、例えば、ＵＳＢ(Universal Serial Bus)メモリやＰＣ(Personal Computer)等である。ＤＲＡＭ６１４に記憶された正距円筒画像のデータは、この外部機器接続Ｉ／Ｆ６１６を介して外付けのメディアに記録されたり、必要に応じて外部機器接続Ｉ／Ｆ６１６を介してスマートフォン等の外部端末（装置）に送信されたりする。

通信部６１７は、撮像装置９に設けられたアンテナ６１７ａを介して、Wi－Fi、ＮＦＣ(Near Field Communication)やＢｌｕｅｔｏｏｔｈ（登録商標）等の近距離無線通信技術によって、スマートフォン等の外部端末（装置）と通信を行う。この通信部６１７によっても、正距円筒画像のデータをスマートフォン等の外部端末（装置）に送信することができる。

加速度・方位センサ６１８は、地球の磁気から撮像装置９の方位を算出し、方位情報を出力する。この方位情報はExifに沿った関連情報（メタデータ）の一例であり、撮像画像の画像補正等の画像処理に利用される。なお、関連情報には、画像の撮像日時、及び画像データのデータ容量の各データも含まれている。また、加速度・方位センサ６１８は、撮像装置９の移動に伴う角度の変化（Roll角、Pitch角、Yaw角）を検出するセンサである。角度の変化はExifに沿った関連情報（メタデータ）の一例であり、撮像画像の画像補正等の画像処理に利用される。更に、加速度・方位センサ６１８は、３軸方向の加速度を検出するセンサである。撮像装置９は、加速度・方位センサ６１８が検出した加速度に基づいて、自装置（撮像装置９）の姿勢（重力方向に対する角度）を算出する。撮像装置９に、加速度・方位センサ６１８が設けられることによって、画像補正の精度が向上する。

＜全天球画像のフォーマット＞
図４は、全天球画像のフォーマットを説明する図である。図４（ａ）は正距円筒画像であり、図４（ｂ）は立体球である。正距円筒画像は現実世界の3次元座標系を２次元に転写したものである。図４では、転写における座標系の変換方法を示している。

立体球の中心を通るベクトルＡは、θとφにより表すことができる。
θ：3次元空間上の水平方向の角度
φ：3次元空間上の垂直方向の角度
このθとφで指定される画素を２次元に転写したものが全天球画像に一般的に使われる正距円筒画像である。本実施形態では平面状態の全天球画像は正距円筒画像であるとして説明する。図４（ａ）に示すように、正距円筒画像は、水平方向に360度、垂直方向に180度の画角となる。

＜立体視用の画像のフォーマット＞
図５は、立体視用の画像のフォーマットの一例である。全天球画像に限らず、立体視可能な画像にはいくつかのフォーマットが存在する。ここに記載したものは、その中の一つであるトップ＆ボトム形式と呼ばれるフォーマットである。上が左目に表示する画像であり、下が右目に表示する画像に対応する。本実施形態の画像処理装置１０は最終的な出力画像の形式として、正距円筒画像を縦に２つ並べたトップ＆ボトム形式の画像を出力する。

なお、立体視用の画像のフォーマットは他にもいくつかある。出力画像は以下のいずれでも構わない。
・サイドバイサイド形式：左目用の画像と右目用の画像を左右に並べた形式
・フレームシーケンシャル形式：動画用の方式で、左目用の画像と右目用の画像を交互に動画フレームとして並べる形式
なお、元の正距円筒画像は横長（１（縦）：２（横））のアスペクト比であるため、立体視用の全天球画像に関してはトップ＆ボトム形式が採用されることが多い。トップ＆ボトム形式を用いると、上記のアスペクト比から丁度、正方形の画像サイズになるためである。

＜画像処理装置の機能について＞
図６は、画像処理装置１０の機能をブロック状に示す機能ブロック図の一例である。まず、図６（ａ）は学習フェーズの画像処理装置１０を示す。画像処理装置１０は、記憶部４１、学習部４２、画像出力部４３及び学習データ作成部４４を有している。このうち画像出力部４３は学習により構築されるため点線で示した。画像処理装置１０が有するこれらの各機能は、画像処理装置１０が有するＣＰＵ５０１が、ＨＤ５０４からＲＡＭ５０３に展開されたプログラムを実行することで実現される機能又は手段である。また、記憶部４１は、画像処理装置１０が有するＨＤ５０４又はＲＡＭ５０３の少なくとも一方に形成されている。

学習データ作成部４４は、学習データを作成する。本実施形態では、例えば３Ｄモデリングソフトを使って、入力用の全天球画像、及び、教師データとなる右目用と左目用の２つの全天球画像を作成する。

記憶部４１には、学習データ記憶部４９が構築されている。学習データ記憶部４９は、学習データを記憶している。本実施形態の学習データは、入力用の全天球画像、及び、用意された立体視用の全天球画像（左目用と右目用の２つの全天球画像である）。左目用と右目用の１対の全天球画像が教師データである。学習データの作成方法については後述する。

なお、学習データはサーバからネットワークを介してダウンロードされてもよい。サーバはクラウドにあってもオンプレミスにあってもよい。また、記憶部４１は画像処理装置１０の外部に設けられていてもよい。

学習部４２は、ニューラルネットワークを初めとする各種の機械学習のアプローチで、入力用の全天球画像と教師データの全天球画像の対応を学習する。機械学習とは、コンピュータに人のような学習能力を獲得させるための技術であり、コンピュータがデータ識別等に必要なアルゴリズムを事前に取り込まれる学習データから自律的に生成し新たなデータについてこれを適用して予測を行う技術のことをいう。機械学習のための学習方法は、教師あり学習、教師なし学習、半教師学習、強化学習、深層学習のいずれかの方法でもよく、更に、これらの学習方法を組み合わせた学習方法でもよく、機械学習のための学習方法は問わない。

教師データが立体視用の全天球画像なので、入力用の全天球画像に対し立体視用の全天球画像を推定する（出力する）画像出力部４３が学習の結果、得られる。

なお、学習時の画像処理装置１０は、ネットワーク上に存在してもよい。この場合、ＰＣ（Personal Computer）などのクライアント端末が学習データを画像処理装置１０に送信し、構築した画像出力部４３をクライアント端末に返す。

図６（ｂ）は画像推定フェーズの画像処理装置１０の機能ブロック図の一例である。画像処理装置１０は上記の画像出力部４３を有している。画像出力部４３は全天球画像の撮像装置９から全天球画像を取得して、立体視用の全天球画像（右目用の全天球画像と左目用の全天球画像）を出力する。入力用の全天球画像は、撮像装置９が撮像したものだけでなく、記憶部４１、ＵＳＢメモリ又はネットワーク上に記憶されていたものでもよい。

また、画像推定フェーズの画像処理装置１０は、ネットワーク上に存在してもよい。この場合、クライアント端末が入力用の全天球画像を画像処理装置１０に送信し、画像出力部４３が出力した立体視用の全天球画像をクライアント端末に返す。

＜学習データの作成方法＞
続いて、図７～図１２を用いて学習データの作成方法を説明する。まず、図７は、画像処理装置１０が行う学習データの作成方法の流れを説明するフローチャート図である。図７に示すように、学習データ作成部４４は、カメラの設置、レンダリング、及び、左右画像のスワップを行う。

（Ｓ１カメラの設置）
図８は、３Ｄモデリングソフトを用いた学習データの作成方法を説明する図である。本実施形態では、教師データは、３Ｄモデリングソフトを用いて作成する。３Ｄモデリングソフトとは、３ＤＣＡＤや３ＤＣＧのデータをコンピュータ上で可視化するアプリケーションである。３ＤＣＡＤは主に数式で三次元形状を表し、３ＤＣＧはポリゴンの組み合わせで三次元形状を表す。

開発者などが適当な都市のモデリングデータを３Ｄモデリングソフトで再現しておく。学習データ作成部４４は都市内に仮想的なカメラ４１０を設置する。設置する位置に決まりはなく周囲を撮像できればよい。このカメラは全天球画像を撮像できるカメラであるが、このカメラは２つの光学系を有していなくてよい。仮想空間なのでカメラパラメータとして画角を360度に設定すれば良いためである。ただし、例えば背中合わせに２つで１組の光学撮像系を有し、それぞれの光学撮像系のレンズが魚眼レンズの内部パラメータを有するカメラでもよい。

カメラは計３台設置される。例えば、並行に並べて左側、中央、右側の３つに配置される。左側と右側のカメラが人間の左右の目に相当するので、左右のカメラが人間の左右の目の視差と同等になる程度に離して設置される。なお、視差を強調したい場合は実際の人間の視差より左右のカメラ間隔を広げてもよい。中央のカメラは入力用の全天球画像を撮像し、左右のカメラは教師データの全天球画像を撮像する。

仮想的なカメラは学習データの数として十分な枚数になるだけ撮像する必要があり、３つのカメラはそれぞれ、例えば300枚程度を撮像する。カメラの位置を移動させながら定期的又は等間隔に決まった枚数の撮像を繰り返す。なお、必要な枚数はニューラルネットワークの重み（パラメータ）が収束するために必要な枚数であるため、３００枚は一例である。

（Ｓ２レンダリング）
図９は、左側、中央、右側の３つの仮想的なカメラの１回の撮像結果を示す。図９（ａ）が左側のカメラの全天球画像、図９（ｂ）が中央のカメラの全天球画像、図９（ｃ）が右側のカメラの全天球画像である。ほぼ同じ画像であるが、厳密には視差が生じている。

なお、カメラは実際に撮像するわけでなく、画角内の３ＤＣＡＤや３ＤＣＧのデータを２次元に透視投影することで全天球画像を得る。この処理をレンダリングという場合がある。一般には、カメラの位置に関する外部パラメータと射影方式（魚眼レンズ）に関する内部パラメータ（行列になっている）を開発者等が設定しておき、３ＤＣＡＤや３ＤＣＧのデータに乗じることで、全天球画像の画素値が定まる。

（Ｓ３左右画像のスワップ）
次に、図１０に基づいて、左右画像のスワップについて説明する。図１０は、左右の画像と目の関係を説明する図である。図９に示した右目用の全天球画像と左目用の全天球画像では教師データにならない。これは、左右のカメラの位置関係と、人間の目の位置が、人間の体の向きによって変わるからである。

図１０に示すように、人間が前を向いている場合は左側に設置したカメラが左目に相当し、右側に設置したカメラが右目に相当する。しかし、逆方向を人間が向いた場合、左側に設置したカメラは右目に相当し、右側に設置したカメラが左目に相当してしまう。

そこで、図１１に示すように、学習データ作成部４４は左右画像のスワップを行う。図１１は、左右画像スワップで行われる処理を説明する図である。左右画像のスワップとは、左側のカメラの全天球画像と右側のカメラの全天球画像を、左目用画像と右目用画像にそれぞれ変換する処理である。

背中合わせに２つの光学撮像系（レンズと撮像素子など）を有する撮像装置９の場合、正面レンズが画像の左から1/4の位置から3/4の位置までを撮像し、残りを背面レンズが撮像する。したがって、右側カメラの背面の画像と左側カメラの背面の画像を交換すればよい。

図１２は全天球画像を立体球とした場合の左右画像のスワップを説明する図である。図１２に示すように、左側のカメラの全天球画像のうち正面レンズの部分画像と、右側のカメラの全天球画像のうち背面レンズの部分画像を組み合わせれば、それは左目の画像となる。同様に、右側のカメラの全天球画像のうち正面レンズの部分画像と、左側のカメラの全天球画像のうち背面レンズの部分画像を組み合わせれば、それは右目の画像となる。つまり左右のカメラの全天球画像のうち背面レンズ側をスワップした画像を作ることが左右の目の全天球画像を作ることになる。

（Ｓ４終了判定）
学習データ作成部４４は十分な（閾値以上の）枚数の学習データを生成するまでＳ１～Ｓ３を行う。

以上で、学習データ作成部４４は、入力用の全天球画像と、教師データ（左目用の全天球画像、右目用の全天球画像）とを含む学習データを生成できた。画像処理装置１０は、同様の処理を、３つの仮想的なカメラが撮像した全ての全天球画像について行う。

＜ニューラルネットワークの構造＞
図１３は、ＣＮＮ（Convolutional Neural Network）のニューラルネットワークの構成例を示す。ニューラルネットワーク又は深層学習（Deep Neural Network）のうち、畳み込み（Convolutional）演算を使用するネットワークをＣＮＮという。ＣＮＮにより上記の推定アルゴリズム（画像出力部）が構築される。本実施形態では主にＣＮＮを使用するが、画像生成さえできれば、どのようなアルゴリズムを用いても良い。

図１４は、畳み込みと逆畳み込みを模式的に説明する図である。図１４（ａ）は畳み込み処理のイメージであり、図１４（ｂ）は逆畳み込みのイメージである。畳み込み部５１，５３は入力画像３０１にフィルタ（カーネル）３０２の各要素を掛け合わせて特徴マップ３０３の１画素分の値を得る。畳み込み部５１，５３はストライドと呼ばれるシフト量だけずらして同じ演算を行う。図１４（ａ）では入力画像が５×５、フィルタが３×３、ストライドが１なので、３×３の特徴マップ３０３が得られている。フィルタはチャンネル（例えばＲＧＢ）の数だけ用意されるため、チャンネル数に応じた特徴マップが得られる。なお、１つの畳み込みごとにＲＥＬＵ関数などで非線形変換することが一般的である。

逆畳み込み部５２，５４は、畳み込みで得られた特徴マップ（一例として３×３とする）を入力画像３０５にして、画素の周囲に空白を足してサイズを拡大した後でフィルタ３０６（３×３）を施す。逆畳み込み部５２，５４はストライドと呼ばれるシフト量だけずらして同じ演算を行う。これにより、図１４（ｂ）では５×５の特徴マップ３０７が得られている。特徴マップ３０３の周囲に埋め込まれる値は空白（ゼロ）でなくてもよい。例えば、畳み込み演算で得られた同じサイズの特徴マップを使用する方法がある。

図１３に戻って説明する。図１３では、学習部４２が入力される全天球画像をコピーして２つの全天球画像を作成している。上段が左目用であり、下段が右目用である。畳み込み部５１，５３ではいくつかの畳み込みが行われ、特徴抽出している。特徴抽出の過程ではフィルタが用意される。このフィルタの係数は特徴を抽出するように自動的に学習される。フィルタのサイズとストライドにより元の画像は小さくなっていく。図１３では、「２×１」のサイズまで特徴抽出されているが一例に過ぎない。なお、８，１６，…２０４８は畳み込みにおけるチャンネル数である。

逆畳み込み部５２，５４では、学習部４２が特徴マップに対し逆畳み込みを行う。図１３では入力された全天球画像に、逆畳み込みで得られる特徴マップを近づけるために、畳み込み層の同一のサイズの画像を取り入れている。ただし、この処理はなくてもよい。

学習時には、用意した右目用と左目用の教師データと、逆畳み込み部５２，５４が出力する画像との差を学習部４２が算出する。この差は逆畳み込み部５２，５４、畳み込み部５１，５３の順に逆伝播される。逆伝播によりフィルタの係数が更新される。

図１３の処理を、フィルタの係数の変化が収束するまで又は全ての学習データについて学習部４２が行うことで、フィルタの係数が学習され、入力された全天球画像に対し左目用の全天球画像と右目用の全天球画像を出力する画像出力部４３が構築される。

なお、図１３の構成は一例であり、畳み込み層の後にプーリング層があってもよいし、逆畳み込み層の代わりに全結合層があってもよい。

＜立体視用全天球画像を出力処理＞
図１５は、画像処理装置１０が立体視用の全天球画像を出力する処理を説明するフローチャート図の一例である。

まず、画像出力部４３は入力用の全天球画像を取得する（Ｓ１１）。全天球画像は撮像装置９がリアルタイムに撮像したものでもよいし、記憶部４１に記憶されていてもよい。

次に、画像出力部４３は入力された全天球画像をコピーして右目用と左目用の全天球画像を生成する（Ｓ１２）。

画像出力部４３は、右目用と左目用の全天球画像それぞれに推定アルゴリズムを適用する（Ｓ１３）。すなわち、図１３に示した畳み込みと逆畳み込みを行って、右目用と左目用の全天球画像を出力する。

画像出力部４３は、右目用と左目用の全天球画像から立体視用の全天球画像を生成する（Ｓ１４）。すなわち、トップ&ボトム形式と呼ばれるフォーマットに変換する。

＜主な効果＞
以上説明したように、本実施形態の画像処理装置１０は、１つの全天球画像から立体視可能な全天球画像を生成できる。時間をおいての撮像や特殊な撮像装置が必要ない。また、すでに撮像済みの全天球画像から立体視可能な全天球画像を生成できる。

本実施例では、距離画像を生成しそれを左右の目の画像に変換する画像処理装置１０について説明する。

図１６は、本実施例の画像処理装置１０が立体視用の全天球画像を作成する処理の概略を説明する図である。本実施例でも、入力される全天球画像４００は１つであり、最終的な出力は左目用と右目用の全天球画像である。

(1) 本実施例では、左目用と右目用の全天球画像をニューラルネットワーク４０１にて直接出力するのではなく、ニューラルネットワーク４０１で出力するのは距離画像４０２とする。距離画像４０２とは画素ごとにこの画素に写っている物体までの距離情報が配置された画像である。

(2) 画像処理装置１０は、入力された全天球画像４００と距離画像４０２を用いてそれぞれが画素値を有する三次元点群４０４を作成する。

(3) 画像処理装置１０は三次元点群４０４の画素値を用いて左目用と右目用の正距円筒画像４０５を生成する。

この方法は、実施例１の方法に対して、最終出力の左目用と右目用の全天球画像の解像度を高くしやすいというメリットがある。実施例１の方法では、左目用と右目用の全天球画像を直接ニューラルネットワークで生成していたため、左目用と右目用の全天球画像の品質はニューラルネットワークで消費するメモリの量に依存する。

画像生成系のニューラルネットワークはメモリ消費が激しいため、大規模なGPUを用意しない限りはサイズに物理的な制約がかかる。撮像装置９は高解像度なので、実施例１では入力用の全天球画像を縮小してニューラルネットワークに適用せねばならず、解像度が落ちる。

これに対して、本実施例では距離画像を生成する。距離画像自体の解像度はニューラルネットワークで作る点で実施例１と同じため、2048 x 1024程度になる。しかし、距離画像は構造が単純であるために拡大しても画質が劣化しにくい。むしろ拡大すべきである点が利点になる。つまり、元の解像度をフルに活かして、解像度を上げて左目用と右目用の全天球画像を出力することができる。

＜機能について＞
図１７は、画像処理装置１０の機能をブロック状に示す機能ブロック図の一例である。図１７（ａ）は学習フェーズにおける画像処理装置１０の機能をブロック状に示す機能ブロック図の一例である。本実施例では学習データ作成部４４の機能が実施例１と異なっている。本実施例の学習データ作成部４４は入力用の全天球画像から１枚の距離画像を作ればよく、右目用と左目用の全天球画像（教師データ）を作成する必要がない。

また、学習部４２が画像出力部４３を構築する点は実施例１と同じだが、画像出力部４３は１枚の距離画像を作成する。

図１７（ｂ）は画像推定フェーズにおける画像処理装置１０の機能をブロック状に示す機能ブロック図の一例である。本実施例では、新たに視差計算部４５を有している。視差計算部４５は、画像出力部４３が作成した距離画像と入力された全天球画像から左目用の全天球画像と右目用の全天球画像を作成する。

＜学習データの作成方法＞
図１８は、画像処理装置１０が行う学習データの作成方法の流れを説明するフローチャート図である。図１８の説明では、主に図７との相違を説明する。図１８に示すように、学習データ作成部４４は、カメラの設置、及び、レンダリングを行うが、左右画像のスワップを行う必要がない。

（Ｓ１カメラの設置）
本実施例では、正距円筒画像とそれに対応した距離画像が学習データとなる。教師データは距離画像である。本実施例においても３Ｄモデリングソフトが利用される。本実施例では学習データ作成部４４は１つのみ仮想的なカメラを配置すればよい。

（Ｓ２レンダリング）
実施例１と同様に、学習データ作成部４４は仮想的なカメラに全天球画像をレンダリングする。また、本実施例では学習データ作成部４４は距離画像を作成するのでＲＧＢの輝度値は不要であり、ｚバッファと呼ばれる深度情報をレンダリングする。３Ｄモデリングソフトではzバッファと呼ばれるカメラに対する深度情報を利用できる。深度情報はカメラと物体の特定点との距離を表す情報である。３Ｄモデルではカメラを固定した際に空間内のオブジェクト同士がカメラから見た際に重なり合うことがあり、その際に効率的に描画処理を進めるためにはカメラから遠いオブジェクトを描画する作業は無駄になる。そこで使われるデータがzバッファで、カメラに近いオブジェクトのみをレンダリングすることで描画速度を高速化するために用いる。

学習データ作成部４４はカメラの外部パラメータと内部パラメータを使ってＲＧＢ値でなく距離情報（ｚバッファ）を正距円筒画像に投影する。よって、３Ｄモデルに設置された仮想的なカメラでは、カメラを基準にして３Ｄモデル空間を構成する全てのオブジェクトに対して距離情報の計測が可能になる。

図１９はレンダリング結果の一例を示す図である。図１９（ａ）は入力用の全天球画像であり、図１９（ｂ）は距離画像である。図面の制約上、読み取れないが、図１９（ｂ）では距離に応じた色が付されている。

一般的に距離画像はグレースケールの画像で表現される。しかしグレースケールでは色の幅が256階調しかないため距離の分解能が少ない。このため、図１９（ｂ）では256段階でなく、より高分解能で距離を表している（作図の都合で濃淡の種類は実際よりも少なくなっている）。これにより学習データ作成部４４は、密度の高い距離画像をレンダリングできる。

＜ニューラルネットワークの構造＞
図２０は、本実施例のニューラルネットワークの構成例を示す。図２０は1枚の距離画像を出力するため、処理の流れが１つしかないが、畳み込み部５６と逆畳み込み部５７の構成は図１３と同様になっている。ただし、使用するニューラルネットワークに関しては同じでも違っていてもよい。教師データを変えているため、同じニューラルネットワークを使ったとしても学習させればフィルタの係数などの特性が変化するため、距離データに応じた画像出力部４３を構築できる。画像生成系のニューラルネットワークを用いれば良い。

学習時には、用意した距離画像（教師データ）と、逆畳み込み部５７が出力した出力画像との差を学習部４２が算出する。この差は逆畳み込み部５７、畳み込み部５６の順に逆伝播される。逆伝播によりフィルタの係数が更新される。

図２０の処理を、フィルタの係数の変化が収束するまで又は全ての学習データについて学習部４２が行うことで、フィルタの係数が学習され、入力された全天球画像に対し距離画像を出力する画像出力部４３が構築される。

＜視差計算について＞
続いて、図２１を用いて視差計算について説明する。図２１は視差計算部４５が行う処理を説明するフローチャート図である。

・Ｓ１０１
まず、視差計算部４５は、入力用の全天球画像とそれに対応する距離画像を用いて、三次元点群を生成する。図４で説明したように、全天球画像の各点はそれぞれ立体球の球面上の点に対応する。全天球画像の点(u,v)に対し、立体球に転写した際の水平角度θ(ラジアン)と垂直角度φは次のように計算される。なお、wとhはそれぞれ全天球画像の幅と高さであり、u、vを０～１に正規化するために導入されている。一例としてはw=5376とh=2688である。
θ = －π + 2π(u/w)
φ = －π/2 + π(v/h)
立体球の座標（θ,φ）は極座標であるが、極座標と直交座標系の変換は下式(1)により実現できる。

なお、(u,v)の点における距離画像の距離dは立体球の半径に対応するので、距離dが右辺に乗じられている。

視差計算部４５は、この演算を全天球画像の全ての点(u,v)に適用することで、全天球画像の全ての画素と、各画素に対応する距離を有する直交座標系の三次元点群を生成することができる。

・Ｓ１０２
視差計算部４５は以下の処理を各三次元点で行う。

・Ｓ１０３
視差計算部４５が作成するものは左右の目にそれぞれ対応した正距円筒画像である。ステップＳ１０１で三次元空間を復元できたので、カメラ(視点)を任意の座標に配置して、そこで画像がどのように映るかを計算により求める。視差計算部４５は左右の目の画像を作るために、カメラを目の間隔 (例えば左右で５cmずつの計１０cm) だけずらした正距円筒画像を三次元点群から作る。

ここで、三次元点群の画像をレンダリングする際に、右目 (又は左目)の位置はある時点では１か所に定まるが、目の向いている向きによって目の位置も変わることに注意する。

図２２は、目の向いている向きと目の位置を説明する図である。まず、図２２（ａ）は、ｙ軸を中心にして目の向きがｘｚ平面を３６０度回転する様子を示す。例えば人間が原点にいると仮定した場合、人間の目の向きはｘｚ平面を３６０度回転することができる。図２２（ｂ）はｙ軸のマイナス方向からｘｚ平面を見た人間の上面図である。図２２（ｂ）では人間が４つの方向を向いている。図２２（ｂ）の４つの向きをＡ～Ｄとする。この場合、図２２（ｃ）に示すようにｘｚ軸を取ると、向きＡの右目の位置は原点からｘ軸のプラス方向に５ｃｍ、向きＢの右目の位置は原点からｚ軸のプラス方向に５ｃｍ、向きＣの右目の位置は原点からｘ軸のマイナス方向に５ｃｍ、向きＤの右目の位置は原点からｚ軸のマイナス方向に５ｃｍ、である。

したがって、３６０度の三次元点群をレンダリングする際は、視差計算部４５は、xz平面上（水平面）で左右の目の中心（所定点）に対し目の幅の円を描くように目の向きを３６０度一回りさせ、カメラ位置が元に戻るまで所定角度ずつ回転させた各位置（半径方向の各角度）でレンダリングすることになる。この各位置は正距円筒画像の横方向の画素数から計算できる。正距円筒画像の横幅をｗとすると、ｗで2πラジアンの回転量に対応させるために、目の方向の変化量は2π/ｗとする。

・Ｓ１０４
次に、目の向きに対して最も歪みが少なく距離画像を作れるのは目に対してまっすぐの方向に対してなので、図２２（ｄ）に示すように、視差計算部４５は目に対して垂直な直線６２の方向にある三次元点群を使ってレンダリングする。

・Ｓ１０５
図２３は、ある目の向きにおける正距円筒画像と三次元点群の関係を模式的に示す図である。右目の位置が交差点であり、目の向きを表す直線６２が示されている。この場合、垂直方向（点線６１上）のすべての画素がレンダリングの対象となる。点線６１は、ｘｚ平面の目の向きは同じまま（直線６２の向きのまま）、直線６２の仰角を変化させた場合の軌跡である。仰角は直線６２をｙ軸方向（垂直方向）に変化させた場合の角度である。したがって、視差計算部４５は点線６１上の画素を正距円筒画像にレンダリングする。しかし、点線上に画素があるとは限らないので、ｘｚ平面の目の向きは同じまま、ｙ軸方向に１８０度変化させた直線６２に対し最も近傍にある点を選択してレンダリングする。

・Ｓ１０６
これにより、三次元点が定まるので、視差計算部４５はその選んだ三次元点（ｘ、ｙ、ｚ）を、式（２）を使って水平角度θと垂直角度φに変換し、三次元点（ｘ、ｙ、ｚ）の画素値を正距円筒画像の点の画素値に設定する。

以上では、主に右目用の正距円筒画像を生成したので、同様に左目用の正距円筒画像も作成する。左目用の場合は回転が逆方向になる。以上の手順により、入力された正距円筒画像から左右の目の視差を考慮した２つの全天球画像を取得できる。

＜主な効果＞
本実施例によれば、実施例１の効果に加え、高密度、高精細な正距円筒画像を得られる。

本実施例では動画について補足する。本実施例においては、上記の実施例にて説明した図２、図３のハードウェア構成図、及び、図６又は図１７に示した機能ブロック図を援用できるものとして説明する。

図２４は、動画を三次元立体動画に変換する流れを説明する図である。図２４に示すように、
(1) 画像処理装置１０は動画を連続した画像とみなして連続した静止画に変換する。
(2) それぞれに対して画像処理装置１０は実施例１又は２の推定アルゴリズムを360度立体視向けの画像を生成する。
(3) それらの画像を動画として再結合する。

音声が動画に存在する場合は、画像分割時に音声は分割して推定アルゴリズムを施し、動画の再結合の時に元の動画の音声を付け足せば良い。フレーム数等は変わっていないため音声ずれは発生しない。

＜主な効果＞
本実施例によれば、実施例１、２の効果に加え、動画にも対応できる。

＜その他の適用例＞
以上、本発明を実施するための最良の形態について実施例を用いて説明したが、本発明はこうした実施例に何等限定されるものではなく、本発明の要旨を逸脱しない範囲内において種々の変形及び置換を加えることができる。

また、図６、図１７などの構成例は、画像処理装置１０による処理の理解を容易にするために、主な機能に応じて分割したものである。処理単位の分割の仕方や名称によって本願発明が制限されることはない。画像処理装置１０の処理は、処理内容に応じて更に多くの処理単位に分割することもできる。また、１つの処理単位が更に多くの処理を含むように分割することもできる。

上記で説明した実施形態の各機能は、一又は複数の処理回路によって実現することが可能である。ここで、本明細書における「処理回路」とは、電子回路により実装されるプロセッサのようにソフトウェアによって各機能を実行するようプログラミングされたプロセッサや、上記で説明した各機能を実行するよう設計されたASIC(Application Specific Integrated Circuit)、DSP（digital signal processor）、FPGA（field programmable gate array）や従来の回路モジュール等のデバイスを含むものとする。

９撮像装置
１０画像処理装置

特開2015－019344号広報

Claims

１つの全天球画像に対し推定アルゴリズムを施して、立体視用の全天球画像を生成する画像処理装置であって、
前記推定アルゴリズムはニューラルネットワークを使用した学習によって構築されており、
３Ｄモデリングソフトで作成されたモデリングデータを、水平に並べた３つの仮想的なカメラのうち中央のカメラで撮像した全天球画像を入力用の全天球画像とし、
３つの仮想的なカメラのうち右側カメラで撮像した全天球画像と、左側カメラで撮像した全天球画像のうち、前記右側カメラの背面に対応する部分が写った全天球画像の背面画像と前記左側カメラの背面に対応する部分が写った全天球画像の背面画像とをスワップして、教師データとなる右目用の全天球画像と左目用の全天球画像を生成する学習データ作成部を有することを特徴とする画像処理装置。
１つの全天球画像に対し推定アルゴリズムを施して、距離画像を生成し、前記距離画像と前記全天球画像から立体視用の全天球画像を生成する画像処理装置であって、
前記推定アルゴリズムはニューラルネットワークを使用した学習によって構築されており、
３Ｄモデリングソフトで作成されたモデリングデータを仮想的なカメラで撮像した全天球画像及び前記全天球画像の距離画像のうち、
前記全天球画像を入力、前記距離画像を教師データとして、前記全天球画像に対し前記距離画像を出力する前記推定アルゴリズムが構築されており、
前記推定アルゴリズムで推定された前記距離画像が有する画素の距離を用いて、前記全天球画像を直交座標系の三次元点群に変換し、
前記直交座標系の水平面で所定点の周囲を回転する直線であって、所定角度ずつ回転させた各位置で、前記直線の仰角を変化させた場合に前記直線の近傍の三次元点を、円筒画像に変換する視差計算部を有することを特徴とする画像処理装置。
動画の前記全天球画像を静止画に変換し、立体視用の全天球画像を生成した後、動画に合成することを特徴とする請求項１又は２に記載の画像処理装置。
１つの全天球画像に対し推定アルゴリズムを施して、立体視用の全天球画像を生成する画像処理方法であって、
前記推定アルゴリズムはニューラルネットワークを使用した学習によって構築されており、
３Ｄモデリングソフトで作成されたモデリングデータを、水平に並べた３つの仮想的なカメラのうち中央のカメラで撮像した全天球画像を入力用の全天球画像とし、
３つの仮想的なカメラのうち右側カメラで撮像した全天球画像と、左側カメラで撮像した全天球画像のうち、前記右側カメラの背面に対応する部分が写った全天球画像の背面画像と前記左側カメラの背面に対応する部分が写った全天球画像の背面画像とをスワップして、教師データとなる右目用の全天球画像と左目用の全天球画像を生成する画像処理方法。
１つの全天球画像に対し推定アルゴリズムを施して、距離画像を生成し、前記距離画像と前記全天球画像から立体視用の全天球画像を生成する画像処理方法であって、
前記推定アルゴリズムはニューラルネットワークを使用した学習によって構築されており、
３Ｄモデリングソフトで作成されたモデリングデータを仮想的なカメラで撮像した全天球画像及び前記全天球画像の距離画像のうち、
前記全天球画像を入力、前記距離画像を教師データとして、前記全天球画像に対し前記距離画像を出力する前記推定アルゴリズムが構築されており、
前記推定アルゴリズムで推定された前記距離画像が有する画素の距離を用いて、前記全天球画像を直交座標系の三次元点群に変換し、
前記直交座標系の水平面で所定点の周囲を回転する直線であって、所定角度ずつ回転させた各位置で、前記直線の仰角を変化させた場合に前記直線の近傍の三次元点を、円筒画像に変換することを特徴とする画像処理方法。
画像処理装置に、
１つの全天球画像に対し推定アルゴリズムを施して、立体視用の全天球画像を生成させるプログラムであって、
前記推定アルゴリズムはニューラルネットワークを使用した学習によって構築されており、
前記画像処理装置を、
３Ｄモデリングソフトで作成されたモデリングデータを、水平に並べた３つの仮想的なカメラのうち中央のカメラで撮像した全天球画像を入力用の全天球画像とし、
３つの仮想的なカメラのうち右側カメラで撮像した全天球画像と、左側カメラで撮像した全天球画像のうち、前記右側カメラの背面に対応する部分が写った全天球画像の背面画像と前記左側カメラの背面に対応する部分が写った全天球画像の背面画像とをスワップして、教師データとなる右目用の全天球画像と左目用の全天球画像を生成する学習データ作成部として機能させるためのプログラム。
画像処理装置に、
１つの全天球画像に対し推定アルゴリズムを施して、距離画像を生成し、前記距離画像と前記全天球画像から立体視用の全天球画像を生成させるプログラムであって、
前記推定アルゴリズムはニューラルネットワークを使用した学習によって構築されており、
３Ｄモデリングソフトで作成されたモデリングデータを仮想的なカメラで撮像した全天球画像及び前記全天球画像の距離画像のうち、
前記全天球画像を入力、前記距離画像を教師データとして、前記全天球画像に対し前記距離画像を出力する前記推定アルゴリズムが構築されており、
前記画像処理装置を、
前記推定アルゴリズムで推定された前記距離画像が有する画素の距離を用いて、前記全天球画像を直交座標系の三次元点群に変換し、
前記直交座標系の水平面で所定点の周囲を回転する直線であって、所定角度ずつ回転させた各位置で、前記直線の仰角を変化させた場合に前記直線の近傍の三次元点を、円筒画像に変換する視差計算部として機能させるためのプログラム。