JP7414332B2

JP7414332B2 - 深度マップイメージ生成方法およびそのためのコンピューティング装置

Info

Publication number: JP7414332B2
Application number: JP2022545059A
Authority: JP
Inventors: キム、ケン; ウクジョン、ジ; ルスタムウクリフダイベルガノブ、パルホド; イ、ミハイル
Original assignee: 3I Inc
Current assignee: 3I Inc
Priority date: 2021-06-23
Filing date: 2021-09-16
Publication date: 2024-01-16
Anticipated expiration: 2041-09-16
Also published as: EP4174773A1; JP2023534883A; US20220414909A1

Description

本発明は深度マップイメージ生成方法、そのための学習データ生成方法およびそのためのコンピューティング装置に関する。

最近では実際の空間に対応するオンライン上の仮想空間が提供されることによって、使用者が直接実際の空間に訪問せずとも実際の空間にいるような体験が可能な仮想空間具現技術が開発されている。

このような仮想空間を具現するためには、具現しようとする実際の空間を対象として撮影された平面イメージを獲得し、これに基づいて立体的な仮想イメージを生成して仮想空間を提供する過程が必要である。

このような従来技術の場合、平面イメージに基づいて仮想イメージを提供するが、従来の仮想空間では距離情報が分からないため実体感および立体的情報が欠如されている限界がある。

本出願の一技術的側面は前記した従来技術の問題点を解決するためのものであって、本出願に開示される一実施例によると、仮想空間に対して距離情報を提供することを目的とする。

本出願に開示される一実施例によると、一つのＲＧＢイメージとそれに対する距離マップイメージを利用して多様な学習データセットを生成することを目的とする。

本出願に開示される一実施例によると、ニューラルネットワークモデルを利用して学習に基づいてＲＢＧイメージから深度マップイメージを生成することを目的とする。

本出願の課題は以上で言及した課題に制限されず、言及されていないさらに他の課題は以下の記載から当業者に明確に理解され得る。

本出願の一技術的側面はコンピューティング装置を提案する。前記コンピューティング装置は、一つ以上のインストラクションを保存するメモリ；および前記メモリに保存された前記一つ以上のインストラクションを実行するプロセッサを含み、前記プロセッサは、前記一つ以上のインストラクションを実行することによって、前記プロセッサは、前記一つ以上のインストラクションを実行することによって、ニューラルネットワークを利用して学習ＲＧＢイメージに対する第１推定深度マップイメージを生成し、深度情報を有する学習深度マップイメージと前記第１推定深度マップイメージ間の差に基づいて前記ニューラルネットワークをトレーニングすることができる。ここで、前記学習ＲＧＢイメージと前記学習深度マップイメージは互いに１：１でマッチングされ、基礎球状イメージに対して同一の設定変更に基づいて生成され得る。

本出願の他の一技術的側面はコンピューティング装置を提案する。前記コンピューティング装置はＲＧＢイメージと深度マップイメージを利用して球状仮想イメージを生成するコンピューティング装置であって、一つ以上のインストラクションを保存するメモリ、および前記メモリに保存された前記一つ以上のインストラクションを実行するプロセッサを含み、前記プロセッサは、前記一つ以上のインストラクションを実行することによって、ニューラルネットワークを利用して質問ＲＧＢイメージに対する推定深度マップイメージを生成し、前記質問ＲＧＢイメージと前記推定深度マップイメージを利用して前記球状仮想イメージ－前記球状仮想イメージは仮想イメージに含まれた少なくとも一つの地点に対する距離情報を含み、前記距離情報は前記推定深度マップに基づいて決定される－を生成することができる。

本出願の他の一技術的側面は深度マップイメージ生成方法を提案する。前記深度マップイメージ生成方法は、コンピューティング装置で遂行される深度マップイメージ生成方法であって、ニューラルネットワークを利用して学習ＲＧＢイメージに対する推定深度マップを生成する動作および球状変換に基づいて生成された、学習深度マップ－前記学習深度マップは前記学習ＲＧＢイメージにマッチングされ深度情報を有する－および前記推定深度マップ間の差に基づいて前記ニューラルネットワークをトレーニングする動作を含むことができる。

本出願の他の一技術的側面は保存媒体を提案する。前記保存媒体は、コンピュータ読み取り可能なインストラクション（ｉｎｓｔｒｕｃｔｉｏｎｓ）を保存している保存媒体である。前記インストラクションは、コンピューティング装置によって実行される時、前記コンピューティング装置に、ニューラルネットワークを利用して学習ＲＧＢイメージに対する推定深度マップを生成する動作および球状変換に基づいて生成された、学習深度マップ－前記学習深度マップは前記学習ＲＧＢイメージにマッチングされ深度情報を有する－および前記推定深度マップ間の差に基づいて前記ニューラルネットワークをトレーニングする動作を遂行するようにすることができる。

本出願の一技術的側面はコンピューティング装置を提案する。前記コンピューティング装置は、一つ以上のインストラクションを保存するメモリおよび前記メモリに保存された前記一つ以上のインストラクションを実行するプロセッサを含み、前記プロセッサは、前記一つ以上のインストラクションを実行することによって、基礎ＲＧＢイメージおよびそれに対応する基礎深度マップイメージの提供を受け、前記基礎ＲＧＢイメージおよび前記基礎深度マップイメージに基づいて球状変換して生成された基礎球状仮想イメージの設定情報を変更して複数の学習ＲＧＢイメージおよび複数の学習深度マップイメージを生成することができる。前記複数の学習ＲＧＢイメージと複数の学習深度マップイメージはそれぞれ１：１でマッチングされ得る。

本出願の他の一技術的側面は深度マップイメージ生成方法を提案する。前記深度マップイメージ生成方法は、コンピューティング装置で遂行される深度マップイメージ生成方法であって、前記一つ以上のインストラクションを実行することによって、基礎ＲＧＢイメージおよびそれに対応する基礎深度マップイメージの提供を受ける動作、前記基礎ＲＧＢイメージおよび前記基礎深度マップイメージに基づいて球状変換して生成された基礎球状仮想イメージの設定情報を変更して複数の学習ＲＧＢイメージおよび複数の学習深度マップイメージを生成する動作を含むことができる。前記複数の学習ＲＧＢイメージと複数の学習深度マップイメージはそれぞれ１：１でマッチングされ得る。

本出願の他の一技術的側面は保存媒体を提案する。前記保存媒体は、コンピュータ読み取り可能なインストラクション（ｉｎｓｔｒｕｃｔｉｏｎｓ）を保存している保存媒体である。前記インストラクションは、コンピューティング装置によって実行される時、前記コンピューティング装置に、基礎ＲＧＢイメージおよびそれに対応する基礎深度マップイメージの提供を受ける動作、前記基礎ＲＧＢイメージおよび前記基礎深度マップイメージに基づいて球状変換して生成された基礎球状仮想イメージの設定情報を変更して複数の学習ＲＧＢイメージおよび複数の学習深度マップイメージを生成する動作を含むことができる。前記複数の学習ＲＧＢイメージと複数の学習深度マップイメージはそれぞれ１：１でマッチングされ得る。

前記した課題の解決手段は、本発明の特徴をすべて列挙したものではない。本発明の課題解決のための多様な手段は以下の詳細な説明の具体的な実施形態を参照してより詳細に理解され得る。

本出願によると、次のような効果が一つあるいはそれ以上ある。

本出願に開示される一実施例によると、仮想空間に対して距離情報を提供できる効果がある。

本出願に開示される一実施例によると、一つのＲＧＢイメージとそれに対する距離マップイメージを利用して多数の学習データセットを生成できる効果がある。

本出願に開示される一実施例によると、ニューラルネットワークモデルを利用して学習に基づいてＲＢＧイメージから深度マップイメージを生成することができ、これを利用して、ＲＧＢイメージだけでも深度情報を含む仮想空間を提供できる効果がある。

本出願に開示される一実施例によると、ニューラルネットワークの学習のために使われるロス（Ｌｏｓｓ）を算出するにおいて、多数の関数を組み合わせて使うことによって、ロス範囲を最小限に減少させ得る効果がある。

本出願の効果は以上で言及した効果に制限されず、言及されていないさらに他の効果は特許請求の範囲の記載から当業者に明確に理解され得る。

本出願に開示される一実施例に係る深度マップイメージを基盤として球状仮想イメージを提供するシステムを説明するための一つの例示図面である。本出願に開示される一実施例に係るコンピューティング装置を説明するブロック構成図である。本出願に開示される一実施例に係る学習データ生成アーキテクチャを説明する図面である。本出願に開示される一実施例に係る等長方形投影イメージと、それを利用して生成された球状仮想イメージを図示する図面である。本出願に開示される一実施例に係る学習データが生成される方法を説明する図面である。一例に係る基礎ＲＧＢおよび基礎深度マップに基づいて多量の学習データセットを生成する例を説明するための図面である。本出願に開示される一実施例に係るニューラルネットワークアーキテクチャの一例を説明する図面である。本出願に開示される一実施例に係るニューラルネットワークアーキテクチャの他の一例を説明する図面である。本出願に開示される一実施例に係るニューラルネットワークを利用したトレーニング方法を説明する図面である。本出願に開示される一実施例に係る等長方形投影イメージと、それを利用して生成された球状仮想イメージ間の差を例示する図面である。本出願に開示される一実施例に係るトレーニングモジュールによるトレーニング方法を説明する図面である。本出願に開示される一実施例に係るロス算出方法を説明する図面である。一例に係る学習ＲＧＢ、学習深度マップ、推定深度マップおよび推定深度マップと学習深度マップ間の差のイメージを図示する図面である。本出願に開示される一実施例に係る球状仮想イメージ生成アーキテクチャを説明する図面である。本出願に開示される一実施例に係る球状仮想イメージを使用者に提供する方法を説明する図面である。本出願に開示される一実施例に係る球状変換を説明するための図面である。

以下、添付された図面を参照して本出願の好ましい実施形態を説明する。

しかし、本出願の実施形態は多様な他の形態に変形され得、本出願の範囲は以下で説明する実施形態に限定されるものではない。また、本出願の実施形態は当該技術分野で平均的な知識を有する者に本出願をさらに完全に説明するために提供されるものである。

本出願の多様な実施例およびこれに使われた用語は本出願に記載された技術的特徴を特定の実施例に限定しようとするものではなく、該当実施例の多様な変更、均等物、または代替物を含む。図面の説明と関連して、類似するまたは関連した構成要素に対しては類似する参照符号が使われ得る。アイテムに対応する名詞の単数形は関連した文脈上明白に異なって指示しない限り、前記アイテムを一つまたは複数個を含むことができる。本出願で、「ＡまたはＢ」、「ＡおよびＢのうち少なくとも一つ」、「ＡまたはＢのうち少なくとも一つ」、「Ａ、ＢまたはＣ」、「Ａ、ＢおよびＣのうち少なくとも一つ」および「Ａ、Ｂ、またはＣのうち少なくとも一つ」のような文面それぞれは、その文面のうち該当する文面に共に羅列された項目のうちいずれか一つ、またはそれらのすべての可能な組み合わせを含むことができる。「第１」、「第２」、または「最初」または「二番目」のような用語は単純に該当構成要素を他の該当構成要素と区分するために使われ得、該当構成要素を他の側面（例えば、重要性または順序）に限定しない。或る（例えば、第１）構成要素が他の（例えば、第２）構成要素に、「機能的に」または「通信的に」という用語とともにまたはこのような用語なしに、「カップルド」、「コネクテッド」または「連結された」と言及された場合、それは前記或る構成要素が前記他の構成要素に直接的に、または第３構成要素を通じて連結され得るということを意味する。

本出願で使われた用語「モジュール」は少なくとも一つの機能や動作を処理する単位を意味し、これはソフトウェアで具現されたりハードウェアとソフトウェアの結合で具現され得る。

本出願の多様な実施例は機器（ｍａｃｈｉｎｅ）（例えば、使用者端末機１００やコンピューティング装置３００）により読み取り可能な保存媒体（ｓｔｏｒａｇｅｍｅｄｉｕｍ）に保存された一つ以上の命令語を含むソフトウェア（例えば、プログラム）で具現され得る。例えば、プロセッサ３０１は、保存媒体から保存された一つ以上の命令語のうち少なくとも一つの命令を呼び出し、それを実行することができる。これは装置が前記呼び出された少なくとも一つの命令語にしたがって少なくとも一つの機能を遂行するように運営されることを可能にする。前記一つ以上の命令語はコンパイラによって生成されたコードまたはインタープリタによって実行され得るコードを含むことができる。機器で読み取り可能な保存媒体は、非一過性（ｎｏｎ－ｔｒａｎｓｉｔｏｒｙ）保存媒体の形態で提供され得る。ここで、「非一過性」は保存媒体が実在（ｔａｎｇｉｂｌｅ）する装置であり、信号（ｓｉｇｎａｌ）（例えば、電磁波）を含まないということを意味するだけであり、この用語はデータが保存媒体に半永久的に保存される場合と臨時的に保存される場合を区分しない。

実施例によると、本出願に開示された多様な実施例に係る方法はコンピュータプログラム製品（ｃｏｍｐｕｔｅｒｐｒｏｇｒａｍｐｒｏｄｕｃｔ）に含まれて提供され得る。コンピュータプログラム製品は商品として販売者および購買者間に取り引きされ得る。コンピュータプログラム製品は機器で読み取り可能な保存媒体（例えば、ｃｏｍｐａｃｔｄｉｓｃｒｅａｄｏｎｌｙｍｅｍｏｒｙ（ＣＤＲＯＭ））の形態で配布されたり、またはアプリケーションストア（例えば、プレイストアＴＭ）を通じて、または二つの使用者装置（例えば、スマートフォン）間に直接、オンラインで配布（例えば、ダウンロードまたはアップロード）され得る。オンライン配布の場合に、コンピュータプログラム製品の少なくとも一部はメーカーのサーバー、アプリケーションストアのサーバー、または中継サーバーのメモリのような機器で読み取り可能な保存媒体に少なくとも一時保存されたり、臨時的に生成され得る。

多様な実施例によると、前記記述した構成要素のそれぞれの構成要素（例えば、モジュールまたはプログラム）は単数または複数の個体を含むことができる。多様な実施例によると、前述した該当構成要素のうち一つ以上の構成要素または動作が省略されたり、または一つ以上の他の構成要素または動作が追加され得る。大体または追加的に、複数の構成要素（例えば、モジュールまたはプログラム）は一つの構成要素として統合され得る。このような場合、統合された構成要素は前記複数の構成要素それぞれの構成要素の一つ以上の機能を、前記統合以前に前記複数の構成要素のうち該当構成要素によって遂行されるものと同一または類似するように遂行できる。多様な実施例によると、モジュール、プログラムまたは他の構成要素によって遂行される動作は順次的に、並列的に、繰り返し、またはヒューリスティックに実行されたり、前記動作のうち一つ以上が異なる順序で実行されたり、省略されたり、または一つ以上の他の動作が追加され得る。

本出願の実施形態を説明するために多様なフローチャートが開示されているが、これは各段階の説明の便宜のためのものであり、必ずしもフローチャートの順序により各段階が遂行されるものではない。すなわち、フローチャートでの各段階は、互いに同時に遂行されたり、フローチャートによる順で遂行されたり、またはフローチャートでの順序と反対の順序でも遂行され得る。

本出願では、全方位パノラマイメージを提供する一変換として、球状変換または球状仮想イメージを例に挙げて説明する。すなわち、このような球状変換または球状仮想イメージは例示的なものに過ぎず、本出願の実施例がこれに限定されるものではない。したがって、球状変換または球状仮想イメージの代わりにキューブ変換またはキューブ仮想イメージなどのように多様な変形実施が可能である。

図１は本出願に開示される一実施例に係る深度マップイメージを基盤として球状仮想イメージを提供するシステムを説明するための一つの例示図面である。

深度マップイメージを基盤として球状仮想イメージを提供するシステム１０は使用者端末機１００、イメージ獲得装置２００およびコンピューティング装置３００を含むことができる。

使用者端末機１００は使用者がコンピューティング装置３００に接近するために使用可能な電子機器であって、例えば、携帯電話、スマートフォン（ｓｍａｒｔｐｈｏｎｅ）、ノートパソコン（ｌａｐｔｏｐｃｏｍｐｕｔｅｒ）、デジタル放送用端末機、ＰＤＡ（ｐｅｒｓｏｎａｌｄｉｇｉｔａｌａｓｓｉｓｔａｎｔｓ）、ＰＭＰ（ｐｏｒｔａｂｌｅｍｕｌｔｉｍｅｄｉａｐｌａｙｅｒ）、ナビゲーション、パーソナルコンピュータ（ＰＣ）、タブレットＰＣ（ｔａｂｌｅｔＰＣ）、ウルトラブック（ｕｌｔｒａｂｏｏｋ）、ウェアラブルデバイス（ｗｅａｒａｂｌｅｄｅｖｉｃｅ、例えば、ウォッチ型端末機（ｓｍａｒｔｗａｔｃｈ）、グラス型端末機（ｓｍａｒｔｇｌａｓｓ）、ＨＭＤ（ｈｅａｄｍｏｕｎｔｅｄｄｉｓｐｌａｙ））等を包括する。しかし、その他にも使用者端末機１００はＶＲ（ＶｉｒｔｕａｌＲｅａｌｉｔｙ）、ＡＲ（ＡｕｇｍｅｎｔｅｄＲｅａｌｉｔｙ）に使われる電子機器を含むことができる。

イメージ獲得装置２００は球状仮想イメージの生成に使われる、色相イメージおよび／または深度マップイメージを生成する装置である。

図示された例で、イメージ獲得装置２００は距離測定装置２１０および撮像装置２２０に区分されて図示されているが、これは例示的なものであり、一つのイメージ獲得装置２００－例えば、ＬｉＤＡＲセンサを具備したスマートフォンなど－を利用して距離測定および撮像を遂行してもよい。

撮像装置２２０は撮影機能を有した携帯用電子機器であり、被写領域－すなわち、ＲＧＢイメージで撮影された撮影領域－に対して色で表現されるＲＧＢイメージを生成する。

すなわち、本出願明細書で、ＲＧＢイメージは色で表現される色相イメージをすべて包括する代表名称に過ぎず、特定の表現方式に制限するものではない。したがって、ＲＧＢ（ＲｅｄＧｒｅｅｎＢｕｌｅ）で表現される色相イメージだけでなく、ＣＭＹＫ（ＣｙａｎＭａｇｅｎｔａＹｅｌｌｏｗＫｅｙ）で表現される色相イメージも、本出願明細書のＲＧＢイメージに該当する。

撮像装置２２０は、例えば、携帯電話、スマートフォン（ｓｍａｒｔｐｈｏｎｅ）、ノートパソコン（ｌａｐｔｏｐｃｏｍｐｕｔｅｒ）、ＰＤＡ（ｐｅｒｓｏｎａｌｄｉｇｉｔａｌａｓｓｉｓｔａｎｔｓ）、タブレットＰＣ（ｔａｂｌｅｔＰＣ）、ウルトラブック（ｕｌｔｒａｂｏｏｋ）、ウェアラブル撮影デバイス（ｗｅａｒａｂｌｅｄｅｖｉｃｅ、例えば、グラス型端末機（ｓｍａｒｔｇｌａｓｓ））等を包括する。

距離測定装置２１０は撮影領域、すなわち、被写領域に対して深度情報を生成して深度マップイメージを生成できる装置である。

本出願明細書で、深度マップイメージは被写領域に対して深度情報を含むイメージを包括する。すなわち、深度マップイメージは、撮影された被写領域の各地点に対して、撮像地点から各地点までの距離情報で表現されるイメージを意味する。例えば、深度マップイメージの各ピクセルは撮像地点から測定された距離情報であり得る。このような深度マップイメージで距離情報は色相で表現され得、図１３の図（ｃ）はこのような深度マップイメージの一例を図示している。

距離測定装置２１０は、距離測定のための所定のセンサ、例えば、ライダセンサ、赤外線センサ、超音波センサなどを含むことができる。または距離測定撮像装置２２０はセンサの代わりに距離情報を測定できるステレオカメラ（ｓｔｅｒｅｏｃａｍｅｒａ）、ステレオスコピックカメラ（ｓｔｅｒｅｏｓｃｏｐｉｃｃａｍｅｒａ）、３Ｄ深度カメラ（３Ｄ、ｄｅｐｔｈｃａｍｅｒａ）等を含むことができる。

撮像装置２２０によって生成されたイメージは基礎ＲＧＢイメージといい、距離測定装置２１０によって生成されたイメージは基礎深度マップイメージという。撮像装置２２０によって生成された基礎ＲＧＢイメージと距離測定装置２１０によって生成された基礎深度マップイメージは、同一の被写領域に対して同一の条件（例えば、解像度など）を対象に生成されるので、互いに１：１でマッチングされる。

コンピューティング装置３００は、基礎ＲＧＢイメージと基礎深度マップイメージの伝達を受けて学習を進めることができる。ここで基礎ＲＧＢイメージと基礎深度マップイメージを伝達は、ネットワークを通じて伝達され得る。

コンピューティング装置３００は進行された学習に基づいて球状仮想イメージを生成することができる。また、コンピューティング装置３００は、生成された球状仮想イメージを使用者端末１００に提供することになる。ここで、球状仮想イメージの提供は多様な形態でなされ得るが、一例として使用者端末１００で駆動されるように球状仮想イメージを提供したり、または他の例として、コンピューティング装置３００で具現された球状仮想イメージに対する使用者のインターフェースを提供することを含む。

コンピューティング装置３００から使用者端末１００への球状仮想イメージの提供もネットワークを通じて提供され得る。

コンピューティング装置３００は基礎ＲＧＢイメージと基礎深度マップイメージを変換し、多数の学習ＲＧＢイメージと学習深度マップイメージを生成することができる。これは、球状仮想イメージを使う特徴的な環境を利用したもので、基礎ＲＧＢイメージと基礎深度マップイメージを球状化した後に若干の調整を通じて多数の学習ＲＧＢイメージと学習深度マップイメージを生成することができる。

以下、図２～図１５を参照して、球状仮想イメージを提供するシステム１０を構成する構成要素の多様な実施例について説明する。

図２は、本出願に開示される一実施例に係るコンピューティング装置を説明するブロック構成図である。

コンピューティング装置３００はプロセッサ３０１、メモリ３０２および通信部３０３を含むことができる。

プロセッサ３０１はコンピューティング装置３００の全般的な動作を制御する。例えば、プロセッサ３０１は、メモリ３０２に保存された一つ以上のインストラクションを実行することによって、本開示書に記載されたコンピューティング装置３００の機能を遂行することができる。

プロセッサ３０１は撮像装置２２０から伝達された基礎ＲＧＢイメージおよび距離測定装置２１０から入力された基礎深度マップイメージを基盤として、球状仮想イメージを生成することができる。

プロセッサ３０１は、基礎ＲＧＢイメージおよび基礎深度マップイメージに基づいて多様な学習データを生成する学習データ生成モジュール３１０、学習データに基づいて学習を進めるニューラルネットワークモジュール３２０、推定深度マップと学習深度マップを比較してニューラルネットワークモジュール３２０をトレーニングするトレーニングモジュール３３０および球状仮想イメージを生成して被写領域の距離情報などを使用者端末機に提供する仮想イメージ提供モジュール３４０を含むことができる。

学習データ生成モジュール３１０は基礎ＲＧＢイメージおよび基礎深度マップイメージを球状変換し、これを調整して複数の学習データ、すなわち、学習ＲＧＢイメージおよび学習深度マップイメージを生成することができる。

例えば、学習データ生成モジュール３１０は、撮像装置２２０から伝達された基礎ＲＧＢイメージおよび距離測定装置２１０から伝達された基礎深度マップイメージを球状変換することができる。このように変換されたイメージは球状イメージの種々の軸に基づいて回転角度を変更しながら多様な学習データを獲得することができる。この時、学習ＲＧＢイメージは、学習のためにニューラルネットワークモジュール３２０に提供されるＲＧＢイメージを指称し、学習深度マップイメージは、学習のためにニューラルネットワークモジュール３２０に提供される深度マップイメージを指称する。したがって、学習ＲＧＢイメージは基礎ＲＧＢイメージから生成されたイメージ、学習深度マップイメージは基礎深度マップイメージから生成されたイメージである。

ニューラルネットワークモジュール３２０は、学習のための学習ＲＧＢイメージとそれに対する学習深度マップ（Ｄｅｐｔｈｍａｐ）イメージに基づいて学習する。例えば、学習深度マップイメージは学習ＲＧＢイメージと１：１で関連される。学習深度マップイメージは学習ＲＧＢイメージが生成された被写領域に対して、Ｌｉｄａｒセンサなどを利用して距離を実測－ステレオカメラを利用した距離推定方式などを含む－して生成されるため、実測深度（ＧｒｏｕｎｄＴｒｕｔｈＤｅｐｔｈ）マップである。ニューラルネットワークモジュール３２０は学習ＲＧＢイメージおよび学習深度マップイメージに基づいて学習した後、学習された内容に基づいて入力されたＲＧＢイメージに対する推定深度マップイメージを生成することができる。

トレーニングモジュール３３０はニューラルネットワークモジュール３２０で生成した推定深度マップの正確度に基づいて、ニューラルネットワークモジュール３２０をトレーニングすることができる。

例えば、トレーニングモジュール３３０は学習ＲＧＢイメージに対してニューラルネットワークモジュール３２０が生成した推定深度マップと、学習深度マップ－これは実測深度マップである－を比較し、推定深度マップと学習深度マップのその差が少なくなるようにニューラルネットワークモジュール３２０を継続的にトレーニングすることができる。

ニューラルネットワークモジュール３２０は質問ＲＧＢイメージの入力を受け、推定深度マップを生成する。仮想イメージ提供モジュール３４０は質問ＲＧＢイメージと推定深度マップに基づいて球状仮想イメージを生成することができる。球状仮想イメージはコンピューティング装置３００から使用者端末１００に提供されるイメージ、例えば、使用者端末１００で具現され得る仮想空間であり得る。

メモリ３０２はプロセッサ３０１の処理および制御のためのプログラムを保存でき、コンピューティング装置３００に入力されたりコンピューティング装置３００から出力されるデータを保存することができる。一例として、メモリ３０２はフラッシュメモリタイプ（ｆｌａｓｈｍｅｍｏｒｙｔｙｐｅ）、ハードディスクタイプ（ｈａｒｄｄｉｓｋｔｙｐｅ）、マルチメディアカードマイクロタイプ（ｍｕｌｔｉｍｅｄｉａｃａｒｄｍｉｃｒｏｔｙｐｅ）、カードタイプのメモリ（例えばＳＤまたはＸＤメモリなど）、ラム（ＲＡＭ、ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）ＳＲＡＭ（ＳｔａｔｉｃＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）、ロム（ＲＯＭ、Ｒｅａｄ－ＯｎｌｙＭｅｍｏｒｙ）、ＥＥＰＲＯＭ（ＥｌｅｃｔｒｉｃａｌｌｙＥｒａｓａｂｌｅＰｒｏｇｒａｍｍａｂｌｅＲｅａｄ－ＯｎｌｙＭｅｍｏｒｙ）、ＰＲＯＭ（ＰｒｏｇｒａｍｍａｂｌｅＲｅａｄ－ＯｎｌｙＭｅｍｏｒｙ）、磁気メモリ、磁気ディスク、光ディスクのうち少なくとも一つのタイプの保存媒体を含むことができる。

通信部３０３はコンピューティング装置３００と他の電子装置、例えば、使用者端末１００またはイメージ獲得装置２００間、またはコンピューティング装置３００と他の電子装置が位置したネットワークの間の通信を可能にする一つ以上のモジュールを含むことができる。

図３は、本出願に開示される一実施例に係る学習データ生成アーキテクチャを説明する図面である。

図３に図示された基礎ＲＧＢイメージは撮像装置２２０から伝達され、基礎深度マップイメージは距離測定装置２１０から伝達される。
ここでの基礎ＲＧＢイメージおよび基礎深度マップイメージは、全方位仮想現実に使われる等長方形投影（ＥｑｕｉｒｅｃｔａｎｇｕｌａｒＰｒｏｊｅｃｔｉｏｎ）イメージであり得る。以下で説明する多様な種類のＲＧＢイメージおよび深度マップイメージは、全方位仮想空間を生成するために使われる等長方形投影（ＥｑｕｉｒｅｃｔａｎｇｕｌａｒＰｒｏｊｅｃｔｉｏｎ）イメージであり得る。

図４は、本出願に開示される一実施例に係る等長方形投影イメージと、それを利用して生成された球状仮想イメージを図示する図面である。

図（ａ）に図示された例の通り、等長方形投影イメージは、コンピューティング装置３００によって球の形態の視点を提供する球状の全方位仮想イメージ（以下、「球状仮想イメージ」と称する）に変換可能である。

図（ｂ）は、図（ａ）の等長方形投影イメージを球状仮想イメージとして変換した例を図示している。図（ｂ）に図示された球状仮想イメージは、ＲＧＢ等長方形投影イメージに基づいて生成した球状仮想イメージであって、各ピクセルの距離値を均等に設定した例に関するものである。一方、図（ｂ）は球状仮想イメージの外部で球状仮想イメージを図示しているが、説明の便宜のためのものである。したがって、球状仮想イメージは、図示された球状仮想イメージの内部で、左右３６０度上下３６０度の全方位に対して仮想のイメージを提供することもできる。

以下では、等長方形投影イメージの一実施例としてパノラマイメージ（例えば、２：１パノラマイメージなど）を説明する。パノラマイメージは一度の撮影によって空間の全方位イメージを導出することができ、球状変換で容易に変換が可能な利点がある。

ただし、イメージ獲得装置２００から伝達されたイメージがパノラマイメージからなるのは本出願を実施するための一つの例示であるので、イメージ獲得装置２００から伝達されるイメージは使用者の利用および便宜により撮影された一般的なイメージ（ら）であり得る。そして、コンピューティング装置３００はこのような一般的なイメージを等長方形投影イメージに変換することができる。

学習データ生成モジュール３１０は基礎ＲＧＢイメージおよび基礎深度マップイメージの入力を受け、これらを球状変換して基礎球状仮想イメージを生成することができる。

基礎深度マップイメージは、被写領域に対する距離情報を含むパノラマ深度マップイメージであり得る。基礎深度マップイメージは同一の被写領域を有する基礎ＲＧＢイメージと１：１でマッチングされる。

学習データ生成モジュール３１０は、基礎球状仮想イメージを多様に変形して複数の学習データ、すなわち、学習ＲＧＢイメージおよび学習深度マップイメージを生成することができる。学習データ生成モジュール３１０は生成された学習ＲＧＢイメージはニューラルネットワークモジュール３２０に提供し、学習深度マップイメージはトレーニングモジュール３３０に提供することができる。

すなわち、学習データ生成モジュール３１０は基礎ＲＧＢイメージおよび基礎深度マップイメージを利用して基礎球状仮想イメージを生成し、基礎球状仮想イメージの設定情報を変更して多数の学習球状イメージを生成した後、これに基づいて多様な学習データセットを生成することができる。

このような学習データ生成モジュール３１０の一実施例について、図５～図６をさらに参照して説明する。

図５は本出願に開示される一実施例に係る学習データ生成方法を説明する図面であり、図６は図５での学習データ生成方法を説明するための参照図である。

図５を参照すると、学習データ生成モジュール３１０は基礎ＲＧＢイメージおよび基礎深度マップイメージを利用して基礎球状仮想イメージを生成することができる（Ｓ５０１）。

例えば、学習データ生成モジュール３１０は基礎ＲＧＢイメージおよび基礎深度マップイメージに基づいて球状変換して基礎球状仮想イメージを生成することができる。

これは図６の段階（ａ）に例示されている。すなわち、基礎球状仮想イメージは一つの基礎ＲＧＢイメージおよび基礎深度マップイメージで獲得された一つの基礎球状仮想イメージであり得る。

基礎球状仮想イメージを生成する一実施例で、学習データ生成モジュール３１０は、基礎ＲＧＢイメージで基礎球状仮想イメージを生成し、基礎球状仮想イメージの各ピクセルに対応する深さ情報を基礎深度マップイメージに基づいて関連させて、基礎球状仮想イメージを生成することができる。

例えば、学習データ生成モジュール３１０は、基礎ＲＧＢイメージを球状変換して各ピクセルの距離が同等な距離で表現される前記基礎球状仮想イメージを生成することができる。学習データ生成モジュール３１０は、基礎深度マップイメージを利用して基礎ＲＧＢイメージの各ピクセルに対応する距離情報を、基礎球状仮想イメージと関連させて保存することができる。例えば、ＲＧＢイメージの各ピクセルに対応する距離情報は各ピクセルに対する識別情報およびそれに対する距離情報を含むテーブルで保存され得る。

このような一実施例で、基礎球状仮想イメージに対する設定情報の変更が発生すると、学習データ生成モジュール３１０は、そのような変更に対応して距離情報の保存を変更することができる。例えば、基礎球状仮想イメージに対して特定回転軸を基準として特定方向に特定角度で回転が発生する場合、そのような回転によって変更されるピクセルの位置変更を反映してテーブルから距離情報を獲得することができる。

基礎球状仮想イメージを生成する他の一実施例で、学習データ生成モジュール３１０は、基礎ＲＧＢイメージと基礎深度マップイメージに対してそれぞれ球状仮想イメージを生成することができる。

例えば、学習データ生成モジュール３１０は、基礎ＲＧＢイメージを球状変換して各ピクセルの距離が同等な距離で表現される第１基礎球状仮想イメージを生成し、基礎深度マップイメージを球状変換して各ピクセルが距離情報で表現される第２基礎球状仮想イメージを生成することができる。

このような実施例で、学習データ生成モジュール３１０は、第１基礎球状仮想イメージおよび第２基礎球状仮想イメージ一対に対して同一に設定情報を変更し－設定情報が変換された一対の第１および第２基礎球状仮想イメージは学習球状仮想イメージに対応する－、それに対する平面変換を遂行して一対の学習ＲＧＢイメージおよび学習深度マップイメージを生成することができる。

基礎球状仮想イメージを生成するさらに他の一実施例で、学習データ生成モジュール３１０は、一つのピクセルに色相情報および距離情報をすべて反映して３次元の立体的な基礎深度マップイメージを生成することができる。すなわち、前述した実施例は、図６に図示された例の通り、各ピクセルの距離が一定に設定されているので、基礎球状仮想イメージの形態が丸い球状で表示されるが、本実施例では各ピクセルが距離情報により表示されるので、丸い球状ではない、３次元空間で立体的な形状で表示される。

例えば、学習データ生成モジュール３１０は、基礎ＲＧＢイメージから各ピクセルでの色相情報を獲得して前記基礎深度マップイメージから各ピクセルでの距離情報を獲得し、各ピクセルに対する色相情報および距離情報を設定することができる。学習データ生成モジュール３１０は、設定された各ピクセルに対する色相情報および距離情報を３次元座標で表現して基礎球状仮想イメージを生成することができる。このような基礎球状仮想イメージは円形の形態ではなく３次元空間上に表示された立体的な形状で表現される。

学習データ生成モジュール３１０は、基礎球状仮想イメージの設定情報を変更して多数の学習球状イメージを生成することができる（Ｓ５０２）。例えば、設定情報は球状イメージの回転軸、回転方向または回転角度などを含むことができる。

例えば、学習データ生成モジュール３１０は、基礎球状仮想イメージに対して前記回転軸、回転方向または回転角度のうち少なくとも一つを変更して基礎球状仮想イメージから複数の学習球状イメージを生成することができる。

図６の段階（ｂ）は、基礎球状仮想イメージの設定情報を変更して複数の学習球状イメージを生成する例を図示している。

学習データ生成モジュール３１０は、多数の学習球状イメージを再び平面変換して多数の学習データセット－学習データセットは学習ＲＧＢイメージと、それに１：１マッチングされる学習深度マップイメージ一対を意味する－を生成することができる（Ｓ５０３）。ここで、平面変換は球状変換の逆変換であって、一つの学習球状イメージを平面変換することによって学習ＲＧＢイメージおよび学習深度マップイメージセットを生成することができる。

このように、基礎球状仮想イメージ設定情報を変更して多数の学習球状イメージを生成するのは、一つの基礎球状イメージで多い量の学習データを生成できる効果を提供する。すなわち、ニューラルネットワークモジュール３２０の正確な演算能力は多くの学習データに基づいてなされるが、実際的には多数の学習データを確保することは難しいことである。しかし、本出願の一実施例では、基礎球状仮想イメージに基づいて多様な変形を適用して多数の学習球状イメージを生成することができ、また、逆変換して多量の学習データセットを容易に確保することができる効果がある。

このように生成された多数の学習ＲＧＢイメージおよび学習深度マップイメージはニューラルネットワークモジュール３２０に提供されて学習情報として使われ得る。

図７は、本出願に開示される一実施例に係るニューラルネットワークアーキテクチャの一例を説明する図面であり、図８は本出願に開示される一実施例に係るニューラルネットワークアーキテクチャの他の一例を説明する図面である。

説明の容易性のために、図７および図８に図示されたニューラルネットワークモジュール３２０は、図２で説明したコンピューティング装置３００を利用して具現されるものとして説明される。すなわち、コンピューティング装置３００のメモリ３０２とプロセッサ３０１によって遂行される少なくとも一つのインストラクションの実行によって具現され得る。しかし、その他にもニューラルネットワークモジュール３２０は他の何らかの適切な装置（ら）および他の何らかの適切なシステム（ら）でも利用され得る。また、ニューラルネットワークモジュール３２０はイメージ処理関連タスクを遂行するのに利用されるものとして説明される。しかし、ニューラルネットワークモジュール３２０は非－イメージ処理タスクを含めて他の何らかの適切なタスクを共に遂行するのに利用され得る。

ニューラルネットワークモジュール３２０は学習のための学習ＲＧＢイメージと、それに対する深度マップ（Ｄｅｐｔｈｍａｐ）イメージに基づいて学習する。

ニューラルネットワークモジュール３２０はディープラーニング基盤のイメージ転換学習モデルであって、入力された学習ＲＧＢイメージに対して学習ニューラルネットワークを通じての変換に基づいて、推定深度マップイメージを生成することができる。

ニューラルネットワークモジュール３２０はノードとエッジを利用して数学的モデルで表現され得る。ニューラルネットワークモジュール３２０はディープニューラルネットワーク（ＤｅｅｐＮｅｕｒａｌＮｅｔｗｏｒｋ、ＤＮＮ）またはｎ－階層ニューラルネットワーク（ｎ－ｌａｙｅｒｓｎｅｕｒａｌｎｅｔｗｏｒｋｓ）のアーキテクチャであり得る。ＤＮＮまたはｎ－階層ニューラルネットワークはコンボリューションニューラルネットワーク（ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋｓ、ＣＮＮ）、ＨＲＮｅｔ（ＤｅｅｐＨｉｇｈ－ＲｅｓｏｌｕｔｉｏｎＮｅｔｗｏｒｋ）を基盤とするコンボリューションニューラルネットワーク（ＣＮＮ）、リカレントニューラルネットワーク（ＲｅｃｕｒｒｅｎｔＮｅｕｒａｌＮｅｔｗｏｒｋｓ、ＲＮＮ）、ＤｅｅｐＢｅｌｉｅｆＮｅｔｗｏｒｋｓ、ＲｅｓｔｒｉｃｔｅｄＢｏｌｔｚｍａｎＭａｃｈｉｎｅｓなどに該当し得る。

一例として、ニューラルネットワークモジュール３２０は、図７に図示された例の通り、学習ＲＧＢイメージの入力を受け、それに対する推定深度マップイメージを生成することができる。このような例において、最初の動作でニューラルネットワークモジュール３２０は学習された内容がないため、ニューラルネットワークの各ノードでランダムな値に基づいて推定深度マップイメージを生成することができる。ニューラルネットワークモジュール３２０は、生成された推定深度マップイメージに対するフィードバックトレーニングを繰り返し遂行して推定深度マップの正確度を向上させることができる。

他の例として、ニューラルネットワークモジュール３２０は、図８に図示された通り、学習ＲＧＢイメージとそれにマッチングされる学習深度マップセットの入力を受け、それに対する学習に基づいてＲＧＢイメージと深度マップイメージ間の関連性を学習し、そのような関連性に基づいて入力された学習ＲＧＢに対する推定深度マップイメージを生成することができる。このような例でも、推定深度マップイメージに対するフィードバックトレーニングを繰り返し遂行して推定深度マップの正確度を向上させることができる。

図９は本出願に開示される一実施例に係るニューラルネットワークを利用したトレーニング方法を説明する図面であり、以下で、図９をさらに参照して説明する。

ニューラルネットワークモジュール３２０は学習ＲＧＢイメージの入力を受け、学習された内容に基づいてこれに対する推定深度（ＰｒｅｄｉｃｔｅｄＤｅｐｔｈ）マップイメージを生成する（Ｓ９０１）。

学習ＲＧＢイメージは、学習のためにニューラルネットワークモジュール３２０に提供されたＲＧＢイメージを指称する。学習深度マップイメージは、学習のためにニューラルネットワークモジュール３２０またはトレーニングモジュール３３０に提供された深度マップイメージを指称する。学習深度マップイメージは学習ＲＧＢイメージと１：１で関連される。学習深度マップイメージは学習ＲＧＢイメージが生成された被写領域に対して、Ｌｉｄａｒセンサなどを利用して距離を実測して生成されるので、実測深度（ＧｒｏｕｎｄＴｒｕｔｈＤｅｐｔｈ）マップである。

その後、後述するトレーニング過程を通じてニューラルネットワークモジュール３２０が学習を遂行する（Ｓ９０２）。ニューラルネットワークモジュール３２０は前述した通り、学習データ生成モジュール３１０によって生成された多数の学習ＲＧＢイメージおよび学習深度マップを対象に学習を遂行できるので、その正確度を容易に高めることができる。

推定深度マップイメージは、学習されたニューラルネットワークモジュール３２０が生成した深度マップである。このような推定深度マップイメージは、Ｌｉｄａｒセンサなどを利用して距離を実測して生成された実測（ＧｒｏｕｎｄＴｒｕｔｈ）深度マップである学習深度マップイメージと差がある。したがって、このような推定深度マップイメージと学習深度マップ（実測深度マップ）イメージ間の差が小さくなるようにニューラルネットワークモジュール３２０が学習され得、このようなニューラルネットワークモジュール３２０に対する学習はトレーニングモジュール３３０によって遂行される。

トレーニングモジュール３３０はニューラルネットワークモジュール３２０で生成した推定深度マップと、学習深度マップを比較してその差に基づいてニューラルネットワークモジュール３２０をトレーニングすることができる。

一実施例で、トレーニングモジュール３３０は球状変換に基づいてトレーニングを遂行できる。例えば、トレーニングモジュール３３０は推定深度マップと学習深度マップをそれぞれ球状変換した後に、球状変換された推定深度マップと球状変換された学習深度マップ間の差に基づいてニューラルネットワークモジュール３２０をトレーニングさせることができる。

このような実施例で、学習ＲＧＢイメージ、推定深度マップイメージおよび学習深度マップイメージはいずれも等長方形投影イメージであり得る。すなわち、このような等長方形投影イメージは球状変換された状態で使われるので、推定深度マップイメージと学習深度マップイメージ間の使用状態での差異点をより正確に判断するために、トレーニングモジュール３３０は推定深度マップと学習深度マップをそれぞれ球状変換した後にこれらを比較してトレーニングを遂行する。これについて、図１０をさらに参照して説明する。

図１０は本出願に開示される一実施例に係る等長方形投影イメージと、それを利用して生成された球状仮想イメージ間の差を例示する図面である。

面積Ａ（１０１０）と面積Ｂ（１０２０）は球状仮想イメージで同一の面積および形態を有するが、これを等長方形投影イメージに変換する場合、面積Ａ′（１０１１）と面積Ｂ′（１０２１）は互いに異なる面積および形態を有することになる。これは、球状仮想イメージと、平面等長方形投影イメージ（パノラマイメージ）間の変換によったものである。

したがって、トレーニングモジュール３３０は推定深度マップと学習深度マップをそれぞれ球状変換した後にトレーニングを遂行することによってトレーニングの正確度を上昇させ、それにより推定深度マップイメージの正確度を増加させることができる。

図１１は本出願に開示される一実施例に係るトレーニングモジュールによるトレーニング方法を説明する図面であり、以下図８および図１１を参照して説明する。

図８に図示された通り、トレーニングモジュール３３０は球状変換モジュール３３１、ロス算出モジュール３３２およびオプティマイジングモジュール３３３を含むことができる。

図１１をさらに参照すると、球状変換モジュール３３１は等長方形投影イメージを球状変換されたものに対応するように球状変換を遂行する。球状変換モジュール３３１は推定深度マップイメージと学習深度マップイメージの入力を受け、これらをそれぞれ球状変換することができる（Ｓ１１０１）。

図８で、球状変換モジュール３３１によって球状変換された学習深度マップイメージを「学習深度マップ^＊」で、球状変換された推定深度マップイメージを「推定深度マップ^＊」で表示している。

一実施例で、球状変換モジュール３３１は以下の数学式１を利用して、球状変換を遂行できる。

［数学式１］

数学式１に対する詳細な説明は、図１６に図示された説明を参照して容易に理解することができる。

ロス算出モジュール３３２は球状変換された推定深度マップ（推定深度マップ^＊）と球状変換された学習深度マップ（学習深度マップ^＊）間のロスを算出することができる（Ｓ１１０２）。

すなわち、ロス算出モジュール３３２は球状変換された推定深度マップと球状変換された学習深度マップ間の差を数値化（ロス値）することができる。一例として、ロス算出モジュール３３２によって決定されたロス値は０～１の間の範囲で決定され得る。

オプティマイジングモジュール３３３はロス算出モジュール３３２から計算されたロスの提供を受け、該当ロスに対応してニューラルネットワークの媒介変数を変更してオプティマイジングを遂行できる（Ｓ１１０３）。

一例として、オプティマイジングモジュール３３３はニューラルネットワークの加重値媒介変数Ｗを調節してオプティマイジングを遂行できる。他の例として、オプティマイジングモジュール３３３はニューラルネットワークの加重値媒介変数Ｗおよび偏向ｂのうち少なくとも一つを調節してオプティマイジングを遂行できる。

多様な方式のオプティマイジング方法がオプティマイジングモジュール３３３に適用可能である。例えば、オプティマイジングモジュール３３３は、配置勾配降下法（ＢａｔｃｈＧｒａｄｉｅｎｔＤｅｓｃｅｎｔ）、確率的勾配降下法（ＳｔｏｃｈａｓｔｉｃＧｒａｄｉｅｎｔＤｅｓｃｅｎｔ）、ミニバッチ勾配降下法（Ｍｉｎｉ－ＢａｔｃｈＧｒａｄｉｅｎｔＤｅｓｃｅｎｔ）、モメンタム（Ｍｏｍｅｎｔｕｍ）、エイダグラッド（Ａｄａｇｒａｄ）、アールエムエスプロップ（ＲＭＳｐｒｏｐ）等を使ってオプティマイジングを遂行できる。

図１２は、本出願に開示される一実施例に係るロス算出方法を説明する図面である。

図１２に図示された一実施例で、ロス算出モジュール３３２は複数のロス算出方法を適用し、その結果値から代表値を算出してロスを決定することができる。

図１２を参照すると、ロス算出モジュール３３２は第１ロス計算方式で、球状変換された推定深度マップと球状変換された学習深度マップ間の第１ロス関数結果を計算することができる（Ｓ１２０１）。

以下の数学式２は、第１ロス計算式の一例を説明する数学式である。

［数学式２］

ここで、Ｔはサンプルの数、ｙは学習深度マップ、ｙ^＊は推定深度マップを意味する。

ロス算出モジュール３３２は、第２ロス計算方式で球状変換された推定深度マップと球状変換された学習深度マップ間の第２ロス関数結果を計算することができる（Ｓ１２０２）。

以下の数学式３は、第２ロス計算式の一例を説明する数学式である。

［数学式３］

ここで、Ｔはサンプルの数、ｄはログ空間での学習深度マップと推定深度マップ間の差である。

ロス算出モジュール３３２は、第３ロス計算方式で球状変換された推定深度マップと球状変換された学習深度マップ間の第３ロス関数結果を計算することができる（Ｓ１２０３）。

以下の数学式４は、第３ロス計算式の一例を説明する数学式である。

［数学式４］

ここで、ｙｔｒｕｅは学習深度マップを、ｙｐｒｅｄｉｃｔｅｄは推定深度マップを意味する。

ロス算出モジュール３３２は、第１ロス関数結果乃至第３ロス関数結果に対する代表値を算出してロスとして決定することができる（Ｓ１２０４）。ここで、代表値として平均、中央値、最頻値などが適用可能である。

図１３は、一例に係る学習ＲＧＢイメージ、学習深度マップイメージ、推定深度マップイメージおよび推定深度マップイメージと学習深度マップイメージ間の差のイメージを図示する図面である。

図（ａ）は、ニューラルネットワークモジュール３２０に入力される学習ＲＧＢイメージの一例を図示する。

図（ｂ）は、学習ＲＧＢイメージの入力を受けたニューラルネットワークモジュール３２０が生成した推定深度マップイメージの一例を図示する。

図（ｃ）は、学習ＲＧＢイメージに対応する実測深度値を提供する学習深度マップイメージの一例を図示する。

図（ｄ）は、推定深度マップイメージと学習深度マップイメージ間の差のイメージを例示する。ただし、図（ｄ）は説明の直観的な説明のためのものであり、前述した通り、本出願に開示された一実施例でトレーニングモジュール３３０は、推定深度マップイメージと学習深度マップイメージに対して球状変換を遂行した後に差を計算する場合、図（ｄ）とは異なるように表示され得る。

図１４は、本出願に開示される一実施例に係る球状仮想イメージ生成アーキテクチャを説明する図面であり、図１５本出願に開示される一実施例に係る球状仮想イメージを使用者に提供する方法を説明する図面である。

図１４および図１５を参照して、本出願に開示される一実施例に係る球状仮想イメージを使用者に提供する方法について説明する。

ニューラルネットワークモジュール３２０は質問ＲＧＢイメージの入力を受けると、前述した通り、学習されたニューラルネットワークを利用して、質問ＲＧＢイメージに対応する推定深度マップを生成する（Ｓ１５０１）。

ここで、質問ＲＧＢイメージとは、球状仮想イメージを生成するのに使われるＲＧＢイメージであって、それにマッチングされる実測深度マップ（ＧｒｏｕｎｄＴｒｕｔｈＭａｐ）がないイメージである。したがって、ニューラルネットワークモジュール３２０を利用して推定深度マップを生成し、これを球状仮想イメージの生成に利用する。

ニューラルネットワークモジュール３２０は生成された推定深度マップを仮想イメージ提供モジュール３４０に提供する。

仮想イメージ提供モジュール３４０は、質問ＲＧＢイメージと、ニューラルネットワークモジュール３２０で提供された推定深度マップイメージを基盤として、球状仮想イメージを生成することができる（Ｓ１５０２）。

例えば、仮想イメージ提供モジュール３４０はニューラルネットワークモジュール３２０が生成した推定深度マップを確認し、質問ＲＧＢイメージと推定深度マップを利用して球状仮想イメージを生成することができる。

ここで、球状仮想イメージとは、使用者が体験できる仮想の空間を提供するためのイメージを通称する。

一例として、球状仮想イメージは質問ＲＧＢイメージに基づいて球状仮想イメージを生成し、そのような球状仮想イメージの各ピクセルに対して推定深度マップイメージに含まれた各ピクセルでの距離情報を含むことができる。図４の図（ｂ）はこのような球状仮想イメージの一例を図示しており、図４の図（ｂ）は各ピクセルが同じ距離にあるものとして表示されているので完璧な球の形態で仮想イメージが表示される例を図示している。このように表示されても、各ピクセルに対する距離情報を含んでいるため、球状仮想イメージ内のどのピクセルに対してもそれぞれ距離情報を獲得することができる。

他の一例として、球状仮想イメージは質問ＲＧＢイメージで獲得された各ピクセルに対する色相情報と、推定深度マップイメージで獲得された各ピクセルに対する距離情報を利用して３次元座標上で各ピクセルの位置および色を表示することができる。このような球状仮想イメージの他の一例は、３次元座標上で表示される立体的な空間で表示され得る。

すなわち、球状仮想イメージは、仮想イメージに含まれた少なくとも一つの地点（例えば、ピクセル）に対する距離情報を含むことができる。ここで、距離情報は推定深度マップに基づいて決定される。

仮想イメージ提供モジュール３４０は、球状仮想イメージを使用者に提供することができる。例えば、仮想イメージ提供モジュール３４０は、使用者端末１００に球状仮想イメージに対する接近機能を含む使用者インターフェースを提供することができる。

仮想イメージ提供モジュール３４０は、使用者インターフェースを通じて使用者から使用者要請を受信することができる（Ｓ１５０３）。例えば、仮想イメージ提供モジュール３４０は、球状仮想イメージ内の少なくとも一つの画点に対する距離確認要請、すなわち、使用者クエリの提供を受けることができる。仮想イメージ提供モジュール３４０は、使用者のクエリに対応して、球状仮想イメージ内の画点に対する距離情報を確認して使用者に提供することができる。例えば、使用者端末１００に提供された球状仮想イメージで使用者は望む物体または空間上の位置を設定でき、仮想イメージ提供モジュール３４０は、これに対する距離情報を確認して使用者端末１００に提供することができる。

以上で説明した本出願は前述した実施例および添付された図面によって限定されるものではなく、後述する特許請求の範囲によって限定され、本出願の構成は本出願の技術的思想を逸脱しない範囲内でその構成を多様に変更および改造できることを本出願が属する技術分野で通常の知識を有する者は容易に分かる。

Claims

コンピューティング装置であって、
一つ以上のインストラクションを保存するメモリ；および
前記メモリに保存された前記一つ以上のインストラクションを実行するプロセッサを含み、
前記プロセッサは、前記一つ以上のインストラクションを実行することによって、
ニューラルネットワークを利用して学習ＲＧＢイメージに対する第１推定深度マップイメージを生成し、深度情報を有する学習深度マップイメージと前記第１推定深度マップイメージ間の差に基づいて前記ニューラルネットワークをトレーニングし、
前記学習ＲＧＢイメージと前記学習深度マップイメージは、
互いに１：１でマッチングされ、基礎球状イメージに対して同一の設定変更に基づいて生成され、
前記プロセッサは、前記一つ以上のインストラクションを実行することによって、
前記学習深度マップイメージおよび前記第１推定深度マップイメージを球状変換し、
球状変換された学習深度マップイメージと球状変換された第１推定深度マップイメージ間のロスを決定し、
決定されたロスに対応して前記ニューラルネットワークの媒介変数を変更して前記ニューラルネットワークをトレーニングする
ことを特徴とするコンピューティング装置。
前記学習深度マップイメージおよび前記第１推定深度マップイメージは等長方形投影イメージである
請求項１に記載のコンピューティング装置。
前記プロセッサは、前記一つ以上のインストラクションを実行することによって、
互いに相異なった複数のロス関数を利用して前記球状変換された学習深度マップイメージと前記球状変換された第１推定深度マップイメージ間のロス関数結果をそれぞれ計算し、
計算された複数のロス関数結果に対して代表値を算出して前記ロスとして決定する
請求項１に記載のコンピューティング装置。
前記プロセッサは、前記一つ以上のインストラクションを実行することによって、
トレーニングが遂行された前記ニューラルネットワークに質問ＲＧＢイメージを入力し、
前記質問ＲＧＢイメージに対応して前記ニューラルネットワークが生成した第２推定深度マップイメージを確認し、
前記質問ＲＧＢイメージと前記第２推定深度マップイメージを利用して球状仮想イメージ－前記球状仮想イメージは仮想イメージに含まれた少なくとも一つの地点に対する距離情報を含み、前記距離情報は前記第２推定深度マップイメージに基づいて決定される－を生成する
請求項１に記載のコンピューティング装置。
前記プロセッサは、前記一つ以上のインストラクションを実行することによって、
使用者端末を通じて使用者に前記球状仮想イメージを提供し、
前記使用者から前記球状仮想イメージの少なくとも一地点に対する使用者要請を受信すれば、前記少なくとも一地点に対する深度情報を抽出して前記使用者端末に提供する
請求項４に記載のコンピューティング装置。
コンピューティング装置で遂行される深度マップイメージ生成方法であって、
ニューラルネットワークを利用して学習ＲＧＢイメージに対する第１推定深度マップイメージを生成する動作；および
球状変換に基づいて生成された、学習深度マップイメージ－前記学習深度マップイメージは前記学習ＲＧＢイメージにマッチングされ深度情報を有する－および前記第１推定深度マップイメージ間の差に基づいて前記ニューラルネットワークをトレーニングする動作；を含み、
前記ニューラルネットワークをトレーニングする動作は、
前記学習深度マップイメージおよび前記第１推定深度マップイメージを球状変換する動作；
球状変換された学習深度マップイメージと球状変換された第１推定深度マップイメージ間のロスを決定する動作；および
決定されたロスに対応して前記ニューラルネットワークの媒介変数を変更して前記ニューラルネットワークをトレーニングする動作；を含む
ことを特徴とする深度マップイメージ生成方法。
前記学習深度マップイメージおよび前記第１推定深度マップイメージは等長方形投影イメージである
請求項４に記載の深度マップイメージ生成方法。
前記ニューラルネットワークをトレーニングする動作は、
互いに異なる複数のロス関数を利用して前記球状変換された学習深度マップイメージと前記球状変換された第１推定深度マップイメージ間のロス関数結果をそれぞれ計算する動作；および
計算された複数のロス関数結果に対して代表値を算出して前記ロスとして決定する動作；を含む
請求項６に記載の深度マップイメージ生成方法。
前記深度マップイメージ生成方法は、
トレーニングが遂行された前記ニューラルネットワークに質問ＲＧＢイメージを入力する動作；
前記質問ＲＧＢイメージに対応して前記ニューラルネットワークが生成した第２推定深度マップイメージを確認する動作；および
前記質問ＲＧＢイメージと前記第２推定深度マップイメージを利用して球状仮想イメージ－前記球状仮想イメージは仮想イメージに含まれた少なくとも一つの地点に対する距離情報を含み、前記距離情報は前記第２推定深度マップイメージに基づいて決定される－を生成する動作；をさらに含む
請求項６に記載の深度マップイメージ生成方法。
前記深度マップイメージ生成方法は、
使用者端末を通じて使用者に前記球状仮想イメージを提供する動作；および
前記使用者から前記球状仮想イメージの少なくとも一地点に対する使用者要請を受信すれば、前記少なくとも一地点に対する深度情報を抽出して前記使用者端末に提供する動作；をさらに含む
請求項９に記載の深度マップイメージ生成方法。
コンピュータ読み取り可能なインストラクション（ｉｎｓｔｒｕｃｔｉｏｎｓ）を保存している保存媒体において、
前記インストラクションは、コンピューティング装置によって実行される時、前記コンピューティング装置に、
ニューラルネットワークを利用して学習ＲＧＢイメージに対する推定深度マップを生成する動作；および
球状変換に基づいて生成された、学習深度マップ－前記学習深度マップは前記学習ＲＧＢイメージにマッチングされ深度情報を有する－および前記推定深度マップ間の差に基づいて前記ニューラルネットワークをトレーニングする動作；を遂行するようにし、
前記インストラクションを実行することによって、
前記学習深度マップイメージおよび前記第１推定深度マップイメージを球状変換し、
球状変換された学習深度マップイメージと球状変換された第１推定深度マップイメージ間のロスを決定し、
決定されたロスに対応して前記ニューラルネットワークの媒介変数を変更して前記ニューラルネットワークをトレーニングする
ことを特徴とする保存媒体。