JP7414332B2 - 深度マップイメージ生成方法およびそのためのコンピューティング装置 - Google Patents

深度マップイメージ生成方法およびそのためのコンピューティング装置 Download PDF

Info

Publication number
JP7414332B2
JP7414332B2 JP2022545059A JP2022545059A JP7414332B2 JP 7414332 B2 JP7414332 B2 JP 7414332B2 JP 2022545059 A JP2022545059 A JP 2022545059A JP 2022545059 A JP2022545059 A JP 2022545059A JP 7414332 B2 JP7414332 B2 JP 7414332B2
Authority
JP
Japan
Prior art keywords
depth map
image
map image
training
neural network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2022545059A
Other languages
English (en)
Other versions
JP2023534883A (ja
Inventor
キム、ケン
ウク ジョン、ジ
ルスタム ウクリ フダイベルガノブ、パルホド
イ、ミハイル
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
3I Inc
Original Assignee
3I Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from KR1020210081608A external-priority patent/KR102551467B1/ko
Priority claimed from KR1020210081814A external-priority patent/KR102536096B1/ko
Application filed by 3I Inc filed Critical 3I Inc
Priority claimed from PCT/KR2021/012652 external-priority patent/WO2022270683A1/ko
Publication of JP2023534883A publication Critical patent/JP2023534883A/ja
Application granted granted Critical
Publication of JP7414332B2 publication Critical patent/JP7414332B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • G06T7/55Depth or shape recovery from multiple images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T19/00Manipulating 3D models or images for computer graphics
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/90Determination of colour characteristics
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10024Color image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Graphics (AREA)
  • Computer Hardware Design (AREA)
  • Image Analysis (AREA)

Description

本発明は深度マップイメージ生成方法、そのための学習データ生成方法およびそのためのコンピューティング装置に関する。
最近では実際の空間に対応するオンライン上の仮想空間が提供されることによって、使用者が直接実際の空間に訪問せずとも実際の空間にいるような体験が可能な仮想空間具現技術が開発されている。
このような仮想空間を具現するためには、具現しようとする実際の空間を対象として撮影された平面イメージを獲得し、これに基づいて立体的な仮想イメージを生成して仮想空間を提供する過程が必要である。
このような従来技術の場合、平面イメージに基づいて仮想イメージを提供するが、従来の仮想空間では距離情報が分からないため実体感および立体的情報が欠如されている限界がある。
本出願の一技術的側面は前記した従来技術の問題点を解決するためのものであって、本出願に開示される一実施例によると、仮想空間に対して距離情報を提供することを目的とする。
本出願に開示される一実施例によると、一つのRGBイメージとそれに対する距離マップイメージを利用して多様な学習データセットを生成することを目的とする。
本出願に開示される一実施例によると、ニューラルネットワークモデルを利用して学習に基づいてRBGイメージから深度マップイメージを生成することを目的とする。
本出願の課題は以上で言及した課題に制限されず、言及されていないさらに他の課題は以下の記載から当業者に明確に理解され得る。
本出願の一技術的側面はコンピューティング装置を提案する。前記コンピューティング装置は、一つ以上のインストラクションを保存するメモリ;および前記メモリに保存された前記一つ以上のインストラクションを実行するプロセッサを含み、前記プロセッサは、前記一つ以上のインストラクションを実行することによって、前記プロセッサは、前記一つ以上のインストラクションを実行することによって、ニューラルネットワークを利用して学習RGBイメージに対する第1推定深度マップイメージを生成し、深度情報を有する学習深度マップイメージと前記第1推定深度マップイメージ間の差に基づいて前記ニューラルネットワークをトレーニングすることができる。ここで、前記学習RGBイメージと前記学習深度マップイメージは互いに1:1でマッチングされ、基礎球状イメージに対して同一の設定変更に基づいて生成され得る。
本出願の他の一技術的側面はコンピューティング装置を提案する。前記コンピューティング装置はRGBイメージと深度マップイメージを利用して球状仮想イメージを生成するコンピューティング装置であって、一つ以上のインストラクションを保存するメモリ、および前記メモリに保存された前記一つ以上のインストラクションを実行するプロセッサを含み、前記プロセッサは、前記一つ以上のインストラクションを実行することによって、ニューラルネットワークを利用して質問RGBイメージに対する推定深度マップイメージを生成し、前記質問RGBイメージと前記推定深度マップイメージを利用して前記球状仮想イメージ-前記球状仮想イメージは仮想イメージに含まれた少なくとも一つの地点に対する距離情報を含み、前記距離情報は前記推定深度マップに基づいて決定される-を生成することができる。
本出願の他の一技術的側面は深度マップイメージ生成方法を提案する。前記深度マップイメージ生成方法は、コンピューティング装置で遂行される深度マップイメージ生成方法であって、ニューラルネットワークを利用して学習RGBイメージに対する推定深度マップを生成する動作および球状変換に基づいて生成された、学習深度マップ-前記学習深度マップは前記学習RGBイメージにマッチングされ深度情報を有する-および前記推定深度マップ間の差に基づいて前記ニューラルネットワークをトレーニングする動作を含むことができる。
本出願の他の一技術的側面は保存媒体を提案する。前記保存媒体は、コンピュータ読み取り可能なインストラクション(instructions)を保存している保存媒体である。前記インストラクションは、コンピューティング装置によって実行される時、前記コンピューティング装置に、ニューラルネットワークを利用して学習RGBイメージに対する推定深度マップを生成する動作および球状変換に基づいて生成された、学習深度マップ-前記学習深度マップは前記学習RGBイメージにマッチングされ深度情報を有する-および前記推定深度マップ間の差に基づいて前記ニューラルネットワークをトレーニングする動作を遂行するようにすることができる。
本出願の一技術的側面はコンピューティング装置を提案する。前記コンピューティング装置は、一つ以上のインストラクションを保存するメモリおよび前記メモリに保存された前記一つ以上のインストラクションを実行するプロセッサを含み、前記プロセッサは、前記一つ以上のインストラクションを実行することによって、基礎RGBイメージおよびそれに対応する基礎深度マップイメージの提供を受け、前記基礎RGBイメージおよび前記基礎深度マップイメージに基づいて球状変換して生成された基礎球状仮想イメージの設定情報を変更して複数の学習RGBイメージおよび複数の学習深度マップイメージを生成することができる。前記複数の学習RGBイメージと複数の学習深度マップイメージはそれぞれ1:1でマッチングされ得る。
本出願の他の一技術的側面は深度マップイメージ生成方法を提案する。前記深度マップイメージ生成方法は、コンピューティング装置で遂行される深度マップイメージ生成方法であって、前記一つ以上のインストラクションを実行することによって、基礎RGBイメージおよびそれに対応する基礎深度マップイメージの提供を受ける動作、前記基礎RGBイメージおよび前記基礎深度マップイメージに基づいて球状変換して生成された基礎球状仮想イメージの設定情報を変更して複数の学習RGBイメージおよび複数の学習深度マップイメージを生成する動作を含むことができる。前記複数の学習RGBイメージと複数の学習深度マップイメージはそれぞれ1:1でマッチングされ得る。
本出願の他の一技術的側面は保存媒体を提案する。前記保存媒体は、コンピュータ読み取り可能なインストラクション(instructions)を保存している保存媒体である。前記インストラクションは、コンピューティング装置によって実行される時、前記コンピューティング装置に、基礎RGBイメージおよびそれに対応する基礎深度マップイメージの提供を受ける動作、前記基礎RGBイメージおよび前記基礎深度マップイメージに基づいて球状変換して生成された基礎球状仮想イメージの設定情報を変更して複数の学習RGBイメージおよび複数の学習深度マップイメージを生成する動作を含むことができる。前記複数の学習RGBイメージと複数の学習深度マップイメージはそれぞれ1:1でマッチングされ得る。
前記した課題の解決手段は、本発明の特徴をすべて列挙したものではない。本発明の課題解決のための多様な手段は以下の詳細な説明の具体的な実施形態を参照してより詳細に理解され得る。
本出願によると、次のような効果が一つあるいはそれ以上ある。
本出願に開示される一実施例によると、仮想空間に対して距離情報を提供できる効果がある。
本出願に開示される一実施例によると、一つのRGBイメージとそれに対する距離マップイメージを利用して多数の学習データセットを生成できる効果がある。
本出願に開示される一実施例によると、ニューラルネットワークモデルを利用して学習に基づいてRBGイメージから深度マップイメージを生成することができ、これを利用して、RGBイメージだけでも深度情報を含む仮想空間を提供できる効果がある。
本出願に開示される一実施例によると、ニューラルネットワークの学習のために使われるロス(Loss)を算出するにおいて、多数の関数を組み合わせて使うことによって、ロス範囲を最小限に減少させ得る効果がある。
本出願の効果は以上で言及した効果に制限されず、言及されていないさらに他の効果は特許請求の範囲の記載から当業者に明確に理解され得る。
本出願に開示される一実施例に係る深度マップイメージを基盤として球状仮想イメージを提供するシステムを説明するための一つの例示図面である。 本出願に開示される一実施例に係るコンピューティング装置を説明するブロック構成図である。 本出願に開示される一実施例に係る学習データ生成アーキテクチャを説明する図面である。 本出願に開示される一実施例に係る等長方形投影イメージと、それを利用して生成された球状仮想イメージを図示する図面である。 本出願に開示される一実施例に係る学習データが生成される方法を説明する図面である。 一例に係る基礎RGBおよび基礎深度マップに基づいて多量の学習データセットを生成する例を説明するための図面である。 本出願に開示される一実施例に係るニューラルネットワークアーキテクチャの一例を説明する図面である。 本出願に開示される一実施例に係るニューラルネットワークアーキテクチャの他の一例を説明する図面である。 本出願に開示される一実施例に係るニューラルネットワークを利用したトレーニング方法を説明する図面である。 本出願に開示される一実施例に係る等長方形投影イメージと、それを利用して生成された球状仮想イメージ間の差を例示する図面である。 本出願に開示される一実施例に係るトレーニングモジュールによるトレーニング方法を説明する図面である。 本出願に開示される一実施例に係るロス算出方法を説明する図面である。 一例に係る学習RGB、学習深度マップ、推定深度マップおよび推定深度マップと学習深度マップ間の差のイメージを図示する図面である。 本出願に開示される一実施例に係る球状仮想イメージ生成アーキテクチャを説明する図面である。 本出願に開示される一実施例に係る球状仮想イメージを使用者に提供する方法を説明する図面である。 本出願に開示される一実施例に係る球状変換を説明するための図面である。
以下、添付された図面を参照して本出願の好ましい実施形態を説明する。
しかし、本出願の実施形態は多様な他の形態に変形され得、本出願の範囲は以下で説明する実施形態に限定されるものではない。また、本出願の実施形態は当該技術分野で平均的な知識を有する者に本出願をさらに完全に説明するために提供されるものである。
本出願の多様な実施例およびこれに使われた用語は本出願に記載された技術的特徴を特定の実施例に限定しようとするものではなく、該当実施例の多様な変更、均等物、または代替物を含む。図面の説明と関連して、類似するまたは関連した構成要素に対しては類似する参照符号が使われ得る。アイテムに対応する名詞の単数形は関連した文脈上明白に異なって指示しない限り、前記アイテムを一つまたは複数個を含むことができる。本出願で、「AまたはB」、「AおよびBのうち少なくとも一つ」、「AまたはBのうち少なくとも一つ」、「A、BまたはC」、「A、BおよびCのうち少なくとも一つ」および「A、B、またはCのうち少なくとも一つ」のような文面それぞれは、その文面のうち該当する文面に共に羅列された項目のうちいずれか一つ、またはそれらのすべての可能な組み合わせを含むことができる。「第1」、「第2」、または「最初」または「二番目」のような用語は単純に該当構成要素を他の該当構成要素と区分するために使われ得、該当構成要素を他の側面(例えば、重要性または順序)に限定しない。或る(例えば、第1)構成要素が他の(例えば、第2)構成要素に、「機能的に」または「通信的に」という用語とともにまたはこのような用語なしに、「カップルド」、「コネクテッド」または「連結された」と言及された場合、それは前記或る構成要素が前記他の構成要素に直接的に、または第3構成要素を通じて連結され得るということを意味する。
本出願で使われた用語「モジュール」は少なくとも一つの機能や動作を処理する単位を意味し、これはソフトウェアで具現されたりハードウェアとソフトウェアの結合で具現され得る。
本出願の多様な実施例は機器(machine)(例えば、使用者端末機100やコンピューティング装置300)により読み取り可能な保存媒体(storage medium)に保存された一つ以上の命令語を含むソフトウェア(例えば、プログラム)で具現され得る。例えば、プロセッサ301は、保存媒体から保存された一つ以上の命令語のうち少なくとも一つの命令を呼び出し、それを実行することができる。これは装置が前記呼び出された少なくとも一つの命令語にしたがって少なくとも一つの機能を遂行するように運営されることを可能にする。前記一つ以上の命令語はコンパイラによって生成されたコードまたはインタープリタによって実行され得るコードを含むことができる。機器で読み取り可能な保存媒体は、非一過性(non-transitory)保存媒体の形態で提供され得る。ここで、「非一過性」は保存媒体が実在(tangible)する装置であり、信号(signal)(例えば、電磁波)を含まないということを意味するだけであり、この用語はデータが保存媒体に半永久的に保存される場合と臨時的に保存される場合を区分しない。
実施例によると、本出願に開示された多様な実施例に係る方法はコンピュータプログラム製品(computer program product)に含まれて提供され得る。コンピュータプログラム製品は商品として販売者および購買者間に取り引きされ得る。コンピュータプログラム製品は機器で読み取り可能な保存媒体(例えば、compact disc read only memory (CDROM))の形態で配布されたり、またはアプリケーションストア(例えば、プレイストアTM)を通じて、または二つの使用者装置(例えば、スマートフォン)間に直接、オンラインで配布(例えば、ダウンロードまたはアップロード)され得る。オンライン配布の場合に、コンピュータプログラム製品の少なくとも一部はメーカーのサーバー、アプリケーションストアのサーバー、または中継サーバーのメモリのような機器で読み取り可能な保存媒体に少なくとも一時保存されたり、臨時的に生成され得る。
多様な実施例によると、前記記述した構成要素のそれぞれの構成要素(例えば、モジュールまたはプログラム)は単数または複数の個体を含むことができる。多様な実施例によると、前述した該当構成要素のうち一つ以上の構成要素または動作が省略されたり、または一つ以上の他の構成要素または動作が追加され得る。大体または追加的に、複数の構成要素(例えば、モジュールまたはプログラム)は一つの構成要素として統合され得る。このような場合、統合された構成要素は前記複数の構成要素それぞれの構成要素の一つ以上の機能を、前記統合以前に前記複数の構成要素のうち該当構成要素によって遂行されるものと同一または類似するように遂行できる。多様な実施例によると、モジュール、プログラムまたは他の構成要素によって遂行される動作は順次的に、並列的に、繰り返し、またはヒューリスティックに実行されたり、前記動作のうち一つ以上が異なる順序で実行されたり、省略されたり、または一つ以上の他の動作が追加され得る。
本出願の実施形態を説明するために多様なフローチャートが開示されているが、これは各段階の説明の便宜のためのものであり、必ずしもフローチャートの順序により各段階が遂行されるものではない。すなわち、フローチャートでの各段階は、互いに同時に遂行されたり、フローチャートによる順で遂行されたり、またはフローチャートでの順序と反対の順序でも遂行され得る。
本出願では、全方位パノラマイメージを提供する一変換として、球状変換または球状仮想イメージを例に挙げて説明する。すなわち、このような球状変換または球状仮想イメージは例示的なものに過ぎず、本出願の実施例がこれに限定されるものではない。したがって、球状変換または球状仮想イメージの代わりにキューブ変換またはキューブ仮想イメージなどのように多様な変形実施が可能である。
図1は本出願に開示される一実施例に係る深度マップイメージを基盤として球状仮想イメージを提供するシステムを説明するための一つの例示図面である。
深度マップイメージを基盤として球状仮想イメージを提供するシステム10は使用者端末機100、イメージ獲得装置200およびコンピューティング装置300を含むことができる。
使用者端末機100は使用者がコンピューティング装置300に接近するために使用可能な電子機器であって、例えば、携帯電話、スマートフォン(smart phone)、ノートパソコン(laptop computer)、デジタル放送用端末機、PDA(personal digital assistants)、PMP(portable multimedia player)、ナビゲーション、パーソナルコンピュータ(PC)、タブレットPC(tablet PC)、ウルトラブック(ultrabook)、ウェアラブルデバイス(wearable device、例えば、ウォッチ型端末機(smartwatch)、グラス型端末機(smart glass)、HMD(head mounted display))等を包括する。しかし、その他にも使用者端末機100はVR(Virtual Reality)、AR(Augmented Reality)に使われる電子機器を含むことができる。
イメージ獲得装置200は球状仮想イメージの生成に使われる、色相イメージおよび/または深度マップイメージを生成する装置である。
図示された例で、イメージ獲得装置200は距離測定装置210および撮像装置220に区分されて図示されているが、これは例示的なものであり、一つのイメージ獲得装置200-例えば、LiDARセンサを具備したスマートフォンなど-を利用して距離測定および撮像を遂行してもよい。
撮像装置220は撮影機能を有した携帯用電子機器であり、被写領域-すなわち、RGBイメージで撮影された撮影領域-に対して色で表現されるRGBイメージを生成する。
すなわち、本出願明細書で、RGBイメージは色で表現される色相イメージをすべて包括する代表名称に過ぎず、特定の表現方式に制限するものではない。したがって、RGB(Red Green Bule)で表現される色相イメージだけでなく、CMYK(Cyan Magenta Yellow Key)で表現される色相イメージも、本出願明細書のRGBイメージに該当する。
撮像装置220は、例えば、携帯電話、スマートフォン(smart phone)、ノートパソコン(laptop computer)、PDA(personal digital assistants)、タブレットPC(tablet PC)、ウルトラブック(ultrabook)、ウェアラブル撮影デバイス(wearable device、例えば、グラス型端末機(smart glass))等を包括する。
距離測定装置210は撮影領域、すなわち、被写領域に対して深度情報を生成して深度マップイメージを生成できる装置である。
本出願明細書で、深度マップイメージは被写領域に対して深度情報を含むイメージを包括する。すなわち、深度マップイメージは、撮影された被写領域の各地点に対して、撮像地点から各地点までの距離情報で表現されるイメージを意味する。例えば、深度マップイメージの各ピクセルは撮像地点から測定された距離情報であり得る。このような深度マップイメージで距離情報は色相で表現され得、図13の図(c)はこのような深度マップイメージの一例を図示している。
距離測定装置210は、距離測定のための所定のセンサ、例えば、ライダセンサ、赤外線センサ、超音波センサなどを含むことができる。または距離測定撮像装置220はセンサの代わりに距離情報を測定できるステレオカメラ(stereo camera)、ステレオスコピックカメラ(stereoscopic camera)、3D深度カメラ(3D、depth camera)等を含むことができる。
撮像装置220によって生成されたイメージは基礎RGBイメージといい、距離測定装置210によって生成されたイメージは基礎深度マップイメージという。撮像装置220によって生成された基礎RGBイメージと距離測定装置210によって生成された基礎深度マップイメージは、同一の被写領域に対して同一の条件(例えば、解像度など)を対象に生成されるので、互いに1:1でマッチングされる。
コンピューティング装置300は、基礎RGBイメージと基礎深度マップイメージの伝達を受けて学習を進めることができる。ここで基礎RGBイメージと基礎深度マップイメージを伝達は、ネットワークを通じて伝達され得る。
コンピューティング装置300は進行された学習に基づいて球状仮想イメージを生成することができる。また、コンピューティング装置300は、生成された球状仮想イメージを使用者端末100に提供することになる。ここで、球状仮想イメージの提供は多様な形態でなされ得るが、一例として使用者端末100で駆動されるように球状仮想イメージを提供したり、または他の例として、コンピューティング装置300で具現された球状仮想イメージに対する使用者のインターフェースを提供することを含む。
コンピューティング装置300から使用者端末100への球状仮想イメージの提供もネットワークを通じて提供され得る。
コンピューティング装置300は基礎RGBイメージと基礎深度マップイメージを変換し、多数の学習RGBイメージと学習深度マップイメージを生成することができる。これは、球状仮想イメージを使う特徴的な環境を利用したもので、基礎RGBイメージと基礎深度マップイメージを球状化した後に若干の調整を通じて多数の学習RGBイメージと学習深度マップイメージを生成することができる。
以下、図2~図15を参照して、球状仮想イメージを提供するシステム10を構成する構成要素の多様な実施例について説明する。
図2は、本出願に開示される一実施例に係るコンピューティング装置を説明するブロック構成図である。
コンピューティング装置300はプロセッサ301、メモリ302および通信部303を含むことができる。
プロセッサ301はコンピューティング装置300の全般的な動作を制御する。例えば、プロセッサ301は、メモリ302に保存された一つ以上のインストラクションを実行することによって、本開示書に記載されたコンピューティング装置300の機能を遂行することができる。
プロセッサ301は撮像装置220から伝達された基礎RGBイメージおよび距離測定装置210から入力された基礎深度マップイメージを基盤として、球状仮想イメージを生成することができる。
プロセッサ301は、基礎RGBイメージおよび基礎深度マップイメージに基づいて多様な学習データを生成する学習データ生成モジュール310、学習データに基づいて学習を進めるニューラルネットワークモジュール320、推定深度マップと学習深度マップを比較してニューラルネットワークモジュール320をトレーニングするトレーニングモジュール330および球状仮想イメージを生成して被写領域の距離情報などを使用者端末機に提供する仮想イメージ提供モジュール340を含むことができる。
学習データ生成モジュール310は基礎RGBイメージおよび基礎深度マップイメージを球状変換し、これを調整して複数の学習データ、すなわち、学習RGBイメージおよび学習深度マップイメージを生成することができる。
例えば、学習データ生成モジュール310は、撮像装置220から伝達された基礎RGBイメージおよび距離測定装置210から伝達された基礎深度マップイメージを球状変換することができる。このように変換されたイメージは球状イメージの種々の軸に基づいて回転角度を変更しながら多様な学習データを獲得することができる。この時、学習RGBイメージは、学習のためにニューラルネットワークモジュール320に提供されるRGBイメージを指称し、学習深度マップイメージは、学習のためにニューラルネットワークモジュール320に提供される深度マップイメージを指称する。したがって、学習RGBイメージは基礎RGBイメージから生成されたイメージ、学習深度マップイメージは基礎深度マップイメージから生成されたイメージである。
ニューラルネットワークモジュール320は、学習のための学習RGBイメージとそれに対する学習深度マップ(Depth map)イメージに基づいて学習する。例えば、学習深度マップイメージは学習RGBイメージと1:1で関連される。学習深度マップイメージは学習RGBイメージが生成された被写領域に対して、Lidarセンサなどを利用して距離を実測-ステレオカメラを利用した距離推定方式などを含む-して生成されるため、実測深度(Ground Truth Depth)マップである。ニューラルネットワークモジュール320は学習RGBイメージおよび学習深度マップイメージに基づいて学習した後、学習された内容に基づいて入力されたRGBイメージに対する推定深度マップイメージを生成することができる。
トレーニングモジュール330はニューラルネットワークモジュール320で生成した推定深度マップの正確度に基づいて、ニューラルネットワークモジュール320をトレーニングすることができる。
例えば、トレーニングモジュール330は学習RGBイメージに対してニューラルネットワークモジュール320が生成した推定深度マップと、学習深度マップ-これは実測深度マップである-を比較し、推定深度マップと学習深度マップのその差が少なくなるようにニューラルネットワークモジュール320を継続的にトレーニングすることができる。
ニューラルネットワークモジュール320は質問RGBイメージの入力を受け、推定深度マップを生成する。仮想イメージ提供モジュール340は質問RGBイメージと推定深度マップに基づいて球状仮想イメージを生成することができる。球状仮想イメージはコンピューティング装置300から使用者端末100に提供されるイメージ、例えば、使用者端末100で具現され得る仮想空間であり得る。
メモリ302はプロセッサ301の処理および制御のためのプログラムを保存でき、コンピューティング装置300に入力されたりコンピューティング装置300から出力されるデータを保存することができる。一例として、メモリ302はフラッシュメモリタイプ(flash memory type)、ハードディスクタイプ(hard disk type)、マルチメディアカードマイクロタイプ(multimedia card micro type)、カードタイプのメモリ(例えばSDまたはXDメモリなど)、ラム(RAM、Random Access Memory)SRAM(Static Random Access Memory)、ロム(ROM、Read-Only Memory)、EEPROM(Electrically Erasable Programmable Read-Only Memory)、PROM(Programmable Read-Only Memory)、磁気メモリ、磁気ディスク、光ディスクのうち少なくとも一つのタイプの保存媒体を含むことができる。
通信部303はコンピューティング装置300と他の電子装置、例えば、使用者端末100またはイメージ獲得装置200間、またはコンピューティング装置300と他の電子装置が位置したネットワークの間の通信を可能にする一つ以上のモジュールを含むことができる。
図3は、本出願に開示される一実施例に係る学習データ生成アーキテクチャを説明する図面である。
図3に図示された基礎RGBイメージは撮像装置220から伝達され、基礎深度マップイメージは距離測定装置210から伝達される。
ここでの基礎RGBイメージおよび基礎深度マップイメージは、全方位仮想現実に使われる等長方形投影(Equirectangular Projection)イメージであり得る。以下で説明する多様な種類のRGBイメージおよび深度マップイメージは、全方位仮想空間を生成するために使われる等長方形投影(Equirectangular Projection)イメージであり得る。
図4は、本出願に開示される一実施例に係る等長方形投影イメージと、それを利用して生成された球状仮想イメージを図示する図面である。
図(a)に図示された例の通り、等長方形投影イメージは、コンピューティング装置300によって球の形態の視点を提供する球状の全方位仮想イメージ(以下、「球状仮想イメージ」と称する)に変換可能である。
図(b)は、図(a)の等長方形投影イメージを球状仮想イメージとして変換した例を図示している。図(b)に図示された球状仮想イメージは、RGB等長方形投影イメージに基づいて生成した球状仮想イメージであって、各ピクセルの距離値を均等に設定した例に関するものである。一方、図(b)は球状仮想イメージの外部で球状仮想イメージを図示しているが、説明の便宜のためのものである。したがって、球状仮想イメージは、図示された球状仮想イメージの内部で、左右360度上下360度の全方位に対して仮想のイメージを提供することもできる。
以下では、等長方形投影イメージの一実施例としてパノラマイメージ(例えば、2:1パノラマイメージなど)を説明する。パノラマイメージは一度の撮影によって空間の全方位イメージを導出することができ、球状変換で容易に変換が可能な利点がある。
ただし、イメージ獲得装置200から伝達されたイメージがパノラマイメージからなるのは本出願を実施するための一つの例示であるので、イメージ獲得装置200から伝達されるイメージは使用者の利用および便宜により撮影された一般的なイメージ(ら)であり得る。そして、コンピューティング装置300はこのような一般的なイメージを等長方形投影イメージに変換することができる。
学習データ生成モジュール310は基礎RGBイメージおよび基礎深度マップイメージの入力を受け、これらを球状変換して基礎球状仮想イメージを生成することができる。
基礎深度マップイメージは、被写領域に対する距離情報を含むパノラマ深度マップイメージであり得る。基礎深度マップイメージは同一の被写領域を有する基礎RGBイメージと1:1でマッチングされる。
学習データ生成モジュール310は、基礎球状仮想イメージを多様に変形して複数の学習データ、すなわち、学習RGBイメージおよび学習深度マップイメージを生成することができる。学習データ生成モジュール310は生成された学習RGBイメージはニューラルネットワークモジュール320に提供し、学習深度マップイメージはトレーニングモジュール330に提供することができる。
すなわち、学習データ生成モジュール310は基礎RGBイメージおよび基礎深度マップイメージを利用して基礎球状仮想イメージを生成し、基礎球状仮想イメージの設定情報を変更して多数の学習球状イメージを生成した後、これに基づいて多様な学習データセットを生成することができる。
このような学習データ生成モジュール310の一実施例について、図5~図6をさらに参照して説明する。
図5は本出願に開示される一実施例に係る学習データ生成方法を説明する図面であり、図6は図5での学習データ生成方法を説明するための参照図である。
図5を参照すると、学習データ生成モジュール310は基礎RGBイメージおよび基礎深度マップイメージを利用して基礎球状仮想イメージを生成することができる(S501)。
例えば、学習データ生成モジュール310は基礎RGBイメージおよび基礎深度マップイメージに基づいて球状変換して基礎球状仮想イメージを生成することができる。
これは図6の段階(a)に例示されている。すなわち、基礎球状仮想イメージは一つの基礎RGBイメージおよび基礎深度マップイメージで獲得された一つの基礎球状仮想イメージであり得る。
基礎球状仮想イメージを生成する一実施例で、学習データ生成モジュール310は、基礎RGBイメージで基礎球状仮想イメージを生成し、基礎球状仮想イメージの各ピクセルに対応する深さ情報を基礎深度マップイメージに基づいて関連させて、基礎球状仮想イメージを生成することができる。
例えば、学習データ生成モジュール310は、基礎RGBイメージを球状変換して各ピクセルの距離が同等な距離で表現される前記基礎球状仮想イメージを生成することができる。学習データ生成モジュール310は、基礎深度マップイメージを利用して基礎RGBイメージの各ピクセルに対応する距離情報を、基礎球状仮想イメージと関連させて保存することができる。例えば、RGBイメージの各ピクセルに対応する距離情報は各ピクセルに対する識別情報およびそれに対する距離情報を含むテーブルで保存され得る。
このような一実施例で、基礎球状仮想イメージに対する設定情報の変更が発生すると、学習データ生成モジュール310は、そのような変更に対応して距離情報の保存を変更することができる。例えば、基礎球状仮想イメージに対して特定回転軸を基準として特定方向に特定角度で回転が発生する場合、そのような回転によって変更されるピクセルの位置変更を反映してテーブルから距離情報を獲得することができる。
基礎球状仮想イメージを生成する他の一実施例で、学習データ生成モジュール310は、基礎RGBイメージと基礎深度マップイメージに対してそれぞれ球状仮想イメージを生成することができる。
例えば、学習データ生成モジュール310は、基礎RGBイメージを球状変換して各ピクセルの距離が同等な距離で表現される第1基礎球状仮想イメージを生成し、基礎深度マップイメージを球状変換して各ピクセルが距離情報で表現される第2基礎球状仮想イメージを生成することができる。
このような実施例で、学習データ生成モジュール310は、第1基礎球状仮想イメージおよび第2基礎球状仮想イメージ一対に対して同一に設定情報を変更し-設定情報が変換された一対の第1および第2基礎球状仮想イメージは学習球状仮想イメージに対応する-、それに対する平面変換を遂行して一対の学習RGBイメージおよび学習深度マップイメージを生成することができる。
基礎球状仮想イメージを生成するさらに他の一実施例で、学習データ生成モジュール310は、一つのピクセルに色相情報および距離情報をすべて反映して3次元の立体的な基礎深度マップイメージを生成することができる。すなわち、前述した実施例は、図6に図示された例の通り、各ピクセルの距離が一定に設定されているので、基礎球状仮想イメージの形態が丸い球状で表示されるが、本実施例では各ピクセルが距離情報により表示されるので、丸い球状ではない、3次元空間で立体的な形状で表示される。
例えば、学習データ生成モジュール310は、基礎RGBイメージから各ピクセルでの色相情報を獲得して前記基礎深度マップイメージから各ピクセルでの距離情報を獲得し、各ピクセルに対する色相情報および距離情報を設定することができる。学習データ生成モジュール310は、設定された各ピクセルに対する色相情報および距離情報を3次元座標で表現して基礎球状仮想イメージを生成することができる。このような基礎球状仮想イメージは円形の形態ではなく3次元空間上に表示された立体的な形状で表現される。
学習データ生成モジュール310は、基礎球状仮想イメージの設定情報を変更して多数の学習球状イメージを生成することができる(S502)。例えば、設定情報は球状イメージの回転軸、回転方向または回転角度などを含むことができる。
例えば、学習データ生成モジュール310は、基礎球状仮想イメージに対して前記回転軸、回転方向または回転角度のうち少なくとも一つを変更して基礎球状仮想イメージから複数の学習球状イメージを生成することができる。
図6の段階(b)は、基礎球状仮想イメージの設定情報を変更して複数の学習球状イメージを生成する例を図示している。
学習データ生成モジュール310は、多数の学習球状イメージを再び平面変換して多数の学習データセット-学習データセットは学習RGBイメージと、それに1:1マッチングされる学習深度マップイメージ一対を意味する-を生成することができる(S503)。ここで、平面変換は球状変換の逆変換であって、一つの学習球状イメージを平面変換することによって学習RGBイメージおよび学習深度マップイメージセットを生成することができる。
このように、基礎球状仮想イメージ設定情報を変更して多数の学習球状イメージを生成するのは、一つの基礎球状イメージで多い量の学習データを生成できる効果を提供する。すなわち、ニューラルネットワークモジュール320の正確な演算能力は多くの学習データに基づいてなされるが、実際的には多数の学習データを確保することは難しいことである。しかし、本出願の一実施例では、基礎球状仮想イメージに基づいて多様な変形を適用して多数の学習球状イメージを生成することができ、また、逆変換して多量の学習データセットを容易に確保することができる効果がある。
このように生成された多数の学習RGBイメージおよび学習深度マップイメージはニューラルネットワークモジュール320に提供されて学習情報として使われ得る。
図7は、本出願に開示される一実施例に係るニューラルネットワークアーキテクチャの一例を説明する図面であり、図8は本出願に開示される一実施例に係るニューラルネットワークアーキテクチャの他の一例を説明する図面である。
説明の容易性のために、図7および図8に図示されたニューラルネットワークモジュール320は、図2で説明したコンピューティング装置300を利用して具現されるものとして説明される。すなわち、コンピューティング装置300のメモリ302とプロセッサ301によって遂行される少なくとも一つのインストラクションの実行によって具現され得る。しかし、その他にもニューラルネットワークモジュール320は他の何らかの適切な装置(ら)および他の何らかの適切なシステム(ら)でも利用され得る。また、ニューラルネットワークモジュール320はイメージ処理関連タスクを遂行するのに利用されるものとして説明される。しかし、ニューラルネットワークモジュール320は非-イメージ処理タスクを含めて他の何らかの適切なタスクを共に遂行するのに利用され得る。
ニューラルネットワークモジュール320は学習のための学習RGBイメージと、それに対する深度マップ(Depth map)イメージに基づいて学習する。
ニューラルネットワークモジュール320はディープラーニング基盤のイメージ転換学習モデルであって、入力された学習RGBイメージに対して学習ニューラルネットワークを通じての変換に基づいて、推定深度マップイメージを生成することができる。
ニューラルネットワークモジュール320はノードとエッジを利用して数学的モデルで表現され得る。ニューラルネットワークモジュール320はディープニューラルネットワーク(Deep Neural Network、DNN)またはn-階層ニューラルネットワーク(n-layers neural networks)のアーキテクチャであり得る。DNNまたはn-階層ニューラルネットワークはコンボリューションニューラルネットワーク(Convolutional Neural Networks、CNN)、HRNet(Deep High-Resolution Network)を基盤とするコンボリューションニューラルネットワーク(CNN)、リカレントニューラルネットワーク(Recurrent Neural Networks、RNN)、Deep Belief Networks、Restricted Boltzman Machinesなどに該当し得る。
一例として、ニューラルネットワークモジュール320は、図7に図示された例の通り、学習RGBイメージの入力を受け、それに対する推定深度マップイメージを生成することができる。このような例において、最初の動作でニューラルネットワークモジュール320は学習された内容がないため、ニューラルネットワークの各ノードでランダムな値に基づいて推定深度マップイメージを生成することができる。ニューラルネットワークモジュール320は、生成された推定深度マップイメージに対するフィードバックトレーニングを繰り返し遂行して推定深度マップの正確度を向上させることができる。
他の例として、ニューラルネットワークモジュール320は、図8に図示された通り、学習RGBイメージとそれにマッチングされる学習深度マップセットの入力を受け、それに対する学習に基づいてRGBイメージと深度マップイメージ間の関連性を学習し、そのような関連性に基づいて入力された学習RGBに対する推定深度マップイメージを生成することができる。このような例でも、推定深度マップイメージに対するフィードバックトレーニングを繰り返し遂行して推定深度マップの正確度を向上させることができる。
図9は本出願に開示される一実施例に係るニューラルネットワークを利用したトレーニング方法を説明する図面であり、以下で、図9をさらに参照して説明する。
ニューラルネットワークモジュール320は学習RGBイメージの入力を受け、学習された内容に基づいてこれに対する推定深度(Predicted Depth)マップイメージを生成する(S901)。
学習RGBイメージは、学習のためにニューラルネットワークモジュール320に提供されたRGBイメージを指称する。学習深度マップイメージは、学習のためにニューラルネットワークモジュール320またはトレーニングモジュール330に提供された深度マップイメージを指称する。学習深度マップイメージは学習RGBイメージと1:1で関連される。学習深度マップイメージは学習RGBイメージが生成された被写領域に対して、Lidarセンサなどを利用して距離を実測して生成されるので、実測深度(Ground Truth Depth)マップである。
ニューラルネットワークモジュール320はディープラーニング基盤のイメージ転換学習モデルであって、入力された学習RGBイメージに対して学習ニューラルネットワークを通じての変換に基づいて、推定深度マップイメージを生成することができる。
その後、後述するトレーニング過程を通じてニューラルネットワークモジュール320が学習を遂行する(S902)。ニューラルネットワークモジュール320は前述した通り、学習データ生成モジュール310によって生成された多数の学習RGBイメージおよび学習深度マップを対象に学習を遂行できるので、その正確度を容易に高めることができる。
推定深度マップイメージは、学習されたニューラルネットワークモジュール320が生成した深度マップである。このような推定深度マップイメージは、Lidarセンサなどを利用して距離を実測して生成された実測(Ground Truth)深度マップである学習深度マップイメージと差がある。したがって、このような推定深度マップイメージと学習深度マップ(実測深度マップ)イメージ間の差が小さくなるようにニューラルネットワークモジュール320が学習され得、このようなニューラルネットワークモジュール320に対する学習はトレーニングモジュール330によって遂行される。
トレーニングモジュール330はニューラルネットワークモジュール320で生成した推定深度マップと、学習深度マップを比較してその差に基づいてニューラルネットワークモジュール320をトレーニングすることができる。
一実施例で、トレーニングモジュール330は球状変換に基づいてトレーニングを遂行できる。例えば、トレーニングモジュール330は推定深度マップと学習深度マップをそれぞれ球状変換した後に、球状変換された推定深度マップと球状変換された学習深度マップ間の差に基づいてニューラルネットワークモジュール320をトレーニングさせることができる。
このような実施例で、学習RGBイメージ、推定深度マップイメージおよび学習深度マップイメージはいずれも等長方形投影イメージであり得る。すなわち、このような等長方形投影イメージは球状変換された状態で使われるので、推定深度マップイメージと学習深度マップイメージ間の使用状態での差異点をより正確に判断するために、トレーニングモジュール330は推定深度マップと学習深度マップをそれぞれ球状変換した後にこれらを比較してトレーニングを遂行する。これについて、図10をさらに参照して説明する。
図10は本出願に開示される一実施例に係る等長方形投影イメージと、それを利用して生成された球状仮想イメージ間の差を例示する図面である。
面積A(1010)と面積B(1020)は球状仮想イメージで同一の面積および形態を有するが、これを等長方形投影イメージに変換する場合、面積A′(1011)と面積B′(1021)は互いに異なる面積および形態を有することになる。これは、球状仮想イメージと、平面等長方形投影イメージ(パノラマイメージ)間の変換によったものである。
したがって、トレーニングモジュール330は推定深度マップと学習深度マップをそれぞれ球状変換した後にトレーニングを遂行することによってトレーニングの正確度を上昇させ、それにより推定深度マップイメージの正確度を増加させることができる。
図11は本出願に開示される一実施例に係るトレーニングモジュールによるトレーニング方法を説明する図面であり、以下図8および図11を参照して説明する。
図8に図示された通り、トレーニングモジュール330は球状変換モジュール331、ロス算出モジュール332およびオプティマイジングモジュール333を含むことができる。
図11をさらに参照すると、球状変換モジュール331は等長方形投影イメージを球状変換されたものに対応するように球状変換を遂行する。球状変換モジュール331は推定深度マップイメージと学習深度マップイメージの入力を受け、これらをそれぞれ球状変換することができる(S1101)。
図8で、球状変換モジュール331によって球状変換された学習深度マップイメージを「学習深度マップ」で、球状変換された推定深度マップイメージを「推定深度マップ」で表示している。
一実施例で、球状変換モジュール331は以下の数学式1を利用して、球状変換を遂行できる。
[数学式1]
Figure 0007414332000001
数学式1に対する詳細な説明は、図16に図示された説明を参照して容易に理解することができる。
ロス算出モジュール332は球状変換された推定深度マップ(推定深度マップ)と球状変換された学習深度マップ(学習深度マップ)間のロスを算出することができる(S1102)。
すなわち、ロス算出モジュール332は球状変換された推定深度マップと球状変換された学習深度マップ間の差を数値化(ロス値)することができる。一例として、ロス算出モジュール332によって決定されたロス値は0~1の間の範囲で決定され得る。
オプティマイジングモジュール333はロス算出モジュール332から計算されたロスの提供を受け、該当ロスに対応してニューラルネットワークの媒介変数を変更してオプティマイジングを遂行できる(S1103)。
一例として、オプティマイジングモジュール333はニューラルネットワークの加重値媒介変数Wを調節してオプティマイジングを遂行できる。他の例として、オプティマイジングモジュール333はニューラルネットワークの加重値媒介変数Wおよび偏向bのうち少なくとも一つを調節してオプティマイジングを遂行できる。
多様な方式のオプティマイジング方法がオプティマイジングモジュール333に適用可能である。例えば、オプティマイジングモジュール333は、配置勾配降下法(Batch Gradient Descent)、確率的勾配降下法(Stochastic Gradient Descent)、ミニバッチ勾配降下法(Mini-Batch Gradient Descent)、モメンタム(Momentum)、エイダグラッド(Adagrad)、アールエムエスプロップ(RMSprop)等を使ってオプティマイジングを遂行できる。
図12は、本出願に開示される一実施例に係るロス算出方法を説明する図面である。
図12に図示された一実施例で、ロス算出モジュール332は複数のロス算出方法を適用し、その結果値から代表値を算出してロスを決定することができる。
図12を参照すると、ロス算出モジュール332は第1ロス計算方式で、球状変換された推定深度マップと球状変換された学習深度マップ間の第1ロス関数結果を計算することができる(S1201)。
以下の数学式2は、第1ロス計算式の一例を説明する数学式である。
[数学式2]
Figure 0007414332000002
ここで、Tはサンプルの数、yは学習深度マップ、yは推定深度マップを意味する。
ロス算出モジュール332は、第2ロス計算方式で球状変換された推定深度マップと球状変換された学習深度マップ間の第2ロス関数結果を計算することができる(S1202)。
以下の数学式3は、第2ロス計算式の一例を説明する数学式である。
[数学式3]
Figure 0007414332000003
ここで、Tはサンプルの数、dはログ空間での学習深度マップと推定深度マップ間の差である。
ロス算出モジュール332は、第3ロス計算方式で球状変換された推定深度マップと球状変換された学習深度マップ間の第3ロス関数結果を計算することができる(S1203)。
以下の数学式4は、第3ロス計算式の一例を説明する数学式である。
[数学式4]
Figure 0007414332000004
ここで、ytrueは学習深度マップを、ypredictedは推定深度マップを意味する。
ロス算出モジュール332は、第1ロス関数結果乃至第3ロス関数結果に対する代表値を算出してロスとして決定することができる(S1204)。ここで、代表値として平均、中央値、最頻値などが適用可能である。
図13は、一例に係る学習RGBイメージ、学習深度マップイメージ、推定深度マップイメージおよび推定深度マップイメージと学習深度マップイメージ間の差のイメージを図示する図面である。
図(a)は、ニューラルネットワークモジュール320に入力される学習RGBイメージの一例を図示する。
図(b)は、学習RGBイメージの入力を受けたニューラルネットワークモジュール320が生成した推定深度マップイメージの一例を図示する。
図(c)は、学習RGBイメージに対応する実測深度値を提供する学習深度マップイメージの一例を図示する。
図(d)は、推定深度マップイメージと学習深度マップイメージ間の差のイメージを例示する。ただし、図(d)は説明の直観的な説明のためのものであり、前述した通り、本出願に開示された一実施例でトレーニングモジュール330は、推定深度マップイメージと学習深度マップイメージに対して球状変換を遂行した後に差を計算する場合、図(d)とは異なるように表示され得る。
図14は、本出願に開示される一実施例に係る球状仮想イメージ生成アーキテクチャを説明する図面であり、図15本出願に開示される一実施例に係る球状仮想イメージを使用者に提供する方法を説明する図面である。
図14および図15を参照して、本出願に開示される一実施例に係る球状仮想イメージを使用者に提供する方法について説明する。
ニューラルネットワークモジュール320は質問RGBイメージの入力を受けると、前述した通り、学習されたニューラルネットワークを利用して、質問RGBイメージに対応する推定深度マップを生成する(S1501)。
ここで、質問RGBイメージとは、球状仮想イメージを生成するのに使われるRGBイメージであって、それにマッチングされる実測深度マップ(Ground Truth Map)がないイメージである。したがって、ニューラルネットワークモジュール320を利用して推定深度マップを生成し、これを球状仮想イメージの生成に利用する。
ニューラルネットワークモジュール320は生成された推定深度マップを仮想イメージ提供モジュール340に提供する。
仮想イメージ提供モジュール340は、質問RGBイメージと、ニューラルネットワークモジュール320で提供された推定深度マップイメージを基盤として、球状仮想イメージを生成することができる(S1502)。
例えば、仮想イメージ提供モジュール340はニューラルネットワークモジュール320が生成した推定深度マップを確認し、質問RGBイメージと推定深度マップを利用して球状仮想イメージを生成することができる。
ここで、球状仮想イメージとは、使用者が体験できる仮想の空間を提供するためのイメージを通称する。
一例として、球状仮想イメージは質問RGBイメージに基づいて球状仮想イメージを生成し、そのような球状仮想イメージの各ピクセルに対して推定深度マップイメージに含まれた各ピクセルでの距離情報を含むことができる。図4の図(b)はこのような球状仮想イメージの一例を図示しており、図4の図(b)は各ピクセルが同じ距離にあるものとして表示されているので完璧な球の形態で仮想イメージが表示される例を図示している。このように表示されても、各ピクセルに対する距離情報を含んでいるため、球状仮想イメージ内のどのピクセルに対してもそれぞれ距離情報を獲得することができる。
他の一例として、球状仮想イメージは質問RGBイメージで獲得された各ピクセルに対する色相情報と、推定深度マップイメージで獲得された各ピクセルに対する距離情報を利用して3次元座標上で各ピクセルの位置および色を表示することができる。このような球状仮想イメージの他の一例は、3次元座標上で表示される立体的な空間で表示され得る。
すなわち、球状仮想イメージは、仮想イメージに含まれた少なくとも一つの地点(例えば、ピクセル)に対する距離情報を含むことができる。ここで、距離情報は推定深度マップに基づいて決定される。
仮想イメージ提供モジュール340は、球状仮想イメージを使用者に提供することができる。例えば、仮想イメージ提供モジュール340は、使用者端末100に球状仮想イメージに対する接近機能を含む使用者インターフェースを提供することができる。
仮想イメージ提供モジュール340は、使用者インターフェースを通じて使用者から使用者要請を受信することができる(S1503)。例えば、仮想イメージ提供モジュール340は、球状仮想イメージ内の少なくとも一つの画点に対する距離確認要請、すなわち、使用者クエリの提供を受けることができる。仮想イメージ提供モジュール340は、使用者のクエリに対応して、球状仮想イメージ内の画点に対する距離情報を確認して使用者に提供することができる。例えば、使用者端末100に提供された球状仮想イメージで使用者は望む物体または空間上の位置を設定でき、仮想イメージ提供モジュール340は、これに対する距離情報を確認して使用者端末100に提供することができる。
以上で説明した本出願は前述した実施例および添付された図面によって限定されるものではなく、後述する特許請求の範囲によって限定され、本出願の構成は本出願の技術的思想を逸脱しない範囲内でその構成を多様に変更および改造できることを本出願が属する技術分野で通常の知識を有する者は容易に分かる。

Claims (11)

  1. コンピューティング装置であって、
    一つ以上のインストラクションを保存するメモリ;および
    前記メモリに保存された前記一つ以上のインストラクションを実行するプロセッサを含み、
    前記プロセッサは、前記一つ以上のインストラクションを実行することによって、
    ニューラルネットワークを利用して学習RGBイメージに対する第1推定深度マップイメージを生成し、深度情報を有する学習深度マップイメージと前記第1推定深度マップイメージ間の差に基づいて前記ニューラルネットワークをトレーニングし、
    前記学習RGBイメージと前記学習深度マップイメージは、
    互いに1:1でマッチングされ、基礎球状イメージに対して同一の設定変更に基づいて生成され
    前記プロセッサは、前記一つ以上のインストラクションを実行することによって、
    前記学習深度マップイメージおよび前記第1推定深度マップイメージを球状変換し、
    球状変換された学習深度マップイメージと球状変換された第1推定深度マップイメージ間のロスを決定し、
    決定されたロスに対応して前記ニューラルネットワークの媒介変数を変更して前記ニューラルネットワークをトレーニングする
    ことを特徴とするコンピューティング装置。
  2. 前記学習深度マップイメージおよび前記第1推定深度マップイメージは等長方形投影イメージである
    請求項1に記載のコンピューティング装置。
  3. 前記プロセッサは、前記一つ以上のインストラクションを実行することによって、
    互いに相異なった複数のロス関数利用して前記球状変換された学習深度マップイメージと前記球状変換された第1推定深度マップイメージ間のロス関数結果をそれぞれ計算し、
    計算された複数のロス関数結果に対して代表値を算出して前記ロスとして決定する
    請求項1に記載のコンピューティング装置。
  4. 前記プロセッサは、前記一つ以上のインストラクションを実行することによって、
    トレーニングが遂行された前記ニューラルネットワークに質問RGBイメージを入力し、
    前記質問RGBイメージに対応して前記ニューラルネットワークが生成した第2推定深度マップイメージを確認し、
    前記質問RGBイメージと前記第2推定深度マップイメージを利用して球状仮想イメージ-前記球状仮想イメージは仮想イメージに含まれた少なくとも一つの地点に対する距離情報を含み、前記距離情報は前記第2推定深度マップイメージに基づいて決定される-を生成する
    請求項1に記載のコンピューティング装置。
  5. 前記プロセッサは、前記一つ以上のインストラクションを実行することによって、
    使用者端末を通じて使用者に前記球状仮想イメージを提供し、
    前記使用者から前記球状仮想イメージの少なくとも一地点に対する使用者要請を受信すれば、前記少なくとも一地点に対する深度情報を抽出して前記使用者端末に提供する
    請求項4に記載のコンピューティング装置。
  6. コンピューティング装置で遂行される深度マップイメージ生成方法であって、
    ニューラルネットワークを利用して学習RGBイメージに対する第1推定深度マップイメージを生成する動作;および
    球状変換に基づいて生成された、学習深度マップイメージ-前記学習深度マップイメージは前記学習RGBイメージにマッチングされ深度情報を有する-および前記第1推定深度マップイメージ間の差に基づいて前記ニューラルネットワークをトレーニングする動作;を含み、
    前記ニューラルネットワークをトレーニングする動作は、
    前記学習深度マップイメージおよび前記第1推定深度マップイメージを球状変換する動作;
    球状変換された学習深度マップイメージと球状変換された第1推定深度マップイメージ間のロスを決定する動作;および
    決定されたロスに対応して前記ニューラルネットワークの媒介変数を変更して前記ニューラルネットワークをトレーニングする動作;を含む
    ことを特徴とする深度マップイメージ生成方法。
  7. 前記学習深度マップイメージおよび前記第1推定深度マップイメージは等長方形投影イメージである
    請求項4に記載の深度マップイメージ生成方法。
  8. 前記ニューラルネットワークをトレーニングする動作は、
    互いに異なる複数のロス関数を利用して前記球状変換された学習深度マップイメージと前記球状変換された第1推定深度マップイメージ間のロス関数結果をそれぞれ計算する動作;および
    計算された複数のロス関数結果に対して代表値を算出して前記ロスとして決定する動作;を含む
    請求項6に記載の深度マップイメージ生成方法。
  9. 前記深度マップイメージ生成方法は、
    トレーニングが遂行された前記ニューラルネットワークに質問RGBイメージを入力する動作;
    前記質問RGBイメージに対応して前記ニューラルネットワークが生成した第2推定深度マップイメージを確認する動作;および
    前記質問RGBイメージと前記第2推定深度マップイメージを利用して球状仮想イメージ-前記球状仮想イメージは仮想イメージに含まれた少なくとも一つの地点に対する距離情報を含み、前記距離情報は前記第2推定深度マップイメージに基づいて決定される-を生成する動作;をさらに含む
    請求項6に記載の深度マップイメージ生成方法。
  10. 前記深度マップイメージ生成方法は、
    使用者端末を通じて使用者に前記球状仮想イメージを提供する動作;および
    前記使用者から前記球状仮想イメージの少なくとも一地点に対する使用者要請を受信すれば、前記少なくとも一地点に対する深度情報を抽出して前記使用者端末に提供する動作;をさらに含む
    請求項9に記載の深度マップイメージ生成方法。
  11. コンピュータ読み取り可能なインストラクション(instructions)を保存している保存媒体において、
    前記インストラクションは、コンピューティング装置によって実行される時、前記コンピューティング装置に、
    ニューラルネットワークを利用して学習RGBイメージに対する推定深度マップを生成する動作;および
    球状変換に基づいて生成された、学習深度マップ-前記学習深度マップは前記学習RGBイメージにマッチングされ深度情報を有する-および前記推定深度マップ間の差に基づいて前記ニューラルネットワークをトレーニングする動作;を遂行するようにし、
    前記インストラクションを実行することによって、
    前記学習深度マップイメージおよび前記第1推定深度マップイメージを球状変換し、
    球状変換された学習深度マップイメージと球状変換された第1推定深度マップイメージ間のロスを決定し、
    決定されたロスに対応して前記ニューラルネットワークの媒介変数を変更して前記ニューラルネットワークをトレーニングする
    ことを特徴とする保存媒体。
JP2022545059A 2021-06-23 2021-09-16 深度マップイメージ生成方法およびそのためのコンピューティング装置 Active JP7414332B2 (ja)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
KR10-2021-0081814 2021-06-23
KR1020210081608A KR102551467B1 (ko) 2021-06-23 2021-06-23 깊이 맵 이미지 생성 방법 및 그를 위한 컴퓨팅 장치
KR10-2021-0081608 2021-06-23
KR1020210081814A KR102536096B1 (ko) 2021-06-23 2021-06-23 학습 데이터 생성 방법 및 그를 위한 컴퓨팅 장치
PCT/KR2021/012652 WO2022270683A1 (ko) 2021-06-23 2021-09-16 깊이 맵 이미지 생성 방법 및 그를 위한 컴퓨팅 장치

Publications (2)

Publication Number Publication Date
JP2023534883A JP2023534883A (ja) 2023-08-15
JP7414332B2 true JP7414332B2 (ja) 2024-01-16

Family

ID=84542369

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022545059A Active JP7414332B2 (ja) 2021-06-23 2021-09-16 深度マップイメージ生成方法およびそのためのコンピューティング装置

Country Status (3)

Country Link
US (1) US20220414909A1 (ja)
EP (1) EP4174773A1 (ja)
JP (1) JP7414332B2 (ja)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015001760A (ja) 2013-06-13 2015-01-05 任天堂株式会社 画像処理システム、画像処理装置、画像処理プログラム、および画像処理方法
JP2016035742A (ja) 2014-07-31 2016-03-17 キヤノンマーケティングジャパン株式会社 情報処理システム、その制御方法、及びプログラム、並びに、情報処理装置、その制御方法、及びプログラム
CN112771539A (zh) 2018-09-25 2021-05-07 马特波特公司 采用使用神经网络从二维图像预测的三维数据以用于3d建模应用

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015001760A (ja) 2013-06-13 2015-01-05 任天堂株式会社 画像処理システム、画像処理装置、画像処理プログラム、および画像処理方法
JP2016035742A (ja) 2014-07-31 2016-03-17 キヤノンマーケティングジャパン株式会社 情報処理システム、その制御方法、及びプログラム、並びに、情報処理装置、その制御方法、及びプログラム
CN112771539A (zh) 2018-09-25 2021-05-07 马特波特公司 采用使用神经网络从二维图像预测的三维数据以用于3d建模应用

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Giovanni Pintore et al.,SliceNet: deep dense depth estimation from a single indoor panorama using a slice-based representation,[online],2021年06月01日, https://www.semanticscholar.org/paper/SliceNet%3A-deep-dense-depth-estimation-from-a-single-Pintore-Almansa/a868b61f141bce392a15b8db1a79a658ad03661e

Also Published As

Publication number Publication date
EP4174773A1 (en) 2023-05-03
JP2023534883A (ja) 2023-08-15
US20220414909A1 (en) 2022-12-29

Similar Documents

Publication Publication Date Title
US11145083B2 (en) Image-based localization
US10832432B2 (en) Method for training convolutional neural network to reconstruct an image and system for depth map generation from an image
US11380017B2 (en) Dual-view angle image calibration method and apparatus, storage medium and electronic device
CN109683699B (zh) 基于深度学习实现增强现实的方法、装置及移动终端
CN110163898B (zh) 深度信息配准方法、装置、***、设备及存储介质
JP2019510311A (ja) 平面の鏡を用いたステレオ画像システムを較正するための方法およびコンピュータプログラム製品
CN113129425B (zh) 一种人脸图像三维重建方法、存储介质及终端设备
US8509522B2 (en) Camera translation using rotation from device
CN113643414A (zh) 一种三维图像生成方法、装置、电子设备及存储介质
CN114332125A (zh) 点云重建方法、装置、电子设备和存储介质
CN114998433A (zh) 位姿计算方法、装置、存储介质以及电子设备
US10529085B2 (en) Hardware disparity evaluation for stereo matching
US20160335771A1 (en) Incremental global non-rigid alignment of three-dimensional scans
US11893681B2 (en) Method for processing two-dimensional image and device for executing method
JP7414332B2 (ja) 深度マップイメージ生成方法およびそのためのコンピューティング装置
JP7353675B2 (ja) 3次元仮想モデルを提供するためのホールフィリング方法及びそのためのコンピューティング装置
CN111742352A (zh) 3d对象建模方法以及相关设备和计算机程序产品
KR102536096B1 (ko) 학습 데이터 생성 방법 및 그를 위한 컴퓨팅 장치
KR102551467B1 (ko) 깊이 맵 이미지 생성 방법 및 그를 위한 컴퓨팅 장치
CN115880526A (zh) 图像处理方法、装置、电子设备及存储介质
US11908070B2 (en) Dynamic three-dimensional imaging method
KR20200071008A (ko) 2차원 이미지 처리 방법 및 이 방법을 실행하는 디바이스
JP6384961B2 (ja) カメラキャリブレーション装置、カメラキャリブレーション方法、カメラキャリブレーションプログラム及び記録媒体
US20240037780A1 (en) Object recognition method and apparatus, electronic device, computer-readable storage medium, and computer program product
CN112163509B (zh) 图像处理方法、装置、网络设备及存储介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220728

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230829

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20231127

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20231212

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20231221

R150 Certificate of patent or registration of utility model

Ref document number: 7414332

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150