JP2018514031A - DeepStereo:実世界の画像から新たなビューを予測するための学習 - Google Patents

DeepStereo:実世界の画像から新たなビューを予測するための学習 Download PDF

Info

Publication number
JP2018514031A
JP2018514031A JP2017550920A JP2017550920A JP2018514031A JP 2018514031 A JP2018514031 A JP 2018514031A JP 2017550920 A JP2017550920 A JP 2017550920A JP 2017550920 A JP2017550920 A JP 2017550920A JP 2018514031 A JP2018514031 A JP 2018514031A
Authority
JP
Japan
Prior art keywords
view
scene
depth
requested
pixel
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2017550920A
Other languages
English (en)
Other versions
JP6663926B2 (ja
Inventor
フリン,ジョン
スネイブリー,キース
ニューランダー,アイバン
フィルビン,ジェイムズ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Google LLC
Original Assignee
Google LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Google LLC filed Critical Google LLC
Publication of JP2018514031A publication Critical patent/JP2018514031A/ja
Application granted granted Critical
Publication of JP6663926B2 publication Critical patent/JP6663926B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/10Terrestrial scenes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24133Distances to prototypes
    • G06F18/24137Distances to cluster centroïds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T15/003D [Three Dimensional] image rendering
    • G06T15/10Geometric effects
    • G06T15/20Perspective computation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T15/003D [Three Dimensional] image rendering
    • G06T15/10Geometric effects
    • G06T15/20Perspective computation
    • G06T15/205Image-based rendering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/56Extraction of image or video features relating to colour
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Software Systems (AREA)
  • Medical Informatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Geometry (AREA)
  • Computer Graphics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Image Generation (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)
  • Processing Or Creating Images (AREA)

Abstract

ディープネットワークを使用して既存の画像から新たなビューを予測するディープラーニングのシステムおよび方法は、大規模データからモデルおよび表現を生成して改善することができる。このディープラーニングのシステムおよび方法は、多数のポーズ画像セットから訓練された、新たなビューの合成を画素から直接実行するディープアーキテクチャを利用し得る。このタイプのディープネットワークを利用するシステムは、隣接ビューの画素に基づいて、見たことがないビューの画素を生成し得て、グラフィックス生成の用途に適している。

Description

本願は、2015年5月13日に出願された米国仮出願番号第62/161,159号の優先権を主張し、その全文は、あたかも本明細書中に完全に記載されているかのように引用によって援用される。
分野
本文献は、一般に、画像に関連付けられるディープネットワークおよびディープラーニングに関する。
背景
大規模データからモデルおよび表示を生成して改良するためにディープネットワークおよびディープラーニングが適用される場合がある。ディープラーニングは、機械学習のさらに広範な適用例の一部であると考えることができる。ディープラーニングは、複数レベルの処理/コンピューティングデバイスから得られた、たとえばコンピュータビジョンにおける特徴表示の教師なし学習に基づき得て、これらの複数レベルの処理/コンピューティングデバイスは、低レベル特徴から高レベル特徴までの階層を形成する。これら複数の層の構成および配置は、たとえば特定の解決すべき課題に基づいて開発され得る。
概要
一局面において、方法は、データベースから複数のポーズ画像セット(posed image sets)にアクセスするステップを含み、上記複数のポーズ画像セットはそれぞれ複数の光景に対応し、上記複数のポーズ画像セットの各々は、上記複数の光景のうちの対応する光景の複数のビューを含み、上記方法はさらに、自動ビュー生成アルゴリズムに従って、上記光景に対応するポーズ画像セットに含まれる上記光景の上記複数のビューから選択されたビューに基づいて、光景の要求されたビューを生成するステップを含み、上記光景の上記要求されたビューは、上記対応するポーズ画像セットに含まれる上記光景の上記複数のビューに含まれておらず、上記方法はさらに、上記自動ビュー生成アルゴリズムによって生成された上記光景の上記ビューを上記光景の既知のビューと比較するステップと、上記比較に基づいて上記ビュー生成アルゴリズムを更新するステップとを含み得る。
別の局面において、方法は、レンダリングされるべき光景のビューに対する要求を受信するステップと、データベースから複数の記憶されたポーズ画像にアクセスするステップとを含み、上記複数の記憶されたポーズ画像はそれぞれ上記光景の複数のビューを表わし、上記方法はさらに、上記複数の記憶されたポーズ画像から複数の画像を選択するステップを含み、上記選択された複数の画像は、上記光景の上記要求されたビューに隣接する上記光景のビューを表わし、上記方法はさらに、複数の深さにおける上記選択された複数の画像の各々の深さスライスを再投影するステップと、上記光景の上記要求されたビューの深さを求め、上記再投影された深さスライスにおける画素に基づいて、上記求められた深さにおける上記光景の上記要求されたビューの各画素の色を求めるステップと、上記光景の上記要求されたビューを生成するステップとを含み得る。
別の局面において、方法は、光景のビューに対する要求を受信するステップと、複数のポーズ画像セットを記憶するデータベースから、上記光景の上記要求されたビューに対応するポーズ画像セットを検索するステップとを含み、上記複数のポーズ画像セットの各々は、対応する光景の複数のビューを含み、上記方法はさらに、上記対応するポーズ画像セットに含まれる上記光景の上記複数のビューからの選択されたビューに基づいて上記光景の上記要求されたビューを生成するステップを含み得て、上記要求されたビューは、上記対応するポーズ画像セットの上記光景の上記複数のビューに含まれていない。
別の局面において、光景のビューを生成するためのシステムは、ネットワークを含み得る。上記ネットワークは、プロセッサを含むコンピューティングデバイスを含み、上記コンピューティングデバイスは、データベースと通信し、上記データベースは、複数の光景にそれぞれ対応する複数のポーズ画像セットを記憶し、上記複数のポーズ画像セットの各々は、上記複数の光景のうちの対応する光景の複数のビューを含み、上記ネットワークはさらに、要求された出力画像内の各出力画素の深さを求めるように構成されたセレクションタワーを含み、上記要求された出力画像は、光景の要求されたビューに対応し、上記ネットワークはさらに、上記要求された出力画像の各出力画素の色を生成するように構成されたカラータワーを含み得る。上記セレクションタワーおよび上記カラータワーは、上記光景の上記要求されたビューに対応する上記ポーズ画像セットに含まれる上記光景の上記複数のビューから、選択されたビューを受信するように構成されてもよく、上記光景の上記要求されたビューは、上記対応するポーズ画像セットの上記光景の上記複数のビューに含まれていない。上記セレクションタワーおよび上記カラータワーは、上記コンピューティングデバイスの上記プロセッサによる処理のために上記要求された出力画像を生成して上記光景の上記要求されたビューを生成するように構成され得る。
1つ以上の実現例の詳細を添付の図面および以下の説明に記載する。他の特徴は、説明および図面ならびに特許請求の範囲から明らかになるであろう。
本明細書に記載されている実現例に係る、既存の画像からレンダリングされた新たなビューを示す。 本明細書に記載されている実現例に係る、既存の画像からレンダリングされた新たなビューを示す。 本明細書に記載されている実現例に係る、ある範囲の深さにおけるさまざまなビューから新たなターゲットカメラ視野へのさまざまな画像の平面スイープステレオ再投影を示す。 本明細書に記載されている実現例に係る、セレクションタワーとカラータワーとを含むネットワークを示す。 本明細書に記載されている実現例に係る、セレクションタワーとカラータワーとを含むネットワークを示す。 本明細書に記載されている実現例に係る、各深さ平面内の各画素について選択確率を生成することを学習するように構成されたセレクションタワーを示す。 本明細書に記載されている実現例に係る、ソースにわたって画素を結合およびワーピングして複数の深さ平面における特定の画素について色を生成することを学習するように構成されたカラータワーを示す。 本明細書に記載されている実現例に係る、システムおよび方法によって生成された再投影画像の2つの異なる例を示す。 本明細書に記載されている技術を実現するために使用することができるコンピューティングデバイスおよびモバイルコンピューティングデバイスの一例を示す。
詳細な説明
ディープネットワークは、さまざまな異なるタイプの認識および分類問題に適用することができる。本明細書に記載されている実現例に係るシステムおよび方法では、ディープネットワークは、たとえばディープアーキテクチャを使用してコンピュータビジョンおよびグラフィックスにおける認識および分類問題に適用されてもよく、当該ディープアーキテクチャは、たとえば何百万ものポーズ画像セットなどの多数のポーズ画像セット、たとえば観点および/または色および/または深さなどの公知の特徴を有する画像セット、から新たなビューの合成を直接実行するように学習する。たとえば、本明細書に記載されている実現例に係るシステムおよび方法では、ディープネットワークは、この比較的多数のポーズ画像セットから訓練されてもよく、次いで動作時に、比較的少数の関連画像に依拠して、多数のポーズ画像セットを用いて行われた訓練に基づいて、新たなこれまで見られなかったビューを生成してもよい。
複数の複雑な処理段階に依存することとは対照的に、本明細書に記載されている実現例に係るシステムおよび方法は、たとえば光景の隣接ビューの画像、たとえば画像の画素、をネットワークに提示して、当該光景の見たことがない任意の/要求されたビューの画像を直接生成することによって、端末相互間で訓練されてもよい。要求されたビューは、たとえば特定の観点および/または視点および/または深さからの対象または対象領域のビューであってもよい。隣接画像は、たとえば要求されたビューに隣接するポーズ画像セットから入手可能な画像であってもよい。たとえば、いくつかの実現例では、当該システムは、光景のさまざまなビューの入力画像セットを提示し、当該入力画像セットに含まれないビューを要求し、次いで当該要求に応答して生成されるべき画像をネットワークに提示することによって訓練されてもよい。いくつかの実現例では、ビュー合成のために、1つの画像を除去してそれを取っておき、次いで除去された画像を残りの画像から再現することによって、1つ以上のポーズ画像セットが訓練セットとして使用されてもよい。本明細書に記載されている実現例によれば、比較的広範なデータベースから得られる比較的大量のデータを使用してモデルが訓練されてもよい。このタイプのデータベースの一例は、地球の大部分に及ぶ大規模なポーズ画像コレクションを含むストリートビューマッピングデータベースである。説明および図示を容易にするために必要に応じて以下でこの例を参照し得るが、本明細書に記載されている原理は、他のこのような広範なデータコレクションを利用する他の実現例に適用されてもよい。
当該システムは、反復を通じて、(たとえばストリートビューマッピングデータベースなどの)大規模データベースで入手可能な画像/ビューを活用して、そのプロセスを連続的に学習および改良して、要求された画像を生成してもよい。この端末相互間アプローチにより、一定レベルの普遍性を可能にすることができ、これにより、ポーズ画像セットに依拠してさまざまなドメインに適用して、過去のデータから学習した色、深さおよびテクスチャなどのさまざまな特徴に基づいて、見たことがない画素を書き込む。このアプローチは、ビュー補間およびビュー合成された全方向立体画像を生成する際に、たとえばオクルージョンおよび曖昧さに起因するアーチファクトの発生を減少させることができ、合成することが比較的困難な光景について比較的高品質の結果をもたらすことができる。
複数のポーズ画像から三次元(3D)形状を推定することは、レンダリングおよび編集することが可能な光景の三次元表示の生成における基本的タスクであり得る。いくつかの実現例では、ある形態の画像ベースレンダリング(image based rendering:IBR)によって新たなビューの合成が実行されてもよく、当該IBRでは、光景の新たなビューは、当該光景の新たなビューを合成するために光景の付近のポーズ画像から画像をワーピングおよび結合することによって合成される。このアプローチは、たとえば拡張現実および/または仮想現実システム、テレカンファレンスシステム、三次元単眼フィルムシステム、映画撮影法、手ぶれ補正、および他のこのような実現例に適用されてもよい。各ターゲット画素の立体、色およびオクルージョン成分をモデル化することができるマルチビュー立体または画像ワーピング方法を含む技術に加えて、本明細書に記載されている実現例に係るシステムおよび方法は、ディープネットワークを活用して、ポーズ画像から新たなビューを合成するように直接学習してもよい。
新たなビューの合成のこのタイプのアプローチでは、ディープネットワークは、ポーズ入力画像を仮定して出力画素色に直接後戻りすることに使用されてもよい。このシステムは、たとえば訓練の端末相互間性質および入力に関連する非常に複雑な非線形関数を学習することができるディープネットワークの能力により、ワイドベースラインによって分離されたビュー間を補間し得る。本明細書に記載されている実現例に係るシステムおよび方法では、光景がレンダリングされることについての最小限の仮定は、たとえば有限の深さ範囲内の光景の比較的静的な性質を含み得る。これらのパラメータの範囲外であっても、結果として生じる画像は、比較的体裁良く劣化し得て、視覚的にもっともらしいままであり得る。新たなビューの合成への適用に加えて、本明細書に記載されているディープアーキテクチャを利用するシステムおよび方法は、好適な訓練データを仮定して他の立体およびグラフィックス問題にも適用されてもよい。
たとえば、図1Aに示されるように、図1Aに示される家などの所与の光景Aの新たなビューCが、新たなビューCに関連する追加情報なしに、それぞれ第1および第2の視点VおよびVにおける既存の第1および第2の画像IおよびIからネットワークによってレンダリングされてもよい。同様に、図1Bに示される屋外の光景などの所与の光景Bの新たなビューCが、新たなビューCに関連する追加情報なしに、各々異なるそれぞれの視点V〜Vにおける既存の複数の画像I〜Iからネットワークによってレンダリングされてもよい。
ディープネットワークを画像理解および解釈に適用することは、いくつかの実現例では、グラフィックス生成、特に特定のグラフィックスアプリケーションに関連付けられる深さおよび立体にディープラーニングを適用するための基礎を提供し得る。さらに、性能の改善は、小さな畳み込みおよびプーリングの多くの層を使用してプーリングを行って、ディープネットワークに関連付けられる多数のパラメータに対処することによって達成することができ、大量のデータがない場合には、当該多数のパラメータによりこれらのシステムは過学習に陥りやすくなる可能性がある。
本明細書に記載されている実現例に係るシステムおよび方法は、たとえば光景が静止していることおよび光景が有限の深さ範囲内に存在していることなど、上記のような光景がレンダリングされることについての最小限の仮定を行ってもよい。いくつかの実現例では、モデルは、たとえば事前作業で使用される画像コレクションを含む訓練データを超えて新規の画像に一般化してもよい。
図2に示されるように、ポーズ入力画像I〜Iのセットを仮定して、新たなターゲットカメラCの視点から新たな画像がレンダリングされてもよく、新たなターゲットカメラCは、ポーズ入力画像I〜Iから生成される新たな光景に関連付けられる取り込み視野または新たな視点を表わす。図2において、平面スイープステレオは、視点VおよびVからのポーズ入力画像IおよびIをそれぞれ、たとえば最小深さdから最大深さdまでの多数の異なる深さでターゲットカメラCに再投影し、ポーズ入力画像IおよびIの1つ以上の再投影画像は、1つ以上の中間深さdで撮られる。たとえば、ポーズ入力画像Iの再投影画像R〜Rは、d〜dの範囲の深さで生成されてもよく、ポーズ入力画像Iの再投影画像S〜Sは、d〜dの範囲の深さで生成されてもよい。図2において、点線は、特定の出力画像画素R〜R,S〜Sに再投影される入力画像IおよびIからの画素を示し得る。
新たな画像をレンダリングするための1つのアプローチは、入力画像をネットワークに直接供給することによって新たなビューを合成するようにディープネットワークを単純に訓練するというものであってもよい。このアプローチでは、新たな視点(新たなターゲットカメラCの視野に対応する、生成されるべき新たなビューC)のポーズ(pose)パラメータを入力としてネットワークに供給して所望のビュー/画像を生成してもよい。ポーズパラメータ、入力画像および出力画像の複雑な非線形の関係により、これはネットワークが回転角の解釈の仕方および画像再投影の実行の仕方を学習することも必要とするため、ネットワークリソースの非効率的な使用である可能性がある。また、このアプローチでは、ネットワークは、元の入力画像内の離れている可能性がある画素を比較および結合して新たなビューを合成してもよく、これにより、ネットワーク内での比較的高密度の長距離の接続の必要性に拍車がかかり、特に大規模データを扱う際にはネットワークが訓練の速度がゆっくりになって過学習に陥りやすくなる。このことは、場合によっては、内部エピポーラ拘束を適用して対応するエピポーラ線上のホースへの接続を制限するように構成されたネットワーク構造によって対処することができる。しかし、このタイプの構造は、特に大規模データを扱う際にポーズ依存的であり、計算効率が悪い可能性がある。
上記のように、視点V〜Vからの一連の入力画像I〜Iはそれぞれ、新たな/要求されたビューCがレンダリングされる視点または新たなターゲットカメラCに対してd〜dの異なる距離で再投影されてもよく、これらの異なる再投影距離でスライスをレンダリングする。当該システムは、新たなターゲットカメラCに比較的近い位置(たとえば、ストリートビューの場合は新たなターゲットカメラCからおよそ2m)から、新たなターゲットカメラCから比較的遠い位置(たとえば、ストリートビューの場合は新たなターゲットカメラCからおよそ30メートル以上)まで、所与の間隔で、深さ範囲(たとえば、いくつかの実現例では、64〜96個の異なる深さ)をスイープしてもよい。いくつかの実現例では、当該システムは、逆数距離、もしくは1/距離、たとえば1/最大距離dの最小間隔、または最小距離dと最大距離dとの間の別の距離に基づく別の間隔で、深さ範囲を進んでもよい。これらの再投影深さスライスから、各入力ビューについての再投影深さスライスが生成されてもよく、各々の再投影深さスライスについて多数の画像が入手可能である(たとえば、4〜5個の入力ビューの各々が深さスライス当たり4〜5個の画像を有する)。たとえば、左側の再投影画像の画素と右側の投影画像の画素とは、(それぞれ)正確な深さで整列してもよい。再投影深さスライスは結合されて、当該深さスライスについて最良の色を生成し、特定の画素/画像について正確な深さを求めてもよい。ネットワークは、特定の画素について正確な深さおよび正確な深さスライスを求め、次いで、正確な色を求めてもよい。これらの要素は、一緒に学習されてもよい。次いで、ネットワークは、特定の画素が特定の深さスライスに位置する確率を求め、または学習し、当該確率と計算された色とを掛け合わせ、これを合計して、最終画像を生成してもよい。
より具体的には、本明細書に記載されている実現例に係るシステムおよび方法では、ネットワークは、三次元平面スイープボリュームセットを入力として含み得る。平面スイープボリューム(plane sweep volume:PSV)は、たとえば新たなターゲットカメラCに再投影される画像のスタックを含み得る。スタック内の各画像は、種々の深さのセットd∈d...dで新たなターゲットカメラCに再投影されて、平面スイープボリュームV=P...P...Pを形成してもよい。すなわち、図2に示されるように、平面スイープステレオは、深さ範囲d∈d...dでVおよびVからの画像I,Iを新たなターゲットカメラCに再投影してもよい。入力画像をターゲットカメラCに再投影することは、たとえばテクスチャマッピングを使用してなされてもよく、グラフィックス処理ユニット(graphics processing unit:GPU)によって実行されてもよい。別個の平面スイープボリュームV が各入力画像について生成されてもよい。各平面スイープボリュームV における各ボクセルvx,y,zは、R,G,BおよびA(アルファ)成分を有してもよく、アルファチャネルは、当該特定のボクセルについてのソース画素の利用可能性を示す。
平面スイープボリュームをネットワークへの入力として使用することによって、ポーズパラメータは、別個に供給される入力ではなく、平面スイープボリュームの構成において使用される暗黙的な入力になり得る。また、対応する画素がここでは平面スイープボリュームの対応する列に配置されるので、当該平面スイープボリューム内でエピポーラ拘束を自明に実施可能である。したがって、画素/画像間の長距離接続は不要であり、所与の出力画素/画像は、ソース当たりの平面スイープボリュームの各々からの小さなボクセル列にのみ依存する。同様に、位置i,jにおいて出力画素pを生成するために実行される計算が画素pi,jの位置からほとんど独立しているので、畳み込みニューラルネットワークを使用することができ、当該畳み込みニューラルネットワークは、完全に接続されたネットワークよりも必要なパラメータが少なく、そのため訓練の速度が速いであろう。畳み込みニューラルネットワーク上で推測を実行する速度も速い可能性があり、先行する層からの計算を共有することができる。たとえば、一実施形態では、モデルは、入力平面スイープボリューム内の各平面に二次元(2D)畳み込み層を適用してもよい。畳み込み層内で重みを共有することに加えて、モデルは、平面スイープボリューム内の平面にわたる重み共有を活用してもよく、これにより、各平面上で実行される計算を平面の深さから独立したものにすることができる。
いくつかの実現例では、モデルは層の2つのタワーを含み得て、各タワーへの入力は平面スイープボリュームセットV である。この二重アーキテクチャは、深さ予測も色予測も可能にすることができる。たとえば、深さ予測では、出力画像内の各画素についての概算深さを求め、次いで使用されるソース画像画素を求めて、出力画素を生成してもよい。この深さについての確率は、二乗距離の総和(sum of squared distances:SSD)アプローチ、正規化相互相関(normalized cross correlation:NCC)アプローチまたは分散アプローチではなく、訓練データを使用して計算されてもよい。色予測では、出力画素の色は、全ての関連するソース画像画素を仮定して、単に単純な平均化を実行するのではなく、訓練データを使用してソース画素を最適に結合することによって生成されてもよい。
図3に示される2つのタワーは、深さ予測および色予測のタスクを遂行してもよい。セレクションタワーは、各画素が特定の深さを有する尤度を示す確率マップ(または選択マップ)を各深さについて生成してもよい。カラータワーは、各深さについてフルカラー出力画像を生成してもよい。たとえば、カラータワーは、深さが当該特定の画素にとって正確であると仮定して、考えられる最良の色を各深さについて生成してもよい。次いで、カラー画像は、画素当たりの加重和として結合されてもよく、重みは選択マップから導かれる。すなわち、選択マップを使用して、各出力画素で使用すべき最良の色層を決定してもよい。ビュー合成のこのアプローチにより、システムは、ディープラーニング方法を使用してセレクションタワーおよびカラータワーの両方の全てのパラメータを同時に端末相互間で学習することができる。さらに、色層にわたる加重平均は、特にアルゴリズムがあまり確信に満ちたものでない領域では、不確実性に対するいくらかの復元力をもたらすことができる。
特に、各タワーの第1の層は、ソースにわたって入力平面スイープボリュームを連結してもよく、これにより、ネットワークはソースにわたって再投影画素値を比較および結合することができる。たとえば、図3および図4に示されるセレクションタワーは、図4に示されるように、各平面P内の各画素pi,jについて、当該平面における当該画素についての選択確率si,j,dを計算してもよい。図3および図4に示されるカラータワーは、図5に示されるように、各平面P内の各画素pi,jについて、当該平面における当該画素についての色ci,j,dを計算してもよい。各画素についての最終出力色は、式(1)に示されるように平面の深さにわたって合計することによって計算されてもよい。
各タワーへの入力は、平面スイープボリュームセットV (全てのボリュームにわたる全ての再投影画像N−Dを含み、Nはソース画像の数であり、Dは深さ平面の数である)を含み得る。各タワーの第1の層は、各再投影画像P 上で独立して動作してもよく、これにより、システムは低レベルの画像特徴を学習することができる。第1の層の後に、N個のソースに対応する特徴マップが各深さ平面にわたって連結されてもよく、後続の層は、これらの深さ平面当たりの特徴マップ上で動作してもよい。セレクションタワーの最終層は、深さ平面にわたる接続も利用してもよい。
いくつかの実現例では、セレクションタワーは、2つの主要な段階を含み得る。先行する層は、たとえば全ての深さ平面にわたって重みを共有するいくつかの二次元畳み込み正規化線形層を第1の層の深さ平面内に含み得る。たとえば、過去の学習に基づいて、先行する層は、画素差などの深さから独立している特徴を計算してもよく、そのため、それらの重みは共有されてもよい。最終的な層セットは、深さ平面にわたって接続されてもよく、その結果、オクルージョン(たとえば、深さに曖昧さがある場合には、ネットワークは、平面が接近しているほど高いスコアを有することを好むように学習し得る)によるものなどの深さ平面間の深さ平面相互作用をモデル化することができる。ネットワークの最終層は、図4に示されるように、深さについての画素当たりのソフトマックス正規化トランスフォーマであってもよい。ソフトマックストランスフォーマは、全ての深さ平面にわたる合計が1であることを確実にしながらモデルに画素当たり単一の深さ平面を選択させ得る。いくつかの実施形態では、最後から2番目の層でtanh活性化を使用することにより、線形層よりも安定した訓練をもたらすことができる。たとえば、いくつかの状況下では、線形層は、たとえばソフトマックス層に関連付けられる比較的大きな勾配により、特定の深さ平面においてシャットダウンして回復しない可能性がある。セレクションタワーの出力は、式(2)に示されるように単一のチャネルノードsi,j,dの三次元ボリュームであってもよい。
図5に示されるように、カラータワーは、たとえば全ての平面にわたって重みを共有する二次元畳み込み正規化線形層と、それに続く線形再構成層とを含み得る。オクルージョン作用は、色層では同一レベルの関連性を有しておらず、そのため深さにわたる相互作用は不要であろう。カラータワーの出力は、ノードci,j,dの三次元ボリュームであってもよい。出力における各ノードは、R,GおよびBに対応する3つのチャネルを有してもよい。
セレクションタワーおよびカラータワーの出力はともにノードを掛け合わせられて出力画像を生成してもよい。訓練中、結果として生じる画像は、たとえば画素当たりの損失Lを使用して既知のターゲット画像Iまたは訓練画像と比較されてもよい。合計損失Lは、式(3)に従って求められてもよく、c,i は画素i,jにおけるターゲットカラーである。
いくつかの実現例では、当該システムは、一度に画像全体を予測するのではなく、パッチごとに出力画像を予測してもよい。入力パッチの周囲の連続的に大きくなる領域の低解像度バージョンのセットを通過することによって、ネットワークにさらに多くのコンテキストを提供することにより結果を改善することができ、結果の改善は、予測されるビューがさらに正確であることを意味する。たとえば、いくつかの実現例では、当該システムは、4つの異なる解像度を通過してもよい。各解像度は、まずいくつかの層によって独立して処理され、次いで最終層に入る前にアップサンプリングおよび連結されてもよい。アップサンプリングは、最近隣内挿法を利用してもよい。完全なネットワークのさらなる詳細は図6に示されている。
1つの例示的な実現例では、上記のように、モデルを訓練するために比較的大量のデータが比較的広範なデータベースから得られてもよい。上記の例示的な実現例では、ストリートビューデータベースによって含まれる、地球の大部分に及ぶ大規模なポーズ画像コレクションを使用して、このようなモデルを訓練してもよい。この例示的な実現例では、移動車両によって取り込まれた街路光景の画像を使用してネットワークを訓練してもよい。当該画像は、たとえばオドメトリおよびモーション技術からの構造を使用してポーズされてもよい。車両は、移動しながら画像のクラスタまたはグループまたはロゼットを断続的に取り込んでもよい。たとえば、車両は、複数の予め定められたタイムスタンプの各々において画像のロゼットを取り込んでもよい。各ロゼットは、予め定められた視点から取り込まれた予め定められた配置の複数の画像を含み得る。たとえば、いくつかの実現例では、各ロゼットは、利用される画像取込装置またはカメラのタイプによって、8個の画像、または15個の画像、または別の数の画像を含んでいてもよい。各々が複数の画像を含むロゼットは、入力画像のストリームを定義し得る。
いくつかの実現例では、当該システムの訓練は、サンプル生成パイプラインを実質的に連続的に実行し、比較的多数のロゼットに含まれる入力画像からランダムなパッチを選択および再投影することを含み得る。たとえば、1つの例示的な実現例では、100,000個までのロゼットがサンプル生成パイプラインに含まれていてもよく、ネットワークは、図3に示されるように、26×26の入力パッチから8×8の出力パッチを生成するように訓練されてもよい。多数の画像からの複数のパッチは結合されて、たとえば400という予め定められたサイズを有するミニバッチを生成してもよい。次いで、ネットワークは、たとえば分散型勾配降下を使用して訓練されてもよい。サンプルランダム化および入手可能な比較的大量の訓練データにより、この例示的な実現例では、訓練中にパッチのうちのいずれかが二重使用されることは全く起こりそうにない。
上記の態様でネットワークを訓練することの有効性を評価するために、同一のモデルまたはアルゴリズムを使用するが2つの異なるタイプの訓練データを使用して2つのネットワークが訓練された。第1のネットワークは、上記のように広範なストリートビューデータベースによって提供された画像データに基づいて訓練された。ストリートビューデータベースに含まれる画像は、上記のように、オドメトリと他のモーション方法との組み合わせを使用して、画像セットまたはロゼットセットを取り込むローリングシャッタを用いた車載カメラにより、各露光について異なる方向でポーズされた。第2のネットワークは、標準的なオドメトリデータセットからのポーズ画像シーケンスを使用して訓練された。ビュー補間のタスクに関する第1および第2のネットワークの性能を評価する際に、既知の(しかし保留されている)画像と同一の視点から新規の画像が生成された。訓練中に、第1のネットワークを訓練するために使用されるストリートビューデータベースの各ロゼットはあらゆる方向の画素を提供するため、再投影された深さ平面は常に有効な画素を有する。第2のネットワークを訓練するために使用される標準的なデータセットでは、深さ平面のいくつかの部分は全てのカメラから見えるとは限らなかった。訓練中、モデルは欠けている画素に遭遇しなかったので、欠けている画素は、第2のネットワークによって生成された画像の主に境界において当該画像に何らかのエラーを生じさせた。
さらなる比較において、ベースラインIBRアルゴリズムは実行されて、4つの最も近い入力画像を使用して深さを計算し、2つの最も近い画像からの画素をターゲットビューに当て(splat)、隣接する有効な画素を拡散させていかなる小さな残りの孔も塞ぐ。本明細書に記載されている実現例に係るシステムおよび方法は、全ての間隔についてベースラインIBRアルゴリズムより性能が優れていた。また、本明細書に記載されている実現例に係るシステムおよび方法は、中間画像を補間するために適用されたオプティカルフローアルゴリズムよりも性能が優れていた。このタイプのオプティカルフローアルゴリズムを実行する際の三次元ポーズの概念がないので、補間された画像は、保留されている画像の視点におよそ位置しているのみである。
全体的に見て、本明細書に記載されている実現例に係るシステムおよび方法において実現されるモデルは、元の実際の画像と区別することが困難であり得る比較的高品質の出力画像を生成することができる。当該モデルは、体裁良く、比較的目立たないほどに劣化する鏡面の性能を有する、図1Bに示されるたとえば木およびガラスなどのさまざまな異なるタイプの難易度の高い面およびテクスチャを処理することができる。たとえばある光景における風に揺れる旗などの、訓練中にしばしば遭遇する可能性がある動く物体は、モーションブラーを喚起するような態様でぼやけてしまう可能性がある。これらの画像を生成するように学習するネットワークの一例が図7に示されている。
図7は、この態様で生成された再投影画像の2つの異なる例を示す。1つの画像は、比較的平滑な表面テクスチャを有するテーブルの画像であり、第2の画像は、より複雑な視覚テクスチャを有する木の画像である。これらの画像は、単一の深さ平面において再投影され、これらの画像によって表わされる切り取られた領域が当該特定の平面において強い選択確率を有するように選択されている。再投影入力ビューは図7の左側部分に示されており、所与の深さ平面における選択層および色層の出力は図7の中央部分に示されており、平均との比較は図7の右側部分に示されている。図7に示されるように、色層は、再投影入力画像を単純に平均することを超えて寄与し得る。それどころか、色層は、入力をワーピングし、しっかりと結合して、当該深さ平面についてのカラー画像を生成するように学習し得る。これにより、システムは、差異を有する2つ以上の画素によって分離される深さ平面を生成することができる。
本明細書に記載されている実現例に係るシステムおよび方法では、ディープネットワークは、ポーズ画像セットのみを使用して新たなビューの合成を実行して当該ポーズ画像セットから高品質の正確な合成されたビューを提供するように端末相互間で訓練され得る。上記のように、予測することを学習するためのシステムおよび方法は、ディープネットワークによって促進されるディープラーニングによって実現されて、大規模データからモデルおよび表現を生成して改善することができる。このようなディープネットワークを動作させるデータは、複数レベルの処理/コンピューティングデバイスから得ることができ、これらの複数レベルの処理/コンピューティングデバイスは、特定の解決すべき課題に基づいて低レベル特徴から高レベル特徴までの階層を形成する。
図8は、ディープネットワークに含まれ得る一般的な電子コンピューティングデバイス700および一般的なモバイル電子コンピューティングデバイス780の一例を提供する。コンピューティングデバイス700は、ラップトップコンピュータ、コンバーチブルコンピュータ、タブレットコンピュータ、デスクトップコンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、メインフレーム、および他の適切なコンピュータなどのさまざまな形態のデジタルコンピュータを表わすよう意図されている。コンピューティングデバイス780は、パーソナルデジタルアシスタント、携帯電話、スマートフォン、および他の同様のコンピューティングデバイスなどのさまざまな形態のモバイルデバイスを表わすよう意図されている。ここに示されている構成要素、それらの接続および関係、ならびにそれらの機能は、単に例示的であるよう意図されており、本文献に記載および/またはクレームされている本発明の実現例を限定することを意図したものではない。
コンピューティングデバイス700は、プロセッサ702と、メモリ704と、記憶装置706と、メモリ704および高速拡張ポート710に接続する高速インターフェイス708と、低速バス714および記憶装置706に接続する低速インターフェイス712とを含む。構成要素702,704,706,708,710および712の各々は、さまざまなバスを使用して相互接続され、共通のマザーボード上にまたは他の態様で適宜実装されてもよい。プロセッサ702は、コンピューティングデバイス700内で実行するために命令を処理することができ、当該命令は、高速インターフェイス708に結合されたディスプレイ716などの外部入出力デバイス上にGUIのためのグラフィック情報を表示するためにメモリ704内または記憶装置706上に記憶された命令を含む。他の実現例では、複数のメモリおよび複数のタイプのメモリとともに、複数のプロセッサおよび/または複数のバスが適宜使用されてもよい。また、複数のコンピューティングデバイス700が接続されてもよく、各デバイスは(たとえば、サーババンク、ブレードサーバの群、またはマルチプロセッサシステムとして)必要な動作の一部を提供する。
メモリ704は、コンピューティングデバイス700内の情報を記憶する。一実現例では、メモリ704は、揮発性メモリユニットまたは複数の揮発性メモリユニットである。別の実現例では、メモリ704は、不揮発性メモリユニットまたは複数の不揮発性メモリユニットである。また、メモリ704は、磁気ディスクまたは光ディスクなどの別の形態のコンピュータ読取可能な媒体であってもよい。
記憶装置706は、コンピューティングデバイス700に大容量記憶を提供することができる。一実現例では、記憶装置706は、コンピュータ読取可能な媒体であってもよく、またはコンピュータ読取可能な媒体を含んでいてもよく、当該コンピュータ読取可能な媒体は、フロッピー(登録商標)ディスクデバイス、ハードディスクデバイス、光ディスクデバイス、またはテープデバイス、フラッシュメモリ、または他の同様のソリッドステートメモリデバイス、またはストレージエリアネットワークにおけるデバイスもしくは他の構成を含むデバイスのアレイなどである。コンピュータプログラム製品が情報キャリアにおいて有形に実施されてもよい。コンピュータプログラム製品は、実行されたときに上記の方法などの1つ以上の方法を実行する命令も含んでいてもよい。情報キャリアは、メモリ704、記憶装置706、またはプロセッサ702上のメモリなどのコンピュータまたは機械読取可能な媒体である。
高速コントローラ708は、コンピューティングデバイス600のための帯域幅集約的な動作を管理する一方、低速コントローラ712は、低帯域幅集約的な動作を管理する。このような機能の割り当ては例示に過ぎない。一実現例では、高速コントローラ708は、メモリ704、ディスプレイ716(たとえば、グラフィックスプロセッサまたはアクセラレータを介して)、およびさまざまな拡張カード(図示せず)を受け付けることができる高速拡張ポート710に結合されている。当該実現例では、低速コントローラ712は、記憶装置706および低速拡張ポート714に結合されている。さまざまな通信ポート(たとえば、USB、ブルートゥース(登録商標)、イーサネット(登録商標)、ワイヤレスイーサネット)を含み得る低速拡張ポートは、キーボード、ポインティングデバイス、スキャナなどの1つ以上の入出力デバイス、またはスイッチもしくはルータなどのネットワーキングデバイスに、たとえばネットワークアダプタを介して結合されてもよい。
コンピューティングデバイス700は、図に示されるように、いくつかの異なる形態で実現されてもよい。たとえば、コンピューティングデバイス700は、標準的なサーバ720として実現されてもよく、またはこのようなサーバの群の状態で複数回実現されてもよい。また、コンピューティングデバイス700は、ラックサーバシステム724の一部として実現されてもよい。また、コンピューティングデバイス700は、ラップトップコンピュータ722などのパーソナルコンピュータの状態で実現されてもよい。代替的に、コンピューティングデバイス700からの構成要素は、デバイス780などのモバイルデバイス内の他の構成要素(図示せず)と結合されてもよい。このようなデバイスの各々は、コンピューティングデバイス700,780のうちの1つ以上を含んでいてもよく、システム全体が、互いに通信する複数のコンピューティングデバイス700,780で構成されてもよい。
コンピューティングデバイス780は、いくつかある構成要素の中で特に、プロセッサ782と、メモリ764と、ディスプレイ784などの入出力デバイスと、通信インターフェイス766と、送受信機768とを含む。デバイス780は、さらなる記憶を提供するために、マイクロドライブまたは他のデバイスなどの記憶装置も備えていてもよい。構成要素780,782,764,784,766および768の各々は、さまざまなバスを使用して相互接続され、構成要素のうちのいくつかは、共通のマザーボード上にまたは他の態様で適宜実装されてもよい。
プロセッサ782は、メモリ764に記憶された命令を含むコンピューティングデバイス780内の命令を実行することができる。プロセッサは、別個の複数のアナログおよびデジタルプロセッサを含むチップのチップセットとして実現されてもよい。プロセッサは、たとえばユーザインターフェイス、デバイス780によって実行されるアプリケーション、およびデバイス780による無線通信の制御などの、デバイス780の他の構成要素同士の協調を提供してもよい。
プロセッサ782は、ディスプレイ784に結合された制御インターフェイス788およびディスプレイインターフェイス786を介してユーザと通信してもよい。ディスプレイ784は、たとえばTFT LCD(薄膜トランジスタ液晶ディスプレイ)またはOLED(有機発光ダイオード)ディスプレイ、または他の適切なディスプレイ技術であってもよい。ディスプレイインターフェイス786は、ディスプレイ784を駆動してグラフィックおよび他の情報をユーザに提示するための適切な回路を備えていてもよい。制御インターフェイス788は、ユーザからコマンドを受信し、それらを変換して、プロセッサ782に発信してもよい。たとえば、制御インターフェイス788は、たとえばキーボード780を介してユーザが入力した入力を受け取り、当該入力をプロセッサ782に送信して、対応するテキストを表示されたテキストボックスに入力するなどの処理を行ってもよい。また、他のデバイスとのデバイス780の近接領域通信を可能にするように、外部インターフェイス762がプロセッサ782と通信する状態で設けられてもよい。外部インターフェイス762は、たとえばいくつかの実現例では有線通信を提供してもよく、または他の実現例では無線通信を提供してもよく、複数のインターフェイスも使用されてもよい。
メモリ764は、コンピューティングデバイス780内の情報を記憶する。メモリ764は、コンピュータ読取可能な媒体もしくは複数のコンピュータ読取可能な媒体、揮発性メモリユニットもしくは複数の揮発性メモリユニット、または不揮発性メモリユニットもしくは複数の不揮発性メモリユニットのうちの1つ以上として実現することができる。また、拡張メモリ774が設けられて、拡張インターフェイス772を介してデバイス880に接続されてもよく、拡張インターフェイス772は、たとえばSIMM(シングルインラインメモリモジュール)カードインターフェイスを含んでいてもよい。このような拡張メモリ774は、追加の記憶スペースをデバイス780に提供してもよく、またはデバイス780のためのアプリケーションもしくは他の情報も記憶してもよい。具体的には、拡張メモリ774は、上記のプロセスを実行または補完するための命令を含んでいてもよく、安全な情報も含んでいてもよい。したがって、たとえば、拡張メモリ774は、デバイス880のためのセキュリティモジュールとして提供されてもよく、デバイス880の安全な使用を許可する命令でプログラムされてもよい。また、ハッキング不可能な態様でSIMMカードに識別情報を乗せるなど、追加情報とともに安全なアプリケーションがSIMMカードを介して提供されてもよい。
メモリは、たとえば下記のフラッシュメモリおよび/またはNVRAMメモリを含んでいてもよい。一実現例では、コンピュータプログラム製品が情報キャリアにおいて有形に実施される。コンピュータプログラム製品は、実行されたときに上記の方法などの1つ以上の方法を実行する命令を含む。情報キャリアは、メモリ764、拡張メモリ874、またはプロセッサ782上のメモリなどのコンピュータまたは機械読取可能な媒体であり、たとえば送受信機768または外部インターフェイス762を介して受信され得る。
デバイス780は、必要に応じてデジタル信号処理回路を含み得る通信インターフェイス766を介して無線で通信してもよい。通信インターフェイス76は、とりわけGSM(登録商標)音声電話、SMS、EMSもしくはMMSメッセージング、CDMA、TDMA、PDC、WCDMA(登録商標)、CDMA2000、またはGPRSなどのさまざまなモードまたはプロトコルの下で通信を提供してもよい。このような通信は、たとえば無線周波数送受信機768を介して行われてもよい。また、ブルートゥース(登録商標)、WiFi、または他のこのような送受信機(図示せず)を使用するなどして短距離通信が行われてもよい。また、GPS(グローバルポジショニングシステム)受信機モジュール770は、さらなるナビゲーションおよび位置関連の無線データをデバイス780に提供してもよく、当該データは、デバイス780上で実行されるアプリケーションによって適宜使用されてもよい。
また、デバイス780は、オーディオコーデック760を使用して音声通信してもよく、オーディオコーデック760は、音声による情報をユーザから受信し、それを使用可能なデジタル情報に変換してもよい。同様に、オーディオコーデック760は、話者を介するなどして、たとえばデバイス780のハンドセットにおいて、ユーザにとって聞き取れる音声を生成してもよい。このような音声は、音声電話からの音声を含んでいてもよく、記録された音声(たとえば、音声メッセージ、音楽ファイルなど)を含んでいてもよく、デバイス780上で動作するアプリケーションによって生成される音声も含んでいてもよい。
コンピューティングデバイス780は、図に示されるように、いくつかの異なる形態で実現されてもよい。たとえば、コンピューティングデバイス780は、携帯電話780として実現されてもよい。また、コンピューティングデバイス780は、スマートフォン782、パーソナルデジタルアシスタント、または他の同様のモバイルデバイスの一部として実現されてもよい。
本明細書に記載されているさまざまな技術の実現例は、デジタル電子回路、またはコンピュータハードウェア、ファームウェア、ソフトウェア、またはそれらの組み合わせで実現されてもよい。実現例は、データ処理装置、たとえばプログラム可能なプロセッサ、コンピュータまたは複数のコンピュータによって処理するため、またはそれらの動作を制御するために、コンピュータプログラム製品として、すなわち情報キャリア、たとえば機械読取可能な記憶装置(コンピュータ読取可能な媒体)において有形に実施されるコンピュータプログラムとして、実現されてもよい。したがって、コンピュータ読取可能な記憶媒体は、実行されたときにプロセッサ(たとえば、ホストデバイスにおけるプロセッサ、クライアントデバイスにおけるプロセッサ)にプロセスを実行させる命令を記憶するように構成され得る。上記のコンピュータプログラムなどのコンピュータプログラムは、コンパイラ型言語またはインタープリタ型言語を含む任意の形態のプログラミング言語で書き込むことができ、スタンドアロンのプログラムとしての形態、または計算環境での使用に適したモジュール、コンポーネント、サブルーチンもしくは他のユニットとしての形態を含む任意の形態でデプロイすることができる。コンピュータプログラムは、1つのコンピュータ上で、または一箇所もしくは複数箇所にわたって分散されて通信ネットワークによって相互接続された複数のコンピュータ上で処理されるようにデプロイすることができる。
方法ステップは、入力データ上で動作して出力を生成することによって機能を実行するようにコンピュータプログラムを実行する1つ以上のプログラム可能なプロセッサによって実行されてもよい。また、方法ステップは、特殊目的論理回路、たとえばFPGA(フィールドプログラマブルゲートアレイ)またはASIC(特定用途向け集積回路)によって実行されてもよく、装置は、特殊目的論理回路として実現されてもよい。
コンピュータプログラムの処理に適したプロセッサは、一例として、汎用マイクロプロセッサ、特殊目的マイクロプロセッサ、および任意の種類のデジタルコンピュータの任意の1つ以上のプロセッサを含む。一般に、プロセッサは、リードオンリメモリまたはランダムアクセスメモリまたはこれら両方から命令およびデータを受信する。コンピュータの要素は、命令を実行するための少なくとも1つのプロセッサと、命令およびデータを記憶するための1つ以上のメモリデバイスとを含んでいてもよい。また、一般に、コンピュータは、データを記憶するための1つ以上の大容量記憶装置、たとえば磁気ディスク、光磁気ディスクもしくは光ディスクを含んでいてもよく、または1つ以上の大容量記憶装置からデータを受信するもしくは1つ以上の大容量記憶装置にデータを転送するもしくは受信も転送もするように動作可能に結合されてもよい。コンピュータプログラム命令およびデータを実施するのに適した情報キャリアは、全ての形態の不揮発性メモリを含み、当該不揮発性メモリは、一例として、たとえばEPROM、EEPROMおよびフラッシュメモリデバイスといった半導体メモリデバイス、たとえば内蔵ハードディスクまたはリムーバブルディスクといった磁気ディスク、光磁気ディスク、ならびにCD−ROMおよびDVD−ROMディスクを含む。プロセッサおよびメモリは、特殊目的論理回路によって補完されてもよく、または特殊目的論理回路に組み込まれてもよい。
ユーザとの対話を提供するために、実現例はコンピュータ上で実現されてもよく、当該コンピュータは、ユーザに情報を表示するためのディスプレイデバイス、たとえば陰極線管(cathode ray tube:CRT)、発光ダイオード(light emitting diode:LED)または液晶ディスプレイ(liquid crystal display:LCD)モニタと、ユーザが入力をコンピュータに提供することができるキーボードおよびポインティングデバイス、たとえばマウスまたはトラックボールとを有する。ユーザとの対話を提供するために他の種類のデバイスも使用されてもよい。たとえば、ユーザに提供されるフィードバックは、任意の形態の感覚フィードバック、たとえば視覚フィードバック、聴覚フィードバックまたは触覚フィードバックであってもよく、ユーザからの入力は、音響入力、音声入力または触覚入力を含む任意の形態で受信されてもよい。
実現例は、バックエンドコンポーネント、たとえばデータサーバを含むコンピューティングシステムで実現されてもよく、またはミドルウェアコンポーネント、たとえばアプリケーションサーバを含むコンピューティングシステムで実現されてもよく、またはフロントエンドコンポーネント、たとえばユーザが実現例と対話できるグラフィカルユーザインターフェイスもしくはウェブブラウザを有するクライアントコンピュータを含むコンピューティングシステムで実現されてもよく、またはこのようなバックエンドコンポーネント、ミドルウェアコンポーネントもしくはフロントエンドコンポーネントのいずれかの組み合わせを含むコンピューティングシステムで実現されてもよい。コンポーネント同士は、デジタルデータ通信の任意の形態または媒体、たとえば通信ネットワークによって相互接続されてもよい。通信ネットワークの例としては、ローカルエリアネットワーク(local area network:LAN)および広域ネットワーク(wide area network:WAN)、たとえばインターネットが挙げられる。
記載されている実現例の特定の特徴について本明細書に記載されているように説明してきたが、多くの変形例、置換例、変更例および等価物が当業者に想起されるであろう。したがって、添付の特許請求の範囲は、実現例の範囲に含まれる全てのこのような変形例および変更例をカバーするよう意図されていることが理解されるべきである。それらは限定的ではなく単に一例として示されており、形状および詳細の点でさまざまな変更を行ってもよいということが理解されるべきである。本明細書に記載されている装置および/または方法のいかなる部分も、相互に排他的な組み合わせを除いて、いかなる組み合わせでも組み合わせられてもよい。本明細書に記載されている実現例は、記載されているさまざまな実現例の機能、構成要素および/または特徴のさまざまな組み合わせおよび/または下位の組み合わせを含み得る。

Claims (12)

  1. 方法であって、
    データベースから複数のポーズ画像セットにアクセスするステップを備え、前記複数のポーズ画像セットはそれぞれ複数の光景に対応し、前記複数のポーズ画像セットの各々は、前記複数の光景のうちの対応する光景の複数のビューを含み、前記方法はさらに、
    自動ビュー生成アルゴリズムに従って、前記光景に対応するポーズ画像セットに含まれる前記光景の前記複数のビューから選択されたビューに基づいて、光景の要求されたビューを生成するステップを備え、前記光景の前記要求されたビューは、前記対応するポーズ画像セットに含まれる前記光景の前記複数のビューに含まれておらず、前記方法はさらに、
    前記自動ビュー生成アルゴリズムによって生成された前記光景の前記ビューを前記光景の既知のビューと比較するステップと、
    前記比較に基づいて前記ビュー生成アルゴリズムを更新するステップとを備える、方法。
  2. 前記光景の前記要求されたビューを生成するステップは、
    複数の深さにおける前記選択されたビューの各々の深さスライスを再投影するステップと、
    前記更新されたビュー生成アルゴリズムを前記再投影された深さスライスに適用し、対応する深さにおける前記選択されたビューの前記再投影された深さスライスの画素同士を一致させるステップと、
    前記要求されたビューの要求された画素の深さを求め、前記求められた深さにおける前記要求されたビューの各画素の色を求めるステップとを含む、請求項1に記載の方法。
  3. 複数の深さにおける前記選択されたビューの各々の深さスライスを再投影するステップは、
    最小再投影距離と最大再投影距離との間に延在する、前記複数の深さの各々の隣接する深さスライス間の間隔を求めるステップと、
    前記求められた間隔を前記選択されたビューの各々の深さスライスの前記再投影に適用するステップとを含む、請求項2に記載の方法。
  4. 前記要求されたビューを生成するステップはさらに、
    各画素について、前記画素が特定の深さに位置する確率を求めるステップと、
    前記求められた確率と前記画素について計算された色とを掛け合わせるステップと、
    前記乗算の結果として生じる積を合計して、前記要求されたビューを生成するステップとを含む、請求項2または3に記載の方法。
  5. 各画素について、前記画素が特定の深さスライスに位置する確率を求めるステップは、
    セレクションタワーによって、前記複数の深さの各々について確率マップを生成するステップと、
    セレクションタワーによって、前記複数の深さの各々についてカラー出力画像を生成するステップと、
    前記複数の深さの各々について生成された前記カラー出力画像および前記複数の深さの各々について生成された前記確率マップに基づいて、前記画素が特定の深さに位置する確率を表わす選択確率を各画素について求めるステップとを含む、請求項4に記載の方法。
  6. 予め定められた閾値の範囲内で前記画像の前記要求されたビューが前記画像の前記要求されたビューの前記既知のビューと一致するまで前記生成するステップおよび比較するステップを繰返し実行するステップをさらに備える、請求項1〜5のいずれか1項に記載の方法。
  7. 方法であって、
    レンダリングされるべき光景のビューに対する要求を受信するステップと、
    データベースから複数の記憶されたポーズ画像にアクセスするステップとを備え、前記複数の記憶されたポーズ画像はそれぞれ前記光景の複数のビューを表わし、前記方法はさらに、
    前記複数の記憶されたポーズ画像から複数の画像を選択するステップを備え、前記選択された複数の画像は、前記光景の前記要求されたビューに隣接する前記光景のビューを表わし、前記方法はさらに、
    複数の深さにおける前記選択された複数の画像の各々の深さスライスを再投影するステップと、
    前記光景の前記要求されたビューの深さを求め、前記再投影された深さスライスにおける画素に基づいて、前記求められた深さにおける前記光景の前記要求されたビューの各画素の色を求めるステップと、
    前記光景の前記要求されたビューを生成するステップとを備える、方法。
  8. 複数の深さにおける前記選択された複数の画像の各々の深さスライスを再投影するステップは、
    最小再投影距離と最大再投影距離との間に延在する、前記複数の深さスライスの各々の隣接する深さスライス間の間隔を求めるステップと、
    前記求められた間隔を前記選択された複数の画像の各々の深さスライスの前記再投影に適用するステップとを含む、請求項7に記載の方法。
  9. 前記要求されたビューの深さを求め、前記再投影された深さスライスにおける画素に基づいて、前記求められた深さにおける前記要求されたビューの各画素の色を求めるステップは、
    対応する深さにおける前記選択された複数の画像の前記再投影された深さスライスの画素同士を一致させるステップと、
    前記要求されたビューの要求された画素の深さを求め、前記求められた深さにおける前記要求されたビューの各画素の色を求めるステップとを含む、請求項7または8に記載の方法。
  10. 前記要求されたビューを生成するステップは、
    各画素について、前記画素が特定の深さスライスに位置する確率を求めるステップと、
    前記計算された確率と前記画素について計算された色とを掛け合わせるステップと、
    前記乗算の結果として生じる積を合計して、前記要求されたビューを生成するステップとを含む、請求項7〜9のいずれか1項に記載の方法。
  11. 方法であって、
    光景のビューに対する要求を受信するステップと、
    複数のポーズ画像セットを記憶するデータベースから、前記光景の前記要求されたビューに対応するポーズ画像セットを検索するステップとを備え、前記複数のポーズ画像セットの各々は、対応する光景の複数のビューを含み、前記方法はさらに、
    前記対応するポーズ画像セットに含まれる前記光景の前記複数のビューからの選択されたビューに基づいて前記光景の前記要求されたビューを生成するステップを備え、前記要求されたビューは、前記対応するポーズ画像セットの前記光景の前記複数のビューに含まれていない、方法。
  12. 光景のビューを生成するためのシステムであって、
    ネットワークを備え、前記ネットワークは、
    プロセッサを含むコンピューティングデバイスを含み、前記コンピューティングデバイスは、データベースと通信し、前記データベースは、複数の光景にそれぞれ対応する複数のポーズ画像セットを記憶し、前記複数のポーズ画像セットの各々は、前記複数の光景のうちの対応する光景の複数のビューを含み、前記ネットワークはさらに、
    要求された出力画像内の各出力画素の深さを求めるように構成されたセレクションタワーを含み、前記要求された出力画像は、光景の要求されたビューに対応し、前記ネットワークはさらに、
    前記要求された出力画像の各出力画素の色を生成するように構成されたカラータワーを含み、
    前記セレクションタワーおよび前記カラータワーは、前記光景の前記要求されたビューに対応する前記ポーズ画像セットに含まれる前記光景の前記複数のビューから選択されたビューを受信するように構成され、前記光景の前記要求されたビューは、前記対応するポーズ画像セットの前記光景の前記複数のビューに含まれておらず、
    前記セレクションタワーおよび前記カラータワーは、前記コンピューティングデバイスの前記プロセッサによる処理のために前記要求された出力画像を生成して前記光景の前記要求されたビューを生成するように構成される、システム。
JP2017550920A 2015-05-13 2016-05-13 DeepStereo:実世界の画像から新たなビューを予測するための学習 Active JP6663926B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201562161159P 2015-05-13 2015-05-13
US62/161,159 2015-05-13
PCT/US2016/032410 WO2016183464A1 (en) 2015-05-13 2016-05-13 Deepstereo: learning to predict new views from real world imagery

Publications (2)

Publication Number Publication Date
JP2018514031A true JP2018514031A (ja) 2018-05-31
JP6663926B2 JP6663926B2 (ja) 2020-03-13

Family

ID=56097288

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017550920A Active JP6663926B2 (ja) 2015-05-13 2016-05-13 DeepStereo:実世界の画像から新たなビューを予測するための学習

Country Status (6)

Country Link
US (1) US9916679B2 (ja)
EP (1) EP3295368A1 (ja)
JP (1) JP6663926B2 (ja)
KR (1) KR102047031B1 (ja)
CN (1) CN107438866B (ja)
WO (1) WO2016183464A1 (ja)

Families Citing this family (50)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10706321B1 (en) 2016-05-20 2020-07-07 Ccc Information Services Inc. Image processing system to align a target object in a target object image with an object model
US10657647B1 (en) 2016-05-20 2020-05-19 Ccc Information Services Image processing system to detect changes to target objects using base object models
US10319094B1 (en) 2016-05-20 2019-06-11 Ccc Information Services Inc. Technology for capturing, transmitting, and analyzing images of objects
US11288789B1 (en) 2016-05-20 2022-03-29 Ccc Intelligent Solutions Inc. Systems and methods for repairing a damaged vehicle using image processing
US9886771B1 (en) * 2016-05-20 2018-02-06 Ccc Information Services Inc. Heat map of vehicle damage
US10636148B1 (en) 2016-05-20 2020-04-28 Ccc Information Services Inc. Image processing system to detect contours of an object in a target object image
US10740891B1 (en) 2016-05-20 2020-08-11 Ccc Information Services Inc. Technology for analyzing images depicting vehicles according to base image models
US20180096494A1 (en) * 2016-09-30 2018-04-05 Visbit Inc. View-optimized light field image and video streaming
US10621747B2 (en) 2016-11-15 2020-04-14 Magic Leap, Inc. Deep learning system for cuboid detection
US10121262B2 (en) * 2016-12-20 2018-11-06 Canon Kabushiki Kaisha Method, system and apparatus for determining alignment data
US10242654B2 (en) 2017-01-25 2019-03-26 Microsoft Technology Licensing, Llc No miss cache structure for real-time image transformations
US9978118B1 (en) 2017-01-25 2018-05-22 Microsoft Technology Licensing, Llc No miss cache structure for real-time image transformations with data compression
EP3596659A4 (en) * 2017-03-17 2021-01-27 Magic Leap, Inc. SPACE LAYOUT APPRAISAL METHODS AND TECHNIQUES
US10514753B2 (en) * 2017-03-27 2019-12-24 Microsoft Technology Licensing, Llc Selectively applying reprojection processing to multi-layer scenes for optimizing late stage reprojection power
US10410349B2 (en) 2017-03-27 2019-09-10 Microsoft Technology Licensing, Llc Selective application of reprojection processing on layer sub-regions for optimizing late stage reprojection power
US10255891B2 (en) 2017-04-12 2019-04-09 Microsoft Technology Licensing, Llc No miss cache structure for real-time image transformations with multiple LSR processing engines
CN108805261B (zh) 2017-04-28 2021-11-12 微软技术许可有限责任公司 基于八叉树的卷积神经网络
US10776992B2 (en) 2017-07-05 2020-09-15 Qualcomm Incorporated Asynchronous time warp with depth data
US11055989B2 (en) * 2017-08-31 2021-07-06 Nec Corporation Viewpoint invariant object recognition by synthesization and domain adaptation
EP3685313A4 (en) 2017-09-20 2021-06-09 Magic Leap, Inc. PERSONALIZED NEURAL EYE TRACKING NETWORK
US10922878B2 (en) * 2017-10-04 2021-02-16 Google Llc Lighting for inserted content
CA3078530A1 (en) 2017-10-26 2019-05-02 Magic Leap, Inc. Gradient normalization systems and methods for adaptive loss balancing in deep multitask networks
US10803546B2 (en) * 2017-11-03 2020-10-13 Baidu Usa Llc Systems and methods for unsupervised learning of geometry from images using depth-normal consistency
CN112534475B (zh) * 2018-05-17 2023-01-10 奈安蒂克公司 深度估计***的自我监督训练
US10362491B1 (en) 2018-07-12 2019-07-23 At&T Intellectual Property I, L.P. System and method for classifying a physical object
CN113168505B (zh) * 2018-07-17 2024-04-09 辉达公司 用于自主驾驶机器的基于回归的线检测
TWI691930B (zh) 2018-09-19 2020-04-21 財團法人工業技術研究院 基於神經網路的分類方法及其分類裝置
EP3655928B1 (en) * 2018-09-26 2021-02-24 Google LLC Soft-occlusion for computer graphics rendering
EP3824620A4 (en) * 2018-10-25 2021-12-01 Samsung Electronics Co., Ltd. METHOD AND DEVICE FOR PROCESSING VIDEO
US10957099B2 (en) * 2018-11-16 2021-03-23 Honda Motor Co., Ltd. System and method for display of visual representations of vehicle associated information based on three dimensional model
US11610110B2 (en) 2018-12-05 2023-03-21 Bank Of America Corporation De-conflicting data labeling in real time deep learning systems
US10325179B1 (en) * 2019-01-23 2019-06-18 StradVision, Inc. Learning method and learning device for pooling ROI by using masking parameters to be used for mobile devices or compact networks via hardware optimization, and testing method and testing device using the same
US10311578B1 (en) * 2019-01-23 2019-06-04 StradVision, Inc. Learning method and learning device for segmenting an image having one or more lanes by using embedding loss to support collaboration with HD maps required to satisfy level 4 of autonomous vehicles and softmax loss, and testing method and testing device using the same
US11044462B2 (en) 2019-05-02 2021-06-22 Niantic, Inc. Self-supervised training of a depth estimation model using depth hints
CN110113593B (zh) * 2019-06-11 2020-11-06 南开大学 基于卷积神经网络的宽基线多视点视频合成方法
US10950037B2 (en) * 2019-07-12 2021-03-16 Adobe Inc. Deep novel view and lighting synthesis from sparse images
CN110443874B (zh) * 2019-07-17 2021-07-30 清华大学 基于卷积神经网络的视点数据生成方法和装置
CN110471279B (zh) * 2019-07-25 2020-09-29 浙江大学 一种基于vine-copulas的工业生产模拟场景发生器及场景发生方法
US11424037B2 (en) 2019-11-22 2022-08-23 International Business Machines Corporation Disease simulation in medical images
CN112203023B (zh) * 2020-09-18 2023-09-12 西安拙河安见信息科技有限公司 一种十亿像素视频生成方法及装置、设备、介质
US11238307B1 (en) 2020-09-24 2022-02-01 Eagle Technology, Llc System for performing change detection within a 3D geospatial model based upon semantic change detection using deep learning and related methods
US11587249B2 (en) 2020-09-24 2023-02-21 Eagle Technology, Llc Artificial intelligence (AI) system and methods for generating estimated height maps from electro-optic imagery
US11302071B1 (en) 2020-09-24 2022-04-12 Eagle Technology, Llc Artificial intelligence (AI) system using height seed initialization for extraction of digital elevation models (DEMs) and related methods
US11747468B2 (en) 2020-09-24 2023-09-05 Eagle Technology, Llc System using a priori terrain height data for interferometric synthetic aperture radar (IFSAR) phase disambiguation and related methods
US11636649B2 (en) 2021-01-06 2023-04-25 Eagle Technology, Llc Geospatial modeling system providing 3D geospatial model update based upon predictively registered image and related methods
US11816793B2 (en) 2021-01-06 2023-11-14 Eagle Technology, Llc Geospatial modeling system providing 3D geospatial model update based upon iterative predictive image registration and related methods
KR20230035721A (ko) * 2021-09-06 2023-03-14 한국전자통신연구원 임의 시점의 다중평면영상을 생성하는 전자 장치 및 그것의 동작 방법
EP4167199A1 (en) 2021-10-14 2023-04-19 Telefonica Digital España, S.L.U. Method and system for tracking and quantifying visual attention on a computing device
US20230281913A1 (en) * 2022-03-01 2023-09-07 Google Llc Radiance Fields for Three-Dimensional Reconstruction and Novel View Synthesis in Large-Scale Environments
CN115147577A (zh) * 2022-09-06 2022-10-04 深圳市明源云科技有限公司 Vr场景生成方法、装置、设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2004114224A1 (ja) * 2003-06-20 2004-12-29 Nippon Telegraph And Telephone Corporation 仮想視点画像生成方法及び3次元画像表示方法並びに装置
JP2010079505A (ja) * 2008-09-25 2010-04-08 Kddi Corp 画像生成装置及びプログラム
JP2010522469A (ja) * 2007-03-23 2010-07-01 トムソン ライセンシング 2d−to−3d変換のための2d画像の領域分類のシステム及び方法
JP2011198349A (ja) * 2010-02-25 2011-10-06 Canon Inc 情報処理方法及びその装置
JP2012528403A (ja) * 2009-05-28 2012-11-12 ケイジャヤ、エルエルシー 専用ウェブポータルを用いた医療用スキャンの高度可視化高速アクセス方法およびシステム

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5917937A (en) 1997-04-15 1999-06-29 Microsoft Corporation Method for performing stereo matching to recover depths, colors and opacities of surface elements
AU2002952873A0 (en) * 2002-11-25 2002-12-12 Dynamic Digital Depth Research Pty Ltd Image encoding system
US8698799B2 (en) 2009-01-20 2014-04-15 Adobe Systems Incorporated Method and apparatus for rendering graphics using soft occlusion
US8391603B2 (en) * 2009-06-18 2013-03-05 Omisa Inc. System and method for image segmentation
JP5645079B2 (ja) * 2011-03-31 2014-12-24 ソニー株式会社 画像処理装置および方法、プログラム、並びに記録媒体
US8498448B2 (en) * 2011-07-15 2013-07-30 International Business Machines Corporation Multi-view object detection using appearance model transfer from similar scenes
US9275078B2 (en) * 2013-09-05 2016-03-01 Ebay Inc. Estimating depth from a single image
US9202144B2 (en) * 2013-10-30 2015-12-01 Nec Laboratories America, Inc. Regionlets with shift invariant neural patterns for object detection
US9400925B2 (en) * 2013-11-15 2016-07-26 Facebook, Inc. Pose-aligned networks for deep attribute modeling
US20150324690A1 (en) * 2014-05-08 2015-11-12 Microsoft Corporation Deep Learning Training System
US9400918B2 (en) * 2014-05-29 2016-07-26 Beijing Kuangshi Technology Co., Ltd. Compact face representation
US9536293B2 (en) * 2014-07-30 2017-01-03 Adobe Systems Incorporated Image assessment using deep convolutional neural networks
US9756375B2 (en) * 2015-01-22 2017-09-05 Microsoft Technology Licensing, Llc Predictive server-side rendering of scenes
US9633306B2 (en) * 2015-05-07 2017-04-25 Siemens Healthcare Gmbh Method and system for approximating deep neural networks for anatomical object detection

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2004114224A1 (ja) * 2003-06-20 2004-12-29 Nippon Telegraph And Telephone Corporation 仮想視点画像生成方法及び3次元画像表示方法並びに装置
JP2010522469A (ja) * 2007-03-23 2010-07-01 トムソン ライセンシング 2d−to−3d変換のための2d画像の領域分類のシステム及び方法
JP2010079505A (ja) * 2008-09-25 2010-04-08 Kddi Corp 画像生成装置及びプログラム
JP2012528403A (ja) * 2009-05-28 2012-11-12 ケイジャヤ、エルエルシー 専用ウェブポータルを用いた医療用スキャンの高度可視化高速アクセス方法およびシステム
JP2011198349A (ja) * 2010-02-25 2011-10-06 Canon Inc 情報処理方法及びその装置

Also Published As

Publication number Publication date
JP6663926B2 (ja) 2020-03-13
KR102047031B1 (ko) 2019-11-20
CN107438866B (zh) 2020-12-01
WO2016183464A1 (en) 2016-11-17
CN107438866A (zh) 2017-12-05
EP3295368A1 (en) 2018-03-21
US20160335795A1 (en) 2016-11-17
US9916679B2 (en) 2018-03-13
KR20170120639A (ko) 2017-10-31

Similar Documents

Publication Publication Date Title
JP6663926B2 (ja) DeepStereo:実世界の画像から新たなビューを予測するための学習
US10325399B2 (en) Optimal texture memory allocation
US10304244B2 (en) Motion capture and character synthesis
CN109887003B (zh) 一种用于进行三维跟踪初始化的方法与设备
US8929645B2 (en) Method and system for fast dense stereoscopic ranging
US9213899B2 (en) Context-aware tracking of a video object using a sparse representation framework
US11823322B2 (en) Utilizing voxel feature transformations for view synthesis
US20100111444A1 (en) Method and system for fast dense stereoscopic ranging
EP3326156B1 (en) Consistent tessellation via topology-aware surface tracking
US20210150799A1 (en) Generating Environmental Data
Bulbul et al. Social media based 3D visual popularity
US11887241B2 (en) Learning 2D texture mapping in volumetric neural rendering
US20110298801A1 (en) View generation using interpolated values
CN116563493A (zh) 基于三维重建的模型训练方法、三维重建方法及装置
US11403807B2 (en) Learning hybrid (surface-based and volume-based) shape representation
US11272164B1 (en) Data synthesis using three-dimensional modeling
CN116228962A (zh) 大场景神经视图合成
US9852542B1 (en) Methods and apparatus related to georeferenced pose of 3D models
Li et al. Sat2vid: Street-view panoramic video synthesis from a single satellite image
US20230186575A1 (en) Method and apparatus for combining an augmented reality object in a real-world image
US20230360327A1 (en) Generating three-dimensional representations for digital objects utilizing mesh-based thin volumes
Yoo Rapid three-dimensional urban model production using bilayered displacement mapping
Lazorenko Synthesizing novel views for Street View experience
CN114241013A (zh) 物体锚定方法、锚定***及存储介质
TVERDOKHLEBOV Landscape modelling for outdoor photography analysis, geolocation and distance estimation

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20171018

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20171018

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20181105

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20181113

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190212

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190806

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20191105

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200106

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200121

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200217

R150 Certificate of patent or registration of utility model

Ref document number: 6663926

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250