JP2018514031A

JP2018514031A - ＤｅｅｐＳｔｅｒｅｏ：実世界の画像から新たなビューを予測するための学習

Info

Publication number: JP2018514031A
Application number: JP2017550920A
Authority: JP
Inventors: フリン，ジョン; スネイブリー，キース; ニューランダー，アイバン; フィルビン，ジェイムズ
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2015-05-13
Filing date: 2016-05-13
Publication date: 2018-05-31
Anticipated expiration: 2036-05-13
Also published as: JP6663926B2; KR102047031B1; CN107438866B; WO2016183464A1; CN107438866A; EP3295368A1; US20160335795A1; US9916679B2; KR20170120639A

Abstract

ディープネットワークを使用して既存の画像から新たなビューを予測するディープラーニングのシステムおよび方法は、大規模データからモデルおよび表現を生成して改善することができる。このディープラーニングのシステムおよび方法は、多数のポーズ画像セットから訓練された、新たなビューの合成を画素から直接実行するディープアーキテクチャを利用し得る。このタイプのディープネットワークを利用するシステムは、隣接ビューの画素に基づいて、見たことがないビューの画素を生成し得て、グラフィックス生成の用途に適している。

Description

本願は、２０１５年５月１３日に出願された米国仮出願番号第６２／１６１，１５９号の優先権を主張し、その全文は、あたかも本明細書中に完全に記載されているかのように引用によって援用される。

分野
本文献は、一般に、画像に関連付けられるディープネットワークおよびディープラーニングに関する。

背景
大規模データからモデルおよび表示を生成して改良するためにディープネットワークおよびディープラーニングが適用される場合がある。ディープラーニングは、機械学習のさらに広範な適用例の一部であると考えることができる。ディープラーニングは、複数レベルの処理／コンピューティングデバイスから得られた、たとえばコンピュータビジョンにおける特徴表示の教師なし学習に基づき得て、これらの複数レベルの処理／コンピューティングデバイスは、低レベル特徴から高レベル特徴までの階層を形成する。これら複数の層の構成および配置は、たとえば特定の解決すべき課題に基づいて開発され得る。

概要
一局面において、方法は、データベースから複数のポーズ画像セット（posed image sets）にアクセスするステップを含み、上記複数のポーズ画像セットはそれぞれ複数の光景に対応し、上記複数のポーズ画像セットの各々は、上記複数の光景のうちの対応する光景の複数のビューを含み、上記方法はさらに、自動ビュー生成アルゴリズムに従って、上記光景に対応するポーズ画像セットに含まれる上記光景の上記複数のビューから選択されたビューに基づいて、光景の要求されたビューを生成するステップを含み、上記光景の上記要求されたビューは、上記対応するポーズ画像セットに含まれる上記光景の上記複数のビューに含まれておらず、上記方法はさらに、上記自動ビュー生成アルゴリズムによって生成された上記光景の上記ビューを上記光景の既知のビューと比較するステップと、上記比較に基づいて上記ビュー生成アルゴリズムを更新するステップとを含み得る。

別の局面において、方法は、レンダリングされるべき光景のビューに対する要求を受信するステップと、データベースから複数の記憶されたポーズ画像にアクセスするステップとを含み、上記複数の記憶されたポーズ画像はそれぞれ上記光景の複数のビューを表わし、上記方法はさらに、上記複数の記憶されたポーズ画像から複数の画像を選択するステップを含み、上記選択された複数の画像は、上記光景の上記要求されたビューに隣接する上記光景のビューを表わし、上記方法はさらに、複数の深さにおける上記選択された複数の画像の各々の深さスライスを再投影するステップと、上記光景の上記要求されたビューの深さを求め、上記再投影された深さスライスにおける画素に基づいて、上記求められた深さにおける上記光景の上記要求されたビューの各画素の色を求めるステップと、上記光景の上記要求されたビューを生成するステップとを含み得る。

別の局面において、方法は、光景のビューに対する要求を受信するステップと、複数のポーズ画像セットを記憶するデータベースから、上記光景の上記要求されたビューに対応するポーズ画像セットを検索するステップとを含み、上記複数のポーズ画像セットの各々は、対応する光景の複数のビューを含み、上記方法はさらに、上記対応するポーズ画像セットに含まれる上記光景の上記複数のビューからの選択されたビューに基づいて上記光景の上記要求されたビューを生成するステップを含み得て、上記要求されたビューは、上記対応するポーズ画像セットの上記光景の上記複数のビューに含まれていない。

別の局面において、光景のビューを生成するためのシステムは、ネットワークを含み得る。上記ネットワークは、プロセッサを含むコンピューティングデバイスを含み、上記コンピューティングデバイスは、データベースと通信し、上記データベースは、複数の光景にそれぞれ対応する複数のポーズ画像セットを記憶し、上記複数のポーズ画像セットの各々は、上記複数の光景のうちの対応する光景の複数のビューを含み、上記ネットワークはさらに、要求された出力画像内の各出力画素の深さを求めるように構成されたセレクションタワーを含み、上記要求された出力画像は、光景の要求されたビューに対応し、上記ネットワークはさらに、上記要求された出力画像の各出力画素の色を生成するように構成されたカラータワーを含み得る。上記セレクションタワーおよび上記カラータワーは、上記光景の上記要求されたビューに対応する上記ポーズ画像セットに含まれる上記光景の上記複数のビューから、選択されたビューを受信するように構成されてもよく、上記光景の上記要求されたビューは、上記対応するポーズ画像セットの上記光景の上記複数のビューに含まれていない。上記セレクションタワーおよび上記カラータワーは、上記コンピューティングデバイスの上記プロセッサによる処理のために上記要求された出力画像を生成して上記光景の上記要求されたビューを生成するように構成され得る。

１つ以上の実現例の詳細を添付の図面および以下の説明に記載する。他の特徴は、説明および図面ならびに特許請求の範囲から明らかになるであろう。

本明細書に記載されている実現例に係る、既存の画像からレンダリングされた新たなビューを示す。本明細書に記載されている実現例に係る、既存の画像からレンダリングされた新たなビューを示す。本明細書に記載されている実現例に係る、ある範囲の深さにおけるさまざまなビューから新たなターゲットカメラ視野へのさまざまな画像の平面スイープステレオ再投影を示す。本明細書に記載されている実現例に係る、セレクションタワーとカラータワーとを含むネットワークを示す。本明細書に記載されている実現例に係る、セレクションタワーとカラータワーとを含むネットワークを示す。本明細書に記載されている実現例に係る、各深さ平面内の各画素について選択確率を生成することを学習するように構成されたセレクションタワーを示す。本明細書に記載されている実現例に係る、ソースにわたって画素を結合およびワーピングして複数の深さ平面における特定の画素について色を生成することを学習するように構成されたカラータワーを示す。本明細書に記載されている実現例に係る、システムおよび方法によって生成された再投影画像の２つの異なる例を示す。本明細書に記載されている技術を実現するために使用することができるコンピューティングデバイスおよびモバイルコンピューティングデバイスの一例を示す。

詳細な説明
ディープネットワークは、さまざまな異なるタイプの認識および分類問題に適用することができる。本明細書に記載されている実現例に係るシステムおよび方法では、ディープネットワークは、たとえばディープアーキテクチャを使用してコンピュータビジョンおよびグラフィックスにおける認識および分類問題に適用されてもよく、当該ディープアーキテクチャは、たとえば何百万ものポーズ画像セットなどの多数のポーズ画像セット、たとえば観点および／または色および／または深さなどの公知の特徴を有する画像セット、から新たなビューの合成を直接実行するように学習する。たとえば、本明細書に記載されている実現例に係るシステムおよび方法では、ディープネットワークは、この比較的多数のポーズ画像セットから訓練されてもよく、次いで動作時に、比較的少数の関連画像に依拠して、多数のポーズ画像セットを用いて行われた訓練に基づいて、新たなこれまで見られなかったビューを生成してもよい。

複数の複雑な処理段階に依存することとは対照的に、本明細書に記載されている実現例に係るシステムおよび方法は、たとえば光景の隣接ビューの画像、たとえば画像の画素、をネットワークに提示して、当該光景の見たことがない任意の／要求されたビューの画像を直接生成することによって、端末相互間で訓練されてもよい。要求されたビューは、たとえば特定の観点および／または視点および／または深さからの対象または対象領域のビューであってもよい。隣接画像は、たとえば要求されたビューに隣接するポーズ画像セットから入手可能な画像であってもよい。たとえば、いくつかの実現例では、当該システムは、光景のさまざまなビューの入力画像セットを提示し、当該入力画像セットに含まれないビューを要求し、次いで当該要求に応答して生成されるべき画像をネットワークに提示することによって訓練されてもよい。いくつかの実現例では、ビュー合成のために、１つの画像を除去してそれを取っておき、次いで除去された画像を残りの画像から再現することによって、１つ以上のポーズ画像セットが訓練セットとして使用されてもよい。本明細書に記載されている実現例によれば、比較的広範なデータベースから得られる比較的大量のデータを使用してモデルが訓練されてもよい。このタイプのデータベースの一例は、地球の大部分に及ぶ大規模なポーズ画像コレクションを含むストリートビューマッピングデータベースである。説明および図示を容易にするために必要に応じて以下でこの例を参照し得るが、本明細書に記載されている原理は、他のこのような広範なデータコレクションを利用する他の実現例に適用されてもよい。

当該システムは、反復を通じて、（たとえばストリートビューマッピングデータベースなどの）大規模データベースで入手可能な画像／ビューを活用して、そのプロセスを連続的に学習および改良して、要求された画像を生成してもよい。この端末相互間アプローチにより、一定レベルの普遍性を可能にすることができ、これにより、ポーズ画像セットに依拠してさまざまなドメインに適用して、過去のデータから学習した色、深さおよびテクスチャなどのさまざまな特徴に基づいて、見たことがない画素を書き込む。このアプローチは、ビュー補間およびビュー合成された全方向立体画像を生成する際に、たとえばオクルージョンおよび曖昧さに起因するアーチファクトの発生を減少させることができ、合成することが比較的困難な光景について比較的高品質の結果をもたらすことができる。

複数のポーズ画像から三次元（３Ｄ）形状を推定することは、レンダリングおよび編集することが可能な光景の三次元表示の生成における基本的タスクであり得る。いくつかの実現例では、ある形態の画像ベースレンダリング（image based rendering：ＩＢＲ）によって新たなビューの合成が実行されてもよく、当該ＩＢＲでは、光景の新たなビューは、当該光景の新たなビューを合成するために光景の付近のポーズ画像から画像をワーピングおよび結合することによって合成される。このアプローチは、たとえば拡張現実および／または仮想現実システム、テレカンファレンスシステム、三次元単眼フィルムシステム、映画撮影法、手ぶれ補正、および他のこのような実現例に適用されてもよい。各ターゲット画素の立体、色およびオクルージョン成分をモデル化することができるマルチビュー立体または画像ワーピング方法を含む技術に加えて、本明細書に記載されている実現例に係るシステムおよび方法は、ディープネットワークを活用して、ポーズ画像から新たなビューを合成するように直接学習してもよい。

新たなビューの合成のこのタイプのアプローチでは、ディープネットワークは、ポーズ入力画像を仮定して出力画素色に直接後戻りすることに使用されてもよい。このシステムは、たとえば訓練の端末相互間性質および入力に関連する非常に複雑な非線形関数を学習することができるディープネットワークの能力により、ワイドベースラインによって分離されたビュー間を補間し得る。本明細書に記載されている実現例に係るシステムおよび方法では、光景がレンダリングされることについての最小限の仮定は、たとえば有限の深さ範囲内の光景の比較的静的な性質を含み得る。これらのパラメータの範囲外であっても、結果として生じる画像は、比較的体裁良く劣化し得て、視覚的にもっともらしいままであり得る。新たなビューの合成への適用に加えて、本明細書に記載されているディープアーキテクチャを利用するシステムおよび方法は、好適な訓練データを仮定して他の立体およびグラフィックス問題にも適用されてもよい。

たとえば、図１Ａに示されるように、図１Ａに示される家などの所与の光景Ａの新たなビューＣ_Ｖが、新たなビューＣ_Ｖに関連する追加情報なしに、それぞれ第１および第２の視点Ｖ_１およびＶ_２における既存の第１および第２の画像Ｉ_１およびＩ_２からネットワークによってレンダリングされてもよい。同様に、図１Ｂに示される屋外の光景などの所与の光景Ｂの新たなビューＣ_Ｖが、新たなビューＣ_Ｖに関連する追加情報なしに、各々異なるそれぞれの視点Ｖ_１〜Ｖ_ｎにおける既存の複数の画像Ｉ_１〜Ｉ_ｎからネットワークによってレンダリングされてもよい。

ディープネットワークを画像理解および解釈に適用することは、いくつかの実現例では、グラフィックス生成、特に特定のグラフィックスアプリケーションに関連付けられる深さおよび立体にディープラーニングを適用するための基礎を提供し得る。さらに、性能の改善は、小さな畳み込みおよびプーリングの多くの層を使用してプーリングを行って、ディープネットワークに関連付けられる多数のパラメータに対処することによって達成することができ、大量のデータがない場合には、当該多数のパラメータによりこれらのシステムは過学習に陥りやすくなる可能性がある。

本明細書に記載されている実現例に係るシステムおよび方法は、たとえば光景が静止していることおよび光景が有限の深さ範囲内に存在していることなど、上記のような光景がレンダリングされることについての最小限の仮定を行ってもよい。いくつかの実現例では、モデルは、たとえば事前作業で使用される画像コレクションを含む訓練データを超えて新規の画像に一般化してもよい。

図２に示されるように、ポーズ入力画像Ｉ_１〜Ｉ_ｎのセットを仮定して、新たなターゲットカメラＣ_Ｔの視点から新たな画像がレンダリングされてもよく、新たなターゲットカメラＣ_Ｔは、ポーズ入力画像Ｉ_１〜Ｉ_ｎから生成される新たな光景に関連付けられる取り込み視野または新たな視点を表わす。図２において、平面スイープステレオは、視点Ｖ_１およびＶ_２からのポーズ入力画像Ｉ_１およびＩ_２をそれぞれ、たとえば最小深さｄ_１から最大深さｄ_Ｄまでの多数の異なる深さでターゲットカメラＣ_Ｔに再投影し、ポーズ入力画像Ｉ_１およびＩ_２の１つ以上の再投影画像は、１つ以上の中間深さｄ_ｋで撮られる。たとえば、ポーズ入力画像Ｉ_１の再投影画像Ｒ_１〜Ｒ_ｎは、ｄ_１〜ｄ_Ｄの範囲の深さで生成されてもよく、ポーズ入力画像Ｉ_２の再投影画像Ｓ_１〜Ｓ_ｎは、ｄ_１〜ｄ_Ｄの範囲の深さで生成されてもよい。図２において、点線は、特定の出力画像画素Ｒ_１〜Ｒ_ｎ，Ｓ_１〜Ｓ_ｎに再投影される入力画像Ｉ_１およびＩ_２からの画素を示し得る。

新たな画像をレンダリングするための１つのアプローチは、入力画像をネットワークに直接供給することによって新たなビューを合成するようにディープネットワークを単純に訓練するというものであってもよい。このアプローチでは、新たな視点（新たなターゲットカメラＣ_Ｔの視野に対応する、生成されるべき新たなビューＣ_Ｖ）のポーズ（pose）パラメータを入力としてネットワークに供給して所望のビュー／画像を生成してもよい。ポーズパラメータ、入力画像および出力画像の複雑な非線形の関係により、これはネットワークが回転角の解釈の仕方および画像再投影の実行の仕方を学習することも必要とするため、ネットワークリソースの非効率的な使用である可能性がある。また、このアプローチでは、ネットワークは、元の入力画像内の離れている可能性がある画素を比較および結合して新たなビューを合成してもよく、これにより、ネットワーク内での比較的高密度の長距離の接続の必要性に拍車がかかり、特に大規模データを扱う際にはネットワークが訓練の速度がゆっくりになって過学習に陥りやすくなる。このことは、場合によっては、内部エピポーラ拘束を適用して対応するエピポーラ線上のホースへの接続を制限するように構成されたネットワーク構造によって対処することができる。しかし、このタイプの構造は、特に大規模データを扱う際にポーズ依存的であり、計算効率が悪い可能性がある。

上記のように、視点Ｖ_１〜Ｖ_ｎからの一連の入力画像Ｉ_１〜Ｉ_ｎはそれぞれ、新たな／要求されたビューＣ_Ｖがレンダリングされる視点または新たなターゲットカメラＣ_Ｔに対してｄ_１〜ｄ_Ｄの異なる距離で再投影されてもよく、これらの異なる再投影距離でスライスをレンダリングする。当該システムは、新たなターゲットカメラＣ_Ｔに比較的近い位置（たとえば、ストリートビューの場合は新たなターゲットカメラＣ_Ｔからおよそ２ｍ）から、新たなターゲットカメラＣ_Ｔから比較的遠い位置（たとえば、ストリートビューの場合は新たなターゲットカメラＣ_Ｔからおよそ３０メートル以上）まで、所与の間隔で、深さ範囲（たとえば、いくつかの実現例では、６４〜９６個の異なる深さ）をスイープしてもよい。いくつかの実現例では、当該システムは、逆数距離、もしくは１／距離、たとえば１／最大距離ｄ_Ｄの最小間隔、または最小距離ｄ_１と最大距離ｄ_Ｄとの間の別の距離に基づく別の間隔で、深さ範囲を進んでもよい。これらの再投影深さスライスから、各入力ビューについての再投影深さスライスが生成されてもよく、各々の再投影深さスライスについて多数の画像が入手可能である（たとえば、４〜５個の入力ビューの各々が深さスライス当たり４〜５個の画像を有する）。たとえば、左側の再投影画像の画素と右側の投影画像の画素とは、（それぞれ）正確な深さで整列してもよい。再投影深さスライスは結合されて、当該深さスライスについて最良の色を生成し、特定の画素／画像について正確な深さを求めてもよい。ネットワークは、特定の画素について正確な深さおよび正確な深さスライスを求め、次いで、正確な色を求めてもよい。これらの要素は、一緒に学習されてもよい。次いで、ネットワークは、特定の画素が特定の深さスライスに位置する確率を求め、または学習し、当該確率と計算された色とを掛け合わせ、これを合計して、最終画像を生成してもよい。

より具体的には、本明細書に記載されている実現例に係るシステムおよび方法では、ネットワークは、三次元平面スイープボリュームセットを入力として含み得る。平面スイープボリューム（plane sweep volume：ＰＳＶ）は、たとえば新たなターゲットカメラＣ_Ｔに再投影される画像のスタックを含み得る。スタック内の各画像は、種々の深さのセットｄ∈ｄ_１...ｄ_Ｄで新たなターゲットカメラＣ_Ｔに再投影されて、平面スイープボリュームＶ_Ｃ＝Ｐ_１...Ｐ_ｄ...Ｐ_Ｄを形成してもよい。すなわち、図２に示されるように、平面スイープステレオは、深さ範囲ｄ∈ｄ_１...ｄ_ＤでＶ_１およびＶ_２からの画像Ｉ_１，Ｉ_２を新たなターゲットカメラＣ_Ｔに再投影してもよい。入力画像をターゲットカメラＣに再投影することは、たとえばテクスチャマッピングを使用してなされてもよく、グラフィックス処理ユニット（graphics processing unit：ＧＰＵ）によって実行されてもよい。別個の平面スイープボリュームＶ_ｋ ^Ｃが各入力画像について生成されてもよい。各平面スイープボリュームＶ_ｋ ^Ｃにおける各ボクセルｖ_{ｘ，ｙ，ｚ}は、Ｒ，Ｇ，ＢおよびＡ（アルファ）成分を有してもよく、アルファチャネルは、当該特定のボクセルについてのソース画素の利用可能性を示す。

平面スイープボリュームをネットワークへの入力として使用することによって、ポーズパラメータは、別個に供給される入力ではなく、平面スイープボリュームの構成において使用される暗黙的な入力になり得る。また、対応する画素がここでは平面スイープボリュームの対応する列に配置されるので、当該平面スイープボリューム内でエピポーラ拘束を自明に実施可能である。したがって、画素／画像間の長距離接続は不要であり、所与の出力画素／画像は、ソース当たりの平面スイープボリュームの各々からの小さなボクセル列にのみ依存する。同様に、位置ｉ，ｊにおいて出力画素ｐを生成するために実行される計算が画素ｐ_ｉ，ｊの位置からほとんど独立しているので、畳み込みニューラルネットワークを使用することができ、当該畳み込みニューラルネットワークは、完全に接続されたネットワークよりも必要なパラメータが少なく、そのため訓練の速度が速いであろう。畳み込みニューラルネットワーク上で推測を実行する速度も速い可能性があり、先行する層からの計算を共有することができる。たとえば、一実施形態では、モデルは、入力平面スイープボリューム内の各平面に二次元（２Ｄ）畳み込み層を適用してもよい。畳み込み層内で重みを共有することに加えて、モデルは、平面スイープボリューム内の平面にわたる重み共有を活用してもよく、これにより、各平面上で実行される計算を平面の深さから独立したものにすることができる。

いくつかの実現例では、モデルは層の２つのタワーを含み得て、各タワーへの入力は平面スイープボリュームセットＶ_ｋ ^Ｃである。この二重アーキテクチャは、深さ予測も色予測も可能にすることができる。たとえば、深さ予測では、出力画像内の各画素についての概算深さを求め、次いで使用されるソース画像画素を求めて、出力画素を生成してもよい。この深さについての確率は、二乗距離の総和（sum of squared distances：ＳＳＤ）アプローチ、正規化相互相関（normalized cross correlation：ＮＣＣ）アプローチまたは分散アプローチではなく、訓練データを使用して計算されてもよい。色予測では、出力画素の色は、全ての関連するソース画像画素を仮定して、単に単純な平均化を実行するのではなく、訓練データを使用してソース画素を最適に結合することによって生成されてもよい。

図３に示される２つのタワーは、深さ予測および色予測のタスクを遂行してもよい。セレクションタワーは、各画素が特定の深さを有する尤度を示す確率マップ（または選択マップ）を各深さについて生成してもよい。カラータワーは、各深さについてフルカラー出力画像を生成してもよい。たとえば、カラータワーは、深さが当該特定の画素にとって正確であると仮定して、考えられる最良の色を各深さについて生成してもよい。次いで、カラー画像は、画素当たりの加重和として結合されてもよく、重みは選択マップから導かれる。すなわち、選択マップを使用して、各出力画素で使用すべき最良の色層を決定してもよい。ビュー合成のこのアプローチにより、システムは、ディープラーニング方法を使用してセレクションタワーおよびカラータワーの両方の全てのパラメータを同時に端末相互間で学習することができる。さらに、色層にわたる加重平均は、特にアルゴリズムがあまり確信に満ちたものでない領域では、不確実性に対するいくらかの復元力をもたらすことができる。

特に、各タワーの第１の層は、ソースにわたって入力平面スイープボリュームを連結してもよく、これにより、ネットワークはソースにわたって再投影画素値を比較および結合することができる。たとえば、図３および図４に示されるセレクションタワーは、図４に示されるように、各平面Ｐ_ｄ内の各画素ｐ_ｉ，ｊについて、当該平面における当該画素についての選択確率ｓ_{ｉ，ｊ，ｄ}を計算してもよい。図３および図４に示されるカラータワーは、図５に示されるように、各平面Ｐ_ｄ内の各画素ｐ_ｉ，ｊについて、当該平面における当該画素についての色ｃ_{ｉ，ｊ，ｄ}を計算してもよい。各画素についての最終出力色は、式（１）に示されるように平面の深さにわたって合計することによって計算されてもよい。

各タワーへの入力は、平面スイープボリュームセットＶ_ｋ ^Ｃ（全てのボリュームにわたる全ての再投影画像Ｎ−Ｄを含み、Ｎはソース画像の数であり、Ｄは深さ平面の数である）を含み得る。各タワーの第１の層は、各再投影画像Ｐ_ｋ ^ｉ上で独立して動作してもよく、これにより、システムは低レベルの画像特徴を学習することができる。第１の層の後に、Ｎ個のソースに対応する特徴マップが各深さ平面にわたって連結されてもよく、後続の層は、これらの深さ平面当たりの特徴マップ上で動作してもよい。セレクションタワーの最終層は、深さ平面にわたる接続も利用してもよい。

いくつかの実現例では、セレクションタワーは、２つの主要な段階を含み得る。先行する層は、たとえば全ての深さ平面にわたって重みを共有するいくつかの二次元畳み込み正規化線形層を第１の層の深さ平面内に含み得る。たとえば、過去の学習に基づいて、先行する層は、画素差などの深さから独立している特徴を計算してもよく、そのため、それらの重みは共有されてもよい。最終的な層セットは、深さ平面にわたって接続されてもよく、その結果、オクルージョン（たとえば、深さに曖昧さがある場合には、ネットワークは、平面が接近しているほど高いスコアを有することを好むように学習し得る）によるものなどの深さ平面間の深さ平面相互作用をモデル化することができる。ネットワークの最終層は、図４に示されるように、深さについての画素当たりのソフトマックス正規化トランスフォーマであってもよい。ソフトマックストランスフォーマは、全ての深さ平面にわたる合計が１であることを確実にしながらモデルに画素当たり単一の深さ平面を選択させ得る。いくつかの実施形態では、最後から２番目の層でｔａｎｈ活性化を使用することにより、線形層よりも安定した訓練をもたらすことができる。たとえば、いくつかの状況下では、線形層は、たとえばソフトマックス層に関連付けられる比較的大きな勾配により、特定の深さ平面においてシャットダウンして回復しない可能性がある。セレクションタワーの出力は、式（２）に示されるように単一のチャネルノードｓ_{ｉ，ｊ，ｄ}の三次元ボリュームであってもよい。

図５に示されるように、カラータワーは、たとえば全ての平面にわたって重みを共有する二次元畳み込み正規化線形層と、それに続く線形再構成層とを含み得る。オクルージョン作用は、色層では同一レベルの関連性を有しておらず、そのため深さにわたる相互作用は不要であろう。カラータワーの出力は、ノードｃ_{ｉ，ｊ，ｄ}の三次元ボリュームであってもよい。出力における各ノードは、Ｒ，ＧおよびＢに対応する３つのチャネルを有してもよい。

セレクションタワーおよびカラータワーの出力はともにノードを掛け合わせられて出力画像を生成してもよい。訓練中、結果として生じる画像は、たとえば画素当たりの損失Ｌ_１を使用して既知のターゲット画像Ｉ^ｔまたは訓練画像と比較されてもよい。合計損失Ｌは、式（３）に従って求められてもよく、ｃ_，ｉ ^ｆ _ｊは画素ｉ，ｊにおけるターゲットカラーである。

いくつかの実現例では、当該システムは、一度に画像全体を予測するのではなく、パッチごとに出力画像を予測してもよい。入力パッチの周囲の連続的に大きくなる領域の低解像度バージョンのセットを通過することによって、ネットワークにさらに多くのコンテキストを提供することにより結果を改善することができ、結果の改善は、予測されるビューがさらに正確であることを意味する。たとえば、いくつかの実現例では、当該システムは、４つの異なる解像度を通過してもよい。各解像度は、まずいくつかの層によって独立して処理され、次いで最終層に入る前にアップサンプリングおよび連結されてもよい。アップサンプリングは、最近隣内挿法を利用してもよい。完全なネットワークのさらなる詳細は図６に示されている。

１つの例示的な実現例では、上記のように、モデルを訓練するために比較的大量のデータが比較的広範なデータベースから得られてもよい。上記の例示的な実現例では、ストリートビューデータベースによって含まれる、地球の大部分に及ぶ大規模なポーズ画像コレクションを使用して、このようなモデルを訓練してもよい。この例示的な実現例では、移動車両によって取り込まれた街路光景の画像を使用してネットワークを訓練してもよい。当該画像は、たとえばオドメトリおよびモーション技術からの構造を使用してポーズされてもよい。車両は、移動しながら画像のクラスタまたはグループまたはロゼットを断続的に取り込んでもよい。たとえば、車両は、複数の予め定められたタイムスタンプの各々において画像のロゼットを取り込んでもよい。各ロゼットは、予め定められた視点から取り込まれた予め定められた配置の複数の画像を含み得る。たとえば、いくつかの実現例では、各ロゼットは、利用される画像取込装置またはカメラのタイプによって、８個の画像、または１５個の画像、または別の数の画像を含んでいてもよい。各々が複数の画像を含むロゼットは、入力画像のストリームを定義し得る。

いくつかの実現例では、当該システムの訓練は、サンプル生成パイプラインを実質的に連続的に実行し、比較的多数のロゼットに含まれる入力画像からランダムなパッチを選択および再投影することを含み得る。たとえば、１つの例示的な実現例では、１００，０００個までのロゼットがサンプル生成パイプラインに含まれていてもよく、ネットワークは、図３に示されるように、２６×２６の入力パッチから８×８の出力パッチを生成するように訓練されてもよい。多数の画像からの複数のパッチは結合されて、たとえば４００という予め定められたサイズを有するミニバッチを生成してもよい。次いで、ネットワークは、たとえば分散型勾配降下を使用して訓練されてもよい。サンプルランダム化および入手可能な比較的大量の訓練データにより、この例示的な実現例では、訓練中にパッチのうちのいずれかが二重使用されることは全く起こりそうにない。

上記の態様でネットワークを訓練することの有効性を評価するために、同一のモデルまたはアルゴリズムを使用するが２つの異なるタイプの訓練データを使用して２つのネットワークが訓練された。第１のネットワークは、上記のように広範なストリートビューデータベースによって提供された画像データに基づいて訓練された。ストリートビューデータベースに含まれる画像は、上記のように、オドメトリと他のモーション方法との組み合わせを使用して、画像セットまたはロゼットセットを取り込むローリングシャッタを用いた車載カメラにより、各露光について異なる方向でポーズされた。第２のネットワークは、標準的なオドメトリデータセットからのポーズ画像シーケンスを使用して訓練された。ビュー補間のタスクに関する第１および第２のネットワークの性能を評価する際に、既知の（しかし保留されている）画像と同一の視点から新規の画像が生成された。訓練中に、第１のネットワークを訓練するために使用されるストリートビューデータベースの各ロゼットはあらゆる方向の画素を提供するため、再投影された深さ平面は常に有効な画素を有する。第２のネットワークを訓練するために使用される標準的なデータセットでは、深さ平面のいくつかの部分は全てのカメラから見えるとは限らなかった。訓練中、モデルは欠けている画素に遭遇しなかったので、欠けている画素は、第２のネットワークによって生成された画像の主に境界において当該画像に何らかのエラーを生じさせた。

さらなる比較において、ベースラインＩＢＲアルゴリズムは実行されて、４つの最も近い入力画像を使用して深さを計算し、２つの最も近い画像からの画素をターゲットビューに当て（splat）、隣接する有効な画素を拡散させていかなる小さな残りの孔も塞ぐ。本明細書に記載されている実現例に係るシステムおよび方法は、全ての間隔についてベースラインＩＢＲアルゴリズムより性能が優れていた。また、本明細書に記載されている実現例に係るシステムおよび方法は、中間画像を補間するために適用されたオプティカルフローアルゴリズムよりも性能が優れていた。このタイプのオプティカルフローアルゴリズムを実行する際の三次元ポーズの概念がないので、補間された画像は、保留されている画像の視点におよそ位置しているのみである。

全体的に見て、本明細書に記載されている実現例に係るシステムおよび方法において実現されるモデルは、元の実際の画像と区別することが困難であり得る比較的高品質の出力画像を生成することができる。当該モデルは、体裁良く、比較的目立たないほどに劣化する鏡面の性能を有する、図１Ｂに示されるたとえば木およびガラスなどのさまざまな異なるタイプの難易度の高い面およびテクスチャを処理することができる。たとえばある光景における風に揺れる旗などの、訓練中にしばしば遭遇する可能性がある動く物体は、モーションブラーを喚起するような態様でぼやけてしまう可能性がある。これらの画像を生成するように学習するネットワークの一例が図７に示されている。

図７は、この態様で生成された再投影画像の２つの異なる例を示す。１つの画像は、比較的平滑な表面テクスチャを有するテーブルの画像であり、第２の画像は、より複雑な視覚テクスチャを有する木の画像である。これらの画像は、単一の深さ平面において再投影され、これらの画像によって表わされる切り取られた領域が当該特定の平面において強い選択確率を有するように選択されている。再投影入力ビューは図７の左側部分に示されており、所与の深さ平面における選択層および色層の出力は図７の中央部分に示されており、平均との比較は図７の右側部分に示されている。図７に示されるように、色層は、再投影入力画像を単純に平均することを超えて寄与し得る。それどころか、色層は、入力をワーピングし、しっかりと結合して、当該深さ平面についてのカラー画像を生成するように学習し得る。これにより、システムは、差異を有する２つ以上の画素によって分離される深さ平面を生成することができる。

本明細書に記載されている実現例に係るシステムおよび方法では、ディープネットワークは、ポーズ画像セットのみを使用して新たなビューの合成を実行して当該ポーズ画像セットから高品質の正確な合成されたビューを提供するように端末相互間で訓練され得る。上記のように、予測することを学習するためのシステムおよび方法は、ディープネットワークによって促進されるディープラーニングによって実現されて、大規模データからモデルおよび表現を生成して改善することができる。このようなディープネットワークを動作させるデータは、複数レベルの処理／コンピューティングデバイスから得ることができ、これらの複数レベルの処理／コンピューティングデバイスは、特定の解決すべき課題に基づいて低レベル特徴から高レベル特徴までの階層を形成する。

図８は、ディープネットワークに含まれ得る一般的な電子コンピューティングデバイス７００および一般的なモバイル電子コンピューティングデバイス７８０の一例を提供する。コンピューティングデバイス７００は、ラップトップコンピュータ、コンバーチブルコンピュータ、タブレットコンピュータ、デスクトップコンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、メインフレーム、および他の適切なコンピュータなどのさまざまな形態のデジタルコンピュータを表わすよう意図されている。コンピューティングデバイス７８０は、パーソナルデジタルアシスタント、携帯電話、スマートフォン、および他の同様のコンピューティングデバイスなどのさまざまな形態のモバイルデバイスを表わすよう意図されている。ここに示されている構成要素、それらの接続および関係、ならびにそれらの機能は、単に例示的であるよう意図されており、本文献に記載および／またはクレームされている本発明の実現例を限定することを意図したものではない。

コンピューティングデバイス７００は、プロセッサ７０２と、メモリ７０４と、記憶装置７０６と、メモリ７０４および高速拡張ポート７１０に接続する高速インターフェイス７０８と、低速バス７１４および記憶装置７０６に接続する低速インターフェイス７１２とを含む。構成要素７０２，７０４，７０６，７０８，７１０および７１２の各々は、さまざまなバスを使用して相互接続され、共通のマザーボード上にまたは他の態様で適宜実装されてもよい。プロセッサ７０２は、コンピューティングデバイス７００内で実行するために命令を処理することができ、当該命令は、高速インターフェイス７０８に結合されたディスプレイ７１６などの外部入出力デバイス上にＧＵＩのためのグラフィック情報を表示するためにメモリ７０４内または記憶装置７０６上に記憶された命令を含む。他の実現例では、複数のメモリおよび複数のタイプのメモリとともに、複数のプロセッサおよび／または複数のバスが適宜使用されてもよい。また、複数のコンピューティングデバイス７００が接続されてもよく、各デバイスは（たとえば、サーババンク、ブレードサーバの群、またはマルチプロセッサシステムとして）必要な動作の一部を提供する。

メモリ７０４は、コンピューティングデバイス７００内の情報を記憶する。一実現例では、メモリ７０４は、揮発性メモリユニットまたは複数の揮発性メモリユニットである。別の実現例では、メモリ７０４は、不揮発性メモリユニットまたは複数の不揮発性メモリユニットである。また、メモリ７０４は、磁気ディスクまたは光ディスクなどの別の形態のコンピュータ読取可能な媒体であってもよい。

記憶装置７０６は、コンピューティングデバイス７００に大容量記憶を提供することができる。一実現例では、記憶装置７０６は、コンピュータ読取可能な媒体であってもよく、またはコンピュータ読取可能な媒体を含んでいてもよく、当該コンピュータ読取可能な媒体は、フロッピー（登録商標）ディスクデバイス、ハードディスクデバイス、光ディスクデバイス、またはテープデバイス、フラッシュメモリ、または他の同様のソリッドステートメモリデバイス、またはストレージエリアネットワークにおけるデバイスもしくは他の構成を含むデバイスのアレイなどである。コンピュータプログラム製品が情報キャリアにおいて有形に実施されてもよい。コンピュータプログラム製品は、実行されたときに上記の方法などの１つ以上の方法を実行する命令も含んでいてもよい。情報キャリアは、メモリ７０４、記憶装置７０６、またはプロセッサ７０２上のメモリなどのコンピュータまたは機械読取可能な媒体である。

高速コントローラ７０８は、コンピューティングデバイス６００のための帯域幅集約的な動作を管理する一方、低速コントローラ７１２は、低帯域幅集約的な動作を管理する。このような機能の割り当ては例示に過ぎない。一実現例では、高速コントローラ７０８は、メモリ７０４、ディスプレイ７１６（たとえば、グラフィックスプロセッサまたはアクセラレータを介して）、およびさまざまな拡張カード（図示せず）を受け付けることができる高速拡張ポート７１０に結合されている。当該実現例では、低速コントローラ７１２は、記憶装置７０６および低速拡張ポート７１４に結合されている。さまざまな通信ポート（たとえば、ＵＳＢ、ブルートゥース（登録商標）、イーサネット（登録商標）、ワイヤレスイーサネット）を含み得る低速拡張ポートは、キーボード、ポインティングデバイス、スキャナなどの１つ以上の入出力デバイス、またはスイッチもしくはルータなどのネットワーキングデバイスに、たとえばネットワークアダプタを介して結合されてもよい。

コンピューティングデバイス７００は、図に示されるように、いくつかの異なる形態で実現されてもよい。たとえば、コンピューティングデバイス７００は、標準的なサーバ７２０として実現されてもよく、またはこのようなサーバの群の状態で複数回実現されてもよい。また、コンピューティングデバイス７００は、ラックサーバシステム７２４の一部として実現されてもよい。また、コンピューティングデバイス７００は、ラップトップコンピュータ７２２などのパーソナルコンピュータの状態で実現されてもよい。代替的に、コンピューティングデバイス７００からの構成要素は、デバイス７８０などのモバイルデバイス内の他の構成要素（図示せず）と結合されてもよい。このようなデバイスの各々は、コンピューティングデバイス７００，７８０のうちの１つ以上を含んでいてもよく、システム全体が、互いに通信する複数のコンピューティングデバイス７００，７８０で構成されてもよい。

コンピューティングデバイス７８０は、いくつかある構成要素の中で特に、プロセッサ７８２と、メモリ７６４と、ディスプレイ７８４などの入出力デバイスと、通信インターフェイス７６６と、送受信機７６８とを含む。デバイス７８０は、さらなる記憶を提供するために、マイクロドライブまたは他のデバイスなどの記憶装置も備えていてもよい。構成要素７８０，７８２，７６４，７８４，７６６および７６８の各々は、さまざまなバスを使用して相互接続され、構成要素のうちのいくつかは、共通のマザーボード上にまたは他の態様で適宜実装されてもよい。

プロセッサ７８２は、メモリ７６４に記憶された命令を含むコンピューティングデバイス７８０内の命令を実行することができる。プロセッサは、別個の複数のアナログおよびデジタルプロセッサを含むチップのチップセットとして実現されてもよい。プロセッサは、たとえばユーザインターフェイス、デバイス７８０によって実行されるアプリケーション、およびデバイス７８０による無線通信の制御などの、デバイス７８０の他の構成要素同士の協調を提供してもよい。

プロセッサ７８２は、ディスプレイ７８４に結合された制御インターフェイス７８８およびディスプレイインターフェイス７８６を介してユーザと通信してもよい。ディスプレイ７８４は、たとえばＴＦＴＬＣＤ（薄膜トランジスタ液晶ディスプレイ）またはＯＬＥＤ（有機発光ダイオード）ディスプレイ、または他の適切なディスプレイ技術であってもよい。ディスプレイインターフェイス７８６は、ディスプレイ７８４を駆動してグラフィックおよび他の情報をユーザに提示するための適切な回路を備えていてもよい。制御インターフェイス７８８は、ユーザからコマンドを受信し、それらを変換して、プロセッサ７８２に発信してもよい。たとえば、制御インターフェイス７８８は、たとえばキーボード７８０を介してユーザが入力した入力を受け取り、当該入力をプロセッサ７８２に送信して、対応するテキストを表示されたテキストボックスに入力するなどの処理を行ってもよい。また、他のデバイスとのデバイス７８０の近接領域通信を可能にするように、外部インターフェイス７６２がプロセッサ７８２と通信する状態で設けられてもよい。外部インターフェイス７６２は、たとえばいくつかの実現例では有線通信を提供してもよく、または他の実現例では無線通信を提供してもよく、複数のインターフェイスも使用されてもよい。

メモリ７６４は、コンピューティングデバイス７８０内の情報を記憶する。メモリ７６４は、コンピュータ読取可能な媒体もしくは複数のコンピュータ読取可能な媒体、揮発性メモリユニットもしくは複数の揮発性メモリユニット、または不揮発性メモリユニットもしくは複数の不揮発性メモリユニットのうちの１つ以上として実現することができる。また、拡張メモリ７７４が設けられて、拡張インターフェイス７７２を介してデバイス８８０に接続されてもよく、拡張インターフェイス７７２は、たとえばＳＩＭＭ（シングルインラインメモリモジュール）カードインターフェイスを含んでいてもよい。このような拡張メモリ７７４は、追加の記憶スペースをデバイス７８０に提供してもよく、またはデバイス７８０のためのアプリケーションもしくは他の情報も記憶してもよい。具体的には、拡張メモリ７７４は、上記のプロセスを実行または補完するための命令を含んでいてもよく、安全な情報も含んでいてもよい。したがって、たとえば、拡張メモリ７７４は、デバイス８８０のためのセキュリティモジュールとして提供されてもよく、デバイス８８０の安全な使用を許可する命令でプログラムされてもよい。また、ハッキング不可能な態様でＳＩＭＭカードに識別情報を乗せるなど、追加情報とともに安全なアプリケーションがＳＩＭＭカードを介して提供されてもよい。

メモリは、たとえば下記のフラッシュメモリおよび／またはＮＶＲＡＭメモリを含んでいてもよい。一実現例では、コンピュータプログラム製品が情報キャリアにおいて有形に実施される。コンピュータプログラム製品は、実行されたときに上記の方法などの１つ以上の方法を実行する命令を含む。情報キャリアは、メモリ７６４、拡張メモリ８７４、またはプロセッサ７８２上のメモリなどのコンピュータまたは機械読取可能な媒体であり、たとえば送受信機７６８または外部インターフェイス７６２を介して受信され得る。

デバイス７８０は、必要に応じてデジタル信号処理回路を含み得る通信インターフェイス７６６を介して無線で通信してもよい。通信インターフェイス７６は、とりわけＧＳＭ（登録商標）音声電話、ＳＭＳ、ＥＭＳもしくはＭＭＳメッセージング、ＣＤＭＡ、ＴＤＭＡ、ＰＤＣ、ＷＣＤＭＡ（登録商標）、ＣＤＭＡ２０００、またはＧＰＲＳなどのさまざまなモードまたはプロトコルの下で通信を提供してもよい。このような通信は、たとえば無線周波数送受信機７６８を介して行われてもよい。また、ブルートゥース（登録商標）、ＷｉＦｉ、または他のこのような送受信機（図示せず）を使用するなどして短距離通信が行われてもよい。また、ＧＰＳ（グローバルポジショニングシステム）受信機モジュール７７０は、さらなるナビゲーションおよび位置関連の無線データをデバイス７８０に提供してもよく、当該データは、デバイス７８０上で実行されるアプリケーションによって適宜使用されてもよい。

また、デバイス７８０は、オーディオコーデック７６０を使用して音声通信してもよく、オーディオコーデック７６０は、音声による情報をユーザから受信し、それを使用可能なデジタル情報に変換してもよい。同様に、オーディオコーデック７６０は、話者を介するなどして、たとえばデバイス７８０のハンドセットにおいて、ユーザにとって聞き取れる音声を生成してもよい。このような音声は、音声電話からの音声を含んでいてもよく、記録された音声（たとえば、音声メッセージ、音楽ファイルなど）を含んでいてもよく、デバイス７８０上で動作するアプリケーションによって生成される音声も含んでいてもよい。

コンピューティングデバイス７８０は、図に示されるように、いくつかの異なる形態で実現されてもよい。たとえば、コンピューティングデバイス７８０は、携帯電話７８０として実現されてもよい。また、コンピューティングデバイス７８０は、スマートフォン７８２、パーソナルデジタルアシスタント、または他の同様のモバイルデバイスの一部として実現されてもよい。

本明細書に記載されているさまざまな技術の実現例は、デジタル電子回路、またはコンピュータハードウェア、ファームウェア、ソフトウェア、またはそれらの組み合わせで実現されてもよい。実現例は、データ処理装置、たとえばプログラム可能なプロセッサ、コンピュータまたは複数のコンピュータによって処理するため、またはそれらの動作を制御するために、コンピュータプログラム製品として、すなわち情報キャリア、たとえば機械読取可能な記憶装置（コンピュータ読取可能な媒体）において有形に実施されるコンピュータプログラムとして、実現されてもよい。したがって、コンピュータ読取可能な記憶媒体は、実行されたときにプロセッサ（たとえば、ホストデバイスにおけるプロセッサ、クライアントデバイスにおけるプロセッサ）にプロセスを実行させる命令を記憶するように構成され得る。上記のコンピュータプログラムなどのコンピュータプログラムは、コンパイラ型言語またはインタープリタ型言語を含む任意の形態のプログラミング言語で書き込むことができ、スタンドアロンのプログラムとしての形態、または計算環境での使用に適したモジュール、コンポーネント、サブルーチンもしくは他のユニットとしての形態を含む任意の形態でデプロイすることができる。コンピュータプログラムは、１つのコンピュータ上で、または一箇所もしくは複数箇所にわたって分散されて通信ネットワークによって相互接続された複数のコンピュータ上で処理されるようにデプロイすることができる。

方法ステップは、入力データ上で動作して出力を生成することによって機能を実行するようにコンピュータプログラムを実行する１つ以上のプログラム可能なプロセッサによって実行されてもよい。また、方法ステップは、特殊目的論理回路、たとえばＦＰＧＡ（フィールドプログラマブルゲートアレイ）またはＡＳＩＣ（特定用途向け集積回路）によって実行されてもよく、装置は、特殊目的論理回路として実現されてもよい。

コンピュータプログラムの処理に適したプロセッサは、一例として、汎用マイクロプロセッサ、特殊目的マイクロプロセッサ、および任意の種類のデジタルコンピュータの任意の１つ以上のプロセッサを含む。一般に、プロセッサは、リードオンリメモリまたはランダムアクセスメモリまたはこれら両方から命令およびデータを受信する。コンピュータの要素は、命令を実行するための少なくとも１つのプロセッサと、命令およびデータを記憶するための１つ以上のメモリデバイスとを含んでいてもよい。また、一般に、コンピュータは、データを記憶するための１つ以上の大容量記憶装置、たとえば磁気ディスク、光磁気ディスクもしくは光ディスクを含んでいてもよく、または１つ以上の大容量記憶装置からデータを受信するもしくは１つ以上の大容量記憶装置にデータを転送するもしくは受信も転送もするように動作可能に結合されてもよい。コンピュータプログラム命令およびデータを実施するのに適した情報キャリアは、全ての形態の不揮発性メモリを含み、当該不揮発性メモリは、一例として、たとえばＥＰＲＯＭ、ＥＥＰＲＯＭおよびフラッシュメモリデバイスといった半導体メモリデバイス、たとえば内蔵ハードディスクまたはリムーバブルディスクといった磁気ディスク、光磁気ディスク、ならびにＣＤ−ＲＯＭおよびＤＶＤ−ＲＯＭディスクを含む。プロセッサおよびメモリは、特殊目的論理回路によって補完されてもよく、または特殊目的論理回路に組み込まれてもよい。

ユーザとの対話を提供するために、実現例はコンピュータ上で実現されてもよく、当該コンピュータは、ユーザに情報を表示するためのディスプレイデバイス、たとえば陰極線管（cathode ray tube：ＣＲＴ）、発光ダイオード（light emitting diode：ＬＥＤ）または液晶ディスプレイ（liquid crystal display：ＬＣＤ）モニタと、ユーザが入力をコンピュータに提供することができるキーボードおよびポインティングデバイス、たとえばマウスまたはトラックボールとを有する。ユーザとの対話を提供するために他の種類のデバイスも使用されてもよい。たとえば、ユーザに提供されるフィードバックは、任意の形態の感覚フィードバック、たとえば視覚フィードバック、聴覚フィードバックまたは触覚フィードバックであってもよく、ユーザからの入力は、音響入力、音声入力または触覚入力を含む任意の形態で受信されてもよい。

実現例は、バックエンドコンポーネント、たとえばデータサーバを含むコンピューティングシステムで実現されてもよく、またはミドルウェアコンポーネント、たとえばアプリケーションサーバを含むコンピューティングシステムで実現されてもよく、またはフロントエンドコンポーネント、たとえばユーザが実現例と対話できるグラフィカルユーザインターフェイスもしくはウェブブラウザを有するクライアントコンピュータを含むコンピューティングシステムで実現されてもよく、またはこのようなバックエンドコンポーネント、ミドルウェアコンポーネントもしくはフロントエンドコンポーネントのいずれかの組み合わせを含むコンピューティングシステムで実現されてもよい。コンポーネント同士は、デジタルデータ通信の任意の形態または媒体、たとえば通信ネットワークによって相互接続されてもよい。通信ネットワークの例としては、ローカルエリアネットワーク（local area network：ＬＡＮ）および広域ネットワーク（wide area network：ＷＡＮ）、たとえばインターネットが挙げられる。

記載されている実現例の特定の特徴について本明細書に記載されているように説明してきたが、多くの変形例、置換例、変更例および等価物が当業者に想起されるであろう。したがって、添付の特許請求の範囲は、実現例の範囲に含まれる全てのこのような変形例および変更例をカバーするよう意図されていることが理解されるべきである。それらは限定的ではなく単に一例として示されており、形状および詳細の点でさまざまな変更を行ってもよいということが理解されるべきである。本明細書に記載されている装置および／または方法のいかなる部分も、相互に排他的な組み合わせを除いて、いかなる組み合わせでも組み合わせられてもよい。本明細書に記載されている実現例は、記載されているさまざまな実現例の機能、構成要素および／または特徴のさまざまな組み合わせおよび／または下位の組み合わせを含み得る。

Claims

方法であって、
データベースから複数のポーズ画像セットにアクセスするステップを備え、前記複数のポーズ画像セットはそれぞれ複数の光景に対応し、前記複数のポーズ画像セットの各々は、前記複数の光景のうちの対応する光景の複数のビューを含み、前記方法はさらに、
自動ビュー生成アルゴリズムに従って、前記光景に対応するポーズ画像セットに含まれる前記光景の前記複数のビューから選択されたビューに基づいて、光景の要求されたビューを生成するステップを備え、前記光景の前記要求されたビューは、前記対応するポーズ画像セットに含まれる前記光景の前記複数のビューに含まれておらず、前記方法はさらに、
前記自動ビュー生成アルゴリズムによって生成された前記光景の前記ビューを前記光景の既知のビューと比較するステップと、
前記比較に基づいて前記ビュー生成アルゴリズムを更新するステップとを備える、方法。
前記光景の前記要求されたビューを生成するステップは、
複数の深さにおける前記選択されたビューの各々の深さスライスを再投影するステップと、
前記更新されたビュー生成アルゴリズムを前記再投影された深さスライスに適用し、対応する深さにおける前記選択されたビューの前記再投影された深さスライスの画素同士を一致させるステップと、
前記要求されたビューの要求された画素の深さを求め、前記求められた深さにおける前記要求されたビューの各画素の色を求めるステップとを含む、請求項１に記載の方法。
複数の深さにおける前記選択されたビューの各々の深さスライスを再投影するステップは、
最小再投影距離と最大再投影距離との間に延在する、前記複数の深さの各々の隣接する深さスライス間の間隔を求めるステップと、
前記求められた間隔を前記選択されたビューの各々の深さスライスの前記再投影に適用するステップとを含む、請求項２に記載の方法。
前記要求されたビューを生成するステップはさらに、
各画素について、前記画素が特定の深さに位置する確率を求めるステップと、
前記求められた確率と前記画素について計算された色とを掛け合わせるステップと、
前記乗算の結果として生じる積を合計して、前記要求されたビューを生成するステップとを含む、請求項２または３に記載の方法。
各画素について、前記画素が特定の深さスライスに位置する確率を求めるステップは、
セレクションタワーによって、前記複数の深さの各々について確率マップを生成するステップと、
セレクションタワーによって、前記複数の深さの各々についてカラー出力画像を生成するステップと、
前記複数の深さの各々について生成された前記カラー出力画像および前記複数の深さの各々について生成された前記確率マップに基づいて、前記画素が特定の深さに位置する確率を表わす選択確率を各画素について求めるステップとを含む、請求項４に記載の方法。
予め定められた閾値の範囲内で前記画像の前記要求されたビューが前記画像の前記要求されたビューの前記既知のビューと一致するまで前記生成するステップおよび比較するステップを繰返し実行するステップをさらに備える、請求項１〜５のいずれか１項に記載の方法。
方法であって、
レンダリングされるべき光景のビューに対する要求を受信するステップと、
データベースから複数の記憶されたポーズ画像にアクセスするステップとを備え、前記複数の記憶されたポーズ画像はそれぞれ前記光景の複数のビューを表わし、前記方法はさらに、
前記複数の記憶されたポーズ画像から複数の画像を選択するステップを備え、前記選択された複数の画像は、前記光景の前記要求されたビューに隣接する前記光景のビューを表わし、前記方法はさらに、
複数の深さにおける前記選択された複数の画像の各々の深さスライスを再投影するステップと、
前記光景の前記要求されたビューの深さを求め、前記再投影された深さスライスにおける画素に基づいて、前記求められた深さにおける前記光景の前記要求されたビューの各画素の色を求めるステップと、
前記光景の前記要求されたビューを生成するステップとを備える、方法。
複数の深さにおける前記選択された複数の画像の各々の深さスライスを再投影するステップは、
最小再投影距離と最大再投影距離との間に延在する、前記複数の深さスライスの各々の隣接する深さスライス間の間隔を求めるステップと、
前記求められた間隔を前記選択された複数の画像の各々の深さスライスの前記再投影に適用するステップとを含む、請求項７に記載の方法。
前記要求されたビューの深さを求め、前記再投影された深さスライスにおける画素に基づいて、前記求められた深さにおける前記要求されたビューの各画素の色を求めるステップは、
対応する深さにおける前記選択された複数の画像の前記再投影された深さスライスの画素同士を一致させるステップと、
前記要求されたビューの要求された画素の深さを求め、前記求められた深さにおける前記要求されたビューの各画素の色を求めるステップとを含む、請求項７または８に記載の方法。
前記要求されたビューを生成するステップは、
各画素について、前記画素が特定の深さスライスに位置する確率を求めるステップと、
前記計算された確率と前記画素について計算された色とを掛け合わせるステップと、
前記乗算の結果として生じる積を合計して、前記要求されたビューを生成するステップとを含む、請求項７〜９のいずれか１項に記載の方法。
方法であって、
光景のビューに対する要求を受信するステップと、
複数のポーズ画像セットを記憶するデータベースから、前記光景の前記要求されたビューに対応するポーズ画像セットを検索するステップとを備え、前記複数のポーズ画像セットの各々は、対応する光景の複数のビューを含み、前記方法はさらに、
前記対応するポーズ画像セットに含まれる前記光景の前記複数のビューからの選択されたビューに基づいて前記光景の前記要求されたビューを生成するステップを備え、前記要求されたビューは、前記対応するポーズ画像セットの前記光景の前記複数のビューに含まれていない、方法。
光景のビューを生成するためのシステムであって、
ネットワークを備え、前記ネットワークは、
プロセッサを含むコンピューティングデバイスを含み、前記コンピューティングデバイスは、データベースと通信し、前記データベースは、複数の光景にそれぞれ対応する複数のポーズ画像セットを記憶し、前記複数のポーズ画像セットの各々は、前記複数の光景のうちの対応する光景の複数のビューを含み、前記ネットワークはさらに、
要求された出力画像内の各出力画素の深さを求めるように構成されたセレクションタワーを含み、前記要求された出力画像は、光景の要求されたビューに対応し、前記ネットワークはさらに、
前記要求された出力画像の各出力画素の色を生成するように構成されたカラータワーを含み、
前記セレクションタワーおよび前記カラータワーは、前記光景の前記要求されたビューに対応する前記ポーズ画像セットに含まれる前記光景の前記複数のビューから選択されたビューを受信するように構成され、前記光景の前記要求されたビューは、前記対応するポーズ画像セットの前記光景の前記複数のビューに含まれておらず、
前記セレクションタワーおよび前記カラータワーは、前記コンピューティングデバイスの前記プロセッサによる処理のために前記要求された出力画像を生成して前記光景の前記要求されたビューを生成するように構成される、システム。