JP7449977B2

JP7449977B2 - 可変焦点カメラの深度推定方法

Info

Publication number: JP7449977B2
Application number: JP2022080377A
Authority: JP
Inventors: サバトセルーソ; オリバガルシアリカルド; マニュエルロドリゲスラモスホセ
Original assignee: ウープティックスソシエダリミターダ
Priority date: 2021-05-20
Filing date: 2022-05-16
Publication date: 2024-03-14
Anticipated expiration: 2042-05-16
Also published as: AU2022203080B2; EP4092572A1; CN115375532A; AU2022203080A1; CA3157444A1; US20220383525A1; JP2022179397A; CL2022001304A1; TWI791405B; TW202247100A; KR20220157329A

Description

本発明は、請求項１の前文に明記されたタイプの方法と、請求項１３の前文に明記されたコンピュータシステムと、請求項１５の前文に明記された記憶媒体とに関する。

三次元シーンから二次元画像を捕捉する、例えば現実の物理的三次元空間のシーンから画像を捕捉する時には、三次元シーンが二次元画像に投影される時に深度情報が失われる。

例えば、三次元物体を認識可能にする、及び／又は、捕捉された二次元画像で背景及び前景特徴又は物体を区別する為にこの失われた空間深度情報の少なくとも一部を回復することは、とりわけ自律ロボットシステムの為のコンピュータビジョン又はロボットビジョンでの重要かつ困難な課題である。

既存の技術は、専用の複雑な特定ハードウェア、例えばステレオカメラ、及び／又は、複雑な光学マイクロレンズアレイの使用を必要とする、及び／又は、捕捉された画像の複雑なコンピュータリソース集約的処理、例えばモーション技術による構造及び／又は多視点技術による深度を必要とする。

特に、モーション技術による構造及び／又は多視点技術による深度のような最新技術は、動的シーンから深度情報を抽出又は回復しようとする時に、例えば画像ストリームから深度情報を抽出しようとする時に、望ましくない結果が生じ、捕捉されたシーンでは、シーンの画像ストリームが捕捉される間に、物体又は特徴のモーションが発生する。

現実の三次元シーンからカメラ／画像捕捉デバイスにより捕捉される二次元画像から深度情報を抽出／推定／回復する為の改良手段を提供することが、本発明の更なる目的である。特に、例えば動的シーンから画像を捕捉するケースでは特に、シーンからの複数の捕捉画像から深度情報を推定するプロセスを高速化して、推定による深度情報の精度を向上させることが、本発明の目的である。

本発明によれば、独立請求項によるコンピュータ実装方法とコンピュータシステムとコンピュータ記憶媒体とによりこれらの目的が達成される。

有利な実施形態及び更なる発展例が従属請求項の主題である。

例えば、異なる焦点位置でカメラにより撮影される複数の画像から深度情報を抽出する為のコンピュータ実装方法は、以下のステップのうち一つ、幾つか、又は全てを包含し得る。
・カメラの時系列の焦点位置を指定する所定の焦点計画に従って異なる焦点位置においてシーンの画像シーケンスをカメラで捕捉すること。
・畳み込みニューラルネットワークであるかこれを包含する機械学習アルゴリズムにより、所定数の捕捉画像の画像特徴を抽出して、抽出された画像特徴を記憶すること。
・捕捉された所定数の画像から画像特徴を抽出及び記憶した後に、機械学習アルゴリズムにより、画像特徴がまだ抽出されていない捕捉画像を処理し、捕捉画像が現在処理画像を表すこと。
・処理は更に、事前捕捉画像から記憶された画像特徴を現在処理画像の画像特徴と整合することを包含する。
・現在処理画像の画像特徴に整合された処理画像の少なくとも幾つか、好ましくは全ての処理画像の画像特徴を表す少なくとも一つの多次元テンソルを生成すること。
・所定の焦点計画で指定された焦点位置と、生成された少なくとも一つの多次元テンソルとを使用して、二次元深度マップを生成すること。

ここで、処理画像の少なくとも幾つかという表現は、処理された、つまり画像特徴が抽出及び記憶された所定数の捕捉画像による部分集合を指し得る、あるいは処理された所定数の捕捉画像の全てを包含する集合を指し得る。更に、全ての処理画像という表現は、処理された所定数の捕捉画像の全てを包含する集合を指すか、処理された所定数の捕捉画像の全てと現在処理画像とを包含する集合を指し得る。

例えば、ｋが、現在処理画像を含み得る捕捉画像の所定数を示す自然数である場合には、処理画像の少なくとも幾つかという表現は自然数ｓを指し、ｓはｋより小さいかこれに等しく、ｓは２より大きいかこれに等しい。好ましくは、ｓはｋに等しい。

ここで、シーンは、現実の物理的三次元空間でのシーンとして理解され得る。

ここで、画像又は画像フレームは、幅次元と高さ次元とを有する二次元画素化デジタル画像又は画像フレームとして理解され得る。

ここで、一つ／複数の画像又は画像フレームは映像ストリームの画像／画像フレームであり得る。

ここで、画像特徴はとりわけ、例えば捕捉画像での物体又は被写体の形状、輪郭、色など、捕捉画像での物体又は被写体の性質又は特性として理解され得る。画像特徴は、物体又は被写体の焦点が合っているか焦点がぼけているかを表す情報も指し得る、つまり画像特徴は焦点／焦点ぼけ情報を包含し得る。

上述した所定の焦点計画は、指定時に指定の焦点位置でカメラが画像を捕捉する順序を指定し得る。言い換えると、焦点計画は、カメラにより使用される焦点位置の既定リストを指定し得るとともに、シーンの画像シーケンスをカメラで捕捉する時にこのリストがどのように参照されるかを指定できる。

この所定の焦点計画は、異なる焦点位置及び／又は同一の焦点位置を包含し得る複数の焦点位置を包含し得る。言い方を変えると、焦点計画は、画像を捕捉する為にカメラの同じ焦点位置が異なる時点で使用され得ることを指定し得る。

そしてカメラが例示的な焦点計画を時系列的に参照して規定の焦点位置で画像を捕捉し得る。

ここで、カメラは、画素化された二次元デジタル画像を捕捉できる画像捕捉システムとして理解され得る。加えて、この例示的カメラは画像のストリーム、例えば画像の映像ストリームを捕捉できると理解されるはずである。特に、ここでのカメラは光学カメラとして理解され得る。

例示的なカメラは一般的なデジタルカメラ、例えばスマートフォンのカメラであり得る。更に、カメラは、異なる焦点位置で画像を捕捉する為に、つまり所定の焦点計画を参照する為に構成され得る。

例えば、カメラは、画像検出面、例えば画像センサ面のどこで捕捉光が収束するかを制御する為の光学要素、例えば一以上のレンズを具備し得る、つまりカメラは可変焦点カメラであり得る。

上に特定された例示的方法ステップは、全ての捕捉画像又は所望数の捕捉画像が処理されてしまうまで、反復的又はループ式に行われ得る。

異なる焦点位置でカメラにより撮影された複数の画像から深度情報を抽出する為の本明細書に記載の上の例示的方法は、現時点で最新の多視点アルゴリズムよりも高速でより精密な、可変焦点で撮影された画像からの深度情報の抽出を可能にする。

本明細書に記載の方法ステップにより異なる位置を焦点とする画像からの深度情報抽出の高速化は、実時間での、つまりカメラのユーザが気付くような遅延を伴わない画像ストリームからの深度情報の抽出を可能にする。

例えば、カメラによる映像ストリームの捕捉中に、捕捉された映像ストリームの画像から同時に深度情報が抽出され得る。例えば、深度情報が画像につき１８ミリ秒未満の速度で抽出され得ることにより、例えば、少なくとも毎秒３０フレームの画像フレームレート又はそれ以上の映像ストリームへの本明細書に記載の方法の適用を可能にする。

更に、例えば、ユーザが希望する画像の焦点設定を最適化してユーザが捕捉を希望するシーンの全焦点画像を捕捉及び／又は生成する為に、カメラのユーザがシーンの像の撮影に取り掛かる前に、カメラが所定の焦点計画による可変焦点でシーンの複数の画像を自動的に捕捉してシーンについての深度情報を抽出することが可能である。

複数の画像から深度情報を抽出する為の本明細書に記載の方法の改良性能は、とりわけ、現在画像又は現在入力画像を処理する間に、事前捕捉画像／過去画像の少なくとも幾つか又は全ての情報が保存され、再使用され、考慮されることにより、過剰計算の必要性を回避するという事実によるものである。

加えて、複数の画像から深度情報を抽出する為の本明細書に記載の方法は、複雑な数学演算を必要としないが、例えば並列的に行われ得る加算又は乗算のような基本的数学演算又は計算に依存するので、汎用中央プロセッサユニット（ＣＰＵ）よりも高速でこのような並列の基本的計算を実行できるグラフィカルプロセッサユニット（ＧＰＵ）による実行に適しているので理想的である。

更に、複数の画像から深度情報を抽出する為の本明細書に記載の例示的な方法は、動的シーン、つまり複数の画像の捕捉中に物体及び／又は被写体の移動が発生するシーンのケースでは特に、シーンの画像からのよりロバストでより精密な絶対深度情報抽出が行われる。

本明細書に記載の例示的方法のロバスト性及び精度の向上は、とりわけ、画像又は画像フレーム全体のレベルではなく特徴レベルのみで捕捉画像の処理が実施されるという事実によるものである。

一般的な多視点技術により必要とされてシーンの物体又は被写体が捕捉画像の間で移動する時に問題を起こし、移動によって最新の画像整合技術が機能しなくなるような画像／画像フレームの互いに関する直接的な見当合わせの必要性は、本明細書に記載の方法では回避される。

最新技術とは対照的に、本明細書に記載の方法では、特徴レベルでの整合の実行、つまり過去／事前捕捉画像からの過去／事前捕捉特徴と現在処理画像／現在処理入力画像からの画像特徴との整合により、捕捉画像の間で間接的な暗黙の見当合わせ／整合を行うことが可能である。それゆえこの方法は、シーンでの、及び／又は、カメラ移動による、例えば捕捉画像の間で発生し得るカメラの不安定な支持体による移動に、より良好に対処することができる。

抽出された深度情報つまり生成された二次元深度マップを使用してより焦点の合った画像を生成することは別にして、本明細書に記載の方法ステップ及び手段は、コンピュータ及びロボットビジョンの分野にも適用され得る。

例えば、本明細書に記載の方法は、特に自律ナビゲーション能力を向上させる為に、ロボット又は自動車、例えば自律ロボット又は自動車の視覚的物体認識を向上させるのに使用され得る。

本明細書に記載の方法は、画像の分類を向上させる、例えば画像又は物体検出アルゴリズムの精度及び性能を向上させる、及び／又は、抽出された深度情報を使用して画像／映像解析システムを向上させるのに使用され得る。

更に、抽出された深度情報、つまり生成された二次元深度マップがディスプレイ用の入力として、特に、例えば三次元ディスプレイ用の入力として使用されて、複数の二次元画像で捕捉されたシーンの三次元画像が生成される。

更に、本明細書に記載の方法と、畳み込みニューラルネットワークを包含する本明細書に記載の機械学習アルゴリズムとは、使用されるカメラのタイプに依存しない、つまり、いかなるタイプの画像及びカメラでも機能する。特定のカメラハードウェア又はレンズは必要とされない。

畳み込みニューラルネットワークが異なるカメラ及び焦点構成で訓練されることにより、未知のシーン／未知のサンプルへのこの方法のより良好な一般化を可能にする。

本明細書に記載の上記の例示的方法ステップでは、幅次元Ｗと高さ次元Ｈとチャネル次元Ｃとを包含する三次元特徴テンソルとして畳み込みニューラルネットワークの層により画像特徴が抽出され、このチャネル次元は、畳み込みニューラルネットワークの一以上の層により画像から抽出される特徴マップの数を表し、抽出された画像特徴の記憶は、抽出された画像特徴を三次元特徴テンソルとして記憶することを包含し得る。

本明細書において、画像から抽出された特徴マップは、畳み込みニューラルネットワークの一以上の層により検出／抽出された画像の特徴又は態様又は特性又は性質の幅次元Ｗと高さ次元Ｈとを含む二次元表現として理解され得る。特に、画像の特定の特徴又は態様又は特性又は性質が畳み込みニューラルネットワークの一以上の層により検出又は抽出される箇所の二次元表現として、特徴マップが理解され得る。

この特徴マップの幅及び高さ次元は、特徴マップが抽出された画像の幅及び高さ次元と等しいか、これと異なる、例えばこれより小さい。

この例示的特徴マップは、例示的な三次元特徴テンソルのスライスである／スライスを表すものとして理解され得る。

本明細書において、画像の特徴又は画像特徴という語は、それゆえ、画像の表現として、あるいは特徴が抽出された画像の次元空間とは異なる次元空間、例えば高次元空間における画像の態様の表現として理解され得る。

畳み込みニューラルネットワークを包含する機械学習アルゴリズムにより画像から画像特徴を抽出する本明細書に記載のプロセスは、それゆえ、画像を画像特徴に変換することとして理解され得る。

抽出された画像特徴をテンソルとして表現すると、畳み込みニューラルネットワークにより特徴テンソルがより容易に処理され得るので、抽出された画像特徴の計算処理が促進される。

畳み込みニューラルネットワークによる画像特徴の抽出は、畳み込み層と、バッチ正規化（ＢＮ）と、修正線形活性化関数（ＲｅＬｕ）と、再サンプリング、例えばアップサンプリング（Ｕｐ）、再形成、又はプーリングと、連結（Ｃｏｎｃａｔ）と、スキップ演算とを包含するシーケンスにより実行され得る。

本明細書において、バッチ正規化（ＢＮ）は、移動平均としても知られる推定平均Ｅ（ｘ）、分散Ｖａｒ（ｘ）、そしてスケールパラメータ及びシフトパラメータを使用する正規化演算を指し、スケールパラメータとシフトパラメータとは、訓練中に畳み込みニューラルネットワークにより学習され得る。

ゆえに、バッチ正規化（ＢＮ）は、例えば、

として表現され得る。
本明細書において、修正線形活性化関数（ＲｅＬｕ）は、負の値をゼロに設定してゼロを含む正の値を無変化にする畳み込みニューラルネットワークの活性化関数を指すものとして理解され得る。

ゆえに、修正線形活性化関数（ＲｅＬｕ）は、例えば

として表現され得る。
ここで、アップサンプリング（Ｕｐ，ＵＰ，Ｕｐ－ｓａｍｐｌｅ）演算は、画像又は画像特徴又は画像特徴テンソル又は特徴マップの幅及び／又は高さ次元を増加させる演算を指し、増加演算は、元の画像又は元の画像特徴テンソル又は元の特徴マップの値を内挿又は外挿してアップサンプリング値を得ることに基づく／これを包含する。

ここで、再形成演算は、テンソルの形状つまり次元、例えば画像又は画像特徴又は特徴マップ又は画像特徴テンソルの形状を、テンソルの要素の総数を維持しながら修正する演算を指し得る。例えば、［１０，３，９，２］形状のテンソルは、これらの形状全てが同じ要素総数（５４０）を含むので、［１０，３，１８］，［３０，１８］，［３０，１，１８］、つまり［５４０］に再形成され得る。

ここで、プーリング演算（プール、プーリング、空間ピラミッドプーリング）は、アップサンプリング演算に類似しているが画像又は画像特徴又は画像特徴テンソル又は特徴マップの幅及び／又は高さ次元をダウンサンプリングする演算として理解され得る。例えば、プーリング演算は、演算、例えば最大又は平均関数を画素の部分集合、例えば画像又は画像特徴又は特徴マップ又は画像特徴テンソルの画素に適用し、部分集合は、一つの画素を生成する所定のストライドを含む所定のカーネル／フィルタのサイズに対応する。

例えば、カーネルサイズ＝２でストライド＝２の最大プーリング演算は、［２，２］形状の画素の部分集合を使用して、入力、例えば画像又は画像特徴又は画像特徴テンソル又は特徴マップをその半分にダウンサンプリングし、ダウンサンプリング係数は指定されたストライドに対応する。

選択されるカーネル及びストライドは例示的に過ぎない。例えば経験的に判断される他のカーネル及びストライドサイズも同じく選択され得る。

ここで、連結演算は、二以上のテンソル、例えば画像又は画像特徴又は画像特徴テンソル又は特徴マップを特定の次元で統合する演算を指し得る。この演算は、統合される／連結されるテンソル全てが、連結次元を除く全ての次元で同じ形状を有することを必要とする。

例えば、第１次元で連結された［１０，３，９］形状のテンソルｔ１と［４，３，９］形状のテンソルｔ２とにより、結果的に［１４，３，９］形状のテンソルが得られる。

ここで、スキップ演算は、特定の演算、例えば加算演算を使用して、畳み込みニューラルネットワークの演算の不連続層または不連続シーケンスを接続する演算を指し得る。

例えば、×０を入力とする層１の演算の出力が×１であると、例えば×１＝層１（×０）であって、×１を入力とする層２の演算の出力が×２であると、例えば×２＝層２（×１）であり、層２は層１に連続し、×２を入力とする層３の演算の出力が×３であると、例えば×３＝層３（×２）であり、層３は層２に連続する。

そして例示的なスキップ演算は、×３＋×１の加算、つまり層２のスキップとして定義され得る。

ここで、畳み込みの層又は畳み込み層は、画像又は画像特徴又は画像特徴テンソル又は特徴マップに対する畳み込み演算を指し得る。

畳み込みニューラルネットワークの可能な例示的演算又は層は、多数の次元で／にわたって／において実行され得る。演算の次元性は、畳み込みニューラルネットワーク内で演算が行われているところに依存し得る。

例えば、畳み込みニューラルネットワークによる画像特徴の抽出は、特に、画像又は画像特徴又は画像特徴テンソル又は特徴マップの高さ次元Ｈ及び幅次元Ｗの演算を行うかこれに作用する演算又は層を必要とし、抽出された画像特徴、例えば画像特徴の整合は、焦点位置次元など更なる次元に作用する畳み込みニューラルネットワークの演算又は層を必要とし得る。

画像特徴の抽出の為に構成された例示的な畳み込みニューラルネットワークアーキテクチャの例示的な特定構成が、以下で更に提示される。

上述した、事前捕捉画像から記憶された画像特徴と現在処理画像の画像特徴との整合は、事前捕捉画像から記憶された画像特徴と現在処理画像からの画像特徴の両方に四次元符号化を適用することを包含し、画像特徴はテンソルとして表される。

例えば、この四次元符号化は、時間、空間、そして焦点位置の情報を、事前捕捉画像からの画像特徴に、そして現在捕捉画像からの画像特徴に埋め込むことを包含し得る。

例えば、四次元符号化Ｅは以下の二つの方程式に従って構成され、

αは補正定数であって、好ましくは、αはチャネルの数又はチャネル次元サイズであるＣより大きく、ｘ、ｙは空間画素座標であり、ｔは時間、つまり画像特徴が抽出された捕捉画像の時間的位置／時点／タイムスタンプ／タイムインデックスであって、ｔ∈［０，Ｋ－１］であり、Ｋは事前捕捉画像の数、例えば捕捉画像の所定数を示し、ｄ∈［０，Ｎ－１］は、符号化される所与の画像の焦点面位置／焦点位置／焦点位置インデックスであって、Ｎは画像の総数、例えば、焦点計画での画像の数、あるいは焦点計画での画像の数と焦点計画の画像から導出された画像の数との和であり、この導出画像は、焦点計画に従って捕捉された画像の内挿又は外挿により導出され、ｉ∈［０，Ｃ／２］は、符号化の為にチャネルの数を奇数及び偶数チャネルに分割するのに使用されるインデックスである。

例示的な符号化Ｅ_２ｉ，ｘ，ｙ_，Ｅ_２ｉ＋１，ｘ，ｙで構成される例示的な符号化Ｅは、現在処理画像∈

上式において、ｃ∈［１，Ｃ］はチャネルインデックスであり、Ｅ^ｋ _ｃ，ｘ，ｙは過去のＫ個の画像／事前捕捉画像の画像特徴／特徴テンソルの符号化を示す、つまりｋ∈［１，Ｋ］は、過去のＫ個／事前捕捉／記憶画像の画像特徴／特徴テンソルについてのインデックスを示す。

上に記載された例には、非線形であって三角関数の使用に基づく例示的な四次元符号化が記載され、現在処理画像からの画像特徴への、そして事前捕捉画像から記憶された画像特徴の各々への追加を介して、四次元符号化が適用される。しかしながら、他の四次元符号化も同じく使用され得る。

符号化特徴テンソルＥＦとＥＰＦとを整合して、現在処理画像の画像特徴に整合された全ての全事前処理画像の、例えばＫ個の処理画像の画像特徴を表す少なくとも一つの多次元テンソルを生成するには、以下の例示的なステップが実行され得る。

以下の例示的類似度スコアに基づく畳み込みニューラルネットワークにより、符号化特徴テンソルについての類似度演算が実行され得る。

上式において、ＥＦ’は畳み込みニューラルネットワークによるＥＦの再形成により得られた二次元行列であり、ｉ，ｊは行列要素を示し、ＥＰＦ’は、畳み込みニューラルネットワークによりＥＰＦを再形成することによって得られた三次元テンソルであり、ｋ，ｉ’，ｊは三次元テンソルの要素であってｋは過去のＫ個／事前捕捉／記憶画像の画像特徴テンソルを示すインデックスである。ここでインデックスｉ及びｉ’は、例えば［０，（Ｈ＊Ｗ）－１］の範囲を有して、インデックスｊは［０，Ｃ，－１］の範囲を有し、Ｈ，Ｗは特徴テンソルの高さ及び幅次元であってＣはチャネルの数である。

完全性の為に、そして前に指摘したように、ＥＰＦは現在処理画像から抽出された特徴も含み得る、つまり現在処理画像の特徴テンソルを含み得ることが可能であることに留意していただきたい。しかしながら、現在処理画像の特徴テンソルそれ自体に完全な類似度が見られるので、現在処理画像の特徴テンソルをＥＰＦに含める時に類似度スコアは影響を受けない。

しかしながら、現在処理画像の特徴テンソルをＥＰＦに含めることは、特に、例えば畳み込みニューラルネットワークの訓練中に畳み込みニューラルネットワークの妥当性及びロバスト性を点検するのにとりわけ有益であり得る。

徴との間の類似度スコアとして理解され得る。

の特性を持つ正規化類似度スコアである。

いは、現在処理画像の焦点位置も含み得る過去のＫ個／事前捕捉／記憶画像の全ての焦点位置の数であり、Ｎは焦点位置の総数Ｋのうち固有焦点位置の数である。

そして、例えば減算和演算

ての処理画像の画像特徴を表す少なくとも一つの多次元テンソルの一例であり、ｎは［０，Ｎ－１］範囲のインデックスであってｍは［０，Ｍ－１］範囲のインデックスであり、Ｎは固有焦点位置の数であってＭは上に定義されている。

前に指摘したように、事前捕捉画像からの全ての記憶画像又は全ての処理画像を現在処理画像の画像特徴と整合することに代わって、処理された所定数の捕捉画像／過去のＫ個の画像のうち幾つかの画像特徴を現在処理画像の画像特徴と整合することのみが考えられ

特徴に整合された事前処理画像特徴の幾つかのみを表し得る、つまり上に特定されたインデックス範囲が例示的に過ぎないことが可能である。

所定の焦点計画で指定された焦点位置と、生成された少なくとも一つの多次元テンソルとを使用して二次元深度マップを生成するステップは更に、機械学習アルゴリズムにより、得られた少なくとも一つの多次元テンソルＥＰＦ^ａを使用して少なくとも一つの多次元

を使用して少なくとも一つの多次元焦点確率マップを現実の物理的距離に再マッピングすることとを包含し得る。

とりわけ多次元焦点確率マップｆｐｍは、例えば以下のステップを介して畳み込みニューラルネットワークにより取得され得る。
・必要に応じて、処理された捕捉画像の元の空間解像度へのＥＰＦ^ａの任意のアップサンプリング
・チャネル数を１まで減少させる畳み込み
・多次元焦点確率マップを取得するソフトマックス演算による正規化

ここで、畳み込みニューラルネットワークによるソフトマックス演算は、例えば、

として定義され、Σ_ｉｓｍａｘ（ｘ）_ｉ＝１の特性を有し、ｓｍａｘ（ｘ）_ｉ∈［０，１］である。

Ｗと高さ次元Ｈと焦点位置次元Ｎとを有する三次元テンソルであって、焦点位置次元は焦点位置、例えば、焦点計画での異なる焦点位置、あるいは焦点計画からと合成／導出画像についての合成／導出焦点位置と異なる焦点位置の数を表し、この合成／導出画像は内挿又は外挿を介して捕捉画像から導出されたものである。

ここで、幅及び高さ次元のサイズは入力画像の幅及び高さ次元のサイズに等しく、入力画像は、所定数の捕捉画像又は現在処理画像の画像と合成画像のいずれかである。

所定の焦点計画で指定された焦点位置を使用した現実の物理的距離への少なくとも一つの多次元焦点確率マップｆｐｍの再マッピングは、少なくとも一つの多次元焦点確率マップの各画素と焦点計画での既知の焦点位置との間のドット積を計算して、これにより捕捉されたシーンについての絶対深度情報を含む二次元深度マップを取得することを包含し得る。

上に記載された例示的ステップは異なる画像特徴スケールについて実行され得る、つまり所定数の捕捉画像の画像特徴を抽出して現在処理画像の画像特徴を抽出するステップは更に、機械学習アルゴリズムにより、画像特徴を異なるスケールで抽出することを包含し、このスケールは入力画像の高さの分数として、及び／又は、入力画像の幅の分数として規定され、入力画像は、所定数の捕捉画像の画像と現在処理画像のいずれかである。

更に、所定数の捕捉画像から抽出された画像特徴／特徴テンソルと、現在処理画像から抽出された画像特徴／特徴テンソルとは、循環バッファ、例えば所定数の捕捉画像からの画像特徴を少なくとも保持できる循環バッファのコンピュータ可読メモリに記憶される。

これは、メモリのオーバーフローを回避しながら、効率的なメモリ管理と、例えば映像ストリームからの画像ストリームの効率的な処理とを可能にする。

ここで所定数の捕捉画像は、焦点計画により指定された異なる焦点位置の数に少なくとも等しいかこれより大きい。

本明細書に記載の上記の例示的畳み込みニューラルネットワークは、現実の物質的世界からの複数の異なるシーンについて異なる焦点位置を焦点とする複数の画像を包含する、訓練サンプルで訓練された訓練済み畳み込みニューラルネットワークであり、シーンは静的又は動的であり、畳み込みニューラルネットワークパラメータは、損失関数を使用して、畳み込みニューラルネットワークにより生成された推定による深度マップを、対応する既知のグラウンドトゥルース深度マップつまり絶対値が既知である深度マップと比較することにより、最適化され得る。

その際に、損失関数は、予想された既知のグラウンドトゥルース深度マップに対して推定／予測による深度マップがどれほど異なっているかについての測定手段である。損失関数が所定／指定の最小値に達して畳み込みニューラルネットワークの最適モデルパラメータが判断されるまで、畳み込みニューラルネットワークの訓練が行われる。勾配降下アルゴリズムの使用などの最適化技術により、損失関数の最小化が達成され得る。しかしながら、損失関数を最小化して、例えば畳み込み層の最適重み、最適スケール、又はシフトパラメータ値などの訓練から畳み込みニューラルネットワークの最適モデルパラメータを判断するのに、他の最適化技術、例えば疑似アニーリング法、遺伝的アルゴリズム、又はマルコフ連鎖モンテカルロアルゴリズムも適用され得る。

本明細書に記載の上記の例示的方法及び方法ステップは、コンピュータメモリと、一以上のプロセッサ、例えば中央処理ユニット（ＣＰＵ）及び／又はグラフィック処理ユニット（ＧＰＵ）とを具備するコンピュータシステムで実装され、異なる焦点位置でカメラにより撮影された複数の画像から深度情報を抽出する為の本明細書に記載の方法及び方法ステップを実行するように一以上のプロセッサに指示する命令をコンピュータが記憶できる。

本明細書に記載の方法ステップは、周知の多視点技術と比較して高速の画像処理を可能にするので、スマートフォンなどのポータブルデバイスのプロセッサでも画像及び画像ストリームの実時間処理が達成され得る。

ゆえに、コンピューティングシステムは、異なる焦点位置でシーンの画像を捕捉する為に構成されたカメラを具備するポータブルモバイルデバイス、例えばスマートフォンであり得る。

更に、コンピュータシステムによる実行時に、本明細書に記載のように異なる焦点位置でカメラにより撮影された複数の画像から深度情報を抽出する為の方法を実施できるコンピュータ実行可能命令は、コンピュータ可読記憶媒体、例えば不揮発性コンピュータ記憶媒体に記憶され得る。

上述した捕捉画像の所定数は、例えば、所定の焦点計画での焦点位置の数より小さいかこれに等しいかこれより大きい、及び／又は、所定の焦点計画での異なる、つまり固有の焦点位置の数に等しいかこれより大きくなり得る。特に、捕捉画像の所定数は、所定の焦点計画での焦点位置の数の自然数倍であり得る。

以下の図は例示的である。
深度情報を抽出する為の方法及び手段の例示的な概略図である。畳み込みニューラルネットワークの例示的な二次元符号器である。例示的な二次元畳み込みブロックである。例示的な二次元残差畳み込みブロックである。例示的な二次元マルチスケール特徴集約ブロックである。例示的な二次元空間ピラミッドプーリングブロックである。畳み込みニューラルネットワークの例示的な三次元復号器である。例示的な三次元残差畳み込みブロックである。例示的な三次元マルチスケール特徴集約ブロックである。例示的な三次元空間ピラミッドプーリングブロックである。例示的なメモリブロックである。例示的な特徴整合ブロックである。例示的な特徴整合ヘッドである。深度情報を抽出する為の方法の例示的な流れ図である。機械学習アルゴリズムの訓練の例示的概略図である。

図１は、画像から深度情報を抽出する為の方法及び手段の一般的な概略を示す。

焦点計画７１０に従って異なる焦点位置で画像を捕捉することにより可変焦点のカメラにより画像ストリームが撮影されたシーンの画像ストリーム７００が、畳み込みニューラルネットワークを包含する機械学習モデル／機械学習アルゴリズム７２０へ入力／供給される。

シーンの焦点確率マップ７３０を出力する畳み込みニューラルネットワークを包含する機械学習アルゴリズムが、焦点計画７１０の既知の焦点位置を使用して絶対距離に再マッピングされ（７４０）、シーンの二次元深度マップ７５０が得られる。

図２ａは、異なる焦点位置でカメラにより捕捉された画像１０１から画像特徴を抽出するのに使用され得るとともに、例示的な抽出特徴又は特徴テンソル１１５，１１６，１１７，１１８を出力する例示的で可能な畳み込みニューラルネットワークアーキテクチャの例示的な一部を示す。

図２ａに示されている例示的で可能な畳み込みニューラルネットワークアーキテクチャの一部は、あらゆるチャネル次元Ｃについて入力画像１０１からの特徴を幅Ｗ及び高さＨの二次元特徴マップに符号化する二次元（２Ｄ）符号器１００を表すものと理解され得る。

別の言い方をすると、幅次元Ｗと高さ次元Ｈとチャネル次元Ｃとを包含する三次元特徴テンソル１１５，１１６，１１７，１１８として画像特徴が抽出され、チャネル次元は、畳み込みニューラルネットワークのうち示されている一部の一以上の層又はブロック１０２，１０３，１０４，１０６，１０７，１０８，１０９，１１０，１１１，１１２，１１３，１１４により画像から抽出された特徴マップの数を表す。

示されている例示的なケースで、入力画像１０１からの特徴は、例えば異なる空間サイズ及び／又は異なるチャネル次元を持つ四つの異なるスケールで抽出される。

例えば、三次元出力特徴／抽出特徴テンソル１１５は（チャネル次元Ｃ＝１６，Ｈ／８，Ｗ／８）形状のものであり、特徴テンソル１１６は（Ｃ＝１６，Ｈ／１６，Ｗ／１６）形状のものであり、特徴テンソル１１７は（Ｃ＝１６，Ｈ／３２／Ｗ／３２）形状のものであり、特徴テンソル１１８は（Ｃ＝３２，Ｈ／６４，Ｗ／６４）形状のものであって、Ｈ及びＷは入力画像１０１の高さ及び幅次元サイズである。

異なるスケールの数及び選択は単に例示的であって、単一スケールのみを使用することも可能である。またチャネルの数は単に例示的であって、例えば経験的に判断／規定され得る。

以下では、二次元（２Ｄ）演算又は層又はブロック、例えば２Ｄ畳み込みブロック又は２Ｄ残差畳み込みブロック又は２Ｄ空間ピラミッドプーリングブロック又は２Ｄマルチスケール特徴集約ブロックは、特徴テンソルの高さ及び幅次元、例えば特徴マップの高さ及び幅次元に作用する／これに演算を行うものとして理解され得る。この高さ及び幅次元は、入力画像１０１の高さ及び幅次元のサイズと、サイズが等しいかサイズが異なり得る。

二次元畳み込みブロック１０２と四つの二次元残差畳み込みブロック１０３，１０４，１０５，１０６とを包含するシーケンスにより、特徴の例示的な抽出が四つの異なるスケールで達成される。この例示的な二次元残差畳み込みブロック１０３，１０４，１０５，１０６の各々は、二次元畳み込み層（Ｃｏｎｖ）とバッチ正規化（ＢＮ）と修正線形活性化関数（ＲｅＬｕ）と加算（Ｓｕｍ）と所与の残差畳み込みブロックの入力と出力との間のスキップ接続とのシーケンスを包含する。二次元残差畳み込みブロックの例示的な構成が図２ｃに挙げられている。

この二次元畳み込みブロック１０２は、例えば、二次元畳み込み層（Ｃｏｎｖ）とバッチ正規化（ＢＮ）と修正線形活性化関数（ＲｅＬｕ）とプーリング層（ｐｏｏｌ）とのシーケンスを包含し得る。二次元畳み込みブロックの例示的な構成は図２ｂに挙げられている。

最後の残差畳み込みブロック１０６が適用された後に、二次元空間ピラミッドプーリングブロック１０７が適用される。このような二次元空間ピラミッドプーリングブロックの例示的な構成は、図２ｅに挙げられている。

そして、二次元マルチスケール特徴集約ブロック１０８，１０９，１１０を使用して、二次元空間ピラミッドプーリングブロック１０７の出力が、最初の三つの二次元残差畳み込みブロック１０３，１０４，１０５からの中間出力と順次統合される。

二次元マルチスケール特徴集約ブロックの例示的な構成は、図２ｄに挙げられている。

最後のステップとして、各スケールについて、二次元畳み込み層（Ｃｏｎｖ）１１１ａ，１１２ａ，１１３ａ，１１４ａとバッチ正規化（ＢＮ）１１１ｂ，１１２ｂ，１１３ｂ，１１４ｂと修正線形活性化関数（ＲｅＬｕ）１１１ｃ，１１２ｃ，１１３ｃ，１１４ｃとのシーケンス１１１，１１２，１１３，１１４が適用され、例示的な四つの特徴スケールについて抽出された特徴／特徴テンソル１１５，１１６，１１７，１１８が得られる。

図２ｂは、三つのシーケンス１１９，１２０，１２１を包含する図２ａの二次元畳み込みブロック１０２の可能な例示的構成を例示的に示し、各シーケンスは、二次元畳み込み層（Ｃｏｎｖ）、バッチ正規化（ＢＮ）、修正線形活性化関数（ＲｅＬｕ）演算を包含する。最後のシーケンス１２１の後で、プーリング層（Ｐｏｏｌ）が適用されて畳み込みブロック１０２の出力が得られる。

図２ｃは、二つのブランチ１２８，１２９を包含する図２ａの二次元残差畳み込みブロック１０３，１０４，１０５，１０６についての可能な例示的構成を例示的に示す。

例示的なブランチ１２８は、二次元畳み込み層（Ｃｏｎｖ）とバッチ正規化（ＢＮ）と修正線形活性化関数（ＲｅＬｕ）演算とを包含する第１シーケンス１２３と、バッチ正規化（ＢＮ）と修正線形活性化関数（ＲｅＬｕ）演算とを包含する第２シーケンス１２４とを包含する。

例示的ブランチ１２９は、二次元畳み込み層（Ｃｏｎｖ）とバッチ正規化（ＢＮ）演算との単一のシーケンスのみを包含する。

例示的な二つのブランチの出力は加算（Ｓｕｍ）演算１２５を使用して統合され、最終の修正線形活性化関数（ＲｅＬｕ）演算１２６の後に、二次元残差畳み込みブロックの出力が得られる。

図２ｄは、図２ａの二次元マルチスケール特徴集約ブロック１０８，１０９，１１０の可能な例示的構成を例示的に示す。

例示的な二次元マルチスケール特徴集約ブロックは、アップサンプリング演算（ＵＰ）１３０、その後の二次元畳み込み層（Ｃｏｎｖ）とバッチ正規化（ＢＮ）と修正線形活性化関数（ＲｅＬｕ）演算とを包含するシーケンス１３１、その後の連結（Ｃｏｎｃａｔ）演算１３２、そして二次元畳み込み層（Ｃｏｎｖ）とバッチ正規化（ＢＮ）と修正線形活性化関数（ＲｅＬｕ）演算とを包含する最終シーケンス１３３を包含する。

図２ｅは、図２ａの二次元空間ピラミッドプーリングブロック１０７の可能な例示的構成を例示的に示す。例示的な二次元空間ピラミッドプーリングブロックへの入力は５個のブロック１３４，１３５，１３６，１３７，１３８へ送られ、４個の並列ブランチ１３４，１３５，１３６，１３７の各々は、プーリング層（Ｐｏｏｌ）と畳み込み層（Ｃｏｎｖ）とアップサンプリング演算（Ｕｐ－ｓａｍｐｌｅ）とのシーケンスを包含し、そして４個の並列ブランチ１３４，１３５，１３６，１３７の出力は、二次元空間ピラミッドプーリングブロックの入力に対応する第５ブランチ１３８と加算演算（Ｓｕｍ）１３９を介して統合されて、二次元空間ピラミッドプーリングブロックの出力が生成される、つまりブランチ１３８は４個の並列ブランチ１３４，１３５，１３６，１３７の演算をスキップする。

図３ａは、図２ａに示されている例示的な符号器１００の出力１１５，１１６，１１７，１１８に続き得る例示的で可能な畳み込みニューラルネットワークアーキテクチャの例示的な一部を示す、つまり抽出特徴／特徴テンソル１１５，１１６，１１７，１１８が、図３ａに示されている例示的な三次元復号器２００の入力となる。

例えば、例示的な（Ｃ＝１６，Ｈ／８，Ｗ／８）形状の三次元出力特徴テンソル／抽出特徴テンソル１１５は入力２０４となり、（Ｃ＝１６，Ｈ／１６，Ｗ／１６）形状の特徴テンソル１１６は入力２０３となり、（Ｃ＝１６，Ｈ／３２，Ｗ／３２）形状の特徴テンソル１１７は入力２０２となり、（Ｃ＝３２，Ｈ／６４，Ｗ／６４）形状の特徴テンソル１１８は復号器２００の入力２０１となる。

例示的な復号器２００は、他の３個の中間焦点確率マップ２８０，２９０，３００とともに最終の三次元焦点確率マップ３１０を出力し、その全てが（Ｎ，Ｈ，Ｗ）形状であって、Ｎは例えば焦点計画での異なる焦点位置の数であり、Ｈ及びＷは図２ａの入力画像１０１の高さ及び幅次元サイズに対応する。

しかしながら、ここで焦点計画には指定されていないが畳み込みニューラルネットワークにより合成された追加の焦点位置もＮが示すことが考えられ得る。このような合成／生成された焦点位置は、更なる追加焦点確率マップを入手し、それゆえ入手可能な深度分解能を高めるのに使用され得る。

入力特徴／特徴テンソル２０１，２０２，２０３，２０４の各々は最初に専用のメモリブロック２４０，２５０，２６０，２７０を通過して、ここで過去画像／事前捕捉画像と事前処理画像の記憶特徴が検索されて、現在処理画像、例えば入力画像１０１と整合され、その結果、（Ｃ，Ｎ，Ｈ，Ｗ）形状の多次元テンソルが得られ、Ｃは特徴マップのチャネルの数であり、Ｎは焦点計画での異なる焦点距離の数であり、Ｈ及びＷは抽出特徴、つまり特徴マップの場合に高さ及び幅次元の空間分解能を指す。この多次元テンソルは、現在処理画像について抽出された画像特徴に整合された事前処理画像から抽出された画像特徴を、所与のスケールについて表す。

メモリブロックの一例が図４ａに示されている。

以下では、三次元（３Ｄ）演算又は層又はブロック、例えば３Ｄ残差畳み込みブロック又は３Ｄ空間ピラミッドプーリングブロック又は３Ｄマルチスケール特徴集約ブロックは、特徴テンソルの高さ及び幅次元、例えば、特徴マップの高さ及び幅次元に作用する／これに演算を行うとともに、焦点位置次元に作用する／これに演算を行うものとして理解され得る。高さ及び幅次元は、入力画像１０１の高さ及び幅次元とサイズが等しいかサイズが異なり得る。

メモリブロック２４０，２５０，２６０，２７０の通過後に、一以上の三次元（３Ｄ）残差畳み込みブロック３２０，３５０，３８０，４１０が適用され得る。図３ａでは、所与の特徴スケールについて三次元（３Ｄ）残差畳み込みブロックが一つのみ示されているが、一つより多い、例えば５個であってもよい。

三次元（３Ｄ）残差畳み込みブロックの一例が図３ｂに示されている。

残差畳み込みブロック３２０，３５０，３８０，４１０の各々の後には、三次元（３Ｄ）空間ピラミッドプーリングブロック３３０，３６０，３９０，４２０が続く。

三次元（３Ｄ）空間ピラミッドプーリングブロックの一例が図３ｄに示されている。

ピラミッドプーリングブロック３３０，３６０，３９０の出力の後に、例示的には二つのブランチが続く。
・一方のブランチ４３０，４４０，４５０では、入力画像１０１のサイズ／元の空間分解能にアップサンプリング（ＵＰ）が行われてから、畳み込み層（Ｃｏｎｖ）と、バッチ正規化（ＢＮ）と、修正線形活性化関数（ＲｅＬｕ）と、更なる畳み込み層（Ｃｏｎｖ）と、チャネルの数を１まで減少させる更なるバッチ正規化（ＢＮ）演算と、最終ソフトマックス演算とのシーケンスが続いて、中間焦点確率マップ２８０，２９０，３００が得られる。
・他方のブランチ４３１，４４１，４５１は、三次元空間ピラミッドプーリングブロックの出力をメモリブロック２５０，２６０，２７０の出力と統合する三次元（３Ｄ）マルチスケール集約ブロック３４０，３７０，４００を包含する。明確に記すと、示されている例示的アーキテクチャでは、メモリブロック２５０の出力が三次元空間ピラミッドプーリングブロック３３０の出力と統合され、メモリブロック２６０の出力が三次元空間ピラミッドプーリングブロック３６０の出力と統合され、メモリブロック２７０の出力が三次元空間ピラミッドプーリングブロック３９０の出力と統合される。

三次元（３Ｄ）マルチスケール集約ブロックの一例が図３ｃに示されている。

全てのスケールからの特徴が集約された後に、そして最後の三次元残差畳み込みブロック４１０と最後の三次元空間ピラミッドプーリングブロック３６０とを通過した後に、畳み込み層（Ｃｏｎｖ）とバッチ正規化（ＢＮ）と修正線形活性化関数（ＲｅＬｕ）と更なる畳み込み層（Ｃｏｎｖ）と更なるバッチ正規化（ＢＮ）演算と最終ソフトマックス演算とを包含する最後のシーケンス４６０を適用することにより、最終焦点確率マップ３１０が得られる。

畳み込みニューラルネットワークにより出力される最終の焦点確率マップ３１０、ｆｐｍを使用すると、Σ_ｎｆｐｍ_{ｎ，ｉ，ｊ}＊ｆ_ｎ＝ｄｍａｐ_ｉ，ｊを介して二次元深度マップｄｍａｐ_ｉ，ｊを得ることができ、ｉ，ｊは高さ及び幅次元についての自然数インデックスであり、ｆ_ｎは、焦点計画の固有焦点位置と畳み込みニューラルネットワークにより合成／生成された更なる固有焦点位置とを包含し得る固有焦点位置であり、ｎは自然数インデックスである。

図３ｂは、例示的な畳み込みニューラルネットワークアーキテクチャについての図３ａの例示的な三次元復号器２００で使用され得る三次元残差畳み込みブロック３２０，２５０，３８０，４１０の例示的構成を示す。

三次元残差畳み込みブロックは、二つのブランチ５０１，５０２を包含し得る。

例示的なブランチ５０１は、三次元畳み込み層（Ｃｏｎｖ）とバッチ正規化（ＢＮ）と修正線形活性化関数（ＲｅＬｕ）演算とを包含する第１シーケンス５０３と、バッチ正規化（ＢＮ）と修正線形活性化関数（ＲｅＬｕ）演算とを包含する第２シーケンス５０４とを包含する。

例示的ブランチ５０２は、三次元畳み込み層（Ｃｏｎｖ）とバッチ正規化（ＢＮ）演算との単一のシーケンスのみを包含する。

例示的な二つのブランチの出力は加算（Ｓｕｍ）演算５０６を使用して統合され、三次元残差畳み込みブロックの出力は、最終の修正線形活性化関数（ＲｅＬｕ）演算５０７の後で得られる。

図３ｃは、図３ａの三次元マルチスケール特徴集約ブロック３４０，３７０，４００について可能な例示的構成を示す。

この例示的な三次元マルチスケール特徴集約ブロックはアップサンプリング演算（ＵＰ）５０８を包含し、その後には、三次元畳み込み層（Ｃｏｎｖ）とバッチ正規化（ＢＮ）と修正線形活性化関数（ＲｅＬｕ）演算とを包含するシーケンス５０９が続き、その後には、連結（Ｃｏｎｃａｔ）演算５１０と、三次元畳み込み層（Ｃｏｎｖ）とバッチ正規化（ＢＮ）と修正線形活性化関数（ＲｅＬｕ）演算とを包含する最終シーケンス５１１が続く。

前述した可能な合成焦点位置が三次元マルチスケール特徴集約ブロック内で生成され得ることが考えられる。例えば、連結（Ｃｏｎｃａｔ）演算５１０の前に三次元アップサンプリング演算を使用して合成焦点位置が生成され得る。

図３ｄは、図３ａの三次元空間ピラミッドプーリングブロック３３０，３６０，３９０，４２０の可能な例示的構成を例示的に示す。

例示的な三次元空間ピラミッドプーリングブロックへの入力は、５個のブランチ５１２，５１３，５１４，５１５，５１６に送られ、４個の並列ブランチ５１２，５１３，５１４，５１５の各々は、プーリング層（Ｐｏｏｌ）と畳み込み層（Ｃｏｎｖ）とアップサンプリング演算（Ｕｐ－ｓａｍｐｌｅ）とのシーケンスを包含し、そして４個の並列ブランチ５１２，５１３，５１４，５１５の出力は、三次元空間ピラミッドプーリングブロックの入力に対応する第５ブランチ５１６と加算演算（Ｓｕｍ）５１７を介して統合されて、三次元空間ピラミッドプーリングブロックの出力が生成される、つまりブランチ５１６は４個の並列ブランチ５１２，５１３，５１４，５１５の演算をスキップする。

図４ａは、図３ａの復号器２００のメモリブロック２４０，２５０，２６０，２７０の可能な例示的構成を示す。

記憶プール４０１０として示されているメモリが包含され、所定数Ｋ個の事前捕捉／事前処理画像から抽出された画像特徴／特徴テンソルが記憶され得る。

過去画像特徴記憶プール４０１０は例えば、最後のＫ個の画像の各々について図２ａに示された２Ｄ復号器により捕捉画像から抽出された特徴／特徴テンソルを記憶することができ、Ｋは例えば、焦点位置の数であるＮの自然数倍である。

チャネル次元Ｃと高さ次元Ｈと幅次元Ｗとを含む（Ｃ，Ｈ，Ｗ）形状の三次元テンソルである所与のスケールについての現在処理画像の画像特徴４０００も、記憶プール４０１０に記憶され得る。

メモリブロックは更に、記憶プール４０１０に記憶された特徴／特徴テンソル、例えばＫ個の事前捕捉／事前処理画像から抽出された特徴／特徴テンソルを、現在処理画像から抽出された特徴／特徴テンソルとともに入力として取り入れて、時系列で最後の焦点位置、つまり現在処理画像の焦点位置に整合された各焦点位置／各焦点面の画像特徴を表す（Ｃ，Ｎ，Ｈ，Ｗ）形状の四次元テンソル４０２０を出力できる特徴整合ブロック４０２０を包含し得る。

ここで、Ｃはやはりチャネル次元を、Ｎは焦点位置次元を、Ｈは高さ次元を、Ｗは現在処理画像／画像特徴／画像特徴テンソル／特徴マップの幅次元を指す。

図４ｂは、上述した例示的な特徴整合ブロック４０２０の構成の例示的な概略を示す。

例示的な特徴整合ブロック４０２０は、二つの入力、つまり現在処理画像からの三次元画像特徴／三次元特徴テンソル４０４０と、所定数Ｋ個の事前捕捉／事前処理画像から抽出された画像特徴を表して過去画像特徴記憶プールに、例えば過去画像特徴記憶プール４０１０に記憶された四次元テンソル４０５０とを有する。

例示的な特徴整合ブロック４０２０は更に、少なくとも一つの特徴整合ヘッド４０６０と特徴結合演算子４０７０、例えば加算演算子とを包含して、現在処理画像の画像特徴に整合された全ての処理画像の画像特徴を表す多次元テンソル、つまり時系列的に最後の焦点位置、つまり現在処理画像の焦点位置に整合された各焦点位置／各焦点面の画像特徴を表す（Ｃ，Ｎ，Ｈ，Ｗ）形状の四次元テンソル４０３０，４０８０を出力として生成する。

特徴整合ヘッド４０６０は上述の入力を、分解能の異なるパッチ、つまり、１×１サイズ（入力された特徴が変化なく残ることを意味する）のパッチから、例えばＨ×Ｗ（入力された特徴テンソル全体が一つのパッチとして扱われることを意味する）までの範囲の、入力された特徴と比較して高さｈ_ｐ及び幅ｗ_ｐのサイズが異なるパッチに分割する。

図４ｃは、図３ａに示された畳み込みニューラルネットワークアーキテクチャの例示的な復号器２００で使用され得る特徴整合ブロック４０２０からの特徴整合ヘッド４０６０などの例示的特徴整合ヘッドの例示的構成を示す。

現在画像特徴／特徴テンソル４０９０の入力、つまり現在処理画像から抽出された画像特徴の入力は、ブランチ４０９１を介して、前に指摘されるとともに以下で更に詳述されるように時間、空間、及び焦点位置の情報を、現在処理画像から抽出された画像特徴４０９０に埋め込む（第１）四次元符号化ブロック４１１０に供給される。

事前捕捉画像から抽出された、例えば所定数Ｋ個の事前捕捉／事前処理画像から抽出された画像特徴である過去画像特徴４１００の入力は、ブランチ４１０１を介して、時間、空間、及び焦点位置の情報を、事前捕捉画像から抽出された特徴に埋め込む別の（第２）四次元符号化ブロック４１９０に供給される。

例えば前に指摘したように、四次元符号化Ｅは以下の二つの方程式に従って構成され、

αは補正定数であって、好ましくは、αはＣより大きく、チャネルの数又はチャネル次元サイズｘ，ｙは空間画素座標であり、ｔは時間つまり画像特徴が抽出された捕捉画像の時間的位置／時点／タイムスタンプ／タイムインデックスであって、ｔ∈［０，Ｋ－１］であり、Ｋは事前捕捉画像の数、例えば捕捉画像の所定数であり、ｄ∈［０，Ｎ－１］は符号化される所与の画像の焦点面位置／焦点位置／焦点位置インデックスであり、Ｎは画像又は焦点位置の総数、例えば焦点計画での画像の数、あるいは焦点計画での画像数と焦点計画の画像から導出された画像の数との和であり、この導出画像は、焦点計画に従って捕捉された画像の内挿又は外挿入により導出され、ｉ∈［０，Ｃ／２］はチャネルの数を符号化の為の偶数及び奇数チャネルに分割するのに使用されるインデックスである。

例示的符号化Ｅ_２ｉ，ｘ，ｙ_，Ｅ_２ｉ＋１，ｘ，ｙで構成されるこの例示的符号化Ｅは、所与のパッチ幅

、そして事前捕捉画像からの画像特徴／特徴テンソル４１００の各々への、つまり過去の

四次元符号化ブロック４１１０では、

徴／特徴テンソルの符号化を示す。

四次元符号化ブロック４１１０による現在画像特徴の四次元符号化の後に、二次元畳み込み層（Ｃｏｎｖ）とバッチ正規化（ＢＮ）とのシーケンス４１２１がＥＦに適用され、四次元符号化ブロック４１１０の出力ブランチ４１２０でＥＦ^{ｑｕｅｒｙ}が得られる。

同様に、四次元符号化ブロック４１９０による過去画像特徴の四次元符号化の後に、バッチ正規化（ＢＮ）を含む二次元畳み込み層（Ｃｏｎｖ）のシーケンス４１３１がＥＰＦに適用され、四次元符号化ブロック４１９０の出力ブランチ４１３０でＥＰＦ^ｋｅｙが得られる。

ここで、上付き文字のｑｕｅｒｙ及びｋｅｙは、以下で更に説明するように検索システムの概念を例示的に言及するものとしての役割を持つ。

出力ブランチ４１２０及び４１３０からの出力は、パッチ別類似度ブロック４１５０への入力として供給される。

そして、再形成されたＥＦ^{ｑｕｅｒｙ′}とＥＰＦ^ｋｅｙ′のＫ個の特徴テンソルの各々との間の類似度が計算される。この類似度演算はパッチ別類似度ブロック４１５０により計算され、例えば、以下のように、ＥＦ^{ｑｕｅｒｙ′}＝ＥＦ′ ａｎｄＥＰＦ^ｋｅｙ′＝ＥＰＦ′である。

徴との間の類似度スコアである。

特に、Ｓｉｍ_{ｋ，ｉ，ｉ′}は、現在処理画像の特徴テンソルのパッチｉがＫ個の過去／事前捕捉画像の特徴テンソルのパッチｊとどれほど類似しているかを表すものとして理解され得る。

ＥＦ’及びＥＰＦ’は、［（Ｈ＊Ｗ）／（ｗ_ｐ＊ｈ_ｐ），ｗ_ｐ＊ｈ_ｐ＊Ｃ］の形状を有し、ｗ_ｐ及びｈ_ｐはそれぞれパッチ幅及び高さである。例えば［１，１］のパッチサイズを想定すると、形状は［Ｈ＊Ｗ，Ｃ］である。結果的に、インデックスｉ及びインデックスｉ’は［０，（Ｈ＊Ｗ）－１］の範囲、インデックスｊは［０，Ｃ－１］の範囲を有するだろう。

そして、類似度スコアは、パッチ別類似度ブロック４１５０により、確率に変換される。

の特性を持つ正規化類似度スコアである。
この正規化類似度スコアＳｉｍ’は、現在処理画像から抽出された画像特徴を処理する第１四次元（４Ｄ）符号化ブロック４１１０に続くブランチ４１２０から受理されるとともに、事前捕捉画像から抽出及び記憶された画像特徴、例えば所定数の捕捉画像、例えば過去のＫ個の画像から抽出及び記憶された画像特徴を処理する第２四次元（４Ｄ）符号化ブロック４１９０に続く（第１、上方）ブランチ４１３０から受理された入力を処理した後のパッチ別類似度ブロック４１５０の出力４１５１である／これを表す。

完全性の為に、本明細書に記載される類似度スコアは単に例示的であることと、現在処理画像特徴と事前処理及び記憶画像特徴との類似度測定手段を導出するのに他の類似度関数も使用され得ることとに留意していただきたい。上に記載された例示的なユークリッド類似度の代わりに、他の類似度関数、例えばコサイン類似度あるいは行列乗算を使用する類度演算、あるいは二つのサンプルを比較できる他の関数が適用され得る。

第２四次元（４Ｄ）符号化ブロック４１９０の他の（第２、下方）ブランチ４１４０は、二次元畳み込み層（Ｃｏｎｖ）とバッチ正規化（ＢＮ）演算とを包含する第１シーケン

ブランチ４１４０は更に行列乗算演算／層４１４３（Ｍａｔｍｕｌ）を包含し、パッチ別類似度ブロック４１５０からの正規化類似度スコアＳｉｍ’にＥＰＦｖ’が掛けられて

現在処理画像の高さ及び幅次元サイズに対応する。

ここで、上付き文字ｖ，ｖ’は、ブランチ４１４０からのＥＰＦ^ｖ及びＥＰＦ^ｖ’を、ブランチ４１３０からのＥＰＦ^ｋｅｙ及びブランチ４１２０からのＥＦ^{ｑｕｅｒｙ}から区別する役割を果たすに過ぎない。

この再形成は、行列乗算演算／層４１４３（Ｍａｔｍｕｌ）の一部であり得るか、更に別の再形成演算／層（不図示）で実施され得る。

そして、ＡＦがブロック／演算／層４１６０により第１次元Ｋで分類され、同じ焦点位

そして分類の後で、抽出特徴からの全ての情報が減算和演算／層４１７０（Ｒｅｄｕｃｅｓｕｍ）を介して統合される。

された全ての処理済み焦点位置の画像特徴を表す少なくとも一つの多次元テンソルについての例である。前に指摘したように、全ての処理画像の全ての画像特徴でなく、現在処理画像の画像特徴に整合された処理画像／事前捕捉／過去画像のうち少なくとも画像特徴を表す多次元テンソルを生成することも可能である。

本明細書に記載の例示的なメモリブロック及び特徴整合ヘッドは、事前処理及び記憶画像特徴を現在処理画像の画像特徴に整合する為にクエリが行われ得るキー・値ペア構造に画像特徴が記憶され得る検索システムのデータ構造モデルを形成するものと理解され得る。

例えば、キー・値ペア構造の値は、下方ブランチ４１４０でのバッチ正規化（ＢＮ）を含む二次元畳み込み層（Ｃｏｎｖ）を包含するシーケンス４１４１を適用した後の事前処

れるものとして理解され、キーは、４Ｄ位置符号化ブロック４１９０に続く上方ブランチ４１４０でのバッチ正規化（ＢＮ）を含む二次元畳み込み層（Ｃｏｎｖ）を包含するシーケンス４１３１を適用した後の事前処理記憶画像の画像特徴の四次元テンソルＥＰＦ^ｋｅｙ∈

画像特徴を処理した四次元符号化ブロック４１１０の出力ブランチ４１２０でのＥＦ^{ｑｕｅｒｙ}のコンテンツである／これにより表されると理解され得る。

ッピングされる検索システムのキー集合を表し、このクエリに最も適合するキー集合からの特定値又はコンテンツ又はキーが得られる。

完全性の為、ブランチ４１３０及び４１４０で適用される畳み込み層の重みが異なることに留意していただきたい。重みはとりわけ、例えば畳み込みネットワークの訓練中に学習／最適化されている。

図５は、以下のステップの一つ、幾つか、又は全てを包含し得る、異なる焦点位置でカメラにより撮影される複数の画像から深度情報を抽出する為の方法８００の例示的なフローチャートを示す。
・カメラの時系列の焦点位置を指定する所定の焦点計画に従って異なる焦点位置においてシーンの画像シーケンスをカメラで捕捉すること（８０１）であって、焦点計画は、複数の固有及び／又は非固有、例えば二重の焦点位置の組み合わせを包含し得る。
・畳み込みニューラルネットワークを包含する機械学習アルゴリズムにより、所定数の捕捉画像の画像特徴を抽出して（８０２）、抽出された画像特徴を記憶することであって、畳み込みニューラルネットワークは、例えば、図２ａ，２ｂ，２ｃ，２ｄ，２ｅ，３ａ，３ｂ，３ｃ，３ｄ，４ａ，４ｂ，４ｃに例示的に記載されているような構成を包含し、記憶は、メモリブロック２４０，２５０，２６０，２７０内に、例えば特徴記憶プール４０１０に特徴を記憶することを包含し得る。
・所定数の捕捉画像から画像特徴を抽出及び記憶した後に、機械学習アルゴリズムにより、画像特徴がまだ抽出されていない捕捉画像を処理することであって、捕捉画像は現在処理画像、例えば入力画像１０１を表す。
・処理は、機械学習アルゴリズムにより現在処理画像から画像特徴を抽出することと、抽出された画像特徴を記憶することとを包含する。
・処理は更に、事前捕捉画像から記憶された画像特徴を現在処理画像の画像特徴と整合することを包含し、例えば、図３ａ，４ａ，４ｂ，４ｃに例示的に記載されているようにメモリブロックの特徴整合ヘッドにより整合が実行される。
・処理は更に、上に記載したように、現在処理画像の画像特徴に整合された全ての処理

テンソルを生成することを包含する。
・所定の焦点計画で指定された焦点位置と、生成された少なくとも一つの多次元テンソルとを使用して、二次元深度マップを生成すること。

図６は、上に例示的に記載されたアーキテクチャを含む畳み込みニューラルネットワークを包含する機械学習アルゴリズム６３０について可能な訓練プロトコルの概略的な例を示す。

ここで、現実の物理的世界から複数の異なるシーンについての焦点計画６２０に従って異なる焦点位置を焦点とする複数の捕捉画像／捕捉画像のシーケンス６００を包含する訓練サンプルが、前に記載されたステップに従って処理され、所定数の捕捉画像が処理された後に各画像について一つの焦点確率マップのシーケンス６４０が得られる。

捕捉画像は、同じカメラで、又は異なるカメラで撮影されている。言い換えると、本明細書に記載の方法はカメラのタイプに依存しない、つまり特定タイプのカメラの使用に制限されない。

訓練サンプルの画像のシーケンス６００で捕捉されたシーンは、例えば、静的又は動的である、つまりシーンにおける物体又は被写体の移動により、及び／又は、カメラの移動により、例えばユーザの手でカメラが保持される際の振動により、あるいはカメラの位置変更により、画像間に移動が見られる。

得られた焦点確率マップは、既知の焦点計画６２０からの焦点位置を使用して現実の距離に再マッピング（６７０）される。

その結果、グラウンドトゥルース深度マップ６１０つまり既知／予測による深度マップとともに、損失関数６６０への入力として使用される予測／推定による深度マップのシーケンスが得られる。

損失関数６６０は、推定／予測深度マップが予測による既知のグラウンドトゥルース深度マップに対してどれほど異なっているかについての測定手段である。

畳み込みニューラルネットワークを包含する機械学習アルゴリズム６３０の訓練は、損失関数が所望／指定の最小値に達して畳み込みニューラルネットワークの最適モデルパラメータが判断されるまで行われる。

損失関数の最小化は、勾配降下アルゴリズムを使用するなどの最適化技術により達成され得る。

しかしながら、他の最適化技術、例えば疑似アニーリング法、遺伝的アルゴリズム、又はマルコフ連鎖モンテカルロアルゴリズムが、損失関数を最小にして、機械学習アルゴリズム／畳み込みニューラルネットワークの最適モデルパラメータを訓練から判断するように適用され得る。

訓練を更に最適化する為、意味的に正しい深度マップを良好に導出するのに視覚的な手掛かりが使用され得る。例えば、物体が別の物体を遮蔽している時には遮蔽物体が被遮蔽物体よりカメラに近いことを認識するように畳み込みニューラルネットワークが訓練され得る。

図１，２ａ，２ｂ，２ｃ，２ｄ，２ｅ，３ａ，３ｂ，３ｃ，３ｄ，４ａ，４ｂ，４ｃ，５，６において、参照符号は以下の例示的コンポーネント及び例示的ステップを示す。
７００画像ストリーム、複数の画像
７１０焦点計画
７２０畳み込みニューラルネットワークを包含する機械学習アルゴリズム
７３０焦点確率マップ
７４０現実の物理的距離への再マッピング
７５０推定／抽出による深度マップ
１００畳み込みニューラルネットワークの二次元符号器
１０１入力画像／現在処理画像
１０２二次元畳み込み／畳み込みブロック／層
１０３，１０４，１０５，１０６二次元残差畳み込み／畳み込みブロック／層
１０７二次元空間ピラミッドプーリングブロック／層
１０８，１０９，１１０二次元マルチスケール特徴集約ブロック／層
１１１，１１２，１１３，１１４畳み込みニューラルネットワークのブロック／層のシーケンス
１１１ａ，１１２ａ，１１３ａ，１１４ａ畳み込み／畳み込み層／ブロック／演算
１１１ｂ，１１２ｂ，１１３ｂ，１１４ｂバッチ正規化層／ブロック／演算
１１１ｃ，１１２ｃ，１１３ｃ，１１４ｃ修正線形活性化関数層／ブロック／演算
１１５，１１６，１１７，１１８出力／抽出された特徴／特徴テンソル
１１９，１２０，１２１２Ｄ畳み込みの層／畳み込みブロック／層のブロック／層シーケンス
１２２２Ｄ畳み込み／畳み込みブロック／層のプーリングブロック／層
１２３二次元畳み込み層とバッチ正規化と修正線形活性化関数演算とのシーケンス
１２４，１２７二次元畳み込み層とバッチ正規化とのシーケンス
１２５加算層／ブロック／演算
１２６修正線形活性化関数演算
１２８，１２９２Ｄ残差畳み込み／畳み込みブロック／層のブランチ
１３０アップサンプリング層／ブロック／演算
１３１，１３３二次元畳み込み層とバッチ正規化と修正線形活性化関数演算とのシーケンス
１３２連結層／ブロック／演算
１３４，１３５，１３６，１３７，１３８２Ｄ空間ピラミッドプーリングブロック／層のブランチ
１３９加算層／ブロック／演算
２００復号器／復号層
２０１，２０２，２０３，２０４入力特徴／特徴テンソル
２４０，２５０，２６０，２７０メモリブロック
３４０，３７０，４００三次元マルチスケール特徴集約ブロック／層
３２０，３５０，３８０，４１０３Ｄ残差畳み込み／畳み込みブロック／層
３３０，３６０，３９０，４２０３Ｄ空間ピラミッドプーリングブロック／層
４３０，４３１，４４０，４４１，４５０，４５１，４６１３Ｄ空間ピラミッドプーリングブロック／層の出力ブランチ
２８０，２９０，３００中間焦点確率マップ
３１０最終焦点確率マップ
５０１，５０２３Ｄ残差畳み込みのブランチ／畳み込みブロック／層のブランチ
５０３二次元畳み込み層とバッチ正規化と修正線形活性化関数演算とのシーケンス
５０４，５０５二次元畳み込み層とバッチ正規化とのシーケンス
５０６加算層／ブロック／演算
５０７修正線形活性化関数演算
５０８アップサンプリング層／ブロック／演算
５０９，５１１二次元畳み込み層とバッチ正規化と修正線形活性化関数演算とのシーケンス
５１０連結層／ブロック／演算
５１２，５１３，５１４，５１５，５１６３Ｄ空間ピラミッドプーリングブロック／層のブランチ
５１８加算層／ブロック／演算
４０００現在処理画像の画像特徴
４０１０事前処理画像／特徴記憶プールから画像特徴／特徴を記憶するコンピュータ可読メモリ
４０２０特徴整合ブロック
４０３０時系列的に最後の焦点位置、つまり現在焦点位置に整合された各焦点位置の／各焦点面の画像特徴
４０４０現在処理画像の画像特徴
４０５０事前処理画像の画像特徴
４０６０特徴整合ヘッド
４０７０特徴結合演算子／ブロック／層
４０８０時系列的に最後の焦点位置つまり現在焦点位置に整合された各焦点位置の／各焦点面の画像特徴
４０９０現在処理画像の画像特徴
４１００事前処理画像の画像特徴
４１１０，４１９０４Ｄ位置符号化ブロック／層／演算
４１２１，４１３１，４１４１バッチ正規化を含む二次元畳み込み層のシーケンス
４１２０４Ｄ位置符号化ブロック４１１０のブランチ
４１３０，４１４０４Ｄ位置符号化ブロック４１９０のブランチ
４１４２再形成層／ブロック／演算
４１４３行列乗算層／ブロック／演算
４１５０パッチ別類似度ブロック／層／演算
４１６０焦点位置分類の為のブロック／層／演算
４１７０減算和演算／層
４１８０時系列的に最後の焦点位置つまり現在焦点位置に整合された各焦点位置の／各焦点面の画像特徴
８００異なる焦点位置でカメラにより撮影された複数の画像から深度情報を抽出する為の方法
８０１，８０２，８０３，８０４，８０５，８０６，８０７方法ステップ
６００訓練サンプル画像のシーケンス
６１０既知／予想／グラウンドトゥルース深度マップのシーケンス
６２０焦点計画
６３０畳み込みニューラルネットワークを包含する機械学習アルゴリズム
６４０得られた焦点確率マップのシーケンス
６６０損失関数
６７０推定／予測深度マップを得る為の現実の物理的距離への再マッピング演算

Claims

異なる焦点位置でカメラにより撮影された複数の画像から深度情報を抽出する為のコンピュータ実装方法（８００）であって、
前記カメラの時系列の焦点位置を指定する所定の焦点計画による異なる焦点位置においてシーンの画像シーケンスをカメラで捕捉すること（８００）と、
畳み込みニューラルネットワークを包含する機械学習アルゴリズムにより、所定数の事前捕捉画像の画像特徴を抽出して（８０２）、抽出された前記画像特徴を記憶することと、
所定数の前記事前捕捉画像から画像特徴を抽出及び記憶した後に、前記機械学習アルゴリズムにより、画像特徴がまだ抽出されていない前記事前捕捉画像を処理すること（８０３）であって、前記事前捕捉画像が現在処理画像を表し、
前記処理が、前記機械学習アルゴリズムにより前記現在処理画像からの画像特徴を抽出すること（８０４）と、抽出された前記画像特徴を記憶することとを包含し、
前記処理が更に、前記事前捕捉画像から記憶された画像特徴を前記現在処理画像の前記画像特徴と整合すること（８０５）を包含する、
ことと、
前記現在処理画像の前記画像特徴に整合された前記処理画像の少なくとも幾つかの前記画像特徴を表す少なくとも一つの多次元テンソルを生成すること（８０６）と、
前記所定の焦点計画で指定された前記焦点位置と、生成された少なくとも一つの前記多次元テンソルとを使用して二次元深度マップを生成すること（８０７）と、
を包含する方法。
幅次元Ｗと高さ次元Ｈとチャネル次元Ｃとを包含する三次元特徴テンソルとして前記画像特徴が抽出され、前記チャネル次元が、前記畳み込みニューラルネットワークの一以上の層により画像から抽出された特徴マップの数を表し、抽出された画像特徴の記憶が、抽出された前記画像特徴を三次元特徴テンソルのリストとして記憶することを包含する、請求項１に記載の方法。
前記事前捕捉画像から記憶された前記画像特徴と前記現在処理画像の前記画像特徴との整合が、前記事前捕捉画像から記憶された前記画像特徴に、そして前記現在処理画像からの前記画像特徴に四次元符号化を適用することを包含し、前記四次元符号化が、前記事前捕捉画像からの前記画像特徴に、そして前記現在処理画像からの前記画像特徴に時間、空間、焦点位置の情報を埋め込むことを包含する、請求項１または２に記載の方法。
前記四次元符号化が非線形である、及び／又は、前記現在処理画像からの前記画像特徴への、そして前記事前捕捉画像から記憶された前記画像特徴の各々への追加を介して、前記四次元符号化が適用される、請求項３に記載の方法。
前記四次元符号化が三角関数の使用に基づく、請求項３に記載の方法。
前記所定の焦点計画で指定された前記焦点位置と、生成された少なくとも一つの前記多次元テンソルとを使用して二次元深度マップを生成するステップが、前記機械学習アルゴリズムにより、少なくとも一つの多次元焦点確率マップを生成することと、前記所定の焦点計画で指定された前記焦点位置を使用して少なくとも一つの前記多次元焦点確率マップを現実の物理的距離に再マッピングすることとを包含する、請求項１または２に記載の方法。
少なくとも一つの前記多次元焦点確率マップが、幅次元Ｗと高さ次元Ｈと焦点位置次元Ｎとを有する三次元テンソルであって前記焦点位置次元が焦点位置の数を表し、前記幅及び高さ次元のサイズが入力画像の幅及び高さ次元のサイズと等しく、前記入力画像が、所定数の前記事前捕捉画像の画像又は前記現在処理画像のいずれかである、請求項６に記載の方法。
前記所定の焦点計画で指定された前記焦点位置を使用した現実の物理的距離への少なくとも一つの前記多次元焦点確率マップの再マッピングが、少なくとも一つの前記多次元焦点確率マップの各画素と前記焦点計画の前記焦点位置との間のドット積を計算することを包含する、請求項６に記載の方法。
前記現在処理画像の前記画像特徴に整合された全ての処理画像の前記画像特徴を表す、生成された少なくとも一つの前記多次元テンソルが、幅次元Ｗと、高さ次元Ｈと、前記畳み込みニューラルネットワークの一以上の層により前記処理画像から抽出された特徴マップの数を表すチャネル次元であるチャネル次元Ｃと、焦点位置の数を表す焦点位置次元である焦点位置次元Ｎとを包含する四次元テンソルである、請求項１または２に記載の方法。
前記所定数の捕捉画像の画像特徴の抽出と前記現在処理画像の画像特徴の抽出とが更に、前記機械学習アルゴリズムにより画像特徴を異なるスケールで抽出することを包含し、前記スケールが、入力画像の高さの分数として、及び／又は、入力画像の幅の分数として規定され、前記入力画像が前記所定数の捕捉画像の画像又は前記現在処理画像のいずれかである、請求項１または２に記載の方法。
前記所定数の捕捉画像から抽出された前記画像特徴と前記現在処理画像から抽出された前記画像特徴とが、循環バッファ、例えば前記所定数の捕捉画像からの前記画像特徴を少なくとも保持できる循環バッファのコンピュータ可読メモリに記憶される、及び／又は、前記所定数の捕捉画像が、前記焦点計画により指定された異なる焦点位置の数と少なくとも等しいか前記数より大きい、請求項１または２に記載の方法。
前記畳み込みニューラルネットワークが、複数の異なるシーンについて異なる焦点位置を焦点とする複数の画像を包含する訓練サンプルで訓練された訓練済み畳み込みニューラルネットワークであり、前記シーンが静的又は動的であり、損失関数を使用して前記畳み込みニューラルネットワークにより生成された推定による深度マップを対応の既知グラウンドトゥルース深度マップと比較することにより、前記畳み込みニューラルネットワークパラメータが最適化される、請求項１または２に記載の方法。
コンピュータメモリと、
一以上のプロセッサ、例えばＣＰＵ及び／又はＧＰＵと、
を具備して、
異なる焦点位置でカメラにより撮影された複数の画像から深度情報を抽出する為に請求項１または２に記載の方法を実行するように前記一以上のプロセッサに指示する命令を前記コンピュータメモリが記憶する、
コンピューティングシステム。
前記コンピューティングシステムが、異なる焦点位置を含むシーンの画像を捕捉する為に構成されたカメラを具備するポータブルモバイルデバイス、例えばスマートフォンである、請求項１３に記載のコンピューティングシステム。
コンピュータシステムによる実行時に、異なる焦点位置でカメラにより撮影された複数の画像から深度情報を抽出する為に請求項１３に記載の方法を実施するコンピュータ実行可能命令を記憶する為のコンピュータ可読記憶媒体。