JP2023512272A

JP2023512272A - 画像処理方法及び装置

Info

Publication number: JP2023512272A
Application number: JP2022546492A
Authority: JP
Inventors: チェン，ティエン
Original assignee: 北京達佳互▲れん▼信息技術有限公司
Priority date: 2020-04-27
Filing date: 2020-12-24
Publication date: 2023-03-24
Also published as: CN113643342A; US20220414908A1; CN113643342B; WO2021218201A1

Abstract

本出願は、画像処理方法及び装置に関し、収集したビデオ内の画像の深度画像を取得するために使用される。本出願の実施例は、収集したビデオ内から現在フレーム画像に対応する初期深度画像を取得し、及び現在フレーム画像に対応する姿勢オフセット情報及び１フレーム前の画像に基づいて、現在フレーム画像に対応する予測深度画像を決定し、位置が同じであるピクセルポイントの初期深度値と予測深度値を融合処理して、ピクセルポイントに対応するターゲット深度値を得て、現在フレーム画像内のピクセルポイントに対応するターゲット深度値に基づいて、現在フレーム画像に対応する深度画像を生成する。本出願の実施例によって提供される画像処理方法は、１フレーム前の画像修正畳み込みニューラルネットワークによって出力された現在フレーム画像の深度画像に合わせて、フレーム間安定性のより高い深度画像を得ることができる。【選択図】図１

Description

関連出願の相互引用
本出願は、２０２０年４月２７日に中国特許庁に提出された、出願番号が２０２０１０３４６４６７．７、発明名称が「画像処理方法、装置、電子機器及び記憶媒体」である中国特許の出願の優先権を主張し、その全内容は参照により本出願に組み込まれる。

本出願はコンピュータ技術分野に関し、特に画像処理方法及び装置に関する。

複合現実技術（ＭＲ）は拡張現実技術（ＡＲ）の更なる発展であり、当該技術は仮想環境に現実的なシーンの情報を導入することにより、仮想世界、現実世界及びユーザの間で、互いに対話してフィードバックし合う情報回路を構築し、これによってユーザーエクスペリエンスの臨場感を強化する。

ＭＲ技術の実現の過程で、仮想世界における仮想オブジェクトと現実世界の現実オブジェクトとの位置関係をよりよく処理するために、スマート端末が収集したビデオ内の各フレームの画像に対して深度推定を行って、密集している深度特徴を有する深度画像を取得する必要がある。

本出願は、収集したビデオ内の画像の深度画像を収集するための画像処理方法及び装置を提供する。本出願の技術案は以下のとおりである。

本出願の実施例の第１の態様によると、収集したビデオから現在フレーム画像を取得し、畳み込みニューラルネットワークに基づいて前記現在フレーム画像に対応する初期深度画像を得るステップと、前記現在フレーム画像に対応する姿勢オフセット情報と前記現在フレーム画像の１フレーム前の画像に基づいて、前記現在フレーム画像に対応する予測深度画像を決定するステップであって、前記姿勢オフセット情報が、画像収集装置によって収集された前記１フレーム前の画像と前記現在フレーム画像との間に発生した姿勢オフセットを示すために使用されるステップと、同じ位置にあるピクセルポイントの、前記初期深度画像における初期深度値と、前記同じ位置にあるピクセルポイントの、前記予測深度画像における予測深度値とを融合処理して、前記ピクセルポイントに対応するターゲット深度値を得るステップと、前記現在フレーム画像内のピクセルポイントに対応するターゲット深度値に基づいて、前記現在フレーム画像に対応する深度画像を生成するステップと、を含む画像処理方法を提供する。

本出願の実施例の第２の態様によると、本出願の実施例の第１の態様によると、収集したビデオから現在フレーム画像を取得し、畳み込みニューラルネットワークに基づいて前記現在フレーム画像に対応する初期深度画像を得るステップと、前記現在フレーム画像に対応する姿勢オフセット情報と前記現在フレーム画像の１フレーム前の画像に基づいて、前記現在フレーム画像に対応する予測深度画像を決定するステップであって、前記姿勢オフセット情報が、画像収集装置によって収集された前記１フレーム前の画像と前記現在フレーム画像との間に発生した姿勢オフセットを示すために使用されるステップと、を実行するように構成される決定モジュールと、同じ位置にあるピクセルポイントの、前記初期深度画像における初期深度値と、前記同じ位置にあるピクセルポイントの、前記予測深度画像における予測深度値とを融合処理して、前記ピクセルポイントに対応するターゲット深度値を得るステップを実行するように構成される融合モジュールと、前記現在フレーム画像内のピクセルポイントに対応するターゲット深度値に基づいて、前記現在フレーム画像に対応する深度画像を生成するステップを実行するように構成される生成モジュールと、を含む画像処理装置を提供する。

本出願の実施例の第３の態様によれば、電子機器を提供し、前記電気機器は、実行可能な命令を記憶するためのメモリと、本出願の実施例の第１の態様におけるいずれか一項に記載の画像処理方法を実現するように、前記メモリに記憶されている実行可能な命令を読み取り且つ実行するためのプロセッサと、を含む。

本出願の実施例の第４の態様によれば、不揮発性コンピュータ記憶媒体を提供し、前記記憶媒体内の命令が画像処理装置のプロセッサによって実行される時、画像処理装置は本出願の実施例の第１の態様に記載の画像処理方法を実行することができる。

例示的な一実施例によって示される画像処理方法のフローチャートである。例示的な一実施例によって示される適用シーンの概略図である。例示的な一実施例によって示される特徴領域の概略図である。例示的な一実施例によって示される現在フレーム画像ピクセル座標に対応する予め設定された範囲の概略図である。例示的な一実施例によって示される現在フレーム画像内における伝播ピクセルポイント領域と新規ピクセルポイント領域の概略図である。例示的な一実施例によって示される画像処理装置のブロック図である。例示的な一実施例によって示される電子機器のブロック図である。

当業者に本出願の技術案をよりよく理解させるために、以下は図面に合わせて、本出願の実施例における技術案を分かりやすく、完全に説明する。

以下、当業者の理解を助けるために、本出願の実施例における一部の用語を説明する。

（１）本出願の実施例における「複数」という用語は２つ又は２つ以上を指し、他の助数詞は同様である。
（２）本出願の実施例における「深度画像」という用語は、距離画像とも呼ばれ、画像収集装置からシーンにおける各点まで距離（深度）をピクセル値とする画像を指し、シーンの可視表面の幾何学的形状を直接反映する。
（３）本出願の実施例における「ＲＧＢ画像」という用語は、普通のカラー画像であり、ＲＧＢは即ち赤、緑、青という３つのチャネルの色を表し、赤（Ｒ）、緑（Ｇ）、青（Ｂ）という３つの色のチャネルの変化及び３つの色のチャネルを重ね合わせることによって様々な色を得ることができる。
（４）本出願の実施例における「グレースケール画像」という用語は、各ピクセルポイントのピクセル値が階調値である画像を指す。
（５）本出願の実施例における「画像解像度」という用語は、画像に記憶される情報量を指し、１インチあたり画像内のピクセルポイントの数を指し、解像度の単位はＰＰＩ（ＰｉｘｅｌｓＰｅｒＩｎｃｈ）であり、通常は１インチあたりのピクセル数という。画像解像度は通常、「水平方向のピクセル数×垂直方向のピクセル数」で表す。

ＭＲ技術を実現する過程で、仮想世界における仮想オブジェクトと現実世界の現実オブジェクトとの位置関係をよりよく処理するために、画像収集装置によって収集された画像に対して深度推定を実行して、密集している深度特徴を有する深度画像を取得する必要がある。深度画像は距離画像とも呼ばれ、画像収集装置からシーンにおける各点まで距離（深度）をピクセル値とする画像を指し、シーンの可視表面の幾何学的形状を直接反映し、さらには、環境における画像収集装置自身の位置を決定し且つ周辺環境のモデルを確立する。

スマート端末の普及に伴い、スマート端末に対するユーザからの要求は高まる一方であり、スマート端末がＡＲ技術、ＭＲ技術などを実現する前提は深度画像に基づいており、深度画像収集装置または両眼画像収集装置の原理に基づいて深度画像を生成するために、スマート端末にＲＧＢ－Ｄセンサまたはカメラなどのハードウェアを増設する必要があり、これはコスト及び消費電力を増やす。これに対して、機械学習は、ハードウェアを増設せず、訓練することで、深度画像を学習する能力を得ることを実現することができ、畳み込みニューラルネットワークは画像処理分野で幅広く適用されている。

本出願の実施例は画像処理方法を提供し、畳み込みニューラルネットワークによって出力される隣接する２フレームの画像に対応する深度画像の安定性を向上させる。

本出願の目的、技術案及び利点をより明確にするために、以下は図面に合わせて本出願をさらに詳しく説明し、明らかに、説明される実施例は本出願の一部の実施例に過ぎず、すべての実施例ではない。本出願における実施例に基づいて、当業者が創造的な労力なしに得た他のすべての実施例は、いずれも本出願の保護範囲に属している。

図１は、例示的な一実施例によって示される画像処理方法のフローチャートであり、図１に示すように、以下のステップＳ１１～Ｓ１４を含む。

Ｓ１１では、収集したビデオから現在フレーム画像を取得し、畳み込みニューラルネットワークに基づいて現在フレーム画像に対応する初期深度画像を得る。

Ｓ１２では、現在フレーム画像に対応する姿勢オフセット情報と現在フレーム画像の１フレーム前の画像に基づいて、現在フレーム画像に対応する予測深度画像を決定する。

姿勢オフセット情報は、画像収集装置によって収集される１フレーム前の画像と現在フレーム画像との間に発生した姿勢オフセットを表すために示される。

Ｓ１３では、同じ位置にあるピクセルポイントの、初期深度画像における初期深度値と、前記同じ位置にあるピクセルポイントの、予測深度画像における予測深度値とを融合処理して、ピクセルポイントに対応するターゲット深度値を得る。

Ｓ１４では、現在フレーム画像内のピクセルポイントに対応するターゲット深度値に基づいて、現在フレーム画像に対応する深度画像を生成する。

以上から分かるように、本出願の実施例によって開示された画像処理方法は、現在フレーム画像の初期深度画像と、１フレーム前の画像、及び画像収集装置が１フレーム前の画像を収集する時の姿勢オフセットによって決定される現在フレーム画像に対応する予測深度画像とに基づいて、初期深度画像及び予測深度画像内の同じ位置にあるピクセルポイントの初期深度値及び予測深度値を融合処理して、ピクセルポイントに対応するターゲット深度値を得て、現在フレーム画像内の各ピクセルポイントに対応するターゲット深度値に基づいて現在フレーム画像に対応する深度画像を生成する。本出願の実施例によって提供される画像処理方法は、現在フレーム画像に対応する予測深度画像に基づいて、畳み込みニューラルネットワークによって出力された現在フレーム画像の初期深度画像を修正することができ、本出願の実施例では、現在フレーム画像に対応する予測深度画像は、１フレーム前の画像及び位置オフセット情報によって決定されるので、初期深度値及び予測深度値に基づいてターゲット深度値を決定する時、隣接する２フレームの画像の関連性を考慮し、ターゲット深度値に基づいて生成された深度画像内のピクセルポイントの深度値はより安定的であり、これによって隣接する２フレームの画像の深度画像内の対応する点の深度値の変動を減少させ、１フレーム前の画像に合わせて、畳み込みニューラルネットワークによって出力された現在フレーム画像の深度画像を修正して、フレーム間の安定性のより高い深度画像を得る。

いくつかの実施例では、適用シーンは図２に示すような概略図であってもよい。端末装置２１内に画像収集装置が取り付けられ、ユーザ２０は端末装置２１の画像収集装置に基づいてビデオを収集した時、いくつかの実施例では、画像収集装置は収集したビデオ内の現在フレーム画像、及び現在フレーム画像に対応する姿勢オフセット情報をサーバ２２に送信する。サーバ２２は現在フレーム画像を訓練済みの畳み込みニューラルネットワークに入力して現在フレーム画像に対応する初期深度画像を得て、現在フレーム画像に対応する位姿情報及び現在フレーム画像の１フレーム前の画像に基づいて、現在フレーム画像に対応する予測深度画像を決定し、且つ同じ位置にあるピクセルポイントの、初期深度画像における初期深度値及び予測深度画像における予測深度値を融合処理して、ピクセルポイントに対応するターゲット深度値を得て、そして、各ピクセルポイントに対応するターゲット深度値に基づいて、現在フレーム画像に対応する深度画像を生成し、サーバ２２は現在フレーム画像に対応する深度画像を端末装置２１内の画像収集装置に送信し、画像収集装置は、現在フレーム画像に対応する深度画像に基づいて、現在フレーム画像に対応するオリジナルＲＧＢ画像に対してレンタリングなどの処理を行った後にユーザ２０に表示する。

なお、上記適用シーンでは、現在フレーム画像の１フレーム前の画像は、すでにサーバ２２に記憶されているものであってもよく、または画像収集装置は現在フレーム画像に対応する姿勢オフセット情報をサーバ２２に送信するとともに１フレーム前の画像をサーバ２２に送信してもよい。上記適用シーンは単なる例示的なものであり、本出願の実施例の保護範囲を限定するものではない。

本出願の実施例によって開示される画像処理方法では、まず、現在フレーム画像に対応する初期深度画像を決定する必要がある。通常、ＡＲ技術、ＭＲ技術はリアルタイムに収集したビデオを処理するものであるため、処理対象の画像は、収集したビデオの現在フレーム画像である。

いくつかの実施例では、現在フレーム画像を訓練済みの畳み込みニューラルネットワークに入力して、訓練済みの畳み込みニューラルネットワークによって出力される現在フレーム画像に対応する初期深度画像を得る。

いくつかの実施例では、前記畳み込みニューラルネットワークは、大量のＲＧＢ画像及びＲＧＢ画像内の各ピクセルポイントに対応する深度値に基づいて訓練して得られたものであり、ＲＧＢ画像及びＲＧＢ画像内の各ピクセルポイントに対応する深度値で構成される行列を畳み込みニューラルネットワークの入力とし、ＲＧＢ画像に対応する深度画像を畳み込みニューラルネットワークの出力とし、畳み込みニューラルネットワークを訓練し、畳み込みニューラルネットワークモデル収束後、畳み込みニューラルネットワーク訓練が完了したと決定し、訓練完了の畳み込みニューラルネットワークは、ＲＧＢ画像に基づいて深度画像を決定する能力を備える。

いくつかの実施例では、現在フレーム画像を訓練済みの畳み込みニューラルネットワークに入力すると、訓練済みの畳み込みニューラルネットワークは現在フレーム画像のピクセル特徴に基づいて現在フレーム画像における各ピクセルポイントの初期深度値を算出し、各ピクセルポイントの深度値を初期深度画像のピクセル値とし、現在フレーム画像に対応する初期深度画像を生成する。

本出願の実施例では、１フレーム前の画像と現在フレーム画像との関連性を考慮して、１フレーム前の画像、及び画像収集装置によって収集された１フレーム前の画像と現在フレーム画像との間に発生した姿勢オフセット情報に基づいて、１フレーム前の画像の対応する深度画像を利用して現在フレーム画像に対して深度推定を行って、現在フレーム画像に対応する予測深度画像を生成する。さらには、現在フレーム画像に対応する初期深度画像と予測深度画像との融合により、１フレーム前の画像の対応するポイントに対応する現在フレーム画像の深度値の変動を軽減する。

本出願の実施例では、姿勢オフセット情報は回転行列及び並進ベクトルを含み、本出願の実施例は、
１フレーム前の画像を収集する時の画像収集装置の第１のＩＭＵパラメータ値、及び現在フレーム画像を収集する時の画像収集装置の第２のＩＭＵパラメータ値に基づいて、１フレーム前の画像と現在フレーム画像を収集する時の画像収集装置の回転行列を決定する、
という以上の方式により、１フレーム前の画像と現在フレーム画像を収集する時の画像収集装置の回転行列を決定する。

いくつかの実施例では、慣性計測ユニットＩＭＵは、画像収集装置の３軸姿勢角及び加速度を測定する装置であり、物体の三次元空間における角速度及び加速度を測定し、画像収集装置の姿勢を決定することができる。画像収集装置は各フレームの画像を収集する時に、画像収集装置が各フレームの画像を収集する時の世界座標系の３つの座標軸との夾角を示すＩＭＵ示度が生じ、画像収集装置が１フレーム前の画像を収集する時のＩＭＵ示度を読み取ることで、第１のＩＭＵパラメータ値を決定し、及び画像収集装置が現在フレーム画像を収集する時のＩＭＵ示度を読み取ることで、第２のＩＭＵパラメータ値を決定し、第１のＩＭＵパラメータ値及び第２のＩＭＵパラメータ値に基づいて、画像収集装置と世界座標系の３つの座標軸との夾角の変化、即ち３つの自由度における画像収集装置の回転状況を決定することができ、且つ行列で表して、画像収集装置の回転行列を決定する。実施では、回転行列は１つの３次正方行列であり、Ｒで表す。

本出願の実施例は、ＧＦＴＴ特徴抽出アルゴリズムに基づいて、１フレーム前の画像から少なくとも１つの特徴領域を決定し、各特徴領域に対して、１フレーム前の画像における特徴領域の第１の位置情報及びオプティカルフロートラッキングアルゴリズムに基づいて、現在フレーム画像における特徴領域の第２の位置情報を決定し、ＰＮＰアルゴリズムに基づいて、少なくとも１つの特徴領域の、１フレーム前の画像における第１の位置情報及び現在フレーム画像における第２の位置情報を最適化処理して、１フレーム前の画像と現在フレーム画像を収集する時の画像収集装置の並進ベクトルを得る。

特徴領域のエッジピクセルポイントと、特徴領域以外の隣接するピクセルポイントの階調値との差分は予め設定された閾値より大きい。

いくつかの実施例では、特徴領域のエッジピクセルポイントと、隣接するピクセルポイントの階調値との差分は大きく、ＧＦＴＴ特徴点抽出技術を通して、１フレーム前の画像から少なくとも１つの特徴領域の第１の位置情報を決定し、及び各特徴領域に対して、１フレーム前の画像における当該特徴領域の第１の位置情報を決定し、オプティカルフロートラッキングアルゴリズムを通して、現在フレーム画像における当該特徴領域の第２の位置情報を決定し、ＰＮＰアルゴリズムに基づいて、すべての特徴領域の第１の位置情報と第２の位置情報を最適化処理し、画像収集装置の並進ベクトルを得る。

いくつかの実施例では、ＧＦＴＴ特徴点抽出技術を通して１フレーム前の画像から少なくとも１つの特徴点を抽出することができ、図３に示すように、Ａ、Ｂ、Ｃは決定された３つの特徴領域であり、１フレーム前の画像における少なくとも１つの特徴領域の第１の位置情報を決定し、且つ特徴領域に対してオプティカルフロートラッキングを行い、現在フレーム画像における少なくとも１つの特徴領域の第２の位置情報を決定し、ここで、１フレーム前の画像に対応する深度画像及び現在フレーム画像に対応する初期深度画像内の特徴領域の深度値、そして第１の位置情報及び第２の位置情報に合わせて、画像収集装置が画像を収集する時のその世界座標における左右位置情報、上下位置情報及び前後位置情報を決定することができる。さらに、ＰＮＰアルゴリズムを用いて、特徴領域の第１の位置情報、第２の位置情報を最適化処理し、１フレーム前の画像と現在フレーム画像を収集する時の画像収集装置の並進情報を決定し、且つ行列で表し、画像収集装置に対応する並進ベクトルを決定し、実施では、並進ベクトルは３行１列の１つのベクトルであり、Ｔで表す。

現在フレーム画像の姿勢オフセット情報を決定した後、１フレーム前の画像及び現在フレーム画像の姿勢オフセット情報に基づいて現在フレーム画像に対応する予測深度画像を決定する。

いくつかの実施例では、１フレーム前の画像内のいずれか１つのピクセルポイントに対して、画像収集装置の内部パラメータに基づいて、１フレーム前の画像におけるピクセルポイントのピクセル座標を第１の空間座標に変換し、姿勢オフセット情報に基づいて、第１の空間座標を第２の空間座標に変換し、第２の空間座標に変換された後のピクセル座標が予め設定された範囲内にあることに基づいて、ピクセルポイントを現在フレーム画像内の伝播ピクセルポイントとし、第２の空間座標に基づいて伝播ピクセルポイントの予測深度値を決定し、予め設定された深度値を、現在フレーム画像内の伝播ピクセルポイント以外の新規ピクセルポイントの予測深度値とし、伝播ピクセルポイントの予測深度値と新規ピクセルポイントの予測深度値に基づいて現在フレーム画像に対応する予測深度画像を決定する。

いくつかの実施例では、１フレーム前の画像内のいずれか１つのピクセルポイントのピクセル座標に対して、画像収集装置の内部パラメータ及び姿勢オフセット情報に基づいて、１フレーム前の画像におけるピクセルポイントのピクセル座標を、当該ピクセルポイントの、画像収集装置によって姿勢オフセットが発生した後のピクセル座標に変換する。当該ピクセル座標が予め設定された範囲内にあることに応答して、このピクセルポイントは、現在フレーム画像の伝播ピクセルポイントであり、当該ピクセルポイントに対応する実物点が、画像収集装置が１フレーム前の画像を収集する時の結像範囲内にあるだけではなく、画像収集装置が現在フレーム画像を収集する時の結像範囲内にもあることを表す。当該ピクセル座標が予め設定された範囲内にないことに応答して、このピクセルポイントに対応する実物点が、画像収集装置による姿勢オフセットの過程で画像収集装置の結像範囲外に移動したことを表す。現在フレーム画像では、伝播ピクセルポイント以外のピクセルポイントはいずれも新規ピクセルポイントである。第２の空間座標に基づいて伝播ピクセルポイントの予測深度値を決定し、予め設定された深度値を新規ピクセルポイントの予測深度値とし、現在フレーム画像に対応する予測深度画像を生成する。

予め設定された範囲は現在フレーム画像ピクセル座標の範囲であり、画像の解像度によって決定される。画像の解像度は、画像横縦両方向におけるピクセルポイントの数で表すことができ、例えば、画像の解像度は６４０＊４８０であり、予め設定された範囲は、図４に示すように、座標（０、０）（６４０、０）（０、４８０）（６４０、４８０）で囲まれる矩形である。

伝播ピクセルポイントと新規ピクセルポイントを決定する時、１フレーム前の画像内のいずれか１つのピクセルポイントに対して、１フレーム前の画像における当該ピクセルポイントのピクセル座標に対応する第１の空間座標を決定し、第１の空間座標及び姿勢オフセット情報に基づいて、第１の空間座標の変換後の第２の空間座標を決定し、且つ第２の空間座標に変換された後のピクセル座標を決定し、１フレーム前の画像における各ピクセルポイントのピクセル座標は、上記変換後のピクセル座標で構成される領域を通過し、予め設定された範囲で構成される領域と重なる領域は、即ち現在フレーム画像内の伝播ピクセルポイントで構成される領域である。現在フレーム画像では、伝播ピクセルポイント以外のピクセルポイントで構成される領域は、いずれも現在フレーム画像の新規ピクセルポイントで構成される領域である。図５に示すのは、本出願の実施例によって提供される現在フレーム画像内の伝播ピクセルポイント領域及び新規ピクセルポイント領域の概略図であり、１フレーム前の画像内の各ピクセルポイントのピクセル座標が変換された後のピクセル座標で構成される領域及び予め設定された範囲は図５に示すとおりであり、ここで、領域Ａは現在フレーム画像における伝播ピクセルポイント領域であり、領域Ｂは現在フレーム画像内の新規ピクセルポイント領域である。

いくつかの実施例では、１フレーム前の画像内のいずれか１つのピクセルポイントに対して、画像収集装置の内部パラメータに基づいて、１フレーム前の画像におけるピクセルポイントのピクセル座標を第１の空間座標に変換し、姿勢オフセット情報に基づいて、第１の空間座標を第２の空間座標に変換する。

いくつかの実施例では、画像収集装置の内部パラメータは、焦点距離、主点、傾斜係数、歪み係数等を含み、内部パラメータに基づいて画像収集装置の内部参照行列Ｋを決定し、内参行列Ｋは１つの３次正方行列であり、例えば、内部参照行列Ｋは式（１）に示すとおりである。

ｆ_ｘ、ｆ_ｙは焦点距離であり、一般的に両者が等しく、ｃ_ｘ、ｃ_ｙは主点座標（結像平面に対して）であり、ｓは座標軸傾斜パラメータであり、理想的には０である。

１フレーム前の画像におけるピクセルポイントのピクセル座標を第１の空間座標に変換する変換式は式（２）に示すとおりである。

（ｕ、ｖ）は１フレーム前の画像におけるピクセルポイントの位置を表し、（Ｘ、Ｙ、Ｚ）はピクセルポイントに対応する第１の空間座標を表し、当該ピクセルポイントに対応する実物点の空間座標系における位置を表し、Ｚの値は、１フレーム前の画像に対応する深度画像における当該ピクセルポイントの深度値に等しい。

ピクセルポイントの第１の空間座標を得た後、姿勢オフセット情報に基づいて、第１の空間座標を第２の空間座標に変換する。変換式は式（３）に示すとおりである。

Ｒは回転行列であり、Ｔは並進行列であり、（Ｘ’Ｙ’Ｚ’）はピクセルポイントの第２の空間座標である。画像収集装置が姿勢変換された後、当該ピクセルポイントに対応する実物点が空間座標系における位置を表す。

第２の空間座標に基づいて伝播ピクセルポイントの予測深度値を決定する時、Ｚ’の値は伝播ピクセルポイントの予測深度値である。

さらに、画像収集装置の内部パラメータに基づいて、ピクセルポイントの第２の空間座標をピクセル座標に変換し、変換式は式（４）に示すとおりである。

（ｕ’、ｖ’）はピクセルポイントの、第２の空間座標に変換された後のピクセル座標を表すとともに、伝播ピクセルポイントの現在フレームにおける位置を表す。

予測深度画像を生成する時、いくつかの実施例では、第２の空間座標に変換された後のピクセル座標に基づいて、現在フレーム画像内における伝播ピクセルポイントの位置を決定し、現在フレーム画像内の、伝播ピクセルポイントが所在する位置以外の他の位置を、現在フレーム画像内の新規ピクセルポイントの位置とし、現在フレーム画像内における伝播ピクセルポイントの位置、伝播ピクセルポイントの予測深度値、現在画像内における新規ピクセルポイントの位置、及び新規ピクセルポイントの予測深度値に基づいて、現在フレーム画像に対応する予測深度画像を生成する。

いくつかの実施例では、式（４）に基づいて現在フレーム画像内における各伝播ピクセルポイントの位置（ｕ’、ｖ’）を決定することができる。現在フレーム画像内の伝播ピクセルポイントの所在位置以外の他の位置はいずれも新規ピクセルポイントの所在位置である。即ち図５に示すように、領域Ａの位置は、現在フレーム画像内における伝播ピクセルポイント領域の位置であり、領域Ｂの位置は、現在フレーム画像内における新規ピクセルポイント領域の位置である。

式（３）に基づいて伝播ピクセルポイントの予測深度値Ｚ’を決定することができる。予め設定された深度値を現在フレーム画像内の新規ピクセルポイントの予測深度値とし、実施では、予め設定された深度値は０であってもよい。新規ピクセルポイントの予測深度値を予め設定された深度値とする理由を以下の実施例で具体的に説明する。

現在フレーム画像内における伝播ピクセルポイントの位置を決定し、伝播ピクセルポイントの予測深度値を伝播ピクセルポイント位置におけるピクセル値とする。現在フレーム画像における新規ピクセルポイントの位置を決定し、新規ピクセルポイントの予測深度値を新規ピクセルポイント位置におけるピクセル値とし、現在フレーム画像に対応する予測深度画像を生成する。

現在フレーム画像に対応する予測深度画像は、画像収集装置と同じ姿勢オフセットを有する１フレーム前の画像によって決定されたものであり、そのため、理論的には、同じ位置にあるピクセルポイントに対応する予測深度値と初期深度値とは等しいはずだが、畳み込みニューラルネットワークによって出力された初期深度画像内のピクセルポイントの初期深度値については隣接する両フレームの画像の関連性を考慮していないため、予測深度値と初期深度とが等しくない場合を引き起こす可能性がある。本出願の実施例は、同じ位置にあるピクセルポイントの初期深度画像における初期深度値と、当該ピクセルポイントの予測深度画像における予測深度値とを融合処理して、隣接する両フレームの画像の関連性が考慮されているターゲット深度値を得て、ターゲット深度値によって生成された深度画像は、畳み込みニューラルネットワークによって出力された初期深度画像ピクセルポイントの深度値と比べてより安定的である。

いくつかの実施例では、同じ位置にあるピクセルポイントの初期深度値、ピクセルポイントの予測深度値、初期深度値に対応する第１の重み、予測深度値に対応する第２の重みに基づいて、ピクセルポイントに対応するターゲット深度値を決定する。

いくつかの実施例では、初期深度値に第１の重みを付け、予測深度値に第２の重みを付け、重みを通して初期深度値と予測深度値を融合処理して、ターゲット深度値を得る。

いくつかの実施例では、初期深度値及び予測深度値を融合処理するステップは、初期深度値に対応する第１の重み及び予測深度値に対応する第２の重みに基づいて、初期深度値及び予測深度値に対して加重平均演算を行って、ターゲット深度値を得るものであってもよい。例えば、式（５）に示す式に基づいて初期深度値及び予測深度値を融合処理する。

Ｄ_１は、現在フレーム画像に対応する初期深度画像におけるピクセルポイントの初期深度値であり、Ｄ_２は、現在フレーム画像に対応する予測深度画像におけるピクセルポイントの予測深度値であり、Ｕ_１は、ピクセルポイントの初期深度値に対応する第１の重みであり、Ｕ_２は、ピクセルポイントの予測深度値に対応する第２の重みである。

なお、本出願の実施例における「融合処理」は「加重平均演算」を含むだけではなく、当業者がよく知っている初期深度値及び予測深度値に対する融合処理演算方法も本出願の実施例の保護範囲内に含まれる。

ターゲット深度値を決定する前に、まずピクセルポイントの初期深度値に対応する第１の重み、及びピクセルポイントの予測深度値に対応する第２の重みを決定する必要がある。

いくつかの実施例では、本出願の実施例は、
初期深度値と予測深度値との差分に基づいてピクセルポイントに対応する初期伝播不確定性パラメータを決定し、初期深度値と予測深度値との差分に基づいて、初期伝播不確定性パラメータを調整するための調整係数を決定し、調整係数、及び初期深度値と予測深度値との比に基づいて初期伝播不確定性パラメータを調整し、初期深度値に対応する第１の重みを決定する、
という以上の方式により初期深度値に対応する第１の重みを決定する。

いくつかの実施例では、まず、初期深度値と予測深度値との差分に基づいてピクセルポイントに対応する初期伝播不確定性パラメータを決定し、ピクセルポイントに対応する初期伝播不確定性パラメータを決定する決定式は式（６）に示すとおりである。

ｄ’は、初期深度値と予測深度値との差分であり、Ｄ_１は、初期深度値であり、Ｄ_２は、予測深度値であり、ｕは、初期伝播不確定性パラメータである。

さらに、初期深度値と予測深度値との差分に基づいて初期伝播不確定性パラメータを調整するための調整係数を決定し、調整係数の決定式は式（７）に示すとおりである。

σは調整係数であり、ｄ’は初期深度値と予測深度値との差分であり、式における他のパラメータは、二次曲線を選択した後に大量のサンプルを用いて実験でフィッティングして得ることができ、実際の必要に応じて調整することができ、本出願の実施例は他のパラメータの具体的な数値を限定しない。二次曲線の一般式は式（８）に示すとおりである。

以上から分かるように、初期深度値と予測深度値との差分が大きいほど、初期伝播不確定性パラメータは大きく、調整係数は大きい。

さらには、調整係数、及び初期深度値と予測深度値との比に基づいて初期伝播不確定性パラメータを調整し、初期深度値に対応する第１の重みを決定し、初期伝播不確定性パラメータを調整して第１の重みを決定する式は式（９）に示すとおりである。

以上から分かるように、調整後の初期伝播不確定性パラメータを初期深度値に対応する第１の重みとする時に、初期伝播不確定性パラメータが大きいほど、調整係数が大きく、調整後の初期伝播不確定性パラメータが大きく、即ち第１の重みが大きい。初期深度値及び予測深度値を融合処理する時、初期深度値に対応する第１の重みが大きいほど、決定されたターゲット深度値は初期深度値に近い。つまり、ピクセルポイントの初期深度値と予測深度値との差分が大きい時、当該ピクセルポイントに対応する実物点が画像収集装置の所在する環境における動的オブジェクトにある点または境界点である可能性が高いと決定することができ、動的オブジェクトにある点または境界点に対して、ターゲット深度値が初期深度値に近くなるように、融合条件を緩めるべきである。ターゲット深度値が、１フレーム前の画像によって決定される予測深度値に近いことに応答して、動的オブジェクトの遅延現象を引き起こす可能性がある。

本出願の実施例は、動的オブジェクトにある点のターゲット深度値を決定する効果を向上させることができる。

いくつかの実施例では、本出願の実施例は、
ピクセルポイントが伝播ピクセルポイントであることに応答して、伝播ピクセルポイントの予測深度値に対応する第２の重みが、伝播ピクセルポイントに対応する１フレーム前の画像内のピクセルポイントの伝播不確定性パラメータであると決定し、またはピクセルポイントが新規ピクセルポイントであることに応答して、新規ピクセルポイントの予測深度値に対応する第２の重みを第１のプリセット値として決定する、
という以上の方式によって初期深度値に対応する第２の重みを決定する。

伝播不確定パラメータは、伝播ピクセルポイントと、対応する１フレーム前の画像内のピクセルポイントとの間の深度値の変化の度合いを示すために使用される。

いくつかの実施例では、伝播ピクセルポイント及び新規ピクセルポイントに対して、予測深度値に対応する第２の重みを決定する方法が異なり、以下、第２の重みを決定する２種類の方式をそれぞれ説明する。

一、伝播ピクセルポイントに対して、１フレーム前の画像内のピクセルポイントの伝播不確定性パラメータを伝播ピクセルポイントの予測深度値とする。

伝播不確定性パラメータは、画像収集装置の姿勢が変化する過程で、伝播ピクセルポイントと、対応する１フレーム前の画像内のピクセルポイントとの深度値の変化の度合いを示すために使用される。いくつかの実施例では、各フレームの画像に対応する深度画像を決定した後、各フレームの画像内のピクセルポイントの伝播不確定性パラメータを決定する必要がある。

現在フレーム画像内の伝播ピクセルポイントに対して、第２の重みは、１フレーム前の画像における当該ピクセルポイントの伝播不確定性パラメータによって決定される。

当該ピクセルポイントに対応する、１フレーム前の画像内のピクセルポイントが伝播ピクセルポイントであることに対して、１フレーム前の画像内の当該ピクセルポイントの初期深度値に対応する第１の重み及び予測深度値に対応する第２の重みに基づいて、１フレーム前の画像における当該ピクセルポイントの伝播不確定性パラメータを決定し、現在フレーム画像における当該ピクセルポイントの予測深度値に対応する第２の重みを伝播不確定性パラメータとして決定する。

１フレーム前の画像内の対応するピクセルポイントが新規ピクセルポイントであることに応答して、１フレーム前の画像における当該ピクセルポイントの伝播不確定性パラメータを決定し、例えば、プリセット値は－１である。現在フレーム画像内の伝播ピクセルポイントに対応する、１フレーム前の画像内のピクセルポイントの伝播不確定性パラメータが－１であると判断した場合、現在フレーム画像内の伝播ピクセルポイントの第１の重みを当該ピクセルポイントに対応する第２の重みとし、式（５）から分かるように、第２の重みは第１の重みに等しく設定され、当該伝播ピクセルポイントの予測深度値及び初期深度値に対して平均演算を行い、予測深度値と初期深度値との平均値をターゲット深度値とすることに相当する。

二、新規ピクセルポイントに対して、新規ピクセルポイントの予測深度値に対応する第２の重みを第１のプリセット値として決定する。

いくつかの実施例では、新規ピクセルポイントの予測深度値に対応する第２の重みはプリセット値であってもよく、例えば、プリセット値は任意の値であってもよい。

ここで、新規ピクセルポイントの予測深度値を０に設定する理由を具体的に説明する。新規ピクセルポイントは、１フレーム前の画像内のピクセルポイントに対して画像収集装置の姿勢が変化する過程で新しく追加されたものであり、そのため、１フレーム前の画像と現在フレーム画像との関連性に基づいて予測してはならず、したがって、新規ピクセルポイントのターゲット深度値を初期深度値に等しいものとするべきである。これにより、新規ピクセルポイントの予測深度値を０に設定する場合、新規ピクセルポイントの予測深度値に対応する第２の重みは任意の値であり、式（５）から分かるように、ターゲット深度値は初期深度値に等しい。

現在フレームピクセルポイントの初期深度値、初期深度値に対応する第１の重み、予測深度値、予測深度値に対応する第２の重みを決定した後、予測深度値及び初期深度値を融合処理して、ターゲット深度値を得て、さらにターゲット深度値に基づいて現在フレーム画像に対応する深度画像を生成する。

また、本出願の実施例は現在フレーム画像に対応する深度画像を生成した後にも、現在フレーム画像に対応する伝播不確定性画像を生成し、伝播不確定性画像のピクセル値は現在フレーム画像内のピクセルポイントの伝播不確定性パラメータである。

いくつかの実施例では、伝播ピクセルポイントの初期深度値に対応する第１の重み及び伝播ピクセルポイントの予測深度値に対応する第２の重みの積と、伝播ピクセルポイントの初期深度値に対応する第１の重み及び伝播ピクセルポイントの予測深度値に対応する第２の重みの和と、の比を、伝播ピクセルポイントの伝播不確定性パラメータとする。

いくつかの実施例では、現在フレーム画像内の伝播ピクセルポイントは、伝播ピクセルポイントの初期深度値に対応する第１の重みと予測深度値に対応する第２の重みによって決定され、実施では、式（１０）に基づいて伝播ピクセルポイントに対応する伝播不確定性パラメータを決定する。

Ｃは、伝播ピクセルポイントの伝播不確定性パラメータであり、Ｕ１はピクセルポイントの初期深度値に対応する第１の重みであり、Ｕ２はピクセルポイントの予測深度値に対応する第２の重みである。

なお、現在フレーム画像内の新規ピクセルポイントに対して、新規ピクセルポイントの伝播不確定性パラメータを第２のプリセット値として決定し、例えば、プリセット値は－１である。

いくつかの実施例では、現在フレーム画像内の伝播ピクセルポイントに対応する、１フレーム前の画像内のピクセルポイントの伝播不確定性パラメータが－１であることに応答して、現在フレーム画像内の伝播ピクセルポイントに対応する、１フレーム前の画像内のピクセルポイントが、１フレーム前の画像の新規ピクセルポイントであることが証明され、これにより、現在フレーム画像内の当該ポイントの伝播不確定性パラメータを決定する時、予測深度値に対応する第２の重みＵ_２を、初期深度値に対応する第１の重みＵ_１に等しい値に設定し、式（１０）から分かるように、当該ポイントの伝播不確定性パラメータＣはＵ_１の半分である。

静的オブジェクトに対応する画像内のピクセルポイントは、画像収集装置の姿勢変換過程で、伝播不確定性パラメータが０に近づく。

また、現在フレーム画像が画像収集装置によって収集されたビデオの最初のフレームであることに応答して、１フレーム前の画像が存在しないため、現在フレーム画像に対応する姿勢オフセット情報及び１フレーム前の画像に基づいて、現在フレーム画像に対応する予測深度画像を決定することができない。

本出願の実施例は、ビデオの最初のフレームの画像に対応する深度画像を生成する方法を提供し、現在フレーム画像が画像収集装置によって収集されたビデオの最初のフレームであることに応答して、
現在フレーム画像を訓練済みの畳み込みニューラルネットワーク内に入力して、訓練済みの畳み込みニューラルネットワークによって出力された現在フレーム画像に対応する深度画像を取得する、
という以上の方式により現在フレーム画像に対応する深度画像を生成する。

なお、畳み込みニューラルネットワークを呼び出す前に、大量のＲＧＢ画像及びＲＧＢ画像内の各ピクセルポイントに対応する深度値に基づいて畳み込みニューラルネットワークを訓練する必要があり、ＲＧＢ画像及びＲＧＢ画像内の各ピクセルポイントに対応する深度値で構成される行列を畳み込みニューラルネットワークの入力とし、ＲＧＢ画像に対応する深度画像を畳み込みニューラルネットワークの出力として、畳み込みニューラルネットワークを訓練し、畳み込みニューラルネットワークモデルが収束された後、畳み込みニューラルネットワークが訓練完了したと決定し、訓練完了した畳み込みニューラルネットワークは、ＲＧＢ画像に基づいて深度画像を決定する能力を備える。

いくつかの実施例では、ビデオの最初のフレームの画像を訓練済みの畳み込みニューラルネットワークに入力して、訓練済みの畳み込みニューラルネットワークは、最初のフレームの画像のピクセル特徴に基づいて、最初のフレームの画像における各ピクセルポイントの深度値を算出し、各ピクセルポイントの深度値を最初のフレームの画像に対応する深度画像のピクセル値として、最初のフレームの画像に対応する深度画像を生成する。

本出願の実施例では、画像処理装置がさらに提供され、当該装置に対応するのは、本出願の実施例の画像処理方法に対応する装置であり、且つ当該装置が課題を解決する原理は当該方法と似ており、したがって、当該装置の実施は方法の実施を参照されたく、重なった内容を省略する。

図６は、例示的な一実施例によって示される画像処理装置のブロック図である。図６を参照すると、当該装置は決定モジュール６００、融合モジュール６０１、生成モジュール６０２を含む。

決定モジュール６００は、収集したビデオから現在フレーム画像を取得するステップと、畳み込みニューラルネットワークに基づいて現在フレーム画像に対応する初期深度画像を得るステップと、
現在フレーム画像に対応する姿勢オフセット情報と現在フレーム画像の１フレーム前の画像に基づいて、現在フレーム画像に対応する予測深度画像を決定するステップであって、姿勢オフセット情報が、画像収集装置によって収集された１フレーム前の画像と現在フレーム画像との間に発生した姿勢オフセットを示すために使用されるステップと、を実行するように構成される。

融合モジュール６０１は、同じ位置にあるピクセルポイントの、初期深度画像における初期深度値と、前記同じ位置にあるピクセルポイントの、予測深度画像における予測深度値とを融合処理して、ピクセルポイントに対応するターゲット深度値を得るステップを実行するように構成される。

生成モジュール６０２は、現在フレーム画像内のピクセルポイントに対応するターゲット深度値に基づいて、現在フレーム画像に対応する深度画像を生成するステップを実行するように構成される。

１つの可能な実現形態では、決定モジュール６００は具体的に、
１フレーム前の画像内のいずれか１つのピクセルポイントに対して、画像収集装置の内部パラメータに基づいて、１フレーム前の画像におけるピクセルポイントのピクセル座標を第１の空間座標に変換し、姿勢オフセット情報に基づいて、第１の空間座標を第２の空間座標に変換するステップと、
第２の空間座標に変換された後のピクセル座標が予め設定された範囲内にあることに基づいて、ピクセルポイントを現在フレーム画像内の伝播ピクセルポイントとし、第２の空間座標に基づいて伝播ピクセルポイントの予測深度値を決定するステップと、
予め設定された深度値を、現在フレーム画像内の伝播ピクセルポイント以外の新規ピクセルポイントの予測深度値とするステップと、
伝播ピクセルポイントの予測深度値と新規ピクセルポイントの予測深度値に基づいて現在フレーム画像に対応する予測深度画像を決定するステップと、を実行するように構成される。

１つの可能な実現形態では、決定モジュール６００は具体的に、
第２の空間座標に変換された後のピクセル座標に基づいて、現在フレーム画像内における伝播ピクセルポイントの位置を決定し、現在フレーム画像内の、伝播ピクセルポイントが所在する位置以外の他の位置を、現在フレーム画像内の新規ピクセルポイントの位置とするステップと、
現在フレーム画像内における伝播ピクセルポイントの位置、伝播ピクセルポイントの予測深度値、及び現在画像内における新規ピクセルポイントの位置、新規ピクセルポイントの予測深度値に基づいて、現在フレーム画像に対応する予測深度画像を生成するステップと、を実行するように構成される。

１つの可能な実現形態では、融合モジュール６０１はさらに、
同じ位置にあるピクセルポイントの初期深度値、ピクセルポイントの予測深度値、初期深度値に対応する第１の重み、及び予測深度値に対応する第２の重みに基づいて、ピクセルポイントに対応するターゲット深度値を決定するステップを実行するように構成される。

１つの可能な実現形態では、融合モジュール６０１はさらに、
初期深度値と予測深度値との差分に基づいてピクセルポイントに対応する初期伝播不確定性パラメータを決定するステップと、初期深度値と予測深度値との差分に基づいて、初期伝播不確定性パラメータを調整するための調整係数を決定するステップと、
調整係数、及び初期深度値と予測深度値との比に基づいて初期伝播不確定性パラメータを調整し、初期深度値に対応する第１の重みを決定するステップと、を実行するように構成される。

１つの可能な実現形態では、融合モジュール６０１はさらに、
ピクセルポイントが伝播ピクセルポイントであることに応答して、伝播ピクセルポイントの予測深度値に対応する第２の重みが、伝播ピクセルポイントに対応する１フレーム前の画像内のピクセルポイントの伝播不確定性パラメータであると決定するステップであって、伝播不確定パラメータが、伝播ピクセルポイントと、対応する１フレーム前の画像内のピクセルポイントとの間の深度値の変化の度合いを示すために使用されるステップ、または、
ピクセルポイントが新規ピクセルポイントであることに応答して、新規ピクセルポイントの予測深度値に対応する第２の重みを第１のプリセット値をとして決定するステップ、を実行するように構成される。

１つの可能な実現形態では、融合モジュール６０１はさらに、
各フレームの画像内の伝播ピクセルポイントに対して、伝播ピクセルポイントの初期深度値に対応する第１の重み、及び伝播ピクセルポイントの予測深度値に対応する第２の重みに基づいて、伝播ピクセルポイントの伝播不確定性パラメータを決定するステップ、又は、
各フレームの画像内の新規ピクセルポイントに対して、新規ピクセルポイントの伝播不確定性パラメータを第２のプリセット値として決定するステップ、を実行するように構成される。

１つの可能な実現形態では、融合モジュール６０１は具体的に、
伝播ピクセルポイントの初期深度値に対応する第１の重み及び伝播ピクセルポイントの予測深度値に対応する第２の重みの積と、伝播ピクセルポイントの初期深度値に対応する第１の重み及び伝播ピクセルポイントの予測深度値に対応する第２の重みの和と、の比を、伝播ピクセルポイントの伝播不確定性パラメータとするステップを実行するように構成される。

１つの可能な実現形態では、姿勢オフセット情報は回転行列を含み、
決定モジュール６００は具体的に、
１フレーム前の画像を収集する時の画像収集装置の第１のＩＭＵパラメータ値、及び現在フレーム画像を収集する時の画像収集装置の第２のＩＭＵパラメータ値に基づいて、１フレーム前の画像と現在フレーム画像を収集する時の画像収集装置の回転行列を決定する、
という以上の方式に基づいて、１フレーム前の画像を収集する時と現在フレーム画像を収集する時との画像収集装置の姿勢オフセット情報を決定するステップを実行するように構成される。

１つの可能な実現形態では、姿勢オフセット情報は並進ベクトルを含み、
決定モジュール６００は具体的に、
ＧＦＴＴ特徴抽出アルゴリズムに基づいて、１フレーム前の画像から少なくとも１つの特徴領域を決定するステップであって、特徴領域のエッジピクセルポイントと、特徴領域以外の隣接するピクセルポイントとの階調値の差分が予め設定された閾値より大きいステップと、
各特徴領域に対して、１フレーム前の画像における特徴領域の第１の位置情報及びオプティカルフロートラッキングアルゴリズムに基づいて、現在フレーム画像における特徴領域の第２の位置情報を決定するステップと、
ＰＮＰアルゴリズムに基づいて、少なくとも１つの特徴領域の、１フレーム前の画像における第１の位置情報及び現在フレーム画像における第２の位置情報を最適化処理して、１フレーム前の画像と現在フレーム画像を収集する時の画像収集装置の並進ベクトルを得るするステップと、を実行するように構成される。

上記実施例における装置について、その内部の各ユニットが要求を実行する具体的な方式は、当該方法に関連する実施例で詳しく説明しており、ここで詳しい説明を省略する。

図７は、例示的な一実施例によって示される電子機器７００のブロック図である。当該電子機器は、少なくとも１つのプロセッサ７１０、及び少なくとも１つのメモリ７２０を含むことができる。

メモリ７２０にプログラムコードが記憶されている。メモリ７２０は主にプログラム記憶領域及びデータ記憶領域を含むことができ、プログラム記憶領域はオペレーティングシステムと、及びインスタントメッセージング機能の実施に必要なプログラムなどを記憶することができ、データ記憶領域は様々なインスタントメッセージング情報及び操作コマンド集などを記憶することができる。

メモリ７２０は、ランダムアクセスメモリ（ｒａｎｄｏｍ－ａｃｃｅｓｓｍｅｍｏｒｙ、ＲＡＭ）のような揮発性メモリ（ｖｏｌａｔｉｌｅｍｅｍｏｒｙ）であってもよいし、リードオンリーメモリ、フラッシュメモリ（ｆｌａｓｈｍｅｍｏｒｙ）、ハードディスク（ｈａｒｄｄｉｓｋｄｒｉｖｅ、ＨＤＤ）またはソリッドステートドライブ（ｓｏｌｉｄ－ｓｔａｔｅｄｒｉｖｅ、ＳＳＤ）のような不揮発性メモリ（ｎｏｎ－ｖｏｌａｔｉｌｅｍｅｍｏｒｙ）であってもよいし、命令またはデータ構造形式を有する所望のプログラムコードを搬送または記憶でき且つコンピュータにアクセス可能な他の任意の媒体であってもよいが、これらに限定されない。メモリ７２０は上記メモリの組み合せであってもよい。

プロセッサ７１０は、１つまたは複数の中央処理装置（ｃｅｎｔｒａｌｐｒｏｃｅｓｓｉｎｇｕｎｉｔ、ＣＰＵ）を含むことができ、またはデジタル処理などであってもよい。プロセッサ７１０はメモリ７２０に記憶されているプログラムコードを呼び出す際に上記本出願の様々な例示的な実施形態の画像処理方法のステップを実行する。

示例性の実施例では、命令を含む不揮発性コンピュータ記憶媒体をさらに提供し、例えば命令を含むメモリ７２０を提供する。上記命令は、上記方法を完成するように、電子機器７００のプロセッサ７１０で実行することができる。いくつかの実施例では、記憶媒体は非一時的コンピュータ読み取り可能な記憶媒体であってもよく、例えば、非一時的コンピュータ読み取り可能な記憶媒体はＲＯＭ、ランダムアクセスメモリ（ＲＡＭ）、ＣＤ－ＲＯＭ、磁気テープ、フロッピーディスク及び光データストレージデバイスなどであってもよい。

本出願の実施例はコンピュータプログラム製品をさらに提供し、コンピュータプログラム製品が電子機器で実行される時、電子機器は、本出願の実施例の上記いずれか１つの画像処理方法またはいずれか１つの画像処理方法の実現に関連し得るいずれか１つの方法を実施する。

当業者は明細書を考慮し且つここでの出願した発明を実施した後、本出願の他の実施形態を容易に想到し得る。本出願は、本出願のあらゆる変形、用途または適応的変化をカバーしようとしており、これらの変形、用途または適応的変化は本出願の一般原則に従い、且つ本出願の開示されていない本技術分野の技術常識や慣用されている技術手段を含むべきである。明細書及び実施例は単なる例示的なものとして見なされ、本出願の真の範囲及び精神は以下の特許請求の範囲によって指摘される。

なお、本出願は以上説明され且つ図面に示されている正確な構造に限らず、その範囲から逸脱しない限り、様々な修正と変更が可能であることを理解されたい。本出願の範囲は添付の特許請求の範囲のみによって限定される。

Claims

画像処理方法であって、
収集したビデオから現在フレーム画像を取得するステップと、
畳み込みニューラルネットワークに基づいて前記現在フレーム画像に対応する初期深度画像を得るステップと、
前記現在フレーム画像に対応する姿勢オフセット情報と前記現在フレーム画像の１フレーム前の画像に基づいて、前記現在フレーム画像に対応する予測深度画像を決定するステップであって、前記姿勢オフセット情報が、画像収集装置によって収集された前記１フレーム前の画像と前記現在フレーム画像との間に発生した姿勢オフセットを示すために使用されるステップと、
同じ位置にあるピクセルポイントの、前記初期深度画像における初期深度値と、前記同じ位置にあるピクセルポイントの、前記予測深度画像における予測深度値とを融合処理して、前記ピクセルポイントに対応するターゲット深度値を得るステップと、
前記現在フレーム画像内のピクセルポイントに対応するターゲット深度値に基づいて、前記現在フレーム画像に対応する深度画像を生成するステップと、を含む、
画像処理方法。
前記姿勢オフセット情報と前記現在フレーム画像の１フレーム前の画像に基づいて、前記現在フレーム画像に対応する予測深度画像を決定するステップは、
前記１フレーム前の画像内のいずれか１つのピクセルポイントに対して、前記画像収集装置の内部パラメータに基づいて、前記１フレーム前の画像における前記ピクセルポイントのピクセル座標を第１の空間座標に変換するステップと、
前記姿勢オフセット情報に基づいて、前記第１の空間座標を第２の空間座標に変換するステップと、
前記第２の空間座標に変換された後のピクセル座標が予め設定された範囲内にあることに基づいて、前記ピクセルポイントを前記現在フレーム画像内の伝播ピクセルポイントとし、前記第２の空間座標に基づいて前記伝播ピクセルポイントの予測深度値を決定するステップと、
予め設定された深度値を、前記現在フレーム画像内の伝播ピクセルポイント以外の新規ピクセルポイントの予測深度値とするステップと、
前記伝播ピクセルポイントの予測深度値と前記新規ピクセルポイントの予測深度値に基づいて前記現在フレーム画像に対応する予測深度画像を決定するステップと、を含む、
請求項１に記載の画像処理方法。
前記伝播ピクセルポイントの予測深度値と前記新規ピクセルポイントの予測深度値に基づいて前記現在フレーム画像に対応する予測深度画像を決定するステップは、
前記第２の空間座標に変換された後のピクセル座標に基づいて、前記現在フレーム画像内における前記伝播ピクセルポイントの位置を決定し、前記現在フレーム画像内の、伝播ピクセルポイントが所在する位置以外の他の位置を、前記現在フレーム画像内の前記新規ピクセルポイントの位置とするステップと、
前記現在フレーム画像内における前記伝播ピクセルポイントの位置、前記伝播ピクセルポイントの予測深度値、前記現在画像内における前記新規ピクセルポイントの位置、及び前記新規ピクセルポイントの予測深度値に基づいて、前記現在フレーム画像に対応する予測深度画像を生成するステップと、を含む、
請求項２に記載の画像処理方法。
同じ位置にあるピクセルポイントの、前記初期深度画像における初期深度値と、前記同じ位置にあるピクセルポイントの、前記予測深度画像における予測深度値とを融合処理して、前記ピクセルポイントに対応するターゲット深度値を得るステップは、
同じ位置にあるピクセルポイントの初期深度値、前記ピクセルポイントの予測深度値、前記初期深度値に対応する第１の重み、及び前記予測深度値に対応する第２の重みに基づいて、前記ピクセルポイントに対応するターゲット深度値を決定するステップを含む、
請求項２に記載の画像処理方法。
前記初期深度値と前記予測深度値との差分に基づいて前記ピクセルポイントに対応する初期伝播不確定性パラメータを決定するステップと、
前記初期深度値と前記予測深度値との差分に基づいて、前記初期伝播不確定性パラメータを調整するための調整係数を決定するステップと、
前記調整係数、及び前記初期深度値と前記予測深度値との比に基づいて前記初期伝播不確定性パラメータを調整し、前記初期深度値に対応する第１の重みを決定するステップと、をさらに含む、
請求項４に記載の画像処理方法。
前記ピクセルポイントが伝播ピクセルポイントであることに応答して、前記伝播ピクセルポイントの予測深度値に対応する第２の重みが、前記伝播ピクセルポイントに対応する前記１フレーム前の画像内のピクセルポイントの伝播不確定性パラメータであると決定するステップであって、前記伝播不確定パラメータが、前記伝播ピクセルポイントと、対応する前記１フレーム前の画像内のピクセルポイントとの間の深度値の変化の度合いを示すために使用されるステップ、又は、
前記ピクセルポイントが新規ピクセルポイントであることに応答して、前記新規ピクセルポイントの予測深度値に対応する第２の重みを第１のプリセット値として決定するステップ、をさらに含む、
請求項４に記載の画像処理方法、
各フレームの画像内の伝播ピクセルポイントに対して、前記伝播ピクセルポイントの初期深度値に対応する第１の重み、及び前記伝播ピクセルポイントの予測深度値に対応する第２の重みに基づいて、前記伝播ピクセルポイントの伝播不確定性パラメータを決定するステップ、又は、
各フレームの画像内の新規ピクセルポイントに対して、前記新規ピクセルポイントの伝播不確定性パラメータを第２のプリセット値として決定するステップ、をさらに含む、
請求項６に記載の画像処理方法。
前記伝播ピクセルポイントの初期深度値に対応する第１の重み、及び前記伝播ピクセルポイントの予測深度値に対応する第２の重みに基づいて、前記伝播ピクセルポイントの伝播不確定性パラメータを決定するステップは、
前記伝播ピクセルポイントの初期深度値に対応する第１の重み及び前記伝播ピクセルポイントの予測深度値に対応する第２の重みの積と、前記伝播ピクセルポイントの初期深度値に対応する第１の重み及び前記伝播ピクセルポイントの予測深度値に対応する第２の重みの和と、の比を、前記伝播ピクセルポイントの伝播不確定性パラメータとする、
請求項７に記載の画像処理方法。
前記姿勢オフセット情報は回転行列を含み、
前記１フレーム前の画像を収集する時の前記画像収集装置の第１のＩＭＵパラメータ値、及び前記現在フレーム画像を収集する時の前記画像収集装置の第２のＩＭＵパラメータ値に基づいて、前記１フレーム前の画像と前記現在フレーム画像を収集する時の画像収集装置の回転行列を決定する、
請求項１に記載の画像処理方法。
前記姿勢オフセット情報は並進ベクトルを含み、
ＧＦＴＴ特徴抽出アルゴリズムに基づいて前記１フレーム前の画像から少なくとも１つの特徴領域を決定し、前記特徴領域のエッジピクセルポイントと、前記特徴領域以外の隣接するピクセルポイントとの階調値の差分が予め設定された閾値より大きく、
各特徴領域に対して、前記１フレーム前の画像における特徴領域の第１の位置情報及びオプティカルフロートラッキングアルゴリズムに基づいて、前記現在フレーム画像における前記特徴領域の第２の位置情報を決定し、
ＰＮＰアルゴリズムに基づいて、前記少なくとも１つの特徴領域の、前記１フレーム前の画像における第１の位置情報及び前記現在フレーム画像における第２の位置情報を最適化して、前記１フレーム前の画像を収集する時と前記現在フレーム画像を収集する時の画像収集装置の並進ベクトルを得る、
請求項１に記載の画像処理方法。
画像処理装置であって、
収集したビデオから現在フレーム画像を取得するステップと、畳み込みニューラルネットワークに基づいて前記現在フレーム画像に対応する初期深度画像を得るステップと、前記現在フレーム画像に対応する姿勢オフセット情報と前記現在フレーム画像の１フレーム前の画像に基づいて、前記現在フレーム画像に対応する予測深度画像を決定するステップであって、前記姿勢オフセット情報が、画像収集装置によって収集された前記１フレーム前の画像と前記現在フレーム画像との間に発生した姿勢オフセットを示すために使用されるステップと、を実行するように構成される決定モジュールと、
同じ位置にあるピクセルポイントの、前記初期深度画像における初期深度値と、前記同じ位置にあるピクセルポイントの、前記予測深度画像における予測深度値とを融合処理して、前記ピクセルポイントに対応するターゲット深度値を得るステップを実行するように構成される融合モジュールと、
前記現在フレーム画像内のピクセルポイントに対応するターゲット深度値に基づいて、前記現在フレーム画像に対応する深度画像を生成するステップを実行するように構成される生成モジュールと、を含む、
画像処理装置。
前記決定モジュールは、
前記１フレーム前の画像内のいずれか１つのピクセルポイントに対して、前記画像収集装置の内部パラメータに基づいて、前記１フレーム前の画像における前記ピクセルポイントのピクセル座標を第１の空間座標に変換し、前記姿勢オフセット情報に基づいて、前記第１の空間座標を第２の空間座標に変換するステップと、
前記第２の空間座標に変換された後のピクセル座標が予め設定された範囲内にあることに基づいて、前記ピクセルポイントを前記現在フレーム画像内の伝播ピクセルポイントとし、前記第２の空間座標に基づいて前記伝播ピクセルポイントの予測深度値を決定するステップと、
予め設定された深度値を、前記現在フレーム画像内の伝播ピクセルポイント以外の新規ピクセルポイントの予測深度値とするステップと、
前記伝播ピクセルポイントの予測深度値と前記新規ピクセルポイントの予測深度値に基づいて前記現在フレーム画像に対応する予測深度画像を決定するステップと、を実行するように構成される、
請求項１１に記載の画像処理装置。
前記決定モジュールは、
前記第２の空間座標に変換された後のピクセル座標に基づいて、前記現在フレーム画像内における前記伝播ピクセルポイントの位置を決定し、前記現在フレーム画像内の、伝播ピクセルポイントが所在する位置以外の他の位置を、前記現在フレーム画像内の前記新規ピクセルポイントの位置とするステップと、
前記現在フレーム画像内における前記伝播ピクセルポイントの位置、前記伝播ピクセルポイントの予測深度値、及び前記現在画像内における前記新規ピクセルポイントの位置、前記新規ピクセルポイントの予測深度値に基づいて、前記現在フレーム画像に対応する予測深度画像を生成するステップと、を実行するように構成される、
請求項１２に記載の画像処理装置。
前記融合モジュールは、
同じ位置にあるピクセルポイントの初期深度値、前記ピクセルポイントの予測深度値、前記初期深度値に対応する第１の重み、及び前記予測深度値に対応する第２の重みに基づいて、前記ピクセルポイントに対応するターゲット深度値を決定するステップを実行するように構成される、
請求項１２に記載の画像処理装置。
前記融合モジュールはさらに、
前記初期深度値と前記予測深度値との差分に基づいて前記ピクセルポイントに対応する初期伝播不確定性パラメータを決定するステップと、
前記初期深度値と前記予測深度値との差分に基づいて、前記初期伝播不確定性パラメータを調整するための調整係数を決定するステップと、
前記調整係数、及び前記初期深度値と前記予測深度値との比に基づいて前記初期伝播不確定性パラメータを調整し、前記初期深度値に対応する第１の重みを決定するステップと、を実行するように構成される、
請求項１４に記載の画像処理装置。
前記融合モジュールはさらに、
前記ピクセルポイントが伝播ピクセルポイントであることに応答して、前記伝播ピクセルポイントの予測深度値に対応する第２の重みが、前記伝播ピクセルポイントに対応する前記１フレーム前の画像内のピクセルポイントの伝播不確定性パラメータであると決定するステップであって、前記伝播不確定パラメータが、前記伝播ピクセルポイントと、対応する前記１フレーム前の画像内のピクセルポイントとの間の深度値の変化の度合いを示すために使用されるステップ、又は、
前記ピクセルポイントが新規ピクセルポイントであることに応答して、前記新規ピクセルポイントの予測深度値に対応する第２の重みを第１のプリセット値として決定するステップ、を実行するように構成される、
請求項１４に記載の画像処理装置。
前記融合モジュールはさらに、
各フレームの画像内の伝播ピクセルポイントに対して、前記伝播ピクセルポイントの初期深度値に対応する第１の重み、及び前記伝播ピクセルポイントの予測深度値に対応する第２の重みに基づいて、前記伝播ピクセルポイントの伝播不確定性パラメータを決定するステップ、又は、
各フレームの画像内の新規ピクセルポイントに対して、前記新規ピクセルポイントの伝播不確定性パラメータを第２のプリセット値として決定するステップ、を実行するように構成される、
請求項１６に記載の画像処理装置。
前記融合モジュールは、
前記伝播ピクセルポイントの初期深度値に対応する第１の重み及び前記伝播ピクセルポイントの予測深度値に対応する第２の重みの積と、前記伝播ピクセルポイントの初期深度値に対応する第１の重み及び前記伝播ピクセルポイントの予測深度値に対応する第２の重みの和と、の比を、前記伝播ピクセルポイントの伝播不確定性パラメータとするステップを実行するように構成される、
請求項１７に記載の画像処理装置。
前記姿勢オフセット情報は回転行列を含み、
前記決定モジュールは、
前記１フレーム前の画像を収集する時の前記画像収集装置の第１のＩＭＵパラメータ値、及び前記現在フレーム画像を収集する時の前記画像収集装置の第２のＩＭＵパラメータ値に基づいて、前記１フレーム前の画像と前記現在フレーム画像を収集する時の画像収集装置の回転行列を決定する、
という以上の方式に基づいて、１フレーム前の画像を収集する時と現在フレーム画像を収集する時との画像収集装置の姿勢オフセット情報を決定するステップを実行するように構成される、
請求項１１に記載の画像処理装置。
前記姿勢オフセット情報は並進ベクトルを含み、
前記決定モジュールは、
ＧＦＴＴ特徴抽出アルゴリズムに基づいて前記１フレーム前の画像から少なくとも１つの特徴領域を決定するステップであって、前記特徴領域のエッジピクセルポイントと、前記特徴領域以外の隣接するピクセルポイントとの階調値の差分が予め設定された閾値より大きいステップと、
各特徴領域に対して、前記１フレーム前の画像における特徴領域の第１の位置情報及びオプティカルフロートラッキングアルゴリズムに基づいて、前記現在フレーム画像における前記特徴領域の第２の位置情報を決定するステップと、
ＰＮＰアルゴリズムに基づいて、前記少なくとも１つの特徴領域の、前記１フレーム前の画像における第１の位置情報及び前記現在フレーム画像における第２の位置情報を最適化して、前記１フレーム前の画像を収集する時と前記現在フレーム画像を収集する時の画像収集装置の並進ベクトルを得るステップと、を実行するように構成される、
請求項１１に記載の画像処理装置。
電子機器であって、
プロセッサと、
実行可能な命令を記憶するためのメモリと、を含み、
前記プロセッサは、前記実行可能な命令を実行して、
収集したビデオから現在フレーム画像を取得するステップと、
畳み込みニューラルネットワークに基づいて前記現在フレーム画像に対応する初期深度画像を得るステップと、
前記現在フレーム画像に対応する姿勢オフセット情報と前記現在フレーム画像の１フレーム前の画像に基づいて、前記現在フレーム画像に対応する予測深度画像を決定するステップであって、前記姿勢オフセット情報が、画像収集装置によって収集された前記１フレーム前の画像と前記現在フレーム画像との間に発生した姿勢オフセットを示すために使用されるステップと、
同じ位置にあるピクセルポイントの、前記初期深度画像における初期深度値と、前記同じ位置にあるピクセルポイントの、前記予測深度画像における予測深度値とを融合処理して、前記ピクセルポイントに対応するターゲット深度値を得るステップと、
前記現在フレーム画像内のピクセルポイントに対応するターゲット深度値に基づいて、前記現在フレーム画像に対応する深度画像を生成するステップと、を実現するように構成される、
電子機器。
前記プロセッサは、
前記１フレーム前の画像内のいずれか１つのピクセルポイントに対して、前記画像収集装置の内部パラメータに基づいて、前記１フレーム前の画像における前記ピクセルポイントのピクセル座標を第１の空間座標に変換し、前記姿勢オフセット情報に基づいて、前記第１の空間座標を第２の空間座標に変換するステップと、
前記第２の空間座標に変換された後のピクセル座標が予め設定された範囲内にあることに基づいて、前記ピクセルポイントを前記現在フレーム画像内の伝播ピクセルポイントとし、前記第２の空間座標に基づいて前記伝播ピクセルポイントの予測深度値を決定するステップと、
予め設定された深度値を、前記現在フレーム画像内の伝播ピクセルポイント以外の新規ピクセルポイントの予測深度値とするステップと、
前記伝播ピクセルポイントの予測深度値と前記新規ピクセルポイントの予測深度値に基づいて前記現在フレーム画像に対応する予測深度画像を決定するステップと、を実行するように構成される、
請求項２１に記載の電子機器。
前記プロセッサは、
前記第２の空間座標に変換された後のピクセル座標に基づいて、前記現在フレーム画像内における前記伝播ピクセルポイントの位置を決定し、前記現在フレーム画像内の、伝播ピクセルポイントが所在する位置以外の他の位置を、前記現在フレーム画像内の前記新規ピクセルポイントの位置とするステップと、
前記現在フレーム画像内における前記伝播ピクセルポイントの位置、前記伝播ピクセルポイントの予測深度値、前記現在画像内における前記新規ピクセルポイントの位置、及び前記新規ピクセルポイントの予測深度値に基づいて、前記現在フレーム画像に対応する予測深度画像を生成するステップと、を実行するように構成される、
請求項２２に記載の電子機器。
前記プロセッサは、
同じ位置にあるピクセルポイントの初期深度値、前記ピクセルポイントの予測深度値、前記初期深度値に対応する第１の重み、及び前記予測深度値に対応する第２の重みに基づいて、前記ピクセルポイントに対応するターゲット深度値を決定するステップを実行するように構成される、
請求項２２に記載の電子機器。
前記プロセッサは、
前記初期深度値と前記予測深度値との差分に基づいて前記ピクセルポイントに対応する初期伝播不確定性パラメータを決定するステップと、
前記初期深度値と前記予測深度値との差分に基づいて、前記初期伝播不確定性パラメータを調整するための調整係数を決定するステップと、
前記調整係数、及び前記初期深度値と前記予測深度値との比に基づいて前記初期伝播不確定性パラメータを調整し、前記初期深度値に対応する第１の重みを決定するステップと、を実行するように構成される、
請求項２４に記載の電子機器。
前記プロセッサは、
前記ピクセルポイントが伝播ピクセルポイントであることに応答して、前記伝播ピクセルポイントの予測深度値に対応する第２の重みが、前記伝播ピクセルポイントに対応する前記１フレーム前の画像内のピクセルポイントの伝播不確定性パラメータであると決定するステップであって、前記伝播不確定パラメータが、前記伝播ピクセルポイントと、対応する前記１フレーム前の画像内のピクセルポイントとの間の深度値の変化の度合いを示すために使用されるステップ、または、
前記ピクセルポイントが新規ピクセルポイントであることに応答して、前記新規ピクセルポイントの予測深度値に対応する第２の重みを第１のプリセット値として決定するステップ、を実行するように構成される、
請求項２４に記載の電子機器。
前記プロセッサは、
各フレームの画像内の伝播ピクセルポイントに対して、前記伝播ピクセルポイントの初期深度値に対応する第１の重み、及び前記伝播ピクセルポイントの予測深度値に対応する第２の重みに基づいて、前記伝播ピクセルポイントの伝播不確定性パラメータを決定するステップ、又は、
各フレームの画像内の新規ピクセルポイントに対して、前記新規ピクセルポイントの伝播不確定性パラメータを第２のプリセット値として決定するステップ、を実行するように構成される、
請求項２６に記載の電子機器。
前記プロセッサは、
前記伝播ピクセルポイントの初期深度値に対応する第１の重み及び前記伝播ピクセルポイントの予測深度値に対応する第２の重みの積と、前記伝播ピクセルポイントの初期深度値に対応する第１の重み及び前記伝播ピクセルポイントの予測深度値に対応する第２の重みの和と、の比を、前記伝播ピクセルポイントの伝播不確定性パラメータとするステップを実行するように構成される、
請求項２７に記載の電子機器。
前記姿勢オフセット情報は回転行列を含み、
前記プロセッサは、
前記１フレーム前の画像を収集する時の前記画像収集装置の第１のＩＭＵパラメータ値、及び前記現在フレーム画像を収集する時の前記画像収集装置の第２のＩＭＵパラメータ値に基づいて、前記１フレーム前の画像と前記現在フレーム画像を収集する時の画像収集装置の回転行列を決定するステップを実行するように構成される、
請求項２１に記載の電子機器。
前記姿勢オフセット情報は並進ベクトルを含み、
前記プロセッサは、
ＧＦＴＴ特徴抽出アルゴリズムに基づいて前記１フレーム前の画像から少なくとも１つの特徴領域を決定するステップであって、前記特徴領域のエッジピクセルポイントと、前記特徴領域以外の隣接するピクセルポイントとの階調値の差分が予め設定された閾値より大きいステップと、
各特徴領域に対して、前記１フレーム前の画像における特徴領域の第１の位置情報及びオプティカルフロートラッキングアルゴリズムに基づいて、前記現在フレーム画像における前記特徴領域の第２の位置情報を決定するステップと、
ＰＮＰアルゴリズムに基づいて、前記少なくとも１つの特徴領域の、前記１フレーム前の画像における第１の位置情報及び前記現在フレーム画像における第２の位置情報を最適化して、前記１フレーム前の画像を収集する時と前記現在フレーム画像を収集する時の画像収集装置の並進ベクトルを得るステップ、を実行するように構成される、
請求項２１に記載の電子機器。
コンピュータ記憶媒体であって、
前記コンピュータ記憶媒体には、実行可能な命令が記憶されており、前記実行可能な命令は実行時に、
収集したビデオ内の現在フレーム画像を訓練済みの畳み込みニューラルネットワークに入力して、前記現在フレーム画像に対応する初期深度画像を得るステップと、
前記現在フレーム画像に対応する姿勢オフセット情報と前記現在フレーム画像の１フレーム前の画像に基づいて、前記現在フレーム画像に対応する予測深度画像を決定するステップであって、前記現在フレームのフレーム画像に対応する姿勢オフセット情報は、画像収集装置が前記１フレーム前の画像を収集することと、前記画像収集装置が前記現在フレーム画像を収集することとの間に発生した姿勢オフセットを示すために使用されるステップと、
同じ位置にあるピクセルポイントの、前記初期深度画像における初期深度値と、前記同じ位置にあるピクセルポイントの、前記予測深度画像における予測深度値とを融合処理して、前記ピクセルポイントに対応するターゲット深度値を得るステップと、
前記現在フレーム画像内のピクセルポイントに対応するターゲット深度値に基づいて、前記現在フレーム画像に対応する深度画像を生成するステップと、を含む画像処理方法を実現する、
コンピュータ記憶媒体。