JP2023512272A - 画像処理方法及び装置 - Google Patents
画像処理方法及び装置 Download PDFInfo
- Publication number
- JP2023512272A JP2023512272A JP2022546492A JP2022546492A JP2023512272A JP 2023512272 A JP2023512272 A JP 2023512272A JP 2022546492 A JP2022546492 A JP 2022546492A JP 2022546492 A JP2022546492 A JP 2022546492A JP 2023512272 A JP2023512272 A JP 2023512272A
- Authority
- JP
- Japan
- Prior art keywords
- image
- pixel point
- depth value
- current frame
- frame image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 30
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 39
- 230000000644 propagated effect Effects 0.000 claims description 114
- 239000011159 matrix material Substances 0.000 claims description 22
- 238000000034 method Methods 0.000 claims description 21
- 238000012545 processing Methods 0.000 claims description 21
- 238000004422 calculation algorithm Methods 0.000 claims description 18
- 230000015654 memory Effects 0.000 claims description 16
- 230000004044 response Effects 0.000 claims description 16
- 230000004927 fusion Effects 0.000 claims description 14
- 238000013519 translation Methods 0.000 claims description 14
- 239000013598 vector Substances 0.000 claims description 12
- 230000003287 optical effect Effects 0.000 claims description 8
- 238000000605 extraction Methods 0.000 claims description 7
- 230000008859 change Effects 0.000 claims description 6
- 230000001131 transforming effect Effects 0.000 claims description 6
- 238000012986 modification Methods 0.000 abstract description 2
- 230000004048 modification Effects 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 10
- 238000005516 engineering process Methods 0.000 description 10
- 230000008569 process Effects 0.000 description 5
- 230000009466 transformation Effects 0.000 description 5
- 238000006243 chemical reaction Methods 0.000 description 4
- 238000003384 imaging method Methods 0.000 description 4
- 238000012549 training Methods 0.000 description 4
- 238000013500 data storage Methods 0.000 description 3
- 238000007499 fusion processing Methods 0.000 description 3
- 230000001133 acceleration Effects 0.000 description 2
- 230000003190 augmentative effect Effects 0.000 description 2
- 239000003086 colorant Substances 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/50—Depth or shape recovery
- G06T7/55—Depth or shape recovery from multiple images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/50—Depth or shape recovery
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T19/00—Manipulating 3D models or images for computer graphics
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T19/00—Manipulating 3D models or images for computer graphics
- G06T19/006—Mixed reality
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/90—Determination of colour characteristics
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20212—Image combination
- G06T2207/20221—Image fusion; Image merging
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Evolutionary Computation (AREA)
- Computational Linguistics (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Computer Graphics (AREA)
- Computer Hardware Design (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
本出願は、画像処理方法及び装置に関し、収集したビデオ内の画像の深度画像を取得するために使用される。本出願の実施例は、収集したビデオ内から現在フレーム画像に対応する初期深度画像を取得し、及び現在フレーム画像に対応する姿勢オフセット情報及び1フレーム前の画像に基づいて、現在フレーム画像に対応する予測深度画像を決定し、位置が同じであるピクセルポイントの初期深度値と予測深度値を融合処理して、ピクセルポイントに対応するターゲット深度値を得て、現在フレーム画像内のピクセルポイントに対応するターゲット深度値に基づいて、現在フレーム画像に対応する深度画像を生成する。本出願の実施例によって提供される画像処理方法は、1フレーム前の画像修正畳み込みニューラルネットワークによって出力された現在フレーム画像の深度画像に合わせて、フレーム間安定性のより高い深度画像を得ることができる。【選択図】図1
Description
関連出願の相互引用
本出願は、2020年4月27日に中国特許庁に提出された、出願番号が202010346467.7、発明名称が「画像処理方法、装置、電子機器及び記憶媒体」である中国特許の出願の優先権を主張し、その全内容は参照により本出願に組み込まれる。
本出願は、2020年4月27日に中国特許庁に提出された、出願番号が202010346467.7、発明名称が「画像処理方法、装置、電子機器及び記憶媒体」である中国特許の出願の優先権を主張し、その全内容は参照により本出願に組み込まれる。
本出願はコンピュータ技術分野に関し、特に画像処理方法及び装置に関する。
複合現実技術(MR)は拡張現実技術(AR)の更なる発展であり、当該技術は仮想環境に現実的なシーンの情報を導入することにより、仮想世界、現実世界及びユーザの間で、互いに対話してフィードバックし合う情報回路を構築し、これによってユーザーエクスペリエンスの臨場感を強化する。
MR技術の実現の過程で、仮想世界における仮想オブジェクトと現実世界の現実オブジェクトとの位置関係をよりよく処理するために、スマート端末が収集したビデオ内の各フレームの画像に対して深度推定を行って、密集している深度特徴を有する深度画像を取得する必要がある。
本出願は、収集したビデオ内の画像の深度画像を収集するための画像処理方法及び装置を提供する。本出願の技術案は以下のとおりである。
本出願の実施例の第1の態様によると、収集したビデオから現在フレーム画像を取得し、畳み込みニューラルネットワークに基づいて前記現在フレーム画像に対応する初期深度画像を得るステップと、前記現在フレーム画像に対応する姿勢オフセット情報と前記現在フレーム画像の1フレーム前の画像に基づいて、前記現在フレーム画像に対応する予測深度画像を決定するステップであって、前記姿勢オフセット情報が、画像収集装置によって収集された前記1フレーム前の画像と前記現在フレーム画像との間に発生した姿勢オフセットを示すために使用されるステップと、同じ位置にあるピクセルポイントの、前記初期深度画像における初期深度値と、前記同じ位置にあるピクセルポイントの、前記予測深度画像における予測深度値とを融合処理して、前記ピクセルポイントに対応するターゲット深度値を得るステップと、前記現在フレーム画像内のピクセルポイントに対応するターゲット深度値に基づいて、前記現在フレーム画像に対応する深度画像を生成するステップと、を含む画像処理方法を提供する。
本出願の実施例の第2の態様によると、本出願の実施例の第1の態様によると、収集したビデオから現在フレーム画像を取得し、畳み込みニューラルネットワークに基づいて前記現在フレーム画像に対応する初期深度画像を得るステップと、前記現在フレーム画像に対応する姿勢オフセット情報と前記現在フレーム画像の1フレーム前の画像に基づいて、前記現在フレーム画像に対応する予測深度画像を決定するステップであって、前記姿勢オフセット情報が、画像収集装置によって収集された前記1フレーム前の画像と前記現在フレーム画像との間に発生した姿勢オフセットを示すために使用されるステップと、を実行するように構成される決定モジュールと、同じ位置にあるピクセルポイントの、前記初期深度画像における初期深度値と、前記同じ位置にあるピクセルポイントの、前記予測深度画像における予測深度値とを融合処理して、前記ピクセルポイントに対応するターゲット深度値を得るステップを実行するように構成される融合モジュールと、前記現在フレーム画像内のピクセルポイントに対応するターゲット深度値に基づいて、前記現在フレーム画像に対応する深度画像を生成するステップを実行するように構成される生成モジュールと、を含む画像処理装置を提供する。
本出願の実施例の第3の態様によれば、電子機器を提供し、前記電気機器は、実行可能な命令を記憶するためのメモリと、本出願の実施例の第1の態様におけるいずれか一項に記載の画像処理方法を実現するように、前記メモリに記憶されている実行可能な命令を読み取り且つ実行するためのプロセッサと、を含む。
本出願の実施例の第4の態様によれば、不揮発性コンピュータ記憶媒体を提供し、前記記憶媒体内の命令が画像処理装置のプロセッサによって実行される時、画像処理装置は本出願の実施例の第1の態様に記載の画像処理方法を実行することができる。
当業者に本出願の技術案をよりよく理解させるために、以下は図面に合わせて、本出願の実施例における技術案を分かりやすく、完全に説明する。
以下、当業者の理解を助けるために、本出願の実施例における一部の用語を説明する。
(1)本出願の実施例における「複数」という用語は2つ又は2つ以上を指し、他の助数詞は同様である。
(2)本出願の実施例における「深度画像」という用語は、距離画像とも呼ばれ、画像収集装置からシーンにおける各点まで距離(深度)をピクセル値とする画像を指し、シーンの可視表面の幾何学的形状を直接反映する。
(3)本出願の実施例における「RGB画像」という用語は、普通のカラー画像であり、RGBは即ち赤、緑、青という3つのチャネルの色を表し、赤(R)、緑(G)、青(B)という3つの色のチャネルの変化及び3つの色のチャネルを重ね合わせることによって様々な色を得ることができる。
(4)本出願の実施例における「グレースケール画像」という用語は、各ピクセルポイントのピクセル値が階調値である画像を指す。
(5)本出願の実施例における「画像解像度」という用語は、画像に記憶される情報量を指し、1インチあたり画像内のピクセルポイントの数を指し、解像度の単位はPPI(Pixels Per Inch)であり、通常は1インチあたりのピクセル数という。画像解像度は通常、「水平方向のピクセル数×垂直方向のピクセル数」で表す。
(2)本出願の実施例における「深度画像」という用語は、距離画像とも呼ばれ、画像収集装置からシーンにおける各点まで距離(深度)をピクセル値とする画像を指し、シーンの可視表面の幾何学的形状を直接反映する。
(3)本出願の実施例における「RGB画像」という用語は、普通のカラー画像であり、RGBは即ち赤、緑、青という3つのチャネルの色を表し、赤(R)、緑(G)、青(B)という3つの色のチャネルの変化及び3つの色のチャネルを重ね合わせることによって様々な色を得ることができる。
(4)本出願の実施例における「グレースケール画像」という用語は、各ピクセルポイントのピクセル値が階調値である画像を指す。
(5)本出願の実施例における「画像解像度」という用語は、画像に記憶される情報量を指し、1インチあたり画像内のピクセルポイントの数を指し、解像度の単位はPPI(Pixels Per Inch)であり、通常は1インチあたりのピクセル数という。画像解像度は通常、「水平方向のピクセル数×垂直方向のピクセル数」で表す。
MR技術を実現する過程で、仮想世界における仮想オブジェクトと現実世界の現実オブジェクトとの位置関係をよりよく処理するために、画像収集装置によって収集された画像に対して深度推定を実行して、密集している深度特徴を有する深度画像を取得する必要がある。深度画像は距離画像とも呼ばれ、画像収集装置からシーンにおける各点まで距離(深度)をピクセル値とする画像を指し、シーンの可視表面の幾何学的形状を直接反映し、さらには、環境における画像収集装置自身の位置を決定し且つ周辺環境のモデルを確立する。
スマート端末の普及に伴い、スマート端末に対するユーザからの要求は高まる一方であり、スマート端末がAR技術、MR技術などを実現する前提は深度画像に基づいており、深度画像収集装置または両眼画像収集装置の原理に基づいて深度画像を生成するために、スマート端末にRGB-Dセンサまたはカメラなどのハードウェアを増設する必要があり、これはコスト及び消費電力を増やす。これに対して、機械学習は、ハードウェアを増設せず、訓練することで、深度画像を学習する能力を得ることを実現することができ、畳み込みニューラルネットワークは画像処理分野で幅広く適用されている。
本出願の実施例は画像処理方法を提供し、畳み込みニューラルネットワークによって出力される隣接する2フレームの画像に対応する深度画像の安定性を向上させる。
本出願の目的、技術案及び利点をより明確にするために、以下は図面に合わせて本出願をさらに詳しく説明し、明らかに、説明される実施例は本出願の一部の実施例に過ぎず、すべての実施例ではない。本出願における実施例に基づいて、当業者が創造的な労力なしに得た他のすべての実施例は、いずれも本出願の保護範囲に属している。
図1は、例示的な一実施例によって示される画像処理方法のフローチャートであり、図1に示すように、以下のステップS11~S14を含む。
S11では、収集したビデオから現在フレーム画像を取得し、畳み込みニューラルネットワークに基づいて現在フレーム画像に対応する初期深度画像を得る。
S12では、現在フレーム画像に対応する姿勢オフセット情報と現在フレーム画像の1フレーム前の画像に基づいて、現在フレーム画像に対応する予測深度画像を決定する。
姿勢オフセット情報は、画像収集装置によって収集される1フレーム前の画像と現在フレーム画像との間に発生した姿勢オフセットを表すために示される。
S13では、同じ位置にあるピクセルポイントの、初期深度画像における初期深度値と、前記同じ位置にあるピクセルポイントの、予測深度画像における予測深度値とを融合処理して、ピクセルポイントに対応するターゲット深度値を得る。
S14では、現在フレーム画像内のピクセルポイントに対応するターゲット深度値に基づいて、現在フレーム画像に対応する深度画像を生成する。
以上から分かるように、本出願の実施例によって開示された画像処理方法は、現在フレーム画像の初期深度画像と、1フレーム前の画像、及び画像収集装置が1フレーム前の画像を収集する時の姿勢オフセットによって決定される現在フレーム画像に対応する予測深度画像とに基づいて、初期深度画像及び予測深度画像内の同じ位置にあるピクセルポイントの初期深度値及び予測深度値を融合処理して、ピクセルポイントに対応するターゲット深度値を得て、現在フレーム画像内の各ピクセルポイントに対応するターゲット深度値に基づいて現在フレーム画像に対応する深度画像を生成する。本出願の実施例によって提供される画像処理方法は、現在フレーム画像に対応する予測深度画像に基づいて、畳み込みニューラルネットワークによって出力された現在フレーム画像の初期深度画像を修正することができ、本出願の実施例では、現在フレーム画像に対応する予測深度画像は、1フレーム前の画像及び位置オフセット情報によって決定されるので、初期深度値及び予測深度値に基づいてターゲット深度値を決定する時、隣接する2フレームの画像の関連性を考慮し、ターゲット深度値に基づいて生成された深度画像内のピクセルポイントの深度値はより安定的であり、これによって隣接する2フレームの画像の深度画像内の対応する点の深度値の変動を減少させ、1フレーム前の画像に合わせて、畳み込みニューラルネットワークによって出力された現在フレーム画像の深度画像を修正して、フレーム間の安定性のより高い深度画像を得る。
いくつかの実施例では、適用シーンは図2に示すような概略図であってもよい。端末装置21内に画像収集装置が取り付けられ、ユーザ20は端末装置21の画像収集装置に基づいてビデオを収集した時、いくつかの実施例では、画像収集装置は収集したビデオ内の現在フレーム画像、及び現在フレーム画像に対応する姿勢オフセット情報をサーバ22に送信する。サーバ22は現在フレーム画像を訓練済みの畳み込みニューラルネットワークに入力して現在フレーム画像に対応する初期深度画像を得て、現在フレーム画像に対応する位姿情報及び現在フレーム画像の1フレーム前の画像に基づいて、現在フレーム画像に対応する予測深度画像を決定し、且つ同じ位置にあるピクセルポイントの、初期深度画像における初期深度値及び予測深度画像における予測深度値を融合処理して、ピクセルポイントに対応するターゲット深度値を得て、そして、各ピクセルポイントに対応するターゲット深度値に基づいて、現在フレーム画像に対応する深度画像を生成し、サーバ22は現在フレーム画像に対応する深度画像を端末装置21内の画像収集装置に送信し、画像収集装置は、現在フレーム画像に対応する深度画像に基づいて、現在フレーム画像に対応するオリジナルRGB画像に対してレンタリングなどの処理を行った後にユーザ20に表示する。
なお、上記適用シーンでは、現在フレーム画像の1フレーム前の画像は、すでにサーバ22に記憶されているものであってもよく、または画像収集装置は現在フレーム画像に対応する姿勢オフセット情報をサーバ22に送信するとともに1フレーム前の画像をサーバ22に送信してもよい。上記適用シーンは単なる例示的なものであり、本出願の実施例の保護範囲を限定するものではない。
本出願の実施例によって開示される画像処理方法では、まず、現在フレーム画像に対応する初期深度画像を決定する必要がある。通常、AR技術、MR技術はリアルタイムに収集したビデオを処理するものであるため、処理対象の画像は、収集したビデオの現在フレーム画像である。
いくつかの実施例では、現在フレーム画像を訓練済みの畳み込みニューラルネットワークに入力して、訓練済みの畳み込みニューラルネットワークによって出力される現在フレーム画像に対応する初期深度画像を得る。
いくつかの実施例では、前記畳み込みニューラルネットワークは、大量のRGB画像及びRGB画像内の各ピクセルポイントに対応する深度値に基づいて訓練して得られたものであり、RGB画像及びRGB画像内の各ピクセルポイントに対応する深度値で構成される行列を畳み込みニューラルネットワークの入力とし、RGB画像に対応する深度画像を畳み込みニューラルネットワークの出力とし、畳み込みニューラルネットワークを訓練し、畳み込みニューラルネットワークモデル収束後、畳み込みニューラルネットワーク訓練が完了したと決定し、訓練完了の畳み込みニューラルネットワークは、RGB画像に基づいて深度画像を決定する能力を備える。
いくつかの実施例では、現在フレーム画像を訓練済みの畳み込みニューラルネットワークに入力すると、訓練済みの畳み込みニューラルネットワークは現在フレーム画像のピクセル特徴に基づいて現在フレーム画像における各ピクセルポイントの初期深度値を算出し、各ピクセルポイントの深度値を初期深度画像のピクセル値とし、現在フレーム画像に対応する初期深度画像を生成する。
本出願の実施例では、1フレーム前の画像と現在フレーム画像との関連性を考慮して、1フレーム前の画像、及び画像収集装置によって収集された1フレーム前の画像と現在フレーム画像との間に発生した姿勢オフセット情報に基づいて、1フレーム前の画像の対応する深度画像を利用して現在フレーム画像に対して深度推定を行って、現在フレーム画像に対応する予測深度画像を生成する。さらには、現在フレーム画像に対応する初期深度画像と予測深度画像との融合により、1フレーム前の画像の対応するポイントに対応する現在フレーム画像の深度値の変動を軽減する。
本出願の実施例では、姿勢オフセット情報は回転行列及び並進ベクトルを含み、本出願の実施例は、
1フレーム前の画像を収集する時の画像収集装置の第1のIMUパラメータ値、及び現在フレーム画像を収集する時の画像収集装置の第2のIMUパラメータ値に基づいて、1フレーム前の画像と現在フレーム画像を収集する時の画像収集装置の回転行列を決定する、
という以上の方式により、1フレーム前の画像と現在フレーム画像を収集する時の画像収集装置の回転行列を決定する。
1フレーム前の画像を収集する時の画像収集装置の第1のIMUパラメータ値、及び現在フレーム画像を収集する時の画像収集装置の第2のIMUパラメータ値に基づいて、1フレーム前の画像と現在フレーム画像を収集する時の画像収集装置の回転行列を決定する、
という以上の方式により、1フレーム前の画像と現在フレーム画像を収集する時の画像収集装置の回転行列を決定する。
いくつかの実施例では、慣性計測ユニットIMUは、画像収集装置の3軸姿勢角及び加速度を測定する装置であり、物体の三次元空間における角速度及び加速度を測定し、画像収集装置の姿勢を決定することができる。画像収集装置は各フレームの画像を収集する時に、画像収集装置が各フレームの画像を収集する時の世界座標系の3つの座標軸との夾角を示すIMU示度が生じ、画像収集装置が1フレーム前の画像を収集する時のIMU示度を読み取ることで、第1のIMUパラメータ値を決定し、及び画像収集装置が現在フレーム画像を収集する時のIMU示度を読み取ることで、第2のIMUパラメータ値を決定し、第1のIMUパラメータ値及び第2のIMUパラメータ値に基づいて、画像収集装置と世界座標系の3つの座標軸との夾角の変化、即ち3つの自由度における画像収集装置の回転状況を決定することができ、且つ行列で表して、画像収集装置の回転行列を決定する。実施では、回転行列は1つの3次正方行列であり、Rで表す。
本出願の実施例は、GFTT特徴抽出アルゴリズムに基づいて、1フレーム前の画像から少なくとも1つの特徴領域を決定し、各特徴領域に対して、1フレーム前の画像における特徴領域の第1の位置情報及びオプティカルフロートラッキングアルゴリズムに基づいて、現在フレーム画像における特徴領域の第2の位置情報を決定し、PNPアルゴリズムに基づいて、少なくとも1つの特徴領域の、1フレーム前の画像における第1の位置情報及び現在フレーム画像における第2の位置情報を最適化処理して、1フレーム前の画像と現在フレーム画像を収集する時の画像収集装置の並進ベクトルを得る。
特徴領域のエッジピクセルポイントと、特徴領域以外の隣接するピクセルポイントの階調値との差分は予め設定された閾値より大きい。
いくつかの実施例では、特徴領域のエッジピクセルポイントと、隣接するピクセルポイントの階調値との差分は大きく、GFTT特徴点抽出技術を通して、1フレーム前の画像から少なくとも1つの特徴領域の第1の位置情報を決定し、及び各特徴領域に対して、1フレーム前の画像における当該特徴領域の第1の位置情報を決定し、オプティカルフロートラッキングアルゴリズムを通して、現在フレーム画像における当該特徴領域の第2の位置情報を決定し、PNPアルゴリズムに基づいて、すべての特徴領域の第1の位置情報と第2の位置情報を最適化処理し、画像収集装置の並進ベクトルを得る。
いくつかの実施例では、GFTT特徴点抽出技術を通して1フレーム前の画像から少なくとも1つの特徴点を抽出することができ、図3に示すように、A、B、Cは決定された3つの特徴領域であり、1フレーム前の画像における少なくとも1つの特徴領域の第1の位置情報を決定し、且つ特徴領域に対してオプティカルフロートラッキングを行い、現在フレーム画像における少なくとも1つの特徴領域の第2の位置情報を決定し、ここで、1フレーム前の画像に対応する深度画像及び現在フレーム画像に対応する初期深度画像内の特徴領域の深度値、そして第1の位置情報及び第2の位置情報に合わせて、画像収集装置が画像を収集する時のその世界座標における左右位置情報、上下位置情報及び前後位置情報を決定することができる。さらに、PNPアルゴリズムを用いて、特徴領域の第1の位置情報、第2の位置情報を最適化処理し、1フレーム前の画像と現在フレーム画像を収集する時の画像収集装置の並進情報を決定し、且つ行列で表し、画像収集装置に対応する並進ベクトルを決定し、実施では、並進ベクトルは3行1列の1つのベクトルであり、Tで表す。
現在フレーム画像の姿勢オフセット情報を決定した後、1フレーム前の画像及び現在フレーム画像の姿勢オフセット情報に基づいて現在フレーム画像に対応する予測深度画像を決定する。
いくつかの実施例では、1フレーム前の画像内のいずれか1つのピクセルポイントに対して、画像収集装置の内部パラメータに基づいて、1フレーム前の画像におけるピクセルポイントのピクセル座標を第1の空間座標に変換し、姿勢オフセット情報に基づいて、第1の空間座標を第2の空間座標に変換し、第2の空間座標に変換された後のピクセル座標が予め設定された範囲内にあることに基づいて、ピクセルポイントを現在フレーム画像内の伝播ピクセルポイントとし、第2の空間座標に基づいて伝播ピクセルポイントの予測深度値を決定し、予め設定された深度値を、現在フレーム画像内の伝播ピクセルポイント以外の新規ピクセルポイントの予測深度値とし、伝播ピクセルポイントの予測深度値と新規ピクセルポイントの予測深度値に基づいて現在フレーム画像に対応する予測深度画像を決定する。
いくつかの実施例では、1フレーム前の画像内のいずれか1つのピクセルポイントのピクセル座標に対して、画像収集装置の内部パラメータ及び姿勢オフセット情報に基づいて、1フレーム前の画像におけるピクセルポイントのピクセル座標を、当該ピクセルポイントの、画像収集装置によって姿勢オフセットが発生した後のピクセル座標に変換する。当該ピクセル座標が予め設定された範囲内にあることに応答して、このピクセルポイントは、現在フレーム画像の伝播ピクセルポイントであり、当該ピクセルポイントに対応する実物点が、画像収集装置が1フレーム前の画像を収集する時の結像範囲内にあるだけではなく、画像収集装置が現在フレーム画像を収集する時の結像範囲内にもあることを表す。当該ピクセル座標が予め設定された範囲内にないことに応答して、このピクセルポイントに対応する実物点が、画像収集装置による姿勢オフセットの過程で画像収集装置の結像範囲外に移動したことを表す。現在フレーム画像では、伝播ピクセルポイント以外のピクセルポイントはいずれも新規ピクセルポイントである。第2の空間座標に基づいて伝播ピクセルポイントの予測深度値を決定し、予め設定された深度値を新規ピクセルポイントの予測深度値とし、現在フレーム画像に対応する予測深度画像を生成する。
予め設定された範囲は現在フレーム画像ピクセル座標の範囲であり、画像の解像度によって決定される。画像の解像度は、画像横縦両方向におけるピクセルポイントの数で表すことができ、例えば、画像の解像度は640*480であり、予め設定された範囲は、図4に示すように、座標(0、0)(640、0)(0、480)(640、480)で囲まれる矩形である。
伝播ピクセルポイントと新規ピクセルポイントを決定する時、1フレーム前の画像内のいずれか1つのピクセルポイントに対して、1フレーム前の画像における当該ピクセルポイントのピクセル座標に対応する第1の空間座標を決定し、第1の空間座標及び姿勢オフセット情報に基づいて、第1の空間座標の変換後の第2の空間座標を決定し、且つ第2の空間座標に変換された後のピクセル座標を決定し、1フレーム前の画像における各ピクセルポイントのピクセル座標は、上記変換後のピクセル座標で構成される領域を通過し、予め設定された範囲で構成される領域と重なる領域は、即ち現在フレーム画像内の伝播ピクセルポイントで構成される領域である。現在フレーム画像では、伝播ピクセルポイント以外のピクセルポイントで構成される領域は、いずれも現在フレーム画像の新規ピクセルポイントで構成される領域である。図5に示すのは、本出願の実施例によって提供される現在フレーム画像内の伝播ピクセルポイント領域及び新規ピクセルポイント領域の概略図であり、1フレーム前の画像内の各ピクセルポイントのピクセル座標が変換された後のピクセル座標で構成される領域及び予め設定された範囲は図5に示すとおりであり、ここで、領域Aは現在フレーム画像における伝播ピクセルポイント領域であり、領域Bは現在フレーム画像内の新規ピクセルポイント領域である。
いくつかの実施例では、1フレーム前の画像内のいずれか1つのピクセルポイントに対して、画像収集装置の内部パラメータに基づいて、1フレーム前の画像におけるピクセルポイントのピクセル座標を第1の空間座標に変換し、姿勢オフセット情報に基づいて、第1の空間座標を第2の空間座標に変換する。
いくつかの実施例では、画像収集装置の内部パラメータは、焦点距離、主点、傾斜係数、歪み係数等を含み、内部パラメータに基づいて画像収集装置の内部参照行列Kを決定し、内参行列Kは1つの3次正方行列であり、例えば、内部参照行列Kは式(1)に示すとおりである。
fx、fyは焦点距離であり、一般的に両者が等しく、cx、cyは主点座標(結像平面に対して)であり、sは座標軸傾斜パラメータであり、理想的には0である。
(u、v)は1フレーム前の画像におけるピクセルポイントの位置を表し、(X、Y、Z)はピクセルポイントに対応する第1の空間座標を表し、当該ピクセルポイントに対応する実物点の空間座標系における位置を表し、Zの値は、1フレーム前の画像に対応する深度画像における当該ピクセルポイントの深度値に等しい。
Rは回転行列であり、Tは並進行列であり、(X’Y’Z’)はピクセルポイントの第2の空間座標である。画像収集装置が姿勢変換された後、当該ピクセルポイントに対応する実物点が空間座標系における位置を表す。
第2の空間座標に基づいて伝播ピクセルポイントの予測深度値を決定する時、Z’の値は伝播ピクセルポイントの予測深度値である。
(u’、v’)はピクセルポイントの、第2の空間座標に変換された後のピクセル座標を表すとともに、伝播ピクセルポイントの現在フレームにおける位置を表す。
予測深度画像を生成する時、いくつかの実施例では、第2の空間座標に変換された後のピクセル座標に基づいて、現在フレーム画像内における伝播ピクセルポイントの位置を決定し、現在フレーム画像内の、伝播ピクセルポイントが所在する位置以外の他の位置を、現在フレーム画像内の新規ピクセルポイントの位置とし、現在フレーム画像内における伝播ピクセルポイントの位置、伝播ピクセルポイントの予測深度値、現在画像内における新規ピクセルポイントの位置、及び新規ピクセルポイントの予測深度値に基づいて、現在フレーム画像に対応する予測深度画像を生成する。
いくつかの実施例では、式(4)に基づいて現在フレーム画像内における各伝播ピクセルポイントの位置(u’、v’)を決定することができる。現在フレーム画像内の伝播ピクセルポイントの所在位置以外の他の位置はいずれも新規ピクセルポイントの所在位置である。即ち図5に示すように、領域Aの位置は、現在フレーム画像内における伝播ピクセルポイント領域の位置であり、領域Bの位置は、現在フレーム画像内における新規ピクセルポイント領域の位置である。
式(3)に基づいて伝播ピクセルポイントの予測深度値Z’を決定することができる。予め設定された深度値を現在フレーム画像内の新規ピクセルポイントの予測深度値とし、実施では、予め設定された深度値は0であってもよい。新規ピクセルポイントの予測深度値を予め設定された深度値とする理由を以下の実施例で具体的に説明する。
現在フレーム画像内における伝播ピクセルポイントの位置を決定し、伝播ピクセルポイントの予測深度値を伝播ピクセルポイント位置におけるピクセル値とする。現在フレーム画像における新規ピクセルポイントの位置を決定し、新規ピクセルポイントの予測深度値を新規ピクセルポイント位置におけるピクセル値とし、現在フレーム画像に対応する予測深度画像を生成する。
現在フレーム画像に対応する予測深度画像は、画像収集装置と同じ姿勢オフセットを有する1フレーム前の画像によって決定されたものであり、そのため、理論的には、同じ位置にあるピクセルポイントに対応する予測深度値と初期深度値とは等しいはずだが、畳み込みニューラルネットワークによって出力された初期深度画像内のピクセルポイントの初期深度値については隣接する両フレームの画像の関連性を考慮していないため、予測深度値と初期深度とが等しくない場合を引き起こす可能性がある。本出願の実施例は、同じ位置にあるピクセルポイントの初期深度画像における初期深度値と、当該ピクセルポイントの予測深度画像における予測深度値とを融合処理して、隣接する両フレームの画像の関連性が考慮されているターゲット深度値を得て、ターゲット深度値によって生成された深度画像は、畳み込みニューラルネットワークによって出力された初期深度画像ピクセルポイントの深度値と比べてより安定的である。
いくつかの実施例では、同じ位置にあるピクセルポイントの初期深度値、ピクセルポイントの予測深度値、初期深度値に対応する第1の重み、予測深度値に対応する第2の重みに基づいて、ピクセルポイントに対応するターゲット深度値を決定する。
いくつかの実施例では、初期深度値に第1の重みを付け、予測深度値に第2の重みを付け、重みを通して初期深度値と予測深度値を融合処理して、ターゲット深度値を得る。
いくつかの実施例では、初期深度値及び予測深度値を融合処理するステップは、初期深度値に対応する第1の重み及び予測深度値に対応する第2の重みに基づいて、初期深度値及び予測深度値に対して加重平均演算を行って、ターゲット深度値を得るものであってもよい。例えば、式(5)に示す式に基づいて初期深度値及び予測深度値を融合処理する。
D1は、現在フレーム画像に対応する初期深度画像におけるピクセルポイントの初期深度値であり、D2は、現在フレーム画像に対応する予測深度画像におけるピクセルポイントの予測深度値であり、U1は、ピクセルポイントの初期深度値に対応する第1の重みであり、U2は、ピクセルポイントの予測深度値に対応する第2の重みである。
なお、本出願の実施例における「融合処理」は「加重平均演算」を含むだけではなく、当業者がよく知っている初期深度値及び予測深度値に対する融合処理演算方法も本出願の実施例の保護範囲内に含まれる。
ターゲット深度値を決定する前に、まずピクセルポイントの初期深度値に対応する第1の重み、及びピクセルポイントの予測深度値に対応する第2の重みを決定する必要がある。
いくつかの実施例では、本出願の実施例は、
初期深度値と予測深度値との差分に基づいてピクセルポイントに対応する初期伝播不確定性パラメータを決定し、初期深度値と予測深度値との差分に基づいて、初期伝播不確定性パラメータを調整するための調整係数を決定し、調整係数、及び初期深度値と予測深度値との比に基づいて初期伝播不確定性パラメータを調整し、初期深度値に対応する第1の重みを決定する、
という以上の方式により初期深度値に対応する第1の重みを決定する。
初期深度値と予測深度値との差分に基づいてピクセルポイントに対応する初期伝播不確定性パラメータを決定し、初期深度値と予測深度値との差分に基づいて、初期伝播不確定性パラメータを調整するための調整係数を決定し、調整係数、及び初期深度値と予測深度値との比に基づいて初期伝播不確定性パラメータを調整し、初期深度値に対応する第1の重みを決定する、
という以上の方式により初期深度値に対応する第1の重みを決定する。
いくつかの実施例では、まず、初期深度値と予測深度値との差分に基づいてピクセルポイントに対応する初期伝播不確定性パラメータを決定し、ピクセルポイントに対応する初期伝播不確定性パラメータを決定する決定式は式(6)に示すとおりである。
d’は、初期深度値と予測深度値との差分であり、D1は、初期深度値であり、D2は、予測深度値であり、uは、初期伝播不確定性パラメータである。
σは調整係数であり、d’は初期深度値と予測深度値との差分であり、式における他のパラメータは、二次曲線を選択した後に大量のサンプルを用いて実験でフィッティングして得ることができ、実際の必要に応じて調整することができ、本出願の実施例は他のパラメータの具体的な数値を限定しない。二次曲線の一般式は式(8)に示すとおりである。
以上から分かるように、初期深度値と予測深度値との差分が大きいほど、初期伝播不確定性パラメータは大きく、調整係数は大きい。
さらには、調整係数、及び初期深度値と予測深度値との比に基づいて初期伝播不確定性パラメータを調整し、初期深度値に対応する第1の重みを決定し、初期伝播不確定性パラメータを調整して第1の重みを決定する式は式(9)に示すとおりである。
以上から分かるように、調整後の初期伝播不確定性パラメータを初期深度値に対応する第1の重みとする時に、初期伝播不確定性パラメータが大きいほど、調整係数が大きく、調整後の初期伝播不確定性パラメータが大きく、即ち第1の重みが大きい。初期深度値及び予測深度値を融合処理する時、初期深度値に対応する第1の重みが大きいほど、決定されたターゲット深度値は初期深度値に近い。つまり、ピクセルポイントの初期深度値と予測深度値との差分が大きい時、当該ピクセルポイントに対応する実物点が画像収集装置の所在する環境における動的オブジェクトにある点または境界点である可能性が高いと決定することができ、動的オブジェクトにある点または境界点に対して、ターゲット深度値が初期深度値に近くなるように、融合条件を緩めるべきである。ターゲット深度値が、1フレーム前の画像によって決定される予測深度値に近いことに応答して、動的オブジェクトの遅延現象を引き起こす可能性がある。
本出願の実施例は、動的オブジェクトにある点のターゲット深度値を決定する効果を向上させることができる。
いくつかの実施例では、本出願の実施例は、
ピクセルポイントが伝播ピクセルポイントであることに応答して、伝播ピクセルポイントの予測深度値に対応する第2の重みが、伝播ピクセルポイントに対応する1フレーム前の画像内のピクセルポイントの伝播不確定性パラメータであると決定し、またはピクセルポイントが新規ピクセルポイントであることに応答して、新規ピクセルポイントの予測深度値に対応する第2の重みを第1のプリセット値として決定する、
という以上の方式によって初期深度値に対応する第2の重みを決定する。
ピクセルポイントが伝播ピクセルポイントであることに応答して、伝播ピクセルポイントの予測深度値に対応する第2の重みが、伝播ピクセルポイントに対応する1フレーム前の画像内のピクセルポイントの伝播不確定性パラメータであると決定し、またはピクセルポイントが新規ピクセルポイントであることに応答して、新規ピクセルポイントの予測深度値に対応する第2の重みを第1のプリセット値として決定する、
という以上の方式によって初期深度値に対応する第2の重みを決定する。
伝播不確定パラメータは、伝播ピクセルポイントと、対応する1フレーム前の画像内のピクセルポイントとの間の深度値の変化の度合いを示すために使用される。
いくつかの実施例では、伝播ピクセルポイント及び新規ピクセルポイントに対して、予測深度値に対応する第2の重みを決定する方法が異なり、以下、第2の重みを決定する2種類の方式をそれぞれ説明する。
一、伝播ピクセルポイントに対して、1フレーム前の画像内のピクセルポイントの伝播不確定性パラメータを伝播ピクセルポイントの予測深度値とする。
伝播不確定性パラメータは、画像収集装置の姿勢が変化する過程で、伝播ピクセルポイントと、対応する1フレーム前の画像内のピクセルポイントとの深度値の変化の度合いを示すために使用される。いくつかの実施例では、各フレームの画像に対応する深度画像を決定した後、各フレームの画像内のピクセルポイントの伝播不確定性パラメータを決定する必要がある。
現在フレーム画像内の伝播ピクセルポイントに対して、第2の重みは、1フレーム前の画像における当該ピクセルポイントの伝播不確定性パラメータによって決定される。
当該ピクセルポイントに対応する、1フレーム前の画像内のピクセルポイントが伝播ピクセルポイントであることに対して、1フレーム前の画像内の当該ピクセルポイントの初期深度値に対応する第1の重み及び予測深度値に対応する第2の重みに基づいて、1フレーム前の画像における当該ピクセルポイントの伝播不確定性パラメータを決定し、現在フレーム画像における当該ピクセルポイントの予測深度値に対応する第2の重みを伝播不確定性パラメータとして決定する。
1フレーム前の画像内の対応するピクセルポイントが新規ピクセルポイントであることに応答して、1フレーム前の画像における当該ピクセルポイントの伝播不確定性パラメータを決定し、例えば、プリセット値は-1である。現在フレーム画像内の伝播ピクセルポイントに対応する、1フレーム前の画像内のピクセルポイントの伝播不確定性パラメータが-1であると判断した場合、現在フレーム画像内の伝播ピクセルポイントの第1の重みを当該ピクセルポイントに対応する第2の重みとし、式(5)から分かるように、第2の重みは第1の重みに等しく設定され、当該伝播ピクセルポイントの予測深度値及び初期深度値に対して平均演算を行い、予測深度値と初期深度値との平均値をターゲット深度値とすることに相当する。
二、新規ピクセルポイントに対して、新規ピクセルポイントの予測深度値に対応する第2の重みを第1のプリセット値として決定する。
いくつかの実施例では、新規ピクセルポイントの予測深度値に対応する第2の重みはプリセット値であってもよく、例えば、プリセット値は任意の値であってもよい。
ここで、新規ピクセルポイントの予測深度値を0に設定する理由を具体的に説明する。新規ピクセルポイントは、1フレーム前の画像内のピクセルポイントに対して画像収集装置の姿勢が変化する過程で新しく追加されたものであり、そのため、1フレーム前の画像と現在フレーム画像との関連性に基づいて予測してはならず、したがって、新規ピクセルポイントのターゲット深度値を初期深度値に等しいものとするべきである。これにより、新規ピクセルポイントの予測深度値を0に設定する場合、新規ピクセルポイントの予測深度値に対応する第2の重みは任意の値であり、式(5)から分かるように、ターゲット深度値は初期深度値に等しい。
現在フレームピクセルポイントの初期深度値、初期深度値に対応する第1の重み、予測深度値、予測深度値に対応する第2の重みを決定した後、予測深度値及び初期深度値を融合処理して、ターゲット深度値を得て、さらにターゲット深度値に基づいて現在フレーム画像に対応する深度画像を生成する。
また、本出願の実施例は現在フレーム画像に対応する深度画像を生成した後にも、現在フレーム画像に対応する伝播不確定性画像を生成し、伝播不確定性画像のピクセル値は現在フレーム画像内のピクセルポイントの伝播不確定性パラメータである。
いくつかの実施例では、伝播ピクセルポイントの初期深度値に対応する第1の重み及び伝播ピクセルポイントの予測深度値に対応する第2の重みの積と、伝播ピクセルポイントの初期深度値に対応する第1の重み及び伝播ピクセルポイントの予測深度値に対応する第2の重みの和と、の比を、伝播ピクセルポイントの伝播不確定性パラメータとする。
いくつかの実施例では、現在フレーム画像内の伝播ピクセルポイントは、伝播ピクセルポイントの初期深度値に対応する第1の重みと予測深度値に対応する第2の重みによって決定され、実施では、式(10)に基づいて伝播ピクセルポイントに対応する伝播不確定性パラメータを決定する。
Cは、伝播ピクセルポイントの伝播不確定性パラメータであり、U1はピクセルポイントの初期深度値に対応する第1の重みであり、U2はピクセルポイントの予測深度値に対応する第2の重みである。
なお、現在フレーム画像内の新規ピクセルポイントに対して、新規ピクセルポイントの伝播不確定性パラメータを第2のプリセット値として決定し、例えば、プリセット値は-1である。
いくつかの実施例では、現在フレーム画像内の伝播ピクセルポイントに対応する、1フレーム前の画像内のピクセルポイントの伝播不確定性パラメータが-1であることに応答して、現在フレーム画像内の伝播ピクセルポイントに対応する、1フレーム前の画像内のピクセルポイントが、1フレーム前の画像の新規ピクセルポイントであることが証明され、これにより、現在フレーム画像内の当該ポイントの伝播不確定性パラメータを決定する時、予測深度値に対応する第2の重みU2を、初期深度値に対応する第1の重みU1に等しい値に設定し、式(10)から分かるように、当該ポイントの伝播不確定性パラメータCはU1の半分である。
静的オブジェクトに対応する画像内のピクセルポイントは、画像収集装置の姿勢変換過程で、伝播不確定性パラメータが0に近づく。
また、現在フレーム画像が画像収集装置によって収集されたビデオの最初のフレームであることに応答して、1フレーム前の画像が存在しないため、現在フレーム画像に対応する姿勢オフセット情報及び1フレーム前の画像に基づいて、現在フレーム画像に対応する予測深度画像を決定することができない。
本出願の実施例は、ビデオの最初のフレームの画像に対応する深度画像を生成する方法を提供し、現在フレーム画像が画像収集装置によって収集されたビデオの最初のフレームであることに応答して、
現在フレーム画像を訓練済みの畳み込みニューラルネットワーク内に入力して、訓練済みの畳み込みニューラルネットワークによって出力された現在フレーム画像に対応する深度画像を取得する、
という以上の方式により現在フレーム画像に対応する深度画像を生成する。
現在フレーム画像を訓練済みの畳み込みニューラルネットワーク内に入力して、訓練済みの畳み込みニューラルネットワークによって出力された現在フレーム画像に対応する深度画像を取得する、
という以上の方式により現在フレーム画像に対応する深度画像を生成する。
なお、畳み込みニューラルネットワークを呼び出す前に、大量のRGB画像及びRGB画像内の各ピクセルポイントに対応する深度値に基づいて畳み込みニューラルネットワークを訓練する必要があり、RGB画像及びRGB画像内の各ピクセルポイントに対応する深度値で構成される行列を畳み込みニューラルネットワークの入力とし、RGB画像に対応する深度画像を畳み込みニューラルネットワークの出力として、畳み込みニューラルネットワークを訓練し、畳み込みニューラルネットワークモデルが収束された後、畳み込みニューラルネットワークが訓練完了したと決定し、訓練完了した畳み込みニューラルネットワークは、RGB画像に基づいて深度画像を決定する能力を備える。
いくつかの実施例では、ビデオの最初のフレームの画像を訓練済みの畳み込みニューラルネットワークに入力して、訓練済みの畳み込みニューラルネットワークは、最初のフレームの画像のピクセル特徴に基づいて、最初のフレームの画像における各ピクセルポイントの深度値を算出し、各ピクセルポイントの深度値を最初のフレームの画像に対応する深度画像のピクセル値として、最初のフレームの画像に対応する深度画像を生成する。
本出願の実施例では、画像処理装置がさらに提供され、当該装置に対応するのは、本出願の実施例の画像処理方法に対応する装置であり、且つ当該装置が課題を解決する原理は当該方法と似ており、したがって、当該装置の実施は方法の実施を参照されたく、重なった内容を省略する。
図6は、例示的な一実施例によって示される画像処理装置のブロック図である。図6を参照すると、当該装置は決定モジュール600、融合モジュール601、生成モジュール602を含む。
決定モジュール600は、収集したビデオから現在フレーム画像を取得するステップと、畳み込みニューラルネットワークに基づいて現在フレーム画像に対応する初期深度画像を得るステップと、
現在フレーム画像に対応する姿勢オフセット情報と現在フレーム画像の1フレーム前の画像に基づいて、現在フレーム画像に対応する予測深度画像を決定するステップであって、姿勢オフセット情報が、画像収集装置によって収集された1フレーム前の画像と現在フレーム画像との間に発生した姿勢オフセットを示すために使用されるステップと、を実行するように構成される。
現在フレーム画像に対応する姿勢オフセット情報と現在フレーム画像の1フレーム前の画像に基づいて、現在フレーム画像に対応する予測深度画像を決定するステップであって、姿勢オフセット情報が、画像収集装置によって収集された1フレーム前の画像と現在フレーム画像との間に発生した姿勢オフセットを示すために使用されるステップと、を実行するように構成される。
融合モジュール601は、同じ位置にあるピクセルポイントの、初期深度画像における初期深度値と、前記同じ位置にあるピクセルポイントの、予測深度画像における予測深度値とを融合処理して、ピクセルポイントに対応するターゲット深度値を得るステップを実行するように構成される。
生成モジュール602は、現在フレーム画像内のピクセルポイントに対応するターゲット深度値に基づいて、現在フレーム画像に対応する深度画像を生成するステップを実行するように構成される。
1つの可能な実現形態では、決定モジュール600は具体的に、
1フレーム前の画像内のいずれか1つのピクセルポイントに対して、画像収集装置の内部パラメータに基づいて、1フレーム前の画像におけるピクセルポイントのピクセル座標を第1の空間座標に変換し、姿勢オフセット情報に基づいて、第1の空間座標を第2の空間座標に変換するステップと、
第2の空間座標に変換された後のピクセル座標が予め設定された範囲内にあることに基づいて、ピクセルポイントを現在フレーム画像内の伝播ピクセルポイントとし、第2の空間座標に基づいて伝播ピクセルポイントの予測深度値を決定するステップと、
予め設定された深度値を、現在フレーム画像内の伝播ピクセルポイント以外の新規ピクセルポイントの予測深度値とするステップと、
伝播ピクセルポイントの予測深度値と新規ピクセルポイントの予測深度値に基づいて現在フレーム画像に対応する予測深度画像を決定するステップと、を実行するように構成される。
1フレーム前の画像内のいずれか1つのピクセルポイントに対して、画像収集装置の内部パラメータに基づいて、1フレーム前の画像におけるピクセルポイントのピクセル座標を第1の空間座標に変換し、姿勢オフセット情報に基づいて、第1の空間座標を第2の空間座標に変換するステップと、
第2の空間座標に変換された後のピクセル座標が予め設定された範囲内にあることに基づいて、ピクセルポイントを現在フレーム画像内の伝播ピクセルポイントとし、第2の空間座標に基づいて伝播ピクセルポイントの予測深度値を決定するステップと、
予め設定された深度値を、現在フレーム画像内の伝播ピクセルポイント以外の新規ピクセルポイントの予測深度値とするステップと、
伝播ピクセルポイントの予測深度値と新規ピクセルポイントの予測深度値に基づいて現在フレーム画像に対応する予測深度画像を決定するステップと、を実行するように構成される。
1つの可能な実現形態では、決定モジュール600は具体的に、
第2の空間座標に変換された後のピクセル座標に基づいて、現在フレーム画像内における伝播ピクセルポイントの位置を決定し、現在フレーム画像内の、伝播ピクセルポイントが所在する位置以外の他の位置を、現在フレーム画像内の新規ピクセルポイントの位置とするステップと、
現在フレーム画像内における伝播ピクセルポイントの位置、伝播ピクセルポイントの予測深度値、及び現在画像内における新規ピクセルポイントの位置、新規ピクセルポイントの予測深度値に基づいて、現在フレーム画像に対応する予測深度画像を生成するステップと、を実行するように構成される。
第2の空間座標に変換された後のピクセル座標に基づいて、現在フレーム画像内における伝播ピクセルポイントの位置を決定し、現在フレーム画像内の、伝播ピクセルポイントが所在する位置以外の他の位置を、現在フレーム画像内の新規ピクセルポイントの位置とするステップと、
現在フレーム画像内における伝播ピクセルポイントの位置、伝播ピクセルポイントの予測深度値、及び現在画像内における新規ピクセルポイントの位置、新規ピクセルポイントの予測深度値に基づいて、現在フレーム画像に対応する予測深度画像を生成するステップと、を実行するように構成される。
1つの可能な実現形態では、融合モジュール601はさらに、
同じ位置にあるピクセルポイントの初期深度値、ピクセルポイントの予測深度値、初期深度値に対応する第1の重み、及び予測深度値に対応する第2の重みに基づいて、ピクセルポイントに対応するターゲット深度値を決定するステップを実行するように構成される。
同じ位置にあるピクセルポイントの初期深度値、ピクセルポイントの予測深度値、初期深度値に対応する第1の重み、及び予測深度値に対応する第2の重みに基づいて、ピクセルポイントに対応するターゲット深度値を決定するステップを実行するように構成される。
1つの可能な実現形態では、融合モジュール601はさらに、
初期深度値と予測深度値との差分に基づいてピクセルポイントに対応する初期伝播不確定性パラメータを決定するステップと、初期深度値と予測深度値との差分に基づいて、初期伝播不確定性パラメータを調整するための調整係数を決定するステップと、
調整係数、及び初期深度値と予測深度値との比に基づいて初期伝播不確定性パラメータを調整し、初期深度値に対応する第1の重みを決定するステップと、を実行するように構成される。
初期深度値と予測深度値との差分に基づいてピクセルポイントに対応する初期伝播不確定性パラメータを決定するステップと、初期深度値と予測深度値との差分に基づいて、初期伝播不確定性パラメータを調整するための調整係数を決定するステップと、
調整係数、及び初期深度値と予測深度値との比に基づいて初期伝播不確定性パラメータを調整し、初期深度値に対応する第1の重みを決定するステップと、を実行するように構成される。
1つの可能な実現形態では、融合モジュール601はさらに、
ピクセルポイントが伝播ピクセルポイントであることに応答して、伝播ピクセルポイントの予測深度値に対応する第2の重みが、伝播ピクセルポイントに対応する1フレーム前の画像内のピクセルポイントの伝播不確定性パラメータであると決定するステップであって、伝播不確定パラメータが、伝播ピクセルポイントと、対応する1フレーム前の画像内のピクセルポイントとの間の深度値の変化の度合いを示すために使用されるステップ、または、
ピクセルポイントが新規ピクセルポイントであることに応答して、新規ピクセルポイントの予測深度値に対応する第2の重みを第1のプリセット値をとして決定するステップ、を実行するように構成される。
ピクセルポイントが伝播ピクセルポイントであることに応答して、伝播ピクセルポイントの予測深度値に対応する第2の重みが、伝播ピクセルポイントに対応する1フレーム前の画像内のピクセルポイントの伝播不確定性パラメータであると決定するステップであって、伝播不確定パラメータが、伝播ピクセルポイントと、対応する1フレーム前の画像内のピクセルポイントとの間の深度値の変化の度合いを示すために使用されるステップ、または、
ピクセルポイントが新規ピクセルポイントであることに応答して、新規ピクセルポイントの予測深度値に対応する第2の重みを第1のプリセット値をとして決定するステップ、を実行するように構成される。
1つの可能な実現形態では、融合モジュール601はさらに、
各フレームの画像内の伝播ピクセルポイントに対して、伝播ピクセルポイントの初期深度値に対応する第1の重み、及び伝播ピクセルポイントの予測深度値に対応する第2の重みに基づいて、伝播ピクセルポイントの伝播不確定性パラメータを決定するステップ、又は、
各フレームの画像内の新規ピクセルポイントに対して、新規ピクセルポイントの伝播不確定性パラメータを第2のプリセット値として決定するステップ、を実行するように構成される。
各フレームの画像内の伝播ピクセルポイントに対して、伝播ピクセルポイントの初期深度値に対応する第1の重み、及び伝播ピクセルポイントの予測深度値に対応する第2の重みに基づいて、伝播ピクセルポイントの伝播不確定性パラメータを決定するステップ、又は、
各フレームの画像内の新規ピクセルポイントに対して、新規ピクセルポイントの伝播不確定性パラメータを第2のプリセット値として決定するステップ、を実行するように構成される。
1つの可能な実現形態では、融合モジュール601は具体的に、
伝播ピクセルポイントの初期深度値に対応する第1の重み及び伝播ピクセルポイントの予測深度値に対応する第2の重みの積と、伝播ピクセルポイントの初期深度値に対応する第1の重み及び伝播ピクセルポイントの予測深度値に対応する第2の重みの和と、の比を、伝播ピクセルポイントの伝播不確定性パラメータとするステップを実行するように構成される。
伝播ピクセルポイントの初期深度値に対応する第1の重み及び伝播ピクセルポイントの予測深度値に対応する第2の重みの積と、伝播ピクセルポイントの初期深度値に対応する第1の重み及び伝播ピクセルポイントの予測深度値に対応する第2の重みの和と、の比を、伝播ピクセルポイントの伝播不確定性パラメータとするステップを実行するように構成される。
1つの可能な実現形態では、姿勢オフセット情報は回転行列を含み、
決定モジュール600は具体的に、
1フレーム前の画像を収集する時の画像収集装置の第1のIMUパラメータ値、及び現在フレーム画像を収集する時の画像収集装置の第2のIMUパラメータ値に基づいて、1フレーム前の画像と現在フレーム画像を収集する時の画像収集装置の回転行列を決定する、
という以上の方式に基づいて、1フレーム前の画像を収集する時と現在フレーム画像を収集する時との画像収集装置の姿勢オフセット情報を決定するステップを実行するように構成される。
決定モジュール600は具体的に、
1フレーム前の画像を収集する時の画像収集装置の第1のIMUパラメータ値、及び現在フレーム画像を収集する時の画像収集装置の第2のIMUパラメータ値に基づいて、1フレーム前の画像と現在フレーム画像を収集する時の画像収集装置の回転行列を決定する、
という以上の方式に基づいて、1フレーム前の画像を収集する時と現在フレーム画像を収集する時との画像収集装置の姿勢オフセット情報を決定するステップを実行するように構成される。
1つの可能な実現形態では、姿勢オフセット情報は並進ベクトルを含み、
決定モジュール600は具体的に、
GFTT特徴抽出アルゴリズムに基づいて、1フレーム前の画像から少なくとも1つの特徴領域を決定するステップであって、特徴領域のエッジピクセルポイントと、特徴領域以外の隣接するピクセルポイントとの階調値の差分が予め設定された閾値より大きいステップと、
各特徴領域に対して、1フレーム前の画像における特徴領域の第1の位置情報及びオプティカルフロートラッキングアルゴリズムに基づいて、現在フレーム画像における特徴領域の第2の位置情報を決定するステップと、
PNPアルゴリズムに基づいて、少なくとも1つの特徴領域の、1フレーム前の画像における第1の位置情報及び現在フレーム画像における第2の位置情報を最適化処理して、1フレーム前の画像と現在フレーム画像を収集する時の画像収集装置の並進ベクトルを得るするステップと、を実行するように構成される。
決定モジュール600は具体的に、
GFTT特徴抽出アルゴリズムに基づいて、1フレーム前の画像から少なくとも1つの特徴領域を決定するステップであって、特徴領域のエッジピクセルポイントと、特徴領域以外の隣接するピクセルポイントとの階調値の差分が予め設定された閾値より大きいステップと、
各特徴領域に対して、1フレーム前の画像における特徴領域の第1の位置情報及びオプティカルフロートラッキングアルゴリズムに基づいて、現在フレーム画像における特徴領域の第2の位置情報を決定するステップと、
PNPアルゴリズムに基づいて、少なくとも1つの特徴領域の、1フレーム前の画像における第1の位置情報及び現在フレーム画像における第2の位置情報を最適化処理して、1フレーム前の画像と現在フレーム画像を収集する時の画像収集装置の並進ベクトルを得るするステップと、を実行するように構成される。
上記実施例における装置について、その内部の各ユニットが要求を実行する具体的な方式は、当該方法に関連する実施例で詳しく説明しており、ここで詳しい説明を省略する。
図7は、例示的な一実施例によって示される電子機器700のブロック図である。当該電子機器は、少なくとも1つのプロセッサ710、及び少なくとも1つのメモリ720を含むことができる。
メモリ720にプログラムコードが記憶されている。メモリ720は主にプログラム記憶領域及びデータ記憶領域を含むことができ、プログラム記憶領域はオペレーティングシステムと、及びインスタントメッセージング機能の実施に必要なプログラムなどを記憶することができ、データ記憶領域は様々なインスタントメッセージング情報及び操作コマンド集などを記憶することができる。
メモリ720は、ランダムアクセスメモリ(random-access memory、RAM)のような揮発性メモリ(volatile memory)であってもよいし、リードオンリーメモリ、フラッシュメモリ(flash memory)、ハードディスク(hard disk drive、HDD)またはソリッドステートドライブ(solid-state drive、SSD)のような不揮発性メモリ(non-volatile memory)であってもよいし、命令またはデータ構造形式を有する所望のプログラムコードを搬送または記憶でき且つコンピュータにアクセス可能な他の任意の媒体であってもよいが、これらに限定されない。メモリ720は上記メモリの組み合せであってもよい。
プロセッサ710は、1つまたは複数の中央処理装置(central processing unit、CPU)を含むことができ、またはデジタル処理などであってもよい。プロセッサ710はメモリ720に記憶されているプログラムコードを呼び出す際に上記本出願の様々な例示的な実施形態の画像処理方法のステップを実行する。
示例性の実施例では、命令を含む不揮発性コンピュータ記憶媒体をさらに提供し、例えば命令を含むメモリ720を提供する。上記命令は、上記方法を完成するように、電子機器700のプロセッサ710で実行することができる。いくつかの実施例では、記憶媒体は非一時的コンピュータ読み取り可能な記憶媒体であってもよく、例えば、非一時的コンピュータ読み取り可能な記憶媒体はROM、ランダムアクセスメモリ(RAM)、CD-ROM、磁気テープ、フロッピーディスク及び光データストレージデバイスなどであってもよい。
本出願の実施例はコンピュータプログラム製品をさらに提供し、コンピュータプログラム製品が電子機器で実行される時、電子機器は、本出願の実施例の上記いずれか1つの画像処理方法またはいずれか1つの画像処理方法の実現に関連し得るいずれか1つの方法を実施する。
当業者は明細書を考慮し且つここでの出願した発明を実施した後、本出願の他の実施形態を容易に想到し得る。本出願は、本出願のあらゆる変形、用途または適応的変化をカバーしようとしており、これらの変形、用途または適応的変化は本出願の一般原則に従い、且つ本出願の開示されていない本技術分野の技術常識や慣用されている技術手段を含むべきである。明細書及び実施例は単なる例示的なものとして見なされ、本出願の真の範囲及び精神は以下の特許請求の範囲によって指摘される。
なお、本出願は以上説明され且つ図面に示されている正確な構造に限らず、その範囲から逸脱しない限り、様々な修正と変更が可能であることを理解されたい。本出願の範囲は添付の特許請求の範囲のみによって限定される。
Claims (31)
- 画像処理方法であって、
収集したビデオから現在フレーム画像を取得するステップと、
畳み込みニューラルネットワークに基づいて前記現在フレーム画像に対応する初期深度画像を得るステップと、
前記現在フレーム画像に対応する姿勢オフセット情報と前記現在フレーム画像の1フレーム前の画像に基づいて、前記現在フレーム画像に対応する予測深度画像を決定するステップであって、前記姿勢オフセット情報が、画像収集装置によって収集された前記1フレーム前の画像と前記現在フレーム画像との間に発生した姿勢オフセットを示すために使用されるステップと、
同じ位置にあるピクセルポイントの、前記初期深度画像における初期深度値と、前記同じ位置にあるピクセルポイントの、前記予測深度画像における予測深度値とを融合処理して、前記ピクセルポイントに対応するターゲット深度値を得るステップと、
前記現在フレーム画像内のピクセルポイントに対応するターゲット深度値に基づいて、前記現在フレーム画像に対応する深度画像を生成するステップと、を含む、
画像処理方法。 - 前記姿勢オフセット情報と前記現在フレーム画像の1フレーム前の画像に基づいて、前記現在フレーム画像に対応する予測深度画像を決定するステップは、
前記1フレーム前の画像内のいずれか1つのピクセルポイントに対して、前記画像収集装置の内部パラメータに基づいて、前記1フレーム前の画像における前記ピクセルポイントのピクセル座標を第1の空間座標に変換するステップと、
前記姿勢オフセット情報に基づいて、前記第1の空間座標を第2の空間座標に変換するステップと、
前記第2の空間座標に変換された後のピクセル座標が予め設定された範囲内にあることに基づいて、前記ピクセルポイントを前記現在フレーム画像内の伝播ピクセルポイントとし、前記第2の空間座標に基づいて前記伝播ピクセルポイントの予測深度値を決定するステップと、
予め設定された深度値を、前記現在フレーム画像内の伝播ピクセルポイント以外の新規ピクセルポイントの予測深度値とするステップと、
前記伝播ピクセルポイントの予測深度値と前記新規ピクセルポイントの予測深度値に基づいて前記現在フレーム画像に対応する予測深度画像を決定するステップと、を含む、
請求項1に記載の画像処理方法。 - 前記伝播ピクセルポイントの予測深度値と前記新規ピクセルポイントの予測深度値に基づいて前記現在フレーム画像に対応する予測深度画像を決定するステップは、
前記第2の空間座標に変換された後のピクセル座標に基づいて、前記現在フレーム画像内における前記伝播ピクセルポイントの位置を決定し、前記現在フレーム画像内の、伝播ピクセルポイントが所在する位置以外の他の位置を、前記現在フレーム画像内の前記新規ピクセルポイントの位置とするステップと、
前記現在フレーム画像内における前記伝播ピクセルポイントの位置、前記伝播ピクセルポイントの予測深度値、前記現在画像内における前記新規ピクセルポイントの位置、及び前記新規ピクセルポイントの予測深度値に基づいて、前記現在フレーム画像に対応する予測深度画像を生成するステップと、を含む、
請求項2に記載の画像処理方法。 - 同じ位置にあるピクセルポイントの、前記初期深度画像における初期深度値と、前記同じ位置にあるピクセルポイントの、前記予測深度画像における予測深度値とを融合処理して、前記ピクセルポイントに対応するターゲット深度値を得るステップは、
同じ位置にあるピクセルポイントの初期深度値、前記ピクセルポイントの予測深度値、前記初期深度値に対応する第1の重み、及び前記予測深度値に対応する第2の重みに基づいて、前記ピクセルポイントに対応するターゲット深度値を決定するステップを含む、
請求項2に記載の画像処理方法。 - 前記初期深度値と前記予測深度値との差分に基づいて前記ピクセルポイントに対応する初期伝播不確定性パラメータを決定するステップと、
前記初期深度値と前記予測深度値との差分に基づいて、前記初期伝播不確定性パラメータを調整するための調整係数を決定するステップと、
前記調整係数、及び前記初期深度値と前記予測深度値との比に基づいて前記初期伝播不確定性パラメータを調整し、前記初期深度値に対応する第1の重みを決定するステップと、をさらに含む、
請求項4に記載の画像処理方法。 - 前記ピクセルポイントが伝播ピクセルポイントであることに応答して、前記伝播ピクセルポイントの予測深度値に対応する第2の重みが、前記伝播ピクセルポイントに対応する前記1フレーム前の画像内のピクセルポイントの伝播不確定性パラメータであると決定するステップであって、前記伝播不確定パラメータが、前記伝播ピクセルポイントと、対応する前記1フレーム前の画像内のピクセルポイントとの間の深度値の変化の度合いを示すために使用されるステップ、又は、
前記ピクセルポイントが新規ピクセルポイントであることに応答して、前記新規ピクセルポイントの予測深度値に対応する第2の重みを第1のプリセット値として決定するステップ、をさらに含む、
請求項4に記載の画像処理方法、 - 各フレームの画像内の伝播ピクセルポイントに対して、前記伝播ピクセルポイントの初期深度値に対応する第1の重み、及び前記伝播ピクセルポイントの予測深度値に対応する第2の重みに基づいて、前記伝播ピクセルポイントの伝播不確定性パラメータを決定するステップ、又は、
各フレームの画像内の新規ピクセルポイントに対して、前記新規ピクセルポイントの伝播不確定性パラメータを第2のプリセット値として決定するステップ、をさらに含む、
請求項6に記載の画像処理方法。 - 前記伝播ピクセルポイントの初期深度値に対応する第1の重み、及び前記伝播ピクセルポイントの予測深度値に対応する第2の重みに基づいて、前記伝播ピクセルポイントの伝播不確定性パラメータを決定するステップは、
前記伝播ピクセルポイントの初期深度値に対応する第1の重み及び前記伝播ピクセルポイントの予測深度値に対応する第2の重みの積と、前記伝播ピクセルポイントの初期深度値に対応する第1の重み及び前記伝播ピクセルポイントの予測深度値に対応する第2の重みの和と、の比を、前記伝播ピクセルポイントの伝播不確定性パラメータとする、
請求項7に記載の画像処理方法。 - 前記姿勢オフセット情報は回転行列を含み、
前記1フレーム前の画像を収集する時の前記画像収集装置の第1のIMUパラメータ値、及び前記現在フレーム画像を収集する時の前記画像収集装置の第2のIMUパラメータ値に基づいて、前記1フレーム前の画像と前記現在フレーム画像を収集する時の画像収集装置の回転行列を決定する、
請求項1に記載の画像処理方法。 - 前記姿勢オフセット情報は並進ベクトルを含み、
GFTT特徴抽出アルゴリズムに基づいて前記1フレーム前の画像から少なくとも1つの特徴領域を決定し、前記特徴領域のエッジピクセルポイントと、前記特徴領域以外の隣接するピクセルポイントとの階調値の差分が予め設定された閾値より大きく、
各特徴領域に対して、前記1フレーム前の画像における特徴領域の第1の位置情報及びオプティカルフロートラッキングアルゴリズムに基づいて、前記現在フレーム画像における前記特徴領域の第2の位置情報を決定し、
PNPアルゴリズムに基づいて、前記少なくとも1つの特徴領域の、前記1フレーム前の画像における第1の位置情報及び前記現在フレーム画像における第2の位置情報を最適化して、前記1フレーム前の画像を収集する時と前記現在フレーム画像を収集する時の画像収集装置の並進ベクトルを得る、
請求項1に記載の画像処理方法。 - 画像処理装置であって、
収集したビデオから現在フレーム画像を取得するステップと、畳み込みニューラルネットワークに基づいて前記現在フレーム画像に対応する初期深度画像を得るステップと、前記現在フレーム画像に対応する姿勢オフセット情報と前記現在フレーム画像の1フレーム前の画像に基づいて、前記現在フレーム画像に対応する予測深度画像を決定するステップであって、前記姿勢オフセット情報が、画像収集装置によって収集された前記1フレーム前の画像と前記現在フレーム画像との間に発生した姿勢オフセットを示すために使用されるステップと、を実行するように構成される決定モジュールと、
同じ位置にあるピクセルポイントの、前記初期深度画像における初期深度値と、前記同じ位置にあるピクセルポイントの、前記予測深度画像における予測深度値とを融合処理して、前記ピクセルポイントに対応するターゲット深度値を得るステップを実行するように構成される融合モジュールと、
前記現在フレーム画像内のピクセルポイントに対応するターゲット深度値に基づいて、前記現在フレーム画像に対応する深度画像を生成するステップを実行するように構成される生成モジュールと、を含む、
画像処理装置。 - 前記決定モジュールは、
前記1フレーム前の画像内のいずれか1つのピクセルポイントに対して、前記画像収集装置の内部パラメータに基づいて、前記1フレーム前の画像における前記ピクセルポイントのピクセル座標を第1の空間座標に変換し、前記姿勢オフセット情報に基づいて、前記第1の空間座標を第2の空間座標に変換するステップと、
前記第2の空間座標に変換された後のピクセル座標が予め設定された範囲内にあることに基づいて、前記ピクセルポイントを前記現在フレーム画像内の伝播ピクセルポイントとし、前記第2の空間座標に基づいて前記伝播ピクセルポイントの予測深度値を決定するステップと、
予め設定された深度値を、前記現在フレーム画像内の伝播ピクセルポイント以外の新規ピクセルポイントの予測深度値とするステップと、
前記伝播ピクセルポイントの予測深度値と前記新規ピクセルポイントの予測深度値に基づいて前記現在フレーム画像に対応する予測深度画像を決定するステップと、を実行するように構成される、
請求項11に記載の画像処理装置。 - 前記決定モジュールは、
前記第2の空間座標に変換された後のピクセル座標に基づいて、前記現在フレーム画像内における前記伝播ピクセルポイントの位置を決定し、前記現在フレーム画像内の、伝播ピクセルポイントが所在する位置以外の他の位置を、前記現在フレーム画像内の前記新規ピクセルポイントの位置とするステップと、
前記現在フレーム画像内における前記伝播ピクセルポイントの位置、前記伝播ピクセルポイントの予測深度値、及び前記現在画像内における前記新規ピクセルポイントの位置、前記新規ピクセルポイントの予測深度値に基づいて、前記現在フレーム画像に対応する予測深度画像を生成するステップと、を実行するように構成される、
請求項12に記載の画像処理装置。 - 前記融合モジュールは、
同じ位置にあるピクセルポイントの初期深度値、前記ピクセルポイントの予測深度値、前記初期深度値に対応する第1の重み、及び前記予測深度値に対応する第2の重みに基づいて、前記ピクセルポイントに対応するターゲット深度値を決定するステップを実行するように構成される、
請求項12に記載の画像処理装置。 - 前記融合モジュールはさらに、
前記初期深度値と前記予測深度値との差分に基づいて前記ピクセルポイントに対応する初期伝播不確定性パラメータを決定するステップと、
前記初期深度値と前記予測深度値との差分に基づいて、前記初期伝播不確定性パラメータを調整するための調整係数を決定するステップと、
前記調整係数、及び前記初期深度値と前記予測深度値との比に基づいて前記初期伝播不確定性パラメータを調整し、前記初期深度値に対応する第1の重みを決定するステップと、を実行するように構成される、
請求項14に記載の画像処理装置。 - 前記融合モジュールはさらに、
前記ピクセルポイントが伝播ピクセルポイントであることに応答して、前記伝播ピクセルポイントの予測深度値に対応する第2の重みが、前記伝播ピクセルポイントに対応する前記1フレーム前の画像内のピクセルポイントの伝播不確定性パラメータであると決定するステップであって、前記伝播不確定パラメータが、前記伝播ピクセルポイントと、対応する前記1フレーム前の画像内のピクセルポイントとの間の深度値の変化の度合いを示すために使用されるステップ、又は、
前記ピクセルポイントが新規ピクセルポイントであることに応答して、前記新規ピクセルポイントの予測深度値に対応する第2の重みを第1のプリセット値として決定するステップ、を実行するように構成される、
請求項14に記載の画像処理装置。 - 前記融合モジュールはさらに、
各フレームの画像内の伝播ピクセルポイントに対して、前記伝播ピクセルポイントの初期深度値に対応する第1の重み、及び前記伝播ピクセルポイントの予測深度値に対応する第2の重みに基づいて、前記伝播ピクセルポイントの伝播不確定性パラメータを決定するステップ、又は、
各フレームの画像内の新規ピクセルポイントに対して、前記新規ピクセルポイントの伝播不確定性パラメータを第2のプリセット値として決定するステップ、を実行するように構成される、
請求項16に記載の画像処理装置。 - 前記融合モジュールは、
前記伝播ピクセルポイントの初期深度値に対応する第1の重み及び前記伝播ピクセルポイントの予測深度値に対応する第2の重みの積と、前記伝播ピクセルポイントの初期深度値に対応する第1の重み及び前記伝播ピクセルポイントの予測深度値に対応する第2の重みの和と、の比を、前記伝播ピクセルポイントの伝播不確定性パラメータとするステップを実行するように構成される、
請求項17に記載の画像処理装置。 - 前記姿勢オフセット情報は回転行列を含み、
前記決定モジュールは、
前記1フレーム前の画像を収集する時の前記画像収集装置の第1のIMUパラメータ値、及び前記現在フレーム画像を収集する時の前記画像収集装置の第2のIMUパラメータ値に基づいて、前記1フレーム前の画像と前記現在フレーム画像を収集する時の画像収集装置の回転行列を決定する、
という以上の方式に基づいて、1フレーム前の画像を収集する時と現在フレーム画像を収集する時との画像収集装置の姿勢オフセット情報を決定するステップを実行するように構成される、
請求項11に記載の画像処理装置。 - 前記姿勢オフセット情報は並進ベクトルを含み、
前記決定モジュールは、
GFTT特徴抽出アルゴリズムに基づいて前記1フレーム前の画像から少なくとも1つの特徴領域を決定するステップであって、前記特徴領域のエッジピクセルポイントと、前記特徴領域以外の隣接するピクセルポイントとの階調値の差分が予め設定された閾値より大きいステップと、
各特徴領域に対して、前記1フレーム前の画像における特徴領域の第1の位置情報及びオプティカルフロートラッキングアルゴリズムに基づいて、前記現在フレーム画像における前記特徴領域の第2の位置情報を決定するステップと、
PNPアルゴリズムに基づいて、前記少なくとも1つの特徴領域の、前記1フレーム前の画像における第1の位置情報及び前記現在フレーム画像における第2の位置情報を最適化して、前記1フレーム前の画像を収集する時と前記現在フレーム画像を収集する時の画像収集装置の並進ベクトルを得るステップと、を実行するように構成される、
請求項11に記載の画像処理装置。 - 電子機器であって、
プロセッサと、
実行可能な命令を記憶するためのメモリと、を含み、
前記プロセッサは、前記実行可能な命令を実行して、
収集したビデオから現在フレーム画像を取得するステップと、
畳み込みニューラルネットワークに基づいて前記現在フレーム画像に対応する初期深度画像を得るステップと、
前記現在フレーム画像に対応する姿勢オフセット情報と前記現在フレーム画像の1フレーム前の画像に基づいて、前記現在フレーム画像に対応する予測深度画像を決定するステップであって、前記姿勢オフセット情報が、画像収集装置によって収集された前記1フレーム前の画像と前記現在フレーム画像との間に発生した姿勢オフセットを示すために使用されるステップと、
同じ位置にあるピクセルポイントの、前記初期深度画像における初期深度値と、前記同じ位置にあるピクセルポイントの、前記予測深度画像における予測深度値とを融合処理して、前記ピクセルポイントに対応するターゲット深度値を得るステップと、
前記現在フレーム画像内のピクセルポイントに対応するターゲット深度値に基づいて、前記現在フレーム画像に対応する深度画像を生成するステップと、を実現するように構成される、
電子機器。 - 前記プロセッサは、
前記1フレーム前の画像内のいずれか1つのピクセルポイントに対して、前記画像収集装置の内部パラメータに基づいて、前記1フレーム前の画像における前記ピクセルポイントのピクセル座標を第1の空間座標に変換し、前記姿勢オフセット情報に基づいて、前記第1の空間座標を第2の空間座標に変換するステップと、
前記第2の空間座標に変換された後のピクセル座標が予め設定された範囲内にあることに基づいて、前記ピクセルポイントを前記現在フレーム画像内の伝播ピクセルポイントとし、前記第2の空間座標に基づいて前記伝播ピクセルポイントの予測深度値を決定するステップと、
予め設定された深度値を、前記現在フレーム画像内の伝播ピクセルポイント以外の新規ピクセルポイントの予測深度値とするステップと、
前記伝播ピクセルポイントの予測深度値と前記新規ピクセルポイントの予測深度値に基づいて前記現在フレーム画像に対応する予測深度画像を決定するステップと、を実行するように構成される、
請求項21に記載の電子機器。 - 前記プロセッサは、
前記第2の空間座標に変換された後のピクセル座標に基づいて、前記現在フレーム画像内における前記伝播ピクセルポイントの位置を決定し、前記現在フレーム画像内の、伝播ピクセルポイントが所在する位置以外の他の位置を、前記現在フレーム画像内の前記新規ピクセルポイントの位置とするステップと、
前記現在フレーム画像内における前記伝播ピクセルポイントの位置、前記伝播ピクセルポイントの予測深度値、前記現在画像内における前記新規ピクセルポイントの位置、及び前記新規ピクセルポイントの予測深度値に基づいて、前記現在フレーム画像に対応する予測深度画像を生成するステップと、を実行するように構成される、
請求項22に記載の電子機器。 - 前記プロセッサは、
同じ位置にあるピクセルポイントの初期深度値、前記ピクセルポイントの予測深度値、前記初期深度値に対応する第1の重み、及び前記予測深度値に対応する第2の重みに基づいて、前記ピクセルポイントに対応するターゲット深度値を決定するステップを実行するように構成される、
請求項22に記載の電子機器。 - 前記プロセッサは、
前記初期深度値と前記予測深度値との差分に基づいて前記ピクセルポイントに対応する初期伝播不確定性パラメータを決定するステップと、
前記初期深度値と前記予測深度値との差分に基づいて、前記初期伝播不確定性パラメータを調整するための調整係数を決定するステップと、
前記調整係数、及び前記初期深度値と前記予測深度値との比に基づいて前記初期伝播不確定性パラメータを調整し、前記初期深度値に対応する第1の重みを決定するステップと、を実行するように構成される、
請求項24に記載の電子機器。 - 前記プロセッサは、
前記ピクセルポイントが伝播ピクセルポイントであることに応答して、前記伝播ピクセルポイントの予測深度値に対応する第2の重みが、前記伝播ピクセルポイントに対応する前記1フレーム前の画像内のピクセルポイントの伝播不確定性パラメータであると決定するステップであって、前記伝播不確定パラメータが、前記伝播ピクセルポイントと、対応する前記1フレーム前の画像内のピクセルポイントとの間の深度値の変化の度合いを示すために使用されるステップ、または、
前記ピクセルポイントが新規ピクセルポイントであることに応答して、前記新規ピクセルポイントの予測深度値に対応する第2の重みを第1のプリセット値として決定するステップ、を実行するように構成される、
請求項24に記載の電子機器。 - 前記プロセッサは、
各フレームの画像内の伝播ピクセルポイントに対して、前記伝播ピクセルポイントの初期深度値に対応する第1の重み、及び前記伝播ピクセルポイントの予測深度値に対応する第2の重みに基づいて、前記伝播ピクセルポイントの伝播不確定性パラメータを決定するステップ、又は、
各フレームの画像内の新規ピクセルポイントに対して、前記新規ピクセルポイントの伝播不確定性パラメータを第2のプリセット値として決定するステップ、を実行するように構成される、
請求項26に記載の電子機器。 - 前記プロセッサは、
前記伝播ピクセルポイントの初期深度値に対応する第1の重み及び前記伝播ピクセルポイントの予測深度値に対応する第2の重みの積と、前記伝播ピクセルポイントの初期深度値に対応する第1の重み及び前記伝播ピクセルポイントの予測深度値に対応する第2の重みの和と、の比を、前記伝播ピクセルポイントの伝播不確定性パラメータとするステップを実行するように構成される、
請求項27に記載の電子機器。 - 前記姿勢オフセット情報は回転行列を含み、
前記プロセッサは、
前記1フレーム前の画像を収集する時の前記画像収集装置の第1のIMUパラメータ値、及び前記現在フレーム画像を収集する時の前記画像収集装置の第2のIMUパラメータ値に基づいて、前記1フレーム前の画像と前記現在フレーム画像を収集する時の画像収集装置の回転行列を決定するステップを実行するように構成される、
請求項21に記載の電子機器。 - 前記姿勢オフセット情報は並進ベクトルを含み、
前記プロセッサは、
GFTT特徴抽出アルゴリズムに基づいて前記1フレーム前の画像から少なくとも1つの特徴領域を決定するステップであって、前記特徴領域のエッジピクセルポイントと、前記特徴領域以外の隣接するピクセルポイントとの階調値の差分が予め設定された閾値より大きいステップと、
各特徴領域に対して、前記1フレーム前の画像における特徴領域の第1の位置情報及びオプティカルフロートラッキングアルゴリズムに基づいて、前記現在フレーム画像における前記特徴領域の第2の位置情報を決定するステップと、
PNPアルゴリズムに基づいて、前記少なくとも1つの特徴領域の、前記1フレーム前の画像における第1の位置情報及び前記現在フレーム画像における第2の位置情報を最適化して、前記1フレーム前の画像を収集する時と前記現在フレーム画像を収集する時の画像収集装置の並進ベクトルを得るステップ、を実行するように構成される、
請求項21に記載の電子機器。 - コンピュータ記憶媒体であって、
前記コンピュータ記憶媒体には、実行可能な命令が記憶されており、前記実行可能な命令は実行時に、
収集したビデオ内の現在フレーム画像を訓練済みの畳み込みニューラルネットワークに入力して、前記現在フレーム画像に対応する初期深度画像を得るステップと、
前記現在フレーム画像に対応する姿勢オフセット情報と前記現在フレーム画像の1フレーム前の画像に基づいて、前記現在フレーム画像に対応する予測深度画像を決定するステップであって、前記現在フレームのフレーム画像に対応する姿勢オフセット情報は、画像収集装置が前記1フレーム前の画像を収集することと、前記画像収集装置が前記現在フレーム画像を収集することとの間に発生した姿勢オフセットを示すために使用されるステップと、
同じ位置にあるピクセルポイントの、前記初期深度画像における初期深度値と、前記同じ位置にあるピクセルポイントの、前記予測深度画像における予測深度値とを融合処理して、前記ピクセルポイントに対応するターゲット深度値を得るステップと、
前記現在フレーム画像内のピクセルポイントに対応するターゲット深度値に基づいて、前記現在フレーム画像に対応する深度画像を生成するステップと、を含む画像処理方法を実現する、
コンピュータ記憶媒体。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010346467.7 | 2020-04-27 | ||
CN202010346467.7A CN113643342B (zh) | 2020-04-27 | 2020-04-27 | 一种图像处理方法、装置、电子设备及存储介质 |
PCT/CN2020/139034 WO2021218201A1 (zh) | 2020-04-27 | 2020-12-24 | 一种图像处理方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2023512272A true JP2023512272A (ja) | 2023-03-24 |
Family
ID=78331734
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022546492A Pending JP2023512272A (ja) | 2020-04-27 | 2020-12-24 | 画像処理方法及び装置 |
Country Status (4)
Country | Link |
---|---|
US (1) | US20220414908A1 (ja) |
JP (1) | JP2023512272A (ja) |
CN (1) | CN113643342B (ja) |
WO (1) | WO2021218201A1 (ja) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114998403A (zh) * | 2022-06-13 | 2022-09-02 | 北京百度网讯科技有限公司 | 深度预测方法、装置、电子设备、介质 |
TWI832302B (zh) * | 2022-06-22 | 2024-02-11 | 鴻海精密工業股份有限公司 | 深度圖像獲取方法、電子設備及電腦可讀存儲媒體 |
CN115174774B (zh) * | 2022-06-29 | 2024-01-26 | 上海飞机制造有限公司 | 一种深度图像的压缩方法、装置、设备及存储介质 |
CN115829833B (zh) * | 2022-08-02 | 2024-04-26 | 爱芯元智半导体(上海)有限公司 | 一种图像生成方法及移动设备 |
CN117788542A (zh) * | 2022-09-22 | 2024-03-29 | 北京字跳网络技术有限公司 | 移动物体的深度估计方法、装置、电子设备及存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102598674A (zh) * | 2009-10-23 | 2012-07-18 | 高通股份有限公司 | 用于2d视频数据到3d视频数据的转换的深度图产生技术 |
CN108780577A (zh) * | 2017-11-30 | 2018-11-09 | 深圳市大疆创新科技有限公司 | 图像处理方法和设备 |
CN109903331A (zh) * | 2019-01-08 | 2019-06-18 | 杭州电子科技大学 | 一种基于rgb-d相机的卷积神经网络目标检测方法 |
JP2019530926A (ja) * | 2016-09-15 | 2019-10-24 | グーグル エルエルシー | イメージ深度予測ニューラルネットワーク |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106530322B (zh) * | 2016-11-25 | 2020-04-17 | 天津大学 | 抖动视频中目标跟踪的方法 |
CN110024399B (zh) * | 2016-11-28 | 2024-05-17 | 韩国电子通信研究院 | 对图像编码/解码的方法和设备及存储比特流的记录介质 |
CN107833270B (zh) * | 2017-09-28 | 2020-07-03 | 浙江大学 | 基于深度相机的实时物体三维重建方法 |
CN108510573B (zh) * | 2018-04-03 | 2021-07-30 | 南京大学 | 一种基于深度学习的多视点人脸三维模型重建的方法 |
CN108765481B (zh) * | 2018-05-25 | 2021-06-11 | 亮风台(上海)信息科技有限公司 | 一种单目视频的深度估计方法、装置、终端和存储介质 |
CN108898630B (zh) * | 2018-06-27 | 2020-12-15 | 清华-伯克利深圳学院筹备办公室 | 一种三维重建方法、装置、设备和存储介质 |
CN109993113B (zh) * | 2019-03-29 | 2023-05-02 | 东北大学 | 一种基于rgb-d和imu信息融合的位姿估计方法 |
CN110221690B (zh) * | 2019-05-13 | 2022-01-04 | Oppo广东移动通信有限公司 | 基于ar场景的手势交互方法及装置、存储介质、通信终端 |
CN110335316B (zh) * | 2019-06-28 | 2023-04-18 | Oppo广东移动通信有限公司 | 基于深度信息的位姿确定方法、装置、介质与电子设备 |
CN110874852A (zh) * | 2019-11-06 | 2020-03-10 | Oppo广东移动通信有限公司 | 深度图像的确定方法、图像处理器及存储介质 |
-
2020
- 2020-04-27 CN CN202010346467.7A patent/CN113643342B/zh active Active
- 2020-12-24 WO PCT/CN2020/139034 patent/WO2021218201A1/zh active Application Filing
- 2020-12-24 JP JP2022546492A patent/JP2023512272A/ja active Pending
-
2022
- 2022-08-29 US US17/822,923 patent/US20220414908A1/en active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102598674A (zh) * | 2009-10-23 | 2012-07-18 | 高通股份有限公司 | 用于2d视频数据到3d视频数据的转换的深度图产生技术 |
JP2019530926A (ja) * | 2016-09-15 | 2019-10-24 | グーグル エルエルシー | イメージ深度予測ニューラルネットワーク |
CN108780577A (zh) * | 2017-11-30 | 2018-11-09 | 深圳市大疆创新科技有限公司 | 图像处理方法和设备 |
CN109903331A (zh) * | 2019-01-08 | 2019-06-18 | 杭州电子科技大学 | 一种基于rgb-d相机的卷积神经网络目标检测方法 |
Also Published As
Publication number | Publication date |
---|---|
CN113643342A (zh) | 2021-11-12 |
US20220414908A1 (en) | 2022-12-29 |
CN113643342B (zh) | 2023-11-14 |
WO2021218201A1 (zh) | 2021-11-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2023512272A (ja) | 画像処理方法及び装置 | |
TWI709107B (zh) | 影像特徵提取方法及包含其顯著物體預測方法 | |
WO2020001168A1 (zh) | 三维重建方法、装置、设备和存储介质 | |
WO2019238114A1 (zh) | 动态模型三维重建方法、装置、设备和存储介质 | |
US11202051B2 (en) | System and method for distributing and rendering content as spherical video and 3D asset combination | |
KR20210095953A (ko) | 비디오 데이터 프로세싱 방법 및 관련 디바이스 | |
KR102141319B1 (ko) | 다시점 360도 영상의 초해상화 방법 및 영상처리장치 | |
WO2020048484A1 (zh) | 超分辨图像重建方法、装置、终端和存储介质 | |
CN115690382B (zh) | 深度学习模型的训练方法、生成全景图的方法和装置 | |
CN111813689B (zh) | 游戏测试方法、设备和介质 | |
CN111669564A (zh) | 图像重建方法、***、设备及计算机可读存储介质 | |
CN113469930B (zh) | 图像处理方法、装置、及计算机设备 | |
CN117730530A (zh) | 图像处理方法及装置、设备、存储介质 | |
US20220353484A1 (en) | Information processing apparatus, information processing method, and program | |
US20230005213A1 (en) | Imaging apparatus, imaging method, and program | |
JP6336856B2 (ja) | 多視点映像表現装置及びそのプログラム | |
JP2017215706A (ja) | 映像合成方法、映像取得装置、映像合成装置、映像合成システム及びコンピュータプログラム。 | |
CN114913245A (zh) | 一种基于无向有权图的多标定块多摄像头标定方法及*** | |
JP2019133214A (ja) | 画像表示装置、該装置を含む映像表示システム、画像表示方法および画像表示用プログラム | |
JP2014164497A (ja) | 画像処理装置、画像処理方法及びプログラム | |
CN109379577B (zh) | 一种虚拟视点的视频生成方法、装置及设备 | |
CN110913265A (zh) | 视频数据的缓冲调度方法及装置 | |
US20240185511A1 (en) | Information processing apparatus and information processing method | |
CN114764848A (zh) | 一种场景光照分布估计方法 | |
JP2023007802A (ja) | 撮影装置、撮影装置の制御方法及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220729 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220729 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230523 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20231212 |