JP7245574B2

JP7245574B2 - ３次元再構成方法、装置、システム及び記憶媒体

Info

Publication number: JP7245574B2
Application number: JP2022537293A
Authority: JP
Inventors: 立冬于
Original assignee: Uisee Technologies Zhejiang Ltd
Current assignee: Uisee Technologies Zhejiang Ltd
Priority date: 2019-12-20
Filing date: 2019-12-20
Publication date: 2023-03-24
Anticipated expiration: 2039-12-20
Also published as: EP4075389A4; KR20220113774A; US12026827B2; JP2022550639A; CN111133477A; EP4075389A1; US20230040550A1; KR102506701B1; CN111133477B; WO2021120175A1

Description

本発明は、コンピュータビジョンの技術分野に関し、より具体的には、３次元再構成方法、装置、システム及び記憶媒体に関するものである。

３次元再構成は、既知の２次元画像に基づいて対応する３次元物体を生成するプロセスである。２次元画像は特定のカメラ視角で撮影した目標物体であるので、この特定のカメラ視角での目標物体特徴だけを反映でき、目標物体の特徴全般を呈示できない。理論から言えば、目標物体撮影時に選択したカメラ視角が多いほど、再構成で生成した３次元物体の目標物体に対する復元度が高くなり、再構成品質がよくなる。

しかしながら、実際の操作では、コンピュータリソース費用、時間費用、人件費等の要因を考慮すると、大量の２次元画像に対して３次元再構成を無限に行うことが不可能である。従って、どのように適切な視角での２次元画像を選択し、且つ選択された２次元画像に基づいて３次元再構成を行うかは、当業者が迫って解決しようとする技術的問題となっている。

本発明は上記の問題に鑑みてなされたものである。

本発明の一側面によれば、３次元再構成方法を提供する。前記方法は、
目標物体の最初２次元画像に対して３次元再構成を行って、前記最初２次元画像に対応する最初３次元物体を生成するステップと、
前記最初３次元物体の候補視角での再構成品質に基づいて、前記候補視角から前記目標物体の補充視角を選択するステップと、
前記補充視角により、前記目標物体の補充２次元画像を取得するステップと、
前記補充２次元画像に対して３次元再構成を行って、前記補充２次元画像に対応する補充３次元物体を生成するステップと、
前記最初３次元物体と前記補充３次元物体を融合して、前記目標物体の３次元再構成結果を取得するステップと、を含む。

例として、目標物体の最初２次元画像に対して３次元再構成を行うことは、
前記最初２次元画像から最初画像特徴を抽出するステップと、
前記最初画像特徴をボクセルニューラルネットワークによってデコードして、前記目標物体のボクセル立方体を取得するステップと、
前記ボクセル立方体に基づいて前記最初３次元物体を決定するステップと、を含む。

例として、前記候補視角から前記目標物体の補充視角を選択することは、
前記最初３次元物体に対して回帰分析を行って、前記最初３次元物体の複数の候補視角での再構成品質を決定するステップと、
最悪の再構成品質に対応する候補視角を前記補充視角と決定するステップと、を含む。

例として、前記最初３次元物体に対して回帰分析を行うことは第１ニューラルネットワークによって実現され、前記第１ニューラルネットワークは、
現実のトレーニング物体のトレーニング３次元物体を取得するステップと、
前記トレーニング物体のトレーニング２次元画像を取得するステップと、
前記トレーニング物体のトレーニング２次元画像に基づいて３次元再構成を行って、トレーニング再構成物体を生成するステップと、
予め設定されたトレーニング視角に基づいて、前記トレーニング再構成物体を投影して、第１投影深度マップを取得するステップと、
前記トレーニング視角に基づいて、前記トレーニング３次元物体を投影して、第２投影深度マップを取得するステップと、
前記第１投影深度マップの前記第２投影深度マップに対する相違度を計算するステップと、
前記トレーニング再構成物体を入力データとし且つ前記相違度を正解データとして、前記第１ニューラルネットワークをトレーニングするステップと、によってトレーニングして取得される。

例として、前記第１投影深度マップの前記第２投影深度マップに対する相違度を計算するステップは、
前記第１投影深度マップにおける、前記トレーニング再構成物体の前記トレーニング視角での可視の各ボクセルの第１深度値を取得するステップと、
各第１深度値に対して、前記第２投影深度マップにおける、前記トレーニング３次元物体の対応ボクセルの第２深度値を取得するステップと、
前記第２深度値と前記第１深度値との間の深度差と前記第２深度値との間の比を計算するステップと、
前記第１投影深度マップにおける、前記トレーニング再構成物体の前記トレーニング視角での可視のボクセル全般に対応する比の平均値を求めて、前記相違度とするステップと、を含む。

例として、前記第１ニューラルネットワークをトレーニングすることは、
前記入力データに基づいて、前記第１ニューラルネットワークに対応する出力データを取得するステップと、
前記出力データと前記正解データにより前記第１ニューラルネットワークの損失関数を計算するステップと、
前記損失関数に基づいて前記第１ニューラルネットワークのパラメータを更新するステップと、を含む。

例として、前記補充視角により前記目標物体の補充２次元画像を取得するステップは、
データベースから前記補充視角に最も近い視角に対応する２次元画像を選択して、前記補充２次元画像とするステップ、又は
前記補充視角のカメラ位置姿勢に基づいてカメラを調整し、前記カメラによって前記補充２次元画像を収集するステップを含む。

例として、データベースから前記補充視角に最も近い視角に対応する２次元画像を選択することは、
前記データベースに記憶された２次元画像の位置姿勢識別子を取得するステップであって、前記位置姿勢識別子は２次元画像に対応する視角のカメラ位置姿勢を識別するためのものであるステップと、
前記位置姿勢識別子により、前記２次元画像に対応する視角のカメラ位置姿勢と前記補充視角のカメラ位置姿勢との間の位置姿勢差を決定するステップと、
位置姿勢差として最小値を取った場合に、対応する２次元画像を前記補充２次元画像と決定するステップと、を含む。

例として、前記最初３次元物体と前記補充３次元物体を融合した後に、前記３次元再構成方法は、
前記３次元再構成結果における可視のボクセルが占めた割合が第１割合より大きいか否かを判断するステップと、
第１割合より大きくない場合に、前記３次元再構成結果における可視のボクセルが占めた割合が前記第１割合より大きくなるまで、前記３次元再構成結果を前記最初３次元物体として、再度補充視角に基づいて３次元再構成を行うステップと、を更に含む。

本発明の別の側面によれば、更に、
目標物体の最初２次元画像に対して３次元再構成を行って、前記最初２次元画像に対応する最初３次元物体を生成するように構成される第１再構成モジュールと、
前記最初３次元物体の候補視角での再構成品質に基づいて、前記候補視角から前記目標物体の補充視角を選択するように構成される補充視角モジュールと、
前記補充視角により、前記目標物体の補充２次元画像を取得するように構成される補充画像モジュールと、
前記補充２次元画像に対して３次元再構成を行って、前記補充２次元画像に対応する補充３次元物体を生成するように構成される第２再構成モジュールと、
前記最初３次元物体と前記補充３次元物体を融合して、前記目標物体の３次元再構成結果を取得するように構成される融合モジュールと、を備える３次元再構成装置を提供する。

本発明の更に別の側面によれば、更に、プロセッサと、コンピュータプログラム命令を記憶したメモリとを備える３次元再構成システムにおいて、前記コンピュータプログラム命令が前記プロセッサにより実行される時に、上記の３次元再構成方法を実行する３次元再構成システムを提供する。

本発明の更に別の側面によれば、更に、プログラム命令を記憶した記憶媒体において、前記プログラム命令が実行される時に、上記の３次元再構成方法を実行する記憶媒体を提供する。

本発明実施例の技術的解決手段によれば、３次元物体の再構成品質により補充視角を決定し、補充視角での２次元画像を用いて３次元再構成を行い、これによって少ない２次元画像で高品質の再構成３次元物体を得ることができる。

以上は本発明の技術的解決手段を概略的に説明したが、本発明の技術的手段をより明瞭に理解して明細書の内容に基づいて実施できるように、且つ本明細書の上記及び他の目的、特徴及びメリットをより分かりやすくするために、以下において、特に本発明の具体的実施形態を挙げる。

図面を参照しながら本発明の実施例をより詳細に説明することによって、本発明の上記及び他の目的、特徴及びメリットはより明らかになる。図面は本発明の実施例を更に理解させ、明細書の一部を構成するためのものであり、本発明の実施例と共に本発明を解釈するために用いられるが、本発明を限定するものとならない。図面において、同じ参照符号は通常同じ部材又はステップを表す。
本発明の一実施例に係る３次元再構成方法の模式的フローチャートを示す。本発明の一実施例に係る補充視角選択の模式的フローチャートを示す。本発明の一実施例に係る第１ニューラルネットワークの取得の模式的フローチャートを示す。本発明の一実施例に係る相違度計算の模式的フローチャートを示す。本発明の一実施例に係る第１ニューラルネットワークのトレーニングの模式的フローチャートを示す。本発明の一実施例に係る第１ニューラルネットワークのトレーニングの模式的ブロック図を示す。本発明の一実施例に係るデータベースからの補充２次元画像の選択の模式的フローチャートを示す。本発明の別の実施例に係る３次元再構成方法の模式的フローチャートを示す。本発明の一実施例に係る３次元再構成装置の模式的ブロック図を示す。本発明の一実施例に係る３次元再構成用システムの模式的ブロック図を示す。

本発明の目的、技術的解決手段及びメリットをより明らかにするために、以下、図面を参照しながら本発明に係る例示的実施例を詳細に説明する。当然ながら、説明される実施例は本発明の一部の実施例に過ぎず、本発明の全ての実施例ではなく、理解すべきなのは、本発明がここに記載の例示的実施例に限定されるものではないことである。本発明に記載の本発明実施例に基づき、当業者が創造的労働を行わずに得た他の全ての実施例は、いずれも本発明の保護範囲に含まれるものとする。

本明細書に記載の３次元再構成手段は、最初２次元画を基に、この最初２次元画像の再構成品質のフィードバックにより、更に意義のある補充視角での２次元画像を選択し、最初視角の２次元画像と補充視角の２次元画像の両方に基づいて３次元再構成を行って、少ない２次元画像で再構成品質に優れる再構成３次元物体を得ることに用いられる。

図１は本発明の一実施例に係る３次元再構成方法１００の模式的フローチャートを示す。図１に示すように、前記方法１００は下記のステップＳ１１０、ステップＳ１２０、ステップＳ１３０、ステップＳ１４０及びステップＳ１５０を含む。

Ｓ１１０で、目標物体の最初２次元画像に対して３次元再構成を行って、前記最初２次元画像に対応する最初３次元物体を生成する。

最初２次元画像はカメラ又はビデオカメラ等の撮像装置を用いて直接収集した目標物体の画像であってよい。最初２次元画像は前処理操作をなされた画像であってもよい。例として、収集された画像にフィルタリング等の前処理操作を施して、より優れた品質の最初２次元画像を取得してもよい。最初２次元画像は、単一視角で得られた１枚の画像であってもよいし、複数の異なる視角で得られた複数枚の画像であってもよい。

いかなる既に存在する又は未来に向けて研究開発された既知２次元画像に基づく３次元再構成の方法を用いて、ステップＳ１１０の３次元再構成を実現して最初３次元物体を生成することができ、例えば、ニューラルネットワークに基づく３次元再構成方法が挙げられる。

生成した最初３次元物体と最初２次元画像は対応関係にある。この最初３次元物体は、ポイントクラウド（ＰｏｉｎｔＣｌｏｕｄ）、メッシュ（Ｍｅｓｈ）、ボクセル（Ｖｏｘｅｌ）又は深度マップ（Ｄｅｐｔｈｍａｐ）等で表現できる。本発明の具体的な一例において、ボクセルによって最初３次元物体を表現する。ボクセルによる表現形態は、目標物体所在空間を複数の立体格子からなるボクセル立方体と見なし、各立体格子の値がこの格子所在空間位置に物体がボクセルを有するか否かを示すようになっている。例えば、値が０の場合に物体が対応格子所在空間位置にボクセルを有しないことを示し、値が１の場合にボクセルを有することを示す。

Ｓ１２０で、前記最初３次元物体の候補視角での再構成品質に基づいて、前記候補視角から前記目標物体の補充視角を選択する。

各２次元画像はそれぞれ１つの対応カメラ視角があることが理解可能であり、このカメラ視角はカメラがこの２次元画像を収集した時の視角である。カメラ視角はカメラ位置姿勢によって決定され、カメラ位置姿勢によってカメラ視角を表現できる。カメラ位置姿勢はカメラが２次元画像を収集した時の位置と姿勢である。各種の座標系に基づいてカメラ位置姿勢を表現できる。以下に球面座標系を例としてカメラ位置姿勢を説明する。例として、物体所在位置を球面座標系の原点としてよく、カメラ位置姿勢をベクトルＲとＴで表してよい。Ｒ＝［α，β］であり、ただし、αはカメラの方位角を表し、βはカメラの仰角を表し、Ｔはカメラと物体との間の距離ρを表す。

世界座標系と上記球面座標系との間には対応する変換関係が存在することは当業者に理解される。例えば、あるカメラの世界座標系での座標（ｘ，ｙ，ｚ）を知っていれば、ｘがカメラのＸ軸での座標を表し、ｙがカメラのＹ軸での座標を表し、ｚがカメラのＺ軸での座標を表し、これに対して、このカメラの球面座標系での方位角α、仰角β及び距離ρを対応的に知ることができる。

与えられた最初２次元画像については、最初２次元画像に対応するカメラパラメータにより、この画像を生成した時のカメラ位置姿勢を決定できることは当業者に理解される。説明を簡単にするために、最初２次元画像のカメラ位置姿勢に対応する視角を第１視角と称する。

最初２次元画像の第１視角を知った上で、当該ステップは再構成品質に基づいて候補視角から第１視角と異なる１つの新しい補充視角を決定する。言い換えると、補充視角のカメラ位置姿勢は第１視角のカメラ位置姿勢と異なる。

再構成品質は、再構成で生成した最初３次元物体と実際の目標物体との間の類似度を表す。最初３次元物体の特定視角での再構成品質は、最初３次元物体のこの特定視角での可視の部分と目標物体における対応部分との間の類似度を表す。最初３次元物体は異なる視角で再構成品質が異なる。最初３次元物体は第１視角で再構成品質が最もよく、その原因は最初３次元物体における第１視角での可視の部分には最初２次元画像からの信頼的情報が最も多く含まれていることである。最初３次元物体は他の視角での可視の部分には最初２次元画像に存在しない予測情報を多かれ少なかれ含んでいるので、再構成品質がやや悪い。

例として、所定規則により、再構成品質に基づいて候補視角から補充視角を選択できる。例えば、再構成品質が所定閾値範囲にある候補視角を選択して補充視角とする。

Ｓ１３０で、前記補充視角により、前記目標物体の補充２次元画像を取得する。

補充視角のカメラ位置姿勢を決定した上で、当該ステップでは目標物体に対応する補充２次元画像を取得する。１つの目標物体に対して、複数の異なる視角から画像を撮影して、異なる視角での２次元画像を複数枚取得できることが理解可能である。補充視角を決定した上で、多種の方式でこの視角での２次元画像を取得できる。例えば、大量の目標物体の２次元画像を記憶したデータベースから目標画像を選択して補充２次元画像とする。この目標画像の視角は補充視角と同じで又は類似する。更に例えば、決定された補充視角によりカメラ位置姿勢を調整し、カメラに補充視角の位置姿勢で目標物体を再度撮影させて、目標物体の補充視角での補充２次元画像を得る。

Ｓ１４０で、前記補充２次元画像に対して３次元再構成を行って、前記補充２次元画像に対応する補充３次元物体を生成する。

当該ステップはステップＳ１１０で実行した操作に類似するが、ただステップＳ１１０で最初２次元画像を操作し、当該ステップＳ１４０で補充２次元画像を操作する点で相違する。簡素化するために、繰り返して説明しない。

一例において、この補充３次元物体はボクセルの形式で表すこともある。補充２次元画像には最初２次元画像情報に存在しない信頼的情報が含まれているので、生成した補充３次元物体における補充視角での可視ボクセルが必ず最初３次元物体における第１視角での可視ボクセルと異なることが理解可能である。

Ｓ１５０で、前記最初３次元物体と前記補充３次元物体を融合して、前記目標物体の３次元再構成結果を取得する。

例として、最初３次元物体と補充３次元物体のボクセルに対して和集合を取る方式で目標物体の最終３次元再構成結果を決定することができる。空間における任意の位置にとって、最初３次元物体又は補充３次元物体のうちのいずれか一方がこの位置にボクセルを有すれば、３次元再構成結果がこの位置にボクセルを有すると決定する。

代わりに、最初３次元物体と補充３次元物体のボクセルに対して共通部分を取る方式で目標物体の最終の３次元再構成結果を決定することもできる。空間における任意の位置にとって、最初３次元物体と補充３次元物体の両者が共にこの位置にボクセルを有する場合のみ、３次元再構成結果がこの位置にボクセルを有すると決定する。

上記技術的解決手段において、最初３次元物体の各視角での再構成品質は視角のサンプリング品質に関してフィードバックした。従って、フィードバック結果に応じてより合理的な補充視角を決定でき、最初３次元物体と補充視角での補充２次元画像を用いて再構成した補充３次元物体を融合して、最終の３次元再構成結果を取得する。これによって、３次元再構成プロセスで更に目標に合わせて画像を選択でき、これで３次元再構成効率を高くし、３次元再構成品質を向上させる。

例として、上記ステップＳ１１０は下記のステップＳ１１１、ステップＳ１１２及びステップＳ１１３を含んでよい。

Ｓ１１１で、最初２次元画像から最初画像特徴を抽出する。例えば、畳み込みニューラルネットワーク（ＣＮＮ）からなるエンコーダを用いて最初２次元画像から最初画像特徴を抽出できる。最初画像特徴は複数の特徴ベクトルを含んでよい。その中で、各特徴ベクトルは最初２次元画像における対応画素点に対応する。単一の最初２次元画像を例とすると、この最初２次元画像からＨ×Ｗ個の特徴ベクトル（Ｈが最初２次元画像の高さを表し、Ｗが最初２次元画像の幅を表す）を抽出できる。各特徴ベクトルは次元がいずれもＣである。

Ｓ１１２で、前記最初画像特徴をボクセルニューラルネットワークによってデコードして、前記目標物体のボクセル立方体を取得する。ボクセルニューラルネットワークは、最初画像特徴に基づいて複数の立体格子からなるボクセル立方体を出力するための複数の２Ｄ畳み込み層を含んでよい。

Ｓ１１３で、前記ボクセル立方体に基づいて前記最初３次元物体を決定する。当該ステップにおいて、ボクセル立方体中の格子の値によりこの格子の所在する空間位置にボクセルが存在するか否かを決定する。ボクセルが存在する格子全般は最初３次元物体を構成する。

ボクセル立方体によって最初３次元物体を決定することで、最初２次元画像における情報を効果的に利用でき、生成する最初３次元物体を更に目標物体に近接させる。

上述したように、ステップＳ１２０で、前記最初３次元物体の候補視角での再構成品質に基づいて、前記候補視角から前記目標物体の補充視角を選択する。図２は本発明の一実施例に係る補充視角を選択するステップＳ１２０の模式的フローチャートを示す。図２に示すように、補充視角を選択するステップＳ１２０は具体的には下記のステップＳ１２１及びステップＳ１２２を含んでよい。

Ｓ１２１で、前記最初３次元物体に対して回帰分析を行って、前記最初３次元物体の複数の候補視角での再構成品質を決定する。

上述した回帰分析は第１ニューラルネットワークによって実現できる。第１ニューラルネットワークは、入力された任意の再構成３次元物体に対して、この再構成３次元物体のそれぞれの異なる視角での再構成品質を決定、出力するためのものである。最初３次元物体を第１ニューラルネットワークに入力し、第１ニューラルネットワークによってこの最初３次元物体の複数の候補視角での再構成品質を予測することができる。

本発明における複数の候補視角は予め設定されたものであってよく、それぞれ異なるカメラ位置姿勢に対応する。各候補視角のカメラ位置姿勢は球面座標系における方位角と仰角で表してよい。例として、最初３次元物体を座標系原点とした上で、方位角αが集合［０，４５，９０，１３５，１８０，２２５，２７０，３１５］中の元素で、仰角βが集合［－６０，－３０，０，３０，６０］中の元素で、距離が１であるカメラ位置姿勢を選択して候補視角のカメラ位置姿勢とする。

再構成物体の候補視角での再構成品質は多種の方式で評価できる。

一例において、再構成物体のある視角での可視のボクセルが占めた割合によってこの再構成物体のこの視角での再構成品質を評価できる。いわゆる視角での可視のボクセルが占めた割合とは、再構成した３次元物体のこの視角での可視ボクセルのうち第１視角での可視のボクセルともなるボクセルの個数が占めた割合である。例えば、最初３次元物体はある候補視角で可視のボクセル個数がｎ個であり、且つこれらｎ個のボクセルのうち第１視角での可視のボクセルともなるボクセルの個数がＮ個である場合に、この最初３次元物体はこの候補視角での可視度がＮ／ｎである。可視のボクセルが占めた割合が高いほど、再構成品質が優れる。

別の実施例では、再構成物体の視角での投影深度マップ相違度によって再構成品質を評価できる。投影深度マップにおける最初３次元物体の画素がそれぞれ最初３次元物体の所定視角での可視のボクセルに対応することが理解可能である。最初３次元物体におけるそれぞれの可視のボクセルと投影平面との間の距離がこの可視のボクセルに対応する深度値であり、即ち投影深度マップにおける対応画素の画素値である。例えば、最初３次元物体はある候補視角で可視ボクセルＰを含み、この可視ボクセルＰと投影平面との間の距離がｄであり、この可視ボクセルＰの投影深度マップでの対応画素がＰ’であり、このようにこの投影深度マップにおける画素Ｐ’の画素値がｄである。

深度マップ相違度とは最初３次元物体のある視角での深度マップと目標物体のこの視角での深度マップとの間の相違度を指す。相違度が大きいほど、この視角で最初３次元物体と目標物体との違いが大きいことを意味するので、再構成品質が悪く、相違度が小さいほど、この視角で最初３次元物体と目標物体との違いが小さいことを意味するので、再構成品質が優れることが理解可能である。

Ｓ１２２で、最悪の再構成品質に対応する候補視角を前記補充視角と決定する。

回帰分析によって最初３次元物体の各視角での再構成品質を決定し、且つ最悪の再構成品質に対応する候補視角を補充視角とする。これによって、この補充視角により補充２次元画像を取得し、且つ補充２次元画像に基づいて再度３次元再構成を行う。このようにしてより効果的に最初３次元物体における品質欠陥を補うことができ、再構成品質を向上させる。

上述したように、第１ニューラルネットワークによって最初３次元物体の特定視角での再構成品質を予測できる。この第１ニューラルネットワークはトレーニングによって取得できる。図３は本発明の一実施例に係る第１ニューラルネットワークのトレーニングの模式的フローチャートを示す。図３に示すように、第１ニューラルネットワークは下記のステップＳ３１０、ステップＳ３２０、ステップＳ３３０、ステップＳ３４０、ステップＳ３５０、ステップＳ３６０及びステップＳ３７０によって取得される。

Ｓ３１０で、現実のトレーニング物体のトレーニング３次元物体を取得する。

現実のトレーニング物体は、例えば、立方体、球体、円柱体等、実際に存在する特定の形状と体積を有する物体である。好適なトレーニング効果を達成するために、自動車モデル、建物モデル等のような形状が不規則な物体が好ましい。

更に、現実のトレーニング物体をコンピュータに認識可能な数学モデルに処理してもよい。一例において、スキャナによってトレーニング物体を走査してそのポイントクラウドデータを取得してもよい。また、手動によるモデル構築の方式で現実のトレーニング物体を対応する数学モデルに変換してもよい。本発明はトレーニング物体のトレーニング３次元物体を取得する方式を限定しない。

Ｓ３２０で、前記トレーニング物体のトレーニング２次元画像を取得する。

カメラ又はビデオカメラ等の撮影装置を用いて、直接トレーニング物体の異なる視角での写真を収集してトレーニング２次元画像としてもよい。収集された写真にフィルタリング処理のような前処理を行って、前処理後の写真をトレーニング２次元画像としてもよく、本発明はこれを限定しない。

Ｓ３３０で、前記トレーニング物体のトレーニング２次元画像に基づいて３次元再構成を行って、トレーニング再構成物体を生成する。

従来の３次元再構成技術を用いてトレーニング２次元画像に対して３次元再構成を行うことができる。一例において、まず、畳み込みニューラルネットワークからなるエンコーダを用いてトレーニング２次元画像から画像特徴を抽出し、次に、畳み込みニューラルネットワークからなるデコーダを用いて画像特徴をデコードして、トレーニング２次元画像に基づくトレーニング再構成物体を決定する。このステップはステップＳ１１０に類似し、簡素化するために、ここで詳細な説明を省略する。

Ｓ３４０で、予め設定されたトレーニング視角に基づいて、前記トレーニング再構成物体を投影して、第１投影深度マップを取得する。

予め設定されたトレーニング視角は固定カメラ位置姿勢に対応する視角であってよい。例として、トレーニング再構成物体を座標系原点とした上で、方位角αが集合［０，４５，９０，１３５，１８０，２２５，２７０，３１５］中の元素で、仰角βが集合［－６０，－３０，０，３０，６０］中の元素で、距離が１であるカメラ位置姿勢を選択してトレーニング視角のカメラ位置姿勢とする。

予め設定されたトレーニング視角に基づいてトレーニング再構成物体を投影することは、トレーニング再構成物体における可視のボクセルを投影平面における画素にマッピングすることに相当する。一例において、投影平面はカメラ撮影平面である。上記の可視のボクセルから投影平面までの距離は投影深度マップにおける対応画素の画素値である。説明を簡単にするために、トレーニング再構成物体に基づいて生成した投影深度マップを第１投影深度マップと称する。

一例において、トレーニング再構成物体における、トレーニング視角で投影平面に最も近いボクセルに基づいて投影深度マップを決定できる。ここで、投影平面はカメラが所在する、トレーニング視角に垂直な平面であってよい。トレーニング視角がＸ軸の方向であると仮定すると、下式によってトレーニング再構成物体におけるトレーニング視角で投影平面に最も近いボクセルを決定できる。

ｄ（ｙ，ｚ）＝ａｒｇｍｉｎ（Ｐ（：，ｙ，ｚ））
ここで、Ｐ（：，ｙ，ｚ）＞０
ここで、Ｐ（：，ｙ，ｚ）はトレーニング再構成物体における、Ｙ軸座標がｙで、Ｚ軸座標がｚで、Ｘ軸と平行する直線にある全てのボクセルを表す。トレーニング再構成物体がある位置（ｘ，ｙ，ｚ）にボクセルを有する時に、Ｐ（ｘ，ｙ，ｚ）＝１であり、逆には、Ｐ（ｘ，ｙ，ｚ）＝０である。Ｐ（：，ｙ，ｚ）＞０のように限定した場合に、ａｒｇｍｉｎ（Ｐ（：，ｙ，ｚ））はトレーニング再構成物体における、前記直線にあるボクセルから投影平面までの距離の最小値を表す。上式によれば、Ｐ（：，ｙ，ｚ）＞０のｍ個のボクセルが存在し、且つｍ個のボクセルのＸ軸座標がそれぞれ｛ｘ１，ｘ２，…，ｘｍ｝であると仮定すると、ｄ（ｙ，ｚ）としてはこれらのＸ軸座標の最小値を取り、即ち、ｍｉｎ｛ｘ１，ｘ２，…，ｘｍ｝に等しい。このため、この直線にトレーニング再構成物体の投影が存在する。逆には、Ｐ（：，ｙ，ｚ）＞０のボクセルが存在しないと仮定すると、ｄ（ｙ，ｚ）＝０である。このため、この直線にトレーニング再構成物体の投影が存在しない。以上をまとめると、トレーニング再構成物体のトレーニング視角での投影深度マップを取得できる。

Ｓ３５０で、前記トレーニング視角に基づいて、前記トレーニング３次元物体を投影して、第２投影深度マップを取得する。

上述したように、トレーニング３次元物体は実際に存在する物体に基づいて生成した数学モデルである。一例において、予め設定されたトレーニング視角に基づいてトレーニング３次元物体を投影することは、トレーニング３次元物体における可視のボクセルを投影平面における画素にマッピングすることに相当する。ここの投影平面はカメラの撮影平面であってよい。上記の可視のボクセルから投影平面までの距離は投影深度マップにおける対応画素の画素値である。この例において、トレーニング３次元物体に基づいて生成した投影深度マップを第２投影深度マップとする。

Ｓ３６０で、前記第１投影深度マップの前記第２投影深度マップに対する相違度を計算する。

一例において、相違度は第１投影深度マップの第２投影深度マップに対する違いを表現するためのものである。上述したように、相違度はトレーニング再構成物体の再構成品質を評価することに利用可能である。相違度が大きいほど、トレーニング再構成物体と目標３次元物体との違いが大きいことを意味するので、再構成品質が悪く、相違度が小さいほど、トレーニング再構成物体と目標３次元物体との違いが小さいことを意味するので、再構成品質が優れる。

例として、第１投影深度マップと第２投影深度マップにおける各対応画素の差値の和を前記相違度としてよい。

Ｓ３７０で、前記トレーニング再構成物体を入力データとし且つ前記相違度を正解データ（ｇｒｏｕｎｄｔｒｕｔｈ）として、前記第１ニューラルネットワークをトレーニングする。これによって、入力された任意の再構成物体に対して、第１ニューラルネットワークはこの再構成物体のトレーニング視角での相違度を出力できる。このようにして、出力された相違度によりこの再構成物体のこのトレーニング視角での再構成品質を決定できる。

上記技術的解決手段において、投影深度マップの相違度によって第１ニューラルネットワークをトレーニングすることで、第１ニューラルネットワークは再構成物体の再構成品質を正確に決定できる。更に、この再構成品質により取得する最終再構成結果の正確性を確保する。

上述したように、第１投影深度マップの第２投影深度マップに対する相違度を正解データとして第１ニューラルネットワークをトレーニングできる。図４は本発明の一実施例に係る相違度を計算する上記ステップＳ３６０の模式的フローチャートを示す。図４に示すように、相違度計算は下記のステップＳ３６１、ステップＳ３６２、ステップＳ３６３及びステップＳ３６４を含む。

Ｓ３６１で、前記第１投影深度マップにおける、前記トレーニング再構成物体の前記トレーニング視角での可視の各ボクセルの第１深度値を取得する。

上述したように、第１投影深度マップにおける画素値は、トレーニング再構成物体におけるトレーニング視角での可視の対応ボクセルの深度値を表す。一例において、第１投影深度マップにおける深度値を第１深度値とする。

Ｓ３６２で、各第１深度値に対して、前記第２投影深度マップにおける、前記トレーニング３次元物体の対応ボクセルの第２深度値を取得する。

上述したように、第２投影深度マップにおける画素値は、トレーニング３次元物体におけるトレーニング視角での可視の対応ボクセルの深度値を表す。トレーニング再構成物体とトレーニング３次元物体がいずれも同一のトレーニング物体に基づいて取得されたものであるので、第１投影深度マップにおける各画素に対して、第２投影深度マップにおける対応画素を取得でき、更にその画素値を第２深度値とする。

例えば、ステップＳ３６１において、第１投影深度マップにおけるボクセルＰの第１深度値Ｄが既に取得されており、このように当該ステップＳ３６２において、第２投影深度マップにおける、ボクセルＰに対応するボクセルＰ’に対応する第２深度値Ｄ’を取得する。

Ｓ３６３で、前記第２深度値と前記第１深度値との間の深度差と前記第２深度値との間の比を計算する。

やはり上記の例で説明し、ステップＳ３６２では第１深度値Ｄと第２深度値Ｄ’が既に知られているため、第２深度値と第１深度値との間の深度差がＤ’－Ｄとなり、更に、深度差と第２深度値との間の比が（Ｄ’－Ｄ）／Ｄ’となる。

Ｓ３６４で、前記第１投影深度マップにおける、前記トレーニング再構成物体の前記トレーニング視角での可視のボクセル全般に対応する比の平均値を求めて、前記相違度とする。

第１投影深度マップと第２投影深度マップには複数のボクセルが含まれており、これに対して、複数の相違度が得られることが理解可能である。これに基づき、一例において、ｍｅａｎ関数によって複数の相違度の平均値を求め、ｍｅａｎ［（Ｄ’－Ｄ）／Ｄ’］を最終相違度とする。

上記技術的解決手段において、投影深度マップにおける深度値の差と真実の投影深度値との間の比を再構成品質評価のための相違度とした。それは再構成品質に対する表現能力が強く、これによって、取得される再構成品質がより正確になり、更に最終再構成結果をより正確にする。

上述したように、ステップＳ３７０において前記トレーニング再構成物体を入力データとし且つ前記相違度を正解データとして、前記第１ニューラルネットワークをトレーニングできる。図５は本発明の一実施例に係る第１ニューラルネットワークをトレーニングするステップＳ３７０の模式的フローチャートを示す。図５に示すように、第１ニューラルネットワークをトレーニングするステップＳ３７０は下記のステップＳ３７１、ステップＳ３７２及びステップＳ３７３を含む。

Ｓ３７１で、前記入力データに基づいて、前記第１ニューラルネットワークに対応する出力データを取得する。

入力データとなるトレーニング再構成物体を第１ニューラルネットワークに入力し、第１ニューラルネットワークの計算によって出力データを取得する。第１ニューラルネットワークは入力された任意の再構成物体に対して、この再構成物体のトレーニング視角での相違度を出力できる。一例において、前記入力データは任意の再構成物体であってよく、前記出力データはこの再構成物体のトレーニング視角での深度マップ相違度であってよい。

Ｓ３７２で、前記出力データと前記正解データにより前記第１ニューラルネットワークの損失関数を計算する。

上述したように、正解データは第１投影深度マップと第２投影深度マップとの間の相違度であり、その中で、第１投影深度マップはトレーニング再構成物体に基づいて生成したものであり、第２投影深度マップはトレーニング３次元物体に基づいて生成したものである。

第１ニューラルネットワークの出力データがＹであり、以上で算出された正解データがＹ０であると仮定すると、二者により損失関数を決定できる。損失関数は出力データＹと正解データＹ０との間の違いを表す。本願の実施例では、交差エントロピー損失関数、指数損失関数及び二乗損失関数等のうちの１種を利用できる。

Ｓ３７３で、前記損失関数に基づいて前記第１ニューラルネットワークのパラメータを更新する。当該ステップにおいて、第１ニューラルネットワークにおける関連パラメータを調整することによって、損失関数を最小値にすることができる。これによって、トレーニングが終了した後、第１ニューラルネットワークは入力された任意の再構成物体に対して、比較的正確なトレーニング視角での相違度を出力できる。一例において、所定視角は４０個を含み、第１ニューラルネットワークは対応する４０視角での相違度を出力する。

上記トレーニングステップによって、第１ニューラルネットワークの出力データをより正確にできる。更に、最終再構成結果を更に正確にする。

図６は本発明の一実施例に係る第１ニューラルネットワークのトレーニングの模式的ブロック図を示す。図６に示すように、入力データ６１０を第１ニューラルネットワーク６２０に入力したら、出力データ６３０が得られる。正解データ６４０は出力データ６３０と比較するための基準データであり、出力データ６３０と正解データ６４０との間の差により損失関数６５０を得、第１ニューラルネットワーク６２０中のパラメータを調整することで損失関数６５０の値を変更し、これによって出力データ６３０を更に正解データ６４０に近接させる。一例において、入力データ６１０は３次元再構成技術で生成した任意の３次元再構成物体であり、出力データ６３０は前記３次元再構成物体の所定の複数の視角での深度マップ相違度であり、正解データ６４０は既知のトレーニングデータにより算出された、３次元再構成物体の所定の複数の視角での深度マップ相違度であり、損失関数６５０は二乗損失関数である。

補充視角を決定した上で、上記ステップＳ１３０において目標物体の補充２次元画像を取得する。多種の方式で補充２次元画像を取得できる。一例において、前記補充視角のカメラ位置姿勢に基づいてカメラを調整し、前記カメラによって前記補充２次元画像を収集する。例えば、目標物体所在位置を座標原点とし、球面座標系における補充視角のカメラ位置姿勢が（α０，β０，ρ０）であることを知っていれば、α０がカメラの方位角を表し、β０がカメラの仰角を表し、ρ０がカメラから座標原点までの直線距離を表し、このようにカメラを（α０，β０，ρ０）に対応する位置と姿勢に調整して目標物体の画像を収集させて、補充２次元画像を取得することができる。この例において、カメラで補充２次元画像を収集して、補充２次元画像が補充視角にあるものであることを確保できる。これによって、補充２次元画像の情報がより十分になり、更に最終再構成結果の正確度がより高くなる。

別の例において、データベースから前記補充視角に最も近い視角に対応する２次元画像を選択して、前記補充２次元画像とする。図７は本発明の一実施例に係るデータベースからの補充２次元画像の選択の模式的フローチャートを示す。図７に示すように、補充２次元画像を選択するステップはステップＳ１３１、ステップＳ１３２及びステップＳ１３３を含む。

Ｓ１３１で、前記データベースに記憶された２次元画像の位置姿勢識別子を取得し、前記位置姿勢識別子は２次元画像に対応する視角のカメラ位置姿勢を識別するためのものである。

データベースは２次元画像を記憶する時に、この２次元画像に対応する位置姿勢識別子を同時に記憶でき、この位置姿勢識別子は上記２次元画像を収集した時に対応するカメラ位置姿勢であってよい。データベースから２次元画像を取得する時に、この２次元画像に対応する位置姿勢識別子を一括取得できる。

Ｓ１３２で、前記位置姿勢識別子により、前記２次元画像に対応する視角のカメラ位置姿勢と前記補充視角のカメラ位置姿勢との間の位置姿勢差を決定する。

一例において、被撮影物体の所在位置を球面座標系の原点とし、カメラの方位角α、仰角β及び原点までの距離ρで２次元画像に対応するカメラ位置姿勢を表す。２次元画像に対応する視角のカメラ位置姿勢が（α１，β１，ρ１）で、補充視角のカメラ位置姿勢が（α２，β２，ρ２）であると仮定すると、両者間の位置姿勢差は（α１－α２，β１－β２，ρ１－ρ２）で表してもよい。

Ｓ１３３で、位置姿勢差として最小値を取った場合に、対応する２次元画像を前記補充２次元画像と決定する。

上記の例において、位置姿勢差は方位角差、仰角差及び距離差で形成した３次元ベクトルであった。位置姿勢差の大きさを表すために、上記３次元ベクトルを１つの数値に正規化してもよい。一例において、方位角差、仰角差及び距離差の平方和を求めてもよく、得られた平方和を位置姿勢差として、位置姿勢差の大きさを比較する。最も好ましくは位置姿勢差が０であり、この時に２次元画像に対応する視角のカメラ位置姿勢と補充視角のカメラ位置姿勢が完全に重なり合うことが理解できる。データベースから位置姿勢差が０の２次元画像を取得できない場合に、位置姿勢差が最も小さい２次元画像を選択して補充２次元画像としてもよい。

上記ステップによれば、大量の画像を記憶したデータベースから、補充視角に最も近い２次元画像を選択して補充２次元画像とし、補充２次元画像に基づいて３次元再構成を行うことができる。直接データベースに既存の２次元画像を用いて最初２次元画像の補充とすることで、最終再構成結果の正確性を確保すると共に、既存の資源を効果的に利用し、そして画像を改めて収集する手数を省いた。

選択した補充視角が多いほど、生成する補充３次元物体が多くなって、３次元再構成結果が目標物体の実際形状に近接することが理解できる。従って、ステップＳ１２０～ステップＳ１５０の過程を複数回反複してもよく、また、反復終了条件を満たしたか否かに応じて最終３次元再構成結果を決定してもよい。

例として、上記３次元再構成方法は更に下記のステップを含んでもよい。前記３次元再構成結果における可視のボクセルが占めた割合が第１割合より大きいか否かを判断する。第１割合より大きくない場合に、前記３次元再構成結果における可視のボクセルが占めた割合が前記第１割合より大きくなるまで、現在の３次元再構成結果を最初３次元物体として、再度補充視角に基づいて３次元再構成を行う。言い換えると、当該ステップにおいて、望ましい最終再構成結果が取得されるまで、現在の３次元再構成結果を最初３次元物体として、再度上記ステップＳ１２０～Ｓ１５０を実行する。

図８は本発明の別の実施例に係る３次元再構成方法８００の模式的フローチャートを示す。図８に示すように、この３次元再構成方法は下記のステップＳ８１０、ステップＳ８２０、ステップＳ８３０、ステップＳ８４０、ステップＳ８５０、ステップＳ８６０及びステップＳ８７０を含む。

Ｓ８１０で、目標物体の最初２次元画像に対して３次元再構成を行って、前記最初２次元画像に対応する最初３次元物体を生成する。

Ｓ８２０で、前記最初３次元物体の候補視角での再構成品質に基づいて、前記候補視角から前記目標物体の補充視角を選択する。

Ｓ８３０で、前記補充視角により、前記目標物体の補充２次元画像を取得する。

Ｓ８４０で、前記補充２次元画像に対して３次元再構成を行って、前記補充２次元画像に対応する補充３次元物体を生成する。

Ｓ８５０で、前記最初３次元物体と前記補充３次元物体を融合して、前記目標物体の３次元再構成結果を取得する。上記ステップはステップＳ１１０－Ｓ１５０と類似し、本明細書で繰り返して説明しない。

Ｓ８６０で、前記３次元再構成結果における可視のボクセルが占めた割合が第２割合より大きいか否かを判断する。

３次元再構成結果における可視のボクセルが占めた割合は、３次元再構成結果における補充視角での可視ボクセルのうち第１視角での可視のボクセルともなるボクセルの個数が占めた割合である。例えば、３次元再構成結果は補充視角での可視のボクセルが合計ｍ個あり、これらのボクセルのうち同時に第１視角での可視のボクセルともなるボクセルの個数がＭ個であれば、可視のボクセルが占めた割合がＭ／ｍである。可視のボクセルが占めた割合が３次元再構成結果の信頼度を反映可能であることが理解できる。第２割合は７０％～９０％の間の任意値であってもよい。一例において、上記第２割合が８５％である。この数値は計算資源の消耗と計算結果の正確性の両方に配慮を加えたものである。

第２割合より大きくない場合に、前記３次元再構成結果を最初３次元物体とし、且つステップＳ８２０に移行する。これによって、再度新しい補充視角に基づいて新しい補充２次元画像を取得して３次元再構成を行う。可視のボクセルが占めた割合が第２割合より大きくなければ、現在の３次元再構成結果は真実の目標物体とは一定の程度相違していることを意味するので、再度新しい補充視角のカメラ位置姿勢に基づいて３次元再構成を行う必要がある。

前記第２割合より大きい場合に、ステップＳ８７０を実行する。

Ｓ８７０で、前記３次元再構成結果を最終結果とする。３次元再構成方法が終了する。

可視のボクセルが占めた割合が第２割合より大きければ、現在の視角で生成した３次元物体は真実の３次元物体に近接していることを意味するので、３次元再構成結果を最終結果とすることができる。

上記ステップによれば、有限回数の反復を行った後、得られた３次元再構成結果が予想に一致した結果となることを確保でき、更に再構成３次元物体の品質を確保する。

本発明の別の側面によれば、更に３次元再構成装置を提供する。図９は本発明の一実施例に係る３次元再構成装置の模式的ブロック図を示す。

図９に示すように、装置９００は第１再構成モジュール９１０、補充視角モジュール９２０、補充画像モジュール９３０、第２再構成モジュール９４０及び融合モジュール９５０を備える。

前記各モジュールはそれぞれ上述した３次元再構成方法の各ステップ／機能を実行できる。以下ではこの装置９００の各部材の主要機能のみについて説明し、以上で既に説明した詳細内容を省略する。

第１再構成モジュール９１０は、目標物体の最初２次元画像に対して３次元再構成を行って、前記最初２次元画像に対応する最初３次元物体を生成するように構成され、
補充視角モジュール９２０は、前記最初３次元物体の候補視角での再構成品質に基づいて、前記候補視角から前記目標物体の補充視角を選択するように構成され、
補充画像モジュール９３０は、前記補充視角により、前記目標物体の補充２次元画像を取得するように構成され、
第２再構成モジュール９４０は、前記補充２次元画像に対して３次元再構成を行って、前記補充２次元画像に対応する補充３次元物体を生成するように構成され、
融合モジュール９５０は、前記最初３次元物体と前記補充３次元物体を融合して、前記目標物体の３次元再構成結果を取得するように構成される。

図１０は本発明の一実施例に係る３次元再構成用システム１０００の模式的ブロック図を示す。図１０に示すように、システム１０００は入力装置１０１０、記憶装置１０２０、プロセッサ１０３０及び出力装置１０４０を備える。

前記入力装置１０１０は、ユーザの入力する操作命令を受信し、データを収集するように構成される。入力装置１０１０はキーボード、マウス、マイクロフォン、タッチパネル及び画像収集装置等のうちの１つ以上を含んでよい。

前記記憶装置１０２０は、本発明の実施例に係る３次元再構成方法の対応ステップを実現するためのコンピュータプログラム命令を記憶する。

前記プロセッサ１０３０は、前記記憶装置１０２０に記憶されたコンピュータプログラム命令を実行して、本発明の実施例に係る３次元再構成方法の対応ステップを実行するように構成され、また、本発明の実施例に係る３次元再構成装置における第１再構成モジュール９１０、補充視角モジュール９２０、補充画像モジュール９３０、第２再構成モジュール９４０及び融合モジュール９５０を実現するように構成される。

前記出力装置１０４０は、外部（例えば、ユーザ）に各種の情報（例えば、画像及び／又は音声）を出力するように構成され、ディスプレイ、スピーカ等のうちの１つ以上を含んでよい。

一実施例では、前記コンピュータプログラム命令が前記プロセッサ１０３０により実行される時に、
目標物体の最初２次元画像に対して３次元再構成を行って、前記最初２次元画像に対応する最初３次元物体を生成するステップと、
前記最初３次元物体の候補視角での再構成品質に基づいて、前記候補視角から前記目標物体の補充視角を選択するステップと、
前記目標物体の前記補充２次元画像を取得するステップと、
前記補充２次元画像に対して３次元再構成を行って、前記補充２次元画像に対応する補充３次元物体を生成するステップと、
前記最初３次元物体と前記補充３次元物体を融合して、前記目標物体の３次元再構成結果を取得するステップと、を前記システム１０００に実行させる。

また、本発明の更に別の側面によれば、更に、プログラム命令を記憶した記憶媒体において、前記プログラム命令がコンピュータ又はプロセッサにより実行される時に、前記コンピュータ又はプロセッサに本発明実施例の上記３次元再構成方法の対応ステップを実行させ、且つ本発明実施例に係る上記３次元再構成装置における対応モジュール又は上記の３次元再構成システム用の対応モジュールを実現するように構成される記憶媒体を提供する。前記記憶媒体は、例えば、スマートフォンのメモリーカード、タブレットの記憶手段、パーソナルコンピュータのハードディスク、読み取り専用メモリ（ＲＯＭ）、消去可能なプログラマブル読み取り専用メモリ（ＥＰＲＯＭ）、携帯型コンパクトディスク読み取り専用メモリ（ＣＤ－ＲＯＭ）、ＵＳＢメモリ又は上記記憶媒体の任意組合を含んでよい。前記コンピュータ可読記憶媒体は１つ以上のコンピュータ可読記憶媒体の任意組合であってよい。

一実施例では、前記コンピュータプログラム命令がコンピュータ又はプロセッサにより実行される時に、
目標物体の最初２次元画像に対して３次元再構成を行って、前記最初２次元画像に対応する最初３次元物体を生成するステップと、
前記最初３次元物体の候補視角での再構成品質に基づいて、前記候補視角から前記目標物体の補充視角を選択するステップと、
前記目標物体の前記補充２次元画像を取得するステップと、
前記補充２次元画像に対して３次元再構成を行って、前記補充２次元画像に対応する補充３次元物体を生成するステップと、
前記最初３次元物体と前記補充３次元物体を融合して、前記目標物体の３次元再構成結果を取得するステップと、を前記コンピュータ又はプロセッサに実行させる。

当業者であれば、図１～図８を参照しながら上記の３次元再構成方法関連記載を読むことによって、上記３次元再構成装置、システム及び記憶媒体の具現化を理解できる。簡素化するために、ここで詳細な説明を省略する。

上記３次元再構成手段において、最初３次元物体の再構成品質により補充視角を決定し、補充視角での補充２次元画像を用いて３次元再構成を行うことで、少ない２次元画像で高品質の再構成３次元物体を得ることができる。

ここで図面を参照して例示的実施例を説明したが、上記例示的実施例は例示的なものに過ぎず、本発明の範囲を限定する意図がないことを理解すべきである。当業者であれば、本発明の範囲と主旨を逸脱することなく、それに対して各種の変更と修正を加えることができる。これらの変更と修正は添付された特許請求の範囲の主張する本発明の範囲に含まれるものとする。

本明細書で開示された実施例により説明した各例のユニット及びアルゴリズムステップは電子ハードウェア又はコンピュータソフトウェアと電子ハードウェアの組合という形で実現可能であることが当業者に理解できる。これらの機能はハードウェアの形で実行するか、それともソフトウェアの形で実行するかは技術的解決手段の特定の用途及び設計上の制約条件によって決められる。専門技術者であれば、特定の用途毎に異なる方法を使用して、記載された機能を実現できるが、このような実現は本発明の範囲を超えたものであると理解してはならない。

本願により提供されたいくつかの実施例では、開示した機器及び方法は他の形態で実現できることを理解すべきである。例えば、上述した機器実施例は例示的なものに過ぎず、例えば、前記ユニットの分割は、論理機能の分割に過ぎず、実際に実現する場合に別の形態で分割してもよく、例えば、複数のユニット又はコンポーネントは組み合わせてもよいし、別のシステムに統合してもよいし、一部の特徴を省略もしくは実行しなくてもよい。

ここで提供された明細書において、大量の具体的詳細について説明した。ただし、これらの具体的詳細なしに本発明の実施例が実施され得ることが理解できる。いくつかの実例において、本明細書に対する理解を曖昧にしないように、周知の方法、構造及び技術を詳しく示していない。

類似的に、本発明を簡素化し且つ各発明態様の１つ又は複数を容易に理解させるために、本発明の例示的実施例についての記載において、本発明の各特徴は共に単一の実施例や図、それらについての記載にグループ化される場合があることを理解すべきである。しかし、本発明の方法は、保護を主張される本発明が各請求項に明確に記載の特徴よりも多い特徴を要求する意図を反映するものと解釈してはならない。より明確に言えば、対応する特許請求の範囲で反映されるように、その発明のポイントは、開示されたある単一実施例の全般特徴よりも少ない特徴によって対応する技術的問題を解決できることである。従って、具体的実施形態に従った請求項はこれによって明確にこの具体的実施形態に組み入れられるが、各請求項自身はそれぞれ本発明の単独実施例となる。

特徴同士が互に矛盾しない限り、本明細書（添付された請求項、要約書及び図面を含む）で開示された全ての特徴及びこのように開示された任意の方法又は機器の全ての工程またはユニットをいかなる組合形式で組み合わせてもよいことが当業者に理解される。別に明確に説明しない限り、本明細書（添付された請求項、要約書及び図面を含む）で開示された各特徴は、同じな、同等な又は類似的な目的を実現する代替特徴によって取り替えてもよい。

また、ここに記載のいくつかの実施例には他の特徴ではなく、他の実施例に含まれるいくつかの特徴を含むが、異なる実施例の特徴の組合は本発明の範囲に含まれ且つ異なる実施例を形成するのを意味することが当業者に理解される。例えば、特許請求の範囲において、保護を主張される実施例はいずれも任意の組合方式で使用できる。

本発明の各部材実施例は、ハードウェアで実現してもよいし、１つ以上のプロセッサにおいて動作するソフトウェアモジュールで実現してもよいし、それらの組合で実現してもよい。実施するに際して、マイクロプロセッサ又はデジタル信号プロセッサ（ＤＳＰ）を用いて、本発明の実施例に係る３次元再構成装置における若干のモジュールの機能の一部又は全部を実現してよいことが当業者に理解される。本発明は更に、ここに記載の方法の一部又は全部を実行するための装置プログラム（例えば、コンピュータプログラムとコンピュータプログラム製品）として実現してもよい。このような本発明を実現するプログラムはコンピュータ可読媒体に記憶されてもよく、又は１つ以上の信号形式を有してもよい。このような信号はインターネットウェブサイトからダウンロードして得てもよく、又はキャリア信号で提供してもよく、又はいかなる他の形式で提供してもよい。

上記実施例は本発明を説明するものであり、本発明を限定するものとならなく、添付された特許請求の範囲を逸脱することなく、当業者が代替実施例を設計できることに注意すべきである。請求項において、かっこにあるいずれかの参照符号も請求項を限定してはならない。用語の「含む」は、請求項に記載されない素子又はステップが存在することを排除するものとならない。素子の前にある用語の「一」又は「１つ」は、このような素子が複数存在することを排除するものとならない。本発明は異なる素子を若干含むハードウェア及び適当にプログラミングしたコンピュータによって実現してよい。若干の装置を挙げた各請求項において、これらの若干の装置は同一のハードウェア項によって具体的に体現してよい。用語の第１、第２及び第３等はいかなる順序も表さない。これらの用語を名称と解釈してもよい。

以上は本発明の具体的実施形態又は具体的実施形態についての説明に過ぎず、本発明の保護範囲はそれに限定されるものでなく、本発明に記載された技術範囲内に当業者に容易に想到される変化又は取り替えは、全て本発明の保護範囲に含まれる。従って、本発明の保護範囲は請求項の保護範囲に準ずるものとする。

Claims

目標物体の最初２次元画像に対してニューラルネットワークに基づいて３次元再構成を行って、前記最初２次元画像に対応する最初３次元物体を生成するステップと、
前記最初３次元物体の複数の候補視角での再構成品質を決定し、前記複数の候補視角での再構成品質に基づいて、前記複数の候補視角から前記目標物体の補充視角を選択するステップであり、前記再構成品質は、前記最初３次元物体と実際の前記目標物体との間の類似度を表すものである、ステップと、
前記補充視角により、前記目標物体の補充２次元画像を取得するステップと、
前記補充２次元画像に対して３次元再構成を行って、前記補充２次元画像に対応する補充３次元物体を生成するステップと、
前記最初３次元物体と前記補充３次元物体を融合して、前記目標物体の３次元再構成結果を取得するステップと、を含むことを特徴とする３次元再構成方法。
目標物体の最初２次元画像に対してニューラルネットワークに基づいて３次元再構成を行うことは、
前記最初２次元画像から最初画像特徴を抽出するステップと、
前記最初画像特徴をボクセルニューラルネットワークによってデコードして、前記目標物体のボクセル立方体を取得するステップと、
前記ボクセル立方体に基づいて前記最初３次元物体を決定するステップと、を含むことを特徴とする請求項１に記載の３次元再構成方法。
前記候補視角から前記目標物体の補充視角を選択することは、
前記最初３次元物体に対して回帰分析を行って、前記最初３次元物体の複数の候補視角での再構成品質を決定するステップと、
最悪の再構成品質に対応する候補視角を前記補充視角と決定するステップと、を含むことを特徴とする請求項１に記載の３次元再構成方法。
前記最初３次元物体に対して回帰分析を行うことは第１ニューラルネットワークによって実現され、前記第１ニューラルネットワークは、
現実のトレーニング物体のトレーニング３次元物体を取得するステップと、
前記トレーニング物体のトレーニング２次元画像を取得するステップと、
前記トレーニング物体のトレーニング２次元画像に基づいて３次元再構成を行って、トレーニング再構成物体を生成するステップと、
予め設定されたトレーニング視角に基づいて、前記トレーニング再構成物体を投影して、第１投影深度マップを取得するステップと、
前記トレーニング視角に基づいて、前記トレーニング３次元物体を投影して、第２投影深度マップを取得するステップと、
前記第１投影深度マップの前記第２投影深度マップに対する相違度を計算するステップと、
前記トレーニング再構成物体を入力データとし且つ前記相違度を正解データとして、前記第１ニューラルネットワークをトレーニングするステップと、によってトレーニングして取得されることを特徴とする請求項３に記載の３次元再構成方法。
前記第１投影深度マップの前記第２投影深度マップに対する相違度を計算するステップは、
前記第１投影深度マップにおける、前記トレーニング再構成物体の前記トレーニング視角での可視の各ボクセルの第１深度値を取得するステップと、
各第１深度値に対して、前記第２投影深度マップにおける、前記トレーニング３次元物体の対応ボクセルの第２深度値を取得するステップと、
前記第２深度値と前記第１深度値との間の深度差と前記第２深度値との間の比を計算するステップと、
前記第１投影深度マップにおける、前記トレーニング再構成物体の前記トレーニング視角での可視のボクセル全般に対応する比の平均値を求めて、前記相違度とするステップと、を含むことを特徴とする請求項４に記載の３次元再構成方法。
前記第１ニューラルネットワークをトレーニングすることは、
前記入力データに基づいて、前記第１ニューラルネットワークに対応する出力データを取得するステップと、
前記出力データと前記正解データにより前記第１ニューラルネットワークの損失関数を計算するステップと、
前記損失関数に基づいて前記第１ニューラルネットワークのパラメータを更新するステップと、を含むことを特徴とする請求項４に記載の３次元再構成方法。
前記補充視角により前記目標物体の補充２次元画像を取得するステップは、
データベースから前記補充視角に最も近い視角に対応する２次元画像を選択して、前記補充２次元画像とするステップ、又は
前記補充視角のカメラ位置姿勢に基づいてカメラを調整し、前記カメラによって前記補充２次元画像を収集するステップを含むことを特徴とする請求項１に記載の３次元再構成方法。
データベースから前記補充視角に最も近い視角に対応する２次元画像を選択することは、
前記データベースに記憶された２次元画像の位置姿勢識別子を取得するステップであって、前記位置姿勢識別子は２次元画像に対応する視角のカメラ位置姿勢を識別するためのものであるステップと、
前記位置姿勢識別子により、前記２次元画像に対応する視角のカメラ位置姿勢と前記補充視角のカメラ位置姿勢との間の位置姿勢差を決定するステップと、
位置姿勢差として最小値を取った場合に、対応する２次元画像を前記補充２次元画像と決定するステップと、を含むことを特徴とする請求項７に記載の３次元再構成方法。
前記最初３次元物体と前記補充３次元物体を融合した後に、
前記３次元再構成結果における可視のボクセルが占めた割合が第１割合より大きいか否かを判断するステップと、
第１割合より大きくない場合に、前記３次元再構成結果における可視のボクセルが占めた割合が前記第１割合より大きくなるまで、前記３次元再構成結果を前記最初３次元物体として、再度、補充視角に基づいて３次元再構成を行うステップと、を更に含むことを特徴とする請求項１に記載の３次元再構成方法。
目標物体の最初２次元画像に対して３次元再構成を行って、前記最初２次元画像に対応する最初３次元物体を生成するように構成される第１再構成モジュールと、
前記最初３次元物体の候補視角での再構成品質に基づいて、前記候補視角から前記目標物体の補充視角を選択するように構成される補充視角モジュールと、
前記補充視角により、前記目標物体の補充２次元画像を取得するように構成される補充画像モジュールと、
前記補充２次元画像に対して３次元再構成を行って、前記補充２次元画像に対応する補充３次元物体を生成するように構成される第２再構成モジュールと、
前記最初３次元物体と前記補充３次元物体を融合して、前記目標物体の３次元再構成結果を取得するように構成される融合モジュールと、を備えることを特徴とする３次元再構成装置。
プロセッサと、コンピュータプログラム命令を記憶したメモリとを備える３次元再構成システムにおいて、前記コンピュータプログラム命令が前記プロセッサにより実行される時に、請求項１～９のいずれか一項に記載の３次元再構成方法を実行することを特徴とする３次元再構成システム。
プログラム命令を記憶した記憶媒体において、前記プログラム命令が実行される時に、請求項１～９のいずれか一項に記載の３次元再構成方法を実行することを特徴とする記憶媒体。