WO2024117090A1

WO2024117090A1 - 情報処理装置、情報処理方法及びプログラム

Info

Publication number: WO2024117090A1
Application number: PCT/JP2023/042413
Authority: WO
Inventors: 昌道中村; 博隆井上
Original assignee: モルゲンロット株式会社
Priority date: 2022-11-30
Filing date: 2023-11-27
Publication date: 2024-06-06

Abstract

深度データ取得部５０は、所定視点から対象物の特徴点までの深度を示す深度データについて、Ｎ（Ｎは２以上の整数値）の視点毎に取得する。陰関数生成部６０は、Ｎの深度データを用いた所定の機械学習を実行することで、任意の視点からの対象物Ｔの表面の特徴点までの距離の関数である陰関数Ｓ（ｒ）を生成する。

Description

情報処理装置、情報処理方法及びプログラム

　本発明は、情報処理装置、情報処理方法及びプログラムに関する。

　従来より、被写体が含まれる２次元画像（多数の２次元画像）から、３次元モデルを生成する技術が存在する（例えば、特許文献１及び非特許文献１参照）。

特開２０１０－１４５１８６号公報

Ｔｈｏｍａｓ　Ｍ．　ｅｔ　Ａｌ．，　"Ｉｎｓｔａｎｔ　Ｎｅｕｒａｌ　Ｇｒａｐｈｉｃｓ　Ｐｒｉｍｉｔｉｖｅｓ　ｗｉｔｈ　ａ　Ｍｕｌｔｉｒｅｓｏｌｕｔｉｏｎ　Ｈａｓｈ　Ｅｎｃｏｄｉｎｇ"，　ＡＣＭ　Ｔｒａｎｓ．　Ｇｒａｐｈ．，　Ｖｏｌ．４，　Ｎｕｍ．４，　ｐｐ．１０２：１－－１０２：１５，　Ｊｕｌｙ　２０２２，https://doi.org/10.1145/3528223.3530127

　しかしながら、上述の特許文献１や非特許文献１を含む先行技術では、３次元モデルの生成の精度や、生成速度についての要望に十分に応じることができていなかった。

　本発明は、このような状況に鑑みてなされたものであり、対象物の３次元モデルを生成する際の精度の向上や計算コストの削減といった、より利便性の高い生成手法を実現することを目的とする。

　上記目的を達成するため、本発明の一態様の情報処理装置は、
　所定視点から対象物の特徴点までの深度を示す深度データについて、Ｎ（Ｎは２以上の整数値）の視点毎に取得する深度データ取得手段と、
　前記Ｎの深度データを用いた所定の機械学習を実行することで、任意の視点からの前記対象物の表面の特徴点までの距離を推定する関数を生成する距離関数生成手段と、
　を備える。

　本発明の一態様の情報処理方法及びプログラムは、上述の本発明の一態様の情報処理装置に対応する情報処理方法及びプログラムである。

　本発明によれば、２次元画像を用いた３次元モデルの生成における利便性を向上させることができる。

本発明の情報処理装置の一実施形態に係るモデル生成装置の処理動作を示す概略図である。図１に示す本サービスにおいて、深度データと画像データを取得するためのカメラ及びライダの配置方法の一例を示す図である。図１を用いて説明した本サービスに適用されるモデル生成装置、即ち本発明の情報処理装置の一実施形態のモデル生成装置のハードウェア構成の一例を示すブロック図である。図３に示したハードウェア構成を有するモデル生成装置の機能的構成の第１実施形態を示す機能ブロック図である。図４の機能的構成を有するモデル生成装置における、３次元モデル生成のためのブロックの一例を示す図である。図３に示したハードウェア構成を有するモデル生成装置の機能的構成の第２実施形態を示す機能ブロック図である。図６の機能的構成を有する第２実施形態のモデル生成装置の処理動作を示す概略図である。

　以下、本発明の実施形態について図面を用いて説明する。

　本発明の情報処理装置の実施形態は、２次元画像に基づいて３次元モデルを生成するアルゴリズムを用いることを前提としている。
　即ち、本発明の情報処理装置の実施形態が適用されるサービス（以下、「本サービス」と呼ぶ）は、実世界に存在する所定の対象物に対して２次元画像を取得し、その２次元画像から３次元モデルの生成を行うものである。

　まず、上述の特許文献１等に記載の従来の基礎技術について説明する。
　従来のフォトグラメトリ技術においては、対象物を複数の視点から撮像した複数の画像の夫々から特徴点を抽出し、複数の画像の夫々の特徴点を対応付けることで３次元空間上の点群を生成し、特徴点以外の点からさらに点群を追加することで、３次元画像を生成するアルゴリズムが採用されていた。このようなアルゴリズムは、いくつかの視点から特徴点までの距離を三角測量の技術をベースに３次元空間上の点群として再構成する、いわば、線形な補完を行うアルゴリズムであった。そのため、特許文献１等に記載の従来の技術においては、画像と画像の間のアングルの再現性が極めて低いという課題があった。

　これに対して、近年、機械学習の技術の発展に伴い、ニューラルネットワークを用いたＮｅＲＦ（Ｎｅｕｒａｌ　Ｒａｄｉａｎｃｅ　Ｆｉｅｌｄｓ）やそれを発展させた手法（アルゴリズム）が提唱されている。
　ＮｅＲＦは、ニューラルネットワークにより複数の視点間について非線形な補完を行うことができるアルゴリズムである。
　より具体的にはＮｅＲＦにおいては、まず初めに荒い格子を生成して学習処理を実行し、その結果から密な格子を生成するよう学習することで、学習結果として最終的な３次元モデルを出力することができる。

　さらに、非特許文献１に記載されているｉｎｓｔａｎｔ－ｎｇｐと呼ばれる手法（アルゴリズム）においては、学習処理の際に学習データがハッシュ関数を使用したエンコーディングされることにより、例えば従来のＮｅＲＦにおいて学習処理に３日程度の時間が必要であった処理を、数秒の学習処理で完了することができる。

　本発明は、このような先行技術を前提として、３次元モデルを生成するための学習処理の高速化を実現するものである。

　図１の例を、本サービスの３次元モデルの生成の流れの概要について説明する。
　図１には、本サービスで３次元モデルの生成の対象となる対象物Ｔが３次元空間中に図示されている。

　本サービスでは、対象物Ｔの３次元モデルを生成するため、Ｎの視点（Ｎは２以上の整数値）からライダにより測定された結果得られた深度データ、及び、Ｍの視点（ＭはＮ以下の整数値）からカメラにより撮像された撮像画像の画像データを用いて対象物Ｔの３次元モデルを生成する。

　なお、以下、図１の説明において、説明を分かり易くするため、深度データと画像データは別の時点に取得されたものであってもよいが、ある視点において同時に取得された深度データと画像データの組を用いるものとして説明する。
　また、図１の説明において、Ｎ＝Ｍ＝２であるものとし、２つの視点Ｐ１及びＰ２を用いて説明する。また、地点の夫々を区別する必要がない場合、複数の地点をまとめて地点Ｐと呼ぶ。

　なお、同一の視点からの深度データと画像データを取得する場合、以下のような手法をとることができる。即ち例えば、第１手法として、図１の視点Ｐ１にカメラＣ１を設置し、カメラＣ１から画像データを取得した後に、視点Ｐ１にＬｉＤＡＲ（以下「ライダ」と呼ぶ）Ｄ１等の深度計を設置し、ライダＤ１から深度データを取得する。これにより、２つの同一の視点からの深度データと画像データの組が、取得される。

　図２は、図１に示す本サービスにおいて、深度データと画像データを取得するためのカメラ及びライダの配置方法の一例を示す図である。
　また例えば、第２手法として、図２に示すように、カメラＣ１とライダＤ１とは所定の治具によりあらかじめ相互に固定されており、視点Ｐ１にカメラＣ１が配置された状態とする。次に、カメラＣ１から画像データを取得すると同時に、ライダＤ１から深度データを取得する。そして、所定の治具によるカメラＣ１とライダＤ１との相対位置や測定の方向（視線）がキャリブレーションされることにより、同一の視点からの深度データと画像データが取得される。
　ここで、キャリブレーションの結果、画像データ及び深度データはいずれも同一の視点に紐づけられることから、画像データ及び深度データは互いに同期されているといえる。
　なお、以下、本サービスでは、この第２手法が採用されているものとして説明する。

　まず、対象物Ｔの軸Ｘ正方向の視点Ｐ１からカメラＣ１を用いて対象物Ｔが撮像された結果得られる撮像画像Ｇ１が撮像される。このとき、同時に、ライダＤ１を用いて視点Ｐ１と同期された視点からの深度データが取得される。上述したように、深度データは適宜キャリブレーションされる。
　撮像画像Ｇ１には、視点Ｐ１から見た対象物Ｔの形状と色の情報が含まれている。

　次に、対象物Ｔの軸Ｙ正方向の視点Ｐ２からカメラＣ２を用いて対象物Ｔが撮像された結果得られる撮像画像Ｇ２が撮像される。このとき、同時に、ライダＤ２を用いて視点Ｐ２と同期された視点からの深度データが取得される。上述したように、深度データは適宜キャリブレーションされる。
　撮像画像Ｇ２には、視点Ｐ２から見た対象物Ｔの形状と色の情報が含まれている。

　なお、図１の説明において、視点Ｐ１及びＰ２の夫々において、カメラＣ１及びＣ２、ライダＤ１及びＤ２をそれぞれ用いるものとして説明したが、視点Ｐ１からカメラＣ１及びライダＤ１を視点Ｐ２に移動してカメラＣ２及びライダＤ２として使用することで、画像データと深度データを順次取得してもよい。
　このように、複数地点のカメラ及びライダを区別する必要がない場合それぞれまとめて「カメラＣ」及び「ライダＤ」と夫々呼ぶ。また、このような場合、カメラＣにより撮像された画像を「撮像画像Ｇ」と呼ぶ。

　例えば、特許文献１等に記載の従来の手法では、撮像画像Ｇ１及びＧ２といった複数の撮像画像の画像データのみを用いて３次元モデルを生成するため、画像の影になっている部分等の補完が困難であった。また、非特許文献１等に記載の手法であっても、より高精細な３次元モデルを生成する際には、ある程度の計算時間及び大量の計算資源のいずれかが必要であった。

　詳しくは後述するが、本サービスでは、上述したように複数の視点ＰのカメラＣにより取得された撮像画像Ｇの画像データと、ライダＤにより取得された深度データを用いて、対象物Ｔの３次元モデルを生成する。これにより、本サービスでは３次元モデルの生成をより高速に実行することができる。

　図１を見ると、視点Ｐ１から撮像画像Ｇ１の所定画素ＰＸ１を通過する矢印が二点鎖線で図示されている。そして、この二点鎖線で示される矢印上の点には、白抜きの丸と黒塗りの丸とが図示されている。

　白抜きの丸で示された矢印上の点は、その点が視点Ｐ１から見たときに対象物Ｔに接する前であることを示している。
　黒塗りの丸で示された矢印上の点は、その点が視点Ｐ１から見たときに対象物Ｔに接した後であることを示している。

　即ち、例えば、視点Ｐ１から二点鎖線で示された矢印にそって進行するものとして考えると、視点Ｐ１から白抜きの丸で示された矢印上の点を通過する間は、対象物Ｔが存在しないため何にも衝突しない。そして、白抜きの丸で示された矢印上の点と、黒塗りの丸で示された矢印上の点の間において、対象物Ｔと衝突する。この対象物Ｔと衝突した点の色が、撮像画像Ｇ１の所定の画素ＰＸ１の色として記録されるのである。さらに言えば、対象物Ｔが不透明であれば、最初の黒塗りの丸の点以降の点は、撮像画像Ｇ１に撮像されない。
　このように、視点Ｐ１から所定画素ＰＸ１を通過する矢印(直線)上において、矢印が対象物Ｔに衝突した位置の点が対象物Ｔの色に対応付けられる。

　上述したように、本サービスでは、視点Ｐ１からの深度データを同時に測定する。これにより、深度データから、上述の白抜きの丸の点と黒塗りの丸の点との間の距離が、深度データとして取得される。本サービスでは、３次元モデルの生成において考慮する領域を限定することにより、３次元モデルの生成の速度を向上させるのである。

　以上、図１及び図２を用いて、本サービスの概要について説明した。以下、図３乃至図５を用いて、本サービスが適用されるモデル生成装置について説明する。

　図３は、図１を用いて説明した本サービスに適用されるモデル生成装置、即ち本発明の情報処理装置の一実施形態のモデル生成装置のハードウェア構成の一例を示すブロック図である。
　モデル生成装置１は、ＣＰＵ１１と、ＧＰＵ１２と、ＲＯＭ１３と、ＲＡＭ１４と、バス１５と、入出力インターフェース１６と、入力部１７と、出力部１８と、記憶部１９と、通信部２０と、ドライブ２１と、を備えている。

　ＣＰＵ１１及びＧＰＵ１２は、ＲＯＭ１３に記録されているプログラム、又は、記憶部１９からＲＡＭ１４にロードされたプログラムに従って各種の処理を実行する。
　ＧＰＵ１２は、ソフトウェア処理を実行するコンピュートユニットと、ハードウェア処理を実行するＲＴコアを有する。ＲＴコアは、対象物を含む所定の３次元空間に対してレイトレーシングをハードウェアにて実行する。
　ＲＡＭ１４には、ＣＰＵ１１及びＧＰＵ１２が各種の処理を実行する上において必要なデータ等も適宜記憶される。

　ＣＰＵ１１、ＧＰＵ１２、ＲＯＭ１３及びＲＡＭ１４は、バス１５を介して相互に接続されている。このバス１５にはまた、入出力インターフェース１６も接続されている。入出力インターフェース１６には、入力部１７、出力部１８、記憶部１９、通信部２０及びドライブ２１が接続されている。

　入力部１７は、キーボードやマウス等で構成され、各種情報を入力する。
　出力部１８は、ディスプレイやスピーカ等で構成され、各種情報を画像や音声として出力する。

　記憶部１９は、ハードディスクやＤＲＡＭ（Ｄｙｎａｍｉｃ　Ｒａｎｄｏｍ　Ａｃｃｅｓｓ　Ｍｅｍｏｒｙ）等で構成され、各種データを記憶する。
　通信部２０は、インターネットを含むネットワークを介して他の装置との間で通信を行う。

　ドライブ２１には、磁気ディスク、光ディスク、光磁気ディスク、或いは半導体メモリ等よりなる、リムーバブルメディア３１が適宜装着される。ドライブ２１によってリムーバブルメディア３１から読み出されたプログラムは、必要に応じて記憶部１９にインストールされる。
　また、リムーバブルメディア３１は、記憶部１９に記憶されている各種データも、記憶部１９と同様に記憶することができる。

　次に、図４を参照して、図３に示すハードウェア構成を有するモデル生成装置１の機能的構成について説明する。
　図４は、図３のモデル生成装置の機能的構成の一例を示す機能ブロック図である。

　図４に示すように、モデル生成装置１のＣＰＵ１１は、深度データ取得部５０、実深度データ取得部５１と、深度データ推定部５２と、表面ラベリング部５３と、画像データ取得部５４と、３次元モデル生成部５５と、表示制御部５６とが機能する。
　記憶部１９の一領域には、深度モデル８０と、ラベリングデータ８１と、３次元モデル８２とが記憶される。

　深度データ取得部５０は、Ｎの所定視点から対象物Ｔまでの深度データを取得する。深度データには、所定視点から対象物Ｔの特徴点までの深度の情報が含まれる。

　以下、図４を用いて、深度データ取得部５０の機能的構成の一例を説明する。
　深度データ取得部５０は、実深度データ取得部５１及び深度データ推定部５２を有する。
　実深度データ取得部５１は、実世界においてＭの視点の夫々から測定された結果得られるＭの実深度データを取得する。即ち、実深度データ取得部５１は、実世界においてＭの視点の夫々からライダＤを用いて測定された結果得られるＭの実深度データを取得する。
　深度データ推定部５２は、実深度データ取得部５１により取得されたＭの実深度データに基づいてＮの深度データを推定し、推定したＮの深度データを取得する。
　具体的には例えば、深度データ推定部５２は、ニューラルネットワークを用いたアルゴリズムで実深度データ取得部５１により取得されたＭの実深度データに基づいて学習処理を行うことにより、対象物Ｔの３次元の深度モデル８０を生成又は更新する。
　対象物Ｔの３次元の深度モデル８０とは、所定の視点からの深度データを推論可能なモデルである。深度モデル８０は、記憶部１９の一領域に記憶されて管理される。

　表面ラベリング部５３は、深度データ取得部５０により取得されたＮの深度データに基づいて、対象物Ｔの表面をラベリングした結果を示すラベリングデータ８１を生成する。
　ラベリングとは、３次元空間上に有する対象物Ｔの表面の位置を、３次元モデルを生成する３次元の仮想空間上の位置に記録することをいう。
　ラベリングデータ８１は、記憶部１９の一領域に記憶されて管理される。

　画像データ取得部５４は、Ｎの視点のうちＭ（ＭはＮ以下の整数値）の視点の夫々と同期された視点Ｐから対象物Ｔが撮像された結果得られるＭの撮像画像Ｇの画像データを取得する。

　３次元モデル生成部５５は、画像データ取得部５４により取得されたＭの画像データ及びラベリングデータ８１に基づいて、対象物Ｔについての３次元モデル８２を生成する。３次元モデル８２は、記憶部１９の一領域に記憶されて管理される。
　３次元モデル生成部５５は、ブロックスキップ判定部５５１と、色学習部５５２とを有している。

　ブロックスキップ判定部５５１は、３次元モデルの生成のための学習データ生成するにあたり、ラベリングデータ８１に基づいて、視点Ｐから撮像画像Ｇの所定画素に対応する視線（図１の二点鎖線で示された矢印）が通過するブロックについて、対象物Ｔの表面が存在するか否かを判定する。
　ブロックスキップ判定部５５１によりそのブロックに対象物Ｔの表面が存在しないと判断された場合、そのブロックは、撮像画像Ｇのその所定画素の色に寄与していないものする。
　逆に、ブロックスキップ判定部５５１によりそのブロックに対象物Ｔの表面が存在すると判断された場合、そのブロックは、撮像画像Ｇのその所定画素の色に寄与している可能性があるものとする。
　そして、ブロックスキップ判定部５５１の判定により、その所定画素の色に寄与していると判断されたブロックについての学習用データが生成される。
　なお、ブロックスキップ判定部５５１がスキップするブロックの例については、図５を用いて後述する。

　色学習部５５２は、ブロックスキップ判定部５５１の判定結果に基づいて生成された学習データを用いて、３次元モデル８２に色を付与する学習を実行することで、３次元モデル８２を生成また更新する。
　具体的には、色学習部５５２において用いられる学習データは、上述したように、撮像画像Ｇの所定画素の色に寄与しないブロックについて、学習処理が（実質的に）実行されないデータとなっている。これにより、色学習部５５２における学習処理の時間が短縮される。

　このように、３次元モデリングにおいて、深度データを使用することで、対象物Ｔの存在しない空間（ブロック単位の空間）における学習を省略し、高速なモデリングが実現されるのである。
　また、モデリングにおいてブロックと比較して高精細な格子（ボクセル）を生成する際に、物体の表面がラベリングされた、即ち対象物Ｔが存在する空間（ブロック単位の空間）のボクセルを密にする。これにより、高精度なモデリングを実現するとともに、高速なモデリングを実現することができる。

　表示制御部５６は、深度モデル８０に基づいて、対象物Ｔの近傍を対象として描画処理を実行させることで、対象物Ｔについての３次元モデル８２をユーザ端末２に表示する制御を実行する。
　これにより、３次元モデル８２の描画において、３次元モデル８２を各方向から閲覧する際に３次元モデル８２の色に影響しない領域の描画を省略することにより、画像の生成や表示が高速になる。

　また、表示制御部５６は、対象物Ｔについての３次元モデル８２において生成されたネットワーク表現のまま描画された画像を表示する制御を実行することができる。
　ここで、ネットワーク表現の対象物Ｔについての３次元モデル８２とは、ニューラルネットワークにより作成される関数の表現形態をいう。ニューラルネットワークにより作成される関数の表現形態は、例えば、陰関数表現とも呼ばれる。３次元モデル８２は、ボクセルやメッシュ、ポリゴンなどを使用する形式に変換するとデータサイズが巨大になる。しかしながら、陰関数表現の表現形態の３次元モデル８２は、データサイズが小さい。このため、ネットワーク表現（陰関数表現）を採用することは、３次元モデル８２のデータの授受の際（例えば、インターネット経由のダウンロードの際）に、転送速度が高速となるといったメリットが存在する。
　即ち、表示制御部５６は、対象物Ｔの３次元モデル８２をレンダリングしなおすことなく、ネットワーク表現のまま表示する制御を実行することができる。

　以上、図３乃至図５を用いて本サービスが適用されるモデル生成装置について説明した。
　次に、本サービスにおける３次元モデル生成の高速化のための処理についてより具体的に説明する。
　図５は、図４の機能的構成を有するモデル生成装置における、３次元モデル生成のためのブロックの一例を示す図である。

　まず、図５を用いて、ブロックとボクセルの概念について説明する。
　図５に示す荒い格子は、図１の対象物Ｔが配置された仮想的な３次元空間を格子状に区分したブロックの境界を示している。また、図５に示す細かい格子は、ブロックと比較してより細かい格子で区分した境界を示している。

　図５に示すスライスＳＬｋが、ある軸Ｚの座標におけるブロックＢＬやボクセルＶＣの配列である。換言すれば、スライスＳＬｋを所定の第１単位で区分された結果得られる各領域がボクセルＶＣである。
　例えば、このボクセルＶＣが最終的に生成される３次元モデル８２の解像度に対応づいたものであるとすると、ボクセルＶＣを単位として３次元モデルの生成処理を実行すると処理は非効率となる。
　そこで、スライスＳＬｋが、第１単位より大きい第２単位で区分された結果得られる各領域、換言すると、ｎ個のボクセル群で構成される領域が、ブロックＢＬ１乃至ＢＬ７及びＢＬＫとして導入される。図５の例において、ｎは、軸Ｘの方向に４つ、軸Ｙの方向に４つ、軸Ｚの方向に１つの総計８である。なお、以下、軸Ｚの方向は１つという点で、ｘ×ｙとして、表記する。即ち、ｎ＝４×４のボクセルＶＣから１つのブロックＢＬ１乃至ＢＬ７が夫々構成されている。
　以下、複数のボクセルを個々に区別する必要が無い場合、「ボクセルＶＣ」と呼ぶ。同様に、個々のブロックＢＬ１乃至ＢＬ７等を個々に区別する必要が無い場合、「ブロックＢＬ」と呼ぶ。

　図５に示す太線で示されたブロックＢＬの領域は、対象物Ｔの２つの部分Ｔ１及び部分Ｔ２の夫々のオブジェクトを含み得る領域である。
　即ち、スライスＳＬｋにおいて、対象物Ｔの表面を含み得るブロックＢＬと、空の空間のブロックＢＬＫとが区別される。前者のブロックＢＬは撮像画像Ｇの所定画素の画素値（色）に反映される一方、後者のブロックＢＬＫは反映されない。そこで、以下、前者のブロックＢＬを「処理ブロックＢＬ」と呼び、後者のブロックＢＬＫを「非処理ブロックＢＬＫ」と呼ぶ。

　図５においては、本発明の理解を容易なものとすべく、「処理ブロックＢＬ」が太線で図示され、「非処理ブロックＢＬＫ」が破線で図示されている。なお、図３乃至図５においては、「処理ブロックＢＬ」のみが図示されている。
　具体的には例えば、図２の例では、スライスＳＬｋには、対象物Ｔの２つの部分Ｔ１及び部分Ｔ２の夫々を含み得る領域が存在する。対象物Ｔの部分Ｔ１を含み得る領域として、４つの処理ブロックＢＬ１乃至ＢＬ４が図示されている。また、対象物Ｔの部分Ｔ２を含み得る領域として、３つの処理ブロックＢＬ５乃至ＢＬ７が図示されている。

　図４の説明の表面ラベリング部５３は、このように、対象物Ｔの部分Ｔ１及び部分Ｔ２の表面を含みえるブロックＢＬを判定することで、ラベリングする。太い枠で囲まれたブロックは、対象物Ｔの表面が存在するとラベリングされたブロックである旨を示している。

　そして、３次元モデル生成部５５は、処理ブロックＢＬについての色情報を学習（モデリング）し、非処理ブロックＢＬＫについての色情報については学習処理が実行されないように、学習用（モデリング）データとして生成して、３次元モデル８２の生成また更新を実行する。これにより、３次元モデル８２の生成又は更新の処理が高速化されるのである。
　即ち例えば、対象物Ｔの部分Ｔ１の軸Ｙ正方向から撮像された撮像画像Ｇ（例えば、図１の撮像画像Ｇ２）において、非処理ブロックＢＬＫ１乃至ＢＬＫ３の学習は行われない学習用データが生成されるのである。

　続いて、本発明に係る情報処理装置に係る第２実施形態のモデル生成装置を説明する。
　上記第１実施形態では、写真データ（カラー画像）と深度データから３次元モデルを生成する例を説明し、この他、ニューラルネットワークにより陰関数表現の３次元モデルを生成してもよい旨を記載したが、この第２実施形態では、より詳細に、第１実施形態のように写真データ、つまり色付きの画像データが取得できない場合に深度データから３次元モデルを生成する例を説明する。
　具体的には、第２実施形態は、異なる方向から対象物Ｔとの距離を計測した２以上の深度データのマップをニューラルネットワークに覚え込ませておき、深度を計測していない方向から対象物Ｔの面までの距離を推定して、異なる方向からの距離のマップを生成することで３次元的な白黒物体を再現できるようにしたものである。
　即ち第２実施形態のは、ＬｉＤＡＲ等の深度センサにより対象物Ｔの深度情報を点群として取得し、その点群のデータをニューラルネットワークの機械学習手法で補間し、陰関数で表現される形態の３次元モデルを生成する。
　これにより、第１実施形態のようなボクセルの形態の３次元モデルに比べて計算コストやデータサイズを削減することができる。

　次に、図６、図７を参照して第２実施形態のモデル生成装置を具体的に説明する。
　図６は、図３に示したハードウェア構成を有するモデル生成装置の機能的構成の第２実施形態を示す機能ブロック図である。
　図７は、図６の機能的構成を有する第２実施形態のモデル生成装置の処理動作を示す概略図である。

　第２実施形態のモデル生成装置１が対象物Ｔの３次元モデルを生成する処理を実行する際に、図６に示すように、ＣＰＵ１１において、深度データ取得部５０と、陰関数生成部６０と、３次元モデル生成部６１と、が機能する。

　深度データ取得部５０は、例えば図７の視点Ｐ１、Ｐ２（所定視点）から対象物Ｔの特徴点までの深度を示す深度データ（具体的にはライダＤ１、Ｄ２により測定された深度データ）について、Ｎ（Ｎは２以上の整数値）の視点毎に取得する。

　陰関数生成部６０は、所定の機械学習として例えば陰関数モデル８３（ニューラルネットワーク）を用いた学習を実行する。
　学習の際、陰関数生成部６０は、異なる方向からの教師データとして深度データを陰関数モデル８３に入力することで、機械学習を実行させて、陰関数モデル８３から出力する陰関数の精度が高められる。
　具体的には、入力される深度データの位置に物体があるか否かを表す関数を学習することで３次元的にその物体の形状の表面がどれぐらいの距離にあるかという距離関数を推定する。

　実際に３次元モデルを生成するときには、深度データ取得部５により取得される深度データを入力として陰関数モデル８３に与えて陰関数モデル８３から出力される陰関数を生成し３次元モデル生成部６１へ出力する。

　３次元モデル生成部６１は、陰関数生成部６０により生成（出力）される陰関数に基にづいて対象物Ｔの３次元モデル８２をモデリング（生成）し、陰関数表現の形式で記憶部１９に記憶する。

　この第２実施形態では、表示制御部５６は、対象物Ｔの３次元モデル８２をレンダリングし直すことなく、ネットワーク表現（陰関数表現）のまま対象物Ｔの３次元形状を表示する制御を実行する。

　この第２実施形態では、３次元モデル８２は、陰関数表現形式で記憶される。
　このモデル生成装置１の場合、複数の視点から対象物を観測した際に、それぞれの視点から物体表面までの距離が観測される。例えば視点Ｐ１から観測された場合、物体上の点が観測位置からどの程度離れているかが観測される。この観測値は一例としてグレースケールの画像で表され、物体がないところは黒色で、物体までの距離が近いところが白色で表される。

　モデル生成装置１は、観測値が得られていない視点から物体までの距離を推測することを可能とする。
　図７で示す視点のうち、視点Ｐ１と視点Ｐ２からの観測値が得られていると仮定する。このとき、対象物Ｔ上のある点に対して、視点Ｐ１と視点Ｐ２からの距離が得られる。しかし他の視点からの距離は観測されておらず、同様にそのほかの視点からの距離も観測できていないため、２方向からの観測値だけからは対象物Ｔの３次元モデル生成は困難である。

　そこで、視点Ｐ１、Ｐ２以外からの距離の推定が必要である。既存のフォトグラメトリ等の手法では視点Ｐ１と視点Ｐ２のデータから他の視点のデータを関数により補完し、他の視点における物体表面までの距離を推定する。
　実際に対象物Ｔの３次元モデルを生成する場合には、より多くの視点からの観測値を使用して、観測されていない視点からの対象物表面までの距離を推定する。しかし、視点の位置座標及び対象物Ｔに対する角度を変数とした場合の、対象物Ｔ表面までの距離の関数は非線形な関数であり推定が困難である。

　そこで、この第２実施形態のモデル生成装置１では、観測されていない視点から対象物Ｔ表面までの距離を、陰関数モデル８３等（ニューラルネットワーク）の機械学習手法を使用して推定する。ニューラルネットワークによる推定は非線形な関数を内挿により推定することに適した手法であり、既存の補完手法よりも精度よく推定が可能である。

　図７は、図６の機能的構成を有する第２実施形態のモデル生成装置の深度計測モデルの概略図である。

　第２実施形態のモデル生成装置１の場合、ＬｉＤＡＲ等の深度計Ｄにより観測された２以上の方向からの深度データを深度データ取得部５０が取得し、当該深度データの夫々を陰関数生成部６０に出力する。
　陰関数生成部６０は、深度データ取得部５０から出力された２以上の方向からの深度データを、陰関数モデル８３に入力として与えて、陰関数モデル８３に、物体の表面までの距離を推定させて、その距離に応じた陰関数を出力させる。陰関数生成部６０は、陰関数モデル８３から出力された陰関数を受け取り、３次元モデル生成部６１へ出力する。
　３次元モデル生成部６１は、陰関数を受けて陰関数表現の形式によるボリュームデータの３次元モデル８２を生成し記憶部１９に記憶する。
　また、３次元モデル生成部６１は、ユーザ端末２から要求に応じて、３次元モデル８２を記憶部１９から読み出してボリュームレンダリング等のレンダリング手法により表示制御部５６を介してユーザ端末２に出力する。これにより、ユーザ端末２のディスプレイ等に３次元の物体が白黒の状態で再現される。

　陰関数モデル８３による観測値の内挿には複数の方法が想定されるが、一例としては以下の方法で実施される。ＬｉＤＡＲ等の観測装置の座標をｘ＝（ｘ，ｙ，ｚ）、また観測面の物体に対する角度をｄ＝（θ，φ）とすると、対象物上のある１点までの直線はｒ（ｔ）＝ｏ＋ｔｄとして表される。ここで符号ｏは座標原点である。加えて物体の密度をσ（ｘ）とすると、対象物Ｔ表面までの距離の関数Ｓ（ｒ）は、次の式（１）で表される。

　　　　　　　　　　　　　　　　　　　　　　　　　　　・・・式（１）

　上記式（１）において、Ｔ（ｔ）は、ｔという変数の関数である。Ｔ（ｔ）は、特定の視点から見た際の対象物の奥側の影響を削除するための関数である。Ｔ（ｔ）の積分により、ある視点から対象物を観測した場合に、物体表面に値を持ちそれ以外の空間上の点では相対的に小さな値となる関数が生成される。
　このＴ（ｔ）は、距離関数Ｓ（ｒ）から決定される。距離関数Ｓ（ｒ）は、ある面から見たときに物体がどこに存在するか表す関数である。
　この２つが分かれば、その位置（ｘ、ｙ、ｚ）とθとφというのを決めると物体を定義することができる。
　Ｔ（ｔ）を含む距離の関数Ｓ（ｒ）を陰関数モデル８３（ニューラルネットワーク）により生成することで、対象物Ｔの３次元モデル８２が生成可能である。

　図７に示すように、例えば視点Ｐ１の位置のライダＤ１を観測装置とし、その位置の座標をｘ、ｙ、ｚとすると、そのｘ、ｙ、ｚが中心位置に割り当てられる。中心位置（ｘ、ｙ、ｚ）から対象物Ｔに向いている直線の方向を角度θと角度φで定義される角度Ｄとすると、対象物Ｔ上のある１点までの直線というのは式ｒ（ｔ）で表される。
　式ｒ（ｔ）は、簡単な直線の方程式であり、ここから物体の黒い点までの距離が原点ｏとｔｄという形で表される。
　この式ｒ（ｔ）では、原点ｏを座標原点として、角度Ｄの方向に向かって何倍かするとその点までたどり着く、という物体上の点の位置を表す変数Ｒというのが定義できる。

　今回、物体の密度としているが、これは物体の表面を推定するために密度が高いところは物体が存在するという定義をσ（ｘ）として定義し、対象物Ｔの表面までの距離は、例えば積分の方程式である距離関数Ｓ（ｒ）で定義することができる。
　距離関数Ｓ（ｒ）を関数Ｔ（ｔ）の中の積分値とする。
　関数Ｔ（ｔ）は、３次元空間の中に物体がどういう形状で配置されてるかを表しており、特定の視点から見た際の対象物体の奥側の影響を削除するための関数である。
　関数Ｔ（ｔ）という積分をすると、距離関数が３次元的に存在していて、そのある側面から見た際にその物体がどこにあるかを表すために、この関数Ｔ（ｔ）が必要になる。このような関数を使用することで、ある視点から対象物Ｔを観測する際に物体表面にだけ値があって、それ以外の空間上では小さな値となる。
　つまり物体があるか否かを表す関数になるので、この関数を学習するニューラルネットワークを生成すると３次元的にその物体の形状の表面がどれぐらいの距離にあるかという距離関数を推定することができる。

　一般的に、ＬｉＤＡＲデータを用いた観測により生成されるデータは、点群データとして対象物Ｔの表面上のデータのみを保存するが、この第２実施形態では、３次元モデル８２は、関数表現の形式によるボリュームデータとして記憶部１９に保存される。
　ボリュームデータは、点群とは異なる特徴を持ち、軽量なデータ容量及び衝突解析等のシミュレーションへの適用において利点を持つ。

　また、ボリュームデータとして観測値が保存されることにより、最終的な出力においてボリュームレンダリングの手法を適用することも可能である。なお、出力の方法についても、観測したデータの適用先により様々な出力手法が想定される。

　このようにこの第２実施形態のモデル生成装置１によれば、第１実施形態のようにボクセルやメッシュ、ポリゴン等を使用する形式に変換した３次元モデルを生成するとデータサイズが巨大になるが、陰関数で表現される形態の３次元モデル８２は、データサイズを少なくすることができる。このため、ニューラルネットワーク表現（陰関数表現）を採用することは、３次元モデル８２のデータの授受の際（例えば、インターネット経由で３次元モデル８２をダウンロードする際）に、３次元モデル８２のデータを高速にダウンロードすることができる。
　この結果、対象物Ｔまでの深度を計測した深度データを用いて対象物Ｔの３次元モデルを生成する際の精度の向上や計算コストの削減といった、より利便性の高い生成手法を実現することができる。

　以上、本発明の一実施形態について説明したが、本発明は、上述の実施形態に限定されるものではなく、本発明の目的を達成できる範囲での変形、改良等は本発明に含まれるものとみなす。

　例えば、上述の実施形態では、深度データを取得する視点Ｐの数Ｎと、画像データを取得する視点Ｐの数Ｍとは、同一であるものとして説明したが特にこれに限定されない。即ち、深度データを取得する視点Ｐの数Ｎと、画像データを取得する視点Ｐの数Ｍとは、異なっていてもよい。
　この場合、例えば、まず、Ｎの深度データから深度モデル８０が生成され、深度モデル８０を用いて、Ｎの視点Ｐとは異なるＭの視点Ｐにおける深度データを深度モデル８０から演算することで実現することができる。

　また、例えば、深度データはライダＤ等のセンサにより直接観測されたものであっても、その他のデータから推定されたものであってもよい。
　即ち例えば、深度データ取得部５０は、実深度データを取得したり、深度モデル８０を生成又は更新の上、画像データに対応するＭの視点Ｐにおける深度データとするのではなく、あらかじめ用意された深度モデル８０から画像データに対応するＭの視点Ｐにける深度データを取得してもよい。

　また例えば、上述の実施形態において、カメラＣ１とライダＤ１とは所定の治具によりあらかじめ相互に固定されており、所定の治具によるカメラＣ１とライダＤ１との相対位置や測定の方向（視線）がキャリブレーションされることにより、同一の視点からの深度データと画像データが取得されるものとしたが、特にこれに限定されない。即ち、キャリブレーションの手法は各種各様なものを採用してもよい。具体的には例えば、カメラＣにおいて撮影した視点Ｐの位置情報を、ＧＰＳ（Ｇｌｏｂａｌ　Ｐｏｓｉｔｉｏｎｉｎｇ　Ｓｙｓｔｅｍ）等の技術を用いて取得及び記録した後、その位置情報を用いて同じ視点からライダＤで深度データを取得してもよい。なお、カメラＣとライダＤでのデータ取得の順番はいずれが先であってもよいのは言うまでもない。

　また例えば、Ｓｔｒｕｃｔｕｒｅ　ｆｒｏｍ　ｍｏｔｉｏｎなどの画像データから深度を推定する手法を用いて、深度モデル８０を生成してもよい。

　また、図４に示す機能ブロック図は、例示に過ぎず、特に限定されない。即ち、上述した一連の処理を全体として実行できる機能やデータベースが情報処理システムに備えられていれば足り、この機能を実現するためにどのような機能ブロックを用いるのかは、特に図７の例に限定されない。
　また、機能ブロック及びデータベースの存在場所も、図４に限定されず、任意でよい。

　また、上述した一連の処理は、ハードウェアにより実行させることもできるし、ソフトウェアにより実行させることもできる。
　また、１つの機能ブロックは、ハードウェア単体で構成してもよいし、ソフトウェア単体で構成してもよいし、それらの組み合わせで構成してもよい。

　一連の処理をソフトウェアにより実行させる場合には、そのソフトウェアを構成するプログラムが、コンピュータ等にネットワークや記録媒体からインストールされる。
　コンピュータは、専用のハードウェアに組み込まれているコンピュータであってもよい。
　また、コンピュータは、各種のプログラムをインストールすることで、各種の機能を実行することが可能なコンピュータ、例えばサーバの他汎用のスマートフォンやパーソナルコンピュータであってもよい。

　このようなプログラムを含む記録媒体は、ユーザにプログラムを提供するために装置本体とは別に配布される図示せぬリムーバブルメディアにより構成されるだけでなく、装置本体に予め組み込まれた状態でユーザに提供される記録媒体等で構成される。

　なお、本明細書において、記録媒体に記録されるプログラムを記述するステップは、その順序に沿って時系列的に行われる処理はもちろん、必ずしも時系列的に処理されなくとも、並列的あるいは個別に実行される処理をも含むものである。
　また、本明細書において、システムの用語は、複数の装置や複数の手段等より構成される全体的な装置を意味するものとする。

　以上まとめると、本発明が適用される情報処理システムは、次のような構成を取れば足り、各種各様な実施形態を取ることができる。
　即ち、本発明が適用される情報処理装置（例えば、図６のモデル生成装置１）は、
　所定視点（例えば、図７の視点Ｐ１，Ｐ２）から対象物（例えば図７の対象物Ｔ）の特徴点までの深度を示す深度データ（例えば、図７のライダＤ１，Ｄ２により測定された深度データ）について、Ｎ（Ｎは２以上の整数値）の視点毎に取得する深度データ取得手段（例えば、図６の深度データ取得部５０）と、
　前記Ｎの深度データを用いた所定の機械学習（例えば陰関数モデル８３等のニューラルネットワークによる学習）を実行することで、任意の視点からの前記対象物の表面の特徴点までの距離を推定する関数（例えば陰関数）を生成する距離関数生成手段（例えば図６の陰関数生成部６０）と、
　を備えれば足りる。
　これにより、対象物（例えば図７の対象物Ｔ）の３次元モデルを生成する際の精度の向上、計算コストやデータサイズの削減といった、より利便性の高い生成手法を実現することができる。

　前記距離関数生成手段（例えば図６の陰関数生成部６０）は、前記所定の機械学習としてニューラルネットワーク（例えば図６の陰関数モデル８３）を用いた学習を実行し、前記関数として、前記ニューラルネットワーク（例えば図６の陰関数モデル８３）により生成される陰関数を生成する、ことができる。

　前記陰関数は、次の式（１）により示される関数である。

　　　　　　　　　　　　　　　　　　　　　　　　　　　・・・式（１）

　１・・・モデル生成装置、２・・・ユーザ端末、１１・・・ＣＰＵ、１９・・・記憶部、２１・・・ドライブ、３１・・・リムーバブルメディア、５０・・・深度データ取得部、５１・・・実深度データ取得部、５２・・・深度データ推定部、５３・・・表面ラベリング部、５４・・・画像データ取得部、５５・・・３次元モデル生成部、５６・・・表示制御部、６０・・・陰関数生成部、６１・・・３次元モデル生成部、５５１・・・ブロックスキップ判定部、５５２・・・色学習部、８０・・・深度モデル、８１・・・ラベリングデータ、８２・・・３次元モデル

Claims

　所定視点から対象物の特徴点までの深度を示す深度データについて、Ｎ（Ｎは２以上の整数値）の視点毎に取得する深度データ取得手段と、
　前記Ｎの深度データを用いた所定の機械学習を実行することで、任意の視点からの前記対象物の表面の特徴点までの深度を推定する関数を生成する距離関数生成手段と、
　を備える情報処理装置。
　前記距離関数生成手段は、前記所定の機械学習としてニューラルネットワークを用いた学習を実行し、前記関数として、前記ニューラルネットワークにより生成される陰関数を生成する、
　請求項１に記載の情報処理装置。
　前記陰関数は、次の式（１）により示される関数である、

　　　　　　　　　　　　　　　　　　　　　　　　・・・式（１）
　請求項２に記載の情報処理装置。
　所定視点から対象物の特徴点までの深度を示す深度データについて、Ｎ（Ｎは２以上の整数値）の視点毎に取得する深度データ取得ステップと、
　前記Ｎの深度データを用いた所定の機械学習を実行することで、任意の視点からの前記対象物の表面の特徴点までの距離を推定する関数を生成する距離関数生成ステップと、
　を含む情報処理方法。
　コンピュータに、
　所定視点から対象物の特徴点までの深度を示す深度データについて、Ｎ（Ｎは２以上の整数値）の視点毎に取得する深度データ取得ステップと、
　前記Ｎの深度データを用いた所定の機械学習を実行することで、任意の視点からの前記対象物の表面の特徴点までの距離を推定する関数を生成する距離関数生成ステップと、
　を含む制御処理を実行させるプログラム。