JP7294788B2 - 3d配置のタイプに応じた2d画像の分類 - Google Patents

3d配置のタイプに応じた2d画像の分類 Download PDF

Info

Publication number
JP7294788B2
JP7294788B2 JP2018196529A JP2018196529A JP7294788B2 JP 7294788 B2 JP7294788 B2 JP 7294788B2 JP 2018196529 A JP2018196529 A JP 2018196529A JP 2018196529 A JP2018196529 A JP 2018196529A JP 7294788 B2 JP7294788 B2 JP 7294788B2
Authority
JP
Japan
Prior art keywords
scene
type
image
manhattan
initial
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2018196529A
Other languages
English (en)
Other versions
JP2019091436A (ja
Inventor
パンチアチチ ジャニン
トルス キングダム
ソルタニ マリエム
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dassault Systemes SE
Original Assignee
Dassault Systemes SE
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dassault Systemes SE filed Critical Dassault Systemes SE
Publication of JP2019091436A publication Critical patent/JP2019091436A/ja
Application granted granted Critical
Publication of JP7294788B2 publication Critical patent/JP7294788B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/772Determining representative reference patterns, e.g. averaging or distorting patterns; Generating dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/28Determining representative reference patterns, e.g. by averaging or distorting; Generating dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T17/00Three dimensional [3D] modelling, e.g. data description of 3D objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Evolutionary Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Multimedia (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Graphics (AREA)
  • Geometry (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)
  • Processing Or Creating Images (AREA)

Description

本発明は、コンピュータプログラムおよびシステムの分野に関し、より具体的には、3次元(3D)配置の所定の種類により2次元(2D)画像を分類するために適用される関数の学習のために構成されたデータセットの形成に関する。
オブジェクトの設計、エンジニアリング、製造のため、多数のシステムおよびプログラムが市場に提供されている。CADは、コンピュータ支援設計(Computer-Aided Design)の略語であり、例えば、オブジェクトを設計するためのソフトウェア・ソリューションに関する。CAEは、コンピュータ支援エンジニアリング(Computer-Aided Engineering)の略語であり、例えば、将来の製品の物理的挙動をシミュレーションするためのソフトウェア・ソリューションに関する。CAMは、コンピュータ支援製造(Computer-Aided Manufacturing)の略語であり、例えば、製造工程および動作を定義するためのソフトウェア・ソリューションに関する。このようなコンピュータ支援設計システムにおいて、グラフィカル・ユーザ・インターフェースは、技術の効率に関して、重要な役割を果たす。これらの技術は、製品ライフサイクル管理(Product Lifecycle Management:PLM)システムに組み込むことができる。PLMとは、企業が、拡張エンタープライズの概念全体にわたって、製品データを共有し、共通の工程を適用し、構想に始まり製品寿命の終わりに至る製品開発のための企業知識を活用するのを支援するビジネス戦略を指す。ダッソー・システムズが提供するPLMソリューション(製品名CATIA、ENOVIA、DELMIA)は、製品エンジニアリング知識を体系化するエンジニアリング・ハブ、製造エンジニアリング知識を管理する製造ハブ、およびエンジニアリング・ハブと製造ハブの両方に対するエンタープライズ統合と接続を可能にするエンタープライズ・ハブを提供する。全てのシステムは、製品、工程、リソースを結ぶオープンなオブジェクトモデルを提供し、最適化された製品定義、製造準備、生産およびサービスを推進する、動的な知識ベースの製品作成および意思決定支援を可能にする。
こうした文脈において、2D画像内における可視オブジェクトの3D配置のタイプ、例えば、マンハッタン(Manhattan)タイプ、あるいはマンハッタンタイプでもアトランタ(Atlanta)タイプでもないタイプを認識するのに、2D画像を分類することは、有用であり得る。
したがって、関数を学習するよう構成されたデータセットを形成するための、コンピュータにより実施される方法が提供される。当該関数は、2D画像内における可視オブジェクトについての3D配置の所定のタイプに応じて2D画像を分類するように構成される。本方法は、3D配置の各タイプについてループされる。本方法は、3Dシーンを構築することを含む。構築された各3Dシーンは、3D配置の各タイプに応じて配置された3Dモデル化オブジェクトを含む。本方法はまた、2D画像を生成することを含む。生成された各2D画像は、構築された各3Dシーンの2D視野を表す。各2D視野において、可視3Dモデル化オブジェクトは、3D配置の各タイプに応じて配置された、構築された各3Dシーンの3Dモデル化オブジェクトのうちのオブジェクトである。本方法はまた、上記データセットに訓練パターンを追加することを含む。追加された各訓練パターンは、生成された各2D画像と、3D配置の各タイプを示す情報とを含む。
これにより、本方法は、2D画像内における可視オブジェクトの3D配置のタイプに応じた2D画像の分類に対する、機械学習パラダイムの適用をなす。本方法は、実際、そのような分類を実行するように構成された関数を学習するように適合されたデータセットの形成を提案する。このように、本方法は、リアルタイムで用いるのに十分高速な、正確な関数を、比較的効率的に提供する。さらに、本方法は、3Dモデル化経由でデータセットを形成することを提案する。具体的には、本方法は、3Dシーンを構築することと、次いで当該3Dシーンに基づいて訓練パターンを生成してデータセットに取り込むことを含む。そのようなワークフローのおかげで、本方法は、比較的効率的に、比較的多様なデータセットを形成する。当該ワークフローにより、実際、本方法は、訓練パターンを必要な数だけ、完全な制御下で出力できるようになる。これにより効率的で安全な機械学習が可能になる。
本方法は、以下のうちの1つまたは複数を含んでいてもよい。
・3D配置の少なくとも1つのタイプについて、構築された1つまたは複数の3Dシーンの全ての3Dモデル化オブジェクトは、3D配置の各タイプに応じて配置される。
・3D配置の所定のタイプは、マンハッタンタイプ、および/または、アトランタタイプを含む。
・3D配置の各タイプについてのそれぞれの3Dシーンの前記構築は、最初の3Dシーンおよび1つまたは複数の基準フレームを提供することと、3D配置の各タイプに基づいて、前記1つまたは複数の基準フレームを基準として前記最初の3Dシーン内に3Dモデル化オブジェクトを配置することとを含む。
・前記3D配置の所定のタイプはマンハッタンタイプを含み、マンハッタンタイプについて各3Dシーンを構築するために、前記提供された1つまたは複数の基準フレームは単一のマンハッタンフレームからなり、かつ/または、前記提供された最初の3Dシーンは、それぞれ、前記単一のマンハッタンフレームとアラインした3Dモデル化オブジェクトを含む。
・前記3D配置の所定のタイプは前記アトランタタイプを含み、前記アトランタタイプについて各3Dシーンを構築するために、前記提供された1つまたは複数の基準フレームは、軸を共有する1つまたは複数のマンハッタンフレームからなり、かつ/または、前記提供された最初の3Dシーンは、それぞれのマンハッタンフレームと、またはオプションとして、同一のマンハッタンフレームとアラインした3Dモデル化オブジェクトを含む。
・前記マンハッタンタイプについて3Dシーンを構築するために、それぞれ前記単一のマンハッタンフレームとアラインした3Dモデル化オブジェクトを前記最初の3Dシーンに追加すること。
・前記アトランタタイプについて3Dシーンを構築するために、それぞれ各マンハッタンフレームとアラインした3Dモデル化オブジェクトを前記最初の3Dシーンに追加すること。
・最初の3Dシーンを提供することは、前記最初の3Dシーンを表す最初の2D画像を提供することと、前記最初の2D画像に基づき前記最初の3Dシーンを決定することとを含む。
・前記最初の2D画像に基づく前記最初の3Dシーンの決定は、前記最初の2D画像の特徴線分を算出することと、前記特徴線分に基づいて消失点を決定することと、前記消失点に基づいて、1つまたは複数のマンハッタンフレームおよび2Dから3Dへのそれぞれの投影を決定することと、各特徴線分および各投影に基づいて、少なくとも1つのマンハッタンフレームにおいて3Dモデル化オブジェクトを構築することとを含む。
・前記最初の2D画像の前記特徴線分の算出は、エッジ画素を算出することと、エッジ画素を極大線にフィッティングすることとを含む。
・本方法は、前記データセットに基づいて関数を学習することをさらに含み、またオプションとして、入力2D画像を提供することと、前記入力2D画像に前記学習した関数を適用して、前記入力2D画像を分類することとをさらに含む。
・本方法は、前記入力2D画像および前記入力2D画像の分類に基づいて、それぞれ2Dから各3Dマンハッタンフレームへの、1つまたは複数の投影を決定することをさらに含む。かつ/または、
・本方法は、前記1つまたは複数の投影に基づき、前記入力2D画像によって表される3Dシーンを出力することをさらに含み、またオプションとして、入力2D画像の表現の上にユーザがスケッチすることによって前記3Dシーンを編集することをさらに含む。
さらには、本方法によって形成可能なデータセットが提供される。このようなデータセットは本方法によって追加された訓練パターンを含み、当該データセットはそれにより比較的網羅的で、正確である。
さらには、データセットで関数を学習することを含むプロセスが提供される。さらには、このようなプロセスによって学習可能な関数が提供される。当該関数、例えばニューラルネットワークは、3D配置の所定のタイプに応じて2D画像を分類するように構成される。
さらには、本方法、および/または、本プロセスを実行するための命令を含むコンピュータプログラムが提供される。
さらには、前記データセット、前記関数、および/または、前記プログラムを含むデータ構造が提供される。
さらには、前記データ構造が記録されたデータ記憶媒体を含む装置が提供される。前記装置は、非一時的コンピュータ読み取り可能媒体を構成してもよい。あるいは、前記装置は、前記データ記憶媒体に接続されたプロセッサを備えていてもよい。前記装置は、そのように、システムを構成してもよい。前記システムはさらに、前記プロセッサに接続されたグラフィカル・ユーザ・インターフェースを備えていてもよい。
本システムの一例を示す。 本方法を説明する図である。 本方法を説明する図である。 本方法を説明する図である。 本方法を説明する図である。 本方法を説明する図である。 本方法を説明する図である。 本方法を説明する図である。 本方法を説明する図である。 本方法を説明する図である。 本方法を説明する図である。 本方法を説明する図である。 本方法を説明する図である。 本方法を説明する図である。 本方法を説明する図である。 本方法を説明する図である。 本方法を説明する図である。 本方法を説明する図である。 本方法を説明する図である。 本方法を説明する図である。 本方法を説明する図である。 本方法を説明する図である。 本方法を説明する図である。 本方法を説明する図である。 本方法を説明する図である。 本方法を説明する図である。 本方法を説明する図である。
本方法は、コンピュータにより実施される。これは、本方法のステップ(あるいは略全てのステップ)が少なくとも1つのコンピュータ、または類似の任意のシステムによって実行されることを意味する。よって本方法のステップは、コンピュータにより、完全に自動的に、あるいは半自動的に実行される可能性がある。例において、本方法の少なくともいくつかのステップは、ユーザとコンピュータの対話を通じて始動されてもよい。求められるユーザとコンピュータの対話レベルは、想定される自動性のレベルに応じたものであって、ユーザの要望を実装する必要性との間でバランスをとるものとしてもよい。例において、このレベルは、ユーザが設定し、かつ/または、予め定義されていてもよい。例において、3Dシーンの構築、2D画像の生成、およびデータセットの追加は、完全に自動的に実行され得る。
本方法のコンピュータによる実施の典型的な例は、この目的に適したシステムを用いて本方法を実行することである。当該システムは、本方法を実行するための命令を含むコンピュータプログラムを記録したメモリに接続されたプロセッサ、および、グラフィカル・ユーザ・インターフェース(GUI)を備えていてもよい。メモリは、データベースを記憶していてもよい。メモリは、そのような記憶に適した任意のハードウェアであり、場合により、物理的に区別可能ないくつかの部分(例えば、プログラム用に1つ、場合によりデータベース用に1つ)を含む。
コンピュータプログラムは、コンピュータによって実行可能な命令を含んでいてもよく、命令は、上記システムに本方法を実行させるための手段を含む。プログラムは、システムのメモリを含む任意のデータ記憶媒体に記録可能であってもよい。プログラムは、例えば、デジタル電子回路、またはコンピュータハードウェア、ファームウェア、ソフトウェア、またはそれらの組み合わせで実装されてもよい。プログラムは、例えばプログラマブルプロセッサによる実行のための機械読み取り可能な記憶装置に具体的に実現された製品のような装置として実装されてもよい。方法ステップは、プログラム可能なプロセッサが命令のプログラムを実行し、入力データを操作して出力を生成することによって方法の機能を実行することによって実行されてもよい。したがって、プロセッサは、データ記憶システム、少なくとも1つの入力デバイス、および少なくとも1つの出力デバイスからデータおよび命令を受信し、また、それらにデータおよび命令を送信するようにプログラム可能であってもよく、またそのように接続されていてもよい。アプリケーションプログラムは、高水準の手続き型またはオブジェクト指向のプログラミング言語で、または必要に応じてアセンブリ言語または機械語で実装されていてもよい。いずれの場合も、言語はコンパイラ型言語またはインタープリタ型言語であってもよい。プログラムは、フルインストールプログラムまたは更新プログラムであってもよい。いずれの場合も、プログラムをシステムに適用すると、本方法を実行するための指示が得られる。
モデル化オブジェクトは、例えばデータベースに格納されたデータによって定義される任意のオブジェクトである。さらには、「モデル化オブジェクト」という表現は、データそのものも指す。システムの種類に応じて、モデル化オブジェクトは、異なる種類のデータによって定義されてもよい。実際、システムは、CADシステム、CAEシステム、CAMシステム、PDMシステム、および/またはPLMシステムのうちの任意の組み合わせであってもよい。それら異なるシステムにおいて、モデル化オブジェクトは、対応するデータによって定義される。したがって、CADオブジェクト、PLMオブジェクト、PDMオブジェクト、CAEオブジェクト、CAMオブジェクト、CADデータ、PLMデータ、PDMデータ、CAMデータ、CAEデータについて言及することがある。しかしながら、モデル化オブジェクトは、これらのシステムの任意の組み合わせに対応するデータによって定義されてもよいため、これらのシステムは、互いに排他的なものではない。したがって、システムは、CAD兼PLMシステムであってもよい。
CADの文脈において、モデル化オブジェクトは、典型的には、3Dモデル化オブジェクトであってもよい。「3Dモデル化オブジェクト」は、3D表現が可能なデータによってモデル化される任意のオブジェクトを意味する。3D表現は、その部品をすべての角度から見ることを可能にする。たとえば、3Dで表現された3Dモデル化オブジェクトは、その軸のうちの任意の軸、あるいは、その表現が表示された画面中の任意の軸を中心に、処理して回転させることが可能である。これは、特に、3Dモデル化されていない2Dアイコンについては除外される。3D表現の表示は、設計を容易にする(すなわち、設計者が作業を達成するスピードを統計的に速める)。
3Dモデル化オブジェクトは、CADシステムを用いて設計され、かつ/または、CADシステムにロードされてもよい。CADシステムは、少なくとも、CATIAのようなモデル化オブジェクトのグラフィック表現に基づくモデル化オブジェクトの設計に適した任意のシステムを意味する。この場合、モデル化オブジェクトを定義するデータは、モデル化オブジェクトを表現可能にするデータを含む。CADシステムは、例えば、辺や線を用い、また、場合により面(faces or surfaces)を用いて、CADモデル化オブジェクトの表現を提供してもよい。線、辺、あるいは面は、例えば、非一様有理Bスプライン(NURBS)など、様々な様式で表現されてもよい。具体的には、CADファイルは仕様を含み、その仕様に基づきジオメトリが生成可能であり、よって表現が生成可能となる。モデル化オブジェクトの仕様は1つまたは複数のCADファイルに格納されていてもよい。CADシステムでモデル化オブジェクトを表現するファイルの典型的なサイズは、一部分あたり1メガバイトの範囲である。また、モデル化オブジェクトは、典型的には、数千の部分の集合体であってもよい。
3Dシーンとは、3Dスペースにおける3Dモデル化オブジェクトの任意の配置(配列)を指す。3D空間は、例えば部屋の壁に対応する境界を含んでいてもよい。3D空間が境界を含む場合、例においては、1つまたは複数の境界が、テクスチャで覆われてもよい。
本方法による3Dシーンの構築は、3D空間(例えば、空の3D空間または既に3Dモデル化オブジェクトを含む3D空間)を含む最初の3Dシーンを提供することと、次いで3Dモデル化オブジェクトを最初の3Dシーン内に配置することを含んでいてもよい。本方法は、例えば、3D空間に割り当てられた1つまたは複数の基準フレーム(すなわち、基礎)を提供することと、当該1つまたは複数の基準フレームに基づいて任意の配置を実行することを含んでいてもよい。最初の3Dシーンに3Dモデル化オブジェクトを配置することは、新たな3Dモデル化オブジェクトを追加、移動、および/または、編集すること、および/または、既存の3Dモデル化オブジェクトを除去、移動、および/または、編集することを含んでいてもよい。追加された3Dモデル化オブジェクトのソースは任意のものでよく、例えば3Dモデル化オブジェクトのデータベースから取得されたり、かつ/または、CADシステムで設計されたりしてもよい。
本方法によって企図される2D画像は、写真などのような物理的信号の2Dの空間的分布を表すデータ構造である。当該物理的信号は、例えば、物質または物体境界の色、グレーレベル、深度、または存在など、任意の信号であってもよい。これに対応して、画像は、RGB、グレースケール、または深度画像、またあるいは、2D輪郭モデルであってもよい。空間的分布は、任意の方法で、例えば値のグリッドを用いて表現されてもよく、それによって画素を定義し、グリッドは、不規則または規則的である可能性がある。データセットに追加された画像、および/または、関数に入力される画像は、すべて同じ種類であってもよく、例えば、すべて矩形の2DのRGBまたはグレースケール画像であってもよい。あるいは、データセットに追加された画像、および/または、関数に入力される画像は、異なる種類の画像を含んでいてもよい(例えば、訓練パターンの第1の要素のうちの画像、または第2の要素のうちの画像であってもよい)。本方法は、合成写真のような、データセットを形成する合成2D画像を生成してもよい。学習した関数は、次いで、合成2D画像(例えば合成写真など)、および/または、自然2D画像(自然の写真など)に適用されてもよい。
構築されたシーンの少なくとも一部(例えば、全て)は、構築された3Dシーンそれぞれの2D視野をそれぞれ表す1つまたは複数の(すなわち任意の数の)2D画像を生成するために、本方法によりそれぞれ用いられてもよい。生成された各2D画像は、それにより、可視3Dモデル化オブジェクト(すなわち、2D画像によって部分的または完全にキャプション付けされた3Dモデル化オブジェクト)からなる構築された3Dシーンの一部の視覚的表現を形成する。
2D画像の生成は、2D視野の仕様を提供することと、構築された3Dシーンを2D視野に合わせて2D構造に投影して2D画像を形成することとを含んでいてもよい。仕様は、投影を実行するための表面(平面など)および観察者の位置(有限位置など)を含んでいてもよい。例において、2D視野は、円錐視野であってもよい。
生成は、オプションとして、構築された3Dシーンに対する投影前の任意の前処理、および/または、構築された3Dシーンに対する投影後の任意の後処理を含んでいてもよい。例において、前処理は、任意の所定の基準に従って重要でないと考えられる3Dモデル化オブジェクトを除去すること、および/または、可視3Dオブジェクトと隠れた3Dモデルオブジェクトを識別して可視オブジェクトのみを投影することとを含む。例において、後処理は、色、および/または、テクスチャ(例えば、3Dにまだ存在しない場合)を追加することを含んでいてもよい。
構築された3Dシーンは、現実世界のシーン、すなわち現実世界の物体の配置を表してもよい。構築された3Dシーンの3Dモデル化オブジェクトは、それぞれ現実世界の物体のジオメトリを表していてもよい。構築された3Dシーンの3Dモデル化オブジェクトは、特に、機械部品、家具、および/または消耗品などの製品を表す3Dモデル化オブジェクトを含んでいてもよく、3Dモデル化オブジェクトは、建物の外観、建物の内装、および/または、都市の建設物など、建築物を表し、かつ/または、3Dモデル化オブジェクトは、植物、動物、人間、および/または、風景など、自然物を表す。例において、構築された3Dシーンは、建築シーンを表してもよい。
本方法は、3D配置タイプの所定の集合を扱う。
3D配置は、オブジェクト(例えば、3Dシーンの3Dモデル化オブジェクトまたは現実世界の物体)が3Dにおいて互いに対して相対的に配置される特定のやり方、または方法である。言い換えれば、3D配置タイプは、オブジェクトが他のオブジェクトに対して3Dにおいてどのように配置されるかを定義する。
各配置タイプに従って配置された3Dモデル化オブジェクトを含む3Dシーンを構築する際、本方法は、3Dモデル化オブジェクトを3Dシーンにおいて各配置タイプに従って配置することを含んでいてもよい。このように、前記3Dモデル化オブジェクトが常に配置タイプに従うことを確実にしつつ、任意の構築ステップを実行することができる。
3Dモデル化オブジェクトの配置は、各3Dモデル化オブジェクトにそれぞれ割り当てられたフレームを介して定義してもよい。2つ以上の3Dモデル化オブジェクトの相対的な配置は、次いで、当該2つ以上の3Dモデル化オブジェクトの1つずつにそれぞれ関連付けられたフレームが互いに対してどのように配置されるかによって定義されてもよい。フレーム間の相対位置を考慮してもよい。あるいは、3Dシーンの1つまたは複数の基準フレームに対するフレームの位置決めが考慮されてもよい。現実世界の物体の配置は、現実世界の物体を表す3Dモデル化オブジェクトの配置を定義することを介して定義してもよい。
フレームは、有向であっても無向であってもよい。各3Dモデル化オブジェクトは、(例えば、自然な)直交フレーム、すなわち3つの直交する方向を定義し、例えば(x,y,z)で表されるフレームに割り当てられてもよい。例えば、車や椅子を表す3Dモデル化オブジェクトには自然なフレームが割り当てられ、例えば、x軸はオブジェクト上またはオブジェクト内に座ったときの左から右に向かう方向に対応し、y軸はオブジェクト上またはオブジェクト内に座ったときの後から前に向かう方向に対応する。3Dモデル化オブジェクトに割り当てられたフレームは、3Dモデル化オブジェクトを表す2D画像内に特徴線を生成する3Dモデル化オブジェクトのエッジに対応していてもよい。エッジは、最も長いもの、例えば、最も長い3つのエッジのうちのものあってもよい。エッジは、鋭く、かつ/または、真っ直ぐ(すなわち、直線状)であってもよい。これに代えて、またはこれに加えて、3Dモデル化オブジェクトに割り当てられたフレームは、互いに正規直交するこのような3つのエッジの集合に対応してもよい。
例において、3D配置タイプの所定の集合は、3Dアラインメントタイプの集合を含むか、またはそれからなっていてもよい。すなわちオブジェクトをアラインさせる異なる方法に対応していてもよい。
2つ以上の3Dモデル化オブジェクトは、それらのフレームがすべてアラインしたとき、アラインしたとみなしてもよい。そうでないとき、3Dモデル化オブジェクトはアラインしていないとみなしてもよい。2つ以上の3Dモデル化オブジェクトは、それらのフレームがすべてはアラインしていないが、軸を共有しているとき、アラインしていないが、軸を共有しているとみなしてもよい。
フレームの各軸が他のフレームの軸に平行であるとき、2つのフレームはアラインしているとみなしてもよい。2つのフレームが無向である場合、当該条件で十分であり得る。2つのフレームが有向である場合、この定義は、オプションとして、2つのそのような平行な軸が同じ向きを有し、かつ/または、同じ軸のインデックスに対応するという条件をさらに含んでいてもよい。
フレームの少なくとも1つの軸が他のフレーム(群)それぞれの軸に平行であるとき、2つ以上のフレームは軸を共有しているとみなしてもよい。2つのフレームが無向である場合、当該条件で十分であってもよい。2つのフレームが有向である場合、この定義は、オプションとして、2つのそのような平行な軸が同じ向きを有し、かつ/または、同じ軸のインデックスに対応するという条件をさらに含んでいてもよい。
したがって、3Dモデル化オブジェクトは、必ずしも線あるいはグリッド上に配置されていなくても、アラインしていると見なしてもよく、アラインメントの概念は、3Dモデル化オブジェクトに関連付けられたフレームの3つの軸がどのように互いに関連しているかに対応する。なお、3Dモデル化オブジェクトは、他の3Dモデル化オブジェクトと同様のアラインメントの定義を用いて、基準フレームとアラインするか、またはそのような基準フレームと軸を共有してもよい。
例において、3D配置の所定のタイプは、マンハッタンタイプ、および/または、1つまたは複数の他の3D配置タイプを含んでもよい。そのような例では、1つまたは複数の他のタイプは、例えば、アトランタタイプを含んでいてもよい。例えば、関数は、2D画像を、マンハッタンタイプ、アトランタタイプ、およびマンハッタンタイプでもアトランタタイプでもないタイプ(「その他」タイプとも呼ばれる)の3つの3Dアラインメントタイプのうちの1つに分類するように構成されていてもよい。そのようなアラインメントのカテゴリーは、特に2D画像で認識するのに興味深い。
マンハッタンタイプとアトランタタイプはよく知られた3Dアラインメントのタイプである。3Dモデル化オブジェクトは、それらがすべてアラインしているとき、マンハッタンタイプに従って配置されていると言われる。3Dモデル化オブジェクトは、それらがすべてはアラインしていないが、すべてが共通の軸を共有しているとき、アトランタタイプに従って配置されていると言われる。オプションとして、アトランタタイプは、3Dモデル化オブジェクトを、マンハッタンタイプに従って配置された有限数のサブセットに分割してもよいというさらなる条件を含んでもよく、オプションとして、当該分割が3Dシーンの凸なサブシーンへの分割に対応するというさらなる条件を含んでもよい。マンハッタンタイプでもアトランタタイプでも、マンハッタンタイプにもアトランタタイプにも従わない3Dアライメントを指定することはできない。
3Dシーンは、1つまたは複数のマンハッタンフレームとともに提供されてもよく、3Dモデル化オブジェクトは、そのような1つまたは複数のマンハッタンフレームに基づいて3Dシーン内に配置されてもよい。マンハッタンフレームは、マンハッタンタイプまたはアトランタタイプに従って配置された3Dモデル化オブジェクトを含む3Dシーンのフレームに過ぎない。全てが3Dシーンの同じ(例えば、単一の)マンハッタンフレームにアラインされた複数の3Dモデル化オブジェクトが、マンハッタンタイプに従って配置される。少なくとも2つの3Dモデル化オブジェクトが異なるマンハッタンフレームとアラインしたときに、全てがそれぞれ、同じ軸を共有する3Dシーンのいくつかのマンハッタンフレームの1つにアラインした、複数の3Dモデル化オブジェクトが、アトランタタイプに従って配置される。1つまたは複数の基準フレームを含む最初の3Dシーンに基づくことにより、本方法は、基準フレームに応じて位置合わせされた最初の3Dシーンに1つまたは複数の新たな3Dモデル化オブジェクトを追加することによって、各回において、マンハッタンタイプまたはアトランタタイプの新たな配置を効率的に生成する。これにより、当該基準フレーム(群)はマンハッタンフレーム(群)に変わる。
本方法は、関数を学習するように構成されたデータセットを形成する(すなわち、構築するまたは確立する)ためのものである。本方法は、上記データセットに訓練パターンを追加する。データセットは、本方法の開始前に、初期化したり空にしたりしてもよい。本方法は、データセットに訓練パターンを取り込む。
所定のタイプの3D配置のうちの所与の各タイプについて、本方法は、少なくともいくつかの3Dモデル化オブジェクトが当該所与のタイプの3D配置に従って配置された3Dシーンを構築する。本方法は、次いで、可視3Dモデル化オブジェクトの少なくともいくつかが当該所与のタイプの3D配置に従って配置された3Dモデル化オブジェクトに含まれる1つまたは複数の2D画像を生成してもよい。
可視3Dモデル化オブジェクトの上記少なくともいくつかは、可視3Dモデル化オブジェクトのすべてまたはその大部分(例えば、任意の所定の定量化閾値を上回る。これは例えば、3Dシーン内の3Dモデル化オブジェクトの平均数に基づいて決定される)、あるいは最も重要な可視3Dモデル化オブジェクトのすべて(例えば、サイズ閾値のような、任意の所定の重要度閾値を上回る。これは例えば、3Dシーン内の3Dモデル化オブジェクトの平均サイズに基づいて決定される)またはその大部分(例えば、任意の所定の定量化閾値を上回る。これは3Dシーン内の3Dモデル化オブジェクトの平均数に基づいて決定される)から構成されてもよい。
形成された3D配置のタイプを示す任意のタイプの情報(例えば、ラベルなど)に関連付けられたそのような2D画像をそれぞれ含む訓練パターンを、形成されるデータセットに追加することによって、本方法は、2D画像によって表されるオブジェクトの3D配置のタイプを認識可能な関数を後に機械学習することを可能にするデータを、データセットに取り込む。
当該関数は2D画像を分類するように構成されている。言い換えれば、当該関数は、入力として、2D画像(例えば、3Dシーンによって表現可能な現実世界のシーンを表す2D画像)を受け取り、出力として、自動的に、入力2D画像に適用される3D配置タイプを示す任意の情報を提供する。この関数の出力は、各配置タイプを示すラベルを含むか、またはそれからなっていてもよい。出力されるラベルは、例えば、入力2D画像における可視オブジェクトが従う可能性が最も高い配置タイプを示してもよい。これに代えて、またはこれに加えて、関数の出力は、すべての配置タイプの確率分布を含むか、それからなっていてもよい。出力される確率分布は、例えば、所与の配置タイプにそれぞれ関連付けられ、かつ、入力2D画像内における可視オブジェクトが当該所与の配置タイプに従う確率を示す値を含んでいてもよい。
1つまたは複数(例えばすべて)のタイプの3D配置についての1つまたは複数(例えばすべて)の3Dシーンの構築は、すべての3Dモデル化オブジェクトが各配置タイプに従って毎回配置されるようなものであってもよい。このように、それに合わせて3Dシーンの2D画像が生成される2D視野がどれであっても、2D画像におけるすべての可視3Dモデル化オブジェクトは、各3D配置のタイプに従って配置される必要がある。これにより、少なくともランダムなレベルの2D視野のような、任意の2D視野に合わせて2D画像を生成することが可能になる。
例において、1つまたは複数のタイプの3D配置についての1つまたは複数の3Dシーンの構築は、あるいは、各3D配置タイプに従って配置されない3Dモデル化オブジェクトを含んでもよい。そのような場合の例において、2D画像は、そのような3Dモデル化オブジェクトのすべて、あるいはほぼすべてが不可視であるような(例えば、それぞれの3D配置タイプに従って配置された他の3Dモデル化オブジェクトによって隠れているような)2D視野に合わせて生成されてもよい。そのような2D視野は、任意の方法で決定されてもよい。そのような場合の他の例において、配置されていない3Dモデル化オブジェクトは、より重要性が低くてもよい。それにより、そのような3Dモデル化オブジェクトは、機械学習の堅牢性に及ぼす影響の小さい、生成された2D画像において、可視であってもよい。
各3D配置タイプについての3Dシーンの構築は、最初の3Dシーンを提供すること、意図された3D配置タイプに結果が従うように3Dモデル化オブジェクトを最初の3Dシーンに追加することによって行ってもよい。同じ最初の3Dシーンを、1つまたは複数の3D配置タイプについて構築された複数のシーンについて用いてもよい。
ここで、マンハッタンタイプについて各3Dシーンを構築するために、提供された最初の3Dシーンは、例えばそれぞれが単一のマンハッタンフレームにアラインした、マンハッタンタイプに従って配置された3Dモデル化オブジェクト(例えばそれのみ)をすでに含んでいてもよい。アトランタタイプについて各3Dシーンを構築するために、提供された最初の3Dシーンは、例えばそれぞれが同じ(例えば単一の)マンハッタンフレームにアラインした、マンハッタンタイプに従って配置された3Dモデル化オブジェクト(例えばそれのみ)をすでに含んでいてもよいし、あるいは、例えば同じ軸を共有するいくつかのマンハッタンフレームの1つにそれぞれがアラインした、アトランタタイプに従って配置された3Dモデル化オブジェクト(例えばそれのみ)をすでに含んでいてもよい。
マンハッタンタイプでもアトランタタイプでもないタイプについて各3Dシーンを構築するために、例においては、同じ初期3Dシーン(マンハッタンまたはアトランタに従った3Dモデル化オブジェクトの既存の配置を有する)を用いてもよい。すべての場合において、結果として、構築したシーンにおける3Dモデル化オブジェクトが、確実に、マンハッタンタイプにもアトランタタイプにも従わずに配置されていなければならない。例えば、前記3Dモデル化オブジェクトが全てに共通な軸を有さないことが保証されてもよい。マンハッタンタイプでもアトランタタイプでもない訓練パターンも、例えば歪みを使用することによって、他のタイプを表す2D画像から前記タイプを表す2D画像を生成することによって、データセットに追加してもよい。
このように、上記の原理は、多様で冗長でないデータセットを効率的に形成する自動取り込みプロセスを実施するのに用いられてもよい。取り込みプロセスは、(例えば、空の)データセットを初期化することを含んでいてもよい。取り込みプロセスは、次いで、異なるステップを含んでいてもよく、それらはインターレースされていてもされていなくてもよい。取り込みプロセスは、1つまたは複数の最初の2D画像を提供することと、各2D画像に基づいて、認識されるべき異なる3D配置タイプをカバーする代表的ないくつかの訓練パターンを作成することとを含んでいてもよい。訓練パターンの作成は、企図された3D配置タイプの少なくとも一部のための3Dシーンを構築することと、企図されたすべての3D配置タイプについて2D画像を生成することとを含んでいてもよい。3Dシーンの構築は、3Dモデル化オブジェクトの任意の提供されたデータベースに基づいていてもよい。
本方法において任意の最初の3Dシーンを提供することは、最初の3Dシーンを表す最初の2D画像を提供することと、当該最初の2Dシーンに基づき当該最初の3Dシーンを決定することとを含んでいてもよい。言い換えれば、本方法は、再構成された3Dシーンが比較的現実的であり得るように、最初の2D画像(例えば、自然の写真)から3Dシーンを再構成してもよい。
最初の2D画像に基づいて最初の3Dシーンを決定することは、2Dから3Dへの再構成の任意のアルゴリズムに従って実行してもよい。このアルゴリズムは、例えば、最初の2D画像の特徴線分を算出することを含んでいてもよい。アルゴリズムはまた、特徴線分に基づいて消失点を決定することを含んでいてもよい。アルゴリズムはまた、それぞれの消失点に基づいて、1つまたは複数のマンハッタンフレームおよび2Dから3Dへのそれぞれの投影を決定することを含んでいてもよい。そして、アルゴリズムは、それぞれの特徴線分およびそれぞれの投影に基づいて、少なくとも1つのマンハッタンフレームに3Dモデル化オブジェクトを構築することを含んでいてもよい。最初の2D画像の特徴線分の算出は、任意のアルゴリズムで行ってもよい。そのようなアルゴリズムは、エッジ画素を算出することと、エッジ画素を極大線にフィッティングすることとを含んでいてもよい。これらの特に効率的なアルゴリズムの例は後ほど提供する。
本方法によって形成されたデータセットは、任意のやり方で、後の任意の時に使用してもよい。データセットは、例えば任意のニューラルネットワーク訓練を介して、例えば関数を学習するのに用いてもよい。このような関数は、それ自体が任意の応用に用いられてもよい。1つの応用例は、入力2D画像を提供し、学習した関数を入力2D画像に適用し、それによって入力2D画像を分類することである。
このような分類は、次いで、例において、入力2D画像および入力2D画像の分類に基づいて、それぞれ2Dから各3D(例えば、マンハッタン)フレームへの、1つまたは複数の投影を決定するのに用いられてもよい。
特に、関数が、マンハッタンタイプに従って、またはアトランタタイプに従って、あるいはマンハッタンタイプにもアトランタタイプにも従わずに2D画像を分類するように構成されている場合、関数は、2D画像に割り当てるために、ユーザに対し、ある数の関連するマンハッタンフレームを出力することができる(それぞれ1、1より大きい正の整数、または0)。1つまたは複数の投影の決定は、次いで、そのような数に基づいて任意の方法で、例えばユーザによって、あるいは自動的に、実行されてもよい。
このようなマンハッタンフレーム(群)の割り当てには、いくつかの応用があってもよい。それらのうちの1つは、入力2D画像によって表される3Dシーンを再構成することである。さらに、ユーザは、次いで、入力2D画像の表現上に直接スケッチすることによって、3Dシーンを編集してもよい。マンハッタンフレーム(群)と投影(群)によって、2Dスケッチを意図した3Dジオメトリに変換することができる。
そのような応用は先行技術で知られている。
図1は、本システムの一例を示すものであって、当該システムは、クライアントコンピュータシステム、例えばユーザのワークステーションである。
本例のクライアントコンピュータは、内部通信バス1000に接続された中央演算処理装置(CPU)1010、および同じくバスに接続されたランダムアクセスメモリ(RAM)1070とを備える。クライアントコンピュータは、さらに、バスに接続されたビデオランダムアクセスメモリ1100と関連付けられたグラフィックス処理装置(GPU)1110を備える。ビデオRAM1100は、当該技術分野において、フレームバッファとしても知られる。大容量記憶装置コントローラ1020は、ハードドライブ1030などの大容量記憶装置へのアクセスを管理する。コンピュータプログラムの命令及びデータを具体的に実現するのに適した大容量メモリ装置は、例として、EPROM、EEPROM及びフラッシュメモリ装置のような半導体メモリ装置、内蔵ハードディスクやリムーバブルディスクなどの磁気ディスク、光磁気ディスク、およびCD-ROMディスク1040を含む、全ての形式の不揮発性メモリを含む。前述のいずれも、特別に設計されたASIC(特定用途向け集積回路)によって補完されてもよいし、組み入れられてもよい。ネットワークアダプタ1050は、ネットワーク1060へのアクセスを管理する。クライアントコンピュータはまた、カーソル制御装置、キーボードなどの触覚装置1090を含んでいてもよい。カーソル制御装置は、ユーザがディスプレイ1080上の任意の所望の位置にカーソルを選択的に位置させることを可能にするために、クライアントコンピュータ内で使用される。さらに、カーソル制御装置は、ユーザが様々なコマンドを選択し、制御信号を入力することを可能にする。カーソル制御装置は、システムに制御信号を入力するための多数の信号生成装置を含む。典型的には、カーソル制御装置はマウスであってもよく、マウスのボタンは信号を生成するために使用される。あるいは、または追加的に、クライアントコンピュータシステムは、感知パッドおよび/または感知スクリーンを備えてもよい。
ここで本方法の例について、図2~図27を参照して説明する。所定のタイプは、マンハッタンタイプ、アトランタタイプ、およびマンハッタンタイプでもアトランタタイプでもないタイプを含む。
例における本方法は、2D写真の配置タイプ、すなわちマンハッタンタイプ、アトランタタイプ、または、その他のタイプを認識するように設計された人工ニューラルネットワークを扱う。より具体的には、人工ニューラルネットワークは、それが用いられる前に訓練されてもよい。
大まかに言えば、ニューラルネットワークは、2つの特徴、すなわち、トポロジーと重みによって定義される。トポロジーは、接続された演算ユニットからなるシステムであり、その設計は任意のタイプのものでよい。各演算ユニットは、それに対する入力数値データの重み付けされた組み合せを出力し、この結果を、指示された接続に従って、隣接する演算ユニットに送る。データは、最初のデータを与えられた最初のユニットから終端のユニットまで流れ、これにより出力数値結果が得られる。
数値の組み合わせは、重みと呼ばれる数値係数を用いて実行してもよい。最初、重みの値は未知であり、ニューラルネットワークの目的、すなわち、2D画像の配置タイプを認識するという目的に応じて、調整してもよい。この調整ステップは、訓練と呼ばれる。ニューラルネットワークを訓練するためには、訓練パターンのサンプルが必要である。訓練パターンは、整合性のある入力データと出力データの対である。この情報を用いて、専用アルゴリズムが、重みの値を算出することができる。
訓練プロセスのボトルネックは、訓練パターンの適切なサンプルである。ニューラルネットワークが堅牢で正確であるように、サンプルは非常に数が多く精密であってもよい。視野画像認識の文脈において、訓練パターンのサンプルは、先行技術において、ユーザが画像を見て透視画像のタイプを認識することによって準備されることがある。この手動プロセスにより、数千の訓練パターンが生成される。
訓練パターンを準備するための人間の認識は、数千の要素を提供するが、これでは数が少な過ぎる。このプロセスは長くて冗長であり、貧弱な訓練データベースしか提供しない。以下の条件でテストが行われた。2人のユーザがワールドワイドウェブから37122枚の画像を集め、それぞれの配置タイプを認識した。認識したすべてのタイプのうち、14491枚が正しかった。これらの正しかったタイプのうち、11790枚がマンハッタンタイプ、995枚がアトランタタイプ、そして1706枚がその他のタイプであった。これは、人間の認識が間違いを起こしやすく、均一な再割り当てを提供しないことを示している。この材料で訓練されたニューラルネットワークは十分に効率的ではない。
例における本方法は、2D写真の配置タイプの認識専用のニューラルネットワークを訓練するために訓練パターンを準備するプロセスを提供する。例における本方法は、現実の3Dシーンのマンハッタンタイプの写真を利用する。原則は、これらのマンハッタンタイプの写真に仮想3Dオブジェクトを挿入することである。3Dオブジェクトを適切に挿入することにより、別のマンハッタンタイプの画像、新たなアトランタタイプの画像、あるいは新たな「他のタイプ」の画像を生成することができる。したがって、挿入されたオブジェクトを自動的に変化させることによって、2D画像の任意の大きな集合およびその配置タイプを作成することができる。
ニューラルネットワークの定義の例
ニューラルネットワークは、式として、6つ組の
Figure 0007294788000001

により定義してもよく、ここで、
Figure 0007294788000002
はニューロンの集合であり、
Figure 0007294788000003

は有向接続の集合であり、マッピング
Figure 0007294788000004

は接続の開始ニューロンを表し、マッピング
Figure 0007294788000005

は接続の終了ニューロンを表し、マッピング
Figure 0007294788000006

は数値重みを各接続に関連付け、
Figure 0007294788000007

は活性化関数と呼ばれる。
これは、接続
Figure 0007294788000008

の開始ニューロンが
Figure 0007294788000009

であり、終了ニューロンが
Figure 0007294788000010

であり、その重みが
Figure 0007294788000011

であることを意味する。さらには、ニューロン
Figure 0007294788000012

の入力接続の集合は
Figure 0007294788000013

であり、ニューロン
Figure 0007294788000014

の出力接続の集合は、
Figure 0007294788000015

である。同様に、ニューロン
Figure 0007294788000016

の内向きニューロン
Figure 0007294788000017


Figure 0007294788000018

の入力接続の開始ニューロンであり、すなわち、
Figure 0007294788000019

である。ニューラルネットワークのトポロジーは、ニューロンと接続
Figure 0007294788000020

によって定義される。
定義上、活性化関数は、ネットワーク内の情報伝播の非線形閾値効果を捕捉する。テキストKriesel David,A brief introduction to Neural Networks,2006に記載のように、典型的な活性化関数は
Figure 0007294788000021

である。
数学的観点からは、ニューラルネットワークは、活性化関数に関連付けられた加重弧を有する有向グラフである。
定義上、入力ニューロン
Figure 0007294788000022

は入力接続を持たず、これは
Figure 0007294788000023

を意味し、出力ニューロン
Figure 0007294788000024

は出力接続を持たず、これは
Figure 0007294788000025

を意味する。
各ニューロン
Figure 0007294788000026

は、次のような意味で、演算ユニットのように振る舞う。出力数値
Figure 0007294788000027

は、その内向きニューロンの数値を以下の式に従って組み合わせることによって算出できる。
Figure 0007294788000028

Figure 0007294788000029

は、プロパゲーション値と呼ばれる。これはニューロン
Figure 0007294788000030

で終了するすべての接続
Figure 0007294788000031

の開始ニューロン
Figure 0007294788000032

によって算出される数値の重み付け合計である。値
Figure 0007294788000033

は、プロパゲーション値
Figure 0007294788000034

に適用される閾値効果
Figure 0007294788000035

である。この数式は再帰的に定義され、順序の問題は、トポロジーを通じて対処される。図2は、ニューロン5での3つの内向きニューロン1、2、および3からの演算を示す。
ニューラルネットワークの非常に一般的なトポロジーは、Kriesel DavidによるテキストA brief introduction to Neural Networks,2006で提示されているようなフィードフォワードモデルである。ニューロンの集合は、層
Figure 0007294788000036

と呼ばれる順序付けされた互いに素な部分集合から構成され、ここで
Figure 0007294788000037

は、入力層(入力ニューロンの層)と呼ばれ、
Figure 0007294788000038

は、隠れ層と呼ばれ、
Figure 0007294788000039

は、出力層(出力ニューロンの層)と呼ばれる。層
Figure 0007294788000040

の各ニューロンから層
Figure 0007294788000041

のすべてのニューロンへの接続が存在する。層
Figure 0007294788000042

の各ニューロンから、
Figure 0007294788000043

である層
Figure 0007294788000044

のすべてのニューロンへの接続が存在する。最後の隠れ層
Figure 0007294788000045

の各ニューロンから出力層
Figure 0007294788000046

のすべてのニューロンへの接続が存在する。フィードフォワードニューラルネットワークの文脈では、特定の活性化関数を各層に関連付けることができる。
図3は、2つの隠れ層を特徴とするフィードフォワードニューラルネットワークを示す。入力ニューロンは、入力矢印で記号化されている。出力ニューロンは、出力矢印で記号化されている。
明らかに、フィードフォワードニューラルネットワークは非周期的である。したがって、入力ニューロンに数値
Figure 0007294788000047

を設定することは、すべての
Figure 0007294788000048

について
Figure 0007294788000049

であることを意味し、層から層へと演算を伝播することにより、出力ニューロンにより算出された数値
Figure 0007294788000050

が得られる。フィードフォワードニューラルネットワークを通じて
Figure 0007294788000051

から
Figure 0007294788000052

を算出するマッピングは
Figure 0007294788000053

と表され、ここで、
Figure 0007294788000054

は入力ニューロンの個数であり、
Figure 0007294788000055

は出力ニューロンの個数である。

ニューラルネットワーク訓練の例
フィードフォワードニューラルネットワークのトポロジーが与えられ、その活性化関数(群)が与えられると、ニューラルネットワーク訓練ステップの目的は、重みマッピング
Figure 0007294788000056

を算出することであってもよい。この目的のため、訓練パターンの集合が必要となる。訓練パターンは、組
Figure 0007294788000057

となる。この組は、入力データ
Figure 0007294788000058

が供給されたときにニューラルネットワークが算出すると考えらえる出力データ
Figure 0007294788000059

を表す。入力と出力は別の手段により算出され、これらは「入力が
Figure 0007294788000060

の場合、ニューラルネットワークは必ず
Figure 0007294788000061

を出力する」ということを表す。
Figure 0007294788000062

個の訓練パターンの集合
Figure 0007294788000063

が与えられたとき、
Figure 0007294788000064


Figure 0007294788000065

について可能な限り
Figure 0007294788000066

に近づくように、専用のアルゴリズムを用いて重みマッピングを調整する。この目的のための典型的なアルゴリズムは、Kriesel DavidによるテキストA brief introduction to Neural Networks,2006で提示されているようなバックプロパゲーションである。数学的観点からは、これはマッピング
Figure 0007294788000067

を算出する補間問題である。
図4は、ニューラルネットワークの実行ステップ対訓練ステップの例を示す。

分類ニューラルネットワークの訓練の例
ニューラルネットワークは、特に分類に用いられてもよい。3Dデータの
Figure 0007294788000068

個のタイプの有限集合が与えられたとき、目的は、ニューラルネットワークが、未知の入力データがどのタイプに属するかを認識することである。分類ニューラルネットワークは、タイプごとに1つの出力ニューロンを特徴としてもよい。数値出力値は区間
Figure 0007294788000069

における
Figure 0007294788000070

個のベクトル
Figure 0007294788000071

であってもよい。各数
Figure 0007294788000072

は、入力データがタイプ
Figure 0007294788000073

のデータである確率である。典型的な訓練パターンは、
Figure 0007294788000074

かつ
Figure 0007294788000075

のとき
Figure 0007294788000076

であるような出力ベクトルを有する、既知のタイプ
Figure 0007294788000077

の入力データであってもよい。

画像定義の例、およびエッジ画素の算出
2D写真は、点、画素、および、各画素に付加された色情報の、2Dグリッドであってもよい。これは、インデックス
Figure 0007294788000078

のグリッド、2D座標をインデックス
Figure 0007294788000079

に関連付ける位置マッピング
Figure 0007294788000080

および、色マッピング
Figure 0007294788000081

によって捕捉されてもよく、ここで、
Figure 0007294788000082

はすべての色の集合であり、これは、
Figure 0007294788000083

がすべての
Figure 0007294788000084

について画素
Figure 0007294788000085

の色であることを意味する。エッジ画素算出のための関連するグラフィック情報は、輝度であってもよい。これは、画素テーブル
Figure 0007294788000086

から、負でない数の集合
Figure 0007294788000087

へのマッピング
Figure 0007294788000088

を定義してもよく、これはすなわち
Figure 0007294788000089

である。画素
Figure 0007294788000090

における輝度変数
Figure 0007294788000091

は、マッピング
Figure 0007294788000092

の(離散的な)勾配の大きさにより定義されてもよく、これはすなわち、
Figure 0007294788000093

である。閾値
Figure 0007294788000094

が与えられたとき、画素
Figure 0007294788000095

は、その輝度変数が閾値よりも大きいとき、すなわち、
Figure 0007294788000096

のとき、エッジ画素と呼ばれてもよい。3Dシーンの写真上のエッジ画素の算出は、Lu Wang、Suya You、Ulrich Neumannによる論文Supporting range and segment-based hysteresis thresholding in edge detection,IEEE International Conference on Image Processing 2008に記載のアルゴリズムなど、任意のアルゴリズムによって実行されてもよい。
特徴線分算出の例
次に、極大線分を、ほぼアラインしたエッジ点の集合にフィッティングしてもよい。特徴線分は、所定の閾値よりも長いことを特徴とする線分であってもよい。
特徴線分の算出は、専用のアルゴリズムを用いて行ってもよい。アルゴリズムの核心は、エッジ画素で始まりほぼアラインした隣接エッジ画素の最大の集合を算出することであってもよい。ほぼアラインした画素の集合を近似する線分は、それが十分な数の画素を含み、当該画素がその線から離れ過ぎていない場合には、有意であると見なされてもよい。
定式化したアルゴリズムの例をここで説明する。
Figure 0007294788000097

は、すべてのエッジ画素の(入力)集合を表し、
Figure 0007294788000098

は特徴線分の(出力集合)を表す。集合
Figure 0007294788000099

はアラインしていると考えらえる画素の現在の集合を表す。集合
Figure 0007294788000100

は隣接画素の現在の集合を表す。
Figure 0007294788000101
関数
Figure 0007294788000102

は、入力エッジ画素
Figure 0007294788000103

の隣接エッジ画素を出力する。隣接エッジ画素は、図5に示されるような8隣接画素ストラテジーに従って検索する。エッジ画素は黒い正方形である。画素Xの隣接画素は画素番号1~8である。
エッジ画素Xの隣接エッジ画素は画素番号1、5、6、および8である。
関数
Figure 0007294788000104

は画素の集合
Figure 0007294788000105

に対する最適線
Figure 0007294788000106

の平均二乗偏差である。関数
Figure 0007294788000107

は、画素
Figure 0007294788000108

から線
Figure 0007294788000109

までの距離を出力する。関数
Figure 0007294788000110

は、集合
Figure 0007294788000111

の要素の個数を出力する。
閾値
Figure 0007294788000112

は、最大二乗平均偏差であり、典型的な値は
Figure 0007294788000113

である。閾値
Figure 0007294788000114

は画素から線までの最大距離であり、典型的な値は
Figure 0007294788000115

である。閾値
Figure 0007294788000116

は特徴線分を生成する画素の最小個数であり、典型的な値は
Figure 0007294788000117

である。

円錐視野:3Dシーンから画像まで
視野のジオメトリ
3Dシーン
Figure 0007294788000118

を3次元空間
Figure 0007294788000119

の部分集合と考え、画像平面と呼ばれる平面
Figure 0007294788000120

の一部と、観察者位置またはカメラ位置と呼ばれる点
Figure 0007294788000121

とを考える。画像平面の法線ベクトルを
Figure 0007294788000122

で表す。カメラは、3Dシーン
Figure 0007294788000123

を、円錐視野にしたがい、画像平面
Figure 0007294788000124

を通して感知する。これは、3Dシーンの各点
Figure 0007294788000125

が、画像平面上に、画像点と呼ばれる対応する点
Figure 0007294788000126

を以下のように生成することを意味する。定義上、画像点
Figure 0007294788000127

は、図6に示すように、画像平面
Figure 0007294788000128

と、
Figure 0007294788000129

および
Figure 0007294788000130

を通る線との交点である。
数式は以下のとおりである。
Figure 0007294788000131


隠れた部分対可視部分
このジオメトリ的定義を超えて、3Dシーンの隠れた部分と可視部分を定義してもよい。3Dシーン
Figure 0007294788000132

の数学的画像は
Figure 0007294788000133

であり、これは平面
Figure 0007294788000134

に含まれる。各点
Figure 0007294788000135

に関して、同じ画像点Z
Figure 0007294788000136

を共有する3Dシーンにおける点の集合を考える。これは次のように表される。
Figure 0007294788000137
一般的に、
Figure 0007294788000138

は複数の点を含むが、1点のみが
Figure 0007294788000139

から可視であり、これは以下のように定式化してもよい。定義上、点
Figure 0007294788000140

から可視である点は、
Figure 0007294788000141

で表され、これは
Figure 0007294788000142

に最も近い点

Figure 0007294788000143

であり、これは以下のように表される。
Figure 0007294788000144
図7において
Figure 0007294788000145

であり、また
Figure 0007294788000146

について
Figure 0007294788000147

であるため、
Figure 0007294788000148

から可視である点は、点
Figure 0007294788000149

である。
3Dシーン
Figure 0007294788000150

における可視の部分
Figure 0007294788000151

は、すべての可視点の集合、すなわち
Figure 0007294788000152

である。
最後に、定義上、3Dシーン
Figure 0007294788000153

の円錐視野
Figure 0007294788000154

は、マッピング
Figure 0007294788000155

を通した可視点
Figure 0007294788000156

の画像であり、すなわち
Figure 0007294788000157

である。
図8は、2つの矩形ブロックからなる3Dシーン
Figure 0007294788000158

を示す。可視部分
Figure 0007294788000159

は、太線を含む。隠れた部分は点線である。

消失点
画像平面と平行でない同一の方向
Figure 0007294788000160

を共有する3Dシーンの2本の線を考える。それぞれの円錐視野は、
Figure 0007294788000161

だけに依存して線の位置には依存しない点において交差する、2本の線であることが証明され得る。この点は消失点と呼ばれ、
Figure 0007294788000162

として算出される。方向
Figure 0007294788000163

が画像平面と平行の場合、その円錐視野も方向
Figure 0007294788000164

の線であることが証明され得る。したがって、画像平面に平行な3Dシーンの線は、消失点を生成しない。
図9は、矩形ブロック(太線)の円錐画像の3つの消失点
Figure 0007294788000165

Figure 0007294788000166

および
Figure 0007294788000167

を示す。
図10は、視野画像の2つの消失点を示す。ブロックの鉛直線は画像平面に平行であるため、消失点を生成しない。
2D画像から3Dシーンへ:マンハッタンフレーム仮説
2D画像を入力データとして考えると、ここで問題となり得るのは、画像平面に対するカメラ位置
Figure 0007294788000168

を算出することである。これは、3Dシーンの3Dオブジェクトについて十分な情報がない限り、一般的には不可能である。例における本方法の文脈において、適切な3Dオブジェクトは、立方体またはアラインした矩形の集合で記号化された、直交グリッドであってもよい。これはJ.M.CoughlanおよびA.L.Yuilleによる論文、Manhattan World:Compass Direction from a Single Image by Bayesian Inference,Proceedings International Conference on Computer Vision ICCV’99.Corfu,Greece,1999で提案されている、公知のマンハッタンフレーム仮説である。
背景技術において、マンハッタンフレーム仮説が2D視野の観点から定式化されている。
3Dシーン
Figure 0007294788000169

は、前のセクションで定義したように、円錐視野
Figure 0007294788000170

が直交グリッドに合わせてアラインされた3Dオブジェクトの視野のみを含むように、平面
Figure 0007294788000171

と点
Figure 0007294788000172

を有する2D画像で表される場合、例における本方法で企図されている分類を行う目的で、Manhatta3Dシーンとみなされてもよい。これはすなわち、3Dシーンは、カーブオブジェクトのアラインされていないオブジェクトが含まれていてもよいが、それらはアラインされたオブジェクトに隠されているか、あるいは
Figure 0007294788000173

および
Figure 0007294788000174

で定義された範囲外にあることを意味する。

2D画像から3Dシーンへ:マンハッタンフレームの算出
以下、消失点とカメラ位置との関係について説明する。
Figure 0007294788000175

であるため
Figure 0007294788000176

であり、これはカメラ
Figure 0007294788000177

から消失点
Figure 0007294788000178

への、方向
Figure 0007294788000179

によって定義される線は、方向
Figure 0007294788000180

に平行であることを意味する。この性質のおかげで、また3D立方体の方向が互いに直交することが分かっているおかげで、カメラ位置
Figure 0007294788000181

は非線形システムの解となる:
Figure 0007294788000182
これは、カメラ位置を算出する簡単な方法を提供する。その結果、3D立方体のエッジ方向は、
Figure 0007294788000183

について、
Figure 0007294788000184

となる。これは図11に示されている。
実際、例における本方法は、マンハッタンフレームを算出するのに、Patrick Denis、James H.Elder、およびFrancisco J.Estradaによる論文Efficient Edge-Based Methods for Estimating Manhattan Frames in Urban Imagery,European Conference on Computer Vision 2008,Part II,LNCS 5303,pp.197-210,2008を利用している。このアルゴリズムは、上述のジオメトリ的原理に基づいており、統計的演算のため堅牢である。主なステップは図12に記載されている。図13は当該アルゴリズムの応用を示している。

仮想追加3Dオブジェクトを2D画像に挿入する例
先に説明したように、グリッド状のオブジェクトの円錐視野が与えられたとき、画像平面
Figure 0007294788000185

およびカメラ位置
Figure 0007294788000186

への法線ベクトル
Figure 0007294788000187

を知り得るので、マッピング
Figure 0007294788000188

が容易に設定できる。さらに、上に定義したように、ベクトル
Figure 0007294788000189

Figure 0007294788000190

および
Figure 0007294788000191

からなるマンハッタンフレームと呼ばれる軸系を、3Dシーンのグリッド状のオブジェクトに付与することができる。このマンハッタンフレームのおかげで、追加の仮想オブジェクトを3Dシーン内に仮想的に配置することができる。円錐視野に対するこの仮想3Dオブジェクトのジオメトリ的寄与度は、マッピング
Figure 0007294788000192

を用いて算出することができる。全体的なデータフローは図14に示されている。
マンハッタン視野対アトランタ視野
マンハッタンタイプの3Dシーンは、矩形グリッドに応じて配置された特徴線を特徴とする。一般的に、矩形グリッドの一方向は画像平面に平行であり、この方向は建築写真を扱う場合には伝統的に鉛直方向である。
図15は、3つのアラインされたブロックからなる3Dシーンの典型的なマンハッタン画像を示す。消失点は
Figure 0007294788000193


Figure 0007294788000194

である。3Dシーンの鉛直線は画像平面に平行であるので、それらの画像も鉛直線である。
逆に、アトランタタイプの3Dシーンは、すべての矩形グリッドが一方向を共有するように、少なくとも2つのアラインしていない矩形グリッドに合わせて配置された特徴線を含む。共有される方向は、一般に鉛直方向である。
図16は、画像平面
Figure 0007294788000195

およびカメラ位置

Figure 0007294788000196

とともに、アラインされていない2つのブロックを示す。図面の描写平面は、画像平面
Figure 0007294788000197

に直交する。平行線
Figure 0007294788000198

および
Figure 0007294788000199

に対応する消失点は
Figure 0007294788000200

である。平行線
Figure 0007294788000201

および
Figure 0007294788000202

に対応する消失点は
Figure 0007294788000203

である。平行線
Figure 0007294788000204

および
Figure 0007294788000205

に対応する消失点は
Figure 0007294788000206

である。各消失点
Figure 0007294788000207

は、画像平面
Figure 0007294788000208


Figure 0007294788000209

から方向
Figure 0007294788000210

への線との交点である。一番右のブロックの水平線は、画像平面に平行であるため、消失点を生成しない。
図17は、アラインしていない2つのブロックの円錐斜視図を示す。これは、2つのブロックが一方向(鉛直方向)を共有しつつアラインしていないため、アトランタタイプの画像である。

その他のタイプの配置(すなわちマンハッタンタイプでもアトランタでもないタイプ)
画像がマンハッタンタイプの画像でもアトランタタイプの画像でもない場合、画像が「その他のタイプ」の斜視図であると言われる。それは、全く方向を共有しない少なくとも2つのマンハッタングリッドか、あるいは特徴線を全く備えていない歪んだ視野によって特徴付けられる。
図18は、「その他のタイプ」の画像のアラインされていないオブジェクトを示す。
図19は、歪んだ「その他のタイプ」の画像を示す。
Figure 0007294788000211

を、歪む画像の全ての画素位置を含む矩形であるとする。歪みは、入力画像(典型的にはマンハッタン画像)を歪みマッピング
Figure 0007294788000212

で構成することによって得られる。マッピング
Figure 0007294788000213

は、歪み画像が最初の画像の矩形を含むようなもの、すなわち
Figure 0007294788000214

である。
元の画像の画素
Figure 0007294788000215

は、
Figure 0007294788000216

に位置する。これは、マッピング
Figure 0007294788000217

により位置
Figure 0007294788000218

に移動させられる。したがって点
Figure 0007294788000219

における歪み画像が有すると考えられる色は、ソース画素
Figure 0007294788000220

の色
Figure 0007294788000221

である。
Figure 0007294788000222

上ですべての
Figure 0007294788000223

について
Figure 0007294788000224

を補間する色マッピング
Figure 0007294788000225

を考える。すると、
Figure 0007294788000226

上の歪み画像の色マッピング
Figure 0007294788000227

は、
Figure 0007294788000228

であり、
Figure 0007294788000229

である。
典型的なマッピングは、次のような放射状の歪みである:
Figure 0007294788000230
ここで
Figure 0007294788000231

は、区間
Figure 0007294788000232

から選択される。係数
Figure 0007294788000233

は、各歪み画像を生成するために、この区間からランダムに選択される。このマッピングは、
Figure 0007294788000234

を中心とする画像に適用される。
図20は、矩形グリッドに対する放射状の歪み効果を示す。直線は曲線へと変わり、それによりマンハッタン構造が削除される。
訓練パターンの構築例
例において、訓練パターン生成プロセスは、次のようなものであってもよく、図21に示すようなものであってよい。入力はマンハッタンタイプの画像の集合である。出力は、マンハッタンタイプの画像、アトランタタイプの画像、および、それぞれのタイプに関連付けられた他のタイプの画像の、データベースである。マンハッタンタイプの画像が与えられると、(仮想の)矩形オブジェクトを3Dシーン内に(仮想的に)挿入し、2D写真に対するその寄与度を算出することによって、新たな画像が得られる。挿入されたオブジェクトがマンハッタンフレームとアラインすると、新たなマンハッタン画像が得られる。挿入されたオブジェクトがマンハッタンフレームと1方向のみ共有する場合には、新たなアトランタ画像が得られる。挿入されたオブジェクトがマンハッタンフレームと1方向も共有しない場合には、新たな他のタイプの画像が得られる。他のタイプの画像を作成する別の方法は、特徴線が1つも認識できないように、入力マンハッタン画像を歪ませることである。データベースにおいて、結果として得られた各タイプ(マンハッタン、アトランタ、あるいは他のタイプ)に関連付けられた画像は、ネットワーク訓練に有用な、入力および出力データを提供する。
図22は、マンハッタン画像を示す。図23は、マンハッタンフレームとアラインする仮想オブジェクトを挿入することによって得られた新たなマンハッタン画像を示す。
図24は、マンハッタン画像を示す。図25は、マンハッタンフレームとアラインせず、鉛直方向を共有する仮想オブジェクトを挿入することによって得られた新たなアトランタ画像を示す。
図26~図27は、マンハッタン画像から得られた「他のタイプ」の歪んだ画像を示す。

Claims (14)

  1. 関数を学習するよう構成されたデータセットを形成するための、コンピュータにより実施される方法であって、前記関数は、2D画像内における可視オブジェクトについての3D配置の所定のタイプに応じて2D画像を分類するように構成されており、3D配置の各タイプは、3Dにおいて複数のオブジェクトの各々が他のオブジェクトとの関係においてどのように配置されるかを定義したものであり、3D配置の前記所定のタイプは、マンハッタンタイプ、および/または、アトランタタイプを含み、3D配置の各タイプについて、
    3D配置の各タイプに応じて配置された3Dモデル化オブジェクトを含む3Dシーンを構築することと、
    構築した各3Dシーンにおける各2D視野をそれぞれが表す2D画像を生成することであって、当該シーンにおける可視3Dモデル化オブジェクトが、3D配置の各タイプに応じて配置された、構築された各3Dシーンの3Dモデル化オブジェクトのうちのオブジェクトであるような、生成することと、
    それぞれが生成された各2D画像と3D配置の各タイプを示す情報とを含む訓練パターンをデータセットに追加することと
    を含むことを特徴とする方法。
  2. 3D配置の少なくとも1つのタイプについて、構築された1つまたは複数の3Dシーンの全ての3Dモデル化オブジェクトは、3D配置の各タイプに応じて配置される
    ことを特徴とする、請求項1に記載の方法。
  3. 3D配置の各タイプについてのそれぞれの3Dシーンの前記構築は、
    最初の3Dシーンおよび1つまたは複数の基準フレームを提供することと、
    3D配置の各タイプに基づいて、前記1つまたは複数の基準フレームを基準として前記最初の3Dシーン内に3Dモデル化オブジェクトを配置することとを含む
    ことを特徴とする、請求項1または2に記載の方法。
  4. 前記3D配置の所定のタイプはマンハッタンタイプを含み、マンハッタンタイプについて各3Dシーンを構築するために、前記提供された1つまたは複数の基準フレームは単一のマンハッタンフレームからなり、かつ/または、前記提供された最初の3Dシーンは、それぞれが前記単一のマンハッタンフレームとアラインしている3Dモデル化オブジェクトを含み、かつ/または、
    前記3D配置の所定のタイプはアトランタタイプを含み、アトランタタイプについて各3Dシーンを構築するために、前記提供された1つまたは複数の基準フレームは、軸を共有する1つまたは複数のマンハッタンフレームからなり、かつ/または、前記提供された最初の3Dシーンは、それぞれのマンハッタンフレームと、またはオプションとして、同一のマンハッタンフレームとアラインしている3Dモデル化オブジェクトを含む
    ことを特徴とする、請求項に記載の方法。
  5. マンハッタンタイプについて各3Dシーンを構築するために、それぞれ前記単一のマンハッタンフレームとアラインした3Dモデル化オブジェクトを前記最初の3Dシーンに追加すること、および/または
    前記アトランタについて各3Dシーンを構築するために、それぞれ各マンハッタンフレームとアラインした3Dモデル化オブジェクトを前記最初の3Dシーンに追加すること
    を含むことを特徴とする、請求項に記載の方法。
  6. 最初の3Dシーンを提供することは、
    前記最初の3Dシーンを表す最初の2D画像を提供することと、
    前記最初の2D画像に基づいて前記最初の3Dシーンを決定することと
    を含むことを特徴とする、請求項のいずれか1つに記載の方法。
  7. 前記最初の2D画像に基づく前記最初の3Dシーンの前記決定は、
    前記最初の2D画像の特徴線分を算出することと、
    前記特徴線分に基づいて消失点を決定することと、
    それぞれの消失点に基づいて、1つまたは複数のマンハッタンフレームおよび2Dから3Dへのそれぞれの投影を決定することと、
    それぞれの特徴線分およびそれぞれの投影に基づいて、少なくとも1つのマンハッタンフレームに3Dモデル化オブジェクトを構築することと
    を含むことを特徴とする、請求項に記載の方法。
  8. 前記最初の2D画像の前記特徴線分の前記算出は、
    エッジ画素を算出することと、
    エッジ画素を極大線にフィッティングすることと
    を含むことを特徴とする、請求項に記載の方法。
  9. 前記データセットに基づいて関数を学習することをさらに含み、またオプションとして、入力2D画像を提供することと、前記入力2D画像に前記学習した関数を適用して、前記入力2D画像を分類することとをさらに含む
    ことを特徴とする、請求項1~のいずれか1つに記載の方法。
  10. 前記入力2D画像および前記入力2D画像の分類に基づいて、それぞれ2Dから各3Dのマンハッタンフレームへの、1つまたは複数の投影を決定することをさらに含む
    ことを特徴とする、請求項に記載の方法。
  11. 前記1つまたは複数の投影に基づき、前記入力2D画像によって表される3Dシーンを出力することをさらに含み、またオプションとして、入力2D画像の表現の上にユーザがスケッチすることによって前記3Dシーンを編集することをさらに含む
    ことを特徴とする、請求項10に記載の方法。
  12. 請求項1~11のいずれか1つに記載の方法を実行するための指示を含むコンピュータプログラ
  13. 請求項12に記載のデータ構造を記憶したコンピュータ読み取り可能媒体を備える装置。
  14. 前記装置は、前記コンピュータ読み取り可能媒体に接続されたプロセッサをさらに備え、前記装置はコンピュータシステムを構成する
    ことを特徴とする、請求項13に記載の装置。
JP2018196529A 2017-10-18 2018-10-18 3d配置のタイプに応じた2d画像の分類 Active JP7294788B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
EP17306408.0A EP3474185B1 (en) 2017-10-18 2017-10-18 Classification of 2d images according to types of 3d arrangement
EP17306408.0 2017-10-18

Publications (2)

Publication Number Publication Date
JP2019091436A JP2019091436A (ja) 2019-06-13
JP7294788B2 true JP7294788B2 (ja) 2023-06-20

Family

ID=60262861

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018196529A Active JP7294788B2 (ja) 2017-10-18 2018-10-18 3d配置のタイプに応じた2d画像の分類

Country Status (4)

Country Link
US (1) US10832095B2 (ja)
EP (1) EP3474185B1 (ja)
JP (1) JP7294788B2 (ja)
CN (1) CN109685095B (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018128424A1 (ko) * 2017-01-04 2018-07-12 가이아쓰리디 주식회사 3차원 지리 정보 시스템 웹 서비스를 제공하는 방법
EP3671660A1 (en) * 2018-12-20 2020-06-24 Dassault Systèmes Designing a 3d modeled object via user-interaction
EP3675062A1 (en) 2018-12-29 2020-07-01 Dassault Systèmes Learning a neural network for inference of solid cad features
EP3675063A1 (en) * 2018-12-29 2020-07-01 Dassault Systèmes Forming a dataset for inference of solid cad features
JP6932821B1 (ja) * 2020-07-03 2021-09-08 株式会社ベガコーポレーション 情報処理システム、方法及びプログラム

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016522485A (ja) 2013-04-30 2016-07-28 クアルコム,インコーポレイテッド 再構成からの隠消現実感効果および媒介現実感効果
JP2017120672A (ja) 2017-04-07 2017-07-06 キヤノン株式会社 画像処理装置および画像処理方法

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6717577B1 (en) * 1999-10-28 2004-04-06 Nintendo Co., Ltd. Vertex cache for 3D computer graphics
US6868191B2 (en) * 2000-06-28 2005-03-15 Telefonaktiebolaget Lm Ericsson (Publ) System and method for median fusion of depth maps
JP4335589B2 (ja) * 2002-06-27 2009-09-30 ミツビシ・エレクトリック・リサーチ・ラボラトリーズ・インコーポレイテッド 3dオブジェクトをモデル化する方法
US7142726B2 (en) * 2003-03-19 2006-11-28 Mitsubishi Electric Research Labs, Inc. Three-dimensional scene reconstruction from labeled two-dimensional images
US20090021513A1 (en) * 2007-07-18 2009-01-22 Pixblitz Studios Inc. Method of Customizing 3D Computer-Generated Scenes
US20110273369A1 (en) * 2010-05-10 2011-11-10 Canon Kabushiki Kaisha Adjustment of imaging property in view-dependent rendering
US8619074B2 (en) * 2010-12-10 2013-12-31 Xerox Corporation Rendering personalized text on curved image surfaces
US8941644B2 (en) * 2011-06-14 2015-01-27 Microsoft Corporation Computing three-dimensional image models in parallel
CN103136781B (zh) * 2011-11-30 2016-06-08 国际商业机器公司 用于生成三维虚拟场景的方法和***
US8971612B2 (en) * 2011-12-15 2015-03-03 Microsoft Corporation Learning image processing tasks from scene reconstructions
US10163261B2 (en) * 2014-03-19 2018-12-25 Matterport, Inc. Selecting two-dimensional imagery data for display within a three-dimensional model
US9031317B2 (en) * 2012-09-18 2015-05-12 Seiko Epson Corporation Method and apparatus for improved training of object detecting system
US20150199573A1 (en) * 2014-01-10 2015-07-16 Mitsubishi Electric Research Laboratories, Inc. Global Scene Descriptors for Matching Manhattan Scenes using Edge Maps Associated with Vanishing Points
US10055876B2 (en) * 2014-06-06 2018-08-21 Matterport, Inc. Optimal texture memory allocation
CN104134234B (zh) * 2014-07-16 2017-07-25 中国科学技术大学 一种全自动的基于单幅图像的三维场景构建方法
EP3179407B1 (en) * 2015-12-07 2022-07-13 Dassault Systèmes Recognition of a 3d modeled object from a 2d image
US10074214B2 (en) * 2015-12-31 2018-09-11 Autodesk, Inc. Systems and methods for generating 3D scenes with time element for display
CN106709481A (zh) * 2017-03-03 2017-05-24 深圳市唯特视科技有限公司 一种基于二维‑三维语义数据集的室内场景理解方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016522485A (ja) 2013-04-30 2016-07-28 クアルコム,インコーポレイテッド 再構成からの隠消現実感効果および媒介現実感効果
JP2017120672A (ja) 2017-04-07 2017-07-06 キヤノン株式会社 画像処理装置および画像処理方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
Erick Delage et al.,Automatic Single-Image 3d Reconstructions of Indoor Manhattan World Scenes,[online],2005年01月,pp.1-17,https://www.researchgate.net/publication/220757252_Automatic_Single-Image_3d_Reconstructions_of_Indoor_Manhattan_World_Scenes
Grant Schindler et al.,Atlanta World: An Expectation Maximization Framework for Simultaneous Low-level Edge Grouping and Camera Calibration in Complex Man-made Environments,[online],2004年07月19日,https://ieeexplore.ieee.org/abstract/document/1315033/
Julian Straub et al.,A Mixture of Manhattan Frames: Beyond the Manhattan World,[online],2014年09月25日,pp.1-8,https://ieeexplore.ieee.org/document/6909877
Srikumar Ramalingam et al.,Lifting 3D Manhattan Lines from a Single Image ,[online],2014年03月03日,pp.1-8,https://ieeexplore.ieee.org/document/6751171
Yu Xiang et al.,ObjectNet3D: A Large Scale Database for 3D Object Recognition,xiang_eccv16.pdf[online],2016年08月03日,pp.1-16,https://cvgl.stanford.edu/papers/?C=M;O=A

Also Published As

Publication number Publication date
CN109685095A (zh) 2019-04-26
CN109685095B (zh) 2024-05-28
EP3474185A1 (en) 2019-04-24
EP3474185C0 (en) 2023-06-28
EP3474185B1 (en) 2023-06-28
US20190114514A1 (en) 2019-04-18
JP2019091436A (ja) 2019-06-13
US10832095B2 (en) 2020-11-10

Similar Documents

Publication Publication Date Title
JP7294788B2 (ja) 3d配置のタイプに応じた2d画像の分類
CN107067473B (zh) 用于对3d建模对象进行重构的方法、装置及***
EP3381017B1 (en) Face reconstruction from a learned embedding
Wang et al. Surge: Surface regularized geometry estimation from a single image
JP7343963B2 (ja) 画像を入力とする関数を学習するためのデータセット
CN110033513A (zh) 生成表示建筑的3d模型
CN110060255A (zh) 利用逐像素分类器来对2d平面图进行语义分割
JP7129529B2 (ja) 人工知能の使用による3dオブジェクトへのuvマッピング
US11893690B2 (en) 3D reconstruction with smooth maps
WO2021105871A1 (en) An automatic 3d image reconstruction process from real-world 2d images
US9665955B1 (en) Pose-space shape fitting
US11823328B2 (en) Three-dimensional (3D) model generation from computer-aided design (CAD) data
Chen et al. Manipulating, deforming and animating sampled object representations
CN115841546A (zh) 一种场景结构关联的地铁站多视矢量仿真渲染方法及***
US20230079478A1 (en) Face mesh deformation with detailed wrinkles
CN116362966A (zh) 图像处理方法和装置
Zhang et al. Fast Mesh Reconstruction from Single View Based on GCN and Topology Modification.
Udayan An analysis of reconstruction algorithms applied to 3d building modeling
Bae et al. User‐guided volumetric approximation using swept sphere volumes for physically based animation
US20230130281A1 (en) Figure-Ground Neural Radiance Fields For Three-Dimensional Object Category Modelling
Kumar et al. Efficient 3D Object Synthesis and Modeling Through Generative Adversarial Networks
Bernhard Check for Architectural Sketch to 3D Model: An Experiment on Simple-Form Houses Hong-Bin Yang (), ID 9 Mikhael Johanes, Frederick Chando Kim, Mathias Bernhard®, and Jeffrey Huang ID
Campos Feature-Based 3D Level Set Morphing
Andersen 3D Shape Modeling Using High Level Descriptors

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210922

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20221108

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230208

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230516

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230608

R150 Certificate of patent or registration of utility model

Ref document number: 7294788

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150