JP7266208B2

JP7266208B2 - 認識位置決め装置及び情報変換装置

Info

Publication number: JP7266208B2
Application number: JP2019096946A
Authority: JP
Inventors: 和郎岩根
Original assignee: IWANE LABORATORIES, LTD.
Current assignee: IWANE LABORATORIES, LTD.
Priority date: 2019-05-23
Filing date: 2019-05-23
Publication date: 2023-04-28
Anticipated expiration: 2039-05-23
Also published as: WO2020235286A1; EP3974766A4; US20220230458A1; EP3974766A1; JP2020191003A

Description

本発明は、ビデオカメラ等で取得された画像・映像に基づいて、動画像から画像内の対象物を認識すると同時に、当該対象物の三次元座標取得を行うことが可能となる画像・映像処理技術に関する。

画像認識の分野においては、機械学習が最近急速に進化している。
例えば、特許文献１には、画像解析に適した教師データを効率的に生成することにより、高精度の画像認識や状況予測などに利用する十分な量の教師データを得ようとする提案がなされている。

特開２０１９－０２８８７６号公報

特許文献１に開示されているような現状の機械学習による画像認識技術によれば、例えば自動運転のための三次元地図を作成する場合に、標識，地物，信号機等の対象物を画像認識することは可能であったが、更なる改善の余地があった。
例えば、現状の機械学習はかなり進化してきているが、二次元上の画像内の対象物を認識するだけのものであり、認識された対象物の三次元位置を認識と同時に取得するようなことはできない。ここでの認識とは、対象物をニューラルネットワークにより、カテゴリーに分かれた分類の何処に属するかを判断することである。

このため、現状の画像認識技術において対象物の三次元位置情報を得ようとすれば、対象物の認識作業とは別の、例えば測量等が必要となる。
また、現状の対象物認識は、三次元を対象とはしていないし、していたとしても、結局は二次元上に投影して認識しているに過ぎない。
このように、これまでの画像認識技術で認識される対象物は、三次元座標を持たないものである。
すなわち、機械学習は二次元上で、セグメンテーションやたたみ込み積分を行うことから、原理的に三次元形状や位置情報は失われるという欠点があった。

このように、対象物認識が二次元でなされている以上、現実の世界とは異なり、三次元的な構造は常に不明である。
また、現状では画像伝送は二次元の伝送であり、たとえ２Ｋ，４Ｋ，８Ｋと画像が高解像度になっても、それは二次元のままであり、現実世界とは異なる。
本願発明者は、このような現状の画像認識技術が有する課題を解決し得る発明として、鋭意研究の結果、対象物の認識と同時に、その三次元座標を取得できるようにすることで、画像処理の技術を大きく進化させることができる本発明に想到したものである。

すなわち、本発明は、以上のような従来の技術が有する問題を解決するために提案されたものであり、これまでの機械学習に新しい機能を付加させることで、その機能を向上させ、性能を更に拡張させることができる認識位置決め装置及び情報変換装置の提供を目的とする。
本発明は、動画像を利用して、動画像から画像内の対象物を認識し、同時に当該対象物の三次元座標取得を行い、これを連続して行うことで、自動的に座標付き対象物のデータベースを自動作成し、さらにはこのデータベースを基準の三次元地図として自動運転を行い、さらには、時間軸をも含めたこれらのデータベースの膨大な情報を効率的に伝送し記録することができる装置・技術を提供できるようにするものである。

上記目的を達成するため、本発明の認識位置決め装置は、対象をカメラで撮影して対象映像を取得する際のカメラの静止座標系における三次元位置座標と３軸回転姿勢の値を示すＣＶ（カメラベクトル）値を求めるＣＶ演算を行い、前記対象映像に前記ＣＶ値を付加したＣＶ映像を生成するＣＶ映像取得部と、前記ＣＶ映像の連続する複数フレームに亘って映り込んでいる同一の対象物に対して、認識する目的の対象物を指定する入力操作が行われた場合に、当該対象物の指定を受け付ける対象物指定部と、前記ＣＶ映像に映り込んでいる各対象物の前記静止座標系における三次元位置座標が付加された前記対象物のデータを教師データをとして機械学習することによって、学習モデルを生成する処理と、前記対象物指定部で指定された対象物について、生成された当該学習モデルを用いて、当該ＣＶ映像に映り込んでいる各対象物を同一の対象物として認識する処理と、からなる認識処理を、前記ＣＶ映像の複数フレームに亘って繰り返し実行する連続フレーム機械学習部と、前記連続フレーム機械学習部で認識された対象物を、前記ＣＶ映像の複数フレームで同一の対象物として対応させ、当該ＣＶ映像に映り込んでいる各対象物の前記静止座標系における三次元位置座標を前記ＣＶ値に基づいて取得し、前記三次元位置座標が一致する対象物を各フレームで確認することで同定して、当該対象物に、一致する前記三次元位置座標を付加する三次元座標演算対象物座標付加部と、前記連続フレーム機械学習部で認識された前記対象物のデータを前記三次元座標演算対象物座標付加部に引き渡し、前記三次元座標演算対象物座標付加部で前記三次元位置座標が付加された前記対象物のデータを前記連続フレーム機械学習部に引き渡すことにより、前記連続フレーム機械学習部と前記三次元座標演算対象物座標付加部との間で、前記対象物の認識と三次元位置座標の付加を、前記ＣＶ映像の複数フレームに亘って繰り返すことにより、当該対象物について最終的な三次元位置座標を付加して出力する座標付加認識出力部と、を備える構成としてある。

また、本発明の情報変換装置は、本発明に係る認識位置決め装置に接続される装置であって、前記対象物の種類に対応する識別情報となるＩＤ及び当該ＩＤによって分類された前記対象物の属性情報を記憶したＩＤ部品庫と、前記認識位置決め装置において同定されて前記三次元位置座標が付加された対象物に、前記ＩＤ部品庫に記憶された、当該対象物の種類に対応する前記ＩＤを対応させ、複数の対象物を含む前記ＣＶ映像を、各対象物の種類に対応する前記ＩＤ及びその属性情報によって再構成する画像再構成表示装置と、を備えた構成としてある。

本願出願人による特許第４１４６０２７号「情報変換システム」は、所定の手段により画像内の目的の対象物の三次元座標を取得し、その形状を取得し、部品に置き換え、それを再構成することで画像再構築する技術である。
また、本願出願人による特許第４７６７５７８号「高精度ＣＶ演算装置」は、動画像を解析し、動画像を取得したカメラの６変数を求める演算を実行して、カメラの位置の座標を求めることができ、その動画像を様々に加工等することを可能とする技術である。ただし、当該特許技術における三次元座標の取得と対象物認識は別の技術であり、これまでは、それらを同時に処理できるようにする技術は提案されていなかった。

ところで最近は、世の中に普及してきた技術として、機械学習がかなり進化し、画像の中の対象物の認識がかなり自由に行えるようになり、画像解析の世界がより広がったと言える。
そこで、本発明では、単なる写真としての画像ではなく、動画像の取得が当たり前になりつつあることから、静止画像ではなく動画像、特に上記特許技術であるＣＶ映像（詳細は後述）を利用して、対象物を機械学習で認識すると同時に、対象物の三次元座標を瞬時に求めることを可能とするものであり、さらに必要であれば、三次元の絶対座標を求めることができるものである。

画像は、本来二次元であるが、連続する二次元の画像から、認識と同時に、三次元構造が分かれば、大きな活用・展開が期待できるようになる。
当然のことながら、例えば従来の測量機等と組み合わせれば、後処理で対象物の三次元座標の取得は可能であるが、本発明では、対象物の認識と同時に三次元座標の取得を実現しつつ、認識の確度と三次元座標の精度を向上させることができることを特徴とするものである。
ここで、本発明における対象物の三次元座標とは、目的に応じて、前もって代表点を何処にするか決めておくことができる。例えば、対象物の中心の三次元座標や、下端の三次元座標、上端の三次元座標、あるいは全体の三次元形状などを指定することができる。具体的には、道路標識であれば、標識の中心か、その上端か、その下端か、その全体か、等である。

このような本発明によれば、先ず始めに、従来の機械学習の対象物認識において、その対象物の三次元座標の取得が可能となり、そこに本願出願人に係るＣＶ技術が適用されることにより、映像中に動画のまま、機械学習を適応させることが可能となり、認識対象物が三次元座標を持つことになる。
これによって、これまでの機械学習技術では不可能であった新たな領域への利用・展開が可能となる。

本発明によれば、動画像から画像内の対象物を認識し、同時に当該対象物の三次元座標取得を行い、これを連続して行うことで、自動的に座標付き対象物のデータベースを自動作成し、さらにはこのデータベースを基準の三次元地図として自動運転を行い、さらには、時間軸をも含めたこれらのデータベースの膨大な情報を効率的に伝送し記録することが可能となる。

本発明の認識位置決め装置において、対象映像のＣＶ演算を行うＣＶ演算手段（ＣＶ映像取得部）の一実施形態の基本構成を示すブロック図である。図１に示すＣＶ演算手段で使用する全周ビデオ映像を撮影する手段を示す概略図であり、屋根部に全周カメラを搭載した車輌の斜視図である。図１に示すＣＶ演算手段で使用する全周ビデオ映像を撮影する手段を示す概略図であり、（ａ）は屋根部に全周カメラを搭載した車輌の正面図、（ｂ）は同じく平面図である。全周カメラで撮影される映像から得られる変換画像を示す説明図であり、（ａ）は球面画像が貼り付けられる仮想球面を、（ｂ）は仮想球面に貼り付けられた球面画像の一例を、（ｃ）は（ｂ）に示した球面画像をメルカトール図法に従って平面展開した画像を示している。本発明の一実施形態に係るＣＶ演算手段おける具体的なカメラベクトルの検出方法を示す説明図である。本発明の一実施形態に係るＣＶ演算手段における具体的なカメラベクトルの検出方法を示す説明図である。本発明の一実施形態に係るＣＶ演算手段における具体的なカメラベクトルの検出方法を示す説明図である。本発明の一実施形態に係るＣＶ演算手段によるカメラベクトルの検出方法における望ましい特徴点の指定態様を示す説明図である。本発明の一実施形態に係るＣＶ演算手段により得られる特徴点の三次元座標とカメラベクトルの例を示すグラフである。本発明の一実施形態に係るＣＶ演算手段により得られる特徴点の三次元座標とカメラベクトルの例を示すグラフである。本発明の一実施形態に係るＣＶデータ演算手段により得られる特徴点の三次元座標とカメラベクトルの例を示すグラフである。本発明の一実施形態に係るＣＶ演算手段において、カメラから特徴点の距離に応じて複数の特徴点を設定し、それを隣接するフレームに亘って追跡し、複数の演算を繰り返し行う場合を示す説明図である。本発明の一実施形態に係るＣＶデータ演算手段で求められたカメラベクトルの軌跡をビデオ映像中に表示した場合の図である。本発明の一実施形態に係るＣＶデータ演算手段で求められるＣＶ値とＲＶ値とＭＶ値との関係を模式的に示す説明図である。本発明の一実施形態に係る認識位置決め装置の基本構成を示すブロック図である。本発明の一実施形態に係る認識位置決め装置における対象物認識の手法の一例を模式的に示す説明図である。本発明の一実施形態に係る認識位置決め装置における対象物認識の手法の他の一例を模式的に示す説明図である。本発明の一実施形態に係る認識位置決め装置における機械学習（ディープラーニング）の原理を模式的に示す説明図である。図１８に引き続いて、機械学習（ディープラーニング）の原理を模式的に示す説明図である。図１９に引き続いて、機械学習（ディープラーニング）の原理を模式的に示す説明図である。図２０に引き続いて、機械学習（ディープラーニング）の原理を模式的に示す説明図である。本発明の一実施形態に係る認識位置決め装置における移動体の認識と位置決めの原理を模式的に示す説明図である。本発明の一実施形態に係る認識位置決め装置において生成・出力される画像の一例である。本発明の一実施形態に係る認識位置決め装置において生成・出力される画像の他の一例である。本発明の一実施形態に係る認識位置決め装置において生成・出力される画像の他の一例である。本発明の一実施形態に係る認識位置決め装置において生成・出力される画像の他の一例である。本発明の一実施形態に係る認識位置決め装置において生成・出力される画像の他の一例である。本発明の一実施形態に係る認識位置決め装置において生成・出力される画像の他の一例である。本発明の一実施形態に係る認識位置決め装置において生成・出力される画像の一例である。本発明に係る認識位置決め装置を備えた情報変換装置の一実施形態を示す機能ブロック図である。図３０に示す情報変換装置の詳細構成を示す機能ブロック図である。図３０に示す情報変換装置の他の詳細構成を示す機能ブロック図である。本発明の一実施形態に係る情報変換装置において生成・出力される画像の一例である。本発明に係る認識位置決め装置を備えた情報変換装置の他の実施形態を示す機能ブロック図である。本発明に係る認識位置決め装置を備えた情報変換装置の他の実施形態を示す機能ブロック図である。本発明に係る認識位置決め装置を備えた情報変換装置の他の実施形態を示す機能ブロック図である。本発明に係る認識位置決め装置を備えた情報変換装置の他の実施形態を示す機能ブロック図である。

以下、本発明に係る認識位置決め装置及び情報変換装置の好ましい実施形態について、図面を参照しつつ説明する。
ここで、以下に示す本発明の認識位置決め装置及び情報変換装置は、プログラム（ソフトウェア）の命令によりコンピュータで実行される処理，手段，機能によって実現される。プログラムは、コンピュータの各構成要素に指令を送り、以下に示すような所定の処理や機能、例えば、対象映像中の基準となる特徴点（基準点）やその他の特徴点の自動抽出，抽出した基準点の自動追跡，基準点の三次元座標の算出，ＣＶ（カメラベクトル）値の演算，ＣＶ映像に含まれる対象物の認識・同定，認識された対象物への三次元位置座標の付加，対象物の認識と三次元位置座標の付加の繰り返しによる高精度な認識確度と三次元座標精度の付加・出力，同定・認識された対象物に対応するＩＤ及びその属性情報による再構成画像の生成等を行わせる。このように、本発明における各処理や手段は、プログラムとコンピュータとが協働した具体的手段によって実現される。

なお、プログラムの全部又は一部は、例えば、磁気ディスク，光ディスク，半導体メモリ，その他任意のコンピュータで読取り可能な記録媒体により提供され、記録媒体から読み出されたプログラムがコンピュータにインストールされて実行される。
また、プログラムは、記録媒体を介さず、通信回線を通じて直接にコンピュータにロードし実行することもできる。
また、コンピュータは、例えば一台のＰＣ等で構成してもよく、また、複数台のサーバコンピュータ等で構成することもできる。

［ＣＶ映像］
以下に示す本発明の一実施形態に係る認識位置決め装置は、例えばビデオカメラで撮影・取得された対象映像に基づいて、動画像から画像内の対象物認識を行うと同時に、認識された対象物の三次元座標取得を行い、これを連続して行うことで、映像中の各対象物に対して高精度な三次元座標を付与するための手段である。
そして、本実施形態に係る認識位置決め装置では、上記のような映像中の対象物の認識・三次元座標付与を高精度に実現するために、対象映像に所定の三次元座標と姿勢の計６変数の情報を付与したＣＶ（カメラベクトル）映像を用いることを前提としている。
なお、上記と同等の６変数は、例えばカメラに取り付けた機械センサー（ＩＭＵとジャイロ等）などによっても取得できるが、ＣＶ演算による方が、精度が高く、コストがかからず、簡単に生成・取得することができる。

以下、本発明に係る認識位置決め装置で用いられるＣＶ映像について説明する。
認識位置決め装置での対象物の認識・三次元座標取得処理を行う前提として、対象・目的となる対象物を含む対象映像を取得・撮影する撮影カメラを車両等の移動体に設置し、動画映像、又は連続する静止画を取得する。その上で、取得した対象映像の各フレーム画像の中に特徴点を抽出して、数学的演算により、全フレームのカメラ位置と姿勢を演算で求める。
具体的にはカメラ位置と姿勢を６変数、具体的には、カメラの位置座標（Ｘ，Ｙ，Ｚ）とそれぞれの座標軸の回転角（Φｘ，Φｙ，Φｚ）の六個の自由度のベクトル（カメラベクトル：ＣＶ）で表し、それを映像の各フレームに一対一に対応させることで、ＣＶ映像を生成することができる（後述する図１～１４参照）。
このＣＶ映像を用いることで、既存の測量機による測量技術等を用いることなく、任意の映像において所望の対象物の認識・三次元座標取得処理が可能となる。

ここで、目的となるカメラの位置と姿勢を示す６変数とは、座標［Ｘ，Ｙ，Ｚ］と姿勢［Φｘ，Φｙ，Φｚ］の計６種類の変数である。
すなわち、本発明に係る認識位置決め装置では、対象映像に含まれる任意の対象物や点について、その位置と姿勢を示す６変数を取得するものである。
そして、この６変数の取得とは、上述のとおり、三次元位置座標を示す［Ｘ，Ｙ，Ｚ］と姿勢を示す［Φｘ，Φｙ，Φｚ］の６個の変数を決定することである。
このような位置と姿勢の６変数を示すＣＶ値が付与された映像が、ＣＶ映像である。

［用語の定義］
次に、本明細書・特許請求の範囲中において使用する用語・語句についての定義を説明する。
・ＣＶ値／ＣＶ演算／ＣＶ映像／ＣＶ画像：
移動する物体、（たとえば車両やロボット等）に積載された機械センサーで得られた６変数、及びカメラから得られた連続する静止画像、又は動画像から、カメラの位置と姿勢を算出した６変数をカメラベクトル（ＣＶ：Camera Vector）と呼称し、その値をＣＶ値といい（図１４参照）、ＣＶ値を演算で求めることをＣＶ演算といい、そしてそのようなＣＶ値を有する画像をＣＶ映像という。

なお、例えばカメラに一体化された機械センサー（ＩＭＵ，Ｇｙｒｏなど）から得られた６変数も、本発明に係るＣＶ値とすることができる。
また、連続しない単独の画像についてはＣＶ画像と呼称することがある。あるいは、１フレームについてのみ着目するときには、当該１フレームの画像をＣＶ画像と呼称することがある。つまり、ＣＶ画像はＣＶ映像の特殊な状態（単独画像）である。

・ＲＶ値：
上記のＣＶ値が静止座標系に対するカメラの位置姿勢の６変数であるのに対して、移動体とカメラの位置姿勢に関する６変数にＣＶ値を代入して、静止座標系と移動体の関係に変換した６変数をムーヴィングベクトル（ＭＶ：Moving Vector）値という。
移動体抽出には座標系分離が必要であり、静止座標系から見た対象物の６変数をＭＶ値といい、また、カメラ位置から見た対象物の６変数をリージョナルベクトル（ＲＶ：Regional Vector）値という（後記参照）。ＲＶ値は、カメラ座標系と移動体座標系との関係を表している。
これらＲＶ値／ＭＶ値は、ＣＶ値に含まれるものであり、ＣＶ値と同様に後述するＣＶ演算により求められる。

・ＭＶ値／ＭＶ演算／ＭＶ画像：
上記のとおり、カメラ座標系と静止座標系との関係を示す６変数をＣＶ値、カメラ座標系と移動体座標系との関係を示す６変数をＲＶ値という。
移動する同一の対象物を複数フレームで含む画像において、静止画像系の中を移動する対象物は、ＲＶ値として検出される。
静止座標系に固定された例えば建築物のような対象物は、そのままＣＶ値によってカメラ座標系との関係が規定される。
また、移動する対象物（例えば自動車）は、ＣＶ値ではなくＲＶ値として規定される。
一方、静止座標系とカメラ座標系の関係のみを求めるときには、ＲＶ値は誤差として入ってくる値となるので削除される。

ところで、ＲＶ値は、対象物単位（例えば車のような形の決まっている対象物）で取得される。
また、対象物を構成する複数の部分が個別の動きをする場合（例えば人間のような形の変化する対象物）には、複数のＲＶ値を持つことになる。
ここで、移動する車両の運動を解析するような場合は、ＣＶ画像の座標系と、移動対象物との関係を求める必要が出てくる。
まず、図１４に示すように、ＣＶ値とＲＶ値とでは、ＣＶ値を介してその関係が求められることになる。
そこで、図１４に示すように、静止座標系と移動対象物の座標系との関係を直接的に示す変数をＭＶ値、そのための演算をＭＶ演算、対象物の画像をＭＶ画像という。

すなわち、ＣＶ値とＲＶ値とで共通としている要素のカメラ座標系を削除し、静止座標系と移動体座標系との直接の関係を示す６変数を求めることをＭＶ演算とし、その６変数をムーヴィングベクトル（ＭＶ：Moving Vector）値とする。
図１４に、本発明に係るＣＶ値・ＲＶ値・ＭＶ値の関係を模式的に示す。
同図に示すように、ＭＶ演算を行うには、カメラ座標系を共通項として、互いのＣＶ値（ＲＶ値）を削除することで、ＭＶ値が得られることになる。
また、このようにしてＭＶ値が取得された画像をＭＶ画像という。
なお、当然のことながら、静止座標系と移動体座標系を示すＭＶ値は時々刻々、時間とともに変化することになる。

・対象物の認識：
本発明において、対象物の「認識」とは、目的の対象物、及びその物体の属性が、用意したカテゴリー別に決定されることをいう。さらに、あらかじめ決められた対象物の名称を決めることも「認識」となる。
対象映像の各フレームで認識された複数の対象物は、それが同じ物体である保証はない。
すなわち、「認識」は、形状取得ではなく、カテゴリーに分類されたことを意味する。

・対象物の同定：
本発明において、対象物の「同定」とは、上記のように「認識」された対象物が、同一の物体であることを決定することをいう。
具体的には、認識された対象物（例えば電柱）が、決まった場所に立つ「同一の電柱」であると決定することを「同定」という。
以上のような対象物の認識／同定処理については、後述する図１５～２２を参照しつつ詳しく説明する。

［ＣＶ演算］
次に、上記のような本発明の認識位置決め装置で用いられるＣＶ映像を生成するためのＣＶ演算の詳細について図１～図１４を参照しつつ説明する。
ＣＶ演算とはＣＶ値を求めることを意味し、求められた結果をＣＶ値，ＣＶデータと呼ぶ。ＣＶという表記は、「カメラベクトル：Camera Vector」の略記であり、カメラベクトル（ＣＶ）とは計測等のために映像を取得するビデオカメラ等のカメラの三次元位置と３軸回転姿勢を示す値である。ＣＶ値は、カメラ座標系と静止座標系との関係を表している。
ＣＶ演算は、動画像（ビデオ映像）を取得し、その映像内の特徴点を検出し、それを隣接する複数のフレームに追跡し、カメラ位置と特徴点の追跡軌跡とが作る三角形を画像内に数多く生成し、その三角形を解析することで、カメラの三次元位置とカメラの３軸回転姿勢を求めるものである。

ＣＶ演算では、ＣＶ値を求める過程で、同時に映像内の特徴点（基準点）についても三次元座標が同時に求まることが重要な特性である。
また、動画像から演算で求められるＣＶ値は、動画像の各フレームに対応して、三次元のカメラ位置と三次元のカメラ姿勢とが同時に求まる。しかも、原理的には一台のカメラで、映像と対応してＣＶ値が求められる特性は、ＣＶ演算でしか実現し得ない、優れた特徴である。
例えば、他の方法による計測手段（ＧＰＳやＩＭＵ等）では、動画像の各フレームと、その三次元的カメラ位置と三次元的カメラ姿勢とを同時に取得するためには画像フレームと計測サンプリング時刻を高精度で、しかも完全に同期しなければならないために、巨額の装置となり、実質的には実現が困難である。

動画像から演算で求められるＣＶデータは、加工しない段階では相対値であるが、短区間であれば高精度で三次元位置情報と３軸回転の角度情報を取得できる。
また、ＣＶデータは画像から取得するため、取得されたデータは相対値であるが、画像内の任意の対象物の位置関係を計測することができるという他の方法では実現は可能な優れた特性を備える。
また、画像に対応したＣＶ値が求まるので、画像内計測や測量において、画像から直接にカメラ位置とその３軸回転姿勢を求めることができるＣＶ演算は画像内計測や画像内測量に好適となる。
そして、本発明の認識位置決め装置は、このＣＶ演算により得られたＣＶ値データが付与された映像（ＣＶ映像）に基づいて、映像中の任意の対象物についての認識及び三次元座標取得処理を行うものである。

［ＣＶ演算手段］
ＣＶ演算は、後述する本発明の認識位置決め装置のＣＶ映像取得部２０（図１５参照）として機能するＣＶ演算手段２０で行われる。
ＣＶ演算手段（ＣＶ映像取得部）２０は、図１に示すように、車載のビデオカメラ等で構成される対象映像取得部（全周囲カメラ部）１０から入力されるビデオ映像について所定のＣＶ演算処理を行うようになっており、具体的には、特徴点抽出部２１と、特徴点対応処理部２２と、カメラベクトル演算部２３と、誤差最小化部２４と、三次元情報追跡部２５と、高精度カメラベクトル演算部２６とを備えている。

まず、ＣＶ演算に使用する映像としては、どのような映像でもよいが、画角の限られた映像では視点方向を移動した場合に映像がとぎれてしまうので、全周映像（図２～４参照）とすることが望ましい。なお、動画映像は連続する静止画と同様であり、静止画と同様に扱うことができる。
また、映像は、一般には予め記録した動画映像を使うことになるが、自動車等の移動体の移動に合わせてリアルタイムに取り込んだ映像を使用することも勿論可能である。

そこで、本実施形態では、ＣＶ演算に使用する映像として、車輌等の移動体の３６０度の全周囲を撮影した全周映像（図２～４参照）か、又は全周映像に近い広角映像を用いて、その全周映像を視点方向に平面展開することにより、任意の視点移動の対象となる対象映像を取得・生成する対象映像取得部１０を備えている（図１参照）。
ここで、全周映像の平面展開とは、全周映像を、通常の画像として遠近法で表現するものである。ここで、「遠近法」と呼称するのは、全周画像のそのものはメルカトール図法や球面投影図法のように、遠近法とは異なる方法で表示されているので（図４参照）、これを平面展開表示することで、通常の遠近法映像に変換表示できるからである。

対象映像取得部１０において全周映像を生成するには、まず、図２及び図３に示すように、全周ビデオカメラ１１を使用して、ＣＶ値データを取得する目的で、走行車輌等の移動体１１ａに固定された全周ビデオカメラ１１で、移動体１１ａの移動とともに移動体周辺を撮影する。
なお、移動体１１ａには、その位置座標を取得する目的で、例えば、絶対座標を取得するＧＰＳ機器単独やＩＭＵ機器を付加したもの等により構成した位置計測機器等を備えることができる。
また、移動体１１ａに搭載される全周ビデオカメラ１１としては、広範囲映像を撮影，取得するカメラであればどのような構成であってもよく、例えば、広角レンズや魚眼レンズ付きカメラ、移動カメラ、固定カメラ、複数のカメラを固定したカメラ、３６０度周囲に回転可能なカメラ等がある。本実施形態では、図２及び図３に示すように、車輌に複数のカメラが一体的に固定され、移動体１１ａの移動に伴って広範囲映像を撮影する全周ビデオカメラ１１を使用している。

そして、以上のような全周ビデオカメラ１１によれば、図３に示すように、移動体１１ａの天井部等に設置されることで、カメラの３６０度全周囲の映像を複数のカメラで同時に撮影することができ、移動体１１ａが移動することで、広範囲映像を動画データとして取得できる。
ここで、全周ビデオカメラ１１は、カメラの全周映像を直接取得できるビデオカメラであるが、カメラの全周囲の半分以上を映像として取得できれば全周映像として使用できる。
また、画角が制限された通常のカメラの場合でも、ＣＶ演算の精度としては低下するが、全周映像の一部分として取り扱うことが可能である。

なお、全周ビデオカメラ１１で撮影された広範囲映像は、一枚の画像として、撮影時の画角に一致する仮想球面に貼り付けることができる。
仮想球面に貼り付けられた球面画像データは、仮想球面に貼り付けた状態の球面画像（３６０度画像）データとして保存・出力される。仮想球面は、広範囲映像を取得するカメラ部を中心点とした任意の球面状に設定することができる。
図４（ａ）は球面画像が貼り付けられる仮想球面の外観イメージであり、同図（ｂ）は仮想球面に貼り付けられた球面画像の一例である。また、同図（ｃ）は、（ｂ）の球面画像をメルカトール図法に従って平面展開した画像例を示す。

そして、以上のように生成・取得された全周ビデオ映像が、本発明に係る対象映像としてＣＶ演算手段（ＣＶ映像取得部）２０に入力されてＣＶ値データが求められる（図１参照）。
ＣＶ演算手段２０では、まず、特徴点抽出部２１が、対象映像取得部１０の全周ビデオカメラ１１で撮影されて一時記録された動画像データの中から、十分な数の特徴点（基準点）を自動抽出する。
特徴点対応処理部２２は、自動抽出された特徴点を、各フレーム間で各フレーム画像内において自動的に追跡することで、その対応関係を自動的に求める。
カメラベクトル演算部２３は、対応関係が求められた特徴点の三次元位置座標から各フレーム画像に対応したカメラベクトルを演算で自動的に求める。
誤差最小化部２４は、複数のカメラ位置の重複演算により、各カメラベクトルの解の分布が最小になるように統計処理し、誤差の最小化処理を施したカメラ位置方向を自動的に決定する。

三次元情報追跡部２５は、カメラベクトル演算部２３で得られたカメラベクトルを概略のカメラベクトルと位置づけ、その後のプロセスで順次画像の一部として得られる三次元形状に基づいて、複数のフレーム画像に含まれる部分的な三次元形状を隣接するフレームの画像に沿って自動追跡を行う。ここで、三次元情報（三次元形状）とは、主に特徴点の三次元分布情報であり、すなわち、三次元の点の集まりであり、この三次元の点の集まりが三次元形状を構成する。
高精度カメラベクトル演算部２６は、三次元情報追跡部２５で得られた追跡データに基づいて、カメラベクトル演算部２３で得られるカメラベクトルより、さらに高精度なカメラベクトルを生成，出力する。
そして、以上のようにして得られたカメラベクトルが、後述する認識位置決め装置１００に入力され、映像中で指定・選択される任意の対象物や点についての認識処理・三次元座標付加処理に用いられることになる。

複数の画像（動画又は連続静止画）の特徴点からカメラベクトルを検出するには幾つかの方法があるが、図１に示す本実施形態のＣＶ演算手段２０では、画像内に十分に多くの数の特徴点を自動抽出し、それを自動追跡することで、例えば、ステレオビジョンを扱う幾何学である公知のエピポーラ幾何学により、カメラの三次元位置及び３軸回転姿勢を求めるようにしてある。
特徴点を充分に多くとることにより、カメラベクトル情報が重複することになり、重複する情報から誤差を最小化させて、より精度の高いカメラベクトルを求めることができる。

カメラベクトルとは、カメラの持つ自由度のベクトルである。
一般に、静止した三次元物体は、位置座標（Ｘ，Ｙ，Ｚ）と、それぞれの座標軸の回転角（Φｘ，Φｙ，Φｚ）の六個の自由度を持つ。
したがって、カメラベクトルは、カメラの位置座標（Ｘ，Ｙ，Ｚ）とそれぞれの座標軸の回転角（Φｘ，Φｙ，Φｚ）の六個の自由度のベクトル（６変数）をいう。なお、カメラが移動する場合は、自由度に移動方向も入るが、これは上記の六個の自由度（変数）から微分して導き出すことができる。
このように、本実施形態のカメラベクトルの検出とは、カメラは各フレーム毎に六個の自由度の値をとり、各フレーム毎に異なる六個の自由度を決定することである。

以下、ＣＶ演算手段２０における具体的なカメラベクトルの検出方法について、図５以下を参照しつつ説明する。
まず、上述した対象映像取得部１０の全周ビデオカメラ１１で取得された画像データは、間接に又は直接に、ＣＶ演算手段２０の特徴点抽出部２１に入力され、特徴点抽出部２１で、適切にサンプリングされたフレーム画像中に、特徴点となるべき点又は小領域画像が自動抽出され、特徴点対応処理部２２で、複数のフレーム画像間で特徴点の対応関係が自動的に求められる。
具体的には、カメラベクトルの検出の基準となる、十分に必要な数以上の特徴点を求める。画像間の特徴点とその対応関係の一例を、図５～図７に示す。図中「＋」が自動抽出された特徴点であり、複数のフレーム画像間で対応関係が自動追跡される（図７に示す対応点１～４参照）。
ここで、特徴点の抽出は、図８に示すように、各画像中に充分に多くの特徴点を指定，抽出することが望ましく（図８の○印参照）、例えば、１００点程度の特徴点を抽出する。

続いて、カメラベクトル演算部２３で、抽出された特徴点の三次元座標が演算により求められ、その三次元座標に基づいてカメラベクトルが演算により求められる。具体的には、カメラベクトル演算部２３は、連続する各フレーム間に存在する、十分な数の特徴の位置と、移動するカメラ間の位置ベクトル、カメラの３軸回転ベクトル、各カメラ位置と特徴点をそれぞれ結んだベクトル等、各種三次元ベクトルの相対値を演算により連続的に算出する。
本実施形態では、例えば、３６０度全周画像のエピポーラ幾何からエピポーラ方程式を解くことによりカメラ運動（カメラ位置とカメラ回転）を計算するようになっている。

図７に示す画像１，２は、３６０度全周画像をメルカトール展開した画像であり、緯度φ、経度θとすると、画像１上の点は（θ１，φ１）、画像２上の点は（θ２，φ２）となる。そして、それぞれのカメラでの空間座標は、ｚ１＝（ｃｏｓφ１ｃｏｓθ１，ｃｏｓφ１ｓｉｎθ１，ｓｉｎφ１）、ｚ２＝（ｃｏｓφ２ｃｏｓθ２，ｃｏｓφ２ｓｉｎθ２，ｓｉｎφ２）である。カメラの移動ベクトルをｔ、カメラの回転行列をＲ、とすると、ｚ１^T［ｔ］×Ｒｚ２＝０がエピポーラ方程式である。
十分な数の特徴点を与えることにより、線形代数演算により最小自乗法による解としてｔ及びＲを計算することができる。この演算を対応する複数フレームに適用し演算する。

ここで、カメラベクトルの演算に利用する画像としては、３６０度全周画像を用いることが好ましい。
カメラベクトル演算に用いる画像としては、原理的にはどのような画像でも良いが、図７に示す３６０度全周画像のような広角画像の方が特徴点を数多く選択し易くなる。そこで、本実施形態では、ＣＶ演算に３６０度全周画像を用いており、これによって、特徴点の追跡距離を長くでき、特徴点を十分に多く選択することができ、遠距離、中距離、短距離それぞれに都合の良い特徴点を選択することができるようになる。また、回転ベクトルを補正する場合には、極回転変換処理を加えることで、演算処理も容易に行えるようになる。これらのことから、より精度の高い演算結果が得られるようになる。
なお、図７は、ＣＶ演算手段２０における処理を理解し易くするために、１台又は複数台のカメラで撮影した画像を合成した３６０度全周囲の球面画像を地図図法でいうメルカトール図法で展開したものを示しているが、実際のＣＶ演算では、必ずしもメルカトール図法による展開画像である必要はない。

次に、誤差最小化部２４では、各フレームに対応する複数のカメラ位置と複数の特徴点の数により、複数通り生じる演算方程式により、各特徴点に基づくベクトルを複数通り演算して求めて、各特徴点の位置及びカメラ位置の分布が最小になるように統計処理をして、最終的なベクトルを求める。例えば、複数フレームのカメラ位置、カメラ回転及び複数の特徴点について、Levenberg-Marquardt法により最小自乗法の最適解を推定し、誤差を収束してカメラ位置、カメラ回転行列、特徴点の座標を求める。
さらに、誤差の分布が大きい特徴点につては削除し、他の特徴点に基づいて再演算することで、各特徴点及びカメラ位置での演算の精度を上げるようにする。
このようにして、特徴点の位置とカメラベクトルを精度良く求めることができる。

図９～図１１に、ＣＶ演算により得られる特徴点の三次元座標とカメラベクトルの例を示す。図９～図１１は、本実施形態のＣＶ演算によるベクトル検出方法を示す説明図であり、移動するカメラによって取得された複数のフレーム画像によって得られるカメラ及び対象物の相対的な位置関係を示す図である。
図９では、図７の画像１，２に示した特徴点１～４の三次元座標と、画像１と画像２の間で移動するカメラベクトル（Ｘ，Ｙ，Ｚ）が示されている。
図１０及び図１１は、充分に多くの特徴点とフレーム画像により得られた特徴点の位置と移動するカメラの位置が示されている。同図中、グラフ中央に直線状に連続する○印がカメラ位置であり、その周囲に位置する○印が特徴点の位置と高さを示している。

ここで、ＣＶ演算手段２０におけるＣＶ演算は、より高精度な特徴点とカメラ位置の三次元情報を高速に得るために、図１２に示すように、カメラから特徴点の距離に応じて複数の特徴点を設定し、複数の演算を繰り返し行うようにする。
具体的には、ＣＶ演算手段２０では、画像内には映像的に特徴がある特徴点を自動検出し、各フレーム画像内に特徴点の対応点を求める際に、カメラベクトル演算に用いるｎ番目とｎ＋ｍ番目の二つのフレーム画像ＦｎとＦｎ＋ｍに着目して単位演算とし、ｎとｍを適切に設定した単位演算を繰り返すことができる。
ｍはフレーム間隔であり、カメラから画像内の特徴点までの距離によって特徴点を複数段に分類し、カメラから特徴点までの距離が遠いほどｍが大きくなるように設定し、カメラから特徴点までの距離が近いほどｍが小さくなるように設定する。このようにするのは、カメラから特徴点までの距離が遠ければ遠いほど、画像間における位置の変化が少ないからである。

そして、特徴点のｍ値による分類を、十分にオーバーラップさせながら、複数段階のｍを設定し、画像の進行とともにｎが連続的に進行するのにともなって、演算を連続的に進行させる。そして、ｎの進行とｍの各段階で、同一特徴点について複数回重複演算を行う。
このようにして、フレーム画像ＦｎとＦｎ＋ｍに着目した単位演算を行うことにより、ｍ枚毎にサンプリングした各フレーム間（フレーム間は駒落ちしている）では、長時間かけて精密カメラベクトルを演算し、フレーム画像ＦｎとＦｎ＋ｍの間のｍ枚のフレーム（最小単位フレーム）では、短時間処理で行える簡易演算とすることができる。

ｍ枚毎の精密カメラベクトル演算に誤差がないとすれば、ｍ枚のフレームのカメラベクトルの両端は、高精度演算をしたＦｎとＦｎ＋ｍのカメラベクトルと重なることになる。したがって、ＦｎとＦｎ＋ｍの中間のｍ枚の最小単位のフレームについては簡易演算で求め、簡易演算で求めたｍ枚の最小単位フレームのカメラベクトルの両端を、高精度演算で求めたＦｎとＦｎ＋ｍのカメラベクトルに一致するように、ｍ枚の連続したカメラベクトルのスケール調整をすることができる。
このようにして、画像の進行とともにｎが連続的に進行することにより、同一特徴点について複数回演算されて得られる各カメラベクトルの誤差が最小になるようにスケール調整して統合し、最終のカメラベクトルを決定することができる。
これにより、誤差のない高精度のカメラベクトルを求めつつ、簡易演算を組み合わせることにより、演算処理を高速化することができるようになる。

ここで、簡易演算としては、精度に応じて種々の方法があるが、例えば、(1)高精度演算では１００個以上の多くの特徴点を用いる場合に、簡易演算では最低限の１０個程度の特徴点を用いる方法や、(2)同じ特徴点の数としても、特徴点とカメラ位置を同等に考えれば、そこには無数の三角形が成立し、その数だけの方程式が成立するため、その方程式の数を減らすことで、簡易演算とすることができる。
これによって、各特徴点及びカメラ位置の誤差が最小になるようにスケール調整する形で統合し、距離演算を行い、さらに、誤差の分布が大きい特徴点を削除し、必要に応じて他の特徴点について再演算することで、各特徴点及びカメラ位置での演算の精度を上げることができる。

また、このように高速な簡易演算を行うことにより、カメラベクトルのリアルタイムに近い処理が可能となる。カメラベクトルの高速演算処理は、目的の精度をとれる最低のフレーム数と、自動抽出した最低の特徴点数で演算を行い、カメラベクトルの概略値を高速演算で求め、表示し、次に、画像が蓄積するにつれて、フレーム数を増加させ、特徴点の数を増加させ、より精度の高いカメラベクトル演算を行い、概略値を精度の高いカメラベクトル値に置き換えて表示することができる。

さらに、本実施形態では、より高精度のカメラベクトルを求めるために、三次元情報（三次元形状）の追跡を行うことができる。
具体的には、まず、三次元情報追跡部２５で、カメラベクトル演算部２３，誤差最小化部２４を経て得られたカメラベクトルを概略のカメラベクトルと位置づけ、その後のプロセスで生成される画像の一部として得られる三次元情報（三次元形状）に基づいて、複数のフレーム画像に含まれる部分的三次元情報を隣接するフレーム間で連続的に追跡して三次元形状の自動追跡を行う。
そして、この三次元情報追跡部２５で得られた三次元情報の追跡結果から、高精度カメラベクトル演算部２６においてより高精度なカメラベクトルが求められる。

上述した特徴点抽出部２１及び特徴点対応処理部２２では、特徴点を複数のフレーム間画像内に自動追跡するが、特徴点が消失するなどして特徴点の追跡フレーム数に制限が出てくることがある。また、画像は二次元であり、追跡途中で形状が変化するために追跡精度にも一定の限界がある。
そこで、特徴点追跡で得られるカメラベクトルを概略値と位置づけ、その後のプロセスで得られる三次元情報（三次元形状）を各フレーム画像上に追跡して、その軌跡から高精度カメラベクトルを求めることができる。
三次元形状の追跡は、マッチング及び相関の精度を得やすく、三次元形状はフレーム画像によって、その三次元形状も大きさも変化しないので、多くのフレームに亘って追跡が可能であり、そのことでカメラベクトル演算の精度を向上させることができる。これはカメラベクトル演算部２３により概略のカメラベクトルが既知であり、三次元形状が既に分かっているから可能となるものである。

カメラベクトルが概略値の場合、非常に多くのフレームに亘る三次元座標の誤差は、特徴点追跡による各フレームに関係するフレームが少ないので、誤差が累積して長距離では次第に大きな誤差になるが、画像の一部分を切り取ったときの三次元形状の誤差は相対的に少なく、形状の変化と大きさに及ぼす影響はかなり少ないものとなる。このため、三次元形状での比較や追跡は、二次元形状追跡の時よりも極めて有利となる。追跡において、二次元形状での追跡の場合、複数のフレームにおける形状の変化と大きさの変化を避けられないまま追跡することになるので、誤差が大きかったり、対応点が見つからないなどの問題があったが、三次元形状での追跡においては形状の変化が極めて少なく、しかも原理的に大きさの変化もないので、正確な追跡が可能となる。

ここで、追跡の対象となる三次元形状データとしては、例えば、特徴点の三次元分布形状や、特徴点の三次元分布形状から求められるポリゴン面等がある。
また、得られた三次元形状を、カメラ位置から二次元画像に変換して、二次元画像として追跡することも可能である。カメラベクトルの概略値が既知であることから、カメラ視点からの二次元画像に投影変換が可能であり、カメラ視点の移動による対象の形状変化にも追従することが可能となる。

以上のようにして求められたカメラベクトルは、全周ビデオカメラ１１で撮影されたビデオ映像中に重ねて表示することができる。
例えば、図１３に示すように、車載カメラからの映像を平面展開して、各フレーム画像内の目的平面上の対応点を自動で探索し、対応点を一致させるように結合して目的平面の結合画像を生成し、同一の座標系に統合して表示する。
さらに、その共通座標系の中にカメラ位置とカメラ方向を次々に検出し、その位置や方向、軌跡をプロットしていくことができる。ＣＶデータは、その三次元位置と３軸回転を示しており、ビデオ映像に重ねて表示することで、ビデオ映像の各フレームでＣＶ値を同時に観察できる。ＣＶデータをビデオ映像に重ねた表示した画像例を図１３に示す。

なお、ビデオ映像内にカメラ位置を正しく表示すると、ＣＶ値が示すビデオ映像内の位置は画像の中心となり、カメラ移動が直線に近い場合は、すべてのフレームのＣＶ値が重なって表示されてしまうので、例えば図１３に示すように、敢えてカメラ位置から真下に１メートルの位置を表示することが適切である。あるいは道路面までの距離を基準として、道路面の高さにＣＶ値を表示するのがより適切である。

また、以上のようにして求められたＣＶ値に基づいて、上述したＲＶ値・ＭＶ値を求めることができる。
図１４に、ＣＶ値・ＲＶ値・ＭＶ値の関係を模式的に示す。
ＲＶ値は、静止座標系に対するカメラの位置姿勢の６変数であるＣＶ値を、移動体とカメラの位置姿勢に関する６変数にＣＶ値を代入して、静止座標系と移動体の関係に変換した６変数として求めることができる。
ＭＶ値は、ＣＶ値とＲＶ値とで共通としている要素のカメラ座標系を削除し、静止座標系と移動体座標系との直接の関係を示す６変数として求めることができる。

［認識位置決め装置］
次に、以上のようにして求められたＣＶ値，ＲＶ値，ＭＶ値が付与された対象映像（ＣＶ映像）に基づいて実行される、対象映像中の任意の点・対象物についての視点移動表示処理を行う本発明に係る認識位置決め装置の実施形態について、図面を参照しつつ具体的に説明する。
図１５は、本発明の一実施形態に係る認識位置決め装置１００の基本構成を示すブロック図である。
なお、同図に示す本実施形態では、認識位置決め装置１００として、対象映像取得部（全周囲カメラ部）１０及びＣＶ映像取得部２０を一体的に備えた装置構成として示しているが、対象映像取得部１０及びＣＶ映像取得部２０のいずれか一方又は双方を、認識位置決め装置１００とは分離された別体の構成要素として備えることも勿論可能である。

図１５に示すように、本実施形態に係る認識位置決め装置１００は、上述したＣＶ値が付与された対象映像（ＣＶ映像）を前提として、映像中の任意の対象物や点が指定・選択されることにより、その指定された対象物等について、映像（動画像）から画像内の対象物認識を行うと同時に、認識された対象物の三次元座標取得を行い、これを連続して行うことで、映像中の各対象物に対して高精度な三次元座標を付与するための装置・手段である。

具体的には、本実施形態に係る認識位置決め装置１００は、図１５に示すように、全周囲カメラ部（対象映像取得部）１０・ＣＶ映像取得部２０とともに、高密度ＧＮＳＳ部（絶対座標付加部）１２，対象物指定部１３，連続フレーム機械学習部３０，三次元座標演算対象物座標付加部４０，認識対象物表示部５０の各部として機能するように構成されている。

全周囲カメラ部１０は、図１で示した対象映像取得部１０であり、認識位置決め装置１００に適用する目的映像（基準映像）を撮影・取得するための手段である。
本実施形態では、全周囲カメラ部１０は、上述した図１～３に示したように、全周ビデオカメラ１１を備えた走行車両等の移動体１１ａによって構成される。この移動体１１ａが、基準映像を取得する目的で、所定の道路等を一定範囲で走行することで、移動体１１ａに備えられた全周ビデオカメラ１１により、移動体１１ａの移動に伴って移動体周辺の映像を対象映像として撮影・取得する。
この全周囲カメラ部１０で取得された対象映像が、ＣＶ映像取得部２０に入力されて、上述したＣＶ演算に基づくＣＶ映像の作成処理が行われる（図１～１４参照）。

ＣＶ映像取得部２０は、所定の映像取得手段となる全周囲カメラ部１０で撮影された対象映像のカメラ座標系と静止座標系との関係、すなわち、カメラ位置と姿勢の三次元座標値と姿勢値を示すＣＶ（カメラベクトル）値を求めるＣＶ演算を行い、対象映像に前記ＣＶ値を付加したＣＶ映像を生成するＣＶ映像取得手段である。
また、ＣＶ映像取得部２０は、ＣＶ映像内で移動する移動体について、カメラ座標系と移動体座標系との関係を示す上述したＲＶ値（図１４参照）を求めるＲＶ演算を行う移動体ＲＶ値取得部２７として機能する。
具体的には、ＣＶ映像取得部２０は、上述した図１～１４で示したＣＶ演算手段によって構成される。ＣＶ映像取得部２０によるＣＶ演算の具体的な内容については、上述したとおりである（図１～１４参照）。

高密度ＧＮＳＳ部１２は、ＧＮＳＳ（Global Navigation Satellite System／全球測位衛星システム）を利用して目的となる対象物の絶対座標を取得する絶対座標付加部であり、、例えばＧＰＳ機器やＩＭＵ機器などで構成される位置計測機器等によって構成することができる。
このような高密度ＧＮＳＳ部１２を備えることにより、相対座標位置を示すＣＶ値を絶対座標で校正し、ＣＶ値を絶対座標系に変換することができるようになる。

対象物指定部１３は、ＣＶ映像の連続する複数フレームに亘って映り込んでいる同一の対象物に対して、認識する目的の対象物を指定する手段として機能する。
この対象物指定部１３によってＣＶ映像中で指定された対象物（例えば、電柱・標識など）が、機械学習の対象として連続フレーム機械学習部３０による機械学習処理の対象となる（図２３参照）。
ここで、対象物指定部１３による対象物の指定は、認識位置決め装置１００に備えられる入力デバイス（例えばマウス等）の入力操作により、ＣＶ映像中の任意の対象物を選択・指定することにより行うことができる。

連続フレーム機械学習部３０は、対象物指定部１３で指定された対象物（図２３参照）について、機械学習による認識処理を繰り返し実行する機械学習手段として機能する。
ここで、「機械学習」とは、入力されたデータから有用な規則やルール，判断基準等を抽出し、反復的な学習を繰り返すことで、新たに入力されたデータに対する規則やルール等を自律的に生成して成長する人工知能技術である。
具体的には、例えば「電柱」を認識するための教師データとなる機械学習は、例えば「電柱」を認識するための教師データ（「電柱」を示す画像）を所定数（例えば６０００回（枚）程度）、機械学習ツールに入力して学習させることで、その後に入力された画像データから、「電柱」を自律的に認識・出力できるようになる。このような機械学習は、公知の技術（機械学習ツール）を用いることができ、本実施形態に係る認識位置決め装置１００が、そのような機械学習ツールを備えたコンピュータ等により構成されることで実現することができる。
この連続フレーム機械学習部３０による認識処理の詳細については、図１６を参照しつつ後述する。

また、連続フレーム機械学習部３０は、ＣＶ映像の連続する複数フレームの１フレームのみで認識処理を実行し、目的となる対象物を含む周辺領域の領域座標を取得して、その領域座標の範囲を当該対象物が存在する認識処理の実行範囲となる認識領域として指定する認識領域指定部３１として機能する。具体的には、連続フレーム機械学習部３０は、入力操作が行われて認識領域指定部３１で指定された領域を、対象物が存在する隣接する複数のフレームに亘って割り当てて、当該認識領域において対象物の認識処理を繰り返し実行する。
この認識領域指定部３１による認識領域を指定した認識処理の詳細については、図１７を参照しつつ後述する。

また、連続フレーム機械学習部３０は、対象物が映り込んでいる可能性のあるＣＶ映像の全フレームについて、同一の対象物についての複数の方向と複数の距離の異なる情報を、一括処理の対象となる塊として、機械学習による認識処理を一括して実行することができる。
さらに、連続フレーム機械学習部３０は、ＣＶ映像内の移動体を認識処理の対象物として抽出することができる。
この連続フレーム機械学習部３０による認識一括処理及び移動体認識処理の詳細については、図１８～図２２を参照しつつ後述する。

三次元座標演算対象物座標付加部４０は、上述した連続フレーム機械学習部３０で認識された対象物を、ＣＶ映像の全てのフレームで対応させ、当該ＣＶ映像に映り込んでいる各対象物の座標を取得し、座標が一致する対象物を各フレームで確認することで同定して、当該対象物に三次元位置座標を付加する三次元座標付加手段として機能する。
具体的には、三次元座標演算対象物座標付加部４０は、連続フレーム機械学習部３０との間で、対象物の認識と三次元位置座標の付加を繰り返すことにより（図１５の「相互信号」参照）、所定の認識確度と三次元座標精度が得られた対象物について三次元座標を付加して出力する座標付加認識出力部として機能する。

また、三次元座標演算対象物座標付加部４０は、上述した連続フレーム機械学習部３０の認識領域指定部３１で指定された認識領域において座標が一致する対象物を各フレームで確認することで同定して、当該対象物に三次元位置座標を付加することができる。
さらに、三次元座標演算対象物座標付加部４０は、ＣＶ映像中の移動体のＲＶ値に基づいて、移動体を同定して前記三次元位置座標を付加することができる。
この三次元座標演算対象物座標付加部４０による同定処理／三次元座標付加処理の詳細についても、連続フレーム機械学習部３０における認識処理とともに、図１６～図２２を参照しつつ後述する。

認識対象物表示部５０は、以上のようにして対象物が認識・同定・三次元座標付加されたＣＶ映像を出力・表示させる出力手段として機能する。
具体的には、認識対象物表示部５０は、例えば認識位置決め装置１００に接続されたディスプレイ上に、三次元座標が付加された対象物を示す所定の映像を生成・出力させることができる（図２３～図２９参照）。
例えば、認識対象物表示部５０は、ＣＶ映像取得部２０で生成された連続する複数フレームに亘って映り込んでいる同一の対象物に対して、対象物指定部１３によって選択・指定できるように、目的の対象物（例えば電柱等）が表示される（図２３参照）。

また、認識対象物表示部５０は、ＣＶ映像中において認識・同定されて三次元座標が付与され対象物（電柱等）の識別情報を、ＣＶ映像上や二次元地図上にプロットして表示させることができる（図２４及び図２５参照）。
また、認識対象物表示部５０は、ＣＶ映像上に表示されている特定の対象物「電柱」に付与された識別情報（タグ）を編集可能に表示させることができる（図２６参照）。
また、認識対象物表示部５０は、ＣＶ映像上に表示されている特定の対象物（電柱等）の視角を移動可能に表示させることができ、当該対象物に付与されているＣＶ値に基づく高さの計測結果や傾き・方位角などを表示させることができる（図２７参照）。
さらに、認識対象物表示部５０は、ＣＶ映像中において認識・同定されて三次元座標が付与され対象物（例えば案内標識，交通標識等）の位置情報及び属性情報（対象物の種類を含む）をＣＶ映像上に表示させることができる（図２８及び図２９参照）。

［処理動作］
次に、以上のような構成からなる認識位置決め装置１００による、ＣＶ映像中の目的の対象物についての認識・同定・三次元座標付加の処理・動作（認識位置決め方法）の詳細について、図１５～図２２を参照しつつ説明する。
［全フレーム認識／三次元座標取得］
まず、認識位置決め装置１００における基本的な処理動作として、全フレーム認識と、そこから三次元座標を取得する場合の処理動作について説明する。
認識位置決め装置１００では、ＣＶ映像の連続する複数フレームに亘って映り込んでいる同一の対象物に対して、認識する目的の対象物を指定し、機械学習等を施し、認識作業を実行させ、同時に、認識途中の、又は認識結果の対象物を全てのフレームで対応させ、ＣＶ映像に映り込んだ各対象物の座標を取得する。
そして、一致する座標の対象物を各フレームで確認することで同定し、もし座標が一致しなければそれを削除し、認識による対象物の同定と同時に、認識した当該対象物の三次元位置座標を認識結果（対象物）に付加して出力する。必要であれば、その対象物の姿勢・移動方向・三次元形状等も取得して、認識結果に付加して出力する。

具体的には、図１５に示すように、まず、ＣＶ映像取得部２０で生成された連続する複数フレームに亘って映り込んでいる同一の対象物に対して、対象物指定部１３で、認識する目的の対象物を指定する（図２３参照）。
これは対象物を内に含むように、大きめの範囲を領域指定することもあるが、二次元領域分割したセグメンテーションにより、対象物の存在する領域を塗り絵のように切り取って指定して、対象物を指定することでもよい。
この対象物の指定は、認識位置決め装置１００に備えられる入力デバイス（例えばマウス等）の入力操作により、ＣＶ映像中の任意の対象物を選択・指定することにより行うことができる。

次に、連続フレーム機械学習部３０で機械学習等を施し、認識作業を繰り返し実行させつつ、確度と座標精度を向上させ、同時に、三次元座標演算対象物座標付加部４０との間で相互信号を繰り返しやり取りし、認識結果の対象物を全てのフレームで対応させ、ＣＶ映像から各対象物の座標を取得し、一致する座標の対象物を確認することで、当該対象物を同定する。
もし座標が一致しなければその対象物は削除し、同定と同時に、対応が付いた当該対象物の三次元位置座標を取得する。必要であれば、その対象物の姿勢、移動方向、三次元形状等も取得する。

連続フレーム機械学習部３０と三次元座標演算対象物座標付加部４０との間で相互信号のやり取りを繰り返すことで、目的の三次元座標精度と認識確度を得られるまで、繰り返し演算が実行され、座標付加認識出力部４１により、当該対象物に三次元座標が付加されて出力される。
この出力を表示するには、認識対象物表示部５０により、ＣＶ映像中に認識物体とその三次元座標を同時に表示することができる（図２３～図２９参照）。

ここで、図１５に示す「相互信号」とは、連続フレーム機械学習部３０で認識された対象物のデータを三次元座標演算対象物座標付加部４０に引き渡し、三次元座標演算対象物座標付加部４０で三次元位置座標が付加された対象物のデータを連続フレーム機械学習部３０に引き渡すことにより、連続フレーム機械学習部３０と三次元座標演算対象物座標付加部４０の間で信号（データ）をやりとりさせ、互いに依存しながら、精度を向上させ、目的の確度と精度が出るまで、ＣＶ映像の複数フレームに亘って繰り返し演算を実行させることを意味する。
通常、機械学習は二次元の映像中の対象物を、教師データを使って機械学習させることが多い。これを映像の各フレームに亘って機械学習させることで、同一対象物を複数のフレームで機械学習させることになるので、認識率を向上させることができ、同時に、映像中に対象物を追跡（トラッキング：Tracking）させることで三次元位置座標を精度良く取得することができる。

上述のとおり、ＣＶ映像によれば、画像内の任意の特徴点又は特徴領域を隣接フレームに追跡（トラッキング：Tracking）することで、三次元位置座標を取得することができる。その機能を使って、複数フレームに亘って対象物認識させると同時に、隣接フレームに対象物の一部、又は全部をトラッキングさせることで、当該対象物の全体、又は一部の三次元座標を取得できる。
連続フレーム機械学習部３０と三次元座標演算対象物座標付加部４０の間で「相互信号」のやり取りを繰り返すことで、対象物認識の確度が向上すれば、それと同時に三次元座標の精度も向上することになる。

本発明に係る認識位置決め装置１００の特徴は、動画像から同一の対象物を認識し、三次元座標の完全一致をもって同定することにある。このことから、例えば２０フレーム分の画像で対象物認識を行えば、２０フレーム分全部で同時に同定が成されることになり、１フレームだけ同定しないということは無くなり、同定精度が大きく向上することが期待できる。
また、対象物が物（例えば建物など）の陰に隠れたときは、そのフレームは座標が定まらないから、それを排除することで、１９フレーム分で認識し、同定すればよいことになる。

さらに、ＣＶ映像を用いることにより、複数のフレーム画像のみならず、ＣＶ映像中の最低でも１フレーム中での対象物の認識と、２フレーム分の映像での三次元座標の取得も可能である。但し、この場合には、１フレーム中での対象物認識は、複数フレームでの認識による認識確度よりは精度としては低いものとなる。
なお、複数のカメラを同時に用いることにより、カメラを移動させることなく、複数画像からＣＶ値を取得できることになるので、移動しない静止画像にも対応することができる。

［同定・非同定］
次に、図１６を参照しつつ、認識位置決め装置１００における対象物の同定・非同定処理について説明する。
一般に、ある映像中で指定された対象部物が認識された時点で、その全てが同一対象物である保証は無い。すなわち、全てが同一の対象物として同定されるわけではない。
このとき対象物を分類すれば、図１６に示すように、以下の３つのパターンに分けることができる。
（１）同定されるべき対象物３０１／３０４・・・
（２）非同定されるべき対象物３０３
（３）同定も非同定もされない対象物３０２

（１）は、期待される座標に存在する対象物であり、座標が確認されれば同定される。
（２）は、期待されない座標に存在する、似たような対象物であり、全く同じ形状の対象物であっても、座標が異なることで、同定してはならない対象物３０３もある。近くに同定されるべき対象物があった場合や、同じ形状の物が、他にも存在している場合に検出される。例えば、「電柱」などは同じような形状や色合いなので、全て同じ対象物として検出されてしまう。これは座標値を確認後、非同定と判断することができ、削除される。
また、間違って認識された物も、この（２）に分類され、排除されることになる。
さらに、（３）として、同定されるべき座標に対象物が見つからない場合もある。例えば、カメラ位置からは何かの陰になって、映り込まない場合などである。この場合には、隣接フレームに対象物が同定されていれば、当然対象物が隠れていることを意味するので、そこに存在すると判断することができる。
なお、上記（１）～（３）は、移動する対象物（移動体）にも当てはまるものであり、移動体の移動軌跡、又は予想移動軌跡上で同定・非同定が判断されることになる。

以上により、静止対象物であれば、同定されるべき対象物は複数フレームで、同一の三次元座標を持つことになる。
つまり、認識結果は、複数のフレーム画像で、同一座標にある対象物として確認することができる。座標が一致しないときは、対応が付いていないことを意味し、同定されないので、それは排除し、同定可能な対象物のみ同定すればよいことになる。
このことで、認識効率を向上させ、同時に認識対象物の三次元座標、及びその姿勢、又はその三次元形状まで取得することができるようになる。

以上のようにして、認識位置決め装置１００では、ＣＶ映像取得部２０で生成されたＣＶ映像を、三次元座標演算対象物座標付加部４０とともに、ＣＶ映像内の各フレーム画像を複数フレームに亘って同一の対象物を同定し、連続フレーム機械学習部３０で機械学習等を施し、認識作業を実行させ、同時に当該対象物の三次元位置座標，姿勢、必要であればその移動方向、三次元形状等を取得することが可能となる。
ＣＶ映像内では、全てのフレームに亘って対象物認識することで、その画像内の位置が、矛盾しないことを確認することができる。矛盾していれば、それは異なる対象物であることになる。

すなわち、対象物が予想位置において同時に認識されることで、それが同一の対象物であるとの前提が成り立つことから、単一フレーム画像での認識に比較して、認識処理の回数は増加するが、認識確率及び取得した座標の精度は大きく向上する。
また、当該対象物の認識後に精度の高いマッチングを行い、当該対象物の三次元座標の精度をさらに向上させることも可能である。
なお、少なくとも二フレーム間で、容易に概略三次元座標を取得し、その三次元座標を他のフレームに割り当てて、その座標近傍に対象物を認識処理して、一致することを確認することでも同定は可能である。この場合には、連続フレーム機械学習部３０と三次元座標演算対象物座標付加部４０との相互信号は、頻繁にデータのやり取りを行い、先に座標を決定したとしても、結果的にはほぼ同時に、認識と三次元座標決定が成されるようにする。

以上の認識・同定処理は、ＣＶ映像の全フレーム画像に亘って、同時に対象物認識を実施することが可能である。
また、ＣＶ映像では、ＣＶ値から対象物を見込む角度が既知であることから、方位別画像を含んだ形で学習したデータを教師として、一気に複数フレームの状態で、認識させることも可能である。
さらには、同一対象物を異なる方向、異なる距離から見ることで、自動的に教師データを作ることが可能となり、ディープラーニングの教師データ作成にも有効な装置となる。このことで、機械学習は、三次元化の方向に進むことが可能となる。これは、教師データ有りの場合でも、教師データ無しの場合でも同様である。
なお、以上で、認識位置決め装置１００における対象物の認識と座標特定処理は完了するが、この後の処理として、後述する情報変換装置によって、複数の対象物に分解されたデータを、画像再構成表示装置で三次元的に再構成して表示することもできる（図３０～図３３参照）。

［対象物の座標予測］
次に、図１７を参照して、認識位置決め装置１００における対象物の認識・同定処理として、先に対処物の座標を予測してから認識処理を行う場合について説明する。
認識位置決め装置１００では、まずＣＶ映像の１フレームだけで、認識作業を行い、対象物の座標、又は対象物を含む周辺領域座標を取得し、その領域座標の範囲を対象物の存在予想範囲として、認識の実行範囲を限定することができる。そして、その制限された領域を、当該対象物が存在する隣接する複数のフレームに亘って割り当てて、その範囲で対象物認識を行い、又は姿勢を取得し、予想された座標に乗らない対象物は排除して、予想される座標に対象物が存在する対象物を同定する一連の作業を繰り返すことができる。
このような方法により、対象物をより正しく同定し、その座標をより精度良く決定することができるようになる。

具体的には、まず、連続フレーム機械学習部３０により、１フレームだけで認識作業を実行する。
その後、三次元座標演算対象物座標付加部４０において、対象物の座標、又は対象物を含む周辺領域座標を取得し、認識領域指定部３１により、その座標を対象物の予想位置として、認識の実行範囲を限定する。
そして、その制限された領域を隣接する複数のフレームに亘って割り当てて、その範囲で対象物認識を施し、又は姿勢を取得する。また、予想された座標の範囲に位置しない対象物は排除し、予想される座標に対象物が存在するように、連続フレーム機械学習部３０と三次元座標演算対象物座標付加部４０との間で相互信号のやり取りを繰り返して演算を実行する。

これによって、対象物の座標を確認することで、その対象物を同定し、その座標を決定することができる。
同定された対象物の認識結果と同時に、その過程で取得された三次元座標が同時に出力され、その出力結果は、認識対象物表示部５０により、ＣＶ映像中に認識物体とその三次元座標を同時に表示することができる（図２３～図２９参照）。
ＣＶ映像内では、各対象物は三次元座標を持つので、１フレームのみで対象物認識を行えば、その座標は他のフレームにも共通であることから、他のフレームの対象物の位置は正確に予想することができる。
そこで、このようなＣＶ映像の特性を利用して、最初の１フレームで認識した対象物の三次元座標を概略値として取得し、その時の概略三次元座標を含む小領域を他のフレームに割り当てて、その座標近傍に対象物を認識処理して、認識結果と概略座標が一致することを確認することで、対象物を同定することができる。

以下、図１７を参照して、より具体的に説明する。
同図に示すように、認識処理指定範囲３３５のように限られた領域を、処理が必要な全フレームに対して指定する。この指定範囲としては、対象物の予想値から、大枠の領域を指定することが可能である。
この認識処理指定範囲３３５は、全フレームの認識領域を二次元の領域として、あるいは三次元の領域として座標で指定することができる。
このことで、認識処理は全領域で行う必要はなくなり、指定された範囲の内側だけで認識処理を行えば良くなる。
これによって、非同定の検出を可能な限り少なくすることができる。また、作業範囲が小さくなることから、処理効率を向上させることができる。

なお、この方法では、一度の作業でも認識と座標取得は可能であるが、繰り返し作業することで、認識確度と座標精度を向上させることもできる。
すなわち、連続フレーム機械学習部３０と三次元座標演算対象物座標付加部４０との間の頻繁にデータ（相互信号）のやり取りを行い、先に座標が決定されたとしても、最終的には全フレームを使って再度詳細座標を求めることで、座標精度を向上させることができる。
連続フレーム機械学習部３０と三次元座標演算対象物座標付加部４０との間で相互信号を繰り返しやり取りすることで、結果的にはほぼ同時に、認識と三次元座標決定が、確度高く、精度良く成されるようになる。

［全フレーム一括認識］
次に、図１８～図２２を参照して、認識位置決め装置１００における対象物の認識・同定処理として、対象となるＣＶ映像の全フレームの一括認識処理を行う場合について説明する。
認識位置決め装置１００では、対象物が映り込んでいる可能性のあるＣＶ映像の全フレームを、個別に処理することなく、関連する全フレームを、対象物の持つ一つの情報を、一括処理の対象となる塊として扱い、同一の対象物を見込む複数の方向と複数の距離の異なる情報を、一括処理の対象となる塊として扱うことができる。
そして、その情報の塊を機械学習で一括処理し、一回で認識し、その後に、又は同時にその座標を決定して、対象物の同定を行うことができる。
このような方法によっても、対象物を正確に同定し、その座標をより精度良く決定することができるようになる。

具体的には、まず、連続フレーム機械学習部３０においては、ＣＶ映像内の各フレームで認識を繰り返すのではなく、ＣＶ映像内の対象物が映り込んでいる複数フレームの全フレームを、情報の塊とみて、一括で認識を機械学習で行う。
機械学習ツールには、複数フレームを同時に入力させ、一括認識を可能とする。複数フレーム入力を可能とすることで、各フレームでの個別の認識は行わないので、認識精度をより大きく向上させることが可能となる。
この場合、図１７で示した、認識処理指定範囲３３５を用いることは有効である。

この対象物の認識手法によっても、対象物の三次元座標値を同時に求めることが可能である。
なお、この一括認識方法では、前提として、それぞれのフレーム画像内の対象物が三次元座標（ＣＶ値）を持っているが、ＣＶ値には微少の誤差があるために完全には一致しない場合がある。しかし、全フレームで、一括認識して、同時に座標取得をすれば、誤差は自動的に統計処理され、結果として精度が高まることになる。そして、当然ながら、一括認識処理によって、認識確度は大きく向上することになる。
なお、図１６及び図１７に示した認識処理も共通であるが、対象物は常に面又は体を持つから、その座標を取得して指定するには、対象物の位置（点）、例えば中心や底辺下部というように、一次元点を指定しなければならない。
それは対象物によって、あるいは使用目的によって、人間が定義して、指定することになる。

以下、図１８～図２２を参照して、より具体的に説明する。
一般に、ディープラーニングは、ＲＮＮ（Recurrent Neural Network）を複雑にしたものである。
動画データのような複数データを扱えるようにするために、図１８に示す入力層８００と、再帰的な構造をもたせ、双方向に信号が伝播するニューラルネットワークを持っている中間層８０１に出力層８０２を持たせるようにする。
ＲＮＮを横に繋いで時間変化する連続的なデータに対応させたものが図１８に示すディープラーニング（Deep Learning）である。

このディープラーニングは、入力層８００は一般的な画像であり、中間層８０１を多層にすることで、情報伝達と処理を増やし、特徴量の精度や汎用性をあげ、認識精度を向上させることができる。
また、学習済みのモデルを使用する場合には、推論の処理のみなので大規模な計算資源は必要ない。ディープラーニングでは、大量のデータさえあれば、従来の機械学習などではできなかった、複雑な扱いづらいデータも処理を行うことが可能となる。
ここまでは、従来のディープラーニングと同様であるが、本実施形態では、図１９（ｂ）～図２０に示すようにＲＮＮを更に改良している。

図１９（ａ）は、図１８と同様の標準的な２Ｄ認識のためのディープラーニングである。
図１９（ｂ）は、二次元認識・三次元位置決めのために改良した構成である。、
図２０は、三次元認識・三次元位置決めのために改良した構成である。
図２１は、機能を分離した三次元認識・三次元位置決めのための構成である。
これらの改良された構成は、基本的には図２０が基本形となる。

図２２は、実際の映像取得と認識対象物とその映像を取得するカメラの移動の関係を模式的に示したものである。
図２２では、全周囲カメラを積載した車両が移動する経路を８２２～８２７で示している。この図から明らかなように、車両が移動してどの位置に居ても、車両のカメラは常に対象物８３０を捉えていることが分かる。
また、移動した位置によって、障害物８２９があって対象物を捉えていないカメラがあるものとする。

同図において、車両位置８２２～８２７で撮られて取得された映像は、ＣＶ演算され、映像を取得したカメラの三次元座標を持つＣＶ映像として、図１９（ｂ）に示したディープラーニングの入力層８０３に送られる。
この入力層には、図２２に示す８２２～８２７までのカメラからの複数画像を受け入れる許容量があるように設定される。
さらに、図１９（ｂ）に示す中間層は、第一中間層８０４と第二中間層８０５のように、複数の中間層が設置され、求める座標精度によって、その段数が決められる。
出力層８０６は、二次元認識とすれば、図１９（ａ）に示す従来構成と同様で良いが、３次元認識とすれば、図２０に示すように、出力層８０９は三次元構造となる。

さらに、ディープラーニング内部での認識と位置決めの機能を分離して処理する方式を図２１に示す。
同図においては、ＣＶ映像の入力層８０６は、図１９に示す場合と同様とするが、三次元認識と三次元位置決めのために、第二中間層１：８０８と第二中間層２：８１０を用意し、同様に出力層１：８０９と出力層２：８１１とに機能分離して、認識及び位置決めの精度が向上するようにしている。
以下、三次元認識の三次元位置決定の基本形である図２０（三次元認識と三次元位置決め）の構成を参照して説明する。

同図に示す入力層８０６は、関連するＣＶ動画の、連続するフレームを受容するものとする。具体的には、対象物をカメラで捉えている範囲の画像が有効なＣＶ映像を、有効なフレーム分だけ受け入れる構造とする。
また、中間層を、第一中間層８０７，第二中間層８０８・・・のように多段階に増設して、位置決めに耐え得るための必要な段数とする。
なお、図２０では第一中間層８０７と第二中間層８０８、図２１では第二中間層１：８０８と第二中間層２：８１０と、それぞれ二段としてあるが、座標決定のためには更に多段構造にして、６変数を全て求めることができるようにすることも可能である。

そして、図２１に示す第二中間層８０８，８１０で位置決めがなされた後、出力層１：８０９からは三次元認識出力が成され、出力層２：８１１からは三次元座標が出力されることになる。
以上のようにして、ＣＶ映像から、三次元認識と三次元位置決めが、一つのディープラーニングで一括して成されることになり、ＣＶ映像の全フレームの一括認識処理が可能となる

［移動体認識］
次に、認識位置決め装置１００における対象物の認識・同定処理として、対象となるＣＶ映像中で移動する移動体の認識処理を行う場合について説明する。
認識位置決め装置１００は、上述のように、ＣＶ映像内の移動体を認識対象物として着目し、移動体を抽出し、移動体のＲＶ値を取得して、当該対象物の三次元座標又は三次元形状を付加して対象物認識をする、連続フレーム機械学習部３０と三次元座標演算対象物座標付加部４０での認識・同定処理を目的とした移動体ＲＶ値取得部２７を備えている（図１５参照）。

本実施形態では、認識位置決め装置１００で認識対象となる対象物として、主に静止対象物を想定して説明してきたが、対象物は必ずしも静止座標系上にある対象物に限らない。
すなわち、上述したＲＶ値（リージョナルベクトル値）を取得することで、ＣＶ映像中の移動体に関しても、静止対象物の場合と全く同様に、対象物認識及び三次元座標を決定することができる。

具体的には、ＣＶ映像取得部２０の移動体ＲＶ値取得部２７で生成・取得されるＲＶ値又はＭＶ値と、本願出願人による特許第４５０２７９５号「座標系分離記録再生装置」で開示されている移動体の座標系分離の技術を用いることにより実現が可能となる。なお、移動体抽出は、現在よく用いられるセグメンテーションの技術でも可能である。
このようにすることで、静止座標系上の対象物と全く同様に、移動体対象物に対して、本発明に係る認識及び三次元座標決定を同時に行うことができる。

以上のような本実施形態に係る認識位置決め装置１００において生成・出力される出力結果となる画像の一例を図２３～図２９に示す。
これらの図に示す出力画像は、認識対象物表示部５０（図１５参照）により、例えば認識位置決め装置１００に接続されたディスプレイ上に、三次元座標が付加された対象物を示す所定の映像として出力・表示させることができる。
図２３は、ＣＶ映像取得部２０で生成された連続する複数フレームに亘って映り込んでいる同一の対象物に対して、対象物指定部１３によって認識する目的の対象物として「電柱」が指定されている場合を示している。

図２４は、ＣＶ映像中において認識・同定されて三次元座標が付与され対象物「電柱」の識別情報を、ＣＶ映像上にプロットして表示した場合を示している。
図２５は、ＣＶ映像中において認識・同定されて三次元座標が付与され対象物「電柱」の識別情報を、地図上にプロットして表示した場合を示している。

図２６は、ＣＶ映像上に表示されている特定の対象物「電柱」に付与された識別情報（タグ）を編集可能に表示させた場合を示している。
図２７は、ＣＶ映像上に表示されている特定の対象物「電柱」の視角を移動させて高さの計測結果や傾き・方位角を表示させた場合を示している。
図２８及び図２９は、それぞれ、ＣＶ映像中において認識・同定されて三次元座標が付与された対象物「案内標識」，「交通標識」の位置情報及び属性情報（対象物の種類を含む）をＣＶ映像上に表示した場合を示している。

以上説明したように、本実施形態の認識位置決め装置１００によれば、動画像から画像内の対象物認識を行うと同時に、認識された対象物の三次元座標取得を行い、これを連続して行うことで、映像中の各対象物に対して高精度な三次元座標を付与することが可能となる。
すなわち、認識位置決め装置１００は、機械学習とＣＶ技術を融合することで、認識しながら座標を取得し、座標を取得しながら認識をすることになり、互いに相互作用により、認識の精度を上げながら、三次元座標の精度をあげ、三次元座標の精度を上げながら、対象物認識の確度をあげるという、優れた相乗効果を生み出すことになる。
これによって、対象物の認識はＣＶ技術と融合して、確度の高い対象物認識と同時に、認識対象物の高精度の三次元座標取得が可能となる。

また、本実施形態の認識位置決め装置１００では、ＣＶ映像を用いることにより、直接動画中の対象物を座標付きで認識することができる。
これによって、例えば、道路上を走行する車両に積載したカメラにより、撮影した動画像から、道路周辺の様々な道路設備、標識、車両等の様々な対象物を認識しながら、その三次元座標を取得することが可能となり、自動運転等に必要となる道路データベースなどを、撮影動画から直接的に作成することが可能となる。
また、本実施形態では、ＣＶ映像の中の対象物に機械学習を対応させることで、従来の機械学習に対して、対象物の位置と姿勢という情報が追加されることになり、同一対象物を複数方向から認識することになり、機械学習の認識率は格段に向上することになる。

このように、本発明は、ＣＶ技術と機械学習を組み合わせて、ＣＶ技術の特徴を機械学習に組み込むことで、機械学習において避けられない膨大な教師データの作成作業を自動化でき、さらには教師データを減少させることが可能となる。したがって、機械学習処理を効率的に行うことができる上に、指定した対象物の認識作業と同時に、当該対象物の位置座標データ，姿勢データ及びその三次元形状データ等を取得できるようになる。
そして、このような本発明の特徴は、対象物が移動する対象物であっても有効であり、移動対象物の位置座標データ，姿勢データ及びその三次元形状データ等も取得できるようになる。

なお、上記の実施形態では、本発明による機械学習の効率化と、対象物の三次元座標取得，姿勢取得の方向から説明したが、昔ながらの相関技術による認識にも全く同様に応用可能である。
また、上記実施形態では、本発明の対象映像取得部として全周囲カメラを想定して説明しており、確かに全周囲カメラが有利ではあるが、全周囲カメラに限定されるものではなく、例えば広角カメラでも良く、あるいは方向別に分割した複数のカメラによる広範囲カメラであっても、同様に本発明の対象映像取得部として構成することができる。

［情報変換装置］
次に、本発明に係る情報変換装置の実施形態について説明する。
本発明に係る情報変換装置は、上述した認識位置決め装置１００に接続される情報処理装置によって構成され、認識位置決め装置１００によって認識・三次元座標付加がなされた対象物を含む画像を、ＰＲＭ技術を用いて再構成画像として生成・出力できるようにするものである。

ＰＲＭとは、Parts Reconstruction Method（３Ｄ対象物認識方法）の略であり、本願発明者により開発された対象物を認識するための技術である（特許第４５８２９９５号参照）。
具体的には、ＰＲＭ技術は、前もって予想される対象物の形状と属性を部品（オペレータ部品）としてすべて用意しておき、それら部品と現実の実写映像を対比して、一致する部品を選択して対象物を認識する技術である。例えば、走行車輌等に必要となる対象物の「部品」は、道路標示としての車線、白線、黄線、横断道、道路標識としての速度標識、案内標識などであり、これらは定形のものであるので、ＰＲＭ技術によりその認識は容易に行える。また、対象物をＣＶ映像中に検索する場合においても、その対象物の存在する予想三次元空間を狭い範囲に限定することが可能となり、認識の効率化が可能となる。

例えば、信号機であれば、その三次元形状を取得しただけでは「検出」であり、座標と姿勢まで分かれば「特定」であるが、信号機という名称が分かり、３個のライトが赤青黄に変化し、それぞれの交通上の意味を理解しているときに、属性を理解（認識）したということができる。
なお、ＰＲＭ認識によって、あらゆる監視対象物（予測される対象物、障害物、不審物等）が認識されるとは限らない。すなわち、記憶となるデータベースに情報が存在しない対象物は認識できない。しかし、これは特に問題となるものではない。人間であっても記憶にないものは認識できないのと同様である。認識とはそのもの、あるいは、そのものに近いものの記憶との対比によって得られるものであるからである。

本発明に係る情報変換装置は、上記のようなＰＲＭ技術と本発明に係る認識位置決め装置を融合させることにより、高精度な三次元座標が付加された対象物を含むＣＶ映像に基づく再構成画像を生成・記録・通信等できるようにするものである。
以下、本発明の情報変換装置の好ましい実施形態について、図面を参照しつつ説明する。

［第一実施形態］
まず、本発明に係る認識位置決め装置を備えた情報変換装置の第一の実施形態について、図３０～図３３を参照しつつ説明する。
図３０は、本発明に係る認識位置決め装置を備えた情報変換装置の第一の実施形態を示す機能ブロック図である。
また、図３１及び図３２は、図３０に示す情報変換装置の詳細構成を示す機能ブロック図である。
これらの図に示す本実施形態に係る情報変換装置は、認識位置決め装置１００に接続される一又は二以上のコンピュータ・情報処理装置等によって構成され、図３０に示すように、認識位置決め装置１００の座標付加認識出力部４１（図１５参照）からのデータを受信して画像再構成表示装置１１４に送信するＰＲＭ信号送信装置１１０・ＰＲＭ信号受信装置１１１と、同様に座標付加認識出力部４１からのデータを画像再構成表示装置１１４に入力するＰＲＭ信号記録装置１１２・ＰＲＭ信号再生装置１１３などを備えて構成される。

また、情報変換装置には、対象物に対応する識別情報となる所定のＩＤ及び当該ＩＤによって分類された属性情報を記憶したＩＤ部品庫となる部品庫選択装置２０１（図３１及び図３２参照）が備えられる。
そして、画像再構成表示装置１１４において、認識位置決め装置１００において同定されて三次元位置座標が付加された対象物に、ＩＤ部品庫に記憶された、当該対象物の種類に対応するＩＤを対応させ、複数の対象物を含むＣＶ映像を、各対象物に対応するＩＤ及びその属性情報によって再構成することができるようになっている。

このような情報変換装置では、まず、前もって認識対象物に対応したＩＤによって分類されたＩＤ部品庫を用意しておき、認識位置決め装置１００において複数の種類の対象物に対して対象物認識と三次元座標取得を繰り返して認識された対象物のそれぞれにＩＤを対応させる。最終的には、ＣＶ映像中の目的の画像範囲内の全ての、又は大部分の複数の対象物にＩＤを対応させる。
その後、それらＩＤが対応付けられた対象物の三次元座標と姿勢（６変数）が付加された認識結果と、もし当該対象物のその他の属性が取得されていれば、その属性を付加させた結果を、それぞれの対象物のＩＤと、ＩＤに付加された属性により、目的の画像又は映像を複数のＩＤによって再構成させ、必要があれば再構成結果を表示することができる。
そして、各対象物の三次元座標と姿勢（６変数）が付加されたＩＤとその属性を再構築することで、元に近いＣＶ映像を生成・表示させることができる。

また、情報変換装置では、複数の各対象物のＩＤとＩＤに付加された属性によって、複数のＩＤによって再構成された目的の画像又は映像について、例えばインターネット等のネットワークを介して伝送することができ、例えば認識位置決め装置１００と離れた場所にある画像再構成表示装置１１４において受信させることができる。
さらに、そのような再構成画像は、所定の記憶手段を備えた装置において記録させ、また、随時読み出して、画像再構成表示装置１１４において再生することができる。
再構成画像の再生は、各対象物に付加されたＩＤと属性から、対応する部品を再構成させることで画像を再生することができる。

以上のような情報変換装置の具体的な構成及び機能について、図３１及び図３２を参照しつつ説明する。
図３１は、認識位置決め装置１００からのデータをＰＲＭ信号送信装置／ＰＲＭ信号受信装置を介して画像再構成表示装置に送信する場合の情報変換装置の機能構成を示している。
図３２は、認識位置決め装置１００からのデータをＰＲＭ信号記録装置／ＰＲＭ信号再生装置を介して画像再構成表示装置に送信する場合の情報変換装置の機能構成を示している。

まず、認識位置決め装置１００において、画像内の大部分の対象物に認識と三次元化を施すことで、映像は複数の対象物の三次元配置として取得できることになる。
そして、認識位置決め装置１００で認識された対象物は、情報変換装置においてＩＤ化される。
情報変換装置には、ＩＤ部品庫となる複数の部品庫２０２＊１～Ｎを備えた部品庫選択装置２０１において、複数の部品庫２０２＊１～Ｎの中からいずれかの部品庫（ここでは部品庫２０２＊Ｎ）が選択される。

次に、ＩＤ化装置２０３によって、選択された部品庫に従って対応する対象物ＩＤが決定される。ＩＤ化装置２０３は、ＣＶ映像に含まれる対象物を、ＩＤ部品庫に記憶された、当該対象物の種類に対応するＩＤ及びその属性情報によってＩＤ化する手段である。
このＩＤ化装置２０３によって、ＣＶ映像の対象物は複数の部品によってＩＤ化される。
このとき、対象物は認識された二次元の画像であるが、対応物に対応する部品には三次元形状を持たせることができる。つまり、ＩＤで特定された部品は、属性として三次元形状を持つことができる。

また、部品庫２０２＊１～Ｎに格納されている各部品には、座標以外の属性情報が前もって付属しており、部品及びＩＤと対応付けて記憶されている。
なお、各部品について、追加の属性を必要とする場合には、属性付加装置２０４を備えることにより、ＩＤの付加情報として付加することができる。
次に、情報変換装置にはＰＲＭ信号生成装置２０５が備えられ、このＰＲＭ信号生成装置２０５において、ＩＤ化装置２０３でＩＤ化されたＩＤと属性と部品庫番号をＰＲＭ信号として生成され、そのＰＲＭ信号が、画像再構成表示装置１１４に送られる。

ＰＲＭ信号の受信側となる画像再構成表示装置１１４には、受信側部品庫選択装置２０６が接続され、画像再構成表示装置１１４では、ＰＲＭ信号生成装置２０５から送られたＩＤ及び属性信号から、受信側部品庫選択装置２０６の共通の部品庫２０２＊Ｎが選択される。
そして、受信されたＩＤに対応するように、選択された部品庫から必要な部品を収集して、ＩＤに付加された属性情報から、三次元情報に基づいて、複数の部品を三次元に再構成して、再構成画像を生成・表示する。

また、ＰＲＭ信号生成装置２０５で生成されたＰＲＭ信号は、上記のように直接的に画像再構成表示装置１１４に送信・入力される他、ネットワークを介して通信することができ、また、再生用のデータとして記録することができる。
まず、ＰＲＭ信号を通信により伝送する場合は、図３１に示すように、ＰＲＭ信号生成装置２０５では、対象物に対応するＩＤと属性と部品庫番号を信号として生成し、ＰＲＭ信号送信装置１１０から送信させ、それをＰＲＭ信号受信装置１１１で受信させることができる。
受信されたＰＲＭ信号は、受信側の画像再構成表示装置１１４に入力され、ＰＲＭ信号から読み取られたＩＤ及び三次元座標等の属性信号から、受信側部品庫選択装置２０６から共通の部品庫２０２＊Ｎが選択され、記録したＩＤに対応する必要な部品が収集され、ＩＤに付加された情報を付加して部品が再構成され、再構成画像が生成・表示される。

一方、ＰＲＭ信号が記録・再生される場合には、図３２に示すように、ＰＲＭ信号生成装置２０５で生成されたＰＲＭ信号が、ＰＲＭ信号記録装置１１２において記録され、記録されたＰＲＭ信号がＰＲＭ信号再生装置１１３で受信される。
ＰＲＭ信号再生装置１１３では、ＰＲＭ信号から復元したＩＤ及び三次元座標等の属性信号から、再生側部品庫選択装置２０７で、記録されたＰＲＭ信号のＩＤに対応するように、部品庫２０２＊Ｎから必要な部品が収集され、ＩＤに付加された情報が付加されて部品が再構成され、画像再構成表示装置１１４においてを再構成画像が表示されるようになる。

図３３に、上記のような情報変換装置において生成・表示される再構成画像の一例を示す。
同図に示す再構成画像は、道路を撮影したＣＶ映像に基づいて部品化・ＩＤ化された部品として、道路を跨ぐように配置された鉄塔と、道路のセンターライン上に配置された街灯を、再構成画像として生成・表示させたものである。

以上にように、本実施形態に係る情報変換装置によれば、認識位置決め装置１００によって認識・三次元座標付加がなされた対象物を含む画像を、ＰＲＭ技術を用いて部品化・ＩＤ化し、所定の装置に対して伝送し、また記録させて、再構成画像として生成・出力できるようになる。
このような情報変換装置によれば、その延長上には、映像中の全ての対象物を認識し、ＩＤを付加することで、動画像を対象物に分解して、伝送又は記録することが可能となり、上述した本願発明者による特許第４５８２９９５号の技術が、更に大きく進化して実現されることになる。

これによって、例えば画像通信においては、複数の対象物のＩＤとその座標を伝送するだけで良くなり、つまり画像はＩＤとその座標のテキストファイルだけの伝送で、受信側での画像の再構築が可能となり、その伝送帯域は極端に小さなものとなる。
最近は通信の広帯域化に向かっているが、一方で災害時や宇宙通信においては、狭帯域通信は重要であり、本発明による通信装置（情報変換装置）は将来的にも非常に重要かつ有益なものとなる。
また、当然ながら、狭帯域通信が実現すれば、同時に超超圧縮記録も可能となり、膨大な映像を通常の記録装置に収納することが可能となる。

［第二実施形態］
次に、本発明に係る認識位置決め装置を備えた情報変換装置の第二の実施形態について、図３４を参照しつつ説明する。
図３４は、本発明に係る認識位置決め装置を備えた情報変換装置の第二の実施形態を示す機能ブロック図である。
同図に示す本実施形態に係る情報変換装置は、認識位置決め装置３００に接続される一又は二以上のコンピュータ・情報処理装置等によって構成される。
本実施形態に係る認識位置決め装置３００は、ＣＶ映像位置取得部・対象物座標付加部３０１と、属性付加部３０２ａを有する時間連続情報機械学習部３０２を備えて構成されている。
なお、図３４では、説明の便宜上簡略化して示してあるが、本実施形態の認識位置決め装置３００は、図１５で示した認識位置決め装置１００と、基本的な構成・機能は同様である。

本実施形態の情報変換装置は、図３４に示すように、ＩＤ化部３０３，ＣＶ映像再構成表示装置３０４，ＡＩ意味生成装置３０５，概念部品庫３０６，意味表示装置３０７の各部として機能するように構成される。
概念部品庫３０６は、対象物の意味・概念を示す、当該対象物の種類に対応する所定の概念情報を記憶した部品庫として構成される。
意味表示装置３０７は、認識位置決め装置３００において同定されて三次元位置座標が付加された対象物に、概念部品庫３０６に記憶された、当該対象物の種類に対応する概念情報を対応させて、複数の対象物を含むＣＶ映像を、各対象物に対応する概念情報によって再構成する再構成手段として機能する。

このような本実施形態の情報変換装置では、上述した第一実施形態の場合と同様に、ＩＤによって分類されたＩＤ部品庫を持ち、ＣＶ映像内の目的の画像範囲内の大部分を複数の対象物を「概念・意味」に分解し、各対象物の認識結果と、各対象物の三次元座標と姿勢の取得結果に、例えば色やその他付加情報等の属性取得結果を付加する。
そして、各対象物を、所定の概念を集めた概念部品庫の中の概念に対応させて、それぞれの幾つかの対象物（概念・意味）のＩＤの組み合わせから、特定の概念を生成し、目的の画像内の概念を、複数のＩＤが付加された対象物（概念・意味）によって再構成させる。

生成された概念は、その概念のみを、又はその概念にＩＤを付加したデータとして伝送し、受信側に、概念のみに対応した概念部品庫を用意して、用意された概念部品庫に照らし合わされ、その中から選択された概念を再生させることで、ＣＶ映像を構成する画像の概念を、送信し、受信し、記録し、再生し、表示することができるものである。
対象物に分割され再構成された画像は、対象物の個々の意味の集まりとして表示される。
その個々の意味を持つＩＤの組み合わせ方で、新しい意味が生成される。
例えば、車両や車両の形状や、道路やなどから、「交通事故」という意味が生まれる。このように交通事故等の災害、状況の意味を「概念」として認識して、その概念を、送信し、受信し、記録し、再生することができる。

具体的には、本実施形態の情報変換装置では、ＣＶ映像再構成表示装置３０４の出力をＡＩ意味生成装置３０５で処理し、対象物の種類に対応するＩＤの組み合わせにより、概念部品庫３０６から概念を選択して新しい意味を生み出し、それを意味表示装置３０７で表示させる。
上述した本願発明者による特許第４５８２９９５号の技術によれば、画像認識によりＩＤ化され、対象物の種類に対応する複数のＩＤの分布から概念を作り出し、そのＩＤ信号を伝送することができる。本実施形態の情報変換装置においても、ＩＤの組み合わせで、新たな概念を生み出し、その概念を新たな概念として、送信し、受信し、記録し、再生し、再構成して表示することができる。
また、ＩＤを破棄して、概念部品庫３０６によって、ＡＩ意味生成装置３０５で対象物の種類に対応する概念を生成し、それを再構成し表示しても良い。

そして、この生成された概念を、第一実施形態の場合と同様に、他の装置に送信し受信することで、さらに超超狭帯域の画像伝送が可能となる。
さらには、この本実施形態の方式で、画像を記録し、再生することで、画像の超超圧縮が可能となる。
この本実施形態の方式は、画像を個々の対象物に部品化してた後、その概念にまで情報を変換することを意味している。
このような画像や他の情報系による概念の把握は、今後人工知能には必須の機能となる。
この点について、以下に示す第三実施形態において更に説明する。

［第三実施形態］
本発明に係る認識位置決め装置を備えた情報変換装置の第三の実施形態について、図３５～図３７を参照しつつ説明する。
本実施形態は、上述した第二実施形態の方式を更に改良・発展させたものであり、第二実施形態において認識・再構成の対象としていたＣＶ映像のみならず、対象を他の情報系に拡張するものである。
すなわち、本実施形態の情報変換装置は、ＣＶ映像のみならず、対象を他の情報系に拡張した、広範な情報系内の目的の範囲内の大部分を複数の対象物（物とは限らない個別の対象）に分解し、その対象物の認識結果と、その対象物の位置と姿勢の取得結果を、それぞれの認識対象物にＩＤを対応させるものである。
これにより、目的の情報系内は、複数のＩＤを付加された対象物から構成されたことになり、さらに必要があればそれぞれのＩＤに必要な属性が付加され、その付加されたＩＤのみを伝送し、受信側に用意された、ＩＤに省略化された概念のみが対応した概念部品庫の中から、ＩＤによって選択された部品を再生させるものである。生成・再生された概念は、所定の装置において表示し、通信し、記録し、再構成により再生表示されるようになる。

図３５に示すように、本実施形態の情報変換装置は、拡張情報系認識位置決め装置４００として構成される。
この拡張情報系認識位置決め装置４００は、上述した認識位置決め装置１００と同様に、拡張情報系位置取得部４２０で、画像内の大部分の対象物に認識と三次元化を施すことができる。これにより、映像は複数の対象物の三次元配置として取得される。
認識された対象物は、第一／第二実施形態の場合と同様にＩＤ化される。
そのために、拡張情報系認識位置決め装置４００は、時間連続情報機械学習部４３０において部品庫４３０ａが選択され、その部品庫に沿ってＩＤが決定される。
ＩＤの決定は、位置演算対象物位置付加部４４０のＩＤ化部４４０ａにより実行され、拡張情報系の複数の部品によってＩＤ化される。
続いて、図３６に示すように、属性を必要とするときには、時間連続情報機械学習部４３０の属性付加部４３０ｂにより、ＩＤの付加情報として付加し、拡張情報系再構成表示装置４５０で再構成され、表示される。

また、拡張情報系再構成表示装置４５０で再構成されたデータは、図３６に示すように、ＰＲＭ信号生成装置２０５によって所定のＰＲＭ信号に生成され、第一実施形態の場合（図３０参照）と同様に、通信と記録に分離される。
まず、通信の場合は、ＰＲＭ信号生成装置２０５では、ＩＤと属性と部品庫番号を信号として生成し、そのＰＲＭ信号がＰＲＭ信号送信装置１１０を介して送信され、ＰＲＭ信号受信装置１１１で受信されて、拡張情報系再構成表示装置４５０に入力される。
拡張情報系再構成表示装置４５０で読み取られたＩＤ及び三次元座標等の属性信号に基づいて、受信側部品庫として備えられる部品庫２０２から、読み取られたＩＤに対応する必要な部品が収集され、ＩＤに付加された情報が付加されて、部品が再構成される。
これによって、拡張情報系の再構成画像が生成・出力される。

次に、記録再生の場合は、ＰＲＭ信号生成装置２０５において、ＩＤと属性と部品庫番号がＰＲＭ信号として生成され、そのＰＲＭ信号がＰＲＭ信号記録装置１１２で記録され、記録されたＰＲＭ信号がＰＲＭ信号再生装置１１３で受信・再生される。
その後、ＰＲＭ信号再生装置１１３で読み取られたＩＤ及び三次元座標等の属性信号に基づいて、拡張情報系再構成表示装置４５０において、読み取られたＩＤに対応する必要な部品が部品庫２０２から収集され、ＩＤに付加された情報が付加されて、部品が再構成され、拡張情報系の再構成画像が生成・出力される。

以上のような本実施形態の情報変換装置を構成する拡張情報系認識位置決め装置４００では、ＰＲＭ技術を映像以外の情報系に展開し、映像をも含む一般化することが可能となる。
例えば、映像はしばしば音声と共に利用されるから、対象物の種類に対応する識別情報（ＩＤ）や概念情報に基づいて、映像と音声はそれぞれの機械認識によって、対象物に分解され、拡張情報系位置取得部４２０によって位置情報が与えられ、時間連続情報機械学習部４３０で機械学習が行われる。
また、時間連続情報機械学習部４３０と位置演算対象物位置付加部４４０との間で相互信号が繰り返しやり取りされることで、拡張情報系のそれぞれの部品庫４０７ａから複数のＩＤに基づく複数の部品が認識・抽出されて、全体像が構成される。

本実施形態の部品庫４３０ａは、拡張系情報の全てを含むことから、第一／第二実施形態における部品庫と比較して、より大きな部品庫になる。
機械学習による認識と位置の決定は、同時に処理されることが適切で、そのために、上述した認識位置決め装置１００と同様に、時間連続情報機械学習部４３０と位置演算対象物位置付加部４４０との間では相互信号が繰り返し頻繁にやり取りされる。
認識された対象物は、ＩＤ化部４４０ａによってＩＤ化され、ＩＤ化された信号が拡張情報系再構成表示装置４５０で再構成されて、元の全体の概念像が再構成されて出力・表示される。

そして、本実施形態では、時間連続情報機械学習部４３０における機械学習の対象として、画像・映像以外の他の情報系も対象とされる。
映像以外の情報系とは、例えば文書のような文字の分布の情報系や、音楽のような音の分布の情報系、匂いの分布の情報系等がある。
上述のとおり、ＣＶ映像は６変数であったが、それぞれの情報系は、それぞれ異なる座標系を持つ。
このように、本実施形態では、情報系を一般化して扱うことができるため、「装置」や「部」の名称・符号を、図１５に示した認識位置決め装置１００と異ならせているが、基本的な構成・機能は認識位置決め装置１００は同様である。

なお、拡張情報系再構成表示装置４５０から送られる信号は、ＰＲＭ信号送受信装置１１０／１１１）を介して、又はＰＲＭ記録再生装置１１２／１１３を介して、受信側の拡張情報系再構成表示装置４５０において、ＩＤ発生側と同じ部品庫が使用されて情報が再構成されるが、本実施形態における部品は、概念の部品庫であるから、全く同じものでなくても、近い概念の部品を選択することも可能である。
概念とは、例えば文化によって異なるものであるから、異国文化の翻訳などに使われることでその力を発揮する。
また、全ての情報系においては、情報は時間軸上に分布して存在しているが、画像などの時間の一断面の情報もこの情報系の処理に当然含まれるものとする。
上述した認識位置決め装置１００では、主に映像情報系にたいして詳細に説明したが、本実施形態においては、映像以外の他の情報系にまで拡張された、拡張情報系にまで適応が可能となるため、ＰＲＭ技術はより生活に密着したものとなる。

なお、本実施形態に係る部品庫は、画像のみならず、他の情報系に拡張されるため、それは既に人間の生活環境に存在する概念の倉庫であり、その意味するところは文化を構成する要素の入れ物を意味することになる。
ＩＤ部品庫は、画像処理側と表示側、送信側と受信側、記録側と再生側で同一の部品庫が必要であるが、敢えて、ＩＤが意味のある対応が成されていれば、異なる部品庫でも有効である。
概念のＩＤ部品庫であれば、人間と宇宙人との通信、人間と動物との通信、文化の異なる人間間の通信などの概念の変換通信や、映像と音との変換など、他の情報系に変換して、視覚障害者、聴覚障害者に新たなツールを提供できることになる。

また、本実施形態と上述した第二実施形態を合わせることにより、図３７に示すような、ＰＲＭ再構成表示装置６００，概念ＩＤ化部６０１，概念部品庫６０２，拡張情報系再構成表示装置６０３を備えた構成とすることもできる。
同図に示す拡張情報系再構成表示装置６０３では、例えば、対象物に分割され、再構成された拡張情報系は、画像のみならず、他の情報系の予想となる対象物から再構成されて表示されることになる。
そこでは、対象物の個々の意味の集まりとして表示される。

また、上述したＡＩ意味生成装置３０５（図３４参照）では、その個々の意味を持つＩＤの組み合わせ方で、新しい意味を生成することができる。
例えば、車両や車両の形状や、道路や、臭いや、気体の成分、温度、クラッシュの音、クラクションの音などから、交通事故という意味が生まれる。
このようにして、交通事故等の災害、状況の意味、等の再構成部品から、意味表示装置３０７（図３４参照）により、新しい概念を生成して、その概念を送信し、受信し、記録し、再生することができる。
図３４においては、映像だけを対象として、ＣＶ映像再構成表示装置３０４の出力をＡＩ意味生成装置３０５で処理し、ＩＤの組み合わせにより、新しい意味を生み出し、それを意味表示装置３０７で表示させているが、本実施形態によれば、ＣＶ映像以外の拡張した情報系においても、新しい概念の発生を行うことが可能となる。

以下、本発明に係る認識位置決め装置及び情報変換装置の、より具体的な実施例について説明する。
［実施例１］
実施例１では、本発明の認識位置決め装置を、道路データベース自動作成装置として実施して、座標認識同時処理を行う場合について説明する。
図１５を参照しつつ、認識位置決め装置の実施例を示す。
図１５に示すように、車載した全周囲カメラ部１０による映像出力と、高精度ＧＮＳＳ部１２の出力を、ＣＶ映像取得部２０に送り、ＣＶ映像を取得する。

映像内の静止座標系に固定している対象物の内の道路交通に関連する多くの対象物を前もって選択して、その対象物のデータ（教師データ）を対象物指定部１３に置く。
車載装置からはＣＶ映像が出力され、対象物を含む目的の範囲のＣＶ映像取得部２０は、連続フレーム機械学習部３０と連結されている。
ここまでで機械学習と三次元座標取得の準備が完了し、対象物のデータは連続フレーム機械学習部３０で対象物認識されると同時に、三次元座標演算対象物座標付加部４０との間で相互信号のやり取りが繰り返され、三次元座標演算対象物座標付加部４０で、対象物の認識と同時に、三次元座標、及び姿勢、又は 3 次元形状等が取得される。

連続フレーム機械学習部３０と三次元座標演算対象物座標付加部４０は、常に相互信号がやりとりされ、機械学習と座標取得とが常に連携しつつ、互いの確度と精度を向上するように相互依存しながら認識処理と座標取得処理がなされていく。
また、対象物の絶対座標を取得するには、ＧＮＳＳ等の高精度の衛星測位システムを用いて、ＣＶ値を絶対座標で校正し、ＣＶ値を絶対座標系に変換することで得られる。
対象物認識と座標取得がなされた出力信号は、座標付加認識出力部４１から出力される。

さらに、座標とともに認識された複数の対象物は、認識対象物表示部５０に送られ、表示されたＣＶ映像の中の画像の中に、対象物と認識された名称と、その三次元座標が表示される（図２３～図２９参照）。
これは一見映像ではあるが、ＣＶ映像であることから、いわゆる二次元の地図や三次元ＣＧに変換する必要はなく、画像の中の任意の点は三次元座標を持つことから、正確には、任意の特徴点、任意の特徴領域は、三次元座標を瞬時に取得できるから、そのまま三次元地図として使用できるのが特徴である。
しかも、この三次元地図には、自動認識した全ての対象物を如何様にも表示可能であり、また自動的に読み出し可能であるから、自動作成・自動読み取りのデータベースができあがる。
車両の自動運転の三次元地図として有効であると同時に、一般の二次元の地図に代わって、産業の全ての分野で利用が可能であり、更新が自動化されて、簡単であることから、未来の地図としても十分に応えられる。

一方、以上のようにして自動生成されるデータベースを基本として、車載カメラからのリアルタイム取得の移動体について、それをリアルタイムで表示する必要があれば、ＣＶ値を取得する方法と同じように、移動体に対して、トラッキングし、カメラと移動体の関係を示すＲＶ値を取得し、そこにＣＶ値を代入して、静止座標系と移動体との関係を示すＭＶ値を求めることができる。これは、移動体の三次元座標及び姿勢を取得するための移動体ＲＶ値取得部２７によって実行される。
また、対象物指定部１３において、対象物を移動体に指定した場合には、移動体ＲＶ値取得部２７と連続フレーム機械学習部３０が結合・連携される。
これによって、移動体の機械学習の準備ができ、ＲＶ値が連続フレーム機械学習部３０に送られ、移動体の認識と三次元座標の取得が同時に行われる。
なお、移動体の認識と三次元座標の取得は、必ずしも同時で無くても、別々でも良いが、一般には同時に行うことにメリットが多い。

以上のような移動体認識においても、静止座標系対象物と同様に、連続フレーム機械学習部３０と三次元座標演算対象物座標付加部４０は、常に相互信号のやり取りがなされ、機械学習優先か、座標取得優先かで、その作業の重みに変化が出てくる。
対象物認識と座標取得がなされた出力信号は、座標付加認識出力部４１から出力される。
この出力信号を認識対象物表示部５０に入力すれば、移動体の対象物は認識され、その移動体の移動方向、回転方向等と共に表示され、元の画像に対応して表示される。

［実施例２］
実施例２では、図３０～図３２を参照しつつ、認識位置決め装置を使った情報変換装置（情報変換システム）となるＰＲＭ記録再生装置の実施例を示す。
図３０に示すように、認識位置決め装置１００で取得された対象物認識と対象物三次元座標が座標付加認識出力部４１から出力される。
この信号が、ＰＲＭ信号送信装置１１０から送信され、ＰＲＭ信号受信装置１１１で受信され、再構成画像として再生されることになる。
詳細を図３１で示す。認識位置決め装置１００で認識された対象物は、名称が分かっただけではなく、部品庫２０２は部品庫２０２＊１～２０２＊Ｎまで有り、部品庫選択装置２０１で選択されて、認識された対象物は対応する部品と対応づけられる。
このとき、同時にＩＤが振られ、対象物はＩＤを取得したことになる。

全ての認識された対象物は、ＩＤ化装置２０３でＩＤを取得することになる。
さらに、対象物に付加すべき属性があれば、ＩＤには属性が付加される。ここでは、対象物の三次元座標と姿勢を属性として扱うものとする。
つまり、ＩＤと属性信号がＰＲＭ信号生成装置２０５で、ＰＲＭ信号として生成されることになる。
このＰＲＭ信号は、ＰＲＭ信号送信装置１１０に送られ、送信される。
そして、送信されたＰＲＭ信号は、ＰＲＭ信号受信装置１１１により、ＩＤと属性が受信され、画像再構成表示装置１１４で、ＩＤはそれに対応する部品に戻され、属性の座標と姿勢から、３次元的に再構成されて表示される。

この再構成のときには、認識側にある部品庫と同じ部品庫で、元の部品に戻され、その部品で三次元空間が再構築される。
元のＣＶ映像は、連続する画像の集合であったが、最終的に表示される再構成された画像は三次元表示となる。
なお、部品庫２０２は、受信側と同じ部品庫２０２を用いるものとしたが、必ずしも全く同じものでなくても良い。
例えば、プリウス（登録商標）というトヨタの乗用車は黒色であったとしても、ＩＤに対応する部品は、車種や色まで含む場合もあるし、ただの自動車で有る場合もある。したがって、必要に応じて、乗用車の部品で事は足りることもあり、再構成された画像は、一般の乗用車でも良いし、正確に車種や年式（黒のプリウス：２０１８年製）に対応する画像であってもよい。

ここで、通信の原点に戻り、画像そのものを伝えるのではなく、概念情報を伝えるという立場に立てば、例えば「交差点で、車両が混み合って、渋滞している」という情報は、「交差点・車両・渋滞」という情報が必要な情報であり、車両の色や大きさ、種類は省略されたとしても、通信の目的は達していることになる。
このような概念の通信がＰＲＭ通信であり、ＰＲＭ圧縮である。
勿論、ＩＤを詳細化すれば、実際の画像そのものを再生させることは十分に可能である。そして、この技術の先には、例えば１００年分の動画像をコンパクトに記録することも可能となる技術がある。

このとき、ＩＤで対応する部品庫が用意されていて、対応する部品を選択して表示することになる。
ここで、重要なことは、再生された画像は元画像そのものでなくても良いとすることである。
再生された画像は、ＩＤ化されるときに、その概念を変換しているのであり、全く同じ形状の対象物でなくても良いとすることである。同じ形状等とすることも勿論可能である。

［実施例３］
実施例３では、図３７を参照しつつ、認識位置決め装置を使った情報変換装置（情報変換システム）として、映像を含む一般の情報系に拡張した拡張情報系変換装置の実施例を示す。
例えば音声，臭い，気温分布，文章の単語分布，電波の周波数分布，地域の放射線分布等の、拡張した情報系において、概念のＩＤによって分類された概念ＩＤ部品庫を備えることで、ＣＶ映像のみならず、他の情報系を併用して、その広範な情報系内の目的の範囲内の大部分を複数の対象物に分解し、その対象物の認識結果と、その対象物の三次元位置座標と３軸回転姿勢の取得結果を、それぞれの認識対象物にＩＤを対応させることで、目的の情報系内は複数のＩＤが付加された対象物から構成されたことになる。

さらに、必要があればそれぞれのＩＤに必要な属性が付加され、その付加されたＩＤのみを伝送し、受信側に用意した、ＩＤには省略化された概念のみ対応した概念部品庫６０２を備え、その中からＩＤによって選択された部品を再生させ、その複数のＩＤは１つの意味を生み出し、それを概念ＩＤに置き換えて、表示し、通信し、記録し、再構成により再生表示する。

図３７で示すＰＲＭ再構成表示装置６００は、上述した実施例２と同様の構成・機能となっており、その後の処理として、対象物の種類に対応するＩＤの組み合わせから、概念ＩＤ化部６０１において対象物の種類に対応する概念ＩＤを生成して、概念を伝送し、表示することになる。
そのための概念部品庫６０２が備えられ、複数のＩＤは、新しい意味を生み出し、その意味を概念ＩＤに対応させる。
生み出された概念は、拡張情報系再構成表示装置６０３で、我々にわかる概念として表示される。それは、例えば記号であるかも知れないし、音かも知れないし、臭いかも知れない。

以上、本発明の認識位置決め装置及び情報変換装置について、好ましい実施形態及び実施例を示して説明したが、本発明に係る認識位置決め装置は、上述した実施形態や実施例のみに限定されるものではなく、本発明の範囲で種々の変更実施が可能であることは言うまでもない。

本発明は、ビデオカメラ等で取得された画像・映像に基づいて対象物を認識するとともに、当該対象物の三次元座標を取得するための画像・映像処理技術として好適に利用することができる。

１０対象映像取得部（全周囲カメラ部）
１３対象物指定部
２０ＣＶ映像取得部（ＣＶ演算手段）
３０連続フレーム機械学習部
３１認識領域指定部
４０三次元座標演算対象物座標付加部
４１座標付加認識出力部
５０認識対象物表示部
１００認識位置決め装置

Claims

対象をカメラで撮影して対象映像を取得する際のカメラの静止座標系における三次元位置座標と３軸回転姿勢の値を示すＣＶ（カメラベクトル）値を求めるＣＶ演算を行い、前記対象映像に前記ＣＶ値を付加したＣＶ映像を生成するＣＶ映像取得部と、
前記ＣＶ映像の連続する複数フレームに亘って映り込んでいる同一の対象物に対して、認識する目的の対象物を指定する入力操作が行われた場合に、当該対象物の指定を受け付ける対象物指定部と、
前記ＣＶ映像に映り込んでいる各対象物の前記静止座標系における三次元位置座標が付加された前記対象物のデータを教師データをとして機械学習することによって、学習モデルを生成する処理と、前記対象物指定部で指定された対象物について、生成された当該学習モデルを用いて、当該ＣＶ映像に映り込んでいる各対象物を同一の対象物として認識する処理と、からなる認識処理を、前記ＣＶ映像の複数フレームに亘って繰り返し実行する連続フレーム機械学習部と、
前記連続フレーム機械学習部で認識された対象物を、前記ＣＶ映像の複数フレームで同一の対象物として対応させ、当該ＣＶ映像に映り込んでいる各対象物の前記静止座標系における三次元位置座標を前記ＣＶ値に基づいて取得し、前記三次元位置座標が一致する対象物を各フレームで確認することで同定して、当該対象物に、一致する前記三次元位置座標を付加する三次元座標演算対象物座標付加部と、
前記連続フレーム機械学習部で認識された前記対象物のデータを前記三次元座標演算対象物座標付加部に引き渡し、前記三次元座標演算対象物座標付加部で前記三次元位置座標が付加された前記対象物のデータを前記連続フレーム機械学習部に引き渡すことにより、前記連続フレーム機械学習部と前記三次元座標演算対象物座標付加部との間で、前記対象物の認識と三次元位置座標の付加を、前記ＣＶ映像の複数フレームに亘って繰り返すことにより、当該対象物について最終的な三次元位置座標を付加して出力する座標付加認識出力部と、を備える
ことを特徴とする認識位置決め装置。
前記ＣＶ映像の連続する複数フレームの１フレームのみで前記認識処理を実行し、前記対象物指定部で指定された目的となる対象物を含む周辺領域の前記静止座標系における三次元位置座標を示す領域座標を取得して、その領域座標の範囲を当該対象物が存在する認識処理の実行範囲となる認識領域として指定する認識領域指定部を備え、
前記連続フレーム機械学習部が、
前記認識領域指定部で指定された前記認識領域を、前記対象物が存在する隣接する複数のフレームに亘って割り当てて、当該認識領域において前記対象物の認識処理を繰り返し実行し、
前記三次元座標演算対象物座標付加部が、
前記認識領域において座標が一致する対象物を各フレームで確認することで同定して、当該対象物に前記三次元位置座標を付加する
ことを特徴とする請求項１に記載の認識位置決め装置。
前記連続フレーム機械学習部が、
前記対象物が映り込んでいる可能性のある前記ＣＶ映像の全フレームについて、同一の対象物についての複数の方向と複数の距離の異なる情報を、一括処理の対象となる塊として、前記連続フレーム機械学習部による前記対象物の認識処理を一括して実行する
ことを特徴とする請求項１又は２に記載の認識位置決め装置。
前記ＣＶ映像内で移動する移動体について、前記カメラに対する前記移動体の三次元位置座標と３軸回転軸の値を示すＲＶ（リージョナルベクトル）値を求めるＲＶ演算を行う移動体ＲＶ値取得部を備え、
前記連続フレーム機械学習部が、
前記ＣＶ映像内の移動体を前記認識処理の対象物として抽出し、
前記三次元座標演算対象物座標付加部が、
前記移動体の前記ＲＶ値に基づいて、前記移動体を同定して前記三次元位置座標を付加する
ことを特徴とする請求項１～３のいずれか一項に記載の認識位置決め装置。
請求項１～４に記載の認識位置決め装置に接続される情報変換装置であって、
前記対象物の種類に対応する識別情報となるＩＤ及び当該ＩＤによって分類された前記対象物の属性情報を記憶したＩＤ部品庫と、
前記認識位置決め装置において同定されて前記三次元位置座標が付加された対象物に、前記ＩＤ部品庫に記憶された、当該対象物の種類に対応する前記ＩＤを対応させ、複数の対象物を含む前記ＣＶ映像を、各対象物の種類に対応する前記ＩＤ及びその属性情報によって再構成する画像再構成表示装置と、を備えた、
ことを特徴とする情報変換装置。
前記ＣＶ映像に含まれる前記対象物を、前記ＩＤ部品庫に記憶された、当該対象物の種類に対応する前記ＩＤ及びその属性情報によって、識別情報にＩＤ化するＩＤ化装置を備え、
前記ＩＤ化装置によって前記対象物がＩＤ化された前記ＣＶ映像を送信又は記録する
ことを特徴とする請求項５に記載の情報変換装置。
前記対象物の種類に対応する意味・概念を示す概念情報を記憶した概念部品庫と、
前記認識位置決め装置において同定されて前記三次元位置座標が付加された対象物に、前記概念部品庫に記憶された、当該対象物の種類に対応する前記概念情報を対応させ、複数の対象物を含む前記ＣＶ映像を、各対象物の種類に対応する前記概念情報によって再構成する意味表示装置と、を備えた、
ことを特徴とする請求項５又は６に記載の情報変換装置。