JP7266208B2 - 認識位置決め装置及び情報変換装置 - Google Patents
認識位置決め装置及び情報変換装置 Download PDFInfo
- Publication number
- JP7266208B2 JP7266208B2 JP2019096946A JP2019096946A JP7266208B2 JP 7266208 B2 JP7266208 B2 JP 7266208B2 JP 2019096946 A JP2019096946 A JP 2019096946A JP 2019096946 A JP2019096946 A JP 2019096946A JP 7266208 B2 JP7266208 B2 JP 7266208B2
- Authority
- JP
- Japan
- Prior art keywords
- recognition
- image
- dimensional
- unit
- camera
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000006243 chemical reaction Methods 0.000 title claims description 66
- 238000004364 calculation method Methods 0.000 claims description 135
- 238000010801 machine learning Methods 0.000 claims description 104
- 239000013598 vector Substances 0.000 claims description 91
- 238000012545 processing Methods 0.000 claims description 66
- 238000000034 method Methods 0.000 claims description 55
- 230000008569 process Effects 0.000 claims description 24
- 238000003860 storage Methods 0.000 claims description 10
- 238000010586 diagram Methods 0.000 description 32
- 238000005516 engineering process Methods 0.000 description 31
- 230000006870 function Effects 0.000 description 19
- 238000004891 communication Methods 0.000 description 18
- 230000033001 locomotion Effects 0.000 description 16
- 238000009826 distribution Methods 0.000 description 15
- 238000013135 deep learning Methods 0.000 description 14
- 230000036544 posture Effects 0.000 description 13
- 238000001514 detection method Methods 0.000 description 8
- 230000008859 change Effects 0.000 description 7
- 238000000605 extraction Methods 0.000 description 7
- 230000005540 biological transmission Effects 0.000 description 6
- 238000005259 measurement Methods 0.000 description 6
- 241000282412 Homo Species 0.000 description 5
- 230000007274 generation of a signal involved in cell-cell signaling Effects 0.000 description 5
- 206010039203 Road traffic accident Diseases 0.000 description 4
- 239000000284 extract Substances 0.000 description 4
- 230000011218 segmentation Effects 0.000 description 4
- 238000007906 compression Methods 0.000 description 3
- 238000011161 development Methods 0.000 description 3
- 230000018109 developmental process Effects 0.000 description 3
- 230000010365 information processing Effects 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000010191 image analysis Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 238000002360 preparation method Methods 0.000 description 2
- 238000000926 separation method Methods 0.000 description 2
- 230000008054 signal transmission Effects 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 238000010977 unit operation Methods 0.000 description 2
- 208000032041 Hearing impaired Diseases 0.000 description 1
- 241001465754 Metazoa Species 0.000 description 1
- 229910000831 Steel Inorganic materials 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 238000004040 coloring Methods 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 230000008094 contradictory effect Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000001771 impaired effect Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 230000005855 radiation Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000010959 steel Substances 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 230000002195 synergetic effect Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/246—Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/56—Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/64—Three-dimensional objects
- G06V20/647—Three-dimensional objects by matching two-dimensional images to three-dimensional objects
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N7/00—Television systems
- H04N7/18—Closed-circuit television [CCTV] systems, i.e. systems in which the video signal is not broadcast
- H04N7/183—Closed-circuit television [CCTV] systems, i.e. systems in which the video signal is not broadcast for receiving images from a single remote source
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30244—Camera pose
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30248—Vehicle exterior or interior
- G06T2207/30252—Vehicle exterior; Vicinity of vehicle
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Multimedia (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Databases & Information Systems (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Signal Processing (AREA)
- Computational Linguistics (AREA)
- Image Analysis (AREA)
- Length Measuring Devices By Optical Means (AREA)
Description
例えば、特許文献1には、画像解析に適した教師データを効率的に生成することにより、高精度の画像認識や状況予測などに利用する十分な量の教師データを得ようとする提案がなされている。
例えば、現状の機械学習はかなり進化してきているが、二次元上の画像内の対象物を認識するだけのものであり、認識された対象物の三次元位置を認識と同時に取得するようなことはできない。ここでの認識とは、対象物をニューラルネットワークにより、カテゴリーに分かれた分類の何処に属するかを判断することである。
また、現状の対象物認識は、三次元を対象とはしていないし、していたとしても、結局は二次元上に投影して認識しているに過ぎない。
このように、これまでの画像認識技術で認識される対象物は、三次元座標を持たないものである。
すなわち、機械学習は二次元上で、セグメンテーションやたたみ込み積分を行うことから、原理的に三次元形状や位置情報は失われるという欠点があった。
また、現状では画像伝送は二次元の伝送であり、たとえ2K,4K,8Kと画像が高解像度になっても、それは二次元のままであり、現実世界とは異なる。
本願発明者は、このような現状の画像認識技術が有する課題を解決し得る発明として、鋭意研究の結果、対象物の認識と同時に、その三次元座標を取得できるようにすることで、画像処理の技術を大きく進化させることができる本発明に想到したものである。
本発明は、動画像を利用して、動画像から画像内の対象物を認識し、同時に当該対象物の三次元座標取得を行い、これを連続して行うことで、自動的に座標付き対象物のデータベースを自動作成し、さらにはこのデータベースを基準の三次元地図として自動運転を行い、さらには、時間軸をも含めたこれらのデータベースの膨大な情報を効率的に伝送し記録することができる装置・技術を提供できるようにするものである。
また、本願出願人による特許第4767578号「高精度CV演算装置」は、動画像を解析し、動画像を取得したカメラの6変数を求める演算を実行して、カメラの位置の座標を求めることができ、その動画像を様々に加工等することを可能とする技術である。ただし、当該特許技術における三次元座標の取得と対象物認識は別の技術であり、これまでは、それらを同時に処理できるようにする技術は提案されていなかった。
そこで、本発明では、単なる写真としての画像ではなく、動画像の取得が当たり前になりつつあることから、静止画像ではなく動画像、特に上記特許技術であるCV映像(詳細は後述)を利用して、対象物を機械学習で認識すると同時に、対象物の三次元座標を瞬時に求めることを可能とするものであり、さらに必要であれば、三次元の絶対座標を求めることができるものである。
当然のことながら、例えば従来の測量機等と組み合わせれば、後処理で対象物の三次元座標の取得は可能であるが、本発明では、対象物の認識と同時に三次元座標の取得を実現しつつ、認識の確度と三次元座標の精度を向上させることができることを特徴とするものである。
ここで、本発明における対象物の三次元座標とは、目的に応じて、前もって代表点を何処にするか決めておくことができる。例えば、対象物の中心の三次元座標や、下端の三次元座標、上端の三次元座標、あるいは全体の三次元形状などを指定することができる。具体的には、道路標識であれば、標識の中心か、その上端か、その下端か、その全体か、等である。
これによって、これまでの機械学習技術では不可能であった新たな領域への利用・展開が可能となる。
ここで、以下に示す本発明の認識位置決め装置及び情報変換装置は、プログラム(ソフトウェア)の命令によりコンピュータで実行される処理,手段,機能によって実現される。プログラムは、コンピュータの各構成要素に指令を送り、以下に示すような所定の処理や機能、例えば、対象映像中の基準となる特徴点(基準点)やその他の特徴点の自動抽出,抽出した基準点の自動追跡,基準点の三次元座標の算出,CV(カメラベクトル)値の演算,CV映像に含まれる対象物の認識・同定,認識された対象物への三次元位置座標の付加,対象物の認識と三次元位置座標の付加の繰り返しによる高精度な認識確度と三次元座標精度の付加・出力,同定・認識された対象物に対応するID及びその属性情報による再構成画像の生成等を行わせる。このように、本発明における各処理や手段は、プログラムとコンピュータとが協働した具体的手段によって実現される。
また、プログラムは、記録媒体を介さず、通信回線を通じて直接にコンピュータにロードし実行することもできる。
また、コンピュータは、例えば一台のPC等で構成してもよく、また、複数台のサーバコンピュータ等で構成することもできる。
以下に示す本発明の一実施形態に係る認識位置決め装置は、例えばビデオカメラで撮影・取得された対象映像に基づいて、動画像から画像内の対象物認識を行うと同時に、認識された対象物の三次元座標取得を行い、これを連続して行うことで、映像中の各対象物に対して高精度な三次元座標を付与するための手段である。
そして、本実施形態に係る認識位置決め装置では、上記のような映像中の対象物の認識・三次元座標付与を高精度に実現するために、対象映像に所定の三次元座標と姿勢の計6変数の情報を付与したCV(カメラベクトル)映像を用いることを前提としている。
なお、上記と同等の6変数は、例えばカメラに取り付けた機械センサー(IMUとジャイロ等)などによっても取得できるが、CV演算による方が、精度が高く、コストがかからず、簡単に生成・取得することができる。
認識位置決め装置での対象物の認識・三次元座標取得処理を行う前提として、対象・目的となる対象物を含む対象映像を取得・撮影する撮影カメラを車両等の移動体に設置し、動画映像、又は連続する静止画を取得する。その上で、取得した対象映像の各フレーム画像の中に特徴点を抽出して、数学的演算により、全フレームのカメラ位置と姿勢を演算で求める。
具体的にはカメラ位置と姿勢を6変数、具体的には、カメラの位置座標(X,Y,Z)とそれぞれの座標軸の回転角(Φx,Φy,Φz)の六個の自由度のベクトル(カメラベクトル:CV)で表し、それを映像の各フレームに一対一に対応させることで、CV映像を生成することができる(後述する図1~14参照)。
このCV映像を用いることで、既存の測量機による測量技術等を用いることなく、任意の映像において所望の対象物の認識・三次元座標取得処理が可能となる。
すなわち、本発明に係る認識位置決め装置では、対象映像に含まれる任意の対象物や点について、その位置と姿勢を示す6変数を取得するものである。
そして、この6変数の取得とは、上述のとおり、三次元位置座標を示す[X,Y,Z]と姿勢を示す[Φx,Φy,Φz]の6個の変数を決定することである。
このような位置と姿勢の6変数を示すCV値が付与された映像が、CV映像である。
次に、本明細書・特許請求の範囲中において使用する用語・語句についての定義を説明する。
・CV値/CV演算/CV映像/CV画像:
移動する物体、(たとえば車両やロボット等)に積載された機械センサーで得られた6変数、及びカメラから得られた連続する静止画像、又は動画像から、カメラの位置と姿勢を算出した6変数をカメラベクトル(CV:Camera Vector)と呼称し、その値をCV値といい(図14参照)、CV値を演算で求めることをCV演算といい、そしてそのようなCV値を有する画像をCV映像という。
また、連続しない単独の画像についてはCV画像と呼称することがある。あるいは、1フレームについてのみ着目するときには、当該1フレームの画像をCV画像と呼称することがある。つまり、CV画像はCV映像の特殊な状態(単独画像)である。
上記のCV値が静止座標系に対するカメラの位置姿勢の6変数であるのに対して、移動体とカメラの位置姿勢に関する6変数にCV値を代入して、静止座標系と移動体の関係に変換した6変数をムーヴィングベクトル(MV:Moving Vector)値という。
移動体抽出には座標系分離が必要であり、静止座標系から見た対象物の6変数をMV値といい、また、カメラ位置から見た対象物の6変数をリージョナルベクトル(RV:Regional Vector)値という(後記参照)。RV値は、カメラ座標系と移動体座標系との関係を表している。
これらRV値/MV値は、CV値に含まれるものであり、CV値と同様に後述するCV演算により求められる。
上記のとおり、カメラ座標系と静止座標系との関係を示す6変数をCV値、カメラ座標系と移動体座標系との関係を示す6変数をRV値という。
移動する同一の対象物を複数フレームで含む画像において、静止画像系の中を移動する対象物は、RV値として検出される。
静止座標系に固定された例えば建築物のような対象物は、そのままCV値によってカメラ座標系との関係が規定される。
また、移動する対象物(例えば自動車)は、CV値ではなくRV値として規定される。
一方、静止座標系とカメラ座標系の関係のみを求めるときには、RV値は誤差として入ってくる値となるので削除される。
また、対象物を構成する複数の部分が個別の動きをする場合(例えば人間のような形の変化する対象物)には、複数のRV値を持つことになる。
ここで、移動する車両の運動を解析するような場合は、CV画像の座標系と、移動対象物との関係を求める必要が出てくる。
まず、図14に示すように、CV値とRV値とでは、CV値を介してその関係が求められることになる。
そこで、図14に示すように、静止座標系と移動対象物の座標系との関係を直接的に示す変数をMV値、そのための演算をMV演算、対象物の画像をMV画像という。
図14に、本発明に係るCV値・RV値・MV値の関係を模式的に示す。
同図に示すように、MV演算を行うには、カメラ座標系を共通項として、互いのCV値(RV値)を削除することで、MV値が得られることになる。
また、このようにしてMV値が取得された画像をMV画像という。
なお、当然のことながら、静止座標系と移動体座標系を示すMV値は時々刻々、時間とともに変化することになる。
本発明において、対象物の「認識」とは、目的の対象物、及びその物体の属性が、用意したカテゴリー別に決定されることをいう。さらに、あらかじめ決められた対象物の名称を決めることも「認識」となる。
対象映像の各フレームで認識された複数の対象物は、それが同じ物体である保証はない。
すなわち、「認識」は、形状取得ではなく、カテゴリーに分類されたことを意味する。
本発明において、対象物の「同定」とは、上記のように「認識」された対象物が、同一の物体であることを決定することをいう。
具体的には、認識された対象物(例えば電柱)が、決まった場所に立つ「同一の電柱」であると決定することを「同定」という。
以上のような対象物の認識/同定処理については、後述する図15~22を参照しつつ詳しく説明する。
次に、上記のような本発明の認識位置決め装置で用いられるCV映像を生成するためのCV演算の詳細について図1~図14を参照しつつ説明する。
CV演算とはCV値を求めることを意味し、求められた結果をCV値,CVデータと呼ぶ。CVという表記は、「カメラベクトル:Camera Vector」の略記であり、カメラベクトル(CV)とは計測等のために映像を取得するビデオカメラ等のカメラの三次元位置と3軸回転姿勢を示す値である。CV値は、カメラ座標系と静止座標系との関係を表している。
CV演算は、動画像(ビデオ映像)を取得し、その映像内の特徴点を検出し、それを隣接する複数のフレームに追跡し、カメラ位置と特徴点の追跡軌跡とが作る三角形を画像内に数多く生成し、その三角形を解析することで、カメラの三次元位置とカメラの3軸回転姿勢を求めるものである。
また、動画像から演算で求められるCV値は、動画像の各フレームに対応して、三次元のカメラ位置と三次元のカメラ姿勢とが同時に求まる。しかも、原理的には一台のカメラで、映像と対応してCV値が求められる特性は、CV演算でしか実現し得ない、優れた特徴である。
例えば、他の方法による計測手段(GPSやIMU等)では、動画像の各フレームと、その三次元的カメラ位置と三次元的カメラ姿勢とを同時に取得するためには画像フレームと計測サンプリング時刻を高精度で、しかも完全に同期しなければならないために、巨額の装置となり、実質的には実現が困難である。
また、CVデータは画像から取得するため、取得されたデータは相対値であるが、画像内の任意の対象物の位置関係を計測することができるという他の方法では実現は可能な優れた特性を備える。
また、画像に対応したCV値が求まるので、画像内計測や測量において、画像から直接にカメラ位置とその3軸回転姿勢を求めることができるCV演算は画像内計測や画像内測量に好適となる。
そして、本発明の認識位置決め装置は、このCV演算により得られたCV値データが付与された映像(CV映像)に基づいて、映像中の任意の対象物についての認識及び三次元座標取得処理を行うものである。
CV演算は、後述する本発明の認識位置決め装置のCV映像取得部20(図15参照)として機能するCV演算手段20で行われる。
CV演算手段(CV映像取得部)20は、図1に示すように、車載のビデオカメラ等で構成される対象映像取得部(全周囲カメラ部)10から入力されるビデオ映像について所定のCV演算処理を行うようになっており、具体的には、特徴点抽出部21と、特徴点対応処理部22と、カメラベクトル演算部23と、誤差最小化部24と、三次元情報追跡部25と、高精度カメラベクトル演算部26とを備えている。
また、映像は、一般には予め記録した動画映像を使うことになるが、自動車等の移動体の移動に合わせてリアルタイムに取り込んだ映像を使用することも勿論可能である。
ここで、全周映像の平面展開とは、全周映像を、通常の画像として遠近法で表現するものである。ここで、「遠近法」と呼称するのは、全周画像のそのものはメルカトール図法や球面投影図法のように、遠近法とは異なる方法で表示されているので(図4参照)、これを平面展開表示することで、通常の遠近法映像に変換表示できるからである。
なお、移動体11aには、その位置座標を取得する目的で、例えば、絶対座標を取得するGPS機器単独やIMU機器を付加したもの等により構成した位置計測機器等を備えることができる。
また、移動体11aに搭載される全周ビデオカメラ11としては、広範囲映像を撮影,取得するカメラであればどのような構成であってもよく、例えば、広角レンズや魚眼レンズ付きカメラ、移動カメラ、固定カメラ、複数のカメラを固定したカメラ、360度周囲に回転可能なカメラ等がある。本実施形態では、図2及び図3に示すように、車輌に複数のカメラが一体的に固定され、移動体11aの移動に伴って広範囲映像を撮影する全周ビデオカメラ11を使用している。
ここで、全周ビデオカメラ11は、カメラの全周映像を直接取得できるビデオカメラであるが、カメラの全周囲の半分以上を映像として取得できれば全周映像として使用できる。
また、画角が制限された通常のカメラの場合でも、CV演算の精度としては低下するが、全周映像の一部分として取り扱うことが可能である。
仮想球面に貼り付けられた球面画像データは、仮想球面に貼り付けた状態の球面画像(360度画像)データとして保存・出力される。仮想球面は、広範囲映像を取得するカメラ部を中心点とした任意の球面状に設定することができる。
図4(a)は球面画像が貼り付けられる仮想球面の外観イメージであり、同図(b)は仮想球面に貼り付けられた球面画像の一例である。また、同図(c)は、(b)の球面画像をメルカトール図法に従って平面展開した画像例を示す。
CV演算手段20では、まず、特徴点抽出部21が、対象映像取得部10の全周ビデオカメラ11で撮影されて一時記録された動画像データの中から、十分な数の特徴点(基準点)を自動抽出する。
特徴点対応処理部22は、自動抽出された特徴点を、各フレーム間で各フレーム画像内において自動的に追跡することで、その対応関係を自動的に求める。
カメラベクトル演算部23は、対応関係が求められた特徴点の三次元位置座標から各フレーム画像に対応したカメラベクトルを演算で自動的に求める。
誤差最小化部24は、複数のカメラ位置の重複演算により、各カメラベクトルの解の分布が最小になるように統計処理し、誤差の最小化処理を施したカメラ位置方向を自動的に決定する。
高精度カメラベクトル演算部26は、三次元情報追跡部25で得られた追跡データに基づいて、カメラベクトル演算部23で得られるカメラベクトルより、さらに高精度なカメラベクトルを生成,出力する。
そして、以上のようにして得られたカメラベクトルが、後述する認識位置決め装置100に入力され、映像中で指定・選択される任意の対象物や点についての認識処理・三次元座標付加処理に用いられることになる。
特徴点を充分に多くとることにより、カメラベクトル情報が重複することになり、重複する情報から誤差を最小化させて、より精度の高いカメラベクトルを求めることができる。
一般に、静止した三次元物体は、位置座標(X,Y,Z)と、それぞれの座標軸の回転角(Φx,Φy,Φz)の六個の自由度を持つ。
したがって、カメラベクトルは、カメラの位置座標(X,Y,Z)とそれぞれの座標軸の回転角(Φx,Φy,Φz)の六個の自由度のベクトル(6変数)をいう。なお、カメラが移動する場合は、自由度に移動方向も入るが、これは上記の六個の自由度(変数)から微分して導き出すことができる。
このように、本実施形態のカメラベクトルの検出とは、カメラは各フレーム毎に六個の自由度の値をとり、各フレーム毎に異なる六個の自由度を決定することである。
まず、上述した対象映像取得部10の全周ビデオカメラ11で取得された画像データは、間接に又は直接に、CV演算手段20の特徴点抽出部21に入力され、特徴点抽出部21で、適切にサンプリングされたフレーム画像中に、特徴点となるべき点又は小領域画像が自動抽出され、特徴点対応処理部22で、複数のフレーム画像間で特徴点の対応関係が自動的に求められる。
具体的には、カメラベクトルの検出の基準となる、十分に必要な数以上の特徴点を求める。画像間の特徴点とその対応関係の一例を、図5~図7に示す。図中「+」が自動抽出された特徴点であり、複数のフレーム画像間で対応関係が自動追跡される(図7に示す対応点1~4参照)。
ここで、特徴点の抽出は、図8に示すように、各画像中に充分に多くの特徴点を指定,抽出することが望ましく(図8の○印参照)、例えば、100点程度の特徴点を抽出する。
本実施形態では、例えば、360度全周画像のエピポーラ幾何からエピポーラ方程式を解くことによりカメラ運動(カメラ位置とカメラ回転)を計算するようになっている。
十分な数の特徴点を与えることにより、線形代数演算により最小自乗法による解としてt及びRを計算することができる。この演算を対応する複数フレームに適用し演算する。
カメラベクトル演算に用いる画像としては、原理的にはどのような画像でも良いが、図7に示す360度全周画像のような広角画像の方が特徴点を数多く選択し易くなる。そこで、本実施形態では、CV演算に360度全周画像を用いており、これによって、特徴点の追跡距離を長くでき、特徴点を十分に多く選択することができ、遠距離、中距離、短距離それぞれに都合の良い特徴点を選択することができるようになる。また、回転ベクトルを補正する場合には、極回転変換処理を加えることで、演算処理も容易に行えるようになる。これらのことから、より精度の高い演算結果が得られるようになる。
なお、図7は、CV演算手段20における処理を理解し易くするために、1台又は複数台のカメラで撮影した画像を合成した360度全周囲の球面画像を地図図法でいうメルカトール図法で展開したものを示しているが、実際のCV演算では、必ずしもメルカトール図法による展開画像である必要はない。
さらに、誤差の分布が大きい特徴点につては削除し、他の特徴点に基づいて再演算することで、各特徴点及びカメラ位置での演算の精度を上げるようにする。
このようにして、特徴点の位置とカメラベクトルを精度良く求めることができる。
図9では、図7の画像1,2に示した特徴点1~4の三次元座標と、画像1と画像2の間で移動するカメラベクトル(X,Y,Z)が示されている。
図10及び図11は、充分に多くの特徴点とフレーム画像により得られた特徴点の位置と移動するカメラの位置が示されている。同図中、グラフ中央に直線状に連続する○印がカメラ位置であり、その周囲に位置する○印が特徴点の位置と高さを示している。
具体的には、CV演算手段20では、画像内には映像的に特徴がある特徴点を自動検出し、各フレーム画像内に特徴点の対応点を求める際に、カメラベクトル演算に用いるn番目とn+m番目の二つのフレーム画像FnとFn+mに着目して単位演算とし、nとmを適切に設定した単位演算を繰り返すことができる。
mはフレーム間隔であり、カメラから画像内の特徴点までの距離によって特徴点を複数段に分類し、カメラから特徴点までの距離が遠いほどmが大きくなるように設定し、カメラから特徴点までの距離が近いほどmが小さくなるように設定する。このようにするのは、カメラから特徴点までの距離が遠ければ遠いほど、画像間における位置の変化が少ないからである。
このようにして、フレーム画像FnとFn+mに着目した単位演算を行うことにより、m枚毎にサンプリングした各フレーム間(フレーム間は駒落ちしている)では、長時間かけて精密カメラベクトルを演算し、フレーム画像FnとFn+mの間のm枚のフレーム(最小単位フレーム)では、短時間処理で行える簡易演算とすることができる。
このようにして、画像の進行とともにnが連続的に進行することにより、同一特徴点について複数回演算されて得られる各カメラベクトルの誤差が最小になるようにスケール調整して統合し、最終のカメラベクトルを決定することができる。
これにより、誤差のない高精度のカメラベクトルを求めつつ、簡易演算を組み合わせることにより、演算処理を高速化することができるようになる。
これによって、各特徴点及びカメラ位置の誤差が最小になるようにスケール調整する形で統合し、距離演算を行い、さらに、誤差の分布が大きい特徴点を削除し、必要に応じて他の特徴点について再演算することで、各特徴点及びカメラ位置での演算の精度を上げることができる。
具体的には、まず、三次元情報追跡部25で、カメラベクトル演算部23,誤差最小化部24を経て得られたカメラベクトルを概略のカメラベクトルと位置づけ、その後のプロセスで生成される画像の一部として得られる三次元情報(三次元形状)に基づいて、複数のフレーム画像に含まれる部分的三次元情報を隣接するフレーム間で連続的に追跡して三次元形状の自動追跡を行う。
そして、この三次元情報追跡部25で得られた三次元情報の追跡結果から、高精度カメラベクトル演算部26においてより高精度なカメラベクトルが求められる。
そこで、特徴点追跡で得られるカメラベクトルを概略値と位置づけ、その後のプロセスで得られる三次元情報(三次元形状)を各フレーム画像上に追跡して、その軌跡から高精度カメラベクトルを求めることができる。
三次元形状の追跡は、マッチング及び相関の精度を得やすく、三次元形状はフレーム画像によって、その三次元形状も大きさも変化しないので、多くのフレームに亘って追跡が可能であり、そのことでカメラベクトル演算の精度を向上させることができる。これはカメラベクトル演算部23により概略のカメラベクトルが既知であり、三次元形状が既に分かっているから可能となるものである。
また、得られた三次元形状を、カメラ位置から二次元画像に変換して、二次元画像として追跡することも可能である。カメラベクトルの概略値が既知であることから、カメラ視点からの二次元画像に投影変換が可能であり、カメラ視点の移動による対象の形状変化にも追従することが可能となる。
例えば、図13に示すように、車載カメラからの映像を平面展開して、各フレーム画像内の目的平面上の対応点を自動で探索し、対応点を一致させるように結合して目的平面の結合画像を生成し、同一の座標系に統合して表示する。
さらに、その共通座標系の中にカメラ位置とカメラ方向を次々に検出し、その位置や方向、軌跡をプロットしていくことができる。CVデータは、その三次元位置と3軸回転を示しており、ビデオ映像に重ねて表示することで、ビデオ映像の各フレームでCV値を同時に観察できる。CVデータをビデオ映像に重ねた表示した画像例を図13に示す。
図14に、CV値・RV値・MV値の関係を模式的に示す。
RV値は、静止座標系に対するカメラの位置姿勢の6変数であるCV値を、移動体とカメラの位置姿勢に関する6変数にCV値を代入して、静止座標系と移動体の関係に変換した6変数として求めることができる。
MV値は、CV値とRV値とで共通としている要素のカメラ座標系を削除し、静止座標系と移動体座標系との直接の関係を示す6変数として求めることができる。
次に、以上のようにして求められたCV値,RV値,MV値が付与された対象映像(CV映像)に基づいて実行される、対象映像中の任意の点・対象物についての視点移動表示処理を行う本発明に係る認識位置決め装置の実施形態について、図面を参照しつつ具体的に説明する。
図15は、本発明の一実施形態に係る認識位置決め装置100の基本構成を示すブロック図である。
なお、同図に示す本実施形態では、認識位置決め装置100として、対象映像取得部(全周囲カメラ部)10及びCV映像取得部20を一体的に備えた装置構成として示しているが、対象映像取得部10及びCV映像取得部20のいずれか一方又は双方を、認識位置決め装置100とは分離された別体の構成要素として備えることも勿論可能である。
本実施形態では、全周囲カメラ部10は、上述した図1~3に示したように、全周ビデオカメラ11を備えた走行車両等の移動体11aによって構成される。この移動体11aが、基準映像を取得する目的で、所定の道路等を一定範囲で走行することで、移動体11aに備えられた全周ビデオカメラ11により、移動体11aの移動に伴って移動体周辺の映像を対象映像として撮影・取得する。
この全周囲カメラ部10で取得された対象映像が、CV映像取得部20に入力されて、上述したCV演算に基づくCV映像の作成処理が行われる(図1~14参照)。
また、CV映像取得部20は、CV映像内で移動する移動体について、カメラ座標系と移動体座標系との関係を示す上述したRV値(図14参照)を求めるRV演算を行う移動体RV値取得部27として機能する。
具体的には、CV映像取得部20は、上述した図1~14で示したCV演算手段によって構成される。CV映像取得部20によるCV演算の具体的な内容については、上述したとおりである(図1~14参照)。
このような高密度GNSS部12を備えることにより、相対座標位置を示すCV値を絶対座標で校正し、CV値を絶対座標系に変換することができるようになる。
この対象物指定部13によってCV映像中で指定された対象物(例えば、電柱・標識など)が、機械学習の対象として連続フレーム機械学習部30による機械学習処理の対象となる(図23参照)。
ここで、対象物指定部13による対象物の指定は、認識位置決め装置100に備えられる入力デバイス(例えばマウス等)の入力操作により、CV映像中の任意の対象物を選択・指定することにより行うことができる。
ここで、「機械学習」とは、入力されたデータから有用な規則やルール,判断基準等を抽出し、反復的な学習を繰り返すことで、新たに入力されたデータに対する規則やルール等を自律的に生成して成長する人工知能技術である。
具体的には、例えば「電柱」を認識するための教師データとなる機械学習は、例えば「電柱」を認識するための教師データ(「電柱」を示す画像)を所定数(例えば6000回(枚)程度)、機械学習ツールに入力して学習させることで、その後に入力された画像データから、「電柱」を自律的に認識・出力できるようになる。このような機械学習は、公知の技術(機械学習ツール)を用いることができ、本実施形態に係る認識位置決め装置100が、そのような機械学習ツールを備えたコンピュータ等により構成されることで実現することができる。
この連続フレーム機械学習部30による認識処理の詳細については、図16を参照しつつ後述する。
この認識領域指定部31による認識領域を指定した認識処理の詳細については、図17を参照しつつ後述する。
さらに、連続フレーム機械学習部30は、CV映像内の移動体を認識処理の対象物として抽出することができる。
この連続フレーム機械学習部30による認識一括処理及び移動体認識処理の詳細については、図18~図22を参照しつつ後述する。
具体的には、三次元座標演算対象物座標付加部40は、連続フレーム機械学習部30との間で、対象物の認識と三次元位置座標の付加を繰り返すことにより(図15の「相互信号」参照)、所定の認識確度と三次元座標精度が得られた対象物について三次元座標を付加して出力する座標付加認識出力部として機能する。
さらに、三次元座標演算対象物座標付加部40は、CV映像中の移動体のRV値に基づいて、移動体を同定して前記三次元位置座標を付加することができる。
この三次元座標演算対象物座標付加部40による同定処理/三次元座標付加処理の詳細についても、連続フレーム機械学習部30における認識処理とともに、図16~図22を参照しつつ後述する。
具体的には、認識対象物表示部50は、例えば認識位置決め装置100に接続されたディスプレイ上に、三次元座標が付加された対象物を示す所定の映像を生成・出力させることができる(図23~図29参照)。
例えば、認識対象物表示部50は、CV映像取得部20で生成された連続する複数フレームに亘って映り込んでいる同一の対象物に対して、対象物指定部13によって選択・指定できるように、目的の対象物(例えば電柱等)が表示される(図23参照)。
また、認識対象物表示部50は、CV映像上に表示されている特定の対象物「電柱」に付与された識別情報(タグ)を編集可能に表示させることができる(図26参照)。
また、認識対象物表示部50は、CV映像上に表示されている特定の対象物(電柱等)の視角を移動可能に表示させることができ、当該対象物に付与されているCV値に基づく高さの計測結果や傾き・方位角などを表示させることができる(図27参照)。
さらに、認識対象物表示部50は、CV映像中において認識・同定されて三次元座標が付与され対象物(例えば案内標識,交通標識等)の位置情報及び属性情報(対象物の種類を含む)をCV映像上に表示させることができる(図28及び図29参照)。
次に、以上のような構成からなる認識位置決め装置100による、CV映像中の目的の対象物についての認識・同定・三次元座標付加の処理・動作(認識位置決め方法)の詳細について、図15~図22を参照しつつ説明する。
[全フレーム認識/三次元座標取得]
まず、認識位置決め装置100における基本的な処理動作として、全フレーム認識と、そこから三次元座標を取得する場合の処理動作について説明する。
認識位置決め装置100では、CV映像の連続する複数フレームに亘って映り込んでいる同一の対象物に対して、認識する目的の対象物を指定し、機械学習等を施し、認識作業を実行させ、同時に、認識途中の、又は認識結果の対象物を全てのフレームで対応させ、CV映像に映り込んだ各対象物の座標を取得する。
そして、一致する座標の対象物を各フレームで確認することで同定し、もし座標が一致しなければそれを削除し、認識による対象物の同定と同時に、認識した当該対象物の三次元位置座標を認識結果(対象物)に付加して出力する。必要であれば、その対象物の姿勢・移動方向・三次元形状等も取得して、認識結果に付加して出力する。
これは対象物を内に含むように、大きめの範囲を領域指定することもあるが、二次元領域分割したセグメンテーションにより、対象物の存在する領域を塗り絵のように切り取って指定して、対象物を指定することでもよい。
この対象物の指定は、認識位置決め装置100に備えられる入力デバイス(例えばマウス等)の入力操作により、CV映像中の任意の対象物を選択・指定することにより行うことができる。
もし座標が一致しなければその対象物は削除し、同定と同時に、対応が付いた当該対象物の三次元位置座標を取得する。必要であれば、その対象物の姿勢、移動方向、三次元形状等も取得する。
この出力を表示するには、認識対象物表示部50により、CV映像中に認識物体とその三次元座標を同時に表示することができる(図23~図29参照)。
通常、機械学習は二次元の映像中の対象物を、教師データを使って機械学習させることが多い。これを映像の各フレームに亘って機械学習させることで、同一対象物を複数のフレームで機械学習させることになるので、認識率を向上させることができ、同時に、映像中に対象物を追跡(トラッキング:Tracking)させることで三次元位置座標を精度良く取得することができる。
連続フレーム機械学習部30と三次元座標演算対象物座標付加部40の間で「相互信号」のやり取りを繰り返すことで、対象物認識の確度が向上すれば、それと同時に三次元座標の精度も向上することになる。
また、対象物が物(例えば建物など)の陰に隠れたときは、そのフレームは座標が定まらないから、それを排除することで、19フレーム分で認識し、同定すればよいことになる。
なお、複数のカメラを同時に用いることにより、カメラを移動させることなく、複数画像からCV値を取得できることになるので、移動しない静止画像にも対応することができる。
次に、図16を参照しつつ、認識位置決め装置100における対象物の同定・非同定処理について説明する。
一般に、ある映像中で指定された対象部物が認識された時点で、その全てが同一対象物である保証は無い。すなわち、全てが同一の対象物として同定されるわけではない。
このとき対象物を分類すれば、図16に示すように、以下の3つのパターンに分けることができる。
(1)同定されるべき対象物301/304・・・
(2)非同定されるべき対象物303
(3)同定も非同定もされない対象物302
(2)は、期待されない座標に存在する、似たような対象物であり、全く同じ形状の対象物であっても、座標が異なることで、同定してはならない対象物303もある。近くに同定されるべき対象物があった場合や、同じ形状の物が、他にも存在している場合に検出される。例えば、「電柱」などは同じような形状や色合いなので、全て同じ対象物として検出されてしまう。これは座標値を確認後、非同定と判断することができ、削除される。
また、間違って認識された物も、この(2)に分類され、排除されることになる。
さらに、(3)として、同定されるべき座標に対象物が見つからない場合もある。例えば、カメラ位置からは何かの陰になって、映り込まない場合などである。この場合には、隣接フレームに対象物が同定されていれば、当然対象物が隠れていることを意味するので、そこに存在すると判断することができる。
なお、上記(1)~(3)は、移動する対象物(移動体)にも当てはまるものであり、移動体の移動軌跡、又は予想移動軌跡上で同定・非同定が判断されることになる。
つまり、認識結果は、複数のフレーム画像で、同一座標にある対象物として確認することができる。座標が一致しないときは、対応が付いていないことを意味し、同定されないので、それは排除し、同定可能な対象物のみ同定すればよいことになる。
このことで、認識効率を向上させ、同時に認識対象物の三次元座標、及びその姿勢、又はその三次元形状まで取得することができるようになる。
CV映像内では、全てのフレームに亘って対象物認識することで、その画像内の位置が、矛盾しないことを確認することができる。矛盾していれば、それは異なる対象物であることになる。
また、当該対象物の認識後に精度の高いマッチングを行い、当該対象物の三次元座標の精度をさらに向上させることも可能である。
なお、少なくとも二フレーム間で、容易に概略三次元座標を取得し、その三次元座標を他のフレームに割り当てて、その座標近傍に対象物を認識処理して、一致することを確認することでも同定は可能である。この場合には、連続フレーム機械学習部30と三次元座標演算対象物座標付加部40との相互信号は、頻繁にデータのやり取りを行い、先に座標を決定したとしても、結果的にはほぼ同時に、認識と三次元座標決定が成されるようにする。
また、CV映像では、CV値から対象物を見込む角度が既知であることから、方位別画像を含んだ形で学習したデータを教師として、一気に複数フレームの状態で、認識させることも可能である。
さらには、同一対象物を異なる方向、異なる距離から見ることで、自動的に教師データを作ることが可能となり、ディープラーニングの教師データ作成にも有効な装置となる。このことで、機械学習は、三次元化の方向に進むことが可能となる。これは、教師データ有りの場合でも、教師データ無しの場合でも同様である。
なお、以上で、認識位置決め装置100における対象物の認識と座標特定処理は完了するが、この後の処理として、後述する情報変換装置によって、複数の対象物に分解されたデータを、画像再構成表示装置で三次元的に再構成して表示することもできる(図30~図33参照)。
次に、図17を参照して、認識位置決め装置100における対象物の認識・同定処理として、先に対処物の座標を予測してから認識処理を行う場合について説明する。
認識位置決め装置100では、まずCV映像の1フレームだけで、認識作業を行い、対象物の座標、又は対象物を含む周辺領域座標を取得し、その領域座標の範囲を対象物の存在予想範囲として、認識の実行範囲を限定することができる。そして、その制限された領域を、当該対象物が存在する隣接する複数のフレームに亘って割り当てて、その範囲で対象物認識を行い、又は姿勢を取得し、予想された座標に乗らない対象物は排除して、予想される座標に対象物が存在する対象物を同定する一連の作業を繰り返すことができる。
このような方法により、対象物をより正しく同定し、その座標をより精度良く決定することができるようになる。
その後、三次元座標演算対象物座標付加部40において、対象物の座標、又は対象物を含む周辺領域座標を取得し、認識領域指定部31により、その座標を対象物の予想位置として、認識の実行範囲を限定する。
そして、その制限された領域を隣接する複数のフレームに亘って割り当てて、その範囲で対象物認識を施し、又は姿勢を取得する。また、予想された座標の範囲に位置しない対象物は排除し、予想される座標に対象物が存在するように、連続フレーム機械学習部30と三次元座標演算対象物座標付加部40との間で相互信号のやり取りを繰り返して演算を実行する。
同定された対象物の認識結果と同時に、その過程で取得された三次元座標が同時に出力され、その出力結果は、認識対象物表示部50により、CV映像中に認識物体とその三次元座標を同時に表示することができる(図23~図29参照)。
CV映像内では、各対象物は三次元座標を持つので、1フレームのみで対象物認識を行えば、その座標は他のフレームにも共通であることから、他のフレームの対象物の位置は正確に予想することができる。
そこで、このようなCV映像の特性を利用して、最初の1フレームで認識した対象物の三次元座標を概略値として取得し、その時の概略三次元座標を含む小領域を他のフレームに割り当てて、その座標近傍に対象物を認識処理して、認識結果と概略座標が一致することを確認することで、対象物を同定することができる。
同図に示すように、認識処理指定範囲335のように限られた領域を、処理が必要な全フレームに対して指定する。この指定範囲としては、対象物の予想値から、大枠の領域を指定することが可能である。
この認識処理指定範囲335は、全フレームの認識領域を二次元の領域として、あるいは三次元の領域として座標で指定することができる。
このことで、認識処理は全領域で行う必要はなくなり、指定された範囲の内側だけで認識処理を行えば良くなる。
これによって、非同定の検出を可能な限り少なくすることができる。また、作業範囲が小さくなることから、処理効率を向上させることができる。
すなわち、連続フレーム機械学習部30と三次元座標演算対象物座標付加部40との間の頻繁にデータ(相互信号)のやり取りを行い、先に座標が決定されたとしても、最終的には全フレームを使って再度詳細座標を求めることで、座標精度を向上させることができる。
連続フレーム機械学習部30と三次元座標演算対象物座標付加部40との間で相互信号を繰り返しやり取りすることで、結果的にはほぼ同時に、認識と三次元座標決定が、確度高く、精度良く成されるようになる。
次に、図18~図22を参照して、認識位置決め装置100における対象物の認識・同定処理として、対象となるCV映像の全フレームの一括認識処理を行う場合について説明する。
認識位置決め装置100では、対象物が映り込んでいる可能性のあるCV映像の全フレームを、個別に処理することなく、関連する全フレームを、対象物の持つ一つの情報を、一括処理の対象となる塊として扱い、同一の対象物を見込む複数の方向と複数の距離の異なる情報を、一括処理の対象となる塊として扱うことができる。
そして、その情報の塊を機械学習で一括処理し、一回で認識し、その後に、又は同時にその座標を決定して、対象物の同定を行うことができる。
このような方法によっても、対象物を正確に同定し、その座標をより精度良く決定することができるようになる。
機械学習ツールには、複数フレームを同時に入力させ、一括認識を可能とする。複数フレーム入力を可能とすることで、各フレームでの個別の認識は行わないので、認識精度をより大きく向上させることが可能となる。
この場合、図17で示した、認識処理指定範囲335を用いることは有効である。
なお、この一括認識方法では、前提として、それぞれのフレーム画像内の対象物が三次元座標(CV値)を持っているが、CV値には微少の誤差があるために完全には一致しない場合がある。しかし、全フレームで、一括認識して、同時に座標取得をすれば、誤差は自動的に統計処理され、結果として精度が高まることになる。そして、当然ながら、一括認識処理によって、認識確度は大きく向上することになる。
なお、図16及び図17に示した認識処理も共通であるが、対象物は常に面又は体を持つから、その座標を取得して指定するには、対象物の位置(点)、例えば中心や底辺下部というように、一次元点を指定しなければならない。
それは対象物によって、あるいは使用目的によって、人間が定義して、指定することになる。
一般に、ディープラーニングは、RNN(Recurrent Neural Network)を複雑にしたものである。
動画データのような複数データを扱えるようにするために、図18に示す入力層800と、再帰的な構造をもたせ、双方向に信号が伝播するニューラルネットワークを持っている中間層801に出力層802を持たせるようにする。
RNNを横に繋いで時間変化する連続的なデータに対応させたものが図18に示すディープラーニング(Deep Learning)である。
また、学習済みのモデルを使用する場合には、推論の処理のみなので大規模な計算資源は必要ない。ディープラーニングでは、大量のデータさえあれば、従来の機械学習などではできなかった、複雑な扱いづらいデータも処理を行うことが可能となる。
ここまでは、従来のディープラーニングと同様であるが、本実施形態では、図19(b)~図20に示すようにRNNを更に改良している。
図19(b)は、二次元認識・三次元位置決めのために改良した構成である。、
図20は、三次元認識・三次元位置決めのために改良した構成である。
図21は、機能を分離した三次元認識・三次元位置決めのための構成である。
これらの改良された構成は、基本的には図20が基本形となる。
図22では、全周囲カメラを積載した車両が移動する経路を822~827で示している。この図から明らかなように、車両が移動してどの位置に居ても、車両のカメラは常に対象物830を捉えていることが分かる。
また、移動した位置によって、障害物829があって対象物を捉えていないカメラがあるものとする。
この入力層には、図22に示す822~827までのカメラからの複数画像を受け入れる許容量があるように設定される。
さらに、図19(b)に示す中間層は、第一中間層804と第二中間層805のように、複数の中間層が設置され、求める座標精度によって、その段数が決められる。
出力層806は、二次元認識とすれば、図19(a)に示す従来構成と同様で良いが、3次元認識とすれば、図20に示すように、出力層809は三次元構造となる。
同図においては、CV映像の入力層806は、図19に示す場合と同様とするが、三次元認識と三次元位置決めのために、第二中間層1:808と第二中間層2:810を用意し、同様に出力層1:809と出力層2:811とに機能分離して、認識及び位置決めの精度が向上するようにしている。
以下、三次元認識の三次元位置決定の基本形である図20(三次元認識と三次元位置決め)の構成を参照して説明する。
また、中間層を、第一中間層807,第二中間層808・・・のように多段階に増設して、位置決めに耐え得るための必要な段数とする。
なお、図20では第一中間層807と第二中間層808、図21では第二中間層1:808と第二中間層2:810と、それぞれ二段としてあるが、座標決定のためには更に多段構造にして、6変数を全て求めることができるようにすることも可能である。
以上のようにして、CV映像から、三次元認識と三次元位置決めが、一つのディープラーニングで一括して成されることになり、CV映像の全フレームの一括認識処理が可能となる
次に、認識位置決め装置100における対象物の認識・同定処理として、対象となるCV映像中で移動する移動体の認識処理を行う場合について説明する。
認識位置決め装置100は、上述のように、CV映像内の移動体を認識対象物として着目し、移動体を抽出し、移動体のRV値を取得して、当該対象物の三次元座標又は三次元形状を付加して対象物認識をする、連続フレーム機械学習部30と三次元座標演算対象物座標付加部40での認識・同定処理を目的とした移動体RV値取得部27を備えている(図15参照)。
すなわち、上述したRV値(リージョナルベクトル値)を取得することで、CV映像中の移動体に関しても、静止対象物の場合と全く同様に、対象物認識及び三次元座標を決定することができる。
このようにすることで、静止座標系上の対象物と全く同様に、移動体対象物に対して、本発明に係る認識及び三次元座標決定を同時に行うことができる。
これらの図に示す出力画像は、認識対象物表示部50(図15参照)により、例えば認識位置決め装置100に接続されたディスプレイ上に、三次元座標が付加された対象物を示す所定の映像として出力・表示させることができる。
図23は、CV映像取得部20で生成された連続する複数フレームに亘って映り込んでいる同一の対象物に対して、対象物指定部13によって認識する目的の対象物として「電柱」が指定されている場合を示している。
図25は、CV映像中において認識・同定されて三次元座標が付与され対象物「電柱」の識別情報を、地図上にプロットして表示した場合を示している。
図27は、CV映像上に表示されている特定の対象物「電柱」の視角を移動させて高さの計測結果や傾き・方位角を表示させた場合を示している。
図28及び図29は、それぞれ、CV映像中において認識・同定されて三次元座標が付与された対象物「案内標識」,「交通標識」の位置情報及び属性情報(対象物の種類を含む)をCV映像上に表示した場合を示している。
すなわち、認識位置決め装置100は、機械学習とCV技術を融合することで、認識しながら座標を取得し、座標を取得しながら認識をすることになり、互いに相互作用により、認識の精度を上げながら、三次元座標の精度をあげ、三次元座標の精度を上げながら、対象物認識の確度をあげるという、優れた相乗効果を生み出すことになる。
これによって、対象物の認識はCV技術と融合して、確度の高い対象物認識と同時に、認識対象物の高精度の三次元座標取得が可能となる。
これによって、例えば、道路上を走行する車両に積載したカメラにより、撮影した動画像から、道路周辺の様々な道路設備、標識、車両等の様々な対象物を認識しながら、その三次元座標を取得することが可能となり、自動運転等に必要となる道路データベースなどを、撮影動画から直接的に作成することが可能となる。
また、本実施形態では、CV映像の中の対象物に機械学習を対応させることで、従来の機械学習に対して、対象物の位置と姿勢という情報が追加されることになり、同一対象物を複数方向から認識することになり、機械学習の認識率は格段に向上することになる。
そして、このような本発明の特徴は、対象物が移動する対象物であっても有効であり、移動対象物の位置座標データ,姿勢データ及びその三次元形状データ等も取得できるようになる。
また、上記実施形態では、本発明の対象映像取得部として全周囲カメラを想定して説明しており、確かに全周囲カメラが有利ではあるが、全周囲カメラに限定されるものではなく、例えば広角カメラでも良く、あるいは方向別に分割した複数のカメラによる広範囲カメラであっても、同様に本発明の対象映像取得部として構成することができる。
次に、本発明に係る情報変換装置の実施形態について説明する。
本発明に係る情報変換装置は、上述した認識位置決め装置100に接続される情報処理装置によって構成され、認識位置決め装置100によって認識・三次元座標付加がなされた対象物を含む画像を、PRM技術を用いて再構成画像として生成・出力できるようにするものである。
具体的には、PRM技術は、前もって予想される対象物の形状と属性を部品(オペレータ部品)としてすべて用意しておき、それら部品と現実の実写映像を対比して、一致する部品を選択して対象物を認識する技術である。例えば、走行車輌等に必要となる対象物の「部品」は、道路標示としての車線、白線、黄線、横断道、道路標識としての速度標識、案内標識などであり、これらは定形のものであるので、PRM技術によりその認識は容易に行える。また、対象物をCV映像中に検索する場合においても、その対象物の存在する予想三次元空間を狭い範囲に限定することが可能となり、認識の効率化が可能となる。
なお、PRM認識によって、あらゆる監視対象物(予測される対象物、障害物、不審物等)が認識されるとは限らない。すなわち、記憶となるデータベースに情報が存在しない対象物は認識できない。しかし、これは特に問題となるものではない。人間であっても記憶にないものは認識できないのと同様である。認識とはそのもの、あるいは、そのものに近いものの記憶との対比によって得られるものであるからである。
以下、本発明の情報変換装置の好ましい実施形態について、図面を参照しつつ説明する。
まず、本発明に係る認識位置決め装置を備えた情報変換装置の第一の実施形態について、図30~図33を参照しつつ説明する。
図30は、本発明に係る認識位置決め装置を備えた情報変換装置の第一の実施形態を示す機能ブロック図である。
また、図31及び図32は、図30に示す情報変換装置の詳細構成を示す機能ブロック図である。
これらの図に示す本実施形態に係る情報変換装置は、認識位置決め装置100に接続される一又は二以上のコンピュータ・情報処理装置等によって構成され、図30に示すように、認識位置決め装置100の座標付加認識出力部41(図15参照)からのデータを受信して画像再構成表示装置114に送信するPRM信号送信装置110・PRM信号受信装置111と、同様に座標付加認識出力部41からのデータを画像再構成表示装置114に入力するPRM信号記録装置112・PRM信号再生装置113などを備えて構成される。
そして、画像再構成表示装置114において、認識位置決め装置100において同定されて三次元位置座標が付加された対象物に、ID部品庫に記憶された、当該対象物の種類に対応するIDを対応させ、複数の対象物を含むCV映像を、各対象物に対応するID及びその属性情報によって再構成することができるようになっている。
その後、それらIDが対応付けられた対象物の三次元座標と姿勢(6変数)が付加された認識結果と、もし当該対象物のその他の属性が取得されていれば、その属性を付加させた結果を、それぞれの対象物のIDと、IDに付加された属性により、目的の画像又は映像を複数のIDによって再構成させ、必要があれば再構成結果を表示することができる。
そして、各対象物の三次元座標と姿勢(6変数)が付加されたIDとその属性を再構築することで、元に近いCV映像を生成・表示させることができる。
さらに、そのような再構成画像は、所定の記憶手段を備えた装置において記録させ、また、随時読み出して、画像再構成表示装置114において再生することができる。
再構成画像の再生は、各対象物に付加されたIDと属性から、対応する部品を再構成させることで画像を再生することができる。
図31は、認識位置決め装置100からのデータをPRM信号送信装置/PRM信号受信装置を介して画像再構成表示装置に送信する場合の情報変換装置の機能構成を示している。
図32は、認識位置決め装置100からのデータをPRM信号記録装置/PRM信号再生装置を介して画像再構成表示装置に送信する場合の情報変換装置の機能構成を示している。
そして、認識位置決め装置100で認識された対象物は、情報変換装置においてID化される。
情報変換装置には、ID部品庫となる複数の部品庫202*1~Nを備えた部品庫選択装置201において、複数の部品庫202*1~Nの中からいずれかの部品庫(ここでは部品庫202*N)が選択される。
このID化装置203によって、CV映像の対象物は複数の部品によってID化される。
このとき、対象物は認識された二次元の画像であるが、対応物に対応する部品には三次元形状を持たせることができる。つまり、IDで特定された部品は、属性として三次元形状を持つことができる。
なお、各部品について、追加の属性を必要とする場合には、属性付加装置204を備えることにより、IDの付加情報として付加することができる。
次に、情報変換装置にはPRM信号生成装置205が備えられ、このPRM信号生成装置205において、ID化装置203でID化されたIDと属性と部品庫番号をPRM信号として生成され、そのPRM信号が、画像再構成表示装置114に送られる。
そして、受信されたIDに対応するように、選択された部品庫から必要な部品を収集して、IDに付加された属性情報から、三次元情報に基づいて、複数の部品を三次元に再構成して、再構成画像を生成・表示する。
まず、PRM信号を通信により伝送する場合は、図31に示すように、PRM信号生成装置205では、対象物に対応するIDと属性と部品庫番号を信号として生成し、PRM信号送信装置110から送信させ、それをPRM信号受信装置111で受信させることができる。
受信されたPRM信号は、受信側の画像再構成表示装置114に入力され、PRM信号から読み取られたID及び三次元座標等の属性信号から、受信側部品庫選択装置206から共通の部品庫202*Nが選択され、記録したIDに対応する必要な部品が収集され、IDに付加された情報を付加して部品が再構成され、再構成画像が生成・表示される。
PRM信号再生装置113では、PRM信号から復元したID及び三次元座標等の属性信号から、再生側部品庫選択装置207で、記録されたPRM信号のIDに対応するように、部品庫202*Nから必要な部品が収集され、IDに付加された情報が付加されて部品が再構成され、画像再構成表示装置114においてを再構成画像が表示されるようになる。
同図に示す再構成画像は、道路を撮影したCV映像に基づいて部品化・ID化された部品として、道路を跨ぐように配置された鉄塔と、道路のセンターライン上に配置された街灯を、再構成画像として生成・表示させたものである。
このような情報変換装置によれば、その延長上には、映像中の全ての対象物を認識し、IDを付加することで、動画像を対象物に分解して、伝送又は記録することが可能となり、上述した本願発明者による特許第4582995号の技術が、更に大きく進化して実現されることになる。
最近は通信の広帯域化に向かっているが、一方で災害時や宇宙通信においては、狭帯域通信は重要であり、本発明による通信装置(情報変換装置)は将来的にも非常に重要かつ有益なものとなる。
また、当然ながら、狭帯域通信が実現すれば、同時に超超圧縮記録も可能となり、膨大な映像を通常の記録装置に収納することが可能となる。
次に、本発明に係る認識位置決め装置を備えた情報変換装置の第二の実施形態について、図34を参照しつつ説明する。
図34は、本発明に係る認識位置決め装置を備えた情報変換装置の第二の実施形態を示す機能ブロック図である。
同図に示す本実施形態に係る情報変換装置は、認識位置決め装置300に接続される一又は二以上のコンピュータ・情報処理装置等によって構成される。
本実施形態に係る認識位置決め装置300は、CV映像位置取得部・対象物座標付加部301と、属性付加部302aを有する時間連続情報機械学習部302を備えて構成されている。
なお、図34では、説明の便宜上簡略化して示してあるが、本実施形態の認識位置決め装置300は、図15で示した認識位置決め装置100と、基本的な構成・機能は同様である。
概念部品庫306は、対象物の意味・概念を示す、当該対象物の種類に対応する所定の概念情報を記憶した部品庫として構成される。
意味表示装置307は、認識位置決め装置300において同定されて三次元位置座標が付加された対象物に、概念部品庫306に記憶された、当該対象物の種類に対応する概念情報を対応させて、複数の対象物を含むCV映像を、各対象物に対応する概念情報によって再構成する再構成手段として機能する。
そして、各対象物を、所定の概念を集めた概念部品庫の中の概念に対応させて、それぞれの幾つかの対象物(概念・意味)のIDの組み合わせから、特定の概念を生成し、目的の画像内の概念を、複数のIDが付加された対象物(概念・意味)によって再構成させる。
対象物に分割され再構成された画像は、対象物の個々の意味の集まりとして表示される。
その個々の意味を持つIDの組み合わせ方で、新しい意味が生成される。
例えば、車両や車両の形状や、道路やなどから、「交通事故」という意味が生まれる。このように交通事故等の災害、状況の意味を「概念」として認識して、その概念を、送信し、受信し、記録し、再生することができる。
上述した本願発明者による特許第4582995号の技術によれば、画像認識によりID化され、対象物の種類に対応する複数のIDの分布から概念を作り出し、そのID信号を伝送することができる。本実施形態の情報変換装置においても、IDの組み合わせで、新たな概念を生み出し、その概念を新たな概念として、送信し、受信し、記録し、再生し、再構成して表示することができる。
また、IDを破棄して、概念部品庫306によって、AI意味生成装置305で対象物の種類に対応する概念を生成し、それを再構成し表示しても良い。
さらには、この本実施形態の方式で、画像を記録し、再生することで、画像の超超圧縮が可能となる。
この本実施形態の方式は、画像を個々の対象物に部品化してた後、その概念にまで情報を変換することを意味している。
このような画像や他の情報系による概念の把握は、今後人工知能には必須の機能となる。
この点について、以下に示す第三実施形態において更に説明する。
本発明に係る認識位置決め装置を備えた情報変換装置の第三の実施形態について、図35~図37を参照しつつ説明する。
本実施形態は、上述した第二実施形態の方式を更に改良・発展させたものであり、第二実施形態において認識・再構成の対象としていたCV映像のみならず、対象を他の情報系に拡張するものである。
すなわち、本実施形態の情報変換装置は、CV映像のみならず、対象を他の情報系に拡張した、広範な情報系内の目的の範囲内の大部分を複数の対象物(物とは限らない個別の対象)に分解し、その対象物の認識結果と、その対象物の位置と姿勢の取得結果を、それぞれの認識対象物にIDを対応させるものである。
これにより、目的の情報系内は、複数のIDを付加された対象物から構成されたことになり、さらに必要があればそれぞれのIDに必要な属性が付加され、その付加されたIDのみを伝送し、受信側に用意された、IDに省略化された概念のみが対応した概念部品庫の中から、IDによって選択された部品を再生させるものである。生成・再生された概念は、所定の装置において表示し、通信し、記録し、再構成により再生表示されるようになる。
この拡張情報系認識位置決め装置400は、上述した認識位置決め装置100と同様に、拡張情報系位置取得部420で、画像内の大部分の対象物に認識と三次元化を施すことができる。これにより、映像は複数の対象物の三次元配置として取得される。
認識された対象物は、第一/第二実施形態の場合と同様にID化される。
そのために、拡張情報系認識位置決め装置400は、時間連続情報機械学習部430において部品庫430aが選択され、その部品庫に沿ってIDが決定される。
IDの決定は、位置演算対象物位置付加部440のID化部440aにより実行され、拡張情報系の複数の部品によってID化される。
続いて、図36に示すように、属性を必要とするときには、時間連続情報機械学習部430の属性付加部430bにより、IDの付加情報として付加し、拡張情報系再構成表示装置450で再構成され、表示される。
まず、通信の場合は、PRM信号生成装置205では、IDと属性と部品庫番号を信号として生成し、そのPRM信号がPRM信号送信装置110を介して送信され、PRM信号受信装置111で受信されて、拡張情報系再構成表示装置450に入力される。
拡張情報系再構成表示装置450で読み取られたID及び三次元座標等の属性信号に基づいて、受信側部品庫として備えられる部品庫202から、読み取られたIDに対応する必要な部品が収集され、IDに付加された情報が付加されて、部品が再構成される。
これによって、拡張情報系の再構成画像が生成・出力される。
その後、PRM信号再生装置113で読み取られたID及び三次元座標等の属性信号に基づいて、拡張情報系再構成表示装置450において、読み取られたIDに対応する必要な部品が部品庫202から収集され、IDに付加された情報が付加されて、部品が再構成され、拡張情報系の再構成画像が生成・出力される。
例えば、映像はしばしば音声と共に利用されるから、対象物の種類に対応する識別情報(ID)や概念情報に基づいて、映像と音声はそれぞれの機械認識によって、対象物に分解され、拡張情報系位置取得部420によって位置情報が与えられ、時間連続情報機械学習部430で機械学習が行われる。
また、時間連続情報機械学習部430と位置演算対象物位置付加部440との間で相互信号が繰り返しやり取りされることで、拡張情報系のそれぞれの部品庫407aから複数のIDに基づく複数の部品が認識・抽出されて、全体像が構成される。
機械学習による認識と位置の決定は、同時に処理されることが適切で、そのために、上述した認識位置決め装置100と同様に、時間連続情報機械学習部430と位置演算対象物位置付加部440との間では相互信号が繰り返し頻繁にやり取りされる。
認識された対象物は、ID化部440aによってID化され、ID化された信号が拡張情報系再構成表示装置450で再構成されて、元の全体の概念像が再構成されて出力・表示される。
映像以外の情報系とは、例えば文書のような文字の分布の情報系や、音楽のような音の分布の情報系、匂いの分布の情報系等がある。
上述のとおり、CV映像は6変数であったが、それぞれの情報系は、それぞれ異なる座標系を持つ。
このように、本実施形態では、情報系を一般化して扱うことができるため、「装置」や「部」の名称・符号を、図15に示した認識位置決め装置100と異ならせているが、基本的な構成・機能は認識位置決め装置100は同様である。
概念とは、例えば文化によって異なるものであるから、異国文化の翻訳などに使われることでその力を発揮する。
また、全ての情報系においては、情報は時間軸上に分布して存在しているが、画像などの時間の一断面の情報もこの情報系の処理に当然含まれるものとする。
上述した認識位置決め装置100では、主に映像情報系にたいして詳細に説明したが、本実施形態においては、映像以外の他の情報系にまで拡張された、拡張情報系にまで適応が可能となるため、PRM技術はより生活に密着したものとなる。
ID部品庫は、画像処理側と表示側、送信側と受信側、記録側と再生側で同一の部品庫が必要であるが、敢えて、IDが意味のある対応が成されていれば、異なる部品庫でも有効である。
概念のID部品庫であれば、人間と宇宙人との通信、人間と動物との通信、文化の異なる人間間の通信などの概念の変換通信や、映像と音との変換など、他の情報系に変換して、視覚障害者、聴覚障害者に新たなツールを提供できることになる。
同図に示す拡張情報系再構成表示装置603では、例えば、対象物に分割され、再構成された拡張情報系は、画像のみならず、他の情報系の予想となる対象物から再構成されて表示されることになる。
そこでは、対象物の個々の意味の集まりとして表示される。
例えば、車両や車両の形状や、道路や、臭いや、気体の成分、温度、クラッシュの音、クラクションの音などから、交通事故という意味が生まれる。
このようにして、交通事故等の災害、状況の意味、等の再構成部品から、意味表示装置307(図34参照)により、新しい概念を生成して、その概念を送信し、受信し、記録し、再生することができる。
図34においては、映像だけを対象として、CV映像再構成表示装置304の出力をAI意味生成装置305で処理し、IDの組み合わせにより、新しい意味を生み出し、それを意味表示装置307で表示させているが、本実施形態によれば、CV映像以外の拡張した情報系においても、新しい概念の発生を行うことが可能となる。
[実施例1]
実施例1では、本発明の認識位置決め装置を、道路データベース自動作成装置として実施して、座標認識同時処理を行う場合について説明する。
図15を参照しつつ、認識位置決め装置の実施例を示す。
図15に示すように、車載した全周囲カメラ部10による映像出力と、高精度GNSS部12の出力を、CV映像取得部20に送り、CV映像を取得する。
車載装置からはCV映像が出力され、対象物を含む目的の範囲のCV映像取得部20は、連続フレーム機械学習部30と連結されている。
ここまでで機械学習と三次元座標取得の準備が完了し、対象物のデータは連続フレーム機械学習部30で対象物認識されると同時に、三次元座標演算対象物座標付加部40との間で相互信号のやり取りが繰り返され、三次元座標演算対象物座標付加部40で、対象物の認識と同時に、三次元座標、及び姿勢、又は 3 次元形状等が取得される。
また、対象物の絶対座標を取得するには、GNSS等の高精度の衛星測位システムを用いて、CV値を絶対座標で校正し、CV値を絶対座標系に変換することで得られる。
対象物認識と座標取得がなされた出力信号は、座標付加認識出力部41から出力される。
これは一見映像ではあるが、CV映像であることから、いわゆる二次元の地図や三次元CGに変換する必要はなく、画像の中の任意の点は三次元座標を持つことから、正確には、任意の特徴点、任意の特徴領域は、三次元座標を瞬時に取得できるから、そのまま三次元地図として使用できるのが特徴である。
しかも、この三次元地図には、自動認識した全ての対象物を如何様にも表示可能であり、また自動的に読み出し可能であるから、自動作成・自動読み取りのデータベースができあがる。
車両の自動運転の三次元地図として有効であると同時に、一般の二次元の地図に代わって、産業の全ての分野で利用が可能であり、更新が自動化されて、簡単であることから、未来の地図としても十分に応えられる。
また、対象物指定部13において、対象物を移動体に指定した場合には、移動体RV値取得部27と連続フレーム機械学習部30が結合・連携される。
これによって、移動体の機械学習の準備ができ、RV値が連続フレーム機械学習部30に送られ、移動体の認識と三次元座標の取得が同時に行われる。
なお、移動体の認識と三次元座標の取得は、必ずしも同時で無くても、別々でも良いが、一般には同時に行うことにメリットが多い。
対象物認識と座標取得がなされた出力信号は、座標付加認識出力部41から出力される。
この出力信号を認識対象物表示部50に入力すれば、移動体の対象物は認識され、その移動体の移動方向、回転方向等と共に表示され、元の画像に対応して表示される。
実施例2では、図30~図32を参照しつつ、認識位置決め装置を使った情報変換装置(情報変換システム)となるPRM記録再生装置の実施例を示す。
図30に示すように、認識位置決め装置100で取得された対象物認識と対象物三次元座標が座標付加認識出力部41から出力される。
この信号が、PRM信号送信装置110から送信され、PRM信号受信装置111で受信され、再構成画像として再生されることになる。
詳細を図31で示す。認識位置決め装置100で認識された対象物は、名称が分かっただけではなく、部品庫202は部品庫202*1~202*Nまで有り、部品庫選択装置201で選択されて、認識された対象物は対応する部品と対応づけられる。
このとき、同時にIDが振られ、対象物はIDを取得したことになる。
さらに、対象物に付加すべき属性があれば、IDには属性が付加される。ここでは、対象物の三次元座標と姿勢を属性として扱うものとする。
つまり、IDと属性信号がPRM信号生成装置205で、PRM信号として生成されることになる。
このPRM信号は、PRM信号送信装置110に送られ、送信される。
そして、送信されたPRM信号は、PRM信号受信装置111により、IDと属性が受信され、画像再構成表示装置114で、IDはそれに対応する部品に戻され、属性の座標と姿勢から、3次元的に再構成されて表示される。
元のCV映像は、連続する画像の集合であったが、最終的に表示される再構成された画像は三次元表示となる。
なお、部品庫202は、受信側と同じ部品庫202を用いるものとしたが、必ずしも全く同じものでなくても良い。
例えば、プリウス(登録商標)というトヨタの乗用車は黒色であったとしても、IDに対応する部品は、車種や色まで含む場合もあるし、ただの自動車で有る場合もある。したがって、必要に応じて、乗用車の部品で事は足りることもあり、再構成された画像は、一般の乗用車でも良いし、正確に車種や年式(黒のプリウス:2018年製)に対応する画像であってもよい。
このような概念の通信がPRM通信であり、PRM圧縮である。
勿論、IDを詳細化すれば、実際の画像そのものを再生させることは十分に可能である。そして、この技術の先には、例えば100年分の動画像をコンパクトに記録することも可能となる技術がある。
ここで、重要なことは、再生された画像は元画像そのものでなくても良いとすることである。
再生された画像は、ID化されるときに、その概念を変換しているのであり、全く同じ形状の対象物でなくても良いとすることである。同じ形状等とすることも勿論可能である。
実施例3では、図37を参照しつつ、認識位置決め装置を使った情報変換装置(情報変換システム)として、映像を含む一般の情報系に拡張した拡張情報系変換装置の実施例を示す。
例えば音声,臭い,気温分布,文章の単語分布,電波の周波数分布,地域の放射線分布等の、拡張した情報系において、概念のIDによって分類された概念ID部品庫を備えることで、CV映像のみならず、他の情報系を併用して、その広範な情報系内の目的の範囲内の大部分を複数の対象物に分解し、その対象物の認識結果と、その対象物の三次元位置座標と3軸回転姿勢の取得結果を、それぞれの認識対象物にIDを対応させることで、目的の情報系内は複数のIDが付加された対象物から構成されたことになる。
そのための概念部品庫602が備えられ、複数のIDは、新しい意味を生み出し、その意味を概念IDに対応させる。
生み出された概念は、拡張情報系再構成表示装置603で、我々にわかる概念として表示される。それは、例えば記号であるかも知れないし、音かも知れないし、臭いかも知れない。
13 対象物指定部
20 CV映像取得部(CV演算手段)
30 連続フレーム機械学習部
31 認識領域指定部
40 三次元座標演算対象物座標付加部
41 座標付加認識出力部
50 認識対象物表示部
100 認識位置決め装置
Claims (7)
- 対象をカメラで撮影して対象映像を取得する際のカメラの静止座標系における三次元位置座標と3軸回転姿勢の値を示すCV(カメラベクトル)値を求めるCV演算を行い、前記対象映像に前記CV値を付加したCV映像を生成するCV映像取得部と、
前記CV映像の連続する複数フレームに亘って映り込んでいる同一の対象物に対して、認識する目的の対象物を指定する入力操作が行われた場合に、当該対象物の指定を受け付ける対象物指定部と、
前記CV映像に映り込んでいる各対象物の前記静止座標系における三次元位置座標が付加された前記対象物のデータを教師データをとして機械学習することによって、学習モデルを生成する処理と、前記対象物指定部で指定された対象物について、生成された当該学習モデルを用いて、当該CV映像に映り込んでいる各対象物を同一の対象物として認識する処理と、からなる認識処理を、前記CV映像の複数フレームに亘って繰り返し実行する連続フレーム機械学習部と、
前記連続フレーム機械学習部で認識された対象物を、前記CV映像の複数フレームで同一の対象物として対応させ、当該CV映像に映り込んでいる各対象物の前記静止座標系における三次元位置座標を前記CV値に基づいて取得し、前記三次元位置座標が一致する対象物を各フレームで確認することで同定して、当該対象物に、一致する前記三次元位置座標を付加する三次元座標演算対象物座標付加部と、
前記連続フレーム機械学習部で認識された前記対象物のデータを前記三次元座標演算対象物座標付加部に引き渡し、前記三次元座標演算対象物座標付加部で前記三次元位置座標が付加された前記対象物のデータを前記連続フレーム機械学習部に引き渡すことにより、前記連続フレーム機械学習部と前記三次元座標演算対象物座標付加部との間で、前記対象物の認識と三次元位置座標の付加を、前記CV映像の複数フレームに亘って繰り返すことにより、当該対象物について最終的な三次元位置座標を付加して出力する座標付加認識出力部と、を備える
ことを特徴とする認識位置決め装置。 - 前記CV映像の連続する複数フレームの1フレームのみで前記認識処理を実行し、前記対象物指定部で指定された目的となる対象物を含む周辺領域の前記静止座標系における三次元位置座標を示す領域座標を取得して、その領域座標の範囲を当該対象物が存在する認識処理の実行範囲となる認識領域として指定する認識領域指定部を備え、
前記連続フレーム機械学習部が、
前記認識領域指定部で指定された前記認識領域を、前記対象物が存在する隣接する複数のフレームに亘って割り当てて、当該認識領域において前記対象物の認識処理を繰り返し実行し、
前記三次元座標演算対象物座標付加部が、
前記認識領域において座標が一致する対象物を各フレームで確認することで同定して、当該対象物に前記三次元位置座標を付加する
ことを特徴とする請求項1に記載の認識位置決め装置。 - 前記連続フレーム機械学習部が、
前記対象物が映り込んでいる可能性のある前記CV映像の全フレームについて、同一の対象物についての複数の方向と複数の距離の異なる情報を、一括処理の対象となる塊として、前記連続フレーム機械学習部による前記対象物の認識処理を一括して実行する
ことを特徴とする請求項1又は2に記載の認識位置決め装置。 - 前記CV映像内で移動する移動体について、前記カメラに対する前記移動体の三次元位置座標と3軸回転軸の値を示すRV(リージョナルベクトル)値を求めるRV演算を行う移動体RV値取得部を備え、
前記連続フレーム機械学習部が、
前記CV映像内の移動体を前記認識処理の対象物として抽出し、
前記三次元座標演算対象物座標付加部が、
前記移動体の前記RV値に基づいて、前記移動体を同定して前記三次元位置座標を付加する
ことを特徴とする請求項1~3のいずれか一項に記載の認識位置決め装置。 - 請求項1~4に記載の認識位置決め装置に接続される情報変換装置であって、
前記対象物の種類に対応する識別情報となるID及び当該IDによって分類された前記対象物の属性情報を記憶したID部品庫と、
前記認識位置決め装置において同定されて前記三次元位置座標が付加された対象物に、前記ID部品庫に記憶された、当該対象物の種類に対応する前記IDを対応させ、複数の対象物を含む前記CV映像を、各対象物の種類に対応する前記ID及びその属性情報によって再構成する画像再構成表示装置と、を備えた、
ことを特徴とする情報変換装置。 - 前記CV映像に含まれる前記対象物を、前記ID部品庫に記憶された、当該対象物の種類に対応する前記ID及びその属性情報によって、識別情報にID化するID化装置を備え、
前記ID化装置によって前記対象物がID化された前記CV映像を送信又は記録する
ことを特徴とする請求項5に記載の情報変換装置。 - 前記対象物の種類に対応する意味・概念を示す概念情報を記憶した概念部品庫と、
前記認識位置決め装置において同定されて前記三次元位置座標が付加された対象物に、前記概念部品庫に記憶された、当該対象物の種類に対応する前記概念情報を対応させ、複数の対象物を含む前記CV映像を、各対象物の種類に対応する前記概念情報によって再構成する意味表示装置と、を備えた、
ことを特徴とする請求項5又は6に記載の情報変換装置。
Priority Applications (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019096946A JP7266208B2 (ja) | 2019-05-23 | 2019-05-23 | 認識位置決め装置及び情報変換装置 |
US17/611,350 US20220230458A1 (en) | 2019-05-23 | 2020-04-22 | Recognition and positioning device and information conversion device |
PCT/JP2020/017322 WO2020235286A1 (ja) | 2019-05-23 | 2020-04-22 | 認識位置決め装置及び情報変換装置 |
EP20809450.8A EP3974766A4 (en) | 2019-05-23 | 2020-04-22 | RECOGNITION AND POSITIONING DEVICE AND INFORMATION CONVERSION DEVICE |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019096946A JP7266208B2 (ja) | 2019-05-23 | 2019-05-23 | 認識位置決め装置及び情報変換装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2020191003A JP2020191003A (ja) | 2020-11-26 |
JP7266208B2 true JP7266208B2 (ja) | 2023-04-28 |
Family
ID=73453792
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019096946A Active JP7266208B2 (ja) | 2019-05-23 | 2019-05-23 | 認識位置決め装置及び情報変換装置 |
Country Status (4)
Country | Link |
---|---|
US (1) | US20220230458A1 (ja) |
EP (1) | EP3974766A4 (ja) |
JP (1) | JP7266208B2 (ja) |
WO (1) | WO2020235286A1 (ja) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20220245829A1 (en) * | 2019-05-27 | 2022-08-04 | Nippon Telegraph And Telephone Corporation | Movement status learning apparatus, movement status recognition apparatus, model learning method, movement status recognition method and program |
WO2021059747A1 (ja) * | 2019-09-26 | 2021-04-01 | パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ | 情報処理方法、プログラム及び情報処理装置 |
CN112669335A (zh) * | 2021-01-27 | 2021-04-16 | 东软睿驰汽车技术(沈阳)有限公司 | 车辆感知方法、装置、电子设备以及机器可读存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2002001505A1 (fr) | 2000-06-26 | 2002-01-03 | Iwane Laboratories, Ltd. | Systeme de conversion d'informations |
JP2007316839A (ja) | 2006-05-24 | 2007-12-06 | Kazuo Iwane | Cv映像によるcvタグ入出力検索装置 |
JP2008304268A (ja) | 2007-06-06 | 2008-12-18 | Sony Corp | 情報処理装置、および情報処理方法、並びにコンピュータ・プログラム |
JP2012118666A (ja) | 2010-11-30 | 2012-06-21 | Iwane Laboratories Ltd | 三次元地図自動生成装置 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4146027B2 (ja) | 1999-04-05 | 2008-09-03 | 株式会社岩根研究所 | 情報変換システム |
JP4502795B2 (ja) | 2004-12-16 | 2010-07-14 | 株式会社岩根研究所 | 座標系分離記録再生装置 |
JP4767578B2 (ja) | 2005-02-14 | 2011-09-07 | 株式会社岩根研究所 | 高精度cv演算装置と、この高精度cv演算装置を備えたcv方式三次元地図生成装置及びcv方式航法装置 |
JP6330092B1 (ja) | 2017-08-02 | 2018-05-23 | 株式会社ディジタルメディアプロフェッショナル | 機械学習用教師データ生成装置及び生成方法 |
-
2019
- 2019-05-23 JP JP2019096946A patent/JP7266208B2/ja active Active
-
2020
- 2020-04-22 US US17/611,350 patent/US20220230458A1/en active Pending
- 2020-04-22 WO PCT/JP2020/017322 patent/WO2020235286A1/ja unknown
- 2020-04-22 EP EP20809450.8A patent/EP3974766A4/en active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2002001505A1 (fr) | 2000-06-26 | 2002-01-03 | Iwane Laboratories, Ltd. | Systeme de conversion d'informations |
JP2007316839A (ja) | 2006-05-24 | 2007-12-06 | Kazuo Iwane | Cv映像によるcvタグ入出力検索装置 |
JP2008304268A (ja) | 2007-06-06 | 2008-12-18 | Sony Corp | 情報処理装置、および情報処理方法、並びにコンピュータ・プログラム |
JP2012118666A (ja) | 2010-11-30 | 2012-06-21 | Iwane Laboratories Ltd | 三次元地図自動生成装置 |
Also Published As
Publication number | Publication date |
---|---|
WO2020235286A1 (ja) | 2020-11-26 |
EP3974766A4 (en) | 2023-07-05 |
US20220230458A1 (en) | 2022-07-21 |
EP3974766A1 (en) | 2022-03-30 |
JP2020191003A (ja) | 2020-11-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Martin-Martin et al. | Jrdb: A dataset and benchmark of egocentric robot visual perception of humans in built environments | |
EP3629057B1 (en) | Method and apparatus for calibrating relative pose and medium | |
JP4273119B2 (ja) | ナビゲーション装置 | |
JP5227065B2 (ja) | 三次元機械地図、三次元機械地図生成装置、ナビゲーション装置及び自動運転装置 | |
JP7266208B2 (ja) | 認識位置決め装置及び情報変換装置 | |
US7860301B2 (en) | 3D imaging system | |
US20070070069A1 (en) | System and method for enhanced situation awareness and visualization of environments | |
CN109116374A (zh) | 确定障碍物距离的方法、装置、设备及存储介质 | |
JP7224682B1 (ja) | 自律走行のための3次元多重客体検出装置及び方法 | |
Li et al. | A visual-inertial localization method for unmanned aerial vehicle in underground tunnel dynamic environments | |
JP4624000B2 (ja) | 複合人工知能装置 | |
Hanlon et al. | Active visual localization for multi-agent collaboration: A data-driven approach | |
Yue et al. | LiDAR-based SLAM for robotic mapping: state of the art and new frontiers | |
Azri et al. | Visual analytics of 3D LiDAR point clouds in robotics operating systems | |
JP2697917B2 (ja) | 三次元座標計測装置 | |
Pogorzelski et al. | Vision Based Navigation Securing the UAV Mission Reliability | |
Munoz-Silva et al. | A Survey on Point Cloud Generation for 3D Scene Reconstruction | |
CN111881899A (zh) | 机器人的定位部署方法、装置、设备及存储介质 | |
Dion et al. | ROS Based Adjustable Resolution Compact 3D Scanner | |
Skulimowski et al. | Verification of visual odometry algorithms with an OpenGL-based software tool | |
Zhou et al. | Semantic Mapping and Autonomous Navigation for Agile Production System | |
Aryal et al. | Detection, classification, and tracking of objects for autonomous vehicles | |
Mladenov et al. | RESCUER technology for mobile robot localization | |
CN114167871A (zh) | 一种障碍物检测方法、装置、电子设备和存储介质 | |
Nagavarapu et al. | A Dynamic Object Removal and Reconstruction Algorithm for Point Clouds |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220218 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230110 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230309 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230404 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20230406 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7266208 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313114 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |