JP7122721B2 - 物体検出システム、物体検出方法及び物体検出プログラム - Google Patents
物体検出システム、物体検出方法及び物体検出プログラム Download PDFInfo
- Publication number
- JP7122721B2 JP7122721B2 JP2020096497A JP2020096497A JP7122721B2 JP 7122721 B2 JP7122721 B2 JP 7122721B2 JP 2020096497 A JP2020096497 A JP 2020096497A JP 2020096497 A JP2020096497 A JP 2020096497A JP 7122721 B2 JP7122721 B2 JP 7122721B2
- Authority
- JP
- Japan
- Prior art keywords
- bird
- eye view
- view data
- slice
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Image Analysis (AREA)
Description
オートエンコーダは、好ましくは、一つのシーンに関して各深度スライス毎に水平位置を示す一連の特徴ベクトルと、深度位置を表わす各深度スライスとを結合することにより、俯瞰データとしてのテンソルを形成する。
畳み込みニューラルネットワークは、好ましくは、入力層,少なくとも一つの中間層及び出力層から成る多層ニューラルネットワークであって、学習の際に、入力層に入力された各スライス画像を、いずれかの中間層で低次元中間データに変換した後、出力層でスライス画像と同じ次元の再構築データにデコードして、再構築データがスライス画像における物体を再現し得るようにディープラーニングにより学習し、学習後は、中間層から中間データを俯瞰データとして解析手段に出力する。
俯瞰データ生成手段は、好ましくは、各スライス画像をさらに水平方向にスライスしてスライスピースを生成し、このスライスピースを低次元化して俯瞰データを生成する。
俯瞰データは、好ましくは、各スライス画像またはスライスピースをそれぞれベクトルとして、ノンスパース特徴空間にマッピングした特徴ベクトルを含むデータである。
図1は本発明による物体検出システム10の一実施形態の構成ブロック図、図2(A)は撮像画面、図2(B)は三次元画像31、図2(C)は深度スライス31aをそれぞれ示し、図3は図1の物体検出システム10における三次元画像生成手段30を構成するオートエンコーダ70の動作原理を示す概略図である。
図1において、物体検出システム10は、撮像手段20と、三次元画像生成手段30と、俯瞰データ生成手段40と、解析手段50と、これらの撮像手段20、三次元画像生成手段30、俯瞰データ生成手段40及び解析手段50をプログラムにより制御する制御部60と、から構成されている。
そして、三次元画像生成手段30は、上述した二次元の撮像画面とポイントクラウドを融合するために画像の色強度を対応するポイントに投影することにより、シーン(一つのカメラ画像が表わす場面)内で対応する色でポイントクラウドの各点を「ペイント」するというアルゴリズムで、三次元画像31を生成する。三次元画像生成手段30は、入力として、単眼カメラのカラー撮像画面と、この撮像画面における各点の距離情報(ポイントクラウド)が必要である。
ここで、三次元画像31は、図2(B)に示すように水平方向H,垂直方向V及び深度方向Dに延びている。さらに、撮像手段20が三次元ライダーの場合には、例えば非特許文献3で報告されている公知の方法で三次元画像31を取得してもよい。例えば、画素数(800×600)の二次元の白黒画像と三次元ライダーで取得される深度情報とを組み合わせて、後述する深度方向にスライスされた三次元画像31を取得することができる。
オートエンコーダ70は、多数のサンプルデータに関して、入力層71に入力される入力データと出力層75から出力される再構築データとを比較することより、再構築データが入力データと同じ特徴を有するように、ディープラーニングにより学習される。具体的には、入力データをIとすると、中間層72では、関数f(I)=hにより四次元空間にマッピングされ、中間層73では、関数g(h)=eにより二次元空間にマッピングされ、このeが二次元のデータとなる。これに対して、中間層74及び出力層75では、それぞれ関数j及びkにより四次元空間,六次元空間にマッピングされて、出力層75では六次元の再構築データIrが出力される。これらのマッピングはいずれも非線形である。上述した各関数f,g,j,kは、未知の関数であり、多数のサンプルデータを入力層71に入力し、入力データIと再構築データIrの差(I-Ir)2を最小化することにより、所謂ディープラーニングにより学習することにより、各関数f~kを決定する。
このようにディープラーニングによる学習が行なわれた後、実際の動作時には、オートエンコーダ42は、図4(B)に示すようにエンコーダ部分42aのみを利用して、前述した一つの深度スライス31aに関する80個のスライスピース31bをエンコードして、低次元化した俯瞰データ41を生成する。各スライスピース31bは、それぞれオートエンコーダ42により低次元にエンコードされて、物体の存在を表わす特徴ベクトルとして低次元の疎ではない特徴空間(以下、ノンスパース特徴空間と呼ぶ)にマッピングされる。その際、各スライドピース31bは、水平方向に分割されていることにより、ノンスパース特徴空間にマッピングされる際に水平方向に関して空間情報が保持され、一連の特徴ベクトルにより高精度で元の撮像画面における物体の存在が表わされる。
このようにして、オートエンコーダ42により、一つのシーンに関して各深度スライス31a毎に一連の特徴ベクトルから成る俯瞰データ41が生成される。この俯瞰データ41は、各深度スライス31aが深度位置を表わし、各特徴ベクトルが水平位置を表わしており、これら一連の特徴ベクトルを結合することにより、俯瞰データ41としてのテンソルが形成される。
即ち、ステップST1にて撮像手段20として単眼カメラにより撮像が行なわれ、ステップST2にて単眼カメラのための深度評価が行なわれ、ステップST3で示すようにモノクロ画像の色強度が得られると共に、ステップST4にて深度が得られる。なお、撮像手段20がステレオカメラの場合には、ステップST1aにてカラー撮像が行なわれると共に、ステップST2aにて深度評価が行なわれ、また撮像手段20がLIDARの場合には、ステップST1bにて撮像が行なわれる。
次に、ステップST8にて、各深度スライス31aをそれぞれ水平方向を表わす所定の幅にスライスし、ステップST9にてスライスピース31bが得られる。その後、ステップST10にて、各スライスピース31bをオートエンコーダに入力して非線形エンコードを行ない低次元化する。これにより、ステップST11にて特徴ベクトルが得られる。そして、ステップST12にて、特徴ベクトルを深度と連結して、水平方向を表わす二次元マトリックスを形成する。これにより、ステップST13にて特徴マトリックスが得られる。最後に、ステップST14にて、特徴マトリックスをニューラルネットワークに入力して各特徴マトリックスをクラス分けする。これにより、ステップST15にて各水平方向に関してクラス分けされた各クラスが、物体が存在する深度を示す深度レベルに対応することになる。
先ずステップST21にて、二次元のスライスピース31bが、オートエンコーダ42におけるニューラルネットワークの第一層に入力されると、ステップST22にて非線形エンコードによって隠れ層特徴データ1となり、続いてステップST23にて第二層に入力されて、ステップST24にて非線形エンコードによって隠れ層特徴データ2となり、同様に順次非線形エンコードされて、ステップST26にてニューラルネットワークの第n層に入力されると、ステップST27にてエンコードされた特徴ベクトルとなる。
そして、図7に示すように多数のサンプルデータを繰り返し入力して、ディープラーニングにより入力データであるスライスピース31bと再構築データである再構築された二次元スライスピースの誤差が最小となるようにオートエンコーダが学習される。ここで、ステップST27における特徴ベクトルが、オートエンコーダの動作時には、ステップST32で示すように解析手段50で解析処理されて、物体の検出が行なわれる。なお、このようなオートエンコーダのディープラーニングによる学習は、例えば数1000以上のサンプルデータを使用して行なわれる。
一つの三次元画像31に関して複数個の深度スライス31aが生成され、各深度スライス31a(画素数960×1280)は、図9(A)に示すように水平方向に関して複数個のスライスピース31b(画素数960×16)に分割される。上記スライスピース31bが、それぞれエンコードされることにより、図9(B)に示すように、スライスピース31bと同数の特徴ベクトルが得られる。そして、三次元画像31によるすべての深度スライス31aがエンコードされると、図9(C)に示すように、各深度スライス31a毎に一組80個の特徴ベクトルが得られる。最後に、各深度スライス31aから、各水平位置に対応する特徴ベクトルを取り出してこれらを結合することにより、図9(D)に示すように、一連の特徴ベクトルから成るテンソルが得られる。
図10(A)の左端に示すように、上記マトリックスは、水平方向Hに並んだ(一組のスライスピース31bに対応する)特徴ベクトルが各深度スライス31a毎に深度方向Dに沿って整列している。そして、解析手段50は、この行列を構成する各ベクトルのうち、図10(B)に示すように各水平位置で深度方向Dに整列する特徴ベクトルを取り出して、図10(C)に示すようにこれらを結合することにより、図10(D)に示すように一連の特徴ベクトルから成るテンソルを生成する。
図11において、撮像画面の画素数を幅w=24,高さh=370で、最小高さhmin=140とすると、ニューラルネットワークの第一層は、24×370×3の入力画像を、各画素位置(ストライド1)にて大きさ11×5×3の64個のフィルタで畳み込む。第二層は、大きさ5×3×64の200個のカーネルを使用する。最大プーリング層は、第一層に対して大きさ8×4の、そして第二層に対して大きさ4×3の分離領域を超えて最大値を計算する。即ち、プーリング領域間のオーバーラップがない。完全に連結された隠れ層(第三層及び第四層)は、大きさ1024及び2048のニューロンを有しており、出力層(第五層)は50のニューロンを有する。
撮像手段:ステレオカメラ(ZMP株式会社製、型番:Robovision 2)
制御部:
CPU:Intel(登録商標)社製、型番:Core(登録商標)i7-8700
RAM(ランダムアクセスメモリ):32GB
記憶装置:1TB
GPU:NVIDIA(登録商標)社製、型番:GeForce(登録商標) RTX2070、
RAM:8GB
この検出結果は、x軸が水平位置を、y軸が深度を表わしており、物体が検出されない場合には黒地のままであるが、物体、この場合には二人の作業員A,Bが検出されると、その水平方向にて最も近い距離から遠い部分がやや白い表示となって物体が存在することがわかる。図13(B)において、二人の作業員A,Bがそれぞれ明確に検出され、それぞれ距離に応じて深度が位置決めされていることが確認できる。
図14(A)に示すように、撮像画面21aには道路走行中の車両から前方を撮像した画像が写っており、前方車両Cと左端の歩道Dと右側の道路境界柵Eが見えている。ステレオカメラによるカラーの撮像信号21の入力ピクセル数は1280×960であるが、プログラムにより640×480へダウンスケールした。撮像のフレーム数(frames per second)は、12.5fpsとした。 この撮像画面21aについて、本物体検出システム10により物体検出を行なったところ、図14(B)に示す検出結果が得られた。図14(B)に示す再構築された二次元スライスピース(図6のステップST31参照)のピクセル数は80×60であり、図14(B)の出力画像を得るための演算時間は8msであった。
図14(B)において、前方の車両Cと、左端の歩道D及び道路境界柵Eがそれぞれ検出されていることがわかる。この場合、走行中の車両から12.5fpsで撮像した撮像画面21aにより、物体検出における評価指数であるIntersection over Union(IoU精度と呼ぶ)として、88%程度の良好なIoU精度が得られた。なお、物体までの実際の距離と位置を確認するためには、図8(B)に示すように、三次元空間への簡単な投影が必要となる。
21a:撮像画面、 30:三次元画像生成手段、 31:三次元画像、 31a:深度スライス、 31b:スライスピース、 40:俯瞰データ生成手段、 41:俯瞰データ、 42:オートエンコーダ、 42a:エンコーダ部分、
42b:デコーダ部分、 50:解析手段、 60:制御部、 70:オートエンコーダ、 71:入力層、 72~74:中間層、 75:出力層
Claims (8)
- 撮像手段と、前記撮像手段で取得された撮像データに基づいて三次元画像を生成する画像生成手段と、前記画像生成手段で生成された前記三次元画像に基づいて俯瞰処理により俯瞰データを生成する俯瞰データ生成手段と、前記俯瞰データに基づいて物体を検出する解析手段と、を含んでおり、
前記俯瞰データ生成手段が、前記三次元画像の深さ方向に関して複数箇所の断面をスライス画像として取り出して、各スライス画像を低次元化して俯瞰データを生成し、
前記解析手段が、畳み込みニューラルネットワークから構成され、前もってディープラーニングにより前記物体の種別を学習し、前記俯瞰データに基づいて、高さ方向に関して複数箇所の断面をスライスデータとして抽出して、前記物体が存在するか否かを選択すると共に、該物体までの距離を推定することにより物体を検出する、物体検出システム。 - 前記俯瞰データ生成手段が、畳み込みニューラルネットワークから成るオートエンコーダから構成されており、
前記オートエンコーダが、前記各スライス画像を低次元化して前記俯瞰データを生成する、請求項1に記載の物体検出システム。 - 前記オートエンコーダが、一つのシーンに関して各深度スライス毎に水平位置を示す一連の特徴ベクトルと、深度位置を表わす各深度スライスとを結合することにより、前記俯瞰データとしてのテンソルを形成する、請求項2に記載の物体検出システム。
- 前記畳み込みニューラルネットワークが、入力層,少なくとも一つの中間層及び出力層から成る多層ニューラルネットワークであって、学習の際に、前記入力層に入力された各スライス画像を、いずれかの中間層で低次元中間データに変換した後、前記出力層で前記スライス画像と同じ次元の再構築データにデコードして、前記再構築データがスライス画像における物体を再現し得るようにディープラーニングにより学習し、学習後は、前記中間層から中間データを俯瞰データとして前記解析手段に出力する、請求項2に記載の物体検出システム。
- 前記俯瞰データ生成手段が、各スライス画像をさらに水平方向にスライスしてスライスピースを生成し、このスライスピースを低次元化して前記俯瞰データを生成する、請求項1から4の何れかに記載の物体検出システム。
- 前記俯瞰データが、各スライス画像またはスライスピースをそれぞれベクトルとして、ノンスパース特徴空間にマッピングした特徴ベクトルを含むデータである、請求項1から5の何れかに記載の物体検出システム。
- 物体検出プログラムをコンピュータに実行させる物体検出方法であって、
撮像データに基づいて三次元画像を生成する画像生成段階と、前記画像生成段階で生成された三次元画像に基づいて俯瞰処理により俯瞰データを生成する俯瞰データ生成段階と、前記俯瞰データに基づいて物体を検出する解析段階と、を含んでおり、
前記俯瞰データ生成段階にて、前記三次元画像の深さ方向に関して複数箇所の断面をスライス画像として取り出して、各スライス画像を低次元化して俯瞰データを生成し、
前記解析段階にて、畳み込みニューラルネットワークにより前もってディープラーニングにより前記物体の種別を学習し、前記俯瞰データに基づいて、高さ方向に関して複数箇所の断面をスライスデータとして抽出して、前記物体が存在するか否かを選択すると共に、該物体までの距離を推定することにより物体を検出する、物体検出方法。 - 撮像データに基づいて三次元画像を生成する画像生成手順と、前記画像生成手順で生成された三次元画像に基づいて俯瞰処理により俯瞰データを生成する俯瞰データ生成手順と、前記俯瞰データに基づいて物体を検出する解析手順の処理をコンピュータに実行させるための物体検出プログラムであって、
前記俯瞰データ生成手順にて、前記三次元画像の深さ方向に関して複数箇所の断面をスライス画像として取り出して、各スライス画像を低次元化して俯瞰データを生成し、
前記解析手順にて、畳み込みニューラルネットワークにより前もってディープラーニングにより前記物体の種別を学習し、前記俯瞰データに基づいて、高さ方向に関して複数箇所の断面をスライスデータとして抽出して、前記物体が存在するか否かを選択すると共に、該物体までの距離を推定することにより物体の方向及び距離を検出することをコンピュータに実行させる、物体検出プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020096497A JP7122721B2 (ja) | 2020-06-02 | 2020-06-02 | 物体検出システム、物体検出方法及び物体検出プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020096497A JP7122721B2 (ja) | 2020-06-02 | 2020-06-02 | 物体検出システム、物体検出方法及び物体検出プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2021189917A JP2021189917A (ja) | 2021-12-13 |
JP7122721B2 true JP7122721B2 (ja) | 2022-08-22 |
Family
ID=78848422
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020096497A Active JP7122721B2 (ja) | 2020-06-02 | 2020-06-02 | 物体検出システム、物体検出方法及び物体検出プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7122721B2 (ja) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7450654B2 (ja) | 2022-02-10 | 2024-03-15 | 本田技研工業株式会社 | 移動体制御装置、移動体制御方法、学習装置、学習方法、およびプログラム |
CN114842313B (zh) * | 2022-05-10 | 2024-05-31 | 北京易航远智科技有限公司 | 基于伪点云的目标检测方法、装置、电子设备和存储介质 |
CN116214524B (zh) * | 2023-05-08 | 2023-10-03 | 国网浙江省电力有限公司宁波供电公司 | 用于油样回收的无人机抓载方法、装置及存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2010024212A1 (ja) | 2008-08-29 | 2010-03-04 | 三菱電機株式会社 | 俯瞰画像生成装置、俯瞰画像生成方法および俯瞰画像生成プログラム |
JP2013210908A (ja) | 2012-03-30 | 2013-10-10 | Suzuki Motor Corp | 対象物識別装置 |
WO2016199244A1 (ja) | 2015-06-10 | 2016-12-15 | 株式会社日立製作所 | 物体認識装置及び物体認識システム |
JP2017045395A (ja) | 2015-08-28 | 2017-03-02 | 株式会社リコー | 検出装置、検出方法、撮像装置、機器制御システム、及びプログラム |
-
2020
- 2020-06-02 JP JP2020096497A patent/JP7122721B2/ja active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2010024212A1 (ja) | 2008-08-29 | 2010-03-04 | 三菱電機株式会社 | 俯瞰画像生成装置、俯瞰画像生成方法および俯瞰画像生成プログラム |
JP2013210908A (ja) | 2012-03-30 | 2013-10-10 | Suzuki Motor Corp | 対象物識別装置 |
WO2016199244A1 (ja) | 2015-06-10 | 2016-12-15 | 株式会社日立製作所 | 物体認識装置及び物体認識システム |
JP2017045395A (ja) | 2015-08-28 | 2017-03-02 | 株式会社リコー | 検出装置、検出方法、撮像装置、機器制御システム、及びプログラム |
Also Published As
Publication number | Publication date |
---|---|
JP2021189917A (ja) | 2021-12-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7122721B2 (ja) | 物体検出システム、物体検出方法及び物体検出プログラム | |
CN110298262B (zh) | 物体识别方法及装置 | |
US11734918B2 (en) | Object identification apparatus, moving body system, object identification method, object identification model learning method, and object identification model learning apparatus | |
Pfeuffer et al. | Optimal sensor data fusion architecture for object detection in adverse weather conditions | |
JP6574611B2 (ja) | 立体画像に基づいて距離情報を求めるためのセンサシステム | |
CN113111974A (zh) | 基于深度典型相关分析的视觉-激光雷达融合方法及*** | |
JP7305869B2 (ja) | 歩行者検出方法及び装置、コンピュータ読み取り可能な記憶媒体並びにチップ | |
CN111209825B (zh) | 一种用于动态目标3d检测的方法和装置 | |
US20230213643A1 (en) | Camera-radar sensor fusion using local attention mechanism | |
JP6979228B2 (ja) | V2v通信によって取得された、他の自律走行車両の空間探知結果を自身の自律走行車両の空間探知結果と統合する学習方法及び学習装置、そしてこれを利用したテスト方法及びテスト装置{learning method and learning device for integrating object detection information acquired through v2v communication from other autonomous vehicle with object detection information generated by present autonomous vehicle, and testing method and testing device using the same} | |
CN115082924A (zh) | 一种基于单目视觉和雷达伪图像融合的三维目标检测方法 | |
CN111814602B (zh) | 一种基于视觉的智能车环境动态目标检测的方法 | |
CN111209840B (zh) | 一种基于多传感器数据融合的3d目标检测方法 | |
Ouyang et al. | A cgans-based scene reconstruction model using lidar point cloud | |
Yeol Baek et al. | Scene understanding networks for autonomous driving based on around view monitoring system | |
CN117058646B (zh) | 基于多模态融合鸟瞰图的复杂道路目标检测方法 | |
KR20200094644A (ko) | V2x 정보 융합 기술을 통해 획득된, 각 객체에 대한 깊이 예측 정보 및 각 객체에 대한 클래스 정보를 이용해 3d 공간을 재구축함으로써 hd 맵을 업데이트하는 학습 방법 및 학습 장치, 그리고 이를 이용한 테스팅 방법 및 테스팅 장치 | |
CN117274749B (zh) | 一种基于4d毫米波雷达和图像的融合3d目标检测方法 | |
Melotti et al. | CNN-LIDAR pedestrian classification: Combining range and reflectance data | |
CN112183330A (zh) | 基于点云的目标检测方法 | |
Mehtab et al. | 3D vehicle detection using cheap LiDAR and camera sensors | |
CN112950786A (zh) | 一种基于神经网络的车辆三维重建方法 | |
Surgailis et al. | Avoiding forward car collision using stereo vision system | |
Itu et al. | MONet-Multiple Output Network for Driver Assistance Systems Based on a Monocular Camera | |
Aswini et al. | Drone Object Detection Using Deep Learning Algorithms |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210331 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220517 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220714 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20220726 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20220801 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7122721 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |