WO2019194255A1

WO2019194255A1 - 演算処理装置、オブジェクト識別システム、オブジェクト識別方法、自動車、車両用灯具

Info

Publication number: WO2019194255A1
Application number: PCT/JP2019/014889
Authority: WO
Inventors: 健佑荒井
Original assignee: 株式会社小糸製作所
Priority date: 2018-04-05
Filing date: 2019-04-03
Publication date: 2019-10-10
Also published as: JP7217741B2; JPWO2019194255A1; EP3779871A4; US20210019860A1; EP3779871A1; US11341604B2; CN111989709A; CN111989709B

Abstract

二次元変換部４２は、３次元センサ２０により取得された点群データＤ１を、距離を画素値とする２次元の画像データＤ２に変換する。畳み込みニューラルネットワーク４４は画像データＤ２を入力として受け、点群データに含まれるオブジェクトの位置およびカテゴリを判定する。

Description

演算処理装置、オブジェクト識別システム、オブジェクト識別方法、自動車、車両用灯具

　本発明は、オブジェクト識別システムに関する。

　自動車のセンサとして、ＬｉＤＡＲ（Light Detection and Ranging、Laser Imaging Detection and Ranging）、カメラ、ミリ波レーダ、超音波ソナーなどが候補として挙げられる。このなかでＬｉＤＡＲは、そのほかのセンサと比較して、（i）点群データによる物体認識が可能であること、（ii）アクティブセンシングであるが故の悪天候時にも高精度な検出が可能であること、（iii）広範囲の測定が可能であること、などの利点を有しており、今後、自動車のセンシングシステムにおける主流となることが期待されている。

特開２０１７－５６９３５号公報特開２００９－９８０２３号公報

　オブジェクトの検出方法として、オブジェクトのカテゴリ（種類）ごとに特徴量を規定しておき、パターンマッチングによりオブジェクトの位置およびカテゴリを判定する方法が考えられる。しかしながら、この方法では、カテゴリごとに適切な特徴量の設計は容易ではない。

　本発明は係る状況においてなされたものであり、そのある態様の例示的な目的のひとつは、オブジェクトを識別可能な演算処理装置、オブジェクト識別システムおよびオブジェクトの種類の識別方法の提供にある。

　本発明のある態様は、オブジェクトの識別方法あるいはシステムに関する。この方法／システムでは、３次元センサにより取得された点群データが、距離を画素値とする２次元の画像データに変換される。そしてこの画像データを畳み込みニューラルネットワークなどの分類器に入力することにより、点群データに含まれるオブジェクトの位置およびカテゴリを判定する。

　本発明によれば、オブジェクトを識別できる。

実施の形態に係るオブジェクト識別システムを示す図である。図２（ａ）、（ｂ）は、３次元センサが生成する点群データを説明する図である。図３（ａ）、（ｂ）は、点群データと画像データの関係を説明する図である。点群データから画像データへのマッピングを説明する図である。図５（ａ）、（ｂ）は、代表的な２つのシーンを示す図である。学習に対する損失の推移を示す図である。図７（ａ）～（ｅ）は、いくつかの検証結果を示す図である。オブジェクト識別システムを備える自動車のブロック図である。オブジェクト識別システムを備える車両用灯具を示すブロック図である。変形例５に係るオブジェクト識別システムを示す図である。アスペクト比変換部によるアスペクト比の変換処理の一例を説明する図である。

（実施の形態の概要）
　本明細書に開示される一実施の形態は、演算処理装置に関する。演算処理装置は、３次元センサにより取得された点群データを、距離を画素値とする２次元の画像データに変換する二次元変換部と、画像データを入力として受け、点群データに含まれるオブジェクトの位置およびカテゴリを判定する分類器を備える。

　この実施の形態によれば、本来、分類器の処理対象ではない点群データ形式の３次元データを、２次元の画像データとして扱うことで、画像処理で実績のある分類器による処理が可能となる。また分類器を用いることで特徴量の設計が不要となる。

　二次元変換部は、点群データに含まれる各点のユークリッド座標系で表される座標を、極座標系（ｒ，θ，φ）に変換し、（θ，φ）を画素位置、距離ｒを画素値とする２次元の画像データに変換してもよい。

　画像データを複数の領域に分割し、複数の領域を再配置することでアスペクト比を変化させてもよい。分類器の入力に適したアスペクト比と、もとの画像データのアスペクト比が異なっている場合に、アスペクト比を変換することで、演算効率を高めることができる。

（実施の形態）
　以下、本発明を好適な実施の形態をもとに図面を参照しながら説明する。各図面に示される同一または同等の構成要素、部材、処理には、同一の符号を付するものとし、適宜重複した説明は省略する。また、実施の形態は、発明を限定するものではなく例示であって、実施の形態に記述されるすべての特徴やその組み合わせは、必ずしも発明の本質的なものであるとは限らない。

　図１は、実施の形態に係るオブジェクト識別システム１０を示す図である。オブジェクト識別システム１０は、３次元センサ２０および演算処理装置４０を備える。３次元センサ２０は、ＬｉＤＡＲ、ＴｏＦ（Time Of Flight）カメラ、ステレオカメラなどであり、その周囲のオブジェクトＯＢＪの表面を形成する点ｐの集合（点群）を記述する点群データＤ１を生成する。

　図２（ａ）、（ｂ）は、３次元センサ２０が生成する点群データＤ１を説明する図である。図２（ａ）は、オブジェクトと点群の関係を示す斜視図であり、図２（ｂ）は、点群を記述する点群データのデータ構造を表す。図２（ａ）に示すように、点群は複数ｎ個の点ｐ_１，ｐ_２，…，ｐ_ｎの集合であり、点群データは、複数の点ｐ_１，ｐ_２，…，ｐ_ｎそれぞれのユークリッド座標系（ｘ，ｙ，ｚ）の位置を示す３次元データを含む。ｉ番目の点ｐ_ｉ（ｉ＝１，２，…，ｎ）の座標を、（ｘ_ｉ，ｙ_ｉ，ｚ_ｉ）と表記する。なお、点の番号ｉは、３次元センサ２０の種類やメーカによってさまざまであり、２次元で番号を付してもよい。

　図１に戻る。演算処理装置４０は、点群データＤ１にもとづいて、オブジェクトＯＢＪの位置およびカテゴリ（種類、クラス）を判定する。たとえばオブジェクトのカテゴリは、歩行者、自転車、自動車、電柱などが例示される。歩行者について、前方から見た歩行者、後方から見た歩行者、側方から見た歩行者を、同じカテゴリとして定義してもよい。自動車、自転車も同様である。本実施の形態ではこの定義を採用する。

　演算処理装置４０は、ＣＰＵ（Central Processing Unit）やＧＰＵ（Graphics Processing Unit）、マイコンなどのプロセッサ（ハードウェア）と、プロセッサ（ハードウェア）が実行するソフトウェアプログラムの組み合わせで実装することができる。演算処理装置４０は、複数のプロセッサの組み合わせであってもよい。

　演算処理装置４０は、二次元変換部４２および畳み込みニューラルネットワーク４４を備える。二次元変換部４２および畳み込みニューラルネットワーク４４は、必ずしもハードウェア的に独立していることを意味するものでなく、ＣＰＵなどのハードウェアがソフトウェアプログラムを実行することにより提供される機能を表してもよい。

　二次元変換部４２は、３次元センサ２０により取得された点群データＤ１を、距離ｒを画素値とする２次元の画像データＤ２に変換する。距離ｒは、たとえば８ビット２５６階調で表してもよい。

　畳み込みニューラルネットワーク４４は、画像データＤ２を入力として受け、点群データＤ１に含まれるオブジェクトＯＢＪの位置およびカテゴリを判定し、位置およびカテゴリごとの尤度（所属確率）を示す最終データＤ３を出力する分類器である。畳み込みニューラルネットワーク４４は、機械学習によって生成された予測モデルにもとづいて実装される。

　畳み込みニューラルネットワーク４４については画像認識で広く用いられる公知技術を用いればよいため、詳細な説明は省略する。

　図３（ａ）、（ｂ）は、点群データＤ１と画像データＤ２の関係を説明する図である。図３（ａ）に示すように、点群データＤ１に含まれる各点ｐ_ｉの座標は、ユークリッド座標系（ｘ_ｉ，ｙ_ｉ，ｚ_ｉ）で表される。二次元変換部４２は、ユークリッド座標系（ｘ_ｉ，ｙ_ｉ，ｚ_ｉ）を極座標系（ｒ_ｉ、θ_ｉ，φ_ｉ）に変換する。ｒは動径、θは極角（天頂角）、φは方位角（偏角）である。そして、（θ，φ）を画素位置、距離ｒを画素値とする２次元の画像データＤ２に変換する。図２（ｂ）には、点ｐ_ｉがマッピングされる様子を示す。

　図４は、点群データから画像データへのマッピングを説明する図である。点群データに含まれるすべての点（この例ではｐ_１～ｐ_１９）が、２次元のデータ構造にマッピングされ、画像データＤ２が生成される。マッピングすべき点ｐが存在しない画素には、画素値として、最大値（あるいは０、あるいは負の値）をマッピングしてもよい。

　以上がオブジェクト識別システム１０の構成である。続いて演算処理装置４０による物体認識について検証した結果を説明する。

　検証は、３次元センサ２０が生成する点群データＤ１を用いずに、３Ｄコンピュータグラフィックスを用いて生成した距離データを用いて行った。カテゴリは、車、トラック、歩行者、バイク、自転車の５つとした。距離データは、３００×３００ピクセルの２次元データであり、上述の画像データＤ２に対応しており、画素値は距離である。

　図５（ａ）、（ｂ）は、代表的な２つのシーンを示す図である。図５（ａ）のシーンは高速道路であり、２台のトラックと、２台のバイクが前方に位置している。図５（ｂ）のシーンは市街地であり、２人の歩行者と、３台の自動車、１台のバイクが前方に位置している。各図の上段は、距離データを、下段は、２次元平面に投影したカメラ画像を表す。

　畳み込みニューラルネットワーク４４としては、物体の重なりに強く、また小さな物体の検出も可能なＳＳＤ（Single Shot MultiBox Detector）を用いた。ＳＳＤは複数の畳み込み層より構成されるニューラルネットワークであり、サイズの異なる６つの畳み込み層が、物体の位置と各カテゴリの尤度を出力する。これらの６つの層から得られる出力は複数個となるが、Non-Maximum Suppressionと称される出力層によって物体領域の重なりが大きい推定結果を統合して、最終的な出力を得る。

　畳み込みニューラルネットワーク４４の学習に関して、教師データの収集には、先進運転支援システム（ADAS)開発支援ツールとして市販されるシミュレーションソフトPreScanを利用した。教師データは２次元構造の距離データとそのデータに対する物体の位置およびカテゴリが記されたアノテーションデータのセットである。なお２次元構造の距離データは、オブジェクト識別システム１０に使用される３次元センサ２０と同じものを用いることが望ましいが、ここでは仮想的なＤｅｐｔｈカメラを用いることとした。最終的に作成した教師データの数は７１３個である。

　７１３個の教師データのうち、８割の５７１個を学習に使用し、残りを検証に使用し多。学習回数は５０エポック、バッチサイズは４に設定している。図６は、学習に対する損失の推移を示す図である。

　図７（ａ）～（ｅ）は、いくつかの検証結果を示す図である。バウンディングボックスは、検出されたオブジェクトの位置を表しており、カテゴリと尤度があわせて示される。いくつかの取りこぼしは見られるが、歩行者やトラック、自動車、オートバイを正しく検出できていることが分かる。

　オブジェクト識別システム１０では、画像データを対象とする畳み込みニューラルネットワークを２次元の距離データに転用することで、位置検出およびカテゴリの識別が可能となる。このオブジェクト識別システム１０では、点群データをオブジェクトごとに分割するクラスタリング処理が不要であるという利点もある。

　図８は、オブジェクト識別システム１０を備える自動車のブロック図である。自動車１００は、前照灯１０２Ｌ，１０２Ｒを備える。オブジェクト識別システム１０のうち、少なくとも３次元センサ２０は、前照灯１０２Ｌ，１０２Ｒの少なくとも一方に内蔵される。前照灯１０２は、車体の最も先端に位置しており、周囲のオブジェクトを検出する上で、３次元センサ２０の設置箇所として最も有利である。演算処理装置４０については、前照灯１０２に内蔵してもよいし、車両側に設けてもよい。たとえば演算処理装置４０のうち、中間データの生成は前照灯１０２の内部で行い、最終データの生成は車両側に委ねてもよい。

　図９は、オブジェクト識別システム１０を備える車両用灯具２００を示すブロック図である。車両用灯具２００は、光源２０２、点灯回路２０４、光学系２０６を備える。さらに車両用灯具２００には、３次元センサ２０および演算処理装置４０が設けられる。演算処理装置４０が検出したオブジェクトＯＢＪに関する情報は、車両ＥＣＵ１０４に送信される。車両ＥＣＵは、この情報にもとづいて、自動運転を行ってもよい。

　また、演算処理装置４０が検出したオブジェクトＯＢＪに関する情報は、車両用灯具２００の配光制御に利用してもよい。具体的には、灯具ＥＣＵ２０８は、演算処理装置４０が生成するオブジェクトＯＢＪの種類とその位置に関する情報にもとづいて、適切な配光パターンを生成する。点灯回路２０４および光学系２０６は、灯具ＥＣＵ２０８が生成した配光パターンが得られるように動作する。

　以上、本発明について、実施の形態をもとに説明した。この実施の形態は例示であり、それらの各構成要素や各処理プロセスの組み合わせにいろいろな変形例が可能なこと、またそうした変形例も本発明の範囲にあることは当業者に理解されるところである。以下、こうした変形例について説明する。

（変形例１）
　実施の形態では、３次元の点群データを極座標系（ｒ，θ，φ）に変換し、（θ，φ）を画素位置、距離ｒを画素値とする２次元の画像データに変換したがその限りでなく、画像データＤ２への変換に関して、いくつかの変形例がある。

　たとえば、３次元の点群データに含まれる各点を、ユークリッド座標系から円筒座標系（ｒ，ｚ，φ）に変換し、（ｚ，φ）を画素位置、ｒを画素値としてもよい。

　また３次元の点群データに含まれる各点を、２次元の平面に投影し、距離ｒを画素値としてもよい。投影方法としては、透視投影や平行投影を用いることができる。

（変形例２）
　オブジェクトを、それを望む方向ごとに異なるカテゴリとして定義してもよい。つまり、あるオブジェクトが、自車と正対しているときと、そうでないときとで、別のカテゴリと定義してもよい。これは、オブジェクトＯＢＪの移動方向の推定に役立つ。

（変形例３）
　演算処理装置４０は、ＦＰＧＡや専用のＡＳＩＣ（Application Specific Integrated Circuit）などを用いてハードウェアのみで構成してもよい。

（変形例４）
　実施の形態では、車載用のオブジェクト識別システム１０を説明したが本発明の適用はその限りでなく、たとえば信号機や交通標識、そのほかの交通インフラに固定的に設置され、定点観測する用途にも適用可能である。

（変形例５）
　図１０は、変形例５に係るオブジェクト識別システム１０Ａを示す図である。画像認識による物体検出用に開発されている畳み込みニューラルネットワークの多くは、一般的な画像の解像度およびアスペクト比をサポートしており、想定するアスペクト比は、１：１あるいは４：３、あるいは１６：９程度である。一方、低価格な３次元センサ２０を用いた場合、仰俯角方向（高さ方向）の解像度が横方向の解像度に比べて極端に小さくなる場合がある。たとえば米国Quanergy Systems社が販売するＬｉＤＡＲであるQurnergy M8は３６０度スキャン横方向に１０４００の解像度を有するが、仰俯角方向の解像度はわずかに８であり、アスペクト比（１０４００：８）が極めて大きい。

　そこで図１０の演算処理装置４０Ａは、二次元変換部４２によって得られる画像データＤ２のアスペクト比を変換するアスペクト比変換部４６を含む。畳み込みニューラルネットワーク４４には、アスペクト比が変換された画像データＤ２’が入力される。

　図１１は、アスペクト比変換部４６によるアスペクト比の変換処理の一例を説明する図である。元の画像データＤ２は、複数の領域Ｒ１，Ｒ２に分割され、それらを再配置することでアスペクト比を変化させてもよい。

　畳み込みニューラルネットワーク４４の入力に適したアスペクト比と、もとの画像データＤ２のアスペクト比が異なっている場合に、アスペクト比を変換することで、演算効率を高めることができる。

（変形例６）
　分類器のアルゴリズムは、ＹＯＬＯ（You Only Look Once）、ＳＳＤ（Single Shot MultiBox Detector）、R-CNN（Region-based Convolutional Neural Network）、SPPnet（Spatial Pyramid Pooling）、Faster R-CNN、DSSD（Deconvolution -SSD）、Mask R-CNNなどを採用することができ、あるいは、将来開発されるアルゴリズムを採用できる。あるいは、線形ＳＶＭなどを用いてもよい。

　実施の形態にもとづき、具体的な語句を用いて本発明を説明したが、実施の形態は、本発明の原理、応用の一側面を示しているにすぎず、実施の形態には、請求の範囲に規定された本発明の思想を逸脱しない範囲において、多くの変形例や配置の変更が認められる。

　本発明は、オブジェクト識別システムに関する。

１０…オブジェクト識別システム、２０…３次元センサ、４０…演算処理装置、４２…二次元変換部、４４…畳み込みニューラルネットワーク、Ｄ１…点群データ、Ｄ２…画像データ、１００…自動車、１０２…前照灯、１０４…車両ＥＣＵ、２００…車両用灯具、２０２…光源、２０４…点灯回路、２０６…光学系、２０８…灯具ＥＣＵ。

Claims

　３次元センサにより取得された点群データを、距離を画素値とする２次元の画像データに変換する二次元変換部と、
　前記画像データを入力として受け、前記点群データに含まれるオブジェクトの位置およびカテゴリを判定する分類器と、
　を備えることを特徴とする演算処理装置。
　前記二次元変換部は、前記点群データに含まれる各点のユークリッド座標系の座標を、極座標系（ｒ、θ，φ）に変換し、（θ，φ）を画素位置、距離ｒを画素値とする２次元の前記画像データに変換することを特徴とする請求項１に記載の演算処理装置。
　前記画像データを複数の領域に分割し、再配置することでアスペクト比を変化させることを特徴とする請求項１または２に記載の演算処理装置。
　３次元センサと、
　請求項１から３のいずれかに記載の演算処理装置と、
　を備えることを特徴とするオブジェクト識別システム。
　請求項４に記載のオブジェクト識別システムを備えることを特徴とする自動車。
　前記３次元センサは、前照灯に内蔵されることを特徴とする請求項５に記載の自動車。
　請求項４に記載のオブジェクト識別システムを備えることを特徴とする車両用灯具。
　３次元センサにより点群データを生成するステップと、
　前記点群データを、距離を画素値とする２次元の画像データに変換するステップと、
　分類器に前記画像データを入力することにより、前記点群データに含まれるオブジェクトの位置およびカテゴリを判定するステップと、
　を備えることを特徴とするオブジェクト識別方法。
　前記変換するステップは、
　ユークリッド座標系の３次元データの集合である前記点群データを、極座標系（ｒ、θ，φ）に変換するステップと、
　（θ，φ）を画素位置、距離ｒを画素値とする２次元の前記画像データに変換するステップと、
　を含むことを特徴とする請求項８に記載のオブジェクト識別方法。
　前記画像データを複数の領域に分割し、再配置することでアスペクト比を変化させるステップをさらに備えることを特徴とする請求項８または９に記載のオブジェクト識別方法。