JP7179186B2

JP7179186B2 - 物体検出方法、装置、電子機器、及びコンピュータプログラム

Info

Publication number: JP7179186B2
Application number: JP2021536821A
Authority: JP
Inventors: ▲逸▼▲倫▼ ▲陳▼; 枢 ▲劉▼; 小勇沈; 宇▲榮▼ 戴; 佳▲亞▼ ▲賈▼
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-04-11
Filing date: 2020-03-09
Publication date: 2022-11-28
Anticipated expiration: 2040-03-09
Also published as: JP2022514974A; CN110059608B; CN110059608A; KR102629928B1; WO2020207166A1; EP3955158A4; EP3955158A1; EP3955158B1; US20210287037A1; US11915501B2; KR20210107119A

Description

本願は、２０１９年０４月１１日に中国専利局に提出した、出願番号が２０１９１０２９０１８８０であって、発明の名称が「物体検出方法、装置、電子機器及び記憶媒体」である中国特許出願の優先権を主張し、その全ての内容が参照により本明細書に組み込まれる。

本出願は、人工知能(ＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅ、ＡＩ)の技術分野に関し、具体的に、物体検出技術に関する。

物体検出とは、あるシーンにおいて物体の位置、種類などを確定することを指す。現在、物体検出技術は、自動運転、ドローンなどさまざまなシーンで広く使用されている。

目前の物体検出スキームは、一般に、シーン画像を収集し、シーン画像から特徴を抽出し、そして抽出された特徴に基づいて当該シーン画像における物体の位置及び種類を確定するものである。しかし、実践により、現在の目標物体検出スキームには、特に、３Ｄ物体検出シーンにおいて物体検出精度低下などの課題があることが発見された。

本出願の実施例は、物体検出の精度を向上させることができる物体検出方法、装置、電子機器及び記憶媒体を提供する。

本出願にかかる実施例では、物体検出方法を提供し、
シーンにおける点の位置情報を含む点群を取得するステップと、
前記点群を３次元ボクセル表現にマッピングして、３次元ボクセルの特徴情報を取得するステップと、
前記３次元ボクセルの特徴情報に対して畳み込み操作を行って、畳み込み特徴セットを取得するステップと、
前記畳み込み特徴セットに基づいて、候補物体領域の初期ポジショニング情報を確定するステップと、
前記点群における前記候補物体領域内に位置している目標点を確定するステップと、
前記目標点の位置情報及び目標畳み込み特徴情報に基づいて、前記候補物体領域の初期ポジショニング情報を調整して、目標物体領域のポジショニング情報を取得するステップであって、前記目標畳み込み特徴情報は前記畳み込み特徴セットにおける前記目標点位置に対応する畳み込み特徴情報であるステップとを含む。

相応的には、本出願にかかる実施例では、物体検出装置をさらに提供し、
シーンにおける点の位置情報を含む点群を取得するための点群取得ユニットと、
前記点群を３次元ボクセル表現にマッピングして、３次元ボクセルの特徴情報を取得するためのボクセルマッピングユニットと、
前記３次元ボクセルの特徴情報に対して畳み込み操作を行って、畳み込み特徴セットを取得するための畳み込みユニットと、
前記畳み込み特徴に基づいて候補物体領域の初期ポジショニング情報を確定するための候補領域取得ユニットと、
前記点群における前記候補物体領域内に位置している目標点を確定するための選択ユニットと、
前記目標点の位置情報及び目標畳み込み特徴情報に基づいて、前記候補物体領域の初期ポジショニング情報を調整して、目標物体領域のポジショニング情報を取得するための調整ユニットであって、前記目標畳み込み特徴情報前記畳み込み特徴セットにおける前記目標点位置に対応する畳み込み特徴情報である前記調整ユニットとを含む。

また、本出願に係る実施例では、記憶媒体をさらに提供し、複数の命令が記憶されており、前記命令は、プロセッサによってロードされると、本出願にかかる実施例におけるいずれかの物体検出方法におけるステップを実行させるように構成される。

また、本出願の実施例では、さらに、メモリ及びプロセッサを含む電子機器を提供し、前記メモリには、複数の命令が記憶されており、前記プロセッサは、本出願の実施例にかかるいずれかの物体検出方法におけるステップを実行するように、前記メモリにおける命令をロードする。

また、本出願の実施例では、さらに、コンピュータプログラム製品を提供し、コンピュータ上で実行されると、コンピュータに本出願の実施例にかかるいずれかの物体検出方法におけるステップを実行させる。

本出願の実施例は、シーンにおける点の位置情報を含む点群を取得し、点群を３次元ボクセル表現にマッピングして、３次元ボクセルの特徴情報を取得し、３次元ボクセルの特徴情報に対して畳み込み操作を行って、畳み込み特徴セットを取得し、畳み込み特徴セットに基づいて候補物体領域の初期ポジショニング情報を確定し、点群における当該候補物体領域内に位置している目標点を確定し、目標点の位置情報及び目標畳み込み特徴情報（畳み込み特徴セットの目標点位置に対応する畳み込み特徴である）に基づいて、候補物体領域の初期ポジショニング情報を調整して、目標物体領域のポジショニング情報を取得することができる。当該スキームは、シーンの点群データを採用して物体検出を行うとともに、点群の位置情報及び畳み込み特徴をフュージョンするため、ポジショニング情報の紛失をできるだけ減少する。これにより、物体検出の正確度を効果的に向上させ、特に３Ｄ物体の検出に適する。

以下、本出願の実施例の技術案をより明確に説明するために、実施例の説明に必要な図面を簡単に紹介する。以下の記載における図面は本発明のいくつかの実施例にすぎず、当業者にとって、創造的な労働を付せずこれらの図面から他の図面を取得可能であることは言うまでもない。

本出願の実施例にかかる物体検出方法のシーンの模式図である。本出願の実施例にかかる物体検出方法のフローチャートである。本出願の実施例にかかるＶｏｘｅｌＲＰＮネットワークの構成の模式図である。本出願の実施例にかかるＲｅｆｉｎｅｒＮｅｔネットワークの構成の模式図である。本出願の実施例にかかる物体検出の他のフローチャートである。本出願の実施例にかかる物体検出のアーキテクチャ図である。本出願の実施例にかかる自動運転シーンにおける物体検出の模式図である。本出願の実施例にかかる物体検出装置の構成の模式図である。本出願の実施例にかかる物体検出装置の他の構成の模式図である。本出願の実施例にかかる物体検出装置の他の構成の模式図である。本出願の実施例にかかる物体検出装置の他の構成の模式図である。本出願の実施例にかかる物体検出装置の他の構成の模式図である。本出願の実施例にかかる電子機器の構成の模式図である。

以下に、本出願の実施例の図面を参照して、本出願の実施例の技術案を明瞭かつ完全に記載する。記載される実施例は、本出願の実施例の全部ではなく、本出願の実施例の一部にすぎないことは言うまでもない。当業者が創造的な労働をせずに本発明の実施例に基づいて得るすべての他の実施例は本出願の保護範囲に属すべきである。

本出願の実施例は、物体検出方法、装置、電子機器及び記憶媒体を提供する。なお、当該物体検出装置は、例えば、ネットワーク装置などの電子機器に統合されてもよく、当該電子機器はサーバーであってもよいし、端末などの機器であってもよく、例えば、車載装置、ミニ処理ボックスなどの機器である。

物体検出とは、あるシーンにおける物体の位置、種類などを確定したり、認識したりすることを指し、例えば、ある道路シーンにおける物体の種類及び位置、例えば、街灯、車両及びその位置などを認識することを含む。

図１ａを参照して、本出願の実施例は、電子機器及び収集装置を含む物体検出システムを提供し、電子機器と収集装置との間は、例えば、有線又は無線ネットワークなどを介して接続されるように、通信接続されている。一実施例において、電子機器と収集装置とは一台の機器に統合されてもよい。

なお、収集装置は、シーンの点群データ又は画像データを収集するためのものであり、一実施例においては、収集装置が、収集された点群データを電子機器にアップロードして処理してもよい。なお、点群(ＰｏｉｎｔＣｌｏｕｄ)データは点の位置情報などを含み得る。

電子機器は、物体検出のために用いられ、具体的に、収集装置によってアップロードされたシーンの点群を取得した後に、当該点群を３次元ボクセル表現にマッピングして、３次元ボクセル(Ｖｏｘｅｌ)の特徴情報を取得し、３次元ボクセルの特徴情報に対して畳み込み操作を行って、畳み込み特徴セットを取得し、畳み込み特徴セットに基づいて候補物体領域の初期ポジショニング情報を確定し、点群の当該候補物体領域内に位置している目標点を確定し、目標点の位置情報及び目標畳み込み特徴情報（畳み込み特徴セットにおける目標点位置に対応する畳み込み特徴情報である）に基づいて、候補物体領域の初期ポジショニング情報を調整して、目標物体領域のポジショニング情報を取得することができる。

実際の適用において、目標物体検出領域のポジショニング情報を取得した後に、ポジショニング情報に基づいてシーン画像において検出された物体を標識し、例えば、検出ボックスの形態で画像において検出された物体をボックス選択してもよく、一実施例において、さらに、シーン画像において検出された物体のタイプを標識してもよい。

以下に、それぞれ詳細に説明する。なお、以下の実施例の記載順序は、実施例の好ましい順序を限定することを意図するものではない。

本実施例では、物体検出装置の観点から記載し、当該物体検出装置は、具体的に、電子機器、例えば、ネットワークデバイスに統合されてもよく、当該モバイル端末はサーバーであってもよいし、端末などの機器であってもよく、なお、当該端末は、携帯電話、タブレットコンピューター、ノートコンピューター、パソコンコンピュータ(ＰｅｒｓｏｎａｌＣｏｍｐｕｔｅｒ、ＰＣ)、車載機器、ミニ処理端末などの機器を含んでもよい。

本出願の実施例は物体検出方法を提供し、当該方法は、電子機器のプロセッサによって実行されてもよい。図１ｂに示すように、当該物体検出方法の具体的なフローは以下の通りである。

１０１において、シーンの点群を取得し、当該点群は点の位置情報を含む。

なお、点群は、シーン又は目標表面特性の点集合であり、点群における点は、点の位置情報、例えば、３次元座標を含んでもよく、また色情報(ＲＧＢ)又は反射強度情報(Ｉｎｔｅｎｓｉｔｙ)をさらに含んでもよい。

例えば、一実施例において、点群は、点の位置情報及び当該点の反射強度情報を含んでもよく、位置情報は、３次元空間座標系における点の３次元座標（ｘｙｚ）などを含んでもよい。例えば、実際の適用において、点群は点の３次元座標（ｘｙｚ）及び反射強度を含んでもよく、当該点群は、１つのｎｘ４のベクトルで表されてもよく、ｎは点群における点の数であり、各点は１つの１*４の４次元ベクトルに対応し、当該ベクトルの４つの次元はそれぞれ３次元座標及び反射強度に対応する。

点群は、レーザー測定原理又は写真測量原理により検出され、例えば、レーザースキャナーや写真スキャナーによる走査で物体の点群を取得し得る。点群をレーザーでの検出原理は、レーザービームが物体の表面に照射すると、反射されたレーザーに、方位、距離などの情報が含まれる。レーザービームをある軌跡に従って走査させると、走査しながら反射されたレーザー点情報を記録し、走査が非常に細かいため、大量のレーザー点を得ることができる。よって、レーザー点群が形成される。点群のフォーマットは*.ｌａｓ、*.ｐｃｄ、*.ｔｘｔなどがある。

例えば、ライダー(ＬｉｇｈｔＤｅｔｅｃｔｉｏｎＡｎｄＲａｎｇｉｎｇ、ＬｉＤＡＲ)でシーンの点群データを採用してもよい。ＬｉＤＡＲは、全地球ポジショニングシステム(ＧｌｏｂａｌＰｏｓｉｔｉｏｎＳｙｓｔｅｍ、ＧＰＳ)及び慣性計測装置(ＩｎｅｒｔｉａｌＭｅａｓｕｒｅｍｅｎｔＵｎｉｔ、ＩＭＵ)による空中レーザー走査である。測定されたデータは数値表層モデル(ＤｉｇｉｔａｌＳｕｒｆａｃｅＭｏｄｅｌ、ＤＳＭ)の離散点表現であり、データは空間３次元情報及びレーザー強度情報を含む。分類(Ｃｌａｓｓｉｆｉｃａｔｉｏｎ)技術を適用して、これらの元のデジタル表面モデルから、建物、人工物、被覆植物などの測定点を削除することにより、数値標高モデル(ＤｉｇｉｔａｌＥｌｅｖａｔｉｏｎＭｏｄｅｌ、ＤＥＭ)を得ることができるとともに、グランドカバーの高さを取得する。

本出願の実施例において、シーンの点群データは、電子機器自体によって収集可能であり、例えば、電子機器自体がレーザーにより検出・測定することで収集可能である。当該シーンの点群データは、他の機器によって収集されてから電子機器が他の機器から取得したり、ネットワークデータベースから検索したりすることもできる。例えば、ＬｉＤＡＲセンサーが点群データを収集し、電子機器が当該センサーから取得することがある。

なお、適用シーンは、様々があり、例えば、自動運転における道路シーン、ドローン飛行の航空シーンなどがある。

１０２において、点群を３次元ボクセル表現にマッピングして、３次元ボクセルの特徴情報を取得する。

シーンの点群を取得した後に、シーンの点群全体(例えば、ｎｘ４のベクトル)を３Ｄボクセル(Ｖｏｘｅｌ)表現にマッピングしてもよい。即ち、シーンの点群に対してボクセル化(Ｖｏｘｅｌｉｚｅ)処理を行ってもよい。

なお、３次元ボクセル表現にマッピングするプロセスは、シーン点群の範囲に基づいて対応サイズのボクセルブロック(例えば、立方体のボクセルブロック)を構築し、ボクセルブロックを区画して複数の３次元ボクセルを取得し、シーンの点群を３次元ボクセルにマッピングし、３次元ボクセルにおけるマッピング点の位置情報に基づいて３次元ボクセルの特徴情報を構築することを含んでもよい。

なお、シーン点群の範囲は、点群の範囲又は点群の収集範囲(例えば、センサーによるシーン点群収集範囲)を含んでもよく、当該点群の範囲及び収集範囲のいずれもサイズで標識してもよい。例えば、前後に５メートル、左右に４メートル、上下に３メートルなどである。例えば、シーン点群のサイズに基づいて同じなサイズのボクセルブロックを構築してもよい。シーン点群のサイズは点群の長、幅、高などを含んでもよい。

なお、ボクセルブロックの区画形態は様々あり、例えば、所定のサイズでボクセルブロックを区画してもよく、例えば、所定のサイズは、区画により得られるべき３次元ボクセルのサイズであり、当該サイズは、実際のニーズによって設定されてもよく、３次元ボクセルのサイズは、Ｌ(長)ｘＷ(幅)ｘＨ(高)を含んでもよく、所定の３次元ボクセルのサイズは、例えば、０.２*０.２*０.１ｍｍなどを含んでもよい。

区画によって３次元ボクセルが得られた後、点群における点の位置情報に応じて点を、対応している３次元ボクセルにマッピングすることができる。

点群のマッピングを完了した後に、３Ｄボクセル(Ｖｏｘｅｌ)の特徴情報は３Ｄボクセルにマッピングされた点の位置情報に基づいて取得することができる。つまり、３Ｄボクセル内点の位置情報に基づいて得られてもよい。例えば、「３次元ボクセルにおけるマッピング点の位置情報に基づいて３次元ボクセルの特徴情報を構築する」ステップは、以下のステップを含んでもよい。即ち、
３次元ボクセルにマッピング点が存在する場合、マッピング点から目標マッピング点の位置情報を３次元ボクセルの特徴情報として選択することができるステップと、
３次元ボクセルにマッピング点が存在しない場合、３次元ボクセルの特徴情報をゼロに設置することができるステップとを含む。

例えば、点群がｎｘ４(ｎ個の点の３次元座標と反射強度)のベクトルであることを例として、点群をマッピングした後に、マッピング点を含んでいるＶｏｘｅｌについて、直接にその中のあるマッピング点の４次元ベクトルを当該Ｖｏｘｅｌの特徴情報として取って、マッピング点を含んでいないＶｏｘｅｌについて、その特徴情報が０である。

上記のステップにより、点群を３次元ボクセル表現にマッピングして、３次元ボクセルの特徴情報を構築することができる。なお、３次元ボクセルの特徴情報は、ボクセル内のあるマッピング点の位置情報などの情報を含んでもよいし、ゼロであってもよい。

１０３において、３次元ボクセルの特徴情報に対して畳み込み操作を行って、畳み込み特徴セットを取得する。

なお、畳み込み特徴セットは、全ての３次元ボクセルの抽出特徴を含み、実際の適用において全ての３次元ボクセルの特徴マップ(ｆｅａｔｕｒｅｍａｐ)であってもよい。

例えば、３次元ボクセルの特徴抽出の正確性を向上するために、３次元ボクセルの特徴に対して３Ｄ畳み込みや２Ｄ畳み込み演算を行って、特徴を抽出してもよい。

例えば、「３次元ボクセルの特徴情報に対して畳み込み操作を行って、畳み込み特徴セットを取得する」ステップは、以下のステップを含んでもよい。即ち、
３次元ボクセルの特徴情報に対して３次元畳み込み演算を行って、当該３次元ボクセルの３次元畳み込み特徴情報を取得するステップと、
当該３次元畳み込み特徴情報に対して２次元畳み込み演算を行って、畳み込み特徴セットを取得するステップとを含む。

一実施例において、ニューラルネットワークを採用して、例えば、ニューラルネットワークの候補領域ネットワークに基づいて、３次元ボクセルの特徴から畳み込み特徴セットを抽出してもよい。図１ｃを参照して、候補領域ネットワーク(ＲｅｇｉｏｎＰｒｏｐｏｓａｌＮｅｔｗｏｒｋ、ＲＰＮ)は、３次元(３Ｄ)畳み込みネットワーク、２次元(２Ｄ)畳み込みネットワーク、フュージョンモジュール、回帰ネットワーク及び分類ネットワークを含んでもよい。
３次元畳み込みネットワークは２次元畳み込みネットワークに接続され、フュージョンモジュールは２次元畳み込みネットワークに接続され、回帰ネットワーク及び分類ネットワークはそれぞれフュージョンモジュールに接続される。

３次元ボクセルの特徴情報を取得した後に、本出願の実施例は、候補領域ネットワークにおける３次元畳み込みネットワークにより、３次元ボクセルの特徴情報に対して３次元畳み込み演算を行ってもよい。なお、図１ｃを参照して、３次元畳み込みネットワークは１つ又は複数の３次元畳み込み層を含んでもよく、各３次元畳み込み層(Ｃｏｎｖ３Ｄ)は１つの３次元畳み込みカーネル、例えば、３×３×２(チャネル数)、３×３×３(チャネル数)に対応する。具体的に、３次元畳み込みネットワークにおける３次元畳み込み層により３次元ボクセルの特徴情報に対して３次元畳み込み演算を順次行ってもよい。

例えば、図１ｃを参照して、３次元ボクセルの特徴情報作をネットワークの入力(Ｖｏｘｅｌｉｎｐｕｔ)としてネットワークに入力してもよい。一番目の３次元畳み込み層は３×３×２(８)の３Ｄ畳み込みカーネルを採用して３次元ボクセルの特徴情報に対して３次元畳み込み演算を行って、畳み込み演算結果を第２番目の３次元畳み込み層に入力して、３Ｄ畳み込みカーネルが３×３×２(１６)である３次元畳み込み演算を行って、３次元畳み込みネットワークにおける最後の３次元畳み込み層が３×３×２(１２８)の畳み込みカーネルを採用して入力された特徴に対して３次元畳み込み演算を行うまで、順次に推定する。

３次元畳み込みネットワークを採用して３次元ボクセルの特徴情報に対して３次元特徴抽出を行って、３次元畳み込み特徴情報を取得した後に、候補領域ネットワークにおける２次元畳み込みネットワークを採用して３次元畳み込み特徴情報に対して２次元畳み込み演算を行って、２次元畳み込み特徴を抽出することにより、畳み込み特徴セットを取得してもよい。

例えば、図１ｃを参照して、２次元畳み込みネットワークは、順次に接続された複数の畳み込みブロックを含み得、各畳み込みブロックは１つ又は複数の２次元畳み込み層(Ｃｏｎｖ２Ｄ)を含む。３次元畳み込みネットワークは、３次元畳み込み演算を完了した後に、２次元畳み込みネットワークにおける複数の畳み込みブロックを採用して３次元畳み込み特徴情報に対して２次元畳み込み演算を順次行い、フュージョンモジュールにより各畳み込みブロックによって出力された畳み込み特徴をフュージョンして、畳み込み特徴セットを取得してもよい。

図１ｃを参照して、２次元畳み込みネットワークに三个畳み込みブロックを含むことを例にして、ＢＬＯＣＫ２、ＢＬＯＣＫ３、ＢＬＯＣＫ４のような各２次元畳み込みブロックは、１つ又は複数の２次元畳み込み層を含んでもよく、例えば、ＢＬＯＣＫ２は、３つの畳み込みカーネルが３×３(２５６)である２次元畳み込み層を含む。具体的に、３次元畳み込みネットワークは、３次元畳み込み特徴情報の抽出を完了した後に、抽出された３次元畳み込み特徴情報を２次元畳み込みネットワークにおけるＢＬＯＣＫ２に入力し、ＢＬＯＣＫ２はその中の複数の２次元畳み込み層(畳み込みカーネルが３×３である)により入力された３次元畳み込み特徴情報に対して２次元畳み込み演算を行い、出力された畳み込み特徴を次のＢＬＯＣＫ３に入力し、同様に、ＢＬＯＣＫ３は、その中の複数の２次元畳み込み層(畳み込みカーネルが３×３である)により入力された特徴情報に対して２次元畳み込み演算を行い、出力された畳み込み特徴を次のＢＬＯＣＫ４に入力し、ＢＬＯＣＫ４は、その中の複数の２次元畳み込み層(畳み込みカーネルが３×３である)により入力された特徴情報に対して２次元畳み込み演算を行い、畳み込み特徴を出力してもよい。

本出願の実施例において、２次元畳み込みネットワークにおける畳み込みブロックにより３次元畳み込み特徴情報に対して２次元畳み込み演算を順次行った後に、各畳み込みブロックによって出力された畳み込み特徴をフュージョンして、全ての３次元ボクセルに対応する畳み込み特徴セットを取得してもよい。

一実施例において、特徴フュージョン効率及び正確性を向上するために、２次元畳み込みネットワークのうち一番目の畳み込みブロック以外の他の畳み込みブロックによって出力された畳み込み特徴に対して逆畳み込み処理をそれぞれ行って、他の畳み込みブロックの逆畳み込み特徴は一番目の畳み込みブロックによって出力された畳み込み特徴のサイズと同じなるようにして、フュージョンを容易にするとともにフュージョン後特徴の正確性を向上させる。

例えば、「各畳み込みブロックによって出力された畳み込み特徴をフュージョンして畳み込み特徴セットを取得する」ステップは、以下のステップを含んでもよい。即ち、
２次元畳み込みネットワークのうち一番目の畳み込みブロック以外の他の畳み込みブロックによって出力された畳み込み特徴のそれぞれに対して逆畳み込み処理を行って、他の畳み込みブロックの逆畳み込み特徴を取得し、逆畳み込み特徴のサイズは一番目の畳み込みブロックによって出力された畳み込み特徴のサイズと同じであるステップと、
一番目の畳み込みブロックによって出力された畳み込み特徴と他の畳み込みブロックの逆畳み込み特徴とをフュージョンして、畳み込み特徴セットを取得するステップとを含む。

例えば、図１ｃを参照して、ＢＬＯＣＫ４及びＢＬＯＣＫ３によって出力された畳み込み特徴に対して逆畳み込み演算(Ｄｅｃｏｎｖ)をそれぞれ行い、ＢＬＯＣＫ４及びＢＬＯＣＫ３によって出力された逆畳み込み特徴のサイズはＢＬＯＣＫ２によって出力された畳み込み特徴のサイズと同じとなるようにして、フュージョンモジュールを採用してＢＬＯＣＫ２によって出力された畳み込み特徴、ＢＬＯＣＫ３によって出力された逆畳み込み特徴及びＢＬＯＣＫ４によって出力された逆畳み込み特徴をフュージョンする。

なお、畳み込み特徴のフュージョン（融合とも呼ぶ）の形態は様々あり、例えば、特徴結合(Ｃｏｎｃａｔｅｎａｔｉｏｎ)を採用してフュージョンする。図１ｃを参照して、ＢＬＯＣＫ２によって出力された畳み込み特徴、ＢＬＯＣＫ３によって出力された逆畳み込み特徴及びＢＬＯＣＫ４によって出力された逆畳み込み特徴を接続して、畳み込み特徴セット(例えば、ｆｅａｔｕｒｅｍａｐ)を取得してもよい。

上記のステップにより３次元ボクセルの特徴情報を取得した後に、３次元ボクセルの特徴情報に対して３次元畳み込み、２次元畳み込み演算を行って、全ての３次元ボクセルに対応する畳み込み特徴セットを抽出してもよい。

１０４において、畳み込み特徴セットに基づいて候補物体領域の初期ポジショニング情報を確定する。

なお、候補物体領域は、２次元領域（２Ｄ領域）であってもよいし、３次元領域（３Ｄ領域）であってもよく、具体的に、実際ニーズに応じて決めてもよい。実際の適用において、ボックスの形態を採用して候補物体領域を標識する場合、物体ボックス、ボックス又は検出ボックスなどと呼んでもよい。

なお、候補物体領域の初期ポジショニング情報は、候補物体領域の位置情報及びサイズ情報を含んでもよい。なお、位置情報は、候補物体領域における参照点の位置情報により示され、当該参照点は実際ニーズに応じて設定されもよく、例えば、候補物体領域の中心点を参照点として設定してもよい。３次元の候補物体領域を例にして、候補物体領域の位置情報は当該候補物体領域の中心点の３Ｄ座標、例えば(ｘ、ｙ、ｚ)を含んでもよい。

なお、候補物体領域のサイズ情報は、候補物体領域のサイズパラメータを含んでもよく、例えば、候補物体領域が２Ｄ領域である場合、当該候補物体領域のサイズパラメータは長ｌ*幅ｗを含んでもよく、候補物体領域が３Ｄ領域である場合、当該候補物体領域のサイズパラメータは長ｌ*幅ｗ*高ｈなどを含んでもよい。

また、幾つかのシーンにおいて、物体の向きは重要な参照情報である。従って、幾つかの実施例において、候補物体領域の初期ポジショニング情報は候補物体領域の向き、例えば、前向き、後ろ向き、下向き、上向きなどをさらに含んでもよく、当該候補物体領域の向きはシーンにおける物体の向きを表すことができる。実際の適用において、候補物体領域の向きは、角度に基づいて表されてもよく、例えば、２つの向きを定義し、それぞれ、０°及び９０°である。

一実施例において、回転角度を採用して物体の向きを示してもよい。当該回転角度は、Ｚ軸周り（垂直方向）の回転角度である。

例えば、３次元候補物体領域を例にして、候補物体領域の初期ポジショニング情報は７次元パラメータを含んでもよく(回帰パラメータと呼んでもよい)、具体的に、領域中心点の座標(ｘｙｚ)、領域のサイズ(長、幅、高ｌｗｈ)、Ｚ軸周り（垂直方向）の回転角度(ｔｈｅｔａ))を含む。

本出願の実施例において、畳み込み特徴セットに基づいて候補物体領域の初期ポジショニング情報を確定する形態は様々あり、例えば、３次元ボクセルの畳み込み特徴セットに基づいて候補物体領域の初期ポジショニング情報を予測したり、候補領域ネットワークに基づいて候補物体領域の初期ポジショニング情報を予測したりしてもよい。

一実施例において、候補物体領域、例えば、候補ボックスの生成の精度を向上させ、さらに物体検出の正確性を向上させるために、まず、各３次元ボクセル又は点群における点に対して、１つの参照物体領域を予め設置し、当該参照物体領域はアンカー(ａｎｃｈｏｒ)物体領域と呼んでもよく、実際の適用において、ボックスで領域を示し可能な場合、アンカーボックス(ａｎｃｈｏｒ)又は参照ボックスとも呼んでもよい。そして、畳み込み特徴セットに基づいて、真の物体領域に対する参照物体領域のポジショニングオフセット情報、及び３次元ボクセルに対応する物体のタイプを予測し、これら２つの情報に基づいて参照物体領域、例えば、参照ボックスに対して、最適化処理のような調整を行って、候補物体領域の初期ポジショニング情報を取得する。

具体的に、「畳み込み特徴セットに基づいて候補物体領域の初期ポジショニング情報を確定する」ステップは、以下のステップを含んでもよい。即ち、
畳み込み特徴セットに基づいて、３次元ボクセルに対応するポジショニングオフセット情報、及び物体のタイプを予測し、ポジショニングオフセット情報は、真の物体領域に対する３次元ボクセルに対応する参照物体領域の初期ポジショニングオフセット情報であるステップと、
ポジショニングオフセット情報及び物体のタイプに基づいて、当該３次元ボクセルに対応する参照物体領域を調整して、候補物体領域の初期ポジショニング情報を取得するステップとを含む。

なお、ポジショニングオフセット情報は、真の物体領域に対する３次元ボクセルに対応する参照物体領域の初期ポジショニングオフセット情報、例えば、真のボックスに対する参照ボックスのポジショニングオフセット情報である。なお、ポジショニングオフセット情報は、位置オフセット情報(３次元座標ｘｙｚの座標オフセット)、サイズオフセット情報(長、幅、高のサイズオフセット)、角度オフセット情報(例えば、回転角度の角度オフセット)などを含んでもよく、例えば、７次元パラメータ(ｘ、ｙ、ｚ、ｈ、ｗ、ｌ、ｔｈｅｔａ)のオフセットである。

例えば、ポジショニングオフセット情報は、７次元パラメータ(回帰パラメータとも呼んでもよい)を含んでもよく、具体的に、参照物体領域と真の物体領域中心点との間の座標(ｘｙｚ)オフセット、参照物体領域と真の物体領域のサイズとの間のオフセット(長、幅、高ｌｗｈ)、参照物体領域及び真の物体領域のＺ軸(垂直方向)周りの回転角度の角度オフセットを含む。

なお、３次元ボクセルに対応する参照物体領域は予め設定された物体領域であってもよく、例えば、予め３次元ボクセルに対して確立された物体領域であり、例えば、予め点群の各点に対して参照物体領域を確立し、点群の点を３次元ボクセルにマッピングした後、３次元ボクセルに対応する参照物体領域がボクセル内のマッピング点の参照物体領域であってもよく、例えば、３次元ボクセル内の特徴点の参照物体領域であってもよい。

なお、参照物体領域のサイズなどの情報は、予め設定される際、実際のニーズに応じて設定されてもよい。

本出願の実施例において、候補物体領域の生成の正確性を向上させるために、さらに、深層学習ネットワークを採用してポジショニングオフセット情報及び物体のタイプを予測してもよい。例えば、深層学習に基づく分類ネットワーク及び回帰ネットワークを採用して、物体のタイプ及びポジショニングオフセット情報をそれぞれ予測してもよい。

一実施例において、効率を向上させるために、分類ネットワーク及び回帰ネットワークを候補領域ネットワークに統合してもよい。即ち、候補領域ネットワークは分類ネットワーク及び回帰ネットワークをさらに含んでもよい。例えば、候補領域ネットワークにおいてフュージョンモジュールが各畳み込みブロックによって出力された畳み込み特徴をフュージョンして畳み込み特徴セットを取得した後、分類ネットワーク及び当該畳み込み特徴セットに基づいて３次元ボクセルに対する物体分類を行って、３次元ボクセルに対応する物体のタイプを取得してもよく、回帰ネットワーク及び当該畳み込み特徴セットに基づいて、３次元ボクセルに対応するポジショニングオフセット情報を予測する。

例えば、図１ｃを参照して、フュージョンモジュールが、２次元畳み込みネットワークにおける各畳み込みブロックによって出力された畳み込み特徴をフュージョンして、畳み込み特徴セットを取得し、そして、畳み込み特徴セットをそれぞれ回帰ネットワーク(ｒｅｇ)及び分類ネットワーク(ｃｌｓ)に入力し、回帰ネットワークは畳み込み特徴セットに基づいて、真の物体領域に対する３次元ボクセルに対応する参照物体領域のポジショニングオフセット情報を予測してもよく、分類ネットワークが、畳み込み特徴セットに基づいて３次元ボクセルに対応する物体のタイプを予測してもよい。

なお、回帰ネットワーク(ｒｅｇ)及び分類ネットワーク(ｃｌｓ)は、１つ又は複数の全結合層(ＦｕｌｌｙＣｏｎｎｅｃｔｅｄ、ＦＣ)から構成されてもよい。

本出願の実施例において、ポジショニングオフセット情報及び物体のタイプを予測した後、予測されたポジショニングオフセット情報及び物体のタイプに基づいて、３次元ボクセルに対応する参照物体領域に対して最適化調整を行ってもよい。例えば、物体のタイプに基づいて３次元ボクセルに対応する参照物体領域から選別し、そして、ポジショニングオフセット情報に基づいて、選別後に残った物体領域を修正する。

例えば、「ポジショニングオフセット情報及び物体のタイプに基づいて３次元ボクセルに対応する参照物体領域を調整して、候補物体領域の初期ポジショニング情報を取得する」ステップは、以下のステップを含んでもよい。即ち、
物体のタイプに応じて、参照物体領域を選別し、選別後物体領域を取得するステップと、
選別後物体領域のポジショニングオフセット情報に基づいて、選別後物体領域のポジショニング情報を修正して、候補物体領域の初期ポジショニング情報を取得するステップとを含む。

例えば、参照物体領域から、物体のタイプが予め設定されたタイプである領域を選択したり、予め設定されたタイプの領域などをフィリングにより除外したりしてもよい。

なお、ポジショニング情報の修正の形態は様々あり、例えば、選別後物体領域のポジショニング情報は、７次元回帰パラメータ、例えば(ｘ、ｙ、ｚ、ｈ、ｗ、ｌ、ｔｈｅｔａ) を含む場合、参照物体領域の元の７次元回帰パラメータと各パラメータのオフセットとを加算し、加算した７次元回帰パラメータを候補物体領域の初期７次元回帰パラメータ、即ち、候補物体領域の初期ポジショニング情報としてもよい。

本出願の実施例は、上記の形態により、候補物体領域の初期ポジショニング情報、例えば、７次元回帰パラメータ(ｘ、ｙ、ｚ、ｈ、ｗ、ｌ、ｔｈｅｔａ)を取得したり、予測により得られたりしてもよい。

１０５において、点群における候補物体領域内に位置している目標点を確定する。

候補物体領域を確定した後、点群から候補物体領域内に位置している目標点を選択してもよい。具体的に、点群における点の位置情報(例えば、３次元座標)、及び候補物体領域の初期ポジショニング情報(例えば、３次元座標、サイズなど)に基づいて、候補物体領域内に位置している目標点を確定してもよい。

実際の適用において、点群から候補物体領域、例えば、候補ボックス内に位置している点を切り取ってもよい。

１０６において、目標点の位置情報、及び目標畳み込み特徴情報に基づいて、候補物体領域の初期ポジショニング情報を調整して、目標物体領域のポジショニング情報を取得してもよい。なお、目標畳み込み特徴情報は、畳み込み特徴セットにおける目標点位置に対応する目標畳み込み特徴である。

候補物体領域内に位置している目標点を選択した後、目標点の位置情報を取得し、畳み込み特徴セットから目標点位置に対応する畳み込み特徴情報を取得してもよい。例えば、先に点群における点を３次元ボクセルにマッピングしたので、目標点の位置情報に基づいて、そのマッピングした３次元ボクセルを確定することで、畳み込み特徴セットから当該３次元ボクセルに対応する畳み込み特徴情報を抽出してもよい。本出願の実施例では、これらの２つの情報を特徴情報として候補物体領域の初期ポジショニング情報を修正してもよい。

なお、目標点の位置情報及び目標畳み込み特徴情報に基づいて候補物体領域の初期ポジショニング情報を調整する形態は様々あり、例えば、この２種の情報に基づいて候補物体領域のポジショニングオフセットを予測し、そして、当該ポジショニングオフセットに基づいて候補物体領域の初期ポジショニング情報を修正してもよく、あるいは、直接にこの２種の情報基づいて候補物体領域のポジショニング情報を予測すればよい。

なお、目標物体領域は、最終的に出力された物体領域であり、初期ポジショニング情報が調整された候補物体領域であってもよい。

一実施例において、「目標点の位置情報及び目標畳み込み特徴情報に基づいて、候補物体領域の初期ポジショニング情報を調整して、目標物体領域のポジショニング情報を取得する」ステップは、以下のステップを含んでもよい。即ち、

(１)目標点の位置情報と目標畳み込み特徴情報とをフュージョンして、候補物体領域の領域特徴情報を取得する。

なお、位置情報と畳み込み特徴情報とのフュージョン形態は様々あり、例えば、一実施例において、特徴の紛失を回避することを考慮し、目標畳み込み特徴情報に基づいて目標点の特徴重みを算出し、そして、重みに基づいて目標点の位置特徴を調整して、候補領域の領域特徴情報を取得してもよい。

具体的に、「目標点の位置情報と目標畳み込み特徴情報とをフュージョンして、候補物体領域の領域特徴情報を取得する」ステップは、以下のステップを含む。即ち、
目標点の位置情報と目標畳み込み特徴情報とをフュージョンして、フュージョン特徴情報を取得し、例えば、目標点の位置情報と目標畳み込み特徴情報とを接続(Ｃｏｎｃａｔｅｎａｔｉｏｎ)して、フュージョン特徴情報を取得するステップと、
目標点の目標畳み込み特徴情報に対して次元低減処理を行って、目標点の特徴重みを取得するステップと、
特徴重みに基づいてフュージョン特徴情報に対して特徴演算を行って、演算後特徴情報を取得し、例えば、特徴重みがｎｘ１の特徴重みベクトルである場合、ここでのｎが目標点の数であり、フュージョン特徴情報がフュージョン特徴ベクトルｎｘ２５６を含む場合、ｎｘ１特徴重みベクトルとフュージョン特徴ベクトルｎｘ２５６とを乗算し、即ち、ベクトルの積(Ｅｌｅｍｅｎｔ-ｗｉｓｅｍｕｌｔｉｐｌｉｃａｔｉｏｎ)を採用して特徴演算を行うステップと、
演算後特徴情報に対してダウンサンプリング操作を行って、候補物体領域の領域特徴情報を取得し、例えば、ｍａｘｐｏｏｌｉｎｇ操作などを採用するステップと
を含む。

一実施例において、フュージョンを容易にするとともに特徴の正確性を向上させるために、フュージョン特徴情報の特徴の次元を増加してもよく、そして、特徴重みに基づいて処理してもよい。例えば、「特徴重みに基づいてフュージョン特徴情報に対して特徴演算を行って、演算後特徴情報を取得する」ステップは、以下のステップを含んでもよい。
フュージョン特徴情報の特徴次元に対して次元増加を行って、処理後特徴情報を取得するステップと、
特徴重みに基づいて処理後特徴情報に対して特徴演算を行って、演算後特徴情報を取得するステップとを含む。

一実施例において、特徴の非線形性を高めるために、特徴の重みを確定するプロセスで活性化関数を追加してもよく、例えば、「目標畳み込み特徴情報に対して次元低減処理を行って、目標点の特徴重みを取得する」ステップは、以下のステップを含んでもよい。即ち、
目標畳み込み特徴情報に対して次元低減処理を行って、初期特徴重みを取得するステップと、
活性化関数に基づいて初期特徴重みを処理して、目標点の特徴重みを取得するステップとを含む。
なお、活性化関数はｓｉｇｍｏｉｄなどの関数を採用してもよい。

物体検出の効率及び精度を向上させるために、深層学習ネットワークを採用して目標点の位置情報と目標畳み込み特徴情報とのフュージョンを実現してもよい。これにより、候補物体領域の領域特徴情報を構築する。なお、上記の特徴次元の増減は全結合層を採用して実現することができる。例えば、全畳み込みネットワーク(ＦｕｌｌｙＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｔｗｏｒｋｓ、ＦＣＮ)を採用して実現してもよい。

例えば、図１ｄを参照し、領域精錬ネットワーク(ＲｅｆｉｎｅｒＮｅｔ)を提供し、いくつかの全結合層及びフュージョンモジュール(Ｆｕｓｉｏｎｍｏｄｕｌｅ)、ダウンサンプリングモジュールを含み、当該フュージョンモジュールは、特徴結合モジュール(Ｃｏｎｃａｔｅｎａｔｉｏｎ)、即ち、図中の「Ｃ」モジュール、並列に接続される全結合層グループ、活性化処理モジュール及びベクトル乗算モジュールである「Ｍ」モジュールを含む。

候補物体領域の初期ポジショニング情報を取得した後に、点群から当該候補物体領域内に位置している目標点を切り取って、目標点の位置情報を位置特徴(ｎｘ４、当該ｎは目標点の数である)、例えばＣｏｏｒｄｉｎａｔ(座標)としてもよい。また、ｆｅａｔｕｒｅｍａｐのような畳み込み特徴セットから、目標点位置に対応する畳み込み特徴情報(ＣｏｎｖｏｌｕｔｉｏｎＦｅａｔｕｒｅ)、例えば特徴ベクトルｎｘＣを抽出した後、位置特徴及び畳み込み特徴情報をそれぞれ領域精錬ネットワークに入力する。

領域精錬ネットワークにおける全結合層は、位置特徴ベクトルｎｘ４をｎｘ１２８の位置特徴ベクトルとしてマッピングしてフュージョンモジュールに入力する。フュージョンモジュールにおける特徴結合モジュール、即ち、「Ｃ」モジュールは、畳み込み特徴ベクトルｎｘＣと、マッピングしたｎｘ１２８位置特徴ベクトルとをフュージョンして、２つの全結合層によりフュージョン後特徴ベクトルをｎｘ２５６のフュージョン特徴ベクトルとしてマッピングするとともに、フュージョンモジュールは、ｎｘ１２８及びｎｘ１の全結合層により、ｎｘＣ畳み込み特徴ベクトルをｎｘ１の畳み込み特徴ベクトル(即ち、目標点の特徴重みベクトル)としてマッピングする。また、活性化処理モジュールは、活性化関数、例えばｓｉｇｍｏｉｄを採用してｎｘ１の畳み込み特徴ベクトルに対して活性化処理を行い、ベクトル乗算モジュールである「Ｍ」モジュールは、活性化処理されたｎｘ１畳み込み特徴ベクトルとｎｘ２５６のフュージョン特徴ベクトルに対してベクトル乗算処理を行って、乗算した特徴ベクトルを出力する。

そして、乗算した特徴ベクトルを２つの全結合層を介して、順次に特徴ベクトルをｎｘ２５６及びｎｘ５１２の特徴ベクトルとしてマッピングする。そして、ダウンサンプリングモジュールを利用してｎｘ５１２の特徴ベクトルに対してダウンサンプリング操作を行って、５１２個の特徴を取得する。当該５１２個の特徴は候補物体領域の領域特徴である。

(２)領域特徴情報に基づいて真の物体領域に対する候補物体領域のポジショニングオフセット情報を、予測ポジショニングオフセット情報として予測する。

例えば、回帰ネットワークにより、領域特徴情報に基づいてポジショニングオフセット情報を予測してもよい。一実施例において、効率を向上させるために、当該回帰ネットワークを領域精錬ネットワークに統合してもよく、例えば、図１ｄを参照し、領域精錬ネットワーク(ＲｅｆｉｎｅｒＮｅｔ)は回帰ネットワーク(ｒｅｇ)をさらに含んでもよく、ダウンサンプリング操作により５１２個の領域特徴を取得した後、回帰ネットワーク(ｒｅｇ) に基づいてポジショニングオフセット予測を行って、予測ポジショニングオフセット情報を取得し、例えば、位置オフセット情報(３次元座標ｘｙｚの座標オフセット)、サイズオフセット情報(長、幅、高のサイズオフセット)、角度オフセット情報(例えば、回転角度の角度オフセット)など、例えば７次元パラメータ(ｘ、ｙ、ｚ、ｈ、ｗ、ｌ、ｔｈｅｔａ)のオフセットｏｆｆｓｅｔを含んでもよい。

(３)予測ポジショニングオフセット情報に基づいて候補物体領域の初期ポジショニング情報を修正して、目標物体領域のポジショニング情報を取得する。

候補物体領域の予測ポジショニングオフセット情報を取得した後、当該予測ポジショニングオフセット情報に基づいて候補物体領域の初期ポジショニング情報を修正して、目標物体領域のポジショニング情報を取得してもよい。

なお、ポジショニング情報を修正する形態は様々あり、例えば、候補物体領域の初期ポジショニング情報が７次元回帰パラメータ、例えば、(ｘ、ｙ、ｚ、ｈ、ｗ、ｌ、ｔｈｅｔａ)を含む場合、候補物体領域の元の７次元回帰パラメータと各パラメータのオフセットとを加算して、加算した７次元回帰パラメータを、候補物体領域の最適化された７次元回帰パラメータとすると、目標物体領域の７次元回帰パラメータを得ることができる。

以下に、候補領域ネットワーク及び領域精錬ネットワークのトレーニングについて説明する。

候補領域ネットワークのトレーニングについて、本出願の実施例は、タイプロス及びポジショニングオフセットロスを採用してトレーニングしてもよく、具体的に、以下の通りである。

(１)トレーニングサンプルセットを取得し、トレーニングサンプルセットはサンプルシーンのサンプル点群を含む。

なお、トレーニングサンプルセットは複数のサンプルシーンのサンプル点群を含んでもよく、サンプル点群は点の位置情報を含み、さらに点の反射強度情報などを含んでもよい。

実際のトレーニングプロセスにおいて、サンプルシーンは、さらに、サンプル物体のタイプ、真の物体領域のポジショニング情報がマーキングされてもよく、又は、一実施例において、真の物体領域とサンプル参照物体領域のサンプルオフセット情報をさらにマーキングされてもよく、当該サンプル参照物体領域は点群中点に対応する所定の物体領域であり、例えば、サンプルシーンの空間座標系において各サンプル点に対して確立された参照領域、例えば、参照ボックス(ａｎｃｈｏｒ)などである。

(２)サンプル点群における点の位置情報を３次元ボクセル表現にマッピングして、サンプル３次元ボクセルのサンプル特徴情報を取得する。

具体的に、３次元ボクセル表現形態は上記の実施例の説明を参照すればよい。

(３)予め構築された候補領域ネットワーク及びサンプル特徴情報に基づいてサンプル３次元ボクセルに対応するオフセット情報及び物体のタイプを予測して、予測ポジショニングオフセット情報及び予測タイプを取得する。

具体的に、候補領域ネットワークの予測プロセスは上記の実施例及び図１ｃに対する記載を参照してもよい。

(４)真のオフセット情報に対する予測ポジショニングオフセット情報のポジショニングオフセットロス、真の物体のタイプに対する予測物体のタイプのタイプロスを算出する。

なお、真のオフセット情報は、真の物体領域のポジショニング情報と参照物体領域のポジショニング情報とにより算出されてもよい。例えば、真の物体領域と参照物体領域の７次元回帰パラメータ(ｘ、ｙ、ｚ、ｈ、ｗ、ｌ、ｔｈｅｔａ)のオフセット値(△ｘ、△ｙ、△ｚ、△ｈ、△ｗ、△ｌ、△ｔｈｅｔａ)などを算出する。

なお、ポジショニングオフセットロスは、真のオフセット情報に対する予測ポジショニングオフセット情報のオフセットロス、即ち、誤差である。一実施例において、ポジショニング情報が領域の回帰パラメータを含む場合、当該ポジショニングオフセットロスは、回帰パラメータロスＬｒｅｇと呼んでもよい。

例えば、候補領域ネットワークのトレーニングは以下のロスであり得る。
Ｌｏｓｓ＝Ｌｃｌｓ+αＬｒｅｇ、その中、Ｌｃｌｓはタイプロス、Ｌｒｅｇは回帰パラメータロスである。

例えば、ボックスで領域を示す場合、ｒｅｇｒｅｓｓｉｏｎｌｏｓｓ(回帰ロス)について、予測するオフセット(ｏｆｆｓｅｔ)は真のボックスに対する参照ボックスのオフセットであり、座標オフセット(ｘｙｚオフセット、△１ｘ、△１ｙ、△１ｚ)、長、幅、高オフセット(ｌｗｈオフセット、△１ｈ、△１ｗ、△１ｌ)、角度オフセット(θオフセット、△１θ)を含み、演算形態は以下の通りである。

その中、サブスクリプト（下付き添え字）のｇは、真のボックス(ｇｒｏｕｄｔｒｕｔｈ)の値を示し、サブスクリプトのａは、アンカー(ａｎｃｈｏｒ)ボックスの値を示す。

(５)ポジショニングオフセットロス及びタイプロスを組み合わせて予め設定された候補領域ネットワークをトレーニングして、トレーニングされた候補領域ネットワークを取得する。

具体的に、ポジショニングオフセットロス及びタイプロスに応じて候補領域ネットワークにおけるネットワークパラメータ、例えば、パラメータの重みなどを調整してもよい。

上記のプロセスにより、大量のサンプルシーンの点群データを採用して候補領域ネットワークをトレーニングすることができ、ネットワークパラメータを継続的に調整することで、正確性の高い候補領域ネットワークを得ることができる。

領域精錬ネットワークのトレーニングについて
当該領域精錬ネットワークは、第１段階で候補領域ネットワークを採用して予測された候補物体領域をより正確に予測するために用いられるため、トレーニング中に、候補領域ネットワークのトレーニングで使用されるポジショニングオフセットロスを回帰パラメータロス(ｒｅｇｒｅｓｓｉｏｎｌｏｓｓ)として使用することができる。

本出願の実施例において、候補領域ネットワークと共同でトレーニングする形態を採用して領域精錬ネットワークをトレーニングすることができる。例えば、サンプルシーンの点群データを取得した後に、３次元ボクセル表現にマッピングし、候補領域ネットワークに入力し、上記で説明された候補領域ネットワークのトレーニング形態に従って参照領域(ａｎｃｈｏｒ領域)に対する候補領域のポジショニングオフセットを予測し、ポジショニングオフセットに基づいて参照領域(ａｎｃｈｏｒ領域)のポジショニング情報を修正することで、候補領域のポジショニング情報を取得する。そして、上記で説明された領域特徴構成形態に従って候補領域の領域特徴情報を抽出し領域精錬ネットワークに入力し、領域精錬ネットワークに基づいて候補領域のオフセット情報を予測することで、候補領域の予測オフセット情報を取得し、真のオフセット情報に対する予測オフセット情報のオフセットロスを算出し、当該オフセットロスに基づいて領域精錬ネットワークをトレーニングすることができる。

なお、ポジショニングオフセットロスは、真のオフセット情報に対する予測ポジショニングオフセット情報のオフセットロス、即ち、誤差であり、一実施例において、ポジショニング情報が領域の回帰パラメータを含む場合、当該ポジショニングオフセットロスは回帰パラメータロス(例えば、ｒｅｇｒｅｓｓｉｏｎｌｏｓｓ)と呼んでもよい。

なお、領域精錬ネットワークにより予測されたオフセット情報(ｏｆｆｓｅｔ)は、真の領域に対する候補領域のオフセットであり、例えば、ボックス識別子領域を例にすると、領域精錬ネットワークによって予測されたオフセットは、座標オフセット(ｘｙｚオフセット、△２ｘ、△２ｙ、△２ｚ)、長、幅、高オフセット(ｌｗｈオフセット、△２ｈ、△２ｗ、△２ｌ)、角度オフセット(θオフセット、△２θ)を含んでもよく、算出形態は、以下の通りである。

ここで、サブスクリプト（下付き添え字）のｇは、真のボックス(ｇｒｏｕｄｔｒｕｔｈ)の値を示し、サブスクリプトのａは、アンカーボックス(ａｎｃｈｏｒ)の値を示し、サブスクリプトのｐは、候補領域ネットワークにより予測された候補ボックスの値を示す。

以上から分かるように、シーンにおける、点の位置情報を含む点群を取得し、点群を３次元ボクセル表現にマッピングして、３次元ボクセルの特徴情報を取得し、３次元ボクセルの特徴情報に対して畳み込み操作を行って、畳み込み特徴セットを取得し、畳み込み特徴セットに基づいて候補物体領域の初期ポジショニング情報を確定し、点群における候補物体領域内に位置している目標点を確定し、目標点の位置情報及び目標畳み込み特徴情報に基づいて、候補物体領域の初期ポジショニング情報を調整して、目標物体領域のポジショニング情報を取得することができる。ここで、目標畳み込み特徴情報は、畳み込み特徴セットにおける目標点位置に対応する畳み込み特徴である。当該スキームは、シーンにおける点群データを採用して物体検出を行うとともに、点群の位置情報及び畳み込み特徴をフュージョンするため、ポジショニング情報の紛失をできるだけ減少する。これにより、物体検出の正確度を効果的に向上させ、特に、３Ｄ物体の検出に適する。

また、当該スキームでさらに提供される候補領域ネットワーク及び領域精錬ネットワークは、非常に効率的な実行速度を備えており、実用性を大幅に拡張することができる。

以下に、以上の実施例で説明された方法に応じて、例を挙げてさらに詳細に説明する。

本実施例において、当該物体検出装置を具体的に電子機器に統合することを例に説明する。

図２ａに示すように、物体検出方法であって、その具体的なフローは以下の通りである

２０１において、電子機器は、シーンにおける、点の位置情報を含む点群を取得する。

例えば、電子機器は、点群収集装置からシーンの点群を取得してもよい。当該点群は点の位置情報を含み、当該点の位置情報は３次元座標ｘｙｚ及び回転角度を含んでもよい。

例えば、図２ｂを参照して、ｎｘ４ベクトル表現の点群を取得でき、ｎは点群における点の数であり、各点は１つの１ｘ４の４次元ベクトルに対応し、当該ベクトルの次元は３次元座標及び反射率に対応する。

２０２において、電子機器は、点群を３次元ボクセル表現にマッピングして、３次元ボクセルの特徴情報を取得する。

例えば、電子機器は、シーン点群の範囲に基づいてそれに対応するサイズのボクセルブロック(例えば、立方体であるボクセルブロック)を構築し、ボクセルブロックを分割することで、複数の３次元ボクセルを取得し、シーンの点群を３次元ボクセルにマッピングし、３次元ボクセルにおけるマッピング点の位置情報に基づいて３次元ボクセルの特徴情報を構築する。

例えば、図２ｂを参照して、点群に対して３次元ボクセル化処理(Ｖｏｘｅｌｉｚｅ)を行って、ｎｘ４のベクトルを３Ｄボクセル(ＬｘＷｘＨｘ４)表現にマッピングすることができる。具体的に、３Ｄシーンの範囲を確定して、ボクセルブロックを構築し、それを複数のＶｏｘｅｌの表現に分割し、そして、各点をＶｏｘｅｌにマッピングし、他の煩雑な操作を行うことなく、マッピング点のあるＶｏｘｅｌについて、直接その中のあるマッピング点の４次元ベクトルを特徴として取り、マッピング点のないＶｏｘｅｌについて、全ての特徴が０である。

２０３において、電子機器は、３次元ボクセルの特徴情報に対して３次元畳み込み演算及び２次元畳み込み演算を順次行って、畳み込み特徴セットを取得する。

例えば、図２ｂを参照して、３次元ボクセルの特徴情報を取得した後に、ＶｏｘｅｌＲＰＮ(ボクセル候補領域ネットワーク)、即ち、Ｖｏｘｅｌｉｎｐｕｔ(ボクセル入力)を入力してもよい。例えば、図１ｃに示す候補領域ネットワークを参照して、８００ｘ７０４ｘ２０ｘ４(即ち、ＬｘＷｘＨｘ４)である３次元特徴情報をＶｏｘｅｌＲＰＮに入力してもよい。

ＶｏｘｅｌＲＰＮは複数のＢＬＯＣＫ(畳み込み操作を実行する畳み込みユニット又は畳み込みブロック)を含み、図１ｃを参照して、ＶｏｘｅｌＲＰＮは、ＢＬＯＣＫ１、ＢＬＯＣＫ２、ＢＬＯＣＫ３、ＢＬＯＣＫ４を含み、ＢＬＯＣＫ１における３次元畳み込み層(Ｃｏｎｖ３Ｄ)により３次元ボクセルの特徴情報に対して３次元畳み込み演算を行って、演算された３次元畳み込み特徴情報をＢＬＯＣＫ２に入力し、ＢＬＯＣＫ２、ＢＬＯＣＫ３、ＢＬＯＣＫ４における２次元畳み込み層(Ｃｏｎｖ２Ｄ)により２次元畳み込み演算を行った後、ＢＬＯＣＫ４及びＢＬＯＣＫ３によって出力された逆畳み込み特徴のサイズがＢＬＯＣＫ２によって出力された畳み込み特徴のサイズと同じになるように、ＢＬＯＣＫ４及びＢＬＯＣＫ３によって出力された畳み込み特徴に対して逆畳み込み演算(Ｄｅｃｏｎｖ)を行い、フュージョンモジュールを採用してＢＬＯＣＫ２、ＢＬＯＣＫ３及びＢＬＯＣＫ４によって出力された特徴をフュージョンすることで、畳み込み特徴セット、例えば、ｆｅａｔｕｒｅｍａｐを取得する。

具体的に、畳み込み特徴セットの演算は、上記の実施例の説明を参照すればよい。

２０４において、電子機器は、畳み込み特徴セットに基づいて３次元ボクセルに対応するポジショニングオフセット情報及び物体のタイプを予測する。ここで、ポジショニングオフセット情報は、真の物体領域に対する３次元ボクセルに対応する参照物体領域の初期ポジショニングオフセット情報である。

例えば、図２ｂ及び図１ｃを参照して、畳み込み特徴マップを取得した後に、ＶｏｘｅｌＲＰＮにおける回帰ネットワーク(ｒｅｇ)及び分類ネットワーク(ｃｌｓ)により回帰及び分類をそれぞれ行うことができる。

なお、分類ネットワーク(ｃｌｓ)は、畳み込み特徴セットに基づいて物体のタイプを予測するために用いられ、回帰ネットワーク(ｒｅｇ)は、畳み込み特徴セットに基づいて真の物体領域に対する参照物体領域(ａｎｃｈｏｒ)のポジショニングオフセット情報、例えば、７次元回帰パラメータ(ｘ、ｙ、ｚ、ｈ、ｗ、ｌ、ｔｈｅｔａ)のオフセットを予測するために用いられる。

例えば、回帰ネットワークにより、真のボックスに対するアンカーボックス(即ち、参照ボックス)のパラメータオフセット、例えば、７次元回帰パラメータ(ｘ、ｙ、ｚ、ｈ、ｗ、ｌ、ｔｈｅｔａ)のオフセットを予測できる。

２０５において、電子機器は、初期ポジショニングオフセット情報及び物体のタイプに基づいて参照物体領域を調整して、候補物体領域及び候補物体領域の初期ポジショニング情報を取得する。

例えば、電子機器は、物体のタイプに応じて、参照物体領域を選別することで、選別後物体領域を取得し、選別後物体領域の初期ポジショニングオフセット情報に基づいて選別後物体領域のポジショニング情報を修正して、候補物体領域及び候補物体領域の初期ポジショニング情報を取得する。

例えば、図２ｂを参照して、ＶｏｘｅｌＲＰＮによりアンカーボックスのポジショニングパラメータオフセット及びタイプを予測した後に、タイプに基づいてアンカーボックスを選別し、ポジショニングパラメータオフセットに基づいて選別されたアンカーボックスを修正することにより、初期予測(ＩｎｉｔｉａｌＰｒｅｄｉｃｔｉｏｎ)された候補ボックスを取得してもよい。

２０６において、電子機器は、点群から候補物体領域内に位置している目標点を選択し、畳み込み特徴セットから目標点位置に対応する目標畳み込み特徴情報を選択する。

例えば、図２ｂ及び図１ｄを参照して、候補の３Ｄボックスを予測した後に、この３Ｄボックスを利用して点群からボックスにおける点群(ｎｘ４)を、３Ｄボックスの座標特徴(ＣｏｏｒｄｉｎａｔｅＦｅａｔｕｒｅ)として切り取る。

また、前のＶｏｘｅｌＲＰＮネットワークによって出力されたｆｅａｔｕｒｅｍａｐ特徴マップから各ボックス内の点に対応する位置でのＣｏｎｖｏｌｕｔｉｏｎ(畳み込み)特徴を、３Ｄボックスの畳み込み特徴(ＣｏｎｖｏｌｕｔｉｏｎＦｅａｔｕｒｅ)として探し出す。この２つの特徴を入力として、ＲｅｆｉｎｅｒＮｅｔ構成に入力する。

２０７において、電子機器は目標点の位置情報と目標畳み込み特徴情報とをフュージョンして、候補物体領域の領域特徴情報を取得する。

例えば、図２ｂ及び図１ｄを参照して、位置特徴及び畳み込み特徴をＲｅｆｉｎｅｒＮｅｔネットワークに入力した後に、ＲｅｆｉｎｅｒＮｅｔネットワークは、この２つの特徴をフュージョンして、３Ｄボックスの特徴を取得してもよい。具体的な形態は、上記の実施例の説明を参照すればよい。

２０８において、電子機器は、領域特徴情報に基づいて真の物体領域に対する候補物体領域のポジショニングオフセット情報を予測して、予測ポジショニングオフセット情報を取得する。

例えば、図２ｂ及び図１ｄを参照して、ＲｅｆｉｎｅｒＮｅｔネットワークにおける回帰ネットワーク(ｒｅｇ)によりポジショニングオフセット予測を行って、候補物体領域、例えば、真ボックスなどの真の物体領域に対する候補ボックスのポジショニングオフセット情報を取得してもよい。

例えば、位置オフセット情報(３次元座標ｘｙｚの座標オフセット)、サイズオフセット情報(長、幅、高のサイズオフセット)、角度オフセット情報(例えば、回転角度の角度オフセット)などを含んでもよく、例えば、７次元パラメータ(ｘ、ｙ、ｚ、ｈ、ｗ、ｌ、ｔｈｅｔａ)のオフセットｏｆｆｓｅｔである。

２０９において、電子機器は、予測ポジショニングオフセット情報に基づいて候補物体領域の初期ポジショニング情報を修正して、目標物体領域のポジショニング情報を取得する。

候補物体領域の予測ポジショニングオフセット情報を取得した後に、当該予測ポジショニングオフセット情報に基づいて候補物体領域の初期ポジショニング情報を修正し、ポジショニング情報が修正された候補物体領域を目標物体領域とし、修正されたポジショニング情報を当該目標領域のポジショニング情報としてもよい。即ち、本出願の実施例で最終的に取得しようとする目標物体領域及びそのポジショニング情報である。

図２ｂを参照して、ＲｅｆｉｎｅｒＮｅｔネットワークによりオフセットを予測した後に、予測オフセットに基づいて３Ｄボックスを修正し、最終的な正確な３Ｄボックスを取得し、物体検出を実現することができる。

本出願の実施例のスキームは、自動運転の分野に適用でき、自動運転中に本出願の実施例方法を採用して物体検出を実現し、例えば、図２ｃを参照して、本出願の実施例にかかる物体検出を採用して自動運転シーンでの車両、歩行者などの物体を検出することができる。

本出願の実施例は、シーンの点群データを採用して物体検出を行うとともに、点群の位置情報と畳み込み特徴とをフュージョンすることにより、ポジショニング情報の紛失をできるだけ減少し、物体検出の正確度及び効率を効果的に向上させ、特に、３Ｄ物体検出に適する。また、当該スキームは、候補領域ネットワーク及び領域精錬ネットワークを利用して物体検出を行うことで、物体検出効率を大幅に向上させることができる。

以上の方法をより良く実施するために、それに応じて、本出願の実施例では、さらに、物体検出装置を提供し、当該物体検出装置は、具体的に、例えば、ネットワーク装置などの電子機器に統合されてもよく、ネットワーク装置はサーバーであってもよいし、端末、車載装置、ドローンなどの機器であってもよく、例えば、ミニ処理ボックスなどであってもよい。

例えば、図３ａに示すように、当該物体検出装置は、
シーンにおける、点の位置情報を含む点群を取得するための点群取得ユニット３０１と、
前記点群を３次元ボクセル表現にマッピングして、３次元ボクセルの特徴情報を取得するためのボクセルマッピングユニット３０２と、
前記３次元ボクセルの特徴情報に対して畳み込み操作を行って、畳み込み特徴セットを取得するための畳み込みユニット３０３と、
前記畳み込み特徴セットに基づいて候補物体領域の初期ポジショニング情報を確定するための候補領域取得ユニット３０４と、
前記点群における候補物体領域内に位置している目標点を確定するための選択ユニット３０５と、
前記目標点の位置情報及び目標畳み込み特徴情報に基づいて、前記候補物体領域の初期ポジショニング情報を調整して、目標物体領域のポジショニング情報を取得するための調整ユニット３０６とを含むことができる。ここで、前記目標畳み込み特徴情報は、前記畳み込み特徴セットにおける目標点位置に対応する畳み込み特徴情報である。

一実施例において、図３ｂを参照して、前記調整ユニット３０６は、
前記目標点の位置情報と目標畳み込み特徴情報とをフュージョンして、候補物体領域の領域特徴情報を取得するためのフュージョンサブユニット３０６１と、
前記領域特徴情報に基づいて真の物体領域に対する前記候補物体領域のポジショニングオフセット情報を、予測ポジショニングオフセット情報として予測するための第１の予測サブユニット３０６２と、
前記予測ポジショニングオフセット情報に基づいて前記候補物体領域の初期ポジショニング情報を修正して、目標物体領域のポジショニング情報を取得するための修正サブユニット３０６３とを含むことができる。

一実施例において、前記フュージョンサブユニット３０６１は、具体的に、
前記目標点の位置情報と目標畳み込み特徴情報とをフュージョンして、フュージョン特徴情報を取得し、
前記目標点の目標畳み込み特徴情報に対して次元低減処理を行って、目標点の特徴重みを取得し、
前記特徴重みに基づいて前記フュージョン特徴情報に対して特徴演算を行って、演算後特徴情報を取得し、
前記演算後特徴情報に対してダウンサンプリング操作を行って、候補物体領域の領域特徴情報を取得するために用いられてもよい。

一実施例において、前記フュージョンサブユニット３０６１は、具体的に、前記フュージョン特徴情報の特徴次元に対して次元増加処理を行って処理後特徴情報を取得し、前記特徴重みに基づいて前記処理後特徴情報に対して特徴演算を行って、演算後特徴情報を取得するために用いられてもよい。

一実施例において、前記フュージョンサブユニット３０６１は、具体的に、前記目標点の目標畳み込み特徴情報に対して次元低減処理を行って、目標点の初期特徴重みを取得し、活性化関数に基づいて前記初期特徴重みを処理して、目標点の特徴重みを取得するために用いられてもよい。

一実施例において、図３ｃを参照して、前記畳み込みユニット３０３は、
前記３次元ボクセルの特徴情報に対して３次元畳み込み演算を行って、３次元ボクセルの３次元畳み込み特徴情報を取得するための３次元畳み込みサブユニット３０３１と、
前記３次元ボクセルの３次元畳み込み特徴情報に対して２次元畳み込み演算を行って、畳み込み特徴セットを取得するための２次元畳み込みサブユニット３０３２とを含むことができる。

一実施例において、３次元畳み込みサブユニット３０３１は、候補領域ネットワークにおける３次元畳み込みネットワークを採用して、前記３次元ボクセルの特徴情報に対して３次元畳み込み演算を行うために用いられてもよく、前記候補領域ネットワークは前記３次元畳み込みネットワークに接続された２次元畳み込みネットワークをさらに含み、前記２次元畳み込みネットワークは順次に接続された複数の畳み込みブロックを含む。
前記２次元畳み込みサブユニット３０３２は、前記２次元畳み込みネットワークにおける複数の畳み込みブロックを採用して前記３次元畳み込み特徴情報に対して２次元畳み込み演算を順次行って、各畳み込みブロックによって出力された畳み込み特徴をフュージョンして、畳み込み特徴セットを取得するために用いられてもよい。

一実施例において、２次元畳み込みサブユニット３０３２は、前記畳み込みブロックを採用して前記３次元畳み込み特徴に対して２次元畳み込み演算を順次行い、前記２次元畳み込みネットワークにおける一番目の畳み込みブロック以外の他の畳み込みブロックによって出力された畳み込み特徴に対して逆畳み込み処理を行って、他の畳み込みブロックの逆畳み込み特徴を取得し、一番目の畳み込みブロックによって出力された畳み込み特徴と他の畳み込みブロックの逆畳み込み特徴とをフュージョンして、畳み込み特徴セットを取得するために用いられる。ここで、前記逆畳み込み特徴と一番目の畳み込みブロックによって出力された畳み込み特徴とのサイズは、同じである。

一実施例において、図３ｄを参照して、前記候補領域取得ユニット３０４は、
前記畳み込み特徴セットに基づいて、３次元ボクセルに対応するポジショニングオフセット情報及び物体のタイプを予測する第２の予測サブユニットであって、前記ポジショニングオフセット情報は、真の物体領域に対する前記３次元ボクセルに対応する参照物体領域の初期ポジショニングオフセット情報である第２の予測サブユニット３０４１と、
前記ポジショニングオフセット情報及び物体のタイプに基づいて前記３次元ボクセルに対応する参照物体領域を調整して、候補物体領域の初期ポジショニング情報を取得するための調整サブユニット３０４２とを含むことができる。

一実施例において、前記調整サブユニット３０４２は、具体的に、
前記物体のタイプに応じて参照物体領域を選別して、選別後物体領域を取得し、
選別後物体領域のポジショニングオフセット情報に基づいて前記選別後物体領域のポジショニング情報を修正して、候補物体領域の初期ポジショニング情報を取得するために用いられてもよい。

一実施例において、前記畳み込みユニット３０３は、具体的に、
候補領域ネットワークにおける３次元畳み込みネットワークを採用して、前記３次元ボクセルの特徴情報に対して３次元畳み込み演算を行って、
前記２次元畳み込みネットワークにおける複数の畳み込みブロックを採用して前記３次元畳み込み特徴に対して２次元畳み込み演算を順次行い、
前記フュージョンモジュールを採用して前記２次元畳み込みネットワークにおける各畳み込みブロックによって出力された畳み込み特徴をフュージョンして、畳み込み特徴セットを取得するために用いられ、
前記候補領域ネットワークは、前記３次元畳み込みネットワークに接続された２次元畳み込みネットワークと、フュージョンモジュールと、フュージョンモジュールにそれぞれ接続された分類ネットワーク及び回帰ネットワークとをさらに含み、前記２次元畳み込みネットワークは順次に接続された複数の畳み込みブロックを含む。
前記第２の予測サブユニット３０４１は、前記分類ネットワーク及び前記畳み込み特徴セットに基づいて、３次元ボクセルに対する物体分類を行って、３次元ボクセルに対応する物体のタイプを取得し、前記回帰ネットワーク及び前記畳み込み特徴セットに基づいて、３次元ボクセルに対応するポジショニングオフセット情報を予測するために用いられる。

一実施例において、図３ｅを参照して、物体検出装置はトレーニングユニット３０７をさらに含むことができる。前記トレーニングユニット３０７は、具体的に、
サンプルシーンにおけるサンプル点群を含むトレーニングサンプルセットを取得し、
サンプル点群における点の位置情報を３次元ボクセル表現にマッピングして、サンプル３次元ボクセルのサンプル特徴情報を取得し、
予め構築された候補領域ネットワーク、及び前記サンプル特徴情報に基づいて、サンプル３次元ボクセルに対応するオフセット情報及び物体のタイプを予測して、予測ポジショニングオフセット情報及び予測タイプを取得し、
真のオフセット情報に対する予測ポジショニングオフセット情報のポジショニングオフセットロスを算出し、
真の物体のタイプに対する予測物体のタイプのタイプロスを算出し、
前記ポジショニングオフセットロスとタイプロスとを組み合わせて候補領域ネットワークをトレーニングして、トレーニングされた候補領域ネットワークを取得するために用いられてもよい。

具体的に実施する際、上記の各ユニットは、独立したエンティティとして実現されてもよいし、任意の組み合わせによって、同一又はいくつかのエンティティとして実現されてもよい。上記の各ユニットの具体的な実施は、前述した方法の実施例を参照すればよいが、ここで説明を省略する。

以上から分かるように、本実施例に係る物体検出装置は、点群取得ユニット３０１により、シーンにおける、点の位置情報を含む点群を取得し、ボクセルマッピングユニット３０２により前記点群を３次元ボクセル表現にマッピングして３次元ボクセルの特徴情報を取得し、畳み込みユニット３０３により、前記３次元ボクセルの特徴情報に対して畳み込み操作を行って、畳み込み特徴セットを取得し、候補領域取得ユニット３０４により前記畳み込み特徴セットに基づいて候補物体領域の初期ポジショニング情報を確定し、選択ユニット３０５により、前記点群から候補物体領域内に位置している目標点を選択し、調整ユニット３０６により、前記目標点の位置情報及び目標畳み込み特徴情報に基づいて、前記候補物体領域の初期ポジショニング情報を調整して、目標物体領域のポジショニング情報を取得することができる。ここで、前記目標畳み込み特徴情報は、前記畳み込み特徴セットにおける目標点位置に対応する畳み込み特徴情報である。当該スキームは、シーンにおける点群データを採用して物体検出を行うとともに、点群の位置情報及び畳み込み特徴をフュージョンするため、ポジショニング情報の紛失をできるだけ減少する。これにより、物体検出の正確度を効果的に向上させ、特に、３Ｄ物体の検出に適する。

本出願の実施例は、さらに、電子機器を提供し、図４に示すように、本出願の実施例に係る電子機器の構成の模式図を示し、具体的には、以下の通りである。

この電子機器は、１つ又は複数の処理コアを有するプロセッサ４０１、１つ又は複数のコンピュータ読み取り可能な記憶媒体を有するメモリ４０２、電源４０３、及び入力ユニット４０４などの構成要素を含んでもよい。当業者であれば理解できるように、図４に示された電子機器の構成は、電子機器を限定するものではなく、図示よりも多く又は少ない構成要素を含んでもよく、又はいくらかの構成要素を組み合わせたものであってもよく、又は構成要素の異なる配置を有してもよい。

プロセッサ４０１は、当該電子機器の制御センターであり、各種のインタフェース及び回線によって電子機器全体の各部分を接続し、メモリ４０２に記憶されたソフトウェアプログラム及び／又はモジュールを実行又は遂行して、メモリ４０２に記憶されたデータを呼び出すことにより、電子機器の各種の機能を実行してデータを処理し、電子機器を全体的に監視制御する。１つのオプションとして、プロセッサ４０１は、１つ又は複数の処理コアを含んでもよい。好ましくは、プロセッサ４０１には、アプリケーションプロセッサ及び変復調プロセッサが組み入れられてもよい。ここで、アプリケーションプロセッサは、主にオペレーティングシステム、ユーザインタフェース、及びアプリケーションなどを処理し、変復調プロセッサは、主に無線通信を処理する。理解できるように、上記変復調プロセッサは、プロセッサ４０１に組み入れられなくてもよい。

メモリ４０２は、ソフトウェアプログラム及びモジュールを記憶するために用いられてもよい。プロセッサ４０１は、メモリ４０２に記憶されたソフトウェアプログラム及びモジュールを実行することにより、各種の機能アプリケーション及びデータ処理を実行する。メモリ４０２は、主にプログラム記憶領域及びデータ記憶領域を含んでもよい。ここで、プログラム記憶領域には、オペレーティングシステム、少なくとも１つの機能に必要なアプリケーション（例えば、音声再生機能、画像再生機能など）などを記憶してもよい。データ記憶領域には、電子機器の使用に応じて作成されたデータなどを記憶してもよい。また、メモリ４０２は、高速ランダムアクセスメモリを含んでもよいし、不揮発性メモリを含んでもよく、例えば、少なくとも１つの磁気ディスク記憶デバイス、フラッシュメモリデバイス、又はその他の揮発性ソリッドステート記憶デバイスであってもよい。これに応じて、メモリ４０２は、メモリコントローラをさらに含んでもよい。これにより、プロセッサ４０１によるメモリ４０２へのアクセスが提供される。

電子機器は、各構成要素に電力を供給する電源４０３をさらに含む。好ましくは、電源４０３は、電源管理システムを介して、プロセッサ４０１と論理的に接続されてもよい。これにより、電源管理システムによって、充電、放電、及び電力消耗の管理などの機能を実現する。電源４０３は、１つ又は複数の直流又は交流電源、再充電システム、電源故障検出回路、電源変換器又はインバータ、電源状態指示器などの任意の構成要素を含んでもよい。

電子機器は、入力ユニット４０４をさらに含んでもよい。この入力ユニット４０４は、入力された数字や文字の情報を受信し、ユーザ設定及び機能制御に関するキーボード、マウス、ジョイスティック、光学又はトラックボールの信号入力を生成するために用いられてもよい。

電子機器は、図示されていないが、表示ユニットなどをさらに含んでもよい。ここで説明を省略する。具体的には、本実施例では、電子機器のプロセッサ４０１が、下記のような命令に従って、１つ又は複数のアプリケーションのプロセスに対応する実行可能なファイルをメモリ４０２にロードし、メモリ４０２に記憶されたアプリケーションをプロセッサ４０１が実行することにより、各種の機能を実現する。以下の通りである。

シーンにおける、点の位置情報を含む点群を取得し、点群を３次元ボクセル表現にマッピングして、３次元ボクセルの特徴情報を取得し、３次元ボクセルの特徴情報に対して畳み込み操作を行って畳み込み特徴セットを取得し、畳み込み特徴セットに基づいて候補物体領域の初期ポジショニング情報を確定し、点群における候補物体領域内に位置している目標点を確定し、目標点の位置情報及び目標畳み込み特徴情報に基づいて、候補物体領域の初期ポジショニング情報を調整して、目標物体領域のポジショニング情報を取得する。ここで、目標畳み込み特徴情報は、畳み込み特徴セットにおける目標点位置に対応する畳み込み特徴情報である。

以上の各操作は、具体的に、前述した実施例を参照すればよいが、ここでは説明を省略する。

以上から分かるように、本実施例の電子機器は、シーンにおける、点の位置情報を含む点群を取得し、前記点群を３次元ボクセル表現にマッピングして３次元ボクセルの特徴情報を取得し、前記３次元ボクセルの特徴情報に対して畳み込み操作を行って畳み込み特徴セットを取得し、前記畳み込み特徴セットに基づいて候補物体領域の初期ポジショニング情報を確定し、前記点群における候補物体領域内に位置している目標点を確定し、前記目標点の位置情報及び目標畳み込み特徴情報に基づいて前記候補物体領域の初期ポジショニング情報を調整して、目標物体領域のポジショニング情報を取得する。ここで、前記目標畳み込み特徴情報は、前記畳み込み特徴セットにおける目標点位置に対応する畳み込み特徴情報である。当該スキームは、シーンの点群データを採用して物体検出を行うとともに、点群の位置情報及び畳み込み特徴をフュージョンするため、ポジショニング情報の紛失をできるだけ減少する。これにより、物体検出の正確度を効果的に向上させ、特に、３Ｄ物体の検出に適する。

当業者であれば理解できるように、上記実施例の各方法の手順の全部又は一部は、命令によって実行されたり、命令で関連するハードウェアを制御することにより実行されたりしてもよい。この命令は、コンピュータ読み取り可能な記憶媒体に記憶され、プロセッサによってロード・実行されてもよい。

そのため、本出願の実施例では、さらに、複数の命令が記憶されている記憶媒体を提供し、当該命令は、プロセッサによってロードされることで、本出願の実施例によるいずれか１つの物体検出方法におけるステップを実行させることができる。例えば、当該命令は、
シーンにおける、点の位置情報を含む点群を取得し、前記点群を３次元ボクセル表現にマッピングして３次元ボクセルの特徴情報を取得し、前記３次元ボクセルの特徴情報に対して畳み込み操作を行って畳み込み特徴セットを取得し、前記畳み込み特徴セットに基づいて候補物体領域の初期ポジショニング情報を確定し、前記点群における候補物体領域内に位置している目標点を確定し、前記目標点の位置情報及び目標畳み込み特徴情報に基づいて、前記候補物体領域の初期ポジショニング情報を調整して、目標物体領域のポジショニング情報を取得するステップを実行させることができる。ここで、目標畳み込み特徴情報は、前記畳み込み特徴セットにおける目標点位置に対応する畳み込み特徴情報である。

以上の各操作の具体的な実施は、前の実施例を参照すればよいが、ここでは説明を省略する。

なお、当該記憶媒体は、読み出し専用メモリ（ＲＯＭ：ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、ランダムアクセスメモリ（ＲＡＭ：ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）、磁気ディスク、又は光ディスクなどを含んでもよい。

当該記憶媒体に記憶された命令は、本願の実施例によるいずれか１つの物体検出方法におけるステップを実行させることができるため、本願の実施例によるいずれか１つの物体検出方法におけるステップが実現可能な有利な効果を実現できる。詳しくは、前述した実施例を参照すればよいが、ここで説明を省略する。

以上、本出願の実施例による物体検出方法、装置、電子機器及び記憶媒体について詳細に説明し、本明細書では、具体的な例示を使用して、本発明の原理及び実施形態を説明したが、上記の実施例の説明は、本発明の方法及び中心となる思想の理解を助けるためのものにすぎない。また、当業者にとっては、本発明の思想を踏まえると、具体的な実施形態及び適用範囲の両方に変更があり得る。要するに、本明細書の内容は、本発明に対する制限として理解されるべきではない。

３０１点群取得ユニット
３０２ボクセルマッピングユニット
３０３畳み込みユニット
３０４候補領域取得ユニット
３０５選択ユニット
３０６調整ユニット
３０７トレーニングユニット
４０１プロセッサ
４０２メモリ
４０３電源
４０４入力ユニット
３０３１次元畳み込みサブユニット
３０３２次元畳み込みサブユニット
３０４１第２の予測サブユニット
３０４２調整サブユニット
３０６１フュージョンサブユニット
３０６２第１の予測サブユニット
３０６３修正サブユニット

Claims

電子機器において実行する、物体検出方法であって、
シーンにおける、点の位置情報を含む点群を取得するステップと、
前記点群を３次元ボクセル表現にマッピングして、３次元ボクセルの特徴情報を取得するステップと、
前記３次元ボクセルの特徴情報に対して畳み込み操作を行って、畳み込み特徴セットを取得するステップと、
前記畳み込み特徴セットに基づいて、候補物体領域の初期ポジショニング情報を確定するステップと、
前記点群における前記候補物体領域内に位置している目標点を確定するステップと、
前記目標点の位置情報及び目標畳み込み特徴情報に基づいて、前記候補物体領域の初期ポジショニング情報を調整して、目標物体領域のポジショニング情報を取得するステップであって、前記目標畳み込み特徴情報は前記畳み込み特徴セットにおける前記目標点位置に対応する畳み込み特徴情報であるステップと
を含み、
前記目標点の位置情報及び目標畳み込み特徴情報に基づいて、前記候補物体領域の初期ポジショニング情報を調整して、目標物体領域のポジショニング情報を取得するステップは、
前記目標点の位置情報と前記目標畳み込み特徴情報とをフュージョンして、前記候補物体領域の領域特徴情報を取得するステップと、
前記領域特徴情報に基づいて、真の物体領域に対する前記候補物体領域のポジショニングオフセット情報を、予測ポジショニングオフセット情報として予測するステップと、
前記予測ポジショニングオフセット情報に基づいて、前記候補物体領域の初期ポジショニング情報を修正して、前記目標物体領域のポジショニング情報を取得するステップと
を含み、
前記目標点の位置情報と前記目標畳み込み特徴情報とをフュージョンして、前記候補物体領域の領域特徴情報を取得するステップは、
前記目標点の位置情報と前記目標畳み込み特徴情報とをフュージョンして、フュージョン特徴情報を取得するステップと、
前記目標畳み込み特徴情報に対して次元低減処理を行って、前記目標点の特徴重みを取得するステップと、
前記特徴重みに基づいて前記フュージョン特徴情報に対して特徴演算を行って、演算後特徴情報を取得するステップと、
前記演算後特徴情報に対してダウンサンプリング操作を行って、前記候補物体領域の領域特徴情報を取得するステップと
を含む方法。
前記特徴重みに基づいて前記フュージョン特徴情報に対して特徴演算を行って、演算後特徴情報を取得するステップは、
前記フュージョン特徴情報の特徴次元に対して次元増加処理を行って、処理後特徴情報を取得するステップと、
前記特徴重みに基づいて前記処理後特徴情報に対して特徴演算を行って、前記演算後特徴情報を取得するステップと
を含む請求項１に記載の物体検出方法。
前記目標畳み込み特徴情報に対して次元低減処理を行って、前記目標点の特徴重みを取得するステップは、
前記目標畳み込み特徴情報に対して次元低減処理を行って、初期特徴重みを取得するステップと、
活性化関数に基づいて前記初期特徴重みを処理して、前記目標点の特徴重みを取得するステップと
を含む請求項１に記載の物体検出方法。
前記３次元ボクセルの特徴情報に対して畳み込み操作を行って、畳み込み特徴セットを取得するステップは、
前記３次元ボクセルの特徴情報に対して３次元畳み込み演算を行って、前記３次元ボクセルの３次元畳み込み特徴情報を取得するステップと、
前記３次元畳み込み特徴情報に対して２次元畳み込み演算を行って、前記畳み込み特徴セットを取得するステップと
を含む請求項１～３のいずれか一項に記載の物体検出方法。
前記３次元ボクセルの特徴情報に対して３次元畳み込み演算を行うステップは、
候補領域ネットワークにおける３次元畳み込みネットワークを採用して、前記３次元ボクセルの特徴情報に対して３次元畳み込み演算を行うステップであって、前記候補領域ネットワークは前記３次元畳み込みネットワークに接続された２次元畳み込みネットワークをさらに含み、前記２次元畳み込みネットワークは順次に接続された複数の畳み込みブロックを含むステップを含み、
前記３次元畳み込み特徴情報に対して２次元畳み込み演算を行って、前記畳み込み特徴セットを取得するステップは、
前記２次元畳み込みネットワークにおける複数の畳み込みブロックを採用して、前記３次元畳み込み特徴情報に対して２次元畳み込み演算を順次行うステップと、
各前記畳み込みブロックによって出力された畳み込み特徴をフュージョンして、前記畳み込み特徴セットを取得するステップと
を含む請求項４に記載の物体検出方法。
前記各前記畳み込みブロックによって出力された畳み込み特徴をフュージョンして、前記畳み込み特徴セットを取得するステップは、
前記２次元畳み込みネットワークにおける一番目の畳み込みブロック以外の他の畳み込みブロックによって出力された畳み込み特徴のそれぞれに対して、逆畳み込み処理を行って、他の畳み込みブロックの逆畳み込み特徴を取得するステップであって、前記逆畳み込み特徴と前記一番目の畳み込みブロックによって出力された畳み込み特徴とのサイズが同じであるステップと、
前記一番目の畳み込みブロックによって出力された畳み込み特徴と前記他の畳み込みブロックの逆畳み込み特徴とをフュージョンして、前記畳み込み特徴セットを取得するステップと
を含む請求項５に記載の物体検出方法。
前記畳み込み特徴セットに基づいて候補物体領域の初期ポジショニング情報を確定するステップは、
前記畳み込み特徴セットに基づいて、前記３次元ボクセルに対応するポジショニングオフセット情報及び物体のタイプを予測するステップであって、前記ポジショニングオフセット情報は、真の物体領域に対する前記３次元ボクセルに対応する参照物体領域の初期ポジショニングオフセット情報であるステップと、
前記ポジショニングオフセット情報及び前記物体のタイプに基づいて、前記３次元ボクセルに対応する参照物体領域を調整して、前記候補物体領域の初期ポジショニング情報を取得するステップと
を含む請求項１～６のいずれか一項に記載の物体検出方法。
前記ポジショニングオフセット情報及び前記物体のタイプに基づいて前記３次元ボクセルに対応する参照物体領域を調整して、前記候補物体領域の初期ポジショニング情報を取得するステップは、
前記物体のタイプに応じて前記参照物体領域を選別して、選別後物体領域を取得するステップと、
前記選別後物体領域のポジショニングオフセット情報に基づいて前記選別後物体領域のポジショニング情報を修正して、前記候補物体領域の初期ポジショニング情報を取得するステップと
を含む請求項７に記載の物体検出方法。
前記３次元ボクセルの特徴情報に対して畳み込み操作を行って、畳み込み特徴セットを取得するステップは、
候補領域ネットワークにおける３次元畳み込みネットワークを採用して、前記３次元ボクセルの特徴情報に対して３次元畳み込み演算を行うステップであって、前記候補領域ネットワークは、前記３次元畳み込みネットワークに接続された２次元畳み込みネットワークと、フュージョンモジュールと、前記フュージョンモジュールにそれぞれ接続された分類ネットワーク及び回帰ネットワークとをさらに含み、前記２次元畳み込みネットワークは順次に接続された複数の畳み込みブロックを含むステップと
前記２次元畳み込みネットワークにおける複数の畳み込みブロックを採用して前記３次元畳み込み特徴に対して２次元畳み込み演算を順次行うステップと、
前記フュージョンモジュールを採用して、前記２次元畳み込みネットワークにおける各畳み込みブロックによって出力された畳み込み特徴をフュージョンして、前記畳み込み特徴セットを取得するステップと
を含み、
前記畳み込み特徴セットに基づいて前記３次元ボクセルに対応するポジショニングオフセット情報及び物体のタイプを予測するステップは、
前記分類ネットワーク及び前記畳み込み特徴セットに基づいて、前記３次元ボクセルに対して物体分類を行って、前記３次元ボクセルに対応する物体のタイプを取得するステップと、
前記回帰ネットワーク及び前記畳み込み特徴セットに基づいて、前記３次元ボクセルに対応するポジショニングオフセット情報を予測するステップと
を含む請求項８に記載の物体検出方法。
サンプルシーンのサンプル点群を含むトレーニングサンプルセットを取得するステップと、
前記サンプル点群における点の位置情報を３次元ボクセル表現にマッピングして、サンプル３次元ボクセルのサンプル特徴情報を取得するステップと、
予め構築された候補領域ネットワーク、及び前記サンプル特徴情報に基づいて、前記サンプル３次元ボクセルに対応するオフセット情報及び物体のタイプを予測して、予測ポジショニングオフセット情報及び予測タイプを取得するステップと、
真のオフセット情報に対する予測ポジショニングオフセット情報のポジショニングオフセットロスを算出するステップと、
真の物体のタイプに対する予測物体のタイプのタイプロスを算出するステップと、
前記ポジショニングオフセットロスと前記タイプロスとを組み合わせて前記候補領域ネットワークをトレーニングして、トレーニングされた候補領域ネットワークを取得するステップと
をさらに含む請求項９に記載の物体検出方法。
物体検出装置であって、
シーンにおける点の位置情報を含む点群を取得するための点群取得ユニットと、
前記点群を３次元ボクセル表現にマッピングして、３次元ボクセルの特徴情報を取得するためのボクセルマッピングユニットと、
前記３次元ボクセルの特徴情報に対して畳み込み操作を行って、畳み込み特徴セットを取得するための畳み込みユニットと、
前記畳み込み特徴に基づいて候補物体領域の初期ポジショニング情報を確定するための候補領域取得ユニットと、
前記点群における前記候補物体領域内に位置している目標点を確定するための選択ユニットと、
前記目標点の位置情報及び目標畳み込み特徴情報に基づいて、前記候補物体領域の初期ポジショニング情報を調整して、目標物体領域のポジショニング情報を取得するための調整ユニットであって、前記目標畳み込み特徴情報は、前記畳み込み特徴セットにおける前記目標点位置に対応する畳み込み特徴情報である調整ユニットと
を含み、
前記調整ユニットは、
前記目標点の位置情報と前記目標畳み込み特徴情報とをフュージョンして、前記候補物体領域の領域特徴情報を取得するステップと、
前記領域特徴情報に基づいて、真の物体領域に対する前記候補物体領域のポジショニングオフセット情報を、予測ポジショニングオフセット情報として予測するステップと、
前記予測ポジショニングオフセット情報に基づいて、前記候補物体領域の初期ポジショニング情報を修正して、前記目標物体領域のポジショニング情報を取得するステップと
を実施するように構成され、
前記目標点の位置情報と前記目標畳み込み特徴情報とをフュージョンして、前記候補物体領域の領域特徴情報を取得するステップは、
前記目標点の位置情報と前記目標畳み込み特徴情報とをフュージョンして、フュージョン特徴情報を取得するステップと、
前記目標畳み込み特徴情報に対して次元低減処理を行って、前記目標点の特徴重みを取得するステップと、
前記特徴重みに基づいて前記フュージョン特徴情報に対して特徴演算を行って、演算後特徴情報を取得するステップと、
前記演算後特徴情報に対してダウンサンプリング操作を行って、前記候補物体領域の領域特徴情報を取得するステップと
を含む物体検出装置。
メモリ及びプロセッサを含む電子機器であって、
前記メモリは複数の命令が記憶されており、
前記プロセッサは請求項１～１０のいずれか一項に記載の物体検出方法におけるステップを実行するように前記メモリにおける命令をロードする電子機器。
命令を含むコンピュータプログラムであって、
コンピュータ上で実行されると、コンピュータに、請求項１～１０のいずれか一項に記載の物体検出方法におけるステップを実行させるコンピュータプログラム。