JP7179186B2 - 物体検出方法、装置、電子機器、及びコンピュータプログラム - Google Patents

物体検出方法、装置、電子機器、及びコンピュータプログラム Download PDF

Info

Publication number
JP7179186B2
JP7179186B2 JP2021536821A JP2021536821A JP7179186B2 JP 7179186 B2 JP7179186 B2 JP 7179186B2 JP 2021536821 A JP2021536821 A JP 2021536821A JP 2021536821 A JP2021536821 A JP 2021536821A JP 7179186 B2 JP7179186 B2 JP 7179186B2
Authority
JP
Japan
Prior art keywords
information
feature
convolution
convolutional
feature information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2021536821A
Other languages
English (en)
Other versions
JP2022514974A (ja
Inventor
▲逸▼▲倫▼ ▲陳▼
枢 ▲劉▼
小勇 沈
宇▲榮▼ 戴
佳▲亞▼ ▲賈▼
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Publication of JP2022514974A publication Critical patent/JP2022514974A/ja
Application granted granted Critical
Publication of JP7179186B2 publication Critical patent/JP7179186B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/64Three-dimensional objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/77Determining position or orientation of objects or cameras using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/64Three-dimensional objects
    • G06V20/647Three-dimensional objects by matching two-dimensional images to three-dimensional objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10004Still image; Photographic image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10024Color image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10028Range image; Depth image; 3D point clouds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10032Satellite or aerial image; Remote sensing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20076Probabilistic image processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30248Vehicle exterior or interior
    • G06T2207/30252Vehicle exterior; Vicinity of vehicle

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Description

本願は、2019年04月11日に中国専利局に提出した、出願番号が2019102901880であって、発明の名称が「物体検出方法、装置、電子機器及び記憶媒体」である中国特許出願の優先権を主張し、その全ての内容が参照により本明細書に組み込まれる。
本出願は、人工知能(Artificial Intelligence、AI)の技術分野に関し、具体的に、物体検出技術に関する。
物体検出とは、あるシーンにおいて物体の位置、種類などを確定することを指す。現在、物体検出技術は、自動運転、ドローンなどさまざまなシーンで広く使用されている。
目前の物体検出スキームは、一般に、シーン画像を収集し、シーン画像から特徴を抽出し、そして抽出された特徴に基づいて当該シーン画像における物体の位置及び種類を確定するものである。しかし、実践により、現在の目標物体検出スキームには、特に、3D物体検出シーンにおいて物体検出精度低下などの課題があることが発見された。
本出願の実施例は、物体検出の精度を向上させることができる物体検出方法、装置、電子機器及び記憶媒体を提供する。
本出願にかかる実施例では、物体検出方法を提供し、
シーンにおける点の位置情報を含む点群を取得するステップと、
前記点群を3次元ボクセル表現にマッピングして、3次元ボクセルの特徴情報を取得するステップと、
前記3次元ボクセルの特徴情報に対して畳み込み操作を行って、畳み込み特徴セットを取得するステップと、
前記畳み込み特徴セットに基づいて、候補物体領域の初期ポジショニング情報を確定するステップと、
前記点群における前記候補物体領域内に位置している目標点を確定するステップと、
前記目標点の位置情報及び目標畳み込み特徴情報に基づいて、前記候補物体領域の初期ポジショニング情報を調整して、目標物体領域のポジショニング情報を取得するステップであって、前記目標畳み込み特徴情報は前記畳み込み特徴セットにおける前記目標点位置に対応する畳み込み特徴情報であるステップとを含む。
相応的には、本出願にかかる実施例では、物体検出装置をさらに提供し、
シーンにおける点の位置情報を含む点群を取得するための点群取得ユニットと、
前記点群を3次元ボクセル表現にマッピングして、3次元ボクセルの特徴情報を取得するためのボクセルマッピングユニットと、
前記3次元ボクセルの特徴情報に対して畳み込み操作を行って、畳み込み特徴セットを取得するための畳み込みユニットと、
前記畳み込み特徴に基づいて候補物体領域の初期ポジショニング情報を確定するための候補領域取得ユニットと、
前記点群における前記候補物体領域内に位置している目標点を確定するための選択ユニットと、
前記目標点の位置情報及び目標畳み込み特徴情報に基づいて、前記候補物体領域の初期ポジショニング情報を調整して、目標物体領域のポジショニング情報を取得するための調整ユニットであって、前記目標畳み込み特徴情報前記畳み込み特徴セットにおける前記目標点位置に対応する畳み込み特徴情報である前記調整ユニットとを含む。
また、本出願に係る実施例では、記憶媒体をさらに提供し、複数の命令が記憶されており、前記命令は、プロセッサによってロードされると、本出願にかかる実施例におけるいずれかの物体検出方法におけるステップを実行させるように構成される。
また、本出願の実施例では、さらに、メモリ及びプロセッサを含む電子機器を提供し、前記メモリには、複数の命令が記憶されており、前記プロセッサは、本出願の実施例にかかるいずれかの物体検出方法におけるステップを実行するように、前記メモリにおける命令をロードする。
また、本出願の実施例では、さらに、コンピュータプログラム製品を提供し、コンピュータ上で実行されると、コンピュータに本出願の実施例にかかるいずれかの物体検出方法におけるステップを実行させる。
本出願の実施例は、シーンにおける点の位置情報を含む点群を取得し、点群を3次元ボクセル表現にマッピングして、3次元ボクセルの特徴情報を取得し、3次元ボクセルの特徴情報に対して畳み込み操作を行って、畳み込み特徴セットを取得し、畳み込み特徴セットに基づいて候補物体領域の初期ポジショニング情報を確定し、点群における当該候補物体領域内に位置している目標点を確定し、目標点の位置情報及び目標畳み込み特徴情報(畳み込み特徴セットの目標点位置に対応する畳み込み特徴である)に基づいて、候補物体領域の初期ポジショニング情報を調整して、目標物体領域のポジショニング情報を取得することができる。当該スキームは、シーンの点群データを採用して物体検出を行うとともに、点群の位置情報及び畳み込み特徴をフュージョンするため、ポジショニング情報の紛失をできるだけ減少する。これにより、物体検出の正確度を効果的に向上させ、特に3D物体の検出に適する。
以下、本出願の実施例の技術案をより明確に説明するために、実施例の説明に必要な図面を簡単に紹介する。以下の記載における図面は本発明のいくつかの実施例にすぎず、当業者にとって、創造的な労働を付せずこれらの図面から他の図面を取得可能であることは言うまでもない。
本出願の実施例にかかる物体検出方法のシーンの模式図である。 本出願の実施例にかかる物体検出方法のフローチャートである。 本出願の実施例にかかるVoxelRPNネットワークの構成の模式図である。 本出願の実施例にかかるRefinerNetネットワークの構成の模式図である。 本出願の実施例にかかる物体検出の他のフローチャートである。 本出願の実施例にかかる物体検出のアーキテクチャ図である。 本出願の実施例にかかる自動運転シーンにおける物体検出の模式図である。 本出願の実施例にかかる物体検出装置の構成の模式図である。 本出願の実施例にかかる物体検出装置の他の構成の模式図である。 本出願の実施例にかかる物体検出装置の他の構成の模式図である。 本出願の実施例にかかる物体検出装置の他の構成の模式図である。 本出願の実施例にかかる物体検出装置の他の構成の模式図である。 本出願の実施例にかかる電子機器の構成の模式図である。
以下に、本出願の実施例の図面を参照して、本出願の実施例の技術案を明瞭かつ完全に記載する。記載される実施例は、本出願の実施例の全部ではなく、本出願の実施例の一部にすぎないことは言うまでもない。当業者が創造的な労働をせずに本発明の実施例に基づいて得るすべての他の実施例は本出願の保護範囲に属すべきである。
本出願の実施例は、物体検出方法、装置、電子機器及び記憶媒体を提供する。なお、当該物体検出装置は、例えば、ネットワーク装置などの電子機器に統合されてもよく、当該電子機器はサーバーであってもよいし、端末などの機器であってもよく、例えば、車載装置、ミニ処理ボックスなどの機器である。
物体検出とは、あるシーンにおける物体の位置、種類などを確定したり、認識したりすることを指し、例えば、ある道路シーンにおける物体の種類及び位置、例えば、街灯、車両及びその位置などを認識することを含む。
図1aを参照して、本出願の実施例は、電子機器及び収集装置を含む物体検出システムを提供し、電子機器と収集装置との間は、例えば、有線又は無線ネットワークなどを介して接続されるように、通信接続されている。一実施例において、電子機器と収集装置とは一台の機器に統合されてもよい。
なお、収集装置は、シーンの点群データ又は画像データを収集するためのものであり、一実施例においては、収集装置が、収集された点群データを電子機器にアップロードして処理してもよい。なお、点群(Point Cloud)データは点の位置情報などを含み得る。
電子機器は、物体検出のために用いられ、具体的に、収集装置によってアップロードされたシーンの点群を取得した後に、当該点群を3次元ボクセル表現にマッピングして、3次元ボクセル(Voxel)の特徴情報を取得し、3次元ボクセルの特徴情報に対して畳み込み操作を行って、畳み込み特徴セットを取得し、畳み込み特徴セットに基づいて候補物体領域の初期ポジショニング情報を確定し、点群の当該候補物体領域内に位置している目標点を確定し、目標点の位置情報及び目標畳み込み特徴情報(畳み込み特徴セットにおける目標点位置に対応する畳み込み特徴情報である)に基づいて、候補物体領域の初期ポジショニング情報を調整して、目標物体領域のポジショニング情報を取得することができる。
実際の適用において、目標物体検出領域のポジショニング情報を取得した後に、ポジショニング情報に基づいてシーン画像において検出された物体を標識し、例えば、検出ボックスの形態で画像において検出された物体をボックス選択してもよく、一実施例において、さらに、シーン画像において検出された物体のタイプを標識してもよい。
以下に、それぞれ詳細に説明する。なお、以下の実施例の記載順序は、実施例の好ましい順序を限定することを意図するものではない。
本実施例では、物体検出装置の観点から記載し、当該物体検出装置は、具体的に、電子機器、例えば、ネットワークデバイスに統合されてもよく、当該モバイル端末はサーバーであってもよいし、端末などの機器であってもよく、なお、当該端末は、携帯電話、タブレットコンピューター、ノートコンピューター、パソコンコンピュータ(Personal Computer、PC)、車載機器、ミニ処理端末などの機器を含んでもよい。
本出願の実施例は物体検出方法を提供し、当該方法は、電子機器のプロセッサによって実行されてもよい。図1bに示すように、当該物体検出方法の具体的なフローは以下の通りである。
101において、シーンの点群を取得し、当該点群は点の位置情報を含む。
なお、点群は、シーン又は目標表面特性の点集合であり、点群における点は、点の位置情報、例えば、3次元座標を含んでもよく、また色情報(RGB)又は反射強度情報(Intensity)をさらに含んでもよい。
例えば、一実施例において、点群は、点の位置情報及び当該点の反射強度情報を含んでもよく、位置情報は、3次元空間座標系における点の3次元座標(xyz)などを含んでもよい。例えば、実際の適用において、点群は点の3次元座標(xyz)及び反射強度を含んでもよく、当該点群は、1つのnx4のベクトルで表されてもよく、nは点群における点の数であり、各点は1つの1*4の4次元ベクトルに対応し、当該ベクトルの4つの次元はそれぞれ3次元座標及び反射強度に対応する。
点群は、レーザー測定原理又は写真測量原理により検出され、例えば、レーザースキャナーや写真スキャナーによる走査で物体の点群を取得し得る。点群をレーザーでの検出原理は、レーザービームが物体の表面に照射すると、反射されたレーザーに、方位、距離などの情報が含まれる。レーザービームをある軌跡に従って走査させると、走査しながら反射されたレーザー点情報を記録し、走査が非常に細かいため、大量のレーザー点を得ることができる。よって、レーザー点群が形成される。点群のフォーマットは*.las、*.pcd、*.txtなどがある。
例えば、ライダー(Light Detection And Ranging、LiDAR)でシーンの点群データを採用してもよい。LiDARは、全地球ポジショニングシステム(Global Position System、GPS)及び慣性計測装置(Inertial Measurement Unit、IMU)による空中レーザー走査である。測定されたデータは数値表層モデル(Digital Surface Model、DSM)の離散点表現であり、データは空間3次元情報及びレーザー強度情報を含む。分類(Classification)技術を適用して、これらの元のデジタル表面モデルから、建物、人工物、被覆植物などの測定点を削除することにより、数値標高モデル(Digital Elevation Model、DEM)を得ることができるとともに、グランドカバーの高さを取得する。
本出願の実施例において、シーンの点群データは、電子機器自体によって収集可能であり、例えば、電子機器自体がレーザーにより検出・測定することで収集可能である。当該シーンの点群データは、他の機器によって収集されてから電子機器が他の機器から取得したり、ネットワークデータベースから検索したりすることもできる。例えば、LiDARセンサーが点群データを収集し、電子機器が当該センサーから取得することがある。
なお、適用シーンは、様々があり、例えば、自動運転における道路シーン、ドローン飛行の航空シーンなどがある。
102において、点群を3次元ボクセル表現にマッピングして、3次元ボクセルの特徴情報を取得する。
シーンの点群を取得した後に、シーンの点群全体(例えば、nx4のベクトル)を3Dボクセル(Voxel)表現にマッピングしてもよい。即ち、シーンの点群に対してボクセル化(Voxelize)処理を行ってもよい。
なお、3次元ボクセル表現にマッピングするプロセスは、シーン点群の範囲に基づいて対応サイズのボクセルブロック(例えば、立方体のボクセルブロック)を構築し、ボクセルブロックを区画して複数の3次元ボクセルを取得し、シーンの点群を3次元ボクセルにマッピングし、3次元ボクセルにおけるマッピング点の位置情報に基づいて3次元ボクセルの特徴情報を構築することを含んでもよい。
なお、シーン点群の範囲は、点群の範囲又は点群の収集範囲(例えば、センサーによるシーン点群収集範囲)を含んでもよく、当該点群の範囲及び収集範囲のいずれもサイズで標識してもよい。例えば、前後に5メートル、左右に4メートル、上下に3メートルなどである。例えば、シーン点群のサイズに基づいて同じなサイズのボクセルブロックを構築してもよい。シーン点群のサイズは点群の長、幅、高などを含んでもよい。
なお、ボクセルブロックの区画形態は様々あり、例えば、所定のサイズでボクセルブロックを区画してもよく、例えば、所定のサイズは、区画により得られるべき3次元ボクセルのサイズであり、当該サイズは、実際のニーズによって設定されてもよく、3次元ボクセルのサイズは、L(長)xW(幅)xH(高)を含んでもよく、所定の3次元ボクセルのサイズは、例えば、0.2*0.2*0.1mmなどを含んでもよい。
区画によって3次元ボクセルが得られた後、点群における点の位置情報に応じて点を、対応している3次元ボクセルにマッピングすることができる。
点群のマッピングを完了した後に、3Dボクセル(Voxel)の特徴情報は3Dボクセルにマッピングされた点の位置情報に基づいて取得することができる。つまり、3Dボクセル内点の位置情報に基づいて得られてもよい。例えば、「3次元ボクセルにおけるマッピング点の位置情報に基づいて3次元ボクセルの特徴情報を構築する」ステップは、以下のステップを含んでもよい。即ち、
3次元ボクセルにマッピング点が存在する場合、マッピング点から目標マッピング点の位置情報を3次元ボクセルの特徴情報として選択することができるステップと、
3次元ボクセルにマッピング点が存在しない場合、3次元ボクセルの特徴情報をゼロに設置することができるステップとを含む。
例えば、点群がnx4(n個の点の3次元座標と反射強度)のベクトルであることを例として、点群をマッピングした後に、マッピング点を含んでいるVoxelについて、直接にその中のあるマッピング点の4次元ベクトルを当該Voxelの特徴情報として取って、マッピング点を含んでいないVoxelについて、その特徴情報が0である。
上記のステップにより、点群を3次元ボクセル表現にマッピングして、3次元ボクセルの特徴情報を構築することができる。なお、3次元ボクセルの特徴情報は、ボクセル内のあるマッピング点の位置情報などの情報を含んでもよいし、ゼロであってもよい。
103において、3次元ボクセルの特徴情報に対して畳み込み操作を行って、畳み込み特徴セットを取得する。
なお、畳み込み特徴セットは、全ての3次元ボクセルの抽出特徴を含み、実際の適用において全ての3次元ボクセルの特徴マップ(feature map)であってもよい。
例えば、3次元ボクセルの特徴抽出の正確性を向上するために、3次元ボクセルの特徴に対して3D畳み込みや2D畳み込み演算を行って、特徴を抽出してもよい。
例えば、「3次元ボクセルの特徴情報に対して畳み込み操作を行って、畳み込み特徴セットを取得する」ステップは、以下のステップを含んでもよい。即ち、
3次元ボクセルの特徴情報に対して3次元畳み込み演算を行って、当該3次元ボクセルの3次元畳み込み特徴情報を取得するステップと、
当該3次元畳み込み特徴情報に対して2次元畳み込み演算を行って、畳み込み特徴セットを取得するステップとを含む。
一実施例において、ニューラルネットワークを採用して、例えば、ニューラルネットワークの候補領域ネットワークに基づいて、3次元ボクセルの特徴から畳み込み特徴セットを抽出してもよい。図1cを参照して、候補領域ネットワーク(Region Proposal Network、RPN)は、3次元(3D)畳み込みネットワーク、2次元(2D)畳み込みネットワーク、フュージョンモジュール、回帰ネットワーク及び分類ネットワークを含んでもよい。
3次元畳み込みネットワークは2次元畳み込みネットワークに接続され、フュージョンモジュールは2次元畳み込みネットワークに接続され、回帰ネットワーク及び分類ネットワークはそれぞれフュージョンモジュールに接続される。
3次元ボクセルの特徴情報を取得した後に、本出願の実施例は、候補領域ネットワークにおける3次元畳み込みネットワークにより、3次元ボクセルの特徴情報に対して3次元畳み込み演算を行ってもよい。なお、図1cを参照して、3次元畳み込みネットワークは1つ又は複数の3次元畳み込み層を含んでもよく、各3次元畳み込み層(Conv3D)は1つの3次元畳み込みカーネル、例えば、3×3×2(チャネル数)、3×3×3(チャネル数)に対応する。具体的に、3次元畳み込みネットワークにおける3次元畳み込み層により3次元ボクセルの特徴情報に対して3次元畳み込み演算を順次行ってもよい。
例えば、図1cを参照して、3次元ボクセルの特徴情報作をネットワークの入力(Voxel input)としてネットワークに入力してもよい。一番目の3次元畳み込み層は3×3×2(8)の3D畳み込みカーネルを採用して3次元ボクセルの特徴情報に対して3次元畳み込み演算を行って、畳み込み演算結果を第2番目の3次元畳み込み層に入力して、3D畳み込みカーネルが3×3×2(16)である3次元畳み込み演算を行って、3次元畳み込みネットワークにおける最後の3次元畳み込み層が3×3×2(128)の畳み込みカーネルを採用して入力された特徴に対して3次元畳み込み演算を行うまで、順次に推定する。
3次元畳み込みネットワークを採用して3次元ボクセルの特徴情報に対して3次元特徴抽出を行って、3次元畳み込み特徴情報を取得した後に、候補領域ネットワークにおける2次元畳み込みネットワークを採用して3次元畳み込み特徴情報に対して2次元畳み込み演算を行って、2次元畳み込み特徴を抽出することにより、畳み込み特徴セットを取得してもよい。
例えば、図1cを参照して、2次元畳み込みネットワークは、順次に接続された複数の畳み込みブロックを含み得、各畳み込みブロックは1つ又は複数の2次元畳み込み層(Conv2D)を含む。3次元畳み込みネットワークは、3次元畳み込み演算を完了した後に、2次元畳み込みネットワークにおける複数の畳み込みブロックを採用して3次元畳み込み特徴情報に対して2次元畳み込み演算を順次行い、フュージョンモジュールにより各畳み込みブロックによって出力された畳み込み特徴をフュージョンして、畳み込み特徴セットを取得してもよい。
図1cを参照して、2次元畳み込みネットワークに三个畳み込みブロックを含むことを例にして、BLOCK2、BLOCK3、BLOCK4のような各2次元畳み込みブロックは、1つ又は複数の2次元畳み込み層を含んでもよく、例えば、BLOCK2は、3つの畳み込みカーネルが3×3(256)である2次元畳み込み層を含む。具体的に、3次元畳み込みネットワークは、3次元畳み込み特徴情報の抽出を完了した後に、抽出された3次元畳み込み特徴情報を2次元畳み込みネットワークにおけるBLOCK2に入力し、BLOCK2はその中の複数の2次元畳み込み層(畳み込みカーネルが3×3である)により入力された3次元畳み込み特徴情報に対して2次元畳み込み演算を行い、出力された畳み込み特徴を次のBLOCK3に入力し、同様に、BLOCK3は、その中の複数の2次元畳み込み層(畳み込みカーネルが3×3である)により入力された特徴情報に対して2次元畳み込み演算を行い、出力された畳み込み特徴を次のBLOCK4に入力し、BLOCK4は、その中の複数の2次元畳み込み層(畳み込みカーネルが3×3である)により入力された特徴情報に対して2次元畳み込み演算を行い、畳み込み特徴を出力してもよい。
本出願の実施例において、2次元畳み込みネットワークにおける畳み込みブロックにより3次元畳み込み特徴情報に対して2次元畳み込み演算を順次行った後に、各畳み込みブロックによって出力された畳み込み特徴をフュージョンして、全ての3次元ボクセルに対応する畳み込み特徴セットを取得してもよい。
一実施例において、特徴フュージョン効率及び正確性を向上するために、2次元畳み込みネットワークのうち一番目の畳み込みブロック以外の他の畳み込みブロックによって出力された畳み込み特徴に対して逆畳み込み処理をそれぞれ行って、他の畳み込みブロックの逆畳み込み特徴は一番目の畳み込みブロックによって出力された畳み込み特徴のサイズと同じなるようにして、フュージョンを容易にするとともにフュージョン後特徴の正確性を向上させる。
例えば、「各畳み込みブロックによって出力された畳み込み特徴をフュージョンして畳み込み特徴セットを取得する」ステップは、以下のステップを含んでもよい。即ち、
2次元畳み込みネットワークのうち一番目の畳み込みブロック以外の他の畳み込みブロックによって出力された畳み込み特徴のそれぞれに対して逆畳み込み処理を行って、他の畳み込みブロックの逆畳み込み特徴を取得し、逆畳み込み特徴のサイズは一番目の畳み込みブロックによって出力された畳み込み特徴のサイズと同じであるステップと、
一番目の畳み込みブロックによって出力された畳み込み特徴と他の畳み込みブロックの逆畳み込み特徴とをフュージョンして、畳み込み特徴セットを取得するステップとを含む。
例えば、図1cを参照して、BLOCK4及びBLOCK3によって出力された畳み込み特徴に対して逆畳み込み演算(Deconv)をそれぞれ行い、BLOCK4及びBLOCK3によって出力された逆畳み込み特徴のサイズはBLOCK2によって出力された畳み込み特徴のサイズと同じとなるようにして、フュージョンモジュールを採用してBLOCK2によって出力された畳み込み特徴、BLOCK3によって出力された逆畳み込み特徴及びBLOCK4によって出力された逆畳み込み特徴をフュージョンする。
なお、畳み込み特徴のフュージョン(融合とも呼ぶ)の形態は様々あり、例えば、特徴結合(Concatenation)を採用してフュージョンする。図1cを参照して、BLOCK2によって出力された畳み込み特徴、BLOCK3によって出力された逆畳み込み特徴及びBLOCK4によって出力された逆畳み込み特徴を接続して、畳み込み特徴セット(例えば、feature map)を取得してもよい。
上記のステップにより3次元ボクセルの特徴情報を取得した後に、3次元ボクセルの特徴情報に対して3次元畳み込み、2次元畳み込み演算を行って、全ての3次元ボクセルに対応する畳み込み特徴セットを抽出してもよい。
104において、畳み込み特徴セットに基づいて候補物体領域の初期ポジショニング情報を確定する。
なお、候補物体領域は、2次元領域(2D領域)であってもよいし、3次元領域(3D領域)であってもよく、具体的に、実際ニーズに応じて決めてもよい。実際の適用において、ボックスの形態を採用して候補物体領域を標識する場合、物体ボックス、ボックス又は検出ボックスなどと呼んでもよい。
なお、候補物体領域の初期ポジショニング情報は、候補物体領域の位置情報及びサイズ情報を含んでもよい。なお、位置情報は、候補物体領域における参照点の位置情報により示され、当該参照点は実際ニーズに応じて設定されもよく、例えば、候補物体領域の中心点を参照点として設定してもよい。3次元の候補物体領域を例にして、候補物体領域の位置情報は当該候補物体領域の中心点の3D座標、例えば(x、y、z)を含んでもよい。
なお、候補物体領域のサイズ情報は、候補物体領域のサイズパラメータを含んでもよく、例えば、候補物体領域が2D領域である場合、当該候補物体領域のサイズパラメータは長l*幅wを含んでもよく、候補物体領域が3D領域である場合、当該候補物体領域のサイズパラメータは長l*幅w*高hなどを含んでもよい。
また、幾つかのシーンにおいて、物体の向きは重要な参照情報である。従って、幾つかの実施例において、候補物体領域の初期ポジショニング情報は候補物体領域の向き、例えば、前向き、後ろ向き、下向き、上向きなどをさらに含んでもよく、当該候補物体領域の向きはシーンにおける物体の向きを表すことができる。実際の適用において、候補物体領域の向きは、角度に基づいて表されてもよく、例えば、2つの向きを定義し、それぞれ、0°及び90°である。
一実施例において、回転角度を採用して物体の向きを示してもよい。当該回転角度は、Z軸周り(垂直方向)の回転角度である。
例えば、3次元候補物体領域を例にして、候補物体領域の初期ポジショニング情報は7次元パラメータを含んでもよく(回帰パラメータと呼んでもよい)、具体的に、領域中心点の座標(xyz)、領域のサイズ(長、幅、高lwh)、Z軸周り(垂直方向)の回転角度(theta))を含む。
本出願の実施例において、畳み込み特徴セットに基づいて候補物体領域の初期ポジショニング情報を確定する形態は様々あり、例えば、3次元ボクセルの畳み込み特徴セットに基づいて候補物体領域の初期ポジショニング情報を予測したり、候補領域ネットワークに基づいて候補物体領域の初期ポジショニング情報を予測したりしてもよい。
一実施例において、候補物体領域、例えば、候補ボックスの生成の精度を向上させ、さらに物体検出の正確性を向上させるために、まず、各3次元ボクセル又は点群における点に対して、1つの参照物体領域を予め設置し、当該参照物体領域はアンカー(anchor)物体領域と呼んでもよく、実際の適用において、ボックスで領域を示し可能な場合、アンカーボックス(anchor)又は参照ボックスとも呼んでもよい。そして、畳み込み特徴セットに基づいて、真の物体領域に対する参照物体領域のポジショニングオフセット情報、及び3次元ボクセルに対応する物体のタイプを予測し、これら2つの情報に基づいて参照物体領域、例えば、参照ボックスに対して、最適化処理のような調整を行って、候補物体領域の初期ポジショニング情報を取得する。
具体的に、「畳み込み特徴セットに基づいて候補物体領域の初期ポジショニング情報を確定する」ステップは、以下のステップを含んでもよい。即ち、
畳み込み特徴セットに基づいて、3次元ボクセルに対応するポジショニングオフセット情報、及び物体のタイプを予測し、ポジショニングオフセット情報は、真の物体領域に対する3次元ボクセルに対応する参照物体領域の初期ポジショニングオフセット情報であるステップと、
ポジショニングオフセット情報及び物体のタイプに基づいて、当該3次元ボクセルに対応する参照物体領域を調整して、候補物体領域の初期ポジショニング情報を取得するステップとを含む。
なお、ポジショニングオフセット情報は、真の物体領域に対する3次元ボクセルに対応する参照物体領域の初期ポジショニングオフセット情報、例えば、真のボックスに対する参照ボックスのポジショニングオフセット情報である。なお、ポジショニングオフセット情報は、位置オフセット情報(3次元座標xyzの座標オフセット)、サイズオフセット情報(長、幅、高のサイズオフセット)、角度オフセット情報(例えば、回転角度の角度オフセット)などを含んでもよく、例えば、7次元パラメータ(x、y、z、h、w、l、theta)のオフセットである。
例えば、ポジショニングオフセット情報は、7次元パラメータ(回帰パラメータとも呼んでもよい)を含んでもよく、具体的に、参照物体領域と真の物体領域中心点との間の座標(xyz)オフセット、参照物体領域と真の物体領域のサイズとの間のオフセット(長、幅、高lwh)、参照物体領域及び真の物体領域のZ軸(垂直方向)周りの回転角度の角度オフセットを含む。
なお、3次元ボクセルに対応する参照物体領域は予め設定された物体領域であってもよく、例えば、予め3次元ボクセルに対して確立された物体領域であり、例えば、予め点群の各点に対して参照物体領域を確立し、点群の点を3次元ボクセルにマッピングした後、3次元ボクセルに対応する参照物体領域がボクセル内のマッピング点の参照物体領域であってもよく、例えば、3次元ボクセル内の特徴点の参照物体領域であってもよい。
なお、参照物体領域のサイズなどの情報は、予め設定される際、実際のニーズに応じて設定されてもよい。
本出願の実施例において、候補物体領域の生成の正確性を向上させるために、さらに、深層学習ネットワークを採用してポジショニングオフセット情報及び物体のタイプを予測してもよい。例えば、深層学習に基づく分類ネットワーク及び回帰ネットワークを採用して、物体のタイプ及びポジショニングオフセット情報をそれぞれ予測してもよい。
一実施例において、効率を向上させるために、分類ネットワーク及び回帰ネットワークを候補領域ネットワークに統合してもよい。即ち、候補領域ネットワークは分類ネットワーク及び回帰ネットワークをさらに含んでもよい。例えば、候補領域ネットワークにおいてフュージョンモジュールが各畳み込みブロックによって出力された畳み込み特徴をフュージョンして畳み込み特徴セットを取得した後、分類ネットワーク及び当該畳み込み特徴セットに基づいて3次元ボクセルに対する物体分類を行って、3次元ボクセルに対応する物体のタイプを取得してもよく、回帰ネットワーク及び当該畳み込み特徴セットに基づいて、3次元ボクセルに対応するポジショニングオフセット情報を予測する。
例えば、図1cを参照して、フュージョンモジュールが、2次元畳み込みネットワークにおける各畳み込みブロックによって出力された畳み込み特徴をフュージョンして、畳み込み特徴セットを取得し、そして、畳み込み特徴セットをそれぞれ回帰ネットワーク(reg)及び分類ネットワーク(cls)に入力し、回帰ネットワークは畳み込み特徴セットに基づいて、真の物体領域に対する3次元ボクセルに対応する参照物体領域のポジショニングオフセット情報を予測してもよく、分類ネットワークが、畳み込み特徴セットに基づいて3次元ボクセルに対応する物体のタイプを予測してもよい。
なお、回帰ネットワーク(reg)及び分類ネットワーク(cls)は、1つ又は複数の全結合層(Fully Connected、FC)から構成されてもよい。
本出願の実施例において、ポジショニングオフセット情報及び物体のタイプを予測した後、予測されたポジショニングオフセット情報及び物体のタイプに基づいて、3次元ボクセルに対応する参照物体領域に対して最適化調整を行ってもよい。例えば、物体のタイプに基づいて3次元ボクセルに対応する参照物体領域から選別し、そして、ポジショニングオフセット情報に基づいて、選別後に残った物体領域を修正する。
例えば、「ポジショニングオフセット情報及び物体のタイプに基づいて3次元ボクセルに対応する参照物体領域を調整して、候補物体領域の初期ポジショニング情報を取得する」ステップは、以下のステップを含んでもよい。即ち、
物体のタイプに応じて、参照物体領域を選別し、選別後物体領域を取得するステップと、
選別後物体領域のポジショニングオフセット情報に基づいて、選別後物体領域のポジショニング情報を修正して、候補物体領域の初期ポジショニング情報を取得するステップとを含む。
例えば、参照物体領域から、物体のタイプが予め設定されたタイプである領域を選択したり、予め設定されたタイプの領域などをフィリングにより除外したりしてもよい。
なお、ポジショニング情報の修正の形態は様々あり、例えば、選別後物体領域のポジショニング情報は、7次元回帰パラメータ、例えば(x、y、z、h、w、l、theta) を含む場合、参照物体領域の元の7次元回帰パラメータと各パラメータのオフセットとを加算し、加算した7次元回帰パラメータを候補物体領域の初期7次元回帰パラメータ、即ち、候補物体領域の初期ポジショニング情報としてもよい。
本出願の実施例は、上記の形態により、候補物体領域の初期ポジショニング情報、例えば、7次元回帰パラメータ(x、y、z、h、w、l、theta)を取得したり、予測により得られたりしてもよい。
105において、点群における候補物体領域内に位置している目標点を確定する。
候補物体領域を確定した後、点群から候補物体領域内に位置している目標点を選択してもよい。具体的に、点群における点の位置情報(例えば、3次元座標)、及び候補物体領域の初期ポジショニング情報(例えば、3次元座標、サイズなど)に基づいて、候補物体領域内に位置している目標点を確定してもよい。
実際の適用において、点群から候補物体領域、例えば、候補ボックス内に位置している点を切り取ってもよい。
106において、目標点の位置情報、及び目標畳み込み特徴情報に基づいて、候補物体領域の初期ポジショニング情報を調整して、目標物体領域のポジショニング情報を取得してもよい。なお、目標畳み込み特徴情報は、畳み込み特徴セットにおける目標点位置に対応する目標畳み込み特徴である。
候補物体領域内に位置している目標点を選択した後、目標点の位置情報を取得し、畳み込み特徴セットから目標点位置に対応する畳み込み特徴情報を取得してもよい。例えば、先に点群における点を3次元ボクセルにマッピングしたので、目標点の位置情報に基づいて、そのマッピングした3次元ボクセルを確定することで、畳み込み特徴セットから当該3次元ボクセルに対応する畳み込み特徴情報を抽出してもよい。本出願の実施例では、これらの2つの情報を特徴情報として候補物体領域の初期ポジショニング情報を修正してもよい。
なお、目標点の位置情報及び目標畳み込み特徴情報に基づいて候補物体領域の初期ポジショニング情報を調整する形態は様々あり、例えば、この2種の情報に基づいて候補物体領域のポジショニングオフセットを予測し、そして、当該ポジショニングオフセットに基づいて候補物体領域の初期ポジショニング情報を修正してもよく、あるいは、直接にこの2種の情報基づいて候補物体領域のポジショニング情報を予測すればよい。
なお、目標物体領域は、最終的に出力された物体領域であり、初期ポジショニング情報が調整された候補物体領域であってもよい。
一実施例において、「目標点の位置情報及び目標畳み込み特徴情報に基づいて、候補物体領域の初期ポジショニング情報を調整して、目標物体領域のポジショニング情報を取得する」ステップは、以下のステップを含んでもよい。即ち、
(1)目標点の位置情報と目標畳み込み特徴情報とをフュージョンして、候補物体領域の領域特徴情報を取得する。
なお、位置情報と畳み込み特徴情報とのフュージョン形態は様々あり、例えば、一実施例において、特徴の紛失を回避することを考慮し、目標畳み込み特徴情報に基づいて目標点の特徴重みを算出し、そして、重みに基づいて目標点の位置特徴を調整して、候補領域の領域特徴情報を取得してもよい。
具体的に、「目標点の位置情報と目標畳み込み特徴情報とをフュージョンして、候補物体領域の領域特徴情報を取得する」ステップは、以下のステップを含む。即ち、
目標点の位置情報と目標畳み込み特徴情報とをフュージョンして、フュージョン特徴情報を取得し、例えば、目標点の位置情報と目標畳み込み特徴情報とを接続(Concatenation)して、フュージョン特徴情報を取得するステップと、
目標点の目標畳み込み特徴情報に対して次元低減処理を行って、目標点の特徴重みを取得するステップと、
特徴重みに基づいてフュージョン特徴情報に対して特徴演算を行って、演算後特徴情報を取得し、例えば、特徴重みがnx1の特徴重みベクトルである場合、ここでのnが目標点の数であり、フュージョン特徴情報がフュージョン特徴ベクトルnx256を含む場合、nx1特徴重みベクトルとフュージョン特徴ベクトルnx256とを乗算し、即ち、ベクトルの積(Element-wise multiplication)を採用して特徴演算を行うステップと、
演算後特徴情報に対してダウンサンプリング操作を行って、候補物体領域の領域特徴情報を取得し、例えば、maxpooling操作などを採用するステップと
を含む。
一実施例において、フュージョンを容易にするとともに特徴の正確性を向上させるために、フュージョン特徴情報の特徴の次元を増加してもよく、そして、特徴重みに基づいて処理してもよい。例えば、「特徴重みに基づいてフュージョン特徴情報に対して特徴演算を行って、演算後特徴情報を取得する」ステップは、以下のステップを含んでもよい。
フュージョン特徴情報の特徴次元に対して次元増加を行って、処理後特徴情報を取得するステップと、
特徴重みに基づいて処理後特徴情報に対して特徴演算を行って、演算後特徴情報を取得するステップとを含む。
一実施例において、特徴の非線形性を高めるために、特徴の重みを確定するプロセスで活性化関数を追加してもよく、例えば、「目標畳み込み特徴情報に対して次元低減処理を行って、目標点の特徴重みを取得する」ステップは、以下のステップを含んでもよい。即ち、
目標畳み込み特徴情報に対して次元低減処理を行って、初期特徴重みを取得するステップと、
活性化関数に基づいて初期特徴重みを処理して、目標点の特徴重みを取得するステップとを含む。
なお、活性化関数はsigmoidなどの関数を採用してもよい。
物体検出の効率及び精度を向上させるために、深層学習ネットワークを採用して目標点の位置情報と目標畳み込み特徴情報とのフュージョンを実現してもよい。これにより、候補物体領域の領域特徴情報を構築する。なお、上記の特徴次元の増減は全結合層を採用して実現することができる。例えば、全畳み込みネットワーク(FullyConvolutionalNetworks、FCN)を採用して実現してもよい。
例えば、図1dを参照し、領域精錬ネットワーク(RefinerNet)を提供し、いくつかの全結合層及びフュージョンモジュール(Fusion module)、ダウンサンプリングモジュールを含み、当該フュージョンモジュールは、特徴結合モジュール(Concatenation)、即ち、図中の「C」モジュール、並列に接続される全結合層グループ、活性化処理モジュール及びベクトル乗算モジュールである「M」モジュールを含む。
候補物体領域の初期ポジショニング情報を取得した後に、点群から当該候補物体領域内に位置している目標点を切り取って、目標点の位置情報を位置特徴(nx4、当該nは目標点の数である)、例えばCoordinat(座標)としてもよい。また、featuremapのような畳み込み特徴セットから、目標点位置に対応する畳み込み特徴情報(Convolution Feature)、例えば特徴ベクトルnxCを抽出した後、位置特徴及び畳み込み特徴情報をそれぞれ領域精錬ネットワークに入力する。
領域精錬ネットワークにおける全結合層は、位置特徴ベクトルnx4をnx128の位置特徴ベクトルとしてマッピングしてフュージョンモジュールに入力する。フュージョンモジュールにおける特徴結合モジュール、即ち、「C」モジュールは、畳み込み特徴ベクトルnxCと、マッピングしたnx128位置特徴ベクトルとをフュージョンして、2つの全結合層によりフュージョン後特徴ベクトルをnx256のフュージョン特徴ベクトルとしてマッピングするとともに、フュージョンモジュールは、nx128及びnx1の全結合層により、nxC畳み込み特徴ベクトルをnx1の畳み込み特徴ベクトル(即ち、目標点の特徴重みベクトル)としてマッピングする。また、活性化処理モジュールは、活性化関数、例えばsigmoidを採用してnx1の畳み込み特徴ベクトルに対して活性化処理を行い、ベクトル乗算モジュールである「M」モジュールは、活性化処理されたnx1畳み込み特徴ベクトルとnx256のフュージョン特徴ベクトルに対してベクトル乗算処理を行って、乗算した特徴ベクトルを出力する。
そして、乗算した特徴ベクトルを2つの全結合層を介して、順次に特徴ベクトルをnx256及びnx512の特徴ベクトルとしてマッピングする。そして、ダウンサンプリングモジュールを利用してnx512の特徴ベクトルに対してダウンサンプリング操作を行って、512個の特徴を取得する。当該512個の特徴は候補物体領域の領域特徴である。
(2)領域特徴情報に基づいて真の物体領域に対する候補物体領域のポジショニングオフセット情報を、予測ポジショニングオフセット情報として予測する。
例えば、回帰ネットワークにより、領域特徴情報に基づいてポジショニングオフセット情報を予測してもよい。一実施例において、効率を向上させるために、当該回帰ネットワークを領域精錬ネットワークに統合してもよく、例えば、図1dを参照し、領域精錬ネットワーク(RefinerNet)は回帰ネットワーク(reg)をさらに含んでもよく、ダウンサンプリング操作により512個の領域特徴を取得した後、回帰ネットワーク(reg) に基づいてポジショニングオフセット予測を行って、予測ポジショニングオフセット情報を取得し、例えば、位置オフセット情報(3次元座標xyzの座標オフセット)、サイズオフセット情報(長、幅、高のサイズオフセット)、角度オフセット情報(例えば、回転角度の角度オフセット)など、例えば7次元パラメータ(x、y、z、h、w、l、theta)のオフセットoffsetを含んでもよい。
(3)予測ポジショニングオフセット情報に基づいて候補物体領域の初期ポジショニング情報を修正して、目標物体領域のポジショニング情報を取得する。
候補物体領域の予測ポジショニングオフセット情報を取得した後、当該予測ポジショニングオフセット情報に基づいて候補物体領域の初期ポジショニング情報を修正して、目標物体領域のポジショニング情報を取得してもよい。
なお、ポジショニング情報を修正する形態は様々あり、例えば、候補物体領域の初期ポジショニング情報が7次元回帰パラメータ、例えば、(x、y、z、h、w、l、theta)を含む場合、候補物体領域の元の7次元回帰パラメータと各パラメータのオフセットとを加算して、加算した7次元回帰パラメータを、候補物体領域の最適化された7次元回帰パラメータとすると、目標物体領域の7次元回帰パラメータを得ることができる。
以下に、候補領域ネットワーク及び領域精錬ネットワークのトレーニングについて説明する。
候補領域ネットワークのトレーニングについて、本出願の実施例は、タイプロス及びポジショニングオフセットロスを採用してトレーニングしてもよく、具体的に、以下の通りである。
(1)トレーニングサンプルセットを取得し、トレーニングサンプルセットはサンプルシーンのサンプル点群を含む。
なお、トレーニングサンプルセットは複数のサンプルシーンのサンプル点群を含んでもよく、サンプル点群は点の位置情報を含み、さらに点の反射強度情報などを含んでもよい。
実際のトレーニングプロセスにおいて、サンプルシーンは、さらに、サンプル物体のタイプ、真の物体領域のポジショニング情報がマーキングされてもよく、又は、一実施例において、真の物体領域とサンプル参照物体領域のサンプルオフセット情報をさらにマーキングされてもよく、当該サンプル参照物体領域は点群中点に対応する所定の物体領域であり、例えば、サンプルシーンの空間座標系において各サンプル点に対して確立された参照領域、例えば、参照ボックス(anchor)などである。
(2)サンプル点群における点の位置情報を3次元ボクセル表現にマッピングして、サンプル3次元ボクセルのサンプル特徴情報を取得する。
具体的に、3次元ボクセル表現形態は上記の実施例の説明を参照すればよい。
(3)予め構築された候補領域ネットワーク及びサンプル特徴情報に基づいてサンプル3次元ボクセルに対応するオフセット情報及び物体のタイプを予測して、予測ポジショニングオフセット情報及び予測タイプを取得する。
具体的に、候補領域ネットワークの予測プロセスは上記の実施例及び図1cに対する記載を参照してもよい。
(4)真のオフセット情報に対する予測ポジショニングオフセット情報のポジショニングオフセットロス、真の物体のタイプに対する予測物体のタイプのタイプロスを算出する。
なお、真のオフセット情報は、真の物体領域のポジショニング情報と参照物体領域のポジショニング情報とにより算出されてもよい。例えば、真の物体領域と参照物体領域の7次元回帰パラメータ(x、y、z、h、w、l、theta)のオフセット値(△x、△y、△z、△h、△w、△l、△theta)などを算出する。
なお、ポジショニングオフセットロスは、真のオフセット情報に対する予測ポジショニングオフセット情報のオフセットロス、即ち、誤差である。一実施例において、ポジショニング情報が領域の回帰パラメータを含む場合、当該ポジショニングオフセットロスは、回帰パラメータロスLregと呼んでもよい。
例えば、候補領域ネットワークのトレーニングは以下のロスであり得る。
Loss=Lcls+αLreg、その中、Lclsはタイプロス、Lregは回帰パラメータロスである。
Figure 0007179186000001
例えば、ボックスで領域を示す場合、regression loss(回帰ロス)について、予測するオフセット(offset)は真のボックスに対する参照ボックスのオフセットであり、座標オフセット(xyzオフセット、△1x、△1y、△1z)、長、幅、高オフセット(lwhオフセット、△1h、△1w、△1l)、角度オフセット(θオフセット、△1θ)を含み、演算形態は以下の通りである。
Figure 0007179186000002
その中、サブスクリプト(下付き添え字)のgは、真のボックス(groud truth)の値を示し、サブスクリプトのaは、アンカー(anchor)ボックスの値を示す。
(5)ポジショニングオフセットロス及びタイプロスを組み合わせて予め設定された候補領域ネットワークをトレーニングして、トレーニングされた候補領域ネットワークを取得する。
具体的に、ポジショニングオフセットロス及びタイプロスに応じて候補領域ネットワークにおけるネットワークパラメータ、例えば、パラメータの重みなどを調整してもよい。
上記のプロセスにより、大量のサンプルシーンの点群データを採用して候補領域ネットワークをトレーニングすることができ、ネットワークパラメータを継続的に調整することで、正確性の高い候補領域ネットワークを得ることができる。
領域精錬ネットワークのトレーニングについて
当該領域精錬ネットワークは、第1段階で候補領域ネットワークを採用して予測された候補物体領域をより正確に予測するために用いられるため、トレーニング中に、候補領域ネットワークのトレーニングで使用されるポジショニングオフセットロスを回帰パラメータロス(regression loss)として使用することができる。
本出願の実施例において、候補領域ネットワークと共同でトレーニングする形態を採用して領域精錬ネットワークをトレーニングすることができる。例えば、サンプルシーンの点群データを取得した後に、3次元ボクセル表現にマッピングし、候補領域ネットワークに入力し、上記で説明された候補領域ネットワークのトレーニング形態に従って参照領域(anchor領域)に対する候補領域のポジショニングオフセットを予測し、ポジショニングオフセットに基づいて参照領域(anchor領域)のポジショニング情報を修正することで、候補領域のポジショニング情報を取得する。そして、上記で説明された領域特徴構成形態に従って候補領域の領域特徴情報を抽出し領域精錬ネットワークに入力し、領域精錬ネットワークに基づいて候補領域のオフセット情報を予測することで、候補領域の予測オフセット情報を取得し、真のオフセット情報に対する予測オフセット情報のオフセットロスを算出し、当該オフセットロスに基づいて領域精錬ネットワークをトレーニングすることができる。
なお、ポジショニングオフセットロスは、真のオフセット情報に対する予測ポジショニングオフセット情報のオフセットロス、即ち、誤差であり、一実施例において、ポジショニング情報が領域の回帰パラメータを含む場合、当該ポジショニングオフセットロスは回帰パラメータロス(例えば、regression loss)と呼んでもよい。
なお、領域精錬ネットワークにより予測されたオフセット情報(offset)は、真の領域に対する候補領域のオフセットであり、例えば、ボックス識別子領域を例にすると、領域精錬ネットワークによって予測されたオフセットは、座標オフセット(xyzオフセット、△2x、△2y、△2z)、長、幅、高オフセット(lwhオフセット、△2h、△2w、△2l)、角度オフセット(θオフセット、△2θ)を含んでもよく、算出形態は、以下の通りである。
Figure 0007179186000003
ここで、サブスクリプト(下付き添え字)のgは、真のボックス(groud truth)の値を示し、サブスクリプトのaは、アンカーボックス(anchor)の値を示し、サブスクリプトのpは、候補領域ネットワークにより予測された候補ボックスの値を示す。
以上から分かるように、シーンにおける、点の位置情報を含む点群を取得し、点群を3次元ボクセル表現にマッピングして、3次元ボクセルの特徴情報を取得し、3次元ボクセルの特徴情報に対して畳み込み操作を行って、畳み込み特徴セットを取得し、畳み込み特徴セットに基づいて候補物体領域の初期ポジショニング情報を確定し、点群における候補物体領域内に位置している目標点を確定し、目標点の位置情報及び目標畳み込み特徴情報に基づいて、候補物体領域の初期ポジショニング情報を調整して、目標物体領域のポジショニング情報を取得することができる。ここで、目標畳み込み特徴情報は、畳み込み特徴セットにおける目標点位置に対応する畳み込み特徴である。当該スキームは、シーンにおける点群データを採用して物体検出を行うとともに、点群の位置情報及び畳み込み特徴をフュージョンするため、ポジショニング情報の紛失をできるだけ減少する。これにより、物体検出の正確度を効果的に向上させ、特に、3D物体の検出に適する。
また、当該スキームでさらに提供される候補領域ネットワーク及び領域精錬ネットワークは、非常に効率的な実行速度を備えており、実用性を大幅に拡張することができる。
以下に、以上の実施例で説明された方法に応じて、例を挙げてさらに詳細に説明する。
本実施例において、当該物体検出装置を具体的に電子機器に統合することを例に説明する。
図2aに示すように、物体検出方法であって、その具体的なフローは以下の通りである
201において、電子機器は、シーンにおける、点の位置情報を含む点群を取得する。
例えば、電子機器は、点群収集装置からシーンの点群を取得してもよい。当該点群は点の位置情報を含み、当該点の位置情報は3次元座標xyz及び回転角度を含んでもよい。
例えば、図2bを参照して、nx4ベクトル表現の点群を取得でき、nは点群における点の数であり、各点は1つの1x4の4次元ベクトルに対応し、当該ベクトルの次元は3次元座標及び反射率に対応する。
202において、電子機器は、点群を3次元ボクセル表現にマッピングして、3次元ボクセルの特徴情報を取得する。
例えば、電子機器は、シーン点群の範囲に基づいてそれに対応するサイズのボクセルブロック(例えば、立方体であるボクセルブロック)を構築し、ボクセルブロックを分割することで、複数の3次元ボクセルを取得し、シーンの点群を3次元ボクセルにマッピングし、3次元ボクセルにおけるマッピング点の位置情報に基づいて3次元ボクセルの特徴情報を構築する。
例えば、図2bを参照して、点群に対して3次元ボクセル化処理(Voxelize)を行って、nx4のベクトルを3Dボクセル(LxWxHx4)表現にマッピングすることができる。具体的に、3Dシーンの範囲を確定して、ボクセルブロックを構築し、それを複数のVoxelの表現に分割し、そして、各点をVoxelにマッピングし、他の煩雑な操作を行うことなく、マッピング点のあるVoxelについて、直接その中のあるマッピング点の4次元ベクトルを特徴として取り、マッピング点のないVoxelについて、全ての特徴が0である。
203において、電子機器は、3次元ボクセルの特徴情報に対して3次元畳み込み演算及び2次元畳み込み演算を順次行って、畳み込み特徴セットを取得する。
例えば、図2bを参照して、3次元ボクセルの特徴情報を取得した後に、VoxelRPN(ボクセル候補領域ネットワーク)、即ち、Voxel input(ボクセル入力)を入力してもよい。例えば、図1cに示す候補領域ネットワークを参照して、800x704x20x4(即ち、LxWxHx4)である3次元特徴情報をVoxelRPNに入力してもよい。
VoxelRPNは複数のBLOCK(畳み込み操作を実行する畳み込みユニット又は畳み込みブロック)を含み、図1cを参照して、VoxelRPNは、BLOCK1、BLOCK2、BLOCK3、BLOCK4を含み、BLOCK1における3次元畳み込み層(Conv3D)により3次元ボクセルの特徴情報に対して3次元畳み込み演算を行って、演算された3次元畳み込み特徴情報をBLOCK2に入力し、BLOCK2、BLOCK3、BLOCK4における2次元畳み込み層(Conv2D)により2次元畳み込み演算を行った後、BLOCK4及びBLOCK3によって出力された逆畳み込み特徴のサイズがBLOCK2によって出力された畳み込み特徴のサイズと同じになるように、BLOCK4及びBLOCK3によって出力された畳み込み特徴に対して逆畳み込み演算(Deconv)を行い、フュージョンモジュールを採用してBLOCK2、BLOCK3及びBLOCK4によって出力された特徴をフュージョンすることで、畳み込み特徴セット、例えば、featuremapを取得する。
具体的に、畳み込み特徴セットの演算は、上記の実施例の説明を参照すればよい。
204において、電子機器は、畳み込み特徴セットに基づいて3次元ボクセルに対応するポジショニングオフセット情報及び物体のタイプを予測する。ここで、ポジショニングオフセット情報は、真の物体領域に対する3次元ボクセルに対応する参照物体領域の初期ポジショニングオフセット情報である。
例えば、図2b及び図1cを参照して、畳み込み特徴マップを取得した後に、VoxelRPNにおける回帰ネットワーク(reg)及び分類ネットワーク(cls)により回帰及び分類をそれぞれ行うことができる。
なお、分類ネットワーク(cls)は、畳み込み特徴セットに基づいて物体のタイプを予測するために用いられ、回帰ネットワーク(reg)は、畳み込み特徴セットに基づいて真の物体領域に対する参照物体領域(anchor)のポジショニングオフセット情報、例えば、7次元回帰パラメータ(x、y、z、h、w、l、theta)のオフセットを予測するために用いられる。
例えば、回帰ネットワークにより、真のボックスに対するアンカーボックス(即ち、参照ボックス)のパラメータオフセット、例えば、7次元回帰パラメータ(x、y、z、h、w、l、theta)のオフセットを予測できる。
205において、電子機器は、初期ポジショニングオフセット情報及び物体のタイプに基づいて参照物体領域を調整して、候補物体領域及び候補物体領域の初期ポジショニング情報を取得する。
例えば、電子機器は、物体のタイプに応じて、参照物体領域を選別することで、選別後物体領域を取得し、選別後物体領域の初期ポジショニングオフセット情報に基づいて選別後物体領域のポジショニング情報を修正して、候補物体領域及び候補物体領域の初期ポジショニング情報を取得する。
例えば、図2bを参照して、VoxelRPNによりアンカーボックスのポジショニングパラメータオフセット及びタイプを予測した後に、タイプに基づいてアンカーボックスを選別し、ポジショニングパラメータオフセットに基づいて選別されたアンカーボックスを修正することにより、初期予測(Initial Prediction)された候補ボックスを取得してもよい。
206において、電子機器は、点群から候補物体領域内に位置している目標点を選択し、畳み込み特徴セットから目標点位置に対応する目標畳み込み特徴情報を選択する。
例えば、図2b及び図1dを参照して、候補の3Dボックスを予測した後に、この3Dボックスを利用して点群からボックスにおける点群(nx4)を、3Dボックスの座標特徴(Coordinate Feature)として切り取る。
また、前のVoxelRPNネットワークによって出力されたfeaturemap特徴マップから各ボックス内の点に対応する位置でのConvolution(畳み込み)特徴を、3Dボックスの畳み込み特徴(Convolution Feature)として探し出す。この2つの特徴を入力として、RefinerNet構成に入力する。
207において、電子機器は目標点の位置情報と目標畳み込み特徴情報とをフュージョンして、候補物体領域の領域特徴情報を取得する。
例えば、図2b及び図1dを参照して、位置特徴及び畳み込み特徴をRefinerNetネットワークに入力した後に、RefinerNetネットワークは、この2つの特徴をフュージョンして、3Dボックスの特徴を取得してもよい。具体的な形態は、上記の実施例の説明を参照すればよい。
208において、電子機器は、領域特徴情報に基づいて真の物体領域に対する候補物体領域のポジショニングオフセット情報を予測して、予測ポジショニングオフセット情報を取得する。
例えば、図2b及び図1dを参照して、RefinerNetネットワークにおける回帰ネットワーク(reg)によりポジショニングオフセット予測を行って、候補物体領域、例えば、真ボックスなどの真の物体領域に対する候補ボックスのポジショニングオフセット情報を取得してもよい。
例えば、位置オフセット情報(3次元座標xyzの座標オフセット)、サイズオフセット情報(長、幅、高のサイズオフセット)、角度オフセット情報(例えば、回転角度の角度オフセット)などを含んでもよく、例えば、7次元パラメータ(x、y、z、h、w、l、theta)のオフセットoffsetである。
209において、電子機器は、予測ポジショニングオフセット情報に基づいて候補物体領域の初期ポジショニング情報を修正して、目標物体領域のポジショニング情報を取得する。
候補物体領域の予測ポジショニングオフセット情報を取得した後に、当該予測ポジショニングオフセット情報に基づいて候補物体領域の初期ポジショニング情報を修正し、ポジショニング情報が修正された候補物体領域を目標物体領域とし、修正されたポジショニング情報を当該目標領域のポジショニング情報としてもよい。即ち、本出願の実施例で最終的に取得しようとする目標物体領域及びそのポジショニング情報である。
図2bを参照して、RefinerNetネットワークによりオフセットを予測した後に、予測オフセットに基づいて3Dボックスを修正し、最終的な正確な3Dボックスを取得し、物体検出を実現することができる。
本出願の実施例のスキームは、自動運転の分野に適用でき、自動運転中に本出願の実施例方法を採用して物体検出を実現し、例えば、図2cを参照して、本出願の実施例にかかる物体検出を採用して自動運転シーンでの車両、歩行者などの物体を検出することができる。
本出願の実施例は、シーンの点群データを採用して物体検出を行うとともに、点群の位置情報と畳み込み特徴とをフュージョンすることにより、ポジショニング情報の紛失をできるだけ減少し、物体検出の正確度及び効率を効果的に向上させ、特に、3D物体検出に適する。また、当該スキームは、候補領域ネットワーク及び領域精錬ネットワークを利用して物体検出を行うことで、物体検出効率を大幅に向上させることができる。
以上の方法をより良く実施するために、それに応じて、本出願の実施例では、さらに、物体検出装置を提供し、当該物体検出装置は、具体的に、例えば、ネットワーク装置などの電子機器に統合されてもよく、ネットワーク装置はサーバーであってもよいし、端末、車載装置、ドローンなどの機器であってもよく、例えば、ミニ処理ボックスなどであってもよい。
例えば、図3aに示すように、当該物体検出装置は、
シーンにおける、点の位置情報を含む点群を取得するための点群取得ユニット301と、
前記点群を3次元ボクセル表現にマッピングして、3次元ボクセルの特徴情報を取得するためのボクセルマッピングユニット302と、
前記3次元ボクセルの特徴情報に対して畳み込み操作を行って、畳み込み特徴セットを取得するための畳み込みユニット303と、
前記畳み込み特徴セットに基づいて候補物体領域の初期ポジショニング情報を確定するための候補領域取得ユニット304と、
前記点群における候補物体領域内に位置している目標点を確定するための選択ユニット305と、
前記目標点の位置情報及び目標畳み込み特徴情報に基づいて、前記候補物体領域の初期ポジショニング情報を調整して、目標物体領域のポジショニング情報を取得するための調整ユニット306とを含むことができる。ここで、前記目標畳み込み特徴情報は、前記畳み込み特徴セットにおける目標点位置に対応する畳み込み特徴情報である。
一実施例において、図3bを参照して、前記調整ユニット306は、
前記目標点の位置情報と目標畳み込み特徴情報とをフュージョンして、候補物体領域の領域特徴情報を取得するためのフュージョンサブユニット3061と、
前記領域特徴情報に基づいて真の物体領域に対する前記候補物体領域のポジショニングオフセット情報を、予測ポジショニングオフセット情報として予測するための第1の予測サブユニット3062と、
前記予測ポジショニングオフセット情報に基づいて前記候補物体領域の初期ポジショニング情報を修正して、目標物体領域のポジショニング情報を取得するための修正サブユニット3063とを含むことができる。
一実施例において、前記フュージョンサブユニット3061は、具体的に、
前記目標点の位置情報と目標畳み込み特徴情報とをフュージョンして、フュージョン特徴情報を取得し、
前記目標点の目標畳み込み特徴情報に対して次元低減処理を行って、目標点の特徴重みを取得し、
前記特徴重みに基づいて前記フュージョン特徴情報に対して特徴演算を行って、演算後特徴情報を取得し、
前記演算後特徴情報に対してダウンサンプリング操作を行って、候補物体領域の領域特徴情報を取得するために用いられてもよい。
一実施例において、前記フュージョンサブユニット3061は、具体的に、前記フュージョン特徴情報の特徴次元に対して次元増加処理を行って処理後特徴情報を取得し、前記特徴重みに基づいて前記処理後特徴情報に対して特徴演算を行って、演算後特徴情報を取得するために用いられてもよい。
一実施例において、前記フュージョンサブユニット3061は、具体的に、前記目標点の目標畳み込み特徴情報に対して次元低減処理を行って、目標点の初期特徴重みを取得し、活性化関数に基づいて前記初期特徴重みを処理して、目標点の特徴重みを取得するために用いられてもよい。
一実施例において、図3cを参照して、前記畳み込みユニット303は、
前記3次元ボクセルの特徴情報に対して3次元畳み込み演算を行って、3次元ボクセルの3次元畳み込み特徴情報を取得するための3次元畳み込みサブユニット3031と、
前記3次元ボクセルの3次元畳み込み特徴情報に対して2次元畳み込み演算を行って、畳み込み特徴セットを取得するための2次元畳み込みサブユニット3032とを含むことができる。
一実施例において、3次元畳み込みサブユニット3031は、候補領域ネットワークにおける3次元畳み込みネットワークを採用して、前記3次元ボクセルの特徴情報に対して3次元畳み込み演算を行うために用いられてもよく、前記候補領域ネットワークは前記3次元畳み込みネットワークに接続された2次元畳み込みネットワークをさらに含み、前記2次元畳み込みネットワークは順次に接続された複数の畳み込みブロックを含む。
前記2次元畳み込みサブユニット3032は、前記2次元畳み込みネットワークにおける複数の畳み込みブロックを採用して前記3次元畳み込み特徴情報に対して2次元畳み込み演算を順次行って、各畳み込みブロックによって出力された畳み込み特徴をフュージョンして、畳み込み特徴セットを取得するために用いられてもよい。
一実施例において、2次元畳み込みサブユニット3032は、前記畳み込みブロックを採用して前記3次元畳み込み特徴に対して2次元畳み込み演算を順次行い、前記2次元畳み込みネットワークにおける一番目の畳み込みブロック以外の他の畳み込みブロックによって出力された畳み込み特徴に対して逆畳み込み処理を行って、他の畳み込みブロックの逆畳み込み特徴を取得し、一番目の畳み込みブロックによって出力された畳み込み特徴と他の畳み込みブロックの逆畳み込み特徴とをフュージョンして、畳み込み特徴セットを取得するために用いられる。ここで、前記逆畳み込み特徴と一番目の畳み込みブロックによって出力された畳み込み特徴とのサイズは、同じである。
一実施例において、図3dを参照して、前記候補領域取得ユニット304は、
前記畳み込み特徴セットに基づいて、3次元ボクセルに対応するポジショニングオフセット情報及び物体のタイプを予測する第2の予測サブユニットであって、前記ポジショニングオフセット情報は、真の物体領域に対する前記3次元ボクセルに対応する参照物体領域の初期ポジショニングオフセット情報である第2の予測サブユニット3041と、
前記ポジショニングオフセット情報及び物体のタイプに基づいて前記3次元ボクセルに対応する参照物体領域を調整して、候補物体領域の初期ポジショニング情報を取得するための調整サブユニット3042とを含むことができる。
一実施例において、前記調整サブユニット3042は、具体的に、
前記物体のタイプに応じて参照物体領域を選別して、選別後物体領域を取得し、
選別後物体領域のポジショニングオフセット情報に基づいて前記選別後物体領域のポジショニング情報を修正して、候補物体領域の初期ポジショニング情報を取得するために用いられてもよい。
一実施例において、前記畳み込みユニット303は、具体的に、
候補領域ネットワークにおける3次元畳み込みネットワークを採用して、前記3次元ボクセルの特徴情報に対して3次元畳み込み演算を行って、
前記2次元畳み込みネットワークにおける複数の畳み込みブロックを採用して前記3次元畳み込み特徴に対して2次元畳み込み演算を順次行い、
前記フュージョンモジュールを採用して前記2次元畳み込みネットワークにおける各畳み込みブロックによって出力された畳み込み特徴をフュージョンして、畳み込み特徴セットを取得するために用いられ、
前記候補領域ネットワークは、前記3次元畳み込みネットワークに接続された2次元畳み込みネットワークと、フュージョンモジュールと、フュージョンモジュールにそれぞれ接続された分類ネットワーク及び回帰ネットワークとをさらに含み、前記2次元畳み込みネットワークは順次に接続された複数の畳み込みブロックを含む。
前記第2の予測サブユニット3041は、前記分類ネットワーク及び前記畳み込み特徴セットに基づいて、3次元ボクセルに対する物体分類を行って、3次元ボクセルに対応する物体のタイプを取得し、前記回帰ネットワーク及び前記畳み込み特徴セットに基づいて、3次元ボクセルに対応するポジショニングオフセット情報を予測するために用いられる。
一実施例において、図3eを参照して、物体検出装置はトレーニングユニット307をさらに含むことができる。前記トレーニングユニット307は、具体的に、
サンプルシーンにおけるサンプル点群を含むトレーニングサンプルセットを取得し、
サンプル点群における点の位置情報を3次元ボクセル表現にマッピングして、サンプル3次元ボクセルのサンプル特徴情報を取得し、
予め構築された候補領域ネットワーク、及び前記サンプル特徴情報に基づいて、サンプル3次元ボクセルに対応するオフセット情報及び物体のタイプを予測して、予測ポジショニングオフセット情報及び予測タイプを取得し、
真のオフセット情報に対する予測ポジショニングオフセット情報のポジショニングオフセットロスを算出し、
真の物体のタイプに対する予測物体のタイプのタイプロスを算出し、
前記ポジショニングオフセットロスとタイプロスとを組み合わせて候補領域ネットワークをトレーニングして、トレーニングされた候補領域ネットワークを取得するために用いられてもよい。
具体的に実施する際、上記の各ユニットは、独立したエンティティとして実現されてもよいし、任意の組み合わせによって、同一又はいくつかのエンティティとして実現されてもよい。上記の各ユニットの具体的な実施は、前述した方法の実施例を参照すればよいが、ここで説明を省略する。
以上から分かるように、本実施例に係る物体検出装置は、点群取得ユニット301により、シーンにおける、点の位置情報を含む点群を取得し、ボクセルマッピングユニット302により前記点群を3次元ボクセル表現にマッピングして3次元ボクセルの特徴情報を取得し、畳み込みユニット303により、前記3次元ボクセルの特徴情報に対して畳み込み操作を行って、畳み込み特徴セットを取得し、候補領域取得ユニット304により前記畳み込み特徴セットに基づいて候補物体領域の初期ポジショニング情報を確定し、選択ユニット305により、前記点群から候補物体領域内に位置している目標点を選択し、調整ユニット306により、前記目標点の位置情報及び目標畳み込み特徴情報に基づいて、前記候補物体領域の初期ポジショニング情報を調整して、目標物体領域のポジショニング情報を取得することができる。ここで、前記目標畳み込み特徴情報は、前記畳み込み特徴セットにおける目標点位置に対応する畳み込み特徴情報である。当該スキームは、シーンにおける点群データを採用して物体検出を行うとともに、点群の位置情報及び畳み込み特徴をフュージョンするため、ポジショニング情報の紛失をできるだけ減少する。これにより、物体検出の正確度を効果的に向上させ、特に、3D物体の検出に適する。
本出願の実施例は、さらに、電子機器を提供し、図4に示すように、本出願の実施例に係る電子機器の構成の模式図を示し、具体的には、以下の通りである。
この電子機器は、1つ又は複数の処理コアを有するプロセッサ401、1つ又は複数のコンピュータ読み取り可能な記憶媒体を有するメモリ402、電源403、及び入力ユニット404などの構成要素を含んでもよい。当業者であれば理解できるように、図4に示された電子機器の構成は、電子機器を限定するものではなく、図示よりも多く又は少ない構成要素を含んでもよく、又はいくらかの構成要素を組み合わせたものであってもよく、又は構成要素の異なる配置を有してもよい。
プロセッサ401は、当該電子機器の制御センターであり、各種のインタフェース及び回線によって電子機器全体の各部分を接続し、メモリ402に記憶されたソフトウェアプログラム及び/又はモジュールを実行又は遂行して、メモリ402に記憶されたデータを呼び出すことにより、電子機器の各種の機能を実行してデータを処理し、電子機器を全体的に監視制御する。1つのオプションとして、プロセッサ401は、1つ又は複数の処理コアを含んでもよい。好ましくは、プロセッサ401には、アプリケーションプロセッサ及び変復調プロセッサが組み入れられてもよい。ここで、アプリケーションプロセッサは、主にオペレーティングシステム、ユーザインタフェース、及びアプリケーションなどを処理し、変復調プロセッサは、主に無線通信を処理する。理解できるように、上記変復調プロセッサは、プロセッサ401に組み入れられなくてもよい。
メモリ402は、ソフトウェアプログラム及びモジュールを記憶するために用いられてもよい。プロセッサ401は、メモリ402に記憶されたソフトウェアプログラム及びモジュールを実行することにより、各種の機能アプリケーション及びデータ処理を実行する。メモリ402は、主にプログラム記憶領域及びデータ記憶領域を含んでもよい。ここで、プログラム記憶領域には、オペレーティングシステム、少なくとも1つの機能に必要なアプリケーション(例えば、音声再生機能、画像再生機能など)などを記憶してもよい。データ記憶領域には、電子機器の使用に応じて作成されたデータなどを記憶してもよい。また、メモリ402は、高速ランダムアクセスメモリを含んでもよいし、不揮発性メモリを含んでもよく、例えば、少なくとも1つの磁気ディスク記憶デバイス、フラッシュメモリデバイス、又はその他の揮発性ソリッドステート記憶デバイスであってもよい。これに応じて、メモリ402は、メモリコントローラをさらに含んでもよい。これにより、プロセッサ401によるメモリ402へのアクセスが提供される。
電子機器は、各構成要素に電力を供給する電源403をさらに含む。好ましくは、電源403は、電源管理システムを介して、プロセッサ401と論理的に接続されてもよい。これにより、電源管理システムによって、充電、放電、及び電力消耗の管理などの機能を実現する。電源403は、1つ又は複数の直流又は交流電源、再充電システム、電源故障検出回路、電源変換器又はインバータ、電源状態指示器などの任意の構成要素を含んでもよい。
電子機器は、入力ユニット404をさらに含んでもよい。この入力ユニット404は、入力された数字や文字の情報を受信し、ユーザ設定及び機能制御に関するキーボード、マウス、ジョイスティック、光学又はトラックボールの信号入力を生成するために用いられてもよい。
電子機器は、図示されていないが、表示ユニットなどをさらに含んでもよい。ここで説明を省略する。具体的には、本実施例では、電子機器のプロセッサ401が、下記のような命令に従って、1つ又は複数のアプリケーションのプロセスに対応する実行可能なファイルをメモリ402にロードし、メモリ402に記憶されたアプリケーションをプロセッサ401が実行することにより、各種の機能を実現する。以下の通りである。
シーンにおける、点の位置情報を含む点群を取得し、点群を3次元ボクセル表現にマッピングして、3次元ボクセルの特徴情報を取得し、3次元ボクセルの特徴情報に対して畳み込み操作を行って畳み込み特徴セットを取得し、畳み込み特徴セットに基づいて候補物体領域の初期ポジショニング情報を確定し、点群における候補物体領域内に位置している目標点を確定し、目標点の位置情報及び目標畳み込み特徴情報に基づいて、候補物体領域の初期ポジショニング情報を調整して、目標物体領域のポジショニング情報を取得する。 ここで、目標畳み込み特徴情報は、畳み込み特徴セットにおける目標点位置に対応する畳み込み特徴情報である。
以上の各操作は、具体的に、前述した実施例を参照すればよいが、ここでは説明を省略する。
以上から分かるように、本実施例の電子機器は、シーンにおける、点の位置情報を含む点群を取得し、前記点群を3次元ボクセル表現にマッピングして3次元ボクセルの特徴情報を取得し、前記3次元ボクセルの特徴情報に対して畳み込み操作を行って畳み込み特徴セットを取得し、前記畳み込み特徴セットに基づいて候補物体領域の初期ポジショニング情報を確定し、前記点群における候補物体領域内に位置している目標点を確定し、前記目標点の位置情報及び目標畳み込み特徴情報に基づいて前記候補物体領域の初期ポジショニング情報を調整して、目標物体領域のポジショニング情報を取得する。ここで、前記目標畳み込み特徴情報は、前記畳み込み特徴セットにおける目標点位置に対応する畳み込み特徴情報である。当該スキームは、シーンの点群データを採用して物体検出を行うとともに、点群の位置情報及び畳み込み特徴をフュージョンするため、ポジショニング情報の紛失をできるだけ減少する。これにより、物体検出の正確度を効果的に向上させ、特に、3D物体の検出に適する。
当業者であれば理解できるように、上記実施例の各方法の手順の全部又は一部は、命令によって実行されたり、命令で関連するハードウェアを制御することにより実行されたりしてもよい。この命令は、コンピュータ読み取り可能な記憶媒体に記憶され、プロセッサによってロード・実行されてもよい。
そのため、本出願の実施例では、さらに、複数の命令が記憶されている記憶媒体を提供し、当該命令は、プロセッサによってロードされることで、本出願の実施例によるいずれか1つの物体検出方法におけるステップを実行させることができる。例えば、当該命令は、
シーンにおける、点の位置情報を含む点群を取得し、前記点群を3次元ボクセル表現にマッピングして3次元ボクセルの特徴情報を取得し、前記3次元ボクセルの特徴情報に対して畳み込み操作を行って畳み込み特徴セットを取得し、前記畳み込み特徴セットに基づいて候補物体領域の初期ポジショニング情報を確定し、前記点群における候補物体領域内に位置している目標点を確定し、前記目標点の位置情報及び目標畳み込み特徴情報に基づいて、前記候補物体領域の初期ポジショニング情報を調整して、目標物体領域のポジショニング情報を取得するステップを実行させることができる。ここで、目標畳み込み特徴情報は、前記畳み込み特徴セットにおける目標点位置に対応する畳み込み特徴情報である。
以上の各操作の具体的な実施は、前の実施例を参照すればよいが、ここでは説明を省略する。
なお、当該記憶媒体は、読み出し専用メモリ(ROM:Read Only Memory)、ランダムアクセスメモリ(RAM:Random Access Memory)、磁気ディスク、又は光ディスクなどを含んでもよい。
当該記憶媒体に記憶された命令は、本願の実施例によるいずれか1つの物体検出方法におけるステップを実行させることができるため、本願の実施例によるいずれか1つの物体検出方法におけるステップが実現可能な有利な効果を実現できる。詳しくは、前述した実施例を参照すればよいが、ここで説明を省略する。
以上、本出願の実施例による物体検出方法、装置、電子機器及び記憶媒体について詳細に説明し、本明細書では、具体的な例示を使用して、本発明の原理及び実施形態を説明したが、上記の実施例の説明は、本発明の方法及び中心となる思想の理解を助けるためのものにすぎない。また、当業者にとっては、本発明の思想を踏まえると、具体的な実施形態及び適用範囲の両方に変更があり得る。要するに、本明細書の内容は、本発明に対する制限として理解されるべきではない。
301 点群取得ユニット
302 ボクセルマッピングユニット
303 畳み込みユニット
304 候補領域取得ユニット
305 選択ユニット
306 調整ユニット
307 トレーニングユニット
401 プロセッサ
402 メモリ
403 電源
404 入力ユニット
3031 次元畳み込みサブユニット
3032 次元畳み込みサブユニット
3041 第2の予測サブユニット
3042 調整サブユニット
3061 フュージョンサブユニット
3062 第1の予測サブユニット
3063 修正サブユニット

Claims (13)

  1. 電子機器において実行する、物体検出方法であって、
    シーンにおける、点の位置情報を含む点群を取得するステップと、
    前記点群を3次元ボクセル表現にマッピングして、3次元ボクセルの特徴情報を取得するステップと、
    前記3次元ボクセルの特徴情報に対して畳み込み操作を行って、畳み込み特徴セットを取得するステップと、
    前記畳み込み特徴セットに基づいて、候補物体領域の初期ポジショニング情報を確定するステップと、
    前記点群における前記候補物体領域内に位置している目標点を確定するステップと、
    前記目標点の位置情報及び目標畳み込み特徴情報に基づいて、前記候補物体領域の初期ポジショニング情報を調整して、目標物体領域のポジショニング情報を取得するステップであって、前記目標畳み込み特徴情報は前記畳み込み特徴セットにおける前記目標点位置に対応する畳み込み特徴情報であるステップと
    を含み、
    前記目標点の位置情報及び目標畳み込み特徴情報に基づいて、前記候補物体領域の初期ポジショニング情報を調整して、目標物体領域のポジショニング情報を取得するステップは、
    前記目標点の位置情報と前記目標畳み込み特徴情報とをフュージョンして、前記候補物体領域の領域特徴情報を取得するステップと、
    前記領域特徴情報に基づいて、真の物体領域に対する前記候補物体領域のポジショニングオフセット情報を、予測ポジショニングオフセット情報として予測するステップと、
    前記予測ポジショニングオフセット情報に基づいて、前記候補物体領域の初期ポジショニング情報を修正して、前記目標物体領域のポジショニング情報を取得するステップと
    を含み、
    前記目標点の位置情報と前記目標畳み込み特徴情報とをフュージョンして、前記候補物体領域の領域特徴情報を取得するステップは、
    前記目標点の位置情報と前記目標畳み込み特徴情報とをフュージョンして、フュージョン特徴情報を取得するステップと、
    前記目標畳み込み特徴情報に対して次元低減処理を行って、前記目標点の特徴重みを取得するステップと、
    前記特徴重みに基づいて前記フュージョン特徴情報に対して特徴演算を行って、演算後特徴情報を取得するステップと、
    前記演算後特徴情報に対してダウンサンプリング操作を行って、前記候補物体領域の領域特徴情報を取得するステップと
    を含む方法。
  2. 前記特徴重みに基づいて前記フュージョン特徴情報に対して特徴演算を行って、演算後特徴情報を取得するステップは、
    前記フュージョン特徴情報の特徴次元に対して次元増加処理を行って、処理後特徴情報を取得するステップと、
    前記特徴重みに基づいて前記処理後特徴情報に対して特徴演算を行って、前記演算後特徴情報を取得するステップと
    を含む請求項に記載の物体検出方法。
  3. 前記目標畳み込み特徴情報に対して次元低減処理を行って、前記目標点の特徴重みを取得するステップは、
    前記目標畳み込み特徴情報に対して次元低減処理を行って、初期特徴重みを取得するステップと、
    活性化関数に基づいて前記初期特徴重みを処理して、前記目標点の特徴重みを取得するステップと
    を含む請求項に記載の物体検出方法。
  4. 前記3次元ボクセルの特徴情報に対して畳み込み操作を行って、畳み込み特徴セットを取得するステップは、
    前記3次元ボクセルの特徴情報に対して3次元畳み込み演算を行って、前記3次元ボクセルの3次元畳み込み特徴情報を取得するステップと、
    前記3次元畳み込み特徴情報に対して2次元畳み込み演算を行って、前記畳み込み特徴セットを取得するステップと
    を含む請求項1~のいずれか一項に記載の物体検出方法。
  5. 前記3次元ボクセルの特徴情報に対して3次元畳み込み演算を行うステップは、
    候補領域ネットワークにおける3次元畳み込みネットワークを採用して、前記3次元ボクセルの特徴情報に対して3次元畳み込み演算を行うステップであって、前記候補領域ネットワークは前記3次元畳み込みネットワークに接続された2次元畳み込みネットワークをさらに含み、前記2次元畳み込みネットワークは順次に接続された複数の畳み込みブロックを含むステップを含み、
    前記3次元畳み込み特徴情報に対して2次元畳み込み演算を行って、前記畳み込み特徴セットを取得するステップは、
    前記2次元畳み込みネットワークにおける複数の畳み込みブロックを採用して、前記3次元畳み込み特徴情報に対して2次元畳み込み演算を順次行うステップと、
    各前記畳み込みブロックによって出力された畳み込み特徴をフュージョンして、前記畳み込み特徴セットを取得するステップと
    を含む請求項に記載の物体検出方法。
  6. 前記各前記畳み込みブロックによって出力された畳み込み特徴をフュージョンして、前記畳み込み特徴セットを取得するステップは、
    前記2次元畳み込みネットワークにおける一番目の畳み込みブロック以外の他の畳み込みブロックによって出力された畳み込み特徴のそれぞれに対して、逆畳み込み処理を行って、他の畳み込みブロックの逆畳み込み特徴を取得するステップであって、前記逆畳み込み特徴と前記一番目の畳み込みブロックによって出力された畳み込み特徴とのサイズが同じであるステップと、
    前記一番目の畳み込みブロックによって出力された畳み込み特徴と前記他の畳み込みブロックの逆畳み込み特徴とをフュージョンして、前記畳み込み特徴セットを取得するステップと
    を含む請求項に記載の物体検出方法。
  7. 前記畳み込み特徴セットに基づいて候補物体領域の初期ポジショニング情報を確定するステップは、
    前記畳み込み特徴セットに基づいて、前記3次元ボクセルに対応するポジショニングオフセット情報及び物体のタイプを予測するステップであって、前記ポジショニングオフセット情報は、真の物体領域に対する前記3次元ボクセルに対応する参照物体領域の初期ポジショニングオフセット情報であるステップと、
    前記ポジショニングオフセット情報及び前記物体のタイプに基づいて、前記3次元ボクセルに対応する参照物体領域を調整して、前記候補物体領域の初期ポジショニング情報を取得するステップと
    を含む請求項1~のいずれか一項に記載の物体検出方法。
  8. 前記ポジショニングオフセット情報及び前記物体のタイプに基づいて前記3次元ボクセルに対応する参照物体領域を調整して、前記候補物体領域の初期ポジショニング情報を取得するステップは、
    前記物体のタイプに応じて前記参照物体領域を選別して、選別後物体領域を取得するステップと、
    前記選別後物体領域のポジショニングオフセット情報に基づいて前記選別後物体領域のポジショニング情報を修正して、前記候補物体領域の初期ポジショニング情報を取得するステップと
    を含む請求項に記載の物体検出方法。
  9. 前記3次元ボクセルの特徴情報に対して畳み込み操作を行って、畳み込み特徴セットを取得するステップは、
    候補領域ネットワークにおける3次元畳み込みネットワークを採用して、前記3次元ボクセルの特徴情報に対して3次元畳み込み演算を行うステップであって、前記候補領域ネットワークは、前記3次元畳み込みネットワークに接続された2次元畳み込みネットワークと、フュージョンモジュールと、前記フュージョンモジュールにそれぞれ接続された分類ネットワーク及び回帰ネットワークとをさらに含み、前記2次元畳み込みネットワークは順次に接続された複数の畳み込みブロックを含むステップと
    前記2次元畳み込みネットワークにおける複数の畳み込みブロックを採用して前記3次元畳み込み特徴に対して2次元畳み込み演算を順次行うステップと、
    前記フュージョンモジュールを採用して、前記2次元畳み込みネットワークにおける各畳み込みブロックによって出力された畳み込み特徴をフュージョンして、前記畳み込み特徴セットを取得するステップと
    を含み、
    前記畳み込み特徴セットに基づいて前記3次元ボクセルに対応するポジショニングオフセット情報及び物体のタイプを予測するステップは、
    前記分類ネットワーク及び前記畳み込み特徴セットに基づいて、前記3次元ボクセルに対して物体分類を行って、前記3次元ボクセルに対応する物体のタイプを取得するステップと、
    前記回帰ネットワーク及び前記畳み込み特徴セットに基づいて、前記3次元ボクセルに対応するポジショニングオフセット情報を予測するステップと
    を含む請求項に記載の物体検出方法。
  10. サンプルシーンのサンプル点群を含むトレーニングサンプルセットを取得するステップと、
    前記サンプル点群における点の位置情報を3次元ボクセル表現にマッピングして、サンプル3次元ボクセルのサンプル特徴情報を取得するステップと、
    予め構築された候補領域ネットワーク、及び前記サンプル特徴情報に基づいて、前記サンプル3次元ボクセルに対応するオフセット情報及び物体のタイプを予測して、予測ポジショニングオフセット情報及び予測タイプを取得するステップと、
    真のオフセット情報に対する予測ポジショニングオフセット情報のポジショニングオフセットロスを算出するステップと、
    真の物体のタイプに対する予測物体のタイプのタイプロスを算出するステップと、
    前記ポジショニングオフセットロスと前記タイプロスとを組み合わせて前記候補領域ネットワークをトレーニングして、トレーニングされた候補領域ネットワークを取得するステップと
    をさらに含む請求項に記載の物体検出方法。
  11. 物体検出装置であって、
    シーンにおける点の位置情報を含む点群を取得するための点群取得ユニットと、
    前記点群を3次元ボクセル表現にマッピングして、3次元ボクセルの特徴情報を取得するためのボクセルマッピングユニットと、
    前記3次元ボクセルの特徴情報に対して畳み込み操作を行って、畳み込み特徴セットを取得するための畳み込みユニットと、
    前記畳み込み特徴に基づいて候補物体領域の初期ポジショニング情報を確定するための候補領域取得ユニットと、
    前記点群における前記候補物体領域内に位置している目標点を確定するための選択ユニットと、
    前記目標点の位置情報及び目標畳み込み特徴情報に基づいて、前記候補物体領域の初期ポジショニング情報を調整して、目標物体領域のポジショニング情報を取得するための調整ユニットであって、前記目標畳み込み特徴情報は、前記畳み込み特徴セットにおける前記目標点位置に対応する畳み込み特徴情報である調整ユニットと
    を含み、
    前記調整ユニットは、
    前記目標点の位置情報と前記目標畳み込み特徴情報とをフュージョンして、前記候補物体領域の領域特徴情報を取得するステップと、
    前記領域特徴情報に基づいて、真の物体領域に対する前記候補物体領域のポジショニングオフセット情報を、予測ポジショニングオフセット情報として予測するステップと、
    前記予測ポジショニングオフセット情報に基づいて、前記候補物体領域の初期ポジショニング情報を修正して、前記目標物体領域のポジショニング情報を取得するステップと
    を実施するように構成され、
    前記目標点の位置情報と前記目標畳み込み特徴情報とをフュージョンして、前記候補物体領域の領域特徴情報を取得するステップは、
    前記目標点の位置情報と前記目標畳み込み特徴情報とをフュージョンして、フュージョン特徴情報を取得するステップと、
    前記目標畳み込み特徴情報に対して次元低減処理を行って、前記目標点の特徴重みを取得するステップと、
    前記特徴重みに基づいて前記フュージョン特徴情報に対して特徴演算を行って、演算後特徴情報を取得するステップと、
    前記演算後特徴情報に対してダウンサンプリング操作を行って、前記候補物体領域の領域特徴情報を取得するステップと
    を含む物体検出装置。
  12. メモリ及びプロセッサを含む電子機器であって、
    前記メモリは複数の命令が記憶されており、
    前記プロセッサは請求項1~10のいずれか一項に記載の物体検出方法におけるステップを実行するように前記メモリにおける命令をロードする電子機器。
  13. 命令を含むコンピュータプログラムであって、
    コンピュータ上で実行されると、コンピュータに、請求項1~10のいずれか一項に記載の物体検出方法におけるステップを実行させるコンピュータプログラム。
JP2021536821A 2019-04-11 2020-03-09 物体検出方法、装置、電子機器、及びコンピュータプログラム Active JP7179186B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201910290188.0A CN110059608B (zh) 2019-04-11 2019-04-11 一种物体检测方法、装置、电子设备和存储介质
CN201910290188.0 2019-04-11
PCT/CN2020/078372 WO2020207166A1 (zh) 2019-04-11 2020-03-09 一种物体检测方法、装置、电子设备和存储介质

Publications (2)

Publication Number Publication Date
JP2022514974A JP2022514974A (ja) 2022-02-16
JP7179186B2 true JP7179186B2 (ja) 2022-11-28

Family

ID=67318785

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021536821A Active JP7179186B2 (ja) 2019-04-11 2020-03-09 物体検出方法、装置、電子機器、及びコンピュータプログラム

Country Status (6)

Country Link
US (1) US11915501B2 (ja)
EP (1) EP3955158B1 (ja)
JP (1) JP7179186B2 (ja)
KR (1) KR102629928B1 (ja)
CN (1) CN110059608B (ja)
WO (1) WO2020207166A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11967873B2 (en) 2019-09-23 2024-04-23 Canoo Technologies Inc. Fractional slot electric motors with coil elements having rectangular cross-sections

Families Citing this family (33)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11094114B2 (en) * 2019-02-08 2021-08-17 Ursa Space Systems Inc. Satellite SAR artifact suppression for enhanced three-dimensional feature extraction, change detection, and visualizations
CN110059608B (zh) * 2019-04-11 2021-07-06 腾讯科技(深圳)有限公司 一种物体检测方法、装置、电子设备和存储介质
US20220292811A1 (en) * 2019-07-12 2022-09-15 Sony Interactive Entertainment Inc. Image processing device, image processing method, and program
CN112446227A (zh) * 2019-08-12 2021-03-05 阿里巴巴集团控股有限公司 物体检测方法、装置及设备
WO2021114031A1 (zh) * 2019-12-09 2021-06-17 深圳市大疆创新科技有限公司 一种目标检测方法和装置
CN111144242B (zh) * 2019-12-13 2023-09-29 中国科学院深圳先进技术研究院 一种三维目标检测方法、装置及终端
CN110991468B (zh) * 2019-12-13 2023-12-19 深圳市商汤科技有限公司 三维目标检测和智能行驶方法、装置、设备
CN111199206A (zh) * 2019-12-30 2020-05-26 上海眼控科技股份有限公司 三维目标检测方法、装置、计算机设备及存储介质
CN111340766B (zh) * 2020-02-21 2024-06-11 北京市商汤科技开发有限公司 目标对象的检测方法、装置、设备和存储介质
CN113496160B (zh) * 2020-03-20 2023-07-11 百度在线网络技术(北京)有限公司 三维物体检测方法、装置、电子设备和存储介质
CN111444839B (zh) * 2020-03-26 2023-09-08 北京经纬恒润科技股份有限公司 一种基于激光雷达的目标检测方法及***
CN112270289A (zh) * 2020-07-31 2021-01-26 广西科学院 一种基于图卷积注意力网络的智能监测方法
CN111862222B (zh) * 2020-08-03 2021-08-13 湖北亿咖通科技有限公司 一种目标检测方法及电子设备
CN111950467B (zh) * 2020-08-14 2021-06-25 清华大学 基于注意力机制的融合网络车道线检测方法及终端设备
CN112150501A (zh) * 2020-09-18 2020-12-29 浙江吉利控股集团有限公司 基于激光雷达的目标检测方法、装置、设备及存储介质
CN112651405B (zh) * 2020-12-10 2024-04-26 深兰人工智能(深圳)有限公司 目标检测方法及装置
CN112651986B (zh) * 2020-12-25 2024-05-24 北方工业大学 环境识别方法、识别装置、识别***、电子设备及介质
CN112613450B (zh) * 2020-12-29 2023-08-04 清华大学 一种增强在困难样本上表现的3d目标检测方法
CN112731339A (zh) * 2021-01-04 2021-04-30 东风汽车股份有限公司 一种基于激光点云的三维目标检测***及其检测方法
CN114913331A (zh) * 2021-02-08 2022-08-16 阿里巴巴集团控股有限公司 一种基于点云数据的目标检测方法和装置
WO2022196016A1 (ja) * 2021-03-17 2022-09-22 ソニーセミコンダクタソリューションズ株式会社 情報処理装置および情報処理方法、ならびに、センシングシステム
CN113569877B (zh) * 2021-09-26 2022-02-25 苏州挚途科技有限公司 点云数据处理方法、装置及电子设备
KR20230076059A (ko) 2021-11-23 2023-05-31 국민대학교산학협력단 객체 추적을 위한 방법 및 장치
CN114228411B (zh) * 2021-12-28 2023-09-15 驭势科技(北京)有限公司 连接控制方法、装置、设备及存储介质
CN114611164B (zh) * 2022-03-18 2022-10-11 昆山华东信息科技有限公司 一种基于大数据的信息安全管理***
WO2023222062A1 (zh) * 2022-05-19 2023-11-23 安徽蔚来智驾科技有限公司 自动驾驶的目标检测方法、装置、介质及车辆
CN114863108B (zh) * 2022-05-24 2024-06-21 合众新能源汽车股份有限公司 点云处理的方法、***、电子设备及计算机可读存储介质
KR20240007459A (ko) 2022-07-08 2024-01-16 국민대학교산학협력단 객체 인식 방법 및 장치
CN116229040A (zh) * 2022-07-15 2023-06-06 深圳市速腾聚创科技有限公司 目标区域的定位方法和目标区域的定位装置
CN115457540B (zh) * 2022-11-11 2023-03-24 整数智能信息技术(杭州)有限责任公司 点云目标检测模型的构建方法、目标检测标注方法及装置
CN115641567B (zh) * 2022-12-23 2023-04-11 小米汽车科技有限公司 用于车辆的目标对象检测方法、装置、车辆及介质
CN116071773B (zh) * 2023-03-15 2023-06-27 广东电网有限责任公司东莞供电局 检测电网建设类档案中表格的方法、装置、介质和设备
CN116385528B (zh) * 2023-03-28 2024-04-30 小米汽车科技有限公司 标注信息的生成方法、装置、电子设备、车辆及存储介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018039380A1 (en) 2016-08-26 2018-03-01 Elekta, Inc. Systems and methods for image segmentation using convolutional neural network

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9129211B2 (en) * 2012-03-15 2015-09-08 GM Global Technology Operations LLC Bayesian network to track objects using scan points using multiple LiDAR sensors
CN106022381B (zh) * 2016-05-25 2020-05-22 厦门大学 基于车载激光扫描点云的路灯杆自动提取方法
KR101854461B1 (ko) * 2016-10-12 2018-05-03 전자부품연구원 카메라 시스템 및 이의 객체 인식 방법
CN108268878A (zh) * 2016-12-30 2018-07-10 乐视汽车(北京)有限公司 三维全卷积网络实现设备
CN107092859A (zh) * 2017-03-14 2017-08-25 佛山科学技术学院 一种三维模型的深度特征提取方法
CN107239827B (zh) * 2017-06-18 2020-06-09 北京理工大学 一种基于人工神经网络的空间信息学习方法
CN107767456A (zh) * 2017-09-22 2018-03-06 福州大学 一种基于rgb‑d相机的物体三维重建方法
EP3462373A1 (en) * 2017-10-02 2019-04-03 Promaton Holding B.V. Automated classification and taxonomy of 3d teeth data using deep learning methods
US11004202B2 (en) * 2017-10-09 2021-05-11 The Board Of Trustees Of The Leland Stanford Junior University Systems and methods for semantic segmentation of 3D point clouds
US10970518B1 (en) * 2017-11-14 2021-04-06 Apple Inc. Voxel-based feature learning network
CN108171217A (zh) * 2018-01-29 2018-06-15 深圳市唯特视科技有限公司 一种基于点融合网络的三维物体检测方法
CN108319957A (zh) * 2018-02-09 2018-07-24 深圳市唯特视科技有限公司 一种基于超点图的大规模点云语义分割方法
CN108491773B (zh) * 2018-03-12 2022-11-08 中国工商银行股份有限公司 一种识别方法及***
CN108363995B (zh) * 2018-03-19 2021-09-17 百度在线网络技术(北京)有限公司 用于生成数据的方法和装置
CN108709513A (zh) * 2018-04-10 2018-10-26 深圳市唯特视科技有限公司 一种基于模型拟合算法的车辆三维检测方法
CN109086683B (zh) * 2018-07-11 2020-09-15 清华大学 一种基于点云语义增强的人手姿态回归方法和***
CN109118564B (zh) * 2018-08-01 2023-09-19 山东佳音信息科技有限公司 一种基于融合体素的三维点云标记方法和装置
CN109345510A (zh) * 2018-09-07 2019-02-15 百度在线网络技术(北京)有限公司 物体检测方法、装置、设备、存储介质及车辆
CN109523552B (zh) * 2018-10-24 2021-11-02 青岛智能产业技术研究院 基于视锥点云的三维物体检测方法
CN110059608B (zh) * 2019-04-11 2021-07-06 腾讯科技(深圳)有限公司 一种物体检测方法、装置、电子设备和存储介质

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018039380A1 (en) 2016-08-26 2018-03-01 Elekta, Inc. Systems and methods for image segmentation using convolutional neural network

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
Bin Yang et al.,"PIXOR: Real-time 3D Object Detection from Point Clouds",2018 IEEE/CVF Conference on Computer Visionand Pattern Recognition,米国,IEEE,2018年06月18日,pp.7652-7660
Charles R. Qi et al.,"Frustum PointNets for 3D Object Detection from RGB-D Data",2018 IEEE/CVF Conference on Computer Visionand Pattern Recognition,米国,IEEE,2018年06月18日,pp.918-927
Lyne P. Tchapmi et al.,"SEGCloud: Semantic Segmentation of 3D Point Clouds",2017 International Conference on 3D Vision (3DV),米国,IEEE,2017年10月10日,pp.537-547
Yin Zhou et al.,"VoxelNet: End-to-End Learning for Point Cloud Based 3D Object Detection",2018 IEEE/CVF Conference on Computer Visionand Pattern Recognition,米国,IEEE,2018年06月18日,pp.4490-4499
Zetong Yang et al.,"IPOD: Intensive Point-based Object Detector for Point Cloud",arXiv,米国,Cornell University,2018年12月13日,pp.1-9,https://arxiv.org/abs/1812.05276
高瀬 悠介、外3名,"食器格納ロボットシステムのための食器の識別と位置姿勢推定",第36回日本ロボット学会学術講演会,日本,一般社団法人 日本ロボット学会,2018年09月04日,pp.1-4

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11967873B2 (en) 2019-09-23 2024-04-23 Canoo Technologies Inc. Fractional slot electric motors with coil elements having rectangular cross-sections

Also Published As

Publication number Publication date
JP2022514974A (ja) 2022-02-16
CN110059608B (zh) 2021-07-06
CN110059608A (zh) 2019-07-26
KR102629928B1 (ko) 2024-01-30
WO2020207166A1 (zh) 2020-10-15
EP3955158A4 (en) 2022-06-01
EP3955158A1 (en) 2022-02-16
EP3955158B1 (en) 2024-05-01
US20210287037A1 (en) 2021-09-16
US11915501B2 (en) 2024-02-27
KR20210107119A (ko) 2021-08-31

Similar Documents

Publication Publication Date Title
JP7179186B2 (ja) 物体検出方法、装置、電子機器、及びコンピュータプログラム
CN110032962B (zh) 一种物体检测方法、装置、网络设备和存储介质
CN110988912B (zh) 自动驾驶车辆的道路目标与距离检测方法、***、装置
US10915793B2 (en) Method and system for converting point cloud data for use with 2D convolutional neural networks
JP5778237B2 (ja) ポイントクラウド内の埋め戻しポイント
CN114708585A (zh) 一种基于注意力机制的毫米波雷达与视觉融合的三维目标检测方法
CN110386142A (zh) 用于自动驾驶车辆的俯仰角校准方法
JP2021089724A (ja) 構造的制約及び物理的制約を伴う3d自動ラベル付け
CN112613378B (zh) 3d目标检测方法、***、介质及终端
Paz et al. Probabilistic semantic mapping for urban autonomous driving applications
CN113706480B (zh) 一种基于关键点多尺度特征融合的点云3d目标检测方法
EP4086846A1 (en) Automatic detection of a calibration standard in unstructured lidar point clouds
EP4174792A1 (en) Method for scene understanding and semantic analysis of objects
CN114764778A (zh) 一种目标检测方法、目标检测模型训练方法及相关设备
CN111709988A (zh) 一种物体的特征信息的确定方法、装置、电子设备及存储介质
CN112750155B (zh) 基于卷积神经网络的全景深度估计方法
CN113111787A (zh) 目标检测方法、装置、设备以及存储介质
Zhao et al. DHA: Lidar and vision data fusion-based on road object classifier
CN113362458B (zh) 模拟多视角成像的三维模型解译方法、终端及存储介质
CN114387202B (zh) 一种基于车端点云与图像融合的3d目标检测方法
CN114926485B (zh) 图像深度标注方法、装置、设备及存储介质
CN117953446A (zh) 车道线标注方法、车载设备、存储介质及车辆
Yoo et al. Yuto Semantic: a Large Scale Aerial LIDAR Dataset for Semantic Segmentation
CN115546784A (zh) 一种基于深度学习的3d目标检测办法
Yaqoob et al. Performance evaluation of mobile stereonet for real time navigation in autonomous mobile robots

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210623

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210623

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220620

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220920

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20221017

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20221115

R150 Certificate of patent or registration of utility model

Ref document number: 7179186

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150