JP2022118954A - Object detection device and autonomous mobile body - Google Patents

Object detection device and autonomous mobile body Download PDF

Info

Publication number
JP2022118954A
JP2022118954A JP2021015822A JP2021015822A JP2022118954A JP 2022118954 A JP2022118954 A JP 2022118954A JP 2021015822 A JP2021015822 A JP 2021015822A JP 2021015822 A JP2021015822 A JP 2021015822A JP 2022118954 A JP2022118954 A JP 2022118954A
Authority
JP
Japan
Prior art keywords
bounding boxes
target object
detection device
object detection
bounding
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2021015822A
Other languages
Japanese (ja)
Inventor
将哉 南田
Masaya Minamida
憲司 山村
Kenji Yamamura
朋晃 野々目
Tomoaki Nonome
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toyota Industries Corp
Original Assignee
Toyota Industries Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toyota Industries Corp filed Critical Toyota Industries Corp
Priority to JP2021015822A priority Critical patent/JP2022118954A/en
Publication of JP2022118954A publication Critical patent/JP2022118954A/en
Pending legal-status Critical Current

Links

Images

Landscapes

  • Image Analysis (AREA)

Abstract

To suppress the reduction in detection accuracy of a target object due to an object detection device.SOLUTION: An object detection device applies a bounding box surrounding a target object captured in an image. The object detection device deletes the bounding box with NMS. The object detection device calculates a proportion of the two mutually-overlapping bounding boxes. The proportion can be calculated by dividing a region of the product set of the two mutually-overlapping bounding boxes by one region of the two bounding boxes. The object detection device deletes one of the two mutually-overlapping bounding boxes on the basis of the proportion.SELECTED DRAWING: Figure 3

Description

本開示は、物体検出装置、及び自律移動体に関する。 The present disclosure relates to an object detection device and an autonomous mobile body.

特許文献1に開示の物体検出装置は、画像から物体を検出する。物体検出装置は、検出する対象となる対象物体を囲むバウンディングボックスを付与する。バウンディングボックスは、対象物体が存在する領域の候補である。バウンディングボックスは、1つの対象物体に対して複数付与される場合がある。特許文献1に開示の物体検出装置は、1つの対象物体に対してバウンディングボックスが複数付与された場合、NMS(Non Maximum Suppression)によってバウンディングボックスを削除している。NMSは、互いに重複する2つのバウンディングボックスの重複割合が閾値を超えた場合、信頼度スコアの低い方のバウンディングボックスを削除する処理である。重複割合は、互いに重複している2つのバウンディングボックスの積集合の領域を当該2つのバウンディングボックスの和集合の領域で除算することで算出される。 An object detection device disclosed in Patent Document 1 detects an object from an image. An object detection device provides a bounding box surrounding a target object to be detected. A bounding box is a candidate for the region in which the target object exists. A plurality of bounding boxes may be given to one target object. The object detection device disclosed in Patent Document 1 deletes the bounding box by NMS (Non Maximum Suppression) when a plurality of bounding boxes are given to one target object. NMS is a process of deleting a bounding box with a lower reliability score when the overlapping ratio of two bounding boxes that overlap with each other exceeds a threshold. The overlap ratio is calculated by dividing the intersection area of two bounding boxes that overlap each other by the area of the union of the two bounding boxes.

特開2020-71793号公報JP 2020-71793 A

NMSは、重複割合が閾値を超えない場合には、バウンディングボックスの削除を行わない。このため、NMSによってバウンディングボックスを削除した後であっても、同一の対象物体に対して複数のバウンディングボックスが付与されている場合がある。例えば、2つのバウンディングボックスの領域の大きさが異なる場合にはNMSによるバウンディングボックスの削除を行えない場合がある。この場合、いずれのバウンディングボックスに対象物体が存在しているかを特定しにくく、物体検出装置による対象物体の検出精度の低下を招くおそれがある。 The NMS does not remove bounding boxes if the overlap ratio does not exceed the threshold. Therefore, even after the bounding box is deleted by the NMS, a plurality of bounding boxes may be assigned to the same target object. For example, if the two bounding boxes have different sizes, the NMS may not be able to delete the bounding boxes. In this case, it is difficult to specify in which bounding box the target object exists, and there is a possibility that the detection accuracy of the target object by the object detection device may be lowered.

上記課題を解決する物体検出装置は、画像から対象物体を検出する物体検出装置であって、前記画像に映る前記対象物体を囲むバウンディングボックスを付与する付与部と、前記バウンディングボックスが複数存在する場合に、互いに重複している2つの前記バウンディングボックスの積集合の領域を当該2つの前記バウンディングボックスの和集合の領域で除算することで重複割合を算出し、前記重複割合が閾値を超えている場合には、互いに重複している2つの前記バウンディングボックスのうち信頼度スコアが低い方を削除する第1削除部と、前記バウンディングボックスが複数存在する場合に、互いに重複している2つの前記バウンディングボックスの積集合の領域を当該2つの前記バウンディングボックスのうち一方の領域で除算することで包含割合を算出する包含割合算出部と、前記包含割合に基づき、互いに重複している2つの前記バウンディングボックスの一方を削除する第2削除部と、を備える。 An object detection apparatus that solves the above problems is an object detection apparatus that detects a target object from an image, and includes a provision unit that provides a bounding box surrounding the target object appearing in the image, and a plurality of the bounding boxes. and calculating the overlap ratio by dividing the intersection area of the two bounding boxes that overlap each other by the area of the union of the two bounding boxes, and if the overlap ratio exceeds a threshold includes a first deletion unit that deletes one of the two overlapping bounding boxes that has a lower reliability score; and two overlapping bounding boxes when a plurality of the bounding boxes exist. an inclusion ratio calculation unit that calculates an inclusion ratio by dividing the area of the intersection of the two bounding boxes by one of the areas of the two bounding boxes; and a second deletion unit for deleting one.

第2削除部は、包含割合によってバウンディングボックスを削除する。このため、重複割合によって削除を行えないバウンディングボックスであっても、第2削除部による削除を行い得る。第1削除部によるバウンディングボックスの削除と、第2削除部によるバウンディングボックスの削除とを行うことで、第1削除部によるバウンディングボックスの削除のみを行う場合に比べて、同一の対象物体に付与されたバウンディングボックスの数を減らすことができる。これにより、物体検出装置による対象物体の検出精度の低下を抑制できる。 The second deletion unit deletes the bounding box according to the inclusion ratio. Therefore, even a bounding box that cannot be deleted based on the overlapping ratio can be deleted by the second deletion unit. By deleting the bounding box by the first deletion unit and deleting the bounding box by the second deletion unit, compared to the case where only the bounding box is deleted by the first deletion unit, can reduce the number of bounding boxes. As a result, it is possible to suppress a decrease in the detection accuracy of the target object by the object detection device.

上記課題を解決する自律移動体は、対象物体を追跡する自律移動体であって、移動体と、前記移動体に設けられており、前記対象物体を撮像するカメラと、物体検出装置と、を備え、前記物体検出装置は、前記カメラから画像を取得する取得部と、前記画像に映る前記対象物体を囲むバウンディングボックスを付与する付与部と、前記バウンディングボックスが複数存在する場合に、互いに重複している2つの前記バウンディングボックスの積集合の領域を当該2つの前記バウンディングボックスの和集合の領域で除算することで重複割合を算出し、前記重複割合が閾値を超えている場合には、互いに重複している2つの前記バウンディングボックスのうち信頼度スコアが低い方を削除する第1削除部と、前記バウンディングボックスが複数存在する場合に、互いに重複している2つの前記バウンディングボックスの積集合の領域を当該2つの前記バウンディングボックスのうち一方の領域で除算することで包含割合を算出する包含割合算出部と、前記包含割合に基づき、互いに重複している2つの前記バウンディングボックスの一方を削除する第2削除部と、を備え、前記自律移動体は、前記第1削除部、及び前記第2削除部により前記バウンディングボックスの削除を行った後に残った前記バウンディングボックスに基づき、前記移動体と前記対象物体との相対位置を導出する導出部と、前記相対位置に基づき、前記対象物体を追跡するように前記移動体を移動させる移動制御部と、を備える。 An autonomous mobile body that solves the above problems is an autonomous mobile body that tracks a target object, and includes a mobile body, a camera provided on the mobile body for imaging the target object, and an object detection device. The object detection device includes an acquisition unit that acquires an image from the camera, an addition unit that adds a bounding box that surrounds the target object in the image, and a plurality of bounding boxes that overlap each other when there are a plurality of bounding boxes. calculating the overlap ratio by dividing the intersection area of the two bounding boxes by the area of the union of the two bounding boxes, and if the overlap ratio exceeds a threshold, overlap with each other a first deletion unit that deletes one of the two bounding boxes that has a lower reliability score, and an intersection area of the two bounding boxes that overlap each other when there are a plurality of the bounding boxes. by one area of the two bounding boxes to calculate an inclusion ratio; and based on the inclusion ratio, one of the two overlapping bounding boxes is deleted. 2 deletion unit, and the autonomous moving body is based on the bounding box remaining after deleting the bounding box by the first deletion unit and the second deletion unit, the moving body and the object A derivation unit that derives a relative position with respect to an object, and a movement control unit that moves the moving body so as to track the target object based on the relative position.

物体検出装置による対象物体の検出精度の低下を抑制できる。自律移動体は、物体検出装置によって検出された対象物体を追跡する。これにより、自律移動体は、同一の対象物体を追跡することができる。 It is possible to suppress deterioration in detection accuracy of the target object by the object detection device. The autonomous mobile body tracks the target object detected by the object detection device. This allows the autonomous mobile body to track the same target object.

本発明によれば、物体検出装置による対象物体の検出精度の低下を抑制できる。 ADVANTAGE OF THE INVENTION According to this invention, the fall of the detection accuracy of the target object by an object detection apparatus can be suppressed.

自律移動体を示す概略図。Schematic which shows an autonomous mobile body. 自律移動体を示すブロック図。The block diagram which shows an autonomous mobile body. 物体検出処理を示すフローチャート。4 is a flowchart showing object detection processing; 対象物体が映る画像を示す図。The figure which shows the image in which a target object is reflected. バウンディングボックスが付与された画像を示す図。FIG. 10 is a diagram showing an image to which a bounding box is added; 重複割合によるバウンディングボックスの削除を行った後の画像を示す図。The figure which shows the image after performing deletion of the bounding box by the overlap ratio. 包含割合によるバウンディングボックスの削除を行った後の画像を示す図。The figure which shows the image after performing deletion of the bounding box by the inclusion ratio. 移動処理を示すフローチャート。4 is a flowchart showing movement processing;

以下、物体検出装置、及び自律移動体の一実施形態について説明する。
図1に示すように、自律移動体10は、車両20と、制御ユニットCUと、外界センサ31と、カメラ41と、を備える。車両20は、車体21と、複数の車輪22と、駆動機構23と、を備える。車両20は、制御装置32に制御されることで、対象物体Tを追跡するように自律移動する移動体である。自律移動体10は、対象物体Tとの離間距離が所定の範囲内となるように移動する。対象物体Tは、人である。
An embodiment of an object detection device and an autonomous mobile body will be described below.
As shown in FIG. 1 , the autonomous mobile body 10 includes a vehicle 20 , a control unit CU, an external sensor 31 and a camera 41 . A vehicle 20 includes a vehicle body 21 , a plurality of wheels 22 and a drive mechanism 23 . The vehicle 20 is a mobile object that autonomously moves so as to track the target object T under the control of the control device 32 . The autonomous mobile body 10 moves so that the separation distance from the target object T is within a predetermined range. A target object T is a person.

図2に示すように、駆動機構23は、車輪22を回転させるためのモータ24と、モータ24を駆動させるモータドライバ25と、エンコーダ26と、を備える。制御ユニットCUは、制御装置32と、物体検出装置51と、を備える。なお、図示は省略するが、モータ24及びモータドライバ25は、車輪22の数と同数設けられる。これにより、各車輪22の回転数と回転方向を独立して制御することが可能である。エンコーダ26は、車輪22毎に個別に設けられている。 As shown in FIG. 2, the drive mechanism 23 includes a motor 24 for rotating the wheels 22, a motor driver 25 for driving the motor 24, and an encoder 26. The control unit CU includes a control device 32 and an object detection device 51 . Although not shown, the same number of motors 24 and motor drivers 25 as the number of wheels 22 are provided. Thereby, it is possible to independently control the rotation speed and rotation direction of each wheel 22 . Encoder 26 is provided individually for each wheel 22 .

モータドライバ25には、制御装置32から指令が入力される。モータドライバ25は、制御装置32からの指令に応じてモータ24を制御する。
エンコーダ26は、例えば、モータ24の回転軸の回転量に基づいたパルス信号を出力するインクリメンタル型のエンコーダである。エンコーダ26は、モータ24の回転軸の回転数を検出する。モータドライバ25は、エンコーダ26の検出結果から、モータ24の回転数、及び回転方向を認識可能である。車両20は、モータ24の駆動による車輪22の回転によって移動する。
A command is input to the motor driver 25 from the control device 32 . The motor driver 25 controls the motor 24 according to commands from the control device 32 .
The encoder 26 is, for example, an incremental encoder that outputs a pulse signal based on the amount of rotation of the rotating shaft of the motor 24 . The encoder 26 detects the rotation speed of the rotating shaft of the motor 24 . The motor driver 25 can recognize the rotation speed and rotation direction of the motor 24 from the detection result of the encoder 26 . Vehicle 20 is moved by rotation of wheels 22 driven by motor 24 .

外界センサ31としては、制御装置32に車両20の周辺に存在する物体を認識させることができ、かつ、自律移動体10から物体までの距離を測定できるものが用いられる。物体は、対象物体T及び障害物を含む。障害物は、対象物体Tとは異なる物体である。 As the external sensor 31, a sensor capable of making the control device 32 recognize an object existing around the vehicle 20 and measuring the distance from the autonomous mobile body 10 to the object is used. Objects include the target object T and obstacles. An obstacle is an object different from the target object T. FIG.

本実施形態では、外界センサ31として、レーザー距離計を用いている。レーザー距離計は、LIDAR(Laser Imaging Detection and Ranging)、あるいは、レーザーレンジファインダと呼ばれることもある。外界センサ31は、レーザーを周辺に照射し、レーザーが当たった部分によって反射された反射光を受光することで周辺環境を認識可能な距離計である。本実施形態の外界センサ31としては、水平方向の照射角度を変更しながらレーザーを照射する二次元距離計が用いられる。 In this embodiment, a laser rangefinder is used as the external sensor 31 . Laser range finders are also called LIDAR (Laser Imaging Detection and Ranging) or laser range finders. The external sensor 31 is a rangefinder capable of recognizing the surrounding environment by irradiating the surroundings with a laser and receiving reflected light reflected by the portion hit by the laser. As the external sensor 31 of this embodiment, a two-dimensional rangefinder that emits a laser beam while changing the irradiation angle in the horizontal direction is used.

外界センサ31は、周囲にレーザーを照射し、レーザーが当たった点から反射された反射光を受光することで点までの距離を導出する。レーザーが当たった点は、物体の表面の一部を表す点である。点の位置は、極座標系の座標で表すことができる。極座標系における点の座標は、直交座標系の座標に変換することができる。極座標系から直交座標系への変換は、外界センサ31によって行われてもよいし、制御装置32で行われてもよい。本実施形態では、外界センサ31により極座標系から直交座標系への変換が行われているとする。外界センサ31は、センサ座標系での点の座標を導出する。センサ座標系は、外界センサ31を原点とする直交座標系である。センサ座標系は、例えば、水平方向のうち1方向をX軸、水平方向のうちX軸に直交する方向をY軸とする座標系である。適宜、センサ座標系の座標をセンサ座標と称する。外界センサ31は、レーザーを照射することにより得られた複数の点の座標を点群データとして制御装置32に出力する。 The external sensor 31 irradiates the surroundings with a laser beam and receives reflected light reflected from the point hit by the laser beam, thereby deriving the distance to the point. The point hit by the laser is a point that represents a portion of the object's surface. The position of a point can be represented by coordinates in a polar coordinate system. The coordinates of a point in a polar coordinate system can be transformed into coordinates in a rectangular coordinate system. The conversion from the polar coordinate system to the orthogonal coordinate system may be performed by the external sensor 31 or may be performed by the control device 32 . In this embodiment, it is assumed that the external sensor 31 performs conversion from the polar coordinate system to the orthogonal coordinate system. The external sensor 31 derives the coordinates of points in the sensor coordinate system. The sensor coordinate system is an orthogonal coordinate system with the external sensor 31 as the origin. The sensor coordinate system is, for example, a coordinate system in which one of the horizontal directions is the X-axis and the horizontal direction perpendicular to the X-axis is the Y-axis. Coordinates of the sensor coordinate system are appropriately referred to as sensor coordinates. The external sensor 31 outputs the coordinates of a plurality of points obtained by irradiating the laser to the control device 32 as point group data.

制御装置32は、プロセッサ33と、記憶部34と、を備える。プロセッサ33としては、例えば、CPU(Central Processing Unit)、GPU(Graphics Processing Unit)、又はDSP(Digital Signal Processor)が用いられる。記憶部34は、RAM(Random access memory)及びROM(Read Only Memory)を含む。記憶部34は、処理をプロセッサ33に実行させるように構成されたプログラムコードまたは指令を格納している。記憶部34、即ち、コンピュータ可読媒体は、汎用または専用のコンピュータでアクセスできるあらゆる利用可能な媒体を含む。制御装置32は、ASIC(Application Specific Integrated Circuit)やFPGA(Field Programmable Gate Array)等のハードウェア回路によって構成されていてもよい。処理回路である制御装置32は、コンピュータプログラムに従って動作する1つ以上のプロセッサ、ASICやFPGA等の1つ以上のハードウェア回路、或いは、それらの組み合わせを含み得る。 The control device 32 includes a processor 33 and a storage section 34 . As the processor 33, for example, a CPU (Central Processing Unit), a GPU (Graphics Processing Unit), or a DSP (Digital Signal Processor) is used. The storage unit 34 includes RAM (Random Access Memory) and ROM (Read Only Memory). Storage unit 34 stores program code or instructions configured to cause processor 33 to perform processing. Storage 34, or computer-readable media, includes any available media that can be accessed by a general purpose or special purpose computer. The control device 32 may be configured by a hardware circuit such as an ASIC (Application Specific Integrated Circuit) or an FPGA (Field Programmable Gate Array). The processing circuitry, controller 32, may include one or more processors operating according to a computer program, one or more hardware circuits such as ASICs or FPGAs, or a combination thereof.

カメラ41は、RGBカメラである。カメラ41は、撮像素子を備える。撮像素子としては、CCDイメージセンサ、及びCOMSイメージセンサを挙げることができる。カメラ41は、赤、緑及び青の3色のカラー信号で構成された画像を出力する。 Camera 41 is an RGB camera. The camera 41 has an imaging element. A CCD image sensor and a CMOS image sensor can be mentioned as an imaging device. The camera 41 outputs an image composed of three color signals of red, green and blue.

カメラ41は、外界センサ31と同一方向を向くように設けられている。詳細にいえば、カメラ41は、外界センサ31による物体の検出可能範囲とカメラ41による撮像範囲とが同一方向を向くように設けられている。カメラ41は、所定のフレームレートで撮像を行って画像を生成する。 The camera 41 is provided so as to face the same direction as the external sensor 31 . Specifically, the camera 41 is provided so that the object detectable range of the external sensor 31 and the imaging range of the camera 41 face the same direction. The camera 41 performs imaging at a predetermined frame rate to generate an image.

物体検出装置51は、プロセッサ52と、記憶部53と、を備える。プロセッサ52としては、例えば、CPU、GPU、又はDSPが用いられる。記憶部53は、RAM及びROMを含む。記憶部53は、処理をプロセッサ52に実行させるように構成されたプログラムコードまたは指令を格納している。記憶部53、即ち、コンピュータ可読媒体は、汎用または専用のコンピュータでアクセスできるあらゆる利用可能な媒体を含む。物体検出装置51は、ASICやFPGA等のハードウェア回路によって構成されていてもよい。処理回路である物体検出装置51は、コンピュータプログラムに従って動作する1つ以上のプロセッサ、ASICやFPGA等の1つ以上のハードウェア回路、或いは、それらの組み合わせを含み得る。物体検出装置51は、制御装置32とは異なる装置であってもよいし、制御装置32と同一の装置であってもよい。即ち、物体検出装置51は、制御装置32の一機能であってもよい。 The object detection device 51 includes a processor 52 and a storage section 53 . A CPU, GPU, or DSP, for example, is used as the processor 52 . The storage unit 53 includes RAM and ROM. Storage unit 53 stores program code or instructions configured to cause processor 52 to perform processing. Storage 53, or computer-readable media, includes any available media that can be accessed by a general purpose or special purpose computer. The object detection device 51 may be configured by a hardware circuit such as ASIC or FPGA. The object detection device 51, which is a processing circuit, may include one or more processors operating according to a computer program, one or more hardware circuits such as ASIC and FPGA, or a combination thereof. The object detection device 51 may be a device different from the control device 32 or may be the same device as the control device 32 . That is, the object detection device 51 may be one function of the control device 32 .

物体検出装置51は、カメラ41によって撮像された画像から物体と、物体の位置と、を検出する。物体のクラスは、少なくとも、対象物体Tを検出できるように設定されている。本実施形態では、対象物体Tが「人」なので、物体のクラスは、少なくとも「人」を含む。物体検出装置51は、画像から人と、人の位置とを検出するといえる。本実施形態では、画像から対象物体Tである人のみを検出する場合について説明するが、物体のクラスに「人」以外を設定することで、物体検出装置51に多クラス分類を行わせてもよい。 The object detection device 51 detects an object and the position of the object from the image captured by the camera 41 . The object class is set so that at least the target object T can be detected. In this embodiment, since the target object T is "person", the object class includes at least "person". It can be said that the object detection device 51 detects a person and the position of the person from the image. In this embodiment, a case will be described in which only a person, who is the target object T, is detected from an image. good.

物体検出装置51が行う物体検出処理について説明する。物体検出処理は、カメラ41によって撮像された画像から対象物体Tを検出する処理である。物体検出処理は、所定の制御周期で繰り返し行われる。 An object detection process performed by the object detection device 51 will be described. The object detection processing is processing for detecting the target object T from the image captured by the camera 41 . The object detection process is repeatedly performed at a predetermined control cycle.

図3に示すように、ステップS1において、物体検出装置51は、カメラ41から画像を取得する。ステップS1の処理を行うことで、物体検出装置51は、取得部を備えているといえる。本実施形態において、物体検出装置51は、図4に示す画像IMを取得したとする。図4に示す画像IMには、対象物体Tである人の後ろ姿を図示している。以下、図4に示す画像IMを例に挙げて説明を行う。 As shown in FIG. 3, the object detection device 51 acquires an image from the camera 41 in step S1. By performing the process of step S1, the object detection device 51 can be said to have an acquisition unit. In this embodiment, it is assumed that the object detection device 51 acquires the image IM shown in FIG. In the image IM shown in FIG. 4, the back view of a person who is the target object T is illustrated. The image IM shown in FIG. 4 will be described below as an example.

図3及び図5に示すように、ステップS2において、物体検出装置51は、画像IMにバウンディングボックスBを付与する。バウンディングボックスBは、画像IMに映る対象物体Tを囲む枠である。バウンディングボックスBは、対象物体Tが存在する領域の候補である。バウンディングボックスBは、1つの対象物体Tに対して1又は複数付与される。バウンディングボックスBは、対象物体Tの一部、あるいは、対象物体Tの全部を囲む。図5に示す例では、対象物体Tに対して、5つのバウンディングボックスBが付与されている。適宜、5つのバウンディングボックスBのそれぞれに、個別に符号B1,B2,B3,B4,B5を付して説明を行う。なお、説明の便宜上、図5に示すバウンディングボックスBの大きさの差異、及びバウンディングボックスB同士のずれ量は誇張して表現している。バウンディングボックスBには、バウンディングボックスB毎に信頼度スコアが設定されている。信頼度スコアとは、バウンディングボックスBで囲まれる領域に存在する物体が対象物体Tであることの信頼度の指標である。本実施形態であれば、バウンディングボックスBで囲まれる領域に存在する物体が人であることの信頼度の指標である。信頼度スコアが高いほど、バウンディングボックスBで囲まれる領域に存在する物体が対象物体Tである確率が高いといえる。 As shown in FIGS. 3 and 5, in step S2, the object detection device 51 gives a bounding box B to the image IM. The bounding box B is a frame surrounding the target object T appearing in the image IM. The bounding box B is a candidate for the area where the target object T exists. One or a plurality of bounding boxes B are given to one target object T. FIG. A bounding box B encloses a portion of the target object T or the entire target object T. FIG. In the example shown in FIG. 5, five bounding boxes B are given to the target object T. In the example shown in FIG. As appropriate, each of the five bounding boxes B will be individually assigned reference numerals B1, B2, B3, B4, and B5 for explanation. For convenience of explanation, the difference in size of the bounding boxes B shown in FIG. 5 and the amount of displacement between the bounding boxes B are exaggerated. A reliability score is set for each bounding box B. FIG. A reliability score is an index of reliability that an object existing in the area surrounded by the bounding box B is the target object T. FIG. In this embodiment, it is an index of reliability that an object existing in the area surrounded by the bounding box B is a person. It can be said that the higher the reliability score, the higher the probability that the object existing in the area surrounded by the bounding box B is the target object T.

ステップS2の処理は、例えば、機械学習によって学習を行った学習済みモデルを用いて行われる。学習済みモデルは、記憶部53に記憶されている。学習モデルとしては、例えば、RCNN(Regional Convolutional Neural Network)、fast RCNN、faster RCNN、YOLO(You Only Look Once)、及びSSD(Single Shot Detector)を挙げることができる。即ち、学習モデルとしては、領域単位で物体認識を行うモデルを用いている。学習モデルとして、R-CNNを用いた場合、物体検出装置51は、カメラ41から取得した画像IMから複数の候補領域を抽出する。候補領域とは、画像IMにおいて物体が含まれている可能性のある領域である。それぞれの候補領域の特徴量は、CNNにより計算される。物体検出装置51は、この特徴量に基づき、候補領域の信頼度スコアを算出する。物体検出装置51は、信頼度スコアが閾値よりも高い候補領域をバウンディングボックスBとして出力する。ステップS2の処理を行うことで、物体検出装置51は、付与部を備えているといえる。 The process of step S2 is performed using, for example, a trained model that has been trained by machine learning. A trained model is stored in the storage unit 53 . Examples of learning models include RCNN (Regional Convolutional Neural Network), fast RCNN, faster RCNN, YOLO (You Only Look Once), and SSD (Single Shot Detector). That is, as a learning model, a model that performs object recognition on a region-by-region basis is used. When using R-CNN as a learning model, the object detection device 51 extracts a plurality of candidate regions from the image IM obtained from the camera 41 . A candidate area is an area that may contain an object in the image IM. The feature amount of each candidate region is calculated by CNN. The object detection device 51 calculates the reliability score of the candidate area based on this feature quantity. The object detection device 51 outputs, as a bounding box B, a candidate area whose reliability score is higher than the threshold. By performing the process of step S2, it can be said that the object detection device 51 is provided with the applying unit.

次に、ステップS3において、物体検出装置51は、NMSによってバウンディングボックスBの削除を行う。物体検出装置51は、重複割合を算出する。重複割合は、IoU(Intersection over Union)とも呼ばれ、以下の(1)式で表現される。 Next, in step S3, the object detection device 51 deletes the bounding box B by NMS. The object detection device 51 calculates the overlapping ratio. The overlapping ratio is also called IoU (Intersection over Union) and is expressed by the following formula (1).

IoU=(Area of intersection)/(Area of union)…(1)
Area of intersectionは、互いに重複している2つのバウンディングボックスBの積集合の領域である。Area of intersectionは、2つのバウンディングボックスBが互いに重なり合う部分の面積ともいえる。Area of unionは、互いに重複している2つのバウンディングボックスBの和集合の領域である。Area of unionは、2つのバウンディングボックスBのうち少なくともいずれかに含まれる部分の面積ともいえる。重複割合は、互いに重複している2つのバウンディングボックスBの積集合の領域を当該2つのバウンディングボックスBの和集合の領域で除算することで算出されるといえる。
IoU=(Area of intersection)/(Area of union)…(1)
Area of intersection is the area of intersection of two bounding boxes B that overlap each other. The Area of intersection can also be said to be the area of the portion where the two bounding boxes B overlap each other. The Area of union is the area of the union of two bounding boxes B that overlap each other. The area of union can also be said to be the area of a portion included in at least one of the two bounding boxes B. FIG. It can be said that the overlapping ratio is calculated by dividing the intersection area of two bounding boxes B overlapping each other by the union area of the two bounding boxes B. FIG.

物体検出装置51は、重複割合が閾値を超えている場合には、互いに重複している2つのバウンディングボックスBのうち信頼度スコアが低い方を削除する。閾値としては、例えば、0.3~0.7から任意の値を設定することができる。 When the overlapping ratio exceeds the threshold, the object detection device 51 deletes the one with the lower reliability score of the two bounding boxes B that overlap each other. Any value from 0.3 to 0.7, for example, can be set as the threshold value.

物体検出装置51は、同一の対象物体Tに付与された複数のバウンディングボックスBの全ての組み合わせについて、NMSを適用する。これにより、5つのバウンディングボックスBのうち重複割合が閾値を超えており、かつ、重複しているバウンディングボックスBよりも信頼度スコアが低いバウンディングボックスBは削除される。 The object detection device 51 applies NMS to all combinations of multiple bounding boxes B given to the same target object T. FIG. As a result, the bounding box B whose overlap ratio among the five bounding boxes B exceeds the threshold and whose reliability score is lower than that of the overlapping bounding box B is deleted.

図6に示す例では、5つのバウンディングボックスBのうち2つのバウンディングボックスB4,B5が削除されている。これにより、5つのバウンディングボックスBのうちバウンディングボックスB1,B2,B3が残る。このように、NMSでは、同一の対象物体Tを囲むバウンディングボックスBを1つにすることができない場合が生じ得る。2つのバウンディングボックスBの大きさの差が著しく大きい場合、2つのバウンディングボックスBの積集合は小さいほうのバウンディングボックスBの影響により小さくなる。一方で、2つのバウンディングボックスBの和集合は大きいほうのバウンディングボックスBの影響により大きくなる。これにより、2つのバウンディングボックスBが重複している場合であっても、(1)式により算出される重複割合が閾値を超えない場合がある。重複割合が閾値を超えない場合には、バウンディングボックスBの削除が行われないため、2つのバウンディングボックスBの大きさの差を原因として、NMSによるバウンディングボックスBの削除を行えない場合が生じる。本実施形態では、以下の処理によって、バウンディングボックスBを更に削除する。ステップS3の処理を行うことで、物体検出装置51は、第1削除部を備えているといえる。 In the example shown in FIG. 6, two bounding boxes B4 and B5 out of five bounding boxes B are deleted. As a result, of the five bounding boxes B, bounding boxes B1, B2, and B3 remain. Thus, in NMS, there may be a case where the bounding box B surrounding the same target object T cannot be made into one. If the size difference between two bounding boxes B is significantly large, the intersection of the two bounding boxes B will be smaller due to the effect of the smaller bounding box B. On the other hand, the union of two bounding boxes B is larger due to the influence of the larger bounding box B. As a result, even when two bounding boxes B overlap, the overlapping ratio calculated by the formula (1) may not exceed the threshold. If the overlapping ratio does not exceed the threshold, the bounding box B is not deleted. Therefore, there may be a case where the bounding box B cannot be deleted by the NMS due to the difference in size between the two bounding boxes B. In this embodiment, the bounding box B is further deleted by the following processing. By performing the process of step S3, it can be said that the object detection device 51 is provided with the first deletion unit.

図3に示すように、ステップS4において、物体検出装置51は、包含割合を算出する。包含割合を、IoA(Intersection over Area)と定義する。IoAは、以下の(2)式から算出することができる。 As shown in FIG. 3, in step S4, the object detection device 51 calculates the inclusion ratio. The coverage ratio is defined as IoA (Intersection over Area). IoA can be calculated from the following formula (2).

IoA=(Area of intersection)/(Area)…(2)
Areaは、互いに重複している2つのバウンディングボックスBのうち一方の領域である。包含割合は、互いに重複している2つのバウンディングボックスBの積集合の領域を当該2つのバウンディングボックスBのうち一方の領域で除算することで算出されるといえる。(2)式から把握できるように、包含割合とは、2つのバウンディングボックスBの一方が他方に包含される割合を示す指標である。包含割合が1に近いほど、2つのバウンディングボックスBのうち分母となるバウンディングボックスBは、もう一方のバウンディングボックスBに包含されているといえる。包含割合が1の場合、2つのバウンディングボックスBのうち分母となるバウンディングボックスBの全体が、もう一方のバウンディングボックスBに包含されている。包含割合が0より大きく、かつ、1より小さい場合、2つのバウンディングボックスBのうち分母となるバウンディングボックスBの一部が、もう一方のバウンディングボックスBに包含されている。物体検出装置51は、同一の対象物体Tに付与された複数のバウンディングボックスBの全ての組み合わせについて、包含割合を算出する。なお、ここでいう組み合わせとは、2つのバウンディングボックスBの組み合わせのうち、分母を入れ替えたパターンを含むものである。2つのバウンディングボックスB1,B2を例に挙げると、分母をバウンディングボックスB1とする包含割合と、分母をバウンディングボックスB2とする包含割合との2パターンが算出される。ステップS4の処理を行うことで、物体検出装置51は、包含割合算出部を備えているといえる。
IoA=(Area of intersection)/(Area)…(2)
Area is one of the two bounding boxes B that overlap each other. It can be said that the inclusion ratio is calculated by dividing the intersection area of two bounding boxes B that overlap each other by one area of the two bounding boxes B. FIG. As can be understood from the formula (2), the inclusion rate is an index indicating the rate at which one of the two bounding boxes B is included in the other. It can be said that the closer the inclusion ratio is to 1, the more the bounding box B, which is the denominator of the two bounding boxes B, is included in the other bounding box B. When the inclusion ratio is 1, the entire bounding box B, which is the denominator of the two bounding boxes B, is included in the other bounding box B. If the inclusion ratio is greater than 0 and less than 1, part of the bounding box B that is the denominator of the two bounding boxes B is included in the other bounding box B. The object detection device 51 calculates inclusion ratios for all combinations of a plurality of bounding boxes B given to the same target object T. FIG. The term "combination" as used herein includes a combination of two bounding boxes B in which the denominators are interchanged. Taking two bounding boxes B1 and B2 as an example, two patterns are calculated: one containing the bounding box B1 as the denominator and one containing the bounding box B2 as the denominator. By performing the process of step S4, the object detection device 51 can be said to have an inclusion ratio calculation unit.

次に、ステップS5において、物体検出装置51は、包含割合が包含閾値以上のバウンディングボックスBを削除する。詳細にいえば、物体検出装置51は、(2)式により算出された包含割合が包含閾値以上となった2つのバウンディングボックスBの組み合わせのうち、分母に該当するバウンディングボックスBを削除する。これにより、2つのバウンディングボックスBの組み合わせのうち、小さいほうのバウンディングボックスBが削除される。包含閾値としては、0より大きい値から任意の値を設定することができる。包含閾値が1の場合、2つのバウンディングボックスBのうち、一方のバウンディングボックスBに全体が包含された他方のバウンディングボックスBが削除される。包含閾値が1未満の場合、包含割合に応じて、2つのバウンディングボックスBのうち、一方のバウンディングボックスBに一部が包含された他方のバウンディングボックスBが削除される。本実施形態では、複数のバウンディングボックスBから、1つのバウンディングボックスBのみを残せるように包含閾値を設定している。これにより、対象物体Tが存在する領域を表すバウンディングボックスBを1つに絞ることができる。図7に示す例では、バウンディングボックスB2,B3が削除されている。これにより、バウンディングボックスB1のみが残る。物体検出装置51は、バウンディングボックスB1に囲まれる領域に対象物体Tが存在している特定することができる。即ち、物体検出装置51は、画像から対象物体Tを検出することができる。ステップS5の処理を行うことで、物体検出装置51は、第2削除部を備えているといえる。 Next, in step S5, the object detection device 51 deletes bounding boxes B whose inclusion rate is equal to or greater than the inclusion threshold. Specifically, the object detection device 51 deletes the bounding box B corresponding to the denominator from among the combinations of the two bounding boxes B for which the inclusion ratio calculated by Equation (2) is equal to or greater than the inclusion threshold. As a result, of the combination of two bounding boxes B, the smaller bounding box B is deleted. Any value greater than 0 can be set as the inclusion threshold. When the inclusion threshold is 1, of the two bounding boxes B, the other bounding box B that is wholly included in the other bounding box B is deleted. If the inclusion threshold is less than 1, of the two bounding boxes B, one of the bounding boxes B partially included in the other bounding box B is deleted according to the inclusion ratio. In this embodiment, the inclusion threshold is set so that only one bounding box B can be left out of a plurality of bounding boxes B. FIG. Thereby, the bounding box B representing the area where the target object T exists can be narrowed down to one. In the example shown in FIG. 7, bounding boxes B2 and B3 are deleted. This leaves only the bounding box B1. The object detection device 51 can specify that the target object T exists in the area surrounded by the bounding box B1. That is, the object detection device 51 can detect the target object T from the image. By performing the process of step S5, it can be said that the object detection device 51 is provided with the second deletion unit.

なお、バウンディングボックスBの削除は、ステップS2で付与されたバウンディングボックスBが複数の場合に行われる。従って、ステップS2で付与されたバウンディングボックスBが単数の場合には、ステップS3~ステップS5の処理は行われなくてもよい。同様に、NMSによるバウンディングボックスBの削除により、バウンディングボックスBが単数になった場合、ステップS4,S5の処理は行われなくてもよい。 The deletion of bounding box B is performed when a plurality of bounding boxes B are assigned in step S2. Therefore, when the number of bounding boxes B assigned in step S2 is singular, the processing of steps S3 to S5 may not be performed. Similarly, when the number of bounding boxes B becomes singular due to deletion of bounding boxes B by the NMS, the processes of steps S4 and S5 may not be performed.

制御装置32が行う移動処理について説明する。移動処理は、対象物体Tを追跡するように車両20を移動させる処理である。移動処理は、所定の制御周期で繰り返し行われる。 Movement processing performed by the control device 32 will be described. The moving process is a process of moving the vehicle 20 so as to track the target object T. FIG. The movement process is repeatedly performed at a predetermined control cycle.

図8に示すように、ステップS11において、制御装置32は、外界センサ31の検出結果を取得する。これにより、制御装置32は、自律移動体10の周辺環境の形状を示す点群データを得ることができる。 As shown in FIG. 8, the control device 32 acquires the detection result of the external sensor 31 in step S11. Thereby, the control device 32 can obtain point cloud data indicating the shape of the surrounding environment of the autonomous mobile body 10 .

次に、ステップS12において、制御装置32は、物体検出装置51の検出結果を取得する。物体検出装置51の検出結果とは、例えば、対象物体Tの位置情報である。対象物体Tの位置情報とは、例えば、画像IMにおけるバウンディングボックスBの位置を示す二次元座標である。制御装置32は、重複割合によるバウンディングボックスBの削除と、包含割合によるバウンディングボックスBの削除とが行われた後に残ったバウンディングボックスBの位置情報を取得するといえる。 Next, in step S<b>12 , the control device 32 acquires the detection result of the object detection device 51 . The detection result of the object detection device 51 is position information of the target object T, for example. The position information of the target object T is, for example, two-dimensional coordinates indicating the position of the bounding box B in the image IM. It can be said that the control device 32 acquires the position information of the remaining bounding box B after the bounding box B is deleted by the overlap ratio and the bounding box B is deleted by the inclusion ratio.

次に、ステップS13において、制御装置32は、車両20と対象物体Tとの相対位置を導出する。車両20と対象物体Tとの相対位置は、外界センサ31による検出結果と、物体検出装置51の検出結果とに基づき導出される。重複割合によるバウンディングボックスBの削除と、包含割合によるバウンディングボックスBの削除とが行われた後に残ったバウンディングボックスBに基づき、車両20と対象物体Tとの相対位置は導出されるといえる。車両20と対象物体Tとの相対位置は、例えば、対象物体Tのセンサ座標である。車両20と対象物体Tとの相対位置は、車両20の水平方向における中心位置を原点とする座標系など、車両20と対象物体Tとの位置関係を把握できる座標系であれば、どのような座標系の座標であってもよい。どのような座標系を用いる場合であっても、センサ座標系との関係を把握できていれば、センサ座標から、車両20と対象物体Tとの位置関係を把握できる座標系の座標への変換を行うことができる。本実施形態では、対象物体Tのセンサ座標を車両20と対象物体Tとの相対位置とする。 Next, the control device 32 derives the relative position between the vehicle 20 and the target object T in step S13. A relative position between the vehicle 20 and the target object T is derived based on the detection result of the external sensor 31 and the detection result of the object detection device 51 . It can be said that the relative position between the vehicle 20 and the target object T is derived based on the bounding box B remaining after the bounding box B is deleted according to the overlapping ratio and the bounding box B is deleted according to the inclusion ratio. The relative position between the vehicle 20 and the target object T is the sensor coordinates of the target object T, for example. The relative position between the vehicle 20 and the target object T may be any coordinate system that can grasp the positional relationship between the vehicle 20 and the target object T, such as a coordinate system whose origin is the center position of the vehicle 20 in the horizontal direction. It may be the coordinates of a coordinate system. Transformation from the sensor coordinates to the coordinates of a coordinate system in which the positional relationship between the vehicle 20 and the target object T can be grasped, regardless of what coordinate system is used, as long as the relation with the sensor coordinate system can be grasped. It can be performed. In this embodiment, the sensor coordinates of the target object T are the relative positions of the vehicle 20 and the target object T. FIG.

制御装置32は、外界センサ31から取得した点群データに基づき、センサ座標系での物体の座標を導出することができる。例えば、制御装置32は、外界センサ31から得られた複数の点をクラスタ化することで、クラスタ化した複数の点を1つの物体とみなすことができる。これにより、制御装置32は、外界センサ31による検出可能範囲内に位置している物体のセンサ座標を導出することができる。制御装置32は、物体検出装置51の検出結果から、外界センサ31により検出した物体のうち、いずれの物体が対象物体Tであるかを特定する。そして、制御装置32は、対象物体Tとして特定された物体のセンサ座標を、車両20と対象物体Tとの相対位置とする。 The control device 32 can derive the coordinates of the object in the sensor coordinate system based on the point cloud data acquired from the external sensor 31 . For example, by clustering a plurality of points obtained from the external sensor 31, the control device 32 can regard the clustered plurality of points as one object. Thereby, the control device 32 can derive the sensor coordinates of the object positioned within the detectable range of the external sensor 31 . The control device 32 identifies which of the objects detected by the external sensor 31 is the target object T from the detection result of the object detection device 51 . Then, the control device 32 sets the sensor coordinates of the object identified as the target object T as the relative position between the vehicle 20 and the target object T. FIG.

制御装置32は、物体検出装置51の検出結果から対象物体Tの方位を特定し、この方位に基づき対象物体Tを特定してもよい。制御装置32は、画像IMにおけるバウンディングボックスBの位置から、車両20を基準とした場合の対象物体Tの方位を特定することができる。これにより、制御装置32は、センサ座標系において上記した方位に存在する物体を対象物体Tとして特定することができる。 The control device 32 may identify the orientation of the target object T from the detection result of the object detection device 51, and identify the target object T based on this orientation. The control device 32 can identify the orientation of the target object T with respect to the vehicle 20 from the position of the bounding box B in the image IM. As a result, the control device 32 can identify an object existing in the above-described orientation in the sensor coordinate system as the target object T. FIG.

制御装置32は、物体検出装置51の検出結果からカメラ座標系での対象物体Tの座標を導出し、カメラ座標系での対象物体Tの座標に基づき対象物体Tを特定してもよい。カメラ座標系とは、カメラ41を原点とする座標系である。適宜、カメラ座標系での座標をカメラ座標と称する。対象物体Tのカメラ座標は、例えば、バウンディングボックスBの位置情報、バウンディングボックスBのスケール、カメラ41の取付位置、及びカメラ41の取付角度から導出することができる。制御装置32は、対象物体Tのカメラ座標を対象物体Tのセンサ座標に変換することができる。カメラ座標からセンサ座標への変換は、センサ座標系とカメラ座標系との原点のずれ、及びセンサ座標系とカメラ座標系との座標軸のずれに基づき行うことができる。制御装置32は、カメラ座標の変換により得られた対象物体Tのセンサ座標と、点群データから得られた物体のセンサ座標との一致性から対象物体Tを特定する。例えば、制御装置32は、カメラ座標の変換により得られた対象物体Tのセンサ座標に位置している物体、あるいは、カメラ座標の変換により得られた対象物体Tのセンサ座標に最も近い物体を対象物体Tとする。ステップS13の処理を行うことで、制御装置32は、導出部を備えているといえる。 The control device 32 may derive the coordinates of the target object T in the camera coordinate system from the detection result of the object detection device 51, and specify the target object T based on the coordinates of the target object T in the camera coordinate system. A camera coordinate system is a coordinate system having the camera 41 as an origin. Coordinates in the camera coordinate system are appropriately referred to as camera coordinates. The camera coordinates of the target object T can be derived from, for example, the position information of the bounding box B, the scale of the bounding box B, the mounting position of the camera 41 and the mounting angle of the camera 41 . The control device 32 can transform the camera coordinates of the target object T into the sensor coordinates of the target object T. FIG. Conversion from the camera coordinates to the sensor coordinates can be performed based on the deviation of the origin between the sensor coordinate system and the camera coordinate system and the deviation of the coordinate axes between the sensor coordinate system and the camera coordinate system. The control device 32 identifies the target object T based on the matching between the sensor coordinates of the target object T obtained by converting the camera coordinates and the sensor coordinates of the object obtained from the point cloud data. For example, the control device 32 targets an object located at the sensor coordinates of the target object T obtained by converting the camera coordinates, or an object closest to the sensor coordinates of the target object T obtained by converting the camera coordinates. Let the object be T. By performing the process of step S13, it can be said that the control device 32 has a derivation unit.

ステップS14において、制御装置32は、対象物体Tを追跡するように車両20を移動させる。制御装置32は、ステップS13で得られた対象物体Tのセンサ座標に基づき、車両20と対象物体Tとの離間距離が所定の範囲に収まるように車両20を移動させる。例えば、制御装置32は、車両20から対象物体Tに向かう方位に車両20が進行するように指令を生成し、この指令をモータドライバ25に送る。また、制御装置32は、車両20と対象物体Tとの離間距離が長いほど、車両20の速度が高くなるように指令を生成してもよい。ステップS14の処理を行うことで、制御装置32は、移動制御部を備えているといえる。 In step S14, the control device 32 moves the vehicle 20 so as to track the target object T. FIG. Based on the sensor coordinates of the target object T obtained in step S13, the control device 32 moves the vehicle 20 so that the separation distance between the vehicle 20 and the target object T falls within a predetermined range. For example, the control device 32 generates a command to move the vehicle 20 in a direction from the vehicle 20 toward the target object T, and sends this command to the motor driver 25 . Further, the control device 32 may generate a command such that the longer the distance between the vehicle 20 and the target object T, the higher the speed of the vehicle 20 . By performing the process of step S14, it can be said that the control device 32 has a movement control section.

本実施形態の作用について説明する。
制御装置32は、物体検出装置51の検出結果に基づき、車両20を移動させている。物体検出装置51は、重複割合によるバウンディングボックスBの削除と、包含割合によるバウンディングボックスBの削除とを併用している。これにより、重複割合によるバウンディングボックスBの削除のみを行う場合に比べて、同一の対象物体Tに付与されたバウンディングボックスBの数を減らすことができる。同一の対象物体Tに複数のバウンディングボックスBが付与されている場合、いずれのバウンディングボックスBに囲まれる領域に対象物体Tが存在しているかを判定しにくい。これに対し、本実施形態では、バウンディングボックスBの数を減らすことで、対象物体Tが存在している領域を判定しやすい。
The operation of this embodiment will be described.
The control device 32 moves the vehicle 20 based on the detection result of the object detection device 51 . The object detection device 51 uses both deletion of the bounding box B based on the overlapping ratio and deletion of the bounding box B based on the inclusion ratio. As a result, the number of bounding boxes B given to the same target object T can be reduced compared to the case where only the bounding boxes B are deleted based on the overlapping ratio. When a plurality of bounding boxes B are given to the same target object T, it is difficult to determine in which bounding box B the target object T exists. In contrast, in the present embodiment, by reducing the number of bounding boxes B, it is easier to determine the area where the target object T exists.

特に、対象物体Tを追跡する自律移動体10では、対象物体Tを追跡するために、同一の対象物体Tを検出し続ける必要がある。バウンディングボックスBが複数存在する場合、前回の制御周期で検出された対象物体Tと同一の対象物体TがいずれのバウンディングボックスBに相当するかを判定できない場合が生じる。この場合、対象物体Tを追跡することができなくなるおそれがある。本実施形態のように、バウンディングボックスBを1つに絞ることで、物体検出装置51は、同一の対象物体Tを検出し続けることができる。 In particular, in the autonomous mobile body 10 that tracks the target object T, it is necessary to continue detecting the same target object T in order to track the target object T. When there are a plurality of bounding boxes B, it may not be possible to determine which bounding box B corresponds to the same target object T as the target object T detected in the previous control cycle. In this case, there is a possibility that the target object T cannot be tracked. By narrowing down the bounding box B to one as in this embodiment, the object detection device 51 can continue to detect the same target object T. FIG.

本実施形態の効果について説明する。
(1)物体検出装置51は、重複割合によるバウンディングボックスBの削除と、包含割合によるバウンディングボックスBの削除とを行う。重複割合によるバウンディングボックスBの削除のみを行う場合に比べて、同一の対象物体Tに付与されたバウンディングボックスBの数を減らすことができる。これにより、物体検出装置51による対象物体Tの検出精度の低下を抑制できる。
Effects of the present embodiment will be described.
(1) The object detection device 51 deletes the bounding box B based on the overlap ratio and deletes the bounding box B based on the inclusion ratio. The number of bounding boxes B assigned to the same target object T can be reduced compared to the case where only the bounding boxes B are deleted based on the overlapping ratio. As a result, deterioration in detection accuracy of the target object T by the object detection device 51 can be suppressed.

(2)自律移動体10は、物体検出装置51によって検出された対象物体Tを追跡する。物体検出装置51で検出された対象物体Tを追跡することで、同一の対象物体Tを追跡することができる。自律移動体10が、対象物体Tを追跡できなくなったり、対象物体Tとは異なる物体を追跡することが抑制される。 (2) The autonomous mobile body 10 tracks the target object T detected by the object detection device 51 . By tracking the target object T detected by the object detection device 51, the same target object T can be tracked. The autonomous mobile body 10 is prevented from tracking the target object T or tracking an object different from the target object T.

実施形態は、以下のように変更して実施することができる。本実施形態及び以下の変形例は、技術的に矛盾しない範囲で互いに組み合わせて実施することができる。
○物体検出装置51は、包含割合が包含閾値以上となった2つのバウンディングボックスBの組み合わせのうち、信頼度スコアが低いバウンディングボックスBを削除してもよい。物体検出装置51は、包含割合が包含閾値以上となった2つのバウンディングボックスBの組み合わせのうち、(2)式の分母となるバウンディングボックスBとは異なるバウンディングボックスBを削除してもよい。この場合、2つのバウンディングボックスBの組み合わせのうち大きい方のバウンディングボックスBが削除される。このように、物体検出装置51は、包含割合に基づき、互いに重複している2つのバウンディングボックスBの一方を削除できればよい。2つのバウンディングボックスBのうちいずれを削除するかは、対象物体Tの種類等の要素によって、適宜変更すればよい。
Embodiments can be modified and implemented as follows. This embodiment and the following modified examples can be implemented in combination with each other within a technically consistent range.
○ The object detection device 51 may delete the bounding box B with the low reliability score from the combination of the two bounding boxes B whose inclusion rate is equal to or greater than the inclusion threshold. The object detection device 51 may delete a bounding box B that differs from the bounding box B that is the denominator of the formula (2) from among the combinations of the two bounding boxes B whose inclusion rate is equal to or greater than the inclusion threshold. In this case, the larger bounding box B of the combination of two bounding boxes B is deleted. In this way, the object detection device 51 only needs to be able to delete one of the two overlapping bounding boxes B based on the inclusion ratio. Which of the two bounding boxes B is to be deleted may be appropriately changed according to factors such as the type of the target object T. FIG.

○包含閾値の設定によっては、重複割合によるバウンディングボックスBの削除と、包含割合によるバウンディングボックスBの削除とを行った場合であっても、複数のバウンディングボックスBが残る場合がある。この場合、物体検出装置51は、重複割合や包含割合とは異なる指標によってバウンディングボックスBを1つに絞ってもよい。また、物体検出装置51は、複数のバウンディングボックスBを融合することで、1つのバウンディングボックスBを生成してもよい。複数のバウンディングボックスBを融合する手法としては、例えば、NMW(Non-Maximum Weighted)を用いることができる。 O Depending on the setting of the inclusion threshold, a plurality of bounding boxes B may remain even when the bounding box B is deleted according to the overlap ratio and the bounding box B is deleted according to the inclusion ratio. In this case, the object detection device 51 may narrow down the bounding box B to one using an index different from the overlapping ratio and the inclusion ratio. Further, the object detection device 51 may generate one bounding box B by fusing a plurality of bounding boxes B. FIG. As a technique for fusing a plurality of bounding boxes B, for example, NMW (Non-Maximum Weighted) can be used.

また、複数のバウンディングボックスBが残った場合であっても、物体検出装置51は、バウンディングボックスBを1つにしなくてもよい。この場合であっても、バウンディングボックスBの数が減ることによって、物体検出装置51による対象物体Tの検出精度の低下を抑制できる。 Further, even if a plurality of bounding boxes B remain, the object detection device 51 does not have to reduce the number of bounding boxes B to one. Even in this case, the decrease in the detection accuracy of the target object T by the object detection device 51 can be suppressed by reducing the number of bounding boxes B. FIG.

○カメラ41としてステレオカメラを用いてもよい。ステレオカメラは、複数のカメラを備える。物体検出装置51は、複数のカメラによって撮像された画像から視差画像を取得する。視差画像は、同一の特徴点について複数のカメラによって撮像を行った場合に、カメラ間で生じる画素差を示すものである。特徴点は、物体のエッジなど視差が得られる部分、即ち、撮像された画像の各画素において輝度が変化する画素である。物体検出装置51は、ステレオカメラの眼間距離、焦点距離、視差画像などを用いて特徴点のカメラ座標を導出することができる。そして、物体検出装置51は、特徴点をクラスタ化することで、物体のカメラ座標を導出することができる。物体検出装置51は、ステレオカメラから得られた画像を用いて、画像における対象物体Tの位置を特定することもできる。これにより、物体検出装置51は、対象物体Tのカメラ座標を導出することができる。物体検出装置51は、対象物体Tのカメラ座標を、車両20と対象物体Tとの位置関係を把握できる座標系の座標に変換する。制御装置32は、この座標を車両20と対象物体Tとの相対位置とし、車両20を移動させてもよい。カメラ41としてステレオカメラを用いる場合、自律移動体10は外界センサ31を備えていなくてもよい。 ○ A stereo camera may be used as the camera 41 . A stereo camera has a plurality of cameras. The object detection device 51 acquires parallax images from images captured by a plurality of cameras. A parallax image indicates a pixel difference that occurs between cameras when the same feature point is captured by a plurality of cameras. A feature point is a portion where parallax can be obtained, such as an edge of an object, that is, a pixel whose luminance changes in each pixel of a captured image. The object detection device 51 can derive the camera coordinates of the feature points using the interocular distance, focal length, parallax image, etc. of the stereo camera. Then, the object detection device 51 can derive the camera coordinates of the object by clustering the feature points. The object detection device 51 can also specify the position of the target object T in the image using the image obtained from the stereo camera. Thereby, the object detection device 51 can derive the camera coordinates of the target object T. FIG. The object detection device 51 converts the camera coordinates of the target object T into coordinates of a coordinate system that allows the positional relationship between the vehicle 20 and the target object T to be grasped. The control device 32 may use these coordinates as the relative positions of the vehicle 20 and the target object T to move the vehicle 20 . When using a stereo camera as the camera 41 , the autonomous mobile body 10 does not have to include the external sensor 31 .

カメラ41としては、ToF(Time of Flight)カメラを用いてもよい。ToFカメラは、赤外線などのパルス光を照射して、その反射光を撮像素子により検知し、パルス光の反射時間により計測箇所までの距離を計測する。ToFカメラを用いることで、画像の各画素に奥行き方向の距離が対応付けられた距離画像を得ることができる。物体検出装置51は、距離画像を用いて車両20と対象物体Tとの相対位置を導出することができる。この場合であっても、自律移動体10は、外界センサ31を備えていなくてもよい。 As the camera 41, a ToF (Time of Flight) camera may be used. A ToF camera emits pulsed light such as infrared rays, detects the reflected light with an imaging device, and measures the distance to a measurement point based on the reflection time of the pulsed light. By using a ToF camera, it is possible to obtain a depth image in which each pixel of the image is associated with a distance in the depth direction. The object detection device 51 can derive the relative position between the vehicle 20 and the target object T using the distance image. Even in this case, the autonomous mobile body 10 does not have to be equipped with the external sensor 31 .

○物体検出装置51は、時間変化に伴うカメラ41の位置、及び姿勢の変化から対象物体Tのカメラ座標を導出してもよい。この場合、自律移動体10は、カメラ41の位置及び姿勢を検出する外界センサ31を備える。物体検出装置51は、異なる2つの時刻である第1時刻及び第2時刻でのカメラ41の位置及び姿勢をセンサから取得する。物体検出装置51は、第1時刻及び第2時刻でのカメラ41の位置及び姿勢の変化を導出する。物体検出装置51は、第1時刻及び第2時刻での画像に写る同一特徴点の画像上での座標の変化と、第1時刻及び第2時刻でのカメラ41の位置及び姿勢の変化とを用いて三角測量により特徴点のカメラ座標を導出する。即ち、物体検出装置51は、第1時刻でのカメラ41と第2時刻でのカメラ41とを1つのステレオカメラとみなしてカメラ座標を導出する。 ○ The object detection device 51 may derive the camera coordinates of the target object T from changes in the position and orientation of the camera 41 that accompany changes over time. In this case, the autonomous mobile body 10 includes an external sensor 31 that detects the position and orientation of the camera 41 . The object detection device 51 acquires the position and orientation of the camera 41 at two different times, ie, a first time and a second time, from sensors. The object detection device 51 derives changes in the position and orientation of the camera 41 at the first time and the second time. The object detection device 51 detects changes in the coordinates of the same feature point appearing in the image at the first time and the second time, and changes in the position and orientation of the camera 41 at the first time and the second time. is used to derive the camera coordinates of feature points by triangulation. That is, the object detection device 51 derives the camera coordinates by regarding the camera 41 at the first time and the camera 41 at the second time as one stereo camera.

○外界センサ31は、対象物体Tとの相対位置を検出できるものであればよい。例えば、外界センサ31は、レーダーであってもよい。
○移動体は、飛行体や多足歩行ロボットでもよい。
(circle) the external sensor 31 should just detect the relative position with the target object T. FIG. For example, the external sensor 31 may be radar.
○The moving body may be a flying body or a multi-legged walking robot.

○物体検出処理は、重複割合によるバウンディングボックスBの削除と、包含割合によるバウンディングボックスBの削除とを行えればよく、処理の順序は変更してもよい。例えば、包含割合によるバウンディングボックスBの削除を行った後に、重複割合によるバウンディングボックスBの削除を行ってもよい。 ○ Object detection processing may be performed by deleting the bounding box B based on the overlapping ratio and deleting the bounding box B based on the inclusion ratio, and the order of the processing may be changed. For example, the bounding box B may be deleted according to the overlap ratio after the bounding box B is deleted according to the inclusion ratio.

○画像IMは、グレースケールの画像であってもよい。
○付与部、第1削除部、包含割合算出部、第2削除部は、それぞれ、個別の装置であってもよい。即ち、物体検出装置51は、複数の装置を備えたユニットであってもよい。
o The image IM may be a grayscale image.
○ The addition unit, the first deletion unit, the inclusion ratio calculation unit, and the second deletion unit may be separate devices. That is, the object detection device 51 may be a unit including a plurality of devices.

○導出部及び移動制御部は、それぞれ、個別の装置であってもよい。即ち、制御装置32は、複数の装置を備えたユニットであってもよい。
○物体検出装置51が導出部として機能するようにしてもよい。
○ The derivation unit and the movement control unit may be separate devices. That is, the control device 32 may be a unit with multiple devices.
(circle) the object detection apparatus 51 may be made to function as a derivation|leading-out part.

○対象物体Tとしては、人以外の物体であってもよい。例えば、対象物体Tは、車両20とは異なる移動体であってもよい。
○物体検出装置51は、自律移動体10とは異なる装置に搭載されていてもよい。
○ The target object T may be an object other than a person. For example, the target object T may be a mobile object different from the vehicle 20 .
O The object detection device 51 may be mounted on a device different from the autonomous mobile body 10 .

B…バウンディングボックス、IM…画像、T…対象物体、10…自律移動体、20…移動体としての車両、32…導出部、及び移動制御部としての制御装置、41…カメラ、51…付与部、第1削除部、包含割合算出部、第2削除部、及び取得部としての物体検出装置。 B... Bounding box, IM... Image, T... Target object, 10... Autonomous moving body, 20... Vehicle as moving body, 32... Derivation unit and control device as movement control unit, 41... Camera, 51... Giving unit , a first deletion unit, a inclusion ratio calculation unit, a second deletion unit, and an object detection device as an acquisition unit.

Claims (2)

画像から対象物体を検出する物体検出装置であって、
前記画像に映る前記対象物体を囲むバウンディングボックスを付与する付与部と、
前記バウンディングボックスが複数存在する場合に、互いに重複している2つの前記バウンディングボックスの積集合の領域を当該2つの前記バウンディングボックスの和集合の領域で除算することで重複割合を算出し、前記重複割合が閾値を超えている場合には、互いに重複している2つの前記バウンディングボックスのうち信頼度スコアが低い方を削除する第1削除部と、
前記バウンディングボックスが複数存在する場合に、互いに重複している2つの前記バウンディングボックスの積集合の領域を当該2つの前記バウンディングボックスのうち一方の領域で除算することで包含割合を算出する包含割合算出部と、
前記包含割合に基づき、互いに重複している2つの前記バウンディングボックスの一方を削除する第2削除部と、を備える物体検出装置。
An object detection device for detecting a target object from an image,
an imparting unit that imparts a bounding box surrounding the target object appearing in the image;
When there are a plurality of the bounding boxes, an overlap ratio is calculated by dividing the intersection area of the two overlapping bounding boxes by the area of the union of the two bounding boxes, and a first deletion unit that deletes the one with a lower reliability score out of the two mutually overlapping bounding boxes when the ratio exceeds a threshold;
Inclusion ratio calculation for calculating an inclusion ratio by dividing, when a plurality of the bounding boxes exist, an area of the product set of two mutually overlapping bounding boxes by one area of the two bounding boxes. Department and
and a second deletion unit that deletes one of the two overlapping bounding boxes based on the inclusion ratio.
対象物体を追跡する自律移動体であって、
移動体と、
前記移動体に設けられており、前記対象物体を撮像するカメラと、
物体検出装置と、を備え、
前記物体検出装置は、
前記カメラから画像を取得する取得部と、
前記画像に映る前記対象物体を囲むバウンディングボックスを付与する付与部と、
前記バウンディングボックスが複数存在する場合に、互いに重複している2つの前記バウンディングボックスの積集合の領域を当該2つの前記バウンディングボックスの和集合の領域で除算することで重複割合を算出し、前記重複割合が閾値を超えている場合には、互いに重複している2つの前記バウンディングボックスのうち信頼度スコアが低い方を削除する第1削除部と、
前記バウンディングボックスが複数存在する場合に、互いに重複している2つの前記バウンディングボックスの積集合の領域を当該2つの前記バウンディングボックスのうち一方の領域で除算することで包含割合を算出する包含割合算出部と、
前記包含割合に基づき、互いに重複している2つの前記バウンディングボックスの一方を削除する第2削除部と、を備え、
前記自律移動体は、
前記第1削除部、及び前記第2削除部により前記バウンディングボックスの削除を行った後に残った前記バウンディングボックスに基づき、前記移動体と前記対象物体との相対位置を導出する導出部と、
前記相対位置に基づき、前記対象物体を追跡するように前記移動体を移動させる移動制御部と、を備える自律移動体。
An autonomous mobile body that tracks a target object,
a mobile object;
a camera provided on the moving body for capturing an image of the target object;
and an object detection device,
The object detection device is
an acquisition unit that acquires an image from the camera;
an imparting unit that imparts a bounding box surrounding the target object appearing in the image;
When there are a plurality of the bounding boxes, an overlap ratio is calculated by dividing the intersection area of the two overlapping bounding boxes by the area of the union of the two bounding boxes, and a first deletion unit that deletes the one with a lower reliability score out of the two mutually overlapping bounding boxes when the ratio exceeds a threshold;
Inclusion ratio calculation for calculating an inclusion ratio by dividing, when a plurality of the bounding boxes exist, an area of the product set of two mutually overlapping bounding boxes by one area of the two bounding boxes. Department and
a second deletion unit that deletes one of the two overlapping bounding boxes based on the inclusion ratio;
The autonomous mobile body is
a derivation unit that derives the relative position of the moving object and the target object based on the bounding box remaining after the bounding box is deleted by the first deletion unit and the second deletion unit;
a movement control unit that moves the moving body so as to track the target object based on the relative position.
JP2021015822A 2021-02-03 2021-02-03 Object detection device and autonomous mobile body Pending JP2022118954A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2021015822A JP2022118954A (en) 2021-02-03 2021-02-03 Object detection device and autonomous mobile body

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2021015822A JP2022118954A (en) 2021-02-03 2021-02-03 Object detection device and autonomous mobile body

Publications (1)

Publication Number Publication Date
JP2022118954A true JP2022118954A (en) 2022-08-16

Family

ID=82845242

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021015822A Pending JP2022118954A (en) 2021-02-03 2021-02-03 Object detection device and autonomous mobile body

Country Status (1)

Country Link
JP (1) JP2022118954A (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024063133A1 (en) * 2022-09-22 2024-03-28 ヌヴォトンテクノロジージャパン株式会社 Object detection method, program, and object detection system

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024063133A1 (en) * 2022-09-22 2024-03-28 ヌヴォトンテクノロジージャパン株式会社 Object detection method, program, and object detection system

Similar Documents

Publication Publication Date Title
Zaarane et al. Distance measurement system for autonomous vehicles using stereo camera
US20200208970A1 (en) Method and device for movable object distance detection, and aerial vehicle
EP3208635B1 (en) Vision algorithm performance using low level sensor fusion
KR102032070B1 (en) System and Method for Depth Map Sampling
US11270457B2 (en) Device and method for detection and localization of vehicles
JP6623044B2 (en) Stereo camera device
JP4413957B2 (en) Moving object detection device and autonomous moving object
US6678394B1 (en) Obstacle detection system
US11003920B2 (en) Detection and planar representation of three dimensional lanes in a road scene
US10922824B1 (en) Object tracking using contour filters and scalers
JP5023186B2 (en) Object motion detection system based on combination of 3D warping technique and proper object motion (POM) detection
JP6708730B2 (en) Mobile
US10657392B2 (en) Object detection device, object detection method, and program
JP2016009487A (en) Sensor system for determining distance information on the basis of stereoscopic image
US10656270B2 (en) Object detection device, object detection method, and program
García et al. Fusion procedure for pedestrian detection based on laser scanner and computer vision
CN113610910B (en) Obstacle avoidance method for mobile robot
JP2022118954A (en) Object detection device and autonomous mobile body
Pidurkar et al. Monocular camera based computer vision system for cost effective autonomous vehicle
JP6922605B2 (en) 3D object detectors, robots, and programs
Bozorgi et al. 2D laser and 3D camera data integration and filtering for human trajectory tracking
Ibisch et al. Towards highly automated driving in a parking garage: General object localization and tracking using an environment-embedded camera system
WO2018123640A1 (en) Imaging device
US20210149412A1 (en) Position estimating apparatus, method for determining position of movable apparatus, and non-transitory computer readable medium
Li et al. Mobile robot map building based on laser ranging and kinect