JP2022125973A - Position estimating apparatus, position estimating program, and position estimating method - Google Patents

Position estimating apparatus, position estimating program, and position estimating method Download PDF

Info

Publication number
JP2022125973A
JP2022125973A JP2022015287A JP2022015287A JP2022125973A JP 2022125973 A JP2022125973 A JP 2022125973A JP 2022015287 A JP2022015287 A JP 2022015287A JP 2022015287 A JP2022015287 A JP 2022015287A JP 2022125973 A JP2022125973 A JP 2022125973A
Authority
JP
Japan
Prior art keywords
detection
estimated
points
detection target
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2022015287A
Other languages
Japanese (ja)
Inventor
宏朗 西岡
Hiroo Nishioka
賢治 原
Kenji Hara
リー ボムジュン
Bumjun Lee
淳 光安
Atsushi Mitsuyasu
篤 眞砂
Atsushi Masago
修 中窪
Osamu Nakakubo
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Effect Co Ltd
Original Assignee
Effect Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Effect Co Ltd filed Critical Effect Co Ltd
Publication of JP2022125973A publication Critical patent/JP2022125973A/en
Pending legal-status Critical Current

Links

Images

Landscapes

  • Image Analysis (AREA)

Abstract

To provide a position estimating apparatus, a position estimating program, and a position estimating method which can estimate a position of a detection target faster and with satisfactory accuracy.SOLUTION: A position estimating apparatus 10 according to the present invention calculates a direction from a panoramic monocular camera C to a detection object based on detection objects (W1 - W3, E) detected in each frame of an image by image recognition, detects, as an estimated point representing a position of the detection object, a coordinate of an intersection of the calculated direction and a shaped surface of a three-dimensional map, classifies each estimated point into groups with respect to each detection object, and estimates a position of the detection object based on the group of the estimated points.SELECTED DRAWING: Figure 1

Description

本発明は、俯瞰用単眼カメラから撮影した画像に基づいて物体の位置を推定する位置推定装置および位置推定プログラム並びに位置推定方法に関するものである。 The present invention relates to a position estimating device, a position estimating program, and a position estimating method for estimating the position of an object based on an image captured by an overhead monocular camera.

カメラにより撮影された画像に基づいて検出対象の位置を推定するものが知られている(例えば、特許文献1参照)。
特許文献1に記載の非同期カメラ映像を用いた人物位置推定方法及びそのシステムは、同一人物を2台以上の非同期カメラで撮影し、参照カメラで撮影された連続する前後フレームを選択し、前後フレームの間の時刻に撮影した基準カメラと基準フレームを選択し、各フレーム画像中の人物領域を推定し、人物領域の各々から人物の頭頂部を推定し、前後フレームおよび基準フレームの各頭頂部の位置情報を用いて人物の3次元的な頭頂部位置を推定する、というものである。
A technique for estimating the position of a detection target based on an image captured by a camera is known (see Patent Document 1, for example).
The method and system for estimating the position of a person using asynchronous camera images described in Patent Document 1 captures the same person with two or more asynchronous cameras, selects consecutive frames captured by reference cameras, A reference camera and a reference frame photographed at a time between The position information is used to estimate the three-dimensional position of the top of the head of a person.

この特許文献1では、連続する2つのフレーム画像に二人の人物が写っている場合には、基準フレーム上の1人の人物と、対応する前フレーム上のいずれかの人物および前記後フレーム上のいずれかの人物との各組み合わせの各々について3次元的な頭頂部位置を推定し、組合せの各々について3次元的な頭頂部位置から身長を求め、身長が最も身長レンジに近い組合せの3次元的な頭頂部位置を基準フレーム上の人物の位置と推定している。 In this patent document 1, when two persons are shown in two consecutive frame images, one person on the reference frame, one of the corresponding persons on the previous frame, and the person on the back frame. Estimate the three-dimensional top of the head position for each combination with one of the persons, calculate the height from the three-dimensional top of the head position for each of the combinations, and the three-dimensional combination whose height is closest to the height range The position of the top of the head is estimated as the position of the person on the reference frame.

特開2007-233523号公報JP-A-2007-233523

しかし、特許文献1では、検出対象が2人でなく3人以上の大人数であった場合には、頭頂部位置の組み合わせが多くなるため計算量が増大する。また複数人が近接していた状態で、立っている状態から座ったり、座った状態から立ったりすると、見掛けの身長が変わるため、検出対象を誤認するおそれがある。 However, in Patent Literature 1, if the number of detection targets is three or more instead of two, the number of combinations of parietal position increases, resulting in an increase in the amount of calculation. In addition, when a plurality of people are close to each other, if they change from a standing state to a sitting state or from a sitting state to stand up, their apparent height changes, and there is a risk of erroneous recognition of a detection target.

そこで本発明は、検出対象の位置を早く精度よく推定することが可能な位置推定装置および位置推定プログラム並びに位置推定方法を提供することを目的とする。 SUMMARY OF THE INVENTION Accordingly, it is an object of the present invention to provide a position estimation device, a position estimation program, and a position estimation method capable of quickly and accurately estimating the position of a detection target.

本発明の位置推定装置は、複数の検出対象が所在する場所の3次元地図に基づいて、1台以上の俯瞰用単眼カメラにより撮影した画像に写り込んだ検出対象の位置を推定するものであり、前記画像の各フレームから画像認識により、フレーム中の検出対象を検出する対象検出手段と、前記対象検出手段が検出した検出対象に基づいて、前記俯瞰用単眼カメラから検出対象へ向かう方向を算出し、この方向と前記3次元地図における形状表面との交点座標を検出対象の位置である推定点として検出する座標検出手段と、前記座標検出手段により画像の複数のフレームにて検出されたそれぞれの推定点を、検出対象ごとにグループ分けするクラスタリング手段と、前記クラスタリング手段によりグループ分けされた推定点の集合から検出対象の位置を推定する位置推定手段とを備えたことを特徴とするものである。 A position estimating apparatus of the present invention estimates the positions of detection targets appearing in images captured by one or more bird's-eye view monocular cameras, based on a three-dimensional map of locations where a plurality of detection targets are located. a target detection means for detecting a detection target in each frame of the image by image recognition; and calculating a direction toward the detection target from the bird's-eye view monocular camera based on the detection target detected by the target detection means. coordinate detecting means for detecting the coordinates of the intersection of this direction and the shape surface on the three-dimensional map as an estimated point that is the position of the detection target; The present invention is characterized by comprising: clustering means for grouping estimated points by detection target; and position estimation means for estimating the position of the detection target from a set of estimated points grouped by the clustering means. .

また、本発明の位置推定プログラムは、コンピュータを、複数の検出対象が所在する場所の3次元地図に基づいて、1台以上の俯瞰用単眼カメラにより撮影した画像に写り込んだ検出対象の位置を推定する位置推定装置として機能させるものであり、前記画像の各フレームから画像認識により、フレーム中の検出対象を検出する対象検出手段、前記対象検出手段が検出した検出対象に基づいて、前記俯瞰用単眼カメラから検出対象へ向かう方向を算出し、この方向と前記3次元地図における形状表面との交点座標を検出対象の位置である推定点として検出する座標検出手段、前記座標検出手段により画像の複数のフレームにて検出されたそれぞれの推定点を、検出対象ごとにグループ分けするクラスタリング手段、前記クラスタリング手段によりグループ分けされた推定点の集合から検出対象の位置を推定する位置推定手段として機能させることを特徴としたものである。 Further, the position estimation program of the present invention causes the computer to determine the positions of the detection targets appearing in the images captured by one or more bird's-eye view monocular cameras based on a three-dimensional map of locations where the plurality of detection targets are located. and an object detecting means for detecting a detection object in each frame by image recognition from each frame of the image; coordinate detection means for calculating a direction from a monocular camera to a detection target and detecting the coordinates of the intersection of this direction and the shape surface on the three-dimensional map as an estimated point that is the position of the detection target; functioning as clustering means for grouping each estimated point detected in the frame of (1) by detection target, and position estimation means for estimating the position of the detection target from the set of estimated points grouped by the clustering means; It is characterized by

更に、本発明の位置推定方法は、複数の検出対象が所在する場所の3次元地図に基づいて、1台以上の俯瞰用単眼カメラにより撮影した画像に写り込んだ検出対象の位置を推定する、対象検出手段と、座標検出手段と、クラスタリング手段と、位置推定手段とを備えた位置推定装置による位置推定方法であり、前記対象検出手段が、前記画像の各フレームから画像認識により、フレーム中の検出対象を検出するステップと、前記座標検出手段が、前記対象検出手段が検出した検出対象に基づいて、前記俯瞰用単眼カメラから検出対象へ向かう方向を算出し、この方向と前記3次元地図における形状表面との交点座標を検出対象の位置である推定点として検出するステップと、前記クラスタリング手段が、前記座標検出手段により画像の複数のフレームにて検出されたそれぞれの推定点を、検出対象ごとにグループ分けするステップと、前記位置推定手段が、前記クラスタリング手段によりグループ分けされた推定点の集合から検出対象の位置を推定するステップとを含むことを特徴としたものである。 Furthermore, the position estimation method of the present invention estimates the positions of the detection targets appearing in the images captured by one or more bird's-eye view monocular cameras, based on a three-dimensional map of the location where the plurality of detection targets are located. A position estimation method using a position estimation device comprising object detection means, coordinate detection means, clustering means, and position estimation means, wherein the object detection means performs image recognition from each frame of the image, and a step of detecting a detection target, wherein the coordinate detection means calculates a direction from the bird's-eye view monocular camera to the detection target based on the detection target detected by the target detection means; a step of detecting the coordinates of intersections with the shape surface as estimated points that are the positions of the detection targets; and the position estimating means estimating the position of the detection target from the set of estimated points grouped by the clustering means.

本発明によれば、1台以上の俯瞰用単眼カメラにより撮影した画像の各フレームから画像認識により検出対象を検出し、俯瞰用単眼カメラから検出対象へ向かう方向を算出することで、3次元地図における形状表面との交点である推定点の座標を検出対象の位置として検出し、それぞれの推定点を検出対象ごとにグループ分けし、グループ分けされた推定点の集合から検出対象の位置として推定することができる。そうすることで、1台の俯瞰用単眼カメラからの画像であっても、また、各フレーム間で、推定点にばらつきがあり、検出対象同士が近接していても、検出対象の位置を示す推定点を検出対象ごとにグループ分けすることができる。 According to the present invention, a detection target is detected by image recognition from each frame of images captured by one or more bird's-eye view monocular cameras, and a direction toward the detection target from the bird's-eye view monocular camera is calculated to obtain a three-dimensional map. Detect the coordinates of the estimated points, which are the intersection points with the shape surface, as the position of the detection target, group each estimated point according to the detection target, and estimate the position of the detection target from the set of grouped estimation points. be able to. By doing so, even if it is an image from a single bird's-eye view monocular camera, and even if there are variations in the estimated points between frames and the detection targets are close to each other, the position of the detection target can be indicated. The estimated points can be grouped by detection targets.

前記対象検出手段は、検出対象を検出して検出対象の種類に応じたクラスを割り当て、前記クラスタリング手段は、前記1台以上の俯瞰用単眼カメラにより任意の時間の間に撮影された複数フレームの画像それぞれからの推定点の集合を検出対象ごとにグループ分けすることを、凝集型階層的クラスタリングにより推定点が含まれるグループを集約しながら行うときに、1フレームからの同一クラスの推定点は1つのみという条件下にて、同一クラスの推定点が含まれるグループとして集約するものとすることができる。
そうすることで、推定点のグループ分けを容易に、かつ素早く行うことができる。また、複数台の俯瞰用単眼カメラにより任意の時間の間に撮影された複数フレームの画像に基づいてグループ分けすることにより、検出対象同士が重なったり、検出対象が障害物に隠れたりしても、いずれかの俯瞰用単眼カメラにより撮影することができるので、死角の発生を抑えることができる。
The object detection means detects a detection object and assigns a class according to the type of the detection object, and the clustering means collects a plurality of frames photographed by the one or more bird's-eye view monocular cameras during an arbitrary time. When grouping a set of estimation points from each image for each detection target while aggregating groups containing estimation points by agglomerative hierarchical clustering, the number of estimation points of the same class from one frame is 1. Under the condition of only one, it can be aggregated as a group containing estimation points of the same class.
By doing so, the grouping of the estimated points can be performed easily and quickly. In addition, by grouping images based on multiple frames of images taken by multiple overhead monocular cameras during an arbitrary period of time, even if detection targets overlap or are hidden behind obstacles, , the bird's-eye view monocular camera can be used to suppress the occurrence of blind spots.

前記クラスタリング手段は、1フレームからの同一クラスの推定点は1つのみという条件に基づいて、推定点のそれぞれの座標位置から推定点間の距離を算出するときに、推定点同士が同じフレームであるときには、推定点間の距離に罰則値を加算するものとすることができる。 The clustering means calculates the distance between the estimated points from the respective coordinate positions of the estimated points based on the condition that the number of estimated points of the same class from one frame is only one. Sometimes a penalty value may be added to the distance between the estimated points.

前記クラスタリング手段は、凝集型階層的クラスタリングを行う際の推定点間の距離を算出するときに、式(1)により算出することにより1フレームからの同一クラスの推定点は1つのみという条件を課すことができる。 When the clustering means calculates the distance between the estimated points when performing agglomerative hierarchical clustering, the condition that the number of estimated points of the same class from one frame is only one by calculating by Equation (1) can impose.

Figure 2022125973000002
但し、dは推定点間の距離、(x1,y1,z1),(x2,y2,z2)は推定点の位置座標、Aは定数、F1,F2はフレーム識別するIDであり、δF1,F2は、F1=F2のとき1、F1≠F2のとき0である。
Figure 2022125973000002
where d is the distance between the estimated points, (x1, y1, z1), (x2, y2, z2) are the positional coordinates of the estimated points, A is a constant, F1 and F2 are frame identification IDs, and δ F1, F2 is 1 when F1=F2 and 0 when F1≠F2.

前記クラスタリング手段は、グループ分けが完了したときに、それぞれのグループに含まれる推定点数が所定の閾値以下のグループを除外するものとすることができる。検出対象が異なる推定点が接近したり、重なったりした場合(検出対象が接近している場合に発生する)、検出対象数より多くのグループが形成されることがあるが、所定の閾値以下のグループを除外することで、検出対象に対応するグループを精度よく推定することができる。 When the grouping is completed, the clustering means may exclude groups whose estimated points included in each group are equal to or less than a predetermined threshold. When estimated points with different detection targets approach or overlap (occurs when detection targets are close), more groups than the number of detection targets may be formed. By excluding the group, the group corresponding to the detection target can be estimated with high accuracy.

前記座標検出手段が前記俯瞰用単眼カメラから検出対象へ向かう方向を算出するときに、前記対象検出手段がフレーム中の検出対象を認識したことを示す検出対象を囲う枠線の下端の位置を検出対象の位置として方向を算出することができる。
枠線の下端は、3次元地図における形状表面上に位置しているため、この位置を推定点とすることで、補正することなく、検出対象が位置する座標とすることができる。
When the coordinate detection means calculates the direction toward the detection target from the bird's-eye view monocular camera, the target detection means detects the position of the lower end of the frame surrounding the detection target indicating that the detection target is recognized in the frame. Direction can be calculated as the position of the object.
Since the lower end of the frame line is located on the shape surface of the three-dimensional map, by using this position as an estimated point, the coordinates of the detection target can be obtained without correction.

本発明は、検出対象の位置を示す推定点が、各フレーム間で、推定点にばらつきがあり、検出対象同士が近接していても、検出対象ごとにグループ分けできるため、検出対象の位置を早く精度よく推定することが可能である。 According to the present invention, even if the estimated points indicating the positions of the detection targets vary between frames and the detection targets are close to each other, the detection targets can be grouped according to their positions. It is possible to estimate quickly and accurately.

本発明の実施の形態に係る位置推定装置が設置された工事現場を示す図である。It is a figure which shows the construction site where the position estimation apparatus which concerns on embodiment of this invention was installed. 図1に示す位置推定装置の構成を説明するための図である。2 is a diagram for explaining the configuration of the position estimation device shown in FIG. 1; FIG. 図1に示すカメラが撮影した画像を説明するための図であり、(A)は第1カメラが撮影した画像を示す図、(B)は第2カメラが撮影した画像を示す図、(C)は第3カメラが撮影した画像を示す図、(D)は第1カメラが撮影した画像から検出対象を検出した状態を説明するための図である。2A and 2B are diagrams for explaining images shot by the camera shown in FIG. 1, where (A) is a diagram showing an image shot by a first camera, (B) is a diagram showing an image shot by a second camera, (C ) is a diagram showing an image captured by a third camera, and (D) is a diagram for explaining a state in which a detection target is detected from an image captured by the first camera. (A)はカメラから検出対象へ向かう方向を、透視投影モデルを用いて算出することを説明するための図、(B)はカメラから検出対象へ向かう仮想線が3次元地図の形状表面を突き抜ける交点の座標を推定点としたことを説明するための図、(C)は画像認識から検出された検出対象の位置の下端を推定点とすることを説明するための図である。(A) is a diagram for explaining how the direction from the camera to the detection target is calculated using a perspective projection model, and (B) is a virtual line from the camera to the detection target that penetrates the shape surface of the 3D map. FIG. 11C is a diagram for explaining that the coordinates of the intersection point are used as the estimated point, and FIG. 14C is a diagram for explaining that the lower end of the position of the detection target detected by image recognition is used as the estimated point; (A)は複数のカメラからそれぞれの検出対象に向かう方向を示す図、(B)は3次元地図の形状面の複数の推定点を示す図である。(A) is a diagram showing directions toward respective detection targets from a plurality of cameras, and (B) is a diagram showing a plurality of estimated points on a shape surface of a three-dimensional map. (A)から(D)は推定点をグループ分けすることを説明するための図である。(A) to (D) are diagrams for explaining grouping of estimated points. 工事現場を示す3次元地図の推定位置に、作業者を示すモデル像や重機を模したモデル像を重畳させて、表示手段に表示させた例を示す図である。FIG. 10 is a diagram showing an example in which a model image representing a worker or a model image simulating a heavy machine is superimposed on an estimated position of a three-dimensional map representing a construction site and displayed on a display means. 検出対象の位置を示す座標位置に基づいてプロットされた図であり、(A)は凝集型階層的クラスタリングにより、推定点を検出対象ごとにグループ分けする前の状態の図、(B)はグループ分けが完了して、推定点が7つのグループに集約された状態の図である。It is a diagram plotted based on the coordinate position indicating the position of the detection target, (A) is a diagram of the state before grouping the estimated points for each detection target by agglomerative hierarchical clustering, (B) is a group FIG. 10 is a diagram showing a state in which the division is completed and the estimated points are aggregated into seven groups; 図8(B)に示すグループ分けによる各グループの測定点数を棒グラフにした図である。It is the figure which made the number of measurement points of each group by grouping shown in Drawing 8 (B) into a bar graph.

本発明の実施の形態に係る位置推定装置を図面に基づいて説明する。
位置推定装置は、検出対象が所在する場所の3次元地図に基づいて、俯瞰用単眼カメラ(以下、単にカメラと称する。)により撮影した画像に写り込んだ検出対象の位置を推定するものである。本実施の形態では、図1に示すように、検出対象が所在する場所が工事現場Sであり、検出対象は、工事現場Sで作業する作業者W1~W3や、重機Eなどの作業車である。
A position estimation device according to an embodiment of the present invention will be described based on the drawings.
A position estimating device estimates the position of a detection target appearing in an image captured by an overhead monocular camera (hereinafter simply referred to as a camera) based on a three-dimensional map of the location of the detection target. . In the present embodiment, as shown in FIG. 1, the location where the detection target is located is the construction site S, and the detection target is workers W1 to W3 working at the construction site S, and work vehicles such as heavy machinery E. be.

図1に示す工事現場Sでは、それぞれ設置位置が異なり、撮影する方向が異なる3台のカメラC(第1カメラC1~第3カメラC3)が設置されている。本実施の形態では、カメラCは、位置推定装置10に、ケーブルにより接続されているが、WiFi(登録商標)のような無線通信により接続されていてもよい。 At the construction site S shown in FIG. 1, three cameras C (first camera C1 to third camera C3) are installed in different installation positions and in different shooting directions. Although the camera C is connected to the position estimation device 10 by a cable in this embodiment, it may be connected by wireless communication such as WiFi (registered trademark).

図2に示すように位置推定装置10は、コンピュータに位置推定プログラムを動作させることで、以下の手段として機能させたものである。
位置推定装置10は、画像取得手段11と、対象検出手段12と、座標検出手段13と、クラスタリング手段14と、位置推定手段15と、報知手段16と、入力手段17と、表示手段18と、記憶手段19とを備えている。
As shown in FIG. 2, the position estimation device 10 functions as the following means by causing a computer to operate a position estimation program.
The position estimation device 10 includes image acquisition means 11, object detection means 12, coordinate detection means 13, clustering means 14, position estimation means 15, notification means 16, input means 17, display means 18, and storage means 19 .

画像取得手段11は、カメラCからの画像を記憶手段19に格納する。
対象検出手段12は、画像の各フレームから画像認識により、フレーム中の検出対象の位置やサイズを検出する。画像認識は、機械学習、特にディープラーニングを用いることで検出対象を抽出することができる。機械学習は、画像中から様々な特徴を抽出し、特徴の組み合わせから物体の検出(画像中のどこからどこまでが物体であるかの推定)と、分類(それが何であるかの判定)を行うための機械学習モデルが記憶手段19に格納されており、この機械学習モデルに基づいて、各フレームに検出対象が含まれているか否かを判断することにより行われる。
また、対象検出手段12は、検出対象を検出して検出対象の種類に応じたクラスを割り当てる。
The image acquisition means 11 stores the image from the camera C in the storage means 19 .
The object detection means 12 detects the position and size of the detection object in each frame of the image by image recognition. Image recognition can extract detection targets by using machine learning, especially deep learning. Machine learning extracts various features from an image, detects an object from a combination of features (estimates where the object is in the image), and classifies it (determines what it is). is stored in the storage means 19, and based on this machine learning model, it is determined whether or not each frame contains a detection target.
Further, the object detection means 12 detects a detection object and assigns a class according to the type of the detection object.

座標検出手段13は、対象検出手段12が検出した検出対象に基づいて、カメラCから検出対象へ向かう方向を算出し、この方向と3次元地図における形状表面との交点座標を検出対象の位置である推定点として検出する。ここで、形状表面とは、3次元地図によって表される地形や建築物の表面を示す。 The coordinate detection means 13 calculates the direction toward the detection target from the camera C based on the detection target detected by the target detection means 12, and calculates the intersection coordinates of this direction and the shape surface on the three-dimensional map at the detection target position. Detect as a certain estimated point. Here, the shape surface refers to the surface of landforms and buildings represented by a three-dimensional map.

クラスタリング手段14は、複数のフレームにて検出されたそれぞれの推定点を、検出対象ごとにグループ分けする。
位置推定手段15は、グループ分けされた推定点の集合から検出対象の位置を推定する。
The clustering means 14 groups each estimated point detected in a plurality of frames according to detection targets.
The position estimation means 15 estimates the position of the detection target from the set of grouped estimation points.

報知手段16は、検出対象の推定位置と他の検出対象の推定位置との接近度合いに応じて警報を報知する。
入力手段17は、キーボードなどの文字入力装置や、マウスやトラックボール、ジョイスティックなどのポインティングデバイスとすることができる。
表示手段18は、液晶ディスプレイや有機ELディスプレイなどとすることができる。
The notification means 16 issues an alarm according to the degree of proximity between the estimated position of the detection target and the estimated position of another detection target.
The input means 17 can be a character input device such as a keyboard, or a pointing device such as a mouse, trackball, or joystick.
The display means 18 can be a liquid crystal display, an organic EL display, or the like.

記憶手段19は、大容量のハードディスクドライブとしたり、高速アクセス可能なSSD(Solid State Drive)としたりすることができる。記憶手段19は、OSや各種のアプリケーションソフト、各種の設定の他、位置推定プログラムが格納されている。
位置推定プログラムは、各種の実行プログラムと、画像認識のための機械学習モデルとより構成されている。
The storage unit 19 can be a large-capacity hard disk drive or a high-speed accessible SSD (Solid State Drive). The storage unit 19 stores an OS, various application software, various settings, and a position estimation program.
The position estimation program consists of various execution programs and a machine learning model for image recognition.

また、記憶手段19は、位置推定装置10の設置時に工事現場Sをスキャンして生成された、図1に示す工事現場Sの3次元地図が格納されている。3次元地図は、例えば、Lidar SLAMやVisual SLAMなどのSLAM(Simultaneous Localization and Mapping)等を用いて生成された地図とすることができる。 The storage means 19 also stores a three-dimensional map of the construction site S shown in FIG. The three-dimensional map can be, for example, a map generated using SLAM (Simultaneous Localization and Mapping) such as Lidar SLAM and Visual SLAM.

以上のように構成された本発明の実施の形態に係る位置推定装置10の動作および使用状態を図面に基づいて説明する。
図1に示すように、工事現場Sでは、作業者W(W1~W3)と重機Eとが作業をしている。図2に示す画像取得手段11は、第1カメラC1~第3カメラC3からの画像を取り込み、記憶手段19に格納する。例えば、第1カメラC1により撮影された図3(A)に示すフレームには、左側に二人の作業者W1,W2、右側に一人の作業者W3が撮影され、その間に重機Eが撮影されている。同様にして、第2カメラC2により撮影された図3(B)に示すフレーム、および第3カメラC3により撮影された同図(C)に示すフレームにも、作業者W1~W3と重機Eが撮影されている。
The operation and usage state of the position estimation device 10 according to the embodiment of the present invention configured as described above will be described with reference to the drawings.
As shown in FIG. 1, at a construction site S, workers W (W1 to W3) and heavy machinery E are working. The image acquiring means 11 shown in FIG. 2 acquires images from the first camera C1 to the third camera C3 and stores them in the storage means 19. FIG. For example, in the frame shown in FIG. 3A photographed by the first camera C1, two workers W1 and W2 are photographed on the left side and one worker W3 is photographed on the right side, and the heavy equipment E is photographed between them. ing. Similarly, in the frame shown in FIG. 3B taken by the second camera C2 and the frame shown in FIG. 3C taken by the third camera C3, workers W1 to W3 and heavy equipment E being filmed.

次に、図2に示す対象検出手段12は、このような各フレームの画像からフレーム中の作業者W1~W3および重機Eの位置とサイズとを検出する。本実施の形態では、記憶手段19に格納され、ディープラーニングにより学習された機械学習モデルを参照して、図3(D)に示すように、作業者W1~W3および重機Eを検出すると共に、これらのサイズに応じた、作業者W1~W3および重機Eを囲う四角形状の枠線Fを設定する。 Next, the object detection means 12 shown in FIG. 2 detects the positions and sizes of the workers W1 to W3 and the heavy machinery E in each frame from the image of each frame. In this embodiment, by referring to the machine learning model stored in the storage means 19 and learned by deep learning, as shown in FIG. A rectangular frame line F surrounding workers W1 to W3 and heavy machinery E is set according to these sizes.

このとき、対象検出手段12は、作業者W1~W3については人のクラスを割り当て、重機Eについては作業車のクラスを割り当てる。 At this time, the object detection means 12 assigns the workers W1 to W3 to the human class, and assigns the heavy equipment E to the working vehicle class.

次に、座標検出手段13は、対象検出手段12が検出した検出対象に基づいて、カメラCから検出対象へ向かう方向を、透視投影モデルを用いて算出する。
例えば、透視投影モデルでは、図3(A)に示す撮影された画像(フレーム)は、図4(A)に示すように、カメラから所定距離だけ離れた仮想画像平面Pに投影されたものと見なすことができる。従って、カメラから検出対象へ向かう方向は、カメラのレンズ(光学中心O1)から検出対象(作業者W1~W3および重機E)を結ぶ仮想線L1~L4が延びる方向となる。
Next, based on the detection target detected by the target detection device 12, the coordinate detection means 13 calculates the direction from the camera C to the detection target using a perspective projection model.
For example, in the perspective projection model, the photographed image (frame) shown in FIG. 3A is projected onto a virtual image plane P at a predetermined distance from the camera, as shown in FIG. 4A. can be viewed. Therefore, the direction from the camera to the target of detection is the direction in which imaginary lines L1 to L4 connecting the lens of the camera (optical center O1) to the target of detection (workers W1 to W3 and heavy equipment E) extend.

図2に示す座標検出手段13は、図4(A)に示す光学中心O1の座標と、仮想画像平面Pにおける検出対象の座標とから、この仮想線L1~L4を示す直線式を演算し、図4(B)に示すように、この直線式から仮想線L1~L4が3次元地図Mの形状表面を突き抜ける3次元地図M上の交点の座標を算出する。座標検出手段13は、この交点の座標を推定点として、フレームを識別するための識別情報と、検出対象を識別するための識別情報とに関連付けて記憶手段19に格納する。これにより、1つのフレームに複数の検出対象の推定点が含まれていても、識別情報により区別することができる。 The coordinate detection means 13 shown in FIG. 2 calculates linear equations representing the virtual lines L1 to L4 from the coordinates of the optical center O1 shown in FIG. 4A and the coordinates of the detection target on the virtual image plane P, As shown in FIG. 4(B), the coordinates of the intersection points on the three-dimensional map M where the virtual lines L1 to L4 pass through the shape surface of the three-dimensional map M are calculated from this linear equation. The coordinate detection means 13 associates the coordinates of this intersection point with the identification information for identifying the frame and the identification information for identifying the detection target, and stores them in the storage means 19 as an estimated point. As a result, even if one frame includes a plurality of estimated detection target points, they can be distinguished by the identification information.

本実施の形態では、図3(D)および図4(C)に示すように、検出対象(例えば、作業者W1。)を認識したことが、検出対象を囲う四角形状の枠線Fによって示されている。そのため、検出対象(作業者W1~W3および重機E)の位置を示す座標は、枠線Fの中心位置O2から下方に延びる仮想直線Lと、枠線Fの下端である底辺Fとの交点X1としている。 In the present embodiment, as shown in FIGS. 3(D) and 4(C), recognition of a detection target (for example, worker W1) is indicated by a rectangular frame F surrounding the detection target. It is Therefore, the coordinates indicating the positions of the detection targets (workers W1 to W3 and heavy equipment E) are defined by the imaginary straight line LV extending downward from the center position O2 of the frame line F and the bottom side FB, which is the lower end of the frame line F. The intersection point is X1.

例えば、検出対象の位置が、3次元地図Mの形状表面から離れて上方に位置していると、位置の特定に補正が必要となる。
しかし、枠線Fの底辺F上の交点X1を検出対象の位置とすることで、枠線Fの下端は3次元地図Mにおける形状表面上に位置しているため、補正することなく、検出対象(交点X1)の位置を、3次元地図Mにおける形状表面の座標とすることができる。
For example, when the position of the detection target is located above the shape surface of the three-dimensional map M, it is necessary to correct the position specification.
However, by setting the intersection X1 on the bottom side FB of the frame line F as the position to be detected, the lower end of the frame line F is located on the shape surface of the three-dimensional map M. Therefore, it is detected without correction. The position of the target (intersection point X1) can be used as the coordinates of the shape surface in the three-dimensional map M.

座標検出手段13は、図5(A)に示すように、これらの処理を第1カメラC1から第3カメラC3による画像についてフレームごとに行い、図5(B)に示すように、交点X1を示す推定点を所定時間ごとに算出して記憶手段19(図2参照)に格納する。例えば、所定時間は、0.5秒ごととしたり、1秒ごととしたりすることができ、設定にて変更することができる。このように推定点が算出されることで、推定点がグループ分けできる。
例えば、図5(B)に示す例では、グループG1には、作業者W3の推定点が含まれる。グループG2には、重機Eの推定点が含まれる。しかし、グループG3には、作業者W1,W2が近接しているから、作業者W1,W2の推定点が含まれており、区別が付かない。
As shown in FIG. 5A, the coordinate detection means 13 performs these processes for each frame of the images captured by the first camera C1 to the third camera C3, and as shown in FIG. The estimated points shown are calculated at predetermined time intervals and stored in the storage means 19 (see FIG. 2). For example, the predetermined time can be every 0.5 seconds or every 1 second, and can be changed by setting. By calculating the estimated points in this way, the estimated points can be grouped.
For example, in the example shown in FIG. 5B, group G1 includes estimated points of worker W3. Group G2 includes estimated points for heavy machinery E. However, since the workers W1 and W2 are close to each other, the group G3 includes estimated points of the workers W1 and W2, and cannot be distinguished.

そこで、図2に示すクラスタリング手段14が、所定時間における複数のフレームにて検出されたそれぞれの検出対象の位置を示す位置座標から、検出対象ごとにグループ分けする。
本実施の形態では、1台以上のカメラCにより、任意の時間の間に撮影された複数フレームの画像のそれぞれからの推定点の集合を検出対象ごとにグループ分けすることを、凝集型階層的クラスタリングにより推定点が含まれるグループを集約しながら行うときに、1フレームからの同一クラスの推定点は1つのみという条件下にて、同一クラスの推定点が含まれるグループを集約する。
つまり、1台のカメラCによる1つのフレームには、同一クラス(検査対象の推定点)が同時に2つも存在しないことを前提として、グループを集約している。
Therefore, the clustering means 14 shown in FIG. 2 performs grouping for each detection target from the position coordinates indicating the position of each detection target detected in a plurality of frames in a predetermined time.
In this embodiment, grouping a set of estimated points from each of a plurality of frames of images captured at an arbitrary time by one or more cameras C for each detection target is called agglomerative hierarchical When clustering is performed while aggregating groups including estimation points, groups including estimation points of the same class are aggregated under the condition that there is only one estimation point of the same class from one frame.
In other words, the groups are aggregated on the assumption that no more than two of the same class (estimated points to be inspected) exist at the same time in one frame from one camera C.

例えば、図6(A)に示す推定点は、図5(B)に示すグループG3に含まれる2人の作業者の推定点を、3つのカメラCからの6つのフレームから座標検出手段13(図2参照)により検出した推定点の位置座標から、推定点W11~W16と、推定点W21~W26としてプロットしたことを示している。
ここで、推定点W11~W16と推定点W21~W26によるWnmにおけるnはクラス(作業者)であり、mはフレームを識別するIDである。なお、この時点では、各推定点は、フレームIDにより区別することはできても、どのクラス(作業者)に属するものかは不明であるが、便宜上、nとして区別するものである。
For example, the estimated points shown in FIG. 6A are the estimated points of the two workers included in the group G3 shown in FIG. 2) are plotted as estimated points W11 to W16 and estimated points W21 to W26.
Here, n in Wnm of estimated points W11 to W16 and estimated points W21 to W26 is a class (worker), and m is an ID for identifying a frame. At this point, each estimated point can be distinguished by its frame ID, but it is unknown to which class (worker) it belongs.

図6(A)からも判るように、同一クラスでも異なるフレームで推定点の位置が異なる。これは、1台のカメラCでも、推定点のばらつきが、位置推定の誤差(例えば、全く同じ位置にいても、明るさが変わるだけでもずれる場合がある)により生じるためである。
また、カメラCが3台ある場合には、第1カメラC1~第3カメラC3からの画像は同期が取れていないため、また、通信環境によっては遅延により、推定点がばらつき、複数の推定点が1つのグループに含まれることがある。
As can be seen from FIG. 6A, the positions of the estimation points are different in different frames even in the same class. This is because even with a single camera C, variations in estimated points occur due to errors in position estimation (for example, even if they are at exactly the same position, they may shift due to a change in brightness).
In addition, when there are three cameras C, the images from the first camera C1 to the third camera C3 are not synchronized, and depending on the communication environment, the estimated points vary due to delays, resulting in a plurality of estimated points. may be included in one group.

まず、最初の段階で、図6(A)に示す状態から所定距離内にある推定点を1つのグループに集約する。所定距離は、凝集型階層的クラスタリングの手法に従い、最小値(任意の設定値)から徐々に大きくしていく。例えば、図6(B)は、所定距離がある段階まで大きくなった状態を示しており、近接する、推定点W11,W14,W16がグループAに、推定点W13,W15がグループBに、推定点W12,W26がグループCに、推定点W21,W24,W25がグループDにグループ分けされている。推定点W22は所定距離内に近接する推定点が無いため単独のグループEとなる。また、推定点W23も所定距離内に近接する推定点が無いため単独のグループFとなる。これらのグループA~Fに含まれる推定点は、上記条件下でグループ分けされているため、同じクラス(種類が人である作業者)ではあるが、異なるフレームである。 First, in the first stage, the estimated points within a predetermined distance from the state shown in FIG. 6A are aggregated into one group. The predetermined distance is gradually increased from the minimum value (arbitrary set value) according to the method of agglomerative hierarchical clustering. For example, FIG. 6B shows a state in which the predetermined distance has increased to a certain level. Points W12 and W26 are grouped into group C, and estimated points W21, W24 and W25 are grouped into group D. The estimated point W22 belongs to a single group E because there is no adjacent estimated point within the predetermined distance. The estimated point W23 also belongs to a single group F because there is no adjacent estimated point within the predetermined distance. Since the estimated points included in these groups A to F are grouped under the above conditions, they are of the same class (workers of type human) but different frames.

次の段階で、図6(B)に示す状態から、更に所定距離を拡大していき、グループの集約を進める。図6(C)に示すように、グループAは、グループBおよびグループEと一緒のグループとしても、同一フレームの同一クラスが存在しないため問題無い。しかし、グループAとグループCでは、フレーム6に同じクラスとなる作業者を示す推定点W16,W26が含まれているため、1フレームからの同一クラスの推定点は1点しか含まないという制約条件に反する。従って、グループAとグループCとは一緒のグループにはできない。 At the next stage, the predetermined distance is further increased from the state shown in FIG. 6B, and group integration is advanced. As shown in FIG. 6C, even if group A is grouped together with group B and group E, there is no problem because the same class of the same frame does not exist. However, in groups A and C, frame 6 includes estimated points W16 and W26 indicating workers of the same class, so the restriction is that only one estimated point of the same class from one frame is included. contrary to Therefore, Group A and Group C cannot be grouped together.

また、グループDは、グループCおよびグループFと一緒のグループとしても、同一フレームの同一クラスが存在しないため問題無い。しかし、グループCとグループEでは、フレーム2に同じクラスとなる作業者を示す推定点W12,W22が含まれているため制約条件に反する。従って、グループCとグループEとは一緒のグループにはできない。 Also, even if group D is grouped together with group C and group F, there is no problem because the same class of the same frame does not exist. However, in Groups C and E, frame 2 includes estimated points W12 and W22 indicating workers of the same class, which violates the constraint. Therefore, Group C and Group E cannot be grouped together.

従って、図6(D)に示すようにグループA~Fを集約すると、グループA,B,EはグループXに集約され、グループC,D,FはグループYに集約することができる。
このように、作業者W1のグループとしたグループXに作業者W2の推定点W22が含まれ、作業者W2のグループとしたグループYに作業者W1の推定点W12が含まれてしまい、多少の精度が落ちるものの、画像認識した2人の作業者W1,W2の2つのグループX,Yに、容易に、かつ素早く、凝集することができる。
Therefore, when groups A to F are aggregated as shown in FIG. 6D, groups A, B, and E can be aggregated into group X, and groups C, D, and F can be aggregated into group Y. FIG.
In this way, the estimated point W22 of the worker W2 is included in the group X of the worker W1, and the estimated point W12 of the worker W1 is included in the group Y of the worker W2. Although the accuracy is degraded, the two workers W1 and W2 who have undergone image recognition can be grouped into two groups X and Y easily and quickly.

この例では、図6(A)に示す状態から図6(D)に示す状態まで、1フレームからの同一クラスの推定点は1つのみという条件下にて、推定点間の距離が所定距離内にある推定点を同一クラスの推定点として、グループを集約している。
従って、クラスタリング手段14は、推定点間の距離を算出するときに、以下の式(2)により算出することで、上記条件を加味させることができる。
但し、(x1,y1,z1)、(x2,y2,z2)は位置座標、Aは定数、F1,F2はフレーム識別するIDであり、δF1,F2は、F1=F2のとき1、F1≠F2のとき0とする罰則項である。
In this example, from the state shown in FIG. 6A to the state shown in FIG. The groups are aggregated with the estimated points within the same class as the estimated points of the same class.
Therefore, when the clustering means 14 calculates the distance between the estimated points, the above condition can be taken into account by calculating using the following formula (2).
However, (x1, y1, z1) and (x2, y2, z2) are position coordinates, A is a constant, F1 and F2 are frame identification IDs, and δ F1 and F2 are 1 and F1 when F1=F2. This is a penalty term that is set to 0 when ≠F2.

Figure 2022125973000003
Figure 2022125973000003

定数Aは、比較的大きい数値である。例えば、2人の作業者が大きく離れて所在する程度の数値とすることができる。
また、定数Aを検出対象が所在する3次元地図の範囲を超える数値とすると、推定点の位置座標から推定点同士の距離dを算出するときに、同じフレームであれば、3次元地図の範囲を超える過大な数値が算出される。
Constant A is a relatively large numerical value. For example, it can be a numerical value of the extent that two workers are located far apart.
Also, if the constant A is a value exceeding the range of the 3D map where the detection target is located, when calculating the distance d between the estimated points from the positional coordinates of the estimated points, if it is the same frame, the range of the 3D map is calculated as an excessively large value.

このように、推定点間の距離を算出するときに、推定点同士が同一フレーム(F1=F2)であるときには、罰則項により罰則値が推定点間の距離に加算されるため、上記条件のときにグループ同士の集約から除外することができる。 Thus, when calculating the distance between the estimated points, if the estimated points are in the same frame (F1=F2), the penalty value is added to the distance between the estimated points by the penalty term. Sometimes it can be excluded from group-to-group aggregation.

なお、式(2)では、罰則項であるAδF1,F2は、推定点間の距離を算出する平方根から外れているが、罰則項を平方根に含めるようにしてもよい。その場合には、定数Aは、3次元地図の範囲を示す長さの2乗とすることが望ましい。 In equation (2), the penalty terms Aδ F1 and F2 are outside the square root for calculating the distance between the estimated points, but the penalty term may be included in the square root. In that case, the constant A is preferably the square of the length indicating the extent of the three-dimensional map.

そして、所定距離の拡大は任意の設定値を超えた時点、または、1グループに属するメンバー数(推定点の数)が、フレーム数となった時点で止めることとする。
従って、図6(D)に示すグループX,Yでは、6つのフレームの推定点全部を含むため、所定距離の拡大が止まり、検出対象がグループX,Yの2グループに分けることができる。
The extension of the predetermined distance is stopped when an arbitrary set value is exceeded or when the number of members belonging to one group (estimated number of points) reaches the number of frames.
Therefore, since the groups X and Y shown in FIG. 6D include all the estimated points of the six frames, the expansion of the predetermined distance stops and the detection target can be divided into two groups X and Y.

なお、本実施の形態では、凝集型階層的クラスタリングにより、推定点を検出対象ごとにグループ分けしているが、単連結法、完全連結法、群平均法、ウォード法、セントロイド法、メジアン法などが使用できる。 In the present embodiment, the estimated points are grouped for each detection target by agglomerative hierarchical clustering. etc. can be used.

次に、図2に示す位置推定手段15は、検出対象ごとにグループ分けされた推定点の集合から検出対象の位置を推定する。本実施の形態では、推定点の重心を算術平均により算出して、検出対象の推定位置としている。
そして、例えば、位置推定手段15は、図7に示すように、工事現場Sを示す3次元地図Mの推定位置に、作業者を示す像(作業者W1~W3)や重機を模した像(重機E)を重畳させて、図2に示す表示手段18に表示させることができる。
この表示により、工事現場Sでの人員の配置具合が把握できるため、作業者が不用意に他の場所に移動して人員が不足しているなどの状況を容易に確認できる。
Next, the position estimating means 15 shown in FIG. 2 estimates the position of the detection target from a set of estimation points grouped for each detection target. In the present embodiment, the center of gravity of the estimated points is calculated by arithmetic mean and used as the estimated position of the detection target.
Then, for example, as shown in FIG. 7, the position estimation means 15 places images representing workers (workers W1 to W3) and images simulating heavy machinery ( Heavy machinery E) can be superimposed and displayed on the display means 18 shown in FIG.
With this display, it is possible to grasp the arrangement of personnel at the construction site S, so that it is possible to easily confirm the situation such as a shortage of personnel due to workers carelessly moving to another place.

ここで、報知手段16は、検出対象のうち、作業者W1~W3が重機Eに所定距離より接近していることを検出すると、管理者に警報を通知したり、工事現場Sに設置された回転灯や警報機により作業者W1~W3に警報を通知したり、重機Eの移動を停止させたりすることができる。 Here, when the notification means 16 detects that the workers W1 to W3 are approaching the heavy machinery E more than a predetermined distance among the detection targets, the notification means 16 notifies the administrator of an alarm, or A warning can be notified to the workers W1 to W3 by a revolving light or an alarm device, or the movement of the heavy machinery E can be stopped.

以上のように本実施の形態に係る位置推定装置10によれば、図3(D)に示すように1台以上のカメラにより撮影した画像の各フレームから画像認識により検出対象を検出し、図5(A)に示すように、カメラCから検出対象へ向かう方向を算出することで、3次元地図Mにおける形状表面との交点X1(推定点)の座標を検出対象の位置として検出し、図6(A)から同図(D)に示すように、それぞれの推定点(推定点W11~W16,推定点W21~W26)を、検出対象ごとにグループ分けして、グループ分けされた推定点の集合から検出対象の位置を推定する。 As described above, according to the position estimation device 10 according to the present embodiment, as shown in FIG. As shown in 5A, by calculating the direction from the camera C toward the detection target, the coordinates of the intersection X1 (estimated point) with the shape surface on the three-dimensional map M are detected as the position of the detection target. 6A to 6D, each estimated point (estimated points W11 to W16, estimated points W21 to W26) is grouped by detection target, and the grouped estimated points Estimate the position of the detection target from the set.

そうすることで、1台のカメラCからの画像であっても、また、各フレーム間で、推定点にばらつきがあり、検出対象が近接していても、検出対象の位置を示す推定点がグループ分けできるため、検出対象の位置を早く精度よく推定することが可能である。 By doing so, even if it is an image from one camera C, or between frames, even if there are variations in the estimated points, and even if the detection target is close, the estimated point indicating the position of the detection target is Since it can be grouped, it is possible to quickly and accurately estimate the position of the detection target.

クラスタリング手段14が、推定点を検出対象ごとにグループ分けするときに、検出対象の種類に応じて割り当てられたクラスであり、1台のカメラCの1フレームからの同一のクラスの推定点は1点のみを含める条件下にて、凝集型階層的クラスタリングを行うことによりグループ分けしている。そうすることで、推定点のグループ分けを容易に、かつ素早くに行うことができる。 When the clustering means 14 groups the estimated points for each detection target, the class is assigned according to the type of the detection target. Grouping is performed by performing agglomerative hierarchical clustering under the condition that only points are included. By doing so, it is possible to group the estimated points easily and quickly.

更に、対象検出手段12が、第1カメラC1から第3カメラC3による複数台のカメラCからの画像に基づいて検出対象を検出し、座標検出手段13が、複数台の俯瞰用単眼カメラからの画像から推定点を検出することにより、検出対象同士が重なったり、検出対象が障害物に隠れたりしても、いずれかのカメラCにより撮影することができるので、死角の発生を抑えることができる。 Furthermore, the object detection means 12 detects the detection object based on the images from the plurality of cameras C from the first camera C1 to the third camera C3, and the coordinate detection means 13 detects the detection object from the plurality of overhead monocular cameras. By detecting the estimated point from the image, even if the detection targets overlap each other or the detection target is hidden by an obstacle, the image can be captured by any one of the cameras C, so that the occurrence of blind spots can be suppressed. .

[実施例]
次に、クラスタリング手段によるシミュレーションを行った例を説明する。
図8(A)に示す例では、5つの検出対象に対して検出対象の所在位置から乱数により20ずつの推定点を発生させている。
そして、凝集型階層的クラスタリングにより、推定点を検出対象ごとにグループ分けする際に、推定点間の距離を算出するときに式(2)により算出して、図6(A)から図6(D)にて説明したときと同様に、グループを集約していく。
そうすることで、3つの検出対象T1~T3は、互いが離間した場所に位置しているため、推定点が正確に検出対象(クラス)ごとにグループ分けされる(図8(B)では、推定点が◎,×,+にて示されているグループG1~G3。)
しかし、図8(A)に示す検出対象T4,T5は互いが接近しており、検出対象の位置を示すそれぞれの推定点が接近したり重なったりして混在した状態となった領域があるので、この推定点のグループ分けが完了すると、図8(B)に示すように、4つのグループに分かれてしまっている(図8(B)では、推定点が□,◇,△,○にて示されているグループG4~G7。)
[Example]
Next, an example of performing a simulation using the clustering means will be described.
In the example shown in FIG. 8A, 20 estimated points are generated by random numbers from the locations of the detection targets for five detection targets.
Then, when the estimated points are grouped for each detection target by agglomerative hierarchical clustering, when calculating the distance between the estimated points, the distance between the estimated points is calculated by Equation (2), Groups are aggregated in the same manner as described in D).
By doing so, since the three detection targets T1 to T3 are located at locations separated from each other, the estimated points are accurately grouped for each detection target (class) (in FIG. 8(B), Groups G1 to G3 whose estimated points are indicated by ◎, ×, +.)
However, the detection targets T4 and T5 shown in FIG. 8(A) are close to each other, and there is an area where the respective estimated points indicating the positions of the detection targets are close to each other or overlap each other, resulting in a mixed state. , when the grouping of the estimated points is completed, they are divided into four groups as shown in FIG. 8(B) (in FIG. 8(B), the estimated points are Groups G4-G7 shown.)

ここで、検出対象数がわかっていれば、グループG1~G7に含まれる推定点数の上位から検出対象数分のグループを特定することで、検出対象に対応するグループG1~G5に属する推定点を特定することができる。
そして、検出対象(グループG1~G5)に属する推定点が特定できるので、これらの推定点が属するグループG1~G5から、検出対象の位置を推定することができる。
Here, if the number of detection targets is known, the estimated points belonging to the groups G1 to G5 corresponding to the detection targets are determined by specifying groups corresponding to the number of detection targets from the highest number of estimated points included in the groups G1 to G7. can be specified.
Since the estimated points belonging to the detection targets (groups G1 to G5) can be identified, the positions of the detection targets can be estimated from the groups G1 to G5 to which these estimated points belong.

また、検出対象数が不明であれば、所定値を閾値として、閾値以下の推定点数が含まれるグループを除外する。例えば、図9に示すように閾値Lを「8」とすればグループG6,G7が除外される。そうすることで、検出対象数が不明であっても、検出対象に対応するグループがグループG1~G5であると推定できる。
なお、この閾値は、検出対象の種類、俯瞰用単眼カメラの性能や検出対象が所在する場所の形状などにより変化する可能性があるため、試験的な運用の中で決定することが望ましい。
Also, if the number of detection targets is unknown, a predetermined value is used as a threshold, and groups containing an estimated score that is equal to or less than the threshold are excluded. For example, if the threshold value L is set to "8" as shown in FIG. 9, the groups G6 and G7 are excluded. By doing so, even if the number of detection targets is unknown, it can be estimated that the groups corresponding to the detection targets are the groups G1 to G5.
Note that this threshold may change depending on the type of detection target, the performance of the bird's-eye monocular camera, the shape of the location where the detection target is located, and so on, so it is desirable to determine it in a trial operation.

本発明は、人や車両などの移動物を検出対象として、その所在を確認したい場合に好適であり、特に、工事現場の作業者や作業車の位置を把握する際に最適である。 INDUSTRIAL APPLICABILITY The present invention is suitable for detecting the location of moving objects such as people and vehicles, and is particularly suitable for locating workers and work vehicles at construction sites.

10 位置推定装置
11 画像取得手段
12 対象検出手段
13 座標検出手段
14 クラスタリング手段
15 位置推定手段
16 報知手段
17 入力手段
18 表示手段
19 記憶手段
C,C1,C2,C3 俯瞰用単眼カメラ(カメラ)
W,W1,W2,W3 作業者
E 重機
F 枠線
底辺
仮想直線
L1~L4 仮想線
O1 光学中心
O2 中心位置
P 仮想画像平面
M11~M16,M21~M26 推定点
X1 交点
S 工事現場
M 3次元地図
A~F,X,Y,G1~G5 グループ
T1~T5 検出対象
REFERENCE SIGNS LIST 10 position estimation device 11 image acquisition means 12 object detection means 13 coordinate detection means 14 clustering means 15 position estimation means 16 notification means 17 input means 18 display means 19 storage means C, C1, C2, C3 overhead monocular camera (camera)
W, W1, W2, W3 Worker E Heavy machinery F Frame line F B base L V Virtual straight line L1-L4 Virtual line O1 Optical center O2 Center position P Virtual image plane M11-M16, M21-M26 Estimated point X1 Intersection S Construction site M 3D map A to F, X, Y, G1 to G5 Group T1 to T5 Detection target

Claims (8)

複数の検出対象が所在する場所の3次元地図に基づいて、1台以上の俯瞰用単眼カメラにより撮影した画像に写り込んだ検出対象の位置を推定する位置推定装置であり、
前記画像の各フレームから画像認識により、フレーム中の検出対象を検出する対象検出手段と、
前記対象検出手段が検出した検出対象に基づいて、前記俯瞰用単眼カメラから検出対象へ向かう方向を算出し、この方向と前記3次元地図における形状表面との交点座標を検出対象の位置である推定点として検出する座標検出手段と、
前記座標検出手段により画像の複数のフレームにて検出されたそれぞれの推定点を、検出対象ごとにグループ分けするクラスタリング手段と、
前記クラスタリング手段によりグループ分けされた推定点の集合から検出対象の位置を推定する位置推定手段とを備えた位置推定装置。
A position estimating device for estimating the positions of detection targets reflected in an image captured by one or more bird's-eye view monocular cameras based on a three-dimensional map of locations where a plurality of detection targets are located,
an object detecting means for detecting an object to be detected in each frame of the image by image recognition;
Based on the detection target detected by the target detection means, a direction toward the detection target from the bird's-eye monocular camera is calculated, and the coordinates of the intersection of this direction and the shape surface in the three-dimensional map are estimated as the position of the detection target. a coordinate detection means for detecting as a point;
clustering means for grouping the estimated points detected in a plurality of frames of the image by the coordinate detection means for each detection target;
A position estimation device comprising position estimation means for estimating a position of a detection target from a set of estimation points grouped by the clustering means.
前記対象検出手段は、検出対象を検出して検出対象の種類に応じたクラスを割り当て、
前記クラスタリング手段は、前記1台以上の俯瞰用単眼カメラにより任意の時間の間に撮影された複数フレームの画像それぞれからの推定点の集合を検出対象ごとにグループ分けすることを、凝集型階層的クラスタリングにより推定点が含まれるグループを集約しながら行うときに、1フレームからの同一クラスの推定点は1つのみという条件下にて、同一クラスの推定点が含まれるグループとして集約する請求項1記載の位置推定装置。
The target detection means detects a detection target and assigns a class according to the type of the detection target,
The clustering means performs agglomeration-type hierarchical grouping of a set of estimated points from each of a plurality of frames of images captured by the one or more bird's-eye view monocular cameras during an arbitrary time period for each detection target. 1. When clustering is performed while aggregating groups that include estimation points, aggregating groups that include estimation points of the same class under the condition that the number of estimation points of the same class from one frame is only one. A position estimator as described.
前記クラスタリング手段は、1フレームからの同一クラスの推定点は1つのみという条件に基づいて、推定点のそれぞれの座標位置から推定点間の距離を算出するときに、推定点同士が同じフレームであるときには、推定点間の距離に罰則値を加算する請求項2記載の位置推定装置。 The clustering means calculates the distance between the estimated points from the respective coordinate positions of the estimated points based on the condition that the number of estimated points of the same class from one frame is only one. 3. The position estimation device according to claim 2, wherein a penalty value is added to the distance between the estimated points when there is. 前記クラスタリング手段は、凝集型階層的クラスタリングを行う際の推定点間の距離を算出するときに、式(1)により算出する請求項3記載の位置推定装置。
Figure 2022125973000004
但し、dは推定点間の距離、(x1,y1,z1),(x2,y2,z2)は推定点の位置座標、Aは定数、F1,F2はフレーム識別するIDであり、δF1,F2は、F1=F2のとき1、F1≠F2のとき0である。
4. The position estimation device according to claim 3, wherein the clustering means calculates the distance between the estimation points using the formula (1) when performing agglomerative hierarchical clustering.
Figure 2022125973000004
where d is the distance between the estimated points, (x1, y1, z1), (x2, y2, z2) are the positional coordinates of the estimated points, A is a constant, F1 and F2 are frame identification IDs, and δ F1, F2 is 1 when F1=F2 and 0 when F1≠F2.
前記クラスタリング手段は、グループ分けが完了したときに、それぞれのグループに含まれる推定点数が所定の閾値以下のグループを除外する請求項1から4のいずれかの項に記載の位置推定装置。 5. The position estimation device according to any one of claims 1 to 4, wherein the clustering means excludes groups in which the number of estimated points included in each group is equal to or less than a predetermined threshold when the grouping is completed. 前記座標検出手段が前記俯瞰用単眼カメラから検出対象へ向かう方向を算出するときに、前記対象検出手段がフレーム中の検出対象を認識したことを示す検出対象を囲う枠線の下端の位置を検出対象の位置として方向を算出する請求項1から5のいずれかの項に記載の位置推定装置。 When the coordinate detection means calculates the direction toward the detection target from the bird's-eye view monocular camera, the target detection means detects the position of the lower end of the frame surrounding the detection target indicating that the detection target is recognized in the frame. 6. The position estimation device according to any one of claims 1 to 5, wherein a direction is calculated as the target position. コンピュータを、
複数の検出対象が所在する場所の3次元地図に基づいて、1台以上の俯瞰用単眼カメラにより撮影した画像に写り込んだ検出対象の位置を推定する位置推定装置として機能させる位置推定プログラムであり、
前記画像の各フレームから画像認識により、フレーム中の検出対象を検出する対象検出手段、
前記対象検出手段が検出した検出対象に基づいて、前記俯瞰用単眼カメラから検出対象へ向かう方向を算出し、この方向と前記3次元地図における形状表面との交点座標を検出対象の位置である推定点として検出する座標検出手段、
前記座標検出手段により画像の複数のフレームにて検出されたそれぞれの推定点を、検出対象ごとにグループ分けするクラスタリング手段、
前記クラスタリング手段によりグループ分けされた推定点の集合から検出対象の位置を推定する位置推定手段として機能させる位置推定プログラム。
the computer,
A position estimation program that functions as a position estimation device for estimating the position of a detection target captured in an image captured by one or more bird's-eye view monocular cameras based on a three-dimensional map of locations where multiple detection targets are located. ,
Object detection means for detecting a detection object in a frame by image recognition from each frame of the image;
Based on the detection target detected by the target detection means, a direction toward the detection target from the bird's-eye monocular camera is calculated, and the coordinates of the intersection of this direction and the shape surface in the three-dimensional map are estimated as the position of the detection target. Coordinate detection means for detecting as points,
clustering means for grouping each estimated point detected in a plurality of frames of an image by the coordinate detection means for each detection target;
A position estimation program that functions as position estimation means for estimating the position of a detection target from a set of estimation points grouped by the clustering means.
複数の検出対象が所在する場所の3次元地図に基づいて、1台以上の俯瞰用単眼カメラにより撮影した画像に写り込んだ検出対象の位置を推定する、対象検出手段と、座標検出手段と、クラスタリング手段と、位置推定手段とを備えた位置推定装置による位置推定方法であり、
前記対象検出手段が、前記画像の各フレームから画像認識により、フレーム中の検出対象を検出するステップと、
前記座標検出手段が、前記対象検出手段が検出した検出対象に基づいて、前記俯瞰用単眼カメラから検出対象へ向かう方向を算出し、この方向と前記3次元地図における形状表面との交点座標を検出対象の位置である推定点として検出するステップと、
前記クラスタリング手段が、前記座標検出手段により画像の複数のフレームにて検出されたそれぞれの推定点を、検出対象ごとにグループ分けするステップと、
前記位置推定手段が、前記クラスタリング手段によりグループ分けされた推定点の集合から検出対象の位置を推定するステップとを含む位置推定方法。
an object detection means and a coordinate detection means for estimating the positions of the detection objects reflected in the image taken by one or more bird's-eye view monocular cameras based on a three-dimensional map of locations where the plurality of detection objects are located; A position estimation method by a position estimation device comprising clustering means and position estimation means,
a step in which the target detection means detects a detection target in each frame of the image by image recognition;
The coordinate detection means calculates a direction toward the detection target from the bird's-eye view monocular camera based on the detection target detected by the target detection means, and detects the intersection coordinates between this direction and the shape surface of the three-dimensional map. detecting as an estimated point that is the position of the object;
a step in which the clustering means groups each estimated point detected in a plurality of frames of an image by the coordinate detection means according to detection targets;
A position estimation method, wherein the position estimation means estimates the position of the detection target from a set of estimation points grouped by the clustering means.
JP2022015287A 2021-02-17 2022-02-03 Position estimating apparatus, position estimating program, and position estimating method Pending JP2022125973A (en)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2021023080 2021-02-17
JP2021023080 2021-02-17

Publications (1)

Publication Number Publication Date
JP2022125973A true JP2022125973A (en) 2022-08-29

Family

ID=83058436

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022015287A Pending JP2022125973A (en) 2021-02-17 2022-02-03 Position estimating apparatus, position estimating program, and position estimating method

Country Status (1)

Country Link
JP (1) JP2022125973A (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117853569A (en) * 2024-03-07 2024-04-09 上海励驰半导体有限公司 Vehicle peripheral area presentation device and method and electronic equipment

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117853569A (en) * 2024-03-07 2024-04-09 上海励驰半导体有限公司 Vehicle peripheral area presentation device and method and electronic equipment
CN117853569B (en) * 2024-03-07 2024-05-28 上海励驰半导体有限公司 Vehicle peripheral area presentation device and method and electronic equipment

Similar Documents

Publication Publication Date Title
US11481024B2 (en) Six degree of freedom tracking with scale recovery and obstacle avoidance
Chang et al. Argoverse: 3d tracking and forecasting with rich maps
EP3168812B1 (en) System and method for scoring clutter for use in 3d point cloud matching in a vision system
EP2734977B1 (en) System and method for optimizing tracker system
US8594425B2 (en) Analysis of three-dimensional scenes
US10086955B2 (en) Pattern-based camera pose estimation system
US20180003498A1 (en) Visual positioning system and method based on high reflective infrared identification
EP3007129A1 (en) Modeling device, three-dimensional model generation device, modeling method, program, and layout simulator
US10451403B2 (en) Structure-based camera pose estimation system
US9547905B2 (en) Monitoring system with a position-dependent protected area, method for monitoring a monitoring area and computer program
Assuja et al. 3D coordinate extraction from single 2D indoor image
US20210348927A1 (en) Information processing apparatus, information processing method, and recording medium
US10565786B1 (en) Sensor placement interface
KR20220047947A (en) Method and Apparatus for counting the number of person
JP2022125973A (en) Position estimating apparatus, position estimating program, and position estimating method
KR20230031037A (en) Method and sensing device for monitoring region of interest in workspace
JP7516037B2 (en) CALCULATION SYSTEM, CALCULATION METHOD, PROGRAM, AND STORAGE MEDIUM
CN115565058A (en) Robot, obstacle avoidance method, device and storage medium
JP2022121280A (en) Homography calculation method and program
Huang et al. Fast initialization method for monocular slam based on indoor model
CN115683109A (en) Visual dynamic barrier detection method based on CUDA and three-dimensional grid map
Kitayama et al. 3D map construction based on structure from motion using stereo vision
JP6548683B2 (en) Object image estimation device and object image determination device
Jacobsen et al. Real-time lidar for monitoring construction worker presence near hazards and in work areas in a virtual reality environment
JP2015170116A (en) Information processing apparatus, method for controlling information processing apparatus, and program