JP7034746B2 - Feature expression device, recognition system including it, and feature expression program - Google Patents

Feature expression device, recognition system including it, and feature expression program Download PDF

Info

Publication number
JP7034746B2
JP7034746B2 JP2018016980A JP2018016980A JP7034746B2 JP 7034746 B2 JP7034746 B2 JP 7034746B2 JP 2018016980 A JP2018016980 A JP 2018016980A JP 2018016980 A JP2018016980 A JP 2018016980A JP 7034746 B2 JP7034746 B2 JP 7034746B2
Authority
JP
Japan
Prior art keywords
points
point cloud
distance
feature expression
cloud data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2018016980A
Other languages
Japanese (ja)
Other versions
JP2019133545A (en
Inventor
研人 藤原
育郎 佐藤
満 安倍
悠一 吉田
義明 坂倉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Denso IT Laboratory Inc
Original Assignee
Denso IT Laboratory Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Denso IT Laboratory Inc filed Critical Denso IT Laboratory Inc
Priority to JP2018016980A priority Critical patent/JP7034746B2/en
Publication of JP2019133545A publication Critical patent/JP2019133545A/en
Application granted granted Critical
Publication of JP7034746B2 publication Critical patent/JP7034746B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Image Analysis (AREA)

Description

本発明は、多次元データの集合を特徴表現する特徴表現装置、それを含む認識システム、及び特徴表現プログラムに関する。 The present invention relates to a feature expression device that features a set of multidimensional data, a recognition system including the feature expression device, and a feature expression program.

従来、車両にカメラを設置して画像を撮影し、畳込ニューラルネットワーク(CNN)を用いて画像に対して物体認識を行う技術が知られている。このような車載カメラの画像による物体認識では、悪天候や夜間などによって車載カメラの可視性が低下する場合には、物体認識の精度が低下する。これを考慮して、レンジセンサなどから得られる3次元点群で構成される幾何情報を用いた物体認識の技術が開発されている。 Conventionally, there is known a technique of installing a camera in a vehicle to take an image and recognizing an object on the image using a convolutional neural network (CNN). In such object recognition based on the image of the vehicle-mounted camera, the accuracy of object recognition is reduced when the visibility of the vehicle-mounted camera is reduced due to bad weather or nighttime. In consideration of this, an object recognition technique using geometric information composed of a group of three-dimensional points obtained from a range sensor or the like has been developed.

しかしながら、畳込ニューラルネットワークに3次元点群をそのまま入力データとして入力すると、点の順序の問題、畳み込む領域の定義の問題が生じる。この問題に対応するために、従来の解決方法は主に3通りある。 However, if the 3D point cloud is input as input data to the convolutional neural network as it is, the problem of the order of the points and the problem of the definition of the convolution area arise. There are three main conventional solutions to address this problem.

第1の方法は、点群を点があるかないかを示すブロックで構成されるボリュームデータに変換して、近傍ブロックの畳込みを行うものである(例えば、非特許文献1を参照)。第2の方法は、点群を任意の視点から撮影した画像に変換し、あるいは物体を切り開いて展開図として画像に変換し、従来の画像学習方法を適用するものである(例えば、非特許文献2を参照)。第3の方法は、点群をそのまま扱って順序入替不変関数を学習し、点群を1つの特徴ベクトルにまとめる方法である(例えば、非特許文献3を参照)。 The first method converts a point cloud into volume data composed of blocks indicating whether or not there are points, and convolves neighboring blocks (see, for example, Non-Patent Document 1). In the second method, a point cloud is converted into an image taken from an arbitrary viewpoint, or an object is cut open and converted into an image as a developed view, and a conventional image learning method is applied (for example, a non-patent document). See 2). The third method is a method in which the point cloud is treated as it is, the order-ordering invariant function is learned, and the point cloud is combined into one feature vector (see, for example, Non-Patent Document 3).

Z. Wu et al., 3D ShapeNets: A Deep Representation for Volumetric Shape Modeling、IEEE CVPR 2015Z. Wu et al., 3D ShapeNets: A Deep Representation for Volumetric Shape Modeling, IEEE CVPR 2015 H. Su et al., Multi-view Convolutional Neural Networks for 3D Shape Recognition、ICCV 2015H. Su et al., Multi-view Convolutional Neural Networks for 3D Shape Recognition, ICCV 2015 C. Qi et al., PointNet: Deep Learning on Point Sets for 3D Classification and Segmentation、CVPR 2017C. Qi et al., PointNet: Deep Learning on Point Sets for 3D Classification and Segmentation, CVPR 2017 V. Nair and G. Hinton, Rectified linear units improve restricted Boltzmann machines, ICML 2010V. Nair and G. Hinton, Rectified linear units improve restricted Boltzmann machines, ICML 2010

しかしながら、上記の従来の各方法では、1つのデータで1つの物体の1つの姿勢しか表現できず、1つの物体の形状を様々な視点から表現するためには、その物体を様々な姿勢に動かして1つの物体から複数のデータに拡張することが必要になる。このため、従来の各方法では、正確な物体認識を実現するために必要な学習データの量が膨大になるとともに、識別器の構成が複雑になって学習時間も膨大になるという問題がある。 However, in each of the above-mentioned conventional methods, only one posture of one object can be expressed by one data, and in order to express the shape of one object from various viewpoints, the object is moved to various postures. It is necessary to extend from one object to multiple data. For this reason, each of the conventional methods has a problem that the amount of learning data required to realize accurate object recognition becomes enormous, the configuration of the classifier becomes complicated, and the learning time becomes enormous.

本発明は、多次元点群データを、認識や学習の負荷が小さい形式で特徴表現すること目的とする。 An object of the present invention is to characterize multidimensional point cloud data in a format with a small load of recognition and learning.

本発明の一態様の特徴表現装置は、多次元の点の集合からなる多次元点群データを特徴表現する特徴表現装置であって、前記点の集合を、前記点の集合の周辺に設定されたサンプル点に最も近い最近傍点の座標、及び前記サンプル点から前記最近傍点までの最近傍距離を示す距離場に変換する距離場変換部と、前記最近傍点の座標と前記最近傍距離からなる行列の特異値分解をして標準座標系への変換を取得する正準投影部と、前記最近傍点を入力とし、前記距離を出力とするエクストリームラーニングマシーンを訓練して、その重みを前記点の集合の特徴ベクトルとして出力するパラメータ化部とを備えた構成を有する。 The feature expression device of one aspect of the present invention is a feature expression device that features and expresses multidimensional point group data composed of a set of multidimensional points, and the set of points is set around the set of points. A matrix consisting of a distance field conversion unit that converts the coordinates of the nearest nearest point closest to the sample point and a distance field indicating the nearest neighbor distance from the sample point to the nearest neighbor point, and the coordinates of the nearest neighbor point and the nearest neighbor distance. A canonical projection unit that obtains the conversion to the standard coordinate system by decomposing the singular value of, and an extreme learning machine that inputs the nearest point and outputs the distance, and sets the weights of the points. It has a configuration including a parameterization unit that outputs as a feature vector of.

この構成により、多次元点群データを固定長の特徴ベクトルに変換するので、認識や学習の負荷が小さい形式で当該多次元点群データを特徴表現できる。なお、「多次元」は3次元以上を意味する。 With this configuration, the multidimensional point cloud data is converted into a fixed-length feature vector, so that the multidimensional point cloud data can be featured in a format with a small recognition and learning load. In addition, "multidimensional" means three or more dimensions.

上記の特徴表現装置において、前記エクストリームラーニングマシーンは、活性化関数としてReLUを用いてよい。この構成により、多次元点群データから特徴ベクトルことで多次元点群データのスケール不変性を実現できる。 In the above feature expression device, the extreme learning machine may use ReLU as an activation function. With this configuration, scale invariance of the multidimensional point cloud data can be realized by using the feature vector from the multidimensional point cloud data.

上記の特徴表現装置において、前記多次元の点の集合は、物体の表面の点の集合として取得された3次元点群であってよい。これにより、物体の3次元形状の情報を特徴ベクトルに変換できる。 In the above feature expression device, the set of multidimensional points may be a three-dimensional point cloud acquired as a set of points on the surface of an object. As a result, the information on the three-dimensional shape of the object can be converted into a feature vector.

本発明の一態様の認識システムは、上記の特徴表現装置と、前記特徴ベクトルを用いて認識を行う認識装置とを備えた構成を有している。この構成により、多次元点群データを特徴ベクトルに変換して、認識に用いるので、認識装置における認識の負荷が小さくできる。 The recognition system of one aspect of the present invention has a configuration including the above-mentioned feature expression device and a recognition device that performs recognition using the feature vector. With this configuration, the multidimensional point cloud data is converted into a feature vector and used for recognition, so that the recognition load in the recognition device can be reduced.

上記の認識システムは、物体を撮影することによって、前記物体の3次元点群データを取得する点群データ取得装置をさらに備えていてよく、前記特徴表現装置は、前記点群データ取得装置にて取得された前記3次元点群データを前記多次元点群データとして、特徴表現をしてよい。この構成により、認識装置における物体認識の負荷を小さくできる。 The recognition system may further include a point cloud data acquisition device that acquires three-dimensional point cloud data of the object by photographing the object, and the feature expression device is the point cloud data acquisition device. The acquired three-dimensional point cloud data may be used as the multidimensional point cloud data for feature expression. With this configuration, the load of object recognition in the recognition device can be reduced.

本発明の一態様の特徴表現プログラムは、情報処理装置にて実行されることで、前記情報処理装置を、多次元の点の集合からなる多次元点群データを特徴表現する特徴表現装置であって、前記点の集合を、前記点の集合の周辺に設定されたサンプル点に最も近い最近傍点の座標、及び前記サンプル点から前記最近傍点までの最近傍距離を示す距離場に変換する距離場変換部と、前記最近傍点の座標と前記最近傍距離からなる行列の特異値分解をして標準座標系への変換を取得する正準投影部と、前記最近傍点を入力とし、前記距離を出力とするエクストリームラーニングマシーンを訓練して、その重みを前記点の集合の特徴ベクトルとして出力するパラメータ化部とを備えた特徴表現装置として機能させる。 The feature expression program of one aspect of the present invention is a feature expression device that features and expresses the multidimensional point group data composed of a set of multidimensional points by executing the information processing device in the information processing device. A distance field that converts the set of points into a distance field that indicates the coordinates of the nearest point closest to the sample point set around the set of points and the nearest distance from the sample point to the nearest point. The conversion unit, the canonical projection unit that obtains the conversion to the standard coordinate system by performing singular value decomposition of the matrix consisting of the coordinates of the nearest neighbor point and the nearest neighbor distance, and the nearest neighbor point are input and the distance is output. The extreme learning machine is trained to function as a feature expression device equipped with a parameterization unit that outputs the weight as a feature vector of the set of points.

この構成によっても、多次元点群データを固定長の特徴ベクトルに変換するので、認識や学習の負荷が小さい形式で当該多次元点群データを特徴表現できる。 Even with this configuration, since the multidimensional point cloud data is converted into a fixed-length feature vector, the multidimensional point cloud data can be feature-expressed in a format with a small recognition and learning load.

本発明によれば、多次元点群データを固定長の特徴ベクトルに変換するので、認識や学習の負荷が小さい形式で当該多次元点群データを特徴表現できる。 According to the present invention, since the multidimensional point cloud data is converted into a fixed-length feature vector, the multidimensional point cloud data can be feature-expressed in a format in which the load of recognition and learning is small.

図1は、本発明の実施の形態の物体認識システムの構成を示すブロック図である。FIG. 1 is a block diagram showing a configuration of an object recognition system according to an embodiment of the present invention. 図2は、本発明の実施の形態の距離場の例を示す図である。FIG. 2 is a diagram showing an example of a distance field according to an embodiment of the present invention. 図3は、本発明の実施の形態の正準投影部による標準座標系への変換を示す図である。FIG. 3 is a diagram showing conversion to a standard coordinate system by the canonical projection unit according to the embodiment of the present invention. 図4は、本発明の実施の形態のパラメータ化部で用いるニューラルネットワークを示す図である。FIG. 4 is a diagram showing a neural network used in the parameterization unit of the embodiment of the present invention.

以下、図面を参照して本発明の実施の形態を説明する。なお、以下に説明する実施の形態は、本発明を実施する場合の一例を示すものであって、本発明を以下に説明する具体的構成に限定するものではない。本発明の実施にあたっては、実施の形態に応じた具体的構成が適宜採用されてよい。 Hereinafter, embodiments of the present invention will be described with reference to the drawings. It should be noted that the embodiments described below show an example of the case where the present invention is carried out, and the present invention is not limited to the specific configuration described below. In carrying out the present invention, a specific configuration according to the embodiment may be appropriately adopted.

図1は、本発明の実施の形態の認識システムの構成を示すブロック図である。認識システム100は、点群データ取得装置10と、特徴表現装置20と、識別装置30とを備えている。 FIG. 1 is a block diagram showing a configuration of a recognition system according to an embodiment of the present invention. The recognition system 100 includes a point cloud data acquisition device 10, a feature expression device 20, and an identification device 30.

点群データ取得装置10は、本実施の形態ではレンジセンサ(測域センサ)であり、レーザ光を用いた光飛行時間に基づく距離計測によって距離画像を生成して、物体の3次元点群データを取得する。以下、3次元点群データが取得された各点を「物体点」といい、物体点の集合を単に「点群」という。なお、点群データ取得装置10における3次元点群データの取得方法は、レンジセンサに限らず、例えばステレオ測距によって3次元点群データを取得してもよい。 The point cloud data acquisition device 10 is a range sensor (range sensor) in the present embodiment, and generates a distance image by distance measurement based on light flight time using a laser beam to generate three-dimensional point cloud data of an object. To get. Hereinafter, each point from which the three-dimensional point cloud data has been acquired is referred to as an "object point", and a set of object points is simply referred to as a "point cloud". The method for acquiring the three-dimensional point cloud data in the point cloud data acquisition device 10 is not limited to the range sensor, and for example, the three-dimensional point cloud data may be acquired by stereo ranging.

特徴表現装置20は、点群データ取得装置10で得られた3次元点群データを特徴ベクトルに変換する。特徴表現装置20は、距離場変換部21と、正準投影部22と、パラメータ化部23とを備えている。 The feature expression device 20 converts the three-dimensional point cloud data obtained by the point cloud data acquisition device 10 into a feature vector. The feature expression device 20 includes a distance field conversion unit 21, a canonical projection unit 22, and a parameterization unit 23.

距離場変換部21は、任意の座標系に置かれている物体点を標準座標系での表現に変換するため、点群を陰的表現である距離場に変換する。図2は、本発明の実施の形態の距離場の例を示す図である。図2において、濃い部分は物体までの距離が近く、薄い部分は物体までの距離が遠いことを示している。 The distance field conversion unit 21 converts a point cloud into a distance field, which is an implicit expression, in order to convert an object point placed in an arbitrary coordinate system into a representation in a standard coordinate system. FIG. 2 is a diagram showing an example of a distance field according to an embodiment of the present invention. In FIG. 2, the dark part indicates that the distance to the object is short, and the light part indicates that the distance to the object is long.

距離場変換部21は、物体点の周辺にランダムに設定した空間サンプル点と点群との最近傍距離を計測することで、任意の座標系の点群を距離場に変換する。ここで、最近傍距離とは、物体周辺の単位球の中に空間サンプル点sを設定し、物体点pのうちの空間サンプル点sとの距離が最小になる物体点pと当該空間サンプル点sとの距離であり、空間サンプル点の関数φ(s)として、以下の式(1)で算出される。 The distance field conversion unit 21 converts a point cloud of an arbitrary coordinate system into a distance field by measuring the nearest distance between a spatial sample point randomly set around the object point and the point cloud. Here, the nearest proximity distance is an object point p and the space sample point where the distance from the space sample point s among the object points p is minimized by setting the space sample point s in the unit sphere around the object. It is a distance from s and is calculated by the following equation (1) as a function φ (s) of a spatial sample point.

Figure 0007034746000001
ここで、Pは、物体点の集合である。すなわち、距離場Φを構成するために、物体点の集合Pの周りにランダムに空間サンプル点sを設定する。
Figure 0007034746000001
Here, P is a set of object points. That is, in order to construct the distance field Φ p , spatial sample points s are randomly set around the set P of object points.

任意の座標系の物体点の集合を距離場に変換することには次の2つの利点がある。第1の利点は、距離場が物体点の並べ替えに対して不変であるということである。距離場は、物体点pとその周りに設定された空間サンプル点sとの最近傍距離を含むため、同じ点群については、その姿勢に関わらず、同じ距離場が得られることになる。 Converting a set of object points in an arbitrary coordinate system into a distance field has the following two advantages. The first advantage is that the distance field is invariant to the reordering of object points. Since the distance field includes the nearest neighbor distance between the object point p and the spatial sample point s set around the object point p, the same distance field can be obtained for the same point cloud regardless of its posture.

第2の利点は、距離場が、座標系が拡大縮小するとそれに応じて距離φ(s)も拡大縮小するというスケール共変性を有するという点である。したがって、本実施の形態では、距離場の表現をスケール可換性をもつニューラルネットワーク(後述)に埋め込むことで、スケール不変性を実現する。 The second advantage is that the distance field has scale covariance in which the distance φ (s) scales accordingly as the coordinate system scales. Therefore, in the present embodiment, scale invariance is realized by embedding the representation of the distance field in a neural network (described later) having scale commutativity.

正準投影部22は、距離場を4次元標準座標系に投影することで回転不変性を実現する。このために、正準投影部22は、まず、空間サンプル点Sの座標と最近傍物体点(点群のうちの最近傍距離を有する点)までの距離とを連結させた下式(2)の行列Mを生成する。

Figure 0007034746000002
The canonical projection unit 22 realizes rotation invariance by projecting a distance field onto a four-dimensional standard coordinate system. For this purpose, the canonical projection unit 22 first connects the coordinates of the spatial sample point S and the distance to the nearest object point (the point having the nearest distance in the point cloud) by the following equation (2). Generates the matrix M of.
Figure 0007034746000002

正準投影部22は、下式(3)に示すように行列Mの特異値分解を行い、標準座標系への変換を取得する。

Figure 0007034746000003
すなわち、標準座標系への変換は、空間サンプル点の座標sx、sv、sz及び対応する距離φ(s)からなる行列Mの固有値分解で得られるVとする。 The canonical projection unit 22 performs singular value decomposition of the matrix M as shown in the following equation (3), and obtains the conversion to the standard coordinate system.
Figure 0007034746000003
That is, the conversion to the standard coordinate system is V * obtained by the eigenvalue decomposition of the matrix M consisting of the coordinates sx, sv, sz of the spatial sample points and the corresponding distance φ (s).

正準投影部22は、Vを固定するために、下式(4)によって、基底Uと行列Mの距離部分のベクトルφ(s)を掛け合わせて符号を取得する。

Figure 0007034746000004
In order to fix V * , the canonical projection unit 22 obtains a code by multiplying the vector φ (s) of the distance portion of the basis U and the matrix M by the following equation (4).
Figure 0007034746000004

正準投影部22は、さらに、得られた符号を下式(5)によってVに適用する。

Figure 0007034746000005
ここで、Cは、符号cを対角に持つ行列である。この投影によって、任意の物体は、それがどのような座標系で表現されていても、標準座標系では1つの姿勢に位置合わせされる。 The canonical projection unit 22 further applies the obtained reference numeral to V * by the following equation (5).
Figure 0007034746000005
Here, C is a matrix having the symbol c diagonally. This projection aligns any object in one pose in the frame of reference, no matter what coordinate system it is represented in.

図3は、本発明の実施の形態の正準投影部22による標準座標系への変換を示す図である。図3では、見やすさのために、もとの点群が特異値分解によって得られたVに従って変換されている。また、図3の上段は、同じ物体(ウサギ)の表面の点群が任意の角度で回転している状態を示しており、下段は、対応する上段の物体の表面の点群の変換を示している。 FIG. 3 is a diagram showing conversion to a standard coordinate system by the canonical projection unit 22 according to the embodiment of the present invention. In FIG. 3, the original point cloud is converted according to the V obtained by the singular value decomposition for the sake of visibility. Further, the upper part of FIG. 3 shows a state in which the point cloud on the surface of the same object (rabbit) is rotated at an arbitrary angle, and the lower part shows the conversion of the point cloud on the surface of the corresponding upper object. ing.

物体が図3の上段に示すように任意の角度に回転していたとしても、正準投影部22の投影によって図3の下段に示すようにすべて距離場が唯一の姿勢に位置合わせされる。すなわち、正準投影部22によって、様々な姿勢が標準座標系に配置され、正準表現は回転不変となる。 Even if the object is rotated at an arbitrary angle as shown in the upper part of FIG. 3, the distance field is all aligned to the unique posture as shown in the lower part of FIG. 3 by the projection of the canonical projection unit 22. That is, various postures are arranged in the standard coordinate system by the canonical projection unit 22, and the canonical representation is rotation-invariant.

パラメータ化部23は、標準座標系に投影された距離場を特徴ベクトルに埋め込む。図4は、本発明の実施の形態のパラメータ化部23で用いるニューラルネットワークを示す図である。パラメータ化部23は、図4に示すニューラルネットワークを用いて、標準座標系に投影された距離場を固定長の特徴ベクトルに埋め込む。このニューラルネットワークは、空間サンプル点の標準座標系での座標値を入力とし、対応する最近傍距離の値を出力とするものであり、物体の距離関数の役割を果たす。 The parameterization unit 23 embeds the distance field projected on the standard coordinate system in the feature vector. FIG. 4 is a diagram showing a neural network used in the parameterization unit 23 of the embodiment of the present invention. The parameterization unit 23 embeds the distance field projected on the standard coordinate system into a fixed-length feature vector using the neural network shown in FIG. This neural network takes the coordinate values of the spatial sample points in the standard coordinate system as inputs and outputs the values of the corresponding nearest neighbor distances, and plays the role of the distance function of the object.

通常のニューラルネットワークでは、1つの物体に対して大量の重みパターンの可能性が存在するが、本実施の形態のパラメータ化部23は、1つの物体に対して1つの重みパターンが生成されるように、事前に決定した乱数基底Wを用いるエクストリームラーニングマシーン(ELM)を採用する。パラメータ化部23は、このELMの重みβ~βを点群の特徴ベクトルとして出力する。 In a normal neural network, there is a possibility of a large number of weight patterns for one object, but the parameterization unit 23 of the present embodiment is such that one weight pattern is generated for one object. An extreme learning machine (ELM) using a predetermined random number basis W is adopted. The parameterization unit 23 outputs the weights β 1 to β K of this ELM as a feature vector of the point cloud.

ここで、ELMは、フィードフォワードニューラルネットワークであり、その重みWはランダムに設定される。いま、入力をXとし、ターゲットをtとして、この入力XをK次元の特徴空間にマッピングして、下式(6)によって出力Hを得る。

Figure 0007034746000006
ここで、関数fは、非線形の活性化関数であり、wは、第i次元に対応する重みであり、bは任意のバイアスである。 Here, ELM is a feedforward neural network, and its weight W is randomly set. Now, with X as the input and t as the target, this input X is mapped to the K-dimensional feature space, and the output H is obtained by the following equation (6).
Figure 0007034746000006
Here, the function f is a non-linear activation function, wi is a weight corresponding to the i -th dimension, and b is an arbitrary bias.

このニューラルネットワークのパラメータを取得して、このニューラルネットワークの出力がターゲットtとなるように、t=Hβを満たす重みβを見つける必要がある。この重みβは、単純にHの疑似逆行列を見つけることで得ることも可能であるが、下式(7)を解くことでより頑健に重みβを求めることができる。 It is necessary to acquire the parameters of this neural network and find the weight β that satisfies t = Hβ so that the output of this neural network becomes the target t. This weight β can be obtained by simply finding the pseudo-inverse matrix of H, but the weight β can be obtained more robustly by solving the following equation (7).

Figure 0007034746000007
ここで、cは、Hの対角成分に加えられる制約ないし拘束である。ELMの基底は任意の値に固定されているので、それらに対応する重みは唯一に決定される。よって、ELMのこの特性を利用することで、与えられた点群に対して唯一の重みのセットβ~βを得ることができる。
Figure 0007034746000007
Here, c is a constraint or constraint applied to the diagonal component of H. Since the bases of ELM are fixed to arbitrary values, the corresponding weights are uniquely determined. Therefore, by utilizing this property of ELM, it is possible to obtain the only set of weights β 1 to β K for a given point cloud.

パラメータ化部23は、標準座標系での距離場の情報を埋め込むために、標準座標系に投影された空間サンプル点Sの座標を入力として用い、それを距離関数Φ(S)のもとの出力に戻す。Vの1~3列目を転置させたVの第1列をVと表記すると、このVは、空間サンプル点Sの座標を標準座標系に変換するものである。 The parameterization unit 23 uses the coordinates of the spatial sample point S projected on the standard coordinate system as an input in order to embed the information of the distance field in the standard coordinate system, and uses it as the input under the distance function Φ (S). Return to output. When the first column of V obtained by transposing the first to third columns of V * is expressed as VS, this VS converts the coordinates of the spatial sample point S into a standard coordinate system.

そこで、パラメータ化部23は、下式(8)によって、4次元の標準座標系に投影された空間サンプリング点Sの要素である座標値Lを取得する。

Figure 0007034746000008
すなわち、パラメータ化部23は、空間サンプル点Sの座標を、Vの1~3列目を転置させたVに適用して、4次元の標準座標系における座標値Lを取得する。 Therefore, the parameterization unit 23 acquires the coordinate value L, which is an element of the spatial sampling point S projected on the four-dimensional standard coordinate system, by the following equation (8).
Figure 0007034746000008
That is, the parameterization unit 23 applies the coordinates of the spatial sample point S to V in which the first to third columns of V * are transposed, and acquires the coordinate value L in the four-dimensional standard coordinate system.

パラメータ化部23は、入力を空間サンプル点Sの座標の標準座標系での値Lとし、出力を対応する距離φ(S)として、標準座標系での距離場の情報を埋め込むように、ELMを訓練する。 The parameterization unit 23 sets the input as the value L of the coordinates of the spatial sample point S in the standard coordinate system, and sets the output as the corresponding distance φ (S) so as to embed the information of the distance field in the standard coordinate system. To train.

本実施の形態では、さらに活性化関数にReLU(Rectified Liner Unit、非特許文献4を参照)を利用して、下式(9)に示すようにバイアスbを取り除くことで、物体のスケール不変性も実現する。

Figure 0007034746000009
In the present embodiment, ReLU (Rectified Liner Unit, see Non-Patent Document 4) is further used as an activation function to remove the bias b as shown in the following equation (9), thereby invariing the scale of the object. Will also be realized.
Figure 0007034746000009

ここで、wは、乱数基底であり、Kは、基底数であり、fは活性化関数(ReLU)である。また、Linは、

Figure 0007034746000010
であり、その最終行は入力Lにおけるすべての値の標準偏差によって拡大縮小されたバイアスである。 Here, wi is a random number basis, K is a basis number, and f is an activation function (ReLU). In addition, Lin is
Figure 0007034746000010
And its last line is the bias scaled by the standard deviation of all values at the input L.

すなわち、ReLUは負の値以外をそのまま返す活性化関数であるため、バイアスbを取り除くことで、式(9)において、入力のスケール要素がそのまま出力に反映される。このとき、内部の重みは変わらないので、式(9)によってスケール不変性が実現できる。 That is, since ReLU is an activation function that returns a value other than a negative value as it is, by removing the bias b, the scale element of the input is directly reflected in the output in the equation (9). At this time, since the internal weight does not change, scale invariance can be realized by the equation (9).

パラメータ化部23は、φ(s)=Hβを満足する重みβを下式(10)で求める。

Figure 0007034746000011
パラメータ化部23は、このようにして得られ得た重みβを、もとの点群の特徴ベクトルとして出力する。 The parameterization unit 23 obtains the weight β satisfying φ (s) = Hβ by the following equation (10).
Figure 0007034746000011
The parameterization unit 23 outputs the weight β thus obtained as a feature vector of the original point cloud.

上記から明らかなように、特徴表現装置20は、3次元点群データを距離場に変換して得られる情報を用いてELMを訓練し、その訓練によって得られたELMの重みβを、点群データ取得装置10にて取得された3次元点群データの特徴ベクトルとして出力するものである。よって、特徴表現装置20は、特徴ベクトルに変換すべき3次元点群データが点群データ取得装置10で得られるたびにELMの訓練を行うものである。 As is clear from the above, the feature expression device 20 trains the ELM using the information obtained by converting the three-dimensional point cloud data into a distance field, and the weight β of the ELM obtained by the training is used as the point cloud. It is output as a feature vector of the three-dimensional point cloud data acquired by the data acquisition device 10. Therefore, the feature expression device 20 trains the ELM every time the point cloud data acquisition device 10 obtains the three-dimensional point cloud data to be converted into the feature vector.

識別装置30は、特徴表現装置20から出力される特徴ベクトルを用いて学習を行い、あるいは識別処理を行う。本実施の形態の認識システム100では、従来法とは異なり、特徴表現装置20において、1物体につき1表現で表され、かつ、コンパクトな特徴ベクトルが生成されるので、識別装置30としては、ディープニューラルネットワーク等の複雑な識別処理は不要となり、総数の少ない従来のニューラルネットワークで十分に3次元点群データの識別が可能である。また、特徴表現装置20では、ELMの重みを特徴ベクトルとして生成するので、点群データの点数に関わらず固定長の特徴ベクトルを得ることができる。 The identification device 30 performs learning or identification processing using the feature vector output from the feature expression device 20. In the recognition system 100 of the present embodiment, unlike the conventional method, the feature expression device 20 is represented by one expression for each object and a compact feature vector is generated. Therefore, the identification device 30 is deep. Complicated identification processing such as a neural network becomes unnecessary, and a conventional neural network with a small total number can sufficiently identify three-dimensional point cloud data. Further, since the feature expression device 20 generates the ELM weight as a feature vector, a feature vector having a fixed length can be obtained regardless of the number of points in the point cloud data.

なお、特徴表現装置20は、情報処理装置によって構成することができ、特徴量減装置20の構成要素である距離場変換部21、正準投影部22、及びパラメータ化部23は、ハードウェアと協働するソフトウェアによって実現してもよいし、ハードウェア回路で構成されてもよい。また、識別装置30もハードウェアと協働するソフトウェアによって実現してもよいし、ハードウェア回路で構成されてもよく、特徴表現装置20を構成する情報処理装置と一体的に構成されてもよい。ソフトウェアは、情報処理装置にて実行される情報処理プログラムによって提供されてよい。 The feature expression device 20 can be configured by an information processing device, and the distance field conversion unit 21, the canonical projection unit 22, and the parameterization unit 23, which are the components of the feature amount reduction device 20, are hardware. It may be realized by collaborative software, or it may be configured by a hardware circuit. Further, the identification device 30 may be realized by software that cooperates with hardware, may be configured by a hardware circuit, or may be integrally configured with an information processing device that constitutes the feature expression device 20. .. The software may be provided by an information processing program executed by the information processing apparatus.

また、上記の実施の形態では、特徴表現装置20において得られた3次元点群データの特徴ベクトルを用いて、識別装置30により3次元点群データで表現される物体の認識を行う認識システムを説明したが、特徴表現装置20は認識システム以外にも応用が可能である。すなわち、特徴表現装置20で得られる特徴ベクトルの用途は認識処理に限られない。 Further, in the above embodiment, a recognition system for recognizing an object represented by the three-dimensional point cloud data by the identification device 30 by using the feature vector of the three-dimensional point cloud data obtained by the feature expression device 20 is provided. As described above, the feature expression device 20 can be applied to other than the recognition system. That is, the use of the feature vector obtained by the feature expression device 20 is not limited to the recognition process.

3次元点群データに限られない、4次元ないしそれ以上の多次元データの集合であっても、上記の実施の形態と同様にして距離場に変換して、ELMの訓練を行うことで得られた重みを特徴ベクトルとすることは有効である。この意味で、本実施の形態の「点」は、2次元や3次元で表現される点のみならず、4次元以上で表現される情報を含むものである。 Even a set of four-dimensional or more multidimensional data, which is not limited to three-dimensional point cloud data, can be obtained by converting it into a distance field in the same manner as in the above embodiment and performing ELM training. It is effective to use the given weight as a feature vector. In this sense, the "point" of the present embodiment includes not only points represented in two dimensions or three dimensions but also information represented in four or more dimensions.

本発明は、認識や学習の負荷が小さい形式で多次元点群データを特徴表現でき、多次元データの集合を特徴表現する特徴表現装置等として有用である。 INDUSTRIAL APPLICABILITY The present invention can feature-express multidimensional point cloud data in a format with a small load of recognition and learning, and is useful as a feature expression device or the like that features-expresses a set of multidimensional data.

10 点群データ取得装置
20 特徴表現装置
21 距離場変換部
22 正準投影部
23 パラメータ化部
30 識別装置
100 認識システム
10 point cloud data acquisition device 20 feature expression device 21 distance field conversion unit 22 canonical projection unit 23 parameterization unit 30 identification device 100 recognition system

Claims (6)

多次元の点の集合からなる多次元点群データを特徴表現する特徴表現装置であって、
前記点の集合を、前記点の集合の周辺に設定されたサンプル点の座標、及び前記サンプル点から前記点の集合のうちの前記サンプル点に点までの距離である最近傍距離を示す距離場に変換する距離場変換部と、
前記サンプル点の座標と前記最近傍距離からなる行列の特異値分解をして前記行列の標準座標系への変換を取得する正準投影部と、
前記標準座標系に変換された前記サンプル点の座標を入力とし、前記最近傍距離を出力とするエクストリームラーニングマシーンを訓練して、その重みを前記点の集合の特徴ベクトルとして出力するパラメータ化部と、
を備えた、特徴表現装置。
It is a feature expression device that features and expresses multidimensional point cloud data consisting of a set of multidimensional points.
The nearest distance, which is the coordinates of the sample points set around the set of points and the distance from the sample points to the point closest to the sample point in the set of points. A distance field converter that converts to a distance field that indicates
A canonical projection unit that obtains a transformation of the matrix into a standard coordinate system by performing a singular value decomposition of the matrix consisting of the coordinates of the sample points and the nearest proximity distance.
With a parameterization unit that trains an extreme learning machine that inputs the coordinates of the sample points converted to the standard coordinate system and outputs the nearest neighbor distance, and outputs the weights as a feature vector of the set of points. ,
A feature expression device equipped with.
前記エクストリームラーニングマシーンは、活性化関数としてReLUを用いる、請求項1に記載の特徴表現装置。 The feature expression device according to claim 1, wherein the extreme learning machine uses ReLU as an activation function. 前記多次元の点の集合は、物体の表面の点の集合として取得された3次元点群である、請求項1又は2に記載の特徴表現装置。 The feature expression device according to claim 1 or 2, wherein the multidimensional point set is a three-dimensional point cloud acquired as a set of points on the surface of an object. 請求項1に記載の特徴表現装置と、
前記特徴ベクトルを用いて認識を行う認識装置と、
を備えた認識システム。
The feature expression device according to claim 1 and
A recognition device that performs recognition using the feature vector, and
A recognition system equipped with.
物体を撮影することによって、前記物体の3次元点群データを取得する点群データ取得装置をさらに備え、
前記特徴表現装置は、前記点群データ取得装置にて取得された前記3次元点群データを前記多次元点群データとして、特徴表現をする、請求項4に記載の認識システム。
A point cloud data acquisition device for acquiring three-dimensional point cloud data of the object by photographing the object is further provided.
The recognition system according to claim 4, wherein the feature expression device expresses a feature using the three-dimensional point cloud data acquired by the point cloud data acquisition device as the multidimensional point cloud data.
情報処理装置にて実行されることで、前記情報処理装置を、多次元の点の集合からなる多次元点群データを特徴表現する特徴表現装置であって、
前記点の集合を、前記点の集合の周辺に設定されたサンプル点の座標、及び前記サンプル点から前記点の集合のうちの前記サンプル点に点までの距離である最近傍距離を示す距離場に変換する距離場変換部と、
前記サンプル点の座標と前記最近傍距離からなる行列の特異値分解をして前記行列の標準座標系への変換を取得する正準投影部と、
前記標準座標系に変換された前記サンプル点の座標を入力とし、前記最近傍距離を出力とするエクストリームラーニングマシーンを訓練して、その重みを前記点の集合の特徴ベクトルとして出力するパラメータ化部と、
を備えた、特徴表現装置として機能させる特徴表現プログラム。
The information processing device is a feature expression device that features and expresses multidimensional point cloud data composed of a set of multidimensional points by being executed by the information processing device.
The nearest distance, which is the coordinates of the sample points set around the set of points and the distance from the sample points to the point closest to the sample point in the set of points. A distance field converter that converts to a distance field that indicates
A canonical projection unit that obtains a transformation of the matrix into a standard coordinate system by performing a singular value decomposition of the matrix consisting of the coordinates of the sample points and the nearest proximity distance.
With a parameterization unit that trains an extreme learning machine that inputs the coordinates of the sample points converted to the standard coordinate system and outputs the nearest neighbor distance, and outputs the weights as a feature vector of the set of points. ,
A feature expression program that functions as a feature expression device.
JP2018016980A 2018-02-02 2018-02-02 Feature expression device, recognition system including it, and feature expression program Active JP7034746B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2018016980A JP7034746B2 (en) 2018-02-02 2018-02-02 Feature expression device, recognition system including it, and feature expression program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018016980A JP7034746B2 (en) 2018-02-02 2018-02-02 Feature expression device, recognition system including it, and feature expression program

Publications (2)

Publication Number Publication Date
JP2019133545A JP2019133545A (en) 2019-08-08
JP7034746B2 true JP7034746B2 (en) 2022-03-14

Family

ID=67545045

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018016980A Active JP7034746B2 (en) 2018-02-02 2018-02-02 Feature expression device, recognition system including it, and feature expression program

Country Status (1)

Country Link
JP (1) JP7034746B2 (en)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6819758B1 (en) * 2019-09-30 2021-01-27 ダイキン工業株式会社 Point cloud data identity estimation device and point cloud data identity estimation system
CN111738245B (en) * 2020-08-27 2020-11-20 创新奇智(北京)科技有限公司 Commodity identification management method, commodity identification management device, server and readable storage medium
CN113029559B (en) * 2021-03-30 2022-03-18 山东大学 Gear box fault diagnosis method and system

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005250596A (en) 2004-03-01 2005-09-15 Fuji Xerox Co Ltd Image processing method, image processing device, image processing program, and storage medium
JP2016523394A (en) 2013-07-01 2016-08-08 三菱電機株式会社 Fitting a primitive shape to a set of 3D points

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005250596A (en) 2004-03-01 2005-09-15 Fuji Xerox Co Ltd Image processing method, image processing device, image processing program, and storage medium
JP2016523394A (en) 2013-07-01 2016-08-08 三菱電機株式会社 Fitting a primitive shape to a set of 3D points

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
立間 淳司 他,多重フーリエスペクトル表現に基づく三次元モデルの形状類似検索,電子情報通信学会論文誌 (J91-D) 第1号,日本,社団法人電子情報通信学会,2008年01月01日,23~36
長谷川 誠,距離場と3次元ラドン変換を用いたサーフェスモデルレジストレーションの提案,電子情報通信学会技術研究報告,日本,社団法人電子情報通信学会,2009年09月17日,Vol.109 No.203,83~88

Also Published As

Publication number Publication date
JP2019133545A (en) 2019-08-08

Similar Documents

Publication Publication Date Title
CN111161349B (en) Object posture estimation method, device and equipment
CN112233097B (en) Road scene other vehicle detection system and method based on space-time domain multi-dimensional fusion
CN113673425B (en) Multi-view target detection method and system based on Transformer
JP7034746B2 (en) Feature expression device, recognition system including it, and feature expression program
JP2019008571A (en) Object recognition device, object recognition method, program, and trained model
JP7217741B2 (en) Arithmetic processor, object identification system, object identification method, automobile, vehicle lamp
WO2020066662A1 (en) Shape supplementation device, shape supplementation learning device, method, and program
CN112651316B (en) Two-dimensional and three-dimensional multi-person attitude estimation system and method
US20190095749A1 (en) Template creation apparatus, object recognition processing apparatus, template creation method, and program
US20200377108A1 (en) Neural network device and method using a neural network for sensor fusion
CN113313703A (en) Unmanned aerial vehicle power transmission line inspection method based on deep learning image recognition
RU2745010C1 (en) Methods for reconstruction of depth map and electronic computer device for their implementation
JP2005346297A (en) Three-dimensional object recognition device
CN115457492A (en) Target detection method and device, computer equipment and storage medium
Lechgar et al. Detection of cities vehicle fleet using YOLO V2 and aerial images
Rövid et al. Towards raw sensor fusion in 3D object detection
JP5704909B2 (en) Attention area detection method, attention area detection apparatus, and program
CN113723294B (en) Data processing method and device and object recognition method and device
KR102025113B1 (en) Method for generating an image using a lidar and device for the same
CN110546687A (en) Image processing device and two-dimensional image generation program
CN114595738A (en) Method for generating training data for recognition model and method for generating recognition model
WO2015068417A1 (en) Image collation system, image collation method, and program
CN115359248A (en) Robot navigation obstacle avoidance method and system based on meta-learning
CN115018910A (en) Method and device for detecting target in point cloud data and computer readable storage medium
CN111461130B (en) High-precision image semantic segmentation algorithm model and segmentation method

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200612

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20210720

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210803

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210908

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220222

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220302

R150 Certificate of patent or registration of utility model

Ref document number: 7034746

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150