JP7096034B2 - Building extraction system - Google Patents
Building extraction system Download PDFInfo
- Publication number
- JP7096034B2 JP7096034B2 JP2018062646A JP2018062646A JP7096034B2 JP 7096034 B2 JP7096034 B2 JP 7096034B2 JP 2018062646 A JP2018062646 A JP 2018062646A JP 2018062646 A JP2018062646 A JP 2018062646A JP 7096034 B2 JP7096034 B2 JP 7096034B2
- Authority
- JP
- Japan
- Prior art keywords
- building
- detector
- learning
- range
- scale
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Image Analysis (AREA)
Description
本発明は建築物抽出システムに関する。 The present invention relates to a building extraction system.
航空写真や衛星画像など、上空から取得した画像等のデータから建物を抽出する技術が研究されている。特許文献1には、航空写真等の画像上にて作業者が抽出したい建物を含む作業領域を指定し、当該作業領域にて建物の輪郭を自動的に抽出するシステムが開示されており、また下記特許文献2には、上空からレーザスキャナなどを用いて取得したDSM(Digital Surface Model:数値表層モデル)を使用して建物の輪郭を抽出する装置が開示されている。
Techniques for extracting buildings from data such as images acquired from the sky, such as aerial photographs and satellite images, are being researched.
特許文献3には、歩行者を認識するための物体検出装置において、3つのスケールを有するアンサンブル検出器が開示されており、スケールにより検出するべき歩行者の画像のサイズが異なることが開示されている。
発明者らは、例えば、建物の異動(新築や取り壊し)を検出する作業負荷を軽減するために、畳み込みニューラルネットワークを利用して建物を抽出する手法を開発している。畳み込みニューラルネットワークを用いて建物を抽出する場合、建物の抽出における見落としを抑制することが困難であった。 The inventors are developing a method of extracting a building using a convolutional neural network, for example, in order to reduce the workload of detecting a change (new construction or demolition) of a building. When extracting a building using a convolutional neural network, it was difficult to suppress oversight in the extraction of the building.
本発明は上記課題を鑑みてなされたものであって、その目的は、建物の抽出における見落としを抑制することが可能な建築物抽出システムを提供することにある。 The present invention has been made in view of the above problems, and an object of the present invention is to provide a building extraction system capable of suppressing oversight in the extraction of buildings.
(1)面積が第1の範囲に属する複数の建物について、第1の縮尺を有する第1の学習用入力画像と、前記第1の学習用入力画像に含まれる前記複数の建物の形状を示す情報の教師データとを用いて学習された第1の建物検出器と、面積が前記第1の範囲と異なる第2の範囲に属する複数の建物について、第2の縮尺を有する第2の学習用入力画像と、前記第2の学習用入力画像に含まれる複数の建物の形状を示す情報を含む教師データとを用いて学習させた第2の建物検出器と、地表上の学習対象領域が上空から撮影された第1の入力画像の特徴情報を前記第1の建物検出器に入力し、前記第1の入力画像が前記第1の縮尺と前記第2の縮尺との比に応じて拡大または縮小された第2の入力画像の特徴情報を前記第2の建物検出器に入力する入力部と、前記第1の入力画像の特徴情報に対する前記第1の建物検出器の出力と、前記第2の入力画像の特徴情報に対する第2の建物検出器の出力とを統合する統合部と、を含む建築物抽出システム。 (1) For a plurality of buildings whose areas belong to the first range, the first learning input image having the first scale and the shapes of the plurality of buildings included in the first learning input image are shown. A second learning device having a second scale for a first building detector learned using informational teacher data and a plurality of buildings belonging to a second range whose area is different from the first range. A second building detector trained using the input image and teacher data including information indicating the shapes of a plurality of buildings included in the second learning input image, and a learning target area on the ground surface are in the sky. The feature information of the first input image taken from the above is input to the first building detector, and the first input image is enlarged or enlarged according to the ratio of the first scale to the second scale. An input unit that inputs the feature information of the reduced second input image to the second building detector, an output of the first building detector with respect to the feature information of the first input image, and the second. A building extraction system that includes an integrated unit that integrates the output of a second building detector with respect to the feature information of the input image of.
(2)(1)において、前記第2の縮尺は、前記第1の縮尺と異なる、建築物抽出システム。 (2) In (1), the second scale is a building extraction system different from the first scale.
(3)(2)において、前記第1の範囲の最大値は、前記第2の範囲の最大値より大きく、
前記第1の縮尺は、前記第2の縮尺より小さい、建築物抽出システム。
(3) In (2), the maximum value of the first range is larger than the maximum value of the second range.
The first scale is a building extraction system smaller than the second scale.
(4)(1)から(3)のいずれかにおいて、前記第1の建物検出器の出力に含まれる建物、および、前記第2の建物検出器の出力に含まれる建物を面積に基づいて除去するフィルタをさらに含む、建築物抽出システム。 (4) In any of (1) to (3), the building included in the output of the first building detector and the building included in the output of the second building detector are removed based on the area. A building extraction system that further includes filters to do.
(5)(1)から(4)のいずれかにおいて、前記統合部は、前記第1の入力画像の特徴情報に対する前記第1の建物検出器の出力と、前記第2の入力画像の特徴情報に対する第2の建物検出器の出力との縮尺が一致するように、前記2つの出力のうち少なくとも一方を拡大または縮小する処理を実行し、前記処理が実行された前記2つの出力を重畳させる、建築物抽出システム。 (5) In any of (1) to (4), the integrated unit has the output of the first building detector with respect to the feature information of the first input image and the feature information of the second input image. A process of enlarging or reducing at least one of the two outputs is executed so that the scale of the output of the second building detector and the output of the second building detector are the same, and the two outputs for which the process is executed are superimposed. Building extraction system.
(6)(1)から(5)のいずれかにおいて、前記第1の範囲および前記第2の範囲のうちいずれかに属する複数の建物について、第1の候補縮尺を有する第3の学習用入力画像と、前記第3の学習用入力画像に含まれる前記複数の建物の形状を示す情報の教師データとを用いて学習された第1の候補検出器と、第2の候補縮尺を有する第4の学習用入力画像と、前記第4の学習用入力画像に含まれる前記複数の建物の形状を示す情報の教師データとを用いて学習された第2の候補検出器とのそれぞれの、建物の形状の検出精度を評価する評価部と、前記評価部により評価された検出精度に基づいて、前記第1の候補検出器および前記第2の候補検出器のうち一つを、前記第1の建物検出器および前記第2の建物検出器のうちいずれかとして選択する検出器選択部と、をさらに含む、建築物抽出システム。 (6) In any of (1) to (5), a third learning input having a first candidate scale for a plurality of buildings belonging to any one of the first range and the second range. A first candidate detector trained using the image and teacher data of information indicating the shape of the plurality of buildings included in the third learning input image, and a fourth having a second candidate scale. Of the building, the second candidate detector learned using the learning input image of the above and the teacher data of the information indicating the shapes of the plurality of buildings included in the fourth learning input image. Based on the evaluation unit that evaluates the shape detection accuracy and the detection accuracy evaluated by the evaluation unit, one of the first candidate detector and the second candidate detector is used in the first building. A building extraction system further comprising a detector and a detector selection unit for selection as any of the second building detectors.
(7)(1)から(6)のいずれかにおいて、前記統合部は、前記入力された入力画像の特徴情報に対する、前記第1の建物検出器の出力と前記第2の建物検出器の出力とのいずれかにおいて建物と認識された領域を、建物のある領域と判定する、建築物抽出システム。 (7) In any of (1) to (6), the integrated unit outputs the output of the first building detector and the output of the second building detector with respect to the feature information of the input input image. A building extraction system that determines an area recognized as a building in any of the above to be an area with a building.
以下では、本発明の実施形態について図面に基づいて説明する。出現する構成要素のうち同一機能を有するものには同じ符号を付し、その説明を省略する。 Hereinafter, embodiments of the present invention will be described with reference to the drawings. Among the components that appear, those having the same function are designated by the same reference numerals, and the description thereof will be omitted.
本実施形態にかかる建築物抽出システムでは、ニューラルネットワークを用いた学習済みモデルである建物検出器に、建物を抽出する処理の対象領域とする地表を撮影した航空写真や衛星画像等(航空写真や衛星画像に基づくオルソ画像であってよく、以下では「処理対象画像」と表記する)の特徴情報を入力し、建物検出器から出力された画像に基づいて建物領域を判定・抽出する。建築物抽出システムは、処理対象画像から建物を識別する際には、3つの建物検出器を用いる。また、3つの建物検出器は、それぞれ、面積がS,M,Lの範囲に属する建物をより高精度に検出するように構成されている。例えば、面積の範囲Sは45m2未満であり、面積の範囲Mは、45m2以上131m2未満であり、面積の範囲Lは131m2以上である。おおむね、面積の範囲Lに属する建物はマンションや大型商業施設に対応し、面積の範囲Mはアパートや小売店に対応し、面積の範囲Sは一般家屋に対応する。 In the building extraction system according to the present embodiment, an aerial photograph, a satellite image, or the like (aerial photograph or satellite image) obtained by taking a ground surface as a target area of the processing for extracting a building is applied to a building detector which is a trained model using a neural network. It may be an ortho image based on a satellite image, and is referred to as a “processed image” below), and the building area is determined and extracted based on the image output from the building detector. The building extraction system uses three building detectors when identifying a building from the image to be processed. Further, each of the three building detectors is configured to detect buildings having an area in the range of S, M, and L with higher accuracy. For example, the area range S is less than 45 m 2 , the area range M is 45 m 2 or more and less than 131 m 2 , and the area range L is 131 m 2 or more. Generally, the buildings belonging to the area range L correspond to condominiums and large commercial facilities, the area range M corresponds to apartments and retail stores, and the area range S corresponds to general houses.
また、本実施形態にかかる建築物抽出システムでは、面積の範囲S,M,Lのそれぞれについて、ニューラルネットワークの種類や、入力される学習用画像のスケール(縮尺)が互いに異なる複数の建物検出器に対して学習が行われ、面積の範囲S,M,Lのそれぞれについて、複数の建物検出器から最も良い建物検出器が選択され、選択された建物検出器が、処理対象データからの建物領域の検出に用いられる。 Further, in the building extraction system according to the present embodiment, there are a plurality of building detectors having different types of neural networks and scales (scales) of input learning images for each of the area ranges S, M, and L. The best building detector is selected from a plurality of building detectors for each of the area ranges S, M, and L, and the selected building detector is the building area from the data to be processed. Is used to detect.
図1は、本発明の実施形態にかかる建築物抽出システムのハードウェア構成を示す図である。建築物抽出システムは、学習サーバ1を含む。学習サーバ1は、サーバコンピュータであり、プロセッサ11、記憶部12、通信部13、入出力部14を含む。
FIG. 1 is a diagram showing a hardware configuration of a building extraction system according to an embodiment of the present invention. The building extraction system includes a
プロセッサ11は、記憶部12に格納されているプログラムに従って動作する。またプロセッサ11は通信部13を制御し、入出力部14に接続されたデバイスを制御する。ここでは、プロセッサ11は、いわゆるCPU(Central Processing Unit)や、並列計算機として用いられるGPU(Graphics Processing Unit)を含んでよい。なお、上記プログラムは、インターネット等を介して提供されるものであってもよいし、フラッシュメモリやDVD-ROM等のコンピュータで読み取り可能な記憶媒体に格納されて提供されるものであってもよい。
The
記憶部12は、RAMやフラッシュメモリ等のメモリ素子やハードディスクドライブによって構成されている。記憶部12は、上記プログラムを格納する。また、記憶部12は、各部から入力される情報や演算結果を格納する。
The
通信部13は、他の装置と通信する機能を実現するものであり、例えば有線LANの集積回路などにより構成されている。通信部13は、それぞれプロセッサ11の制御に基づいて、他の装置との間で情報を送受信する。また通信部13は、受信された情報をプロセッサ11や記憶部12に入力する。通信部13は、例えばLANにより他の機器と接続されている。
The
入出力部14は、表示出力デバイスをコントロールするビデオコントローラや、入力デバイスからのデータを取得するコントローラなどにより構成される。入力デバイスとしては、キーボード、マウス、タッチパネルなどがある。入出力部14は、プロセッサ11の制御に基づいて、表示出力デバイスに表示データを出力し、入力デバイスをユーザが操作することにより入力されるデータを取得する。表示出力デバイスは例えば外部に接続されるディスプレイ装置である。
The input /
次に、建築物抽出システムの機能の概要について説明する。図2は、建築物抽出システムの機能構成を示すブロック図である。建築物抽出システムは、機能的に、学習データ取得部51と、学習実行部52と、学習検出器セット53と、評価データ取得部56と、評価実行部57と、検出器選択部58と、実行検出器セット61と、対象データ入力部65と、出力取得部66と、フィルタ部67と、統合部68と、画像出力部69とを含む。これらの機能は、主に、プロセッサ11が記憶部12に格納されたプログラムを実行し、記憶部12に格納されるデータにアクセスすることで実現される。これらの全ての機能が、学習サーバ1により実行されてもよいし、その一部の機能が他のサーバで実行されてもよい。例えば、対象データ入力部65、実行検出器セット61、出力取得部66、フィルタ部67、統合部68、画像出力部69の機能が、プロセッサ11、記憶部12、通信部13、入出力部14を有する他のサーバにより実現されてもよい。
Next, the outline of the function of the building extraction system will be described. FIG. 2 is a block diagram showing a functional configuration of a building extraction system. The building extraction system functionally includes a learning
学習検出器セット53は、複数の学習検出器54を有する。本実施形態では、学習検出器54の数は6であり、学習検出器54のそれぞれは、面積の範囲S,M,Lに関わらず共通の学習がなされる共通部540と、それぞれ面積の範囲S,M,Lに応じた学習がなされる個別部541,542,543とを有する。学習検出器54のそれぞれは、互いに異なる、ニューラルネットワークの種類と入力される学習用画像のスケールの組み合わせについて学習がなされる。
The learning detector set 53 has a plurality of learning
学習データ取得部51は、学習用入力画像と、その学習用入力画像に含まれる建物の形状を示す教師データとを取得する。学習実行部52は、学習用入力画像と教師データとを用いて学習検出器54を学習させる。
The learning
評価データ取得部56は、評価用入力画像と、その評価用入力画像に含まれる建物の形状を示す正解データとを取得する。評価用入力画像および正解データは、学習用入力画像および教師データと同じであってもよい。評価実行部57は、評価用入力画像と正解データとを用いて、学習検出器54のそれぞれについて、個別部541,542,543のそれぞれについて、その建物の形状の検出精度を評価する。
The evaluation
検出器選択部58は、評価実行部57により評価された検出精度に基づいて、面積の範囲S,M,Lのそれぞれについて、入力対象データに対する建物の検出を行う学習検出器54を選択する。選択された学習検出器54の少なくとも一部は、実行検出器セット61を構成する実行検出器62,63,64として使用される。より具体的には、面積の範囲Sについて選択された学習検出器54に含まれる共通部540および個別部541の組み合わせが、面積の範囲Sに対応する実行検出器62に含まれる、共通部620および個別部621となる。面積の範囲Mについて選択された学習検出器54に含まれる共通部540および個別部542の組み合わせが、面積の範囲Mに対応する実行検出器63に含まれる、共通部630および個別部631となる。面積の範囲Lについて選択された学習検出器54に含まれる共通部540および個別部543の組み合わせが、面積の範囲Lに対応する実行検出器64に含まれる、共通部640および個別部641となる。
The
対象データ入力部65は、入力対象画像を取得し、その入力対象画像を必要に応じ加工し、入力対象画像を実行検出器62,63,64に入力する。出力取得部66は、実行検出器62,63,64が出力する出力画像を取得する。
The target
フィルタ部67は、実行検出器62,63,64の出力画像に含まれる建物を、面積に基づいて除去し、フィルタされた出力画像を生成する。
The
統合部68は、フィルタされた、実行検出器62,63,64の出力画像を統合する。統合部68は、実行検出器62,63,64の出力画像のいずれかにおいて建物と認識された領域が、建物のある領域と判定された画像を生成する。
The
画像出力部69は、統合部68により統合された画像を記憶部12や表示出力デバイスへ出力する。
The
次に、学習検出器セット53およびそれに含まれる学習検出器54の詳細について説明する。図3は、学習検出器54の種類を説明する図である。図3に示される表の「No」は、6つの学習検出器54に振られた番号を示す。「スケール」はその番号の学習検出器54に投入される学習用入力画像のスケールを示し、はじめに用意される学習用入力画像をスケールに示される倍率で調整(必要に応じた拡大または縮小)され、スケールにかかわらず同じピクセル数を有するように切り出された学習用入力画像(以下では切り出された学習用入力画像を「窓画像」と記載する)が学習検出器54に入力される。「モデル種類」はその番号の学習検出器54の内部を構成するニューラルネットワークの種類を示す。「Pooling」はCNN(Convolutional Neural Network)の中でも畳み込み層とプーリング層とを組み合わせたモデル(以下では「プーリングモデル」と記載する)であることを示し、「Dilation」は拡張畳み込み演算を行う畳み込み層を用いるモデル(以下では「ダイレーションモデル」と記載する)であることを示す。
Next, the details of the learning detector set 53 and the learning
図4は、スケールの違いを説明する図である。図4(a)は、スケールが0.5倍の場合の窓画像の一例であり、図4(b)、図4(c)は、それぞれ、スケールが1倍、2倍の場合の窓画像の一例である。図4(a)~(c)に示される窓画像は、同じ領域を含んでいる。窓画像のピクセル数は、どれもPx×Pyである。PxおよびPyの値は、例えば32や64であってよい。スケールが0.5倍の場合の学習用入力画像は、スケールが1.0の場合の学習用入力画像を、縦横のドット数が1/2倍になるように縮小する(間引く)ことで得られ、スケールが2.0倍の場合の学習用入力画像は、スケールが1.0の場合の学習用入力画像を縦横のドット数が2倍になるように拡大する(ドット間に線形補間等によるドットを配置する)ことで得られる。この学習用入力画像の拡大または縮小は、学習データ取得部51により行われる。
FIG. 4 is a diagram illustrating the difference in scale. FIG. 4A is an example of a window image when the scale is 0.5 times, and FIGS. 4B and 4C are window images when the scale is 1x and 2x, respectively. This is an example. The window images shown in FIGS. 4A to 4C include the same area. The number of pixels of the window image is Px × Py. The values of Px and Py may be, for example, 32 or 64. The learning input image when the scale is 0.5 times is obtained by reducing (thinning) the learning input image when the scale is 1.0 so that the number of vertical and horizontal dots is halved. The learning input image when the scale is 2.0 times is enlarged so that the number of vertical and horizontal dots is doubled (linear interpolation between dots, etc.). It is obtained by arranging dots by). Enlarging or reducing the learning input image is performed by the learning
図5は、学習検出器54の構成の概要を示す図である。学習検出器54は、前述のように、共通部540と個別部541,542,543を有する。共通部540は複数の層を有し、また個別部541,542,543は、同じ数の層を有する。共通部540の1番目の層には調整された学習用入力画像が入力され、最後の層の出力である特徴情報は、個別部541,542,543のそれぞれの1番目の層に入力される。個別部541,542,543の出力は、例えば16×16ドットの画像であり、その各ドットはそのドットの位置における建物の存在確率を示す。
FIG. 5 is a diagram showing an outline of the configuration of the learning
図6は、プーリングモデルの学習検出器54に含まれる層を説明する図であり、図6には各層が、処理順に記載されている。所属の欄において、「共通」と記載される層は共通部540に存在し、「個別」と記載される層は個別部541,542,543に存在する。ここで、「個別」に記載される層は、個別部541,542,543のそれぞれに存在している。処理種類は、各層の種類を示しており、「input」は入力層、「convolution」は畳み込み層、「pooling(s2)」は、ストライド(カーネルの適用間隔)が2であるプーリング層を示している。カーネルサイズは、畳み込みフィルタのサイズを表すパラメータである。ここでは処理対象が画像であることに対応して、カーネルは2次元であり、カーネルサイズの値「k」は“k×k”フィルタであることを意味する。各層の「特徴マップ数」は、当該層にて抽出される特徴マップの数であり、チャネルともよばれる。なお、ストライドは特に記載のない限り1であり、層ごとの記載を省略している。
FIG. 6 is a diagram illustrating layers included in the learning
図7は、ダイレーションモデルの学習検出器に含まれる層を説明する図である。図7の記載も図6の記載に準じているが、ダイレーションモデルにおける「convolution」の層は拡張畳み込み層を示しており、その拡張畳み込み層の設定が拡張係数の欄に示されている。 FIG. 7 is a diagram illustrating layers included in the learning detector of the dilation model. The description of FIG. 7 is also based on the description of FIG. 6, but the layer of “convolution” in the dilation model indicates an extended convolution layer, and the setting of the expanded convolution layer is shown in the column of expansion coefficient.
拡張畳み込み演算についてさらに説明する。図8は、拡張畳み込み演算における層構造の一例を説明する図である。学習用入力画像などの入力画像は空間的に2次元のデータであるが、ここでは図示及び説明の簡素化のため、学習検出器54への入力データを1次元データに単純化して説明する。具体的には、図8にて一番下に位置する入力層にて水平方向に並ぶ複数の“○”印が入力データを構成する。“○”印で表す入力データの要素30は、入力画像における画素(又は画素値)に相当する。図8に示される畳み込み層はいわゆる特徴抽出層であり、特徴抽出層に続く層の記載を省略している。
The extended convolution operation will be further described. FIG. 8 is a diagram illustrating an example of a layer structure in the extended convolution operation. The input image such as the input image for learning is spatially two-dimensional data, but here, for the sake of simplification of illustration and explanation, the input data to the learning
図8に示されるニューラルネットワークは特徴抽出層として7層の畳み込み層を有し、各畳み込み層が拡張畳み込み演算を行う。入力層の上に位置する第1層の畳み込み層は拡張係数d=1の拡張畳み込み演算を行う。具体的には第1層にて“○”印で表す複数のユニット31それぞれにて畳み込み演算が行われ、各ユニット31は入力層の隣り合う2つの要素30の値に重みを乗じて足し合わせた値を出力する。 The neural network shown in FIG. 8 has seven convolution layers as feature extraction layers, and each convolution layer performs an extended convolution operation. The convolution layer of the first layer located above the input layer performs an expansion convolution operation with an expansion coefficient d = 1. Specifically, a convolution operation is performed on each of the plurality of units 31 represented by "○" in the first layer, and each unit 31 multiplies the values of two adjacent elements 30 of the input layer and adds them together. Output the value.
第2層の畳み込み層は拡張係数d=2の拡張畳み込み演算を行う。具体的には第2層にて“○”印で表す複数のユニット32それぞれにて畳み込み演算が行われ、各ユニット32は第1層にて1つ置きのユニット31の出力値に重みを乗じて足し合わせた値を出力する。 The second convolutional layer performs an extended convolution operation with an expansion coefficient d = 2. Specifically, a convolution operation is performed on each of the plurality of units 32 represented by "○" in the second layer, and each unit 32 multiplies the output value of every other unit 31 in the first layer by a weight. The added value is output.
また、第3層の畳み込み層は拡張係数d=3の拡張畳み込み演算を行い、第3層の“○”印で表す各ユニット33は第2層にて3つ置きのユニット32の出力値に重みを乗じて足し合わせた値を出力し、第4層の畳み込み層は拡張係数d=4の拡張畳み込み演算を行い、第4層の“○”印で表す各ユニット34は第3層にて7つ置きのユニット33の出力値に重みを乗じて足し合わせた値を出力する。第5層の各ユニット35は、d=3の拡張畳み込み演算を行い、また、第6層の各ユニット36、第7層の各ユニット37は、それぞれd=2,d=1の拡張畳み込み演算を行う。
Further, the convolution layer of the third layer performs an expansion convolution operation having an expansion coefficient d = 3, and each unit 33 represented by the “○” mark of the third layer is the output value of every three units 32 in the second layer. The value obtained by multiplying the weights and adding them is output, the convolutional layer of the 4th layer performs the extended convolution operation with the expansion coefficient d = 4, and each unit 34 represented by the “○” mark of the 4th layer is the 3rd layer. The output value of every seven units 33 is multiplied by a weight and added together to output the value. Each unit 35 of the fifth layer performs an extended convolution operation of d = 3, and each
ここで、図8に示す特徴抽出層の構造において、第1層~第4層からなる部分をフロントエンド部と称し、これに続く第5層~第7層からなる部分を局所特徴抽出部と称することにする。フロントエンド部は、入力層に続く複数の畳み込み層であり、フロントエンド部では、当該畳み込み層の並び順に従って拡張係数dが特徴抽出層における最大値まで増加する。一方、局所特徴抽出部は、フロントエンド部に続く複数の畳み込み層であり、局所特徴抽出部では当該畳み込み層の並び順に従って拡張係数が減少する。 Here, in the structure of the feature extraction layer shown in FIG. 8, the portion consisting of the first layer to the fourth layer is referred to as a front end portion, and the portion consisting of the subsequent fifth layer to the seventh layer is referred to as a local feature extraction portion. I will call it. The front end portion is a plurality of convolution layers following the input layer, and in the front end portion, the expansion coefficient d increases to the maximum value in the feature extraction layer according to the order of the convolution layers. On the other hand, the local feature extraction unit is a plurality of convolutional layers following the front end portion, and the expansion coefficient of the local feature extraction unit decreases according to the order of the convolutional layers.
図8は、第7層の或る1つのユニット37の出力に畳み込まれる第1層から第6層のユニット及び入力層の接続関係を線で例示している。拡張畳み込み演算では、拡張係数dに応じて指数関数的にカーネルの適用範囲が拡張される。例えば、図8のd=1~4の畳み込み演算のカーネルは、いずれも2つの入力を畳み込むフィルタ、つまりサイズが2のフィルタであるが、d=1のカーネルにより畳み込まれる2つの入力の1次元データの並びでの間隔は1であるのに対して、d=2のカーネルにより畳み込まれる2つの入力の間隔は2であり、またd=3では当該間隔は4、d=4では当該間隔は8となる。つまり、間隔は2d-1に設定されている。
FIG. 8 illustrates the connection relationship between the units of the first layer to the sixth layer and the input layer convoluted to the output of one
フロントエンド部におけるユニットおよび入力層の接続関係からわかるように、拡張畳み込み演算では、カーネルの適用範囲を拡張することで、少ない層数で受容野を広げることができる。そして、畳み込みだけで受容野を広げるので、一般的なCNNで用いるプーリング層が不要となり、プーリング層による解像度低下を回避できる。また、適用範囲を拡大する一方で、当該範囲内の要素を間引いて残った一部の要素しか畳み込まないことで、重みパラメータの増大が抑制される。 As can be seen from the connection relationship between the unit and the input layer in the front end part, in the extended convolution operation, the receptive field can be expanded with a small number of layers by expanding the applicable range of the kernel. Since the receptive field is expanded only by convolution, the pooling layer used in a general CNN becomes unnecessary, and the resolution deterioration due to the pooling layer can be avoided. Further, while expanding the applicable range, the increase of the weight parameter is suppressed by thinning out the elements within the range and convolving only a part of the remaining elements.
一方、フロントエンド部のように、順に拡張係数dが増加するように層を積み重ねる構造は、最上層における近傍ユニット間の相関が弱まるという問題や、入力データのローカルな特徴を拾いにくくなるという問題を有する。局所特徴抽出部はこの問題を解決するために設けられており、フロントエンド部と局所特徴抽出部とを組み合わせることで、第7層のあるユニットにおいて近傍ユニット間の相関が弱まるという問題や、第1層のユニット31a,31bが隣り合っているというローカルな情報を把握できないという問題が解決されている。
On the other hand, a structure in which layers are stacked so that the expansion coefficient d increases in order, such as the front end part, has a problem that the correlation between neighboring units in the uppermost layer is weakened and a problem that it is difficult to pick up local characteristics of input data. Have. The local feature extraction unit is provided to solve this problem, and by combining the front end unit and the local feature extraction unit, the problem that the correlation between neighboring units is weakened in a unit with the 7th layer, and the second The problem that the local information that the
言い換えると、フロントエンド部の後に局所特徴抽出部を設けた構成とすることで、フロントエンド部にて拡張畳み込み演算を積極的に利用し解像度を一切落とさずにコンテキストを得ると共に、局所特徴抽出部ではフロントエンド部により分散された局所特徴を集約する。これにより、コンテキストの情報と局所特徴の情報を有効活用でき、小さく密集したオブジェクトも認識可能となっている。 In other words, by providing a local feature extraction section after the front end section, the front end section actively uses the extended convolution operation to obtain context without reducing the resolution at all, and the local feature extraction section. Now, the local features distributed by the front end part are aggregated. As a result, contextual information and local feature information can be effectively utilized, and even small and dense objects can be recognized.
次に、これまでに説明した学習検出器54を、スケールに応じた学習用入力画像と、その学習用画像に含まれる建物の形状を示す教師データとを用いて学習させる処理の詳細について説明する。
Next, the details of the process of training the
図9は、学習検出器54を学習させる処理の一例を示すフロー図である。図9には、学習データ取得部51および学習実行部52の処理が記載されており、この処理により、学習検出器54が学習される。また、図9に示される処理は、学習検出器54ごとに繰り返し回数だけ行われる。
FIG. 9 is a flow chart showing an example of a process for learning the learning
学習データ取得部51は、記憶部12に格納された学習用画像を取得する(ステップS101)。学習用画像は、建物を抽出する処理の対象領域とする地表を撮影した航空写真や衛星画像等(航空写真や衛星画像に基づくオルソ画像であってよい)である。次に、学習データ取得部51は、学習用画像のサイズを、学習検出器54のスケールに合わせるように設定する(ステップS102)。例えば、学習検出器54のスケールが0.5倍であれば学習用画像を0.5倍に縮小し、スケールが2倍であれば学習用画像を2倍に拡大する。なお、ステップS102の処理をする代わりに、予めスケールの種類のそれぞれに対応した複数の学習用画像を準備しておき、学習データ取得部51が学習検出器54のスケールに対応する画像を読み込んでもよい。
The learning
そして、学習実行部52は、スケールに合わせるように設定された学習用画像から、学習検出器54に入力する窓画像を切出す(ステップS103)。窓画像は、Px×Pyのサイズであり、1つの学習用画像から、ランダムに位置を選択し、選択した位置をもとに学習用画像から窓画像が切り出す。
Then, the learning
学習実行部52は、学習用画像から切り出された窓画像を入力し、出力を教師データと比較することで学習検出器54を学習させる(ステップS104)。
The learning
図10は、窓画像のそれぞれに対する学習実行部52の処理の一例を示すフロー図であり、ステップS104の処理をさらに詳細に説明する図である。ステップS104では、はじめに、学習実行部52は、学習検出器54の共通部540へ、学習用画像から切り出された窓画像を入力する(ステップS121)。これにより、学習検出器54の共通部540が窓画像を処理し、さらに共通部540の出力を個別部541,542,543が処理する。そして、学習実行部52は、学習検出器54の個別部541,542,543のそれぞれの出力画像を取得する(ステップS122)。ここで、以下では、面積の範囲Sに対応する個別部541の出力画像を出力画像(S)、面積の範囲Mに対応する個別部542の出力画像を出力画像(M)、面積の範囲Lに対応する個別部543の出力画像を出力画像(L)と記載する。また、個別部541,542,543の出力画像をまとめて出力画像(S,M,L)と記載する。ここで、出力画像(S,M,L)の各ドットの値は、建物の領域の存在確率を示している。
FIG. 10 is a flow chart showing an example of the processing of the learning
次に、学習実行部52は、学習検出器54の出力画像(S,M,L)と、教師データとの誤差を算出する(ステップS123)。ここで、教師データは、学習用画像データに含まれる建物の形状を示す情報である。
Next, the learning
図11は、教師データの一例を示す図である。図11に示される教師データは、図4に示される窓画像を含む学習用画像に対応しているビットマップ画像である。図11に示される教師データは、面積が範囲Sに属する建物の領域(例えばA)と、範囲Mに属する建物の領域(例えばB)と、範囲Lに属する建物の領域(例えばC)とが区別されている。教師データは、例えば、建物のない領域のドットの値を0、面積が範囲S,M,Lの建物の領域のドットの値をそれぞれ1,2,3に設定された画像であってもよい。また、教師データは、面積が範囲Sに属する建物の領域のドットの値が1である画像と、面積が範囲Mに属する建物の領域のドットの値が1である画像と、面積が範囲Lに属する建物の領域のドットの値が1である画像との複数のレイヤーに相当する画像であってもよい。 FIG. 11 is a diagram showing an example of teacher data. The teacher data shown in FIG. 11 is a bitmap image corresponding to the learning image including the window image shown in FIG. In the teacher data shown in FIG. 11, the area of the building whose area belongs to the range S (for example, A), the area of the building belonging to the range M (for example, B), and the area of the building belonging to the range L (for example, C) are included. It is distinguished. The teacher data may be, for example, an image in which the dot value of the area without a building is set to 0 and the dot value of the area of the building having the areas S, M, and L is set to 1, 2, and 3, respectively. .. Further, the teacher data includes an image in which the dot value of the area of the building whose area belongs to the range S is 1, an image in which the dot value of the area of the building whose area belongs to the range M is 1, and the area L. It may be an image corresponding to a plurality of layers with an image in which the dot value of the area of the building belonging to is 1.
学習実行部52は、誤差の算出において、学習用画像の窓画像の中央の16×16ドットに相当する位置の画像を教師データから切り出し、そして、出力画像(S,M,L)のそれぞれと、教師データとを比較する。ここで、学習実行部52は、教師データのうち建物のない領域および範囲Sに属する建物の領域については出力画像(S)との誤差を算出するが、範囲M,Lに属する建物の領域については誤差を算出しない。同様に、学習実行部52は、範囲S,Lに属する建物の領域について出力画像(M)との誤差を算出せず、範囲S,Mに属する建物の領域について出力画像(L)との誤差を算出しない。これにより、個別部541,542,543のそれぞれが、面積の範囲S,M,Lの建物の検出に適するように学習が進む。
In the calculation of the error, the learning
次に、学習実行部52は、算出された誤差に基づいて、誤差逆伝播法(バックプロパゲーション)などにより、個別部541,542,543における重み等のパラメータの値を変更する(ステップS124)。また、学習実行部52は、個別部541,542,543のそれぞれの最上位の層から共通部の最下層に伝播させるべき誤差を積算し(ステップS125)、積算された誤差に基づいて、誤差逆伝播法などにより、共通部540における重み等のパラメータの値を変更する(ステップS126)。
Next, the learning
ステップS103およびステップS104(図9)に示される学習の処理は、ある学習用画像から学習に用いるすべての窓画像が取得されるまで繰り返される。この処理のセットは、すべての学習検出器54のそれぞれに対して繰り返し行われ、それにより、各学習検出器54が学習される。ここで、ステップS103の処理の代わりに、学習に用いる複数の窓画像をまとめて切り出す処理を行ってもよい。この場合、窓画像を入力し学習検出器54を学習させる処理が切り出された窓画像のそれぞれについて行われるように、ステップS104の処理が繰り返し実行されてよい。
The learning process shown in step S103 and step S104 (FIG. 9) is repeated until all the window images used for learning are acquired from a certain learning image. This set of processes is repeated for each of all the
次に、学習済の学習検出器54を評価し、実際に処理対象画像から建物の領域を抽出する処理を実行させるための学習検出器54を実行検出器62,63,64として選択する処理の詳細について説明する。
Next, in the process of evaluating the learned learning
図12は、学習検出器54を評価する処理の一例を示すフロー図である。この処理では、はじめに、評価データ取得部56は、記憶部12から評価用画像および正解データを取得する(ステップS201)。評価用画像は学習用画像と同じであってもよく、異なってもよい。評価用画像の縮尺は学習用画像と同じである。正解データは評価用画像のうち面積の範囲S,M,Lのそれぞれに属する建物の領域を示す画像であり、評価用画像と学習用画像とが同じ場合は、正解データは教師データであってよい。また、図12には図示されていないが、評価データ取得部56は、学習データ取得部51と同様に、評価用画像のサイズを学習検出器54のスケールに合わせるように設定する。
FIG. 12 is a flow chart showing an example of processing for evaluating the learning
次に、評価実行部57は、評価用画像から、学習検出器54に入力する窓画像を切出す(ステップS202)。より具体的には、評価実行部57は、切り出される領域がこれまでに切り出された窓領域と比べて所定数のドットがずれるように窓画像を切り出す。所定数のドットは1ドット以上、16ドット以下の任意の大きさとすることができる。所定数の上限である16は、学習検出器54の出力が16×16ドットの画像であることに対応している。所定数は学習検出器54の出力の縦または横の大きさ以下である。評価実行部57は、評価用画像から切り出された窓画像を学習検出器54へ入力し(ステップS203)、学習検出器54の個別部541,542,543のそれぞれの出力画像(S,M,L)を取得する(ステップS204)。ここで、評価実行部57は、取得された出力画像を、各ドットの存在確率の値が閾値より大きいか小さいかに基づいて2値化し、2値化された出力画像を記憶部12に格納する。以下の処理では、出力画像は2値化された出力画像を指すものとする。そして、すべての窓画像について学習検出器54の処理を行うまで、ステップS202からS204の処理を繰り返す(ステップS205参照)。
Next, the
すべての窓画像についての出力画像(S,M,L)が得られると、評価実行部57は、それらの窓画像に対応する位置に出力画像(S)が配置された全体画像(S)と、それらの窓画像に対応する位置に出力画像(M)が配置された全体画像(M)と、それらの窓画像に対応する位置に出力画像(L)が配置された全体画像(L)と、を生成する(ステップS206)。より具体的には、評価実行部57は出力画像(S,M,L)を窓画像の配置に対応するように互いに所定数のドットずれるように配置することで、全体画像(S,M,L)を生成する。ここで、窓画像を切出す際のずれの大きさである所定数のドットが16ドットより小さい場合、各窓画像から得られる出力画像(S,M,L)のうち少なくとも一部のドットが他の窓画像についての出力画像(S,M,L)と重なる。評価実行部57は、複数の窓画像の出力において位置が重なるドットについては、出力画像のドットの値が平均された平均値を全体画像(S,M,L)におけるドットの値とする。これにより、隣り合う出力画像(S,M,L)の境界が滑らかにつながらない場合であっても、それに起因する不整合が全体画像に表れることを防ぐことができる。
When the output images (S, M, L) for all the window images are obtained, the
そして、評価実行部57は全体画像と正解データとを比較し、学習検出器54の個別部541,542,543のそれぞれについて精度を評価する(ステップS207)。精度の評価は、例えば、評価実行部57は正解データのうち面積の範囲Sに属する建物が存在する領域に、出力画像(S)において建物と判定された領域が存在する割合(Recall)を求めることで行う。評価実行部57は、正解データのうち面積の範囲M,Lに属する建物の領域と、出力画像(M)、出力画像(L)に存在する建物の領域とにおいても、同様に精度を評価する。
Then, the
ステップS202からステップS207の処理により、1つの学習検出器54の精度が評価される。そして、評価実行部57は、すべての学習検出器54について精度を評価していない場合、ステップS202からの処理を繰り返し(ステップS208)、これにより、評価実行部57は、すべての学習検出器54の精度を評価する。
The accuracy of one
図13は、評価実行部57による評価結果を示す図である。図13における「No」は、図3に示されるものと同じく、学習検出器54に振られた番号を示す。図13の例では、面積の範囲がSである、個別部541の出力については、スケールが1.0倍かつダイレーションモデルである学習検出器54が最も精度がよい。また、面積の範囲がMである個別部542の出力については、スケールが1.0倍かつプーリングモデルの学習検出器54が最も精度がよく、面積の範囲がLである個別部543の出力については、スケールが0.5倍かつプーリングモデルの学習検出器54が最も精度がよい。
FIG. 13 is a diagram showing the evaluation results by the
学習検出器54の精度が評価されると、検出器選択部58は、面積の範囲S,M,Lのそれぞれについて、最も精度の高い学習検出器54を、実行検出器62,63,64として選択する(ステップS209)。実行検出器62は、面積の範囲Sについて最も精度の高い学習検出器54に含まれる、共通部540(以下では共通部620という)と個別部541(以下では個別部621という)との組み合わせである。実行検出器63は、面積の範囲Mについて最も精度の高い学習検出器54に含まれる、共通部540(以下では共通部630という)と個別部542(以下では個別部631という)との組み合わせである。実行検出器64は、面積の範囲Lについて元も精度の高い学習検出器54に含まれる、共通部540(以下では共通部640という)と個別部543(以下では個別部641という)との組み合わせである。
When the accuracy of the learning
ここで、図13の記載からもわかるように、ダイレーションモデルはプーリングモデルに比べて小さな変化をとらえやすい傾向があるため、面積の範囲(の最大値)が小さいものではダイレーションモデルが有利になり、面積の範囲が大きいものではプーリングモデルが有利になる。また、スケールが小さいと細かな情報が減る一方、大規模な建物の形状を判定しやすくなる傾向がある。そのため、面積の範囲(の最大値)が小さいものではスケールが大きい方が有利になり、面積の範囲が大きいものではスケールが小さい方が有利になる。 Here, as can be seen from the description in FIG. 13, since the dilation model tends to catch small changes as compared with the pooling model, the dilation model is advantageous when the area range (maximum value) is small. Therefore, the pooling model is advantageous for those with a large area range. In addition, when the scale is small, detailed information is reduced, but it tends to be easier to determine the shape of a large-scale building. Therefore, if the area range (maximum value) is small, the larger scale is advantageous, and if the area range is large, the smaller scale is advantageous.
したがって、図13の例においても、面積の範囲の最大値が小さいものに対応する実行検出器62として、スケールが大きめの1.0倍であり、ダイレーションモデルである学習検出器54が選択され、面積の範囲の最大値が大きいものに対応する実行検出器64として、スケールが小さめの0.5倍であり、プーリングモデルである学習検出器54が選択されている。
Therefore, also in the example of FIG. 13, as the
検出器選択部58は、単に後述の対象データ入力部65が処理対象画像を入力し出力画像を取得する対象となる学習検出器54を示す情報を記憶部12に保存することで、学習検出器54を選択してもよいし、実行検出器62,63,64の実体として、選択された学習検出器54の共通部540、個別部541等をコピーすることで学習検出器54を実行検出器62,63,64として選択してもよい。
The
次に、実行検出器62,63,64を用いて、処理対象画像から建物の領域を判定する処理について説明する。図14は、建物の領域を判定する処理の概要を説明する図である。
Next, the process of determining the area of the building from the image to be processed will be described using the
はじめに、対象データ入力部65は、処理対象画像を面積の範囲Sに適した実行検出器62に入力し、出力取得部66は、実行検出器62の出力に基づいて全体出力画像(S)を取得する(ステップS301)。全体出力画像(S)は、処理対象画像の全体について、実行検出器62により建物が存在すると判定された領域を示す画像である。後述の全体出力画像(M)、全体出力画像(L)は、同様に、それぞれ、実行検出器63,64により建物が存在すると判定された領域を示す画像である。
First, the target
図15は、処理対象画像から全体出力画像を生成する処理の流れを示すフロー図であり、ステップS301の処理を詳細に説明する図である。はじめに、対象データ入力部65は、処理対象画像のスケールを、実行検出器62に設定されたスケールに合わせる(ステップS321)。対象データ入力部65は、処理対象画像のスケールと実行検出器62のスケールが異なる場合には処理対象画像を拡大または縮小することにより、スケールを合わせる。次に、対象データ入力部65は、スケールが合わせられた処理対象画像から窓画像を切出す(ステップS322)。窓画像のサイズや処理対象画像から窓画像を切出す手法については、評価用画像から窓画像を切出す手法と同じであるので説明を省略する。次に、対象データ入力部65は、実行検出器62へ窓画像を入力する(ステップS323)。すると、実行検出器62は、入力された窓画像について建物の領域を検出する処理を行い、出力取得部66は、実行検出器62の出力画像を取得する(ステップS324)。ここで、図示していないが、出力取得部66は、取得された出力画像を、各ドットの存在確率の値が閾値より大きいか小さいかに基づいて2値化し、2値化された出力画像を記憶部12に格納する。以下の処理では、出力画像は2値化された出力画像を指すものとする。そして、すべての窓画像について学習検出器54の処理を行うまで、ステップS322からS324の処理を繰り返す(ステップS325参照)。
FIG. 15 is a flow chart showing a flow of processing for generating an overall output image from a processing target image, and is a diagram for explaining the processing in step S301 in detail. First, the target
なお、建物検出器が実行検出器62,63,64の個別部621,631,641に対応し、建物検出器へ入力される処理対象画像の特徴情報が、それぞれ共通部620,630,640の出力であってよい。なお、学習検出器54や実行検出器62,63,64は、共通部540,620、630,640を含まなくてもよい。この場合、面積の範囲S、M、Lのそれぞれについて学習用入力画像や処理対象画像が入力され、建物検出器へ入力される処理対象画像の特徴情報は、単なる処理対象画像やその窓画像であってよい。
The building detector corresponds to the
すべての窓画像についての出力画像が得られると、評価実行部57は、それらの窓画像に対応する位置に出力画像が配置された全体出力画像(S)を生成する(ステップS326)。
When the output images for all the window images are obtained, the
次に、フィルタ部67は、全体出力画像(S)に、面積に基づくフィルタをかける(ステップS302)。この処理は、より具体的には、フィルタ部67は、全体出力画像(S)において建物が存在すると判定された領域の面積(領域のドット数とスケールから求められる)を算出し、その面積が面積の範囲Sに応じた許容範囲にない領域を全体出力画像(S)から削除する。具体的には許容範囲は、89.2m2未満である。なお、フィルタ部67の処理は行われなくてもよい。
Next, the
また、対象データ入力部65は、処理対象画像を面積の範囲Mに適した実行検出器63に入力し、出力取得部66は、実行検出器63の出力に基づいて全体出力画像(M)を取得する(ステップS303)。この処理の詳細は、実行検出器62から全体出力画像(S)を取得する処理と同様であるので詳細の説明は省略する。
Further, the target
次に、フィルタ部67は、全体出力画像(M)に、面積に基づくフィルタをかける(ステップS304)。この処理は、より具体的には、フィルタ部67は、全体出力画像(M)において建物が存在すると判定された領域の面積(領域のドット数とスケールから求められる)を算出し、その面積が面積の範囲Mに応じた許容範囲にない領域を全体出力画像(M)から削除する。具体的には許容範囲は、22.3m2以上89.2m2未満である。
Next, the
また、対象データ入力部65は、処理対象画像を面積の範囲Lに適した実行検出器64に入力し、出力取得部66は、実行検出器64の出力に基づいて全体出力画像(L)を取得する(ステップS305)。この処理の詳細は、実行検出器62から全体出力画像(L)を取得する処理と同様であるので詳細の説明は省略する。
Further, the target
次に、フィルタ部67は、全体出力画像(L)に、面積に基づくフィルタをかける(ステップS306)。この処理は、より具体的には、フィルタ部67は、全体出力画像(L)において建物が存在すると判定された領域の面積(領域のドット数とスケールから求められる)を算出し、その面積が面積の範囲Lに応じた許容範囲にない領域を全体出力画像(M)から削除する。具体的には許容範囲は、65.4m2以上である。
Next, the
そして、統合部68は、全体出力画像(S)、全体出力画像(M)、全体出力画像(L)の縮尺が一致するように、これらのうち少なくとも1つを拡大または縮小する処理を実行する(ステップS307)。なお、この処理は、フィルタ部67の処理の前に行われてもよい。
Then, the
統合部68は、その処理がなされた全体出力画像(S)、全体出力画像(M)、全体出力画像(L)を統合する(ステップS308)。言い換えると、統合部68は、全体出力画像(S)、全体出力画像(M)、全体出力画像(L)のいずれかにおいて建物と認識された領域を、建物のある領域と判定し、その判定がされた領域を示す統合された画像を生成する。より具体的には、統合部68は、フィルタされた全体出力画像(S)、全体出力画像(M)、全体出力画像(L)の各ドットの論理和をとることで、統合された画像を生成する。ここで、全体出力画像(S)、全体出力画像(M)、全体出力画像(L)の各ドットは、建物が存在すると判定された領域において1であり、そうでない領域において0であるとする。
The
そして、画像出力部69は、統合部68により生成された画像を記憶部12や表示出力デバイスへ出力する。
Then, the
面積の範囲S,M,Lのそれぞれに好適なスケールやモデルの種類を有する実行検出器62,63,64を用いて建物の領域が判定された画像を取得し、さらに統合部68によりそれらの画像を統合することで、処理対象画像から判定される建物の精度を向上させ、特に見逃しを減らすことができる。
Images in which the area of the building was determined were acquired using
例えば、図13に示される評価結果に基づいて、検出器選択部58が、実行検出器62,63,64として、それぞれ、スケールが1.0倍かつダイレーションモデル、スケールが1.0倍でプーリングモデル、スケールが0.5倍でプーリングモデルの学習検出器54を選択した場合、ある実験では、見逃しの指標であるRecallの値が87.0%であり、実行検出器62,63,64として、どれもスケールが1.0倍でプーリングモデルとした場合における値である82.0%や、実行検出器62,63,64として、どれもスケールが1.0倍でダイレーションモデルとした場合における値である83.8%を上回っている。ここで、Recallの値は、正解として与えられる建物の領域のうち、建物が存在すると判定された領域の数を、正解として与えられる建物の領域の数でわった数である。建物の領域の判定において、見落としを減らすことは一般的に容易ではないので、この効果は非常に大きいものとなる。
For example, based on the evaluation result shown in FIG. 13, the
これまでに説明した実行検出器62,63,64を組み合わせた建築物抽出システムを用いることで、航空写真や衛星画像といったリモートセンシング画像から様々なサイズの構造物や建築物等をより高精度に認識できるようになる。そして、建築物抽出システムを、建物の新築や滅失などの把握に利用することができ、家屋異動に関する統計の基礎情報の取得を可能とする。さらに、建物領域を精度良く抽出可能となることで、個々の建物の時間的変移をより容易に把握し、また、抽出された建物領域の大きさや形状から建物の詳細属性(例えば、戸建、マンション、工場といった建物の種類)を判別することもより容易になる。
By using the building extraction system that combines the
そして、画像からの建物に関するこれらの情報抽出作業の自動化が図られることで、広範囲の地表を処理対象とした当該作業を低コストで高速に行うことが可能となる。 By automating the work of extracting information about the building from the image, it is possible to perform the work on a wide range of ground surfaces at low cost and at high speed.
これまでに、本発明の実施形態について説明してきたが、本発明の趣旨の範囲内で様々な変形をすることができる。例えば、面積の範囲が3つではなく、2つや4つ以上でもよい。また、モデルの種類の数やスケールの種類の数が異なっていてもよい。また、個別部は建物の面積の範囲に応じて最適化されなくてもよい。例えば建物の高さなど、他の手法で分類されたグループに応じて個別部が最適化されてもよい。 Although the embodiments of the present invention have been described so far, various modifications can be made within the scope of the gist of the present invention. For example, the area range may be two or four or more instead of three. Also, the number of model types and the number of scale types may be different. Further, the individual part does not have to be optimized according to the range of the area of the building. Individual parts may be optimized according to groups classified by other methods, for example, the height of a building.
1 学習サーバ、11 プロセッサ、12 記憶部、13 通信部、14 入出力部、30 要素、31,32,33,34,35,36,37 ユニット、51 学習データ取得部、52 学習実行部、53 学習検出器セット、54 学習検出器、540 共通部、541,542,543 個別部、56 評価データ取得部、57 評価実行部、58 検出器選択部、61 実行検出器セット、62,63,64 実行検出器、620,630,640 共通部、621,631,641 個別部、65 対象データ入力部、66 出力取得部、67 フィルタ部、68 統合部、69 画像出力部。 1 learning server, 11 processor, 12 storage unit, 13 communication unit, 14 input / output unit, 30 elements, 31,32,33,34,35,36,37 units, 51 learning data acquisition unit, 52 learning execution unit, 53 Learning detector set, 54 learning detector, 540 common part, 541,542,543 individual part, 56 evaluation data acquisition part, 57 evaluation execution part, 58 detector selection part, 61 execution detector set, 62,63,64 Execution detector, 620, 630, 640 common part, 621, 631, 641 individual part, 65 target data input part, 66 output acquisition part, 67 filter part, 68 integration part, 69 image output part.
Claims (5)
面積が前記第1の範囲と異なる第2の範囲に属する複数の建物について、第2の縮尺を有する第2の学習用入力画像と、前記第2の学習用入力画像に含まれる複数の建物の形状を示す情報を含む教師データとを用いて学習させた第2の建物検出器と、
地表上の学習対象領域が上空から撮影され前記第1の縮尺を有する第1の入力画像の特徴情報を前記第1の建物検出器に入力し、前記第1の入力画像が前記第1の縮尺と前記第2の縮尺との比に応じて拡大または縮小された第2の入力画像の特徴情報を前記第2の建物検出器に入力する入力部と、
前記第1の入力画像の特徴情報に対する前記第1の建物検出器の出力と、前記第2の入力画像の特徴情報に対する第2の建物検出器の出力とを統合する統合部と、
を含み、
前記第1の範囲の最大値は、前記第2の範囲の最大値より大きく、
前記第1の範囲の最小値は、前記第2の範囲の最小値より大きく、
前記第1の縮尺は、前記第2の縮尺より小さい、
建築物抽出システム。 A teacher of information showing the shapes of a first learning input image having a first scale and the plurality of buildings included in the first learning input image for a plurality of buildings whose areas belong to the first range. The first building detector learned using the data,
For a plurality of buildings belonging to a second range whose area is different from the first range, a second learning input image having a second scale and a plurality of buildings included in the second learning input image. A second building detector trained using teacher data containing shape information,
The learning target area on the ground surface is photographed from the sky, and the feature information of the first input image having the first scale is input to the first building detector, and the first input image is the first scale. And an input unit that inputs the feature information of the second input image enlarged or reduced according to the ratio to the second scale to the second building detector.
An integrated unit that integrates the output of the first building detector with respect to the feature information of the first input image and the output of the second building detector with respect to the feature information of the second input image.
Including
The maximum value of the first range is larger than the maximum value of the second range.
The minimum value of the first range is larger than the minimum value of the second range.
The first scale is smaller than the second scale.
Building extraction system.
面積が前記第1の範囲と異なる第2の範囲に属する複数の建物について、第2の縮尺を有する第2の学習用入力画像と、前記第2の学習用入力画像に含まれる複数の建物の形状を示す情報を含む教師データとを用いて学習させた第2の建物検出器と、
地表上の学習対象領域が上空から撮影され前記第1の縮尺を有する第1の入力画像の特徴情報を前記第1の建物検出器に入力し、前記第1の入力画像が前記第1の縮尺と前記第2の縮尺との比に応じて拡大または縮小された第2の入力画像の特徴情報を前記第2の建物検出器に入力する入力部と、
前記第1の入力画像の特徴情報に対する前記第1の建物検出器の出力と、前記第2の入力画像の特徴情報に対する第2の建物検出器の出力とを統合する統合部と、
を含み、
前記第1の範囲の最大値は、前記第2の範囲の最大値より大きく、
前記第1の範囲の最小値は、前記第2の範囲の最小値より大きく、
前記第1の範囲および前記第2の範囲を含む複数の範囲のそれぞれについて設けられる、第1の候補検出器および第2の候補検出器と、
前記複数の範囲のそれぞれについて、第1の候補縮尺を有する第3の学習用入力画像と、前記第3の学習用入力画像に含まれる当該範囲に属する複数の建物の形状を示す情報の教師データとを用いて学習された前記第1の候補検出器と、前記第1の候補縮尺と異なる第2の候補縮尺を有する第4の学習用入力画像と、前記第4の学習用入力画像に含まれる当該範囲に属する複数の建物の形状を示す情報の教師データとを用いて学習された前記第2の候補検出器とのそれぞれの、建物の形状の検出精度を評価する評価部と、
前記評価部により評価された検出精度に基づいて、前記第1の範囲について設けられる前記第1の候補検出器および前記第2の候補検出器のうち一つを、前記第1の建物検出器として選択し、前記第2の範囲について設けられる前記第1の候補検出器および前記第2の候補検出器のうち一つを、前記第2の建物検出器として選択し、前記第1の候補縮尺および前記第2の候補縮尺のうち、前記第1の範囲について設けられる前記第1の候補検出器および前記第2の候補検出器のうち選択されたものに対応するものを前記第1の縮尺として選択し、前記第1の候補縮尺および前記第2の候補縮尺のうち、前記第2の範囲について設けられる前記第1の候補検出器および前記第2の候補検出器のうち選択されたものに対応するものを前記第2の縮尺として選択する検出器選択部と、をさらに含む、
建築物抽出システム。 A teacher of information showing the shapes of a first learning input image having a first scale and the plurality of buildings included in the first learning input image for a plurality of buildings whose areas belong to the first range. The first building detector learned using the data,
For a plurality of buildings belonging to a second range whose area is different from the first range, a second learning input image having a second scale and a plurality of buildings included in the second learning input image. A second building detector trained using teacher data containing shape information,
The learning target area on the ground surface is photographed from the sky, and the feature information of the first input image having the first scale is input to the first building detector, and the first input image is the first scale. And an input unit that inputs the feature information of the second input image enlarged or reduced according to the ratio to the second scale to the second building detector.
An integrated unit that integrates the output of the first building detector with respect to the feature information of the first input image and the output of the second building detector with respect to the feature information of the second input image.
Including
The maximum value of the first range is larger than the maximum value of the second range.
The minimum value of the first range is larger than the minimum value of the second range.
A first candidate detector and a second candidate detector provided for each of the first range and the plurality of ranges including the second range.
For each of the plurality of ranges, a third learning input image having a first candidate scale and information teacher data indicating the shapes of a plurality of buildings belonging to the range included in the third learning input image are teacher data. Included in the first candidate detector learned using the above, a fourth learning input image having a second candidate scale different from the first candidate scale , and the fourth learning input image. An evaluation unit that evaluates the detection accuracy of the shape of each of the second candidate detectors learned by using the teacher data of the information indicating the shapes of a plurality of buildings belonging to the range .
Based on the detection accuracy evaluated by the evaluation unit, one of the first candidate detector and the second candidate detector provided for the first range is referred to as the first building detector . Then, one of the first candidate detector and the second candidate detector provided for the second range is selected as the second building detector, and the first candidate is selected. Of the scales and the second candidate scales, the one corresponding to the selected one of the first candidate detector and the second candidate detector provided for the first range is the first scale. Of the first candidate scale and the second candidate scale, the one selected from the first candidate detector and the second candidate detector provided for the second range. Further includes a detector selection unit that selects the corresponding one as the second scale .
Building extraction system.
前記第1の建物検出器の出力に含まれる建物、および、前記第2の建物検出器の出力に含まれる建物を面積に基づいて除去するフィルタをさらに含む、Further comprising a filter for removing the building included in the output of the first building detector and the building included in the output of the second building detector based on the area.
建築物抽出システム。Building extraction system.
前記統合部は、前記第1の入力画像の特徴情報に対する前記第1の建物検出器の出力と、前記第2の入力画像の特徴情報に対する第2の建物検出器の出力との縮尺が一致するように、前記2つの出力のうち少なくとも一方を拡大または縮小する処理を実行し、前記処理が実行された前記2つの出力を重畳させる、In the integrated unit, the scales of the output of the first building detector with respect to the feature information of the first input image and the output of the second building detector with respect to the feature information of the second input image match. As described above, the process of enlarging or reducing at least one of the two outputs is executed, and the two outputs for which the process is executed are superimposed.
建築物抽出システム。Building extraction system.
前記統合部は、前記入力された入力画像の特徴情報に対する、前記第1の建物検出器の出力と前記第2の建物検出器の出力とのいずれかにおいて建物と認識された領域を、建物のある領域と判定する、
建築物抽出システム。 In the building extraction system according to any one of claims 1 to 4 .
The integrated unit sets a region recognized as a building in either the output of the first building detector or the output of the second building detector with respect to the feature information of the input input image of the building. Judge as a certain area,
Building extraction system.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018062646A JP7096034B2 (en) | 2018-03-28 | 2018-03-28 | Building extraction system |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018062646A JP7096034B2 (en) | 2018-03-28 | 2018-03-28 | Building extraction system |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2019175140A JP2019175140A (en) | 2019-10-10 |
JP7096034B2 true JP7096034B2 (en) | 2022-07-05 |
Family
ID=68167703
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018062646A Active JP7096034B2 (en) | 2018-03-28 | 2018-03-28 | Building extraction system |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7096034B2 (en) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7235134B2 (en) * | 2019-11-08 | 2023-03-08 | 日本電気株式会社 | Object detection device, learning method, and program |
WO2021111633A1 (en) * | 2019-12-06 | 2021-06-10 | 日本電気株式会社 | Parameter optimization device, parameter optimization method, and parameter optimization program |
TW202226071A (en) * | 2020-12-25 | 2022-07-01 | 日商發那科股份有限公司 | Machine learning device and machine learning method |
JP7270856B1 (en) * | 2022-05-16 | 2023-05-10 | 三菱電機株式会社 | Detection device, camera system, detection method, and detection program |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2018005520A (en) | 2016-06-30 | 2018-01-11 | クラリオン株式会社 | Object detection device and object detection method |
-
2018
- 2018-03-28 JP JP2018062646A patent/JP7096034B2/en active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2018005520A (en) | 2016-06-30 | 2018-01-11 | クラリオン株式会社 | Object detection device and object detection method |
Also Published As
Publication number | Publication date |
---|---|
JP2019175140A (en) | 2019-10-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7096034B2 (en) | Building extraction system | |
CN109670474B (en) | Human body posture estimation method, device and equipment based on video | |
CN109376681B (en) | Multi-person posture estimation method and system | |
JP7048225B2 (en) | Trained model for building area extraction | |
JP6431245B1 (en) | Edge recognition bidirectional image processing | |
JP7059883B2 (en) | Learning device, image generator, learning method, and learning program | |
CN110084155B (en) | Method, device and equipment for counting dense people and storage medium | |
JP2006338313A (en) | Similar image retrieving method, similar image retrieving system, similar image retrieving program, and recording medium | |
US20160379088A1 (en) | Apparatus and method for creating an image recognizing program having high positional recognition accuracy | |
JP7096033B2 (en) | Building extraction system | |
KR101917525B1 (en) | Method and apparatus for identifying string | |
CN108694716B (en) | Workpiece detection method, model training method and equipment | |
CN102171723A (en) | Method for red-eye detection | |
CN111008631A (en) | Image association method and device, storage medium and electronic device | |
CN106663317B (en) | Morphological processing method and digital image processing device for digital image | |
JP2018526754A (en) | Image processing apparatus, image processing method, and storage medium | |
JP7006782B2 (en) | Information processing equipment, control methods, and programs | |
KR102260556B1 (en) | Deep learning-based parking slot detection method and apparatus integrating global and local information | |
JP2019149119A (en) | Image processing device, image processing method, and program | |
CN109740337B (en) | Method and device for realizing identification of slider verification code | |
CN109523533B (en) | Image quality evaluation method and device | |
WO2021171411A1 (en) | Target region detection device, target region detection method, and target region detection program | |
JP2022056219A (en) | Information processor, method for processing information, and program | |
JP2011221930A (en) | Three-dimensional topographic data accuracy-improving device, three-dimensional topographic data accuracy improving-method and program | |
JP2005258728A (en) | Method and program for supporting extraction of changing region between geographic images |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210208 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20220127 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220208 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220411 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20220607 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20220623 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7096034 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |