RU2740736C1 - Method of processing images of remote earth probing using a neural network with a fine for accuracy of the segmentation boundary - Google Patents

Method of processing images of remote earth probing using a neural network with a fine for accuracy of the segmentation boundary Download PDF

Info

Publication number
RU2740736C1
RU2740736C1 RU2019142013A RU2019142013A RU2740736C1 RU 2740736 C1 RU2740736 C1 RU 2740736C1 RU 2019142013 A RU2019142013 A RU 2019142013A RU 2019142013 A RU2019142013 A RU 2019142013A RU 2740736 C1 RU2740736 C1 RU 2740736C1
Authority
RU
Russia
Prior art keywords
pixel
metric
loss function
neural network
images
Prior art date
Application number
RU2019142013A
Other languages
Russian (ru)
Inventor
Алексей Валерьевич Артёмов
Евгений Владимирович Бурнаев
Алексей Константинович Боховкин
Денис Алексеевич Волхонский
Original Assignee
Автономная некоммерческая образовательная организация высшего образования "Сколковский институт науки и технологий"
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Автономная некоммерческая образовательная организация высшего образования "Сколковский институт науки и технологий" filed Critical Автономная некоммерческая образовательная организация высшего образования "Сколковский институт науки и технологий"
Priority to RU2019142013A priority Critical patent/RU2740736C1/en
Application granted granted Critical
Publication of RU2740736C1 publication Critical patent/RU2740736C1/en

Links

Images

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01CMEASURING DISTANCES, LEVELS OR BEARINGS; SURVEYING; NAVIGATION; GYROSCOPIC INSTRUMENTS; PHOTOGRAMMETRY OR VIDEOGRAMMETRY
    • G01C11/00Photogrammetry or videogrammetry, e.g. stereogrammetry; Photographic surveying
    • G01C11/04Interpretation of pictures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Image Processing (AREA)

Abstract

FIELD: data processing.
SUBSTANCE: invention relates to a method of processing geospatial satellite data. Method involves obtaining satellite images and storing them in a database, then shots are normalized, segmented and processed by a neural network, trained by means of final loss function, presented as linear sum of three terms: binary cross-entropy, loss function based on Intersection over Union metric, and a loss function based on a differentiated analogue of the metric of estimating the quality of the boundary F-measure, obtained as follows: obtaining segment boundaries maps, based on which maps of boundaries of greater thickness are obtained, then obtaining indicators of accuracy and completeness, by means of pixel product of obtained segment maps, based on which a differentiable analogue of the quality metric of the boundary F-measure is obtained; at the output of the neural network receiving images, where the value of each pixel is the probability of the pixel belonging to the determined object class; pixel values are rounded off by a threshold value, and the obtained segments are connected to form a segmented satellite image map.
EFFECT: technical result consists in improvement of satellite images processing quality.
4 cl, 4 dwg

Description

ОБЛАСТЬ ТЕХНИКИFIELD OF TECHNOLOGY

Настоящее техническое решение относится к области дистанционного зондирования Земли (ДЗЗ), в частности, к компьютерно-реализованному способу обработки геопространственных спутниковых данных с помощью компьютерного зрения.This technical solution relates to the field of Earth remote sensing (ERS), in particular, to a computer-implemented method for processing geospatial satellite data using computer vision.

УРОВЕНЬ ТЕХНИКИLEVEL OF TECHNOLOGY

Благодаря тому что данные ДЗЗ становятся доступны все с большим пространственным и спектральным разрешением, подходы объектного анализа изображения набирают все больший вес. Сравнивая с традиционными подходами, ориентированными на отдельные пиксели в изображении, объектные методы анализа используют области или, как их по-другому называют в цифровой обработке изображений, сегменты изображения, как базовые единицы. Ключевым этапом в объектно-ориентированном анализе является сегментация изображений. Целью сегментации является упрощение и/или изменение представления графической информации во что-то более значимое и простое для последующего анализа. Due to the fact that remote sensing data are becoming available with ever greater spatial and spectral resolution, approaches to object image analysis are gaining more and more weight. Compared to traditional approaches that focus on individual pixels in an image, object analysis methods use regions, or, as they are called in digital image processing, image segments as basic units. A key step in object-oriented analysis is image segmentation. The purpose of segmentation is to simplify and / or change the presentation of graphical information into something more meaningful and simpler for later analysis.

Семантическая сегментация спутниковых изображений земной поверхности является ключевым шагом в процессе анализа изображения, целью которого является получение карты соответствия каждого пикселя определенному классу. Применения этому существуют в мониторинге окружающей среды, планировании городского строительства и развития, мониторинге лесов и с/х территорий и др.Semantic segmentation of satellite images of the earth's surface is a key step in the image analysis process, the goal of which is to obtain a map of the correspondence of each pixel to a certain class. Applications for this exist in environmental monitoring, urban planning and development, forest and agricultural monitoring, etc.

Применение предлагаемого метода главным образом направлено на сегментацию зданий. Как правило, снимки городской застройки представлены в высоком разрешении. Более высокое разрешение вносит множество мелких деталей и структур на изображение.The application of the proposed method is mainly aimed at building segmentation. As a rule, images of city buildings are presented in high resolution. Higher resolution introduces a lot of fine detail and structure to the image.

Впоследствии полученные сегментированные снимки используются для оценки высотности зданий, предсказания численности населения и экономических прогнозов. Для большинства задач необходимо, чтобы сегменты, соответствующие близстоящим зданиям, были разделены границей, поэтому требуется создание способа, повышающего внимание нейронной сети к краям сегментов соседствующих объектов. Достигнуть этого можно с помощью вычисления специальной функции потерь, которая способна выделять границы сегментов из предсказания нейронной сети и накладывать штраф на области, где предсказанные границы сегментов не совпадают с границами идеально сегментированного изображения.Subsequently, the resulting segmented images are used to estimate the height of buildings, predict the population size and economic forecasts. For most tasks, it is necessary that the segments corresponding to nearby buildings be separated by a boundary, therefore, it is required to create a method that increases the attention of the neural network to the edges of segments of neighboring objects. This can be achieved by calculating a special loss function that can extract segment boundaries from neural network predictions and impose a penalty on areas where the predicted segment boundaries do not coincide with the boundaries of a perfectly segmented image.

Из уровня техники известен источник информации RU 2656708 C1, 06.06.2018, который раскрывает способ разделения иллюстраций, содержащий этапы получения данных, сегментации данных, нормализации, а в качестве функции потерь используется средняя абсолютная ошибка в процентах. A source of information RU 2656708 C1, 06.06.2018 is known from the prior art, which discloses a method for dividing illustrations containing the stages of data acquisition, data segmentation, normalization, and the average absolute percentage error is used as a loss function.

Однако использование в качестве функции потери средней абсолютной ошибки в процентах, не принесет получение сегментов высокого качества, а также не получится определение высокой точности сегментации вблизи границ сегментов.However, using the average absolute percentage error as a loss function will not bring high quality segments, and it will not work to determine the high segmentation accuracy near segment boundaries.

Наиболее близким аналогом является источник информации CN110428432 A, 08.11.2019, в котором создается шаблон набора данных, строится модель сегментационной сети. Сеть состоит из интенсивных свёрточных нейронных сетей и усовершенствованной U-Net, а интенсивные свёрточные нейронные сети используются для извлечения информации на изображении. В качестве функции потерь используют сумму метрики IoU и функции фокальных потерь (Focal Loss), которая является BF1, для решения задачи сегментации контуров, потому что существует серьезный дисбаланс класса в профиле и фоновом пикселе, чтобы повысить точность сегментации профиля, здесь используется функция фокальных потерь, которая может эффективно улучшить характеристики точечного среза. The closest analogue is the information source CN110428432 A, 11/08/2019, in which a dataset template is created, a segmentation network model is built. The network consists of intensive convolutional neural networks and an advanced U-Net, and intensive convolutional neural networks are used to extract information from the image. As a loss function, the sum of the IoU metric and the Focal Loss function (Focal Loss), which is BF1, is used to solve the contour segmentation problem, because there is a serious class imbalance in the profile and the background pixel, in order to improve the accuracy of the profile segmentation, the focal loss function is used here , which can effectively improve the performance of the point cut.

Однако в данной работе функция потерь нейронной сети не выделяет границы настоящего и предсказанного сегмента автоматически, а требует заранее подготовленной разметки. Также в предлагаемом нами техническом решении присутствует третье слагаемое, соответствующее бинарной кросс-энтропии. Его необходимость обусловлена тем, что спутниковые снимки являются более сложными и разнообразными по сравнению с медицинскими снимками, а кросс-энтропия помогает уменьшить расстояние между истинным и предсказанным распределением масок сегментов.However, in this work, the neural network loss function does not automatically identify the boundaries of the present and predicted segment, but requires a previously prepared marking. Also in our proposed technical solution there is a third term corresponding to binary cross-entropy. Its necessity is due to the fact that satellite images are more complex and varied than medical images, and cross-entropy helps to reduce the distance between the true and predicted distribution of segment masks.

СУЩНОСТЬ ИЗОБРЕТЕНИЯSUMMARY OF THE INVENTION

Технической проблемой, на решение которой направлено заявленное техническое решение, является создание компьютерно-реализуемого способа обработки геопространственных спутниковых данных с помощью компьютерного зрения, который охарактеризован в независимом пункте формулы. Дополнительные варианты реализации настоящего изобретения представлены в зависимых пунктах изобретения.The technical problem to be solved by the claimed technical solution is the creation of a computer-implemented method for processing geospatial satellite data using computer vision, which is characterized in an independent claim. Additional embodiments of the present invention are presented in the dependent claims.

Технический результат заключается в получение высокой точности сегментации вблизи границ сегментов.The technical result consists in obtaining high segmentation accuracy near the segment boundaries.

В предпочтительном варианте реализации заявлен компьютерно-реализованный способ обработки геопространственных спутниковых данных с помощью компьютерного зрения, включающий этапы, на которых: In a preferred embodiment, a computer-implemented method for processing geospatial satellite data using computer vision is claimed, including the steps at which:

- получают спутниковые снимки и сохраняют их в базе данных;- receive satellite images and store them in the database;

- в модуле предобработки сохраненные снимки нормализуют и сегментируют; - saved images are normalized and segmented in the preprocessing module;

- предобработанные снимки поступают на вход нейронной сети, которая обучена с помощью финальной функции потерь, представленной как линейная сумма трех слагаемых, а именно: бинарной кросс-энтропии, функции потерь, основанной на дифференцируемом аналоге метрики оценивания качества BF1 и функции потерь, основанной на метрике IoU;- preprocessed images arrive at the input of the neural network, which is trained using the final loss function, represented as a linear sum of three terms, namely: binary cross-entropy, loss function based on a differentiable analogue of the quality estimation metric BF 1 and loss function based on IoU metric;

- на выходе нейронной сети получают снимки, значение пикселей которых, является вероятностью принадлежности пикселя к определенному классу объектов;- at the output of the neural network, images are obtained, the pixel value of which is the probability of a pixel belonging to a certain class of objects;

- в модуле постобработки значения пикселей округляют по пороговому значению, после чего полученные сегменты соединяют, образуя сегментационную карту спутникового снимка.- in the post-processing module, the pixel values are rounded off at the threshold value, after which the obtained segments are connected, forming a segmentation map of the satellite image.

В частном варианте, результатом расчета бинарной кросс-энтропии является вероятность соответствия целевой метке пикселя и предсказанной метке пикселя. In a particular version, the result of calculating the binary cross-entropy is the probability of matching the target pixel label and the predicted pixel label.

В другом частном варианте, результатом функции потерь, основанной на дифференцируемом аналоге метрики оценивания качества BF1, является выделение границ целевого и предсказанного сегмента, расширенных границ целевого и предсказанного сегмента и попиксельное произведение сегментационных карт.In another particular embodiment, the result of the loss function based on the differentiable analogue of the quality assessment metric BF 1 is the extraction of the boundaries of the target and predicted segment, extended boundaries of the target and predicted segment, and the pixel-by-pixel product of segmentation maps.

В другом частном варианте результатом функции потерь, основанной на метрике IoU, является определение количества совпадений предсказанных пикселей с реальными пикселями.In another particular embodiment, the result of the loss function based on the IoU metric is to determine the number of matches of the predicted pixels with real pixels.

ОПИСАНИЕ ЧЕРТЕЖЕЙDESCRIPTION OF DRAWINGS

Реализация изобретения будет описана в дальнейшем в соответствии с прилагаемыми чертежами, которые представлены для пояснения сути изобретения и никоим образом не ограничивают область изобретения. К заявке прилагаются следующие чертежи:The implementation of the invention will be described in the following in accordance with the accompanying drawings, which are presented to clarify the essence of the invention and in no way limit the scope of the invention. The following drawings are attached to the application:

Фиг. 1 иллюстрирует общую схему обработки данных спутникового изображения.FIG. 1 illustrates a general scheme for processing satellite image data.

Фиг. 2 иллюстрирует сегментацию данных изображений на участки для подачи данных на вход нейронной сети.FIG. 2 illustrates the segmentation of image data into regions for feeding data to the input of a neural network.

Фиг. 3 иллюстрирует пример матриц значений на каждом шаге вычисления функции потерь.FIG. 3 illustrates an example of matrices of values at each step of calculating the loss function.

Фиг. 4 иллюстрирует блок-схему вычислительного устройства.FIG. 4 illustrates a block diagram of a computing device.

ДЕТАЛЬНОЕ ОПИСАНИЕ ИЗОБРЕТЕНИЯDETAILED DESCRIPTION OF THE INVENTION

В приведённом ниже подробном описании реализации изобретения приведены многочисленные детали реализации, призванные обеспечить отчётливое понимание настоящего изобретения. Однако квалифицированному в предметной области специалисту будет очевидно, каким образом можно использовать настоящее изобретение как с данными деталями реализации, так и без них. В других случаях хорошо известные методы, процедуры и компоненты не были описаны подробно, чтобы не затруднять понимание особенностей настоящего изобретения.In the following detailed description of the implementation of the invention, numerous implementation details are provided to provide a clear understanding of the present invention. However, it will be obvious to a person skilled in the art how the present invention can be used with or without these implementation details. In other instances, well-known techniques, procedures, and components have not been described in detail so as not to obscure the features of the present invention.

Кроме того, из приведенного изложения будет ясно, что изобретение не ограничивается приведенной реализацией. Многочисленные возможные модификации, изменения, вариации и замены, сохраняющие суть и форму настоящего изобретения, будут очевидными для квалифицированных в предметной области специалистов.In addition, it will be clear from the above description that the invention is not limited to the above implementation. Numerous possible modifications, changes, variations and substitutions, while retaining the spirit and form of the present invention, will be apparent to those skilled in the art.

Настоящее изобретение направлено на обеспечение компьютерно-реализованного способа обработки геопространственных спутниковых данных с помощью компьютерного зрения.The present invention is directed to providing a computer-implemented method for processing geospatial satellite data using computer vision.

Полученные изображения земной поверхности с помощью спутниковой фотосъемки, используются для получения карт сегментации, где сегментами выступают объекты на снимках (здания). Для оценивания качества сегментации используются метрики оценивания. Заявленный способ обработки геопространственных спутниковых данных с помощью компьютерного зрения, направлен на применение метрики оценивания в обучении нейронной сегментационной сети, а именно использование метрики в качестве функции потерь. The obtained images of the earth's surface using satellite photography are used to obtain segmentation maps, where objects in the images (buildings) act as segments. Assessment metrics are used to assess the segmentation quality. The claimed method for processing geospatial satellite data using computer vision is aimed at using the estimation metric in training a neural segmentation network, namely, using the metric as a loss function.

В данном техническом решении такой метрикой выступает граничная F мера (BF1). F-мера является хорошим кандидатом на формальную метрику оценки качества классификатора. Она сводит к одному числу две другие основополагающие метрики: точность и полноту. Чтобы использовать данную метрику как функцию потерь, получен дифференцируемый аналог метрики, или суррогат. Данная функция выделяет границы сегментов на изображениях, полученных на выходе нейронной сети и идеально сегментированного изображения, а затем по этим границам считается само значение метрики с помощью дифференцируемых операций. Важным свойством суррогата является возможность настраивать толщину выделяемой границы, что особенно важно для изображений с плотной застройкой зданий. In this technical solution, such a metric is the boundary measure F (BF 1 ). The F-measure is a good candidate for a formal metric for assessing the quality of a classifier. It reduces to one number the other two fundamental metrics: accuracy and completeness. To use this metric as a loss function, a differentiable analog of the metric, or a surrogate, is obtained. This function selects the boundaries of segments in images obtained at the output of a neural network and an ideally segmented image, and then the metric value itself is calculated along these boundaries using differentiable operations. An important property of the surrogate is the ability to adjust the thickness of the selected border, which is especially important for images with densely built-up buildings.

На фигуре 1 показаны шаги способа, которые осуществляется с помощью вычислительного устройства. Провайдеры спутниковых данных (101) предоставляют спутниковые трехканальные (RGB) снимки земной поверхности с разрешением не менее 0.3 м, для их последующей обработки. К каждому снимку также прилагается эталонное одноканальное изображение того же размера с бинарной разметкой сегментов класса зданий. Данные одноканальные изображения получают при помощи специальных программных обеспечений, например QGIS или AeroNet, в которых размечают спутниковые снимки, а именно присваивают значение 1 пикселю, который соответствует классу зданий и 0 если пиксель соответствует фону. Данные одноканальные снимки необходимы для обучения нейронной сети и представляют собой идеально сегментированную разметку. Далее снимки сохраняются в базе данных (102). The figure 1 shows the steps of the method, which is carried out using a computing device. Satellite data providers (101) provide satellite three-channel (RGB) images of the Earth's surface with a resolution of at least 0.3 m for their subsequent processing. Each image is also accompanied by a reference single-band image of the same size with a binary segment marking of the building class. These single-band images are obtained using special software, such as QGIS or AeroNet, in which satellite images are tagged, namely, they assign a value of 1 pixel, which corresponds to the class of buildings and 0 if the pixel corresponds to the background. These single-band images are necessary for training the neural network and represent ideally segmented markup. Then the images are saved in the database (102).

На этапе предобработки (103), спутниковые трехканальные изображения проходят этап нормализации, выравнивание гистограммы изображения. Более подробно, изображение y, представленное тремя матрицами целых значений [0, 255] yR,yG,yB нормализуется к диапазону значений [0, 1]: y, norm=y/255. Далее три канала yR,yG,yB подаются на вход операции выравнивания гистограммы (opencv). Также все снимки сегментируются на участки размером 512×512 пикселей и подаются на вход нейронной сети (104), вместе с эталонными одноканальными изображениями, для ее обучения на этапе построения сегментационной модели с оригинальной функцией потерь, (показано на Фиг. 2), величина перекрытия между соседними участками 128 пикселей. At the stage of preprocessing (103), satellite three-channel images go through the stage of normalization, alignment of the image histogram. In more detail, the image y, represented by three matrices of integers [0, 255] yR, yG, yB, is normalized to the range of values [0, 1]: y, norm = y / 255. Then three channels yR, yG, yB are fed to the input of the histogram alignment operation (opencv). Also, all images are segmented into areas of 512 × 512 pixels and fed to the input of the neural network (104), together with reference single-channel images, for training it at the stage of building a segmentation model with an original loss function (shown in Fig. 2), the amount of overlap between adjacent areas 128 pixels.

Обучение нейронной сети является итеративным, то есть, когда происходит предсказание, нейронная сеть выдает предсказанное одноканальное изображение. Данное предсказанное изображение сравнивается с эталонным одноканальным изображением, путем вычисления финальной функции потерь, которая способна выделить границы сегментов из предсказания нейронной сети и наложить штраф на области, где предсказанные границы сегментов не совпадают с границами идеально сегментированного изображения. The training of the neural network is iterative, that is, when a prediction occurs, the neural network outputs the predicted single-channel image. This predicted image is compared with a reference single-band image by calculating a final loss function that is capable of extracting segment boundaries from neural network predictions and penalizing areas where the predicted segment boundaries do not coincide with the boundaries of a perfectly segmented image.

Штрафом называется ошибка в определении, которая является значением вычисленной функции потерь, чем оно выше, тем больше ошибка. Выходом нейронной сети являются одноканальные изображения размером 512×512 для каждого поданного на вход участка. Значениями пикселей полученного изображения являются вероятности принадлежности пикселя к классу зданий. Каждому пикселю присвоено одно из двух значений, из которых первое принадлежит классу зданий, а второе фону. A penalty is an error in determination, which is the value of the calculated loss function; the higher it is, the greater the error. The output of the neural network is a 512 × 512 single-channel image for each input area. The pixel values of the resulting image are the probabilities of the pixel belonging to the class of buildings. Each pixel is assigned one of two values, of which the first belongs to the building class and the second to the background.

В модуле постобработки (105) все вероятности округляются по пороговому значению, здесь пороговое значение равно 0.5. Все значения в выходном изображении нейронной сети меньше 0.5 округляются до значения 0, а большие или равные этого значения округляются до значения 1. После этого участки размером 512×512 соединяются обратно в соответствии со схемой сегментации и получается одноканальное изображение того же размера.In the postprocessing module (105), all probabilities are rounded by the threshold value, here the threshold value is 0.5. All values in the output image of the neural network less than 0.5 are rounded to the value 0, and those greater or equal to this value are rounded to the value 1. After that, the 512 × 512 sections are connected back in accordance with the segmentation scheme and a single-channel image of the same size is obtained.

В качестве нейронной сети выбрана модель семейства UNet. В качестве схемы компоновки внутренних слоев нейронной сети выбраны архитектуры ResNet и Inception-ResNet-v2.The model of the UNet family was chosen as a neural network. The architecture of ResNet and Inception-ResNet-v2 was chosen as the layout diagram of the inner layers of the neural network.

Высокое качество получаемых сегментов возможно благодаря обучению сегментационной модели нейронной сети с помощью предлагаемой финальной функции потерь, которая является линейной комбинацией трех слагаемых:The high quality of the obtained segments is possible due to the training of the segmentation model of the neural network using the proposed final loss function, which is a linear combination of three terms:

Figure 00000001
Figure 00000001

- BCE (Binary Cross Entropy) – бинарная кросс-энтропия; - BCE (Binary Cross Entropy) - binary cross-entropy;

- функция потерь, основанная на суррогате метрики оценивания качества BF1 (Boundary F1);- the loss function based on the quality estimation metric BF 1 (Boundary F 1 );

- функция потерь, основанная на метрике IoU.- loss function based on the IoU metric.

Обозначим следующие наборы данных: ygt - целевая сегментационная карта зданий соответствующая спутниковому изображению, ypd - сегментационная карта зданий, предсказанная нейронной сетью,

Figure 00000002
- целевая сегментационная карта границ сегментов определенной толщины в пикселях,
Figure 00000003
- предсказанная сегментационная карта границ зданий, sum() - сумма значений пикселей, N - количество пикселей на изображении. Картами здесь являются матрицы значений размером равным размерам входных изображений, для конкретного пикселя i, ygt,i принимает значение 0 и 1, ypd,i принимает значение на отрезке [0, 1]. Let's designate the following datasets: y gt - target segmentation map of buildings corresponding to the satellite image, y pd - segmentation map of buildings predicted by the neural network,
Figure 00000002
- target segmentation map of segment boundaries of a certain thickness in pixels,
Figure 00000003
is the predicted segmentation map of building boundaries, sum () is the sum of pixel values, N is the number of pixels in the image. Maps here are matrices of values equal to the sizes of the input images, for a specific pixel i, y gt, i takes the value 0 and 1, y pd, i takes a value on the segment [0, 1].

Первым слагаемым функции потерь является бинарная кросс-энтропия (между картами применяются попиксельные операции):The first term of the loss function is binary cross-entropy (pixel-by-pixel operations are applied between maps):

Figure 00000004
Figure 00000004

Бинарная кросс-энтропия - статистическая метрика, пропорциональная расстоянию Кульбака-Лейблера между истинным распределением данных и предсказанным. Вероятностно данная метрика может быть проинтерпретирована, как вероятность соответствия правильной метки пикселя ygt,i и предсказанной метки ypd,i, где с помощью индекса i обозначен рассматриваемый пиксель. Binary cross-entropy is a statistical metric proportional to the Kullback-Leibler distance between the true data distribution and the predicted one. Probably, this metric can be interpreted as the probability of matching the correct pixel label y gt, i and the predicted label y pd, i , where the index i denotes the considered pixel.

Вторым слагаемым функции потерь является суррогат метрики оценивания качества BF1. Для данной модели суррогат строится поэтапно, сначала с помощью операции MaxPooling (далее - pool) выделяются границы сегментов:The second term of the loss function is the surrogate of the quality assessment metric BF 1 . For this model, the surrogate is built in stages, first, using the MaxPooling operation (hereinafter referred to as pool), the segment boundaries are selected:

Figure 00000005
Figure 00000005

Здесь параметром θ0 обозначен размер окна операции pool, оптимальное значение - 3. Далее из полученных карт границ необходимо получить карты границ большей толщины, утолщение границы регулируется параметром θ, максимальное значение которого рекомендуется устанавливать величиной минимального расстояния между соседними сегментами изображения.Here, the parameter θ 0 denotes the size of the pool operation window, the optimal value is 3. Further, from the obtained boundary maps, it is necessary to obtain boundary maps of greater thickness, the thickening of the boundary is regulated by the parameter θ, the maximum value of which is recommended to be set by the value of the minimum distance between adjacent image segments.

После этого рассчитываются значения Precision (P) и Recall (R):The Precision (P) and Recall (R) values are then calculated:

Figure 00000006
Figure 00000006

где операция ° обозначает попиксельное умножение сегментационных карт. В итоге получаем дифференцируемый суррогат метрики и соответствующую функцию потерь:where the ° operation denotes pixel-by-pixel multiplication of the segmentation maps. As a result, we get a differentiable metric surrogate and the corresponding loss function:

Figure 00000007
Figure 00000007

На Фиг. 3 можно увидеть примеры матриц значений на каждом шаге вычисления функции потерь: (a) - оригинальное изображение; (b) - целевой сегмент ygt; (c) - предсказанный сегмент ypd; (d) - граница целевого сегмента

Figure 00000008
; (e) - граница предсказанного сегмента
Figure 00000009
; (f) - расширенная граница целевого сегмента
Figure 00000010
; (g) - расширенная граница предсказанного сегмента
Figure 00000011
; (h) - попиксельное умножение (d) и (g), карта Precision; попиксельное умножение (e) и (f), карта Recall.FIG. 3 you can see examples of matrices of values at each step of calculating the loss function: (a) - original image; (b) - target segment y gt ; (c) predicted segment y pd ; (d) - target segment boundary
Figure 00000008
; (e) - predicted segment boundary
Figure 00000009
; (f) - extended target segment boundary
Figure 00000010
; (g) - extended bound of the predicted segment
Figure 00000011
; (h) - per-pixel multiplication (d) and (g), Precision map; per-pixel multiplication (e) and (f), Recall card.

Последним слагаемым является функция потерь, основанная на метрике IoU, рассчитанная на сегментационных картах:The last term is the loss function based on the IoU metric calculated on segmentation maps:

Figure 00000012
Figure 00000012

Figure 00000013
Figure 00000013

Intersection-over-Union (индекс Жаккарда) - наиболее распространенная метрика для задач сегментации. Выделив два множества целевого класса: предсказанное и истинное, метрика выражает отношение пересечения этих множеств

Figure 00000014
к их объединению
Figure 00000015
Данная метрика прекрасно справляется с проблемой несбалансированных классов, которая явно присутствует в области спутниковых снимков, где количество пикселей, соответствующих зданиям, много меньше количества пикселей фона. Тем не менее данная метрика оценивает лишь количество правильно классифицированных пикселей, не учитывая точность предсказания границ, которые, по сути, задают сегмент.Intersection-over-Union (Jacquard index) is the most common metric for segmentation tasks. Having selected two sets of the target class: predicted and true, the metric expresses the relation of intersection of these sets
Figure 00000014
to unite them
Figure 00000015
This metric copes well with the problem of imbalanced classes, which is clearly present in the field of satellite imagery, where the number of pixels corresponding to buildings is much less than the number of background pixels. However, this metric only estimates the number of correctly classified pixels, not taking into account the accuracy of predicting the boundaries that, in fact, define the segment.

Благодаря финальной функции, обеспечивается возможность получения сегментов изображения более высокого качества, а также повышение внимания нейронной сети к краям сегментов соседствующих объектов.Thanks to the final function, it is possible to obtain image segments of higher quality, as well as to increase the attention of the neural network to the edges of segments of neighboring objects.

На Фиг. 4 далее будет представлена общая схема вычислительного устройства (200), обеспечивающего обработку данных, необходимую для реализации заявленного решения. FIG. 4 below, a general diagram of a computing device (200) will be presented that provides data processing necessary for the implementation of the claimed solution.

В общем случае устройство (200) содержит такие компоненты, как: один или более процессоров (201), по меньшей мере одну память (202), средство хранения данных (203), интерфейсы ввода/вывода (204), средство В/В (205), средства сетевого взаимодействия (206).In the general case, the device (200) contains components such as: one or more processors (201), at least one memory (202), data storage means (203), input / output interfaces (204), I / O means ( 205), networking tools (206).

Процессор (201) устройства выполняет основные вычислительные операции, необходимые для функционирования устройства (200) или функциональности одного или более его компонентов. Процессор (201) исполняет необходимые машиночитаемые команды, содержащиеся в оперативной памяти (202).The device processor (201) performs the basic computational operations required for the operation of the device (200) or the functionality of one or more of its components. The processor (201) executes the necessary computer-readable instructions contained in the main memory (202).

Память (202), как правило, выполнена в виде ОЗУ и содержит необходимую программную логику, обеспечивающую требуемый функционал. Memory (202), as a rule, is made in the form of RAM and contains the necessary software logic that provides the required functionality.

Средство хранения данных (203) может выполняться в виде HDD, SSD дисков, рейд массива, сетевого хранилища, флэш-памяти, оптических накопителей информации (CD, DVD, MD, Blue-Ray дисков) и т.п. Средство (203) позволяет выполнять долгосрочное хранение различного вида информации, например, вышеупомянутых файлов с наборами данных пользователей, базы данных, содержащих записи измеренных для каждого пользователя временных интервалов, идентификаторов пользователей и т.п.The data storage medium (203) can be performed in the form of HDD, SSD disks, raid array, network storage, flash memory, optical information storage devices (CD, DVD, MD, Blue-Ray disks), etc. The means (203) allows performing long-term storage of various types of information, for example, the aforementioned files with user data sets, a database containing records of time intervals measured for each user, user identifiers, etc.

Интерфейсы (204) представляют собой стандартные средства для подключения и работы с серверной частью, например, USB, RS232, RJ45, LPT, COM, HDMI, PS/2, Lightning, FireWire и т.п.Interfaces (204) represent standard means for connecting and working with the server side, for example, USB, RS232, RJ45, LPT, COM, HDMI, PS / 2, Lightning, FireWire, etc.

Выбор интерфейсов (204) зависит от конкретного исполнения устройства (200), которое может представлять собой персональный компьютер, мейнфрейм, серверный кластер, тонкий клиент, смартфон, ноутбук и т.п.The choice of interfaces (204) depends on the specific implementation of the device (200), which can be a personal computer, mainframe, server cluster, thin client, smartphone, laptop, etc.

В качестве средств В/В данных (205) в любом воплощении системы, реализующей описываемый способ, должна использоваться клавиатура. Аппаратное исполнение клавиатуры может быть любым известным: это может быть, как встроенная клавиатура, используемая на ноутбуке или нетбуке, так и обособленное устройство, подключенное к настольному компьютеру, серверу или иному компьютерному устройству. Подключение при этом может быть, как проводным, при котором соединительный кабель клавиатуры подключен к порту PS/2 или USB, расположенному на системном блоке настольного компьютера, так и беспроводным, при котором клавиатура осуществляет обмен данными по каналу беспроводной связи, например, радиоканалу, с базовой станцией, которая, в свою очередь, непосредственно подключена к системному блоку, например, к одному из USB-портов. Помимо клавиатуры, в составе средств В/В данных также может использоваться: джойстик, дисплей (сенсорный дисплей), проектор, тачпад, манипулятор мышь, трекбол, световое перо, динамики, микрофон и т.п.As means of I / O data (205) in any embodiment of a system that implements the described method, a keyboard should be used. The hardware design of the keyboard can be any known: it can be either a built-in keyboard used on a laptop or netbook, or a separate device connected to a desktop computer, server or other computer device. In this case, the connection can be either wired, in which the connecting cable of the keyboard is connected to the PS / 2 or USB port located on the system unit of the desktop computer, or wireless, in which the keyboard exchanges data via a wireless communication channel, for example, a radio channel, with base station, which, in turn, is directly connected to the system unit, for example, to one of the USB ports. In addition to the keyboard, I / O data can also include: joystick, display (touch screen), projector, touchpad, mouse, trackball, light pen, speakers, microphone, etc.

Средства сетевого взаимодействия (206) выбираются из устройства, обеспечивающий сетевой прием и передачу данных, например, Ethernet карту, WLAN/Wi-Fi модуль, Bluetooth модуль, BLE модуль, NFC модуль, IrDa, RFID модуль, GSM модем и т.п. С помощью средств (205) обеспечивается организация обмена данными по проводному или беспроводному каналу передачи данных, например, WAN, PAN, ЛВС (LAN), Интранет, Интернет, WLAN, WMAN или GSM.Networking means (206) are selected from a device that provides network reception and transmission of data, for example, Ethernet card, WLAN / Wi-Fi module, Bluetooth module, BLE module, NFC module, IrDa, RFID module, GSM modem, etc. The means (205) provide the organization of data exchange via a wired or wireless data transmission channel, for example, WAN, PAN, LAN, Intranet, Internet, WLAN, WMAN or GSM.

Компоненты устройства (200) сопряжены посредством общей шины передачи данных (210).The components of the device (200) are interfaced through a common data bus (210).

В настоящих материалах заявки было представлено предпочтительное раскрытие осуществление заявленного технического решения, которое не должно использоваться как ограничивающее иные, частные воплощения его реализации, которые не выходят за рамки испрашиваемого объема правовой охраны и являются очевидными для специалистов в соответствующей области техники.In the present application materials, the preferred disclosure of the implementation of the claimed technical solution was presented, which should not be used as limiting other, particular embodiments of its implementation, which do not go beyond the scope of the claimed scope of legal protection and are obvious to specialists in the relevant field of technology.

Claims (9)

1. Компьютерно-реализованный способ обработки геопространственных спутниковых данных с помощью компьютерного зрения, включающий этапы, на которых:1. Computer-implemented method for processing geospatial satellite data using computer vision, including the stages at which: - получают спутниковые снимки и сохраняют их в базе данных;- receive satellite images and store them in the database; - в модуле предобработки, сохраненные спутниковые снимки нормализуют и сегментируют;- in the preprocessing module, the saved satellite images are normalized and segmented; - предобработанные снимки поступают на вход нейронной сети, которая обучена с помощью финальной функции потерь, представленной как линейная сумма трех слагаемых, а именно: бинарной кросс-энтропии, функции потерь, основанной на дифференцируемом аналоге метрики оценивания качества граничной F-меры, и функции потерь, основанной на метрике Intersection over Union, причем дифференцируемый аналог метрики оценивания качества граничной F-меры получают следующим образом: получают карты границ сегментов, на основании которых получают карты границ большей толщины, далее получают показатели точности и полноты, посредством попиксельного произведения полученных сегментационных карт, после чего получают дифференцируемый аналог метрики оценивания качества граничной F-меры на основании полученных показателей точности и полноты;- preprocessed images arrive at the input of the neural network, which is trained using the final loss function, represented as a linear sum of three terms, namely: binary cross-entropy, a loss function based on a differentiable analogue of the quality estimation metric of the boundary F-measure, and a loss function , based on the Intersection over Union metric, and the differentiable analogue of the quality assessment metric of the boundary F-measure is obtained as follows: maps of segment boundaries are obtained, on the basis of which maps of boundaries of greater thickness are obtained, then the accuracy and completeness indicators are obtained by means of the pixel-by-pixel product of the obtained segmentation maps, after which a differentiable analogue of the metric for assessing the quality of the boundary F-measure is obtained based on the obtained indicators of accuracy and completeness; - на выходе нейронной сети получают снимки, где значение каждого пикселя является вероятностью принадлежности пикселя к определенному классу объектов;- at the output of the neural network, images are obtained, where the value of each pixel is the probability of a pixel belonging to a certain class of objects; - в модуле постобработки, значения пикселей округляют по пороговому значению, после чего полученные сегменты соединяют, образуя сегментационную карту спутникового снимка.- in the post-processing module, the pixel values are rounded off by the threshold value, after which the obtained segments are connected, forming a segmentation map of the satellite image. 2. Способ по п.1, отличающийся тем, что результатом расчета бинарной кросс-энтропии является вероятность соответствия предсказанной метки пикселя целевой метке пикселя.2. The method according to claim 1, characterized in that the calculation result of the binary cross-entropy is the probability that the predicted pixel mark will match the target pixel mark. 3. Способ по п.1, отличающийся тем, что результатом функции потерь, основанной на дифференцируемом аналоге метрики оценивания качества граничной F-меры, является выделение границ целевого и предсказанного сегмента, расширенных границ целевого и предсказанного сегмента и попиксельное произведение сегментационных карт.3. The method according to claim 1, characterized in that the result of the loss function based on a differentiable analogue of the quality estimation metric of the boundary F-measure is the selection of the boundaries of the target and predicted segment, extended boundaries of the target and predicted segment and the pixel product of segmentation maps. 4. Способ по п.1, отличающийся тем, что результатом функции потерь, основанной на метрике Intersection over Union, является определение количества совпадений предсказанных пикселей с реальными пикселями.4. The method according to claim 1, characterized in that the result of the loss function based on the Intersection over Union metric is to determine the number of matches of the predicted pixels with real pixels.
RU2019142013A 2019-12-18 2019-12-18 Method of processing images of remote earth probing using a neural network with a fine for accuracy of the segmentation boundary RU2740736C1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
RU2019142013A RU2740736C1 (en) 2019-12-18 2019-12-18 Method of processing images of remote earth probing using a neural network with a fine for accuracy of the segmentation boundary

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
RU2019142013A RU2740736C1 (en) 2019-12-18 2019-12-18 Method of processing images of remote earth probing using a neural network with a fine for accuracy of the segmentation boundary

Publications (1)

Publication Number Publication Date
RU2740736C1 true RU2740736C1 (en) 2021-01-20

Family

ID=74183782

Family Applications (1)

Application Number Title Priority Date Filing Date
RU2019142013A RU2740736C1 (en) 2019-12-18 2019-12-18 Method of processing images of remote earth probing using a neural network with a fine for accuracy of the segmentation boundary

Country Status (1)

Country Link
RU (1) RU2740736C1 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023096519A1 (en) * 2021-11-25 2023-06-01 Публичное Акционерное Общество "Сбербанк России" Method and device for identifying the outlines of agricultural fields

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2656708C1 (en) * 2017-06-29 2018-06-06 Самсунг Электроникс Ко., Лтд. Method for separating texts and illustrations in images of documents using a descriptor of document spectrum and two-level clustering
KR20190119261A (en) * 2018-04-12 2019-10-22 가천대학교 산학협력단 Apparatus and method for segmenting of semantic image using fully convolutional neural network based on multi scale image and multi scale dilated convolution
CN110428432A (en) * 2019-08-08 2019-11-08 梅礼晔 The deep neural network algorithm of colon body of gland Image Automatic Segmentation
CN110428428A (en) * 2019-07-26 2019-11-08 长沙理工大学 A kind of image, semantic dividing method, electronic equipment and readable storage medium storing program for executing

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2656708C1 (en) * 2017-06-29 2018-06-06 Самсунг Электроникс Ко., Лтд. Method for separating texts and illustrations in images of documents using a descriptor of document spectrum and two-level clustering
KR20190119261A (en) * 2018-04-12 2019-10-22 가천대학교 산학협력단 Apparatus and method for segmenting of semantic image using fully convolutional neural network based on multi scale image and multi scale dilated convolution
CN110428428A (en) * 2019-07-26 2019-11-08 长沙理工大学 A kind of image, semantic dividing method, electronic equipment and readable storage medium storing program for executing
CN110428432A (en) * 2019-08-08 2019-11-08 梅礼晔 The deep neural network algorithm of colon body of gland Image Automatic Segmentation

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
ALEXEY BOKHOVKIN и др., "Boundary Loss for Remote Sensing Imagery Semantic Segmentation", 20.05.2019, 14 страниц, доступно: https://arxiv.org/abs/1905.07852. *
ALEXEY BOKHOVKIN и др., "Boundary Loss for Remote Sensing Imagery Semantic Segmentation", 20.05.2019, 14 страниц, доступно: https://arxiv.org/abs/1905.07852. BERIL SIRMACEK и др., "Semantic Segmentation of Skin Lesions using a Small Data Set", 24.10.2019, 26 страниц, доступно: https://arxiv.org/abs/1910.10534. *
BERIL SIRMACEK и др., "Semantic Segmentation of Skin Lesions using a Small Data Set", 24.10.2019, 26 страниц, доступно: https://arxiv.org/abs/1910.10534. *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023096519A1 (en) * 2021-11-25 2023-06-01 Публичное Акционерное Общество "Сбербанк России" Method and device for identifying the outlines of agricultural fields

Similar Documents

Publication Publication Date Title
Turker et al. Building‐based damage detection due to earthquake using the watershed segmentation of the post‐event aerial images
US9129192B2 (en) Semantic object proposal generation and validation
US20180307948A1 (en) Method and device of constructing decision model, computer device and storage apparatus
CN110288602B (en) Landslide extraction method, landslide extraction system and terminal
US20150170005A1 (en) Semantic object selection
CN111160407B (en) Deep learning target detection method and system
CN107688772A (en) Method, apparatus, computer equipment and the storage medium of policy information typing
CN106295613A (en) A kind of unmanned plane target localization method and system
Xu et al. A supervoxel approach to the segmentation of individual trees from LiDAR point clouds
Dai et al. Building segmentation and outline extraction from UAV image-derived point clouds by a line growing algorithm
CN114677565B (en) Training method and image processing method and device for feature extraction network
CN109993753B (en) Method and device for segmenting urban functional area in remote sensing image
CN114719966A (en) Light source determination method and device, electronic equipment and storage medium
JP2013016168A (en) Method and device for positioning text area in image
Lauko et al. Local color and morphological image feature based vegetation identification and its application to human environment street view vegetation mapping, or how green is our county?
Huang et al. A density-based clustering method for the segmentation of individual buildings from filtered airborne LiDAR point clouds
CN116258956A (en) Unmanned aerial vehicle tree recognition method, unmanned aerial vehicle tree recognition equipment, storage medium and unmanned aerial vehicle tree recognition device
Wang et al. End-to-end trainable network for superpixel and image segmentation
RU2740736C1 (en) Method of processing images of remote earth probing using a neural network with a fine for accuracy of the segmentation boundary
CN115019163A (en) City factor identification method based on multi-source big data
EP4310745A1 (en) Methods and systems for high resolution and scalable crop yield forecasting
CN111091580B (en) Stumpage image segmentation method based on improved ResNet-UNet network
CN117371511A (en) Training method, device, equipment and storage medium for image classification model
JP7207530B2 (en) Information processing device, creation method and creation program
CN116824138A (en) Interactive image segmentation method and device based on click point influence enhancement