RU2740736C1

RU2740736C1 - Method of processing images of remote earth probing using a neural network with a fine for accuracy of the segmentation boundary

Info

Publication number: RU2740736C1
Application number: RU2019142013A
Authority: RU
Inventors: Алексей Валерьевич Артёмов; Евгений Владимирович Бурнаев; Алексей Константинович Боховкин; Денис Алексеевич Волхонский
Priority date: 2019-12-18
Filing date: 2019-12-18
Publication date: 2021-01-20

Abstract

FIELD: data processing.

SUBSTANCE: invention relates to a method of processing geospatial satellite data. Method involves obtaining satellite images and storing them in a database, then shots are normalized, segmented and processed by a neural network, trained by means of final loss function, presented as linear sum of three terms: binary cross-entropy, loss function based on Intersection over Union metric, and a loss function based on a differentiated analogue of the metric of estimating the quality of the boundary F-measure, obtained as follows: obtaining segment boundaries maps, based on which maps of boundaries of greater thickness are obtained, then obtaining indicators of accuracy and completeness, by means of pixel product of obtained segment maps, based on which a differentiable analogue of the quality metric of the boundary F-measure is obtained; at the output of the neural network receiving images, where the value of each pixel is the probability of the pixel belonging to the determined object class; pixel values are rounded off by a threshold value, and the obtained segments are connected to form a segmented satellite image map.

EFFECT: technical result consists in improvement of satellite images processing quality.

4 cl, 4 dwg

Description

ОБЛАСТЬ ТЕХНИКИFIELD OF TECHNOLOGY

Настоящее техническое решение относится к области дистанционного зондирования Земли (ДЗЗ), в частности, к компьютерно-реализованному способу обработки геопространственных спутниковых данных с помощью компьютерного зрения.This technical solution relates to the field of Earth remote sensing (ERS), in particular, to a computer-implemented method for processing geospatial satellite data using computer vision.

УРОВЕНЬ ТЕХНИКИLEVEL OF TECHNOLOGY

Благодаря тому что данные ДЗЗ становятся доступны все с большим пространственным и спектральным разрешением, подходы объектного анализа изображения набирают все больший вес. Сравнивая с традиционными подходами, ориентированными на отдельные пиксели в изображении, объектные методы анализа используют области или, как их по-другому называют в цифровой обработке изображений, сегменты изображения, как базовые единицы. Ключевым этапом в объектно-ориентированном анализе является сегментация изображений. Целью сегментации является упрощение и/или изменение представления графической информации во что-то более значимое и простое для последующего анализа. Due to the fact that remote sensing data are becoming available with ever greater spatial and spectral resolution, approaches to object image analysis are gaining more and more weight. Compared to traditional approaches that focus on individual pixels in an image, object analysis methods use regions, or, as they are called in digital image processing, image segments as basic units. A key step in object-oriented analysis is image segmentation. The purpose of segmentation is to simplify and / or change the presentation of graphical information into something more meaningful and simpler for later analysis.

Семантическая сегментация спутниковых изображений земной поверхности является ключевым шагом в процессе анализа изображения, целью которого является получение карты соответствия каждого пикселя определенному классу. Применения этому существуют в мониторинге окружающей среды, планировании городского строительства и развития, мониторинге лесов и с/х территорий и др.Semantic segmentation of satellite images of the earth's surface is a key step in the image analysis process, the goal of which is to obtain a map of the correspondence of each pixel to a certain class. Applications for this exist in environmental monitoring, urban planning and development, forest and agricultural monitoring, etc.

Применение предлагаемого метода главным образом направлено на сегментацию зданий. Как правило, снимки городской застройки представлены в высоком разрешении. Более высокое разрешение вносит множество мелких деталей и структур на изображение.The application of the proposed method is mainly aimed at building segmentation. As a rule, images of city buildings are presented in high resolution. Higher resolution introduces a lot of fine detail and structure to the image.

Впоследствии полученные сегментированные снимки используются для оценки высотности зданий, предсказания численности населения и экономических прогнозов. Для большинства задач необходимо, чтобы сегменты, соответствующие близстоящим зданиям, были разделены границей, поэтому требуется создание способа, повышающего внимание нейронной сети к краям сегментов соседствующих объектов. Достигнуть этого можно с помощью вычисления специальной функции потерь, которая способна выделять границы сегментов из предсказания нейронной сети и накладывать штраф на области, где предсказанные границы сегментов не совпадают с границами идеально сегментированного изображения.Subsequently, the resulting segmented images are used to estimate the height of buildings, predict the population size and economic forecasts. For most tasks, it is necessary that the segments corresponding to nearby buildings be separated by a boundary, therefore, it is required to create a method that increases the attention of the neural network to the edges of segments of neighboring objects. This can be achieved by calculating a special loss function that can extract segment boundaries from neural network predictions and impose a penalty on areas where the predicted segment boundaries do not coincide with the boundaries of a perfectly segmented image.

Из уровня техники известен источник информации RU 2656708 C1, 06.06.2018, который раскрывает способ разделения иллюстраций, содержащий этапы получения данных, сегментации данных, нормализации, а в качестве функции потерь используется средняя абсолютная ошибка в процентах. A source of information RU 2656708 C1, 06.06.2018 is known from the prior art, which discloses a method for dividing illustrations containing the stages of data acquisition, data segmentation, normalization, and the average absolute percentage error is used as a loss function.

Однако использование в качестве функции потери средней абсолютной ошибки в процентах, не принесет получение сегментов высокого качества, а также не получится определение высокой точности сегментации вблизи границ сегментов.However, using the average absolute percentage error as a loss function will not bring high quality segments, and it will not work to determine the high segmentation accuracy near segment boundaries.

Наиболее близким аналогом является источник информации CN110428432 A, 08.11.2019, в котором создается шаблон набора данных, строится модель сегментационной сети. Сеть состоит из интенсивных свёрточных нейронных сетей и усовершенствованной U-Net, а интенсивные свёрточные нейронные сети используются для извлечения информации на изображении. В качестве функции потерь используют сумму метрики IoU и функции фокальных потерь (Focal Loss), которая является BF1, для решения задачи сегментации контуров, потому что существует серьезный дисбаланс класса в профиле и фоновом пикселе, чтобы повысить точность сегментации профиля, здесь используется функция фокальных потерь, которая может эффективно улучшить характеристики точечного среза. The closest analogue is the information source CN110428432 A, 11/08/2019, in which a dataset template is created, a segmentation network model is built. The network consists of intensive convolutional neural networks and an advanced U-Net, and intensive convolutional neural networks are used to extract information from the image. As a loss function, the sum of the IoU metric and the Focal Loss function (Focal Loss), which is BF1, is used to solve the contour segmentation problem, because there is a serious class imbalance in the profile and the background pixel, in order to improve the accuracy of the profile segmentation, the focal loss function is used here , which can effectively improve the performance of the point cut.

Однако в данной работе функция потерь нейронной сети не выделяет границы настоящего и предсказанного сегмента автоматически, а требует заранее подготовленной разметки. Также в предлагаемом нами техническом решении присутствует третье слагаемое, соответствующее бинарной кросс-энтропии. Его необходимость обусловлена тем, что спутниковые снимки являются более сложными и разнообразными по сравнению с медицинскими снимками, а кросс-энтропия помогает уменьшить расстояние между истинным и предсказанным распределением масок сегментов.However, in this work, the neural network loss function does not automatically identify the boundaries of the present and predicted segment, but requires a previously prepared marking. Also in our proposed technical solution there is a third term corresponding to binary cross-entropy. Its necessity is due to the fact that satellite images are more complex and varied than medical images, and cross-entropy helps to reduce the distance between the true and predicted distribution of segment masks.

СУЩНОСТЬ ИЗОБРЕТЕНИЯSUMMARY OF THE INVENTION

Технической проблемой, на решение которой направлено заявленное техническое решение, является создание компьютерно-реализуемого способа обработки геопространственных спутниковых данных с помощью компьютерного зрения, который охарактеризован в независимом пункте формулы. Дополнительные варианты реализации настоящего изобретения представлены в зависимых пунктах изобретения.The technical problem to be solved by the claimed technical solution is the creation of a computer-implemented method for processing geospatial satellite data using computer vision, which is characterized in an independent claim. Additional embodiments of the present invention are presented in the dependent claims.

Технический результат заключается в получение высокой точности сегментации вблизи границ сегментов.The technical result consists in obtaining high segmentation accuracy near the segment boundaries.

В предпочтительном варианте реализации заявлен компьютерно-реализованный способ обработки геопространственных спутниковых данных с помощью компьютерного зрения, включающий этапы, на которых: In a preferred embodiment, a computer-implemented method for processing geospatial satellite data using computer vision is claimed, including the steps at which:

- получают спутниковые снимки и сохраняют их в базе данных;- receive satellite images and store them in the database;

- в модуле предобработки сохраненные снимки нормализуют и сегментируют; - saved images are normalized and segmented in the preprocessing module;

- предобработанные снимки поступают на вход нейронной сети, которая обучена с помощью финальной функции потерь, представленной как линейная сумма трех слагаемых, а именно: бинарной кросс-энтропии, функции потерь, основанной на дифференцируемом аналоге метрики оценивания качества BF₁ и функции потерь, основанной на метрике IoU;- preprocessed images arrive at the input of the neural network, which is trained using the final loss function, represented as a linear sum of three terms, namely: binary cross-entropy, loss function based on a differentiable analogue of the quality estimation metric BF ₁ and loss function based on IoU metric;

- на выходе нейронной сети получают снимки, значение пикселей которых, является вероятностью принадлежности пикселя к определенному классу объектов;- at the output of the neural network, images are obtained, the pixel value of which is the probability of a pixel belonging to a certain class of objects;

- в модуле постобработки значения пикселей округляют по пороговому значению, после чего полученные сегменты соединяют, образуя сегментационную карту спутникового снимка.- in the post-processing module, the pixel values are rounded off at the threshold value, after which the obtained segments are connected, forming a segmentation map of the satellite image.

В частном варианте, результатом расчета бинарной кросс-энтропии является вероятность соответствия целевой метке пикселя и предсказанной метке пикселя. In a particular version, the result of calculating the binary cross-entropy is the probability of matching the target pixel label and the predicted pixel label.

В другом частном варианте, результатом функции потерь, основанной на дифференцируемом аналоге метрики оценивания качества BF₁, является выделение границ целевого и предсказанного сегмента, расширенных границ целевого и предсказанного сегмента и попиксельное произведение сегментационных карт.In another particular embodiment, the result of the loss function based on the differentiable analogue of the quality assessment metric BF ₁ is the extraction of the boundaries of the target and predicted segment, extended boundaries of the target and predicted segment, and the pixel-by-pixel product of segmentation maps.

В другом частном варианте результатом функции потерь, основанной на метрике IoU, является определение количества совпадений предсказанных пикселей с реальными пикселями.In another particular embodiment, the result of the loss function based on the IoU metric is to determine the number of matches of the predicted pixels with real pixels.

ОПИСАНИЕ ЧЕРТЕЖЕЙDESCRIPTION OF DRAWINGS

Реализация изобретения будет описана в дальнейшем в соответствии с прилагаемыми чертежами, которые представлены для пояснения сути изобретения и никоим образом не ограничивают область изобретения. К заявке прилагаются следующие чертежи:The implementation of the invention will be described in the following in accordance with the accompanying drawings, which are presented to clarify the essence of the invention and in no way limit the scope of the invention. The following drawings are attached to the application:

Фиг. 1 иллюстрирует общую схему обработки данных спутникового изображения.FIG. 1 illustrates a general scheme for processing satellite image data.

Фиг. 2 иллюстрирует сегментацию данных изображений на участки для подачи данных на вход нейронной сети.FIG. 2 illustrates the segmentation of image data into regions for feeding data to the input of a neural network.

Фиг. 3 иллюстрирует пример матриц значений на каждом шаге вычисления функции потерь.FIG. 3 illustrates an example of matrices of values at each step of calculating the loss function.

Фиг. 4 иллюстрирует блок-схему вычислительного устройства.FIG. 4 illustrates a block diagram of a computing device.

ДЕТАЛЬНОЕ ОПИСАНИЕ ИЗОБРЕТЕНИЯDETAILED DESCRIPTION OF THE INVENTION

В приведённом ниже подробном описании реализации изобретения приведены многочисленные детали реализации, призванные обеспечить отчётливое понимание настоящего изобретения. Однако квалифицированному в предметной области специалисту будет очевидно, каким образом можно использовать настоящее изобретение как с данными деталями реализации, так и без них. В других случаях хорошо известные методы, процедуры и компоненты не были описаны подробно, чтобы не затруднять понимание особенностей настоящего изобретения.In the following detailed description of the implementation of the invention, numerous implementation details are provided to provide a clear understanding of the present invention. However, it will be obvious to a person skilled in the art how the present invention can be used with or without these implementation details. In other instances, well-known techniques, procedures, and components have not been described in detail so as not to obscure the features of the present invention.

Кроме того, из приведенного изложения будет ясно, что изобретение не ограничивается приведенной реализацией. Многочисленные возможные модификации, изменения, вариации и замены, сохраняющие суть и форму настоящего изобретения, будут очевидными для квалифицированных в предметной области специалистов.In addition, it will be clear from the above description that the invention is not limited to the above implementation. Numerous possible modifications, changes, variations and substitutions, while retaining the spirit and form of the present invention, will be apparent to those skilled in the art.

Настоящее изобретение направлено на обеспечение компьютерно-реализованного способа обработки геопространственных спутниковых данных с помощью компьютерного зрения.The present invention is directed to providing a computer-implemented method for processing geospatial satellite data using computer vision.

Полученные изображения земной поверхности с помощью спутниковой фотосъемки, используются для получения карт сегментации, где сегментами выступают объекты на снимках (здания). Для оценивания качества сегментации используются метрики оценивания. Заявленный способ обработки геопространственных спутниковых данных с помощью компьютерного зрения, направлен на применение метрики оценивания в обучении нейронной сегментационной сети, а именно использование метрики в качестве функции потерь. The obtained images of the earth's surface using satellite photography are used to obtain segmentation maps, where objects in the images (buildings) act as segments. Assessment metrics are used to assess the segmentation quality. The claimed method for processing geospatial satellite data using computer vision is aimed at using the estimation metric in training a neural segmentation network, namely, using the metric as a loss function.

В данном техническом решении такой метрикой выступает граничная F мера (BF₁). F-мера является хорошим кандидатом на формальную метрику оценки качества классификатора. Она сводит к одному числу две другие основополагающие метрики: точность и полноту. Чтобы использовать данную метрику как функцию потерь, получен дифференцируемый аналог метрики, или суррогат. Данная функция выделяет границы сегментов на изображениях, полученных на выходе нейронной сети и идеально сегментированного изображения, а затем по этим границам считается само значение метрики с помощью дифференцируемых операций. Важным свойством суррогата является возможность настраивать толщину выделяемой границы, что особенно важно для изображений с плотной застройкой зданий. In this technical solution, such a metric is the boundary measure F (BF ₁ ). The F-measure is a good candidate for a formal metric for assessing the quality of a classifier. It reduces to one number the other two fundamental metrics: accuracy and completeness. To use this metric as a loss function, a differentiable analog of the metric, or a surrogate, is obtained. This function selects the boundaries of segments in images obtained at the output of a neural network and an ideally segmented image, and then the metric value itself is calculated along these boundaries using differentiable operations. An important property of the surrogate is the ability to adjust the thickness of the selected border, which is especially important for images with densely built-up buildings.

На фигуре 1 показаны шаги способа, которые осуществляется с помощью вычислительного устройства. Провайдеры спутниковых данных (101) предоставляют спутниковые трехканальные (RGB) снимки земной поверхности с разрешением не менее 0.3 м, для их последующей обработки. К каждому снимку также прилагается эталонное одноканальное изображение того же размера с бинарной разметкой сегментов класса зданий. Данные одноканальные изображения получают при помощи специальных программных обеспечений, например QGIS или AeroNet, в которых размечают спутниковые снимки, а именно присваивают значение 1 пикселю, который соответствует классу зданий и 0 если пиксель соответствует фону. Данные одноканальные снимки необходимы для обучения нейронной сети и представляют собой идеально сегментированную разметку. Далее снимки сохраняются в базе данных (102). The figure 1 shows the steps of the method, which is carried out using a computing device. Satellite data providers (101) provide satellite three-channel (RGB) images of the Earth's surface with a resolution of at least 0.3 m for their subsequent processing. Each image is also accompanied by a reference single-band image of the same size with a binary segment marking of the building class. These single-band images are obtained using special software, such as QGIS or AeroNet, in which satellite images are tagged, namely, they assign a value of 1 pixel, which corresponds to the class of buildings and 0 if the pixel corresponds to the background. These single-band images are necessary for training the neural network and represent ideally segmented markup. Then the images are saved in the database (102).

На этапе предобработки (103), спутниковые трехканальные изображения проходят этап нормализации, выравнивание гистограммы изображения. Более подробно, изображение y, представленное тремя матрицами целых значений [0, 255] yR,yG,yB нормализуется к диапазону значений [0, 1]: y, norm=y/255. Далее три канала yR,yG,yB подаются на вход операции выравнивания гистограммы (opencv). Также все снимки сегментируются на участки размером 512×512 пикселей и подаются на вход нейронной сети (104), вместе с эталонными одноканальными изображениями, для ее обучения на этапе построения сегментационной модели с оригинальной функцией потерь, (показано на Фиг. 2), величина перекрытия между соседними участками 128 пикселей. At the stage of preprocessing (103), satellite three-channel images go through the stage of normalization, alignment of the image histogram. In more detail, the image y, represented by three matrices of integers [0, 255] yR, yG, yB, is normalized to the range of values [0, 1]: y, norm = y / 255. Then three channels yR, yG, yB are fed to the input of the histogram alignment operation (opencv). Also, all images are segmented into areas of 512 × 512 pixels and fed to the input of the neural network (104), together with reference single-channel images, for training it at the stage of building a segmentation model with an original loss function (shown in Fig. 2), the amount of overlap between adjacent areas 128 pixels.

Обучение нейронной сети является итеративным, то есть, когда происходит предсказание, нейронная сеть выдает предсказанное одноканальное изображение. Данное предсказанное изображение сравнивается с эталонным одноканальным изображением, путем вычисления финальной функции потерь, которая способна выделить границы сегментов из предсказания нейронной сети и наложить штраф на области, где предсказанные границы сегментов не совпадают с границами идеально сегментированного изображения. The training of the neural network is iterative, that is, when a prediction occurs, the neural network outputs the predicted single-channel image. This predicted image is compared with a reference single-band image by calculating a final loss function that is capable of extracting segment boundaries from neural network predictions and penalizing areas where the predicted segment boundaries do not coincide with the boundaries of a perfectly segmented image.

Штрафом называется ошибка в определении, которая является значением вычисленной функции потерь, чем оно выше, тем больше ошибка. Выходом нейронной сети являются одноканальные изображения размером 512×512 для каждого поданного на вход участка. Значениями пикселей полученного изображения являются вероятности принадлежности пикселя к классу зданий. Каждому пикселю присвоено одно из двух значений, из которых первое принадлежит классу зданий, а второе фону. A penalty is an error in determination, which is the value of the calculated loss function; the higher it is, the greater the error. The output of the neural network is a 512 × 512 single-channel image for each input area. The pixel values of the resulting image are the probabilities of the pixel belonging to the class of buildings. Each pixel is assigned one of two values, of which the first belongs to the building class and the second to the background.

В модуле постобработки (105) все вероятности округляются по пороговому значению, здесь пороговое значение равно 0.5. Все значения в выходном изображении нейронной сети меньше 0.5 округляются до значения 0, а большие или равные этого значения округляются до значения 1. После этого участки размером 512×512 соединяются обратно в соответствии со схемой сегментации и получается одноканальное изображение того же размера.In the postprocessing module (105), all probabilities are rounded by the threshold value, here the threshold value is 0.5. All values in the output image of the neural network less than 0.5 are rounded to the value 0, and those greater or equal to this value are rounded to the value 1. After that, the 512 × 512 sections are connected back in accordance with the segmentation scheme and a single-channel image of the same size is obtained.

В качестве нейронной сети выбрана модель семейства UNet. В качестве схемы компоновки внутренних слоев нейронной сети выбраны архитектуры ResNet и Inception-ResNet-v2.The model of the UNet family was chosen as a neural network. The architecture of ResNet and Inception-ResNet-v2 was chosen as the layout diagram of the inner layers of the neural network.

Высокое качество получаемых сегментов возможно благодаря обучению сегментационной модели нейронной сети с помощью предлагаемой финальной функции потерь, которая является линейной комбинацией трех слагаемых:The high quality of the obtained segments is possible due to the training of the segmentation model of the neural network using the proposed final loss function, which is a linear combination of three terms:

- BCE (Binary Cross Entropy) – бинарная кросс-энтропия; - BCE (Binary Cross Entropy) - binary cross-entropy;

- функция потерь, основанная на суррогате метрики оценивания качества BF₁ (Boundary F₁);- the loss function based on the quality estimation metric BF ₁ (Boundary F ₁ );

- функция потерь, основанная на метрике IoU.- loss function based on the IoU metric.

Обозначим следующие наборы данных: y_gt - целевая сегментационная карта зданий соответствующая спутниковому изображению, y_pd - сегментационная карта зданий, предсказанная нейронной сетью,

- целевая сегментационная карта границ сегментов определенной толщины в пикселях,

- предсказанная сегментационная карта границ зданий, sum() - сумма значений пикселей, N - количество пикселей на изображении. Картами здесь являются матрицы значений размером равным размерам входных изображений, для конкретного пикселя i, y_gt,i принимает значение 0 и 1, y_pd,i принимает значение на отрезке [0, 1]. Let's designate the following datasets: y _gt - target segmentation map of buildings corresponding to the satellite image, y _pd - segmentation map of buildings predicted by the neural network,

- target segmentation map of segment boundaries of a certain thickness in pixels,

is the predicted segmentation map of building boundaries, sum () is the sum of pixel values, N is the number of pixels in the image. Maps here are matrices of values equal to the sizes of the input images, for a specific pixel i, y _{gt, i} takes the value 0 and 1, y _{pd, i} takes a value on the segment [0, 1].

Первым слагаемым функции потерь является бинарная кросс-энтропия (между картами применяются попиксельные операции):The first term of the loss function is binary cross-entropy (pixel-by-pixel operations are applied between maps):

Бинарная кросс-энтропия - статистическая метрика, пропорциональная расстоянию Кульбака-Лейблера между истинным распределением данных и предсказанным. Вероятностно данная метрика может быть проинтерпретирована, как вероятность соответствия правильной метки пикселя y_gt,i и предсказанной метки y_pd,i, где с помощью индекса i обозначен рассматриваемый пиксель. Binary cross-entropy is a statistical metric proportional to the Kullback-Leibler distance between the true data distribution and the predicted one. Probably, this metric can be interpreted as the probability of matching the correct pixel label y _{gt, i} and the predicted label y _{pd, i} , where the index i denotes the considered pixel.

Вторым слагаемым функции потерь является суррогат метрики оценивания качества BF₁. Для данной модели суррогат строится поэтапно, сначала с помощью операции MaxPooling (далее - pool) выделяются границы сегментов:The second term of the loss function is the surrogate of the quality assessment metric BF ₁ . For this model, the surrogate is built in stages, first, using the MaxPooling operation (hereinafter referred to as pool), the segment boundaries are selected:

Здесь параметром θ₀ обозначен размер окна операции pool, оптимальное значение - 3. Далее из полученных карт границ необходимо получить карты границ большей толщины, утолщение границы регулируется параметром θ, максимальное значение которого рекомендуется устанавливать величиной минимального расстояния между соседними сегментами изображения.Here, the parameter θ ₀ denotes the size of the pool operation window, the optimal value is 3. Further, from the obtained boundary maps, it is necessary to obtain boundary maps of greater thickness, the thickening of the boundary is regulated by the parameter θ, the maximum value of which is recommended to be set by the value of the minimum distance between adjacent image segments.

После этого рассчитываются значения Precision (P) и Recall (R):The Precision (P) and Recall (R) values are then calculated:

где операция ° обозначает попиксельное умножение сегментационных карт. В итоге получаем дифференцируемый суррогат метрики и соответствующую функцию потерь:where the ° operation denotes pixel-by-pixel multiplication of the segmentation maps. As a result, we get a differentiable metric surrogate and the corresponding loss function:

На Фиг. 3 можно увидеть примеры матриц значений на каждом шаге вычисления функции потерь: (a) - оригинальное изображение; (b) - целевой сегмент y_gt; (c) - предсказанный сегмент y_pd; (d) - граница целевого сегмента

; (e) - граница предсказанного сегмента

; (f) - расширенная граница целевого сегмента

; (g) - расширенная граница предсказанного сегмента

; (h) - попиксельное умножение (d) и (g), карта Precision; попиксельное умножение (e) и (f), карта Recall.FIG. 3 you can see examples of matrices of values at each step of calculating the loss function: (a) - original image; (b) - target segment y _gt ; (c) predicted segment y _pd ; (d) - target segment boundary

; (e) - predicted segment boundary

; (f) - extended target segment boundary

; (g) - extended bound of the predicted segment

; (h) - per-pixel multiplication (d) and (g), Precision map; per-pixel multiplication (e) and (f), Recall card.

Последним слагаемым является функция потерь, основанная на метрике IoU, рассчитанная на сегментационных картах:The last term is the loss function based on the IoU metric calculated on segmentation maps:

Intersection-over-Union (индекс Жаккарда) - наиболее распространенная метрика для задач сегментации. Выделив два множества целевого класса: предсказанное и истинное, метрика выражает отношение пересечения этих множеств

к их объединению

Данная метрика прекрасно справляется с проблемой несбалансированных классов, которая явно присутствует в области спутниковых снимков, где количество пикселей, соответствующих зданиям, много меньше количества пикселей фона. Тем не менее данная метрика оценивает лишь количество правильно классифицированных пикселей, не учитывая точность предсказания границ, которые, по сути, задают сегмент.Intersection-over-Union (Jacquard index) is the most common metric for segmentation tasks. Having selected two sets of the target class: predicted and true, the metric expresses the relation of intersection of these sets

to unite them

This metric copes well with the problem of imbalanced classes, which is clearly present in the field of satellite imagery, where the number of pixels corresponding to buildings is much less than the number of background pixels. However, this metric only estimates the number of correctly classified pixels, not taking into account the accuracy of predicting the boundaries that, in fact, define the segment.

Благодаря финальной функции, обеспечивается возможность получения сегментов изображения более высокого качества, а также повышение внимания нейронной сети к краям сегментов соседствующих объектов.Thanks to the final function, it is possible to obtain image segments of higher quality, as well as to increase the attention of the neural network to the edges of segments of neighboring objects.

На Фиг. 4 далее будет представлена общая схема вычислительного устройства (200), обеспечивающего обработку данных, необходимую для реализации заявленного решения. FIG. 4 below, a general diagram of a computing device (200) will be presented that provides data processing necessary for the implementation of the claimed solution.

В общем случае устройство (200) содержит такие компоненты, как: один или более процессоров (201), по меньшей мере одну память (202), средство хранения данных (203), интерфейсы ввода/вывода (204), средство В/В (205), средства сетевого взаимодействия (206).In the general case, the device (200) contains components such as: one or more processors (201), at least one memory (202), data storage means (203), input / output interfaces (204), I / O means ( 205), networking tools (206).

Процессор (201) устройства выполняет основные вычислительные операции, необходимые для функционирования устройства (200) или функциональности одного или более его компонентов. Процессор (201) исполняет необходимые машиночитаемые команды, содержащиеся в оперативной памяти (202).The device processor (201) performs the basic computational operations required for the operation of the device (200) or the functionality of one or more of its components. The processor (201) executes the necessary computer-readable instructions contained in the main memory (202).

Память (202), как правило, выполнена в виде ОЗУ и содержит необходимую программную логику, обеспечивающую требуемый функционал. Memory (202), as a rule, is made in the form of RAM and contains the necessary software logic that provides the required functionality.

Средство хранения данных (203) может выполняться в виде HDD, SSD дисков, рейд массива, сетевого хранилища, флэш-памяти, оптических накопителей информации (CD, DVD, MD, Blue-Ray дисков) и т.п. Средство (203) позволяет выполнять долгосрочное хранение различного вида информации, например, вышеупомянутых файлов с наборами данных пользователей, базы данных, содержащих записи измеренных для каждого пользователя временных интервалов, идентификаторов пользователей и т.п.The data storage medium (203) can be performed in the form of HDD, SSD disks, raid array, network storage, flash memory, optical information storage devices (CD, DVD, MD, Blue-Ray disks), etc. The means (203) allows performing long-term storage of various types of information, for example, the aforementioned files with user data sets, a database containing records of time intervals measured for each user, user identifiers, etc.

Интерфейсы (204) представляют собой стандартные средства для подключения и работы с серверной частью, например, USB, RS232, RJ45, LPT, COM, HDMI, PS/2, Lightning, FireWire и т.п.Interfaces (204) represent standard means for connecting and working with the server side, for example, USB, RS232, RJ45, LPT, COM, HDMI, PS / 2, Lightning, FireWire, etc.

Выбор интерфейсов (204) зависит от конкретного исполнения устройства (200), которое может представлять собой персональный компьютер, мейнфрейм, серверный кластер, тонкий клиент, смартфон, ноутбук и т.п.The choice of interfaces (204) depends on the specific implementation of the device (200), which can be a personal computer, mainframe, server cluster, thin client, smartphone, laptop, etc.

В качестве средств В/В данных (205) в любом воплощении системы, реализующей описываемый способ, должна использоваться клавиатура. Аппаратное исполнение клавиатуры может быть любым известным: это может быть, как встроенная клавиатура, используемая на ноутбуке или нетбуке, так и обособленное устройство, подключенное к настольному компьютеру, серверу или иному компьютерному устройству. Подключение при этом может быть, как проводным, при котором соединительный кабель клавиатуры подключен к порту PS/2 или USB, расположенному на системном блоке настольного компьютера, так и беспроводным, при котором клавиатура осуществляет обмен данными по каналу беспроводной связи, например, радиоканалу, с базовой станцией, которая, в свою очередь, непосредственно подключена к системному блоку, например, к одному из USB-портов. Помимо клавиатуры, в составе средств В/В данных также может использоваться: джойстик, дисплей (сенсорный дисплей), проектор, тачпад, манипулятор мышь, трекбол, световое перо, динамики, микрофон и т.п.As means of I / O data (205) in any embodiment of a system that implements the described method, a keyboard should be used. The hardware design of the keyboard can be any known: it can be either a built-in keyboard used on a laptop or netbook, or a separate device connected to a desktop computer, server or other computer device. In this case, the connection can be either wired, in which the connecting cable of the keyboard is connected to the PS / 2 or USB port located on the system unit of the desktop computer, or wireless, in which the keyboard exchanges data via a wireless communication channel, for example, a radio channel, with base station, which, in turn, is directly connected to the system unit, for example, to one of the USB ports. In addition to the keyboard, I / O data can also include: joystick, display (touch screen), projector, touchpad, mouse, trackball, light pen, speakers, microphone, etc.

Средства сетевого взаимодействия (206) выбираются из устройства, обеспечивающий сетевой прием и передачу данных, например, Ethernet карту, WLAN/Wi-Fi модуль, Bluetooth модуль, BLE модуль, NFC модуль, IrDa, RFID модуль, GSM модем и т.п. С помощью средств (205) обеспечивается организация обмена данными по проводному или беспроводному каналу передачи данных, например, WAN, PAN, ЛВС (LAN), Интранет, Интернет, WLAN, WMAN или GSM.Networking means (206) are selected from a device that provides network reception and transmission of data, for example, Ethernet card, WLAN / Wi-Fi module, Bluetooth module, BLE module, NFC module, IrDa, RFID module, GSM modem, etc. The means (205) provide the organization of data exchange via a wired or wireless data transmission channel, for example, WAN, PAN, LAN, Intranet, Internet, WLAN, WMAN or GSM.

Компоненты устройства (200) сопряжены посредством общей шины передачи данных (210).The components of the device (200) are interfaced through a common data bus (210).

В настоящих материалах заявки было представлено предпочтительное раскрытие осуществление заявленного технического решения, которое не должно использоваться как ограничивающее иные, частные воплощения его реализации, которые не выходят за рамки испрашиваемого объема правовой охраны и являются очевидными для специалистов в соответствующей области техники.In the present application materials, the preferred disclosure of the implementation of the claimed technical solution was presented, which should not be used as limiting other, particular embodiments of its implementation, which do not go beyond the scope of the claimed scope of legal protection and are obvious to specialists in the relevant field of technology.

Claims

1. Компьютерно-реализованный способ обработки геопространственных спутниковых данных с помощью компьютерного зрения, включающий этапы, на которых:1. Computer-implemented method for processing geospatial satellite data using computer vision, including the stages at which:

- в модуле предобработки, сохраненные спутниковые снимки нормализуют и сегментируют;- in the preprocessing module, the saved satellite images are normalized and segmented;

- предобработанные снимки поступают на вход нейронной сети, которая обучена с помощью финальной функции потерь, представленной как линейная сумма трех слагаемых, а именно: бинарной кросс-энтропии, функции потерь, основанной на дифференцируемом аналоге метрики оценивания качества граничной F-меры, и функции потерь, основанной на метрике Intersection over Union, причем дифференцируемый аналог метрики оценивания качества граничной F-меры получают следующим образом: получают карты границ сегментов, на основании которых получают карты границ большей толщины, далее получают показатели точности и полноты, посредством попиксельного произведения полученных сегментационных карт, после чего получают дифференцируемый аналог метрики оценивания качества граничной F-меры на основании полученных показателей точности и полноты;- preprocessed images arrive at the input of the neural network, which is trained using the final loss function, represented as a linear sum of three terms, namely: binary cross-entropy, a loss function based on a differentiable analogue of the quality estimation metric of the boundary F-measure, and a loss function , based on the Intersection over Union metric, and the differentiable analogue of the quality assessment metric of the boundary F-measure is obtained as follows: maps of segment boundaries are obtained, on the basis of which maps of boundaries of greater thickness are obtained, then the accuracy and completeness indicators are obtained by means of the pixel-by-pixel product of the obtained segmentation maps, after which a differentiable analogue of the metric for assessing the quality of the boundary F-measure is obtained based on the obtained indicators of accuracy and completeness;

- на выходе нейронной сети получают снимки, где значение каждого пикселя является вероятностью принадлежности пикселя к определенному классу объектов;- at the output of the neural network, images are obtained, where the value of each pixel is the probability of a pixel belonging to a certain class of objects;

- в модуле постобработки, значения пикселей округляют по пороговому значению, после чего полученные сегменты соединяют, образуя сегментационную карту спутникового снимка.- in the post-processing module, the pixel values are rounded off by the threshold value, after which the obtained segments are connected, forming a segmentation map of the satellite image.

2. Способ по п.1, отличающийся тем, что результатом расчета бинарной кросс-энтропии является вероятность соответствия предсказанной метки пикселя целевой метке пикселя.2. The method according to claim 1, characterized in that the calculation result of the binary cross-entropy is the probability that the predicted pixel mark will match the target pixel mark.

3. Способ по п.1, отличающийся тем, что результатом функции потерь, основанной на дифференцируемом аналоге метрики оценивания качества граничной F-меры, является выделение границ целевого и предсказанного сегмента, расширенных границ целевого и предсказанного сегмента и попиксельное произведение сегментационных карт.3. The method according to claim 1, characterized in that the result of the loss function based on a differentiable analogue of the quality estimation metric of the boundary F-measure is the selection of the boundaries of the target and predicted segment, extended boundaries of the target and predicted segment and the pixel product of segmentation maps.

4. Способ по п.1, отличающийся тем, что результатом функции потерь, основанной на метрике Intersection over Union, является определение количества совпадений предсказанных пикселей с реальными пикселями.4. The method according to claim 1, characterized in that the result of the loss function based on the Intersection over Union metric is to determine the number of matches of the predicted pixels with real pixels.