RU2740736C1 - Method of processing images of remote earth probing using a neural network with a fine for accuracy of the segmentation boundary - Google Patents
Method of processing images of remote earth probing using a neural network with a fine for accuracy of the segmentation boundary Download PDFInfo
- Publication number
- RU2740736C1 RU2740736C1 RU2019142013A RU2019142013A RU2740736C1 RU 2740736 C1 RU2740736 C1 RU 2740736C1 RU 2019142013 A RU2019142013 A RU 2019142013A RU 2019142013 A RU2019142013 A RU 2019142013A RU 2740736 C1 RU2740736 C1 RU 2740736C1
- Authority
- RU
- Russia
- Prior art keywords
- pixel
- metric
- loss function
- neural network
- images
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01C—MEASURING DISTANCES, LEVELS OR BEARINGS; SURVEYING; NAVIGATION; GYROSCOPIC INSTRUMENTS; PHOTOGRAMMETRY OR VIDEOGRAMMETRY
- G01C11/00—Photogrammetry or videogrammetry, e.g. stereogrammetry; Photographic surveying
- G01C11/04—Interpretation of pictures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Multimedia (AREA)
- Biophysics (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Radar, Positioning & Navigation (AREA)
- Remote Sensing (AREA)
- Image Processing (AREA)
Abstract
Description
ОБЛАСТЬ ТЕХНИКИFIELD OF TECHNOLOGY
Настоящее техническое решение относится к области дистанционного зондирования Земли (ДЗЗ), в частности, к компьютерно-реализованному способу обработки геопространственных спутниковых данных с помощью компьютерного зрения.This technical solution relates to the field of Earth remote sensing (ERS), in particular, to a computer-implemented method for processing geospatial satellite data using computer vision.
УРОВЕНЬ ТЕХНИКИLEVEL OF TECHNOLOGY
Благодаря тому что данные ДЗЗ становятся доступны все с большим пространственным и спектральным разрешением, подходы объектного анализа изображения набирают все больший вес. Сравнивая с традиционными подходами, ориентированными на отдельные пиксели в изображении, объектные методы анализа используют области или, как их по-другому называют в цифровой обработке изображений, сегменты изображения, как базовые единицы. Ключевым этапом в объектно-ориентированном анализе является сегментация изображений. Целью сегментации является упрощение и/или изменение представления графической информации во что-то более значимое и простое для последующего анализа. Due to the fact that remote sensing data are becoming available with ever greater spatial and spectral resolution, approaches to object image analysis are gaining more and more weight. Compared to traditional approaches that focus on individual pixels in an image, object analysis methods use regions, or, as they are called in digital image processing, image segments as basic units. A key step in object-oriented analysis is image segmentation. The purpose of segmentation is to simplify and / or change the presentation of graphical information into something more meaningful and simpler for later analysis.
Семантическая сегментация спутниковых изображений земной поверхности является ключевым шагом в процессе анализа изображения, целью которого является получение карты соответствия каждого пикселя определенному классу. Применения этому существуют в мониторинге окружающей среды, планировании городского строительства и развития, мониторинге лесов и с/х территорий и др.Semantic segmentation of satellite images of the earth's surface is a key step in the image analysis process, the goal of which is to obtain a map of the correspondence of each pixel to a certain class. Applications for this exist in environmental monitoring, urban planning and development, forest and agricultural monitoring, etc.
Применение предлагаемого метода главным образом направлено на сегментацию зданий. Как правило, снимки городской застройки представлены в высоком разрешении. Более высокое разрешение вносит множество мелких деталей и структур на изображение.The application of the proposed method is mainly aimed at building segmentation. As a rule, images of city buildings are presented in high resolution. Higher resolution introduces a lot of fine detail and structure to the image.
Впоследствии полученные сегментированные снимки используются для оценки высотности зданий, предсказания численности населения и экономических прогнозов. Для большинства задач необходимо, чтобы сегменты, соответствующие близстоящим зданиям, были разделены границей, поэтому требуется создание способа, повышающего внимание нейронной сети к краям сегментов соседствующих объектов. Достигнуть этого можно с помощью вычисления специальной функции потерь, которая способна выделять границы сегментов из предсказания нейронной сети и накладывать штраф на области, где предсказанные границы сегментов не совпадают с границами идеально сегментированного изображения.Subsequently, the resulting segmented images are used to estimate the height of buildings, predict the population size and economic forecasts. For most tasks, it is necessary that the segments corresponding to nearby buildings be separated by a boundary, therefore, it is required to create a method that increases the attention of the neural network to the edges of segments of neighboring objects. This can be achieved by calculating a special loss function that can extract segment boundaries from neural network predictions and impose a penalty on areas where the predicted segment boundaries do not coincide with the boundaries of a perfectly segmented image.
Из уровня техники известен источник информации RU 2656708 C1, 06.06.2018, который раскрывает способ разделения иллюстраций, содержащий этапы получения данных, сегментации данных, нормализации, а в качестве функции потерь используется средняя абсолютная ошибка в процентах. A source of information RU 2656708 C1, 06.06.2018 is known from the prior art, which discloses a method for dividing illustrations containing the stages of data acquisition, data segmentation, normalization, and the average absolute percentage error is used as a loss function.
Однако использование в качестве функции потери средней абсолютной ошибки в процентах, не принесет получение сегментов высокого качества, а также не получится определение высокой точности сегментации вблизи границ сегментов.However, using the average absolute percentage error as a loss function will not bring high quality segments, and it will not work to determine the high segmentation accuracy near segment boundaries.
Наиболее близким аналогом является источник информации CN110428432 A, 08.11.2019, в котором создается шаблон набора данных, строится модель сегментационной сети. Сеть состоит из интенсивных свёрточных нейронных сетей и усовершенствованной U-Net, а интенсивные свёрточные нейронные сети используются для извлечения информации на изображении. В качестве функции потерь используют сумму метрики IoU и функции фокальных потерь (Focal Loss), которая является BF1, для решения задачи сегментации контуров, потому что существует серьезный дисбаланс класса в профиле и фоновом пикселе, чтобы повысить точность сегментации профиля, здесь используется функция фокальных потерь, которая может эффективно улучшить характеристики точечного среза. The closest analogue is the information source CN110428432 A, 11/08/2019, in which a dataset template is created, a segmentation network model is built. The network consists of intensive convolutional neural networks and an advanced U-Net, and intensive convolutional neural networks are used to extract information from the image. As a loss function, the sum of the IoU metric and the Focal Loss function (Focal Loss), which is BF1, is used to solve the contour segmentation problem, because there is a serious class imbalance in the profile and the background pixel, in order to improve the accuracy of the profile segmentation, the focal loss function is used here , which can effectively improve the performance of the point cut.
Однако в данной работе функция потерь нейронной сети не выделяет границы настоящего и предсказанного сегмента автоматически, а требует заранее подготовленной разметки. Также в предлагаемом нами техническом решении присутствует третье слагаемое, соответствующее бинарной кросс-энтропии. Его необходимость обусловлена тем, что спутниковые снимки являются более сложными и разнообразными по сравнению с медицинскими снимками, а кросс-энтропия помогает уменьшить расстояние между истинным и предсказанным распределением масок сегментов.However, in this work, the neural network loss function does not automatically identify the boundaries of the present and predicted segment, but requires a previously prepared marking. Also in our proposed technical solution there is a third term corresponding to binary cross-entropy. Its necessity is due to the fact that satellite images are more complex and varied than medical images, and cross-entropy helps to reduce the distance between the true and predicted distribution of segment masks.
СУЩНОСТЬ ИЗОБРЕТЕНИЯSUMMARY OF THE INVENTION
Технической проблемой, на решение которой направлено заявленное техническое решение, является создание компьютерно-реализуемого способа обработки геопространственных спутниковых данных с помощью компьютерного зрения, который охарактеризован в независимом пункте формулы. Дополнительные варианты реализации настоящего изобретения представлены в зависимых пунктах изобретения.The technical problem to be solved by the claimed technical solution is the creation of a computer-implemented method for processing geospatial satellite data using computer vision, which is characterized in an independent claim. Additional embodiments of the present invention are presented in the dependent claims.
Технический результат заключается в получение высокой точности сегментации вблизи границ сегментов.The technical result consists in obtaining high segmentation accuracy near the segment boundaries.
В предпочтительном варианте реализации заявлен компьютерно-реализованный способ обработки геопространственных спутниковых данных с помощью компьютерного зрения, включающий этапы, на которых: In a preferred embodiment, a computer-implemented method for processing geospatial satellite data using computer vision is claimed, including the steps at which:
- получают спутниковые снимки и сохраняют их в базе данных;- receive satellite images and store them in the database;
- в модуле предобработки сохраненные снимки нормализуют и сегментируют; - saved images are normalized and segmented in the preprocessing module;
- предобработанные снимки поступают на вход нейронной сети, которая обучена с помощью финальной функции потерь, представленной как линейная сумма трех слагаемых, а именно: бинарной кросс-энтропии, функции потерь, основанной на дифференцируемом аналоге метрики оценивания качества BF1 и функции потерь, основанной на метрике IoU;- preprocessed images arrive at the input of the neural network, which is trained using the final loss function, represented as a linear sum of three terms, namely: binary cross-entropy, loss function based on a differentiable analogue of the quality estimation metric BF 1 and loss function based on IoU metric;
- на выходе нейронной сети получают снимки, значение пикселей которых, является вероятностью принадлежности пикселя к определенному классу объектов;- at the output of the neural network, images are obtained, the pixel value of which is the probability of a pixel belonging to a certain class of objects;
- в модуле постобработки значения пикселей округляют по пороговому значению, после чего полученные сегменты соединяют, образуя сегментационную карту спутникового снимка.- in the post-processing module, the pixel values are rounded off at the threshold value, after which the obtained segments are connected, forming a segmentation map of the satellite image.
В частном варианте, результатом расчета бинарной кросс-энтропии является вероятность соответствия целевой метке пикселя и предсказанной метке пикселя. In a particular version, the result of calculating the binary cross-entropy is the probability of matching the target pixel label and the predicted pixel label.
В другом частном варианте, результатом функции потерь, основанной на дифференцируемом аналоге метрики оценивания качества BF1, является выделение границ целевого и предсказанного сегмента, расширенных границ целевого и предсказанного сегмента и попиксельное произведение сегментационных карт.In another particular embodiment, the result of the loss function based on the differentiable analogue of the quality assessment metric BF 1 is the extraction of the boundaries of the target and predicted segment, extended boundaries of the target and predicted segment, and the pixel-by-pixel product of segmentation maps.
В другом частном варианте результатом функции потерь, основанной на метрике IoU, является определение количества совпадений предсказанных пикселей с реальными пикселями.In another particular embodiment, the result of the loss function based on the IoU metric is to determine the number of matches of the predicted pixels with real pixels.
ОПИСАНИЕ ЧЕРТЕЖЕЙDESCRIPTION OF DRAWINGS
Реализация изобретения будет описана в дальнейшем в соответствии с прилагаемыми чертежами, которые представлены для пояснения сути изобретения и никоим образом не ограничивают область изобретения. К заявке прилагаются следующие чертежи:The implementation of the invention will be described in the following in accordance with the accompanying drawings, which are presented to clarify the essence of the invention and in no way limit the scope of the invention. The following drawings are attached to the application:
Фиг. 1 иллюстрирует общую схему обработки данных спутникового изображения.FIG. 1 illustrates a general scheme for processing satellite image data.
Фиг. 2 иллюстрирует сегментацию данных изображений на участки для подачи данных на вход нейронной сети.FIG. 2 illustrates the segmentation of image data into regions for feeding data to the input of a neural network.
Фиг. 3 иллюстрирует пример матриц значений на каждом шаге вычисления функции потерь.FIG. 3 illustrates an example of matrices of values at each step of calculating the loss function.
Фиг. 4 иллюстрирует блок-схему вычислительного устройства.FIG. 4 illustrates a block diagram of a computing device.
ДЕТАЛЬНОЕ ОПИСАНИЕ ИЗОБРЕТЕНИЯDETAILED DESCRIPTION OF THE INVENTION
В приведённом ниже подробном описании реализации изобретения приведены многочисленные детали реализации, призванные обеспечить отчётливое понимание настоящего изобретения. Однако квалифицированному в предметной области специалисту будет очевидно, каким образом можно использовать настоящее изобретение как с данными деталями реализации, так и без них. В других случаях хорошо известные методы, процедуры и компоненты не были описаны подробно, чтобы не затруднять понимание особенностей настоящего изобретения.In the following detailed description of the implementation of the invention, numerous implementation details are provided to provide a clear understanding of the present invention. However, it will be obvious to a person skilled in the art how the present invention can be used with or without these implementation details. In other instances, well-known techniques, procedures, and components have not been described in detail so as not to obscure the features of the present invention.
Кроме того, из приведенного изложения будет ясно, что изобретение не ограничивается приведенной реализацией. Многочисленные возможные модификации, изменения, вариации и замены, сохраняющие суть и форму настоящего изобретения, будут очевидными для квалифицированных в предметной области специалистов.In addition, it will be clear from the above description that the invention is not limited to the above implementation. Numerous possible modifications, changes, variations and substitutions, while retaining the spirit and form of the present invention, will be apparent to those skilled in the art.
Настоящее изобретение направлено на обеспечение компьютерно-реализованного способа обработки геопространственных спутниковых данных с помощью компьютерного зрения.The present invention is directed to providing a computer-implemented method for processing geospatial satellite data using computer vision.
Полученные изображения земной поверхности с помощью спутниковой фотосъемки, используются для получения карт сегментации, где сегментами выступают объекты на снимках (здания). Для оценивания качества сегментации используются метрики оценивания. Заявленный способ обработки геопространственных спутниковых данных с помощью компьютерного зрения, направлен на применение метрики оценивания в обучении нейронной сегментационной сети, а именно использование метрики в качестве функции потерь. The obtained images of the earth's surface using satellite photography are used to obtain segmentation maps, where objects in the images (buildings) act as segments. Assessment metrics are used to assess the segmentation quality. The claimed method for processing geospatial satellite data using computer vision is aimed at using the estimation metric in training a neural segmentation network, namely, using the metric as a loss function.
В данном техническом решении такой метрикой выступает граничная F мера (BF1). F-мера является хорошим кандидатом на формальную метрику оценки качества классификатора. Она сводит к одному числу две другие основополагающие метрики: точность и полноту. Чтобы использовать данную метрику как функцию потерь, получен дифференцируемый аналог метрики, или суррогат. Данная функция выделяет границы сегментов на изображениях, полученных на выходе нейронной сети и идеально сегментированного изображения, а затем по этим границам считается само значение метрики с помощью дифференцируемых операций. Важным свойством суррогата является возможность настраивать толщину выделяемой границы, что особенно важно для изображений с плотной застройкой зданий. In this technical solution, such a metric is the boundary measure F (BF 1 ). The F-measure is a good candidate for a formal metric for assessing the quality of a classifier. It reduces to one number the other two fundamental metrics: accuracy and completeness. To use this metric as a loss function, a differentiable analog of the metric, or a surrogate, is obtained. This function selects the boundaries of segments in images obtained at the output of a neural network and an ideally segmented image, and then the metric value itself is calculated along these boundaries using differentiable operations. An important property of the surrogate is the ability to adjust the thickness of the selected border, which is especially important for images with densely built-up buildings.
На фигуре 1 показаны шаги способа, которые осуществляется с помощью вычислительного устройства. Провайдеры спутниковых данных (101) предоставляют спутниковые трехканальные (RGB) снимки земной поверхности с разрешением не менее 0.3 м, для их последующей обработки. К каждому снимку также прилагается эталонное одноканальное изображение того же размера с бинарной разметкой сегментов класса зданий. Данные одноканальные изображения получают при помощи специальных программных обеспечений, например QGIS или AeroNet, в которых размечают спутниковые снимки, а именно присваивают значение 1 пикселю, который соответствует классу зданий и 0 если пиксель соответствует фону. Данные одноканальные снимки необходимы для обучения нейронной сети и представляют собой идеально сегментированную разметку. Далее снимки сохраняются в базе данных (102). The figure 1 shows the steps of the method, which is carried out using a computing device. Satellite data providers (101) provide satellite three-channel (RGB) images of the Earth's surface with a resolution of at least 0.3 m for their subsequent processing. Each image is also accompanied by a reference single-band image of the same size with a binary segment marking of the building class. These single-band images are obtained using special software, such as QGIS or AeroNet, in which satellite images are tagged, namely, they assign a value of 1 pixel, which corresponds to the class of buildings and 0 if the pixel corresponds to the background. These single-band images are necessary for training the neural network and represent ideally segmented markup. Then the images are saved in the database (102).
На этапе предобработки (103), спутниковые трехканальные изображения проходят этап нормализации, выравнивание гистограммы изображения. Более подробно, изображение y, представленное тремя матрицами целых значений [0, 255] yR,yG,yB нормализуется к диапазону значений [0, 1]: y, norm=y/255. Далее три канала yR,yG,yB подаются на вход операции выравнивания гистограммы (opencv). Также все снимки сегментируются на участки размером 512×512 пикселей и подаются на вход нейронной сети (104), вместе с эталонными одноканальными изображениями, для ее обучения на этапе построения сегментационной модели с оригинальной функцией потерь, (показано на Фиг. 2), величина перекрытия между соседними участками 128 пикселей. At the stage of preprocessing (103), satellite three-channel images go through the stage of normalization, alignment of the image histogram. In more detail, the image y, represented by three matrices of integers [0, 255] yR, yG, yB, is normalized to the range of values [0, 1]: y, norm = y / 255. Then three channels yR, yG, yB are fed to the input of the histogram alignment operation (opencv). Also, all images are segmented into areas of 512 × 512 pixels and fed to the input of the neural network (104), together with reference single-channel images, for training it at the stage of building a segmentation model with an original loss function (shown in Fig. 2), the amount of overlap between adjacent areas 128 pixels.
Обучение нейронной сети является итеративным, то есть, когда происходит предсказание, нейронная сеть выдает предсказанное одноканальное изображение. Данное предсказанное изображение сравнивается с эталонным одноканальным изображением, путем вычисления финальной функции потерь, которая способна выделить границы сегментов из предсказания нейронной сети и наложить штраф на области, где предсказанные границы сегментов не совпадают с границами идеально сегментированного изображения. The training of the neural network is iterative, that is, when a prediction occurs, the neural network outputs the predicted single-channel image. This predicted image is compared with a reference single-band image by calculating a final loss function that is capable of extracting segment boundaries from neural network predictions and penalizing areas where the predicted segment boundaries do not coincide with the boundaries of a perfectly segmented image.
Штрафом называется ошибка в определении, которая является значением вычисленной функции потерь, чем оно выше, тем больше ошибка. Выходом нейронной сети являются одноканальные изображения размером 512×512 для каждого поданного на вход участка. Значениями пикселей полученного изображения являются вероятности принадлежности пикселя к классу зданий. Каждому пикселю присвоено одно из двух значений, из которых первое принадлежит классу зданий, а второе фону. A penalty is an error in determination, which is the value of the calculated loss function; the higher it is, the greater the error. The output of the neural network is a 512 × 512 single-channel image for each input area. The pixel values of the resulting image are the probabilities of the pixel belonging to the class of buildings. Each pixel is assigned one of two values, of which the first belongs to the building class and the second to the background.
В модуле постобработки (105) все вероятности округляются по пороговому значению, здесь пороговое значение равно 0.5. Все значения в выходном изображении нейронной сети меньше 0.5 округляются до значения 0, а большие или равные этого значения округляются до значения 1. После этого участки размером 512×512 соединяются обратно в соответствии со схемой сегментации и получается одноканальное изображение того же размера.In the postprocessing module (105), all probabilities are rounded by the threshold value, here the threshold value is 0.5. All values in the output image of the neural network less than 0.5 are rounded to the value 0, and those greater or equal to this value are rounded to the value 1. After that, the 512 × 512 sections are connected back in accordance with the segmentation scheme and a single-channel image of the same size is obtained.
В качестве нейронной сети выбрана модель семейства UNet. В качестве схемы компоновки внутренних слоев нейронной сети выбраны архитектуры ResNet и Inception-ResNet-v2.The model of the UNet family was chosen as a neural network. The architecture of ResNet and Inception-ResNet-v2 was chosen as the layout diagram of the inner layers of the neural network.
Высокое качество получаемых сегментов возможно благодаря обучению сегментационной модели нейронной сети с помощью предлагаемой финальной функции потерь, которая является линейной комбинацией трех слагаемых:The high quality of the obtained segments is possible due to the training of the segmentation model of the neural network using the proposed final loss function, which is a linear combination of three terms:
- BCE (Binary Cross Entropy) – бинарная кросс-энтропия; - BCE (Binary Cross Entropy) - binary cross-entropy;
- функция потерь, основанная на суррогате метрики оценивания качества BF1 (Boundary F1);- the loss function based on the quality estimation metric BF 1 (Boundary F 1 );
- функция потерь, основанная на метрике IoU.- loss function based on the IoU metric.
Обозначим следующие наборы данных: ygt - целевая сегментационная карта зданий соответствующая спутниковому изображению, ypd - сегментационная карта зданий, предсказанная нейронной сетью, - целевая сегментационная карта границ сегментов определенной толщины в пикселях, - предсказанная сегментационная карта границ зданий, sum() - сумма значений пикселей, N - количество пикселей на изображении. Картами здесь являются матрицы значений размером равным размерам входных изображений, для конкретного пикселя i, ygt,i принимает значение 0 и 1, ypd,i принимает значение на отрезке [0, 1]. Let's designate the following datasets: y gt - target segmentation map of buildings corresponding to the satellite image, y pd - segmentation map of buildings predicted by the neural network, - target segmentation map of segment boundaries of a certain thickness in pixels, is the predicted segmentation map of building boundaries, sum () is the sum of pixel values, N is the number of pixels in the image. Maps here are matrices of values equal to the sizes of the input images, for a specific pixel i, y gt, i takes the value 0 and 1, y pd, i takes a value on the segment [0, 1].
Первым слагаемым функции потерь является бинарная кросс-энтропия (между картами применяются попиксельные операции):The first term of the loss function is binary cross-entropy (pixel-by-pixel operations are applied between maps):
Бинарная кросс-энтропия - статистическая метрика, пропорциональная расстоянию Кульбака-Лейблера между истинным распределением данных и предсказанным. Вероятностно данная метрика может быть проинтерпретирована, как вероятность соответствия правильной метки пикселя ygt,i и предсказанной метки ypd,i, где с помощью индекса i обозначен рассматриваемый пиксель. Binary cross-entropy is a statistical metric proportional to the Kullback-Leibler distance between the true data distribution and the predicted one. Probably, this metric can be interpreted as the probability of matching the correct pixel label y gt, i and the predicted label y pd, i , where the index i denotes the considered pixel.
Вторым слагаемым функции потерь является суррогат метрики оценивания качества BF1. Для данной модели суррогат строится поэтапно, сначала с помощью операции MaxPooling (далее - pool) выделяются границы сегментов:The second term of the loss function is the surrogate of the quality assessment metric BF 1 . For this model, the surrogate is built in stages, first, using the MaxPooling operation (hereinafter referred to as pool), the segment boundaries are selected:
Здесь параметром θ0 обозначен размер окна операции pool, оптимальное значение - 3. Далее из полученных карт границ необходимо получить карты границ большей толщины, утолщение границы регулируется параметром θ, максимальное значение которого рекомендуется устанавливать величиной минимального расстояния между соседними сегментами изображения.Here, the parameter θ 0 denotes the size of the pool operation window, the optimal value is 3. Further, from the obtained boundary maps, it is necessary to obtain boundary maps of greater thickness, the thickening of the boundary is regulated by the parameter θ, the maximum value of which is recommended to be set by the value of the minimum distance between adjacent image segments.
После этого рассчитываются значения Precision (P) и Recall (R):The Precision (P) and Recall (R) values are then calculated:
где операция ° обозначает попиксельное умножение сегментационных карт. В итоге получаем дифференцируемый суррогат метрики и соответствующую функцию потерь:where the ° operation denotes pixel-by-pixel multiplication of the segmentation maps. As a result, we get a differentiable metric surrogate and the corresponding loss function:
На Фиг. 3 можно увидеть примеры матриц значений на каждом шаге вычисления функции потерь: (a) - оригинальное изображение; (b) - целевой сегмент ygt; (c) - предсказанный сегмент ypd; (d) - граница целевого сегмента ; (e) - граница предсказанного сегмента ; (f) - расширенная граница целевого сегмента ; (g) - расширенная граница предсказанного сегмента ; (h) - попиксельное умножение (d) и (g), карта Precision; попиксельное умножение (e) и (f), карта Recall.FIG. 3 you can see examples of matrices of values at each step of calculating the loss function: (a) - original image; (b) - target segment y gt ; (c) predicted segment y pd ; (d) - target segment boundary ; (e) - predicted segment boundary ; (f) - extended target segment boundary ; (g) - extended bound of the predicted segment ; (h) - per-pixel multiplication (d) and (g), Precision map; per-pixel multiplication (e) and (f), Recall card.
Последним слагаемым является функция потерь, основанная на метрике IoU, рассчитанная на сегментационных картах:The last term is the loss function based on the IoU metric calculated on segmentation maps:
Intersection-over-Union (индекс Жаккарда) - наиболее распространенная метрика для задач сегментации. Выделив два множества целевого класса: предсказанное и истинное, метрика выражает отношение пересечения этих множеств к их объединению Данная метрика прекрасно справляется с проблемой несбалансированных классов, которая явно присутствует в области спутниковых снимков, где количество пикселей, соответствующих зданиям, много меньше количества пикселей фона. Тем не менее данная метрика оценивает лишь количество правильно классифицированных пикселей, не учитывая точность предсказания границ, которые, по сути, задают сегмент.Intersection-over-Union (Jacquard index) is the most common metric for segmentation tasks. Having selected two sets of the target class: predicted and true, the metric expresses the relation of intersection of these sets to unite them This metric copes well with the problem of imbalanced classes, which is clearly present in the field of satellite imagery, where the number of pixels corresponding to buildings is much less than the number of background pixels. However, this metric only estimates the number of correctly classified pixels, not taking into account the accuracy of predicting the boundaries that, in fact, define the segment.
Благодаря финальной функции, обеспечивается возможность получения сегментов изображения более высокого качества, а также повышение внимания нейронной сети к краям сегментов соседствующих объектов.Thanks to the final function, it is possible to obtain image segments of higher quality, as well as to increase the attention of the neural network to the edges of segments of neighboring objects.
На Фиг. 4 далее будет представлена общая схема вычислительного устройства (200), обеспечивающего обработку данных, необходимую для реализации заявленного решения. FIG. 4 below, a general diagram of a computing device (200) will be presented that provides data processing necessary for the implementation of the claimed solution.
В общем случае устройство (200) содержит такие компоненты, как: один или более процессоров (201), по меньшей мере одну память (202), средство хранения данных (203), интерфейсы ввода/вывода (204), средство В/В (205), средства сетевого взаимодействия (206).In the general case, the device (200) contains components such as: one or more processors (201), at least one memory (202), data storage means (203), input / output interfaces (204), I / O means ( 205), networking tools (206).
Процессор (201) устройства выполняет основные вычислительные операции, необходимые для функционирования устройства (200) или функциональности одного или более его компонентов. Процессор (201) исполняет необходимые машиночитаемые команды, содержащиеся в оперативной памяти (202).The device processor (201) performs the basic computational operations required for the operation of the device (200) or the functionality of one or more of its components. The processor (201) executes the necessary computer-readable instructions contained in the main memory (202).
Память (202), как правило, выполнена в виде ОЗУ и содержит необходимую программную логику, обеспечивающую требуемый функционал. Memory (202), as a rule, is made in the form of RAM and contains the necessary software logic that provides the required functionality.
Средство хранения данных (203) может выполняться в виде HDD, SSD дисков, рейд массива, сетевого хранилища, флэш-памяти, оптических накопителей информации (CD, DVD, MD, Blue-Ray дисков) и т.п. Средство (203) позволяет выполнять долгосрочное хранение различного вида информации, например, вышеупомянутых файлов с наборами данных пользователей, базы данных, содержащих записи измеренных для каждого пользователя временных интервалов, идентификаторов пользователей и т.п.The data storage medium (203) can be performed in the form of HDD, SSD disks, raid array, network storage, flash memory, optical information storage devices (CD, DVD, MD, Blue-Ray disks), etc. The means (203) allows performing long-term storage of various types of information, for example, the aforementioned files with user data sets, a database containing records of time intervals measured for each user, user identifiers, etc.
Интерфейсы (204) представляют собой стандартные средства для подключения и работы с серверной частью, например, USB, RS232, RJ45, LPT, COM, HDMI, PS/2, Lightning, FireWire и т.п.Interfaces (204) represent standard means for connecting and working with the server side, for example, USB, RS232, RJ45, LPT, COM, HDMI, PS / 2, Lightning, FireWire, etc.
Выбор интерфейсов (204) зависит от конкретного исполнения устройства (200), которое может представлять собой персональный компьютер, мейнфрейм, серверный кластер, тонкий клиент, смартфон, ноутбук и т.п.The choice of interfaces (204) depends on the specific implementation of the device (200), which can be a personal computer, mainframe, server cluster, thin client, smartphone, laptop, etc.
В качестве средств В/В данных (205) в любом воплощении системы, реализующей описываемый способ, должна использоваться клавиатура. Аппаратное исполнение клавиатуры может быть любым известным: это может быть, как встроенная клавиатура, используемая на ноутбуке или нетбуке, так и обособленное устройство, подключенное к настольному компьютеру, серверу или иному компьютерному устройству. Подключение при этом может быть, как проводным, при котором соединительный кабель клавиатуры подключен к порту PS/2 или USB, расположенному на системном блоке настольного компьютера, так и беспроводным, при котором клавиатура осуществляет обмен данными по каналу беспроводной связи, например, радиоканалу, с базовой станцией, которая, в свою очередь, непосредственно подключена к системному блоку, например, к одному из USB-портов. Помимо клавиатуры, в составе средств В/В данных также может использоваться: джойстик, дисплей (сенсорный дисплей), проектор, тачпад, манипулятор мышь, трекбол, световое перо, динамики, микрофон и т.п.As means of I / O data (205) in any embodiment of a system that implements the described method, a keyboard should be used. The hardware design of the keyboard can be any known: it can be either a built-in keyboard used on a laptop or netbook, or a separate device connected to a desktop computer, server or other computer device. In this case, the connection can be either wired, in which the connecting cable of the keyboard is connected to the PS / 2 or USB port located on the system unit of the desktop computer, or wireless, in which the keyboard exchanges data via a wireless communication channel, for example, a radio channel, with base station, which, in turn, is directly connected to the system unit, for example, to one of the USB ports. In addition to the keyboard, I / O data can also include: joystick, display (touch screen), projector, touchpad, mouse, trackball, light pen, speakers, microphone, etc.
Средства сетевого взаимодействия (206) выбираются из устройства, обеспечивающий сетевой прием и передачу данных, например, Ethernet карту, WLAN/Wi-Fi модуль, Bluetooth модуль, BLE модуль, NFC модуль, IrDa, RFID модуль, GSM модем и т.п. С помощью средств (205) обеспечивается организация обмена данными по проводному или беспроводному каналу передачи данных, например, WAN, PAN, ЛВС (LAN), Интранет, Интернет, WLAN, WMAN или GSM.Networking means (206) are selected from a device that provides network reception and transmission of data, for example, Ethernet card, WLAN / Wi-Fi module, Bluetooth module, BLE module, NFC module, IrDa, RFID module, GSM modem, etc. The means (205) provide the organization of data exchange via a wired or wireless data transmission channel, for example, WAN, PAN, LAN, Intranet, Internet, WLAN, WMAN or GSM.
Компоненты устройства (200) сопряжены посредством общей шины передачи данных (210).The components of the device (200) are interfaced through a common data bus (210).
В настоящих материалах заявки было представлено предпочтительное раскрытие осуществление заявленного технического решения, которое не должно использоваться как ограничивающее иные, частные воплощения его реализации, которые не выходят за рамки испрашиваемого объема правовой охраны и являются очевидными для специалистов в соответствующей области техники.In the present application materials, the preferred disclosure of the implementation of the claimed technical solution was presented, which should not be used as limiting other, particular embodiments of its implementation, which do not go beyond the scope of the claimed scope of legal protection and are obvious to specialists in the relevant field of technology.
Claims (9)
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
RU2019142013A RU2740736C1 (en) | 2019-12-18 | 2019-12-18 | Method of processing images of remote earth probing using a neural network with a fine for accuracy of the segmentation boundary |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
RU2019142013A RU2740736C1 (en) | 2019-12-18 | 2019-12-18 | Method of processing images of remote earth probing using a neural network with a fine for accuracy of the segmentation boundary |
Publications (1)
Publication Number | Publication Date |
---|---|
RU2740736C1 true RU2740736C1 (en) | 2021-01-20 |
Family
ID=74183782
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
RU2019142013A RU2740736C1 (en) | 2019-12-18 | 2019-12-18 | Method of processing images of remote earth probing using a neural network with a fine for accuracy of the segmentation boundary |
Country Status (1)
Country | Link |
---|---|
RU (1) | RU2740736C1 (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023096519A1 (en) * | 2021-11-25 | 2023-06-01 | Публичное Акционерное Общество "Сбербанк России" | Method and device for identifying the outlines of agricultural fields |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
RU2656708C1 (en) * | 2017-06-29 | 2018-06-06 | Самсунг Электроникс Ко., Лтд. | Method for separating texts and illustrations in images of documents using a descriptor of document spectrum and two-level clustering |
KR20190119261A (en) * | 2018-04-12 | 2019-10-22 | 가천대학교 산학협력단 | Apparatus and method for segmenting of semantic image using fully convolutional neural network based on multi scale image and multi scale dilated convolution |
CN110428432A (en) * | 2019-08-08 | 2019-11-08 | 梅礼晔 | The deep neural network algorithm of colon body of gland Image Automatic Segmentation |
CN110428428A (en) * | 2019-07-26 | 2019-11-08 | 长沙理工大学 | A kind of image, semantic dividing method, electronic equipment and readable storage medium storing program for executing |
-
2019
- 2019-12-18 RU RU2019142013A patent/RU2740736C1/en active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
RU2656708C1 (en) * | 2017-06-29 | 2018-06-06 | Самсунг Электроникс Ко., Лтд. | Method for separating texts and illustrations in images of documents using a descriptor of document spectrum and two-level clustering |
KR20190119261A (en) * | 2018-04-12 | 2019-10-22 | 가천대학교 산학협력단 | Apparatus and method for segmenting of semantic image using fully convolutional neural network based on multi scale image and multi scale dilated convolution |
CN110428428A (en) * | 2019-07-26 | 2019-11-08 | 长沙理工大学 | A kind of image, semantic dividing method, electronic equipment and readable storage medium storing program for executing |
CN110428432A (en) * | 2019-08-08 | 2019-11-08 | 梅礼晔 | The deep neural network algorithm of colon body of gland Image Automatic Segmentation |
Non-Patent Citations (3)
Title |
---|
ALEXEY BOKHOVKIN и др., "Boundary Loss for Remote Sensing Imagery Semantic Segmentation", 20.05.2019, 14 страниц, доступно: https://arxiv.org/abs/1905.07852. * |
ALEXEY BOKHOVKIN и др., "Boundary Loss for Remote Sensing Imagery Semantic Segmentation", 20.05.2019, 14 страниц, доступно: https://arxiv.org/abs/1905.07852. BERIL SIRMACEK и др., "Semantic Segmentation of Skin Lesions using a Small Data Set", 24.10.2019, 26 страниц, доступно: https://arxiv.org/abs/1910.10534. * |
BERIL SIRMACEK и др., "Semantic Segmentation of Skin Lesions using a Small Data Set", 24.10.2019, 26 страниц, доступно: https://arxiv.org/abs/1910.10534. * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023096519A1 (en) * | 2021-11-25 | 2023-06-01 | Публичное Акционерное Общество "Сбербанк России" | Method and device for identifying the outlines of agricultural fields |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Turker et al. | Building‐based damage detection due to earthquake using the watershed segmentation of the post‐event aerial images | |
US9129192B2 (en) | Semantic object proposal generation and validation | |
US20180307948A1 (en) | Method and device of constructing decision model, computer device and storage apparatus | |
CN110288602B (en) | Landslide extraction method, landslide extraction system and terminal | |
US20150170005A1 (en) | Semantic object selection | |
CN111160407B (en) | Deep learning target detection method and system | |
CN107688772A (en) | Method, apparatus, computer equipment and the storage medium of policy information typing | |
CN106295613A (en) | A kind of unmanned plane target localization method and system | |
Xu et al. | A supervoxel approach to the segmentation of individual trees from LiDAR point clouds | |
Dai et al. | Building segmentation and outline extraction from UAV image-derived point clouds by a line growing algorithm | |
CN114677565B (en) | Training method and image processing method and device for feature extraction network | |
CN109993753B (en) | Method and device for segmenting urban functional area in remote sensing image | |
CN114719966A (en) | Light source determination method and device, electronic equipment and storage medium | |
JP2013016168A (en) | Method and device for positioning text area in image | |
Lauko et al. | Local color and morphological image feature based vegetation identification and its application to human environment street view vegetation mapping, or how green is our county? | |
Huang et al. | A density-based clustering method for the segmentation of individual buildings from filtered airborne LiDAR point clouds | |
CN116258956A (en) | Unmanned aerial vehicle tree recognition method, unmanned aerial vehicle tree recognition equipment, storage medium and unmanned aerial vehicle tree recognition device | |
Wang et al. | End-to-end trainable network for superpixel and image segmentation | |
RU2740736C1 (en) | Method of processing images of remote earth probing using a neural network with a fine for accuracy of the segmentation boundary | |
CN115019163A (en) | City factor identification method based on multi-source big data | |
EP4310745A1 (en) | Methods and systems for high resolution and scalable crop yield forecasting | |
CN111091580B (en) | Stumpage image segmentation method based on improved ResNet-UNet network | |
CN117371511A (en) | Training method, device, equipment and storage medium for image classification model | |
JP7207530B2 (en) | Information processing device, creation method and creation program | |
CN116824138A (en) | Interactive image segmentation method and device based on click point influence enhancement |