RU2745209C1

RU2745209C1 - Method and computing device for formation of a true display of time flow of a diurnal scale

Info

Publication number: RU2745209C1
Application number: RU2020113037A
Authority: RU
Inventors: Глеб Михайлович СТЕРКИН; Павел Ильич СОЛОВЬЕВ; Алексей Сергеевич СИЛЬВЕСТРОВ; Алексей Владиславович ХАРЛАМОВ; Денис Михайлович Корженков; Иван Александрович АНОХИН; Тарас Андреевич ХАХУЛИН; Виктор Сергеевич Лемпицкий; Сергей Игоревич НИКОЛЕНКО
Original assignee: Самсунг Электроникс Ко., Лтд.
Priority date: 2020-04-07
Filing date: 2020-04-07
Publication date: 2021-03-22

Abstract

FIELD: image timeline.

SUBSTANCE: invention relates to methods and apparatus for generating images of a sequence of plausible display of the passage of time on a daily scale based on a content image. The method implies receiving a content image and predefined styles to be applied to the content image, or style images having styles to be applied to the content image; dividing the content image into n cropped images, where the n cropped images are cropped images that overlap strongly in a predetermined mode determined by the offset direction and the k pixel pitch; applying the trained generative neural network with each of the styles to the n cropped images to obtain n cropped images, restyled according to each of the styles; and combining the restilized n cropped images for each of the styles using the trained fusion neural network to obtain a sequence images of a plausible diurnal time-lapse display for the content image.

EFFECT: technical result consists in increasing the efficiency of image formation.

18 cl, 10 dwg

Description

ОБЛАСТЬ ТЕХНИКИFIELD OF TECHNOLOGY

[0001] Настоящее изобретение относится к области формирования видеоизображения правдоподобного отображения течения времени (timelapse) из единственного изображения и, в частности, к способам, компьютерно-реализуемым системам, вычислительным устройствам, и компьютерно-читаемым носителям данных для формирования правдоподобного отображения течения времени суточного масштаба.[0001] The present invention relates to the field of generating a video image of a plausible display of the passage of time (timelapse) from a single image and, in particular, to methods, computer-implemented systems, computing devices, and computer-readable storage media for generating a plausible display of the passage of time on a daily scale ...

УРОВЕНЬ ТЕХНИКИ, К КОТОРОМУ ОТНОСИТСЯ ИЗОБРЕТЕНИЕBACKGROUND OF THE INVENTION

[0002] В последние годы, проблема преобразования изображений на основе глубоких нейронных сетей эволюционировала от преобразования между двумя предопределенными спаренными доменами к разработке унифицированных моделей для преобразования между множественными доменами. Большинство классических подходов к преобразованию изображений нуждается в доменных метках. Современная FUNIT-модель ослабляет это ограничение: для получения стиля в момент времени вывода, она использует несколько изображений из целевого домена в качестве правила для преобразования (это известно, как установка по нескольким кадрам “few-shot setting”), но все же нуждается в доменных метках во время обучения. Решения предшествующего уровня техники всегда используют спаренные или доменно-помеченные обучающие изображения для решения проблемы преобразования изображений.[0002] In recent years, the problem of transforming images based on deep neural networks has evolved from transforming between two predefined paired domains to developing unified models for transforming between multiple domains. Most of the classic approaches to image conversion require domain tags. The modern FUNIT model relaxes this limitation: to get the style at the time of output, it uses several images from the target domain as a rule for transformation (this is known as the “few-shot setting”), but still needs domain tags during training. Prior art solutions always use paired or domain-tagged training images to solve the image transformation problem.

СУЩНОСТЬ ИЗОБРЕТЕНИЯSUMMARY OF THE INVENTION

[0003] Проблема преобразования изображений решается изобретением, раскрытым в данном документе, для практической задачи формирования видеоизображений отображения течения времени суточного масштаба из единственного изображения, которое может быть захвачено пользователем на пользовательском вычислительном устройстве. Поскольку получение набора данных высокоразрешенных различных изображений или видеоизображений отображения течения времени суточного масштаба является гораздо более трудным, чем получение набора данных высокоразрешенных различных изображений, изобретение, раскрытое в данном документе, основано на подходе преобразования изображений. Вместо сбора доменных аннотаций, которые трудно определять и трудно получать от пользователей, предлагается способ, который раскрывает неявную доменную структуру данных без явного доменного управления.[0003] The problem of transforming images is solved by the invention disclosed herein for the practical task of generating video images of a display of the passage of time on a daily scale from a single image that can be captured by a user on a user computing device. Since obtaining a dataset of high-resolution various images or video images of a daily time-scale display is much more difficult than obtaining a dataset of high-resolution various images, the invention disclosed herein is based on an image transformation approach. Instead of collecting domain annotations that are difficult to identify and difficult to obtain from users, a method is proposed that exposes the implicit domain data structure without explicit domain control.

[0004] Система искусственного интеллекта (Artificial Intelligence - AI), используемая в изобретении, раскрытом в данном документе, обучается на большом наборе данных не совмещенных изображений без доменных меток. Единственным внешним (слабым) управлением, используемым в одном варианте осуществления предлагаемого изобретения, являются карты грубой сегментации, которые могут быть оценены с использованием готовой сети семантической сегментации.[0004] The Artificial Intelligence (AI) system used in the invention disclosed herein is trained on a large dataset of non-aligned images without domain marks. The only external (weak) controls used in one embodiment of the present invention are coarse segmentation maps, which can be estimated using an off-the-shelf semantic segmentation network.

[0005] Согласно первому аспекту настоящего раскрытия обеспечен способ формирования одного или нескольких изображений последовательности правдоподобного отображения течения времени суточного масштаба на основе контентного изображения с использованием обученной генеративной нейронной сети и обученной объединяющей нейронной сети, причем способ содержит этапы, на которых: принимают контентное изображение и (а) один или несколько предопределенных стилей, соответственно, соответствующих одному или нескольким временам суток, подлежащих применению к контентному изображению, или (b) одно или несколько стилевых изображений, имеющих один или несколько стилей, подлежащих применению к контентному изображению; разделяют контентное изображение на n обрезанных изображений; применяют обученную генеративную нейронную сеть с каждым из одного или нескольких стилей к n обрезанным изображениям для получения n обрезанных изображений, рестилизованных согласно каждому из одного или нескольких стилей; и объединяют рестилизованные n обрезанных изображений для каждого из одного или нескольких стилей с помощью обученной объединяющей нейронной сети для получения одного или нескольких изображений последовательности правдоподобного отображения течения времени суточного масштаба для контентного изображения. Генеративная нейронная сеть, используемая в способе согласно первому аспекту настоящего раскрытия, обучается в одном из или в комбинации следующих режимов: режим перестановки, случайный режим, и режим автоэнкодера. Генеративная нейронная сеть содержит по меньшей мере контентный кодер, стилевой кодер, и декодер.[0005] According to a first aspect of the present disclosure, there is provided a method of generating one or more diurnal time-scale plausible display sequence images based on a content image using a trained generative neural network and a trained merging neural network, the method comprising the steps of: receiving a content image and (a) one or more predefined styles, respectively, corresponding to one or more times of the day, to be applied to the content image, or (b) one or more style images having one or more styles to be applied to the content image; split the content image into n cropped images; applying the trained generative neural network with each of the one or more styles to the n cropped images to obtain n cropped images, restyled according to each of the one or more styles; and combining the restyled n cropped images for each of the one or more styles using the trained fusion neural network to obtain one or more images of a sequence of plausible diurnal time-lapse images for the content image. The generative neural network used in the method according to the first aspect of the present disclosure is trained in one of or in a combination of the following modes: permutation mode, random mode, and autoencoder mode. A generative neural network comprises at least a content encoder, a style encoder, and a decoder.

[0006] Согласно второму аспекту настоящего раскрытия обеспечено вычислительное устройство, содержащее процессор и память, хранящую исполняемые компьютером инструкции, которые, при исполнении процессором, побуждают процессор к выполнению способа согласно первому аспекту.[0006] According to a second aspect of the present disclosure, there is provided a computing device comprising a processor and memory storing computer-executable instructions that, when executed by the processor, cause the processor to perform a method according to the first aspect.

[0007] Согласно третьему аспекту настоящего раскрытия обеспечен способ формирования одного или нескольких изображений последовательности правдоподобного отображения течения времени суточного масштаба на основе контентного изображения с использованием обученной генеративной нейронной сети, причем способ содержит этапы, на которых: принимают контентное изображение и (a) предопределенные один или несколько стилей, подлежащих применению к контентному изображению, или (b) одно или несколько стилевых изображений, имеющих один или несколько стилей, подлежащих применению к контентному изображению; уменьшают разрешение контентного изображения до низкого разрешения по меньшей стороне контентного изображения с сохранением соотношения сторон контентного изображения; применяют обученную генеративную нейронную сеть с каждым из одного или нескольких стилей к уменьшенному контентному изображению для получения одного или нескольких уменьшенных контентных изображений, рестилизованных согласно каждому из одного или нескольких стилей; и осуществляют разложение каждого из рестилизованных контентных изображений на высокочастотные составляющие и низкочастотную составляющую, имеющую низкое разрешение по меньшей стороне с сохранением соотношения сторон; фильтруют низкочастотную составляющую с учетом контента соответствующего рестилизованного контентного изображения; и формируют одно или несколько изображений последовательности правдоподобного отображения течения времени суточного масштаба на основе отфильтрованной низкочастотной составляющей и высокочастотных составляющих каждого из соответствующих рестилизованных контентных изображений.[0007] According to a third aspect of the present disclosure, there is provided a method of generating one or more diurnal time-scale plausible display sequence images based on a content image using a trained generative neural network, the method comprising the steps of: receiving a content image and (a) a predetermined one or more styles to be applied to the content image, or (b) one or more style images having one or more styles to be applied to the content image; reducing the resolution of the content image to a low resolution on a smaller side of the content image while maintaining the aspect ratio of the content image; applying the trained generative neural network with each of the one or more styles to the reduced content image to obtain one or more reduced content images, restyled according to each of the one or more styles; and decomposing each of the restilized content images into high frequency components and a low frequency component having a low resolution on the lower side while maintaining the aspect ratio; filtering the low-frequency component taking into account the content of the corresponding restyled content image; and generating one or more diurnal time-scale likelihood sequence images based on the filtered low frequency component and high frequency components of each of the respective restilized content images.

[0008] Согласно четвертому аспекту настоящего раскрытия обеспечено вычислительное устройство, содержащее процессор и память, хранящую исполняемые компьютером инструкции, которые, при исполнении процессором, побуждают процессор к выполнению способа согласно третьему аспекту.[0008] According to a fourth aspect of the present disclosure, there is provided a computing device comprising a processor and memory storing computer-executable instructions that, when executed by the processor, cause the processor to perform a method according to the third aspect.

ПРЕДПОЧТИТЕЛЬНЫЕ ЭФФЕКТЫ И ПРЕИМУЩЕСТВА ПЕРЕД ПРЕДШЕСТВУЮЩИМ УРОВНЕМ ТЕХНИКИPREFERRED EFFECTS AND ADVANTAGES BEFORE PREVIOUS TECHNOLOGY

[0009] Во-первых, предлагаемый способ позволяет выполнять сохраняющий-семантику перенос стилей между изображениями без знаний о доменах, представленных в наборе данных. Внутреннее смещение собранного набора данных, архитектурное смещение, и специально разработанная обучающая процедура позволяют обучаться преобразованиям стилей даже в этом режиме.[0009] First, the proposed method allows for semantics-preserving transfer of styles between images without knowledge of the domains represented in the dataset. The internal bias of the collected dataset, architectural bias, and a specially designed training procedure allow you to learn style transformations even in this mode.

[0010] Во-вторых, для обеспечения сохранения мелких деталей, раскрытая архитектура преобразования изображений объединяет две технологии: обходные связи и адаптивная раздельная нормализация (adaptive instance normalization - AdaIN). Такое объединение является возможным и приводит к архитектуре, которая сохраняет детали гораздо лучше, чем преобладающие в настоящее время AdaIN-архитектуры без обходных связей. Кроме главной цели настоящей заявки, предлагаемое изобретение может быть использовано для обучения многодоменной стилизации/перекраски изображений и обеспечивает качество, не уступающее текущему состоянию данной области техники.[0010] Second, to ensure that fine details are retained, the disclosed image transformation architecture combines two technologies: bypass and adaptive instance normalization (AdaIN). This combination is possible and results in an architecture that retains details much better than the currently prevailing AdaIN architecture without workarounds. In addition to the main purpose of the present application, the proposed invention can be used to train multi-domain stylization / recoloring of images and provides quality that is not inferior to the current state of the art.

[0011] Наконец, поскольку прямое обучение высокопроизводительной сети преобразования изображений с высоким разрешением не является оправданным с точки зрения вычислительной сложности, новая схема улучшения (с использованием объединяющей сети) позволяет применять сеть преобразования изображений, обученную с низким разрешением, для создания правдоподобных изображений высокого разрешения.[0011] Finally, since direct training of a high-performance, high-resolution image transformation network is not justified in terms of computational complexity, the new enhancement scheme (using a backhaul network) allows the low-resolution trained image transformation network to be applied to create believable high-resolution images. ...

КРАТКОЕ ОПИСАНИЕ ЧЕРТЕЖЕЙBRIEF DESCRIPTION OF DRAWINGS

[0012] Вышеупомянутые и другие аспекты, признаки, и преимущества настоящего изобретения станут более понятны из нижеследующего подробного описания, используемого вместе с сопутствующими чертежами, в которых:[0012] The foregoing and other aspects, features, and advantages of the present invention will be better understood from the following detailed description, when used in conjunction with the accompanying drawings, in which:

[Фиг. 1] Фиг. 1 показывает блок-схему последовательности операций способа формирования правдоподобного отображения течения времени суточного масштаба из изображения с использованием обученной генеративной нейронной сети и обученной объединяющей нейронной сети согласно одному варианту осуществления изобретения, раскрытого в данном документе.[Fig. 1] FIG. 1 shows a flow diagram of a method for generating a plausible display of the passage of time on a daily scale from an image using a trained generative neural network and a trained fusion neural network, in accordance with one embodiment of the invention disclosed herein.

[Фиг. 2] Фиг. 2 показывает блок-схему последовательности операций способа обучения генеративной нейронной сети в режиме перестановки согласно одному варианту осуществления изобретения, раскрытого в данном документе.[Fig. 2] FIG. 2 shows a flow diagram of a method for training a generative neural network in permutation mode according to one embodiment of the invention disclosed herein.

[Фиг. 3] Фиг. 3 показывает блок-схему последовательности операций способа обучения генеративной нейронной сети в случайном режиме согласно одному варианту осуществления изобретения, раскрытого в данном документе.[Fig. 3] FIG. 3 shows a flow diagram of a method for training a generative neural network in a random mode according to one embodiment of the invention disclosed herein.

[Фиг. 4] Фиг. 4 показывает блок-схему последовательности операций способа обучения генеративной нейронной сети в режиме автоэнкодера согласно одному варианту осуществления изобретения, раскрытого в данном документе.[Fig. 4] FIG. 4 shows a flow diagram of a method for training a generative neural network in autoencoder mode according to one embodiment of the invention disclosed herein.

[Фиг. 5] Фиг. 5 показывает блок-схему последовательности операций способа обучения объединяющей нейронной сети согласно одному варианту осуществления изобретения, раскрытого в данном документе.[Fig. 5] FIG. 5 shows a flow diagram of a method for training a merging neural network in accordance with one embodiment of the invention disclosed herein.

[Фиг. 6] Фиг. 6 показывает блок-схему вычислительного устройства, выполненного с возможностью выполнять способ согласно одному варианту осуществления изобретения, раскрытого в данном документе.[Fig. 6] FIG. 6 shows a block diagram of a computing device configured to perform a method in accordance with one embodiment of the invention disclosed herein.

[Фиг. 7] Фиг. 7 показывает поток данных в возможной реализации генеративной нейронной сети согласно одному варианту осуществления изобретения, раскрытого в данном документе.[Fig. 7] FIG. 7 shows a data flow in a possible implementation of a generative neural network according to one embodiment of the invention disclosed herein.

[Фиг. 8] Фиг. 8 показывает диаграмму адаптивной архитектуры U-Net согласно одному варианту осуществления изобретения, раскрытого в данном документе.[Fig. 8] FIG. 8 shows a diagram of an adaptive U-Net architecture according to one embodiment of the invention disclosed herein.

[Фиг. 9] Фиг. 9 показывает диаграмму схемы улучшения согласно одному варианту осуществления изобретения, раскрытого в данном документе.[Fig. 9] FIG. 9 shows a diagram of an improvement circuit according to one embodiment of the invention disclosed herein.

[Фиг. 10] Фиг. 10 показывает иллюстративные изображения из правдоподобного отображения течения времени суточного масштаба, сформированные посредством способа согласно одному варианту осуществления изобретения, раскрытого в данном документе.[Fig. 10] FIG. 10 shows illustrative images from a plausible display of the passage of time on a daily scale, generated by a method according to one embodiment of the invention disclosed herein.

[0013] В нижеследующем описании, если не указано иное, одинаковые ссылочные позиции используются для одинаковых элементов, когда они показаны на разных чертежах, и их совпадающие описания будут опущены.[0013] In the following description, unless otherwise indicated, like reference numbers are used for like elements when shown in different drawings, and overlapping descriptions thereof will be omitted.

ПОДРОБНОЕ ОПИСАНИЕ ВАРИАНТОВ ОСУЩЕСТВЛЕНИЯDETAILED DESCRIPTION OF IMPLEMENTATION OPTIONS

[0014] Способы предшествующего уровня техники основаны на некоторой форме аннотаций доменов/атрибутов для обеспечения разложения изображения на «контент» и «стиль», которые могут независимо переставляться между изображениями. Такое разложение в настоящем изобретении полностью обеспечивается без учителя с использованием соответствующим образом выбранной архитектуры и обучающей процедуры, описанной ниже.[0014] Prior art techniques rely on some form of domain / attribute annotations to provide decomposition of an image into “content” and “style” that can be independently rearranged between images. This decomposition is fully unsupervised in the present invention using an appropriately chosen architecture and teaching procedure described below.

[0015] Фиг. 1 показывает блок-схему последовательности операций способа формирования правдоподобного отображения течения времени суточного масштаба из изображения с использованием обученной генеративной нейронной сети и обученной объединяющей нейронной сети согласно первому аспекту изобретения, раскрытого в данном документе. Способ содержит этап S105, на котором принимают изображение и параметр стиля, задающий один или несколько предопределенных стилей, соответственно, соответствующих одному или нескольким временам суток, подлежащих применению к изображению. В качестве альтернативы, одно или несколько стилевых изображений, имеющих один или несколько стилей, подлежащих применению к контентному изображению, могут быть приняты на этапе S105 вместо параметра стиля. Изображение может быть захвачено или загружено пользователем с использованием его/ее вычислительного устройства, такого как смартфон. Параметр стиля может быть задан пользователем с использованием его/ее вычислительного устройства. В качестве примера, пользователь может выбирать некоторый момент времени или временной интервал на временной шкале, и один или несколько предопределенных стилей могут быть, соответственно, определены на основе выбранного момента времени или временного интервала. Следует отметить, что если конкретный момент времени выбирается пользователем на временной шкале, способ обеспечит правдоподобное отображение течения времени суточного масштаба, содержащее только единственное изображение, сформированное для этого конкретного момента времени. Число предопределенных стилей не ограничено, но следует понимать, что для того, чтобы способ работал правильно для конкретного стиля, генеративная нейронная сеть должна быть предварительно обучена с использованием обучающего изображения, передающего такой стиль.[0015] FIG. 1 shows a flow diagram of a method for generating a plausible display of the passage of time on a daily scale from an image using a trained generative neural network and a trained fusion neural network in accordance with a first aspect of the invention disclosed herein. The method comprises step S105, which receives an image and a style parameter defining one or more predetermined styles, respectively, corresponding to one or more times of the day to be applied to the image. Alternatively, one or more style pictures having one or more styles to be applied to the content picture may be received in step S105 instead of a style parameter. The image can be captured or downloaded by the user using his / her computing device such as a smartphone. The style parameter can be set by the user using his / her computing device. As an example, the user can select a certain point in time or time interval on the timeline, and one or more predefined styles can be respectively determined based on the selected point in time or time interval. It should be noted that if a particular point in time is selected by a user on a timeline, the method will provide a plausible display of the passage of time on a daily scale, containing only a single image generated for that particular point in time. The number of predefined styles is not limited, but it should be understood that in order for the method to work correctly for a particular style, a generative neural network must be pre-trained using a training image that conveys that style.

[0016] Затем, способ содержит этап S110, на котором разделяют изображение на n обрезанных изображений. n обрезанных изображений являются обрезанными изображениями, сильно перекрывающимися в предопределенном режиме, определяемом направлением смещения и шагом в k пикселов. Конкретные значения n и k не ограничены и могут быть любыми целыми. Затем, способ содержит этап S115, на котором применяют обученную генеративную нейронную сеть с параметром стиля к n обрезанным изображениям для получения n обрезанных изображений, рестилизованных согласно параметру стиля, и этап S120, на котором объединяют рестилизованные n обрезанных изображений с помощью обученной объединяющей нейронной сети для получения правдоподобного отображения течения времени суточного масштаба для изображения. Сформированное правдоподобное отображение течения времени суточного масштаба может содержать единственное изображение для конкретного стиля или последовательность изображений для выбранной последовательности стилей. Некоторые примеры изображений из сформированного правдоподобного отображения течения времени суточного масштаба показаны на фиг. 10.[0016] Next, the method comprises step S110, dividing the image into n cropped images. The n cropped images are cropped images that overlap strongly in a predefined mode defined by the offset direction and k- pixel pitch. The specific values for n and k are not limited and can be any integer. Then, the method comprises step S115, which applies the trained generative neural network with the style parameter to the n cropped images to obtain n cropped images, restilized according to the style parameter, and step S120, which combines the restilized n cropped images using the trained merging neural network for obtaining a plausible display of the passage of time on a daily scale for the image. The generated diurnal scale plausible display of the passage of time may contain a single image for a particular style or a sequence of images for a selected sequence of styles. Some examples of images from the generated diurnal time-scale likelihood display are shown in FIG. ten.

[0017] Способ (не показан) согласно третьему аспекту настоящего раскрытия будет теперь описан относительно способа согласно первому аспекту в отношении их различий. Способ согласно третьему аспекту отличается от способа согласно первому аспекту тем, что он не использует объединяющую сеть и не использует этап разделения изображения на обрезанные изображения. Вместо этого, способ согласно третьему аспекту настоящего раскрытия содержит этапы, на которых уменьшают разрешение контентного изображения до низкого разрешения по меньшей стороне контентного изображения с сохранением соотношения сторон контентного изображения, осуществляют разложение каждого из рестилизованных контентных изображений на высокочастотные составляющие и низкочастотную составляющую, имеющую низкое разрешение по меньшей стороне с сохранением соотношения сторон, фильтруют низкочастотную составляющую с учетом контента соответствующего рестилизованного контентного изображения, и формируют одно или несколько изображений последовательности правдоподобного отображения течения времени суточного масштаба на основе отфильтрованной низкочастотной составляющей и высокочастотных составляющих каждого из соответствующих рестилизованных контентных изображений. Пирамида Лапласа может быть использована в неограничивающем варианте осуществления для разложения. Направляемый фильтр (“guided filter”) может быть использован в неограничивающем варианте осуществления для фильтрации, и контент соответствующего рестилизованного контентного изображения используется в качестве направляющей для фильтрации. Низкое разрешение может быть равным 128 или может быть даже меньшим или большим 128. Обучение генеративной нейронной сети для способа согласно третьему аспекту отличается от обучения генеративной нейронной сети для способа согласно первому аспекту тем, что выходные данные генеративной нейронной сети не подаются в дискриминатор напрямую, а в него подается результат применения дифференцированного направляемого фильтра к исходному изображению и соответствующее синтезированное (сформированное) изображение.[0017] The method (not shown) according to the third aspect of the present disclosure will now be described with respect to the method according to the first aspect in terms of their differences. The method according to the third aspect differs from the method according to the first aspect in that it does not use a backing network and does not use the step of dividing the image into cropped images. Instead, the method according to the third aspect of the present disclosure comprises the steps of reducing the resolution of the content image to a low resolution on a smaller side of the content image while maintaining the aspect ratio of the content image, decomposing each of the restyled content images into high-frequency components and a low-frequency component having a low resolution on the smaller side while maintaining the aspect ratio, filtering the low-frequency component taking into account the content of the corresponding restylated content image, and generating one or more diurnal time-scale plausible sequence images based on the filtered low-frequency component and high-frequency components of each of the corresponding restylated content images. The Laplace pyramid can be used in a non-limiting embodiment for decomposition. A "guided filter" can be used in a non-limiting embodiment for filtering, and the content of the corresponding restyled content image is used as a guide for filtering. The low resolution may be equal to 128, or it may be even less than or greater than 128. Training the generative neural network for the method according to the third aspect differs from training the generative neural network for the method according to the first aspect in that the output of the generative neural network is not fed directly to the discriminator, but it receives the result of applying a differentiated guided filter to the original image and the corresponding synthesized (formed) image.

[0018] Таким образом, генеративная нейронная сеть (также называемая моделью высокоразрешенного преобразования времени суток (high resolution daytime translation - HiDT) выполнена с возможностью получать независимые кодирования контента и стиля из входного изображения х с использованием его собственного архитектурного смещения в отсутствие явного контроля со стороны обучающего набора, и затем создавать изображения с новыми комбинациями контента и стилей. Таким образом, выходное изображение

получает контент из х и изменяет свой стиль согласно выбранному параметру стиля. Таким образом, задача настоящей заявки определяется как перенос стиля из стилевого изображения x' в контентное изображение х, вместо использования общепринятых обусловленных GAN-архитектур с категориальными переменными в качестве условий.[0018] Thus, a generative neural network (also called a high resolution daytime translation (HiDT) model) is configured to derive independent content and style encodings from an input image x using its own architectural bias in the absence of explicit control from the outside. training set, and then create images with new combinations of content and styles.

gets content from x and changes its style according to the selected style parameter. Thus, the object of the present application is defined as transferring the style from the style image x 'to the content image x, instead of using conventional conditional GAN architectures with categorical variables as conditions.

[0019] Генеративная нейронная сеть обучается в одном или в комбинации следующих режимов: режим перестановки, случайный режим, и режим автоэнкодера. В одном варианте осуществления, генеративная нейронная сеть обучается в каждом из указанных режимов. Ниже описаны стадии обучения для каждого из режимов и вводятся конкретные детали реализации, которые не следует толковать как ограничения.[0019] The generative neural network is trained in one or a combination of the following modes: permutation mode, random mode, and autoencoder mode. In one embodiment, the generative neural network is trained in each of these modes. The learning stages for each of the modes are described below and specific implementation details are introduced that should not be construed as limiting.

[0020] Фиг. 2 показывает блок-схему последовательности операций способа обучения генеративной нейронной сети в режиме перестановки согласно одному варианту осуществления изобретения, раскрытого в данном документе. Генеративная нейронная сеть содержит по меньшей мере контентный кодер, стилевой кодер, и декодер. Обучение генеративной нейронной сети в режиме перестановки содержит следующие этапы, повторно выполняемые с некоторым количеством итераций: этап S115, на котором вводят первое изображение в качестве обучающего примера в контентный кодер для получения контентного тензора, являющегося пространственно меньшим представлением контента в первом изображении. Затем, обучение содержит этап S160, на котором вводят второе изображение в качестве обучающего примера в стилевой кодер для получения стилевого вектора, указывающего стиль во втором изображении. Первое изображение и второе изображение имеют первое разрешение, которое меньше разрешения правдоподобного отображения течения времени суточного масштаба, сформированного посредством способа, описанного выше со ссылкой на фиг. 1. Первое изображение (изображения) и второе изображение (изображения) могут быть случайно выбраны из обучающего набора данных изображений, например, ландшафтных изображений, в целях обучения генеративной нейронной сети.[0020] FIG. 2 shows a flow diagram of a method for training a generative neural network in permutation mode according to one embodiment of the invention disclosed herein. A generative neural network comprises at least a content encoder, a style encoder, and a decoder. The training of the generative neural network in the permutation mode comprises the following steps, repeated with a number of iterations: step S115, in which the first image is input as a training example into the content encoder to obtain a content tensor, which is a spatially smaller representation of the content in the first image. Then, learning comprises step S160, in which a second image is input as a teaching example into a style encoder to obtain a style vector indicating a style in the second image. The first image and the second image have a first resolution that is less than the resolution of a plausible display of the passage of time on a daily scale generated by the method described above with reference to FIG. 1. The first image (s) and the second image (s) can be randomly selected from a training image dataset, such as landscape images, for the purpose of training a generative neural network.

[0021] Затем, обучение содержит этап S165, на котором вводят контентный тензор, стилевой вектор в декодер для получения, с использованием адаптивной раздельной нормализации, третьего изображения, имеющего контент первого изображения и стиль второго изображения, и маски сегментации, соответствующей первому изображению. Затем, обучение содержит этап S170, на котором попеременно вводят второе изображение и стилевой вектор или стилевой вектор и третье изображение в обусловленный дискриминатор, выполненный с возможностью определять, является ли изображение достаточно правдоподобным при данном стиле, и этап S175, на котором попеременно обновляют параметры генеративной нейронной сети и обусловленного дискриминатора на основе результата определения обусловленным дискриминатором при разных итерациях для обеспечения обучения генеративной нейронной сети и обусловленного дискриминатора в состязательном режиме. Маска сегментации дополнительно учитывается при обновлении параметров генеративной нейронной сети.[0021] Then, the training comprises step S165, in which the content tensor, the style vector is input to the decoder to obtain, using adaptive split normalization, a third image having the content of the first image and the style of the second image, and a segmentation mask corresponding to the first image. Then, the learning comprises step S170, in which the second image and the style vector or style vector and the third image are alternately input into a conditional discriminator configured to determine whether the image is plausible enough for the given style, and step S175, in which the parameters of the generative neural network and a conditioned discriminator based on the result of determining the conditioned discriminator at different iterations to provide training of the generative neural network and the conditioned discriminator in an adversarial mode. The segmentation mask is additionally taken into account when updating the parameters of the generative neural network.

[0022] Фиг. 3 показывает блок-схему последовательности операций способа обучения генеративной нейронной сети в случайном режиме согласно одному варианту осуществления изобретения, раскрытого в данном документе. Обучение генеративной нейронной сети в случайном режиме содержит следующие этапы, повторно выполняемые с некоторым количеством итераций: этап S180, на котором вводят первое изображение в качестве обучающего примера в контентный кодер для получения контентного тензора, являющегося пространственно меньшим представлением контента в первом изображении. Затем, обучение содержит этап S185, на котором формируют случайный стилевой вектор из априорного распределения, и этап S190, на котором вводят контентный тензор, случайный стилевой вектор в декодер для получения, с использованием адаптивной раздельной нормализации, третьего изображения, имеющего контент первого изображения, и стиль, определяемый случайным стилевым вектором, и маски сегментации, соответствующей первому изображению. Первое изображение и третье изображение имеют первое разрешение, которое меньше разрешения правдоподобного отображения течения времени суточного масштаба, сформированного посредством способа, описанного выше со ссылкой на фиг. 1. Затем, обучение содержит этап S195, на котором вводят случайный стилевой вектор и третье изображение в обусловленный дискриминатор, выполненный с возможностью определять, является ли изображение достаточно правдоподобным при данном стиле, и этап S200, на котором обновляют параметры генеративной нейронной сети на основе результата определения обусловленным дискриминатором для обеспечения обучения генеративной нейронной сети и обусловленного дискриминатора в состязательном режиме. Маска сегментации дополнительно учитывается при обновлении параметров генеративной нейронной сети.[0022] FIG. 3 shows a flow diagram of a method for training a generative neural network in a random mode according to one embodiment of the invention disclosed herein. Training a generative neural network in a random mode comprises the following steps, repeated with a number of iterations: step S180, in which a first image is input as a training example into a content encoder to obtain a content tensor, which is a spatially smaller representation of the content in the first image. Then, training comprises step S185, in which a random style vector is generated from the prior distribution, and step S190, in which a content tensor, a random style vector, is introduced into the decoder to obtain, using adaptive split normalization, a third image having the content of the first image, and a style defined by a random style vector and a segmentation mask corresponding to the first image. The first image and the third image have a first resolution that is less than the resolution of a plausible display of the passage of time on a daily scale generated by the method described above with reference to FIG. 1. Then, the learning comprises step S195, in which a random style vector and a third image are input into a conditional discriminator configured to determine if the image is plausible enough with a given style, and step S200, in which the parameters of the generative neural network are updated based on the result definitions of a conditional discriminator to provide training for a generative neural network and a conditional discriminator in an adversarial mode. The segmentation mask is additionally taken into account when updating the parameters of the generative neural network.

[0023] Фиг. 4 показывает блок-схему последовательности операций способа обучения генеративной нейронной сети в режиме автоэнкодера согласно одному варианту осуществления изобретения, раскрытого в данном документе. Обучение генеративной нейронной сети в режиме автоэнкодера содержит следующие этапы, повторно выполняемые с некоторым количеством итераций: этап S205, на котором вводят первое изображение в качестве обучающего примера в контентный кодер для получения контентного тензора, являющегося пространственно меньшим представлением контента в первом изображении. Затем, обучение содержит этап S210, на котором вводят первое изображение в качестве обучающего примера в стилевой кодер для получения стилевого вектора, указывающего стиль в первом изображении, и этап S215, на котором вводят контентный тензор, стилевой вектор в декодер для получения, с использованием адаптивной раздельной нормализации, третьего изображения, имеющего контент и стиль первого изображения, и маски сегментации, соответствующей первому изображению. Первое изображение и третье изображение имеют первое разрешение, которое меньше разрешения правдоподобного отображения течения времени суточного масштаба, сформированного посредством способа, описанного выше со ссылкой на фиг. 1. Затем, обучение содержит этап S220, на котором сравнивают первое изображение и третье изображение, и этап S225, на котором обновляют параметры генеративной нейронной сети на основе результата сравнения. В неограничивающем варианте осуществления, сравнение может быть попиксельным сравнением. Маска сегментации дополнительно учитывается при обновлении генеративной нейронной сети.[0023] FIG. 4 shows a flow diagram of a method for training a generative neural network in autoencoder mode according to one embodiment of the invention disclosed herein. The training of the generative neural network in the autoencoder mode comprises the following steps, repeated with a number of iterations: step S205, in which the first image is input as a training example into the content encoder to obtain a content tensor, which is a spatially smaller representation of the content in the first image. Then, the training comprises step S210, in which the first image is input as a training example into the style encoder to obtain a style vector indicating the style in the first image, and step S215, in which the content tensor, the style vector is input to the decoder to obtain, using adaptive separate normalization, a third image having the content and style of the first image, and a segmentation mask corresponding to the first image. The first image and the third image have a first resolution that is less than the resolution of a plausible display of the passage of time on a daily scale generated by the method described above with reference to FIG. 1. Then, learning comprises step S220, which compares the first image and the third image, and step S225, where parameters of the generative neural network are updated based on the comparison result. In a non-limiting embodiment, the comparison may be a pixel by pixel comparison. The segmentation mask is additionally taken into account when updating the generative neural network.

[0024] Таким образом, во время обучения, декодер генеративной нейронной сети предсказывает не только входное изображение х, но и соответствующую маску сегментации, m (создаваемую внешней предварительно обученной сетью). Изобретение настоящего раскрытия не направлено на обеспечение сегментации, превосходящей предшествующий уровень техники, в качестве побочного продукта, но сегментация в генеративной нейронной сети помогает управлять переносом стилей и помогает лучше сохранять семантическую компоновку. Иначе, ничто не препятствует перерисовке генеративной нейронной сетью, например, травы в воду или наоборот. Следует отметить, что маски сегментации не задаются в виде входных данных для сетей, и, таким образом, они не нужны на стадии вывода (при использовании).[0024] Thus, during training, the generative neural network decoder predicts not only the input image x, but also the corresponding segmentation mask, m (generated by the external pretrained network). The invention of the present disclosure is not intended to provide segmentation superior to the prior art as a byproduct, but segmentation in a generative neural network helps manage style transfer and helps to better preserve semantic layout. Otherwise, nothing prevents the generative neural network from redrawing, for example, grass into water or vice versa. It should be noted that segmentation masks are not specified as input to networks, and thus are not needed in the inference phase (in use).

[0025] На протяжении всего описания изобретения, пространство входных изображений обозначается

, их маски сегментации обозначаются

, и отдельные изображения с масками сегментации обозначаются х, m

; пространством скрытых контентных кодов с является с

, и пространством скрытых стилевых кодов s является s

(

, в то время как

имеет более сложную структуру). Для получения с и s из изображения х, генеративная нейронная сеть использует два кодера:

получает представление контента, с, входного изображения х, и

получает представление стиля, s, входного изображения х. Если дан скрытый контентный код с

и скрытый стилевой код s

, то декодер (генератор)

генеративной нейронной сети формирует новое изображение

и соответствующую маску сегментации,

. Таким образом, генеративная нейронная сеть выполнена с возможностью объединять контент из х и стиль из x' в виде

. Генеративная нейронная сеть, таким образом, объединяет по меньшей мере стилевой кодер Е _s, контентный кодер E _c, и декодер G; входными рабочими данными являются (i) два входных изображения х и x', или (ii) входное изображение х и параметр стиля, задающий один или несколько предопределенных стилей, соответственно, соответствующих одному или нескольким временам суток, которые подлежат применению к изображению. Параметр стиля может быть получен из изображения x' или может быть прямо введен пользователем, например, как описано выше со ссылкой на «временную шкалу». Фиг. 7 показывает поток данных в возможной реализации генеративной нейронной сети согласно одному варианту осуществления изобретения, раскрытого в данном документе. Фиг. 7 показывает половину (симметричной) архитектуры.

является стилем, полученным из другого изображения x', и

получают подобно s' перестановкой x и x'. Эта иллюстрация показывает элементы данных; функции потерь; функции (подсетей). Функции с идентичными метками имеют совместно используемые веса. [0025] Throughout the description of the invention, the space of the input images is denoted

, their segmentation masks are denoted

, and individual images with segmentation masks are denoted by x, m

; the space of hidden content codes c is c

, and the hidden style code space s is s

(

, while

has a more complex structure). To obtain c and s from image x, a generative neural network uses two encoders:

gets a content representation, c, of the input image x, and

gets the style representation, s, of the input image x. If given hidden content code with

and the hidden style code s

then decoder (generator)

generative neural network generates a new image

and the corresponding segmentation mask,

... Thus, the generative neural network is configured to combine content from x and style from x 'in the form

... The generative neural network thus combines at least a style encoder E _s , a content encoder E _c , and a decoder G; the input working data are (i) two input images x and x ', or (ii) an input image x and a style parameter specifying one or more predefined styles, respectively, corresponding to one or more times of the day to be applied to the image. The style parameter can be obtained from the image x 'or can be directly entered by the user, for example, as described above with reference to the "timeline". FIG. 7 shows a data flow in a possible implementation of a generative neural network according to one embodiment of the invention disclosed herein. FIG. 7 shows half of the (symmetric) architecture.

is the style obtained from another image x ', and

get like s 'by swapping x and x'. This illustration shows data items; loss functions; functions (subnets). Functions with identical labels have shared weights.

Функции потерь, применимые в генеративной нейронной сетиLoss functions applicable in a generative neural network

[0026] Состязательные потери. Генеративная нейронная сеть должна формировать правдоподобное и реалистичное изображение (изображения) отображения течения времени, определяемое в обычном состязательном режиме. Для учета стилей используются два дискриминатора, безусловный дискриминатор

и обусловленный дискриминатор

. Оба дискриминатора пытаются различить реальные и преобразованные изображения с использованием, например, GAN-подхода наименьших квадратов. «Фиктивное» изображение, создаваемое из реального контентного и стилевого изображений x, x'

, s'=E _s(x'), определяется в виде

. Та же самая схема используется для изображений, создаваемых со случайным стилем s_r~p*(s). Может быть использована схема согласования проекций, и стили могут быть отсоединены от вычислительного графа при подаче их в D _s во время этапа обновления параметров декодера. Реальные изображения используют извлекаемые из них стили, в то время как сгенерированные изображения связывают со стилями, в которые выполняют преобразование. Фиг. 7 не показывает состязательные потери.[0026] Adversarial losses . The generative neural network must generate a plausible and realistic image (s) of the display of the passage of time, determined in the usual adversarial mode. To account for styles, two discriminators are used, an unconditional discriminator

and conditional discriminator

... Both discriminators try to distinguish between real and transformed images using, for example, the GAN least squares approach. "Mock" image created from real content and style images x, x '

, s '= E _s (x'), is defined as

... The same scheme is used for images generated with random style s _r ~ p * (s). A projection matching scheme can be used, and styles can be detached from the computational graph by feeding them to D _s during the decoder parameter update step. Real images use styles extracted from them, while generated images are associated with the styles to which they are being converted. FIG. 7 does not show adversarial losses.

[0027] Потери восстановления изображений. Потери восстановления изображений,

, определяются в виде L₁-нормы разницы между исходным и восстановленным изображениями. Потери восстановления изображений применяются по меньшей мере три раза в архитектуре генеративной нейронной сети: для восстановления

контентного изображения х,

, для восстановления

случайного стилевого изображения x_r,

, и для восстановления

изображения х из контента стилизованного изображения

и стиля стилизованного изображения

(перекрестная циклическая совместимость):

, где

(см. фиг. 7).[0027] Loss of image recovery . Loss of image recovery,

, are determined in the form of the L ₁ -norm of the difference between the original and reconstructed images. Image recovery loss is applied at least three times in generative neural network architecture: for recovery

content image x,

, recovery

a random style image x _r ,

, and to restore

image x from stylized image content

and the style of the stylized image

(cross-loop compatibility):

where

(see Fig. 7).

[0028] Потери сегментации. Потери сегментации,

, используются вместе с потерями восстановления изображений и определяются в виде перекрестной энтропии

между исходной, m, и восстановленной,

, масками сегментации. Потери сегментации применяются по меньшей мере дважды в архитектуре генеративной нейронной сети: к маске сегментации,

, преобразованного изображения,

, и к маске m_r случайного стилевого изображения,

.[0028] Segmentation loss . Segmentation loss,

, are used together with the image recovery loss and are defined as the cross entropy

between the original, m, and the restored,

, segmentation masks. Segmentation loss is applied at least twice in generative neural network architecture: to the segmentation mask,

, transformed image,

, and to the mask m _{r of a} random style image,

...

[0029] Потери скрытого восстановления. Еще два вида потерь восстановления,

и

, относятся к стилевому и контентному кодам; упомянутые потери восстановления применяются к разнице между исходным и восстановленным кодами и используются по меньшей мере дважды в архитектуре генеративной нейронной сети. Во-первых, для стиля

и контента

случайного стилевого изображения

причем стиль должен соответствовать s_r, а контент должен соответствовать с:

. Во-вторых, для стиля

и контента

стилизованного изображения

причем стиль должен соответствовать s', а контент должен соответствовать с; потери L ₁, но без ограничения, могут быть применены к контенту,

и более робастная функция потерь может быть применена к стилям для предотвращения уменьшения их до нуля:

.[0029] Losses of latent recovery . Two more types of recovery losses,

and

, refer to style and content codes; said recovery loss is applied to the difference between the original and recovered codes and is used at least twice in a generative neural network architecture. First, for style

and content

random style image

where the style must match s _r , and the content must match with:

... Second, for style

and content

stylized image

moreover, the style must match s', and the content must match with; loss L ₁ , but without limitation, can be applied to content,

and a more robust loss function can be applied to styles to prevent them from decreasing to zero:

...

[0030] Потери распределения стилей. Для усиления структуры пространства полученных стилевых кодов, потери распределения стилей могут быть применены к пулу стилей, собранных из некоторого количества предыдущих итераций обучения. А именно, для пула данного размера Т стили {s¹…s^T} могут быть собраны из прошлых минигрупп с применением операции останавливающего градиента, полученные стили s и s' (которые являются частью текущего вычислительного графа) могут быть добавлены к этому пулу, и вектор средних значений,

, и ковариационная матрица

могут быть вычислены с использованием обновленного пула. Тогда, потери распределения стилей согласовывают эмпирические моменты результирующего распределения с теоретическими моментами декодера случайных стилевых векторов,

Поскольку пространство

является маломерным, и целью является стандартное нормальное распределение

, этот упрощенный подход является достаточным для усиления структуры в пространстве скрытых кодов. После вычисления значения потерь, наиболее ранние стили удаляют из пула для сохранения его размера на уровне Т.[0030] Loss of style distribution . To strengthen the structure of the space of the obtained style codes, loss of style distribution can be applied to a pool of styles collected from a number of previous training iterations. Namely, for a pool of a given size T, styles {s ¹ ... s ^T } can be collected from past minigroups using a stopping gradient operation, the resulting styles s and s' (which are part of the current computational graph) can be added to this pool, and vector of mean values,

, and the covariance matrix

can be calculated using the updated pool. Then, the style distribution losses match the empirical moments of the resulting distribution with the theoretical moments of the random style vector decoder,

Since the space

is undersized and the target is the standard normal distribution

, this simplified approach is sufficient to strengthen the structure in the hidden code space. After calculating the loss value, the earliest styles are removed from the pool to keep its size at the T level.

[0031] Общая функция потерь. Таким образом, общая генеративная нейронная сеть совместно обучает стилевой кодер, контентный кодер, декодер, и дискриминатор со следующей целью:[0031] General loss function . Thus, a common generative neural network co-trains a style coder, content coder, decoder, and discriminator with the following goal:

Гиперпараметры л₁,…, л₇ определяют относительную важность компонентов в общей функции потерь; они были определены эмпирически.The hyperparameters l ₁ , ..., l ₇ determine the relative importance of the components in the overall loss function; they have been determined empirically.

[0032] Эксперименты показали, что проекционный дискриминатор значительно улучшает результаты, в то время как удаление функции потерь сегментации иногда приводит к нежелательным «галлюцинациям», порождаемым декодером. Однако эта модель все же хорошо обучается без функции потерь сегментации. Эксперименты также показали, что функция потерь распределения стилей не является обязательной. Предполагается, что это является следствием использования как проекционного дискриминатора, так и случайных стилей во время обучения.[0032] Experiments have shown that the projection discriminator significantly improves the results, while the removal of the segmentation loss function sometimes leads to unwanted "hallucinations" generated by the decoder. However, this model still learns well without the segmentation loss function. Experiments have also shown that the style distribution loss function is optional. It is assumed that this is a consequence of the use of both a projection discriminator and random styles during training.

Адаптивная архитектура U-NetAdaptive U-Net architecture

[0033] Для создания правдоподобного ландшафтного изображения времени суток, модель должна сохранять детали из исходного изображения. Таким образом, генеративная нейронная сеть может включать в себя одну или несколько плотных обходных связей (dense skip connections), выполненных с возможностью передавать высокочастотные признаки, не передаваемые контентным тензором первого изображения, декодеру. Для реализации этого, вдохновленная FUNIT архитектура кодер-декодер может быть улучшена плотными обходными связями между понижающей-дискретизацию частью E _c и повышающей-дискретизацию частью G. К сожалению, регулярные обходные связи могли бы также сохранять стиль исходных входных данных. Таким образом, в одном варианте осуществления вводится дополнительный сверточный блок с AdaIN, который применяется к обходным связям. Фиг. 8 показывает диаграмму адаптивной архитектуры U-Net: сеть кодер-декодер с плотными обходными связями и контентно-стилевое разложение (c, s) согласно одному варианту осуществления изобретения, раскрытого в данном документе.[0033] To create a believable landscape image of the time of day, the model must retain detail from the original image. Thus, a generative neural network can include one or more dense skip connections configured to transmit high-frequency features that are not transmitted by the content tensor of the first image to the decoder. To accomplish this, the FUNIT-inspired codec architecture can be enhanced by tight detours between the downsampling E _c portion and the G upsampling portion. Unfortunately, regular workarounds might also preserve the style of the original input. Thus, in one embodiment, an additional convolutional block with AdaIN is introduced, which is applied to the detours. FIG. 8 shows a diagram of an adaptive U-Net architecture: tight-loop codec network and content-style decomposition (c, s) according to one embodiment of the invention disclosed herein.

[0034] Общая архитектура имеет следующую структуру: контентный кодер E _c отображает исходное изображение в трехмерный (3D) тензор c с использованием нескольких сверточных понижающих-дискретизацию уровней и остаточных блоков. В неограничивающем примере, стилевой кодер E _s является полностью сверточной сетью, которая заканчивается глобальным объединением ресурсов и сжатием 1×1 сверточного уровня. Декодер G обрабатывает c несколькими остаточными блоками с модулями AdaIN внутри и затем повышает дискретизацию обработанного c. [0034] The general architecture is structured as follows: the content encoder E _c maps the original image into a three-dimensional (3D) tensor c using multiple convolutional downsampling levels and residual blocks. In a non-limiting example, the style encoder E _s is a fully convolutional network that ends with global resource pooling and 1 × 1 convolutional layer compression. Decoder G processes c multiple residual blocks with AdaIN modules inside and then upsamples the processed c .

Улучшающая постобработка с использованием объединяющей нейронной сетиEnhanced post-processing using merging neural network

[0035] Обучение сети, которая может эффективно работать с изображениями высокого разрешения, является сложным вследствие аппаратных ограничений, как по памяти, так и по времени вычислений. Применение полностью сверточной нейронной сети непосредственно к изображению с более высоким разрешением или использование направляемого фильтра являются применимыми технологиями в отношении изображений высокого разрешения. Хотя эти технологии в большинстве случаев демонстрируют хорошие результаты, они имеют некоторые ограничения. Полностью сверточное применение может приводить к искажению сцены вследствие ограниченного поля восприятия, которое имеет место при заходах солнца, когда должны быть изображены множественные положения солнца, или при отражениях от воды, когда может быть искажена граница между небом и поверхностью воды. Направляемый фильтр, с другой стороны, прекрасно работает с водой или солнцем, но отказывает, если мелкие детали, такие как веточки, были изменены посредством процедуры переноса стиля, или на горизонте или на любой другой высококонтрастной границе, если она подверглась сильному воздействию, что приводит к эффекту «ореола». Такие случаи могут показаться крайним случаем, который не стоит рассматривать, но они являются критическими в задаче преобразования времени суток, что приводит нас к необходимости обеспечения сохраняющего-семантику способа повышения разрешения. Также, прямое применение способов сверхвысокого разрешения и предварительно обученных моделей является невозможным вследствие значительно большего расхождения между бикубическим понижающим-дискретизацию ядром и артефактами, производимыми сетью от изображения к изображению.[0035] Training a network that can efficiently handle high-resolution images is difficult due to hardware limitations in both memory and computation time. Applying a fully convolutional neural network directly to a higher resolution image or using a guided filter are applicable technologies for high resolution images. While these technologies perform well in most cases, they have some limitations. Fully convolutional application can result in scene distortion due to the limited field of view that occurs at sunsets, when multiple positions of the sun must be depicted, or in reflections from water, where the boundary between the sky and the water surface can be distorted. A directional filter, on the other hand, works great with water or sun, but fails if fine details such as twigs have been altered through a style transfer procedure, or on the horizon or any other high-contrast border if it has been heavily impacted, resulting in to the "halo" effect. Such cases may seem like an extreme case that is not worth considering, but they are critical in the task of transforming the time of day, which leads us to provide a semantics-preserving way of increasing the resolution. Also, direct application of ultra-high resolution techniques and pretrained models is not possible due to the significantly greater discrepancy between the bicubic downsampling kernel and artifacts produced by the network from image to image.

[0036] Согласно одному варианту осуществления изобретения, раскрытого в данном документе, предлагается использовать отдельную объединяющую нейронную сеть (также называемую улучшающей сетью) G_enh для повышения разрешения преобразуемого изображения и одновременного удаления артефактов, которые являются «типичными» для обученного и замороженного декодера G. В одном варианте осуществления изобретения, раскрытого в данном документе, способ обучения объединяющей нейронной сети содержит следующие этапы, повторно выполняемые с некоторым количеством итераций: этап S230, на котором получают набор обучающих изображений, каждое из которых имеет второе разрешение, большее первого разрешения. Затем, способ обучения содержит этап S235, на котором разделяют каждое изображение из набора обучающих изображений на n сильно перекрывающихся обрезанных изображений в предопределенном режиме, определяемом направлением смещения и шагом в k пикселов. Значения n и k в данном документе не ограничены. Направление смещения указывает направление смещения одного изображения относительно другого сильно перекрывающегося обрезанного изображения, а шаг указывает величину смещения между обрезанными изображениями (т.е. на неперекрытую область между обрезанными изображениями). Затем, способ обучения содержит этап S240, на котором понижают дискретизацию каждого обрезанного изображения из n обрезанных изображений до первого разрешения, и этап S245, на котором применяют обученную генеративную нейронную сеть в режиме автоэнкодера к каждому обрезанному изображению из n обрезанных изображений для получения n преобразованных обрезанных изображений, каждое из которых захватывает артефакты и расхождения между соответствующим обрезанным изображением исходного обучающего изображения и преобразованным обрезанным изображением, созданным обученной генеративной нейронной сетью. Наконец, способ обучения содержит этап S250, на котором вводят n преобразованных обрезанных изображений в объединяющую нейронную сеть для получения объединенного изображения с уменьшенными артефактами и расхождениями, сравнивают объединенное изображение с соответствующим исходным изображением из набора обучающих изображений, и обновляют параметры объединяющей нейронной сети на основе результата сравнения.[0036] According to one embodiment of the invention disclosed herein, it is proposed to use a separate merging neural network (also called an enhancement network) G _enh to improve the resolution of the converted image while simultaneously removing artifacts that are "typical" of the trained and frozen G decoder. In one embodiment of the invention disclosed herein, a method for training a merging neural network comprises the following steps repeated with a number of iterations: step S230, which obtains a set of training images, each with a second resolution greater than the first resolution. Then, the training method comprises step S235, in which each image from the training image set is divided into n highly overlapping cropped images in a predetermined mode determined by the offset direction and the k pixel pitch. The values for n and k are not limited in this document. The offset direction indicates the direction in which one image is offset relative to another heavily overlapping cropped image, and the pitch indicates the amount of offset between cropped images (i.e., the unoverlapped area between cropped images). Then, the learning method comprises step S240, which downsamples each cropped image of the n cropped images to a first resolution, and step S245, which applies the trained generative neural network in autoencoder mode to each cropped image of the n cropped images to obtain n transformed cropped images. images, each capturing artifacts and discrepancies between the corresponding cropped image of the original training image and the transformed cropped image generated by the trained generative neural network. Finally, the training method comprises step S250, in which n transformed cropped images are input to the fusion neural network to obtain a fusion image with reduced artifacts and discrepancies, the fusion image is compared with the corresponding original image from the training image set, and the parameters of the fusion neural network are updated based on the result. comparisons.

[0037] В отличие от предшествующего уровня техники, несколько RGB-изображений используются в качестве входных данных вместо карт признаков. Раскрытый способ основан на использовании декодера в режиме «автоэнкодера» для получения спаренного набора данных, обучения объединяющей нейронной сети в режиме с учителем и захвата самых общих артефактов и расхождений между реальным изображением и изображением, созданным декодером. Для дополнительного улучшения обобщения по отношению к преобразуемым изображениям, декодер может быть использован в режиме «случайных стилей» для получения дополнительного неконтролируемого набора, к которому не применяются контролируемые потери (перцепционные потери и потери согласования признаков). Для краткости, ниже описаны функции потерь только для режима «автоэнкодера».[0037] Unlike the prior art, multiple RGB images are used as input instead of feature maps. The disclosed method is based on using a decoder in "autoencoder" mode to obtain a paired dataset, train a fusion neural network in supervised mode, and capture the most common artifacts and discrepancies between the real image and the image generated by the decoder. To further improve generalization with respect to the images being converted, the decoder can be used in "random styles" mode to obtain an additional uncontrolled set to which controllable losses (perceptual loss and feature matching loss) are not applied. For the sake of brevity, below are the loss functions for the "autoencoder" mode only.

[0038] В конкретной реализации, изображение x_hi высокого разрешения (1024×1024 в экспериментах) покрывают сильно перекрывающимися кадрами

равной ширины и высоты с шагом 1 пиксел; каждый кадр только на несколько пикселов меньше изображения x_hi. Разрешение кадров уменьшают билинейным ядром до разрешения, пригодного для декодера генеративной нейронной сети (в неограничивающем примере, 256×256 с коэффициентом масштабирования, равным 4), что обеспечивает набор обрезанных изображений с пониженной дискретизацией,

. Затем, генеративную нейронную сеть применяют к набору обрезанных изображений с пониженной дискретизацией,

, что обеспечивает изображения

низкого разрешения. Эти кадры помещают в единственный тензор в фиксированном порядке и подают в объединяющую нейронную сеть G_enh, которая выполнена с возможностью восстанавливать исходное изображение x_hi с результатом

. Иллюстративное представление процесса показано на фиг. 9.[0038] In a particular implementation, a _{high resolution x hi} image (1024x1024 in experiments) is covered with highly overlapping frames

equal width and height in 1 pixel increments; each frame is only a few pixels smaller than the x _hi image. The frame resolution is downsampled by a bilinear kernel to a resolution suitable for a generative neural network decoder (in a non-limiting example, 256x256 with a scaling factor of 4), which provides a set of cropped images with downsampling,

... Then, a generative neural network is applied to the set of downsampled cropped images,

that provides images

low resolution. These frames are placed in a single tensor in a fixed order and fed to the combining neural network G _enh , which is configured to restore the original image x _hi with the result

... An illustrative representation of the process is shown in FIG. nine.

[0039] Для G_enh, режим обучения pix2pixHD может быть использован с функцией перцепционных потерь, функцией потерь согласования признаков, и функцией состязательных потерь. Исходные изображения высокого разрешения используются в качестве контрольных. G_enh может использовать одну или несколько следующих функций потерь во время обучения: функцию перцепционных потерь восстановления между

; функцию потерь согласования признаков между

с использованием каждой карты признаков каждого дискриминатора (имеется три дискриминатора в многомасштабной архитектуре):

; (3) функцию состязательных потерь на основе LSGAN:

.[0039] For G _enh , the pix2pixHD learning mode can be used with a perceptual loss function, a feature matching loss function, and an adversarial loss function. The original high-resolution images are used as reference images. G _enh can use one or more of the following loss functions during training: a perceptual loss function recovery between

; loss function of matching features between

using each feature map of each discriminator (there are three discriminators in a multiscale architecture):

; (3) LSGAN-based adversarial loss function:

...

Детали реализацииImplementation details

[0040] Детали обучения. Конкретные детали реализации, приведенные ниже, следует рассматривать только в качестве неограничивающих примеров. В иллюстративной реализации, контентный кодер может содержать два понижающих-дискретизацию и четыре остаточных блока; после каждого понижения дискретизации, только 5 каналов могут быть использованы для обходных связей. Стилевой кодер содержит четыре понижающих-дискретизацию блока, и тогда результат с пониженной дискретизацией может быть усреднен в отношении пространственной информации в трехмерный вектор. Декодер может содержать пять остаточных блоков с AdaIN внутри и два повышающих-дискретизацию блока. Параметры AdaIN могут быть вычислены на основании стилевого вектора посредством трехуровневой сети с прямой связью. Оба дискриминатора являются многомасштабными и имеют три понижающих-дискретизацию уровня. Генеративная нейронная сеть может обучаться на протяжении некоторого числа итераций (например, около 450 тысяч итераций) с размером группы, равным 4. Для обучения, изображения могут быть подвергнуты понижению разрешения до разрешения 256×256. В конкретном примере, веса потерь эмпирически определили в виде л₁=5, л₂=2, л₃=3, л₄=1, л₅=0,1, л₆=4, л₇=1. Оптимизатор Adam может быть использован с в₁=0,5, в₂=0,999, и начальной скоростью обучения, составляющей 0,0001, как для генераторов, так и для дискриминаторов, что вдвое уменьшает скорость обучения каждые 200000 итераций.[0040] Training details . The specific implementation details below should be considered as non-limiting examples only. In an illustrative implementation, a content encoder may comprise two downsampling and four residual blocks; after each downsampling, only 5 channels can be used for bypass. The style encoder contains four downsampling blocks, and then the downsampling result can be averaged with respect to the spatial information into a 3D vector. The decoder can contain five residual blocks with an AdaIN inside and two upsampling blocks. The AdaIN parameters can be computed from the style vector through a three-layer feedforward network. Both discriminators are multiscale and have three downsampling levels. A generative neural network can be trained for a number of iterations (for example, about 450 thousand iterations) with a group size of 4. For training, images can be downsampled to 256 × 256. In a specific example, the loss weights were empirically determined as l ₁ = 5, l ₂ = 2, l ₃ = 3, l ₄ = 1, l ₅ = 0.1, l ₆ = 4, l ₇ = 1. The Adam optimizer can be used with ₁ = 0.5, ₂ = 0.999, and an initial learning rate of 0.0001 for both generators and discriminators, halving the learning rate every 200,000 iterations.

[0041] Классификатор наборов данных и времени суток. Набор данных из 20000 ландшафтных фотографий был собран из Интернета. Малая часть этих изображений была вручную помечена в соответствии с четырьмя классами (ночь, заход/восход солнца, утро/вечер, полдень, без ограничения) с использованием платформы краудсорсинга. Большее или меньшее число классов может быть использовано в других вариантах осуществления. Классификатор на основе ResNet может быть обучен на этих метках и применен к остальной части набора данных. Предсказанные метки могут быть использованы двумя способами: (1) для уравновешивания обучающего набора для моделей преобразования изображений относительно классов времени суток; (2) для обеспечения доменных меток для базовых моделей. Маски сегментации были созданы внешней моделью и приведены к 9 классам: небо, трава, земля, горы, вода, строения, деревья, дороги, и люди. Большее или меньшее число классов может быть использовано в других вариантах осуществления. Важно, что одним применением раскрытой генеративной нейронной сети является формирование отображения течения времени суток с использованием конкретного видеоизображения в качестве правила.[0041] Classifier of datasets and time of day . A dataset of 20,000 landscape photographs was collected from the Internet. A small fraction of these images have been manually tagged according to four classes (night, sunset / sunrise, morning / evening, noon, no limitation) using a crowdsourcing platform. More or fewer classes can be used in other embodiments. A ResNet based classifier can be trained on these labels and applied to the rest of the dataset. The predicted labels can be used in two ways: (1) balancing the training set for image transformation models with respect to time of day classes; (2) to provide domain tags for base models. The segmentation masks were created by the external model and were reduced to 9 classes: sky, grass, earth, mountains, water, buildings, trees, roads, and people. More or fewer classes can be used in other embodiments. Importantly, one application of the disclosed generative neural network is to generate a display of the flow of time of day using a specific video image as a rule.

Другие варианты осуществленияOther options for implementation

[0042] Фиг. 6 показывает блок-схему вычислительного устройства, выполненного с возможностью выполнять способ согласно одному варианту осуществления изобретения, раскрытого в данном документе. Вычислительное устройство 300 (такое как, например, смартфон, планшетный компьютер, ноутбук, интеллектуальные часы и т.д.) содержит процессор 300.1 и память 300.2, хранящую исполняемые компьютером инструкции, которые, при исполнении процессором, побуждают процессор к выполнению способа согласно первому аспекту. Процессор 300.1 и память 300.2 связаны с возможностью взаимодействия друг с другом. В неограничивающих вариантах осуществления, процессор 300.1 может быть реализован в виде вычислительного средства, включающего в себя, но не ограниченного этим, процессор общего назначения, специализированную интегральную схему (application-specific integrated circuit - ASIC), программируемую пользователем матрицу программируемых логических вентилей (gate array - FPGA), или систему-на-кристалле (system-on-chip - SoC). Такие вычислительные устройства или другие пользовательские устройства могут также содержать память (RAM, ROM и т.д.), (сенсорный) экран, средство I/O, камеру, средство связи и т.д.[0042] FIG. 6 shows a block diagram of a computing device configured to perform a method in accordance with one embodiment of the invention disclosed herein. Computing device 300 (such as, for example, a smartphone, tablet computer, laptop, smart watch, etc.) includes a processor 300.1 and a memory 300.2 storing computer-executable instructions that, when executed by the processor, cause the processor to perform the method according to the first aspect. ... The processor 300.1 and memory 300.2 are associated with the ability to communicate with each other. In non-limiting embodiments, processor 300.1 may be implemented as a computing device including, but not limited to, a general-purpose processor, an application-specific integrated circuit (ASIC), a user-programmable gate array, - FPGA), or system-on-chip (SoC). Such computing devices or other user devices may also include memory (RAM, ROM, etc.), (touch) screen, I / O means, camera, communication means, etc.

[0043] Предлагаемый способ может быть также реализован на компьютерно-читаемом носителе данных, на котором хранятся исполняемые компьютером инструкции, которые, при выполнении обрабатывающим или вычислительным средством некоторого устройства, побуждают это устройство выполнять любой этап (этапы) предлагаемого способа формирования правдоподобного представления течения времени суточного масштаба в высоком разрешении. Данные любых типов могут быть обработаны системами искусственного интеллекта, обученными с использованием описанных выше подходов. Фаза обучения может быть реализована в офлайновом режиме.[0043] The proposed method can also be implemented on a computer-readable storage medium, which stores computer-executable instructions that, when executed by a processing or computing means of a certain device, cause this device to perform any step (s) of the proposed method of forming a plausible representation of the passage of time daily scale in high resolution. Data of any type can be processed by artificial intelligence systems trained using the approaches described above. The learning phase can be done offline.

[0044] В настоящей заявке раскрыта новая модель преобразования изображений, которая не основана на доменных метках ни во время обучения, ни во время вывода. Новая схема улучшения позволяет увеличить разрешение выходных данных преобразования. Предлагаемая модель выполнена с возможностью обучаться преобразованию времени суток для ландшафтных изображений высокого разрешения. Предлагаемая модель может быть легко обобщена для других областей, например, для формирования изображений отображения течения времени на изображениях с цветами, домашними животными, людьми и т.д. Специалистам в данной области техники будет ясно, что для других областей генеративная нейронная сеть должна быть обучена на соответствующих обучающих наборах данных, например, на обучающем наборе данных изображений цветов, на обучающем наборе данных изображений домашних животных, и на обучающем наборе данных изображений людей.[0044] The present application discloses a new image transformation model that is not based on domain tags either during training or during output. The new enhancement scheme allows the resolution of the transform output to be increased. The proposed model is made with the ability to learn the transformation of the time of day for high-resolution landscape images. The proposed model can be easily generalized to other areas, for example, to form images of displaying the passage of time on images with flowers, pets, people, etc. It will be clear to those skilled in the art that for other fields, a generative neural network must be trained on appropriate training datasets, such as a color image training dataset, a pet training image dataset, and a human image training dataset.

[0045] Раскрытая модель выполнена с возможностью формировать изображения с использованием стилей, получаемых из изображений, а также отбираемых из априорного распределения. Привлекательным прямым применением модели является формирование отображений течения времени из единственного изображения (задача, в настоящее время решаемая, главным образом, спаренными наборами данных).[0045] The disclosed model is configured to generate images using styles derived from images as well as those sampled from a priori distribution. An attractive direct application of the model is the generation of time-flow mappings from a single image (a task currently being solved mainly by paired datasets).

[0046] Следует ясно понимать, что не всеми техническими эффектами, упомянутыми в данном документе, можно воспользоваться во всех и каждом варианте осуществления настоящей технологии. Например, варианты осуществления настоящей технологии могут быть реализованы без использования пользователем некоторых из этих технических эффектов, в то время как другие варианты осуществления могут быть реализованы с использованием пользователем других технических эффектов или без использования каких-либо технических эффектов.[0046] It should be clearly understood that not all of the technical effects mentioned herein can be used in all and every embodiment of the present technology. For example, embodiments of the present technology may be implemented without the user using some of these technical effects, while other embodiments may be implemented using other technical effects or without any technical effects by the user.

[0047] Модификации и улучшения описанных выше реализаций настоящей технологии могут быть поняты специалистами в данной области техники. Предполагается, что приведенное выше описание является иллюстративным, а не ограничивающим. Таким образом, предполагается, что объем настоящей технологии ограничен исключительно объемом прилагаемой формулы изобретения.[0047] Modifications and improvements to the above described implementations of the present technology can be understood by those skilled in the art. The above description is intended to be illustrative and not restrictive. Thus, the scope of the present technology is intended to be limited solely by the scope of the appended claims.

[0048] В то время как описанные выше реализации были описаны и показаны со ссылкой на конкретные этапы, выполняемые в конкретном порядке, следует понимать, что эти этапы могут быть объединены, подразделены, или переупорядочены, не выходя за рамки идей настоящей технологии. Соответственно, порядок и группирование этапов не являются ограничениями настоящей технологии.[0048] While the above-described implementations have been described and shown with reference to specific steps performed in a specific order, it should be understood that these steps can be combined, subdivided, or reordered without departing from the teachings of the present technology. Accordingly, the order and grouping of steps are not a limitation of this technology.

Claims

1. Способ формирования одного или нескольких изображений последовательности правдоподобного отображения течения времени суточного масштаба на основе контентного изображения с использованием обученной генеративной нейронной сети и обученной объединяющей нейронной сети, причем способ содержит этапы, на которых: 1. A method of generating one or more images of a sequence of plausible display of the passage of time on a daily scale based on a content image using a trained generative neural network and a trained unifying neural network, the method comprising the steps of:

принимают (S105) контентное изображение и (а) предопределенные один или несколько стилей, подлежащих применению к контентному изображению, или (b) одно или несколько стилевых изображений, имеющих один или несколько стилей, подлежащих применению к контентному изображению;receiving (S105) the content image and (a) predetermined one or more styles to be applied to the content image, or (b) one or more style images having one or more styles to be applied to the content image;

разделяют (S110) контентное изображение на n обрезанных изображений, при этом n обрезанных изображений являются обрезанными изображениями, сильно перекрывающимися в предопределенном режиме, определяемом направлением смещения и шагом в k пикселов;dividing (S110) the content image into n cropped images, where the n cropped images are cropped images that overlap strongly in a predetermined mode determined by the offset direction and the k pixel pitch;

применяют (S115) обученную генеративную нейронную сеть с каждым из одного или нескольких стилей к n обрезанным изображениям для получения n обрезанных изображений, рестилизованных согласно каждому из одного или нескольких стилей; иapplying (S115) the trained generative neural network with each of the one or more styles to the n cropped images to obtain n cropped images, restyled according to each of the one or more styles; and

объединяют (S120) рестилизованные n обрезанных изображений для каждого из одного или нескольких стилей с помощью обученной объединяющей нейронной сети для получения одного или нескольких изображений последовательности правдоподобного отображения течения времени суточного масштаба для контентного изображения.combining (S120) the restilized n cropped images for each of the one or more styles using the trained fusion neural network to obtain one or more diurnal time-scale plausible sequence images for the content image.

2. Способ по п. 1, в котором генеративная нейронная сеть обучается в одном из или в комбинации следующих режимов: режим перестановки, случайный режим и режим автоэнкодера.2. The method according to claim 1, wherein the generative neural network is trained in one of or in a combination of the following modes: permutation mode, random mode, and autoencoder mode.

3. Способ по п. 1, в котором генеративная нейронная сеть содержит контентный кодер, стилевой кодер и декодер.3. The method of claim 1, wherein the generative neural network comprises a content encoder, a style encoder, and a decoder.

4. Способ по любому из пп. 1-3, в котором генеративная нейронная сеть обучается в режиме перестановки с использованием следующих этапов, повторно выполняемых с некоторым количеством итераций:4. A method according to any one of claims. 1-3, in which the generative neural network is trained in permutation mode using the following steps, repeated with a number of iterations:

вводят (S155) первое изображение в качестве обучающего примера в контентный кодер для получения контентного тензора, являющегося пространственно меньшим представлением контента в первом изображении;inputting (S155) the first image as a teaching example to the content encoder to obtain a content tensor, which is a spatially smaller representation of the content in the first image;

вводят (S160) второе изображение в качестве обучающего примера в стилевой кодер для получения стилевого вектора, указывающего стиль во втором изображении;inputting (S160) a second picture as a teaching example into a style encoder to obtain a style vector indicating a style in the second picture;

вводят (S165) контентный тензор, стилевой вектор в декодер для получения, с использованием адаптивной раздельной нормализации, третьего изображения, имеющего контент первого изображения и стиль второго изображения, и маски сегментации, соответствующей первому изображению;inputting (S165) the content tensor, the style vector into the decoder to obtain, using adaptive split normalization, a third image having the content of the first image and the style of the second image, and a segmentation mask corresponding to the first image;

попеременно вводят (S170) второе изображение и стилевой вектор или стилевой вектор и третье изображение в обусловленный дискриминатор, выполненный с возможностью определять, является ли изображение достаточно правдоподобным при данном стиле; иalternately inputting (S170) a second image and a style vector or a style vector and a third image into a conditional discriminator configured to determine whether the image is believable enough with a given style; and

попеременно обновляют (S175) параметры генеративной нейронной сети и обусловленного дискриминатора на основе результата определения обусловленным дискриминатором при разных итерациях для обеспечения обучения генеративной нейронной сети и обусловленного дискриминатора в состязательном режиме,alternately updating (S175) the parameters of the generative neural network and the conditioned discriminator based on the determination result of the conditioned discriminator at different iterations to provide training of the generative neural network and the conditioned discriminator in an adversarial mode,

причем при обновлении параметров генеративной нейронной сети дополнительно учитывают маску сегментации,moreover, when updating the parameters of the generative neural network, the segmentation mask is additionally taken into account,

причем первое изображение и второе изображение имеют первое разрешение.wherein the first image and the second image have the first resolution.

5. Способ по любому из пп. 1-3, в котором генеративная нейронная сеть обучается в случайном режиме с использованием следующих этапов, повторно выполняемых с некоторым количеством итераций:5. A method according to any one of claims. 1-3, in which the generative neural network is trained in a random mode using the following steps, repeated with a number of iterations:

вводят (S180) первое изображение в качестве обучающего примера в контентный кодер для получения контентного тензора, являющегося пространственно меньшим представлением контента в первом изображении;inputting (S180) the first image as a teaching example to the content encoder to obtain a content tensor that is a spatially smaller representation of the content in the first image;

формируют (S185) случайный стилевой вектор из априорного распределения;generating (S185) a random style vector from the prior distribution;

вводят (S190) контентный тензор, стилевой вектор в декодер для получения, с использованием адаптивной раздельной нормализации, третьего изображения, имеющего контент первого изображения, и стиль, определяемый случайным стилевым вектором, и маски сегментации, соответствующей первому изображению;inputting (S190) a content tensor, a style vector into the decoder to obtain, using adaptive split normalization, a third image having the content of the first image and a style determined by a random style vector and a segmentation mask corresponding to the first image;

вводят (S195) случайный стилевой вектор и третье изображение в обусловленный дискриминатор, выполненный с возможностью определять, является ли изображение достаточно правдоподобным при данном стиле; иinputting (S195) a random style vector and a third image into a conditional discriminator configured to determine whether the image is believable enough for the given style; and

обновляют (S200) параметры генеративной нейронной сети на основе результата определения обусловленным дискриминатором для обеспечения обучения генеративной нейронной сети и обусловленного дискриминатора в состязательном режиме,updating (S200) the parameters of the generative neural network based on the determination result of the conditional discriminator to provide training of the generative neural network and the conditional discriminator in an adversarial mode,

причем при обновлении параметров генеративной нейронной сети дополнительно учитывают маску сегментации.moreover, when updating the parameters of the generative neural network, the segmentation mask is additionally taken into account.

6. Способ по любому из пп. 1-3, в котором генеративная нейронная сеть обучается в режиме автоэнкодера с использованием следующих этапов, повторно выполняемых с некоторым количеством итераций:6. The method according to any one of claims. 1-3, in which the generative neural network is trained in autoencoder mode using the following steps, repeated with a number of iterations:

вводят (S205) первое изображение в качестве обучающего примера в контентный кодер для получения контентного тензора, являющегося пространственно меньшим представлением контента в первом изображении;inputting (S205) the first image as a teaching example to the content encoder to obtain a content tensor that is a spatially smaller representation of the content in the first image;

вводят (S210) первое изображение в качестве обучающего примера в стилевой кодер для получения стилевого вектора, указывающего стиль в первом изображении;inputting (S210) a first picture as a teaching example into a style encoder to obtain a style vector indicating a style in the first picture;

вводят (S215) контентный тензор, стилевой вектор в декодер для получения, с использованием адаптивной раздельной нормализации, третьего изображения, имеющего контент и стиль первого изображения, и маски сегментации, соответствующей первому изображению;inputting (S215) a content tensor, a style vector into the decoder to obtain, using adaptive split normalization, a third image having the content and style of the first image and a segmentation mask corresponding to the first image;

сравнивают (S220) первое изображение и третье изображение; иcompare (S220) the first picture and the third picture; and

обновляют (S225) параметры генеративной нейронной сети на основе результата сравнения,updating (S225) the parameters of the generative neural network based on the comparison result,

7. Способ по любому из пп. 1-6, в котором генеративная нейронная сеть содержит одну или несколько плотных обходных связей, выполненных с возможностью передавать высокочастотные признаки, не передаваемые контентным тензором первого изображения, декодеру.7. A method according to any one of claims. 1-6, in which the generative neural network contains one or more tight bypass links configured to transmit high-frequency features not transmitted by the content tensor of the first image to the decoder.

8. Способ по п. 1, в котором объединяющая нейронная сеть обучается с использованием следующих этапов, повторно выполняемых с некоторым количеством итераций:8. The method of claim 1, wherein the combining neural network is trained using the following steps, repeated with a number of iterations:

получают (S230) набор обучающих изображений, каждое из которых имеет второе разрешение;obtain (S230) a set of training images, each of which has a second resolution;

разделяют (S235) каждое изображение из набора обучающих изображений на n сильно перекрывающихся обрезанных изображений в предопределенном режиме, определяемом направлением смещения и шагом в k пикселов;dividing (S235) each image of the training image set into n highly overlapping cropped images in a predetermined mode determined by the offset direction and the k pixel pitch;

понижают (S240) дискретизацию каждого обрезанного изображения из n обрезанных изображений до первого разрешения;downsampling each cropped image of the n cropped images to a first resolution (S240);

применяют (S245) обученную генеративную нейронную сеть в режиме автоэнкодера к каждому обрезанному изображению из n обрезанных изображений для получения n преобразованных обрезанных изображений, каждое из которых захватывает артефакты и расхождения между соответствующим обрезанным изображением исходного обучающего изображения и преобразованным обрезанным изображением, созданным обученной генеративной нейронной сетью;apply (S245) the trained generative neural network in autoencoder mode to each cropped image from n cropped images to obtain n transformed cropped images, each of which captures artifacts and discrepancies between the corresponding cropped image of the original training image and the transformed cropped image generated by the trained generative neural network ;

вводят (S250) n преобразованных обрезанных изображений в объединяющую нейронную сеть для получения объединенного изображения с уменьшенными артефактами и расхождениями, сравнивают объединенное изображение с соответствующим исходным изображением из набора обучающих изображений, и обновляют параметры объединяющей нейронной сети на основе результата сравнения,inputting (S250) n transformed cropped images into the merging neural network to obtain a merged image with reduced artifacts and discrepancies, comparing the merged image with the corresponding original image from the training image set, and updating the parameters of the merging neural network based on the comparison result,

причем объединенное изображение имеет второе разрешение.and the combined image has a second resolution.

9. Способ по п. 1, в котором один или несколько стилей, соответственно, соответствуют одному или нескольким временам суток, подлежащих применению к контентному изображению.9. The method of claim 1, wherein the one or more styles, respectively, correspond to one or more times of the day to be applied to the content image.

10. Вычислительное устройство (300), содержащее процессор (300.1) и память (300.2), хранящую исполняемые компьютером инструкции, которые, при исполнении процессором, побуждают процессор к выполнению способа по любому из пп. 1-9.10. A computing device (300) comprising a processor (300.1) and a memory (300.2) storing computer-executable instructions that, when executed by the processor, cause the processor to perform the method according to any one of claims. 1-9.

11. Способ формирования одного или нескольких изображений последовательности правдоподобного отображения течения времени суточного масштаба на основе контентного изображения с использованием обученной генеративной нейронной сети, причем способ содержит этапы, на которых:11. A method for generating one or more images of a sequence of plausible display of the passage of time on a daily scale based on a content image using a trained generative neural network, the method comprising the steps of:

принимают контентное изображение и (a) предопределенные один или несколько стилей, подлежащих применению к контентному изображению, или (b) одно или несколько стилевых изображений, имеющих один или несколько стилей, подлежащих применению к контентному изображению;take the content image and (a) predetermined one or more styles to be applied to the content image, or (b) one or more style images having one or more styles to be applied to the content image;

уменьшают разрешение контентного изображения до низкого разрешения по меньшей стороне контентного изображения с сохранением соотношения сторон контентного изображения;reducing the resolution of the content image to a low resolution on a smaller side of the content image while maintaining the aspect ratio of the content image;

применяют обученную генеративную нейронную сеть с каждым из одного или нескольких стилей к уменьшенному контентному изображению для получения одного или нескольких уменьшенных контентных изображений, рестилизованных согласно каждому из одного или нескольких стилей; иapplying the trained generative neural network with each of the one or more styles to the reduced content image to obtain one or more reduced content images, restyled according to each of the one or more styles; and

осуществляют разложение, используя пирамиду Лапласа, каждого из рестилизованных контентных изображений на высокочастотные составляющие и низкочастотную составляющую, имеющую низкое разрешение по меньшей стороне с сохранением соотношения сторон;decomposing, using the Laplace pyramid, each of the restilized content images into high-frequency components and a low-frequency component having a low resolution on the smaller side while maintaining the aspect ratio;

фильтруют низкочастотную составляющую с использованием направляемого фильтра, причем контент соответствующего рестилизованного контентного изображения используют в качестве направляющей для упомянутой фильтрации; иfiltering the low-pass component using a directional filter, the content of the corresponding restyled content image being used as a guide for said filtering; and

формируют одно или несколько изображений последовательности правдоподобного отображения течения времени суточного масштаба на основе отфильтрованной низкочастотной составляющей и высокочастотных составляющих каждого из соответствующих рестилизованных контентных изображений, причем формирование выполняется с использованием пирамиды Лапласа.one or more images of a sequence of plausible display of the passage of time on a daily scale are formed on the basis of the filtered low-frequency component and high-frequency components of each of the corresponding restilized content images, and the formation is performed using the Laplace pyramid.

12. Способ по п. 11, в котором генеративная нейронная сеть обучается в одном из или в комбинации следующих режимов: режим перестановки, случайный режим и режим автоэнкодера.12. The method of claim 11, wherein the generative neural network is trained in one of or a combination of the following modes: permutation mode, random mode, and autoencoder mode.

13. Способ по п. 11, в котором генеративная нейронная сеть содержит контентный кодер, стилевой кодер и декодер.13. The method of claim 11, wherein the generative neural network comprises a content encoder, a style encoder, and a decoder.

14. Способ по любому из пп. 11-13, в котором генеративная нейронная сеть обучается в режиме перестановки с использованием следующих этапов, повторно выполняемых с некоторым количеством итераций:14. The method according to any one of claims. 11-13, in which the generative neural network is trained in permutation mode using the following steps, repeated with a number of iterations:

вводят первое изображение в качестве обучающего примера в контентный кодер для получения контентного тензора, являющегося пространственно меньшим представлением контента в первом изображении;entering the first image as a teaching example into the content encoder to obtain a content tensor, which is a spatially smaller representation of the content in the first image;

вводят второе изображение в качестве обучающего примера в стилевой кодер для получения стилевого вектора, указывающего стиль во втором изображении;inputting the second image as a teaching example into the style encoder to obtain a style vector indicating the style in the second image;

вводят контентный тензор, стилевой вектор в декодер для получения, с использованием адаптивной раздельной нормализации, третьего изображения, имеющего контент первого изображения и стиль второго изображения, и маски сегментации, соответствующей первому изображению;introducing the content tensor, the style vector into the decoder to obtain, using adaptive separate normalization, a third image having the content of the first image and the style of the second image, and a segmentation mask corresponding to the first image;

вводят первое изображение и третье изображение, которые отфильтрованы с использованием направляемого фильтра, в дискриминатор, выполненный с возможностью определять, является ли третье изображение достаточно правдоподобным при данном стиле; иinputting the first image and the third image, which have been filtered using a guided filter, into a discriminator configured to determine whether the third image is plausible enough for a given style; and

обновляют параметры генеративной нейронной сети и дискриминатора на основе результата определения обусловленным дискриминатором при разных итерациях для обеспечения обучения генеративной нейронной сети и обусловленного дискриминатора в состязательном режиме,updating the parameters of the generative neural network and the discriminator based on the result of the determination by the conditioned discriminator at different iterations to ensure the training of the generative neural network and the conditioned discriminator in a competitive mode,

причем первое изображение и второе изображение имеют низкое разрешение.wherein the first image and the second image are of low resolution.

15. Способ по любому из пп. 11-13, в котором генеративная нейронная сеть обучается в случайном режиме с использованием следующих этапов, повторно выполняемых с некоторым количеством итераций:15. The method according to any one of claims. 11-13, in which the generative neural network is randomly trained using the following steps, repeated with a number of iterations:

формируют случайный стилевой вектор из априорного распределения;generate a random style vector from the prior distribution;

вводят контентный тензор, стилевой вектор в декодер для получения, с использованием адаптивной раздельной нормализации, третьего изображения, имеющего контент первого изображения, и стиль, определяемый случайным стилевым вектором, и маски сегментации, соответствующей первому изображению;introducing a content tensor, a style vector into the decoder to obtain, using adaptive split normalization, a third image having the content of the first image and a style determined by a random style vector and a segmentation mask corresponding to the first image;

вводят первое изображение и третье изображение, которые отфильтрованы с использованием направляемого фильтра, в дискриминатор, выполненный с возможностью определять, является ли изображение достаточно правдоподобным при данном стиле; иinputting the first image and the third image, which are filtered using a directional filter, into a discriminator configured to determine if the image is believable enough for a given style; and

обновляют параметры генеративной нейронной сети на основе результата определения дискриминатором для обеспечения обучения генеративной нейронной сети и дискриминатора в состязательном режиме,update the parameters of the generative neural network based on the result of the determination by the discriminator to provide training of the generative neural network and the discriminator in an adversarial mode,

16. Способ по любому из пп. 11-13, в котором генеративная нейронная сеть обучается в режиме автоэнкодера с использованием следующих этапов, повторно выполняемых с некоторым количеством итераций:16. The method according to any one of claims. 11-13, in which the generative neural network is trained in autoencoder mode using the following steps, repeated with a number of iterations:

вводят первое изображение в качестве обучающего примера в стилевой кодер для получения стилевого вектора, указывающего стиль в первом изображении;entering the first image as a teaching example into the style encoder to obtain a style vector indicating the style in the first image;

вводят контентный тензор, стилевой вектор в декодер для получения, с использованием адаптивной раздельной нормализации, третьего изображения, имеющего контент и стиль первого изображения, и маски сегментации, соответствующей первому изображению;introducing a content tensor, a style vector into the decoder to obtain, using adaptive separate normalization, a third image having the content and style of the first image, and a segmentation mask corresponding to the first image;

сравнивают первое изображение и третье изображение, которые отфильтрованы с использованием направляемого фильтра; иcomparing the first image and the third image, which are filtered using a directional filter; and

обновляют параметры генеративной нейронной сети на основе результата сравнения,update the parameters of the generative neural network based on the comparison result,

17. Способ по любому из пп. 11-16, в котором генеративная нейронная сеть содержит одну или несколько плотных обходных связей, выполненных с возможностью передавать высокочастотные признаки, не передаваемые контентным тензором первого изображения, декодеру.17. The method according to any one of claims. 11-16, in which the generative neural network comprises one or more tight bypass links configured to transmit high-frequency features not transmitted by the content tensor of the first image to the decoder.

18. Вычислительное устройство (300), содержащее процессор (300.1) и память (300.2), хранящую исполняемые компьютером инструкции, которые, при исполнении процессором, побуждают процессор к выполнению способа по любому из пп. 11-17.18. A computing device (300) comprising a processor (300.1) and a memory (300.2) storing computer-executable instructions that, when executed by the processor, cause the processor to perform the method according to any one of claims. 11-17.