EA202090169A1

EA202090169A1 - METHOD AND SYSTEM FOR CREATING MIMICS BASED ON TEXT

Info

Publication number: EA202090169A1
Application number: EA202090169A
Authority: EA
Inventors: Альберт Рувимович ЕФИМОВ; Алексей Сергеевич ГОННОЧЕНКО; Михаил Александрович ВЛАДИМИРОВ
Original assignee: Публичное Акционерное Общество "Сбербанк России" (Пао Сбербанк)
Priority date: 2019-12-27
Filing date: 2020-01-28
Publication date: 2021-06-30
Also published as: WO2021133201A1; RU2723454C1; EA039495B1

Abstract

Данное изобретение в общем относится к области обработки данных изображения, а в частности к способу и системе для создания мимики на основе текста. Техническим результатом, достигаемым при решении вышеуказанного изобретения, является обеспечение возможности создания видеопотока с анимированным изображением 3D-модели головы с размещенной на ней динамической текстурой лицевой маски на основе данных речевого сигнала. Указанный технический результат достигается благодаря осуществлению способа обработки речевого сигнала для формирования видеопотока, выполняемого по меньшей мере одним вычислительным устройством, содержащего этапы, на которых получают данные по меньшей мере одного речевого сигнала; разделяют участки речевого сигнала, содержащие информацию о голосе, на временные окна; формируют для каждого временного окна изображение частотного спектра для получения последовательности изображений частотного спектра; на основе последовательности изображений частотного спектра определяют последовательность данных о множестве координат точек, образующих лицевую маску; размещают лицевую маску на 3D-модели головы для формирования последовательности кадров, содержащих изображение 3D-модели головы с размещенной на ней лицевой маской; на основе последовательности изображений частотного спектра формируют последовательность кадров динамической текстуры лицевой маски; формируют последовательность кадров, содержащих изображение результирующей 3D-модели головы с размещенной на ней динамической текстурой лицевой маски на основе последовательности кадров, содержащих изображение 3D-модели головы с размещенной на ней лицевой маской, и кадров динамической текстуры лицевой маски; формируют последовательность кадров с изображением результирующей 3D-модели головы на фоне сцены; объединяют полученную на предыдущем шаге последовательность кадров в видеопоток.This invention relates generally to the field of image data processing, and in particular to a method and system for generating text-based facial expressions. The technical result achieved by solving the above invention is to provide the possibility of creating a video stream with an animated image of a 3D head model with a dynamic texture of the face mask placed on it based on the speech signal data. The specified technical result is achieved through the implementation of a method for processing a speech signal to generate a video stream, performed by at least one computing device, containing the stages, which obtain data of at least one speech signal; dividing sections of the speech signal containing information about the voice into time windows; generating for each time window a frequency spectrum image to obtain a sequence of frequency spectrum images; on the basis of the sequence of images of the frequency spectrum determine the sequence of data on the set of coordinates of the points that form the face mask; placing the facial mask on the 3D head model to form a sequence of frames containing the image of the 3D head model with the facial mask placed on it; on the basis of the sequence of images of the frequency spectrum form a sequence of frames of the dynamic texture of the face mask; form a sequence of frames containing an image of the resulting 3D head model with a dynamic texture of the face mask placed on it based on a sequence of frames containing an image of a 3D head model with a face mask placed on it and frames of the dynamic texture of the face mask; form a sequence of frames with the image of the resulting 3D-model of the head against the background of the scene; combine the sequence of frames obtained at the previous step into a video stream.