KR20240052095A - 다수의 사람들이 등장하는 개인화된 비디오를 제공하기 위한 시스템들 및 방법들 - Google Patents

다수의 사람들이 등장하는 개인화된 비디오를 제공하기 위한 시스템들 및 방법들 Download PDF

Info

Publication number
KR20240052095A
KR20240052095A KR1020247012292A KR20247012292A KR20240052095A KR 20240052095 A KR20240052095 A KR 20240052095A KR 1020247012292 A KR1020247012292 A KR 1020247012292A KR 20247012292 A KR20247012292 A KR 20247012292A KR 20240052095 A KR20240052095 A KR 20240052095A
Authority
KR
South Korea
Prior art keywords
additional
image
face
computing device
source
Prior art date
Application number
KR1020247012292A
Other languages
English (en)
Inventor
빅터 샤브로브
알렉산더 마쉬라보프
그리고리 카셴코
이반 시미노브
Original Assignee
스냅 아이엔씨
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from US16/251,436 external-priority patent/US10789453B2/en
Application filed by 스냅 아이엔씨 filed Critical 스냅 아이엔씨
Publication of KR20240052095A publication Critical patent/KR20240052095A/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/222Studio circuitry; Studio devices; Studio equipment
    • H04N5/262Studio circuits, e.g. for mixing, switching-over, change of character of image, other special effects ; Cameras specially adapted for the electronic generation of special effects
    • H04N5/265Mixing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/194Segmentation; Edge detection involving foreground-background segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/40Analysis of texture
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/172Classification, e.g. identification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/174Facial expression recognition
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/02Editing, e.g. varying the order of information signals recorded on, or reproduced from, record carriers
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/02Editing, e.g. varying the order of information signals recorded on, or reproduced from, record carriers
    • G11B27/031Electronic editing of digitised analogue information signals, e.g. audio or video signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L51/00User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail
    • H04L51/07User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail characterised by the inclusion of specific contents
    • H04L51/10Multimedia information
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/222Studio circuitry; Studio devices; Studio equipment
    • H04N5/262Studio circuits, e.g. for mixing, switching-over, change of character of image, other special effects ; Cameras specially adapted for the electronic generation of special effects
    • H04N5/272Means for inserting a foreground image in a background image, i.e. inlay, outlay
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2200/00Indexing scheme for image data processing or generation, in general
    • G06T2200/24Indexing scheme for image data processing or generation, in general involving graphical user interfaces [GUIs]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20212Image combination
    • G06T2207/20221Image fusion; Image merging
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person
    • G06T2207/30201Face
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/222Studio circuitry; Studio devices; Studio equipment
    • H04N5/262Studio circuits, e.g. for mixing, switching-over, change of character of image, other special effects ; Cameras specially adapted for the electronic generation of special effects
    • H04N5/272Means for inserting a foreground image in a background image, i.e. inlay, outlay
    • H04N2005/2726Means for inserting a foreground image in a background image, i.e. inlay, outlay for simulating a person's appearance, e.g. hair style, glasses, clothes

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Signal Processing (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Processing Or Creating Images (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

다수의 사람들이 등장하는 개인화된 비디오를 제공하기 위한 시스템 및 방법이 개시된다. 예시적인 방법은 적어도 하나의 타겟 페이스 및 적어도 하나의 추가 타겟 페이스를 갖는 적어도 하나의 프레임을 갖는 비디오의 사용자 선택을 수신하는 단계 및 소스 페이스의 이미지 및 추가 소스 페이스의 추가 이미지를 수신하는 단계를 포함한다. 방법은 수정된 소스 페이스의 이미지를 생성하기 위해 소스 페이스의 이미지를 수정하는 단계 및 수정된 추가 소스 페이스의 이미지를 생성하기 위해 추가 소스 페이스의 추가 이미지를 수정하는 단계를 더 포함한다. 비디오의 적어도 하나의 프레임에서, 타겟 페이스는 수정된 소스 페이스의 이미지로 대체되고, 적어도 하나의 추가 페이스는 개인화된 비디오를 생성하기 위해 수정된 추가 소스 페이스로 대체된다. 개인화된 비디오는 적어도 한 명의 추가 사용자에게 전송된다.

Description

다수의 사람들이 등장하는 개인화된 비디오를 제공하기 위한 시스템들 및 방법들{Systems and methods for providing personalized videos featuring multiple persons}
본 개시는 일반적으로 디지털 이미지 프로세싱(digital image processing)에 관한 것이다. 보다 구체적으로, 본 개시는 다수의 사람들이 등장하는 개인화된 비디오들을 제공하기 위한 방법들 및 시스템들(systems for providing personalized videos featuring multiple persons)에 관한 것이다.
스티커 및 이모티콘과 같은 미디어 공유는 메시징 어플리케이션(여기서 메신저라고도 함)의 표준 옵션(standard option)이 되었다. 현재, 몇몇의 메신저는 커뮤니케이션 채팅을 통해 이미지 및 짧은 비디오를 생성하고 다른 사용자에게 보내는(send) 옵션을 사용자에게 제공한다. 기존의 특정 메신저는 사용자가 전송(transmit)하기 전에 짧은 비디오를 수정하는 것을 허용한다. 그러나 기존의 메신저에서 제공하는 짧은 비디오의 수정은 시각화 효과, 필터, 및 텍스트로 제한된다. 현재 메신저의 사용자는 한 얼굴을 다른 얼굴로 대체(replace)하는 것과 같은, 복잡한 편집을 수행(perform)할 수 없다. 이러한 비디오 편집은 현재의 메신저에서 제공되지 않고, 정교한 제3의(third-party) 비디오 편집 소프트웨어가 요구된다.
이 섹션은 아래의 상세한 설명의 섹션에서 더 상세하게 설명되는 선택된 개념들을 간단한 형태로 소개하기 위해 제공된다. 본 섹션은 청구된 주제의 주요 특징 또는 필수 특징을 식별하기 위한 것으로 의도된 것도 아니며, 또한 청구된 주제의 범위를 결정하는 데 도움이 되도록 사용되는 것을 의도한 것도 아니다.
본 개시내용의 일 실시예에 따르면, 다수의 사람들이 등장하는 개인화된 비디오들(personalized videos featuring multiple persons)을 제공하기 위한 방법이 개시된다. 이 방법은 컴퓨팅 장치에서, 컴퓨팅 장치의 사용자와 적어도 하나의 추가 컴퓨팅 장치의 적어도 하나의 추가 사용자 사이의 통신 채팅(communication chat)을 가능하게 하는(enable)것으로 시작할 수 있다. 상기 방법은, 상기 컴퓨팅 장치에서, 상기 컴퓨팅 장치에 저장된 상기 하나 이상의 개인화된 비디오로부터 비디오의 사용자 선택을 수신하는 것을 포함할 수 있다. 상기 비디오는 적어도 하나의 프레임을 포함하고, 상기 적어도 하나의 프레임은 적어도 하나의 타겟 페이스(target face) 및 적어도 하나의 추가 타겟 페이스(further target face)를 포함할 수 있다. 상기 방법은, 상기 컴퓨팅 장치에서, 소스 페이스의 이미지(image of the source face) 및 추가 소스 페이스(further source face)의 추가 이미지(further image)를 수신하는 단계로 계속될 수 있다. 예시적인 실시예에서, 소스 페이스의 이미지는 상기 컴퓨팅 장치의 메모리에 저장된 이미지들의 세트(set of images stored in a memory of the computing device)로부터 사전 생성된 이미지의 사용자 선택(user selection of a pre-generated image)으로부터 수신될 수 있다. 상기 사전 생성된 이미지(pre-generated image)는 상기 소스 페이스 및 배경(source face and a background)을 포함하는 부분으로 분할될 수 있다. 다른 예시적인 실시예에서, 소스 페이스의 이미지는, 상기 컴퓨팅 장치의 카메라에 의해, 새로운 이미지(new image)를 캡처하고 상기 새로운 이미지를 상기 소스 페이스 및 배경을 포함하는 부분(portion)으로 분할하여 수신될 수 있다. 부가적으로, 적어도 하나의 추가 컴퓨팅 장치(further computing device) 상에 추가 개인화된 비디오들(further personalized videos)을 생성하기 위해 상기 소스 페이스의 이미지를 사용하기 위한 사용자 허가(user permission)가 수신될 수 있다. 상기 사용자 허가를 수신하면, 상기 사용자 허가의 표시(indication of the user permission) 및 상기 소스 페이스의 이미지가 상기 적어도 하나의 추가 컴퓨팅 장치에 전송될 수 있다.
예시적인 실시예에서, 추가 소스 페이스의 추가 이미지는 상기 컴퓨팅 장치의 메모리에 저장된 이미지들의 세트로부터 사전 생성된 이미지의 사용자 선택으로서 수신될 수 있다. 사전 생성된 이미지는 추가 소스 페이스 및 배경(further source face and a background)을 포함하는 부분들로 분할될 수 있다. 상기 추가 소스 페이스의 상기 추가 이미지는 상기 적어도 하나의 추가 컴퓨팅 장치로부터 수신될 수 있다.
상기 방법은 수정된 소스 페이스의 상기 이미지를 생성하기 위해 상기 소스 페이스의 상기 이미지를 수정하는 단계 및 수정된 추가 소스 페이스 이미지를 생성하기 위해 상기 추가 소스 페이스의 추가 이미지를 수정하는 단계를 더 포함할 수 있다. 상기 수정된 소스 페이스(modified source face)는 타겟 페이스의 페이셜 표현(facial expression of the target face)을 채택(adopt)할 수 있다. 유사하게, 상기 수정된 추가 소스 페이스(modified further source face)는 적어도 하나의 추가 타겟 페이스(at least one further target face)의 페이셜 표현(facial expression)을 채택할 수 있다. 계속해서 상기 방법은 개인화된 비디오(personalized video)를 생성하기 위해, 상기 비디오의 상기 적어도 하나의 프레임(at least one frame)에서, 상기 타겟 페이스를 상기 수정된 소스 페이스의 이미지(image of modified source face)로 대체하고, 상기 적어도 하나의 추가 페이스(at least one further face)를 상기 수정된 추가 소스 페이스(modified further source face)와 대체할 수 있다. 상기 개인화된 비디오는 상기 통신 채팅을 통해 상기 적어도 하나의 추가 사용자(at least one further user)에게 전송될 수 있다. 상기 추가 소스 페이스의 상기 추가 이미지를 수정(modify)하기 전에, 상기 적어도 하나의 추가 사용자(at least one further user)가 상기 개인화된 비디오(personalized video)를 생성하기 위해 상기 추가 소스 페이스의 상기 추가 이미지를 사용할 허가(permission)를 제공했다고 결정될 수 있다.
상기 방법은 상기 소스 페이스의 상기 이미지를 수정하기 전에, 상기 적어도 하나의 프레임(at least one frame) 내의 상기 타겟 페이스에 기초하여, 파라메트릭 페이스 모델(parametric face model)과 연관된 타겟 페이셜 표현 파라미터들 (target facial expression parameters)을 결정하는 단계를 더 포함할 수 있다. 상기 적어도 하나의 프레임은 타겟 페이셜 표현 파라미터들과 같은 메타데이터(metadata)를 포함할 수 있다. 이 경우, 기 소스 페이스의 상기 이미지를 수정하는 단계는, 상기 소스 페이스의 상기 이미지에 기초하여, 상기 파라메트릭 페이스 모델(parametric face model)과 연관된 소스 파라미터들을 결정하는 것을 더 포함할 수도 있고, 상기 파라미터들(parameters)은 소스 페이셜 표현 파라미터들(source facial expression parameters), 소스 페이셜 식별 파라미터들(source facial identity parameters), 및 소스 페이셜 텍스처 파라미터들(source facial texture parameters)을 포함할 수 있다. 파라메트릭 페이스 모델(parametrical face model)및 타겟 페이셜 표현 파라미터들, 소스 페이셜 식별 파라미터들, 및 소스 페이셜 텍스처 파라미터들에 기초하여 상기 수정된 추가 소스 페이스의 추가 이미지(further image of modified further source face)가 합성될 수 있다.
상기 방법은 상기 추가 소스 페이스의 상기 추가 이미지를 수정하기 전에, 상기 적어도 하나의 프레임(at least one frame)에서 상기 추가 타겟 페이스에 기초하여, 파라메트릭 페이스 모델(parametric face model)과 연관된 타겟 페이셜 표현 파라미터들을 결정하는 단계를 더 포함할 수 있다. 이 경우, 상기 추가 소스 페이스의 상기 추가 이미지를 수정하는 단계는, 상기 추가 소스 페이스의 상기 추가 이미지에 기초하여, 상기 파라메트릭 페이스 모델(과 연관된 상기 소스 파라미터들(the source parameters)을 결정하는 단계를 포함할 수 있으며, 상기 소스 파라미터들(source parameters)은 소스 페이셜 표현 파라미터들, 소스 페이셜 식별 파라미터들, 및 소스 페이셜 텍스처 파라미터들포함한다. 상기 파라메트릭 페이스 모델, 상기 타겟 페이셜 표현 파라미터들, 상기 소스 페이셜 식별 파라미터들, 및 상기 소스 페이셜 텍스처 파라미터들에 기초하여 상기 수정된 추가 소스 페이스의 추가 이미지가 합성될 수 있다.
일 예시적인 실시예에 따르면, 다수의 사람들이 등장하는 개인화된 비디오들(personalized videos featuring multiple persons)을 제공하기 위한 시스템이 개시된다. 상기 시스템은 적어도 하나의 프로세서(at least one processor) 및 프로세서 실행가능 코드들을 저장하는 메모리(memory storing processor-executable codes)를 포함할 수 있다. 상기 적어도 하나의 프로세서는(at least one processor), 상기 프로세서 실행가능 코드들을 실행할 때(processor-executable codes) 컴퓨팅 장치에서, 상기 컴퓨팅 장치의 사용자와 적어도 하나의 추가 컴퓨팅 장치의 적어도 하나의 추가 사용자 사이의 통신 채팅을 가능하게 하도록(enable) 구성될 수 있다. 상기 적어도 하나의 프로세서는 상기 컴퓨팅 장치에서, 상기 컴퓨팅 장치에 저장된 상기 적어도 하나의 개인화된 비디오(one or more personalized videos stored in the computing device)로부터의 비디오의 사용자 선택(user selection)을 수신하도록 구성될 수 있다. 상기 비디오는 적어도 하나의 프레임(at least one frame)을 포함하도록 구성될 수 있고, 상기 적어도 하나의 프레임은 적어도 하나의 타겟 페이스(at least a target face) 및 적어도 하나의 추가 타겟 페이스(at least one further target face)를 포함한다. 상기 적어도 하나의 프로세서는, 상기 컴퓨팅 장치에서, 소스 페이스의 이미지 및 추가 소스 페이스의 추가 이미지를 수신하도록 구성될 수 있다. 구체적으로, 상기 소스 페이스의 이미지는 상기 컴퓨팅 장치의 메모리에 저장된 이미지들의 세트로부터 사전 생성된 이미지의 사용자 선택으로서 수신될 수 있다. 사전 생성된 이미지를 상기 소스 페이스 및 배경을 포함하는 부분으로 분할(segment)될 수 있다. 다른 예시적인 실시예에서, 상기 소스 페이스의 이미지는 컴퓨팅 장치의 카메라에 의해, 새로운 이미지를 캡처하고, 상기 새로운 이미지를 상기 소스 페이스 및 배경을 포함하는 부분(portion)으로 분할함으로써 수신될 수 있다. 부가적으로, 상기 적어도 하나의 추가 컴퓨팅 장치(at least one further computing device) 상에 추가 개인화된 비디오들(further personalized videos)을 생성하기 위해 상기 소스 페이스의 이미지를 사용하기 위한 사용자 허가(user permission)가 수신될 수 있다. 상기 사용자 허가들을 수신할 때, 사용자 허가 표시(indication of the user permissions)및 상기 소스 페이스의 이미지가 상기 적어도 하나의 추가 컴퓨팅 장치(at least one further computing device)에 전송될 수 있다.
상기 소스 페이스의 이미지 및 상기 추가 소스 페이스의 상기 추가 이미지를 수신하는 동안, 상기 적어도 하나의 프로세서는 수정된 소스 페이스의 이미지(image of a modified source face)를 생성하기 위해 상기 소스 페이스의 상기 이미지를 수정하고, 수정된 추가 소스 페이스(image of a modified further source face)의 이미지를 생성(generate)하기 위해, 상기 추가 소스 페이스의 상기 추가 이미지를 수정할 수 있다. 상기 수정된 소스 페이스는 상기 타겟 페이셜 표현(facial expression)을 채택(adopt)할 수 있다. 상기 수정된 추가 소스 페이스(modified further source face)는 상기 적어도 하나의 추가 타겟 페이스(at least one further target face)의 페이셜 표현을 채택할 수 있다. 상기 적어도 하나의 프로세서는 개인화된 비디오(personalized video)를 생성하기 위해, 상기 비디오의 상기 적어도 하나의 프레임(at least one frame)에서, 상기 타겟 페이스를 상기 수정된 소스 페이스의 이미지(image of modified source face)로 대체하고, 상기 적어도 하나의 추가 페이스(at least one further face)를 상기 수정된 추가 소스 페이스(modified further source face)로 대체할 수 있다 상기 개인화된 비디오는 상기 통신 채팅을 통해 상기 적어도 하나의 추가 사용자에게 전송될 수 있다.
일부 예시적인 실시예에서, 상기 적어도 하나의 프로세서는 상기 추가 소스 페이스의 상기 추가 이미지를 수정(modify)하기 전에, 상기 적어도 하나의 추가 사용자(at least one further user)가 상기 개인화된 비디오(personalized video)를 생성하기 위해 추가 소스 페이스의 상기 추가 이미지를 사용할 허가를 제공(provide a permission)한다는 것을 결정할 수 있다.
예시적인 실시예에서, 상기 소스 페이스의 상기 이미지를 수정하기 전에, 상기 적어도 하나의 프로세서는 상기 적어도 하나의 프레임 내의 상기 타겟 페이스에 기초하여, 파라메트릭 페이스 모델과 연관된 타겟 페이셜 표현 파라미터들을 결정할 수 있다. 상기 적어도 하나의 프레임은 타겟 페이셜 표현 파라미터들과 같은 메타데이터를 포함할 수 있다. 상기 소스 페이스의 이미지는 다음과 같이 수정될 수 있다. 먼저, 파라메트릭 페이스 모델과 연관된 소스 파라미터들은 소스 페이스의 이미지에 기초하여 결정될 수 있다. 상기 소스 파라미터들은 소스 페이셜 표현 파라미터들, 소스 페이스 식별 파라미터들, 및 소스 페이스 텍스처 파라미터들을 포함할 수 있다. 그 후, 수정된 소스 페이스의 이미지는 파라메트릭 페이스 모델 및 타겟 페이셜 표현 파라미터들, 소스 페이스 식별 파라미터들, 및 소스 페이스 텍스처 파라미터들에 기초하여 합성될 수 있다.
본 개시의 또 다른 측면에 따르면, 프로세서-판독 가능 명령어를 저장하는 비-일시적 프로세서-판독 가능 매체가 제공된다. 프로세서-판독 가능 명령이 프로세서에 의해 실행될 때, 비-일시적 프로세서-판독 가능 매체는 프로세서가 전술한 다수의 사람들이 등장하는 개인화된 비디오들을 제공하기 위한 방법을 구현하도록 한다.
예시들의 추가 목적, 장점, 및 신규한 특징은 이어지는 설명에서 부분적으로 설명될 것이고, 부분적으로는 다음의 설명 및 첨부 도면을 검토할 때 당업자에게 명백해질 것이며, 또는 예시들의 생성 또는 동작으로부터 알 수 있다. 이러한 개념들의 목적 및 장점은 첨부된 청구항에 특히 기재된 방법론, 수단 및 조합에 의해 실현되고 달성될 수 있다.
실시예들은 예를 들어 첨부된 도면들의 도면들에서 제한되지 않고, 유사한 참조들은 유사한 구성들을 표시한다.
도 1은 다수의 사람들이 등장하는 개인화된 비디오들을 제공하는 방법이 구현될 수 있는 예시적인 환경을 도시하는 블록도이다.
도 2는 다수의 사람들이 등장하는 개인화된 비디오들을 제공하기 위한 방법들을 구현하기 위한 컴퓨팅 장치의 예시적인 실시예를 도시하는 블록도이다.
도 3은 본 개시 내용의 일부 예시적인 실시예에 따른, 다수의 사람들이 등장하는 개인화된 비디오들을 제공하기 위한 시스템을 도시하는 블록도이다.
도 4는 예시적인 실시예에 따른, 다수의 사람들이 등장하는 개인화된 비디오의 생성 프로세스를 나타내는 개략도이다.
도 5는 본 개시내용의 일부 예시적인 실시예에 따른, 개인화된 비디오 생성 모듈의 블록도이다.
도 6 내지 도 9는 일부 예시적인 실시예들에 따른, 메신저에서 다수의 사람들이 등장하는 개인화된 비디오들을 제공하기 위한 시스템의 사용자 인터페이스의 스크린들을 도시한다.
도 10은 예시적인 실시예에 따른, 다수의 사람들이 등장하는 개인화된 비디오들을 제공하기 위한 방법을 도시하는 흐름도이다.
도 11은 다수의 사람들이 등장하는 개인화된 비디오들을 제공하기 위한 방법들을 구현하는데 사용될 수 있는 예시적인 컴퓨터 시스템을 도시한다.
이하 실시예의 상세한 설명은 상세한 설명의 일부를 형성하는 첨부 도면에 대한 참조를 포함한다. 이 섹션에 설명된 접근 방식은 청구항에 대한 선행 기술이 아니며 이 섹션에 포함됨으로써 선행 기술로 인정되지 않는다. 도면은 예시적인 실시예에 따른 그림을 보여준다. 본 명세서에서 "예시(examples)" 라고도 지칭되는 이러한 예시적인 실시예는 당업자가 본 주제를 실시할 수 있도록 충분히 상세하게 설명된다. 실시예들은 결합될 수 있고, 다른 실시예가 이용될 수 있거나, 청구된 범위를 벗어나지 않고 구조적, 논리적 및 동작적 변경이 이루어질 수 있다. 따라서, 이하의 상세한 설명은 제한적인 의미로 받아들여져서는 안 되고, 범위는 첨부된 청구항 및 그 균등물에 의해 정의된다.
본 특허 문서의 목적을 위해, 용어 "또는(or)" 및 "및(and)"은 달리 언급되거나 사용의 맥락에 의해 달리 명확하게 의도되지 않는 한 "및/또는(and/or)"을 의미한다. 용어 "a"는 달리 명시되지 않거나 "하나 이상"의 사용이 명백히 부적절하지 않는 한 "하나 이상(one or more)"을 의미한다. 용어 "포함하다(comprise)", "포함하는(comprise)", "포함하다(include)" 및 "포함하는(including)"은 상호 교환 가능하며 제한하려는 의도가 아니다. 예를 들어, 용어 "포함하는" 은 "포함하지만 이에 제한되지 않는(including, but not limited to)"을 의미하는 것으로 해석되어야 한다.
본 개시는 다수의 사람들이 등장하는 개인화된 비디오들(personalized videos featuring multiple persons)을 제공하기 위한 방법들 및 시스템들에 관한 것이다. 본 개시에 제공된 실시예는 공지된 기술의 적어도 일부 문제를 해결한다. 본 개시 내용은 스마트 폰, 태블릿 컴퓨터, 또는 모바일 폰과 같은 모바일 장치에서 실시간으로 작동하도록 설계될 수 있지만, 실시예는 웹 서비스 또는 클라우드 기반 리소스를 포함하는 접근 방식으로 확장될 수 있다. 여기에 설명된 방법은 컴퓨터 시스템에서 실행되는 소프트웨어 및/또는 마이크로 프로세서의 조합 또는 기타 특별히 설계된 ASIC(application-specific integrated circuit), 프로그램 가능 논리 장치 또는 이들의 임의의 조합을 사용하는 하드웨어에 의해 구현될 수 있다. 특히, 여기에 설명된 방법은 디스크 드라이브 또는 컴퓨터 판독 가능 매체와 같은 비 일시적 저장 매체에 상주하는 일련의 컴퓨터 실행 가능 명령어에 의해 구현될 수 있다.
본 개시내용의 일부 실시예들은 스마트폰과 같은 컴퓨팅 장치 상에서 실시간으로 다수의 사람들이 등장하는 개인화된 비디오들을 생성할 수 있다. 개인화된 비디오들은 컴퓨팅 장치의 사용자와 하나 이상의 추가 컴퓨팅 장치들의 하나 이상의 추가 사용자들 사이의 통신 채팅에서 생성될 수 있다. 개인화된 비디오는 미리 생성된 비디오, 예를 들어, 하나 이상의 배우를 특징으로 하는 비디오에 기초하여 생성될 수 있다. 본 개시의 실시예는 사전 생성된 비디오에서 배우의 얼굴을 통신 채팅을 통해 통신하는 사용자의 얼굴과 대체하는 것을 허용할 수 있다. 얼굴들은 통신 채팅에서 친구들의 얼굴들의 이미지들로부터 사용자에 의해 선택될 수 있다. 배우들의 얼굴들을 사용자의 얼굴들과 교체하는 동안, 사용자들의 얼굴들은 배우들의 페이셜 표현을 채택하도록 수정될 수 있다. 개인화된 비디오들은 추가 사용자에게 통신 채팅을 통해 사용자에 의해 더 전송될 수 있다. 개인화된 비디오들은 사용자 또는 사용자의 페이스의 이미지에 기초하여 색인될(index) 수 있고 검색 가능(searchable)하며, 다른 사용자들은 이들을 생성하는데 이용된다. 개인화된 비디오들은 동영상에 특징 지어진 감정 및 동작에 기초하여 순위화(rank)되고 분류될(categorize) 수 있다.
본 개시의 일 실시예에 따르면, 다수의 사람들이 등장하는 개인화된 비디오를 제공하기 위한 예시적인 방법은 컴퓨팅 장치에서, 상기 컴퓨팅 장치(computing device)의 사용자와 적어도 하나의 추가 컴퓨팅 장치의 적어도 하나의 추가 사용자 사이의 통신 채팅을 가능하게 하는(enable) 단계를 포함할 수 있다. 상기 방법은 상기 컴퓨팅 장치에서, 상기 컴퓨팅 장치에 저장된 상기 적어도 하나의 개인화된 비디오(one or more personalized videos stored in the computing device)로부터의 비디오의 사용자 선택(user selection)을 수신하는 단계를 계속할 수 있다 상기 비디오는 적어도 하나의 프레임을 포함하고, 상기 적어도 하나의 프레임(at least one frame)은 적어도 하나의 타겟 페이스 및 적어도 하나의 추가 타겟 페이스를 포함할 수 있다. 상기 방법은 상기 컴퓨팅 장치에서, 소스 페이스의 이미지 및 추가 소스 페이스의 추가 이미지를 수신하는 단계로 계속될 수 있다. 상기 소스 페이스의 상기 이미지 및 상기 추가 소스 페이스의 상기 추가 이미지를 수신하면 상기 소스 페이스의 상기 이미지는 수정된 소스 페이스의 이미지를 생성하도록 수정될 수 있고, 상기 추가 소스 페이스의 추가 이미지는 수정된 추가 소스 페이스의 이미지를 생성하도록 수정될 수 있다. 수정된 소스 페이스는 타겟 페이스의 페이셜 표현을 채택할 수 있고, 수정된 추가 소스 페이스는 적어도 하나의 추가 타겟 페이스의 페이셜 표현을 채택할 수 있다. 상기 비디오의 상기 적어도 하나의 프레임에서, 상기 타겟 페이스는 수정된 소스 페이스의 이미지로 대체될 수 있고, 상기 적어도 하나의 추가 페이스는 개인화된 비디오를 생성하기 위해 수정된 추가 소스 페이스로 대체될 수 있다. 상기 개인화된 비디오는 통신 채팅을 통해 적어도 하나의 추가 사용자에게 전송될 수 있다.
이제 도면을 참조하여 예시적인 실시예가 기술된다. 도면은 이상적인 실시예의 개략적인 도면이다. 따라서, 본 명세서에서 논의된 예시적인 실시예는 본 명세서에 제시된 특정 설명으로 제한되는 것으로 이해되어서는 안 된다. 오히려, 이러한 예시적인 실시예는 변형(deviations)을 포함할 수 있고, 여기에 제시된 설명과 다를 수 있으며, 이는 당업자에게 명백하다.
도 1은 다수의 사람들이 등장하는 개인화된 비디오들을 제공하는 방법이 실시될 수 있는 예시적인 환경(100)을 나타낸다. 환경(100)은 컴퓨팅 장치(105), 사용자(102), 컴퓨팅 장치(110), 사용자(104), 네트워크(120), 및 메신저 서비스 시스템(130)을 포함할 수 있다. 컴퓨팅 장치(105) 및 컴퓨팅 장치(110)는 휴대폰, 스마트 폰, 또는 태블릿 컴퓨터와 같은 모바일 장치를 지칭(refer)할 수 있다. 추가 실시예에서, 컴퓨팅 장치(105)또는 컴퓨팅 장치(110)는 개인용 컴퓨터, 랩톱 컴퓨터, 넷북, 셋톱 박스, 텔레비전 장치, 멀티미디어 장치, 개인용 디지털 어시스턴트, 게임 콘솔, 엔터테인먼트 시스템, 인포테인먼트 시스템, 차량 컴퓨터, 또는 임의의 다른 컴퓨팅 장치를 지칭할 수 있다.
컴퓨팅 장치(105) 및 컴퓨터 장치(110)는 네트워크(120)를 통해 메신저 서비스 시스템(130)에 통신 가능하게 연결될 수 있다. 메신저 서비스 시스템(130)은 클라우드-기반 컴퓨팅 리소스(들)로 구현될 수 있다. 메신저 서비스 시스템(130)은 원격 위치에서 이용 가능(available)하고 네트워크(예: 인터넷)를 통해 액세스 가능한 컴퓨팅 리소스(들)(하드웨어 및 소프트웨어)를 포함할 수 있다. 클라우드 기반 컴퓨팅 리소스는 여러 사용자에 의해 공유될 수 있으며 필요에 따라(on demand) 동적으로 재-할당(re-allocate)될 수 있다. 클라우드-기반 컴퓨팅 리소스는 네트워크 스위치 및/또는 라우터와 함께-위치(co-locate)될 수 있는 컴퓨터 서버 모음을 포함하는 하나 이상의 서버 팜/클러스터를 포함할 수 있다.
네트워크(120)는 예를 들어 인터넷, 인트라넷, LAN(Local Area Network), PAN(Personal Area Network), WAN(Wide Area Network), VPN(Virtual Private Network), 휴대폰 네트워크(예: GSM(Global System for Mobile)), 통신 네트워크, 및 기타 등등을 포함하는 임의의 유선, 무선 또는 광 네트워크를 포함할 수 있다.
본 개시의 일부 실시예에서, 컴퓨팅 장치(105)는 컴퓨팅 장치(110)의 사용자(104)와 사용자(102) 사이의 통신 채팅을 가능하게 하도록 구성될 수 있다. 통신 채팅 중에, 사용자(102)와 사용자(104)는 문자 메시지 및 비디오를 교환할 수 있다. 비디오는 개인화된 비디오를 포함할 수 있다. 개인화된 비디오는 컴퓨팅 장치(105) 또는 컴퓨팅 장치(110)에 저장된 미리-생성된 비디오에 기초하여 생성될 수 있다. 일부 실시예에서, 미리-생성된 비디오는 메신저 서비스 시스템(130)에 저장될 수 있고 필요에 따라 컴퓨팅 장치(105) 또는 컴퓨팅 장치(110)에 다운로드될 수 있다.
메신저 서비스 시스템(130)은 또한 사용자 프로필(user profiles)을 저장하도록 구성될 수 있다. 사용자 프로필은 사용자(102)의 얼굴의 이미지들, 사용자(104)의 얼굴의의 이미지들, 및 다른 사람들의 얼굴들의 이미지들을 포함할 수 있다. 사용자 프로필은 사용자(102), 사용자(104)또는 다른 사용자들에 의해 특정된 사용자 허가들을 포함할 수 있다. 사용자(102)에 의해 특정된 사용자 허가들은 다른 컴퓨팅 장치, 예를 들어, 사용자(104)의 사용자들에 의해 개인화된 비디오들을 생성하기 위해 사용자(102)의 얼굴의 이미지들을 사용하여 허용하거나 허용하지 않을 수 있다. 따라서, 사용자(104)에 의해 특정된 사용자 허가들은 예를 들어, 사용자(102)에 의해, 다른 컴퓨팅 장치의 사용자들에 의해 개인화된 비디오들을 생성하기 위해 사용자(104)의 얼굴의 이미지들을 이용하는 것을 허용하거나 불허할 수 있다. 얼굴의 이미지들은 요구에 따라 컴퓨팅 장치(105)또는 컴퓨팅 장치(110)에 다운로드될 수 있고, 사용자 허가들에 기초하여 다운로드될 수 있다.
사용자(102)의 얼굴의 이미지들은 컴퓨팅 장치(105)를 이용하여 생성될 수 있고 컴퓨팅 장치(105)의 로컬 메모리에 저장될 수 있다. 얼굴들의 이미지들은 컴퓨팅 장치(105)에 저장된 다른 이미지들에 기초하여 생성될 수 있다. 얼굴의 이미지들은 컴퓨팅 장치(105)에 의해 추가로 사용되어, 사전 생성된 비디오들에 기초하여 개인화된 비디오들을 생성할 수 있다. 컴퓨팅 장치(105)를 사용하여 얼굴의 이미지를 생성한 후, 사용자(102)는 다른 컴퓨팅 장치의 다른 사용자가 개인화된 비디오를 생성하기 위해 얼굴의 이미지를 사용하는 것을 허용하거나 허용하지 않는 사용자 허가를 나타낼 수 있다. 얼굴의 이미지 및 사용자 허가들은 사용자 프로필에서의 저장을 위해 메신저 서비스 시스템(130)에 더 제공될 수 있다.
유사하게, 컴퓨팅 장치(110)는 사용자(104)의 얼굴의 이미지들을 생성하는데 사용될 수 있다. 사용자(104)의 얼굴의 이미지들은 컴퓨팅 장치(110)상에 개인화된 비디오들을 생성하기 위해 사용될 수 있다. 다른 실시예에서, 사용자(102)의 얼굴의 이미지들 및 사용자(104)의 얼굴의 이미지들은 컴퓨팅 장치(105)또는 컴퓨팅 장치(110)상의 비디오들을 개인화하기 위해 상호 사용될 수 있다. 컴퓨팅 장치(110)를 사용하여 얼굴의 이미지를 생성한 후, 사용자(104)는 다른 컴퓨팅 장치들의 다른 사용자들이 개인화된 비디오들을 생성하기 위한 얼굴의 이미지를 사용하는 것을 허용하거나 불허하는 사용자 허가들(user permissions)을 표시(indicate)할 수 있다. 얼굴의 이미지 및 사용자 허가들은 사용자 프로필에서의 저장을 위해 메신저 서비스 시스템(130)에 더 제공될 수 있다.
도 2는 개인화된 비디오를 위한 방법을 구현하기 위한 컴퓨팅 장치(105)(또는 컴퓨팅 장치(110))의 예시적인 실시예를 나타내는 블록도이다. 도 2에 도시된 예시처럼, 컴퓨팅 장치(110)는 하드웨어 구성 요소 및 소프트웨어 구성 요소 모두를 포함한다. 특히, 컴퓨팅 장치(110)는 디지털 이미지를 얻기(acquire) 위해 카메라(205) 또는 임의의 다른 이미지-캡처 장치 또는 스캐너를 포함한다. 컴퓨팅 장치(110)는 소프트웨어 구성 요소 및 프로세서-판독 가능(기계-판독 가능) 명령 또는 코드를 저장하기 위한 저장 모듈(215) 및 프로세서 모듈(210)을 더 포함할 수 있고, 프로세서 모듈(210)에 의해 수행될 때 컴퓨팅 장치(105)가 여기에 설명된 바와 같이 다수의 사람들이 등장하는 개인화된 비디오의 생성 방법의 적어도 일부 단계를 수행하게 한다. 컴퓨팅 장치(105)는 그래픽 디스플레이 시스템(230) 및 통신 모듈(240)을 포함할 수 있다. 다른 실시예에서, 컴퓨팅 장치(105)는 추가적이거나 또는 상이한 구성 요소를 포함할 수 있다. 게다가, 컴퓨팅 장치(105)는 도 2에 도시된 것과 유사하거나 또는 동등한 기능을 수행하는 더 적은 구성 요소를 포함할 수 있다.
컴퓨팅 장치(110)는 또다른 컴퓨팅 장치(예: 컴퓨팅 장치(110))와 다수의 사람들이 등장하는 개인화된 비디오를 제공하기 위한 시스템(300)과 통신 채팅을 가능하게 하기 위한 메신저(220)를 더 포함할 수 있다. 시스템(300)은 도 3을 참조하여 아래에서 더 상세히 설명된다. 메신저(220) 및 시스템(300)은 메모리 스토리지(215)에 저장된 소프트웨어 구성 요소 및 프로세서-판독 가능(기계-판독 가능) 명령 또는 코드로 구현될 수 있고, 프로세서 모듈(210)에 의해 수행될 때 컴퓨팅 장치(105)가 여기에 설명된 바와 같이 통신 채팅 및 개인화 비디오의 생성을 제공하기 위한 방법의 적어도 일부 단계를 수행하게 한다
일부 실시예에서, 다수의 사람들이 등장하는 개인화된 비디오를 제공하기 위한 시스템(300)은 메신저(300)에 통합(integrate)될 수 있다. 메신저(220)의 사용자 인터페이스 및 개인화된 비디오를 제공하기 위한 시스템(300)은 그래픽 디스플레이 시스템(230)을 통해 제공될 수 있다. 통신 채팅은 통신 모듈(240) 및 네트워크(120)를 통해 가능해질 수 있다. 통신 모듈(240)은 GSM 모듈,WiFi 모듈, 블루투스 ?? 모듈 등을 포함할 수 있다.
도 3은 본 개시의 일부 예시적인 실시예에 따른, 다수의 사람들이 등장하는 개인화된 비디오들을 제공하기 위한 시스템(300)의 블록도이다. 시스템(300)은 사용자 인터페이스(305), 페이스 이미지 캡처 모듈(310), 비디오 데이터베이스(320), 및 개인화된 비디오 생성 모듈(330)을 포함할 수 있다.
비디오 데이터베이스(320)는 하나 이상의 비디오를 저장할 수 있다. 비디오는 단일 배우 또는 다수의 배우를 특징으로 하는 이전에 기록된 비디오를 포함할 수 있다. 비디오는 2D 비디오 또는 3D 장면을 포함할 수 있다. 비디오들은 액터 페이스(타겟 페이스라고도 불림)와 각 프레임 내의 배경을 분할(segment)하도록 사전 처리될 수 있고, 액터 페이스(타겟 페이스)대신에 소스 페이스의 추가 삽입을 위해 사용될 수 있는 파라미터들의 세트를 식별하도록 사전 처리될 수 있다. 파라미터들의 세트는 페이스 텍스처, 페이셜 표현 파라미터들, 페이스 색 파라미터들, 페이셜 식별 파라미터들, 좌표들, 위치, 타겟 페이스들의 각도 등을 포함할 수 있다. 파라미터들의 세트는 또한 액터(actor)의 페이스들 상에서 수행될 수 있는 조작들 및 동작들의 리스트를 포함할 수 있으며, 이러한 조작들 및 조작들의 리스트는 사실적인 방식(photo-realistic manner)으로 수행된다.
페이스 이미지 캡처 모듈(320)은 사람의 이미지를 수신하여 사람의 얼굴 이미지를 생성할 수 있다. 사람의 얼굴 이미지는 비디오 데이터베이스(320)에 저장된 비디오에서 타겟 페이스를 대체하기 위한 소스 페이스로서 사용될 수 있다. 사람의 이미지는 컴퓨팅 장치(105)의 카메라(205)에 의해 캡처될 수 있다. 사람의 이미지는 컴퓨팅 장치(105)의 메모리 스토리지(215)에 저장된 이미지를 포함할 수 있다. 얼굴 이미지 캡처 모듈(320)에 대한 세부사항들이 도 7에 제공된다.
개인화된 비디오 생성 모듈(330)은 하나 이상의 소스 페이스의 이미지에 기초하여, 데이터베이스(320)에 저장된 하나 이상의 미리 생성된 비디오로부터의 개인화된 비디오를 생성할 수 있다. 모듈(330)은 배우 페이셜 표현을 유지하면서 소스 페이스와 사전 생성된 비디오에서 배우의 하나 이상의 얼굴을 대체할 수 있다. 모듈(330)은 배우 중 한 사람의 페이스 텍스처, 페이스 색상, 및 페이셜 식별을 소스 페이스 중 하나의 페이스 텍스처, 페이스 색상 및 페이셜 식별로 대체할 수 있다. 모듈(330)은 또한 개인화된 비디오에서 소스 페이스의 눈 영역 위에 안경의 이미지를 추가할 수 있다. 유사하게, 모듈(330)은 개인화된 비디오에서 소스 페이스의 머리에 걸쳐 헤드웨어(예를 들어, 캡, 모자, 헬멧 등)의 이미지를 추가할 수 있다. 안경의 이미지(들) 및 헤드웨어(headwear)는 사용자의 컴퓨팅 장치(105)에 미리 저장되거나 또는 생성될 수 있다. 안경의 이미지 및 헤드웨어(headwear)는 DNN을 사용하여 생성될 수 있다. 모듈(330)은 또한 개인화된 비디오에서 소스 페이스에 음영 또는 색상을 적용할 수 있다. 예를 들어, 모듈(330)은 소스 페이스의 얼굴에 선탠(suntan)을 추가할 수 있다.
도 4는 일부 예시적인 실시예들에 따른, 개인화된 비디오 생성 모듈(330)의 기능(400)을 도시하는 개략도이다. 개인화된 비디오 생성 모듈(330)은 소스 페이스(405), 소스 페이스(405) 및 사전 생성된 비디오(410)의 이미지를 수신할 수 있다. 사전 생성된 비디오(410)는 하나 이상의 프레임들(420)을 포함할 수도 있다. 프레임들(420)은 타겟 페이스(415) 및 타겟 페이스(417)을 포함할 수도 있다. 소스 페이스(405)의 페이셜 표현은 타겟 페이스(415)의 페이셜 표현 또는 타겟 페이스(417)의 페이셜 표현(facial expression)과 상이할 수 있다. 소스 페이스(407)의 페이셜 표현은 타겟 페이스(415)의 페이셜 표현 또는 타겟 페이스(417)의 페이셜 표현과 상이할 수 있다.
본 개시내용의 일부 실시예에서, 개인화된 비디오 생성 모듈(330)은 소스 페이스 파라미터들(430)을 추출하기 위해 소스 페이스(405)의 이미지를 분석하도록 구성될 수 있다. 개인화된 비디오 생성 모듈(330)은 또한 소스 페이스 파라미터들(432)을 추출하기 위해 소스 페이스(407)의 이미지를 분석할 수 있다. 소스 페이스 파라미터들(430)은 소스 페이스(405)의 이미지에 파라메트릭 페이스 모델을 피팅(fit)함으로써 추출될 수 있다. 또한, 소스 페이스 파라미터들(432)은 소스 페이스(407)의 이미지에 파라메트릭 페이스 모델을 피팅(fit)함으로써 추출될 수 있다. 파라메트릭 페이스 모델은 템플릿 메쉬(template mesh)를 포함할 수 있다. 템플릿 메쉬 내 정점들의 좌표들은 2개의 파라미터들, 즉 페이셜 식별 파라미터 및 페이셜 표현 파라미터에 의존할 수 있다. 따라서, 소스 파라미터들(430)은 소스 페이스(405)에 대응하는 페이셜 식별 및 페이셜 표현을 포함할 수 있다. 소스 파라미터들(432)은 소스 페이스(407)에 대응하는 페이셜 식별 및 페이셜 표현을 포함할 수도 있다. 소스 파라미터들(430)은 소스 페이스(405)의 텍스처를 포함할 수도 있다. 소스 파라미터들(430)은 소스 페이스(407)의 텍스처를 더 포함할 수도 있다. 텍스처는 템플릿 메쉬 내의 정점들에서의 색상들을 포함할 수도 있다. 일부 실시예에서, 템플릿 메쉬와 연관된 텍스처 모델은 소스 페이스의 텍스처(405) 및 소스 페이스의 텍스처(407)를 결정하는데 사용될 수 있다.
본 개시의 일부 실시예에서, 개인화된 비디오 생성 모듈(330)은 타겟 비디오(410)의 프레임들(420)을 분석하여 프레임들(420)각각에 대한 타겟 페이스 파라미터들(435) 및 타겟 페이스 파라미터들(437)을 추출하도록 구성될 수 있다. 타겟 페이스 파라미터들(435)은 파라메트릭 페이스 모델을 타겟 페이스(415)에 피팅(fit)함으로써 추출될 수 있다. 타겟 파라미터들(435)은 타겟 페이스(415)에 대응하는 페이셜 식별 및 페이셜 표현을 포함할 수 있다. 타겟 페이스 파라미터들(430)은 타겟 페이스(420)의 텍스처를 더 포함할 수 있다. 타겟 페이스(415)의 텍스처는 텍스처 모델을 사용하여 획득될 수 있다. 유사하게, 타겟 페이스 파라미터들(437)은 파라메트릭 페이스 모델을 타겟 면(417)에 피팅(fit)함으로써 추출될 수 있다. 타겟 파라미터들(437)은 타겟 면(417)에 대응하는 페이셜 식별 및 페이셜 표현을 포함할 수 있다. 타겟 페이스 파라미터들(437)은 타겟 페이스(417)의 텍스처를 더 포함할 수 있다. 타겟 페이스(417)의 텍스처는 텍스처 모델을 사용하여 획득될 수 있다.
본 개시의 일부 실시예에서, 프레임들(420)각각은 메타데이터를 포함할 수 있다. 메타데이터는 프레임에 대해 결정된 타겟 페이스 파라미터들(435) 및 타겟 페이스 파라미터들(437)을 포함할 수도 있다. 예를 들어, 타겟 페이스 파라미터들(435) 및 타겟 페이스 파라미터들(437)은 메신저 서비스 시스템(130)(도 1에 도시됨)에 의해 결정될 수 있다. 타겟 페이스 파라미터들(435) 및 타겟 페이스 파라미터들(437)은 미리 생성된 비디오(410a)의 프레임들(420)의 메타데이터에 저장될 수 있다. 사전 생성된 비디오(410)는 컴퓨팅 장치(105)로 더 다운로드 될 수 있고 비디오 데이터베이스(320)에 저장될 수 있다. 대안적으로, 개인화된 비디오 생성 모듈(330)은 타겟 페이스 파라미터들(435) 및 타겟 페이스 파라미터들(437) 및 타겟 페이스(415)의 타겟 페이스 파라미터들(437) 및 타겟 페이스(417)의 위치 파라미터들을 결정하기 위해 사전 생성된 비디오(410)를 전-처리할 수 있다. 개인화된 비디오 생성 모듈(330)은 타겟 페이스 파라미터들(435) 및 타겟 페이스 파라미터들(437)위치 파라미터들을 대응하는 프레임들(420)의 메타데이터에 추가로 저장할 수 있다. 이러한 방식으로, 타겟 페이스 파라미터들(435) 및 타겟 페이스 파라미터들(437)은 미리 생성된 비디오(410)가 상이한 소스 페이스들을 갖는 개인화를 위해 선택될 때마다 재계산되지 않는다.
본 개시의 일부 실시예에서, 개인화된 비디오 생성 모듈(330)은 소스 페이스 파라미터들(430)에서의 페이셜 표현을 타겟 파라미터들(435)로부터의 페이셜 표현과 대체하도록 추가로 구성될 수 있다. 개인화된 비디오 생성 모듈(330)은 소스 페이스 파라미터들(432)에서의 페이셜 표현을 타겟 파라미터들(437)로부터의 페이셜 표현과 추가로 대체할 수 있다. 개인화된 비디오 생성 모듈(330)은 파라메트릭 페이스 모델, 텍스처 모델, 및 타겟 파라미터들(430)을 대체된 페이셜 표현과 함께 사용하여 출력 페이스(445)를 더 합성할 수 있다. 개인화된 비디오 생성 모듈(330)은 파라메트릭 페이스 모델, 텍스처 모델, 및 대체된 페이셜 표현을 갖는 타겟 파라미터들(432)을 사용하여 출력 페이스(447)를 더 합성할 수 있다. 출력 페이스(435)는 타겟 비디오(410)의 프레임에서 타겟 페이스(415)을 대체하기 위해 사용될 수 있다. 출력 페이스(437)는 타겟 비디오(410)의 프레임에서 타겟 페이스(417)을 대체하기 위해 사용될 수 있다. 개인화된 비디오(440)의 프레임들(445)은 비디오(410)의 각각의 프레임(420)에 대해, 타겟 페이스 파라미터들(435) 및 타겟 페이스 파라미터들(437)에서 페이셜 표현 파라미터들을 대체하는 단계, 출력 페이스(445) 및 출력 페이스(447)를 합성하는 단계, 타겟 페이스(415)를 출력 페이스(445)로 대체하는 단계, 및 타겟 페이스(417)를 출력 페이스(447)로 대체하는 단계를 반복함으로써 생성될 수 있다. 출력 페이스(435)는 타겟 페이스(415)의 페이셜 표현을 채택하는 소스 페이스(405)이다. 출력 페이스(437)는 타겟 페이스(417)의 페이셜 표현을 채택하는 소스 페이스(405)이다. 출력 비디오는 미리 결정된 비디오(410) 및 소스 페이스(405)의 이미지 및 소스 페이스(407)의 이미지에 기초하여 생성된 개인화된 비디오(440)이다.
일 예시적인 실시예에 따르면, 도 5는 개인화된 비디오 생성 모듈(330)의 블록도이다. 개인화된 비디오 생성 모듈(330)은 파라메트릭 페이스 모델(505), 텍스처 모델(510), DNN(515), 전처리 모듈(520), 파라미터 추출 모듈(525), 페이스 합성 모듈(525) 및 입 및 눈 생성 모듈(530)을 포함할 수 있다. 모듈들(505-530)은 컴퓨팅 장치(105), 컴퓨팅 장치(110), 메신저 서비스 시스템(130)등일 수 있다.
본 개시의 일부 실시예에서, 파라메트릭 페이스 모델(505)은 상이한 나이, 성별, 및 민족 배경(ethnic background)의 미리 정의된 수의 개인들의 이미지들에 기초하여 사전 생성될 수 있다. 각각의 개인에 대해, 이미지는 중립 페이셜 표현(neutral facial expression)을 갖는 개인의 이미지 및 상이한 페이셜 표현을 갖는 개인의 하나 이상의 이미지를 포함할 수 있다. 페이셜 표현(facial expression)에는 입을 벌리고, 미소를 짓고, 분노하고, 놀라워하는 것 등이 포함될 수 있다.
파라메트릭 페이스 모델(505)은 미리 결정된 수의 정점들을 갖는 템플릿 메쉬를 포함할 수 있다. 템플릿 메쉬는 머리의 형상을 정의하는 3D 삼각 측량(triangulation)으로서 표현될 수 있다. 각각의 개인은 개별적인 특정 혼합 형상(blend shape)과 연관될 수 있다. 개별적인 특정 혼합 형상(blend shape)은 템플릿 메쉬로 조정될 수 있다. 개별-특정 혼합 형상(blend shape)은 템플릿 메쉬 내의 정점들의 특정 좌표들에 대응할 수 있다. 따라서, 개인들의 상이한 이미지들이 동일한 구조의 템플릿 메쉬에 대응할 수 있지만, 템플릿 메쉬 내의 정점들의 좌표들은 상이한 이미지들에 대해 상이하다.
본 개시의 일부 실시예에서, 파라메트릭 페이스 모델은 2개의 파라미터들, 페이셜 식별 및 페이셜 표현에 따라 바이리니어 페이스 모델(bilinear face model)을 포함할 수 있다. 바이리니어 페이스 모델(bilinear face model)은 개인의 이미지에 대응하는 혼합 형상(blend shape)에 기초하여 구축될 수 있다. 따라서, 파라메트릭 페이스 모델은 미리 결정된 구조의 템플릿 메쉬를 포함하고, 정점들의 좌표들은 페이셜 식별 및 페이셜 표현에 의존한다.
본 개시의 일부 실시예에서, 텍스처 모델(510)은 개인들의 이미지들에 대응하는 텍스처 벡터들의 선형 공간을 포함할 수 있다. 텍스처 벡터들은 템플릿 메쉬의 꼭지점들에서 색상들로서 결정될 수 있다.
파라메트릭 페이스 모델(505) 및 텍스처 모델(510)은 페이셜 식별, 페이셜 표현, 및 텍스처의 알려진 파라미터들에 기초하여 페이스를 합성하는데 사용될 수 있다. 파라메트릭 페이스 모델(505) 및 텍스처 모델(510)은 또한 새로운 페이스의 새로운 이미지에 기초하여 페이셜 식별, 페이셜 표현, 및 텍스처의 미지의 파라미터들을 결정하는데 사용될 수 있다.
파라메트릭 페이스 모델(505) 및 텍스처 모델(510)을 사용하는 얼굴의 합성은 시간-소모적이지 않다. 그러나, 합성된 얼굴은 입과 눈 영역에서 사실적이지 않을 수 있다. 본 개시의 일부 실시예에서, DNN(515)은 얼굴의 입 및 눈 영역들의 사실적인 이미지들을 생성하도록 학습될 수 있다. DNN(515)은 말하는 개인들의 비디오 컬렉션을 사용하여 학습될 수 있다. 말하는 개인들의 입 및 눈 영역들은 비디오들의 프레임들로부터 캡처 될 수 있다. DNN(515)은 입 및 눈 영역의 사전 결정된 수 및 현재 프레임의 원하는 페이셜 표현에 기초하여 얼굴의 입 및 눈 영역을 예측하기 위해 생성적 적대 네트워크(GAN)를 사용하여 학습될 수 있다. 입 및 눈 영역들의 이전 프레임들은 표정 표정을 위한 특정 모멘트 파라미터들로 추출될 수 있다. DNN(515)은 페이셜 표현을 위해 원하는 파라미터를 갖는 입 및 눈 영역을 합성하는 것을 허용할 수 있다. DNN(515)은 또한, 이전의 프레임들을 이용하여 공간 일관성(spatial coherence) 획득할 수 있게 할 수도 있다.
GAN은 페이스 모델, 현재 표현 파라미터들, 및 이전에 생성된 이미지로부터 특성들을 임베딩하고 동일한 하나 이상의 사실적 영역들을 생성하는 입 및 눈 영역들 상에서 조절을 수행한다. DNN(515)을 사용하여 생성된 입 및 눈 영역은 파라메트릭 페이스 모델(505)에 의해 합성된 입 및 눈 영역을 대체하기 위해 사용될 수 있다. DNN에 의해 입 및 눈 영역을 합성하는 것은 DNN에 의해 전체 얼굴을 합성하는 것보다 더 적게 시간-소모적일 수 있다는 것을 유의하여야 한다. 따라서, DNN을 이용한 입/눈 영역의 생성은 예를 들어, 스마트폰 또는 태블릿과 같은 모바일 장치의 하나 이상의 프로세서들에 의해 실시간으로 수행될 수 있다.
일부 실시예들에서, 전처리 모듈(520)은 사전 생성된 비디오(410) 및 소스 페이스(405)의 이미지를 수신하도록 구성될 수 있다. 타겟 비디오(410)는 타겟 페이스를 포함할 수 있다. 전-처리 유닛(520)은 타겟 페이스(415)의 이미지들 및 타겟 배경을 획득하기 위해 타겟 비디오의 적어도 하나의 프레임의 분할을 수행하도록 추가로 구성될 수 있다. 분할은 신경망(neural network), 매트(matt) 및 평활화(smooth)를 사용하여 수행될 수 있다
일부 실시예에서, 전처리 모듈(520)은 파라메트릭 페이스 모델(505) 및 텍스처 모델(510)을 이용하여, 타겟 비디오(410)의 적어도 하나의 프레임에 기초하여 타겟 페이스 파라미터들의 세트를 결정하도록 추가로 구성될 수 있다. 일부 실시예에서, 타겟 파라미터들은 타겟 페이셜 식별, 타겟 페이셜 표현, 및 타겟 텍스처를 포함할 수 있다. 일부 실시예에서, 전처리 모듈(520)은 또한, 파라메트릭 페이스 모델(505) 및 텍스처 모델(510)을 사용하여, 소스 페이스(405)의 이미지에 기초하여 소스 페이스 파라미터들의 세트를 결정하도록 구성될 수도 있다. 소스 페이스 파라미터들의 세트는 소스 페이셜 식별, 소스 페이셜 표현, 및 소스 텍스처를 포함할 수도 있다.
일부 실시예에서, 페이스 합성 모듈(525)은 출력 파라미터들의 세트를 획득하기 위해 소스 페이스 파라미터들의 세트 내의 소스 페이셜 표현을 타겟 페이셜 표현과 대체하도록 구성될 수 있다. 페이스 합성 모듈(525)은 파라미터 및 파라메트릭 페이스 모델(505) 및 텍스처 모델(5101)의 출력 세트를 이용하여 출력 페이스를 합성하도록 더 구성될 수 있다.
일부 실시예에서, 2 차원(2D) 변형들이 타겟 페이스에 적용되어 타겟 페이스에 숨겨진 출력 페이스의 영역들의 사실적인 이미지들을 획득할 수 있다. 2D 변형들의 파라미터들은 파라메트릭 페이스 모델의 파라미터들의 소스 세트에 기초하여 결정될 수 있다.
일부 실시예에서, 입 및 눈 생성 모듈(530)은 소스 페이셜 표현 및 타겟 비디오(410)의 적어도 하나의 이전 프레임에 기초하여 DNN(515)을 사용하여 입 및 눈 영역들을 생성하도록 구성될 수 있다. 입 및 눈 생성 모듈(530)은 또한, 파라메트릭 페이스 모델(505) 및 텍스처 모델(510)과 합성된 출력 페이스의 입 및 눈 영역들을 DNN(515)과 합성된 입 및 눈 영역들로 대체하도록 구성될 수 있다.
도 6은 일부 예시적인 실시예들에 따른 메시징 어플리케이션(메신저)에서 다수의 사람들이 등장하는 개인화된 비디오들을 제공하기 위한 시스템의 사용자 인터페이스의 예시적인 스크린을 도시한다. 사용자 인터페이스(600)는 채팅 창(610) 및 비디오들(640)을 포함하는 섹션을 포함할 수 있다. 비디오들(640)은 얼굴들 대신에 얼굴 부분들(650)을 갖는 사전-렌더링된 비디오들을 포함할 수 있다. 사전 렌더링된 비디오들은 개인화된 비디오가 어떻게 보일 수 있는지에 대한 샘플 표현을 사용자에게 보여주기 위한 티져 비디오들(teaser videos)을 포함할 수 있다. 얼굴 부분(650)은 흰색 타원의 형태(white ovals)로 도시될 수 있다. 일부 실시예에서, 비디오들(640)은 다수의 사람들 비디오들, 즉, 다수의 사람들의 얼굴들을 갖는 비디오들의 생성을 가능하게 하기 위해 몇 개의 얼굴 부분들(650)을 포함할 수 있다. 사용자는 채팅 창(610)에 대한 수정 및 전송을 위해 비디오(640)중 임의의 비디오(640)를 탭하여, 비디오(640)중 하나를 선택할 수 있다. 수정은 사용자로부터 셀피 사진을 수신하는 단계(즉, 컴퓨팅 장치의 전면 카메라를 통해 취해진 사용자 얼굴의 이미지)를 수신하는 단계, 셀피 사진으로부터 소스 페이스를 획득하는 단계, 및 소스 페이스를 이용하여 선택된 비디오(640)를 수정하여 "릴" 로 지칭되는 개인화된 비디오를 생성하는 단계를 포함할 수 있다. 따라서, 본 명세서에서 사용되는 바와 같이, 릴은 동영상 템플릿(사용자 얼굴이 없는 동영상)을 사용자 얼굴이 삽입된 동영상으로 수정하여 제작한 개인화 동영상이다. 따라서 개인화된 비디오는 사용자의 얼굴 또는 여러 사용자의 얼굴을 특징으로 하는 시청각 미디어(예: 비디오, 애니메이션 또는 기타 유형의 미디어)의 형태로 생성될 수 있다. 수정된 비디오는 채팅 창(610)으로 전송될 수 있다. 사용자 인터페이스(600)는 사용자가 탭핑시 본 개시에 따라 다수의 사람들이 등장하는 개인화된 비디오를 제공하고 시스템의 기능을 사용하기 위한 시스템으로 메시징 어플리케이션에서 전환될 수 있는 버튼(630)을 더 가질 수 있다.
도 7은 일부 예시적인 실시예에 따른, 메신저에서 다수의 사람들이 등장하는 개인화된 비디오들을 제공하기 위한 시스템의 사용자 인터페이스(700)의 예시적인 스크린을 도시한다. 사용자 인터페이스(700)는 사용자가 사용자 얼굴의 이미지를 취할 수 있는 셀피 촬영 모드를 나타내며, 이는 이어서 소스 페이스로서 사용된다. 사용자 인터페이스(700)는 사용자가 셀피 이미지를 캡처하고자 할 때 컴퓨팅 장치의 카메라의 라이브 뷰를 도시한다. 라이브 뷰는 사용자 얼굴(705)을 나타낼 수 있다. 사용자 인터페이스(700)는 셀피 타원(730) 및 카메라 버튼(740)을 나타낼 수 있다. 예시적인 실시예에서, 카메라 버튼(740)은 셀피 촬영 모드에서 스크린의 하부로부터 위로 밀어 올려질 수 있다. 사용자는 셀피 타원(730)의 경계 내에 사용자 얼굴(705)을 위치시키기 위해 카메라의 위치를 변경할 필요가 있을 수 있다.
셀피 타원(730)은 굵은 연속적인 선에 의해 도시될 수 있고, 카메라 버튼(740)은 카메라 버튼(740)이 이제 활성인 것을 나타내기 위해 불투명(opaque)하고 실행 가능(actionable)한 것으로 도시될 수 있다. 사용자에게 통지하기 위해, 텍스트(760)는 셀피 타원(730)아래에 표시될 수 있다. 텍스트(760)는 사용자에게 셀피 사진을 만들도록 하기 위해서, 예를 들어" 셀피를 찍으세요!", "웃지 않도록 하세요." 등을 명령할 수 있다. 사용자는 카메라 버튼(740)을 눌러서 셀피 사진을 만들 수 있다. 일부 실시예에서, 사용자는 카메라 롤 버튼(750)을 누름으로써 사진 갤러리로부터 기존의 셀피 사진을 선택할 수 있다.
도 8 은 일부 예시적인 실시예들에 따른, 메신저에서 다수의 사람들이 등장하는 개인화된 비디오들을 제공하기 위한 시스템의 사용자 인터페이스들(820 및 830)의 예시적인 스크린을 도시한다. 사용자 인터페이스들(820 및 830)은 사용자가 셀피 사진을 찍은 후에 스크린 상에 도시된다. 사용자 인터페이스(820)는 생성된 릴(825) 및 텍스트 부분(830 및 835)을 나타낼 수 있다. 릴(825)은 풀 스크린 모드로 도시될 수 있다. 텍스트(830)는 예를 들어, "릴이 준비되었습니다" 등을 포함할 수 있다. 어두운 색상의 그레디언트(dark color gradient)는 릴(825)뒤에 제공될 수 있으며, 텍스트(830)는 가시적일 수 있다. 텍스트 부분(835)은 사용자가 이미 사용자가 찍은 셀피 사진을 사용하거나 다른 셀피 사진을 찍을 수 있음을 사용자에게 알리기 위해 예를 들어 "이 셀피를 사용하여 채팅에서 릴을 보내거나 다시 촬영하여 다시 시도하십시오"를 표시할 수 있다. 부가적으로, 2개의 버튼들이 사용자 인터페이스(820)상에 도시될 수 있다. 버튼(840)은 청색 및 채워진 배경을 갖는 것으로 도시될 수 있고, 사용자에게 "이 셀피를 사용"하도록 명령할 수 있다. 버튼(845)은 흰색의 윤곽선이 있는 투명한 배경으로 표시될 수 있으며 사용자에게 "셀피를 다시 찍기"를 지시할 수 있다. 사용자가 버튼(845)을 탭핑할 때, 도 7에 도시된 사용자 인터페이스(700)는 활성화될 수 있고, 릴의 생성 단계는 도 7을 참조하여 설명된 바와 같이 개시될 수 있다. 사용자 인터페이스(820)는 버튼(840 및 845)아래의 서브텍스트(850)를 더 나타낼 수 있다. 서브텍스트(850)는 예를 들어," 설정에서 릴 셀피를 삭제할 수 있습니다." 등으로 표시되어 사용자가 릴을 어떻게 삭제할 수 있는지를 알릴 수 있다. "이 셀피 사용" 버튼(840)을 탭핑한 후, 사용자는 사용자 인터페이스(830)로 전환될 수 있다.
사용자 인터페이스(830)는 2인용 릴(two-person Reels)과 같은 다수의 사람들이 등장하는 릴을 생성하는 것을 가능하게 할 수 있다. 사용자 인터페이스(830)는 애니메이션을 포함할 수 있다. 예를 들어, 텍스트는 스크린을 소정 거리로 좌측으로 이동시키고, 소정 시간 이상 페이드(fade)된다. 사용자가 선택하는 2인용 릴은 풀 스크린 모드(full screen mode)로 도시될 수 있다. 텍스트 뒤의 릴 위의 어두운 그래디언트(dark gradient)가 제공될 수 있고, 텍스트는 가시적일 수 있다.
2인용 릴에 도시된 다른 사람은 사용자가 2인용 릴에 대한 허가를 이미 부여한 마지막 연락처일 수 있다. 허가를 받은 연락처가 존재하지 않으면, 사용자는 스톡 사람(stock person)(라이브러리 내의 미리 선택된 사람 중 하나)을 선택하고 선택된 사람과 함께 릴(Reel)을 만들 수 있다. 사용자 인터페이스(830)에는 예를 들어 "릴에 친구가 나올 수 있습니다! "를 표시하는 텍스트(865)와 "2인용 릴을 활성화하면 사람들이 연락하여 셀피를 사용하여 릴을 공유하고 내보낼 수 있습니다." 라는 텍스트 (875)가 포함될 수 있다.
사용자는 2인용 릴을 활성화할지 여부를 결정할 수 있다. 사용자 선택은 사용자의 셀피 사진을 사용할 수 있는 사람을 나타내는 설정의 "누가 ..." 섹션에 있는 메뉴의 설정에 영향을 미칠 수 있다. "내 릴 셀피 사용" 설정은 설정의 "내 위치 보기" 설정 아래에 표시될 수 있다. 사용자 인터페이스(830)는 버튼(860 및 870)을 표시할 수 있다. 사용자가 "2인용 릴 활성화"라는 제목의 버튼(860)을 탭하면, 도 6에 도시된 바와 같이 비디오 부분이 있는 채팅 창이 열린다. 사용자가 "2인용 릴 활성화"를 선택하면 "내 릴 셀피 사용" 설정을 "내 친구"로 설정하여 메신저에서 사용자 및 사용자의 친구와 릴을 생성할 수 있다. 채팅 창에서 사용자의 개인화된 릴 목록이 열릴 수 있다.
사용자가 "이 단계 건너뛰기"라는 제목의 버튼(870)을 탭할 때, 2인용 릴 화면을 활성화하는 단계를 건너뛸 수 있고 도 6에 도시된 바와 같이 비디오 부분이 있는 채팅 창이 열릴 수 있다. 사용자가 "이 단계 건너뛰기"를 선택하면 "내 릴 셀피 사용" 설정이 "나만"으로 설정되어 사용자만 릴을 만들 수 있다. 채팅 창에서, 사용자의 개인화된 릴 목록을 열 수 있다.
메뉴에는 "내 릴 셀피 사용" 이라는 이름의 화면 머리글과 "누가 2인용 릴 셀피를 사용할 수 있나요?" 라는 문구가 표시될 수 있다. 사용자가 2인용 릴을 활성화하도록 선택한 경우 "모두" 설정을 할 수 있다. 이러한 설정은 사용자의 셀피 사진을 사용자에게 연락할 수 있는 누구든지(설정 "내게 연락할 수 있는 사람 "에 의해 결정된 바와 같이) 사용 가능하게 한다. 차단된 사용자들은 사용자의 셀피 사진을 계속 사용할 수 없다." 2인용 릴에 내 릴 셀피를 사용할 수 있는 사람" 설정은 옵션들 "내 친구들" 및 "나만" 옵션을 더 포함할 수 있다. "나만" 옵션은 다른 사용자가 2인용 릴에서 사용자의 얼굴 이미지를 사용하는 것을 사용자가 허용하지 않도록 선택하는 경우 설정된다. 사용자는 처음에 선택한 항목에 관계없이 언제든지 이 설정을 변경할 수 있다.
2인용 릴이 가능하게 됨으로써, 사용자는 현재 통신 채팅에 참여하는 친구들의 추가 컴퓨팅 장치들 상에서 사용자의 셀피 사진을 사용할 허가를 제공하고, 선택 영역(예를 들어, 도 6에 도시된 비디오들(640)을 선택하기 위한 영역과 같은)에서 2인용 릴들을 보여줄 수 있다.
도 9는 일부 예시적인 실시예들에 따른, 메신저에서 다수의 사람들이 등장하는 개인화된 비디오들을 제공하기 위한 시스템의 사용자 인터페이스(900)의 예시적인 스크린을 도시한다. 사용자는 2인용 릴인 릴(910)을 선택할 수 있다 2인용 릴은 사용자와 대화 채팅의 가장 최근 구성원 중 한 명이 메시지를 보낸 사용자가 아닌 양방향 친구인 것을 특징으로 할 수 있다. 대화 채팅의 다른 사용자 중 일부가 셀피 사진이 있고 사용자가 자신의 셀피 사진을 사용하도록 허용한 경우 릴(910)을 선택하면 친구 선택 메뉴(920)가 열릴 수 있다. 대화 채팅의 다른 두 명 이상의 구성원이 셀피 사진을 가지고 있는 경우 사용자는 셀피 사진(930) 중 하나를 길게 눌러 자신의 셀피 사진 사용을 허용한 사용자 중 추가 사용자를 선택할 수 있다. 셀피 사진(930)은 대화 채팅 회원들의 가장 최근 대화 활동에 따라 왼쪽에서 오른쪽으로 정렬될 수 있다.
도 10 은 예시적인 실시예에 따른, 다수의 사람들이 등장하는 개인화된 비디오들을 제공하기 위한 방법(1000)을 도시하는 흐름도이다. 방법(1000)은 컴퓨팅 장치(105)에 의해 수행될 수 있고, 방법(1000)은 컴퓨팅 장치에서, 컴퓨팅 장치의 사용자와 적어도 하나의 추가 컴퓨팅 장치의 적어도 하나의 추가 사용자 사이의 통신 채팅을 가능하게 하여 블록(1005)에서 시작할 수 있다. 상기 방법은, 상기 컴퓨팅 장치에서, 블록(1010)에 도시된 바와 같이 상기 컴퓨팅 장치에 저장된 상기 하나 이상의 개인화된 비디오로부터의 비디오의 사용자 선택을 수신하는 단계를 더 포함할 수 있다. 상기 비디오는 적어도 하나의 타겟 페이스 및 적어도 하나의 다른 타겟 페이스를 갖는 적어도 하나의 프레임을 포함할 수 있다. 상기 방법은, 컴퓨팅 장치에서, 소스 페이스의 이미지 및 추가 소스 페이스의 추가 이미지를 수신하는 것과 함께 블록(1015)에서 계속될 수 있다. 예시적인 실시예에서, 소스 페이스의 이미지는 컴퓨팅 장치의 메모리에 저장된 이미지들의 세트로부터 사전 생성된 이미지의 사용자 선택으로서 수신될 수 있다. 사전 생성된 이미지 캡은 소스 페이스 및 배경을 포함하는 부분들로 분할될 수 있다. 다른 예시적인 실시예에서, 소스 페이스의 이미지는 컴퓨팅 장치의 카메라에서, 새로운 이미지를 캡처하고, 새로운 이미지를 소스 페이스 및 배경을 포함하는 부분들로 분할함으로써 수신될 수 있다. 부가적으로, 적어도 하나의 추가 컴퓨팅 장치 상에서 추가 개인화된 비디오들을 생성하기 위해 소스 페이스의 이미지를 사용하기 위한 사용자 허가가 수신될 수 있다. 사용자 허가를 수신할 때, 사용자 허가의 표시 및 소스 페이스의 이미지는 적어도 하나의 추가 컴퓨팅 장치로 전송될 수 있다.
예시적인 실시예에서, 추가 소스 페이스의 추가 이미지는 컴퓨팅 장치의 메모리에 저장된 이미지들의 세트로부터 사전 생성된 이미지의 사용자 선택으로서 수신될 수 있다. 사전 생성된 이미지는 추가 소스 페이스 및 배경을 포함하는 부분들로 분할될 수 있다. 추가 소스 페이스의 추가 이미지는 적어도 하나의 추가 컴퓨팅 장치로부터 수신될 수 있다.
이 방법은 또한 블록(1020)에 도시된 바와 같이 수정된 소스 페이스의 이미지를 생성하기 위해 소스 페이스의 이미지를 수정하는 단계, 및 블록(1025)에 도시된 바와 같이, 수정된 소스 페이스의 이미지를 생성하기 위해 추가 소스 페이스의 추가 이미지를 수정하는 단계를 더 포함할 수 있다. 수정된 소스 페이스는 타겟 페이스의 페이셜 표현을 채택할 수 있다. 수정된 추가 소스 페이스는 적어도 하나의 추가 타겟 페이스의 페이셜 표현을 채택할 수 있다. 상기 방법은, 상기 비디오의 상기 적어도 하나의 프레임에서 수정된 소스 페이스의 이미지와 적어도 하나의 추가 페이스를 갖는 타겟 페이스와 수정된 소스 페이스를 대체함으로써 블록(1030)에서 계속될 수 있고, 이에 따라 개인화된 비디오를 생성한다. 블록(1035)에 도시된 바와 같이, 개인화된 비디오는 통신 채팅을 통해 적어도 하나의 다른 사용자에게 전송될 수 있다. 추가 소스 페이스의 추가 이미지를 수정하기 전에, 적어도 하나의 추가 사용자는 개인화된 비디오를 생성하기 위해 추가 소스 페이스의 추가 이미지를 사용하기 위한 허가를 제공한다고 결정될 수 있다.
상기 방법은, 선택적으로, 소스 페이스의 이미지를 수정하기 전에, 적어도 하나의 프레임 내의 타겟 페이스에 기초하여, 파라메트릭 페이스 모델과 연관된 타겟 페이셜 표현 파라미터들을 결정하는 단계를 포함할 수 있다. 적어도 하나의 프레임은 타겟 페이셜 표현 파라미터들과 같은 메타데이터를 포함할 수 있다. 이 경우, 소스 페이스의 이미지의 수정은, 소스 페이스의 이미지에 기초하여, 파라메트릭 페이스 모델과 연관된 소스 파라미터들을 결정하는 것을 더 포함할 수도 있고, 파라미터들은 소스 페이셜 표현 파라미터들, 소스 페이셜 식별 파라미터들, 및 소스 페이셜 텍스처 파라미터들을 포함한다. 파라메트릭 페이스 모델 및 타겟 페이셜 표현 파라미터들, 소스 페이셜 식별 파라미터들, 및 소스 페이셜 텍스처 파라미터들에 기초하여, 수정된 소스 페이스의 이미지가 합성될 수 있다.
방법은 또한, 추가 소스 페이스의 추가 이미지를 수정하기 전에, 적어도 하나의 프레임 내의 다른 타겟 페이스에 기초하여, 파라메트릭 페이스 모델과 연관된 타겟 페이셜 표현 파라미터들을 결정하는 단계를 선택적으로 포함할 수 있다. 이 경우, 추가 소스 페이스의 추가 이미지의 수정은 추가 소스 페이스의 추가 이미지에 기초하여, 파라메트릭 페이스 모델과 연관된 소스 파라미터들을 결정하는 것을 포함할 수 있고, 소스 파라미터들은 소스 페이셜 표현 파라미터들, 소스 페이셜 식별 파라미터들, 및 소스 페이셜 텍스처 파라미터들을 포함한다. 파라메트릭 페이스 모델 및 타겟 페이스 표현 파라미터들, 소스 페이셜 식별 파라미터들, 및 소스 페이스 텍스처 파라미터들에 기초하여, 수정된 추가 소스 페이스의 추가 이미지가 합성될 수 있다.
도 11은 여기에 설명된 방법을 구현하는 데 사용될 수 있는 예시적인 컴퓨팅 시스템 (1100)을 도시한다. 컴퓨팅 시스템(1100)은 컴퓨팅 장치(105, 110), 메신저 서비스 시스템(130), 메신저(220), 및 다수의 사람들이 등장하는 개인화된 비디오 생성 시스템(300)과 같은 맥락에서 구현될 수 있다.
도 11에 나타난 것처럼, 컴퓨팅 시스템(1100)의 하드웨어 구성 요소는 하나 이상의 프로세서(1110) 및 메모리(1120)를 포함할 수 있다. 메모리(1120)는, 부분적으로, 프로세서(1110)에 의한 실행을 위한 명령 및 데이터를 저장한다. 메모리(1120)는 시스템(1100)이 동작할 때 실행 가능한 코드를 저장할 수 있다. 시스템(1100)은 선택적 매스 스토리지 장치(1130), 선택적 휴대용 스토리지 매체 드라이브(들)(1140), 하나 이상의 선택적 출력 장치(1150), 하나 이상의 선택적 입력 장치(1160), 선택적 네트워크 인터페이스(1670), 및 하나 이상의 선택적 주변 장치 (1180)를 추가로 포함할 수 있다. 컴퓨팅 시스템(1100)은 또한 하나 이상의 소프트웨어 구성 요소(1195)(예: 여기에 설명된 다수의 사람들이 등장하는 개인화된 비디오 생성 방법을 구현할 수 있는 것)를 포함할 수 있다.
도 11에 표시된 구성 요소는 단일 버스(1190)을 통해 연결된 것으로 묘사된다. 구성 요소는 하나 이상의 데이터 전송 수단 또는 데이터 네트워크를 통해 연결될 수 있다. 프로세서(1110) 및 메모리(1120)는 로컬 마이크로 프로세서 버스를 통해 연결될 수 있고, 매스 스토리지(1130), 주변 장치(들)(1180), 휴대용 스토리지(1140), 및 네트워크 인터페이스(1170)는 하나 이상의 입력/출력(I/O) 버스를 통해 연결될 수 있다.
자기 디스크 드라이브, 솔리드 스테이트 디스크 드라이브, 또는 광 디스크 드라이브로 구현될 수 있는 매스 스토리지 장치(1130)는 프로세서(1110)에 의해 사용되는 데이터 및 명령을 저장하기 위한 비-휘발성 스토리지 장치이다. 매스 스토리지 장치(1130)는 여기서 설명된 실시예들을 구현하기 위한 시스템 소프트웨어(예: 소프트웨어 구성 요소(1195))를 저장할 수 있다.
휴대용 스토리지 매체 드라이브(들)(1140)는 컴팩트 디스크(CD) 또는 디지털 비디오 디스크(DVD)와 같은 휴대용 비-휘발성 스토리지 매체와 함께 작동하여 컴퓨팅 시스템(1100)에 데이터 및 코드를 입력 및 출력한다. 여기서 설명된 실시예를 구현하기 위한 시스템 소프트웨어(예: 소프트웨어 구성 요소(1195))는 그러한 휴대용 매체에 저장될 수 있고 휴대용 스토리지 매체 드라이브(들)(1140)를 통해 컴퓨팅 시스템(1100)에 입력될 수 있다.
선택적 입력 장치(1160)는 사용자 인터페이스의 일부를 제공한다. 입력 장치(1160)는 영숫자(alphanumeric) 및 기타 정보를 입력하기 위한 키보드와 같은 영숫자 키패드(alphanumeric keypad), 또는 마우스, 트랙볼(trackball), 스타일러스(stylus), 또는 커서 방향 키(cursor direction key)와 같은 포인팅 장치를 포함할 수 있다. 입력 장치(1160)는 또한 카메라 또는 스캐너를 포함할 수 있다. 추가적으로, 도 11에 도시된 시스템(1100)은 선택적 출력 장치(1150)를 포함한다. 적합한 출력 장치는 스피커, 프린터, 네트워크 인터페이스, 및 모니터를 포함한다.
네트워크 인터페이스(1170)는, 예를 들어, 인터넷, 인트라넷, LAN, WAN, 휴대폰 네트워크, 블루투스 라디오, 및 IEEE 802.11-기반 무선 주파수 네트워크 등을 포함하는 하나 이상의 유선, 무선, 또는 광 네트워크와 같은 하나 이상의 통신 네트워크를 통해 외부 장치, 외부 컴퓨팅 장치, 서버, 및 네트워크 시스템과 통신하는 데 사용될 수 있다. 네트워크 인터페이스(1170)는 이더넷 카드, 광 트랜시버, 무선 주파수 트랜시버, 또는 정보를 송수신할 수 있는 임의의 다른 유형의 장치와 같은 네트워크 인터페이스 카드일 수 있다. 선택적인 주변 장치(1180)는 컴퓨터 시스템에 추가 기능을 추가하기 위해 임의의 유형의 컴퓨터 지원 장치를 포함할 수 있다.
컴퓨팅 시스템(1100)에 포함된 구성 요소는 넓은 범주의 컴퓨터 구성 요소를 나타내도록 의도된다. 따라서, 컴퓨팅 시스템(1100)은 서버, 개인용 컴퓨터, 핸드-헬드 컴퓨팅 장치, 전화, 모바일 컴퓨팅 장치, 워크 스테이션, 미니 컴퓨터, 메인 프레임 컴퓨터, 네트워크 노드, 또는 임의의 추가 컴퓨팅 장치일 수 있다. 컴퓨팅 시스템(1100)은 또한 상이한 버스 구성, 네트워크화된 플랫폼, 멀티-프로세서 플랫폼, 및 기타 등등을 포함할 수 있다. UNIX, Linux, Windows, Macintosh OS, Palm OS, 및 기타 적합한 운영 체제를 포함하여 다양한 운영 체제(OS)가 사용될 수 있다.
전술한 기능 중 일부는 스토리지 매체(예: 컴퓨터-판독 가능 매체 또는 프로세서-판독 가능 매체)에 저장된 명령어로 구성될 수 있다. 명령어는 프로세서에 의해 검색되고 실행될 수 있다. 스토리지 매체의 예로는 메모리 장치, 테이프, 디스크, 및 기타 등이 있다. 프로세서가 본 발명에 따라 동작하도록 지시하기 위해 명령은 프로세서에 의해 실행될 때 동작한다. 당업자는 명령어, 프로세서(들), 및 스토리지 매체에 익숙하다.
여기서 설명된 처리를 수행하기에 적합한 임의의 하드웨어 플랫폼이 본 발명에 사용하기에 적합하다는 것은 주목할 점이다. 여기서 사용된 용어 "컴퓨터-판독 가능 스토리지 매체(computer-readable storage medium)" 및 "컴퓨터-판독 가능 저장 매체(computer-readable storage media)"는 실행을 위해 프로세서에 명령을 제공하는 데 참여하는 임의의 매체(medium) 또는 매체(media)를 지칭한다. 이러한 매체는 비-휘발성 매체, 및 휘발성 매체를 포함하지만 이에 제한되지 않는 다양한 형태를 취할 수 있다. 비 휘발성 매체는, 예를 들어, 고정 디스크와 같은 광학 또는 자기 디스크를 포함한다. 휘발성 매체는 시스템 RAM(Random Access Memory)과 같은 동적 메모리를 포함한다. 컴퓨터-판독 가능 매체의 일반적인 형태는, 예를 들어, 플로피 디스크, 플렉서블 디스크, 하드 디스크, 자기 테이프, 기타 자기 매체, CD-읽기-전용 메모리(ROM) 디스크, DVD, 기타 광학 매체, 마크 또는 구멍 패턴이 있는 기타 물리적 매체, RAM, PROM, EPROM, EEPROM, 기타 메모리 칩 또는 카트리지, 또는 컴퓨터가 읽을 수 있는 기타 매체를 포함한다.
다양한 형태의 컴퓨터-판독 가능 매체는 실행을 위해 하나 이상의 명령의 하나 이상의 시퀀스를 프로세서에 전달하는 데 관련(involve)될 수 있다. 버스는 프로세서가 명령을 검색하고 실행하는 시스템 RAM으로 데이터를 전달한다. 시스템 프로세서에 의해 수신된 명령은 프로세서에 의해 실행되기 전후에 고정 디스크에 선택적으로 저장될 수 있다.
따라서, 다수의 사람들이 등장하는 개인화된 비디오를 제공하기 위한 시스템들 및 방법이 설명되었다. 실시예가 특정 예시적인 실시예를 참조하여 설명되었지만, 본 출원의 더 넓은 사상 및 범위를 벗어나지 않고 이러한 예시적인 실시예에 대해 다양한 수정 및 변경이 이루어질 수 있음은 자명할 것이다. 따라서, 명세서 및 도면은 제한적인 의미가 아닌 예시적인 의미로 간주되어야 한다.

Claims (20)

  1. 다수의 사람들이 등장하는 개인화된 비디오들을 제공하기 위한 방법에 있어서,
    컴퓨팅 장치에 의해, 상기 컴퓨팅 장치의 사용자와 적어도 하나의 추가 컴퓨팅 장치의 적어도 하나의 추가 사용자 사이의 통신 채팅을 가능하게 하는 단계;
    상기 컴퓨팅 장치에 저장된 하나 이상의 개인화된 비디오로부터의 비디오의 사용자 선택을, 상기 컴퓨팅 장치에 의해, 수신하는 단계 - 상기 비디오는 적어도 하나의 프레임을 포함하고, 상기 적어도 하나의 프레임은 적어도 메타데이터를 포함하며, 상기 메타데이터는 제1 위치, 제1 페이셜 표현 파라미터들, 제2 위치, 및 제2 페이셜 표현 파라미터들을 포함함 -;
    소스 페이스의 이미지 및 추가 소스 페이스의 추가 이미지를, 상기 컴퓨팅 장치에 의해, 수신하는 단계;
    수정된 소스 페이스의 이미지를 생성하기 위해 상기 소스 페이스의 상기 이미지를, 상기 컴퓨팅 장치에 의해, 수정하는 단계 - 상기 수정된 소스 페이스는 상기 제1 페이셜 표현 파라미터들에 따른 제1 페이셜 표현을 채택함-;
    수정된 추가 소스 페이스의 이미지를 생성하기 위해 상기 추가 소스 페이스의 상기 추가 이미지를, 상기 컴퓨팅 장치에 의해, 수정하는 단계 - 상기 수정된 추가 소스 페이스는 상기 제2 페이셜 표현 파라미터들에 따른 제2 페이셜 표현을 채택함-;
    개인화된 비디오를 생성하기 위해, 상기 비디오의 상기 적어도 하나의 프레임에서, 상기 제1 위치에서 상기 수정된 소스 페이스의 상기 이미지 및 상기 제2 위치에서 상기 수정된 추가 소스 페이스의 상기 이미지를 상기 컴퓨팅 장치에 의해, 삽입하는 단계; 및
    상기 컴퓨팅 장치에 의해, 상기 통신 채팅을 통해 상기 적어도 하나의 추가 사용자에게 상기 개인화된 비디오를 전송하는 단계
    를 포함하는 방법.
  2. 제1항에 있어서,
    상기 소스 페이스의 상기 이미지를 수신하는 단계는,
    상기 컴퓨팅 장치의 메모리에 저장된 이미지들의 세트로부터 사전 생성된 이미지(pre-generated image)의 사용자 선택을 수신하는 단계; 및
    상기 사전 생성된 이미지를 상기 소스 페이스 및 배경을 포함하는 부분으로 분할하는 단계
    를 포함하는 방법.
  3. 제1항에 있어서,
    상기 소스 페이스의 상기 이미지를 수신하는 단계는,
    상기 컴퓨팅 장치의 카메라에 의해, 새로운 이미지를 캡처하는 단계; 및
    상기 새로운 이미지를 상기 소스 페이스 및 배경을 포함하는 부분으로 분할하는 단계
    를 포함하는 방법.
  4. 제3항에 있어서,
    상기 컴퓨팅 장치에 의해, 상기 적어도 하나의 추가 컴퓨팅 장치 상에 추가 개인화된 비디오들을 생성하기 위한 상기 소스 페이스의 상기 이미지를 사용하기 위한 사용자 허가를 수신하는 단계; 및
    상기 사용자 허가를 수신 시, 상기 소스 페이스의 상기 이미지 및 상기 사용자 허가의 표시(indication)를 상기 적어도 하나의 추가 컴퓨팅 장치에게, 상기 컴퓨팅 장치에 의해, 전송하는 단계
    를 더 포함하는 방법.
  5. 제1항에 있어서,
    상기 추가 소스 페이스의 상기 추가 이미지를 수신하는 단계는,
    상기 컴퓨팅 장치의 메모리에 저장된 이미지들의 세트로부터 사전 생성된 이미지의 사용자 선택을 수신하는 단계; 및
    상기 사전 생성된 이미지를 상기 추가 소스 페이스 및 배경을 포함하는 부분으로 분할하는 단계
    를 포함하는 방법.
  6. 제1항에 있어서,
    상기 추가 소스 페이스의 상기 추가 이미지는 상기 적어도 하나의 추가 컴퓨팅 장치로부터 수신되는,
    방법.
  7. 제1항에 있어서,
    상기 추가 소스 페이스의 상기 추가 이미지를 수정하기 전에,
    상기 적어도 하나의 추가 컴퓨팅 장치 외의 컴퓨팅 장치들 상에서 상기 하나 이상의 개인화된 비디오들을 생성하기 위한 상기 추가 소스 페이스의 상기 추가 이미지의 사용을 상기 적어도 하나의 추가 사용자가 불허했다고, 상기 컴퓨팅 장치에 의해, 결정하는 단계; 및
    상기 결정에 기초하여, 상기 컴퓨팅 장치에 의해, 스톡 이미지 라이브러리(stock image library)로부터 선택된 얼굴(face)의 미리 선택된 이미지로 상기 추가 소스 페이스의 상기 추가 이미지를 대체하는 단계
    를 포함하는 방법.
  8. 제7항에 있어서,
    상기 추가 소스 페이스의 상기 추가 이미지를 수정하기 전에, 상기 적어도 하나의 추가 사용자가 상기 개인화된 비디오를 생성하기 위한 상기 추가 소스 페이스의 상기 추가 이미지를 사용할 허가(permission)를 제공했다고 결정하는 단계
    를 더 포함하는 방법.
  9. 제1항에 있어서,
    상기 제1 페이셜 표현 파라미터들은 파라메트릭 페이스 모델을 이용하여 미리 결정되고; 및
    상기 소스 페이스의 상기 이미지를 수정하는 단계는,
    상기 소스 페이스의 상기 이미지에 기초하여, 상기 파라메트릭 페이스 모델과 관련된 소스 파라미터들을 결정하는 단계 - 상기 소스 파라미터들은 소스 페이셜 표현 파라미터들, 소스 페이셜 식별 파라미터들, 및 소스 페이셜 텍스처 파라미터들을 포함함 -; 및
    상기 파라메트릭 페이스 모델과 상기 제1 페이셜 표현 파라미터들, 상기 소스 페이셜 식별 파라미터들, 및 상기 소스 페이셜 텍스처 파라미터들에 기초하여 상기 수정된 소스 페이스의 상기 이미지를 합성하는 단계
    를 포함하는 방법.
  10. 제1항에 있어서,
    상기 제1 페이셜 표현 파라미터들은 파라메트릭 페이스 모델을 이용하여 미리 결정되고; 및
    상기 추가 소스 페이스의 상기 추가 이미지를 수정하는 단계는,
    상기 추가 소스 페이스의 상기 추가 이미지에 기초하여, 상기 파라메트릭 페이스 모델과 관련된 소스 파라미터들을 결정하는 단계 - 상기 소스 파라미터들은 소스 페이셜 표현 파라미터들, 소스 페이셜 식별 파라미터들, 및 소스 페이셜 텍스처 파라미터들을 포함함 -; 및
    상기 파라메트릭 페이스 모델, 상기 제1 페이셜 표현 파라미터들, 상기 소스 페이셜 식별 파라미터들, 및 상기 소스 페이셜 텍스처 파라미터들에 기초하여 상기 수정된 추가 소스 페이스의 상기 추가 이미지를 합성하는 단계
    를 포함하는 방법.
  11. 다수의 사람들이 등장하는 개인화된 비디오들을 제공하기 위한 시스템에 있어서,
    상기 시스템은,
    적어도 하나의 프로세서 및 프로세서-실행가능 코드들을 저장하는 메모리를 포함하고,
    상기 적어도 하나의 프로세서는 상기 프로세서-실행가능 코드들의 실행 시 동작들을 구현하도록 구성되고,
    상기 동작들은:
    컴퓨팅 장치에 의해, 상기 컴퓨팅 장치의 사용자와 적어도 하나의 추가 컴퓨팅 장치의 적어도 하나의 추가 사용자 사이의 통신 채팅을 가능하게 하는 동작;
    상기 컴퓨팅 장치에 저장된 하나 이상의 개인화된 비디오로부터의 비디오의 사용자 선택을, 상기 컴퓨팅 장치에 의해, 수신하는 동작 - 상기 비디오는 적어도 하나의 프레임을 포함하고, 상기 적어도 하나의 프레임은 적어도 메타데이터를 포함하며, 상기 메타데이터는 제1 위치, 제1 페이셜 표현 파라미터들, 제2 위치, 및 제2 페이셜 표현 파라미터들을 포함함 -;
    소스 페이스의 이미지 및 추가 소스 페이스의 추가 이미지를, 상기 컴퓨팅 장치에 의해, 수신하는 동작;
    수정된 소스 페이스의 이미지를 생성하기 위해 상기 소스 페이스의 상기 이미지를, 상기 컴퓨팅 장치에 의해, 수정하는 동작 - 상기 수정된 소스 페이스는 상기 제1 페이셜 표현 파라미터들에 따른 제1 페이셜 표현을 채택함-;
    수정된 추가 소스 페이스의 이미지를 생성하기 위해 상기 추가 소스 페이스의 상기 추가 이미지를, 상기 컴퓨팅 장치에 의해, 수정하는 동작 - 상기 수정된 추가 소스 페이스는 상기 제2 페이셜 표현 파라미터들에 따른 제2 페이셜 표현을 채택함-;
    개인화된 비디오를 생성하기 위해, 상기 비디오의 상기 적어도 하나의 프레임에서, 상기 제1 위치에서 상기 수정된 소스 페이스의 상기 이미지 및 상기 제2 위치에서 상기 수정된 추가 소스 페이스의 상기 이미지를 상기 컴퓨팅 장치에 의해, 삽입하는 동작; 및
    상기 컴퓨팅 장치에 의해, 상기 통신 채팅을 통해 상기 적어도 하나의 추가 사용자에게 상기 개인화된 비디오를 전송하는 동작
    을 포함하는 시스템.
  12. 제11항에 있어서,
    상기 소스 페이스의 상기 이미지를 수신하는 동작은,
    상기 컴퓨팅 장치의 메모리에 저장된 이미지들의 세트로부터 사전 생성된 이미지(pre-generated image)의 사용자 선택을 수신하는 동작; 및
    상기 사전 생성된 이미지를 상기 소스 페이스 및 배경을 포함하는 부분으로 분할하는 동작
    를 포함하는 시스템.
  13. 제11항에 있어서,
    상기 소스 페이스의 상기 이미지를 수신하는 동작은,
    상기 컴퓨팅 장치의 카메라에 의해, 새로운 이미지를 캡처하는 동작; 및
    상기 새로운 이미지를 상기 소스 페이스 및 배경을 포함하는 부분으로 분할하는 동작
    을 포함하는 시스템.
  14. 제13항에 있어서,
    상기 적어도 하나의 프로세서는:
    상기 컴퓨팅 장치에 의해, 상기 적어도 하나의 추가 컴퓨팅 장치 상에 추가 개인화된 비디오들을 생성하기 위한 상기 소스 페이스의 상기 이미지를 사용하기 위한 사용자 허가를 수신하고; 및
    상기 사용자 허가를 수신 시, 상기 소스 페이스의 상기 이미지 및 상기 사용자 허가의 표시를 상기 적어도 하나의 추가 컴퓨팅 장치에게, 상기 컴퓨팅 장치에 의해, 전송하도록 더 구성되는,
    시스템.
  15. 제11항에 있어서,
    상기 추가 소스 페이스의 상기 추가 이미지를 수신하는 동작은,
    상기 컴퓨팅 장치의 메모리에 저장된 이미지들의 세트로부터 사전 생성된 이미지의 사용자 선택을 수신하는 동작; 및
    상기 사전 생성된 이미지를 상기 추가 소스 페이스 및 배경을 포함하는 부분으로 분할하는 동작
    을 포함하는 시스템.
  16. 제11항에 있어서,
    상기 추가 소스 페이스의 상기 추가 이미지는 상기 적어도 하나의 추가 컴퓨팅 장치로부터 수신되는,
    시스템.
  17. 제11항에 있어서,
    상기 추가 소스 페이스의 상기 추가 이미지를 수정하기 전에, 상기 적어도 하나의 프로세서는:
    상기 적어도 하나의 추가 컴퓨팅 장치 외의 컴퓨팅 장치들 상에서 상기 하나 이상의 개인화된 비디오들을 생성하기 위한 상기 추가 소스 페이스의 상기 추가 이미지의 사용을 상기 적어도 하나의 추가 사용자가 불허했다고, 상기 컴퓨팅 장치에 의해, 결정하고; 및
    상기 결정에 기초하여, 상기 컴퓨팅 장치에 의해, 스톡 이미지 라이브러리로부터 선택된 얼굴의 미리 선택된 이미지로 상기 추가 소스 페이스의 상기 추가 이미지를 대체하도록 더 구성되는,
    시스템.
  18. 제17항에 있어서,
    상기 적어도 하나의 프로세서는, 상기 추가 소스 페이스의 상기 추가 이미지를 수정하기 전에, 상기 적어도 하나의 추가 사용자가 상기 개인화된 비디오를 생성하기 위한 상기 추가 소스 페이스의 상기 추가 이미지를 사용할 허가를 제공했다고 결정하도록 더 구성되는,
    시스템.
  19. 제11항에 있어서,
    상기 제1 페이셜 표현 파라미터들은 파라메트릭 페이스 모델을 이용하여 미리 결정되고; 및
    상기 소스 페이스의 상기 이미지를 수정하는 동작은,
    상기 소스 페이스의 상기 이미지에 기초하여, 상기 파라메트릭 페이스 모델과 관련된 소스 파라미터들을 결정하는 동작 - 상기 소스 파라미터들은 소스 페이셜 표현 파라미터들, 소스 페이셜 식별 파라미터들, 및 소스 페이셜 텍스처 파라미터들을 포함함 -; 및
    상기 파라메트릭 페이스 모델과 상기 제1 페이셜 표현 파라미터들, 상기 소스 페이셜 식별 파라미터들, 및 상기 소스 페이셜 텍스처 파라미터들에 기초하여 상기 수정된 소스 페이스의 상기 이미지를 합성하는 동작
    을 포함하는 시스템.
  20. 명령어들이 저장된 비-일시적 프로세서-판독가능 매체에 있어서,
    상기 명령어들은 하나 이상의 프로세서들에 의해 실행될 때 상기 하나 이상의 프로세서들로 하여금 다수의 사람들이 등장하는 개인화된 비디오들을 제공하기 위한 방법을 구현하게 하고,
    상기 방법은:
    컴퓨팅 장치에 의해, 상기 컴퓨팅 장치의 사용자와 적어도 하나의 추가 컴퓨팅 장치의 적어도 하나의 추가 사용자 사이의 통신 채팅을 가능하게 하는 단계;
    상기 컴퓨팅 장치에 저장된 하나 이상의 개인화된 비디오로부터의 비디오의 사용자 선택을, 상기 컴퓨팅 장치에 의해, 수신하는 단계 - 상기 비디오는 적어도 하나의 프레임을 포함하고, 상기 적어도 하나의 프레임은 적어도 메타데이터를 포함하며, 상기 메타데이터는 제1 위치, 제1 페이셜 표현 파라미터들, 제2 위치, 및 제2 페이셜 표현 파라미터들을 포함함 -;
    소스 페이스의 이미지 및 추가 소스 페이스의 추가 이미지를, 상기 컴퓨팅 장치에 의해, 수신하는 단계;
    수정된 소스 페이스의 이미지를 생성하기 위해 상기 소스 페이스의 상기 이미지를, 상기 컴퓨팅 장치에 의해, 수정하는 단계 - 상기 수정된 소스 페이스는 상기 제1 페이셜 표현 파라미터들에 따른 제1 페이셜 표현을 채택함-;
    수정된 추가 소스 페이스의 이미지를 생성하기 위해 상기 추가 소스 페이스의 상기 추가 이미지를, 상기 컴퓨팅 장치에 의해, 수정하는 단계 - 상기 수정된 추가 소스 페이스는 상기 제2 페이셜 표현 파라미터들에 따른 제2 페이셜 표현을 채택함-;
    개인화된 비디오를 생성하기 위해, 상기 비디오의 상기 적어도 하나의 프레임에서, 상기 제1 위치에서 상기 수정된 소스 페이스의 상기 이미지 및 상기 제2 위치에서 상기 수정된 추가 소스 페이스의 상기 이미지를 상기 컴퓨팅 장치에 의해, 삽입하는 단계; 및
    상기 컴퓨팅 장치에 의해, 상기 통신 채팅을 통해 상기 적어도 하나의 추가 사용자에게 상기 개인화된 비디오를 전송하는 단계
    를 포함하는 비-일시적 프로세서-판독가능 매체.
KR1020247012292A 2019-01-18 2020-01-18 다수의 사람들이 등장하는 개인화된 비디오를 제공하기 위한 시스템들 및 방법들 KR20240052095A (ko)

Applications Claiming Priority (6)

Application Number Priority Date Filing Date Title
US16/251,436 US10789453B2 (en) 2019-01-18 2019-01-18 Face reenactment
US16/251,436 2019-01-18
US16/594,690 2019-10-07
US16/594,690 US11089238B2 (en) 2019-01-18 2019-10-07 Personalized videos featuring multiple persons
KR1020217026008A KR102658961B1 (ko) 2019-01-18 2020-01-18 다수의 사람들이 등장하는 개인화된 비디오를 제공하기 위한 시스템들 및 방법들
PCT/US2020/014224 WO2020150691A1 (en) 2019-01-18 2020-01-18 Systems and methods for providing personalized videos featuring multiple persons

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
KR1020217026008A Division KR102658961B1 (ko) 2019-01-18 2020-01-18 다수의 사람들이 등장하는 개인화된 비디오를 제공하기 위한 시스템들 및 방법들

Publications (1)

Publication Number Publication Date
KR20240052095A true KR20240052095A (ko) 2024-04-22

Family

ID=69724074

Family Applications (2)

Application Number Title Priority Date Filing Date
KR1020247012292A KR20240052095A (ko) 2019-01-18 2020-01-18 다수의 사람들이 등장하는 개인화된 비디오를 제공하기 위한 시스템들 및 방법들
KR1020217026008A KR102658961B1 (ko) 2019-01-18 2020-01-18 다수의 사람들이 등장하는 개인화된 비디오를 제공하기 위한 시스템들 및 방법들

Family Applications After (1)

Application Number Title Priority Date Filing Date
KR1020217026008A KR102658961B1 (ko) 2019-01-18 2020-01-18 다수의 사람들이 등장하는 개인화된 비디오를 제공하기 위한 시스템들 및 방법들

Country Status (5)

Country Link
US (3) US11089238B2 (ko)
EP (1) EP3912087A1 (ko)
KR (2) KR20240052095A (ko)
CN (1) CN113330453A (ko)
WO (1) WO2020150691A1 (ko)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6590329B1 (ja) * 2019-06-26 2019-10-16 株式会社ラディウス・ファイブ 画像表示システム及びプログラム
US11425317B2 (en) * 2020-01-22 2022-08-23 Sling Media Pvt. Ltd. Method and apparatus for interactive replacement of character faces in a video device
US20210329320A1 (en) * 2020-04-16 2021-10-21 At&T Intellectual Property I, L.P. System for personalization of advertisement personas using social affinity understanding
WO2022174010A1 (en) * 2021-02-11 2022-08-18 Keepsake Tales Inc. Methods for creating personalized items using images associated with a subject
US11830106B2 (en) 2021-11-19 2023-11-28 Lemon Inc. Procedural pattern generation for layered two-dimensional augmented reality effects
US12020386B2 (en) 2022-06-23 2024-06-25 Snap Inc. Applying pregenerated virtual experiences in new location

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7859551B2 (en) * 1993-10-15 2010-12-28 Bulman Richard L Object customization and presentation system
US7734070B1 (en) * 2002-12-31 2010-06-08 Rajeev Sharma Method and system for immersing face images into a video sequence
SG193150A1 (en) * 2005-02-02 2013-09-30 Creative Tech Ltd Method and system to process video effects
AU2006292461A1 (en) * 2005-09-16 2007-03-29 Flixor, Inc. Personalizing a video
US8683333B2 (en) * 2005-12-08 2014-03-25 International Business Machines Corporation Brokering of personalized rulesets for use in digital media character replacement
US20070230794A1 (en) * 2006-04-04 2007-10-04 Logitech Europe S.A. Real-time automatic facial feature replacement
US9421453B2 (en) * 2012-07-23 2016-08-23 Zynga Inc. System and methods to display icons based on messaging activity
JP2014085796A (ja) * 2012-10-23 2014-05-12 Sony Corp 情報処理装置およびプログラム
CN107851299B (zh) * 2015-07-21 2021-11-30 索尼公司 信息处理装置、信息处理方法以及程序
CN106331569B (zh) * 2016-08-23 2019-08-30 广州华多网络科技有限公司 即时视频画面中人物脸部变换方法以及***
WO2018102880A1 (en) 2016-12-09 2018-06-14 Frangos Marcus George Systems and methods for replacing faces in videos
US10085064B2 (en) * 2016-12-28 2018-09-25 Facebook, Inc. Aggregation of media effects
US10402689B1 (en) * 2017-04-04 2019-09-03 Snap Inc. Generating an image mask using machine learning

Also Published As

Publication number Publication date
US11558561B2 (en) 2023-01-17
US20230049489A1 (en) 2023-02-16
US11089238B2 (en) 2021-08-10
KR20210113679A (ko) 2021-09-16
WO2020150691A1 (en) 2020-07-23
KR102658961B1 (ko) 2024-04-22
EP3912087A1 (en) 2021-11-24
US20210314498A1 (en) 2021-10-07
US20200236301A1 (en) 2020-07-23
CN113330453A (zh) 2021-08-31

Similar Documents

Publication Publication Date Title
KR102658960B1 (ko) 얼굴 재연을 위한 시스템 및 방법
KR102658961B1 (ko) 다수의 사람들이 등장하는 개인화된 비디오를 제공하기 위한 시스템들 및 방법들
KR102616013B1 (ko) 맞춤형 텍스트 메시지를 갖는 개인화 비디오 생성 시스템 및 방법
KR102546016B1 (ko) 개인화된 비디오를 제공하기 위한 시스템들 및 방법들
US10943371B1 (en) Customizing soundtracks and hairstyles in modifiable videos of multimedia messaging application
US11477366B2 (en) Selfie setup and stock videos creation

Legal Events

Date Code Title Description
A107 Divisional application of patent