KR102373606B1 - 영상 형성을 위한 전자 장치 및 방법과, 그를 수행하도록 컴퓨터 판독 가능한 기록 매체에 저장된 프로그램 - Google Patents

영상 형성을 위한 전자 장치 및 방법과, 그를 수행하도록 컴퓨터 판독 가능한 기록 매체에 저장된 프로그램 Download PDF

Info

Publication number
KR102373606B1
KR102373606B1 KR1020210050682A KR20210050682A KR102373606B1 KR 102373606 B1 KR102373606 B1 KR 102373606B1 KR 1020210050682 A KR1020210050682 A KR 1020210050682A KR 20210050682 A KR20210050682 A KR 20210050682A KR 102373606 B1 KR102373606 B1 KR 102373606B1
Authority
KR
South Korea
Prior art keywords
image
processors
forming
training
data
Prior art date
Application number
KR1020210050682A
Other languages
English (en)
Inventor
오국환
오병기
Original Assignee
주식회사 쓰리디팩토리
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 쓰리디팩토리 filed Critical 주식회사 쓰리디팩토리
Priority to KR1020210050682A priority Critical patent/KR102373606B1/ko
Application granted granted Critical
Publication of KR102373606B1 publication Critical patent/KR102373606B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T13/00Animation
    • G06T13/203D [Three Dimensional] animation
    • G06T13/403D [Three Dimensional] animation of characters, e.g. humans, animals or virtual beings
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T17/00Three dimensional [3D] modelling, e.g. data description of 3D objects
    • G06T17/30Polynomial surface description
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/50Image enhancement or restoration using two or more images, e.g. averaging or subtraction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/20Image signal generators
    • H04N13/204Image signal generators using stereoscopic image cameras
    • H04N13/239Image signal generators using stereoscopic image cameras using two 2D image sensors having a relative position equal to or related to the interocular distance
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person
    • G06T2207/30201Face

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Health & Medical Sciences (AREA)
  • Signal Processing (AREA)
  • Human Computer Interaction (AREA)
  • General Health & Medical Sciences (AREA)
  • Algebra (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Physics (AREA)
  • Pure & Applied Mathematics (AREA)
  • Computer Graphics (AREA)
  • Geometry (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

영상 형성을 위한 전자 장치 및 방법과, 그를 수행하도록 컴퓨터 판독 가능한 기록 매체에 저장된 프로그램이 제공된다. 영상 형성을 위한 전자 장치는, 대상체의 이미지를 획득하고, 대상체의 이미지로부터 대상체의 특징점들을 추출하며, 추출된 특징점들을 이용하여 대상체의 얼굴 형태와 일치도가 가장 높은 대역 모델을 선택하고, 대역 모델을 3차원 스캐닝하고, 다양한 각도에서의 이미지를 촬영하여 제1 3차원 데이터를 형성하며, 제1 3차원 데이터를 이용하여 대상체의 제1 영상을 형성하고, 미리 설정된 표정 템플릿을 뎁스 카메라로 촬영하여 제2 3차원 데이터를 형성하며, 제2 3차원 데이터를 이용하여 대상체의 표정을 나타내는 제2 영상을 형성하고, 3차원 애니메이션 포인트를 이용하여 제1 영상과 제2 영상을 합성하여 합성 영상을 형성할 수 있다.

Description

영상 형성을 위한 전자 장치 및 방법과, 그를 수행하도록 컴퓨터 판독 가능한 기록 매체에 저장된 프로그램{ELECTRONIC APPARATUS AND METHOD FOR IMAGE FORMATION, AND PROGRAM STORED IN COMPUTER READABLE MEDIUM PERFORMING THE SAME}
본 발명은 영상 형성을 위한 전자 장치에 관련된 것으로, 보다 구체적으로는 인공지능(AI: Artificial Intelligence) 학습 기반으로 고인의 딥페이크(Deepfake) 영상을 형성할 수 있는 전자 장치 및 방법과, 그를 수행하도록 컴퓨터 판독 가능한 기록매체에 저장된 프로그램에 관련된 것이다.
딥페이크(deepfake)란 인공지능(Artificial Intelligence)을 기반으로 활용한 인간 이미지 합성 기술이다. 기존에 있던 인물의 얼굴이나, 특정한 부위를 영화의 CG(Computer Graphic) 처리처럼 합성한 영상편집물을 총칭한다. 과거 인물의 사진이나 영상을 조악하게 합성하던 것이 하드웨어 및 소프트웨어 기술의 발전으로 몇 단계 정교해진 결과라 볼 수 있다. 딥페이크의 원리는 합성하려는 인물의 얼굴이 주로 나오는 고화질의 동영상을 이용하여 딥러닝(Deep learning)을 수행하고, 딥러닝 결과에 따라 대상이 되는 동영상을 프레임 단위로 합성시키는 것이다.
또한, 딥러닝 방식의 특성상 주어지지 않은 정보에 대해서는 정확한 동영상을 형성하지 못한다. 즉, 아무런 방해물이 없는 상태의 일반적인 얼굴 표정은 잘 합성해내지만, 얼굴 근처에 다른 물체가 있거나, 얼굴 자체가 프레임에서 일부 잘려 나갔거나, 일반적으로 잘 볼 수 없는 매우 특이한 표정을 지었거나 하면 대충 덮어씌운 듯한 매우 부자연스러운 합성 결과가 형성되고, 극단적인 경우 딥페이크 영상 합성에 실패하여 그냥 원본 얼굴을 보여주기도 한다. 합성 대상의 얼굴 표정 학습량이 적을 때에도 비슷한 현상이 발생하는데, 이때의 모습이 기괴하여 불쾌한 골짜기 현상이 나타나기도 한다.
따라서, 고화질의 동영상이 남아 있지 않은 고인의 경우 생전의 사진들을 이용하여 정교한 딥페이크 영상을 형성하기 어려운 문제점이 있다.
본 발명이 해결하고자 하는 일 기술적 과제는, 영상 및/또는 사진 정보가 부족한 고인의 딥페이크 영상 제작이 가능하도록 하는 영상 형성을 위한 전자 장치 및 방법과, 그를 수행하도록 컴퓨터 판독 가능한 기록 매체에 저장된 프로그램을 제공하는데 있다.
본 발명이 해결하고자 하는 다른 기술적 과제는, 다양한 표정을 나타내는 표정 템플릿을 대역 모델의 3차원 데이터와 합성하여 고인의 딥페이크 영상을 제작하는 영상 형성을 위한 전자 장치 및 방법과, 그를 수행하도록 컴퓨터 판독 가능한 기록 매체에 저장된 프로그램을 제공하는데 있다.
본 발명이 해결하고자 하는 다른 기술적 과제는, 다양한 표정에 따른 피부의 두께 상태 및 주름 상태에 따라서 서로 다른 가중치를 적용하여 고인의 딥페이크 영상을 제작하는 영상 형성을 위한 전자 장치 및 방법과, 그를 수행하도록 컴퓨터 판독 가능한 기록 매체에 저장된 프로그램을 제공하는데 있다.
본 발명이 해결하고자 하는 기술적 과제는 상술된 것에 제한되지 않는다.
본 발명의 일 실시 예에 따른 영상 형성을 위한 전자 장치는, 하나 이상의 프로세서; 및 상기 하나 이상의 프로세서에 의한 실행 시, 상기 하나 이상의 프로세서가 연산을 수행하도록 하는 명령들이 저장된 하나 이상의 메모리를 포함하며, 상기 하나 이상의 프로세서는, 대상체의 이미지를 획득하고, 상기 대상체의 이미지로부터 상기 대상체의 특징점들을 추출하며, 상기 추출된 특징점들을 이용하여 상기 대상체의 얼굴 형태와 일치도가 가장 높은 대역 모델을 선택하고, 상기 대역 모델을 3차원 스캐닝하고, 다양한 각도에서의 이미지를 촬영하여 제1 3차원 데이터를 형성하며, 상기 제1 3차원 데이터를 이용하여 상기 대상체의 제1 영상을 형성하고, 미리 설정된 표정 템플릿을 뎁스 카메라로 촬영하여 제2 3차원 데이터를 형성하며, 상기 제2 3차원 데이터를 이용하여 상기 대상체의 표정을 나타내는 제2 영상을 형성하고, 3차원 애니메이션 포인트를 이용하여 상기 제1 영상과 상기 제2 영상을 합성하여 합성 영상을 형성할 수 있다.
일 실시 예에 따르면, 상기 하나 이상의 프로세서는, 상기 대상체의 특징점들로서 귀 및 턱선을 추출하고, 상기 추출된 귀 및 턱선의 형태와 적어도 하나의 3차원 모델의 귀 및 턱선의 일치도가 가장 높은 3차원 모델을 상기 대역 모델로 선택할 수 있다.
일 실시 예에 따르면, 상기 하나 이상의 프로세서는, 상기 제2 3차원 데이터로부터 상기 대상체의 표면을 나타내는 다각형 데이터(polygon)를 최적화하여 로우 폴리곤을 형성하고, 상기 제2 3차원 데이터의 3차원 RGB 정보를 나타내는 노말 맵(normal map)을 형성하며, 상기 제2 3차원 데이터의 흑백 정보를 나타내는 디스플레이스먼트 맵(displacement map)을 형성하여 상기 제2 영상을 형성할 수 있다.
일 실시 예에 따르면, 상기 하나 이상의 프로세서는, 피부의 두께 상태 및 주름 상태에 따른 서로 다른 가중치를 적용하여 상기 합성 영상을 형성할 수 있다.
일 실시 예에 따르면, 상기 하나 이상의 프로세서는, 피부의 두께에 따른 색깔 차이를 고려하여 피부의 최외곽 상태에 대한 백분율을 산출하여 상기 가중치를 적용할 수 있다.
일 실시 예에 따르면, 상기 표정 템플릿은, 모음을 발음할 경우의 입술 위치, 눈동자의 움직임, 눈 주위 근육, 눈썹의 높낮이에 따른 눈 주위 피부의 모양과 주름 형태, 콧구멍의 형태 및 웃는 얼굴의 피부 밀림과 주름 중 적어도 하나의 정보를 포함할 수 있다.
일 실시 예에 따르면, 상기 하나 이상의 프로세서는, 상기 대상체의 이미지로부터 제1 특징점들을 추출하고, 적어도 하나의 3차원 모델들의 제2 특징점들을 추출하며, 제1 특징점들과 제2 특징점들 간의 일치도를 산출하고, 산출된 일치도가 가장 높은 3차원 모델을 대역 모델로 선택할 수 있다.
본 발명의 일 실시 예에 따른 하나 이상의 프로세서; 및 상기 하나 이상의 프로세서에 의한 실행 시, 상기 하나 이상의 프로세서가 연산을 수행하도록 하는 명령들이 저장된 하나 이상의 메모리를 포함하는 영상 형성을 위한 전자 장치를 이용한 영상 형성 방법은, 상기 하나 이상의 프로세서에 의해서, 대상체의 이미지를 획득하는 단계; 상기 하나 이상의 프로세서에 의해서, 상기 대상체의 이미지로부터 상기 대상체의 특징점들을 추출하는 단계; 상기 하나 이상의 프로세서에 의해서, 상기 추출된 특징점들을 이용하여 상기 대상체의 얼굴 형태와 일치도가 가장 높은 대역 모델을 선택하는 단계; 상기 하나 이상의 프로세서에 의해서, 상기 대역 모델을 3차원 스캐닝하고, 다양한 각도에서의 이미지를 촬영하여 제1 3차원 데이터를 형성하는 단계; 상기 하나 이상의 프로세서에 의해서, 상기 제1 3차원 데이터를 이용하여 상기 대상체의 제1 영상을 형성하는 단계; 상기 하나 이상의 프로세서에 의해서, 미리 설정된 표정 템플릿을 뎁스 카메라로 촬영하여 제2 3차원 데이터를 형성하는 단계; 상기 하나 이상의 프로세서에 의해서, 상기 제2 3차원 데이터를 이용하여 상기 대상체의 표정을 나타내는 제2 영상을 형성하는 단계; 및 상기 하나 이상의 프로세서에 의해서, 3차원 애니메이션 포인트를 이용하여 상기 제1 영상과 상기 제2 영상을 합성하여 합성 영상을 형성하는 단계를 포함할 수 있다.
일 실시 예에 따르면, 상기 대역 모델을 선택하는 단계는, 상기 대상체의 특징점들로서 귀 및 턱선을 추출하는 단계; 및 상기 추출된 귀 및 턱선의 형태와 적어도 하나의 3차원 모델의 귀 및 턱선의 일치도가 가장 높은 3차원 모델을 상기 대역 모델로 선택하는 단계를 포함할 수 있다.
일 실시 예에 따르면, 상기 제2 영상을 형성하는 단계는, 상기 제2 3차원 데이터로부터 상기 제2 3차원 데이터의 표면을 나타내는 다각형 데이터(polygon)를 최적화하여 로우 폴리곤을 형성하는 단계; 상기 제2 3차원 데이터의 3차원 RGB 정보를 나타내는 노말 맵(Normal map)을 형성하는 단계; 및 상기 제2 3차원 데이터의 흑백 정보를 나타내는 디스플레이스먼트 맵(Displacement Map)을 형성하는 단계를 포함할 수 있다.
일 실시 예에 따르면, 대상체의 피부의 두께 상태 및 주름 상태에 따른 서로 다른 가중치를 적용하여 상기 합성 영상을 형성하는 단계를 더 포함할 수 있다.
일 실시 예에 따르면, 상기 합성 영상을 형성하는 단계는, 피부의 두께에 따른 색깔 차이를 고려하여 피부의 최외곽 상태에 대한 백분율을 산출하여 상기 가중치를 적용하는 단계를 더 포함할 수 있다.
일 실시 예에 따르면, 상기 표정 템플릿은, 모음을 발음할 경우의 입술 위치, 눈동자의 움직임, 눈 주위 근육, 눈썹의 높낮이에 따른 눈 주위 피부의 모양과 주름 형태, 콧구멍의 형태 및 웃는 얼굴의 피부 밀림과 주름 중 적어도 하나의 정보를 포함할 수 있다.
일 실시 예에 따르면, 상기 대역 모델을 선택하는 단계는, 상기 대상체의 이미지로부터 제1 특징점들을 추출하는 단계; 적어도 하나의 3차원 모델들의 제2 특징점들을 추출하는 단계; 및 제1 특징점들과 제2 특징점들 간의 일치도를 산출하고, 산출된 일치도가 가장 높은 3차원 모델을 대역 모델로 선택하는 단계를 포함할 수 있다.
본 발명의 일 실시 예에 따른 하나 이상의 프로세서; 및 상기 하나 이상의 프로세서에 의한 실행 시, 상기 하나 이상의 프로세서가 연산을 수행하도록 하는 명령들이 저장된 하나 이상의 메모리를 포함하는 컴퓨터에서 수행 가능하도록 컴퓨터 판독 가능한 기록매체에 저장된 컴퓨터 프로그램은, 상기 하나 이상의 프로세서에 의해서, 대상체의 이미지를 획득하는 단계; 상기 하나 이상의 프로세서에 의해서, 상기 대상체의 이미지로부터 상기 대상체의 특징점들을 추출하는 단계; 상기 하나 이상의 프로세서에 의해서, 상기 추출된 특징점들을 이용하여 상기 대상체의 얼굴 형태와 일치도가 가장 높은 대역 모델을 선택하는 단계; 상기 하나 이상의 프로세서에 의해서, 상기 대역 모델을 3차원 스캐닝하고, 다양한 각도에서의 이미지를 촬영하여 제1 3차원 데이터를 형성하는 단계; 상기 하나 이상의 프로세서에 의해서, 상기 제1 3차원 데이터를 이용하여 상기 대상체의 제1 영상을 형성하는 단계; 상기 하나 이상의 프로세서에 의해서, 미리 설정된 표정 템플릿을 뎁스 카메라로 촬영하여 제2 3차원 데이터를 형성하는 단계; 상기 하나 이상의 프로세서에 의해서, 상기 제2 3차원 데이터를 이용하여 상기 대상체의 표정을 나타내는 제2 영상을 형성하는 단계; 및 상기 하나 이상의 프로세서에 의해서, 3차원 애니메이션 포인트를 이용하여 상기 제1 영상과 상기 제2 영상을 합성하여 합성 영상을 형성하는 단계를 수행 가능하도록 컴퓨터 판독 가능한 기록매체에 저장될 수 있다.
본 발명의 일 실시 예에 따른 영상 형성을 위한 전자 장치 및 방법과, 그를 수행하도록 컴퓨터 판독 가능한 기록 매체에 저장된 프로그램은, 남겨진 영상 및/또는 사진 정보가 부족한 고인의 딥페이크 영상 제작이 가능하도록 할 수 있다.
또한, 본 발명의 일 실시 예에 따른 영상 형성을 위한 전자 장치 및 방법과, 그를 수행하도록 컴퓨터 판독 가능한 기록 매체에 저장된 프로그램은, 다양한 표정을 나타내는 표정 템플릿을 대역 모델의 3차원 데이터와 합성하여 고인의 딥페이크 영상을 제작하여 고인의 딥페이크 영상 제작에 효율성 및 경제성을 향상시킬 수 있다.
또한, 본 발명의 일 실시 예에 따른 영상 형성을 위한 전자 장치 및 방법과, 그를 수행하도록 컴퓨터 판독 가능한 기록 매체에 저장된 프로그램은, 다양한 표정에 따른 피부의 두께 상태 및 주름 상태에 따라서 서로 다른 가중치를 적용하여 고인의 딥페이크 영상을 제작하므로 보다 정교하면서도 딥페이크 영상 제작을 위한 연산량을 감소시킬 수 있다.
도 1은 본 발명의 실시 예에 따른 영상 형성 환경의 구성을 보이는 예시도이다.
도 2는 본 발명의 실시예에 따른 피부 깊이에 따른 서브서페이스의 색 차이를 나타내는 예시도이다.
도 3은 본 발명의 실시예에 따른 뉴럴 네트워크의 학습을 설명하기 위한 도면이다.
도 4 및 도 5는 본 발명의 실시 예에 따른 영상 형성 방법의 절차를 보이는 흐름도이다.
이하, 첨부된 도면들을 참조하여 본 발명의 바람직한 실시 예를 상세히 설명할 것이다. 그러나 본 발명의 기술적 사상은 여기서 설명되는 실시 예에 한정되지 않고 다른 형태로 구체화 될 수도 있다. 오히려, 여기서 소개되는 실시 예는 개시된 내용이 철저하고 완전해질 수 있도록 그리고 당업자에게 본 발명의 사상이 충분히 전달될 수 있도록 하기 위해 제공되는 것이다.
본 명세서에서, 어떤 구성요소가 다른 구성요소 상에 있다고 언급되는 경우에 그것은 다른 구성요소 상에 직접 형성될 수 있거나 또는 그들 사이에 제 3의 구성요소가 개재될 수도 있다는 것을 의미한다.
또한, 본 명세서의 다양한 실시 예 들에서 제1, 제2, 제3 등의 용어가 다양한 구성요소들을 기술하기 위해서 사용되었지만, 이들 구성요소들이 이 같은 용어들에 의해서 한정되어서는 안 된다. 이들 용어들은 단지 어느 구성요소를 다른 구성요소와 구별시키기 위해서 사용되었을 뿐이다. 따라서, 어느 한 실시 예에 제 1 구성요소로 언급된 것이 다른 실시 예에서는 제 2 구성요소로 언급될 수도 있다. 여기에 설명되고 예시되는 각 실시 예는 그것의 상보적인 실시 예도 포함한다. 또한, 본 명세서에서 '및/또는'은 전후에 나열한 구성요소들 중 적어도 하나를 포함하는 의미로 사용되었다.
명세서에서 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한 복수의 표현을 포함한다. 또한, "포함하다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 구성요소 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징이나 숫자, 단계, 구성요소 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 배제하는 것으로 이해되어서는 안 된다.
또한, 본 명세서에서 "연결"은 복수의 구성 요소를 간접적으로 연결하는 것, 및 직접적으로 연결하는 것을 모두 포함하는 의미로 사용된다. 또한, "연결"이라 함은 물리적인 연결은 물론 전기적인 연결을 포함하는 개념이다.
또한, 하기에서 본 발명을 설명함에 있어 관련된 공지 기능 또는 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명은 생략할 것이다.
도 1은 본 발명의 실시 예에 따른 영상 형성을 위한 전자 장치의 구성을 보이는 예시도이다.
도 1에 도시한 바와 같이, 영상 형성을 위한 전자 장치(100)는, 하나 이상의 프로세서(110), 하나 이상의 메모리(120) 및 송수신기(130)를 포함할 수 있다. 일 실시예로서, 전자 장치(100)의 이 구성요소들 중 적어도 하나가 생략되거나, 다른 구성요소가 전자 장치(100)에 추가될 수 있다. 추가적으로(additionally) 또는 대체적으로(alternatively), 일부의 구성요소들이 통합되어 구현되거나, 단수 또는 복수의 개체로 구현될 수 있다. 전자 장치(100) 내, 외부의 구성요소들 중 적어도 일부의 구성요소들은 시스템 버스(system bus), GPIO(general purpose input/output), SPI(serial peripheral interface) 또는 MIPI(mobile industry processor interface) 등을 통해 서로 연결되어, 데이터 및/또는 시그널을 주고 받을 수 있다. 일 실시예로서, 전자 장치(100)는 기계학습(machine learning) 특히, 딥러닝(deep learning)과 같은 심층 강화 학습 알고리즘을 이용하여 고인의 이미지로부터 딥페이크(deepfake) 영상을 형성할 수 있다.
하나 이상의 프로세서(110)는, 소프트웨어(예: 명령, 프로그램 등)를 구동하여 프로세서(110)에 연결된 전자 장치(100)의 적어도 하나의 구성요소를 제어할 수 있다. 또한, 프로세서(110)는 본 발명과 관련된 다양한 연산, 처리, 데이터 생성, 가공 등의 동작을 수행할 수 있다. 또한, 프로세서(110)는 데이터 등을 하나 이상의 메모리(120)로부터 로드하거나, 하나 이상의 메모리(120)에 저장할 수 있다.
하나 이상의 프로세서(110)는, 대상체의 이미지를 획득할 수 있다. 일 실시 예에 따르면, 하나 이상의 프로세서(110)는, 인터넷(internet), SNS(social network service) 등 다양한 경로를 통하여 대상체(예를 들어, 고인(故人))의 이미지를 컴퓨터에서 처리 가능한 데이터 패킷 형태로 획득할 수 있다.
하나 이상의 프로세서(110)는, 대상체의 이미지로부터 대상체의 특징점들을 추출할 수 있다. 일 실시 예에 따르면, 하나 이상의 프로세서(110)는, 획득한 대상체의 이미지로부터 대상체의 특징점들(예를 들어, 귀, 턱선 등)을 추출할 수 있다.
하나 이상의 프로세서(110)는, 추출된 특징점들을 이용하여 대상체의 얼굴 형태와 일치도가 가장 높은 대역 모델을 선택할 수 있다. 일 실시 예에 따르면, 하나 이상의 프로세서(110)는, 대상체의 이미지로부터 추출된 특징점들을 이용하여 대상체의 얼굴 형태와 일치도가 가장 높은 대역 모델을 선택할 수 있다. 예를 들어, 프로세서(110)는, 대상체의 이미지로부터 제1 특징점들을 추출하고, 하나 이상의 메모리(120)에 저장된 적어도 하나의 3차원 모델들의 제2 특징점들을 추출하며, 제1 특징점들과 제2 특징점들 간의 일치도를 산출하고, 산출된 일치도가 가장 높은 3차원 모델을 대역 모델로 선택할 수 있다.
하나 이상의 프로세서(110)는, 선택된 대역 모델을 3차원 스캐닝하고, 다양한 각도에서의 이미지를 촬영하여 제1 3차원 데이터를 형성할 수 있다. 일 실시 예에 따르면, 하나 이상의 프로세서(110)는, 선택된 대역 모델을 3차원 스캐닝하고, 동시에 다양한 각도에서의 대역 모델에 대한 이미지를 촬영하여 제1 3차원 데이터를 형성할 수 있다. 예를 들어, 프로세서(110)는, 고인 복원을 위하여 고인과 최대한 유사한 대역 모델을 선택하여 촬영하고, 대역 모델의 각도별 카메라 맵(camera map)을 이용하여 대상체의 이미지가 촬영된 각도와 동일한 각도가 되도록 제1 3차원 데이터를 형성할 수 있다. 또한, 프로세서(110)는, 형성된 제1 3차원 데이터에 대상체 이미지의 텍스쳐(texture) 정보를 추가로 혼합할 수도 있다.
하나 이상의 프로세서(110)는, 제1 3차원 데이터를 이용하여 대상체의 제1 영상을 형성할 수 있다. 일 실시 예에 따르면, 프로세서(110)는, 대역 모델을 이용하여 형성된 대상체의 제1 3차원 데이터를 이용하여 대상체의 제1 영상을 형성할 수 있다. 이 과정에서, 프로세서(110)는, 제1 3차원 데이터에 다양한 각도의 대상체의 이미지를 투영하는 복수의 카메라를 설정하고, 3차원 영상의 외곽선이 자연스럽게 나타나도록 복수의 카메라 각각의 FOV(field of view), 위치값, 회전값 등을 수정하여 제1 영상을 형성할 수 있다.
하나 이상의 프로세서(110)는, 미리 설정된 표정 템플릿을 뎁스(depth) 카메라로 촬영하여 제2 3차원 데이터를 형성할 수 있다. 일 실시예에 따르면, 하나 이상의 메모리(120)는, 모음을 발음할 경우의 입술 위치, 눈동자의 움직임, 눈 주위 근육, 눈썹의 높낮이에 따른 눈 주위 피부의 모양과 주름 형태, 콧구멍의 형태 및 웃는 얼굴의 피부 밀림과 주름 중 적어도 하나의 정보를 포함하는 표정 템플릿을 저장할 수 있고, 프로세서(110)는, 메모리(120)에 저장된 표정 템플릿을 뎁스 카메라로 촬영하여 제2 3차원 데이터를 형성할 수 있다. 예를 들어, 프로세서(110)는, 일반적인 사람의 표정을 분석하여 68개 이상의 표정 템플릿을 형성할 수 있다. 프로세서(110)는, 모음을 기준으로 하여 입술 모양에 따른 표정 템플릿 40개를 형성할 수 있다. 5개의 모음(아, 에, 이, 오, 우)의 발음에 따른 얼굴 표정을 세분화하여 윗입술과 아랫입술의 위치를 4단계로 분리하고, 추가 표정 (예를 들어, 입을 팽팽하게 부풀리는 표현 등)에 따른 데이터를 좌우로 나누어 합성하여 좀 더 자연스러운 얼굴 표정을 나타낼 수 있도록 표정 템플릿을 형성할 수 있다. 또한, 눈동자의 움직임에 따른 눈 주위의 근육 4방향(상, 하, 좌, 우)과 눈 깜빡임, 좌우 눈을 분리하여 표정 템플릿 14개를 형성할 수 있다. 또한, 콧구멍의 벌어짐과 늘어짐에 따른 표정 템플릿 4개, 웃을 때나 화날 때의 피부의 밀림과 주름을 추가 표현하는 표정 템플릿 3개, 및 눈썹의 높낮이에 따른 눈 주위 피부의 모양과 주름을 세세하게 표현한 표정 템플릿 7개를 형성할 수 있지만, 표정 템플릿의 개수 및 형태가 이에 한정되지 않는다.
하나 이상의 프로세서(110)는, 제2 3차원 데이터를 이용하여 대상체의 표정을 나타내는 제2 영상을 형성할 수 있다. 일 실시 예에 따르면, 프로세서(110)는, 3차원 렌더링 방식을 이용하여 제2 3차원 데이터로부터 제2 영상을 형성할 수 있다.
하나 이상의 프로세서(110)는, 3차원 애니메이션 포인트(예를 들어, 눈썹 양단, 눈 양단, 인중, 콧등 등)를 이용하여 상기 제1 영상과 상기 제2 영상을 합성하여 합성 영상을 형성할 수 있다. 일 실시 예에 따르면, 프로세서(110)는, 제1 영상의 3차원 애니메이션 포인트 및 제2 영상의 3차원 애니메이션 포인트를 추출하고 제1 영상과 제2 영상의 3차원 애니메이션 포인트가 일치하도록 합성하여 합성 영상을 형성할 수 있다. 예를 들어, 프로세서(110)는, 기존 영화 제작 시 합성 영상 형성에서 사용되던 마커 방식과 뎁스 카메라를 활용한 마커리스 방식을 적절히 활용하여 합성 영상을 형성할 수 있다. 즉, 프로세서(110)는, 정밀한 표현, 빠른 표정의 변화나 깊이 정보를 이용하여 감지하기 힘든 부분은 마커 방식을 이용하여 합성 영상을 형성하고, 일반적인 움직임에 대해서는 마커리스 방식을 이용하여 합성 영상을 형성할 수 있다.
다른 실시 예에 따르면, 프로세서(110)는 제1 영상 및 제2 영상의 마커 위치 추적을 통해 형성된 3차원 애니메이션 포인트들을 정점의 위치에 미리 정의해둔 각 표정의 포인트 데이터값의 변화량을 측정하여 백분율 수치 데이터로 형성한 표정 템플릿에 적용하여 대상체의 다양한 표정을 표현할 수 있도록 합성 영상을 형성할 수 있다.
또한, 하나 이상의 프로세서(110)는, 제2 3차원 데이터로부터 대상체의 표면을 나타내는 다각형 데이터(polygon)를 최적화하여 로우(low) 폴리곤을 형성하고, 제2 영상의 3차원 RGB 정보를 나타내는 노말 맵(Normal map)을 형성하며, 제2 영상의 흑백 정보를 나타내는 디스플레이스먼트 맵(Displacement Map)을 형성하여 제2 영상을 형성할 수 있다. 일 실시 예에 따르면, 정교하게 제작된 표정 템플릿을 제2 영상 형성에 그대로 사용할 경우 애니메이션 확인이 어렵고 렌더링 시간이 많이 소요될 수 있다. 따라서, 프로세서(110)는, 1억 폴리곤 이상의 다각형 데이터를 최적화하여 로우 폴리곤을 형성하고, 제2 영상의 3차원 좌표 공간에서 x, y, z축에 직접 대응하는 RGB(Red Green Blue) 정보를 나타내는 노말 맵(normal map)을 형성할 수 있다. 또한, 프로세서(110)는, 제2 영상의 3차원 좌표 공간에서의 흑백 정보를 나타내는 디스플레이스먼트 맵(displacement map)을 형성한 후 로우 폴리곤, 노말 맵, 디스플레이스먼트 맵을 조합하여 제2 영상을 형성할 수 있다.
또한, 하나 이상의 프로세서(110)는, 제2 영상의 피부의 두께 상태 및 주름 상태에 따른 서로 다른 가중치를 적용하여 합성 영상을 형성할 수 있다. 일 실시 예에 따르면, 프로세서(110)는, 표정 템플릿별 노말 맵 및 디스플레이스먼트 맵을 3차원 애니메이션 포인트의 백분율값을 이용하여 합성 영상을 형성할 수 있다. 예를 들어, 프로세서(110)는, 피부의 두께에 따른 색깔 차이를 고려하여 피부의 최외곽 상태에 대한 백분율을 산출하여 가중치를 적용할 수 있다. 이후 프로세서(110)는, 피부의 모공과 같은 디테일 값을 오버레이로 합성 영상에 덧입힘으로 노말 맵 및 디스플레이스먼트 맵에 적용하여 사실적인 표정의 합성 영상을 형성할 수 있다.
일반적인 이미지를 이용하여서는 사람의 투명한 피부를 표현하기에는 무리가 있고, 노말 맵과 디스플레이스먼트 맵은 피부의 곡면의 품질에 영향을 끼치지만, 노말 맵과 디스플레이스먼트 맵만으로는 사실적인 사람의 얼굴 영상을 형성하기 어려울 수 있다. 따라서, 하나 이상의 프로세서(110)는, 표정 템플릿별 피부 쉐이더(shader)의 서브서페이스(sub-surface) 맵과 노말 맵 및 디스플레이스먼트 맵을 3차원 애니메이션 포인트의 백분율값을 이용하여 합성 영상을 형성하여 피부의 두께에 따른 질감을 표현할 수 있다. 사람의 피부는 깊이에 따라서 상피(上皮), 중피(中皮), 하피(下皮)로 나눌 수 있고, 상피에서 하피로 갈수록 혈관에 의한 영향을 받아서 붉은색이 더 진하게 표시될 수 있다. 하나 이상의 프로세서(110)는, 표정 템플릿별 피부의 두께 상태 및 주름 상태의 이미지를 1~100%의 백분율 값으로 제어하여 보다 사실적으로 합성 영상을 형성할 수 있다. 즉, 피부가 늘어나거나 두께가 다른 부분을 표정 템플릿별 3차원 애니메이션 포인트의 백분율 값만큼 더하여 피부가 늘어나거나 두꺼워지는 피부 질감 표현을 가능하게 할 수 있다.
하나 이상의 프로세서(110)는, 마커리스 방식으로 뎁스 카메라를 사용하며, 제1 영상 형성과는 별도로 표정 데이터만 따로 뎁스 카메라를 이용하여 촬영하여 제2 영상을 형성할 수 있다. 제1 영상과 제2 영상 간에 립싱크의 타이밍과 머리 회전이 서로 다른 결과가 나타나기 때문에 합성 영상에서 눈동자의 초점이 흔들리는 현상이 나타날 수 있는데, 하나 이상의 프로세서(110)는, 제1 영상 및 제2 영상의 3차원 애니메이션 포인트의 회전값을 이용하여 표정별 템플릿의 수치가 자동 변화되는 리액션 작업을 거치게 되며 68개의 표정별 템플릿 중 40개의 입모양 템플릿의 애니메이션 타이밍을 보정할 수 있다. 하나 이상의 프로세서(110)는, 대역 모델의 웃는 모습과 같은 감정표현을 촬영하여 레이어로 합성시켜 최대한 자연스러운 표정이 나타나는 보정 작업을 진행한 후 최종 합성 영상을 형성할 수 있다. 일 실시 예에 따르면, 하나 이상의 프로세서(110)는, 3차원 애니메이션 포인트의 추출을 위하여 상용화된 마커리스 트레킹 프로그램을 사용할 수 있다.
본 발명에 따르면, 하나 이상의 프로세서(110)는, 인공지능 학습을 통한 대역 모델 합성을 진행하므로 정교한 애니메이션 작업이 불필요하고, 립싱크 과정 또한 자동 합성으로 진행되므로 합성 영상 형성을 위한 인력과 시간을 감소시킬 수 있다. 종래 방식은 에프터 이팩트 같은 프로그램을 활용하여 수작업을 통한 합성 영상 형성을 진행하였지만, 하나 이상의 프로세서(110)는, 합성에 필요한 다양한 표정들을 다양한 각도로 1000 프레임 분량만 렌더링하여 인공지능 합성을 학습시키므로 렌더링에 필요한 비용과 시간을 감소시킬 수 있다.
일반적인 딥페이크 기술은 원본 대상체와 합성 대상체의 영상 자료로 조명 환경이 서로 다른 이미지를 합성하기 때문에 색채 합성의 다양한 알고리즘을 제공은 하지만, 양질의 결과물을 얻기 어렵다.
본 발명에 따르면, 자체적인 영상 처리 인물 제작 기술이 있으므로 합성될 영상과 동일한 환경의 조명을 구현함으로 보다 자연스러운 합성 영상을 형성할 수 있다. 특히, 인공지능 학습을 통한 합성 영상의 자연스러움을 표현하기 때문에 기존 방식의 키프레임 보정 작업이 불필요해짐으로 합성 영상 형성에 소요되는 비용을 감소시킬 수 있다.
하나 이상의 메모리(120)는, 다양한 데이터를 저장할 수 있다. 메모리(120)에 저장되는 데이터는, 전자 장치(100)의 적어도 하나의 구성요소에 의해 획득되거나, 처리되거나, 사용되는 데이터로서, 소프트웨어(예: 명령, 프로그램 등)를 포함할 수 있다. 메모리(120)는 휘발성 및/또는 비휘발성 메모리를 포함할 수 있다. 본 발명에서, 명령 내지 프로그램은 메모리(120)에 저장되는 소프트웨어로서, 전자 장치(100)의 리소스를 제어하기 위한 운영체제, 어플리케이션 및/또는 어플리케이션이 전자 장치의 리소스들을 활용할 수 있도록 다양한 기능을 어플리케이션에 제공하는 미들 웨어 등을 포함할 수 있다.
하나 이상의 메모리(120)는, 상술한 대상체의 이미지, 대상체의 특징점들, 대역 모델, 제1 및 제2 3차원 데이터 등을 저장할 수 있다. 또한, 하나 이상의 메모리(120)는, 제1 및 제2 영상, 합성 영상을 저장할 수 있다. 또한 하나 이상의 메모리(120)는, 하나 이상의 프로세서(110)에 의한 실행 시, 하나 이상의 프로세서(110)가 연산을 수행하도록 하는 명령들을 저장할 수 있다.
일 실시 예에 따르면, 전자 장치(100)는 송수신기(130)를 더 포함할 수 있다. 송수신기(130)는, 전자 장치(100)와 서버, 데이터베이스, 클라이언트 장치들 및/또는 기타 다른 장치 간의 무선 또는 유선 통신을 수행할 수 있다. 예를 들어, 송수신기(130)는 eMBB(enhanced Mobile Broadband), URLLC(Ultra Reliable Low-Latency Communications), MMTC(Massive Machine Type Communications), LTE(long-term evolution), LTE-A(LTE Advance), UMTS(Universal Mobile Telecommunications System), GSM(Global System for Mobile communications), CDMA(code division multiple access), WCDMA(wideband CDMA), WiBro(Wireless Broadband), WiFi(wireless fidelity), 블루투스(Bluetooth), NFC(near field communication), GPS(Global Positioning System) 또는 GNSS(global navigation satellite system) 등의 방식에 따른 무선 통신을 수행할 수 있다. 예를 들어, 송수신기(130)는 USB(universal serial bus), HDMI(high definition multimedia interface), RS-232(recommended standard232) 또는 POTS(plain old telephone service) 등의 방식에 따른 유선 통신을 수행할 수 있다.
일 실시 예에 따르면, 하나 이상의 프로세서(110)는, 송수신기(130)를 제어하여 서버 및 데이터베이스로부터 정보를 획득할 수 있다. 서버 및 데이터베이스로부터 획득된 정보는 하나 이상의 메모리(120)에 저장될 수 있다. 일 실시예로서, 서버 및 데이터베이스로부터 획득되는 정보는 적어도 하나의 3차월 모델 등을 포함할 수 있다.
일 실시 예에 따르면, 전자 장치(100)는, 다양한 형태의 장치가 될 수 있다. 예를 들어, 전자 장치(100)는 휴대용 통신 장치, 컴퓨터 장치, 또는 상술한 장치들 중 하나 또는 그 이상의 조합에 따른 장치일 수 있다. 본 발명의 전자 장치(100)는 전술한 장치들에 한정되지 않는다.
본 발명에 따른 전자 장치(100)의 다양한 실시예들은 서로 조합될 수 있다. 각 실시예들은 경우의 수에 따라 조합될 수 있으며, 조합되어 만들어진 전자 장치(100)의 실시예 역시 본 발명의 범위에 속한다. 또한 전술한 본 발명에 따른 전자 장치(100)의 내/외부 구성 요소들은 실시예에 따라 추가, 변경, 대체 또는 삭제될 수 있다. 또한 전술한 전자 장치(100)의 내/외부 구성 요소들은 하드웨어 컴포넌트로 구현될 수 있다.
본 발명에서, 인공지능(Artificial Intelligence, AI)은 인간의 학습능력, 추론능력, 지각능력 등을 모방하고, 이를 컴퓨터로 구현하는 기술을 의미하고, 기계 학습, 심볼릭 로직(Symbolic Logic) 등의 개념을 포함할 수 있다. 기계 학습(Machine Learning, ML)은 입력 데이터들의 특징을 스스로 분류 또는 학습하는 알고리즘 기술이다. 인공지능의 기술은 기계 학습의 알고리즘으로써 입력 데이터를 분석하고, 그 분석의 결과를 학습하며, 그 학습의 결과에 기초하여 판단이나 예측을 할 수 있다. 또한, 기계 학습의 알고리즘을 활용하여 인간 두뇌의 인지, 판단 등의 기능을 모사하는 기술들 역시 인공지능의 범주로 이해될 수 있다. 예를 들어, 언어적 이해, 시각적 이해, 추론/예측, 지식 표현, 동작 제어 등의 기술 분야가 포함될 수 있다.
기계 학습은 데이터를 처리한 경험을 이용해 신경망 모델을 훈련시키는 처리를 의미할 수 있다. 기계 학습을 통해 컴퓨터 소프트웨어는 스스로 데이터 처리 능력을 향상시키는 것을 의미할 수 있다. 신경망 모델은 데이터 사이의 상관 관계를 모델링하여 구축된 것으로서, 그 상관 관계는 복수의 파라미터에 의해 표현될 수 있다. 신경망 모델은 주어진 데이터로부터 특징들을 추출하고 분석하여 데이터 간의 상관 관계를 도출하는데, 이러한 과정을 반복하여 신경망 모델의 파라미터를 최적화해 나가는 것이 기계 학습이라고 할 수 있다. 예를 들어, 신경망 모델은 입출력 쌍으로 주어지는 데이터에 대하여, 입력과 출력 사이의 매핑(상관 관계)을 학습할 수 있다. 또는, 신경망 모델은 입력 데이터만 주어지는 경우에도 주어진 데이터 사이의 규칙성을 도출하여 그 관계를 학습할 수도 있다.
인공지능 학습모델 또는 신경망 모델은 인간의 뇌 구조를 컴퓨터 상에서 구현하도록 설계될 수 있으며, 인간의 신경망의 뉴런(neuron)을 모의하며 가중치를 가지는 복수의 네트워크 노드들을 포함할 수 있다. 복수의 네트워크 노드들은 뉴런이 시냅스(synapse)를 통하여 신호를 주고받는 뉴런의 시냅틱(synaptic) 활동을 모의하여, 서로 간의 연결 관계를 가질 수 있다. 인공지능 학습모델에서 복수의 네트워크 노드들은 서로 다른 깊이의 레이어에 위치하면서 컨볼루션(convolution) 연결 관계에 따라 데이터를 주고받을 수 있다. 인공지능 학습모델은, 예를 들어, 인공 신경망 모델(Artificial Neural Network), 컨볼루션 신경망 모델(Convolution Neural Network: CNN) 등일 수 있다. 일 실시예로서, 인공지능 학습모델은, 지도학습(Supervised Learning), 비지도 학습(Unsupervised Learning), 강화 학습(Reinforcement Learning) 등의 방식에 따라 기계 학습될 수 있다. 기계 학습을 수행하기 위한 기계 학습 알고리즘에는, 의사결정트리(Decision Tree), 베이지안 망(Bayesian Network), 서포트 벡터 머신(Support Vector Machine), 인공 신경망(Artificial Neural Network), 에이다부스트(Ada-boost), 퍼셉트론(Perceptron), 유전자 프로그래밍(Genetic Programming), 군집화(Clustering) 등이 사용될 수 있다.
이중, CNN은 최소한의 전처리(preprocess)를 사용하도록 설계된 다계층 퍼셉트론(multilayer perceptrons)의 한 종류이다. CNN은 하나 또는 여러 개의 합성곱 계층과 그 위에 올려진 일반적인 인공 신경망 계층들로 이루어져 있으며, 가중치와 통합 계층(pooling layer)들을 추가로 활용한다. 이러한 구조 덕분에 CNN은 2차원 구조의 입력 데이터를 충분히 활용할 수 있다. 다른 딥러닝 구조들과 비교해서, CNN은 영상, 음성 분야 모두에서 좋은 성능을 보여준다. CNN은 또한 표준 역전달을 통해 훈련될 수 있다. CNN은 다른 피드포워드 인공신경망 기법들보다 쉽게 훈련되는 편이고 적은 수의 매개변수를 사용한다는 이점이 있다.
컨볼루션 네트워크는 묶인 파라미터들을 가지는 노드들의 집합들을 포함하는 신경 네트워크들이다. 사용 가능한 트레이닝 데이터의 크기 증가와 연산 능력의 가용성이, 구분적 선형 단위 및 드롭아웃 트레이닝과 같은 알고리즘 발전과 결합되어, 많은 컴퓨터 비전 작업들이 크게 개선되었다. 오늘날 많은 작업에 사용할 수 있는 데이터 세트들과 같은 엄청난 양의 데이터 세트에서는 초과 맞춤(outfitting)이 중요하지 않으며, 네트워크의 크기를 늘리면 테스트 정확도가 향상된다. 컴퓨팅 리소스들의 최적 사용은 제한 요소가 된다. 이를 위해, 심층 신경 네트워크들의 분산된, 확장 가능한 구현예가 사용될 수 있다.
도 2는 본 발명의 실시예에 따른 피부 깊이에 따른 서브서페이스의 색 차이를 나타내는 예시도이다.
도 2에 도시한 바와 같이, 사람의 피부는 깊이에 따라서 상피, 중피, 하피로 나눌 수 있고, 상피에서 하피로 갈수록 혈관에 의한 영향을 받아서 붉은색이 더 진하게 나타날 수 있다. 예를 들어, (a) 및 (d)는 상피의 이미지를 나타내고, (b) 및 (e)는 중피의 이미지를 나타내며, (c) 및 (f)는 하피의 이미지를 나타낼 수 있다.
도 3은 본 발명의 실시예에 따른 뉴럴 네트워크의 학습을 설명하기 위한 도면이다.
도 3에 도시한 바와 같이, 학습 장치는 대상체의 이미지가 포함하는 특징점들의 인식을 위하여 뉴럴 네트워크(114)를 학습시킬 수 있다. 일 실시예에 따르면, 학습 장치는 영상 형성을 위한 전자 장치(110)와 다른 별개의 주체일 수 있지만, 이에 제한되는 것은 아니다.
뉴럴 네트워크(114)는 트레이닝 샘플들이 입력되는 입력 레이어(112)와 트레이닝 출력들을 출력하는 출력 레이어(116)를 포함하고, 트레이닝 출력들과 레이블들 사이의 차이에 기초하여 학습될 수 있다. 여기서, 레이블들은 특징점 객체에 대응하는 신체 부위 정보에 기초하여 정의될 수 있다. 뉴럴 네트워크(114)는 복수의 노드들의 그룹으로 연결되어 있고, 연결된 노드들 사이의 가중치들과 노드들을 활성화시키는 활성화 함수에 의해 정의된다.
학습 장치는 GD(Gradient Decent) 기법 또는 SGD(Stochastic Gradient Descent) 기법을 이용하여 뉴럴 네트워크(114)를 학습시킬 수 있다. 학습 장치는 뉴럴 네트워크의 출력들 및 레이블들 의해 설계된 손실 함수(Loss Function)를 이용할 수 있다.
학습 장치는 미리 정의된 손실 함수를 이용하여 트레이닝 에러를 계산할 수 있다. 손실 함수는 레이블, 출력 및 파라미터를 입력 변수로 미리 정의될 수 있고, 여기서 파라미터는 뉴럴 네트워크(114) 내 가중치들에 의해 설정될 수 있다. 예를 들어, 손실 함수는 MSE(Mean Square Error) 형태, 엔트로피(entropy) 형태 등으로 설계될 수 있는데, 손실 함수가 설계되는 실시예에는 다양한 기법 또는 방식이 채용될 수 있다.
학습 장치는 역전파(Backpropagation) 기법을 이용하여 트레이닝 에러에 영향을 주는 가중치들을 찾아낼 수 있다. 여기서, 가중치들은 뉴럴 네트워크(114) 내 노드들 사이의 관계들이다. 학습 장치는 역전파 기법을 통해 찾아낸 가중치들을 최적화시키기 위해 레이블들 및 출력들을 이용한 SGD 기법을 이용할 수 있다. 예를 들어, 학습 장치는 레이블들, 출력들 및 가중치들에 기초하여 정의된 손실 함수의 가중치들을 SGD 기법을 이용하여 갱신할 수 있다.
일 실시예에 따르면, 학습 장치는 트레이닝 대상체의 이미지들을 획득하고, 트레이닝 대상체의 이미지들로부터 트레이닝 특징점 객체들을 추출할 수 있다. 학습 장치는 트레이닝 특징점 객체들에 대해서 각각 미리 레이블링 된 정보(제1 레이블들)를 획득할 수 있는데, 트레이닝 특징점 객체들에 미리 정의된 신체 부위 정보(예를 들어, 눈, 코, 입, 귀, 턱선, 눈썹 등)를 나타내는 제1 레이블들을 획득할 수 있다.
일 실시예에 따르면, 학습 장치는 트레이닝 특징점 객체들의 외관 특징들, 패턴 특징들 및 색상 특징들에 기초하여 제1 트레이닝 특징 벡터들을 생성할 수 있다. 트레이닝 특징점 객체들의 특징을 추출하는 데는 다양한 방식이 채용될 수 있다.
일 실시예에 따르면, 학습 장치는 제1 트레이닝 특징 벡터들을 뉴럴 네트워크(114)에 적용하여 트레이닝 출력들을 획득할 수 있다. 학습 장치는 트레이닝 출력들과 제1 레이블들에 기초하여 뉴럴 네트워크(114)를 학습시킬 수 있다. 학습 장치는 트레이닝 출력들에 대응하는 트레이닝 에러들을 계산하고, 그 트레이닝 에러들을 최소화하기 위해 뉴럴 네트워크(114) 내 노드들의 연결 관계를 최적화하여 뉴럴 네트워크(114)를 학습시킬 수 있다. 전자 장치(110)는 학습이 완료된 뉴럴 네트워크(114)를 이용하여 대상체의 이미지로부터 대상체의 특징점들을 추출할 수 있다.
도 4 및 도 5는 본 발명의 실시 예에 따른 영상 형성 방법의 절차를 보이는 흐름도이다. 도 4 및 도 5의 흐름도에서 프로세스 단계들, 방법 단계들, 알고리즘들 등이 순차적인 순서로 설명되었지만, 그러한 프로세스들, 방법들 및 알고리즘들은 임의의 적합한 순서로 작동하도록 구성될 수 있다. 다시 말하면, 본 발명의 다양한 실시예들에서 설명되는 프로세스들, 방법들 및 알고리즘들의 단계들이 본 발명에서 기술된 순서로 수행될 필요는 없다. 또한, 일부 단계들이 비동시적으로 수행되는 것으로서 설명되더라도, 다른 실시예에서는 이러한 일부 단계들이 동시에 수행될 수 있다. 또한, 도면에서의 묘사에 의한 프로세스의 예시는 예시된 프로세스가 그에 대한 다른 변화들 및 수정들을 제외하는 것을 의미하지 않으며, 예시된 프로세스 또는 그의 단계들 중 임의의 것이 본 발명의 다양한 실시예들 중 하나 이상에 필수적임을 의미하지 않으며, 예시된 프로세스가 바람직하다는 것을 의미하지 않는다.
도 4에 도시한 바와 같이, 단계(S410)에서, 대상체의 이미지가 획득된다. 예를 들어, 도 1 내지 도 3을 참조하면, 영상 형성을 위한 전자 장치(100)의 프로세서(110)는, 대상체의 이미지를 획득할 수 있다. 일 실시 예에 따르면, 프로세서(110)는, 인터넷(internet), SNS(social network service) 등 다양한 경로를 통하여 대상체(예를 들어, 고인(故人))의 이미지를 컴퓨터에서 처리 가능한 데이터 패킷 형태로 획득할 수 있다.
단계(S420)에서, 대상체의 특징점들이 추출된다. 예를 들어, 도 1 내지 도 3을 참조하면, 영상 형성을 위한 전자 장치(100)의 프로세서(110)는, 단계 S410에서 획득한 대상체의 이미지로부터 대상체의 특징점들을 추출할 수 있다. 일 실시 예에 따르면, 프로세서(110)는, 딥러닝(deep learning)과 같은 기계 학습 알고리즘을 이용하여 획득한 대상체의 이미지로부터 대상체의 특징점들(예를 들어, 귀, 턱선 등)을 추출할 수 있다.
단계(S430)에서, 대역 모델이 선택된다. 예를 들어, 도 1 내지 도 3을 참조하면, 영상 형성을 위한 전자 장치(100)의 프로세서(110)는, 단계 S420에서 추출된 특징점들을 이용하여 대상체의 얼굴 형태와 일치도가 가장 높은 대역 모델을 선택할 수 있다. 일 실시 예에 따르면, 프로세서(110)는, 대상체의 이미지로부터 제1 특징점들을 추출하고, 메모리(120)에 저장된 적어도 하나의 3차원 모델들의 제2 특징점들을 추출하며, 제1 특징점들과 제2 특징점들 간의 일치도를 산출하고, 산출된 일치도가 가장 높은 3차원 모델을 대역 모델로 선택할 수 있다.
단계(S440)에서, 제1 3차원 데이터가 형성된다. 예를 들어, 도 1 내지 도 3을 참조하면, 영상 형성을 위한 전자 장치(100)의 프로세서(110)는, 단계 S430에서 선택된 대역 모델을 3차원 스캐닝하고, 동시에 다양한 각도에서의 대역 모델에 대한 이미지를 촬영하여 제1 3차원 데이터를 형성할 수 있다.
단계(S450)에서, 제1 영상이 형성된다. 예를 들어, 도 1 내지 도 3을 참조하면, 영상 형성을 위한 전자 장치(100)의 프로세서(110)는, 단계 S440에서 대역 모델을 이용하여 형성된 대상체의 제1 3차원 데이터를 이용하여 대상체의 제1 영상을 형성할 수 있다.
단계(S460)에서, 제2 3차원 데이터가 형성된다. 예를 들어, 도 1 내지 도 3을 참조하면, 영상 형성을 위한 전자 장치(100)의 프로세서(110)는, 미리 설정된 표정 템플릿을 뎁스(depth) 카메라로 촬영하여 제2 3차원 데이터를 형성할 수 있다.
단계(S470)에서, 제2 영상이 형성된다. 예를 들어, 도 1 내지 도 3을 참조하면, 영상 형성을 위한 전자 장치(100)의 프로세서(110)는, 단계 S460에서 형성된 대상체의 제2 3차원 데이터를 이용하여 대상체의 표정을 나타내는 제2 영상을 형성할 수 있다.
단계(S480)에서, 합성 영상이 형성된다. 예를 들어, 도 1 내지 도 3을 참조하면, 영상 형성을 위한 전자 장치(100)의 프로세서(110)는, 단계 S450에서 형성된 제1 영상과, 단계 S470에서 형성된 제2 영상을 합성하여 합성 영상을 형성할 수 있다. 일 실시 예에 따르면, 프로세서(110)는, 제1 영상의 3차원 애니메이션 포인트 및 제2 영상의 3차원 애니메이션 포인트를 이용하여 제1 영상과 제2 영상의 3차원 애니메이션 포인트가 일치하도록 합성 영상을 형성할 수 있지만, 이에 한정되지 않는다.
도 5에 도시한 바와 같이, 단계(S511)에서, 대역 모델이 촬영된다. 예를 들어, 도 1 내지 도 4를 참조하면, 영상 형성을 위한 전자 장치(100)의 프로세서(110)는, 메모리(120)에 저장된 3차원 모델 중 대상체와 일치도가 가장 높은 3차원 모델을 대역 모델로 선택하여 촬영할 수 있다.
단계(S512)에서, 대역 3차원 모델이 추출된다. 예를 들어, 도 1 내지 도 4를 참조하면, 영상 형성을 위한 전자 장치(100)의 프로세서(110)는, 선택된 대역 모델을 3차원 스캐닝하고, 다양한 각도에서의 이미지를 촬영하여 제1 3차원 데이터를 형성할 수 있다(대역 3차원 모델 추출).
단계(S513)에서, 타겟 이미지가 투영된다. 예를 들어, 도 1 내지 도 4를 참조하면, 영상 형성을 위한 전자 장치(100)의 프로세서(110)는, 단계 S512에서 추출된 대역 3차원 모델에 대상체의 이미지를 투영할 수 있다.
단계(S514)에서, 표정 템플릿이 제작된다. 예를 들어, 도 1 내지 도 4를 참조하면, 영상 형성을 위한 전자 장치(100)의 프로세서(110)는, 미리 설정된 개수(예를 들어, 68개)의 표정 모퍼(템플릿)를 형성할 수 있다.
단계(S515)에서, 하이 폴리곤(high polygon) 모델이 제작된다. 예를 들어, 도 1 내지 도 4를 참조하면, 영상 형성을 위한 전자 장치(100)의 프로세서(110)는, 제1 3차원 데이터를 이용하여 대상체 표면을 나타내는 하이 폴리곤 모델을 형성할 수 있다.
단계(S516)에서, 노말 맵 및 디스플레이스먼트 맵이 추출된다. 예를 들어, 도 1 내지 도 4를 참조하면, 영상 형성을 위한 전자 장치(100)의 프로세서(110)는, 단계 S512에서 형성된 제1 3차원 데이터로의 3차원 RGB 정보를 나타내는 노말 맵(normal map)을 추출하고, 제1 3차원 데이터의 흑백 정보를 나타내는 디스플레이스먼트 맵(displacement map)을 추출할 수 있다.
단계(S517)에서, 스킨 쉐이더 서브서페이스 맵이 제작된다.  예를 들어, 도 1 내지 도 4를 참조하면, 영상 형성을 위한 전자 장치(100)의 프로세서(110)는, 제1 3차원 데이터의 표정별 템플릿에 따른 피부의 두께 상태 및 주름 상태를 백분율 값으로 나타낸 스킨 쉐이더 서브서페이스 맵을 제작할 수 있다.
단계(S518)에서, 대상체의 표정 연기가 촬영된다.  예를 들어, 도 1 내지 도 4를 참조하면, 영상 형성을 위한 전자 장치(100)의 프로세서(110)는, 단계 S514에서 형성된 표정 템플릿을 이용하여 대상체가 특정 행동(예를 들어, 노래, 유언 등)을 할 경우의 표정 연기를 뎁스 카메라를 이용하여 촬영하여 제2 3차원 데이터를 형성할 수 있다.
단계(S519)에서, 대상체의 움직임이 트레킹된다. 예를 들어, 도 1 내지 도 4를 참조하면, 영상 형성을 위한 전자 장치(100)의 프로세서(110)는, 단계 S518에서 형성된 제2 3차원 데이터를 이용하여 대상체의 움직임을 트레킹 할 수 있다. 일 실시 예에 따르면, 프로세서(110)는, 제2 3차원 데이터의 트레킹을 위하여 상용화된 마커리스 트레킹 프로그램을 사용할 수 있지만, 이에 한정되지 않는다.
단계(S520)에서, 얼굴 애니메이션 타이밍이 보정된다.  예를 들어, 도 1 내지 도 4를 참조하면, 영상 형성을 위한 전자 장치(100)의 프로세서(110)는, 대역 모델의 웃는 모습과 같은 감정표현을 촬영하여 레이어로 합성시켜 최대한 자연스러운 표정이 나타나는 보정 작업을 진행한 후 합성 영상을 형성할 수 있다.
단계(S521)에서, 헤어 시뮬레이션이 진행된다.  예를 들어, 도 1 내지 도 4를 참조하면, 영상 형성을 위한 전자 장치(100)의 프로세서(110)는, 합성 영상이 대상체의 헤어 스타일을 반영할 수 있도록 헤어 시뮬레이션을 진행할 수 있다. 일 실시 예에 따르면, 프로세서(110)는, 단계 S518 내지 S521을 딥러닝과 같은 기계 학습 알고리즘을 이용하여 수행할 수 있지만, 이에 한정되지 않는다.
단계(S522)에서, 최종 렌더링이 진행된다. 예를 들어, 도 1 내지 도 4를 참조하면, 영상 형성을 위한 전자 장치(100)의 프로세서(110)는, 단계 S511 내지 S521의 작업을 반영하여 최종 3차원 데이터를 형성할 수 있고, 형성된 최종 3차원 데이터를 렌더링하여 최종 합성 영상을 형성할 수 있다.
단계(S523)에서, 최종 합성 영상을 이용한 공연이 진행된다. 예를 들어, 도 1 내지 도 4를 참조하면, 영상 형성을 위한 전자 장치(100)의 프로세서(110)는, 단계 S522에서 형성된 최종 합성 영상을 이용하여 대상체가 실제로 공연을 하는 것과 같은 영상을 얻을 수 있다.
이상, 본 발명을 바람직한 실시 예를 사용하여 상세히 설명하였으나, 본 발명의 범위는 특정 실시 예에 한정되는 것은 아니며, 첨부된 특허청구범위에 의하여 해석되어야 할 것이다. 또한, 이 기술분야에서 통상의 지식을 습득한 자라면, 본 발명의 범위에서 벗어나지 않으면서도 많은 수정과 변형이 가능함을 이해하여야 할 것이다.
100: 전자 장치 110: 프로세서
120: 메모리 130: 송수신기
112: 입력 레이어 114: 뉴럴 네트워크
116: 출력 레이어

Claims (7)

  1. 영상 형성을 위한 전자 장치에 있어서,
    하나 이상의 프로세서; 및
    상기 하나 이상의 프로세서에 의한 실행 시, 상기 하나 이상의 프로세서가 연산을 수행하도록 하는 명령들이 저장된 하나 이상의 메모리를 포함하며,
    상기 하나 이상의 프로세서는,
    대상체의 이미지를 획득하고,
    상기 대상체의 이미지로부터 상기 대상체의 특징점들을 추출하며,
    상기 추출된 특징점들을 이용하여 상기 대상체의 얼굴 형태와 일치도가 가장 높은 대역 모델을 선택하고,
    상기 대역 모델을 3차원 스캐닝하고, 다양한 각도에서의 이미지를 촬영하여 제1 3차원 데이터를 형성하며,
    상기 제1 3차원 데이터를 이용하여 상기 대상체의 제1 영상을 형성하고,
    미리 설정된 표정 템플릿을 뎁스 카메라로 촬영하여 제2 3차원 데이터를 형성하며,
    상기 제2 3차원 데이터를 이용하여 상기 대상체의 표정을 나타내는 제2 영상을 형성하고,
    3차원 애니메이션 포인트를 이용하여 상기 제1 영상과 상기 제2 영상을 합성하여 합성 영상을 형성하되,
    상기 하나 이상의 프로세서는,
    트레이닝 대상체의 이미지들을 획득하고,
    상기 트레이닝 대상체의 이미지들로부터 트레이닝 특징점 객체들을 추출하며,
    상기 트레이닝 특징점 객체들에 대응하는 신체 부위 정보인 제1 레이블들을 획득하고,
    상기 트레이닝 특징점 객체들을 뉴럴 네트워크로 적용하여, 상기 트레이닝 특징점 객체들에 대응하는 트레이닝 출력들을 생성하며,
    상기 트레이닝 출력들 및 상기 제1 레이블들에 기초하여, 상기 뉴럴 네트워크를 학습시키는,
    영상 형성을 위한 전자 장치.
  2. 제1 항에 있어서,
    상기 하나 이상의 프로세서는,
    상기 대상체의 특징점들로서 귀 및 턱선을 추출하고, 상기 추출된 귀 및 턱선의 형태와 적어도 하나의 3차원 모델의 귀 및 턱선의 일치도가 가장 높은 3차원 모델을 상기 대역 모델로 선택하는,
    영상 형성을 위한 전자 장치.
  3. 제1 항에 있어서,
    상기 하나 이상의 프로세서는,
    상기 제2 3차원 데이터로부터 상기 대상체의 표면을 나타내는 다각형 데이터(polygon)를 최적화하여 로우 폴리곤을 형성하고, 상기 제2 3차원 데이터의 3차원 RGB 정보를 나타내는 노말 맵(normal map)을 형성하며, 상기 제2 3차원 데이터의 흑백 정보를 나타내는 디스플레이스먼트 맵(displacement map)을 형성하여 상기 제2 영상을 형성하며,
    피부의 두께 상태 및 주름 상태에 따른 서로 다른 가중치를 적용하여 상기 합성 영상을 형성하며,
    피부의 두께에 따른 색깔 차이를 고려하여 피부의 최외곽 상태에 대한 백분율을 산출하여 상기 가중치를 적용하는,
    영상 형성을 위한 전자 장치.
  4. 하나 이상의 프로세서; 및
    상기 하나 이상의 프로세서에 의한 실행 시, 상기 하나 이상의 프로세서가 연산을 수행하도록 하는 명령들이 저장된 하나 이상의 메모리를 포함하는 영상 형성을 위한 전자 장치를 이용한 영상 형성 방법으로서,
    상기 하나 이상의 프로세서에 의해서, 대상체의 이미지를 획득하는 단계;
    상기 하나 이상의 프로세서에 의해서, 상기 대상체의 이미지로부터 상기 대상체의 특징점들을 추출하는 단계;
    상기 하나 이상의 프로세서에 의해서, 상기 추출된 특징점들을 이용하여 상기 대상체의 얼굴 형태와 일치도가 가장 높은 대역 모델을 선택하는 단계;
    상기 하나 이상의 프로세서에 의해서, 상기 대역 모델을 3차원 스캐닝하고, 다양한 각도에서의 이미지를 촬영하여 제1 3차원 데이터를 형성하는 단계;
    상기 하나 이상의 프로세서에 의해서, 상기 제1 3차원 데이터를 이용하여 상기 대상체의 제1 영상을 형성하는 단계;
    상기 하나 이상의 프로세서에 의해서, 미리 설정된 표정 템플릿을 뎁스 카메라로 촬영하여 제2 3차원 데이터를 형성하는 단계;
    상기 하나 이상의 프로세서에 의해서, 상기 제2 3차원 데이터를 이용하여 상기 대상체의 표정을 나타내는 제2 영상을 형성하는 단계; 및
    상기 하나 이상의 프로세서에 의해서, 3차원 애니메이션 포인트를 이용하여 상기 제1 영상과 상기 제2 영상을 합성하여 합성 영상을 형성하는 단계를 포함하되,
    상기 대상체의 이미지로부터 상기 대상체의 특징점들을 추출하는 단계는,
    트레이닝 대상체의 이미지들을 획득하는 단계;
    상기 트레이닝 대상체의 이미지들로부터 트레이닝 특징점 객체들을 추출하는 단계;
    상기 트레이닝 특징점 객체들에 대응하는 신체 부위 정보인 제1 레이블들을 획득하는 단계;
    상기 트레이닝 특징점 객체들을 뉴럴 네트워크로 적용하여, 상기 트레이닝 특징점 객체들에 대응하는 트레이닝 출력들을 생성하는 단계; 및
    상기 트레이닝 출력들 및 상기 제1 레이블들에 기초하여, 상기 뉴럴 네트워크를 학습시키는 단계를 포함하는,
    영상 형성 방법.
  5. 제4 항에 있어서,
    상기 대역 모델을 선택하는 단계는,
    상기 대상체의 특징점들로서 귀 및 턱선을 추출하는 단계; 및
    상기 추출된 귀 및 턱선의 형태와 적어도 하나의 3차원 모델의 귀 및 턱선의 일치도가 가장 높은 3차원 모델을 상기 대역 모델로 선택하는 단계를 포함하는,
    영상 형성 방법.
  6. 제4 항에 있어서,
    상기 제2 영상을 형성하는 단계는,
    상기 제2 3차원 데이터로부터 상기 제2 3차원 데이터의 표면을 나타내는 다각형 데이터(polygon)를 최적화하여 로우 폴리곤을 형성하는 단계;
    상기 제2 3차원 데이터의 3차원 RGB 정보를 나타내는 노말 맵(Normal map)을 형성하는 단계; 및
    상기 제2 3차원 데이터의 흑백 정보를 나타내는 디스플레이스먼트 맵(Displacement Map)을 형성하는 단계를 포함하며,
    상기 합성 영상을 형성하는 단계는,
    피부의 두께에 따른 색깔 차이를 고려하여 피부의 최외곽 상태에 대한 백분율을 산출하여 가중치를 적용하는 단계를 더 포함하며,
    상기 대역 모델을 선택하는 단계는,
    상기 대상체의 이미지로부터 제1 특징점들을 추출하는 단계;
    적어도 하나의 3차원 모델들의 제2 특징점들을 추출하는 단계; 및
    제1 특징점들과 제2 특징점들 간의 일치도를 산출하고, 산출된 일치도가 가장 높은 3차원 모델을 대역 모델로 선택하는 단계를 포함하는, 영상 형성 방법.
  7. 하나 이상의 프로세서; 및 상기 하나 이상의 프로세서에 의한 실행 시, 상기 하나 이상의 프로세서가 연산을 수행하도록 하는 명령들이 저장된 하나 이상의 메모리를 포함하는 컴퓨터에서 수행 가능하도록 컴퓨터 판독 가능한 기록매체에 저장된 컴퓨터 프로그램으로서,
    상기 하나 이상의 프로세서에 의해서, 대상체의 이미지를 획득하는 단계;
    상기 하나 이상의 프로세서에 의해서, 상기 대상체의 이미지로부터 상기 대상체의 특징점들을 추출하는 단계;
    상기 하나 이상의 프로세서에 의해서, 상기 추출된 특징점들을 이용하여 상기 대상체의 얼굴 형태와 일치도가 가장 높은 대역 모델을 선택하는 단계;
    상기 하나 이상의 프로세서에 의해서, 상기 대역 모델을 3차원 스캐닝하고, 다양한 각도에서의 이미지를 촬영하여 제1 3차원 데이터를 형성하는 단계;
    상기 하나 이상의 프로세서에 의해서, 상기 제1 3차원 데이터를 이용하여 상기 대상체의 제1 영상을 형성하는 단계;
    상기 하나 이상의 프로세서에 의해서, 미리 설정된 표정 템플릿을 뎁스 카메라로 촬영하여 제2 3차원 데이터를 형성하는 단계;
    상기 하나 이상의 프로세서에 의해서, 상기 제2 3차원 데이터를 이용하여 상기 대상체의 표정을 나타내는 제2 영상을 형성하는 단계; 및
    상기 하나 이상의 프로세서에 의해서, 깊이 정보를 이용하여 상기 제1 영상과 상기 제2 영상을 합성하여 합성 영상을 형성하는 단계를 포함하되,
    상기 대상체의 이미지로부터 상기 대상체의 특징점들을 추출하는 단계는,
    트레이닝 대상체의 이미지들을 획득하는 단계;
    상기 트레이닝 대상체의 이미지들로부터 트레이닝 특징점 객체들을 추출하는 단계;
    상기 트레이닝 특징점 객체들에 대응하는 신체 부위 정보인 제1 레이블들을 획득하는 단계;
    상기 트레이닝 특징점 객체들을 뉴럴 네트워크로 적용하여, 상기 트레이닝 특징점 객체들에 대응하는 트레이닝 출력들을 생성하는 단계; 및
    상기 트레이닝 출력들 및 상기 제1 레이블들에 기초하여, 상기 뉴럴 네트워크를 학습시키는 단계를 수행 가능하도록 컴퓨터 판독 가능한 기록매체에 저장된 컴퓨터 프로그램.
KR1020210050682A 2021-04-19 2021-04-19 영상 형성을 위한 전자 장치 및 방법과, 그를 수행하도록 컴퓨터 판독 가능한 기록 매체에 저장된 프로그램 KR102373606B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020210050682A KR102373606B1 (ko) 2021-04-19 2021-04-19 영상 형성을 위한 전자 장치 및 방법과, 그를 수행하도록 컴퓨터 판독 가능한 기록 매체에 저장된 프로그램

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020210050682A KR102373606B1 (ko) 2021-04-19 2021-04-19 영상 형성을 위한 전자 장치 및 방법과, 그를 수행하도록 컴퓨터 판독 가능한 기록 매체에 저장된 프로그램

Publications (1)

Publication Number Publication Date
KR102373606B1 true KR102373606B1 (ko) 2022-03-14

Family

ID=80823884

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020210050682A KR102373606B1 (ko) 2021-04-19 2021-04-19 영상 형성을 위한 전자 장치 및 방법과, 그를 수행하도록 컴퓨터 판독 가능한 기록 매체에 저장된 프로그램

Country Status (1)

Country Link
KR (1) KR102373606B1 (ko)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115311525A (zh) * 2022-10-08 2022-11-08 阿里巴巴(中国)有限公司 深度伪造检测方法及对应装置
KR102555166B1 (ko) * 2022-10-04 2023-07-12 인하대학교 산학협력단 매우 미세한 얼굴 피부 정보를 포함하는 얼굴 텍스처 생성 방법 및 시스템
WO2024039025A1 (ko) * 2022-08-17 2024-02-22 슈퍼랩스 주식회사 3d 캐릭터 기반 표준 모델을 이용한 이미지 합성을 통해 얼굴 표정을 생성하는 방법, 컴퓨터 장치, 및 컴퓨터 프로그램

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20030042403A (ko) * 2001-11-22 2003-05-28 조윤석 윤곽선 정합에 의한 이용한 얼굴 캐릭터 생성 방법
JP2009211148A (ja) * 2008-02-29 2009-09-17 Secom Co Ltd 顔画像処理装置
KR20170131500A (ko) * 2015-03-17 2017-11-29 알리바바 그룹 홀딩 리미티드 3차원 모델링 방법 및 장치
KR20180004635A (ko) * 2016-07-04 2018-01-12 한양대학교 에리카산학협력단 신경망을 이용한 3차원 얼굴 복원 방법 및 장치
KR20200024105A (ko) * 2018-08-27 2020-03-06 주식회사 쓰리디팩토리 컴퓨터 그래픽 합성 시스템 및 방법

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20030042403A (ko) * 2001-11-22 2003-05-28 조윤석 윤곽선 정합에 의한 이용한 얼굴 캐릭터 생성 방법
JP2009211148A (ja) * 2008-02-29 2009-09-17 Secom Co Ltd 顔画像処理装置
KR20170131500A (ko) * 2015-03-17 2017-11-29 알리바바 그룹 홀딩 리미티드 3차원 모델링 방법 및 장치
KR20180004635A (ko) * 2016-07-04 2018-01-12 한양대학교 에리카산학협력단 신경망을 이용한 3차원 얼굴 복원 방법 및 장치
KR20200024105A (ko) * 2018-08-27 2020-03-06 주식회사 쓰리디팩토리 컴퓨터 그래픽 합성 시스템 및 방법

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024039025A1 (ko) * 2022-08-17 2024-02-22 슈퍼랩스 주식회사 3d 캐릭터 기반 표준 모델을 이용한 이미지 합성을 통해 얼굴 표정을 생성하는 방법, 컴퓨터 장치, 및 컴퓨터 프로그램
KR102555166B1 (ko) * 2022-10-04 2023-07-12 인하대학교 산학협력단 매우 미세한 얼굴 피부 정보를 포함하는 얼굴 텍스처 생성 방법 및 시스템
CN115311525A (zh) * 2022-10-08 2022-11-08 阿里巴巴(中国)有限公司 深度伪造检测方法及对应装置
CN115311525B (zh) * 2022-10-08 2023-03-14 阿里巴巴(中国)有限公司 深度伪造检测方法及对应装置

Similar Documents

Publication Publication Date Title
KR102373606B1 (ko) 영상 형성을 위한 전자 장치 및 방법과, 그를 수행하도록 컴퓨터 판독 가능한 기록 매체에 저장된 프로그램
Ersotelos et al. Building highly realistic facial modeling and animation: a survey
CN110807364B (zh) 三维人脸与眼球运动的建模与捕获方法及***
EP3885965B1 (en) Image recognition method based on micro facial expressions, apparatus and related device
WO2023050992A1 (zh) 用于人脸重建的网络训练方法、装置、设备及存储介质
JP7246811B2 (ja) 顔画像生成用のデータ処理方法、データ処理機器、コンピュータプログラム、及びコンピュータ機器
WO2021159781A1 (zh) 图像处理方法、装置、设备及存储介质
WO2022143645A1 (zh) 三维人脸重建的方法、装置、设备和存储介质
CN111401216A (zh) 图像处理、模型训练方法、装置、计算机设备和存储介质
Yu et al. A video, text, and speech-driven realistic 3-D virtual head for human–machine interface
CN115588224B (zh) 一种基于人脸关键点预测的虚拟数字人生成方法及装置
WO2024109374A1 (zh) 换脸模型的训练方法、装置、设备、存储介质和程序产品
KR20230097157A (ko) 개인화된 3d 헤드 모델 변형을 위한 방법 및 시스템
CN113255457A (zh) 基于人脸表情识别的动画角色面部表情生成方法及***
CN111680550B (zh) 情感信息识别方法、装置、存储介质及计算机设备
CN110555896A (zh) 一种图像生成方法、装置以及存储介质
KR102373608B1 (ko) 디지털 휴먼 영상 형성을 위한 전자 장치 및 방법과, 그를 수행하도록 컴퓨터 판독 가능한 기록 매체에 저장된 프로그램
KR20230110787A (ko) 개인화된 3d 머리 및 얼굴 모델들을 형성하기 위한 방법들 및 시스템들
KR20230085931A (ko) 얼굴 이미지에서 색상을 추출하기 위한 방법 및 시스템
CN117333604A (zh) 一种基于语义感知神经辐射场的人物面部重演方法
CN117115331A (zh) 一种虚拟形象的合成方法、合成装置、设备及介质
KR102229056B1 (ko) 표정 인식 모델 생성 장치, 방법 및 이러한 방법을 수행하도록 프로그램된 컴퓨터 프로그램을 저장하는 컴퓨터 판독가능한 기록매체
CN117011449A (zh) 三维面部模型的重构方法和装置、存储介质及电子设备
CN115984452A (zh) 一种头部三维重建方法及设备
Tin Facial extraction and lip tracking using facial points

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant