KR100813034B1

KR100813034B1 - 캐릭터 형성방법

Info

Publication number: KR100813034B1
Application number: KR1020060124010A
Authority: KR
Inventors: 김예진; 채원석; 이범렬; 양광호
Original assignee: 한국전자통신연구원
Priority date: 2006-12-07
Filing date: 2006-12-07
Publication date: 2008-03-14

Abstract

본 발명은 캐릭터의 립싱크 애니메이션 및 표정 애니메이션 방법에 관한 것이다.

본 발명은 캐릭터 자료를 입력받는 단계; 상기 자료에 따라 캐릭터의 립싱크 애니메이션을 형성하는 단계; 및 상기 립싱크 애니메이션이 형성된 캐릭터에 표정 애니메이션을 형성하는 단계를 포함하여 이루어지는 것을 특징으로 하는 캐릭터 형성방법을 제공한다.

따라서, 본 발명에 의하면 캐릭터의 감정을 나타낸 립싱크 애니메이션을 실시간으로 생성할 수 있고, 시간에 따라 연속적으로 변하는 캐릭터의 감정을 보다 자연스럽고 부드러운 립싱크 애니메이션을 형성할 수 있다.

립싱크 애니메이션, 표정 애니메이션, 스플라인 보간법

Description

캐릭터 형성방법{method for formulating character}

도 1 및 도 2는 본 발명에 따른 캐릭터 형성방법의 일실시예의 흐름도이고,

도 3은 TTVS 시스템의 전체 흐름도이고,

도 4는 한글 모음과 자음의 음소를 11개의 비즘 모델로 표시한 도면이고,

도 5는 영어 모음과 자음의 음소를 13개의 비즘 모델로 표시한 도면이고,

도 6은 Catmull-Rom 스플라인 보간법의 일실시예를 나타낸 도면이고,

도 7은 비즘 모델 수정을 위한 가중치 계산 함수를 나타낸 도면이고,

도 8은 립싱크 애니메이션과 감정 표정의 혼합을 나타낸 도면이고,

도 9는 감정을 나타내는 표정 모델과 감정 표정 사이의 혼합을 위한 인터페이스를 나타낸 도면이고,

도 10은 감정을 나타낸 표정 입력의 수치화를 나타낸 도면이고,

도 11은 1차, 2차 및 최종 발음 중요도와 표정 중요도를 나타낸 도면이고,

도 12는 발음 중요도가 큰 경우 발음과 표정의 결합을 나타낸 도면이다.

본 발명은 캐릭터 형성방법에 관한 것으로서, 보다 상세하게는 캐릭터의 립 싱크 애니메이션 및 표정 애니메이션에 관한 것이다.

사실적인 얼굴 애니메이션 생성은 대상 얼굴이 2차원 이미지인지 3차원 메쉬 모델인지에 따라 다양한 접근 방법들이 제시되고 있다.

2차원 얼굴 이미지를 대상으로 한 립싱크 애니메이션에 관련하여 기존에 촬영된 비디오 영상을 분석하여 연속된 세 개의 음소 조합 각각에 대해 짧은 비디오 시퀀스(video sequence)로 잘라내고, 새로운 음성 트랙(track)에 맞도록 다시 연결하는 방법이 제안되었다.

그러나, 상술한 방식은 예제에 기반(sample-based)을 둔 방식이므로 실제에 매우 가까운 결과물을 만들어 낼 수 있지만, 많은 양의 데이터를 보관해야 하므로 용량이 매우 큰 라이브러리가 필요하다.

또한, 2차원 얼굴 이미지들을 예제로 사용한 입술 동기화 애니메이션에 관한 방법에선 각 음소에 대한 예제 모델에 해당하는 얼굴 이미지를 사람이 주관적으로 선택하고, 애니메이션을 위해 중간 단계의 입 모양은 이미지 몰핑(image morphing) 기법을 이용해 생성하여 입술 동기화 애니메이션을 만드는 방법도 제안되었다.

그러나, 상술한 방식은 비즘(viseme) 개수만큼의 입 모양 이미지만을 가지고 애니메이션을 만들기 때문에 같은 발음에 대해서 그 앞뒤 발음에 따라 입 모양이 달라지는 현상(co-articulation effect)을 잘 표현할 수가 없는 단점이 지적되어 왔다.

그리고, 3차원 메쉬 모델을 대상으로 하는 입술 동기화 애니메이션에서는 말하여질 내용을 스크립트 텍스트(script text)로 입력받아서 음소의 시간에 따른 시 퀀스를 생성해내고, 그 정보를 해석하여 음성과 동기화된 립싱크 애니메이션을 만들어 내는 방법이 대표적이다.

그러나, 상술한 방법에선 음성에 동기화된 립싱크 애니메이션을 생성할 수 있지만, 보다 사실적인 얼굴 표정을 만들기 위하여 립싱크 애니메이션에 감정을 자연스럽게 추가하는 방법은 제안되지 않고 있다. 특히, 기존의 대부분의 립싱크 애니메이션 생성 방법들이 립싱크 애니메이션을 제작할 때에는 같은 발음에 대한 입 모양이라고 하더라도 그 앞뒤 발음에 따라 입 모양이 달라지는 현상(co-articulation effect)을 고려하지 않고 있으며, 특정 감정을 나타내는 표정을 추가할 때 현재 발음에 대한 입 주위의 모양새를 크게 깨트리지 않으면서 그 감정 표정을 얼굴 모델에 나타낼 수 있는 효과적인 방법을 제안하고 있지 않다.

가상 캐릭터의 립싱크 애니메이션을 제작할 때에도 보다 자연스러워 보이기 위해서는 TTVS 시스템으로부터 생성된 입술 동기화 애니메이션과 감정을 나타내는 표정 애니메이션을 결합하는 방법이 필요하다.

본 발명은 상기와 같은 문제점들을 해결하기 위해 제안된 것으로, 3차원 얼굴 애니메이션 제작 과정에서 한글 및 영어의 립싱크 애니메이션을 생성하고 감정을 나타내는 얼굴 표정을 자연스럽게 반영하는 방법을 제공함에 있다. 얼굴 애니메이션을 생성하는데 있어 주어진 음성 및 음소 정보로부터 립싱크 애니메이션 생성을 자동화하여 사용자의 수작업을 최소화함과 동시에 사실적인 결과물을 실시간으로 생성하기 위해 음소 정보는 기존의 TTS(Text-To-Speech) 시스템이나 음성 파일 로부터 입력받고 시간에 따라 연속적으로 변하는 표정 파라미터를 위해서 사용자 인터페이스를 제공한다. 특히, 립싱크 애니메이션에 감정을 나타내는 얼굴 표정을 결합하기 위해 중요도 기반 접근 방법을 제안하고 있다.

본 발명은 상술한 문제점을 해결하기 위한 것으로서, 본 발명의 목적은 캐릭터의 감정을 나타낸 립싱크 애니메이션을 실시간으로 생성할 수 있고, 시간에 따라 연속적으로 변하는 캐릭터의 감정을 표현하는 캐릭터 형성방법을 제공하고자 하는 것이다.

본 발명의 다른 목적은 보다 자연스럽고 부드러운 립싱크 애니메이션을 형성하고자 하는 것이다.

본 발명의 또 다른 목적은 사실적인 감정 표정을 나타내는 캐릭터의 립싱크 애니메이션을 제공하고자 하는 것이다.

본 발명의 또 다른 목적은 얼굴 애니메이션을 제작하는 데 소모되는 사용자의 수작업을 최소화하고 음성과의 정확성, 애니메이션의 자연스러움과 실시간성 등을 최대화하는 것이다.

상술한 목적을 달성하기 위하여, 본 발명은 캐릭터 자료를 입력받는 단계; 상기 자료에 따라 캐릭터의 립싱크 애니메이션을 형성하는 단계; 및 상기 립싱크 애니메이션이 형성된 캐릭터에 표정 애니메이션을 형성하는 단계를 포함하여 이루어지는 것을 특징으로 하는 캐릭터 형성방법을 제공한다.

본 발명의 다른 실시 형태에 따르면, 캐릭터 자료를 입력하는 입력부; 상기 캐릭터의 립싱크 애니메이션을 형성하는 립싱크 애니메이션 형성부; 및 상기 립싱크 애니메이션이 형성된 캐릭터에, 표정 애니메이션을 형성하는 표정 애니메이션 형성부를 포함하여 이루어지는 것을 특징으로 하는 캐릭터 형성장치를 제공한다.

이하 상기의 목적을 구체적으로 실현할 수 있는 본 발명의 바람직한 실시예를 첨부한 도면을 참조하여 설명한다.

종래와 동일한 구성 요소는 설명의 편의상 동일 명칭 및 동일 부호를 부여하며 이에 대한 상세한 설명은 생략한다.

본 발명에서는 사용자 등이 캐릭터 정보를 입력하면, 입력된 정보에 따라 표정이 담긴 애니메이션을 형성하는 것을 특징으로 한다.

도 1 및 도 2는 본 발명에 따른 캐릭터 형성방법의 일실시예의 흐름도이다. 도 1 및 도 2를 참조하여 본 발명에 따른 캐릭터 형성방법의 일실시예를 설명하면 다음과 같다.

도 1에 도시된 바와 같이, 캐릭터의 음성 및 표정 자료가 입력되고(S100), 이어서 캐릭터의 립싱크 애니메이션(S110)과 표정 애니메이션(S120)이 차례로 형성된다. 그리고, 상술한 립싱크 애니메이션과 표정 애니메이션을 동기화시키는 것이 바람직하다(S130).

그리고, 도 2에서는 스크립트 텍스트의 형태로 입력된 캐릭터 정보에 대하여, TTS 시스템 등이 합성해낸 음성이나 외부 음성 파일을 분석하여 립싱크 애니메이션을 생성하고, 이어서 감정 표현을 애니메이션하여 상술한 립싱크 애니메이션이 이루어진 캐릭터에 결합한다. 이 때, 캐릭터의 얼굴 모델을 발음에 주로 사용되는 부분과 표정을 나타냄에 주로 사용하는 부분으로 구분하여, 립싱크 애니메이션은 발음에 주로 사용되는 부분을 애니메이션하고, 표정 애니메이션의 형성은 표정을 나타냄에 주로 사용되는 부분을 애니메이션하는 것을 특징으로 한다.

이하에서는 상술한 과정을 상세히 설명한다.

립싱크 애니메이션의 목표는 주어진 음성 트랙에 자연스럽고 사실적인 입 모양을 생성하는 것이다. 입력으로 주어지는 음성은 실제 사람이 발음한 것을 녹음한 육성이거나, TTS 시스템에 의해서 합성된 음성이다. 그리고, 립싱크 애니메이션을 생성하기 위해서는 말하여질 내용의 음소 시퀀스 (phoneme sequence) 정보와 각 음소의 길이(phoneme duration)에 대한 정보가 필요하다. 실제 사람의 육성을 사용하는 경우에는 녹음된 음성 신호를 분석하여 음소 정보들을 생성하는 음운정렬시스템(phonetic alignment systems)이 필요할 수 있다. 그리고, TTS 시스템을 사용하면 실제 사람의 육성에 비해 어색함을 느끼게 된다는 단점은 있으나, TTS 시스템으로부터 바로 음소 정보들을 얻어 낼 수 있어서 보다 정확한 입술 동기화 애니메이션을 제작할 수 있다.

본 발명에서는, 입력된 음성에 대한 음소 시퀀스와 길이 정보가 주어졌다는 가정하에 립싱크 애니메이션을 생성하는데 필요한 음소 정보의 처리 방법을 제안하고 있다. 사용자로부터 스크립트 텍스트(script text)를 입력으로 받아 립싱크 애니메이션을 생성하는 시스템을 TTVS 시스템(text-to-visual speech system)이라 한다. TTVS 시스템은 도 3에 도시된 바와 같이 주어진 스크립트 텍스트에 대해 자연 어처리를 수행하여 여러 가지 음소 정보를 생성하고, 이 정보들을 이용하여 음성처리기는 음성을, 영상처리기는 영상을 합성한다. 생성된 음성과 영상은 동기화하는 것이 바람직하다. TTS 시스템은 합성된 음성을 생성할 뿐만 아니라 음소 시퀀스 정보와 시간에 따른 각 음소의 길이 정보 등을 제공한다. 그리고, TTS 시스템으로부터 얻어진 음소 정보를 이용하여 합성된 음성과 영상간의 동기화가 가능하다.

음소는 발음을 할 때 구별되는 최소의 단위이다. 사람이 말을 하는 것은 연속적으로 나열된 음소들을 순서대로 발음하는 것이다. 이 과정을 컴퓨터에서 수행하기 위하여, 립싱크 애니메이션에서는 발음될 음소 순으로 해당하는 입 모양을 나열하고 그 사이를 부드럽게 연결하여 연속된 움직임을 생성한다. 본 발명에서는 각 음소들에 대해 같은 입 모양으로 발음되는 것끼리 분류하고 이에 대응하는 3차원 얼굴 예제 모델을 제작하여 주어진 음성에 동기화가 된 자연스럽고 사실적인 립싱크 애니메이션을 생성하는 방법을 제안한다.

먼저, 한국어와 영어에 대해서 음소 예제 모델을 어떻게 분류하고 구성하였는지에 대해서 제안한다. 캐릭터에 대하여 다른 국가의 언어로 립싱크를 하고자 할 때에도, 한국어 및 영어에 준하여 분류 및 구성할 수 있을 것이다.

본 발명에서는 립싱크 애니메이션을 제작하기 위해서 주어진 음소 시퀀스에 대해 각 음소에 대한 입 모양을 키프레임(key-frame)으로 보고, 그 사이를 부드럽게 채워주는 키프레이밍(key-framing) 애니메이션 기법을 사용한다. 이러한 접근 방법이 가능한 이유는 사람이 말하는 모습은 유한 개의 비즘(viseme) 모델들로 모두 만들어 낼 수 있다는 가정에 근거한다. 여기서 '비즘'은 일반적으로 사람이 발 음을 할 때 눈으로 보아서 다른 것들과 구별되는 입 모양을 지칭한다. 따라서 비즘 모델이라는 것은 발음을 할 때 외관상 다른 것들과 구별되는 입 모양을 갖는 3차원 메쉬 구조로 된 가상 캐릭터의 얼굴 모델을 말한다.

즉, 본 발명은 사람이 말하는 모습은 유한 개의 비즘들을 사용하여 모두 생성해 낼 수 있다는 가정 하에, 적용할 수 있는 한 가지 접근 방법은 음소와 비즘 사이에 일대일 대응 관계를 정의하여 각각의 음소에 대해 비즘 모델을 만들어 립싱크 애니메이션을 제작하는 것이다. 이러한 방식은 입력으로 주어진 텍스트에 대해 TTS 시스템이 음소 시퀀스 정보와 음소 길이 정보를 생성하면 대응되는 시점들에 비즘 모델들을 두고 그 사이를 부드럽게 연결시켜 립싱크 애니메이션을 생성하는 것이다.

먼저, 단모음의 입 모양은 발음을 하는데 중요한 역할을 하므로 각기 다른 입 모양을 갖게 한다. 그러나, 일반적으로 여러 개의 음소들을 하나의 비즘에 대응시킬 수 있다. 예를 들어, 한국어의 'ㅁ'과 'ㅂ'이나 영어의 'o'나 'w'는 비슷한 입 모양에서 다른 소리를 낸다. 이와 같이 자음의 경우에는 비슷한 입 모양으로 여러 가지 다른 발음을 내는 특성이 있고 이중모음은 단독으로 쓰이지 못하는 반모음이나 다른 단모음의 결합이다. 따라서, 자음은 같은 입 모양을 갖는 몇 개의 그룹으로 분류하여 하나의 비즘을 대응시키고, 이중모음은 두 개의 단모음에 해당하는 비즘들로 나누어 애니메이션을 생성한다.

표 1은 비슷한 입 모양을 갖는 음소들을 모음과 자음별로 대응하는 비즘으로 구분한 것이고, 표 2는 영어의 자음 및 모음별로 대응하는 비즘으로 구분한 것이 다.

음소 분류			비즘 분류
모음	단모음	ㅏ, ㅐ, ㅓ, ㅔ, ㅗ, ㅜ, ㅡ, ㅣ, ㅚ, ㅟ	ㅏ, ㅐ, ㅓ, ㅔ, ㅗ, ㅜ, ㅡ, ㅣ
모음	이중모음	ㅑ, ㅒ, ㅕ, ㅖ, ㅛ, ㅠ, ㅢ, ㅙ, ㅞ, ㅘ, ㅝ	ㅏ, ㅐ, ㅓ, ㅔ, ㅗ, ㅜ, ㅡ, ㅣ
자음	연구개음	ㄱ, ㄲ, ㅋ, ㅇ	ㄱ
	성문음	ㅎ	ㄱ
	치조음	ㄷ, ㄸ, ㅌ, ㅅ, ㅆ, ㄴ, ㄹ	ㄷ
	경구개음	ㅈ, ㅉ, ㅊ	ㄷ
	양순음	ㅂ, ㅃ, ㅍ, ㅁ	ㅁ

그리고, 도 4는 총 40개의 음소로 이루어진 한국어를 11개의 모음 및 자음 비즘 모델로 구분한 것을 도시한 도면이고, 도 5는 총 41개의 음소로 이루어진 영어를 13개의 모음 및 자음 비즘 모델로 구분한 것을 도시한 도면이다.

이어서, 각 음소 예제 모델에 해당하는 얼굴 예제 모델들을 사용하여 립싱크 애니메이션을 생성하는 방법을 설명한다. 즉, 상술한 음소 예제 모델을 사용하여 입술 동기화 애니메이션을 어떻게 생성하는지에 관해 설명한다.

여기서, 입력으로 주어진 텍스트에 대해서 TTS 시스템이 음소 시퀀스 정보와 음소 길이 정보를 생성하면, 이 음소 시퀀스와 시간 길이에 맞추어 비즘을 배열하고 그 사이를 키프레이밍 애니메이션 방식으로 연결한다.

본 발명에서는 부드러운 립싱크 애니메이션을 생성하기 위해서 Catmull-Rom 스플라인 보간법(spline interpolation)을 사용한다. Catmull-Rom 스플라인은 평면 또는 공간 위에 어떤 정점들의 시퀀스가 주어졌을 때 각 정점과 정점 사이를 3차식으로 정의된 곡선으로 C1 연속성을 갖도록 이어준 곡선의 일종으로, 각 정점에서 미분계수가 그 정점에 이웃하는 다른 두 정점 사이를 잇는 직선의 기울기와 같도록 한 것이다.

도 6은 Catmull-Rom 스플라인 보간법의 한 예를 보여주고 있다. 비즘 모델 p에 대한 정점들의 집합 V^p는 다음과 같이 정의된다.

V^p = {V^p ₁,V^p ₂,...,V^pn}

V^p _i = {x^p _i,y^p _i,z^p _i}

또한, TTS 시스템으로부터 얻은 음소 시퀀스 정보 P와 음소 길이 정보 L은 아래와 같다.

P = {p₁, p₂,...,p_m}

L = {ℓ₁,ℓ₂,...,ℓ₃}

그리고, 음소 길이 정보 L로부터 비즘 모델이 위치해야 하는 시각을 계산한다. 각 비즘 모델은 해당하는 음소를 발음하는 시간의 중간에 위치한다고 가정하면, 비즘 모델 p_j의 시간 축 상의 위치 t_j는 다음과 같이 계산된다.

이렇게 얻어진 음소의 발음 시간 정보 T를 아래와 같이 표시할 수 있다.

T = {t₁, t₂,...t₃}

Catmull-Rom 스플라인 보간법을 사용하여 t_j≤t<t_j ₊₁인 어느 시간 t에서 얼굴 모델의 i번째 정점의 x좌표는 다음과 같이 나타낼 수 있다.

x(t) = at³+bt²+ct+d

여기서, a, b, c, d는 아래의 네 조건으로부터 얻어진다.

여기서, x^p _i는 음소 시퀀스 정보 P에 포함된 비즘 모델 p_j의 i번째 정점의 x좌표이다. 즉, 시간 t _j 에서는 가상 캐릭터의 얼굴이 비즘 모델 p _j 가 되므로, 얼굴 모델의 i번째 정점의 x 좌표

는 비즘 모델 p _j 의 i번째 정점의 x 좌표 x^pji와 같다.

마찬가지로 시간 t _j ₊₁ 에서 얼굴 모델 i번째 정점의 x 좌표

는 비즘 모델 p _j+1 의 i번째 정점의 x 좌표 x^pj ⁺¹ _i와 같다. 또한, Catmull-Rom 스플라인 보간법을 사용하기 때문에 시간 tj에서 xi 의 시간에 대한 순간 변화율

는

x^pj ^-1 _i에서 x^pj+1 _i으로의 시간에 대한 평균 변화율과 같다.

마찬가지로 시간 t _j ₊₁ 에서 x _i 의 시간에 대한 순간 변화율

은 x^pj _i에서 x^pj+2 _i로의 시간에 대한 평균 변화율과 같다. 상술한 같은 네 개의 조건으로부터 네 개의 미지수 a, b, c, d의 값을 결정한다. y 좌표와 z 좌표에 대해서도 같은 방법을 적용한다.

그리고, 아티스트에 의해 제작된 비즘 모델을 아무런 가공 없이 사용하여 애니메이션을 제작하면 입 모양의 움직임이 부드럽지 못하다. 말을 하는 모습은 매우 짧은 시간 간격으로 잦은 움직임이 일어나며 그러한 짧은 시간에 모든 비즘 모델을 거쳐 가도록 애니메이션을 생성하므로 부드럽지 못한 현상이 나타난다. 또한, 실제 사람은 같은 음소에 대해서라도 그 앞뒤 음소의 종류와 발음 시간에 따라 조금씩 다른 입 모양으로 발음을 한다. 가상 캐릭터의 립싱크 애니메이션을 생성할 때에도 이러한 점을 고려하여야 한다.

본 발명에서는 각 음소의 길이에 따라 앞뒤 음소에 대한 입 모양을 고려하여 현재 발음하고 있는 음소에 대한 입 모양을 수정하는 방법을 제안한다.

음성 파일로부터 얻은 얻은 음소 시퀀스 정보 P에 포함된 j번째 비즘 모델 pj에 대한 i번째 정점

의 위치는 아래와 같이 수정된다.

즉, weight의 값이 0과 1사이에서 변함에 따라 수정되는

의 위치는 비즘 모델 pj-1의 i번째 정점으로부터 자기 자신까지 잇는 선분 위의 점이다. 이것은 발음되는 시간이 짧은 음소일수록 weight가 작아지게 하여 대응되는 비즘 모델의 위치까지 도달하지 못하고 다음 발음에 해당하는 비즘 모델의 위치를 향하여 애니메이션이 되도록 하기 위함이다. 여기서 weight는 발음 시간길이에 따라 선형적으로 변한다고 가정할 수도 있지만 부드럽게 보간하기 위하여, 다음과 같은 삼차식으로 정의된 함수에 따라 계산한다.

사람은 입과 그 주위를 움직일 때에 근육에 힘을 주어 움직인다. 이때 움직이는 속도를 관찰해 보면 현재 발음하고 있는 음소의 입 모양에서 다음 발음을 하기 위한 입 모양으로 전환할 때에 움직이는 속도가 처음에는 증가하다 다시 감소한다. 따라서, 입 주위가 처음에는 천천히 변하다 속도가 증가하여 빨리 변하다가 다시 천천히 변하게 된다. 결국, 매우 짧은 시간에 발음해야 하는 음소는 상대적으로 대응되는 비즘 모델까지 도달하지 못하게 되고, 어느 이상 충분한 발음 시간을 갖게 되는 경우에 대응되는 비즘 모델에 도달하게 된다. 이러한 현상을 표현하기 위해 weight를 위에 제시한 함수에 따라 변하도록 근사 시킨다. 음소 시간길이에 따른 weight의 변화를 도7에 나타내었다. 이처럼 음소 시간길이에 따라 비즘 모델을 수정하여 Catmull-Rom 보간법에 의해 입술 동기화 애니메이션을 제작하면 자연스럽고 부드러운 결과를 얻는다.

이어서 립싱크 애니메이션과 감정 애니메이션의 혼합을 설명한다.

사람은 대화할 때 현재 자신의 감정을 얼굴에 표정으로 나타냄과 동시에 말한다. 가상 캐릭터의 립싱크 애니메이션을 제작할 때에도 보다 자연스러워 보이기 위해서는 TTVS 시스템으로부터 생성된 입술 동기화 애니메이션과 감정을 나타내는 표정 애니메이션을 결합하는 방법이 필요하다. 예를 들어, 도 8과 같이 한글의 '아' 또는 영어의 'a'발음을 하고 있는 얼굴 모습과 화난 표정을 결합하여 화난 얼굴에서 한글의 '아' 또는 영어의 'a'발음을 하는 얼굴 모습을 생성할 수 있어야 한다. 얼굴의 각 부분에 따라 발음과 표정에 대한 중요도가 다른 점을 이용하여 입술 동기화 애니메이션에 표정을 결합하는 방법을 제안한다.

먼저, 립싱크 애니메이션 혼합할 표정 예제 모델을 정의하고, 다양한 표정을 만들기 위한 사용자의 편리성을 고려한 감정 입력 인터페이스를 제안한다. 이어서, 립싱크 애니메이션에 감정을 혼합하기 위해서 필요한 중요도 기반 접근 방법을 제안한다.

감정을 나타낸 표정 예제 모델를 제작하는 방법과 립싱크 에니메이션에 표정 예제 모델을 쉽게 적용시킬 수 있는 감정 입력 인터페이스에 대해서 기술한다. 우선 립싱크 애니메이션에 혼합할 표정을 나타내는 대표적인 감정들인 기쁨, 슬픔, 놀람, 두려움, 화남 등에 대한 표정 모델을 미리 준비하고 이들 사이에 블랜딩(blending)을 통하여 다양한 표정들을 생성한다. 여기서, 기쁨, 슬픔 등은 예시적인 감정의 분류에 불과하다. 즉, 표정 애니메이션의 형성은, 캐릭터의 얼굴을 소정 영역으로 구분하고, 입력된 캐릭터 자료에 따라 각각의 구분된 영역을 독립하여 애니메이션하는 것을 특징으로 한다. 이 때, 캐릭터의 얼굴 중 입술은 주로 감정에 관련된 표현을 하므로, 입력된 캐릭터 자료 중 입술에 관련된 자료만으로 표정 애니메이션을 형성할 수 있다.

도 9는 이러한 대표적인 감정에 대한 표정 예제 모델을 나타낸다. 어느 한 시점에서 표정은 기쁨, 슬픔, 놀람, 두려움, 화남등의 감정 상태의 정도에 따라 달라진다. 감정의 상태를 수치화하여 현재의 표정이 무표정한 얼굴로부터 감정의 다른 정도에 따라 해당하는 표정을 나타낼 수 있다. 예를 들어, 각 표정 모델의 감정 수치의 기준을 1로 보았을 때 0.5만큼 기쁘고 0.5만큼 슬픈 얼굴을 생성하려면, 기쁨을 나타내는 표정 모델과 무표정을 나타내는 모델 사이에 각 정점별 변위 차의 절반 크기와 슬픔을 나타내는 표정 모델과 무표정을 나타내는 모델 사이에 각 정점별 변위 차의 절반 크기를 무표정한 얼굴 모델에 더함으로써 그러한 표정을 생성한다. 또한, 그렇게 생성된 표정 모델과 무표정을 나타내는 모델 사이에 각 정점별 변위 차이를 조절함으로써 감정 변화에 따른 표정을 조절할 수 있다.

임의의 표정 e1과 e2에 대해서 두 표정에 대한 감정 정도의 비가 α:(1 α)이고, 무표정 얼굴로부터 감정의 강도가 β인 새로운 표정 모델의 i번째 정점의 위치는 아래와 같이 계산된다.

여기서 V^N _i, V^e1 _i, V^e2 _i는 각각 무표정, 표정 e1, 표정 e2에 해당하는 표정 모델의 i번째 정점의 위치이다.

이어서, 표정을 용이하게 혼합하기 위한 사용자 인터페이스에 관하여 설명한다. 사용자로부터 얻어야 할 입력정보는 각 시간별로 혼합해야 하는 e1과 e2 표정과 감정 정도 α, 그리고 무표정 얼굴로부터 감정의 강도 β이다. 사용자가 이러한 정보들을 매 프레임마다 제공하기는 어렵기 때문에 몇 개의 키 프레임에 대해서만 정보를 얻고 그 사이는 보간에 의해 채워주는 방식을 취한다. 부드러운 애니메이션을 생성하기 위해 C2 연속성을 만족하도록 삼차 스플라인 보간법을 사용한다.

도 9는 표정 애니메이션을 생성하기 위한 인터페이스를 보여준다. 무표정을 의미하는 중앙의 흰 점을 중심으로 반지름의 길이가 1인 원을 5등분하여 기쁨, 슬픔, 놀람, 두려움, 화남의 다섯 가지 표정을 위치시킨다. 즉, 추가할 n표정에 대해서 원을 n등분하여 모든 표정을 원주 위에 위치시킨다. 이 때 원 내부에 한 점은 새로 생성될 얼굴 표정을 의미하며, 새로운 표정 모델의 생성에 필요한 모든 정보가 이 점으로부터 얻어진다.

도 10과 같이 주어진 점이 다섯 개의 부채꼴 중 어느 부채꼴에 위치하는가에 따라 표정 모델 e1과 e2를 결정하고, 중심과 주어진 점을 잇는 직선에 의해서 나누어지는 두 부채꼴의 중심각의 비는 α:(1 -α)를 결정한다. 또한, 주어진 점과 원의 중심과의 거리는 β값을 결정한다. 사용자가 몇 개의 키 프레임에 해당하는 표정 모델을 이 인터페이스를 통해서 찍어주면 삼차 스플라인 보간법을 통해서 커브를 그리고 커브 상에 존재하는 점들의 위치를 이용하여 C2 연속성을 갖는 표정 애니메이션을 생성한다.

이어서, 립싱크 애니메이션에 감정을 혼합하기 위해서 필요한 중요도 기반 접근 방법을 설명한다.

사람이 말을 하고 있지 않을 때에는 이마, 눈, 눈썹, 볼, 입 등 얼굴 전체를 통하여 자신의 감정을 표현한다. 하지만, 말을 하고 있을 때에는 입과 그 주위에 해당하는 얼굴의 아랫부분은 주로 발음을 하기 위해서 사용되고, 이마, 눈, 눈썹과 같은 얼굴의 윗부분이 감정에 대한 표정을 나타내기 위해 사용된다. 따라서, 무표정한 얼굴로 발음을 하고 있는 얼굴 모습과 어떤 감정에 대한 표정을 나타내고 있는 얼굴 모습을 사용하여 표정을 지으면서 발음을 하고 있는 얼굴 모습을 생성하기 위해서는 얼굴의 각 부분에 대하여 발음과 표정에 대한 중요도에 따라 다른 방식으로 합성하여야 한다. 본 절에서는 발음 모델들과 표정 모델들을 분석하여 얼굴 모델의 각 정점에 대한 발음과 표정에 대한 중요도를 정의하는 방법과 이 중요도에 기반하여 발음과 표정이 결합된 새로운 얼굴 모습을 생성하는 방법을 제안한다.

예컨대, 아랫입술이나 턱처럼 얼굴의 다른 부분에 비해 발음을 하기 위해서 움직임이 많은 부분은 발음에 대한 중요도가 높은 부분이다. 또한, 윗입술과 같은 부분은 아랫입술이나 턱에 비해 발음을 하기 위한 움직임은 적지만 발음에 대한 중요도가 높은 부분이다. 따라서, 발음을 하지 않은 얼굴을 기준으로 발음을 하기 위해 그 위치가 크게 변할수록 그 정점의 발음에 대한 중요도는 높아진다. 또한, 발음을 할 때 움직임이 그리 크지 않더라도 움직임이 큰 부분에 가까이 위치한 정점들은 발음에 대한 중요도가 높다. 기쁨, 슬픔, 놀람, 두려움, 화남 등의 감정에 대한 표정에 대해서도 발음에서와 같은 논리를 적용하여 표정에 대한 중요도가 결정된다. 그러나, 입과 그 주위는 발음을 할 때뿐만 아니라 감정을 표현할 때에도 움직임이 많은 부분이다. 이처럼 발음에 대해 많이 움직이는 부분이 표정에 대해서 적게 움직이지는 것은 아니므로 발음과 표정에 대한 움직임을 동시에 관찰하여 중요도를 결정해야 한다.

사람이 말을 하고 있지 않을 때에는 얼굴의 전반에 걸쳐서 자신의 감정을 표현하지만, 말을 하고 있을 때에는 입과 그 주위처럼 발음을 위해 움직이는 부분은 표정에 대한 움직임 보다는 발음에 대한 움직임에 지배를 받는다. 립싱크 애니메이션에 감정을 결합하는 것은 말을 함과 동시에 표정을 나타내는 얼굴 애니메이션을 생성하는 것이므로 얼굴 모델의 각 정점에 대해 발음과 표정에 대한 중요도를 결정함에 있어서 발음에 대한 움직임의 크기를 우선적으로 고려하고 표정에 대한 움직임을 그 크기에 따라 보완하는 방식을 취한다. 발음에 대한 움직임이 큰 부분에 대해서 표정에 대한 움직임이 작은 경우에는 발음에 대한 중요도를 더욱 높이고, 표정에 대한 움직임이 큰 경우에는 중요도를 감소시킨다. 또한, 발음에 대한 움직임이 작은 부분에 대해서 표정에 대한 움직임이 큰 경우는 발음에 대한 중요도를 더욱 낮추고, 표정에 대한 움직임이 작은 경우에는 중요도를 증가시킨다. 이러한 사실을 바탕으로 최종적인 발음에 대한 중요도와 표정에 대한 중요도를 세 단계에 걸쳐서 계산한다. 첫째 단계에서는 움직임의 크기에 따라 중요도를 계산한다. 둘째 단계에서는 앞에서 계산된 중요도가 큰 정점들 주위로 그 중요도를 전파시킨다. 마지막 단계에서는 앞에서 구한 발음과 표정에 대한 중요도를 고려하여 최종적인 중요도를 결정한다.

얼굴 모델의 각 정점 Vi에 대해서 첫째 단계에서 계산되는 발음에 관한 중요도와 표정에 관한 중요도를 각각 일차 발음 중요도 p1 (Vi), 일차 표정 중요도 e1 (Vi)라 한다. 둘째 단계에서 계산되는 중요도는 각각 이차 발음 중요도 p2 (Vi), 이차 표정 중요도 e2 (Vi)라 한다. 마지막 단계에서 계산되는 중요도는 각각 최종 발음 중요도 p3 (Vi), 최종 표정 중요도 e3 (Vi)라 한다. 각 정점 Vi에 대한 일차 발음 중요도와 일차 표정 중요도는 아래와 같다.

얼굴 모델의 i번째 정점의 일차 발음 중요도는 발음을 하고 있지 않은 얼굴 모델의 i번째 정점

에서 각 비즘 모델의 i번째 정점들까지의 거리들 중에 가장 큰 값에 따라 결정된다. 단, 중요도가 0과 1사이의 값을 갖도록 모든 정점에 대해서 가장 큰 값으로 나누어 준다. 일차 표정 중요도에 대해서도 마찬가지 방법으로 계산된다.

각 정점 Vi에 대한 이차 발음 중요도와 이차 표정 중요도는 아래와 같다.

단, Lp 와 Le 는 각각 표정과 감정에 대하여 인접한 점을 결정하기 위한 기준 값(threshold value)이고, S1은 일차 발음 중요도에 대한 기준 값이다. Lp , Le, S1은 사용자가 지정한다. 결국 각 정점에는 근처의 일차 발음 중요도가 주어진 기준값 S1보다 높은 정점들의 가장 큰 중요도가 그 정점에 이차 발음 중요도로 할당되고, 그렇지 않으면 일차 발음 중요도를 그대로 유지한다. 각 정점에 대한 이차 발음 중요도에 대해서도 마찬가지 방법으로 계산된다. 이차 발음 중요도와 이차 표정 중요도를 고려하여 최종적인 발음과 표정에 대한 중요도는 아래와 같이 정의한다.

단, S2는 이차 발음 중요도에 대한 기준 값으로 사용자가 지정한다. 이렇게 정의한 이유는 이차 발음 중요도가 높은 정점에 대해서는 이차 표정 중요도가 낮을수록 최종 발음 중요도를 더욱 높이고, 이차 발음 중요도가 낮은 정점에 대해서는 이차 표정 중요도가 높을수록 최종 표정 중요도를 더욱 높이기 위함이다.

도 11에서는 1차, 2차, 그리고 최종 발음 중요도와 표정 중요도에 대해 보여준다. 밝게 보일수록 중요도가 높음을 의미한다. 립싱크 애니메이션과 감정을 표현하는 표정을 결합하기 위해서, 최종 표정 중요도와 최종 발음 중요도를 고려하여 얼굴 모델의 각 정점들의 최종 위치를 결정한다. 발음에 대하여 중요도가 큰 정점은 발음에 관한 움직임을 최대한 유지하면서 표정에 관한 움직임에 대해서도 반응해야 한다. 마찬가지로 발음에 대하여 중요도가 작은 정점은 표정에 대하여 중요도가 크기 때문에 표정에 관한 움직임을 최대한 유지하면서 발음에 관한 움직임에 대해서도 반응해야 한다.

입술 동기화 애니메이션으로부터 얻어진 얼굴의 i번째 정점

의 위치와 표정 애니메이션으로부터 얻어진 얼굴의 i번째 정점

의 위치, 그리고 i번째 정점의 최종 발음 중요도 p3(Vi)에 따라 발음과 표정이 결합된 얼굴의 i번째 정점 Vi의 위치가 결정된다. 무표정 모델의 i번째 정점

을 기준으로

의 위치를 나타내는 벡터

와

의 위치를 나타내는 벡터

는 공간 상에 한 평면을 결정한다. 따라서, i번째 정점의 최종위치

은 그 평면 위에 존재해야 한다.

또한, 발음에 대한 중요도가 높은 경우에는

의 위치를 중요도의 크기에 따라 유지하도록 하여 발음에 대한 모습이 나타나게 하며

의 크기와 방향을 고려하여 도 12와 같이 표정에 대한 모습도 고려할 수 있다. 벡터 의 에 대한 수직성분과 평행성분을 각각 proj_p _⊥E 와 proj_p _∥E라고 하면,

의

에 대한 평행성분 proj_p _∥E가

에 영향을 주게 되면 그 정점이 발음을 하기 위해 이동하는 방향으로의 크기가 달라지기 때문에 발음 모습을 깨뜨리게 된다. 따라서,

와

의

에 대한 수직성분 proj_p _⊥E만을 고려하여 최종위치

을 결정한다. 발음에 대한 중요도가 낮고 표정 중요도가 높은 경우에는 반대로 적용하여 최종위치를 결정한다. 이상을 정리하면 얼굴 모델의 각 정점 Vi의 최종위치는 아래와 같다.

여기서,

이다. 결과적으로 발음에 관한 중요도가 큰 정점은 표정에 관한 움직임의 발음에 관한 움직임에 대한 수직성분의 방향으로 중요도의 크기에 따라 이동하여 발음에 관한 움직임을 최대한 반영하며 표정에 대한 움직임도 살린다. 발음에 관한 중요도가 작은 경우에도 그에 상응하는 효과를 얻는다.

상술한 캐릭터 형성을 위하여, 도 13에 도시된 바와 같이 입력부(100)와 립싱크 애니메이션 형성부(110) 및 표정 애니메이션 형성부(120)가 구비되는 것을 바람직하다. 그리고, 립싱크 애니메이션과 표정 애니메이션을 동기화부(130)가 필요할 것이며, 각각의 기능은 상술한 바와 같다. 또한, 캐릭터 자료는 육성 녹음일 수도 있으나, TTS 시스템에 의하여 형성된 음성 자료일 수도 있다.

본 발명은 상술한 실시예에 한정되지 않으며, 첨부된 청구범위에서 알 수 있는 바와 같이 본 발명이 속한 분야의 통상의 지식을 가진 자에 의해 변형이 가능하도 이러한 변형은 본 발명의 범위에 속한다.

상술한 본 발명에 따른 캐릭터 형성방법 및 장치의 효과를 설명하면 다음과 같다.

첫째, 입력 음소 정보를 기존의 TTS시스템이나 음성 파일로부터 얻어서 캐릭터의 감정을 나타낸 립싱크 애니메이션을 실시간으로 생성할 수 있고, 표정 파라미터를 생성하는 사용자 입력 감정 인터페이스에 따라 시간에 따라 연속적으로 변하는 감정을 나타낼 수 있다.

둘째, 아티스트에 의해 제작된 비즘 모델들을 해당 음소 정보에 따라 배열하고, Catmull-Rom 스플라인 보간법을 통해 발음 길이에 따라 비즘 모델의 상대적인 위치를 조절하여, 보다 자연스럽고 부드러운 립싱크 애니메이션을 형성할 수 있다.

셋째, 각종 감정에 대한 표정 모델을 중요도 기반 접근 방법으로 립싱크 애니메이션에 혼합하여 사실적인 감정 표정을 나타내는 립싱크 애니메이션을 제작할 수 있다.

넷째, 본 발명에 따른 애니메이션 제작 프로세스는 자동화되어 있기 때문에, 얼굴 애니메이션을 제작하는 데 소모되는 사용자의 수작업을 최소화하고 음성과의 정확성, 애니메이션의 자연스러움과 실시간성 등을 최대화할 수 있다.

Claims

캐릭터 자료를 입력받는 단계;

캐릭터의 얼굴 모델을 발음에 주로 사용되는 부분과 표정을 나타냄에 주로 사용하는 부분으로 구분하고, 상기 발음에 주로 사용되는 부분을 애니메이션하여 캐릭터의 립싱크 애니메이션을 형성하는 단계; 및

상기 표정을 나타냄에 주로 사용되는 부분을 애니메이션하여 상기 립싱크 애니메이션이 형성된 캐릭터에 표정 애니메이션을 형성하는 단계

를 포함하여 이루어지는 것을 특징으로 하는 캐릭터 형성방법.
제 1 항에 있어서,

상기 캐릭터 자료는, 상기 캐릭터의 음성 정보와 표정 정보를 포함하여 이루어지는 것을 특징으로 하는 캐릭터 형성방법.
제 1 항에 있어서,

상기 캐릭터 자료는, 스크립트 텍스트의 형태로 입력되는 것을 특징으로 하는 캐릭터 형성방법.
제 3 항에 있어서,

상기 스크립트 텍스트 형태의 캐릭터 자료는, 녹음된 육성 또는 TTS 시스템에 의하여 합성된 것을 특징으로 하는 캐릭터 형성방법.
제 1 항에 있어서,

상기 캐릭터에 형성된 립싱크 애니메이션과 표정 애니메이션을 동기화시키는 단계를 더 포함하는 캐릭터 형성방법.
제 1 항에 있어서,

상기 립싱크 애니메이션을 형성하는 단계는, 상기 캐릭터 자료에 따라 캐릭터의 음소 시퀀스 및 음소의 길이를 설정하여 이루어지는 것을 특징으로 하는 캐릭터 형성방법.
제 6 항에 있어서,

상기 설정된 음소 시퀀스에 대하여 캐릭터의 입 모양을 키프레임으로 가정하고, 상기 각각의 키프레임 사이를 키프레이밍 애니메이션 기법으로 처리하는 것을 특징으로 하는 캐릭터 형성방법.
제 2 항에 있어서,

상기 음성 정보를, 상기 캐릭터의 입모양이 유사한 각각의 그룹으로 나누고,

동일한 그룹 내의 음성 정보가 입력되면, 상기 캐릭터의 립싱크 애니메이션을 동일하게 형성하는 것을 특징으로 하는 캐릭터 형성방법.
제 8 항에 있어서,

상기 음성 정보는 한국어로 이루어지고,

상기 립싱크 애니메이션을 형성하는 단계는, 총 40개의 음소로 이루어진 한국어를 11개의 모음 및 자음 비즘 모델로 구분하는 것을 특징으로 하는 캐릭터 형성방법.
제 8 항에 있어서,

상기 음성 정보는 영어로 이루어지고,

상기 립싱크 애니메이션을 형성하는 단계는, 총 41개의 음소로 이루어진 영어를 13개의 모음 및 자음 비즘 모델로 구분하는 것을 특징으로 하는 캐릭터 형성방법.
제 1 항에 있어서, 상기 립싱크 애니메이션의 형성은,

Catmull-Rom 스플라인 보간법으로 이루어지는 것을 특징으로 하는 캐릭터 형성방법.
삭제
삭제
제 1 항에 있어서, 상기 표정 애니메이션은,

감정을 나타내는 표정 예제 모델 및 무표정 모델을 각각 제작하고, 상기 표정 예제 모델과 무표정 모델을 혼합하여, 감정변화를 캐릭터의 표정으로 나타내는 것을 특징으로 하는 캐릭터 형성방법.
제 1 항에 있어서,

상기 립싱크 애니메이션 및 표정 애니메이션을 형성하는 단계는, 중요도 기반 접근 방법에 의하여 실행되는 것을 특징으로 하는 캐릭터 형성방법.
제 15 항에 있어서, 상기 중요도 기반 접근 방법은,

상기 캐릭터의 마스크의 각 지점에 대한 발음 및 표정의 중요도에 따라, 상기 각 지점에 대하여 립싱크 애니메이션과 표정 애니메이션 중 하나를 실행하는 것을 특징으로 하는 캐릭터 형성방법.
제 1 항에 있어서, 상기 표정 애니메이션의 형성은,

상기 캐릭터의 얼굴을 이마, 눈, 눈썹, 코 및 볼로 구분하고, 상기 입력된 캐릭터 자료에 따라 각각의 이마, 눈, 눈썹, 코 및 볼을 독립하여 애니메이션하는 것을 특징으로 하는 캐릭터 형성방법.
제 17 항에 있어서,

상기 캐릭터의 얼굴 중 입술은, 상기 입력된 캐릭터 자료 중 입술에 관련된 자료에 따라 애니메이션되는 것을 특징으로 하는 캐릭터 형성방법.
제 1 항에 있어서,

상기 캐릭터 자료는 상기 캐릭터의 감정을 기쁨, 놀람, 슬픔, 두려움 및 화남 중 어느 하나로 구분하고,

상기 캐릭터 표정 에니메이션은 상기 구분된 캐릭터의 감정에 따라 에니메이션되는 것을 특징으로 하는 캐릭터 형성방법.
캐릭터 자료를 입력하는 입력부;

캐릭터의 얼굴 모델을 발음에 주로 사용되는 부분과 표정을 나타냄에 주로 사용하는 부분으로 구분하고, 상기 발음에 주로 사용되는 부분을 애니메이션하여 립싱크 애니메이션을 형성하는 립싱크 애니메이션 형성부; 및

상기 표정을 나타냄에 주로 사용되는 부분을 애니메이션하여 상기 립싱크 애니메이션이 형성된 캐릭터에 표정 애니메이션을 형성하는 표정 애니메이션 형성부를 포함하여 이루어지는 것을 특징으로 하는 캐릭터 형성장치.
제 20 항에 있어서,

상기 캐릭터에 형성된 립싱크 애니메이션과 표정 애니메이션을 동기화시키는 동기화부를 더 포함하는 캐릭터 형성장치.
제 20 항에 있어서,

상기 입력부는 TTS 시스템이고, 상기 캐릭터 자료는 음성 자료인 것을 특징으로 하는 캐릭터 형성장치.