KR20080018408A

KR20080018408A - 음성 사운드 소스를 이용한 얼굴 표정 변화 프로그램을기록한 컴퓨터에서 읽을 수 있는 기록매체

Info

Publication number: KR20080018408A
Application number: KR1020060080465A
Authority: KR
Inventors: 김익태; 김재현
Original assignee: 한국문화콘텐츠진흥원
Priority date: 2006-08-24
Filing date: 2006-08-24
Publication date: 2008-02-28

Abstract

본 발명은 음성 사운드 소스를 이용한 얼굴 표정 변화 프로그램을 기록한 컴퓨터에서 읽을 수 있는 기록매체에 관한 것이다.

본 발명은 음성 사운드 소스에 따른 애니메이션을 제공하는 프로그램에 있어서, (a) 입력 장치로부터 한국어 음성 정보 또는 한국어 텍스트 정보를 입력받아 한국어 음성 데이터를 생성하는 인풋 인터페이스(Input Interface); (b) 한국어 음성 데이터를 음소 분할하여 음소 분할 데이터를 생성하는 KAS 엔진(Korean Auto Segmentation Engine); (c) 음소 분할 데이터에서 동기화 정보를 추출하여 입술 애니메이션 키 데이터를 생성하고, 3D 애니메이션 데이터에 적용하는 립싱크 3D 엔진(Lipsync3D Engine); (d) 3D 애니메이션 데이터를 출력하는 아웃풋 인터페이스(Output Interface); 및 (e) 인풋 인터페이스, KAS 엔진, 립싱크 3D 엔진, 아웃풋 인터페이스 간의 각종 데이터를 중계하는 립싱크 3D 모듈 레이어(Lipsync3D Module Layer)를 포함하는 것을 특징으로 하는 음성 사운드 소스를 이용한 얼굴 표정 변화 프로그램을 기록한 컴퓨터에서 읽을 수 있는 기록매체를 제공한다.

본 발명에 의하면, 애니메이터 및 일반 사용자들이 손쉽게 시간대비 높은 퀄리티의 립싱크 애니메이션 데이터를 얻을 수 있어 다량의 얼굴관련 애니메이션 컨텐츠를 손쉽게 제작할 수 있는 효과가 있다.

음성 사운드, 얼굴 표정, 소스, 표정 변화, 동기화, 음소 분할

Description

음성 사운드 소스를 이용한 얼굴 표정 변화 프로그램을 기록한 컴퓨터에서 읽을 수 있는 기록매체{Computer-Readable Recording Medium with Facial Expression Program by Using Phonetic Sound Libraries}

도 1은 일반적인 음성인식 시스템의 구성을 개략적으로 나타내기 위한 블럭 구성도,

도 2는 본 발명의 바람직한 실시예에 따른 음소 경계 검출을 나타내기 위한 순서도,

도 3은 본 발명의 바람직한 실시예에 따른 입 모양 대체 순위를 나타낸 도표,

도 4는 본 발명의 바람직한 실시예에 따른 립싱크시 문장의 변화를 나타내기 위한 블럭 구성도,

도 5는 본 발명의 바람직한 실시예에 따른 음성 인식을 개략적으로 나타내기 위한 블럭 구성도,

도 6은 본 발명의 바람직한 실시예에 따른 폴리곤 캐릭터 얼굴 모델링을 나타낸 예시도,

도 7은 본 발명의 바람직한 실시예에 따른 한국어 발음 기호를 단순화시킨 후 립싱크하는 3D 얼굴 모델링의 예시도,

도 8은 본 발명의 바람직한 실시예에 따른 테스트용 립싱크 애니메이션의 순서도, 선형 보간법을 이용한 2D 립싱크 애니메이션의 예시도 및 라인 마우스 객체와 3D 객체발음 모형의 예시도,

도 9는 본 발명의 바람직한 실시예에 따른 3D 립싱크 애니메이션 시스템의 구조도,

도 10은 본 발명의 바람직한 실시예에 따른 한국어 기반의 3D 립싱크 애니메이션을 설명하기 위한 순서도,

도 11은 본 발명의 바람직한 실시예에 따른 3D 립싱크 애니메이션의 랜더링을 설명하기 위한 순서도,

도 12는 본 발명의 바람직한 실시예에 따른 한국어 립싱크 애니메이션 프로그램의 계층도 및 한국어 립싱크 애니메이션 프로그램의 실행화면 예시도이다.

< 도면의 주요 부분에 대한 부호의 설명 >

110: 음성 분석 120: 패턴 인식

130: 언어 처리 810: 셋 마우스 모션 함수

820: 칼크 모션 함수 830: 셋 립싱크 버퍼 함수

840: 온타이머 함수 910: 인풋 디바이스

920: 하드웨어 930: 립싱크 애플리케이션 프로그램

1210: 인풋 인터페이스 1220: KAS 엔진

1230: 립싱크 3D 엔진 1240: 아웃풋 인터페이스

1250: 립싱크 3D 모듈 레이어

본 발명은 음성 사운드 소스를 이용한 얼굴 표정 변화 프로그램을 기록한 컴퓨터에서 읽을 수 있는 기록매체에 관한 것이다. 더욱 상세하게는 한국어 발화의 음성 데이터 또는 발화된 음성 데이터의 텍스트 정보를 이용하여 음소 분할을 하고, 동기화 정보를 추출하여 입술 애니메이션 키 데이터를 생성하고, 이를 3D 애니메이션 데이터에 적용하는 한국어 립싱크 애니메이션 프로그램을 기록한 컴퓨터에서 읽을 수 있는 기록매체에 관한 것이다.

종래의 얼굴 애니메이션 연구의 주된 방향은 감정과 입술 움직임 등을 처리하기 위한 효율적인 방법을 찾는 것이었다. 지금까지 국내외에서 얼굴 표정 동작에 대한 연구는 많이 행해져 왔으나 아직 3D 게임이나 애니메이션에 등장하는 캐릭터가 자연스러운 얼굴 표정을 연출하고 있다고 보기 힘들다. 그럼에도, 불구하고 얼굴 모델링과 애니메이션은 사실 최근에 비약적으로 발전했다.

3차원 애니메이션 제작을 위한 컴퓨터 그래픽 기술은 현재 세계적으로 성장, 발전기에 있으며, 표현 범위의 확대 및 고품질화, 제작 기간 단축 및 제작비 절감을 위한 성능 향상과 사용자 편의를 위한 인터페이스의 개선 등에 대한 연구가 진행되고 있다.

또한, 현재 음성인식이나 화자 인증 기술은 세계적으로 꾸준히 발전되어 제한적인 환경에서 매우 만족스러운 성능을 나타내고 있다. 이러한 기술에서 음식인 식이나 화자 인증시스템 성능을 향상시키기 위해 연속되는 음성에서 음소의 명확한 경계를 추출하는 것이 핵심기술이다. 애니메이션에 등장하는 캐릭터의 자연스러운 얼굴 표정 연출에서 가장 고려하여야 할 점은 음성 신호와 입술 움직임의 동기화이다.

애니메이션을 제작하는 경우 우선 성우가 대사 부분을 녹음하고 이에 맞추어 캐릭터 애니메이션을 제작하는 방식으로 이루어지므로, 종래의 텍스트 기반 입 모양 동기화 및 표정 애니메이션 방법을 실제 제작현장에서 사용하기 어려운 점이 있어, 최근에는 성우가 녹음한 음성 데이터로부터 바로 음소를 추출하여 애니메이션을 생성하는 기술이 연구되고 있었다.

하지만, 지금까지 얼굴 표정 및 얼굴 부분의 움직임 자체에 대한 연구는 의학, 미술 등을 비롯하여 많이 이루어졌지만 실제로 사용되고 있는 3차원 얼굴 모델들은 주로 애니메이터에 의해 수작업으로 프레임별로 직접 그려내거나, 3차원 소프트웨어를 이용하여 애니메이션을 수행하더라도 작업시간 대비 퀄리티가 떨어진다는 단점이 있었다. 또한, 종래의 립싱크 애니메이션 시스템은 영어를 기준으로 음소 분할하기 때문에 한국어를 매칭시키는 경우 부자연스럽다는 단점이 있었다.

전술한 문제점을 해결하기 위해 본 발명은, 한국어 발화의 음성 데이터 또는 발화된 음성 데이터의 텍스트 정보를 이용하여 음소 분할을 하고, 동기화 정보를 추출하여 입술 애니메이션 키 데이터를 생성하고, 이를 3D 애니메이션 데이터에 적용하는 한국어 립싱크 애니메이션 프로그램을 기록한 컴퓨터에서 읽을 수 있는 기 록매체를 제공하는 데 그 목적이 있다.

전술한 목적을 달성하기 위해 본 발명은, 음성 사운드 소스에 따른 애니메이션을 제공하는 프로그램에 있어서, (a) 입력 장치로부터 한국어 음성 정보 또는 한국어 텍스트 정보를 입력받아 한국어 음성 데이터를 생성하는 인풋 인터페이스(Input Interface); (b) 한국어 음성 데이터를 음소 분할하여 음소 분할 데이터를 생성하는 KAS 엔진(Korean Auto Segmentation Engine); (c) 음소 분할 데이터에서 동기화 정보를 추출하여 입술 애니메이션 키 데이터를 생성하고, 3D 애니메이션 데이터에 적용하는 립싱크 3D 엔진(Lipsync3D Engine); (d) 3D 애니메이션 데이터를 출력하는 아웃풋 인터페이스(Output Interface); 및 (e) 인풋 인터페이스, KAS 엔진, 립싱크 3D 엔진, 아웃풋 인터페이스 간의 각종 데이터를 중계하는 립싱크 3D 모듈 레이어(Lipsync3D Module Layer)를 포함하는 것을 특징으로 하는 음성 사운드 소스를 이용한 얼굴 표정 변화 프로그램을 기록한 컴퓨터에서 읽을 수 있는 기록매체를 제공한다.

이하, 본 발명의 바람직한 실시예를 첨부된 도면들을 참조하여 상세히 설명한다. 우선 각 도면의 구성요소들에 참조부호를 부가함에 있어서, 동일한 구성요소들에 대해서는 비록 다른 도면상에 표시되더라도 가능한 한 동일한 부호를 가지도록 하고 있음에 유의해야 한다. 또한, 본 발명을 설명함에 있어, 관련된 공지 구성 또는 기능에 대한 구체적인 설명이 본 발명의 요지를 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명은 생략한다.

도 1은 일반적인 음성인식 시스템의 구성을 개략적으로 나타내기 위한 블럭 구성도이다. 일반적인 음성인식 시스템은 크게 음성 분석(110) 단계와 패턴 인식 단계(120) 및 언어 처리(130) 단계로 구분할 수 있다. 음성 분석(110) 단계는 사용자가 발성한 음성으로부터 인식에 필요한 특징 벡터를 추출하고, 패턴 인식(120) 단계에서 음성 데이터베이스로부터 훈련한 기준 패턴과의 비교를 통해서 인식 결과를 산출한다. 보다 복잡한 구조의 음성을 인식하는 경우에는 언어모델을 이용한 언어 처리 과정을 이용하여 최종 인식 결과를 출력한다.

도 2a는 본 발명의 바람직한 실시예에 따른 음성학적 정보를 사용한 HMM(Hidden Markov Model) 모델을 이용한 음성 분할 방식의 순서도이다. 각 단계를 살펴보면, 텍스트를 발음변환 프로그램을 이용하여 발음 열 형태로 전환한 후, 발음 열 형태를 HMM 모델에서 사용되는 특징 파라미터를 추출하여 일정한 특징 벡터열로 저장 후 입력된 음소 표기와 특징 파라미터를 기반으로 훈련된 음소기반 HMM 모델에서 비터비(Viterbi)탐색 및 정렬을 이용하여 자동으로 음소단위 경계 검출을 한다.

도 2b는 HMM 모델을 생성하기 위해 플랫 스타트(Flat Start)방식과 부트스트랩(Bootstrap) 방식을 모두 이용하여 처리하는 방법을 나타낸 순서도이다.

도 2b의 1 단계는 HMM 모델을 생성하기 위해 플랫 스타트 방식을 이용한 순서도로서, 음성데이터 파일과 시간정보가 없는 음소기반의 전사 파일을 입력으로 음성데이터의 전체 평균과 분산을 계산하여 HMM 초기 프로토타입 모델을 생성한 후 각 음소의 HMM 모델로 확장하고, 각 음소 모델에 대해 파라미터 재측정 단계를 거 쳐 각 음소에 대한 1차 HMM 모델을 생성한다. 이렇게 생성된 모델을 기반으로 비터비 디코딩 고정을 수행하여 음소 정렬과 시간정보 추출과정을 거쳐 음성 데이터 파일의 시간정보를 포함한 전사정보를 산출한다.

도 2b의 2 단계는 본 발명의 바람직한 실시예에 따른 HMM 모델을 생성하기 위해 부트스트랩 방식을 이용한 순서도로서, 앞에서 산출한 시간정보를 포함한 전사파일과 음성 데이터 파일을 입력으로, 음소의 시간 정보를 이용하여 분할 후 각 음소에 대하여 평균과 분산을 산출하고, 파라미터 값의 초기 셋을 계산하며, 비터비 정렬을 통하여 세그먼테이션한다. 이렇게 초기 생성된 모델을 각 파라미터에 대해 재측정 과정을 거치며 각 음소에 대한 HMM 최종 모델을 생성하게 된다. 최종 생성된 모델을 기반으로 비터비 디코딩 과정을 통해 최종 음성 세그먼테이션 정보를 얻는다.

본 발명의 바람직한 실시예에 따른 음절에 따른 입모양을 분류하기 위해서는 대표적인 음절에 대해서만 입 모양을 정하여, 이 입 모양의 결합으로 모든 음절의 입 모양으로 나타내는 것으로 구현한다. 이로 인해, 비교적 적은 수의 입 모양의 변형 규칙을 정하여도 립싱크 애니메이션이 가능하도록 한다.

표 1은 본 발명의 바람직한 실시예에 따른 입모양에 따른 자음의 분류이다.

음절에 따른 입 모양 패턴은 대부분 모음에 의존하지만, 입술소리(ㅁ, ㅂ, ㅃ, ㅍ)와 조합되는 경우에는 발음 초기의 입 모양과 다르다. 또한, 입술소리의 받침이 오는 경우 역시 발음의 마지막 순간의 입 모양이 닫힌 입 모양으로 변하게 된다.

그러나 립싱크에서는 모든 조음 부위별 자음의 분류가 반드시 필요한 것은 아니다. 예를 들면 자음이 모음 'ㅏ'와 결합할 경우에 '다', '가' 등과 같이 입술소리를 제외한 다른 소리와 결합할 때에는 립싱크를 할 때 입 모양의 시작위치가 거의 동일하지만, '바', '파' 등과 같이 입술소리와 결합할 때에는 닫힌 입 모양에서 발음이 시작된다. 따라서 음절에서 자음의 영향을 받아 표현되는 입 모양은 입술소리와 그 외의 소리에 의한 2개의 입 모양으로 분류할 수 있다.

표 2는 본 발명의 바람직한 실시예에 따른 7 모음 체계이다.

자음은 발음 초기와 발음을 마칠 때 영향을 미치지만 입 모양 패턴을 지배하는 것은 모음이므로 모음에 대한 입 모양의 표 2와 같이 분류한다. 모음은 중모음과 단모음으로 구분할 수 있으며, 입 모양 패턴의 분류는 입 모양이 가로와 세로의 벌어진 형태에 의한 분류이므로 애니메이션의 입장에서는 단순모음과 이중모음으로 분류한다.

한편, 국어가 몇 개의 단순모음으로 구성되어 있는가에 대해서는 사실 학자들이 일치된 견해를 보이고 있지 않다. 10 모음 체계에서부터 7 모음 체계까지 현대 국어의 모음체계를 설정하고 있는 형편이다. 표준어 발음법에서도 ‘ㅟ’와 ‘ㅚ’를 이중모음으로 발음할 수도 있다고 하였는데 이것은 단순모음을 8개로 볼 수도 있다는 것을 뜻하기 때문이다.

본 발명에서는 보다 자연스러운 립싱크를 위하여 ‘ㅚ’, ‘ㅟ’, ‘ㅢ’를 모두 이중모음으로 보는 7 모음 체계를 따라 표 2와 같이 프로그램을 설정한다.

표 3은 입 모양 패턴에 따른 모음의 분류이다.

표 3에서 ‘ㅐ', ’ㅔ'와 같은 이중모음이라고 하더라도 입 모양이 일관되게 유지되는 모음은 단순 모음으로 분류한다. 또한, 각 모음에 대한 입 모양 패턴을 살펴보면, 단순모음은 입술의 가로와 세로로 벌어진 정도에 따라 각각 표현되고, 이에 반해 이중모음의 입 모양 패턴은 단순모음의 입 모양 패턴이 조합한 것으로 나타난다. 예를 들면, ‘ㅘ'의 입 모양은 ’ㅗ‘와 ’ㅏ‘의 입 모양 패턴의 결합이다.

또한, 자음과 모음에 속하지는 않지만, 입 모양 분류의 관점에서 볼 때, 묵음에 대한 고려 또한 필요하다. 묵음은 입술소리와 조합되는 발음에서도 발음 초기 또는 발음의 마지막에도 사용되는 입 모양으로 발음하지 않은 상태로 무표정의 얼굴을 묵음으로 간주한다.

표 4는 본 발명의 바람직한 실시예에 따른 정의된 자음 음소 기호이다.

표 4는 표준어의 자음 19개(‘ㄱ, ㄴ, ㄷ, ㄹ, ㅁ, ㅂ, ㅅ, ㅇ, ㅈ, ㅊ, ㅋ, ㅌ, ㅍ, ㅎ, ㄲ, ㄸ, ㅃ, ㅆ, ㅉ’) 가운데 ‘ㄱ, ㄷ, ㅂ, ㅈ, ㅎ’는 모음 사이에서 유성음화로 분류하여 설정한다. 무성음과 유성음은 성대의 떨림 유무에 의해 발음이 차이가 나므로 이를 반영하기 위해 유성화된 ‘ㄱ, ㄷ, ㅂ, ㅈ, ㅎ’을 추가한다. 또한, ‘ㄱ, ㄷ, ㅂ’은 음절 말(즉, 종성)의 위치에서 폐로부터의 공기가 어느 지점에서 터지지 않는 특성이 있으므로, 이를 반영하기 위해서 받침에 오는 ‘ㄱ, ㄷ, ㅂ’을 추가하고 환경에 따라 다른 소리가 되는 ‘ㄹ’의 특징을 반영하여 설전음인 ‘ㄹ’과 설측음인 ‘ㄹ’ 두 가지로 구분한다. 마지막으로 ‘위’ 앞에서 원순화되는 ‘ㅅ’을 반영하여 ‘(위)앞 ㅅ’을 추가하였다. 이리하여 자음의 개수는 총 29개이다.

표 5는 정의된 모음 음소 기호이다.

표 5는 표준어 모음은 21개(ㅏ, ㅑ, ㅓ, ㅕ, ㅗ, ㅛ, ㅜ, ㅠ, ㅡ, ㅣ, ㅐ, ㅒ, ㅔ, ㅖ, ㅘ, ㅙ, ㅚ, ㅝ, ㅞ, ㅟ, ㅢ)로 분류하여 설정한다. 그러나 립싱크 애니메이션 시스템을 개발하기 위해서는 다음과 같이 모음 목록의 조정이 필요하다. 첫 번째로 ’ㅔ/ㅐ‘의 구분이 모호해져 가는 추세에 따라 두 모음을 ’ㅔ‘로 묶었다. 두 번째는 첫 번째 경우와 같은 이유로 ’ㅖ/ㅒ‘를 ’ㅖ‘로 묶었다. 세 번째 역시 발음의 구분이 모호해지는 ’ㅞ/ㅙ/ㅚ‘를 ’ㅞ‘로 묶었다. 이렇게 하여 조정된 모음의 개수는 17개이다.

립싱크 애니메이션에서는 발음을 시작할 때와 끝날 때의 입 모양의 변화, 입술을 둥글게 오므리는지의 여부, 그리고 아래턱을 내리는 정도를 이용하여 입 모양의 변화를 보여줄 수 있다.

표 6은 모음의 포먼트 주파수 측정 결과이다.

모음을 발음할 때 성도(Vocal Tract)의 모양은 화자의 혀 위치나 입술 모양과 같은 조음기관의 활동에 따라 변한다. 이처럼 성도 모양이 변하므로 서로 구별되는 모음이 형성되는데, 각 모음의 조음활동은 바로 음향적 특성인 음성 스펙트로그램으로 표출된다. 그러므로 스펙트로그램의 포먼트(Formant) 주파수를 측정하여 분석하면 상응하는 조음 활동을 추정할 수 있다. 그러므로 이러한 실험을 통하여 화자별 모음의 특성을 밝히는 것이 가능하다.

이론적으로 포먼트 주파수는 무한하지만, 모음에서 중요한 것은 첫 두 개의 공명 주파수인 제 1 포먼트(F1), 제 2 포먼트(F2)이다. 제 1 포먼트 주파수는 협착이 성도의 전반부에서 이루어지면 이루어질수록 낮아지고, 후반부에서 이루어지면 이루어질수록 높아진다. 그러므로 혀의 앞부분이 올라가서 협착이 경구개 쪽에서 이루어지는 전설 모음의 경우나, 입술 쪽에서도 협착이 일어나는 원순 모음의 경우는 제 1 포먼트가 낮다. 한편, 혀의 앞부분은 내려가고 혀의 뒷부분이 뒤로 빠지면서 인두벽에 가까워져서 협착이 뒤쪽인 인두 쪽에서 일어나는 평순 후설 모음의 경우는 제 1 포먼트가 높다.

제 2 포먼트 주파수는 성문 쪽과 경구개 쪽 가까이에서 협착이 일어날수록 높아지고, 반대로 입술이나 연구개 쪽 가까이에서 협착이 일어날수록 낮아진다. 따라서 입술 쪽과 연구개 쪽에서 협착이 동시에 일어나는 원순 후설 모음의 경우 제 2 포먼트가 낮고, 경구개 부위에서 협착이 일어나는 전설 모음의 경우는 제 2 포먼트가 높다. 여기서, 제 1 포먼트는 모음의 개구도와 관련이 있으며, 저모음일수록 제 1 포먼트가 높고, 고모음일수록 제 1 포먼트가 낮다. 즉, 제 1 포먼트는 입술의 상하 개폐와 관련이 있다. 제 2 포먼트는 모음의 전후설과 관련이 있으며, 전설모음일수록 제 2 포먼트가 높고, 후설모음일수록 제 2 포먼트가 낮다. 즉, 입술의 좌우 개폐와 관련이 있다.

도 3은 본 발명의 바람직한 실시예에 따른 입 모양 대체 순위를 나타낸 도표이다.

본 발명의 바람직한 실시예에 따라 입 모양 대체 순위를 결정하여 자연스러운 립싱크 표현을 위하여 본 발명의 음성인식 부분에서 필요로 하는 입력은 립싱크를 하려는 음성을 포함하고 있는 웨이브 파일과 인식도를 높이기 위하여 음성파일이다. 이에 따른 출력은 발음되는 한국어 음절의 발음 시작시간, 끝 시간, 초성과 종성으로 입술소리가 오는지의 여부, 해당 발음의 음소 기호, 에너지로 나눌 수 있다. 이때 해당 발음의 음소 기호는 립싱크에 영향을 미친다고 판단되는 모음 발음 17개를 의미하는데 유저가 만들어 등록하는 3ds 얼굴모델 파일과 연결된다.

가장 자연스러운 립싱크 표현을 위해서는 물론 17개 모음과 무표정의 묵음발음의 입모양 등 18개의 얼굴 모양을 모두 모델링 하겠으나, 유저의 입장에서는 경우에 따라 일부의 오브젝트만으로 립싱크할 수 있도록 프로그램을 설계하는 것이 필요하다. 즉, 모델링 되지 않은 발음이 있을 경우, 나머지 오브젝트를 이용하여 최대한 자연스러운 립싱크가 이루어지도록, 본 발명의 바람직한 실시예에 따른 한국어 립싱크 애니메이션 프로그램에서는 유저가 설정하지 않은 오브젝트의 경우 대체 ID를 정하여 이미 설정된 오브젝트로 대체하도록 한다. 단, 3D 모델링의 발음은 ‘ㅏ, ㅔ, ㅣ, ㅗ, ㅜ, ㅡ, ㅓ'와 묵음인 디폴트(Default) 발음의 최소 개수의 오브젝트를 가지는 것으로 한다.

대체 순서는 단모음의 경우, 도 3과 같이 앞 절에서 설명한 포먼트 주파수에 따른 입 모양을 근거로 작성하였으며, 이중모음의 경우에는 두 단모음의 조합으로 립싱크를 적용하게 된다. 만일 이중모음 ‘ㅑ'의 발음이라면 ’ㅣ'+'ㅏ'의 조합으로 생각하며 이때 시간의 차는 발음의 시간이 200ms 였다면 앞의 발음인 ’ㅣ'의 발음을 전체 발음의 10%로 계산하여 립싱크한다.

또한, 도 3에서와 같이 한국어 말소리는 모음, 자음 별로 클래스별로 유사 발음 및 대체할 수 있는 발음기호로 나누어 볼 수 있다. 국문법에서의 한국어 문장과 립싱크시 활용할 수 있는 한국어 문장을 예들 들어 비교해보면, 초성 + 중성 + 종성으로 구분하여 "선생님 안녕하세요(ㅅ ㅓ ㄴ ㅅ ㅐ ㅇ ㄴ ㅣ ㅁ ㅇ ㅏ ㄴ ㄴ ㅕ ㅇ ㅎ ㅏ ㅅ ㅔ ㅇ ㅛ) "를 입력한 경우, 도 4와 같이 "언에임 안여아에오(ㅇ ㅓ ㄴ ㅇ ㅔ ㅇ ㅣ ㅁ ㅇ ㅏ ㄴ ㅇ ㅕ ㅇ ㅏ ㅇ ㅔ ㅇ ㅗ)"로 변화된다.

본 발명의 바람직한 실시예에 따른 음소 분할은 음성을 인식하여 자동으로 음소를 분할하고 분할된 음소를 다시 발음 단위 형태로 전환한 후 해당 발음의 입 모양 모델링 오브젝트를 선형 보간법(Linear Interpolation)을 이용하여 자연스럽게 립싱크하는 방법으로서, 실제 한국어 기반 립싱크 애니메이션 시스템에서 음소 분할 시스템의 전체적인 블록도는 도 5a와 같다.

또한, 본 발명의 바람직한 실시예에 따른 음성 인식 및 분할 모듈 테스트 베드 프로그램을 이용하여 직접 음성과 문장을 입력하여 음소단위 분할과 음절단위 분할을 실시하는 실시간 테스트 모드와 저장된 웨이브 파일을 이용하여 세그먼테이션하는 예는 도 5b와 같다. 음소단위 형태의 세그먼테이션의 결과는 음소별로 시작시간과 끝 시간, 앞서 구분한 해당 음소기호, 해당 음소의 에너지 값(0-100)으로 이루어져 있으며, 음절단위 형태는 분할된 음소를 다시 발음되는 형태로 변환하여 발음의 시작시간, 끝 시간, 해당 음절 및 에너지 값의 출력 값을 갖게 된다.

도 6의 (a)는 폴리곤 캐릭터 얼굴 모델링으로써, 한국어 기반 립싱크에 적합한 얼굴 모델링을 3D모델로 제작한 것이다. 도 6의 (a)에 나타난 3D 캐릭터 모델에 대한 정점 수, 파일 포맷, 모프(Morph) 수 등의 세부 사항은 표 7과 같다.

도 6의 (b)는 본 발명의 바람직한 실시예에 따른 모델링 제작 방식 및 와이어 프레임을 나타낸 예시도이다. 도 6의 (b)와 같이 3D 사람형 얼굴 제작은 하이 퀄리티 작업을 하기 위해서 3D 스캔 방식으로 실제 사람얼굴을 스캔한 후 엄청난 수의 정점 개수 및 와이어프레임을 3D 모델러들이 일일이 수작업으로 와이어프레임를 정리한다. 여기서, 와이어프레임의 정리 상태에 따라서 얼굴 표정 변화 시 얼굴이 뒤틀리거나 다른 모프와의 간섭 때문에 3D 얼굴이 깨지는 경우가 발생할 수도 있다.

본 발명의 바람직한 실시예에 따라 립싱크를 위한 3D 얼굴 모델링은 40여개의 발음 체계로 구분할 수 있는 한국어 발음 기호를 18개로 단순화 (모음위주) 시킨 후, 대체할 수 있는 발음 끼리 재 구분 후 아래와 같이 8개의 모프 체계로 구분하여 실행할 수 있다.

도 7a는 `ㅏ, ㅔ, l`를 립싱크하는 3D 얼굴 모델링의 예시도이고, 도 7b는 'ㅗ, ㅜ, ㅡ`를 립싱크하는 3D 얼굴 모델링의 예시도이며, 도 7c는 `ㅓ, 무음`을 립싱크하는 3D 얼굴 모델링의 예시도 이다.

본 발명의 바람직한 실시예에 따른 립싱크 애니메이션의 구현 방법으로는 선형 보간법을 이용한 립싱크 애니메이션이 있다. 선형 보간법을 이용한 립싱크 애니메이션은 임의의 음성 신호가 입력되면 음소 단위로 시간 정보를 추출해 낸 후 립싱크의 처리를 위하여 시간에 따라 현재의 입 모양을 추적한다. 그 다음으로 앞 장에서 기술한 발음의 모양에 중요한 영향을 미치는 음소들을 구분하여 그 음소를 중심으로 전후 연결되는 상대적으로 영향이 미미한 음소들의 지속 시간 정보를 그 중심 음소의 지속 시간 정보에다 통합하여 설정한 후 산출된 일련의 핵심 음소로부터 원본의 이미지를 추출한다.

예를 들어, “마음”이라는 단어를 발음하면 ‘마’라고 발음하는 시간 동안은 `ㅏ` 입 모양이 지속 되면서 `ㅡ`입 모양으로 변환해야 하고, ‘음’ 발음 시간 동안은 ‘ㅡ' 발음 모양 후 입술 모양이 닫혀야 함을 알 수 있다.

이에 따라, 추출된 음소 단위의 시간 정보는 다시 발음 모양 단위의 시간 정보로 변환해야 하고 또 그 시간 동안이 입 모양을 어떤 형태로 변환시켜 나갈 것인가를 결정해야 한다. 즉, 입 모양의 원본과 목적 이미지가 결정되고 변환해야 할 시간이 결정되면 모핑 처리하여 중간 프레임을 만들어낸다. 먼저, 모핑 처리를 위하여 각각 원본과 목적 이미지가 될 수 있는 기본적인 이미지를 모음 17가지와 자음으로 야기되는 입 모양 중 특히 입술소리(‘ㅁ,ㅂ,ㅃ,ㅍ’)의 영향으로 입술이 닫히는 현상을 추가하여 지정한다. 즉, 17개의 모음 상태와 말을 하지 않은 상태(Silence)의 이미지로서 입술소리로 인해 입술이 닫히는 상태의 최대 18가지의 상태를 가질 수 있다.

본 발명의 바람직한 실시예에 따른 한국어 립싱크 애니메이션 프로그램에서는 음절의 시작시간과 끝 시간에 해당하는 입 모양을 원본과 목적 이미지로 하여 보간(Interpolation)한다. 이때 분석된 음성의 에너지를 고려하여 입 모양을 결정하며 계속하여 음절들을 보간한다. 애니메이션은 타이머를 사용하여 가능하게 하며 본 연구에서는 구현이 간단하고 비교적 계산량이 적은 선형 보간법을 사용한다.

본 발명의 바람직한 실시예에 따른 립싱크 애니메이션의 구현 방법으로는 동기화 테스트용 2D 립싱크 프로그램이 있다.

동기화 테스트용 2D 립싱크 프로그램은 자연스러운 한국어 립싱크를 구사하는 애니메이션 시스템을 구현하지만, 3D 데이터를 이용하여 립싱크를 하기 이전에 기존 음소 분할된 음성과 동기화 애니메이션을 테스트한다. 테스트를 위해 구현된 라인 립싱크 프로그램은 립싱크 애니메이션에 사용될 음성파일과 이에 해당하는 텍스트를 입력으로 한국어 음소분할 엔진인 KAS 엔진을 사용하여 입력된 데이터를 음소 분할한다. 다시 음소 분할된 데이터를 이용하여 2D 라인으로 구성된 2D 입 모양을 이용하여 립싱크 프로그램을 구현한다.

도 8의 (a)는 립싱크 동기화 테스트용으로 구현된 라인 립싱크 애니메이션 프로그램의 순서도이다.

셋 마우스 모션(SetMouthMotion) 함수(810)는 각 음절의 발화 모음을 어떤 입 모양으로 할 것인지 결정하고 원하는 발음의 모양이 없으면 대체순위를 검색하여 가장 근접한 모양을 선택하는 기능을 수행하며, 칼크 모션(CalcMotion) 함수(820)는 정해진 입 모양의 연결되어지는 부분을 계산하는 기능을 수행한다.

셋 립싱크 버퍼(SetLipSyncBuffer) 함수(830)는 임시 버퍼에 구현할 라인 애니메이션(Line Animation) 정보(좌표)를 저장하는 기능을 수행하며, 온 타이머(OnTimer) 함수(840)는 음성파일과 동기화를 맞추기 위해 객체 출력의 주기를 정하는 기능을 수행한다.

선형 보간법을 이용하여 2D 라인으로 작성한 입 모양으로 테스트한 립싱크 애니메이션 화면은 도 8의 (b)와 같으며, 테스트용 2D 라인 마우스 객체는 도 8의 (c)와 같다.

본 발명 바람직한 실시예에 따른 3D 립싱크 애니메이션 시스템은 웨이브 파일로 구성된 음성과 이에 해당하는 텍스트 데이터가 한국어 음소 분할 시스템인 KAS 엔진의 입력으로 사용되어 분할된 음소 데이터를 추출하게 된다. 더불어 3D 모델링 툴에서 제작된 얼굴 모델은 분할된 음소 데이터와 매핑되며 선형 보간법을 사용한 립싱크 모션 알고리즘(Motion Algorithm)에 의해 3D 립싱크 데이터가 생성된다. 이때 분할된 음소 데이터에 비하여 얼굴 모델이 모두 제작되지 않은 경우에는 입 모양 대체 알고리즘에 의하여 자동으로 대체하게 된다.

생성된 3D 립싱크 데이터는 본 연구에서 구현한 립싱크 애플리케이션 프로그램의 오디오 및 그래픽 컨트롤 인터페이스를 이용하여 한국어 기반 3D 립싱크 애니메이션을 실행시킨다.

도 9는 본 발명의 바람직한 실시예에 따른 3D 립싱크 애니메이션 시스템 구조도이다.

인풋 디바이스(Input Device)(910)는 키보드(912), 마우스(914) 및 마이크(916)를 포함한다. 키보드(912)는 사용자가 문장을 입력하기 위한 장치이고, 마이크(916)는 사용자가 발화음성을 녹음하기 위한 장치이다.

하드웨어(HARDWARE)(920)는 사용자 입력을 응용 프로그램에 보내고 또한 데이터들의 연산, 저장과 출력을 담당하는 기능을 수행한다.

립싱크 애플리케이션 프로그램(LipSync Application Program)(930)은 인풋 텍스트 데이터(931), 랭귀지 모델(932), 레코딩 데이터(933), KAS 엔진(934), KAS 스트럭트 데이터(935), 3D 모델링 툴(936), 3D 모델 컨트롤 소프트 웨어(937), 립싱크 모션 알고리즘(938), 그래픽 컨트롤 인터페이스(939)를 포함한다.

인풋 텍스트 데이터(Input Text Data)(931)는 사용자가 입력한 문장을 갖는 텍스트 데이터이고, 랭귀지 모델(Language Model)(932)은 텍스트 데이터의 음소 분할을 위한 언어 모델이다.

레코딩 데이터(Recording Data)(933)는 사용자에게 입력받은 음성 파일이고, KAS 엔진(Korean Auto Segmentation Engine)(934)은 인풋 텍스트 데이터와 레코딩 데이터를 토대로 음소 분할 데이터를 생성하는 기능을 수행한다.

KAS 스트럭트 데이터 (Korean Auto Segmentation Struct Data)(935)는 문장의 음소 분할한 정보를 갖는 데이터이고, 3D 모델링 툴(3D Modeling Tool)(936)은 3D 객체를 만들고 수정하는 툴(3D MAX, MAYA)의 기능을 수행한다.

3D 모델 컨트롤 소프트웨어(3D Model Control Software)(937)는 3D 모델을 응용 프로그램에서 사용할 수 있는 인터페이스를 제공하는 라이브러리(Library) (DirectX, OpenGL)이고, 립싱크 모션 알고리즘(LipSync Motion Algorithm)(938)은 KAS 스트럭트 데이터를 바탕으로 립싱크 애니메이션을 하기 위한 라인 마우스 객체나 3D 객체를 알고리즘에 맞게 버퍼에 저장하는 기능을 수행한다. 또한, 그래픽 컨트롤 인터페이스(Graphic Control Interface)(939)는 사용자 인터페이스이다.

본 발명의 바람직한 실시예에 따른 한국어 립싱크 애니메이션 프로그램은 도 10과 같이 음성 데이터 및 발화 문장을 이용함으로써, 한국어 기반으로 자동 분할된 음소의 동기화 데이터와 상용 3D 모델링 툴에서 만들어진 3D 데이터를 임포트(Import)하여 애니메이션 키 데이터를 생성한 후 익스포트(Export)하여 기존 3D 툴과 데이터 호환성을 높였다.

또한, 프로그램의 구현 환경으로는 음소 분할 시스템은 Visual C++를 사용하였으며, 웨이브 파일은 16KHZ, 16bit 단음으로 한정되어 있다. 그 이유는 현재 통계적 음향 모델이 웨이브 파일(16KHZ, 16bit)을 기반으로 생성되기 때문이고, 만일 다양한 음성입력 포맷을 지원하려면 다양한 음성입력 포맷을 16KHZ, 16bit PCM 데이터 포맷으로 변경시켜 주는 모듈이 필요하다. 최종 구현 립싱크 프로그램은 Visual c++를 사용하여 구현하였으며 OpenGL 1.2 기반 3차원 렌더링에 자료저장은 STL(Standard Template Library)을 사용하였다.

도 11은 본 발명의 바람직한 3D 립싱크 애니메이션의 랜더링을 설명하기 위한 순서도로서, 생성된 3D 립싱크 애니메이션 데이터를 애플리케이션에서 3차원으로 렌더링을 하여 디스플레이되기까지의 과정을 나타낸다. 타이머의 경우 동기화를 맞추기 위하여 시스템 타이머가 아닌 독립적인 멀티미디어 타이머를 사용하여 구현한다.

도 12a는 본 발명의 바람직한 실시예에 따른 한국어 립싱크 애니메이션 프로그램의 계층도이다.

인풋 인터페이스(Input Interface)(1210)는 키보드(912), 마우스(914) 및 마이크(916) 중 하나 이상의 장치를 포함 인풋 디바이스(910)로부터 한국어 음성 정보 또는 한국어 텍스트 정보를 입력받아 한국어 음성 데이터를 생성하는 기능을 수행한다.

본 발명의 바람직한 실시예에 따른 KAS 엔진(Korean Auto Segmentation Engine)(1220)은 인풋 인터페이스(1210)로부터 한국어 음성 데이터를 수신한 후 음소 분할하여 음소 분할 데이터를 생성하는 기능을 수행한다.

또한, KSA 엔진(1220)은 음소 분할 데이터를 생성하기 위해 음소별 에너지 값, 음소 및 발음단위 음절의 시작시간, 끝 시간 중 하나 이상의 데이터를 이용하며, 음소 분할 데이터를 17개의 모음과 묵음 모양의 입 모양으로 재구성하고, 초성, 중성 및 종성의 각 단계로 재배치한다. 여기서, KSA 엔진(1220)은 17개의 모음 중 단모음을 7 모음 체계로 설정하며, 각 모음의 제 1 포먼트와 제 2 포먼트를 측정하여 분할된 모음의 입 모양의 유사도를 구분하고, 상기 유사도를 기준으로 설정되지 않은 발음에 대해 다른 입 모양의 모델로 대체하는 알고리즘을 포함한다.

본 발명의 바람직한 실시예에 따른 립싱크 3D 엔진(Lipsync3D Engine)(1230)은 KAS 엔진(1220)으로부터 음소 분할 데이터를 수신한 후 음소 분할 데이터로부터 동기화 정보를 추출하여 입술 애니메이션 키 데이터를 생성하고, 이를 3D 애니메이션 데이터에 적용하는 기능을 수행한다. 또한, 립싱크 3D 엔진(1230)은 입술 애니메이션 키 데이터에 이중모음에 대한 입 모양의 변화를 적용하되, 립싱크 3D 엔진(1230)은 상기 입술 애니메이션 키 데이터의 `ㅑ, ㅕ, ㅛ, ㅠ, ㅢ, ㅖ`의 발음을 제외한, `ㅘ, ㅝ, ㅟ, ㅞ`의 발음을 일반적인 표준어 발음의 형태에 맞추어 모음에 대한 입 모양을 변화시켜 적용한다.

아웃풋 인터페이스(Output Interface)(1240)는 립싱크 3D 엔진(1230)으로부터 3D 애니메이션 데이터를 수신하여 모니터 및 스피커 중 하나 이상의 장치를 포함하는 아웃 디바이스(Out Device)로 출력하는 기능을 수행한다.

립싱크 3D 모듈 레이어(Lipsync3D Module Layer)(1250)는 인풋 인터페이스(1210), KAS 엔진(1220), 립싱크 3D 엔진(1230), 아웃풋 인터페이스(1240) 간의 한국어 음성 데이터, 음소 분할 데이터, 입술 애니메이션 키 데이터 및 3D 애니메이션 데이터 중 하나 이상의 데이터를 포함하는 각종 데이터를 중계하는 기능을 수행한다.

도 12b는 본 발명의 바람직한 실시예에 따른 한국어 립싱크 애니메이션 프로그램의 실행화면 예시도이다.

이상의 설명은 본 발명의 기술 사상을 예시적으로 설명한 것에 불과한 것으로서, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자라면 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 다양한 수정 및 변형이 가능할 것이다. 따라서, 본 발명에 개시된 실시예들은 본 발명의 기술 사상을 한정하기 위한 것이 아니라 설명하기 위한 것이고, 이러한 실시예에 의하여 본 발명의 기술 사상의 범위가 한정되는 것은 아니다. 본 발명의 보호 범위는 아래의 청구범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술 사상은 본 발명의 권리범위에 포함되는 것으로 해석되어야 할 것이다.

이상에서 설명한 바와 같이 본 발명에 의하면, 애니메이터 및 일반 사용자들이 손쉽게 시간대비 높은 퀄리티의 립싱크 애니메이션 데이터를 얻을 수 있어 다량의 얼굴관련 애니메이션 컨텐츠를 손쉽게 제작할 수 있는 효과가 있을 뿐만 아니라, 가상 현실, 한국어 립싱크 관련 사업, 청각 장애인, 유아 및 외국인을 위한 프로그램 컨텐츠 개발에 활용할 수 있는 효과가 있다.

또한, 한국어 립싱크 프로그램을 개발하는데 활용하는 경우 3D 애니메이션 제작시 작업 기간을 단축할 수 있어 생산성을 높이는 효과가 있다.

Claims

음성 사운드 소스에 따른 애니메이션을 제공하는 프로그램에 있어서,

(a) 입력 장치로부터 한국어 음성 정보 또는 한국어 텍스트 정보를 입력받아 한국어 음성 데이터를 생성하는 인풋 인터페이스(Input Interface);

(b) 상기 한국어 음성 데이터를 음소 분할하여 음소 분할 데이터를 생성하는 KAS 엔진(Korean Auto Segmentation Engine);

(c) 상기 음소 분할 데이터에서 동기화 정보를 추출하여 입술 애니메이션 키 데이터를 생성하고, 3D 애니메이션 데이터에 적용하는 립싱크 3D 엔진(Lipsync3D Engine);

(d) 상기 3D 애니메이션 데이터를 출력하는 아웃풋 인터페이스(Output Interface); 및

(e) 상기 인풋 인터페이스, 상기 KAS 엔진, 상기 립싱크 3D 엔진, 상기 아웃풋 인터페이스 간의 각종 데이터를 중계하는 립싱크 3D 모듈 레이어(Lipsync3D Module Layer)

를 포함하는 것을 특징으로 하는 음성 사운드 소스를 이용한 얼굴 표정 변화 프로그램을 기록한 컴퓨터에서 읽을 수 있는 기록매체.
제 1 항에 있어서,

상기 KSA 엔진은 음소별 에너지 값, 음소 및 발음단위 음절의 시작시간, 끝 시간 중 하나 이상의 데이터를 이용하여 상기 음소 분할 데이터를 생성하는 것을 특징으로 하는 음성 사운드 소스를 이용한 얼굴 표정 변화 프로그램을 기록한 컴퓨터에서 읽을 수 있는 기록매체.
제 2 항에 있어서,

상기 KSA 엔진은 상기 음소 분할 데이터를 17개의 모음과 묵음 모양의 입 모양으로 재구성하고, 초성, 중성 및 종성의 각 단계로 재배치하는 것을 특징으로 하는 음성 사운드 소스를 이용한 얼굴 표정 변화 프로그램을 기록한 컴퓨터에서 읽을 수 있는 기록매체.
제 3 항에 있어서,

상기 KSA 엔진은 상기 17개의 모음 중 단모음을 7 모음 체계로 설정하며, 각 모음의 제 1 포먼트와 제 2 포먼트를 측정하여 분할된 모음의 입 모양의 유사도를 구분하고, 상기 유사도를 기준으로 설정되지 않은 발음에 대해 다른 입 모양의 모델로 대체하는 알고리즘을 포함하는 것을 특징으로 하는 음성 사운드 소스를 이용한 얼굴 표정 변화 프로그램을 기록한 컴퓨터에서 읽을 수 있는 기록매체.
제 1 항에 있어서,

상기 립싱크 3D 엔진은 상기 입술 애니메이션 키 데이터에 이중모음에 대한 입 모양의 변화를 적용하되, 상기 립싱크 3D 엔진은 상기 입술 애니메이션 키 데이 터의 ㅑ, ㅕ, ㅛ, ㅠ, ㅢ, ㅖ의 발음을 제외한, ㅘ, ㅝ, ㅟ, ㅞ의 발음을 일반적인 표준어 발음의 형태에 맞추어 모음에 대한 입 모양을 변화시켜 적용하는 것을 특징으로 하는 음성 사운드 소스를 이용한 얼굴 표정 변화 프로그램을 기록한 컴퓨터에서 읽을 수 있는 기록매체.