KR20000005183A

KR20000005183A - 이미지 합성방법 및 장치

Info

Publication number: KR20000005183A
Application number: KR1019980707855A
Authority: KR
Inventors: 앤드류 폴 브린; 엠마 제인 바우어스
Original assignee: 콜턴 리자; 브리티쉬 텔리커뮤니케이션즈 퍼블릭 리미티드 캄퍼니
Priority date: 1996-03-26
Filing date: 1997-03-24
Publication date: 2000-01-25
Also published as: CA2249016A1; DE69715175D1; CA2249016C; DE69715175T2; WO1997036288A1; JP4037455B2; JP2000507377A; EP0890168B1; AU2167097A; CN1214784A; EP0890168A1

Abstract

본 발명은 이미지 합성 방법 및 장치에 관한 것으로서, 얼굴의 이동 화상(즉, 합성어를 동반하는)은 입 모양 또는 입술독해의 시퀀스로 연속하는 입력 음소를 전환하며, 특히 입 모양은 각 모음과 자음을 수반하는 각 변환에 대해 발생되는 것을 특징으로 한다.

Description

이미지 합성방법 및 장치

본 발명은 예를 들면 합성어를 동반하는 이동 이미지의 합성에 관한 것이다.

본 발명에 따르면, 구두 발화를 매칭시키는 가시 조음(visible articulation)을 갖는 얼굴의 이동화상을 표시하는 신호를 발생시키는 방법에 있어서, 발화의 연속적인 부분에 대응하는 음성 표시의 시퀀스를 수신하는 단계; 제 1 형태의 각 음성 표시에 대한 입 모양을 동일화하는 단계; 제 1 형태의 각 음성 표시로부터 제 2 형태의 음성 표시로, 제 2 형태의 음성 표시로부터 제 1 형태의 음성 표시로, 제 2 형태의 음성 표시로부터 제 2 형태의 음성 표시로의 각각의 변환에 대한 입 모양을 동일화하는 단계; 및 동일화된 형상을 포함하는 이미지 프레임의 시퀀스를 발생시키는 단계를 포함하는 것을 특징으로 한다.

제 1 및 제 2 형태는 각각 모음과 자음일 수 있다. 따라서, 본 발명의 바람직한 실시예에 있어서, 구두 발화를 매칭시키는 가시 조음을 갖는 얼굴의 이동 화상을 표시하는 신호를 발생시키는 방법에 있어서, 발화의 연속적인 음소에 대응하는 음성 표시의 시퀀스를 수신하는 단계; 각 모음 음소에 대한 입 모양을 동일화하는 단계; 모음 음소로부터 자음 음소로, 자음 음소로부터 모음 음소로, 자음 음소로부터 자음 음소로의 각각의 변환에 대한 입 모양을 동일화하는 단계; 및 동일화된 형상을 포함하는 이미지 프레임의 시퀀스를 발생시키는 단계를 포함하는 것을 특징으로 한다.

자음과 모음 음소사이의 각각의 변환에 대한 입 모양의 동일화는 모음 음소와 자음 음소의 기능으로써 실행될 수 있으며, 2개의 자음 음소사이의 각각의 변환에 대한 입 모양의 동일화는 2개의 자음 음소중 첫 번째와 가장 가깝게 잇따르거나 또는 가장 가깝게 앞선 모음 음소의 기능으로써 실행될 수 있다. 선택적으로, 2개의 자음 음소사이의 각각의 변환에 대한 입 모양의 동일화는 2개의 자음 음소중 첫 번째와 가장 가깝게 후속하는 모음 음소 또는 앞서 존재하는 모음 음소의 기능으로써 실행될 수 있다.

각각의 변환에 대한 동일화는 이들 변환에 대해 지정된 단지 이들 음소의 기능으로써 실행되는 것이 바람직하다. 선택적으로, 동일화는 또한 동일 단어내의 적어도 하나의 다른 음소의 기능으로써 실행될 수 있다.

바람직한 구성에 있어서, 하나는 지정된 입 모양에 대해 그 형상을 지정하는 명령을 발생하며, 선행 및 후속 명령에 의해 지정된 중간 형상을 지정하는 각각의 중간 명령을 발생시킨다.

본 발명의 다른 관점에 따르면, 구두 발화를 매칭시키는 가시 조음을 갖는 얼굴의 이동 화상을 표시하는 신호를 발생시키기 위한 장치에 있어서, 발화의 연속적인 부분에 대응하는 음성 표시의 시퀀스를 수신하도록 배열되고, 제 1 형태의 각 음성 표시에 대한 입 모양을 동일화하는 단계와; 제 1 형태의 각 음성 표시로부터 제 2 형태의 음성 표시로, 제 2 형태의 음성 표시로부터 제 1 형태의 음성 표시로, 제 2 형태의 음성 표시로부터 제 2 형태의 음성 표시로의 각각의 변환에 대한 입 모양을 동일화하는 단계에 응답하는 수단; 및 동일화된 형상을 포함하는 이미지 프레임의 시퀀스를 발생시키기 위한 수단을 포함하는 것을 특징으로 한다.

본 발명의 일실시예가 첨부된 도면을 참조하여, 예를 들어 이하에서 상세히 기술될 것이다.

도 1은 본 발명의 실시예의 구성요소를 도시하는 블록도,

도 2는 인간 머리의 이미지를 합성하는데 사용된 "wireframe"의 평면, 정면 및 측면도,

도 3은 인간 머리의 이미지의 입 부분을 합성하는데 사용된 "wireframe"의 유사 도면,

도 4는 인간 머리가 이야기하는 "affluence"를 표시하기 위해 이미지의 시퀀스의 합성에서 생기는 최대 모음 입 모양을 도시하는 도면,

도 5는 단어"affluence"에서 생기는 최대 모음-자음(및 반대로) 변환의 입 모양을 도시하는 도면,

도 6은 단어"affluence"의 조음에서 잔존하는 입 모양을 도시하는 도면,

도 7은 단어"affluence"의 조음에서 입 모양사이의 변환을 도시하는 도면,

도 8은 이미지 합성 유닛에 대해 명령 신호로 음성 신호를 변환시키기 위한 유닛의 구성요소를 도시하는 블록도,

도 9는 본 발명의 실시예의 장치의 작동을 도시하는 플로우차트,

도 10은 이중모음과 파열마찰음의 그들의 구성 음소로의 전환 진행을 도시하는 플로우차트.

도 11A 내지 11D는 입력 음소파일을 기초로 중간 출력파일을 생산하기 위한 진행을 도시하는 도면,

도 12는 타이밍을 지정하는 파일과 중간 출력파일을 기초로 최대 입 모양의 실물을 생산하기 위한 진행을 도시하는 도면, 및

도 13A 및 13B는 최대 입 모양과 중간 입 모양의 양쪽을 지정하는 파일을 생산하기 위한 진행을 도시하는 도면이다.

도 1의 장치는 텍스트의 형태로 말하고자 하는 단어를 수신하여, 오디오 신호의 형태로 대응하는 음성을 발생시키고, 동일한 음성에 대응하는 입 조음으로 얼굴(예를 들면, 인간 또는 만화)의 이동 화상의 디스플레이를 위해 대응 화상 신호를 발생시키는 기능을 가진다. 이 실시예에 있어서, 입 조음은 입술 이동, 입의 내부(이와 혀포함), 턱 및 둘러싸는 영역을 포함하는 것임을 이해할 수 있을 것이다. 또한, 거친 머리 이동과 회전, 눈썹이동 같은 다른 운동이 얻어진 이미지가 더 사실적으로 나타나도록 하기 위해 설정될 수 있다.

저장된 텍스트 파일 또는 다른 소망 공급원으로부터의 텍스트는 어떤 종래의 표준 표시(즉, ASCⅡ 코드)에 따른 문자 코드의 형태로 입력부(1)에서 수신된다. 이는 도면에 도시되지 않은 2개의 분리 부분의 종래 구성의 음성 합성기에 의해 수신된다. 즉, 텍스트-음성 변환기(2)가 종래의 철자법을 음성 표시로 전환한다. 예를 들면 음소 리스트, 각각의 이중모음 및 음성 합성기 프로퍼(3)가 리스트를 오디오 주파수 파형으로 변환한다. 어떤 음소 세트가 사용될 수 있지만, 표 1(표 1a 포함)에 설정된 바와 같이 영국 영어의 38개 음소로 표시하는 것으로 추측되는 British RP-SAMPA 세트를 사용한다.

BRITISH RP-SAMPA	단어 예
자음
/b/	bear
/D/	this
/d/	dear
/f/	fear
/g/	gear
/h/	hear
/j/	year
/k/	king
/l/	lead
/m/	men
/N/	wing
/n/	near
/p/	pear
/r/	rear
/S/	sheer
/s/	sing
/T/	thing
/t/	tear
/v/	very
/w/	wear
/Z/	treasure
/z/	zoo

BRITISH RP-SAMPA	단어 예
파열 마찰음
/dZ/	jeer
/tS/	cheer
단모음
/@/	ago
/{/	bat
/E/	bet
/I/	bit
/Q/	cod
/U/	good
/V/	bud
장모음
/з/	bird
/A/	bard
/i/	bead
/O/	bore
/u/	boot
이중모음
/@U/	zero
/aI/	pie
/aU/	cow
/E@/	hair
/eI/	pay
/I@/	peer
/OI/	boy
/U@/	contour
그 외
/#:/	무언
/#/	단어 경계

종래의 음성 합성기는 본 명세서에서 더 언급되지는 않는다.

음소 리스트는 이하에서 상세히 기술되는 변환 유닛(4)에 의해 수신된다. 변환 유닛은 음소 리스트로부터 얼굴의 요구된 입 조음을 지정하는 연속 명령 신호를 순서대로 발생시키도록 하며, 음소 리스트로부터 합성기(3)에 의해 발생된 음성 신호에 대응하는 방식으로 이동할 수 있다.

이들 명령 신호는 이미지 합성 유닛(5)에 의해 수신된다. 이 유닛은 소망 얼굴의 스틸 화상의 신호 화상 프레임 또는 비트-맵 이미지로 저장되며, 이동없이 이 얼굴을 보여주는 연속 화상 신호를 발생시킨다. 분명히, 이 화상 신호는 원하는 어떤 표준일 수 있으며, 여기서 시스템(1)은 초당 25프레임으로 신호를 보내는 것으로 추측된다. 이동은 3차원 와이어 프레임 모델의 추가에 의해 발생된다. 전형적인 모델은 도 2에 도시되어 있으며 도 3에 입 영역이 확대되어 도시되어 있다. 3차원 공간에 다수의 포인트(정점)와 이들 정점을 연결하는 선은 다면체로 언급되는 삼각형 영역을 형성한다. 실제 장치에 있어서, 모델은 저장 일자, 즉 각 정점에 대한 정점 수 및 그의 x, y, z 좌표, 각 다면체에 대해 다면체 수 및 다면체의 모서리를 형성하는 3개의 정점 수의 세트로 존재한다. 어두 상(phase) 단계동안, 유닛(5)은 이 참조 모델의 각각의 다면체사이의 매핑과 비트-맵 이미지의 대응 영역을 결정한다. 이동은 상기 위치로부터 서로다른 위치를 추측하는 하나 이상의 정점의 변경된 모델을 반복적으로 형성하는 것에 의해 발생되며 참조 모델내에 점유되어 있다. 이는 참조 모델에 관련된 이동을 가지는 하나 이상의 정점의 변경된 모델의 어떤 다면체를 초기화하는 것에 의해 이루어지며; 이러한 다면체에 대해, 이 매핑에 따라 변경된 모델의 다면체에 대응하는 삼각형 영역이 새로운 비트-맵 이미지내에 점유되도록 이동되고 및/또는 찌그러지는 것에 대응하는 매핑에 따라 원래 비크-맵의 삼각형 영역에서의 어구삽입 처리를 이용한다. 이러한 새로운 비트-맵 이미지는 출력 신호(즉, 전체 40ms)의 각 프레임에 대해 발생한다. 이미지 합성 유닛(5)의 작동 및 실행은 W.J. Welsh, S.Searby 및 J.B.Waite의 "Model Based Image Coding", Br. Telecom Technol.J., vol 8, No. 3, July 1990에 상세히 기술되어 있다.

이미지 합성 유닛(5)을 구동하는데 필요한 명령은 유닛에 전체 40ms를 보내는 구성으로, 참조 모델과 다른 위치의 각 정점의 수는 새로운 좌표에 의해 수반된다. 작동 속도는 유닛(5)이 저장된 액션 유닛의 세트를 포함하며, 각 세트는 이하의 데이터입력을 포함한다.

- 액션 유닛 번호(즉, 0-255)(1 바이트)

- 액션 유닛에 의해 영향을 받은 정점의 수

- 각 정점

정점 수(2 바이트)

참조 모델에서의 그의 위치로부터의 x좌표 변위(2 바이트)

참조 모델에서의 그의 위치로부터의 y좌표 변위(2 바이트)

참조 모델에서의 그의 위치로부터의 z좌표 변위(2 바이트)

(바람직하게는, x,y,z는 사용될 수 있는 이전 프레임에 대해 시프트된다)

각 명령은 액션 유닛에 의해 지정된 이용량을 변화시키도록 스케일링 팩터(즉, 0-255)에 의해 후속된 액션 유닛 번호의 간단한 구성으로 되거나 또는 다수(프로토타입에서 5에 이를때까지)를 포함할 수 있다. 명령의 수령으로 유닛(5)은 액션 유닛(들)을 조사하며, 지정된 정점에 대해 저장된 시프트(적절하게 스케일된)를 사용한다. 명령이 특정 정점의 변위를 지정하는 2개의 액션 유닛을 포함하면, 변위는 2개의 변위의 백터 합을 간단하게 한다.

변환 유닛(4)의 작동을 시험하면, 입술독해(viseme)의 개념 도입을 손쉽게 한다. 이야기된 단어는 음소로 불리는 기본 유닛의 구성으로 간주될 수 있으며, 가시 언어는 가시 언어의 최소 유닛 또는 "가시 유음절 유닛의 가장 작은 지각 유닛"의 입술독해 구성으로 간주될 수 있다. 기본적으로, 입술독해는 입 모양이며; 변환 유닛의 테스크는 요구되는 입술독해를 결정하며 그들이 생기는 시간은 순간이며(40ms), 요구된 간격으로 요구된 입술독해를 발생시키는 것과 같은 40ms 간격으로 명령을 발생시키며 간섭 프레임에 대해 적절한 중간 형상을 발생시킨다.

변환 유닛의 작동 중심에서, 개념(notion)은 음소와 입술독해사이에 1:1 대응은 아니다. 첫 번째로, 어떤 음소는 시각적으로 유사하거나 또는 구별할 수 없으며, 예를 들면, 자음 /p/와 /b/는 시각적으로 동일하기 때문에 그들은 음성 정도만이 서로 다르며, 음성통로의 음절은 동일하다. 따라서, 음소는 입술독해 발생이 간주되는 한 동등하게 간주되고 있는 동일한 군의 음소로 군집화될 수 있다. 다양한 군이 가능하며, 대표적인 군은 표 2에 나타나 있다.

음소	군
p, b, m	자음 군 1
f, V	자음 군 2
D, T	자음 군 3
s, z	자음 군 4
S, Z	자음 군 5
k, g, N	자음 군 6
t, d, l, n, r	자음 군 7
w, U, u, O	"both"군
Q, V, A	모음 군 1
з, i, j	모음 군 2
@, E, I, {	모음 군 3

(이중모음이 존재하기 때문에 이들은 처리전에 그들의 구성 모음으로 분할됨)

두 번째로, 모음 소리와 입 모양사이의 결합을 형성하는 것은 가능한 반면, 자음은 가까운 음소, 특히 가까운 모음 음소에 의존하여 변하는 입 모양과 결합하지 않는다. 본 실시예에서, 입 모양은 모음끼리의 조합과 자음과 음소의 조합으로 결합된다. 변환의 유효 수는 자음을 수반한다. 그러나, 제 1 간이화는 관찰에 의해 얻어질 수 있으며, 자음-자음 변환은 후속 모음(단락전에 단어의 끝에서 진행하는 모음)에 의해 중대한 영향을 받으며, 2개의 제 2 자음은 무시될 수 있는 매우 민감한 약간의 영향을 가진다. 본 실시예는 각 자음-자음 변환과 함께 자음-모음 또는 모음-자음 변환을 결합시키는 것에 의해 이루어지는 이점을 가진다. 이 방법에 있어서, 입 모양의 수는 시스템이 낮은 음성일 때 조정되는 것이 필요하다.

본 실시예의 작동을 도시하기 위해 예로써 텍스트-음성 유닛(2)이 단어"affluence"를 표시하는 신호를 수신하면, 음소 리스트 /#:/ /{/ /f/ /I/ /u/ /@/ /n/ /s/ /#:/를 변환 유닛(4)으로 출력하도록 작동될 것이다. 음소 리스트를 수신한 변환 유닛(4)은 연속 명령 신호를 출력하도록 음소 리스트를 처리하는 것이 가능하다. 출력 명령 신호는 도 4 내지 도 7에 도시되어 있으며, 또한 입력 음소 리스트의 내용, 즉 음소와 그들의 이중모음을 도시한다(이 실시예의 샘플 속도는 8kHz).

첫 번째로, 출력은 단어내의 모음에 대응하는 3개의 명령 신호를 포함한다. 이들은 도 4의 하부 다이어그램에 도시되어 있으며, 모음 /{/, /u/ 및 /@/가 확인되며 각각은 모음의 중간 지점에 존재하도록 결정된 모음이 할당된 입술독해를 표시하는 바(bar)로 마크되어 있다.

또한, 출력은 모음-자음 및 자음-모음 변환으로 조합된 입 모양을 지정하는 명령 신호를 포함하며, 이는 모음-자음 또는 자음-모음 경계에서 입 모양을 표시하는 바로 도 5에 도시되어 있다. 이는 자음-자음 변환을 남긴다. 전술한 바와 같이, 변환은 첫 번째 자음과 후속 모음에 의해 주로 지정되는 것으로 간주되며; 따라서 변환 /f/-/I/는 자음-모음 조합 /f/-/u/에 대한 입 모양으로써 표시된다(도 6). /n/-/s/ 변환은 이어지는 모음이 없으며, 따라서 입 모양은 /@/-/s/ 모음-자음 조합에에 대응하여 사용된, 즉 선행 모음을 사용한다. 선행 및 후속 무언 기간 /#:/은 닫힌 입를 갖는 얼굴, 즉 참조 와이어 프레임 모델에 의해 표시된다.

도 6의 바는 순간 시간으로 마크되며(또는 40ms 가까운 기간), 변환 유닛(4)은 액션 유닛을 지정하고 질문에 입 모양을 적절하게 하는 팩터를 스케일링하는 명령을 이미지 합성 유닛(5)에 보낸다. 이들 순간사이의 40ms 간격에서, 2개의 입 모양을 중간 입 모양으로 지정하는 명령을 보내는 것이 필요하다. 예를 들면, 순간 마크 {f와 순간 마크 fu 사이에서, 감소된 스케일링 팩터를 가짐에도 불구하고 2개의 형상사이의 부드러운 변환을 달성하도록 모음-자음 조합 /{/-/f/ 및 자음-모음 조합 /f/-/u/에 각각 대응하는 2개의 액션 유닛을 지정하는 명령을 보낸다. 따라서, 2개의 순간사이의 포인트 x%의 방식으로, /{/-/f/ 조합에 대한 액션 유닛은 fu 포인트에서 그의 스케일 팩터를 x/100시간사이의 스케일 팩터를 구비한 /f/-/u/ 조합에 대한 액션 유닛을 따라 {f 지점에서 그의 스케일 팩터를 1-x/100시간의 스케일 팩터로 보낼 것이다. 도 7은 이 처리를 그래프로 도시한다. 도 7은 중간 명령 신호를 발생시키는 것을 나타내며, 무언 음소와 결합된 입 모양은 무언 음소의 중앙이 도달되기 전에 이어지는 입 모양에 의해 영향을 받지 않는다.

상기 표 2에서 11군 중에 7 자음 군이 있으며, 3개의 모음 군과 1개의 "both"군이 있다. "both"군은 모음 음소와 자음 음소 양쪽을 포함한다. 따라서, 수반되는 무언의 변환은 무시되며, 모든 요구된 모음과 모음-자음 및 자음-모음 조합은 표 3에 나타낸 바와 같이 모음 군과 모음 군-자음 군 및 자음 군-모음 군 조합으로 표시될 수 있다.

모음	4
자음 군-모음 군 조합	21
모음 군-자음 군 조합	21
양 군-다른 군 조합	10
다른 군-양 군 조합	10
양 군-양 군 조합	2
합계	68

68개의 모음 군과 군 조합은 동일한 입 모양으로 대응하며, 어떤 입 모양은 적당한 비율로 서로다른 것과 유사하다. 즉, 그들은 서로다른 스케일링 팩터가 아닌 동일한 액션 유닛에 의해 발생될 수 있다. 액션 유닛의 결정동안(이하에 기술됨), 이들 68개 모음 군과 군 조합은 11개 액션 유닛과 적절한 스케일링 팩터에 의해 표시될 수 있다. 표 4(표 4a, 4b 포함)는 액션 유닛의 묘사와 함께 이들의 설정을 나타내며, 그 특징은 스케일링 팩터를 증가시키며, 모음 군과 군 조합의 리스트는 액션 유닛에 의해 표시될 수 있다. 각각의 입 모양을 발생시키는데 사용되는 스케일링 팩터는 주어진 모음 군과 군 조합에 대응한다.

모음 군과 군 조합은 액션 유닛의 가운데를 분할하는 것으로 액션 유닛의 큰 수가 형성되는 것은 본 발명이 속하는 기술분야의 당업자들에게 이해될 것이다.

액션 유닛번호	묘사	모음 군 또는 자음 조합	스케일
1	원형 입,이와 함께 돌출 입술,입 모양은 전체적으로 원형	모음 군 1 - 자음 군 5모음 군 2 - 자음 군 5모음 군 3 - 자음 군 5"both"군 - 자음 군 5자음 군 5 - 모음 군 1자음 군 5 - 모음 군 2자음 군 5 - 모음 군 3자음 군 5 - "both"군	125130125120120120125120
2	이 없음,외부 입술라인은 매우 원형,입술사이의 틈은 직선이나 작음,입 모양은 전체적으로 원형	"both"군 - 모음 군 2"both"군 - 모음 군 3"both"군 - "both"군"both"군 - "both"군"both"군 - 자음 군 7자음 군 7 - "both"군	150150150130120120
3	긴 입 형상,윗니만 있음,아랫 입술은 감싸짐,이는 전체적으로 돌출하기 시작함	모음 군 1 - 자음 군 2모음 군 2 - 자음 군 2모음 군 3 - 자음 군 2"both"군 - 자음 군 2자음 군 2 - 모음 군 1자음 군 2 - 모음 군 2자음 군 2 - 모음 군 3자음 군 2 - "both"군	100110115100100100115100

액션 유닛번호	묘사	모음 군 또는 자음 조합	스케일
4	입 모양은 길고, 원형,이 없음,입술사이의 틈은 원형,입술사이의 틈은 전체적으로 큼	모음 군 1 - "both"군모음 군 1 - 자음 군 1모음 군 2 - "both"군모음 군 3 - 자음 군 1"both"군"both"군 - 모음 군 1"both"군 - 자음 군 3"both"군 - 자음 군 7	240130240130130240130130
5	액션 유닛 4와 같으나 윗 입술은 더욱 더 굴곡짐	모음 군 1자음 군 1 - 모음 군 1자음 군 1 - "both"군	1309580
6	긴 입 모양,윗니와 아랫니는 볼 수 있으나 그 사이의 틈은 보이지 않음,틈은 전체적으로 큼	모음 군 3 - 자음 군 6"both"군 - 자음 군 6자음 군 1 - 모음 군 2자음 군 6 - 모음 군 3	110110130110
7	원형 입 모양,윗니 및 아랫니는 볼 수 있으나 그 사이의 틈은 보이지 않음,틈은 전체적으로 큼	모음 군 1 - 자음 군 6모음 군 6자음 군 6 - 모음 군 1자음 군 6 - "both"군자음 군 7 - 모음 군 1	110140130110130
9	길고 약간 원형인 입 모양,윗니는 보임,윗니는 전체적으로 돌출하기 시작함	모음 군 2모음 군 2 - 자음 군 6자음 군 4 - 모음 군 3자음 군 6 - 모음 군 2자음 군 7 - 모음 군 3자음 군 7 - 모음 군 3	160160170160170125

액션 유닛번호	묘사	모음 군 또는 자음 조합	스케일
11	긴 입 모양,윗니는 보임,윗니는 전체적으로 돌출하기 시작함	모음 군 3 - 자음 군 4모음 군 3 - 자음 군 7"both"군 - 자음 군 4자음 군 4 - "both"군	130120105105
12	액션 유닛 11과 동일하나 윗 입술은 원형이 아님	모음 군 1 - 자음 군 4모음 군 1 - 모음 군 7모음 군 2 - 자음 군 4모음 군 2 - 자음 군 7자음 군 4 - 모음 군 1자음 군 4 - 모음 군 2	100100120120130110120
13	윗니와 혀를 갖는 긴 입 모양,이는 전체적으로 돌출하기 시작함	모음 군 1 - 자음 군 3모음 군 2 - 자음 군 3모음 군 3 - 자음 군 3자음 군 3 - 모음 군 1자음 군 3 - 모음 군 2자음 군 3 - 모음 군 3자음 군 3 - "both"군	105110115105105130105

전환 유닛(4)은 적절하게 프로그램된 도 8의 프로세서(10), 프로그램 메모리(11) 및 조사 테이블을 포함하는 저장기를 포함하는 처리 유닛에 의해 이행될 수 있으며, 특히 이들은 이중모음 테이블(12), 음소 군 테이블(13) 및 액션 유닛 테이블(14)을 포함한다. 이들은 명확하게 나타내기 위해 분리되어 있지만 단일 메모리가 프로그램 및 조사 테이블을 포함할 수 있다. 메모리(11)에 저장된 프로그램의 작동은 도 9 내지 도 13에 도시된 플로우차트를 참조하여 더욱 상세히 기술될 것이다.

도 9의 플로우차트는 장치의 작동과 도 10 내지 도 13에 나타낸 알고리즘내의 문맥을 설정하는 것을 도시한다. 프로그램 메모리(11)에 저장된 알고리즘은 이미지 합성 유닛(5)으로 보내지는 명령 신호에 대한 기초를 형성하는 액션 유닛 파일(액션 유닛과 스케일링 유닛을 포함)을 발생시키도록 실행할 수 있다. 따라서, 스텝 100에서 후속 초기화는 텍스트 메시지가 음성 합성기의 텍스트-음성 유닛(2)에 의해 수신되며 음소 파일은 스텝 104에서 생산한다. 이 파일이 수령되면, 변환 유닛(4)(스텝 106)에 의해 인지되어 음소 리스트를 액션 유닛 파일(스텝 110에서 생산된)로 변환한다(스텝 108). 이는 이미지 합성 유닛(5)으로 전송된 명령 신호에 대한 기초를 형성하며(스텝 112), 음소 파일은 합성기(3)로 보내진다. 소망 시간동안 무언(스텝 114) 또는 음성(스텝 116)이 있으면, 추가 액션 유닛이 무작위(또는 다른) 헤드 이동이 생성되도록 발생될 수 있다.

스텝 108의 작동은 도 10에 도시된 플로우차트로 도시된 프로그램 스텝을 사용하여 이중모음과 파열마찰음의 확장을 시작한다. 프로그램은 차례로 음소 파일의 각 요소를 읽으며(스텝 120), 음소가 2개의 문자로 표시되는지를 결정한다(스텝 122). 프로그램이 요소를 구성 문자로 분할하도록 프로세서를 작동하고(스텝 124), 이들 문자에 의해 표시된 2개의 음소로 요소를 교체한다. 각 이중모음은 쪼개진 이중모음 또는 파열마찰음 음소의 절반의 지속시간으로 설정된다. 음소 출력의 리스트내의 음소 수를 측정하여 1씩 증분한다(스텝 126). 그 밖에, 상기 요소는 음소 리스트에 부가된다(스텝 128).

도시된 프로그램 스텝은 이중모음 테이블(12)의 부가로 각각 음소 쌍 /{/ + /I/, /{/ + /U/ 및 /E/ + /I/로 /aI/, /aU/ 및 /eI/와 같은 이중모음을 전달하도록 실행가능하다. 유사하게, 프로그램은 2개의 음소로 파열마찰음 /dZ/와 /tS/를 분할하도록 실행가능하다.

이는 요소끼리를 도 10에 도시된 프로세서에 의해 생성된 음소 리스트의 검사로 이어진다(도 11A - 11D). 초기 무언 음소후에 각 요소에 대해, 음소 자음 또는 모음 및 결합된 시간 간격은 중간 출력 파일로 기록된다. 따라서, 각 입력은 이전 입 모양 순간과 현재 입 모양 순간사이에 생성되어지는 시간 간격(즉, 도 6의 바 사이의 간격에 대응하는 시간 간격)에 따라 음소 자음 또는 모음을 동일화한다. 각 입력후에, 프로그램은 음소 리스트의 촤종 요소가 도달되었는지를 결정하도록 결정 스텝(180)으로 복귀한다. 음소 리스트의 최종 요소가 도달되었다면, 음소 리스트의 검사는 끝난다. 도달되지 않았다면, 프로그램은 현재 요소 분류 스텝(130)으로 복귀한다.

음소 리스트를 검사하기 위해, 각 요소는 요소가 모음, 자음 또는 무언인지를 최초로 결정한다(도 11A의 스텝 130).

모음이 현재 요소 분류 스텝(130)에서 발견되었다면, 도 11B에 도시된 스텝이 실행된다. 첫 번째로, 음소 리스트의 이전 음소가 무언, 자음 또는 모음인지를 찾는다(스텝 140). 이전 음소가 무언 음소이면, 모음 입 모양전의 시간 간격은 모음 1/2과 무언 1/2의 합으로 설정된다(스텝 141). 다음에, 무언-모음 변환은 계산된 시간 간격과 함께 중간 출력 파일로 입력된다(스텝 142). 이전 음소가 모음 음소이면, 모음 입 모양 사이의 시간 간격은 모음 1/2과 이전 모음의 1/2의 합으로 설정된다(스텝 143). 다시, 모음(즉, /@/)과 결합된 시간 간격은 증간 출력 파일로 입력된다(스텝 144). 이전 요소가 자음 음소이면, 이전 음소전의 음소가 무언인지를 결정한다(스텝 145). 무언 음소이면, 이전 입 모양으로부터의 시간 간격은 현재 모음의 절반의 지속시간으로 설정되며(스텝 146), 모음은 계산된 시간 간격과 함께 중간 출력 파일로 입력된다(스텝 147). 무언 음소가 아니면, 이전 입 모양으로부터의 시간 간격은 자음의 절반의 지속시간으로 설정되며(스텝 148), 모음-자음 조합(즉, /I/-/u/)과 결합된 시간 간격은 증간 출력 파일로 입력된다(스텝 149). 이 포인트에서, 프로그램은 결정 스텝(180)으로 복귀하지 않지만, 시간 간격을 포함하는 입력은 현재 모음과 모음 그 자체(즉, /u/)의 잘반의 지속시간과 동일하다.

도 18의 스텝의 한가지 영향은 현재 모음에 대응하는 입 모양이 모음 음소의 중간과 동시에 일어나도록 한다.

무언이 현재 모음 음소 분류 스텝(130)에서 발견되었다면, 도 11C의 스텝이 실행된다. 첫 번째로, 음소 리스트의 이전 음소가 무언; 자음 또는 모음인지를 찾는다(스텝 150). 이전 음소가 무언이면 오류가 표시된다(스텝 151). 무언이 모음에 우선하면, 이전 입 모양으로부터의 시간 간격은 모음 1/2과 무언 1/2의 합으로 설정되며(스텝 152), 모음-무언 변환은 시간 간격과 함께 중간 출력 파일로 기록된다(스텝 153). 이전 음소가 자음이면, 최종 입 모양으로부터의 시간 간격은 자음 1/2과 현재 무언의 절반의 지속시간의 합으로 설정된다(스텝 154). 이 경우에 있어서, 모음-자음 조합-모음 변환(즉, /@s/-/#:/) 및 결합된 시간 간격은 중간 출력 파일로 입력된다(스텝 155).

자음이 스텝 130에서 발견되면, 도 11D에 도시된 스텝이 실행된다. 첫 번째로, 이전 음소가 모음, 무언 또는 자음으로 분류된다(스텝 160). 모음이면, 시간 간격은 모음의 절반의 지속시간으로 설정되며(스텝 161), 모음-자음 조합(즉, /{/-/f/)은 중간 출력 파일에 시간 간격과 함꼐 기록된다(스텝 162). 이전 음소가 자음이면, 프로그램은 모음 음소에 대해 음소 리스트를 통하여 검색한다(스텝 163). 하나가 발견되면, 자음-모음 조합(이전 자음과 이후 모음)(즉, /f/-/u/)과 결합된 시간 간격(이전 자음의 지속시간과 동일)은 중간 출력 파일에 입력된다(스텝 164, 165). 모음이 발견되지 않았다면, 프로그램은 모음의 뒷단어를 검색하도록 프로세서를 동작시킨다(스텝 166). 이 검색이 성공하면, 모음-자음 조합(초기 모음과 현재 자음, 즉 /@/-/s/)은 결합된 시간 간격(이전 자음의 지속시간과 동일)과 함께 기록된다(스텝 167, 168). 앞단어와 뒷단어 검색에서 모음을 발견하지 못했다면 오류가 표시된다(스텝 169). 현재 자음에 접하여 우선하는 음소가 무언으로 발견되었다면, 모음에 대한 앞단어 검색이 실행된다(스텝 170); 모음이 발견되었다면, 자음의 지속시간과 우선하는 무언의 절반의 지속시간의 합에 동등한 시간 간격이 중간 출력 파일에 무언-자음-모음 조합 변환과 함께 기록된다(스텝 171, 172). 단어에서 모음이 발견되지 않았다면 오류가 표시된다(스텝 173).

도 12에 있어서, 중간 출력 파일의 모음과 음소 조합은 조사 테이블(13)을 액세스하는 것에 의해 모음 군과 음소 군 조합으로 변환된다. 이 내용은 상기 표 2로 설정될 수 있으며, 각 모음 또는 음소 조합은 군 수로 전환된다. 그러나, 군 수로 각 군을 표시하는 것이 아니라 군 중의 하나의 설계된 음소로 표시되며; 예를 들면, 음소 /p/, /b/ 및 /m/은 /p/로 모두 변환되었다. 이를 달성하기 위해, 프로세서는 도 12에 도시된 프로그램에 의해 제어된다. 중간 출력 파일의 각 요소에 대해, 요소의 형태는 모음(스텝 192가 실행됨); 모음/자음 조합(스텝 194가 실행됨); 모음/무언 변환(스텝 196이 실행됨); 또는 자음-무언 변환(스텝 198이 실행됨)중의 하나를 결정한다(스텝 194). 이들 스텝(192, 194, 196, 198)은 구성 모음 또는 자음-모음 또는 군으로부터 선택된 자음의 각각을 변환하는데 효과적이다. 이 진행은 전술한 바와 같이 68개의 서로다른 모음 군과 음소 군 조합의 최대를 포함하는 군/군 조합 리스트를 복귀시킨다.

도 13A와 도 13B에 있어서, 얻어진 군 리스트는 액션 유닛 조사 테이블(14)(상기 표 3의 칼럼 3, 1 및 4에서 설정된 내용 또는 바람직하게는 칼럼 3에 표시된 음소의 내용)을 사용하여 군/군 조합 리스트에서 각 요소를 표시하는 액션 유닛을 찾도록 액션 유닛 파일로 변환된다. 액션 유닛 파일은 40ms 간격으로 발생된 명령 신호의 시퀀스를 제공하도록 사용될 수 있다.

더욱 상세하게, 군 리스트로부터 첫 번째 요소를 불러오는 변환 진행이 시작되면, 액션 유닛 조사 테이블은 액션 유닛과 이 요소와 결합된 스케일링 팩터를 결정하도록 액세스된다(스텝 220). 그 후, 첫 번째 요소와 결합된 시간 간격내의 전체 40ms 기간의 수가 계산된다(스텝 202). 초기 액션 유닛의 스케일링 팩터는 증분 값을 주도록 기간 수로 분할된다(스텝 203). 그 후, 각 40ms 기간에 대해 명령 신호를 생산하는 지령 루프가 입력된다(스텝 204). 명령 신호내의 스케일링 팩터는 각 시간에서 계산된 증분에 의해 증가되며(0으로부터), 지령 루프가 실행된다.

군 리스트내의 다른 요소가 불려지며(도 13B의 스텝 205), 대응하는 액션 유닛과 스케일링 팩터가 액션 유닛 조사 테이블(14)을 사용하여 발견된다(스텝 206). 스텝(202)에서와 같이, 군 리스트의 요소와 결합된 시간 간격내의 40ms 기간의 수가 찾아진다(스텝 207). 전술한 바와 같이, 현재 요소와 결합된 액션 유닛의 스케일링 팩터가 증분 값을 주도록 계산된 기간의 수로 분할된다(스텝 208). 군 리스트내의 이전 요소의 스케일링 팩터는 감분 값을 주도록 동일 수로 분할된다(스텝 209). 그 후, 출력되어지는 명령 신호를 계산하도록 지령 루프를 입력한다. 이들은 이전 요소에 대해 생산된 액션 유닛의 무게를 더한 조합과 군 리스트내의 현재 요소와 결합된 액션 유닛을 포함한다. 이전 액션 유닛에 주어진 무게는 각 40ms 기간에 대한 감분 값으로 스케일링 팩터를 감소시키는 것에 의해 감소되며, 현재 액션 유닛에 주어진 무게는 각 40ms 기간에 대한 증분 값으로 스케일링 팩터(0부터)를 증가시키는 것에 의해 증가된다(스텝 210). 이 방식에 있어서, 명령 신호 출력은 하나의 입 모양으로부터 다음 입 모양으로의 단계적 변환을 제공한다.

유사한 작동이 어미 요소가 도달될 때까지 군 리스트내의 각 연속 요소에 공급된다.

명령 신호는 액션 유닛 파일의 기초로 발생되며, 텍스트-음성 합성기의 출력에 대응하는 조음을 가지는 머리의 이미지 발생이 가능하도록 40ms 간격으로 이미지 합성 유닛(5)에 전송된다.

전술한 논의로부터 모음에 대한 입술독해 또는 입 모양 선택은 모음에 앞서 할당되며, 모음-자음(또는 반대로) 조합에 대해 선택된 입 모양은 조합에 앞서 할당되며, 자음-자음 변환에 대해 선택된 입 모양은 동일 문맥내의 첫 번째 자음에 앞서 할당된다. 즉, 이 실시예에 있어서, 약간 후속하는(또는 정지, 선행) 모음을 가진다. 요구된 액션 유닛의 수를 증가시키는 결점을 갖는다 할지라도 입 모양의 선택은 문맥에 의존하여 만들어질 수 있다. 예를 들면, 자음과 후속 모음 뿐만 아니라 선행 모음(즉, 자음-모음-자음 조합)에 의존하는 선택적으로 자음-모음 변환에 대한 입 모양을 선택할 수 있다. 자음-자음 변환에 대한 선택은 첫 번째 자음과 후속 및 선행 모음 양쪽에 의존하거나 또는 2개의 자음과 2개의 모음으로 만들어질 수 있다.

이미지 합성 유닛(5)에 저장된 액션 유닛이 어떻게 발생되는가에 대해 설명하였다. 프로토타입에서, 이는 68개의 모음 군과 모음 군/자음 군 조합의 모두를 포함하는 사람 대화 단어의 화상 기록을 만드는 것에 의해 달성되었으며, 모음에 대항하는 프레임과 자음/모음 조합에 대응하는 프레임이 수동으로 동일화될 수 있도록 기록의 스틸 프레임을 디스플레이하도록 프레임 그랩을 사용하는 것에 의해 달성될 수 있다. 이들 프레임(비트맵 형태)이 동일화되면, 이들 프레임이 표시되는 참조 와이어 프레임 모델로부터의 변위를 결정하는 것이 필요하다. 이는 주어진 비트맵 이미지를 조정하도록 와이어 프레임 모델의 요구된 변형을 계산하는 확인 프로그램을 사용하면 된다.

Claims

구두 발화를 매칭시키는 가시 조음을 갖는 얼굴의 이동화상을 표시하는 신호를 발생시키는 방법에 있어서,

발화의 연속적인 부분에 대응하는 음성 표시의 시퀀스를 수신하는 단계; 제 1 형태의 각 음성 표시에 대한 입 모양을 동일화하는 단계;

제 1 형태의 각 음성 표시로부터 제 2 형태의 음성 표시로, 제 2 형태의 음성 표시로부터 제 1 형태의 음성 표시로, 제 2 형태의 음성 표시로부터 제 2 형태의 음성 표시로의 각각의 변환에 대한 입 모양을 동일화하는 단계; 및

동일화된 형상을 포함하는 이미지 프레임의 시퀀스를 발생시키는 단계를 포함하는 것을 특징으로 하는 이미지 합성방법.
구두 발화를 매칭시키는 가시 조음을 갖는 얼굴의 이동 화상을 표시하는 신호를 발생시키는 방법에 있어서,

발화의 연속적인 음소에 대응하는 음성 표시의 시퀀스를 수신하는 단계;

각 모음 음소에 대한 입 모양을 동일화하는 단계;

모음 음소로부터 자음 음소로, 자음 음소로부터 모음 음소로, 자음 음소로부터 자음 음소로의 각각의 변환에 대한 입 모양을 동일화하는 단계; 및

동일화된 형상을 포함하는 이미지 프레임의 시퀀스를 발생시키는 단계를 포함하는 것을 특징으로 이미지 합성방법.
제 2 항에 있어서,

자음과 모음 음소사이의 각각의 변환에 대한 입 모양의 동일화는 모음 음소와 자음 음소의 기능으로써 실행되는 것을 특징으로 하는 이미지 합성방법.
제 2 항 또는 제 3 항에 있어서,

2개의 자음 음소사이의 각각의 변환에 대한 입 모양의 동일화는 2개의 자음 음소중 첫 번째와 가장 가깝게 잇따르거나 또는 가장 가깝게 앞선 모음 음소의 기능으로써 실행되는 것을 특징으로 하는 이미지 합성방법.
제 2 항 또는 제 3 항에 있어서,

2개의 자음 음소사이의 각각의 변환에 대한 입 모양의 동일화는 2개의 자음 음소중 첫 번째와 가장 가깝게 후속하는 모음 음소 또는 앞서 존재하는 모음 음소의 기능으로써 실행되는 것을 특징으로 하는 이미지 합성방법.
제 3 항 내지 제 5 항중 어느 한 항에 있어서,

각각의 변환에 대한 동일화는 이들 변환에 대해 지정된 단지 이들 음소의 기능으로써 실행되는 것을 특징으로 하는 이미지 합성방법.
제 3 항 내지 제 5 항중 어느 한 항에 있어서,

상기 동일화는 또한 동일 단어내의 적어도 하나의 다른 음소의 기능으로써 실행되는 것을 특징으로 하는 이미지 합성방법.
제 1 항 내지 제 7 항중 어느 한 항에 있어서,

지정된 입 모양에 대해 그 형상을 지정하는 명령을 발생하며, 선행 및 후속 명령에 의해 지정된 중간 형상을 지정하는 각각의 중간 명령을 발생시키는 것을 포함하는 것을 특징으로 하는 이미지 합성방법.
구두 발화를 매칭시키는 가시 조음을 갖는 얼굴의 이동 화상을 표시하는 신호를 발생시키기 위한 장치에 있어서,

발화의 연속적인 부분에 대응하는 음성 표시의 시퀀스를 수신하도록 배열되고, 제 1 형태의 각 음성 표시에 대한 입 모양을 동일화하는 단계와; 제 1 형태의 각 음성 표시로부터 제 2 형태의 음성 표시로, 제 2 형태의 음성 표시로부터 제 1 형태의 음성 표시로, 제 2 형태의 음성 표시로부터 제 2 형태의 음성 표시로의 각각의 변환에 대한 입 모양을 동일화하는 단계에 응답하는 수단; 및

동일화된 형상을 포함하는 이미지 프레임의 시퀀스를 발생시키기 위한 수단을 포함하는 것을 특징으로 하는 이미지 합성장치.
첨부한 도면을 참조하여 기술된 것에 따른 구두 발화를 매칭시키는 가시 조음을 갖는 얼굴의 이동 화상을 표시하는 신호를 발생시키는 것을 특징으로 하는 이미지 합성방법.