KR20060090687A

KR20060090687A - 시청각 콘텐츠 합성을 위한 시스템 및 방법

Info

Publication number: KR20060090687A
Application number: KR1020067006256A
Authority: KR
Inventors: 네벤카 디미트로바; 앤드류 밀러; 동제 리
Original assignee: 코닌클리케 필립스 일렉트로닉스 엔.브이.
Priority date: 2003-09-30
Filing date: 2004-09-28
Publication date: 2006-08-14
Also published as: WO2005031654A1; US20060290699A1; US7636662B2; EP1671277A1; JP2007507784A; CN1860504A

Abstract

본 발명은 비디오 이미지 프로세서에서 시청각 콘텐츠를 합성하는 시스템 및 방법을 제공한다. 콘텐츠 합성 애플리케이션 프로세서는 말하는 화자를 표현하는 시청각 입력 신호들로부터 오디오 피쳐들 및 비디오 피쳐들을 추출한다. 상기 프로세서는 상기 화자의 얼굴의 컴퓨터 생성된 애니메이팅된 버전을 생성하도록 상기 추출된 시각적 피쳐들을 사용한다. 상기 프로세서는 화자의 음성을 표현하는 음소들과 같은 복수의 오디오 논리 유닛들과 상기 화자의 얼굴의 애니메이팅된 버전의 얼굴 움직임들을 동기화한다. 이러한 방식으로 상기 프로세서는 상기 화자의 음성과 적절하게 동기화되는 화자의 얼굴의 움직임의 시청각 표현을 합성한다.

콘텐츠 합성 애플리케이션 프로세서, 히든 마르코프 모델, 시간 지연 신경 회로망, 비셈, 오디오 논리 유닛

Description

시청각 콘텐츠 합성을 위한 시스템 및 방법{System and method for audio-visual content synthesis}

본 발명은 일반적으로 시청각 시스템들(audio-visual systems), 특히 비디오 이미지 프로세서에서 시청각 콘텐츠(audio-visual content)를 합성하는 시스템 및 방법에 관한 것이다.

컴퓨터 과학의 진보들은 컴퓨터들의 속도 및 계산 성능을 계속해서 증가시켜 왔다. 컴퓨터들이 사람인 컴퓨터 사용자들과 통신할 때, 통신의 대부분은 사람인 컴퓨터 사용자들이 컴퓨터 스크린으로부터 판독하는 그래픽 디스플레이들 내 텍스트 메세지들의 형태로 나타난다. 몇 가지 컴퓨터 애플리케이션들, 특히 컴퓨터 게임 그래픽들을 디스플레이하도록 개발된 것들은 말하는 사람의 컴퓨터 생성된 시각적 이미지(computer generated visual image) 형태로 컴퓨터 사용자에게 컴퓨터 출력을 표현할 수 있다. 구체적으로 말하면, 컴퓨터는 말하는 화자를 표현하도록 사람 얼굴의 애니메이팅된 버전(animated version)을 생성하는 동시에 그 화자의 음성을 출력한다.

말하는 사람들의 시각적 이미지들이 생성되는 실제적인 컴퓨터는 컴퓨터 시스템에서 생성하기에 매우 어렵다. 이것은 사람 얼굴이 말하는 과정 동안 얼굴 표 정들의 넓은 범위를 나타낼 수 있기 때문이다. 사람 얼굴은 감정을 표현하고 말해지는 단어들에 추가적인 의미를 부여하는 많은 미세한 피쳐들을 보여줄 수 있다. 각각의 사람은 태어난 이후로 얼굴 표정들을 인식하여 해석해 왔다. 그러므로, 사람인 컴퓨터 사용자는 불량한 품질의 컴퓨터 생성된 애니메이팅된 사람 얼굴들을 빠르게 검출할 수 있다. 불량한 품질의 애니메이팅된 사람 얼굴은 때때로 사람인 컴퓨터 사용자를 혼란하게 할 수 있다. 최악으로, 불량한 품질의 애니메이팅된 사람 얼굴은 그 애니메이팅된 사람 얼굴이 말하는 메세지의 이해를 심지어 방해할 수도 있다.

그러므로, 본 기술 분야에서 말하는 화자의 실제적인 시청각 표현을 생성할 수 있는 시스템 및 방법에 대한 필요성이 존재한다. 또한, 본 기술 분야에서 컴퓨터 생성된 애니메이팅된 사람 얼굴에 대해 실제적인 얼굴 표정들이 생성될 수 있는 시스템 및 방법에 대한 기술의 필요성이 존재한다.

상기된 종래 기술의 결함들을 처리하기 위해서, 본 발명의 시스템 및 방법은 말하는 화자의 실제적인 시청각 표현을 제공할 수 있다. 본 발명의 시스템 및 방법은 또한 컴퓨터 생성된 애니메이팅된 사람 얼굴에 대해 실제적인 얼굴 표정들을 생성할 수 있다.

본 발명의 시스템 및 방법은 비디오 이미지 프로세서의 컴퓨터 시스템 내에 위치되는 콘텐츠 합성 애플리케이션 프로세서(content synthesis application processor)를 포함한다. 상기 콘텐츠 합성 애플리케이션 프로세서는 말하는 화자를 표현하는 시청각 입력 신호들로부터 오디오 피쳐들 및 비디오 피쳐들을 추출한 다. 상기 프로세서는 화자의 얼굴의 컴퓨터 생성된 애니메이팅된 버전을 생성하도록 상기 추출된 시각적 피쳐들을 사용한다. 상기 프로세서는 말하는 얼굴 움직임 구성요소를 표현하도록 히든 마르코프 모델(Hidden Markov Model) 또는 시간 지연 신경망(Time Delayed Neural Network)을 사용함으로써 화자의 얼굴 표정들의 시각적 얼굴 움직임 구성요소들을 분류한다.

상기 콘텐츠 합성 애플리케이션 프로세서는 화자의 음성의 오디오 피쳐들 및 비디오 피쳐들 모두를 추출하여 분류하는 학습 모듈(learning module)을 포함한다. 상기 프로세서는 음소들(phonemes)과 같은 오디오 논리 유닛들을 표현하도록 히든 마르코프 모델 또는 시간 지연 신경망을 사용함으로써 화자의 음성의 추출된 오디오 피쳐들을 분류한다. 그 후에, 상기 프로세서는 화자의 얼굴의 애니메이팅된 버전의 얼굴 움직임들과 화자의 음성을 표현하는 복수의 오디오 논리 유닛들을 동기화한다. 이러한 방식으로, 상기 프로세서는 화자의 음성과 적절히 동기화되는 화자의 얼굴의 실제적인 시청각 표현을 합성한다.

본 발명의 유리한 일 실시예에 있어서, 트레이닝 단계에서 상기 프로세서는 화자의 얼굴의 오디오 피쳐들 및 비디오 피쳐들로부터 시청각 입력 벡터들을 생성한다. 그 후에, 상기 프로세서는 히든 마르코프 모델 또는 시간 지연 신경망을 사용함으로써 시청각 입력 벡터들로부터 시청각 말하는 얼굴 움직임 구성요소들을 생성한다. 그 후에, 상기 프로세서는 화자의 얼굴을 표현하는 음소들과 화자의 얼굴을 표현하는 비셈들(visemes) 사이의 연관성을 얻도록 시청각 입력 벡터들 상에 의미 연관 절차(semantic association procedure)를 수행한다.

인식 단계에서, 상기 프로세서는 새로운 입력 비디오를 분석한다. 상기 프로세서는 화자의 음성의 오디오 피쳐들을 추출하고, 의미 연관 절차를 사용하여 그 오디오 피쳐들에 대한 대응하는 비디오 표현들을 찾아낸다. 그 후에, 상기 프로세서는 히든 마르코프 모델 또는 시간 지연 신경망을 사용함으로써 시청각 말하는 얼굴 움직임 구성요소들과 대응하는 비디오 표현들을 매칭한다. 그 후에, 상기 프로세서는 각각의 선택된 시청각 말하는 얼굴 움직임 구성요소에 대한 컴퓨터 생성된 애니메이팅된 얼굴을 생성하고, 화자의 음성과 각각의 컴퓨터 생성된 애니메이팅된 얼굴을 동기화한다. 최종적인 결과는 화자의 음성과 동기화되는 화자의 얼굴의 시청각 표현을 제공하는 출력이다.

본 발명의 목적은 사람 얼굴에 관련된 멀티미디어 정보를 생성하고 디스플레이하는 시스템 및 방법을 제공하는 것이다.

본 발명의 또 다른 목적은 말하는 화자의 실제적인 시청각 표현을 생성하고 디스플레이하는 시스템 및 방법을 제공하는 것이다.

또한, 본 발명의 목적은 컴퓨터 생성된 애니메이팅된 사람 얼굴에 대한 실제적인 얼굴 표정들을 생성하고 디스플레이하는 시스템 및 방법을 제공하는 것이다.

본 발명의 또 다른 목적은 화자의 얼굴의 애니메이팅된 버전의 얼굴 움직임들과 상기 화자의 음성을 표현하는 복수의 오디오 논리 유닛들을 동기화하는 시스템 및 방법을 제공하는 것이다.

또한, 본 발명의 목적은 비디오 이미지 프로세서에서 시청각 콘텐츠를 합성하는 시스템 및 방법을 제공하는 것이다.

상술한 것은 당업자들이 다음에 따르는 본 발명의 상세한 기술을 보다 잘 이해하도록 본 발명의 특징들 및 기술상의 장점들을 폭넓게 요약하고 있다. 본 발명의 특허청구범위의 주제를 형성하는 본 발명의 추가적인 특징들 및 장점들이 이하 기술될 것이다. 당업자들은 본 발명의 동일한 목적들을 수행하기 위해 다른 구조들을 수정 또는 설계하는데 기초로 하여 개시되는 개념 및 특정 실시예를 쉽게 사용할 수 있다는 것을 이해할 것이다. 당업자들은 또한 그러한 동일한 구조들이 그것의 가장 포괄적인 형태로 본 발명의 취지 및 범위로부터 벗어나지 않는다는 것을 인식해야 한다.

본 발명을 상세히 기술하기 이전에, 본 명세서를 통해 사용되는 어떠한 용어들 및 구절들의 정의들을 설명하는 것이 유리할 것이다. 용어들 "포함하다" 및 그의 파생어는 제한 없는 포함을 의미하고, 용어 "또는"은 및/또는 을 의미하는 포괄적인 것이고, 구절들 "-와 연관된" 및 "그와 연관된" 뿐만 아니라 그의 파생어들은 포함하기 위한 것, -내에 포함되기 위한 것, -와 상호접속하기 위한 것, 내포하기 위한 것, -내에 내포되기 위한 것, -와 또는 -에 접속하기 위한 것, -와 또는 -에 연결하기 위한 것, -와 통신가능한 것, -와 협력하는 것, 인터리빙하기 위한 것, 병렬하는 것, -에 근접하는 것, -와 또는 -에 경계로 하는 것, 갖는 것, -의 속성을 갖는 것 등등을 의미할 수 있으며, 용어 "제어기", "프로세서", 또는 "장치"는 적어도 하나의 동작을 제어하는 어떠한 디바이스, 시스템, 또는 그의 일부를 의미하고, 그러한 디바이스는 하드웨어, 펌웨어나 소프트웨어, 또는 적어도 그와 같은 2개의 몇 가지 조합으로 구현될 수 있다. 어떠한 특정한 제어기와 연관된 기능이 국부적으로든지 또는 원격적으로든지 집중되거나 분포될 수 있다는 것에 주의해야 한다. 특히, 제어기는 하나 이상의 애플리케이션 프로그램들 및/또는 운영 시스템 프로그램을 실행하는 하나 이상의 데이터 프로세서들 및 연관된 입력/출력 디바이스들 및 메모리를 포함할 수 있다. 어떠한 단어들 및 구절들에 대한 정의들은 본 특허 문서 전반에 걸쳐 제공된다. 당업자들은 대부분의 예들에 대해서는 아닐지라도 많은 예들에서 그러한 정의들은 이전의 사용들에 적용할 뿐만 아니라 그러한 정의된 단어들 및 구절들의 장래의 사용들에도 적용한다는 것을 이해해야 한다.

본 발명의 보다 완벽한 이해와 그의 장점들에 대해, 참조 부호는 첨부된 도면과 관련하여 동일 요소들에는 동일 부호로 병기될 것이다.

도 1은 본 발명의 원리들에 따라 콘텐츠 합성 애플리케이션 프로세서를 포함하는 디스플레이 유닛 및 예시적인 컴퓨터를 도시하는 블록도.

도 2는 보다 자세히 본 발명의 콘텐츠 합성 애플리케이션 프로세서를 도시하는 블록도.

도 3은 본 발명의 몇 가지 소프트웨어 모듈들을 도시하는 블록도.

도 4는 본 발명의 콘텐츠 합성 애플리케이션 프로세서가 말하는 얼굴 움직임 구성요소들(SFMC: speaking face movement components)을 획득하는 방법을 도시하는 블록도.

도 5는 본 발명의 콘텐츠 합성 애플리케이션 프로세서가 말하는 얼굴 움직임 구성요소들(SFMC)과, 화자의 음성과 말하는 얼굴 애니메이션을 합성 및 동기화하기 위한 다른 파라미터들을 사용하는 방법을 도시하는 블록도.

도 6은 본 발명의 방법의 유리한 실시예의 제 1 부분의 단계들을 도시하는 흐름도.

도 7은 본 발명의 방법의 유리한 실시예의 제 2 부분의 단계들을 도시하는 흐름도.

도 8은 본 발명의 방법의 유리한 실시예의 제 3 부분의 단계들을 도시하는 흐름도.

이하 논의되는 도 1 내지 도 8과, 본 특허 문서 내 본 발명의 원리들을 기술하기 위해 사용되는 다양한 실시예들은 단지 예시적인 것일 뿐이며 본 발명의 범위를 제한하도록 해석되지 않아야 한다. 본 발명은 어떠한 적절한 시청각 시스템에서 사용될 수 있다.

도 1은 (디스플레이 스크린(114)을 갖는) 디스플레이 유닛(110)과 본 발명의 원리들에 따라 콘텐츠 합성 애플리케이션 프로세서(190)를 포함하는 예시적인 컴퓨터(120)를 도시하는 블록도이다. 컴퓨터(120)는 시청각 신호들의 소스(130)로부터 시청각 신호들을 수신한다. 소스(130)는 컴퓨터(120)에 이전에 기록된 시청각 신호들을 제공할 수 있다. 소스(130)는 또한 컴퓨터(120)에 라이브 또는 "스트리밍" 시청각 신호들을 제공할 수 있다. 컴퓨터(120)는 또한 사용자 입력 유닛(140)으로부터 사용자 입력 신호들을 수신한다. 사용자 입력 유닛(140)은 사용자 입력 신호 들의 어떠한 종래의 소스(예로써, 키보드, 마우스, 컴퓨터 디스크 파일들)를 포함할 수 있다.

컴퓨터(120)는 중앙 처리 유닛(CPU)(150) 및 메모리(160)를 포함한다. 메모리(160)는 운영 시스템 소프트웨어(170) 및 애플리케이션 프로그램들(180)을 포함한다. 컴퓨터(120)는 또한 본 발명의 콘텐츠 합성 애플리케이션 프로세서(190)를 포함한다. 기술상 편의를 위해, 콘텐츠 합성 애플리케이션 프로세서(190)의 구조 및 동작은 CPU(150) 및 메모리(160)와 별개인 유닛으로 기술될 것이다. 그러나, 콘텐츠 합성 애플리케이션 프로세서(19)가 본 발명의 방법을 수행하기 위해 컴퓨터(120) 내 CPU(150) 및 메모리(160)의 설비를 액세스하고 사용할 수 있다는 것이 이해될 것이다.

보다 자세히 기술되는 바와 같이, 콘텐츠 합성 애플리케이션 프로세서(190)는 말하는 화자를 표현하는 소스(130)로부터 시청각 입력 신호들을 분석한다. 콘텐츠 합성 애플리케이션 프로세서(190)는 소스(130)로부터의 시청각 입력 신호들로부터 오디오 피쳐들 및 시각적 피쳐들을 추출하고, 상기 화자의 얼굴의 컴퓨터 생성된 애니메이팅된 버전을 생성하도록 상기 오디오 피쳐들 및 시각적 피쳐들을 사용하며, 그 화자의 음성과 화자의 얼굴의 애니메이팅된 버전을 동기화한다. (음성과 동기화되는) 화자의 얼굴의 컴퓨터 생성된 애니메이팅된 버전은 디스플레이 유닛(110)의 디스플레이 스크린(115) 상에 디스플레이될 수 있다. 디스플레이 유닛(110)은 디스플레이 유닛의 어떠한 종래의 형태(예로써, 텔레비전, 컴퓨터 모니터, 평면 디스플레이 스크린)을 포함할 수 있다.

도 2는 보다 자세히 본 발명의 콘텐츠 합성 애플리케이션 프로세서(190)를 도시하는 블록도이다. 콘텐츠 합성 애플리케이션 프로세서(190)는 메모리 유닛(220)에 시청각 신호들(및 다양한 그의 구성요소들)을 저장할 수 있다. 메모리 유닛(220)은 랜덤 액세스 메모리(RAM)를 포함할 수 있다. 메모리 유닛(220)은 플래시 메모리와 같은 비휘발성 랜덤 액세스 메모리(RAM)를 포함할 수 있다. 메모리 유닛(220)은 하드 디스크 드라이브(도시되지 않음)와 같은 대량의 저장 데이터 디바이스를 포함할 수 있다. 메모리 유닛(220)은 또한 읽기/쓰기 DVD들 또는 다시 쓰기 가능한 CD-ROM들을 판독하는 장착형 병렬 드라이브 또는 이동식 디스크 드라이브(매립형 또는 장착형)를 포함할 수 있다. 도 2에 도시된 바와 같이, 이러한 형태의 이동식 디스크 드라이브들은 다시 쓰기 가능한 CD_ROM 디스크(225)를 수신하고 판독할 수 있다.

콘텐츠 합성 애플리케이션 프로세서(190)는 제어기(230)에 시청각 신호들을 제공한다. 제어기(230)는 또한 콘텐츠 합성 애플리케이션 프로세서(190)로부터 제어 신호들을 수신하고, 콘텐츠 합성 애플리케이션 프로세서(190)에 제어 신호들을 전송할 수 있다. 제어기(230)는 또한 메모리 유닛(220)을 통해 콘텐츠 합성 애플리케이션 프로세서(190)에 연결된다.

도 2에 도시되는 바와 같이, 제어기(230)는 콘텐츠 합성 애플리케이션 소프트웨어(235)를 포함한다. 콘텐츠 합성 애플리케이션 소프트웨어(235)는 본 발명의 방법을 수행할 수 있는 컴퓨터 소프트웨어를 포함한다. 본 발명의 소프트웨어 모듈들의 몇 가지가 도 3에 도시되어 있다.

콘텐츠 합성 애플리케이션 소프트웨어(235)는 (1) 얼굴의 시각적 디스플레이를 획득하기 위한 모듈(310), (2) 얼굴 피쳐들을 트래킹하기 위한 모듈(320), (3) 학습 모듈(330), (4) 오디오의 음성 부분을 획득하기 위한 모듈(340), (5) 음성의 오디오 피쳐들을 추출하기 위한 모듈(350), (6) 얼굴 오디오 시각적 피쳐 매칭 및 분류 모듈(360), (7) 선택된 파라미터들에 대한 얼굴 애니메이션 모듈(370), 및 (8) 말하는 얼굴 애니메이션 및 동기화 모듈(380)을 포함한다. 상기 소프트웨어 모듈들의 기능들은 이하 보다 자세히 기술될 것이다.

콘텐츠 합성 애플리케이션 프로세서(190)는 제어기(230) 및 콘텐츠 합성 애플리케이션 소프트웨어(235)를 포함한다. 제어기(230) 및 콘텐츠 합성 애플리케이션 소프트웨어(235)는 본 발명을 수행할 수 있는 콘텐츠 합성 애플리케이션 프로세서를 함께 포함한다.

이전에 언급된 바와 같이, 콘텐츠 합성 애플리케이션 프로세서(190)는 시청각 입력 신호들로부터 오디오 피쳐들 및 시각적 피쳐들을 추출하고, 화자에 대한 컴퓨터 생성된 애니메이팅된 얼굴을 생성하도록 그 오디오 피쳐들 및 시각적 피쳐들을 사용한다. 콘텐츠 합성 애플리케이션 프로세서(190)는 또한 화자의 음성과 컴퓨터 생성된 애니메이팅된 얼굴을 동기화한다. 이러한 결과를 달성하기 위해, 콘텐츠 합성 애플리케이션 프로세서(190)는 우선적으로 시청각 신호들로부터 오디오 피쳐들 및 시각적 피쳐들을 획득한다.

도 4는 콘텐츠 합성 애플리케이션 프로세서(190)가 시청각 신호들로부터 말하는 얼굴 움직임 구성요소들(SFMC)을 획득하는 방법을 예시하고 있다. 도 4에 도 시된 요소들은 참조 번호(400)로 집합적으로 언급된다. 도 4에서 입력 시청각 신호들은 소스(410)에 의해 표현된다. 소스(410)는 모듈(310)에 시청각 신호들을 제공한다. 모듈(310)은 시청각 신호들로부터 화자의 얼굴의 시각적 디스플레이를 획득한다. 모듈(310)은 Proceedings of Globecom'96, pp.877-881(1996년 11월), 볼륨 2, W.R.Rabiner 및 A.Jacquin에 의한 논문의 명칭이 "장면 콘텐츠의 모션 적응 모델링을 사용하는 오브젝트 트래킹(Object Tracking Using Motion-Adaptive Modeling of Scene Content)"에 기술된 형태의 시스템을 포함할 수 있다. 모듈(310)은 그 후에 모듈(320)에 화자의 얼굴의 시각적 디스플레이를 제공한다.

모듈(320)은 화자의 얼굴의 얼굴 피쳐들을 트래킹한다. 모듈(320)은 Computer Vision and Understanding, pp.23-37(1997), 볼륨 69(1), G.Hager 및 K.Toyama에 의한 논문의 명칭이 "The XVision System:휴대용 실시간 비전 애플리케이션들에 대한 일반적 목적의 기판(A General Purpose Substrate for Portable Real-Time Vision Applications)"에 기술된 형태의 XVision 소프트웨어 시스템을 포함할 수 있다. XVision 시스템은 비디오 스트림 내 에지들, 코너들, 또는 영역들에 따를 수 있는 다수의 서로 다른 피쳐 기반 및 상관 관계 기반 트래커들을 제공한다. 모듈(320)은 학습 모듈(330)에 화자의 얼굴 피쳐들에 대한 트래킹 정보를 제공한다.

시청각 신호들의 소스(410)는 또한 모듈(340)에 시청각 신호들을 제공한다. 모듈(340)은 안면이 모듈(310)에 의해 식별되는 화자에 대한 오디오 신호의 음성 부분을 획득한다. 모듈(340)은 Pattern Recognition Letters, pp.533-544(2001), 볼륨 22(5), Dongge Li, Ishwar K.Seti, Nevenka Dimitrova 및 Thomas McGee에 의한 논문의 명칭이 "콘텐츠 기반 검색에 대한 일반적 오디오 데이터의 분류(Classification of General Audio Data for Content-Based Retrieval)"에 기술된 형태의 시스템을 포함할 수 있다. 모듈(340)은 그 후에 모듈(350)에 화자의 음성을 제공한다. 모듈(350)은 화자의 음성의 오디오 피쳐들을 추출한다. 모듈(350)은 또한 상기 참조된 논문 "콘텐츠 기반 검색에 대한 일반적 오디오 데이터의 분류"에 기술된 형태의 시스템을 포함할 수 있다. 그 후에, 모듈(350)은 학습 모듈(330)에 화자의 음성의 추출된 오디오 피쳐들을 제공한다. 보다 자세히 기술되는 바와 같이, 학습 모듈(330)은 말하는 얼굴 움직임 구성요소들(SFMC)(420)을 획득하기 위해 모듈(320)로부터의 입력과 모듈(350)로부터의 입력을 분류한다. 말하는 얼굴 움직임 구성요소들(SFMC)(420)은 (도 5에 도시되는) 데이터베이스(505)에 저장된다.

학습 모듈(330)은 프로세스들의 몇 가지 서로 다른 형태들을 수행할 수 있는 소프트웨어 모듈을 포함한다. 학습 모듈(330)에 의해 수행되는 프로세스의 일 형태는 바움-웰치 알고리즘(Baum-Welch algorithm)을 사용하여 트레이닝하기 위한 히든 마르코브 모델들을 사용하는 것이다. 학습 모듈(330)에 의해 수행되는 프로세스의 또 다른 형태는 비터비 알고리즘(Viterbi algorithm)을 사용하여 인식을 위해 히든 마르코프 모델들을 사용하는 것이다. 학습 모듈(330)은 또한 히든 마르코프 모델들에 대안적으로 시간 지연 신경망들(Time Delay Neural Networks; TDNN)을 사용한다. 학습 모듈(330)은 또한 의미 연관 계산들을 실행하는 프로세스를 수행할 수 있다.

본 발명의 유리한 일 실시예에 있어서, 학습 모듈(330)은 (모듈(320)로부터 입력된) 화자의 얼굴의 얼굴 피쳐들과 (모듈(350)로부터 입력된) 화자의 음성의 추출된 오디오 피쳐들을 히든 마르코프 모델(HMM)들을 사용하여 분류한다. 모듈(320) 및 모듈(350)로부터의 데이터의 값들은 n 차원 피쳐 벡터 f = f(f₁, f₂, f₃, ... , f_n)의 구성요소들로 사용된다. 상기 피쳐 벡터는 시간 세그먼트에 대해 기록된다. 그에 따라, 관찰 심볼들(observation symbols)이 히든 마르코프 모델(Hidden Markov Model; HMM)에 공급된다.

히든 마르코프 모델(HMM)은 관찰들(심볼들)의 발생을 설명하는 모델을 구성하고, 다른 관찰 시퀀스들을 식별하기 위한 모델을 사용한다. 히든 마르코프 모델(HMM) 및 그것의 애플리케이션들에 관한 백그라운드 정보에 대해서는 Proceedings of the IEEE, 페이지 257 내지 285(1989), 볼륨 77, L.R.Rabiner에 의한 논문 명칭이 "히든 마르코프 모델들 및 음성 인식에서 선택된 애플리케이션들에 대한 지침(A Tutorial on Hidden Markov Models and Selected Application in Speech Recognition)"을 참조한다.

HMM에는 한정된 수의 사용가능한 상태들이 존재하고, HMM은 항상 그러한 상태들 중 하나에 속해 있다. 각각의 클럭 시간에서, HMM은 이전 상태에 의존하는 전이 확률 분포에 기초하여 새로운 상태에 진입한다. 전이가 이루어진 후에, HMM은 최신 상태에 의존하는 확률 분포에 기초하여 출력 심볼을 생성한다. HMM의 형 식적인 정의로 상태들은 Q = {q₁, q₂, q₃, ... , q_N}으로 정의되며, N은 상태들의 수이다. 관찰 심볼들은 V = {v₁, v₂, v₃, ..., v_M}으로 정의되며, M은 심볼들의 수이다. 상태들 사이의 전이 확률 분포는 행렬 A = {a_ij}에 의해 표현되고, a_ij = Pr{q_j at t+1 | q_i at t}이며, 관찰 심볼 확률 분포는 행렬 B = {b_j(k)}에 의해 표현되고, b_j(k)는 최신 상태가 q_j일 때 v_k를 생성시킬 확률이다.

학습 모듈(330)에서 HMM의 동작은 2개의 단계들로 진행한다. 제 1 단계는 트레이닝 단계이고, 제 2 단계는 분류 단계이다. 트레이닝 단계가 우선적으로 기술될 것이다. 학습 모듈(330)은 각각의 HMM이 서로 다른 논리 유닛에 대응하는 복수의 서로 다른 HMM들을 구성한다. 논리 유닛은 단어, 음소, 또는 비셈일 수 있다. 본 발명의 유리한 일 실시예에 있어서, 논리 유닛은 음소이다. 음소는 발음들이 표현되는 음성 언어에서 사운드의 유닛이다. 각각의 음성 언어는 서로 다른 음소들의 세트를 갖는다. 미국 영어의 Longman 사전에 따르면, 미국 영어에는 46개 음소들이 존재한다. 미국 영어에서 음소들의 수는 일부 논쟁의 주제이다. 일부는 40, 43, 48, 또는 50개의 그러한 음소들이 존재하는 것으로 믿고 있다.

본 발명의 또 다른 유리한 실시예에 있어서, 논리 유닛은 비셈이다. 비셈은 특별한 사운드를 기술하기 위해 사용될 수 있는 일반적 얼굴 이미지이다. 사람이 각각의 개별적인 독특한 사운드를 발음할 때, 그 입은 독특한 방식으로 화자의 입술을 형성한다. 그 사운드에 대응하는 얼굴 이미지가 비셈이라 불리워진다. 비셈 은 음소의 시각적 등가물이다. 청각 장애인들은 비셈들을 검사함으로써 시각적으로 사운드들을 볼 수 있다. 이것은 청각 장애인들이 무엇이 말해지는지를 결정하기 위해 화자의 얼굴에서 "입술을 읽는(lip-read)" 방법이다.

학습 모듈(330)은 피쳐 벡터 값들의 집합을 갖는 트레이닝을 통해 복수의 서로 다른 HMM들을 구성한다. HMM 트레이닝은 근본적으로 관찰 시퀀스들의 확률 Pr(O|λ)을 최소화하기 위해 λ = (A, B, π)인 람다(λ)의 조정 파라미터들을 포함한다. 심볼(π)은 초기 상태 분포를 표현하고 π = {π_i}로 정의되며, 여기서 π_i는 HMM의 초기 상태인 상태 q_i의 확률이다. 문자(O)는 관찰 시퀀스(observation sequence)를 표현한다.

학습 모듈(330)은 대화하는 사람의 정면도를 기록함으로써 획득된 데이터의 세트를 수집한다. 미리 정의된 문장들의 수(예로써, 2백 개 문장들)는 음성 데이터베이스의 텍스트 전체로부터 선택된다. 오디오 신호들 및 비디오 신호들 모두는 초당 30프레임들(30 fps)로 디지털화되어 분석된다. 이것은 시청각 트레이닝 데이터 샘플들을 생성한다. 그 데이터 샘플들의 1/2는 트레이닝을 위해 사용된다. 상기 데이터 샘플들의 1/2는 분류(즉, 테스팅)를 위해 사용된다.

우선적으로, 상기 오디오 데이터 샘플들을 고려해 본다. 각각의 음성 세그먼트에 대해, 서로 다른 오디오 계수들의 선택은 오디오 피쳐들로 계산된다. 분류를 위해 사용될 수 있는 다수의 음향상의 피쳐들이 존재한다. 그것들은 MFCC(Mel Cepstral Frequency Coefficients), LPC(Linear Predictive Coding Coefficients), Delta MFCC, Delta LPC, Autocorrelation MFCC, 몇 가지 시간적 피쳐들, 및 몇 가지 스펙트럼 피쳐들을 포함한다. MFCC 피쳐들은 필터 뱅크드(filter-banked) 고속 푸리에 변환(FFT) 스펙트럼들의 이산 코사인 변환(Discrete Cosine Transform; DCT)을 사용하여 추출될 수 있다. 예를 들어, The Journal of the Acoustical Society of America, pp. 293 내지 309(1967), No. 2, 볼륨 41, A.M.Noll에 의한 논문의 명칭이 "셉트럼 피치 결정(Cepstrum Pitch Determination)"을 참조한다. MFCC에 대한 계산들은 시간 축을 따라 윈도우화된 입력 데이터에 대해 프레임 단위로 수행된다. 사용될 수 있는 윈도우들의 형태들은 스퀘어 윈도우(Square window) 및 해밍 윈도우(Hamming window)를 포함한다.

LPC 피쳐들은 자체상관 방법을 사용하여 추출될 수 있다. 예를 들어, IEEE Transactions on Speech and Audio Processing, pp. 117 내지 125(1995년 5월), No. 2, 볼륨 3, R.P.Ramachandrian 등에 의한 논문의 명칭이 "화자 식별에 대해 애플리케이션들을 통한 로버스트 선형 예측 분석 방법들의 비교학(A Comparative Study of Robust Linear Predictive Analysis Methods with Applications to Speaker Identification)"을 참조한다.

델타 MFCC 피쳐들은 다음의 관계를 사용하는 MFCC 피쳐들을 사용하여 추출될 수 있다.

(1)

델타 MFCC의 값은 MFCC의 인접한 값들 사이의 차이이다.

델타 LPC 피쳐들은 다음의 관계를 사용하는 LPC 피쳐들을 사용하여 추출될 수 있다.

(2)

델타 LPC의 값은 LPC의 인접한 값들 사이의 차이이다.

자체상관 MFCC 피쳐들은 다음의 관계를 사용하는 MFCC 피쳐들을 사용하여 추출될 수 있다.

(3)

여기서, 값(L)은 윈도우의 길이를 표현하고 인덱스(i)는 시간 인스턴스(time instance)를 표현하며 인덱스(j)는 또 다른 시간 인스턴스를 표현한다.

이제 시각적 데이터 샘플들을 고려해 본다. 콘텐츠 합성 애플리케이션 프로세서(190)는 시각적 얼굴 움직임 구성요소들을 분석하기 위해 얼굴 모션 트래킹 알고리즘을 사용한다. 시각적 얼굴 움직임 구성요소들은 세분성(granularity)(예로써, 단어, 사운드)의 어떠한 레벨에서 얼굴 왜곡들(즉, 정적 모델로부터의 변형들)에 대응한다. 출력들은 특정한 말하는 얼굴 움직임 구성요소(SFMC) 파라미터들에 대응하는 트레이닝된 HMM들이다. 이러한 데이터 세트는 오디오 대 시각적 맵핑에 대한 트레이닝을 위해 사용된다. 트레이닝 절차의 목표는 모든 HMM들에 대해 모델들(λ)을 찾는 것이다. 본 발명의 그래픽 조작된 얼굴 애니메이션 시스템 및 방법은 사람 얼굴에 관련되는 멀티미디어 정보를 전달 및 디스플레이하는 문제에 대해 효과적인 해결책을 제공한다.

본 발명의 또 다른 유리한 실시예에 있어서, 논리 유닛은 시청각 입력 벡터 이다. 트레이닝 프로세스 동안, 학습 모듈(330)은 시청각 입력 벡터를 생성하도록 오디오 피쳐들 및 비디오 피쳐들을 연관시킨다. 시청각 입력 벡터는 말해지는 음소를 표현하는 특별한 시청각 말하는 얼굴 움직임 구성요소에 대응하는 음소들 및 비셈들 모두에 대한 속성들을 나타내는 논리 유닛이 시청각 입력 벡터인 하이브리드 논리 유닛(hybrid logical unit)이다. 출력들은 특정 말하는 얼굴 움직임 구성요소(SFMC) 파라미터들에 대응하는 트레이닝된 HMM들이다.

Computer Graphics Proceedings, pp. 21 내지 28(1999년 8월), ACM SIGGRAPH, Matthew Brand에 의한 논문 명칭이 "음성 퍼피트리(Voice Puppetry)"에 기술된 것과 같은 종래 시스템을 고려한다. 음성 퍼피트리 시스템(Voice Puppetry system)에 있어서, 관련된 말하기 얼굴 움직임 구성요소들은 오직 시각적 스페이스에서만 존재한다. 반대로, 본 발명에서 관련된 말하는 얼굴 움직임 구성요소들은 시청각 스페이스 내에 있다. 시청각 스페이스 내 말하는 얼굴 움직임 구성요소들을 사용하는 장점은 그것이 보다 포괄적이며 정확한 분석을 제공한다는 것이다. 예를 들어, 시각적 스페이스에서 음절 "pa" 및 음절 "ba"는 동일하게 보인다. 그러나, 그 음절들의 발음은 서로 다르다. 본 발명의 시청각 스페이스에 있어서, "pa" 음절의 시청각 입력 벡터와 "ba" 음절의 시청각 입력 벡터는 명확히 구별된다.

학습 모듈(330)은 또한 각각의 시청각 입력 벡터에 대해 음소 및 비셈 사이의 맵핑을 식별하도록 의미 연관(또한 크로스 모달 연관(cross modal association)으로 언급됨)을 제공한다. 크로스 모달 연관에 있어서, 서로 다른 미디어 소스들( 예로써, 오디오 및 이미지들)로부터 추출된 저 레벨 피쳐들은 동기화된 상관관계 패턴들에 기초하여 서로에 대해 매칭될 수 있다. 추가로, 크로스 모달 연관은 미디어 소스의 서로 다른 형태(예로써, 이미지 시퀀스들) 상의 콘텐츠에 대해 탐색하기 위해 미디어 소스의 제 1 형태(예로써, 오디오)로부터 쿼리(query)를 사용하는데 활용될 수 있다. 예를 들어, 2002년 11월 15일 출원된 미국 특허 출원서 일련 번호[사건 번호 703002], D.Li 및 N.Dimitrova에 의한 명칭이 "의미 연관에 기초한 콘텐츠 검색(Content Retrieval Based on Semantic Association)"을 참조한다. 명칭이 "의미 연관에 기초한 콘텐츠 검색"인 상기 특허 출원서는 본 발명의 양수인에 의해 소유되고, 모든 목적들에 대한 참조로 본 명세서에 통합된다.

학습 모듈(330)에 의해 활용되는 크로스 모달 테크닉은 이전에 언급된 음성 퍼피트리 시스템에서 사용되는 것과 같은 종래 기술 테크닉들보다 훨씬 더 효율적이다. 음성 퍼피트리 시스템은 오디오 및 시각적 패턴들을 연관시키기 위해 매우 복잡하고 고가의 방법을 필요로 한다. 학습 모듈(330)에 의해 활용되는 크로스 모달 탐색은 전통적인 콘텐츠 기반 멀티미디어 검색 시스템들과 유사한 방식으로 저 레벨 피쳐들에 대해 직접적으로 기초한다. 학습 모듈(330)에 의해 활용되는 크로스 모달 탐색은 (1) 잠재적 의미 인덱싱, (2) 표준 상관, 또는 (3) 크로스 모달 팩터 분석 중 어느 것을 사용할 수 있다.

잠재적 의미 인덱싱(LSI)은 서로 다른 텍스추얼 유닛들(예로써, 키보드들 및 패러그래프들) 사이의 기초가 되는 의미 관계를 발견하기 위해 사용되는 텍스트 정보 검색에서 강력한 툴이다. 시각적 얼굴들 및 연관된 음성 사이의 의미 상관관계 를 검출하기 위한 방법은 LSI에 기초할 수 있다. 이러한 방법은 조인트 멀티모달 피쳐 스페이스(joint multimodal feature space)의 구성, 정규화, 단일 값 분해(SVD: singular value decomposition), 및 의미 연관 측정의 4 단계로 구성된다.

각각의 t 비디오 프레임들에서 n이 시각적 피쳐들로 제시되고 m이 오디오 피쳐들로 제시되면, 조인트 피쳐 스페이스는,

(1)

로 표현될 수 있고, 여기서,

(2)

및

(3)

이다.

다양한 시각적 및 오디오 피쳐들은 상당히 서로 다른 편차들을 가질 수 있다. 따라서, 그것의 최대 요소들(또는 어떤 다른 통계적 측정들)에 따른 조인트 스페이스(joint space)에서 각각의 피쳐의 정규화가 필요하고,

(4)

로 표현될 수 있다.

정규화 후에 정규화된 행렬

에서 모든 요소들은 -1 및 1 사이의 값들을 가진다. SVD는 그 후에 다음에 따라 수행될 수 있다.

(5)

여기서, S 및 D는 왼쪽 및 오른쪽 단일 벡터들을 구성하는 행렬들이며 V는 내림차순에 따른 단일 값들의 직교 행렬이다.

S 및 D에서 우선적으로 가장 중요한 k 단일 벡터들만을 유지하면, 감소된 피쳐 차원들을 통해

의 최적 근사치를 유도할 수 있고, 여기서 시각적 및 오디오 피쳐들 사이의 의미 (상관관계) 정보는 대부분 보존되며 관련없는 노이즈가 상당히 감소된다. 전통적인 사람 상관관계 또는 상호 정보 계산은 그에 따라 서로 다른 모달리티들(modalities) 사이의 의미 연관들을 효과적으로 식별 및 측정하도록 사용될 수 있다. 실험들은 전통적인 상관관계 계산의 직접적인 사용을 통해 LSI의 유효성 및 그것의 장점들을 보여주고 있다.

최소 제곱 센스에 따라

의 상기 최적화는,

(6)

으로 표현될 수 있고, 여기서

,

, 및

은 S, V, 및 D에서 각각 제 1 k 벡터들로 구성된다. k에 대한 적절한 값의 선택은 여전히 본 분야에서 개방된 문제로 남아 있다. 일반적으로, k는 의미 구조들의 대부분을 유지하기 위해 충분히 커야 하고 일부 관련없는 노이즈를 제거하기 위해 충분히 작아야 한다. 방정식(6)은 분해가 플라이(fly)에 대해 수행되어야 하기 때문에 글로벌 또는 오프-라인 트레이닝을 사용하는 애플리케이션들에 대해 적용가능하지 않다. 그러나, 단일 벡터들의 직교 속성으로 인해 다음과 같은 새로운 식으로 다시 쓸 수 있다.

(7)

유도된 이러한 새로운 식(7)은 글로벌 또는 오프라인 트레이닝된 SVD 결과들을 필요로 하는 그러한 애플리케이션들에 대해 중요하다.

새로운 들어오는 오디오의 분석은 매칭하는 비디오 및 가장 가능성 높은 움직임들을 찾기 위한 의미 연관 방법에 의해 수행될 수 있다. 의미 연관의 모든 3개 방법들에서, 변환 행렬들은 저 레벨 피쳐들을 감소된 피쳐 스페이스로 변환하도록 사용되고, 여기서 미디어 소스들의 서로 다른 형태들의 탐색 후보들 및 쿼리 사이의 매칭이 평가될 수 있다. 예를 들어, 잠재적인 의미 인덱싱에 대해 상기 방정식(7)으로부터 유도된 변환 행렬들을 사용할 것이다. 그에 따라, 매칭의 평가는 가장 높은 상관관계(즉, 최상의 매치)를 찾기 위해 변환된 스페이스에서 사람 상관관계 또는 상호 정보에 기초하여 수행될 수 있다.

본 발명의 또 다른 유리한 실시예에 있어서, 학습 모듈(330)은 시간 지연 신경망(TDNN)을 사용하여 (모듈(320)로부터 입력된) 화자의 얼굴의 얼굴 피쳐들과 (모듈(350)로부터 입력된) 화자의 음성의 추출된 오디오 피쳐들을 분류한다. 시간 지연 신경망들(TDNN들)의 일반적 구조를 고려하는 백그라운드 정보에 대해, Proceedings of the European Signal Processing Conference, 1996년, S.Curinga 등에 의한 논문의 명칭이 "시간 지연을 사용하는 입술 움직임들 합성(Lip Movements Synthesis Using Time-Delay)"을 참조한다.

TDNN들은 음소 인식 없이 조음 파라미터들(articulatory parameters)의 추정을 제공하고 공통 조음 효과들(co-articulatory effects)을 적절히 모델링 할 수 있다. TDNN에서 뉴런들의 활성화들은 윈도우의 각각의 포지션에 대해 입력 윈도우의 가중된 합의 계산에 의해, 그리고 그 합에 시그모이드 활성화 함수(sigmoid activation function)를 적용함으로써 각각의 뉴런(neuron)에 대해 계산된다. (분배된 가중치들을 갖는 수용 필드들(receptive fields)이라 불리는) 입력 노드들의 각각의 그룹은 각각의 시간 단계에서 한 단계 더 윈도우들을 통해 진전하는 입력 심볼 스트림(input symbol stream)의 작은 윈도우만을 취한다. 숨겨진 층의 출력은 또한 분배된 가중치들을 사용하여 수용 윈도우들(receptive windows)을 통해 커버된다. 네트워크 출력은 출력 뉴런들의 서로 다른 시간 단계들의 제곱들의 합으로 구성된다.

트레이닝 프로세스에 대한 TDNN으로의 입력은 HMM의 경우에서와 같이 일련의 입력 심볼들로 구성된다. TDNN에 의해 실행되는 분류 프로세스는 HMM에 의해 수행되는 것과 유사하다. 학습 모듈(330)은 또한 이전에 기술된 형태의 시청각 입력 벡터들을 생성하기 위해 (모듈(320)로부터 입력된) 화자의 얼굴의 얼굴 피쳐들과 (모듈(350)로부터 입력된) 화자의 음성의 추출된 오디오 피쳐들을 분류하도록 TDNN을 사용할 수 있다.

도 5는 콘텐츠 합성 애플리케이션 프로세서(190)가 화자의 음성과 말하는 얼굴 애니메이션을 합성 및 동기화하기 위해 말하는 얼굴 움직임 구성요소들(SFMC) 및 다른 파라미터들을 사용하는 방법을 도시한다. 도 5에 도시된 요소들은 얼굴 애니메이션 유닛(500)으로 집합적으로 언급된다. 원거리 위치에서 통신 채널을 통해 신호들의 송신을 포함하는 어떠한 애플리케이션에 있어서, 얼굴 애니메이션 유 닛(500)은 그 통신 채널의 수신기 엔드(receiver end)에 위치될 수 있다. 분류 프로세스는 통신 채널의 전송자 엔드(sender end)에서 수행된다. 얼굴 애니메이션 및 동기화 프로세스는 통신 채널의 수신기 엔드에서 수행된다.

얼굴 애니메이션 유닛(500)의 얼굴 시청각 피쳐 매칭 및 분류 모듈(360)은 데이터베이스(505)에 연결되어 그 데이터베이스(505)로부터 입력을 수신한다. 데이터베이스(505)는 말하는 얼굴 움직임 구성요소들(SFMC)을 포함한다. 얼굴 시청각 피쳐 매칭 및 분류 모듈(360)은 또한 말하는 얼굴 시각적 파리미터들 모듈(510)로부터 말하는 얼굴 시각적 파라미터들을 수신한다. 음성 모듈(520)은 화자의 말해진 단어들에 대한 오디오를 오디오 피쳐 추출 모듈(530)에 제공한다. 오디오 피쳐 추출 모듈(530)은 음성으로부터 오디오 피쳐들을 추출하여 그것들을 얼굴 시청각 매칭 및 분류 모듈(360)에 제공한다.

상기 분류 프로세스 동안, 동일한 시청각 심볼들이 트레이닝 프로세스에 대해 이전에 기술된 것과 같은 동일한 방식으로 시청각 신호들로부터 추출된다. 얼굴 시청각 피쳐 매칭 및 분류 모듈(360)은 시청각 피쳐들을 트레이닝 프로세스에 대해 이전에 기술된 미리 정의된 클래스들 중 하나로 분류하기 위해 분류 프로세스를 수행한다. 분류 프로세스에 대한 세분성(예로써, 단어들, 음소들)는 트레이닝 프로세스와 같이 동일한 레벨의 세분성이다.

얼굴 시청각 피쳐 매칭 및 분류 모듈(360)은 그 후에 선택된 파라미터들에 대한 얼굴 애니메이션 모듈(370)로 분류 정보를 전송한다. 선택된 파라미터들에 대한 얼굴 애니메이션 모듈(370)은 3차원(3D) 얼굴 모델 모듈(540) 및 텍스추얼 맵 들 모듈(550)로부터 추가적인 입력을 수신한다. 선택된 파라미터들에 대한 얼굴 애니메이션 모듈(370)은 적절한 분류에 대응하는 얼굴 애니메이션 파라미터들을 사용하여 화자의 얼굴을 합성한다(즉, 화자의 얼굴의 컴퓨터 생성된 애니메이팅된 버전을 생성한다).

대부분의 종래의 시스템들은 음소 기반 또는 비셈 기반 입술 동기식 시스템들이다. 그러한 시스템들은 포즈들 사이의 보간(interpolating) 또는 스플라이닝(splining)에 의해 화자의 얼굴을 합성하는 문제점을 제기하고 있다. 반대로, 본 발명은 개별적 비셈 시퀀스들(viseme sequences) 뿐만 아니라 개별적 비셈 시퀀스들의 시퀀스들을 찾기 위해 의미 (크로스 모달) 연관을 사용한다.

선택된 파라미터들에 대한 얼굴 애니메이션 모듈(370)의 출력은 그 후에 말하는 얼굴 애니메이션 및 동기화 모듈(380)에 전송된다. 말하는 얼굴 애니메이션 및 동기화 모듈(380)은 또한 음성 모듈(520)로부터 입력을 수신한다. 말하는 얼굴 애니메이션 및 동기화 모듈(380)은 화자의 음성과 동기화되는 화자의 얼굴의 애니메이팅된 이미지를 생성 및 출력하기 위해 음성 모듈(520)로부터의 음성 입력과 얼굴 애니메이션 정보를 동기화한다.

선택적인 오디오 표현 분류 모듈(560)은 오디오 피쳐 추출 모듈(530)과 말하는 얼굴 애니메이션 및 동기화 모듈(380) 사이에 연결될 수 있다. 오디오 표현 분류 모듈(560)은 오디오 표현의 레벨(예로써, 큰 음성, 흥분된 음성, 일반적인 음성, 부드러운 음성)을 결정하고, 그 결정에 따라 오디오를 분류할 수 있다. 오디오 표현 분류에 기초하여, 말하는 얼굴 애니메이션 및 동기화 모듈(380)은 화자의 얼굴의 얼굴 애니메이션을 보다 정확히 표현하기 위해 어떠한 피쳐들을 강조하도록 애니메이팅된 얼굴 파라미터들을 수정할 수 있다.

도 6은 본 발명의 방법의 유리한 실시예의 제 1 부분의 단계들을 도시하는 흐름도이다. 도 6에 도시된 방법의 단계들은 참조 번호(600)으로 집합적으로 언급된다. 제 1 단계에서, 콘텐츠 합성 애플리케이션 프로세서(190)는 말하는 화자의 시청각 신호들을 수신한다(단계 610). 콘텐츠 합성 애플리케이션 프로세서(190)는 화자의 얼굴의 시각적 디스플레이를 획득하기 위해 시청각 신호들을 분석한다(단계 620). 콘텐츠 합성 애플리케이션 프로세서(190)는 그 후에 화자의 공간 피쳐들에 대한 트래킹 정보를 획득한다(단계 630). 학습 모듈(330)은 그 후에 각각의 말하는 얼굴 움직임 구성요소(SFMC)를 표현하기 위해 히든 마르코프 모델을 사용하여 시각적 얼굴 움직임 구성요소들을 분류한다(단계 640). 본 발명의 방법은 그 후에 도 7에 도시된 단계(710)로 진행한다(단계 650).

단계(620)에서 기술된 동작과 동시에, 콘텐츠 합성 애플리케이션 프로세서(190)는 화자의 음성을 포함하는 오디오의 부분을 획득한다(단계 660). 콘텐츠 합성 애플리케이션 프로세서(190)는 그 후에 화자의 음성의 오디오 피쳐들을 추출한다(단계 670). 학습 모듈(330)은 그 후에 각각의 오디오 논리 유닛(예로써, 음소)을 표현하기 위해 히든 마르코프 모델을 사용하여 오디오 피쳐들을 분류한다(단계 680). 본 발명의 방법은 그 후에 도 7에 도시된 단계(710)로 진행한다(단계 650).

도 7은 본 발명의 방법의 유리한 실시예의 제 2 부분의 단계들을 도시하는 흐름도이다. 도 7에 도시된 방법의 단계들은 참조 번호(700)로 집합적으로 언급된 다. 도 7에 도시된 제 1 단계에 있어서, 콘텐츠 합성 애플리케이션 프로세서(190)는 입력으로 (1) 분석될 새로운 오디오 신호, (2) 단계(640)로부터의 말하는 얼굴 움직임 구성요소들(SFMC), (3) 단계(680)로부터의 분류된 오디오 피쳐들을 수신한다(단계 710). 콘텐츠 합성 애플리케이션 프로세서(190)는 그 후에 각각의 대응하는 분류된 오디오 피쳐와 각각의 말하는 얼굴 구성요소(SFMC)를 매칭시킨다(단계 720). 그 후에, 콘텐츠 합성 애플리케이션 프로세서(190)는 각각의 선택된 시청각 파라미터에 대해 화자를 표현하는 컴퓨터 생성된 애니메이팅된 얼굴을 생성한다(단계 730).

콘텐츠 합성 애플리케이션 프로세서(190)는 화자의 음성과 화자의 각각의 컴퓨터 생성된 애니메이팅된 얼굴을 동기화한다(단계 740). 이것은 화자의 음성과 동기화되는 화자의 얼굴의 시청각 표현을 생성한다. 화자의 얼굴의 시청각 표현이 그 후에 디스플레이 유닛(110)에 출력된다(단계 750).

도 8은 본 발명의 방법의 유리한 실시예의 제 3 부분의 단계들을 도시하는 흐름도이다. 도 8에 도시된 방법의 단계들은 참조 번호(800)으로 집합적으로 언급된다. 학습 모듈(330)은 시청각 입력 벡터들을 수신하고 히든 마르코프 모델들을 사용하여 시청각 말하는 얼굴 움직임 구성요소들(SFMC들)을 생성한다(단계 810). 학습 모듈(330)은 시청각 입력 벡터들을 수신하고, 시청각 말하는 얼굴 움직임 구성요소들(SFMC들)을 생성하고, 음소들 및 비셈들 사이의 연관(즉, 맵핑(mapping))을 획득하기 위해 의미 연관을 사용한다(단계 820).

콘텐츠 합성 애플리케이션 프로세서(190)는 그 후에 분석될 새로운 오디오 신호를 수신하고 모듈(350)을 사용하여 화자의 음성의 오디오 피쳐들을 추출한다(단계 830). 콘텐츠 합성 애플리케이션 프로세서(190)는 그 후에 추출된 오디오 피쳐들에 대응하는 비디오 표현들을 찾기 위해 의미 연관을 사용한다(단계 840). 콘텐츠 합성 애플리케이션 프로세서(190)는 그 후에 히든 마르코프 모델들을 사용하여 오디오 표현들과 시청각 말하는 얼굴 움직임 구성요소들(SFMC들)을 매칭시킨다(단계 850).

그 후에, 콘텐츠 합성 애플리케이션 프로세서(190)는 각각의 선택된 시청각 말하는 얼굴 움직임 구성요소들(SFMC)에 대해 화자를 표현하는 컴퓨터 생성된 애니메이팅된 얼굴을 생성한다(단계 860). 콘텐츠 합성 애플리케이션 프로세서(190)는 화자의 각각의 컴퓨터 생성된 애니메이팅된 얼굴과 화자의 음성을 동기화한다(단계 870). 이것은 화자의 음성과 동기화되는 화자의 얼굴의 시청각 표현을 생성한다. 화자의 얼굴의 시청각 표현은 그 후에 디스플레이 유닛(110)에 출력된다(단계 880).

이전에 기술된 단계들(730, 740, 750)과 이전에 기술된 단계들(860, 870, 880)에 있어서, 컴퓨터 그래픽들 접근 방식이 얼굴들을 애니메이트하기 위해 사용되었다. 그러나, 대안적인 방법이 사용될 수 있다. 대안적인 방법에 있어서, 화자의 저장된 비디오 세그먼트들은 말해진 구절 또는 문장에 대응하는 시각적 출력을 발생시키기 위해 사용된다. 의미 연관을 사용하여 시청각 세그먼트들을 획득한 후에, 비디오 세그먼트들의 시퀀스가 획득될 것이다. 각각의 이러한 세그먼트들은 개별적 음소에 대응한다. 그러나, "스티칭(stitching)" 시간 포인트들의 프로세스 에서 결과적인 비디오는 경련성 패턴(jerky pattern)을 나타낼 수 있다. 이러한 세그먼트들은 전체 문장 또는 구절에 대응하는 단독의 비디오로 함께 에디팅될 수 있다. 비디오 모핑(video morphing) 및 에디팅(editing)은 개별적 비디오 세그먼트들 사이의 경련성을 감소시키기 위해 사용될 수 있다. 이러한 접근 방식에 대한 장점은 컴퓨터 그래픽들 접근 방식에 기초하는 텍스쳐 맵핑과 3D 모델들을 사용할 필요가 없다는 것이다.

본 발명의 시스템 및 방법은 예를 들어 비디오 회의, 인터랙티브 비디오 애플리케이션들, 및 오브젝트 레벨 비디오 에디팅에서 사용될 수 있다. 말해진 음성에 대응하는 얼굴 모션들을 정확하게 표현하는 애니메이팅된 얼굴을 나타내기 위해, 사용자는 단지 텍스트 또는 음성만을 송신하면 된다. 본 발명은 송신의 수신 엔드에서 시각적 음성 요소들을 합성함으로써 텍스트의 말해진 버전을 나타내도록 애니메이팅된 대화하는 얼굴을 생성할 것이다. 본 발명의 시스템 및 방법은 송신 채널에 걸쳐 오디오 신호를 송신한다. 본 발명의 방법은 또한 말해지는 단어들에 대해 정확한 시각적 피쳐들을 나타내도록 하기 위해 애니메이팅된 얼굴을 구현하는 방법을 송신의 수신 엔드에 전하는 몇 가지 파라미터들을 송신한다. 그 파라미터들은 전송자 엔드에서 수행되는 시청각 분류와 관련이 있다.

본 명세서 전반에 걸쳐서, 본 발명은 말하는 얼굴 움직임 구성요소들(SFMC)을 생성하고 사용할 수 있는 것으로 기술되어 있다. 본 발명이 말하는 얼굴 움직임 구성요소들(SFMC)을 생성하고 사용하는데 제한되지 않는다는 것을 이해할 것이다. 본 발명은 또한 시청각 구성들의 다른 형태들을 생성 및 사용할 수 있다. 말 하는 얼굴 움직임 구성요소는 본 발명이 생성 및 사용할 수 있는 시청각 구성의 단지 특정한 일 실시예이다.

본 발명이 그의 어떠한 실시예들과 관련하여 상세히 기술되는 동안, 당업자들은 본 발명의 가장 포괄적인 형태로 그의 개념 및 범위로부터 벗어나지 않으며 본 발명에서 다양한 변화들, 대체들, 수정들, 개조들, 및 적응들이 이루어질 수 있다는 것을 이해해야 한다.

Claims

말하는 화자를 표현하는 시청각 입력 신호들을 수신할 수 있고, 상기 화자의 음성을 표현하는 복수의 오디오 논리 유닛들을 사용하여 상기 화자의 얼굴의 애니메이팅된 버전(animated version)을 생성할 수 있는 디지털 통신 시스템 내 장치에 있어서,

상기 시청각 입력 신호들로부터 상기 화자의 음성의 오디오 피쳐들 및 상기 화자의 얼굴의 시각적 피쳐들을 추출하고,

상기 오디오 피쳐들 및 상기 시각적 피쳐들로부터 시청각 입력 벡터들을 생성하고,

상기 시청각 입력 벡터들로부터 시청각 구성들을 생성하고,

상기 화자의 음성을 표현하는 음소들(phonemes)과 상기 화자의 얼굴을 표현하는 비셈들(visemes) 사이의 연관을 획득하기 위해 상기 시청각 입력 벡터들에 의미 연관 절차(semantic association procedure)를 수행하는, 콘텐츠 합성 애플리케이션 프로세서를 포함하는, 디지털 통신 시스템 내 장치.
제 1 항에 있어서,

상기 콘텐츠 합성 애플리케이션 프로세서는:

화자의 음성의 오디오 피쳐들을 추출하는 단계;

의미 연관 절차를 사용하여 상기 오디오 피쳐들에 대한 대응하는 비디오 표 현들을 찾는 단계; 및

상기 시청각 구성들과 상기 대응하는 비디오 표현들을 매칭시키는 단계에 의해, 입력 오디오 신호를 분석할 수 있는, 디지털 통신 시스템 내 장치.
제 2 항에 있어서,

상기 콘텐츠 합성 애플리케이션 프로세서는, 또한:

각각의 선택된 시청각 구성에 대해 컴퓨터 생성된 애니메이팅된 얼굴을 생성하고,

상기 화자의 음성과 각각의 컴퓨터 생성된 애니메이팅된 얼굴을 동기화하고,

상기 화자의 음성과 동기화된 상기 화자의 얼굴의 시청각 표현을 출력할 수 있는, 디지털 통신 시스템 내 장치.
제 1 항에 있어서,

상기 콘텐츠 합성 애플리케이션 프로세서가 상기 시청각 입력 신호들로부터 추출하는 상기 오디오 피쳐들은:

멜 셉트럴 주파수 계수들(Mel Cepstral Frequency Coefficients), 선형 예측 코딩 계수들(Linear Predictive Coding Coefficients), 델타 멜 셉트럴 주파수 계수들(Delta Mel Cepstral Frequency Coefficients), 델타 선형 예측 코딩 계수들(Delta Linear Predictive Coding Coefficients), 및 자체상관 멜 셉트럴 주파수 계수들(Autocorrelation Mel Cepstral Frequency Coefficients) 중 하나를 포함하 는, 디지털 통신 시스템 내 장치.
제 1 항에 있어서,

상기 콘텐츠 합성 애플리케이션 프로세서는 히든 마르코프 모델(Hidden Markov Model) 및 시간 지연 신경 회로망(Time Delayed Neural Network) 중 하나를 사용하여 상기 시청각 입력 벡터들로부터 시청각 구성들을 생성하는, 디지털 통신 시스템 내 장치.
제 2 항에 있어서,

상기 콘텐츠 합성 애플리케이션 프로세서는 히든 마르코프 모델 및 시간 지연 신경 회로망 중 하나를 사용하여 상기 시청각 구성들과 상기 대응하는 비디오 표현들을 매칭시키는, 디지털 통신 시스템 내 장치.
제 3 항에 있어서,

상기 콘텐츠 합성 애플리케이션 프로세서는:

얼굴 애니메이션 파라미터를 생성하도록 대응하는 분류된 오디오 피쳐와 복수의 시청각 구성들 각각을 매칭시키는 얼굴 시청각 피쳐 매칭과 분류 모듈; 및

선택된 얼굴 애니메이션 파라미터에 대해 상기 화자의 얼굴의 애니메이팅된 버전을 생성하는 선택된 파라미터들에 대한 얼굴 애니메이션 모듈을 더 포함하는, 디지털 통신 시스템 내 장치.
제 7 항에 있어서,

상기 선택된 파라미터들에 대한 얼굴 애니메이션 모듈은 (1) 텍스쳐 맵핑(texture mapping)을 통한 3D 모델들 및 (2) 비디오 에디팅 중 하나를 사용하여 상기 화자의 얼굴의 애니메이팅된 버전을 생성하는, 디지털 통신 시스템 내 장치.
제 2 항에 있어서,

상기 의미 연관 절차는 잠재적 의미 인덱싱(latent semantic indexing), 표준 상관(canonical correlation), 및 크로스 모달 팩터 분석(cross modal factor analysis) 중 하나를 포함하는, 디지털 통신 시스템 내 장치.
제 1 항에 있어서,

상기 시청각 구성들은 시청각의 말하는 얼굴 움직임 구성요소들을 포함하는, 디지털 통신 시스템 내 장치.
제 8 항에 있어서,

상기 콘텐츠 합성 애플리케이션 프로세서는:

상기 화자의 음성과 동기화되는 상기 화자의 얼굴의 시청각 표현을 생성하도록 상기 화자의 음성의 상기 오디오 피쳐들과 상기 화자의 얼굴의 각각의 애니메이팅된 버전을 동기화하는 말하는 얼굴 애니메이션 및 동기화 모듈; 및

상기 화자의 음성의 오디오 표현의 레벨을 결정하고, 상기 화자의 애니메이팅된 얼굴 파라미터들을 수정하도록 사용하기 위한 상기 말하는 얼굴 애니메이션 및 동기화 모듈에 상기 화자의 음성의 오디오 표현의 상기 레벨을 제공하는 오디오 표현 분류 모듈을 더 포함하는, 디지털 통신 시스템 내 장치.
비디오 이미지 프로세서에서 시청각 콘텐츠를 합성하는데 사용하는 방법에 있어서:

말하는 화자를 나타내는 시청각 입력 신호들을 수신하는 단계;

상기 음성-입력 신호들로부터 상기 화자의 음성의 오디오 피쳐들 및 상기 화자의 얼굴의 시각적 피쳐들을 추출하는 단계;

상기 오디오 피쳐들 및 상기 시각적 피쳐들로부터 시청각 입력 벡터들을 생성하는 단계;

상기 시청각 입력 벡터들로부터 시청각 구성들을 생성하는 단계; 및

상기 화자의 음성을 나타내는 음소들과 상기 화자의 얼굴을 나타내는 비셈들 사이의 연관을 획득하기 위해 상기 시청각 입력 벡터들에 의미 연관 절차를 수행하는 단계를 포함하는, 시청각 콘텐츠 합성에 사용하는 방법.
제 12 항에 있어서,

화자의 음성의 입력 오디오 신호를 분석하는 단계;

상기 화자의 음성의 오디오 피쳐들을 추출하는 단계;

의미 연관 절차를 사용하여 상기 오디오 피쳐들에 대한 대응하는 비디오 표현들을 찾는 단계; 및

상기 시청각 구성들과 상기 대응하는 비디오 표현들을 매칭시키는 단계를 더 포함하는, 시청각 콘텐츠 합성에 사용하는 방법.
제 13 항에 있어서,

각각의 선택된 시청각 구성에 대해 컴퓨터 생성된 애니메이팅된 얼굴을 생성하는 단계;

상기 화자의 음성과 각각의 컴퓨터 생성된 애니메이팅된 얼굴을 동기화하는 단계; 및

상기 화자의 음성과 동기화된 상기 화자의 얼굴의 시청각 표현을 출력하는 단계를 더 포함하는, 시청각 콘텐츠 합성에 사용하는 방법.
제 12 항에 있어서,

상기 시청각 입력 신호들로부터 추출되는 상기 오디오 피쳐들은: 멜 셉트럴 주파수 계수들, 선형 예측 코딩 계수들, 델타 멜 셉트럴 주파수 계수들, 델타 선형 예측 코딩 계수들, 및 자체상관 멜 셉트럴 주파수 계수들 중 하나를 포함하는, 시청각 콘텐츠 합성에 사용하는 방법.
제 12 항에 있어서,

상기 시청각 구성들은 히든 마르코프 모델 및 시간 지연 신경 회로망 중 하나를 사용하여 상기 시청각 입력 벡터들로부터 생성되는, 시청각 콘텐츠 합성에 사용하는 방법.
제 13 항에 있어서,

상기 대응하는 비디오 표현들은 히든 마르코프 모델 및 시간 지연 신경 회로망 중 하나를 사용하여 상기 시청각 구성들과 매칭되는, 시청각 콘텐츠 합성에 사용하는 방법.
제 12 항에 있어서,

얼굴 애니메이션 파라미터를 생성하도록 대응하는 분류된 오디오 피쳐와 복수의 시청각 구성들 각각을 매칭시키는 단계; 및

선택된 얼굴 애니메이션 파라미터에 대해 상기 화자의 얼굴의 애니메이팅된 버전을 생성하는 단계를 더 포함하는, 시청각 콘텐츠 합성에 사용하는 방법.
제 18 항에 있어서,

(1) 텍스쳐 맵핑을 통한 3D 모델들 및 (2) 비디오 에디팅 중 하나를 사용하여 상기 화자의 얼굴의 애니메이팅된 버전을 생성하는 단계를 더 포함하는, 시청각 콘텐츠 합성에 사용하는 방법.
제 13 항에 있어서,

상기 의미 연관 절차는 잠재적 의미 인덱싱, 표준 상관, 및 크로스 모달 팩터 분석 중 하나를 포함하는, 시청각 콘텐츠 합성에 사용하는 방법.
제 12 항에 있어서,

상기 시청각 구성들은 시청각 말하는 얼굴 움직임 구성요소들을 포함하는, 시청각 콘텐츠 합성에 사용하는 방법.
제 20 항에 있어서,

상기 화자의 음성의 상기 오디오 피쳐들과 상기 화자의 얼굴의 각각의 애니메이팅된 버전을 동기화하는 단계;

상기 화자의 음성과 동기화되는 상기 화자의 얼굴의 시청각 표현을 생성하는 단계;

상기 화자의 음성의 오디오 표현의 레벨을 결정하는 단계; 및

상기 화자의 음성의 오디오 표현의 상기 레벨의 결정에 응답하여 상기 화자의 애니메이팅된 얼굴 파라미터들을 수정하는 단계를 더 포함하는, 시청각 콘텐츠 합성에 사용하는 방법.
비디오 이미지 프로세서에서 시청각 콘텐츠를 합성하는 방법에 의해 생성되는 합성된 시청각 신호에 있어서,

상기 시청각 콘텐츠 합성 방법은:

말하는 화자를 표현하는 시청각 입력 신호들을 수신하는 단계;

상기 시청각 입력 신호들로부터 상기 화자의 음성의 오디오 피쳐들 및 상기 화자의 얼굴의 시각적 피쳐들을 추출하는 단계;

상기 오디오 피쳐들 및 상기 시각적 피쳐들로부터 시청각 입력 벡터들을 생성하는 단계;

상기 시청각 입력 벡터들로부터 시청각 구성들을 생성하는 단계; 및

상기 화자의 음성을 표현하는 음소들과 상기 화자의 얼굴을 표현하는 비셈들 사이의 연관을 획득하기 위해 상기 시청각 입력 벡터들에 대해 의미 연관 절차를 수행하는 단계를 포함하는, 합성된 시청각 신호.
제 23 항에 있어서,

상기 시청각 콘텐츠 합성 방법은:

화자의 음성의 입력 오디오 신호를 분석하는 단계;

상기 화자의 음성의 오디오 피쳐들을 추출하는 단계;

의미 연관 절차를 사용하여 상기 오디오 피쳐들에 대한 대응하는 비디오 표현들을 찾는 단계; 및

상기 시청각 구성들과 상기 대응하는 비디오 표현들을 매칭시키는 단계를 더 포함하는, 합성된 시청각 신호.
제 24 항에 있어서,

상기 시청각 콘텐츠 합성 방법은,

각각의 선택된 시청각 구성에 대해 컴퓨터 생성된 애니메이팅된 얼굴을 생성하는 단계;

상기 화자의 음성과 각각의 컴퓨터 생성된 애니메이팅된 얼굴을 동기화하는 단계; 및

상기 화자의 음성과 동기화된 상기 화자의 얼굴의 시청각 표현을 출력하는 단계를 더 포함하는, 합성된 시청각 신호.
제 23 항에 있어서,

상기 시청각 입력 신호들로부터 추출되는 상기 오디오 피쳐들은 멜 셉트럴 주파수 계수들, 선형 예측 코딩 계수들, 델타 멜 셉트럴 주파수 계수들, 델타 선형 예측 코딩 계수들, 및 자체상관 멜 셉트럴 주파수 계수들 중 하나를 포함하는, 합성된 시청각 신호.
제 23 항에 있어서,

상기 시청각 구성들은 히든 마르코프 모델 및 시간 지연 신경 회로망 중 하나를 사용하여 상기 시청각 입력 벡터들로부터 생성되는, 합성된 시청각 신호.
제 24 항에 있어서,

상기 대응하는 비디오 표현들은 히든 마르코프 모델 및 시간 지연 신경 회로망 중 하나를 사용하여 상기 시청각 구성들과 매칭되는, 합성된 시청각 신호.
제 25 항에 있어서,

얼굴 애니메이션 파라미터를 생성하도록 대응하는 분류된 오디오 피쳐와 각각의 복수의 시청각 구성들을 매칭시키는 단계; 및

선택된 얼굴 애니메이션 파라미터에 대해 상기 화자의 얼굴의 애니메이팅된 버전을 생성하는 단계를 더 포함하는, 합성된 시청각 신호.
제 29 항에 있어서,

(1) 텍스쳐 맵핑을 통한 3D 모델들 및 (2) 비디오 에디팅 중 하나를 사용하여 상기 화자의 얼굴의 애니메이팅된 버전을 생성하는 단계를 더 포함하는, 합성된 시청각 신호.
제 24 항에 있어서,

상기 의미 절차는 잠재적 의미 인덱싱, 표준 상관, 및 크로스 모달 팩터 분석 중 하나를 포함하는, 합성된 시청각 신호.
제 23 항에 있어서,

상기 시청각 구성들은 시청각 말하는 얼굴 움직임 구성요소들을 포함하는, 합성된 시청각 신호.
제 31 항에 있어서,

상기 시청각 콘텐츠 합성 방법은:

상기 화자의 음성의 상기 오디오 피쳐들과 상기 화자의 얼굴의 각각의 애니메이팅된 버전을 동기화하는 단계;

상기 화자의 음성과 동기화되는 상기 화자의 얼굴의 시청각 표현을 생성하는 단계;

상기 화자의 음성의 오디오 표현의 레벨을 결정하는 단계; 및

상기 화자의 음성의 오디오 표현의 상기 레벨의 결정에 응답하여 상기 화자의 애니메이팅된 얼굴 파라미터들을 수정하는 단계를 더 포함하는, 합성된 시청각 신호.